CN105574133A - 一种多模态的智能问答系统及方法 - Google Patents

一种多模态的智能问答系统及方法 Download PDF

Info

Publication number
CN105574133A
CN105574133A CN201510934422.0A CN201510934422A CN105574133A CN 105574133 A CN105574133 A CN 105574133A CN 201510934422 A CN201510934422 A CN 201510934422A CN 105574133 A CN105574133 A CN 105574133A
Authority
CN
China
Prior art keywords
information
video
modal
text
vector space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510934422.0A
Other languages
English (en)
Inventor
张金龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Beiduo Environmental Protection Technology Co Ltd
Original Assignee
Suzhou Beiduo Environmental Protection Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Beiduo Environmental Protection Technology Co Ltd filed Critical Suzhou Beiduo Environmental Protection Technology Co Ltd
Priority to CN201510934422.0A priority Critical patent/CN105574133A/zh
Publication of CN105574133A publication Critical patent/CN105574133A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems

Abstract

本发明公开一种多模态的智能问答系统和方法,其方法中用户可输入多模态信息问题,而用户输入的多模态信息问题经过映射处理为统一的向量空间,最后根据统一的向量空间进行转换分析后获取对应该多模态信息问题的精准的答案。本发明对于多模态信息,无论是文本、图片,视频及以上三种信息类型的任意组合均可统一进行处理,具有并行分布处理、高度鲁棒性和容错能力、分布存储及学习能力、能充分逼近复杂的非线性关系等突出特点,从而使得智能问答系统具备针对多模态信息的统一计算和处理能力,可以提高用户信息查询的丰富性,提高了用户问答的体验,使问答系统更加智能化。

Description

一种多模态的智能问答系统及方法
技术领域
本发明涉及计算机智能问答技术领域,尤其涉及一种多模态的智能问答系统及方法。
背景技术
近年来,随着自然语言处理技术的发展,智能问答系统受到了极大的关注,出现了微软小冰、讯飞语点等公众网络应答机器人及中科微喂等企业级智能问答系统。一个优质的问答系统可以解决客户常见的问题,降低人工开销,并能提供24小时无间断服务。
随着大数据与人工智能的发展,问答系统对于智能化的需求越来越明显,尤其是在智能问答系统中多模态信息的查询和直观展示。多模态的智能问答系统,可以允许用户进行多媒体信息的查询,包括图片、音频、视频、图片加文本和视频加本文等信息,从而满足用户多媒体输入的需求,提高用户信息查询的丰富性。同时,它也支持答案的多媒体形式的展示,利用丰富的媒体形式,对用户提出的问题给出一个准确和形象的答案。
智能问答技术(QuestionAnswering,QA)是综合运用了自然语言处理、信息检索、语义分析、人工智能等技术的一种新型的信息服务技术。与传统的搜索引擎不同,自动问答系统以自然语言句子提问,系统分析并理解用户的问题,返回用户想要的答案。问答系统能给用户提供更加精确的信息服务,用户不需要阅读搜索引擎返回的文档列表去查找答案,从而提高了效率。当前,智能问答系统的研究仍旧集中在文本信息的交互上,问题和答案的呈现模式都是文本信息。基于文本的智能问答系统主要的技术为:自然语言处理、信息检索、知识表示、语义理解等技术。通常分为文本预处理,文本分析、答案选择等模块,在文本分析模块主要是对文本信息进行问题分类、关键词提取和关键词拓展,从而判断出用户的问答意向,然后通过信息检索模块找到对应的文本答案。
然而,随着互联网及移动互联网的快速发展,多媒体信息量的急剧增长,对于智能问答系统在信息的多模态、直观性和丰富性上提出了更高的要求,基于文本的智能问答新系统无法满足目前多媒体问答的需求。传统基于文本智能问答系统主要存在以下问题:
1、无法满足用户对多模态信息的查询,只能以单一的文本信息进行交互;
2、问答系统的答案的呈现模式为文本模式,展示方式不够直观形象,缺乏多媒体形式的展示;
3、缺乏多模态处理的流程和模式,不能满足智能问答系统的可扩展性。
以上的原因阻碍着问答系统智能化的发展,无法满足多媒体形式下的智能问答系统的需求。
发明内容
为了解决上述技术问题,本发明提出了一种多模态的智能问答系统及方法,旨在解决用户的多模态信息的输入和处理分析,提高用户问答的体验,增强问答系统的智能化。
本发明的系统包括:
多模态信息接收模块,用于接收用户输入的多模态信息问题,所述多模态信息包括语音信息、文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本图片视频组合信息;
分类模块,用于根据输入模块和编码格式对输入的信息进行分类,分类后的信息类别包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息和文本图片视频组合信息;其中,语音信息被转换为文本信息;
映射模块,用于将分类后的信息分别映射到相应的向量空间;文本图片组合信息、文本视频组合信息和文本图片视频组合信息被拆分为文本信息、图片信息和视频信息分别处理;
答复生成模块,用于对所述映射模块映射得到的向量空间进行转换分析后生成对所述多模态信息问题的答复。
进一步地,所述映射模块包括文本映射单元,图像映射单元和视频映射单元。
所述文本映射单元用于根据循环神经网络将所述文本信息映射到文本向量空间。
所述图片映射单元用于根据卷积神经网络提取图像特征,并将提取的特征映射到图片向量空间。
所述视频映射单元用于将所述视频信息转换为图像序列,根据卷积神经网络将所述图片序列映射到图像向量空间,然后进一步根据循环神经网络将序列化连续的图像向量空间映射为视频向量空间。
所述答复包括生成用户输入问题的答案或生成对用户输入问题的处理指令。
相应地,本发明还提供了一种多模态的智能问答方法,包括以下步骤:
S1、多接收用户输入的多模态信息问题,所述多模态信息包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本图片视频组合信息;
S2、对输入的信息进行分类,分类后的信息类别包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息和文本图片视频组合信息;
S3、将分类后的信息分别映射到相应的向量空间;
S4、对所述映射模块映射得到的向量空间进行转换分析后生成对所述多模态信息问题的答复。
步骤S3进一步包括:根据循环神经网络将所述文本信息映射到文本向量空间。
步骤S3进一步包括:根据卷积神经网络提取图像特征,并将提取的特征映射到图片向量空间。
步骤S3进一步包括:将所述视频信息转换为图像序列,根据卷积神经网络将所述图片序列映射到图像向量空间,然后进一步根据循环神经网络将序列化连续的图像向量空间映射为视频向量空间。
步骤S4中的生成对所述多模态信息问题的答复包括生成用户输入问题的答案或生成对用户输入问题的处理指令。
本发明取得了以下技术效果:
本发明的实现智能问答的系统和方法中由于用户可输入多模态信息问题,而用户输入的多模态信息问题经过映射处理为统一的向量空间,最后根据统一的向量空间进行转换分析后获取对应该多模态信息问题的精准的答案,即本发明对于多模态信息,无论是文本、图片,视频及以上三种信息类型的任意组合均可统一进行处理,具有并行分布处理、高度鲁棒性和容错能力、分布存储及学习能力、能充分逼近复杂的非线性关系等突出特点,从而使得智能问答系统具备针对多模态信息的统一计算和处理能力,可以提高用户信息查询的丰富性,提高了用户问答的体验,使问答系统更加智能化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是根据本发明的多模态智能问答系统的一种具体实施例框图;
图2是根据图1中映射模块的一种具体实施例示意图;
图3是根据图2中图片映射单元进行映射的工作原理图;
图4是根据图2中视频映射单元进行映射的工作原理图;
图5是一个具体实施例中包括文字、图片的一个多媒体信息问题的智能问题示意图;
图6是根据本发明实现智能问答的方法的一种具体实施例流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
参考图1,该图为根据本发明实现智能问答的系统的一种具体实施例框图,其包括:
多模态信息接收模块,用于接收用户输入的多模态信息问题,所述多模态信息包括语音信息、文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本图片视频组合信息;文本图片组合信息也可以写为文本+图片信息,文本视频组合信息也可以写为文本+视频信息,文本图片视频组合信息也可以写为文本+图片+视频信息;
分类模块,用于根据输入模块和编码格式对输入的信息进行分类,分类后的信息类别包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息和文本图片视频组合信息;其中,语音信息被转换为文本信息;
映射模块,用于将分类后的信息分别映射到相应的向量空间;
答复生成模块,用于对所述映射模块映射得到的向量空间进行转换分析后生成对所述多模态信息问题的答复。
上述实施例中,由于用户输入的多模态信息问题可以是各种形式的,因此,映射模块对于不同的多模态信息也具有相应的功能模块并按照统一的架构去执行映射,参考图2,映射模块包括文本映射单元、图像映射单元和视频映射单元。例如,所述多模态信息若为文本信息,文本映射单元用于根据循环神经网络将所述文本信息映射为文本向量空间。
具体实现时,上述文本映射单元采用循环神经网络RNN进行句子向量表示,将文本信息映射为文本向量空间,即将词映射到低维空间,例如,假设输入句子为x={x1,x2,…xt..xN},且x1是词,c(x1)表示x1词向量,即将词进行了低维空间的映射,具体映射时,可采用如下的方式进行映射,例如,映射采用如下公式:
fQ(t)=g(g(c(xt)WQ+fQ(t-1)WQh+b1)MQ+b2)(1)
g ( x ) = 1 1 + e - x - - - ( 2 )
上式中t表示问句中词的序列,既利用循环神经网络RNN将句子表示为其最后一个输出fq(N)。利用上面的模型,将文本问题映射到了一个低维的文本向量空间fq(N);fq(t)是中间过程中序列的向量,g(x)为激发函数,fq(N)为最终的句子向量,也就是文本向量空间,Q代表文本,只是标识。Qh代表其中文本参数矩阵的表示,c表示向量矩阵;WQ,WQh,Wq为参数矩阵,b2为偏置项。
图片映射单元用于根据卷积神经网络将所述图片信息映射为图片向量空间。
具体实现时,上述图片映射单元采用卷积神经网络CNN进行图像的特征提取和低维表示,通过对图像进行特征抽取,抽取的特征利用向量空间进行表示,即将图像映射为低维向量空间,具体映射时,可采用如下的方式进行映射,例如,假设输入的图像为T∈RM×N,Tmn为图像的像素点,映射可采用如下公式:
sub(i)=ΣkΣjTm+k,n+j×filter(k,j)(3)
fI=MaxPolling(sub)(4)
其中,i表示对图像进行分块中的其中一块,filter(k,j)为特征提取函数,maxpolling为选取最大值的函数;filter(k,j)表示分块矩阵中每个维度的权重,fI表示最后的图像向量,m,n,k,j表示像素的位置。
结合图3,在上式中滤波器filter进行特征提取,通过提取局部特征后通过maxpolling函数进行全局特征的提取,获取图像的低维表示。
对文本图片组合信息中的文本信息可以通过图像映射单元提取出图片中的文本信息,再通过文本映射单元将文本信息映射到文本向量空间。
视频映射单元用于将所述视频信息转换为图像序列,根据卷积神经网络将所述图片序列映射到图像向量空间,然后进一步根据循环神经网络将序列化连续的图像向量空间映射为视频向量空间。
具体实现时,上述视频映射单元对视频进行图像序列化,然后通过卷积神经网络CNN进行图像空间映射,最后通过循环神经网络RNN进行序列化连续的空间映射,即将视频映射为低维向量空间,如图4所示,具体映射时,例如,假设视频为v,对应的序列化的图像为v(t),t为对应的时刻,映射可采用如下公式:
fV(t)=g(g(fI(v(t))WV+fV(t-1)WVh+b1)MV+b2)(5)
fV(t)表示视频向量,vh表示视频标号,只是一个记号;WV代表视频向量提取中的参数矩阵;WVh代表参数矩阵,b1是偏置项。
在视频映射单元中,对音频的处理与对语音信息的处理类似,不再赘述。
对文本视频信息及文本图片视频组合信息中的文本信息可以通过视频映射单元将视频转换为图片,提取出图片中的文本信息,再通过文本映射单元将文本信息映射为文本向量空间。
上述具体实施例中,按照统一的架构将文本信息fQ、图片信息fI和视频信息fV进行了空间映射,而假设最终生成的答案或指令为y={y1,y2,…yt..yN},t为答案对应的序列,训练的目标函数为:
E(t)=g(RQfQ+RIfI+RVfV+RVfA(t))(6)
L ( t ) = β ( E ( t ) W ) β ( x i ) = e x i 1 + Σ j x j - - - ( 7 )
O(t)=log(L(t)y(t+1))(8)
其中,上式中β(xi)为SoftMax函数,O(t)为目标函数,RQ,RI,RV均为参数矩阵;E(t)代表最后的多媒体向量。fA(t)代表答案向量;其中的t为句子长度;L(t)表示多媒体向量进行非线性变化的向量。
即当答复生成模块3进行分析时,例如对于文本+图片+视频多种模态的组合方式进行分析处理,首先将输入的问题、图片和视频进行空间映射,分别为三种向量形成的向量空间表示,然后将这三个向量空间输入到答复生成模块中,即会产生此问题对应的文本答案或指令。
例如,参考图5,若用户输入多模态信息的问题,答复生成模块会产生相应的文本答案或指令,例如用户输入“狗嘴里含着什么+图片(狗含着一支玫瑰)”,答复生成模块3会产生“含着一支鲜红的玫瑰”的答案,或者又如用户输入“有这个图片相似的图片有哪些?+图片”,答复生成模块3会产生“查询相似图片”的答复,即产生一条指令。
另外,根据本发明的另一方面,参考图6,本实施例一种实现智能问答的方法,主要包括:
S1、多接收用户输入的多模态信息问题,所述多模态信息包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本图片视频组合信息;
S2、对输入的信息进行分类,分类后的信息类别包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息和文本图片视频组合信息;
S3、将分类后的信息分别映射到相应的向量空间;
S4、对所述映射模块映射得到的向量空间进行转换分析后生成对所述多模态信息问题的答复。
步骤S3进一步包括:根据循环神经网络将所述文本信息映射到文本向量空间。
步骤S3进一步包括:根据卷积神经网络提取图像特征,并将提取的特征映射到图片向量空间。
步骤S3进一步包括:将所述视频信息转换为图像序列,根据卷积神经网络将所述图片序列映射到图像向量空间,然后进一步根据循环神经网络将序列化连续的图像向量空间映射为视频向量空间。
步骤S4中的生成对所述多模态信息问题的答复包括生成用户输入问题的答案或生成对用户输入问题的处理指令。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种多模态的智能问答系统,其特征在于,包括
多模态信息接收模块,用于接收用户输入的多模态信息问题,所述多模态信息包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本图片视频组合信息;
分类模块,用于对输入的信息进行分类,分类后的信息类别包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息和文本图片视频组合信息;
映射模块,用于将分类后的信息分别映射到相应的向量空间;
答复生成模块,用于对所述映射模块映射得到的向量空间进行转换分析后生成对所述多模态信息问题的答复。
2.根据权利要求1所述的多模态的智能问答系统,其特征在于,所述映射模块包括文本映射单元,所述文本映射单元用于根据循环神经网络将所述文本信息映射到文本向量空间。
3.根据权利要求1或2所述的多模态的智能问答系统,其特征在于,所述映射模块还包括图片映射单元,所述图片映射单元用于根据卷积神经网络提取图像特征,并将提取的特征映射到图片向量空间。
4.根据权利要求3所述的多模态的智能问答系统,其特征在于,所述映射模块还包括视频映射单元,所述视频映射单元用于将所述视频信息转换为图像序列,根据卷积神经网络将所述图片序列映射到图像向量空间,然后进一步根据循环神经网络将序列化连续的图像向量空间映射为视频向量空间。
5.根据权利要求1所述的多模态的智能问答系统,其特征在于,所述答复包括生成用户输入问题的答案或生成对用户输入问题的处理指令。
6.一种多模态的智能问答方法,其特征在于,包括以下步骤:
S1、多接收用户输入的多模态信息问题,所述多模态信息包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本图片视频组合信息;
S2、对输入的信息进行分类,分类后的信息类别包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息和文本图片视频组合信息;
S3、将分类后的信息分别映射到相应的向量空间;
S4、对所述映射模块映射得到的向量空间进行转换分析后生成对所述多模态信息问题的答复。
7.根据权利要求6所述的多模态的智能问答方法,其特征在于,步骤S3进一步包括:根据循环神经网络将所述文本信息映射到文本向量空间。
8.根据权利要求6或7所述的多模态的智能问答方法,其特征在于,步骤S3进一步包括:根据卷积神经网络提取图像特征,并将提取的特征映射到图片向量空间。
9.根据权利要求8所述的多模态的智能问答方法,其特征在于,步骤S3进一步包括:将所述视频信息转换为图像序列,根据卷积神经网络将所述图片序列映射到图像向量空间,然后进一步根据循环神经网络将序列化连续的图像向量空间映射为视频向量空间。
10.根据权利要求6所述的多模态的智能问答方法,其特征在于,步骤S4中的生成对所述多模态信息问题的答复包括生成用户输入问题的答案或生成对用户输入问题的处理指令。
CN201510934422.0A 2015-12-15 2015-12-15 一种多模态的智能问答系统及方法 Pending CN105574133A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510934422.0A CN105574133A (zh) 2015-12-15 2015-12-15 一种多模态的智能问答系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510934422.0A CN105574133A (zh) 2015-12-15 2015-12-15 一种多模态的智能问答系统及方法

Publications (1)

Publication Number Publication Date
CN105574133A true CN105574133A (zh) 2016-05-11

Family

ID=55884264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510934422.0A Pending CN105574133A (zh) 2015-12-15 2015-12-15 一种多模态的智能问答系统及方法

Country Status (1)

Country Link
CN (1) CN105574133A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106663131A (zh) * 2016-06-29 2017-05-10 深圳狗尾草智能科技有限公司 一种基于用户画像的个性化回答生成方法及系统
CN106682642A (zh) * 2017-01-06 2017-05-17 竹间智能科技(上海)有限公司 多面向语言行为识别方法及系统
CN107045553A (zh) * 2017-05-05 2017-08-15 上海携程国际旅行社有限公司 人工智能客服机器人的问题分类方法及系统
CN107203586A (zh) * 2017-04-19 2017-09-26 天津大学 一种基于多模态信息的自动化结果生成方法
CN107463609A (zh) * 2017-06-27 2017-12-12 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN107480194A (zh) * 2017-07-13 2017-12-15 中国科学院自动化研究所 多模态知识表示自动学习模型的构建方法及系统
WO2018000205A1 (zh) * 2016-06-28 2018-01-04 深圳狗尾草智能科技有限公司 一种基于多意图的多技能包问答方法、系统和机器人
CN107563407A (zh) * 2017-08-01 2018-01-09 同济大学 一种面向网络空间多模态大数据的特征表示学习系统
WO2018009490A1 (en) * 2016-07-08 2018-01-11 Microsoft Technology Licensing, Llc Conversational relevance modeling using convolutional neural network
CN107977236A (zh) * 2017-12-21 2018-05-01 上海智臻智能网络科技股份有限公司 问答系统的生成方法、终端设备、存储介质及问答系统
CN108021897A (zh) * 2017-12-11 2018-05-11 北京小米移动软件有限公司 图片问答方法及装置
CN108228703A (zh) * 2017-10-31 2018-06-29 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
CN108228285A (zh) * 2016-12-14 2018-06-29 中国航空工业集团公司西安航空计算技术研究所 一种端到端的多模态人机交互指令识别方法
CN108345692A (zh) * 2018-03-16 2018-07-31 北京京东尚科信息技术有限公司 一种自动问答方法和系统
CN108446649A (zh) * 2018-03-27 2018-08-24 百度在线网络技术(北京)有限公司 用于告警的方法及装置
CN108734183A (zh) * 2017-04-14 2018-11-02 清华大学 检查方法和检查设备
CN108959627A (zh) * 2018-07-23 2018-12-07 北京光年无限科技有限公司 基于智能机器人的问答交互方法及系统
CN109033277A (zh) * 2018-07-10 2018-12-18 广州极天信息技术股份有限公司 基于机器学习的类脑系统、方法、设备及存储介质
CN110059231A (zh) * 2019-04-19 2019-07-26 话媒(广州)科技有限公司 一种回复内容的生成方法及装置
CN110674294A (zh) * 2019-08-29 2020-01-10 维沃移动通信有限公司 一种相似度确定方法及电子设备
CN111339256A (zh) * 2020-02-28 2020-06-26 支付宝(杭州)信息技术有限公司 用于文本处理的方法和装置
CN111899738A (zh) * 2020-07-29 2020-11-06 北京嘀嘀无限科技发展有限公司 对话生成方法、装置及存储介质
CN111897940A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备
CN112148836A (zh) * 2020-09-07 2020-12-29 北京字节跳动网络技术有限公司 多模态信息处理方法、装置、设备及存储介质
CN116562270A (zh) * 2023-07-07 2023-08-08 天津亿科科技有限公司 一种支持多模态输入的自然语言处理系统及其方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN102609500A (zh) * 2012-02-01 2012-07-25 北京百度网讯科技有限公司 一种问题推送方法和采用该方法的问答系统和搜索引擎
CN103049526A (zh) * 2012-12-20 2013-04-17 中国科学院自动化研究所 基于双空间学习的跨媒体检索方法
US20130226892A1 (en) * 2012-02-29 2013-08-29 Fluential, Llc Multimodal natural language interface for faceted search
JP5431532B2 (ja) * 2012-06-08 2014-03-05 日本電信電話株式会社 質問応答装置、モデル学習装置、方法、及びプログラム
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN102609500A (zh) * 2012-02-01 2012-07-25 北京百度网讯科技有限公司 一种问题推送方法和采用该方法的问答系统和搜索引擎
US20130226892A1 (en) * 2012-02-29 2013-08-29 Fluential, Llc Multimodal natural language interface for faceted search
JP5431532B2 (ja) * 2012-06-08 2014-03-05 日本電信電話株式会社 質問応答装置、モデル学習装置、方法、及びプログラム
CN103049526A (zh) * 2012-12-20 2013-04-17 中国科学院自动化研究所 基于双空间学习的跨媒体检索方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
洪日昌 等: "多媒体问答—多模态智能检索初探", 《中国计算机学会通讯》 *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018000205A1 (zh) * 2016-06-28 2018-01-04 深圳狗尾草智能科技有限公司 一种基于多意图的多技能包问答方法、系统和机器人
CN106663131A (zh) * 2016-06-29 2017-05-10 深圳狗尾草智能科技有限公司 一种基于用户画像的个性化回答生成方法及系统
CN107590153B (zh) * 2016-07-08 2021-04-27 微软技术许可有限责任公司 使用卷积神经网络的对话相关性建模
US11593613B2 (en) 2016-07-08 2023-02-28 Microsoft Technology Licensing, Llc Conversational relevance modeling using convolutional neural network
WO2018009490A1 (en) * 2016-07-08 2018-01-11 Microsoft Technology Licensing, Llc Conversational relevance modeling using convolutional neural network
CN107590153A (zh) * 2016-07-08 2018-01-16 微软技术许可有限责任公司 使用卷积神经网络的对话相关性建模
CN108228285A (zh) * 2016-12-14 2018-06-29 中国航空工业集团公司西安航空计算技术研究所 一种端到端的多模态人机交互指令识别方法
CN106682642A (zh) * 2017-01-06 2017-05-17 竹间智能科技(上海)有限公司 多面向语言行为识别方法及系统
CN108734183A (zh) * 2017-04-14 2018-11-02 清华大学 检查方法和检查设备
JP2020516897A (ja) * 2017-04-14 2020-06-11 清華大学Tsinghua University 検査方法及び検査設備
CN107203586A (zh) * 2017-04-19 2017-09-26 天津大学 一种基于多模态信息的自动化结果生成方法
CN107045553A (zh) * 2017-05-05 2017-08-15 上海携程国际旅行社有限公司 人工智能客服机器人的问题分类方法及系统
CN107463609B (zh) * 2017-06-27 2020-06-19 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN107463609A (zh) * 2017-06-27 2017-12-12 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN107480194A (zh) * 2017-07-13 2017-12-15 中国科学院自动化研究所 多模态知识表示自动学习模型的构建方法及系统
CN107480194B (zh) * 2017-07-13 2020-03-13 中国科学院自动化研究所 多模态知识表示自动学习模型的构建方法及系统
CN107563407B (zh) * 2017-08-01 2020-08-14 同济大学 一种面向网络空间多模态大数据的特征表示学习系统
CN107563407A (zh) * 2017-08-01 2018-01-09 同济大学 一种面向网络空间多模态大数据的特征表示学习系统
WO2019085905A1 (zh) * 2017-10-31 2019-05-09 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
US11222236B2 (en) 2017-10-31 2022-01-11 Beijing Sensetime Technology Development Co., Ltd. Image question answering method, apparatus and system, and storage medium
CN108228703A (zh) * 2017-10-31 2018-06-29 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
CN108021897B (zh) * 2017-12-11 2021-06-15 北京小米移动软件有限公司 图片问答方法及装置
CN108021897A (zh) * 2017-12-11 2018-05-11 北京小米移动软件有限公司 图片问答方法及装置
CN107977236A (zh) * 2017-12-21 2018-05-01 上海智臻智能网络科技股份有限公司 问答系统的生成方法、终端设备、存储介质及问答系统
CN107977236B (zh) * 2017-12-21 2020-11-13 上海智臻智能网络科技股份有限公司 问答系统的生成方法、终端设备、存储介质及问答系统
CN108345692A (zh) * 2018-03-16 2018-07-31 北京京东尚科信息技术有限公司 一种自动问答方法和系统
CN108446649A (zh) * 2018-03-27 2018-08-24 百度在线网络技术(北京)有限公司 用于告警的方法及装置
CN109033277A (zh) * 2018-07-10 2018-12-18 广州极天信息技术股份有限公司 基于机器学习的类脑系统、方法、设备及存储介质
CN108959627B (zh) * 2018-07-23 2021-12-17 北京光年无限科技有限公司 基于智能机器人的问答交互方法及系统
CN108959627A (zh) * 2018-07-23 2018-12-07 北京光年无限科技有限公司 基于智能机器人的问答交互方法及系统
CN110059231A (zh) * 2019-04-19 2019-07-26 话媒(广州)科技有限公司 一种回复内容的生成方法及装置
CN110674294A (zh) * 2019-08-29 2020-01-10 维沃移动通信有限公司 一种相似度确定方法及电子设备
CN111339256A (zh) * 2020-02-28 2020-06-26 支付宝(杭州)信息技术有限公司 用于文本处理的方法和装置
CN111899738A (zh) * 2020-07-29 2020-11-06 北京嘀嘀无限科技发展有限公司 对话生成方法、装置及存储介质
CN111897940A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备
WO2022033208A1 (zh) * 2020-08-12 2022-02-17 腾讯科技(深圳)有限公司 视觉对话方法、模型训练方法、装置、电子设备及计算机可读存储介质
CN112148836A (zh) * 2020-09-07 2020-12-29 北京字节跳动网络技术有限公司 多模态信息处理方法、装置、设备及存储介质
CN116562270A (zh) * 2023-07-07 2023-08-08 天津亿科科技有限公司 一种支持多模态输入的自然语言处理系统及其方法

Similar Documents

Publication Publication Date Title
CN105574133A (zh) 一种多模态的智能问答系统及方法
CN107766371B (zh) 一种文本信息分类方法及其装置
CN107239801B (zh) 视频属性表示学习方法及视频文字描述自动生成方法
Kovacs Cultural planning in Ontario, Canada: arts policy or more?
CN109918506A (zh) 一种文本分类方法及装置
CN103399870A (zh) 一种基于分类驱动的可视化词袋特征权重化方法和系统
CN110796143A (zh) 一种基于人机协同的场景文本识别方法
CN110149265B (zh) 消息展现方法、装置和计算机设备
CN106682050A (zh) 一种实现智能问答的系统及方法
CN110990597B (zh) 基于文本语义映射的跨模态数据检索系统及其检索方法
Reershemius Lamppost networks: stickers as a genre in urban semiotic landscapes
CN112529615A (zh) 自动生成广告的方法、装置、设备和计算机可读存储介质
CN114969282B (zh) 基于富媒体知识图谱多模态情感分析模型的智能交互方法
Zhang Analysis of the overall development mode of cultural tourism under the creative economy environment
CN112434746B (zh) 基于层次化迁移学习的预标注方法及其相关设备
Intasuwan et al. Text and object detection on billboards
CN113254814A (zh) 网络课程视频打标签方法、装置、电子设备及介质
Ueda et al. Switching Text-Based Image Encoders for Captioning Images With Text
CN111143515B (zh) 文本匹配方法及装置
CN106844732A (zh) 针对无法直接采集的会话场景标签进行自动获取的方法
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
CN116306506A (zh) 一种基于内容识别的智能邮件模板方法
CN111125387B (zh) 多媒体列表生成、命名方法、装置、电子设备和存储介质
Zhu Video captioning in compressed video
CN113723853A (zh) 岗位胜任力需求数据处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160511

WD01 Invention patent application deemed withdrawn after publication