CN105574133A

CN105574133A - 一种多模态的智能问答系统及方法

Info

Publication number: CN105574133A
Application number: CN201510934422.0A
Authority: CN
Inventors: 张金龙
Original assignee: Suzhou Beiduo Environmental Protection Technology Co Ltd
Current assignee: Suzhou Beiduo Environmental Protection Technology Co Ltd
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2016-05-11

Abstract

本发明公开一种多模态的智能问答系统和方法，其方法中用户可输入多模态信息问题，而用户输入的多模态信息问题经过映射处理为统一的向量空间，最后根据统一的向量空间进行转换分析后获取对应该多模态信息问题的精准的答案。本发明对于多模态信息，无论是文本、图片，视频及以上三种信息类型的任意组合均可统一进行处理，具有并行分布处理、高度鲁棒性和容错能力、分布存储及学习能力、能充分逼近复杂的非线性关系等突出特点，从而使得智能问答系统具备针对多模态信息的统一计算和处理能力，可以提高用户信息查询的丰富性，提高了用户问答的体验，使问答系统更加智能化。

Description

一种多模态的智能问答系统及方法

技术领域

本发明涉及计算机智能问答技术领域，尤其涉及一种多模态的智能问答系统及方法。

背景技术

近年来，随着自然语言处理技术的发展，智能问答系统受到了极大的关注，出现了微软小冰、讯飞语点等公众网络应答机器人及中科微喂等企业级智能问答系统。一个优质的问答系统可以解决客户常见的问题，降低人工开销，并能提供24小时无间断服务。

随着大数据与人工智能的发展，问答系统对于智能化的需求越来越明显，尤其是在智能问答系统中多模态信息的查询和直观展示。多模态的智能问答系统，可以允许用户进行多媒体信息的查询，包括图片、音频、视频、图片加文本和视频加本文等信息，从而满足用户多媒体输入的需求，提高用户信息查询的丰富性。同时，它也支持答案的多媒体形式的展示，利用丰富的媒体形式，对用户提出的问题给出一个准确和形象的答案。

智能问答技术(QuestionAnswering，QA)是综合运用了自然语言处理、信息检索、语义分析、人工智能等技术的一种新型的信息服务技术。与传统的搜索引擎不同，自动问答系统以自然语言句子提问，系统分析并理解用户的问题，返回用户想要的答案。问答系统能给用户提供更加精确的信息服务，用户不需要阅读搜索引擎返回的文档列表去查找答案，从而提高了效率。当前，智能问答系统的研究仍旧集中在文本信息的交互上，问题和答案的呈现模式都是文本信息。基于文本的智能问答系统主要的技术为：自然语言处理、信息检索、知识表示、语义理解等技术。通常分为文本预处理，文本分析、答案选择等模块，在文本分析模块主要是对文本信息进行问题分类、关键词提取和关键词拓展，从而判断出用户的问答意向，然后通过信息检索模块找到对应的文本答案。

然而，随着互联网及移动互联网的快速发展，多媒体信息量的急剧增长，对于智能问答系统在信息的多模态、直观性和丰富性上提出了更高的要求，基于文本的智能问答新系统无法满足目前多媒体问答的需求。传统基于文本智能问答系统主要存在以下问题：

1、无法满足用户对多模态信息的查询，只能以单一的文本信息进行交互；

2、问答系统的答案的呈现模式为文本模式，展示方式不够直观形象，缺乏多媒体形式的展示；

3、缺乏多模态处理的流程和模式，不能满足智能问答系统的可扩展性。

以上的原因阻碍着问答系统智能化的发展，无法满足多媒体形式下的智能问答系统的需求。

发明内容

为了解决上述技术问题，本发明提出了一种多模态的智能问答系统及方法，旨在解决用户的多模态信息的输入和处理分析，提高用户问答的体验，增强问答系统的智能化。

本发明的系统包括：

多模态信息接收模块，用于接收用户输入的多模态信息问题，所述多模态信息包括语音信息、文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本图片视频组合信息；

分类模块，用于根据输入模块和编码格式对输入的信息进行分类，分类后的信息类别包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息和文本图片视频组合信息；其中，语音信息被转换为文本信息；

映射模块，用于将分类后的信息分别映射到相应的向量空间；文本图片组合信息、文本视频组合信息和文本图片视频组合信息被拆分为文本信息、图片信息和视频信息分别处理；

答复生成模块，用于对所述映射模块映射得到的向量空间进行转换分析后生成对所述多模态信息问题的答复。

进一步地，所述映射模块包括文本映射单元，图像映射单元和视频映射单元。

所述文本映射单元用于根据循环神经网络将所述文本信息映射到文本向量空间。

所述图片映射单元用于根据卷积神经网络提取图像特征，并将提取的特征映射到图片向量空间。

所述视频映射单元用于将所述视频信息转换为图像序列，根据卷积神经网络将所述图片序列映射到图像向量空间，然后进一步根据循环神经网络将序列化连续的图像向量空间映射为视频向量空间。

所述答复包括生成用户输入问题的答案或生成对用户输入问题的处理指令。

相应地，本发明还提供了一种多模态的智能问答方法，包括以下步骤：

S1、多接收用户输入的多模态信息问题，所述多模态信息包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本图片视频组合信息；

S2、对输入的信息进行分类，分类后的信息类别包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息和文本图片视频组合信息；

S3、将分类后的信息分别映射到相应的向量空间；

S4、对所述映射模块映射得到的向量空间进行转换分析后生成对所述多模态信息问题的答复。

步骤S3进一步包括：根据循环神经网络将所述文本信息映射到文本向量空间。

步骤S3进一步包括：根据卷积神经网络提取图像特征，并将提取的特征映射到图片向量空间。

步骤S3进一步包括：将所述视频信息转换为图像序列，根据卷积神经网络将所述图片序列映射到图像向量空间，然后进一步根据循环神经网络将序列化连续的图像向量空间映射为视频向量空间。

步骤S4中的生成对所述多模态信息问题的答复包括生成用户输入问题的答案或生成对用户输入问题的处理指令。

本发明取得了以下技术效果：

本发明的实现智能问答的系统和方法中由于用户可输入多模态信息问题，而用户输入的多模态信息问题经过映射处理为统一的向量空间，最后根据统一的向量空间进行转换分析后获取对应该多模态信息问题的精准的答案，即本发明对于多模态信息，无论是文本、图片，视频及以上三种信息类型的任意组合均可统一进行处理，具有并行分布处理、高度鲁棒性和容错能力、分布存储及学习能力、能充分逼近复杂的非线性关系等突出特点，从而使得智能问答系统具备针对多模态信息的统一计算和处理能力，可以提高用户信息查询的丰富性，提高了用户问答的体验，使问答系统更加智能化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是根据本发明的多模态智能问答系统的一种具体实施例框图；

图2是根据图1中映射模块的一种具体实施例示意图；

图3是根据图2中图片映射单元进行映射的工作原理图；

图4是根据图2中视频映射单元进行映射的工作原理图；

图5是一个具体实施例中包括文字、图片的一个多媒体信息问题的智能问题示意图；

图6是根据本发明实现智能问答的方法的一种具体实施例流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

参考图1，该图为根据本发明实现智能问答的系统的一种具体实施例框图，其包括：

多模态信息接收模块，用于接收用户输入的多模态信息问题，所述多模态信息包括语音信息、文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本图片视频组合信息；文本图片组合信息也可以写为文本+图片信息，文本视频组合信息也可以写为文本+视频信息，文本图片视频组合信息也可以写为文本+图片+视频信息；

映射模块，用于将分类后的信息分别映射到相应的向量空间；

上述实施例中，由于用户输入的多模态信息问题可以是各种形式的，因此，映射模块对于不同的多模态信息也具有相应的功能模块并按照统一的架构去执行映射，参考图2，映射模块包括文本映射单元、图像映射单元和视频映射单元。例如，所述多模态信息若为文本信息，文本映射单元用于根据循环神经网络将所述文本信息映射为文本向量空间。

具体实现时，上述文本映射单元采用循环神经网络RNN进行句子向量表示，将文本信息映射为文本向量空间，即将词映射到低维空间，例如，假设输入句子为x＝{x1，x2，…xt..xN}，且x1是词，c(x1)表示x1词向量，即将词进行了低维空间的映射，具体映射时，可采用如下的方式进行映射，例如，映射采用如下公式：

f_Q(t)＝g(g(c(x_t)W_Q+f_Q(t-1)W_Qh+b₁)M_Q+b₂)(1)

g (x) = \frac{1}{1 + e^{- x}} - - - (2)

上式中t表示问句中词的序列，既利用循环神经网络RNN将句子表示为其最后一个输出f_q(N)。利用上面的模型，将文本问题映射到了一个低维的文本向量空间f_q(N)；f_q(t)是中间过程中序列的向量，g(x)为激发函数，f_q(N)为最终的句子向量，也就是文本向量空间，Q代表文本，只是标识。Qh代表其中文本参数矩阵的表示，c表示向量矩阵；W_Q，W_Qh，Wq为参数矩阵，b₂为偏置项。

图片映射单元用于根据卷积神经网络将所述图片信息映射为图片向量空间。

具体实现时，上述图片映射单元采用卷积神经网络CNN进行图像的特征提取和低维表示，通过对图像进行特征抽取，抽取的特征利用向量空间进行表示，即将图像映射为低维向量空间，具体映射时，可采用如下的方式进行映射，例如，假设输入的图像为T∈R^M×N,T_mn为图像的像素点，映射可采用如下公式：

sub(i)＝Σ_kΣ_jT_m+k，n+j×filter(k，j)(3)

f_I＝MaxPolling(sub)(4)

其中，i表示对图像进行分块中的其中一块，filter(k,j)为特征提取函数，maxpolling为选取最大值的函数；filter(k,j)表示分块矩阵中每个维度的权重，f_I表示最后的图像向量，m,n,k,j表示像素的位置。

结合图3，在上式中滤波器filter进行特征提取，通过提取局部特征后通过maxpolling函数进行全局特征的提取，获取图像的低维表示。

对文本图片组合信息中的文本信息可以通过图像映射单元提取出图片中的文本信息，再通过文本映射单元将文本信息映射到文本向量空间。

视频映射单元用于将所述视频信息转换为图像序列，根据卷积神经网络将所述图片序列映射到图像向量空间，然后进一步根据循环神经网络将序列化连续的图像向量空间映射为视频向量空间。

具体实现时，上述视频映射单元对视频进行图像序列化，然后通过卷积神经网络CNN进行图像空间映射，最后通过循环神经网络RNN进行序列化连续的空间映射，即将视频映射为低维向量空间，如图4所示，具体映射时，例如，假设视频为v，对应的序列化的图像为v(t)，t为对应的时刻，映射可采用如下公式：

f_V(t)＝g(g(f_I(v(t))W_V+f_V(t-1)W_Vh+b₁)M_V+b₂)(5)

f_V(t)表示视频向量，vh表示视频标号，只是一个记号；W_V代表视频向量提取中的参数矩阵；W_Vh代表参数矩阵，b1是偏置项。

在视频映射单元中，对音频的处理与对语音信息的处理类似，不再赘述。

对文本视频信息及文本图片视频组合信息中的文本信息可以通过视频映射单元将视频转换为图片，提取出图片中的文本信息，再通过文本映射单元将文本信息映射为文本向量空间。

上述具体实施例中，按照统一的架构将文本信息f_Q、图片信息f_I和视频信息f_V进行了空间映射，而假设最终生成的答案或指令为y＝{y1,y2,…yt..yN}，t为答案对应的序列，训练的目标函数为：

E(t)＝g(R_Qf_Q+R_If_I+R_Vf_V+R_Vf_A(t))(6)

\begin{matrix} L (t) = β (E (t) W) & β (x_{i}) = \frac{e^{x_{i}}}{1 + Σ_{j} x_{j}} \end{matrix} - - - (7)

O(t)＝log(L(t)y(t+1))(8)

其中，上式中β(x_i)为SoftMax函数，O(t)为目标函数，R_Q，R_I，R_V均为参数矩阵；E(t)代表最后的多媒体向量。f_A(t)代表答案向量；其中的t为句子长度；L(t)表示多媒体向量进行非线性变化的向量。

即当答复生成模块3进行分析时，例如对于文本+图片+视频多种模态的组合方式进行分析处理，首先将输入的问题、图片和视频进行空间映射，分别为三种向量形成的向量空间表示，然后将这三个向量空间输入到答复生成模块中，即会产生此问题对应的文本答案或指令。

例如，参考图5，若用户输入多模态信息的问题，答复生成模块会产生相应的文本答案或指令，例如用户输入“狗嘴里含着什么+图片(狗含着一支玫瑰)”，答复生成模块3会产生“含着一支鲜红的玫瑰”的答案，或者又如用户输入“有这个图片相似的图片有哪些？+图片”，答复生成模块3会产生“查询相似图片”的答复，即产生一条指令。

另外，根据本发明的另一方面，参考图6，本实施例一种实现智能问答的方法，主要包括：

S3、将分类后的信息分别映射到相应的向量空间；

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种多模态的智能问答系统，其特征在于，包括

多模态信息接收模块，用于接收用户输入的多模态信息问题，所述多模态信息包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息、文本图片视频组合信息；

分类模块，用于对输入的信息进行分类，分类后的信息类别包括文本信息、图片信息、视频信息、文本图片组合信息、文本视频组合信息和文本图片视频组合信息；

2.根据权利要求1所述的多模态的智能问答系统，其特征在于，所述映射模块包括文本映射单元，所述文本映射单元用于根据循环神经网络将所述文本信息映射到文本向量空间。

3.根据权利要求1或2所述的多模态的智能问答系统，其特征在于，所述映射模块还包括图片映射单元，所述图片映射单元用于根据卷积神经网络提取图像特征，并将提取的特征映射到图片向量空间。

4.根据权利要求3所述的多模态的智能问答系统，其特征在于，所述映射模块还包括视频映射单元，所述视频映射单元用于将所述视频信息转换为图像序列，根据卷积神经网络将所述图片序列映射到图像向量空间，然后进一步根据循环神经网络将序列化连续的图像向量空间映射为视频向量空间。

5.根据权利要求1所述的多模态的智能问答系统，其特征在于，所述答复包括生成用户输入问题的答案或生成对用户输入问题的处理指令。

6.一种多模态的智能问答方法，其特征在于，包括以下步骤：

S3、将分类后的信息分别映射到相应的向量空间；

7.根据权利要求6所述的多模态的智能问答方法，其特征在于，步骤S3进一步包括：根据循环神经网络将所述文本信息映射到文本向量空间。

8.根据权利要求6或7所述的多模态的智能问答方法，其特征在于，步骤S3进一步包括：根据卷积神经网络提取图像特征，并将提取的特征映射到图片向量空间。

9.根据权利要求8所述的多模态的智能问答方法，其特征在于，步骤S3进一步包括：将所述视频信息转换为图像序列，根据卷积神经网络将所述图片序列映射到图像向量空间，然后进一步根据循环神经网络将序列化连续的图像向量空间映射为视频向量空间。

10.根据权利要求6所述的多模态的智能问答方法，其特征在于，步骤S4中的生成对所述多模态信息问题的答复包括生成用户输入问题的答案或生成对用户输入问题的处理指令。