CN110209789A

CN110209789A - 一种用户注意力引导的多模态对话系统及方法

Info

Publication number: CN110209789A
Application number: CN201910458875.9A
Authority: CN
Inventors: 王文杰; 聂礼强; 崔晨; 尹建华; 程志勇; 胡琳梅
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-09-06
Anticipated expiration: 2039-05-29
Also published as: CN110209789B

Abstract

本发明公开了一种用户注意力引导的多模态对话系统及方法，采用多模态编码器和解码器能够分别编码多模态话语和生成多模态回复。该系统包括数据获取模块、文本特征提取模块、多模态编码器和多模态解码器；所述数据获取模块获取文本信息和商品的视觉图像信息；文本特征提取模块生成注意力加权的文本特征；多模态编码器采用卷积神经网络模型提取视觉图像的视觉特征，将视觉特征输入分类—属性组合树中进行遍历，得到属性级视觉特征；对视觉特征和文本特征进行多模态分解双线性池化处理，生成多模态话语向量；多模态解码器生成上下文向量；基于上下文向量，选择一定量所需商品的可视图像及其文本属性，对其进行解码处理，生成多模态的商品表示。

Description

一种用户注意力引导的多模态对话系统及方法

技术领域

本公开涉及语言处理领域，具体涉及一种用户注意力引导的多模态对话系统及方法。

背景技术

对话系统作为一种智能的与计算机交互的方式，受到了越来越多的关注。然而，目前大多数方法只关注了基于文本的对话系统，完全忽略了视觉所传递的丰富语义。实际上，随着线上零售业和旅游业等许多领域的快速发展，对多模态任务导向型的对话系统的需求也正在增长。此外，很少有方法明确考虑了商品分类的层次化结构和用户对商品的注意力。事实上，随着对话的进行，用户倾向于将注意力集中在商品的语义属性上，如颜色和样式等。

发明人在研发过程中发现，现有的任务导向型的对话系统存在以下问题：

(1)大多数现有的对话系统只关注文本，而忽略了人们倾向于使用多模态信息沟通的事实；

(2)用户为了得到需要的商品，与聊天机器人交互时可能特别注意产品的某些方面或属性，而现有的对话系统在用户对于属性级别的关注非常有限；

(3)事实上，商品共享一些相同的属性，如颜色、样式和材料等从语义上描述商品的关键特征，而用户对商品的关注通常使用这些属性表达。融合图像和文本来探索用户的属性级别的关注是值得研究的。

发明内容

为了克服上述现有技术的不足，本公开提供了一种用户注意力引导的多模态对话系统及方法，采用多模态编码器和解码器能够分别编码多模态话语和生成多模态回复。

本公开一方面提供的一种用户注意力引导的多模态对话系统的技术方案是：

一种用户注意力引导的多模态对话系统，该系统包括数据获取模块、文本特征提取模块、多模态编码器和多模态解码器；

所述数据获取模块，用于获取用户与聊天机器人交互的文本信息，以及用户所需商品的视觉图像信息；

所述文本特征提取模块，用于利用基于注意力机制的双向循环神经网络训练文本信息，生成注意力加权的文本特征；

所述多模态编码器，用于采用卷积神经网络模型提取视觉图像的视觉特征，将视觉特征输入分类—属性组合树中进行遍历，得到属性级视觉特征；对视觉特征和文本特征进行多模态分解双线性池化处理，生成多模态话语向量；

所述多模态解码器，用于利用高层循环神经网络对多模态编码器生成的多模态话语向量进行训练，生成上下文向量；基于上下文向量，选择一定量所需商品的可视图像及其文本属性，对其进行解码处理，生成多模态的商品表示。

进一步的，所述多模态编码器包括卷积神经网络模块、分类—属性组合树模块和多模态分解双线性池化模块，其中：

所述卷积神经网络模块，用于将得到的商品视觉图像信息输入卷积神经网络模型，利用卷积神经网络模型对视觉图像信息进行编码，提取视觉图像的视觉特征；

所述分类—属性组合树模块，用于将卷积神经网络模块提取的视觉特征输入分类树；经过分类树遍历后的视觉特征输入到属性树遍历，使用文本特征对经过属性树遍历后的视觉特征进行交互和加权处理，生成属性级视觉特征；

所述多模态分解双线性池化模块，用于对得到的视觉特征和文本特征进行多模态分解双线性池化处理，生成多模态话语向量。

进一步的，所述多模态解码器包括上下文向量生成模块和多模态解码模块，其中：

所述上下文向量生成模块，用于利用高层循环神经网络对多模态编码器生成的话语向量进行训练，生成上下文向量；

所述多模态解码模块，用于选择一定量的商品的可视图像及其文本属性，对商品的可视图像及其文本属性进行编码，输出多模态的商品表示，包括多模态文本回复和所选商品图像；分别计算上下文向量与正样本商品表示、负样本商品表示之间的余弦相似度，利用最大化正负样本的余弦相似度之间的间隔对商品图像进行排序。

进一步的，所述文本特征提取模块具体用于：

将得到的用户与聊天机器人交互的文本信息输入基于注意力机制的双向循环神经网络，依次经过两个卷积层、激活函数和分类器处理后，生成注意力加权的文本特征。

本公开一方面提供的一种用户注意力引导的多模态对话方法的技术方案是：

一种用户注意力引导的多模态对话方法，该方法包括以下步骤：

获取用户与聊天机器人交互的文本信息，以及用户所需商品的视觉图像信息；

利用基于注意力机制的双向循环神经网络训练文本信息，生成注意力加权的文本特征；

采用卷积神经网络模型提取视觉图像的视觉特征，将视觉特征输入分类—属性组合树中进行遍历，得到属性级视觉特征；

对得到的视觉特征和文本特征进行多模态分解双线性池化处理，生成多模态话语向量；

利用高层循环神经网络对多模态编码器生成的多模态话语向量进行训练，生成上下文向量；

基于上下文向量，选择一定量所需商品的可视图像及其文本属性，对其进行解码处理，生成多模态的商品表示。

进一步的，所述注意力加权的文本特征的方法为：

进一步的，所述视觉特征的提取方法为：

将得到的商品视觉图像信息输入卷积神经网络模型，利用卷积神经网络模型对视觉图像信息进行编码，提取视觉图像的视觉特征；

将卷积神经网络模块提取的视觉特征输入分类树；经过分类树遍历后的视觉特征输入到属性树的若干个属性节点和对应的值节点进行遍历，得到属性级视觉特征。

进一步的，还包括使用文本特征对属性级视觉特征进行交互和加权处理的步骤。

进一步的，所述基于上下文向量，选择一定量所需商品的可视图像及其文本属性，对其进行解码处理，生成多模态的商品表示的步骤包括：

选择一定量商品的可视图像及其文本属性，对商品的可视图像及其文本属性进行编码，输出多模态的商品表示，包括多模态文本回复和所选商品图像；

分别计算上下文向量与正样本商品表示、负样本商品表示之间的余弦相似度，利用最大化正负样本的余弦相似性之间的间隔对商品图像进行排序。

通过上述技术方案，本公开的有益效果是：

(1)本公开采用的多模态编码器和解码器能够分别编码多模态话语和生成多模态回复，实现了对话的多模态回复；

(2)本公开采用分类—属性组合树对商品图片进行编码，考虑了商品的分类和属性特征，得到商品的属性级别的视觉特征；

(3)本公开使用加权方式整合文本特征和视觉特征，生成更具代表性的属性级特征。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本申请，并不构成对本公开的不当限定。

图1是实施例一用户注意力引导的多模态对话系统的结构图；

图2是实施例二用户注意力引导的多模态对话方法的流程图；

图3是实施例二用户与机器人交互模型框架图；

图4是实施例二多模态编码器模型示意图；

图5是实施例二分类—属性组合树模型示意图；

图6是实施例二多模态解码器模型示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例提供一种用户注意力引导的多模态对话系统，请参阅附图1，该对话系统包括数据获取模块101、文本特征提取模块102、多模态编码器103和多模态解码器104。

具体地，所述数据获取模块101，用于获取用户和聊天机器人交互的文本信息，以及用户所需商品的视觉图像信息。

所述文本特征提取模块102，用于利用基于注意力机制的双向循环神经网络训练文本信息，生成注意力加权的文本特征。

所述多模态编码器103，用于采用卷积神经网络模型提取视觉图像的视觉特征，将视觉特征输入分类—属性组合树中进行遍历，得到更具代表性的属性级视觉特征；对视觉特征和文本特征进行多模态分解双线性池化处理，生成多模态话语向量。

所述多模态解码器104，用于将多模态编码器生成的多模态话语向量输入高层循环神经网络，利用高层循环神经网络对话语向量训练，生成上下文向量；基于上下文向量，选择一定量所需的视觉图像和文本属性，对其进行解码处理，生成多模态文本回复。

具体地，所述文本特征提取模块102具体用于：

将得到的用户和聊天机器人交互的文本信息输入基于注意力机制的双向循环神经网络(Bi-LSTM)，依次经过两个卷积层(Conv)、激活函数(ReLU)和分类器(Softmax)处理后，生成注意力加权的文本特征。

在本实施例中，所述多模态编码器103包括卷积神经网络模块、分类—属性组合树模块和多模态分解双线性池化模块。

具体地，所述卷积神经网络模块，用于将得到的商品视觉图像信息输入卷积神经网络模型，利用卷积神经网络模型对视觉图像信息进行编码，提取视觉图像的视觉特征。

所述分类—属性组合树模块，用于将卷积神经网络模块提取的视觉特征输入分类树，分类树的每个叶节点表示一个商品种类，并且类别被组织为分层树结构。值得注意的是，图像从上到下遍历只有一条路径，因为每个产品图像只属于一个叶子类别；经过分类树分类后的视觉特征输入到属性树的若干个属性节点和对应的值节点中，使用文本特征对属性树输出的视觉特征进行交互和加权处理，生成更具代表性的属性级视觉特征。

所述多模态分解双线性池化模块，用于对视觉特征和文本特征进行多模态分解双线性池化处理，生成多模态话语向量。

本实施例的多模态编码器将用户和聊天机器人的多模态话语作为输入并输出话语向量，将句子表示为固定大小的向量是目前普遍的做法，而多模态编码器充分考虑了文本语义和视觉语义，产生的向量更能代表用户的真实意图、更能聚焦用户的关注点。

在本实施例中，所述多模态解码器104包括上下文向量生成模块和多模态解码模块，其中：

所述上下文向量生成模块，用于将多模态编码器生成的话语向量输入高层循环神经网络，利用高层循环神经网络对话语向量训练，生成上下文向量；

所述多模态解码模块具体用于：

给定一组商品的可视图像，解码器基于图像和上下文向量之间的相关性对它们进行排序。此外，考虑到上下文向量与视觉图像背后的商品属性之间的联系，本实施例特别将文本属性纳入排名过程。文本属性被组织为一系列单词，然后与视觉图像一同输入到多模态编码模块中，最后输出多模态的商品图像表示。在本实施例中，给定一些商品包含正样本和负样本，计算其商品表示与上下文向量之间的余弦相似度，在训练模型时，应用最大间隔损失以最大化正样本和负样本的相似性之间的差异，利用最大化正负样本的余弦相似性之间的间隔来对多模态的商品图像表示进行排序。

值得注意的是，对话中的一些话语可能仅以文本形式呈现，其中编码器和解码器不处理视觉图像。

本实施例采用多模态编码器和解码器能够分别编码多模态话语和生成多模态回复，编码解码框架在深度学习领域用途广泛，采用多模态编码器能够充分考虑了文本语义和视觉语义，多模态解码器能够同时生成文本和图像回复，更适用于当前用户倾向于使用多模态信息进行对话的情景。

实施例二

本实施例提供一种用户注意力引导的多模态对话方法，在高层次上，该对话方法在高层次上，利用基于注意力机制的双向循环神经网络(RNN)生成注意力加权的文本特征；在低层次上，采用多模态编码器和解码器能够分别编码多模态话语向量和生成多模态文本回复。

请参阅附图2，该用户注意力引导的多模态对话方法包括以下步骤：

S201，获取文本信息以及商品的视觉图像信息。

具体地，获取用户和聊天机器人交互的文本信息，以及所需商品的视觉图像信息，如图3所示。

S202，利用基于注意力机制的双向循环神经网络训练文本信息，生成注意力加权的文本特征。

文本话语中的词语不是同等重要的。有些词可以传达有关用户意图和偏好的重要信息，而其他词可能是我们日常对话中的一些常见或支持性词语，例如“你好”，“是”和“我”。后者在训练数据中非常频繁，严重阻碍了用户需求的传播。为了解决这个问题，本实施例利用基于注意力机制的双向循环神经网络来对文本话语中的单词进行注意力加权，以最大化有关用户需求的有用信息。

请参阅附图4，将步骤101得到的文本信息输入基于注意力机制的双向循环神经网络(Bi-LSTM)，依次经过两个卷积层(Conv)、激活函数(ReLU)和分类器(Softmax)处理后，生成注意力加权的文本特征。

S203，采用卷积神经网络模型提取图像的视觉特征，将视觉特征输入分类—属性组合树中进行遍历，得到更具代表性的属性级视觉特征。

在许多电子商务网站中，商品被分成各种类别，并组织成分层的树状结构。直观地说，同类产品共享许多共同的视觉特征。比如裤子在许多视觉属性中是相似的，例如形状，比例和外观等，这有助于用户轻松地导航或识别所需的商品。另一个观察是这些裤子在属性级别上是可区分的，并且顾客总是通过这些详细属性(例如颜色，样式和材料)来选择它们。因此，为了提取更具代表性和更可区分的视觉特征，本实施例引入了分类树，此外，本实施例为商品定义若干公共属性，然后构建了一棵键值属性树，以探索用户对属性级别产品的关注。键对应于常用属性，例如颜色；而值是属性的特定值，比如属性“颜色”有蓝色，黑色和黄色等。

请参阅附图5，首先，将步骤101得到的视觉图像信息输入卷积神经网络模型，利用卷积神经网络模型对视觉图像信息进行编码，提取视觉图像的视觉特征，该卷积神经网络模型基于深度残差网络，由几个预先训练的层实现。接着，将卷积神经网络模型提取的视觉特征输入分类树，分类树的每个叶节点表示一个商品种类，并且类别被组织为分层树结构。值得注意的是，图像从上到下遍历只有一条路径，因为每个产品图像只属于一个叶子类别。经过分类书分类后的视觉特征输入到属性树的若干个属性节点和对应的值节点中，使用文本特征对属性树输出的视觉特征进行交互和加权处理，生成更具代表性的属性级视觉特征。

本实施例采用分类—属性组合树来学习图像的视觉表示，通过文本特征对视觉特征进行交互和加权处理，生成更具代表性的属性级视觉特征。

S204，对视觉特征和文本特征进行多模态分解双线性池化处理，生成话语向量。

请参阅附图4，将步骤103得到的视觉特征和步骤102得到的文本特征输入到多模态分解双线性池化(MFB)模块中，利用多模态分解双线性池化(MFB)模块对视觉和文本特征进行多模态分解双线性池化处理，生成多模态话语向量。

本实施例对视觉和文本特征进行多模态分解双线性池化处理来获取多模态话语向量，而不是简单地连接文本特征和视觉特征，在视觉问答任务中也已经证明了组合多模态特征的有效性和效率。

S205，利用高层循环神经网络对话语向量训练，生成上下文向量。

请参阅附图6，将步骤104得到的话语向量输入高层循环神经网络，利用高层循环神经网络对话语向量训练，生成上下文向量。

本实施例将高层循环神经网络得到的上下文向量被输入到多模态解码器中，其目的是基于上下文向量生成文本回复，使用上下文变量初始化循环神经网络，通过将隐藏状态线性投影到词汇量大小的一维向量来计算响应中每个词语的概率。

S206，基于上下文向量，选择所需商品的视觉图像和文本属性，对其进行解码处理，生成多模态文本回复。

请参阅附图6，给定一组商品的可视图像，视觉解码器基于图像和上下文向量之间的相关性对它们进行排序。此外，考虑到上下文向量与视觉图像背后的商品属性之间的联系，本实施例特别将文本属性纳入排名过程。文本属性被组织为一系列单词，然后与视觉图像一同输入到多模态编码器中，最后输出多模态的商品图像表示。在本实施例中，给定一些商品包含正样本和负样本，计算其商品表示与上下文向量之间的余弦相似度，在训练模型时，应用最大间隔损失以最大化正样本和负样本的相似性之间的差异，利用最大化正负样本的余弦相似性之间的间隔来对多模态的商品图像表示进行排序。

本实施例选择所需的视觉图像并根据对话历史产生文本回复。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种用户注意力引导的多模态对话系统，其特征是，该系统包括数据获取模块、文本特征提取模块、多模态编码器和多模态解码器；

所述多模态解码器，用于利用高层循环神经网络对多模态编码器生成的多模态话语向量进行训练，生成上下文向量；基于上下文向量，选择所需商品的可视图像及其文本属性，对其进行解码处理，生成多模态的商品表示。

2.根据权利要求1所述的用户注意力引导的多模态对话系统，其特征是，所述多模态编码器包括卷积神经网络模块、分类—属性组合树模块和多模态分解双线性池化模块，其中：

3.根据权利要求1所述的用户注意力引导的多模态对话系统，其特征是，所述多模态解码器包括上下文向量生成模块和多模态解码模块，其中：

所述多模态解码模块，用于选择设定量的商品的可视图像及其文本属性，对商品的可视图像及其文本属性进行编码，输出多模态的商品表示，包括多模态文本回复和所选商品图像；分别计算上下文向量与正样本商品表示、负样本商品表示之间的余弦相似度，利用最大化正负样本的余弦相似度之间的间隔对商品图像进行排序。

4.根据权利要求1所述的用户注意力引导的多模态对话系统，其特征是，所述文本特征提取模块具体用于：

5.一种用户注意力引导的多模态对话方法，其特征是，该方法包括以下步骤：

基于上下文向量，选择所需商品的可视图像及其文本属性，对其进行解码处理，生成多模态的商品表示。

6.根据权利要求5所述的用户注意力引导的多模态对话方法，其特征是，所述注意力加权的文本特征的方法为：

7.根据权利要求5所述的用户注意力引导的多模态对话方法，其特征是，所述视觉特征的提取方法为：

8.根据权利要求7所述的用户注意力引导的多模态对话方法，其特征是，还包括使用文本特征对属性级视觉特征进行交互和加权处理的步骤。

9.根据权利要求5所述的用户注意力引导的多模态对话方法，其特征是，所述基于上下文向量，选择所需商品的可视图像及其文本属性，对其进行解码处理，生成多模态的商品表示的步骤包括：

选择设定量商品的可视图像及其文本属性，对商品的可视图像及其文本属性进行编码，输出多模态的商品表示，包括多模态文本回复和所选商品图像；