CN110209789A - 一种用户注意力引导的多模态对话系统及方法 - Google Patents

一种用户注意力引导的多模态对话系统及方法 Download PDF

Info

Publication number
CN110209789A
CN110209789A CN201910458875.9A CN201910458875A CN110209789A CN 110209789 A CN110209789 A CN 110209789A CN 201910458875 A CN201910458875 A CN 201910458875A CN 110209789 A CN110209789 A CN 110209789A
Authority
CN
China
Prior art keywords
modal
text
commodity
visual
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910458875.9A
Other languages
English (en)
Other versions
CN110209789B (zh
Inventor
王文杰
聂礼强
崔晨
尹建华
程志勇
胡琳梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201910458875.9A priority Critical patent/CN110209789B/zh
Publication of CN110209789A publication Critical patent/CN110209789A/zh
Application granted granted Critical
Publication of CN110209789B publication Critical patent/CN110209789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用户注意力引导的多模态对话系统及方法,采用多模态编码器和解码器能够分别编码多模态话语和生成多模态回复。该系统包括数据获取模块、文本特征提取模块、多模态编码器和多模态解码器;所述数据获取模块获取文本信息和商品的视觉图像信息;文本特征提取模块生成注意力加权的文本特征;多模态编码器采用卷积神经网络模型提取视觉图像的视觉特征,将视觉特征输入分类—属性组合树中进行遍历,得到属性级视觉特征;对视觉特征和文本特征进行多模态分解双线性池化处理,生成多模态话语向量;多模态解码器生成上下文向量;基于上下文向量,选择一定量所需商品的可视图像及其文本属性,对其进行解码处理,生成多模态的商品表示。

Description

一种用户注意力引导的多模态对话系统及方法
技术领域
本公开涉及语言处理领域,具体涉及一种用户注意力引导的多模态对话系统及方法。
背景技术
对话系统作为一种智能的与计算机交互的方式,受到了越来越多的关注。然而,目前大多数方法只关注了基于文本的对话系统,完全忽略了视觉所传递的丰富语义。实际上,随着线上零售业和旅游业等许多领域的快速发展,对多模态任务导向型的对话系统的需求也正在增长。此外,很少有方法明确考虑了商品分类的层次化结构和用户对商品的注意力。事实上,随着对话的进行,用户倾向于将注意力集中在商品的语义属性上,如颜色和样式等。
发明人在研发过程中发现,现有的任务导向型的对话系统存在以下问题:
(1)大多数现有的对话系统只关注文本,而忽略了人们倾向于使用多模态信息沟通的事实;
(2)用户为了得到需要的商品,与聊天机器人交互时可能特别注意产品的某些方面或属性,而现有的对话系统在用户对于属性级别的关注非常有限;
(3)事实上,商品共享一些相同的属性,如颜色、样式和材料等从语义上描述商品的关键特征,而用户对商品的关注通常使用这些属性表达。融合图像和文本来探索用户的属性级别的关注是值得研究的。
发明内容
为了克服上述现有技术的不足,本公开提供了一种用户注意力引导的多模态对话系统及方法,采用多模态编码器和解码器能够分别编码多模态话语和生成多模态回复。
本公开一方面提供的一种用户注意力引导的多模态对话系统的技术方案是:
一种用户注意力引导的多模态对话系统,该系统包括数据获取模块、文本特征提取模块、多模态编码器和多模态解码器;
所述数据获取模块,用于获取用户与聊天机器人交互的文本信息,以及用户所需商品的视觉图像信息;
所述文本特征提取模块,用于利用基于注意力机制的双向循环神经网络训练文本信息,生成注意力加权的文本特征;
所述多模态编码器,用于采用卷积神经网络模型提取视觉图像的视觉特征,将视觉特征输入分类—属性组合树中进行遍历,得到属性级视觉特征;对视觉特征和文本特征进行多模态分解双线性池化处理,生成多模态话语向量;
所述多模态解码器,用于利用高层循环神经网络对多模态编码器生成的多模态话语向量进行训练,生成上下文向量;基于上下文向量,选择一定量所需商品的可视图像及其文本属性,对其进行解码处理,生成多模态的商品表示。
进一步的,所述多模态编码器包括卷积神经网络模块、分类—属性组合树模块和多模态分解双线性池化模块,其中:
所述卷积神经网络模块,用于将得到的商品视觉图像信息输入卷积神经网络模型,利用卷积神经网络模型对视觉图像信息进行编码,提取视觉图像的视觉特征;
所述分类—属性组合树模块,用于将卷积神经网络模块提取的视觉特征输入分类树;经过分类树遍历后的视觉特征输入到属性树遍历,使用文本特征对经过属性树遍历后的视觉特征进行交互和加权处理,生成属性级视觉特征;
所述多模态分解双线性池化模块,用于对得到的视觉特征和文本特征进行多模态分解双线性池化处理,生成多模态话语向量。
进一步的,所述多模态解码器包括上下文向量生成模块和多模态解码模块,其中:
所述上下文向量生成模块,用于利用高层循环神经网络对多模态编码器生成的话语向量进行训练,生成上下文向量;
所述多模态解码模块,用于选择一定量的商品的可视图像及其文本属性,对商品的可视图像及其文本属性进行编码,输出多模态的商品表示,包括多模态文本回复和所选商品图像;分别计算上下文向量与正样本商品表示、负样本商品表示之间的余弦相似度,利用最大化正负样本的余弦相似度之间的间隔对商品图像进行排序。
进一步的,所述文本特征提取模块具体用于:
将得到的用户与聊天机器人交互的文本信息输入基于注意力机制的双向循环神经网络,依次经过两个卷积层、激活函数和分类器处理后,生成注意力加权的文本特征。
本公开一方面提供的一种用户注意力引导的多模态对话方法的技术方案是:
一种用户注意力引导的多模态对话方法,该方法包括以下步骤:
获取用户与聊天机器人交互的文本信息,以及用户所需商品的视觉图像信息;
利用基于注意力机制的双向循环神经网络训练文本信息,生成注意力加权的文本特征;
采用卷积神经网络模型提取视觉图像的视觉特征,将视觉特征输入分类—属性组合树中进行遍历,得到属性级视觉特征;
对得到的视觉特征和文本特征进行多模态分解双线性池化处理,生成多模态话语向量;
利用高层循环神经网络对多模态编码器生成的多模态话语向量进行训练,生成上下文向量;
基于上下文向量,选择一定量所需商品的可视图像及其文本属性,对其进行解码处理,生成多模态的商品表示。
进一步的,所述注意力加权的文本特征的方法为:
将得到的用户与聊天机器人交互的文本信息输入基于注意力机制的双向循环神经网络,依次经过两个卷积层、激活函数和分类器处理后,生成注意力加权的文本特征。
进一步的,所述视觉特征的提取方法为:
将得到的商品视觉图像信息输入卷积神经网络模型,利用卷积神经网络模型对视觉图像信息进行编码,提取视觉图像的视觉特征;
将卷积神经网络模块提取的视觉特征输入分类树;经过分类树遍历后的视觉特征输入到属性树的若干个属性节点和对应的值节点进行遍历,得到属性级视觉特征。
进一步的,还包括使用文本特征对属性级视觉特征进行交互和加权处理的步骤。
进一步的,所述基于上下文向量,选择一定量所需商品的可视图像及其文本属性,对其进行解码处理,生成多模态的商品表示的步骤包括:
选择一定量商品的可视图像及其文本属性,对商品的可视图像及其文本属性进行编码,输出多模态的商品表示,包括多模态文本回复和所选商品图像;
分别计算上下文向量与正样本商品表示、负样本商品表示之间的余弦相似度,利用最大化正负样本的余弦相似性之间的间隔对商品图像进行排序。
通过上述技术方案,本公开的有益效果是:
(1)本公开采用的多模态编码器和解码器能够分别编码多模态话语和生成多模态回复,实现了对话的多模态回复;
(2)本公开采用分类—属性组合树对商品图片进行编码,考虑了商品的分类和属性特征,得到商品的属性级别的视觉特征;
(3)本公开使用加权方式整合文本特征和视觉特征,生成更具代表性的属性级特征。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本申请,并不构成对本公开的不当限定。
图1是实施例一用户注意力引导的多模态对话系统的结构图;
图2是实施例二用户注意力引导的多模态对话方法的流程图;
图3是实施例二用户与机器人交互模型框架图;
图4是实施例二多模态编码器模型示意图;
图5是实施例二分类—属性组合树模型示意图;
图6是实施例二多模态解码器模型示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本实施例提供一种用户注意力引导的多模态对话系统,请参阅附图1,该对话系统包括数据获取模块101、文本特征提取模块102、多模态编码器103和多模态解码器104。
具体地,所述数据获取模块101,用于获取用户和聊天机器人交互的文本信息,以及用户所需商品的视觉图像信息。
所述文本特征提取模块102,用于利用基于注意力机制的双向循环神经网络训练文本信息,生成注意力加权的文本特征。
所述多模态编码器103,用于采用卷积神经网络模型提取视觉图像的视觉特征,将视觉特征输入分类—属性组合树中进行遍历,得到更具代表性的属性级视觉特征;对视觉特征和文本特征进行多模态分解双线性池化处理,生成多模态话语向量。
所述多模态解码器104,用于将多模态编码器生成的多模态话语向量输入高层循环神经网络,利用高层循环神经网络对话语向量训练,生成上下文向量;基于上下文向量,选择一定量所需的视觉图像和文本属性,对其进行解码处理,生成多模态文本回复。
具体地,所述文本特征提取模块102具体用于:
将得到的用户和聊天机器人交互的文本信息输入基于注意力机制的双向循环神经网络(Bi-LSTM),依次经过两个卷积层(Conv)、激活函数(ReLU)和分类器(Softmax)处理后,生成注意力加权的文本特征。
在本实施例中,所述多模态编码器103包括卷积神经网络模块、分类—属性组合树模块和多模态分解双线性池化模块。
具体地,所述卷积神经网络模块,用于将得到的商品视觉图像信息输入卷积神经网络模型,利用卷积神经网络模型对视觉图像信息进行编码,提取视觉图像的视觉特征。
所述分类—属性组合树模块,用于将卷积神经网络模块提取的视觉特征输入分类树,分类树的每个叶节点表示一个商品种类,并且类别被组织为分层树结构。值得注意的是,图像从上到下遍历只有一条路径,因为每个产品图像只属于一个叶子类别;经过分类树分类后的视觉特征输入到属性树的若干个属性节点和对应的值节点中,使用文本特征对属性树输出的视觉特征进行交互和加权处理,生成更具代表性的属性级视觉特征。
所述多模态分解双线性池化模块,用于对视觉特征和文本特征进行多模态分解双线性池化处理,生成多模态话语向量。
本实施例的多模态编码器将用户和聊天机器人的多模态话语作为输入并输出话语向量,将句子表示为固定大小的向量是目前普遍的做法,而多模态编码器充分考虑了文本语义和视觉语义,产生的向量更能代表用户的真实意图、更能聚焦用户的关注点。
在本实施例中,所述多模态解码器104包括上下文向量生成模块和多模态解码模块,其中:
所述上下文向量生成模块,用于将多模态编码器生成的话语向量输入高层循环神经网络,利用高层循环神经网络对话语向量训练,生成上下文向量;
所述多模态解码模块具体用于:
给定一组商品的可视图像,解码器基于图像和上下文向量之间的相关性对它们进行排序。此外,考虑到上下文向量与视觉图像背后的商品属性之间的联系,本实施例特别将文本属性纳入排名过程。文本属性被组织为一系列单词,然后与视觉图像一同输入到多模态编码模块中,最后输出多模态的商品图像表示。在本实施例中,给定一些商品包含正样本和负样本,计算其商品表示与上下文向量之间的余弦相似度,在训练模型时,应用最大间隔损失以最大化正样本和负样本的相似性之间的差异,利用最大化正负样本的余弦相似性之间的间隔来对多模态的商品图像表示进行排序。
值得注意的是,对话中的一些话语可能仅以文本形式呈现,其中编码器和解码器不处理视觉图像。
本实施例采用多模态编码器和解码器能够分别编码多模态话语和生成多模态回复,编码解码框架在深度学习领域用途广泛,采用多模态编码器能够充分考虑了文本语义和视觉语义,多模态解码器能够同时生成文本和图像回复,更适用于当前用户倾向于使用多模态信息进行对话的情景。
实施例二
本实施例提供一种用户注意力引导的多模态对话方法,在高层次上,该对话方法在高层次上,利用基于注意力机制的双向循环神经网络(RNN)生成注意力加权的文本特征;在低层次上,采用多模态编码器和解码器能够分别编码多模态话语向量和生成多模态文本回复。
请参阅附图2,该用户注意力引导的多模态对话方法包括以下步骤:
S201,获取文本信息以及商品的视觉图像信息。
具体地,获取用户和聊天机器人交互的文本信息,以及所需商品的视觉图像信息,如图3所示。
S202,利用基于注意力机制的双向循环神经网络训练文本信息,生成注意力加权的文本特征。
文本话语中的词语不是同等重要的。有些词可以传达有关用户意图和偏好的重要信息,而其他词可能是我们日常对话中的一些常见或支持性词语,例如“你好”,“是”和“我”。后者在训练数据中非常频繁,严重阻碍了用户需求的传播。为了解决这个问题,本实施例利用基于注意力机制的双向循环神经网络来对文本话语中的单词进行注意力加权,以最大化有关用户需求的有用信息。
请参阅附图4,将步骤101得到的文本信息输入基于注意力机制的双向循环神经网络(Bi-LSTM),依次经过两个卷积层(Conv)、激活函数(ReLU)和分类器(Softmax)处理后,生成注意力加权的文本特征。
S203,采用卷积神经网络模型提取图像的视觉特征,将视觉特征输入分类—属性组合树中进行遍历,得到更具代表性的属性级视觉特征。
在许多电子商务网站中,商品被分成各种类别,并组织成分层的树状结构。直观地说,同类产品共享许多共同的视觉特征。比如裤子在许多视觉属性中是相似的,例如形状,比例和外观等,这有助于用户轻松地导航或识别所需的商品。另一个观察是这些裤子在属性级别上是可区分的,并且顾客总是通过这些详细属性(例如颜色,样式和材料)来选择它们。因此,为了提取更具代表性和更可区分的视觉特征,本实施例引入了分类树,此外,本实施例为商品定义若干公共属性,然后构建了一棵键值属性树,以探索用户对属性级别产品的关注。键对应于常用属性,例如颜色;而值是属性的特定值,比如属性“颜色”有蓝色,黑色和黄色等。
请参阅附图5,首先,将步骤101得到的视觉图像信息输入卷积神经网络模型,利用卷积神经网络模型对视觉图像信息进行编码,提取视觉图像的视觉特征,该卷积神经网络模型基于深度残差网络,由几个预先训练的层实现。接着,将卷积神经网络模型提取的视觉特征输入分类树,分类树的每个叶节点表示一个商品种类,并且类别被组织为分层树结构。值得注意的是,图像从上到下遍历只有一条路径,因为每个产品图像只属于一个叶子类别。经过分类书分类后的视觉特征输入到属性树的若干个属性节点和对应的值节点中,使用文本特征对属性树输出的视觉特征进行交互和加权处理,生成更具代表性的属性级视觉特征。
本实施例采用分类—属性组合树来学习图像的视觉表示,通过文本特征对视觉特征进行交互和加权处理,生成更具代表性的属性级视觉特征。
S204,对视觉特征和文本特征进行多模态分解双线性池化处理,生成话语向量。
请参阅附图4,将步骤103得到的视觉特征和步骤102得到的文本特征输入到多模态分解双线性池化(MFB)模块中,利用多模态分解双线性池化(MFB)模块对视觉和文本特征进行多模态分解双线性池化处理,生成多模态话语向量。
本实施例对视觉和文本特征进行多模态分解双线性池化处理来获取多模态话语向量,而不是简单地连接文本特征和视觉特征,在视觉问答任务中也已经证明了组合多模态特征的有效性和效率。
S205,利用高层循环神经网络对话语向量训练,生成上下文向量。
请参阅附图6,将步骤104得到的话语向量输入高层循环神经网络,利用高层循环神经网络对话语向量训练,生成上下文向量。
本实施例将高层循环神经网络得到的上下文向量被输入到多模态解码器中,其目的是基于上下文向量生成文本回复,使用上下文变量初始化循环神经网络,通过将隐藏状态线性投影到词汇量大小的一维向量来计算响应中每个词语的概率。
S206,基于上下文向量,选择所需商品的视觉图像和文本属性,对其进行解码处理,生成多模态文本回复。
请参阅附图6,给定一组商品的可视图像,视觉解码器基于图像和上下文向量之间的相关性对它们进行排序。此外,考虑到上下文向量与视觉图像背后的商品属性之间的联系,本实施例特别将文本属性纳入排名过程。文本属性被组织为一系列单词,然后与视觉图像一同输入到多模态编码器中,最后输出多模态的商品图像表示。在本实施例中,给定一些商品包含正样本和负样本,计算其商品表示与上下文向量之间的余弦相似度,在训练模型时,应用最大间隔损失以最大化正样本和负样本的相似性之间的差异,利用最大化正负样本的余弦相似性之间的间隔来对多模态的商品图像表示进行排序。
本实施例选择所需的视觉图像并根据对话历史产生文本回复。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (9)

1.一种用户注意力引导的多模态对话系统,其特征是,该系统包括数据获取模块、文本特征提取模块、多模态编码器和多模态解码器;
所述数据获取模块,用于获取用户与聊天机器人交互的文本信息,以及用户所需商品的视觉图像信息;
所述文本特征提取模块,用于利用基于注意力机制的双向循环神经网络训练文本信息,生成注意力加权的文本特征;
所述多模态编码器,用于采用卷积神经网络模型提取视觉图像的视觉特征,将视觉特征输入分类—属性组合树中进行遍历,得到属性级视觉特征;对视觉特征和文本特征进行多模态分解双线性池化处理,生成多模态话语向量;
所述多模态解码器,用于利用高层循环神经网络对多模态编码器生成的多模态话语向量进行训练,生成上下文向量;基于上下文向量,选择所需商品的可视图像及其文本属性,对其进行解码处理,生成多模态的商品表示。
2.根据权利要求1所述的用户注意力引导的多模态对话系统,其特征是,所述多模态编码器包括卷积神经网络模块、分类—属性组合树模块和多模态分解双线性池化模块,其中:
所述卷积神经网络模块,用于将得到的商品视觉图像信息输入卷积神经网络模型,利用卷积神经网络模型对视觉图像信息进行编码,提取视觉图像的视觉特征;
所述分类—属性组合树模块,用于将卷积神经网络模块提取的视觉特征输入分类树;经过分类树遍历后的视觉特征输入到属性树遍历,使用文本特征对经过属性树遍历后的视觉特征进行交互和加权处理,生成属性级视觉特征;
所述多模态分解双线性池化模块,用于对得到的视觉特征和文本特征进行多模态分解双线性池化处理,生成多模态话语向量。
3.根据权利要求1所述的用户注意力引导的多模态对话系统,其特征是,所述多模态解码器包括上下文向量生成模块和多模态解码模块,其中:
所述上下文向量生成模块,用于利用高层循环神经网络对多模态编码器生成的话语向量进行训练,生成上下文向量;
所述多模态解码模块,用于选择设定量的商品的可视图像及其文本属性,对商品的可视图像及其文本属性进行编码,输出多模态的商品表示,包括多模态文本回复和所选商品图像;分别计算上下文向量与正样本商品表示、负样本商品表示之间的余弦相似度,利用最大化正负样本的余弦相似度之间的间隔对商品图像进行排序。
4.根据权利要求1所述的用户注意力引导的多模态对话系统,其特征是,所述文本特征提取模块具体用于:
将得到的用户与聊天机器人交互的文本信息输入基于注意力机制的双向循环神经网络,依次经过两个卷积层、激活函数和分类器处理后,生成注意力加权的文本特征。
5.一种用户注意力引导的多模态对话方法,其特征是,该方法包括以下步骤:
获取用户与聊天机器人交互的文本信息,以及用户所需商品的视觉图像信息;
利用基于注意力机制的双向循环神经网络训练文本信息,生成注意力加权的文本特征;
采用卷积神经网络模型提取视觉图像的视觉特征,将视觉特征输入分类—属性组合树中进行遍历,得到属性级视觉特征;
对得到的视觉特征和文本特征进行多模态分解双线性池化处理,生成多模态话语向量;
利用高层循环神经网络对多模态编码器生成的多模态话语向量进行训练,生成上下文向量;
基于上下文向量,选择所需商品的可视图像及其文本属性,对其进行解码处理,生成多模态的商品表示。
6.根据权利要求5所述的用户注意力引导的多模态对话方法,其特征是,所述注意力加权的文本特征的方法为:
将得到的用户与聊天机器人交互的文本信息输入基于注意力机制的双向循环神经网络,依次经过两个卷积层、激活函数和分类器处理后,生成注意力加权的文本特征。
7.根据权利要求5所述的用户注意力引导的多模态对话方法,其特征是,所述视觉特征的提取方法为:
将得到的商品视觉图像信息输入卷积神经网络模型,利用卷积神经网络模型对视觉图像信息进行编码,提取视觉图像的视觉特征;
将卷积神经网络模块提取的视觉特征输入分类树;经过分类树遍历后的视觉特征输入到属性树的若干个属性节点和对应的值节点进行遍历,得到属性级视觉特征。
8.根据权利要求7所述的用户注意力引导的多模态对话方法,其特征是,还包括使用文本特征对属性级视觉特征进行交互和加权处理的步骤。
9.根据权利要求5所述的用户注意力引导的多模态对话方法,其特征是,所述基于上下文向量,选择所需商品的可视图像及其文本属性,对其进行解码处理,生成多模态的商品表示的步骤包括:
选择设定量商品的可视图像及其文本属性,对商品的可视图像及其文本属性进行编码,输出多模态的商品表示,包括多模态文本回复和所选商品图像;
分别计算上下文向量与正样本商品表示、负样本商品表示之间的余弦相似度,利用最大化正负样本的余弦相似性之间的间隔对商品图像进行排序。
CN201910458875.9A 2019-05-29 2019-05-29 一种用户注意力引导的多模态对话系统及方法 Active CN110209789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910458875.9A CN110209789B (zh) 2019-05-29 2019-05-29 一种用户注意力引导的多模态对话系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910458875.9A CN110209789B (zh) 2019-05-29 2019-05-29 一种用户注意力引导的多模态对话系统及方法

Publications (2)

Publication Number Publication Date
CN110209789A true CN110209789A (zh) 2019-09-06
CN110209789B CN110209789B (zh) 2021-08-24

Family

ID=67789296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910458875.9A Active CN110209789B (zh) 2019-05-29 2019-05-29 一种用户注意力引导的多模态对话系统及方法

Country Status (1)

Country Link
CN (1) CN110209789B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647612A (zh) * 2019-09-18 2020-01-03 合肥工业大学 一种基于双视觉注意力网络的视觉对话生成方法
CN111046668A (zh) * 2019-12-04 2020-04-21 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN112164125A (zh) * 2020-09-15 2021-01-01 华南理工大学 一种监督可控的人脸多属性分离生成的方法
CN112925980A (zh) * 2021-03-11 2021-06-08 合肥工业大学 一种基于文本和图像的用户个性化偏好挖掘方法
CN113177115A (zh) * 2021-06-30 2021-07-27 中移(上海)信息通信科技有限公司 对话内容的处理方法、装置及相关设备
CN113378552A (zh) * 2021-07-06 2021-09-10 焦点科技股份有限公司 一种基于多模态gpt2模型的商品标题生成方法
CN113435578A (zh) * 2021-06-25 2021-09-24 重庆邮电大学 基于互注意力的特征图编码方法、装置及电子设备
CN113762319A (zh) * 2021-03-04 2021-12-07 北京沃东天骏信息技术有限公司 一种多模态信息处理方法、装置、电子设备和存储介质
CN113837212A (zh) * 2020-06-24 2021-12-24 四川大学 一种基于多模态双向导向注意力的视觉问答方法
CN113901175A (zh) * 2021-10-13 2022-01-07 北京沃东天骏信息技术有限公司 物品关系判别方法和装置
CN115587160A (zh) * 2022-09-14 2023-01-10 山东财经大学 一种基于自注意力机制的短语级文本图像生成方法及系统
CN117171474A (zh) * 2023-09-18 2023-12-05 得效(上海)数字科技有限公司 一种多模态生成式ai内容创作系统、应用及数据流向方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874406A (zh) * 2017-01-18 2017-06-20 北京光年无限科技有限公司 一种用于机器人的交互输出方法
CN107590741A (zh) * 2017-09-19 2018-01-16 广东工业大学 一种预测图片流行度的方法及系统
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
KR101934372B1 (ko) * 2016-10-25 2019-01-03 네이버 주식회사 시각적 질의응답을 위해 원소단위곱과 다중모달 잔차 학습을 이용한 데이터 처리 방법 및 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101934372B1 (ko) * 2016-10-25 2019-01-03 네이버 주식회사 시각적 질의응답을 위해 원소단위곱과 다중모달 잔차 학습을 이용한 데이터 처리 방법 및 시스템
CN106874406A (zh) * 2017-01-18 2017-06-20 北京光年无限科技有限公司 一种用于机器人的交互输出方法
CN107590741A (zh) * 2017-09-19 2018-01-16 广东工业大学 一种预测图片流行度的方法及系统
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIASEN LU等: "《Hierarchical question-image co-attention for visual question answering》", 《NIPS"16: PROCEEDINGS OF THE 30TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 *
王逍: "《学习特定属性的表达进行跟踪》", 《HTTP://ZHUANLAN.ZHIHU.COM/P/57291741》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647612A (zh) * 2019-09-18 2020-01-03 合肥工业大学 一种基于双视觉注意力网络的视觉对话生成方法
CN111046668A (zh) * 2019-12-04 2020-04-21 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
CN111046668B (zh) * 2019-12-04 2023-09-22 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
CN113837212B (zh) * 2020-06-24 2023-09-26 四川大学 一种基于多模态双向导向注意力的视觉问答方法
CN113837212A (zh) * 2020-06-24 2021-12-24 四川大学 一种基于多模态双向导向注意力的视觉问答方法
CN111985369A (zh) * 2020-08-07 2020-11-24 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN111985369B (zh) * 2020-08-07 2021-09-17 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN112164125A (zh) * 2020-09-15 2021-01-01 华南理工大学 一种监督可控的人脸多属性分离生成的方法
CN112164125B (zh) * 2020-09-15 2022-07-26 华南理工大学 一种监督可控的人脸多属性分离生成的方法
CN113762319A (zh) * 2021-03-04 2021-12-07 北京沃东天骏信息技术有限公司 一种多模态信息处理方法、装置、电子设备和存储介质
CN112925980B (zh) * 2021-03-11 2022-08-19 合肥工业大学 一种基于文本和图像的用户个性化偏好挖掘方法
CN112925980A (zh) * 2021-03-11 2021-06-08 合肥工业大学 一种基于文本和图像的用户个性化偏好挖掘方法
CN113435578B (zh) * 2021-06-25 2022-04-05 重庆邮电大学 基于互注意力的特征图编码方法、装置及电子设备
CN113435578A (zh) * 2021-06-25 2021-09-24 重庆邮电大学 基于互注意力的特征图编码方法、装置及电子设备
CN113177115B (zh) * 2021-06-30 2021-10-26 中移(上海)信息通信科技有限公司 对话内容的处理方法、装置及相关设备
CN113177115A (zh) * 2021-06-30 2021-07-27 中移(上海)信息通信科技有限公司 对话内容的处理方法、装置及相关设备
CN113378552A (zh) * 2021-07-06 2021-09-10 焦点科技股份有限公司 一种基于多模态gpt2模型的商品标题生成方法
CN113378552B (zh) * 2021-07-06 2024-04-19 焦点科技股份有限公司 一种基于多模态gpt2模型的商品标题生成方法
CN113901175A (zh) * 2021-10-13 2022-01-07 北京沃东天骏信息技术有限公司 物品关系判别方法和装置
CN115587160A (zh) * 2022-09-14 2023-01-10 山东财经大学 一种基于自注意力机制的短语级文本图像生成方法及系统
CN117171474A (zh) * 2023-09-18 2023-12-05 得效(上海)数字科技有限公司 一种多模态生成式ai内容创作系统、应用及数据流向方法

Also Published As

Publication number Publication date
CN110209789B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN110209789A (zh) 一种用户注意力引导的多模态对话系统及方法
CN111858954B (zh) 面向任务的文本生成图像网络模型
Le et al. Training an end-to-end system for handwritten mathematical expression recognition by generated patterns
CN110046656B (zh) 基于深度学习的多模态场景识别方法
CN109740148A (zh) 一种BiLSTM结合Attention机制的文本情感分析方法
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN108388900A (zh) 基于多特征融合和时空注意力机制相结合的视频描述方法
CN111274375B (zh) 一种基于双向gru网络的多轮对话方法及系统
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
CN110245228A (zh) 确定文本类别的方法和装置
CN108595436A (zh) 情感对话内容的生成方法和系统、存储介质
CN113486190A (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN111127146A (zh) 基于卷积神经网络与降噪自编码器的信息推荐方法及系统
CN109712108A (zh) 一种基于多样鉴别性候选框生成网络的针对视觉定位方法
Mai et al. A unimodal representation learning and recurrent decomposition fusion structure for utterance-level multimodal embedding learning
CN114969282B (zh) 基于富媒体知识图谱多模态情感分析模型的智能交互方法
CN116341564A (zh) 基于语义理解的问题推理方法和装置
CN116663566A (zh) 一种基于商品评价的方面级情感分析方法及系统
Xu et al. CNN-based skip-gram method for improving classification accuracy of chinese text
CN116244429A (zh) 社交关系引导的多级特征交互融合的微博情感分析方法
US20230360294A1 (en) Unsupervised style and color cues for transformer-based image generation
CN116403608A (zh) 基于多标签纠正和时空协同融合的语音情感识别方法
CN113705197B (zh) 一种基于位置增强的细粒度情感分析方法
Viswanathan et al. Text to image translation using generative adversarial networks
CN113836392B (zh) 一种基于bert与用户评论的深度学习可解释推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant