CN110609891B - 一种基于上下文感知图神经网络的视觉对话生成方法 - Google Patents

一种基于上下文感知图神经网络的视觉对话生成方法 Download PDF

Info

Publication number
CN110609891B
CN110609891B CN201910881298.4A CN201910881298A CN110609891B CN 110609891 B CN110609891 B CN 110609891B CN 201910881298 A CN201910881298 A CN 201910881298A CN 110609891 B CN110609891 B CN 110609891B
Authority
CN
China
Prior art keywords
representing
word
context
vector
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910881298.4A
Other languages
English (en)
Other versions
CN110609891A (zh
Inventor
郭丹
王辉
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910881298.4A priority Critical patent/CN110609891B/zh
Publication of CN110609891A publication Critical patent/CN110609891A/zh
Application granted granted Critical
Publication of CN110609891B publication Critical patent/CN110609891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于上下文感知图神经网络的视觉对话生成方法,包括以下步骤:1、视觉对话中文本输入的预处理和单词表的构建;2、对话图像的特征提取以及对话文本的特征提取;3、获取历史对话上下文特征向量;4、构建上下文感知图;5、迭代更新上下文感知图;6、基于当前问题对上下文感知图节点进行注意力处理;7、多模态语义融合及解码生成答案特征序列;8、基于上下文感知图神经网络的视觉对话生成网络模型的参数优化;9、预测答案生成。本发明在视觉对话上构建了上下文感知的图神经网络,能利用更细粒度的文本语义信息来推理图像中不同对象之间的隐含关系,从而提高智能体对问题所预测生成的答案的合理性和准确性。

Description

一种基于上下文感知图神经网络的视觉对话生成方法
技术领域
本发明属于计算机视觉技术领域,涉及到模式识别、自然语言处理、人工智能等技术,具体地说是一种基于上下文感知图神经网络的视觉对话生成方法。
背景技术
视觉对话是一种人机交互方法,其目的是让机器智能体与人类能够对给定的日常场景图以问答的形式进行合理正确的自然对话。因此,如何让智能体正确的理解由图像、文本组成的多模态语义信息从而对人类提出的问题给出合理的回答是视觉对话任务的关键。视觉对话目前也是计算机视觉领域热门研究课题之一,其应用场景也非常的广泛,包括:帮助视觉障碍的人群了解社交媒体内容或日常环境、人工智能助力、机器人应用等方面。
随着现代图像处理技术和深度学习的发展,视觉对话技术也得到了巨大的发展,但是仍然面临以下几点问题:
一、智能体在处理文本信息时缺乏对文本特征进行更细粒度的学习。
例如2017年,Jiasen Lu等作者在顶级国际会议Conference and Workshop onNeural Information Processing Systems(NIPS 2017)上发表的文章《Best of BothWorlds:Transferring Knowledge from Discriminative Learning to a GenerativeVisual Dialog Model》中提出的基于历史对话的图像注意力方法,该方法首先对历史对话进行句子层面的注意力处理,然后基于处理后的文本特征对图像特征进行注意力学习,但是该方法在处理当前问题的文本信息时只考虑了句子层面的语义,没有考虑词层面的语义,而在实际提问的句子里面通常只有部分关键词是与预测的答案最相关的。因此,该方法在实际应用时会有一定的局限性。
二、现有方法在处理图像信息时,缺乏对视觉对象之间的语义依赖关系的学习。
例如2019年,Zilong Zheng等作者在顶级国际会议IEEE Conference onComputer Vision and Pattern Recognition(CVPR 2019)上发表的《Reasoning VisualDialogs with Structural and Partial Observations》。这篇文章在视觉对话任务上构建了一个对话图神经网络,图网络中的每一个节点代表一段对话片段,图网络中的边代表不同对话片段之间的语义依赖关系,该方法利用EM算法来更新图网络结果,明确不同对话片段之间的具体语义依赖关系,并更据所更新的图网络来预测最后的答案。虽然这篇文章所提出的方法有效的建模了不同对话片段之间的语义依赖关系,但是该方法只考虑了文本层面的相互依赖关系,而没有去考虑图像信息中不同视觉对象之间的相互依赖关系,使得视觉语义信息没能够进行更细粒度的学习,在最终的预测答案生成上存在局限性。
发明内容
本发明是为了克服现有技术存在的不足之处,提出一种基于上下文感知图神经网络的视觉对话生成方法,以期能为智能体提供充分学习视觉对象间相互依赖关系的视觉语义信息,以及更细粒度的文本语义信息,从而提高智能体对问题所预测生成的答案的合理性和准确性。
本发明为解决技术问题采用如下技术方案:
本发明一种基于上下文感知图神经网络的视觉对话生成方法的特点是按如下步骤进行:
步骤1、视觉对话中文本输入的预处理和单词表的构建:
步骤1.1、获取视觉对话数据集,所述视觉对话数据集中包含句子文本和图像;
对所述视觉对话数据集中所有的句子文本进行分词处理,得到分割后的单词;
步骤1.2、从分割后的单词中筛选出词频率大于阈值的所有单词,并构建单词索引表Voc;再对所述索引表Voc中的每一个单词进行one-hot编码,得到one-hot向量表O=[o1,o2,...,oi,...,oS],其中oi表示索引表Voc中的第i个单词所对应的one-hot编码向量,S为索引表Voc中的单词个数;
步骤1.3、随机初始化一个词嵌入矩阵We
Figure GDA0002946305830000021
其中dw代表词向量的维度;利用词嵌入矩阵We将one-hot向量表中的每个单词的编码向量映射到相应的词向量上,从而得到词向量表;
步骤2、对话图像的特征提取以及对话文本的特征提取;
步骤2.1、从视觉对话数据集中获取任意一个图像I及其对应的历史对话U=[u1,u2,...,ur,...,uR]、当前问题
Figure GDA0002946305830000022
和真实答案标签AGT所组成的视觉对话信息D;其中R为历史对话U中的对话片段总数,ur表示对话中的第r段对话,L1表示当前问题Q的句子长度,wQ,i表示当前问题Q中的第i个单词在所述词向量表中所对应的词向量;
步骤2.2、使用目标检测特征提取器和多层感知器提取视觉对话信息D中图像I的特征,得到视觉对象特征V=[v1,v2,...,vi,...,vM],
Figure GDA0002946305830000023
其中vi表示视觉对象特征V中的第i个目标对象特征,M表示视觉对象特征V中检测的目标对象总数,d为视觉对象特征V的通道维度;
步骤2.3、使用长短期记忆网络LSTM对当前问题Q进行特征提取,得到隐状态特征序列
Figure GDA0002946305830000031
并取长短期记忆网络LSTM的最后一个步长输出的隐状态特征
Figure GDA0002946305830000032
作为当前问题Q的句子级问题特征向量q,
Figure GDA0002946305830000033
其中hQ,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征;
步骤2.4、使用长短期记忆网络LSTM对历史对话U中的第r段对话
Figure GDA0002946305830000034
进行特征提取,得到第r个隐状态序列
Figure GDA0002946305830000035
并取长短期记忆网络取LSTM的最后一个步长输出的隐状态特征
Figure GDA0002946305830000036
作为第r段对话ur的句子级特征hr
Figure GDA0002946305830000037
则总的历史对话特征为
Figure GDA0002946305830000038
其中wr,i表示第r段对话ur中第i个单词在所述词向量表中所对应的词向量,L2为第r段对话ur的句子长度,hr,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征;
步骤3、获取历史对话上下文特征向量;
利用式(1)对所述总的历史对话特征H=[h1,h2,...,hr,...,hR]进行注意力处理,得到历史对话上下文特征向量ha
Figure GDA0002946305830000039
ha=αhH′ (1)
式(1)中,
Figure GDA00029463058300000310
表示对历史对话特征H的注意力分布权重,并有:
αh=softmax(Whzh) (2)
式(2)中,
Figure GDA00029463058300000311
表示句子级问题特征向量q与历史对话特征H之间的相似度矩阵,
Figure GDA00029463058300000312
表示相似度矩阵zh的待训练参数,并有:
zh=L2Norm((Wh2H)⊙(Wq2q)) (3)
式(3)中,
Figure GDA00029463058300000313
表示句子级问题特征向量q对应的待训练参数,
Figure GDA00029463058300000314
表示历史对话特征H对应的待训练参数,⊙表示点乘运算,L2Norm表示L2正则化操作;
步骤4、构建上下文感知图;
步骤4.1、利用所述历史对话上下文特征向量ha和视觉对象特征V构建上下文感知图G={N,ξ},其中ξ表示所述上下文感知图G中所有节点之间边的集合,
Figure GDA00029463058300000315
表示上下文感知图G中的节点集合,且
Figure GDA0002946305830000041
表示节点集合N中的第i个节点;
步骤4.2、利用式(4)对节点集合N中的第i个节点Ni进行初始化,1≤i≤M:
Ni=[vi;ci]=[vi;ha] (4)
式(4)中,
Figure GDA0002946305830000042
表示第i个节点Ni中的上下文特征向量,其初始值与历史对话上下文特征向量ha相同,[;]表示特征拼接操作;
步骤5、迭代更新上下文感知图;
对所述上下文感知图G进行T轮迭代更新,并得到更新后的上下文感知图节点集合N(T+1);其中,上下文感知图G的第t轮迭代更新过程如下,1≤t≤T:
步骤5.1、在第t轮迭代更新过程中,利用式(5)对当前问题Q进行词级别注意力处理,得到第t轮迭代更新时的注意力关注的词级问题特征向量
Figure GDA0002946305830000043
Figure GDA0002946305830000044
Figure GDA0002946305830000045
式(5)中,
Figure GDA0002946305830000046
表示在第t轮迭代更新时对当前问题Q的注意力分布权重,并有:
Figure GDA0002946305830000047
式(6)中,
Figure GDA0002946305830000048
表示在第t轮迭代更新时当前问题Q的自注意力语义矩阵,
Figure GDA0002946305830000049
表示自注意力语义矩阵
Figure GDA00029463058300000410
所对应的待训练参数,并有:
Figure GDA00029463058300000411
式(7)中,
Figure GDA00029463058300000412
表示在第t轮迭代更新时词级别注意力处理中当前问题Q所对应的待训练参数;
步骤5.2、利用式(8)计算在第t轮迭代更新时的图连接矩阵
Figure GDA00029463058300000413
Figure GDA00029463058300000414
Figure GDA00029463058300000415
表示第t轮迭代更新时第i个节点
Figure GDA00029463058300000416
与上下文感知图G中所有其它节点的连接边权重:
Figure GDA00029463058300000417
式(8)中,
Figure GDA00029463058300000418
分别表示在第t轮迭代更新时上下文感知图节点集合N(t)所对应的不同待训练参数,
Figure GDA0002946305830000051
表示注意力关注的词级问题特征向量
Figure GDA0002946305830000052
所对应的待训练参数;
步骤5.3、利用式(9)为上下文感知图节点集合N(t)中的第i个节点
Figure GDA0002946305830000053
选择关系最相关的K个邻居节点集
Figure GDA0002946305830000054
Figure GDA0002946305830000055
式(9)中,topK表示排序操作,并返回连接边权重
Figure GDA0002946305830000056
中权重值最大的前K个连接节点所对应的索引;
步骤5.4、利用式(10)计算上下文感知图节点集合N(t)中的第i个节点
Figure GDA0002946305830000057
从邻居节点集
Figure GDA0002946305830000058
中接收到的总消息特征
Figure GDA0002946305830000059
Figure GDA00029463058300000510
Figure GDA00029463058300000511
式(10)中,
Figure GDA00029463058300000512
表示邻居节点
Figure GDA00029463058300000513
传递给第i个节点
Figure GDA00029463058300000514
的消息特征,
Figure GDA00029463058300000515
表示邻居节点
Figure GDA00029463058300000516
到第i个节点
Figure GDA00029463058300000517
之间的连接边的归一化权值,邻居节点
Figure GDA00029463058300000518
表示邻居节点集
Figure GDA00029463058300000519
中索引为j所对应的节点,并有:
Figure GDA00029463058300000520
Figure GDA00029463058300000521
式(11)和式(12)中,
Figure GDA00029463058300000522
表示邻居节点
Figure GDA00029463058300000523
所对应的待训练参数,
Figure GDA00029463058300000524
表示注意力关注的词级问题特征向量
Figure GDA00029463058300000525
所对应的待训练参数;
步骤5.5、利用式(13)更新图节点集合N(t)中的第i个节点
Figure GDA00029463058300000526
的特征,得到更新后的第i个节点
Figure GDA00029463058300000527
Figure GDA00029463058300000528
Figure GDA00029463058300000529
式(13)中,
Figure GDA00029463058300000530
表示在第t轮迭代更新后的上下文特征向量,并有:
Figure GDA00029463058300000531
式(14)中,
Figure GDA00029463058300000532
表示在第t轮迭代更新时的上下文特征向量,
Figure GDA00029463058300000533
表示中间变量
Figure GDA0002946305830000061
所对应的待训练参数;
步骤6、基于当前问题对上下文感知图节点进行注意力处理;
利用式(15)对所述更新后的上下文感知图节点集合N(T+1)进行注意力处理,得到注意力关注的上下文感知图特征向量eg
Figure GDA0002946305830000062
eg=αgN(T+1) (15)
式(15)中,
Figure GDA0002946305830000063
表示对更新后的上下文感知图节点集合N(T+1)的注意力分布权重,并有:
αg=softmax(Wgzg) (16)
式(16)中,
Figure GDA0002946305830000064
表示句子级问题特征向量q与更新后的上下文感知图节点集合N(T+1)之间的相似度矩阵,
Figure GDA0002946305830000065
表示相似度矩阵zg对应的待训练参数,并有:
zg=tanh(Wg1q+Wg2N(T+1)) (17)
式(17)中,
Figure GDA0002946305830000066
表示句子级问题特征向量q对应的待训练参数,
Figure GDA0002946305830000067
表示更新后的上下文感知图节点集合N(T+1)对应的待训练参数;
步骤7、多模态语义融合及解码生成答案;
步骤7.1、将所述句子级问题特征向量q和注意力关注的上下文感知图特征向量eg进行拼接,得到多模态特征向量eM
Figure GDA0002946305830000068
再利用全连接操作对所述多模态特征向量eM进行映射,得到融合语义特征向量e,
Figure GDA0002946305830000069
步骤7.2、将所述融合语义特征向量e输入到长短期记忆网络LSTM中,得到预测答案的隐状态特征序列
Figure GDA00029463058300000610
其中hA,i为长短期记忆网络LSTM的第i个步长的输出,L3为真实答案标签AGT的句子长度;
步骤7.3、利用全连接操作将所述预测答案的隐状态特征序列
Figure GDA00029463058300000611
映射到与所述one-hot向量表O同一维度的空间中,得到预测答案的单词向量集合
Figure GDA00029463058300000612
其中yi表示预测答案中第i个单词的映射向量,且向量长度与单词个数相同;
步骤8、基于上下文感知图神经网络的视觉对话生成网络模型的参数优化;
步骤8.1、根据所述单词one-hot向量表O对真实答案标签AGT中的单词构建向量集合
Figure GDA0002946305830000071
其中
Figure GDA0002946305830000072
表示真实答案标签AGT中第i个单词的映射向量,且向量长度与单词个数相同;
步骤8.2利用式(18)计算预测答案与真实答案AGT之间的损失代价E:
Figure GDA0002946305830000073
步骤8.3、利用随机梯度下降法将所述损失代价E进行优化求解,使损失代价E达到最小,从而得到最优参数的基于上下文感知图神经网络的视觉对话网络模型;
步骤9、预测答案生成;
对所述预测答案的单词向量集合
Figure GDA0002946305830000074
使用贪心解码算法得到第i个单词的映射向量yi中最大值所对应的位置,并根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为第i个单词的映射向量yi最终的预测单词,进而得到单词向量集合Y所对应的预测答案,并以所述当前问题Q和单词向量集合Y所对应的预测答案作为最终生成的视觉对话。
与已有技术相比,本发明的有益效果体现在:
1、本发明从句子层面和词层面分别处理文本特征,在处理时首先对问题和历史对话进行句子层面的特征提取并对历史对话特征进行注意力处理;接着,在每一轮图网络迭代更新过程中都会对当前问题特征进行词级注意力处理,使得图网络在每次更新时都能根据不同的关键词语义来学习不同图节点之间的相互依赖关系;最终,经过多轮迭代关系图网络充分学习了内部节点之间的相互依赖关系,这种更细粒度的文本处理方法使得本发明在视觉对话中可以生成更准确合理的答案。
2、和以往研究的视觉对话技术相比,本发明不仅充分考虑了当前问题与历史对话之间的相互依赖关系,还利用历史上下文文本语义信息和视觉对象语义信息构建了一个上下文感知的图神经网络,并利用该图网络去学习图像中不同视觉对象之间的相互依赖关系,使得智能体能辨别不同视觉对象在当前问题下的重要性,进而获得更细粒度、更准确的视觉语义信息。
3、本发明提出了一种基于图网络的多模态语义融合结构,该结构首先利用句子层面的问题特征对迭代更新后的上下文感知图网络进行注意力处理,以进一步突出上下文感知图网络中与问题关键词相关的节点语义信息。接着,拼接句子级问题特征和注意力关注的上下文感知图特征,并进行学习与融合,使得视觉特征和文本特征可以通过上下文感知图网络和多模态语义融合互相产生影响,并辅助优化网络的参数,融合网络同时获取了视觉语义和文本语义之后,智能体的预测答案生成效果也有了很大的提升,预测的结果也更精确。
附图说明
图1为本发明的网络模型示意图;
图2为本发明中上下文感知图的迭代更新处理示意图;
图3为本发明网络模型训练示意图。
具体实施方式
在本实施例中,如图1所示,一种基于上下文感知图神经网络的视觉对话生成方法是按如下步骤进行:
步骤1、视觉对话中文本输入的预处理和单词表的构建:
步骤1.1、从网上获取视觉对话数据集,目前公开的数据集主要有VisDialDataset,该数据集由乔治亚理工学院的相关研究员收集而成,视觉对话数据集中包含句子文本和图像;
对视觉对话数据集中所有的句子文本进行分词处理,得到分割后的单词;
步骤1.2、从分割后的单词中筛选出词频率大于阈值的所有单词,阈值的大小可设置为4,并构建单词索引表Voc;创建单词索引表Voc的方法:单词表可以包含单词、标点符号;统计单词的个数并对单词进行排序,其中为了满足优化的训练过程,添加了一个空白符。对所有单词按照顺序构建单词与序号的对应表;再对索引表Voc中的每一个单词进行one-hot编码,得到one-hot向量表O=[o1,o2,...,oi,...,oS],其中oi表示索引表Voc中的第i个单词所对应的one-hot编码向量,S为索引表Voc中的单词个数;
步骤1.3、随机初始化一个词嵌入矩阵We
Figure GDA0002946305830000081
其中dw代表词向量的维度;利用词嵌入矩阵We将one-hot向量表中的每个单词的编码向量映射到相应的词向量上,从而得到词向量表;
步骤2、对话图像的特征提取以及对话文本的特征提取;
步骤2.1、从视觉对话数据集中获取任意一个图像I及其对应的历史对话U=[u1,u2,...,ur,...,uR]、当前问题
Figure GDA0002946305830000082
和真实答案标签AGT所组成的视觉对话信息D;其中R为历史对话U中的对话片段总数,ur表示对话中的第r段对话,L1表示当前问题Q的句子长度,L1的大小可设置为16,对于句子长度小于16的句子会用零向量进行填充,填充至其长度为L1,wQ,i表示当前问题Q中的第i个单词在词向量表中所对应的词向量;
步骤2.2、使用目标检测特征提取器和多层感知器提取视觉对话信息D中图像I的特征,得到视觉对象特征
Figure GDA0002946305830000091
其中vi表示视觉对象特征V中的第i个目标对象特征,M表示视觉对象特征V中检测的目标对象总数,d为视觉对象特征V的通道维度;本实施例中,可以采用预训练的Faster-RCNN目标检测特征提取器对图像I的局部视觉特征进行特征提取;Faster-RCNN所提取的局部视觉特征在许多视觉任务上都取得了优异的效果,因此我们使用在Visual Genome数据集上预训练过的Faster-RCNN作为实验的局部视觉特征提取器,并且这一部分的网络不参与后续步骤8的参数更新部分;
步骤2.3、使用长短期记忆网络LSTM对当前问题Q进行特征提取,得到隐状态特征序列
Figure GDA0002946305830000092
并取长短期记忆网络LSTM的最后一个步长输出的隐状态特征
Figure GDA0002946305830000093
作为当前问题Q的句子级问题特征向量q,
Figure GDA0002946305830000094
其中hQ,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征;
步骤2.4、使用长短期记忆网络LSTM对历史对话U中的第r段对话
Figure GDA0002946305830000095
进行特征提取,得到第r个隐状态序列
Figure GDA0002946305830000096
并取长短期记忆网络取LSTM的最后一个步长输出的隐状态特征
Figure GDA0002946305830000097
作为第r段对话ur的句子级特征hr
Figure GDA0002946305830000098
则总的历史对话特征为
Figure GDA0002946305830000099
其中wr,i表示第r段对话ur中第i个单词在词向量表中所对应的词向量,L2为第r段对话ur的句子长度,L2的大小可设置为25,对于句子长度小于25的句子会用零向量进行填充,填充至其长度为L2,hr,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征;
步骤3、获取历史对话上下文特征向量;
利用式(1)对总的历史对话特征H=[h1,h2,...,hr,...,hR]进行注意力处理,得到历史对话上下文特征向量ha
Figure GDA00029463058300000910
ha=αhH′ (1)
式(1)中,
Figure GDA0002946305830000101
表示对历史对话特征H的注意力分布权重,并有:
αh=softmax(Whzh) (2)
式(2)中,
Figure GDA0002946305830000102
表示句子级问题特征向量q与历史对话特征H之间的相似度矩阵,
Figure GDA0002946305830000103
表示相似度矩阵zh的待训练参数,并有:
zh=L2Norm((Wh2H)⊙(Wq2q)) (3)
式(3)中,
Figure GDA0002946305830000104
表示句子级问题特征向量q对应的待训练参数,
Figure GDA0002946305830000105
表示历史对话特征H对应的待训练参数,⊙表示点乘运算,L2Norm表示L2正则化操作;
步骤4、构建上下文感知图;
步骤4.1、利用历史对话上下文特征向量ha和视觉对象特征V构建上下文感知图G={N,ξ},其中ξ表示上下文感知图G中所有节点之间边的集合,
Figure GDA0002946305830000106
表示上下文感知图G中的节点集合,且
Figure GDA0002946305830000107
表示节点集合N中的第i个节点;
步骤4.2、利用式(4)对节点集合N中的第i个节点Ni进行初始化,1≤i≤M:
Ni=[vi;ci]=[vi;ha] (4)
式(4)中,
Figure GDA0002946305830000108
表示第i个节点Ni中的上下文特征向量,其初始值与历史对话上下文特征向量ha相同,[;]表示特征拼接操作;
步骤5、如图2所示,迭代更新上下文感知图;
对上下文感知图G进行T轮迭代更新,并得到更新后的上下文感知图节点集合N(T +1);其中,上下文感知图G的第t轮迭代更新过程如下,1≤t≤T:
步骤5.1、在第t轮迭代更新过程中,利用式(5)对当前问题Q进行词级别注意力处理,得到第t轮迭代更新时的注意力关注的词级问题特征向量
Figure GDA0002946305830000109
Figure GDA00029463058300001010
Figure GDA00029463058300001011
式(5)中,
Figure GDA00029463058300001012
表示在第t轮迭代更新时对当前问题Q的注意力分布权重,并有:
Figure GDA0002946305830000111
式(6)中,
Figure GDA0002946305830000112
表示在第t轮迭代更新时当前问题Q的自注意力语义矩阵,
Figure GDA0002946305830000113
表示自注意力语义矩阵
Figure GDA0002946305830000114
所对应的待训练参数,并有:
Figure GDA0002946305830000115
式(7)中,
Figure GDA0002946305830000116
表示在第t轮迭代更新时词级别注意力处理中当前问题Q所对应的待训练参数;
步骤5.2、利用式(8)计算在第t轮迭代更新时的图连接矩阵
Figure GDA0002946305830000117
Figure GDA0002946305830000118
Figure GDA0002946305830000119
表示第t轮迭代更新时第i个节点
Figure GDA00029463058300001110
与上下文感知图G中所有其它节点的连接边权重:
Figure GDA00029463058300001111
式(8)中,
Figure GDA00029463058300001112
分别表示在第t轮迭代更新时上下文感知图节点集合N(t)所对应的不同待训练参数,
Figure GDA00029463058300001113
表示注意力关注的词级问题特征向量
Figure GDA00029463058300001114
所对应的待训练参数;
步骤5.3、利用式(9)为上下文感知图节点集合N(t)中的第i个节点
Figure GDA00029463058300001115
选择关系最相关的K个邻居节点集
Figure GDA00029463058300001116
Figure GDA00029463058300001117
式(9)中,topK表示排序操作,并返回连接边权重
Figure GDA00029463058300001118
中权重值最大的前K个连接节点所对应的索引;
步骤5.4、利用式(10)计算上下文感知图节点集合N(t)中的第i个节点
Figure GDA00029463058300001119
从邻居节点集
Figure GDA00029463058300001120
中接收到的总消息特征
Figure GDA00029463058300001121
Figure GDA00029463058300001122
Figure GDA00029463058300001123
式(10)中,
Figure GDA00029463058300001124
表示邻居节点
Figure GDA00029463058300001125
传递给第i个节点
Figure GDA00029463058300001126
的消息特征,
Figure GDA00029463058300001127
表示邻居节点
Figure GDA00029463058300001128
到第i个节点
Figure GDA00029463058300001129
之间的连接边的归一化权值,邻居节点
Figure GDA00029463058300001130
表示邻居节点集
Figure GDA00029463058300001131
中索引为j所对应的节点,并有:
Figure GDA0002946305830000121
Figure GDA0002946305830000122
式(11)和式(12)中,
Figure GDA0002946305830000123
表示邻居节点
Figure GDA0002946305830000124
所对应的待训练参数,
Figure GDA0002946305830000125
表示注意力关注的词级问题特征向量
Figure GDA0002946305830000126
所对应的待训练参数;
步骤5.5、利用式(13)更新图节点集合N(t)中的第i个节点
Figure GDA0002946305830000127
的特征,得到更新后的第i个节点
Figure GDA0002946305830000128
Figure GDA0002946305830000129
Figure GDA00029463058300001210
式(13)中,
Figure GDA00029463058300001211
表示在第t轮迭代更新后的上下文特征向量,并有:
Figure GDA00029463058300001212
式(14)中,
Figure GDA00029463058300001213
表示在第t轮迭代更新时的上下文特征向量,
Figure GDA00029463058300001214
表示中间变量
Figure GDA00029463058300001215
所对应的待训练参数;
步骤6、基于当前问题对上下文感知图节点进行注意力处理;
利用式(15)对更新后的上下文感知图节点集合N(T+1)进行注意力处理,得到注意力关注的上下文感知图特征向量eg
Figure GDA00029463058300001216
eg=αgN(T+1) (15)
式(15)中,
Figure GDA00029463058300001217
表示对更新后的上下文感知图节点集合N(T+1)的注意力分布权重,并有:
αg=softmax(Wgzg) (16)
式(16)中,
Figure GDA00029463058300001218
表示句子级问题特征向量q与更新后的上下文感知图节点集合N(T+1)之间的相似度矩阵,
Figure GDA00029463058300001219
表示相似度矩阵zg对应的待训练参数,并有:
zg=tanh(Wg1q+Wg2N(T+1)) (17)
式(17)中,
Figure GDA00029463058300001220
表示句子级问题特征向量q对应的待训练参数,
Figure GDA00029463058300001221
表示更新后的上下文感知图节点集合N(T+1)对应的待训练参数;
步骤7、多模态语义融合及解码生成答案;
步骤7.1、将句子级问题特征向量q和注意力关注的上下文感知图特征向量eg进行拼接,得到多模态特征向量eM
Figure GDA0002946305830000131
再利用全连接操作对多模态特征向量eM进行映射,得到融合语义特征向量e,
Figure GDA0002946305830000132
步骤7.2、将融合语义特征向量e输入到长短期记忆网络LSTM中,得到预测答案的隐状态特征序列
Figure GDA0002946305830000133
其中hA,i为长短期记忆网络LSTM的第i个步长的输出,L3为真实答案标签AGT的句子长度,L3的大小可设置为9;
步骤7.3、利用全连接操作将预测答案的隐状态特征序列
Figure GDA0002946305830000134
映射到与one-hot向量表O同一维度的空间中,得到预测答案的单词向量集合
Figure GDA0002946305830000135
其中yi表示预测答案中第i个单词的映射向量,且向量长度与单词个数相同;
步骤8、如图3所示,对基于上下文感知图神经网络的视觉对话生成网络模型的参数进行优化;
步骤8.1、根据单词one-hot向量表O对真实答案标签AGT中的单词构建向量集合
Figure GDA0002946305830000136
其中
Figure GDA0002946305830000137
表示真实答案标签AGT中第i个单词的映射向量,且向量长度与单词个数相同;
步骤8.2利用式(18)计算预测答案与真实答案AGT之间的损失代价E:
Figure GDA0002946305830000138
步骤8.3、利用随机梯度下降法将损失代价E进行优化求解,使损失代价E达到最小,从而得到最优参数的基于上下文感知图神经网络的视觉对话网络模型;
步骤9、预测答案生成;
对预测答案的单词向量集合
Figure GDA0002946305830000139
使用贪心解码算法得到第i个单词的映射向量yi中最大值所对应的位置,并根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为第i个单词的映射向量yi最终的预测单词,进而得到单词向量集合Y所对应的预测答案,并以当前问题Q和单词向量集合Y所对应的预测答案作为最终生成的视觉对话。

Claims (1)

1.一种基于上下文感知图神经网络的视觉对话生成方法,其特征是按如下步骤进行:
步骤1、视觉对话中文本输入的预处理和单词表的构建:
步骤1.1、获取视觉对话数据集,所述视觉对话数据集中包含句子文本和图像;
对所述视觉对话数据集中所有的句子文本进行分词处理,得到分割后的单词;
步骤1.2、从分割后的单词中筛选出词频率大于阈值的所有单词,并构建单词索引表Voc;再对所述索引表Voc中的每一个单词进行one-hot编码,得到one-hot向量表O=[o1,o2,...,oi,...,oS],其中oi表示索引表Voc中的第i个单词所对应的one-hot编码向量,S为索引表Voc中的单词个数;
步骤1.3、随机初始化一个词嵌入矩阵We
Figure FDA0002946305820000011
其中dw代表词向量的维度;利用词嵌入矩阵We将one-hot向量表中的每个单词的编码向量映射到相应的词向量上,从而得到词向量表;
步骤2、对话图像的特征提取以及对话文本的特征提取;
步骤2.1、从视觉对话数据集中获取任意一个图像I及其对应的历史对话U=[u1,u2,...,ur,...,uR]、当前问题
Figure FDA0002946305820000012
和真实答案标签AGT所组成的视觉对话信息D;其中R为历史对话U中的对话片段总数,ur表示对话中的第r段对话,L1表示当前问题Q的句子长度,wQ,i表示当前问题Q中的第i个单词在所述词向量表中所对应的词向量;
步骤2.2、使用目标检测特征提取器和多层感知器提取视觉对话信息D中图像I的特征,得到视觉对象特征V=[v1,v2,...,vi,...,vM],
Figure FDA0002946305820000013
其中vi表示视觉对象特征V中的第i个目标对象特征,M表示视觉对象特征V中检测的目标对象总数,d为视觉对象特征V的通道维度;
步骤2.3、使用长短期记忆网络LSTM对当前问题Q进行特征提取,得到隐状态特征序列
Figure FDA0002946305820000014
并取长短期记忆网络LSTM的最后一个步长输出的隐状态特征
Figure FDA0002946305820000015
作为当前问题Q的句子级问题特征向量q,
Figure FDA0002946305820000016
其中hQ,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征;
步骤2.4、使用长短期记忆网络LSTM对历史对话U中的第r段对话
Figure FDA0002946305820000017
进行特征提取,得到第r个隐状态序列
Figure FDA0002946305820000021
并取长短期记忆网络取LSTM的最后一个步长输出的隐状态特征
Figure FDA0002946305820000022
作为第r段对话ur的句子级特征hr
Figure FDA0002946305820000023
则总的历史对话特征为H=[h1,h2,...,hr,...,hR],
Figure FDA0002946305820000024
其中wr,i表示第r段对话ur中第i个单词在所述词向量表中所对应的词向量,L2为第r段对话ur的句子长度,hr,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征;
步骤3、获取历史对话上下文特征向量;
利用式(1)对所述总的历史对话特征H=[h1,h2,...,hr,...,hR]进行注意力处理,得到历史对话上下文特征向量ha
Figure FDA0002946305820000025
ha=αhH′ (1)
式(1)中,
Figure FDA0002946305820000026
表示对历史对话特征H的注意力分布权重,并有:
αh=softmax(Whzh) (2)
式(2)中,
Figure FDA0002946305820000027
表示句子级问题特征向量q与历史对话特征H之间的相似度矩阵,
Figure FDA0002946305820000028
表示相似度矩阵zh的待训练参数,并有:
zh=L2Norm((Wh2H)⊙(Wq2q)) (3)
式(3)中,
Figure FDA0002946305820000029
表示句子级问题特征向量q对应的待训练参数,
Figure FDA00029463058200000210
表示历史对话特征H对应的待训练参数,⊙表示点乘运算,L2Norm表示L2正则化操作;
步骤4、构建上下文感知图;
步骤4.1、利用所述历史对话上下文特征向量ha和视觉对象特征V构建上下文感知图G={N,ξ},其中ξ表示所述上下文感知图G中所有节点之间边的集合,
Figure FDA00029463058200000211
表示上下文感知图G中的节点集合,且N=[N1,N2,...,Ni,...,NM],
Figure FDA00029463058200000212
表示节点集合N中的第i个节点;
步骤4.2、利用式(4)对节点集合N中的第i个节点Ni进行初始化,1≤i≤M:
Ni=[vi;ci]=[vi;ha] (4)
式(4)中,
Figure FDA00029463058200000213
表示第i个节点Ni中的上下文特征向量,其初始值与历史对话上下文特征向量ha相同,[;]表示特征拼接操作;
步骤5、迭代更新上下文感知图;
对所述上下文感知图G进行T轮迭代更新,并得到更新后的上下文感知图节点集合N(T +1);其中,上下文感知图G的第t轮迭代更新过程如下,1≤t≤T:
步骤5.1、在第t轮迭代更新过程中,利用式(5)对当前问题Q进行词级别注意力处理,得到第t轮迭代更新时的注意力关注的词级问题特征向量
Figure FDA0002946305820000031
Figure FDA0002946305820000032
Figure FDA0002946305820000033
式(5)中,
Figure FDA0002946305820000034
表示在第t轮迭代更新时对当前问题Q的注意力分布权重,并有:
Figure FDA0002946305820000035
式(6)中,
Figure FDA0002946305820000036
表示在第t轮迭代更新时当前问题Q的自注意力语义矩阵,
Figure FDA0002946305820000037
表示自注意力语义矩阵
Figure FDA0002946305820000038
所对应的待训练参数,并有:
Figure FDA0002946305820000039
式(7)中,
Figure FDA00029463058200000310
表示在第t轮迭代更新时词级别注意力处理中当前问题Q所对应的待训练参数;
步骤5.2、利用式(8)计算在第t轮迭代更新时的图连接矩阵
Figure FDA00029463058200000311
Figure FDA00029463058200000312
Figure FDA00029463058200000313
表示第t轮迭代更新时第i个节点
Figure FDA00029463058200000314
与上下文感知图G中所有其它节点的连接边权重:
Figure FDA00029463058200000315
式(8)中,
Figure FDA00029463058200000316
分别表示在第t轮迭代更新时上下文感知图节点集合N(t)所对应的不同待训练参数,
Figure FDA00029463058200000317
表示注意力关注的词级问题特征向量
Figure FDA00029463058200000318
所对应的待训练参数;步骤5.3、利用式(9)为上下文感知图节点集合N(t)中的第i个节点
Figure FDA00029463058200000319
选择关系最相关的K个邻居节点集
Figure FDA00029463058200000320
1≤i≤M:
Figure FDA00029463058200000321
式(9)中,topK表示排序操作,并返回连接边权重
Figure FDA00029463058200000322
中权重值最大的前K个连接节点所对应的索引;
步骤5.4、利用式(10)计算上下文感知图节点集合N(t)中的第i个节点
Figure FDA0002946305820000041
从邻居节点集
Figure FDA0002946305820000042
中接收到的总消息特征
Figure FDA0002946305820000043
Figure FDA0002946305820000044
1≤i≤M:
Figure FDA0002946305820000045
式(10)中,
Figure FDA0002946305820000046
表示邻居节点
Figure FDA0002946305820000047
传递给第i个节点
Figure FDA0002946305820000048
的消息特征,
Figure FDA0002946305820000049
表示邻居节点
Figure FDA00029463058200000410
到第i个节点
Figure FDA00029463058200000411
之间的连接边的归一化权值,邻居节点
Figure FDA00029463058200000412
表示邻居节点集
Figure FDA00029463058200000413
中索引为j所对应的节点,并有:
Figure FDA00029463058200000414
Figure FDA00029463058200000415
式(11)和式(12)中,
Figure FDA00029463058200000416
表示邻居节点
Figure FDA00029463058200000417
所对应的待训练参数,
Figure FDA00029463058200000418
表示注意力关注的词级问题特征向量
Figure FDA00029463058200000419
所对应的待训练参数;
步骤5.5、利用式(13)更新图节点集合N(t)中的第i个节点
Figure FDA00029463058200000420
的特征,得到更新后的第i个节点
Figure FDA00029463058200000421
Figure FDA00029463058200000422
1≤i≤M:
Figure FDA00029463058200000423
式(13)中,
Figure FDA00029463058200000424
表示在第t轮迭代更新后的上下文特征向量,并有:
Figure FDA00029463058200000425
式(14)中,
Figure FDA00029463058200000426
表示在第t轮迭代更新时的上下文特征向量,
Figure FDA00029463058200000427
表示中间变量
Figure FDA00029463058200000428
所对应的待训练参数;
步骤6、基于当前问题对上下文感知图节点进行注意力处理;
利用式(15)对所述更新后的上下文感知图节点集合N(T+1)进行注意力处理,得到注意力关注的上下文感知图特征向量eg
Figure FDA00029463058200000429
eg=αgN(T+1) (15)
式(15)中,
Figure FDA00029463058200000430
表示对更新后的上下文感知图节点集合N(T+1)的注意力分布权重,并有:
αg=softmax(Wgzg) (16)
式(16)中,
Figure FDA0002946305820000051
表示句子级问题特征向量q与更新后的上下文感知图节点集合N(T +1)之间的相似度矩阵,
Figure FDA0002946305820000052
表示相似度矩阵zg对应的待训练参数,并有:
zg=tanh(Wg1q+Wg2N(T+1)) (17)
式(17)中,
Figure FDA0002946305820000053
表示句子级问题特征向量q对应的待训练参数,
Figure FDA0002946305820000054
表示更新后的上下文感知图节点集合N(T+1)对应的待训练参数;
步骤7、多模态语义融合及解码生成答案;
步骤7.1、将所述句子级问题特征向量q和注意力关注的上下文感知图特征向量eg进行拼接,得到多模态特征向量eM
Figure FDA0002946305820000055
再利用全连接操作对所述多模态特征向量eM进行映射,得到融合语义特征向量e,
Figure FDA0002946305820000056
步骤7.2、将所述融合语义特征向量e输入到长短期记忆网络LSTM中,得到预测答案的隐状态特征序列
Figure FDA0002946305820000057
其中hA,i为长短期记忆网络LSTM的第i个步长的输出,L3为真实答案标签AGT的句子长度;
步骤7.3、利用全连接操作将所述预测答案的隐状态特征序列
Figure FDA0002946305820000058
映射到与所述one-hot向量表O同一维度的空间中,得到预测答案的单词向量集合
Figure FDA0002946305820000059
其中yi表示预测答案中第i个单词的映射向量,且向量长度与单词个数相同;
步骤8、基于上下文感知图神经网络的视觉对话生成网络模型的参数优化;
步骤8.1、根据所述单词one-hot向量表O对真实答案标签AGT中的单词构建向量集合
Figure FDA00029463058200000510
其中
Figure FDA00029463058200000511
表示真实答案标签AGT中第i个单词的映射向量,且向量长度与单词个数相同;
步骤8.2利用式(18)计算预测答案与真实答案AGT之间的损失代价E:
Figure FDA00029463058200000512
步骤8.3、利用随机梯度下降法将所述损失代价E进行优化求解,使损失代价E达到最小,从而得到最优参数的基于上下文感知图神经网络的视觉对话网络模型;
步骤9、预测答案生成;
对所述预测答案的单词向量集合
Figure FDA0002946305820000061
使用贪心解码算法得到第i个单词的映射向量yi中最大值所对应的位置,并根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为第i个单词的映射向量yi最终的预测单词,进而得到单词向量集合Y所对应的预测答案,并以所述当前问题Q和单词向量集合Y所对应的预测答案作为最终生成的视觉对话。
CN201910881298.4A 2019-09-18 2019-09-18 一种基于上下文感知图神经网络的视觉对话生成方法 Active CN110609891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910881298.4A CN110609891B (zh) 2019-09-18 2019-09-18 一种基于上下文感知图神经网络的视觉对话生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910881298.4A CN110609891B (zh) 2019-09-18 2019-09-18 一种基于上下文感知图神经网络的视觉对话生成方法

Publications (2)

Publication Number Publication Date
CN110609891A CN110609891A (zh) 2019-12-24
CN110609891B true CN110609891B (zh) 2021-06-08

Family

ID=68892870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910881298.4A Active CN110609891B (zh) 2019-09-18 2019-09-18 一种基于上下文感知图神经网络的视觉对话生成方法

Country Status (1)

Country Link
CN (1) CN110609891B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222054B (zh) * 2020-01-03 2020-12-11 中国计量大学 一种基于上下文邻居关系建模的会话社交推荐方法
CN111260740B (zh) * 2020-01-16 2023-05-23 华南理工大学 一种基于生成对抗网络的文本到图像生成方法
CN111325243B (zh) * 2020-02-03 2023-06-16 天津大学 一种基于区域注意力学习机制的视觉关系检测方法
CN111460132B (zh) * 2020-03-10 2021-08-10 哈尔滨工业大学 一种基于图卷积神经网络的生成式会议摘要方法
CN111460121B (zh) * 2020-03-31 2022-07-08 思必驰科技股份有限公司 视觉语义对话方法及系统
CN111581969B (zh) * 2020-05-08 2023-03-31 医渡云(北京)技术有限公司 医疗术语向量表示方法、装置、存储介质及电子设备
CN111723649B (zh) * 2020-05-08 2022-08-12 天津大学 一种基于语义分解的短视频事件检测方法
WO2021248473A1 (en) * 2020-06-12 2021-12-16 Baidu.Com Times Technology (Beijing) Co., Ltd. Personalized speech-to-video with three-dimensional (3d) skeleton regularization and expressive body poses
CN111967272B (zh) * 2020-06-23 2023-10-31 合肥工业大学 基于语义对齐的视觉对话生成系统
CN111897933B (zh) * 2020-07-27 2024-02-06 腾讯科技(深圳)有限公司 情感对话生成方法、装置及情感对话模型训练方法、装置
CN111783475B (zh) * 2020-07-28 2021-05-11 北京深睿博联科技有限责任公司 一种基于短语关系传播的语义视觉定位方法及装置
CN111897940B (zh) * 2020-08-12 2024-05-17 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备
CN111897939B (zh) * 2020-08-12 2024-02-02 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备
CN112001368A (zh) * 2020-09-29 2020-11-27 北京百度网讯科技有限公司 文字结构化提取方法、装置、设备以及存储介质
CN112148863B (zh) * 2020-10-15 2022-07-01 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112417112A (zh) * 2020-11-10 2021-02-26 中山大学 一种基于图表征增强的开放域对话系统评估方法
CN112271001B (zh) * 2020-11-17 2022-08-16 中山大学 一种应用异构图神经网络的医疗咨询对话系统及方法
CN112508085B (zh) * 2020-12-05 2023-04-07 西安电子科技大学 基于感知神经网络的社交网络链路预测方法
CN112861945B (zh) * 2021-01-28 2022-05-13 清华大学 一种多模态融合谎言检测方法
CN113239147B (zh) * 2021-05-12 2024-09-24 平安科技(深圳)有限公司 基于图神经网络的智能会话方法、系统及介质
CN113420606B (zh) * 2021-05-31 2022-06-14 华南理工大学 一种基于自然语言和机器视觉实现机器人自主导航的方法
CN113360621A (zh) * 2021-06-22 2021-09-07 辽宁工程技术大学 一种基于模态推理图神经网络的场景文本视觉问答方法
CN113435399B (zh) * 2021-07-14 2022-04-15 电子科技大学 一种基于多层次排序学习的多轮视觉对话方法
CN113553418B (zh) * 2021-07-27 2023-06-02 天津大学 一种基于多模态学习的视觉对话生成方法及装置
CN113468314B (zh) * 2021-08-31 2022-02-08 阿里巴巴达摩院(杭州)科技有限公司 关系预测及问答方法、装置、电子设备及计算机存储介质
CN113868451B (zh) * 2021-09-02 2024-06-11 天津大学 基于上下文级联感知的社交网络跨模态对话方法及装置
CN113902964A (zh) * 2021-09-09 2022-01-07 中山大学 基于关键词感知的多模态注意力视频问答方法与系统
CN114357968A (zh) * 2021-11-29 2022-04-15 阿里巴巴达摩院(杭州)科技有限公司 对话方法以及装置
CN114880428B (zh) * 2022-03-07 2022-11-18 中国人民解放军国防科技大学 一种基于图神经网络的语篇成分识别方法
CN114647714A (zh) * 2022-03-30 2022-06-21 贝壳找房网(北京)信息技术有限公司 用于辅助对话的方法和装置
CN115049844B (zh) * 2022-06-29 2024-06-04 厦门大学 一种增强视觉信息流的图像描述生成方法
CN115422388B (zh) * 2022-09-13 2024-07-26 四川省人工智能研究院(宜宾) 一种视觉对话方法及系统
CN115658865A (zh) * 2022-10-26 2023-01-31 茅台学院 一种基于注意力预训练的图片问答方法
CN115546589B (zh) * 2022-11-29 2023-04-07 浙江大学 一种基于图神经网络的图像生成方法
CN116541507A (zh) * 2023-07-06 2023-08-04 武汉工程大学 一种基于动态语义图神经网络的视觉问答方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7177815B2 (en) * 2002-07-05 2007-02-13 At&T Corp. System and method of context-sensitive help for multi-modal dialog systems
WO2014210211A1 (en) * 2013-06-27 2014-12-31 Microsoft Corporation Visualizations based on natural language query
CN105264474A (zh) * 2013-05-13 2016-01-20 株式会社三丰 包括操作上下文感知复制和粘贴特征的机器视觉系统程序编辑环境
CN108874782A (zh) * 2018-06-29 2018-11-23 北京寻领科技有限公司 一种层次注意力lstm和知识图谱的多轮对话管理方法
CN110163299A (zh) * 2019-05-31 2019-08-23 合肥工业大学 一种基于自底向上注意力机制和记忆网络的视觉问答方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090037822A1 (en) * 2007-07-31 2009-02-05 Qurio Holdings, Inc. Context-aware shared content representations

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7177815B2 (en) * 2002-07-05 2007-02-13 At&T Corp. System and method of context-sensitive help for multi-modal dialog systems
CN105264474A (zh) * 2013-05-13 2016-01-20 株式会社三丰 包括操作上下文感知复制和粘贴特征的机器视觉系统程序编辑环境
WO2014210211A1 (en) * 2013-06-27 2014-12-31 Microsoft Corporation Visualizations based on natural language query
CN108874782A (zh) * 2018-06-29 2018-11-23 北京寻领科技有限公司 一种层次注意力lstm和知识图谱的多轮对话管理方法
CN110163299A (zh) * 2019-05-31 2019-08-23 合肥工业大学 一种基于自底向上注意力机制和记忆网络的视觉问答方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Dual Visual Attention Network for Visual Dialog;DanGuo等;《Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence》;20190831;全文 *
基于场景上下文感知的多轮对话技术研究;杜智康;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190515;第I140-85页 *

Also Published As

Publication number Publication date
CN110609891A (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN110502749B (zh) 一种基于双层注意力机制与双向gru的文本关系抽取方法
US20220147836A1 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN113065344A (zh) 一种基于迁移学习和注意力机制的跨语料库情感识别方法
CN111027292B (zh) 一种限定采样文本序列生成方法及其系统
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN113705238A (zh) 基于bert和方面特征定位模型的方面级情感分析方法及模型
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
CN116151226B (zh) 一种基于机器学习的聋哑人手语纠错方法、设备和介质
Hossain et al. A novel approach to classify bangla sign digits using capsule network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant