CN110609891B - 一种基于上下文感知图神经网络的视觉对话生成方法 - Google Patents
一种基于上下文感知图神经网络的视觉对话生成方法 Download PDFInfo
- Publication number
- CN110609891B CN110609891B CN201910881298.4A CN201910881298A CN110609891B CN 110609891 B CN110609891 B CN 110609891B CN 201910881298 A CN201910881298 A CN 201910881298A CN 110609891 B CN110609891 B CN 110609891B
- Authority
- CN
- China
- Prior art keywords
- representing
- word
- context
- vector
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于上下文感知图神经网络的视觉对话生成方法,包括以下步骤:1、视觉对话中文本输入的预处理和单词表的构建;2、对话图像的特征提取以及对话文本的特征提取;3、获取历史对话上下文特征向量;4、构建上下文感知图;5、迭代更新上下文感知图;6、基于当前问题对上下文感知图节点进行注意力处理;7、多模态语义融合及解码生成答案特征序列;8、基于上下文感知图神经网络的视觉对话生成网络模型的参数优化;9、预测答案生成。本发明在视觉对话上构建了上下文感知的图神经网络,能利用更细粒度的文本语义信息来推理图像中不同对象之间的隐含关系,从而提高智能体对问题所预测生成的答案的合理性和准确性。
Description
技术领域
本发明属于计算机视觉技术领域,涉及到模式识别、自然语言处理、人工智能等技术,具体地说是一种基于上下文感知图神经网络的视觉对话生成方法。
背景技术
视觉对话是一种人机交互方法,其目的是让机器智能体与人类能够对给定的日常场景图以问答的形式进行合理正确的自然对话。因此,如何让智能体正确的理解由图像、文本组成的多模态语义信息从而对人类提出的问题给出合理的回答是视觉对话任务的关键。视觉对话目前也是计算机视觉领域热门研究课题之一,其应用场景也非常的广泛,包括:帮助视觉障碍的人群了解社交媒体内容或日常环境、人工智能助力、机器人应用等方面。
随着现代图像处理技术和深度学习的发展,视觉对话技术也得到了巨大的发展,但是仍然面临以下几点问题:
一、智能体在处理文本信息时缺乏对文本特征进行更细粒度的学习。
例如2017年,Jiasen Lu等作者在顶级国际会议Conference and Workshop onNeural Information Processing Systems(NIPS 2017)上发表的文章《Best of BothWorlds:Transferring Knowledge from Discriminative Learning to a GenerativeVisual Dialog Model》中提出的基于历史对话的图像注意力方法,该方法首先对历史对话进行句子层面的注意力处理,然后基于处理后的文本特征对图像特征进行注意力学习,但是该方法在处理当前问题的文本信息时只考虑了句子层面的语义,没有考虑词层面的语义,而在实际提问的句子里面通常只有部分关键词是与预测的答案最相关的。因此,该方法在实际应用时会有一定的局限性。
二、现有方法在处理图像信息时,缺乏对视觉对象之间的语义依赖关系的学习。
例如2019年,Zilong Zheng等作者在顶级国际会议IEEE Conference onComputer Vision and Pattern Recognition(CVPR 2019)上发表的《Reasoning VisualDialogs with Structural and Partial Observations》。这篇文章在视觉对话任务上构建了一个对话图神经网络,图网络中的每一个节点代表一段对话片段,图网络中的边代表不同对话片段之间的语义依赖关系,该方法利用EM算法来更新图网络结果,明确不同对话片段之间的具体语义依赖关系,并更据所更新的图网络来预测最后的答案。虽然这篇文章所提出的方法有效的建模了不同对话片段之间的语义依赖关系,但是该方法只考虑了文本层面的相互依赖关系,而没有去考虑图像信息中不同视觉对象之间的相互依赖关系,使得视觉语义信息没能够进行更细粒度的学习,在最终的预测答案生成上存在局限性。
发明内容
本发明是为了克服现有技术存在的不足之处,提出一种基于上下文感知图神经网络的视觉对话生成方法,以期能为智能体提供充分学习视觉对象间相互依赖关系的视觉语义信息,以及更细粒度的文本语义信息,从而提高智能体对问题所预测生成的答案的合理性和准确性。
本发明为解决技术问题采用如下技术方案:
本发明一种基于上下文感知图神经网络的视觉对话生成方法的特点是按如下步骤进行:
步骤1、视觉对话中文本输入的预处理和单词表的构建:
步骤1.1、获取视觉对话数据集,所述视觉对话数据集中包含句子文本和图像;
对所述视觉对话数据集中所有的句子文本进行分词处理,得到分割后的单词;
步骤1.2、从分割后的单词中筛选出词频率大于阈值的所有单词,并构建单词索引表Voc;再对所述索引表Voc中的每一个单词进行one-hot编码,得到one-hot向量表O=[o1,o2,...,oi,...,oS],其中oi表示索引表Voc中的第i个单词所对应的one-hot编码向量,S为索引表Voc中的单词个数;
步骤2、对话图像的特征提取以及对话文本的特征提取;
步骤2.1、从视觉对话数据集中获取任意一个图像I及其对应的历史对话U=[u1,u2,...,ur,...,uR]、当前问题和真实答案标签AGT所组成的视觉对话信息D;其中R为历史对话U中的对话片段总数,ur表示对话中的第r段对话,L1表示当前问题Q的句子长度,wQ,i表示当前问题Q中的第i个单词在所述词向量表中所对应的词向量;
步骤2.2、使用目标检测特征提取器和多层感知器提取视觉对话信息D中图像I的特征,得到视觉对象特征V=[v1,v2,...,vi,...,vM],其中vi表示视觉对象特征V中的第i个目标对象特征,M表示视觉对象特征V中检测的目标对象总数,d为视觉对象特征V的通道维度;
步骤2.3、使用长短期记忆网络LSTM对当前问题Q进行特征提取,得到隐状态特征序列并取长短期记忆网络LSTM的最后一个步长输出的隐状态特征作为当前问题Q的句子级问题特征向量q,其中hQ,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征;
步骤2.4、使用长短期记忆网络LSTM对历史对话U中的第r段对话进行特征提取,得到第r个隐状态序列并取长短期记忆网络取LSTM的最后一个步长输出的隐状态特征作为第r段对话ur的句子级特征hr,则总的历史对话特征为其中wr,i表示第r段对话ur中第i个单词在所述词向量表中所对应的词向量,L2为第r段对话ur的句子长度,hr,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征;
步骤3、获取历史对话上下文特征向量;
ha=αhH′ (1)
αh=softmax(Whzh) (2)
zh=L2Norm((Wh2H)⊙(Wq2q)) (3)
步骤4、构建上下文感知图;
步骤4.1、利用所述历史对话上下文特征向量ha和视觉对象特征V构建上下文感知图G={N,ξ},其中ξ表示所述上下文感知图G中所有节点之间边的集合,表示上下文感知图G中的节点集合,且表示节点集合N中的第i个节点;
步骤4.2、利用式(4)对节点集合N中的第i个节点Ni进行初始化,1≤i≤M:
Ni=[vi;ci]=[vi;ha] (4)
步骤5、迭代更新上下文感知图;
对所述上下文感知图G进行T轮迭代更新,并得到更新后的上下文感知图节点集合N(T+1);其中,上下文感知图G的第t轮迭代更新过程如下,1≤t≤T:
步骤6、基于当前问题对上下文感知图节点进行注意力处理;
eg=αgN(T+1) (15)
αg=softmax(Wgzg) (16)
zg=tanh(Wg1q+Wg2N(T+1)) (17)
步骤7、多模态语义融合及解码生成答案;
步骤7.3、利用全连接操作将所述预测答案的隐状态特征序列映射到与所述one-hot向量表O同一维度的空间中,得到预测答案的单词向量集合其中yi表示预测答案中第i个单词的映射向量,且向量长度与单词个数相同;
步骤8、基于上下文感知图神经网络的视觉对话生成网络模型的参数优化;
步骤8.2利用式(18)计算预测答案与真实答案AGT之间的损失代价E:
步骤8.3、利用随机梯度下降法将所述损失代价E进行优化求解,使损失代价E达到最小,从而得到最优参数的基于上下文感知图神经网络的视觉对话网络模型;
步骤9、预测答案生成;
对所述预测答案的单词向量集合使用贪心解码算法得到第i个单词的映射向量yi中最大值所对应的位置,并根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为第i个单词的映射向量yi最终的预测单词,进而得到单词向量集合Y所对应的预测答案,并以所述当前问题Q和单词向量集合Y所对应的预测答案作为最终生成的视觉对话。
与已有技术相比,本发明的有益效果体现在:
1、本发明从句子层面和词层面分别处理文本特征,在处理时首先对问题和历史对话进行句子层面的特征提取并对历史对话特征进行注意力处理;接着,在每一轮图网络迭代更新过程中都会对当前问题特征进行词级注意力处理,使得图网络在每次更新时都能根据不同的关键词语义来学习不同图节点之间的相互依赖关系;最终,经过多轮迭代关系图网络充分学习了内部节点之间的相互依赖关系,这种更细粒度的文本处理方法使得本发明在视觉对话中可以生成更准确合理的答案。
2、和以往研究的视觉对话技术相比,本发明不仅充分考虑了当前问题与历史对话之间的相互依赖关系,还利用历史上下文文本语义信息和视觉对象语义信息构建了一个上下文感知的图神经网络,并利用该图网络去学习图像中不同视觉对象之间的相互依赖关系,使得智能体能辨别不同视觉对象在当前问题下的重要性,进而获得更细粒度、更准确的视觉语义信息。
3、本发明提出了一种基于图网络的多模态语义融合结构,该结构首先利用句子层面的问题特征对迭代更新后的上下文感知图网络进行注意力处理,以进一步突出上下文感知图网络中与问题关键词相关的节点语义信息。接着,拼接句子级问题特征和注意力关注的上下文感知图特征,并进行学习与融合,使得视觉特征和文本特征可以通过上下文感知图网络和多模态语义融合互相产生影响,并辅助优化网络的参数,融合网络同时获取了视觉语义和文本语义之后,智能体的预测答案生成效果也有了很大的提升,预测的结果也更精确。
附图说明
图1为本发明的网络模型示意图;
图2为本发明中上下文感知图的迭代更新处理示意图;
图3为本发明网络模型训练示意图。
具体实施方式
在本实施例中,如图1所示,一种基于上下文感知图神经网络的视觉对话生成方法是按如下步骤进行:
步骤1、视觉对话中文本输入的预处理和单词表的构建:
步骤1.1、从网上获取视觉对话数据集,目前公开的数据集主要有VisDialDataset,该数据集由乔治亚理工学院的相关研究员收集而成,视觉对话数据集中包含句子文本和图像;
对视觉对话数据集中所有的句子文本进行分词处理,得到分割后的单词;
步骤1.2、从分割后的单词中筛选出词频率大于阈值的所有单词,阈值的大小可设置为4,并构建单词索引表Voc;创建单词索引表Voc的方法:单词表可以包含单词、标点符号;统计单词的个数并对单词进行排序,其中为了满足优化的训练过程,添加了一个空白符。对所有单词按照顺序构建单词与序号的对应表;再对索引表Voc中的每一个单词进行one-hot编码,得到one-hot向量表O=[o1,o2,...,oi,...,oS],其中oi表示索引表Voc中的第i个单词所对应的one-hot编码向量,S为索引表Voc中的单词个数;
步骤2、对话图像的特征提取以及对话文本的特征提取;
步骤2.1、从视觉对话数据集中获取任意一个图像I及其对应的历史对话U=[u1,u2,...,ur,...,uR]、当前问题和真实答案标签AGT所组成的视觉对话信息D;其中R为历史对话U中的对话片段总数,ur表示对话中的第r段对话,L1表示当前问题Q的句子长度,L1的大小可设置为16,对于句子长度小于16的句子会用零向量进行填充,填充至其长度为L1,wQ,i表示当前问题Q中的第i个单词在词向量表中所对应的词向量;
步骤2.2、使用目标检测特征提取器和多层感知器提取视觉对话信息D中图像I的特征,得到视觉对象特征其中vi表示视觉对象特征V中的第i个目标对象特征,M表示视觉对象特征V中检测的目标对象总数,d为视觉对象特征V的通道维度;本实施例中,可以采用预训练的Faster-RCNN目标检测特征提取器对图像I的局部视觉特征进行特征提取;Faster-RCNN所提取的局部视觉特征在许多视觉任务上都取得了优异的效果,因此我们使用在Visual Genome数据集上预训练过的Faster-RCNN作为实验的局部视觉特征提取器,并且这一部分的网络不参与后续步骤8的参数更新部分;
步骤2.3、使用长短期记忆网络LSTM对当前问题Q进行特征提取,得到隐状态特征序列并取长短期记忆网络LSTM的最后一个步长输出的隐状态特征作为当前问题Q的句子级问题特征向量q,其中hQ,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征;
步骤2.4、使用长短期记忆网络LSTM对历史对话U中的第r段对话进行特征提取,得到第r个隐状态序列并取长短期记忆网络取LSTM的最后一个步长输出的隐状态特征作为第r段对话ur的句子级特征hr,则总的历史对话特征为其中wr,i表示第r段对话ur中第i个单词在词向量表中所对应的词向量,L2为第r段对话ur的句子长度,L2的大小可设置为25,对于句子长度小于25的句子会用零向量进行填充,填充至其长度为L2,hr,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征;
步骤3、获取历史对话上下文特征向量;
ha=αhH′ (1)
αh=softmax(Whzh) (2)
zh=L2Norm((Wh2H)⊙(Wq2q)) (3)
步骤4、构建上下文感知图;
步骤4.1、利用历史对话上下文特征向量ha和视觉对象特征V构建上下文感知图G={N,ξ},其中ξ表示上下文感知图G中所有节点之间边的集合,表示上下文感知图G中的节点集合,且表示节点集合N中的第i个节点;
步骤4.2、利用式(4)对节点集合N中的第i个节点Ni进行初始化,1≤i≤M:
Ni=[vi;ci]=[vi;ha] (4)
步骤5、如图2所示,迭代更新上下文感知图;
对上下文感知图G进行T轮迭代更新,并得到更新后的上下文感知图节点集合N(T +1);其中,上下文感知图G的第t轮迭代更新过程如下,1≤t≤T:
步骤6、基于当前问题对上下文感知图节点进行注意力处理;
eg=αgN(T+1) (15)
αg=softmax(Wgzg) (16)
zg=tanh(Wg1q+Wg2N(T+1)) (17)
步骤7、多模态语义融合及解码生成答案;
步骤7.2、将融合语义特征向量e输入到长短期记忆网络LSTM中,得到预测答案的隐状态特征序列其中hA,i为长短期记忆网络LSTM的第i个步长的输出,L3为真实答案标签AGT的句子长度,L3的大小可设置为9;
步骤8、如图3所示,对基于上下文感知图神经网络的视觉对话生成网络模型的参数进行优化;
步骤8.2利用式(18)计算预测答案与真实答案AGT之间的损失代价E:
步骤8.3、利用随机梯度下降法将损失代价E进行优化求解,使损失代价E达到最小,从而得到最优参数的基于上下文感知图神经网络的视觉对话网络模型;
步骤9、预测答案生成;
Claims (1)
1.一种基于上下文感知图神经网络的视觉对话生成方法,其特征是按如下步骤进行:
步骤1、视觉对话中文本输入的预处理和单词表的构建:
步骤1.1、获取视觉对话数据集,所述视觉对话数据集中包含句子文本和图像;
对所述视觉对话数据集中所有的句子文本进行分词处理,得到分割后的单词;
步骤1.2、从分割后的单词中筛选出词频率大于阈值的所有单词,并构建单词索引表Voc;再对所述索引表Voc中的每一个单词进行one-hot编码,得到one-hot向量表O=[o1,o2,...,oi,...,oS],其中oi表示索引表Voc中的第i个单词所对应的one-hot编码向量,S为索引表Voc中的单词个数;
步骤2、对话图像的特征提取以及对话文本的特征提取;
步骤2.1、从视觉对话数据集中获取任意一个图像I及其对应的历史对话U=[u1,u2,...,ur,...,uR]、当前问题和真实答案标签AGT所组成的视觉对话信息D;其中R为历史对话U中的对话片段总数,ur表示对话中的第r段对话,L1表示当前问题Q的句子长度,wQ,i表示当前问题Q中的第i个单词在所述词向量表中所对应的词向量;
步骤2.2、使用目标检测特征提取器和多层感知器提取视觉对话信息D中图像I的特征,得到视觉对象特征V=[v1,v2,...,vi,...,vM],其中vi表示视觉对象特征V中的第i个目标对象特征,M表示视觉对象特征V中检测的目标对象总数,d为视觉对象特征V的通道维度;
步骤2.3、使用长短期记忆网络LSTM对当前问题Q进行特征提取,得到隐状态特征序列并取长短期记忆网络LSTM的最后一个步长输出的隐状态特征作为当前问题Q的句子级问题特征向量q,其中hQ,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征;
步骤2.4、使用长短期记忆网络LSTM对历史对话U中的第r段对话进行特征提取,得到第r个隐状态序列并取长短期记忆网络取LSTM的最后一个步长输出的隐状态特征作为第r段对话ur的句子级特征hr,则总的历史对话特征为H=[h1,h2,...,hr,...,hR],其中wr,i表示第r段对话ur中第i个单词在所述词向量表中所对应的词向量,L2为第r段对话ur的句子长度,hr,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征;
步骤3、获取历史对话上下文特征向量;
ha=αhH′ (1)
αh=softmax(Whzh) (2)
zh=L2Norm((Wh2H)⊙(Wq2q)) (3)
步骤4、构建上下文感知图;
步骤4.1、利用所述历史对话上下文特征向量ha和视觉对象特征V构建上下文感知图G={N,ξ},其中ξ表示所述上下文感知图G中所有节点之间边的集合,表示上下文感知图G中的节点集合,且N=[N1,N2,...,Ni,...,NM],表示节点集合N中的第i个节点;
步骤4.2、利用式(4)对节点集合N中的第i个节点Ni进行初始化,1≤i≤M:
Ni=[vi;ci]=[vi;ha] (4)
步骤5、迭代更新上下文感知图;
对所述上下文感知图G进行T轮迭代更新,并得到更新后的上下文感知图节点集合N(T +1);其中,上下文感知图G的第t轮迭代更新过程如下,1≤t≤T:
式(8)中,分别表示在第t轮迭代更新时上下文感知图节点集合N(t)所对应的不同待训练参数,表示注意力关注的词级问题特征向量所对应的待训练参数;步骤5.3、利用式(9)为上下文感知图节点集合N(t)中的第i个节点选择关系最相关的K个邻居节点集1≤i≤M:
步骤6、基于当前问题对上下文感知图节点进行注意力处理;
eg=αgN(T+1) (15)
αg=softmax(Wgzg) (16)
zg=tanh(Wg1q+Wg2N(T+1)) (17)
步骤7、多模态语义融合及解码生成答案;
步骤7.3、利用全连接操作将所述预测答案的隐状态特征序列映射到与所述one-hot向量表O同一维度的空间中,得到预测答案的单词向量集合其中yi表示预测答案中第i个单词的映射向量,且向量长度与单词个数相同;
步骤8、基于上下文感知图神经网络的视觉对话生成网络模型的参数优化;
步骤8.2利用式(18)计算预测答案与真实答案AGT之间的损失代价E:
步骤8.3、利用随机梯度下降法将所述损失代价E进行优化求解,使损失代价E达到最小,从而得到最优参数的基于上下文感知图神经网络的视觉对话网络模型;
步骤9、预测答案生成;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910881298.4A CN110609891B (zh) | 2019-09-18 | 2019-09-18 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910881298.4A CN110609891B (zh) | 2019-09-18 | 2019-09-18 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110609891A CN110609891A (zh) | 2019-12-24 |
CN110609891B true CN110609891B (zh) | 2021-06-08 |
Family
ID=68892870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910881298.4A Active CN110609891B (zh) | 2019-09-18 | 2019-09-18 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110609891B (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222054B (zh) * | 2020-01-03 | 2020-12-11 | 中国计量大学 | 一种基于上下文邻居关系建模的会话社交推荐方法 |
CN111260740B (zh) * | 2020-01-16 | 2023-05-23 | 华南理工大学 | 一种基于生成对抗网络的文本到图像生成方法 |
CN111325243B (zh) * | 2020-02-03 | 2023-06-16 | 天津大学 | 一种基于区域注意力学习机制的视觉关系检测方法 |
CN111460132B (zh) * | 2020-03-10 | 2021-08-10 | 哈尔滨工业大学 | 一种基于图卷积神经网络的生成式会议摘要方法 |
CN111460121B (zh) * | 2020-03-31 | 2022-07-08 | 思必驰科技股份有限公司 | 视觉语义对话方法及系统 |
CN111581969B (zh) * | 2020-05-08 | 2023-03-31 | 医渡云(北京)技术有限公司 | 医疗术语向量表示方法、装置、存储介质及电子设备 |
CN111723649B (zh) * | 2020-05-08 | 2022-08-12 | 天津大学 | 一种基于语义分解的短视频事件检测方法 |
WO2021248473A1 (en) * | 2020-06-12 | 2021-12-16 | Baidu.Com Times Technology (Beijing) Co., Ltd. | Personalized speech-to-video with three-dimensional (3d) skeleton regularization and expressive body poses |
CN111967272B (zh) * | 2020-06-23 | 2023-10-31 | 合肥工业大学 | 基于语义对齐的视觉对话生成系统 |
CN111897933B (zh) * | 2020-07-27 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 情感对话生成方法、装置及情感对话模型训练方法、装置 |
CN111783475B (zh) * | 2020-07-28 | 2021-05-11 | 北京深睿博联科技有限责任公司 | 一种基于短语关系传播的语义视觉定位方法及装置 |
CN111897940B (zh) * | 2020-08-12 | 2024-05-17 | 腾讯科技(深圳)有限公司 | 视觉对话方法、视觉对话模型的训练方法、装置及设备 |
CN111897939B (zh) * | 2020-08-12 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 视觉对话方法、视觉对话模型的训练方法、装置及设备 |
CN112001368A (zh) * | 2020-09-29 | 2020-11-27 | 北京百度网讯科技有限公司 | 文字结构化提取方法、装置、设备以及存储介质 |
CN112148863B (zh) * | 2020-10-15 | 2022-07-01 | 哈尔滨工业大学 | 一种融入常识知识的生成式对话摘要方法 |
CN112417112A (zh) * | 2020-11-10 | 2021-02-26 | 中山大学 | 一种基于图表征增强的开放域对话系统评估方法 |
CN112271001B (zh) * | 2020-11-17 | 2022-08-16 | 中山大学 | 一种应用异构图神经网络的医疗咨询对话系统及方法 |
CN112508085B (zh) * | 2020-12-05 | 2023-04-07 | 西安电子科技大学 | 基于感知神经网络的社交网络链路预测方法 |
CN112861945B (zh) * | 2021-01-28 | 2022-05-13 | 清华大学 | 一种多模态融合谎言检测方法 |
CN113239147B (zh) * | 2021-05-12 | 2024-09-24 | 平安科技(深圳)有限公司 | 基于图神经网络的智能会话方法、系统及介质 |
CN113420606B (zh) * | 2021-05-31 | 2022-06-14 | 华南理工大学 | 一种基于自然语言和机器视觉实现机器人自主导航的方法 |
CN113360621A (zh) * | 2021-06-22 | 2021-09-07 | 辽宁工程技术大学 | 一种基于模态推理图神经网络的场景文本视觉问答方法 |
CN113435399B (zh) * | 2021-07-14 | 2022-04-15 | 电子科技大学 | 一种基于多层次排序学习的多轮视觉对话方法 |
CN113553418B (zh) * | 2021-07-27 | 2023-06-02 | 天津大学 | 一种基于多模态学习的视觉对话生成方法及装置 |
CN113468314B (zh) * | 2021-08-31 | 2022-02-08 | 阿里巴巴达摩院(杭州)科技有限公司 | 关系预测及问答方法、装置、电子设备及计算机存储介质 |
CN113868451B (zh) * | 2021-09-02 | 2024-06-11 | 天津大学 | 基于上下文级联感知的社交网络跨模态对话方法及装置 |
CN113902964A (zh) * | 2021-09-09 | 2022-01-07 | 中山大学 | 基于关键词感知的多模态注意力视频问答方法与系统 |
CN114357968A (zh) * | 2021-11-29 | 2022-04-15 | 阿里巴巴达摩院(杭州)科技有限公司 | 对话方法以及装置 |
CN114880428B (zh) * | 2022-03-07 | 2022-11-18 | 中国人民解放军国防科技大学 | 一种基于图神经网络的语篇成分识别方法 |
CN114647714A (zh) * | 2022-03-30 | 2022-06-21 | 贝壳找房网(北京)信息技术有限公司 | 用于辅助对话的方法和装置 |
CN115049844B (zh) * | 2022-06-29 | 2024-06-04 | 厦门大学 | 一种增强视觉信息流的图像描述生成方法 |
CN115422388B (zh) * | 2022-09-13 | 2024-07-26 | 四川省人工智能研究院(宜宾) | 一种视觉对话方法及系统 |
CN115658865A (zh) * | 2022-10-26 | 2023-01-31 | 茅台学院 | 一种基于注意力预训练的图片问答方法 |
CN115546589B (zh) * | 2022-11-29 | 2023-04-07 | 浙江大学 | 一种基于图神经网络的图像生成方法 |
CN116541507A (zh) * | 2023-07-06 | 2023-08-04 | 武汉工程大学 | 一种基于动态语义图神经网络的视觉问答方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7177815B2 (en) * | 2002-07-05 | 2007-02-13 | At&T Corp. | System and method of context-sensitive help for multi-modal dialog systems |
WO2014210211A1 (en) * | 2013-06-27 | 2014-12-31 | Microsoft Corporation | Visualizations based on natural language query |
CN105264474A (zh) * | 2013-05-13 | 2016-01-20 | 株式会社三丰 | 包括操作上下文感知复制和粘贴特征的机器视觉系统程序编辑环境 |
CN108874782A (zh) * | 2018-06-29 | 2018-11-23 | 北京寻领科技有限公司 | 一种层次注意力lstm和知识图谱的多轮对话管理方法 |
CN110163299A (zh) * | 2019-05-31 | 2019-08-23 | 合肥工业大学 | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090037822A1 (en) * | 2007-07-31 | 2009-02-05 | Qurio Holdings, Inc. | Context-aware shared content representations |
-
2019
- 2019-09-18 CN CN201910881298.4A patent/CN110609891B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7177815B2 (en) * | 2002-07-05 | 2007-02-13 | At&T Corp. | System and method of context-sensitive help for multi-modal dialog systems |
CN105264474A (zh) * | 2013-05-13 | 2016-01-20 | 株式会社三丰 | 包括操作上下文感知复制和粘贴特征的机器视觉系统程序编辑环境 |
WO2014210211A1 (en) * | 2013-06-27 | 2014-12-31 | Microsoft Corporation | Visualizations based on natural language query |
CN108874782A (zh) * | 2018-06-29 | 2018-11-23 | 北京寻领科技有限公司 | 一种层次注意力lstm和知识图谱的多轮对话管理方法 |
CN110163299A (zh) * | 2019-05-31 | 2019-08-23 | 合肥工业大学 | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 |
Non-Patent Citations (2)
Title |
---|
Dual Visual Attention Network for Visual Dialog;DanGuo等;《Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence》;20190831;全文 * |
基于场景上下文感知的多轮对话技术研究;杜智康;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190515;第I140-85页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110609891A (zh) | 2019-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN110502749B (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
US20220147836A1 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN110765775B (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN109934261B (zh) | 一种知识驱动参数传播模型及其少样本学习方法 | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN113065344A (zh) | 一种基于迁移学习和注意力机制的跨语料库情感识别方法 | |
CN111027292B (zh) | 一种限定采样文本序列生成方法及其系统 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN114239574A (zh) | 一种基于实体和关系联合学习的矿工违规行为知识抽取方法 | |
CN113705238A (zh) | 基于bert和方面特征定位模型的方面级情感分析方法及模型 | |
CN115270752A (zh) | 一种基于多层次对比学习的模板句评估方法 | |
CN114417872A (zh) | 一种合同文本命名实体识别方法及系统 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
CN116151226B (zh) | 一种基于机器学习的聋哑人手语纠错方法、设备和介质 | |
Hossain et al. | A novel approach to classify bangla sign digits using capsule network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |