CN113553418B - 一种基于多模态学习的视觉对话生成方法及装置 - Google Patents

一种基于多模态学习的视觉对话生成方法及装置 Download PDF

Info

Publication number
CN113553418B
CN113553418B CN202110848206.XA CN202110848206A CN113553418B CN 113553418 B CN113553418 B CN 113553418B CN 202110848206 A CN202110848206 A CN 202110848206A CN 113553418 B CN113553418 B CN 113553418B
Authority
CN
China
Prior art keywords
information
visual
text
fusion
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110848206.XA
Other languages
English (en)
Other versions
CN113553418A (zh
Inventor
刘安安
张国楷
徐宁
宋丹
靳国庆
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Konami Sports Club Co Ltd
Original Assignee
Tianjin University
People Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University, People Co Ltd filed Critical Tianjin University
Priority to CN202110848206.XA priority Critical patent/CN113553418B/zh
Publication of CN113553418A publication Critical patent/CN113553418A/zh
Application granted granted Critical
Publication of CN113553418B publication Critical patent/CN113553418B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多模态学习的视觉对话生成方法及装置,方法包括:利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,获取精简历史信息;再提取与文本信息相关的视觉区域信息,获取精简视觉信息;将多模态问题相关信息进行融合得到多模态问题相关信息,作为答案推理的重要元素;用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合;将特征融合信息送入解码器中推理得到与当前问题相关的答案。装置包括:处理器和存储器。本发明采用多模态信息交互,对文本和视觉信息发掘细粒度关系信息。

Description

一种基于多模态学习的视觉对话生成方法及装置
技术领域
本发明涉及多模态细粒度信息语义理解,以及视觉对话生成领域,尤其涉及一种基于多模态学习的视觉对话生成方法及装置。
背景技术
随着视觉理解和自然语言处理领域的蓬勃发展,使得视觉与语言层面进行交互的多模态视觉对话生成受到了广泛关注。智能体用自然语言依据图像和以往的对话记录来回答人类提出的一系列问题。在这个过程中,智能体需要充分理解对话中细粒度语义信息并将其与视觉内容进行对齐,融合已知的多模态信息生成最终的推理答案。如何从文本与视觉信息中挖掘到与问题相关的语义信息一直是研究的重点。为了推动研究进程,VISDIALV1.0数据集被提出[1],这也是该领域被广泛认可的数据集。
在现有的方法中,研究者们将目光投向如何用文本语义信息来引导视觉语义信息,这是因为问题中可能存在代词,若代词指代关系未知,那就无法准确定位到图像中的目标区域,故需要上下文来进行指代关系的确定。已有的框架像DAN[2]、RAA-Net[3]都是先用问题引导并提取相关历史对话信息,将其进行融合后对图像相关区域进行定位,由提取出的文本与视觉共同推导答案,整个流程中多模态信息交互是非常重要的。但是上述框架提取出的历史对话信息是整个问答对,其中像是语法结构等冗余内容可能不会推动答案生成甚至损害推理结果;并且图像定位区域可能存在大量噪声,若直接提取细粒度视觉特征,噪声也会对推理产生负面影响,多模态信息中的目标关系不明晰。除此之外,对原始模态相关信息的提取仍存在许多能够提升和改进的策略。
尽管已经有人在视觉对话生成领域取得一系列进展[4,5,6,7],但是仍然没有引入细粒度的结构化表征信息的框架,忽略了目标关系信息对于推理的作用。主流的方法仍是对原始信息进行特征提取与融合的操作,冗余信息和噪声无法被有效剔除。基于此研究现状,目前面临的挑战主要有以下三个方面:
1、如何从原始多模态信息中抽取出无冗余去噪的目标关系结构化表征形式;
2、如何使得原始信息与多模态结构化表征进行深度语义互补;
3、如何更加有效地选取出与当前问题密切相关的对话历史信息和图像区域信息。
发明内容
本发明提供了一种基于多模态学习的视觉对话生成方法及装置,本发明从视觉和文本上挖掘精简的语义信息,并由“主体-关系-客体”三元组构建成的图进行目标关系结构化表征;在文本信息处理阶段,将初始的视觉描述信息融合到历史对话的各个回合中进行全局化语义补充,从而精细化当前问题对于各个回合的关注度;在视觉信息处理阶段,将处理的文本信息融入到每个视觉区域中进行语义对齐,整个过程中多模态信息交互,智能体对文本和视觉信息进一步发掘细粒度关系信息,详见下文描述:
第一方面,一种基于多模态学习的视觉对话生成方法,所述方法包括以下步骤:
1)利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,获取精简历史信息;再提取与文本信息相关的视觉区域信息,获取精简视觉信息;将多模态问题相关信息进行融合得到多模态问题相关信息,作为答案推理的重要元素;
2)用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;
3)将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合;将特征融合信息送入解码器中推理得到与当前问题相关的答案。
其中,在步骤1)之前,所述方法还包括:
解析文本信息语法结构,识别视觉信息目标关系,分别获得文本与视觉的三元组结构化表征,再进行向量嵌入。
进一步地,所述解析文本信息语法结构具体为:
根据文本信息语法结构及性质,对话的关系结构化表征由问答对-陈述句转化、共指消解、文本语义结构化解析、ELMo词向量表征嵌入组成,得到“主体-关系-客体”形式的多个关系三元组。
在一种实施方式中,所述视觉信息目标关系具体为:由目标检测、关系识别、ELMo词向量表征嵌入组成,得到“主体-关系-客体”形式的多个关系三元组。
其中,所述将多模态问题相关信息进行融合包括:文本核心信息融合和视觉核心信息融合,
文本核心信息融合,将图像中的总结性信息与每个回合的特征向量进行融合以补全单回合语义,再以问题信息作为引导向量通过自注意力机制对相关回合进行加权求和,并利用神经网络更新;
视觉核心信息融合,定义第一阶段的文本融合信息作为关键信息融合各个视觉区域向量进行上下文语义补全;选择双层视觉自注意力机制进行各视觉向量的挑选,将各个向量进行加权求和之后得到视觉融合信息。
进一步地,所述方法还包括:
通过视觉文本信息联合嵌入融合文本与视觉信息,同时引入细粒度的关系结构化表征进行语义补充和优化。
第二方面,一种基于多模态学习的视觉对话生成装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
第三方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明将文本信息中隐藏的关系信息进行了深度挖掘,并以三元组构成图的形式进行结构化表征以取代原始文本信息的整体嵌入表征,遏制其中冗余的语义信息,保留最精简的目标关系信息,这是被现有的方法所忽略的部分;本发明关注自然语言本身的性质,使得文本语义得到完整提取和保留,有效提升当前问题的答案生成精度;
2、本发明将视觉信息中的显著性目标进行检测,并将目标间的关系进行精确推导。现有方法仅仅是单纯将图片进行全局或局部特征提取,并未考虑到视觉信息中存在大量的细粒度的目标关系,而这些关系信息极有可能有助于推理;本发明关注视觉目标的关系检测,去除图片中对答案推理产生语义偏置的冗余信息,精细化推理过程;
3、本发明设计了一种语义补充自注意力机制,在每种模态信息处理的过程中,利用其中最关键的信息首先对其他信息进行全局上下文信息语义补充,再使得问题信息通过自注意力机制进行相关信息的引导和提取,现有方法忽视了关键信息的补全作用,仅仅将相关信息进行选取而忽略其语义并不完整的缺陷,无法最大化信息本身对于推理的作用;本发明设计全新的语义补充架构,充分利用关键模态信息的补全作用,保证提取出的文本特征和视觉特征本身存在完整且饱满的语义信息,深入理解多模态信息中的内容,使得生成答案更加契合问题。
附图说明
图1为基于多模态关系结构化表征和语义互补的视觉对话生成方法的流程图;
图2为文本信息与视觉信息生成三元组关系结构化表征的示意图;
图3为基于多模态关系结构化表征和语义互补的视觉对话生成方法的总框架;
图4为一种基于多模态学习的视觉对话生成装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于多模态学习的视觉对话生成方法,参见图1,该方法包括以下步骤:
101:对文本信息使用LSTM(长短期记忆人工神经网络)进行文本向量嵌入,对视觉信息用Faster-RCNN(快速区域图卷积特征提取器)进行区域特征提取,获得文本与视觉特征;
102:解析文本信息语法结构,识别视觉信息目标关系,分别获得文本与视觉的三元组结构化表征,再用ELMo向量进行嵌入;
现有方法并未注意到文本中隐藏的大量关系信息值得被发掘,也并未注意视觉信息中显著性目标之间存在的隐式关系。本方法基于这两点出发,针对不同模态的不同特性进行关系的结构化表征,优化模态间的语义对齐。
103:利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,获取精简历史信息;再提取与文本信息相关的视觉区域信息,获取精简视觉信息;将多模态问题相关信息进行融合得到多模态问题相关信息,作为答案推理的重要元素;
本发明实施例在问题信息引导的过程中,有效利用了关键信息对于回合或者区域的补充作用,使得提取出的问题相关信息更加完备,有助于答案推理。
104:用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;
105:将步骤103中得到的精简历史信息、精简视觉信息、步骤104中得到的多模态问题相关信息进行特征融合;
106:最终将特征融合信息送入解码器中推理得到与当前问题相关的答案。
综上所述,本发明实施多模态关系结构化表征和语义互补的视觉对话生成方法,优化了数据预处理流程,并设计了全新的网络架构,提高了推理答案的精确度;本发明利用文本与视觉的关系结构化表征对原本信息流进行语义增强,提高了视觉对话对于当前问题的推理能力。
实施例2
下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
201:对文本信息使用LSTM进行文本向量嵌入,对视觉信息用Faster-RCNN进行区域特征提取,获得文本与视觉特征;
对于文本信息,将每个历史回合的问答对进行整合,以回合为单位送入LSTM进行向量嵌入,每个回合的文本信息被编码成一个向量,历史对话信息可表示为H={QA1,QA2,QA3,…,QAm},当前问题也进行上述操作得到问题信息向量Q,QAm表示第m个问答对;对于视觉信息,使用Faster-RCNN进行目标检测,得到n组区域特征V={v1,v2,v3,…,vn},vn表示第n个视觉区域。
202:解析文本信息语法结构,识别视觉信息目标关系,获得文本与视觉的三元组结构化表征,再用ELMo向量进行嵌入;
根据文本信息语法结构及其性质,对话的关系结构化表征由问答对-陈述句转化、共指消解、文本语义结构化解析、ELMo词向量表征嵌入四阶段完成;视觉结构化表征由目标检测、关系识别、ELMo词向量表征嵌入三阶段完成,得到“主体-关系-客体”形式的多个关系三元组,去掉了冗余信息和区域噪声,更精确推导最终答案。
关系结构化表征即:首先利用正则表达式将每个回合的问答对转换成陈述句,方便后续处理,例如:“问:李华养了宠物吗?答:是的,最近我看到她养了一只狗。”可以转化为“李华养了一只宠物狗”;再进行共指消解,目的是将代词替换成语义相同的名词,此时已经得到语义完整的各回合语句,例如:“李华养了一只宠物狗。它非常讨人喜欢”转换为“李华养了一只宠物狗。李华的宠物狗非常讨人喜欢”;然后利用文本语义结构化解析模块进行语义结构化解析,得到多组关系三元组,例如:“李华养了一只带斑点的宠物狗,宠物狗对李华很顺从”,可以转换为“李华-养-宠物狗,宠物狗-带-斑点,宠物狗-顺从-李华”;最终将三元组的各元素用ELMo词向量进行256维的嵌入,例如:“李华”可以转化为一个长度为256的向量,最终完成文本信息结构化表征。
由于图像中存在许多显著性目标,使用目标检测框架先将图像中的主要目标进行检测并识别,再从各个目标本身的固有属性进一步推断出它们之间存在的关系,同样以语义对齐的文字三元组形式进行表示,这是一个降噪去冗余的过程,例如:图2中主要目标是人与天空等对象,将其用检测框标出,通过神经网络来两两推断他们之间的关系,表示为“男人-跳-半空中”的形式。最终用ELMo词向量进行长度256的嵌入,完成视觉信息结构化表征。
203:利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,再提取与文本信息相关的视觉区域信息,将多模态问题相关信息进行融合,作为答案推理的重要元素;
为了有效处理步骤201中预处理得到的多模态特征,本发明实施例设计了一种双阶段多模态关键信息融合模块,包含:文本核心信息融合阶段和视觉核心信息融合阶段。在文本核心信息融合阶段,因为图像描述C中包含图像中显著的大部分总结性信息,故以其作为关键信息,与每个回合的特征向量进行融合以补全单回合语义,再以问题信息作为引导向量通过自注意力机制对相关回合进行加权求和得到HC,利用神经网络更新得到
Figure BDA0003181484600000061
Figure BDA0003181484600000062
其中,WH表示处理原历史对话信息HC的全连接层的参数,sigmoid表示激活函数。同样地,问题向量Q也进行类似的处理:
Figure BDA0003181484600000063
其中,
Figure BDA0003181484600000064
表示更新后的问题向量,WQ表示处理原问题向量Q的全连接层的参数,tanh表示激活函数,残差连接是为了防止信息损失。将/>
Figure BDA0003181484600000065
与/>
Figure BDA0003181484600000066
再进行信息融合得到文本融合信息/>
Figure BDA0003181484600000067
Figure BDA0003181484600000068
其中,
Figure BDA0003181484600000069
是文本核心信息融合阶段的输出,是问题信息和经过语义补全与加权筛选的历史对话信息,WQH表示表示处理更新问题向量/>
Figure BDA00031814846000000610
与更新历史向量/>
Figure BDA00031814846000000611
的融合信息的全连接层的参数。
在视觉信息融合阶段,由于问题信息中可能存在代词,而且缺少上下文信息,所以不能直接用问题信息进行视觉区域的筛选,此时可以定义第一阶段的文本融合信息作为关键信息来融合各个视觉区域向量进行上下文语义补全。视觉特征本身就蕴含大量信息,并且还结合了文本特征,若仅依靠单层自注意力机制可能无法挖掘深层微妙语义,故选择双层视觉自注意力机制进行各视觉向量的精细化挑选,在将各个向量进行加权求和之后得到视觉融合信息
Figure BDA0003181484600000071
为了进一步融合文本与视觉信息,进行视觉文本信息联合嵌入:
Figure BDA0003181484600000072
其中,
Figure BDA0003181484600000073
是当前问题、相关历史对话回合、相关视觉区域的多模态融合信息,有一定推理答案的能力,relu是激活函数,WQHV1和WQHV2为全连接层参数。但是由于它是粗粒度的,为了进一步精细化推理过程,本发明实施例引入细粒度的关系结构化表征进一步补充和优化。
204:用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;
考虑到生成多模态结构化表征的过程中可能存在着的信息损失,本发明实施例将步骤203中得到的文本融合信息
Figure BDA0003181484600000074
和视觉融合信息/>
Figure BDA0003181484600000075
对其进行语义补全。先后融合视觉和文本信息,再用问题信息对两模态结构化表征中的多个三元组进行加权求和,得到对话三元组融合信息/>
Figure BDA0003181484600000076
和视觉三元组融合信息/>
Figure BDA0003181484600000077
205:将精简历史信息、精简视觉信息、多模态问题相关信息进行特征融合;
最终将三股数据流中的信息进行整合,得到最终的多模态答案推理信息R:
Figure BDA0003181484600000078
其中,多模态答案推理信息R能更加精确地进行答案推理,至此完成编码部分。
206:最终将特征融合信息与问题信息进行再融合,送入解码器中推理得到答案。
本发明实施例通过问题信息的全局化引导,确保能从多模态信息中提取出有利于答案推理的信息,更能满足实际场景的需求,得到更加契合问题与图像内容的答案。本发明实施例提出的一种基于多模态学习的视觉对话生成方法具有超过当前主流方法的良好性能,能够充分理解多模态语义信息从而对视觉对话生成较强的答案推理能力。
基于同一发明构思,本发明实施例还提供了一种基于多模态学习的视觉对话生成装置,参见图4,该装置包括:处理器1和存储器2,存储器2中存储有程序指令,处理器1调用存储器2中存储的程序指令以使装置执行实施例中的以下方法步骤:
1)利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,获取精简历史信息;再提取与文本信息相关的视觉区域信息,获取精简视觉信息;将多模态问题相关信息进行融合得到多模态问题相关信息,作为答案推理的重要元素;
2)用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;
3)将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合;将特征融合信息送入解码器中推理得到与当前问题相关的答案。
其中,在步骤1)之前,还包括:
解析文本信息语法结构,识别视觉信息目标关系,分别获得文本与视觉的三元组结构化表征,再进行向量嵌入。
进一步地,解析文本信息语法结构具体为:
根据文本信息语法结构及性质,对话的关系结构化表征由问答对-陈述句转化、共指消解、文本语义结构化解析、ELMo词向量表征嵌入组成,得到“主体-关系-客体”形式的多个关系三元组。
在一种实施方式中,视觉信息目标关系具体为:
由目标检测、关系识别、ELMo词向量表征嵌入组成,得到“主体-关系-客体”形式的多个关系三元组。
其中,将多模态问题相关信息进行融合包括:文本核心信息融合和视觉核心信息融合,
文本核心信息融合,将图像中的总结性信息与每个回合的特征向量进行融合以补全单回合语义,再以问题信息作为引导向量通过自注意力机制对相关回合进行加权求和,并利用神经网络更新;
视觉核心信息融合,定义第一阶段的文本融合信息作为关键信息融合各个视觉区域向量进行上下文语义补全;选择双层视觉自注意力机制进行各视觉向量的挑选,将各个向量进行加权求和之后得到视觉融合信息。
进一步地,该装置还包括:
通过视觉文本信息联合嵌入融合文本与视觉信息,同时引入细粒度的关系结构化表征进行语义补充和优化。
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器2和处理器1之间通过总线3传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
参考文献:
[1]Das A,Kottur S,Gupta K,et al.Visual Dialog[C],2017IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR).IEEE.2017.
[2]Kang G C,J Lim,Zhang B T.Dual Attention Networks for VisualReference Resolution in Visual Dialog[C].2019.
[3]Guo D,Wang H,Wang S,et al.Textual-Visual Reference-Aware AttentionNetwork for Visual Dialog[J].IEEE Transactions on Image Processing,2020,PP(99):1-1.
[4]Guo D,Wang H,Zhang H,et al.Iterative Context-Aware Graph Inferencefor Visual Dialog[C]2020 IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR).IEEE,2020.
[5]Zheng Z,Wang W,Qi S,et al.Reasoning Visual Dialogs with Structuraland Partial Observations[C]2019IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR).IEEE,2019.
[6]Jiasen Lu,Anitha Kannan,Jianwei Yang,et al.Best of Both Worlds:Transferring Knowledge from Discriminative Learning to a Generative VisualDialog Model.NIPS 2017:314-324
[7]Wu Q,Wang P,Shen C,et al.Are You Talking to Me?Reasoned VisualDialog Generation through Adversarial Learning[J].CVPR 2018.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于多模态学习的视觉对话生成方法,其特征在于,所述方法包括以下步骤:
1)利用关键信息进行全局上下文信息语义补充,提取与当前问题相关的历史对话信息,获取精简历史信息;再提取与文本信息相关的视觉区域信息,获取精简视觉信息;将多模态问题相关信息进行融合得到多模态问题相关信息,作为答案推理的重要元素;
2)用文本和视觉的问题相关信息对三元组结构化表征进行语义补全,以补全在多模态信息精简化过程中损失掉的有效信息;
3)将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合;将特征融合信息送入解码器中推理得到与当前问题相关的答案;
其中,根据文本信息语法结构及其性质,对话的关系结构化表征由问答对-陈述句转化、共指消解、文本语义结构化解析、ELMo词向量表征嵌入四阶段完成;视觉结构化表征由目标检测、关系识别、ELMo词向量表征嵌入三阶段完成,得到“主体-关系-客体”形式的多个关系三元组;
以问题信息作为引导向量通过自注意力机制对相关回合进行加权求和得到HC,利用神经网络更新得到
Figure FDA0004184180560000011
Figure FDA0004184180560000012
其中,WH表示处理原历史对话信息HC的全连接层的参数,sigmoid表示激活函数;
Figure FDA0004184180560000013
其中,
Figure FDA0004184180560000014
表示更新后的问题向量,WQ表示处理原问题向量Q的全连接层的参数,tanh表示激活函数,将/>
Figure FDA0004184180560000015
与/>
Figure FDA0004184180560000016
再进行信息融合得到文本融合信息/>
Figure FDA0004184180560000017
Figure FDA0004184180560000018
其中,
Figure FDA0004184180560000019
是文本核心信息融合阶段的输出,WQH表示表示处理更新问题向量/>
Figure FDA00041841805600000110
与更新历史向量/>
Figure FDA00041841805600000111
的融合信息的全连接层的参数;
选择双层视觉自注意力机制进行各视觉向量的挑选,在将各个向量进行加权求和之后得到视觉融合信息
Figure FDA00041841805600000112
进行视觉文本信息联合嵌入:
Figure FDA00041841805600000113
其中,
Figure FDA00041841805600000114
是当前问题、相关历史对话回合、相关视觉区域的多模态融合信息,relu是激活函数,WQHV1和WQHV2为全连接层参数;
将文本融合信息
Figure FDA00041841805600000115
和视觉融合信息/>
Figure FDA00041841805600000116
对其进行语义补全,先后融合视觉和文本信息,再用问题信息对两模态结构化表征中的多个三元组进行加权求和,得到对话三元组融合信息/>
Figure FDA00041841805600000117
和视觉三元组融合信息/>
Figure FDA00041841805600000118
将精简历史信息、精简视觉信息、多模态问题相关信息进行特征融合,将三股数据流中的信息进行整合,得到最终的多模态答案推理信息R:
Figure FDA0004184180560000021
/>
2.根据权利要求1所述的一种基于多模态学习的视觉对话生成方法,其特征在于,在步骤1)之前,所述方法还包括:
解析文本信息语法结构,识别视觉信息目标关系,分别获得文本与视觉的三元组结构化表征,再进行向量嵌入。
3.根据权利要求2所述的一种基于多模态学习的视觉对话生成方法,其特征在于,所述解析文本信息语法结构具体为:
根据文本信息语法结构及性质,对话的关系结构化表征由问答对-陈述句转化、共指消解、文本语义结构化解析、ELMo词向量表征嵌入组成,得到“主体-关系-客体”形式的多个关系三元组。
4.根据权利要求2所述的一种基于多模态学习的视觉对话生成方法,其特征在于,所述视觉信息目标关系具体为:
由目标检测、关系识别、ELMo词向量表征嵌入组成,得到“主体-关系-客体”形式的多个关系三元组。
5.根据权利要求1所述的一种基于多模态学习的视觉对话生成方法,其特征在于,所述将多模态问题相关信息进行融合包括:文本核心信息融合和视觉核心信息融合,
文本核心信息融合,将图像中的总结性信息与每个回合的特征向量进行融合以补全单回合语义,再以问题信息作为引导向量通过自注意力机制对相关回合进行加权求和,并利用神经网络更新;
视觉核心信息融合,定义第一阶段的文本融合信息作为关键信息融合各个视觉区域向量进行上下文语义补全;选择双层视觉自注意力机制进行各视觉向量的挑选,将各个向量进行加权求和之后得到视觉融合信息。
6.根据权利要求1所述的一种基于多模态学习的视觉对话生成方法,其特征在于,所述方法还包括:
通过视觉文本信息联合嵌入融合文本与视觉信息,同时引入细粒度的关系结构化表征进行语义补充和优化。
7.一种基于多模态学习的视觉对话生成装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-6中的任一项所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-6中的任一项所述的方法步骤。
CN202110848206.XA 2021-07-27 2021-07-27 一种基于多模态学习的视觉对话生成方法及装置 Active CN113553418B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110848206.XA CN113553418B (zh) 2021-07-27 2021-07-27 一种基于多模态学习的视觉对话生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110848206.XA CN113553418B (zh) 2021-07-27 2021-07-27 一种基于多模态学习的视觉对话生成方法及装置

Publications (2)

Publication Number Publication Date
CN113553418A CN113553418A (zh) 2021-10-26
CN113553418B true CN113553418B (zh) 2023-06-02

Family

ID=78104528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110848206.XA Active CN113553418B (zh) 2021-07-27 2021-07-27 一种基于多模态学习的视觉对话生成方法及装置

Country Status (1)

Country Link
CN (1) CN113553418B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937277B (zh) * 2022-05-18 2023-04-11 北京百度网讯科技有限公司 基于图像的文本获取方法、装置、电子设备及存储介质
CN115545004A (zh) * 2022-09-27 2022-12-30 北京有竹居网络技术有限公司 导航方法、装置和电子设备
CN115438170A (zh) * 2022-11-09 2022-12-06 北京红棉小冰科技有限公司 一种对话模型生成、应用方法、系统、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112018073693A2 (pt) * 2016-05-18 2019-02-26 Apple Inc dispositivos, métodos, e interfaces gráficas de usuário para mensagens

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8548231B2 (en) * 2009-04-02 2013-10-01 Siemens Corporation Predicate logic based image grammars for complex visual pattern recognition
CN110598573B (zh) * 2019-08-21 2022-11-25 中山大学 一种基于多域异质图引导的视觉问题常识推理模型及方法
CN110647612A (zh) * 2019-09-18 2020-01-03 合肥工业大学 一种基于双视觉注意力网络的视觉对话生成方法
CN110609891B (zh) * 2019-09-18 2021-06-08 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法
US11288438B2 (en) * 2019-11-15 2022-03-29 Salesforce.Com, Inc. Bi-directional spatial-temporal reasoning for video-grounded dialogues
CN111460121B (zh) * 2020-03-31 2022-07-08 思必驰科技股份有限公司 视觉语义对话方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112018073693A2 (pt) * 2016-05-18 2019-02-26 Apple Inc dispositivos, métodos, e interfaces gráficas de usuário para mensagens

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Adaptively Clustering-Driven Learning for Visual Relationship Detection;An-An Liu;IEEE Transactions on Multimedia;第23卷;全文 *
Semantic and Context Information Fusion Network for View-Based 3D Model Classification and Retrieval;AN-AN LIU;IEEE Access;第8卷;全文 *

Also Published As

Publication number Publication date
CN113553418A (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN113553418B (zh) 一种基于多模态学习的视觉对话生成方法及装置
CN111581361A (zh) 一种意图识别方法及装置
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
Islam et al. Exploring video captioning techniques: A comprehensive survey on deep learning methods
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
CN110795549B (zh) 短文本对话方法、装置、设备及存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
CN114339450A (zh) 视频评论生成方法、系统、设备及存储介质
Li et al. Intention understanding in human–robot interaction based on visual-NLP semantics
Li et al. Image describing based on bidirectional LSTM and improved sequence sampling
Khan et al. A deep neural framework for image caption generation using gru-based attention mechanism
Le et al. Multi visual and textual embedding on visual question answering for blind people
Xue et al. Lcsnet: End-to-end lipreading with channel-aware feature selection
CN117437317A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN115017356A (zh) 图像文本对的判断方法和装置
CN117746441B (zh) 一种视觉语言理解方法、装置、设备及可读存储介质
CN113762322B (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
CN117765450B (zh) 一种视频语言理解方法、装置、设备及可读存储介质
Ray The art of deep connection-towards natural and pragmatic conversational agent interactions
CN116089618B (zh) 融合三元损失和标签嵌入的图注意力网络文本分类模型
CN115081459B (zh) 口语文本生成方法、装置、设备及存储介质
CN116955579B (zh) 一种基于关键词知识检索的聊天回复生成方法和装置
CN113095072B (zh) 文本处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant