CN113553418A

CN113553418A - 一种基于多模态学习的视觉对话生成方法及装置

Info

Publication number: CN113553418A
Application number: CN202110848206.XA
Authority: CN
Inventors: 刘安安; 张国楷; 徐宁; 宋丹; 靳国庆; 张勇东
Original assignee: Tianjin University; People Co Ltd
Current assignee: Tianjin University; Konami Sports Club Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-10-26
Anticipated expiration: 2041-07-27
Also published as: CN113553418B

Abstract

本发明公开了一种基于多模态学习的视觉对话生成方法及装置，方法包括：利用关键信息进行全局上下文信息语义补充，提取与当前问题相关的历史对话信息，获取精简历史信息；再提取与文本信息相关的视觉区域信息，获取精简视觉信息；将多模态问题相关信息进行融合得到多模态问题相关信息，作为答案推理的重要元素；用文本和视觉的问题相关信息对三元组结构化表征进行语义补全，以补全在多模态信息精简化过程中损失掉的有效信息；将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合；将特征融合信息送入解码器中推理得到与当前问题相关的答案。装置包括：处理器和存储器。本发明采用多模态信息交互，对文本和视觉信息发掘细粒度关系信息。

Description

一种基于多模态学习的视觉对话生成方法及装置

技术领域

本发明涉及多模态细粒度信息语义理解，以及视觉对话生成领域，尤其涉及一种基于多模态学习的视觉对话生成方法及装置。

背景技术

随着视觉理解和自然语言处理领域的蓬勃发展，使得视觉与语言层面进行交互的多模态视觉对话生成受到了广泛关注。智能体用自然语言依据图像和以往的对话记录来回答人类提出的一系列问题。在这个过程中，智能体需要充分理解对话中细粒度语义信息并将其与视觉内容进行对齐，融合已知的多模态信息生成最终的推理答案。如何从文本与视觉信息中挖掘到与问题相关的语义信息一直是研究的重点。为了推动研究进程，VISDIALV1.0数据集被提出^[1]，这也是该领域被广泛认可的数据集。

在现有的方法中，研究者们将目光投向如何用文本语义信息来引导视觉语义信息，这是因为问题中可能存在代词，若代词指代关系未知，那就无法准确定位到图像中的目标区域，故需要上下文来进行指代关系的确定。已有的框架像DAN^[2]、RAA-Net^[3]都是先用问题引导并提取相关历史对话信息，将其进行融合后对图像相关区域进行定位，由提取出的文本与视觉共同推导答案，整个流程中多模态信息交互是非常重要的。但是上述框架提取出的历史对话信息是整个问答对，其中像是语法结构等冗余内容可能不会推动答案生成甚至损害推理结果；并且图像定位区域可能存在大量噪声，若直接提取细粒度视觉特征，噪声也会对推理产生负面影响，多模态信息中的目标关系不明晰。除此之外，对原始模态相关信息的提取仍存在许多能够提升和改进的策略。

尽管已经有人在视觉对话生成领域取得一系列进展^[4,5,6,7]，但是仍然没有引入细粒度的结构化表征信息的框架，忽略了目标关系信息对于推理的作用。主流的方法仍是对原始信息进行特征提取与融合的操作，冗余信息和噪声无法被有效剔除。基于此研究现状，目前面临的挑战主要有以下三个方面：

1、如何从原始多模态信息中抽取出无冗余去噪的目标关系结构化表征形式；

2、如何使得原始信息与多模态结构化表征进行深度语义互补；

3、如何更加有效地选取出与当前问题密切相关的对话历史信息和图像区域信息。

发明内容

本发明提供了一种基于多模态学习的视觉对话生成方法及装置，本发明从视觉和文本上挖掘精简的语义信息，并由“主体-关系-客体”三元组构建成的图进行目标关系结构化表征；在文本信息处理阶段，将初始的视觉描述信息融合到历史对话的各个回合中进行全局化语义补充，从而精细化当前问题对于各个回合的关注度；在视觉信息处理阶段，将处理的文本信息融入到每个视觉区域中进行语义对齐，整个过程中多模态信息交互，智能体对文本和视觉信息进一步发掘细粒度关系信息，详见下文描述：

第一方面，一种基于多模态学习的视觉对话生成方法，所述方法包括以下步骤：

1)利用关键信息进行全局上下文信息语义补充，提取与当前问题相关的历史对话信息，获取精简历史信息；再提取与文本信息相关的视觉区域信息，获取精简视觉信息；将多模态问题相关信息进行融合得到多模态问题相关信息，作为答案推理的重要元素；

2)用文本和视觉的问题相关信息对三元组结构化表征进行语义补全，以补全在多模态信息精简化过程中损失掉的有效信息；

3)将精简历史信息、精简视觉信息、补全后的多模态问题相关信息进行特征融合；将特征融合信息送入解码器中推理得到与当前问题相关的答案。

其中，在步骤1)之前，所述方法还包括：

解析文本信息语法结构，识别视觉信息目标关系，分别获得文本与视觉的三元组结构化表征，再进行向量嵌入。

进一步地，所述解析文本信息语法结构具体为：

根据文本信息语法结构及性质，对话的关系结构化表征由问答对-陈述句转化、共指消解、文本语义结构化解析、ELMo词向量表征嵌入组成，得到“主体-关系-客体”形式的多个关系三元组。

在一种实施方式中，所述视觉信息目标关系具体为：由目标检测、关系识别、ELMo词向量表征嵌入组成，得到“主体-关系-客体”形式的多个关系三元组。

其中，所述将多模态问题相关信息进行融合包括：文本核心信息融合和视觉核心信息融合，

文本核心信息融合，将图像中的总结性信息与每个回合的特征向量进行融合以补全单回合语义，再以问题信息作为引导向量通过自注意力机制对相关回合进行加权求和，并利用神经网络更新；

视觉核心信息融合，定义第一阶段的文本融合信息作为关键信息融合各个视觉区域向量进行上下文语义补全；选择双层视觉自注意力机制进行各视觉向量的挑选，将各个向量进行加权求和之后得到视觉融合信息。

进一步地，所述方法还包括：

通过视觉文本信息联合嵌入融合文本与视觉信息，同时引入细粒度的关系结构化表征进行语义补充和优化。

第二方面，一种基于多模态学习的视觉对话生成装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

第三方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明将文本信息中隐藏的关系信息进行了深度挖掘，并以三元组构成图的形式进行结构化表征以取代原始文本信息的整体嵌入表征，遏制其中冗余的语义信息，保留最精简的目标关系信息，这是被现有的方法所忽略的部分；本发明关注自然语言本身的性质，使得文本语义得到完整提取和保留，有效提升当前问题的答案生成精度；

2、本发明将视觉信息中的显著性目标进行检测，并将目标间的关系进行精确推导。现有方法仅仅是单纯将图片进行全局或局部特征提取，并未考虑到视觉信息中存在大量的细粒度的目标关系，而这些关系信息极有可能有助于推理；本发明关注视觉目标的关系检测，去除图片中对答案推理产生语义偏置的冗余信息，精细化推理过程；

3、本发明设计了一种语义补充自注意力机制，在每种模态信息处理的过程中，利用其中最关键的信息首先对其他信息进行全局上下文信息语义补充，再使得问题信息通过自注意力机制进行相关信息的引导和提取，现有方法忽视了关键信息的补全作用，仅仅将相关信息进行选取而忽略其语义并不完整的缺陷，无法最大化信息本身对于推理的作用；本发明设计全新的语义补充架构，充分利用关键模态信息的补全作用，保证提取出的文本特征和视觉特征本身存在完整且饱满的语义信息，深入理解多模态信息中的内容，使得生成答案更加契合问题。

附图说明

图1为基于多模态关系结构化表征和语义互补的视觉对话生成方法的流程图；

图2为文本信息与视觉信息生成三元组关系结构化表征的示意图；

图3为基于多模态关系结构化表征和语义互补的视觉对话生成方法的总框架；

图4为一种基于多模态学习的视觉对话生成装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于多模态学习的视觉对话生成方法，参见图1，该方法包括以下步骤：

101：对文本信息使用LSTM(长短期记忆人工神经网络)进行文本向量嵌入，对视觉信息用Faster-RCNN(快速区域图卷积特征提取器)进行区域特征提取，获得文本与视觉特征；

102：解析文本信息语法结构，识别视觉信息目标关系，分别获得文本与视觉的三元组结构化表征，再用ELMo向量进行嵌入；

现有方法并未注意到文本中隐藏的大量关系信息值得被发掘，也并未注意视觉信息中显著性目标之间存在的隐式关系。本方法基于这两点出发，针对不同模态的不同特性进行关系的结构化表征，优化模态间的语义对齐。

103：利用关键信息进行全局上下文信息语义补充，提取与当前问题相关的历史对话信息，获取精简历史信息；再提取与文本信息相关的视觉区域信息，获取精简视觉信息；将多模态问题相关信息进行融合得到多模态问题相关信息，作为答案推理的重要元素；

本发明实施例在问题信息引导的过程中，有效利用了关键信息对于回合或者区域的补充作用，使得提取出的问题相关信息更加完备，有助于答案推理。

104：用文本和视觉的问题相关信息对三元组结构化表征进行语义补全，以补全在多模态信息精简化过程中损失掉的有效信息；

105：将步骤103中得到的精简历史信息、精简视觉信息、步骤104中得到的多模态问题相关信息进行特征融合；

106：最终将特征融合信息送入解码器中推理得到与当前问题相关的答案。

综上所述，本发明实施多模态关系结构化表征和语义互补的视觉对话生成方法，优化了数据预处理流程，并设计了全新的网络架构，提高了推理答案的精确度；本发明利用文本与视觉的关系结构化表征对原本信息流进行语义增强，提高了视觉对话对于当前问题的推理能力。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：对文本信息使用LSTM进行文本向量嵌入，对视觉信息用Faster-RCNN进行区域特征提取，获得文本与视觉特征；

对于文本信息，将每个历史回合的问答对进行整合，以回合为单位送入LSTM进行向量嵌入，每个回合的文本信息被编码成一个向量，历史对话信息可表示为H＝{QA₁,QA₂,QA₃,…,QA_m}，当前问题也进行上述操作得到问题信息向量Q，QA_m表示第m个问答对；对于视觉信息，使用Faster-RCNN进行目标检测，得到n组区域特征V＝{v₁,v₂,v₃,…,v_n}，v_n表示第n个视觉区域。

202：解析文本信息语法结构，识别视觉信息目标关系，获得文本与视觉的三元组结构化表征，再用ELMo向量进行嵌入；

根据文本信息语法结构及其性质，对话的关系结构化表征由问答对-陈述句转化、共指消解、文本语义结构化解析、ELMo词向量表征嵌入四阶段完成；视觉结构化表征由目标检测、关系识别、ELMo词向量表征嵌入三阶段完成，得到“主体-关系-客体”形式的多个关系三元组，去掉了冗余信息和区域噪声，更精确推导最终答案。

关系结构化表征即：首先利用正则表达式将每个回合的问答对转换成陈述句，方便后续处理，例如：“问：李华养了宠物吗？答：是的，最近我看到她养了一只狗。”可以转化为“李华养了一只宠物狗”；再进行共指消解，目的是将代词替换成语义相同的名词，此时已经得到语义完整的各回合语句，例如：“李华养了一只宠物狗。它非常讨人喜欢”转换为“李华养了一只宠物狗。李华的宠物狗非常讨人喜欢”；然后利用文本语义结构化解析模块进行语义结构化解析，得到多组关系三元组，例如：“李华养了一只带斑点的宠物狗，宠物狗对李华很顺从”，可以转换为“李华-养-宠物狗，宠物狗-带-斑点，宠物狗-顺从-李华”；最终将三元组的各元素用ELMo词向量进行256维的嵌入，例如：“李华”可以转化为一个长度为256的向量，最终完成文本信息结构化表征。

由于图像中存在许多显著性目标，使用目标检测框架先将图像中的主要目标进行检测并识别，再从各个目标本身的固有属性进一步推断出它们之间存在的关系，同样以语义对齐的文字三元组形式进行表示，这是一个降噪去冗余的过程，例如：图2中主要目标是人与天空等对象，将其用检测框标出，通过神经网络来两两推断他们之间的关系，表示为“男人-跳-半空中”的形式。最终用ELMo词向量进行长度256的嵌入，完成视觉信息结构化表征。

203：利用关键信息进行全局上下文信息语义补充，提取与当前问题相关的历史对话信息，再提取与文本信息相关的视觉区域信息，将多模态问题相关信息进行融合，作为答案推理的重要元素；

为了有效处理步骤201中预处理得到的多模态特征，本发明实施例设计了一种双阶段多模态关键信息融合模块，包含：文本核心信息融合阶段和视觉核心信息融合阶段。在文本核心信息融合阶段，因为图像描述C中包含图像中显著的大部分总结性信息，故以其作为关键信息，与每个回合的特征向量进行融合以补全单回合语义，再以问题信息作为引导向量通过自注意力机制对相关回合进行加权求和得到H^C，利用神经网络更新得到

其中，W_H表示处理原历史对话信息H^C的全连接层的参数，sigmoid表示激活函数。同样地，问题向量Q也进行类似的处理：

其中，

表示更新后的问题向量，W_Q表示处理原问题向量Q的全连接层的参数，tanh表示激活函数，残差连接是为了防止信息损失。将

与

再进行信息融合得到文本融合信息

其中，

是文本核心信息融合阶段的输出，是问题信息和经过语义补全与加权筛选的历史对话信息，W_QH表示表示处理更新问题向量

与更新历史向量

的融合信息的全连接层的参数。

在视觉信息融合阶段，由于问题信息中可能存在代词，而且缺少上下文信息，所以不能直接用问题信息进行视觉区域的筛选，此时可以定义第一阶段的文本融合信息作为关键信息来融合各个视觉区域向量进行上下文语义补全。视觉特征本身就蕴含大量信息，并且还结合了文本特征，若仅依靠单层自注意力机制可能无法挖掘深层微妙语义，故选择双层视觉自注意力机制进行各视觉向量的精细化挑选，在将各个向量进行加权求和之后得到视觉融合信息

为了进一步融合文本与视觉信息，进行视觉文本信息联合嵌入：

其中，

是当前问题、相关历史对话回合、相关视觉区域的多模态融合信息，有一定推理答案的能力，relu是激活函数，W_QHV1和W_QHV2为全连接层参数。但是由于它是粗粒度的，为了进一步精细化推理过程，本发明实施例引入细粒度的关系结构化表征进一步补充和优化。

204：用文本和视觉的问题相关信息对三元组结构化表征进行语义补全，以补全在多模态信息精简化过程中损失掉的有效信息；

考虑到生成多模态结构化表征的过程中可能存在着的信息损失，本发明实施例将步骤203中得到的文本融合信息

和视觉融合信息

对其进行语义补全。先后融合视觉和文本信息，再用问题信息对两模态结构化表征中的多个三元组进行加权求和，得到对话三元组融合信息

和视觉三元组融合信息

205：将精简历史信息、精简视觉信息、多模态问题相关信息进行特征融合；

最终将三股数据流中的信息进行整合，得到最终的多模态答案推理信息R：

其中，多模态答案推理信息R能更加精确地进行答案推理，至此完成编码部分。

206：最终将特征融合信息与问题信息进行再融合，送入解码器中推理得到答案。

本发明实施例通过问题信息的全局化引导，确保能从多模态信息中提取出有利于答案推理的信息，更能满足实际场景的需求，得到更加契合问题与图像内容的答案。本发明实施例提出的一种基于多模态学习的视觉对话生成方法具有超过当前主流方法的良好性能，能够充分理解多模态语义信息从而对视觉对话生成较强的答案推理能力。

基于同一发明构思，本发明实施例还提供了一种基于多模态学习的视觉对话生成装置，参见图4，该装置包括：处理器1和存储器2，存储器2中存储有程序指令，处理器1调用存储器2中存储的程序指令以使装置执行实施例中的以下方法步骤：

其中，在步骤1)之前，还包括：

进一步地，解析文本信息语法结构具体为：

在一种实施方式中，视觉信息目标关系具体为：

由目标检测、关系识别、ELMo词向量表征嵌入组成，得到“主体-关系-客体”形式的多个关系三元组。

其中，将多模态问题相关信息进行融合包括：文本核心信息融合和视觉核心信息融合，

进一步地，该装置还包括：

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

参考文献：

[1]Das A,Kottur S,Gupta K,et al.Visual Dialog[C],2017IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR).IEEE.2017.

[2]Kang G C,J Lim,Zhang B T.Dual Attention Networks for VisualReference Resolution in Visual Dialog[C].2019.

[3]Guo D,Wang H,Wang S,et al.Textual-Visual Reference-Aware AttentionNetwork for Visual Dialog[J].IEEE Transactions on Image Processing,2020,PP(99):1-1.

[4]Guo D,Wang H,Zhang H,et al.Iterative Context-Aware Graph Inferencefor Visual Dialog[C]2020 IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR).IEEE,2020.

[5]Zheng Z,Wang W,Qi S,et al.Reasoning Visual Dialogs with Structuraland Partial Observations[C]2019IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR).IEEE,2019.

[6]Jiasen Lu,Anitha Kannan,Jianwei Yang,et al.Best of Both Worlds:Transferring Knowledge from Discriminative Learning to a Generative VisualDialog Model.NIPS 2017:314-324

[7]Wu Q,Wang P,Shen C,et al.Are You Talking to Me？Reasoned VisualDialog Generation through Adversarial Learning[J].CVPR 2018.

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态学习的视觉对话生成方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于多模态学习的视觉对话生成方法，其特征在于，在步骤1)之前，所述方法还包括：

3.根据权利要求2所述的一种基于多模态学习的视觉对话生成方法，其特征在于，所述解析文本信息语法结构具体为：

4.根据权利要求2所述的一种基于多模态学习的视觉对话生成方法，其特征在于，所述视觉信息目标关系具体为：

5.根据权利要求1所述的一种基于多模态学习的视觉对话生成方法，其特征在于，所述将多模态问题相关信息进行融合包括：文本核心信息融合和视觉核心信息融合，

6.根据权利要求1所述的一种基于多模态学习的视觉对话生成方法，其特征在于，所述方法还包括：

7.一种基于多模态学习的视觉对话生成装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-6中的任一项所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行权利要求1-6中的任一项所述的方法步骤。