CN111967272A

CN111967272A - 基于语义对齐的视觉对话生成系统

Info

Publication number: CN111967272A
Application number: CN202010577719.7A
Authority: CN
Inventors: 孙晓; 王佳敏; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-11-20
Anticipated expiration: 2040-06-23
Also published as: CN111967272B

Abstract

本发明涉及一种基于语义对齐的视觉对话生成系统。本发明对图像信息的提取从两个方面进行：分别是全局和局部。通过语义对齐获取全局的基于语义的图像表示，同时通过dense caption获取局部密集图像描述，文本表示的高级语义有助于更好的信息获取。两者共同为生成回复提供图像信息的线索。同时从文本流畅度、文本连贯度和正确度来进行全面的约束，指导回复的生成。此外，本发明实施例提出采用关键词约束的方法来约束回复的正确性，进而丰富生成回答的表示形式。

Description

基于语义对齐的视觉对话生成系统

技术领域

本发明实施例涉及语言处理技术领域，具体涉及一种基于语义对齐的视觉对话生成系统。

背景技术

近年来，随着人工智能与机器人领域如火如荼的发展，视觉与语言的多模态语义理解在计算机视觉和自然语言处理领域得到了越来越多的关注和重视。人机交互不能只考虑单一模态，在现实生活中，人与人之间的交互往往不限制于单一的文本、视觉或听觉。具有多模态的自然交互方式不仅能够实现更加友好的机器与人类的交互界面，而且是实现强人工智能的必由之路。

通过分析视觉和语言来理解现实世界，是人工智能实现类人能力的首要任务，这促进了视觉对话研究的发展，即人与机器基于视觉内容进行多轮对话的交互。视觉对话的交互是多模态的，包括文本、视觉，不同模态都包含了丰富的信息，如何根据对话从视觉内容中获取正确、充足的信息，成为视觉对话中关键的挑战之一。因此，在视觉对话任务中，需要从图像中获取充足的信息，获取的图像信息要与对话中的文本信息进行正确的交互，这成为目前视觉对话任务的研究要点。

传统的视觉对话生成系统存在如下缺点：

1.无法获取充足、易与文本进行融合的图像特征

1)目前的视觉对话系统的关注点大多是在如何提取更丰富的图像信息，以及针对问题内容自适应地关注相关的图像区域。但是图像不仅包含实体信息，还有实体之间的位置关系、语义关系信息，目前常用的通过CNN、Faster-RCNN进行图像特征提取，并不能构建出完整的图像信息，通过构建场景图可以获取更丰富的图像信息，但是易出现误差传播。

2)目前通常将图像特征与问题、对话历史进行多模态之间信息融合。这种处理忽略了不同模态信息的表示本身就有差距，图像特征和语义信息在没有进行很好的对齐的前提下，能否根据提取到的图像特征真正的获取到充足的信息，去生成回复，仍然存疑。

2.过多依赖对话历史而非图像信息来生成回复。在视觉对话数据集VisDial中，大约80％的问题能够只根据图像生成回复，大约20％的问题需要获取对话历史后才能生成回复。因此，在视觉对话中，图像信息的获取和使用非常重要。然而，目前很多模型虽然尝试从图像中获取更多、更具有针对性的信息，却忽略了效果的提升是否是因为过多的加入历史信息而造成的干扰。

3.没有考虑生成式的视觉对话的文本质量。当前大部研究均构造判别模型(discriminative model)，少部分构造生成模型(generative model)，因此几乎没有对于生成式的视觉对话文本质量的关注，往往都是通过最大化与ground truth的回答之间的对数似然函数，忽视了对话本身需要关注的文本质量这一问题。

由上述分析可知，传统的视觉对话生成系统有待改进。

发明内容

本发明实施例提供了一种基于语义对齐的视觉对话生成系统，用以解决上述至少一个技术问题。

本发明实施例提供一种基于语义对齐的视觉对话生成系统，包括：编码器和解码器；

所述编码器用于：

通过Faster R-CNN的变体模型，提取给定图像的区域视觉特征；

通过概念提取器，获得从所述给定图像提取的文本单词构成的词向量；

采用co-attention机制，对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐，得到基于语义对齐的全局图像特征；

通过DenseCap模型，提取所述给定图像的使用文本表述的区域图像描述；

通过第一LSTM模型提取当前轮问题的特征，通过第二LSTM提取对话历史的特征，通过门控机制对所述当前轮问题的特征和所述对话历史的特征进行融合，得到融合对话历史的当前轮问题的特征；

根据融合对话历史的当前轮问题的特征，通过注意力机制对所述基于语义对齐的全局图像特征和所述使用文本表述的区域图像描述分别进行引导，分别得到根据问题引导的基于语义对齐的全局图像特征和根据问题引导的使用文本表述的区域图像描述；

对所述根据问题引导的基于语义对齐的全局图像特征、所述根据问题引导的使用文本表述的区域图像描述、以及所述融合对话历史的当前轮问题的特征进行融合，得到最终的上下文向量；

使用LSTM模型构建所述生成式解码器，所述生成式解码器用于根据所述最终的上下文向量，生成回复。

可选地，所述编码器采用co-attention机制，对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐，得到基于语义对齐的全局图像特征，包括：

通过将所述给定图像的区域视觉特征I_v和从所述给定图像提取的文本单词构成的词向量I_w连接，计算相似度矩阵S，相似度矩阵S符合以下公式：

S＝I_vM(I_w)^T

其中，

是可训练的参数矩阵，S中的元素S_i，j表示第i个所述给定图像的区域视觉特征和第j个所述给定图像提取的文本单词的词向量的相似度；

通过column-wise的归一化，对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐，按照以下公式生成文本-图像的注意力权重A^wv：

A^vw＝softmax(S^T)

其中，softmax(.)表示column-wise的归一化函数；

按照以下公式，得到基于语义对齐的全局图像特征

可选地，所述编码器通过第一LSTM模型提取当前轮问题的特征，通过第二LSTM提取对话历史的特征，通过门控机制对所述当前轮问题的特征和所述对话历史的特征进行融合，得到融合对话历史的当前轮问题的特征，包括：

其中[；]代表连接，⊙代表元素点乘，每个单词通过预训练的GloVe语言模型进行词嵌入，Q_t代表第t轮对话的问题，

表示第t轮对话的问题Q_t经所述第一LSTM模型编码后得到的特征，

表示第t轮对话的对话历史H_t经所述第二LSTM模型编码后得到的特征，其中，对话历史中的多个问答对进行拼接后送入所述第二LSTM模型中进行编码，

是关于

和

的门控值的一个向量，

代表所述融合对话历史的当前轮问题的特征表示。

可选地，所述根据问题引导的基于语义对齐的全局图像特征

符合以下公式：

其中，W_q、W_v和

均是可学习的参数，

为所述基于语义对齐的全局图像特征。

可选地，所述方法还包括：

获取密集图像描述，用Z＝{Z_1，Z₂，...Z_k}来表示给定图像I的使用文本表述的局部图像描述，其中k是图像描述的数量，每个单词通过预训练的GloVe语言模型进行词嵌入；

所述根据问题引导的使用文本表述的局部图像描述Z′符合以下公式：

其中，W_q、W_v和

均是可学习的参数，Z是从图像获取的前36条密集图像描述，

为所述融合对话历史的当前轮问题的特征表示。

可选地，所述最终的上下文向量符合以下公式：

其中，W_e是可学习的参数，[；；]代表连接，

为所述融合对话历史的当前轮问题的特征表示，

为所述根据问题引导的基于语义对齐的全局图像特征，Z′为所述根据问题引导的使用文本表述的局部图像描述。

可选地，所述基于语义对齐的视觉对话生成系统输出的回复满足三方面的约束：流畅度、连贯度和准确度；

通过最小化以下损失函数值L(θ)，同时优化所述编码器和所述生成式解码器：

L(θ)＝-(l_f+l_c+l_r)

其中，θ表示可训练的参数，l_f表示所述基于语义对齐的视觉对话生成系统输出的回复的流畅度，l_c表示所述基于语义对齐的视觉对话生成系统输出的回复的连贯度，l_r表示所述基于语义对齐的视觉对话生成系统输出的回复的准确度。

可选地，所述基于语义对齐的视觉对话生成系统输出的回复的流畅度l_f满足以下公式：

y表示所述基于语义对齐的视觉对话生成系统输出的回复，N代表y的长度，P代表预训练的N-Gram语言模型。

可选地，所述基于语义对齐的视觉对话生成系统输出的回复的连贯度l_c满足以下公式：

其中，y表示所述基于语义对齐的视觉对话生成系统输出的回复，x代表给定问句，P_seq2seq(y|x)代表表示给定问句x时生成回复y的概率，

代表基于回复y生成问句x的概率，P_seq2seq和

是两个预训练的Seq2Seq模型。

可选地，所述基于语义对齐的视觉对话生成系统输出的回复的准确度l_r满足以下公式：

l_r＝logP_key

其中，P_key表示回复关键词与所述基于语义对齐的视觉对话生成系统输出的回复的匹配概率。

本发明的有益效果如下：

1)本发明采用双通道同步获取全局、局部图像信息，得到具有丰富语义的图像信息。本发明对图像信息的提取从两个方面进行：分别是全局和局部。通过语义对齐获取全局的基于语义的图像表示，同时通过dense caption获取局部密集图像描述，文本表示的高级语义有助于更好的信息获取。两者共同为生成回复提供图像信息的线索。

2)本发明克服原有技术获取的图像信息不好与文本进行融合的缺点。本发明对于图像信息的捕捉分为两部分：

使用变体Faster-RCNN模型获取区域图像特征，使用image caption模型中的单词检测部分作为概念提取器来获取文本单词，将这两者通过共注意力机制进行对齐操作，最终构建全局基于语义的图像表示。这种方法减少了由于不同模态之间的差距带来的信息不交融的问题，让模型不再简单地基于提取的图像特征进行多模态学习任务。对于局部的基于文本的图像描述，通过获取Dense Caption，将图像转换为一列针对局部图像的文本描述，方便与同为文本模态的问题、历史信息进行信息的融合、交互。

3)本发明克服传统视觉对话模型可解释性差的缺点。现有的神经网络模型大多采用将图像特征、问题和对话历史的文本表示进行融合后生成回复，生成回复过程中的信息获取过程往往具有较差的解释性或者说明。本发明构建了语义对齐的视觉特征表示，能很好的通过注意力机制，根据问题和历史信息来获取图像需要注意的区域，能够显示在生成回复的过程中注意的图像信息，可以很好的说明推理过程是否合理。

4)本发明克服原有技术生成的回答不能兼顾语法合理性的缺点。解决了易产生通用回答的弊病，也进一步加强了文本的流畅度，多元性。当前视觉对话的工作基本不考虑生成文本的质量，传统的视觉对话系统使用负最大似然函数将生成的回复和ground truth进行匹配约束，限制了生成回复的多样性，忽略了对话的质量，不能实现友好的人机交互。本发明从流畅度、连贯度和准确性三个方面综合考虑来构建损失函数，在考虑回复正确性的同时，从回复文本的流畅度和连贯度进行了约束，为了避免生成回复单一，我们采用关键词约束的方法来约束回复的正确性，这样能丰富生成回答的表示形式。

5)传统的视觉对话系统很大程度上依赖对话历史来进行回复的生成或者选择，更多情况下是利用了对话历史中存在的关键词提供的虚假线索，并没有真正实现从文本、图像两个方面进行交互的人工智能，亦或根据问题来对图像信息进行推理。本发明重点在于从图像中提取丰富、具有高级语义的信息，依赖对话历史完善问题的理解，这样最大程度上来利用图像信息进行回复的生成，做到真正的“看图交互”。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种基于语义对齐的视觉对话生成系统的示意图；

图2是本发明实施例中得到基于语义对齐的全局图像特征的示意图；

图3是本发明实施例中语义对齐的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

视觉对话生成任务定义如下：根据给定图像I，图像描述C和t-1轮的对话历史H_t＝{C，(Q₁，A₁)，...，(Q_t-1，A_t-1)}，以及当前轮问题Q的信息，生成针对当前轮问题Q的回答A。

本发明实施例发现传统的视觉对话生成系统存在的问题至少包括：无法获取充足、易与文本进行融合的图像特征；过多依赖对话历史而非图像信息来生成回复；没有考虑生成式的视觉对话的文本质量。因此，本发明实施例对图像信息的提取从两个方面进行：分别是全局和局部。通过语义对齐获取全局的基于语义的图像表示，同时通过dense caption获取局部密集图像描述，文本表示的高级语义有助于更好的信息获取。两者共同为生成回复提供图像信息的线索。同时从文本流畅度、文本连贯度和正确度来进行全面的约束，指导回复的生成。此外，本发明实施例提出采用关键词约束的方法来约束回复的正确性，进而丰富生成回答的表示形式。

基于此，本发明的一个实施例提供了一种基于语义对齐的视觉对话生成系统。参考图1，图1是本发明实施例提供的一种基于语义对齐的视觉对话生成系统的示意图。如图1所示，本发明实施例提供的一种基于语义对齐的视觉对话生成系统基于late fusion框架，包括：一个编码器和一个生成式解码器。

所述编码器用于：通过Faster R-CNN的变体模型，提取给定图像的区域视觉特征；通过概念提取器，获得从所述给定图像提取的文本单词构成的词向量；采用co-attention机制，对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐，得到基于语义对齐的全局图像特征。通过DenseCap模型，提取给定图像I的使用文本表述的区域的密集图像描述。具体说明如下：

为了获取表达更全面、基于语义的图像表示，编码器将从给定图像I中获取给定图像I的区域视觉特征，并获得从给定图像I提取的文本单词构成的词向量，然后对给定图像I的区域视觉特征和从给定图像I提取的文本单词构成的词向量进行语义对齐操作，获取基于语义对齐的全局图像特征。具体过程如下：

如图1所示，用于提取区域视觉特征的Faster R-CNN的变体模型和概念提取器的输入相同，均只有给定图像I。Faster R-CNN的变体模型的输出是给定图像I的区域视觉特征(region-based visual features)即，将给定图像I的一些重要的区域提取出来，每一个区域都有一个特征向量，概念提取器的输出是从给定图像I提取的文本单词，使用预训练语言模型将文本单词构建为词向量(textual concepts)。

在具体实施时，使用Faster R-CNN的变体模型提取基于区域的视觉特征，并在Visual Genome上进行预训练。用

表示给定图像I的区域视觉特征矩阵，其中，区域视觉特征的数量为n，区域视觉特征的维度为d。

概念提取器(concept extractor)使用Multiple Instance Learning在MSCOCOcaptioning数据集上预训练。使用概念提取器获得从给定图像I提取的文本单词，使用预训练语言模型将文本单词构建为词向量，。用

表示从给定图像I提取的文本单词构成的词向量矩阵，其中，m表示从给定图像I提取的文本单词构成的词向量使用的文本单词的数量，d表示从给定图像I提取的文本单词构成的词向量的维度。

为了获取基于语义的全局图像信息，减少不同模态融合带来的问题，本发明构建了co-attention机制，对给定图像I的区域视觉特征和从给定图像I提取的文本单词构成的词向量进行语义对齐操作，对齐操作见图2所示。语义对齐的具体示例可见图3。图3中，进行语义对齐的文本单词为：

[′clock′，′tower′，′large′，′building′，′clocks′，′top′，′it′，′roof′，′side′，′big′，′above′，′blue′，′has′，′white′，′mounted′，′sky′，′tall′，′that′，′time′，′structure′′attached′，′giant′，′red′，′below′，′sits′，′brick′，′very′，′wall′，′front′，′ceiling′，′there′，′s′，′house′，′center′，′huge′，′sitting′]}

编码器采用co-attention机制，对所述给定图像的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐，得到基于语义对齐的全局图像特征，包括：

首先，通过将给定图像的区域视觉特征I_v和从所述给定图像提取的文本单词构成的词向量I_w连接，计算相似度矩阵s，相似度矩阵s符合以下公式：

S＝I_vM(I_w)^T

其中，

是可训练的参数矩阵，s中的元素S_i，j表示给定图像I的第i个的区域视觉特征和给定图像I提取的文本单词的词向量的相似度。

本发明中，“连接操作”代表两个向量的连接，连接可以按照行或列，在此不做具体限定。例如：维度为2×1的向量A和维度是3×1的向量B，对两个向量进行连接操作，得到的是维度为5×1的向量C(即，对两个向量按行拼接)。

然后，通过column-wise的归一化，对给定图像I的区域视觉特征和从所述给定图像提取的文本单词构成的词向量进行语义对齐，按照以下公式生成文本-图像的注意力权重A^wv：

A^vw＝softmax(S^T)

其中，softmax(.)表示column-wise的归一化函数；

最后，按照以下公式，得到基于语义对齐的全局图像特征

采用co-attention机制，可以使得

的注意力由I_v和I_w共同引导，因此，这两个信息源可以相互促进，以获得更好的表示。

编码器还用于通过DenseCap模型，提取给定图像I的使用文本表述的局部的密集图像描述(Local textual image representation)。

在具体实施时，全局image caption(C)由数据集提供，有助于回答探索场景的问题。Image caption相对于图像特征的优势在于：caption是由具有高级语义的自然语言来表示的，可以直接为问题提供线索，避免了模态不同造成的差距问题。因此，除了数据集本身提供的C之外，本发明获取密集图像描述，用Z＝{Z₁，Z₂，...Z_k}来表示给定图像I的使用文本表述的局部图像描述，其中k是图像描述的数量，每个单词通过预训练的GloVe语言模型进行词嵌入，Z是从图像获取的前36条密集图像描述(image caption)。

编码器还用于通过第一LSTM模型提取当前轮问题的特征，通过第二LSTM提取对话历史的特征，通过门控机制对所述当前轮问题的特征和所述对话历史的特征进行融合，得到融合对话历史的当前轮问题的特征。

在具体实施时，视觉对话是多轮对话问题，对话历史H_t＝{C，(Q₁，A₁)，...，(Q_t-1，A_t-1)}中往往存在很多对当前轮问题Q的补充，例如：当前轮问题Q中的存在的代词，根据对话历史H_t＝{C，(Q₁，A₁)，...，(Q_t-1，A_t-1)}可以进行指代消解。

本发明使用LSTM模型(第一LSTM模型)来提取当前轮问题Q的问题特征，使用另一个LSTM模型(第二LSTM模型)来提取对话历史H_t＝{C，(Q₁，A₁)，...，(Q_t-1，A_t-1)}的特征。

从对话历史H_t＝{C，(Q₁，A₁)，...，(Q_t-1，A_t-1)}中选择与当前轮问题Q相关的信息，通过门控机制将信息融合到当前轮问题Q的表示中，得到融合对话历史的当前轮问题的特征

在对话中第t轮的公式表达如下：

是关于

和

的门控值的一个向量，

代表所述融合对话历史的当前轮问题的特征表示。

编码器还用于根据融合对话历史的当前轮问题的特征，通过注意力机制对基于语义对齐的全局图像特征和所述使用文本表述的区域图像描述分别进行引导，分别得到根据问题引导的基于语义对齐的全局图像特征和根据问题引导的使用文本表述的区域图像描述。

在具体实施时，根据获取的

来引导从基于语义对齐的全局图像特征

和使用文本表述的局部图像描述Z中，获取与问题相关的图像信息。通过注意力机制来引导信息获取。

根据

来更新基于语义对齐的全局图像特征

的公式描述如下：

其中，W_q、W_v和

均是可学习的参数，

为基于语义对齐的全局图像特征。

根据

来更新使用文本表述的局部图像描述Z的公式描述如下：

其中，W_q、W_v和

均是可学习的参数，Z是从图像获取的前36条密集图像描述(imagecaption)，

为所述融合对话历史的当前轮问题的特征表示。

编码器还用于对根据问题引导的基于语义对齐的全局图像特征

根据问题引导的使用文本表述的局部图像描述z′、以及融合对话历史的当前轮问题的特征

进行融合，得到最终的上下文向量e_t(即context vector)。编码器最终获取context vector，传给解码器。

其中，最终的上下文向量e_t符合以下公式：

其中，W_e是可学习的参数，[；；]代表连接，

为所述融合对话历史的当前轮问题的特征，

使用LSTM模型构建生成式解码器，生成式解码器用于根据最终的上下文向量e_t，生成回复。具体地，可以使用一个LSTM模型作为生成式解码器。

在具体实施时，所述基于语义对齐的视觉对话生成系统输出的回复满足三方面的约束：流畅度、连贯度和准确度；

L(θ)＝-(l_f+l_c+l_r)

在具体实施时，所述基于语义对齐的视觉对话生成系统输出的回复的流畅度l_f满足以下公式：

本发明考虑到过短的回复通常是无意义的回复，而过长的回复常存在冗余。所以在语言模型的基础上按回复的长度进行缩放，从而控制回复的长度。

在具体实施时，所述基于语义对齐的视觉对话生成系统输出的回复的连贯度l_c满足以下公式：

代表基于回复y生成问句x的概率，P_seq2seq和

是两个预训练的Seq2Seq模型。

在具体实施时，所述基于语义对齐的视觉对话生成系统输出的回复的准确度l_r满足以下公式：

l_r＝logP_key

当前的视觉对话生成系统都是通过将生成回复和ground truth进行相似度对比来，使用负最大似然函数进行训练。然而，在对话中生成的回复可能是多样性的，不同的回答虽然表达形式不同，但并非是质量差。本发明考虑到为了同时保证回复的多样性和准确性，对于有正确答案的回复，我们提取了回复关键词，(例如，问句:图片中的男孩穿着什么颜色的上衣？回复：男孩穿着蓝色的上衣。我们可以提取出蓝色作为关键词，与视觉对话系统生成的回复进行匹配。)通过计算回复关键词和视觉对话系统生成回复的相似度，来约束回复正确率。

本发明的有益效果如下：

5)传统的视觉对话系统很大程度上依赖对话历史来进行回复的生成或者选择，更多情况下是利用了对话历史中存在的关键词，并没有真正实现从文本、图像两个方面进行交互的人工智能，亦或根据问题来对图像信息进行推理。本发明重点在于从图像中提取丰富、具有高级语义的信息，依赖对话历史完善问题的理解，这样最大程度上来利用图像信息进行回复的生成，做到真正的“看图交互”。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。