CN111680484A

CN111680484A - 一种视觉常识推理问答题的答题模型生成方法和系统

Info

Publication number: CN111680484A
Application number: CN202010477048.7A
Authority: CN
Inventors: 鉴萍; 宋远生
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-18
Anticipated expiration: 2040-05-29
Also published as: CN111680484B

Abstract

本发明提出一种视觉常识推理问答题答题模型的生成方法和系统，该方法包括：S1、语料预处理，为询问和响应生成文本语义向量，为图像生成图像目标特征向量。S2、融合文本语义向量与图像目标特征向量。S3、响应建模，获得每个候选响应的向量表示rⁱ。S4、将每个候选响应的向量表示关联比较，获得关联响应向量zⁱ。S5、利用关联响应向量zⁱ构建分类器及模型训练。通过本发明，生成的模型降低了对于视觉常识推理问答任务的复杂度，而且响应参考了其他的响应信息，使得机器更容易选择出最优的答案，极大提升了模型的准确度。

Description

一种视觉常识推理问答题的答题模型生成方法和系统

技术领域

本发明属于自然语言处理与计算机视觉的交叉技术应用领域，尤其涉及一种视觉常识推理问答题的答题模型生成方法和系统。

背景技术

图像理解是人类与生俱来的一种认知世界的能力，随着人工智能前沿技术的发展，越来越多的学者希望机器能够具备这样的图像理解能力。视觉常识推理问答作为一项测试机器多模态表示学习推理的任务，其能够很好的衡量和检验机器的图像理解水平，在图像检索、社交媒体、电子商务等领域有着广泛的潜在应用，所以对视觉常识推理问答的研究有着十分重大的意义。视觉常识推理问答与已有的视觉问答任务形式比较相似，输入都为一张图像以及与这张图像相关的自然语言描述的问题，需要机器正确地给出相应的答案。但是视觉常识推理问答中给出的图像和问题内容更加复杂抽象，需要机器充分地理解图像内容与文本语义，甚至需要更高阶的认知和关于世界的常识推理才能回答该问题。

如图1所示，视觉常识推理任务为：给定一张图像(image)以及一个问题(question)，需要从4个候选答案(answer)中选出正确的一个，除了选出答案，还需要机器从给出的4个候选理由(rationale)中挑选出正确的理由来解释其选择的答案。Q代表问题，A0-3代表4个候选答案，R0-3代表4个候选理由。视觉常识推理任务(VCR任务)需要机器先选择出正确的答案，然后再选择出正确的理由。所以VCR总体任务(Q→AR)可以分解为答案选择(Q→A)和答案验证(QA→R)两个子任务。我们将这两个子任务统一在同一个模型框架中，不同的子任务使用不同的训练数据来训练模型，所以最终可以得到Q→A模型和QA→R模型两个模型。测试阶段我们利用Q→A模型选出答案，然后将问题和答案拼接起来输入到QA→R模型中选择出正确的理由。因为这两个子任务是在同一个模型框架中来做的，区别只是输入训练数据不同，为了叙述方便，在Q→A过程，我们将Q作为询问(query)，A作为响应(response)；QA→R将Q和A拼接起来作为询问(query)，R作为响应(response)。

科研工作者针对先前的视觉问答任务已有充分的研究，基本的模型框架为：使用预训练好的卷积神经网络如ResNet提取图像特征向量，循环神经网络如LSTM提取问题文本语义特征向量，通过图像语义与问题文本语义的特征融合来实现两种特征语义间的交互，并最终提升模型对答案的推理能力。众所周知，人类之所以能够根据图像来回答相关问题，其不仅通过图像获取相关信息，还依赖于一些世界常识和知识。

然而，之前的视觉问答模型却忽略了这些至关重要的因素，没有充分利用这些知识来辅助机器完成推理问答过程。具体来说，视觉常识推理问答中存在下述问题：1)不能很好地表示图像特征和文本语义的问题；2)普通的深度学习方法没有考虑响应文本中蕴含的额外信息来辅助我们理解图像的问题；3)现有的方法并未考虑响应之间的关联和关系的问题。

发明内容

为了解决上述问题，本发明提供一种视觉常识推理问答题的答题模型生成方法和系统。

本发明的技术方案总体思想为：首先，利用预训练语言模型Bert-base获取每个询问和响应的文本语义特征向量，通过Resnet-50获取图像中的每个目标(object)特征向量。其次，由于文本的某些词还特别指代图像中的某个目标，所以将图像中的目标特征向量与相应的文本语义向量进行拼接，训练Bi-LSTM编码特征表示；然后利用双向线性注意力方法将询问语义特征和图像语义特征融合到响应特征中，获取包含图像和询问信息的响应特征表示；再次，利用Transformer对响应进行编码，之后对响应池化操作得到每个候选响应的向量表示，利用双向注意力方法对响应之间的关联进行建模，之后输入多层感知机进行分类，使用梯度下降方法更新参数，找到最优的模型。

根据本发明的一方面，提供一种视觉常识推理问答题的答题模型生成方法，所述方法包括：

S1、语料预处理，为询问和响应生成文本语义向量，为图像生成图像目标特征向量；

S2、融合文本语义向量与图像目标特征向量，生成响应向量Rⁱ；

S3、响应建模，获得每个响应的向量表示rⁱ；

S4、将每个响应的向量表示rⁱ关联比较，获得关联响应向量zⁱ；

S5、利用关联响应向量zⁱ构建分类器及模型训练。

较佳地，在步骤S1中，语料包含一幅图像、一个问题、若干候选答案和理由，其中，所述问题、候选答案和理由均由数字标签和语言文字混合描述，数字标签与图像中的目标对应，询问为所述问题或所述问题和答案的组合，响应为候选答案或理由。

较佳地，在步骤S1中，为询问和响应生成文本语义向量，为图像生成图像目标特征向量的步骤为：

将询问和响应输入到预训练模型Bert-base中，分别获取询问和响应的文本语义向量

和

将图像输入Resnet-50中获取图像目标的特征向量

较佳地，在步骤S2中，将图像目标特征向量与文本语义向量拼接得到询问向量和响应向量，利用Bi-LSTM将询问向量和响应向量编码为u^q和

利用双向线性注意力方法将询问向量u^q和图像特征

融合到响应向量

中，然后通过非线性层得到响应向量Rⁱ。

较佳地，在步骤S3中，利用多层Transformer对得到的响应向量Rⁱ特征编码，得到更高层的响应语义特征向量表示

将

池化操作得到每个选项响应的向量表示rⁱ。

较佳地，在步骤S4中，用双向线性注意力方法对响应向量rⁱ进行比较，得到关联响应向量zⁱ。

优选的，在双向线性注意力方法中，将相似权重矩阵

中对角线位置的系数设置为负无穷，以防止响应向量之间进行自我比较。

较佳地，在步骤S5中，将关联响应向量zⁱ输入多层感知机中，在全连接的网络之后接入softmax函数得到类别的概率分布，计算交叉熵作为损失函数，使用随机梯度下降法更新模型参数直到其收敛，最终得到答题模型。

根据本发明的另一方面，提供了一种视觉常识推理问答题的答题模型生成系统，所述系统包括预处理模块、特征融合模块、响应建模模块、响应关联比较模块和训练模块，其中，

所述预处理模块，用于预处理语料，并为询问和响应生成文本语义向量，为图像生成图像目标特征向量；

所述特征融合模块，用于融合文本语义向量与图像目标特征向量，生成响应向量Rⁱ；

所述响应建模模块，用于获得每个响应的向量表示rⁱ；

所述响应关联比较模块，用于关联比较每个响应的向量rⁱ，获得关联响应向量zⁱ；

所述训练模块，用于利用关联响应向量zⁱ构建分类器及模型训练。

较佳地，在所述预处理模块中，通过预训练模型Bert-base获取文本语义向量，通过Resnet-50获取图像目标特征向量；在特征融合模块中，通过Bi-LSTM和双向线性注意力方法生成响应向量Rⁱ；在所述响应建模模块中，利用多层Transformer和池化操作得到每个选项响应的向量表示rⁱ；在响应关联比较模块中，通过用双向线性注意力方法生成关联响应向量zⁱ。

本发明提供的视觉常识推理问答题的答题模型生成方法和系统，与现有方法相比，具有如下有益效果：

(1)通过充分运用包含在问题与响应文本中的信息和知识的确可以辅助机器理解图像语义，降低模型对于视觉常识推理问答任务的复杂度，能够帮助模型选择出正确的响应。

(2)对候选响应之间的关联进行建模可以获得更好的响应表示，这些响应参考了其他的响应信息，使得机器更容易选择出最优的答案，并最终极大提升模型的准确度。

(3)本发明能够有效提升机器视觉常识推理问答的精度，弥补了基于传统视觉问答方法导致的错误，给予用户提供快速准确的视觉常识推理问答结果，为进一步提高机器的图像理解力提供了很好的指导和参考。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为视觉常识推理任务示例图；

图2为本发明一个实施例的答题模型生成方法的流程示意图；

图3为本发明一个实施例的语料预处理和特征编码的流程示意图；

图4为本发明一个实施例的图像文本融合的流程示意图；

图5为本发明一个实施例的响应建模的流程示意图；

图6为本发明一个实施例的响应关联比较的流程示意图；

图7为本发明一个实施例的构建分离器和训练模型的流程示意图；

图8为本发明一个实施例的答题模型生成系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和具体实施方式对本发明作进一步说明。

本发明提供一种视觉常识推理问答题的答题模型生成方法，如图2所示，该方法包括如下步骤：

S1、语料预处理，并为询问和响应生成文本语义向量，为图像生成图像目标特征向量；

S3、响应建模，获得每个候选响应的向量表示rⁱ；

S4、将每个候选响应的向量表示rⁱ关联比较，获得关联响应向量zⁱ；

S5、利用关联响应向量zⁱ构建分类器及模型训练。

在步骤S1中，如图1所示，语料包含一幅图像、一个问题、若干候选答案和/或候选理由。问题、候选答案和/或候选理由由数字标签和语言文字混合描述，数字标签会指代图像中的一些目标，可以将这些数字标签替换为相应的类名文字。

在一个实施例中，语料为VCR 1.0。2019年CVPR会议论文From Recognition toCognition:Visual Commonsense Reasoning首次提出了视觉常识推理任务，并引入了数据集VCR 1.0。该语料中的每个样例都如图1所示，包含一幅图像、一个问题、四个候选答案和四个候选理由。问题、答案和理由均由数字标签和语言文字混合描述，数字标签会指代图像中的一些目标，可以将这些数字标签替换为相应的类名文字。如上文所述，Q→A过程中将问题作为询问，候选答案作为响应，这是Q→A模型；也可以将问题和答案拼接在一起作为询问，候选理由作为响应，这是QA→R模型。无论是哪种模型，都是询问-响应模型。

将询问和响应输入到预训练模型Bert-base中，分别获取询问和第i个响应的文本语义向量

和

(例如，在上例中，i＝1，2，3，4)；将图像输入Resnet-50中获取图像目标的特征向量

Bert模型是Google在2018年10月发布的语言表示模型，Bert在NLP领域横扫了11项任务的最优结果，可以说是现今最近NLP中最重要的突破。Bert模型的全称是Bidirectional Encoder Representations from Transformers，是通过训练MaskedLanguage Model和预测下一句任务得到的模型。Resnet是深度残差网络(Deep residualnetwork)的缩写，它的提出是CNN图像史上的一件里程碑事件，并在ImageNet比赛分类任务上获得第一名，因为它简单与实用并存，之后很多方法都建立在Resnet的基础上完成的，图像检测、分割、识别等领域都纷纷使用Resnet。

在步骤S2中，如图3所示，获取询问和响应中图像目标，将该图像目标的特征向量与文本语义向量拼接得到询问向量

和响应向量

利用Bi-LSTM对询问向量和响应向量编码为u^q和

利用双向线性注意力方法将询问u^q和图像特征

融合到每一个响应

中(其中i＝1，2，3，4)，拼接然后通过非线性层得到响应向量Rⁱ。

在步骤S3中，如图4所示，利用多层Transformer对得到的响应向量Rⁱ特征编码，得到更高层的响应语义特征向量表示

在这个过程Transformer中多头注意力机制(MultiHead Attention)使得图像、询问和响应之间进行了更好的信息和知识交互，从而借助文本语义理解图像内容，因此此步骤能够充分借助蕴含在询问和响应文本中的信息和知识完成视觉推理问答；最后将编码后的响应向量池化操作得到每个响应的向量表示rⁱ，rⁱ为维度为1的向量的表示，包含了更高层的图像和文本语义。

在步骤S4中，如图5所示，利用双向注意力方法对响应向量rⁱ之间的关联进行比较得到关联响应向量zⁱ。利用线性注意力方法对响应rⁱ之间的关联进行比较，使得模型在做选择时同时参考了其他候选响应的信息，同时为了避免选项进行自我比较，将相似权重矩阵

中对角线位置的系数设置为负无穷，这样经过softmax归一化操作之后对角线位置为0。通过响应之间的比较，模型可以获取更充分的证据来帮助模型的推理。

在步骤S5中，如图6所示，将得到的关联响应向量zⁱ输入多层感知机中，在全连接的网络之后接入softmax函数得到类别的概率分布，计算交叉熵作为损失函数，使用随机梯度下降法更新模型参数直到其收敛，最终得到答题模型。

答题模型的使用方法为：输入图像、询问和候选的响应，模型就可以选择出其正确的响应。对于VCR 1.0语料集，最终得到Q→A模型和QA→R模型两个模型来分别预测出正确的答案answer和理由rationale，完成推理过程。

根据本发明的另一方面，提出一种视觉常识推理问答题答题模型的生成系统，如图8所示，包括预处理模块、特征融合模块、响应建模模块、响应关联比较模块和训练模块，其中，

预处理模块，用于预处理语料，并为询问和响应生成文本语义向量，为图像生成图像目标特征向量；

特征融合模块，用于融合文本语义向量与图像目标特征向量，生成响应向量Rⁱ；

响应建模模块，用于获得每个响应的向量表示rⁱ；

响应关联比较模块，用于关联比较每个响应的向量rⁱ，获得关联响应向量zⁱ；

训练模块，用于利用关联响应向量zⁱ构建分类器及模型训练。

在所述预处理模块中，语料包含一幅图像、一个问题、若干候选答案和/或候选理由。问题、候选答案和/或候选理由由数字标签和语言文字混合描述，数字标签会指代图像中的一些目标，可以将这些数字标签替换为相应的类名文字。

例如，语料为VCR 1.0。2019年CVPR会议论文From Recognition to Cognition:Visual Commonsense Reasoning首次提出了视觉常识推理任务，并引入了数据集VCR1.0。该语料中的每个样例都如图1所示，包含一幅图像、一个问题、四个候选答案和四个候选理由。问题、答案和理由均由数字标签和语言文字混合描述，数字标签会指代图像中的一些目标，可以将这些数字标签替换为相应的类名文字。如上文所述，Q→A过程中将问题作为询问，候选答案作为响应，这是Q→A模型；也可以将问题和答案拼接在一起作为询问，候选理由作为响应，这是QA→R模型。无论是哪种模型，都是询问-响应模型。

和

在特征融合模块中，获取询问和响应中图像目标，将该图像目标的特征向量与文本语义向量拼接得到询问向量

和响应向量

利用Bi-LSTM对询问向量和响应向量编码为u^q和

利用双向线性注意力方法将询问u^q和图像特征

融合到每一个响应

在响应建模模块中，利用多层Transformer对得到的响应向量Rⁱ特征编码，得到更高层的响应语义特征向量表示

在这个过程Transformer中多头注意力机制(MultiHeadAttention)使得图像、询问和响应之间进行了更好的信息和知识交互，从而借助文本语义理解图像内容，因此此步骤能够充分借助蕴含在询问和响应文本中的信息和知识完成视觉推理问答；最后将编码后的响应向量池化操作得到每个响应的向量表示rⁱ，rⁱ为维度为1的向量的表示，包含了更高层的图像和文本语义。

在响应关联比较模块中，利用双向注意力方法对响应向量rⁱ之间的关联进行比较得到关联响应向量zⁱ。利用线性注意力方法对响应向量rⁱ之间的关联进行比较，使得模型在做选择时同时参考了其他候选响应的信息，同时为了避免选项进行自我比较，将相似权重矩阵

中对角线位置的系数设置为负无穷，这样经过softmax归一化操作之后对角线位置为0。通过响应向量之间的比较，模型可以获取更充分的证据来帮助模型的推理。

在和训练模块中，将得到的关联响应向量zⁱ输入多层感知机中，在全连接的网络之后接入softmax函数得到类别的概率分布，计算交叉熵作为损失函数，使用随机梯度下降法更新模型参数直到其收敛，最终得到答题模型。

实施例1

(1)语料预处理和特征编码。

本次实验使用的VCR1.0数据集主要格式为：movie为图像从哪部电影截取的画面；objects为图像中对应的目标；img_fn为存储图像的文件路径；metadata_fn为存储每个目标在图像中的坐标位置信息；question为问题，answer_choices分别为4个候选答案；rationale_choices为4个候选理由；answer_label和rationale_label为真实的候选答案和理由。

1)问题、答案、理由都是由图像标签和语言文字混合描述的。为了尽可能符合Bert-base文本输入形式，将其做如下处理：若图像标签指代为人，将其随机替换为中性人名；其他则换为相应的类别名称。以Q→A过程为例，问题为询问，答案为响应，将询问和响应拼接起来输入Bert-base获取语义向量。示例如：

[CLS]What is[1]thinking？[SEP][1]has never seen[6]up close before.[SEP]

以上示例中将[1]替换为人名Jackie，将[6]替换为类名bird。之后输入到Bert-base模型中，提取倒数第二层的隐层向量作为询问和响应的语义向量表示，获得询问表示

和响应表示

因为已有的研究证明该层表征文本语义效果最好。

2)利用已在ImageNet数据集上预训练过的ResNet-50来提取图像的目标向量

图像中的每个目标是用边界框确定的，在ResNet-50的最后一层利用RoiAlign方法获取每个图像目标的特征向量。并且图像目标特征向量从2176维映射为512维向量，在训练过程中我们固定Resnet-50的前三层参数，对模型后三层参数进行微调。

(2)文本语义与图像特征融合。

1)将文本中标签特指的图像目标向量与通过Bert得到的语义向量在最后的一个维度上进行拼接，得到询问的表示

指的是文本语义向量，

代表的是图像目标向量，同理可以得到第i个响应的表示

利用BiLSTM编码询问和响应，可以得到每个字符(token)级别的联合图像-文本特征向量表示。BiLSTM的单隐藏层设置为256维，dropout系数设置为0.3。LSTM的隐藏权重使用正交初始化的方式进行初始化。

2)采用经典的双向线性注意力方法将询问信息融合到响应中。利用下列公式，其中W可训练参数：

ú^q＝softmax(S)u^q

同理依照上述的方法可以获得包含图像信息的响应表示ó。将

ú^q、ó三者拼接在一起，送入非线性层。ReLU为relu激活函数。

(3)响应建模，具体步骤如下：

这里使用的主要算法是Transformer，其主要由MultiHeadAttention、LayerNorm、FFN构成。MultiHeadAttention指多头自注意力；LayerNorm是属于层归一化，广泛用于自然语言处理模型中；FFN为2层前馈神经网络。每层Transformer包含相同的模块。

具体地我们使用3层Transformer对包含了询问和图像信息的响应特征向量表示Rⁱ进行编码处理。多头注意力大小为512，头数设置为8，因此每个头的维度为64。之后池化操作得到第i个响应的向量表示rⁱ。

α＝softmax(a)

(4)响应关联比较，具体步骤如下。

利用线性注意力方法对响应rⁱ之间的关联进行比较，使得模型在做选择时同时参考了其他候选响应的信息，同时为了避免选项进行自我比较，我们将相似权重矩阵

中对角线位置的系数设置为负无穷，这样经过softmax归一化操作之后对角线位置为0。

(5)分类。

将zⁱ输入到多层感知机，对其进行分类。W为可训练参数矩阵，β为归一化系数，I为指示函数，取值为0或者1。

模型总共在VCR1.0训练数据集上训练20轮，批量大小设置为64，学习率初始化为0.0002，权重衰减因子为0.0001。如果模型在验证集上精度不再上升就停止训练，保存模型。

在已公开的视觉常识推理问答题VCR1.0数据集上实验结果证明，本发明生成的模型的Q→A正确率为66.9％和QA→R正确率为68.7％，总体的Q→AR正确率为46％，实验结果明显优于已有的模型。虽然目前视觉常识推理问答题的数据集只有英文版本，但可以推论我们的方法对于中文也是适用的。

本领域普通技术人员可以理解：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种视觉常识推理问答题答题模型的生成方法，其特征在于，所述方法包括：

S3、响应建模，获得每个响应的向量表示rⁱ；

S4、将每个响应的向量表示rⁱ进行关联比较，获得关联响应向量zⁱ；

S5、利用关联响应向量zⁱ构建分类器及模型训练。

2.根据权利要求1所述的生成方法，其特征在于，在步骤S1中，语料包含一幅图像、一个问题、若干候选答案和理由，其中，所述问题、候选答案和理由均由数字标签和语言文字混合描述，数字标签与图像中的目标对应，询问为所述问题或所述问题和答案的组合，响应为候选答案或理由。

3.根据权利要求1所述的生成方法，其特征在于，在步骤S1中，为询问和响应生成文本语义向量，为图像生成图像目标特征向量的步骤为：

和

将图像输入Resnet-50中获取图像目标的特征向量

4.根据权利要求1所述的生成方法，其特征在于，在步骤S2中，将图像目标特征向量与文本语义向量拼接得到询问向量和响应向量，利用Bi-LSTM将询问向量和响应向量编码为u^q和

利用双向线性注意力方法将询问u^q和图像特征

融合到响应向量

中，然后通过非线性层得到响应向量Rⁱ。

5.根据权利要求1所述的生成方法，其特征在于，在步骤S3中，利用多层Transformer对响应向量Rⁱ特征编码，得到更高层的响应语义特征向量表示

将

池化操作得到每个响应的向量表示rⁱ。

6.根据权利要求1所述的生成方法，其特征在于，在步骤S4中，用双向线性注意力方法对响应向量rⁱ进行比较，得到关联响应向量zⁱ。

7.根据权利要求6所述的生成方法，其特征在于，在所述双向线性注意力方法中，将相似权重矩阵

中对角线位置的系数设置为负无穷，以防止响应之间进行自我比较。

8.根据权利要求1所述的生成方法，其特征在于，在步骤S5中，将关联响应向量zⁱ输入多层感知机中，在全连接的网络之后接入softmax函数得到类别的概率分布，计算交叉熵作为损失函数，使用随机梯度下降法更新模型参数直到其收敛，最终得到答题模型。

9.一种视觉常识推理问答题答题模型的生成系统，其特征在于，所述系统包括预处理模块、特征融合模块、响应建模模块、响应关联比较模块和训练模块，其中，

所述响应建模模块，用于获得每个响应的向量表示rⁱ；

10.根据权利要求9所述的生成系统，其特征在于，在所述预处理模块中，通过预训练模型Bert-base获取文本语义向量，通过Resnet-50获取图像目标特征向量；在特征融合模块中，通过Bi-LSTM和双向线性注意力方法生成响应向量Rⁱ；在所述响应建模模块中，利用多层Transformer和池化操作得到每个选项响应的向量表示rⁱ；在响应关联比较模块中，通过用双向线性注意力方法生成关联响应向量zⁱ。