CN113094484A

CN113094484A - 基于异质图神经网络的文本视觉问答实现方法

Info

Publication number: CN113094484A
Application number: CN202110370266.5A
Authority: CN
Inventors: 高晨雨; 朱琪; 王鹏
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2021-07-09

Abstract

本发明提出一种基于异质图神经网络的文本视觉问答实现方法。该方法中网络结构分为问题自我注意力模型、异质图注意力模型和全局‑局部注意力应答模型三部分。问题自我注意力模型将一个具有T个单词的问题Q，通过预训练的BERT网络得到输入单词对应的融合全文语义信息的词向量；异质图注意力模型从图像中构建异质图，采用注意力机制，使用不同的问题特征更新异质图的不同部分，得到问题条件下对象和文本的异质图特征；全局‑局部注意力应答模型采用迭代的方式，得到函数预测答案。本方法中，二分支评价函数使得生成的答案可以同时兼顾OCR标记和一般文本标记，从而提高了应答的准确率，最终达到高精度的效果。

Description

基于异质图神经网络的文本视觉问答实现方法

技术领域

本发明属基于文本视觉问答领域，具体为采用问题自我注意模块-异质图注意力模型-全局局部注意力应答模型结构的高精度文本视觉问答实现方法。

背景技术

视觉问答(visual Question answer,VQA)是计算机视觉和自然语言处理领域的一个交叉领域，自大规模的VQA数据集发布以来，该领域引起了越来越多的关注。随着深度神经网络的发展，视觉问答技术已经取得了很大的进步。文本视觉问答(TextVQA)是近年来提出的一项挑战，它要求机器读取图像中的文本，并通过对问题、光学字符识别(OCR)标记和视觉内容的联合推理来回答自然语言问题。大多数最先进的VQA方法无法回答这些问题，原因是：1)文本阅读能力差；2)缺乏文视推理能力；3)应答机制在最终应答中难以同时覆盖OCR标记和一般文本标记。

因此，本专利主要为了解决上述问题而设计。本专利使得文本视觉应答算法能够在高文本阅读能力和文视推理能力，以及同时兼顾OCR标记和一般文本标记的前提下，达到高精确度的效果。

发明内容

为了解决上述问题，本发明提供了一种基于异质图神经网络的文本视觉问答实现方法。

本发明的技术方案如下：一种基于异质图神经网络的文本视觉问答实现方法，所述网络结构分为问题自我注意力模型、异质图注意力模型和全局-局部注意力应答模型三部分(如图1所示)。问题自我注意力模型(如图2所示)基于BERT网络，获取文本问题的词向量特征，再通过六分类网络将问题特征分解为六个子组件，包括对象(object,o)，对象-对象关系(object-object,oo)，对象-文本关系(object-text,ot)，文本(text,t)，文本-文本关系(text-text,tt)，文本-对象关系(text-object,to)，并提取每个组件的分解的问题特征和自我注意力权重。异质图注意力模型(如图3所示)受图卷积网络的启发而设计，从输入图像中提取对象和文本相关信息并构建异质图，使用前一步得到的分解的问题特征采用注意力机制对异质图进行推理，得到结点和边的注意力权重和异质图问题特征。全局-局部注意力应答模型(如图4所示)受M4C模型启发，使用transformer将分解的问题特征和异质图问题特征进行特征融合，在解码部分使用我们设计的二分支评价函数以迭代的方式生成同时兼顾OCR标记和一般文本标记的答案。

所述文本视觉问答实现方法包括以下主要步骤：

(1)问题自我注意力模型将一个具有T个单词的问题Q表示为词向量

通过预训练的BERT网络得到输入单词对应的融合全文语义信息的词向量

词向量

通过六个单独的三层MLP网络，同时每个网络后紧接着softmax层，从而生成T个单词对应六种组件的注意力权重的集合

结合词向量

从而得到六个组件的分解的问题特征s^o，s^oo，s^ot，s^t，s^tt，s^to。此外，将词向量

直接通过全连接层和softmax层得到六个组件的自我注意权重w^o，w^oo，w^ot，w^t，w^tt，w^to。

(2)异质图注意力模型从图像中构建异质图

其中

是图像中N个对象结点的集合，

是图像中M个文本结点的集合，ε＝{e_ij}是两个独立结点之间的关系的集合。之后采用注意力机制，使用不同的问题特征更新异质图的不同部分。根据分解的问题特征s^o，s^oo，s^ot，s^t，s^tt，s^to得到六个组件的异质图注意力权重p^o，p^oo，p^ot，p^t，p^tt，p^to和从单独对象中提取的特征

从文本区域提取的特征

(3)将六个组件的自我注意权重w^o，w^oo，w^ot，w^t，w^tt，w^to和异质图注意力权重p^o，p^oo，p^ot，p^t，p^tt，p^to结合得到对象的综合注意力权重

和文本的综合注意力权重

将对象和文本的综合注意力权重和从对象和文本中提取的特征

和

结合得到问题条件下对象和文本的异质图特征g_obj和g_text。

(4)全局-局部注意力应答模型采用迭代的方式，每次将问题的分解的问题特征s^o，s^oo，s^ot，s^t，s^tt，s^to，对象的异质图特征g_obj，文本的异质图特征g_text和OCR特征输入到transformer层进行特征融合，融合后的特征输入到二元分支评价函数预测答案。答案空间是两部分的结合：包含5000个词的固定词典和从每个特定的图像中提取的动态OCR特征。选择最高的分数作为结果。在第一次迭代中，将融合特征作为输入，而在剩下迭代步骤中，使用前一个更新的输出作为输入进行迭代解码。考虑到最终的答案有两个来源，采用多标签sigmoid损失代替softmax。

本发明的有益效果是：在阅读方面，本发明使用异质图表示的方法去编码图像中的对象-对象、对象-文本、文本-文本、文本-对象关系，从而增强了图像的文本阅读能力；在推理方面，设计使用异质图注意力网络，采用注意力机制进行推理，从而增强了模型的文视推理能力。在应答方面，二分支评价函数使得生成的答案可以同时兼顾OCR标记和一般文本标记，从而提高了应答的准确率，最终达到高精度的效果。

表1：ablation study实验结果

为了验证本发明在阅读和推理方面的效果，我们进行了一项ablation study，在没有丰富的OCR表示和迭代应答模块的情况下，我们在Text VQA数据集上对其进行了评价。测试结构的变换及其结果如表1所示。实验结果表明：四种模型关系都提高了精度。特别是，文本-对象关系(to)相对于其他关系的应用对精确度有着更大的提高。总的来说，源于文本(to和tt)的关系比对象(oo和ot)的关系更重要，这验证了文本在textVQA任务中的关键作用。

表2：不同文本视觉问答实现方法实验对比结果

为了验证本发明的应答准确率和精度的效果，我们和优秀的文本视觉问答实现方法LoRRA、DCD、MSFT_VTI以及目前最新并且精度最高的M4C算法在Text VQA数据集上进行了对比。实验的结果如表2所示。对比6和7行，我们可以发现，我们提出的迭代式应答模块(decoder)比基于区分分类器的应答模块(classifier)有很大的优势(验证集准确率提升为4％)，这表明生成可变长度答案的能力对文本VQA具有重要意义。对比7和8行，对编码问题的GloVe和BERT特征进行了评估，后者在验证准确率方面优于前者0.55％。通过比较表2中的第8行和第9行，我们可以看到通过添加OCRs的RecogCNN特征，精确度进一步提高了0.47％。通过对比所有算法的精确度，可以看到本发明的算法具有高精度的效果。整个模型结构如图1所示。

附图说明

图1是本发明中异质图网络整体结构图；

图2是本发明中问题自我注意力模型结构图

图3是本发明中异质图注意力模型结构图

图4是本发明中全局-局部注意力应答模型结构图

图5是实施例中可视化的结果

具体实施方式

下面是本发明文本视觉问答实现方法的一个具体实施例，考虑到中间结果为高维空间数据，难以直接展示，我们将通过可视化的角度来介绍具体的实施例，可视化的结果如图5所示。

本发明提供了一种基于异质图神经网络的文本视觉问答实现方法，具体过程如下：

1、分解的问题特征和问题自我注意权重的生成

问题自我注意力模型首先将一个具有T个单词的问题Q表示为词向量

词向量

结合词向量

得到六个组件的分解的问题特征s^o，s^oo，s^ot，s^t，s^tt，s^to。以

和s^o为例，其计算公式如下：

将词向量

直接通过全连接层和softmax层得到六个组件的自我注意权重w^o，w^oo，w^ot，w^t，w^tt，w^to，其计算公式如下：

其中

以图5问题(a)为例，输入文本问题“what number is on the bike on theright？”，经过模型处理之后提取到的六个组件的分解的问题特征在问题的下方进行了可视化展示。其中颜色的深浅表示该问题特征对该单词的关注程度，颜色越深，关注度越强。s^o表示对象的问题特征，可视化的结果显示s^o更关注单词“number”和“bike”，根据我们人的认知，数字和摩托车的对象特征确实相对更加明显。s^t表示文本的问题特征，可视化的结果显示s^t更关注单词“number”，数字确实具有很强的文本特征。s^to表示文本-对象关系的问题特征，可视化的结果显示s^to关注整个语句“what number on the bike on the right”、更关注“on the bike”和“the right”，并且最关注单词“what”，从人的理解来看，该语句表示了一个由对象(bike)到文本(number)的关系，而可视化的结果以及关注程度的强弱也映射了该关系。其他的问题特征也具有相似性，在此不做一一解释。

2、异质图的构建和异质图注意力权重的生成

2.1异质图的构建

异质图注意力模型从图像中构建异质图

其中

是图像中N个对象结点的集合，

是图像中M个文本结点的集合，ε＝{e_ij}是两个独立结点之间的关系的集合。“异质”意味着我们明确地使用每个结点的角色信息来构建图。在构建的异质图中，每个结点可以连接k＝5个对象结点加k＝5个文本结点。我们可以根据不同的角色将边进一步划分为四个集合：ε^oo对应oo边，ε^ot对应ot边，ε^tt对应tt边，ε^to对应to边。这里我们展示ε^oo是如何构建：对于一个对象结点o_i，我们将剩余的对象结点按其到o_i的空间距离的顺序进行排序，并将其邻域

定义为排在前k位的对象结点。

我们根据两个结点之间的相对空间关系，建立它们之间的边的表示。这里以oo边的构建为例：假设一个结点o_i的中心坐标、宽度和高度表示为

另一个结点o_j的左上角坐标、右下角坐标、宽度和高度表示为

则结点o_i和结点o_j相对应的边定义为

2.2异质图注意力权重的生成

对于生成的异质图，将前面生成的分解的问题特征s^o，s^oo，s^ot，s^t，s^tt，s^to作为指导信号，采用注意力机制，对异质图进行推理。在推理的过程中，使用不同的问题特征更新异质图的不同部分。例如，与对象相关的问题特征s^o被用来指导对象结点的注意力权重的生成，与对象-文本关系的问题特征s^ot被用来指导对象-文本边的注意力权重的生成。因此，可以得到关于对象结点的注意力权重(p^o)，文本结点的注意力权重(p^t)，对象-对象的边的注意力权重(p^oo)，对象-文本的边的注意力权重(p^ot)，文本-文本的边的注意力权重(p^tt)，文本-对象的边的注意力权重(p^to)，注意力权重的计算公式如下：

p^m＝Att_m({x^obj}，{x^text}，{e_ij}，s^m) (3)

其中m＝{o，oo，ot，t，tt，to}，Att_m是一种注意力机制，使用问题特征和图中的特定结点或边来计算注意力权重，将会在后面介绍。x^obj和x^tex2分别代表从单独对象和文本区域中提取的特征。

(1)对象结点注意力权重的计算

对象结点由来自Faster R-CNN检测器生成的2048维外观特征

和4维相对边界框坐标

(即

)表示。在与对象相关的问题特征s^o的指导下，对象结点的注意力权重的计算如下：

其中LN(o)是正则化层；

和w_o是要学习的线性变换参数。最终通过将

输入到softmax层得到对象结点的注意力权重

(2)文本结点注意力权重的计算

对于文本结点，使用多个特征的结合丰富OCR的表示。使用预训练的FastText生成300维的FastText特征

Faster R-CNN检测器生成的2048维外观特征

604维的PHOC(Pyramidal Histogram of Characters)特征

RecogCNN生成的512维CNN特征

和4维相对边界框特征

表示。在与文本相关的问题特征s^t的指导下，文本结点的注意力权重的计算如下：

其中

和w_t是要学习的线性变换参数。最终通过将

输入到softmax层得到文本结点的注意力权重

(3)边注意力权重的计算

边的注意力权重的计算需要考虑两个结点的关系。因为不同类型的边的注意力权重p^oo，p^ot，p^tt，p^to的计算过程相似，所以下面只介绍p^oo的计算方法。

其计算方法分两步，首先，对于每一个结点o_i，通过所有连接到结点o_i的oo边计算其注意力权重

计算方法如下：

其中f^oo是一个MLP，用于编码初始化oo边特征(由关系特征e_ij和连接结点特征

拼接)；

和

分别将oo边相关的问题特征s^oo和边特征

映射到相同维度的向量中。注意力权重

通过softmax层在结点o_i的领域

上进行归一化。

在第二步中，通过所有对象结点计算oo边的注意力权重

计算方法如下：

其中

是在问题条件下结点o_i的oo边特征。因此，使用与上述相似的公式，通过单独的初始边特征，问题特征和变换参数可以得到注意力权重p^ot，p^tt，p^to的结果。

以图5问题(a)为例，将图像输入到模型之中通过构建异质图以及特征推理，对六类注意力权重p^o，p^oo，p^ot，p^t，p^tt，p^to选取每个种类中权重值最大的结果进行了可视化，可视化结果如六张图所示。其中黄色目标框是对对象结点的标注，蓝色目标框是对文本结点的标注，对象与文本之间的关系使用箭头来表示。p^o表示对输入图片中对象的关注程度，其受s^o的指导推理而生成，根据第一张图的可视化结果，p^o更关注于图像中的最右边的对象(摩托车)。p^t表示对输入图片中文本的关注程度，其受s^t的指导推理而生成，根据第二张图的可视化结果，p^t更关注于图像中的最右边的文本(数字317)。p^to表示对输入图片中文本的关注程度，其受s^to的指导推理而生成，根据第六张图的可视化结果，p^to更关注于图像中的最右边的由文本(数字317)到对象(摩托车)的关系。其他的问题特征也具有相似性，在此不做一一解释。

3、问题条件下对象和文本的异质图特征的计算

对于每个对象结点o_i，有其异质图注意力权重

对于每个文本结点t_i，有其异质图注意力权重

使用问题自我注意力权重(w^o，w^oo，w^ot，w^t，w^tt，w^to)和他们结合，对于每一个对象结点，最终的权重分数通过三部分的权重和计算：

每一个文本结点，最终d额权重为：

因为w^o+w^oo+w^ot＝1，

则

同理

权重

和

衡量了对象和文本结点与问题的相关性，因此用他们来生成问题条件下目标和文本的异质图特征，计算公式如下：

4、最终答案的生成

在全局局部注意力应答模型中，异质图特征g_obj和g_text不是直接和全局问题特征s^o，s^oo，s^ot，s^t，s^tt，s^to融合，而是通过和局部的OCR特征输入到transformer的应答模块进行更新。与对象相关的和与文本相关的问题特征拼接在一起：

g_obj，g_text一起输入到transformer层更新为

在这个过程中这些全局特征和局部OCR特征可以自由融合。

然后，将更新的特征

和他们各自的问题特征

融合在一起，如下所示：

在第一次迭代，预测答案概率

其中W_g是一个线性变换，f_pred是一个二分支评价函数，它解决了文本视觉问答任务中答案可能是动态文本在不同问题中发生变化的难题。答案空间是两部分的结合：一个包含5000个词的固定词典和从每个特定的图像中提取的动态OCR特征。两个分支计算各自的分数。一个分支是一个简单的线性层，把输入映射到5000维的分数向量，另一个分支计算输入和每一个更新的OCR特征的点积。然后两个分支的分数拼接在一起，选择最高的分数作为结果。

在第一次迭代中，将融合特征的拼接作为输入，而在剩下迭代步骤中，使用前一个更新的输出作为输入迭代解码：

其中g_dec是前一个输出g^dec作为输入的应答模块的输出。如果前一个输出来自OCR分支，则g^dec作为OCR特征在下一次迭代中输入到应答模块中，如果来自线性层分支，那么将通用词汇表的线性层权重替换为g^dec。此外，还将位置特征和类型特征添加到解码输入中，其中类型特征表示次输入是固定词汇还是OCR特征。考虑到最终的答案有两个来源，采用多标签sigmoid损失代替softmax。

以图5问题(a)为例，在该部分综合了由问题自我注意力模型提取的分解的问题特征和异质图注意力模型提取的问题条件下的对象和文本的特征，通过迭代预测出最有可能的答案317，和问题最终的正确答案相同。

在此给出模型的训练方法：

我们的模型使用PyTorch框架实现。训练过程使用了6个NVIDIA GeForce GTX1080Ti GPU，每个batch大小为128。对象和OCR的基于区域的外观特征是从fc6层提取的，fc6层紧跟在Faster R-CNN模型的Rol-Pooling层之后。模型在Visual Genome上进行预训练，然后在TextVQA上对fc7层进行微调。对象区域的最大数目是36。对于文本结点，我们运行一个独立的Rosetta OCR系统来识别单词字符串，它有两个版本：多语言(Rosetta-ml)和纯英语(Rosetta-en)。我们最多可以识别图像中的50个OCR标记，并基于它们生成丰富的OCR特征。如果以上任何一项低于最大值，我们将对其余部分应用零填充。我们将问题的最大长度设置为20，并通过预训练的BERT的前三层将其编码为768维的特征序列，其参数在训练过程中进一步微调。我们的应答模块使用4层transformer和12个注意力头。其他超参数与BERT-BASE相同。最大解码步数设置为12。

除了用于问题编码的三层BERT网络和用于区域特征编码fc7层(学习率为1e-5)，其他所有层的学习率都为1e-4。在14000和19000次迭代中，我们将学习率乘以0.1，优化器是Adam。在每1000次迭代中，我们计算验证集上的VQA精确度，根据所有这些度选择性能最佳的模型。为了捕捉文本识别中的错误，ST-VQA数据集采用Average NormalizedLevenshtein Similarity(ANLS)作为其官方评估度量。我们对ST-VQA数据集也应用此度量。我们所有的实验结果由相关在线平台生成。

模型应用：

在经过上面的训练过程后可以得到多个模型，选取其中最优的模型(损失函数值最小)用于应用。在模型的应用过程中，整个的网络模型的参数都固定不动，只要输入文本问题和图像数据并进行网络模型的正向推理即可。输入内容经过问题自我注意模块，异质图注意力模型，全局局部注意力应答模型，最终得到输入的文本问题的答案。

以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等，均在本发明的保护范围之内。

Claims

1.基于异质图神经网络的文本视觉问答实现方法，其特征在于，所述网络结构分为问题自我注意力模型、异质图注意力模型和全局-局部注意力应答模型三部分；

所述问题自我注意力模型基于BERT网络，获取文本问题的词向量特征，再通过六分类网络将问题特征分解为六个子组件，包括对象(object,o)，对象-对象关系(object-object,oo)，对象-文本关系(object-text,ot)，文本(text,t)，文本-文本关系(text-text,tt)，文本-对象关系(text-object,to)，并提取每个组件的分解的问题特征和自我注意力权重；

所述异质图注意力模型受图卷积网络的启发而设计，从输入图像中提取对象和文本相关信息并构建异质图，使用前一步得到的分解的问题特征采用注意力机制对异质图进行推理，得到结点和边的注意力权重和异质图问题特征；

所述全局-局部注意力应答模型使用transformer将分解的问题特征和异质图问题特征进行特征融合，在解码部分使用我们设计的二分支评价函数以迭代的方式生成同时兼顾OCR标记和一般文本标记的答案；

所述文本视觉问答实现方法包括以下主要步骤：

词向量

结合词向量

从而得到六个组件的分解的问题特征s^o，s^oo，s^ot，s^t，s^tt，s^to；此外，将词向量

直接通过全连接层和softmax层得到六个组件的自我注意权重w^o，w^oo，w^ot，w^t，w^tt，w^to；

(2)异质图注意力模型从图像中构建异质图

其中

是图像中N个对象结点的集合，

是图像中M个文本结点的集合，ε＝{e_ij}是两个独立结点之间的关系的集合；之后采用注意力机制，使用不同的问题特征更新异质图的不同部分；根据分解的问题特征s^o，s^oo，s^ot，s^t，s^tt，s^to得到六个组件的异质图注意力权重p^o，p^oo，p^ot，p^t，p^tt，p^to和从单独对象中提取的特征

从文本区域提取的特征

和文本的综合注意力权重

和

结合得到问题条件下对象和文本的异质图特征g_obj和g_text；

(4)全局-局部注意力应答模型采用迭代的方式，每次将问题的分解的问题特征s^o，s^oo，s^ot，s^t，s^tt，s^to，对象的异质图特征g_obj，文本的异质图特征g_text和OCR特征输入到transformer层进行特征融合，融合后的特征输入到二元分支评价函数预测答案；答案空间是两部分的结合：包含5000个词的固定词典和从每个特定的图像中提取的动态OCR特征；选择最高的分数作为结果；在第一次迭代中，将融合特征作为输入，而在剩下迭代步骤中，使用前一个更新的输出作为输入进行迭代解码。