CN110704668A

CN110704668A - 基于网格的协同注意力vqa方法和装置

Info

Publication number: CN110704668A
Application number: CN201910901463.8A
Authority: CN
Inventors: 付莹
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-17
Anticipated expiration: 2039-09-23
Also published as: CN110704668B

Abstract

本申请公开了一种基于网格的协同注意力VQA方法和装置，属于视觉问答领域。该方法包括：从数据集中获取图像并进行网格划分；将网格划分后的图像输入RCNN中，经卷积、池化及特征融合后得到特征图；从数据集中获取问题并映射到一个向量空间内得到词向量；根据特征图和词向量计算出相关矩阵，在计算出特征图的注意力分布和词向量的注意力分布；然后输入GRU计算得到新的词向量和对应的编码；采用MLP对新的词向量和对应的编码进行整合，得到问题对应的答案。该装置包括：划分模块、RCNN模块、映射模块、计算模块、GRU模块和MLP模块。本申请实现了图像和问题文本相互关注，提高了预测的准确率，提升了模型的性能。

Description

基于网格的协同注意力VQA方法和装置

技术领域

本申请涉及视觉问答领域，特别是涉及一种基于网格的协同注意力VQA方法和装置。

背景技术

VQA(Visual Question Answering，视觉问答)是一种涉及计算机视觉和自然语言处理两大领域的学习任务。一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。简单来说，VQA就是给定的图片进行问答。解决VQA问题的关键在于，如何高效地结合图片与问题以获取有帮助的信息，以及如何获取这些帮助信息。

常见的视觉问答模型比如mQA模型，由Gao H等人提出。mQA模型总共由4个子模块组成，第一个模块采用一个LSTM(Long Short-Term Memory，长短期记忆网络)网络将自然语句编码成一个稠密的词向量特征，用来抽取问题中所包含的信息；第二个模块采用一个深度CNN(Convolutional Neural Networks，卷积神经网络)抽取图片的特征；第三个模块是采用另一个LSTM网络对答案中当前词和之前的一些词的特征信息进行编码，作为答案语境；最后一个模块则是用来融合前面三个模块产生的信息，来预测当前阶段要产生在答案中的下一个词。

mQA模型的整体准确率并不高，对图片背景的常识性推理错误、问题聚焦的物体太小、需要高层次的逻辑推理等问题出现时，模型往往无法给出正确的预测。除了CNN的图像信息外，LSTM在学习过程中的知识来源只有训练集中的问答对，知识结构比较简单且信息量匮乏。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于网格的协同注意力VQA方法，包括：

从数据集中获取图像，并进行网格划分；

将所述网格划分后的图像输入RCNN区域卷积神经网络中，经卷积、池化及特征融合后得到特征图；

从所述数据集中获取问题，将所述问题映射到一个向量空间内得到词向量；

根据所述特征图和词向量计算出相关矩阵，根据所述特征图、词向量和相关矩阵，计算出所述特征图的注意力分布和所述词向量的注意力分布；

将所述特征图的注意力分布和所述词向量的注意力分布输入GRU门控循环单元，计算得到新的词向量和对应的编码；

采用MLP多层感知机对所述新的词向量和对应的编码进行整合，得到所述问题对应的答案。

可选地，将所述网格划分后的图像输入RCNN区域卷积神经网络中，经卷积、池化及特征融合后得到特征图，包括：

将所述网格划分后的图像输入RCNN中，先经多个卷积核计算，然后对所述多个卷积核计算的结果分别进行池化，得到对应的多个特征矩阵，再经全连接层对所述多个特征矩阵进行融合及归一化指数函数运算后，得到特征图，所述特征图对应一个特征矩阵，包括多个特征点，且每个特征点都分配有权重。

可选地，根据所述特征图和词向量计算出相关矩阵，包括：

采用如下公式计算出相关矩阵：C＝tanh(Q^TW_bV)；

其中，C为所述相关矩阵，V为所述特征图，Q为所述词向量，W_b为所述特征图和词向量的相关性系数。

可选地，根据所述特征图、词向量和相关矩阵，计算出所述特征图的注意力分布和所述词向量的注意力分布，包括：

按照如下公式计算出所述特征图的注意力分布和所述词向量的注意力分布：

H^υ＝tanh(W_υV+(W_qQ)C)，H^q＝tanh(W_qQ+(W_υV)C^T)；

其中，V为所述特征图，Q为所述词向量，H^v是所述特征图的注意力分布，H^q是所述词向量的注意力分布，W_v是所述特征图内特征点的权重，W_q是所述词向量的权重，C为所述所述特征图和词向量的相关矩阵。

可选地，采用MLP多层感知机对所述新的词向量和对应的编码进行整合，得到所述问题对应的答案，包括：

将所述新的词向量和对应的编码输入所述MLP中，通过激活函数tanh运算后送到softmax做分类，生成所述问题对应的答案。

根据本申请的另一个方面，提供了一种基于网格的协同注意力VQA装置，包括：

划分模块，其配置成从数据集中获取图像，并进行网格划分；

RCNN模块，其配置成将所述网格划分后的图像输入RCNN区域卷积神经网络中，经卷积、池化及特征融合后得到特征图；

映射模块，其配置成从所述数据集中获取问题，将所述问题映射到一个向量空间内得到词向量；

计算模块，其配置成根据所述特征图和词向量计算出相关矩阵，根据所述特征图、词向量和相关矩阵，计算出所述特征图的注意力分布和所述词向量的注意力分布；

GRU模块，其配置成将所述特征图的注意力分布和所述词向量的注意力分布输入GRU门控循环单元，计算得到新的词向量和对应的编码；

MLP模块，其配置成采用MLP多层感知机对所述新的词向量和对应的编码进行整合，得到所述问题对应的答案。

可选地，所述RCNN模块具体配置成：

可选地，所述计算模块具体配置成：

采用如下公式计算出相关矩阵：C＝tanh(Q^TW_bV)；

可选地，所述计算模块具体配置成：

H^υ＝tanh(W_υV+(W_qQ)C)，H^q＝tanh(W_qQ+(W_υV)C^T)；

可选地，所述MLP模块具体配置成：

根据本申请的又一个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述的方法。

本申请提供的技术方案，通过从数据集中获取图像，并进行网格划分，将网格划分后的图像输入RCNN中，经卷积、池化及特征融合后得到特征图，从数据集中获取问题，将问题映射到一个向量空间内得到词向量，根据特征图和词向量计算出相关矩阵，根据特征图、词向量和相关矩阵，计算出特征图的注意力分布和词向量的注意力分布，将特征图的注意力分布和词向量的注意力分布输入GRU，计算得到新的词向量和对应的编码，采用MLP对新的词向量和对应的编码进行整合，得到问题对应的答案，从而把注意力机制和特征融合方式做结合，分别给图像和问题生成注意力分布的方式，实现了图像和问题文本相互关注，提高了预测的准确率，提升了模型的性能。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的基于网格的协同注意力VQA方法流程图；

图2是根据本申请另一个实施例的基于网格的协同注意力VQA方法流程图；

图3是根据本申请另一个实施例的基于网格的协同注意力VQA装置结构图；

图4是根据本申请另一个实施例的计算设备结构图；

图5是根据本申请另一个实施例的计算机可读存储介质结构图。

具体实施方式

图1是根据本申请一个实施例的基于网格的协同注意力VQA方法流程图。

参见图1，该方法包括：

101：从数据集中获取图像，并进行网格划分；

102：将网格划分后的图像输入RCNN(Region Convolutional Neural Networks，区域卷积神经网络)中，经卷积、池化及特征融合后得到特征图；

103：从数据集中获取问题，将问题映射到一个向量空间内得到词向量；

104：根据特征图和词向量计算出相关矩阵，根据特征图、词向量和相关矩阵，计算出特征图的注意力分布和词向量的注意力分布；

105：将特征图的注意力分布和词向量的注意力分布输入GRU(Gated RecurrentUnit，门控循环单元)，计算得到新的词向量和对应的编码；

106：采用MLP多层感知机对新的词向量和对应的编码进行整合，得到问题对应的答案。

本实施例中，可选的，将网格划分后的图像输入RCNN区域卷积神经网络中，经卷积、池化及特征融合后得到特征图，包括：

将网格划分后的图像输入RCNN中，先经多个卷积核计算，然后对多个卷积核计算的结果分别进行池化，得到对应的多个特征矩阵，再经全连接层对多个特征矩阵进行融合及归一化指数函数运算后，得到特征图，特征图对应一个特征矩阵，包括多个特征点，且每个特征点都分配有权重。

本实施例中，可选的，根据特征图和词向量计算出相关矩阵，包括：

采用如下公式计算出相关矩阵：C＝tanh(Q^TW_bV)；

其中，C为相关矩阵，V为特征图，Q为词向量，W_b为特征图和词向量的相关性系数。

本实施例中，可选的，根据特征图、词向量和相关矩阵，计算出特征图的注意力分布和词向量的注意力分布，包括：

按照如下公式计算出特征图的注意力分布和词向量的注意力分布：

H^υ＝tanh(W_υV+(W_qQ)C)，H^q＝tanh(W_qQ+(W_υV)C^T)；

其中，V为特征图，Q为词向量，H^v是特征图的注意力分布，H^q是词向量的注意力分布，W_v是特征图内特征点的权重，W_q是词向量的权重，C为特征图和词向量的相关矩阵。

本实施例中，可选的，采用MLP多层感知机对新的词向量和对应的编码进行整合，得到问题对应的答案，包括：

将新的词向量和对应的编码输入MLP中，通过激活函数tanh运算后送到softmax做分类，生成问题对应的答案。

本实施例提供的上述方法，通过从数据集中获取图像，并进行网格划分，将网格划分后的图像输入RCNN中，经卷积、池化及特征融合后得到特征图，从数据集中获取问题，将问题映射到一个向量空间内得到词向量，根据特征图和词向量计算出相关矩阵，根据特征图、词向量和相关矩阵，计算出特征图的注意力分布和词向量的注意力分布，将特征图的注意力分布和词向量的注意力分布输入GRU，计算得到新的词向量和对应的编码，采用MLP对新的词向量和对应的编码进行整合，得到问题对应的答案，从而把注意力机制和特征融合方式做结合，分别给图像和问题生成注意力分布的方式，实现了图像和问题文本相互关注，提高了预测的准确率，提升了模型的性能。

图2是根据本申请另一个实施例的基于网格的协同注意力VQA方法流程图。参见图2，该方法包括：

201：从数据集中获取图像，并进行网格划分；

本实施例中，可选的，采用的实验数据集为COCO，全称是Common Objects inCOntext，是微软团队提供的一个可以用来进行图像识别的数据集。COCO数据集中的图像分为训练、验证和测试集，另外，COCO数据集还包括78,736个用于训练的问题-答案对和38,948个用于测试的问题-答案对。COCO通过在Flickr上搜索80个对象类别和各种场景类型来收集图像，其通过大量使用亚马逊的AMT(Amazon Mechanical Turk)来收集数据。COCO数据集现在有3种标注类型：object instances(目标实例)，object keypoints(目标上的关键点)，和image captions(看图说话)，并且使用JSON文件进行存储。其中，这3种标注是用来训练网络的。

202：将网格划分后的图像输入RCNN中，先经多个卷积核计算，然后对多个卷积核计算的结果分别进行池化，得到对应的多个特征矩阵，再经全连接层对多个特征矩阵进行融合及归一化指数函数运算后，得到特征图(image feature map)，特征图对应一个特征矩阵，包括多个特征点，且每个特征点都分配有权重；

本实施例中，可选的，采用预训练好的ResNet-152模型(层数为152的深度残差网络)进行特征提取。该ResNet-152模型从上到下有4个不同尺度的卷积核，将网格划分后的图像输入ResNet-152模型后，4个卷积核分别得到各自的计算结果，输出尺寸分别为256×112×112，512×56×56，1024×28×28和2048×14×14，然后再进行不同的max pooling尺寸进行池化，得到尺寸统一的4个特征矩阵T，其中T＝14×14。再将这4个特征矩阵T采用全连接层进行融合，得到加权的权重。其中，该全连接层为一个两层的全连接层，隐层节点724个，激活函数为Relu，输出节点为4个，对输出节点[s1,s2,s3,s4]进行softmax归一化指数函数运算，得到为特征点加权的权重。

203：从数据集中获取问题，将问题映射到一个向量空间内得到词向量；

本实施例中，具体的，可以使用one-hot编码实现将问题映射到一个向量空间内，得到词向量。

204：采用如下公式(1)计算出特征图和词向量的相关矩阵；

C＝tanh(Q^TW_bV) (1)

205：按照如下公式(2)计算出特征图的注意力分布和词向量的注意力分布：

H^υ＝tanh(W_υV+(W_qQ)C)，H^q＝tanh(W_qQ+(W_υV)C^T) (2)；

其中，V为特征图，Q为词向量，H^v是特征图的注意力分布，H^q是词向量的注意力分布，W_v是特征图内特征点的权重，W_q是词向量的权重，C为特征图和词向量的相关矩阵。W_q初始时的值是随机的，后续过程中可以在GRU的反向传播过程中进行更新。

本实施例中，特征图的注意力分布基于词向量Q，集中注意于图像，词向量的注意力分布基于特征图V，集中注意力于问题。通过上述公式能够预测出特征图的注意力分布image attention和词向量的注意力分布question attention，即预测出组成问题的单词和图像相关区域之间的相关性，构成协同注意力Co-Attention，使得图像和问题联系起来。

206：将特征图的注意力分布和词向量的注意力分布输入GRU，计算得到新的词向量和对应的编码；

本实施例中，采用GRU实现对图像序列和问题序列进行融合。具体的，可以采用多个GRU来参与运算，当前GRU的计算结果会传递到下个GRU，依次传递下去。其中，GRU的个数是根据问题的长度决定的，当检测到“？”时，就停止加入新的GRU。

207：将新的词向量和对应的编码输入MLP(Multi-LayerPerception，多层感知机)中，通过激活函数tanh运算后送到softmax做分类，生成问题对应的答案。

图3是根据本申请另一个实施例的基于网格的协同注意力VQA装置结构图。参见图3，该装置包括：

划分模块301，其配置成从数据集中获取图像，并进行网格划分；

RCNN模块302，其配置成将网格划分后的图像输入RCNN区域卷积神经网络中，经卷积、池化及特征融合后得到特征图；

映射模块303，其配置成从数据集中获取问题，将问题映射到一个向量空间内得到词向量；

计算模块304，其配置成根据特征图和词向量计算出相关矩阵，根据特征图、词向量和相关矩阵，计算出特征图的注意力分布和词向量的注意力分布；

GRU模块305，其配置成将特征图的注意力分布和词向量的注意力分布输入GRU门控循环单元，计算得到新的词向量和对应的编码；

MLP模块306，其配置成采用MLP多层感知机对新的词向量和对应的编码进行整合，得到问题对应的答案。

本实施例中，可选的，RCNN模块具体配置成：

本实施例中，可选的，计算模块具体配置成：

采用如下公式计算出相关矩阵：C＝tanh(Q^TW_bV)；

本实施例中，可选的，计算模块具体配置成：

H^υ＝tanh(W_υV+(W_qQ)C)，H^q＝tanh(W_qQ+(W_υV)C^T)；

本实施例中，可选的，MLP模块具体配置成：

本实施例提供的上述装置，可以执行上述任一方法实施例提供的方法，详细过程详见方法实施例中的描述，此处不赘述。

本实施例提供的上述装置，通过从数据集中获取图像，并进行网格划分，将网格划分后的图像输入RCNN中，经卷积、池化及特征融合后得到特征图，从数据集中获取问题，将问题映射到一个向量空间内得到词向量，根据特征图和词向量计算出相关矩阵，根据特征图、词向量和相关矩阵，计算出特征图的注意力分布和词向量的注意力分布，将特征图的注意力分布和词向量的注意力分布输入GRU，计算得到新的词向量和对应的编码，采用MLP对新的词向量和对应的编码进行整合，得到问题对应的答案，从而把注意力机制和特征融合方式做结合，分别给图像和问题生成注意力分布的方式，实现了图像和问题文本相互关注，提高了预测的准确率，提升了模型的性能。

本申请实施例还提供了一种计算设备，参照图4，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图5，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于网格的协同注意力VQA方法，包括：

从数据集中获取图像，并进行网格划分；

2.根据权利要求1所述的方法，其特征在于，将所述网格划分后的图像输入RCNN区域卷积神经网络中，经卷积、池化及特征融合后得到特征图，包括：

3.根据权利要求1所述的方法，其特征在于，根据所述特征图和词向量计算出相关矩阵，包括：

采用如下公式计算出相关矩阵：C＝tanh(Q^TW_bV)；

4.根据权利要求1所述的方法，其特征在于，根据所述特征图、词向量和相关矩阵，计算出所述特征图的注意力分布和所述词向量的注意力分布，包括：

H^v＝tanh(W_υ，V+(W_qQ)C)，H^q＝tanh(W_qQ+(W_υV)C^T)；

其中，V为所述特征图，Q为所述词向量，Hv是所述特征图的注意力分布，Hq是所述词向量的注意力分布，W_v是所述特征图内特征点的权重，W_q是所述词向量的权重，C为所述所述特征图和词向量的相关矩阵。

5.根据权利要求1-4中任一项所述的方法，其特征在于，采用MLP多层感知机对所述新的词向量和对应的编码进行整合，得到所述问题对应的答案，包括：

6.一种基于网格的协同注意力VQA装置，包括：

7.根据权利要求6所述的装置，其特征在于，所述RCNN模块具体配置成：

8.根据权利要求6所述的装置，其特征在于，所述计算模块具体配置成：

采用如下公式计算出相关矩阵：C＝tanh(Q^TW_bV)；

9.根据权利要求6所述的装置，其特征在于，所述计算模块具体配置成：

H^υ＝tanh(W_υV+(W_qQ)C)，H^q＝tanh(W_qQ+(W_υV)C^T)；

其中，V为所述特征图，Q为所述词向量，H^v是所述特征图的注意力分布，Hq是所述词向量的注意力分布，W_v是所述特征图内特征点的权重，W_q是所述词向量的权重，C为所述所述特征图和词向量的相关矩阵。

10.根据权利要求6-9中任一项所述的装置，其特征在于，所述MLP模块具体配置成：