CN115588193A

CN115588193A - 基于图注意力神经网络与视觉关系的视觉问答方法及装置

Info

Publication number: CN115588193A
Application number: CN202211168123.7A
Authority: CN
Inventors: 金连超
Original assignee: Boc Financial Technology Suzhou Co ltd
Current assignee: Boc Financial Technology Suzhou Co ltd
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-01-10

Abstract

本发明提供一种基于图注意力神经网络与视觉关系的视觉问答方法及装置，该方法包括：将目标图像输入至视觉问答模型中的特征提取层，得到所述目标图像的图像特征，并将目标问题文本输入至所述特征提取层，得到所述目标问题文本的文本特征；将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层，得到语义关系特征；将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层，得到视觉关系特征；将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层，得到所述目标问题文本对应的答案。本发明实现基于目标图像和目标问题文本，精准推理出目标问题文本对应的答案。

Description

基于图注意力神经网络与视觉关系的视觉问答方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于图注意力神经网络与视觉关系的视觉问答方法及装置。

背景技术

随着近些年深度学习的快速发展，多种多样的问题和研究方向层出不穷；在深度学习领域大体可以分为两个主要研究方向：计算机视觉(Computer Vision，CV)和自然语言处理(Natural Language Processing，NLP)，在这两个领域中，图像标注和文本问答各自代表着其中的一类研究方向，图像标注为深度学习模型通过对大量标注图像的学习对未知的新图像给予标注的任务，而文本问答则是模型对一条或一段等的自然语句给与特定问题进行回答的任务。视觉问答模型(Visual Question Answering，VQA)正是近些年随着计算机视觉和自然语言处理兴起而产生的新的交叉领域，该模型不仅要处理图片信息，而且要对给定的关于图片的问题给予给与一种合理的回答。

现有方法大多依赖于注意力机制来寻找图像中的关键信息，或者从图像中抽取一些实体或属性等图像信息，作为语义知识的补充。但是这些图像信息与问题文本之间的关联性较小，无法完整表征视觉问答特征，导致基于这些图像信息获取的视觉问答结果不准确。

发明内容

本发明提供一种基于图注意力神经网络与视觉关系的视觉问答方法及装置，用以解决现有技术中依赖于注意力机制来寻找图像中的关键信息，或者从图像中抽取一些实体或属性等图像信息，作为语义知识的补充，无法完整表征视觉问答特征，导致视觉问答结果不准确的缺陷，实现提供视觉问答结果的准确性。

本发明提供一种基于图注意力神经网络与视觉关系的视觉问答方法，包括：

将目标图像输入至视觉问答模型中的特征提取层，得到所述目标图像的图像特征，并将目标问题文本输入至所述特征提取层，得到所述目标问题文本的文本特征；

将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层，得到语义关系特征；

将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层，得到视觉关系特征；

将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层，得到所述目标问题文本对应的答案；

其中，所述视觉问答模型是基于样本图像、样本问题文本以及所述样本问题文本对应的答案进行训练得到的。

根据本发明提供的一种基于图注意力神经网络与视觉关系的视觉问答方法，所述将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层，得到语义关系特征，包括：

将所述图像特征中的每一区域特征与所述文本特征进行拼接，得到所述每一区域特征对应的拼接结果；

将所述每一区域特征对应的拼接结果作为所述图注意力神经网络层的第一节点；

基于所述图注意力神经网络层，对多个所述第一节点之间的实体关系进行抽取，得到实体关系特征，并将所述实体关系特征与所述文本特征进行特征融合，得到所述语义关系特征。

根据本发明提供的一种基于图注意力神经网络与视觉关系的视觉问答方法，所述将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层，得到视觉关系特征，包括：

将所述语义关系特征输入至所述视觉关系网络层；

基于所述视觉关系网络层，抽取所述语义关系特征对应的多个候选关系特征，将每一候选关系特征与所述语义关系特征进行融合，得到所述每一候选关系特征对应的第一融合特征，根据所述每一候选关系特征对应的第一融合特征，获取所述视觉关系特征。

根据本发明提供的一种基于图注意力神经网络与视觉关系的视觉问答方法，所述根据所述每一候选关系特征对应的第一融合特征，获取所述视觉关系特征，包括：

将所述每一候选关系特征对应的第一融合特征与所述每一候选关系特征进行融合；

根据融合结果，获取所述视觉关系特征。

将所述每一候选关系特征对应的第一融合特征作为所述视觉关系网络层中图注意力神经网络层的第二节点；

基于所述视觉关系网络层中的图注意力神经网络层，对多个所述第二节点之间的实体关系进行抽取，得到所述视觉关系特征。

根据本发明提供的一种基于图注意力神经网络与视觉关系的视觉问答方法，所述答案预测层包括注意力网络层和预测层；

所述将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层，得到所述目标问题文本对应的答案，包括：

根据所述语义关系特征，获取第一输入信息，根据所述视觉关系特征，获取第二输入信息；

将所述第一输入信息和所述第二输入信息输入至所述注意力网络层，得到第二融合特征；所述注意力网络层用于基于所述第一输入信息和所述第二输入信息，对所述语义关系特征和所述视觉关系特征进行多模态融合，输出所述第二融合特征；

将所述第二融合特征输入至所述预测层，得到所述目标问题文本对应的答案。

根据本发明提供的一种基于图注意力神经网络与视觉关系的视觉问答方法，所述将所述第一输入信息和所述第二输入信息输入至所述注意力网络层，得到第二融合特征，包括：

将所述第一输入信息分别输入至所述注意力网络层的第一输入端口和第二输入端口，将所述第二输入信息输入至所述注意力网络层的第三输入端口，得到所述第二融合特征。

将所述第二输入信息分别输入至所述注意力网络层的第一输入端口和第二输入端口，将所述第一输入信息输入至所述注意力网络层的第三输入端口，得到所述第二融合特征。

根据本发明提供的一种基于图注意力神经网络与视觉关系的视觉问答方法，所述注意力网络层包括第一分支注意力网络层和第二分支注意力网络层；

所述将所述第一输入信息和所述第二输入信息输入至所述注意力网络层，得到第二融合特征，包括：

将所述第一输入信息输入至所述第一分支注意力网络层的第一输入端口和第二输入端口，将所述第二输入信息输入至所述第一分支注意力网络层的第三输入端口，得到第三融合特征；

将所述第二输入信息输入至所述第二分支注意力网络层的第一输入端口和第二输入端口，将所述第一输入信息输入至所述第二分支注意力网络层的第三输入端口，得到第四融合特征；

根据所述第三融合特征和所述第四融合特征，获取所述第二融合特征。

根据本发明提供的一种基于图注意力神经网络与视觉关系的视觉问答方法，所述特征提取层包括残差网络层和循环网络层；

所述将目标图像输入至视觉问答模型中的特征提取层，得到所述目标图像的图像特征，并将目标问题文本输入至所述特征提取层，得到所述目标问题文本的文本特征，包括：

将所述目标图像输入至所述残差网络层，基于所述残差网络层对所述目标图像进行区域特征提取，得到所述图像特征；

将所述目标问题文本输入至所述循环网络层，基于所述循环网络层对所述目标问题文本进行语义特征提取，得到所述文本特征。

本发明还提供一种基于图注意力神经网络与视觉关系的视觉问答装置，包括：

第一特征提取模块，用于将目标图像输入至视觉问答模型中的特征提取层，得到所述目标图像的图像特征，并将目标问题文本输入至所述特征提取层，得到所述目标问题文本的文本特征；

第二特征提取模块，用于将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层，得到语义关系特征；

第三特征提取模块，用于将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层，得到视觉关系特征；

答案预测模块，用于将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层，得到所述目标问题文本对应的答案；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于图注意力神经网络与视觉关系的视觉问答方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于图注意力神经网络与视觉关系的视觉问答方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于图注意力神经网络与视觉关系的视觉问答方法。

本发明提供的基于图注意力神经网络与视觉关系的视觉问答方法及装置，通过采用特征提取层，提取出目标图像的图像特征和目标问题文本的文本特征，采用图注意力神经网络层，深入挖掘图像特征和文本特征之间的交互关系，得到语义关系特征，采用视觉关系网络层对语义关系特征进行视觉关系抽取，以将获取的视觉关系特征作为外部先验知识对视觉问答特征进行补充，进而使得视觉关系模型不仅可以获取丰富的视觉问答特征，且获取的视觉问答特征不仅具有图像与问题文本之间的语义关系特征，还具备先验知识，基于这些视觉问答特征可精准推理出目标问题文本对应的答案。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于图注意力神经网络与视觉关系的视觉问答方法的流程示意图；

图2是本发明提供的基于图注意力神经网络与视觉关系的视觉问答方法中视觉问答模型的结构示意图；

图3是本发明提供的基于图注意力神经网络与视觉关系的视觉问答方法中视觉关系网络层的分类器的结构示意图；

图4是本发明提供的基于图注意力神经网络与视觉关系的视觉问答方法中注意力网络层的结构示意图之一；

图5是本发明提供的基于图注意力神经网络与视觉关系的视觉问答方法中注意力网络层的结构示意图之二；

图6是本发明提供的基于图注意力神经网络与视觉关系的视觉问答方法中注意力网络层的结构示意图之三；

图7是本发明提供的基于图注意力神经网络与视觉关系的视觉问答装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，该方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本发明不作具体限定。

下面结合图1-图6描述本发明的基于图注意力神经网络与视觉关系的视觉问答方法。

如图1所示，为本实施例提供的基于图注意力神经网络与视觉关系的视觉问答方法的流程示意图，具体包括如下步骤：

步骤101，将目标图像输入至视觉问答模型中的特征提取层，得到所述目标图像的图像特征，并将目标问题文本输入至所述特征提取层，得到所述目标问题文本的文本特征；

其中，目标图像为需要进行视觉问答的图像，可以是各种类型的图像，如动物图像、植物图像和车辆图像、道路图像等，本实施对此不做具体地限定。

目标问题文本为针对目标图像进行提问的文本。

视觉问答模型(Visual Question Answering，VQA)是计算机视觉和自然语言处理兴起而产生的新的交叉领域，该模型不仅要处理图片信息，而且要对给定的关于图片的问题给与一种合理的回答。例如，图像中用户佩戴有特殊物品(如香蕉)组成的胡子；问题文本为“胡子是由什么组成的”，相应地，视觉问答模型需要输出相应的答案，该答案为“香蕉”。

视觉问答模型至少基于特征提取层、图注意力神经网络层、视觉关系网络层以及答案预测层构建生成；其中，特征提取层用于进行图像特征和文本特征提取，图注意力神经网络层用于进行语义关系特征抽取，视觉关系网络层用于进行视觉关系特征抽取，答案预测层用于在目标图像中获取目标问题文本对应的答案。

可选地，在执行步骤101之前，需要先对视觉问答模型进行训练，具体训练步骤包括：

首先，获取训练数据集；其中，样本图像、样本问题文本以及样本问题文本对应的答案构建生成。训练数据集中样本的数量可以根据实际需求进行设置。

然后，采用训练数据集对视觉问答模型进行优化训练，以使训练好的视觉问答模型可以根据目标图像和目标问题文本，精准地输出目标问题文本对应的答案，进而实现精准视觉问答，提高用户的体验感。其中，训练方式可以根据实际需求进行设置，如梯度下降法及其衍生优化算法和遗传算法等。

其中，特征提取层可以基于一个整体的特征提取网络既可用于对图像特征提取还可用于文本特征提取；或者基于两个分支特征提取网络中的一个分支特征提取网络进行图像特征提取，基于另一个分支特征提取网络进行文本特征提取，本实施例对此不做具体地限定。需要说明的是，在特征提取层包含两个分支特征提取网络的情况下，两个分支特征提取网络的结构可以相同也可以不同，如均是基于卷积网络、残差网络、循环网络等构建生成，或其中一个是基于残差网络构建生成的，另一个是基于循环网络构建生成的，本实施例对此不做具体地限定。

如图2所示，在获取到目标图像和目标问题文本之后，可以将目标图像输入特征提取层，由特征提取层对目标图像进行图像特征提取，以获取图像特征；同时，将目标问题文本输入特征提取层，由特征提取层对目标图像进行文本特征提取，以获取文本特征。

步骤102，将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层，得到语义关系特征；

其中，图注意力神经网络层可以是基于一层或多层多头注意力网络构建生成的，具体结构可以根据实际需求进行设置。

如图2所示，在获取到图像特征和文本特征之后，为了学习图像特征与文本特征之间的语义关系，可根据图像特征和文本特征获取图注意力神经网络层的输入信息，由图注意力神经网络层根据输入信息进行语义关系特征的挖掘，以得到语义关系特征。

步骤103将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层，得到视觉关系特征；

其中，视觉关系网络层以三元组作为视觉问答模型对先验知识缺失的补充，进而使得视觉问答模型在特定问题场景下需要常识才能回答问题的情况下，可从问题和图像融合的融合特征(即语义关系特征)中抽取出视觉关系特征，作为先验语义知识补充到视觉问答模型中，进而获取更加丰富的用于进行视觉问答的特征，以提高视觉问答结果的精准性。

其中，视觉关系网络层可以基于全连接层和融合层构建生成，其中，融合层可以是基于MLB(Multimodal Low-rank Bilinear Pooling，多模态因子分解双线性池化)模型构建生成或基于图注意力神经网络模型构建生成，本实施例对此不做具体地限定。

如图2所示，在获取到语义关系特征之后，可将语义关系特征输入至视觉问答模型中的视觉关系网络层，从中提取多个候选关系特征，并在获取到多个候选关系特征之后，将多个候选关系特征与语义关系特征进行融合，得到视觉关系特征。

其中，融合方式可以是采用MLB模型进行融合或基于图注意力神经网络模型进行融合等，本实施例对此不做具体地限定。

步骤104，将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层，得到所述目标问题文本对应的答案；

可选地，在获取到语义关系特征和视觉关系特征之后，可以将语义关系特征和视觉关系特征输入答案预测层，由答案预测层直接根据语义关系特征和视觉关系特征输出目标问题文本对应的答案；或者由答案预测层对语义关系特征和视觉关系特征进行一种或多种融合处理后，根据融合处理结果输出目标问题文本对应的答案，本实施例对此不做具体地限定。

本实施例提供的基于图注意力神经网络与视觉关系的视觉问答方法，采用特征提取层，提取出目标图像的图像特征和目标问题文本的文本特征，采用图注意力神经网络层，深入挖掘图像特征和文本特征之间的交互关系，得到语义关系特征，采用视觉关系网络层对语义关系特征进行视觉关系抽取，以将获取的视觉关系特征作为外部先验知识对视觉问答特征进行补充，进而使得视觉关系模型不仅可以获取丰富的视觉问答特征，且获取的视觉问答特征不仅具有图像与问题文本之间的语义关系特征，还具备先验知识，基于这些视觉问答特征可精准推理出目标问题文本对应的答案。

在一些实施例中，步骤102中所述将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层，得到语义关系特征，包括：

其中，图像特征中包含多个区域特征，如14×14个区域特征。

图注意力神经网络层中可以包含两层图注意力神经网络、一层池化层和特征融合层，用于进行语义关系特征提取。

可选地，在获取到图像特征的情况下，可将图像特征中的每一区域特征与文本特征进行拼接，具体计算公式如下：

v'_i＝W₁(v_i||q)；

其中，v_i为第i个区域特征，q为文本特征，||为拼接操作，W₁为参数矩阵，v'_i∈R¹⁴ ^×14×2048为第i个区域特征对应的拼接结果。

在获取到每一区域特征对应的拼接结果之后，将拼接后图像特征输入到图注意力神经网络层中。其中，将每个区域特征对应的拼接结果作为图注意力神经网络层中的一个节点。如共有14×14个区域特征，对应在图注意力神经网络层中共有14×14个节点。每个节点的特征尺度为可以为2048，经过图注意力神经网络层中的两层图注意力神经网络运算后可从图像特征中抽取出与目标问题文本相适应的特征向量，该特征向量的尺度仍为14×14×2048。其中，在第一层GAT(Graph Attention Network，图注意力神经网络)中维度变换矩阵的尺寸为2048×4096，第二层GAT中维度变换矩阵的尺寸为4096×2048，所以经过两层维度变换后，提取的特征向量维度相较于特征变换之前没有发生变化，但是增加了非线性因素，提高了学习能力。在经过两层GAT特征提取后，可对该特征向量做池化操作后即得到实体关系特征P，具体计算公式如下：

其中，

为经过两层GAT特征提取后得到的特征向量；AvgPooling(·)为平均池化操作；p为实体关系特征。

经过两层图注意力神经网络特征提取以及池化操作，提取到实体关系特征p后，再将实体关系特征p与文本特征q进行融合后得到最终的语义关系特征J，具体计算公式如下：

J＝f_θ(p,q)；

其中，f为特征融合层的特征融合模型，θ为特征融合层的模型参数。其中，特征融合模型可使用非线性融合方式对实体关系特征p与文本特征q进行融合，具体公式为：

J＝W₂p⊙q；

其中，⊙为点积操作，W₂为参数矩阵。

本实施例中基于首先将目标图像中的每一区域特征与文本特征进行拼接融合后作为图注意力神经网络层中的节点，进行语义关系特征的挖掘，以得到图注意力神经网络输出的与问题适应的图像特征向量之后，再与文本特征拼接后，得到问题文本和图像相融合的融合特征，以挖掘出与问题适应的图像中不同区域间的语义关系，获取的语义关系特征不仅具备图像特征还具体问题文本特征，进而使得基于语义关系特征获取的视觉问答结果更加精准。

在一些实施例中，步骤103中所述将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层，得到视觉关系特征，包括：

将所述语义关系特征输入至所述视觉关系网络层；

可选地，将语义关系特征输入至视觉关系网络层，由视觉关系网络层的实体分类器、关系分类器以及对象分类器，分别从语义关系特征中抽取出多个主体、关系和客体，并从多个主体、关系和客户的排列组合中选择概率均值最大的规则选取候选关系特征。其中，三个分类器都分别使用三层全连接神经网络Dense作为分类模型，具体结构如图3所示，语义关系特征J输入到第一层和第二层神经网络中时使用批标准化BN作为优化策略，用来使模型更容易学习到特征数据中的规律，同时使用Relu作为激活函数防止模型出现梯度爆炸和梯度消失现象，输出层使用softmax激活函数对结果进行分类，准确率最高的即为预测的主体、关系或者客体。

例如，拟定候选关系特征的个数为10，即对概率最大的前3个主体、客体和关系做排列组合，组合结果即为3×3×3＝27种关系特征，再从中选择概率均值最大的前10个组合作为候选关系特征。

对于选择的10个候选关系特征，需要将这些关系特征作为模型补充的语义知识。其中，候选关系特征可表示为M＝[t1,t2,……t10]，每种候选关系特征由主体、关系和客体所组成，即ti＝(si,li,oi)。

可选地，在将每一候选关系特征与语义关系特征进行融合的过程中，先对将主体、客体和关系的特征信息嵌入到语义空间中得到嵌入向量s_i、l_i以及o_i，然后根据嵌入向量s_i、l_i以及o_i得到嵌入特征r_i。其中，获取嵌入特征的方法可以是直接使用平均词向量法得到嵌入特征；或者将对应的词向量进行拼接后输入到浅层神经网络中得到嵌入特征等，本实施例对此不作具体地限定。

其中，将对应的词向量进行拼接后输入到浅层神经网络中得到嵌入特征r_i的计算公式为：

r_i＝s_i+l_i+o_i；

根据嵌入特征，获取候选关系特征。其中候选关系特征可表示为R_k∈[r₁,r₂,r₃,......r₁₀]。

然后，对于多个候选关系特征，可将每一候选关系特征与语义关系特征进行融合，得到每一候选关系特征对应的第一融合特征；并根据多个候选关系特征对应的第一融合特征进行再次融合，得到视觉关系特征。其中，再次融合的方式，可以是基于MLB模型对多种候选关系特征对应的第一融合特征加权求和进而获得视觉关系特征R；也可是采用图注意力神经网络模型进行融合，获得视觉关系特征R等，本实施例对此不做具体地限定。

本实施例中基于视觉关系网络层，使用经过文本筛选处理过的关系数据库以及语义关系特征进行端到端学习，以对语义关系特征进行关系特征抽取以及特征融合，抽取出与问题和图像相适应的视觉关系特征，以基于视觉关系特征获取更加精准的视觉问答结果。

在一些实施例中，步骤103中所述根据所述每一候选关系特征对应的第一融合特征，获取所述视觉关系特征，包括：

根据融合结果，获取所述视觉关系特征。

可选地，可采用注意力机制，对候选关系特征和语义关系特征进行融合，得到视觉关系特征，具体步骤如下：

首先，将候选关系特征R_k与语义关系特征J进行融合，然后使用softmax函数计算R_k的权重参数c_k；在获取到权重参数c_k后，再与R_k进行加权求和，得到视觉关系特征R，具体计算公式如下：

f_k＝σ(R_k,J)；

c_k＝softamx(W₃f_k+b)；

其中，σ表示融合模型，具体可为MLB模型作为融合模型。f_k为第一融合特征；c_k为候选关系特征对应的权重参数，W₃为MLB模型的权重参数，b为MLB模型的偏置量；softamx为激活函数。

本实施例中对候选关系特征的筛选，使用了基于注意力机制融合结合了将候选关系特征R_k与语义关系特征J进行融合，以得到通过图片和问题的交互关系得到的视觉关系特征，进而提高视觉问答结果的准确性。

可选地，针对视觉关系特征提取，还可采用基于图注意力神经网络模型的方式来提取相应的视觉关系特征，以使得获取的视觉关系特征不仅具备候选关系特征之间的关联关系，还具备候选关系特征与语义关系特征之间的关联关系，进而弥补候选关系特征之间的联系缺失等问题，提高视觉问答结果的精度。具体步骤如下：

首先将候选关系特征R_k与语义关系特征J进行融合，使得候选关系特征具备图片和问题的先验知识，具体计算公式如下：

S＝σ(R_k,J)；

其中，S为第一候选关系特征对应的第一融合特征。σ表示融合模型为融合模型，具体可以是非线性模型或线性拼接模型，即使用非线性或线性拼接模型对每一候选关系特征与语义关系特征进行融合。

然后，融合了图片与问题的先验知识的每一第一融合特征作为GAT中的第二节点，由视觉关系网络层中的图注意力神经网络层，对多个第二节点之间的实体关系进行抽取，以得到视觉关系特征。具体计算公式如下：

R＝MaxPooling(GAT_θ(S))；

其中，R为基于图注意力神经网络层获取的视觉关系特征；θ为图注意力神经网络中的参数，MaxPooling为在图注意力神经网络后加上一层最大池化层，通过此方式获取的视觉关系特征不仅包含了候选关系特征自身的特征信息，还融合了与其他候选关系之间的联系，且第一融合特征S是基于先验知识而来的，从某种意义上说，达到了注意力机制的作用，进而使得预测推理的视觉问答结果更加精准。

在一些实施例中，所述答案预测层包括注意力网络层和预测层；

步骤104中所述将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层，得到所述目标问题文本对应的答案，包括：

其中，注意力网络层可以是由多层编码层和多层解码层组成，编码层由多组多头注意力层和前馈神经网络组成，具体数量可以根据实际需求进行设定。基于注意力机制特征之间可以发现多种交互关系，使模型关注到最为重要的信息。

注意力层包含多个输入端口，多个输入端口所需的输入信息分别为Q、K和V；其中，Q代表查询向量、K代表键值向量和代表被查询向量。在编码器中，若K＝Q＝V，则为自关注的注意力机制，若K＝V为一特征向量，Q为另一特征向量时，则采用注意力机制进行融合。

可选地，在输出目标问题文本对应的答案之前，可基于注意力网络层对语义关系特征和视觉关系特征进行融合，以自适应地挖掘出两种特征之间的关系特征，进而根据融合结果，获取更加精准的视觉问答结果。其中，融合步骤具体如下：

首先，根据语义关系特征和视觉关系特征中的任一特征，确定注意力网络层的输入信息中的K和V，并根据另一特征，确定注意力网络层的输入信息中的Q，具体可以根据实际需求进行设置。

然后，将输入信息输入至注意力网络层，由注意力网络层根据输入信息，对语义关系特征和视觉关系特征进行特征融合，得到第二融合特征。将第二融合特征输入至预测层，由预测层根据第二融合特征预测输出目标问题文本对应的答案。

在一些实施例中，所述将所述第一输入信息和所述第二输入信息输入至所述注意力网络层，得到第二融合特征，包括：

可选地，将上述获取的语义关系特征标记为J，将上述获取的视觉关系特征标记为F，对本实施例中的视觉问答方法展开描述。

如图4所示，可将基于语义关系特征确定的第一输入信息，作为注意力网络层的第一输入端口和第二输入端口的输入信息，将基于视觉关系特征确定的第二输入信息作为注意力网络层的第三输入端口的输入信息，输入至注意力网络层，得到第二融合特征。也即基于注意力网络(Transformer Attention，TA)的TA(J,F)融合方式对J和F进行融合，即令J＝K＝V，F＝Q进行特征的融合，编码器的层数为n，输出第二融合特征Z。

如图5所示，可将基于视觉关系特征确定的第二输入信息，作为注意力网络层的第一输入端口和第二输入端口的输入信息，将基于语义关系特征确定的第一输入信息作为注意力网络层的第三输入端口的输入信息，输入至注意力网络层，得到第二融合特征。也即基于注意力网络(Transformer Attention，TA)的是TA(F,J)融合方式，令F＝K＝V，J＝Q进行特征的融合，编码器层数为n，输出第二融合特征Z。

在一些实施例中，所述注意力网络层包括第一分支注意力网络层和第二分支注意力网络层；

如图6所示，可将基于语义关系特征确定的第一输入信息作为第一分支注意力网络层的第一输入端口和第二输入端口的输入信息，将基于视觉关系特征确定的第二输入信息作为第一分支注意力网络层的第三输入端口的输入信息，得到第三融合特征Z1；将基于视觉关系特征确定的第二输入信息，作为第二分支注意力网络层的第一输入端口和第二输入端口的输入信息，将基于语义关系特征确定的第一输入信息作为第二分支注意力网络层的第三输入端口的输入信息，得到第四融合特征Z2；然后将第三融合特征Z1和第四融合特征Z2进行融合，得到第二融合特征Z，具体计算公式如下：

Z＝W(Z¹⊙Z²)；

为了验证本实施例中的视觉问答方法的有效性，采用验证数据集进行验证，具体采用的数据集是R-VQA(Relation Visual Question Answering，视觉问答关联)数据集，且使用基于开放式的VQA任务，使用频率最高的前3000答案作为全部实验的候选答案，由上述可知语义关系特征J的可以维度是K1×2048，K1的大小可以为14×14，F表示视觉关系特征，特征维度可以是K2×1500，K2的大小可以为10，表示10个候选关系。

对问题文本使用预训练词向量模型Glove进行初始化，将所有单词映射到300维的特征空间中，所用的图片维度调整为448×448，所有实验的batch size为200，Adam作为训练时的优化器，初始学习率为0.0003，所有模型使用dropout＝0.4，early stopping作为优化策略。

注意力网络层使用多头注意力机制，设定n＝16；上述三种注意力网络模型都训练30个Epoch，训练的计算机配置是p-100×8，模型参数为145M，训练时间为31小时，得到的实验结果如表1所示。

表1基于注意力网络层的三种融合方式实验结果

融合方式	All	Y/N	Num	Other
					TA(J,F)	62.32％	88.73％	44.21％	55.43％
TA(F,J)	64.87％	87.32％	44.37％	56.93％
					TA(F,J)+TA(J,F)	65.23％	89.33％	45.72％	60.22％

其中，All、Num、Y/N和Other为四种不同的验证任务。由表1中的实验结果可知，基于注意力网络层的三种融合方式在不同验证任务下均获取到良好的实验结果。

其中，TA(F,J)的准确率在三种不同任务下All、Num、Other的任务下要比TA(J,F)的准确率高，这是因为TA(F,J)中将视觉关系特征作为主导特征信息，视觉关系特征在推理答案方面要优于基于图片抽取的语义关系特征。若使用视觉关系特征和语义关系特征共同作为答案推理的主导特征信息，即在TA(F,J)+TA(J,F)下，答案推理的准确率皆为最优。

表2本实施例的视觉问答模型与其他模型的对比结果

模型	All	Y/N	Num	Other
					Q+I	53.74％	78.94％	35.32％	36.42％
MLB	64.53％	83.41％	37.82％	54.43％
					MLAN	64.60％	83.80％	40.20％	53.70％
TA(J,F)	65.11％	83.91％	39.41％	56.99％
					TA(F,J)	64.98％	82.25％	40.01％	56.23％
TA(F,J)+TA(J,F)	65.34％	82.21％	40.78％	57.91％

为了进一步评估本文提出视觉问答模型的优越性，还使用上述基于注意力网络的三种特征融合方式作为基准模型，在VQA数据集上进一步进行测试，实验参数与上述实验所设定的参数一致，依然选择开放式任务All、Num、Y/N和Other作为评测模型的方式，其对比结果如表2所示。

表2中，Q+I表示最基本的视觉问答模型，仅使用图像和问题的融合特征作答案的推理。MLB表示在使用了MLB融合算法对图像特征和文本特征进行融合的视觉问答模型，MLAN模型是在MLB模型的基础上增加了外部视觉概念信息的模型。本实施例提出的TA(J,F)模型、TA(F,J)模型和TA(F,J)+TA(J,F)模型在问题种类为“All”、“Num”和“Other”上准确率要优于现有的模型，分别有0.74％、0.58％以及4.21％的提升，其中在“Other”问题任务上提升较为明显。由于本实施例的视觉问答模型中对视觉关系的使用更有效，更适用于解答一些需要先验知识的复杂问题，但是，模型在回答“Y/N”类型的问题时，虽然效果不突出，但基于与现有模型的效果一致。且在TA(J,F)模型下，本实施例的视觉问答模型有明显的提升效果，具体有0.11％的提升。

综上，使用图注意力神经网络可以挖掘出问题适应的图像中缺失的语义关系特征，基于它补充的融合特征相比使用注意力机制的融合特征，推理答案准确度提升了大约2％。在使用图注意力神经网络抽取视觉关系特征时，答案准确率得到提升。在最终融合特征答案推理实验中，本文提出的TA(F,J)+TA(J,F)在答案推理上较现有视觉问答模型在准确率方面有一定程度的提升，最大提升幅度为4.21％。

在一些实施例中，所述特征提取层包括残差网络层和循环网络层；

步骤101中所述将目标图像输入至视觉问答模型中的特征提取层，得到所述目标图像的图像特征，并将目标问题文本输入至所述特征提取层，得到所述目标问题文本的文本特征的步骤进一步包括：

其中，特征提取层包括两个分支提取层，一个是用于对目标图像进行区域特征提取的残差网络层，另一个是用于对目标问题文本进行语义特征提取的循环网络层。残差网络层可以是基于Resnet(Deep residual network，深度残差神经网络)模型等构建生成的；循环网络层可以是基于GRU(Gated Recurrent Neural Network，门控循环神经网络)模型等构建生成的。

可选地，在获取到目标图像和目标问题文本的情况下，可将目标图像输入残差网络层，由残差网络层对目标图像进行区域特征提取，以获取目标图像的多个区域特征，将多个区域特征作为目标图像的图像特征。其中，图像特征中的区域特征的数量以及尺度可以根据实际需求进行设置，如图像特征包含14×14个区域特征，每个区域特征的尺度为1×2048，图像特征的尺度为14×14×2048。

同时，将目标问答文本输入循环网络层，由循环网络层对目标问答文本进行语义特征提取，得到文本特征。在获取到图像特征和文本特征之后，可执行步骤102-104，以根据文本特征和图像特征，在目标图像中获取目标问题文本对应的答案。

本实施例中采用残差网络层，可以对目标图像进行深度特征提取，以提取更加精准的图像特征，并采用循环网络层对目标问题文本进行上下文语义提取，以提取更加精准的文本特征，进而根据精准的图像特征和文本特征，精准地预测推理出目标问题文本对应的答案。

下面对本发明提供的基于图注意力神经网络与视觉关系的视觉问答装置进行描述，下文描述的基于图注意力神经网络与视觉关系的视觉问答装置与上文描述的基于图注意力神经网络与视觉关系的视觉问答方法可相互对应参照。

如图7所示，该装置包括第一特征提取模块701、第二特征提取模块702、第三特征提取模块703和答案预测模块704，其中：

第一特征提取模块701用于将目标图像输入至视觉问答模型中的特征提取层，得到所述目标图像的图像特征，并将目标问题文本输入至所述特征提取层，得到所述目标问题文本的文本特征；

第二特征提取模块702用于将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层，得到语义关系特征；

第三特征提取模块703用于将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层，得到视觉关系特征；

答案预测模块704用于将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层，得到所述目标问题文本对应的答案；

本实施例提供的基于图注意力神经网络与视觉关系的视觉问答装置，通过采用特征提取层，提取出目标图像的图像特征和目标问题文本的文本特征，采用图注意力神经网络层，深入挖掘图像特征和文本特征之间的交互关系，得到语义关系特征，采用视觉关系网络层对语义关系特征进行视觉关系抽取，以将获取的视觉关系特征作为外部先验知识对视觉问答特征进行补充，进而使得视觉关系模型不仅可以获取丰富的视觉问答特征，且获取的视觉问答特征不仅具有图像与问题文本之间的语义关系特征，还具备先验知识，基于这些视觉问答特征可精准推理出目标问题文本对应的答案。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)801、通信接口(Communications Interface)802、存储器(memory)803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信。处理器801可以调用存储器803中的逻辑指令，以执行基于图注意力神经网络与视觉关系的视觉问答方法，该方法包括：将目标图像输入至视觉问答模型中的特征提取层，得到所述目标图像的图像特征，并将目标问题文本输入至所述特征提取层，得到所述目标问题文本的文本特征；将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层，得到语义关系特征；将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层，得到视觉关系特征；将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层，得到所述目标问题文本对应的答案；其中，所述视觉问答模型是基于样本图像、样本问题文本以及所述样本问题文本对应的答案进行训练得到的。

此外，上述的存储器803中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于图注意力神经网络与视觉关系的视觉问答方法，该方法包括：将目标图像输入至视觉问答模型中的特征提取层，得到所述目标图像的图像特征，并将目标问题文本输入至所述特征提取层，得到所述目标问题文本的文本特征；将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层，得到语义关系特征；将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层，得到视觉关系特征；将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层，得到所述目标问题文本对应的答案；其中，所述视觉问答模型是基于样本图像、样本问题文本以及所述样本问题文本对应的答案进行训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于图注意力神经网络与视觉关系的视觉问答方法，该方法包括：将目标图像输入至视觉问答模型中的特征提取层，得到所述目标图像的图像特征，并将目标问题文本输入至所述特征提取层，得到所述目标问题文本的文本特征；将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层，得到语义关系特征；将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层，得到视觉关系特征；将所述语义关系特征和所述视觉关系特征输入至所述视觉问答模型中的答案预测层，得到所述目标问题文本对应的答案；其中，所述视觉问答模型是基于样本图像、样本问题文本以及所述样本问题文本对应的答案进行训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于图注意力神经网络与视觉关系的视觉问答方法，其特征在于，包括：

2.根据权利要求1所述的基于图注意力神经网络与视觉关系的视觉问答方法，其特征在于，所述将所述图像特征和所述文本特征输入至所述视觉问答模型中的图注意力神经网络层，得到语义关系特征，包括：

3.根据权利要求1所述的基于图注意力神经网络与视觉关系的视觉问答方法，其特征在于，所述将所述语义关系特征输入至所述视觉问答模型中的视觉关系网络层，得到视觉关系特征，包括：

将所述语义关系特征输入至所述视觉关系网络层；

4.根据权利要求3所述的基于图注意力神经网络与视觉关系的视觉问答方法，其特征在于，所述根据所述每一候选关系特征对应的第一融合特征，获取所述视觉关系特征，包括：

根据融合结果，获取所述视觉关系特征。

5.根据权利要求3所述的基于图注意力神经网络与视觉关系的视觉问答方法，其特征在于，所述根据所述每一候选关系特征对应的第一融合特征，获取所述视觉关系特征，包括：

6.根据权利要求1-5任一所述的基于图注意力神经网络与视觉关系的视觉问答方法，其特征在于，所述答案预测层包括注意力网络层和预测层；

7.根据权利要求6所述的基于图注意力神经网络与视觉关系的视觉问答方法，其特征在于，所述将所述第一输入信息和所述第二输入信息输入至所述注意力网络层，得到第二融合特征，包括：

8.根据权利要求6所述的基于图注意力神经网络与视觉关系的视觉问答方法，其特征在于，所述将所述第一输入信息和所述第二输入信息输入至所述注意力网络层，得到第二融合特征，包括：

9.根据权利要求6所述的基于图注意力神经网络与视觉关系的视觉问答方法，其特征在于，所述注意力网络层包括第一分支注意力网络层和第二分支注意力网络层；

10.根据权利要求1-5任一所述的基于图注意力神经网络与视觉关系的视觉问答方法，其特征在于，所述特征提取层包括残差网络层和循环网络层；

11.一种基于图注意力神经网络与视觉关系的视觉问答装置，其特征在于，包括：