CN111598118B

CN111598118B - 一种视觉问答任务实现方法及系统

Info

Publication number: CN111598118B
Application number: CN201911261467.0A
Authority: CN
Inventors: 余伟江; 梁小丹; 林倞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2023-07-07
Anticipated expiration: 2039-12-10
Also published as: CN111598118A

Abstract

本发明公开了一种视觉问答任务实现方法及系统，该方法包括：步骤S1，对输入图片提取视觉特征X_o，对输入的已知语句以及输入的候选回答语句进行特征提取，得到已知语言特征X_q和候选答案特征X_c；步骤S2，基于视觉因果关系推理更新每一个视觉特征，得到更新后的视觉实体特征X_g；步骤S3，将更新后的视觉实体特征X_g作为引导特征，对候选的候选答案特征X_c进行引导选择出视觉敏感的回答特征X_V；步骤S4，将已知语言特征X_q作为引导特征，对候选答案特征X_c进行引导选择出语言敏感的回答特征X_L；步骤S5，将步骤S3和步骤S4产生的两种特征进行融合，进而预测最后的模型结果，输出正确的回答。

Description

一种视觉问答任务实现方法及系统

技术领域

本发明涉及计算机视觉、模式识别技术领域，特别是涉及一种利用语言领域特有的问答因果关系来赋予视觉实体间关系的因果性，辅助视觉常识问答推理任务的视觉问答任务实现方法及系统。

背景技术

基于视觉问答的任务是人工智能领域的一个基础问题，在计算机视觉和自然语言处理的交叉领域中得到了日益增加的关注。近年来，视觉问答任务作为视觉和语言的交叉领域的子问题，对人工智能领域的视觉导航、智能询问助手、家政辅导、情感对话机器人等应用的辅助研究引起了热点关注。因为深度卷积神经网络的发展，该类问题得到了很大的进步。现有的方法大多数是利用端到端的深度卷积神经网络的方法来直接融合视觉和语言的特征来预测最终的回答，然而，该类方法缺少对网络的可解释性，同时也缺乏对问答推理中的常识性场景进行视觉常识关系解析。相比而言，利用语言领域特有的问答因果关系嵌入到视觉实体间关系，采用视觉因果关系推理的方法对视觉实体特征进行因果推理，同时利用推理更新后的视觉特征结合语言特征来综合预测最终的基于常识的答案结果，可增强网络在因果推理方面的认知能力，同时提升网络的总体性能。

目前在视觉问答方面的研究主要有以下两种方法：一种是简单利用端到端的深度卷积神经网络的方法去直接融合视觉和语言的特征来预测回答，该类方法缺乏对网络的可解释性，对单纯视觉数据敏感，同时也缺乏对问答推理中的常识性场景进行解析建模；另外一种是单纯利用视觉实体间的属性相似性或类别相似性作为视觉实体间关系进行关系建模，比如“人”这个视觉实体之间的相似性就很高，或者利用句子语义词和具体的视觉实体建立语义对齐，比如句子中的“person”单词和视觉中的“人”的特征进行对齐，如图6的(a)和(b)。然而，上述方法并没有对视觉常识关系进行有效建模的方法，让问答语句中的因果关系无法有效地和视觉实体关系进行无缝衔接，从而无法达到赋予视觉关系因果性来提升视觉常识问答推理任务的准确性。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种视觉问答任务实现方法及系统，以实现一种将语言领域的因果关系引入到视觉领域进行视觉因果关系推理的机制，拥有更高的预测精度和可解释性。

为达上述及其它目的，本发明提出一种视觉问答任务实现方法，包括如下步骤：

步骤S1，对输入图片提取视觉特征X_o，对输入的已知语句以及输入的候选回答语句进行特征提取，得到已知语言特征X_q和候选答案特征X_c；

步骤S2，基于视觉因果关系推理更新每一个视觉特征，得到更新后的视觉实体特征X_g；

步骤S3，将更新后的视觉实体特征X_g作为引导特征，对候选的候选答案特征X_c进行引导选择出视觉敏感的回答特征X_V；

步骤S4，将已知语言特征X_q作为引导特征，对候选答案特征X_c进行引导选择出语言敏感的回答特征X_L；

步骤S5，将步骤S3和步骤S4产生的两种特征进行融合，进而预测最后的模型结果，输出正确的回答。

优选地，步骤S2进一步包括：

步骤S200，初步构建视觉特征间的语义关联关系；

步骤S201，基于视觉特征X_o、已知语言特征X_q和候选答案特征X_c，利用语言层面的问答因果关系生成视觉因果关系；

步骤S202，根据生成的视觉因果关系，采用视觉因果关系推理来更新每一个视觉特征。

优选地，于步骤S200中，利用矩阵內积的方法初步构建视觉特征间的语义关联关系。

优选地，步骤S201进一步包括：

将已知语言特征X_q和候选答案特征X_c进行串联，通过长短期记忆网络对语言问答特征间的因果关系进行建模，得到初步的问答因果关系表征X_qc；

利用该问答因果关系表征X_qc嵌入到视觉特征X_o，构建每一个视觉实体和对应问答因果关系间的关联X_oqc，搭建起视觉实体和语言因果关系的桥梁；

利用自注意力机制的操作结合矩阵乘法的操作，进一步生成视觉因果关系 A_g。

优选地，于步骤S202中，采用图卷积的操作，利用步骤S201得到的视觉因果关系，对视觉特征实施视觉因果关系推理，得到更新后的视觉实体特征X_g。

优选地，步骤S3进一步包括：

融合更新后的视觉实体特征X_g和候选答案特征X_c，得到一个中间特征X_gc；

利用归一化表征进行投票学习得到和候选答案相关性强的若干视觉实体表征的关系X_Vα；

利用该关系X_Vα作用于更新后的视觉实体特征X_g得到最终的视觉敏感的回答特征X_V。

优选地，于步骤S4中，在已知语言特征X_q的引导下，利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征，作为所述语言敏感的回答特征X_L。

优选地，于步骤S5中，利用步骤S4和步骤S3的输出特征，应用一个全连接的操作结合串联操作，来预测出最后的问题答案表示。

优选地，步骤S1进一步包括：

步骤S100，利用物体检测器作为视觉特征提取网络，对输入图片I进行特征提取得到视觉特征X_o；

步骤S101，采用一个共享权重的特征提取器分别对输入的已知语句以及输入的候选回答语句进行特征提取，得到已知语句的语义特征表示X_q以及候选答案的语义特征表示X_c。

为达到上述目的，本发明还提供一种视觉回答任务实现系统，包括：

基础视觉特征提取模块，用于对输入图片提取视觉特征X_o；

语言特征提取模块，用于对输入的已知语句以及输入的候选回答语句进行特征提取，得到已知语言特征X_q和候选答案特征X_c；

因果关系引导模块，用于基于视觉因果关系推理更新每一个视觉特征，得到更新后的视觉实体特征X_g；

视觉引导模块，用于将更新后的视觉实体特征X_g作为引导特征，对候选的候选答案特征X_c进行引导选择出视觉敏感的回答特征X_V；

语言引导模块，用于将已知语言特征X_q作为引导特征，对候选答案特征X_c进行引导选择出语言敏感的回答特征X_L；

融合模块，用于将所述视觉引导模块和语言引导模块产生的两种特征进行融合，进而预测最后的模型结果，输出正确的回答。

与现有技术相比，本发明一种视觉问答任务实现方法通过提出视觉因果关系推理，并将其应用到通用的常识问答任务中，使得问答语句中的因果关系可以有效地和视觉实体关系进行无缝衔接，从而达到赋予视觉关系因果性来提升视觉常识问答推理任务的准确性的目的。本发明相比于近期的基于多种注意力机制预测、基于视觉实体间关系预测以及利用语义词和具体视觉实体进行语义对齐的问答推理方法本发明不仅拥有更高的预测精度和可解释性，而且提供了一种将语言领域的因果关系引入到视觉领域进行视觉因果关系推理的机制。

附图说明

图1为本发明一种视觉问答任务实现方法的步骤流程图；

图2为本发明一种视觉回答任务实现系统的系统架构图；

图3为本发明具体实施例中因果关系引导模块的细部结构图；

图4为本发明具体实施例之视觉回答任务实现系统的系统框架图；

图5为本发明实施例中因果关系引导模块、语言引导模块以及视觉引导模块的示意图；

图6示出本发明视觉因果关系推理与现有技术的区别。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种视觉问答任务实现方法的步骤流程图。如图1所示，本发明一种视觉问答任务实现方法，包括如下步骤：

步骤S1，对输入图片提取视觉特征X_o，对输入的已知语句以及输入的候选回答语句进行特征提取，得到已知语言特征X_q和候选答案特征X_c。

具体地，步骤S1进一步包括：

步骤S100，利用目前已有的物体检测器(CNN)作为视觉特征提取网络，得到视觉特征X_o。

在本发明具体实施例中，对于输入图片

具体操作如下：

步骤S101，对输入的已知语句以及输入的候选回答语句进行特征提取，得到已知语言特征X_q和候选答案特征X_c。在本发明具体实施例中，采用一个共享权重的特征提取器(BERT)分别对输入的已知语句以及输入的候选回答语句进行特征提取，得到已知语句的语义特征表示X_q以及候选答案的语义特征表示X_c，对于输入的已知语句Q以及输入的候选回答语句

具体操作如下：

步骤S2，通过构建视觉实体间的关系、利用语言层面的问答因果关系来生成视觉因果关系以及采用视觉因果关系推理来更新每一个视觉特征X_g。

在本发明具体实施例中，步骤S2进一步包括：

步骤S200，构建初步的视觉实体间关系。

在本发明具体实施例中，利用矩阵內积的方法初步构建视觉间的语义关联关系。

步骤S201，利用语言层面的问答因果关系来生成视觉因果关系。

具体地，首先将已知语义特征和候选语义特征进行串联起来，通过长短期记忆网络(LSTM，Long Short-Term Memory)对语言问答特征间的因果关系进行建模，得到初步的问答因果关系表征

然后利用该问答因果关系表征X_qc嵌入到视觉实体特征X_o，来构建每一个视觉实体和对应问答因果关系间的关联/>

搭建起视觉实体和语言因果关系的桥梁；最后利用自注意力机制(self-attention)的操作结合矩阵乘法的操作，来进一步生成视觉因果关系/>

视觉因果关系生成模块2032搭建起了视觉实体关系和语言因果关系这两种关系间的桥梁。

步骤S202，采用视觉因果关系推理来更新每一个视觉实体特征。

在本发明具体实施例中，采用图卷积的操作，利用步骤S201得到的视觉因果关系，对视觉特征实施视觉因果关系推理，得到更新后的视觉特征

这里的其他数学符号表示带权重w的多层感知机MLP。

步骤S3，将更新后的视觉实体特征X_g作为引导特征，对候选的候选答案特征X_c进行引导选择出视觉敏感的回答特征。

具体地说，首先融合视觉和候选语言特征，得到一个中间特征

然后利用归一化表征进行投票学习得到和候选答案相关性比较强的几个视觉实体表征的关系X_Vα；最后利用该关系作用于视觉实体特征来得到最终的视觉敏感的回答特征X_V。

步骤S4，将已知语言特征X_q作为引导特征，对候选答案特征X_c进行引导选择出语言敏感的回答特征X_L。

于步骤S4中，对两个语言特征间构建问答的关联，在已知语言特征的引导下，利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征，作为本模块的输出特征表示，即语言敏感的回答特征X_L。

在本发明具体实施例中，步骤S5利用步骤S4和步骤S3的输出特征，应用一个全连接的操作结合串联操作，来预测出最后的问题答案表示。

图2为本发明一种视觉回答任务实现系统的系统架构图。如图2所示，本发明一种视觉回答任务实现系统，包括：

基础视觉特征提取模块201，用于对输入图片提取视觉特征X_o。在本发明具体实施例中，基础视觉特征提取模块201利用目前已有的物体检测器(CNN) 作为视觉特征提取网络，得到视觉特征X_o，对于输入图片

具体操作如下：

语言特征提取模块202，用于对输入的已知语句以及输入的候选回答语句进行特征提取，得到已知语言特征X_q和候选答案特征X_c。在本发明具体实施例中，语言特征提取模块202采用一个共享权重的特征提取器(BERT)分别对输入的已知语句以及输入的候选回答语句进行特征提取，得到已知语句的语义特征表示X_q以及候选答案的语义特征表示X_c，对于输入的已知语句

以及输入的候选回答语句/>

具体操作如下：

因果关系引导模块203，用于通过构建视觉实体间的关系、利用语言层面的问答因果关系来生成视觉因果关系以及采用视觉因果关系推理来更新每一个视觉特征X_g。

在本发明具体实施例中，如图3所示，因果关系引导模块203进一步包括：

视觉实体间关系构建模块2031，用于构建初步的视觉实体间关系。

在本发明具体实施例中，视觉实体间关系构建模块2031利用矩阵內积的方法初步构建视觉间的语义关联关系。

才，用于利用语言层面的问答因果关系来生成视觉因果关系。

具体地，视觉因果关系生成模块2032首先将已知语义特征和候选语义特征进行串联起来，通过长短期记忆网络(LSTM，Long Short-Term Memory)对语言问答特征间的因果关系进行建模，得到初步的问答因果关系表征

然后利用该问答因果关系表征X_qc嵌入到视觉实体特征X_o，来构建每一个视觉实体和对应问答因果关系间的关联

视觉因果关系生成模块 2032搭建起了视觉实体关系和语言因果关系这两种关系间的桥梁。

视觉特征更新模块2033，用于采用视觉因果关系推理来更新每一个视觉实体特征。

在本发明具体实施例中，视觉特征更新模块2033采用图卷积的操作，利用视觉因果关系生成模块2032得到的视觉因果关系，对视觉特征实施视觉因果关系推理，得到更新后的视觉特征

这里的其他数学符号表示带权重w 的多层感知机MLP。

视觉引导模块204，用于将更新后的视觉实体特征X_g作为引导特征，对候选的候选答案特征X_c进行引导选择出视觉敏感的回答特征。

具体地说，视觉引导模块204首先融合视觉和候选语言特征，得到一个中间特征

语言引导模块205，用于将已知语言特征X_q作为引导特征，对候选答案特征X_c进行引导选择出语言敏感的回答特征X_L。

语言引导模块205和视觉引导模块204是一个类似对称的模块。语言引导模块205在于对两张语言特征间构建问答的关联，在已知语言特征的引导下，利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征，作为本模块的输出特征表示，即语言敏感的回答特征X_L。

融合模块206，用于将视觉引导模块204和语言引导模块205产生的两种特征进行融合，进而预测最后的模型结果，输出正确的回答。

在本发明具体实施例中，融合模块206利用语言引导模块205和视觉引导模块204的输出特征，应用一个全连接的操作结合串联操作，来预测出最后的问题答案表示。

实施例

图4为本发明具体实施例之视觉回答任务实现系统的系统框架图，图5为本发明实施例中因果关系引导模块、语言引导模块以及视觉引导模块的示意图。

如图4所示，定义知识图谱

其中/>

表示节点集合，ε表示节点边集合。模型整体神经网络的输入由三部分组成，分别是关于图像/>

的物体区域集合/>

已知语句单词集合/>

候选答案单词集合/>

根据提取得到的特征构建的图节点定义分别为/>

其中，/>

可以代表独立存在的d维物体特征向量，问题单词特征向量和答案单词特征向量，N,M,kB则分别表示一张图片中物体数量，一个问题句子中单词数量和k个候选答案句子中单词数量，在视觉常识问答推理中，k＝4。将它们分别进行级联表示成矩阵形式就分别成为了本发明系统网络模型的三种特征输入/>

最终模型输出一个对4个备选答案各自的打分的四维向量Y∈R⁴，则选择得分最高的选项作为答案。

基础视觉和语言的特征提取：输入图片

基础视觉特征提取模块和语言特征提取模块采用目前已有的物体检测器作为视觉特征提取网络，得到视觉特征X_o，已知语言特征X_q和候选答案特征X_c。具体操作如下：

其中语言特征提取模块对语言部分的特征提取采用一个共享权重的特征提取器(BERT)，基础视觉特征提取模块采用CNN卷积神经网络进行视觉特征提取。

因果关系引导模块：在完成上述的基础视觉特征和语言特征提取后，本发明利用因果关系引导模块，具体地，包含如下三步操作：

第一步，构建初步的视觉实体间关系，具体操作如下：

A＝f_w1(X_o)f_w2(X_o ^T)

其中，本实施例利用矩阵內积的方法初步构建视觉间的语义关联关系，用 A表示，其中的f均为可学习的权重参数。

第二步，利用语言层面的问答因果关系来生成视觉因果关系。具体操作如下：

X_qc＝LSTM([X_q,X_c])

X_oqc＝X_oW₀X_qc ^T

A₁＝AX_oqc

A₂＝AX_oqc

具体地，首先将已知语义特征和候选语义特征进行串联起来，通过LSTM 对语言问答特征间的因果关系进行建模，得到初步的问答因果关系表征

然后利用该问答因果关系表征嵌入到视觉实体特征，来构建每一个视觉实体和对应问答因果关系间的关联/>

搭建起视觉实体和语言因果关系的桥梁。最后利用self-attention的操作结合矩阵乘法的操作，来进一步生成视觉因果关系/>

这一步是搭建起了视觉实体关系和语言因果关系这两种关系间的桥梁。本步骤中的W和其他数学符号表示可学习的权重和对应的非线性函数。

第三步，采用视觉因果关系推理来更新每一个视觉实体特征。具体操作如下：

X_g＝σ_w(A_gX_o)

具体地，采用图卷积的操作，利用第二步骤得到视觉因果关系，对视觉特征实施视觉因果关系推理，得到更新后的视觉特征

本步骤的其他数学符号表示带权重w的多层感知机MLP。

视觉引导模块。将更新后的视觉实体特征

作为引导特征，对候选的语言回答特征X_c进行引导，选择出视觉敏感的回答特征X_V。具体操作如下：

X_gc＝X_gX_c ^TW_V1

具体地，首先融合视觉和候选语言特征，得到一个中间特征

然后利用归一化表征进行投票学习得到和候选答案相关性比较强的几个视觉实体表征的关系X_Vα，然后利用该关系作用于视觉实体特征来得到最终的视觉敏感回答特征。

语言引导模块：将已知语言特征作为引导特征，对候选的语言回答特征进行引导选择出语言敏感的回答特征，如图5所示，本模块和视觉引导模块是一个类似对称的模块。本模块在于对两张语言特征间构建问答的关联，在已知语言特征的引导下，利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征，作为本模块的输出特征表示----语言敏感的回答特征。

融合模块：利用语言引导模块和视觉引导模块的输出特征，应用一个全连接的操作结合串联操作，来预测出最后的问题答案表示，具体操作如下：

Y＝FC([X_V,X_L])

其中FC是表示带可学习权重的全连接操作,[]表示串联操作，Y是表示最终预测出的回答。

在本实施例中，利用交叉熵函数作为本发明框架协同训练的目标函数，以 Adam为优化函数，权重衰减系数是0.0001，初始学习率为0.0002，每完整训练两次，学习率调整为原来的一半，利用随机梯度下降算法进行整体端到端的训练。

图6示出本发明视觉因果关系推理与现有技术的区别。图6中(a)和(b) 为现有技术，(c)为本发明的视觉因果关系推理结果，可见，通过本发明的视觉因果关系推理，问答语句中的因果关系可以有效地和视觉实体关系进行无缝衔接，从而达到赋予视觉关系因果性来提升视觉常识问答推理任务的准确性的目的。

综上所述，本发明一种视觉问答任务实现方法通过提出视觉因果关系推理，并将其应用到通用的常识问答任务中，使得问答语句中的因果关系可以有效地和视觉实体关系进行无缝衔接，从而达到赋予视觉关系因果性来提升视觉常识问答推理任务的准确性的目的。本发明相比于近期的基于多种注意力机制预测、基于视觉实体间关系预测以及利用语义词和具体视觉实体进行语义对齐的问答推理方法本发明不仅拥有更高的预测精度和可解释性，而且提供了一种将语言领域的因果关系引入到视觉领域进行视觉因果关系推理的机制。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种视觉问答任务实现方法，包括如下步骤：

步骤S5，将步骤S3和步骤S4产生的两种特征进行融合，进而预测最后的模型结果，输出正确的回答；

步骤S2进一步包括：

步骤S200，初步构建视觉特征间的语义关联关系；

步骤S202，根据生成的视觉因果关系，采用视觉因果关系推理来更新每一个视觉特征；

步骤S201进一步包括：

利用自注意力机制的操作结合矩阵乘法的操作，进一步生成视觉因果关系A_g；

步骤S3进一步包括：

2.如权利要求1所述的一种视觉问答任务实现方法，其特征在于：于步骤S200中，利用矩阵內积的方法初步构建视觉特征间的语义关联关系。

3.如权利要求1所述的一种视觉问答任务实现方法，其特征在于：于步步骤S202中，采用图卷积的操作，利用步骤S201得到的视觉因果关系，对视觉特征实施视觉因果关系推理，得到更新后的视觉实体特征X_g。

4.如权利要求1所述的一种视觉问答任务实现方法，其特征在于：于步骤S4中，在已知语言特征X_q的引导下，利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征，作为所述语言敏感的回答特征X_L。

5.如权利要求4所述的一种视觉问答任务实现方法，其特征在于：于步骤S5中，利用步骤S4和步骤S3的输出特征，应用一个全连接的操作结合串联操作，来预测出最后的问题答案表示。

6.如权利要求1所述的一种视觉问答任务实现方法，其特征在于，步骤S1进一步包括：

步骤S100，利用物体检测器作为视觉特征提取网络，对输入图片

进行特征提取得到视觉特征X_o；

7.一种基于权利要求1至6所述的视觉问答任务实现方法的视觉回答任务实现系统，包括：

基础视觉特征提取模块，用于对输入图片提取视觉特征X_o；