CN108446404A

CN108446404A - 面向无约束视觉问答指向问题的检索方法及系统

Info

Publication number: CN108446404A
Application number: CN201810287528.XA
Authority: CN
Inventors: 王亮; 黄岩; 程文龙
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-08-24
Anticipated expiration: 2038-03-30
Also published as: CN108446404B

Abstract

本发明属于模式识别领域，具体涉及一种面向无约束视觉问答指向问题的检索方法及系统。旨在解决无候选答案时的视觉问答指向问题。该方法主要包括：利用图像似物性采样的方法生成一定数目的候选答案，提取问句的文本特征和候选答案的视觉特征，把文本特征和视觉特征映射到同一共同特征空间中，然后计算共同特征空间中问句与候选答案的余弦相似度，把与文本特征余弦相似度最高的候选答案视为预测的正确答案。本方法利用成对的排序损失函数建立问句特征与候选答案特征的相关关系，同时针对无候选答案的问题，使用图像似物性采样的方法生成一定数目的候选的答案，为无候选区域的视觉问答提供了一种可行的解决方案。

Description

面向无约束视觉问答指向问题的检索方法及系统

技术领域

本发明属于模式识别领域，具体涉及一种面向无约束视觉问答指向问题的检索方法及系统。

背景技术

视觉问答中的指向问题广泛地存在于日常生活中。视觉问答的指向问题，简单来说就是给定一张图片和相应的问题，找出问题中提及的目标区域。例如，在图像中找出我们感兴趣的区域，一张图像中可能包含很多物体及相应背景。如果图像的数目比较多，而且图像比较复杂，找感兴趣的区域需要投入大量的人力和物力。视觉问答中指向技术可以帮助我们找到我们感兴趣的区域，从而帮助我们节省大量的时间，同时，指出的相关区域可以辅助自然语言的解答。

传统的视觉问答指向技术是基于分类的方法，并有候选的答案可以选择。开展视觉问答时有一定候选项可以进行选择，多选形式的视觉问答限制了视觉问答的使用场景。为了解决无候选答案的视觉问答的指向问题，我们提出了一种面向无约束视觉问答指向问题的检索方法。它能很好地解决有候选答案的视觉问答指向问题，同时又提供了一种解决无候选答案指向问题的有效方法。使用图像似物性采样(object proposals)的方法生成有效的候选区域，同时使用交叠率(IOU)选出其中有效的正确答案集合。该方法在解决无候选答案的视觉问答指向问题时能取得相对较好的结果。

发明内容

为了解决现有技术中的上述问题，即为了解决无候选答案时的视觉问答指向问题，本发明的一方面，提供了一种面向无约束视觉问答指向问题的检索方法，

利用似物性采样的方法从输入图像中生成多个候选区域作为候选答案，利用所述候选答案通过视觉特征提取网络提取所述候选答案的视觉特征；

基于文本特征提取网络提取输入问句的文本特征；

使用文本映射矩阵W_T将所述文本特征转化至共同特征空间，使用视觉映射矩阵W_I将所述视觉特征转化至共同特征空间，计算共同特征空间内文本特征与每个视觉特征的余弦相似度，并将与文本特征的余弦相似度最大的视觉特征所对应的候选答案作为正确答案，输出所述正确答案；

其中，

所述视觉特征提取网络基于卷积神经网络构建，用以提取所述候选答案的视觉特征；

所述文本特征提取网络基于循环神经网络构建，用以提取输入问句的文本特征。

进一步地，基于成对的排序损失函数迭代训练所述检索方法，以更新文本特征提取网络和文本映射矩阵W_T和视觉映射矩阵W_I的权重，且

在迭代训练过程中不改变视觉特征提取网络的权重。

进一步地，基于反向传播算法和成对的排序损失函数迭代训练所述检索方法，以更新文本特征提取网络和文本映射矩阵W_T和视觉映射矩阵W_I的权重，且

在迭代训练过程中不改变视觉特征提取网络的权重。

进一步地，所述视觉特征提取网络基于权重共享策略提取候选答案的视觉特征。

进一步地，所述基于成对的排序损失函数迭代训练，其训练方法为：

步骤S1：使用文本特征提取网络提取输入问句的文本特征；

步骤S2：使用视觉特征提取网络提取候选答案的视觉特征；

步骤S3：使用文本映射矩阵W_T将所述文本特征转化到共同特征空间，使用图像映射矩阵W_I将所述视觉特征映射到共同特征空间；

步骤S4：基于mini-batch法利用共同特征空间中的文本特征和视觉特征构建正样本对和负样本对；

步骤S5：计算每个样本对的余弦相似度；

步骤S6：基于成对的排序损失函数更新文本特征提取网络和文本映射矩阵W_T和视觉映射矩阵W_I的权重；

步骤S7：重复步骤S1-S6，直到达到最大的遍历正负样本对的迭代次数。

进一步地，所述成对的排序损失函数为：

公式中，x为共同特征空间中问句的文本特征，v为共同特征空间中候选答案的视觉特征，α为正负样本对之间的最小间隔常数，S为余弦相似度函数，v_k为问句x的不一致答案，x_k为候选答案v的不一致问句，不一致项选自同一个batch中的项。

进一步地，“使用文本映射矩阵W_T将所述文本特征转化到共同特征空间”，其表达式为：

x＝W_Tx'

其中，x为共同特征空间中问句的文本特征，x'为循环神经网络输出的问句的文本特征，x∈R^d×1。

进一步地，“使用图像映射矩阵W_I将所述视觉特征映射到共同特征空间”，其表达式为：

v＝W_Iv'

其中，v为共同特征空间中候选答案的视觉特征，v'为卷积神经网络输出的候选答案的视觉特征，其中v∈R^d×1。

进一步地，使用随机初始化的方式生成文本特征提取网络和文本映射矩阵W_T和图像映射矩阵W_I的初始权重。

进一步地，所述正样本对由输入问句的文本特征和输入问句对应正确答案的视觉特征构成；

所述负样本对由输入问句的文本特征与同一batch中其它问句所对应正确答案的视觉特征构成。

进一步地，在训练完成之后对所述检索方法进行评价，得出评价结果。

本发明的另一方面，还提供了一种面向无约束视觉问答指向问题的检索系统，所述系统包括：文本特征提取网络、视觉特征提取网络、候选答案生成网络、共同特征空间转换网络；

文本特征提取网络，用以提取输入的问句的文本特征，并输送至共同特征空间转换网络；

视觉特征提取网络，用以提取输入的候选答案的视觉特征，并输送至共同特征空间转换网络；

候选答案生成网络，基于似物性采样的方法生成输入图像的多个候选答案，输送至所述视觉特征提取网络；

共同特征空间转换网络，用以使用文本映射矩阵W_T将所述文本特征转化至共同特征空间，使用视觉映射矩阵W_I将所述视觉特征转化至共同特征空间，计算共同特征空间内文本特征与每个视觉特征的余弦相似度，并将与文本特征的余弦相似度最大的视觉特征所对应的候选答案作为正确答案，输出所述正确答案。

进一步地，若输入的问句有对应的候选答案，则基于所述检索系统的文本特征提取网络、视觉特征提取网络、共同特征空间转换网络进行视觉问答指向问题的检索。

本发明的有益效果：本发明基于成对的排序损失函数来建立问句的特征与候选答案特征的相关关系，同时针对无候选答案的问题，使用图像似物性采样的方法生成一定数目的候选的答案，为无候选区域的视觉问答提供了一种可行的解决方案。

附图说明

图1是基于成对的排序损失函数训练网络的框图；

图2是基于mini-batch的方法选取正负样本对的流程图；

图3是生成候选答案并从候选答案中选取正确的答案的流程图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明提供一种面向无约束视觉问答指向问题的检索方法，能较好地应用于多选形式的视觉问答指向问题，也能较好地应用于无候选答案的视觉问答指向问题。下面详细地说明本发明的面向无约束视觉问答指向问题的检索方法，该方法具体内容如下：

利用似物性采样的方法从输入图像中生成多个候选区域作为候选答案，利用候选答案通过视觉特征提取网络提取所选答案的视觉特征；基于文本特征提取网络提取输入问句的文本特征；使用文本映射矩阵W_T将文本特征转化至共同特征空间，使用视觉映射矩阵W_I将视觉特征转化至共同特征空间，计算共同特征空间内文本特征与每个视觉特征的余弦相似度，并将与文本特征的余弦相似度最大的视觉特征所对应的候选答案作为正确答案，输出所述正确答案；其中，视觉特征提取网络基于卷积神经网络构建，用以提取所述候选答案的视觉特征；文本特征提取网络基于循环神经网络构建，用以提取输入问句的文本特征。

本发明的实施例是基于成对的排序损失函数迭代训练本发明的面向无约束视觉问答指向问题的检索方法，以更新循环神经网络和文本映射矩阵W_T和视觉映射矩阵W_I的权重，并且使用随机初始化的方式生成循环神经网络和文本映射矩阵W_T和图像映射矩阵W_I的初始权重。循环神经网络用以提取问句的语义信息，输出问句的特征表达。卷积神经网络用以提取候选答案的视觉特征。本实施例中卷积神经网络VGG16是经数据集预训练后的卷积神经网络，所以本实施的训练过程中不改变卷积神经网络VGG16的权重。图1为基于成对的排序损失函数训练网络的整体流程图，其训练集中包含多个问答对，其中的每一个问句都有四个候选答案，图1中所示的问句“Which is the man in the black jacket”和图像的四个候选区域为训练集中的一个问答对，本发明实施例的基于成对的排序损失函数训练网络的具体步骤如下：

步骤Sa1：使用循环神经网络提取输入问句的文本特征；

步骤Sa2：使用卷积神经网络VGG16提取候选答案的视觉特征；

步骤Sa3：使用文本映射矩阵W_T将文本特征转化到共同特征空间，使用图像映射矩阵W_I将视觉特征映射到共同特征空间；

步骤Sa4：基于mini-batch法利用共同特征空间中的文本特征和视觉特征构建正样本对和负样本对；

步骤Sa5：计算每个样本对的余弦相似度；

步骤Sa6：基于成对的排序损失函数更新循环神经网络和文本映射矩阵W_T和视觉映射矩阵W_I的权重；

步骤Sa7：重复步骤Sa1-Sa6，直到达到最大的遍历正负样本对的迭代次数。

具体地，上述步骤Sa3的目的是通过文本映射矩阵W_T和视觉映射矩阵W_I将文本特征和视觉特征转化到同一共同特征空间。更为具体地，假设循环神经网络输出的问句的特征表达为x'，其中假设卷积神经网络输出的候选答案的特征表达为v'，其中则转化到共同空间中的问句特征为x＝W_Tx'，其中x∈R^d×1；转化到共同空间中的视觉特征为v＝W_Iv'，其中v∈R^d×1。文本映射矩阵W_T和视觉映射矩阵W_I都是在损失函数反向传播过程中自动更新的可学习的特征矩阵。

具体地，上述步骤Sa4中，使用映射到同一共同特征空间中的问句特征和候选答案的视觉特征构建训练的正负样本对，问句的文本特征与其所对应的正确答案的视觉特征构成一个正的样本对，问题的文本特征与不正确的候选答案对应的视觉特征构成一个负的样本对。图2所示是基于mini-batch的方法构造正负样本对的流程，batch的大小为3。图2中包含三个问题分别为S1、S2和S3。问题S1对应的正确答案为A1，对应的不正确答案(候选答案)为B1、C1、D1。问题S2对应的正确答案为A2，对应的不正确答案(候选答案)为B2、C2、D2。问题S3对应的正确答案为A3，对应的不正确答案(候选答案)为B3、C3、D3。所以正样本对为：视觉特征A1与问题特征S1、视觉特征A2与问题特征S2、视觉特征A3与问题特征S3。负样本对为：视觉特征A2与问题特征S1、视觉特征A3与问题特征S1、视觉特征A1与问题特征S2、视觉特征A3与问题特征S2、视觉特征A1与问题特征S3、视觉特征A2与问题特征S3。由于负样本对的数目要远远多于正样本对的数目，考虑到复杂性与计算效率，所以构建负样本对时没有用到问句对应的不正确的候选答案，而是用问句与同一batch中其它问句所对应的正确答案(不是所对应问题的正确答案)来构建负样本对，如此使用较难的样本对训练神经网络，使神经网络的判别性更好。

具体地，上述步骤Sa6中使用成对的排序损失函数更新循环神经网络和文本映射矩阵W_T和视觉映射矩阵W_I的权重，其成对的排序损失函数如公式(1)所示：

其中，x为共同特征空间中问句的文本特征，v为共同特征空间中候选答案的视觉特征，α为正负样本对之间的最小间隔常数，S为余弦相似度函数，v_k为问句x的不一致答案，x_k为候选答案v的不一致问句，不一致项选自同一个batch中的项。

本发明是通过使用图像似物性采样(object proposals)的方法来生成有效的候选答案，并使用成对的排序损失函数来拉近在共同空间中问句与正确答案的距离，拉远问句与不正确答案之间的距离，从而为无候选答案的视觉问答问题提供了一种有效的解决方法。为了详细说明本发明涉及的关键步骤，下面以visual7w数据集中的which问题为例来进行说明。

visual7w数据集包括训练集和测试集，每一张图像对应多个问答对，每一个问答对有一个问题和四个候选答案，其中候选答案中有一个正确的答案。对于有候选答案的视觉问答指向问题，我们可以直接在该数据集上进行相应的测试，对于无候选答案的视觉问答指向问题，我们把问答对中的正确答案作为标注的数据，训练时使用问句和问句对应的正确答案进行训练，测试时不给定候选的答案，而是直接根据问句从图像中选择正确的区域。本实施例的具体步骤如下：

步骤Sb1，把visual7w数据集中which问题的训练集作为训练的数据，把which问题的测试集作为测试的数据。

步骤Sb2，使用循环神经网络来提取问句的文本信息，使用循环神经网络最后一个时刻的隐含层的表达作为问句的特征表达。循环神经网络使用的词向量为随机初始化得到的，隐含层的结点数目为1024。使用预训练的卷积神经网络以权重共享的策略来提取候选答案的视觉信息特征。此处的权重共享策略是使用预训练的具有相同结构和参数的卷积神经网络来提取候选答案的视觉特征，所以本实施例中不改变卷积神经网络的权重。候选答案的视觉信息特征的维度为4096维，使用图像映射矩阵把图像信息的维度从4096维映射到1024维。使用共同特征空间中的问句特征和候选答案的视觉特征来构造正负样本对。问题与其对应的正确答案为一个正样本对，但从计算效率和复杂度的角度来考虑，构造负样本对时没有使用不正确的候选答案，而是用到问句与他问题所对应的正确答案(不是所对应问题的正确答案)来构建负样本对。

步骤Sb3，通过反向传播算法和成对的排序损失函数更新循环神经网络和文本映射矩阵W_T和视觉映射矩阵W_I的权重。具体地，通过反向传播法有监督地最小化成对的排序损失函数，进而更新循环神经网络和文本映射矩阵W_T和视觉映射矩阵W_I的权重。在训练时遍历训练样本的最大数目为13次，每遍历一次样本即为把所有的训练样本都输入到模型中一次。

步骤Sb4，若为有候选答案的视觉问答指向问题，则基于训练好的模型中的文本特征提取网络、视觉特征提取网络、共同特征空间转换网络得出预测的正确答案。若为无候选答案的视觉问答指向问题则基于训练好的模型得出预测的正确答案。

本发明的实施例中，在训练完成之后对所述检索的方法进行评价，并得出评价结果。具体地，使用似物性采样法生成候选答案，并计算生成的候选答案与标准正确答案之间的交叠率，把与标准正确答案的交叠率大于或等于设定阈值的候选答案设为候选正确答案集合，当基于面向无约束视觉问答指向问题中检索方法预测的正确答案在候选正确答案集合中时，则预测的正确答案为问句的正确答案，否则预测的正确答案为问句的错误答案。

图3为如何生成候选答案并从候选答案中选取正确答案的流程图。对于某一具体的问答，预先标注图像的正确区域，基于似物性采样的方法生成一定数量的候选答案(候选区域)，分别计算候选答案与正确区域的交叠率，若生成候选答案与正确区域的交叠率大于或等于某一阈值(该阈值的范围为(0，1)，通常选用0.5)，则把该候选答案放入该问题的候选正确答案集合中(在图3中正确答案用1表示，不正确的答案用0表示)，当基于训练好的模型预测的正确答案在候选正确答案集合中时，我们认为对该问答给出了正确答案，否则，对该问答给出了错误的预测。

本发明实施例的一种面向无约束视觉问答指向问题的检索系统，系统包括：文本特征提取网络、视觉特征提取网络、候选答案生成网络、共同特征空间转换网络；

共同特征空间转换网络，用以使用文本映射矩阵W_T将所述文本特征转化至共同特征空间，使用视觉映射矩阵W_I将所述视觉特征转化至共同特征空间，计算共同特征空间内文本特征与每个视觉特征的余弦相似度，并将与文本特征的余弦相似度最大的视觉特征所对应的候选答案作为正确答案，输出正确答案。

若输入的问句有对应的候选答案，则基于所述检索系统的文本特征提取网络、视觉特征提取网络、共同特征空间转换网络进行视觉问答的检索。具体地，若问句有对应的候选答案，则利用文本特征提取网络提取问句的文本特征，利用视觉特征提取网络提取候选答案的视觉特征，再利用共同特征空间转换网络的文本映射矩阵W_T将文本特征转化至共同特征空间，利用共同特征空间转换网络的视觉映射矩阵W_I将所述视觉特征转化至共同特征空间，计算共同特征空间内文本特征与每个视觉特征的余弦相似度，并将与文本特征的余弦相似度最大的视觉特征所对应的候选答案作为正确答案，输出正确答案。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤及系统，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种面向无约束视觉问答指向问题的检索方法，其特征在于，

基于文本特征提取网络提取输入问句的文本特征；

其中，

2.根据权利要求1所述的面向无约束视觉问答指向问题的检索方法，其特征在于，基于成对的排序损失函数迭代训练所述检索方法，以更新文本特征提取网络和文本映射矩阵W_T和视觉映射矩阵W_I的权重，且

在迭代训练过程中不改变视觉特征提取网络的权重。

3.根据权利要求1所述的面向无约束视觉问答指向问题的检索方法，其特征在于，基于反向传播算法和成对的排序损失函数迭代训练所述检索方法，以更新文本特征提取网络和文本映射矩阵W_T和视觉映射矩阵W_I的权重，且

在迭代训练过程中不改变视觉特征提取网络的权重。

4.根据权利要求2或3所述的面向无约束视觉问答指向问题的检索方法，其特征在于，所述视觉特征提取网络基于权重共享策略提取候选答案的视觉特征。

5.根据权利要求2所述的面向无约束视觉问答指向问题的检索方法，其特征在于，所述基于成对的排序损失函数迭代训练，其训练方法为：

步骤S1：使用文本特征提取网络提取输入问句的文本特征；

步骤S2：使用视觉特征提取网络提取候选答案的视觉特征；

步骤S5：计算每个样本对的余弦相似度；

6.根据权利要求5所述的面向无约束视觉问答指向问题的检索方法，其特征在于，所述成对的排序损失函数为：

7.根据权利要求5所述的面向无约束视觉问答指向问题的检索方法，其特征在于，“使用文本映射矩阵W_T将所述文本特征转化到共同特征空间”，其表达式为：

x＝W_Tx'

其中，x为共同特征空间中问句的文本特征，x'为循环神经网络输出的问句的文本特征，

8.根据权利要求5所述的面向无约束视觉问答指向问题的检索方法，其特征在于，“使用图像映射矩阵W_I将所述视觉特征映射到共同特征空间”，其表达式为：

v＝W_Iv'

其中，v为共同特征空间中候选答案的视觉特征，v'为卷积神经网络输出的候选答案的视觉特征，其中

9.根据权利要求5所述的面向无约束视觉问答指向问题的检索方法，其特征在于，使用随机初始化的方式生成文本特征提取网络和文本映射矩阵W_T和图像映射矩阵W_I的初始权重。

10.根据权利要求5-9任一项所述的面向无约束视觉问答指向问题的检索方法，其特征在于，所述正样本对由输入问句的文本特征和输入问句对应正确答案的视觉特征构成；

11.根据权利要求10所述的面向无约束视觉问答指向问题的检索方法，其特征在于，在训练完成之后对所述检索方法进行评价，得出评价结果。

12.一种面向无约束视觉问答指向问题的检索系统，其特征在于，所述系统包括：文本特征提取网络、视觉特征提取网络、候选答案生成网络、共同特征空间转换网络；

文本特征提取网络，用以提取输入的问句的文本特征，并输送至共同特征空间网络；

视觉特征提取网络，用以提取输入的候选答案的视觉特征，并输送至共同特征空间网络；

13.根据权利要求12所述的面向无约束视觉问答指向问题的检索方法，其特征在于，若输入的问句有对应的候选答案，则基于所述检索系统的文本特征提取网络、视觉特征提取网络、共同特征空间转换网络进行视觉问答指向问题的检索。