CN110516085A

CN110516085A - 基于双向注意力的图像文本互检索方法

Info

Publication number: CN110516085A
Application number: CN201910626468.4A
Authority: CN
Inventors: 刘静; 石雨佳
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-11-29
Anticipated expiration: 2039-07-11
Also published as: US11373055B2; US20210012150A1; CN110516085B

Abstract

本发明公开了一种基于双向注意力的图像文本互检索方法，可用于电子文本和自然图像互相检索。本发明利用深度神经网络初步提取自然图像特征和电子文本特征，通过构建双向注意力模块，重构深度神经网络初步提取的自然图像特征和电子文本特征，重构后的特征包含更丰富的语义信息。本发明利用双向注意力模块改进传统特征提取过程，得到含有更多图像与文本语义信息的高阶特征，实现图像文本互检索。

Description

基于双向注意力的图像文本互检索方法

技术领域

本发明属于图像处理技术领域，更进一步涉及自然语言处理和计算机视觉交叉技术领域中的一种基于双向注意力的图像文本互检索方法。本发明可用于挖掘自然图像-电子文本两种不同模态的深层联系，提取自然图像特征和文本特征，利用提取的特征计算自然图像与电子文本的匹配概率，实现自然图像-电子文本两种不同模态之间的相互检索。

背景技术

图像文本互检索目前存在两种方法。一种构建相似度学习网络，一种构建特征提取网络。构建相似度学习网络是利用相似度学习网络学习两类数据相似度并生成得分，选取得分最高的一组自然图像与电子文本，完成相互检索。构建特征提取网络是利用特征提取网络分别提取自然图像和电子文本的高阶特征，使用简单的相似度计算公式计算特征间相似性，选取相似度最高的图像文本对，完成相互检索。神经网络拥有多层网络结构，能够提取出数据的高阶特征，常用于文本和图像处理。注意力能够在不同模态特征交互时捕获交互后联合特征，利用联合特征对其他特征进行加权重构，充分挖掘交互信息的作用。基于双向注意力的图像文本互检索方法的主要思想为：利用神经网络对自然图像和电子文本进行初步特征提取，构建双向注意力模块重构自然图像和电子文本特征，利用重构后的特征计算自然图像和电子文本匹配概率，完成相互检索。

腾讯科技有限公司在其在其申请的专利文献“图像文本匹配模型的训练方法、双向搜索方法及相关装置”(专利申请号：201710817344.5，公开号：CN 108288067 A)中提出了一种基于深度神经网络的自然图像与电子文本双向检索方法。该方法利用卷积神经网络模型进行图像特征提取和文本特征提取，再构建相似度衡量网络计算特征相似度。该方法虽然能够利用多层网络提取自然图像和电子文本的高阶特征，但是，该方法仍然存在的不足之处是：自然图片和电子文本属于不同模态的数据，数据的异质性使得简单的通过深度神经网络进行特征提取难以准确表达图像与文本的语义特征，进而难以衡量自然图像与电子文本高阶特征间相似性，影响检索准确率。

S.Li，T.Xiao，H.Li，B.Zhou等人在其发表的论文“Person search with naturallanguage description”(International Conference on Computer Vision and PatternRecognition，2017：1970-1979)中提出了一种基于单向注意力的图像文本检索方法。该方法利用注意力将提取到的图像特征加权到文本特征中，对文本特征进行重构，增强文本与图像之间的相似性。该方法虽然能够利用注意力重构电子文本特征，但是，该方法仍然存在的不足之处是：只是简单地在重构电子文本特征时使用自然图像对电子文本的单向注意力，由于自然图像与电子文本存在对应关系，相互对应的高阶特征间互相影响，仅仅重构电子文本特征而忽略自然图像特征，使得自然图像特征无法准确与电子文本特征对应，影响图像文本互相检索。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于双向注意力的图像文本互检索方法，解决相同语义信息的自然图像与电子文本的相互检索问题。

实现本发明目的的思路是，利用注意力能够在不同模态特征交互时捕获交互后联合特征，利用联合特征对其他特征进行加权重构，充分挖掘交互信息的作用。通过构建双向注意力模块，重构深度神经网络初步提取的自然图像特征和电子文本特征，重构后的特征包含更丰富的语义信息。

本发明具体步骤包括有如下：

(1)生成训练集和测试集：

从Flickr30k数据集中任意选取图像及其对应的文本对共25000个，将其中15000个图像文本对组成训练集，10000个图像文本对组成测试集；

(2)利用神经网络提取每个图像文本对的特征：

(2a)搭建一个14层的神经网络、设置并训练好每层参数；

(2b)将训练集输入到卷积神经网络中，输出15000个图像文本对，每个图像文本对中的图像含有100个图像特征，文本含有100个文本特征；

(3)从所有输出图像文本对中依次选取一个未选取过的图像；

(4)从所有图像文本对中随机选取一个未选过的文本；

(5)构建一个双向注意力模块：

(5a)按照下式，计算所选图像的每个图像特征与所选文本的每个文本特征特征相似度：

其中，R_i,k表示所选图像的第k个图像特征与所选文本的第i个文本特征的相似度，tanh表示双曲正切操作，y_i表示所选文本的第i个文本特征，T表示转置操作，A表示随机生成的15000×15000维的注意力矩阵，x_k表示所选图像的第k个图像特征；

(5b)构建一个由每个图像特征与每个所选文本的所有文本特征的相似度组成的图像特征相似度向量，对每个图像相似度向量进行均值池化操作；构建一个由每个文本特征与每个所选图像的所有图像特征的相似度组成的文本特征相似度向量，对每个图像相似度向量进行均值池化操作；

(5c)按照下述的软注意力公式，计算所选图像的每个图像特征在所有图像特征中的重要程度：

其中，a_k表示所选图像的第k个图像特征在所有图像特征中的重要程度，exp表示以自然常数e为底的指数操作，u_k表示均值池化操作后的第k个图像特征相似度，∑表示求和操作，n表示所选图像的图像特征相似度总数，u_d表示均值池化操作后的第d个文本特征相似度，d的值从1取到n；

(5d)按照下述的软注意力公式，计算所选文本的每个文本特征在所有文本特征中的重要程度：

其中，b_i表示所选文本的第i个文本特征在所有文本特征中的重要程度，t_i表示均值池化操作后的第i个文本特征相似度，l表示所选文本的文本特征相似度总数，t_m表示均值池化操作后的第m个文本特征相似度，m的值从1取到l；

(6)重构所选图像特征与所选文本特征：

(6a)将每个图像特征的重要程度与所选图像的对应图像特征相乘，得到重构后的图像特征；

(6b)将每个文本特征重要程度与所选文本的对应文本特征相乘，得到重构后的文本特征；

(7)判断是否选完所有图像文本对中的文本，若是，则执行步骤(8)，否则，执行步骤(4)；

(8)判断是否选完所有图像文本对中的图像，若是，则执行步骤(9)，否则，执行步骤(3)；

(9)计算匹配概率：

(9a)利用soft-max公式，计算每个图像与所有图像文本对中的每个文本的匹配概率；

(9b)利用soft-max公式，计算每个文本与所有图像文本对中的每个图像的匹配概率；

(10)利用交叉熵训练注意力矩阵：

(10a)利用交叉熵公式，计算每个图像与每个文本匹配概率与每个图像与每个文本的真实匹配概率之间的交叉熵；

(10b)采用梯度下降公式，用每次迭代获得的交叉熵更新注意力矩阵元素值，直到交叉熵小于0.000001为止，得到训练好的注意力矩阵；

(11)完成图像文本互检索：

(11a)将测试集中所有图像文本对输入到步骤(2)训练好的神经网络中，得到测试集中的所有图像文本对的特征；

(11b)用训练好的注意力矩阵与步骤(5a)所有图像文本对中的每个图像特征和每个文本图像相乘，得到重构后的每个图像和每个文本的匹配概率；

(11c)从所有重构后的匹配概率中，选取最大的匹配概率，将其对应的图像文本对作为检索结果。

本发明与现有技术相比，具有以下优点：

第一，由于本发明采用双向注意力对电子文本和自然图像的不同模态特征进行交叉处理，计算每个图像特征在所有图像特征中的重要程度，每个文本特征在所有特征中的重要程度，克服了现有技术中虽然能够利用注意力，但是仅仅简单地使用自然图像对电子文本的单向注意力，由于自然图像与电子文本存在对应关系，相互对应的高阶特征间互相影响，电子文本对自然图像也有影响的问题，使得采用本发明方法有助于利用图像与文本交叉处理后的交互信息，更准确的挖掘图像语义信息与文本语义信息。

第二，由于本发明采用双向注意力得到的每个图像特征的重要程度和每个文本重要程度重构图像特征与文本特征，克服了现有技术中由于自然图片和电子文本属于不同模态的数据，数据的异质性使得简单的通过深度神经网络进行特征提取难以准确表达图像与文本的语义特征，进而难以衡量自然图像与电子文本高阶特征间相似性的问题，使得采用本发明方法有助于更准确的构建图像与文本的特征。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图对本发明做进一步的详细描述。

参照附图1，对本发明的步骤做进一步的详细描述。

步骤1，生成训练集和测试集。

从Flickr30k数据集中任意选取图像及其对应的文本对共25000个，将其中15000个图像文本对组成训练集，10000个图像文本对组成测试集。

步骤2，利用神经网络提取每个图像文本对的特征。

搭建一个14层的神经网络、设置并训练好每层参数。

所述神经网络，其结构依次为：第一卷积层—>第一池化层—>第二卷积层—>第二池化层—>第三卷积层—>第三池化层—>第四卷积层—>第四池化层—>第五卷积层—>第五池化层—>第六卷积层—>第六池化层—>第七卷积层—>第七池化层—>第八卷积层—>第八池化层—>第九卷积层—>第九池化层—>第十卷积层—>第十池化层—>第十一卷积层—>第十一池化层—>第十二卷积层—>第十二池化层—>第十三卷积层—>第十三池化层—>全连接层。

所述设置每层参数如下：将第一第二卷积层的卷积核大小设置为3×3，个数设置为64，将第三第四卷积层的卷积核大小设置为3×3，个数设置为128，将第五至第七卷积层的卷积核大小设置为3×3，个数设置为256，将第八至第十三卷积层的卷积核大小设置为3×3，个数设置为512；每个池化层均采用最大池化方式，每个池化层的卷积池化核大小均设置的为2×2，步长均设置为2；全连接层的输入和输出节点个数分别设置为4086和100。

将训练集输入到已训练好的卷积神经网络中，输出15000个图像文本对，每个图像文本对中的图像含有100个图像特征，文本含有100个文本特征。

步骤3，从所有输出图像文本对中依次选取一个未选取过的图像。

步骤4，从所有图像文本对中随机选取一个未选过的文本。

步骤5，构建一个双向注意力模块。

按照下式，计算所选图像的每个图像特征与所选文本的每个文本特征特征相似度：

其中，R_i,k表示所选图像的第k个图像特征与所选文本的第i个文本特征的相似度，tanh表示双曲正切操作，y_i表示所选文本的第i个文本特征，T表示转置操作，A表示随机生成的15000×15000维的注意力矩阵，x_k表示所选图像的第k个图像特征。

构建一个由每个图像特征与每个所选文本的所有文本特征的相似度组成的图像特征相似度向量，对每个图像相似度向量进行均值池化操作；构建一个由每个文本特征与每个所选图像的所有图像特征的相似度组成的文本特征相似度向量，对每个图像相似度向量进行均值池化操作。

按照下述的软注意力公式，计算所选图像的每个图像特征在所有图像特征中的重要程度：

其中，a_k表示所选图像的第k个图像特征在所有图像特征中的重要程度，exp表示以自然常数e为底的指数操作，u_k表示均值池化操作后的第k个图像特征相似度，∑表示求和操作，n表示所选图像的图像特征相似度总数，u_d表示均值池化操作后的第d个文本特征相似度，d的值从1取到n。

按照下述的软注意力公式，计算所选文本的每个文本特征在所有文本特征中的重要程度：

其中，b_i表示所选文本的第i个文本特征在所有文本特征中的重要程度，t_i表示均值池化操作后的第i个文本特征相似度，l表示所选文本的文本特征相似度总数，t_m表示均值池化操作后的第m个文本特征相似度，m的值从1取到l。

步骤6，重构所选图像特征与所选文本特征。

按照下式，将每个图像特征的重要程度与所选图像的对应图像特征相乘，得到重构后的图像特征[X₁,...,X_k,...,X_n]。

[X₁,...,X_k,...,X_n]＝[a₁x₁,...,a_kx_k,...,a_nx_n]

其中，X_k＝a_kx_k，X_k表示所选图像重构后的第k个图像特征，k的值从1取到n。

按照下式，将每个文本特征重要程度与所选文本的对应文本特征相乘，得到重构后的文本特征[Y₁,...,Y_i,...,Y_l]。

[Y₁,...,Y_i,...,Y_l]＝[b₁y₁,...,b_iy_i,...,b_ly_l]

其中，Y_i＝b_iy_i，Y_i表示所选文本重构后的第i个文本特征，i的值从1取到l。

步骤7，判断是否选完所有图像文本对中的文本，若是，则执行步骤8，否则，执行步骤4。

步骤8，判断是否选完所有图像文本对中的图像，若是，则执行步骤9，否则，执行步骤3。

步骤9，计算匹配概率。

利用soft-max公式，计算每个图像与所有图像文本对中的每个文本的匹配概率；所述soft-max公式如下：

其中，p_q,j表示图像文本对中第q个图像与第j个文本的匹配概率，exp表示以自然常数e为底的指数操作，V_q表示图像文本对中第q个图像特征，T表示转置操作，T_j表示图像文本对中第j个文本特征，∑表示求和操作，T_r表示图像文本对中第r个文本特征，r的取值是从1到15000。

利用soft-max公式，计算每个文本与所有图像文本对中的每个图像的匹配概率；所述soft-max公式如下：

其中，p_j,q表示图像文本对中第j个文本与第q个图像与的匹配概率，exp表示以自然常数e为底的指数操作，T_j表示图像文本对中第j个文本特征，T表示转置操作，V_q表示图像文本对中第q个图像特征，∑表示求和操作，V_s表示图像文本对中第s个图像的特征向量，s的取值是从1取到15000。

步骤10，利用交叉熵训练注意力矩阵。

利用交叉熵公式，计算每个图像与每个文本匹配概率与每个图像与每个文本的真实匹配概率之间的交叉熵。

所述交叉熵公式如下：

L_j,q＝y_j,qlnp_j,q

其中，L_j,q表示图像文本对中第j个文本与第q个图像匹配概率与真实匹配概率之间的交叉熵，y_j,q表示图像文本对中第j个文本与第q个图像真实匹配概率，ln表示以自然常数e为底的对数操作，p_q,j表示图像文本对中第q个图像与第j个文本的匹配概率。

采用梯度下降公式，用每次迭代获得的交叉熵更新注意力矩阵元素值，直到交叉熵小于0.000001为止，得到训练好的注意力矩阵。

所述梯度下降公式如下：

其中，表示第s+1次迭代后的第j行第q列的注意力矩阵元素值，表示第s次迭代后的第j行第q列的注意力矩阵元素值，η表示取值为0.001的学习速率，表示取偏导操作，L_j,q表示图像文本对中第j个文本与第q个图像匹配概率与真实匹配概率之间的交叉熵。

步骤11，完成图像文本互检索。

将测试集中所有图像文本对输入到步骤2训练好的神经网络中，得到测试集中的所有图像文本对的特征。

用训练好的注意力矩阵与步骤5所有图像文本对中的每个图像特征和每个文本图像相乘得到的每个图像特征和每个文本特征在所有图像特征和文本特征中的重要程度，利用重要程度重构所有图像与文本特征，计算重构后的每个图像和每个文本的匹配概率。

从所有重构后的匹配概率中，选取最大的匹配概率，将其对应的图像文本对作为检索结果。

本发明的效果可通过以下仿真进一步说明。

1.仿真条件：

本发明的仿真实验的硬件平台为：NVIDIA GEFORCE GTX 1080GPU。

本发明的仿真实验的软件平台为：Windows10操作系统和TensorFlow1.9.0。

2.仿真内容及仿真结果分析：

本发明仿真实验中生成训练集和测试集时使用了雅虎采集的Flickr30k数据集，该数据集由31783个自然图像和电子文本对组成。本发明仿真使用的数据是从Flickr30k中的31783个自然图像和电子文本对中随机选取25000个自然图像和电子文本对，其中15000个自然图像和电子文本对作为训练数据，10000个自然图像和电子文本对作为测试数据。

本发明仿真实验是采用本发明和三个现有技术(多模型卷积循环神经网络m-CNN图像文本互检索方法、深度结构保存图像文本嵌入网络DSPE图像文本互检索方法、循环残差融合网络RRF-Net图像文本互检索方法)分别检索测试数据中10000个自然图像和电子文本对中每个图像对应的文本和每个文本对应的图像。

在仿真实验中，采用的三个现有技术是指：

现有技术多模型卷积循环神经网络m-CNN图像文本互检索方法是指，L.Ma等人在“Multimodal convolutional neural networks for matching image and sentence.In:Proceedings of the IEEE International Conference on Computer Vision,pp.2623-2631,2015”中提出的图像文本互检索方法，简称多模型卷积循环神经网络m-CNN图像文本互检索方法。

现有技术深度结构保存图像文本嵌入网络DSPE图像文本互检索方法是指，L.Wang等人在“Learning deep structure-preserving image-text embeddings,In:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,pp.5005-5013,2016”中提出的图像文本互检索方法，简称深度结构保存图像文本嵌入网络DSPE图像文本互检索方法。

现有技术循环残差融合网络RRF-Net图像文本互检索方法是指，Y.Liu等人在“Learning a recurrent residual fusion network for multimodal matching,In:Proceedings of the IEEE International Conference on Computer Vision,pp.4107-4116,2017”中提出的图像文本互检索方法，简称循环残差融合网络RRF-Net图像文本互检索方法。

为了对本发明仿真的结果的效果进行评估，仿真结果评估标准为：Recall@1，Recall@1表示将每个图像和每个文本的匹配概率从大到小排序，@1取最大的匹配概率作为检索结果，统计正确的检索结果占全部测试数据的比例，表1如下所示。

表1仿真实验中本发明和各现有技术互检索成功率对比表

表1是采用现有技术基于Recall@1评估标准方法得到的仿真结果，用多模型卷积循环神经网络(m-CNN)、深度结构保存图像文本嵌入网络(DSPE)、循环残差融合网络(RRF-Net)图像文本匹配方法对比实验后，统计正确的检索结果占全部测试数据的比例得到的对比表。

从表1中可以看出本发明方法的用图像检索文本检索正确的结果占全部测试数据的比例为79.2％，用文本检索图像检索正确的结果占全部测试数据的比例为68.8％，高于3种现有技术方法，证明本方法可以更准确的实现图像与文本相互检索，表明了双向注意力模块在构建图像和文本特征时可以提取更准确的特征。

Claims

1.一种基于双向注意力的图像文本互检索方法，其特征在于，利用双向注意力对电子文本和自然图像的不同模态特征进行交叉处理，利用交叉处理后的联合特征重构电子文本特征和自然图像特征，该方法的具体步骤包括如下：

(1)生成训练集和测试集：

从数据集中任意选取图像及其对应的文本对共25000个，将其中15000个图像文本对组成训练集，10000个图像文本对组成测试集；

(2)利用神经网络提取每个图像文本对的特征：

(2a)搭建一个14层的神经网络、设置并训练好每层参数；

(2b)将训练集输入到训练好的卷积神经网络中，输出15000个图像文本对，每个图像文本对中的图像含有100个图像特征，文本含有100个文本特征；

(3)从所有输出图像文本对中依次选取一个未选取过的图像；

(4)从所有图像文本对中随机选取一个未选过的文本；

(5)构建一个双向注意力模块：

其中，R_i,k表示所选图像中第k个图像特征与所选文本中第i个文本特征的相似度，tanh表示双曲正切操作，y_i表示所选文本的第i个文本特征，T表示转置操作，A表示随机生成的15000×15000维的注意力矩阵，x_k表示所选图像的第k个图像特征；

其中，a_k表示所选图像的第k个图像特征在所有图像特征中的重要程度，exp表示以自然常数e为底的指数操作，u_k表示均值池化操作后的第k个图像特征相似度，∑表示求和操作，n表示所选图像的图像特征相似度总数，u_d表示均值池化操作后的第d个文本特征相似度，d的取值范围为[1，n]；

其中，b_i表示所选文本的第i个文本特征在所有文本特征中的重要程度，t_i表示均值池化操作后的第i个文本特征相似度，l表示所选文本的文本特征相似度总数，t_m表示均值池化操作后的第m个文本特征相似度，m的取值范围为[1，l]；

(6)重构所选图像特征与所选文本特征：

(9)计算匹配概率：

(10)利用交叉熵训练注意力矩阵：

(11)完成图像文本互检索：

(11b)用训练好的注意力矩阵与步骤(5a)所有图像文本对中的每个图像特征和每个文本图像相乘，得到的每个图像特征和每个文本特征在所有图像特征和文本特征中的重要程度，利用重要程度重构所有图像与文本特征，计算重构后的每个图像和每个文本的匹配概率；

2.根据权利要求1所述的基于双向注意力的图像文本互检索方法，其特征在于，步骤(2a)中所述利用已有神经网络，其结构依次为：第一卷积层—>第一池化层—>第二卷积层—>第二池化层—>第三卷积层—>第三池化层—>第四卷积层—>第四池化层—>第五卷积层—>第五池化层—>第六卷积层—>第六池化层—>第七卷积层—>第七池化层—>第八卷积层—>第八池化层—>第九卷积层—>第九池化层—>第十卷积层—>第十池化层—>第十一卷积层—>第十一池化层—>第十二卷积层—>第十二池化层—>第十三卷积层—>第十三池化层—>全连接层。

3.根据权利要求1所述的基于双向注意力的图像文本互检索方法，其特征在于，步骤(2a)中所述设置每层参数如下：将第一第二卷积层的卷积核大小设置为3×3，个数设置为64，将第三第四卷积层的卷积核大小设置为3×3，个数设置为128，将第五至第七卷积层的卷积核大小设置为3×3，个数设置为256，将第八至第十三卷积层的卷积核大小设置为3×3，个数设置为512；每个池化层均采用最大池化方式，每个池化层的卷积池化核大小均设置的为2×2，步长均设置为2；全连接层的输入和输出节点个数分别设置为4086和100。

4.根据权利要求1所述的基于双向注意力的图像文本互检索方法，其特征在于，步骤(9a)中所述soft-max公式如下：

其中，p_q,j表示图像文本对中第q个图像与第j个文本的匹配概率，exp表示以自然常数e为底的指数操作，V_q表示图像文本对中第q个图像特征，T表示转置操作，T_j表示图像文本对中第j个文本特征，∑表示求和操作，T_r表示图像文本对中第r个文本特征，r的取值范围为[1，15000]。

5.根据权利要求1所述的基于双向注意力的图像文本互检索方法，其特征在于，步骤(9b)中所述soft-max公式如下：

其中，p_j,q表示图像文本对中第j个文本与第q个图像与的匹配概率，exp表示以自然常数e为底的指数操作，T_j表示图像文本对中第j个文本特征，T表示转置操作，V_q表示图像文本对中第q个图像特征，∑表示求和操作，V_s表示图像文本对中第s个图像的特征向量，s的取值范围为[1，15000]。

6.根据权利要求1所述的基于双向注意力的图像文本互检索方法，其特征在于，步骤(10a)中所述交叉熵公式如下：

L_j,q＝y_j,qlnp_j,q

7.根据权利要求1所述的基于双向注意力的图像文本互检索方法，其特征在于，步骤(10b)中所述梯度下降公式如下：

其中，表示第s+1次迭代后的第j行第q列的注意力矩阵元素值，表示第s次迭代后的第j行第q列的注意力矩阵元素值，η表示学习速率，表示对函数进行偏导操作，L_j,q表示图像文本对中第j个文本与第q个图像匹配概率与真实匹配概率之间的交叉熵。