CN109255047A

CN109255047A - 基于互补语义对齐和对称检索的图像-文本互检索方法

Info

Publication number: CN109255047A
Application number: CN201810787435.3A
Authority: CN
Inventors: 田春娜; 姜萌萌; 高新波; 刘恒; 张相南; 王秀美
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2019-01-22

Abstract

本发明属于计算机视觉与自然语言处理技术领域，公开了一种基于互补语义对齐和对称检索的图像‑文本互检索方法，采用卷积神经网络提取图像的深度视觉特征；利用基于目标的卷积神经网络和基于场景分布的卷积神经网络融合的模型提取深度视觉特征，确保视觉特征包含目标和场景多重互补语义信息；利用长短期记忆网络对文本进行编码，提取出对应的语义特征表示；利用两个映射矩阵分别将视觉特征和文本特征映射到同一个跨模态的嵌入空间中；利用k最近邻的方法，在该跨模态嵌入空间检索，得到检索的初始列表；利用基于互近邻的方法对称双向检索的邻近关系，对初始检索列表进行重排序，得到最终的检索等级列表。本发明具有准确度高的优点。

Description

基于互补语义对齐和对称检索的图像-文本互检索方法

技术领域

本发明属于计算机视觉与自然语言处理技术领域，尤其涉及一种基于互补语义对齐和对称检索的图像-文本互检索方法。

背景技术

目前，业内常用的现有技术是这样的：图像-语义描述互检索任务旨在给定一张检索图像在文本库中检索出与之相关的文本描述语句，或者给定一句文本描述在图片库中检索出与之对应的图像。具有重要的实际应用意义，例如帮助盲人“看清”世界等；除此之外，该任务还被视为图像理解的一个重大挑战，是计算机视觉中的一个核心问题。因此，图像-语义描述互检索任务是计算机视觉与自然语言处理领域最热门的研究之一。目前，大多数的图像-语义互检索方法主要是在实例水平上进行的，主要检索的是预先定义好的实例，除此之外，还有一些方法是基于类别标签的视觉检索。根据检索方向的不同，图像-语义描述检索主要可以分为两大类。第一类是在视觉空间的单向检索，首先在视觉空间里检索出与检索图像相似的候选图片，然后将这些候选图片对应的语义描述的句子进行重排序，进而得到最终的检索图像的语义描述的检索结果。现有技术一提出了一种基于词组重组的检索方法：给定一张检索图片，他们用分类器或者检测器判断图像中包含的内容元素，然后根据这些内容元素在数据库中检索出其对应的词组，最后用自然语言处理的方法将这些词组重组，得到最终的检索结果。现有技术二是在一个跨模态嵌入空间中实现双向检索，首先基于图像-文本数据库学习得到一个公共的跨模态嵌入空间，然后他们用在这个空间的联合特征来实现对检索样本的跨模态检索。所以跨模态检索至关重要的问题就是如何构建一个图像和文本的联合嵌入空间。近几年来，提出了很多构建联合图像-语义嵌入空间的方法，这些方法主要可以分为两个方面。第一种联合嵌入空间的构建方法是基于典型相关分析(CCA)的，主要包括归一化CCA和核CCA。最近，CCA的方法也应用到了深度学习框架中，然而，CCA方法最大的缺点就是它需要将所有的数据加载到内存中来计算协方差矩阵，所以这对内存的消耗是很大的。另一种联合嵌入的方法是基于等级损失函数的，比如很多深度学习方法，例如限制玻尔兹曼机和自编码器，都是基于等级损失函数将图像和文本映射到同一跨模态嵌入空间。WSABIE和DeVISE就是基于一个单向等级损失函数学习得到线性映射，将视觉和文本特征映射到同一嵌入空间，然而，基于单向等级损失函数的方法可能在反向检索的时候产生误差。为了解决这一问题，一些系统开始使用双向等级损失函数监督学习映射矩阵，例如，提出了一种VSE的联合嵌入空间的构建方法，VSE用一个双向等级损失函数监督学习得到对应的映射矩阵，将深度视觉特征和深度文本特征映射到同一嵌入空间。在VSE的基础上改进了双向等级函数，最终实现了图像-语义描述检索的最好结果。近几年来，显著性机制也被应用到了图像-语义描述检索的任务中，该机制选择性的关注到特定的图像区域和文本词组上，并计算它们之间的相似度。利用一个同时作用于图像和描述句子的显著性机制，来计算图像和自然语言之间的细节相似度。

然而,现有技术存在的问题是:现有方法所用到的图像特征仅仅包含图像的目标信息，忽视了图像的场景上下文信息，而在文本特征里面既包括目标信息又包括场景上下文信息，因此带图像特征和文本特征在嵌入空间对齐的时候会产生较大的偏差。除此之外，由于文本里面的信息是高度浓缩之后的语义信息，而图像特征里面包含更为丰富的语义信息，所以检索的时候会出现双向检索结果不对称的问题，例如一张图片检索出的前k个句子，对这些句子反向检索图片的时候，该图片不一定会出现在句子的前k个检索结果中，进而影响双向检索的精度。

发明内容

针对现有技术存在的问题，本发明提供了一种基于互补语义对齐和对称检索的图像-文本互检索方法。

本发明是这样实现的，一种基于互补语义对齐和对称检索的图像-文本互检索方法，所述基于互补语义对齐和对称检索的图像-文本互检索方法采用卷积神经网络提取图像的深度视觉特征；利用基于目标的卷积神经网络和基于场景分布的卷积神经网络融合的模型提取深度视觉特征，确保视觉特征包含目标和场景多重互补语义信息；利用长短期记忆网络对文本进行编码，提取出对应的语义特征表示；利用两个映射矩阵分别将视觉特征和文本特征映射到同一个跨模态的嵌入空间中；利用k最近邻的方法，在该跨模态嵌入空间检索，得到检索的初始列表；利用基于互近邻的方法对称双向检索的邻近关系，对初始检索列表进行重排序，得到最终的检索等级列表。

进一步，所述基于互补语义对齐和对称检索的图像-文本互检索方法包括以下步骤：

步骤一，利用多种预训练好的CNN提取多重图像视觉特征；将包含不同语义信息的多重图像视觉特征融合，得到最终的图像深度视觉特征；

步骤二，用长短期记忆网络对文本进行编码，提取文本语义特征；

步骤三，将上述得到的图像视觉特征和文本语义特征映射到同一个跨模态的嵌入空间中；

步骤四，在该跨模态嵌入空间中，进行k最近邻检索，得到初始的检索排序列表；再利用互为近邻的检索方法，对初始排序列表进行重排序，得到最终的检索结果。

进一步，所述步骤一具体包括：

(1)用目标图像数据库预训练卷积神经网络，用该卷积神经网络提取出包含图像目标信息的深度视觉特征φ_obj；

(2)用场景图像数据库预训练卷积神经网络，用该卷积神经网络提取出包含图像场景上下文信息的深度视觉特征φ_sce；

(3)可用不同的神经网络提取深度图像特征，取VGG网络FC7层的输出，ResNet152网络pool5层的输出，DenseNet161网络的normal5层输出作为视觉图像特征表示；将这两种包含不同的语义信息的图像深度视觉特征进行如下融合：

φ_multi＝[Norm(φ_obj),Norm(φ_sce)]；

得到最终的基于多信息融合的图像视觉特征表示。

进一步，所述步骤二具体包括：

(1)构建词字典，将句子中的每个单词用独热向量表示，该独热向量设为m维；用word2vec算法将每个单词的独热向量映射成一个n维的词向量；

(2)将句子中的每个单词对应的n维词向量按顺序输入到长短期记忆网络中，取最后时刻的状态向量作为整个句子的特征表示，将句子特征向量设为i维。

进一步，所述步骤三具体包括：

(1)学习一个视觉映射矩阵，将基于多信息融合的图像视觉特征映射到一个d维的跨模态嵌入空间中，同样地，学习一个文本映射矩阵将文本语义特征映射到同一跨模态嵌入空间；在该嵌入空间中定义一个距离度量函数，来衡量文本与图像特征之间的距离关系，距离越小对应的文本和图像之间越相关；

(2)基于一个双向损失函数，用随机梯度下降法更新视觉映射矩阵、文本映射矩阵以及长短期记忆网络的参数，最终学习得到良好的视觉映射矩阵和文本映射矩阵，将视觉特征和文本特征映射到统一嵌入空间，最终在该空间中实现的视觉语义对齐；

(3)考虑到基于目标图像数据库和基于场景图像数据库预训练的卷积神经网络，不能很好的适应图像-文本检索任务，所以需要同样基于一个双向损失函数，用随机梯度下降法对上述预训练网络的参数进行微调，微调时对网络结构从后往前逐层微调其中的参数，最终将网络调到最优。

进一步，所述步骤四具体包括：

(1)利用对应的映射矩阵将给出的检索样本P映射到学习到的跨模态嵌入空间，将待检索的样本集同样用映射矩阵映射到统一嵌入空间，在该空间中，找出距离检索样本特征最近的k个待检索样本的特征，将这k个样本按照其与检索样本P距离从小到大排序，得到初始的检索等级排序列表；

(2)将初始排序列表的k个样本分别作为检索样本，按照步骤4中的检索算法得到每个待检索样本的基于k近邻的初始检索等级排序列表；

(3)对于初始检索列表中的k个待检索样本，判断检索样本P是否属于其基于k近邻的初始检索排序列表中，若属于，则该待检索样本和检索样本P在跨模态嵌入空间中属于互为近邻关系，否则为非互为近邻关系，因此检索样本P的互为近邻样本集合表达式如下：

R(P,k)＝{g_i|(g_i∈N(P,k))∧(P∈N(g_i,k))}；

在初始检索列表的基础上，将与检索样本P互为近邻关系的待检索样本排序等级提前，进而得到最终的检索等级排序列表。

本发明的另一目的在于提供一种应用所述基于互补语义对齐和对称检索的图像-文本互检索方法的计算机视觉处理系统。

本发明的另一目的在于提供一种应用所述基于互补语义对齐和对称检索的图像-文本互检索方法的计算机自然语言处理系统。

综上所述，本发明的优点及积极效果为：采用包含多重互补语义信息的图像特征能够使图像特征在跨模态嵌入空间中，与文本语义特征实现更好的对齐，从而实现了图像视觉特征和文本语义特征在目标物体和场景上下文两方面的对齐，构建了更加适用于图像-语义描述互检索的跨模态嵌入空间；采用基于对称检索方法，平衡图像特征和文本语义特征在跨模态嵌入空间中的邻近关系不对称性，减小这种不对称关系会给图片-语义描述互检索精度带来误差，提高互检索精度。在MSCOCO数据库上，与当前最优的算法VSE++相比，本发明在图像对句子的检索精度方面，R@1检索结果提高了4.2％，R@10检索结果提高了1.5％，在句子检索图像方面，R@1检索结果提高了15.7％，R@10检索结果提高了3.8％。

附图说明

图1是本发明实施例提供的基于互补语义对齐和对称检索的图像-文本互检索方法流程图。

图2是本发明实施例提供的基于互补语义对齐和对称检索的图像-文本互检索方法实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明旨在解决图像特征包含信息不全面，丢失场景上下文信息；跨模态检索时两个不同模态的特征之间存在邻近关系不对称性的问题；利用基于互近邻的方法对初始检索列表进行重排序，得到最终的检索等级排序列表。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于互补语义对齐和对称检索的图像-文本互检索方法包括以下步骤：

S101：利用多种预训练好的CNN提取多重图像视觉特征；将包含不同语义信息的多重图像视觉特征融合，得到最终的图像深度视觉特征；

S102：用长短期记忆网络对文本进行编码，提取文本语义特征；

S103：将得到的图像视觉特征和文本语义特征映射到同一个跨模态的嵌入空间中；

S104：在该跨模态嵌入空间中，进行k最近邻检索，得到初始的检索排序列表；再利用互为近邻的检索方法，对初始排序列表进行重排序，得到最终的检索结果。

在本发明的优选实施例中，步骤S101是将基于不同数据库预训练的CNN提取出的图像视觉特征融合在一起，其中包括基于目标的视觉特征和基于场景上下文的视觉特征。融合过的视觉图像特征包含更加丰富的语义信息，能够更好的对应到相应的文本特征。

下面结合附图和具体实施例，对本发明作进一步详细描述。

如图2所示，本发明实施例提供的基于互补语义对齐和对称检索的图像-文本互检索方法包括以下步骤：

步骤1，利用多种预训练好的CNN提取多重图像视觉特征；将包含不同语义信息的多重图像视觉特征融合，得到最终的图像深度视觉特征；

(1a)用目标图像数据库预训练卷积神经网络，用该卷积神经网络提取出包含图像目标信息的深度视觉特征φ_obj；

(1b)用场景图像数据库预训练卷积神经网络，用该卷积神经网络提取出包含图像场景上下文信息的深度视觉特征φ_sce；

(1c)取VGG网络FC7层的输出，作为视觉图像特征表示；将这两种包含不同的语义信息的图像深度视觉特征进行如下融合：

φ_multi＝[Norm(φ_obj),Norm(φ_sce)]；

得到最终的基于多信息融合的图像视觉特征表示。

步骤2，用长短期记忆网络对文本进行编码，提取文本语义特征；

(2a)构建词字典，将句子中的每个单词用独热向量表示，该独热向量设为m维；用word2vec算法将每个单词的独热向量映射成一个n维的词向量；

(2b)将句子中的每个单词对应的n维词向量按顺序输入到长短期记忆网络中，取最后时刻的状态向量作为整个句子的特征表示，这里将句子特征向量设为i维。

步骤3，将上述得到的图像视觉特征和文本语义特征映射到同一个跨模态的嵌入空间中；

(3a)学习一个视觉映射矩阵，将基于多信息融合的图像视觉特征映射到一个d维的跨模态嵌入空间中，同样地，学习一个文本映射矩阵将文本语义特征映射到同一跨模态嵌入空间；在该嵌入空间中定义一个距离度量函数，来衡量文本与图像特征之间的距离关系，距离越小对应的文本和图像之间越相关；

(3b)基于一个双向损失函数，用随机梯度下降法更新视觉映射矩阵、文本映射矩阵以及长短期记忆网络的参数，最终学习得到良好的视觉映射矩阵和文本映射矩阵，将视觉特征和文本特征映射到统一嵌入空间，最终在该空间中实现的视觉语义对齐；

(3c)考虑到基于目标图像数据库和基于场景图像数据库预训练的卷积神经网络，不能很好的适应图像-文本检索任务，所以需要同样基于一个双向损失函数，用随机梯度下降法对上述预训练网络的参数进行微调，微调时对网络结构从后往前逐层微调其中的参数，最终将网络调到最优。

步骤4，在该跨模态嵌入空间中，进行k最近邻检索，得到初始的检索排序列表；再利用互为近邻的检索方法，对初始排序列表进行重排序，得到最终的检索结果；

(4a)利用对应的映射矩阵将给出的检索样本P映射到学习到的跨模态嵌入空间，将待检索的样本集同样用映射矩阵映射到统一嵌入空间，在该空间中，找出距离检索样本特征最近的k个待检索样本的特征，将这k个样本按照其与检索样本P距离从小到大排序，得到初始的检索等级排序列表；

(4b)将初始排序列表的k个样本分别作为检索样本，按照步骤4中的检索算法得到每个待检索样本的基于k近邻的初始检索等级排序列表；

(4c)对于初始检索列表中的k个待检索样本，判断检索样本P是否属于其基于k近邻的初始检索排序列表中，若属于，则该待检索样本和检索样本P在跨模态嵌入空间中属于互为近邻关系，否则为非互为近邻关系，因此检索样本P的互为近邻样本集合表达式如下：

R(P,k)＝{g_i|(g_i∈N(P,k))∧(P∈N(g_i,k))}；

以下结合仿真实验，对本发明的技术效果作进一步说明。

1.仿真条件和内容

仿真条件：本发明用到的编程语言为Python，深度学习框架是Pytorch，系统是Linux系统，利用GPU进行加速仿真，用到的数据库为MSCOCO数据库；

仿真内容：本发明在MSCOCO数据库上进行仿真，该数据库包含164,062张图片，每张图片对应五个描述句子，本发明用该数据库的82783张图片作为训练样本，用剩下的图片中的1000张作为验证集，另外1000张图片作为测试及进行实验。本发明首先将图片调整到256*256的大小，在用随机剪裁的方法将图片剪裁为224*224的大小，然后用VGG19的FC7层的输出作为图像视觉特征的表示，维数为4096，用长短期记忆网络提取描述句子的特征表示，维数为512，最终将视觉特征和句子特征映射为1024维。本发明的实验结果衡量标准采用Recall@K(R@K)，即前K个检索结果中出现正确描述句子的测试样本的比例。

2.仿真结果分析

表格1是本发明与当前最优算法VSE++比较的结果，从表1中可以看出，本发明在图像对句子的检索精度方面，R@1检索结果提高了4.2％，R@10检索结果提高了1.5％，在句子检索图像方面，R@1检索结果提高了15.7％，R@10检索结果提高了3.8％。该结果证明了本发明在图像-句子检索任务上的适用性和优越性。

表1

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于互补语义对齐和对称检索的图像-文本互检索方法，其特征在于，所述基于互补语义对齐和对称检索的图像-文本互检索方法采用卷积神经网络提取图像的深度视觉特征；利用基于目标的卷积神经网络和基于场景分布的卷积神经网络融合的模型提取深度视觉特征，确保视觉特征包含目标和场景多重互补语义信息；利用长短期记忆网络对文本进行编码，提取出对应的语义特征表示；利用两个映射矩阵分别将视觉特征和文本特征映射到同一个跨模态的嵌入空间中；利用k最近邻的方法，在该跨模态嵌入空间检索，得到检索的初始列表；利用基于互近邻的方法对称双向检索的邻近关系，对初始检索列表进行重排序，得到最终的检索等级列表。

2.如权利要求1所述的基于互补语义对齐和对称检索的图像-文本互检索方法，其特征在于，所述基于互补语义对齐和对称检索的图像-文本互检索方法包括以下步骤：

3.如权利要求2所述的基于互补语义对齐和对称检索的图像-文本互检索方法，其特征在于，所述步骤一具体包括：

φ_multi＝[Norm(φ_obj),Norm(φ_sce)]；

得到最终的基于多信息融合的图像视觉特征表示。

4.如权利要求2所述的基于互补语义对齐和对称检索的图像-文本互检索方法，其特征在于，所述步骤二具体包括：

5.如权利要求2所述的基于互补语义对齐和对称检索的图像-文本互检索方法，其特征在于，所述步骤三具体包括：

6.如权利要求2所述的基于互补语义对齐和对称检索的图像-文本互检索方法，其特征在于，所述步骤四具体包括：

R(P,k)＝{g_i|(g_i∈N(P,k))∧(P∈N(g_i,k))}；

7.一种应用权利要求1～6任意一项所述基于互补语义对齐和对称检索的图像-文本互检索方法的计算机视觉处理系统。

8.一种应用权利要求1～6任意一项所述基于互补语义对齐和对称检索的图像-文本互检索方法的计算机自然语言处理系统。