CN107657008A

CN107657008A - 基于深度判别排序学习的跨媒体训练及检索方法

Info

Publication number: CN107657008A
Application number: CN201710874222.XA
Authority: CN
Inventors: 黄庆明; 张亮; 王树徽
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2018-02-02
Anticipated expiration: 2037-09-25
Also published as: CN107657008B

Abstract

本发明涉及一种基于深度判别排序学习的跨媒体训练方法，包括以下步骤：利用深度网络对训练集合中的图像样本和语句样本提取特征，并获得特征向量对；其中，所述特征向量对包括用于表示所述图像样本的图像特征向量和用于表示所述语句样本的语句特征向量；将获得的特征向量对映射到共同空间，并计算所述图像特征向量与所述语句特征向量的相似度；利用双向判别排序目标函数对所述特征向量对进行排序，并获得训练模型。

Description

基于深度判别排序学习的跨媒体训练及检索方法

技术领域

本发明涉及机器学习技术领域，特别涉及一种基于深度判别排序学习的跨媒体训练及检索方法。

背景技术

随着数字媒体技术的普及推广，以文本、视频、音频、图形与图像为主体的多媒体信息数量大量增加，各种新的应用需求也随之而来。跨媒体检索作为多媒体领域和计算机视觉领域的重要研究方向，近年来受到了广泛关注，而排序学习算法一直是跨媒体检索中所使用的重要方法之一。

现有技术中具有多种可用于跨媒体检索的排序学习模型，例如，被动进取模型、大规模图像标注模型和监督语义索引模型等类似的单向排序学习算法，这类方法可用于挖掘不同媒体数据间的语义关联，但却忽略了隐含在被查询模态中的结构信息；现有技术中还包括基于SVM(Support Vector Machine)、WARP(Weighted Approximate Rank Pair-wise)或三元组排序模型等类似的多种双向排序学习算法，这类方法可将语义信息嵌入空间，但是无法根据具体的任务调整特征表示，并且其中有些方法没有考虑样本重要性的问题(例如三元组排序模型)，有些方法无法有效处理大规模数据和高维数据(例如SVM)。

因此，目前需要一种能够根据特定的跨媒体检索任务进行排序学习的可用于海量数据的跨媒体检索方法。

发明内容

本发明的目的是提供一种基于深度判别排序学习的跨媒体训练方法，该方法能够克服上述现有技术的缺陷，具体包括以下步骤：

步骤1)、利用深度网络对训练集合中的图像样本和语句样本提取特征，并获得特征向量对；其中，所述特征向量对包括用于表示所述图像样本的图像特征向量和用于表示所述语句样本的语句特征向量；

步骤2)、将所述步骤1)获得的特征向量对映射到共同空间，并计算所述图像特征向量与所述语句特征向量的相似度；

步骤3)、根据所述步骤2)获得的相似度，利用双向判别排序目标函数对所述特征向量对进行排序，并获得训练模型。

优选的，所述步骤3)还包括对所述训练合集中的图像样本与语句样本进行类间关系约束。

优选的，所述类间关系约束包括将与所述训练合集中的每个样本相关的不同类型样本排列在列表前部；以及对所述训练合集中的每个样本不相关的不同类型样本进行惩罚。

优选的，所述步骤3)还包括对所述训练合集中的图像样本与语句样本进行类内关系约束。

优选的，所述类内关系约束包括将与所述训练合集中的每个样本相关的相同类型样本聚集在一起。

优选的，所述步骤1)还包括利用卷积网络提取所述图像样本特征，利用长短时记忆网络提取语句样本特征；所述步骤2)还包括在所述卷积网络与长短时记忆网络分别增加新的特征映射层。

优选的，采用BP算法优化所述特征映射层，将所述训练集合分解为多个子样本集合执行运算。

根据本发明的另一个方面，还提供一种基于深度判别排序学习的跨媒体检索方法，包括以下步骤：

将待查询样本和待检索样本数据库输入如权利要求1至7任一项获得的训练模型；其中，所述待查询样本是图像样本或语句样本，所述待检索样本数据库是包括语句样本的数据库或包括图像样本的数据库；

利用所述训练模型对所述待查询样本与所述待检索样本数据库中的每个待检索样本提取特征向量对，将所述特征向量对映射到共同空间，并计算所述特征向量对的相似度；

利用所述训练模型对所述特征向量对进行排序。

根据本发明的另一个方面，还提供一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器运行所述程序时执行上述步骤。

根据本发明的另一个方面，还提供一种计算机可读存储介质，包括存储在所述可读存储介质上的计算机程序，其中，所述程序执行上述步骤。

相对于现有技术，本发明取得了如下有益技术效果：本发明提供的基于深度判别排序学习的跨媒体训练及检索方法，将卷积神经网络、记忆网络以及双向判别排序目标函数有效的整合在同一的学习框架中，采用端对端的学习模式，使样本特征表示与媒体数据的语义嵌入相互指导，共同促进，从而获得具有适合于跨媒体任务特征以及判别特征的训练模型，利用该模型进行跨媒体检索，能够有效挖掘不同媒体数据间的语义关联；同时本发明提供的检索方法，将大数据运算分解为多个子问题，节省了内存资源，能够有效处理海量数据或高维数据。

附图说明

图1是本发明提供的训练方法在排序前与排序后共同映射空间中的媒体数据排列示意图。

图2A是传统的跨媒体训练模型示意图。

图2B是本发明提供的跨媒体训练模型示意图。

图3是本发明提供的使用图像检索语句的示意图。

具体实施方式

为了使本发明的目的、技术方案以及优点更加清楚明白，以下结合附图，对根据本发明的基于深度判别排序学习的跨媒体检索方法进行说明。

应用排序算法进行跨媒体检索，指的是针对语义相关的跨媒体数据进行排序，使与查询样本标签一致的样本出现在检索列表的靠前位置，从而满足用户的检索要求。因此，对于检索任务来说，排序算法十分重要。但是，现有的用于跨媒体检索的排序学习算法，通常采用都是传统的特征提取方法，例如Bag of word等，这类算法在学习过程中其特征表示固定不变，难以有效挖掘不同模态间的语义关联；同时其计算过程涉及大矩阵运算，需要消耗大量的内存资源，无法有效的处理海量多媒体数据。

为了解决上述问题，发明人经研究提出了一种适用于海量多媒体数据的基于深度排序学习的跨媒体检索方法，该方法将不同的深度学习框架与跨媒体语义挖掘相结合，能够选择最具代表性的样本来定义目标函数，从而有效的挖掘不同媒体数据间的语义关联。

在本发明的一个实施例中，提供一种基于深度排序学习的跨媒体训练方法，该方法将卷积神经网络、长短时记忆网络以及双向判别排序目标函数整合在一个学习框架内，具体包括以下步骤：

S101.特征提取

将包含多个图像样本和多个语句样本的样本数据集作为训练集合，该集合中的图像样本具有表示图像语义的标签，语句样本具有表示语句语义的标签。利用卷积神经网络(例如深度残差网络)对训练集合中的图像样本提取特征，利用长短时记忆网络(LSTM)对训练集合中的语句样本提取特征，将提取出的特征组成图像-语句特征向量对，例如，第i幅图像样本和第j个语句样本组成的特征向量对为{x_i，y_j}。其中，x_i表示图像特征向量，y_j表示语句特征向量，由于图像样本和语句样本的媒体类型不同，此时特征向量对中的x_i和y_j具有不同的维度。

在本发明的另一个实施例中，由于每个语句样本通常都包含了多个词语，为了使用特征向量表示该语句样本，可以计算每个语句样本所包含的多个词语的平均向量。例如，第j个语句样本由p个单词组成，则表示该语句样本的特征向量可以是p个单词的均值向量，即

y_j＝(y_j1+y_j2+y_j3……+y_jp)^T

S102.相似度计算

为了实现训练集合中图像样本和语句样本的语义关联，需要将图像样本和语句样本进行语义比对，由于步骤S101获得的特征向量对{x_i，y_i}中的图像特征向量x_i和语句特征向量y_i具有不同的特征维度，无法直接进行相似度计算，因此，可将上述两种不同特征维度的特征向量映射到相同的空间中以便计算。

在本发明的一个实施例中，采用了在深度残差网络与长短时记忆网络中分别增加新的特征映射层的方式，将不同维度的图像特征向量和语句特征向量分别嵌入到指定的低维度特征空间H_x和H_y。对于本领域普通技术人员来说，可以采取多种已知的方法将不同维度的图像特征向量和语句特征向量分别嵌入到指定的低维度特征空间H_x和H_y，因此这里不再详述。在上述特征空间H_x和H_y中，图像特征向量x_i和语句特征向量y_j具有相同的模态特征维数，可以计算相似度，例如内积相似度f(x_i，y_j)，即利用标准化的内积计算向量x_i和y_j之间的相似度。

S103.判别排序

为了挖掘不同媒体数据间的语义关联，本发明提供了一种判别损失函数，可以利用步骤S102计算获得的相似度判定不同类型样本之间的类间关系，以及相同类型样本之间的类内关系，并根据上述类内与类间关系对样本进行排序，确定样本重要性。

在本发明的一个实施例中，利用第i幅图像样本特征向量x_i以及与该特征向量组成特征向量对的训练集合中的所有语句样本的特征向量计算得出的相似度，来判断该图像样本与所有语句样本的相关程度，从而根据相关程度对语句样本进行排序，使相关度高的语句样本出现在排序列表的靠前位置，具体排序约束定义如下：

其中，函数f(x，y)表示内积相似度；和分别表示与第i幅图像样本的图像特征向量x_i的相关语句样本集合和不相关语句样本集合，因此，在上述约束中，特征向量y_j所表示的第j个语句样本与特征向量x_i所表示的第幅图像样本具有相同的语义标签，特征向量y_k所表示的第k个语句样本与特征向量x_i所表示的第i幅图像样本具有不同的语义标签；

ρ表示限定的正负样本的间距值，可通过训练调参获取。若ρ+f(x_i，y_k)f(x_i，y_j)，则表示图像样本x_i与不相关语句样本y_k之间的相似度比该图像样本x_i与相关语句样本y_j之间的相似度还要高，此时，可对该不相关语句y_k进行惩罚，从而调整该语句样本的序位置；

n表示训练合集中样本的总数，v_x表示直到发现满足上述条件，即ρ+f(x_i，y_k)＞f(x_i，y_j)时的第一个负样本y_k的采样次数，表示最低值函数；

使用L(g)：Z⁺→R⁺表示把序关系映射为损失的函数，其中，Z⁺表示序空间，R⁺表示实数空间，函数定义如下：

其中，g表示训练合集中的样本数，m表示第m个样本。

在本发明的一个实施例中，以图像检索语句为例，发明人通过实验发现，在α_m＝1/m时，可以显著提高与第i幅图像相关语句的排序精度。

在本发明的一个实施例中，类似地，利用第i个语句样本特征向量y_i以及与该特征向量组成特征向量对的训练集合中的所有图像样本的特征向量计算得出的相似度，来判断该语句样本与所有图像样本的相关程度，从而根据相关程度对图像样本进行排序，使相关度高的语句样本出现在排序列表的靠前位置，具体排序约束定义如下：

其中，和分别表示与第i个语句样本的特征向量y_i的相关图像样本集合和不相关图像样本集合，因此，在上述约束中，特征向量x_j所表示的第j幅图像样本与特征向量y_i所表示的第i个语句样本具有相同的语义标签，特征向量x_k所表示的第k幅图像样本与特征向量x_i所表示的第i个语句样本具有不同的语义标签；

若ρ+f(x_k，y_i)＞f(x_j，y_i)，则表示语句样本y_i与不相关图像样本x_k之间的相似度比该语句样本y_i与相关图像样本x_j之间的相似度还要高，此时，可对该不相关图像x_j进行惩罚，从而调整该图像样本的序位置。

在本发明的一个实施例中，将不同类型媒体数据的特征向量映射到共同空间之后，为了降低内存消耗，提高效率，可以将语义相关的同类型样本聚集在一起，即对相同类型的训练样本进行类内判别约束，以图像样本为例，具体定义如下：

max(0，τ+f(x_i，x_k)-f(x_i，x_j))

其中，τ(0≤τ≤1)表示正负样本间距值，可由训练得到，N(x_i)表示与特征向量x_i所表示的第i幅图像样本具有相同语义标签的图像样本集合，因此，在上述函数中，第j幅图像样本与第i幅图像样本具有相同的语义标签，第k幅图像样本与第i幅图像样本具有不同的语义标签，

在本发明的一个实施例中，可将上述类内判别损失与类间判别损失相结合，同时实现图像样本与语句样本的双向判别排序，目标函数定义如下：

其中，n表示训练集中样本数目，i，j，k(1≤i，j，k≤n)表示正负关系三元组，每个三元组包括第i个目标样本，与该目标样本语义标签相同的第j个样本以及与该目标样本语义标签不同的第k个样本；β₁与β₂(0≤β₁，β₂≤1)为通过训练获得的平衡因子，用于调节类内判别约束在目标函数中的比重。

图1是利用上述方法进行排序前与排序后共同映射空间中的媒体数据排列示意图，如图1所示，不同的形状代表不同类型的数据(例如，圆形代表图像数据，正方形代表语句数据)，带有五角星的黑色正方形和黑色圆形表示两个目标样本(即语句样本和图像样本)，其余的图形表示数据库中的其它样本数据；相同颜色的图形表示数据所属的类别一样(即语义相关)，不同颜色表示数据所属的类别不一样(即语义不相关)，例如，黑色表示“动物”类别，白色表示“人物”类别；另外，黑色实线表示目标函数中设定的固定间距值，虚线和点划线分别表示异质媒体(不同类型的媒体数据)和同质媒体(相同类型的媒体数据)在目标函数中需要优化的距离值，例如，线条越短，样本数据越聚集。由图1可知，使用上述目标函数对目标样本进行类内与类间关系进行约束，可以将与目标样本语义相关的同类型样本聚集在一起，并且将与目标样本语义相关的不同类型样本的排序靠前，有利于提高效率和降低内存消耗。

在本发明的另一个实施例中，本发明提供的训练方法采用了BP算法来优化上述新加入的特征映射层以及整体的网络结构，在学习过程中，其信号的传播包括正向传播与反向传播两个过程。正向传播时，输入样本从输入层传入，经各层逐层处理后，传向输出层；若输出层的实际输出与期望输出不符，则转入反向传播阶段，即将输出误差(期望输出与实际输出之差)按原通路反传计算，通过多次的训练来修正模型的权值和阈值。

在本发明的另一个实施例中，进行端对端的训练时，可将训练合集中的所有样本分成若干子集，其中每个子集包含了若干样本，每次只针对一个子集进行训练，例如，利用上述目标函数每次只优化一个子集中的10个样本，从而将大规模矩阵的运算分解为多个子问题运算，直到最优训练模型以便用于跨媒体的检索。

图2A是传统的跨媒体训练模型，图2B是本发明提供的跨媒体训练模型，如图2A和图2B所示，与传统的跨媒体训练模型将特征提取与语义关联独立进行相比，本发明的训练方法利用判别排序损失函数(图2B中未示出)实现跨媒体数据特征表示与语义关联的相互指导，即在学习最优共同映射空间的同时指导特征学习，从而获得适合于跨媒体任务的特征表示以及不同媒体数据的最优语义表达，解决了现有技术中特征提取与语义学习难以兼容的问题。

在本发明的一个实施例中，提供一种基于深度排序学习的跨媒体检索方法，该方法利用上述步骤获得的训练模型，可以实现使用语句与图像之间的跨媒体检索。以使用图像检索语句为例，具体方法如下：

图3是本发明提供的使用图像检索语句的示意图，如图3所示，给定一个待查询样本，例如一副图像1，该图像1中显示了一个头发上戴着蝴蝶结的小女孩在吃满满一盘子的西兰花；以及一个包含多个语句的待检索数据库2。检索任务是用户希望在该数据库2中检索出与待查询图像最相关的语句。

将待查询图像1与待检索数据库2输入上述获得的训练模型，首先利用训练获得的卷积神经网络和长短时记忆网络分别提取待查询图像1以及待检索数据库2中每个语句的特征并组成向量对，在将不同维度的特征向量对映射到共同的低维空间时，利用判别排序损失函数，按照语义相关程度进行排序，从而获得与该待查询图像1语义相关的待检索数据库2中的语句出现在排序列表的靠前位置，例如，与图像1最相关的数据库2中的语句“Alittle girl with bows in her hair eating a plate full of broccoli.”将会出现在排序列表的最前部。

以MSCOCO数据集为例，用Mean Average Precision(MAP)作为衡量检索效果的标准，比较传统的跨媒体检索算法(例如SVM算法和WARP算法)与上述本发明提供的检索方法，具体结果如下：使用SVM算法实现图像检索语句和语句检索图像的MAP平均得分为0.3483，WARP算法的得分为0.3392，本发明提供的检索方法得分为0.3719。依据本领域通常的评价标准可知，相比于传统的跨媒体检索算法，本发明提供的检索方法能够获得更加优秀的检索效果。

尽管在上述实施例中，以图像检索语句为例对本发明提供的跨媒体检索方法进行了说明，但是本领域普通技术人员应当理解，在其他实施例中，本发明提供的跨媒体检索方法同样适用于语句检索图像。

相对于现有技术，本发明提供的跨媒体检索方法将不同的深度学习框架与跨媒体语义挖掘相结合，使特征表示与语义嵌入相结合，从而获得更加适用于跨媒体任务的训练模型。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种基于深度判别排序学习的跨媒体训练方法，包括以下步骤：

2.根据权利要求1所述的跨媒体训练方法，其特征在于，所述步骤3)还包括对所述训练合集中的图像样本与语句样本进行类间关系约束。

3.根据权利要求2所述的跨媒体训练方法，其特征在于，所述类间关系约束包括将与所述训练合集中的每个样本相关的不同类型样本排列在列表前部；以及对所述训练合集中的每个样本不相关的不同类型样本进行惩罚。

4.根据权利要求1所述的跨媒体训练方法，其特征在于，所述步骤3)还包括对所述训练合集中的图像样本与语句样本进行类内关系约束。

5.根据权利要求4所述的跨媒体训练方法，其特征在于，所述类内关系约束包括将与所述训练合集中的每个样本相关的相同类型样本聚集在一起。

6.根据权利要求1所述的跨媒体训练方法，其特征在于，所述步骤1)还包括利用卷积网络提取所述图像样本特征，利用长短时记忆网络提取语句样本特征；所述步骤2)还包括在所述卷积网络与长短时记忆网络分别增加新的特征映射层。

7.根据权利要求6所述的跨媒体训练方法，其特征在于，采用BP算法优化所述特征映射层，将所述训练集合分解为多个子样本集合执行运算。

8.一种基于深度判别排序学习的跨媒体检索方法，包括以下步骤：

利用所述训练模型对所述特征向量对进行排序。

9.一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器运行所述程序时执行如权利要求1至8所述的步骤。

10.一种计算机可读存储介质，包括存储在所述可读存储介质上的计算机程序，其中，所述程序执行如权利要求1至8所述的步骤。