CN107220337B

CN107220337B - 一种基于混合迁移网络的跨媒体检索方法

Info

Publication number: CN107220337B
Application number: CN201710378474.3A
Authority: CN
Inventors: 黄鑫; 彭宇新
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-05-25
Filing date: 2017-05-25
Publication date: 2020-12-22
Anticipated expiration: 2037-05-25
Also published as: CN107220337A

Abstract

本发明涉及一种基于混合迁移网络的跨媒体检索方法，包括以下步骤：1.建立单媒体数据库和跨媒体数据库，并将跨媒体数据库中的数据分为训练集和测试集。2.利用单媒体数据库和跨媒体数据库的训练集中的数据训练混合迁移网络，用于学习不同媒体数据的统一表征。3.利用训练好的混合迁移网络，得到跨媒体数据库的测试集中数据的统一表征，进而计算跨媒体相似性。4.使用跨媒体测试集中的一种媒体类型作为查询集，另一种媒体类型作为检索库进行检索，根据相似性得到最终检索结果。本发明既实现了从单媒体到跨媒体的知识迁移，也通过强调目标域的语义关联生成更加适合跨媒体检索的统一表征，提高了跨媒体检索的准确率。

Description

一种基于混合迁移网络的跨媒体检索方法

技术领域

本发明属于多媒体检索领域，具体涉及一种基于混合迁移网络的跨媒体检索方法。

背景技术

随着人类文明的进步和科学技术的发展，图像、文本、视频、音频等多媒体数据快速增长，已逐渐成为了信息存储与传播的主要形式。在这种情况下，跨媒体检索成为了人工智能的重要应用之一。跨媒体检索是一种新的检索形式，能够根据任意媒体类型的用户查询，返回具有相关语义而媒体类型不同的检索结果。如用户可以通过一张图像作为查询检索相关的文本，或以文本为查询检索符合其描述的图像。与单媒体检索相比，跨媒体检索能够为互联网用户提供更加灵活的检索体验，并为多媒体数据的统一管理提供技术支撑。然而，不同媒体类型的计算机特征表示形式往往不同，构成了“媒体鸿沟”，使得跨媒体检索面临重要挑战。

针对该问题，现有的主流方法是统一表征学习，即为不同媒体类型学习一个统一的语义空间，进而利用常用的距离度量等方式实现跨媒体检索。在该空间中，数据的距离取决于其语义的相似程度，而与媒体类型无关。早期工作主要利用统计分析方法学习不同媒体到统一空间的线性映射矩阵。如典型相关分析(canonical correlation analysis，简称CCA)方法能够学习得到最大化两种媒体数据关联的子空间，进而利用相同维度的统一表征来表示不同媒体的数据。Rasiwasia等人在文献“A New Approach to Cross-ModalMultimedia Retrieval”中提出了高层语义映射方法，先利用CCA学习两种媒体的统一空间，再使用逻辑回归方法在此空间中得到高层语义表示作为最终的统一表征。该方法在CCA的基础上利用了概念类别标注信息，因此学习到的统一表征具有更好的语义辨别能力。Peng等人在文献“Semi-Supervised Cross-Media Feature Learning with UnifiedPatch Graph Regularization”中提出了S²UPG方法，利用同一个超图联合建模多种媒体的整体数据与语义单元，从而能够深入挖掘细粒度的跨媒体关联关系，取得了更高的检索准确率。

近年来，深度学习在多媒体检索领域发挥了重要作用，基于深度网络的跨媒体统一表征学习成为了一个研究热点。如Ngiam在文献“Multimodal Deep Learning”中提出多模态自编码器方法，通过同时考虑单媒体重构误差与跨媒体关联关系，利用一个共享编码层得到统一表征。Srivastava等人在文献“Learning Representations for MultimodalData with Deep Belief Nets”中提出多模态深度信念网络，通过一个关联RBM连接两个分离的深度信念网络来得到统一表征。Peng等人在文献“Cross-media Retrieval byMultimodal Representation Fusion with Deep Networks”中提出了跨媒体多深度网络方法，通过结合多种深度网络结构，同时分析媒体内、媒体间的关联关系并进行层次化融合，取得了更好的效果。

深度学习方法的实际效果往往与训练数据的规模密切相关，而现有基于深度网络的跨媒体检索方法面临着训练数据不足的挑战。在单媒体检索中，研究者常常基于迁移学习思想，将大规模数据集(源域)中的知识迁移到训练数据不足的具体任务(目标域)中，从而缓解训练数据不足的问题。如基于ImageNet图像数据集的预训练模型被广泛应用于各种计算机视觉问题，显著提高了模型的效果。这些大规模单媒体数据集包含的丰富语义知识不但能够指导单媒体的语义学习，也能够提供与媒体类型无关的高层语义信息以促进跨媒体语义学习，对于跨媒体检索具有重要价值。现有方法往往只能利用跨媒体数据集进行训练，由于训练数据不足而容易造成过拟合，降低了检索效果；或者只在同种媒体间进行知识迁移，忽略了不同媒体间的知识迁移，使得知识的迁移过程不够全面，限制了统一表征学习的效果。

发明内容

针对现有技术的不足，本发明提出了一种基于混合迁移网络的跨媒体检索方法，能够在一个统一的网络结构中实现单媒体源域到跨媒体目标域的知识迁移。该方法以源域、目标域中共有的媒体类型为桥梁，将单媒体源域中的语义知识同时迁移到跨媒体目标域的所有媒体类型中，并通过网络层共享的方式强调了目标域中的内在跨媒体关联关系，使得统一表征更加适合于目标域上的跨媒体检索任务，提高了检索准确率。

为达到以上目的，本发明采用的技术方案如下：

一种基于混合迁移网络的跨媒体检索方法，用于学习不同媒体数据的统一表征，从而实现跨媒体检索，包括以下步骤：

(1)建立包含一种媒体类型的单媒体数据库，同时建立包含多种媒体类型的跨媒体数据库，并将所述跨媒体数据库中的数据分为训练集和测试集；

(2)利用单媒体数据库和跨媒体数据库的训练集中的数据训练混合迁移网络，用于学习不同媒体数据的统一表征；

(3)利用训练好的混合迁移网络，得到跨媒体数据库的测试集中数据的统一表征，进而计算跨媒体相似性；

(4)使用跨媒体测试集中的一种媒体类型作为查询集，另一种媒体类型作为检索库，利用查询集中的每个数据作为样例，与检索库中的每个数据计算相似性，根据相似性得到检索结果。

进一步，上述一种基于混合迁移网络的跨媒体检索方法，所述步骤(1)中的单媒体数据库包括一种媒体类型；跨媒体数据库包括至少两种媒体类型，其中一种为单媒体数据库的媒体类型。

进一步，上述一种基于混合迁移网络的跨媒体检索方法，所述步骤(2)中的混合迁移网络结构，包括媒体共享迁移子网络、网络层共享关联子网络两个部分。所述媒体共享迁移子网络以源域、目标域中的共有媒体为桥梁，联合进行单媒体迁移和跨媒体迁移，使得单媒体源域中的知识能够被同时迁移到目标域中的所有媒体；所述网络层共享关联子网络利用网络层共享的方式，使得属于相同语义类别的跨媒体数据生成相近的统一表征，这样迁移过程充分考虑了蕴含于目标域中的跨媒体关联关系，提高统一表征的检索效果。

进一步，上述一种基于混合迁移网络的跨媒体检索方法，所述步骤(3)的相似性取决于跨媒体数据的统一表征之间的距离。统一表征间的距离越小，则相似性越大。

进一步，上述一种基于混合迁移网络的跨媒体检索方法，所述步骤(4)的跨媒体检索方式为，使用测试集中的一种媒体类型数据作为查询，检索测试集中另一种媒体类型数据的相关结果。通过步骤(3)中的相似性计算方法计算相似性并从大到小排序，得到最终检索结果列表。

本发明的效果在于：与现有方法相比，本方法能够实现单媒体源域到跨媒体目标域的知识迁移，不仅包括同种媒体之间的知识迁移，也包括不同媒体类型之间的知识迁移；同时在知识迁移过程中，能够充分挖掘目标域所蕴含的跨媒体语义关联关系。在统一表征的学习过程中，本方法同时利用源域的语义知识与目标域的跨媒体关联，提高了跨媒体检索的准确率。

本方法之所以具有上述发明效果，其原因在于：通过媒体共享迁移子网络和网络层共享关联子网络的协同建模，在实现从单媒体到跨媒体的知识迁移的同时，也通过强调目标域的语义关联生成更加适合跨媒体检索的统一表征。其中媒体共享迁移子网络以源域和目标域的共有媒体为桥梁，使得单媒体迁移与跨媒体迁移能够联合进行；网络层共享关联子网络则通过层共享的方式增强跨媒体关联，使得统一表征更加符合跨媒体目标域上已知的语义关联。上述两个子网络构成端到端的联合结构，充分利用了单媒体源域中的语义知识促进跨媒体目标域上的统一表征学习，提高了跨媒体检索的准确率。

附图说明

图1是本发明的基于混合迁移网络的跨媒体检索方法的流程示意图。

图2是本发明的混合迁移网络的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

本发明的一种基于混合迁移网络的跨媒体检索方法，其流程如图1所示，包含以下步骤：

(1)建立包含一种媒体类型的单媒体数据库，同时建立包含多种媒体类型的跨媒体数据库，并将所述跨媒体数据库中的数据分为训练集和测试集。

本实施例中，所述的单媒体数据库包含的媒体类型为图像，跨媒体数据库包含的媒体类型为图像、文本。对于图像，在网络中采用基于AlexNet的卷积神经网络结构作为特征提取器，本方法同样支持其他用于图像特征提取的卷积神经网络结构，如VGG-19等；对于文本，采用词频向量作为特征。本方法同样支持其它种类的媒体和特征，需对应替换相应的特征提取网络或方法。

使用D^s表示单媒体数据库(作为源域)，D^s＝{I^s}。其中

表示带标注的图像，

为第r个图像，其标注的类别为

m表示单媒体数据库中的图像数量。

跨媒体数据库(作为目标域)表示为

其中带标注的图像-文本对为{I^t,T^t}，未标注的图像-文本对为

与单媒体数据库类似，定义

和

其中

为第p个图像，若其为带标注数据，则标注的类别为

为第q个带标注文本，若其为带标注数据，则标注的类别为

n_l表示带标注的图像-文本对数量，n表示带标注和未标注的图像-文本对总量。将带标注的数据作为训练集，未标注的数据作为测试集。

学习的目标是将D^s中包含的知识迁移到D^t中，并为

学习统一表征

与

进而利用统一表征进行跨媒体检索任务，其中

为第p个图像的统一表征，

为第q个文本的统一表征。

(2)利用单媒体数据库和跨媒体数据库的训练集中的数据训练混合迁移网络，用于学习不同媒体数据的统一表征。

该步骤所构建的网络结构如图2所示，包括两个子网络：媒体共享迁移子网络和网络层共享关联子网络。图中conv1～conv5为卷积层，fc6～fc10为全连接层，Softmax为分类器。在训练过程中，整个网络共有三路输入：源域图像、目标域图像、目标域文本。对于媒体共享迁移子网络，三路输入分别经过两层全连接网络处理，联合考虑单媒体迁移和跨媒体迁移两个方面，从而实现从单媒体源域到跨媒体目标域的知识迁移。

其中，单媒体迁移发生在源域图像和目标域图像两路网络之间。在本实施例中，采用特征适应(feature adaption)方式进行，目标是最小化两个域中图像数据的最大平均差异(maximum mean discrepancy，简称MMD)。令a与b为两个域上同种媒体数据的不同分布，则二者的MMD在再生希尔伯特空间H_k中的平方形式定义如下：

其中，i^s和i^t分别表示源域、目标域的输入图像，

表示深度网络中对应某一层的输出，E_a和E_b表示源域、目标域上的期望。然后，构建单媒体迁移损失项如下：

其中，l₆与l₇为源域图像、目标域图像两路网络中对应的全连接层，即图2中的fc6-s/fc6-i与fc7-s/fc-7i。此外，源域图像网络也需要在I^s上进行微调以挖掘源域和目标域的语义关联信息。为此建立源域监督损失项：

其中m表示源域中有标注的图像数量，

为softmax损失项，定义如下：

其中θ为网络参数，y为数据x的标签，c为x所有可能的标签数量。1{y＝j}为指示函数，若y＝j则返回1，否则为0。

跨媒体迁移发生在目标域图像与目标域文本之间。认为每个图像-文本对具有相关的高层语义，因此使它们的网络层输出相似以实现跨媒体知识迁移；令每个图像-文本对为

定义跨媒体差异如下：

据此建立跨媒体迁移损失项如下：

在网络的训练过程中，目标域图像一路网络作为桥梁将单媒体迁移与跨媒体迁移联合起来，实现了单媒体源域到跨媒体目标域中所有媒体类型的知识迁移。

对于网络层共享关联子网络，其包含目标域图像和目标域文本两路输入，且两路输入共享两个全连接层，形成网络层共享结构。为维持跨媒体语义关联信息，使用上述提到的softmax损失项对每种媒体的输出进行建模，则跨媒体关联损失项为：

其中，f_s为前述softmax损失，

与

分别为图像、文本的监督约束项。由于整个网络构成端到端的结构，媒体共享迁移子网络、网络层共享关联子网络可以通过反向传播算法进行联合训练，从而使得迁移过程保持了目标域中的跨媒体关联，更适合跨媒体检索任务。

(3)利用训练好的混合迁移网络，得到跨媒体数据库的测试集中数据的统一表征，进而计算跨媒体数据的相似性。

由于混合迁移网络在(2)中已经训练完毕，该网络能够直接以一种媒体的数据作为输入，得到其统一表征，且无需单媒体源作为输入。跨媒体数据的相似性取决于统一表征之间的距离。统一表征间的距离越小，则相似性越大。在本实施例中，通过计算两个不同媒体数据的统一表征之间的余弦距离来反映二者的相似性。本发明同样支持其他类型的距离度量，如欧氏距离等。

(4)使用步骤(1)中跨媒体测试集中的一种媒体类型作为查询集，另一种媒体类型作为检索库。利用查询集中的每个数据作为样例，按照步骤(3)中的相似性计算方法，与检索库中的每个数据计算相似性并从大到小排序，返回检索结果列表。

下列实验结果表明，与现有方法相比，本发明基于混合迁移网络的跨媒体检索方法，可以取得更高的检索准确率。

本实施例中，作为源域的单媒体数据库为常用的具有约120万张带标注图像的ImageNet数据集子集ILSVRC2012，跨媒体数据库则为Wikipedia跨媒体数据集。Wikipedia数据集包括2866个图像-文本对，共分为10个类别，每一个图像-文本对具有对应关系。该数据集由文献“A New Approach to Cross-Modal Multimedia Retrieval”(作者N.Rasiwasia,J.Pereira,E.Coviello,G.Doyle,G.Lanckriet,R.Levy andN.Vasconcelos)提出，是跨媒体检索中最常用的数据集之一。按照文献“Cross-modalRetrieval with Correspondence Autoencoder”(作者F.Feng,X.Wang,and R.Li)中的划分方式，将Wikipedia数据集划分为包含2173个图像-文本对的训练集，462个图像-文本对的测试集，以及231个图像-文本对的验证集。其中训练集、测试集直接对应步骤(1)中的跨媒体数据库训练集、测试集，验证集供对比方法调节参数使用，而本发明不需要验证集作为输入。测试了以下3种方法作为实验对比：

现有方法一：文献“Learning Cross-media Joint Representation with Sparseand Semi-supervised Regularization”(作者X.Zhai,Y.Peng and J.Xiao)中的统一表示学习(JRL)方法，通过分析不同媒体的关联关系及高层语义信息，为其学习统一表征映射矩阵；

现有方法二：文献“Cross-modal Retrieval with CorrespondenceAutoencoder”(作者F.Feng,X.Wang,and R.Li)中的一致自编码器(Corr-AE)方法，构建深度自编码器网络，以两种媒体类型数据为输入，同时建模跨媒体关联关系及重构误差，在编码层得到不同媒体的统一表征；

现有方法三：文献“Cross-modal retrieval with CNN visual features:A newbaseline”(作者Y.Wei,Y.Zhao,C.Lu,S.Wei,L.Liu,Z.Zhu,and S.Yan)中提出的方法，对图像、文本分别构建一路网络进行高层语义学习，以语义类别概率向量作为统一表征进行跨媒体检索。其中图像一路采用ILSVRC2012预训练卷积神经网络作为基础模型进行训练。

本发明：本实施例的方法。

在本实验中，采用信息检索领域常用的平均准确率均值(mean averageprecision，简称MAP)作为指标来评测跨媒体检索的准确性，MAP值越大说明跨媒体检索的结果越好。

表1.本发明的实验结果展示

方法	图像检索文本	文本检索图像	平均
				现有方法一	0.408	0.353	0.381
现有方法二	0.373	0.357	0.365
				现有方法三	0.458	0.345	0.402
本发明	0.508	0.432	0.470

从表1可以看出，本发明在图像检索文本、文本检索图像两个任务中，对比现有方法都取得了准确率的提高。方法一学习线性映射得到不同媒体数据的统一表征，难以充分建模跨媒体数据的复杂关联。对比方法二和方法三，它们都是基于深度学习的方法，但方法二只利用了跨媒体数据的成对关联，未有效建模其高层语义信息；方法三采用了迁移学习思想，但只涉及单媒体的迁移，忽视了跨媒体的知识迁移过程，因此未能充分利用单媒体源域中的丰富语义知识。本发明通过媒体共享迁移子网络和网络层共享关联子网络的协同建模，既实现了从单媒体到跨媒体的知识迁移，也通过强调目标域的语义关联以生成更加适合跨媒体检索的统一表征。两个子网络构成端到端的联合结构，充分利用单媒体源域中的语义知识促进跨媒体目标域上的统一表征学习，提高了跨媒体检索的准确率。

除以上实施例外，本发明方案的具体步骤也可以采用其它实施方式，如在步骤(1)中可使用其他媒体类型(如文本)的单媒体数据库，且跨媒体数据库不限于图像、文本两种媒体类型；在步骤(2)中，为各媒体类型采用其他种类的特征表示，或增加、减少网络结构中卷积层和全连接层的个数，使用其他分类器替代softmax分类器等，也属于本发明的变形方式。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于混合迁移网络的跨媒体检索方法，包括以下步骤：

(2)利用单媒体数据库和跨媒体数据库的训练集中的数据训练混合迁移网络，用于学习不同媒体数据的统一表征；所述混合迁移网络包括媒体共享迁移子网络和网络层共享关联子网络；其中媒体共享迁移子网络以源域、目标域中的共有媒体为桥梁，联合进行单媒体迁移和跨媒体迁移，使得单媒体源域中的知识能够被同时迁移到目标域中的所有媒体；网络层共享关联子网络则利用网络层共享的方式，充分考虑蕴含于目标域中的跨媒体关联关系，使得属于相同语义类别的跨媒体数据生成相近的统一表征；

(3)利用训练好的混合迁移网络，得到跨媒体数据库的测试集中数据的统一表征，进而计算跨媒体数据的相似性；

2.如权利要求1所述的方法，其特征在于，步骤(1)中的单媒体数据库包括一种媒体类型；跨媒体数据库包括两种媒体类型，其中一种为单媒体数据库的媒体类型。

3.如权利要求1所述的方法，其特征在于，步骤(2)中的媒体共享迁移子网络共有三路输入：源域图像、目标域图像、目标域文本，三路输入分别经过两层全连接网络处理；在训练过程中联合考虑单媒体迁移和跨媒体迁移两个方面来实现从单媒体源域到跨媒体目标域的知识迁移；所述单媒体迁移发生在源域图像和目标域图像两路网络之间，所述跨媒体迁移发生在目标域图像与目标域文本之间。

4.如权利要求3所述的方法，其特征在于，所述单媒体迁移采用特征适应方式进行，定义两个域中图像数据a与b的最大平均差异在再生希尔伯特空间H_k中的平方形式为：