CN107220337B - 一种基于混合迁移网络的跨媒体检索方法 - Google Patents

一种基于混合迁移网络的跨媒体检索方法 Download PDF

Info

Publication number
CN107220337B
CN107220337B CN201710378474.3A CN201710378474A CN107220337B CN 107220337 B CN107220337 B CN 107220337B CN 201710378474 A CN201710378474 A CN 201710378474A CN 107220337 B CN107220337 B CN 107220337B
Authority
CN
China
Prior art keywords
media
cross
network
migration
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710378474.3A
Other languages
English (en)
Other versions
CN107220337A (zh
Inventor
黄鑫
彭宇新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710378474.3A priority Critical patent/CN107220337B/zh
Publication of CN107220337A publication Critical patent/CN107220337A/zh
Application granted granted Critical
Publication of CN107220337B publication Critical patent/CN107220337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于混合迁移网络的跨媒体检索方法,包括以下步骤:1.建立单媒体数据库和跨媒体数据库,并将跨媒体数据库中的数据分为训练集和测试集。2.利用单媒体数据库和跨媒体数据库的训练集中的数据训练混合迁移网络,用于学习不同媒体数据的统一表征。3.利用训练好的混合迁移网络,得到跨媒体数据库的测试集中数据的统一表征,进而计算跨媒体相似性。4.使用跨媒体测试集中的一种媒体类型作为查询集,另一种媒体类型作为检索库进行检索,根据相似性得到最终检索结果。本发明既实现了从单媒体到跨媒体的知识迁移,也通过强调目标域的语义关联生成更加适合跨媒体检索的统一表征,提高了跨媒体检索的准确率。

Description

一种基于混合迁移网络的跨媒体检索方法
技术领域
本发明属于多媒体检索领域,具体涉及一种基于混合迁移网络的跨媒体检索方法。
背景技术
随着人类文明的进步和科学技术的发展,图像、文本、视频、音频等多媒体数据快速增长,已逐渐成为了信息存储与传播的主要形式。在这种情况下,跨媒体检索成为了人工智能的重要应用之一。跨媒体检索是一种新的检索形式,能够根据任意媒体类型的用户查询,返回具有相关语义而媒体类型不同的检索结果。如用户可以通过一张图像作为查询检索相关的文本,或以文本为查询检索符合其描述的图像。与单媒体检索相比,跨媒体检索能够为互联网用户提供更加灵活的检索体验,并为多媒体数据的统一管理提供技术支撑。然而,不同媒体类型的计算机特征表示形式往往不同,构成了“媒体鸿沟”,使得跨媒体检索面临重要挑战。
针对该问题,现有的主流方法是统一表征学习,即为不同媒体类型学习一个统一的语义空间,进而利用常用的距离度量等方式实现跨媒体检索。在该空间中,数据的距离取决于其语义的相似程度,而与媒体类型无关。早期工作主要利用统计分析方法学习不同媒体到统一空间的线性映射矩阵。如典型相关分析(canonical correlation analysis,简称CCA)方法能够学习得到最大化两种媒体数据关联的子空间,进而利用相同维度的统一表征来表示不同媒体的数据。Rasiwasia等人在文献“A New Approach to Cross-ModalMultimedia Retrieval”中提出了高层语义映射方法,先利用CCA学习两种媒体的统一空间,再使用逻辑回归方法在此空间中得到高层语义表示作为最终的统一表征。该方法在CCA的基础上利用了概念类别标注信息,因此学习到的统一表征具有更好的语义辨别能力。Peng等人在文献“Semi-Supervised Cross-Media Feature Learning with UnifiedPatch Graph Regularization”中提出了S2UPG方法,利用同一个超图联合建模多种媒体的整体数据与语义单元,从而能够深入挖掘细粒度的跨媒体关联关系,取得了更高的检索准确率。
近年来,深度学习在多媒体检索领域发挥了重要作用,基于深度网络的跨媒体统一表征学习成为了一个研究热点。如Ngiam在文献“Multimodal Deep Learning”中提出多模态自编码器方法,通过同时考虑单媒体重构误差与跨媒体关联关系,利用一个共享编码层得到统一表征。Srivastava等人在文献“Learning Representations for MultimodalData with Deep Belief Nets”中提出多模态深度信念网络,通过一个关联RBM连接两个分离的深度信念网络来得到统一表征。Peng等人在文献“Cross-media Retrieval byMultimodal Representation Fusion with Deep Networks”中提出了跨媒体多深度网络方法,通过结合多种深度网络结构,同时分析媒体内、媒体间的关联关系并进行层次化融合,取得了更好的效果。
深度学习方法的实际效果往往与训练数据的规模密切相关,而现有基于深度网络的跨媒体检索方法面临着训练数据不足的挑战。在单媒体检索中,研究者常常基于迁移学习思想,将大规模数据集(源域)中的知识迁移到训练数据不足的具体任务(目标域)中,从而缓解训练数据不足的问题。如基于ImageNet图像数据集的预训练模型被广泛应用于各种计算机视觉问题,显著提高了模型的效果。这些大规模单媒体数据集包含的丰富语义知识不但能够指导单媒体的语义学习,也能够提供与媒体类型无关的高层语义信息以促进跨媒体语义学习,对于跨媒体检索具有重要价值。现有方法往往只能利用跨媒体数据集进行训练,由于训练数据不足而容易造成过拟合,降低了检索效果;或者只在同种媒体间进行知识迁移,忽略了不同媒体间的知识迁移,使得知识的迁移过程不够全面,限制了统一表征学习的效果。
发明内容
针对现有技术的不足,本发明提出了一种基于混合迁移网络的跨媒体检索方法,能够在一个统一的网络结构中实现单媒体源域到跨媒体目标域的知识迁移。该方法以源域、目标域中共有的媒体类型为桥梁,将单媒体源域中的语义知识同时迁移到跨媒体目标域的所有媒体类型中,并通过网络层共享的方式强调了目标域中的内在跨媒体关联关系,使得统一表征更加适合于目标域上的跨媒体检索任务,提高了检索准确率。
为达到以上目的,本发明采用的技术方案如下:
一种基于混合迁移网络的跨媒体检索方法,用于学习不同媒体数据的统一表征,从而实现跨媒体检索,包括以下步骤:
(1)建立包含一种媒体类型的单媒体数据库,同时建立包含多种媒体类型的跨媒体数据库,并将所述跨媒体数据库中的数据分为训练集和测试集;
(2)利用单媒体数据库和跨媒体数据库的训练集中的数据训练混合迁移网络,用于学习不同媒体数据的统一表征;
(3)利用训练好的混合迁移网络,得到跨媒体数据库的测试集中数据的统一表征,进而计算跨媒体相似性;
(4)使用跨媒体测试集中的一种媒体类型作为查询集,另一种媒体类型作为检索库,利用查询集中的每个数据作为样例,与检索库中的每个数据计算相似性,根据相似性得到检索结果。
进一步,上述一种基于混合迁移网络的跨媒体检索方法,所述步骤(1)中的单媒体数据库包括一种媒体类型;跨媒体数据库包括至少两种媒体类型,其中一种为单媒体数据库的媒体类型。
进一步,上述一种基于混合迁移网络的跨媒体检索方法,所述步骤(2)中的混合迁移网络结构,包括媒体共享迁移子网络、网络层共享关联子网络两个部分。所述媒体共享迁移子网络以源域、目标域中的共有媒体为桥梁,联合进行单媒体迁移和跨媒体迁移,使得单媒体源域中的知识能够被同时迁移到目标域中的所有媒体;所述网络层共享关联子网络利用网络层共享的方式,使得属于相同语义类别的跨媒体数据生成相近的统一表征,这样迁移过程充分考虑了蕴含于目标域中的跨媒体关联关系,提高统一表征的检索效果。
进一步,上述一种基于混合迁移网络的跨媒体检索方法,所述步骤(3)的相似性取决于跨媒体数据的统一表征之间的距离。统一表征间的距离越小,则相似性越大。
进一步,上述一种基于混合迁移网络的跨媒体检索方法,所述步骤(4)的跨媒体检索方式为,使用测试集中的一种媒体类型数据作为查询,检索测试集中另一种媒体类型数据的相关结果。通过步骤(3)中的相似性计算方法计算相似性并从大到小排序,得到最终检索结果列表。
本发明的效果在于:与现有方法相比,本方法能够实现单媒体源域到跨媒体目标域的知识迁移,不仅包括同种媒体之间的知识迁移,也包括不同媒体类型之间的知识迁移;同时在知识迁移过程中,能够充分挖掘目标域所蕴含的跨媒体语义关联关系。在统一表征的学习过程中,本方法同时利用源域的语义知识与目标域的跨媒体关联,提高了跨媒体检索的准确率。
本方法之所以具有上述发明效果,其原因在于:通过媒体共享迁移子网络和网络层共享关联子网络的协同建模,在实现从单媒体到跨媒体的知识迁移的同时,也通过强调目标域的语义关联生成更加适合跨媒体检索的统一表征。其中媒体共享迁移子网络以源域和目标域的共有媒体为桥梁,使得单媒体迁移与跨媒体迁移能够联合进行;网络层共享关联子网络则通过层共享的方式增强跨媒体关联,使得统一表征更加符合跨媒体目标域上已知的语义关联。上述两个子网络构成端到端的联合结构,充分利用了单媒体源域中的语义知识促进跨媒体目标域上的统一表征学习,提高了跨媒体检索的准确率。
附图说明
图1是本发明的基于混合迁移网络的跨媒体检索方法的流程示意图。
图2是本发明的混合迁移网络的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
本发明的一种基于混合迁移网络的跨媒体检索方法,其流程如图1所示,包含以下步骤:
(1)建立包含一种媒体类型的单媒体数据库,同时建立包含多种媒体类型的跨媒体数据库,并将所述跨媒体数据库中的数据分为训练集和测试集。
本实施例中,所述的单媒体数据库包含的媒体类型为图像,跨媒体数据库包含的媒体类型为图像、文本。对于图像,在网络中采用基于AlexNet的卷积神经网络结构作为特征提取器,本方法同样支持其他用于图像特征提取的卷积神经网络结构,如VGG-19等;对于文本,采用词频向量作为特征。本方法同样支持其它种类的媒体和特征,需对应替换相应的特征提取网络或方法。
使用Ds表示单媒体数据库(作为源域),Ds={Is}。其中
Figure GDA0002688137970000041
表示带标注的图像,
Figure GDA0002688137970000042
为第r个图像,其标注的类别为
Figure GDA0002688137970000043
m表示单媒体数据库中的图像数量。
跨媒体数据库(作为目标域)表示为
Figure GDA0002688137970000044
其中带标注的图像-文本对为{It,Tt},未标注的图像-文本对为
Figure GDA0002688137970000045
与单媒体数据库类似,定义
Figure GDA0002688137970000046
Figure GDA0002688137970000047
Figure GDA0002688137970000048
其中
Figure GDA0002688137970000049
为第p个图像,若其为带标注数据,则标注的类别为
Figure GDA00026881379700000410
Figure GDA00026881379700000411
为第q个带标注文本,若其为带标注数据,则标注的类别为
Figure GDA00026881379700000412
nl表示带标注的图像-文本对数量,n表示带标注和未标注的图像-文本对总量。将带标注的数据作为训练集,未标注的数据作为测试集。
学习的目标是将Ds中包含的知识迁移到Dt中,并为
Figure GDA00026881379700000413
学习统一表征
Figure GDA00026881379700000414
Figure GDA00026881379700000415
进而利用统一表征进行跨媒体检索任务,其中
Figure GDA00026881379700000416
为第p个图像的统一表征,
Figure GDA00026881379700000417
为第q个文本的统一表征。
(2)利用单媒体数据库和跨媒体数据库的训练集中的数据训练混合迁移网络,用于学习不同媒体数据的统一表征。
该步骤所构建的网络结构如图2所示,包括两个子网络:媒体共享迁移子网络和网络层共享关联子网络。图中conv1~conv5为卷积层,fc6~fc10为全连接层,Softmax为分类器。在训练过程中,整个网络共有三路输入:源域图像、目标域图像、目标域文本。对于媒体共享迁移子网络,三路输入分别经过两层全连接网络处理,联合考虑单媒体迁移和跨媒体迁移两个方面,从而实现从单媒体源域到跨媒体目标域的知识迁移。
其中,单媒体迁移发生在源域图像和目标域图像两路网络之间。在本实施例中,采用特征适应(feature adaption)方式进行,目标是最小化两个域中图像数据的最大平均差异(maximum mean discrepancy,简称MMD)。令a与b为两个域上同种媒体数据的不同分布,则二者的MMD在再生希尔伯特空间Hk中的平方形式定义如下:
Figure GDA0002688137970000051
其中,is和it分别表示源域、目标域的输入图像,
Figure GDA0002688137970000052
表示深度网络中对应某一层的输出,Ea和Eb表示源域、目标域上的期望。然后,构建单媒体迁移损失项如下:
Figure GDA0002688137970000053
其中,l6与l7为源域图像、目标域图像两路网络中对应的全连接层,即图2中的fc6-s/fc6-i与fc7-s/fc-7i。此外,源域图像网络也需要在Is上进行微调以挖掘源域和目标域的语义关联信息。为此建立源域监督损失项:
Figure GDA0002688137970000054
其中m表示源域中有标注的图像数量,
Figure GDA0002688137970000055
为softmax损失项,定义如下:
Figure GDA0002688137970000056
其中θ为网络参数,y为数据x的标签,c为x所有可能的标签数量。1{y=j}为指示函数,若y=j则返回1,否则为0。
跨媒体迁移发生在目标域图像与目标域文本之间。认为每个图像-文本对具有相关的高层语义,因此使它们的网络层输出相似以实现跨媒体知识迁移;令每个图像-文本对为
Figure GDA0002688137970000057
定义跨媒体差异如下:
Figure GDA0002688137970000058
据此建立跨媒体迁移损失项如下:
Figure GDA0002688137970000059
在网络的训练过程中,目标域图像一路网络作为桥梁将单媒体迁移与跨媒体迁移联合起来,实现了单媒体源域到跨媒体目标域中所有媒体类型的知识迁移。
对于网络层共享关联子网络,其包含目标域图像和目标域文本两路输入,且两路输入共享两个全连接层,形成网络层共享结构。为维持跨媒体语义关联信息,使用上述提到的softmax损失项对每种媒体的输出进行建模,则跨媒体关联损失项为:
Figure GDA0002688137970000061
其中,fs为前述softmax损失,
Figure GDA0002688137970000062
Figure GDA0002688137970000063
分别为图像、文本的监督约束项。由于整个网络构成端到端的结构,媒体共享迁移子网络、网络层共享关联子网络可以通过反向传播算法进行联合训练,从而使得迁移过程保持了目标域中的跨媒体关联,更适合跨媒体检索任务。
(3)利用训练好的混合迁移网络,得到跨媒体数据库的测试集中数据的统一表征,进而计算跨媒体数据的相似性。
由于混合迁移网络在(2)中已经训练完毕,该网络能够直接以一种媒体的数据作为输入,得到其统一表征,且无需单媒体源作为输入。跨媒体数据的相似性取决于统一表征之间的距离。统一表征间的距离越小,则相似性越大。在本实施例中,通过计算两个不同媒体数据的统一表征之间的余弦距离来反映二者的相似性。本发明同样支持其他类型的距离度量,如欧氏距离等。
(4)使用步骤(1)中跨媒体测试集中的一种媒体类型作为查询集,另一种媒体类型作为检索库。利用查询集中的每个数据作为样例,按照步骤(3)中的相似性计算方法,与检索库中的每个数据计算相似性并从大到小排序,返回检索结果列表。
下列实验结果表明,与现有方法相比,本发明基于混合迁移网络的跨媒体检索方法,可以取得更高的检索准确率。
本实施例中,作为源域的单媒体数据库为常用的具有约120万张带标注图像的ImageNet数据集子集ILSVRC2012,跨媒体数据库则为Wikipedia跨媒体数据集。Wikipedia数据集包括2866个图像-文本对,共分为10个类别,每一个图像-文本对具有对应关系。该数据集由文献“A New Approach to Cross-Modal Multimedia Retrieval”(作者N.Rasiwasia,J.Pereira,E.Coviello,G.Doyle,G.Lanckriet,R.Levy andN.Vasconcelos)提出,是跨媒体检索中最常用的数据集之一。按照文献“Cross-modalRetrieval with Correspondence Autoencoder”(作者F.Feng,X.Wang,and R.Li)中的划分方式,将Wikipedia数据集划分为包含2173个图像-文本对的训练集,462个图像-文本对的测试集,以及231个图像-文本对的验证集。其中训练集、测试集直接对应步骤(1)中的跨媒体数据库训练集、测试集,验证集供对比方法调节参数使用,而本发明不需要验证集作为输入。测试了以下3种方法作为实验对比:
现有方法一:文献“Learning Cross-media Joint Representation with Sparseand Semi-supervised Regularization”(作者X.Zhai,Y.Peng and J.Xiao)中的统一表示学习(JRL)方法,通过分析不同媒体的关联关系及高层语义信息,为其学习统一表征映射矩阵;
现有方法二:文献“Cross-modal Retrieval with CorrespondenceAutoencoder”(作者F.Feng,X.Wang,and R.Li)中的一致自编码器(Corr-AE)方法,构建深度自编码器网络,以两种媒体类型数据为输入,同时建模跨媒体关联关系及重构误差,在编码层得到不同媒体的统一表征;
现有方法三:文献“Cross-modal retrieval with CNN visual features:A newbaseline”(作者Y.Wei,Y.Zhao,C.Lu,S.Wei,L.Liu,Z.Zhu,and S.Yan)中提出的方法,对图像、文本分别构建一路网络进行高层语义学习,以语义类别概率向量作为统一表征进行跨媒体检索。其中图像一路采用ILSVRC2012预训练卷积神经网络作为基础模型进行训练。
本发明:本实施例的方法。
在本实验中,采用信息检索领域常用的平均准确率均值(mean averageprecision,简称MAP)作为指标来评测跨媒体检索的准确性,MAP值越大说明跨媒体检索的结果越好。
表1.本发明的实验结果展示
方法 图像检索文本 文本检索图像 平均
现有方法一 0.408 0.353 0.381
现有方法二 0.373 0.357 0.365
现有方法三 0.458 0.345 0.402
本发明 0.508 0.432 0.470
从表1可以看出,本发明在图像检索文本、文本检索图像两个任务中,对比现有方法都取得了准确率的提高。方法一学习线性映射得到不同媒体数据的统一表征,难以充分建模跨媒体数据的复杂关联。对比方法二和方法三,它们都是基于深度学习的方法,但方法二只利用了跨媒体数据的成对关联,未有效建模其高层语义信息;方法三采用了迁移学习思想,但只涉及单媒体的迁移,忽视了跨媒体的知识迁移过程,因此未能充分利用单媒体源域中的丰富语义知识。本发明通过媒体共享迁移子网络和网络层共享关联子网络的协同建模,既实现了从单媒体到跨媒体的知识迁移,也通过强调目标域的语义关联以生成更加适合跨媒体检索的统一表征。两个子网络构成端到端的联合结构,充分利用单媒体源域中的语义知识促进跨媒体目标域上的统一表征学习,提高了跨媒体检索的准确率。
除以上实施例外,本发明方案的具体步骤也可以采用其它实施方式,如在步骤(1)中可使用其他媒体类型(如文本)的单媒体数据库,且跨媒体数据库不限于图像、文本两种媒体类型;在步骤(2)中,为各媒体类型采用其他种类的特征表示,或增加、减少网络结构中卷积层和全连接层的个数,使用其他分类器替代softmax分类器等,也属于本发明的变形方式。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于混合迁移网络的跨媒体检索方法,包括以下步骤:
(1)建立包含一种媒体类型的单媒体数据库,同时建立包含多种媒体类型的跨媒体数据库,并将所述跨媒体数据库中的数据分为训练集和测试集;
(2)利用单媒体数据库和跨媒体数据库的训练集中的数据训练混合迁移网络,用于学习不同媒体数据的统一表征;所述混合迁移网络包括媒体共享迁移子网络和网络层共享关联子网络;其中媒体共享迁移子网络以源域、目标域中的共有媒体为桥梁,联合进行单媒体迁移和跨媒体迁移,使得单媒体源域中的知识能够被同时迁移到目标域中的所有媒体;网络层共享关联子网络则利用网络层共享的方式,充分考虑蕴含于目标域中的跨媒体关联关系,使得属于相同语义类别的跨媒体数据生成相近的统一表征;
(3)利用训练好的混合迁移网络,得到跨媒体数据库的测试集中数据的统一表征,进而计算跨媒体数据的相似性;
(4)使用跨媒体测试集中的一种媒体类型作为查询集,另一种媒体类型作为检索库,利用查询集中的每个数据作为样例,与检索库中的每个数据计算相似性,根据相似性得到检索结果。
2.如权利要求1所述的方法,其特征在于,步骤(1)中的单媒体数据库包括一种媒体类型;跨媒体数据库包括两种媒体类型,其中一种为单媒体数据库的媒体类型。
3.如权利要求1所述的方法,其特征在于,步骤(2)中的媒体共享迁移子网络共有三路输入:源域图像、目标域图像、目标域文本,三路输入分别经过两层全连接网络处理;在训练过程中联合考虑单媒体迁移和跨媒体迁移两个方面来实现从单媒体源域到跨媒体目标域的知识迁移;所述单媒体迁移发生在源域图像和目标域图像两路网络之间,所述跨媒体迁移发生在目标域图像与目标域文本之间。
4.如权利要求3所述的方法,其特征在于,所述单媒体迁移采用特征适应方式进行,定义两个域中图像数据a与b的最大平均差异在再生希尔伯特空间Hk中的平方形式为:
Figure FDA0002688137960000011
其中,is和it分别表示源域、目标域的输入图像,
Figure FDA0002688137960000012
表示深度网络中网络层的输出,Ea和Eb表示源域、目标域上的期望;
据此,构建单媒体迁移损失项如下:
Figure FDA0002688137960000013
其中,l6与l7为源域图像、目标域图像两路网络中对应的全连接层,Is和It分别表示源域、目标域的图像集合;此外,源域图像网络也需要在Is上进行微调以挖掘源域和目标域的语义关联信息,为此建立源域监督损失项:
Figure FDA0002688137960000021
其中,
Figure FDA0002688137960000022
表示源域中的带标注图像,
Figure FDA0002688137960000023
Figure FDA0002688137960000024
的标注标签,θs表示目标域分支的网络参数,m表示源域中有标注的图像数量,
Figure FDA0002688137960000025
为softmax损失项,定义如下:
Figure FDA0002688137960000026
其中θ为网络参数,y为数据x的标签,c为x所有可能的标签数量;1{y=j}为指示函数,若y=j则返回1,否则为0。
5.如权利要求3所述的方法,其特征在于,所述跨媒体迁移中每个图像-文本对具有相关的高层语义,因此使它们的网络层具有相似的输出以实现跨媒体知识迁移;令每个图像-文本对为
Figure FDA0002688137960000027
定义跨媒体差异如下:
Figure FDA0002688137960000028
其中,
Figure FDA0002688137960000029
Figure FDA00026881379600000210
分别表示一个图像-文本对中带标注的图像和文本数据,
Figure FDA00026881379600000211
表示深度网络中网络层的输出,据此建立跨媒体迁移损失项如下:
Figure FDA00026881379600000212
其中,l6与l7为目标域图像、文本两路网络中对应的全连接层,nl表示目标域带标注的图像-文本对数量。
6.如权利要求1所述的方法,其特征在于,步骤(2)中的网络层共享关联子网络具有目标域图像和目标域文本两路输入,且两路输入共享两个全连接层,形成网络层共享结构;为维持跨媒体语义关联信息,使用softmax损失项对每种媒体的输出进行建模,则跨媒体关联损失项为:
Figure FDA00026881379600000213
其中,fs为softmax损失,
Figure FDA00026881379600000214
Figure FDA00026881379600000215
分别为图像、文本的监督约束项,
Figure FDA00026881379600000216
Figure FDA00026881379600000217
分别表示目标域中带标注的图像和文本数据,
Figure FDA00026881379600000218
表示
Figure FDA00026881379600000219
Figure FDA00026881379600000220
的标注标签,θt表示对应目标域分支的网络参数,nl表示目标域带标注的图像-文本对数量。
7.如权利要求1所述的方法,其特征在于,步骤(3)的跨媒体相似性计算方法中,跨媒体数据的相似性取决于统一表征之间的距离,统一表征间的距离越小,则相似性越大。
8.如权利要求1所述的方法,其特征在于,步骤(4)中的跨媒体检索是指,从步骤(1)中的测试集里取出任意一种媒体的数据作为查询样例,按照步骤(3)中的相似性计算方法,对测试集中的另一种媒体的所有数据进行相似性计算,并按照相似性从大到小排序,返回检索结果列表。
CN201710378474.3A 2017-05-25 2017-05-25 一种基于混合迁移网络的跨媒体检索方法 Active CN107220337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710378474.3A CN107220337B (zh) 2017-05-25 2017-05-25 一种基于混合迁移网络的跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710378474.3A CN107220337B (zh) 2017-05-25 2017-05-25 一种基于混合迁移网络的跨媒体检索方法

Publications (2)

Publication Number Publication Date
CN107220337A CN107220337A (zh) 2017-09-29
CN107220337B true CN107220337B (zh) 2020-12-22

Family

ID=59944577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710378474.3A Active CN107220337B (zh) 2017-05-25 2017-05-25 一种基于混合迁移网络的跨媒体检索方法

Country Status (1)

Country Link
CN (1) CN107220337B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7467336B2 (ja) * 2017-11-03 2024-04-15 ゼネラル・エレクトリック・カンパニイ 複数の撮像モダリティから得られた解剖学的構造の医療画像データを学習するための方法、処理ユニット及び、システム
CN109670071B (zh) * 2018-10-22 2021-10-08 北京大学 一种序列化多特征指导的跨媒体哈希检索方法和系统
CN110457982B (zh) * 2018-12-28 2023-04-11 中国科学院合肥物质科学研究院 一种基于特征迁移学习的作物病害图像识别方法
CN111382602A (zh) * 2018-12-28 2020-07-07 深圳光启空间技术有限公司 一种跨域人脸识别算法、存储介质及处理器
CN109800677B (zh) * 2018-12-29 2021-11-02 掌握科技无锡有限公司 一种跨平台掌纹识别方法
CN110647904B (zh) * 2019-08-01 2022-09-23 中国科学院信息工程研究所 一种基于无标记数据迁移的跨模态检索方法及系统
CN110889505B (zh) * 2019-11-18 2023-05-02 北京大学 一种图文序列匹配的跨媒体综合推理方法和系统
CN111782833B (zh) * 2020-06-09 2023-12-19 南京理工大学 基于多模型网络的细粒度跨媒体检索方法
CN111708745B (zh) * 2020-06-18 2023-04-21 全球能源互联网研究院有限公司 一种跨媒体数据共享表示方法及用户行为分析方法、系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7992215B2 (en) * 2002-12-11 2011-08-02 Trio Systems, Llc Annotation system for creating and retrieving media and methods relating to same
CN106649434A (zh) * 2016-09-06 2017-05-10 北京蓝色光标品牌管理顾问股份有限公司 一种跨领域知识迁移的标签嵌入方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049526B (zh) * 2012-12-20 2015-08-05 中国科学院自动化研究所 基于双空间学习的跨媒体检索方法
US9875445B2 (en) * 2014-02-25 2018-01-23 Sri International Dynamic hybrid models for multimodal analysis
CN104166684A (zh) * 2014-07-24 2014-11-26 北京大学 一种基于统一稀疏表示的跨媒体检索方法
CN104239554A (zh) * 2014-09-24 2014-12-24 南开大学 跨领域跨类别的新闻评论情绪预测方法
CN105718532B (zh) * 2016-01-15 2019-05-07 北京大学 一种基于多深度网络结构的跨媒体排序方法
CN106202514A (zh) * 2016-07-21 2016-12-07 北京邮电大学 基于Agent的突发事件跨媒体信息的检索方法及系统
CN106650756B (zh) * 2016-12-28 2019-12-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7992215B2 (en) * 2002-12-11 2011-08-02 Trio Systems, Llc Annotation system for creating and retrieving media and methods relating to same
CN106649434A (zh) * 2016-09-06 2017-05-10 北京蓝色光标品牌管理顾问股份有限公司 一种跨领域知识迁移的标签嵌入方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Cross-media similarity metric learning with unified deep networks";Yuxin Peng等;《Multimedia Tools and Applications》;20170413;第1-19页 *

Also Published As

Publication number Publication date
CN107220337A (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
CN107220337B (zh) 一种基于混合迁移网络的跨媒体检索方法
CN107562812B (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
Xu et al. Transductive zero-shot action recognition by word-vector embedding
Feng et al. Complementary pseudo labels for unsupervised domain adaptation on person re-identification
CN107346328B (zh) 一种基于多粒度层级网络的跨模态关联学习方法
Zhang et al. Unsupervised and semi-supervised image classification with weak semantic consistency
Chen et al. General functional matrix factorization using gradient boosting
CN110647904B (zh) 一种基于无标记数据迁移的跨模态检索方法及系统
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
Wang et al. Novel and efficient randomized algorithms for feature selection
CN111753101A (zh) 一种融合实体描述及类型的知识图谱表示学习方法
CN111222847B (zh) 基于深度学习与非监督聚类的开源社区开发者推荐方法
Song et al. Label prompt for multi-label text classification
Xia et al. A regularized optimization framework for tag completion and image retrieval
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
Wang et al. News recommendation via multi-interest news sequence modelling
CN113779264A (zh) 基于专利供需知识图谱的交易推荐方法
Fang et al. Patent2Vec: Multi-view representation learning on patent-graphs for patent classification
Karlos et al. Classification of acoustical signals by combining active learning strategies with semi-supervised learning schemes
CN116108351A (zh) 面向跨语言知识图谱的弱监督实体对齐优化方法及系统
CN110909785A (zh) 基于语义层级的多任务Triplet损失函数学习方法
Gu et al. Learning joint multimodal representation based on multi-fusion deep neural networks
Wan et al. A dual learning-based recommendation approach
Tian et al. Automatic image annotation with real-world community contributed data set

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant