CN114863194A - 科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 - Google Patents

科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 Download PDF

Info

Publication number
CN114863194A
CN114863194A CN202210807253.4A CN202210807253A CN114863194A CN 114863194 A CN114863194 A CN 114863194A CN 202210807253 A CN202210807253 A CN 202210807253A CN 114863194 A CN114863194 A CN 114863194A
Authority
CN
China
Prior art keywords
media
mapping
loss
feature
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210807253.4A
Other languages
English (en)
Other versions
CN114863194B (zh
Inventor
杜军平
李昂
李文玲
邵蓥侠
薛哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210807253.4A priority Critical patent/CN114863194B/zh
Publication of CN114863194A publication Critical patent/CN114863194A/zh
Application granted granted Critical
Publication of CN114863194B publication Critical patent/CN114863194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,基于对抗学习的方式构建特征映射器和媒体判别器,利用特征映射器将图像数据或文字数据的映射至一个统一的隐嵌入空间提取特征进行比对,在对抗学习过程中,通过构建联合损失使特征映射器关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性,使得最终的特征映射器突破不同媒体之间提取语义特征的局限性,提高了科技资讯跨媒体检索的准确率。

Description

科技资讯跨媒体检索特征映射网络训练方法、检索方法及 装置
技术领域
本发明涉及信息检索技术领域,尤其涉及一种科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置。
背景技术
科技资讯聚焦了中外高新技术的前沿动态。实时跟进最新的科技资讯,有助于促进国家战略科技力量的发展,驱动科技创新,进而确保国家高质量发展。科技资讯中包含大量的多媒体信息(如图像、文本等),具备体量大、来源丰富、类型多样等特点。面向科技资讯进行跨媒体检索,能够从多源异构的海量科技资源中获取目标科技资讯,以便于设计出符合用户需求的应用,包括科技资讯推荐、个性化科技资讯检索等,而该工作的核心便是跨媒体检索。
跨媒体检索(Cross-media Retrieval,CMR)是信息检索领域中的一个重要研究方向,其目的是根据给定媒体的信息检索出语义相似的其他媒体的信息。面向科技资讯数据的跨媒体检索与通用领域的跨媒体检索有一定的区别,主要原因在于通用领域的数据集有较为严格的句子组成规范。但由于科研领域的技术呈爆炸式增长,相关的科技资讯更新迭代更为迅速,导致科技资讯中涌现了大量的新颖专业术语。同时受限于科技资讯的字数限制,不同媒体间的科技资讯数据存在更为明显的语义鸿沟问题,增加了跨媒体检索的难度。
现有技术通常采用深度学习的方式构建检索模型,然而现有的跨媒体检索模型通常只关注一对一的跨媒体数据,对语义关注较少,无法适应对语义复杂的科技资讯专业术语的检索要求,难以实现在一对多的跨媒体检索需求。
发明内容
本发明实施例提供了一种科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决现有技术在科技资讯跨媒体检索过程中由于词汇语义复杂导致的准确度差,且难以进行一对多检索的问题。
一方面,本发明提供一种面向科技资讯的跨媒体检索特征映射网络训练方法,包括:
获取训练样本集,所述训练样本集中包含多个样本,每个样本包含一组语义相同的图像特征向量和文字特征向量,所述图像特征向量是将原始图像数据输入第一特征提取模型得到的,所述文字特征向量是将原始文字数据输入第二特征提取模型得到的,对所述图像数据和所述文字数据添加所属科技领域类别作为标签;
获取初始生成对抗网络模型,所述初始生成对抗网络模型包括特征映射器和媒体判别器,所述特征映射器包括第一基础映射网络和第二基础映射网络,所述第一基础映射网络将图像特征向量映射至隐嵌入空间的得到第一映射图像特征,所述第二基础映射网络将文字特征向量映射至所述隐嵌入空间得到第一映射文字特征;所述媒体判别器接收所述第一映射图像特征或所述第一映射文字特征并判断所属媒体类别是文字或图像;
采用所述训练样本集对所述初始生成对抗网络模型进行训练,训练过程中构建联合损失函数进行调参,以最小化所述联合损失函数训练所述特征映射器,最大化所述联合损失函数训练所述媒体判别器,将训练得到的所述特征映射器作为跨媒体检索特征映射网络;
其中,所述联合损失函数的计算步骤包括:
将所述第一映射图像特征输入分类网络以输出图像数据所属科技领域类别的第一概率分布,将所述第一映射文字特征输入所述分类网络以输出文字数据所属科技领域类别的第二概率分布,根据所述第一概率分布和所述第二概率分布计算标签预测损失;
根据所述图像特征向量和所述文字特征向量计算原始语义一致性损失,根据所述第一映射图像特征和所述第一映射文字特征计算隐嵌入空间语义一致性损失,根据所述原始语义一致性损失和所述隐嵌入空间语义一致性损失计算媒体间语义损失;
将所述第一映射图像特征输入第一精炼映射模型得到第二映射图像特征,将所述第一映射文字特征输入第二精炼映射模型得到第二映射文字特征,以最大化所述第一基础映射网络与所述第一精炼映射模型的输出差异、最大化所述第二基础映射网络与所述第二精炼映射模型的输出差异、最小化所述第一基础映射网络和所述第二基础映射网络的输出差异构建媒体约束损失;其中,所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构相同;
将所述标签预测损失、所述媒体间语义损失和所述媒体约束损失加权求和得到特征映射网络损失;
获取所述媒体判别器的对抗损失,将所述特征映射网络损失与所述对抗损失作差得到所述联合损失函数。
在一些实施例中,所述第一特征提取模型为VGG-fc7网络模型,所述第二特征提取模型为BoW模型;
所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构为三层多层感知机构成;
所述媒体判别器由三层全连接层构成;所述分类网络采用softmax层。
在一些实施例中,根据所述第一概率分布和所述第二概率分布计算标签预测损失,所述标签预测损失为采用交叉熵损失,计算式为:
Figure 767864DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
表示所述标签预测损失,
Figure 955177DEST_PATH_IMAGE003
表示所述分类网络的参数,
Figure DEST_PATH_IMAGE004
是第i个样本
Figure 16805DEST_PATH_IMAGE005
所属科技领域类别的真实值,
Figure DEST_PATH_IMAGE006
是第i个样本中图像特征向量
Figure 21801DEST_PATH_IMAGE007
所属科技领域类别的概率分布,
Figure DEST_PATH_IMAGE008
是第i个样本中文字特征向量
Figure 103019DEST_PATH_IMAGE009
所属科技领域类别的概率分布。
在一些实施例中,所述原始语义一致性损失采用
Figure DEST_PATH_IMAGE010
范数表达,计算式为:
Figure 535269DEST_PATH_IMAGE011
其中,
Figure DEST_PATH_IMAGE012
表示所述原始语义一致性损失,
Figure 677668DEST_PATH_IMAGE013
表示所述原始图像数据的语义分布,等同于所述图像特征向量,
Figure DEST_PATH_IMAGE014
表示所述原始文字数据的语义分布,等同于所述文字特征向量;
所述隐嵌入空间语义一致性损失采用
Figure 79831DEST_PATH_IMAGE015
范数表达,计算式为:
Figure DEST_PATH_IMAGE016
其中,
Figure 155234DEST_PATH_IMAGE017
表示所述隐嵌入空间语义一致性损失,
Figure DEST_PATH_IMAGE018
表示所述图像特征向量映射至隐嵌入空间后的特征向量,V表示所述图像特征向量,
Figure 555122DEST_PATH_IMAGE019
表示所述第一基础映射网络的参数;
Figure DEST_PATH_IMAGE020
表示所述文字特征向量映射至隐嵌入空间后的特征向量,T表示所述文字特征向量,
Figure 715977DEST_PATH_IMAGE021
表示所述第二基础映射网络的参数;
所述媒体间语义损失计算式为:
Figure DEST_PATH_IMAGE022
其中,
Figure 62775DEST_PATH_IMAGE023
表示所述媒体间语义损失。
在一些实施例中,所述媒体约束损失的计算式为:
Figure DEST_PATH_IMAGE024
Figure 789423DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
其中,
Figure 625792DEST_PATH_IMAGE027
表示所述媒体约束损失,
Figure DEST_PATH_IMAGE028
表示图像数据约束损失,
Figure 273942DEST_PATH_IMAGE029
表示文字数据约束损失,
Figure DEST_PATH_IMAGE030
表示所述第一基础映射网络的输出,
Figure 690011DEST_PATH_IMAGE031
表示所述第二基础映射网络的输出,
Figure DEST_PATH_IMAGE032
表示
Figure 740007DEST_PATH_IMAGE033
输入所述第一精炼映射模型后的输出、
Figure DEST_PATH_IMAGE034
表示
Figure 481698DEST_PATH_IMAGE035
输入所述第二精炼映射模型后的输出,
Figure DEST_PATH_IMAGE036
表示所述第一基础映射网络的参数,
Figure 617144DEST_PATH_IMAGE037
表示所述第二基础映射网络的参数,
Figure DEST_PATH_IMAGE038
表示所述第一精炼映射模型的参数,
Figure 899221DEST_PATH_IMAGE039
表示所述第二精炼映射模型的参数。
在一些实施例中,所述特征映射网络损失的计算式为:
Figure DEST_PATH_IMAGE040
其中,
Figure 803723DEST_PATH_IMAGE041
表示所述特征映射网络损失,
Figure DEST_PATH_IMAGE042
Figure 981894DEST_PATH_IMAGE043
为可调节参数;
所述对抗损失的计算式为:
Figure DEST_PATH_IMAGE044
其中,
Figure 73478DEST_PATH_IMAGE045
表示对抗损失,
Figure DEST_PATH_IMAGE046
表示所述媒体判别器的参数,
Figure 350790DEST_PATH_IMAGE047
表示所述媒体判别器对所述图像特征向量识别结果的概率分布,
Figure DEST_PATH_IMAGE048
表示所述媒体判别器对所述文字特征向量识别结果的概率分布。
在一些实施例中,以最小化所述联合损失函数训练所述特征映射器,表达式为:
Figure 109798DEST_PATH_IMAGE049
最大化所述联合损失函数训练所述媒体判别器,表达式为:
Figure DEST_PATH_IMAGE050
另一方面,本发明提供一种面向科技资讯的跨媒体检索方法,包括:
获取待查询数据;
若所述待查询数据为图像,将所述待查询数据输入第一特征提取模型得到第一待查询图像特征向量;将所述第一待查询图像特征向量输入上述面向科技资讯的跨媒体检索特征映射网络训练方法中的跨媒体检索特征映射网络,输出第二待查询图像特征向量;将第一目标数据库中的多个候选文字数据输入第二特征提取模型得到第一候选文字特征向量;将所述第一候选文字特征向量输入所述跨媒体检索特征映射网络,输出第二候选文字特征向量;逐一计算所述第二待查询图像特征向量与各第二候选文字特征向量的余弦距离,并排序输出检索结果;
若所述待查询数据为文字,将所述待查询数据输入所述第二特征提取模型得到第一待查询文字特征向量;将所述第一待查询文字特征向量输入所述跨媒体检索特征映射网络,输出第二待查询文字特征向量;将第二目标数据库中的多个候选图像数据输入所述第一特征提取模型得到第一候选图像特征向量;将所述第一候选图像特征向量输入所述跨媒体检索特征映射网络,输出第二候选图像特征向量;逐一计算所述第二待查询文字特征向量与各第二候选图像特征向量的余弦距离,并排序输出检索结果。
在一些实施例中,所述面向科技资讯的跨媒体检索方法中,所述第一特征提取模型为VGG-fc7网络模型,所述第二特征提取模型为BoW模型。
另一方面,本发明还提供一种面向科技资讯的跨媒体检索装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法的步骤。
本发明的有益效果至少是:
本发明所述科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,基于对抗学习的方式构建特征映射器和媒体判别器,利用特征映射器将图像数据或文字数据的映射至一个统一的隐嵌入空间提取特征进行比对,在对抗学习过程中,通过构建联合损失使特征映射器关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性,使得最终的特征映射器突破不同媒体之间提取语义特征的局限性,提高了科技资讯跨媒体检索的准确率。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所述面向科技资讯的跨媒体检索特征映射网络训练方法的逻辑示意图。
图2为本发明另一实施例所述面向科技资讯的跨媒体检索特征映射网络训练方法的逻辑示意图。
图3为本发明一实施例所述面向科技资讯的跨媒体检索方法的逻辑示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
现有技术中,跨媒体检索可以使用传统的统计关联分析方法,统计关联分析方法主要通过优化统计值来学习公共空间的线性投影矩阵,来建立一个共享子空间,使得不同媒体类型的数据对象的相似性可以映射到该子空间中,再使用常见的距离进行度量。在基于传统的统计关联分析的跨媒体检索方法中,主要通过优化统计值来学习公共空间的线性投影矩阵。然而,通过线性投影很难完全模拟现实世界中跨媒体数据的复杂相关性。此外,该类方法需要计算奇异值分解、逆矩阵、平方根矩阵,耗费的时间较长,相比于基于深度学习的跨媒体检索方法,有较为明显的不足。还可以基于深度学习的跨媒体检索方法,主要使用卷积神经网络CNN通过多层非线性变换学习不同媒体数据间的语义相似性。但是,基于深度神经网络的跨媒体检索模型通常只专注于保留耦合的跨媒体样本(例如,图像和一段文本)的成对相似性,却忽略了一种媒体的一个样本,可能存在多个相同媒体的语义不同的样本,因此无法保留跨媒体语义结构。此外,现有基于深度学习的方法主要将单媒体特征作为输入,因此效果很大程度上取决于特征的有效性。
需要预先说明的是,本发明所述的跨媒体是指在不同数据形式之间进行检索,本发明主要是在图像数据和文字数据之间进行跨媒体检索。
一方面,本发明提供一种面向科技资讯的跨媒体检索特征映射网络训练方法,参照图1,包括步骤S101~S103:
步骤S101:获取训练样本集,训练样本集中包含多个样本,每个样本包含一组语义相同的图像特征向量和文字特征向量,图像特征向量是将原始图像数据输入第一特征提取模型得到的,文字特征向量是将原始文字数据输入第二特征提取模型得到的,对图像数据和文字数据添加所属科技领域类别作为标签。
步骤S102:获取初始生成对抗网络模型,初始生成对抗网络模型包括特征映射器和媒体判别器,特征映射器包括第一基础映射网络和第二基础映射网络,第一基础映射网络将图像特征向量映射至隐嵌入空间的得到第一映射图像特征,第二基础映射网络将文字特征向量映射至隐嵌入空间得到第一映射文字特征;媒体判别器接收第一映射图像特征或第一映射文字特征并判断所属媒体类别是文字或图像。在一些实施例中,媒体判别器由三层全连接层构成。
步骤S103:采用训练样本集对初始生成对抗网络模型进行训练,训练过程中构建联合损失函数进行调参,以最小化联合损失函数训练特征映射器,最大化联合损失函数训练媒体判别器,将训练得到的特征映射器作为跨媒体检索特征映射网络。
其中,参照图2,联合损失函数的计算步骤包括步骤S201~S205:
步骤S201:将第一映射图像特征输入分类网络以输出图像数据所属科技领域类别的第一概率分布,将第一映射文字特征输入分类网络以输出文字数据所属科技领域类别的第二概率分布,根据第一概率分布和第二概率分布计算标签预测损失。在一些实施例中,分类网络采用softmax层。
步骤S202:根据图像特征向量和文字特征向量计算原始语义一致性损失,根据第一映射图像特征和第一映射文字特征计算隐嵌入空间语义一致性损失,根据原始语义一致性损失和隐嵌入空间语义一致性损失计算媒体间语义损失。
步骤S203:将第一映射图像特征输入第一精炼映射模型得到第二映射图像特征,将第一映射文字特征输入第二精炼映射模型得到第二映射文字特征,以最大化第一基础映射网络与第一精炼映射模型的输出差异、最大化第二基础映射网络与第二精炼映射模型的输出差异、最小化第一基础映射网络与第二基础映射网络的输出差异构建媒体约束损失;其中,第一基础映射网络、第二基础映射网络、第一精炼映射模型和第二精炼映射模型结构相同。在一些实施例中,第一基础映射网络、第二基础映射网络、第一精炼映射模型和第二精炼映射模型结构为三层多层感知机构成。
步骤S204:将标签预测损失、媒体间语义损失和媒体约束损失加权求和得到特征映射网络损失。
步骤S205:获取媒体判别器的对抗损失,将特征映射网络损失与对抗损失作差得到联合损失函数。
具体的,在步骤S101中,首先获取训练样本集,为了实现跨媒体检索,训练样本集中每个样本是语义相同的,也即语义相匹配的图像数据和文字数据。具体的,由于图像数据和文字数据的数据形式存在显著差异,为了在后续处理过程中统一模态,首先利用第一特征提取模型提取原始图像数据的图像特征向量,利用第二特征提取模型提取原始文字数据的文字特征向量。其中,第一特征提取模型为VGG-fc7网络模型,第二特征提取模型为BoW模型。
示例性的,给定一系列语义相关的图像-文本对
Figure 255609DEST_PATH_IMAGE051
,其中
Figure DEST_PATH_IMAGE052
表示
Figure 100068DEST_PATH_IMAGE053
中的第
Figure DEST_PATH_IMAGE054
个图像-文本对,
Figure 927210DEST_PATH_IMAGE055
表示维度为
Figure DEST_PATH_IMAGE056
的图像特征向量,
Figure 806304DEST_PATH_IMAGE057
表示维度为
Figure DEST_PATH_IMAGE058
的文本特征向量。每个图像-文本对都对应着一个语义类别向量
Figure 326278DEST_PATH_IMAGE059
,语义类别向量可以理解为是所属科技领域类别的表达形式,其中
Figure DEST_PATH_IMAGE060
表示语义类别的总数,假设
Figure 392454DEST_PATH_IMAGE061
属于第
Figure DEST_PATH_IMAGE062
个语义类别,那么记
Figure 23287DEST_PATH_IMAGE063
,否则记
Figure DEST_PATH_IMAGE064
。记样本
Figure 491308DEST_PATH_IMAGE065
中所有的图像、文本、语义类别所对应的特征矩阵为
Figure DEST_PATH_IMAGE066
Figure DEST_PATH_IMAGE067
Figure DEST_PATH_IMAGE068
在步骤S102中,基于对抗学习的方式,构建特征映射器和媒体判别器,其中,特征映射器用于将图像特征向量或文字特征向量映射至一个统一的隐嵌入空间进行用于比对,媒体判别器用于根据提取隐嵌入空间内的特征判断输入的数据的媒体类别,也即是属于图像还是文字。
在步骤S103中,对初始生成对抗网络模型的训练过程中,构建联合损失函数,使特征映射器能够关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性。
具体的,步骤S201中,引入分类网络基于第一映射图像特征或第一映射文字特征进行语义分类的判断,也即预测所述乐基领域类别,构建标签预测损失,使特征映射器关注到语义特征在不同科技类别下的区别性。在一些实施例中,步骤S201中根据第一概率分布和第二概率分布计算标签预测损失,标签预测损失为采用交叉熵损失,计算式为:
Figure DEST_PATH_IMAGE069
其中,
Figure DEST_PATH_IMAGE070
表示标签预测损失,
Figure 791971DEST_PATH_IMAGE071
表示分类网络的参数,
Figure DEST_PATH_IMAGE072
是第i个样本
Figure 345443DEST_PATH_IMAGE073
所属科技领域类别的真实值,
Figure DEST_PATH_IMAGE074
是第i个样本中图像特征向量
Figure 779967DEST_PATH_IMAGE075
所属科技领域类别的概率分布,
Figure DEST_PATH_IMAGE076
是第i个样本中文字特征向量
Figure 836915DEST_PATH_IMAGE077
所属科技领域类别的概率分布。
在步骤S202中,为了使语义相同媒体不同的数据在映射前后都能保留语义相似性,即媒体不同语义相同的数据距离较近,媒体不同语义不同的数据距离较远,构建媒体间语义损失。具体的,原始语义一致性损失采用
Figure DEST_PATH_IMAGE078
范数表达,计算式为:
Figure 229851DEST_PATH_IMAGE079
其中,
Figure DEST_PATH_IMAGE080
表示原始语义一致性损失,
Figure 536198DEST_PATH_IMAGE081
表示原始图像数据的语义分布,等同于图像特征向量,
Figure DEST_PATH_IMAGE082
表示原始文字数据的语义分布,等同于文字特征向量。
隐嵌入空间语义一致性损失采用
Figure 243254DEST_PATH_IMAGE078
范数表达,计算式为:
Figure 279343DEST_PATH_IMAGE083
其中,
Figure DEST_PATH_IMAGE084
表示隐嵌入空间语义一致性损失,
Figure 46442DEST_PATH_IMAGE085
表示图像特征向量映射至隐嵌入空间后的特征向量,V表示图像特征向量,
Figure DEST_PATH_IMAGE086
表示第一基础映射网络的参数;
Figure 840086DEST_PATH_IMAGE087
表示文字特征向量映射至隐嵌入空间后的特征向量,T表示文字特征向量,
Figure DEST_PATH_IMAGE088
表示第二基础映射网络的参数。
媒体间语义损失计算式为:
Figure 350833DEST_PATH_IMAGE089
其中,
Figure DEST_PATH_IMAGE090
表示媒体间语义损失。
在步骤S203中,为了使特征映射器能够更好的欺骗媒体判别器,使语义相同媒体不同的数据信息在经过特征映射器后的输出难以区分不同媒体间特征,本发明引入了第一精炼映射模型和第二精炼映射模型,要求第一基础映射网络的输出与第一精炼映射模型的输出较远,第二基础映射网络的输出与第二精炼映射模型的输出较远。
具体的,媒体约束损失的计算式为:
Figure 659672DEST_PATH_IMAGE091
Figure DEST_PATH_IMAGE092
Figure 863251DEST_PATH_IMAGE093
其中,
Figure DEST_PATH_IMAGE094
表示媒体约束损失,
Figure 878612DEST_PATH_IMAGE095
表示图像数据约束损失,
Figure DEST_PATH_IMAGE096
表示文字数据约束损失,
Figure 255366DEST_PATH_IMAGE097
表示第一基础映射网络的输出,
Figure DEST_PATH_IMAGE098
表示第二基础映射网络的输出,
Figure 672572DEST_PATH_IMAGE099
表示
Figure DEST_PATH_IMAGE100
输入第一精炼映射模型后的输出、
Figure 47053DEST_PATH_IMAGE101
表示
Figure DEST_PATH_IMAGE102
输入第二精炼映射模型后的输出,
Figure 284130DEST_PATH_IMAGE103
表示第一基础映射网络的参数,
Figure DEST_PATH_IMAGE104
表示第二基础映射网络的参数,
Figure 402259DEST_PATH_IMAGE105
表示第一精炼映射模型的参数,
Figure DEST_PATH_IMAGE106
表示第二精炼映射模型的参数。
在一些实施例中,步骤S204中,特征映射网络损失的计算式为:
Figure 673972DEST_PATH_IMAGE107
其中,
Figure DEST_PATH_IMAGE108
表示特征映射网络损失,
Figure 219354DEST_PATH_IMAGE109
Figure DEST_PATH_IMAGE110
为可调节参数;
进一步的,步骤S205中,对抗损失的计算式为:
Figure 6044DEST_PATH_IMAGE111
其中,
Figure DEST_PATH_IMAGE112
表示对抗损失,
Figure 662284DEST_PATH_IMAGE113
表示媒体判别器的参数,
Figure DEST_PATH_IMAGE114
表示媒体判别器对图像特征向量识别结果的概率分布,
Figure 788503DEST_PATH_IMAGE115
表示媒体判别器对文字特征向量识别结果的概率分布。
在一些实施例中,步骤S205中,以最小化联合损失函数训练特征映射器,表达式为:
Figure DEST_PATH_IMAGE116
最大化联合损失函数训练媒体判别器,表达式为:
Figure 504787DEST_PATH_IMAGE117
基于步骤S101~S103以及步骤S201~S205训练得到的特征映射器,实际上包含了两个部分,一个是用于将图像数据对应图像特征向量映射至隐嵌入空间的第一基础映射网络,另一个是用于将文字数据对应文字特征向量映射至隐嵌入空间的第二基础映射网络。能够用于提取同一隐嵌入空间内的特征,并进行相似度比对。基于上述训练过程,特征映射器能够关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性。
另一方面,本发明提供一种面向科技资讯的跨媒体检索方法,如图3所示,包括步骤S301~S303:
步骤S301:获取待查询数据。
步骤S302:若待查询数据为图像,将待查询数据输入第一特征提取模型得到第一待查询图像特征向量;将第一待查询图像特征向量输入上述面向科技资讯的跨媒体检索特征映射网络训练方法中的跨媒体检索特征映射网络,输出第二待查询图像特征向量;将第一目标数据库中的多个候选文字数据输入第二特征提取模型得到第一候选文字特征向量;将第一候选文字特征向量输入跨媒体检索特征映射网络,输出第二候选文字特征向量;逐一计算第二待查询图像特征向量与各第二候选文字特征向量的余弦距离,并排序输出检索结果。
步骤S303:若待查询数据为文字,将待查询数据输入第二特征提取模型得到第一待查询文字特征向量;将第一待查询文字特征向量输入跨媒体检索特征映射网络,输出第二待查询文字特征向量;将第二目标数据库中的多个候选图像数据输入第一特征提取模型得到第一候选图像特征向量;将第一候选图像特征向量输入跨媒体检索特征映射网络,输出第二候选图像特征向量;逐一计算第二待查询文字特征向量与各第二候选图像特征向量的余弦距离,并排序输出检索结果。
在一些实施例中,面向科技资讯的跨媒体检索方法中,第一特征提取模型为VGG-fc7网络模型,第二特征提取模型为BoW模型。
在本实施例步骤S301~S303中,基于步骤S101~S103训练得到的特征映射器,将带查询的图像或文字映射到隐嵌入空间,同时,将目标数据库中的指定媒体类型的数据也转化到相应的隐嵌入空间,通过计算特征之间的余弦距离,比对相似性,并排序输出最接近的跨媒体搜索结果。
另一方面,本发明还提供一种面向科技资讯的跨媒体检索装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法的步骤。
下面结合一具体实施例对本发明进行说明:
本发明提出一种面向科技资讯数据的跨媒体检索方法,参照图1和图2,在模型训练过程中,构造基于对抗学习的初始生成对抗网络模型,包括特征映射器、媒体判别器,基于对抗学习的逻辑进行训练。具体而言,特征映射器将不同媒体的科技资讯数据映射到统一公共子空间,媒体判别器判断出映射数据的原始模态给出反馈,对抗学习则是两者之间进行博弈直至博弈过程收敛。
具体的,特征映射器为了将不同媒体的特征映射到统一的隐嵌入空间以便进行语义相似性的比较。同时,也扮演着生成对抗网络中“生成器”的角色,目的是为了迷惑媒体判别器。为了使映射后的特征表示充分考虑两类媒体数据的语义相似性和媒体相似性,本实施例设计的特征映射器由三部分进行约束:媒体内的标签预测、媒体间的语义保留、语义内的媒体约束。媒体内的标签预测使得映射在隐嵌入空间
Figure DEST_PATH_IMAGE118
中的特征依然能够以原始的语义标签为真值进行语义分类;媒体间的语义保留使得语义相同媒体不同的数据在映射前后都能保留语义相似性;语义内的媒体区别使得映射后的数据更加逼近原本语义。
在标签预测部分,为了保证映射到隐嵌入空间
Figure 982035DEST_PATH_IMAGE118
中的特征依然能够保留原始语义,以原始的语义标签为真值进行语义分类。在每个特征映射网络的最后加入一个保持线性激活的softmax层。将图像文本对
Figure 769863DEST_PATH_IMAGE119
作为样本进行训练,并输出每个数据对应语义类别的概率分布。采用如下损失函数来计算媒体内的标签预测损失:
Figure DEST_PATH_IMAGE120
其中,
Figure 750588DEST_PATH_IMAGE121
表示标签预测损失,
Figure DEST_PATH_IMAGE122
表示分类网络的参数,
Figure 637773DEST_PATH_IMAGE123
是第i个样本
Figure DEST_PATH_IMAGE124
所属科技领域类别的真实值,
Figure 336739DEST_PATH_IMAGE125
是第i个样本中图像特征向量
Figure DEST_PATH_IMAGE126
所属科技领域类别的概率分布,
Figure 397099DEST_PATH_IMAGE127
是第i个样本中文字特征向量
Figure DEST_PATH_IMAGE128
所属科技领域类别的概率分布。
语义保留部分致力于保证语义相同媒体不同的数据在映射前后都能保留语义相似性,即媒体不同语义相同的数据距离较近,媒体不同语义不同的数据距离较远。在映射到隐嵌入空间
Figure 701172DEST_PATH_IMAGE129
之前,每个样本
Figure DEST_PATH_IMAGE130
中的图像数据与文本数据的语义分布分别为
Figure 759258DEST_PATH_IMAGE131
Figure DEST_PATH_IMAGE132
。那么两不同媒体数据间的语义一致性损失用
Figure 7837DEST_PATH_IMAGE133
范数表示:
Figure DEST_PATH_IMAGE134
其中,
Figure 797852DEST_PATH_IMAGE135
表示原始语义一致性损失,
Figure DEST_PATH_IMAGE136
表示原始图像数据的语义分布,等同于图像特征向量,
Figure 487590DEST_PATH_IMAGE137
表示原始文字数据的语义分布,等同于文字特征向量。
在映射到隐嵌入空间
Figure 310053DEST_PATH_IMAGE129
之后,每个样本
Figure 249190DEST_PATH_IMAGE130
中的图像数据特征
Figure DEST_PATH_IMAGE138
与文本数据的特征
Figure 854615DEST_PATH_IMAGE139
之间的语义一致性损失同样用
Figure DEST_PATH_IMAGE140
范数表示为:
Figure 664439DEST_PATH_IMAGE141
其中,
Figure DEST_PATH_IMAGE142
表示隐嵌入空间语义一致性损失,
Figure 329907DEST_PATH_IMAGE143
表示图像特征向量映射至隐嵌入空间后的特征向量,V表示图像特征向量,
Figure DEST_PATH_IMAGE144
表示第一基础映射网络的参数;
Figure 756340DEST_PATH_IMAGE145
表示文字特征向量映射至隐嵌入空间后的特征向量,T表示文字特征向量,
Figure DEST_PATH_IMAGE146
表示第二基础映射网络的参数。
因此,整体的媒体间语义损失可以建模为
Figure 899876DEST_PATH_IMAGE147
Figure DEST_PATH_IMAGE148
两者的结合,表达式如下:
Figure 564207DEST_PATH_IMAGE149
其中,
Figure DEST_PATH_IMAGE150
表示媒体间语义损失。
在媒体约束部分,除了便于度量不同媒体数据间的语义相似性之外,特征映射器的另一个作用是生成映射后的特征来欺骗媒体判别器,让它无法区分出数据的原始媒体。因此,引入语义内的媒体约束模块。为了能够更加逼真地映射出难以区分媒体的特征,在基础的特征映射器
Figure 400576DEST_PATH_IMAGE151
之外,构造另一个相同结构的特征映射器
Figure DEST_PATH_IMAGE152
,称为精炼网络。精炼网络
Figure 783147DEST_PATH_IMAGE153
的输入是
Figure 58270DEST_PATH_IMAGE151
的输出结果
Figure DEST_PATH_IMAGE154
Figure 842687DEST_PATH_IMAGE155
Figure 912274DEST_PATH_IMAGE152
的输出是
Figure DEST_PATH_IMAGE156
Figure 47720DEST_PATH_IMAGE157
。其中,
Figure DEST_PATH_IMAGE158
Figure 533059DEST_PATH_IMAGE159
分别表示
Figure DEST_PATH_IMAGE160
Figure 437561DEST_PATH_IMAGE155
经过特征映射器
Figure 615733DEST_PATH_IMAGE161
映射后的特征,
Figure DEST_PATH_IMAGE162
Figure 35213DEST_PATH_IMAGE163
分别表示
Figure 589822DEST_PATH_IMAGE160
Figure 676727DEST_PATH_IMAGE155
两种特征的映射函数。
对每一个图像-文本对
Figure DEST_PATH_IMAGE164
而言,目标是让精炼网络
Figure 25800DEST_PATH_IMAGE165
映射出的特征(
Figure DEST_PATH_IMAGE166
Figure 870259DEST_PATH_IMAGE167
)距离基础网络
Figure DEST_PATH_IMAGE168
映射的特征(
Figure 697401DEST_PATH_IMAGE169
Figure DEST_PATH_IMAGE170
)较远,距离相同语义的特征(
Figure 588214DEST_PATH_IMAGE170
Figure 108188DEST_PATH_IMAGE169
)较近。构建媒体约束损失,计算式为:
Figure 971102DEST_PATH_IMAGE171
Figure DEST_PATH_IMAGE172
Figure 601934DEST_PATH_IMAGE173
其中,
Figure DEST_PATH_IMAGE174
表示媒体约束损失,
Figure 335535DEST_PATH_IMAGE175
表示图像数据约束损失,
Figure DEST_PATH_IMAGE176
表示文字数据约束损失,
Figure 26411DEST_PATH_IMAGE177
表示第一基础映射网络的输出,
Figure DEST_PATH_IMAGE178
表示第二基础映射网络的输出,
Figure 111041DEST_PATH_IMAGE179
表示
Figure DEST_PATH_IMAGE180
输入第一精炼映射模型后的输出、
Figure 483248DEST_PATH_IMAGE181
表示
Figure 602514DEST_PATH_IMAGE178
输入第二精炼映射模型后的输出,
Figure DEST_PATH_IMAGE182
表示第一基础映射网络的参数,
Figure 198711DEST_PATH_IMAGE183
表示第二基础映射网络的参数,
Figure DEST_PATH_IMAGE184
表示第一精炼映射模型的参数,
Figure 708321DEST_PATH_IMAGE185
表示第二精炼映射模型的参数。
构建特征映射网络损失,整个特征映射器的映射性损失由媒体内的语义损失、媒体间的语义损失、语义内的媒体约束损失共同组成,记为
Figure DEST_PATH_IMAGE186
,计算式为:
Figure 680956DEST_PATH_IMAGE187
其中,
Figure DEST_PATH_IMAGE188
表示特征映射网络损失,
Figure 123570DEST_PATH_IMAGE189
Figure DEST_PATH_IMAGE190
为可调节参数。
媒体判别网络扮演着GAN中“判别器”的角色,用来判断映射到隐嵌入空间后的数据的原始媒体。令经过图像映射函数的数据标签为0,经过文本映射函数的数据标签为1。本实施例使用一个参数为
Figure 156248DEST_PATH_IMAGE191
的三层全连接网络作为判别网络,充当特征映射网络的对手。其目标是最小化媒体分类损失,也成为对抗性损失
Figure DEST_PATH_IMAGE192
,定义如下:
Figure 949892DEST_PATH_IMAGE193
其中,
Figure DEST_PATH_IMAGE194
表示对抗损失,
Figure 460639DEST_PATH_IMAGE195
表示媒体判别器的参数,
Figure DEST_PATH_IMAGE196
表示媒体判别器对图像特征向量识别结果的概率分布,
Figure 820076DEST_PATH_IMAGE197
表示媒体判别器对文字特征向量识别结果的概率分布。
在对抗学习过程中,以最小化联合损失函数训练特征映射器,表达式为:
Figure DEST_PATH_IMAGE198
最大化联合损失函数训练媒体判别器,表达式为:
Figure 23655DEST_PATH_IMAGE199
本实施例引入语义内的媒体约束来加强将不同类型的媒体数据映射到共享高级语义空间的能力。采用对抗博弈的思想,构建特征映射器和媒体判别器,进行极小化极大博弈。采用标签预测来确保数据在特征投影后仍保留媒体内的区别。与先前工作不同的是,本实施例同时最小化相同语义的文本-图像对中不同媒体的数据分别在特征映射前和特征映射后的距离,以确保不同媒体间数据在映射过程中的语义一致性得以保留。此外,通过构建基础映射网络和精炼映射网络共同辅助建模语义内的媒体约束,使得映射后的数据做到语义上接近自身,媒体上远离自身,来增强特征映射网络混淆媒体判别网络的能力。媒体判别网络负责区分数据的原始媒体,一旦它被欺骗,则整个博弈过程收敛,且在科技资讯数据集中取得了更好的跨媒体检索效果。
通过端到端的方式同时保持媒体内的语义区分性、媒体间的语义一致性、语义内的媒体判别性,能够有效地学习异构数据的公共表示;通过构建基础特征映射网络和精炼特征映射网络联合进行多媒体数据特征映射,辅助语义内的媒体约束,有效地增强了特征映射网络混淆媒体判别网络的能力;在两个数据集上进行的大量实验表明,本发明提出的方法优于现有技术中的跨媒体检索方法,包括传统的方法和基于深度学习的方法,有效提高了跨媒体检索的准确率。
与上述方法相应地,本发明还提供了一种面向科技资讯的跨媒体检索装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
综上所述,本发明所述科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,基于对抗学习的方式构建特征映射器和媒体判别器,利用特征映射器将图像数据或文字数据的映射至一个统一的隐嵌入空间提取特征进行比对,在对抗学习过程中,通过构建联合损失使特征映射器关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性,使得最终的特征映射器突破不同媒体之间提取语义特征的局限性,提高了科技资讯跨媒体检索的准确率。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,包括:
获取训练样本集,所述训练样本集中包含多个样本,每个样本包含一组语义相同的图像特征向量和文字特征向量,所述图像特征向量是将原始图像数据输入第一特征提取模型得到的,所述文字特征向量是将原始文字数据输入第二特征提取模型得到的,对所述图像数据和所述文字数据添加所属科技领域类别作为标签;
获取初始生成对抗网络模型,所述初始生成对抗网络模型包括特征映射器和媒体判别器,所述特征映射器包括第一基础映射网络和第二基础映射网络,所述第一基础映射网络将图像特征向量映射至隐嵌入空间的得到第一映射图像特征,所述第二基础映射网络将文字特征向量映射至所述隐嵌入空间得到第一映射文字特征;所述媒体判别器接收所述第一映射图像特征或所述第一映射文字特征并判断所属媒体类别是文字或图像;
采用所述训练样本集对所述初始生成对抗网络模型进行训练,训练过程中构建联合损失函数进行调参,以最小化所述联合损失函数训练所述特征映射器,最大化所述联合损失函数训练所述媒体判别器,将训练得到的所述特征映射器作为跨媒体检索特征映射网络;
其中,所述联合损失函数的计算步骤包括:
将所述第一映射图像特征输入分类网络以输出图像数据所属科技领域类别的第一概率分布,将所述第一映射文字特征输入所述分类网络以输出文字数据所属科技领域类别的第二概率分布,根据所述第一概率分布和所述第二概率分布计算标签预测损失;
根据所述图像特征向量和所述文字特征向量计算原始语义一致性损失,根据所述第一映射图像特征和所述第一映射文字特征计算隐嵌入空间语义一致性损失,根据所述原始语义一致性损失和所述隐嵌入空间语义一致性损失计算媒体间语义损失;
将所述第一映射图像特征输入第一精炼映射模型得到第二映射图像特征,将所述第一映射文字特征输入第二精炼映射模型得到第二映射文字特征,以最大化所述第一基础映射网络与所述第一精炼映射模型的输出差异、最大化所述第二基础映射网络与所述第二精炼映射模型的输出差异、最小化所述第一基础映射网络和所述第二基础映射网络的输出差异构建媒体约束损失;其中,所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构相同;
将所述标签预测损失、所述媒体间语义损失和所述媒体约束损失加权求和得到特征映射网络损失;
获取所述媒体判别器的对抗损失,将所述特征映射网络损失与所述对抗损失作差得到所述联合损失函数。
2.根据权利要求1所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,所述第一特征提取模型为VGG-fc7网络模型,所述第二特征提取模型为BoW模型;
所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构为三层多层感知机构成;
所述媒体判别器由三层全连接层构成;所述分类网络采用softmax层。
3.根据权利要求2所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,根据所述第一概率分布和所述第二概率分布计算标签预测损失,所述标签预测损失为采用交叉熵损失,计算式为:
Figure 105236DEST_PATH_IMAGE001
其中,
Figure 694481DEST_PATH_IMAGE002
表示所述标签预测损失,
Figure 146322DEST_PATH_IMAGE003
表示所述分类网络的参数,
Figure 338269DEST_PATH_IMAGE004
是第i个样本
Figure 824745DEST_PATH_IMAGE005
所属科技领域类别的真实值,
Figure 53732DEST_PATH_IMAGE006
是第i个样本中图像特征向量
Figure 117503DEST_PATH_IMAGE007
所属科技领域类别的概率分布,
Figure 988507DEST_PATH_IMAGE008
是第i个样本中文字特征向量
Figure DEST_PATH_IMAGE009
所属科技领域类别的概率分布。
4.根据权利要求3所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,所述原始语义一致性损失采用
Figure 1593DEST_PATH_IMAGE010
范数表达,计算式为:
Figure 791695DEST_PATH_IMAGE011
其中,
Figure 218128DEST_PATH_IMAGE012
表示所述原始语义一致性损失,
Figure 627244DEST_PATH_IMAGE013
表示所述原始图像数据的语义分布,等同于所述图像特征向量,
Figure 822733DEST_PATH_IMAGE014
表示所述原始文字数据的语义分布,等同于所述文字特征向量;
所述隐嵌入空间语义一致性损失采用
Figure 190260DEST_PATH_IMAGE015
范数表达,计算式为:
Figure 228623DEST_PATH_IMAGE016
其中,
Figure 175851DEST_PATH_IMAGE017
表示所述隐嵌入空间语义一致性损失,
Figure 225846DEST_PATH_IMAGE018
表示所述图像特征向量映射至隐嵌入空间后的特征向量,V表示所述图像特征向量,
Figure 357751DEST_PATH_IMAGE019
表示所述第一基础映射网络的参数;
Figure 758776DEST_PATH_IMAGE020
表示所述文字特征向量映射至隐嵌入空间后的特征向量,T表示所述文字特征向量,
Figure 497976DEST_PATH_IMAGE021
表示所述第二基础映射网络的参数;
所述媒体间语义损失计算式为:
Figure 668057DEST_PATH_IMAGE022
其中,
Figure 236441DEST_PATH_IMAGE023
表示所述媒体间语义损失。
5.根据权利要求4所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,所述媒体约束损失的计算式为:
Figure 859184DEST_PATH_IMAGE024
Figure 413793DEST_PATH_IMAGE025
Figure 297435DEST_PATH_IMAGE026
其中,
Figure 912088DEST_PATH_IMAGE027
表示所述媒体约束损失,
Figure 22126DEST_PATH_IMAGE028
表示图像数据约束损失,
Figure 114847DEST_PATH_IMAGE029
表示文字数据约束损失,
Figure 384154DEST_PATH_IMAGE030
表示所述第一基础映射网络的输出,
Figure 169708DEST_PATH_IMAGE031
表示所述第二基础映射网络的输出,
Figure 767042DEST_PATH_IMAGE032
表示
Figure 663454DEST_PATH_IMAGE033
输入所述第一精炼映射模型后的输出、
Figure 521689DEST_PATH_IMAGE034
表示
Figure 478143DEST_PATH_IMAGE035
输入所述第二精炼映射模型后的输出,
Figure 562774DEST_PATH_IMAGE036
表示所述第一基础映射网络的参数,
Figure 262877DEST_PATH_IMAGE037
表示所述第二基础映射网络的参数,
Figure 241197DEST_PATH_IMAGE038
表示所述第一精炼映射模型的参数,
Figure 102974DEST_PATH_IMAGE039
表示所述第二精炼映射模型的参数。
6.根据权利要求5所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,所述特征映射网络损失的计算式为:
Figure 674901DEST_PATH_IMAGE040
其中,
Figure 913115DEST_PATH_IMAGE041
表示所述特征映射网络损失,
Figure 11521DEST_PATH_IMAGE042
Figure 44199DEST_PATH_IMAGE043
为可调节参数;
所述对抗损失的计算式为:
Figure 103422DEST_PATH_IMAGE044
其中,
Figure 145327DEST_PATH_IMAGE045
表示对抗损失,
Figure 832661DEST_PATH_IMAGE047
表示所述媒体判别器的参数,
Figure 301819DEST_PATH_IMAGE048
表示所述媒体判别器对所述图像特征向量识别结果的概率分布,
Figure 317180DEST_PATH_IMAGE049
表示所述媒体判别器对所述文字特征向量识别结果的概率分布。
7.根据权利要求6所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,以最小化所述联合损失函数训练所述特征映射器,表达式为:
Figure 287410DEST_PATH_IMAGE050
最大化所述联合损失函数训练所述媒体判别器,表达式为:
Figure 970195DEST_PATH_IMAGE051
8.一种面向科技资讯的跨媒体检索方法,其特征在于,包括:
获取待查询数据;
若所述待查询数据为图像,将所述待查询数据输入第一特征提取模型得到第一待查询图像特征向量;将所述第一待查询图像特征向量输入权利要求1至7任意一项所述面向科技资讯的跨媒体检索特征映射网络训练方法中的跨媒体检索特征映射网络,输出第二待查询图像特征向量;将第一目标数据库中的多个候选文字数据输入第二特征提取模型得到第一候选文字特征向量;将所述第一候选文字特征向量输入所述跨媒体检索特征映射网络,输出第二候选文字特征向量;逐一计算所述第二待查询图像特征向量与各第二候选文字特征向量的余弦距离,并排序输出检索结果;
若所述待查询数据为文字,将所述待查询数据输入所述第二特征提取模型得到第一待查询文字特征向量;将所述第一待查询文字特征向量输入所述跨媒体检索特征映射网络,输出第二待查询文字特征向量;将第二目标数据库中的多个候选图像数据输入所述第一特征提取模型得到第一候选图像特征向量;将所述第一候选图像特征向量输入所述跨媒体检索特征映射网络,输出第二候选图像特征向量;逐一计算所述第二待查询文字特征向量与各第二候选图像特征向量的余弦距离,并排序输出检索结果。
9.根据权利要求8所述的面向科技资讯的跨媒体检索方法,其特征在于,所述第一特征提取模型为VGG-fc7网络模型,所述第二特征提取模型为BoW模型。
10.一种面向科技资讯的跨媒体检索装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求8至9中任一项所述方法的步骤。
CN202210807253.4A 2022-07-11 2022-07-11 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 Active CN114863194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210807253.4A CN114863194B (zh) 2022-07-11 2022-07-11 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210807253.4A CN114863194B (zh) 2022-07-11 2022-07-11 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置

Publications (2)

Publication Number Publication Date
CN114863194A true CN114863194A (zh) 2022-08-05
CN114863194B CN114863194B (zh) 2022-11-18

Family

ID=82626194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210807253.4A Active CN114863194B (zh) 2022-07-11 2022-07-11 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置

Country Status (1)

Country Link
CN (1) CN114863194B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640418A (zh) * 2022-12-26 2023-01-24 天津师范大学 基于残差语义一致性跨域多视角目标网站检索方法及装置
CN116028617A (zh) * 2022-12-06 2023-04-28 腾讯科技(深圳)有限公司 资讯推荐方法、装置、设备、可读存储介质及程序产品
CN116955699A (zh) * 2023-07-18 2023-10-27 北京邮电大学 一种视频跨模态搜索模型训练方法、搜索方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344266A (zh) * 2018-06-29 2019-02-15 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN113254678A (zh) * 2021-07-14 2021-08-13 北京邮电大学 跨媒体检索模型的训练方法、跨媒体检索方法及其设备
US20210256365A1 (en) * 2017-04-10 2021-08-19 Peking University Shenzhen Graduate School Cross-media retrieval method based on deep semantic space

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210256365A1 (en) * 2017-04-10 2021-08-19 Peking University Shenzhen Graduate School Cross-media retrieval method based on deep semantic space
CN109344266A (zh) * 2018-06-29 2019-02-15 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
CN111581405A (zh) * 2020-04-26 2020-08-25 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN113254678A (zh) * 2021-07-14 2021-08-13 北京邮电大学 跨媒体检索模型的训练方法、跨媒体检索方法及其设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
綦金玮等: "面向跨媒体检索的层级循环注意力网络模型", 《中国图象图形学报》 *
黄育等: "基于潜语义主题加强的跨媒体检索算法", 《计算机应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028617A (zh) * 2022-12-06 2023-04-28 腾讯科技(深圳)有限公司 资讯推荐方法、装置、设备、可读存储介质及程序产品
CN116028617B (zh) * 2022-12-06 2024-02-27 腾讯科技(深圳)有限公司 资讯推荐方法、装置、设备、可读存储介质及程序产品
CN115640418A (zh) * 2022-12-26 2023-01-24 天津师范大学 基于残差语义一致性跨域多视角目标网站检索方法及装置
CN115640418B (zh) * 2022-12-26 2023-04-07 天津师范大学 基于残差语义一致性跨域多视角目标网站检索方法及装置
CN116955699A (zh) * 2023-07-18 2023-10-27 北京邮电大学 一种视频跨模态搜索模型训练方法、搜索方法及装置
CN116955699B (zh) * 2023-07-18 2024-04-26 北京邮电大学 一种视频跨模态搜索模型训练方法、搜索方法及装置

Also Published As

Publication number Publication date
CN114863194B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
Wu et al. Handwritten mathematical expression recognition via paired adversarial learning
CN114863194B (zh) 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置
Hoxha et al. Toward remote sensing image retrieval under a deep image captioning perspective
CN111767405A (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN113705218B (zh) 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
CN112883732A (zh) 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN113282713B (zh) 基于差异性神经表示模型的事件触发词检测方法
Liu et al. Adversarial learning with multi-modal attention for visual question answering
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
Gomez-Perez et al. ISAAQ--Mastering Textbook Questions with Pre-trained Transformers and Bottom-Up and Top-Down Attention
Peng et al. Image to LaTeX with graph neural network for mathematical formula recognition
Li et al. Multi-task deep learning model based on hierarchical relations of address elements for semantic address matching
Tüselmann et al. Recognition-free question answering on handwritten document collections
Hakimov et al. Evaluating architectural choices for deep learning approaches for question answering over knowledge bases
Lin et al. Radical-based extract and recognition networks for Oracle character recognition
Yoon et al. Image classification and captioning model considering a CAM‐based disagreement loss
CN111898528A (zh) 数据处理方法、装置、计算机可读介质及电子设备
Zhou et al. Implicit counterfactual data augmentation for deep neural networks
CN112100390B (zh) 基于场景的文本分类模型、文本分类方法及装置
Ganguly et al. MasonPerplexity at ClimateActivism 2024: Integrating Advanced Ensemble Techniques and Data Augmentation for Climate Activism Stance and Hate Event Identification
CN113723111A (zh) 一种小样本意图识别方法、装置、设备及存储介质
CN115114904B (zh) 语言模型的优化方法、装置以及电子设备
CN111949768B (zh) 一种文件分类方法
Beltrán et al. An extended evaluation of the impact of different modules in ST-VQA systems
Mogadala et al. Knowledge guided attention and inference for describing images containing unseen objects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant