CN114863194B - 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 - Google Patents

面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 Download PDF

Info

Publication number
CN114863194B
CN114863194B CN202210807253.4A CN202210807253A CN114863194B CN 114863194 B CN114863194 B CN 114863194B CN 202210807253 A CN202210807253 A CN 202210807253A CN 114863194 B CN114863194 B CN 114863194B
Authority
CN
China
Prior art keywords
media
mapping
loss
feature
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210807253.4A
Other languages
English (en)
Other versions
CN114863194A (zh
Inventor
杜军平
李昂
李文玲
邵蓥侠
薛哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210807253.4A priority Critical patent/CN114863194B/zh
Publication of CN114863194A publication Critical patent/CN114863194A/zh
Application granted granted Critical
Publication of CN114863194B publication Critical patent/CN114863194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,基于对抗学习的方式构建特征映射器和媒体判别器,利用特征映射器将图像数据或文字数据的映射至一个统一的隐嵌入空间提取特征进行比对,在对抗学习过程中,通过构建联合损失使特征映射器关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性,使得最终的特征映射器突破不同媒体之间提取语义特征的局限性,提高了科技资讯跨媒体检索的准确率。

Description

面向科技资讯跨媒体检索特征映射网络训练方法、检索方法 及装置
技术领域
本发明涉及信息检索技术领域,尤其涉及一种面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置。
背景技术
科技资讯聚焦了中外高新技术的前沿动态。实时跟进最新的科技资讯,有助于促进国家战略科技力量的发展,驱动科技创新,进而确保国家高质量发展。科技资讯中包含大量的多媒体信息(如图像、文本等),具备体量大、来源丰富、类型多样等特点。面向科技资讯进行跨媒体检索,能够从多源异构的海量科技资源中获取目标科技资讯,以便于设计出符合用户需求的应用,包括科技资讯推荐、个性化科技资讯检索等,而该工作的核心便是跨媒体检索。
跨媒体检索(Cross-media Retrieval,CMR)是信息检索领域中的一个重要研究方向,其目的是根据给定媒体的信息检索出语义相似的其他媒体的信息。面向科技资讯数据的跨媒体检索与通用领域的跨媒体检索有一定的区别,主要原因在于通用领域的数据集有较为严格的句子组成规范。但由于科研领域的技术呈爆炸式增长,相关的科技资讯更新迭代更为迅速,导致科技资讯中涌现了大量的新颖专业术语。同时受限于科技资讯的字数限制,不同媒体间的科技资讯数据存在更为明显的语义鸿沟问题,增加了跨媒体检索的难度。
现有技术通常采用深度学习的方式构建检索模型,然而现有的跨媒体检索模型通常只关注一对一的跨媒体数据,对语义关注较少,无法适应对语义复杂的科技资讯专业术语的检索要求,难以实现在一对多的跨媒体检索需求。
发明内容
本发明实施例提供了一种面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决现有技术在科技资讯跨媒体检索过程中由于词汇语义复杂导致的准确度差,且难以进行一对多检索的问题。
一方面,本发明提供一种面向科技资讯的跨媒体检索特征映射网络训练方法,包括:
获取训练样本集,所述训练样本集中包含多个样本,每个样本包含一组语义相同的图像特征向量和文字特征向量,所述图像特征向量是将原始图像数据输入第一特征提取模型得到的,所述文字特征向量是将原始文字数据输入第二特征提取模型得到的,对所述图像数据和所述文字数据添加所属科技领域类别作为标签;
获取初始生成对抗网络模型,所述初始生成对抗网络模型包括特征映射器和媒体判别器,所述特征映射器包括第一基础映射网络和第二基础映射网络,所述第一基础映射网络将图像特征向量映射至隐嵌入空间得到第一映射图像特征,所述第二基础映射网络将文字特征向量映射至所述隐嵌入空间得到第一映射文字特征;所述媒体判别器接收所述第一映射图像特征或所述第一映射文字特征并判断所属媒体类别是文字或图像;
采用所述训练样本集对所述初始生成对抗网络模型进行训练,训练过程中构建联合损失函数进行调参,以最小化所述联合损失函数训练所述特征映射器,最大化所述联合损失函数训练所述媒体判别器,将训练得到的所述特征映射器作为跨媒体检索特征映射网络;
其中,所述联合损失函数的计算步骤包括:
将所述第一映射图像特征输入分类网络以输出图像数据所属科技领域类别的第一概率分布,将所述第一映射文字特征输入所述分类网络以输出文字数据所属科技领域类别的第二概率分布,根据所述第一概率分布和所述第二概率分布计算标签预测损失;
根据所述图像特征向量和所述文字特征向量计算原始语义一致性损失,根据所述第一映射图像特征和所述第一映射文字特征计算隐嵌入空间语义一致性损失,根据所述原始语义一致性损失和所述隐嵌入空间语义一致性损失计算媒体间语义损失;
将所述第一映射图像特征输入第一精炼映射模型得到第二映射图像特征,将所述第一映射文字特征输入第二精炼映射模型得到第二映射文字特征,以最大化所述第一基础映射网络与所述第一精炼映射模型的输出差异、最大化所述第二基础映射网络与所述第二精炼映射模型的输出差异、最小化所述第一基础映射网络和所述第二基础映射网络的输出差异构建媒体约束损失;其中,所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构相同;
将所述标签预测损失、所述媒体间语义损失和所述媒体约束损失加权求和得到特征映射网络损失;
获取所述媒体判别器的对抗损失,将所述特征映射网络损失与所述对抗损失作差得到所述联合损失函数。
在一些实施例中,所述第一特征提取模型为VGG-fc7网络模型,所述第二特征提取模型为BoW模型;
所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构均由三个多层感知机构成;
所述媒体判别器由三层全连接层构成;所述分类网络采用softmax层。
在一些实施例中,根据所述第一概率分布和所述第二概率分布计算标签预测损失,所述标签预测损失为采用交叉熵损失,计算式为:
Figure 100002_DEST_PATH_IMAGE002
其中,
Figure 100002_DEST_PATH_IMAGE004
表示所述标签预测损失,
Figure 100002_DEST_PATH_IMAGE006
表示所述分类网络的参数,
Figure 100002_DEST_PATH_IMAGE008
是第i个样本
Figure 100002_DEST_PATH_IMAGE010
所属科技领域类别的真实值,
Figure 100002_DEST_PATH_IMAGE012
是第i个样本中图像特征向量
Figure 100002_DEST_PATH_IMAGE014
所属科技领域类别的概率分布,
Figure 100002_DEST_PATH_IMAGE016
是第i个样本中文字特征向量
Figure 100002_DEST_PATH_IMAGE018
所属科技领域类别的概率分布。
在一些实施例中,所述原始语义一致性损失采用
Figure 100002_DEST_PATH_IMAGE020
范数表达,计算式为:
Figure 100002_DEST_PATH_IMAGE022
其中,
Figure 100002_DEST_PATH_IMAGE024
表示所述原始语义一致性损失,
Figure 100002_DEST_PATH_IMAGE026
表示所述原始图像数据的语义分布,等同于所述图像特征向量,
Figure 100002_DEST_PATH_IMAGE028
表示所述原始文字数据的语义分布,等同于所述文字特征向量;
所述隐嵌入空间语义一致性损失采用
Figure 100002_DEST_PATH_IMAGE030
范数表达,计算式为:
Figure 100002_DEST_PATH_IMAGE032
其中,
Figure 100002_DEST_PATH_IMAGE034
表示所述隐嵌入空间语义一致性损失,
Figure 100002_DEST_PATH_IMAGE036
表示所述图像特征向量映射至隐嵌入空间后的特征向量,V表示所述图像特征向量,
Figure 100002_DEST_PATH_IMAGE038
表示所述第一基础映射网络的参数;
Figure 100002_DEST_PATH_IMAGE040
表示所述文字特征向量映射至隐嵌入空间后的特征向量,T表示所述文字特征向量,
Figure 100002_DEST_PATH_IMAGE042
表示所述第二基础映射网络的参数;
所述媒体间语义损失计算式为:
Figure 100002_DEST_PATH_IMAGE044
其中,
Figure 100002_DEST_PATH_IMAGE046
表示所述媒体间语义损失。
在一些实施例中,所述媒体约束损失的计算式为:
Figure 100002_DEST_PATH_IMAGE048
Figure 100002_DEST_PATH_IMAGE050
Figure 100002_DEST_PATH_IMAGE052
其中,
Figure 100002_DEST_PATH_IMAGE054
表示所述媒体约束损失,
Figure 100002_DEST_PATH_IMAGE056
表示图像数据约束损失,
Figure 100002_DEST_PATH_IMAGE058
表示文字数据约束损失,
Figure 100002_DEST_PATH_IMAGE060
表示所述第一基础映射网络的输出,
Figure 100002_DEST_PATH_IMAGE062
表示所述第二基础映射网络的输出,
Figure 100002_DEST_PATH_IMAGE064
表示
Figure 100002_DEST_PATH_IMAGE066
输入所述第一精炼映射模型后的输出、
Figure 100002_DEST_PATH_IMAGE068
表示
Figure 100002_DEST_PATH_IMAGE070
输入所述第二精炼映射模型后的输出,
Figure 100002_DEST_PATH_IMAGE072
表示所述第一基础映射网络的参数,
Figure 100002_DEST_PATH_IMAGE074
表示所述第二基础映射网络的参数,
Figure 100002_DEST_PATH_IMAGE076
表示所述第一精炼映射模型的参数,
Figure 100002_DEST_PATH_IMAGE078
表示所述第二精炼映射模型的参数。
在一些实施例中,所述特征映射网络损失的计算式为:
Figure 100002_DEST_PATH_IMAGE080
其中,
Figure 100002_DEST_PATH_IMAGE082
表示所述特征映射网络损失,
Figure 100002_DEST_PATH_IMAGE084
Figure 100002_DEST_PATH_IMAGE086
为可调节参数;
所述对抗损失的计算式为:
Figure 100002_DEST_PATH_IMAGE088
其中,
Figure 100002_DEST_PATH_IMAGE090
表示对抗损失,
Figure 100002_DEST_PATH_IMAGE092
表示所述媒体判别器的参数,
Figure 100002_DEST_PATH_IMAGE094
表示所述媒体判别器对所述图像特征向量识别结果的概率分布,
Figure 100002_DEST_PATH_IMAGE096
表示所述媒体判别器对所述文字特征向量识别结果的概率分布。
在一些实施例中,以最小化所述联合损失函数训练所述特征映射器,表达式为:
Figure 100002_DEST_PATH_IMAGE098
最大化所述联合损失函数训练所述媒体判别器,表达式为:
Figure 100002_DEST_PATH_IMAGE100
另一方面,本发明提供一种面向科技资讯的跨媒体检索方法,包括:
获取待查询数据;
若所述待查询数据为图像,将所述待查询数据输入第一特征提取模型得到第一待查询图像特征向量;将所述第一待查询图像特征向量输入上述面向科技资讯的跨媒体检索特征映射网络训练方法中的跨媒体检索特征映射网络,输出第二待查询图像特征向量;将第一目标数据库中的多个候选文字数据输入第二特征提取模型得到第一候选文字特征向量;将所述第一候选文字特征向量输入所述跨媒体检索特征映射网络,输出第二候选文字特征向量;逐一计算所述第二待查询图像特征向量与各第二候选文字特征向量的余弦距离,并排序输出检索结果;
若所述待查询数据为文字,将所述待查询数据输入所述第二特征提取模型得到第一待查询文字特征向量;将所述第一待查询文字特征向量输入所述跨媒体检索特征映射网络,输出第二待查询文字特征向量;将第二目标数据库中的多个候选图像数据输入所述第一特征提取模型得到第一候选图像特征向量;将所述第一候选图像特征向量输入所述跨媒体检索特征映射网络,输出第二候选图像特征向量;逐一计算所述第二待查询文字特征向量与各第二候选图像特征向量的余弦距离,并排序输出检索结果。
在一些实施例中,所述面向科技资讯的跨媒体检索方法中,所述第一特征提取模型为VGG-fc7网络模型,所述第二特征提取模型为BoW模型。
另一方面,本发明还提供一种面向科技资讯的跨媒体检索装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法的步骤。
本发明的有益效果至少是:
本发明所述面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,基于对抗学习的方式构建特征映射器和媒体判别器,利用特征映射器将图像数据或文字数据的映射至一个统一的隐嵌入空间提取特征进行比对,在对抗学习过程中,通过构建联合损失使特征映射器关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性,使得最终的特征映射器突破不同媒体之间提取语义特征的局限性,提高了科技资讯跨媒体检索的准确率。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所述面向科技资讯的跨媒体检索特征映射网络训练方法的逻辑示意图。
图2为本发明另一实施例所述面向科技资讯的跨媒体检索特征映射网络训练方法的逻辑示意图。
图3为本发明一实施例所述面向科技资讯的跨媒体检索方法的逻辑示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
现有技术中,跨媒体检索可以使用传统的统计关联分析方法,统计关联分析方法主要通过优化统计值来学习公共空间的线性投影矩阵,来建立一个共享子空间,使得不同媒体类型的数据对象的相似性可以映射到该子空间中,再使用常见的距离进行度量。在基于传统的统计关联分析的跨媒体检索方法中,主要通过优化统计值来学习公共空间的线性投影矩阵。然而,通过线性投影很难完全模拟现实世界中跨媒体数据的复杂相关性。此外,该类方法需要计算奇异值分解、逆矩阵、平方根矩阵,耗费的时间较长,相比于基于深度学习的跨媒体检索方法,有较为明显的不足。还可以基于深度学习的跨媒体检索方法,主要使用卷积神经网络CNN通过多层非线性变换学习不同媒体数据间的语义相似性。但是,基于深度神经网络的跨媒体检索模型通常只专注于保留耦合的跨媒体样本(例如,图像和一段文本)的成对相似性,却忽略了一种媒体的一个样本,可能存在多个相同媒体的语义不同的样本,因此无法保留跨媒体语义结构。此外,现有基于深度学习的方法主要将单媒体特征作为输入,因此效果很大程度上取决于特征的有效性。
需要预先说明的是,本发明所述的跨媒体是指在不同数据形式之间进行检索,本发明主要是在图像数据和文字数据之间进行跨媒体检索。
一方面,本发明提供一种面向科技资讯的跨媒体检索特征映射网络训练方法,参照图1,包括步骤S101~S103:
步骤S101:获取训练样本集,训练样本集中包含多个样本,每个样本包含一组语义相同的图像特征向量和文字特征向量,图像特征向量是将原始图像数据输入第一特征提取模型得到的,文字特征向量是将原始文字数据输入第二特征提取模型得到的,对图像数据和文字数据添加所属科技领域类别作为标签。
步骤S102:获取初始生成对抗网络模型,初始生成对抗网络模型包括特征映射器和媒体判别器,特征映射器包括第一基础映射网络和第二基础映射网络,第一基础映射网络将图像特征向量映射至隐嵌入空间得到第一映射图像特征,第二基础映射网络将文字特征向量映射至隐嵌入空间得到第一映射文字特征;媒体判别器接收第一映射图像特征或第一映射文字特征并判断所属媒体类别是文字或图像。在一些实施例中,媒体判别器由三层全连接层构成。
步骤S103:采用训练样本集对初始生成对抗网络模型进行训练,训练过程中构建联合损失函数进行调参,以最小化联合损失函数训练特征映射器,最大化联合损失函数训练媒体判别器,将训练得到的特征映射器作为跨媒体检索特征映射网络。
其中,参照图2,联合损失函数的计算步骤包括步骤S201~S205:
步骤S201:将第一映射图像特征输入分类网络以输出图像数据所属科技领域类别的第一概率分布,将第一映射文字特征输入分类网络以输出文字数据所属科技领域类别的第二概率分布,根据第一概率分布和第二概率分布计算标签预测损失。在一些实施例中,分类网络采用softmax层。
步骤S202:根据图像特征向量和文字特征向量计算原始语义一致性损失,根据第一映射图像特征和第一映射文字特征计算隐嵌入空间语义一致性损失,根据原始语义一致性损失和隐嵌入空间语义一致性损失计算媒体间语义损失。
步骤S203:将第一映射图像特征输入第一精炼映射模型得到第二映射图像特征,将第一映射文字特征输入第二精炼映射模型得到第二映射文字特征,以最大化第一基础映射网络与第一精炼映射模型的输出差异、最大化第二基础映射网络与第二精炼映射模型的输出差异、最小化第一基础映射网络与第二基础映射网络的输出差异构建媒体约束损失;其中,第一基础映射网络、第二基础映射网络、第一精炼映射模型和第二精炼映射模型结构相同。在一些实施例中,第一基础映射网络、第二基础映射网络、第一精炼映射模型和第二精炼映射模型结构均由三个多层感知机构成。
步骤S204:将标签预测损失、媒体间语义损失和媒体约束损失加权求和得到特征映射网络损失。
步骤S205:获取媒体判别器的对抗损失,将特征映射网络损失与对抗损失作差得到联合损失函数。
具体的,在步骤S101中,首先获取训练样本集,为了实现跨媒体检索,训练样本集中每个样本是语义相同的,也即语义相匹配的图像数据和文字数据。具体的,由于图像数据和文字数据的数据形式存在显著差异,为了在后续处理过程中统一模态,首先利用第一特征提取模型提取原始图像数据的图像特征向量,利用第二特征提取模型提取原始文字数据的文字特征向量。其中,第一特征提取模型为VGG-fc7网络模型,第二特征提取模型为BoW模型。
示例性的,给定一系列语义相关的图像-文本对
Figure DEST_PATH_IMAGE102
,其中
Figure DEST_PATH_IMAGE104
表示
Figure DEST_PATH_IMAGE106
中的第
Figure DEST_PATH_IMAGE108
个图像-文本对,
Figure DEST_PATH_IMAGE110
表示维度为
Figure DEST_PATH_IMAGE112
的图像特征向量,
Figure DEST_PATH_IMAGE114
表示维度为
Figure DEST_PATH_IMAGE116
的文本特征向量。每个图像-文本对都对应着一个语义类别向量
Figure DEST_PATH_IMAGE118
,语义类别向量可以理解为是所属科技领域类别的表达形式,其中
Figure DEST_PATH_IMAGE120
表示语义类别的总数,假设
Figure DEST_PATH_IMAGE122
属于第
Figure DEST_PATH_IMAGE124
个语义类别,那么记
Figure DEST_PATH_IMAGE126
,否则记
Figure DEST_PATH_IMAGE128
。记样本
Figure DEST_PATH_IMAGE130
中所有的图像、文本、语义类别所对应的特征矩阵为
Figure DEST_PATH_IMAGE132
Figure DEST_PATH_IMAGE134
Figure DEST_PATH_IMAGE136
在步骤S102中,基于对抗学习的方式,构建特征映射器和媒体判别器,其中,特征映射器用于将图像特征向量或文字特征向量映射至一个统一的隐嵌入空间进行用于比对,媒体判别器用于根据提取隐嵌入空间内的特征判断输入的数据的媒体类别,也即是属于图像还是文字。
在步骤S103中,对初始生成对抗网络模型的训练过程中,构建联合损失函数,使特征映射器能够关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性。
具体的,步骤S201中,引入分类网络基于第一映射图像特征或第一映射文字特征进行语义分类的判断,也即预测所述乐基领域类别,构建标签预测损失,使特征映射器关注到语义特征在不同科技类别下的区别性。在一些实施例中,步骤S201中根据第一概率分布和第二概率分布计算标签预测损失,标签预测损失为采用交叉熵损失,计算式为:
Figure DEST_PATH_IMAGE138
其中,
Figure DEST_PATH_IMAGE140
表示标签预测损失,
Figure DEST_PATH_IMAGE142
表示分类网络的参数,
Figure DEST_PATH_IMAGE144
是第i个样本
Figure DEST_PATH_IMAGE146
所属科技领域类别的真实值,
Figure DEST_PATH_IMAGE148
是第i个样本中图像特征向量
Figure DEST_PATH_IMAGE150
所属科技领域类别的概率分布,
Figure DEST_PATH_IMAGE152
是第i个样本中文字特征向量
Figure DEST_PATH_IMAGE154
所属科技领域类别的概率分布。
在步骤S202中,为了使语义相同媒体不同的数据在映射前后都能保留语义相似性,即媒体不同语义相同的数据距离较近,媒体不同语义不同的数据距离较远,构建媒体间语义损失。具体的,原始语义一致性损失采用
Figure DEST_PATH_IMAGE156
范数表达,计算式为:
Figure DEST_PATH_IMAGE158
其中,
Figure DEST_PATH_IMAGE160
表示原始语义一致性损失,
Figure DEST_PATH_IMAGE162
表示原始图像数据的语义分布,等同于图像特征向量,
Figure DEST_PATH_IMAGE164
表示原始文字数据的语义分布,等同于文字特征向量。
隐嵌入空间语义一致性损失采用
Figure 875790DEST_PATH_IMAGE156
范数表达,计算式为:
Figure DEST_PATH_IMAGE166
其中,
Figure DEST_PATH_IMAGE168
表示隐嵌入空间语义一致性损失,
Figure DEST_PATH_IMAGE170
表示图像特征向量映射至隐嵌入空间后的特征向量,V表示图像特征向量,
Figure DEST_PATH_IMAGE172
表示第一基础映射网络的参数;
Figure DEST_PATH_IMAGE174
表示文字特征向量映射至隐嵌入空间后的特征向量,T表示文字特征向量,
Figure DEST_PATH_IMAGE176
表示第二基础映射网络的参数。
媒体间语义损失计算式为:
Figure DEST_PATH_IMAGE178
其中,
Figure DEST_PATH_IMAGE180
表示媒体间语义损失。
在步骤S203中,为了使特征映射器能够更好的欺骗媒体判别器,使语义相同媒体不同的数据信息在经过特征映射器后的输出难以区分不同媒体间特征,本发明引入了第一精炼映射模型和第二精炼映射模型,要求第一基础映射网络的输出与第一精炼映射模型的输出较远,第二基础映射网络的输出与第二精炼映射模型的输出较远。
具体的,媒体约束损失的计算式为:
Figure DEST_PATH_IMAGE182
Figure DEST_PATH_IMAGE184
Figure DEST_PATH_IMAGE186
其中,
Figure DEST_PATH_IMAGE188
表示媒体约束损失,
Figure DEST_PATH_IMAGE190
表示图像数据约束损失,
Figure DEST_PATH_IMAGE192
表示文字数据约束损失,
Figure DEST_PATH_IMAGE194
表示第一基础映射网络的输出,
Figure DEST_PATH_IMAGE196
表示第二基础映射网络的输出,
Figure DEST_PATH_IMAGE198
表示
Figure DEST_PATH_IMAGE200
输入第一精炼映射模型后的输出、
Figure DEST_PATH_IMAGE202
表示
Figure DEST_PATH_IMAGE204
输入第二精炼映射模型后的输出,
Figure DEST_PATH_IMAGE206
表示第一基础映射网络的参数,
Figure DEST_PATH_IMAGE208
表示第二基础映射网络的参数,
Figure DEST_PATH_IMAGE210
表示第一精炼映射模型的参数,
Figure DEST_PATH_IMAGE212
表示第二精炼映射模型的参数。
在一些实施例中,步骤S204中,特征映射网络损失的计算式为:
Figure DEST_PATH_IMAGE214
其中,
Figure DEST_PATH_IMAGE216
表示特征映射网络损失,
Figure DEST_PATH_IMAGE218
Figure DEST_PATH_IMAGE220
为可调节参数;
进一步的,步骤S205中,对抗损失的计算式为:
Figure DEST_PATH_IMAGE222
其中,
Figure DEST_PATH_IMAGE224
表示对抗损失,
Figure DEST_PATH_IMAGE226
表示媒体判别器的参数,
Figure DEST_PATH_IMAGE228
表示媒体判别器对图像特征向量识别结果的概率分布,
Figure DEST_PATH_IMAGE230
表示媒体判别器对文字特征向量识别结果的概率分布。
在一些实施例中,步骤S205中,以最小化联合损失函数训练特征映射器,表达式为:
Figure DEST_PATH_IMAGE232
最大化联合损失函数训练媒体判别器,表达式为:
Figure DEST_PATH_IMAGE234
基于步骤S101~S103以及步骤S201~S205训练得到的特征映射器,实际上包含了两个部分,一个是用于将图像数据对应图像特征向量映射至隐嵌入空间的第一基础映射网络,另一个是用于将文字数据对应文字特征向量映射至隐嵌入空间的第二基础映射网络。能够用于提取同一隐嵌入空间内的特征,并进行相似度比对。基于上述训练过程,特征映射器能够关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性。
另一方面,本发明提供一种面向科技资讯的跨媒体检索方法,如图3所示,包括步骤S301~S303:
步骤S301:获取待查询数据。
步骤S302:若待查询数据为图像,将待查询数据输入第一特征提取模型得到第一待查询图像特征向量;将第一待查询图像特征向量输入上述面向科技资讯的跨媒体检索特征映射网络训练方法中的跨媒体检索特征映射网络,输出第二待查询图像特征向量;将第一目标数据库中的多个候选文字数据输入第二特征提取模型得到第一候选文字特征向量;将第一候选文字特征向量输入跨媒体检索特征映射网络,输出第二候选文字特征向量;逐一计算第二待查询图像特征向量与各第二候选文字特征向量的余弦距离,并排序输出检索结果。
步骤S303:若待查询数据为文字,将待查询数据输入第二特征提取模型得到第一待查询文字特征向量;将第一待查询文字特征向量输入跨媒体检索特征映射网络,输出第二待查询文字特征向量;将第二目标数据库中的多个候选图像数据输入第一特征提取模型得到第一候选图像特征向量;将第一候选图像特征向量输入跨媒体检索特征映射网络,输出第二候选图像特征向量;逐一计算第二待查询文字特征向量与各第二候选图像特征向量的余弦距离,并排序输出检索结果。
在一些实施例中,面向科技资讯的跨媒体检索方法中,第一特征提取模型为VGG-fc7网络模型,第二特征提取模型为BoW模型。
在本实施例步骤S301~S303中,基于步骤S101~S103训练得到的特征映射器,将带查询的图像或文字映射到隐嵌入空间,同时,将目标数据库中的指定媒体类型的数据也转化到相应的隐嵌入空间,通过计算特征之间的余弦距离,比对相似性,并排序输出最接近的跨媒体搜索结果。
另一方面,本发明还提供一种面向科技资讯的跨媒体检索装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法的步骤。
下面结合一具体实施例对本发明进行说明:
本发明提出一种面向科技资讯数据的跨媒体检索方法,参照图1和图2,在模型训练过程中,构造基于对抗学习的初始生成对抗网络模型,包括特征映射器、媒体判别器,基于对抗学习的逻辑进行训练。具体而言,特征映射器将不同媒体的科技资讯数据映射到统一公共子空间,媒体判别器判断出映射数据的原始模态给出反馈,对抗学习则是两者之间进行博弈直至博弈过程收敛。
具体的,特征映射器为了将不同媒体的特征映射到统一的隐嵌入空间以便进行语义相似性的比较。同时,也扮演着生成对抗网络中“生成器”的角色,目的是为了迷惑媒体判别器。为了使映射后的特征表示充分考虑两类媒体数据的语义相似性和媒体相似性,本实施例设计的特征映射器由三部分进行约束:媒体内的标签预测、媒体间的语义保留、语义内的媒体约束。媒体内的标签预测使得映射在隐嵌入空间
Figure DEST_PATH_IMAGE236
中的特征依然能够以原始的语义标签为真值进行语义分类;媒体间的语义保留使得语义相同媒体不同的数据在映射前后都能保留语义相似性;语义内的媒体区别使得映射后的数据更加逼近原本语义。
在标签预测部分,为了保证映射到隐嵌入空间
Figure DEST_PATH_IMAGE237
中的特征依然能够保留原始语义,以原始的语义标签为真值进行语义分类。在每个特征映射网络的最后加入一个保持线性激活的softmax层。将图像文本对
Figure DEST_PATH_IMAGE239
作为样本进行训练,并输出每个数据对应语义类别的概率分布。采用如下损失函数来计算媒体内的标签预测损失:
Figure DEST_PATH_IMAGE241
其中,
Figure DEST_PATH_IMAGE243
表示标签预测损失,
Figure DEST_PATH_IMAGE245
表示分类网络的参数,
Figure DEST_PATH_IMAGE247
是第i个样本
Figure DEST_PATH_IMAGE249
所属科技领域类别的真实值,
Figure DEST_PATH_IMAGE251
是第i个样本中图像特征向量
Figure DEST_PATH_IMAGE253
所属科技领域类别的概率分布,
Figure DEST_PATH_IMAGE255
是第i个样本中文字特征向量
Figure DEST_PATH_IMAGE257
所属科技领域类别的概率分布。
语义保留部分致力于保证语义相同媒体不同的数据在映射前后都能保留语义相似性,即媒体不同语义相同的数据距离较近,媒体不同语义不同的数据距离较远。在映射到隐嵌入空间
Figure DEST_PATH_IMAGE259
之前,每个样本
Figure DEST_PATH_IMAGE261
中的图像数据与文本数据的语义分布分别为
Figure DEST_PATH_IMAGE263
Figure DEST_PATH_IMAGE265
。那么两不同媒体数据间的语义一致性损失用
Figure DEST_PATH_IMAGE267
范数表示:
Figure DEST_PATH_IMAGE269
其中,
Figure DEST_PATH_IMAGE271
表示原始语义一致性损失,
Figure DEST_PATH_IMAGE273
表示原始图像数据的语义分布,等同于图像特征向量,
Figure DEST_PATH_IMAGE275
表示原始文字数据的语义分布,等同于文字特征向量。
在映射到隐嵌入空间
Figure DEST_PATH_IMAGE276
之后,每个样本
Figure 807579DEST_PATH_IMAGE261
中的图像数据特征
Figure DEST_PATH_IMAGE278
与文本数据的特征
Figure DEST_PATH_IMAGE280
之间的语义一致性损失同样用
Figure DEST_PATH_IMAGE282
范数表示为:
Figure DEST_PATH_IMAGE284
其中,
Figure DEST_PATH_IMAGE286
表示隐嵌入空间语义一致性损失,
Figure DEST_PATH_IMAGE288
表示图像特征向量映射至隐嵌入空间后的特征向量,V表示图像特征向量,
Figure DEST_PATH_IMAGE290
表示第一基础映射网络的参数;
Figure DEST_PATH_IMAGE292
表示文字特征向量映射至隐嵌入空间后的特征向量,T表示文字特征向量,
Figure DEST_PATH_IMAGE294
表示第二基础映射网络的参数。
因此,整体的媒体间语义损失可以建模为
Figure DEST_PATH_IMAGE296
Figure DEST_PATH_IMAGE298
两者的结合,表达式如下:
Figure DEST_PATH_IMAGE300
其中,
Figure DEST_PATH_IMAGE302
表示媒体间语义损失。
在媒体约束部分,除了便于度量不同媒体数据间的语义相似性之外,特征映射器的另一个作用是生成映射后的特征来欺骗媒体判别器,让它无法区分出数据的原始媒体。因此,引入语义内的媒体约束模块。为了能够更加逼真地映射出难以区分媒体的特征,在基础的特征映射器
Figure DEST_PATH_IMAGE304
之外,构造另一个相同结构的特征映射器
Figure DEST_PATH_IMAGE306
,称为精炼网络。精炼网络
Figure DEST_PATH_IMAGE308
的输入是
Figure 866277DEST_PATH_IMAGE304
的输出结果
Figure DEST_PATH_IMAGE310
Figure DEST_PATH_IMAGE312
Figure 136853DEST_PATH_IMAGE306
的输出是
Figure DEST_PATH_IMAGE314
Figure DEST_PATH_IMAGE316
。其中,
Figure DEST_PATH_IMAGE318
Figure DEST_PATH_IMAGE320
分别表示
Figure DEST_PATH_IMAGE322
Figure 934913DEST_PATH_IMAGE312
经过特征映射器
Figure DEST_PATH_IMAGE324
映射后的特征,
Figure DEST_PATH_IMAGE326
Figure DEST_PATH_IMAGE328
分别表示
Figure DEST_PATH_IMAGE329
Figure DEST_PATH_IMAGE330
两种特征的映射函数。
对每一个图像-文本对
Figure DEST_PATH_IMAGE332
而言,目标是让精炼网络
Figure DEST_PATH_IMAGE334
映射出的特征(
Figure DEST_PATH_IMAGE336
Figure DEST_PATH_IMAGE338
)距离基础网络
Figure DEST_PATH_IMAGE340
映射的特征(
Figure DEST_PATH_IMAGE342
Figure DEST_PATH_IMAGE344
)较远,距离相同语义的特征(
Figure 521490DEST_PATH_IMAGE344
Figure 585261DEST_PATH_IMAGE342
)较近。构建媒体约束损失,计算式为:
Figure DEST_PATH_IMAGE346
Figure DEST_PATH_IMAGE348
Figure DEST_PATH_IMAGE350
其中,
Figure DEST_PATH_IMAGE352
表示媒体约束损失,
Figure DEST_PATH_IMAGE354
表示图像数据约束损失,
Figure DEST_PATH_IMAGE356
表示文字数据约束损失,
Figure DEST_PATH_IMAGE358
表示第一基础映射网络的输出,
Figure DEST_PATH_IMAGE360
表示第二基础映射网络的输出,
Figure DEST_PATH_IMAGE362
表示
Figure DEST_PATH_IMAGE364
输入第一精炼映射模型后的输出、
Figure DEST_PATH_IMAGE366
表示
Figure DEST_PATH_IMAGE367
输入第二精炼映射模型后的输出,
Figure DEST_PATH_IMAGE369
表示第一基础映射网络的参数,
Figure DEST_PATH_IMAGE371
表示第二基础映射网络的参数,
Figure DEST_PATH_IMAGE373
表示第一精炼映射模型的参数,
Figure DEST_PATH_IMAGE375
表示第二精炼映射模型的参数。
构建特征映射网络损失,整个特征映射器的映射性损失由媒体内的语义损失、媒体间的语义损失、语义内的媒体约束损失共同组成,记为
Figure DEST_PATH_IMAGE377
,计算式为:
Figure DEST_PATH_IMAGE379
其中,
Figure DEST_PATH_IMAGE381
表示特征映射网络损失,
Figure DEST_PATH_IMAGE383
Figure DEST_PATH_IMAGE385
为可调节参数。
媒体判别网络扮演着GAN中“判别器”的角色,用来判断映射到隐嵌入空间后的数据的原始媒体。令经过图像映射函数的数据标签为0,经过文本映射函数的数据标签为1。本实施例使用一个参数为
Figure DEST_PATH_IMAGE387
的三层全连接网络作为判别网络,充当特征映射网络的对手。其目标是最小化媒体分类损失,也成为对抗性损失
Figure DEST_PATH_IMAGE389
,定义如下:
Figure DEST_PATH_IMAGE391
其中,
Figure DEST_PATH_IMAGE393
表示对抗损失,
Figure DEST_PATH_IMAGE395
表示媒体判别器的参数,
Figure DEST_PATH_IMAGE397
表示媒体判别器对图像特征向量识别结果的概率分布,
Figure DEST_PATH_IMAGE399
表示媒体判别器对文字特征向量识别结果的概率分布。
在对抗学习过程中,以最小化联合损失函数训练特征映射器,表达式为:
Figure DEST_PATH_IMAGE401
最大化联合损失函数训练媒体判别器,表达式为:
Figure DEST_PATH_IMAGE403
本实施例引入语义内的媒体约束来加强将不同类型的媒体数据映射到共享高级语义空间的能力。采用对抗博弈的思想,构建特征映射器和媒体判别器,进行极小化极大博弈。采用标签预测来确保数据在特征投影后仍保留媒体内的区别。与先前工作不同的是,本实施例同时最小化相同语义的文本-图像对中不同媒体的数据分别在特征映射前和特征映射后的距离,以确保不同媒体间数据在映射过程中的语义一致性得以保留。此外,通过构建基础映射网络和精炼映射网络共同辅助建模语义内的媒体约束,使得映射后的数据做到语义上接近自身,媒体上远离自身,来增强特征映射网络混淆媒体判别网络的能力。媒体判别网络负责区分数据的原始媒体,一旦它被欺骗,则整个博弈过程收敛,且在科技资讯数据集中取得了更好的跨媒体检索效果。
通过端到端的方式同时保持媒体内的语义区分性、媒体间的语义一致性、语义内的媒体判别性,能够有效地学习异构数据的公共表示;通过构建基础特征映射网络和精炼特征映射网络联合进行多媒体数据特征映射,辅助语义内的媒体约束,有效地增强了特征映射网络混淆媒体判别网络的能力;在两个数据集上进行的大量实验表明,本发明提出的方法优于现有技术中的跨媒体检索方法,包括传统的方法和基于深度学习的方法,有效提高了跨媒体检索的准确率。
与上述方法相应地,本发明还提供了一种面向科技资讯的跨媒体检索装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
综上所述,本发明所述面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,基于对抗学习的方式构建特征映射器和媒体判别器,利用特征映射器将图像数据或文字数据的映射至一个统一的隐嵌入空间提取特征进行比对,在对抗学习过程中,通过构建联合损失使特征映射器关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性,使得最终的特征映射器突破不同媒体之间提取语义特征的局限性,提高了科技资讯跨媒体检索的准确率。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,包括:
获取训练样本集,所述训练样本集中包含多个样本,每个样本包含一组语义相同的图像特征向量和文字特征向量,所述图像特征向量是将原始图像数据输入第一特征提取模型得到的,所述文字特征向量是将原始文字数据输入第二特征提取模型得到的,对所述图像数据和所述文字数据添加所属科技领域类别作为标签;
获取初始生成对抗网络模型,所述初始生成对抗网络模型包括特征映射器和媒体判别器,所述特征映射器包括第一基础映射网络和第二基础映射网络,所述第一基础映射网络将图像特征向量映射至隐嵌入空间得到第一映射图像特征,所述第二基础映射网络将文字特征向量映射至所述隐嵌入空间得到第一映射文字特征;所述媒体判别器接收所述第一映射图像特征或所述第一映射文字特征并判断所属媒体类别是文字或图像;
采用所述训练样本集对所述初始生成对抗网络模型进行训练,训练过程中构建联合损失函数进行调参,以最小化所述联合损失函数训练所述特征映射器,最大化所述联合损失函数训练所述媒体判别器,将训练得到的所述特征映射器作为跨媒体检索特征映射网络;
其中,所述联合损失函数的计算步骤包括:
将所述第一映射图像特征输入分类网络以输出图像数据所属科技领域类别的第一概率分布,将所述第一映射文字特征输入所述分类网络以输出文字数据所属科技领域类别的第二概率分布,根据所述第一概率分布和所述第二概率分布计算标签预测损失;
根据所述图像特征向量和所述文字特征向量计算原始语义一致性损失,根据所述第一映射图像特征和所述第一映射文字特征计算隐嵌入空间语义一致性损失,根据所述原始语义一致性损失和所述隐嵌入空间语义一致性损失计算媒体间语义损失;
将所述第一映射图像特征输入第一精炼映射模型得到第二映射图像特征,将所述第一映射文字特征输入第二精炼映射模型得到第二映射文字特征,以最大化所述第一基础映射网络与所述第一精炼映射模型的输出差异、最大化所述第二基础映射网络与所述第二精炼映射模型的输出差异、最小化所述第一基础映射网络和所述第二基础映射网络的输出差异构建媒体约束损失;其中,所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构相同;
将所述标签预测损失、所述媒体间语义损失和所述媒体约束损失加权求和得到特征映射网络损失;
获取所述媒体判别器的对抗损失,将所述特征映射网络损失与所述对抗损失作差得到所述联合损失函数。
2.根据权利要求1所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,所述第一特征提取模型为VGG-fc7网络模型,所述第二特征提取模型为BoW模型;
所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构均由三个多层感知机构成;
所述媒体判别器由三层全连接层构成;所述分类网络采用softmax层。
3.根据权利要求2所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,根据所述第一概率分布和所述第二概率分布计算标签预测损失,所述标签预测损失为采用交叉熵损失,计算式为:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
表示所述标签预测损失,
Figure DEST_PATH_IMAGE006
表示所述分类网络的参数,
Figure DEST_PATH_IMAGE008
是第i个样本
Figure DEST_PATH_IMAGE010
所属科技领域类别的真实值,
Figure DEST_PATH_IMAGE012
是第i个样本中图像特征向量
Figure DEST_PATH_IMAGE014
所属科技领域类别的概率分布,
Figure DEST_PATH_IMAGE016
是第i个样本中文字特征向量
Figure DEST_PATH_IMAGE018
所属科技领域类别的概率分布。
4.根据权利要求3所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,所述原始语义一致性损失采用
Figure DEST_PATH_IMAGE020
范数表达,计算式为:
Figure DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE024
表示所述原始语义一致性损失,
Figure DEST_PATH_IMAGE026
表示所述原始图像数据的语义分布,等同于所述图像特征向量,
Figure DEST_PATH_IMAGE028
表示所述原始文字数据的语义分布,等同于所述文字特征向量;
所述隐嵌入空间语义一致性损失采用
Figure DEST_PATH_IMAGE030
范数表达,计算式为:
Figure DEST_PATH_IMAGE032
其中,
Figure DEST_PATH_IMAGE034
表示所述隐嵌入空间语义一致性损失,
Figure DEST_PATH_IMAGE036
表示所述图像特征向量映射至隐嵌入空间后的特征向量,V表示所述图像特征向量,
Figure DEST_PATH_IMAGE038
表示所述第一基础映射网络的参数;
Figure DEST_PATH_IMAGE040
表示所述文字特征向量映射至隐嵌入空间后的特征向量,T表示所述文字特征向量,
Figure DEST_PATH_IMAGE042
表示所述第二基础映射网络的参数;
所述媒体间语义损失计算式为:
Figure DEST_PATH_IMAGE044
其中,
Figure DEST_PATH_IMAGE046
表示所述媒体间语义损失。
5.根据权利要求4所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,所述媒体约束损失的计算式为:
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE052
其中,
Figure DEST_PATH_IMAGE054
表示所述媒体约束损失,
Figure DEST_PATH_IMAGE056
表示图像数据约束损失,
Figure DEST_PATH_IMAGE058
表示文字数据约束损失,
Figure DEST_PATH_IMAGE060
表示所述第一基础映射网络的输出,
Figure DEST_PATH_IMAGE062
表示所述第二基础映射网络的输出,
Figure DEST_PATH_IMAGE064
表示
Figure DEST_PATH_IMAGE066
输入所述第一精炼映射模型后的输出、
Figure DEST_PATH_IMAGE068
表示
Figure DEST_PATH_IMAGE070
输入所述第二精炼映射模型后的输出,
Figure DEST_PATH_IMAGE072
表示所述第一基础映射网络的参数,
Figure DEST_PATH_IMAGE074
表示所述第二基础映射网络的参数,
Figure DEST_PATH_IMAGE076
表示所述第一精炼映射模型的参数,
Figure DEST_PATH_IMAGE078
表示所述第二精炼映射模型的参数。
6.根据权利要求5所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,所述特征映射网络损失的计算式为:
Figure DEST_PATH_IMAGE080
其中,
Figure DEST_PATH_IMAGE082
表示所述特征映射网络损失,
Figure DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE086
为可调节参数;
所述对抗损失的计算式为:
Figure DEST_PATH_IMAGE088
其中,
Figure DEST_PATH_IMAGE090
表示对抗损失,
Figure DEST_PATH_IMAGE092
表示所述媒体判别器的参数,
Figure DEST_PATH_IMAGE094
表示所述媒体判别器对所述图像特征向量识别结果的概率分布,
Figure DEST_PATH_IMAGE096
表示所述媒体判别器对所述文字特征向量识别结果的概率分布。
7.根据权利要求6所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,以最小化所述联合损失函数训练所述特征映射器,表达式为:
Figure DEST_PATH_IMAGE098
最大化所述联合损失函数训练所述媒体判别器,表达式为:
Figure DEST_PATH_IMAGE100
8.一种面向科技资讯的跨媒体检索方法,其特征在于,包括:
获取待查询数据;
若所述待查询数据为图像,将所述待查询数据输入第一特征提取模型得到第一待查询图像特征向量;将所述第一待查询图像特征向量输入权利要求1至7任意一项所述面向科技资讯的跨媒体检索特征映射网络训练方法中的跨媒体检索特征映射网络,输出第二待查询图像特征向量;将第一目标数据库中的多个候选文字数据输入第二特征提取模型得到第一候选文字特征向量;将所述第一候选文字特征向量输入所述跨媒体检索特征映射网络,输出第二候选文字特征向量;逐一计算所述第二待查询图像特征向量与各第二候选文字特征向量的余弦距离,并排序输出检索结果;
若所述待查询数据为文字,将所述待查询数据输入所述第二特征提取模型得到第一待查询文字特征向量;将所述第一待查询文字特征向量输入所述跨媒体检索特征映射网络,输出第二待查询文字特征向量;将第二目标数据库中的多个候选图像数据输入所述第一特征提取模型得到第一候选图像特征向量;将所述第一候选图像特征向量输入所述跨媒体检索特征映射网络,输出第二候选图像特征向量;逐一计算所述第二待查询文字特征向量与各第二候选图像特征向量的余弦距离,并排序输出检索结果。
9.根据权利要求8所述的面向科技资讯的跨媒体检索方法,其特征在于,所述第一特征提取模型为VGG-fc7网络模型,所述第二特征提取模型为BoW模型。
10.一种面向科技资讯的跨媒体检索装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求8至9中任一项所述方法的步骤。
CN202210807253.4A 2022-07-11 2022-07-11 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 Active CN114863194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210807253.4A CN114863194B (zh) 2022-07-11 2022-07-11 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210807253.4A CN114863194B (zh) 2022-07-11 2022-07-11 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置

Publications (2)

Publication Number Publication Date
CN114863194A CN114863194A (zh) 2022-08-05
CN114863194B true CN114863194B (zh) 2022-11-18

Family

ID=82626194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210807253.4A Active CN114863194B (zh) 2022-07-11 2022-07-11 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置

Country Status (1)

Country Link
CN (1) CN114863194B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028617B (zh) * 2022-12-06 2024-02-27 腾讯科技(深圳)有限公司 资讯推荐方法、装置、设备、可读存储介质及程序产品
CN115640418B (zh) * 2022-12-26 2023-04-07 天津师范大学 基于残差语义一致性跨域多视角目标网站检索方法及装置
CN116955699B (zh) * 2023-07-18 2024-04-26 北京邮电大学 一种视频跨模态搜索模型训练方法、搜索方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694200B (zh) * 2017-04-10 2019-12-20 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN109344266B (zh) * 2018-06-29 2021-08-06 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
CN111581405B (zh) * 2020-04-26 2021-10-26 电子科技大学 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN113254678B (zh) * 2021-07-14 2021-10-01 北京邮电大学 跨媒体检索模型的训练方法、跨媒体检索方法及其设备

Also Published As

Publication number Publication date
CN114863194A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN114863194B (zh) 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置
CN111767405A (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN113705218B (zh) 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
Kang et al. Generative text steganography based on LSTM network and attention mechanism with keywords
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN113282713B (zh) 基于差异性神经表示模型的事件触发词检测方法
Liu et al. Adversarial learning with multi-modal attention for visual question answering
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
Gomez-Perez et al. ISAAQ--Mastering Textbook Questions with Pre-trained Transformers and Bottom-Up and Top-Down Attention
Li et al. Multi-task deep learning model based on hierarchical relations of address elements for semantic address matching
Lin et al. Radical-based extract and recognition networks for Oracle character recognition
Tüselmann et al. Recognition-free question answering on handwritten document collections
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN116821297A (zh) 一种风格化法律咨询问答方法、系统、存储介质和设备
CN115455144A (zh) 用于小样本意图识别的完型填空式的数据增强方法
CN115273100A (zh) 一种基于语义引导鉴别器的半监督汉字图像生成方法
CN113919351A (zh) 基于迁移学习的网络安全命名实体和关系联合抽取方法及装置
CN114722818A (zh) 一种基于对抗迁移学习的命名实体识别模型
CN115114904B (zh) 语言模型的优化方法、装置以及电子设备
CN111949768B (zh) 一种文件分类方法
Beltrán et al. An extended evaluation of the impact of different modules in ST-VQA systems
Liu et al. Res-RNN Network and Its Application in Case Text Recognition
Yang et al. Variational Deep Representation Learning for Cross-Modal Retrieval
Yin et al. Multi-method Integration with Confidence-based Weighting for Zero-shot Image Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant