CN114863194B - 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 - Google Patents
面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 Download PDFInfo
- Publication number
- CN114863194B CN114863194B CN202210807253.4A CN202210807253A CN114863194B CN 114863194 B CN114863194 B CN 114863194B CN 202210807253 A CN202210807253 A CN 202210807253A CN 114863194 B CN114863194 B CN 114863194B
- Authority
- CN
- China
- Prior art keywords
- media
- mapping
- loss
- feature
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 212
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000012549 training Methods 0.000 title claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 128
- 238000000605 extraction Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 29
- 238000005516 engineering process Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000013135 deep learning Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000010219 correlation analysis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,基于对抗学习的方式构建特征映射器和媒体判别器,利用特征映射器将图像数据或文字数据的映射至一个统一的隐嵌入空间提取特征进行比对,在对抗学习过程中,通过构建联合损失使特征映射器关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性,使得最终的特征映射器突破不同媒体之间提取语义特征的局限性,提高了科技资讯跨媒体检索的准确率。
Description
技术领域
本发明涉及信息检索技术领域,尤其涉及一种面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置。
背景技术
科技资讯聚焦了中外高新技术的前沿动态。实时跟进最新的科技资讯,有助于促进国家战略科技力量的发展,驱动科技创新,进而确保国家高质量发展。科技资讯中包含大量的多媒体信息(如图像、文本等),具备体量大、来源丰富、类型多样等特点。面向科技资讯进行跨媒体检索,能够从多源异构的海量科技资源中获取目标科技资讯,以便于设计出符合用户需求的应用,包括科技资讯推荐、个性化科技资讯检索等,而该工作的核心便是跨媒体检索。
跨媒体检索(Cross-media Retrieval,CMR)是信息检索领域中的一个重要研究方向,其目的是根据给定媒体的信息检索出语义相似的其他媒体的信息。面向科技资讯数据的跨媒体检索与通用领域的跨媒体检索有一定的区别,主要原因在于通用领域的数据集有较为严格的句子组成规范。但由于科研领域的技术呈爆炸式增长,相关的科技资讯更新迭代更为迅速,导致科技资讯中涌现了大量的新颖专业术语。同时受限于科技资讯的字数限制,不同媒体间的科技资讯数据存在更为明显的语义鸿沟问题,增加了跨媒体检索的难度。
现有技术通常采用深度学习的方式构建检索模型,然而现有的跨媒体检索模型通常只关注一对一的跨媒体数据,对语义关注较少,无法适应对语义复杂的科技资讯专业术语的检索要求,难以实现在一对多的跨媒体检索需求。
发明内容
本发明实施例提供了一种面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决现有技术在科技资讯跨媒体检索过程中由于词汇语义复杂导致的准确度差,且难以进行一对多检索的问题。
一方面,本发明提供一种面向科技资讯的跨媒体检索特征映射网络训练方法,包括:
获取训练样本集,所述训练样本集中包含多个样本,每个样本包含一组语义相同的图像特征向量和文字特征向量,所述图像特征向量是将原始图像数据输入第一特征提取模型得到的,所述文字特征向量是将原始文字数据输入第二特征提取模型得到的,对所述图像数据和所述文字数据添加所属科技领域类别作为标签;
获取初始生成对抗网络模型,所述初始生成对抗网络模型包括特征映射器和媒体判别器,所述特征映射器包括第一基础映射网络和第二基础映射网络,所述第一基础映射网络将图像特征向量映射至隐嵌入空间得到第一映射图像特征,所述第二基础映射网络将文字特征向量映射至所述隐嵌入空间得到第一映射文字特征;所述媒体判别器接收所述第一映射图像特征或所述第一映射文字特征并判断所属媒体类别是文字或图像;
采用所述训练样本集对所述初始生成对抗网络模型进行训练,训练过程中构建联合损失函数进行调参,以最小化所述联合损失函数训练所述特征映射器,最大化所述联合损失函数训练所述媒体判别器,将训练得到的所述特征映射器作为跨媒体检索特征映射网络;
其中,所述联合损失函数的计算步骤包括:
将所述第一映射图像特征输入分类网络以输出图像数据所属科技领域类别的第一概率分布,将所述第一映射文字特征输入所述分类网络以输出文字数据所属科技领域类别的第二概率分布,根据所述第一概率分布和所述第二概率分布计算标签预测损失;
根据所述图像特征向量和所述文字特征向量计算原始语义一致性损失,根据所述第一映射图像特征和所述第一映射文字特征计算隐嵌入空间语义一致性损失,根据所述原始语义一致性损失和所述隐嵌入空间语义一致性损失计算媒体间语义损失;
将所述第一映射图像特征输入第一精炼映射模型得到第二映射图像特征,将所述第一映射文字特征输入第二精炼映射模型得到第二映射文字特征,以最大化所述第一基础映射网络与所述第一精炼映射模型的输出差异、最大化所述第二基础映射网络与所述第二精炼映射模型的输出差异、最小化所述第一基础映射网络和所述第二基础映射网络的输出差异构建媒体约束损失;其中,所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构相同;
将所述标签预测损失、所述媒体间语义损失和所述媒体约束损失加权求和得到特征映射网络损失;
获取所述媒体判别器的对抗损失,将所述特征映射网络损失与所述对抗损失作差得到所述联合损失函数。
在一些实施例中,所述第一特征提取模型为VGG-fc7网络模型,所述第二特征提取模型为BoW模型;
所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构均由三个多层感知机构成;
所述媒体判别器由三层全连接层构成;所述分类网络采用softmax层。
在一些实施例中,根据所述第一概率分布和所述第二概率分布计算标签预测损失,所述标签预测损失为采用交叉熵损失,计算式为:
其中,表示所述隐嵌入空间语义一致性损失,表示所述图像特征向量映射至隐嵌入空间后的特征向量,V表示所述图像特征向量,表示所述第一基础映射网络的参数; 表示所述文字特征向量映射至隐嵌入空间后的特征向量,T表示所述文字特征向量,表示所述第二基础映射网络的参数;
所述媒体间语义损失计算式为:
在一些实施例中,所述媒体约束损失的计算式为:
其中,表示所述媒体约束损失,表示图像数据约束损失,表示文字数据约束损失,表示所述第一基础映射网络的输出,表示所述第二基础映射网络的输出,表示 输入所述第一精炼映射模型后的输出、表示 输入所述第二精炼映射模型后的输出,表示所述第一基础映射网络的参数,表示所述第二基础映射网络的参数,表示所述第一精炼映射模型的参数,表示所述第二精炼映射模型的参数。
在一些实施例中,所述特征映射网络损失的计算式为:
所述对抗损失的计算式为:
在一些实施例中,以最小化所述联合损失函数训练所述特征映射器,表达式为:
最大化所述联合损失函数训练所述媒体判别器,表达式为:
另一方面,本发明提供一种面向科技资讯的跨媒体检索方法,包括:
获取待查询数据;
若所述待查询数据为图像,将所述待查询数据输入第一特征提取模型得到第一待查询图像特征向量;将所述第一待查询图像特征向量输入上述面向科技资讯的跨媒体检索特征映射网络训练方法中的跨媒体检索特征映射网络,输出第二待查询图像特征向量;将第一目标数据库中的多个候选文字数据输入第二特征提取模型得到第一候选文字特征向量;将所述第一候选文字特征向量输入所述跨媒体检索特征映射网络,输出第二候选文字特征向量;逐一计算所述第二待查询图像特征向量与各第二候选文字特征向量的余弦距离,并排序输出检索结果;
若所述待查询数据为文字,将所述待查询数据输入所述第二特征提取模型得到第一待查询文字特征向量;将所述第一待查询文字特征向量输入所述跨媒体检索特征映射网络,输出第二待查询文字特征向量;将第二目标数据库中的多个候选图像数据输入所述第一特征提取模型得到第一候选图像特征向量;将所述第一候选图像特征向量输入所述跨媒体检索特征映射网络,输出第二候选图像特征向量;逐一计算所述第二待查询文字特征向量与各第二候选图像特征向量的余弦距离,并排序输出检索结果。
在一些实施例中,所述面向科技资讯的跨媒体检索方法中,所述第一特征提取模型为VGG-fc7网络模型,所述第二特征提取模型为BoW模型。
另一方面,本发明还提供一种面向科技资讯的跨媒体检索装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法的步骤。
本发明的有益效果至少是:
本发明所述面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,基于对抗学习的方式构建特征映射器和媒体判别器,利用特征映射器将图像数据或文字数据的映射至一个统一的隐嵌入空间提取特征进行比对,在对抗学习过程中,通过构建联合损失使特征映射器关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性,使得最终的特征映射器突破不同媒体之间提取语义特征的局限性,提高了科技资讯跨媒体检索的准确率。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所述面向科技资讯的跨媒体检索特征映射网络训练方法的逻辑示意图。
图2为本发明另一实施例所述面向科技资讯的跨媒体检索特征映射网络训练方法的逻辑示意图。
图3为本发明一实施例所述面向科技资讯的跨媒体检索方法的逻辑示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
现有技术中,跨媒体检索可以使用传统的统计关联分析方法,统计关联分析方法主要通过优化统计值来学习公共空间的线性投影矩阵,来建立一个共享子空间,使得不同媒体类型的数据对象的相似性可以映射到该子空间中,再使用常见的距离进行度量。在基于传统的统计关联分析的跨媒体检索方法中,主要通过优化统计值来学习公共空间的线性投影矩阵。然而,通过线性投影很难完全模拟现实世界中跨媒体数据的复杂相关性。此外,该类方法需要计算奇异值分解、逆矩阵、平方根矩阵,耗费的时间较长,相比于基于深度学习的跨媒体检索方法,有较为明显的不足。还可以基于深度学习的跨媒体检索方法,主要使用卷积神经网络CNN通过多层非线性变换学习不同媒体数据间的语义相似性。但是,基于深度神经网络的跨媒体检索模型通常只专注于保留耦合的跨媒体样本(例如,图像和一段文本)的成对相似性,却忽略了一种媒体的一个样本,可能存在多个相同媒体的语义不同的样本,因此无法保留跨媒体语义结构。此外,现有基于深度学习的方法主要将单媒体特征作为输入,因此效果很大程度上取决于特征的有效性。
需要预先说明的是,本发明所述的跨媒体是指在不同数据形式之间进行检索,本发明主要是在图像数据和文字数据之间进行跨媒体检索。
一方面,本发明提供一种面向科技资讯的跨媒体检索特征映射网络训练方法,参照图1,包括步骤S101~S103:
步骤S101:获取训练样本集,训练样本集中包含多个样本,每个样本包含一组语义相同的图像特征向量和文字特征向量,图像特征向量是将原始图像数据输入第一特征提取模型得到的,文字特征向量是将原始文字数据输入第二特征提取模型得到的,对图像数据和文字数据添加所属科技领域类别作为标签。
步骤S102:获取初始生成对抗网络模型,初始生成对抗网络模型包括特征映射器和媒体判别器,特征映射器包括第一基础映射网络和第二基础映射网络,第一基础映射网络将图像特征向量映射至隐嵌入空间得到第一映射图像特征,第二基础映射网络将文字特征向量映射至隐嵌入空间得到第一映射文字特征;媒体判别器接收第一映射图像特征或第一映射文字特征并判断所属媒体类别是文字或图像。在一些实施例中,媒体判别器由三层全连接层构成。
步骤S103:采用训练样本集对初始生成对抗网络模型进行训练,训练过程中构建联合损失函数进行调参,以最小化联合损失函数训练特征映射器,最大化联合损失函数训练媒体判别器,将训练得到的特征映射器作为跨媒体检索特征映射网络。
其中,参照图2,联合损失函数的计算步骤包括步骤S201~S205:
步骤S201:将第一映射图像特征输入分类网络以输出图像数据所属科技领域类别的第一概率分布,将第一映射文字特征输入分类网络以输出文字数据所属科技领域类别的第二概率分布,根据第一概率分布和第二概率分布计算标签预测损失。在一些实施例中,分类网络采用softmax层。
步骤S202:根据图像特征向量和文字特征向量计算原始语义一致性损失,根据第一映射图像特征和第一映射文字特征计算隐嵌入空间语义一致性损失,根据原始语义一致性损失和隐嵌入空间语义一致性损失计算媒体间语义损失。
步骤S203:将第一映射图像特征输入第一精炼映射模型得到第二映射图像特征,将第一映射文字特征输入第二精炼映射模型得到第二映射文字特征,以最大化第一基础映射网络与第一精炼映射模型的输出差异、最大化第二基础映射网络与第二精炼映射模型的输出差异、最小化第一基础映射网络与第二基础映射网络的输出差异构建媒体约束损失;其中,第一基础映射网络、第二基础映射网络、第一精炼映射模型和第二精炼映射模型结构相同。在一些实施例中,第一基础映射网络、第二基础映射网络、第一精炼映射模型和第二精炼映射模型结构均由三个多层感知机构成。
步骤S204:将标签预测损失、媒体间语义损失和媒体约束损失加权求和得到特征映射网络损失。
步骤S205:获取媒体判别器的对抗损失,将特征映射网络损失与对抗损失作差得到联合损失函数。
具体的,在步骤S101中,首先获取训练样本集,为了实现跨媒体检索,训练样本集中每个样本是语义相同的,也即语义相匹配的图像数据和文字数据。具体的,由于图像数据和文字数据的数据形式存在显著差异,为了在后续处理过程中统一模态,首先利用第一特征提取模型提取原始图像数据的图像特征向量,利用第二特征提取模型提取原始文字数据的文字特征向量。其中,第一特征提取模型为VGG-fc7网络模型,第二特征提取模型为BoW模型。
示例性的,给定一系列语义相关的图像-文本对,其中表示 中的第个图像-文本对,表示维度为的图像特征向量,表示维度为的文本特征向量。每个图像-文本对都对应着一个语义类别向量,语义类别向量可以理解为是所属科技领域类别的表达形式,其中表示语义类别的总数,假设属于第个语义类别,那么记,否则记。记样本中所有的图像、文本、语义类别所对应的特征矩阵为,、。
在步骤S102中,基于对抗学习的方式,构建特征映射器和媒体判别器,其中,特征映射器用于将图像特征向量或文字特征向量映射至一个统一的隐嵌入空间进行用于比对,媒体判别器用于根据提取隐嵌入空间内的特征判断输入的数据的媒体类别,也即是属于图像还是文字。
在步骤S103中,对初始生成对抗网络模型的训练过程中,构建联合损失函数,使特征映射器能够关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性。
具体的,步骤S201中,引入分类网络基于第一映射图像特征或第一映射文字特征进行语义分类的判断,也即预测所述乐基领域类别,构建标签预测损失,使特征映射器关注到语义特征在不同科技类别下的区别性。在一些实施例中,步骤S201中根据第一概率分布和第二概率分布计算标签预测损失,标签预测损失为采用交叉熵损失,计算式为:
在步骤S202中,为了使语义相同媒体不同的数据在映射前后都能保留语义相似性,即媒体不同语义相同的数据距离较近,媒体不同语义不同的数据距离较远,构建媒体间语义损失。具体的,原始语义一致性损失采用范数表达,计算式为:
其中,表示隐嵌入空间语义一致性损失,表示图像特征向量映射至隐嵌入空间后的特征向量,V表示图像特征向量,表示第一基础映射网络的参数; 表示文字特征向量映射至隐嵌入空间后的特征向量,T表示文字特征向量,表示第二基础映射网络的参数。
媒体间语义损失计算式为:
在步骤S203中,为了使特征映射器能够更好的欺骗媒体判别器,使语义相同媒体不同的数据信息在经过特征映射器后的输出难以区分不同媒体间特征,本发明引入了第一精炼映射模型和第二精炼映射模型,要求第一基础映射网络的输出与第一精炼映射模型的输出较远,第二基础映射网络的输出与第二精炼映射模型的输出较远。
具体的,媒体约束损失的计算式为:
其中,表示媒体约束损失,表示图像数据约束损失,表示文字数据约束损失,表示第一基础映射网络的输出,表示第二基础映射网络的输出,表示输入第一精炼映射模型后的输出、表示输入第二精炼映射模型后的输出,表示第一基础映射网络的参数,表示第二基础映射网络的参数,表示第一精炼映射模型的参数,表示第二精炼映射模型的参数。
在一些实施例中,步骤S204中,特征映射网络损失的计算式为:
进一步的,步骤S205中,对抗损失的计算式为:
在一些实施例中,步骤S205中,以最小化联合损失函数训练特征映射器,表达式为:
最大化联合损失函数训练媒体判别器,表达式为:
基于步骤S101~S103以及步骤S201~S205训练得到的特征映射器,实际上包含了两个部分,一个是用于将图像数据对应图像特征向量映射至隐嵌入空间的第一基础映射网络,另一个是用于将文字数据对应文字特征向量映射至隐嵌入空间的第二基础映射网络。能够用于提取同一隐嵌入空间内的特征,并进行相似度比对。基于上述训练过程,特征映射器能够关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性。
另一方面,本发明提供一种面向科技资讯的跨媒体检索方法,如图3所示,包括步骤S301~S303:
步骤S301:获取待查询数据。
步骤S302:若待查询数据为图像,将待查询数据输入第一特征提取模型得到第一待查询图像特征向量;将第一待查询图像特征向量输入上述面向科技资讯的跨媒体检索特征映射网络训练方法中的跨媒体检索特征映射网络,输出第二待查询图像特征向量;将第一目标数据库中的多个候选文字数据输入第二特征提取模型得到第一候选文字特征向量;将第一候选文字特征向量输入跨媒体检索特征映射网络,输出第二候选文字特征向量;逐一计算第二待查询图像特征向量与各第二候选文字特征向量的余弦距离,并排序输出检索结果。
步骤S303:若待查询数据为文字,将待查询数据输入第二特征提取模型得到第一待查询文字特征向量;将第一待查询文字特征向量输入跨媒体检索特征映射网络,输出第二待查询文字特征向量;将第二目标数据库中的多个候选图像数据输入第一特征提取模型得到第一候选图像特征向量;将第一候选图像特征向量输入跨媒体检索特征映射网络,输出第二候选图像特征向量;逐一计算第二待查询文字特征向量与各第二候选图像特征向量的余弦距离,并排序输出检索结果。
在一些实施例中,面向科技资讯的跨媒体检索方法中,第一特征提取模型为VGG-fc7网络模型,第二特征提取模型为BoW模型。
在本实施例步骤S301~S303中,基于步骤S101~S103训练得到的特征映射器,将带查询的图像或文字映射到隐嵌入空间,同时,将目标数据库中的指定媒体类型的数据也转化到相应的隐嵌入空间,通过计算特征之间的余弦距离,比对相似性,并排序输出最接近的跨媒体搜索结果。
另一方面,本发明还提供一种面向科技资讯的跨媒体检索装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法的步骤。
下面结合一具体实施例对本发明进行说明:
本发明提出一种面向科技资讯数据的跨媒体检索方法,参照图1和图2,在模型训练过程中,构造基于对抗学习的初始生成对抗网络模型,包括特征映射器、媒体判别器,基于对抗学习的逻辑进行训练。具体而言,特征映射器将不同媒体的科技资讯数据映射到统一公共子空间,媒体判别器判断出映射数据的原始模态给出反馈,对抗学习则是两者之间进行博弈直至博弈过程收敛。
具体的,特征映射器为了将不同媒体的特征映射到统一的隐嵌入空间以便进行语义相似性的比较。同时,也扮演着生成对抗网络中“生成器”的角色,目的是为了迷惑媒体判别器。为了使映射后的特征表示充分考虑两类媒体数据的语义相似性和媒体相似性,本实施例设计的特征映射器由三部分进行约束:媒体内的标签预测、媒体间的语义保留、语义内的媒体约束。媒体内的标签预测使得映射在隐嵌入空间中的特征依然能够以原始的语义标签为真值进行语义分类;媒体间的语义保留使得语义相同媒体不同的数据在映射前后都能保留语义相似性;语义内的媒体区别使得映射后的数据更加逼近原本语义。
在标签预测部分,为了保证映射到隐嵌入空间中的特征依然能够保留原始语义,以原始的语义标签为真值进行语义分类。在每个特征映射网络的最后加入一个保持线性激活的softmax层。将图像文本对作为样本进行训练,并输出每个数据对应语义类别的概率分布。采用如下损失函数来计算媒体内的标签预测损失:
语义保留部分致力于保证语义相同媒体不同的数据在映射前后都能保留语义相似性,即媒体不同语义相同的数据距离较近,媒体不同语义不同的数据距离较远。在映射到隐嵌入空间之前,每个样本中的图像数据与文本数据的语义分布分别为和。那么两不同媒体数据间的语义一致性损失用范数表示:
其中,表示隐嵌入空间语义一致性损失,表示图像特征向量映射至隐嵌入空间后的特征向量,V表示图像特征向量,表示第一基础映射网络的参数; 表示文字特征向量映射至隐嵌入空间后的特征向量,T表示文字特征向量,表示第二基础映射网络的参数。
在媒体约束部分,除了便于度量不同媒体数据间的语义相似性之外,特征映射器的另一个作用是生成映射后的特征来欺骗媒体判别器,让它无法区分出数据的原始媒体。因此,引入语义内的媒体约束模块。为了能够更加逼真地映射出难以区分媒体的特征,在基础的特征映射器之外,构造另一个相同结构的特征映射器,称为精炼网络。精炼网络的输入是的输出结果或,的输出是或。其中,、分别表示、经过特征映射器映射后的特征, 和分别表示、两种特征的映射函数。
其中,表示媒体约束损失,表示图像数据约束损失,表示文字数据约束损失,表示第一基础映射网络的输出,表示第二基础映射网络的输出,表示输入第一精炼映射模型后的输出、表示输入第二精炼映射模型后的输出,表示第一基础映射网络的参数,表示第二基础映射网络的参数,表示第一精炼映射模型的参数,表示第二精炼映射模型的参数。
媒体判别网络扮演着GAN中“判别器”的角色,用来判断映射到隐嵌入空间后的数据的原始媒体。令经过图像映射函数的数据标签为0,经过文本映射函数的数据标签为1。本实施例使用一个参数为的三层全连接网络作为判别网络,充当特征映射网络的对手。其目标是最小化媒体分类损失,也成为对抗性损失,定义如下:
在对抗学习过程中,以最小化联合损失函数训练特征映射器,表达式为:
最大化联合损失函数训练媒体判别器,表达式为:
本实施例引入语义内的媒体约束来加强将不同类型的媒体数据映射到共享高级语义空间的能力。采用对抗博弈的思想,构建特征映射器和媒体判别器,进行极小化极大博弈。采用标签预测来确保数据在特征投影后仍保留媒体内的区别。与先前工作不同的是,本实施例同时最小化相同语义的文本-图像对中不同媒体的数据分别在特征映射前和特征映射后的距离,以确保不同媒体间数据在映射过程中的语义一致性得以保留。此外,通过构建基础映射网络和精炼映射网络共同辅助建模语义内的媒体约束,使得映射后的数据做到语义上接近自身,媒体上远离自身,来增强特征映射网络混淆媒体判别网络的能力。媒体判别网络负责区分数据的原始媒体,一旦它被欺骗,则整个博弈过程收敛,且在科技资讯数据集中取得了更好的跨媒体检索效果。
通过端到端的方式同时保持媒体内的语义区分性、媒体间的语义一致性、语义内的媒体判别性,能够有效地学习异构数据的公共表示;通过构建基础特征映射网络和精炼特征映射网络联合进行多媒体数据特征映射,辅助语义内的媒体约束,有效地增强了特征映射网络混淆媒体判别网络的能力;在两个数据集上进行的大量实验表明,本发明提出的方法优于现有技术中的跨媒体检索方法,包括传统的方法和基于深度学习的方法,有效提高了跨媒体检索的准确率。
与上述方法相应地,本发明还提供了一种面向科技资讯的跨媒体检索装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
综上所述,本发明所述面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,基于对抗学习的方式构建特征映射器和媒体判别器,利用特征映射器将图像数据或文字数据的映射至一个统一的隐嵌入空间提取特征进行比对,在对抗学习过程中,通过构建联合损失使特征映射器关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性,使得最终的特征映射器突破不同媒体之间提取语义特征的局限性,提高了科技资讯跨媒体检索的准确率。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,包括:
获取训练样本集,所述训练样本集中包含多个样本,每个样本包含一组语义相同的图像特征向量和文字特征向量,所述图像特征向量是将原始图像数据输入第一特征提取模型得到的,所述文字特征向量是将原始文字数据输入第二特征提取模型得到的,对所述图像数据和所述文字数据添加所属科技领域类别作为标签;
获取初始生成对抗网络模型,所述初始生成对抗网络模型包括特征映射器和媒体判别器,所述特征映射器包括第一基础映射网络和第二基础映射网络,所述第一基础映射网络将图像特征向量映射至隐嵌入空间得到第一映射图像特征,所述第二基础映射网络将文字特征向量映射至所述隐嵌入空间得到第一映射文字特征;所述媒体判别器接收所述第一映射图像特征或所述第一映射文字特征并判断所属媒体类别是文字或图像;
采用所述训练样本集对所述初始生成对抗网络模型进行训练,训练过程中构建联合损失函数进行调参,以最小化所述联合损失函数训练所述特征映射器,最大化所述联合损失函数训练所述媒体判别器,将训练得到的所述特征映射器作为跨媒体检索特征映射网络;
其中,所述联合损失函数的计算步骤包括:
将所述第一映射图像特征输入分类网络以输出图像数据所属科技领域类别的第一概率分布,将所述第一映射文字特征输入所述分类网络以输出文字数据所属科技领域类别的第二概率分布,根据所述第一概率分布和所述第二概率分布计算标签预测损失;
根据所述图像特征向量和所述文字特征向量计算原始语义一致性损失,根据所述第一映射图像特征和所述第一映射文字特征计算隐嵌入空间语义一致性损失,根据所述原始语义一致性损失和所述隐嵌入空间语义一致性损失计算媒体间语义损失;
将所述第一映射图像特征输入第一精炼映射模型得到第二映射图像特征,将所述第一映射文字特征输入第二精炼映射模型得到第二映射文字特征,以最大化所述第一基础映射网络与所述第一精炼映射模型的输出差异、最大化所述第二基础映射网络与所述第二精炼映射模型的输出差异、最小化所述第一基础映射网络和所述第二基础映射网络的输出差异构建媒体约束损失;其中,所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构相同;
将所述标签预测损失、所述媒体间语义损失和所述媒体约束损失加权求和得到特征映射网络损失;
获取所述媒体判别器的对抗损失,将所述特征映射网络损失与所述对抗损失作差得到所述联合损失函数。
2.根据权利要求1所述的面向科技资讯的跨媒体检索特征映射网络训练方法,其特征在于,所述第一特征提取模型为VGG-fc7网络模型,所述第二特征提取模型为BoW模型;
所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构均由三个多层感知机构成;
所述媒体判别器由三层全连接层构成;所述分类网络采用softmax层。
其中,表示所述隐嵌入空间语义一致性损失,表示所述图像特征向量映射至隐嵌入空间后的特征向量,V表示所述图像特征向量,表示所述第一基础映射网络的参数; 表示所述文字特征向量映射至隐嵌入空间后的特征向量,T表示所述文字特征向量,表示所述第二基础映射网络的参数;
所述媒体间语义损失计算式为:
8.一种面向科技资讯的跨媒体检索方法,其特征在于,包括:
获取待查询数据;
若所述待查询数据为图像,将所述待查询数据输入第一特征提取模型得到第一待查询图像特征向量;将所述第一待查询图像特征向量输入权利要求1至7任意一项所述面向科技资讯的跨媒体检索特征映射网络训练方法中的跨媒体检索特征映射网络,输出第二待查询图像特征向量;将第一目标数据库中的多个候选文字数据输入第二特征提取模型得到第一候选文字特征向量;将所述第一候选文字特征向量输入所述跨媒体检索特征映射网络,输出第二候选文字特征向量;逐一计算所述第二待查询图像特征向量与各第二候选文字特征向量的余弦距离,并排序输出检索结果;
若所述待查询数据为文字,将所述待查询数据输入所述第二特征提取模型得到第一待查询文字特征向量;将所述第一待查询文字特征向量输入所述跨媒体检索特征映射网络,输出第二待查询文字特征向量;将第二目标数据库中的多个候选图像数据输入所述第一特征提取模型得到第一候选图像特征向量;将所述第一候选图像特征向量输入所述跨媒体检索特征映射网络,输出第二候选图像特征向量;逐一计算所述第二待查询文字特征向量与各第二候选图像特征向量的余弦距离,并排序输出检索结果。
9.根据权利要求8所述的面向科技资讯的跨媒体检索方法,其特征在于,所述第一特征提取模型为VGG-fc7网络模型,所述第二特征提取模型为BoW模型。
10.一种面向科技资讯的跨媒体检索装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求8至9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210807253.4A CN114863194B (zh) | 2022-07-11 | 2022-07-11 | 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210807253.4A CN114863194B (zh) | 2022-07-11 | 2022-07-11 | 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114863194A CN114863194A (zh) | 2022-08-05 |
CN114863194B true CN114863194B (zh) | 2022-11-18 |
Family
ID=82626194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210807253.4A Active CN114863194B (zh) | 2022-07-11 | 2022-07-11 | 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863194B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028617B (zh) * | 2022-12-06 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 资讯推荐方法、装置、设备、可读存储介质及程序产品 |
CN115640418B (zh) * | 2022-12-26 | 2023-04-07 | 天津师范大学 | 基于残差语义一致性跨域多视角目标网站检索方法及装置 |
CN116955699B (zh) * | 2023-07-18 | 2024-04-26 | 北京邮电大学 | 一种视频跨模态搜索模型训练方法、搜索方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694200B (zh) * | 2017-04-10 | 2019-12-20 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN109344266B (zh) * | 2018-06-29 | 2021-08-06 | 北京大学深圳研究生院 | 一种基于双语义空间的对抗性跨媒体检索方法 |
CN111581405B (zh) * | 2020-04-26 | 2021-10-26 | 电子科技大学 | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 |
CN113254678B (zh) * | 2021-07-14 | 2021-10-01 | 北京邮电大学 | 跨媒体检索模型的训练方法、跨媒体检索方法及其设备 |
-
2022
- 2022-07-11 CN CN202210807253.4A patent/CN114863194B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114863194A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114863194B (zh) | 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 | |
CN111767405A (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
CN107943911A (zh) | 数据抽取方法、装置、计算机设备及可读存储介质 | |
CN113705218B (zh) | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN113282713B (zh) | 基于差异性神经表示模型的事件触发词检测方法 | |
Liu et al. | Adversarial learning with multi-modal attention for visual question answering | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113836866B (zh) | 文本编码方法、装置、计算机可读介质及电子设备 | |
Gomez-Perez et al. | ISAAQ--Mastering Textbook Questions with Pre-trained Transformers and Bottom-Up and Top-Down Attention | |
CN116821297A (zh) | 一种风格化法律咨询问答方法、系统、存储介质和设备 | |
Lin et al. | Radical-based extract and recognition networks for Oracle character recognition | |
Tüselmann et al. | Recognition-free question answering on handwritten document collections | |
Hakimov et al. | Evaluating architectural choices for deep learning approaches for question answering over knowledge bases | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN113723111B (zh) | 一种小样本意图识别方法、装置、设备及存储介质 | |
CN115455144A (zh) | 用于小样本意图识别的完型填空式的数据增强方法 | |
CN112100390B (zh) | 基于场景的文本分类模型、文本分类方法及装置 | |
Ganguly et al. | MasonPerplexity at ClimateActivism 2024: Integrating Advanced Ensemble Techniques and Data Augmentation for Climate Activism Stance and Hate Event Identification | |
CN113919351A (zh) | 基于迁移学习的网络安全命名实体和关系联合抽取方法及装置 | |
CN115114904B (zh) | 语言模型的优化方法、装置以及电子设备 | |
Nourali et al. | Scene text visual question answering by using YOLO and STN | |
CN111949768B (zh) | 一种文件分类方法 | |
CN118095261B (zh) | 一种文本数据处理方法、装置、设备以及可读存储介质 | |
Beltrán et al. | An extended evaluation of the impact of different modules in ST-VQA systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |