CN114863194B

CN114863194B - 面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置

Info

Publication number: CN114863194B
Application number: CN202210807253.4A
Authority: CN
Inventors: 杜军平; 李昂; 李文玲; 邵蓥侠; 薛哲
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2022-11-18
Anticipated expiration: 2042-07-11
Also published as: CN114863194A

Abstract

本发明提供一种面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置，基于对抗学习的方式构建特征映射器和媒体判别器，利用特征映射器将图像数据或文字数据的映射至一个统一的隐嵌入空间提取特征进行比对，在对抗学习过程中，通过构建联合损失使特征映射器关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性，同时关注到对语义特征在媒体类别上的差异性，使得最终的特征映射器突破不同媒体之间提取语义特征的局限性，提高了科技资讯跨媒体检索的准确率。

Description

面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置

技术领域

本发明涉及信息检索技术领域，尤其涉及一种面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置。

背景技术

科技资讯聚焦了中外高新技术的前沿动态。实时跟进最新的科技资讯，有助于促进国家战略科技力量的发展，驱动科技创新，进而确保国家高质量发展。科技资讯中包含大量的多媒体信息（如图像、文本等），具备体量大、来源丰富、类型多样等特点。面向科技资讯进行跨媒体检索，能够从多源异构的海量科技资源中获取目标科技资讯，以便于设计出符合用户需求的应用，包括科技资讯推荐、个性化科技资讯检索等，而该工作的核心便是跨媒体检索。

跨媒体检索（Cross-media Retrieval，CMR）是信息检索领域中的一个重要研究方向，其目的是根据给定媒体的信息检索出语义相似的其他媒体的信息。面向科技资讯数据的跨媒体检索与通用领域的跨媒体检索有一定的区别，主要原因在于通用领域的数据集有较为严格的句子组成规范。但由于科研领域的技术呈爆炸式增长，相关的科技资讯更新迭代更为迅速，导致科技资讯中涌现了大量的新颖专业术语。同时受限于科技资讯的字数限制，不同媒体间的科技资讯数据存在更为明显的语义鸿沟问题，增加了跨媒体检索的难度。

现有技术通常采用深度学习的方式构建检索模型，然而现有的跨媒体检索模型通常只关注一对一的跨媒体数据，对语义关注较少，无法适应对语义复杂的科技资讯专业术语的检索要求，难以实现在一对多的跨媒体检索需求。

发明内容

本发明实施例提供了一种面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置，以消除或改善现有技术中存在的一个或更多个缺陷，解决现有技术在科技资讯跨媒体检索过程中由于词汇语义复杂导致的准确度差，且难以进行一对多检索的问题。

一方面，本发明提供一种面向科技资讯的跨媒体检索特征映射网络训练方法，包括：

获取训练样本集，所述训练样本集中包含多个样本，每个样本包含一组语义相同的图像特征向量和文字特征向量，所述图像特征向量是将原始图像数据输入第一特征提取模型得到的，所述文字特征向量是将原始文字数据输入第二特征提取模型得到的，对所述图像数据和所述文字数据添加所属科技领域类别作为标签；

获取初始生成对抗网络模型，所述初始生成对抗网络模型包括特征映射器和媒体判别器，所述特征映射器包括第一基础映射网络和第二基础映射网络，所述第一基础映射网络将图像特征向量映射至隐嵌入空间得到第一映射图像特征，所述第二基础映射网络将文字特征向量映射至所述隐嵌入空间得到第一映射文字特征；所述媒体判别器接收所述第一映射图像特征或所述第一映射文字特征并判断所属媒体类别是文字或图像；

采用所述训练样本集对所述初始生成对抗网络模型进行训练，训练过程中构建联合损失函数进行调参，以最小化所述联合损失函数训练所述特征映射器，最大化所述联合损失函数训练所述媒体判别器，将训练得到的所述特征映射器作为跨媒体检索特征映射网络；

其中，所述联合损失函数的计算步骤包括：

将所述第一映射图像特征输入分类网络以输出图像数据所属科技领域类别的第一概率分布，将所述第一映射文字特征输入所述分类网络以输出文字数据所属科技领域类别的第二概率分布，根据所述第一概率分布和所述第二概率分布计算标签预测损失；

根据所述图像特征向量和所述文字特征向量计算原始语义一致性损失，根据所述第一映射图像特征和所述第一映射文字特征计算隐嵌入空间语义一致性损失，根据所述原始语义一致性损失和所述隐嵌入空间语义一致性损失计算媒体间语义损失；

将所述第一映射图像特征输入第一精炼映射模型得到第二映射图像特征，将所述第一映射文字特征输入第二精炼映射模型得到第二映射文字特征，以最大化所述第一基础映射网络与所述第一精炼映射模型的输出差异、最大化所述第二基础映射网络与所述第二精炼映射模型的输出差异、最小化所述第一基础映射网络和所述第二基础映射网络的输出差异构建媒体约束损失；其中，所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构相同；

将所述标签预测损失、所述媒体间语义损失和所述媒体约束损失加权求和得到特征映射网络损失；

获取所述媒体判别器的对抗损失，将所述特征映射网络损失与所述对抗损失作差得到所述联合损失函数。

在一些实施例中，所述第一特征提取模型为VGG-fc7网络模型，所述第二特征提取模型为BoW模型；

所述第一基础映射网络、所述第二基础映射网络、所述第一精炼映射模型和所述第二精炼映射模型结构均由三个多层感知机构成；

所述媒体判别器由三层全连接层构成；所述分类网络采用softmax层。

在一些实施例中，根据所述第一概率分布和所述第二概率分布计算标签预测损失，所述标签预测损失为采用交叉熵损失，计算式为：

；

其中，

表示所述标签预测损失，

表示所述分类网络的参数，

是第i个样本

所属科技领域类别的真实值，

是第i个样本中图像特征向量

所属科技领域类别的概率分布，

是第i个样本中文字特征向量

所属科技领域类别的概率分布。

在一些实施例中，所述原始语义一致性损失采用

范数表达，计算式为：

；

其中，

表示所述原始语义一致性损失，

表示所述原始图像数据的语义分布，等同于所述图像特征向量，

表示所述原始文字数据的语义分布，等同于所述文字特征向量；

所述隐嵌入空间语义一致性损失采用

范数表达，计算式为：

；

其中，

表示所述隐嵌入空间语义一致性损失，

表示所述图像特征向量映射至隐嵌入空间后的特征向量，V表示所述图像特征向量，

表示所述第一基础映射网络的参数；

表示所述文字特征向量映射至隐嵌入空间后的特征向量，T表示所述文字特征向量，

表示所述第二基础映射网络的参数；

所述媒体间语义损失计算式为：

；

其中，

表示所述媒体间语义损失。

在一些实施例中，所述媒体约束损失的计算式为：

；

；

；

其中，

表示所述媒体约束损失，

表示图像数据约束损失，

表示文字数据约束损失，

表示所述第一基础映射网络的输出，

表示所述第二基础映射网络的输出，

表示

输入所述第一精炼映射模型后的输出、

表示

输入所述第二精炼映射模型后的输出，

表示所述第一基础映射网络的参数，

表示所述第二基础映射网络的参数，

表示所述第一精炼映射模型的参数，

表示所述第二精炼映射模型的参数。

在一些实施例中，所述特征映射网络损失的计算式为：

；

其中，

表示所述特征映射网络损失，

和

为可调节参数；

所述对抗损失的计算式为：

；

其中，

表示对抗损失，

表示所述媒体判别器的参数，

表示所述媒体判别器对所述图像特征向量识别结果的概率分布，

表示所述媒体判别器对所述文字特征向量识别结果的概率分布。

在一些实施例中，以最小化所述联合损失函数训练所述特征映射器，表达式为：

；

最大化所述联合损失函数训练所述媒体判别器，表达式为：

。

另一方面，本发明提供一种面向科技资讯的跨媒体检索方法，包括：

获取待查询数据；

若所述待查询数据为图像，将所述待查询数据输入第一特征提取模型得到第一待查询图像特征向量；将所述第一待查询图像特征向量输入上述面向科技资讯的跨媒体检索特征映射网络训练方法中的跨媒体检索特征映射网络，输出第二待查询图像特征向量；将第一目标数据库中的多个候选文字数据输入第二特征提取模型得到第一候选文字特征向量；将所述第一候选文字特征向量输入所述跨媒体检索特征映射网络，输出第二候选文字特征向量；逐一计算所述第二待查询图像特征向量与各第二候选文字特征向量的余弦距离，并排序输出检索结果；

若所述待查询数据为文字，将所述待查询数据输入所述第二特征提取模型得到第一待查询文字特征向量；将所述第一待查询文字特征向量输入所述跨媒体检索特征映射网络，输出第二待查询文字特征向量；将第二目标数据库中的多个候选图像数据输入所述第一特征提取模型得到第一候选图像特征向量；将所述第一候选图像特征向量输入所述跨媒体检索特征映射网络，输出第二候选图像特征向量；逐一计算所述第二待查询文字特征向量与各第二候选图像特征向量的余弦距离，并排序输出检索结果。

在一些实施例中，所述面向科技资讯的跨媒体检索方法中，所述第一特征提取模型为VGG-fc7网络模型，所述第二特征提取模型为BoW模型。

另一方面，本发明还提供一种面向科技资讯的跨媒体检索装置，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现上述方法的步骤。

本发明的有益效果至少是：

本发明所述面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置，基于对抗学习的方式构建特征映射器和媒体判别器，利用特征映射器将图像数据或文字数据的映射至一个统一的隐嵌入空间提取特征进行比对，在对抗学习过程中，通过构建联合损失使特征映射器关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性，同时关注到对语义特征在媒体类别上的差异性，使得最终的特征映射器突破不同媒体之间提取语义特征的局限性，提高了科技资讯跨媒体检索的准确率。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例所述面向科技资讯的跨媒体检索特征映射网络训练方法的逻辑示意图。

图2为本发明另一实施例所述面向科技资讯的跨媒体检索特征映射网络训练方法的逻辑示意图。

图3为本发明一实施例所述面向科技资讯的跨媒体检索方法的逻辑示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

现有技术中，跨媒体检索可以使用传统的统计关联分析方法，统计关联分析方法主要通过优化统计值来学习公共空间的线性投影矩阵，来建立一个共享子空间，使得不同媒体类型的数据对象的相似性可以映射到该子空间中，再使用常见的距离进行度量。在基于传统的统计关联分析的跨媒体检索方法中，主要通过优化统计值来学习公共空间的线性投影矩阵。然而，通过线性投影很难完全模拟现实世界中跨媒体数据的复杂相关性。此外，该类方法需要计算奇异值分解、逆矩阵、平方根矩阵，耗费的时间较长，相比于基于深度学习的跨媒体检索方法，有较为明显的不足。还可以基于深度学习的跨媒体检索方法，主要使用卷积神经网络CNN通过多层非线性变换学习不同媒体数据间的语义相似性。但是，基于深度神经网络的跨媒体检索模型通常只专注于保留耦合的跨媒体样本（例如，图像和一段文本）的成对相似性，却忽略了一种媒体的一个样本，可能存在多个相同媒体的语义不同的样本，因此无法保留跨媒体语义结构。此外，现有基于深度学习的方法主要将单媒体特征作为输入，因此效果很大程度上取决于特征的有效性。

需要预先说明的是，本发明所述的跨媒体是指在不同数据形式之间进行检索，本发明主要是在图像数据和文字数据之间进行跨媒体检索。

一方面，本发明提供一种面向科技资讯的跨媒体检索特征映射网络训练方法，参照图1，包括步骤S101~S103：

步骤S101：获取训练样本集，训练样本集中包含多个样本，每个样本包含一组语义相同的图像特征向量和文字特征向量，图像特征向量是将原始图像数据输入第一特征提取模型得到的，文字特征向量是将原始文字数据输入第二特征提取模型得到的，对图像数据和文字数据添加所属科技领域类别作为标签。

步骤S102：获取初始生成对抗网络模型，初始生成对抗网络模型包括特征映射器和媒体判别器，特征映射器包括第一基础映射网络和第二基础映射网络，第一基础映射网络将图像特征向量映射至隐嵌入空间得到第一映射图像特征，第二基础映射网络将文字特征向量映射至隐嵌入空间得到第一映射文字特征；媒体判别器接收第一映射图像特征或第一映射文字特征并判断所属媒体类别是文字或图像。在一些实施例中，媒体判别器由三层全连接层构成。

步骤S103：采用训练样本集对初始生成对抗网络模型进行训练，训练过程中构建联合损失函数进行调参，以最小化联合损失函数训练特征映射器，最大化联合损失函数训练媒体判别器，将训练得到的特征映射器作为跨媒体检索特征映射网络。

其中，参照图2，联合损失函数的计算步骤包括步骤S201~S205：

步骤S201：将第一映射图像特征输入分类网络以输出图像数据所属科技领域类别的第一概率分布，将第一映射文字特征输入分类网络以输出文字数据所属科技领域类别的第二概率分布，根据第一概率分布和第二概率分布计算标签预测损失。在一些实施例中，分类网络采用softmax层。

步骤S202：根据图像特征向量和文字特征向量计算原始语义一致性损失，根据第一映射图像特征和第一映射文字特征计算隐嵌入空间语义一致性损失，根据原始语义一致性损失和隐嵌入空间语义一致性损失计算媒体间语义损失。

步骤S203：将第一映射图像特征输入第一精炼映射模型得到第二映射图像特征，将第一映射文字特征输入第二精炼映射模型得到第二映射文字特征，以最大化第一基础映射网络与第一精炼映射模型的输出差异、最大化第二基础映射网络与第二精炼映射模型的输出差异、最小化第一基础映射网络与第二基础映射网络的输出差异构建媒体约束损失；其中，第一基础映射网络、第二基础映射网络、第一精炼映射模型和第二精炼映射模型结构相同。在一些实施例中，第一基础映射网络、第二基础映射网络、第一精炼映射模型和第二精炼映射模型结构均由三个多层感知机构成。

步骤S204：将标签预测损失、媒体间语义损失和媒体约束损失加权求和得到特征映射网络损失。

步骤S205：获取媒体判别器的对抗损失，将特征映射网络损失与对抗损失作差得到联合损失函数。

具体的，在步骤S101中，首先获取训练样本集，为了实现跨媒体检索，训练样本集中每个样本是语义相同的，也即语义相匹配的图像数据和文字数据。具体的，由于图像数据和文字数据的数据形式存在显著差异，为了在后续处理过程中统一模态，首先利用第一特征提取模型提取原始图像数据的图像特征向量，利用第二特征提取模型提取原始文字数据的文字特征向量。其中，第一特征提取模型为VGG-fc7网络模型，第二特征提取模型为BoW模型。

示例性的，给定一系列语义相关的图像-文本对

，其中

表示

中的第

个图像-文本对，

表示维度为

的图像特征向量，

表示维度为

的文本特征向量。每个图像-文本对都对应着一个语义类别向量

，语义类别向量可以理解为是所属科技领域类别的表达形式，其中

表示语义类别的总数，假设

属于第

个语义类别，那么记

，否则记

。记样本

中所有的图像、文本、语义类别所对应的特征矩阵为

，

、

。

在步骤S102中，基于对抗学习的方式，构建特征映射器和媒体判别器，其中，特征映射器用于将图像特征向量或文字特征向量映射至一个统一的隐嵌入空间进行用于比对，媒体判别器用于根据提取隐嵌入空间内的特征判断输入的数据的媒体类别，也即是属于图像还是文字。

在步骤S103中，对初始生成对抗网络模型的训练过程中，构建联合损失函数，使特征映射器能够关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性，同时关注到对语义特征在媒体类别上的差异性。

具体的，步骤S201中，引入分类网络基于第一映射图像特征或第一映射文字特征进行语义分类的判断，也即预测所述乐基领域类别，构建标签预测损失，使特征映射器关注到语义特征在不同科技类别下的区别性。在一些实施例中，步骤S201中根据第一概率分布和第二概率分布计算标签预测损失，标签预测损失为采用交叉熵损失，计算式为：

；

其中，

表示标签预测损失，

表示分类网络的参数，

是第i个样本

所属科技领域类别的真实值，

是第i个样本中图像特征向量

所属科技领域类别的概率分布，

是第i个样本中文字特征向量

所属科技领域类别的概率分布。

在步骤S202中，为了使语义相同媒体不同的数据在映射前后都能保留语义相似性，即媒体不同语义相同的数据距离较近，媒体不同语义不同的数据距离较远，构建媒体间语义损失。具体的，原始语义一致性损失采用

范数表达，计算式为：

；

其中，

表示原始语义一致性损失，

表示原始图像数据的语义分布，等同于图像特征向量，

表示原始文字数据的语义分布，等同于文字特征向量。

隐嵌入空间语义一致性损失采用

范数表达，计算式为：

；

其中，

表示隐嵌入空间语义一致性损失，

表示图像特征向量映射至隐嵌入空间后的特征向量，V表示图像特征向量，

表示第一基础映射网络的参数；

表示文字特征向量映射至隐嵌入空间后的特征向量，T表示文字特征向量，

表示第二基础映射网络的参数。

媒体间语义损失计算式为：

；

其中，

表示媒体间语义损失。

在步骤S203中，为了使特征映射器能够更好的欺骗媒体判别器，使语义相同媒体不同的数据信息在经过特征映射器后的输出难以区分不同媒体间特征，本发明引入了第一精炼映射模型和第二精炼映射模型，要求第一基础映射网络的输出与第一精炼映射模型的输出较远，第二基础映射网络的输出与第二精炼映射模型的输出较远。

具体的，媒体约束损失的计算式为：

；

；

；

其中，

表示媒体约束损失，

表示图像数据约束损失，

表示文字数据约束损失，

表示第一基础映射网络的输出，

表示第二基础映射网络的输出，

表示

输入第一精炼映射模型后的输出、

表示

输入第二精炼映射模型后的输出，

表示第一基础映射网络的参数，

表示第二基础映射网络的参数，

表示第一精炼映射模型的参数，

表示第二精炼映射模型的参数。

在一些实施例中，步骤S204中，特征映射网络损失的计算式为：

；

其中，

表示特征映射网络损失，

和

为可调节参数；

进一步的，步骤S205中，对抗损失的计算式为：

；

其中，

表示对抗损失，

表示媒体判别器的参数，

表示媒体判别器对图像特征向量识别结果的概率分布，

表示媒体判别器对文字特征向量识别结果的概率分布。

在一些实施例中，步骤S205中，以最小化联合损失函数训练特征映射器，表达式为：

；

最大化联合损失函数训练媒体判别器，表达式为：

。

基于步骤S101~S103以及步骤S201~S205训练得到的特征映射器，实际上包含了两个部分，一个是用于将图像数据对应图像特征向量映射至隐嵌入空间的第一基础映射网络，另一个是用于将文字数据对应文字特征向量映射至隐嵌入空间的第二基础映射网络。能够用于提取同一隐嵌入空间内的特征，并进行相似度比对。基于上述训练过程，特征映射器能够关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性，同时关注到对语义特征在媒体类别上的差异性。

另一方面，本发明提供一种面向科技资讯的跨媒体检索方法，如图3所示，包括步骤S301~S303：

步骤S301：获取待查询数据。

步骤S302：若待查询数据为图像，将待查询数据输入第一特征提取模型得到第一待查询图像特征向量；将第一待查询图像特征向量输入上述面向科技资讯的跨媒体检索特征映射网络训练方法中的跨媒体检索特征映射网络，输出第二待查询图像特征向量；将第一目标数据库中的多个候选文字数据输入第二特征提取模型得到第一候选文字特征向量；将第一候选文字特征向量输入跨媒体检索特征映射网络，输出第二候选文字特征向量；逐一计算第二待查询图像特征向量与各第二候选文字特征向量的余弦距离，并排序输出检索结果。

步骤S303：若待查询数据为文字，将待查询数据输入第二特征提取模型得到第一待查询文字特征向量；将第一待查询文字特征向量输入跨媒体检索特征映射网络，输出第二待查询文字特征向量；将第二目标数据库中的多个候选图像数据输入第一特征提取模型得到第一候选图像特征向量；将第一候选图像特征向量输入跨媒体检索特征映射网络，输出第二候选图像特征向量；逐一计算第二待查询文字特征向量与各第二候选图像特征向量的余弦距离，并排序输出检索结果。

在一些实施例中，面向科技资讯的跨媒体检索方法中，第一特征提取模型为VGG-fc7网络模型，第二特征提取模型为BoW模型。

在本实施例步骤S301~S303中，基于步骤S101~S103训练得到的特征映射器，将带查询的图像或文字映射到隐嵌入空间，同时，将目标数据库中的指定媒体类型的数据也转化到相应的隐嵌入空间，通过计算特征之间的余弦距离，比对相似性，并排序输出最接近的跨媒体搜索结果。

下面结合一具体实施例对本发明进行说明：

本发明提出一种面向科技资讯数据的跨媒体检索方法，参照图1和图2，在模型训练过程中，构造基于对抗学习的初始生成对抗网络模型，包括特征映射器、媒体判别器，基于对抗学习的逻辑进行训练。具体而言，特征映射器将不同媒体的科技资讯数据映射到统一公共子空间，媒体判别器判断出映射数据的原始模态给出反馈，对抗学习则是两者之间进行博弈直至博弈过程收敛。

具体的，特征映射器为了将不同媒体的特征映射到统一的隐嵌入空间以便进行语义相似性的比较。同时，也扮演着生成对抗网络中“生成器”的角色，目的是为了迷惑媒体判别器。为了使映射后的特征表示充分考虑两类媒体数据的语义相似性和媒体相似性，本实施例设计的特征映射器由三部分进行约束：媒体内的标签预测、媒体间的语义保留、语义内的媒体约束。媒体内的标签预测使得映射在隐嵌入空间

中的特征依然能够以原始的语义标签为真值进行语义分类；媒体间的语义保留使得语义相同媒体不同的数据在映射前后都能保留语义相似性；语义内的媒体区别使得映射后的数据更加逼近原本语义。

在标签预测部分，为了保证映射到隐嵌入空间

中的特征依然能够保留原始语义，以原始的语义标签为真值进行语义分类。在每个特征映射网络的最后加入一个保持线性激活的softmax层。将图像文本对

作为样本进行训练，并输出每个数据对应语义类别的概率分布。采用如下损失函数来计算媒体内的标签预测损失：

；

其中，

表示标签预测损失，

表示分类网络的参数，

是第i个样本

所属科技领域类别的真实值，

是第i个样本中图像特征向量

所属科技领域类别的概率分布，

是第i个样本中文字特征向量

所属科技领域类别的概率分布。

语义保留部分致力于保证语义相同媒体不同的数据在映射前后都能保留语义相似性，即媒体不同语义相同的数据距离较近，媒体不同语义不同的数据距离较远。在映射到隐嵌入空间

之前，每个样本

中的图像数据与文本数据的语义分布分别为

和

。那么两不同媒体数据间的语义一致性损失用

范数表示：

；

其中，

表示原始语义一致性损失，

表示原始图像数据的语义分布，等同于图像特征向量，

表示原始文字数据的语义分布，等同于文字特征向量。

在映射到隐嵌入空间

之后，每个样本

中的图像数据特征

与文本数据的特征

之间的语义一致性损失同样用

范数表示为：

；

其中，

表示隐嵌入空间语义一致性损失，

表示第一基础映射网络的参数；

表示第二基础映射网络的参数。

因此，整体的媒体间语义损失可以建模为

和

两者的结合，表达式如下：

；

其中，

表示媒体间语义损失。

在媒体约束部分，除了便于度量不同媒体数据间的语义相似性之外，特征映射器的另一个作用是生成映射后的特征来欺骗媒体判别器，让它无法区分出数据的原始媒体。因此，引入语义内的媒体约束模块。为了能够更加逼真地映射出难以区分媒体的特征，在基础的特征映射器

之外，构造另一个相同结构的特征映射器

，称为精炼网络。精炼网络

的输入是

的输出结果

或

，

的输出是

或

。其中，

、

分别表示

、

经过特征映射器

映射后的特征，

和

分别表示

、

两种特征的映射函数。

对每一个图像-文本对

而言，目标是让精炼网络

映射出的特征（

或

）距离基础网络

映射的特征（

或

）较远，距离相同语义的特征（

或

）较近。构建媒体约束损失，计算式为：

；

；

；

其中，

表示媒体约束损失，

表示图像数据约束损失，

表示文字数据约束损失，

表示第一基础映射网络的输出，

表示第二基础映射网络的输出，

表示

输入第一精炼映射模型后的输出、

表示

输入第二精炼映射模型后的输出，

表示第一基础映射网络的参数，

表示第二基础映射网络的参数，

表示第一精炼映射模型的参数，

表示第二精炼映射模型的参数。

构建特征映射网络损失，整个特征映射器的映射性损失由媒体内的语义损失、媒体间的语义损失、语义内的媒体约束损失共同组成，记为

，计算式为：

；

其中，

表示特征映射网络损失，

和

为可调节参数。

媒体判别网络扮演着GAN中“判别器”的角色，用来判断映射到隐嵌入空间后的数据的原始媒体。令经过图像映射函数的数据标签为0，经过文本映射函数的数据标签为1。本实施例使用一个参数为

的三层全连接网络作为判别网络，充当特征映射网络的对手。其目标是最小化媒体分类损失，也成为对抗性损失

，定义如下：

；

其中，

表示对抗损失，

表示媒体判别器的参数，

表示媒体判别器对图像特征向量识别结果的概率分布，

表示媒体判别器对文字特征向量识别结果的概率分布。

在对抗学习过程中，以最小化联合损失函数训练特征映射器，表达式为：

；

最大化联合损失函数训练媒体判别器，表达式为：

。

本实施例引入语义内的媒体约束来加强将不同类型的媒体数据映射到共享高级语义空间的能力。采用对抗博弈的思想，构建特征映射器和媒体判别器，进行极小化极大博弈。采用标签预测来确保数据在特征投影后仍保留媒体内的区别。与先前工作不同的是，本实施例同时最小化相同语义的文本-图像对中不同媒体的数据分别在特征映射前和特征映射后的距离，以确保不同媒体间数据在映射过程中的语义一致性得以保留。此外，通过构建基础映射网络和精炼映射网络共同辅助建模语义内的媒体约束，使得映射后的数据做到语义上接近自身，媒体上远离自身，来增强特征映射网络混淆媒体判别网络的能力。媒体判别网络负责区分数据的原始媒体，一旦它被欺骗，则整个博弈过程收敛，且在科技资讯数据集中取得了更好的跨媒体检索效果。

通过端到端的方式同时保持媒体内的语义区分性、媒体间的语义一致性、语义内的媒体判别性，能够有效地学习异构数据的公共表示；通过构建基础特征映射网络和精炼特征映射网络联合进行多媒体数据特征映射，辅助语义内的媒体约束，有效地增强了特征映射网络混淆媒体判别网络的能力；在两个数据集上进行的大量实验表明，本发明提出的方法优于现有技术中的跨媒体检索方法，包括传统的方法和基于深度学习的方法，有效提高了跨媒体检索的准确率。

与上述方法相应地，本发明还提供了一种面向科技资讯的跨媒体检索装置，该装置包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

综上所述，本发明所述面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置，基于对抗学习的方式构建特征映射器和媒体判别器，利用特征映射器将图像数据或文字数据的映射至一个统一的隐嵌入空间提取特征进行比对，在对抗学习过程中，通过构建联合损失使特征映射器关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性，同时关注到对语义特征在媒体类别上的差异性，使得最终的特征映射器突破不同媒体之间提取语义特征的局限性，提高了科技资讯跨媒体检索的准确率。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路（ASIC）、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向科技资讯的跨媒体检索特征映射网络训练方法，其特征在于，包括：

其中，所述联合损失函数的计算步骤包括：

2.根据权利要求1所述的面向科技资讯的跨媒体检索特征映射网络训练方法，其特征在于，所述第一特征提取模型为VGG-fc7网络模型，所述第二特征提取模型为BoW模型；

3.根据权利要求2所述的面向科技资讯的跨媒体检索特征映射网络训练方法，其特征在于，根据所述第一概率分布和所述第二概率分布计算标签预测损失，所述标签预测损失为采用交叉熵损失，计算式为：

；

其中，

表示所述标签预测损失，

表示所述分类网络的参数，

是第i个样本

所属科技领域类别的真实值，

是第i个样本中图像特征向量

所属科技领域类别的概率分布，

是第i个样本中文字特征向量

所属科技领域类别的概率分布。

4.根据权利要求3所述的面向科技资讯的跨媒体检索特征映射网络训练方法，其特征在于，所述原始语义一致性损失采用

范数表达，计算式为：

；

其中，

表示所述原始语义一致性损失，

所述隐嵌入空间语义一致性损失采用

范数表达，计算式为：

；

其中，

表示所述隐嵌入空间语义一致性损失，

表示所述第一基础映射网络的参数；

表示所述第二基础映射网络的参数；

所述媒体间语义损失计算式为：

；

其中，

表示所述媒体间语义损失。

5.根据权利要求4所述的面向科技资讯的跨媒体检索特征映射网络训练方法，其特征在于，所述媒体约束损失的计算式为：

；

；

；

其中，

表示所述媒体约束损失，

表示图像数据约束损失，

表示文字数据约束损失，

表示所述第一基础映射网络的输出，

表示所述第二基础映射网络的输出，

表示

输入所述第一精炼映射模型后的输出、

表示

输入所述第二精炼映射模型后的输出，

表示所述第一基础映射网络的参数，

表示所述第二基础映射网络的参数，

表示所述第一精炼映射模型的参数，

表示所述第二精炼映射模型的参数。

6.根据权利要求5所述的面向科技资讯的跨媒体检索特征映射网络训练方法，其特征在于，所述特征映射网络损失的计算式为：

；

其中，

表示所述特征映射网络损失，

和

为可调节参数；

所述对抗损失的计算式为：

；

其中，

表示对抗损失，

表示所述媒体判别器的参数，

7.根据权利要求6所述的面向科技资讯的跨媒体检索特征映射网络训练方法，其特征在于，以最小化所述联合损失函数训练所述特征映射器，表达式为：

；

最大化所述联合损失函数训练所述媒体判别器，表达式为：

。

8.一种面向科技资讯的跨媒体检索方法，其特征在于，包括：

获取待查询数据；

若所述待查询数据为图像，将所述待查询数据输入第一特征提取模型得到第一待查询图像特征向量；将所述第一待查询图像特征向量输入权利要求1至7任意一项所述面向科技资讯的跨媒体检索特征映射网络训练方法中的跨媒体检索特征映射网络，输出第二待查询图像特征向量；将第一目标数据库中的多个候选文字数据输入第二特征提取模型得到第一候选文字特征向量；将所述第一候选文字特征向量输入所述跨媒体检索特征映射网络，输出第二候选文字特征向量；逐一计算所述第二待查询图像特征向量与各第二候选文字特征向量的余弦距离，并排序输出检索结果；

9.根据权利要求8所述的面向科技资讯的跨媒体检索方法，其特征在于，所述第一特征提取模型为VGG-fc7网络模型，所述第二特征提取模型为BoW模型。

10.一种面向科技资讯的跨媒体检索装置，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如权利要求8至9中任一项所述方法的步骤。