CN113254678B

CN113254678B - 跨媒体检索模型的训练方法、跨媒体检索方法及其设备

Info

Publication number: CN113254678B
Application number: CN202110797175.XA
Authority: CN
Inventors: 杜军平; 姜阳; 薛哲; 徐欣
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-10-01
Anticipated expiration: 2041-07-14
Also published as: CN113254678A

Abstract

本发明提供了一种跨媒体检索模型的训练方法、跨媒体检索方法及其设备，其中，该训练方法包括获取跨媒体数据集，每条数据包括图像、文本、时间、作者及语义标签；获取每条数据的语义标签向量及各部分的特征向量；计算标签相似度，得到相似度矩阵；由图像、时间及作者特征向量得到第一模态数据，由文本、时间及作者特征向量得到第二模态数据；将两模态数据分别输入至特征映射网络，得到第一特征映射向量和第二特征映射向量；计算两特征映射向量的相似度，得到相似度矩阵；计算两个相似度矩阵的差异值，将两个特征映射向量输入至模态判别网络，得到对抗损失函数的值，优化网络参数，得到跨媒体检索模型。通过上述方案能准确进行语义关联表达。

Description

跨媒体检索模型的训练方法、跨媒体检索方法及其设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种跨媒体检索模型的训练方法、跨媒体检索方法及其设备。

背景技术

信息时代下，各种各样的数据及信息充斥着生活的方方面面，其中科技资讯数据是学者了解目前科技动向，思考未来发展前景较为重要的信息来源。越来越多的学者对科技资讯数据资源的检索不再满足于单一模态的检索方式，能够更加智能化地得到跨媒体检索结果给搜索引擎提出了更高的要求。如何跨越不同模态间的语义鸿沟是亟待解决的关键问题。跨媒体科技资讯具有数据量大，赘余信息少，且信息会随着时间热点变化的特点。

跨媒体检索难点在于如何将异构模态映射到一个公共子空间。目前共同空间学习法一共有两种，分别是传统直接映射方法和深度学习方法。传统直接映射方法结构简单，无法深层次理解高维度的跨模态语义；而随着深度网络模型的发展，使用多层卷积神经网络成为特征提取和公共空间映射的热点，例如，在深度学习的基础之上有效的结合关联分析方法，可以形成深度典型关联分析方法(DCCA)。

然而，对于跨媒体科技资讯数据，仍然存在着语义理解不充分、子空间映射效果不佳等问题。

对抗性学习是通过两个过程之间的相互作用实现的，第一个过程是特征投影，它试图在公共子空间中生成模态不变的表征，而另一个过程是模态分类器，它试图根据生成的表征区分不同的模态。通过利用该两个过程，能够将多媒体数据投影到公共子空间中，可以更好地保留多媒体数据的底层跨模态语义结构。

GANs（生成式对抗网络）是一种通过对抗性学习生成模型的深度学习方法，通过神经网络学习生成与目标分布接近的分布。GANs由生成器与判别器组成，生成器是尽可能的通过学习样本数据生成真实的数据分布；判别器是区分数据来源是真实的还是生成器生成的数据，并通过判别结果影响生成器学习。在训练过程中，当判别器无法区分数据是真实数据还是由生成器生成的数据时，认为生成器达到最佳效果。跨模态检索研究的核心是学习一个公共子空间，在这个子空间中不同模态的项可以直接相互比较。对抗性跨媒体检索（ACMR）方法将对抗学习思想运用于跨媒体检索中，其通过特征映射器和模态分类器两个过程之间的相互作用，寻求能够将两个模态映射到一个公共子空间。其中，特征映射器尝试在公共子空间内形成模态的不变表示，用以混淆模态分类器。而模态分类器由标签预测和三元组约束组成，能够尽量减少不同模态下相同语义的向量距离。基于对抗学习的无监督跨模态检索方法（UCAL），针对标注较少的跨媒体数据有较好的效果。通过生成对抗网络GANs得到的跨模态结构来模拟不同模态数据的联合分布，同时提出具有权值共享约束的跨模态卷积自编码器，形成生成模型。

然而，通过使用三元组约束仅仅是通过二元地判断文本数据和图像数据是否相关，在实际的跨媒体科技资讯数据中，跨模态语义相关性并不能仅仅通过简单地0和1来定义，因此难以准确进行语义关联表达。

发明内容

有鉴于此，本发明提供了一种跨媒体检索模型的训练方法、跨媒体检索方法及其设备，以准确进行语义关联表达，从而提高跨媒体检索准确性。

为了达到上述目的，本发明采用以下方案实现：

根据本发明实施例的一个方面，提供了一种跨媒体检索模型的训练方法，包括：

获取跨媒体数据集，其中，每条跨媒体数据包括图像数据、文本数据、时间数据、作者数据及语义标签数据；

获取各条跨媒体数据中图像数据的图像特征向量、文本数据的文本特征向量、时间数据的时间特征向量及作者数据的作者特征向量，并获取相应跨媒体数据中语义标签数据的语义标签向量；

计算跨媒体数据集中两两跨媒体数据的语义标签向量的第一相似度，得到跨媒体数据集对应的第一相似度矩阵；

提取各条跨媒体数据的图像特征向量、时间特征向量及作者特征向量，得到相应跨媒体数据的第一模态数据，提取各条跨媒体数据的文本特征向量、时间特征向量及作者特征向量，得到相应跨媒体数据的第二模态数据；

将各条跨媒体数据的第一模态数据和第二模态数据分别输入至初始特征映射网络，计算得到相应跨媒体数据的第一模态数据对应的第一特征映射向量和第二模态数据对应的第二特征映射向量；

计算跨媒体数据集中一条跨媒体数据的第一特征映射向量和另一条跨媒体数据的第二特征映射向量的第二相似度，得到跨媒体数据集对应的第二相似度矩阵；

计算所述第一相似度矩阵和第二相似度矩阵的差异值，作为语义偏差损失函数的值；

将跨媒体数据集中各跨媒体数据的第一特征映射向量和第二特征映射向量输入至初始模态判别网络，计算得到对抗损失函数的值；

利用语义偏差损失函数的值和对抗损失函数的值计算得到包含所述初始特征映射网络和所述初始模态判别网络的初始跨媒体检索网络的总损失函数的值，并利用总损失函数的值优化初始跨媒体检索网络中的参数，以训练得到对抗性的跨媒体检索网络并利用其得到跨媒体检索模型。

在一些实施例中，获取各条跨媒体数据中图像数据的图像特征向量、文本数据的文本特征向量、时间数据的时间特征向量及作者数据的作者特征向量，包括：

利用VGG16神经网络提取跨媒体数据中图像数据，得到相应的图像数据的图像特征向量；和/或，

利用LDA主题模型提取跨媒体数据中的文本数据，得到相应的文本数据的文本特征向量；和/或，

利用one-hot模型跨媒体数据中的时间数据，得到相应的时间数据的时间特征向量；和/或，

利用one-hot模型跨媒体数据中的作者数据，得到相应的作者数据的作者特征向量。

在一些实施例中，计算所述第一相似度矩阵和第二相似度矩阵的差异值，包括：

利用l ₂范数计算所述第一相似度矩阵和第二相似度矩阵的差异值。

在一些实施例中，所述方法，还包括：

计算所述初始特征映射网络的语义标签预测损失函数的值和归一化损失函数的值；

利用语义偏差损失函数的值和对抗损失函数的值计算得到包含所述初始特征映射网络和所述初始模态判别网络的初始跨媒体检索网络的总损失函数的值，包括：

将语义偏差损失函数的值、语义标签预测损失函数的值及归一化损失函数的值加权求和得到嵌入损失函数的值；

利用嵌入损失函数的值减去对抗损失函数的值，得到包含所述初始特征映射网络和所述初始模态判别网络的初始跨媒体检索网络的总损失函数的值。

在一些实施例中，所述归一化损失函数为第一模态数据和第二模态数据中相同模态数据中最小化类内距离、不同模态数据间最小化类中心距离、以及不同模态数据间最小化模态类中心与具有相同语义的另一个模态数据之间的距离的加权和。

在一些实施例中，语义偏差损失函数包括图像相关参数和文本相关参数，嵌入损失函数包含所述图像相关参数、所述文本相关参数及语义标签预测损失函数中的参数；

利用总损失函数的值优化初始跨媒体检索网络中的参数，以训练得到对抗性的跨媒体检索网络并利用其得到跨媒体检索模型，包括：

利用总损失函数的值优化初始跨媒体检索网络中的嵌入损失函数中的参数，利用优化后的嵌入损失函数中的参数计算嵌入损失函数的值，并基于嵌入损失函数的值优化初始跨媒体检索网络中的对抗损失函数中的参数，并根据优化后的嵌入损失函数中的参数和优化后的对抗损失函数中的参数得到训练后的对抗性的跨媒体检索网络，以得到跨媒体检索模型。

根据本发明实施例的另一个方面，提供了一种跨媒体检索方法，包括：

获取第一媒体数据和第二媒体数据，其中，一条所述第一媒体数据包括图像数据、时间数据及作者数据，一条所述第二媒体数据包括文本数据、时间数据及作者数据；

获取所述第一媒体数据中图像数据的第一图像特征向量、时间数据的第一时间特征向量以及作者数据的第一作者特征向量，作为第一媒体数据的模态数据；获取所述第二媒体数据中文本数据的第二文本特征向量、时间数据的第二时间特征向量以及作者数据的第二作者特征向量，作为第二媒体数据的模态数据；

获取利用上述任一实施例所述的训练方法得到的跨媒体检索模型，并利用所述跨媒体检索模型将第一媒体数据的模态数据映射到公共子空间，得到第一媒体数据对应的特征映射向量，将第二媒体数据的模态数据映射到公共子空间，得到第二媒体数据对应的特征映射向量；

计算第一媒体数据对应的特征映射向量和第二媒体数据对应的特征映射向量的相似度，并利用该相似度确定第一媒体数据和第二媒体数据的相关性，以得到图像和文本之间的跨媒体检索结果。

在一些实施例中，获取所述第一媒体数据中图像数据的第一图像特征向量、时间数据的第一时间特征向量以及作者数据的第一作者特征向量，作为第一媒体数据的模态数据；获取所述第二媒体数据中文本数据的第二文本特征向量、时间数据的第二时间特征向量以及作者数据的第二作者特征向量，作为第二媒体数据的模态数据，包括：

利用VGG16神经网络对所述第一媒体数据中图像数据进行特征提取，得到第一图像特征向量；

利用LDA主题模型对所述第二媒体数据中的文本数据进行特征提取，得到第二文本特征向量；

利用one-hot模型分别对所述第一媒体数据中的时间数据、所述第一媒体数据中的作者数据、所述第二媒体数据中的时间数据及所述第二媒体数据中的作者数据进行特征提取，相应得到第一时间特征向量、第一作者特征向量、第二时间特征向量及第二作者特征向量。

根据本发明实施例的另一个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例所述方法的步骤。

根据本发明实施例的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所述方法的步骤。

本发明实施例的跨媒体检索模型的训练方法、跨媒体检索方法、电子设备及计算机可读存储介质，融合媒体数据的多重特征，能够从更多的维度描述科技资讯的数据，通过从语义相似性矩阵的角度出发计算模态偏差损失，能够更加全面的描绘出语义偏差损失，所以能够更准确进行语义关联表达，从而提高跨媒体检索准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明一实施例的跨媒体检索模型的训练方法的流程示意图；

图2是本发明一实施例的跨媒体检索方法的流程示意图；

图3是本发明一具体实施例的跨媒体检索方法的框架结构示意图；

图4是本发明一具体实施例的获取多特征映射函数的总体流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

通过使用三元组约束仅仅是通过二元地判断文本数据和图像数据是否相关，而在实际的跨媒体科技资讯数据中，跨模态语义相关性并不能仅仅通过简单地0和1来定义，对此，本发明提出了一种跨媒体检索模型的训练方法，以通过构建相似度语义矩阵使语义关联表达更加准确。同时，考虑到跨媒体科技资讯数据具有数据量大，文本、图像信息丰富等特点，而且，同一资讯作者往往会发布相似语义科技资讯，会根据实时热点在相近时间爆发大量相同语义数据等，本发明融合科技资讯的多种特征，如图像特征、文本特征、时间特征及作者特征，以解决现有跨媒体检索算法语义表达单一性的问题，能够通过更多维度的表达，以使模型效果更好。

图1是本发明一实施例的跨媒体检索模型的训练方法的流程示意图，如图1所示，该些实施例的跨媒体检索模型的训练方法包括以下步骤S110~步骤S190。

下面将对步骤S110至步骤S190的具体实施方式进行详细说明。

步骤S110：获取跨媒体数据集，其中，每条跨媒体数据包括图像数据、文本数据、时间数据、作者数据及语义标签数据。

该步骤S110中，每条跨媒体数据是一个实例。一条跨媒体数据包含一定信息，该信息可以是图像或文本，或者既有图像又有文本，且该信息会有发布作者和发布时间。所以可以搜集得到大量该种跨媒体数据，形成该种跨媒体数据集。

步骤S120：获取各条跨媒体数据中图像数据的图像特征向量、文本数据的文本特征向量、时间数据的时间特征向量及作者数据的作者特征向量，并获取相应跨媒体数据中语义标签数据的语义标签向量。

该步骤S120，从图像数据中提取得到图像特征，从文本数据中提取得到文本特征，从时间数据中提取得到时间特征，如时间段聚集情况的相关特征，从作者数据中提取得到作者特征，如某些文本/图像属于同一作者的相关特征。

具体实施时，可以利用各种网络或模型提取特征向量。例如，上述步骤S120，即，获取各条跨媒体数据中图像数据的图像特征向量、文本数据的文本特征向量、时间数据的时间特征向量及作者数据的作者特征向量中，具体可包括：利用VGG16神经网络提取跨媒体数据中图像数据，得到相应的图像数据的图像特征向量；和/或，利用LDA主题模型提取跨媒体数据中的文本数据，得到相应的文本数据的文本特征向量；和/或，利用one-hot模型跨媒体数据中的时间数据，得到相应的时间数据的时间特征向量；和/或，利用one-hot模型跨媒体数据中的作者数据，得到相应的作者数据的作者特征向量。

在另一些实施例中，VGG19、TextCNN（文本卷积网络）等神经网络提取图像数据的图像特征向量。可以利用TF-IDF模型提取文本数据的文本特征向量。

步骤S130：计算跨媒体数据集中两两跨媒体数据的语义标签向量的第一相似度，得到跨媒体数据集对应的第一相似度矩阵。

该步骤S130中，两两跨媒体数据可包括一条跨媒体数据与其本身。若跨媒体数据集的数据条数为n，则第一相似度矩阵可以为n乘n的矩阵。

步骤S140：提取各条跨媒体数据的图像特征向量、时间特征向量及作者特征向量，得到相应跨媒体数据的第一模态数据，提取各条跨媒体数据的文本特征向量、时间特征向量及作者特征向量，得到相应跨媒体数据的第二模态数据。

该步骤S140中，一条跨媒体数据包含多种媒体数据，从中抽取出所需的模态数据。第一模态数据主要包含图像特征，同时融入了时间特征和作者特征；第二模态数据主要包含文本特征，同时融入了时间特征和作者特征。该多种特征是针对科技资讯数据的特点得到的特征，有助于准确语义表达。

步骤S150：将各条跨媒体数据的第一模态数据和第二模态数据分别输入至初始特征映射网络，计算得到相应跨媒体数据的第一模态数据对应的第一特征映射向量和第二模态数据对应的第二特征映射向量。

该步骤S150中，该初始特征映射网络可以是基于现有的特征映射网络思想设计的适用于本实施例的输入（如包含图像/文本、时间、作者三种特征）的网络，该点根据本步骤中针对输入的描述可以得知。

步骤S160：计算跨媒体数据集中一条跨媒体数据的第一特征映射向量和另一条跨媒体数据的第二特征映射向量的第二相似度，得到跨媒体数据集对应的第二相似度矩阵。

该步骤S160中，任一条跨媒体数据对应的第一特征映射向量与跨媒体数据集中各数据对应的第二特征映射向量计算第二相似度，构成相似度矩阵。若跨媒体数据集的数据条数为n，则第二相似度矩阵可以为n乘n的矩阵。

步骤S170：计算所述第一相似度矩阵和第二相似度矩阵的差异值，作为语义偏差损失函数的值。

该步骤S170中，通过计算两个相似度矩阵的差异，可以反映模态的偏差。

具体实施时，该步骤S170中，计算所述第一相似度矩阵和第二相似度矩阵的差异值，具体可包括：S171，利用l ₂范数计算所述第一相似度矩阵和第二相似度矩阵的差异值。

在其他实施例中，可以利用计算余弦值的方式计算两个相似度矩阵的差异值。

步骤S180：将跨媒体数据集中各跨媒体数据的第一特征映射向量和第二特征映射向量输入至初始模态判别网络，计算得到对抗损失函数的值。

该步骤S180中，该初始模态判别网络可以是基于现有的模态判别网络思想设计的适用于本实施例的输入（如包含图像/文本、时间、作者三种特征）的网络，该点根据本步骤中针对输入的描述可以得知。

步骤S190：利用语义偏差损失函数的值和对抗损失函数的值计算得到包含所述初始特征映射网络和所述初始模态判别网络的初始跨媒体检索网络的总损失函数的值，并利用总损失函数的值优化初始跨媒体检索网络中的参数，以训练得到对抗性的跨媒体检索网络并利用其得到跨媒体检索模型。

该步骤S190中，总损失函数可以利用映射网络的损失函数减去判别网络的损失函数得到。对于包含初始特征映射网络和初始模态判别网络的跨媒体检索网络，基于总损失函数，经过训练可以得到优化网络参数后的跨媒体检索网络，训练后的跨媒体检索网络可以将包含图像特征、时间特征及作者特征的模态数据或者包含文本特征、时间特征及作者特征的模态数据映射到公共子空间，得到映射特征向量，两种模态数据在公共子空间的映射特征向量可以相关比较，从而能够实现文本和图像的关联性比较，从而可以利用文本检索图像，或利用图像检索文本数据，而且由于各种模态数据考虑了时间和作者因素，实现了多特征融合，使得跨媒体语义检索更准确。

进一步的实施例中，特征映射网络的学习还可考虑其他损失函数，例如，语义标签预测损失函数、归一化损失函数等。示例性地，上述步骤S190之前，图1所示的方法还可包括步骤：S1100，计算所述初始特征映射网络的语义标签预测损失函数的值和归一化损失函数的值。

该步骤S1100中，可以利用现有的方法计算语义标签预测损失函数的值，也可以利用现有方法计算归一化损失函数的值。利用归一化损失可以对损失进行矫正。

更具体地，归一化损失函数可通过定义语义一致性正则化损失函数得到，例如，所述归一化损失函数为第一模态数据和第二模态数据中相同模态数据中最小化类内距离、不同模态数据间最小化类中心距离、以及不同模态数据间最小化模态类中心与具有相同语义的另一个模态数据之间的距离的加权和。

例如，归一化损失函数可以表示为：

L _reg=γ·d ₁+δ·d ₂+ψ·d ₃+φ·d ₄

其中，L _reg表示归一化损失函数，γ、δ、ψ、φ表示可调参数（或称为权重），d ₁表示第一模态数据和第二模态数据中相同模态数据中最小化类内距离，d ₂表示不同模态数据间最小化类中心距离，d ₃和d ₄表示，不同模态数据间最小化模态类中心与具有相同语义的另一个模态数据之间的距离。

，

，

，

，

其中，k表示语义标签的数量，j表示语义标签的序号，n表示跨媒体数据的总条数，c _j ^v表示第j个语义标签对应的图像特征的类中心，v _j ⁱ表示第j个语义标签对应的第i条跨媒体数据的图像特征，c _j ^w表示第j个语义标签对应的文本特征的类中心，w _j ⁱ表示第j个语义标签对应的第i条跨媒体数据的文本特征，||·||₂表示求二范数。

该些实施例中，语义归一化损失函数能够从多个维度出发，对语义向量中心进行归一处理，能够使得不同模态间的语义距离公式更加精准。

在考虑语义标签预测损失函数和归一化损失函数的情况下，上述步骤S190中，利用语义偏差损失函数的值和对抗损失函数的值计算得到包含所述初始特征映射网络和所述初始模态判别网络的初始跨媒体检索网络的总损失函数的值，具体可包括步骤：S191，将语义偏差损失函数的值、语义标签预测损失函数的值及归一化损失函数的值加权求和得到嵌入损失函数的值；S192，利用嵌入损失函数的值减去对抗损失函数的值，得到包含所述初始特征映射网络和所述初始模态判别网络的初始跨媒体检索网络的总损失函数的值。

进一步的实施例中，语义偏差损失函数可包括图像相关参数和文本相关参数，嵌入损失函数可包含所述图像相关参数、所述文本相关参数及语义标签预测损失函数中的参数。在此情况下，上述步骤S190中，利用总损失函数的值优化初始跨媒体检索网络中的参数，以训练得到对抗性的跨媒体检索网络并利用其得到跨媒体检索模型，具体可包括步骤：S1921，利用总损失函数的值优化初始跨媒体检索网络中的嵌入损失函数中的参数，利用优化后的嵌入损失函数中的参数计算嵌入损失函数的值，并基于嵌入损失函数的值优化初始跨媒体检索网络中的对抗损失函数中的参数，并根据优化后的嵌入损失函数中的参数和优化后的对抗损失函数中的参数得到训练后的对抗性的跨媒体检索网络，以得到跨媒体检索模型。

该步骤S1921中，通过对抗学习训练跨媒体检索网络。可以利用梯度下降法先优化嵌入损失函数中的参数（如参数表示为θ _V,θ _W,θ _imd），在基于优化好的嵌入损失函数中的参数带入相应损失函数，继续优化对抗损失函数中的参数（如参数表示为θ _D）。

图2是本发明一实施例的跨媒体检索方法的流程示意图，参见图2，该些实施例的跨媒体检索方法可包括以下步骤：

步骤S210：获取第一媒体数据和第二媒体数据，其中，一条所述第一媒体数据包括图像数据、时间数据及作者数据，一条所述第二媒体数据包括文本数据、时间数据及作者数据；

步骤S220：获取所述第一媒体数据中图像数据的第一图像特征向量、时间数据的第一时间特征向量以及作者数据的第一作者特征向量，作为第一媒体数据的模态数据；获取所述第二媒体数据中文本数据的第二文本特征向量、时间数据的第二时间特征向量以及作者数据的第二作者特征向量，作为第二媒体数据的模态数据；

步骤S230：获取利用本发明任一实施例所述的跨媒体检索模型的训练方法得到的跨媒体检索模型，并利用所述跨媒体检索模型将第一媒体数据的模态数据映射到公共子空间，得到第一媒体数据对应的特征映射向量，将第二媒体数据的模态数据映射到公共子空间，得到第二媒体数据对应的特征映射向量；

步骤S240：计算第一媒体数据对应的特征映射向量和第二媒体数据对应的特征映射向量的相似度，并利用该相似度确定第一媒体数据和第二媒体数据的相关性，以得到图像和文本之间的跨媒体检索结果。

在具体应用场景中，例如，需要通过输入文本信息，从资料库中检索出相应的信息，而资料库中包含文本类型的数据，也包含图像类型的数据。对于资料库中文本类型的数据而言，可以直接将输入的文本信息进行比较，而对于资料库中的图像类型的数据而言，可以利用如上述步骤S210~步骤S240所述的方法进行比较，从而可以一一判断资料库中的图像类型数据是否与输入文本信息是否相关。如此一来，不仅可以从资料库中检索到与输入文本信息相关的文本类型数据，还可检索到与输入文本信息相关的图像类型数据。

进一步的，提取各特征的具体实施方式可以参见前述步骤S150的具体实施例。示例性地，上述步骤S220，即，获取所述第一媒体数据中图像数据的第一图像特征向量、时间数据的第一时间特征向量以及作者数据的第一作者特征向量，作为第一媒体数据的模态数据；获取所述第二媒体数据中文本数据的第二文本特征向量、时间数据的第二时间特征向量以及作者数据的第二作者特征向量，作为第二媒体数据的模态数据，具体可包括步骤：

S221：利用VGG16神经网络对所述第一媒体数据中图像数据进行特征提取，得到第一图像特征向量；

S222：利用LDA主题模型对所述第二媒体数据中的文本数据进行特征提取，得到第二文本特征向量；

S223：利用one-hot模型分别对所述第一媒体数据中的时间数据、所述第一媒体数据中的作者数据、所述第二媒体数据中的时间数据及所述第二媒体数据中的作者数据进行特征提取，相应得到第一时间特征向量、第一作者特征向量、第二时间特征向量及第二作者特征向量。

另外，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例所述方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所述方法的步骤。

下面结合一个具体实施例对上述方法进行说明，然而，值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

针对跨媒体科技资讯数据的特点，本实施例的基于多种特征融合的科技资讯跨媒体检索方法（后续简称为MFCMR方法），综合考量了文本、图像、作者、时间的特征。如图3所示，MFCMR方法可由特征映射网络和模态判别网络组成，最终目的是将不同模态的向量映射到一个公共子空间。具体地，针对现有技术存在的问题及科技资讯数据特点，基于多种特征融合，首先针对文本数据通过LDA模型挖掘跨媒体科技资讯数据的潜在性主题，针对图像数据通过深度神经网络VGGNet提取图像特征；其次，该模型针对科技资讯数据特点融合了多种特征，使用基于对抗学习的机制将不同模态特征映射到一个公共子空间，最终使得特征映射网络得到的数据与原数据语义一致，消除模态特性，在同一空间内使用相似度来排序得到检索结果。

图4是本发明一具体实施例的获取多特征映射函数的总体流程示意图，参见图4所示，MFCMR方法包括特征映射网络和模态判别网络。通过设计损失函数训练包含特征映射网络和模态判别网络的跨媒体检索网络，可以优化网络参数，从而构建得到检索模型。

特征映射网络接收输入为图像特征向量、文本特征向量、时间特征向量及作者特征向量，其中图像特征向量由VGG16、VGG19、TextCNN（文本卷积网络）等神经网络得到，文本特征向量由LDA主题模型（隐含狄利克雷分布主题模型）、TF-IDF（词频-逆文档频率）等得到，时间特征向量和作者特征向量使用one-hot模型得到。特征映射器由多重特征语义分析网络构成，将softmax的输出结果作为映射到公共空间的语义分布，使得不同模态间语义相同的相互靠近，不同模态间语义不同的相互远离。

令实例集合O={O _i=[v _i ,w _i ,t _i ,a _i ,l _i]}_i=1 ⁿ，其中，n表示实例O _i的总数，v _i∈R ^dv表示d _v维的图像特征向量，w _i∈R ^dw表示d _w维的文本特征向量，t _i∈R ^dt表示d _t维的时间特征向量，a _i∈R ^da表示d _a维的作者特征向量，l _i∈R ^dl表示d _l维的语义标签向量。每个实例O _i都有对应的标签。一个实例O _i的标签与其他实例进行比较的结果可表示为L _i，L _i={l _i1 ,l _i2 ,l _i3 ,…,l _ik}∈R ^k，其中，k是对应的标签总数，R ^k表示标签集合，如果第i个实例与第j个实例语义相同，则语义标签l _ij=1，否则l _ij=0。定义实例图像特征向量集合为V={v ₁ ,v ₂ ,v ₃ ,…,v _n}∈R ^dv*n，为d _v *n的矩阵，定义实例文本特征向量集合为W={w ₁ ,w ₂ ,w ₃ ,…,w _n}∈R ^dw*n，为d _w *n的矩阵，定义时间特征向量集合为T={t ₁ ,t ₂ ,t ₃ ,…,t _n}∈R ^dt*n，为d _t *n的矩阵，定义作者特征向量集合为A={a ₁ ,a ₂ ,a ₃ ,…,a _n}∈R ^da*n，为d _a *n的矩阵，定义语义标签集合为L={l ₁ ,l ₂ ,l ₃ ,…,l _n}∈R ^k*n，为k*n的矩阵。跨模态检索是将两个模态的向量映射到一个公共子空间S，公共子空间通过特征映射函数S _w=f _w(W,T,A,θ _w)、S _v=f _v(W,T,A,θ _v)映射获得，其中f _w、f _v分别为考虑文本特征、时间特征、作者特征的特征映射函数和考虑图像特征、时间特征、作者特征的特征映射函数，S _w∈R ^p*n和S _v∈R ^p*n分别是映射到公共子空间内的文本特征和图像特征。本文中R可表示矩阵、集合等，具体可根据R的上标区分其含义。

对抗跨模态检索MFCMR的目标函数是由嵌入损失函数L _emb(θ _v,θ _w,θ _imd)及对抗损失函数L _adv(θ _D)两部分组成。

其中，嵌入损失函数L _emb(θ _v,θ _w,θ _imd)包含标签预测损失函数L _imd、语义偏差损失函数L _imi与归一化损失函数L _reg，嵌入损失函数如公式：L _emb(θ _v,θ _w,θ _imd)= L _imd+α·L _imi+β·L _reg，其中

，

均为超参数，目的是平衡不同部分的重要性。

其中，标签预测损失函数如下所示：

L _imd (θ _imd)=-(1/n)∑_i=1 ⁿ(l _i·(logp _i(v _i)+logp _i(w _i)))

其中p _i(·)是实例

中图像/文本生成与其相似的图像/文本的概率分布，θ _imd是分类器参数。

为了保证在不同模态下，相同语义的数据距离近，不同语义的数据距离远，针对跨媒体科技资讯数据的特点，设计了多重特征语义分析网络。该网络在计算数据语义分布相似度的基础上，使用原实例数据语义分布l ₁ ,l ₂ ,l ₃ ,…,l _n构造语义相似度分布矩阵Sim _L∈R ^n·n。则定义任意两个实例数据的语义分布是向量l _x和l _y，则它们的相似度定义为：

（1）

在此，对所有实例数据两两之间的相似度进行计算，得到原实例数据语义分布l ₁ , l ₂ ,l ₃ ,…,l _n构造语义相似度分布矩阵Sim _L的计算如下所示：

Sim _L(i,j)=sim(l _i ,l _j)，其中，i和j取值为1到n。

在得到基于原实例数据语义分布计算得到的语义相似度矩阵之后，进一步可以计算映射后数据特征的相似度矩阵。

对于任意两组实例数据O _x和O _y，抽取O _x中的图像特征、时间特征、作者特征，经过特征映射后得到向量S _x，或表示为s _vi，抽取O _y中的文本特征、时间特征、作者特征，经过特征映射后得到S _y，或表示为s _wj，使用上述公式（1）计算S _x和S _y的相似度sim(S _x ,S _y)，对所有实例数据经过特征映射后的向量两两之间进行相似度计算，得到映射后数据特征相似度矩阵Sim _S∈R ^n·n，计算公式如下所示：

Sim _S (i,j) =sim(s _vi ,s _wj)= sim(f _v(v _i , t _i ,a _i ,θ _V), f _w(w _j ,t _j ,a _j ,θ _W))

其中，f _v(v _i , t _i ,a _i ,θ _v)表示实例数据O _i的图像特征向量v _i、时间特征向量t _i、作者特征向量a _i的特征映射s _vi，f _w(w _j ,t _j ,a _j ,θ _w) 表示实例数据O _j的文本特征向量w _j、时间特征向量t _j、作者特征向量a _j的特征映射s _wj。θ _V和θ _W表示需通过训练优化的参数。

可选用计算

范数或余弦值的方式来衡量前述两个相似度矩阵之间的差异，并将差异值定义为模态偏差值L _imi (θ _V,θ _W)，计算公式如下所示：

L _imi (θ _V,θ _W)=

(Sim _L,Sim _S)

=∑_i=1 ⁿ∑_j=1 ⁿ || sim(l _i ,l _j)- sim(f _V(v _i , t _i ,a _i ,θ _V), f _W(w _j ,t _j ,a _j ,θ _W)) || ₂

其中，上式中k表示1到d _l或1到m的取值，m表示公共子空间中映射向量数量。

为了确保相同语义的样本在映射过程中不断靠近，定义语义一致性正则化损失函数L _reg。对于图像特征V与文本特征W分别计算它们的类中心C _V={c ₁ ^v ,c ₂ ^v ,…, c _n ^v}与C _W={c ₁ ^w , c ₂ ^w ,…, c _n ^w}，则对于c _j ^v和c _j ^w (j=1,2,3,…,k)的类中心c _j ^v和c _j ^w计算公式可为：

c _j ^v=(1/n)∑_i=1 ⁿ v _j ⁱ ，c _j ^w=(1/n)∑_i=1 ⁿ w _j ⁱ

其中，v _j ⁱ表示第j个标签对应的第i个数据对应的图像特征向量，w _j ⁱ表示第j个标签对应的第i个数据对应的图像特征向量。

对于同模态中最小化类内距离公式如公式（2）所示；对于不同模态间，最小化类中心距离公式如公式（3）所示；对于不同模态间，最小化模态的类中心与具有相同语义的另一个模态样本之间的距离公式如公式（4）和（5）所示：

(2)

(3)

(4)

(5)

其中，d ₁表示类内距离，d ₂表示类间距离，d ₃和d ₄表示不同数据的类间距离。

因此，语义一致性正则化损失函数L _reg可以表述为：

L _reg=γ·d ₁+δ·d ₂+ψ·d ₃+φ·d ₄

其中，γ、δ、ψ、φ都是可以调整的参数。

模态判别网络用于区分映射到公共子空间的数据的模态，令通过图像映射后的数据标签为0，通过文本映射后的数据标签为1，模态判别网络尽可能正确的判别映射后数据的原始模态，将该网络的损失函数定义为模态预测的偏差值。对抗损失函数公式，如公式：

L _adv(θ _D)=-(1/n)∑_i=1 ⁿ(logD(f _w(w _j,t _j,a _j,θ _W),θ _D)+log(1-D(f _V (v _i,t _i,a _i,θ _V),θ _D)))

其中，D(f _w(w _j,t _j,a _j,θ _W),θ _D)和D(f _V (v _i,t _i,a _i,θ _V),θ _D)表示该模态判别网络判定f _w(w _j,t _j,a _j,θ _W)或f _V (v _i,t _i,a _i,θ _V)是文本的概率。

得到MFCMR的目标损失函数：

L _loss=L _emb (θ _V,θ _W,θ _imd)-L _adv (θ _D)

其中，L _loss表示总损失，L _emb (θ _V,θ _W,θ _imd)和L _adv (θ _D)分别表示嵌入损失函数和对抗损失函数，θ _V,θ _W,θ _imd,θ _D表示需通过训练优化的参数。

然后根据对抗学习机制，不断训练两个过程的最优特征：

MFCMR的优化过程的最终目的是确定两个映射函数f _w和f _V，第一个过程确定L _adv(θ _D)中的θ _D，然后针对损失函数取最小化值，计算得出L _emb (θ _V,θ _W,θ _imd)的三个参数值θ _V,θ _W,θ _imd。第二个过程将第一个过程中计算得到的θ _V,θ _W,θ _imd参数带入损失函数中，从而确定L _emb(θ _V,θ _W,θ _imd)，再对损失函数取最大化值，从而得到L _adv (θ _D)的参数θ _D。

MFCMR训练过程的算法如下：

输入：基于minibatch思想，抽取当前batch数据中的图像特征矩阵V={v ₁ ,v ₂ ,...,v _n}

，文本特征矩阵

，时间特征矩阵

，作者特征矩阵

，语义标签矩阵

。

参数

和每个模态每批样本数可以为m。

训练过程如下：

S1：随机初始化模型各个参数

S2：while Not Converge do

S3： while k > 0 do

S4：通过随机梯度下降更新优化参数θ _V,θ _W,θ _imd

θ _V←θ _V-μ•∇_θv(1/m) (L _emb-L _adv);

θ _W←θ _W -μ•∇_θW(1/m)(L _emb-L _adv);

θ _imd←θ _imd -μ•∇_θimd(1/m)(L _emb-L _adv);

S5：k=k–1;

S6： end while

S7：通过梯度优化参数θ _D

θ _D←θ _D+μ•λ•∇_θD(1/m)(L _emb-L _adv)

S8：end while

S9：返回f _V (V,M,A)和f _W(W,M,A)。

本实施例的方法，将科技资讯的多重特征融合到训练过程中，能够提升语义理解能力，并利用神经网络对抗学习方式，进一步增强子空间模型准确性。由于科技资讯数据拥有独有的特点，通过实验我们明显可以看出再加入了作者特征和时间特征后，准确率拥有了显著的提升。融合多重特征以后能够从更多的维度描述科技资讯的数据。在特征映射网络设计了结合模态损失和语义归一化的损失函数，能够有助于消除同一语义下不同模态数据的差异。其中模态损失函数从语义相似性矩阵的角度出发，能够更加全面的描绘出语义偏差损失；而语义归一化损失函数能够从多个维度出发，对语义向量中心进行归一处理，能够使得不同模态间的语义距离公式更加精准。

在本说明书的描述中，参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施，其中的步骤顺序不作限定，可根据需要作适当调整。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种跨媒体检索模型的训练方法，其特征在于，包括：

利用语义偏差损失函数的值和对抗损失函数的值计算得到包含所述初始特征映射网络和所述初始模态判别网络的初始跨媒体检索网络的总损失函数的值，并利用总损失函数的值优化初始跨媒体检索网络中的参数，以训练得到对抗性的跨媒体检索网络并利用其得到跨媒体检索模型；

计算所述第一相似度矩阵和第二相似度矩阵的差异值，包括：

利用计算l ₂范数或余弦值的方式计算所述第一相似度矩阵和第二相似度矩阵的差异值。

2.如权利要求1所述的跨媒体检索模型的训练方法，其特征在于，获取各条跨媒体数据中图像数据的图像特征向量、文本数据的文本特征向量、时间数据的时间特征向量及作者数据的作者特征向量，包括：

3.如权利要求1所述的跨媒体检索模型的训练方法，其特征在于，

所述方法，还包括：

4.如权利要求3所述的跨媒体检索模型的训练方法，其特征在于，所述归一化损失函数为第一模态数据和第二模态数据中相同模态数据中最小化类内距离、不同模态数据间最小化类中心距离、以及不同模态数据间最小化模态类中心与具有相同语义的另一个模态数据之间的距离的加权和。

5.如权利要求3所述的跨媒体检索模型的训练方法，其特征在于，语义偏差损失函数包括图像相关参数和文本相关参数，嵌入损失函数包含所述图像相关参数、所述文本相关参数及语义标签预测损失函数中的参数；

6.一种跨媒体检索方法，其特征在于，包括：

获取利用如权利要求1至4任一项所述的训练方法得到的跨媒体检索模型，并利用所述跨媒体检索模型将第一媒体数据的模态数据映射到公共子空间，得到第一媒体数据对应的特征映射向量，将第二媒体数据的模态数据映射到公共子空间，得到第二媒体数据对应的特征映射向量；

7.如权利要求6所述的跨媒体检索方法，其特征在于，获取所述第一媒体数据中图像数据的第一图像特征向量、时间数据的第一时间特征向量以及作者数据的第一作者特征向量，作为第一媒体数据的模态数据；获取所述第二媒体数据中文本数据的第二文本特征向量、时间数据的第二时间特征向量以及作者数据的第二作者特征向量，作为第二媒体数据的模态数据，包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。