CN111026887A

CN111026887A - 一种跨媒体检索的方法及系统

Info

Publication number: CN111026887A
Application number: CN201911250949.6A
Authority: CN
Inventors: 张鸿; 潘敏
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-04-17
Anticipated expiration: 2039-12-09
Also published as: CN111026887B

Abstract

本发明涉及一种跨媒体检索的方法及系统。该方法包括：获取图像特征提取网络模型和文本特征提取网络模型；获取待查询的数据信息和待检索的数据信息库，两者模态不同；提取待查询的数据的特征向量和待检索的数据信息库中每个数据信息的特征向量；根据待查询的数据的特征向量，获取查询哈希码；根据待检索的数据信息库中每个数据信息的特征向量，获取每个数据信息对应的检索哈希码；计算查询哈希码与每个检索哈希码之间的汉明距离，汉明距离按照从小到大的顺序排列，得到汉明距离序列；将汉明距离序列中的前n个汉明距离对应的n个数据信息，确定为待查询的数据信息的检索结果。本发明可以提高检索的精度和准确度。

Description

一种跨媒体检索的方法及系统

技术领域

本发明涉及信息检索领域，特别是涉及一种跨媒体检索的方法及系统。

背景技术

随着计算机，互联网和多媒体技术的迅速发展，包括视频，图像和文本文档在内的多媒体数据也在爆炸式增长，对于多媒体数据的分析研究也越来越多，用户通过信息搜索，希望得到多样性结果的的需求日益提高，因此，对于跨媒体检索技术的研究也成为现在重要的研究方向。跨媒体检索主要是处理不同模态数据间的检索问题，即通过一种模态的数据精确快速地检索出其他模态的所有相关的数据。

哈希学习作为跨媒体检索的重要方法，因为其良好的低存储和高效的检索性被广泛应用于检索的模型当中。单模态检索的哈希方法在过去几十年中得到了广泛的研究，如图像检索和文本检索。然而，由于不同模态的数据之间存在语义鸿沟，这些单模态检索的哈希方法不能直接应用于多模态检索过程。现有对于多模态哈希的研究大多都是通过挖掘不同模态数据的相关性，主要分为三种类别：无监督哈希方法，监督哈希方法和基于深度学习的哈希方法。虽然近年来已经有许多交叉模态哈希方法被提出，但是均忽略了单一模态中不同尺度的特征包含不同的信息，代表不同的语义概念这一问题，导致检索的结果不够精确，准确性低。

发明内容

本发明的目的是提供一种跨媒体检索的方法及系统，以提高检索的精度和准确度。

为实现上述目的，本发明提供了如下方案：

一种跨媒体检索的方法，包括：

获取数据特征提取网络模型；所述数据特征提取网络模型包括图像特征提取网络模型和文本特征提取网络模型；所述图像特征提取网络模型包括位于卷积层和全连接层之间的图像多尺度融合层；所述文本特征提取网络模型包括文本多尺度融合层和全连接层；

获取待查询的数据信息和待检索的数据信息库；所述待检索的数据信息库中数据信息的模态与所述待查询的数据信息的模态不同；

采用所述数据特征提取网络模型，提取所述待查询的数据的特征向量和所述待检索的数据信息库中每个数据信息的特征向量；

根据所述待查询的数据的特征向量，获取查询哈希码；

根据所述待检索的数据信息库中每个数据信息的特征向量，获取每个数据信息对应的检索哈希码；

计算所述查询哈希码与每个所述检索哈希码之间的汉明距离，得到汉明距离集合；

将所述汉明距离集合中的元素，按照从小到大的顺序排列，得到汉明距离序列；

将所述汉明距离序列中的前n个汉明距离对应的n个数据信息，确定为所述待查询的数据信息的检索结果。

可选的，所述采用所述数据特征提取网络模型，提取所述待查询的数据的特征向量和所述待检索的数据信息库中每个数据信息的特征向量，具体包括：

采用所述数据特征提取网络模型中与所述待查询的数据信息模态匹配的模型，提取所述待查询的数据的特征向量；

采用所述数据特征提取网络模型中与所述待检索的数据信息库中数据信息模态匹配的模型，提取所述待检索的数据信息库中每个数据信息的特征向量。

可选的，所述图像多尺度融合层包括三个不同的池化层，三个不同的池化层用于提取图像中不同尺度的语义信息。

可选的，所述文本多尺度融合层包括多个平均池化层和一个卷积层；所述平均池化层用于提取文本中多个尺度的特征，所述卷积层用于融合多个尺度特征。

可选的，所述获取数据特征提取网络模型，之前还包括：

获取训练数据；所述训练数据包括文本训练数据和图像训练数据；

采用数据特征提取网络模型，获取所述训练数据的特征向量；

获取所述训练数据的类标签信息；

根据所述类标签信息，采用标签网络模型，获取所述类标签信息的语义特征向量和语义哈希码；

根据所述训练数据的特征向量和所述类标签信息的语义特征向量和语义哈希码，采用交替策略优化目标函数

求解图像网络的所有参数θ_x和文本网络的所有参数θ_y；其中，Jse为特征向量的成对关联损失函数，Jh为哈希码的交叉熵函数，B为图像和文本的二进制码；所述图像网络的所有参数θ_x包括所述图像特征提取网络模型的参数，所述文本网络的所有参数θ_y包括所述文本特征提取网络模型的参数；

根据所述图像特征提取网络模型的参数确定所述图像特征提取网络模型；

根据所述文本特征提取网络模型的参数确定所述文本特征提取网络模型。

可选的，所述根据所述类标签信息，采用标签网络模型，获取所述类标签信息的语义特征向量和语义哈希码，之前还包括：

采用随机梯度下降和反向传播方法，对类标签参数的目标函数求解，得到所述标签网络模型的参数；所述类标签参数的目标函数为：

其中，θ表示标签网络模型的参数，min表示取最小值，n表示类别数，F_i表示第i组特征向量，F_j表示第j组特征向量，H_i表示第i组哈希码，H_j表示第j组哈希码，＜,＞表示两个向量的内积运算，log()表示对数运算，Σ表示求和运算，S_i,j表示样本i与样本j的相似关系，sign()表示符号函数，α表示输出哈希码与二值哈希码差值的权重参数，

表示F范数的平方；

根据所述标签网络模型的参数，确定所述标签网络模型。

可选的，所述根据所述训练数据的特征向量和所述类标签信息的语义特征向量和语义哈希码，采用交替策略优化目标函数

求解图像网络的所有参数θ_x和文本网络的所有参数θ_y，之前还包括：

获取所述特征向量的成对关联损失函数；所述成对关联损失函数用来传递所述类标签信息的语义特征向量的近邻关系，公式为：

其中，min表示取最小值，n表示类别数，X表示图像数据，Y表示文本数据，F_i ^(s)表示第i组数据的标签语义特征，

表示第j组文本网络输出特征，

表示第j组图像网络输出特征，＜,＞表示两个向量的内积运算，log()表示对数运算，Σ表示求和运算，S_i,j表示样本i与样本j的相似关系；

获取所述哈希码的交叉熵函数；公式为：

其中，B表示图像和文本的二进制码，B＝sign(β(H^(x)+H^(y)))，β表示跨媒体自适应的权重参数，γ表示平衡哈希码的权重参数，σ()表示sigmoid函数，min表示取最小值，H^(x)表示图像网络输出的哈希码，H^(y)表示文本网络输出的哈希码，H^(s)表示标签语义哈希码值，E表示单位矩阵，log()表示对数运算，Σ表示求和运算，

表示F范数的平方。

本发明还提供一种跨媒体检索的系统，包括：

数据特征提取网络模型获取模块，用于获取数据特征提取网络模型；所述数据特征提取网络模型包括图像特征提取网络模型和文本特征提取网络模型；所述图像特征提取网络模型包括位于卷积层和全连接层之间的图像多尺度融合层；所述文本特征提取网络模型包括文本多尺度融合层和全连接层；

数据信息获取模块，用于获取待查询的数据信息和待检索的数据信息库；所述待检索的数据信息库中数据信息的模态与所述待查询的数据信息的模态不同；

特征向量提取模块，用于采用所述数据特征提取网络模型，提取所述待查询的数据的特征向量和所述待检索的数据信息库中每个数据信息的特征向量；

查询哈希码获取模块，用于根据所述待查询的数据的特征向量，获取查询哈希码；

检索哈希码获取模块，用于根据所述待检索的数据信息库中每个数据信息的特征向量，获取每个数据信息对应的检索哈希码；

汉明距离计算模块，用于计算所述查询哈希码与每个所述检索哈希码之间的汉明距离，得到汉明距离集合；

排序模块，用于将所述汉明距离集合中的元素，按照从小到大的顺序排列，得到汉明距离序列；

检索结果确定模块，用于将所述汉明距离序列中的前n个汉明距离对应的n个数据信息，确定为所述待查询的数据信息的检索结果。

可选的，还包括：

训练数据获取模块，用于在获取数据特征提取网络模型之前，获取训练数据；所述训练数据包括文本训练数据和图像训练数据；

训练数据特征向量提取模块，用于采用数据特征提取网络模型，获取所述训练数据的特征向量；

类标签信息获取模块，用于获取所述训练数据的类标签信息；

类标签信息语义参数获取模块，用于根据所述类标签信息，采用标签网络模型，获取所述类标签信息的语义特征向量和语义哈希码；

图像网络参数和文本网络参数求解模块，用于根据所述训练数据的特征向量和所述类标签信息的语义特征向量和语义哈希码，采用交替策略优化目标函数

图像特征提取网络模型确定模块，用于根据所述图像特征提取网络模型的参数确定所述图像特征提取网络模型；

文本特征提取网络模型确定模块，用于根据所述文本特征提取网络模型的参数确定所述文本特征提取网络模型。

可选的，还包括：

标签网络模型参数获取模块，用于在根据所述类标签信息，采用标签网络模型，获取所述类标签信息的语义特征向量和语义哈希码之前，采用随机梯度下降和反向传播方法，对类标签参数的目标函数求解，得到所述标签网络模型的参数；所述类标签参数的目标函数为：

表示F范数的平方；

标签网络模型确定模块，用于根据所述标签网络模型的参数，确定所述标签网络模型。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明主要利用多尺度池化模型，分别提取不同模态数据的多尺度特征信息，并且充分利用图像文本对的标签信息进行自我监督来挖掘模态间的相关性，提高哈希检索的准确性。对于实现检索任务，提供更精准的检索结果，完善用户的满意度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明跨媒体检索的方法的流程示意图；

图2为本发明跨媒体检索的系统的结构示意图；

图3为本发明具体实施案例的流程示意图；

图4为本发明具体实施案例的检索精确召回率曲线示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明跨媒体检索的方法的流程示意图，如图1所示，本发明跨媒体检索的方法包括以下步骤：

步骤100：获取数据特征提取网络模型。所述数据特征提取网络模型包括图像特征提取网络模型和文本特征提取网络模型。所述图像特征提取网络模型包括位于卷积层和全连接层之间的图像多尺度融合层，具体的，在构建图像特征提取网络模型时，在卷积层和全连接层之间增加一个多尺度融合池，即三个不同的最大池化层，最后一个卷积层的输出分别输入到三个池化层中，用以提取图像不同尺度的语义信息，最后将三个池化层输出的向量串联起来输入到全连接层中，得到图像最后的特征向量。

所述文本特征提取网络模型包括文本多尺度融合层和全连接层。在提取文本数据的特征向量时，首先将文本数据转换为词袋向量，然后将词袋向量输入到构建的文本特征提取网络模型中，该网络模型由一个多尺度融合池和全连接层组成，多尺度融合池由多个平均池化层和卷积层组成，用平均池化层提取文本的多个尺度特征，用卷积层融合多个特征，将融合后的特征输入到全连接层中，得到文本最后的特征向量。

步骤200：获取待查询的数据信息和待检索的数据信息库。所述待检索的数据信息库中数据信息的模态与所述待查询的数据信息的模态不同。

步骤300：采用数据特征提取网络模型，提取待查询的数据的特征向量和待检索的数据信息库中每个数据信息的特征向量。具体的，采用所述数据特征提取网络模型中与所述待查询的数据信息模态匹配的模型，提取所述待查询的数据的特征向量，采用所述数据特征提取网络模型中与所述待检索的数据信息库中数据信息模态匹配的模型，提取所述待检索的数据信息库中每个数据信息的特征向量。当待查询的数据的模态为图像，待检索的数据信息库中数据信息的模态为文本时，采用图像特征提取网络模型提取待查询的数据的特征向量，采用文本特征提取网络模型提取待检索的数据信息库中每个数据信息的特征向量；当待查询的数据的模态为文本时，待检索的数据信息库中数据信息的模态为图像时，采用文本特征提取网络模型提取待查询的数据的特征向量，采用图像特征提取网络模型提取待检索的数据信息库中每个数据信息的特征向量。

步骤400：根据待查询的数据的特征向量，获取查询哈希码。

步骤500：根据待检索的数据信息库中每个数据信息的特征向量，获取每个数据信息对应的检索哈希码。

步骤600：计算查询哈希码与每个检索哈希码之间的汉明距离，得到汉明距离集合。

步骤700：将汉明距离集合中的元素，按照从小到大的顺序排列，得到汉明距离序列。

步骤800：将汉明距离序列中的前n个汉明距离对应的n个数据信息，确定为待查询的数据信息的检索结果。根据实际需求设置n的取值即可，此时便实现了图像和文本之间的相互检索。

作为另一实施例，在图1所示的跨媒体检索的方法的基础上，步骤100之前还包括对数据特征提取网络模型进行训练优化。具体过程如下：

Step1：获取训练数据。训练数据包括文本训练数据和图像训练数据。

Step2：对类标签信息的语义信息进行提取。

通过图像和文本的类标签信息，采用近邻关系矩阵S来训练标签网络模型，采用向量之间的内积来表示任意两个输出特征或者两个哈希码的相关关系，同时利用S来监督输出之间的内积值，用似然函数来表示，公式如下：

其中，sig()表示sigmoid函数，

H_i和H_j表示一组样本对应的哈希码输出层的输出，S_ij＝1表示两个样本向量是相似的，S_ij＝0则表示不相似。

通过最小化负对数似然函数的形式使似然函数最大化，来表示所有样本，得到如下公式：

由于哈希码从输出到量化成二值哈希码会产生损失，因而在式(2)中添加一项量化误差，最终的目标函数如下：

其中，θ表示标签网络模型的参数，min表示取最小值，n表示类别数，F_i表示第i组特征向量，F_j表示第j组特征向量，H_i表示第i组哈希码，H_j表示第j组哈希码，＜,>表示两个向量的内积运算，log()表示对数运算，Σ表示求和运算，S_i,j表示样本i与样本j的相似关系，sign()表示符号函数，α表示输出哈希码与二值哈希码差值的权重参数，

表示F范数的平方；

采用随机梯度下降和反向传播方法，学习标签网络的参数θ，优化式(3)，网络训练完成后，通过输入类标签信息，可以得到类标签信息的语义特征向量F_i ^(s)和语义哈希码H^(s)。

Step3：深度跨媒体哈希学习。根据所述训练数据的特征向量和所述类标签信息的语义特征向量和语义哈希码，采用交替策略优化目标函数

求解图像网络的所有参数θ_x和文本网络的所有参数θ_y；其中，Jse为特征向量的成对关联损失函数，Jh为哈希码的交叉熵函数，B为图像和文本的二进制码；所述图像网络的所有参数θ_x包括所述图像特征提取网络模型的参数，所述文本网络的所有参数θ_y包括所述文本特征提取网络模型的参数。

首先，对于图像和文本网络输出的特征向量，采用成对关联损失函数来传递标签信息的语义特征向量F(s)的近邻关系，公式如下：

其中，θ_x表示图像网络的所有参数，θ_y表示文本网络的所有参数，min表示取最小值，n表示类别数，X表示图像数据，Y表示文本数据，F_i ^(s)表示第i组数据的标签语义特征，

表示第j组文本网络输出特征，

表示第j组图像网络输出特征，<,>表示两个向量的内积运算，log()表示对数运算，Σ表示求和运算，S_i,j表示样本i与样本j的相似关系。

然后，对于图像和文本网络输出的哈希码值，采用学习逼近标签语义哈希的方式，利用交叉熵构建哈希码的交叉熵函数，使得输出的哈希码与理想的哈希码更接近，此外由于图像网络和文本网络是单独训练的，并且要使得哈希码的每个比特在所有训练点上保持平衡，最大化每个比特所提供的信息，需要增加一个跨媒体的自适应约束以及哈希平衡，公式如下：

其中，B表示图像和文本的二进制码，β表示跨媒体自适应的权重参数，γ表示平衡哈希码的权重参数，σ()表示sigmoid函数，min表示取最小值，H^(x)表示图像网络输出的哈希码，H^(y)表示文本网络输出的哈希码，H^(s)表示标签语义哈希码值，E表示单位矩阵，log()表示对数运算，Σ表示求和运算，

表示F范数的平方。

最终，网络的目标函数为：

Step4：网络参数的优化。

由式(6)可知目标函数有三个要学习的未知量θ_x，θ_y和B，采用交替策略来优化目标函数，即更新一个变量，同时固定其他变量直到收敛。具体过程如下：

4.1、固定θ_x和θ_y，优化B。

当固定θ_x和θ_y时，就相当于将网络的输出常量化，因而优化目标函数就只用优化：

其中，tr()表示矩阵的迹，T表示矩阵的转置，max表示取最大值，B表示图像和文本的二进制码，β表示跨媒体自适应的权重参数，H^(x)表示图像网络输出的哈希码，H^(y)表示文本网络输出的哈希码。

最大化式(7)就要保证乘积的两个值要保持同样的符号，因而求得：

B＝sign(β(H^(x)+H^(y))) (8)

sign()表示符号函数。

4.2、固定B和θ_y，优化θ_x。

通过反向传播算法来优化图像网络的参数θ_x，对每个图像样本x_i，对

求梯度：

对H_j ^(x)求梯度：

其中，σ()表示sigmoid函数，H_j ^(x)表示第j组图像网络输出的哈希码，H_i ^(s)表示第i组数据的标签语义哈希码值，B_j表示第j组图像和文本的二进制码，H^(x)表示图像网络输出的单额哈希码。

利用链式规则，就可以通过式(9)，(10)求得图像网络参数的梯度，根据梯度进行反向传播就可以更新网络参数。

4.3、固定B和θ_x，优化θ_y。

通过反向传播算法来优化文本网络的参数θy,对每个文本样本yj,对ZYj*求梯度：

对H_j ^(y)求梯度：

H_j ^(y)表示第j组图像网络输出的哈希码，H_i ^(y)表示第i组数据的标签语义哈希码值，H^(y)表示文本网络输出的单额哈希码。

利用链式规则，就可以通过式(11)，(12)求得文本网络参数的梯度，根据梯度进行反向传播就可以更新网络参数。

作为一个具体的实施案例，网络参数的优化的详细实施流程如下：

输入：

原始图像数据X；

原始文本数据Y；

图像文本对的标签信息构建的相似矩阵S；

标签信息的语义特征F(s)；

标签信息的语义哈希码H(s)。

输出：

图像和文本数据的二值码矩阵B。

过程：

初始化图像和文本网络参数θ_x和θ_y，批次数量N_x＝N_y＝128，迭代次数tx＝n/Nx,ty＝n/Ny。

重复：

循环，迭代次数1,2,…,tx：

随机选取128个图像样本组成批次数据；

对于每个样本xi，通过前向传播输出特征

和输出哈希H_i ^(x)；

根据式(9)(10)求出梯度；

利用反向传播更新图像网络参数θ_x；

结束循环；

循环，迭代次数1,2,…,ty：

随机选取128个文本样本组成批次数据

对于每个样本y_j通过前向传播输出特征

和输出哈希H_i ^(y)；

根据式(11)(12)求出梯度；

利用反向传播更新图像网络参数θ_y；

结束循环。

通过式(8)求得二值码B；

直到达到一定数目的迭代次数。

Step5：根据图像特征提取网络模型的参数确定训练后的图像特征提取网络模型，根据文本特征提取网络模型的参数确定训练后的文本特征提取网络模型。

对应图1所示的跨媒体检索的方法，本发明还提供一种跨媒体检索的系统。图2为本发明跨媒体检索的系统的结构示意图，如图2所示，本发明跨媒体检索的系统包括以下结构：

数据特征提取网络模型获取模块201，用于获取数据特征提取网络模型；所述数据特征提取网络模型包括图像特征提取网络模型和文本特征提取网络模型；所述图像特征提取网络模型包括位于卷积层和全连接层之间的图像多尺度融合层；所述文本特征提取网络模型包括文本多尺度融合层和全连接层。

数据信息获取模块202，用于获取待查询的数据信息和待检索的数据信息库；所述待检索的数据信息库中数据信息的模态与所述待查询的数据信息的模态不同。

特征向量提取模块203，用于采用所述数据特征提取网络模型，提取所述待查询的数据的特征向量和所述待检索的数据信息库中每个数据信息的特征向量。

查询哈希码获取模块204，用于根据所述待查询的数据的特征向量，获取查询哈希码。

检索哈希码获取模块205，用于根据所述待检索的数据信息库中每个数据信息的特征向量，获取每个数据信息对应的检索哈希码。

汉明距离计算模块206，用于计算所述查询哈希码与每个所述检索哈希码之间的汉明距离，得到汉明距离集合。

排序模块207，用于将所述汉明距离集合中的元素，按照从小到大的顺序排列，得到汉明距离序列。

检索结果确定模块208，用于将所述汉明距离序列中的前n个汉明距离对应的n个数据信息，确定为所述待查询的数据信息的检索结果。

作为另一实施例，图2所示的跨媒体检索的系统，还包括：

训练数据获取模块，用于在获取数据特征提取网络模型之前，获取训练数据；所述训练数据包括文本训练数据和图像训练数据。

训练数据特征向量提取模块，用于采用数据特征提取网络模型，获取所述训练数据的特征向量。

类标签信息获取模块，用于获取所述训练数据的类标签信息。

类标签信息语义参数获取模块，用于根据所述类标签信息，采用标签网络模型，获取所述类标签信息的语义特征向量和语义哈希码。

图像特征提取网络模型确定模块，用于根据所述图像特征提取网络模型的参数确定所述图像特征提取网络模型。

作为另一实施例，图2所示的跨媒体检索的系统，还包括：

其中，θ表示标签网络模型的参数，min表示取最小值，n表示类别数，F_i表示第i组特征向量，F_j表示第j组特征向量，H_i表示第i组哈希码，H_j表示第j组哈希码，<,>表示两个向量的内积运算，log()表示对数运算，Σ表示求和运算，S_i,j表示样本i与样本j的相似关系，sign()表示符号函数，α表示输出哈希码与二值哈希码差值的权重参数，

表示F范数的平方。

下面提供一个具体实施案例，进一步说明本发明图1和图2所示的方案。

图3为本发明具体实施案例的流程示意图。采用图3所示的流程，将发明的方法命名为MSCDH，用该方法进行跨媒体检索，与现有的其他方法进行比较：

CCQ：联合学习相关极大映射和复合量化器，将多媒体数据转换为同构的潜在空间，将其转换为紧凑的二进制码，是一种无监督学习方法。

CVH：提出了交叉视图哈希，考虑了视图间和视图内的相似性，是一种无监督学习方法。

SCM_seq：将语义标签无缝地集成到用于大规模数据建模的哈希学习过程中，是一种监督学习方法。

CMSSH：提出了交叉模态相似度敏感哈希的分类模型，是一种监督学习方法。

SePh：将语义矩阵转化为概率分布，通过最小化汉明空间分布与语义概率分布之间的KL散度，学习汉明空间，是一种监督学习方法。

DCMH：采用深度学习框架对哈希问题进行处理，是一种基于深度神经网络的学习方法。

在本具体实施案例中，采用平均精度(MAP)和精度召回(PR)曲线来评估方法的性能，一组查询的MAP是每个查询的平均精度(AP)的平均值。MAP值越大，表示算法的性能越好。如表1所示，表1显示了不同方法基于MIRFLICKR-25K数据集的跨媒体检索任务的MAP值。与其他六种方法比较，本发明提出的MSCDH方法将平均MAP从0.7364提高到了0.7491。

表1图像检索文本(I→T)和文本检索图像(T→I)的MAP值比较

图4为本发明具体实施案例的检索精确召回率曲线示意图。如图4所示，图4显示了不同方法在MIRFLICKR-25K数据集中相应的精度-召回(PR)曲线。可以看到，本发明提出的MSCDH方法在大多数召回水平上具有更高的精度，优于比较方法。

综上，根据MAP值和PR曲线显示，本发明方法MSCDH具有显著的优势，原因在于本发明是基于数据的多尺度特征融合来训练网络，充分利用了图像的多尺度信息以及有效解决了文本数据输入的稀疏性，对于构建语义相关信息，提高检索效果有着一定帮助。除此之外，本发明在考虑数据相关性的基础上，充分利用数据的标签信息进行一个自我监督，学习一个神经网络，充分将标签信息嵌入到哈希函数的学习中，使得网络输出的哈希码之间关系更接近原始数据的关系，从而提高跨媒体检索的精确度，呈现更精准的检索结果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。