CN112925962B

CN112925962B - 基于哈希编码的跨模态数据检索方法、系统、设备及介质

Info

Publication number: CN112925962B
Application number: CN202110075555.2A
Authority: CN
Inventors: 康琦; 邓麒; 潘乐
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2022-09-27
Anticipated expiration: 2041-01-20
Also published as: CN112925962A

Abstract

本发明提供一种基于哈希编码的跨模态数据检索方法、系统、设备及介质，包括获取训练数据集，获取样本内的模态数据，采用符号函数对所述样本内的原始模态数据进行映射，构建目标函数，并迭代更新求解所述哈希投影矩阵，通过迭代更新求解后的所述哈希投影矩阵来计算测试数据集对应所述训练数据集的哈希编码，进而找出汉明距离最近的模态数据，作为所述跨模态数据检索的检索结果。本发明的基于哈希编码的跨模态数据检索方法、系统、设备及介质，以锚点间的融合相似度进行模态间的融合，并构建了模态内相似度保持项，解决了计算邻域点群相似度带来的高时间复杂度的弊端以及模态内相似度考虑缺失的问题，提高跨模态的检索效果和检索效率。

Description

基于哈希编码的跨模态数据检索方法、系统、设备及介质

技术领域

本发明涉及跨模态数据检索技术领域，特别是涉及一种基于哈希编码的跨模态数据检索方法、系统、设备及介质。

背景技术

跨模态检索是多模态数据融合中的一个常见且极具挑战性的问题，旨在搭建桥梁以跨越各模态间的语义鸿沟，实现不同模态中语义相同或相似的实例的匹配，无论从准确率还是从检索速度来评判，目前可用的跨模态检索技术与实际应用需求仍有差距，值得深入研究。

近年来，有学者将深度神经网络与哈希算法进行了结合以优化汉明空间中模态间数据匹配检索机制，深度跨模态哈希算法(Deep cross-modal hashing,DCMH)使用负对数似然函数来保持模态间的相似度，搭建了一个端到端的跨模态学习框架；自监督对抗哈希(Self-Supervised Adversarial Hashing,SSAH)利用自监督语义生成网络(LabNet)从多标签标注中学习语义特征，分别搭建两个用于图像和文本的对抗网络(ImgNet和TexNet)，在公共的语义空间中将模态特定的特征联系起来，把语义特征和模态特定的特征同时输入两个判别网络，使得两个模态的特征分布在相同语义特征的监督下，最终趋于一致，跨模态汉明哈希(Cross-Modal Hamming Hashing,CMHH)基于深度学习，设计了指数分布的成对焦点损失函数(pairwise focal loss)，惩罚汉明距离超过汉明阈值半径以提升检索效率，取得了很好的效果。

基于深度学习的跨模态检索的训练时间较长，而基于浅模型的跨模态检索训练时间往往较短，因此在检索效率上有一定的优势，相较于利用了实例标签信息的跨模态哈希算法而言，无监督跨模态哈希算法的设计难度更大，但应用场景也更广泛，融合相似度哈希算法是近年来检索效果最优秀的浅模型无监督跨模态哈希算法之一，但是，此算法引入了邻域点群相似度捕捉单模态中数据的分布特征，时间复杂度很高，导致在训练样本量巨大的情况下，该算法会消耗大量的时间进行点群相似度的计算；同时，该算法的设计没有考虑单模态原始数据与其对应哈希编码的一致性，在一定程度上会对最优哈希编码的学习造成影响

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于哈希编码的跨模态数据检索方法、系统、设备及介质，用于解决现有技术中存在的不足。

为实现上述目的及其他相关目的，本发明提供一种基于哈希编码的跨模态数据检索方法，所述方法包括获取训练数据集O_tr＝{o₁,o₂,…,o_n}∈R^n×d，包含n个样本，每个所述样本对应的模态数目为m，d＝d₁+d₂+.....+d_m，所述训练集O_tr中第i个样本

其中，m、n均为正整数，且m≥2，d_m为第m个模态所述样本的特征点数量，

为第i个样本中第m个模态的特征向量；采用符号函数sgn(·)对所述样本内的原始模态数据进行映射，即

以获得二值哈希编码B，其中，W为哈希投影矩阵，k代表每个所述哈希编码，r为所述哈希编码长度；构建FCCH目标函数，得到如下公式，并迭代更新求解所述哈希投影矩阵W：

s.t.B∈{-1,1}^r×n,BB^T＝NI；其中，α₁、α₂与α_m为模态权重系数，且α₁+α₂+…+α_m＝1；X^(m)为第m个模态的特征矩阵，G′代表锚点间融合相似度，N为自然数；通过迭代更新求解后的所述哈希投影矩阵W，利用公式：

来计算测试数据集对应所述训练数据集的哈希编码B′，进而找出汉明距离最近的模态数据，作为所述跨模态数据检索的检索结。

于本发明的一实施例中，所述采用符号函数sgn(·)对所述样本内的原始模态数据进行映射，获得二值哈希编码B的步骤包括：计算每个模态的哈希函数：

计算每个模态的哈希函数集合：

计算每个模态的哈希编码：

于本发明的一实施例中，锚点集合L＝{l₁,l₂,…,l_p}，从所述训练数据集的样本中选取，所述锚点集合中第i个锚点为

所述锚点间融合相似度G′的计算公式如下所示：G′(i,j)＝mean{S₁(l_i,l_j),S₂(l_i,l_j),…,S_p(l_i,l_j)}，其中，p为正整数。

于本发明的一实施例中，迭代更新求解所述哈希投影矩阵W的步骤包括：初始化所述哈希投影矩阵W，所述哈希编码B，并对应设置m个辅助变量

采用交替迭代法对W、B以及所述辅助变量进行N次迭代更新直至收敛得到所述哈希投影矩阵W。

于本发明的一实施例中，所述交替迭代法的迭代步骤包括：固定W⁽¹⁾,W⁽²⁾,…,W^(m),B₁,B₂…,B_m，迭代更新B，令所述目标函数为O₁，采用交替迭代法求解目标函数，首先求得B：

固定W⁽¹⁾,W⁽²⁾,…,W^(m),B，迭代更新求解B₁,B₂…,B_m：

固定B₁,B₂…,B_m,B，迭代更新求解W⁽¹⁾,W⁽²⁾,…,W^(m)：

其中，B_S为所述锚点对应的哈希编码。

于本发明的一实施例中，利用公式：

实现同一模态内所述哈希编码与所述原始数据的模态内相似性保持，其中，α₁、α₂与α_m为模态权重系数，且α₁+α₂+…+α_m＝1；利用公式：

来引导所述哈希编码的学习，以跨越所述模态间的语义鸿沟；利用公式：

减小所述哈希编码B的量化误差。

于本发明的一实施例中，利用欧式距离S_p(l_i,l_j)用来衡量第p个锚点的两个所述模态的特征数据的相似度，欧式距离

为实现上述目的及其他相关目的，本发明提供一种上述的基于哈希编码的跨模态数据检索系统，所述系统包括：

获取模块，用于获取训练数据集O_tr＝{o₁,o₂,…,o_n}∈R^n×d，包含n个样本，每个所述样本对应的模态数目为m，d＝d₁+d₂+.....+d_m，所述训练集O_tr中第i个样本

为第i个样本中第m个模态的特征向量；

构建模块，用于构建FCCH目标函数，得到如下公式，并迭代更新求解所述哈希投影矩阵W：

s.t.B∈{-1,1}^r×n,BB^T＝NI；

其中，α₁、α₂与α_m为模态权重系数，且α₁+α₂+…+α_m＝1；X^(m)为第m个模态的特征矩阵，G′代表锚点间融合相似度，N为自然数；

计算模块，用于通过迭代更新求解后的所述哈希投影矩阵W，利用公式：

来计算测试数据集对应所述训练数据集的哈希编码B′，进而找出汉明距离最近的模态数据，作为所述跨模态数据检索的检索结果。

为实现上述目的及其他相关目的，本发明提供一种上述的计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述基于哈希编码的跨模态数据检索方法。

为实现上述目的及其他相关目的，本发明提供一种上述的电子设备，所述电子设备包括：所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行所述基于哈希编码的跨模态数据检索方法。

如上所述，本发明的基于哈希编码的跨模态数据检索方法、系统、设备及介质，以锚点间的融合相似度替代原始的邻域点群相似度进行模态间的融合，并构建模态内相似度保持项，解决融合相似度哈希算法计算邻域点群相似度带来的高时间复杂度的弊端以及模态内相似度考虑缺失的问题，提高跨模态的检索效果和检索效率。

附图说明

图1显示为本发明的基于哈希编码的跨模态数据检索方法于一实施例中的检索示意图；

图2显示为本发明的基于哈希编码的跨模态数据检索方法于一实施例中的方法流程图；

图3显示为本发明的基于哈希编码的跨模态数据检索系统于一实施例中的结构示意图。

元件标号说明

S21～S24 步骤

30 基于哈希编码的跨模态数据检索系统

31 获取模块

32 构建模块

33 计算模块

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，于发明一实施例中，以图像-文本跨模态检索为例，即m＝2，通过将目标函数最小化迭代求得哈希投影矩阵W⁽¹⁾,W⁽²⁾,以及哈希编码矩阵B。

进一步地，如图2所示，本发明的基于哈希编码的跨模态数据检索方法包括如下步骤：

步骤S21、获取训练数据集O_tr＝{o₁,o₂,…,o_n}∈R^n×d，包含n个样本，每个所述样本对应的模态数目为m，d＝d₁+d₂+.....+d_m，所述训练集O_tr中第i个样本

为第i个样本中第m个模态的特征向量；

具体地，当m＝2，则d＝d₁+d₂，训练集O_tr中第i个样本

为样本o_i的图像模态特征向量，

为样本o_i文本模态特征向量。

步骤S22、采用符号函数sgn(·)对所述样本内的原始模态数据进行映射，即

以获得二值哈希编码B，其中，W为哈希投影矩阵，k代表每个所述哈希编码，r为所述哈希编码长度；

具体地，当m＝2，计算每个模态的哈希函数，其中；

图像模态哈希函数：

文本模态哈希函数：

计算每个模态的哈希函数集合，其中；

图像模态哈希函数集合：

文本模态哈希函数集合：

计算每个模态的哈希编码，其中；

图像模态的哈希编码B⁽¹⁾：

文本模态的哈希编码B⁽²⁾：

其中，B⁽¹⁾∈{-1,1}^r×n，B⁽²⁾∈{-1,1}^r×n，同一样本对应的哈希编码相同，即B⁽¹⁾＝B⁽²⁾＝B。

步骤S23、构建FCCH目标函数，并迭代更新求解所述哈希投影矩阵W。

具体地，当m＝2时，目标函数为：

其中，α₁与α₂为模态权重系数且α₁+α₂＝1，N为自然数，W⁽¹⁾与W⁽²⁾为两个模态对应的哈希投影矩阵，且

优选地，

与

均为n×n的矩阵。

进一步地，构建两个辅助变量B_x，B_y降低运算的空间复杂度，并进行迭代，

且

进一步地，所述目标函数变为：

进一步地，固定W⁽¹⁾,W⁽²⁾,B_x,B_y，迭代更新B，令FCCH的目标函数为O₁，采用交替迭代法求解目标函数；

进而得到所述测试数据集的哈希编码B：

进一步地，固定B_x，B_y，B，迭代更新求解W⁽¹⁾,W⁽²⁾，令FCCH的目标函数为O₁，此时目标函数为：

分别解得哈希映射矩阵W⁽¹⁾与W⁽²⁾为：

进一步地，固定W⁽¹⁾,W⁽²⁾,B，迭代更新B_x，B_y：

步骤S24、通过迭代更新求解后的所述哈希投影矩阵W，利用公式：

具体地，测试样本数据集O_te＝{o′₁,o′₂,…,o′_n′}，包含n′个样本，每个测试样本对应图像和文本两种模态的数据，测试集O_te中第i个样本

为测试样本o′_i的图像模态特征向量，

为测试样本o′_i文本模态特征向量，特征矩阵X′⁽¹⁾与X′⁽²⁾包含所有测试样本的图像和文本模态数据的特征向量，进而求解测试样本两种模态的哈希编码，即图像模态哈希编码B′⁽¹⁾与文本模态哈希编码B′⁽²⁾，得到：

最终获得测试数据集对应的哈希编码B，输出与被检索图像的汉明距离最近的图像样本。

在一实施例中，进一步地，锚点集合L＝{l₁,l₂,…,l_p}，从所述训练数据集的样本中选取，所述锚点集合中第i个锚点为

进一步地，利用欧式距离S_p(l_i,l_j)用来衡量第p个锚点的两个所述模态的特征数据的相似度，欧式距离

在又一实施例中，进一步地，选取UCI手写数字数据集(UCI Handwritten Digit)作为实验数据，包含由手写数字的图像和文本两个模态的特征数据，其中，这些特征数据包含了数字“0”到数字“9”的十个类别，每个类别包含“200”个样本，所述UCI手写数字数据集的图像特征选用七十六个傅立叶系数描绘字符形状，以及六十四个Karhunen-Loeve(K-L)系数描述文本模态特征，本实验从“2000”个样本中随机抽取“1500”个样本作为训练样本集合，剩余“500”个样本作为测试样本集合。

选取广泛应用于哈希算法性能评价的指标进行算法的评价，即平均检索精度(mAP,mean Average Precision)指标，其中，准确率(Precision)，召回率(Recall)和F-measure的定义如下：

在信息检索中，所述平均检索精度作为一个能够反映全局性能的指标，可以解决所述准确率，所述召回率和所述F-measure单点值的局限性，如下式所示，其中n为检索样本的索引，Q为检索样本数目：

其中AP为单个检索样本的查询精度，计算方法可以为：

或

其中，P(k)与R(k)为基于汉明排序策略计算得到的准确率与召回率。

请参阅表1与表2，在本实施例中，分别展示了在不同的哈希编码条件下，五种跨模态哈希算法与融合一致性跨模态哈希算法(FCCH)在UCI数据集上图像检索文本和文本检索图像两个任务对应的mAP值，其中，五种算法分别包括：典型关联分析算法(CanonicalCorrelation Analysis，CCA)、基于协同矩阵分解哈希的跨模态检索哈希算法(CollectiveMatrix Factorization Hashing,CMFH)、融合相似度哈希算法(Fusion SimilarityHashing,FSH)以及最大语义关联哈希算法(Semantic Correlation Maximization,SCM)，其中SCM_orth放松了谱约束，SCM_seq放松了编码间的正交约束。

表1 UCI数据集图像检索文本mAP值

表2 UCI数据集文本检索图像mAP值

具体地，在图像检索文本任务中，从mAP值进行分析，融合一致性跨模态哈希算法在哈希编码位数为“8”位与“64”位时，mAP值在六种算法中最高；采用“8”位哈希编码时，融合一致性跨模态哈希算法的mAP值比第二位的融合相似度哈希算法提高了“14.6”个百分点；采用“16”位哈希编码时，mAP值比第二位的融合相似度哈希算法提高了“10.8”个百分点，在哈希编码的位数为“16”位与“32”位时，检索效果则分别以“8.2”与“2.1”个百分点的差距仅次于融合相似度哈希算法。

请参阅图3，在一实施例中，为实现跨模态数据检索，本实施例提供的一种基于哈希编码的跨模态数据检索系统30，所述系统包括：

获取模块31，用于获取训练数据集O_tr＝{o₁,o₂,…,o_n}∈R^n×d，包含n个样本，每个所述样本对应的模态数目为m，d＝d₁+d₂+.....+d_m，所述训练集O_tr中第i个样本

为第i个样本中第m个模态的特征向量；

构建模块32，用于构建FCCH目标函数，得到如下公式，并迭代更新求解所述哈希投影矩阵W：

s.t.B∈{-1,1}^r×n,BB^T＝NI；

计算模块33，用于通过迭代更新求解后的所述哈希投影矩阵W，利用公式：

由于本实施例的具体实现方式与前述方法实施例对应，因而于此不再对同样的细节做重复赘述。

除此之外，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述基于哈希编码的跨模态数据检索方法。

此外，本发明还提供一种电子设备，所述电子设备包括：所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行任一项所述基于哈希编码的跨模态数据检索方法。

综上所述，本发明基于融合相似度哈希算法中的无向图衡量指标实现跨模态数据融合的思想，以锚点间的融合相似度替代原始的邻域点群相似度进行模态间的融合，并构建了模态内相似度保持项，解决了融合相似度哈希算法计算邻域点群相似度带来的高时间复杂度的弊端以及模态内相似度考虑缺失的问题，提高跨模态的检索效果和检索效率。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。