CN114329109A - 基于弱监督哈希学习的多模态检索方法及系统 - Google Patents

基于弱监督哈希学习的多模态检索方法及系统 Download PDF

Info

Publication number
CN114329109A
CN114329109A CN202210250281.0A CN202210250281A CN114329109A CN 114329109 A CN114329109 A CN 114329109A CN 202210250281 A CN202210250281 A CN 202210250281A CN 114329109 A CN114329109 A CN 114329109A
Authority
CN
China
Prior art keywords
hash
modal
semi
supervised
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210250281.0A
Other languages
English (en)
Other versions
CN114329109B (zh
Inventor
刘兴波
张雪凝
聂秀山
王少华
尹义龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202210250281.0A priority Critical patent/CN114329109B/zh
Publication of CN114329109A publication Critical patent/CN114329109A/zh
Application granted granted Critical
Publication of CN114329109B publication Critical patent/CN114329109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据检索技术领域,提供了基于弱监督哈希学习的多模态检索方法及系统。为解决模态间配对信息不完整的情况的问题,该方法包括获取待检索样本,将其进行哈希码计算;将待检索样本的哈希码与检索数据库中的哈希码通过0/1异或运算,计算海明距离,并将以海明距离从小到大返回相似数据;检索数据库的构建过程为:基于模态内成对相似度、模态间成对相似度以及补全的各模态标签信息,建立半监督半配对跨模态哈希的目标函数;通过优化半监督半配对跨模态哈希的目标函数获取哈希表示,并从哈希表示中采样,再将对应的部分跨模态相似度信息嵌入哈希函数学习中,最后利用嵌入的哈希函数生成检索数据库。其减少了计算复杂度且提高了检索精度。

Description

基于弱监督哈希学习的多模态检索方法及系统
技术领域
本发明属于大数据检索技术领域,尤其涉及基于弱监督哈希学习的多模态检索方法及系统。
背景技术
为了方便用户从海量数据中快速检索到对自己有用或感兴趣的内容,互联网的内容提供商不仅需要过滤重复、近似内容,还要对用户搜索到的相似内容进行重新排序。此外,多媒体数据表征的异构性带来了跨模态检索需求,例如,一个网页中既包含图像内容,又包含文字信息,用户可能需要以文本搜图或以图搜文本。因此,如何实现不同模态间的相似搜索成为互联网企业在处理多媒体信号时面临的一个新的挑战。
与传统的相似搜索方法如穷举法、基于空间分割的方法相比,近似最近邻(Approximate Nearest Neighbor, ANN)搜索凭借着其在实际应用中的高效性吸引了大量的关注。其中,跨模态哈希方法将高维原始特征映射为公共海明空间的二值码,同时保持相似性,从而将相似搜索转化为二值码的按位异或运算,实现了检索效率与精度间一个很好的平衡。现有的跨模态哈希方法,大多是针对监督信息完备的场景设计的,在这样的场景中,标签信息和模态间成对相似度都是完整的。然而,在现实应用中,由于网络多媒体数据数量多、来源广,不同模态数据间往往缺乏明确的一一对应关系,同时,由于对大规模数据进行人工标注代价较高,所以多媒体数据存在不同程度的标签缺失问题。在上述弱监督场景下,现有的跨模态哈希方法得不到足够的信息去构造模态间相似性。
针对弱监督场景,在已有的文献和技术中存在的哈希检索方法主要分为两类,一类是半监督哈希,另一类是弱配对跨模态哈希。现有的弱监督场景的哈希检索方法存在以下问题:(1)基于图的半监督哈希方法采用标记传播框架,能够挖掘到潜在的标签信息,但该框架也带来了复杂的优化问题,且忽略了模态间配对信息不完整的情况。(2)弱配对跨模态哈希方法能够处理不完整的模态间配对信息,但该类方法简单地用模态内邻域关系去近似模态间相似性,而没有解决语义鸿沟的问题。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供基于弱监督哈希学习的多模态检索方法及系统,其能够同时保持模态内的相似结构信息和模态间语义关联信息,具有训练和检索速度快、检索性能高的特点。
为了实现上述目的,本发明采用如下技术方案:
为了解决上述背景技术中存在的技术问题,本发明提供基于弱监督哈希学习的多模态检索方法及系统,其能够充分挖掘和利用弱监督场景下有限的标签信息和配对关系,在一定程度上削弱伪标签中噪声产生的负面影响,提升哈希学习的性能,减少计算复杂度的同时提高检索精度。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供基于弱监督哈希学习的多模态检索方法,其包括:
获取待检索样本,并将其进行哈希码计算;
将待检索样本的哈希码与检索数据库中的哈希码通过0/1异或运算,计算海明距离,并将以海明距离从小到大返回相似数据;
其中,所述检索数据库的构建过程为:
基于模态内成对相似度、模态间成对相似度以及补全的各模态标签信息,建立半监督半配对跨模态哈希的目标函数;
通过优化半监督半配对跨模态哈希的目标函数获取哈希表示,并从哈希表示中采样,再将对应的部分跨模态相似度信息嵌入哈希函数学习中,最后利用嵌入的哈希函数生成检索数据库。
作为一种实施方式,所述半监督半配对跨模态哈希的目标函数由基于投影的损失函数项、基于模态内成对相似度的损失函数项、基于模态间成对相似度的损失函数项、各模态的鲁棒回归损失项、基于自步学习的权重正则项和量化损失项构成。
作为一种实施方式,模态内成对相似度是对模态内部流形结构进行拟合。
作为一种实施方式,补全各模态标签信息的过程为:
基于样本重构的思想,在各个模态内,对于每一个未标记样本:
首先用所有标记样本特征向量的线性组合完成重构,并计算每一个类别的样本对其重构的误差值,再选择重构误差最小的类别对该未标记样本赋伪标签,从而完成对所有未标记样本的标签分配。
作为一种实施方式,模态间成对相似度的构造过程为:
基于补全后的各模态标签信息,形成标签矩阵,利用标签内积构造跨模态成对相似度矩阵,即在语义层面上构造模态间相似性。
作为一种实施方式,在优化半监督半配对跨模态哈希的目标函数的过程中,通过交替方向乘子法更新半监督半配对跨模态哈希的目标函数中变量和参数,直至达到预设的终止条件。
本发明的第二个方面提供基于弱监督哈希学习的多模态检索系统,其包括:
哈希码计算模块,其用于获取待检索样本,并将其进行哈希码计算;
在线检索模块,其用于将待检索样本的哈希码与检索数据库中的哈希码通过0/1异或运算,计算海明距离,并将以海明距离从小到大返回相似数据;
其中,所述检索数据库的构建过程为:
基于模态内成对相似度、模态间成对相似度以及补全的各模态标签信息,建立半监督半配对跨模态哈希的目标函数;
通过优化半监督半配对跨模态哈希的目标函数获取哈希表示,并从哈希表示中采样,再将对应的部分跨模态相似度信息嵌入哈希函数学习中,最后利用嵌入的哈希函数生成检索数据库。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于弱监督哈希学习的多模态检索方法中的步骤。
本发明的第四个方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于弱监督哈希学习的多模态检索方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明提供了基于弱监督哈希学习的多模态检索方法及系统,其通过补全各模态的标签信息来构造跨模态成对相似度矩阵,并利用自步学习来对各个样本进行加权,进而用于鲁棒回归,充分挖掘和利用弱监督场景下有限的标签信息和配对关系,并在一定程度上削弱伪标签中噪声带来的负面影响,提升了哈希学习的性能,既克服了传统半监督哈希方法无法处理弱配对数据的局限性,又探索了传统弱配对跨模态哈希方法在构造跨模态相似性时未考虑的语义鸿沟问题,实现了增强语义信息和弥补跨模态语义鸿沟的双重目标。同时,通过样本级加权策略过滤了伪标签中的噪声,使哈希码对噪声具有一定的鲁棒性。此外,在学习哈希函数时通过采样嵌入了跨模态相似度信息,使得线性哈希投影偏向更利于检索的方向。与已有方法相比,减少了计算复杂度的同时提高了检索精度。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的基于弱监督哈希学习的多模态检索方法流程图;
图2是本发明实施例的基于弱监督哈希学习的多模态检索方法原理图;
图3是本发明实施例的基于弱监督哈希学习的多模态检索系统结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明所涉及的多模态数据不限于图像数据和文本数据,还可以包括视频数据和音频数据等等。
下面以图像数据和文本数据为例来详细介绍基于弱监督哈希学习的多模态检索方法的原理及其具体实施过程。
实施例一
参照图1和图2,本实施例提供了基于弱监督哈希学习的多模态检索方法,其具体包括如下步骤:
S101:获取待检索样本,并将其进行哈希码计算。
对于图像样本
Figure 461031DEST_PATH_IMAGE001
,生成其哈希码
Figure 477529DEST_PATH_IMAGE002
;对于文本样本
Figure 975506DEST_PATH_IMAGE003
,生成其哈希码
Figure 747153DEST_PATH_IMAGE004
;其中,sign函数为量化函数,目的是将网络输出的实数值量化为离散的0/1码,便于之后的检索。
S102:将待检索样本的哈希码与检索数据库中的哈希码通过0/1异或运算,计算海明距离,并将以海明距离从小到大返回相似数据。
此处需要说明的是,检索数据库的构建是采用离线方式构成的。
在具体实施过程中,所述检索数据库的构建过程为:
步骤a:基于模态内成对相似度、模态间成对相似度以及补全的各模态标签信息,建立半监督半配对跨模态哈希的目标函数。
具体地,在步骤a中,所述半监督半配对跨模态哈希的目标函数由基于投影的损失函数项、基于模态内成对相似度的损失函数项、基于模态间成对相似度的损失函数项、各模态的鲁棒回归损失项、基于自步学习的权重正则项和量化损失项构成。
例如:目标函数部分参照图1中的(e):基于图像成对相似关系、文本成对相似关系、图像-文本成对相似关系和补全后得到的标签信息来建立半监督半配对跨模态哈希的目标函数,通过优化目标函数获取哈希表示。
Figure 884742DEST_PATH_IMAGE005
Figure 767248DEST_PATH_IMAGE006
第一、二项是基于投影的损失函数项;
第三、四项分别是基于成对图像相似度的损失函数项和基于成对文本相似度的损失函数项,其目标是使得不同样本的哈希码之间的相似度与原始图像之间的相似关系、原始文本之间的相似关系保持一致。
其中,基于模态内成对相似度保持的损失函数项,具体地,包含成对图像相似度保持项和成对文本相似度保持项,其中成对图像相似度保持项通过两个图像与锚点之间的相似度来计算,成对文本相似度保持项则通过两个文本向量的余弦相似度来计算。在此基础上,约束两样本之间的相似度与其相应哈希码之间的相似度相一致,进而使得最终的图像哈希码能够保留原始图像之间的相似关系,文本哈希码能够保留原始文本之间的相似关系,即实现哈希学习对原始模态内相似关系的保持。
基于模态间成对相似度保持的损失函数项,先基于样本重构的思想对各模态内的未标记样本赋伪标签,从而补全各模态的标签信息,再基于补全后的标签矩阵构造跨模态成对相似度矩阵,最后约束图像哈希码和文本哈希码保留原始图像和原始文本之间的相似关系,即实现哈希学习对原始模态间相似关系的保持。
第五项是基于图像-文本对的相似度的损失函数项,目标是约束图像哈希码和文本哈希码保持原始图像和原始文本之间的跨模态相似关系。
第六、七项分别是图像、文本的鲁棒回归损失项,目标是发现伪标签中的噪声,并提升哈希学习对噪声的鲁棒性。
其中,基于自步学习和噪声学习的鲁棒回归损失项,在每次迭代过程中,对于每个样本,根据分类损失加权,并选择置信度高的样本进行学习,接着更新分类器,之后逐渐引入更多的样本,逐步提升分类器的性能,从而提升哈希学习对伪标签中噪声的鲁棒性。
第八、九项是基于自步学习的权重正则项;
第十、十一项是量化损失项,目标是使得松弛后的哈希码
Figure 119732DEST_PATH_IMAGE007
与真正的哈希码
Figure 999963DEST_PATH_IMAGE008
之间差距尽可能小。
公式中,
Figure 437898DEST_PATH_IMAGE009
分别代表图像和文本特征,
Figure 546930DEST_PATH_IMAGE010
分别表示图像的数量、文本的数量和哈希码的长度,
Figure 19500DEST_PATH_IMAGE011
分别代表成对图像相似度矩阵和成对文本相似度矩阵,
Figure 132949DEST_PATH_IMAGE012
分别代表图像和文本补全后的标签矩阵,
Figure 995863DEST_PATH_IMAGE013
表示跨模态成对相似度矩阵,
Figure 220171DEST_PATH_IMAGE014
表示第i张图像与第j个文本之间的相似度,
Figure 281668DEST_PATH_IMAGE015
分别代表图像和文本的样本级权重,其对应的更新系数分别为
Figure 752969DEST_PATH_IMAGE016
Figure 165496DEST_PATH_IMAGE017
分别代表图像和文本松弛后的哈希码矩阵,
Figure 193495DEST_PATH_IMAGE008
分别代表图像和文本的哈希码矩阵,
Figure 312761DEST_PATH_IMAGE018
是正交旋转矩阵,
Figure 502434DEST_PATH_IMAGE019
是投影矩阵,
Figure 78953DEST_PATH_IMAGE020
是鲁棒回归的分类系数矩阵;
Figure 645064DEST_PATH_IMAGE021
是超参数,用于平衡各损失项。
具体地,模态内成对相似度本质上是对模态内部流形结构的拟合,针对不同模态的特点,例如采用不同的相似度构造方式。对于图像模态,成对相似度通过两个图像与锚点之间的相似度来计算;对于文本模态,成对相似度通过两个文本向量间的余弦相似度来计算。
其中,锚点在这里是指所有图像样本点中具有一定代表性的一小部分样本点。所有图像样本点都可以用这些锚点的线性组合来表示。锚点的选取可以是任意的,也可以用聚类算法(如k-means)得到的聚类中心。
具体地,补全各模态标签信息的过程为:
基于样本重构的思想,在各个模态内,对于每一个未标记样本:
首先用所有标记样本特征向量的线性组合完成重构,并计算每一个类别的样本对其重构的误差值,再选择重构误差最小的类别对该未标记样本赋伪标签,从而完成对所有未标记样本的标签分配。
具体地,模态间成对相似度的构造过程为:
基于补全后的各模态标签信息,形成标签矩阵,利用标签内积构造跨模态成对相似度矩阵,即在语义层面上构造模态间相似性。该方法充分挖掘和利用了有限的监督信息,弥补了跨模态语义鸿沟。
步骤b:通过优化半监督半配对跨模态哈希的目标函数获取哈希表示,并从哈希表示中采样,再将对应的部分跨模态相似度信息嵌入哈希函数学习中,最后利用嵌入的哈希函数生成检索数据库。
其中,在优化半监督半配对跨模态哈希的目标函数的过程中,通过交替方向乘子法更新半监督半配对跨模态哈希的目标函数中变量和参数,直至达到预设的终止条件。
通过控制监督信息完备样本所占的比例模拟现实弱监督场景。从优化半监督半配对跨模态哈希的目标函数的过程中获取的哈希表示中采样,并将对应的部分跨模态相似度信息嵌入哈希函数学习中,使得线性哈希投影偏向更利于检索的方向。
具体地,训练半监督半配对跨模态哈希的目标函数的程中构造的跨模态相似度信息是完整的,但由于是样本数平方数量级的,所以复杂度较大。为了减小复杂度,对其进行采样,仅将一小部分跨模态相似度信息嵌入哈希函数中。学到哈希函数之后,用哈希函数生成检索数据库和测试样本的哈希码。
采用如下损失函数学习哈希函数:
Figure 946732DEST_PATH_IMAGE022
其中,
Figure 244990DEST_PATH_IMAGE023
分别代表图像和文本特征,
Figure 632109DEST_PATH_IMAGE024
分别代表图像和文本的哈希函数,
Figure 1910DEST_PATH_IMAGE025
分别代表图像和文本的哈希码矩阵,
Figure 79456DEST_PATH_IMAGE026
分别代表对图像和文本的哈希码矩阵采样所得子矩阵,与之对应,得到跨模态成对相似度矩阵的子矩阵
Figure 876511DEST_PATH_IMAGE027
Figure 485347DEST_PATH_IMAGE028
是超参数。
利用哈希函数生成检索数据库:
数据库中图像和文本的哈希码分别通过
Figure 596522DEST_PATH_IMAGE029
Figure 607204DEST_PATH_IMAGE030
来生成。
表1 本实施例与其他算法MAP性能比较(图像-文本跨模态检索/%)
Figure 263575DEST_PATH_IMAGE031
表2 本实施例与其他算法MAP性能比较(文本-图像跨模态检索/%)
Figure 359707DEST_PATH_IMAGE032
表1和表2是本实施例的一个仿真实验,该实验采用MAP(平均精度均值)进行度量,在保留50%监督信息的WIKI数据集上进行实验。表1为本实施例在进行图像-文本跨模态检索的平均精度均值,表2为本实施例在进行文本-图像跨模态检索的平均精度均值,每个仿真实验中都测试了四种哈希码位数(16,32,64,128位)的性能表现,并与现有的3种弱配对跨模态哈希方法(分别记为SPH、SPDH、MTFH)进行了比较,可以看出绝大多数情况下本实施例的该方法性能较好。
实施例二
如图3所示,本实施例了提供基于弱监督哈希学习的多模态检索系统,其具体包括如下模块:
(1)哈希码计算模块,其用于获取待检索样本,并将其进行哈希码计算;
(2)在线检索模块,其用于将待检索样本的哈希码与检索数据库中的哈希码通过0/1异或运算,计算海明距离,并将以海明距离从小到大返回相似数据;
其中,所述检索数据库的构建过程为:
基于模态内成对相似度、模态间成对相似度以及补全的各模态标签信息,建立半监督半配对跨模态哈希的目标函数;
通过优化半监督半配对跨模态哈希的目标函数获取哈希表示,并从哈希表示中采样,再将对应的部分跨模态相似度信息嵌入哈希函数学习中,最后利用嵌入的哈希函数生成检索数据库。
在具体实施中,所述半监督半配对跨模态哈希的目标函数由基于投影的损失函数项、基于模态内成对相似度的损失函数项、基于模态间成对相似度的损失函数项、各模态的鲁棒回归损失项、基于自步学习的权重正则项和量化损失项构成。
其中,模态内成对相似度是对模态内部流形结构进行拟合。
具体地,模态间成对相似度的构造过程为:
基于补全后的各模态标签信息,形成标签矩阵,利用标签内积构造跨模态成对相似度矩阵,即在语义层面上构造模态间相似性。
具体地,补全各模态标签信息的过程为:
基于样本重构的思想,在各个模态内,对于每一个未标记样本:
首先用所有标记样本特征向量的线性组合完成重构,并计算每一个类别的样本对其重构的误差值,再选择重构误差最小的类别对该未标记样本赋伪标签,从而完成对所有未标记样本的标签分配。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于弱监督哈希学习的多模态检索方法中的步骤。
实施例四
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于弱监督哈希学习的多模态检索方法中的步骤。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于弱监督哈希学习的多模态检索方法,其特征在于,包括:
获取待检索样本,并将其进行哈希码计算;
将待检索样本的哈希码与检索数据库中的哈希码通过0/1异或运算,计算海明距离,并将以海明距离从小到大返回相似数据;
其中,所述检索数据库的构建过程为:
基于模态内成对相似度、模态间成对相似度以及补全的各模态标签信息,建立半监督半配对跨模态哈希的目标函数;
通过优化半监督半配对跨模态哈希的目标函数获取哈希表示,并从哈希表示中采样,再将对应的部分跨模态相似度信息嵌入哈希函数学习中,最后利用嵌入的哈希函数生成检索数据库。
2.如权利要求1所述的基于弱监督哈希学习的多模态检索方法,其特征在于,所述半监督半配对跨模态哈希的目标函数由基于投影的损失函数项、基于模态内成对相似度的损失函数项、基于模态间成对相似度的损失函数项、各模态的鲁棒回归损失项、基于自步学习的权重正则项和量化损失项构成。
3.如权利要求1所述的基于弱监督哈希学习的多模态检索方法,其特征在于,模态内成对相似度是对模态内部流形结构进行拟合。
4.如权利要求1所述的基于弱监督哈希学习的多模态检索方法,其特征在于,补全各模态标签信息的过程为:
基于样本重构的思想,在各个模态内,对于每一个未标记样本:
首先用所有标记样本特征向量的线性组合完成重构,并计算每一个类别的样本对其重构的误差值,再选择重构误差最小的类别对该未标记样本赋伪标签,从而完成对所有未标记样本的标签分配。
5.如权利要求1所述的基于弱监督哈希学习的多模态检索方法,其特征在于,模态间成对相似度的构造过程为:
基于补全后的各模态标签信息,形成标签矩阵,利用标签内积构造跨模态成对相似度矩阵,即在语义层面上构造模态间相似性。
6.如权利要求1所述的基于弱监督哈希学习的多模态检索方法,其特征在于,在优化半监督半配对跨模态哈希的目标函数的过程中,通过交替方向乘子法更新半监督半配对跨模态哈希的目标函数中变量和参数,直至达到预设的终止条件。
7.基于弱监督哈希学习的多模态检索系统,其特征在于,包括:
哈希码计算模块,其用于获取待检索样本,并将其进行哈希码计算;
在线检索模块,其用于将待检索样本的哈希码与检索数据库中的哈希码通过0/1异或运算,计算海明距离,并将以海明距离从小到大返回相似数据;
其中,所述检索数据库的构建过程为:
基于模态内成对相似度、模态间成对相似度以及补全的各模态标签信息,建立半监督半配对跨模态哈希的目标函数;
通过优化半监督半配对跨模态哈希的目标函数获取哈希表示,并从哈希表示中采样,再将对应的部分跨模态相似度信息嵌入哈希函数学习中,最后利用嵌入的哈希函数生成检索数据库。
8.如权利要求7所述的基于弱监督哈希学习的多模态检索系统,其特征在于,所述半监督半配对跨模态哈希的目标函数由基于投影的损失函数项、基于模态内成对相似度的损失函数项、基于模态间成对相似度的损失函数项、各模态的鲁棒回归损失项、基于自步学习的权重正则项和量化损失项构成。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的基于弱监督哈希学习的多模态检索方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于弱监督哈希学习的多模态检索方法中的步骤。
CN202210250281.0A 2022-03-15 2022-03-15 基于弱监督哈希学习的多模态检索方法及系统 Active CN114329109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210250281.0A CN114329109B (zh) 2022-03-15 2022-03-15 基于弱监督哈希学习的多模态检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210250281.0A CN114329109B (zh) 2022-03-15 2022-03-15 基于弱监督哈希学习的多模态检索方法及系统

Publications (2)

Publication Number Publication Date
CN114329109A true CN114329109A (zh) 2022-04-12
CN114329109B CN114329109B (zh) 2022-06-03

Family

ID=81033828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210250281.0A Active CN114329109B (zh) 2022-03-15 2022-03-15 基于弱监督哈希学习的多模态检索方法及系统

Country Status (1)

Country Link
CN (1) CN114329109B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115048539A (zh) * 2022-08-15 2022-09-13 山东大学 基于动态记忆力的社交媒体数据在线检索方法及系统
CN115080880A (zh) * 2022-08-23 2022-09-20 山东建筑大学 一种基于鲁棒相似保持的跨模态检索方法及系统
CN115098707A (zh) * 2022-06-24 2022-09-23 山东大学 基于零样本学习的跨模态哈希检索方法及系统
CN115828176A (zh) * 2023-02-09 2023-03-21 山东建筑大学 一种面向智慧工地的跨模态检索方法及系统
CN116975318A (zh) * 2023-08-03 2023-10-31 四川大学 一种基于互关联挖掘的半配对图文检索方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334574A (zh) * 2018-01-23 2018-07-27 南京邮电大学 一种基于协同矩阵分解的跨模态检索方法
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109857892A (zh) * 2018-12-29 2019-06-07 西安电子科技大学 基于类标传递的半监督跨模态哈希检索方法
CN110674323A (zh) * 2019-09-02 2020-01-10 山东师范大学 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN113326287A (zh) * 2021-08-04 2021-08-31 山东大学 一种使用三步策略的在线跨模态检索方法及系统
CN113806580A (zh) * 2021-09-28 2021-12-17 西安电子科技大学 基于层次语义结构的跨模态哈希检索方法
CN114117153A (zh) * 2022-01-25 2022-03-01 山东建筑大学 一种基于相似度重学习的在线跨模态检索方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334574A (zh) * 2018-01-23 2018-07-27 南京邮电大学 一种基于协同矩阵分解的跨模态检索方法
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109857892A (zh) * 2018-12-29 2019-06-07 西安电子科技大学 基于类标传递的半监督跨模态哈希检索方法
CN110674323A (zh) * 2019-09-02 2020-01-10 山东师范大学 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN113326287A (zh) * 2021-08-04 2021-08-31 山东大学 一种使用三步策略的在线跨模态检索方法及系统
CN113806580A (zh) * 2021-09-28 2021-12-17 西安电子科技大学 基于层次语义结构的跨模态哈希检索方法
CN114117153A (zh) * 2022-01-25 2022-03-01 山东建筑大学 一种基于相似度重学习的在线跨模态检索方法及系统

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
ERKUN YANG: "Pairwise Relationship Guided Deep Hashing for Cross-Modal Retrieval", 《PROCEEDINGS OF THE THIRTY-FIRST AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-17)》 *
ERKUN YANG: "Pairwise Relationship Guided Deep Hashing for Cross-Modal Retrieval", 《PROCEEDINGS OF THE THIRTY-FIRST AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-17)》, 1 January 2017 (2017-01-01) *
JUNYA TENG: "Regularized Two Granularity Loss Function for", 《IEEE TRANSACTIONS ON MULTIMEDIA》, 20 October 2021 (2021-10-20) *
SHAOHUA WANG: "Discrete hashing with triple supervision learning", 《J. VIS. COMMUN. IMAGE R.》 *
SHAOHUA WANG: "Discrete hashing with triple supervision learning", 《J. VIS. COMMUN. IMAGE R.》, 23 October 2021 (2021-10-23) *
SHAOHUA WANG: "Discrete Two-Step Cross-Modal Hashing through the", 《COMPUTATIONAL INTELLIGENCE AND NEUROSCIENCE》 *
SHAOHUA WANG: "Discrete Two-Step Cross-Modal Hashing through the", 《COMPUTATIONAL INTELLIGENCE AND NEUROSCIENCE》, 27 September 2021 (2021-09-27) *
XIUSHAN NIE: "Fast Unmediated Hashing for Cross-Modal Retrieval", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, 30 September 2021 (2021-09-30) *
YANG SHI: "Zero-shot Hashing via Asymmetric Ratio", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》, 14 February 2022 (2022-02-14) *
刘玄武: "弱监督跨模态哈希学习研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
刘玄武: "弱监督跨模态哈希学习研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 January 2021 (2021-01-15), pages 5 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098707A (zh) * 2022-06-24 2022-09-23 山东大学 基于零样本学习的跨模态哈希检索方法及系统
CN115048539A (zh) * 2022-08-15 2022-09-13 山东大学 基于动态记忆力的社交媒体数据在线检索方法及系统
CN115048539B (zh) * 2022-08-15 2022-11-15 山东大学 基于动态记忆力的社交媒体数据在线检索方法及系统
CN115080880A (zh) * 2022-08-23 2022-09-20 山东建筑大学 一种基于鲁棒相似保持的跨模态检索方法及系统
CN115080880B (zh) * 2022-08-23 2022-11-08 山东建筑大学 一种基于鲁棒相似保持的跨模态检索方法及系统
CN115828176A (zh) * 2023-02-09 2023-03-21 山东建筑大学 一种面向智慧工地的跨模态检索方法及系统
CN116975318A (zh) * 2023-08-03 2023-10-31 四川大学 一种基于互关联挖掘的半配对图文检索方法
CN116975318B (zh) * 2023-08-03 2024-01-23 四川大学 一种基于互关联挖掘的半配对图文检索方法

Also Published As

Publication number Publication date
CN114329109B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN114329109B (zh) 基于弱监督哈希学习的多模态检索方法及系统
Xie et al. Dynamic Multi-View Hashing for Online Image Retrieval.
CN107766555B (zh) 基于软约束无监督型跨模态哈希的图像检索方法
CN113177132B (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN108510559A (zh) 一种基于有监督多视角离散化的多媒体二值编码方法
CN112949281B (zh) 一种图神经网络的增量社交事件检测方法
Wei et al. Joint optimization toward effective and efficient image search
CN113868366B (zh) 一种面向流数据的在线跨模态检索方法与系统
CN113312505B (zh) 一种基于离散在线哈希学习的跨模态检索方法及系统
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
CN111858984A (zh) 一种基于注意力机制哈希检索的图像匹配方法
CN113032601A (zh) 一种基于判别性提升的零样本草图检索方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN114782752A (zh) 基于自训练的小样本图像集成分类方法及装置
CN116385946B (zh) 面向视频的目标片段定位方法、系统、存储介质及设备
Zhong et al. An exploration of cross-modal retrieval for unseen concepts
Shen et al. Graph Convolutional Incomplete Multi-modal Hashing
Zhang et al. Co-evolution-based parameter learning for remote sensing scene classification
CN116595343B (zh) 基于流形排序学习的在线无监督跨模态检索方法及系统
CN117056550B (zh) 长尾图像检索方法、系统、设备及存储介质
Li et al. Multiple-step model training for face recognition
CN116343104B (zh) 视觉特征与向量语义空间耦合的地图场景识别方法及系统
Lu et al. Retrieval of Multiple Spatiotemporally Correlated Images on Tourist Attractions Based on Image Processing.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant