CN115952309A - 面向多个多媒体检索任务的结构化多模态检索方法及系统 - Google Patents

面向多个多媒体检索任务的结构化多模态检索方法及系统 Download PDF

Info

Publication number
CN115952309A
CN115952309A CN202310001747.8A CN202310001747A CN115952309A CN 115952309 A CN115952309 A CN 115952309A CN 202310001747 A CN202310001747 A CN 202310001747A CN 115952309 A CN115952309 A CN 115952309A
Authority
CN
China
Prior art keywords
modal
retrieval
data set
hash
modality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310001747.8A
Other languages
English (en)
Inventor
郑超群
李雅芳
鹿文鹏
张维玉
乔新晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202310001747.8A priority Critical patent/CN115952309A/zh
Publication of CN115952309A publication Critical patent/CN115952309A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了面向多个多媒体检索任务的结构化多模态检索方法及系统,属于多媒体检索技术领域,本发明要解决的技术问题为如何支持多个多媒体检索任务,技术方案为:该方法具体如下:获取一个包括图像模态和文本模态的多模态检索数据集,并将多模态检索数据集划分为训练数据集、测试数据集和数据库数据集;将图像模态和文本模态的原始数据分别输入到深度特征提取模型中对原始数据进行特征提取,从而获取图像模态的深度特征和文本模态的深度特征;在训练数据集上构造面向多个多媒体检索任务的结构化多模态哈希方法的目标函数。该系统包括数据预处理模块、深度特征表示模块、目标函数构造模块、哈希函数学习模块及在线模态哈希检索模块。

Description

面向多个多媒体检索任务的结构化多模态检索方法及系统
技术领域
本发明涉及多媒体检索技术领域,具体地说是一种面向多个多媒体检索任务的结构化多模态检索方法及系统。
背景技术
随着多媒体技术的发展,如何从大规模的异构数据中检索出语义相关的多媒体数据成为研究者们关注的热点问题。哈希方法能够将高维数据映射到低维的汉明空间中,然后仅需要通过计算哈希码间的汉明距离便能有效地度量样本间的相似性。凭借存储空间小、计算速度快的优点,哈希方法在多媒体检索中得到了越来越多的关注。
跨模态哈希和复合多模态哈希是目前两种主要的基于哈希的多媒体检索技术。跨模态哈希旨在学习一个共享的哈希码以支持跨模态检索任务,其检索任务跨异构模态执行。复合多模态哈希在训练和检索阶段利用不同多模态特征的互补性学习融合的哈希码,其主要是针对复合多模态检索任务而设计的。先前的跨模态和复合多模态哈希模型已经取得了非常显著的检索性能,然而,现有的基于哈希的检索模型通常仅为特定的多媒体检索任务设计,即这些方法要么只针对跨模态检索任务设计,要么只针对复合多媒体检索任务设计。由于检索模型设置的不同,不能灵活地扩展到其他多媒体检索任务。为了满足同时支持跨模态检索和复合多模态检索的要求,就需要在多媒体检索系统中配置两种哈希模型,并同时存储两组不同类型的哈希码,十分不便。
故如何支持多个多媒体检索任务,同时既能灵活地保留多媒体数据中各模态的特定特征,支持跨模态检索任务,又能融合异构模态特征,支持符合多模态检索任务是目前亟待解决的技术问题。
发明内容
本发明的技术任务是提供一种面向多个多媒体检索任务的结构化多模态检索方法及系统,来解决如何支持多个多媒体检索任务,同时既能灵活地保留多媒体数据中各模态的特定特征,支持跨模态检索任务,又能融合异构模态特征,支持符合多模态检索任务的问题。
本发明的技术任务是按以下方式实现的,一种面向多个多媒体检索任务的结构化多模态检索方法,该方法具体如下:
获取一个包括图像模态和文本模态的多模态检索数据集,并将多模态检索数据集划分为训练数据集、测试数据集和数据库数据集;
将图像模态和文本模态的原始数据分别输入到深度特征提取模型中对原始数据进行特征提取,从而获取图像模态的深度特征和文本模态的深度特征;
在训练数据集上构造面向多个多媒体检索任务的结构化多模态哈希方法的目标函数;
通过面向多个多媒体检索任务的结构化多模态哈希方法的目标函数获取用于跨模态检索的第v个模态的线性投影矩阵R(v)和用于多模态检索的转换矩阵W;
在线查询时,利用面向多个多媒体检索任务的结构化多模态哈希方法的目标函数,根据第v个模态的线性投影矩阵R(v)和用于多模态检索的转换矩阵W获取测试数据集和数据库数据集中样本的哈希码,并获取每个测试数据集的测试样本的哈希码与数据库数据集样本的哈希码之间的汉明距离,将数据库数据集样本按照对应的汉明距离升序排序得到检索结果。
作为优选,获取图像模态的深度特征和文本模态的深度特征具体如下:
图像模态:将图像模态输入到VGG-16网络模型中,提取4096维的图像特征;
文本模态:将标签利用Bag-of-words模型(词袋模型)提取1386维的文本特征。
更优地,在训练数据集上构造面向多个多媒体检索任务的结构化多模态哈希方法的目标函数具体如下:
通过目标函数fspe保存每个模态的特有属性;
通过目标函数fcom保存多模态特征的互补性;
通过目标函数fsup加上标签指导,自动地将语义信息分配到共享的转换矩阵中,弥合不同模态之间的差异;
构造最终的目标函数,公式为:
f=fspe+fcom+fsup
其中,fspe将每个模态映射到一个单独的潜在空间来学习模态不变的特征,以更好地保存每个模态的特有属性;fcom设置适当的权重,以充分利用多模态特征的互补性;fsup同时利用标签和成对相似度矩阵(pair-wise similarity matrix),生成更具判别性的哈希码,从而保持高维空间和汉明空间之间的语义相似性。
更优地,通过目标函数fspe保存每个模态的特征具体如下:
构造非线性特征嵌入
Figure BDA0004035216810000031
公式如下:
Figure BDA0004035216810000032
其中,
Figure BDA0004035216810000033
Figure BDA0004035216810000034
是从训练数据集中随机选取的m个锚点;σ是高斯核参数;该过程可以有效地保持第v个模态样本的相关性;特别地,该过程的存储和计算成本仅为O(n),大大降低了优化的复杂度;
在得到每个模态的非线性嵌入后,构造目标函数fspe:通过建立哈希码与原始数据之间的关系,利用模态特定的投影矩阵有效地学习单个哈希码;具体公式为:
Figure BDA0004035216810000035
s.t.B(v)∈{-1,1}N×r
其中,B(v)是学习到的第v个模态的特定模态哈希码,
Figure BDA0004035216810000036
Figure BDA0004035216810000041
r表示结构化哈希码中每个模态对应的哈希码的长度,V表示模态数;R(v)是第v个模态的线性投影矩阵;γ(v)是第v个模态的平衡参数;N是训练阶段的所有样本数;
Figure BDA0004035216810000042
为第v个模态特征矩阵;d(v)为特征维数;
通过目标函数fcom保存多模态特征的互补性具体如下:
构造协同非线性多模态特征映射
Figure BDA0004035216810000043
公式如下:
Figure BDA0004035216810000044
其中,
Figure BDA0004035216810000045
由V个单独的特征嵌入组成,包括来自V个模态的信息;在多模态哈希学习中,通过分配合理的权重μ(v),有效地度量每个不同模态特征的重要性;结构化哈希码的每一部分都包含丰富的模态内信息,从而能够有效地提高跨模态检索的精度;同时,将结构化哈希码协同起来表示整个多模态数据,能够有效融合异构模态特征,实现复合多模态检索;
构造目标函数fcom,具体公式为:
Figure BDA0004035216810000046
Figure BDA0004035216810000047
其中,[B(1);…;B(V)]是被定义的结构化哈希码;W是非线性投影矩阵,用于多模态检索任务;θ为平衡参数;
Figure BDA0004035216810000048
是原始输入数据的协同非线性多模态特征映射;
构造目标函数fsup公式具体如下:
Figure BDA0004035216810000049
其中,
Figure BDA00040352168100000410
是转换矩阵;
Figure BDA00040352168100000411
是标签矩阵;[B(1);…;B(V)]是结构化哈希码;
Figure BDA00040352168100000412
是成对相似度矩阵;α和β是平衡参数。
更优地,面向多个多媒体检索任务的结构化多模态哈希方法的目标函数的求取是采用迭代求解算法,即固定其他变量,求解一个变量,从而获得最终的最优解,具体优化过程如下:
固定其他变量更新R(v),目标函数变为:
Figure BDA0004035216810000051
对R(v)求偏导,并将其设为零,得到:
Figure BDA0004035216810000052
固定其他变量更新C,目标函数变为:
Figure BDA0004035216810000053
对C求偏导,并将其设为零,得到:
C=(αYBTB+βIVr)-1(αrBTSY+βBTY)(YTY)-1
为了表示方便,令B=[B(1);…;B(v)];
固定其他变量更新B:先通过固定除B(v)之外的其他变量来求解第v个模态哈希码B(v),从目标函数中去掉与B(v)无关的项,简化函数为:
Figure BDA0004035216810000054
对B(v)求偏导,并将其设为零,得到:
Figure BDA0004035216810000055
固定其他变量更新B,目标函数变为:
Figure BDA0004035216810000056
Figure BDA0004035216810000057
改写为:
Figure BDA0004035216810000058
其中,tr(BTB)为常数;为了有效地计算哈希码并避免对称矩阵分解,将minB∈{-1,1}tr(αBCYTYCTBT-2αrSYCTBT+βBTB-2βYCTBt)重写为:
Figure BDA0004035216810000059
采用非对称哈希学习策略,使用变量
Figure BDA00040352168100000510
替换一个B;同时加入D来度量B和
Figure BDA00040352168100000511
之间的差值,将
Figure BDA0004035216810000061
Figure BDA0004035216810000062
中的最后一项简化为:
Figure BDA0004035216810000063
对B求偏导,并将其设为零,得到:
Figure BDA0004035216810000064
固定其他变量更新
Figure BDA00040352168100000610
目标函数变为:
Figure BDA0004035216810000065
Figure BDA00040352168100000611
的更新公式为:
Figure BDA0004035216810000066
固定其他变量更新D和η,根据ALM算法,得到:
Figure BDA0004035216810000067
其中,参数ρ通过调参获得最优参数;
固定其他变量更新W,得到:
Figure BDA0004035216810000068
固定其他变量,求自适应权重μ,得到:
Figure BDA0004035216810000069
更优地,利用哈希函数生成的哈希码进行跨模态检索,对于要查询的样本,其哈希码的预测公式如下:
Figure BDA0004035216810000071
其中,
Figure BDA0004035216810000072
表示Nq个查询样本的非线性嵌入;线性投影矩阵R(v)在训练阶段获得,直接用于在线跨模态检索;
预测任意多模态查询样本的哈希码,用于复合多模态检索问题,公式如下:
Figure BDA0004035216810000073
其中,
Figure BDA0004035216810000074
表示Nq个查询样本的协同多模态映射;线性投影矩阵W在训练阶段获得。
更优地,汉明距离具体如下:
在训练数据集中选定任一个测试样本,获取测试样本的哈希码跟数据库数据集中的所有样本的哈希码之间汉明距离;
将数据库数据集样本按照汉明距离排序,跟测试样本距离小于设定阈值的排在前面,跟测试样本距离大于设定阈值的排在后面,从而验证检索的准确度。
一种面向多个多媒体检索任务的结构化多模态检索系统,该系统包括,
数据预处理模块,用于获取多模态检索数据集,其中,每个多模态检索数据集的样本均包括成对的图像模态和文本模态的数据,并将多模态检索数据集划分为训练数据集、测试数据集和数据库数据集;
深度特征表示模块,用于将图像模态和文本模态的原始数据分别输入到深度特征提取模型中进行特征提取,并将提取后的特征作为训练特征、测试特征和数据库特征用于目标函数构造、哈希函数学习和在线模态哈希检索;
目标函数构造模块,用于通过训练数据集构造面向多个多媒体检索任务的结构化多模态哈希方法的总目标函数;
哈希函数学习模块,用于采用迭代优化方法求解目标函数;
在线模态哈希检索模块,用于构造并利用在线哈希的目标函数,获取测试数据集和数据库数据集中样本的哈希码,获取每个测试数据集的测试样本的哈希码与数据库数据集样本的哈希码之间的汉明距离,数据库数据集样本按对应的汉明距离升序排序,得到检索结果。
一种电子设备,包括:存储器和至少一个处理器;
其中,所述存储器上存储有计算机程序;
所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如上述的面向多个多媒体检索任务的结构化多模态检索方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的面向多个多媒体检索任务的结构化多模态检索方法。
本发明的面向多个多媒体检索任务的结构化多模态检索方法及系统具有以下优点:
(一)本发明利用VGG-16模型和词袋模型(BoW)提取图像和文本模态的深度特征表示,并将其作为后续结构化多模态哈希模型的输入特征;为了充分挖掘多模态数据的语义相关性和互补信息,为每个模态独立生成一个二值化的哈希码,并同时考虑多模态数据的互补性,同时学习一个结构化哈希码,结构化哈希码既能灵活地保留多媒体数据中各模态的特定特征,支持跨模态检索,又能融合异构模态特征,支持复合多模态检索;
(二)本发明提出了一个统一的多模态哈希学习框架,能够对异构模态数据进行融合和强化,学习结构化哈希码;特别的,生成的哈希码可以同时处理多个多媒体检索任务;
(三)本发明通过独立投影策略和协同哈希码学习策略充分利用了可用的模态特征,并利用异构多模态数据中的共享信息和模态特定信息构造共享汉明空间;在此基础上,提出了一种有效的迭代优化策略,以高效快速的方式直接学习哈希码;在跨模态和复合多模态检索任务上的实验结果表明,本发明具有良好的性能。
附图说明
下面结合附图对本发明进一步说明。
附图1为面向多个多媒体检索任务的结构化多模态检索方法的流程框图;
附图2为面向多个多媒体检索任务的结构化多模态哈希与现存的跨模态哈希模型和复合多模态哈希模型的区别示意图。
具体实施方式
参照说明书附图和具体实施例对本发明的面向多个多媒体检索任务的结构化多模态检索方法及系统作以下详细地说明。
实施例1:
如附图1所示,本发明的面向多个多媒体检索任务的结构化多模态检索方法及,该方法具体如下:
S1、获取一个包括图像模态和文本模态的多模态检索数据集,并将多模态检索数据集划分为训练数据集、测试数据集和数据库数据集;
对于来自V个模态的多模态训练集,
Figure BDA0004035216810000091
为第v个模态特征矩阵,其中d(v)为特征维数,N为训练样本总数。为了便于描述,本发明以包含图像和文本两个模态的多模态检索数据集为例。具体来说,X(1)和X(2)分别表示图像和文本模态特征。本实施例中的目标是学习结构化的哈希码
Figure BDA0004035216810000092
其中,r表示结构化哈希码中每个模态对应的哈希码的长度,V表示模态数。
S2、将图像模态和文本模态的原始数据分别输入到深度特征提取模型中对原始数据进行特征提取,从而获取图像模态的深度特征和文本模态的深度特征;
S3、在训练数据集上构造面向多个多媒体检索任务的结构化多模态哈希方法的目标函数;
S4、通过面向多个多媒体检索任务的结构化多模态哈希方法的目标函数获取用于跨模态检索的第v个模态的线性投影矩阵R(v)和用于多模态检索的转换矩阵W;
S5、在线查询时,利用面向多个多媒体检索任务的结构化多模态哈希方法的目标函数,根据第v个模态的线性投影矩阵R(v)和用于多模态检索的转换矩阵W获取测试数据集和数据库数据集中样本的哈希码,并获取每个测试数据集的测试样本的哈希码与数据库数据集样本的哈希码之间的汉明距离,将数据库数据集样本按照对应的汉明距离升序排序得到检索结果。
本实施例步骤S2中的获取图像模态的深度特征和文本模态的深度特征具体如下:
S201、图像模态:将图像模态输入到VGG-16网络模型中,提取4096维的图像特征;
S202、文本模态:将标签利用Bag-of-words模型(词袋模型)提取1386维的文本特征。
本实施例步骤S3中的在训练数据集上构造面向多个多媒体检索任务的结构化多模态哈希方法的目标函数具体如下:
S301、通过目标函数fspe保存每个模态的特有属性;
S302、通过目标函数fcom保存多模态特征的互补性;
S303、通过目标函数fsup加上标签指导,自动地将语义信息分配到共享的转换矩阵中,弥合不同模态之间的差异;
S304、构造最终的目标函数,公式为:
f=fspe+fcom+fsup
其中,fspe将每个模态映射到一个单独的潜在空间来学习模态不变的特征,以更好地保存每个模态的特有属性;fcom设置适当的权重,以充分利用多模态特征的互补性;fsup同时利用标签和成对相似度矩阵,生成更具判别性的哈希码,从而保持高维空间和汉明空间之间的语义相似性。
本实施例步骤S301中的通过目标函数fspe保存每个模态的特征具体如下:
S30101、构造非线性特征嵌入
Figure BDA0004035216810000101
公式如下:
Figure BDA0004035216810000102
其中,
Figure BDA0004035216810000103
Figure BDA0004035216810000111
是从训练数据集中随机选取的m个锚点;σ是高斯核参数;该过程可以有效地保持第v个模态样本的相关性;特别地,该过程的存储和计算成本仅为O(n),大大降低了优化的复杂度;
S30102、在得到每个模态的非线性嵌入后,构造目标函数fspe:通过建立哈希码与原始数据之间的关系,利用模态特定的投影矩阵有效地学习单个哈希码;具体公式为:
Figure BDA0004035216810000112
s.t.B(v)∈{-1,1}N×r
其中,B(v)是学习到的第v个模态的特定模态哈希码,
Figure BDA0004035216810000113
Figure BDA0004035216810000114
r表示结构化哈希码中每个模态对应的哈希码的长度,V表示模态数;R(v)是第v个模态的线性投影矩阵;γ(v)是第v个模态的平衡参数;N是训练阶段的所有样本数;
Figure BDA0004035216810000115
为第v个模态特征矩阵;d(v)为特征维数;
本实施例步骤S302中的通过目标函数fcom保存多模态特征的互补性具体如下:
S30201、构造协同非线性多模态特征映射
Figure BDA0004035216810000116
公式如下:
Figure BDA0004035216810000117
其中,
Figure BDA0004035216810000118
由V个单独的特征嵌入组成,包括来自V个模态的信息;在多模态哈希学习中,通过分配合理的权重μ(v),有效地度量每个不同模态特征的重要性;结构化哈希码的每一部分都包含丰富的模态内信息,从而能够有效地提高跨模态检索的精度;同时,将结构化哈希码协同起来表示整个多模态数据,能够有效融合异构模态特征,实现复合多模态检索;
S30202、构造目标函数fcom,具体公式为:
Figure BDA0004035216810000121
Figure BDA0004035216810000122
其中,[B(1);…;B(V)]是被定义的结构化哈希码;W是非线性投影矩阵,用于多模态检索任务;θ为平衡参数;
Figure BDA0004035216810000123
是原始输入数据的协同非线性多模态特征映射;
本实施例步骤S303中的构造目标函数fsup公式具体如下:
Figure BDA0004035216810000124
其中,
Figure BDA0004035216810000125
是转换矩阵;
Figure BDA0004035216810000126
是标签矩阵;[B(1);…;B(V)]是结构化哈希码;
Figure BDA0004035216810000127
是成对相似度矩阵;α和β是平衡参数。
本实施例步骤S4中的面向多个多媒体检索任务的结构化多模态哈希方法的目标函数的求取是采用迭代求解算法,即固定其他变量,求解一个变量,从而获得最终的最优解,具体优化过程如下:
S401、固定其他变量更新R(v),目标函数变为:
Figure BDA0004035216810000128
对R(v)求偏导,并将其设为零,得到:
Figure BDA0004035216810000129
S402、固定其他变量更新C,目标函数变为:
Figure BDA00040352168100001210
对C求偏导,并将其设为零,得到:
C=(αYBTB+βIVr)-1(αrBTSY+βBTY)(YTY)-1
为了表示方便,令B=[B(1);…;B(v)];
S403、固定其他变量更新B:先通过固定除B(v)之外的其他变量来求解第v个模态哈希码B(v),从目标函数中去掉与B(v)无关的项,简化函数为:
Figure BDA0004035216810000131
对B(v)求偏导,并将其设为零,得到:
Figure BDA0004035216810000132
固定其他变量更新B,目标函数变为:
Figure BDA0004035216810000133
Figure BDA0004035216810000134
改写为:
Figure BDA0004035216810000135
其中,tr(BTB)为常数;为了有效地计算哈希码并避免对称矩阵分解,将minB∈{-1,1}tr(αBCYTYCTBT-2αrSYCTBT+βBTB-2βYCTBt)重写为:
Figure BDA0004035216810000136
采用非对称哈希学习策略,使用变量
Figure BDA00040352168100001313
替换一个B;同时加入D来度量B和
Figure BDA0004035216810000137
之间的差值,将
Figure BDA0004035216810000138
Figure BDA0004035216810000139
中的最后一项简化为:
Figure BDA00040352168100001310
对B求偏导,并将其设为零,得到:
Figure BDA00040352168100001311
S404、固定其他变量更新
Figure BDA00040352168100001312
目标函数变为:
Figure BDA0004035216810000141
Figure BDA0004035216810000142
的更新公式为:
Figure BDA0004035216810000143
S405、固定其他变量更新D和η,根据ALM算法,得到:
Figure BDA0004035216810000144
其中,参数ρ通过调参获得最优参数;
S406、固定其他变量更新W,得到:
Figure BDA0004035216810000145
S407、固定其他变量,求自适应权重μ,得到:
Figure BDA0004035216810000146
本实施例步骤S5中的利用哈希函数生成的哈希码进行跨模态检索,对于要查询的样本,其哈希码的预测公式如下:
Figure BDA0004035216810000147
其中,
Figure BDA0004035216810000148
表示Nq个查询样本的非线性嵌入;线性投影矩阵R(v)在训练阶段获得,直接用于在线跨模态检索;
本实施例步骤S5中,预测任意多模态查询样本的哈希码,用于复合多模态检索问题,公式如下:
Figure BDA0004035216810000149
其中,
Figure BDA00040352168100001410
表示Nq个查询样本的协同多模态映射;线性投影矩阵W在训练阶段获得。
本实施例步骤S5中的汉明距离具体如下:
S501、在训练数据集中选定任一个测试样本,获取测试样本的哈希码跟数据库数据集中的所有样本的哈希码之间汉明距离;
S502、将数据库数据集样本按照汉明距离排序,跟测试样本距离小于设定阈值的排在前面,跟测试样本距离大于设定阈值的排在后面,从而验证检索的准确度。
本实施例采用TopK-精度(TopK-precision)和平均精度(Mean AveragePrecision,MAP)作为评价指标,TopK-精度(TopK-precision)和平均精度(Mean AveragePrecision,MAP)的值越大表示检索性能越好;具体定义分别为:
1)、TopK-precision:TopK-精度用于反映了检索精度随着检索到的样本数量的变化而变化的情况;获取检索到前K个样本,TopK-precision表示K个样本中相关样本所占的比例。
2)、MAP:给定一个检索样本集合,其中每个检索样本的平均准确率(AP)定义为:
Figure BDA0004035216810000151
其中,R是返回的检索样本总数,N是返回的与查询相关的样本总数,P(r)表示前r个检索结果的精度,如果第r个检索得到的样本与查询样本相关则δ(r)=1,否则δ(r)=0,所有样本的AP值的平均值即MAP。
实施例2:
本实施例提供了一种面向多个多媒体检索任务的结构化多模态检索系统,该系统包括,
数据预处理模块,用于获取多模态检索数据集,其中,每个多模态检索数据集的样本均包括成对的图像模态和文本模态的数据,并将多模态检索数据集划分为训练数据集、测试数据集和数据库数据集;
深度特征表示模块,用于将图像模态和文本模态的原始数据分别输入到深度特征提取模型中进行特征提取,并将提取后的特征作为训练特征、测试特征和数据库特征用于目标函数构造、哈希函数学习和在线模态哈希检索;
目标函数构造模块,用于通过训练数据集构造面向多个多媒体检索任务的结构化多模态哈希方法的总目标函数;
哈希函数学习模块,用于采用迭代优化方法求解目标函数;
在线模态哈希检索模块,用于构造并利用在线哈希的目标函数,获取测试数据集和数据库数据集中样本的哈希码,获取每个测试数据集的测试样本的哈希码与数据库数据集样本的哈希码之间的汉明距离,数据库数据集样本按对应的汉明距离升序排序,得到检索结果。
实施例3:
本实施例还提供了一种电子设备,包括:存储器和处理器;
其中,存储器存储计算机执行指令;
处理器执行所述存储器存储的计算机执行指令,使得处理器执行本发明任一实施例中的面向多个多媒体检索任务的结构化多模态检索方法。
处理器可以是中央处理单元(CPU),还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通过处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可用于储存计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现电子设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器还可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,只能存储卡(SMC),安全数字(SD)卡,闪存卡、至少一个磁盘存储期间、闪存器件、或其他易失性固态存储器件。
实施例4:
本实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的面向多个多媒体检索任务的结构化多模态检索方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RYM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种面向多个多媒体检索任务的结构化多模态检索方法,其特征在于,该方法具体如下:
获取一个包括图像模态和文本模态的多模态检索数据集,并将多模态检索数据集划分为训练数据集、测试数据集和数据库数据集;
将图像模态和文本模态的原始数据分别输入到深度特征提取模型中对原始数据进行特征提取,从而获取图像模态的深度特征和文本模态的深度特征;
在训练数据集上构造面向多个多媒体检索任务的结构化多模态哈希方法的目标函数;
通过面向多个多媒体检索任务的结构化多模态哈希方法的目标函数获取用于跨模态检索的第v个模态的线性投影矩阵R(v)和用于多模态检索的转换矩阵W;
在线查询时,利用面向多个多媒体检索任务的结构化多模态哈希方法的目标函数,根据第v个模态的线性投影矩阵R(v)和用于多模态检索的转换矩阵W获取测试数据集和数据库数据集中样本的哈希码,并获取每个测试数据集的测试样本的哈希码与数据库数据集样本的哈希码之间的汉明距离,将数据库数据集样本按照对应的汉明距离升序排序得到检索结果。
2.根据权利要求1所述的面向多个多媒体检索任务的结构化多模态检索方法,其特征在于,获取图像模态的深度特征和文本模态的深度特征具体如下:
图像模态:将图像模态输入到VGG-16网络模型中,提取4096维的图像特征;
文本模态:将标签利用Bag-of-words模型提取1386维的文本特征。
3.根据权利要求1或2所述的面向多个多媒体检索任务的结构化多模态检索方法,其特征在于,在训练数据集上构造面向多个多媒体检索任务的结构化多模态哈希方法的目标函数具体如下:
通过目标函数fspe保存每个模态的特有属性;
通过目标函数fcom保存多模态特征的互补性;
通过目标函数fsup加上标签指导,自动地将语义信息分配到共享的转换矩阵中,弥合不同模态之间的差异;
构造最终的目标函数,公式为:
f=fspe+fcom+fsup
其中,fspe将每个模态映射到一个单独的潜在空间来学习模态不变的特征,以更好地保存每个模态的特有属性;fcom设置权重,以充分利用多模态特征的互补性;fsup同时利用标签和成对相似度矩阵,生成更具判别性的哈希码,从而保持高维空间和汉明空间之间的语义相似性。
4.根据权利要求3所述的面向多个多媒体检索任务的结构化多模态检索方法,其特征在于,通过目标函数fspe保存每个模态的特征具体如下:
构造非线性特征嵌入
Figure FDA0004035216800000021
的公式如下:
Figure FDA0004035216800000022
其中,
Figure FDA0004035216800000023
i=1,2,..N,
Figure FDA0004035216800000024
是从训练数据集中随机选取的m个锚点;σ是高斯核参数;
在得到每个模态的非线性嵌入后,构造目标函数fspe:通过建立哈希码与原始数据之间的关系,利用模态特定的投影矩阵有效地学习单个哈希码;具体公式为:
Figure FDA0004035216800000025
s.t.B(v)∈{-1,1}N×r
其中,B(v)是学习到的第v个模态的特定模态哈希码,
Figure FDA0004035216800000031
Figure FDA0004035216800000032
r表示结构化哈希码中每个模态对应的哈希码的长度,V表示模态数;R(v)是第v个模态的线性投影矩阵;γ(v)是第v个模态的平衡参数;N是训练阶段的所有样本数;
Figure FDA0004035216800000033
为第v个模态特征矩阵;d(v)为特征维数;
通过目标函数fcom保存多模态特征的互补性具体如下:
构造协同非线性多模态特征映射
Figure FDA0004035216800000034
公式如下:
Figure FDA0004035216800000035
其中,
Figure FDA0004035216800000036
由V个单独的特征嵌入组成,包括来自V个模态的信息;在多模态哈希学习中,通过分配合理的权重μ(v),有效地度量每个不同模态特征的重要性;结构化哈希码的每一部分都包含丰富的模态内信息,从而能够有效地提高跨模态检索的精度;同时,将结构化哈希码协同起来表示整个多模态数据,能够有效融合异构模态特征,实现复合多模态检索;
构造目标函数fcom,具体公式为:
Figure FDA0004035216800000037
Figure FDA0004035216800000038
其中,[B(1);…;B(V)]是被定义的结构化哈希码;W是非线性投影矩阵,用于多模态检索任务;θ为平衡参数;
Figure FDA0004035216800000039
是原始输入数据的协同非线性多模态特征映射;
构造目标函数fsup公式具体如下:
Figure FDA00040352168000000310
其中,
Figure FDA00040352168000000311
是转换矩阵;
Figure FDA00040352168000000312
是标签矩阵;[B(1);…;B(v)]是结构化哈希码;
Figure FDA0004035216800000041
是成对相似度矩阵;α和β是平衡参数。
5.根据权利要求1或2所述的面向多个多媒体检索任务的结构化多模态检索方法,其特征在于,面向多个多媒体检索任务的结构化多模态哈希方法的目标函数的求取是采用迭代求解算法,即固定其他变量,求解一个变量,从而获得最终的最优解,具体优化过程如下:
固定其他变量更新R(v),目标函数变为:
Figure FDA0004035216800000042
对R(v)求偏导,并将其设为零,得到:
Figure FDA0004035216800000043
固定其他变量更新C,目标函数变为:
Figure FDA0004035216800000044
对C求偏导,并将其设为零,得到:
C=(αYBTB+βIVr)-1(αrBTSY+βBTY)(YTY)-1
为了表示方便,令B=[B(1);…;B(v)];
固定其他变量更新B:先通过固定除B(v)之外的其他变量来求解第v个模态哈希码B(v),从目标函数中去掉与B(v)无关的项,简化函数为:
Figure FDA0004035216800000045
对B(v)求偏导,并将其设为零,得到:
Figure FDA0004035216800000046
固定其他变量更新B,目标函数变为:
Figure FDA0004035216800000051
Figure FDA0004035216800000052
改写为:
Figure FDA0004035216800000053
其中,tr(BTB)为常数;为了有效地计算哈希码并避免对称矩阵分解,将minB∈{-1,1}tr(αBCYTYCTBT-2αrSYCTBT+βBTB-2βYCTBT)重写为:
Figure FDA0004035216800000054
采用非对称哈希学习策略,使用变量
Figure FDA0004035216800000055
替换一个B;同时加入D来度量B和
Figure FDA0004035216800000056
之间的差值,将
Figure FDA0004035216800000057
Figure FDA0004035216800000058
中的最后一项简化为:
Figure FDA0004035216800000059
对B求偏导,并将其设为零,得到:
Figure FDA00040352168000000510
固定其他变量更新
Figure FDA00040352168000000511
目标函数变为:
Figure FDA00040352168000000512
Figure FDA0004035216800000061
的更新公式为:
Figure FDA0004035216800000062
固定其他变量更新D和η,根据ALM算法,得到:
Figure FDA0004035216800000063
其中,参数ρ通过调参获得最优参数;
固定其他变量更新W,得到:
Figure FDA0004035216800000064
固定其他变量,求自适应权重μ,得到:
Figure FDA0004035216800000065
6.根据权利要求1或2所述的面向多个多媒体检索任务的结构化多模态检索方法,其特征在于,利用哈希函数生成的哈希码进行跨模态检索,对于要查询的样本,其哈希码的预测公式如下:
Figure FDA0004035216800000066
其中,
Figure FDA0004035216800000067
表示Nq个查询样本的非线性嵌入;线性投影矩阵R(v)在训练阶段获得,直接用于在线跨模态检索;
预测任意多模态查询样本的哈希码,用于复合多模态检索问题,公式如下:
Figure FDA0004035216800000068
其中,
Figure FDA0004035216800000069
表示Nq个查询样本的协同多模态映射;线性投影矩阵W在训练阶段获得。
7.根据权利要求6所述的面向多个多媒体检索任务的结构化多模态检索方法,其特征在于,汉明距离具体如下:
在训练数据集中选定任一个测试样本,获取测试样本的哈希码跟数据库数据集中的所有样本的哈希码之间汉明距离;
将数据库数据集样本按照汉明距离排序,跟测试样本距离小于设定阈值的排在前面,跟测试样本距离大于设定阈值的排在后面,从而验证检索的准确度。
8.一种面向多个多媒体检索任务的结构化多模态检索系统,其特征在于,该系统包括,
数据预处理模块,用于获取多模态检索数据集,其中,每个多模态检索数据集的样本均包括成对的图像模态和文本模态的数据,并将多模态检索数据集划分为训练数据集、测试数据集和数据库数据集;
深度特征表示模块,用于将图像模态和文本模态的原始数据分别输入到深度特征提取模型中进行特征提取,并将提取后的特征作为训练特征、测试特征和数据库特征用于目标函数构造、哈希函数学习和在线模态哈希检索;
目标函数构造模块,用于通过训练数据集构造面向多个多媒体检索任务的结构化多模态哈希方法的总目标函数;
哈希函数学习模块,用于采用迭代优化方法求解目标函数;
在线模态哈希检索模块,用于构造并利用在线哈希的目标函数,获取测试数据集和数据库数据集中样本的哈希码,获取每个测试数据集的测试样本的哈希码与数据库数据集样本的哈希码之间的汉明距离,数据库数据集样本按对应的汉明距离升序排序,得到检索结果。
9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
其中,所述存储器上存储有计算机程序;
所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如权利要求1至7任一项所述的面向多个多媒体检索任务的结构化多模态检索方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至7中任一项所述的面向多个多媒体检索任务的结构化多模态检索方法。
CN202310001747.8A 2023-01-03 2023-01-03 面向多个多媒体检索任务的结构化多模态检索方法及系统 Pending CN115952309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310001747.8A CN115952309A (zh) 2023-01-03 2023-01-03 面向多个多媒体检索任务的结构化多模态检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310001747.8A CN115952309A (zh) 2023-01-03 2023-01-03 面向多个多媒体检索任务的结构化多模态检索方法及系统

Publications (1)

Publication Number Publication Date
CN115952309A true CN115952309A (zh) 2023-04-11

Family

ID=87290403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310001747.8A Pending CN115952309A (zh) 2023-01-03 2023-01-03 面向多个多媒体检索任务的结构化多模态检索方法及系统

Country Status (1)

Country Link
CN (1) CN115952309A (zh)

Similar Documents

Publication Publication Date Title
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN109145153B (zh) 意图类别的识别方法和装置
US9323731B1 (en) Data extraction using templates
KR101027864B1 (ko) 대량의 전자 문서 검색을 위한 문서 관련성을 판정하기위한 기계-학습 접근법
US20120323968A1 (en) Learning Discriminative Projections for Text Similarity Measures
US20080021891A1 (en) Searching a document using relevance feedback
CN106708929B (zh) 视频节目的搜索方法和装置
CN106909609B (zh) 确定相似字符串的方法、文件查重的方法及系统
CN109241319B (zh) 一种图片检索方法、装置、服务器和存储介质
CN108496190B (zh) 用于从电子数据结构中提取属性的注释系统
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
JP2006099428A (ja) 文書要約作成システム、方法、及びプログラム
Nguyen et al. Explaining how deep neural networks forget by deep visualization
CN101894158B (zh) 一种智能检索系统
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN115688779B (zh) 一种基于自监督深度学习的地址识别方法
CN116501834A (zh) 地址信息处理方法、装置、移动终端及存储介质
CN115952309A (zh) 面向多个多媒体检索任务的结构化多模态检索方法及系统
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN114328844A (zh) 一种文本数据集管理方法、装置、设备及存储介质
CN114139530A (zh) 同义词提取方法、装置、电子设备及存储介质
JP2021163477A (ja) 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
CN106649303A (zh) 解决方案搜寻系统的操作方法及解决方案搜寻系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination