CN111639197B - 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统 - Google Patents
标签嵌入在线哈希的跨模态多媒体数据检索方法及系统 Download PDFInfo
- Publication number
- CN111639197B CN111639197B CN202010466838.5A CN202010466838A CN111639197B CN 111639197 B CN111639197 B CN 111639197B CN 202010466838 A CN202010466838 A CN 202010466838A CN 111639197 B CN111639197 B CN 111639197B
- Authority
- CN
- China
- Prior art keywords
- training data
- multimedia training
- multimedia
- sample
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 208
- 239000011159 matrix material Substances 0.000 claims abstract description 105
- 238000013507 mapping Methods 0.000 claims abstract description 21
- 230000015654 memory Effects 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了标签嵌入在线哈希的跨模态多媒体数据检索方法及系统,根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中求取多媒体训练数据的哈希编码;根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;根据投影矩阵和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,从多媒体训练数据中获取与待检索样本相似的样本。
Description
技术领域
本公开涉及多媒体数据处理技术领域,特别是涉及标签嵌入在线哈希的跨模态多媒体数据检索方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
最近邻检索(NN)就是根据数据的相似性,从数据库中寻找与目标数据最相似的项目。这种相似性通常被量化到数据之间的欧式距离或曼哈顿距离。然而,随着互联网多媒体数据在尺度和维度上的爆炸式增长,NN变得不可计算。近似最近邻搜索(ANN)作为一种效率和精度折中的方案,逐渐代替NN被用于大规模多媒体检索任务中。其中,哈希学习作为一种典型的ANN算法被广泛关注。它旨在将高维的数据映射到能够保持原始相似性的低维海明空间中,然后通过计算海明距离进行高效的搜索。根据是否利用监督信息,现有的哈希方法大致可以分为无监督哈希、半监督哈希、监督哈希。其中,监督哈希利用高层次语义信息,解决了多媒体数据的语义鸿沟问题,因此总是能取得比无监督方法好的性能。
互联中的多媒体数据通常包含多个异构的模态(图像、文本等),用户对不同模态数据间的检索需求与日俱增,例如用图像检索文本、用文本检索图像。跨模态检索旨在将不同模态的数据映射到一个公共空间,然后进行相似搜索。结合哈希学习,有许多跨模态哈希方法被提出。
在实际应用中,数据通常是以数据流的形式收集到的。当新数据到来后,传统的基于批处理的哈希方法(所有训练数据必须一次性到位)只能用所有数据重新训练模型,这显然是非常低效的。而且,随着时间的流逝,数据库的规模越来越大,批处理哈希的计算复杂度也变得不可接受。所以,研究在线哈希方法在跨模态检索领域有非常大的意义。然而,现有的哈希方法大多是基于批处理的,很少有在线哈希方法被提出,导致跨模态的多媒体数据检索效率低下且准确率也比较低。
发明内容
为了解决现有技术的不足,本公开提供了标签嵌入在线哈希的跨模态多媒体数据检索方法及系统;该方法提高了模型的泛化能力,而且对数据流的搜索在效率和准确率上有很大的提高。
第一方面,本公开提供了标签嵌入在线哈希的跨模态多媒体数据检索方法;
标签嵌入在线哈希的跨模态多媒体数据检索方法,包括:
获取多媒体训练数据;根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;
基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;
根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;
根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵,和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;
计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本。
第二方面,本公开提供了标签嵌入在线哈希的跨模态多媒体数据检索系统;
标签嵌入在线哈希的跨模态多媒体数据检索系统,包括:
获取模块,其被配置为:获取多媒体训练数据;根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;
构建模块,其被配置为:基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;
映射模块,其被配置为:根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;
计算模块,其被配置为:根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵,和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;
输出模块,其被配置为:计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本。
第三方面,本公开还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本公开还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本公开的有益效果是:
(1)本公开可以高效地对数据流进行在线哈希学习,大大提高了学习效率,并且降低了计算复杂度;
(2)在更新哈希码和哈希函数时,可以充分利用已有数据和新来数据,可以大大提升哈希编码和哈希函数的判别性和鲁棒性;
(3)在将数据转化为二进制编码时,通过标签嵌入充分考虑丰富的语义相似性,解决了异构模态数据间的鸿沟,可以实现有效的跨模态检索;
(4)使用该方法对数据进行二进制转化后,可以大大提高数据的检索速度,并且降低数据的存储空间。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为第一个实施例的方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了标签嵌入在线哈希的跨模态多媒体数据检索方法;
如图1所示,标签嵌入在线哈希的跨模态多媒体数据检索方法,包括:
S101:获取多媒体训练数据;根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;
S102:基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;
S103:根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;
S104:根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵,和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;
S105:计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本。
应理解的,所述S101中,获取多媒体训练数据,包括:通过摄像头采集图像、通过键盘采集文本等。
应理解的,所述S101中,获取待检索样本,例如包括:图像、文本等。
作为一个或多个实施例,所述S101中,根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;具体步骤包括:
对多媒体训练数据进行语义标注,得到多媒体训练标签矩阵;
对多媒体训练数据进行不同模态的特征提取,得到多媒体训练数据不同模态的特征矩阵;对待检索样本进行不同模态的特征提取,得到待检索样本不同模态的特征矩阵。
示例性的,所述语义标注,是指:人工对每个多媒体数据样本的语义类别进行标注。
示例性的,所述多媒体训练标签矩阵,例如:假设多媒体数据总共有2个类别(图像、文本),每个样本的标签被表示为3维的列向量,如果样本属于某个类,标签向量在对应位置上的值为1,否则为0。两个样本构成3×2的标签矩阵
示例性的,所述不同模态的特征提取,例如:对图像提取图像的颜色特征、纹理特征、灰度特征、像素特征或纹理特征等,对文本进行词向量化处理,提取文本的词频逆向文件频率(TF-IDF)等。
示例性的,所述多媒体训练数据不同模态的特征矩阵,例如:
作为一个或多个实施例,所述对多媒体训练数据进行语义标注,得到多媒体训练标签矩阵;具体步骤包括:
在第t轮,一个新的多媒体训练数据块到达,该数据块包含nt个样本;
例如:所述多媒体训练数据块,是指:图像与文本一一对应的多媒体训练数据;
例如:所述样本,是指:图像与文本一一对应的样本;
例如:所述已有多媒体训练数据样本,是指:已有图像与文本一一对应的多媒体训练数据样本;
例如:已有的多媒体训练数据的标签矩阵,是指:已有的图像-文本多媒体训练数据的标签矩阵;
例如:每个样本的标签信息,是指:图像-文本样本包含某个标签;
对新来的多媒体训练数据进行语义标注,得到一个标签矩阵(例如:新来的图像-文本多媒体训练数据进行语义标注,得到一个图像-文本的标签矩阵):
将新来的多媒体训练数据入库,现在完整数据库的标签矩阵是(例如:新来的图像-文本多媒体训练数据入库,现在完整的图像-文本数据库的标签矩阵是):
其中,Nt=Nt-1+nt。
作为一个或多个实施例,所述对多媒体训练数据进行不同模态的特征提取,得到多媒体训练数据不同模态的特征矩阵;对待检索样本进行不同模态的特征提取,得到待检索样本不同模态的特征矩阵;具体步骤包括:
对待检索图像样本也提取特征,得到尺寸为d1×1的图像特征向量x1;对待检索文本样本提取特征,得到尺寸为d2×1的文本特征向量x2。
作为一个或多个实施例,所述S102中,基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;具体步骤包括:
S1021:通过一个标签嵌入模型将监督信息嵌入到哈希编码中,保持已有数据的哈希编码不变,只更新新来数据的哈希编码;
S1022:通过离散优化算法,求得多媒体训练样本的哈希编码。
作为一个或多个实施例,所述S1021具体步骤包括:
S10211:首先构建一个多媒体训练数据标签语义相似性块矩阵:
其中,每个矩阵块分别是已有图像-文本多媒体训练数据的成对相似性矩阵、已有图像-文本多媒体训练数据与新来图像-文本多媒体训练数据的相似性矩阵、新来图像-文本多媒体训练数据与已有图像-文本多媒体训练数据的相似性矩阵、新来图像-文本多媒体训练数据的成对相似性矩阵。
它们的定义如下:
S10212:通过非对称相似性嵌入与标签重构分别将图像-文本多媒体训练数据的语义相似性信息和标签信息嵌入到哈希编码中,并且保持已有图像-文本多媒体训练数据的哈希编码不变,只更新新来图像-文本多媒体训练数据的哈希编码。最终的标签嵌入在线哈希模型表示如下:
其中,α和β是平衡系数,γ是正则化项的惩罚系数。是已经生成的已有多媒体训练数据的二进制哈希编码,是要学习的新来多媒体训练数据的二进制哈希编码。r是哈希编码的位数。和分别是和的松弛变量。是一个用来减小信息损失的旋转矩阵。是将多媒体训练数据的哈希编码投影到多媒体训练数据标签矩阵的投影矩阵。I是单位矩阵,0是元素全为零的向量。
作为一个或多个实施例,所述S1022具体步骤包括:
S10222:更新变量P(t)。将公式(3)对P(t)的导数设为零,求得最优解为:
其中,
其中,
S10224:更新变量R(t)。当其它变量保持不变,进行如下矩阵分解:
其中,
求得最优的R(t)为:
其中,
S10226:重复步骤S10222~步骤S10225,直到收敛;
作为一个或多个实施例,所述S103中,根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;具体步骤包括:
用线性回归模型将多媒体训练数据的特征投影到哈希编码,模型表达为:
其中,
在第t轮,第m模态多媒体数据的哈希函数为:
作为一个或多个实施例,所述S104中,根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵,和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;具体步骤包括:
根据公式(20)的哈希函数求得待检索样本的哈希编码。
作为一个或多个实施例,所述S105中,计算待检索样本的哈希编码,与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本;具体步骤包括:
计算待检索图像样本或待检索文本样本的哈希编码与图像-文本多媒体训练集的哈希编码之间的海明距离,并对海明距离按照从小到大进行排序;
最后,按顺序输出图像-文本多媒体训练集中与待检索图像样本一致的文本模态样本或与待检索文本样本一致的图像模态样本,得到检索结果。
计算待检索图像样本或待检索文本样本的哈希编码,与图像-文本多媒体训练数据的哈希编码之间的海明距离,根据计算出的海明距离,从图像-文本多媒体训练数据中获取与待检索图像样本相似的文本样本或与待检索文本样本相似的图像样本。海明距离越小,表示从图像-文本多媒体训练数据中获取的样本与待检索图像样本或待检索文本样本越相似。
实施例二
本实施例提供了标签嵌入在线哈希的跨模态多媒体数据检索系统;
标签嵌入在线哈希的跨模态多媒体数据检索系统,包括:
获取模块,其被配置为:获取多媒体训练数据;根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;
构建模块,其被配置为:基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;
映射模块,其被配置为:根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;
计算模块,其被配置为:根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵,和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;
输出模块,其被配置为:计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本。
此处需要说明的是,上述获取模块、构建模块、映射模块、计算模块和输出模块对应于实施例一中的步骤S101至S105,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (9)
1.标签嵌入在线哈希的跨模态多媒体数据检索方法,其特征是,包括:
获取多媒体训练数据;根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;
基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;
根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;
根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵,和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;
计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本;
其中,根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;具体步骤包括:
用线性回归模型将多媒体训练数据的特征投影到哈希编码,模型可以表达为:
其中,
在第t轮,第m模态多媒体数据的哈希函数为:
2.如权利要求1所述的方法,其特征是,根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;具体步骤包括:
对多媒体训练数据进行语义标注,得到多媒体训练标签矩阵;
对多媒体训练数据进行不同模态的特征提取,得到多媒体训练数据不同模态的特征矩阵;对待检索样本进行不同模态的特征提取,得到待检索样本不同模态的特征矩阵。
5.如权利要求1所述的方法,其特征是,基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;具体步骤包括:
通过一个标签嵌入模型将监督信息嵌入到哈希编码中,保持已有数据的哈希编码不变,只更新新来数据的哈希编码;
通过离散优化算法,求得多媒体训练样本的哈希编码。
6.如权利要求5所述的方法,其特征是,计算待检索样本的哈希编码,与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本;具体步骤包括:
计算待检索样本的哈希编码与训练集的哈希编码之间的海明距离,并对海明距离按照从小到大进行排序;
最后,按顺序输出训练集中与待检索样本一致的另一个模态的样本,得到检索结果。
7.标签嵌入在线哈希的跨模态多媒体数据检索系统,其特征是,包括:
获取模块,其被配置为:获取多媒体训练数据;根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;
构建模块,其被配置为:基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;
映射模块,其被配置为:根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;
计算模块,其被配置为:根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵,和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;
输出模块,其被配置为:计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本;
其中,根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;具体步骤包括:
用线性回归模型将多媒体训练数据的特征投影到哈希编码,模型可以表达为:
其中,
在第t轮,第m模态多媒体数据的哈希函数为:
8.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010466838.5A CN111639197B (zh) | 2020-05-28 | 2020-05-28 | 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010466838.5A CN111639197B (zh) | 2020-05-28 | 2020-05-28 | 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111639197A CN111639197A (zh) | 2020-09-08 |
CN111639197B true CN111639197B (zh) | 2021-03-12 |
Family
ID=72330361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010466838.5A Active CN111639197B (zh) | 2020-05-28 | 2020-05-28 | 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639197B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287694A (zh) * | 2020-09-18 | 2021-01-29 | 昆明理工大学 | 基于共享编码器的汉越无监督神经机器翻译方法 |
CN113177130B (zh) * | 2021-06-09 | 2022-04-08 | 山东科技大学 | 基于二值语义嵌入的图像检索和识别方法和装置 |
CN113312505B (zh) * | 2021-07-29 | 2021-11-02 | 山东大学 | 一种基于离散在线哈希学习的跨模态检索方法及系统 |
CN113326287B (zh) * | 2021-08-04 | 2021-11-02 | 山东大学 | 一种使用三步策略的在线跨模态检索方法及系统 |
CN114003635B (zh) * | 2021-09-27 | 2023-01-31 | 中国科学院自动化研究所 | 一种推荐信息获取方法、装置、设备及产品 |
CN114186084B (zh) * | 2021-12-14 | 2022-08-26 | 山东大学 | 在线多模态哈希检索方法、系统、存储介质及设备 |
CN114579046B (zh) * | 2022-01-21 | 2024-01-02 | 南华大学 | 一种云存储相似数据检测方法和系统 |
CN114117153B (zh) * | 2022-01-25 | 2022-05-24 | 山东建筑大学 | 一种基于相似度重学习的在线跨模态检索方法及系统 |
CN115098721B (zh) * | 2022-08-23 | 2022-11-01 | 浙江大华技术股份有限公司 | 一种人脸特征检索方法、装置及电子设备 |
CN116825210B (zh) * | 2023-08-28 | 2023-11-17 | 山东大学 | 基于多源生物数据的哈希检索方法、系统、设备和介质 |
CN118093907B (zh) * | 2024-04-22 | 2024-07-02 | 山东建筑大学 | 融合相似性的在线哈希多媒体数据跨模态检索方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894170A (zh) * | 2010-08-13 | 2010-11-24 | 武汉大学 | 基于语义关联网络的跨模信息检索方法 |
CN104346440A (zh) * | 2014-10-10 | 2015-02-11 | 浙江大学 | 一种基于神经网络的跨媒体哈希索引方法 |
CN106547826A (zh) * | 2016-09-30 | 2017-03-29 | 西安电子科技大学 | 一种跨模态检索方法、装置及计算机可读介质 |
CN107871014A (zh) * | 2017-11-23 | 2018-04-03 | 清华大学 | 一种基于深度融合哈希的大数据跨模态检索方法及系统 |
CN108595688A (zh) * | 2018-05-08 | 2018-09-28 | 鲁东大学 | 基于在线学习的潜在语义跨媒体哈希检索方法 |
CN109446347A (zh) * | 2018-10-29 | 2019-03-08 | 山东师范大学 | 一种有监督的快速离散多模态哈希检索方法和系统 |
CN109766481A (zh) * | 2019-01-11 | 2019-05-17 | 西安电子科技大学 | 基于协同矩阵分解的在线哈希跨模态信息检索方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8375021B2 (en) * | 2010-04-26 | 2013-02-12 | Microsoft Corporation | Search engine data structure |
CN103049526B (zh) * | 2012-12-20 | 2015-08-05 | 中国科学院自动化研究所 | 基于双空间学习的跨媒体检索方法 |
US20150169682A1 (en) * | 2013-10-18 | 2015-06-18 | Google Inc. | Hash Learning |
CN104899253B (zh) * | 2015-05-13 | 2018-06-26 | 复旦大学 | 面向社会图像的跨模态图像-标签相关度学习方法 |
CN107729513B (zh) * | 2017-10-25 | 2020-12-01 | 鲁东大学 | 基于语义对齐的离散监督跨模态哈希检索方法 |
CN110019652B (zh) * | 2019-03-14 | 2022-06-03 | 九江学院 | 一种基于深度学习的跨模态哈希检索方法 |
CN110059198B (zh) * | 2019-04-08 | 2021-04-13 | 浙江大学 | 一种基于相似性保持的跨模态数据的离散哈希检索方法 |
CN110188209B (zh) * | 2019-05-13 | 2021-06-04 | 山东大学 | 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置 |
-
2020
- 2020-05-28 CN CN202010466838.5A patent/CN111639197B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894170A (zh) * | 2010-08-13 | 2010-11-24 | 武汉大学 | 基于语义关联网络的跨模信息检索方法 |
CN104346440A (zh) * | 2014-10-10 | 2015-02-11 | 浙江大学 | 一种基于神经网络的跨媒体哈希索引方法 |
CN106547826A (zh) * | 2016-09-30 | 2017-03-29 | 西安电子科技大学 | 一种跨模态检索方法、装置及计算机可读介质 |
CN107871014A (zh) * | 2017-11-23 | 2018-04-03 | 清华大学 | 一种基于深度融合哈希的大数据跨模态检索方法及系统 |
CN108595688A (zh) * | 2018-05-08 | 2018-09-28 | 鲁东大学 | 基于在线学习的潜在语义跨媒体哈希检索方法 |
CN109446347A (zh) * | 2018-10-29 | 2019-03-08 | 山东师范大学 | 一种有监督的快速离散多模态哈希检索方法和系统 |
CN109766481A (zh) * | 2019-01-11 | 2019-05-17 | 西安电子科技大学 | 基于协同矩阵分解的在线哈希跨模态信息检索方法 |
Non-Patent Citations (2)
Title |
---|
A Multimedia Information Retrieval Method Based on Cross-Modal Hashing;Wang Xin;《2020 12th International Conference on Measuring Technology and Mechatronics Automation (ICMTMA)》;20200229;675-678 * |
基于哈希学习的大规模媒体检索研究;罗昕;《中国博士学位论文全文数据库 信息科技辑》;20190915(第09期);I138-59 * |
Also Published As
Publication number | Publication date |
---|---|
CN111639197A (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639197B (zh) | 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统 | |
Tang et al. | Supervised matrix factorization hashing for cross-modal retrieval | |
Cakir et al. | Online supervised hashing | |
CN111461157B (zh) | 一种基于自学习的跨模态哈希检索方法 | |
CN113326289B (zh) | 面向携带新类别的增量数据的快速跨模态检索方法及系统 | |
Huang et al. | Object-location-aware hashing for multi-label image retrieval via automatic mask learning | |
CN114117153B (zh) | 一种基于相似度重学习的在线跨模态检索方法及系统 | |
CN112101031B (zh) | 一种实体识别方法、终端设备及存储介质 | |
CN114186084B (zh) | 在线多模态哈希检索方法、系统、存储介质及设备 | |
CN109522432B (zh) | 一种融合自适应相似度和贝叶斯框架的图像检索方法 | |
CN113849653A (zh) | 一种文本分类方法及装置 | |
CN115795065A (zh) | 基于带权哈希码的多媒体数据跨模态检索方法及系统 | |
CN113486945A (zh) | 一种基于图嵌入和特征降维的多标记学习方法 | |
Zareapoor et al. | Deep semantic preserving hashing for large scale image retrieval | |
CN111930972B (zh) | 利用标签层次信息的多媒体数据跨模态检索方法及系统 | |
CN118196472A (zh) | 基于条件域提示学习提高复杂多样数据分布的识别方法 | |
Vieira et al. | A novel content-based image retrieval system with feature descriptor integration and accuracy noise reduction | |
CN114138971A (zh) | 一种基于遗传算法的极大多标签分类方法 | |
CN115797642B (zh) | 基于一致性正则化与半监督领域自适应图像语义分割算法 | |
CN116069985A (zh) | 一种基于标签语义增强的鲁棒在线跨模态哈希检索方法 | |
CN116756605A (zh) | 一种基于ernie_cn-gru语步自动识别方法、系统、设备及介质 | |
Ding et al. | kNN hashing with factorized neighborhood representation | |
CN115100433A (zh) | 基于标记增强的社交多媒体数据的跨模态检索方法及系统 | |
Bibi et al. | Deep features optimization based on a transfer learning, genetic algorithm, and extreme learning machine for robust content-based image retrieval | |
CN112364192B (zh) | 一种基于集成学习的零样本哈希检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |