CN111639197B - 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统 - Google Patents

标签嵌入在线哈希的跨模态多媒体数据检索方法及系统 Download PDF

Info

Publication number
CN111639197B
CN111639197B CN202010466838.5A CN202010466838A CN111639197B CN 111639197 B CN111639197 B CN 111639197B CN 202010466838 A CN202010466838 A CN 202010466838A CN 111639197 B CN111639197 B CN 111639197B
Authority
CN
China
Prior art keywords
training data
multimedia training
multimedia
sample
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010466838.5A
Other languages
English (en)
Other versions
CN111639197A (zh
Inventor
许信顺
王永欣
罗昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010466838.5A priority Critical patent/CN111639197B/zh
Publication of CN111639197A publication Critical patent/CN111639197A/zh
Application granted granted Critical
Publication of CN111639197B publication Critical patent/CN111639197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了标签嵌入在线哈希的跨模态多媒体数据检索方法及系统,根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中求取多媒体训练数据的哈希编码;根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;根据投影矩阵和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,从多媒体训练数据中获取与待检索样本相似的样本。

Description

标签嵌入在线哈希的跨模态多媒体数据检索方法及系统
技术领域
本公开涉及多媒体数据处理技术领域,特别是涉及标签嵌入在线哈希的跨模态多媒体数据检索方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
最近邻检索(NN)就是根据数据的相似性,从数据库中寻找与目标数据最相似的项目。这种相似性通常被量化到数据之间的欧式距离或曼哈顿距离。然而,随着互联网多媒体数据在尺度和维度上的爆炸式增长,NN变得不可计算。近似最近邻搜索(ANN)作为一种效率和精度折中的方案,逐渐代替NN被用于大规模多媒体检索任务中。其中,哈希学习作为一种典型的ANN算法被广泛关注。它旨在将高维的数据映射到能够保持原始相似性的低维海明空间中,然后通过计算海明距离进行高效的搜索。根据是否利用监督信息,现有的哈希方法大致可以分为无监督哈希、半监督哈希、监督哈希。其中,监督哈希利用高层次语义信息,解决了多媒体数据的语义鸿沟问题,因此总是能取得比无监督方法好的性能。
互联中的多媒体数据通常包含多个异构的模态(图像、文本等),用户对不同模态数据间的检索需求与日俱增,例如用图像检索文本、用文本检索图像。跨模态检索旨在将不同模态的数据映射到一个公共空间,然后进行相似搜索。结合哈希学习,有许多跨模态哈希方法被提出。
在实际应用中,数据通常是以数据流的形式收集到的。当新数据到来后,传统的基于批处理的哈希方法(所有训练数据必须一次性到位)只能用所有数据重新训练模型,这显然是非常低效的。而且,随着时间的流逝,数据库的规模越来越大,批处理哈希的计算复杂度也变得不可接受。所以,研究在线哈希方法在跨模态检索领域有非常大的意义。然而,现有的哈希方法大多是基于批处理的,很少有在线哈希方法被提出,导致跨模态的多媒体数据检索效率低下且准确率也比较低。
发明内容
为了解决现有技术的不足,本公开提供了标签嵌入在线哈希的跨模态多媒体数据检索方法及系统;该方法提高了模型的泛化能力,而且对数据流的搜索在效率和准确率上有很大的提高。
第一方面,本公开提供了标签嵌入在线哈希的跨模态多媒体数据检索方法;
标签嵌入在线哈希的跨模态多媒体数据检索方法,包括:
获取多媒体训练数据;根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;
基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;
根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;
根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵,和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;
计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本。
第二方面,本公开提供了标签嵌入在线哈希的跨模态多媒体数据检索系统;
标签嵌入在线哈希的跨模态多媒体数据检索系统,包括:
获取模块,其被配置为:获取多媒体训练数据;根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;
构建模块,其被配置为:基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;
映射模块,其被配置为:根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;
计算模块,其被配置为:根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵,和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;
输出模块,其被配置为:计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本。
第三方面,本公开还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本公开还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本公开的有益效果是:
(1)本公开可以高效地对数据流进行在线哈希学习,大大提高了学习效率,并且降低了计算复杂度;
(2)在更新哈希码和哈希函数时,可以充分利用已有数据和新来数据,可以大大提升哈希编码和哈希函数的判别性和鲁棒性;
(3)在将数据转化为二进制编码时,通过标签嵌入充分考虑丰富的语义相似性,解决了异构模态数据间的鸿沟,可以实现有效的跨模态检索;
(4)使用该方法对数据进行二进制转化后,可以大大提高数据的检索速度,并且降低数据的存储空间。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为第一个实施例的方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了标签嵌入在线哈希的跨模态多媒体数据检索方法;
如图1所示,标签嵌入在线哈希的跨模态多媒体数据检索方法,包括:
S101:获取多媒体训练数据;根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;
S102:基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;
S103:根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;
S104:根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵,和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;
S105:计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本。
应理解的,所述S101中,获取多媒体训练数据,包括:通过摄像头采集图像、通过键盘采集文本等。
应理解的,所述S101中,获取待检索样本,例如包括:图像、文本等。
作为一个或多个实施例,所述S101中,根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;具体步骤包括:
对多媒体训练数据进行语义标注,得到多媒体训练标签矩阵;
对多媒体训练数据进行不同模态的特征提取,得到多媒体训练数据不同模态的特征矩阵;对待检索样本进行不同模态的特征提取,得到待检索样本不同模态的特征矩阵。
示例性的,所述语义标注,是指:人工对每个多媒体数据样本的语义类别进行标注。
示例性的,所述多媒体训练标签矩阵,例如:假设多媒体数据总共有2个类别(图像、文本),每个样本的标签被表示为3维的列向量,如果样本属于某个类,标签向量在对应位置上的值为1,否则为0。两个样本构成3×2的标签矩阵
Figure BDA0002512944800000061
示例性的,所述不同模态的特征提取,例如:对图像提取图像的颜色特征、纹理特征、灰度特征、像素特征或纹理特征等,对文本进行词向量化处理,提取文本的词频逆向文件频率(TF-IDF)等。
示例性的,所述多媒体训练数据不同模态的特征矩阵,例如:
图像模态的每个样本由4维的列向量表示,构成尺寸为4×2的图像模态特征矩阵
Figure BDA0002512944800000071
文本模态的每个样本由8维的列向量表示,构成尺寸为8×2的文本模态特征矩阵
Figure BDA0002512944800000072
作为一个或多个实施例,所述对多媒体训练数据进行语义标注,得到多媒体训练标签矩阵;具体步骤包括:
在第t轮,一个新的多媒体训练数据块到达,该数据块包含nt个样本;
例如:所述多媒体训练数据块,是指:图像与文本一一对应的多媒体训练数据;
例如:所述样本,是指:图像与文本一一对应的样本;
数据库中已有多媒体训练数据样本Nt-1个,其中,
Figure BDA0002512944800000073
是前t-1轮到达样本的总个数;
例如:所述已有多媒体训练数据样本,是指:已有图像与文本一一对应的多媒体训练数据样本;
假设已有的多媒体训练数据的标签矩阵是
Figure BDA0002512944800000074
每个样本的标签信息表示为c×1的向量,如果样本包含某个标签,标签向量中对应位置为1,否则为0;
例如:已有的多媒体训练数据的标签矩阵,是指:已有的图像-文本多媒体训练数据的标签矩阵;
例如:每个样本的标签信息,是指:图像-文本样本包含某个标签;
对新来的多媒体训练数据进行语义标注,得到一个标签矩阵(例如:新来的图像-文本多媒体训练数据进行语义标注,得到一个图像-文本的标签矩阵):
Figure BDA0002512944800000081
将新来的多媒体训练数据入库,现在完整数据库的标签矩阵是(例如:新来的图像-文本多媒体训练数据入库,现在完整的图像-文本数据库的标签矩阵是):
Figure BDA0002512944800000082
其中,Nt=Nt-1+nt
作为一个或多个实施例,所述对多媒体训练数据进行不同模态的特征提取,得到多媒体训练数据不同模态的特征矩阵;对待检索样本进行不同模态的特征提取,得到待检索样本不同模态的特征矩阵;具体步骤包括:
已有的多媒体训练数据包含l个模态(例:已有的图像-文本多媒体训练数据包含2个模态),对应图像模态特征矩阵
Figure BDA0002512944800000083
文本模态特征矩阵
Figure BDA0002512944800000084
其中,d1表示图像提取特征的维数,d2表示文本提取特征的维数;
对新来的多媒体训练数据提取特征(例如:新来的图像-文本多媒体训练数据提取特征),得到新来图像的特征矩阵
Figure BDA0002512944800000085
新来文本的特征矩阵
Figure BDA0002512944800000086
将新来的多媒体训练数据入库,现在完整数据库的特征矩阵(例如:现在完整的图像-文本数据库的特征矩阵)是图像模态特征矩阵
Figure BDA0002512944800000087
文本模态特征矩阵
Figure BDA0002512944800000088
对待检索图像样本也提取特征,得到尺寸为d1×1的图像特征向量x1;对待检索文本样本提取特征,得到尺寸为d2×1的文本特征向量x2
作为一个或多个实施例,所述S102中,基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;具体步骤包括:
S1021:通过一个标签嵌入模型将监督信息嵌入到哈希编码中,保持已有数据的哈希编码不变,只更新新来数据的哈希编码;
S1022:通过离散优化算法,求得多媒体训练样本的哈希编码。
作为一个或多个实施例,所述S1021具体步骤包括:
S10211:首先构建一个多媒体训练数据标签语义相似性块矩阵:
Figure BDA0002512944800000091
其中,每个矩阵块分别是已有图像-文本多媒体训练数据的成对相似性矩阵、已有图像-文本多媒体训练数据与新来图像-文本多媒体训练数据的相似性矩阵、新来图像-文本多媒体训练数据与已有图像-文本多媒体训练数据的相似性矩阵、新来图像-文本多媒体训练数据的成对相似性矩阵。
它们的定义如下:
Figure BDA0002512944800000092
其中,
Figure BDA0002512944800000093
Figure BDA0002512944800000094
分别是按列L2范数归一化的已有多媒体训练数据标签矩阵
Figure BDA0002512944800000095
和新来多媒体训练数据标签矩阵
Figure BDA0002512944800000096
1是元素全为一的列向量。
S10212:通过非对称相似性嵌入与标签重构分别将图像-文本多媒体训练数据的语义相似性信息和标签信息嵌入到哈希编码中,并且保持已有图像-文本多媒体训练数据的哈希编码不变,只更新新来图像-文本多媒体训练数据的哈希编码。最终的标签嵌入在线哈希模型表示如下:
Figure BDA0002512944800000097
其中,α和β是平衡系数,γ是正则化项的惩罚系数。
Figure BDA0002512944800000101
是已经生成的已有多媒体训练数据的二进制哈希编码,
Figure BDA0002512944800000102
是要学习的新来多媒体训练数据的二进制哈希编码。r是哈希编码的位数。
Figure BDA0002512944800000103
Figure BDA0002512944800000104
分别是
Figure BDA0002512944800000105
Figure BDA0002512944800000106
的松弛变量。
Figure BDA0002512944800000107
是一个用来减小信息损失的旋转矩阵。
Figure BDA0002512944800000108
是将多媒体训练数据的哈希编码投影到多媒体训练数据标签矩阵的投影矩阵。I是单位矩阵,0是元素全为零的向量。
作为一个或多个实施例,所述S1022具体步骤包括:
S10221:用标准正态分布随机初始化
Figure BDA0002512944800000109
P(t)
S10222:更新变量P(t)。将公式(3)对P(t)的导数设为零,求得最优解为:
Figure BDA00025129448000001010
其中,
Figure BDA00025129448000001011
S10223:更新变量
Figure BDA00025129448000001012
当变量
Figure BDA00025129448000001013
P(t)、R(t)保持不变,结合约束条件
Figure BDA00025129448000001014
I和
Figure BDA00025129448000001015
公式(3)可简化为矩阵迹的形式:
Figure BDA00025129448000001016
结合公式(2)中定义的
Figure BDA00025129448000001017
Figure BDA00025129448000001018
Z可以表达为:
Figure BDA00025129448000001019
其中,
Figure BDA00025129448000001020
定义
Figure BDA00025129448000001021
并且对
Figure BDA00025129448000001023
进行奇异值分解:
Figure BDA00025129448000001022
求得最优的
Figure BDA0002512944800000111
为:
Figure BDA0002512944800000112
其中,
Figure BDA0002512944800000113
是正交化的
Figure BDA00025129448000001118
是正交化的随机矩阵。r′是
Figure BDA00025129448000001119
的秩,如果r′=r,
Figure BDA0002512944800000116
Figure BDA0002512944800000117
为空。
S10224:更新变量R(t)。当其它变量保持不变,进行如下矩阵分解:
Figure BDA0002512944800000118
其中,
Figure BDA0002512944800000119
求得最优的R(t)为:
Figure BDA00025129448000001110
S10225:更新变量
Figure BDA00025129448000001111
固定除
Figure BDA00025129448000001112
外的所有变量,公式(3)转化为如下问题:
Figure BDA00025129448000001113
求得最优的
Figure BDA00025129448000001114
为:
Figure BDA00025129448000001115
其中,
Figure BDA00025129448000001116
S10226:重复步骤S10222~步骤S10225,直到收敛;
上述所有的变量
Figure BDA00025129448000001117
都是在第t-1轮得到的。
作为一个或多个实施例,所述S103中,根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;具体步骤包括:
用线性回归模型将多媒体训练数据的特征投影到哈希编码,模型表达为:
Figure BDA0002512944800000121
其中,
Figure BDA0002512944800000122
为要学习的哈希函数的投影矩阵,它的解为:
Figure BDA0002512944800000123
其中,
Figure BDA0002512944800000124
上述所有的变量
Figure BDA0002512944800000125
Figure BDA0002512944800000126
都是在第t-1轮得到的。
在第t轮,第m模态多媒体数据的哈希函数为:
Figure BDA0002512944800000127
作为一个或多个实施例,所述S104中,根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵,和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;具体步骤包括:
根据公式(20)的哈希函数求得待检索样本的哈希编码。
作为一个或多个实施例,所述S105中,计算待检索样本的哈希编码,与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本;具体步骤包括:
计算待检索图像样本或待检索文本样本的哈希编码与图像-文本多媒体训练集的哈希编码之间的海明距离,并对海明距离按照从小到大进行排序;
最后,按顺序输出图像-文本多媒体训练集中与待检索图像样本一致的文本模态样本或与待检索文本样本一致的图像模态样本,得到检索结果。
计算待检索图像样本或待检索文本样本的哈希编码,与图像-文本多媒体训练数据的哈希编码之间的海明距离,根据计算出的海明距离,从图像-文本多媒体训练数据中获取与待检索图像样本相似的文本样本或与待检索文本样本相似的图像样本。海明距离越小,表示从图像-文本多媒体训练数据中获取的样本与待检索图像样本或待检索文本样本越相似。
实施例二
本实施例提供了标签嵌入在线哈希的跨模态多媒体数据检索系统;
标签嵌入在线哈希的跨模态多媒体数据检索系统,包括:
获取模块,其被配置为:获取多媒体训练数据;根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;
构建模块,其被配置为:基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;
映射模块,其被配置为:根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;
计算模块,其被配置为:根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵,和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;
输出模块,其被配置为:计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本。
此处需要说明的是,上述获取模块、构建模块、映射模块、计算模块和输出模块对应于实施例一中的步骤S101至S105,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (9)

1.标签嵌入在线哈希的跨模态多媒体数据检索方法,其特征是,包括:
获取多媒体训练数据;根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;
基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;
根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;
根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵,和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;
计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本;
其中,根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;具体步骤包括:
用线性回归模型将多媒体训练数据的特征投影到哈希编码,模型可以表达为:
Figure FDA0002923712430000011
其中,
Figure FDA0002923712430000012
为要学习的哈希函数的投影矩阵,它的解为:
Figure FDA0002923712430000013
其中,
Figure FDA0002923712430000014
上述所有的变量
Figure FDA0002923712430000015
Figure FDA0002923712430000016
都是在第t-1轮得到的;
在第t轮,第m模态多媒体数据的哈希函数为:
Figure FDA0002923712430000021
这里,
Figure FDA0002923712430000022
是多媒体训练数据对应的特征矩阵;
Figure FDA0002923712430000023
是新来多媒体训练数据的特征矩阵;xm是多媒体训练数据的特征向量;
Figure FDA0002923712430000024
是已经生成的已有多媒体训练数据的二进制哈希编码;
Figure FDA0002923712430000025
是要学习的新来多媒体训练数据的二进制哈希编码。
2.如权利要求1所述的方法,其特征是,根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;具体步骤包括:
对多媒体训练数据进行语义标注,得到多媒体训练标签矩阵;
对多媒体训练数据进行不同模态的特征提取,得到多媒体训练数据不同模态的特征矩阵;对待检索样本进行不同模态的特征提取,得到待检索样本不同模态的特征矩阵。
3.如权利要求2所述的方法,其特征是,所述对多媒体训练数据进行语义标注,得到多媒体训练标签矩阵;具体步骤包括:
在第t轮,一个新的多媒体训练数据块到达,该数据块包含nt个样本;
数据库中已有多媒体训练数据样本Nt-1个,其中,
Figure FDA0002923712430000026
是前t-1轮到达样本的总个数;
假设已有的多媒体训练数据的标签矩阵是
Figure FDA0002923712430000027
每个样本的标签信息表示为c×1的向量,如果样本包含某个标签,标签向量中对应位置为1,否则为0;
对新来的多媒体训练数据进行语义标注,得到一个标签矩阵:
Figure FDA0002923712430000031
将新来的多媒体训练数据入库,现在完整数据库的标签矩阵是:
Figure FDA0002923712430000032
其中,Nt=Nt-1+nt
4.如权利要求2所述的方法,其特征是,所述对多媒体训练数据进行不同模态的特征提取,得到多媒体训练数据不同模态的特征矩阵;对待检索样本进行不同模态的特征提取,得到待检索样本不同模态的特征矩阵;具体步骤包括:
假设已有的多媒体训练数据包含l个模态,第m模态对应一个特征矩阵
Figure FDA0002923712430000033
其中,dm表示提取特征的维数;
对新来的多媒体训练数据提取特征,得到新来的多媒体训练数据的特征矩阵
Figure FDA0002923712430000034
将新来的多媒体训练数据入库,现在完整数据库的特征矩阵是
Figure FDA0002923712430000035
其中,m∈{1,...,l};
对第m模态的待检索样本也提取特征,得到尺寸为dm×1的特征向量xm
5.如权利要求1所述的方法,其特征是,基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;具体步骤包括:
通过一个标签嵌入模型将监督信息嵌入到哈希编码中,保持已有数据的哈希编码不变,只更新新来数据的哈希编码;
通过离散优化算法,求得多媒体训练样本的哈希编码。
6.如权利要求5所述的方法,其特征是,计算待检索样本的哈希编码,与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本;具体步骤包括:
计算待检索样本的哈希编码与训练集的哈希编码之间的海明距离,并对海明距离按照从小到大进行排序;
最后,按顺序输出训练集中与待检索样本一致的另一个模态的样本,得到检索结果。
7.标签嵌入在线哈希的跨模态多媒体数据检索系统,其特征是,包括:
获取模块,其被配置为:获取多媒体训练数据;根据多媒体训练数据,获取多媒体训练标签矩阵、多媒体训练数据不同模态的特征矩阵和待检索样本不同模态的特征矩阵;
构建模块,其被配置为:基于多媒体训练标签矩阵,构建标签语义相似块矩阵;将标签语义相似块矩阵,嵌入到海明空间中,求取多媒体训练数据的哈希编码;
映射模块,其被配置为:根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;
计算模块,其被配置为:根据多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵,和待检索样本不同模态的特征矩阵,得到待检索样本的哈希编码;
输出模块,其被配置为:计算待检索样本的哈希编码与多媒体训练数据的哈希编码之间的距离,根据计算出的距离,从多媒体训练数据中获取与待检索样本相似的样本;
其中,根据多媒体训练数据的哈希编码和多媒体训练数据不同模态的特征矩阵,求取多媒体训练数据每个模态特征映射到多媒体训练数据哈希编码的投影矩阵;具体步骤包括:
用线性回归模型将多媒体训练数据的特征投影到哈希编码,模型可以表达为:
Figure FDA0002923712430000051
其中,
Figure FDA0002923712430000052
为要学习的哈希函数的投影矩阵,它的解为:
Figure FDA0002923712430000053
其中,
Figure FDA0002923712430000054
上述所有的变量
Figure FDA0002923712430000055
Figure FDA0002923712430000056
都是在第t-1轮得到的;
在第t轮,第m模态多媒体数据的哈希函数为:
Figure FDA0002923712430000057
这里,
Figure FDA0002923712430000058
是多媒体训练数据对应的特征矩阵;
Figure FDA0002923712430000059
是新来多媒体训练数据的特征矩阵;xm是多媒体训练数据的特征向量;
Figure FDA00029237124300000510
是已经生成的已有多媒体训练数据的二进制哈希编码;
Figure FDA00029237124300000511
是要学习的新来多媒体训练数据的二进制哈希编码。
8.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-6任一项所述的方法。
CN202010466838.5A 2020-05-28 2020-05-28 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统 Active CN111639197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010466838.5A CN111639197B (zh) 2020-05-28 2020-05-28 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010466838.5A CN111639197B (zh) 2020-05-28 2020-05-28 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统

Publications (2)

Publication Number Publication Date
CN111639197A CN111639197A (zh) 2020-09-08
CN111639197B true CN111639197B (zh) 2021-03-12

Family

ID=72330361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010466838.5A Active CN111639197B (zh) 2020-05-28 2020-05-28 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统

Country Status (1)

Country Link
CN (1) CN111639197B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287694A (zh) * 2020-09-18 2021-01-29 昆明理工大学 基于共享编码器的汉越无监督神经机器翻译方法
CN113177130B (zh) * 2021-06-09 2022-04-08 山东科技大学 基于二值语义嵌入的图像检索和识别方法和装置
CN113312505B (zh) * 2021-07-29 2021-11-02 山东大学 一种基于离散在线哈希学习的跨模态检索方法及系统
CN113326287B (zh) * 2021-08-04 2021-11-02 山东大学 一种使用三步策略的在线跨模态检索方法及系统
CN114003635B (zh) * 2021-09-27 2023-01-31 中国科学院自动化研究所 一种推荐信息获取方法、装置、设备及产品
CN114186084B (zh) * 2021-12-14 2022-08-26 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN114579046B (zh) * 2022-01-21 2024-01-02 南华大学 一种云存储相似数据检测方法和系统
CN114117153B (zh) * 2022-01-25 2022-05-24 山东建筑大学 一种基于相似度重学习的在线跨模态检索方法及系统
CN115098721B (zh) * 2022-08-23 2022-11-01 浙江大华技术股份有限公司 一种人脸特征检索方法、装置及电子设备
CN116825210B (zh) * 2023-08-28 2023-11-17 山东大学 基于多源生物数据的哈希检索方法、系统、设备和介质
CN118093907B (zh) * 2024-04-22 2024-07-02 山东建筑大学 融合相似性的在线哈希多媒体数据跨模态检索方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894170A (zh) * 2010-08-13 2010-11-24 武汉大学 基于语义关联网络的跨模信息检索方法
CN104346440A (zh) * 2014-10-10 2015-02-11 浙江大学 一种基于神经网络的跨媒体哈希索引方法
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN108595688A (zh) * 2018-05-08 2018-09-28 鲁东大学 基于在线学习的潜在语义跨媒体哈希检索方法
CN109446347A (zh) * 2018-10-29 2019-03-08 山东师范大学 一种有监督的快速离散多模态哈希检索方法和系统
CN109766481A (zh) * 2019-01-11 2019-05-17 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8375021B2 (en) * 2010-04-26 2013-02-12 Microsoft Corporation Search engine data structure
CN103049526B (zh) * 2012-12-20 2015-08-05 中国科学院自动化研究所 基于双空间学习的跨媒体检索方法
US20150169682A1 (en) * 2013-10-18 2015-06-18 Google Inc. Hash Learning
CN104899253B (zh) * 2015-05-13 2018-06-26 复旦大学 面向社会图像的跨模态图像-标签相关度学习方法
CN107729513B (zh) * 2017-10-25 2020-12-01 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN110019652B (zh) * 2019-03-14 2022-06-03 九江学院 一种基于深度学习的跨模态哈希检索方法
CN110059198B (zh) * 2019-04-08 2021-04-13 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN110188209B (zh) * 2019-05-13 2021-06-04 山东大学 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894170A (zh) * 2010-08-13 2010-11-24 武汉大学 基于语义关联网络的跨模信息检索方法
CN104346440A (zh) * 2014-10-10 2015-02-11 浙江大学 一种基于神经网络的跨媒体哈希索引方法
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN108595688A (zh) * 2018-05-08 2018-09-28 鲁东大学 基于在线学习的潜在语义跨媒体哈希检索方法
CN109446347A (zh) * 2018-10-29 2019-03-08 山东师范大学 一种有监督的快速离散多模态哈希检索方法和系统
CN109766481A (zh) * 2019-01-11 2019-05-17 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Multimedia Information Retrieval Method Based on Cross-Modal Hashing;Wang Xin;《2020 12th International Conference on Measuring Technology and Mechatronics Automation (ICMTMA)》;20200229;675-678 *
基于哈希学习的大规模媒体检索研究;罗昕;《中国博士学位论文全文数据库 信息科技辑》;20190915(第09期);I138-59 *

Also Published As

Publication number Publication date
CN111639197A (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN111639197B (zh) 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统
Tang et al. Supervised matrix factorization hashing for cross-modal retrieval
Cakir et al. Online supervised hashing
CN111461157B (zh) 一种基于自学习的跨模态哈希检索方法
CN113326289B (zh) 面向携带新类别的增量数据的快速跨模态检索方法及系统
Huang et al. Object-location-aware hashing for multi-label image retrieval via automatic mask learning
CN114117153B (zh) 一种基于相似度重学习的在线跨模态检索方法及系统
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
CN114186084B (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN109522432B (zh) 一种融合自适应相似度和贝叶斯框架的图像检索方法
CN113849653A (zh) 一种文本分类方法及装置
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN113486945A (zh) 一种基于图嵌入和特征降维的多标记学习方法
Zareapoor et al. Deep semantic preserving hashing for large scale image retrieval
CN111930972B (zh) 利用标签层次信息的多媒体数据跨模态检索方法及系统
CN118196472A (zh) 基于条件域提示学习提高复杂多样数据分布的识别方法
Vieira et al. A novel content-based image retrieval system with feature descriptor integration and accuracy noise reduction
CN114138971A (zh) 一种基于遗传算法的极大多标签分类方法
CN115797642B (zh) 基于一致性正则化与半监督领域自适应图像语义分割算法
CN116069985A (zh) 一种基于标签语义增强的鲁棒在线跨模态哈希检索方法
CN116756605A (zh) 一种基于ernie_cn-gru语步自动识别方法、系统、设备及介质
Ding et al. kNN hashing with factorized neighborhood representation
CN115100433A (zh) 基于标记增强的社交多媒体数据的跨模态检索方法及系统
Bibi et al. Deep features optimization based on a transfer learning, genetic algorithm, and extreme learning machine for robust content-based image retrieval
CN112364192B (zh) 一种基于集成学习的零样本哈希检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant