CN113326289A - 面向携带新类别的增量数据的快速跨模态检索方法及系统 - Google Patents

面向携带新类别的增量数据的快速跨模态检索方法及系统 Download PDF

Info

Publication number
CN113326289A
CN113326289A CN202110878050.XA CN202110878050A CN113326289A CN 113326289 A CN113326289 A CN 113326289A CN 202110878050 A CN202110878050 A CN 202110878050A CN 113326289 A CN113326289 A CN 113326289A
Authority
CN
China
Prior art keywords
hash
incremental
learning
label
incremental data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110878050.XA
Other languages
English (en)
Other versions
CN113326289B (zh
Inventor
罗昕
孙钰
詹雨薇
许信顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110878050.XA priority Critical patent/CN113326289B/zh
Publication of CN113326289A publication Critical patent/CN113326289A/zh
Application granted granted Critical
Publication of CN113326289B publication Critical patent/CN113326289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了面向携带新类别的增量数据的快速跨模态检索方法及系统,包括:增量哈希学习步骤:从多媒体已知类别数据库存储的已知哈希码中提取已知类别标签的二值表示,然后根据已有类别标签与未知类别标签的相似性关系,获取未知类别标签的二值表示,用来监督增量类别数据库中增量数据的哈希码的生成;哈希函数学习步骤:在哈希函数的学习过程中,从已知类别数据库及增量类别数据库中通过抽样获取锚点集,基于该锚点集采用非对称策略更新深度网络的参数,进行哈希函数的学习,获得所需模型。可以在保持原有数据的哈希码不变的情况下直接学习未知增量类数据的哈希码,从而可以满足快速训练的模式要求。

Description

面向携带新类别的增量数据的快速跨模态检索方法及系统
技术领域
本发明属于跨模态检索、深度学习技术领域,尤其涉及面向携带新类别的增量数据的快速跨模态检索方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着互联网的发展,由各种智能终端设备和网站产生的图像、文本、视频、音频等多媒体数据呈现爆炸式增长趋势。面对这些丰富的海量多媒体数据,如何在庞大的数据库中根据用户需求在多模态数据之间进行快速准确的检索,是多媒体信息检索研究的热点。因此,跨模态检索应运而生,其主要目的是使用一种模态的查询数据去检索数据库中与之相似的另一种模态的数据,例如可以使用图片检索文本信息。其中,基于哈希的跨模态检索方法凭借其较小的存储消耗和快速的查询速度可以解决大规模数据检索所面临的问题,它可以将原始空间中的海量高维多媒体数据映射为海明空间中紧凑的二进制哈希码,同时保持数据之间的相似性,即原始空间中相似的样本在海明空间中依然相似。使用二值哈希码表示高维数据不仅有益于压缩存储空间,还可以便于计算机通过简单的异或操作来计算得到两个样本之间的距离,提高检索效率。
通常来说,跨模态哈希方法根据是否使用监督信息可以分为无监督跨模态哈希和有监督跨模态哈希。无监督跨模态哈希方法不使用监督信息,只利用原始数据的结构信息来训练模型;而有监督跨模态哈希方法则通过挖掘人工标注的标签中的语义信息来构建数据之间的相似性,从而具有更好的表现力。此外,随着深度网络的应用和发展,基于深度学习的跨模态哈希方法相继被提出。相较于将特征提取与哈希学习分离的非深度跨模态哈希来说,基于深度网络的跨模态哈希方法利用强大的神经网络将特征学习和非线性哈希函数学习融合到一个端到端的框架中,可以进一步提高模型的性能。
但是,现有的深度跨模态哈希方法不能很好的解决增量学习的问题。也就是说大多数深度跨模态哈希方法不能及时适配新出现的未知类别标签的增量数据,需要将其与原有数据同时喂入网络重新训练模型。这种模式存在以下缺点:首先,将所有数据重新训练意味着完全忽略通过之前训练得到的原有数据的哈希码,浪费了计算资源和训练时间;此外,随着越来越多的未知类别标签的增量数据的产生,将原有数据和增量数据同时喂入网络会提高模型的计算复杂性,违背了大规模多媒体数据下快速精确检索的需求;并且当前存在的增量哈希学习方法不能处理跨模态检索问题。
发明内容
为克服上述现有技术的不足,本发明提供了面向携带新类别的增量数据的快速跨模态检索方法,充分利用已有数据的哈希码,避免重复学习导致的训练时间和计算资源的浪费。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了面向携带新类别的增量数据的快速跨模态检索方法,包括:
增量哈希学习步骤:从多媒体已知类别数据库存储的已知哈希码中提取已知类别标签的二值表示,然后根据已有类别标签与未知类别标签的相似性关系,获取未知类别标签的二值表示,用来监督增量类别数据库中增量数据的哈希码的生成;
哈希函数学习步骤:在哈希函数的学习过程中,从已知类别数据库及增量类别数据库中通过抽样获取锚点集,基于该锚点集采用非对称策略更新深度网络的参数,进行哈希函数的学习,获得所需模型;
检索步骤:基于该模型进行生成查询样本的哈希码,然后与存储的哈希码进行比较,寻找海明距离最近的多个样本并将其输出为检索结果。
进一步的技术方案,获取未知类别标签的二值表示之后,通过增量数据的标签矩阵与未知类别标签表示直接学习获取增量数据的哈希码。
进一步的技术方案,从已知类别数据库及增量类别数据库中通过抽样获取锚点集之后,将锚点集中的图像和文本模态分别喂入CNN网络和MLP网络来提取对应的模态特征,经过网络的哈希层得到锚点集合的哈希表示。
进一步的技术方案,采用深度跨模态哈希方法作为基模型获取哈希码。
进一步的技术方案,在增量哈希学习过程中,保持已有的哈希码的不变性,根据哈希码与其标注的标签的二值类别标签表示的相似性,从以下公式中学到已有类别标签的二值表示;
Figure 834324DEST_PATH_IMAGE001
其中,已有哈希码
Figure 980134DEST_PATH_IMAGE002
,已有类别标签的二值表示
Figure 883981DEST_PATH_IMAGE003
,已有数据的标签矩阵
Figure 304598DEST_PATH_IMAGE004
Figure 980430DEST_PATH_IMAGE005
是已知类别标签的数量,
Figure 828300DEST_PATH_IMAGE006
是哈希码的长度。
进一步的技术方案,在学得已有类别标签的二值表示和增量类别标签的二值表示后,根据目标函数获取新来的增量数据的哈希码,该目标函数是利用增量数据的哈希码与二值类别标签表示的相似性关系得到的。
进一步的技术方案,目标函数定义为:
Figure 222372DEST_PATH_IMAGE007
Figure 915522DEST_PATH_IMAGE008
其中
Figure 711439DEST_PATH_IMAGE009
Figure 730211DEST_PATH_IMAGE010
是权衡参数。
进一步的技术方案,哈希函数学习的过程中,使用CNN-F模型和MLP模型分别作为图像网络ImgNet和文本网络TxtNet的骨干,构建用于解决增量哈希学习问题的端到端的框架。
进一步的技术方案,将CNN-F模型中最后一个全连接层替换为哈希层,用于将倒数第二层多维的输出映射为
Figure 346000DEST_PATH_IMAGE011
维的输出。
进一步的技术方案,哈希函数学习的过程中,针对学习哈希函数的损失进行优化,在优化的过程中,在每一步中都是固定其他变量而优化其中一个变量。
第二方面,公开了面向携带新类别的增量数据的快速跨模态检索方法,包括:
增量哈希学习模块,被配置为:从多媒体已知类别数据库存储的已知哈希码中提取已知类别标签的二值表示,然后根据已有类别标签与未知类别标签的相似性关系,获取未知类别标签的二值表示,用来监督增量类别数据库中增量数据的哈希码的生成;
哈希函数学习模块,被配置为:在哈希函数的学习过程中,从已知类别数据库及增量类别数据库中通过抽样获取锚点集,基于该锚点集采用非对称策略更新深度网络的参数,进行哈希函数的学习,获得所需模型;
检索模块,被配置为:基于该模型进行生成查询样本的哈希码,然后与存储的哈希码进行比较,寻找海明距离最近的多个样本并将其输出为检索结果。
以上一个或多个技术方案存在以下有益效果:
基于用于增量学习的基于深度学习的跨模态哈希方法,可以在保持原有数据的哈希码不变的情况下直接学习未知增量类数据的哈希码,从而可以满足快速训练的模式要求。
本发明使用端到端的框架在深度学习的基础上去解决增量学习的问题,端到端的模式可以充分发挥特征学习和哈希码学习的相互促进作用,提高模型的性能。
本发明所训练模型可以为增量类别标签空间建模,从而能够监督生成未知类别的哈希码,通过实验可以发现本发明设计模型可以基本达到基模型效果,基模型是将原有数据和未知增量类数据重新进行训练的),验证了模型的有效性。
本发明模型具有较高的效率,具体来说,本发明提出的模型只需要大概11分钟就可以达到较好的效果,而对比方法则需要超过4小时才能得到这样的结果。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例设计的模型的工作流程;
图2为本发明实施例整体方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了面向携带新类别的增量数据的快速跨模态检索方法,主要包括两个方面:
1)如何在保持原有哈希码不变的情况下,从已有数据的哈希码中提取不同类别标签的信息来对增量类别标签空间建模,然后使用未知类别标签的表示监督生成增量数据的哈希码,从而避免重复训练,提高模型效率。
2)如何在保证哈希码质量的情况下,进一步缩短模型训练时间。
整体构思为:首先从已知哈希码中提取已知类别标签的二值表示,然后根据已有类别标签与未知类别标签的相似性关系,获取未知类别标签的二值表示用来监督增量数据的哈希码的生成;在哈希函数的学习过程中,模型采用非对称策略更新深度网络的参数,进行哈希函数的学习。
本发明实施例子是以图像和文本模态为例来阐述模型的工作流程,需要说明的是,本发明的方案可以很容易地扩展到其他多媒体模态。
具体的,如图1所示,本发明设计的模型主要由增量哈希学习和高效哈希函数学习两个模块组成。
在增量哈希学习阶段,模型首先提取原始数据库(original database)的已知哈希码
Figure 842840DEST_PATH_IMAGE002
中已有类别标签的表示
Figure 758844DEST_PATH_IMAGE003
,然后定义已知类别标签与增量数据库(incrementaldatabase)中未知类别标签的相似性
Figure 682938DEST_PATH_IMAGE012
来监督生成未知类别标签的表示
Figure 317181DEST_PATH_IMAGE013
,最后通过增量数据的标签矩阵
Figure 352133DEST_PATH_IMAGE014
与未知类别标签表示
Figure 857064DEST_PATH_IMAGE013
直接学习获取增量数据的哈希码
Figure 952059DEST_PATH_IMAGE015
在高效哈希函数学习阶段,为了在保证哈希码质量的前提下提高训练速度,模型首先从原始数据库和增量数据库中抽样获取锚点集(anchor set)
Figure 808019DEST_PATH_IMAGE016
Figure 912242DEST_PATH_IMAGE017
为锚点集中属于原始数据库的样本集下标,
Figure 537258DEST_PATH_IMAGE018
为锚点集中属于增量数据库的样本集下标,然后将锚点集中的图像和文本模态分别喂入CNN网络和MLP网络提取对应的模态特征,最后经过网络的哈希层(hashing layer)得到锚点集合的哈希表示,在这个过程中,使用已经学得的anchor的哈希码
Figure 68734DEST_PATH_IMAGE019
做回归,更新深度网络的参数。
以下将从五个方面详细介绍本发明设计的模型的工作流程。
1)原有哈希码学习
在使用本发明的模型之前,需要获取原有数据库中多媒体数据的原有哈希码
Figure 143481DEST_PATH_IMAGE020
,其中
Figure 520236DEST_PATH_IMAGE021
是原有数据的大小,
Figure 999759DEST_PATH_IMAGE022
是哈希码的长度。由于对
Figure 436556DEST_PATH_IMAGE023
的生成没有限制,所以可以采用大多数深度跨模态哈希方法作为基模型获取
Figure 1530DEST_PATH_IMAGE023
。本发明以深度跨模态哈希方法中比较有代表性的模型作为基模型用于原有哈希码的生成,值得注意的是,本发明提出的模型的效果取决于
Figure 181976DEST_PATH_IMAGE023
的质量,因此,更强大的基模型可以提高本模型的准确度。
2)增量哈希学习
本发明的主要目的是在保持已有数据库中哈希码
Figure 781584DEST_PATH_IMAGE024
不变的情况下,学习新来的增量数据的哈希码
Figure 389283DEST_PATH_IMAGE025
,其中
Figure 441553DEST_PATH_IMAGE027
是增量数据的大小。具体来说是要通过增量类别标签空间来学得哈希码
Figure 425689DEST_PATH_IMAGE015
和对应的哈希函数。因此,首先要获取已知类别标签
Figure 145384DEST_PATH_IMAGE028
与增量类别标签
Figure 923984DEST_PATH_IMAGE029
的成对相似性关系
Figure 197970DEST_PATH_IMAGE030
,其中
Figure 720218DEST_PATH_IMAGE031
是已知类别标签的数量,
Figure 294419DEST_PATH_IMAGE032
是增量类别标签的数量。由于类别标签之间并没有交集,因此,定义
Figure 243921DEST_PATH_IMAGE030
中的每个元素的值为-1,于是可以得到以下的目标函数:
Figure 270783DEST_PATH_IMAGE033
由于在增量哈希学习过程,希望保持已有的哈希码
Figure 328213DEST_PATH_IMAGE023
的不变性,因此,模型可以从已有哈希码
Figure 756920DEST_PATH_IMAGE002
中进行学习。根据哈希码与其标注的标签的二值类别标签表示的相似性,即已有数据的标签矩阵
Figure 142902DEST_PATH_IMAGE034
,可以从以下公式中学到已有类别标签的二值表示
Figure 391481DEST_PATH_IMAGE035
Figure 255532DEST_PATH_IMAGE036
在学得已有类别标签的二值表示
Figure 804325DEST_PATH_IMAGE035
和增量类别标签的二值表示
Figure 95629DEST_PATH_IMAGE037
后,根据以下目标函数获取新来的增量数据的哈希码
Figure 831503DEST_PATH_IMAGE015
,该目标函数是利用增量数据的哈希码
Figure 233666DEST_PATH_IMAGE015
与二值类别标签表示的相似性关系即公式(3)得到的:
Figure 371386DEST_PATH_IMAGE038
其中,
Figure 99171DEST_PATH_IMAGE039
代表增量数据的类别标签表示,
Figure 322342DEST_PATH_IMAGE040
代表增量数据的标签矩阵,
Figure 528195DEST_PATH_IMAGE041
是已知类别的标签矩阵,
Figure 520422DEST_PATH_IMAGE042
是未知类别的标签矩阵。
综合公式(1)(2)(3)的优化函数,本发明的目标函数定义为:
Figure 153529DEST_PATH_IMAGE043
Figure 533170DEST_PATH_IMAGE044
其中
Figure 542714DEST_PATH_IMAGE045
Figure 655027DEST_PATH_IMAGE046
是权衡参数。
3)高效哈希函数学习
由于端到端的深度网络框架可以使特征学习和哈希码学习之间起到相互促进的作用,提高模型的效果,因此,本发明使用CNN-F模型和MLP模型分别作为图像网络ImgNet和文本网络TxtNet的骨干,构建了一个用于解决增量哈希学习问题的端到端的框架。CNN-F模型:是一个卷积神经网络,用于生成图片的深度特征表示,MLP模型:是一个全连接网络,用于生成文本的深度特征表示。网络的具体实现如下:
①ImgNet:初始的CNN-F网络由五个卷积层和三个全连接层组成,为了适配哈希学习的需求,在本发明设计的模型中,将CNN-F网络中最后一个全连接层替换为哈希层,用于将倒数第二层4096维的输出映射为r维的输出。定义用于图像模态的哈希函数为:
Figure 724614DEST_PATH_IMAGE047
其中,
Figure 922377DEST_PATH_IMAGE048
是ImgNet网络的参数,
Figure 735612DEST_PATH_IMAGE049
是哈希层的输出,图像模态的哈希函数可以将图像模态的数据映射为哈希码。
②TxtNet:本发明采用的MLP模型包含两个全连接层,第一层包含8192个神经元,第二层包含
Figure 436852DEST_PATH_IMAGE050
个神经元。定义用于文本模态的哈希函数为:
Figure 677340DEST_PATH_IMAGE051
其中,
Figure 96820DEST_PATH_IMAGE052
是TxtNet网络的参数,
Figure 713747DEST_PATH_IMAGE053
是哈希层的输出。文本模态的哈希函数可以将文本模态的数据映射为哈希码。
为了提高网络训练的效率,本发明实施例子采用了非对称策略来更新网络。首先,先随机从原始数据库和增量数据库中抽取样本组成大小为
Figure 535072DEST_PATH_IMAGE054
的锚点集
Figure 212041DEST_PATH_IMAGE055
Figure 853238DEST_PATH_IMAGE056
分别表示从原始数据库和增量数据库中抽取到锚点集中的样本的下标,并且
Figure 273855DEST_PATH_IMAGE057
。因此,用于学习哈希函数的损失定义为:
Figure 949687DEST_PATH_IMAGE058
Figure 797557DEST_PATH_IMAGE059
公式7用于学习哈希函数,更新网络的参数
Figure 191629DEST_PATH_IMAGE060
Figure 150358DEST_PATH_IMAGE061
其中,第一项表示锚点集样本的哈希码可以通过ImgNet获取,第二项表示锚点集样本的哈希码可以通过TxtNet获取。本发明中采用的非对称策略在于锚点集的哈希码是综合
Figure 943346DEST_PATH_IMAGE062
Figure 430959DEST_PATH_IMAGE063
两个损失函数学到的,而其他样本的哈希码仅通过
Figure 312328DEST_PATH_IMAGE062
损失函数就可以学到。由于在非对称策略中只使用数量较少的锚点集样本来更新深度网络的参数,所以,本发明设计的模型能够很快的收敛。
另外,由于
Figure 74747DEST_PATH_IMAGE064
激活函数是不光滑的以及非凸的,非零输入将会导致在反向传播中梯度为零,因此,本发明在实际应用中使用
Figure 725172DEST_PATH_IMAGE065
激活函数代替
Figure 914844DEST_PATH_IMAGE066
函数来放松约束。替换后的损失函数为:
Figure 17930DEST_PATH_IMAGE067
Figure 787302DEST_PATH_IMAGE068
此外,本发明提出的模型还增加了位平衡约束:
Figure 292233DEST_PATH_IMAGE069
Figure 387228DEST_PATH_IMAGE070
4)最终总体目标损失:
Figure 243189DEST_PATH_IMAGE071
其中,
Figure 81832DEST_PATH_IMAGE072
Figure 706848DEST_PATH_IMAGE073
为权衡参数。
5)损失函数优化过程
本发明设计的模型采用的是迭代优化的策略来优化参数
Figure 238324DEST_PATH_IMAGE074
Figure 581580DEST_PATH_IMAGE075
Figure 958335DEST_PATH_IMAGE076
Figure 437858DEST_PATH_IMAGE078
Figure 874655DEST_PATH_IMAGE079
。本发明模型的目的就是来获取使总体损失函数(10)最小化时未知参数的取值,从而得到最优的参数值,以便生成高质量的哈希码用于检索,优化过程主要由以下五个步骤组成,在每一步中都是固定其他变量而优化其中一个变量。
①优化
Figure 702278DEST_PATH_IMAGE080
本发明使用随机梯度下降(SGD)通过反向传播(BP)算法来更新
Figure 882724DEST_PATH_IMAGE080
。为了方便起见,定义
Figure 216753DEST_PATH_IMAGE081
,
Figure 824452DEST_PATH_IMAGE082
。那么,损失函数
Figure 142301DEST_PATH_IMAGE083
关于
Figure 126438DEST_PATH_IMAGE084
的导数为:
Figure 580553DEST_PATH_IMAGE085
其中,符号
Figure 359153DEST_PATH_IMAGE086
表示两个向量之间的逐个元素相乘。
②优化
Figure 898719DEST_PATH_IMAGE087
与更新
Figure 686546DEST_PATH_IMAGE080
的过程类似,首先定义
Figure 995168DEST_PATH_IMAGE088
,
Figure 210248DEST_PATH_IMAGE089
。那么,损失函数
Figure 971531DEST_PATH_IMAGE083
关于
Figure 297470DEST_PATH_IMAGE090
的导数为:
Figure 460598DEST_PATH_IMAGE091
③优化
Figure 112159DEST_PATH_IMAGE092
当其他变量固定,只优化
Figure 360738DEST_PATH_IMAGE093
时,整体的损失函数可写为如下形式:
Figure 490368DEST_PATH_IMAGE094
将上式展开并且省略常数项可得:
Figure 773582DEST_PATH_IMAGE095
其中
Figure 85394DEST_PATH_IMAGE096
。本发明采用DCC优化方法逐位优化
Figure 821269DEST_PATH_IMAGE097
,也就是说每次迭代只更新
Figure 754590DEST_PATH_IMAGE097
中的一列。令
Figure 892310DEST_PATH_IMAGE098
表示
Figure 354515DEST_PATH_IMAGE097
中的第
Figure 577686DEST_PATH_IMAGE099
列,
Figure 783540DEST_PATH_IMAGE100
Figure 775766DEST_PATH_IMAGE101
中除去
Figure 674452DEST_PATH_IMAGE098
的部分矩阵。同理,
Figure 650498DEST_PATH_IMAGE102
表示
Figure 394464DEST_PATH_IMAGE103
中的第
Figure 506776DEST_PATH_IMAGE099
列,
Figure 310784DEST_PATH_IMAGE104
Figure 774126DEST_PATH_IMAGE103
中除去
Figure 321782DEST_PATH_IMAGE102
的部分矩阵;
Figure 23022DEST_PATH_IMAGE105
表示
Figure 529090DEST_PATH_IMAGE106
中的第
Figure 214149DEST_PATH_IMAGE099
列,
Figure 562566DEST_PATH_IMAGE107
Figure 383892DEST_PATH_IMAGE106
中除去
Figure 795282DEST_PATH_IMAGE105
的部分矩阵;
Figure 702058DEST_PATH_IMAGE108
表示
Figure 857095DEST_PATH_IMAGE109
中的第
Figure 64086DEST_PATH_IMAGE099
列,
Figure 646377DEST_PATH_IMAGE110
Figure 40449DEST_PATH_IMAGE109
中除去
Figure 999178DEST_PATH_IMAGE108
的部分矩阵;
Figure 529516DEST_PATH_IMAGE111
表示
Figure 548288DEST_PATH_IMAGE112
中的第
Figure 429656DEST_PATH_IMAGE099
列,
Figure 192076DEST_PATH_IMAGE113
Figure 842500DEST_PATH_IMAGE112
中除去
Figure 766594DEST_PATH_IMAGE111
的部分矩阵。则公式(14)中的项可转换为:
Figure 135258DEST_PATH_IMAGE114
因此,优化公式(14)等价于在每次迭代中优化
Figure 170210DEST_PATH_IMAGE101
中的一列
Figure 940720DEST_PATH_IMAGE098
,目标函数如下:
Figure 770136DEST_PATH_IMAGE115
以上损失函数存在以下封闭解:
Figure 891676DEST_PATH_IMAGE116
④优化
Figure 727389DEST_PATH_IMAGE103
当其他变量固定,只优化
Figure 352405DEST_PATH_IMAGE103
时,整体的损失函数可写为如下形式:
Figure 618302DEST_PATH_IMAGE117
优化
Figure 695979DEST_PATH_IMAGE103
的过程和优化
Figure 338313DEST_PATH_IMAGE097
的过程相似,同样使用DCC优化策略,根据以下目标函数在每次迭代中只优化
Figure 83415DEST_PATH_IMAGE103
中的一列
Figure 254634DEST_PATH_IMAGE102
Figure 819607DEST_PATH_IMAGE118
其中
Figure 53DEST_PATH_IMAGE119
表示
Figure 599661DEST_PATH_IMAGE120
中的第
Figure 207360DEST_PATH_IMAGE122
列,并且
Figure 259630DEST_PATH_IMAGE123
⑤优化
Figure 978187DEST_PATH_IMAGE109
当其他变量固定,只优化
Figure 432302DEST_PATH_IMAGE109
时,整体的损失函数可写为如下形式:
Figure 210902DEST_PATH_IMAGE124
其中,
Figure 750468DEST_PATH_IMAGE125
Figure 538296DEST_PATH_IMAGE126
分别是锚点集中的样本喂入ImgNet和TxtNet之后得到的输出结果;
Figure 843987DEST_PATH_IMAGE127
是增量数据库中下标为
Figure 793489DEST_PATH_IMAGE128
的样本的哈希码。为了能够直接优化所有的
Figure 554771DEST_PATH_IMAGE109
,本发明令
Figure 880711DEST_PATH_IMAGE129
Figure 43839DEST_PATH_IMAGE130
Figure 164241DEST_PATH_IMAGE131
表示增量数据库中所有样本的下标的集合,具体赋值方式如下:
Figure 678399DEST_PATH_IMAGE132
因此,优化
Figure 542450DEST_PATH_IMAGE109
的损失函数可以转化为以下方式:
Figure 825664DEST_PATH_IMAGE133
同理,以上目标函数可以由DCC优化策略求解,更新
Figure 382547DEST_PATH_IMAGE109
中一列的封闭解为:
Figure 118422DEST_PATH_IMAGE134
其中
Figure 786164DEST_PATH_IMAGE135
表示
Figure 658305DEST_PATH_IMAGE136
中的第
Figure 651669DEST_PATH_IMAGE137
列,并且
Figure 874840DEST_PATH_IMAGE138
在更为具体的实施例子中,参见附图2所示,包括训练阶段以及测试阶段:
1)训练阶段:
①根据已知类别数据库的哈希码
Figure 80693DEST_PATH_IMAGE139
和标签
Figure 338499DEST_PATH_IMAGE141
,以及增量类别数据库的标签
Figure 237185DEST_PATH_IMAGE142
进行增量哈希学习,生成增量数据的哈希码
Figure 413564DEST_PATH_IMAGE109
③然后从已知类别数据库与增量类别数据库中抽取锚点集,将原始图片和文本的BOW向量信息分别喂入CNN网络和MLP,根据已经获取的增量数据的哈希码
Figure 423108DEST_PATH_IMAGE109
做一个回归操作,对网络进行训练。
在训练的过程中,两个反馈
Figure 801000DEST_PATH_IMAGE143
是直接生成的哈希码
Figure 605008DEST_PATH_IMAGE143
,用于CNN网络和MLP网络训练做回归使用。
③固定模型参数,使用模型得到所有样本对应的哈希码,存入数据库以备使用。
2)测试阶段
将查询集的图像信息和文本的BOW向量分别喂入训练好的CNN网络和MLP,生成查询样本的哈希码,然后与数据库中存储的哈希码进行比较,寻找海明距离最近的
Figure 68350DEST_PATH_IMAGE144
个样本并将其输出为检索结果。
实施例二
本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
实施例三
本实施例的目的是提供面向携带新类别的增量数据的快速跨模态检索方法,包括:
增量哈希学习模块,被配置为:从多媒体已知类别数据库存储的已知哈希码中提取已知类别标签的二值表示,然后根据已有类别标签与未知类别标签的相似性关系,获取未知类别标签的二值表示,用来监督增量类别数据库中增量数据的哈希码的生成;
哈希函数学习模块,被配置为:在哈希函数的学习过程中,从已知类别数据库及增量类别数据库中通过抽样获取锚点集,基于该锚点集采用非对称策略更新深度网络的参数,进行哈希函数的学习,获得所需模型;
检索模块,被配置为:基于该模型进行生成查询样本的哈希码,然后与存储的哈希码进行比较,寻找海明距离最近的多个样本并将其输出为检索结果。
以上实施例的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.面向携带新类别的增量数据的快速跨模态检索方法,其特征是,包括:
增量哈希学习步骤:从多媒体已知类别数据库存储的已知哈希码中提取已知类别标签的二值表示,然后根据已有类别标签与未知类别标签的相似性关系,获取未知类别标签的二值表示,用来监督增量类别数据库中增量数据的哈希码的生成;
哈希函数学习步骤:在哈希函数的学习过程中,从已知类别数据库及增量类别数据库中通过抽样获取锚点集,基于该锚点集采用非对称策略更新深度网络的参数,进行哈希函数的学习,获得所需模型;
检索步骤:基于该模型进行生成查询样本的哈希码,然后与存储的哈希码进行比较,寻找海明距离最近的多个样本并将其输出为检索结果。
2.如权利要求1所述的面向携带新类别的增量数据的快速跨模态检索方法,其特征是,获取未知类别标签的二值表示之后,通过增量数据的标签矩阵与未知类别标签表示直接学习获取增量数据的哈希码。
3.如权利要求1所述的面向携带新类别的增量数据的快速跨模态检索方法,其特征是,从已知类别数据库及增量类别数据库中通过抽样获取锚点集之后,将锚点集中的图像和文本模态分别喂入CNN网络和MLP网络来提取对应的模态特征,经过网络的哈希层得到锚点集合的哈希表示。
4.如权利要求1所述的面向携带新类别的增量数据的快速跨模态检索方法,其特征是,采用深度跨模态哈希方法作为基模型获取哈希码。
5.如权利要求1所述的面向携带新类别的增量数据的快速跨模态检索方法,其特征是,在增量哈希学习过程中,保持已有的哈希码的不变性,根据哈希码与其标注的标签的二值类别标签表示的相似性,从以下公式中学到已有类别标签的二值表示;
Figure 132767DEST_PATH_IMAGE001
其中,已有哈希码
Figure 64951DEST_PATH_IMAGE002
,已有类别标签的二值表示
Figure 143766DEST_PATH_IMAGE003
,已有数据的标签矩阵
Figure 131092DEST_PATH_IMAGE004
Figure 106002DEST_PATH_IMAGE006
是已知类别标签的数量,
Figure 56640DEST_PATH_IMAGE007
是哈希码的长度。
6.如权利要求1所述的面向携带新类别的增量数据的快速跨模态检索方法,其特征是,在学得已有类别标签的二值表示和增量类别标签的二值表示后,根据目标函数获取新来的增量数据的哈希码,该目标函数是利用增量数据的哈希码与二值类别标签表示的相似性关系得到的。
7.如权利要求1所述的面向携带新类别的增量数据的快速跨模态检索方法,其特征是,哈希函数学习的过程中,使用CNN-F模型和MLP模型分别作为图像网络ImgNet和文本网络TxtNet的骨干,构建用于解决增量哈希学习问题的端到端的框架。
优选的,将CNN-F模型中最后一个全连接层替换为哈希层,用于将倒数第二层多维的输出映射为
Figure 407987DEST_PATH_IMAGE007
维的输出。
优选的,哈希函数学习的过程中,针对学习哈希函数的损失进行优化,在优化的过程中,在每一步中都是固定其他变量而优化其中一个变量。
8.面向携带新类别的增量数据的快速跨模态检索方法,其特征是,包括:
增量哈希学习模块,被配置为:从多媒体已知类别数据库存储的已知哈希码中提取已知类别标签的二值表示,然后根据已有类别标签与未知类别标签的相似性关系,获取未知类别标签的二值表示,用来监督增量类别数据库中增量数据的哈希码的生成;
哈希函数学习模块,被配置为:在哈希函数的学习过程中,从已知类别数据库及增量类别数据库中通过抽样获取锚点集,基于该锚点集采用非对称策略更新深度网络的参数,进行哈希函数的学习,获得所需模型;
检索模块,被配置为:基于该模型进行生成查询样本的哈希码,然后与存储的哈希码进行比较,寻找海明距离最近的多个样本并将其输出为检索结果。
9.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。
CN202110878050.XA 2021-08-02 2021-08-02 面向携带新类别的增量数据的快速跨模态检索方法及系统 Active CN113326289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110878050.XA CN113326289B (zh) 2021-08-02 2021-08-02 面向携带新类别的增量数据的快速跨模态检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110878050.XA CN113326289B (zh) 2021-08-02 2021-08-02 面向携带新类别的增量数据的快速跨模态检索方法及系统

Publications (2)

Publication Number Publication Date
CN113326289A true CN113326289A (zh) 2021-08-31
CN113326289B CN113326289B (zh) 2021-11-02

Family

ID=77426751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110878050.XA Active CN113326289B (zh) 2021-08-02 2021-08-02 面向携带新类别的增量数据的快速跨模态检索方法及系统

Country Status (1)

Country Link
CN (1) CN113326289B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470831A (zh) * 2021-09-03 2021-10-01 武汉泰乐奇信息科技有限公司 一种基于数据简并的大数据转换方法与装置
CN114186084A (zh) * 2021-12-14 2022-03-15 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN114943021A (zh) * 2022-07-20 2022-08-26 之江实验室 一种tb级增量数据筛选方法和装置
CN115690566A (zh) * 2022-10-24 2023-02-03 广东工业大学 一种基于深度迁移聚类学习的深海动物新物种识别方法
CN115828176A (zh) * 2023-02-09 2023-03-21 山东建筑大学 一种面向智慧工地的跨模态检索方法及系统
CN116244483A (zh) * 2023-05-12 2023-06-09 山东建筑大学 一种基于数据合成的大规模零样本数据检索方法及系统
CN117011672A (zh) * 2023-09-27 2023-11-07 之江实验室 基于类特定元提示学习的小样本类增对象识别方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN110188209A (zh) * 2019-05-13 2019-08-30 山东大学 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置
CN110674323A (zh) * 2019-09-02 2020-01-10 山东师范大学 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
CN110781972A (zh) * 2019-10-31 2020-02-11 大连理工大学 一种增量无监督多模态相关特征学习模型
CN112925962A (zh) * 2021-01-20 2021-06-08 同济大学 基于哈希编码的跨模态数据检索方法、系统、设备及介质
US20210191990A1 (en) * 2019-12-20 2021-06-24 Rakuten, Inc. Efficient cross-modal retrieval via deep binary hashing and quantization
CN113177132A (zh) * 2021-06-30 2021-07-27 中国海洋大学 基于联合语义矩阵的深度跨模态哈希的图像检索方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法
CN110188209A (zh) * 2019-05-13 2019-08-30 山东大学 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置
CN110674323A (zh) * 2019-09-02 2020-01-10 山东师范大学 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN110781972A (zh) * 2019-10-31 2020-02-11 大连理工大学 一种增量无监督多模态相关特征学习模型
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法
US20210191990A1 (en) * 2019-12-20 2021-06-24 Rakuten, Inc. Efficient cross-modal retrieval via deep binary hashing and quantization
CN112925962A (zh) * 2021-01-20 2021-06-08 同济大学 基于哈希编码的跨模态数据检索方法、系统、设备及介质
CN113177132A (zh) * 2021-06-30 2021-07-27 中国海洋大学 基于联合语义矩阵的深度跨模态哈希的图像检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DEVRAJ MANDAL ET AL.: "GrowBit: Incremental Hashing for Cross-Modal Retrieval", 《ASIAN CONFERENCE ON COMPUTER VISION》 *
WU,DY ET AL.: "Deep Incremental Hashing Network for Efficient Image Retrieval", 《IEEE》 *
安亚强: "在线跨模态哈希检索算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470831A (zh) * 2021-09-03 2021-10-01 武汉泰乐奇信息科技有限公司 一种基于数据简并的大数据转换方法与装置
CN113470831B (zh) * 2021-09-03 2021-11-16 武汉泰乐奇信息科技有限公司 一种基于数据简并的大数据转换方法与装置
CN114186084A (zh) * 2021-12-14 2022-03-15 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN114943021A (zh) * 2022-07-20 2022-08-26 之江实验室 一种tb级增量数据筛选方法和装置
US11789639B1 (en) 2022-07-20 2023-10-17 Zhejiang Lab Method and apparatus for screening TB-scale incremental data
CN115690566A (zh) * 2022-10-24 2023-02-03 广东工业大学 一种基于深度迁移聚类学习的深海动物新物种识别方法
CN115690566B (zh) * 2022-10-24 2024-01-19 广东工业大学 一种基于深度迁移聚类学习的深海动物新物种识别方法
CN115828176A (zh) * 2023-02-09 2023-03-21 山东建筑大学 一种面向智慧工地的跨模态检索方法及系统
CN116244483A (zh) * 2023-05-12 2023-06-09 山东建筑大学 一种基于数据合成的大规模零样本数据检索方法及系统
CN117011672A (zh) * 2023-09-27 2023-11-07 之江实验室 基于类特定元提示学习的小样本类增对象识别方法和装置
CN117011672B (zh) * 2023-09-27 2024-01-09 之江实验室 基于类特定元提示学习的小样本类增对象识别方法和装置

Also Published As

Publication number Publication date
CN113326289B (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN113326289B (zh) 面向携带新类别的增量数据的快速跨模态检索方法及系统
Jiang et al. Asymmetric deep supervised hashing
Chen et al. Deep hashing via discrepancy minimization
CN111639197B (zh) 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统
CN107766555B (zh) 基于软约束无监督型跨模态哈希的图像检索方法
CN109299216A (zh) 一种融合监督信息的跨模态哈希检索方法和系统
CN106033426B (zh) 一种基于潜在语义最小哈希的图像检索方法
CN114329109B (zh) 基于弱监督哈希学习的多模态检索方法及系统
CN113312505B (zh) 一种基于离散在线哈希学习的跨模态检索方法及系统
CN114186084B (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN114610900A (zh) 知识图谱补全方法及系统
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
Yang et al. NSDH: A nonlinear supervised discrete hashing framework for large-scale cross-modal retrieval
CN114596456B (zh) 一种基于聚集哈希学习的图像集分类方法
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN111090765B (zh) 一种基于缺失多模态哈希的社交图像检索方法及系统
Wang et al. Cross-modal image–text search via efficient discrete class alignment hashing
CN116150411A (zh) 一种基于自适应类相关离散哈希的零样本跨模态检索方法
CN111930972B (zh) 利用标签层次信息的多媒体数据跨模态检索方法及系统
CN117407532A (zh) 一种利用大模型与协同训练进行数据增强的方法
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
Mu et al. Deep hashing: A joint approach for image signature learning
CN114970553B (zh) 基于大规模无标注语料的情报分析方法、装置及电子设备
CN115098707A (zh) 基于零样本学习的跨模态哈希检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant