CN113326287B - 一种使用三步策略的在线跨模态检索方法及系统 - Google Patents

一种使用三步策略的在线跨模态检索方法及系统 Download PDF

Info

Publication number
CN113326287B
CN113326287B CN202110889022.8A CN202110889022A CN113326287B CN 113326287 B CN113326287 B CN 113326287B CN 202110889022 A CN202110889022 A CN 202110889022A CN 113326287 B CN113326287 B CN 113326287B
Authority
CN
China
Prior art keywords
learning
hash
hash code
class
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110889022.8A
Other languages
English (en)
Other versions
CN113326287A (zh
Inventor
罗昕
詹雨薇
刘家乐
许信顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110889022.8A priority Critical patent/CN113326287B/zh
Publication of CN113326287A publication Critical patent/CN113326287A/zh
Application granted granted Critical
Publication of CN113326287B publication Critical patent/CN113326287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种使用三步策略的在线跨模态检索方法及系统,包括:获取不同模态组成的模拟流数据;针对模拟流数据,通过引入hadamard矩阵生成每个类标签的表示,并将每个类标签的表示作为用于进行哈希码的学习的全局信息,每个类标签的表示还保持局部相似性信息,利用模拟流数据中新到达的数据与已有数据之间的相关性来学习更有判别力的哈希码;利用学习的哈希码更新哈希函数;利用更新的哈希函数计算待检索样本的哈希编码,基于哈希编码计算二进制样本的海明距离,从而根据海明距离来返回与待检索样本相似的另一个模态的样本。本发明THOR可以保留更多的语义信息,学习更准确的哈希码。

Description

一种使用三步策略的在线跨模态检索方法及系统
技术领域
本发明属于跨模态哈希检索技术领域,尤其涉及一种使用三步策略的在线跨模态检索方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着由多种不同模态组成的数据的爆炸式增长,在给定查询语句的条件下,从海量的数据中寻找跨模态的相似信息已称为一项重大挑战。在许多情况下,由于时间和存储空间方面的高度复杂性,传统的最近邻搜索方法并不能带来最优的表现。近年来,近似最近邻搜索(ANN),尤其是哈希学习,引起了广泛的关注,并逐渐替代了传统的最近邻搜索方法。跨模态哈希方法旨在将多种模态的高维数据映射成短字符串的二进制编码的表现形式,并保留原始空间中样本之间的相似性。在海明空间中执行异或(XOR)操作使得从二进制编码中进行搜索变得快速有效。
大多数现有的跨模态哈希方法都是基于批处理的,即用给定的训练数据在一个阶段中学习哈希函数。基于批处理的跨模态哈希方法需要累积所有的数据,并在新数据到来后,只能重新训练哈希函数,这使得它们无法有效地处理流式数据,即数据是以流形式到来的,每轮到来部分数据。另一方面,数据有的时候太大,无法完全加载到内存中。随着数据集越来越大,计算成本可能难以承受,因此,跨模态在线哈希引起了越来越多的关注,但是,仍然需要考虑几个问题:
1)如何充分利用数据中的信息来增强二进制哈希码的编码能力是一个艰巨的挑战。大多数现有的跨模态在线方法仅基于新到达的数据或新数据与现有数据之间的相关性来更新哈希函数,而忽略了全局信息。
2)如何增强模型的适应性,以适应可变长度的标签空间是需要解决的问题,到目前为止,大多数现有的在线方法都隐式地假定标签空间是固定的,即所有类标签都应在第一个数据块中给出。实际上,这种假设可能是太严格的,当新标签出现在新到达的数据块中时,这些方法可能无法有效地更新哈希函数。
发明内容
为克服上述现有技术的不足,本发明提供了一种使用三步策略的在线跨模态检索方法,能够学习更准确的哈希码,有效地更新哈希函数。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了一种使用三步策略的在线跨模态检索方法,包括:
获取不同模态组成的模拟流数据;
针对模拟流数据,通过引入hadamard矩阵生成每个类标签的表示,并将每个类标签的表示作为用于进行哈希码的学习的全局信息,每个类标签的表示同时保持局部相似性信息,利用模拟流数据中新到达的数据与已有数据之间的相关性来学习更有判别力的哈希码;
其中,通过引入hadamard矩阵生成每个类标签的表示的步骤为:
学习模拟流数据第一轮出现标签的嵌入表示;
由多模态组成的数据以流的方式出现,当前轮有新到来的类时,学习新类的标签嵌入;
新类的标签嵌入被学习到,同时已有类的标签嵌入不变;
更新变量类的标签嵌入;
利用学习的哈希码更新哈希函数;
利用更新的哈希函数计算待检索样本的哈希编码,基于哈希编码计算二进制样本的海明距离,从而根据海明距离来返回与待检索样本相似的另一个模态的样本。
进一步的技术方案,当第t轮新的数据块到达时,若没有新的未见过的类出现,并且所有现有的标签都已经有相应的标签嵌入,在当前轮省略学习新类的标签嵌入的步骤。
进一步的技术方案,进行哈希码的学习的过程中,利用哈希码的内积使用平方损失来近似语义相似度,对第t轮实例对间的语义相似矩阵改写为块矩阵形式,使得在在线场景下可行。
进一步的技术方案,将每个类标签的表示作为用于进行哈希码的学习的全局信息,每个类标签的表示同时保持局部相似性信息的过程中,学习包含大量语义信息的类标签嵌入,构建哈希码学习的总体目标函数,获得其封闭解,直到收敛。
进一步的技术方案,利用学习的哈希码更新哈希函数,具体为:
根据得到的哈希编码,学习新的查询样本的哈希函数,构建学习损失目标函数;
求解学习损失目标函数,学习哈希函数的投影矩阵;
在第t轮,当一个有着第m模态特征向量的新的查询样本到来时,更新第m模态的哈希函数。
进一步的技术方案,基于哈希编码计算二进制样本的海明距离时,计算该待检索样本的哈希编码与训练集的哈希编码之间的海明距离,并对海明距离进行排序;最后,按顺序输出训练集中与待检索样本一致的另一个模态的样本,得到检索结果。
第二方面,公开了基于在线哈希的跨模态检索系统,包括:
模拟流数据获取模块,被配置为:获取不同模态组成的模拟流数据;
哈希码学习模块,被配置为:针对模拟流数据,通过引入hadamard矩阵生成每个类标签的表示,并将每个类标签的表示作为用于进行哈希码的学习的全局信息,每个类标签的表示同时保持局部相似性信息,利用模拟流数据中新到达的数据与已有数据之间的相关性来学习更有判别力的哈希码;
其中,通过引入hadamard矩阵生成每个类标签的表示的步骤为:
学习模拟流数据第一轮出现标签的嵌入表示;
由多模态组成的数据以流的方式出现,当前轮有新到来的类时,学习新类的标签嵌入;
新类的标签嵌入被学习到,同时已有类的标签嵌入不变;
更新变量类的标签嵌入;
哈希函数学习模块,被配置为:利用学习的哈希码更新哈希函数;
检索模块,被配置为:利用更新的哈希函数计算待检索样本的哈希编码,基于哈希编码计算二进制样本的海明距离,从而根据海明距离来返回与待检索样本相似的另一个模态的样本。
进一步的技术方案,所述哈希码学习模块中,当第t轮新的数据块到达时,若没有新的未见过的类出现,并且所有现有的标签都已经有相应的标签嵌入,在当前轮省略学习新类的标签嵌入的步骤。
进一步的技术方案,所述哈希码学习模块中,进行哈希码的学习的过程中,利用哈希码的内积使用平方损失来近似语义相似度,对第t轮实例对间的语义相似矩阵改写为块矩阵形式,使得在在线场景下可行。
进一步的技术方案,所述哈希函数学习模块,利用学习的哈希码更新哈希函数,具体为:
根据得到的哈希编码,学习新的查询样本的哈希函数,构建学习损失目标函数;
求解学习损失目标函数,学习哈希函数的投影矩阵;
在第t轮,当一个有着第m模态特征向量的新的查询样本到来时,更新第m模态的哈希函数。
以上一个或多个技术方案存在以下有益效果:
本发明通过考虑类间的相关性,基于hadamard矩阵学习了标签的嵌入,即全局信息。使用全局信息作为指导信息,THOR即三步在线跨模态哈希方法可以保留更多的语义信息,学习更准确的哈希码。
本发明在哈希码学习阶段,保持新来数据和已有数据间的相似性,并嵌入学到的全局信息,学习更有判别力的哈希码。
到目前为止,大多数现有的在线方法都隐式地假定标签空间是固定的,即所有类标签都应在第一个数据块中给出,当新标签出现在新到达的数据块中时,这些方法可能无法有效地更新哈希函数。本发明明确地设计模型以适应在线跨模态哈希领域中的增量标签空间。
本发明提出的方法的时间复杂度与每轮新到来的数据的大小成线性关系,这使得THOR高效且可扩展。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例方法的流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了一种使用三步策略的在线跨模态检索方法,为三步在线跨模态哈希方法(three-step online crossmodal hashing),简称THOR。THOR通过引入hadamard矩阵(hadamard matrix)生成每个类标签的表示,并将其作为全局信息来指导哈希码的学习,它还保持局部相似性信息,即新到达的数据与已有数据之间的相关性来学习更有判别力的哈希码。此外,基于可学习的类标签嵌入,THOR可以自由适应增量标签空间问题。
为了适应在线检索任务,训练集被分为T轮数据的形式,用于模拟流数据的到来。
具体的,THOR即三步在线跨模态哈希方法,共包含三个步骤:
步骤(1):通过引入hadamard矩阵,学习每个类的标签嵌入,并将其作为全局信息来指导哈希学习;
在该步骤中,学习类标签的嵌入,学习方法是引入hadamard矩阵,利用标签间的两两相关性矩阵,构造损失函数。通过最小化损失函数学习类标签的嵌入表示。
步骤(2):将步骤(1)中学习到的类标签嵌入和实例间的成对相似性一起使用,为第t轮数据学习哈希编码;
在该步骤中,学习哈希码,学习方法是利用第一步学到的标签的嵌入作为全局信息,加上实例间的成对相似度信息,构造损失函数,通过最小化损失函数来学习哈希码。
步骤(3):根据步骤(2)得到的第t轮数据的哈希编码学习哈希函数,用于将原始空间中的特征向量映射为海明空间中的哈希编码;
学习哈希函数,在确定了各实例的特征和哈希码后,学习哈希函数。
步骤(1)的具体过程为:
步骤(1.1):在第一轮,基于hadamard矩阵,学习第一轮出现标签的嵌入表示
Figure 340043DEST_PATH_IMAGE001
,目标函数如下:
Figure 372459DEST_PATH_IMAGE002
Figure 741124DEST_PATH_IMAGE003
(1)
通过最小化目标函数,得到第一轮出现的标签的表示,上述约束条件为正交约束,作用是让H包含更多的信息。其中,
Figure 900710DEST_PATH_IMAGE004
是第一轮中
Figure 671220DEST_PATH_IMAGE005
个类标签间的两两相关性矩阵,
Figure 110422DEST_PATH_IMAGE006
是第一轮中基于hadamard的标签嵌入,
Figure 966383DEST_PATH_IMAGE007
是第一轮中类标签的实值嵌入,
Figure 929660DEST_PATH_IMAGE008
是一个参数。将hadamard矩阵的大小表示为
Figure 289097DEST_PATH_IMAGE009
Figure 351731DEST_PATH_IMAGE010
设置如下:
Figure 803310DEST_PATH_IMAGE011
(2)
其中,
Figure 445643DEST_PATH_IMAGE013
是哈希编码的位数,
Figure 49800DEST_PATH_IMAGE014
是第t轮已有类标签的数量。
步骤(1.2):由
Figure 486598DEST_PATH_IMAGE015
模态组成的数据以流的方式出现。在第t轮,一个带着类标签
Figure 926937DEST_PATH_IMAGE016
的新的数据块
Figure 841804DEST_PATH_IMAGE017
到达,其中
Figure 300467DEST_PATH_IMAGE018
,表示第
Figure 908166DEST_PATH_IMAGE019
模态,
Figure 757173DEST_PATH_IMAGE020
是新数据块的大小,
Figure 52894DEST_PATH_IMAGE021
是第
Figure 303747DEST_PATH_IMAGE022
模态的特征的维度,
Figure 206981DEST_PATH_IMAGE023
是第
Figure 746547DEST_PATH_IMAGE025
轮新到类标签的数量,
Figure 878582DEST_PATH_IMAGE026
是前
Figure 187203DEST_PATH_IMAGE027
轮已有类的数量。
Figure 261339DEST_PATH_IMAGE028
是前
Figure 22621DEST_PATH_IMAGE029
轮已有的数据,
Figure 722462DEST_PATH_IMAGE030
是已有数据的大小,
Figure 885590DEST_PATH_IMAGE031
是已有数据对应的标签矩阵。
当第t轮新的数据块到达时,有两种可能出现的情况。一种是没有新的未见过的类出现,即
Figure 130626DEST_PATH_IMAGE032
,并且所有现有的标签都已经有相应的标签嵌入。在这种情况下,THOR的第一步就可以在当前轮省略,并设置
Figure 644784DEST_PATH_IMAGE033
。第二种情况是当前轮有
Figure 384201DEST_PATH_IMAGE034
个新到来的类,此时应该学习新类的标签嵌入,并将它们表示为
Figure 198574DEST_PATH_IMAGE035
,而
Figure 755457DEST_PATH_IMAGE036
表示已有的未改变的标签嵌入。同样地,
Figure 615965DEST_PATH_IMAGE037
,其中,
Figure 283707DEST_PATH_IMAGE038
表示已有标签的基于hadamard的标签嵌入,而
Figure 553187DEST_PATH_IMAGE039
表示新标签的基于hadamard的标签嵌入。
Figure 15392DEST_PATH_IMAGE040
表示第t轮中类标签间的相关性矩阵。给出
Figure 363197DEST_PATH_IMAGE041
的块矩阵表现形式如下:
Figure 569051DEST_PATH_IMAGE042
(3)
其中,
Figure 436644DEST_PATH_IMAGE043
是已有类之间的相似性矩阵,
Figure 132067DEST_PATH_IMAGE044
是已有类和新类之间的相似性矩阵,
Figure 576955DEST_PATH_IMAGE045
是新类和已有类之间的相似性矩阵,
Figure 711133DEST_PATH_IMAGE046
是新类之间的相似性矩阵。然后,将公式(1)中对应的部分替换成
Figure 823445DEST_PATH_IMAGE047
,得到下面的损失目标函数:
Figure 735776DEST_PATH_IMAGE048
Figure 933539DEST_PATH_IMAGE049
(4)
其中,常数项已经被省略了。通过公式(4),新类
Figure 605829DEST_PATH_IMAGE050
的标签嵌入可以被学习到,已有类
Figure 572648DEST_PATH_IMAGE051
的标签嵌入不变。
步骤(1.3):更新变量
Figure 344294DEST_PATH_IMAGE052
。当其它变量保持不变,结合约束条件
Figure 904720DEST_PATH_IMAGE053
,此处韦正交约束,使信息量最大化,公式(4)可变换为矩阵迹的形式:
Figure 256067DEST_PATH_IMAGE054
(5)
其中,
Figure 202026DEST_PATH_IMAGE055
。为了简化函数,定义
Figure 613416DEST_PATH_IMAGE056
,并且对
Figure 894093DEST_PATH_IMAGE057
进行奇异值分解,来找到
Figure 517973DEST_PATH_IMAGE050
的解:
Figure 584018DEST_PATH_IMAGE058
(6)
其中,
Figure 900730DEST_PATH_IMAGE059
分别表示正特征值的对角矩阵和相应的特征向量。
Figure 170168DEST_PATH_IMAGE060
是矩阵
Figure 660055DEST_PATH_IMAGE061
的秩。剩下的特征向量对应于零特征值,定义为
Figure 455973DEST_PATH_IMAGE062
。进一步定义
Figure 333799DEST_PATH_IMAGE063
。利用施密特正交法,将
Figure 215167DEST_PATH_IMAGE064
正交到
Figure 554751DEST_PATH_IMAGE065
,并初始化一个随机正交矩阵
Figure 205175DEST_PATH_IMAGE066
。如果
Figure 253902DEST_PATH_IMAGE067
,则
Figure 622567DEST_PATH_IMAGE068
为空。因此,公式(5)的最优解如下:
Figure 532885DEST_PATH_IMAGE069
(7)
步骤(2)的具体过程为:
步骤(2.1):为了将原始空间中的语义相似性嵌入到哈希码中,有监督的哈希方法通常在损失函数中考虑监督信息。本发明借助哈希码的内积使用平方损失来近似语义相似度,定义如下:
Figure 834553DEST_PATH_IMAGE070
(8)
其中在第t轮,
Figure 929548DEST_PATH_IMAGE071
是所有数据块的哈希编码,
Figure 910143DEST_PATH_IMAGE072
是已有数据的哈希编码,
Figure 483207DEST_PATH_IMAGE073
是新到数据的哈希编码,
Figure 216545DEST_PATH_IMAGE074
是哈希编码的位数。
Figure 482441DEST_PATH_IMAGE075
表示第t轮实例对间的语义相似矩阵。
Figure 684753DEST_PATH_IMAGE076
表示第t个数据块中的实例
Figure 327086DEST_PATH_IMAGE077
和实例
Figure 603347DEST_PATH_IMAGE078
之间在语义上是相似的,而
Figure 915511DEST_PATH_IMAGE079
则表示不相似。和公式(3)一样,进一步把
Figure 480484DEST_PATH_IMAGE080
改写为块矩阵形式,使得在在线场景下可行:
Figure 519984DEST_PATH_IMAGE081
(9)
其中,
Figure 119593DEST_PATH_IMAGE082
是已有数据之间的相似性矩阵,
Figure 835614DEST_PATH_IMAGE083
是已有数据和新数据之间的相似性矩阵,
Figure 887884DEST_PATH_IMAGE084
是新数据和已有数据之间的相似性矩阵,
Figure 731075DEST_PATH_IMAGE085
是新数据之间的相似性矩阵。为此,通过省略常数项,可以将公式(8)改写为:
Figure 185190DEST_PATH_IMAGE086
Figure 839156DEST_PATH_IMAGE087
Figure 175460DEST_PATH_IMAGE088
(10)
步骤(2.2):公式(10)只考虑了新到达数据及新数据与现有数据之间的相关性,而忽略了全局信息。为了解决这个问题,我们引入全局不变信息作为生成新数据的哈希码的指南,即THOR第一步中学习的包含大量语义信息的类标签嵌入。因此,进一步定义如下的优化问题:
Figure 697708DEST_PATH_IMAGE089
(11)
步骤(2.3):同时考虑公式(10)和公式(11),可以得到如下的哈希码学习的总体目标函数:
Figure 130963DEST_PATH_IMAGE090
(12)
其中,
Figure 80465DEST_PATH_IMAGE091
为权衡参数。显然,上述损失函数包含了两个关键的部分,分别是实例级相似性损失和类相关性损失。但是,由于
Figure 215649DEST_PATH_IMAGE092
的二进制约束,很难直接求解公式(12),为了解决该问题,用有正交约束和平衡约束的实值辅助变量
Figure 541588DEST_PATH_IMAGE093
替换了一个
Figure 829350DEST_PATH_IMAGE094
。因此,最终的目标函数如下:
Figure 949752DEST_PATH_IMAGE095
(13)
其中,
Figure 73697DEST_PATH_IMAGE096
是参数。
步骤(2.4):更新变量
Figure 937748DEST_PATH_IMAGE097
。保持其它变量不变,只改变
Figure 80017DEST_PATH_IMAGE093
,公式(13)可以被改写为:
Figure 636900DEST_PATH_IMAGE098
Figure 746676DEST_PATH_IMAGE099
(14)
接着,结合约束条件
Figure 945576DEST_PATH_IMAGE100
,公式(14)可变换为矩阵迹的形式:
Figure 83296DEST_PATH_IMAGE101
Figure 935715DEST_PATH_IMAGE102
(15)
定义
Figure 893307DEST_PATH_IMAGE103
,公式(15)可以被改写成:
Figure 974526DEST_PATH_IMAGE104
(16)
显然,公式(16)和公式(5)相似,并且找到
Figure 966753DEST_PATH_IMAGE105
最优解的过程与更新公式(5)中
Figure 724493DEST_PATH_IMAGE106
的过程类似。由于篇幅限制,省略了详细的过程。值得注意的是,
Figure 434960DEST_PATH_IMAGE107
的大小分别是
Figure 818406DEST_PATH_IMAGE108
,这会带来较大的计算成本。因此,为了降低空间复杂度并为多标签数据生成细粒度的语义相似性,定义了如下的相似性矩阵:
Figure 665139DEST_PATH_IMAGE109
Figure 859360DEST_PATH_IMAGE110
Figure 588282DEST_PATH_IMAGE111
(17)
其中,
Figure 401517DEST_PATH_IMAGE112
是2范数归一化标签矩阵,且
Figure 243702DEST_PATH_IMAGE113
。相应地,
Figure 218612DEST_PATH_IMAGE114
Figure 28305DEST_PATH_IMAGE115
的2范数归一化标签矩阵。为了降低空间复杂度,基于公式(17)中
Figure 379652DEST_PATH_IMAGE116
Figure 309299DEST_PATH_IMAGE117
的定义,
Figure 455110DEST_PATH_IMAGE118
被改写为:
Figure 486520DEST_PATH_IMAGE119
(18)
其中,
Figure 641557DEST_PATH_IMAGE120
(19)
如果
Figure 114127DEST_PATH_IMAGE121
Figure 571784DEST_PATH_IMAGE122
为空,否则
Figure 965857DEST_PATH_IMAGE123
是一个全零矩阵。
步骤(2.5):更新变量
Figure 783640DEST_PATH_IMAGE124
。保持其他变量不变,并利用公式(17)中对
Figure 579558DEST_PATH_IMAGE125
的表示,可以得到以下公式来学习
Figure 441072DEST_PATH_IMAGE126
Figure 56861DEST_PATH_IMAGE127
(20)
其中,
Figure 678335DEST_PATH_IMAGE128
(21)
如果
Figure 594339DEST_PATH_IMAGE129
Figure 128219DEST_PATH_IMAGE122
为空,否则
Figure 496884DEST_PATH_IMAGE123
是一个全零矩阵。对于公式(20),很容易找到它的封闭解:
Figure 656470DEST_PATH_IMAGE130
(22)
步骤(2.6):t+1轮数据到来,重复步骤(2.1)~(2.5),直到收敛。
步骤(3)的具体过程为:
步骤(3.1):根据第二步得到的哈希编码
Figure 958138DEST_PATH_IMAGE131
,需要学习新的查询样本的哈希函数。本专利采用简单且广泛使用的线性回归,损失目标函数如下:
Figure 53133DEST_PATH_IMAGE132
(23)
其中,
Figure 17416DEST_PATH_IMAGE133
,而
Figure 856059DEST_PATH_IMAGE134
是模态的数量。因为我们需要学习所有模态的哈希函数,而不同模态的哈希函数学习过程是相似的,这里我们以
Figure 340130DEST_PATH_IMAGE135
为例。但是,上述损失只能将输入数据编码为哈希码。期望它能被投影到原始特征空间,以实现重建输入数据。因此,我们考虑将对海明空间中的哈希码进行解码的约束添加到原始空间中的特征向量中:
Figure 606026DEST_PATH_IMAGE136
(24)
基于在线哈希设置,应该同时考虑新到达的数据和之前累积的已有数据来更新哈希函数。因此,在第t轮,将上述学习损失改写为如下的形式:
Figure 559070DEST_PATH_IMAGE137
Figure 935824DEST_PATH_IMAGE138
(25)
步骤(3.2):学习哈希函数的投影矩阵
Figure 539981DEST_PATH_IMAGE139
。更新变量
Figure 976779DEST_PATH_IMAGE140
。因为严格的约束,即公式(25)中的
Figure 338490DEST_PATH_IMAGE141
,上述目标函数很难求解。因此,我们考虑将约束稍稍放宽一些,并将目标函数改写为:
Figure 96099DEST_PATH_IMAGE142
Figure 820342DEST_PATH_IMAGE143
(26)
其中,
Figure 224778DEST_PATH_IMAGE144
是一个权衡参数。将目标函数相对于
Figure 11468DEST_PATH_IMAGE145
的梯度设置为零,我们有:
Figure 870971DEST_PATH_IMAGE146
Figure 325086DEST_PATH_IMAGE147
(27)
为了进一步简化损失,表示
Figure 228320DEST_PATH_IMAGE148
,其中:
Figure 502307DEST_PATH_IMAGE149
Figure 398456DEST_PATH_IMAGE150
(28)
公式(27)可以被改写为如下:
Figure 707078DEST_PATH_IMAGE151
(29)
这是一个著名的西尔维斯特(Sylvester)方程,可以通过Bartels-Stewart算法在MATLAB中轻松实现,最终得到哈希函数的投影矩阵
Figure 781213DEST_PATH_IMAGE152
在第t轮,当一个有着第
Figure 808075DEST_PATH_IMAGE153
模态特征向量
Figure 478222DEST_PATH_IMAGE154
的新的查询样本到来时,第
Figure 906929DEST_PATH_IMAGE153
模态的哈希函数(设为
Figure 151966DEST_PATH_IMAGE155
)为:
Figure 400544DEST_PATH_IMAGE156
(30)
步骤(4)的具体过程为:
首先,根据公式(30)的哈希函数求得待检索样本的哈希编码;然后,计算该待检索样本的哈希编码与训练集的哈希编码之间的海明距离,并对海明距离进行排序;最后,按顺序输出训练集中与待检索样本一致的另一个模态的样本,得到检索结果。
更为具体的实施例子,参见附图1所示,上述方法包括:
第一步,获取数据集,并将其分为训练集和测试集。为了适应在线检索任务,训练集被分为T轮数据的形式,用于模拟流数据的到来。
第二步,通过引入hadamard矩阵,学习包含大量语义信息的每个类的标签实值嵌入。如果第t轮的标签空间不变,该步可省略。如果第t轮的标签增加,学习新标签的实值嵌入,之前标签的嵌入保持不变。
第三步,在第t轮,类标签嵌入作为全局信息,与实例间的成对语义相似性块矩阵一起使用,来学习第t轮训练数据的哈希码。
第四步,根据第t轮数据的哈希码,分别求取每个模态将特征映射到哈希码的投影矩阵,即哈希函数。
第五步,t+1轮的数据到来,重复第二步至第四步,直至所有训练数据都参与训练。
第六步,计算待检索样本的哈希编码,进一步计算二进制样本的海明距离,从而根据海明距离来返回与待检索样本相似的另一个模态的样本。
实施例二
本实施例的目的是提供基于在线哈希的跨模态检索系统,包括:
模拟流数据获取模块,被配置为:获取不同模态组成的模拟流数据;
哈希码学习模块,被配置为:针对模拟流数据,通过引入hadamard矩阵生成每个类标签的表示,并将每个类标签的表示作为用于进行哈希码的学习的全局信息,同时,每个类标签的表示还保持局部相似性信息,利用模拟流数据中新到达的数据与已有数据之间的相关性来学习更有判别力的哈希码;
其中,通过引入hadamard矩阵生成每个类标签的表示的步骤为:
学习模拟流数据第一轮出现标签的嵌入表示;
由多模态组成的数据以流的方式出现,当前轮有新到来的类时,学习新类的标签嵌入;
新类的标签嵌入被学习到,同时已有类的标签嵌入不变;
更新变量类的标签嵌入;
哈希函数学习模块,被配置为:利用学习的哈希码更新哈希函数;
检索模块,被配置为:利用更新的哈希函数计算待检索样本的哈希编码,基于哈希编码计算二进制样本的海明距离,从而根据海明距离来返回与待检索样本相似的另一个模态的样本。
所述哈希码学习模块中,当第t轮新的数据块到达时,若没有新的未见过的类出现,并且所有现有的标签都已经有相应的标签嵌入,在当前轮省略学习新类的标签嵌入的步骤。
所述哈希码学习模块中,进行哈希码的学习的过程中,利用哈希码的内积使用平方损失来近似语义相似度,对第t轮实例对间的语义相似矩阵改写为块矩阵形式,使得在在线场景下可行。
所述哈希函数学习模块,利用学习的哈希码更新哈希函数,具体为:
根据得到的哈希编码,学习新的查询样本的哈希函数,构建学习损失目标函数;
求解学习损失目标函数,学习哈希函数的投影矩阵;
在第t轮,当一个有着第m模态特征向量的新的查询样本到来时,更新第m模态的哈希函数。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种使用三步策略的在线跨模态检索方法,其特征是,包括:
获取不同模态组成的模拟流数据;
针对模拟流数据,通过引入hadamard矩阵生成每个类标签的表示,并将每个类标签的表示作为用于进行哈希码的学习的全局信息,每个类标签的表示同时保持局部相似性信息,利用模拟流数据中新到达的数据与已有数据之间的相关性来学习更有判别力的哈希码;
其中,通过引入hadamard矩阵生成每个类标签的表示的步骤为:
学习模拟流数据第一轮出现标签的嵌入表示;
由多模态组成的数据以流的方式出现,当前轮有新到来的类时,学习新类的标签嵌入;
新类的标签嵌入被学习到,同时已有类的标签嵌入不变;
更新变量类的标签嵌入;
利用学习的哈希码更新哈希函数;
利用更新的哈希函数计算待检索样本的哈希编码,基于哈希编码计算二进制样本的海明距离,从而根据海明距离来返回与待检索样本相似的另一个模态的样本;
所述三步策略具体为:
步骤(1):通过引入hadamard矩阵,学习每个类的标签嵌入,并将其作为全局信息来指导哈希学习;
步骤(2):将步骤(1)中学习到的类标签嵌入和实例间的成对相似性一起使用,为第t轮数据学习哈希编码;
步骤(3):根据步骤(2)得到的第t轮数据的哈希编码学习哈希函数,用于将原始空间中的特征向量映射为海明空间中的哈希编码;
在步骤(2)中,学习哈希码,学习方法是利用第一步学到的标签的嵌入作为全局信息,加上实例间的成对相似度信息,构造损失函数,通过最小化损失函数来学习哈希码;
将每个类标签的表示作为用于进行哈希码的学习的全局信息,每个类标签的表示同时保持局部相似性信息,学习包含大量语义信息的类标签嵌入,构建哈希码学习的总体目标函数,获得其封闭解,直到收敛。
2.如权利要求1所述的一种使用三步策略的在线跨模态检索方法,其特征是,当第t轮新的数据块到达时,若没有新的未见过的类出现,并且所有现有的标签都已经有相应的标签嵌入,在当前轮省略学习新类的标签嵌入的步骤。
3.如权利要求1所述的一种使用三步策略的在线跨模态检索方法,其特征是,进行哈希码的学习的过程中,利用哈希码的内积使用平方损失来近似语义相似度,对第t轮实例对间的语义相似矩阵改写为块矩阵形式,使得在在线场景下可行。
4.如权利要求1所述的一种使用三步策略的在线跨模态检索方法,其特征是,利用学习的哈希码更新哈希函数,具体为:
根据得到的哈希编码,学习新的查询样本的哈希函数,构建学习损失目标函数;
求解学习损失目标函数,学习哈希函数的投影矩阵;
在第t轮,当一个有着第m模态特征向量的新的查询样本到来时,更新第m模态的哈希函数。
5.如权利要求1所述的一种使用三步策略的在线跨模态检索方法,其特征是,基于哈希编码计算二进制样本的海明距离时,计算该待检索样本的哈希编码与训练集的哈希编码之间的海明距离,并对海明距离进行排序;最后,按顺序输出训练集中与待检索样本一致的另一个模态的样本,得到检索结果。
6.使用三步策略的在线跨模态检索系统,其特征是,包括:
模拟流数据获取模块,被配置为:获取不同模态组成的模拟流数据;
哈希码学习模块,被配置为:针对模拟流数据,通过引入hadamard矩阵生成每个类标签的表示,并将每个类标签的表示作为用于进行哈希码的学习的全局信息,每个类标签的表示同时保持局部相似性信息,利用模拟流数据中新到达的数据与已有数据之间的相关性来学习更有判别力的哈希码;
将每个类标签的表示作为用于进行哈希码的学习的全局信息,每个类标签的表示同时保持局部相似性信息,学习包含大量语义信息的类标签嵌入,构建哈希码学习的总体目标函数,获得其封闭解,直到收敛;
通过引入hadamard矩阵生成每个类标签的表示的步骤为:
学习模拟流数据第一轮出现标签的嵌入表示;
由多模态组成的数据以流的方式出现,当前轮有新到来的类时,学习新类的标签嵌入;
新类的标签嵌入被学习到,同时已有类的标签嵌入不变;
更新变量类的标签嵌入;
哈希函数学习模块,被配置为:利用学习的哈希码更新哈希函数;
检索模块,被配置为:利用更新的哈希函数计算待检索样本的哈希编码,基于哈希编码计算二进制样本的海明距离,从而根据海明距离来返回与待检索样本相似的另一个模态的样本;
所述三步策略具体为:
步骤(1):通过引入hadamard矩阵,学习每个类的标签嵌入,并将其作为全局信息来指导哈希学习;
步骤(2):将步骤(1)中学习到的类标签嵌入和实例间的成对相似性一起使用,为第t轮数据学习哈希编码;
步骤(3):根据步骤(2)得到的第t轮数据的哈希编码学习哈希函数,用于将原始空间中的特征向量映射为海明空间中的哈希编码;
在步骤(2)中,学习哈希码,学习方法是利用第一步学到的标签的嵌入作为全局信息,加上实例间的成对相似度信息,构造损失函数,通过最小化损失函数来学习哈希码。
7.如权利要求6所述的使用三步策略的在线跨模态检索系统,其特征是,所述哈希码学习模块中,当第t轮新的数据块到达时,若没有新的未见过的类出现,并且所有现有的标签都已经有相应的标签嵌入,在当前轮省略学习新类的标签嵌入的步骤。
8.如权利要求6所述的使用三步策略的在线跨模态检索系统,其特征是,所述哈希码学习模块中,进行哈希码的学习的过程中,利用哈希码的内积使用平方损失来近似语义相似度,对第t轮实例对间的语义相似矩阵改写为块矩阵形式,使得在在线场景下可行。
9.如权利要求6所述的使用三步策略的在线跨模态检索系统,其特征是,所述哈希函数学习模块,利用学习的哈希码更新哈希函数,具体为:
根据得到的哈希编码,学习新的查询样本的哈希函数,构建学习损失目标函数;
求解学习损失目标函数,学习哈希函数的投影矩阵;
在第t轮,当一个有着第m模态特征向量的新的查询样本到来时,更新第m模态的哈希函数。
CN202110889022.8A 2021-08-04 2021-08-04 一种使用三步策略的在线跨模态检索方法及系统 Active CN113326287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110889022.8A CN113326287B (zh) 2021-08-04 2021-08-04 一种使用三步策略的在线跨模态检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110889022.8A CN113326287B (zh) 2021-08-04 2021-08-04 一种使用三步策略的在线跨模态检索方法及系统

Publications (2)

Publication Number Publication Date
CN113326287A CN113326287A (zh) 2021-08-31
CN113326287B true CN113326287B (zh) 2021-11-02

Family

ID=77427033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110889022.8A Active CN113326287B (zh) 2021-08-04 2021-08-04 一种使用三步策略的在线跨模态检索方法及系统

Country Status (1)

Country Link
CN (1) CN113326287B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868366B (zh) * 2021-12-06 2022-04-01 山东大学 一种面向流数据的在线跨模态检索方法与系统
CN114186084B (zh) * 2021-12-14 2022-08-26 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN114117153B (zh) * 2022-01-25 2022-05-24 山东建筑大学 一种基于相似度重学习的在线跨模态检索方法及系统
CN114329109B (zh) * 2022-03-15 2022-06-03 山东建筑大学 基于弱监督哈希学习的多模态检索方法及系统
CN115048539B (zh) * 2022-08-15 2022-11-15 山东大学 基于动态记忆力的社交媒体数据在线检索方法及系统
CN115080880B (zh) * 2022-08-23 2022-11-08 山东建筑大学 一种基于鲁棒相似保持的跨模态检索方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271486A (zh) * 2018-09-19 2019-01-25 九江学院 一种相似性保留跨模态哈希检索方法
CN111639197A (zh) * 2020-05-28 2020-09-08 山东大学 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统
CN112100413A (zh) * 2020-09-07 2020-12-18 济南浪潮高新科技投资发展有限公司 一种跨模态的哈希检索方法
AU2020103322A4 (en) * 2020-11-09 2021-01-14 Southwest University Supervised Discrete Hashing Algorithm With Relaxation Over Distributed Network
CN112580636A (zh) * 2020-12-30 2021-03-30 杭州电子科技大学 一种基于跨模态协同推理的图像美学质量评价方法
CN112800229A (zh) * 2021-02-05 2021-05-14 昆明理工大学 基于知识图嵌入的涉案领域的半监督方面级情感分析方法
CN113177141A (zh) * 2021-05-24 2021-07-27 北湾科技(武汉)有限公司 基于语义嵌入软相似性的多标签视频哈希检索方法及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271486A (zh) * 2018-09-19 2019-01-25 九江学院 一种相似性保留跨模态哈希检索方法
CN111639197A (zh) * 2020-05-28 2020-09-08 山东大学 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统
CN112100413A (zh) * 2020-09-07 2020-12-18 济南浪潮高新科技投资发展有限公司 一种跨模态的哈希检索方法
AU2020103322A4 (en) * 2020-11-09 2021-01-14 Southwest University Supervised Discrete Hashing Algorithm With Relaxation Over Distributed Network
CN112580636A (zh) * 2020-12-30 2021-03-30 杭州电子科技大学 一种基于跨模态协同推理的图像美学质量评价方法
CN112800229A (zh) * 2021-02-05 2021-05-14 昆明理工大学 基于知识图嵌入的涉案领域的半监督方面级情感分析方法
CN113177141A (zh) * 2021-05-24 2021-07-27 北湾科技(武汉)有限公司 基于语义嵌入软相似性的多标签视频哈希检索方法及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A Two-Step Cross-Modal Hashing by Exploiting Label Correlations and Preserving Similarity in Both Steps";Zhen-Duo Chen et al.;《Proceedings of the 27th ACM International Conference on Multimedia》;20191015;第1694-1702页 *
"联合哈希特征和分类器学习的跨模态检索算法";刘昊鑫 等;《模式识别与人工智能》;20200229;第33卷(第21期);第160-165页 *

Also Published As

Publication number Publication date
CN113326287A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN113326287B (zh) 一种使用三步策略的在线跨模态检索方法及系统
CN107632981B (zh) 一种引入源语组块信息编码的神经机器翻译方法
Xia et al. Supervised hashing for image retrieval via image representation learning
Ge et al. Graph cuts for supervised binary coding
CN111639197B (zh) 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统
CN110688854B (zh) 命名实体识别方法、装置及计算机可读存储介质
CN113312505B (zh) 一种基于离散在线哈希学习的跨模态检索方法及系统
WO2022062404A1 (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN112132179A (zh) 基于少量标注样本的增量学习方法及系统
CN114117153B (zh) 一种基于相似度重学习的在线跨模态检索方法及系统
CN113326289B (zh) 面向携带新类别的增量数据的快速跨模态检索方法及系统
CN114329109B (zh) 基于弱监督哈希学习的多模态检索方法及系统
CN113868366B (zh) 一种面向流数据的在线跨模态检索方法与系统
CN114186084B (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN111241828A (zh) 情感智能识别方法、装置及计算机可读存储介质
CN111223532A (zh) 确定目标化合物的反应物的方法、设备、装置、介质
CN115329766B (zh) 一种基于动态词信息融合的命名实体识别方法
CN115577144A (zh) 一种基于在线多哈希码联合学习的跨模态检索方法
CN115700515A (zh) 文本多标签分类方法及装置
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
Zhan et al. Weakly-supervised online hashing
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Liu et al. Online optimized product quantization
CN116150411A (zh) 一种基于自适应类相关离散哈希的零样本跨模态检索方法
CN116595189A (zh) 基于两阶段的零样本关系三元组抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant