CN113868366B - 一种面向流数据的在线跨模态检索方法与系统 - Google Patents

一种面向流数据的在线跨模态检索方法与系统 Download PDF

Info

Publication number
CN113868366B
CN113868366B CN202111471675.0A CN202111471675A CN113868366B CN 113868366 B CN113868366 B CN 113868366B CN 202111471675 A CN202111471675 A CN 202111471675A CN 113868366 B CN113868366 B CN 113868366B
Authority
CN
China
Prior art keywords
data
round
hash
training
hash code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111471675.0A
Other languages
English (en)
Other versions
CN113868366A (zh
Inventor
罗昕
宋佩璇
詹雨薇
许信顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202111471675.0A priority Critical patent/CN113868366B/zh
Publication of CN113868366A publication Critical patent/CN113868366A/zh
Application granted granted Critical
Publication of CN113868366B publication Critical patent/CN113868366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于大规模流数据检索技术领域,提供了一种面向流数据的在线跨模态检索方法及系统,所述方法包括以下步骤:获取待查询数据,采用预先训练得到的哈希函数映射得到相应哈希码,所述待查询数据为图像或文本;通过将所述待查询数据的哈希码与数据库中样本的哈希码进行对比,得到检索结果;其中,所述哈希函数的训练方法包括:获取包含成对图像和文本的训练数据,并将所述训练数据划分轮次;从第一轮次开始,对每个轮次训练数据依次进行哈希码学习,得到相应哈希函数。本发明通过将训练数据划分轮次,依次进行哈希码学习,更加适应于在线流数据跨模态检索的需求。

Description

一种面向流数据的在线跨模态检索方法与系统
技术领域
本发明属于大规模流数据检索技术领域,尤其涉及一种面向流数据的在线跨模态检索方法与系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
随着由多种异构模态组成的数据爆炸式增长,数据集变得越来越大,将所有数据加载到内存中是不现实的,这对于在线跨模态检索方法提出了更高的要求。尽管目前已通过在线哈希方法实现了动态图像数据库的有效搜索,但随着数据集的不断增大,模型的资源消耗是一个值得关注的问题。虽然哈希方法将高维数据映射成了二进制的字符串,可以大幅度的降低对存储资源的消耗,但是目前大多数现有的监督哈希方法哈希码的维度总是远大于标签数量的(例如 32、64、96 或 128)。当面对大规模数据集时,首先模型需要大量存储空间来保存样本的哈希码,使得长的哈希码浪费了大量存储资源;其次,模型需要为计算长的二进制哈希码之间的汉明距离而使用更多的计算资源。
为了让模型可扩展到大规模数据集,可以在资源紧缺的条件下进行快速的检索,应该在保证性能的前提下保持哈希码尽可能短。有监督的低位哈希中的低位也称短长度,被定义为略大于log2(c),其中c是类别的数量。对于无监督哈希方法,由于没有类别数量的概念(数据没有监督信息),短长度被定义为4 - 8。然而,使用低位哈希码会面临严重的数据信息丢失,大多数现有的在线跨模态方法不能保证良好的性能。
发明内容
为克服上述现有技术的不足,本发明提供了一种面向流数据的在线跨模态检索方法与系统。本发明通过将训练数据划分轮次,依次进行哈希码学习,更加适应于在线流数据跨模态检索的需求。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
一种面向流数据的在线跨模态检索方法,包括以下步骤:
获取待查询数据,采用预先训练得到的哈希函数映射得到相应哈希码,所述待查询数据为图像或文本;
通过将所述待查询数据的哈希码与数据库中样本的哈希码进行对比,得到检索结果;
其中,所述哈希函数的训练方法包括:
获取包含成对图像和文本的训练数据,并将所述训练数据划分轮次;
从第一轮次开始,对每个轮次训练数据依次进行哈希码学习,得到相应哈希函数;
针对待查询数据,采用基于最后一轮次训练得到的哈希函数进行映射;
第t轮哈希函数求解方法为:
Figure 520298DEST_PATH_IMAGE001
Figure 69091DEST_PATH_IMAGE002
是第t轮经过零均值处理后的特征矩阵,
Figure 219450DEST_PATH_IMAGE003
是第m个模态的哈希映射,
Figure 565112DEST_PATH_IMAGE004
为第t轮哈希函数的实值表示,
Figure 498433DEST_PATH_IMAGE005
是可学习的第t轮次控制M个不同模态权重的参数,
Figure 964049DEST_PATH_IMAGE006
是权衡参数,α为调节参数,其中,m=1或2,分别表示图像模态和文本模态。
进一步地,对每个轮次训练数据依次进行哈希码学习的步骤包括:
对当前轮次训练数据,分别对其中的图像数据和文本数据进行特征提取,得到图像特征矩阵和文本特征矩阵;
根据所述图像特征矩阵和文本特征矩阵进行哈希码学习,得到图像特征和文本特征的哈希码,以及映射到哈希码的哈希函数,并将哈希码存储至数据库。
进一步地,对每一轮训练数据进行哈希码学习之前,均进行预处理,使每一轮的特征矩阵为零均值。
进一步地,第t轮次特征矩阵的零均值计算方法为:
Figure 222992DEST_PATH_IMAGE007
Figure 790371DEST_PATH_IMAGE008
其中,m=1或2,分别表示图像模态和文本模态,
Figure 589700DEST_PATH_IMAGE009
为第t轮次特征矩阵,
Figure 113085DEST_PATH_IMAGE010
为第t轮数据块的特征矩阵,
Figure 90399DEST_PATH_IMAGE011
是第t轮次特征矩阵数据块的零均值,
Figure 659921DEST_PATH_IMAGE012
是第t-1轮次特征矩阵数据块的零均值,
Figure 200624DEST_PATH_IMAGE013
是前t-1轮累积的现有数据块的总大小,
Figure 125985DEST_PATH_IMAGE014
是新到达的数据的大小。
进一步地,将所述待查询数据的哈希码与数据库中样本的哈希码进行对比具体为:计算待查询数据的哈希码与数据库中样本的哈希码之间的海明距离。
一个或多个实施例提供了一种面向流数据的在线跨模态检索系统,包括:
哈希映射模块,用于获取待查询数据,采用预先训练得到的哈希函数映射得到相应哈希码,所述待查询数据为图像或文本;
跨模态检索模块,用于通过将所述待查询数据的哈希码与数据库中样本的哈希码进行对比,得到检索结果;
其中,所述哈希函数的训练方法包括:
获取包含成对图像和文本的训练数据,并将所述训练数据划分轮次;
从第一轮次开始,对每个轮次训练数据依次进行哈希码学习,得到相应哈希函数;
针对待查询数据,采用基于最后一轮次训练得到的哈希函数进行映射;
第t轮哈希函数求解方法为:
Figure 726731DEST_PATH_IMAGE015
Figure 252390DEST_PATH_IMAGE002
是第t轮经过零均值处理后的特征矩阵,
Figure 596784DEST_PATH_IMAGE003
是第m个模态的哈希映射,
Figure 173390DEST_PATH_IMAGE004
为第t轮哈希函数的实值表示,
Figure 476195DEST_PATH_IMAGE016
是可学习的第t轮次控制M个不同模态权重的参数,
Figure 517181DEST_PATH_IMAGE006
是权衡参数,α为调节参数,其中,m=1或2,分别表示图像模态和文本模态。
以上一个或多个技术方案存在以下有益效果:
本发明通过对训练数据划分轮次,来模拟流式数据的到来,有利于流式多模态数据的动态变化,更加适应于实时在线检索需求,解决了数据量大,哈希码占用过多存储空间的问题。
为应对可用于检索的网络资源数据是以数据流形式不断更新的场景,对于图像或文本训练数据的特征,基于已有数据的零均值,对新数据的零均值进行计算,从而尽可能逼近总体均值,当新数据到来时无需再对所有数据进行训练,节省了运算量,同时,由于每轮训练时均考虑到已有数据,保证了后续的检索精度。
提出了一种新的无监督的在线跨模态短位哈希方法,即用于在线跨模态检索的低维紧致哈希,简称 LCH,它通过在原始特征和具有正交、平衡约束的哈希码之间构建强连接来充分探索数据之间的内在属性,从而避免信息的丢失,生成有判别力的短位哈希码,可以在资源短缺的情况下,对大规模数据进行快速的检索并且具有良好的性能。
通过自加权策略来指导统一哈希码的学习,能够及时捕捉不同模态的相关性和流式多模态数据的动态变化,使得学习到的图片模态和文本模态的哈希码尽可能相似,保证后续的检索准确度;并且,提出一种直接学习离散哈希码的迭代优化算法,可以有效保证学到的哈希码的质量。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一中面向流数据的在线跨模态检索方法流程图;
图2为本发明实施例一中哈希函数训练方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了一种面向流数据的在线跨模态检索方法,如图1所示,包括以下步骤:
步骤1:获取待查询数据,采用预先训练得到的哈希函数映射得到相应哈希码,所述待查询数据为图像或文本;
步骤2:通过将所述待查询数据的哈希码与数据库中样本的哈希码进行对比,得到检索结果。
其中,如图2所示,所述哈希函数的训练方法包括:
S1:获取数据数据,并将其分为训练数据和测试数据。所述训练数据包括成对的图像和文本数据,由于可用于检索的网络资源(例如图像和文本数据)是以数据流的形式不断更新的,为了适应在线检索任务,将所述训练数据划分轮次,用于模拟流数据的到来。本实施例中,按照数据量进行轮次划分,每个轮次数据量相同。
S2:从第一轮次开始,对每个轮次训练数据依次进行哈希码学习,得到相应哈希函数,并将得到哈希码存储至数据库。至此,针对每一轮次训练数据均得到一个哈希函数,所述步骤1中所采用的哈希函数优选最后一轮次得到的哈希函数。
对于每轮次训练数据进行哈希码学习的步骤如下:
S201:对当前轮次训练数据,分别对其中的图像数据和文本数据进行特征提取,得到图像特征矩阵和文本特征矩阵。
本实施例选取了多个数据集用于构建训练数据和测试数据。针对不同的数据集特点,选用不同的特征提取方法。例如对于MIRFlickr数据集,本实施例使用150维的直方图特征和利用PCA提取的500维文本特征;对于IAPR-TC数据集,本实施例使用GIST特征描述子提取512维的图像特征和利用词袋模型提取的2912维的文本特征;对于NUS-WIDE数据集,本实施例使用二元标记向量提取1000维的图像特征和SIFT特征提取的500维文本特征。
S202:对图像特征矩阵和文本特征矩阵分别进行数据预处理。
本实施例对于图像特征和文本特征数据,采用相同的方法进行数据预处理,具体为:使当前轮次训练数据中的每一个图像/文本特征矩阵为零均值,从而简化运算过程,提高数据处理效率。
以第t轮的数据块
Figure 868528DEST_PATH_IMAGE017
为例,m=1或2,分别表示图像模态和文本模态。假设到达第t-1轮的数据特征矩阵
Figure 80066DEST_PATH_IMAGE018
均值为
Figure 225877DEST_PATH_IMAGE019
,其中此时的零均值数据为
Figure 8019DEST_PATH_IMAGE020
。对于第t轮的新数据块
Figure 694216DEST_PATH_IMAGE021
,零均值将变为:
Figure 963523DEST_PATH_IMAGE008
其中,
Figure 624442DEST_PATH_IMAGE022
是当前数据块的均值,
Figure 549673DEST_PATH_IMAGE023
是上一个数据块在t-1轮更新的零均值,
Figure 836298DEST_PATH_IMAGE024
是前t-1轮累积的现有数据块的总大小,而
Figure 163374DEST_PATH_IMAGE025
是新到达的数据
Figure 526353DEST_PATH_IMAGE026
的大小。通过使用零均值,在第t轮训练的新数据块将变为
Figure 470039DEST_PATH_IMAGE027
,为了更简洁,使用
Figure 498038DEST_PATH_IMAGE028
表示
Figure 758249DEST_PATH_IMAGE029
由于可用于检索的网络资源(例如图像和文本数据)是以数据流的形式不断更新的,为了实现全面的检索,需要不断的对这些数据进行训练得到目标哈希函数,但是,由于数据的不断更新,我们不可能计算出一个总体均值,为了避免对于已有数据的重复训练,本实施例基于已有数据的零均值,对新数据的零均值进行计算,从而尽可能逼近总体均值,当新数据到来时无需再对所有数据进行训练,节省了运算量,同时,由于每轮训练时均考虑到已有数据,保证了后续的检索精度。
S203:根据预处理后的图像和文本特征矩阵,进行哈希码学习,得到图像和文本特征的哈希码,及映射到哈希码的哈希函数(或称投影矩阵),并将哈希码存储至数据库。其中,所述哈希码学习方法如下:
为了减少信息丢失并学习有区别的哈希码,本实施例引入了对哈希码的正交和均衡约束。
由于没有监督信息可以嵌入,通过使用公式(1)在原始特征和哈希码之间构建强连接来充分利用数据之间的内在属性。具体来说,第一项通过集体矩阵分解的方式从所有模态的特征中学习哈希码,而第二项学习样本外扩展的哈希映射,可以将原始特征转换为哈希码。通过利用哈希码空间作为潜在的公共空间,为不同模态生成统一的哈希码。
Figure 213501DEST_PATH_IMAGE030
Figure 910061DEST_PATH_IMAGE031
(1)
其中
Figure 289221DEST_PATH_IMAGE032
是经过零均值处理后的特征矩阵,
Figure 325310DEST_PATH_IMAGE033
是基向量,
Figure 279360DEST_PATH_IMAGE034
是统一哈希码,
Figure 400900DEST_PATH_IMAGE035
是第m个模态的哈希映射,
Figure 318171DEST_PATH_IMAGE036
是控制M个不同模态权重的参数,
Figure 536663DEST_PATH_IMAGE037
是权衡参数。
在多模态学习场景中,公式(1)中的参数
Figure 333718DEST_PATH_IMAGE038
在将异构模态融合为哈希码方面起着重要作用。 然而,
Figure 21182DEST_PATH_IMAGE039
通常是固定的,这种方案无法及时捕捉流多模态数据的动态变化。因此,本实施例尝试自适应地衡量不同模式的重要性。具体而言,采用了广泛使用且有效的自加权策略,放弃原来的权重
Figure 929095DEST_PATH_IMAGE040
,重写公式(1):
Figure 2093DEST_PATH_IMAGE041
Figure 783099DEST_PATH_IMAGE042
(2)
其中
Figure 879231DEST_PATH_IMAGE043
Figure 387573DEST_PATH_IMAGE044
Figure 518340DEST_PATH_IMAGE045
Figure 470246DEST_PATH_IMAGE046
)是可学习的控制M个不同模态权重的参数,本实施例以M=2为例。由于公式(2)中的两个多项式
Figure 788095DEST_PATH_IMAGE047
Figure 631286DEST_PATH_IMAGE048
都涉及多个模态,其中,
Figure 164030DEST_PATH_IMAGE049
为F-范数,因此引入了两个参数,即
Figure 473788DEST_PATH_IMAGE043
Figure 341250DEST_PATH_IMAGE050
Figure 394657DEST_PATH_IMAGE051
Figure 313065DEST_PATH_IMAGE052
Figure 590463DEST_PATH_IMAGE053
无关,在此省略公式(2)的证明。
当新的数据块到来时,例如在第t轮,将
Figure 148483DEST_PATH_IMAGE054
Figure 818630DEST_PATH_IMAGE055
Figure 778496DEST_PATH_IMAGE056
分别替换为
Figure 226795DEST_PATH_IMAGE057
Figure 819581DEST_PATH_IMAGE058
Figure 214791DEST_PATH_IMAGE059
,其中,
Figure 357059DEST_PATH_IMAGE060
是前t-1轮累积的数据块的哈希码,
Figure 179521DEST_PATH_IMAGE061
是第t轮数据块的哈希码。类似地,
Figure 259604DEST_PATH_IMAGE062
Figure 255242DEST_PATH_IMAGE063
分别为前t-1轮累积的数据块在第一模态和第二模态的的特征矩阵,
Figure 924121DEST_PATH_IMAGE064
Figure 996113DEST_PATH_IMAGE065
是第t轮数据块在第一模态和第二模态的特征矩阵。因此最终目标函数为:
Figure 750442DEST_PATH_IMAGE066
Figure 549771DEST_PATH_IMAGE067
Figure 140066DEST_PATH_IMAGE068
(3)
其中
Figure 101069DEST_PATH_IMAGE069
,R(·) 表示正则化项,γ是权衡参数,
Figure 342694DEST_PATH_IMAGE070
是单位矩阵,
Figure 696446DEST_PATH_IMAGE071
是样本的数量;
Figure 74338DEST_PATH_IMAGE072
Figure 2980DEST_PATH_IMAGE073
是可学习的第t轮次控制M个不同模态权重的参数,
Figure 13792DEST_PATH_IMAGE074
是第t轮次基向量。然而,由于
Figure 358186DEST_PATH_IMAGE075
的二元约束,上述问题很难优化,因此,将
Figure 652901DEST_PATH_IMAGE075
替换为实值
Figure 424548DEST_PATH_IMAGE076
,将
Figure 453815DEST_PATH_IMAGE077
替换为实值
Figure 133058DEST_PATH_IMAGE078
,并加入调节参数α,最终目标函数变为:
Figure 501854DEST_PATH_IMAGE079
Figure 444402DEST_PATH_IMAGE080
Figure 429807DEST_PATH_IMAGE081
Figure 178320DEST_PATH_IMAGE082
Figure 385310DEST_PATH_IMAGE083
Figure 577388DEST_PATH_IMAGE084
(4)
优化过程:从目标函数中可以看出,需要优化的变量有六个,分别为
Figure 502619DEST_PATH_IMAGE085
。和大多数深度跨模态哈希检索方法类似,本实施例采用迭代优化的方式来最小化损失函数,即每次只优化一个变量,其他变量保持不变。具体的优化策略如下:
第一步:固定变量
Figure 523664DEST_PATH_IMAGE086
,更新变量
Figure 929369DEST_PATH_IMAGE087
。目标函数可以改写为:
Figure 948141DEST_PATH_IMAGE088
Figure 157405DEST_PATH_IMAGE089
(5)
通过设置上式导数设为零,可以很容易地得到更新
Figure 185404DEST_PATH_IMAGE090
的方程:
Figure 180036DEST_PATH_IMAGE091
(6)
其中
Figure 635288DEST_PATH_IMAGE092
为中间变量,
Figure 597428DEST_PATH_IMAGE093
Figure 711009DEST_PATH_IMAGE094
Figure 12677DEST_PATH_IMAGE095
(7)
因此可以利用
Figure 701147DEST_PATH_IMAGE096
更新
Figure 822687DEST_PATH_IMAGE097
Figure 271117DEST_PATH_IMAGE098
(8)
同理可以得到更新
Figure 427292DEST_PATH_IMAGE099
的方程
Figure 21084DEST_PATH_IMAGE100
(9)
其中
Figure 708549DEST_PATH_IMAGE101
为中间变量,
Figure 616462DEST_PATH_IMAGE102
Figure 423881DEST_PATH_IMAGE103
第二步:更新
Figure 391837DEST_PATH_IMAGE104
。当其他变量固定后,目标函数可以改写为:
Figure 301018DEST_PATH_IMAGE105
Figure 340518DEST_PATH_IMAGE106
(10)
通过设置上式导数设为零,可以很容易地得到更新
Figure 205706DEST_PATH_IMAGE107
的方程:
Figure 892033DEST_PATH_IMAGE108
(11)
其中
Figure 475462DEST_PATH_IMAGE109
Figure 53073DEST_PATH_IMAGE110
,因此可以利用
Figure 851396DEST_PATH_IMAGE111
更新
Figure 161155DEST_PATH_IMAGE112
Figure 28617DEST_PATH_IMAGE113
Figure 82023DEST_PATH_IMAGE114
,可以利用
Figure 12151DEST_PATH_IMAGE115
更新
Figure 492811DEST_PATH_IMAGE116
。同理可以得到更新
Figure 847569DEST_PATH_IMAGE117
的方程:
Figure 439087DEST_PATH_IMAGE118
(12)
其中
Figure 946423DEST_PATH_IMAGE119
Figure 863563DEST_PATH_IMAGE120
Figure 971196DEST_PATH_IMAGE121
Figure 366406DEST_PATH_IMAGE122
第三步:更新
Figure 728248DEST_PATH_IMAGE123
。总体的目标函数可以改写为:
Figure 550711DEST_PATH_IMAGE124
Figure 880061DEST_PATH_IMAGE125
(13)
将上式转化为矩阵迹的最大化问题,得到:
Figure 78961DEST_PATH_IMAGE126
Figure 826468DEST_PATH_IMAGE127
(14)
其中,
Figure 616570DEST_PATH_IMAGE128
Figure 370899DEST_PATH_IMAGE129
并对
Figure 186539DEST_PATH_IMAGE130
进行特征分解以找到
Figure 709925DEST_PATH_IMAGE131
的解,其定义如下,
Figure 936507DEST_PATH_IMAGE132
(15)
其中
Figure 991181DEST_PATH_IMAGE133
Figure 266305DEST_PATH_IMAGE134
分别表示正特征值和对应特征向量的对角矩阵,
Figure 237672DEST_PATH_IMAGE135
Figure 572838DEST_PATH_IMAGE130
的秩。
剩余的特征向量对应于零特征值,定义为
Figure 849230DEST_PATH_IMAGE136
,进一步定义
Figure 990361DEST_PATH_IMAGE137
。 通过施密特正交化,将
Figure 488339DEST_PATH_IMAGE138
Figure 338614DEST_PATH_IMAGE139
正交并初始化一个随机正交矩阵
Figure 289253DEST_PATH_IMAGE140
。如果
Figure 234075DEST_PATH_IMAGE141
,则
Figure 399608DEST_PATH_IMAGE139
Figure 342157DEST_PATH_IMAGE142
Figure 576829DEST_PATH_IMAGE143
为空。因此,方程的最优解如下:
Figure 997446DEST_PATH_IMAGE144
(16)
第四步:更新
Figure 610961DEST_PATH_IMAGE145
。由于
Figure 724410DEST_PATH_IMAGE145
是从Cauchy-Schwarz 不等式中推断出的自适应参数,因此只能通过以下等式进行更新:
Figure 197111DEST_PATH_IMAGE146
(17)
其中
Figure 562365DEST_PATH_IMAGE147
Figure 623861DEST_PATH_IMAGE148
第五步:更新
Figure 704950DEST_PATH_IMAGE149
。与更新
Figure 196105DEST_PATH_IMAGE150
相似,可以直接得到更新公式:
Figure 224104DEST_PATH_IMAGE151
(18)
其中
Figure 202424DEST_PATH_IMAGE152
Figure 205147DEST_PATH_IMAGE153
第六步:更新
Figure 104970DEST_PATH_IMAGE154
。目标函数可以改写为:
Figure 998976DEST_PATH_IMAGE155
Figure 300645DEST_PATH_IMAGE156
(19)
这个问题有封闭解,因此可以得到哈希码的生成函数:
Figure 474268DEST_PATH_IMAGE157
(20)
S204:当前轮次哈希码学习过程结束,接收第t+1轮训练数据,重复S201至S204,直至所有轮次训练数据都参与训练。
当新一轮数据到来时,现有数据的哈希码不变,为了利用现有数据包含的信息,考虑原有数据与新到数据的相关性,可以充分利用各阶段数据,更好的获得统一哈希码。
所述步骤2中,将查询样本的哈希码与数据库中存储的所有样本的哈希码进行比较,寻找海明距离最近的N个(按需求自定义)样本,顺序输出训练集中与文本查询样本一致的文本模态样本或与图像查询样本一致的图像模态样本,得到检索结果。
以上仅针对双模态数据之间的查询进行阐述,本领域技术人员基于上述阐述,可以将其扩展到多模态情况。
实施例二
本实施例的目的是提供一种面向流数据的在线跨模态检索系统,包括:
哈希映射模块,用于获取待查询数据,采用预先训练得到的哈希函数映射得到相应哈希码,所述待查询数据为图像或文本;
跨模态检索模块,用于通过将所述待查询数据的哈希码与数据库中样本的哈希码进行对比,得到检索结果;
其中,所述哈希函数的训练方法包括:
获取包含成对图像和文本的训练数据,并将所述训练数据划分轮次;
从第一轮次开始,对每个轮次训练数据依次进行哈希码学习,得到相应哈希函数。
以上实施例二涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种面向流数据的在线跨模态检索方法,其特征在于,包括以下步骤:
获取待查询数据,采用预先训练得到的哈希函数映射得到相应哈希码,所述待查询数据为图像或文本;
通过将所述待查询数据的哈希码与数据库中样本的哈希码进行对比,得到检索结果;
其中,所述哈希函数的训练方法包括:
获取包含成对图像和文本的训练数据,并将所述训练数据划分轮次;
从第一轮次开始,对每个轮次训练数据依次进行哈希码学习,得到相应哈希函数;
针对待查询数据,采用基于最后一轮次训练得到的哈希函数进行映射;
第t轮次哈希函数求解方法为:
Figure 331389DEST_PATH_IMAGE001
Figure 420699DEST_PATH_IMAGE002
是第t轮经过零均值处理后的特征矩阵,
Figure 185393DEST_PATH_IMAGE003
是第m个模态的哈希映射,
Figure 281525DEST_PATH_IMAGE004
为第t轮哈希函数的实值表示,
Figure 806178DEST_PATH_IMAGE005
是可学习的第t轮次控制M个不同模态权重的参数,
Figure 936945DEST_PATH_IMAGE006
是权衡参数,α为调节参数,其中,m=1或2,分别表示图像模态和文本模态。
2.如权利要求1所述的一种面向流数据的在线跨模态检索方法,其特征在于,对每个轮次训练数据依次进行哈希码学习的步骤包括:
对当前轮次训练数据,分别对其中的图像数据和文本数据进行特征提取,得到图像特征矩阵和文本特征矩阵;
根据所述图像特征矩阵和文本特征矩阵进行哈希码学习,得到图像特征和文本特征的哈希码,以及映射到哈希码的哈希函数,并将哈希码存储至数据库。
3.如权利要求2所述的一种面向流数据的在线跨模态检索方法,其特征在于,对每一轮训练数据进行哈希码学习之前,均进行预处理,使每一轮的特征矩阵为零均值。
4.如权利要求3所述的一种面向流数据的在线跨模态检索方法,其特征在于,第t轮次特征矩阵的零均值计算方法为:
Figure 138120DEST_PATH_IMAGE007
Figure 721548DEST_PATH_IMAGE008
其中,
Figure 518734DEST_PATH_IMAGE009
为第t轮次特征矩阵,
Figure 504007DEST_PATH_IMAGE010
为第t轮数据块的特征矩阵,
Figure 141662DEST_PATH_IMAGE011
是第t轮次特征矩阵数据块的零均值,
Figure 759856DEST_PATH_IMAGE012
是第t-1轮次特征矩阵数据块的零均值,
Figure 813263DEST_PATH_IMAGE013
是前t-1轮累积的现有数据块的总大小,
Figure 715360DEST_PATH_IMAGE014
是新到达的数据的大小。
5.如权利要求1所述的一种面向流数据的在线跨模态检索方法,其特征在于,将所述待查询数据的哈希码与数据库中样本的哈希码进行对比具体为:计算待查询数据的哈希码与数据库中样本的哈希码之间的海明距离。
6.一种面向流数据的在线跨模态检索系统,其特征在于,包括:
哈希映射模块,用于获取待查询数据,采用预先训练得到的哈希函数映射得到相应哈希码,所述待查询数据为图像或文本;
跨模态检索模块,用于通过将所述待查询数据的哈希码与数据库中样本的哈希码进行对比,得到检索结果;
其中,所述哈希函数的训练方法包括:
获取包含成对图像和文本的训练数据,并将所述训练数据划分轮次;
从第一轮次开始,对每个轮次训练数据依次进行哈希码学习,得到相应哈希函数;
针对待查询数据,采用基于最后一轮次训练得到的哈希函数进行映射;
第t轮次哈希函数求解方法为:
Figure 196020DEST_PATH_IMAGE001
Figure 567089DEST_PATH_IMAGE002
是第t轮经过零均值处理后的特征矩阵,
Figure 424187DEST_PATH_IMAGE003
是第m个模态的哈希映射,
Figure 915211DEST_PATH_IMAGE004
为第t轮哈希函数的实值表示,
Figure 566772DEST_PATH_IMAGE005
是可学习的第t轮次控制M个不同模态权重的参数,
Figure 690717DEST_PATH_IMAGE006
是权衡参数,α为调节参数,其中,m=1或2,分别表示图像模态和文本模态。
CN202111471675.0A 2021-12-06 2021-12-06 一种面向流数据的在线跨模态检索方法与系统 Active CN113868366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111471675.0A CN113868366B (zh) 2021-12-06 2021-12-06 一种面向流数据的在线跨模态检索方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111471675.0A CN113868366B (zh) 2021-12-06 2021-12-06 一种面向流数据的在线跨模态检索方法与系统

Publications (2)

Publication Number Publication Date
CN113868366A CN113868366A (zh) 2021-12-31
CN113868366B true CN113868366B (zh) 2022-04-01

Family

ID=78985928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111471675.0A Active CN113868366B (zh) 2021-12-06 2021-12-06 一种面向流数据的在线跨模态检索方法与系统

Country Status (1)

Country Link
CN (1) CN113868366B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114117153B (zh) * 2022-01-25 2022-05-24 山东建筑大学 一种基于相似度重学习的在线跨模态检索方法及系统
CN115080801B (zh) * 2022-07-22 2022-11-11 山东大学 基于联邦学习和数据二进制表示的跨模态检索方法及系统
CN115048539B (zh) * 2022-08-15 2022-11-15 山东大学 基于动态记忆力的社交媒体数据在线检索方法及系统
CN116595343B (zh) * 2023-07-17 2023-10-03 山东大学 基于流形排序学习的在线无监督跨模态检索方法及系统
CN116825210B (zh) * 2023-08-28 2023-11-17 山东大学 基于多源生物数据的哈希检索方法、系统、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766555A (zh) * 2017-11-02 2018-03-06 电子科技大学 基于软约束无监督型跨模态哈希的图像检索方法
CN109766481A (zh) * 2019-01-11 2019-05-17 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN111078952A (zh) * 2019-11-20 2020-04-28 重庆邮电大学 一种基于层次结构的跨模态可变长度哈希检索方法
CN112817914A (zh) * 2021-01-21 2021-05-18 深圳大学 基于注意力的深度跨模态哈希检索方法、装置及相关设备
CN113064959A (zh) * 2020-01-02 2021-07-02 南京邮电大学 一种基于深度自监督排序哈希的跨模态检索方法
CN113312505A (zh) * 2021-07-29 2021-08-27 山东大学 一种基于离散在线哈希学习的跨模态检索方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11651037B2 (en) * 2019-12-20 2023-05-16 Rakuten Group, Inc. Efficient cross-modal retrieval via deep binary hashing and quantization
CN112214623A (zh) * 2020-09-09 2021-01-12 鲁东大学 一种面向图文样本的高效监督图嵌入跨媒体哈希检索方法
CN113326287B (zh) * 2021-08-04 2021-11-02 山东大学 一种使用三步策略的在线跨模态检索方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766555A (zh) * 2017-11-02 2018-03-06 电子科技大学 基于软约束无监督型跨模态哈希的图像检索方法
CN109766481A (zh) * 2019-01-11 2019-05-17 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN111078952A (zh) * 2019-11-20 2020-04-28 重庆邮电大学 一种基于层次结构的跨模态可变长度哈希检索方法
CN113064959A (zh) * 2020-01-02 2021-07-02 南京邮电大学 一种基于深度自监督排序哈希的跨模态检索方法
CN112817914A (zh) * 2021-01-21 2021-05-18 深圳大学 基于注意力的深度跨模态哈希检索方法、装置及相关设备
CN113312505A (zh) * 2021-07-29 2021-08-27 山东大学 一种基于离散在线哈希学习的跨模态检索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Supervised Hierarchical Deep Hashing for Cross-Modal Retrieval";Yu-Wei Zhan et al.;《MM "20: Proceedings of the 28th ACM International Conference on Multimedia》;20201012;全文 *
"基于哈希学习的跨模态检索技术研究";李逸凡;《万方数据知识服务平台》;20200117;全文 *

Also Published As

Publication number Publication date
CN113868366A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
CN113868366B (zh) 一种面向流数据的在线跨模态检索方法与系统
WO2022068196A1 (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN107480261B (zh) 一种基于深度学习细粒度人脸图像快速检索方法
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
CN114329109B (zh) 基于弱监督哈希学习的多模态检索方法及系统
CN112052948B (zh) 一种网络模型压缩方法、装置、存储介质和电子设备
CN114186084B (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
US20200019885A1 (en) Information Processing Apparatus and Information Processing Method
CN113312505B (zh) 一种基于离散在线哈希学习的跨模态检索方法及系统
CN113128478B (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
WO2021051987A1 (zh) 神经网络模型训练的方法和装置
CN110598869B (zh) 基于序列模型的分类方法、装置、电子设备
CN110110128B (zh) 用于分布式架构的快速监督离散哈希图像检索系统
CN112948601B (zh) 一种基于受控语义嵌入的跨模态哈希检索方法
CN113780245B (zh) 一种多场景下的物品检索方法及系统
CN110990596A (zh) 一种基于自适应量化多模态哈希检索方法及系统
CN111858984A (zh) 一种基于注意力机制哈希检索的图像匹配方法
CN115375877A (zh) 一种基于通道注意力机制的三维点云分类方法及装置
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN115048539A (zh) 基于动态记忆力的社交媒体数据在线检索方法及系统
CN114332550A (zh) 一种模型训练方法、系统及存储介质和终端设备
CN115618043B (zh) 文本操作图互检方法及模型训练方法、装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant