CN114896434B - 一种基于中心相似度学习的哈希码生成方法及装置 - Google Patents

一种基于中心相似度学习的哈希码生成方法及装置 Download PDF

Info

Publication number
CN114896434B
CN114896434B CN202210821230.9A CN202210821230A CN114896434B CN 114896434 B CN114896434 B CN 114896434B CN 202210821230 A CN202210821230 A CN 202210821230A CN 114896434 B CN114896434 B CN 114896434B
Authority
CN
China
Prior art keywords
hash
modal
center
neural network
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210821230.9A
Other languages
English (en)
Other versions
CN114896434A (zh
Inventor
朱健
张云云
陈�光
曾令仿
程宏才
程永利
李勇
陈兰香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210821230.9A priority Critical patent/CN114896434B/zh
Publication of CN114896434A publication Critical patent/CN114896434A/zh
Application granted granted Critical
Publication of CN114896434B publication Critical patent/CN114896434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于中心相似度学习的哈希码生成方法及装置,该方法包括:获取带有标签的训练数据集;利用哈达玛矩阵,为所述训练数据集中相同标签的数据构造一个共享的哈希中心,从而得到若干哈希中心;根据所述训练数据集中的样本经过多模态神经网络生成的哈希码与该数据对应的哈希中心之间的距离,计算得到中心相似性学习的目标损失函数;根据所述中心相似性学习的目标损失函数,训练多模态神经网络;获取多模态数据并对所述多模态数据进行预处理;将预处理后的多模态数据输入训练后的多模态神经网络中,生成多模态哈希码。

Description

一种基于中心相似度学习的哈希码生成方法及装置
技术领域
本发明属于多模态哈希码生成技术领域,尤其涉及一种基于中心相似度学习的哈希码生成方法及装置。
背景技术
随着近年来互联网、云计算环境、多媒体传感器、社交网络以及其他信息技术的迅速发展,文本、图像、视频、音频等多模态信息数据呈现出爆炸式的累计态势。基于这些海量信息,人们对于多模态检索的需求日益增加,如何充分利用这些信息创造更大的价值是目前人工智能领域面临的主要挑战。所谓的多模态检索就是用户给定一种模态的数据作为检索条件,检索结果返回的是与条件相关的多种模态的数据,通俗的来讲就是以文搜图,以图搜文的检索方式。多模态检索很多方面都有着广阔的应用前景,包括物联网以及搜索引擎等。
早期多模态检索主要依赖于手动标注的特征,从本质上来说还是单一模态检索,例如在百度图片中输入文字检索相关图片时,其返回的结果虽然是图片,但这些检索结果都依照已经标注好的文本信息,与此同时还未进行文字标注的图片就不能被成功检索。除了检索的难题,数据爆炸时代面临的另一个挑战就是如何有效地存储和管理这些规模庞大的多模态数据,只有做好存储和管理的相关工作,才能满足人们对检索速度和精度的要求。
近年来,信息的种类(模态)也越来越多,多模态信息多模态信息检索成为学者们研究的重点。N.Srivastava等人在 2012 年 NIPS 会议上提出了一个基于深度置信网络(Deep Belief Networks, DBN)的多模态深度学习算法来学习多模态数据之间的共享表示,从而实现多模态检索。该方法利用深度置信网络的降维与重构数据的特性,先针对不同的数据模态,训练出针对各个模态的不同的DBN,再在每个DBN的最后一层之上,加上一个隐层,利用受限玻尔兹曼机的特性来训练一个有双可视层的受限玻尔兹曼机(RestrictedBoltzmann Machine, RBM),最后将该隐层视为不同 模态数据的共享表示。该方法深远影响,开启了多模态深度学习框架的先河。2018 年Q. Jiang等人在TIP上提出了深度离散监督哈希(DDSH)方法,该方法结合深度哈希和离散哈希的特性:深度哈希是利用监督信息直接指导深度特征学习过程;离散哈希是利用监督信息指导哈希码的离散编码过程。DDSH利用成对的监督信息,直接指导深度特征学习过程和哈希码的离散编码过程。
过去的研究中尽管取得很大的进展,但当前大部分基于哈希方法的多模态检索仍然采用传统手工设计特征,并且现有深度哈希学习方法主要是通过数据对局部信息的相似性学习连续哈希表示,这并不能有效的学习到大规模数据的全局分布,这会严重损失数据的原始特征细节降低后续检索性。
发明内容
针对现有技术的不足,本申请实施例的目的是提供一种基于中心相似度学习的哈希码生成方法及装置,旨在提高多模态数据检索性能。
根据本申请实施例的第一方面,提供一种基于中心相似度学习的哈希码生成方法,包括:
获取带有标签的训练数据集;
利用哈达玛矩阵,为所述训练数据集中相同标签的数据构造一个共享的哈希中心,从而得到若干哈希中心;
根据所述训练数据集中的样本经过多模态神经网络生成的哈希码与该样本对应的哈希中心之间的距离,计算得到中心相似性学习的目标损失函数;
根据所述中心相似性学习的目标损失函数,反向计算梯度来更新所述多模态神经网络的参数,以训练所述多模态神经网络;
获取多模态数据并对所述多模态数据进行预处理;
将预处理后的多模态数据输入训练后的多模态神经网络中,生成多模态哈希码。
进一步地,所述多模态神经网络包括:
特征提取模块,所述特征提取模块包括图像特征提取模型和文本特征提取模型,所述图像特征提取模型用于对所述多模态数据中的图像数据进行特征提取,得到图像特征,所述文本特征提取模型用于对所述多模态数据中的文本数据进行特征提取,得到文本特征;
特征归一化模块,所述特征归一化模块用于对所述图像特征和文本特征进行归一化,以使得所述图像特征和文本特征的维度和阈值统一;
高层语义表示模块,所述高层语义表示模块用于对归一化后的图像特征和文本特征进行成对融合,生成多模态数据对特征矩阵,根据所述多模态数据对特征矩阵生成哈希码。
进一步地,对所述多模态数据中的文本数据进行特征提取,得到文本特征的过程包括:
对所述文本数据进行分词处理并将得到的词映射为相应的词向量并标注;
将每个词的所述词向量、每个词序列的位置编码和词的句子级特征嵌入输入所述文本特征提取模型,得到文本特征。
进一步地,基于多层感知器,根据所述多模态数据对特征矩阵生成哈希码。
进一步地,所述多层感知器为将最后一个全连接层替换为带有R个隐藏单元的瓶颈层的多层感知器,所述瓶颈层用于将网络激活转换为R维度瓶颈向量,使用Tanh函数作为激活函数,产生非线性的表示,将瓶颈向量的值约束在[-1,1],通过集体量化生成文本哈希码。
进一步地,根据所述训练数据集中的样本经过多模态神经网络生成的哈希码与该样本对应的哈希中心之间的距离,计算得到中心相似性学习的目标损失函数,包括:
将所述训练数据集中的样本输入多模态神经网络,得到对应的哈希码;
根据所述训练数据集中的样本的哈希码与该样本对应的哈希中心之间的距离,计算所述多模态神经网络的中心相似度损失函数;
将所述中心相似度损失函数结合量化损失函数,得到中心相似性学习的目标损失函数。
根据本申请实施例的第二方面,提供一种基于中心相似度学习的哈希码生成装置,包括:
第一获取模块,用于获取带有标签的训练数据集;
构造模块,用于利用哈达玛矩阵,为所述训练数据集中相同标签的数据构造一个共享的哈希中心,从而得到若干哈希中心;
计算模块,用于根据所述训练数据集中的样本经过多模态神经网络生成的哈希码与该样本对应的哈希中心之间的距离,计算得到中心相似性学习的目标损失函数;
训练模块,用于根据所述中心相似性学习的目标损失函数,反向计算梯度来更新所述多模态神经网络的参数,以训练所述多模态神经网络;
第二获取模块,用于获取多模态数据并对所述多模态数据进行预处理;
生成模块,用于将预处理后的多模态数据输入训练后的多模态神经网络中,生成多模态哈希码。
根据本申请实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的基于中心相似度学习的哈希码生成方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述的基于中心相似度学习的哈希码生成方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本申请从全局训练数据集分布中利用哈达玛矩阵直接构造有区分性带有标签的哈希中心,在确定哈希中心后,以优化中心相似度为目标对多模态神经网络进行训练;通过将多模态数据输入训练好的多模态神经网络中,生成以优化中心相似度为目标的哈希码,提高多模态检索性能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种基于中心相似度学习的哈希码生成方法的流程图。
图2是根据一示例性实施例示出的哈希中心的示意图,其中(a)为三维汉明空间的哈希中心的示意图,(b)为四维汉明空间的哈希中心的示意图。
图3是根据一示例性实施例示出的步骤S13的流程图。
图4是根据一示例性实施例示出的得到文本特征的过程的流程图。
图5是根据一示例性实施例示出的一种基于中心相似度学习的哈希码生成装置的框图。
图6是根据一示例性实施例示出的电子设备的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是根据一示例性实施例示出的一种基于中心相似度学习的哈希码生成方法的流程图,如图1所示,该方法应用于终端中,可以包括以下步骤:
步骤S11:获取带有标签的训练数据集;
步骤S12:利用哈达玛矩阵,为所述训练数据集中相同标签的数据构造一个共享的哈希中心,从而得到若干哈希中心;
步骤S13:根据所述训练数据集中的样本经过多模态神经网络生成的哈希码与该样本对应的哈希中心之间的距离,计算得到中心相似性学习的目标损失函数;
步骤S14:根据所述中心相似性学习的目标损失函数,反向计算梯度来更新所述多模态神经网络的参数,以训练所述多模态神经网络;
步骤S15:获取多模态数据并对所述多模态数据进行预处理;
步骤S16:将预处理后的多模态数据输入训练后的多模态神经网络中,生成多模态哈希码。
由上述实施例可知,本申请从全局训练数据集分布中利用哈达玛矩阵直接构造有区分性带有标签的哈希中心,在确定哈希中心后,以优化中心相似度为目标对多模态神经网络进行训练;通过将多模态数据输入训练好的多模态神经网络中,生成以优化中心相似度为目标的哈希码,提高多模态检索性能。
在步骤S11的具体实施中,获取带有标签的训练数据集;
具体地,比如MIR-Flickr25k数据集有2500张图,每张图有对应的tags和annotation。Tags可以作为文本描述,其中至少出现在20张图片中的tags有1386个;annotation作为类别标签label,一共24个。
再比如NUS-WIDE-10K数据集,有10个类别:animal、clouds、flowers、food、grass、person、sky、toy、water和window,并且每个类别有1000张图片。NUS_WID_Tags文件夹有多个文件,其中文件All_Tags.txt按序存储了所有图片的文本描述。
在步骤S12的具体实施中,利用哈达玛矩阵,为所述训练数据集中相同标签的数据构造一个共享的哈希中心,从而得到若干哈希中心;
具体地,为了确保不同数据生成的哈希码在汉明空间中距离足够远,每个为确保 不同数据生成的哈希码在汉明空间中距离足够远,每个哈希中心之间的距离需要比与之关 联的哈希码距离更远。假设训练样本中有n个数据
Figure 150387DEST_PATH_IMAGE001
D表示 图像特征的维数,L表示数据的语义标签。非线性哈希函数
Figure 598686DEST_PATH_IMAGE002
,即完成 输入数据
Figure 660314DEST_PATH_IMAGE003
Figure 321102DEST_PATH_IMAGE004
空间到K维汉明空间
Figure 666633DEST_PATH_IMAGE005
的映射。
K维的汉明空间中,定义一组点
Figure 20254DEST_PATH_IMAGE006
,各个点之间的 成对平均距离满足:
Figure 552867DEST_PATH_IMAGE007
(1)
其中,
Figure 33658DEST_PATH_IMAGE008
表示汉明距离,m是哈希中心的数量,T是不同哈希中心的组合数。绿色的 点表示同一类标签样本生成的哈希码,黄色的点表示另一类标签样本生成的哈希码,而
Figure 968116DEST_PATH_IMAGE009
Figure 492638DEST_PATH_IMAGE010
分别为他们的公共哈希中心。
例如图2中 ,不同的点代表不同类标签样本生成的哈希码,而
Figure 778126DEST_PATH_IMAGE011
Figure 780717DEST_PATH_IMAGE010
分别为他们 的公共哈希中心。图2中的(a)是哈希中心在三维汉明空间中的示意图,哈希码[0,1,0],[0, 0,1]和[1,0,0]到
Figure 583063DEST_PATH_IMAGE011
的汉明距离相同都是1。同样,哈希码[1,1,0],[0,1,1]和[1,0,1]的汉 明距离也都是1,并且
Figure 278487DEST_PATH_IMAGE012
满足公式(1)。图2中的(b)是哈希中心在四维汉明 空间中的示意图,每个样本到其公共哈希中心的汉明距离是1,而
Figure 51271DEST_PATH_IMAGE013
同样 满足公式(1),假如哈希中心
Figure 857553DEST_PATH_IMAGE011
的[0,0,1,0],则
Figure 766603DEST_PATH_IMAGE014
并不满足公式(1)。
生成合适的哈希中心是中心相似度的前提,我们知道在K维汉明空间中,如果一组 点相互正交,则它们之间的等距距离为K/2,恰好满足公式(2)。已知
Figure 383660DEST_PATH_IMAGE015
哈达玛矩阵表示 如(2):
Figure 378161DEST_PATH_IMAGE016
(2)
其中公式(2)中的
Figure 988134DEST_PATH_IMAGE017
表示哈达玛矩阵中的任意行,矩阵中任意行
Figure 17270DEST_PATH_IMAGE018
相互正交,即 任意两个行向量的内积等于 0,如公式(3)所示:
Figure 54496DEST_PATH_IMAGE019
,根据哈达玛矩阵的性质 可以得到任意两个行向量的汉明距离
Figure 287025DEST_PATH_IMAGE020
表示如公式(4):
Figure 435110DEST_PATH_IMAGE021
(4)
其中将公式(3)代入到公式(4)中,得到任意两个行向量的汉明距离
Figure 318752DEST_PATH_IMAGE022
等于K/2。假设
Figure 792459DEST_PATH_IMAGE023
是哈达玛矩阵,则对任意
Figure 495972DEST_PATH_IMAGE024
满足
Figure 198480DEST_PATH_IMAGE025
,所以K是2的幂,这与我们通常选取的哈希码长度一致。同时,哈达玛矩 阵是以-1或1为元素的二进制矩阵,在生成哈希中心时可以简单的将-1替换为0即可。
由于哈达玛矩阵良好的性质,可以通过对其进行随机采样获取哈希中心。首先构 建
Figure 936629DEST_PATH_IMAGE026
的哈达玛矩阵
Figure 581237DEST_PATH_IMAGE027
公式如(5):
Figure 772047DEST_PATH_IMAGE028
(5)
其中,
Figure 527514DEST_PATH_IMAGE029
表示哈达玛乘积并且
Figure 867972DEST_PATH_IMAGE030
,在这里初始化两个矩阵因子如公式 (5):
Figure 417902DEST_PATH_IMAGE031
那么,当哈希中心个数
Figure 361587DEST_PATH_IMAGE032
时,可以直接从矩阵中任取一行作为哈希中心; 当
Figure 655165DEST_PATH_IMAGE033
时,我们使用两个哈达玛矩阵组合
Figure 367906DEST_PATH_IMAGE034
重新构建哈希 中心。
常用的训练数据集分为单标签数据集和多标签数据集,针对不同的分类可以结合 特定的策略生成哈希中心。对于单标签数据可以为每个类分配一个哈希中心,即根据标签
Figure 573891DEST_PATH_IMAGE035
生成q个哈希中心
Figure 4872DEST_PATH_IMAGE036
,其中
Figure 102141DEST_PATH_IMAGE037
是第i个类别标签,
Figure 669388DEST_PATH_IMAGE038
是第i个类 别对应的哈希中心,q为样本类别总数。因此具有相同标签的数据对共享一个哈希中心。每 个数据都分配给一个哈希中心,所以可以获得所有样本的语义哈希中心
Figure 561121DEST_PATH_IMAGE039
,其中是
Figure 964552DEST_PATH_IMAGE040
Figure 865512DEST_PATH_IMAGE041
样本的哈希中心,N为样本总数。对于多标签数据,根据 多个标签数据分配哈希中心的质心作为其多标签的哈希中心。
在步骤S13的具体实施中,根据所述训练数据集中的样本经过多模态神经网络生成的哈希码与该样本对应的哈希中心之间的距离,计算得到中心相似性学习的目标损失函数;
具体地,如图3所示,此步骤可以包括以下子步骤:
步骤S21:将所述训练数据集中的样本输入多模态神经网络,得到对应的哈希码;
具体地,首先采用Resnet50模型作为图片特征抽取的backbone主干网络,选取BERT模型作为文本Tag特征抽取的backbone主干网络。其次对抽取的特征进行规范化,使其文本和图片输出的维度相同且每个维度输出值在[0,1]的范围内。再次对两个模态的特征进行拼接,然后采用MLP多层感知器进行特征融合。最后通过设置输出层的维度生成不同bit的哈希码。这样设计充分考虑了图片和文本两种模态一致性和互补性,增强哈希码的表示语义标签类别的能力。
步骤S22:根据所述训练数据集中的样本的哈希码与该样本对应的哈希中心之间的距离,计算所述多模态神经网络的相似度损失;
具体地,在本申请中,可以通过KL散度、交叉熵或均方差衡量哈希码与哈希中心的汉明距离,从而计算多模态神经网络的相似度损失,其中:
二分类交叉熵损失BCELoss(C,H)=
Figure 21686DEST_PATH_IMAGE042
KL散度
Figure 349900DEST_PATH_IMAGE043
可以用来衡量两个概率分布之间的 相似性,两个概率分布越接近,KL散度越小。
平方损失函数L(C,H)=
Figure 489894DEST_PATH_IMAGE044
其中,以上三个损失函数中字符解释为:C为样本的哈希中心,H为样本经过多模态 神经网络生成的哈希码。K表示哈希码总位数为K位。k<=K表示是第k位,
Figure 679698DEST_PATH_IMAGE045
为C中第k位的哈 希值,
Figure 221538DEST_PATH_IMAGE046
为H中第k位的哈希码。
本实施例中采用BCELoss。
步骤S23:将所述相似度损失结合离散化损失函数,得到中心相似性学习的目标损失函数;
具体地,中心相似性学习的目标为:
Figure 455073DEST_PATH_IMAGE047
(9)
其中,
Figure 82363DEST_PATH_IMAGE048
是用于深度哈希函数的学习的所有参数集合,
Figure 59547DEST_PATH_IMAGE049
是用于平衡中心相似 度估计和量化处理的超参数,L C 为中心相似度损失函数,具体如公式(10)所示,为了使生成 的哈希码收敛到哈希中心,引入L Q 量化损失函数来量化化生成的哈希码,定义为公式(11) 所示
Figure 227133DEST_PATH_IMAGE050
(10)
Figure 631570DEST_PATH_IMAGE051
(11)
其中,K表示哈希码为K位,H为样本经过多模态神经网络生成的哈希码。K表示哈希 码总位数为K位。k是第k个位,
Figure 746156DEST_PATH_IMAGE045
为C中第k位的哈希值,
Figure 261451DEST_PATH_IMAGE046
为H中第k位的哈希码。
在步骤S14的具体实施中,根据所述中心相似性学习的目标,训练多模态神经网络;
具体地,根据多模态神经网络生成的哈希码
Figure 777883DEST_PATH_IMAGE052
和该样本对应的哈希中心
Figure 369533DEST_PATH_IMAGE053
计算损 失函数
Figure 705836DEST_PATH_IMAGE054
,然后利用梯度下降法更新神经参数,优化器采用Adam函数。
在步骤S15的具体实施中,获取多模态数据并对所述多模态数据进行预处理;
具体地,图片进行了数据增强和归一化处理;文本Tag进行了数据清洗和预处理,去除和图片内容无关的噪声Tag,主要目的是去除无关因素或特定因素对图像、文本训练结果的影响
在步骤S16的具体实施中,将预处理后的多模态数据输入训练后的多模态神经网络中,生成多模态哈希码;
具体地,所述多模态神经网络包括特征提取模块、特征归一化模块、高层语义表示模块,所述特征提取模块包括图像特征提取模型和文本特征提取模型,所述图像特征提取模型用于对所述多模态数据中的图像数据进行特征提取,得到图像特征,所述文本特征提取模型用于对所述多模态数据中的文本数据进行特征提取,得到文本特征;所述特征归一化模块用于对所述图像特征和文本特征进行归一化,以使得所述图像特征和文本特征的维度和阈值统一;所述高层语义表示模块用于对归一化后的图像特征和文本特征进行成对融合,生成多模态数据对特征矩阵,根据所述多模态数据对特征矩阵生成哈希码。
在具体实施中,所述图像特征提取模型可以为ResNet模型、AlexNet等模型,文本特征提取模型可以为BERT模型或其他以BERT模型为基础的模型,所述特征归一化模块可以为激活函数为sigmoid全连接层。所述特征融合模块是多层感知机(MLP),多层感知层也可以替换为前馈神经网络FFN。
本申请实施例以图像特征提取模型采用ResNet模型、文本特征提取模型采用Bert模型、高层语义表示模块采用多层感知器为例进行描述。
在本实施例中,采用ResNet进行图像模态特征提取可以较快提高神经网络的训练 速度,保证输出特征向量的表达能力,要先抽取原始文档图像的特征图,再将其平均池化为 固定尺寸,接着按行展开平均池化后的特征图,之后经过线性投影,就可以得到图像对应的 特征序列。另外为了和文本向量的组成对应,图像向量也补充了一维相对位置和分段信息。 有别于文本的 [A]、[B] 段,图像统一归入[C] 段。用特征向量、一维位置向量、分段向量相 加得到最终的图像向量。最后,对于原始图像特征提取后特征标记为
Figure 290401DEST_PATH_IMAGE055
,其 中
Figure 395760DEST_PATH_IMAGE056
是图像数量,
Figure 407579DEST_PATH_IMAGE057
是第p个图像的样本。
在本实施例中,使用BERT模型提取文本特征,其中,对所述多模态数据中的文本数据进行特征提取,如图4所示,得到文本特征的过程包括:
步骤S31:对所述文本数据进行分词处理并将得到的词映射为相应的词向量并标注;
步骤S32:将每个词的所述词向量、每个词序列的位置编码和词的句子级特征嵌入输入所述文本特征提取模型,得到文本特征。
在步骤S31-S32的具体实施中,BERT模型的特征提取器,是它的重要组成部分。该 模型输入层为经过分词处理的数据,将其映射为相应的词向量并标注,加上每个词序列的 位置编码和词的句子级特征嵌入作为BERT的输入,一共经过两层编码层,第二层的输入为 第一层的输出。其中每个编码层都由多头注意力机制和前馈神经网络组成。文本模态
Figure 981911DEST_PATH_IMAGE058
共包含n t 个文本样本,
Figure 104588DEST_PATH_IMAGE059
是第q个文本的样本。
对于图像模态,将所得到的第p个图像
Figure 330033DEST_PATH_IMAGE060
的特征向量归一化后表示为
Figure 247173DEST_PATH_IMAGE061
。对于文本模态,第q个文本样本分词后带有
Figure 823648DEST_PATH_IMAGE062
个单词,其可表示为一个矩 阵
Figure 500748DEST_PATH_IMAGE063
,其中k是词向量的维度。每个文本样本的长度不同,因此每个文本样本可以 表示为一个
Figure 315120DEST_PATH_IMAGE064
的矩阵,以获得相同维度的输入。将通过文本提取网络并且归一化后 获得第个q文本
Figure 934320DEST_PATH_IMAGE065
的特征表示标识为:
Figure 466933DEST_PATH_IMAGE066
。因此,将经过规范化norm模块处理 后的图像特征向量集和文本特征向量集合表示为
Figure 196991DEST_PATH_IMAGE067
Figure 879252DEST_PATH_IMAGE068
在本实施例中,对归一化后的图像特征和文本特征进行融合,图像与文本数据对 特征融合可表示为
Figure 403774DEST_PATH_IMAGE069
,其中
Figure 689262DEST_PATH_IMAGE070
Figure 691853DEST_PATH_IMAGE071
分别表示融合 前的图像特征向量集合和文本特征向量集合。通过融合机制,所有多模态样本成对融合,生 成多模态数据对特征矩阵。融合函数可以是一种数学运算,例如连接、乘法、加法和减法运 算。本文中采用我们将图像特征和文本特征的融合特征向量集表示为:
Figure 746397DEST_PATH_IMAGE072
Figure 458132DEST_PATH_IMAGE073
是融合特征向量集合,
Figure 699758DEST_PATH_IMAGE074
是第p个图像和第q个 文本的融合特征向量。
采用多层感知器(Multilayer Perceptron ,MLP),其表示为
Figure 771619DEST_PATH_IMAGE075
,其中
Figure 680669DEST_PATH_IMAGE076
是 融合结果,
Figure 546994DEST_PATH_IMAGE077
是前馈神经网络的参数,包括三个全连接层,其中最后一层同样被一个带有 R个隐藏单元的瓶颈层替换,瓶颈层将网络激活转换为R维度瓶颈向量,使用Tanh函数作为 激活函数,产生非线性的表示,将瓶颈向量的值约束在[-1,1],通过集体量化生成文本哈希 码。
与前述的基于中心相似度学习的哈希码生成方法的实施例相对应,本申请还提供了基于中心相似度学习的哈希码生成装置的实施例。
图5是根据一示例性实施例示出的一种基于中心相似度学习的哈希码生成装置框图。参照图5,该装置可以包括:
第一获取模块21,用于获取带有标签的训练数据集;
构造模块22,用于利用哈达玛矩阵,为所述训练数据集中相同标签的数据构造一个共享的哈希中心,从而得到若干哈希中心;
计算模块23,用于根据所述训练数据集中的样本经过多模态神经网络生成的哈希码与该样本对应的哈希中心之间的距离,计算得到中心相似性学习的目标损失函数;
训练模块24,用于根据所述中心相似性学习的目标损失函数,反向计算梯度来更新所述多模态神经网络的参数,以训练所述多模态神经网络;
第二获取模块25,用于获取多模态数据并对所述多模态数据进行预处理;
生成模块26,用于将预处理后的多模态数据输入训练后的多模态神经网络中,生成多模态哈希码。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的基于中心相似度学习的哈希码生成方法。如图6所示,为本发明实施例提供的一种基于中心相似度学习的哈希码生成方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存以及网络接口之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的基于中心相似度学习的哈希码生成方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。

Claims (8)

1.一种基于中心相似度学习的哈希码生成方法,其特征在于,包括:
获取带有标签的训练数据集;
利用哈达玛矩阵,为所述训练数据集中相同标签的数据构造一个共享的哈希中心,从而得到若干哈希中心;
根据所述训练数据集中的样本经过多模态神经网络生成的哈希码与该样本对应的哈希中心之间的距离,计算得到中心相似性学习的目标损失函数;
根据所述中心相似性学习的目标损失函数,反向计算梯度来更新所述多模态神经网络的参数,以训练所述多模态神经网络;
获取多模态数据并对所述多模态数据进行预处理;
将预处理后的多模态数据输入训练后的多模态神经网络中,生成多模态哈希码;
其中,根据所述训练数据集中的样本经过多模态神经网络生成的哈希码与该样本对应的哈希中心之间的距离,计算得到中心相似性学习的目标损失函数,包括:
将所述训练数据集中的样本输入多模态神经网络,得到对应的哈希码;
根据所述训练数据集中的样本的哈希码与该样本对应的哈希中心之间的距离,计算所述多模态神经网络的中心相似度损失函数;
将所述中心相似度损失函数结合量化损失函数,得到中心相似性学习的目标损失函数。
2.根据权利要求1所述的方法,其特征在于,所述多模态神经网络包括:
特征提取模块,所述特征提取模块包括图像特征提取模型和文本特征提取模型,所述图像特征提取模型用于对所述多模态数据中的图像数据进行特征提取,得到图像特征,所述文本特征提取模型用于对所述多模态数据中的文本数据进行特征提取,得到文本特征;
特征归一化模块,所述特征归一化模块用于对所述图像特征和文本特征进行归一化,以使得所述图像特征和文本特征的维度和阈值统一;
高层语义表示模块,所述高层语义表示模块用于对归一化后的图像特征和文本特征进行成对融合,生成多模态数据对特征矩阵,根据所述多模态数据对特征矩阵生成哈希码。
3.根据权利要求2所述的方法,其特征在于,对所述多模态数据中的文本数据进行特征提取,得到文本特征的过程包括:
对所述文本数据进行分词处理并将得到的词映射为相应的词向量并标注;
将每个词的所述词向量、每个词序列的位置编码和词的句子级特征嵌入输入所述文本特征提取模型,得到文本特征。
4.根据权利要求2所述的方法,其特征在于,基于多层感知器,根据所述多模态数据对特征矩阵生成哈希码。
5.根据权利要求4所述的方法,其特征在于,所述多层感知器为将最后一个全连接层替换为带有R个隐藏单元的瓶颈层的多层感知器,所述瓶颈层用于将网络激活转换为R维度瓶颈向量,使用Tanh函数作为激活函数,产生非线性的表示,将瓶颈向量的值约束在[-1,1],通过集体量化生成文本哈希码。
6.一种基于中心相似度学习的哈希码生成装置,其特征在于,包括:
第一获取模块,用于获取带有标签的训练数据集;
构造模块,用于利用哈达玛矩阵,为所述训练数据集中相同标签的数据构造一个共享的哈希中心,从而得到若干哈希中心;
计算模块,用于根据所述训练数据集中的样本经过多模态神经网络生成的哈希码与该样本对应的哈希中心之间的距离,计算得到中心相似性学习的目标损失函数;
训练模块,用于根据所述中心相似性学习的目标损失函数,反向计算梯度来更新所述多模态神经网络的参数,以训练所述多模态神经网络;
第二获取模块,用于获取多模态数据并对所述多模态数据进行预处理;
生成模块,用于将预处理后的多模态数据输入训练后的多模态神经网络中,生成多模态哈希码;
其中,根据所述训练数据集中的样本经过多模态神经网络生成的哈希码与该样本对应的哈希中心之间的距离,计算得到中心相似性学习的目标损失函数,包括:
将所述训练数据集中的样本输入多模态神经网络,得到对应的哈希码;
根据所述训练数据集中的样本的哈希码与该样本对应的哈希中心之间的距离,计算所述多模态神经网络的中心相似度损失函数;
将所述中心相似度损失函数结合量化损失函数,得到中心相似性学习的目标损失函数。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5任一项所述的基于中心相似度学习的哈希码生成方法。
8.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-5中任一项所述的基于中心相似度学习的哈希码生成方法的步骤。
CN202210821230.9A 2022-07-13 2022-07-13 一种基于中心相似度学习的哈希码生成方法及装置 Active CN114896434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210821230.9A CN114896434B (zh) 2022-07-13 2022-07-13 一种基于中心相似度学习的哈希码生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210821230.9A CN114896434B (zh) 2022-07-13 2022-07-13 一种基于中心相似度学习的哈希码生成方法及装置

Publications (2)

Publication Number Publication Date
CN114896434A CN114896434A (zh) 2022-08-12
CN114896434B true CN114896434B (zh) 2022-11-18

Family

ID=82729679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210821230.9A Active CN114896434B (zh) 2022-07-13 2022-07-13 一种基于中心相似度学习的哈希码生成方法及装置

Country Status (1)

Country Link
CN (1) CN114896434B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080880B (zh) * 2022-08-23 2022-11-08 山东建筑大学 一种基于鲁棒相似保持的跨模态检索方法及系统
CN115982403B (zh) * 2023-01-12 2024-02-02 之江实验室 一种多模态哈希检索方法及装置
CN116070277B (zh) * 2023-03-07 2023-08-29 浙江大学 一种基于深度哈希的纵向联邦学习隐私保护方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008014004A2 (en) * 2006-07-28 2008-01-31 Brown University Load-balanced distributed authentication structures
CN110188223A (zh) * 2019-06-06 2019-08-30 腾讯科技(深圳)有限公司 图像处理方法、装置及计算机设备
CN112836068A (zh) * 2021-03-24 2021-05-25 南京大学 一种基于带噪标签学习的无监督跨模态哈希检索方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002337475A1 (en) * 2001-09-20 2003-04-01 Non-Elephant Encryption Systems (Barbados) Inc. Method for the construction of hash functions based on sylvester matrices, block designs and error- correcting codes
CN109558498A (zh) * 2018-11-07 2019-04-02 南京邮电大学 基于深度学习的多模态哈希方法
CN111832706A (zh) * 2020-07-08 2020-10-27 西安电子科技大学 基于哈希中心的连续学习方法
CN113254688A (zh) * 2021-04-28 2021-08-13 广东技术师范大学 一种基于深度哈希的商标检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008014004A2 (en) * 2006-07-28 2008-01-31 Brown University Load-balanced distributed authentication structures
CN110188223A (zh) * 2019-06-06 2019-08-30 腾讯科技(深圳)有限公司 图像处理方法、装置及计算机设备
CN112836068A (zh) * 2021-03-24 2021-05-25 南京大学 一种基于带噪标签学习的无监督跨模态哈希检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于学习型哈希的最近邻查找算法研究进展;彭聪;《数据通信》;20171028(第05期);46-53 *

Also Published As

Publication number Publication date
CN114896434A (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
CN111581405B (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109299342B (zh) 一种基于循环生成式对抗网络的跨模态检索方法
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN113836992B (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN112861976B (zh) 一种基于孪生图卷积哈希网络的敏感图像识别方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN114841151B (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN112733764A (zh) 一种基于多模态识别视频情感信息的方法
Xu et al. Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法
CN112990340B (zh) 一种基于特征共享的自学习迁移方法
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统
Zhang et al. Multiscale visual-attribute co-attention for zero-shot image recognition
CN116561305A (zh) 基于多模态和transformer的假新闻检测方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN116363460A (zh) 基于主题模型的高分辨率遥感样本标注方法
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法
CN113887504B (zh) 强泛化性的遥感图像目标识别方法
CN114282537A (zh) 一种面向社交文本的级联直线型实体关系抽取方法
CN113901820A (zh) 一种基于bert模型的中文三元组抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant