CN114359930A - 基于融合相似度的深度跨模态哈希方法 - Google Patents

基于融合相似度的深度跨模态哈希方法 Download PDF

Info

Publication number
CN114359930A
CN114359930A CN202111548953.8A CN202111548953A CN114359930A CN 114359930 A CN114359930 A CN 114359930A CN 202111548953 A CN202111548953 A CN 202111548953A CN 114359930 A CN114359930 A CN 114359930A
Authority
CN
China
Prior art keywords
similarity matrix
text
image
data
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111548953.8A
Other languages
English (en)
Other versions
CN114359930B (zh
Inventor
吴永贤
徐永志
田星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202111548953.8A priority Critical patent/CN114359930B/zh
Publication of CN114359930A publication Critical patent/CN114359930A/zh
Application granted granted Critical
Publication of CN114359930B publication Critical patent/CN114359930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于融合相似度的深度跨模态哈希方法,包括:1)图像特征提取,文本特征提取,对标签信息构建标签集合;2)分别对提取到的图像特征和文本特征计算图像相似度矩阵和文本相似度矩阵,同时也对标签集合建立标签相似度矩阵;3)基于计算得到的图像相似度矩阵、文本相似度矩阵和标签相似度矩阵建立融合相似度矩阵;4)使用改进的最大化间距的量化机制,结合融合相似度矩阵,建立误差损失函数,监督哈希码的训练。本发明方法能够深入挖掘不同模态数据之间的语义相关性,同时加入改进的量化机制,从而让算法生成更具判别性的哈希编码,实现更高准确度的检索。

Description

基于融合相似度的深度跨模态哈希方法
技术领域
本发明涉及深度哈希算法和跨模态检索的技术领域,尤其是指一种基于融合相似度的深度跨模态哈希方法。
背景技术
现有的基于无监督学习的跨模态检索方法,大多先采用基于模态内相似度的特征提取的方法,同时也采用了基于模态间相似度的公共语义空间学习方法,一定程度上保留了原始数据地语义相似度,然而,该方法无法权衡不同的模态相似度对于最终的公共语义空间学习的影响,使得检索精确度不理想;典型的半监督学习的跨模态方法采用对抗生成网络,生成异构数据对的方法,实现半监督学习的跨模态检索。其中,生成网络用于通过挑选无标签数据和有标签的检索样本,生成图文数据对。决策网络对生成网络输入的生成图文数据对和已有的真实图文数据对做辨别,计算误差,从而优化生成网络;基于全监督学习的跨模态检索研究中,主要是将标签相似度引导训练公共语义空间的方法。
现有的方法大多注重保留模态间的相似度关系,而忽略模态内部的相似度关系。而模态内部的相似度关系,也影响着公共子空间对原始数据的语义保留,要最大程度地让公共子空间保留更多的语义信息,模态内部的相似度关系必须考虑在内。同样重要的一点是,现有的研究没有重视考虑哈希码编码过程产生的误差。而无论是欧式距离衡量的相似度,还是余弦距离衡量的相似度,当这些相似度关系投影到二进制汉明空间的过程中,必然存在一定程度的误差,通过在汉明空间的训练过程添加相应的量化机制,缩减上述误差,也是必不可少的。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于融合相似度的深度跨模态哈希方法,包含新的融合机制,基于传统机器学习算法进行改进,将文本相似度、标签相似度、图像相似度做融合,监督跨模态公共语义空间的训练。同时,该方法包含改进的量化机制,将大大缩小在哈希码编码的过程中,由余弦相似度向汉明相似度转化产生的误差。
为实现上述目的,本发明所提供的技术方案为:基于融合相似度的深度跨模态哈希方法,包括以下步骤:
1)使用深度网络对图像提取特征,得到图像特征并构建图像特征集合,使用多层感知神经网络对文本提取特征,得到文本特征并构建文本特征集合,并且对图像和文本对应的标签信息,构建标签向量;
2)分别对提取到的图像特征和文本特征计算图像相似度矩阵和文本相似度矩阵,同时也对标签向量建立标签相似度矩阵,其中,图像相似度矩阵、文本相似度矩阵和标签相似度矩阵都是基于余弦距离计算得到的;
3)基于计算得到的图像相似度矩阵、文本相似度矩阵和标签相似度矩阵建立融合相似度矩阵;
4)使用改进的最大化间距的量化机制来缩小余弦距离与汉明距离之间的误差,其中,最大化间距的量化机制能够用于减少余弦距离与汉明距离之间的误差,而改进的最大化间距的量化机制则是针对图像和文本数据分别选用不同的量化参数,从而更进一步地优化这种误差;最终,结合图像相似度矩阵、文本相似度矩阵、标签相似度矩阵和改进的最大间距量化机制,建立误差损失函数,监督哈希码的训练。
进一步,在步骤1)中,图像特征集合被标识为F,F={f1,f2,f3,...,fi,...,fN},其中
Figure BDA0003416592370000021
N、dI、fi和R分别表示数量、图像特征的维度、第i个图像特征以及实数集合;文本特征的提取,采用的是多层感知神经网络,由三层全连接层组成;文本特征集合被标识为G,G={g1,g2,g3,...,gj,...,gN},其中
Figure BDA0003416592370000031
dT和gj分别表示特征的维度和第j个文本特征。
进一步,在步骤2)中,对标签向量构建标签向量集合,标签向量集合被定义为L,L∈{0,1}c×N,其中c表示类别的个数,N表示数量;标签相似度矩阵被标识为SL,由
Figure BDA0003416592370000032
计算得到,其中
Figure BDA0003416592370000033
表示经过l2正则化的L,1代表全一向量;用
Figure BDA0003416592370000034
来表示SL中第i行和第j列的元素,即第i个图像特征和第j个文本特征的相似度,其中,
Figure BDA0003416592370000035
表示第i个和第j个向量的所属类别完全相同,
Figure BDA0003416592370000036
表示两个向量所属类别部分相同,
Figure BDA0003416592370000037
表示两个向量的所属类别完全不相同;
同时,图像相似度矩阵和文本相似度矩阵也应用到计算之中,图像相似度矩阵被标识为SI,文本相似度矩阵被标识为ST
Figure BDA0003416592370000038
Figure BDA0003416592370000039
分别表示图像相似度矩阵的计算和文本相似度矩阵的计算,图像特征集合被标识为F,文本特征集合被标识为G,
Figure BDA00034165923700000310
Figure BDA00034165923700000311
分别表示经过l2正则化的图像特征集合和文本特征集合。
进一步,在步骤3)中,融合相似度矩阵被标识为SU,其计算如下:
SU=βSI+(1-β)ST
式中,SI表示图像相似度矩阵,ST表示文本相似度矩阵,β为超参数,用于平衡图像相似度矩阵的计算和文本相似度矩阵的重要性;服从相同数据分布的一批数据认为是同一模态的数据,而服从不同数据分布的一批数据认为是跨模态数据;图像和文本就是两批服从不同数据分布的数据,所以它们两者的集合认为是跨模态数据;为了进一步提高跨模态数据之间的关联度,能够通过计算SU SU T来得到高阶的融合相似度矩阵;然后高阶的融合相似度矩阵需要通过与N做除法来做一个规范化;最后,高阶的融合相似度矩阵与标签相似度矩阵SL,通过以下公式结合在一起生成新的融合相似度矩阵
Figure BDA0003416592370000041
Figure BDA0003416592370000042
式中,η为融合超参数,用于权衡标签相似度矩阵和高阶的融合相似度矩阵的影响。
进一步,在步骤4)中,为了使余弦距离相近的两组数据,更大概率地映射到哈希超平面的相同一侧,采用改进的最大化间距的量化机制;改进的最大化间距的量化机制,通过建立改进的最大化间距量化误差,并在深度网络和多层感知神经网络逐步优化的过程中减小该误差,从而可以缩小余弦距离与汉明距离之间的误差。将全一向量1定义为哈希超平面,则改进的最大化间距量化误差Q的表达式如下:
Figure BDA0003416592370000043
式中,
Figure BDA0003416592370000044
Figure BDA0003416592370000045
分别表示第i个图像和第i个文本的投影向量,N表示数量,针对图像和文本的两个间距参数δ11∈(1,2];然后结合新的融合相似度矩阵
Figure BDA0003416592370000046
构建误差损失函数步骤如下:
4.1)设BI∈{-1,+1}N×K、BT∈{-1,+1}N×K分别表示图像和文本对应K位的哈希码的集合,数量表示为N;基于图像和文本的编码相似度矩阵
Figure BDA0003416592370000047
能够通过如下公式计算得到:
Figure BDA0003416592370000048
式中,
Figure BDA0003416592370000049
Figure BDA00034165923700000410
分别表示经过l2正则化的BI和BT
Figure BDA00034165923700000411
中的元素用于衡量跨模态数据之间的相似度;为了让哈希码能够保留跨模态数据的语义性,基于图像和文本的编码相似度矩阵
Figure BDA00034165923700000412
与新的融合相似度矩阵
Figure BDA00034165923700000413
的误差通过如下公式计算得到:
Figure BDA0003416592370000051
式中,
Figure BDA0003416592370000052
代表佛罗贝尼乌斯范数的平方,θI与θT分别表示深度网络参数和多层感知神经网络参数,图像数据间的编码相似度矩阵和文本数据间的编码相似度矩阵分别表示成
Figure BDA0003416592370000053
Figure BDA0003416592370000054
因此,得到
Figure BDA0003416592370000055
为了增强哈希码对同一模态数据间相似度信息的保留,图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差,与文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差,也应当在深度网络和多层感知神经网络优化的过程中被最小化;最小化公式如下:
Figure BDA0003416592370000056
综合上述公式,能够得到编码相似度矩阵的重构误差J,公式如下:
Figure BDA0003416592370000057
式中,λ1与λ2为超参数,分别用于控制图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响,以及控制文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响;
4.2)在
Figure BDA0003416592370000058
的构建过程,同样也存在余弦距离与汉明距离之间的误差,因为上述三个矩阵的构建是基于汉明距离,而矩阵
Figure BDA0003416592370000059
是基于余弦距离的,通过添加了超参数μ对
Figure BDA00034165923700000510
做线性的变换,调整μ来减少新的融合相似度矩阵与编码相似度矩阵的误差,让余弦相似度大的数据更大概率落到哈希平面的同一侧;通过改进J,能够得到最终的编码相似度矩阵的重构误差
Figure BDA00034165923700000511
如下:
Figure BDA00034165923700000512
最终的误差损失函数定义为:
Figure BDA0003416592370000061
式中,ξ为量化参数,用于权衡改进的最大化间距量化误差的影响;
在深度网络和多层感知神经网络优化阶段上使用了随机梯度算法和转换学习的策略,对深度网络参数θI以及多层感知神经网络参数θT依次进行优化:首先,深度网络将θI视为常量,同时计算误差损失函数的梯度,然后多层感知神经网络通过反向传播算法更新θT;然后多层感知神经网络将θT视为常量,计算误差损失函数的梯度,深度网络通过反向传播算法更新θI;深度网络和多层感知神经网络的训练随着逐渐收敛而结束,最后输出BI和BT
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明提出了基于融合相似度的深度跨模态哈希方法,能够深入挖掘不同模态数据之间的语义相关性,从而让算法生成更具判别性的哈希编码,实现更高准确度的检索。
2、本发明提出了改进的最大间隔的量化机制,能够大大缩减余弦相似度与汉明相似度之间的误差,提高编码的检索精确度。
3、本发明方法与一般的跨模态哈希方法相比,可以有效提升检索的精确度,在跨模态检索任务中具有实用性。
附图说明
图1为本发明方法的逻辑流程示意图。
图2为本发明所使用的余弦相似度和汉明相似度关系示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例所提供的基于融合相似度的深度跨模态哈希方法,其具体情况如下:
1)使用深度网络对图像提取特征信息,得到图像特征,使用多层感知神经网络对文本提取特征信息,得到文本特征。对图像特征构建图像特征集合,图像特征集合被标识为F,F={f1,f2,f3,...,fi,...,fN},其中
Figure BDA0003416592370000071
N、dI、fi和R分别表示数量、图像特征的维度、第i个图像特征以及实数集合;文本特征的提取,采用的是多层感知神经网络,由三层全连接层组成;对文本特征构建文本特征集合,文本特征集合被标识为G,G={g1,g2,g3,...,gj,...,gN},其中
Figure BDA0003416592370000072
dT和gj分别表示特征的维度和第j个文本特征。
2)分别对提取到的图像特征和文本特征计算图像相似度矩阵和文本相似度矩阵,同时也对标签向量建立标签相似度矩阵,其中,图像相似度矩阵、文本相似度矩阵和标签相似度矩阵都是基于余弦距离计算得到的。
对标签向量构建标签向量集合,标签向量集合被定义为L,L∈{0,1}c×N,其中c表示类别的个数;标签相似度矩阵被标识为SL,由
Figure BDA0003416592370000073
计算得到,其中
Figure BDA0003416592370000074
表示经过l2正则化的L,1代表全一向量;用
Figure BDA0003416592370000075
来表示SL中第i行和第j列的元素,即第i个图像特征和第j个文本特征的相似度,其中,
Figure BDA0003416592370000076
表示第i个和第j个向量的所属类别完全相同,
Figure BDA0003416592370000077
表示两个向量所属类别部分相同,
Figure BDA0003416592370000078
表示两个向量的所属类别完全不相同。
同时,图像相似度矩阵和文本相似度矩阵也应用到计算之中,图像相似度矩阵被标识为SI,文本相似度矩阵被标识为ST
Figure BDA0003416592370000079
Figure BDA00034165923700000710
分别表示图像相似度矩阵的计算和文本相似度矩阵的计算,
Figure BDA00034165923700000711
Figure BDA00034165923700000712
分别表示经过l2正则化的图像特征集合和文本特征集合。
3)基于计算得到的图像相似度矩阵、文本相似度矩阵和标签相似度矩阵建立融合相似度矩阵。模态间的邻接关系通过计算融合相似度矩阵得到。融合相似度矩阵被标识为SU,定义如下:
SU=βSI+(1-β)ST
其中,SI表示图像相似度矩阵,ST表示文本相似度矩阵,超参数β用于权衡不同模态相似度的重要性,属于经验值一般被设置为0.6。服从相同数据分布的一批数据可认为是同一模态的数据,而服从不同数据分布的一批数据可以认为是跨模态数据;图像和文本就是两批服从不同数据分布的数据,所以它们两者的集合可以认为是跨模态数据。为了提高跨模态数据的关联度,通过计算SU SU T来得到高阶的融合相似度矩阵;然后高阶的融合相似度矩阵需要通过与N做除法来做一个规范化;最后,高阶的融合相似度矩阵与标签相似度矩阵SL,通过以下公式结合在一起生成新的融合相似度矩阵
Figure BDA0003416592370000081
Figure BDA0003416592370000082
其中,融合超参数η,属于经验值,用于权衡标签相似度和融合矩阵的影响,一般被设置为0.4。
4)使用改进的最大化间距的量化机制,结合融合相似度矩阵,建立误差损失函数,监督哈希码的训练。
为了使余弦距离相近的两个实例,在做哈希编码的过程更大概率地映射到超平面的相同一侧,可以使用改进的最大化间距的量化机制。改进的最大化间距的量化机制通过建立改进的最大化间距量化误差,并深度网络和多层感知神经网络逐步优化的过程中减小该误差,从而可以缩小余弦距离与汉明距离之间的误差;我们将全一向量1定义为哈希码的超平面,则改进的最大化间距量化误差Q的表达式如下:
Figure BDA0003416592370000083
其中,
Figure BDA0003416592370000084
Figure BDA0003416592370000085
分别表示第i个图像和第i个文本的投影向量,针对图像和文本的两个间距参数δ11分别设置成1.2和1.6。然后结合融合相似度矩阵
Figure BDA0003416592370000091
构建误差损失函数步骤如下:
4.1)设BI∈{-1,+1}N×K、BT∈{-1,+1}N×K分别表示图像和文本对应K位的哈希码的集合,。现有的哈希方法大多使用符号函数来做真值向量的映射得到哈希码。然而,这种编码策略容易导致梯度消失,影响梯度下降过程。基于此,本方法采用双曲正切函数来做真值向量的映射。设HI与HT分别表示图像和文本的真值映射,对应哈希码的计算过程如下:
BI=tanh(αHI)α∈R+
BT=tanh(αHT)α∈R+
其中,tanh()与α分别表示双曲正切函数和控制哈希编码过程的收敛程度的参数。通过在模型的训练过程,逐渐增加α,梯度消失的现象得到解决。基于图像和文本的哈希编码,模态间的编码相似度矩阵可以通过如下公式计算得到:
Figure BDA0003416592370000092
其中,
Figure BDA0003416592370000093
Figure BDA0003416592370000094
分别表示经过l2正则化的BI和BT
Figure BDA0003416592370000095
中的元素用于衡量跨模态数据之间的相似度。为了让哈希码能够保留跨模态数据之间的语义性关联,基于图像和文本的编码相似度矩阵
Figure BDA0003416592370000096
与新的融合相似度矩阵
Figure BDA0003416592370000097
的误差通过如下公式计算得到:
Figure BDA0003416592370000098
其中,θI与θT分别表示深度网络参数和多层感知神经网络参数。图像数据间的编码相似度矩阵和文本数据间的编码相似度矩阵分别表示成
Figure BDA0003416592370000099
Figure BDA00034165923700000910
因此,可以得到
Figure BDA00034165923700000911
为了增强哈希码对同一模态数据间相似度信息的保留,图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差,与文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差,也应当在深度网络和多层感知神经网络优化的过程中被最小化。最小化公式如下:
Figure BDA0003416592370000101
综合上述公式,可以得到编码相似度矩阵的重构误差J,公式如下:
Figure BDA0003416592370000102
其中,超参数λ1与λ2分别用于控制图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响,以及控制文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响,一般都设置成0.1。
4.2)对于哈希编码,本方法加入了改进的最大化间距的量化机制,以此缩小由余弦距离投影与汉明距离之间的误差。举个例子,如图2所示,假设角
Figure BDA0003416592370000108
小于角γ。绿色方块X,红色方块Y,和红色三角形Z分别位于单位圆边上的各个位置。我们很容易计算得到X和Y的余弦距离小于Y与Z的余弦距离。所以在余弦相似度的衡量标准下,X比起Z,要更加近似于Y。然而当进行映射以后,Y与Z会映射到相同的哈希平面上,要比Y与X更加接近。这个例子就说明余弦相似度在映射以后会产生一定的误差。
Figure BDA0003416592370000103
的构建过程,同样也存在余弦距离与汉明距离之间的误差。因为上述三个矩阵的构建是基于汉明距离,而矩阵
Figure BDA0003416592370000104
是基于余弦距离的。本方法通过添加了超参数μ用来对
Figure BDA0003416592370000105
做线性的变换一般设置成1.2,能够通过调整μ来减少融合相似度矩阵与编码相似度矩阵的误差,让余弦相似度接近的向量更大概率的落到哈希平面的同一侧。通过改进J,可以得到最终编码相似度矩阵的重构误差如下:
Figure BDA0003416592370000106
最终的误差损失函数可以定义为:
Figure BDA0003416592370000107
其中,量化参数ξ用于权衡改进的最大化间距量化误差的影响,一般设置成0.1。
在深度网络和多层感知神经网络优化阶段上使用了随机梯度算法和转换学习的策略,对深度网络参数θI以及多层感知神经网络参数θT依次进行优化:首先,深度网络将θI视为常量,同时计算误差损失函数的梯度,然后多层感知神经网络通过反向传播算法更新θT;然后多层感知神经网络将θT视为常量,计算误差损失函数的梯度,深度网络通过反向传播算法更新θI;深度网络和多层感知神经网络的训练随着逐渐收敛而结束,最后输出BI和BT
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.基于融合相似度的深度跨模态哈希方法,其特征在于,包括以下步骤:
1)使用深度网络对图像提取特征,得到图像特征并构建图像特征集合,使用多层感知神经网络对文本提取特征,得到文本特征并构建文本特征集合,并且对图像和文本对应的标签信息,构建标签向量;
2)分别对提取到的图像特征和文本特征计算图像相似度矩阵和文本相似度矩阵,同时也对标签向量建立标签相似度矩阵,其中,图像相似度矩阵、文本相似度矩阵和标签相似度矩阵都是基于余弦距离计算得到的;
3)基于计算得到的图像相似度矩阵、文本相似度矩阵和标签相似度矩阵建立融合相似度矩阵;
4)使用改进的最大化间距的量化机制来缩小余弦距离与汉明距离之间的误差,其中,最大化间距的量化机制能够用于减少余弦距离与汉明距离之间的误差,而改进的最大化间距的量化机制则是针对图像和文本数据分别选用不同的量化参数,从而更进一步地优化这种误差;最终,结合图像相似度矩阵、文本相似度矩阵、标签相似度矩阵和改进的最大间距量化机制,建立误差损失函数,监督哈希码的训练。
2.根据权利要求1所述的基于融合相似度的深度跨模态哈希方法,其特征在于,在步骤1)中,图像特征集合被标识为F,F={f1,f2,f3,...,fi,...,fN},其中
Figure FDA0003416592360000011
N、dI、fi和R分别表示数量、图像特征的维度、第i个图像特征以及实数集合;文本特征的提取,采用的是多层感知神经网络,由三层全连接层组成;文本特征集合被标识为G,G={g1,g2,g3,...,gj,...,gN},其中
Figure FDA0003416592360000012
dT和gj分别表示特征的维度和第j个文本特征。
3.根据权利要求1所述的基于融合相似度的深度跨模态哈希方法,其特征在于,在步骤2)中,对标签向量构建标签向量集合,标签向量集合被定义为L,L∈{0,1}c×N,其中c表示类别的个数,N表示数量;标签相似度矩阵被标识为SL,由
Figure FDA0003416592360000021
计算得到,其中
Figure FDA0003416592360000022
表示经过l2正则化的L,1代表全一向量;用
Figure FDA0003416592360000023
来表示SL中第i行和第j列的元素,即第i个图像特征和第j个文本特征的相似度,其中,
Figure FDA0003416592360000024
表示第i个和第j个向量的所属类别完全相同,
Figure FDA0003416592360000025
表示两个向量所属类别部分相同,
Figure FDA0003416592360000026
表示两个向量的所属类别完全不相同;
同时,图像相似度矩阵和文本相似度矩阵也应用到计算之中,图像相似度矩阵被标识为SI,文本相似度矩阵被标识为ST
Figure FDA0003416592360000027
Figure FDA0003416592360000028
分别表示图像相似度矩阵的计算和文本相似度矩阵的计算,图像特征集合被标识为F,文本特征集合被标识为G,
Figure FDA0003416592360000029
Figure FDA00034165923600000210
分别表示经过l2正则化的图像特征集合和文本特征集合。
4.根据权利要求1所述的基于融合相似度的深度跨模态哈希方法,其特征在于,在步骤3)中,融合相似度矩阵被标识为SU,其计算如下:
SU=βSI+(1-β)ST
式中,SI表示图像相似度矩阵,ST表示文本相似度矩阵,β为超参数,用于平衡图像相似度矩阵的计算和文本相似度矩阵的重要性;服从相同数据分布的一批数据认为是同一模态的数据,而服从不同数据分布的一批数据认为是跨模态数据;图像和文本就是两批服从不同数据分布的数据,所以它们两者的集合认为是跨模态数据;为了进一步提高跨模态数据之间的关联度,能够通过计算SU SU T来得到高阶的融合相似度矩阵;然后高阶的融合相似度矩阵需要通过与N做除法来做一个规范化;最后,高阶的融合相似度矩阵与标签相似度矩阵SL,通过以下公式结合在一起生成新的融合相似度矩阵
Figure FDA00034165923600000211
Figure FDA0003416592360000031
式中,η为融合超参数,用于权衡标签相似度矩阵和高阶的融合相似度矩阵的影响。
5.根据权利要求1所述的基于融合相似度的深度跨模态哈希方法,其特征在于,在步骤4)中,为了使余弦距离相近的两组数据,更大概率地映射到哈希超平面的相同一侧,采用改进的最大化间距的量化机制;改进的最大化间距的量化机制通过建立改进的最大化间距量化误差,并深度网络和多层感知神经网络逐步优化的过程中减小该误差,从而缩小余弦距离与汉明距离之间的误差;将全一向量1定义为哈希超平面,则改进的最大化间距量化误差Q的表达式如下:
Figure FDA0003416592360000032
式中,
Figure FDA0003416592360000033
Figure FDA0003416592360000034
分别表示第i个图像和第i个文本的投影向量,N表示数量,针对图像和文本的两个间距参数δ11∈(1,2];然后结合新的融合相似度矩阵
Figure FDA0003416592360000035
构建误差损失函数步骤如下:
4.1)设BI∈{-1,+1}N×K、BT∈{-1,+1}N×K分别表示图像和文本对应K位的哈希码的集合,数量表示为N;基于图像和文本的编码相似度矩阵
Figure FDA0003416592360000036
能够通过如下公式计算得到:
Figure FDA0003416592360000037
式中,
Figure FDA0003416592360000038
Figure FDA0003416592360000039
分别表示经过l2正则化的BI和BT
Figure FDA00034165923600000310
中的元素用于衡量跨模态数据之间的相似度;为了让哈希码能够保留跨模态数据的语义性,基于图像和文本的编码相似度矩阵
Figure FDA00034165923600000311
与新的融合相似度矩阵
Figure FDA00034165923600000312
的误差通过如下公式计算得到:
Figure FDA0003416592360000041
式中,
Figure FDA0003416592360000042
代表佛罗贝尼乌斯范数的平方,θI与θT分别表示深度网络参数和多层感知神经网络参数,图像数据间的编码相似度矩阵和文本数据间的编码相似度矩阵分别表示成
Figure FDA0003416592360000043
Figure FDA0003416592360000044
因此,得到
Figure FDA0003416592360000045
为了增强哈希码对同一模态数据间相似度信息的保留,图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差,与文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差,也应当在深度网络和多层感知神经网络优化的过程中被最小化;最小化公式如下:
Figure FDA0003416592360000046
综合上述公式,能够得到编码相似度矩阵的重构误差J,公式如下:
Figure FDA0003416592360000047
式中,λ1与λ2为超参数,分别用于控制图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响,以及控制文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响;
4.2)在
Figure FDA0003416592360000048
的构建过程,同样也存在余弦距离与汉明距离之间的误差,因为上述三个矩阵的构建是基于汉明距离,而矩阵
Figure FDA0003416592360000049
是基于余弦距离的,通过添加了超参数μ对
Figure FDA00034165923600000410
做线性的变换,调整μ来减少新的融合相似度矩阵与编码相似度矩阵的误差,让余弦相似度大的数据更大概率落到哈希平面的同一侧;通过改进J,能够得到最终的编码相似度矩阵的重构误差
Figure FDA00034165923600000411
如下:
Figure FDA00034165923600000412
最终的误差损失函数定义为:
Figure FDA0003416592360000051
式中,ξ为量化参数,用于权衡改进的最大化间距量化误差的影响;
在深度网络和多层感知神经网络优化阶段上使用了随机梯度算法和转换学习的策略,对深度网络参数θI以及多层感知神经网络参数θT依次进行优化:首先,深度网络将θI视为常量,同时计算误差损失函数的梯度,然后多层感知神经网络通过反向传播算法更新θT;然后多层感知神经网络将θT视为常量,计算误差损失函数的梯度,深度网络通过反向传播算法更新θI;深度网络和多层感知神经网络的训练随着逐渐收敛而结束,最后输出BI和BT
CN202111548953.8A 2021-12-17 2021-12-17 基于融合相似度的深度跨模态哈希方法 Active CN114359930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111548953.8A CN114359930B (zh) 2021-12-17 2021-12-17 基于融合相似度的深度跨模态哈希方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111548953.8A CN114359930B (zh) 2021-12-17 2021-12-17 基于融合相似度的深度跨模态哈希方法

Publications (2)

Publication Number Publication Date
CN114359930A true CN114359930A (zh) 2022-04-15
CN114359930B CN114359930B (zh) 2024-09-17

Family

ID=81100145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111548953.8A Active CN114359930B (zh) 2021-12-17 2021-12-17 基于融合相似度的深度跨模态哈希方法

Country Status (1)

Country Link
CN (1) CN114359930B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676390A (zh) * 2022-05-27 2022-06-28 华南师范大学 心理特质相近人员的查找方法、系统、装置和存储介质
CN114691907A (zh) * 2022-05-31 2022-07-01 上海蜜度信息技术有限公司 一种跨模态检索的方法、设备及介质
CN116226475A (zh) * 2023-02-01 2023-06-06 重庆师范大学 一种添加非共现信息优化检索的方法
CN116414867A (zh) * 2023-06-12 2023-07-11 中南大学 一种基于量化哈希编码的时空数据检索方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN112182273A (zh) * 2020-09-25 2021-01-05 贵州师范大学 基于语义约束矩阵分解哈希的跨模态检索方法及其系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN112182273A (zh) * 2020-09-25 2021-01-05 贵州师范大学 基于语义约束矩阵分解哈希的跨模态检索方法及其系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676390A (zh) * 2022-05-27 2022-06-28 华南师范大学 心理特质相近人员的查找方法、系统、装置和存储介质
CN114691907A (zh) * 2022-05-31 2022-07-01 上海蜜度信息技术有限公司 一种跨模态检索的方法、设备及介质
CN116226475A (zh) * 2023-02-01 2023-06-06 重庆师范大学 一种添加非共现信息优化检索的方法
CN116414867A (zh) * 2023-06-12 2023-07-11 中南大学 一种基于量化哈希编码的时空数据检索方法
CN116414867B (zh) * 2023-06-12 2023-08-22 中南大学 一种基于量化哈希编码的时空数据检索方法

Also Published As

Publication number Publication date
CN114359930B (zh) 2024-09-17

Similar Documents

Publication Publication Date Title
CN109783682B (zh) 一种基于点对相似度的深度非松弛哈希图像检索方法
CN114359930A (zh) 基于融合相似度的深度跨模态哈希方法
Zhang et al. Sequential three-way decision based on multi-granular autoencoder features
CN112328767B (zh) 基于bert模型和比较聚合框架的问答匹配方法
CN103605972B (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
CN111461157B (zh) 一种基于自学习的跨模态哈希检索方法
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
CN109902714B (zh) 一种基于多图正则化深度哈希的多模态医学图像检索方法
CN108805157A (zh) 基于部分随机监督离散式哈希的遥感图像分类方法
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN111753190A (zh) 一种基于元学习的无监督跨模态哈希检索方法
CN110263804B (zh) 一种基于安全半监督聚类的医学影像分割方法
CN109492589A (zh) 通过二进制特征与联合层叠结构融合的人脸识别工作方法以及智能芯片
CN114118369B (zh) 一种基于群智能优化的图像分类卷积神经网络设计方法
CN111985152B (zh) 一种基于二分超球面原型网络的事件分类方法
CN110111365A (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN114925767A (zh) 一种基于变分自编码器的场景生成方法和装置
CN111310787B (zh) 一种基于堆叠编码器的脑功能网络多核模糊聚类方法
CN116596150A (zh) 基于多分支自注意力的Transformer霍克斯过程模型的事件预测方法
CN115905855A (zh) 一种改进的元学习算法MG-Reptile
CN114357307B (zh) 一种基于多维度特征的新闻推荐方法
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant