CN114359930A - 基于融合相似度的深度跨模态哈希方法 - Google Patents
基于融合相似度的深度跨模态哈希方法 Download PDFInfo
- Publication number
- CN114359930A CN114359930A CN202111548953.8A CN202111548953A CN114359930A CN 114359930 A CN114359930 A CN 114359930A CN 202111548953 A CN202111548953 A CN 202111548953A CN 114359930 A CN114359930 A CN 114359930A
- Authority
- CN
- China
- Prior art keywords
- similarity matrix
- text
- image
- data
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000011159 matrix material Substances 0.000 claims abstract description 154
- 238000013139 quantization Methods 0.000 claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 34
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 230000008447 perception Effects 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于融合相似度的深度跨模态哈希方法,包括:1)图像特征提取,文本特征提取,对标签信息构建标签集合;2)分别对提取到的图像特征和文本特征计算图像相似度矩阵和文本相似度矩阵,同时也对标签集合建立标签相似度矩阵;3)基于计算得到的图像相似度矩阵、文本相似度矩阵和标签相似度矩阵建立融合相似度矩阵;4)使用改进的最大化间距的量化机制,结合融合相似度矩阵,建立误差损失函数,监督哈希码的训练。本发明方法能够深入挖掘不同模态数据之间的语义相关性,同时加入改进的量化机制,从而让算法生成更具判别性的哈希编码,实现更高准确度的检索。
Description
技术领域
本发明涉及深度哈希算法和跨模态检索的技术领域,尤其是指一种基于融合相似度的深度跨模态哈希方法。
背景技术
现有的基于无监督学习的跨模态检索方法,大多先采用基于模态内相似度的特征提取的方法,同时也采用了基于模态间相似度的公共语义空间学习方法,一定程度上保留了原始数据地语义相似度,然而,该方法无法权衡不同的模态相似度对于最终的公共语义空间学习的影响,使得检索精确度不理想;典型的半监督学习的跨模态方法采用对抗生成网络,生成异构数据对的方法,实现半监督学习的跨模态检索。其中,生成网络用于通过挑选无标签数据和有标签的检索样本,生成图文数据对。决策网络对生成网络输入的生成图文数据对和已有的真实图文数据对做辨别,计算误差,从而优化生成网络;基于全监督学习的跨模态检索研究中,主要是将标签相似度引导训练公共语义空间的方法。
现有的方法大多注重保留模态间的相似度关系,而忽略模态内部的相似度关系。而模态内部的相似度关系,也影响着公共子空间对原始数据的语义保留,要最大程度地让公共子空间保留更多的语义信息,模态内部的相似度关系必须考虑在内。同样重要的一点是,现有的研究没有重视考虑哈希码编码过程产生的误差。而无论是欧式距离衡量的相似度,还是余弦距离衡量的相似度,当这些相似度关系投影到二进制汉明空间的过程中,必然存在一定程度的误差,通过在汉明空间的训练过程添加相应的量化机制,缩减上述误差,也是必不可少的。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于融合相似度的深度跨模态哈希方法,包含新的融合机制,基于传统机器学习算法进行改进,将文本相似度、标签相似度、图像相似度做融合,监督跨模态公共语义空间的训练。同时,该方法包含改进的量化机制,将大大缩小在哈希码编码的过程中,由余弦相似度向汉明相似度转化产生的误差。
为实现上述目的,本发明所提供的技术方案为:基于融合相似度的深度跨模态哈希方法,包括以下步骤:
1)使用深度网络对图像提取特征,得到图像特征并构建图像特征集合,使用多层感知神经网络对文本提取特征,得到文本特征并构建文本特征集合,并且对图像和文本对应的标签信息,构建标签向量;
2)分别对提取到的图像特征和文本特征计算图像相似度矩阵和文本相似度矩阵,同时也对标签向量建立标签相似度矩阵,其中,图像相似度矩阵、文本相似度矩阵和标签相似度矩阵都是基于余弦距离计算得到的;
3)基于计算得到的图像相似度矩阵、文本相似度矩阵和标签相似度矩阵建立融合相似度矩阵;
4)使用改进的最大化间距的量化机制来缩小余弦距离与汉明距离之间的误差,其中,最大化间距的量化机制能够用于减少余弦距离与汉明距离之间的误差,而改进的最大化间距的量化机制则是针对图像和文本数据分别选用不同的量化参数,从而更进一步地优化这种误差;最终,结合图像相似度矩阵、文本相似度矩阵、标签相似度矩阵和改进的最大间距量化机制,建立误差损失函数,监督哈希码的训练。
进一步,在步骤1)中,图像特征集合被标识为F,F={f1,f2,f3,...,fi,...,fN},其中N、dI、fi和R分别表示数量、图像特征的维度、第i个图像特征以及实数集合;文本特征的提取,采用的是多层感知神经网络,由三层全连接层组成;文本特征集合被标识为G,G={g1,g2,g3,...,gj,...,gN},其中dT和gj分别表示特征的维度和第j个文本特征。
进一步,在步骤2)中,对标签向量构建标签向量集合,标签向量集合被定义为L,L∈{0,1}c×N,其中c表示类别的个数,N表示数量;标签相似度矩阵被标识为SL,由计算得到,其中表示经过l2正则化的L,1代表全一向量;用来表示SL中第i行和第j列的元素,即第i个图像特征和第j个文本特征的相似度,其中,表示第i个和第j个向量的所属类别完全相同,表示两个向量所属类别部分相同,表示两个向量的所属类别完全不相同;
同时,图像相似度矩阵和文本相似度矩阵也应用到计算之中,图像相似度矩阵被标识为SI,文本相似度矩阵被标识为ST, 分别表示图像相似度矩阵的计算和文本相似度矩阵的计算,图像特征集合被标识为F,文本特征集合被标识为G,和分别表示经过l2正则化的图像特征集合和文本特征集合。
进一步,在步骤3)中,融合相似度矩阵被标识为SU,其计算如下:
SU=βSI+(1-β)ST
式中,SI表示图像相似度矩阵,ST表示文本相似度矩阵,β为超参数,用于平衡图像相似度矩阵的计算和文本相似度矩阵的重要性;服从相同数据分布的一批数据认为是同一模态的数据,而服从不同数据分布的一批数据认为是跨模态数据;图像和文本就是两批服从不同数据分布的数据,所以它们两者的集合认为是跨模态数据;为了进一步提高跨模态数据之间的关联度,能够通过计算SU SU T来得到高阶的融合相似度矩阵;然后高阶的融合相似度矩阵需要通过与N做除法来做一个规范化;最后,高阶的融合相似度矩阵与标签相似度矩阵SL,通过以下公式结合在一起生成新的融合相似度矩阵
式中,η为融合超参数,用于权衡标签相似度矩阵和高阶的融合相似度矩阵的影响。
进一步,在步骤4)中,为了使余弦距离相近的两组数据,更大概率地映射到哈希超平面的相同一侧,采用改进的最大化间距的量化机制;改进的最大化间距的量化机制,通过建立改进的最大化间距量化误差,并在深度网络和多层感知神经网络逐步优化的过程中减小该误差,从而可以缩小余弦距离与汉明距离之间的误差。将全一向量1定义为哈希超平面,则改进的最大化间距量化误差Q的表达式如下:
式中,与分别表示经过l2正则化的BI和BT,中的元素用于衡量跨模态数据之间的相似度;为了让哈希码能够保留跨模态数据的语义性,基于图像和文本的编码相似度矩阵与新的融合相似度矩阵的误差通过如下公式计算得到:
式中,代表佛罗贝尼乌斯范数的平方,θI与θT分别表示深度网络参数和多层感知神经网络参数,图像数据间的编码相似度矩阵和文本数据间的编码相似度矩阵分别表示成和因此,得到为了增强哈希码对同一模态数据间相似度信息的保留,图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差,与文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差,也应当在深度网络和多层感知神经网络优化的过程中被最小化;最小化公式如下:
综合上述公式,能够得到编码相似度矩阵的重构误差J,公式如下:
式中,λ1与λ2为超参数,分别用于控制图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响,以及控制文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响;
4.2)在的构建过程,同样也存在余弦距离与汉明距离之间的误差,因为上述三个矩阵的构建是基于汉明距离,而矩阵是基于余弦距离的,通过添加了超参数μ对做线性的变换,调整μ来减少新的融合相似度矩阵与编码相似度矩阵的误差,让余弦相似度大的数据更大概率落到哈希平面的同一侧;通过改进J,能够得到最终的编码相似度矩阵的重构误差如下:
最终的误差损失函数定义为:
式中,ξ为量化参数,用于权衡改进的最大化间距量化误差的影响;
在深度网络和多层感知神经网络优化阶段上使用了随机梯度算法和转换学习的策略,对深度网络参数θI以及多层感知神经网络参数θT依次进行优化:首先,深度网络将θI视为常量,同时计算误差损失函数的梯度,然后多层感知神经网络通过反向传播算法更新θT;然后多层感知神经网络将θT视为常量,计算误差损失函数的梯度,深度网络通过反向传播算法更新θI;深度网络和多层感知神经网络的训练随着逐渐收敛而结束,最后输出BI和BT。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明提出了基于融合相似度的深度跨模态哈希方法,能够深入挖掘不同模态数据之间的语义相关性,从而让算法生成更具判别性的哈希编码,实现更高准确度的检索。
2、本发明提出了改进的最大间隔的量化机制,能够大大缩减余弦相似度与汉明相似度之间的误差,提高编码的检索精确度。
3、本发明方法与一般的跨模态哈希方法相比,可以有效提升检索的精确度,在跨模态检索任务中具有实用性。
附图说明
图1为本发明方法的逻辑流程示意图。
图2为本发明所使用的余弦相似度和汉明相似度关系示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例所提供的基于融合相似度的深度跨模态哈希方法,其具体情况如下:
1)使用深度网络对图像提取特征信息,得到图像特征,使用多层感知神经网络对文本提取特征信息,得到文本特征。对图像特征构建图像特征集合,图像特征集合被标识为F,F={f1,f2,f3,...,fi,...,fN},其中N、dI、fi和R分别表示数量、图像特征的维度、第i个图像特征以及实数集合;文本特征的提取,采用的是多层感知神经网络,由三层全连接层组成;对文本特征构建文本特征集合,文本特征集合被标识为G,G={g1,g2,g3,...,gj,...,gN},其中dT和gj分别表示特征的维度和第j个文本特征。
2)分别对提取到的图像特征和文本特征计算图像相似度矩阵和文本相似度矩阵,同时也对标签向量建立标签相似度矩阵,其中,图像相似度矩阵、文本相似度矩阵和标签相似度矩阵都是基于余弦距离计算得到的。
对标签向量构建标签向量集合,标签向量集合被定义为L,L∈{0,1}c×N,其中c表示类别的个数;标签相似度矩阵被标识为SL,由计算得到,其中表示经过l2正则化的L,1代表全一向量;用来表示SL中第i行和第j列的元素,即第i个图像特征和第j个文本特征的相似度,其中,表示第i个和第j个向量的所属类别完全相同,表示两个向量所属类别部分相同,表示两个向量的所属类别完全不相同。
同时,图像相似度矩阵和文本相似度矩阵也应用到计算之中,图像相似度矩阵被标识为SI,文本相似度矩阵被标识为ST, 分别表示图像相似度矩阵的计算和文本相似度矩阵的计算,和分别表示经过l2正则化的图像特征集合和文本特征集合。
3)基于计算得到的图像相似度矩阵、文本相似度矩阵和标签相似度矩阵建立融合相似度矩阵。模态间的邻接关系通过计算融合相似度矩阵得到。融合相似度矩阵被标识为SU,定义如下:
SU=βSI+(1-β)ST
其中,SI表示图像相似度矩阵,ST表示文本相似度矩阵,超参数β用于权衡不同模态相似度的重要性,属于经验值一般被设置为0.6。服从相同数据分布的一批数据可认为是同一模态的数据,而服从不同数据分布的一批数据可以认为是跨模态数据;图像和文本就是两批服从不同数据分布的数据,所以它们两者的集合可以认为是跨模态数据。为了提高跨模态数据的关联度,通过计算SU SU T来得到高阶的融合相似度矩阵;然后高阶的融合相似度矩阵需要通过与N做除法来做一个规范化;最后,高阶的融合相似度矩阵与标签相似度矩阵SL,通过以下公式结合在一起生成新的融合相似度矩阵
其中,融合超参数η,属于经验值,用于权衡标签相似度和融合矩阵的影响,一般被设置为0.4。
4)使用改进的最大化间距的量化机制,结合融合相似度矩阵,建立误差损失函数,监督哈希码的训练。
为了使余弦距离相近的两个实例,在做哈希编码的过程更大概率地映射到超平面的相同一侧,可以使用改进的最大化间距的量化机制。改进的最大化间距的量化机制通过建立改进的最大化间距量化误差,并深度网络和多层感知神经网络逐步优化的过程中减小该误差,从而可以缩小余弦距离与汉明距离之间的误差;我们将全一向量1定义为哈希码的超平面,则改进的最大化间距量化误差Q的表达式如下:
4.1)设BI∈{-1,+1}N×K、BT∈{-1,+1}N×K分别表示图像和文本对应K位的哈希码的集合,。现有的哈希方法大多使用符号函数来做真值向量的映射得到哈希码。然而,这种编码策略容易导致梯度消失,影响梯度下降过程。基于此,本方法采用双曲正切函数来做真值向量的映射。设HI与HT分别表示图像和文本的真值映射,对应哈希码的计算过程如下:
BI=tanh(αHI)α∈R+
BT=tanh(αHT)α∈R+
其中,tanh()与α分别表示双曲正切函数和控制哈希编码过程的收敛程度的参数。通过在模型的训练过程,逐渐增加α,梯度消失的现象得到解决。基于图像和文本的哈希编码,模态间的编码相似度矩阵可以通过如下公式计算得到:
其中,与分别表示经过l2正则化的BI和BT。中的元素用于衡量跨模态数据之间的相似度。为了让哈希码能够保留跨模态数据之间的语义性关联,基于图像和文本的编码相似度矩阵与新的融合相似度矩阵的误差通过如下公式计算得到:
其中,θI与θT分别表示深度网络参数和多层感知神经网络参数。图像数据间的编码相似度矩阵和文本数据间的编码相似度矩阵分别表示成和因此,可以得到为了增强哈希码对同一模态数据间相似度信息的保留,图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差,与文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差,也应当在深度网络和多层感知神经网络优化的过程中被最小化。最小化公式如下:
综合上述公式,可以得到编码相似度矩阵的重构误差J,公式如下:
其中,超参数λ1与λ2分别用于控制图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响,以及控制文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响,一般都设置成0.1。
4.2)对于哈希编码,本方法加入了改进的最大化间距的量化机制,以此缩小由余弦距离投影与汉明距离之间的误差。举个例子,如图2所示,假设角小于角γ。绿色方块X,红色方块Y,和红色三角形Z分别位于单位圆边上的各个位置。我们很容易计算得到X和Y的余弦距离小于Y与Z的余弦距离。所以在余弦相似度的衡量标准下,X比起Z,要更加近似于Y。然而当进行映射以后,Y与Z会映射到相同的哈希平面上,要比Y与X更加接近。这个例子就说明余弦相似度在映射以后会产生一定的误差。
在的构建过程,同样也存在余弦距离与汉明距离之间的误差。因为上述三个矩阵的构建是基于汉明距离,而矩阵是基于余弦距离的。本方法通过添加了超参数μ用来对做线性的变换一般设置成1.2,能够通过调整μ来减少融合相似度矩阵与编码相似度矩阵的误差,让余弦相似度接近的向量更大概率的落到哈希平面的同一侧。通过改进J,可以得到最终编码相似度矩阵的重构误差如下:
最终的误差损失函数可以定义为:
其中,量化参数ξ用于权衡改进的最大化间距量化误差的影响,一般设置成0.1。
在深度网络和多层感知神经网络优化阶段上使用了随机梯度算法和转换学习的策略,对深度网络参数θI以及多层感知神经网络参数θT依次进行优化:首先,深度网络将θI视为常量,同时计算误差损失函数的梯度,然后多层感知神经网络通过反向传播算法更新θT;然后多层感知神经网络将θT视为常量,计算误差损失函数的梯度,深度网络通过反向传播算法更新θI;深度网络和多层感知神经网络的训练随着逐渐收敛而结束,最后输出BI和BT。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.基于融合相似度的深度跨模态哈希方法,其特征在于,包括以下步骤:
1)使用深度网络对图像提取特征,得到图像特征并构建图像特征集合,使用多层感知神经网络对文本提取特征,得到文本特征并构建文本特征集合,并且对图像和文本对应的标签信息,构建标签向量;
2)分别对提取到的图像特征和文本特征计算图像相似度矩阵和文本相似度矩阵,同时也对标签向量建立标签相似度矩阵,其中,图像相似度矩阵、文本相似度矩阵和标签相似度矩阵都是基于余弦距离计算得到的;
3)基于计算得到的图像相似度矩阵、文本相似度矩阵和标签相似度矩阵建立融合相似度矩阵;
4)使用改进的最大化间距的量化机制来缩小余弦距离与汉明距离之间的误差,其中,最大化间距的量化机制能够用于减少余弦距离与汉明距离之间的误差,而改进的最大化间距的量化机制则是针对图像和文本数据分别选用不同的量化参数,从而更进一步地优化这种误差;最终,结合图像相似度矩阵、文本相似度矩阵、标签相似度矩阵和改进的最大间距量化机制,建立误差损失函数,监督哈希码的训练。
3.根据权利要求1所述的基于融合相似度的深度跨模态哈希方法,其特征在于,在步骤2)中,对标签向量构建标签向量集合,标签向量集合被定义为L,L∈{0,1}c×N,其中c表示类别的个数,N表示数量;标签相似度矩阵被标识为SL,由计算得到,其中表示经过l2正则化的L,1代表全一向量;用来表示SL中第i行和第j列的元素,即第i个图像特征和第j个文本特征的相似度,其中,表示第i个和第j个向量的所属类别完全相同,表示两个向量所属类别部分相同,表示两个向量的所属类别完全不相同;
4.根据权利要求1所述的基于融合相似度的深度跨模态哈希方法,其特征在于,在步骤3)中,融合相似度矩阵被标识为SU,其计算如下:
SU=βSI+(1-β)ST
式中,SI表示图像相似度矩阵,ST表示文本相似度矩阵,β为超参数,用于平衡图像相似度矩阵的计算和文本相似度矩阵的重要性;服从相同数据分布的一批数据认为是同一模态的数据,而服从不同数据分布的一批数据认为是跨模态数据;图像和文本就是两批服从不同数据分布的数据,所以它们两者的集合认为是跨模态数据;为了进一步提高跨模态数据之间的关联度,能够通过计算SU SU T来得到高阶的融合相似度矩阵;然后高阶的融合相似度矩阵需要通过与N做除法来做一个规范化;最后,高阶的融合相似度矩阵与标签相似度矩阵SL,通过以下公式结合在一起生成新的融合相似度矩阵
式中,η为融合超参数,用于权衡标签相似度矩阵和高阶的融合相似度矩阵的影响。
5.根据权利要求1所述的基于融合相似度的深度跨模态哈希方法,其特征在于,在步骤4)中,为了使余弦距离相近的两组数据,更大概率地映射到哈希超平面的相同一侧,采用改进的最大化间距的量化机制;改进的最大化间距的量化机制通过建立改进的最大化间距量化误差,并深度网络和多层感知神经网络逐步优化的过程中减小该误差,从而缩小余弦距离与汉明距离之间的误差;将全一向量1定义为哈希超平面,则改进的最大化间距量化误差Q的表达式如下:
式中,与分别表示经过l2正则化的BI和BT,中的元素用于衡量跨模态数据之间的相似度;为了让哈希码能够保留跨模态数据的语义性,基于图像和文本的编码相似度矩阵与新的融合相似度矩阵的误差通过如下公式计算得到:
式中,代表佛罗贝尼乌斯范数的平方,θI与θT分别表示深度网络参数和多层感知神经网络参数,图像数据间的编码相似度矩阵和文本数据间的编码相似度矩阵分别表示成和因此,得到为了增强哈希码对同一模态数据间相似度信息的保留,图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差,与文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差,也应当在深度网络和多层感知神经网络优化的过程中被最小化;最小化公式如下:
综合上述公式,能够得到编码相似度矩阵的重构误差J,公式如下:
式中,λ1与λ2为超参数,分别用于控制图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响,以及控制文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响;
4.2)在的构建过程,同样也存在余弦距离与汉明距离之间的误差,因为上述三个矩阵的构建是基于汉明距离,而矩阵是基于余弦距离的,通过添加了超参数μ对做线性的变换,调整μ来减少新的融合相似度矩阵与编码相似度矩阵的误差,让余弦相似度大的数据更大概率落到哈希平面的同一侧;通过改进J,能够得到最终的编码相似度矩阵的重构误差如下:
最终的误差损失函数定义为:
式中,ξ为量化参数,用于权衡改进的最大化间距量化误差的影响;
在深度网络和多层感知神经网络优化阶段上使用了随机梯度算法和转换学习的策略,对深度网络参数θI以及多层感知神经网络参数θT依次进行优化:首先,深度网络将θI视为常量,同时计算误差损失函数的梯度,然后多层感知神经网络通过反向传播算法更新θT;然后多层感知神经网络将θT视为常量,计算误差损失函数的梯度,深度网络通过反向传播算法更新θI;深度网络和多层感知神经网络的训练随着逐渐收敛而结束,最后输出BI和BT。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111548953.8A CN114359930B (zh) | 2021-12-17 | 2021-12-17 | 基于融合相似度的深度跨模态哈希方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111548953.8A CN114359930B (zh) | 2021-12-17 | 2021-12-17 | 基于融合相似度的深度跨模态哈希方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114359930A true CN114359930A (zh) | 2022-04-15 |
CN114359930B CN114359930B (zh) | 2024-09-17 |
Family
ID=81100145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111548953.8A Active CN114359930B (zh) | 2021-12-17 | 2021-12-17 | 基于融合相似度的深度跨模态哈希方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114359930B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114676390A (zh) * | 2022-05-27 | 2022-06-28 | 华南师范大学 | 心理特质相近人员的查找方法、系统、装置和存储介质 |
CN114691907A (zh) * | 2022-05-31 | 2022-07-01 | 上海蜜度信息技术有限公司 | 一种跨模态检索的方法、设备及介质 |
CN116226475A (zh) * | 2023-02-01 | 2023-06-06 | 重庆师范大学 | 一种添加非共现信息优化检索的方法 |
CN116414867A (zh) * | 2023-06-12 | 2023-07-11 | 中南大学 | 一种基于量化哈希编码的时空数据检索方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110122A (zh) * | 2018-06-22 | 2019-08-09 | 北京交通大学 | 基于多层语义深度哈希算法的图像-文本跨模态检索 |
CN112182273A (zh) * | 2020-09-25 | 2021-01-05 | 贵州师范大学 | 基于语义约束矩阵分解哈希的跨模态检索方法及其系统 |
-
2021
- 2021-12-17 CN CN202111548953.8A patent/CN114359930B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110122A (zh) * | 2018-06-22 | 2019-08-09 | 北京交通大学 | 基于多层语义深度哈希算法的图像-文本跨模态检索 |
CN112182273A (zh) * | 2020-09-25 | 2021-01-05 | 贵州师范大学 | 基于语义约束矩阵分解哈希的跨模态检索方法及其系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114676390A (zh) * | 2022-05-27 | 2022-06-28 | 华南师范大学 | 心理特质相近人员的查找方法、系统、装置和存储介质 |
CN114691907A (zh) * | 2022-05-31 | 2022-07-01 | 上海蜜度信息技术有限公司 | 一种跨模态检索的方法、设备及介质 |
CN116226475A (zh) * | 2023-02-01 | 2023-06-06 | 重庆师范大学 | 一种添加非共现信息优化检索的方法 |
CN116414867A (zh) * | 2023-06-12 | 2023-07-11 | 中南大学 | 一种基于量化哈希编码的时空数据检索方法 |
CN116414867B (zh) * | 2023-06-12 | 2023-08-22 | 中南大学 | 一种基于量化哈希编码的时空数据检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114359930B (zh) | 2024-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783682B (zh) | 一种基于点对相似度的深度非松弛哈希图像检索方法 | |
CN114359930A (zh) | 基于融合相似度的深度跨模态哈希方法 | |
Zhang et al. | Sequential three-way decision based on multi-granular autoencoder features | |
CN112328767B (zh) | 基于bert模型和比较聚合框架的问答匹配方法 | |
CN103605972B (zh) | 一种基于分块深度神经网络的非限制环境人脸验证方法 | |
CN111461157B (zh) | 一种基于自学习的跨模态哈希检索方法 | |
CN110188827B (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN110222218B (zh) | 基于多尺度NetVLAD和深度哈希的图像检索方法 | |
CN110941734B (zh) | 基于稀疏图结构的深度无监督图像检索方法 | |
CN109902714B (zh) | 一种基于多图正则化深度哈希的多模态医学图像检索方法 | |
CN108805157A (zh) | 基于部分随机监督离散式哈希的遥感图像分类方法 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN111753190A (zh) | 一种基于元学习的无监督跨模态哈希检索方法 | |
CN110263804B (zh) | 一种基于安全半监督聚类的医学影像分割方法 | |
CN109492589A (zh) | 通过二进制特征与联合层叠结构融合的人脸识别工作方法以及智能芯片 | |
CN114118369B (zh) | 一种基于群智能优化的图像分类卷积神经网络设计方法 | |
CN111985152B (zh) | 一种基于二分超球面原型网络的事件分类方法 | |
CN110111365A (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN115795065A (zh) | 基于带权哈希码的多媒体数据跨模态检索方法及系统 | |
CN114925767A (zh) | 一种基于变分自编码器的场景生成方法和装置 | |
CN111310787B (zh) | 一种基于堆叠编码器的脑功能网络多核模糊聚类方法 | |
CN116596150A (zh) | 基于多分支自注意力的Transformer霍克斯过程模型的事件预测方法 | |
CN115905855A (zh) | 一种改进的元学习算法MG-Reptile | |
CN114357307B (zh) | 一种基于多维度特征的新闻推荐方法 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |