CN114359930A

CN114359930A - 基于融合相似度的深度跨模态哈希方法

Info

Publication number: CN114359930A
Application number: CN202111548953.8A
Authority: CN
Inventors: 吴永贤; 徐永志; 田星
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-04-15
Anticipated expiration: 2041-12-17
Also published as: CN114359930B

Abstract

本发明公开了一种基于融合相似度的深度跨模态哈希方法，包括：1)图像特征提取，文本特征提取，对标签信息构建标签集合；2)分别对提取到的图像特征和文本特征计算图像相似度矩阵和文本相似度矩阵，同时也对标签集合建立标签相似度矩阵；3)基于计算得到的图像相似度矩阵、文本相似度矩阵和标签相似度矩阵建立融合相似度矩阵；4)使用改进的最大化间距的量化机制，结合融合相似度矩阵，建立误差损失函数，监督哈希码的训练。本发明方法能够深入挖掘不同模态数据之间的语义相关性，同时加入改进的量化机制，从而让算法生成更具判别性的哈希编码，实现更高准确度的检索。

Description

基于融合相似度的深度跨模态哈希方法

技术领域

本发明涉及深度哈希算法和跨模态检索的技术领域，尤其是指一种基于融合相似度的深度跨模态哈希方法。

背景技术

现有的基于无监督学习的跨模态检索方法，大多先采用基于模态内相似度的特征提取的方法，同时也采用了基于模态间相似度的公共语义空间学习方法，一定程度上保留了原始数据地语义相似度，然而，该方法无法权衡不同的模态相似度对于最终的公共语义空间学习的影响，使得检索精确度不理想；典型的半监督学习的跨模态方法采用对抗生成网络，生成异构数据对的方法，实现半监督学习的跨模态检索。其中，生成网络用于通过挑选无标签数据和有标签的检索样本，生成图文数据对。决策网络对生成网络输入的生成图文数据对和已有的真实图文数据对做辨别，计算误差，从而优化生成网络；基于全监督学习的跨模态检索研究中，主要是将标签相似度引导训练公共语义空间的方法。

现有的方法大多注重保留模态间的相似度关系，而忽略模态内部的相似度关系。而模态内部的相似度关系，也影响着公共子空间对原始数据的语义保留，要最大程度地让公共子空间保留更多的语义信息，模态内部的相似度关系必须考虑在内。同样重要的一点是，现有的研究没有重视考虑哈希码编码过程产生的误差。而无论是欧式距离衡量的相似度，还是余弦距离衡量的相似度，当这些相似度关系投影到二进制汉明空间的过程中，必然存在一定程度的误差，通过在汉明空间的训练过程添加相应的量化机制，缩减上述误差，也是必不可少的。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于融合相似度的深度跨模态哈希方法，包含新的融合机制，基于传统机器学习算法进行改进，将文本相似度、标签相似度、图像相似度做融合，监督跨模态公共语义空间的训练。同时，该方法包含改进的量化机制，将大大缩小在哈希码编码的过程中，由余弦相似度向汉明相似度转化产生的误差。

为实现上述目的，本发明所提供的技术方案为：基于融合相似度的深度跨模态哈希方法，包括以下步骤：

1)使用深度网络对图像提取特征，得到图像特征并构建图像特征集合，使用多层感知神经网络对文本提取特征，得到文本特征并构建文本特征集合，并且对图像和文本对应的标签信息，构建标签向量；

2)分别对提取到的图像特征和文本特征计算图像相似度矩阵和文本相似度矩阵，同时也对标签向量建立标签相似度矩阵，其中，图像相似度矩阵、文本相似度矩阵和标签相似度矩阵都是基于余弦距离计算得到的；

3)基于计算得到的图像相似度矩阵、文本相似度矩阵和标签相似度矩阵建立融合相似度矩阵；

4)使用改进的最大化间距的量化机制来缩小余弦距离与汉明距离之间的误差，其中，最大化间距的量化机制能够用于减少余弦距离与汉明距离之间的误差，而改进的最大化间距的量化机制则是针对图像和文本数据分别选用不同的量化参数，从而更进一步地优化这种误差；最终，结合图像相似度矩阵、文本相似度矩阵、标签相似度矩阵和改进的最大间距量化机制，建立误差损失函数，监督哈希码的训练。

进一步，在步骤1)中，图像特征集合被标识为F，F＝{f₁,f₂,f₃,...,f_i,...,f_N}，其中

N、d_I、f_i和R分别表示数量、图像特征的维度、第i个图像特征以及实数集合；文本特征的提取，采用的是多层感知神经网络，由三层全连接层组成；文本特征集合被标识为G，G＝{g₁,g₂,g₃,...,g_j,...,g_N}，其中

d_T和g_j分别表示特征的维度和第j个文本特征。

进一步，在步骤2)中，对标签向量构建标签向量集合，标签向量集合被定义为L，L∈{0,1}^c×N，其中c表示类别的个数，N表示数量；标签相似度矩阵被标识为S_L，由

计算得到，其中

表示经过l₂正则化的L，1代表全一向量；用

来表示S_L中第i行和第j列的元素，即第i个图像特征和第j个文本特征的相似度，其中，

表示第i个和第j个向量的所属类别完全相同，

表示两个向量所属类别部分相同，

表示两个向量的所属类别完全不相同；

同时，图像相似度矩阵和文本相似度矩阵也应用到计算之中，图像相似度矩阵被标识为S_I，文本相似度矩阵被标识为S_T，

分别表示图像相似度矩阵的计算和文本相似度矩阵的计算，图像特征集合被标识为F，文本特征集合被标识为G，

和

分别表示经过l₂正则化的图像特征集合和文本特征集合。

进一步，在步骤3)中，融合相似度矩阵被标识为S_U，其计算如下：

S_U＝βS_I+(1-β)S_T

式中，S_I表示图像相似度矩阵，S_T表示文本相似度矩阵，β为超参数，用于平衡图像相似度矩阵的计算和文本相似度矩阵的重要性；服从相同数据分布的一批数据认为是同一模态的数据，而服从不同数据分布的一批数据认为是跨模态数据；图像和文本就是两批服从不同数据分布的数据，所以它们两者的集合认为是跨模态数据；为了进一步提高跨模态数据之间的关联度，能够通过计算S_U S_U ^T来得到高阶的融合相似度矩阵；然后高阶的融合相似度矩阵需要通过与N做除法来做一个规范化；最后，高阶的融合相似度矩阵与标签相似度矩阵S_L，通过以下公式结合在一起生成新的融合相似度矩阵

式中，η为融合超参数，用于权衡标签相似度矩阵和高阶的融合相似度矩阵的影响。

进一步，在步骤4)中，为了使余弦距离相近的两组数据，更大概率地映射到哈希超平面的相同一侧，采用改进的最大化间距的量化机制；改进的最大化间距的量化机制，通过建立改进的最大化间距量化误差，并在深度网络和多层感知神经网络逐步优化的过程中减小该误差，从而可以缩小余弦距离与汉明距离之间的误差。将全一向量1定义为哈希超平面，则改进的最大化间距量化误差Q的表达式如下：

式中，

和

分别表示第i个图像和第i个文本的投影向量，N表示数量，针对图像和文本的两个间距参数δ₁,δ₁∈(1,2]；然后结合新的融合相似度矩阵

构建误差损失函数步骤如下：

4.1)设B_I∈{-1,+1}^N×K、B_T∈{-1,+1}^N×K分别表示图像和文本对应K位的哈希码的集合，数量表示为N；基于图像和文本的编码相似度矩阵

能够通过如下公式计算得到：

式中，

与

分别表示经过l₂正则化的B_I和B_T，

中的元素用于衡量跨模态数据之间的相似度；为了让哈希码能够保留跨模态数据的语义性，基于图像和文本的编码相似度矩阵

与新的融合相似度矩阵

的误差通过如下公式计算得到：

式中，

代表佛罗贝尼乌斯范数的平方，θ_I与θ_T分别表示深度网络参数和多层感知神经网络参数，图像数据间的编码相似度矩阵和文本数据间的编码相似度矩阵分别表示成

和

因此，得到

为了增强哈希码对同一模态数据间相似度信息的保留，图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差，与文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差，也应当在深度网络和多层感知神经网络优化的过程中被最小化；最小化公式如下：

综合上述公式，能够得到编码相似度矩阵的重构误差J，公式如下：

式中，λ₁与λ₂为超参数，分别用于控制图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响，以及控制文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响；

4.2)在

的构建过程，同样也存在余弦距离与汉明距离之间的误差，因为上述三个矩阵的构建是基于汉明距离，而矩阵

是基于余弦距离的，通过添加了超参数μ对

做线性的变换，调整μ来减少新的融合相似度矩阵与编码相似度矩阵的误差，让余弦相似度大的数据更大概率落到哈希平面的同一侧；通过改进J，能够得到最终的编码相似度矩阵的重构误差

如下：

最终的误差损失函数定义为：

式中，ξ为量化参数，用于权衡改进的最大化间距量化误差的影响；

在深度网络和多层感知神经网络优化阶段上使用了随机梯度算法和转换学习的策略，对深度网络参数θ_I以及多层感知神经网络参数θ_T依次进行优化：首先，深度网络将θ_I视为常量，同时计算误差损失函数的梯度，然后多层感知神经网络通过反向传播算法更新θ_T；然后多层感知神经网络将θ_T视为常量，计算误差损失函数的梯度，深度网络通过反向传播算法更新θ_I；深度网络和多层感知神经网络的训练随着逐渐收敛而结束，最后输出B_I和B_T。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明提出了基于融合相似度的深度跨模态哈希方法，能够深入挖掘不同模态数据之间的语义相关性，从而让算法生成更具判别性的哈希编码，实现更高准确度的检索。

2、本发明提出了改进的最大间隔的量化机制，能够大大缩减余弦相似度与汉明相似度之间的误差，提高编码的检索精确度。

3、本发明方法与一般的跨模态哈希方法相比，可以有效提升检索的精确度，在跨模态检索任务中具有实用性。

附图说明

图1为本发明方法的逻辑流程示意图。

图2为本发明所使用的余弦相似度和汉明相似度关系示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例所提供的基于融合相似度的深度跨模态哈希方法，其具体情况如下：

1)使用深度网络对图像提取特征信息，得到图像特征，使用多层感知神经网络对文本提取特征信息，得到文本特征。对图像特征构建图像特征集合，图像特征集合被标识为F，F＝{f₁,f₂,f₃,...,f_i,...,f_N}，其中

N、d_I、f_i和R分别表示数量、图像特征的维度、第i个图像特征以及实数集合；文本特征的提取，采用的是多层感知神经网络，由三层全连接层组成；对文本特征构建文本特征集合，文本特征集合被标识为G，G＝{g₁,g₂,g₃,...,g_j,...,g_N}，其中

d_T和g_j分别表示特征的维度和第j个文本特征。

2)分别对提取到的图像特征和文本特征计算图像相似度矩阵和文本相似度矩阵，同时也对标签向量建立标签相似度矩阵，其中，图像相似度矩阵、文本相似度矩阵和标签相似度矩阵都是基于余弦距离计算得到的。

对标签向量构建标签向量集合，标签向量集合被定义为L，L∈{0,1}^c×N，其中c表示类别的个数；标签相似度矩阵被标识为S_L，由

计算得到，其中

表示经过l₂正则化的L，1代表全一向量；用

表示第i个和第j个向量的所属类别完全相同，

表示两个向量所属类别部分相同，

表示两个向量的所属类别完全不相同。

分别表示图像相似度矩阵的计算和文本相似度矩阵的计算，

和

分别表示经过l₂正则化的图像特征集合和文本特征集合。

3)基于计算得到的图像相似度矩阵、文本相似度矩阵和标签相似度矩阵建立融合相似度矩阵。模态间的邻接关系通过计算融合相似度矩阵得到。融合相似度矩阵被标识为S_U，定义如下：

S_U＝βS_I+(1-β)S_T

其中，S_I表示图像相似度矩阵，S_T表示文本相似度矩阵，超参数β用于权衡不同模态相似度的重要性，属于经验值一般被设置为0.6。服从相同数据分布的一批数据可认为是同一模态的数据，而服从不同数据分布的一批数据可以认为是跨模态数据；图像和文本就是两批服从不同数据分布的数据，所以它们两者的集合可以认为是跨模态数据。为了提高跨模态数据的关联度，通过计算S_U S_U ^T来得到高阶的融合相似度矩阵；然后高阶的融合相似度矩阵需要通过与N做除法来做一个规范化；最后，高阶的融合相似度矩阵与标签相似度矩阵S_L，通过以下公式结合在一起生成新的融合相似度矩阵

其中，融合超参数η，属于经验值，用于权衡标签相似度和融合矩阵的影响，一般被设置为0.4。

4)使用改进的最大化间距的量化机制，结合融合相似度矩阵，建立误差损失函数，监督哈希码的训练。

为了使余弦距离相近的两个实例，在做哈希编码的过程更大概率地映射到超平面的相同一侧，可以使用改进的最大化间距的量化机制。改进的最大化间距的量化机制通过建立改进的最大化间距量化误差，并深度网络和多层感知神经网络逐步优化的过程中减小该误差，从而可以缩小余弦距离与汉明距离之间的误差；我们将全一向量1定义为哈希码的超平面，则改进的最大化间距量化误差Q的表达式如下：

其中，

和

分别表示第i个图像和第i个文本的投影向量，针对图像和文本的两个间距参数δ₁,δ₁分别设置成1.2和1.6。然后结合融合相似度矩阵

构建误差损失函数步骤如下：

4.1)设B_I∈{-1,+1}^N×K、B_T∈{-1,+1}^N×K分别表示图像和文本对应K位的哈希码的集合，。现有的哈希方法大多使用符号函数来做真值向量的映射得到哈希码。然而，这种编码策略容易导致梯度消失，影响梯度下降过程。基于此，本方法采用双曲正切函数来做真值向量的映射。设H_I与H_T分别表示图像和文本的真值映射，对应哈希码的计算过程如下：

B_I＝tanh(αH_I)α∈R⁺

B_T＝tanh(αH_T)α∈R⁺

其中，tanh()与α分别表示双曲正切函数和控制哈希编码过程的收敛程度的参数。通过在模型的训练过程，逐渐增加α，梯度消失的现象得到解决。基于图像和文本的哈希编码，模态间的编码相似度矩阵可以通过如下公式计算得到：

其中，

与

分别表示经过l₂正则化的B_I和B_T。

中的元素用于衡量跨模态数据之间的相似度。为了让哈希码能够保留跨模态数据之间的语义性关联，基于图像和文本的编码相似度矩阵

与新的融合相似度矩阵

的误差通过如下公式计算得到:

其中，θ_I与θ_T分别表示深度网络参数和多层感知神经网络参数。图像数据间的编码相似度矩阵和文本数据间的编码相似度矩阵分别表示成

和

因此，可以得到

为了增强哈希码对同一模态数据间相似度信息的保留，图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差，与文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差，也应当在深度网络和多层感知神经网络优化的过程中被最小化。最小化公式如下：

综合上述公式，可以得到编码相似度矩阵的重构误差J，公式如下：

其中，超参数λ₁与λ₂分别用于控制图像数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响，以及控制文本数据间的编码相似度矩阵和新的融合相似度矩阵的误差的影响，一般都设置成0.1。

4.2)对于哈希编码，本方法加入了改进的最大化间距的量化机制，以此缩小由余弦距离投影与汉明距离之间的误差。举个例子，如图2所示，假设角

小于角γ。绿色方块X，红色方块Y，和红色三角形Z分别位于单位圆边上的各个位置。我们很容易计算得到X和Y的余弦距离小于Y与Z的余弦距离。所以在余弦相似度的衡量标准下，X比起Z，要更加近似于Y。然而当进行映射以后，Y与Z会映射到相同的哈希平面上，要比Y与X更加接近。这个例子就说明余弦相似度在映射以后会产生一定的误差。

在

的构建过程，同样也存在余弦距离与汉明距离之间的误差。因为上述三个矩阵的构建是基于汉明距离，而矩阵

是基于余弦距离的。本方法通过添加了超参数μ用来对

做线性的变换一般设置成1.2，能够通过调整μ来减少融合相似度矩阵与编码相似度矩阵的误差，让余弦相似度接近的向量更大概率的落到哈希平面的同一侧。通过改进J，可以得到最终编码相似度矩阵的重构误差如下：

最终的误差损失函数可以定义为：

其中，量化参数ξ用于权衡改进的最大化间距量化误差的影响，一般设置成0.1。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于融合相似度的深度跨模态哈希方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于融合相似度的深度跨模态哈希方法，其特征在于，在步骤1)中，图像特征集合被标识为F，F＝{f₁,f₂,f₃,...,f_i,...,f_N}，其中

d_T和g_j分别表示特征的维度和第j个文本特征。

3.根据权利要求1所述的基于融合相似度的深度跨模态哈希方法，其特征在于，在步骤2)中，对标签向量构建标签向量集合，标签向量集合被定义为L，L∈{0,1}^c×N，其中c表示类别的个数，N表示数量；标签相似度矩阵被标识为S_L，由

计算得到，其中

表示经过l₂正则化的L，1代表全一向量；用

表示第i个和第j个向量的所属类别完全相同，

表示两个向量所属类别部分相同，

表示两个向量的所属类别完全不相同；

和

分别表示经过l₂正则化的图像特征集合和文本特征集合。

4.根据权利要求1所述的基于融合相似度的深度跨模态哈希方法，其特征在于，在步骤3)中，融合相似度矩阵被标识为S_U，其计算如下：

S_U＝βS_I+(1-β)S_T

5.根据权利要求1所述的基于融合相似度的深度跨模态哈希方法，其特征在于，在步骤4)中，为了使余弦距离相近的两组数据，更大概率地映射到哈希超平面的相同一侧，采用改进的最大化间距的量化机制；改进的最大化间距的量化机制通过建立改进的最大化间距量化误差，并深度网络和多层感知神经网络逐步优化的过程中减小该误差，从而缩小余弦距离与汉明距离之间的误差；将全一向量1定义为哈希超平面，则改进的最大化间距量化误差Q的表达式如下：