CN114817673A

CN114817673A - 一种基于模态关系学习的跨模态检索方法

Info

Publication number: CN114817673A
Application number: CN202210389983.7A
Authority: CN
Inventors: 曾焕强; 王欣唯; 朱建清; 陈婧; 黄德天; 温廷羲; 郭荣新
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-07-29

Abstract

本发明提出一种基于模态关系学习的跨模态检索方法，将数据集中相同语义的图像文本对以及所属的类标签输入到基于模态关系学习的跨模态检索网络模型中训练，直至模型收敛，从而获得网络模型M；利用S1中训练得到网络模型M分别提取待查询图像/文本和候选库中每个文本/图像的特征向量，从而计算待查询图像文本与候选库中文本/图像的相似度，根据相似度的大小进行降序排序，并返回相似度最高的检索结果；建立模态间和模态内的双重融合机制进行模态间关系学习，不仅在模态内融合多尺度的特征，还在模态间使用标签的关系信息直接对融合特征进行互补性关系学习，另外，加入模态间的注意力机制进行特征联合嵌入，进一步的提高了跨模态的检索性能。

Description

一种基于模态关系学习的跨模态检索方法

技术领域

本发明涉及多模态学习和信息检索领域，特别是指一种基于模态关系学习的跨模态检索方法。

背景技术

近年来，图像、文本等不同模态数据广泛存在于人们的互联网生活中，传统的单模态检索已不再满足用户日益增长的检索需求，为人们在海量互联网不同模态间数据中检索有用信息带来不便，因此跨模态检索成为重要的研究问题。它旨在不同模态的数据间(图像、文本、语音、视频等)进行检索，如图像检索文本、文本检索音频、音频检索视频等等，跨模态检索在医学数据分析、大数据管理、舆情检测等领域中均有广泛的应用。

模态数据一般具有底层特征异构、高层语义相关的特性，因此，围绕这两个问题跨模态检索的主要任务是：在数据表征不一致的情况下，更好的学习不同模态间的内在关联关系，实现语义关联。现阶段，跨模态的检索在实现更精确地语义关联上依旧面临很大挑战，因此，进行跨模态检索的研究十分必要。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于模态关系学习的跨模态检索方法，通过构建跨模态特有的多模态深度学习网络，建立模态间和模态内的双重融合机制进行模态间关系学习，不仅在模态内融合多尺度的特征，还在模态间使用标签的关系信息直接对融合特征进行互补性关系学习，另外，加入模态间的注意力机制进行特征联合嵌入，使融合的特征保留尽可能多的模态间不变性和模态内判别性，进一步的提高了跨模态的检索性能。

本发明采用如下技术方案：

一种基于模态关系学习的跨模态检索方法，具体地，包括训练过程和检索过程，步骤如下：

训练过程S1：将数据集中相同语义的图像文本对以及所属的类标签输入到基于模态关系学习的跨模态检索网络模型中训练，直至模型收敛，从而获得网络模型M；

检索过程S2：利用S1中训练得到网络模型M分别提取待查询图像/文本和候选库中每个文本/图像的特征向量，从而计算待查询图像文本与候选库中文本/图像的相似度，根据相似度的大小进行降序排序，并返回相似度最高的检索结果。

具体地，训练过程S1的步骤如下：

步骤S11)：将不同类别的图像数据v_i输入到图像模态特征提取网络中提取图像特征；

步骤S12)：将与图像数据v_i对应的文本数据t_i输入到文本模态特征提取网络中提取文本数据的特征；

步骤S13)：将提取的图像特征和文本特征分别输入到带有空洞卷积的空间金字塔池化块和多尺度文本特征块中提取多尺度图像特征u_i、多尺度文本特征s_i；

步骤S14)：将多尺度图像特征u_i、多尺度文本特征s_i输入到带有跨模态联合注意力机制的融合模块中，注意力机制根据模态间的共同语义信息特征图P生成语义相关性的图像特征向量I和文本特征向量T，经成对融合后生成融合特征向量F；

步骤S15)：将融合特征向量F与标签信息进行关系学习，采用误差反向传播算法优化与真实标签关系的损失，得到收敛的基于注意力机制的两个模态上的网络，再更新注意力机制中的共同语义特征图P，得到更新后的共同语义特征图P'，用更新后的共同语义特征图P'指导更新跨模态检索网络，进行迭代，获得基于模态关系学习的跨模态检索模型M。

具体地，所述图像特征提取网络由16个卷积层、4个池化层、1个全连接层组成，其中全连接层隐藏单元数量为提取得到的图像特征的维数。

具体地，所述文本特征提取网络采用的是一个三层全连接的多层感知模型，其中，第一全连接层的隐含神经元个数为8192，第二全连接层的隐含神经元个数为4096，第三全连接层的隐含神经元个数为提取的文本特征的维数。

具体地，所述带有空洞卷积的空间金字塔池化块和多尺度文本特征提取块，具体为：

在图像模态中，带有空洞卷积的空间金字塔池化块包含三部分；

第一部分：以一个全局平均池化层得到图像的全局特征，再进行1×1卷积并使用双线性插值的方法调整到原始输入特征图大小；

第二部分：多尺度部分，创建一个1×1卷积以及3个3×3的卷积，每个卷积的学习速率值设置的不同；

第三部分：连接部分，通过将5个不同尺度的特征在通道维度连接，使用1×1卷积进行融合多尺度特征的输出，输出具有多尺度的图像特征，再使用多个全连接层映射到图像空间中进行图像语义特征的表示，并进行融合；

在文本模态，多尺度文本特征提取块为多级平均池化层，设定5个池化尺度，并添加1×1的卷积层，使用联接操作后输入到多层的全连接层中，输出文本模态的具有多尺度的特征表示。

具体地，将多尺度图像特征u_i、多尺度文本特征s_i输入到带有跨模态联合注意力机制的融合模块中，注意力机制根据模态间的共同语义信息特征图P生成语义相关性的图像特征向量I和文本特征向量T，经成对融合后生成融合特征向量F，具体为：

跨模态联合注意力机制根据融合模态在标签空间的距离为表示的各特征项分配权重；

注意力机制的输出具体表示如下：

其中，M_c是第c个标签的嵌入特征，C为标签数目，，Q是遮掩部分的总和，σ指sigmoid激活函数，联合特征

如下：

其中，λ是控制遮掩部分特征效果的参数；x,y分别表示图像和文本模态；

经成对融合后生成融合特征向量F，具体为：

F＝g(I,T)；

其中g()表示融合函数。

具体地，将融合特征向量F与标签信息进行关系学习，采用误差反向传播算法优化与真实标签关系的损失，得到收敛的基于注意力机制的两个模态上的网络，再更新注意力机制中的共同语义特征图P，得到更新后的共同语义特征图P'，用更新后的共同语义特征图P'指导更新跨模态检索网络，进行迭代，获得基于模态关系学习的跨模态检索模型M，具体为：

利用标签信息定义一个真实关系空间，表示为：

其中，S为关系空间矩阵，

为第p个图像和第q个文本的标签信息，i为图像类别，t为文本类别，将类内关系定义为1，类间关系定义为0；

建立关系学习的表达式如下：

R＝h(X,Y)

其中，将关系学习的处理转换表示为非线性函数h(·,·)；

损失函数定义为：

其中，||·||_F为Frobenius距离。

具体地，检索过程S2的步骤如下：

利用得到的基础网络模型M，在图像检索文本任务中，分别提取待查询图像的特征向量以及候选库中每个文本的特征向量；

通过余弦距离计算待查询图像的特征向量与候选库中每个文本的特征向量之间的相似度；

根据所得到的相似度大小进行降序排序，并返回相似度最高的检索结果。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

本发明提供的一种基于模态关系学习的跨模态检索方法，通过建立模态内和模态间的双重融合机制，在模态间，利用语义空间标签关系信息对模态间融合模态的特征进行关系结构的学习，保留了更多的模态间相似性；在模态内针对不同的模态，设计提取模态特定多尺度的网络架构，可有效得到更好的融合特征用于学习模态间的直接关系信息，并结合联合嵌入的注意力机制，使融合的特征保留尽可能多的模态间不变性和模态内判别性。如此构建的网络，使得训练得到的基于模态关系学习的跨模态检索模型具有良好的图文互相检索性能；在检索过程中利用训练得到的网络模型M对待查询图像(文本)和候选库中的文本(图像)进行特征提取以及距离计算，从而获取待查询图像(文本)与候选库中的文本(图像)数据之间的相似度较高者，实现跨模态检索，极大提升了在图像-文本上的检索精度。

附图说明

图1为本发明实施例提供的一种基于模态关系学习的跨模态检索方法流程图；

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

本发明提出一种基于模态关系学习的跨模态检索方法，通过构建跨模态特有的多模态深度学习网络，建立模态间和模态内的双重融合机制进行模态间关系学习，不仅在模态内融合多尺度的特征，还在模态间使用标签的关系信息直接对融合特征进行互补性关系学习，另外，加入模态间的注意力机制进行特征联合嵌入，使融合的特征保留尽可能多的模态间不变性和模态内判别性，进一步的提高了跨模态的检索性能。

参见图1所示，本发明一种基于模态关系学习的跨模态检索方法，该模型包含训练过程和检索过程，具体的，

训练过程S1的步骤如下：

步骤S11)：将不同类别的图像数据v_i输入到图像模态特征提取网络中提取图像的特征；

步骤S12)：将S11)中与之对应的文本数据t_i输入到文本模态特征提取网络中提取文本数据的特征；

步骤S13)：将S11)S12)中提取的图像、文本特征分别输入到带有空洞卷积的空间金字塔池化块和多尺度文本特征块中提取多尺度图像特征u_i、多尺度文本特征v_i；

步骤S14)：将S13)中提取的图像、文本特征输入到带有跨模态联合注意力机制的融合模块中,注意力机制根据模态间的共同语义信息特征图P生成保留更多语义相关性的图像特征I和文本特征T，经成对融合后生成融合特征F；

步骤S15)：将S14)中得到的融合特征向量F与标签信息进行关系学习，采用误差反向传播算法先优化与真实标签关系的损失，得到收敛的基于注意力机制的两个模态上的网络，之后更新注意力机制中的共同语义特征图P，得到更新后的共同语义特征图P'，用更新后的共同语义特征图P'去指导更新图像文本网络，进行迭代形成基于模态关系学习的跨模态检索网络模型M。

检索S2的步骤如下：

步骤S21)：利用S1中训练得到的基础网络模型M，在图像检索文本任务中，分别提取待查询图像的特征向量以及候选库中每个文本的特征向量；

步骤S22)：通过余弦距离

计算待查询图像的特征向量与候选库中每个文本的特征向量之间的相似度，u_i,v_j分别代表查询图像(文本)i的特征表示以及候选库中第j个文本(图像)的特征表示，<·>表示内积计算；

步骤S23)：根据所得到的相似度大小进行降序排序，并返回相似度最高的检索结果。

进一步的，步骤S11)中，为了适应提出的想法原理，图像特征提取网络由16个卷积层、4个池化层、1个全连接层组成，其中最后一层全连接层隐藏单元数量为d,即提取得到的特征的维数；

进一步的，步骤S12)中，文本特征提取网络采用的是一个三层全连接的多层感知机模型。整体为T→8192→4096→N，T表示文本网络输入层，8192和4096分别表示前两个全连接的层的隐含神经元个数，N表示要提取的文本特征的维数；

进一步的，步骤S13)中，图像、文本多尺度特征提取网络设计为带有空洞卷积的空间金字塔池化块和多尺度文本特征提取块；

在图像模态中，设计的带有空洞卷积的空间金字塔池化模型主要包含三部分，第一部分：先以一个全局平均池化层得到图像的全局特征，之后进行1×1卷积并使用双线性插值的方法调整到原始输入特征图大小；第二部分：主要体现多尺度的部分，主要是设计一个1×1卷积以及3个3×3的卷积实现，不同的是，每个卷积的rate值设置的不同，根据实际情况设计为6、12以及18；第三部分：连接部分，通过将5个不同尺度的特征在通道维度连接之后，使用1×1卷积进行融合多尺度特征的输出，则输出后的特征是不改变特征大小的具有多尺度的图像特征，之后此算法使用多个全连接层映射到图像空间中进行高级图像语义特征的表示，这些表示将经过融合后用于学习模态间语义互补性。

在文本模态，设计的多尺度文本特征提取块本质是多级平均池化层，此网络设定5个池化尺度，分别是1、2、3、6、10的尺寸用来帮助文本信息建立多尺度信息模型，同时，还兼顾了一定的文本模态内词语的上下文相关性。在其之后添加1×1的卷积层降低通道数量,最后调整大小以及使用联接操作后输入到多层的全连接层中，输出文本模态的具有多尺度的特征表示，以便于之后的模态间的关系相似度的度量。

进一步的，步骤S14)中，跨模态联合注意力机制根据融合模态在标签空间的距离为表示的各特征项分配权重；在注意力机制中，语义特征图P可表示为语义标签的嵌入矩阵，图像模态和文本模态具有相同的语义特征图；由于特征向量的长度各不相同，并且特征表示和Q之间的值范围不一致，为了解决这个问题，通过L2归一化对输出进行预处理，将距离限制为[-1,1]进行有效的距离比较；注意力机制的输出是在Q上通过权重平均的两个模态的联合特征

得到过程可表示如下：

其中，M_c∈R^1×d是第c个标签的嵌入特征，Q是遮掩部分(mask)的总和，σ指sigmoid激活函数；之后便可以得到联合特征

如下：

其中，λ是控制mask特征效果的参数，x,y分别表示图像和文本模态；为了跨越模态间的差异，融合机制输出的融合特征会利用语义空间中标签的关系信息学习模态间的语义相似以及互补的关系。融合主要是进行两个模态成对样本间的融合，则此融合机制输出为：

F＝g(I,T)

其中

F＝{f_pq|p＝1,...,n_i；q＝1,...,n_t}，g()表示常见的级联、乘积和相加等融合函数。

进一步的，步骤S15)中，首先将融合机制输出的融合特征F映射到标签信息构建的语义空间进行关系学习；

具体地，对融合特征的关系计算通过基于DNN方式训练的关系网络计算，则模态间的成对样本相似度可表示为：

r_pq＝t(v_pq；Θ_r)

其中，v_pq是成对的图像文本＜x_p,y_q＞的融合特征表示，Θ_r是关系网络的参数，具体的，在此方法中设置关系网络的神经元结构为600→1024→1。

本发明需要的是使模态融合的特征学习到接近真实语义标签的关系矩阵，从而达到通过关系紧密两个模态相似样本，放大不相似样本距离的目的，因此本发明建立关系学习的表达式如下：

R＝h(X,Y)

在此公式中，将转换为关系学习的处理表示为非线性函数h(·,·)，以学习到的关系对两个模态进行约束，则关系相近即相似度较高的将会受到关系矩阵较强的约束，从而拉近两个模态之间的距离。

同时，本发明依据纯净的标签信息定义一个先验的真实关系空间，可表示为：

其中，

为第p个图像和第q个文本的标签信息，i为图像类别，t为文本类别，将类内关系定义为1，类间关系定义为0。

本发明需要根据真实的语义关系监督模态融合特征的关系学习，使预测的关系矩阵无限接近于真实语义关系，可以将此方法的损失函数定义为：

在此公式中，||·||_F为Frobenius距离。之后，采用误差反向传播算法先优化与真实标签关系的损失L，更新注意力机制中的共同语义特征图P，得到更新后的共同语义特征图P'，用更新后的共同语义特征图P更新图像文本网络参数，进行迭代形成基于模态关系学习的跨模态检索网络模型M。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种基于模态关系学习的跨模态检索方法，其特征在于，包括训练过程和检索过程，步骤如下：

2.根据权利要求1所述的一种基于模态关系学习的跨模态检索方法，其特征在于，训练过程S1的步骤如下：

3.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法，其特征在于，所述图像特征提取网络由16个卷积层、4个池化层、1个全连接层组成，其中全连接层隐藏单元数量为提取得到的图像特征的维数。

4.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法，其特征在于，所述文本特征提取网络采用的是一个三层全连接的多层感知模型，其中，第一全连接层的隐含神经元个数为8192，第二全连接层的隐含神经元个数为4096，第三全连接层的隐含神经元个数为提取的文本特征的维数。

5.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法，其特征在于，所述带有空洞卷积的空间金字塔池化块和多尺度文本特征提取块，具体为：

6.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法，其特征在于，将多尺度图像特征u_i、多尺度文本特征s_i输入到带有跨模态联合注意力机制的融合模块中，注意力机制根据模态间的共同语义信息特征图P生成语义相关性的图像特征向量I和文本特征向量T，经成对融合后生成融合特征向量F，具体为：

注意力机制的输出具体表示如下：

其中，M_c是第c个标签的嵌入特征，C为标签数目，Q是遮掩部分的总和，σ指sigmoid激活函数，联合特征

如下：

经成对融合后生成融合特征向量F，具体为：

F＝g(I,T)；

其中g()表示融合函数。

7.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法，其特征在于，将融合特征向量F与标签信息进行关系学习，采用误差反向传播算法优化与真实标签关系的损失，得到收敛的基于注意力机制的两个模态上的网络，再更新注意力机制中的共同语义特征图P，得到更新后的共同语义特征图P'，用更新后的共同语义特征图P'指导更新跨模态检索网络，进行迭代，获得基于模态关系学习的跨模态检索模型M，具体为：

利用标签信息定义一个真实关系空间，表示为：

其中，S为关系空间矩阵，

建立关系学习的表达式如下：

R＝h(X,Y)

其中，将关系学习的处理转换表示为非线性函数h(·,·)；

损失函数定义为：

其中，||·||_F为Frobenius距离。

8.根据权利要求1所述的一种基于模态关系学习的跨模态检索方法，其特征在于，检索过程S2的步骤如下：