CN110807122B

CN110807122B - 一种基于深度互信息约束的图文跨模态特征解纠缠方法

Info

Publication number: CN110807122B
Application number: CN201910994194.4A
Authority: CN
Inventors: 孔祥维; 郭维廓
Original assignee: Dalian University of Technology; Zhejiang University ZJU
Current assignee: Dalian University of Technology; Zhejiang University ZJU
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2022-07-08
Anticipated expiration: 2039-10-18
Also published as: CN110807122A

Abstract

本发明公开了一种基于深度互信息约束的图文跨模态特征解纠缠方法。首先以规定的数据模式读取文本与图像文件；接下来，利用ResNet与BiGRU对文本和图像数据分别提取原始特征；然后，在深度互信息约束的作用下，原始特征被映射到混合特征空间；最后，利用生成对抗网络对数据进行不同程度的重构，通过控制重构过程，实现跨模态特征的解纠缠，使得模态共有信息和模态特有信息分别被映射到不同的特征空间。本发明能够在大规模图文数据上学习解纠缠特征，通过对特征仅进行解纠缠，提高了检索的准确率并使得深度特征具有更好的解释性。

Description

一种基于深度互信息约束的图文跨模态特征解纠缠方法

技术领域

本发明属于图文跨模态计算领域，具体涉及一种深度互信息约束的图文跨模态特征解纠缠方法。

背景技术

由于近年来社交网络、短视频平台的迅速崛起与发展，网络上多媒体数据爆炸式增长。人们迫切的希望能够寻找恰当而有效的方法来处理这些多模态的数据。跨模态检索便是跨模态数据计算方法中最基础也是最具有代表性的一类方法。

跨模态信息检索的任务是当人们给出一个模态的数据(例如图像)时，通过硬件设备的处理与计算，检索算法能够返回来自另一模态(例如文本模态)并且与查询数据相关的返回结果。然而，来自不同模态的数据存在较大的异质性。这导致很难直接的建立联系。在学界，我们称其为“异质鸿沟”，解决异质鸿沟导致的一系列问题，是跨模态计算需要解决的核心问题。对于跨模态检索任务来说，我们希望学习获得更加有效的特征，使其同时保证模态间的一致性和模态内的可辨别性。

随着近年来深度学习的发展，许多计算机视觉领域以及自然语言处理领域的任务性能被大幅提高。在跨模态检索领域也有许多深度学习相关的尝试与探索，这些尝试利用深度神经网络，将来自不同模态的数据映射到一个共有空间，在这个空间下，来自不同模态的数据间的差异或相关性可以被量化的计算并度量。在各种基于排序的损失的监督之下，网络整体被优化。

尽管基于深度学习的跨模态检索方法在实践上取得了较大的进展，但是它们仍然不能完全的解决异质鸿沟带来的副作用。

现有的跨模态检索方法面临的限制之一是它们往往仅对共有子空间特征进行约束而不关心特征中所包含的有效信息量。对于一个“好”的特征表示来说，它所应该具备的一个特质便是它应当尽可能多的包含有用的信息。因此，本发明在特征学习阶段，利用深度互信息约束直接用于约束网络的输入与输出，使得尽可能多的有效信息在经过神经网络的处理后能够得以保留。

现有跨模态检索方法面临的另一个限制是他们往往在学习共有特征子空间时子空间内特征是高度纠缠在一起的。在不同模态中所包含的信息，往往不尽相同。这些信息中，有些是可以在不同模态间共享的，我们称之为模态共有信息。而有些则单独属于某一模态，我们称之为模态特有信息。现有的图文跨模态检索方法，往往将这两类信息同时映射进所学习到的特征表示中，而模态特有信息在学习过程中，会使得模型的性能下降。因此，将模态共有信息与模态特有信息分别映射到不同的特征空间并且加以适当的约束，保证不同的信息之间的互斥，可以提升跨模态检索的性能。这种将不同信息映射到所学特征的不同部分的方法，被称为深度特征解纠缠研究，近些年来被提出并广泛应用于各种任务中。

发明内容

为了解决背景技术中的问题，本发明提供了一种基于深度互信息约束的图文跨模态特征解纠缠方法。

本发明采用的技术方案包括以下步骤：

步骤1：将数据库中的图像文本整理成数据集模式后构建得到数据集；

步骤2：利用ResNet与BiGRU分别将数据集中的图像与文本映射到原始特征空间，原始特征空间包含图像与文本的原始特征；

步骤3：将图像与文本的原始特征映射入底层特征空间，将图像或文本的原始特征和底层特征输入互信息约束分支网络；

步骤4：利用全连接层将底层特征空间内图像与文本的底层特征分别映射到模态共有特征空间和模态特有特征空间；

步骤5：对模态共有特征空间和模态特有特征空间内特征的不同组合进行解码重构，对重构的特征加以约束，使得模态共有信息和模态特有信息彼此分离；

步骤6：将步骤3～步骤6得到的互信息损失

排序损失

整体重构损失

特有特征重构损失

对抗损失

综合计算得到总体损失函数，根据总体损失函数进行梯度回传，步骤4至步骤6反复迭代，直至网络收敛，训练过程停止。

所述步骤1)的数据集模式为数据集中的每一幅图像对应一段文本，且每段文本描述与对应的图像内容具有语义一致性，对应的图像-文本组成一个样本。

所述步骤2)具体为：实际使用中，采用去掉最后一层的ResNet对数据集中的图像进行原始特征提取；对于BiGRU，将前向传输与后向传输最后一个时序的输出合并后作为数据集中文本的原始特征；

通过下述公式分别映射得到图像的原始特征i和文本的原始特征t：

其中，I_emb与T_emb分别代表图像与文本映射网络，I与T分别代表数据集中的图像和文本，

与

分别代表两个网络的参数。

ResNet和BiGRU这两个基本网络均可以选择是否使用预训练的参数作为初始化以及是否对参数进行微调，视具体情况而定。

所述步骤3)具体为：

3.1)利用全连接层将原始特征空间中图像与文本的原始特征映射到底层特征空间，底层特征空间包含图像与文本的底层特征；

3.2)构建全连接层组成的互信息约束分支网络，互信息约束分支网络包括图像互信息约束分支网络和文本互信息约束分支网络；图像互信息约束分支网络的输入分别为图像的原始特征和图像的底层特征，且图像的原始特征和图像的底层特征在输入前分别经过一个全连接层映射到共同尺度的特征空间再送入后续网络，文本互信息约束分支网络的输入分别为文本的原始特征和文本的底层特征；使用交叉熵损失函数计算得到互信息损失

对于互信息约束分支网络的输入，来自同一样本的输入为真样本，来自不同样本的输入为假样本。

所述步骤4中的模态共有特征空间内的模态共有特征为仅包含有模态共有信息的特征，模态共有信息为在两个模态内同时体现的信息；模态特有特征空间内的模态特有特征为仅包含有模态特有信息的特征，模态特有信息为在另一模态内未体现的信息；

两个模态分别为图像模态和文本模态，图像模态中的信息包括背景、像素噪声等，文本模态中的信息包括历史、文化、情感等；

所述步骤4中的底层特征通过全连接层映射到模态特有特征空间时，在全连接层前加入有梯度翻转层，用于翻转反传的梯度；

所述步骤4中的底层特征通过全连接层映射到模态共有特征空间时，文本模态与图像模态的全连接层参数共享；对于模态共有特征空间内的模态共有特征，利用排序损失

加以约束，保证属于同一个样本的特征距离小于不同样本间的特征距离，特征距离为两个特征之间的相似性度量；

所述排序损失

计算为：

其中，t_s，i_s分别为文本和图像的模态共有特征且文本与图像属于同一样本，t'_s为与i_s属于不同样本的文本的模态共有特征，i'_s为与t_s属于不同样本的图像的模态共有特征，λ为排序损失的边界值。

s(t_s,i_s)、s(t'_s,i_s)、s(t_s,i'_s)均代表两个特征之间的相似性度量，具体可表示为：

s(t_S，i_S)＝-||max(0，i_S-t_S)||²

同理获得s(t'_s,i_s)、s(t_s,i'_s)

所述步骤5具体为：

5.1)构建全连接层组成的特征重构解码器；

将文本模态的模态特有特征与图像模态的模态共有特征一同输入特征重构解码器进行特征重构，将重构获得的特征与文本底层特征利用L1范数加以约束；将图像模态的模态特有特征与文本模态的模态共有特征一同输入特征重构解码器进行特征重构，将重构获得的特征与图像底层特征利用L1范数加以约束；从而计算得到整体重构损失

其中，t_G，i_G分别为文本底层特征和图像底层特征，t_E，i_E分别为文本的模态特有特征和图像的模态特有特征，t_S，i_S分别为文本的模态共有特征和图像的模态共有特征，DEC_t，DEC_i分别为文本的特征重构解码器和图像的特征重构解码器。

5.2)构建全连接层组成的特征解纠缠解码器；

将模态特有特征单独输入特征解纠缠解码器进行特征重构，重构获得的特征与另一不同模态的底层特征利用对抗损失与L1损失共同加以约束；

重构获得的特征与另一不同模态的底层特征采用L1损失函数计算得到特有特征重构损失

其中，DEC_te，DEC_ie分别代表文本模态的特征解纠缠解码器与图像模态的特征解纠缠解码器。

所述步骤5.2)具体为：将文本模态的模态特有特征单独输入特征解纠缠解码器进行特征重构，重构获得的特征与图像模态的底层特征利用对抗损失与L1损失共同加以约束；将图像模态的模态特有特征单独输入特征解纠缠解码器进行特征重构，重构获得的特征与文本模态的底层特征利用对抗损失与L1损失共同加以约束。

所述步骤5.2)中的对抗损失

由一个额外的由若干全连接层构成的判别器网络计算得到；

判别器网络与整体网络一同训练时，训练过程中判别器参数固定不变，判别器以生成特征作为输入计算生成损失，通过计算判别结果的相反数得到生成损失，图像模态的生成损失

可表示为：

其中，

代表由图像的模态特有特征经过特征解纠缠解码器产生的特征，D代表判别器；同理获得文本模态的生成损失

判别器网络单独训练时，训练过程中判别器参数改变，判别器以生成特征与真实特征同时作为输入计算判别损失，图像模态的判别损失

可表示为：

其中，前两项分别为生成特征与真实特征的判别结果，第三项为正则项；同理获得文本模态的判别损失

所述真实特征为文本或图像的底层特征，生成特征为特征解纠缠解码器重构获得的特征；

解纠缠网络和判别网络交替对抗训练，在对抗中寻求最优解，对于解纠缠网络来说，对抗损失L_adv为图像与文本模态生成损失的和，可表示为：

所述步骤6中的总体损失函数

计算为：

其中，

为互信息损失、

为排序损失、

为整体重构损失、

为特有特征重构损失、

为对抗损失，α、β、γ、δ分别为设置的超参数。

本发明实现了图文跨模态解纠缠，将不同模态的信息分为模态间共享信息以及模态内特有信息。在学习过程中，不同的信息被映射到不同的特征空间并保证彼此互不影响。

本发明设计了一个新的网络结构，实现了图文跨模态解纠缠的任务，减少模态内特有信息在特征空间内的表达，从而减轻其产生的负面影响，进一步提升图文跨模态检索的性能。本发明所设计的网络结构能够端到端的进行训练，网络参数在约束条件下进行统一的训练。

本发明通过在特征学习过程中加入深度互信息约束，保证了输入数据中的有效信息尽可能多的被映射到所学习的特征空间中；通过为图文跨模态解纠缠提供了较好的底层特征支持。

本发明的有益效果：

本发明通过深度互信息约束，增加了底层特征空间中有效信息量。与此同时通过深度特征解纠缠的方法，将底层信息中的模态特有信息从特征空间中剥离，减少其产生的负面影响。此方法在图文跨模态检索任务上取得了优秀的性能的同时，所学特征具有良好的可解释性。

附图说明

图1是本发明实施步骤流程图。

图2是深度互信息约束分支网络示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案作进一步说明。

如图1所示，本发明的实施过程如下：

步骤1：将数据库中的文本、图像整理成规定的数据模式。

数据模式是由文本、图像与类别标签共同组成一个样本，在读取的过程中，首先构建样本类，成员变量分别是文本数据、图像数据以及类别标签数据，接下来分别将原始数据利用读取工具以特定格式读取。

对于一幅图像文件来说，其所对应的文本数据的数量可以是一个句子、多个句子或一段描述，视具体数据集而定。

以MSCOCO数据集为例，每一个样本由一幅图像、一段文本、一个标签组成，表示成<I,T,L>作为数据集中的一个单元加以储存。

步骤2：利用深度互信息约束，将数据集中数据映射入底层特征空间。

2.1)利用ResNet与BiGRU对原始图像与文本进行处理，将其映射到原始特征空间。

这里ResNet与BiGRU均为现有的较为成熟的模型结构，实际使用中，我们将ResNet的最后一层去掉，保留前面的部分用作图像的原始特征提取。而对于BiGRU，我们将前向传输与后向传输最后一个时序的输出进行连接作为文本的原始特征。这两个基本网络均可以选择是否使用预训练的参数作为初始化以及是否对参数进行微调，视具体情况而定；在要求训练时间较短的情况下，可以加载并固定ResNet以及BiGRU的预训练参数从而减少训练时间；在要求训练精度较高的情况下，可以对预训练参数进行微调，获得更好的模型精度。

为了简化表达，特征映射可以表示如下：

其中，I_emb与T_emb分别代表图像与文本映射网络，而

与

分别代表两个网络的参数。

2.2)利用全连接层将原始特征空间特征映射到底层特征空间；

2.3)如图2所示，利用全连接层构建深度互信息约束网络分支。该网络的输入分别为图像/文本的原始特征+图像/文本的底层特征。当输入特征来自同一样本，则认为它为“真”，若来自不同样本则认为它为“假”。以交叉熵损失作为互信息约束得到互信息损失

所述互信息约束网络分支，由一系列的全连接层组成，层数可根据具体情况而定。该分支网络的输入有两项，分别是来自相同或不同样本的原始特征以及底层特征。这两个特征在特征尺度上可能存在差异，需要在输入前先分别经过一个全连接层映射到共同尺度的特征空间再送入后续网络。

步骤3：将底层特征空间内底层特征利用若干全连接层进一步映射到模态共有特征空间和模态特有特征空间。

模态共有特征空间内的模态共有特征为仅包含有模态共有信息的特征，模态共有信息为在两个模态内同时体现的信息；模态特有特征空间内的模态特有特征为仅包含有模态特有信息的特征，模态特有信息为在另一模态内未体现的信息；两个模态分别为图像模态和文本模态，图像模态中的信息包括背景、像素噪声等，文本模态中的信息包括历史、文化、情感等；

3.1)将底层特征通过全连接层映射成为模态特有特征时，需要在全连接层前加入梯度翻转层，用于翻转反传的梯度。

3.2)将底层特征通过全连接层映射成为模态共有特征时，文本模态与图像模态全连接层参数共享。

对于模态共有特征，利用排序损失

加以约束，保证属于同一个样本对的特征距离小于不同样本对间的特征距离。

排序损失

具体可以表示为：

s(t_s,i_s)代表两个特征之间的相似性度量，具体可表示为：

s(t_S，i_S)＝-||max(0，i_S-t_S)||²

步骤4：对模态共有特征空间和模态特有特征空间内特征的不同组合进行解码重构，对重构的特征加以约束，使得模态共有信息和模态特有信息彼此分离。

4.1)利用由若干全连接层构成的特征重构解码器，将来自文本(或图像)模态的模态特有特征，与来自图像(或文本)模态的模态共有特征，一同作为输入，进行特征重构。重构获得的特征与文本(或图像)底层特征利用L1范数

加以约束，从而计算得到整体重构损失

4.2)利用由若干全连接层构成的特征解纠缠解码器，将文本(或图像)模态的模态特有特征，单独作为输入进行特征重构，重构获得的特征与图像(或文本)模态的底层特征利用对抗损失与L1损失共同加以约束；

所述步骤4.2)中采用L1损失计算得到特有特征重构损失

其中，DEC_te，DEC_ie分别代表文本与图像模态的特征解纠缠解码器。

所述步骤4.2)中对抗损失由一个额外的由若干全连接层构成的判别器计算。

判别器网络与解纠缠网络一同训练时，判别器参数固定不变用于计算生成损失，判别器以生成特征(特征解纠缠解码器重构获得的特征)作为输入，通过计算判别结果的相反数得到生成损失，图像模态生成损失

可表示为：

其中，

代表由图像模态的特有特征经过特征解纠缠解码器产生的假文本特征。D代表判别器。文本模态生成损失获得同理。

判别器网络单独训练时，判别器参数改变，判别器以真实特征(底层特征)与生成特征(特征解纠缠解码器重构获得的特征)同时作为输入计算判别损失，图像模态判别损失

可表示为：

其中前两项分别为真实特征与生成特征的判别结果，第三项为正则项，文本模态判别损失获得同理。

解纠缠网络和判别网络交替对抗训练，在对抗中寻求最优解，对于解纠缠网络来说，对抗整体损失为图像与文本模态生成损失的和，可表示为：

步骤5：将以上步骤中的约束作为损失函数进行梯度回传，步骤3至步骤5反复迭代，直至网络收敛，训练过程停止。模型的总体损失函数为：

其中，

为互信息损失、

为排序损失、

为整体重构损失、

为特有特征重构损失、

为对抗损失，α、β、γ、δ分别为设置的超参数。

在训练过程中引入分段式训练策略，在训练的前期，为了保证学习到较好的模态共有信息，仅有排序损失与互信息损失作用于整个网络参与训练(即前两项)。待网络参数稳定后，解纠缠分支网络被激活，此时所有的损失均参与训练，逐渐将模态特有信息从所学的特征表示中剥离，从而提升模型训练的稳定性。

Claims

1.一种基于深度互信息约束的图文跨模态特征解纠缠方法，其特征在于，包括以下步骤：

步骤4：利用全连接层将底层特征空间内的底层特征分别映射到模态共有特征空间和模态特有特征空间；

步骤6：将步骤3～步骤6得到的互信息损失

排序损失

整体重构损失

特有特征重构损失

对抗损失

综合计算得到总体损失函数，根据总体损失函数进行梯度回传，步骤4至步骤6反复迭代，直至网络收敛，训练过程停止；

所述步骤4中的底层特征通过全连接层映射到模态特有特征空间时，在全连接层前加入有梯度翻转层；

所述排序损失

计算为：

其中，t_s，i_s分别为文本和图像的模态共有特征且文本与图像属于同一样本，t'_s为与i_s属于不同样本的文本的模态共有特征，i'_s为与t_s属于不同样本的图像的模态共有特征，λ为排序损失的边界值；

s(t_s,i_s)、s(t'_s,i_s)、s(t_s,i'_s)均代表两个特征之间的相似性度量，具体表示为：

s(t_S，i_S)＝-||max(0，i_S-t_S)||²；

所述步骤5具体为：

5.1)构建全连接层组成的特征重构解码器；

其中，t_G，i_G分别为文本底层特征和图像底层特征，t_E，i_E分别为文本的模态特有特征和图像的模态特有特征，t_S，i_S分别为文本的模态共有特征和图像的模态共有特征，DEC_t，DEC_i分别为文本的特征重构解码器和图像的特征重构解码器；

5.2)构建全连接层组成的特征解纠缠解码器；

其中，DEC_te，DEC_ie分别代表文本模态的特征解纠缠解码器与图像模态的特征解纠缠解码器；

所述步骤5.2)中的对抗损失

由全连接层构成的判别器网络计算得到；

表示为：

其中，

表示为：

解纠缠网络和判别网络交替对抗训练，在对抗中寻求最优解，对于解纠缠网络来说，对抗损失L_adv为图像与文本模态生成损失的和，表示为：

2.根据权利要求1所述的一种基于深度互信息约束的图文跨模态特征解纠缠方法，其特征在于：所述步骤1)的数据集模式为数据集中的每一幅图像对应一段文本，且每段文本描述与对应的图像内容具有语义一致性，对应的图像-文本组成一个样本。

3.根据权利要求1所述的一种基于深度互信息约束的图文跨模态特征解纠缠方法，其特征在于：所述步骤2具体为：采用去掉最后一层的ResNet对数据集中的图像进行原始特征提取；对于BiGRU，将前向传输与后向传输最后一个时序的输出合并后作为数据集中文本的原始特征。

4.根据权利要求2所述的一种基于深度互信息约束的图文跨模态特征解纠缠方法，其特征在于：所述步骤3)具体为：

3.2)构建全连接层组成的互信息约束分支网络，互信息约束分支网络包括图像互信息约束分支网络和文本互信息约束分支网络；图像互信息约束分支网络的输入分别为图像的原始特征和图像的底层特征，文本互信息约束分支网络的输入分别为文本的原始特征和文本的底层特征；使用交叉熵损失函数计算得到互信息损失

5.根据权利要求1所述的一种基于深度互信息约束的图文跨模态特征解纠缠方法，其特征在于：所述步骤6中的总体损失函数

计算为：

其中，

为互信息损失、

为排序损失、

为整体重构损失、

为特有特征重构损失、

为对抗损失，a、β、γ、δ分别为设置的超参数。