CN110807122B - 一种基于深度互信息约束的图文跨模态特征解纠缠方法 - Google Patents

一种基于深度互信息约束的图文跨模态特征解纠缠方法 Download PDF

Info

Publication number
CN110807122B
CN110807122B CN201910994194.4A CN201910994194A CN110807122B CN 110807122 B CN110807122 B CN 110807122B CN 201910994194 A CN201910994194 A CN 201910994194A CN 110807122 B CN110807122 B CN 110807122B
Authority
CN
China
Prior art keywords
features
text
image
loss
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910994194.4A
Other languages
English (en)
Other versions
CN110807122A (zh
Inventor
孔祥维
郭维廓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Zhejiang University ZJU
Original Assignee
Dalian University of Technology
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology, Zhejiang University ZJU filed Critical Dalian University of Technology
Priority to CN201910994194.4A priority Critical patent/CN110807122B/zh
Publication of CN110807122A publication Critical patent/CN110807122A/zh
Application granted granted Critical
Publication of CN110807122B publication Critical patent/CN110807122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度互信息约束的图文跨模态特征解纠缠方法。首先以规定的数据模式读取文本与图像文件;接下来,利用ResNet与BiGRU对文本和图像数据分别提取原始特征;然后,在深度互信息约束的作用下,原始特征被映射到混合特征空间;最后,利用生成对抗网络对数据进行不同程度的重构,通过控制重构过程,实现跨模态特征的解纠缠,使得模态共有信息和模态特有信息分别被映射到不同的特征空间。本发明能够在大规模图文数据上学习解纠缠特征,通过对特征仅进行解纠缠,提高了检索的准确率并使得深度特征具有更好的解释性。

Description

一种基于深度互信息约束的图文跨模态特征解纠缠方法
技术领域
本发明属于图文跨模态计算领域,具体涉及一种深度互信息约束的图文跨模态特征解纠缠方法。
背景技术
由于近年来社交网络、短视频平台的迅速崛起与发展,网络上多媒体数据爆炸式增长。人们迫切的希望能够寻找恰当而有效的方法来处理这些多模态的数据。跨模态检索便是跨模态数据计算方法中最基础也是最具有代表性的一类方法。
跨模态信息检索的任务是当人们给出一个模态的数据(例如图像)时,通过硬件设备的处理与计算,检索算法能够返回来自另一模态(例如文本模态)并且与查询数据相关的返回结果。然而,来自不同模态的数据存在较大的异质性。这导致很难直接的建立联系。在学界,我们称其为“异质鸿沟”,解决异质鸿沟导致的一系列问题,是跨模态计算需要解决的核心问题。对于跨模态检索任务来说,我们希望学习获得更加有效的特征,使其同时保证模态间的一致性和模态内的可辨别性。
随着近年来深度学习的发展,许多计算机视觉领域以及自然语言处理领域的任务性能被大幅提高。在跨模态检索领域也有许多深度学习相关的尝试与探索,这些尝试利用深度神经网络,将来自不同模态的数据映射到一个共有空间,在这个空间下,来自不同模态的数据间的差异或相关性可以被量化的计算并度量。在各种基于排序的损失的监督之下,网络整体被优化。
尽管基于深度学习的跨模态检索方法在实践上取得了较大的进展,但是它们仍然不能完全的解决异质鸿沟带来的副作用。
现有的跨模态检索方法面临的限制之一是它们往往仅对共有子空间特征进行约束而不关心特征中所包含的有效信息量。对于一个“好”的特征表示来说,它所应该具备的一个特质便是它应当尽可能多的包含有用的信息。因此,本发明在特征学习阶段,利用深度互信息约束直接用于约束网络的输入与输出,使得尽可能多的有效信息在经过神经网络的处理后能够得以保留。
现有跨模态检索方法面临的另一个限制是他们往往在学习共有特征子空间时子空间内特征是高度纠缠在一起的。在不同模态中所包含的信息,往往不尽相同。这些信息中,有些是可以在不同模态间共享的,我们称之为模态共有信息。而有些则单独属于某一模态,我们称之为模态特有信息。现有的图文跨模态检索方法,往往将这两类信息同时映射进所学习到的特征表示中,而模态特有信息在学习过程中,会使得模型的性能下降。因此,将模态共有信息与模态特有信息分别映射到不同的特征空间并且加以适当的约束,保证不同的信息之间的互斥,可以提升跨模态检索的性能。这种将不同信息映射到所学特征的不同部分的方法,被称为深度特征解纠缠研究,近些年来被提出并广泛应用于各种任务中。
发明内容
为了解决背景技术中的问题,本发明提供了一种基于深度互信息约束的图文跨模态特征解纠缠方法。
本发明采用的技术方案包括以下步骤:
步骤1:将数据库中的图像文本整理成数据集模式后构建得到数据集;
步骤2:利用ResNet与BiGRU分别将数据集中的图像与文本映射到原始特征空间,原始特征空间包含图像与文本的原始特征;
步骤3:将图像与文本的原始特征映射入底层特征空间,将图像或文本的原始特征和底层特征输入互信息约束分支网络;
步骤4:利用全连接层将底层特征空间内图像与文本的底层特征分别映射到模态共有特征空间和模态特有特征空间;
步骤5:对模态共有特征空间和模态特有特征空间内特征的不同组合进行解码重构,对重构的特征加以约束,使得模态共有信息和模态特有信息彼此分离;
步骤6:将步骤3~步骤6得到的互信息损失
Figure BDA0002239239530000021
排序损失
Figure BDA0002239239530000022
整体重构损失
Figure BDA0002239239530000023
特有特征重构损失
Figure BDA0002239239530000024
对抗损失
Figure BDA0002239239530000025
综合计算得到总体损失函数,根据总体损失函数进行梯度回传,步骤4至步骤6反复迭代,直至网络收敛,训练过程停止。
所述步骤1)的数据集模式为数据集中的每一幅图像对应一段文本,且每段文本描述与对应的图像内容具有语义一致性,对应的图像-文本组成一个样本。
所述步骤2)具体为:实际使用中,采用去掉最后一层的ResNet对数据集中的图像进行原始特征提取;对于BiGRU,将前向传输与后向传输最后一个时序的输出合并后作为数据集中文本的原始特征;
通过下述公式分别映射得到图像的原始特征i和文本的原始特征t:
Figure BDA0002239239530000031
Figure BDA0002239239530000032
其中,Iemb与Temb分别代表图像与文本映射网络,I与T分别代表数据集中的图像和文本,
Figure BDA0002239239530000033
Figure BDA0002239239530000034
分别代表两个网络的参数。
ResNet和BiGRU这两个基本网络均可以选择是否使用预训练的参数作为初始化以及是否对参数进行微调,视具体情况而定。
所述步骤3)具体为:
3.1)利用全连接层将原始特征空间中图像与文本的原始特征映射到底层特征空间,底层特征空间包含图像与文本的底层特征;
3.2)构建全连接层组成的互信息约束分支网络,互信息约束分支网络包括图像互信息约束分支网络和文本互信息约束分支网络;图像互信息约束分支网络的输入分别为图像的原始特征和图像的底层特征,且图像的原始特征和图像的底层特征在输入前分别经过一个全连接层映射到共同尺度的特征空间再送入后续网络,文本互信息约束分支网络的输入分别为文本的原始特征和文本的底层特征;使用交叉熵损失函数计算得到互信息损失
Figure BDA0002239239530000035
对于互信息约束分支网络的输入,来自同一样本的输入为真样本,来自不同样本的输入为假样本。
所述步骤4中的模态共有特征空间内的模态共有特征为仅包含有模态共有信息的特征,模态共有信息为在两个模态内同时体现的信息;模态特有特征空间内的模态特有特征为仅包含有模态特有信息的特征,模态特有信息为在另一模态内未体现的信息;
两个模态分别为图像模态和文本模态,图像模态中的信息包括背景、像素噪声等,文本模态中的信息包括历史、文化、情感等;
所述步骤4中的底层特征通过全连接层映射到模态特有特征空间时,在全连接层前加入有梯度翻转层,用于翻转反传的梯度;
所述步骤4中的底层特征通过全连接层映射到模态共有特征空间时,文本模态与图像模态的全连接层参数共享;对于模态共有特征空间内的模态共有特征,利用排序损失
Figure BDA0002239239530000036
加以约束,保证属于同一个样本的特征距离小于不同样本间的特征距离,特征距离为两个特征之间的相似性度量;
所述排序损失
Figure BDA0002239239530000037
计算为:
Figure BDA0002239239530000041
其中,ts,is分别为文本和图像的模态共有特征且文本与图像属于同一样本,t's为与is属于不同样本的文本的模态共有特征,i's为与ts属于不同样本的图像的模态共有特征,λ为排序损失的边界值。
s(ts,is)、s(t's,is)、s(ts,i's)均代表两个特征之间的相似性度量,具体可表示为:
s(tS,iS)=-||max(0,iS-tS)||2
同理获得s(t's,is)、s(ts,i's)
所述步骤5具体为:
5.1)构建全连接层组成的特征重构解码器;
将文本模态的模态特有特征与图像模态的模态共有特征一同输入特征重构解码器进行特征重构,将重构获得的特征与文本底层特征利用L1范数加以约束;将图像模态的模态特有特征与文本模态的模态共有特征一同输入特征重构解码器进行特征重构,将重构获得的特征与图像底层特征利用L1范数加以约束;从而计算得到整体重构损失
Figure BDA0002239239530000042
Figure BDA0002239239530000043
其中,tG,iG分别为文本底层特征和图像底层特征,tE,iE分别为文本的模态特有特征和图像的模态特有特征,tS,iS分别为文本的模态共有特征和图像的模态共有特征,DECt,DECi分别为文本的特征重构解码器和图像的特征重构解码器。
5.2)构建全连接层组成的特征解纠缠解码器;
将模态特有特征单独输入特征解纠缠解码器进行特征重构,重构获得的特征与另一不同模态的底层特征利用对抗损失与L1损失共同加以约束;
重构获得的特征与另一不同模态的底层特征采用L1损失函数计算得到特有特征重构损失
Figure BDA0002239239530000044
Figure BDA0002239239530000045
其中,DECte,DECie分别代表文本模态的特征解纠缠解码器与图像模态的特征解纠缠解码器。
所述步骤5.2)具体为:将文本模态的模态特有特征单独输入特征解纠缠解码器进行特征重构,重构获得的特征与图像模态的底层特征利用对抗损失与L1损失共同加以约束;将图像模态的模态特有特征单独输入特征解纠缠解码器进行特征重构,重构获得的特征与文本模态的底层特征利用对抗损失与L1损失共同加以约束。
所述步骤5.2)中的对抗损失
Figure BDA0002239239530000059
由一个额外的由若干全连接层构成的判别器网络计算得到;
判别器网络与整体网络一同训练时,训练过程中判别器参数固定不变,判别器以生成特征作为输入计算生成损失,通过计算判别结果的相反数得到生成损失,图像模态的生成损失
Figure BDA00022392395300000510
可表示为:
Figure BDA0002239239530000051
其中,
Figure BDA0002239239530000052
代表由图像的模态特有特征经过特征解纠缠解码器产生的特征,D代表判别器;同理获得文本模态的生成损失
Figure BDA0002239239530000053
判别器网络单独训练时,训练过程中判别器参数改变,判别器以生成特征与真实特征同时作为输入计算判别损失,图像模态的判别损失
Figure BDA00022392395300000511
可表示为:
Figure BDA0002239239530000054
其中,前两项分别为生成特征与真实特征的判别结果,第三项为正则项;同理获得文本模态的判别损失
Figure BDA0002239239530000055
所述真实特征为文本或图像的底层特征,生成特征为特征解纠缠解码器重构获得的特征;
解纠缠网络和判别网络交替对抗训练,在对抗中寻求最优解,对于解纠缠网络来说,对抗损失Ladv为图像与文本模态生成损失的和,可表示为:
Figure BDA0002239239530000056
所述步骤6中的总体损失函数
Figure BDA00022392395300000512
计算为:
Figure BDA0002239239530000057
其中,
Figure BDA00022392395300000513
为互信息损失、
Figure BDA00022392395300000514
为排序损失、
Figure BDA00022392395300000515
为整体重构损失、
Figure BDA0002239239530000058
为特有特征重构损失、
Figure BDA00022392395300000516
为对抗损失,α、β、γ、δ分别为设置的超参数。
本发明实现了图文跨模态解纠缠,将不同模态的信息分为模态间共享信息以及模态内特有信息。在学习过程中,不同的信息被映射到不同的特征空间并保证彼此互不影响。
本发明设计了一个新的网络结构,实现了图文跨模态解纠缠的任务,减少模态内特有信息在特征空间内的表达,从而减轻其产生的负面影响,进一步提升图文跨模态检索的性能。本发明所设计的网络结构能够端到端的进行训练,网络参数在约束条件下进行统一的训练。
本发明通过在特征学习过程中加入深度互信息约束,保证了输入数据中的有效信息尽可能多的被映射到所学习的特征空间中;通过为图文跨模态解纠缠提供了较好的底层特征支持。
本发明的有益效果:
本发明通过深度互信息约束,增加了底层特征空间中有效信息量。与此同时通过深度特征解纠缠的方法,将底层信息中的模态特有信息从特征空间中剥离,减少其产生的负面影响。此方法在图文跨模态检索任务上取得了优秀的性能的同时,所学特征具有良好的可解释性。
附图说明
图1是本发明实施步骤流程图。
图2是深度互信息约束分支网络示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步说明。
如图1所示,本发明的实施过程如下:
步骤1:将数据库中的文本、图像整理成规定的数据模式。
数据模式是由文本、图像与类别标签共同组成一个样本,在读取的过程中,首先构建样本类,成员变量分别是文本数据、图像数据以及类别标签数据,接下来分别将原始数据利用读取工具以特定格式读取。
对于一幅图像文件来说,其所对应的文本数据的数量可以是一个句子、多个句子或一段描述,视具体数据集而定。
以MSCOCO数据集为例,每一个样本由一幅图像、一段文本、一个标签组成,表示成<I,T,L>作为数据集中的一个单元加以储存。
步骤2:利用深度互信息约束,将数据集中数据映射入底层特征空间。
2.1)利用ResNet与BiGRU对原始图像与文本进行处理,将其映射到原始特征空间。
这里ResNet与BiGRU均为现有的较为成熟的模型结构,实际使用中,我们将ResNet的最后一层去掉,保留前面的部分用作图像的原始特征提取。而对于BiGRU,我们将前向传输与后向传输最后一个时序的输出进行连接作为文本的原始特征。这两个基本网络均可以选择是否使用预训练的参数作为初始化以及是否对参数进行微调,视具体情况而定;在要求训练时间较短的情况下,可以加载并固定ResNet以及BiGRU的预训练参数从而减少训练时间;在要求训练精度较高的情况下,可以对预训练参数进行微调,获得更好的模型精度。
为了简化表达,特征映射可以表示如下:
Figure BDA0002239239530000071
Figure BDA0002239239530000072
其中,Iemb与Temb分别代表图像与文本映射网络,而
Figure BDA0002239239530000073
Figure BDA0002239239530000074
分别代表两个网络的参数。
2.2)利用全连接层将原始特征空间特征映射到底层特征空间;
2.3)如图2所示,利用全连接层构建深度互信息约束网络分支。该网络的输入分别为图像/文本的原始特征+图像/文本的底层特征。当输入特征来自同一样本,则认为它为“真”,若来自不同样本则认为它为“假”。以交叉熵损失作为互信息约束得到互信息损失
所述互信息约束网络分支,由一系列的全连接层组成,层数可根据具体情况而定。该分支网络的输入有两项,分别是来自相同或不同样本的原始特征以及底层特征。这两个特征在特征尺度上可能存在差异,需要在输入前先分别经过一个全连接层映射到共同尺度的特征空间再送入后续网络。
步骤3:将底层特征空间内底层特征利用若干全连接层进一步映射到模态共有特征空间和模态特有特征空间。
模态共有特征空间内的模态共有特征为仅包含有模态共有信息的特征,模态共有信息为在两个模态内同时体现的信息;模态特有特征空间内的模态特有特征为仅包含有模态特有信息的特征,模态特有信息为在另一模态内未体现的信息;两个模态分别为图像模态和文本模态,图像模态中的信息包括背景、像素噪声等,文本模态中的信息包括历史、文化、情感等;
3.1)将底层特征通过全连接层映射成为模态特有特征时,需要在全连接层前加入梯度翻转层,用于翻转反传的梯度。
3.2)将底层特征通过全连接层映射成为模态共有特征时,文本模态与图像模态全连接层参数共享。
对于模态共有特征,利用排序损失
Figure BDA0002239239530000086
加以约束,保证属于同一个样本对的特征距离小于不同样本对间的特征距离。
排序损失
Figure BDA0002239239530000087
具体可以表示为:
Figure BDA0002239239530000081
其中,ts,is分别为文本和图像的模态共有特征且文本与图像属于同一样本,t's为与is属于不同样本的文本的模态共有特征,i's为与ts属于不同样本的图像的模态共有特征,λ为排序损失的边界值。
s(ts,is)代表两个特征之间的相似性度量,具体可表示为:
s(tS,iS)=-||max(0,iS-tS)||2
步骤4:对模态共有特征空间和模态特有特征空间内特征的不同组合进行解码重构,对重构的特征加以约束,使得模态共有信息和模态特有信息彼此分离。
4.1)利用由若干全连接层构成的特征重构解码器,将来自文本(或图像)模态的模态特有特征,与来自图像(或文本)模态的模态共有特征,一同作为输入,进行特征重构。重构获得的特征与文本(或图像)底层特征利用L1范数
Figure BDA0002239239530000082
加以约束,从而计算得到整体重构损失
Figure BDA0002239239530000083
其中,tG,iG分别为文本底层特征和图像底层特征,tE,iE分别为文本的模态特有特征和图像的模态特有特征,tS,iS分别为文本的模态共有特征和图像的模态共有特征,DECt,DECi分别为文本的特征重构解码器和图像的特征重构解码器。
4.2)利用由若干全连接层构成的特征解纠缠解码器,将文本(或图像)模态的模态特有特征,单独作为输入进行特征重构,重构获得的特征与图像(或文本)模态的底层特征利用对抗损失与L1损失共同加以约束;
所述步骤4.2)中采用L1损失计算得到特有特征重构损失
Figure BDA0002239239530000084
Figure BDA0002239239530000085
其中,DECte,DECie分别代表文本与图像模态的特征解纠缠解码器。
所述步骤4.2)中对抗损失由一个额外的由若干全连接层构成的判别器计算。
判别器网络与解纠缠网络一同训练时,判别器参数固定不变用于计算生成损失,判别器以生成特征(特征解纠缠解码器重构获得的特征)作为输入,通过计算判别结果的相反数得到生成损失,图像模态生成损失
Figure BDA0002239239530000097
可表示为:
Figure BDA0002239239530000091
其中,
Figure BDA0002239239530000092
代表由图像模态的特有特征经过特征解纠缠解码器产生的假文本特征。D代表判别器。文本模态生成损失获得同理。
判别器网络单独训练时,判别器参数改变,判别器以真实特征(底层特征)与生成特征(特征解纠缠解码器重构获得的特征)同时作为输入计算判别损失,图像模态判别损失
Figure BDA0002239239530000098
可表示为:
Figure BDA0002239239530000093
其中前两项分别为真实特征与生成特征的判别结果,第三项为正则项,文本模态判别损失获得同理。
解纠缠网络和判别网络交替对抗训练,在对抗中寻求最优解,对于解纠缠网络来说,对抗整体损失为图像与文本模态生成损失的和,可表示为:
Figure BDA0002239239530000094
步骤5:将以上步骤中的约束作为损失函数进行梯度回传,步骤3至步骤5反复迭代,直至网络收敛,训练过程停止。模型的总体损失函数为:
Figure BDA0002239239530000095
其中,
Figure BDA0002239239530000099
为互信息损失、
Figure BDA00022392395300000910
为排序损失、
Figure BDA00022392395300000911
为整体重构损失、
Figure BDA0002239239530000096
为特有特征重构损失、
Figure BDA00022392395300000912
为对抗损失,α、β、γ、δ分别为设置的超参数。
在训练过程中引入分段式训练策略,在训练的前期,为了保证学习到较好的模态共有信息,仅有排序损失与互信息损失作用于整个网络参与训练(即前两项)。待网络参数稳定后,解纠缠分支网络被激活,此时所有的损失均参与训练,逐渐将模态特有信息从所学的特征表示中剥离,从而提升模型训练的稳定性。

Claims (5)

1.一种基于深度互信息约束的图文跨模态特征解纠缠方法,其特征在于,包括以下步骤:
步骤1:将数据库中的图像文本整理成数据集模式后构建得到数据集;
步骤2:利用ResNet与BiGRU分别将数据集中的图像与文本映射到原始特征空间,原始特征空间包含图像与文本的原始特征;
步骤3:将图像与文本的原始特征映射入底层特征空间,将图像或文本的原始特征和底层特征输入互信息约束分支网络;
步骤4:利用全连接层将底层特征空间内的底层特征分别映射到模态共有特征空间和模态特有特征空间;
步骤5:对模态共有特征空间和模态特有特征空间内特征的不同组合进行解码重构,对重构的特征加以约束,使得模态共有信息和模态特有信息彼此分离;
步骤6:将步骤3~步骤6得到的互信息损失
Figure FDA0003640022700000011
排序损失
Figure FDA0003640022700000012
整体重构损失
Figure FDA0003640022700000013
特有特征重构损失
Figure FDA0003640022700000014
对抗损失
Figure FDA0003640022700000015
综合计算得到总体损失函数,根据总体损失函数进行梯度回传,步骤4至步骤6反复迭代,直至网络收敛,训练过程停止;
所述步骤4中的模态共有特征空间内的模态共有特征为仅包含有模态共有信息的特征,模态共有信息为在两个模态内同时体现的信息;模态特有特征空间内的模态特有特征为仅包含有模态特有信息的特征,模态特有信息为在另一模态内未体现的信息;
所述步骤4中的底层特征通过全连接层映射到模态特有特征空间时,在全连接层前加入有梯度翻转层;
所述步骤4中的底层特征通过全连接层映射到模态共有特征空间时,文本模态与图像模态的全连接层参数共享;对于模态共有特征空间内的模态共有特征,利用排序损失
Figure FDA0003640022700000016
加以约束,保证属于同一个样本的特征距离小于不同样本间的特征距离,特征距离为两个特征之间的相似性度量;
所述排序损失
Figure FDA0003640022700000017
计算为:
Figure FDA0003640022700000018
其中,ts,is分别为文本和图像的模态共有特征且文本与图像属于同一样本,t's为与is属于不同样本的文本的模态共有特征,i's为与ts属于不同样本的图像的模态共有特征,λ为排序损失的边界值;
s(ts,is)、s(t's,is)、s(ts,i's)均代表两个特征之间的相似性度量,具体表示为:
s(tS,iS)=-||max(0,iS-tS)||2
所述步骤5具体为:
5.1)构建全连接层组成的特征重构解码器;
将文本模态的模态特有特征与图像模态的模态共有特征一同输入特征重构解码器进行特征重构,将重构获得的特征与文本底层特征利用L1范数加以约束;将图像模态的模态特有特征与文本模态的模态共有特征一同输入特征重构解码器进行特征重构,将重构获得的特征与图像底层特征利用L1范数加以约束;从而计算得到整体重构损失
Figure FDA0003640022700000021
Figure FDA0003640022700000022
其中,tG,iG分别为文本底层特征和图像底层特征,tE,iE分别为文本的模态特有特征和图像的模态特有特征,tS,iS分别为文本的模态共有特征和图像的模态共有特征,DECt,DECi分别为文本的特征重构解码器和图像的特征重构解码器;
5.2)构建全连接层组成的特征解纠缠解码器;
将模态特有特征单独输入特征解纠缠解码器进行特征重构,重构获得的特征与另一不同模态的底层特征利用对抗损失与L1损失共同加以约束;
重构获得的特征与另一不同模态的底层特征采用L1损失函数计算得到特有特征重构损失
Figure FDA0003640022700000023
Figure FDA0003640022700000024
其中,DECte,DECie分别代表文本模态的特征解纠缠解码器与图像模态的特征解纠缠解码器;
所述步骤5.2)中的对抗损失
Figure FDA0003640022700000025
由全连接层构成的判别器网络计算得到;
判别器网络与整体网络一同训练时,训练过程中判别器参数固定不变,判别器以生成特征作为输入计算生成损失,通过计算判别结果的相反数得到生成损失,图像模态的生成损失
Figure FDA0003640022700000026
表示为:
Figure FDA0003640022700000027
其中,
Figure FDA0003640022700000031
代表由图像的模态特有特征经过特征解纠缠解码器产生的特征,D代表判别器;同理获得文本模态的生成损失
Figure FDA0003640022700000032
判别器网络单独训练时,训练过程中判别器参数改变,判别器以生成特征与真实特征同时作为输入计算判别损失,图像模态的判别损失
Figure FDA0003640022700000033
表示为:
Figure FDA0003640022700000034
其中,前两项分别为生成特征与真实特征的判别结果,第三项为正则项;同理获得文本模态的判别损失
Figure FDA0003640022700000035
所述真实特征为文本或图像的底层特征,生成特征为特征解纠缠解码器重构获得的特征;
解纠缠网络和判别网络交替对抗训练,在对抗中寻求最优解,对于解纠缠网络来说,对抗损失Ladv为图像与文本模态生成损失的和,表示为:
Figure FDA0003640022700000036
2.根据权利要求1所述的一种基于深度互信息约束的图文跨模态特征解纠缠方法,其特征在于:所述步骤1)的数据集模式为数据集中的每一幅图像对应一段文本,且每段文本描述与对应的图像内容具有语义一致性,对应的图像-文本组成一个样本。
3.根据权利要求1所述的一种基于深度互信息约束的图文跨模态特征解纠缠方法,其特征在于:所述步骤2具体为:采用去掉最后一层的ResNet对数据集中的图像进行原始特征提取;对于BiGRU,将前向传输与后向传输最后一个时序的输出合并后作为数据集中文本的原始特征。
4.根据权利要求2所述的一种基于深度互信息约束的图文跨模态特征解纠缠方法,其特征在于:所述步骤3)具体为:
3.1)利用全连接层将原始特征空间中图像与文本的原始特征映射到底层特征空间,底层特征空间包含图像与文本的底层特征;
3.2)构建全连接层组成的互信息约束分支网络,互信息约束分支网络包括图像互信息约束分支网络和文本互信息约束分支网络;图像互信息约束分支网络的输入分别为图像的原始特征和图像的底层特征,文本互信息约束分支网络的输入分别为文本的原始特征和文本的底层特征;使用交叉熵损失函数计算得到互信息损失
Figure FDA0003640022700000037
对于互信息约束分支网络的输入,来自同一样本的输入为真样本,来自不同样本的输入为假样本。
5.根据权利要求1所述的一种基于深度互信息约束的图文跨模态特征解纠缠方法,其特征在于:所述步骤6中的总体损失函数
Figure FDA0003640022700000041
计算为:
Figure FDA0003640022700000042
其中,
Figure FDA0003640022700000043
为互信息损失、
Figure FDA0003640022700000044
为排序损失、
Figure FDA0003640022700000045
为整体重构损失、
Figure FDA0003640022700000046
为特有特征重构损失、
Figure FDA0003640022700000047
为对抗损失,a、β、γ、δ分别为设置的超参数。
CN201910994194.4A 2019-10-18 2019-10-18 一种基于深度互信息约束的图文跨模态特征解纠缠方法 Active CN110807122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910994194.4A CN110807122B (zh) 2019-10-18 2019-10-18 一种基于深度互信息约束的图文跨模态特征解纠缠方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910994194.4A CN110807122B (zh) 2019-10-18 2019-10-18 一种基于深度互信息约束的图文跨模态特征解纠缠方法

Publications (2)

Publication Number Publication Date
CN110807122A CN110807122A (zh) 2020-02-18
CN110807122B true CN110807122B (zh) 2022-07-08

Family

ID=69488735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910994194.4A Active CN110807122B (zh) 2019-10-18 2019-10-18 一种基于深度互信息约束的图文跨模态特征解纠缠方法

Country Status (1)

Country Link
CN (1) CN110807122B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428071B (zh) * 2020-03-26 2022-02-01 电子科技大学 一种基于多模态特征合成的零样本跨模态检索方法
CN111582170B (zh) * 2020-05-08 2023-05-23 浙江大学 基于多分支关系网络的视频中指定对象定位方法和系统
CN111428116B (zh) * 2020-06-08 2021-01-12 四川大学 一种基于深度神经网络的微博社交机器人检测方法
CN111767701B (zh) * 2020-06-18 2023-03-07 浙江大学 一种基于对抗性互信息的文本生成方法
CN113157678B (zh) * 2021-04-19 2022-03-15 中国人民解放军91977部队 一种多源异构数据关联方法
CN113656539B (zh) * 2021-07-28 2023-08-18 哈尔滨工业大学 基于特征分离和重建的跨模态检索方法
CN113869528B (zh) * 2021-12-02 2022-03-18 中国科学院自动化研究所 共识表征提取和多样性传播的解纠缠个性化联邦学习方法
CN115604475A (zh) * 2022-08-12 2023-01-13 西安电子科技大学(Cn) 一种多模态信源联合编码方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10034610B2 (en) * 2014-12-24 2018-07-31 Infosys Limited System and method for registration of brain images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110807122A (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
CN110807122B (zh) 一种基于深度互信息约束的图文跨模态特征解纠缠方法
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN108304439B (zh) 一种语义模型优化方法、装置及智能设备、存储介质
US8280892B2 (en) Selecting tags for a document by analyzing paragraphs of the document
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
JP2020523699A (ja) 関心点コピーの生成
CN113312500A (zh) 一种面向大坝安全运行的事件图谱构建方法
EP2045739A2 (en) Modeling topics using statistical distributions
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
CN114048350A (zh) 一种基于细粒度跨模态对齐模型的文本-视频检索方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN109977382B (zh) 诗句生成模型的训练方法、自动写诗方法及装置
Park et al. Retrieval of sentence sequences for an image stream via coherence recurrent convolutional networks
CN112085120B (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
Su et al. BERT-hLSTMs: BERT and hierarchical LSTMs for visual storytelling
CN114791958A (zh) 一种基于变分自编码器的零样本跨模态检索方法
CN116129141A (zh) 医学数据处理方法、装置、设备、介质和计算机程序产品
He et al. Deep learning in natural language generation from images
Azhar et al. Facilitated deep learning models for image captioning
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN114490926A (zh) 一种相似问题的确定方法、装置、存储介质及终端
CN117057173B (zh) 一种支持发散思维的仿生设计方法、系统及电子设备
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN117454217A (zh) 一种基于深度集成学习的抑郁情绪识别方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant