CN112905822A - 一种基于注意力机制的深度监督跨模态对抗学习方法 - Google Patents

一种基于注意力机制的深度监督跨模态对抗学习方法 Download PDF

Info

Publication number
CN112905822A
CN112905822A CN202110144443.8A CN202110144443A CN112905822A CN 112905822 A CN112905822 A CN 112905822A CN 202110144443 A CN202110144443 A CN 202110144443A CN 112905822 A CN112905822 A CN 112905822A
Authority
CN
China
Prior art keywords
text
image
feature
attention mechanism
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110144443.8A
Other languages
English (en)
Other versions
CN112905822B (zh
Inventor
曾焕强
王欣唯
朱建清
廖昀
刘青松
陈虢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yealink Network Technology Co Ltd
Huaqiao University
Xiamen Yunzhixin Intelligent Technology Co Ltd
Xiamen Hualian Electronics Co Ltd
Original Assignee
Xiamen Yealink Network Technology Co Ltd
Huaqiao University
Xiamen Yunzhixin Intelligent Technology Co Ltd
Xiamen Hualian Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yealink Network Technology Co Ltd, Huaqiao University, Xiamen Yunzhixin Intelligent Technology Co Ltd, Xiamen Hualian Electronics Co Ltd filed Critical Xiamen Yealink Network Technology Co Ltd
Priority to CN202110144443.8A priority Critical patent/CN112905822B/zh
Publication of CN112905822A publication Critical patent/CN112905822A/zh
Application granted granted Critical
Publication of CN112905822B publication Critical patent/CN112905822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于注意力机制的深度监督跨模态对抗学习方法,针对每个模态构建深度学习网络获取深度特征,引入生成对抗网络,利用模态间的交叉判别借助注意力机制不断提炼模态特征网络的生成特征,在公共子空间进行异质性数据的度量的同时,利用标签信息在标签空间对模态数据进行深度监督学习。如此构建的网络,使得训练得到的基于注意力机制的跨模态深度监督对抗模型具有良好的图文互相检索性能;在检索过程中利用训练得到的网络模型M对待查询图像(文本)和候选库中的文本(图像)进行特征提取以及余弦距离计算,从而获取待查询图像(文本)与候选库中的文本(图像)数据之间的相似度较高者,实现跨模态检索。

Description

一种基于注意力机制的深度监督跨模态对抗学习方法
技术领域
本发明涉及多模态学习和信息检索技术领域,更具体地说,涉及一种基于注意力机制的深度监督跨模态对抗学习方法。
背景技术
图像、文本等不同模态数据广泛存在于互联网之中,然而,“异构鸿沟”问题导致不同模态的数据分布及表征不一致,难以实现语义关联,为用户在海量互联网不同模态间数据中检索有用信息带来不便。现有技术中,跨模态检索能够用于在不同模态的数据间(图像、文本、语音、视频等)进行检索,如通过图像检索文本、通过文本检索音频、通过音频检索视频等等,跨模态检索常用于搜索引擎和大数据管理中。
但是,多模态数据具有底层特征异构高层语义相关的特性,因此,现有技术的跨模态检索存在的不足是:在数据表征不一致的情况下,不同模态间的内在关联关系差,语义关联程度低;造成现有技术的跨模态的相似性度量面临很大挑战。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于注意力机制的深度监督跨模态对抗学习方法,能够有效提高跨模态检索的准确度。
本发明的技术方案如下:
一种基于注意力机制的深度监督跨模态对抗学习方法,包括训练过程和检索过程,具体如下:
训练过程:将数据集D中成对的相同语义的第一类型对象、第二类型对象及其所属的类标签信息输入到基于注意力机制的深度监督对抗网络模型中进行训练,直至模型收敛,从而获得网络模型M;
检索过程:利用训练过程训练得到网络模型M分别提取待查询的第一类型对象和候选库中每个第二类型对象的特征向量,从而计算待查询的第一类型对象与候选库中第二类型对象的相似度,返回相似度最高的检索结果;
其中,第一类型对象为图像,第二类型对象为文本,或者,第一类型对象为文本,第二类型对象为图像。
作为优选,训练过程的步骤如下:
1.1)将不同类别的第一类型对象的数据输入对应模态的特征提取网络中,提取第一类型对象的特征;
1.2)将1.1)中提取的特征输入对应模态的判别器中,作为真样本;并将要检索的第二类型对象对应模态的特征网络作为生成器,生成的特征作为假样本,输入判别器中进行对抗学习;
1.3)将1.1)中提取的特征输入对抗学习引导的跨模态联合注意力机制中,根据模态间的共同语义信息特征图P,生成保留更多语义相关性的第一类型对象的特征向量和第二类型对象的特征向量,即图像特征I和文本特征T;
1.4)将1.3)中得到的图像特征I、文本特征T分别送入公共子空间和标签空间进行联合学习,采用误差反向传播算法先优化在公共子空间和标签空间的损失,得到收敛的基于注意力机制的两个空间上的网络;然后更新注意力机制中的共同语义特征图P,利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习,进行迭代形成基于注意力机制的深度监督跨模态对抗学习网络模型M。
作为优选,步骤1.1)中,具体地,将不同类别的图像数据vi输入到图像特征提取网络中提取图像的图像特征,将对应的文本数据ti输入到文本特征提取网络中提取文本数据的文本特征。
作为优选,图像特征提取网络包括五个卷积层、池化层和三个全连接层,其中,最后一层全连接层隐藏单元数量为d,d表示提取得到的图像特征的维数。
作为优选,文本特征提取网络为三层全连接的多层感知机模型,整体为Q→8192→4096→N,其中,Q表示文本网络输入层,8192和4096分别表示前两个全连接的层的隐含神经元个数,N表示要提取的文本特征的维数。
作为优选,图像模态对应的图像判别器为分类器Dx,是参数为θDx的多层感知机模型;文本模态对应的文本判别器为分类器Dy,是参数为θDy的多层感知机模型;
步骤1.2)中,对抗损失Ladv具体如下:
Figure BDA0002929668770000031
其中,fi x表示是图像模态的第i个实例,fi y表示是文本模态的第i个实例,n表示图像文本对的数量。
作为优选,步骤1.3)中,对抗学习引导的跨模态联合注意力机制根据第一类型对象的特征表示与第二类型对象的特征表示之间的距离,对相应的特征项分配权重;在注意力机制中,共同语义特征图P为语义标签的嵌入矩阵,第一类型对象和第二类型对象具有相同的共同语义特征图P;
特征向量的长度各不相同,并且特征表示和共同语义特征图P之间的值范围不一致,则通过L2归一化对输出进行预处理,将第一类型对象的特征表示与第二类型对象的特征表示之间的距离限制为[-1,1];
注意力机制的输出是在共同语义特征图P上通过权重平均获得的第一类型对象和第二类型对象的联合特征
Figure BDA0002929668770000032
具体如下:
Figure BDA0002929668770000033
Figure BDA0002929668770000034
其中,*∈{x,y},则fx表示第一类型对象的特征,fy表示第一类型对象的特征,fx、fy用于引导注意力机制中的共同语义特征图P的生成,C为类标签的数量;Mc是第c个类标签的嵌入特征,属于向量空间R1×d的行向量,d为特征表示维度;共同语义特征图P是mask的总和,则
Figure BDA0002929668770000041
λ是控制mask特征效果的参数,σ为激活函数,
Figure BDA0002929668770000042
为Mc的转置。
作为优选,步骤1.4)具体如下:
1.4.1)将注意力机制输出的图像特征I、文本特征T分别映射到公共子空间和标签空间进行联合学习;
使用两层全连接层分别将图像特征I、文本特征T映射到公共子空间,第二个全连接层的隐含神经元个数为映射到公共空间的维数d,每个图像和文本表示为uic、vic,并在此层上设计基于余弦距离的三重损失,具体如下:
Figure BDA0002929668770000043
其中,
Figure BDA0002929668770000044
表示第k个文本且与图像ui语义不相关,
Figure BDA0002929668770000045
表示第j个文本且与图像ui语义相关,
Figure BDA0002929668770000046
表示第k个图像且与文本vi语义不相关,
Figure BDA0002929668770000047
表示第j个图像且与文本vi语义相关;m是范围参数;
在公共子空间中还设计有公共空间判别性损失Lcdis,具体如下:
Figure BDA0002929668770000048
其中,ui、uj为第i个图像、第j个图像在公共空间的表示,vi、vj为第i个文本、第j个文本在公共空间的表示,则
Figure BDA0002929668770000051
Figure BDA0002929668770000052
1{,}是设定的一个函数,如果中间的两个实例具有同一个类标签则为1,否则为0;
则公共空间的损失为:
Lcom=Ltri+Lcdis
1.4.2)基于在公共子空间的理想判别模态间语义关系,图像特征I和文本特征T被参数矩阵为B的线性分类层预测出语义标签,然后映射到标签空间进行度量,此层的输出维度为C,与图像和文本的标签类别数相一致;在标签空间的目标函数表示为:
Figure BDA0002929668770000053
其中,U=[u1,u2,...,un],表示图像在公共空间的矩阵,V=[v1,v2,...,vn],表示文本在公共空间的矩阵,Y表示标签空间,则Y=[l1,l2,...,ln];||·||F表示Frobenius范数;
结合所述的三种损失可得到网络的整体损失:
L=Ladv+τLcom+γLlab
其中,τ、γ为超参数。
1.4.3)采用误差反向传播算法先优化网络的整体损失L,更新注意力机制中的共同语义特征图P,利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习,迭代不断进行对抗和损失优化直至模型收敛,形成基于注意力机制的深度监督跨模态对抗学习网络模型M。
作为优选,检索过程的步骤如下:
2.1)利用训练过程得到的网络模型M,分别提取待查询的第一类型对象和候选库中每个第二类型对象的特征向量;
2.2)通过余弦距离
Figure BDA0002929668770000054
计算待查询第一对象类型的特征向量与候选库中每个第二类型对象的特征向量之间的相似度,pi表示查询图像i的特征表示,qj表示候选库中第j个文本的特征表示,<·>表示内积计算;
2.3)返回相似度最高的检索结果。
作为优选,步骤2.3)中,将得到的相似度进行降序排序,然后返回相似度最高的检索结果;
本发明的有益效果如下:
本发明所述的基于注意力机制的深度监督跨模态对抗学习方法,针对每个模态构建深度学习网络获取深度特征,引入生成对抗网络,利用模态间的交叉判别借助注意力机制不断提炼模态特征网络的生成特征,在公共子空间进行异质性数据的度量的同时,利用标签信息在标签空间对模态数据进行深度监督学习。如此构建的网络,使得训练得到的基于注意力机制的跨模态深度监督对抗模型具有良好的图文互相检索性能;在检索过程中利用训练得到的网络模型M对待查询图像(文本)和候选库中的文本(图像)进行特征提取以及余弦距离计算,从而获取待查询图像(文本)与候选库中的文本(图像)数据之间的相似度较高者,实现跨模态检索。
本发明通过构建生成对抗网络进行对抗学习,同时将原始特征映射到公共空间和标签空间保留更多语义信息,极大提升了在图像-文本上的检索精度。
附图说明
图1是训练过程的流程框图;
图2是检索过程的流程框图。
具体实施方式
以下结合附图及实施例对本发明进行进一步的详细说明。
本发明所述的基于注意力机制的深度监督跨模态对抗学习方法,如图1、图2所示,包括训练过程和检索过程,具体如下:
1)训练过程:将数据集D中成对的相同语义的第一类型对象、第二类型对象及其所属的类标签信息输入到基于注意力机制的深度监督对抗网络模型中进行训练,直至模型收敛,从而获得网络模型M。其中,第一类型对象为图像,第二类型对象为文本,或者,第一类型对象为文本,第二类型对象为图像。
训练过程具体如下:
1.1)将不同类别的第一类型对象的数据输入对应模态的特征提取网络中,提取第一类型对象的特征;
1.2)将1.1)中提取的特征输入对应模态的判别器中,作为真样本;并将要检索的第二类型对象对应模态的特征网络作为生成器,生成的特征作为假样本,输入判别器中进行对抗学习;
1.3)将1.1)中提取的特征输入对抗学习引导的跨模态联合注意力机制中,根据模态间的共同语义信息特征图P,生成保留更多语义相关性的第一类型对象的特征向量和第二类型对象的特征向量,即图像特征I和文本特征T;
1.4)将1.3)中得到的图像特征I、文本特征T分别送入公共子空间和标签空间进行联合学习,采用误差反向传播算法先优化在公共子空间和标签空间的损失,得到收敛的基于注意力机制的两个空间上的网络;然后更新注意力机制中的共同语义特征图P,利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习,进行迭代形成基于注意力机制的深度监督跨模态对抗学习网络模型M。
2)检索过程:利用训练过程训练得到网络模型M分别提取待查询的第一类型对象和候选库中每个第二类型对象的特征向量,从而计算待查询的第一类型对象与候选库中第二类型对象的相似度,返回相似度最高的检索结果。
检索过程具体如下:
2.1)利用训练过程得到的网络模型M,分别提取待查询的第一类型对象和候选库中每个第二类型对象的特征向量;
2.2)通过余弦距离
Figure BDA0002929668770000071
计算待查询第一对象类型的特征向量与候选库中每个第二类型对象的特征向量之间的相似度,pi表示查询图像i的特征表示,qj表示候选库中第j个文本的特征表示,<·>表示内积计算;
2.3)将得到的相似度进行降序排序,并返回相似度最高的检索结果。
本实施例中,以第一类型对象为图像,第二类型对象为文本为例,则训练过程中,步骤1.1)中,具体地,将不同类别的图像数据vi输入到图像特征提取网络中提取图像的图像特征,将对应的文本数据ti输入到文本特征提取网络中提取文本数据的文本特征。
图像特征提取网络包括五个卷积层、池化层和三个全连接层,其中,最后一层全连接层隐藏单元数量为d,d表示提取得到的图像特征的维数。
文本特征提取网络为三层全连接的多层感知机模型,整体为Q→8192→4096→N,其中,Q表示文本网络输入层,8192和4096分别表示前两个全连接的层的隐含神经元个数,N表示要提取的文本特征的维数。
本实施例中,图像模态对应的图像判别器为分类器Dx,是参数为
Figure BDA0002929668770000083
的多层感知机模型;文本模态对应的文本判别器为分类器Dy,是参数为
Figure BDA0002929668770000082
的多层感知机模型。步骤1.2)中,在对抗学习的过程中,将图像特征提取网络得到的图像特征作为判别器的真图像特征IR,将从文本特征提取网络作为生成网络,生成的图像特征作为假图像特征IF,文本网络尝试生成能让图像判别器混淆判断的特征,图像判别器需要不断区分出真假图像特征,从而形成对抗学习。当第一类型对象为文本,第二类型对象为图像,即文本模态,其生成对抗同理。
步骤1.2)中,生成对抗的过程中,存在对抗损失,是分类图像和文本模态的交叉熵损失,对抗损失Ladv具体如下:
Figure BDA0002929668770000081
其中,fi x表示是图像模态的第i个实例,fi y表示是文本模态的第i个实例,n表示图像文本对的数量。
步骤1.3)中,对抗学习引导的跨模态联合注意力机制根据第一类型对象(本实施例中为图像)的特征表示与第二类型对象(本实施例中为文本)的特征表示之间的距离,对相应的特征项分配权重;在注意力机制中,共同语义特征图P为语义标签的嵌入矩阵,第一类型对象和第二类型对象具有相同的共同语义特征图P。
由于特征向量的长度各不相同,并且特征表示和共同语义特征图P之间的值范围不一致,为了解决这个问题,本实施例通过L2归一化对输出进行预处理,将第一类型对象的特征表示与第二类型对象的特征表示之间的距离限制为[-1,1]。
注意力机制的输出是在共同语义特征图P上通过权重平均获得的第一类型对象和第二类型对象的联合特征
Figure BDA0002929668770000091
具体如下:
Figure BDA0002929668770000092
Figure BDA0002929668770000093
其中,*∈{x,y},则fx表示第一类型对象的特征,fy表示第一类型对象的特征,fx、fy用于引导注意力机制中的共同语义特征图P的生成,C为类标签的数量;Mc是第c个类标签的嵌入特征,属于向量空间R1×d的行向量,d为特征表示维度;共同语义特征图P是mask的总和,则
Figure BDA0002929668770000094
λ是控制mask特征效果的参数,σ为激活函数,
Figure BDA0002929668770000095
为Mc的转置。
步骤1.4)具体如下:
1.4.1)将注意力机制输出的图像特征I、文本特征T分别映射到公共子空间和标签空间进行联合学习;
使用两层全连接层分别将图像特征I、文本特征T映射到公共子空间,第二个全连接层的隐含神经元个数为映射到公共空间的维数d,每个图像和文本表示为uic、vic,并在此层上设计基于余弦距离的三重损失,具体如下:
Figure BDA0002929668770000101
其中,
Figure BDA0002929668770000102
表示第k个文本且与图像ui语义不相关,
Figure BDA0002929668770000103
表示第j个文本且与图像ui语义相关,
Figure BDA0002929668770000104
表示第k个图像且与文本vi语义不相关,
Figure BDA0002929668770000105
表示第j个图像且与文本vi语义相关;m是范围参数;
在公共子空间中还设计有公共空间判别性损失Lcdis,具体如下:
Figure BDA0002929668770000106
其中,ui、uj为第i个图像、第j个图像在公共空间的表示,vi、vj为第i个文本、第j个文本在公共空间的表示,则
Figure BDA0002929668770000107
Figure BDA0002929668770000108
1{,}是设定的一个函数,如果中间的两个实例具有同一个类标签则为1,否则为0;
则公共空间的损失为:
Lcom=Ltri+Lcdis
1.4.2)基于在公共子空间的理想判别模态间语义关系,图像特征I和文本特征T被参数矩阵为B的线性分类层预测出语义标签,然后映射到标签空间进行度量,此层的输出维度为C,与图像和文本的标签类别数相一致;在标签空间的目标函数表示为:
Figure BDA0002929668770000111
其中,U=[u1,u2,...,un],表示图像在公共空间的矩阵,V=[v1,v2,...,vn],表示文本在公共空间的矩阵,Y表示标签空间,则Y=[l1,l2,...,ln];||·||F表示Frobenius范数;
结合所述的三种损失可得到网络的整体损失:
L=Ladv+τLcom+γLlab
其中,τ、γ为超参数。
1.4.3)采用误差反向传播算法先优化网络的整体损失L,更新注意力机制中的共同语义特征图P,利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习,迭代不断进行对抗和损失优化直至模型收敛,形成基于注意力机制的深度监督跨模态对抗学习网络模型M。
上述实施例仅是用来说明本发明,而并非用作对本发明的限定。只要是依据本发明的技术实质,对上述实施例进行变化、变型等都将落在本发明的权利要求的范围内。

Claims (10)

1.一种基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,包括训练过程和检索过程,具体如下:
训练过程:将数据集D中成对的相同语义的第一类型对象、第二类型对象及其所属的类标签信息输入到基于注意力机制的深度监督对抗网络模型中进行训练,直至模型收敛,从而获得网络模型M;
检索过程:利用训练过程训练得到网络模型M分别提取待查询的第一类型对象和候选库中每个第二类型对象的特征向量,从而计算待查询的第一类型对象与候选库中第二类型对象的相似度,返回相似度最高的检索结果;
其中,第一类型对象为图像,第二类型对象为文本,或者,第一类型对象为文本,第二类型对象为图像。
2.根据权利要求1所述的基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,训练过程的步骤如下:
1.1)将不同类别的第一类型对象的数据输入对应模态的特征提取网络中,提取第一类型对象的特征;
1.2)将1.1)中提取的特征输入对应模态的判别器中,作为真样本;并将要检索的第二类型对象对应模态的特征网络作为生成器,生成的特征作为假样本,输入判别器中进行对抗学习;
1.3)将1.1)中提取的特征输入对抗学习引导的跨模态联合注意力机制中,根据模态间的共同语义信息特征图P,生成保留更多语义相关性的第一类型对象的特征向量和第二类型对象的特征向量,即图像特征I和文本特征T;
1.4)将1.3)中得到的图像特征I、文本特征T分别送入公共子空间和标签空间进行联合学习,采用误差反向传播算法先优化在公共子空间和标签空间的损失,得到收敛的基于注意力机制的两个空间上的网络;然后更新注意力机制中的共同语义特征图P,利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习,进行迭代形成基于注意力机制的深度监督跨模态对抗学习网络模型M。
3.根据权利要求2所述的基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,步骤1.1)中,具体地,将不同类别的图像数据vi输入到图像特征提取网络中提取图像的图像特征,将对应的文本数据ti输入到文本特征提取网络中提取文本数据的文本特征。
4.根据权利要求3所述的基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,图像特征提取网络包括五个卷积层、池化层和三个全连接层,其中,最后一层全连接层隐藏单元数量为d,d表示提取得到的图像特征的维数。
5.根据权利要求3所述的基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,文本特征提取网络为三层全连接的多层感知机模型,整体为Q→8192→4096→N,其中,Q表示文本网络输入层,8192和4096分别表示前两个全连接的层的隐含神经元个数,N表示要提取的文本特征的维数。
6.根据权利要求2所述的基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,图像模态对应的图像判别器为分类器Dx,是参数为
Figure FDA0002929668760000021
的多层感知机模型;文本模态对应的文本判别器为分类器Dy,是参数为
Figure FDA0002929668760000022
的多层感知机模型;
步骤1.2)中,对抗损失Ladv具体如下:
Figure FDA0002929668760000023
其中,fi x表示是图像模态的第i个实例,fi y表示是文本模态的第i个实例,n表示图像文本对的数量。
7.根据权利要求2所述的基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,步骤1.3)中,对抗学习引导的跨模态联合注意力机制根据第一类型对象的特征表示与第二类型对象的特征表示之间的距离,对相应的特征项分配权重;在注意力机制中,共同语义特征图P为语义标签的嵌入矩阵,第一类型对象和第二类型对象具有相同的共同语义特征图P;
特征向量的长度各不相同,并且特征表示和共同语义特征图P之间的值范围不一致,则通过L2归一化对输出进行预处理,将第一类型对象的特征表示与第二类型对象的特征表示之间的距离限制为[-1,1];
注意力机制的输出是在共同语义特征图P上通过权重平均获得的第一类型对象和第二类型对象的联合特征
Figure FDA0002929668760000031
具体如下:
Figure FDA0002929668760000032
Figure FDA0002929668760000033
其中,*∈{x,y},则fx表示第一类型对象的特征,fy表示第一类型对象的特征,fx、fy用于引导注意力机制中的共同语义特征图P的生成,C为类标签的数量;Mc是第c个类标签的嵌入特征,属于向量空间R1×d的行向量,d为特征表示维度;共同语义特征图P是mask的总和,则
Figure FDA0002929668760000034
λ是控制mask特征效果的参数,σ为激活函数,
Figure FDA0002929668760000035
为Mc的转置。
8.根据权利要求2所述的基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,步骤1.4)具体如下:
1.4.1)将注意力机制输出的图像特征I、文本特征T分别映射到公共子空间和标签空间进行联合学习;
使用两层全连接层分别将图像特征I、文本特征T映射到公共子空间,第二个全连接层的隐含神经元个数为映射到公共空间的维数d1,每个图像和文本表示为ui、vi,并在此层上设计基于余弦距离的三重损失,具体如下:
Figure FDA0002929668760000036
其中,
Figure FDA0002929668760000037
表示第k个文本且与图像ui语义不相关,
Figure FDA0002929668760000038
表示第j个文本且与图像ui语义相关,
Figure FDA0002929668760000041
表示第k个图像且与文本vi语义不相关,
Figure FDA0002929668760000042
表示第j个图像且与文本vi语义相关;m是范围参数;
在公共子空间中还设计有公共空间判别性损失Lcdis,具体如下:
Figure FDA0002929668760000043
其中,ui、uj为第i个图像、第j个图像在公共空间的表示,vi、vj为第i个文本、第j个文本在公共空间的表示,则
Figure FDA0002929668760000044
Figure FDA0002929668760000045
1{,}是设定的一个函数,如果中间的两个实例具有同一个类标签则为1,否则为0;
则公共空间的损失为:
Lcom=Ltri+Lcdis
1.4.2)基于在公共子空间的理想判别模态间语义关系,图像特征I和文本特征T被参数矩阵为B的线性分类层预测出语义标签,然后映射到标签空间进行度量,此层的输出维度为C,与图像和文本的标签类别数相一致;在标签空间的目标函数表示为:
Figure FDA0002929668760000046
其中,U=[u1,u2,...,un],表示图像在公共空间的矩阵,V=[v1,v2,...,vn],表示文本在公共空间的矩阵,Y表示标签空间,则Y=[l1,l2,...,ln];||·||F表示Frobenius范数;
结合所述的三种损失可得到网络的整体损失:
L=Ladv+τLcom+γLlab
其中,τ、γ为超参数。
1.4.3)采用误差反向传播算法先优化网络的整体损失L,更新注意力机制中的共同语义特征图P,利用共同语义特征图P指导图像模态、文本模态对应的特征提取网络生成迷惑对应的另一模态判别器判别的特征进行对抗学习,迭代不断进行对抗和损失优化直至模型收敛,形成基于注意力机制的深度监督跨模态对抗学习网络模型M。
9.根据权利要求1至8任一项所述的基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,检索过程的步骤如下:
2.1)利用训练过程得到的网络模型M,分别提取待查询的第一类型对象和候选库中每个第二类型对象的特征向量;
2.2)通过余弦距离
Figure FDA0002929668760000051
计算待查询第一对象类型的特征向量与候选库中每个第二类型对象的特征向量之间的相似度,pi表示查询图像i的特征表示,qj表示候选库中第j个文本的特征表示,<·>表示内积计算;
2.3)返回相似度最高的检索结果。
10.根据权利要求9所述的基于注意力机制的深度监督跨模态对抗学习方法,其特征在于,步骤2.3)中,将得到的相似度进行降序排序,然后返回相似度最高的检索结果。
CN202110144443.8A 2021-02-02 2021-02-02 一种基于注意力机制的深度监督跨模态对抗学习方法 Active CN112905822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110144443.8A CN112905822B (zh) 2021-02-02 2021-02-02 一种基于注意力机制的深度监督跨模态对抗学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110144443.8A CN112905822B (zh) 2021-02-02 2021-02-02 一种基于注意力机制的深度监督跨模态对抗学习方法

Publications (2)

Publication Number Publication Date
CN112905822A true CN112905822A (zh) 2021-06-04
CN112905822B CN112905822B (zh) 2022-07-01

Family

ID=76121535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110144443.8A Active CN112905822B (zh) 2021-02-02 2021-02-02 一种基于注意力机制的深度监督跨模态对抗学习方法

Country Status (1)

Country Link
CN (1) CN112905822B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628294A (zh) * 2021-07-09 2021-11-09 南京邮电大学 一种面向跨模态通信系统的图像重建方法及装置
CN113657450A (zh) * 2021-07-16 2021-11-16 中国人民解放军陆军炮兵防空兵学院 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN113673349A (zh) * 2021-07-20 2021-11-19 广东技术师范大学 基于反馈机制的图像生成中文文本方法、系统及装置
CN113779282A (zh) * 2021-11-11 2021-12-10 南京码极客科技有限公司 基于自注意力和生成对抗网络的细粒度跨媒体检索方法
CN113946710A (zh) * 2021-10-12 2022-01-18 浙江大学 一种基于多模态与自监督表征学习的视频检索方法
CN113987119A (zh) * 2021-09-30 2022-01-28 阿里巴巴(中国)有限公司 一种数据检索方法、跨模态数据匹配模型处理方法和装置
CN115578680A (zh) * 2022-09-09 2023-01-06 北京理工大学 一种视频理解方法
CN117274656A (zh) * 2023-06-06 2023-12-22 天津大学 基于自适应深度监督模块的多模态模型对抗训练方法
WO2024011814A1 (zh) * 2022-07-12 2024-01-18 苏州元脑智能科技有限公司 一种图文互检方法、系统、设备及非易失性可读存储介质
CN117934978A (zh) * 2024-03-22 2024-04-26 安徽大学 一种基于对抗学习的高光谱和激光雷达多层融合分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346440A (zh) * 2014-10-10 2015-02-11 浙江大学 一种基于神经网络的跨媒体哈希索引方法
US10243781B1 (en) * 2017-07-05 2019-03-26 Juniper Networks, Inc. Detecting link faults in network paths that include link aggregation groups (LAGs)
CN109558890A (zh) * 2018-09-30 2019-04-02 天津大学 基于自适应权重哈希循环对抗网络的零样本图像分类方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346440A (zh) * 2014-10-10 2015-02-11 浙江大学 一种基于神经网络的跨媒体哈希索引方法
US10243781B1 (en) * 2017-07-05 2019-03-26 Juniper Networks, Inc. Detecting link faults in network paths that include link aggregation groups (LAGs)
CN109558890A (zh) * 2018-09-30 2019-04-02 天津大学 基于自适应权重哈希循环对抗网络的零样本图像分类方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FANG ZHAO 等: "Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval", 《COMPUTER VISION & PATTERN RECOGNITION》, 19 April 2015 (2015-04-19), pages 1556 - 1564 *
张璐: "基于对抗学习的跨模态检索方法研究进展", 《现代计算机》, 31 January 2019 (2019-01-31), pages 29 - 32 *
董震等: "基于异构哈希网络的跨模态人脸检索方法", 《计算机学报》, vol. 42, no. 1, 27 February 2019 (2019-02-27), pages 73 - 84 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023280065A1 (zh) * 2021-07-09 2023-01-12 南京邮电大学 一种面向跨模态通信系统的图像重建方法及装置
US11748919B2 (en) 2021-07-09 2023-09-05 Nanjing University Of Posts And Telecommunications Method of image reconstruction for cross-modal communication system and device thereof
CN113628294A (zh) * 2021-07-09 2021-11-09 南京邮电大学 一种面向跨模态通信系统的图像重建方法及装置
CN113628294B (zh) * 2021-07-09 2023-06-20 南京邮电大学 一种面向跨模态通信系统的图像重建方法及装置
CN113657450A (zh) * 2021-07-16 2021-11-16 中国人民解放军陆军炮兵防空兵学院 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN113673349A (zh) * 2021-07-20 2021-11-19 广东技术师范大学 基于反馈机制的图像生成中文文本方法、系统及装置
CN113987119A (zh) * 2021-09-30 2022-01-28 阿里巴巴(中国)有限公司 一种数据检索方法、跨模态数据匹配模型处理方法和装置
CN113946710A (zh) * 2021-10-12 2022-01-18 浙江大学 一种基于多模态与自监督表征学习的视频检索方法
CN113779282B (zh) * 2021-11-11 2022-01-28 南京码极客科技有限公司 基于自注意力和生成对抗网络的细粒度跨媒体检索方法
CN113779282A (zh) * 2021-11-11 2021-12-10 南京码极客科技有限公司 基于自注意力和生成对抗网络的细粒度跨媒体检索方法
WO2024011814A1 (zh) * 2022-07-12 2024-01-18 苏州元脑智能科技有限公司 一种图文互检方法、系统、设备及非易失性可读存储介质
CN115578680A (zh) * 2022-09-09 2023-01-06 北京理工大学 一种视频理解方法
CN115578680B (zh) * 2022-09-09 2023-06-02 北京理工大学 一种视频理解方法
CN117274656A (zh) * 2023-06-06 2023-12-22 天津大学 基于自适应深度监督模块的多模态模型对抗训练方法
CN117274656B (zh) * 2023-06-06 2024-04-05 天津大学 基于自适应深度监督模块的多模态模型对抗训练方法
CN117934978A (zh) * 2024-03-22 2024-04-26 安徽大学 一种基于对抗学习的高光谱和激光雷达多层融合分类方法

Also Published As

Publication number Publication date
CN112905822B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN112905822B (zh) 一种基于注意力机制的深度监督跨模态对抗学习方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110059217B (zh) 一种两级网络的图像文本跨媒体检索方法
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
Qu et al. Joint hierarchical category structure learning and large-scale image classification
CN110309268B (zh) 一种基于概念图的跨语言信息检索方法
Gao et al. Multi‐dimensional data modelling of video image action recognition and motion capture in deep learning framework
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
Wang et al. Deep cascaded cross-modal correlation learning for fine-grained sketch-based image retrieval
CN110647904A (zh) 一种基于无标记数据迁移的跨模态检索方法及系统
CN105701225B (zh) 一种基于统一关联超图规约的跨媒体检索方法
CN108595546B (zh) 基于半监督的跨媒体特征学习检索方法
Fan et al. Structured max-margin learning for inter-related classifier training and multilabel image annotation
CN111598041A (zh) 一种用于物品查找的图像生成文本方法
Zhang et al. Cross-media retrieval with collective deep semantic learning
Wang et al. Norm-guided Adaptive Visual Embedding for Zero-Shot Sketch-Based Image Retrieval.
CN113537304A (zh) 一种基于双向cnn的跨模态语义聚类方法
CN114611491A (zh) 基于文本挖掘技术的智慧政务舆情分析研究方法
CN112182275A (zh) 一种基于多维度特征融合的商标近似检索系统和方法
CN111985548A (zh) 一种标签引导的跨模态深度哈希方法
de Ves et al. Modeling user preferences in content-based image retrieval: A novel attempt to bridge the semantic gap
CN112613451A (zh) 一种跨模态文本图片检索模型的建模方法
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
Tilak et al. Visual entity linking
Wei et al. Content semantic image analysis and storage method based on intelligent computing of machine learning annotation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant