CN114817673A - 一种基于模态关系学习的跨模态检索方法 - Google Patents

一种基于模态关系学习的跨模态检索方法 Download PDF

Info

Publication number
CN114817673A
CN114817673A CN202210389983.7A CN202210389983A CN114817673A CN 114817673 A CN114817673 A CN 114817673A CN 202210389983 A CN202210389983 A CN 202210389983A CN 114817673 A CN114817673 A CN 114817673A
Authority
CN
China
Prior art keywords
image
text
modal
cross
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210389983.7A
Other languages
English (en)
Inventor
曾焕强
王欣唯
朱建清
陈婧
黄德天
温廷羲
郭荣新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202210389983.7A priority Critical patent/CN114817673A/zh
Publication of CN114817673A publication Critical patent/CN114817673A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于模态关系学习的跨模态检索方法,将数据集中相同语义的图像文本对以及所属的类标签输入到基于模态关系学习的跨模态检索网络模型中训练,直至模型收敛,从而获得网络模型M;利用S1中训练得到网络模型M分别提取待查询图像/文本和候选库中每个文本/图像的特征向量,从而计算待查询图像文本与候选库中文本/图像的相似度,根据相似度的大小进行降序排序,并返回相似度最高的检索结果;建立模态间和模态内的双重融合机制进行模态间关系学习,不仅在模态内融合多尺度的特征,还在模态间使用标签的关系信息直接对融合特征进行互补性关系学习,另外,加入模态间的注意力机制进行特征联合嵌入,进一步的提高了跨模态的检索性能。

Description

一种基于模态关系学习的跨模态检索方法
技术领域
本发明涉及多模态学习和信息检索领域,特别是指一种基于模态关系学习的跨模态检索方法。
背景技术
近年来,图像、文本等不同模态数据广泛存在于人们的互联网生活中,传统的单模态检索已不再满足用户日益增长的检索需求,为人们在海量互联网不同模态间数据中检索有用信息带来不便,因此跨模态检索成为重要的研究问题。它旨在不同模态的数据间(图像、文本、语音、视频等)进行检索,如图像检索文本、文本检索音频、音频检索视频等等,跨模态检索在医学数据分析、大数据管理、舆情检测等领域中均有广泛的应用。
模态数据一般具有底层特征异构、高层语义相关的特性,因此,围绕这两个问题跨模态检索的主要任务是:在数据表征不一致的情况下,更好的学习不同模态间的内在关联关系,实现语义关联。现阶段,跨模态的检索在实现更精确地语义关联上依旧面临很大挑战,因此,进行跨模态检索的研究十分必要。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于模态关系学习的跨模态检索方法,通过构建跨模态特有的多模态深度学习网络,建立模态间和模态内的双重融合机制进行模态间关系学习,不仅在模态内融合多尺度的特征,还在模态间使用标签的关系信息直接对融合特征进行互补性关系学习,另外,加入模态间的注意力机制进行特征联合嵌入,使融合的特征保留尽可能多的模态间不变性和模态内判别性,进一步的提高了跨模态的检索性能。
本发明采用如下技术方案:
一种基于模态关系学习的跨模态检索方法,具体地,包括训练过程和检索过程,步骤如下:
训练过程S1:将数据集中相同语义的图像文本对以及所属的类标签输入到基于模态关系学习的跨模态检索网络模型中训练,直至模型收敛,从而获得网络模型M;
检索过程S2:利用S1中训练得到网络模型M分别提取待查询图像/文本和候选库中每个文本/图像的特征向量,从而计算待查询图像文本与候选库中文本/图像的相似度,根据相似度的大小进行降序排序,并返回相似度最高的检索结果。
具体地,训练过程S1的步骤如下:
步骤S11):将不同类别的图像数据vi输入到图像模态特征提取网络中提取图像特征;
步骤S12):将与图像数据vi对应的文本数据ti输入到文本模态特征提取网络中提取文本数据的特征;
步骤S13):将提取的图像特征和文本特征分别输入到带有空洞卷积的空间金字塔池化块和多尺度文本特征块中提取多尺度图像特征ui、多尺度文本特征si
步骤S14):将多尺度图像特征ui、多尺度文本特征si输入到带有跨模态联合注意力机制的融合模块中,注意力机制根据模态间的共同语义信息特征图P生成语义相关性的图像特征向量I和文本特征向量T,经成对融合后生成融合特征向量F;
步骤S15):将融合特征向量F与标签信息进行关系学习,采用误差反向传播算法优化与真实标签关系的损失,得到收敛的基于注意力机制的两个模态上的网络,再更新注意力机制中的共同语义特征图P,得到更新后的共同语义特征图P',用更新后的共同语义特征图P'指导更新跨模态检索网络,进行迭代,获得基于模态关系学习的跨模态检索模型M。
具体地,所述图像特征提取网络由16个卷积层、4个池化层、1个全连接层组成,其中全连接层隐藏单元数量为提取得到的图像特征的维数。
具体地,所述文本特征提取网络采用的是一个三层全连接的多层感知模型,其中,第一全连接层的隐含神经元个数为8192,第二全连接层的隐含神经元个数为4096,第三全连接层的隐含神经元个数为提取的文本特征的维数。
具体地,所述带有空洞卷积的空间金字塔池化块和多尺度文本特征提取块,具体为:
在图像模态中,带有空洞卷积的空间金字塔池化块包含三部分;
第一部分:以一个全局平均池化层得到图像的全局特征,再进行1×1卷积并使用双线性插值的方法调整到原始输入特征图大小;
第二部分:多尺度部分,创建一个1×1卷积以及3个3×3的卷积,每个卷积的学习速率值设置的不同;
第三部分:连接部分,通过将5个不同尺度的特征在通道维度连接,使用1×1卷积进行融合多尺度特征的输出,输出具有多尺度的图像特征,再使用多个全连接层映射到图像空间中进行图像语义特征的表示,并进行融合;
在文本模态,多尺度文本特征提取块为多级平均池化层,设定5个池化尺度,并添加1×1的卷积层,使用联接操作后输入到多层的全连接层中,输出文本模态的具有多尺度的特征表示。
具体地,将多尺度图像特征ui、多尺度文本特征si输入到带有跨模态联合注意力机制的融合模块中,注意力机制根据模态间的共同语义信息特征图P生成语义相关性的图像特征向量I和文本特征向量T,经成对融合后生成融合特征向量F,具体为:
跨模态联合注意力机制根据融合模态在标签空间的距离为表示的各特征项分配权重;
注意力机制的输出具体表示如下:
Figure BDA0003596435320000031
Figure BDA0003596435320000032
其中,Mc是第c个标签的嵌入特征,C为标签数目,,Q是遮掩部分的总和,σ指sigmoid激活函数,联合特征
Figure BDA0003596435320000033
如下:
Figure BDA0003596435320000034
其中,λ是控制遮掩部分特征效果的参数;x,y分别表示图像和文本模态;
经成对融合后生成融合特征向量F,具体为:
F=g(I,T);
其中g()表示融合函数。
具体地,将融合特征向量F与标签信息进行关系学习,采用误差反向传播算法优化与真实标签关系的损失,得到收敛的基于注意力机制的两个模态上的网络,再更新注意力机制中的共同语义特征图P,得到更新后的共同语义特征图P',用更新后的共同语义特征图P'指导更新跨模态检索网络,进行迭代,获得基于模态关系学习的跨模态检索模型M,具体为:
利用标签信息定义一个真实关系空间,表示为:
Figure BDA0003596435320000035
其中,S为关系空间矩阵,
Figure BDA0003596435320000036
为第p个图像和第q个文本的标签信息,i为图像类别,t为文本类别,将类内关系定义为1,类间关系定义为0;
建立关系学习的表达式如下:
R=h(X,Y)
其中,将关系学习的处理转换表示为非线性函数h(·,·);
损失函数定义为:
Figure BDA0003596435320000041
其中,||·||F为Frobenius距离。
具体地,检索过程S2的步骤如下:
利用得到的基础网络模型M,在图像检索文本任务中,分别提取待查询图像的特征向量以及候选库中每个文本的特征向量;
通过余弦距离计算待查询图像的特征向量与候选库中每个文本的特征向量之间的相似度;
根据所得到的相似度大小进行降序排序,并返回相似度最高的检索结果。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明提供的一种基于模态关系学习的跨模态检索方法,通过建立模态内和模态间的双重融合机制,在模态间,利用语义空间标签关系信息对模态间融合模态的特征进行关系结构的学习,保留了更多的模态间相似性;在模态内针对不同的模态,设计提取模态特定多尺度的网络架构,可有效得到更好的融合特征用于学习模态间的直接关系信息,并结合联合嵌入的注意力机制,使融合的特征保留尽可能多的模态间不变性和模态内判别性。如此构建的网络,使得训练得到的基于模态关系学习的跨模态检索模型具有良好的图文互相检索性能;在检索过程中利用训练得到的网络模型M对待查询图像(文本)和候选库中的文本(图像)进行特征提取以及距离计算,从而获取待查询图像(文本)与候选库中的文本(图像)数据之间的相似度较高者,实现跨模态检索,极大提升了在图像-文本上的检索精度。
附图说明
图1为本发明实施例提供的一种基于模态关系学习的跨模态检索方法流程图;
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
本发明提出一种基于模态关系学习的跨模态检索方法,通过构建跨模态特有的多模态深度学习网络,建立模态间和模态内的双重融合机制进行模态间关系学习,不仅在模态内融合多尺度的特征,还在模态间使用标签的关系信息直接对融合特征进行互补性关系学习,另外,加入模态间的注意力机制进行特征联合嵌入,使融合的特征保留尽可能多的模态间不变性和模态内判别性,进一步的提高了跨模态的检索性能。
参见图1所示,本发明一种基于模态关系学习的跨模态检索方法,该模型包含训练过程和检索过程,具体的,
训练过程S1的步骤如下:
步骤S11):将不同类别的图像数据vi输入到图像模态特征提取网络中提取图像的特征;
步骤S12):将S11)中与之对应的文本数据ti输入到文本模态特征提取网络中提取文本数据的特征;
步骤S13):将S11)S12)中提取的图像、文本特征分别输入到带有空洞卷积的空间金字塔池化块和多尺度文本特征块中提取多尺度图像特征ui、多尺度文本特征vi
步骤S14):将S13)中提取的图像、文本特征输入到带有跨模态联合注意力机制的融合模块中,注意力机制根据模态间的共同语义信息特征图P生成保留更多语义相关性的图像特征I和文本特征T,经成对融合后生成融合特征F;
步骤S15):将S14)中得到的融合特征向量F与标签信息进行关系学习,采用误差反向传播算法先优化与真实标签关系的损失,得到收敛的基于注意力机制的两个模态上的网络,之后更新注意力机制中的共同语义特征图P,得到更新后的共同语义特征图P',用更新后的共同语义特征图P'去指导更新图像文本网络,进行迭代形成基于模态关系学习的跨模态检索网络模型M。
检索S2的步骤如下:
步骤S21):利用S1中训练得到的基础网络模型M,在图像检索文本任务中,分别提取待查询图像的特征向量以及候选库中每个文本的特征向量;
步骤S22):通过余弦距离
Figure BDA0003596435320000051
计算待查询图像的特征向量与候选库中每个文本的特征向量之间的相似度,ui,vj分别代表查询图像(文本)i的特征表示以及候选库中第j个文本(图像)的特征表示,<·>表示内积计算;
步骤S23):根据所得到的相似度大小进行降序排序,并返回相似度最高的检索结果。
进一步的,步骤S11)中,为了适应提出的想法原理,图像特征提取网络由16个卷积层、4个池化层、1个全连接层组成,其中最后一层全连接层隐藏单元数量为d,即提取得到的特征的维数;
进一步的,步骤S12)中,文本特征提取网络采用的是一个三层全连接的多层感知机模型。整体为T→8192→4096→N,T表示文本网络输入层,8192和4096分别表示前两个全连接的层的隐含神经元个数,N表示要提取的文本特征的维数;
进一步的,步骤S13)中,图像、文本多尺度特征提取网络设计为带有空洞卷积的空间金字塔池化块和多尺度文本特征提取块;
在图像模态中,设计的带有空洞卷积的空间金字塔池化模型主要包含三部分,第一部分:先以一个全局平均池化层得到图像的全局特征,之后进行1×1卷积并使用双线性插值的方法调整到原始输入特征图大小;第二部分:主要体现多尺度的部分,主要是设计一个1×1卷积以及3个3×3的卷积实现,不同的是,每个卷积的rate值设置的不同,根据实际情况设计为6、12以及18;第三部分:连接部分,通过将5个不同尺度的特征在通道维度连接之后,使用1×1卷积进行融合多尺度特征的输出,则输出后的特征是不改变特征大小的具有多尺度的图像特征,之后此算法使用多个全连接层映射到图像空间中进行高级图像语义特征的表示,这些表示将经过融合后用于学习模态间语义互补性。
在文本模态,设计的多尺度文本特征提取块本质是多级平均池化层,此网络设定5个池化尺度,分别是1、2、3、6、10的尺寸用来帮助文本信息建立多尺度信息模型,同时,还兼顾了一定的文本模态内词语的上下文相关性。在其之后添加1×1的卷积层降低通道数量,最后调整大小以及使用联接操作后输入到多层的全连接层中,输出文本模态的具有多尺度的特征表示,以便于之后的模态间的关系相似度的度量。
进一步的,步骤S14)中,跨模态联合注意力机制根据融合模态在标签空间的距离为表示的各特征项分配权重;在注意力机制中,语义特征图P可表示为语义标签的嵌入矩阵,图像模态和文本模态具有相同的语义特征图;由于特征向量的长度各不相同,并且特征表示和Q之间的值范围不一致,为了解决这个问题,通过L2归一化对输出进行预处理,将距离限制为[-1,1]进行有效的距离比较;注意力机制的输出是在Q上通过权重平均的两个模态的联合特征
Figure BDA0003596435320000061
得到过程可表示如下:
Figure BDA0003596435320000062
Figure BDA0003596435320000063
其中,Mc∈R1×d是第c个标签的嵌入特征,Q是遮掩部分(mask)的总和,σ指sigmoid激活函数;之后便可以得到联合特征
Figure BDA0003596435320000064
如下:
Figure BDA0003596435320000065
其中,λ是控制mask特征效果的参数,x,y分别表示图像和文本模态;为了跨越模态间的差异,融合机制输出的融合特征会利用语义空间中标签的关系信息学习模态间的语义相似以及互补的关系。融合主要是进行两个模态成对样本间的融合,则此融合机制输出为:
F=g(I,T)
其中
Figure BDA0003596435320000071
F={fpq|p=1,...,ni;q=1,...,nt},g()表示常见的级联、乘积和相加等融合函数。
进一步的,步骤S15)中,首先将融合机制输出的融合特征F映射到标签信息构建的语义空间进行关系学习;
具体地,对融合特征的关系计算通过基于DNN方式训练的关系网络计算,则模态间的成对样本相似度可表示为:
rpq=t(vpq;Θr)
其中,vpq是成对的图像文本<xp,yq>的融合特征表示,Θr是关系网络的参数,具体的,在此方法中设置关系网络的神经元结构为600→1024→1。
本发明需要的是使模态融合的特征学习到接近真实语义标签的关系矩阵,从而达到通过关系紧密两个模态相似样本,放大不相似样本距离的目的,因此本发明建立关系学习的表达式如下:
R=h(X,Y)
在此公式中,将转换为关系学习的处理表示为非线性函数h(·,·),以学习到的关系对两个模态进行约束,则关系相近即相似度较高的将会受到关系矩阵较强的约束,从而拉近两个模态之间的距离。
同时,本发明依据纯净的标签信息定义一个先验的真实关系空间,可表示为:
Figure BDA0003596435320000072
其中,
Figure BDA0003596435320000073
为第p个图像和第q个文本的标签信息,i为图像类别,t为文本类别,将类内关系定义为1,类间关系定义为0。
本发明需要根据真实的语义关系监督模态融合特征的关系学习,使预测的关系矩阵无限接近于真实语义关系,可以将此方法的损失函数定义为:
Figure BDA0003596435320000074
在此公式中,||·||F为Frobenius距离。之后,采用误差反向传播算法先优化与真实标签关系的损失L,更新注意力机制中的共同语义特征图P,得到更新后的共同语义特征图P',用更新后的共同语义特征图P更新图像文本网络参数,进行迭代形成基于模态关系学习的跨模态检索网络模型M。
本发明提供的一种基于模态关系学习的跨模态检索方法,通过建立模态内和模态间的双重融合机制,在模态间,利用语义空间标签关系信息对模态间融合模态的特征进行关系结构的学习,保留了更多的模态间相似性;在模态内针对不同的模态,设计提取模态特定多尺度的网络架构,可有效得到更好的融合特征用于学习模态间的直接关系信息,并结合联合嵌入的注意力机制,使融合的特征保留尽可能多的模态间不变性和模态内判别性。如此构建的网络,使得训练得到的基于模态关系学习的跨模态检索模型具有良好的图文互相检索性能;在检索过程中利用训练得到的网络模型M对待查询图像(文本)和候选库中的文本(图像)进行特征提取以及距离计算,从而获取待查询图像(文本)与候选库中的文本(图像)数据之间的相似度较高者,实现跨模态检索,极大提升了在图像-文本上的检索精度。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (8)

1.一种基于模态关系学习的跨模态检索方法,其特征在于,包括训练过程和检索过程,步骤如下:
训练过程S1:将数据集中相同语义的图像文本对以及所属的类标签输入到基于模态关系学习的跨模态检索网络模型中训练,直至模型收敛,从而获得网络模型M;
检索过程S2:利用S1中训练得到网络模型M分别提取待查询图像/文本和候选库中每个文本/图像的特征向量,从而计算待查询图像文本与候选库中文本/图像的相似度,根据相似度的大小进行降序排序,并返回相似度最高的检索结果。
2.根据权利要求1所述的一种基于模态关系学习的跨模态检索方法,其特征在于,训练过程S1的步骤如下:
步骤S11):将不同类别的图像数据vi输入到图像模态特征提取网络中提取图像特征;
步骤S12):将与图像数据vi对应的文本数据ti输入到文本模态特征提取网络中提取文本数据的特征;
步骤S13):将提取的图像特征和文本特征分别输入到带有空洞卷积的空间金字塔池化块和多尺度文本特征块中提取多尺度图像特征ui、多尺度文本特征si
步骤S14):将多尺度图像特征ui、多尺度文本特征si输入到带有跨模态联合注意力机制的融合模块中,注意力机制根据模态间的共同语义信息特征图P生成语义相关性的图像特征向量I和文本特征向量T,经成对融合后生成融合特征向量F;
步骤S15):将融合特征向量F与标签信息进行关系学习,采用误差反向传播算法优化与真实标签关系的损失,得到收敛的基于注意力机制的两个模态上的网络,再更新注意力机制中的共同语义特征图P,得到更新后的共同语义特征图P',用更新后的共同语义特征图P'指导更新跨模态检索网络,进行迭代,获得基于模态关系学习的跨模态检索模型M。
3.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法,其特征在于,所述图像特征提取网络由16个卷积层、4个池化层、1个全连接层组成,其中全连接层隐藏单元数量为提取得到的图像特征的维数。
4.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法,其特征在于,所述文本特征提取网络采用的是一个三层全连接的多层感知模型,其中,第一全连接层的隐含神经元个数为8192,第二全连接层的隐含神经元个数为4096,第三全连接层的隐含神经元个数为提取的文本特征的维数。
5.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法,其特征在于,所述带有空洞卷积的空间金字塔池化块和多尺度文本特征提取块,具体为:
在图像模态中,带有空洞卷积的空间金字塔池化块包含三部分;
第一部分:以一个全局平均池化层得到图像的全局特征,再进行1×1卷积并使用双线性插值的方法调整到原始输入特征图大小;
第二部分:多尺度部分,创建一个1×1卷积以及3个3×3的卷积,每个卷积的学习速率值设置的不同;
第三部分:连接部分,通过将5个不同尺度的特征在通道维度连接,使用1×1卷积进行融合多尺度特征的输出,输出具有多尺度的图像特征,再使用多个全连接层映射到图像空间中进行图像语义特征的表示,并进行融合;
在文本模态,多尺度文本特征提取块为多级平均池化层,设定5个池化尺度,并添加1×1的卷积层,使用联接操作后输入到多层的全连接层中,输出文本模态的具有多尺度的特征表示。
6.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法,其特征在于,将多尺度图像特征ui、多尺度文本特征si输入到带有跨模态联合注意力机制的融合模块中,注意力机制根据模态间的共同语义信息特征图P生成语义相关性的图像特征向量I和文本特征向量T,经成对融合后生成融合特征向量F,具体为:
跨模态联合注意力机制根据融合模态在标签空间的距离为表示的各特征项分配权重;
注意力机制的输出具体表示如下:
Figure FDA0003596435310000021
Figure FDA0003596435310000022
其中,Mc是第c个标签的嵌入特征,C为标签数目,Q是遮掩部分的总和,σ指sigmoid激活函数,联合特征
Figure FDA0003596435310000023
如下:
Figure FDA0003596435310000024
其中,λ是控制遮掩部分特征效果的参数;x,y分别表示图像和文本模态;
经成对融合后生成融合特征向量F,具体为:
F=g(I,T);
其中g()表示融合函数。
7.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法,其特征在于,将融合特征向量F与标签信息进行关系学习,采用误差反向传播算法优化与真实标签关系的损失,得到收敛的基于注意力机制的两个模态上的网络,再更新注意力机制中的共同语义特征图P,得到更新后的共同语义特征图P',用更新后的共同语义特征图P'指导更新跨模态检索网络,进行迭代,获得基于模态关系学习的跨模态检索模型M,具体为:
利用标签信息定义一个真实关系空间,表示为:
Figure FDA0003596435310000031
其中,S为关系空间矩阵,
Figure FDA0003596435310000032
为第p个图像和第q个文本的标签信息,i为图像类别,t为文本类别,将类内关系定义为1,类间关系定义为0;
建立关系学习的表达式如下:
R=h(X,Y)
其中,将关系学习的处理转换表示为非线性函数h(·,·);
损失函数定义为:
Figure FDA0003596435310000033
其中,||·||F为Frobenius距离。
8.根据权利要求1所述的一种基于模态关系学习的跨模态检索方法,其特征在于,检索过程S2的步骤如下:
利用得到的基础网络模型M,在图像检索文本任务中,分别提取待查询图像的特征向量以及候选库中每个文本的特征向量;
通过余弦距离计算待查询图像的特征向量与候选库中每个文本的特征向量之间的相似度;
根据所得到的相似度大小进行降序排序,并返回相似度最高的检索结果。
CN202210389983.7A 2022-04-14 2022-04-14 一种基于模态关系学习的跨模态检索方法 Withdrawn CN114817673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210389983.7A CN114817673A (zh) 2022-04-14 2022-04-14 一种基于模态关系学习的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210389983.7A CN114817673A (zh) 2022-04-14 2022-04-14 一种基于模态关系学习的跨模态检索方法

Publications (1)

Publication Number Publication Date
CN114817673A true CN114817673A (zh) 2022-07-29

Family

ID=82536559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210389983.7A Withdrawn CN114817673A (zh) 2022-04-14 2022-04-14 一种基于模态关系学习的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN114817673A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115171838A (zh) * 2022-08-24 2022-10-11 中南大学 基于跨模态融合的医学报告生成模型的训练方法
CN115292533A (zh) * 2022-08-17 2022-11-04 苏州大学 视觉定位驱动的跨模态行人检索方法
CN115858847A (zh) * 2023-02-22 2023-03-28 成都考拉悠然科技有限公司 基于跨模态注意力保留的组合式查询图像检索方法
CN116484878A (zh) * 2023-06-21 2023-07-25 国网智能电网研究院有限公司 电力异质数据的语义关联方法、装置、设备及存储介质
CN117274619A (zh) * 2023-11-21 2023-12-22 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于风格融合对比学习的跨域目标识别方法
WO2024072749A1 (en) * 2022-09-27 2024-04-04 Google Llc Retrieval augmented text-to-image generation

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292533A (zh) * 2022-08-17 2022-11-04 苏州大学 视觉定位驱动的跨模态行人检索方法
CN115292533B (zh) * 2022-08-17 2023-06-27 苏州大学 视觉定位驱动的跨模态行人检索方法
CN115171838A (zh) * 2022-08-24 2022-10-11 中南大学 基于跨模态融合的医学报告生成模型的训练方法
CN115171838B (zh) * 2022-08-24 2023-04-07 中南大学 基于跨模态融合的医学报告生成模型的训练方法
WO2024072749A1 (en) * 2022-09-27 2024-04-04 Google Llc Retrieval augmented text-to-image generation
CN115858847A (zh) * 2023-02-22 2023-03-28 成都考拉悠然科技有限公司 基于跨模态注意力保留的组合式查询图像检索方法
CN116484878A (zh) * 2023-06-21 2023-07-25 国网智能电网研究院有限公司 电力异质数据的语义关联方法、装置、设备及存储介质
CN116484878B (zh) * 2023-06-21 2023-09-08 国网智能电网研究院有限公司 电力异质数据的语义关联方法、装置、设备及存储介质
CN117274619A (zh) * 2023-11-21 2023-12-22 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于风格融合对比学习的跨域目标识别方法
CN117274619B (zh) * 2023-11-21 2024-02-09 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于风格融合对比学习的跨域目标识别方法

Similar Documents

Publication Publication Date Title
CN112966127B (zh) 一种基于多层语义对齐的跨模态检索方法
CN110059217B (zh) 一种两级网络的图像文本跨媒体检索方法
CN114817673A (zh) 一种基于模态关系学习的跨模态检索方法
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
Cao et al. Deep visual-semantic hashing for cross-modal retrieval
CN112905822B (zh) 一种基于注意力机制的深度监督跨模态对抗学习方法
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN110362660A (zh) 一种基于知识图谱的电子产品质量自动检测方法
Guo et al. Jointly learning of visual and auditory: A new approach for RS image and audio cross-modal retrieval
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
CN110298395B (zh) 一种基于三模态对抗网络的图文匹配方法
Ji et al. Manifold regularized cross-modal embedding for zero-shot learning
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
CN112015868A (zh) 基于知识图谱补全的问答方法
CN109271486A (zh) 一种相似性保留跨模态哈希检索方法
CN108595546B (zh) 基于半监督的跨媒体特征学习检索方法
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN115221325A (zh) 一种基于标签语义学习和注意力调整机制的文本分类方法
CN113806554B (zh) 面向海量会议文本的知识图谱构建方法
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
Zhang et al. Cross-media retrieval with collective deep semantic learning
CN112115253A (zh) 基于多视角注意力机制的深度文本排序方法
Pan et al. Multimodal emotion recognition based on feature selection and extreme learning machine in video clips
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220729

WW01 Invention patent application withdrawn after publication