CN115080699A - 基于模态特异自适应缩放与注意力网络的跨模态检索方法 - Google Patents

基于模态特异自适应缩放与注意力网络的跨模态检索方法 Download PDF

Info

Publication number
CN115080699A
CN115080699A CN202210787446.8A CN202210787446A CN115080699A CN 115080699 A CN115080699 A CN 115080699A CN 202210787446 A CN202210787446 A CN 202210787446A CN 115080699 A CN115080699 A CN 115080699A
Authority
CN
China
Prior art keywords
modal
embedding
modality
network
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210787446.8A
Other languages
English (en)
Inventor
柯逍
陈柏涛
蔡宇航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202210787446.8A priority Critical patent/CN115080699A/zh
Publication of CN115080699A publication Critical patent/CN115080699A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于模态特异自适应缩放与注意力网络的跨模态检索方法。首先对图像模态采用带残差空间缩减的Transformer编码器,对文本模态采用单词级特征注意力模块,分别进行模态不变特征的提取。然后使用模态嵌入级特征注意力模块进行模态干扰特征的过滤。接着采用融合先验知识的自适应缩放网络将特征映射到一个多模态公共子空间进行模态公共特征学习。最后利用表现最好的网络权重计算新的待查询、待检索数据的多模态公共子空间特征,进行类别级重排序,返回最终的跨模态数据检索。本发明能够有效的对多模态数据进行建模,高效准确地完成多模态场景下的跨模态检索任务。

Description

基于模态特异自适应缩放与注意力网络的跨模态检索方法
技术领域
本发明涉及模式识别、计算机视觉、自然语言处理领域,特别涉及一种基于模态特异自适应缩放与注意力网络的跨模态检索方法。
背景技术
在过去的几十年间,随着计算机技术特别是数据存储技术与网络传输技术飞速发展,互联网上数据总量呈现爆发式增长,文本、音频、图像、视频、3D模型……越来越多的数据形式成为互联网信息交流的载体。单模态检索任务,如文本检索、图像检索等,专注于在单一模态内查询想要的结果,无法跨模态关系进行建模。不同模态数据的数据分布与特征表示存在巨大差异,为数据的检索带来巨大挑战。
发明内容
本发明的目的在于提供一种基于模态特异自适应缩放与注意力网络的跨模态检索方法,能够有效的对多模态数据进行建模,高效准确地完成多模态场景下的跨模态检索任务。
为实现上述目的,本发明的技术方案是:一种基于模态特异自适应缩放与注意力网络的跨模态检索方法,包括如下步骤:
步骤S1、对图像模态采用带残差空间缩减的Transformer编码器,对文本模态采用单词级特征注意力模块,分别进行模态不变特征的提取;
步骤S2、对使用步骤S1得到的模态不变特征采用结构相同但参数独立的模态嵌入级特征注意力模块进行模态干扰特征的过滤;
步骤S3、采用融合先验知识的自适应缩放网络将由步骤S2得到的特征映射到一个多模态公共子空间进行模态公共特征学习;
步骤S4、遵循步骤S1、S2、S3进行神经网络的训练,保留表现最好的网络权重;利用该组网络权重计算新的待查询、待检索数据的多模态公共子空间特征,进行跨模态数据检索。
相较于现有技术,本发明具有以下有益效果:
1、本发明基于对多模态信息密度差异的评价提出一种融合先验知识的模态特异网络自适应缩放方法,极大程度上减缓了多模态任务中由于信息密度差异造成的模态拟合速率差异导致的模态间统一拟合的问题。
2、本发明针对预训练模型中存在的干扰特征,提出模态嵌入级特征注意力模块指导知识在预训练源域与目标域之间的迁移,使得神经网络既能继承预训练模型提供的良好初始化状态,又能免受干扰特征的危害。
3、本发明构造单词级特征注意力模块通过注意力机制进行词语义的高效融合,解决了跨模态检索任务文本语义的高效融合问题。
4、基于Transformer结构的模态不变特征提取方法能够充分捕获模态内部相关性,构建高质量的模态潜表示空间与多模态公共子空间,为不同模态塑造高度相似的特征分布,从而实现更好的跨模态检索性能,突破多模态任务的性能瓶颈。
附图说明
图1为本发明的原理示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,一种基于模态特异自适应缩放与注意力网络的跨模态检索方法,包括以下步骤;
步骤S1、对图像模态采用带残差空间缩减的Transformer编码器,对文本模态采用单词级特征注意力模块,分别进行模态不变特征的提取。
步骤S2、对使用步骤S1得到的模态不变特征采用结构相同但参数独立的模态嵌入级特征注意力模块进行模态干扰特征的过滤。
步骤S3、采用融合先验知识的自适应缩放网络将由步骤S2得到的特征映射到一个多模态公共子空间进行模态公共特征学习。
步骤S4、遵循步骤S1、S2、S3进行神经网络的训练,保留表现最好的网络权重。利用该组权重计算新的待查询、待检索数据的多模态公共子空间特征,进行跨模态数据检索。
所述步骤S1包括以下步骤;
步骤S11、对于图像模态,按照4行4列均匀地将输入的图片切分成N=16张子图,每张子图的长宽均为原图的1/4。采用卷积操作提取每个子图的块嵌入x0,x1...,xN-1,并额外加上一个可学习的块嵌入xextra。按照公式(1-1)和公式(1-2)为每个块嵌入加上位置嵌入:
Figure BDA0003728401770000021
Figure BDA0003728401770000031
其中pos是块的位置,dim_i表示位置嵌入的第dim_i个维度,d是块嵌入的维度为256。
将每个长度为256的块嵌入x0,x1...,xN-1缩放为16×16的特征图,并将所有块嵌入在通道维度进行叠加,得到一个N×16×16的多通道特征图。利用一个层归一化和N/2个5×5的卷积核扩大特征图,降低一半通道数。同时通过一个平均池化和零填充额外加上一个残差连接。再按照通道进行切分,将每个通道的特征图重新映射为新的块嵌入。由于序列长度发生了改变,为新的块嵌入重新计算并添加位置嵌入来更新相对位置信息得到经过残差空间缩减的块嵌入x′0,x′1...,x′N憠1
z0=[xextra;x′0WP;x′1WP;...;x′N-1WP]+epos (1-3)
z′l=MHA(LN(zl-1))+zl-1,l=1...L (1-4)
zl=MLP(LN(z′l))+z′l,l=1...L (1-5)
Figure BDA0003728401770000032
按照公式(1-3)至公式(1-6)计算图像模态表示。其中,z0,z′l,zl是临时变量,L表示图像分块个数,l表示第l个分块,WP表示可学习的参数矩阵,xextra是额外加入的可学习嵌入,它对应的输出
Figure BDA0003728401770000033
经过一个MLP运算后得到的结果
Figure BDA0003728401770000034
被作为图像模态的表示zimg。epos表示加入的一维位置嵌入。LN表示层归一化。MHA表示多头注意力,它对输入数据进行多个自注意操作。MLP代表多层感知机,包含一个线性投影,GeLU激活函数,然后是另一个线性投影。在模型中,使用一个额外的MLP头来获得首个嵌入对应的输出作为图像模态的表示。
步骤S12、对于文本模态,单词级特征注意力模块先使用Word2Vec方法,将文本描述的每个单词转化成一个300维的词嵌入,然后对所有词嵌入采用一个共享权重的权重生成单元,包括一个全连接层FC、一个ReLU激活函数、一个平均池化层AvgPooling和一个Sigmoid层。权重生成单元为每个单嵌入生成一个权重,进行加权平均得到文本模态的表示。具体来说,遵循以下公式:
Figure BDA0003728401770000035
Figure BDA0003728401770000036
Figure BDA0003728401770000037
Figure BDA0003728401770000041
Figure BDA0003728401770000042
表示第n_i条文本数据的第n_j个单词对应的词嵌入,
Figure BDA0003728401770000043
是300维的临时变量,
Figure BDA0003728401770000044
是数值型的临时变量,
Figure BDA0003728401770000045
是权重向量,(en_i)′是词嵌入融合之后的文本表示。
所述步骤S2包括以下步骤;
步骤S21、针对图像模态的特征,采用分别由线性层1、激活函数、线性层2,NegSig函数(如公式(2-1)所示,其中Euler表示欧拉数,约等于2.71828)构成的模态嵌入级特征注意力模块捕获干扰特征的位置。为简单起见,两个线性层的维度和输入特征的维度保持一致。x表示第二个线性层的输出。将NegSig函数的输出与原始的特征输入进行点积运算,得到负值的干扰特征。再通过一个残差连接,与原始输入特征相加,屏蔽原始输入特征中的干扰。
Figure BDA0003728401770000046
步骤S22、针对文本模态单词级特征注意力模块的输出采取与步骤S21相似的操作,不同的是使用的模块参数独立。
所述步骤S3包括以下步骤;
步骤S31、每次训练开始前,使用一个简单的预分类网络(如MLP)对利用预训练骨干网络提取的各模态特征进行初始化的分类,分类准确率accmodal_i表示为第modal_i个模态的预分类准确率。记矩阵A=(acc1 … accm),其中,m为模态的数量。模态特异缩放因子smodal_i如下列公式所示:
Figure BDA0003728401770000047
其中,θ为训练过程中可学习的m维向量。初始化时,可结合“越复杂的任务需要越大的网络,越简单的任务需要越小的网络这一共识”这一人工先验,将该函数初始化为定义域[0,1]之间非负单调递减的随机函数。将模态特异缩放因子smodal_i作为自适应缩放编码器与解码器的缩放因子。
步骤S32、如公式(3-2)所示,训练过程中最小化第modal_i个模态的缩放损失
Figure BDA0003728401770000049
其中acc(包括第modal_i个模态的分类准确率accmodal_i和第modal_j个模态的分类准确率accmodal_j)是辅助分类器的分类精度,m为模态的数量:
Figure BDA0003728401770000048
步骤S33、按照以下公式进行参数smodal_i的更新:
Figure BDA0003728401770000051
Figure BDA0003728401770000052
其中,smodal_i′是smodal_i更新之后的值,lr为学习率。要注意的是,acc会随着网络的训练发生变化,我们仅在更新smodal_i时使用acc,而不对acc进行更新。
所述步骤S4包括以下步骤;
步骤S41、在训练过程中,第modal_i个模态的损失函数为:
Figure BDA0003728401770000053
其中,
Figure BDA0003728401770000054
是第modal_i个模态的监督损失,
Figure BDA0003728401770000055
是第modal_i个模态的重构损失。λ是监督损失和重构损失之间权衡的平衡参数,λ是一个权衡因子。
遵循步骤S1、S2、S3进行神经网路的训练,使用梯度下降算法在训练过程中最小化损失函数Lmodal_i,每次训练结束后,依据分类结果更新矩阵A,根据公式(3-2)计算自适应缩放损失,根据公式(3-3)和公式(3-4)更新smodal_i。将训练的最大迭代次数itermax作为终止条件。
步骤S42:选取在验证集上所有结果平均精度mAP@ALL最高的模型,丢弃解码器部分的网络权重。用该模型为所有待查询与待检索数据计算公共子空间嵌入,用余弦距离进行相似度计算,按照降序排序。
步骤S43:对每一项输入数据的检索结果进行类别级重排序。以输入数据为图像为例,依次将检索出的Ktxt条文本数据作为输入数据反向检索图像。第k条文本的反向检索结果记为一个二进制串
Figure BDA0003728401770000056
其中,匹配标签
Figure BDA0003728401770000057
如果反向检索的结果与输入的图像查询属于同一类别,则匹配标签的值为1,否则为0(匹配标签可能有多个为1)。将所有文本的反向检索二进制结果
Figure BDA0003728401770000058
转为十进制数值
Figure BDA0003728401770000059
依据该值对文本数据进行降序排序。倘若数值一样,则原先排名靠前的文本优先。对于输入数据为文本的情况,采取同样的操作。最终返回类别级重排序后的检索结果。
特别的,本发明基于对多模态信息密度差异的评价提出一种融合先验知识的模态特异网络自适应缩放方法,极大程度上减缓了多模态任务中由于信息密度差异造成的模态拟合速率差异导致的模态间统一拟合的问题。本发明针对预训练模型中存在的干扰特征,提出模态嵌入级特征注意力模块指导知识在预训练源域与目标域之间的迁移,使得神经网络既能继承预训练模型提供的良好初始化状态,又能免受干扰特征的危害。本发明构造单词级特征注意力模块通过注意力机制进行词语义的高效融合,解决了跨模态检索任务文本语义的高效融合问题。基于Transformer结构的模态不变特征提取方法能够充分捕获模态内部相关性,构建高质量的模态潜表示空间与多模态公共子空间,为不同模态塑造高度相似的特征分布,从而实现更好的跨模态检索性能,突破多模态任务的性能瓶颈。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (5)

1.一种基于模态特异自适应缩放与注意力网络的跨模态检索方法,其特征在于,包括如下步骤:
步骤S1、对图像模态采用带残差空间缩减的Transformer编码器,对文本模态采用单词级特征注意力模块,分别进行模态不变特征的提取;
步骤S2、对使用步骤S1得到的模态不变特征采用结构相同但参数独立的模态嵌入级特征注意力模块进行模态干扰特征的过滤;
步骤S3、采用融合先验知识的自适应缩放网络将由步骤S2得到的特征映射到一个多模态公共子空间进行模态公共特征学习;
步骤S4、遵循步骤S1、S2、S3进行神经网络的训练,保留表现最好的网络权重;利用该组网络权重计算新的待查询、待检索数据的多模态公共子空间特征,进行跨模态数据检索。
2.根据权利要求1所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法,其特征在于,所述步骤S1具体实现如下:
步骤S11、对于图像模态,按照4行4列均匀地将输入的图片切分成N=16张子图,每张子图的长宽均为原图的1/4;采用卷积操作提取每个子图的块嵌入x0,x1...,xN-1,并额外加上一个可学习的块嵌入xextra;按照公式(1-1)和公式(1-2)为每个块嵌入加上位置嵌入:
Figure FDA0003728401760000011
Figure FDA0003728401760000012
其中pos是块的位置,dim_i表示位置嵌入的第dim_i个维度,d是块嵌入的维度为256;
将每个长度为256的块嵌入x0,x1...,xN-1缩放为16×16的特征图,并将所有块嵌入在通道维度进行叠加,得到一个N×16×16的多通道特征图;利用一个层归一化和N/2个5×5的卷积核扩大特征图,降低一半通道数;同时通过一个平均池化和零填充额外加上一个残差连接;再按照通道进行切分,将每个通道的特征图重新映射为新的块嵌入;由于序列长度发生改变,为新的块嵌入重新计算并添加位置嵌入来更新相对位置信息得到经过残差空间缩减的块嵌入x′0,x′1...,x′N-1;按照公式(1-3)至公式(1-6)计算图像模态表示:
z0=[xextra;x′0WP;x′1WP;...;x′N-1WP]+epos (1-3)
z′l=MHA(LN(zl-1))+zl-1,l=1...L (1-4)
zl=MLP(LN(z′l))+z′l,l=1...L (1-5)
Figure FDA0003728401760000013
其中,z0,z′l,zl是临时变量,L表示图像分块总个数,l表示第l个分块,WP表示可学习的参数矩阵,xextra是额外加入的可学习的块嵌入,它对应的输出
Figure FDA0003728401760000021
经过一个MLP运算后得到的结果
Figure FDA0003728401760000022
被作为图像模态的表示zimg;epos表示加入的一维位置嵌入;LN表示层归一化;MHA表示多头注意力,它对输入数据进行多个自注意操作;MLP代表多层感知机,包含线性投影1、GeLU激活函数、线性投影2;在模型中,使用一个额外的MLP头来获得首个块嵌入对应的输出作为图像模态的表示;
步骤S12、对于文本模态,单词级特征注意力模块先使用Word2Vec方法,将文本描述的每个单词转化成一个300维的词嵌入,然后对所有词嵌入采用一个共享权重的权重生成单元,包括一个全连接层FC、一个ReLU激活函数、一个平均池化层AvgPooling和一个Sigmoid层;权重生成单元为每个词嵌入生成一个权重,进行加权平均得到文本模态的表示;具体来说,遵循以下公式
Figure FDA0003728401760000023
Figure FDA0003728401760000024
Figure FDA0003728401760000025
Figure FDA0003728401760000026
Figure FDA0003728401760000027
表示第n_i条文本数据的第n_j个单词对应的词嵌入,
Figure FDA0003728401760000028
是300维的临时变量,
Figure FDA0003728401760000029
是数值型的临时变量,
Figure FDA00037284017600000210
是权重向量,(en_i)′是词嵌入融合之后的文本表示。
3.根据权利要求1所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法,其特征在于,所述步骤S2具体实现如下:
步骤S21、针对图像模态的特征,采用分别由线性层1、激活函数、线性层2,NegSig函数构成的模态嵌入级特征注意力模块捕获干扰特征的位置;为简单起见,两个线性层的维度和输入特征的维度保持一致;x表示线性层2的输出;将NegSig函数的输出与原始的特征输入进行点积运算,得到负值的干扰特征;再通过一个残差连接,与原始输入特征相加,屏蔽原始输入特征中的干扰;NegSig函数如公式(2-1)所示:
Figure FDA00037284017600000211
其中Euler表示欧拉数:
步骤S22、针对文本模态单词级特征注意力模块的输出采取与步骤S21相似的操作,不同的是使用的模块参数独立。
4.根据权利要求1所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法,其特征在于,所述步骤S3具体实现如下:
步骤S31、每次训练开始前,使用一个预分类网络对利用预训练骨干网络提取的各模态特征进行初始化的分类,分类准确率accmodal_i表示为第modal_i个模态的预分类准确率;记矩阵A=(acc1...accm),其中,m为模态的数量;模态特异缩放因子smodal_i如下列公式所示:
Figure FDA0003728401760000031
其中,θ为训练过程中可学习的m维向量;初始化时,可结合“越复杂的任务需要越大的网络,越简单的任务需要越小的网络这一共识”这一人工先验,将上述函数初始化为定义域[0,1]之间非负单调递减的随机函数;将模态特异缩放因子smodal_i作为自适应缩放编码器与解码器的缩放因子;
步骤S32、如公式(3-2)所示,训练过程中最小化第modal_i个模态的缩放损失
Figure FDA0003728401760000038
其中acc包括第modal_i个模态的分类准确率accmodal_i和第modal_j个模态的分类准确率accmodal_j是辅助分类器的分类精度,m为模态的数量:
Figure FDA0003728401760000032
步骤S33、按照以下公式进行参数smodal_i的更新:
Figure FDA0003728401760000033
Figure FDA0003728401760000034
其中,smodal_i′是smodal_i更新之后的值,lr为学习率;acc会随着网络的训练发生变化,仅在更新smodal_i时使用acc,而不对acc进行更新。
5.根据权利要求4所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法,其特征在于,所述步骤S4具体实现如下:
步骤S41、在训练过程中,第modal_i个模态的损失函数为:
Figure FDA0003728401760000035
其中,
Figure FDA0003728401760000036
是第modal_i个模态的监督损失,
Figure FDA0003728401760000037
是第modal_i个模态的重构损失。λ是监督损失和重构损失之间权衡的平衡参数,λ是一个权衡因子;
遵循步骤S1、S2、S3进行神经网络的训练,使用梯度下降算法在训练过程中最小化损失函数Lmodal_i,每次训练结束后,依据分类结果更新矩阵A,根据公式(3-2)计算自适应缩放损失,根据公式(3-3)和公式(3-4)更新smodal_i;将训练的最大迭代次数itermax作为终止条件;
步骤S42、选取在验证集上所有结果平均精度mAP@ALL最高的模型,丢弃解码器部分的网络权重;用该模型为所有待查询与待检索数据计算公共子空间嵌入,用余弦距离进行相似度计算,按照降序排序;
步骤S43、对每一项输入数据的检索结果进行类别级重排序;对于输入数据为图像的情况,依次将检索出的Ktxt条文本数据作为输入数据反向检索图像;第k条文本的反向检索结果记为一个二进制串
Figure FDA0003728401760000041
其中,匹配标签
Figure FDA0003728401760000042
如果反向检索的结果与输入的图像查询属于同一类别,则匹配标签的值为1,否则为0,匹配标签可能有多个为1;将所有文本的反向检索二进制结果
Figure FDA0003728401760000043
转为十进制数值
Figure FDA0003728401760000044
依据该值对文本数据进行降序排序;倘若数值一样,则原先排名靠前的文本优先;对于输入数据为文本的情况,采取同样的操作;最终返回类别级重排序后的检索结果。
CN202210787446.8A 2022-07-04 2022-07-04 基于模态特异自适应缩放与注意力网络的跨模态检索方法 Pending CN115080699A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210787446.8A CN115080699A (zh) 2022-07-04 2022-07-04 基于模态特异自适应缩放与注意力网络的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210787446.8A CN115080699A (zh) 2022-07-04 2022-07-04 基于模态特异自适应缩放与注意力网络的跨模态检索方法

Publications (1)

Publication Number Publication Date
CN115080699A true CN115080699A (zh) 2022-09-20

Family

ID=83257967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210787446.8A Pending CN115080699A (zh) 2022-07-04 2022-07-04 基于模态特异自适应缩放与注意力网络的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN115080699A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385808A (zh) * 2023-06-02 2023-07-04 合肥城市云数据中心股份有限公司 大数据跨域图像分类模型训练方法、图像分类方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779361A (zh) * 2021-08-27 2021-12-10 华中科技大学 基于多层注意力机制的跨模态检索模型的构建方法及应用
WO2022068196A1 (zh) * 2020-09-30 2022-04-07 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN114661933A (zh) * 2022-03-08 2022-06-24 重庆邮电大学 基于胎儿先心病超声图像—诊断报告的跨模态检索方法
CN114691986A (zh) * 2022-03-21 2022-07-01 合肥工业大学 基于子空间适应性间距的跨模态检索方法及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022068196A1 (zh) * 2020-09-30 2022-04-07 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN113779361A (zh) * 2021-08-27 2021-12-10 华中科技大学 基于多层注意力机制的跨模态检索模型的构建方法及应用
CN114661933A (zh) * 2022-03-08 2022-06-24 重庆邮电大学 基于胎儿先心病超声图像—诊断报告的跨模态检索方法
CN114691986A (zh) * 2022-03-21 2022-07-01 合肥工业大学 基于子空间适应性间距的跨模态检索方法及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
邓一姣 等: "面向跨模态检索的协同注意力网络模型", 计算机科学, no. 04, 31 December 2020 (2020-12-31), pages 60 - 65 *
陈柏涛 等: "Modality-specific Adaptive Scaling Method for Cross-modal Retrieval", 2022 INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, COMPUTER VISION AND MACHINE LEARNING(ICICML), 30 October 2022 (2022-10-30), pages 202 - 205, XP034273701, DOI: 10.1109/ICICML57342.2022.10009863 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385808A (zh) * 2023-06-02 2023-07-04 合肥城市云数据中心股份有限公司 大数据跨域图像分类模型训练方法、图像分类方法和系统
CN116385808B (zh) * 2023-06-02 2023-08-01 合肥城市云数据中心股份有限公司 大数据跨域图像分类模型训练方法、图像分类方法和系统

Similar Documents

Publication Publication Date Title
CN110223292B (zh) 图像评估方法、装置及计算机可读存储介质
CN105184303B (zh) 一种基于多模态深度学习的图像标注方法
US20160140425A1 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
CN111985581B (zh) 一种基于样本级注意力网络的少样本学习方法
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN110516095A (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
CN112016450B (zh) 机器学习模型的训练方法、装置和电子设备
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN111461175B (zh) 自注意与协同注意机制的标签推荐模型构建方法及装置
CN109960732B (zh) 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
CN114863407B (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN115222998B (zh) 一种图像分类方法
CN113609922B (zh) 基于模态匹配的连续手语语句识别方法
CN110110724A (zh) 基于指数型挤压函数驱动胶囊神经网络的文本验证码识别方法
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
CN113240683A (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
CN115080699A (zh) 基于模态特异自适应缩放与注意力网络的跨模态检索方法
CN113850182A (zh) 基于DAMR_3DNet的动作识别方法
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法
CN111241326A (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN116403133A (zh) 一种基于YOLO v7改进的车辆检测算法
CN116403608A (zh) 基于多标签纠正和时空协同融合的语音情感识别方法
CN116167014A (zh) 一种基于视觉和语音的多模态关联型情感识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination