CN115080699A - 基于模态特异自适应缩放与注意力网络的跨模态检索方法 - Google Patents
基于模态特异自适应缩放与注意力网络的跨模态检索方法 Download PDFInfo
- Publication number
- CN115080699A CN115080699A CN202210787446.8A CN202210787446A CN115080699A CN 115080699 A CN115080699 A CN 115080699A CN 202210787446 A CN202210787446 A CN 202210787446A CN 115080699 A CN115080699 A CN 115080699A
- Authority
- CN
- China
- Prior art keywords
- modal
- embedding
- modality
- network
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 20
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 230000009467 reduction Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于模态特异自适应缩放与注意力网络的跨模态检索方法。首先对图像模态采用带残差空间缩减的Transformer编码器,对文本模态采用单词级特征注意力模块,分别进行模态不变特征的提取。然后使用模态嵌入级特征注意力模块进行模态干扰特征的过滤。接着采用融合先验知识的自适应缩放网络将特征映射到一个多模态公共子空间进行模态公共特征学习。最后利用表现最好的网络权重计算新的待查询、待检索数据的多模态公共子空间特征,进行类别级重排序,返回最终的跨模态数据检索。本发明能够有效的对多模态数据进行建模,高效准确地完成多模态场景下的跨模态检索任务。
Description
技术领域
本发明涉及模式识别、计算机视觉、自然语言处理领域,特别涉及一种基于模态特异自适应缩放与注意力网络的跨模态检索方法。
背景技术
在过去的几十年间,随着计算机技术特别是数据存储技术与网络传输技术飞速发展,互联网上数据总量呈现爆发式增长,文本、音频、图像、视频、3D模型……越来越多的数据形式成为互联网信息交流的载体。单模态检索任务,如文本检索、图像检索等,专注于在单一模态内查询想要的结果,无法跨模态关系进行建模。不同模态数据的数据分布与特征表示存在巨大差异,为数据的检索带来巨大挑战。
发明内容
本发明的目的在于提供一种基于模态特异自适应缩放与注意力网络的跨模态检索方法,能够有效的对多模态数据进行建模,高效准确地完成多模态场景下的跨模态检索任务。
为实现上述目的,本发明的技术方案是:一种基于模态特异自适应缩放与注意力网络的跨模态检索方法,包括如下步骤:
步骤S1、对图像模态采用带残差空间缩减的Transformer编码器,对文本模态采用单词级特征注意力模块,分别进行模态不变特征的提取;
步骤S2、对使用步骤S1得到的模态不变特征采用结构相同但参数独立的模态嵌入级特征注意力模块进行模态干扰特征的过滤;
步骤S3、采用融合先验知识的自适应缩放网络将由步骤S2得到的特征映射到一个多模态公共子空间进行模态公共特征学习;
步骤S4、遵循步骤S1、S2、S3进行神经网络的训练,保留表现最好的网络权重;利用该组网络权重计算新的待查询、待检索数据的多模态公共子空间特征,进行跨模态数据检索。
相较于现有技术,本发明具有以下有益效果:
1、本发明基于对多模态信息密度差异的评价提出一种融合先验知识的模态特异网络自适应缩放方法,极大程度上减缓了多模态任务中由于信息密度差异造成的模态拟合速率差异导致的模态间统一拟合的问题。
2、本发明针对预训练模型中存在的干扰特征,提出模态嵌入级特征注意力模块指导知识在预训练源域与目标域之间的迁移,使得神经网络既能继承预训练模型提供的良好初始化状态,又能免受干扰特征的危害。
3、本发明构造单词级特征注意力模块通过注意力机制进行词语义的高效融合,解决了跨模态检索任务文本语义的高效融合问题。
4、基于Transformer结构的模态不变特征提取方法能够充分捕获模态内部相关性,构建高质量的模态潜表示空间与多模态公共子空间,为不同模态塑造高度相似的特征分布,从而实现更好的跨模态检索性能,突破多模态任务的性能瓶颈。
附图说明
图1为本发明的原理示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,一种基于模态特异自适应缩放与注意力网络的跨模态检索方法,包括以下步骤;
步骤S1、对图像模态采用带残差空间缩减的Transformer编码器,对文本模态采用单词级特征注意力模块,分别进行模态不变特征的提取。
步骤S2、对使用步骤S1得到的模态不变特征采用结构相同但参数独立的模态嵌入级特征注意力模块进行模态干扰特征的过滤。
步骤S3、采用融合先验知识的自适应缩放网络将由步骤S2得到的特征映射到一个多模态公共子空间进行模态公共特征学习。
步骤S4、遵循步骤S1、S2、S3进行神经网络的训练,保留表现最好的网络权重。利用该组权重计算新的待查询、待检索数据的多模态公共子空间特征,进行跨模态数据检索。
所述步骤S1包括以下步骤;
步骤S11、对于图像模态,按照4行4列均匀地将输入的图片切分成N=16张子图,每张子图的长宽均为原图的1/4。采用卷积操作提取每个子图的块嵌入x0,x1...,xN-1,并额外加上一个可学习的块嵌入xextra。按照公式(1-1)和公式(1-2)为每个块嵌入加上位置嵌入:
其中pos是块的位置,dim_i表示位置嵌入的第dim_i个维度,d是块嵌入的维度为256。
将每个长度为256的块嵌入x0,x1...,xN-1缩放为16×16的特征图,并将所有块嵌入在通道维度进行叠加,得到一个N×16×16的多通道特征图。利用一个层归一化和N/2个5×5的卷积核扩大特征图,降低一半通道数。同时通过一个平均池化和零填充额外加上一个残差连接。再按照通道进行切分,将每个通道的特征图重新映射为新的块嵌入。由于序列长度发生了改变,为新的块嵌入重新计算并添加位置嵌入来更新相对位置信息得到经过残差空间缩减的块嵌入x′0,x′1...,x′N憠1。
z0=[xextra;x′0WP;x′1WP;...;x′N-1WP]+epos (1-3)
z′l=MHA(LN(zl-1))+zl-1,l=1...L (1-4)
zl=MLP(LN(z′l))+z′l,l=1...L (1-5)
按照公式(1-3)至公式(1-6)计算图像模态表示。其中,z0,z′l,zl是临时变量,L表示图像分块个数,l表示第l个分块,WP表示可学习的参数矩阵,xextra是额外加入的可学习嵌入,它对应的输出经过一个MLP运算后得到的结果被作为图像模态的表示zimg。epos表示加入的一维位置嵌入。LN表示层归一化。MHA表示多头注意力,它对输入数据进行多个自注意操作。MLP代表多层感知机,包含一个线性投影,GeLU激活函数,然后是另一个线性投影。在模型中,使用一个额外的MLP头来获得首个嵌入对应的输出作为图像模态的表示。
步骤S12、对于文本模态,单词级特征注意力模块先使用Word2Vec方法,将文本描述的每个单词转化成一个300维的词嵌入,然后对所有词嵌入采用一个共享权重的权重生成单元,包括一个全连接层FC、一个ReLU激活函数、一个平均池化层AvgPooling和一个Sigmoid层。权重生成单元为每个单嵌入生成一个权重,进行加权平均得到文本模态的表示。具体来说,遵循以下公式:
所述步骤S2包括以下步骤;
步骤S21、针对图像模态的特征,采用分别由线性层1、激活函数、线性层2,NegSig函数(如公式(2-1)所示,其中Euler表示欧拉数,约等于2.71828)构成的模态嵌入级特征注意力模块捕获干扰特征的位置。为简单起见,两个线性层的维度和输入特征的维度保持一致。x表示第二个线性层的输出。将NegSig函数的输出与原始的特征输入进行点积运算,得到负值的干扰特征。再通过一个残差连接,与原始输入特征相加,屏蔽原始输入特征中的干扰。
步骤S22、针对文本模态单词级特征注意力模块的输出采取与步骤S21相似的操作,不同的是使用的模块参数独立。
所述步骤S3包括以下步骤;
步骤S31、每次训练开始前,使用一个简单的预分类网络(如MLP)对利用预训练骨干网络提取的各模态特征进行初始化的分类,分类准确率accmodal_i表示为第modal_i个模态的预分类准确率。记矩阵A=(acc1 … accm),其中,m为模态的数量。模态特异缩放因子smodal_i如下列公式所示:
其中,θ为训练过程中可学习的m维向量。初始化时,可结合“越复杂的任务需要越大的网络,越简单的任务需要越小的网络这一共识”这一人工先验,将该函数初始化为定义域[0,1]之间非负单调递减的随机函数。将模态特异缩放因子smodal_i作为自适应缩放编码器与解码器的缩放因子。
步骤S32、如公式(3-2)所示,训练过程中最小化第modal_i个模态的缩放损失其中acc(包括第modal_i个模态的分类准确率accmodal_i和第modal_j个模态的分类准确率accmodal_j)是辅助分类器的分类精度,m为模态的数量:
其中,smodal_i′是smodal_i更新之后的值,lr为学习率。要注意的是,acc会随着网络的训练发生变化,我们仅在更新smodal_i时使用acc,而不对acc进行更新。
所述步骤S4包括以下步骤;
步骤S41、在训练过程中,第modal_i个模态的损失函数为:
遵循步骤S1、S2、S3进行神经网路的训练,使用梯度下降算法在训练过程中最小化损失函数Lmodal_i,每次训练结束后,依据分类结果更新矩阵A,根据公式(3-2)计算自适应缩放损失,根据公式(3-3)和公式(3-4)更新smodal_i。将训练的最大迭代次数itermax作为终止条件。
步骤S42:选取在验证集上所有结果平均精度mAP@ALL最高的模型,丢弃解码器部分的网络权重。用该模型为所有待查询与待检索数据计算公共子空间嵌入,用余弦距离进行相似度计算,按照降序排序。
步骤S43:对每一项输入数据的检索结果进行类别级重排序。以输入数据为图像为例,依次将检索出的Ktxt条文本数据作为输入数据反向检索图像。第k条文本的反向检索结果记为一个二进制串其中,匹配标签如果反向检索的结果与输入的图像查询属于同一类别,则匹配标签的值为1,否则为0(匹配标签可能有多个为1)。将所有文本的反向检索二进制结果转为十进制数值依据该值对文本数据进行降序排序。倘若数值一样,则原先排名靠前的文本优先。对于输入数据为文本的情况,采取同样的操作。最终返回类别级重排序后的检索结果。
特别的,本发明基于对多模态信息密度差异的评价提出一种融合先验知识的模态特异网络自适应缩放方法,极大程度上减缓了多模态任务中由于信息密度差异造成的模态拟合速率差异导致的模态间统一拟合的问题。本发明针对预训练模型中存在的干扰特征,提出模态嵌入级特征注意力模块指导知识在预训练源域与目标域之间的迁移,使得神经网络既能继承预训练模型提供的良好初始化状态,又能免受干扰特征的危害。本发明构造单词级特征注意力模块通过注意力机制进行词语义的高效融合,解决了跨模态检索任务文本语义的高效融合问题。基于Transformer结构的模态不变特征提取方法能够充分捕获模态内部相关性,构建高质量的模态潜表示空间与多模态公共子空间,为不同模态塑造高度相似的特征分布,从而实现更好的跨模态检索性能,突破多模态任务的性能瓶颈。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (5)
1.一种基于模态特异自适应缩放与注意力网络的跨模态检索方法,其特征在于,包括如下步骤:
步骤S1、对图像模态采用带残差空间缩减的Transformer编码器,对文本模态采用单词级特征注意力模块,分别进行模态不变特征的提取;
步骤S2、对使用步骤S1得到的模态不变特征采用结构相同但参数独立的模态嵌入级特征注意力模块进行模态干扰特征的过滤;
步骤S3、采用融合先验知识的自适应缩放网络将由步骤S2得到的特征映射到一个多模态公共子空间进行模态公共特征学习;
步骤S4、遵循步骤S1、S2、S3进行神经网络的训练,保留表现最好的网络权重;利用该组网络权重计算新的待查询、待检索数据的多模态公共子空间特征,进行跨模态数据检索。
2.根据权利要求1所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法,其特征在于,所述步骤S1具体实现如下:
步骤S11、对于图像模态,按照4行4列均匀地将输入的图片切分成N=16张子图,每张子图的长宽均为原图的1/4;采用卷积操作提取每个子图的块嵌入x0,x1...,xN-1,并额外加上一个可学习的块嵌入xextra;按照公式(1-1)和公式(1-2)为每个块嵌入加上位置嵌入:
其中pos是块的位置,dim_i表示位置嵌入的第dim_i个维度,d是块嵌入的维度为256;
将每个长度为256的块嵌入x0,x1...,xN-1缩放为16×16的特征图,并将所有块嵌入在通道维度进行叠加,得到一个N×16×16的多通道特征图;利用一个层归一化和N/2个5×5的卷积核扩大特征图,降低一半通道数;同时通过一个平均池化和零填充额外加上一个残差连接;再按照通道进行切分,将每个通道的特征图重新映射为新的块嵌入;由于序列长度发生改变,为新的块嵌入重新计算并添加位置嵌入来更新相对位置信息得到经过残差空间缩减的块嵌入x′0,x′1...,x′N-1;按照公式(1-3)至公式(1-6)计算图像模态表示:
z0=[xextra;x′0WP;x′1WP;...;x′N-1WP]+epos (1-3)
z′l=MHA(LN(zl-1))+zl-1,l=1...L (1-4)
zl=MLP(LN(z′l))+z′l,l=1...L (1-5)
其中,z0,z′l,zl是临时变量,L表示图像分块总个数,l表示第l个分块,WP表示可学习的参数矩阵,xextra是额外加入的可学习的块嵌入,它对应的输出经过一个MLP运算后得到的结果被作为图像模态的表示zimg;epos表示加入的一维位置嵌入;LN表示层归一化;MHA表示多头注意力,它对输入数据进行多个自注意操作;MLP代表多层感知机,包含线性投影1、GeLU激活函数、线性投影2;在模型中,使用一个额外的MLP头来获得首个块嵌入对应的输出作为图像模态的表示;
步骤S12、对于文本模态,单词级特征注意力模块先使用Word2Vec方法,将文本描述的每个单词转化成一个300维的词嵌入,然后对所有词嵌入采用一个共享权重的权重生成单元,包括一个全连接层FC、一个ReLU激活函数、一个平均池化层AvgPooling和一个Sigmoid层;权重生成单元为每个词嵌入生成一个权重,进行加权平均得到文本模态的表示;具体来说,遵循以下公式
3.根据权利要求1所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法,其特征在于,所述步骤S2具体实现如下:
步骤S21、针对图像模态的特征,采用分别由线性层1、激活函数、线性层2,NegSig函数构成的模态嵌入级特征注意力模块捕获干扰特征的位置;为简单起见,两个线性层的维度和输入特征的维度保持一致;x表示线性层2的输出;将NegSig函数的输出与原始的特征输入进行点积运算,得到负值的干扰特征;再通过一个残差连接,与原始输入特征相加,屏蔽原始输入特征中的干扰;NegSig函数如公式(2-1)所示:
其中Euler表示欧拉数:
步骤S22、针对文本模态单词级特征注意力模块的输出采取与步骤S21相似的操作,不同的是使用的模块参数独立。
4.根据权利要求1所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法,其特征在于,所述步骤S3具体实现如下:
步骤S31、每次训练开始前,使用一个预分类网络对利用预训练骨干网络提取的各模态特征进行初始化的分类,分类准确率accmodal_i表示为第modal_i个模态的预分类准确率;记矩阵A=(acc1...accm),其中,m为模态的数量;模态特异缩放因子smodal_i如下列公式所示:
其中,θ为训练过程中可学习的m维向量;初始化时,可结合“越复杂的任务需要越大的网络,越简单的任务需要越小的网络这一共识”这一人工先验,将上述函数初始化为定义域[0,1]之间非负单调递减的随机函数;将模态特异缩放因子smodal_i作为自适应缩放编码器与解码器的缩放因子;
步骤S32、如公式(3-2)所示,训练过程中最小化第modal_i个模态的缩放损失其中acc包括第modal_i个模态的分类准确率accmodal_i和第modal_j个模态的分类准确率accmodal_j是辅助分类器的分类精度,m为模态的数量:
步骤S33、按照以下公式进行参数smodal_i的更新:
其中,smodal_i′是smodal_i更新之后的值,lr为学习率;acc会随着网络的训练发生变化,仅在更新smodal_i时使用acc,而不对acc进行更新。
5.根据权利要求4所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法,其特征在于,所述步骤S4具体实现如下:
步骤S41、在训练过程中,第modal_i个模态的损失函数为:
遵循步骤S1、S2、S3进行神经网络的训练,使用梯度下降算法在训练过程中最小化损失函数Lmodal_i,每次训练结束后,依据分类结果更新矩阵A,根据公式(3-2)计算自适应缩放损失,根据公式(3-3)和公式(3-4)更新smodal_i;将训练的最大迭代次数itermax作为终止条件;
步骤S42、选取在验证集上所有结果平均精度mAP@ALL最高的模型,丢弃解码器部分的网络权重;用该模型为所有待查询与待检索数据计算公共子空间嵌入,用余弦距离进行相似度计算,按照降序排序;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210787446.8A CN115080699A (zh) | 2022-07-04 | 2022-07-04 | 基于模态特异自适应缩放与注意力网络的跨模态检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210787446.8A CN115080699A (zh) | 2022-07-04 | 2022-07-04 | 基于模态特异自适应缩放与注意力网络的跨模态检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115080699A true CN115080699A (zh) | 2022-09-20 |
Family
ID=83257967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210787446.8A Pending CN115080699A (zh) | 2022-07-04 | 2022-07-04 | 基于模态特异自适应缩放与注意力网络的跨模态检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115080699A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385808A (zh) * | 2023-06-02 | 2023-07-04 | 合肥城市云数据中心股份有限公司 | 大数据跨域图像分类模型训练方法、图像分类方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
WO2022068196A1 (zh) * | 2020-09-30 | 2022-04-07 | 三维通信股份有限公司 | 跨模态的数据处理方法、装置、存储介质以及电子装置 |
CN114661933A (zh) * | 2022-03-08 | 2022-06-24 | 重庆邮电大学 | 基于胎儿先心病超声图像—诊断报告的跨模态检索方法 |
CN114691986A (zh) * | 2022-03-21 | 2022-07-01 | 合肥工业大学 | 基于子空间适应性间距的跨模态检索方法及存储介质 |
-
2022
- 2022-07-04 CN CN202210787446.8A patent/CN115080699A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022068196A1 (zh) * | 2020-09-30 | 2022-04-07 | 三维通信股份有限公司 | 跨模态的数据处理方法、装置、存储介质以及电子装置 |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN114661933A (zh) * | 2022-03-08 | 2022-06-24 | 重庆邮电大学 | 基于胎儿先心病超声图像—诊断报告的跨模态检索方法 |
CN114691986A (zh) * | 2022-03-21 | 2022-07-01 | 合肥工业大学 | 基于子空间适应性间距的跨模态检索方法及存储介质 |
Non-Patent Citations (2)
Title |
---|
邓一姣 等: "面向跨模态检索的协同注意力网络模型", 计算机科学, no. 04, 31 December 2020 (2020-12-31), pages 60 - 65 * |
陈柏涛 等: "Modality-specific Adaptive Scaling Method for Cross-modal Retrieval", 2022 INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, COMPUTER VISION AND MACHINE LEARNING(ICICML), 30 October 2022 (2022-10-30), pages 202 - 205, XP034273701, DOI: 10.1109/ICICML57342.2022.10009863 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385808A (zh) * | 2023-06-02 | 2023-07-04 | 合肥城市云数据中心股份有限公司 | 大数据跨域图像分类模型训练方法、图像分类方法和系统 |
CN116385808B (zh) * | 2023-06-02 | 2023-08-01 | 合肥城市云数据中心股份有限公司 | 大数据跨域图像分类模型训练方法、图像分类方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223292B (zh) | 图像评估方法、装置及计算机可读存储介质 | |
CN105184303B (zh) | 一种基于多模态深度学习的图像标注方法 | |
US20160140425A1 (en) | Method and apparatus for image classification with joint feature adaptation and classifier learning | |
CN111985581B (zh) | 一种基于样本级注意力网络的少样本学习方法 | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
CN110516095A (zh) | 基于语义迁移的弱监督深度哈希社交图像检索方法和系统 | |
CN112016450B (zh) | 机器学习模型的训练方法、装置和电子设备 | |
CN108154156B (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
CN111461175B (zh) | 自注意与协同注意机制的标签推荐模型构建方法及装置 | |
CN109960732B (zh) | 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统 | |
CN114863407B (zh) | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN113609922B (zh) | 基于模态匹配的连续手语语句识别方法 | |
CN110110724A (zh) | 基于指数型挤压函数驱动胶囊神经网络的文本验证码识别方法 | |
CN111985520A (zh) | 一种基于图卷积神经网络的多模态分类方法 | |
CN113240683A (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
CN115457332A (zh) | 基于图卷积神经网络和类激活映射的图像多标签分类方法 | |
CN115080699A (zh) | 基于模态特异自适应缩放与注意力网络的跨模态检索方法 | |
CN113850182A (zh) | 基于DAMR_3DNet的动作识别方法 | |
CN116756363A (zh) | 一种由信息量引导的强相关性无监督跨模态检索方法 | |
CN111241326A (zh) | 基于注意力金字塔图网络的图像视觉关系指代定位方法 | |
CN116403133A (zh) | 一种基于YOLO v7改进的车辆检测算法 | |
CN116403608A (zh) | 基于多标签纠正和时空协同融合的语音情感识别方法 | |
CN116167014A (zh) | 一种基于视觉和语音的多模态关联型情感识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |