CN114067233B - 一种跨模态匹配方法及系统 - Google Patents

一种跨模态匹配方法及系统 Download PDF

Info

Publication number
CN114067233B
CN114067233B CN202111129751.XA CN202111129751A CN114067233B CN 114067233 B CN114067233 B CN 114067233B CN 202111129751 A CN202111129751 A CN 202111129751A CN 114067233 B CN114067233 B CN 114067233B
Authority
CN
China
Prior art keywords
neural network
sample
data
mode
clean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111129751.XA
Other languages
English (en)
Other versions
CN114067233A (zh
Inventor
彭玺
黄振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202111129751.XA priority Critical patent/CN114067233B/zh
Publication of CN114067233A publication Critical patent/CN114067233A/zh
Application granted granted Critical
Publication of CN114067233B publication Critical patent/CN114067233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种跨模态匹配方法及系统,涉及计算机多模态学习领域,包括:神经网络预热子系统、数据划分子系统、标签协同修正子系统和神经网络训练子系统。本发明设计了基于两神经网络的跨模态匹配方法,在两神经网络预热之后,自适应地协同修正多模态样本的标签,并通过标签修正后的多模态样本集交叉训练两神经网络,使跨模态匹配具有鲁棒性,能应对错误对齐的多模态数据。

Description

一种跨模态匹配方法及系统
技术领域
本发明涉及计算机多模态学习领域,具体涉及一种跨模态匹配方法及系统。
背景技术
跨模态匹配作为多模态学习中最基本的技术之一,旨在连接不同的模态,实现跨模态数据的精准匹配。近年来,一些基于深度神经网络(DNN,Deep Neural Networks)的跨模态匹配方法被提出,在多种应用中取得了显著的进展,如图像/视频的描述生成、跨模态检索和视觉问题回答。
跨模态匹配可以分为两类:1)粗粒度的匹配。它通常利用多个神经网络来计算一个全局特征,每个网络用于一个特定的模式。例如,通过使用一个卷积神经网络(CNN,Convolutional Neural Networks)和一个门控递归单元(GRU,Gated Recurrent Unit)来获得图像和文本特征,同时强制要求正数对的相似度大于负数对的相似度。2)细粒度匹配。通过测量跨模态匹配的细粒度相似性。例如,通过由自下而上的注意力和图神经网络(GRN,Graph Neural Networks)学习图像区域和单词之间的潜在语义对应关系,并实现跨模态匹配。
跨模态匹配的成功取决于一个隐含的数据假设,即训练数据在不同模态间正确对齐。例如,在视觉和语言任务中,文本需要准确描述图像内容,反之亦然。然而,在工程中,注释或收集这样的数据对是非常耗时、耗人力的,尤其是互联网上收集的数据。互联网数据在收集过程中不可避免地出现不匹配的数据对,这些数据对也易被错误地当作匹配的数据。
发明内容
针对现有技术中的上述不足,本发明提供的一种跨模态匹配方法及系统解决了现有跨模态匹配方法无法正确处理错误对齐的多模态数据的问题。
为了达到上述发明目的,本发明采用的技术方案为:
第一方面,一种跨模态匹配方法,包括以下步骤:
S1、初始化多模态信息,构建多模态样本集;
S2、建立第一神经网络和第二神经网络,并根据多模态样本集,通过预热损失函数,对第一神经网络和第二神经网络进行预热;
S3、通过预热后的第一神经网络和第二神经网络,对多模态样本集进行数据划分;
S4、通过自适应预测函数,根据多模态样本集的数据划分结果,对多模态样本集进行标签协同修正;
S5、根据标签协同修正后的多模态样本集对第一神经网络和第二神经网络进行网络交叉训练;
S6、判断第一神经网络和第二神经网络是否均已收敛,若是,则跳转至步骤S7,若否,则跳转至步骤S3;
S7、通过已收敛的第一神经网络和第二神经网络完成跨模态匹配。
本发明的有益效果为:设计了基于两神经网络的跨模态匹配方法,在两神经网络预热之后,自适应地协同修正多模态样本的标签,并通过标签修正后的多模态样本集交叉训练两神经网络,使跨模态匹配具有鲁棒性,能应对错误对齐的多模态数据。
进一步地,所述步骤S1构建的多模态样本集中的每一个样本均包括样本数据和样本标签。
进一步地,所述样本数据包括图片模态数据和文字模态数据。
进一步地,所述步骤S2的预热损失函数为:
Figure BDA0003280040300000021
其中,Lwarmup(Ii,Ti)为预热损失函数;Ii为第i个样本的图片模态数据;Ti为第i个样本的文字模态数据;α为相似性间隔参数;
Figure BDA0003280040300000031
为与Ii不匹配的文字模态数据;/>
Figure BDA0003280040300000032
为与Ti不匹配的图片模态数据;S(·)为图片模态与文字模态的相似性函数;[·]+为取正函数,若[·]+的自变量不小于0,则[·]+值为自变量数值,若[·]+的自变量小于0,则[·]+值为0。
进一步地,所述步骤S3包括以下分步骤:
S31、通过预热后的第一神经网络处理多模态样本集,求得每个样本的第一神经网络预热损失函数值,构建多模态样本集第一神经网络预热损失函数值分布;
S32、对多模态样本集第一神经网络预热损失函数值分布进行2分量的高斯混合模型建模,并将建模后高斯混合模型中均值较小的分量模型得到的样本后验概率作为样本第一干净置信度;
S33、将样本第一干净置信度大于干净置信度阈值的样本划分入第一干净子集,并将样本第一干净置信度小于干净置信度阈值的样本划分入第一噪声子集;
S34、通过预热后的第二神经网络处理多模态样本集,求得每个样本的第二神经网络预热损失函数值,构建多模态样本集第二神经网络预热损失函数值分布;
S35、对多模态样本集第二神经网络预热损失函数值分布进行2分量的高斯混合模型建模,并将建模后高斯混合模型中均值较小的分量模型得到的样本后验概率作为样本第二干净置信度;
S36、将样本第二干净置信度大于干净置信度阈值的样本划分入第二干净子集,并将样本第二干净置信度小于干净置信度阈值的样本划分入第二噪声子集。
上述进一步方案的有益效果为:本发明通过上述方案,实现了一种新的标签范式,即:将错误对齐的多模态数据视为噪声对应。与传统的噪声标签不同,本发明噪声对应是配对数据中的对齐错误,而不是类别注释的错误。本发明通过高斯混合模型分析多模态样本集经预热后神经网络计算得出的损失函数值分布,以后验概率的大小进行噪声判断,遴选出的噪声子集样本,即为错误对齐的样本。以此实现了多模态样本集的数据划分,准确识别了错误对齐的样本。
进一步地,所述步骤S4中进行标签协同修正的表达式为:
Figure BDA0003280040300000041
Figure BDA0003280040300000042
/>
其中,
Figure BDA0003280040300000043
为第二神经网络划分处理的多模态样本集;/>
Figure BDA0003280040300000044
为第二干净子集,/>
Figure BDA0003280040300000045
为第二噪声子集;/>
Figure BDA0003280040300000046
为第一神经网络划分处理的多模态样本集,/>
Figure BDA0003280040300000047
为第一干净子集,/>
Figure BDA0003280040300000048
为第一噪声子集;/>
Figure BDA0003280040300000049
为第一或第二干净子集中的第i个样本的图片模态数据,/>
Figure BDA00032800403000000410
为第一或第二干净子集中的第i个样本的文字模态数据;/>
Figure BDA00032800403000000411
为第一或第二噪声子集中的第i个样本的图片模态数据,/>
Figure BDA00032800403000000412
为第一或第二噪声子集中的第i个样本的文字模态数据;wi为第i个样本的第一或第二干净置信度;/>
Figure BDA00032800403000000413
为第一或第二噪声子集中第i个样本的标签,/>
Figure BDA00032800403000000414
为第一或第二干净子集中第i个样本的修正标签,/>
Figure BDA00032800403000000415
为第一或第二噪声子集中第i个样本的修正标签;
P(·)为自适应预测函数:
P(Ii,Ti)=Θ(s)/τ
Figure BDA00032800403000000416
其中,Θ(·)为裁剪函数,b为训练批次数值,s为相似性参数,τ为图片模态与文字模态的相似性从大到小排序前N%的样本的平均相似性差值,N为小于100的正数。
上述进一步方案的有益效果为:第一神经网络划分的结果和第二神经网络划分的结果相互协同,并通过基于了统计学建立的自适应预测函数进行标签修正,对错误对齐的多模态数据的修改有显著的效果,增加了本发明方法的鲁棒性。
进一步地,所述步骤S5的方法为:根据标签协同修正后的第二神经网络划分处理的多模态样本集,通过训练阶段损失函数,训练第一神经网络;根据标签协同修正后的第一神经网络划分处理的多模态样本集,通过训练阶段损失函数,训练第二神经网络;所述训练阶段损失函数为:
Figure BDA0003280040300000051
其中,Lsoft为训练阶段损失函数,I为样本的图片模态数据,T为样本的文字模态数据;
Figure BDA0003280040300000052
为困难负样本的图片模态数据,/>
Figure BDA0003280040300000053
为困难负样本的文字模态数据,/>
Figure BDA0003280040300000054
为自适应相似性间隔参数;
Figure BDA0003280040300000055
Figure BDA0003280040300000056
Figure BDA0003280040300000057
其中,
Figure BDA0003280040300000058
为样本的修正标签,m为自适应系数,Ij为第j个样本的图片模态数据;Tj为第j个样本的文字模态数据;argmax为求取函数最大值对应自变量的运算符。
上述进一步方案的有益效果为:使用第二神经网络划分处理的多模态样本集训练第一神经网络,并使用第一神经网络划分处理的多模态样本集训练第二神经网络,构成交叉训练方法,相互修补误差,奠定高质量鲁棒性跨模态匹配的基础。
第二方面,一种跨模态匹配系统,包括:神经网络预热子系统、数据划分子系统、标签协同修正子系统和神经网络训练子系统;
所述神经网络预热子系统用于根据多模态样本集,通过预热损失函数,对第一神经网络和第二神经网络进行预热;
所述数据划分子系统用于通过预热后的第一神经网络和第二神经网络,对多模态样本集进行数据划分;
所述标签协同修正子系统用于通过自适应预测函数,根据多模态样本集的数据划分结果,对多模态样本集进行标签协同修正;
所述神经网络训练子系统用于根据标签协同修正后的多模态样本集对第一神经网络和第二神经网络进行网络交叉训练。
第三方面,一种跨模态匹配设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述的跨模态匹配方法的步骤。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的跨模态匹配方法。
附图说明
图1为本发明实施例提供的一种跨模态匹配方法流程示意图;
图2为本发明实施例提供的一种跨模态匹配系统结构图;
图3为本发明实施例提供的一种跨模态匹配设备结构图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,一种跨模态匹配方法,包括以下步骤:
S1、初始化多模态信息,构建多模态样本集。
多模态样本集中的每一个样本均包括样本数据和样本标签。在本实施例中,样本数据包括图片模态数据和文字模态数据。
S2、建立第一神经网络和第二神经网络,并根据多模态样本集,通过预热损失函数,对第一神经网络和第二神经网络进行预热。
预热损失函数为:
Figure BDA0003280040300000071
其中,Lwarmup(Ii,Ti)为预热损失函数;Ii为第i个样本的图片模态数据;Ti为第i个样本的文字模态数据;α为相似性间隔参数;
Figure BDA0003280040300000072
为与Ii不匹配的文字模态数据;/>
Figure BDA0003280040300000073
为与Ti不匹配的图片模态数据;S(·)为图片模态与文字模态的相似性函数;[·]+为取正函数,若[·]+的自变量不小于0,则[·]+值为自变量数值,若[·]+的自变量小于0,则[·]+值为0。
S3、通过预热后的第一神经网络和第二神经网络,对多模态样本集进行数据划分。
步骤S3包括以下分步骤:
S31、通过预热后的第一神经网络处理多模态样本集,求得每个样本的第一神经网络预热损失函数值,构建多模态样本集第一神经网络预热损失函数值分布。
S32、对多模态样本集第一神经网络预热损失函数值分布进行2分量的高斯混合模型建模,并将建模后高斯混合模型中均值较小的分量模型得到的样本后验概率作为样本第一干净置信度。
S33、将样本第一干净置信度大于干净置信度阈值的样本划分入第一干净子集,并将样本第一干净置信度小于干净置信度阈值的样本划分入第一噪声子集。
S34、通过预热后的第二神经网络处理多模态样本集,求得每个样本的第二神经网络预热损失函数值,构建多模态样本集第二神经网络预热损失函数值分布。
S35、对多模态样本集第二神经网络预热损失函数值分布进行2分量的高斯混合模型建模,并将建模后高斯混合模型中均值较小的分量模型得到的样本后验概率作为样本第二干净置信度。
S36、将样本第二干净置信度大于干净置信度阈值的样本划分入第二干净子集,并将样本第二干净置信度小于干净置信度阈值的样本划分入第二噪声子集。
本发明通过上述方案,实现了一种新的标签范式,即:将错误对齐的多模态数据视为噪声对应。与传统的噪声标签不同,本发明噪声对应是配对数据中的对齐错误,而不是类别注释的错误。本发明通过高斯混合模型分析多模态样本集经预热后神经网络计算得出的损失函数值分布,以后验概率的大小进行噪声判断,遴选出的噪声子集样本,即为错误对齐的样本。以此实现了多模态样本集的数据划分,准确识别了错误对齐的样本。
S4、通过自适应预测函数,根据多模态样本集的数据划分结果,对多模态样本集进行标签协同修正,其表达式为:
Figure BDA0003280040300000081
Figure BDA0003280040300000082
其中,
Figure BDA0003280040300000083
为第二神经网络划分处理的多模态样本集;/>
Figure BDA0003280040300000084
为第二干净子集,/>
Figure BDA0003280040300000091
为第二噪声子集;/>
Figure BDA0003280040300000092
为第一神经网络划分处理的多模态样本集,/>
Figure BDA0003280040300000093
为第一干净子集,/>
Figure BDA0003280040300000094
为第一噪声子集;/>
Figure BDA0003280040300000095
为第一或第二干净子集中的第i个样本的图片模态数据,/>
Figure BDA0003280040300000096
为第一或第二干净子集中的第i个样本的文字模态数据;/>
Figure BDA0003280040300000097
为第一或第二噪声子集中的第i个样本的图片模态数据,/>
Figure BDA0003280040300000098
为第一或第二噪声子集中的第i个样本的文字模态数据;wi为第i个样本的第一或第二干净置信度;/>
Figure BDA0003280040300000099
为第一或第二噪声子集中第i个样本的标签,/>
Figure BDA00032800403000000910
为第一或第二干净子集中第i个样本的修正标签,/>
Figure BDA00032800403000000911
为第一或第二噪声子集中第i个样本的修正标签;/>
P(·)为自适应预测函数:
P(Ii,Ti)=Θ(s)/τ
Figure BDA00032800403000000912
其中,Θ(·)为裁剪函数,b为训练批次数值,s为相似性参数,τ为图片模态与文字模态的相似性从大到小排序前N%的样本的平均相似性差值,N为小于100的正数。
在本实施例中,N为10。
第一神经网络划分的结果和第二神经网络划分的结果相互协同,并通过基于了统计学建立的自适应预测函数进行标签修正,对错误对齐的多模态数据的修改有显著的效果,增加了本发明方法的鲁棒性。
S5、根据标签协同修正后的多模态样本集对第一神经网络和第二神经网络进行网络交叉训练。
在本实施例中,具体为:根据标签协同修正后的第二神经网络划分处理的多模态样本集,通过训练阶段损失函数,训练第一神经网络;根据标签协同修正后的第一神经网络划分处理的多模态样本集,通过训练阶段损失函数,训练第二神经网络;所述训练阶段损失函数为:
Figure BDA0003280040300000101
其中,Lsoft为训练阶段损失函数,I为样本的图片模态数据,T为样本的文字模态数据;
Figure BDA0003280040300000102
为困难负样本的图片模态数据,/>
Figure BDA0003280040300000103
为困难负样本的文字模态数据,/>
Figure BDA0003280040300000104
为自适应相似性间隔参数;
Figure BDA0003280040300000105
Figure BDA0003280040300000106
Figure BDA0003280040300000107
其中,
Figure BDA0003280040300000108
为样本的修正标签,m为自适应系数,Ij为第j个样本的图片模态数据;Tj为第j个样本的文字模态数据;argmax为求取函数最大值对应自变量的运算符。
使用第二神经网络划分处理的多模态样本集训练第一神经网络,并使用第一神经网络划分处理的多模态样本集训练第二神经网络,构成交叉训练方法,相互修补误差,奠定高质量鲁棒性跨模态匹配的基础。
S6、判断第一神经网络和第二神经网络是否均已收敛,若是,则跳转至步骤S7,若否,则跳转至步骤S3。
S7、通过已收敛的第一神经网络和第二神经网络完成跨模态匹配。
上文对于本发明实施例提供的一种跨模态匹配方法进行了详细的描述,本发明还提供了一种与该方法对应的跨模态匹配系统、设备及计算机可读存储介质。
如图2所示,本发明实施例提供的一种跨模态匹配系统,包括:神经网络预热子系统、数据划分子系统、标签协同修正子系统和神经网络训练子系统;
神经网络预热子系统用于根据多模态样本集,通过预热损失函数,对第一神经网络和第二神经网络进行预热;
数据划分子系统用于通过预热后的第一神经网络和第二神经网络,对多模态样本集进行数据划分;
标签协同修正子系统用于通过自适应预测函数,根据多模态样本集的数据划分结果,对多模态样本集进行标签协同修正;
神经网络训练子系统用于根据标签协同修正后的多模态样本集对第一神经网络和第二神经网络进行网络交叉训练。
如图3所示,本发明实施例提供的一种跨模态匹配设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述的跨模态匹配方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的跨模态匹配方法。
为了进一步解释本方法,本发明实施例还结合三个多模态数据集进行了试验。为了体现方法的优越性,对比了多个先进的跨模态匹配方法,并采用R@1,R@5,R@10作为衡量指标。R@K定义为检索数据中前K个样本中返回正确样本的百分比,值越大说明检索准确度越高,效果越好。
试验1:
使用Flickr30K数据集进行试验。该数据集包含31,000张从Flickr网站上收集的图片,每张图片有五个文本描述,均由专家标记。选取1,000张图片进行验证,1,000张图片进行测试,其余的用于训练(29000张图片)。该数据本身无噪声,为了测试本方法对噪声的鲁棒性,随机打乱一部分训练数据,比例为0%(无噪声),20%(20%噪声),50%(50%噪声)。试验结果如下:
表1 Flickr30K数据集测试结果
Figure BDA0003280040300000121
从表格中可以看到,针对不同比例的噪声(包含无噪声),本方法相比其他现有技术(SCAN法、VSRN法、IMRAM法和SGR法)在三个指标上均有比较大的提升,意味着在实际应用中,即使不确定噪声比例情况下,本方案也能很好地消除噪声样本的影响,提高了模型的鲁棒性。
试验2:
使用MS-COCO数据集进行试验。该数据集包含123,287张图片,每张图片有五个文本描述,均由专家标记。选取5,000张图片进行验证,5,000张图片进行测试,其余的用于训练(113,287张图片)。该数据本身无噪声,为了测试本方法对噪声的鲁棒性,随机打乱一部分训练数据,比例为0%(无噪声),20%(20%噪声),50%(50%噪声)。测试结果为将5000测试样本均分为5个1000子集进行测试,结果求均值。其试验结果如下:
表2 MS-COCO数据集测试结果
Figure BDA0003280040300000122
Figure BDA0003280040300000131
从表格中可以看到,针对不同比例的噪声(包含无噪声),本方法相比其他方法在三个指标上均有比较大的提升,意味着在实际应用中,即使不确定噪声比例情况下,本方案也能很好地消除噪声样本的影响,提高了模型的鲁棒性。
试验3:
使用Conceptual Captions(CC)数据集进行试验。CC是一个大规模的数据,包括300多万张图片,每张图片对应一个文本描述。由于这个数据集是从互联网上获取而非专家标注,大约有3%~20%的图文对应关系是错误的,为真实存在的噪声。本次试验,抽取该数据集150,000个样本进行训练,从验证部分选择1,000个样本进行验证,并从验证部分选择1,000个样本进行测试。其试验结果如下:
表3 Conceptual Captions数据集测试结果
Figure BDA0003280040300000132
从表格中可以看到,针对真实环境中存在的噪声,本方法相比其他方法在三个指标上均有比较大的提升,意味着在实际应用中,本方案能很好地消除噪声样本的影响,提高模型的鲁棒性,验证了本方法的有效性和优越性。
除上述三个试验,本发明实施例还特别适用于生物图片识别领域,如图片模态为狗的照片,文字模态为关于狗的描述的多模态数据的匹配。
综上,本发明设计了基于两神经网络的跨模态匹配方法,在两神经网络预热之后,自适应地协同修正多模态样本的标签,并通过标签修正后的多模态样本集交叉训练两神经网络,使跨模态匹配具有鲁棒性,能应对错误对齐的多模态数据。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (6)

1.一种跨模态匹配方法,其特征在于,包括以下步骤:
S1、初始化多模态信息,构建多模态样本集;所述多模态样本集中的每一个样本均包括样本数据和样本标签;所述样本数据包括图片模态数据和文字模态数据;
S2、建立第一神经网络和第二神经网络,并根据多模态样本集,通过预热损失函数,对第一神经网络和第二神经网络进行预热;所述预热损失函数为:
Figure FDA0004181725160000011
其中,Lwarmup(Ii,Ti)为预热损失函数;Ii为第i个样本的图片模态数据;Ti为第i个样本的文字模态数据;α为相似性间隔参数;
Figure FDA0004181725160000012
为与Ii不匹配的文字模态数据;/>
Figure FDA0004181725160000013
为与Ti不匹配的图片模态数据;S(·)为图片模态与文字模态的相似性函数;[·]+为取正函数,若[·]+的自变量不小于0,则[·]+值为自变量数值,若[·]+的自变量小于0,则[·]+值为0;
S3、通过预热后的第一神经网络和第二神经网络,对多模态样本集进行数据划分;
S4、通过自适应预测函数,根据多模态样本集的数据划分结果,对多模态样本集进行标签协同修正;其中进行标签协同修正的表达式为:
Figure FDA0004181725160000014
Figure FDA0004181725160000015
其中,
Figure FDA0004181725160000016
为第二神经网络划分处理的多模态样本集;/>
Figure FDA0004181725160000017
为第二干净子集,/>
Figure FDA0004181725160000018
为第二噪声子集;/>
Figure FDA0004181725160000019
为第一神经网络划分处理的多模态样本集,/>
Figure FDA00041817251600000110
为第一干净子集,/>
Figure FDA00041817251600000111
为第一噪声子集;/>
Figure FDA00041817251600000112
为第一或第二干净子集中的第i个样本的图片模态数据,/>
Figure FDA00041817251600000113
为第一或第二干净子集中的第i个样本的文字模态数据;/>
Figure FDA0004181725160000021
为第一或第二噪声子集中的第i个样本的图片模态数据,/>
Figure FDA0004181725160000022
为第一或第二噪声子集中的第i个样本的文字模态数据;wi为第i个样本的第一或第二干净置信度;/>
Figure FDA0004181725160000023
为第一或第二噪声子集中第i个样本的标签,/>
Figure FDA0004181725160000024
为第一或第二干净子集中第i个样本的修正标签,/>
Figure FDA0004181725160000025
为第一或第二噪声子集中第i个样本的修正标签;
P(·)为自适应预测函数:
P(Ii,Ti)=Θ(s)/τ
Figure FDA0004181725160000026
其中,Θ(·)为裁剪函数,b为训练批次数值,s为相似性参数,τ为图片模态与文字模态的相似性从大到小排序前N%的样本的平均相似性差值,N为小于100的正数;
S5、根据标签协同修正后的多模态样本集对第一神经网络和第二神经网络进行网络交叉训练;
S6、判断第一神经网络和第二神经网络是否均已收敛,若是,则跳转至步骤S7,若否,则跳转至步骤S3;
S7、通过已收敛的第一神经网络和第二神经网络完成跨模态匹配。
2.根据权利要求1所述的跨模态匹配方法,其特征在于,所述步骤S3包括以下分步骤:
S31、通过预热后的第一神经网络处理多模态样本集,求得每个样本的第一神经网络预热损失函数值,构建多模态样本集第一神经网络预热损失函数值分布;
S32、对多模态样本集第一神经网络预热损失函数值分布进行2分量的高斯混合模型建模,并将建模后高斯混合模型中均值较小的分量模型得到的样本后验概率作为样本第一干净置信度;
S33、将样本第一干净置信度大于干净置信度阈值的样本划分入第一干净子集,并将样本第一干净置信度小于干净置信度阈值的样本划分入第一噪声子集;
S34、通过预热后的第二神经网络处理多模态样本集,求得每个样本的第二神经网络预热损失函数值,构建多模态样本集第二神经网络预热损失函数值分布;
S35、对多模态样本集第二神经网络预热损失函数值分布进行2分量的高斯混合模型建模,并将建模后高斯混合模型中均值较小的分量模型得到的样本后验概率作为样本第二干净置信度;
S36、将样本第二干净置信度大于干净置信度阈值的样本划分入第二干净子集,并将样本第二干净置信度小于干净置信度阈值的样本划分入第二噪声子集。
3.根据权利要求2所述的跨模态匹配方法,其特征在于,所述步骤S5的方法为:根据标签协同修正后的第二神经网络划分处理的多模态样本集,通过训练阶段损失函数,训练第一神经网络;根据标签协同修正后的第一神经网络划分处理的多模态样本集,通过训练阶段损失函数,训练第二神经网络;所述训练阶段损失函数为:
Figure FDA0004181725160000031
其中,Lsoft为训练阶段损失函数,I为样本的图片模态数据,T为样本的文字模态数据;
Figure FDA0004181725160000032
为困难负样本的图片模态数据,/>
Figure FDA0004181725160000033
为困难负样本的文字模态数据,/>
Figure FDA0004181725160000034
为自适应相似性间隔参数;
Figure FDA0004181725160000035
Figure FDA0004181725160000036
Figure FDA0004181725160000037
其中,
Figure FDA0004181725160000041
为样本的修正标签,m为自适应系数,Ij为第j个样本的图片模态数据;Tj为第j个样本的文字模态数据;argmax为求取函数最大值对应自变量的运算符。
4.一种应用权利要求1所述方法的跨模态匹配系统,其特征在于,包括:神经网络预热子系统、数据划分子系统、标签协同修正子系统和神经网络训练子系统;
所述神经网络预热子系统用于根据多模态样本集,通过预热损失函数,对第一神经网络和第二神经网络进行预热;
所述数据划分子系统用于通过预热后的第一神经网络和第二神经网络,对多模态样本集进行数据划分;
所述标签协同修正子系统用于通过自适应预测函数,根据多模态样本集的数据划分结果,对多模态样本集进行标签协同修正;
所述神经网络训练子系统用于根据标签协同修正后的多模态样本集对第一神经网络和第二神经网络进行网络交叉训练。
5.一种跨模态匹配设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至3任一项所述的跨模态匹配方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的跨模态匹配方法。
CN202111129751.XA 2021-09-26 2021-09-26 一种跨模态匹配方法及系统 Active CN114067233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111129751.XA CN114067233B (zh) 2021-09-26 2021-09-26 一种跨模态匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111129751.XA CN114067233B (zh) 2021-09-26 2021-09-26 一种跨模态匹配方法及系统

Publications (2)

Publication Number Publication Date
CN114067233A CN114067233A (zh) 2022-02-18
CN114067233B true CN114067233B (zh) 2023-05-23

Family

ID=80233718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111129751.XA Active CN114067233B (zh) 2021-09-26 2021-09-26 一种跨模态匹配方法及系统

Country Status (1)

Country Link
CN (1) CN114067233B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114692778B (zh) * 2022-04-13 2023-07-25 北京百度网讯科技有限公司 用于智能巡检的多模态样本集生成方法、训练方法及装置
CN114998925B (zh) * 2022-04-22 2024-04-02 四川大学 一种面向孪生噪声标签的鲁棒跨模态行人重识别方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009103025A2 (en) * 2008-02-15 2009-08-20 Biometallix, Llc Reactor for extracting metals from metal sulfide containing materials and methods of use
CN105930873A (zh) * 2016-04-27 2016-09-07 天津中科智能识别产业技术研究院有限公司 一种基于子空间的自步跨模态匹配方法
CN108920648A (zh) * 2018-07-03 2018-11-30 四川大学 一种基于音乐-图像语义关系的跨模态匹配方法
CN110222560A (zh) * 2019-04-25 2019-09-10 西北大学 一种嵌入相似性损失函数的文本人员搜索方法
CN110728187A (zh) * 2019-09-09 2020-01-24 武汉大学 一种基于容错性深度学习的遥感影像场景分类方法
CN111275492A (zh) * 2020-02-07 2020-06-12 腾讯科技(深圳)有限公司 用户画像生成方法、装置、存储介质及设备
CN111898663A (zh) * 2020-07-20 2020-11-06 武汉大学 一种基于迁移学习的跨模态遥感图像的匹配方法
CN112106102A (zh) * 2019-07-30 2020-12-18 深圳市大疆创新科技有限公司 图像处理方法、系统、设备、可移动平台和存储介质
CN112366965A (zh) * 2020-12-05 2021-02-12 南京理工大学 针对逆变器延时的自适应预测结合零极点补偿控制方法
CN112836068A (zh) * 2021-03-24 2021-05-25 南京大学 一种基于带噪标签学习的无监督跨模态哈希检索方法
CN113033438A (zh) * 2021-03-31 2021-06-25 四川大学 一种面向模态非完全对齐的数据特征学习方法
CN113033622A (zh) * 2021-03-05 2021-06-25 北京百度网讯科技有限公司 跨模态检索模型的训练方法、装置、设备和存储介质
CN113051425A (zh) * 2021-03-19 2021-06-29 腾讯音乐娱乐科技(深圳)有限公司 音频表征提取模型的获取方法和音频推荐的方法
CN113065417A (zh) * 2021-03-17 2021-07-02 国网河北省电力有限公司 基于生成对抗式风格迁移的场景文本识别方法
CN113420783A (zh) * 2021-05-27 2021-09-21 中国人民解放军军事科学院国防科技创新研究院 一种基于图文匹配的智能人机交互方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10747811B2 (en) * 2018-05-22 2020-08-18 Adobe Inc. Compositing aware digital image search
DE112018007932T5 (de) * 2018-09-28 2021-06-17 Mitsubishi Electric Corporation Inferenzvorrichtung, inferenzverfahren und inferenzprogramm
US11599792B2 (en) * 2019-09-24 2023-03-07 Salesforce.Com, Inc. System and method for learning with noisy labels as semi-supervised learning

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009103025A2 (en) * 2008-02-15 2009-08-20 Biometallix, Llc Reactor for extracting metals from metal sulfide containing materials and methods of use
CN105930873A (zh) * 2016-04-27 2016-09-07 天津中科智能识别产业技术研究院有限公司 一种基于子空间的自步跨模态匹配方法
CN108920648A (zh) * 2018-07-03 2018-11-30 四川大学 一种基于音乐-图像语义关系的跨模态匹配方法
CN110222560A (zh) * 2019-04-25 2019-09-10 西北大学 一种嵌入相似性损失函数的文本人员搜索方法
CN112106102A (zh) * 2019-07-30 2020-12-18 深圳市大疆创新科技有限公司 图像处理方法、系统、设备、可移动平台和存储介质
CN110728187A (zh) * 2019-09-09 2020-01-24 武汉大学 一种基于容错性深度学习的遥感影像场景分类方法
CN111275492A (zh) * 2020-02-07 2020-06-12 腾讯科技(深圳)有限公司 用户画像生成方法、装置、存储介质及设备
CN111898663A (zh) * 2020-07-20 2020-11-06 武汉大学 一种基于迁移学习的跨模态遥感图像的匹配方法
CN112366965A (zh) * 2020-12-05 2021-02-12 南京理工大学 针对逆变器延时的自适应预测结合零极点补偿控制方法
CN113033622A (zh) * 2021-03-05 2021-06-25 北京百度网讯科技有限公司 跨模态检索模型的训练方法、装置、设备和存储介质
CN113065417A (zh) * 2021-03-17 2021-07-02 国网河北省电力有限公司 基于生成对抗式风格迁移的场景文本识别方法
CN113051425A (zh) * 2021-03-19 2021-06-29 腾讯音乐娱乐科技(深圳)有限公司 音频表征提取模型的获取方法和音频推荐的方法
CN112836068A (zh) * 2021-03-24 2021-05-25 南京大学 一种基于带噪标签学习的无监督跨模态哈希检索方法
CN113033438A (zh) * 2021-03-31 2021-06-25 四川大学 一种面向模态非完全对齐的数据特征学习方法
CN113420783A (zh) * 2021-05-27 2021-09-21 中国人民解放军军事科学院国防科技创新研究院 一种基于图文匹配的智能人机交互方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Dividemix: Learning with noisy labels as semi-supervised learning";Junnan Li等;《arXiv》;第1-11页 *
"Imram: Iterative matching with recurrent attention memory for cross-modal image-text retrieval";Hui Chen等;《In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition》;第12655–12663页 *
"Similarity reasoning and filtration for image-text matching";Haiwen Diao等;《In AAAI》;第35卷(第2期);第1-12页 *
"基于分治思想粗匹配和精微匹配相结合的跨模态检索算法";苏林等;《智能计算机与应用》;第10卷(第6期);第272-284页 *
"基于变分贝叶斯高斯混合噪声模型的机器人跨模态生成对抗网络";熊鹏文等;《中国科学》;第51卷(第1期);第104-121页 *

Also Published As

Publication number Publication date
CN114067233A (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
Yu et al. Multimodal transformer with multi-view visual representation for image captioning
Chen et al. Progressively complementarity-aware fusion network for RGB-D salient object detection
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
US20180232601A1 (en) Deep Active Learning Method for Civil Infrastructure Defect Detection
CN114067233B (zh) 一种跨模态匹配方法及系统
WO2022068195A1 (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
Yoon et al. Image-to-image retrieval by learning similarity between scene graphs
CN111105013B (zh) 对抗网络架构的优化方法、图像描述生成方法和系统
CN111428058B (zh) 基于mcm的智适应复习资源推送方法
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN116097250A (zh) 用于多模式文档理解的布局感知多模式预训练
Vallet et al. A multi-label convolutional neural network for automatic image annotation
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN111782804B (zh) 基于TextCNN同分布文本数据选择方法、系统及存储介质
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
CN116049367A (zh) 一种基于无监督知识增强的视觉-语言预训练方法及装置
Yang et al. Bicro: Noisy correspondence rectification for multi-modality data via bi-directional cross-modal similarity consistency
Lodhi et al. Deep Neural Network for Recognition of Enlarged Mathematical Corpus
Yang et al. Finding badly drawn bunnies
CN115757112A (zh) 基于变异分析的测试子集构建方法及相关设备
US20200410290A1 (en) Information processing apparatus and information processing method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant