CN114067233B

CN114067233B - 一种跨模态匹配方法及系统

Info

Publication number: CN114067233B
Application number: CN202111129751.XA
Authority: CN
Inventors: 彭玺; 黄振宇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2023-05-23
Anticipated expiration: 2041-09-26
Also published as: CN114067233A

Abstract

本发明公开了一种跨模态匹配方法及系统，涉及计算机多模态学习领域，包括：神经网络预热子系统、数据划分子系统、标签协同修正子系统和神经网络训练子系统。本发明设计了基于两神经网络的跨模态匹配方法，在两神经网络预热之后，自适应地协同修正多模态样本的标签，并通过标签修正后的多模态样本集交叉训练两神经网络，使跨模态匹配具有鲁棒性，能应对错误对齐的多模态数据。

Description

一种跨模态匹配方法及系统

技术领域

本发明涉及计算机多模态学习领域，具体涉及一种跨模态匹配方法及系统。

背景技术

跨模态匹配作为多模态学习中最基本的技术之一，旨在连接不同的模态，实现跨模态数据的精准匹配。近年来，一些基于深度神经网络(DNN，Deep Neural Networks)的跨模态匹配方法被提出，在多种应用中取得了显著的进展，如图像/视频的描述生成、跨模态检索和视觉问题回答。

跨模态匹配可以分为两类：1)粗粒度的匹配。它通常利用多个神经网络来计算一个全局特征，每个网络用于一个特定的模式。例如，通过使用一个卷积神经网络(CNN，Convolutional Neural Networks)和一个门控递归单元(GRU，Gated Recurrent Unit)来获得图像和文本特征，同时强制要求正数对的相似度大于负数对的相似度。2)细粒度匹配。通过测量跨模态匹配的细粒度相似性。例如，通过由自下而上的注意力和图神经网络(GRN，Graph Neural Networks)学习图像区域和单词之间的潜在语义对应关系，并实现跨模态匹配。

跨模态匹配的成功取决于一个隐含的数据假设，即训练数据在不同模态间正确对齐。例如，在视觉和语言任务中，文本需要准确描述图像内容，反之亦然。然而，在工程中，注释或收集这样的数据对是非常耗时、耗人力的，尤其是互联网上收集的数据。互联网数据在收集过程中不可避免地出现不匹配的数据对，这些数据对也易被错误地当作匹配的数据。

发明内容

针对现有技术中的上述不足，本发明提供的一种跨模态匹配方法及系统解决了现有跨模态匹配方法无法正确处理错误对齐的多模态数据的问题。

为了达到上述发明目的，本发明采用的技术方案为：

第一方面，一种跨模态匹配方法，包括以下步骤：

S1、初始化多模态信息，构建多模态样本集；

S2、建立第一神经网络和第二神经网络，并根据多模态样本集，通过预热损失函数，对第一神经网络和第二神经网络进行预热；

S3、通过预热后的第一神经网络和第二神经网络，对多模态样本集进行数据划分；

S4、通过自适应预测函数，根据多模态样本集的数据划分结果，对多模态样本集进行标签协同修正；

S5、根据标签协同修正后的多模态样本集对第一神经网络和第二神经网络进行网络交叉训练；

S6、判断第一神经网络和第二神经网络是否均已收敛，若是，则跳转至步骤S7，若否，则跳转至步骤S3；

S7、通过已收敛的第一神经网络和第二神经网络完成跨模态匹配。

本发明的有益效果为：设计了基于两神经网络的跨模态匹配方法，在两神经网络预热之后，自适应地协同修正多模态样本的标签，并通过标签修正后的多模态样本集交叉训练两神经网络，使跨模态匹配具有鲁棒性，能应对错误对齐的多模态数据。

进一步地，所述步骤S1构建的多模态样本集中的每一个样本均包括样本数据和样本标签。

进一步地，所述样本数据包括图片模态数据和文字模态数据。

进一步地，所述步骤S2的预热损失函数为：

其中，L_warmup(I_i,T_i)为预热损失函数；I_i为第i个样本的图片模态数据；T_i为第i个样本的文字模态数据；α为相似性间隔参数；

为与I_i不匹配的文字模态数据；/>

为与T_i不匹配的图片模态数据；S(·)为图片模态与文字模态的相似性函数；[·]₊为取正函数，若[·]₊的自变量不小于0，则[·]₊值为自变量数值，若[·]₊的自变量小于0，则[·]₊值为0。

进一步地，所述步骤S3包括以下分步骤：

S31、通过预热后的第一神经网络处理多模态样本集，求得每个样本的第一神经网络预热损失函数值，构建多模态样本集第一神经网络预热损失函数值分布；

S32、对多模态样本集第一神经网络预热损失函数值分布进行2分量的高斯混合模型建模，并将建模后高斯混合模型中均值较小的分量模型得到的样本后验概率作为样本第一干净置信度；

S33、将样本第一干净置信度大于干净置信度阈值的样本划分入第一干净子集，并将样本第一干净置信度小于干净置信度阈值的样本划分入第一噪声子集；

S34、通过预热后的第二神经网络处理多模态样本集，求得每个样本的第二神经网络预热损失函数值，构建多模态样本集第二神经网络预热损失函数值分布；

S35、对多模态样本集第二神经网络预热损失函数值分布进行2分量的高斯混合模型建模，并将建模后高斯混合模型中均值较小的分量模型得到的样本后验概率作为样本第二干净置信度；

S36、将样本第二干净置信度大于干净置信度阈值的样本划分入第二干净子集，并将样本第二干净置信度小于干净置信度阈值的样本划分入第二噪声子集。

上述进一步方案的有益效果为：本发明通过上述方案，实现了一种新的标签范式，即：将错误对齐的多模态数据视为噪声对应。与传统的噪声标签不同，本发明噪声对应是配对数据中的对齐错误，而不是类别注释的错误。本发明通过高斯混合模型分析多模态样本集经预热后神经网络计算得出的损失函数值分布，以后验概率的大小进行噪声判断，遴选出的噪声子集样本，即为错误对齐的样本。以此实现了多模态样本集的数据划分，准确识别了错误对齐的样本。

进一步地，所述步骤S4中进行标签协同修正的表达式为：

/>

其中，

为第二神经网络划分处理的多模态样本集；/>

为第二干净子集，/>

为第二噪声子集；/>

为第一神经网络划分处理的多模态样本集，/>

为第一干净子集，/>

为第一噪声子集；/>

为第一或第二干净子集中的第i个样本的图片模态数据，/>

为第一或第二干净子集中的第i个样本的文字模态数据；/>

为第一或第二噪声子集中的第i个样本的图片模态数据，/>

为第一或第二噪声子集中的第i个样本的文字模态数据；w_i为第i个样本的第一或第二干净置信度；/>

为第一或第二噪声子集中第i个样本的标签，/>

为第一或第二干净子集中第i个样本的修正标签，/>

为第一或第二噪声子集中第i个样本的修正标签；

P(·)为自适应预测函数：

P(I_i,T_i)＝Θ(s)/τ

其中，Θ(·)为裁剪函数，b为训练批次数值，s为相似性参数，τ为图片模态与文字模态的相似性从大到小排序前N％的样本的平均相似性差值，N为小于100的正数。

上述进一步方案的有益效果为：第一神经网络划分的结果和第二神经网络划分的结果相互协同，并通过基于了统计学建立的自适应预测函数进行标签修正，对错误对齐的多模态数据的修改有显著的效果，增加了本发明方法的鲁棒性。

进一步地，所述步骤S5的方法为：根据标签协同修正后的第二神经网络划分处理的多模态样本集，通过训练阶段损失函数，训练第一神经网络；根据标签协同修正后的第一神经网络划分处理的多模态样本集，通过训练阶段损失函数，训练第二神经网络；所述训练阶段损失函数为：

其中，L_soft为训练阶段损失函数，I为样本的图片模态数据，T为样本的文字模态数据；

为困难负样本的图片模态数据，/>

为困难负样本的文字模态数据，/>

为自适应相似性间隔参数；

其中，

为样本的修正标签，m为自适应系数，I_j为第j个样本的图片模态数据；T_j为第j个样本的文字模态数据；argmax为求取函数最大值对应自变量的运算符。

上述进一步方案的有益效果为：使用第二神经网络划分处理的多模态样本集训练第一神经网络，并使用第一神经网络划分处理的多模态样本集训练第二神经网络，构成交叉训练方法，相互修补误差，奠定高质量鲁棒性跨模态匹配的基础。

第二方面，一种跨模态匹配系统，包括：神经网络预热子系统、数据划分子系统、标签协同修正子系统和神经网络训练子系统；

所述神经网络预热子系统用于根据多模态样本集，通过预热损失函数，对第一神经网络和第二神经网络进行预热；

所述数据划分子系统用于通过预热后的第一神经网络和第二神经网络，对多模态样本集进行数据划分；

所述标签协同修正子系统用于通过自适应预测函数，根据多模态样本集的数据划分结果，对多模态样本集进行标签协同修正；

所述神经网络训练子系统用于根据标签协同修正后的多模态样本集对第一神经网络和第二神经网络进行网络交叉训练。

第三方面，一种跨模态匹配设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述的跨模态匹配方法的步骤。

第四方面，一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的跨模态匹配方法。

附图说明

图1为本发明实施例提供的一种跨模态匹配方法流程示意图；

图2为本发明实施例提供的一种跨模态匹配系统结构图；

图3为本发明实施例提供的一种跨模态匹配设备结构图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，在本发明的一个实施例中，一种跨模态匹配方法，包括以下步骤：

S1、初始化多模态信息，构建多模态样本集。

多模态样本集中的每一个样本均包括样本数据和样本标签。在本实施例中，样本数据包括图片模态数据和文字模态数据。

S2、建立第一神经网络和第二神经网络，并根据多模态样本集，通过预热损失函数，对第一神经网络和第二神经网络进行预热。

预热损失函数为：

为与I_i不匹配的文字模态数据；/>

S3、通过预热后的第一神经网络和第二神经网络，对多模态样本集进行数据划分。

步骤S3包括以下分步骤：

S31、通过预热后的第一神经网络处理多模态样本集，求得每个样本的第一神经网络预热损失函数值，构建多模态样本集第一神经网络预热损失函数值分布。

S32、对多模态样本集第一神经网络预热损失函数值分布进行2分量的高斯混合模型建模，并将建模后高斯混合模型中均值较小的分量模型得到的样本后验概率作为样本第一干净置信度。

S33、将样本第一干净置信度大于干净置信度阈值的样本划分入第一干净子集，并将样本第一干净置信度小于干净置信度阈值的样本划分入第一噪声子集。

S34、通过预热后的第二神经网络处理多模态样本集，求得每个样本的第二神经网络预热损失函数值，构建多模态样本集第二神经网络预热损失函数值分布。

S35、对多模态样本集第二神经网络预热损失函数值分布进行2分量的高斯混合模型建模，并将建模后高斯混合模型中均值较小的分量模型得到的样本后验概率作为样本第二干净置信度。

本发明通过上述方案，实现了一种新的标签范式，即：将错误对齐的多模态数据视为噪声对应。与传统的噪声标签不同，本发明噪声对应是配对数据中的对齐错误，而不是类别注释的错误。本发明通过高斯混合模型分析多模态样本集经预热后神经网络计算得出的损失函数值分布，以后验概率的大小进行噪声判断，遴选出的噪声子集样本，即为错误对齐的样本。以此实现了多模态样本集的数据划分，准确识别了错误对齐的样本。

S4、通过自适应预测函数，根据多模态样本集的数据划分结果，对多模态样本集进行标签协同修正，其表达式为：

其中，

为第二神经网络划分处理的多模态样本集；/>

为第二干净子集，/>

为第二噪声子集；/>

为第一神经网络划分处理的多模态样本集，/>

为第一干净子集，/>

为第一噪声子集；/>

为第一或第二干净子集中的第i个样本的图片模态数据，/>

为第一或第二干净子集中的第i个样本的文字模态数据；/>

为第一或第二噪声子集中的第i个样本的图片模态数据，/>

为第一或第二噪声子集中第i个样本的标签，/>

为第一或第二干净子集中第i个样本的修正标签，/>

为第一或第二噪声子集中第i个样本的修正标签；/>

P(·)为自适应预测函数：

P(I_i,T_i)＝Θ(s)/τ

在本实施例中，N为10。

第一神经网络划分的结果和第二神经网络划分的结果相互协同，并通过基于了统计学建立的自适应预测函数进行标签修正，对错误对齐的多模态数据的修改有显著的效果，增加了本发明方法的鲁棒性。

S5、根据标签协同修正后的多模态样本集对第一神经网络和第二神经网络进行网络交叉训练。

在本实施例中，具体为：根据标签协同修正后的第二神经网络划分处理的多模态样本集，通过训练阶段损失函数，训练第一神经网络；根据标签协同修正后的第一神经网络划分处理的多模态样本集，通过训练阶段损失函数，训练第二神经网络；所述训练阶段损失函数为：

为困难负样本的图片模态数据，/>

为困难负样本的文字模态数据，/>

为自适应相似性间隔参数；

其中，

使用第二神经网络划分处理的多模态样本集训练第一神经网络，并使用第一神经网络划分处理的多模态样本集训练第二神经网络，构成交叉训练方法，相互修补误差，奠定高质量鲁棒性跨模态匹配的基础。

S6、判断第一神经网络和第二神经网络是否均已收敛，若是，则跳转至步骤S7，若否，则跳转至步骤S3。

上文对于本发明实施例提供的一种跨模态匹配方法进行了详细的描述，本发明还提供了一种与该方法对应的跨模态匹配系统、设备及计算机可读存储介质。

如图2所示，本发明实施例提供的一种跨模态匹配系统，包括：神经网络预热子系统、数据划分子系统、标签协同修正子系统和神经网络训练子系统；

神经网络预热子系统用于根据多模态样本集，通过预热损失函数，对第一神经网络和第二神经网络进行预热；

数据划分子系统用于通过预热后的第一神经网络和第二神经网络，对多模态样本集进行数据划分；

标签协同修正子系统用于通过自适应预测函数，根据多模态样本集的数据划分结果，对多模态样本集进行标签协同修正；

神经网络训练子系统用于根据标签协同修正后的多模态样本集对第一神经网络和第二神经网络进行网络交叉训练。

如图3所示，本发明实施例提供的一种跨模态匹配设备，包括：

存储器，用于存储计算机程序；

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的跨模态匹配方法。

为了进一步解释本方法，本发明实施例还结合三个多模态数据集进行了试验。为了体现方法的优越性，对比了多个先进的跨模态匹配方法，并采用R@1，R@5，R@10作为衡量指标。R@K定义为检索数据中前K个样本中返回正确样本的百分比，值越大说明检索准确度越高，效果越好。

试验1：

使用Flickr30K数据集进行试验。该数据集包含31,000张从Flickr网站上收集的图片，每张图片有五个文本描述，均由专家标记。选取1,000张图片进行验证，1,000张图片进行测试，其余的用于训练(29000张图片)。该数据本身无噪声，为了测试本方法对噪声的鲁棒性，随机打乱一部分训练数据，比例为0％(无噪声)，20％(20％噪声)，50％(50％噪声)。试验结果如下：

表1 Flickr30K数据集测试结果

从表格中可以看到，针对不同比例的噪声(包含无噪声)，本方法相比其他现有技术(SCAN法、VSRN法、IMRAM法和SGR法)在三个指标上均有比较大的提升，意味着在实际应用中，即使不确定噪声比例情况下，本方案也能很好地消除噪声样本的影响，提高了模型的鲁棒性。

试验2：

使用MS-COCO数据集进行试验。该数据集包含123,287张图片，每张图片有五个文本描述，均由专家标记。选取5,000张图片进行验证，5,000张图片进行测试，其余的用于训练(113,287张图片)。该数据本身无噪声，为了测试本方法对噪声的鲁棒性，随机打乱一部分训练数据，比例为0％(无噪声)，20％(20％噪声)，50％(50％噪声)。测试结果为将5000测试样本均分为5个1000子集进行测试，结果求均值。其试验结果如下：

表2 MS-COCO数据集测试结果

从表格中可以看到，针对不同比例的噪声(包含无噪声)，本方法相比其他方法在三个指标上均有比较大的提升，意味着在实际应用中，即使不确定噪声比例情况下，本方案也能很好地消除噪声样本的影响，提高了模型的鲁棒性。

试验3：

使用Conceptual Captions(CC)数据集进行试验。CC是一个大规模的数据，包括300多万张图片，每张图片对应一个文本描述。由于这个数据集是从互联网上获取而非专家标注，大约有3％～20％的图文对应关系是错误的，为真实存在的噪声。本次试验，抽取该数据集150,000个样本进行训练，从验证部分选择1,000个样本进行验证，并从验证部分选择1,000个样本进行测试。其试验结果如下：

表3 Conceptual Captions数据集测试结果

从表格中可以看到，针对真实环境中存在的噪声，本方法相比其他方法在三个指标上均有比较大的提升，意味着在实际应用中，本方案能很好地消除噪声样本的影响，提高模型的鲁棒性，验证了本方法的有效性和优越性。

除上述三个试验，本发明实施例还特别适用于生物图片识别领域，如图片模态为狗的照片，文字模态为关于狗的描述的多模态数据的匹配。

综上，本发明设计了基于两神经网络的跨模态匹配方法，在两神经网络预热之后，自适应地协同修正多模态样本的标签，并通过标签修正后的多模态样本集交叉训练两神经网络，使跨模态匹配具有鲁棒性，能应对错误对齐的多模态数据。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。