CN117252274A

CN117252274A - 一种文本音频图像对比学习方法、装置和存储介质

Info

Publication number: CN117252274A
Application number: CN202311534788.XA
Authority: CN
Inventors: 朱斯丹; 罗迪新; 许洪腾
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-11-17
Filing date: 2023-11-17
Publication date: 2023-12-19
Anticipated expiration: 2043-11-17
Also published as: CN117252274B

Abstract

本发明提供了一种文本音频图像对比学习方法，通过在多模态对比学习框架中增加最优传输正则化项，从而可以无监督学习和发掘非对齐的文本、音频、图像三模态数据中隐藏的对齐信息，适用于部分非对齐的文本、音频、图像三模态数据，促进并规范文本、音频、图像对比学习，学习具有更好泛化能力的文本、音频、图像模态表示模型。本发明还提供了一种文本音频图像对比学习装置、存储介质。

Description

一种文本音频图像对比学习方法、装置和存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种文本音频图像对比学习方法、装置和存储介质。

背景技术

不同存在形式或信息来源均可被称为不同的模态，在计算机视觉领域的狭义的多模态数据指的是多媒体数据，主要为文本、图像、音频、视频等数据。为了分析和利用多模态数据，多模态数据的表示学习是重要的基础，在图像描述、文本引导图片生成、语音识别、情感分类等应用中起着核心作用。多模态对比学习是一种常用的多模态表示学习方法。将具有相同语义的数据称为正样本对，具有不同语义的数据称为负样本对，多模态对比学习的主要思想是最小化正样本对的概率，最大化负样本对的概率，从而使得具有相同语义的来自不同模态的数据发生聚类。

最优传输（Optimal Transport，简称OT）的内容是：给定两个定义在度量空间上的分布，OT的目的是寻找到一个联合分布，使其取这两个分布为边际且最小化样本之间的成对距离的期望，此时的联合分布称为最优传输方案，表示为一个矩阵。当成对样本的距离的度量是基于范数的距离时，期望距离的最小值称两个分布间的Wasserstein距离。将上述不同模态的数据看做是不同分布中的样本，此时最优传输方案可以看做两个不同分布下样本之间的对应关系，矩阵中的数值可以看做是来自不同模态的两个数据具有相同语义的概率。

现有的多模态对比学习方法在模型训练阶段使用的是对齐关系完整的多模态数据。在此条件下，数据被表示为隐空间上嵌入后可以计算对比学习损失，常见的对比学习损失有：噪声对比估计（Noise Contrastive Estimation，简称NCE）、三元组损失等（Tripletloss）。将任意一个嵌入作为锚点嵌入，NCE损失的目的在于增加锚点嵌入与其正样本嵌入被分为相同类别的概率，同时惩罚锚点嵌入与其负样本嵌入的被分为相同类别的概率；三元组损失的目的在于拉进锚点嵌入与其正样本嵌入在隐空间上的距离，并将负样本嵌入推远。除了上述对比损失外，有的方法在多模态对比学习框架中经常引入两种正则化项。首先是引入了各个模态对应的解码器后，将嵌入重构为每个模态的目标表示并进而计算对比学习的正样本对间损失。该正则化项可以确保每个模态的信息都被充分利用，并且减少过拟合的风险。另外，重构数据所在空间称为样本空间，于是可以进一步在样本空间上引入考虑重构数据的对比损失作为正则化项。

（一）数据对齐情况下的多模态对比学习

假设有来自K种模态的一组样本，即，其中/>包含第k种模态的/>个样本。多模态对比学习的目标是学习K个模态对应的K个编码器来表示多模态数据在d维隐空间中的嵌入表示，即/>，其中/>是第k种模态的样本空间，/>是隐空间。对于第k种模态，样本的嵌入表示为/>，它应该反映出样本的聚类结构，并与其他模态的嵌入语义对齐。例如，对于动物图像及其文本描述，无论是在音频、视频还是文本领域中，“猫”和“狗”的嵌入都应该属于不同的聚类。并且对于每个类别，它们的文本嵌入都应该接近它们的音频嵌入和视频嵌入，属于相同类别的音频嵌入也应该与视频嵌入接近，整体的聚类效果越明显越好。

当数据对齐关系完整时，即，其中/>代表属于相同类别的来自不同模态样本的第n个元组，于是可以在对比学习框架下学习各自模态对应的编码器。具体来讲，向编码器中输入对应模态的数据，可以相应地得到该模态数据的嵌入表示。将每个/>视为锚点嵌入，将与/>所属同一元组中的来自其他模态的嵌入视为正样本集合，表示为/>。相反，从不包含/>的其他元组中随机抽取一组嵌入称为负样本集合，表示为/>。每个锚点嵌入分别与正负样本集合中的数据组成正负样本对。因此，可以通过最小化以下对比损失来学习表示模型（即编码器）：

这里的为锚点嵌入，/>表示每个锚点嵌入的对比损失，对比损失有多种计算方式，如上述NCE损失和三元组损失等。以三元组损失为例，对比损失表示为：/>

其中μ是一个超参数，的计算方法是如果/>则输出a，否则会输出b。这种三元组损失函数/>=max(d(z, z+)-d(z, z-)+μ,0)已经在广义零样本跨模态学习中广泛应用。

另外，除了对比损失外，有些方法还会加入以下的两种正则化项，分别是重构损失和样本空间中的重构数据对比损失。首先，引入K个与目标编码器相关联的解码器，即。这些解码器用于解码各个模态的目标表示，得到各个表示的重构数据，并计算重构数据中组成的正样本对间的对比损失，从而确保每个模态的信息都被充分利用，减少过拟合风险。其次，可以使用一个/>范数正则化项/>来限制所有编码器的权重范数，以避免模型过于复杂，其中/>表示第i个编码器的参数，p为正则化参数，/>为正则化系数。通过控制p和/>的取值来平衡模型的复杂度和性能。于是重构损失如下所示：

其中表示欧几里得距离。在样本空间中进一步引入对比损失后，可以计算出重构数据的对比损失，以三元组损失为例：

总结以上所有损失，可以通过解决以下问题实现多模态对比学习：

（二）部分数据对齐情况下的多模态对比学习

正如前文所述，现实世界中多模态数据通常是部分对齐的，由少量对齐信息完整的样本和大量非对齐的样本/>组成，其中/>包含第k个模态的第/>个样本，并且对于/>，/>与/>之间的对应关系未知。给定这样部分对齐的多模态数据时，对比学习的关键——正负样本对的构建会受到影响，如图1所示，正样本对（方向相对箭头所连接的数据对）由于仅能从对齐数据中产生，故数量远小于负样本对；而非对齐数据由于缺乏对齐信息，故仅能用于产生负样本对（方向相背箭头所连接的数据对），并且在随机产生负样本对时有一定概率构建出两个数据属于相同类别的假负样本对（方向相背虚线箭头所连接的数据对），于是会造成训练时的干扰。

现有的多模态对比学习方法要求使用具有良好对齐关系的多模态数据进行训练（例如图像-文本对，音频-视频对等），以建立不同模态数据之间的联系，使模型能够更好地理解多模态数据的内在关联性。然而，由于收集与处理大量对齐的多个模态数据的时间成本很高，现实场景中的数据通常只是部分对齐的，即包含一小部分对齐良好的数据和大量非对齐的数据。这一设定会影响多模态对比学习模型的训练，进而限制模型在下游任务中的应用场景和性能。现有的多模态对比学习方法往往没有考虑现实场景中数据存在对齐信息缺乏的情况，默认模型训练阶段使用的是对齐关系完整的多模态数据。在数据集中的数据部分对齐时，正样本对仅由对齐数据产生，非对齐数据仅能产生负样本对。在这一场景下，以上对比学习框架仍然适用，但面临以下挑战：

1）过拟合风险增加：当对齐信息完整的数据不足时，构建的正样本过少，负样本过多，在训练过程中模型可能会遭受过拟合问题。

2）模型规范化错误更严重：已知对比学习可能会引入一些偏差到表示模型中，因为锚点嵌入和随机抽取的数据可能会导致一些错误的负样本对。在给定部分对齐的多模态数据的情况下，这个问题变得更加严重，因为非对齐的数据通常包含跨不同模态的（未知）对应关系，因此通过对未对齐的数据进行采样来构建负样本对可能会产生大量错误的负样本对，并导致模型训练出现错误。

发明内容

本发明要解决的技术问题是，提供一种能够推断非对齐数据中隐藏的对应关系，有效发掘正样本对，减少假负样本对，促进并规范文本、音频、图像三种模态数据对比学习的方法、装置和存储介质。

为解决上述技术问题，本发明提供一种文本音频图像对比学习方法，包括以下步骤：

S1，从部分对齐的文本、音频和图像三种模态的数据集中选择语义匹配的各模态数据，生成由具有相同语义的“文本-音频-图像”数据对组成的对齐样本数据集，数据集中不属于对齐样本数据集的数据集合构成非对齐样本数据集，完整数据集由对齐样本数据集和非对齐样本数据集两部分组成；

S2，随机初始化文本、音频和图像三种模态的编码器和解码器，完整数据集中的数据经过其所属模态的编码器后得到相应嵌入，任意嵌入根据其语义与其他嵌入组成该嵌入的正样本对集合和负样本对集合，所述正样本对集合的来源为对齐样本数据集中来自不同模态的语义相同的数据组成的嵌入对，所述负样本对集合的来源为对齐样本数据集中语义不同的嵌入对，以及非对齐样本数据集中从各个模态中随机抽取数据所组成的嵌入对；

S3，将每个嵌入作为锚点嵌入，基于该嵌入的正样本对集合和负样本对集合计算多模态对比损失函数，所述多模态对比损失函数由嵌入间的对比损失函数、嵌入经过解码器后生成的重构数据与原始数据之间的重构误差函数、重构数据间的对比损失函数组成，所述对比损失函数为三元组损失函数或噪声对比估计损失函数，所述重构误差函数为重构数据和原始数据的均方误差；

S4，计算最优传输距离，将最优传输距离作为最优传输正则化项，设置最优传输正则化项的权重，所述权重取值为（0,1）区间的任意实数；

S5，将加权后的最优传输正则化项加入步骤S3中所述多模态对比损失函数，构成新损失函数，使用随机梯度下降法最小化新损失函数，调整文本、音频、图像各模态对应的编码器和解码器的参数直到训练结束。

优选的，步骤S4中所述最优传输距离的具体计算步骤为：

S4201，选择文本、音频和图像三种模态中的任意两个模态，计算所有任意两个模态下的任意两个嵌入之间的欧几里得距离，组成距离矩阵D；

S4202，采用Sinkhorn算法计算所有任意两个模态间的传输方案，表示为，其中/>表示熵正则化权重，/>表示内层最大迭代次数；

S4203，计算所有任意两个模态间的Wasserstein距离，所述Wasserstein距离的计算方法为计算距离矩阵D与传输方案的内积；

S4204，将所有Wasserstein距离相加，得到最优传输距离。

优选的，步骤S4中所述最优传输距离的具体计算步骤为：

S4301，将文本、音频和图像三种模态中的任一模态作为参考模态，分别计算参考模态与其他两个模态下任意两个嵌入之间的欧几里得距离，组成距离矩阵；

S4302，从文本、音频和图像三种模态中各选择一个嵌入，计算所有嵌入两两间欧几里得距离之和，组成文本、音频和图像三种模态间的距离张量；

S4303，采用Sinkhorn算法计算参考模态与其他两个模态间的传输方案，通过线性搜索方法计算包含所有模态的最优传输方案；

S4304，计算最优传输方案与距离张量之间的内积，得到最优传输距离。

优选的，步骤S4中所述最优传输距离的具体计算步骤为：

S4401，设置重心，所述重心由随机初始化的多个嵌入组成，计算重心与文本、音频和图像各个模态的任意两个嵌入之间的欧几里得距离，组成距离矩阵；

S4402，采用Sinkhorn算法计算重心与文本、音频和图像各个模态间的传输方案，表示为/>，其中/>表示熵正则化权重，/>表示内层最大迭代次数；

S4403，将所有模态的嵌入组成矩阵，与各自的传输方案做内积运算后所得的所有矩阵相加，进行归一化后得到更新后的重心，更新重心与各个模态的距离矩阵，重复本步骤直到达到外层最大迭代次数；

S4404，计算最后一次迭代仕计算出的重心与文本、音频和图像各个模态间的距离矩阵与传输方案的内积的和，得到最终重心与文本、音频和图像各个模态间的Wasserstein距离；

S4405，计算最终重心与文本、音频和图像各个模态间的Wasserstein距离之和，得到最优传输距离。

优选的，步骤S4中最优传输正则化项的权重取值为0.001或0.01。

优选的，所述熵正则化权重的取值为1000，所述内层最大迭代次数/>的取值为20，所述外层最大迭代次数/>的取值为100。

本发明还提供一种文本音频图像对比学习装置，包括非易失性存储器和一个或多个处理器，所述非易失性存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，用于实现前面所述的一种文本音频图像对比学习方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行前面所述文本音频图像对比学习方法。

本发明相对于现有技术，具有以下有益效果：

针对使用部分对齐文本音频图像数据进行对比学习训练时，存在过拟合风险增加以及模型规范化错误更严重的问题，本发明基于最优传输提出了一种无监督学习非对齐文本音频图像数据背后对齐信息的方法，能够有效发掘正样本对，从而缓解对比学习面临的挑战，增强了文本、音频、图像三模态数据部分对齐条件下的对比学习。

最优传输为两个不同的概率分布提供了一种定量度量的方式。假设是一个度量空间，μ和v是该空间内的两个概率分布。它们之间的Wasserstein距离定义为：

目标是最小化空间内样本之间的期望距离。对应于最小期望的样本对的联合分布称为最优传输方案，表示为。方案可行域为/>其中包含所有以μ和v为边缘分布的联合分布。

假定上述两个分布定义在语义隐空间上，分布中的样本是两种不同模态的嵌入。给定两种模态的嵌入，即和/>，它们之间的Wasserstein距离为：

其中，是根据嵌入计算欧几里得距离进而组成的矩阵。是T的边际约束条件，分别表示/>的经验分布。在没有任何先验信息的情况下，通常假设μ和v是均匀分布。/>是传输方案，其可行域是集合/>。

计算Wasserstein距离并不需要具有对其关系的嵌入，相反，最优传输方案供了有用的模态对齐信息。其中/>表示/>的一致性概率，也就是二者具有对齐关系从而互为对方正样本的概率，/>越高，应该学习的距离/>越小。因此，当和来自非对齐的多模态数据时，它们之间的最优传输方案有助于识别一些潜在的正样本对。对于每个/>，当/>时，/>被视为其正样本对。

因此，通过不同模态的嵌入之间的Wasserstein距离来构建基于最优传输的对比学习正则化项，该正则化项适用于对齐和非对齐的多模态数据，即对进行惩罚，规范了第k个模态的潜在分布与第/>个模态的潜在分布之间的差异，从而有助于增强不同模态之间的语义一致性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是正负样本对的构建示意图。

图2本发明具体实施方式提供的文本、音频、图像三种模态数据对比学习流程图。

图3是将不同正则化项分别加入CJME基线方法后所训练的模型在三种广义零样本跨模态检索任务上的性能结果，其中菱形线条是CJME基线方法的训练性能，三角形线条是加入成对Wasserstein距离（Pairwise OT）正则化项的训练性能，五角星线条是加入多边际最优传输（MMOT）正则化项的训练性能，圆形线条是加入Wasserstein重心（WB）正则化项的训练性能。

图4是将不同正则化项分别加入AVGZSLNet基线方法后所训练的模型在三种广义零样本跨模态检索任务上的性能结果，其中菱形线条是AVGZSLNet基线方法的训练性能，三角形线条是加入成对Wasserstein距离（Pairwise OT）正则化项的训练性能，五角星线条是加入多边际最优传输（MMOT）正则化项的训练性能，圆形线条是加入Wasserstein重心（WB）正则化项的训练性能。

图5是本发明具体实施方式提供的文本、音频、图像三种模态数据对比学习装置结构图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面结合具体的实施方式对本发明做进一步的解释说明。

具体实施例1

如图2所示，一种文本音频图像对比学习方法，包括以下步骤：

步骤S1，随机初始化编码器和解码器，其中/>为第k个模态的编码器，为第k个模态的解码器，/>；

步骤S2，设置最优传输正则化项的权重为（0,1）区间内的任意实数；

步骤S3，对于每个模态k，计算嵌入和嵌入/>，其中，/>为第k个模态的对齐样本数据集，/>为第k个模态的非对齐样本数据集；

步骤S4，对于中的每个锚点嵌入/>，分别构建/>，其中/>，N为样本个数，/>为从对应关系完整的来自不同模态的对齐数据嵌入中构建的每个嵌入的正样本对集合，/>为从对齐数据嵌入中选择语义不同的嵌入对，以及从非对齐数据嵌入中任意抽取嵌入对来构建的负样本对组成的集合；

步骤S5，基于元组计算多模态对比损失/>，

其中，为每个锚点嵌入/>的对比损失，

为三元组损失函数或噪声对比估计损失函数，/>为重构损失，/>为第k个模态的对齐样本数据集中的第n个数据，/>，N为样本个数，/>表示欧几里得距离，/>为重构数据对比损失，；

步骤S6，对于，计算最优传输距离/>；

步骤S7，使用随机梯度下降法最小化损失函数L，，调整模型参数，得到文本、音频、图像三个模态对应的编码器和解码器/>。

具体实施例2

在文本、音频、图像三种模态的情况下，实现基于最优传输的正则化项的一种直接方法是考虑所有模态之间的Wasserstein距离。该正则化项的公式为：

，

其中，任意两个模态间的Wasserstein距离可以通过Sinkhorn算法近似解决。该算法对传输方案施加熵正则化并将Wasserstein距离松弛为一个严格凸优化问题，即。因此，具体实施例1中步骤S6中最优传输距离/>的计算步骤如下：

步骤S6201，选择任意两个模态k和k'，两个模态下的所有嵌入分别为，两个模态下嵌入的个数分别为/>个和/>个，计算两个模态下任意两个嵌入之间的欧几里得距离，组成距离矩阵/>；

步骤S6202，构造边际约束条件向量和/>，/>为元素全为1的维列向量，/>为元素全为1的/>维列向量；

步骤S6203，设置控制熵正则化权重和内层最大迭代次数/>；

步骤S6204，初始化两个非负向量u、/>，初始化内核矩阵/>，符号/>表示将符号右侧向量或矩阵的元素值赋值给符号左侧向量或矩阵的相应元素；

步骤S6205，按照先更新，然后更新/>，交替迭代更新u和v，直到收敛或迭代次数达到/>；

步骤S6206，迭代结束后，按照计算k和k'两个模态下的近似最优传输矩阵/>，/>为哈达马积；

步骤S6207，计算传输矩阵对应的Wasserstein距离/>，为矩阵D与矩阵/>的内积；

步骤S6208，重复步骤S6201至步骤S6207，计算文本、音频、图像三个模态两两之间的Wasserstein距离，然后计算最优传输距离。

如前所述，通过直接计算所有模态之间的成对Wasserstein距离来得到最优传输距离，能够使得正样本对间的距离变小，并且一个正样本对所对应的最优传输矩阵里的数值变大。

具体实施例3

为了联合对齐文本、音频、图像三个模态嵌入，将成对模态的最优传输问题扩展为以下多边际最优传输问题：

其中，表示一个包含3个模态的张量，其中元素计算了3个模态下所有嵌入元组所组成的所有成对距离的总和。相应地，传输方案也从二维矩阵扩展到了一个张量上，即/>，T的可行域为/>。多边际最优传输问题可以通过Reference算法近似解决。因此，具体实施例1中步骤S6中最优传输距离/>的计算步骤如下：

S6301，对于来自文本、音频、图像三个模态的嵌入，构造3个边际分布向量；

S6302，设置熵正则化权重和内层最大迭代次数/>，将第1个模态下的所有数据嵌入/>作为参考嵌入，初始化一个非负向量/>，并将向量/>赋值给/>；

S6303，k=2；

S6304，计算第1个模态和第k个模态/>下任意两个嵌入之间的距离矩阵，对于当前k，初始化两个非负向量/>，初始化内核矩阵，符号/>表示将符号右侧向量或矩阵的元素值赋值给符号左侧向量或矩阵的相应元素，/>为元素全为1的/>维列向量，/>为元素全为1的/>维列向量；

S6305，先更新，然后更新/>，交替迭代更新u和v，直到收敛或迭代次数达到/>；

S6306，迭代结束后，按照计算第1个模态和当前第k个模态的最优传输矩阵/>，/>为哈达马积；

S6307，通过线性搜索方法计算出一个满足条件的稀疏张量T，然后按照/>计算出/>，/>是一个长度为/>的向量，/>为张量乘法；

S6308，k=k+1，若则返回步骤S5304，否则执行步骤S5309；

S6309，令，计算任意两个模态下任意两个嵌入的距离张量/>；

S6310，计算最优传输距离，/>为张量D与张量/>的内积。

具体实施例4

具体实施例4通过解决Wasserstein重心问题来达到文本、音频、图像三个模态数据的联合对齐。

给定来自文本、音频、图像三个模态的嵌入，Wasserstein重心问题的目的在于学习3个模态嵌入的重心Z，使得Z与/>之间的Wasserstein距离之和最小，即：

具体来说，对于重心中的某个嵌入，3个模态中的某些嵌入会对齐到它上面，从而构成一个来自不同模态对齐嵌入的元组，表示为/>，其中，/>。此外，给定3个最优传输方案/>，可以通过相应的最优传输方案的内积得到任意两个模态的嵌入之间的对齐关系，比如/>表示/>之间的对齐关系，此处M是重心中嵌入的个数。迭代Bregman算法可以用来解决Wasserstein重心问题。

因此，具体实施例1中步骤S6中最优传输距离的计算步骤如下：

S6401，对于来自文本、音频、图像三个模态的嵌入，构造3个边际分布向量；

S6402，设置重心矩阵，重心矩阵Z由M个重心嵌入/>组成，/>，每个重心嵌入/>的维度是d，设置最大迭代次数/>、熵正则化权重/>和内层最大迭代次数；

S6403，随机初始化重心矩阵Z，构建重心矩阵Z的边际分布向量；

S6404，i=1；

S6405，k=1；

S6406，计算重心矩阵Z和第k个模态的任意两个嵌入之间的欧几里得距离，组成距离矩阵；

S6407，开始迭代，对于当前k，初始化两个非负向量，/>初始化内核矩阵/>；

S6408，先更新，然后更新/>，交替迭代更新u和v，直到收敛或迭代次数达到/>；

S6409，迭代结束后，按照计算当前重心和第k个模态的最优传输矩阵/>；

S6410，k=k+1，若则返回步骤S6406，否则执行步骤S6411；

S6411，计算出重心矩阵Z和3个模态的最优传输矩阵，令；

S6412，i=i+1，若则返回步骤S6405，否则执行步骤S6413；

S6413，令，/>，计算重心矩阵/>与各个模态任意两个嵌入之间的欧几里得距离，组成距离矩阵/>；

S6414，计算重心矩阵和3个模态的Wasserstein距离为矩阵/>与矩阵/>的内积；/>

S6415，计算最优传输距离，/>。

具体实施例5

在具体实施例1的基础上，进一步优化步骤S2中最优传输正则化项的权重取值，权重/>的较优取值为0.001或0.01。数值仿真实验结果表明，权重/>的较优取值为0.001或0.01时，基于最优传输的多模态对比学习具有较好的模型训练效果。

具体实施例6

在具体实施例2-4的基础上，分别进一步优化其中熵正则化权重的取值为1000、内层最大迭代次数/>的取值为20、外层最大迭代次数/>的取值为100。数值仿真实验结果表明，采用上述参数取值，能够获得较好的对比学习训练结果。

为了评估发明实施例的有效性，在广义零样本检索任务上进行仿真实验（该任务是跨模态检索任务中的一种）。

实验中所使用到到的数据集为AudioSetZSL数据集，该数据集包含了共33个类别预训练好的图片特征、音频特征和类别文本特征。数据集被分为训练集和测试集，二者均包含了来自不同模态的数据。在训练集和测试集中都出现过的数据称为已见类，仅在测试集中出现的数据类别称为未见类。

实验的具体流程如下，将某个模态下的某个类别的数据作为查询数据，并检索与该查询数据语义一致的其他模态数据。比如将一张猫的图片作为查询数据，将检索范围设置为音频模态，那么检索任务的目标是在所有音频中检索和猫相关的作为检索结果。由于本发明考虑的是在部分数据语义信息缺失的情况，在训练阶段，首先将对训练集中部分数据进行打乱，使得这部分来自不同模态的数据丧失原本标注的类别信息，称为非对齐数据。为了更好的看到非对齐数据的存在对传统对比学习的影响，实验中设置了一个比例参数（ratio）来控制对齐数据所占数据集的比例，比如比例设置为0.7则表示此时训练集中对齐数据和非对齐数据的比例为7:3。训练时所用到的训练集数据中仅包含已见类数据，测试集中除了已见类外还会包含未见类的数据。在测试阶段，将测试集中不同模态的数据作为查询数据，并在指定模态下所有类别的数据中进行检索。模型在测试阶段会遇到需要对未见类别的数据进行检索的情况，于是除了检索精度外，实验还会对模型的知识迁移能力进行评估。在以下实验结果的表格中，T→A指的是从文本模态下的某个类别的数据中选出查询数据，并在音频模态的所有类别的数据（也就是所有数据）中进行检索。

实验的评价指标如下：

广义零样本检索任务的评价指标是平均精度（Mean average precision，简称mAP），当检索时使用所有已见类的数据作为查询数据时，可以根据各次检索的结果计算出可见类下检索的平均精度（S）。同理，当检索时使用所有未见类数据作为查询数据，也可以计算出一个未见类下检索的平均精度（U）。除了平均精度外，调和平均值（Harmonic Mean，简称HM）也是一种在广义零样本检索任务中的常用指标，会利用已见类和未见类的平均精度综合计算，具体的计算方法如下式所示。

在实验中选择两个传统的对比学习方法作为本发明的基线方法，分别是CJME和AVGZSLNet。具体来讲，实验中分别将具体实施例2公开的成对Wasserstein距离（PairwiseOT）正则化项、具体实施例3公开的多边际最优传输（MMOT）正则化项、具体实施例4公开的Wasserstein重心（WB）正则化项加入两种基线方法，并在广义零样本检索任务上对所训练出的各个模型进行性能的评估。

在给定的数据集上，将两种对比学习方法CJME和AVGZSLNet作为基线方法，并于广义零样本检索任务上评估本文所提出的正则化项。这里提供了有关CJME和AVGZSLNet中使用的编码器架构的更多详细信息，以及与AVGZSLNet中添加的与目标编码器相关联的解码器的信息。视频和音频模态数据的编码器是具有两个全连接（FC）层的 MLP，文本模态数据的编码器是具有一个FC层的MLP。视频和音频编码器的输入维度都是1024，文本编码器的输入维度是300。三个模态在隐空间上嵌入的维数均为64。对于CJME和AVGZSLNet两个基线方法，三种模态对应的编码器的架构如下所示。

视频和音频编码器：

文本编码器：

AVGZSLNet在三个模态对应编码器生成嵌入后，还增加了三个共享参数的解码器，解码器均由两个FC层组成，输入维度为64，输出维度为300，该输出维度与原始文本数据的维度相同。解码器的作用是从具有相同类别的来自视频、音频和文本模态的嵌入中重建原始文本模态数据，以确保相应编码器产生的视频和音频嵌入包含所属的类别信息。

解码器的架构为：

两种基线方法的超参数设置如下：每个训练批次大小为512；CJME的训练轮数为200，AVGZSLNet的训练轮数为50；CJME的学习率为0.01，AVGZSLNet的学习率为0.2；两种模型的嵌入维度为d=64。对于不同正则化项的实现，在CJME作为基线方法时超参数设置如下：在计算Wasserstein距离时，熵正则化器的权重为β=1e3，Sinkhorn-scaling算法迭代的最大次数为=20。三种正则化项的实现的权重/>为0.001。

在AVGZSLNet作为基线方法时超参数设置如下：在计算Wasserstein距离时，熵正则化器的权重为β=1e3，Sinkhorn-scaling算法迭代的最大次数为=20；对于基于成对Wasserstein距离的实现和基于Wasserstein重心的实现，权重/>为0.01，基于多边际最优传输的实现的权重/>为0.001。

表1和图3中展示了将不同正则化项分别加入CJME基线方法后所训练的模型在三种广义零样本跨模态检索任务上的性能，表格内加粗的是最优结果，次优结果用下划线标出。从数值结果来看，加入了正则化项后的模型的性能优于仅使用两种基线方法。对于不同基线模型，不同的正则化项也会表现出适用于不同的检索任务的倾向。

/>

表2和图4中展示了将不同正则化项分别加入AVGZSLNet基线方法后所训练的模型在三种广义零样本跨模态检索任务上的性能，表格内加粗的是最优结果，次优结果用下划线标出。从数值结果来看，加入了正则化项后的模型的性能优于仅使用两种基线方法。对于不同基线模型，不同的正则化项也会表现出适用于不同的检索任务的倾向。

；

具体实施例7

如图5所示，本发明具体实施例7提供的一种基于最优传输理论的多模态对比学习装置，包括非易失性存储器和一个或多个处理器，所述非易失性存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上述实施例中的基于最优传输理论的多模态对比学习方法。

本发明基于最优传输理论的多模态对比学习装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明基于最优传输理论的多模态对比学习装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

具体实施例8

本发明具体实施例8还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于最优传输理论的多模态对比学习方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种文本音频图像对比学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种文本音频图像对比学习方法，其特征在于，步骤S4中所述最优传输距离的具体计算步骤为：

S4204，将所有Wasserstein距离相加，得到最优传输距离。

3.根据权利要求1所述的文本音频图像对比学习方法，其特征在于，步骤S4中所述最优传输距离的具体计算步骤为：

4.根据权利要求1所述的一种文本音频图像对比学习方法，其特征在于，步骤S4中所述最优传输距离的具体计算步骤为：

S4401，设置重心，所述重心由随机初始化的多个嵌入组成，计算重心与文本、音频和图像各个模态的任意两个嵌入之间的欧几里得距离，组成距离矩阵，/>；

S4404，计算最后一次迭代时计算出的重心与文本、音频和图像各个模态间的距离矩阵与传输方案的内积的和，得到最终重心与文本、音频和图像各个模态间的Wasserstein距离；

5.根据权利要求1所述的一种文本音频图像对比学习方法，其特征在于，步骤S4中最优传输正则化项的权重取值为0.001或0.01。

6.根据权利要求2或4所述的一种文本音频图像对比学习方法，其特征在于，所述熵正则化权重的取值为1000。

7.根据权利要求2或4所述的一种文本音频图像对比学习方法，其特征在于，所述内层最大迭代次数的取值为20。

8.根据权利要求4所述的一种文本音频图像对比学习方法，其特征在于，所述外层最大迭代次数的取值为100。

9.一种文本音频图像对比学习装置，包括非易失性存储器和一个或多个处理器，所述非易失性存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现如权利要求1-8中任一项所述的一种文本音频图像对比学习方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1-8中任一项所述的一种文本音频图像对比学习方法。