CN115063606B

CN115063606B - 基于多模态数据的交互训练方法及装置

Info

Publication number: CN115063606B
Application number: CN202210981632.5A
Authority: CN
Inventors: 黄于晏; 陈莹莹; 陈畅新; 杨辰
Original assignee: Youmi Technology Co ltd
Current assignee: Youmi Technology Co ltd
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-12-16
Anticipated expiration: 2042-08-16
Also published as: CN115063606A

Abstract

本发明公开了一种基于多模态数据的交互训练方法及装置，该方法包括：将训练数据分别输入到相应的训练到收敛的特征提取器中得到数据特征；根据所有数据特征计算对应的第一重构损失函数；根据第一重构损失函数判断特征提取器是否满足对比学习完成条件；若否，根据第一重构损失函数对所有特征提取器执行参数调整操作得到更新后的特征提取器，并基于更新后的新特征提取器继续执行交互训练操作；若是，确定特征提取器对比学习完成。可见，本发明能够提高特征提取器所提取的不同模态的数据特征之间的交互性和共性，从而在后续利用训练好的特征提取器可以提取出可用于进行比对和匹配的不同模态的数据特征，进而提高多模态数据预测的准确性和效率。

Description

基于多模态数据的交互训练方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于多模态数据的交互训练方法及装置。

背景技术

随着信息化社会的不断推进及人工智能领域的不断发展，结合特定模态的数据进行数据预测已成为热门研究内容，但随着数据采集技术的发展，数据预测技术所根据的数据模态类型也越来越多样化，然而，不同模态类型的数据的语义密度不一致，使得不同模态类型的数据的训练策略不一致，数据特征提取模型训练难度开始提高，进而导致预测准确性低和预测可靠性低。因此，提供一种新的多模态数据的交互训练方式以提高预测准确性和预测可靠性显得尤为重要。

发明内容

本发明内容所要解决的技术问题在于，提供一种基于多模态数据的交互训练方法及装置，能够提高预测准确性和预测可靠性。

为了解决上述技术问题，本发明第一方面公开了一种基于多模态数据的交互训练方法，所述方法包括：

将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一所述训练数据对应的数据特征；

根据所有所述训练数据对应的所述数据特征，计算所述至少两种模态的训练数据对应的第一重构损失函数；

根据所述第一重构损失函数，判断所述特征提取器是否满足预设的对比学习完成条件；

当判断结果为否，根据所述第一重构损失函数，对所有所述特征提取器执行参数调整操作，得到更新后的特征提取器，并基于更新后的所述新特征提取器，触发执行所述的将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一所述训练数据对应的数据特征的操作；

当判断结果为是时，确定所述特征提取器对比学习完成。

作为一种可选的实施方式，在本发明第一方面中，在所述将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一所述训练数据对应的数据特征之前，所述方法还包括：

针对所述至少两种模态中的任一所述模态，根据该模态的训练数据，对该模态对应的特征提取器执行预训练操作，得到训练到收敛的所述特征提取器；

以及，所述根据该模态的训练数据，对该模态对应的特征提取器执行预训练操作，得到训练到收敛的所述特征提取器，包括：

根据该模态的训练数据及对应的第一嵌入层处理条件，初始化构建基础模态嵌入层，并根据该模态的训练数据及对应的第二嵌入层处理条件，初始化构建位置嵌入层；

根据该模态的训练数据及设定的掩码处理条件，确定目标掩码结果；

将所述目标掩码结果输入至对应编码器中得到第一输出特征向量，并将所述第一输出特征向量输入至对应解码器中得到第二输出特征向量；

根据所述第二输出特征向量及该模态的训练数据，计算第二重构损失函数，并根据所述第二重构损失函数的值，判断所述特征提取器是否满足预设的预训练收敛条件，当判断结果为是时，确定所述特征提取器训练到收敛；

以及，所述根据所述第二重构损失函数的值，判断所述特征提取器是否满足预设的预训练收敛条件，包括：

判断所述第二重构损失函数的值是否小于等于预设的第二重构损失阈值；

当判断结果为是时，确定所述特征提取器满足预设的预训练收敛条件；

当判断结果为否时，确定所述特征提取器不满足所述预训练收敛条件。

作为一种可选的实施方式，在本发明第一方面中，所述将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一所述训练数据对应的数据特征，包括：

对于至少两种模态的训练数据，根据所述训练数据及设定的数据预处理条件，确定对应的预处理训练数据；

将所述预处理训练数据输入至对应的基础模态嵌入层，得到所述预处理训练数据对应的基础编码向量，并根据所述基础编码向量及设定的维度处理条件，从位置嵌入层中得到所述预处理训练数据对应的位置编码向量；

根据所述基础编码向量及所述位置编码向量，生成目标向量，作为所述训练数据对应的数据特征。

作为一种可选的实施方式，在本发明第一方面中，所述根据该模态的训练数据及设定的掩码处理条件，确定目标掩码结果，包括：

根据该模态的训练数据及设定的第一掩码处理条件，确定掩码内容；

根据所述掩码内容及设定的第二掩码处理条件，确定目标掩码数据；

根据所述目标掩码数据、该模态的训练数据及设定的第三掩码处理条件，生成目标掩码结果；

其中，所述第二掩码处理条件包括掩码长度条件和/或掩码占比条件；所述第三掩码处理条件包括均匀分布掩码处理条件、随机替换掩码处理条件、数据混合掩码处理条件及数据添加掩码处理条件中的一种或多种。

作为一种可选的实施方式，在本发明第一方面中，所述根据所述第二输出特征向量及该模态的训练数据，计算第二重构损失函数，包括：

根据该模态的训练数据，确定对应的第二重构损失函数；所述第二重构损失函数包括概率分析函数、激活函数、差异损失函数、交叉熵损失函数及最小化特征向量分析函数中的一种或多种；

根据所述目标掩码结果、所述掩码内容、该模态的训练数据及所述第二重构损失函数，确定该模态的训练数据对应的第二重构损失函数的值。

作为一种可选的实施方式，在本发明第一方面中，所述根据所有所述训练数据对应的所述数据特征，计算所述至少两种模态的训练数据对应的第一重构损失函数，包括：

根据所有所述训练数据对应的所述数据特征及预设的第一加权求和条件，计算所述至少两种模态的训练数据中每两两所述模态对应的对比损失函数；

根据所有所述对比损失函数的值及预设的第二加权求和条件，计算所述至少两种模态的训练数据对应的第一重构损失函数；

以及，所述根据所述第一重构损失函数，判断所述特征提取器是否满足预设的对比学习完成条件，包括：

判断所述第一重构损失函数的值是否小于等于预设的第一重构损失阈值，当判断结果为是时，确定所述特征提取器满足预设的对比学习完成条件；当判断结果为否时，确定所述特征提取器不满足所述对比学习完成条件。

作为一种可选的实施方式，在本发明第一方面中，所述方法还包括：

检测是否接收到数据推荐指令，当检测结果为是时，确定所述素材推荐指令对应的待匹配数据；

将所述待匹配数据输入至对比学习完成的所述特征提取器中，得到所述待匹配数据对应的待匹配特征向量，并基于设定的向量维度降低条件，对所述待匹配特征向量执行白化操作，得到白化处理后的待匹配特征向量；

根据白化处理后的所述待匹配特征向量与数据库中多个待推荐数据对应的已白化处理的待推荐特征向量，计算所述待匹配特征向量与每一所述待推荐特征向量的相似度；

根据所述相似度，从所有所述待推荐特征向量中筛选出目标待推荐特征向量，并将所有所述目标待推荐特征向量对应的模态数据，作为所述待匹配数据的目标推荐数据。

本发明第二方面公开了一种基于多模态数据的交互训练装置，所述装置包括：

执行模块，用于将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一所述训练数据对应的数据特征；

计算模块，用于根据所有所述训练数据对应的所述数据特征，计算所述至少两种模态的训练数据对应的第一重构损失函数；

判断模块，用于根据所述第一重构损失函数，判断所述特征提取器是否满足预设的对比学习完成条件；

更新模块，用于当所述判断模块判断出所述特征提取器不满足所述对比学习完成条件时，根据所述第一重构损失函数，对所有所述特征提取器执行参数调整操作，得到更新后的特征提取器，并基于更新后的所述新特征提取器，触发所述执行模块执行所述的将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一所述训练数据对应的数据特征的操作；

确定模块，用于当所述判断模块判断出所述特征提取器满足所述对比学习完成条件时，确定所述特征提取器对比学习完成。

作为一种可选的实施方式，在本发明第二方面中，所述装置还包括：

训练模块，用于在所述执行模块将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一所述训练数据对应的数据特征之前，针对所述至少两种模态中的任一所述模态，根据该模态的训练数据，对该模态对应的特征提取器执行预训练操作，得到训练到收敛的所述特征提取器；

以及，所述训练模块根据该模态的训练数据，对该模态对应的特征提取器执行预训练操作，得到训练到收敛的所述特征提取器的方式具体包括：

以及，所述训练模块根据所述第二重构损失函数的值，判断所述特征提取器是否满足预设的预训练收敛条件的方式具体包括：

作为一种可选的实施方式，在本发明第二方面中，所述执行模块将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一所述训练数据对应的数据特征的方式具体包括：

作为一种可选的实施方式，在本发明第二方面中，所述训练模块根据该模态的训练数据及设定的掩码处理条件，确定目标掩码结果的方式具体包括：

作为一种可选的实施方式，在本发明第二方面中，所述训练模块根据所述第二输出特征向量及该模态的训练数据，计算第二重构损失函数的方式具体包括：

作为一种可选的实施方式，在本发明第二方面中，所述计算模块根据所有所述训练数据对应的所述数据特征，计算所述至少两种模态的训练数据对应的第一重构损失函数的方式具体包括：

以及，所述判断模块根据所述第一重构损失函数，判断所述特征提取器是否满足预设的对比学习完成条件的方式具体包括：

检测模块，用于检测是否接收到数据推荐指令；

所述确定模块，还用于当所述检测模块检测接收到所述数据推荐指令时，确定所述素材推荐指令对应的待匹配数据；

所述执行模块，还用于将所述待匹配数据输入至对比学习完成的所述特征提取器中，得到所述待匹配数据对应的待匹配特征向量，并基于设定的向量维度降低条件，对所述待匹配特征向量执行白化操作，得到白化处理后的待匹配特征向量；

所述计算模块，还用于根据白化处理后的所述待匹配特征向量与数据库中多个待推荐数据对应的已白化处理的待推荐特征向量，计算所述待匹配特征向量与每一所述待推荐特征向量的相似度；

筛选模块，用于根据所述相似度，从所有所述待推荐特征向量中筛选出目标待推荐特征向量，并将所有所述目标待推荐特征向量对应的模态数据，作为所述待匹配数据的目标推荐数据。

本发明第三方面公开了另一种基于多模态数据的交互训练装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的基于多模态数据的交互训练方法。

本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明第一方面公开的基于多模态数据的交互训练方法。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一该训练数据对应的数据特征；根据所有该训练数据对应的该数据特征，计算该至少两种模态的训练数据对应的第一重构损失函数；根据该第一重构损失函数，判断该特征提取器是否满足预设的对比学习完成条件；当判断结果为否，根据该第一重构损失函数，对所有该特征提取器执行参数调整操作，得到更新后的特征提取器，并基于更新后的该新特征提取器，触发执行该的将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一该训练数据对应的数据特征的操作；当判断结果为是时，确定该特征提取器对比学习完成。可见，本发明能够结合至少两种模态的训练数据对特征提取器进行对比训练，当计算得到的训练数据对应的重构损失函数满足相应条件时，确定特征提取器对比学习完成，能够提高特征提取器所提取的不同模态的数据特征之间的交互性和共性，从而在后续利用训练好的特征提取器可以提取出可用于进行比对和匹配的不同模态的数据特征，进而提高多模态数据预测的准确性和效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于多模态数据的交互训练方法的流程示意图；

图2是本发明实施例公开的另一种基于多模态数据的交互训练方法的流程示意图；

图3是本发明实施例公开的一种基于多模态数据的交互训练装置的结构示意图；

图4是本发明实施例公开的另一种基于多模态数据的交互训练装置的结构示意图；

图5是本发明实施例公开的又一种基于多模态数据的交互训练装置的结构示意图；

图6是本发明实施例公开的一种基于多模态数据的交互训练装置的预训练流程示意图；

图7是本发明实施例公开的一种基于多模态数据的交互训练装置的交互训练流程示意图；

图8是本发明实施例公开的一种基于多模态数据的交互训练装置的应用流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种基于多模态数据的交互训练方法及装置，能够结合至少两种模态的训练数据对特征提取器进行对比训练，当计算得到的训练数据对应的重构损失函数满足相应条件时，确定特征提取器对比学习完成，能够提高特征提取器所提取的不同模态的数据特征之间的交互性和共性，从而在后续利用训练好的特征提取器可以提取出可用于进行比对和匹配的不同模态的数据特征，进而提高多模态数据预测的准确性和效率。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种基于多模态数据的交互训练方法的流程示意图。其中，图1所描述的方法可以应用于基于多模态数据的交互训练装置，其中，该装置可以独立于特征提取器而存在，也可以集成在特征提取器中，本发明实施例不做限定。如图1所示，该基于多模态数据的交互训练方法包括以下操作：

101、将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一训练数据对应的数据特征。

具体的，至少两种模态的训练数据可以是图像模态的训练数据、语音模态的训练数据、音频模态的训练数据及其它模态的训练数据等，本发明实施例不做限定。

102、根据所有训练数据对应的数据特征，计算至少两种模态的训练数据对应的第一重构损失函数。

103、根据第一重构损失函数，判断特征提取器是否满足预设的对比学习完成条件，当判断结果为否时，触发执行步骤104；当判断结果为是时，触发执行步骤105。

104、根据第一重构损失函数，对所有特征提取器执行参数调整操作，得到更新后的特征提取器；基于更新后的新特征提取器执行将至少两种模态的训练数据分别输入到相应的该新特征提取器中，得到每一训练数据对应的数据特征的操作，并触发执行步骤102。

105、确定特征提取器对比学习完成。

可选的，对比学习完成的特征提取器可以丢弃特征提取器中的解码器，只保留特征提取器中的编码器，本发明实施例不做限定。

可选的，基于多模态数据的交互训练装置的交互训练流程可参照但不限于图7所示。

可见，实施本发明实施例所描述的基于多模态数据的交互训练方法能够结合至少两种模态的训练数据对特征提取器进行对比训练，当计算得到的训练数据对应的重构损失函数满足相应条件时，确定特征提取器对比学习完成，能够提高特征提取器所提取的不同模态的数据特征之间的交互性和共性，从而在后续利用训练好的特征提取器可以提取出可用于进行比对和匹配的不同模态的数据特征，进而提高多模态数据预测的准确性和效率。

在一个可选的实施例中，上述将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一训练数据对应的数据特征，可以包括：

对于至少两种模态的训练数据，根据训练数据及设定的数据预处理条件，确定对应的预处理训练数据；

将预处理训练数据输入至对应的基础模态嵌入层，得到预处理训练数据对应的基础编码向量，并根据基础编码向量及设定的维度处理条件，从位置嵌入层中得到预处理训练数据对应的位置编码向量；

根据基础编码向量及位置编码向量，生成目标向量，作为训练数据对应的数据特征。

具体的，位置编码向量与基础编码向量的嵌入特征维度相等。

进一步可选的，上述将预处理训练数据输入至对应的基础模态嵌入层，得到预处理训练数据对应的基础编码向量，可以包括：

根据设定的标识处理条件及预处理训练数据，确定预处理训练数据对应的基础编码向量；和/或，

根据设定的嵌入特征处理条件及预处理训练数据，确定预处理训练数据对应的基础编码向量。

举例说明：先对模态数据进行标记化操作将模态数据按标识进行切分，每一个输入模态数据的的指定位置分别加上第一标识符（如[CLS]）和第二标识符（如[SEP]），进一步的将该模态数据输入基础模态嵌入层中，得到基础编码向量。比如文本最大长度为h，转换成j维度的向量，则得出一个（g，h，j）的张量，g表示g句话。又比如，将原始图像输入到基础模态嵌入层，得到嵌入特征后进行向量化，随后交换通道维度和向量维度的顺序，得到基础编码向量。

可选的，对于位置嵌入层及目标向量对应的处理操作，举例说明：

初始化一个位置卷积层，捕捉帧之间的位置关系，得到一个与基础编码向量维度相同的位置向量，将该位置向量与基础模态嵌入层输出的基础编码向量加权求和得到目标向量。

需要说明的是，上述的相关字母均可为任意自然数，且同一字母的大写与小写可以对应相同数值或不同数值，本发明实施例不做限定。

可见，该可选的实施例能够结合数据预处理条件、维度处理条件、基础模态嵌入层及位置嵌入层确定出基础编码向量及位置编码向量进而确定出训练数据的数据特征，有利于提高数据特征确定方式的全面性和合理性，进而有利于提高确定出的数据特征的准确性和可靠性，从而有利于提高后续基于数据特征计算出的重构损失函数的准确性，进一步有助于特征提取器的交互训练学习以提高特征提取器的提取交互效果。

在另一个可选的实施例中，上述根据所有训练数据对应的数据特征，计算至少两种模态的训练数据对应的第一重构损失函数，可以包括：

根据所有训练数据对应的数据特征及预设的第一加权求和条件，计算至少两种模态的训练数据中每两两模态对应的对比损失函数；

根据所有对比损失函数的值及预设的第二加权求和条件，计算至少两种模态的训练数据对应的第一重构损失函数。

可选的，对于至少两种模态的训练数据对应的第一重构损失函数，且至少两种模态包括图像模态、音频模态及文本模态时，举例说明，第一重构损失函数确定方式可参照如下公式：

LOSS=1/p×（Loss图文+Loss图音+Loss文音）；

其中，LOSS为总语义损失值，Loss图文为图文语义损失值，Loss图音为图音语义损失值，Loss文音为文音语义损失值。

需要说明的是，当至少两种模态包括对应其它模态类型和/或其它模态数量时可参照但不限于上述公式确定出第一重构损失函数，本发明实施例不做限定。

进一步可选的，上述根据所有训练数据对应的数据特征及预设的第一加权求和条件，计算至少两种模态的训练数据中每两两模态对应的对比损失函数，可以包括：

对于至少两种模态中的每两两模态，根据该两两模态对应的训练数据的数据特征及设定的第一子加权求和条件，确定出该两两模态对应的第一子对比损失函数及对应的第二子对比损失函数；

根据第一子对比损失函数、第二子对比损失函数及设定的第二子加权求和条件，确定出该每两两模态对应的对比损失函数。

可选的，对于每两两模态对应的对比损失函数，且至少两种模态包括图像模态、音频模态及文本模态时，举例说明，对比损失函数确定方式可参照如下公式：

图文对比损失函数：Loss图文=u×（Loss1+Loss2）

其中，Loss1是预测值为文本重构损失及目标值为图像重构损失时预测值与目标值的交叉熵损失，Loss2是预测值为图像重构损失及目标值为文本重构损失时预测值与目标值的交叉熵损失。

图音对比损失函数：Loss图音=s×（Loss3+Loss4）

其中，Loss3是预测值为音频重构损失及目标值为图像重构损失时预测值与目标值的交叉熵损失，Loss4是预测值为图像重构损失及目标值为音频重构损失时预测值与目标值的交叉熵损失。

文音对比损失函数：Loss文音=i×（Loss5+Loss6）

其中，Loss5是预测值为文本重构损失及目标值为音频重构损失时预测值与目标值的交叉熵损失，Loss6是预测值为音频重构损失及目标值为文本重构损失时预测值与目标值的交叉熵损失。

需要说明的是，当至少两种模态包括对应其它模态类型和/或其它模态数量时可参照但不限于上述公式确定出对比损失函数，本发明实施例不做限定。

可见，该可选的实施例能够结合第一加权求和条件及第二加权求和条件确定出训练数据对应的重构损失函数，有利于提高重构损失函数确定方式的全面性和合理性，进而有利于提高确定出的重构损失函数的准确性和可靠性，从而有利于提高特征提取器的交互训练效率和可靠性。

在又一个可选的实施例中，上述根据第一重构损失函数，判断特征提取器是否满足预设的对比学习完成条件，可以包括：

判断第一重构损失函数的值是否小于等于预设的第一重构损失阈值，当判断结果为是时，确定特征提取器满足预设的对比学习完成条件；当判断结果为否时，确定特征提取器不满足对比学习完成条件。

可见，该可选的实施例能够通过第一重构损失函数的值与对应阈值的大小比较关系确定特征提取器是否满足对比学习完成条件，有利于提高满足完成条件确定方式的合理性和可行性，进而有利于提高满足完成条件确定结果的准确性和可靠性，在一定程度上还能够提高满足完成条件确定结果的确定效率，以提高特征提取器的交互训练效率和可靠性。

在又一个可选的实施例中，该方法还可以包括以下操作：

检测是否接收到数据推荐指令，当检测结果为是时，确定素材推荐指令对应的待匹配数据；

将待匹配数据输入至对比学习完成的特征提取器中，得到待匹配数据对应的待匹配特征向量，并基于设定的向量维度降低条件，对待匹配特征向量执行白化操作，得到白化处理后的待匹配特征向量；

根据白化处理后的待匹配特征向量与数据库中多个待推荐数据对应的已白化处理的待推荐特征向量，计算待匹配特征向量与每一待推荐特征向量的相似度；

根据相似度，从所有待推荐特征向量中筛选出目标待推荐特征向量，并将所有目标待推荐特征向量对应的模态数据，作为待匹配数据的目标推荐数据。

可选的，向量维度降低条件对应的向量维度降低程度可以是原来的1/3，也可以是其它程度值，本发明实施例不做限定。

可选的，基于多模态数据的交互训练装置的数据推荐应用流程可参照但不限于图8所示。

在上述可选的实施例中，上述根据相似度，从所有待推荐特征向量中筛选出目标待推荐特征向量，可以包括：

根据相似度，从所有待推荐特征向量中筛选出相似度大于等于预设的相似度阈值的特征向量，作为目标待推荐特征向量；和/或，

根据相似度，确定所有待推荐特征向量对应的先后排序结果；根据先后排序结果、设定的推荐数量条件及所有待推荐特征向量，确定出目标待推荐特征向量。

可见，该可选的实施例能够提供一种模态数据匹配方式，结合白化处理及特征提取器实现待匹配数据的相似数据推荐功能，丰富了基于多模态数据的交互训练装置的智能化功能，提高了用户使用该装置的使用体验和该装置的用户粘度，此外，采用对比学习完成的特征提取器输出待匹配数据的特征向量进而筛选出目标相似数据（即推荐数据），有利于提高确定出的待匹配数据的特征向量的准确性和可靠性，进而有利于提高确定出的推荐数据的准确性和可靠性；以及，还能够通过阈值条件和/或排序数量条件确定出目标待推荐特征向量，丰富了目标待推荐特征向量确定方式的多样性和灵活性，进而有利于提高目标待推荐特征向量的确定效率和确定准确性，从而有利于提高相似数据推荐功能的智能化和用户体验。

实施例二

请参阅图2，图2是本发明实施例公开的另一种基于多模态数据的交互训练方法的流程示意图。其中，图2所描述的方法可以应用于基于多模态数据的交互训练装置，其中，该装置可以独立于特征提取器而存在，也可以集成在特征提取器中，本发明实施例不做限定。如图2所示，该基于多模态数据的交互训练方法包括以下操作：

201、针对至少两种模态中的任一模态，根据该模态的训练数据，对该模态对应的特征提取器执行预训练操作，得到训练到收敛的特征提取器。

可选的，训练到收敛的特征提取器可以是能够交互不同模态数据的，也可以是只针对特定模态数据的，本发明实施例不做限定。

可选的，基于多模态数据的交互训练装置的预训练操作流程可参照但不限于图6所示。

202、将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一训练数据对应的数据特征。

203、根据所有训练数据对应的数据特征，计算至少两种模态的训练数据对应的第一重构损失函数。

204、根据第一重构损失函数，判断特征提取器是否满足预设的对比学习完成条件，当判断结果为否，触发执行步骤205；当判断结果为是时，触发执行步骤206。

205、根据第一重构损失函数，对所有特征提取器执行参数调整操作，得到更新后的特征提取器；基于更新后的新特征提取器执行将至少两种模态的训练数据分别输入到相应的该新特征提取器中，得到每一训练数据对应的数据特征的操作，并触发执行步骤203。

206、确定特征提取器对比学习完成。

本发明实施例中，针对步骤202-步骤206的其它描述，请参照实施例一中针对步骤101-步骤105的其他详细描述，本发明实施例不再赘述。

可见，本发明实施例能够结合至少两种模态的训练数据对特征提取器进行对比训练，当计算得到的训练数据对应的重构损失函数满足相应条件时，确定特征提取器对比学习完成，能够提高特征提取器所提取的不同模态的数据特征之间的交互性和共性，从而在后续利用训练好的特征提取器可以提取出可用于进行比对和匹配的不同模态的数据特征，进而提高多模态数据预测的准确性和效率；以及，还能够提供特征提取器的预训练方式，当特征提取器预训练至收敛后进行交互训练，提高了特征提取器的交互训练方式的全面性和整体性，进而提高了交互训练方式的合理性和可行性，在一定程度上能够提高交互训练的准确性和可靠性，以及还能够提高交互训练效率。

在一个可选的实施例中，上述根据该模态的训练数据，对该模态对应的特征提取器执行预训练操作，得到训练到收敛的特征提取器，可以包括：

将目标掩码结果输入至对应编码器中得到第一输出特征向量，并将第一输出特征向量输入至对应解码器中得到第二输出特征向量；

根据第二输出特征向量及该模态的训练数据，计算第二重构损失函数，并根据第二重构损失函数的值，判断特征提取器是否满足预设的预训练收敛条件，当判断结果为是时，确定特征提取器训练到收敛。

可选的，上述特征提取器预训练方式可以包括数据预处理模块、初始化嵌入层模块（如初始化基础模态嵌入层、初始化位置嵌入层等）、掩码处理模块及重构计算模块等中的一种或多种。

进一步可选的，当训练数据对应图像模态的数据时，初始化基础模态嵌入层对应操作可以包括：根据图像信息（如尺寸信息、像素信息等），确定基础模态嵌入层的卷积核信息（如卷积核尺寸信息、步长信息及通道数信息等）。举例说明，图像大小为c*d，将图像均分成不重叠的块对应数量为e进而每块的尺寸为

，则基础模态嵌入层的卷积核尺寸为

，步长大小为

，通道数为

，输入图像维度为[a，b，c，d]，a代表a张图，b代表RGB对应有b通道，c和d代表长和宽。进一步可选，将训练数据输入至初始化后的基础模态嵌入层中得到基础编码向量，举例说明，当输入图像向量为[a，b，c，d]，经过基础模态嵌入层后得到基础编码向量为

。进一步可选的，经过位置嵌入层后得到位置编码向量，举例说明，当基础编码向量为

，最终得到位置编码向量为

。

进一步可选的，当至少两种模态的训练数据包括音频模态的训练数据时，数据预处理模块可以包括音频转换子模块及音频特征转换子模块。

进一步可选的，音频转换子模块对应操作可以包括：根据设定的音频处理条件及训练数据，确定第一预处理数据。举例说明：将音频的采样率转为vkhz（千赫兹）。

进一步可选的，音频特征转换子模块对应操作可以包括：根据第一预处理数据及设定的音频特征转换处理条件，确定对应的第二预处理数据。举例说明：构建一个M层的卷积层组合，假设输入语音时间长度为t秒，采样率为vkhz（千赫兹），则语音信号表示为（t，v*k）向量，输入到每层卷积层不停对频域和时间域进行二维卷积和二维最大池化层进行特征降维，一方面学习时域信息；另一方面缩时间片维度，节约计算；最后一层卷积对应的输出为(A,B,C)，A代表A条音频，可以得到C个B维的向量，相当于每间隔t/C时间产生一个B维的特征向量，因为音频的长短不同，我们对向量的个数进行限制，设定一个最大维度个数，超过则丢弃，低于则进行补充一个B维度的全o向量，假设最大长度为D，A条音频对应得到（A，D，B）的向量，通过全连接层转换成（A，B，F）。

进一步可选的，假设模态为音频时对应的特征提取器预训练方式，举例说明，设定字典长度为K（如K=1024），当全部音频训练集都经过上一步得到J个B维度音频特征向量，对全部音频特征向量进行聚类，设定聚类个数为K，通过聚类操作得到K个音频特征向量，K个音频特征向量是全部特征向量分成K类后每个个类的中心向量，构成音频向量的编码表；编码表随着上一步音频特征提取层参数的更新而更新，进一步地计算音频向量和编码表中全部向量的相似度，选择码书中相似度最小的那个向量代替原向量，因此每个连续音频向量都能通过编码表转换成离散编码。进一步地，还能够通过最小化音频向量每个维度的向量和该向量对应的编码表向量的距离作为损失函数来更新编码表和特征提取层。

需要说明的是，上述的相关字母均可为任意自然数，且同一字母的大写与小写可以对应相同数值或不同数值，本发明实施例不做限定

可见，该可选的实施例能够通过初始化嵌入层并结合掩码处理条件等预训练操作确定出训练数据对应的第二重构损失函数，并根据第二重构损失函数确定特征提取器预训练收敛，有利于提高特征提取器的预训练方式的全面性和合理性，进而有利于提高预训练方式的合理性和可行性，从而有利于确定出的预训练收敛结果的准确性和可靠性，以助于提高后续特征提取器的交互训练效率和可靠性。

在另一个可选的实施例中，上述根据第二重构损失函数的值，判断特征提取器是否满足预设的预训练收敛条件，可以包括：

判断第二重构损失函数的值是否小于等于预设的第二重构损失阈值；

当判断结果为是时，确定特征提取器满足预设的预训练收敛条件；

当判断结果为否时，确定特征提取器不满足预训练收敛条件。

可见，该可选的实施例能够根据第二重构损失函数的值与对应阈值的大小比较关系确定特征提取器满足预训练收敛条件，有利于提高满足收敛条件确定方式的合理性和可行性，进而有利于提高确定出的满足收敛条件确定结果的准确性和可靠性，从而有利于提高后续确定出预训练收敛结果的准确性和可靠性。

在又一个可选的实施例中，上述根据该模态的训练数据及设定的掩码处理条件，确定目标掩码结果，可以包括：

根据掩码内容及设定的第二掩码处理条件，确定目标掩码数据；

根据目标掩码数据、该模态的训练数据及设定的第三掩码处理条件，生成目标掩码结果；

其中，第二掩码处理条件包括掩码长度条件和/或掩码占比条件；第三掩码处理条件包括均匀分布掩码处理条件、随机替换掩码处理条件、数据混合掩码处理条件及数据添加掩码处理条件中的一种或多种。

可选的，当至少两种模态的训练数据包括图像模态的训练数据时，目标掩码结果确定方式，举例说明：基于均匀分布来随机丢弃掉一定比例的token，比如

丢弃z%的token后变成

。

可选的，当至少两种模态的训练数据包括文本模态的训练数据时，目标掩码结果确定方式，举例说明：将输入文本句子中N%的Token，进行随机替换，这N%的替换过程中n%选中的token用[MASK]代替、m%将选中的token用任意词代替、（100-m-n）%选中的token不发生变化，迫使模型更多地依赖于上下文信息去预测词汇，具体可以参照如下：

my dog is hairy→my dog is [MASK] n%选中的token用[MASK]代替；

my dog is hairy→my dog is apple m%将选中的token用任意词代替；

my dog is hairy→my dog is hairy（100-m-n）%选中的token不发生变化。

可选的，当至少两种模态的训练数据包括音频模态的训练数据时，目标掩码结果确定方式，举例说明：每帧被选为mask的起点设置一个概率P，mask长度为x帧Mask后的音频向量输入到音频解码器中进行特征学习，由解码器接收上述编码器的输出以及被mask掉的那部分音频特征，也即目标掩码结果。

可见，该可选的实施例能够结合第一掩码处理条件、第二掩码处理条件及第三掩码处理条件确定出目标掩码结果，有利于提高掩码结果确定方式的全面性和合理性，进而有利于提高确定出的掩码结果的准确性和可靠性，从而有利于提高后续基于掩码结果确定出预训练收敛结果的准确性和可靠性。

在又一个可选的实施例中，上述根据第二输出特征向量及该模态的训练数据，计算第二重构损失函数，可以包括：

根据该模态的训练数据，确定对应的第二重构损失函数；第二重构损失函数包括概率分析函数、激活函数、差异损失函数、交叉熵损失函数及最小化特征向量分析函数中的一种或多种；

根据目标掩码结果、掩码内容、该模态的训练数据及第二重构损失函数，确定该模态的训练数据对应的第二重构损失函数的值。

可选的，对于第二重构损失函数的值的具体确定方式，举例说明：

当模态对应的训练数据为音频模态的训练数据时，确定最小化音频输入特征向量和解码器输出的特征向量之间的SmoothL1距离，作为音频重构损失函数的值。

当模态对应的训练数据为文本模态的训练数据时，在文本编码器中会对文本进行特征提取，将其输出的编码特征作为文本重构模块（解码器）的输入，解码器根据编码器提取的其他token的信息和语序结构来预测被替换的token，最后解码器用一个全连接层输出一个g维的tensor，每一维度代表这个被masked掉的token是不同词的概率分数，然后用softmax激活并用交叉熵作为损失函数1，然后利用概率分数最大的词代替被masked 的token，得到一个新的句子，计算该句子和原始句子的L2损失为损失函数2，确定损失函数1+2作为文本重构损失函数的值。

当模态对应的训练数据为图像模态的训练数据时，将掩码处理后的tokens输入到图片编码器结构中，将其输出的编码特征作为解码器的输入，用于重构原始图像，确定重构图像和原始图像的距离作为图像重构损失函数的值。

可见，该可选的实施例能够结合多个确定因素确定出第二重构损失函数的值，有利于提高第二重构损失函数确定方式的合理性和可行性，进而有利于提高确定出的第二重构损失函数对应结果的准确性和可靠性，从而有利于提高后续确定出预训练收敛结果的准确性和可靠性，在一定程度上能够提高特征提取器的交互训练效率和便捷性。

实施例三

请参阅图3，图3是本发明实施例公开的一种基于多模态数据的交互训练装置的结构示意图。其中，图3所描述的装置可以独立于特征提取器而存在，也可以集成在特征提取器中，本发明实施例不做限定。如图3所示，该基于多模态数据的交互训练装置可以包括：

执行模块301，用于将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一训练数据对应的数据特征。

计算模块302，用于根据所有训练数据对应的数据特征，计算至少两种模态的训练数据对应的第一重构损失函数。

判断模块303，用于根据第一重构损失函数，判断特征提取器是否满足预设的对比学习完成条件。

更新模块304，用于当判断模块303判断出特征提取器不满足对比学习完成条件时，根据第一重构损失函数，对所有特征提取器执行参数调整操作，得到更新后的特征提取器，并基于更新后的新特征提取器，触发执行模块301执行上述的将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一训练数据对应的数据特征的操作。

确定模块305，用于当判断模块303判断出特征提取器满足对比学习完成条件时，确定特征提取器对比学习完成。

可见，实施图3所描述的基于多模态数据的交互训练装置能够结合至少两种模态的训练数据对特征提取器进行对比训练，当计算得到的训练数据对应的重构损失函数满足相应条件时，确定特征提取器对比学习完成，能够提高特征提取器所提取的不同模态的数据特征之间的交互性和共性，从而在后续利用训练好的特征提取器可以提取出可用于进行比对和匹配的不同模态的数据特征，进而提高多模态数据预测的准确性和效率。

在一个可选的实施例中，如图4所示，该装置还可以包括：

训练模块306，用于在执行模块301将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一训练数据对应的数据特征之前，针对至少两种模态中的任一模态，根据该模态的训练数据，对该模态对应的特征提取器执行预训练操作，得到训练到收敛的特征提取器。

可见，实施图4所描述的装置能够提供特征提取器的预训练功能，当特征提取器预训练至收敛后进行交互训练，提高了特征提取器的交互训练方式的全面性和整体性，进而提高了交互训练方式的合理性和可行性，在一定程度上能够提高交互训练的准确性和可靠性，以及还能够提高交互训练效率。

在另一个可选的实施例中，训练模块306根据该模态的训练数据，对该模态对应的特征提取器执行预训练操作，得到训练到收敛的特征提取器的方式具体包括：

可见，实施图4所描述的装置还能够通过初始化嵌入层并结合掩码处理条件等预训练操作确定出训练数据对应的第二重构损失函数，并根据第二重构损失函数确定特征提取器预训练收敛，有利于提高特征提取器的预训练方式的全面性和合理性，进而有利于提高预训练方式的合理性和可行性，从而有利于确定出的预训练收敛结果的准确性和可靠性，以助于提高后续特征提取器的交互训练效率和可靠性。

在又一个可选的实施例中，训练模块306根据第二重构损失函数的值，判断特征提取器是否满足预设的预训练收敛条件的方式具体包括：

可见，实施图4所描述的装置还能够根据第二重构损失函数的值与对应阈值的大小比较关系确定特征提取器满足预训练收敛条件，有利于提高满足收敛条件确定方式的合理性和可行性，进而有利于提高确定出的满足收敛条件确定结果的准确性和可靠性，从而有利于提高后续确定出预训练收敛结果的准确性和可靠性。

在又一个可选的实施例中，执行模块301将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一训练数据对应的数据特征的方式具体包括：

可见，实施图4所描述的装置还能够结合数据预处理条件、维度处理条件、基础模态嵌入层及位置嵌入层确定出基础编码向量及位置编码向量进而确定出训练数据的数据特征，有利于提高数据特征确定方式的全面性和合理性，进而有利于提高确定出的数据特征的准确性和可靠性，从而有利于提高后续基于数据特征计算出的重构损失函数的准确性，进一步有助于特征提取器的交互训练学习以提高特征提取器的提取交互效果。

在又一个可选的实施例中，训练模块根据该模态的训练数据及设定的掩码处理条件，确定目标掩码结果的方式具体包括：

可见，实施图4所描述的装置还能够结合第一掩码处理条件、第二掩码处理条件及第三掩码处理条件确定出目标掩码结果，有利于提高掩码结果确定方式的全面性和合理性，进而有利于提高确定出的掩码结果的准确性和可靠性，从而有利于提高后续基于掩码结果确定出预训练收敛结果的准确性和可靠性。

在又一个可选的实施例中，训练模块306根据第二输出特征向量及该模态的训练数据，计算第二重构损失函数的方式具体包括：

可见，实施图4所描述的装置还能够结合多个确定因素确定出第二重构损失函数的值，有利于提高第二重构损失函数确定方式的合理性和可行性，进而有利于提高确定出的第二重构损失函数对应结果的准确性和可靠性，从而有利于提高后续确定出预训练收敛结果的准确性和可靠性，在一定程度上能够提高特征提取器的交互训练效率和便捷性。

在又一个可选的实施例中，计算模块302根据所有训练数据对应的数据特征，计算至少两种模态的训练数据对应的第一重构损失函数的方式具体包括：

可见，实施图4所描述的装置还能够结合第一加权求和条件及第二加权求和条件确定出训练数据对应的重构损失函数，有利于提高重构损失函数确定方式的全面性和合理性，进而有利于提高确定出的重构损失函数的准确性和可靠性，从而有利于提高特征提取器的交互训练效率和可靠性。

在又一个可选的实施例中，判断模块303根据第一重构损失函数，判断特征提取器是否满足预设的对比学习完成条件的方式具体包括：

可见，实施图4所描述的装置还能够通过第一重构损失函数的值与对应阈值的大小比较关系确定特征提取器是否满足对比学习完成条件，有利于提高满足完成条件确定方式的合理性和可行性，进而有利于提高满足完成条件确定结果的准确性和可靠性，在一定程度上还能够提高满足完成条件确定结果的确定效率，以提高特征提取器的交互训练效率和可靠性。

在又一个可选的实施例中，如图4所示，该装置还可以包括：

检测模块307，用于检测是否接收到数据推荐指令。

确定模块305，还用于当检测模块307检测接收到数据推荐指令时，确定素材推荐指令对应的待匹配数据。

执行模块301，还用于将待匹配数据输入至对比学习完成的特征提取器中，得到待匹配数据对应的待匹配特征向量，并基于设定的向量维度降低条件，对待匹配特征向量执行白化操作，得到白化处理后的待匹配特征向量。

计算模块302，还用于根据白化处理后的待匹配特征向量与数据库中多个待推荐数据对应的已白化处理的待推荐特征向量，计算待匹配特征向量与每一待推荐特征向量的相似度。

筛选模块308，用于根据相似度，从所有待推荐特征向量中筛选出目标待推荐特征向量，并将所有目标待推荐特征向量对应的模态数据，作为待匹配数据的目标推荐数据。

可见，实施图4所描述的装置还能够提供一种模态数据匹配方式，结合白化处理及特征提取器实现待匹配数据的相似数据推荐功能，丰富了基于多模态数据的交互训练装置的智能化功能，提高了用户使用该装置的使用体验和该装置的用户粘度，此外，采用对比学习完成的特征提取器输出待匹配数据的特征向量进而筛选出目标相似数据（即推荐数据），有利于提高确定出的待匹配数据的特征向量的准确性和可靠性，进而有利于提高确定出的推荐数据的准确性和可靠性。

实施例四

请参阅图5，图5是本发明实施例公开的又一种基于多模态数据的交互训练装置的结构示意图。其中，图5所描述的装置可以独立于特征提取器而存在，也可以集成在特征提取器中，本发明实施例不做限定。如图5所示，该装置可以包括：

存储有可执行程序代码的存储器401；

与存储器401耦合的处理器402；

进一步的，还可以包括与处理器402耦合的输入接口403以及输出接口404；

其中，处理器402调用存储器401中存储的可执行程序代码，用于执行实施例一或实施例二所描述的基于多模态数据的交互训练方法中的步骤。

实施例五

本发明实施例公开了一种计算机读存储介质，其存储用于电子数据交换的计算机程序，其中，该计算机程序使得计算机执行实施例一或实施例二所描述的基于多模态数据的交互训练方法中的步骤。

实施例六

本发明实施例公开了一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行实施例一或实施例二所描述的基于多模态数据的交互训练方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器（Read-Only Memory，ROM）、随机存储器（Random Access Memory，RAM）、可编程只读存储器（Programmable Read-only Memory，PROM）、可擦除可编程只读存储器（ErasableProgrammable Read Only Memory，EPROM）、一次可编程只读存储器（One-timeProgrammable Read-Only Memory，OTPROM）、电子抹除式可复写只读存储器（Electrically-Erasable Programmable Read-Only Memory，EEPROM）、只读光盘（CompactDisc Read-Only Memory，CD-ROM）或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种基于多模态数据的交互训练方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种基于多模态数据的交互训练方法，其特征在于，所述方法包括：

根据所述第一重构损失函数，判断所有所述特征提取器是否满足预设的对比学习完成条件；

当判断结果为否，根据所述第一重构损失函数，对所有所述特征提取器执行参数调整操作，得到更新后的所有所述特征提取器，并基于更新后的所有所述特征提取器，触发执行所述的将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一所述训练数据对应的数据特征的操作；

当判断结果为是时，确定所有所述特征提取器对比学习完成；

其中，在所述将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一所述训练数据对应的数据特征之前，所述方法还包括：

根据所述第二输出特征向量及该模态的训练数据，计算第二重构损失函数，并根据所述第二重构损失函数的值，判断所述特征提取器是否满足预设的预训练收敛条件，当判断结果为是时，确定所述特征提取器训练到收敛。

2.根据权利要求1所述的基于多模态数据的交互训练方法，其特征在于，所述根据所述第二重构损失函数的值，判断所述特征提取器是否满足预设的预训练收敛条件，包括：

3.根据权利要求1所述的基于多模态数据的交互训练方法，其特征在于，所述将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一所述训练数据对应的数据特征，包括：

4.根据权利要求2所述的基于多模态数据的交互训练方法，其特征在于，所述根据该模态的训练数据及设定的掩码处理条件，确定目标掩码结果，包括：

5.根据权利要求4所述的基于多模态数据的交互训练方法，其特征在于，所述根据所述第二输出特征向量及该模态的训练数据，计算第二重构损失函数，包括：

6.根据权利要求5所述的基于多模态数据的交互训练方法，其特征在于，所述根据所有所述训练数据对应的所述数据特征，计算所述至少两种模态的训练数据对应的第一重构损失函数，包括：

以及，所述根据所述第一重构损失函数，判断所有所述特征提取器是否满足预设的对比学习完成条件，包括：

判断所述第一重构损失函数的值是否小于等于预设的第一重构损失阈值，当判断结果为是时，确定所有所述特征提取器满足预设的对比学习完成条件；当判断结果为否时，确定所有所述特征提取器不满足所述对比学习完成条件。

7.根据权利要求1-6任一项所述的基于多模态数据的交互训练方法，其特征在于，所述方法还包括：

检测是否接收到数据推荐指令，当检测结果为是时，确定所述数据推荐指令对应的待匹配数据；

8.一种基于多模态数据的交互训练装置，其特征在于，所述装置包括：

判断模块，用于根据所述第一重构损失函数，判断所有所述特征提取器是否满足预设的对比学习完成条件；

更新模块，用于当所述判断模块判断出所有所述特征提取器不满足所述对比学习完成条件时，根据所述第一重构损失函数，对所有所述特征提取器执行参数调整操作，得到更新后的所有所述特征提取器，并基于更新后的所有所述特征提取器，触发所述执行模块执行所述的将至少两种模态的训练数据分别输入到相应的训练到收敛的特征提取器中，得到每一所述训练数据对应的数据特征的操作；

确定模块，用于当所述判断模块判断出所有所述特征提取器满足所述对比学习完成条件时，确定所有所述特征提取器对比学习完成；

其中，所述装置还包括：

9.一种基于多模态数据的交互训练装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的基于多模态数据的交互训练方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的基于多模态数据的交互训练方法。