CN117034188A

CN117034188A - 多模态特征对齐方法、模型训练方法及相关装置

Info

Publication number: CN117034188A
Application number: CN202310816183.3A
Authority: CN
Inventors: 章瀚逸; 张为泰; 刘俊华
Original assignee: Iflytek Shanghai Technology Co ltd
Current assignee: Iflytek Shanghai Technology Co ltd
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-11-10

Abstract

本申请提出一种多模态特征对齐方法、模型训练方法及相关装置，方法包括：对模态数据进行编码操作，得到第一模态编码特征；利用预先确定的多模态特征对齐参数，对第一模态编码特征在表征空间上进行多模态特征对齐，得到模态数据对应的模态对齐特征；多模态特征对齐参数，是通过特征类型判别训练而确定的，其中，特征类型判别训练，以使得按照多模态特征对齐参数，对样本语音特征和样本文本特征进行特征对齐后，无法准确判别得到模态对齐特征的特征类型，为目标。本方案能够利用多模态特征对齐参数实现不同模态特征在表征空间上的对齐，从而提升下游任务模型的性能。

Description

多模态特征对齐方法、模型训练方法及相关装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种多模态特征对齐方法、模型训练方法及相关装置。

背景技术

在进行语音翻译、语音识别、语音合成、语音同传等任务模型的训练时，需要应用到语音对应的语音特征，以及文本对应的文本特征，现有技术中，通常利用语音编码器对语音进行编码操作，得到对应的语音特征，利用文本编码器对文本进行编码操作，得到对应的文本特征。但是，语音和文本是两个相互关联但又差异显著的模态，语音信号是连续的，而文本信号是离散的，因此，通过编码器编码后的语音特征和文本特征无法实现在表征空间上的对齐，那么，在利用语音特征和文本特征对语音翻译、语音识别、语音合成、语音同传等任务模型训练时，无法实现在表征空间上对齐的语音特征和文本特征，会影响任务模型性能。

因此，如何实现不同模态的特征在表征空间上的对齐是本领域技术人员亟需解决的问题。

发明内容

基于上述现有技术的缺陷和不足，本申请提出一种多模态特征对齐方法、模型训练方法及相关装置，能够实现不同模态特征在表征空间上的对齐，从而提升下游任务模型的性能。

本申请提出的技术方案具体如下：

根据本申请实施例的第一方面，提供了一种多模态特征对齐方法，包括：

对模态数据进行编码操作，得到第一模态编码特征；其中，所述模态数据包括：语音数据和/或文本数据；

利用预先确定的多模态特征对齐参数，对所述第一模态编码特征在表征空间上进行多模态特征对齐，得到所述模态数据对应的模态对齐特征；

所述多模态特征对齐参数，是通过特征类型判别训练而确定的，其中，所述特征类型判别训练，以使得按照所述多模态特征对齐参数，对样本语音特征和样本文本特征进行特征对齐后，无法准确判别得到模态对齐特征的特征类型，为目标。

可选的，所述样本语音特征是将样本语音编码特征中的至少一个特征元素替换为样本文本编码特征中的特征元素得到的，所述样本文本特征是将所述样本文本编码特征中的至少一个特征元素替换为所述样本语音编码特征中的特征元素得到的。

可选的，所述多模态特征对齐参数包括：所述模态数据对应的模态编码参数，以及共享编码参数；

利用预先确定的多模态特征对齐参数，对所述第一模态编码特征在表征空间上进行多模态特征对齐，得到所述模态数据对应的模态对齐特征，包括：

利用所述模态编码参数，对所述第一模态编码特征进行处理，得到所述模态数据对应的初始模态对齐特征；

利用所述共享编码参数，对所述初始模态对齐特征在表征空间上进行多模态特征对齐，得到所述模态数据对应的模态对齐特征。

可选的，利用预先确定的多模态特征对齐参数，对所述第一模态编码特征在表征空间上进行多模态特征对齐，得到所述模态数据对应的模态对齐特征，包括：

利用预先训练的多模态特征对齐模型，对所述第一模态编码特征在表征空间上进行多模态特征对齐，得到所述模态数据对应的模态对齐特征；

所述多模态特征对齐模型用于按照所述多模态特征对齐参数对输入的特征在表征空间上进行多模态特征对齐。

可选的，所述多模态特征对齐模型的训练过程，包括：

将第一样本语音编码特征和第一样本文本编码特征均进行特征元素掩码操作，得到第一样本语音特征和第一样本文本特征；

将所述第一样本语音特征和所述第一样本文本特征输入到预先构建的多模态特征对齐模型中，得到所述第一样本语音特征对应的第一样本对齐特征和所述第一样本文本特征对应的第二样本对齐特征；

将所述第一样本对齐特征和所述第二样本对齐特征输入到预设的多模态分辨器中，得到第一识别结果和第二识别结果；所述第一识别结果表征所述第一样本对齐特征的特征类型，所述第二识别结果表征所述第二样本对齐特征的特征类型；

根据所述第一样本对齐特征、所述第二样本对齐特征、所述第一识别结果和所述第二识别结果，对所述多模态特征对齐模型进行第一训练，得到训练后的多模态特征对齐模型；所述第一训练以使得所述第一识别结果与所述第一样本对齐特征的真实特征类型之间的相似度以及所述第二识别结果与所述第二样本对齐特征的真实特征类型之间的相似度最小，并且通过所述第一识别结果和所述第二识别结果无法区分所述第一样本对齐特征和所述第二样本对齐特征为目标。

可选的，将第一样本语音编码特征和第一样本文本编码特征均进行特征元素掩码操作的同时，还包括：

将第一样本语音编码特征中的至少一个特征元素替换为第一样本文本编码特征中的特征元素，以及，将所述第一样本文本编码特征中的至少一个特征元素替换为所述第一样本语音编码特征中的特征元素。

可选的，所述多模态分辨器通过第二训练过程训练得到，所述第二训练过程包括：

将第二样本语音编码特征和第二样本文本编码特征均进行特征元素掩码操作，得到第二样本语音特征和第二样本文本特征；

将所述第二样本语音特征和所述第二样本文本特征输入到预先构建的多模态特征对齐模型中，得到所述第二样本语音特征对应的第三样本对齐特征和所述第二样本文本特征对应的第四样本对齐特征；

将所述第三样本对齐特征和所述第四样本对齐特征输入到预设的多模态分辨器中，得到第三识别结果和第四识别结果；所述第三识别结果表征所述第三样本对齐特征的特征类型，所述第四识别结果表征所述第四样本对齐特征的特征类型；

以所述第三识别结果与所述第三样本对齐特征的真实特征类型之间的相似度以及所述第四识别结果与所述第四样本对齐特征的真实特征类型之间的相似度最大为目标，对所述多模态分辨器的参数进行调整，得到训练后的多模态分辨器。

可选的，根据所述第一样本对齐特征、所述第二样本对齐特征、所述第一识别结果和所述第二识别结果，对所述多模态特征对齐模型进行第一训练，得到训练后的多模态特征对齐模型，包括：

利用所述第一样本对齐特征和所述第一样本语音编码特征，计算掩蔽损失；

利用所述第二样本对齐特征和所述第一样本文本编码特征对应的样本文本数据，计算文本损失；

利用所述第一识别结果和所述第二识别结果，计算生成对抗损失；

根据所述掩蔽损失、所述文本损失、所述生成对抗损失，以及预先确定的损失权重，计算多模态特征对齐损失，并基于所述多模态特征对齐损失，对所述多模态特征对齐模型进行参数调整，得到训练后的多模态特征对齐模型。

可选的，所述预先构建的多模态特征对齐模型，包括：语音模态对应的自适应层、文本模态对应的自适应层和多模态共享编码器；

将所述第一样本语音特征和所述第一样本文本特征输入到预先构建的多模态特征对齐模型中，得到所述第一样本语音特征对应的第一样本对齐特征和所述第一样本文本特征对应的第二样本对齐特征，包括：

将所述第一样本语音特征输入到语音模态对应的自适应层，得到第一样本初始对齐特征，将所述第一样本文本特征输入到文本模态对应的自适应层，得到第二样本初始对齐特征；

将所述第一样本初始对齐特征和所述第二样本初始对齐特征均输入到多模态共享编码器，得到所述第一样本对齐特征和所述第二样本对齐特征。

利用所述第一样本初始对齐特征、所述第一样本语音编码特征、所述第二样本初始对齐特征和所述第一样本文本编码特征，计算语音掩蔽损失和文本掩蔽损失；

基于所述语音掩蔽损失，对语音模态对应的自适应层进行参数调整，基于所述文本掩蔽损失，对文本模态对应的自适应层进行参数调整；

利用所述第一样本对齐特征和所述第一样本语音编码特征，计算掩蔽损失，利用所述第二样本对齐特征和所述第一样本文本编码特征对应的样本文本数据，计算文本损失，利用所述第一识别结果和所述第二识别结果，计算生成对抗损失；

根据所述掩蔽损失、所述文本损失、所述生成对抗损失，以及预先确定的损失权重，计算多模态特征对齐损失，基于所述多模态特征对齐损失，对所述多模态共享编码器进行参数调整。

根据本申请实施例的第二方面，提供了一种多模态特征对齐装置，包括：

模态数据编码模块，用于对模态数据进行编码操作，得到第一模态编码特征；其中，所述模态数据包括：语音数据和/或文本数据；

模态特征对齐模块，用于利用预先确定的多模态特征对齐参数，对所述第一模态编码特征在表征空间上进行多模态特征对齐，得到所述模态数据对应的模态对齐特征；

根据本申请实施例的第三方面，提供了一种模型训练方法，包括：

获取模型训练数据对应的模态对齐特征；其中，所述模型训练数据对应的模态对齐特征是利用上述多模态特征对齐方法得到的；所述模型训练数据包括语音训练数据和文本训练数据；

将所述模态对齐特征输入到预先构建的任务模型中，对所述任务模型进行任务训练，得到训练后的任务模型；所述任务训练包括语音识别训练、语音翻译训练、语音合成训练和语音同传训练中的至少一项。

根据本申请实施例的第四方面，提供了一种模型训练装置，包括：

数据处理模块，用于获取模型训练数据对应的模态对齐特征；其中，所述模型训练数据对应的模态对齐特征是利用上述多模态特征对齐方法得到的；所述模型训练数据包括语音训练数据和文本训练数据；

模型训练模块，用于将所述模态对齐特征输入到预先构建的任务模型中，对所述任务模型进行任务训练，得到训练后的任务模型；所述任务训练包括语音识别训练、语音翻译训练、语音合成训练和语音同传训练中的至少一项。

根据本申请实施例的第五方面，提供了一种电子设备，包括：存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述多模态特征对齐方法。

根据本申请实施例的第六方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述多模态特征对齐方法。

本申请提出的多模态特征对齐方法，包括：对模态数据进行编码操作，得到第一模态编码特征；其中，模态数据包括：语音数据和/或文本数据；利用预先确定的多模态特征对齐参数，对第一模态编码特征在表征空间上进行多模态特征对齐，得到模态数据对应的模态对齐特征；多模态特征对齐参数，是通过特征类型判别训练而确定的，其中，特征类型判别训练，以使得按照多模态特征对齐参数，对样本语音特征和样本文本特征进行特征对齐后，无法准确判别得到模态对齐特征的特征类型，为目标。采用本申请的技术方案，能够利用多模态特征对齐参数实现不同模态特征在表征空间上的对齐，从而提升下游任务模型的性能，并且，多模态特征对齐参数在确定过程中利用的生成对抗技术，能够提高多模态特征对齐的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种多模态特征对齐方法的流程示意图；

图2是本申请实施例提供的训练多模态特征对齐模型的处理流程示意图；

图3是本申请实施例提供的一种多模态特征对齐模型的结构示意图；

图4是本申请实施例提供的训练多模态分辨器的处理流程示意图；

图5是本申请实施例提供的一种模型训练方法的流程示意图；

图6是本申请实施例提供的一种多模态特征对齐装置的结构示意图；

图7是本申请实施例提供的一种模型训练装置的结构示意图；

图8是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于多模态数据预处理的应用场景，采用本申请实施例技术方案，能够实现不同模态特征在表征空间上的对齐，从而提升下游任务模型的性能，并且，能够提高多模态特征对齐的效果。

随着人机交互需求的提升以及全球化的发展，语音识别、语音翻译、语音合成、语音同传等任务变得愈发重要。对于语音识别、语音翻译、语音合成、语音同传等任务，通常需要预先训练相应的任务模型，利用任务模型实现任务的执行。对于任务模型的训练，需要利用包含语音和文本的样本数据作为对任务模型的训练数据，在任务模型的训练过程中，需要利用语音编码器对样本数据中的语音进行编码操作，得到对应的语音特征，利用文本编码器对样本数据中的文本进行编码操作，得到对应的文本特征，将编码后的语音特征和文本特征输入到任务模型中，对任务模型进行训练，例如，对于语音识别模型，进行语音识别训练，对于语音翻译模型进行语音翻译训练，对于语音合成模型，进行语音合成训练等。

但是，语音和文本是两个相互关联但又差异显著的模态，语音信号是连续的，而文本信号是离散的，因此，通过编码器编码后的语音特征和文本特征无法实现在表征空间上的对齐，那么，在利用语音特征和文本特征对语音翻译、语音识别、语音合成、语音同传等任务模型训练时，无法实现在表征空间上对齐的语音特征和文本特征，会影响任务模型性能。

基于此，本申请提出一种多模态特征对齐方法，该技术方案能够利用多模态特征对齐参数实现不同模态特征在表征空间上的对齐，从而解决现有技术中无法实现在表征空间上对齐的语音特征和文本特征，影响任务模型性能的问题。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

示例性方法

本申请实施例提出一种多模态特征对齐方法，该方法可以由电子设备执行，该电子设备可以是任意的具有数据及指令处理功能的设备，例如可以是计算机、智能终端、服务器等。参见图1所示，该方法包括：

S101、对模态数据进行编码操作，得到第一模态编码特征。

在人机交互的自然语言处理领域中的各种任务模型的训练过程中，需要对训练样本中的各种模态数据进行模态特征对齐，以提高任务模型的训练效果。为了实现对模态数据的模态特征对齐，首先需要对模态数据进行编码操作，从而得到模态数据对应的第一模态编码特征。其中，模态数据包括：语音数据和/或文本数据。对于语音数据，采用语音编码器进行编码操作，得到语音编码特征；对于文本数据，采用文本编码器进行编码操作，得到文本编码特征。

具体的，本实施例中，语音编码器和文本编码器均预先进行了编码训练，其中，以保证语音编码器和文本编码器的编码效果，即，对语音数据进行编码操作采用预训练的语音编码器，对文本数据进行编码操作采用预训练的文本编码器。例如，预训练的语音编码器可以采用w2v-BERT模型，预训练的文本编码器可以采用spanBERT模型。将语音数据输入到预训练的语音编码器中，进行编码操作，得到语音编码特征。将文本数据输入到预训练的文本编码器中，进行编码操作，得到文本编码特征。

S102、利用预先确定的多模态特征对齐参数，对第一模态编码特征在表征空间上进行多模态特征对齐，得到模态数据对应的模态对齐特征。

具体的，本实施例预先确定了多模态特征对齐参数，利用该多模态特征对齐参数，对编码后的第一模态编码特征在表征空间上进行多模态特征对齐，从而得到模态数据对应的模态对齐特征。其中，本实施例中的多模态特征对齐参数是预先利用生成对抗技术进行对样本数据对应的样本特征进行特征类型判别训练确定的。

本实施例中，样本数据包括样本语音数据和样本文本数据。在确定多模态特征对齐参数之前，需要确定样本数据的样本特征，即样本语音数据对应的样本语音特征和样本文本数据对应的样本文本特征。然后利用当前的多模态特征对齐参数对样本语音特征和样本文本特征分别进行模态特征对齐，从而得到样本语音数据对齐后的模态对齐特征和样本文本数据对齐后的模态对齐特征。利用生成对抗技术所对应的生成对抗网络中的判别器分别对样本语音数据对齐后的模态对齐特征和样本文本数据对齐后的模态对齐特征进行特征类型的判别，只有当生成对抗网络中的判别器无法准确判别出模态对齐特征的特征类型时，才能表示语音模态的特征以及文本模态的特征在表征空间上实现了对齐，即语音模态的特征与文本模态的特征共享了表征方式，以至于判别器也无法根据特征的表征方式判别出特征类型。因此，在利用样本数据对多模态特征对齐参数进行特征类型判别训练时，需要以使得按照多模态特征对齐参数，对样本语音特征和样本文本特征进行特征对齐后，无法准确判别得到模态对齐特征的特征类型，为目标，不断对多模态特征对齐参数进行调整。

进一步地，由于多模态特征对齐参数对模态特征的对齐仅仅是特征的表征空间上的对齐，也就是对模态特征采用相同的表征方式(即，该表征方式既可以具备文本相关的上下文信息表征能力，也可以具备语音相关的序列信息表征能力)，并不是在语义上的对齐，因此，本实施例中对多模态特征对齐参数进行训练的样本数据可以采用非配对的样本语音数据和样本文本数据，即样本语音数据表达的语义与样本文本数据表达的语义不匹配。非配对的样本数据的数据量相比于配对的样本数据的数据量更大，本实施例可以采用非配对的样本语音数据和样本文本数据对多模态特征对齐参数进行训练，能够提高对多模态特征对齐参数的训练效果，从而提高多模态特征的对齐效果。

通过上述介绍可见，本申请实施例提出的多模态特征对齐方法，对模态数据进行编码操作，得到第一模态编码特征；其中，模态数据包括：语音数据和/或文本数据；利用预先确定的多模态特征对齐参数，对第一模态编码特征在表征空间上进行多模态特征对齐，得到模态数据对应的模态对齐特征；多模态特征对齐参数，是通过特征类型判别训练而确定的，其中，特征类型判别训练，以使得按照多模态特征对齐参数，对样本语音特征和样本文本特征进行特征对齐后，无法准确判别得到模态对齐特征的特征类型，为目标。采用本实施例的技术方案，能够利用多模态特征对齐参数实现不同模态特征在表征空间上的对齐，从而提升下游任务模型的性能，并且，多模态特征对齐参数在确定过程中利用的生成对抗技术，能够提高多模态特征对齐的效果。

作为一种可选的实现方式，在本申请另一实施例中公开了，针对多模态特征对齐参数进行训练的样本数据中的样本语音数据和样本文本数据，样本语音数据对应的样本语音特征和样本文本数据对应的样本文本特征的确定，可以直接利用预训练的语音编码器对样本语音数据进行编码操作，得到样本语音编码特征，利用预训练的文本编码器对样本文本数据进行编码操作，得到样本文本编码特征，将样本语音编码特征作为样本语音数据对应的样本语音特征，将样本文本编码特征作为样本文本数据对应的样本文本特征。

另外，样本语音数据对应的样本语音特征和样本文本数据对应的样本文本特征的确定还可以采用以下步骤：首先，需要利用预训练的语音编码器对样本语音数据进行编码操作，得到样本语音编码特征，利用预训练的文本编码器对样本文本数据进行编码操作，得到样本文本编码特征；然后，将样本语音编码特征中的至少一个特征元素替换为样本文本编码特征中的特征元素(例如，将样本语音编码特征中的第二个特征元素替换为样本文本编码特征中的第二个特征元素，将样本语音编码特征中的第五个特征元素替换为样本文本编码特征中的第七个特征元素)，将替换后的特征作为样本语音数据对应的样本语音特征，将样本文本编码特征中的至少一个特征元素替换为样本语音编码特征中的特征元素(例如，将样本文本编码特征中的第三个特征元素替换为样本语音编码特征中的第五个特征元素)，将替换后的特征作为样本文本数据对应的样本文本特征。

本实施例，通过对样本语音编码特征与样本文本编码特征进行特征元素的交换，能够使得样本语音特征中不仅包含有样本语音数据的特征，还包含有样本文本数据的特征，样本文本特征中不仅包含有样本文本数据的特征，还包含有样本语音数据的特征，在利用样本语音特征和样本文本特征对多模态特征对齐参数进行训练时，能够提高多模态特征对齐参数的对齐效果。

作为一种可选的实现方式，在本申请另一实施例中公开了，预先确定的多模态特征对齐参数包括：模态数据对应的模态编码参数，以及共享编码参数。对应的，上述步骤S102具体包括如下步骤：

第一，利用模态编码参数，对第一模态编码特征进行处理，得到模态数据对应的初始模态对齐特征。

具体的，本实施例根据预先进行编码操作的模态数据的数据类型，选取对应的模态编码参数，例如，若模态数据为语音数据，那么其数据类型为语音，若模态数据为文本数据，那么其数据类型为文本。本实施例对第一模态编码特征进行多模态特征对齐时，首先，利用模态数据对应的模态编码参数，对该模态数据对应的第一模态编码特征进行初步处理，从而得到该模态数据对应的初始模态对齐特征。其中，模态数据对应的模态编码参数对于模态特征在表征空间上具有初步的模态特征对齐能力，相比于多模态数据的共享编码参数的模态特征对齐能力较浅。因此，本实施例利用模态数据对应的模态编码参数，对模态数据对应的第一模态编码特征进行初步的模态特征对齐。

第二，利用共享编码参数，对初始模态对齐特征在表征空间上进行多模态特征对齐，得到模态数据对应的模态对齐特征。

具体的，当第一模态编码特征进行初步处理后，利用共享编码参数，对初步处理后的初始模态对齐特征在表征空间上进行多模态特征对齐。即，利用模态数据对应的模态编码参数对模态数据对应的第一模态编码特征在表征空间上进行浅层的多模态特征对齐后，再利用多模态的共享编码参数在表征空间上进行深层的多模态特征对齐，从而得到模态数据对应的模态对齐特征。

本实施例中，通过设置模态数据对应的模态编码参数对第一模态编码特征在表征空间上进行初步的多模态特征对齐，从而实现对第一模态编码特征的微调，在利用共享编码参数进行多模态特征对齐时，能够提高多模态特征对齐的准确度和效率。

作为一种可选的实现方式，在本申请另一实施例中公开了，上述实施例中的步骤S102，利用预先确定的多模态特征对齐参数，对第一模态编码特征在表征空间上进行多模态特征对齐，得到模态数据对应的模态对齐特征，具体包括：

利用预先训练的多模态特征对齐模型，对第一模态编码特征在表征空间上进行多模态特征对齐，得到模态数据对应的模态对齐特征。

本实施例预先训练了多模态特征对齐模型，该多模态特征对齐模型用于按照预先确定的多模态特征对齐参数对输入的特征在表征空间上进行多模态特征对齐。具体的，将预先对模态数据编码后的第一模态编码特征输入到预先训练的多模态特征对齐模型，该多模态特征对齐模型对第一模态编码特征在表征空间上进行多模态特征对齐，得到模态数据对应的模态对齐特征，以使模态对齐特征既具备文本相关的上下文信息表征能力，也具备语音相关的序列信息表征能力。

作为一种可选的实现方式，参见图2和图3所示，在本申请另一实施例中公开了，预先训练的多模态特征对齐模型的训练过程，包括如下步骤：

S201、将第一样本语音编码特征和第一样本文本编码特征均进行特征元素掩码操作，得到第一样本语音特征和第一样本文本特征。

具体的，本实施例预先采集第一样本数据对多模态特征对齐模型进行训练，其中，第一样本数据中包括第一样本语音数据X＝{x₁，x₂，…，x_U}和第一样本文本数据T＝{t₁，t₂，…，t_N}。将第一样本语音数据X输入到预训练的语音编码器中，利用预训练的语音编码器对第一样本语音数据X进行编码操作，得到第一样本语音编码特征H_sp，即，H_sp＝Enc_sp(X)。将第一样本文本数据T输入到预训练的文本编码器中，利用预训练的文本编码器对第一样本文本数据T进行编码操作，得到第一样本文本编码特征H_te，即，H_te＝Enc_te(T)。

本实施例对第一样本语音编码特征H_sp和第一样本文本编码特征H_te分别进行特征元素掩码操作，即，对第一样本语音编码特征H_sp中的至少一个特征元素进行掩蔽操作，得到第一样本语音特征，对第一样本文本编码特征H_te中的至少一个特征元素进行掩蔽操作，得到第一样本文本特征。如图3所示，将第一样本语音编码特征H_sp中的第三个特征元素x₃和第四个特征元素x₄进行了掩蔽操作，将第一样本文本编码特征H_te中的第五个特征元素t₅进行了掩蔽操作。

S202、将第一样本语音特征和第一样本文本特征输入到预先构建的多模态特征对齐模型中，得到第一样本语音特征对应的第一样本对齐特征和第一样本文本特征对应的第二样本对齐特征。

本实施例通过掩码操作得到第一样本语音特征和第一样本文本特征后，将第一样本语音特征和第一样本文本特征均输入到预先构建的多模态特征对齐模型中，多模态特征对齐模型对第一样本对齐特征和第一样本文本特征在表征空间上进行多模态特征对齐，以使多模态特征对齐模型能够学习到语音特征在表征空间上的序列信息表征能力，以及，文本特征在表征空间上的上下文信息表征能力。

多模态特征对齐模型能够通过预测第一样本语音特征中被掩蔽的特征元素以及第一样本文本特征中被掩蔽的特征元素的操作，学习第一样本语音特征与第一样本文本特征在表征空间上的表征能力，多模态特征对齐模型通过对第一样本语音特征和第一样本文本特征在表征空间上的多模态特征对齐操作，得到第一样本语音特征对应的第一样本对齐特征Z_sp和第一样本文本特征对应的第二样本对齐特征Z_te。

S203、将第一样本对齐特征和第二样本对齐特征输入到预设的多模态分辨器中，得到第一识别结果和第二识别结果。

本实施例预先设置了多模态分辨器，该多模态分辨器为预先训练完成的多模态分辨器，采用的是生成对抗网络中的判别器结构，用于识别输入的特征对应的特征类型。具体的，将第一样本对齐特征Z_sp和第二样本对齐特征Z_te均输入到多模态分辨器中，该多模态分辨器对第一样本对齐特征Z_sp进行特征类型识别，得到第一识别结果，对第二样本对齐特征Z_te进行特征类型识别，得到第二识别结果。其中，第一识别结果表征第一样本对齐特征Z_sp的特征类型，第二识别结果表征第二样本对齐特征Z_te的特征类型。本实施例中，识别结果可以采用概率的表征方式，例如，识别结果可以为特征类型为语音类型的概率，或者，还可以为特征类型为文本类型的概率。

S204、根据第一样本对齐特征、第二样本对齐特征、第一识别结果和第二识别结果，对多模态特征对齐模型进行第一训练，得到训练后的多模态特征对齐模型。

本实施例根据第一样本对齐特征Z_sp、第二样本对齐特征Z_te、第一样本语音编码特征H_sp、第一样本文本数据T、第一识别结果以及第二识别结果，对多模态特征对齐模型进行第一训练，从而得到训练后的多模态特征对齐模型。在对多模态特征对齐模型进行第一训练过程中，训练目标为：第一识别结果与第一样本对齐特征的真实特征类型之间的相似度以及第二识别结果与第二样本对齐特征的真实特征类型之间的相似度最小；以及，通过第一识别结果和第二识别结果无法区分第一样本对齐特征和第二样本对齐特征，即多模态分辨器无法准确判别出第一样本对齐特征与第二样本对齐特征的特征类型。

具体的，若识别结果为特征类型为语音类型的概率，那么第一识别结果则为第一样本对齐特征Z_sp的特征类型为语音类型的概率，第二识别结果为第二样本对齐特征Z_te的特征类型为语音类型的概率，那么此时应当以第一识别结果的概率越接近0，第二识别结果的概率越接近1为目标。若识别结果为特征类型为文本类型的概率，那么第一识别结果则为第一样本对齐特征Z_sp的特征类型为文本类型的概率，第二识别结果为第二样本对齐特征Z_te的特征类型为文本类型的概率，那么此时应当以第一识别结果的概率越接近1，第二识别结果的概率越接近0为目标。

具体的，对多模态特征对齐模型进行第一训练的具体步骤如下所述：

第一，利用第一样本对齐特征和第一样本语音编码特征，计算掩蔽损失。

本实施例预先设置了语音掩蔽损失函数，利用该语音掩蔽损失函数，计算第一样本对齐特征Z_sp与第一样本语音编码特征H_sp之间的掩蔽损失。具体的，语音掩蔽损失函数为：

其中，L_smlm-sh表示第一样本对齐特征Z_sp与第一样本语音编码特征H_sp之间的掩蔽损失，U表示第一样本对齐特征Z_sp中特征元素的总数量，表示第一样本语音编码特征H_sp中第u个特征元素，/>表示第一样本对齐特征Z_sp中第u个特征元素。

第二，利用第二样本对齐特征和第一样本文本编码特征对应的样本文本数据，计算文本损失。

本实施例预先设置了文本损失函数，利用该文本损失函数计算第二样本对齐特征Z_te和第一样本文本编码特征H_te对应的样本文本数据(即第一样本文本数据T)之间的文本损失。具体的，文本损失函数为：

L_ctc＝-logp_ctc(T|Z_te)

其中，L_ctc表示第二样本对齐特征Z_te和第一样本文本数据T之间的文本损失。

第三，利用第一识别结果和第二识别结果，计算生成对抗损失。

本实施例预先设置了生成对抗损失函数，利用该生成对抗损失函数以及第一识别结果和第二识别结果，计算多模态特征对齐模型的生成对抗损失。具体的，生成对抗损失函数为：

其中，L_align表示多模态特征对齐模型的生成对抗损失，K表示对多模态特征对齐模型的训练迭代总次数，表示对多模态特征对齐模型第k次训练时的第二样本对齐特征，表示对多模态特征对齐模型第k次训练时的第一样本对齐特征，/>表示对多模态特征对齐模型第k次训练时的第二识别结果，/>表示对多模态特征对齐模型第k次训练时的第一识别结果。

第四，根据掩蔽损失、文本损失、生成对抗损失，以及预先确定的损失权重，计算多模态特征对齐损失，并基于多模态特征对齐损失，对多模态特征对齐模型进行参数调整，得到训练后的多模态特征对齐模型。

本实施例根据各个损失的重要程度，预先确定了掩蔽损失、文本损失、生成对抗损失各自对应的损失权重，将各个损失乘以其对应的权重之后相加，从而得到多模态特征对齐模型最终的多模态特征对齐损失。具体的，多模态特征对齐损失的计算公式为：

L_sh＝α·L_smlm-sh+β·L_ctc+γ·L_align

其中，L_sh表示多模态特征对齐损失，α表示掩蔽损失L_smlm-sh的损失权重，β表示文本损失L_ctc的损失权重，γ表示生成对抗损失L_align的损失权重。

本实施例以使得计算出的多模态特征对齐损失最小为目标，对多模态特征对齐模型的参数进行调整，直至该多模态特征对齐损失达到预先设置的损失范围。其中，当多模态特征对齐损失达到预先设置的损失范围，则表示多模态特征对齐模型对特征进行多模态特征对齐的准确度达到标准，此时该多模态特征对齐模型完成训练。

作为一种可选的实现方式，在本申请另一实施例中公开了，对多模态特征对齐模型的训练过程中，在进行步骤S201，即，将第一样本语音编码特征和第一样本文本编码特征均进行特征元素掩码操作的同时，还包括如下步骤：

将第一样本语音编码特征中的至少一个特征元素替换为第一样本文本编码特征中的特征元素，以及，将第一样本文本编码特征中的至少一个特征元素替换为第一样本语音编码特征中的特征元素。

本实施例中，从第一样本语音编码特征H_sp中选取至少一个特征元素进行掩蔽操作，再选取至少一个特征元素替换为第一样本文本编码特征H_te中的特征元素，最后得到掩码并替换特征元素后的第一样本语音特征，记为Swap(H_sp)。例如，图3中，对第一样本语音编码特征H_sp中的第三个特征元素和第四个特征元素进行掩蔽操作，并将第一样本语音编码特征H_sp中的第二个特征元素替换为第一样本文本编码特征H_te中的第二个特征元素，将第一样本语音编码特征H_sp中的第六个特征元素替换为第一样本文本编码特征H_te中的第五个特征元素。

从第一样本文本编码特征H_te中选取至少一个特征元素进行掩蔽操作，再选取至少一个特征元素替换为第一样本语音编码特征H_sp中的特征元素，最后得到掩码并替换特征元素后的第一样本文本特征，记为Swap(H_te)。例如，图3中，对第一样本文本编码特征H_te中的第五个特征元素进行掩蔽操作，并将第一样本文本编码特征H_te中的第三个特征元素替换为第一样本语音编码特征H_sp中的第三个特征元素，将第一样本文本编码特征H_te中的第六个特征元素替换为第一样本语音编码特征H_sp中的第六个特征元素。

本实施例通过第一样本语音编码特征H_sp与第一样本文本编码特征H_te中的特征元素交换，使得输入到多模态特征对齐模型中的第一样本语音特征中包含第一样本文本编码特征H_te中特征元素，输入到多模态特征对齐模型中的第一样本文本特征中包含第一样本语音编码特征H_sp中的特征元素，能够提高语音模态与文本模态在表征空间上的模态特征对齐的对齐效果。

作为一种可选的实现方式，参见图4所示，在本申请另一实施例中公开了，以上实施例中，预先设置的多模态分辨器通过第二训练过程训练得到，其中，该第二训练过程具体可以包括如下步骤：

S401、将第二样本语音编码特征和第二样本文本编码特征均进行特征元素掩码操作，得到第二样本语音特征和第二样本文本特征。

具体的，本实施例预先采集第二样本数据对预设的多模态分辨器进行训练，其中，第二样本数据包括第二样本语音数据和第二样本文本数据。利用预训练的语音编码器对第二样本语音数据进行编码操作，得到第二样本语音编码特征，利用预训练的文本编码器对第二样本文本数据进行编码操作，得到第二样本文本编码特征。

本实施例对编码后的第二样本语音编码特征和第二样本文本编码特征分别选取至少一个特征元素进行掩码操作，从而得到第二样本语音特征和第二样本文本特征。

进一步地，本实施例还可以在对第二样本语音编码特征和第二样本文本编码特征进行掩码操作的同时，将第二样本语音编码特征中至少一个特征元素替换为第二样本文本编码特征中的特征元素，将第二样本文本编码特征中至少一个特征元素替换为第二样本语音编码特征中的特征元素，将第二样本语音编码特征掩码以及特征元素替换后的特征作为第二样本语音特征，将第二样本文本编码特征掩码以及特征元素替换后的特征作为第二样本文本特征。

S402、将第二样本语音特征和第二样本文本特征输入到预先构建的多模态特征对齐模型中，得到第二样本语音特征对应的第三样本对齐特征和第二样本文本特征对应的第四样本对齐特征。

本实施例将第二样本语音特征和第二样本文本特征均输入到预先构建的多模态特征对齐模型中，多模态特征对齐模型对第二样本语音特征和第二样本文本特征在表征空间上进行多模态特征对齐，输出第二样本语音特征对应的第三样本对齐特征和第二样本文本特征对应的第四样本对齐特征。

S403、将第三样本对齐特征和第四样本对齐特征输入到预设的多模态分辨器中，得到第三识别结果和第四识别结果。

本实施例将第三样本对齐特征和第四样本对齐特征输入到预设的多模态分辨器中，得到第三识别结果和第四识别结果，其中，第三识别结果表征第三样本对齐特征的特征类型，第四识别结果表征第四样本对齐特征的特征类型。

S404、以第三识别结果与第三样本对齐特征的真实特征类型之间的相似度以及第四识别结果与第四样本对齐特征的真实特征类型之间的相似度最大为目标，对多模态分辨器的参数进行调整，得到训练后的多模态分辨器。

本实施例根据第三识别结果与第三样本对齐特征的真实特征类型之间的相似度以及第四识别结果与第四样本对齐特征的真实特征类型之间的相似度最大为目标，即以多模态分辨器能够准确判别第三样本对齐特征与第四样本对齐特征的特征类型为目标，对多模态分辨器的参数进行调整，以使提高多模态分辨器的识别准确度。

具体的，若识别结果为特征类型为语音类型的概率，那么第三识别结果则为第三样本对齐特征的特征类型为语音类型的概率，第四识别结果为第四样本对齐特征的特征类型为语音类型的概率，那么此时应当以第三识别结果的概率越接近1，第四识别结果的概率越接近0为目标。若识别结果为特征类型为文本类型的概率，那么第三识别结果则为第三样本对齐特征的特征类型为文本类型的概率，第四识别结果为第四样本对齐特征的特征类型为文本类型的概率，那么此时应当以第三识别结果的概率越接近0，第四识别结果的概率越接近1为目标。

进一步地，本实施例预先设置了多模态分辨器的损失函数，基于该损失函数以及第三识别结果和第四识别结果，计算出多模态分辨器的识别损失，以该识别损失最小为目标，对多模态分辨器的参数进行调整。其中，多模态分辨器的损失函数为：

/>

其中，L_D表示多模态分辨器的识别损失，K表示对多模态分辨器的训练迭代总次数，D(X_k)表示对多模态分辨器第k次训练时的第三识别结果，D(T_k)表示对多模态分辨器第k次训练时的第四识别结果。

进一步地，本实施例对多模态特征对齐模型和多模态分辨器的训练可以采用交替训练的方式，即，预先采集一批样本数据作为第二样本数据，利用第二样本数据首先对多模态分辨器进行第一次训练，然后再采集一批样本数据作为第一样本数据，利用第一样本数据对多模态特征对齐模型进行第一次训练，然后再采集一批样本数据作为第二样本数据对多模态分辨器进行第二次训练，然后再采集一批样本数据作为第一样本数据对多模态特征对齐模型进行第二次训练，以此类推，从而实现对多模态特征对齐模型和多模态分辨器的交替训练。

作为一种可选的实现方式，参见图3所示，在本申请另一实施例中公开了，预先构建的多模态特征对齐模型，包括：语音模态对应的自适应层(即图3中的语音自适应层)、文本模态对应的自适应层(即图3中的文本自适应层)和多模态共享编码器。对应的，上述实施例中，将第一样本语音特征和第一样本文本特征输入到预先构建的多模态特征对齐模型中，得到第一样本语音特征对应的第一样本对齐特征和第一样本文本特征对应的第二样本对齐特征，具体包括如下步骤

第一，将第一样本语音特征输入到语音模态对应的自适应层，得到第一样本初始对齐特征，将第一样本文本特征输入到文本模态对应的自适应层，得到第二样本初始对齐特征。

本实施例将第一样本语音特征Swap(H_sp)输入到语音模态对应的自适应层，该语音模态对应的自适应层对第一样本语音特征Swap(H_sp)进行初步处理，即初步的多模态特征对齐，从而得到第一样本初始对齐特征A_sp，即，A_sp＝Adp_sp(Swap(H_sp))。本实施例将第一样本文本特征Swap(H_te)输入到文本模态对应的自适应层，该文本模态对应的自适应层对第一样本文本特征Swap(H_te)进行初步处理，即初步的多模态特征对齐，从而得到第二样本初始对齐特征A_te，即，A_te＝Adp_te(Swap(H_te))。

第二，将第一样本初始对齐特征和第二样本初始对齐特征均输入到多模态共享编码器，得到第一样本对齐特征和第二样本对齐特征。

本实施例将第一样本初始对齐特征A_sp和第二样本初始对齐特征A_te均输入到多模态共享编码器中，该多模态共享编码器对第一样本初始对齐特征A_sp在表征空间上进行多模态特征对齐，从而得到第一样本对齐特征Z_sp，即，Z_sp＝Enc_sh(A_sp)。该多模态共享编码器对第二样本初始对齐特征A_te在表征空间上进行多模态特征对齐，从而得到第二样本对齐特征Z_te，即，

Z_te＝Enc_sh(A_te)。

进一步地，由于预先构建的多模态特征对齐模型，包括：语音模态对应的自适应层、文本模态对应的自适应层和多模态共享编码器。那么，对应的，上述实施例的步骤S204，根据第一样本对齐特征、第二样本对齐特征、第一识别结果和第二识别结果，对多模态特征对齐模型进行第一训练，得到训练后的多模态特征对齐模型，具体可以包括如下步骤：

第一，利用第一样本初始对齐特征、第一样本语音编码特征、第二样本初始对齐特征和第一样本文本编码特征，计算语音掩蔽损失和文本掩蔽损失。

具体的，本实施例预先设置了语音掩蔽损失函数和文本掩蔽损失函数，利用语音掩蔽损失函数，可以计算出第一样本初始对齐特征A_sp与第一样本语音编码特征H_sp之间的语音掩蔽损失。其中，语音掩蔽损失函数为：

其中，L_smlm-a表示第一样本初始对齐特征A_sp与第一样本语音编码特征H_sp之间的语音掩蔽损失，U表示第一样本初始对齐特征A_sp中特征元素的总数量，表示第一样本语音编码特征H_sp中第u个特征元素，/>表示第一样本初始对齐特征A_sp中第u个特征元素。

利用文本掩蔽损失函数，可以计算出第二样本初始对齐特征A_te与第一样本文本编码特征H_te之间的文本掩蔽损失。其中，文本掩蔽损失函数为：

其中，L_tmlm表示第二样本初始对齐特征A_te与第一样本文本编码特征H_te之间的文本掩蔽损失，N表示第二样本初始对齐特征A_te中特征元素的总数量，表示第一样本文本编码特征H_te中第u个特征元素，/>表示第二样本初始对齐特征A_te中第u个特征元素。

第二，基于语音掩蔽损失，对语音模态对应的自适应层进行参数调整，基于文本掩蔽损失，对文本模态对应的自适应层进行参数调整。

本实施例以使得计算出的语音掩蔽损失最小为目标，对语音模态对应的自适应层进行参数调整，以使得计算出的文本掩蔽损失最小为目标，对文本模态对应的自适应层进行参数调整。

第三，利用第一样本对齐特征和第一样本语音编码特征，计算掩蔽损失，利用第二样本对齐特征和第一样本文本编码特征对应的样本文本数据，计算文本损失，利用第一识别结果和第二识别结果，计算生成对抗损失。

第四，根据掩蔽损失、文本损失、生成对抗损失，以及预先确定的损失权重，计算多模态特征对齐损失，基于多模态特征对齐损失，对多模态共享编码器进行参数调整。

具体的，上述第三步骤和第四步骤已经在上述实施例中具体阐述，本实施例不再赘述。

本申请实施例提出一种模型训练方法，该方法可以由电子设备执行，该电子设备可以是任意的具有数据及指令处理功能的设备，例如可以是计算机、智能终端、服务器等。参见图5所示，该方法包括：

S501、获取模型训练数据对应的模态对齐特征。

具体的，本实施例预先获取模型训练数据，并利用上述实施例中的多模态特征对齐方法，确定模型训练数据对应的模态对齐特征。其中，预先获取的模型训练数据包括：语音训练数据和文本训练数据，那么对应的，模态对齐特征则包括语音训练数据对应的语音模态对齐特征以及文本训练数据对应的文本模态对齐特征。

S502、将模态对齐特征输入到预先构建的任务模型中，对任务模型进行任务训练，得到训练后的任务模型。

将模态对齐特征输入到预先构建的任务模型中，对任务模型进行任务训练，从而得到训练后的任务模型。其中，任务模型可以包括：语音识别模型、语音翻译模型、语音合成模型和语音同传模型中的至少一种，那么对应的任务训练则包括语音识别训练、语音翻译训练、语音合成训练和语音同传训练中的至少一项。例如，若任务模型为语音识别模型，那么则利用模型训练数据对应的模态对齐特征对语音识别模型进行语音识别训练，从而得到训练后的语音识别模型；若任务模型为语音翻译模型，那么则利用模型训练数据对应的模态对齐特征对语音翻译模型进行语音翻译训练，从而得到训练后的语音翻译模型；若任务模型为语音合成模型，那么则利用模型训练数据对应的模态对齐特征对语音合成模型进行语音合成训练，从而得到训练后的语音合成模型；若任务模型为语音同传模型，那么则利用模型训练数据对应的模态对齐特征对语音同传模型进行语音同传训练，从而得到训练后的语音同传模型。

通过上述介绍可见，本申请实施例提出的模型训练方法，能够利用多模态特征对齐方法实现不同模态的模型训练数据的模态特征在表征空间上的对齐，从而提升下游任务模型的性能，并且，多模态特征对齐方法中的多模态特征对齐参数在确定过程中利用的生成对抗技术，能够提高多模态特征对齐的效果。

示例性装置

与上述多模态特征对齐方法相对应的，本申请实施例还公开了一种多模态特征对齐装置，参见图6所示，该装置包括：

模态数据编码模块100，用于对模态数据进行编码操作，得到第一模态编码特征；其中，模态数据包括：语音数据和/或文本数据；

模态特征对齐模块110，用于利用预先确定的多模态特征对齐参数，对第一模态编码特征在表征空间上进行多模态特征对齐，得到模态数据对应的模态对齐特征；

多模态特征对齐参数，是通过特征类型判别训练而确定的，其中，特征类型判别训练，以使得按照多模态特征对齐参数，对样本语音特征和样本文本特征进行特征对齐后，无法准确判别得到模态对齐特征的特征类型，为目标。

通过上述介绍可见，本申请实施例提出的多模态特征对齐装置，能够利用多模态特征对齐参数实现不同模态特征在表征空间上的对齐，从而提升下游任务模型的性能，并且，多模态特征对齐参数在确定过程中利用的生成对抗技术，能够提高多模态特征对齐的效果。

作为一种可选的实现方式，在本申请另一实施例中公开了，样本语音特征是将样本语音编码特征中的至少一个特征元素替换为样本文本编码特征中的特征元素得到的，样本文本特征是将样本文本编码特征中的至少一个特征元素替换为样本语音编码特征中的特征元素得到的。

作为一种可选的实现方式，在本申请另一实施例中公开了，多模态特征对齐参数包括：模态数据对应的模态编码参数，以及共享编码参数；

对应的，模态特征对齐模块110，具体用于：

利用模态编码参数，对第一模态编码特征进行处理，得到模态数据对应的初始模态对齐特征；

利用共享编码参数，对初始模态对齐特征在表征空间上进行多模态特征对齐，得到模态数据对应的模态对齐特征。

作为一种可选的实现方式，在本申请另一实施例中公开了，模态特征对齐模块110，具体用于利用预先训练的多模态特征对齐模型，对第一模态编码特征在表征空间上进行多模态特征对齐，得到模态数据对应的模态对齐特征；

多模态特征对齐模型用于按照多模态特征对齐参数对输入的特征在表征空间上进行多模态特征对齐。

作为一种可选的实现方式，在本申请另一实施例中公开了，本实施例的多模态特征对齐装置还包括：掩码模块、第一输入模块、第二输入模块和第一训练模块。

掩码模块，用于将第一样本语音编码特征和第一样本文本编码特征均进行特征元素掩码操作，得到第一样本语音特征和第一样本文本特征；

第一输入模块，用于将第一样本语音特征和第一样本文本特征输入到预先构建的多模态特征对齐模型中，得到第一样本语音特征对应的第一样本对齐特征和第一样本文本特征对应的第二样本对齐特征；

第二输入模块，用于将第一样本对齐特征和第二样本对齐特征输入到预设的多模态分辨器中，得到第一识别结果和第二识别结果；第一识别结果表征第一样本对齐特征的特征类型，第二识别结果表征第二样本对齐特征的特征类型；

第一训练模块，用于根据第一样本对齐特征、第二样本对齐特征、第一识别结果和第二识别结果，对多模态特征对齐模型进行第一训练，得到训练后的多模态特征对齐模型；第一训练以使得第一识别结果与第一样本对齐特征的真实特征类型之间的相似度以及第二识别结果与第二样本对齐特征的真实特征类型之间的相似度最小，并且通过第一识别结果和第二识别结果无法区分第一样本对齐特征和第二样本对齐特征为目标。

作为一种可选的实现方式，在本申请另一实施例中公开了，本实施例的多模态特征对齐装置还包括：特征替换模块，用于将第一样本语音编码特征中的至少一个特征元素替换为第一样本文本编码特征中的特征元素，以及，将第一样本文本编码特征中的至少一个特征元素替换为第一样本语音编码特征中的特征元素。

作为一种可选的实现方式，在本申请另一实施例中公开了，本实施例的多模态特征对齐装置还包括：第二训练模块。

掩码模块，还用于将第二样本语音编码特征和第二样本文本编码特征均进行特征元素掩码操作，得到第二样本语音特征和第二样本文本特征；

第一输入模块，还用于将第二样本语音特征和第二样本文本特征输入到预先构建的多模态特征对齐模型中，得到第二样本语音特征对应的第三样本对齐特征和第二样本文本特征对应的第四样本对齐特征；

第二输入模块，还用于将第三样本对齐特征和第四样本对齐特征输入到预设的多模态分辨器中，得到第三识别结果和第四识别结果；第三识别结果表征第三样本对齐特征的特征类型，第四识别结果表征第四样本对齐特征的特征类型；

第二训练模块，用于以第三识别结果与第三样本对齐特征的真实特征类型之间的相似度以及第四识别结果与第四样本对齐特征的真实特征类型之间的相似度最大为目标，对多模态分辨器的参数进行调整，得到训练后的多模态分辨器。

作为一种可选的实现方式，在本申请另一实施例中公开了，本实施例的多模态特征对齐装置中，第一训练模块，具体用于：

利用第一样本对齐特征和第一样本语音编码特征，计算掩蔽损失；

利用第二样本对齐特征和第一样本文本编码特征对应的样本文本数据，计算文本损失；

利用第一识别结果和第二识别结果，计算生成对抗损失；

根据掩蔽损失、文本损失、生成对抗损失，以及预先确定的损失权重，计算多模态特征对齐损失，并基于多模态特征对齐损失，对多模态特征对齐模型进行参数调整，得到训练后的多模态特征对齐模型。

作为一种可选的实现方式，在本申请另一实施例中公开了，预先构建的多模态特征对齐模型，包括：语音模态对应的自适应层、文本模态对应的自适应层和多模态共享编码器；对应的，第一输入模块，具体用于：

将第一样本语音特征输入到语音模态对应的自适应层，得到第一样本初始对齐特征，将第一样本文本特征输入到文本模态对应的自适应层，得到第二样本初始对齐特征；

将第一样本初始对齐特征和第二样本初始对齐特征均输入到多模态共享编码器，得到第一样本对齐特征和第二样本对齐特征。

作为一种可选的实现方式，在本申请另一实施例中公开了，第一训练模块，具体还用于：

利用第一样本初始对齐特征、第一样本语音编码特征、第二样本初始对齐特征和第一样本文本编码特征，计算语音掩蔽损失和文本掩蔽损失；

基于语音掩蔽损失，对语音模态对应的自适应层进行参数调整，基于文本掩蔽损失，对文本模态对应的自适应层进行参数调整；

利用第一样本对齐特征和第一样本语音编码特征，计算掩蔽损失，利用第二样本对齐特征和第一样本文本编码特征对应的样本文本数据，计算文本损失，利用第一识别结果和第二识别结果，计算生成对抗损失；

根据掩蔽损失、文本损失、生成对抗损失，以及预先确定的损失权重，计算多模态特征对齐损失，基于多模态特征对齐损失，对多模态共享编码器进行参数调整。

本实施例提供的多模态特征对齐装置，与本申请上述实施例所提供的多模态特征对齐方法属于同一申请构思，可执行本申请上述任意实施例所提供的多模态特征对齐方法，具备执行多模态特征对齐方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的多模态特征对齐方法的具体处理内容，此处不再加以赘述。

与上述模型训练方法相对应的，本申请实施例还公开了一种模型训练装置，参见图7所示，该装置包括：

数据处理模块200，用于数据处理模块，用于获取模型训练数据对应的模态对齐特征；其中，模型训练数据对应的模态对齐特征是利用上述实施例的多模态特征对齐方法得到的；模型训练数据包括语音训练数据和文本训练数据；

模型训练模块210，用于将模态对齐特征输入到预先构建的任务模型中，对任务模型进行任务训练，得到训练后的任务模型；任务训练包括语音识别训练、语音翻译训练、语音合成训练和语音同传训练中的至少一项。

通过上述介绍可见，本申请实施例提出的模型训练装置，能够利用多模态特征对齐方法实现不同模态的模型训练数据的模态特征在表征空间上的对齐，从而提升下游任务模型的性能，并且，多模态特征对齐方法中的多模态特征对齐参数在确定过程中利用的生成对抗技术，能够提高多模态特征对齐的效果。

本实施例提供的模型训练装置，与本申请上述实施例所提供的模型训练方法属于同一申请构思，可执行本申请上述任意实施例所提供的模型训练方法，具备执行模型训练方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的模型训练方法的具体处理内容，此处不再加以赘述。

示例性电子设备、存储介质和计算机程序产品

与上述多模态特征对齐方法相对应的，本申请实施例还公开了一种电子设备，参见图8所示，该电子设备包括：

存储器300和处理器310；

其中，存储器300与处理器310连接，用于存储程序；

处理器310，用于通过运行存储器300中存储的程序，实现上述任一实施例公开的多模态特征对齐方法。

具体地，上述电子设备还可以包括：总线、通信接口320、输入设备330和输出设备340。

处理器310、存储器300、通信接口320、输入设备330和输出设备340通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器310可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器310可包括主处理器，还可包括基带芯片、调制解调器等。

存储器300中保存有执行本申请技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备330可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备340可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口320可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器310执行存储器300中所存放的程序，以及调用其他设备，可用于实现本申请上述实施例所提供的多模态特征对齐方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述任一实施例提供的多模态特征对齐方法的各个步骤。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器310运行时使得处理器310执行上述实施例所提供的多模态特征对齐方法的各个步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行，或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器310执行上述实施例所提供的多模态特征对齐方法的各个步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线，或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合。

具体的，上述的电子设备、计算机程序产品和存储介质的各个部分的具体工作内容，以及计算机程序产品或者上述的存储介质上的计算机程序被处理器运行时的具体处理内容，均可以参见上述的多模态特征对齐方法的各个实施例的内容，此处不再赘述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必需的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例中装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其他的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其他的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”“包含”或者其任何其他变体意在涵盖非排他性地包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其他实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多模态特征对齐方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述样本语音特征是将样本语音编码特征中的至少一个特征元素替换为样本文本编码特征中的特征元素得到的，所述样本文本特征是将所述样本文本编码特征中的至少一个特征元素替换为所述样本语音编码特征中的特征元素得到的。

3.根据权利要求1所述的方法，其特征在于，所述多模态特征对齐参数包括：所述模态数据对应的模态编码参数，以及共享编码参数；

4.根据权利要求1所述的方法，其特征在于，利用预先确定的多模态特征对齐参数，对所述第一模态编码特征在表征空间上进行多模态特征对齐，得到所述模态数据对应的模态对齐特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述多模态特征对齐模型的训练过程，包括：

6.根据权利要求5所述的方法，其特征在于，将第一样本语音编码特征和第一样本文本编码特征均进行特征元素掩码操作的同时，还包括：

7.根据权利要求5所述的方法，其特征在于，所述多模态分辨器通过第二训练过程训练得到，所述第二训练过程包括：

8.根据权利要求5所述的方法，其特征在于，根据所述第一样本对齐特征、所述第二样本对齐特征、所述第一识别结果和所述第二识别结果，对所述多模态特征对齐模型进行第一训练，得到训练后的多模态特征对齐模型，包括：

9.根据权利要求5所述的方法，其特征在于，所述预先构建的多模态特征对齐模型，包括：语音模态对应的自适应层、文本模态对应的自适应层和多模态共享编码器；

10.根据权利要求9所述的方法，其特征在于，根据所述第一样本对齐特征、所述第二样本对齐特征、所述第一识别结果和所述第二识别结果，对所述多模态特征对齐模型进行第一训练，得到训练后的多模态特征对齐模型，包括：

11.一种多模态特征对齐装置，其特征在于，包括：

12.一种模型训练方法，其特征在于，包括：

获取模型训练数据对应的模态对齐特征；其中，所述模型训练数据对应的模态对齐特征是利用如权利要求1-10任一项所述的多模态特征对齐方法得到的；所述模型训练数据包括语音训练数据和文本训练数据；

13.一种模型训练装置，其特征在于，包括：

数据处理模块，用于获取模型训练数据对应的模态对齐特征；其中，所述模型训练数据对应的模态对齐特征是利用如权利要求1-10任一项所述的多模态特征对齐方法得到的；所述模型训练数据包括语音训练数据和文本训练数据；

14.一种电子设备，其特征在于，包括：存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至10中任一项所述的多模态特征对齐方法。

15.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至10中任一项所述的多模态特征对齐方法。