CN114842834A

CN114842834A - 一种语音文本联合预训练方法及系统

Info

Publication number: CN114842834A
Application number: CN202210346308.6A
Authority: CN
Inventors: 周世玉; 韩明伦; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-08-02

Abstract

本发明提供一种语音文本联合预训练方法及系统，包括：将非成对语音数据和非成对文本数据输入至预训练联合模型中，得到初始损失总函数和初始训练联合模型；将非成对语音数据、非成对文本数据和成对语音文本数据输入初始训练联合模型，得到更新损失总函数和更新训练联合模型；将非成对语音数据、非成对文本数据和成对语音文本数据输入更新训练联合模型，得到最终损失总函数和最终训练联合模型。本发明利用非成对语音数据、非成对文本数据、成对语音文本数据对联合模型进行多次迭代训练，采用闭环言语链机理和连续累积发放机制，有效解决了非成对数据利用不充分问题，以及成对数据对齐关系学习不充分的问题。

Description

一种语音文本联合预训练方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语音文本联合预训练方法及系统。

背景技术

随着预训练模型在自然语言处理领域的广泛研究与应用，预训练模型在跨模态的语音文本联合预训练中的应用也获得了更多关注。

主流的语音文本联合预训练根据模型结构的差异，可分为三类：单流模型结构、双流模型结构和编码器解码器结构。单流结构的模型通常采用一个共享的跨模态编码结构对不同模态的输入表征同时编码，代表性的工作有SpeechBERT、ST-BERT、SLP、FAT与SLAM等；双流结构的模型采用分离的模块对于不同模态数据进行编码，相关工作包含SPLAT和CTAL；编码器解码器结构包含一个编码器和解码器，是一种研究较少的预训练结构，目前的代表性工作是SpeechT5。

在上述三种模型结构中，最为主流的模型结构是单流模型结构。以SLAM模型为例，SLAM是一种典型的单流预训练模型，由语音编码模块、文本编码模块、跨模态编码器三个部分组成。语音编码模块负责将语音信号编码为声学特征序列，文本编码模块负责将离散的文本符号序列转换为字符特征序列。跨模态编码器则起到了与通用语义空间相似的作用，使得语音文本特征都可以通过跨模态编码完成更充分的信息交互与利用。SLAM模型在预训练阶段利用了三种不同形式的数据：非成对文本、非成对语音、语音文本对。其中，前两种类型的数据主要用于鼓励整个模型学习文本和语音的单模态表征能力，成对数据主要用于鼓励模型学习跨模态信息的交互作用与跨模态数据间的对齐关系。

SLAM模型的预训练可以分为两个阶段：1)阶段1：仅使用非成对文本数据和非成对语音数据进行训练；2)阶段2：使用全部类型的数据进行训练。在第一阶段，利用非成对文本数据以及掩蔽语言模型建模来学习文本的表征建模能力，利用非成对语音数据以及联合了对比损失和掩蔽语言模型建模的自监督训练方法来学习语音的表征建模能力。在第二阶段，在保留第一阶段训练流程的基础上，加入成对数据，并利用翻译语言模型建模任务与语音文本匹配任务来监督模型学习语音和文本的对齐关系，SLAM能够较好地完成下游的单模态以及跨模态任务。

SLAM模型虽然已经具备了初步的对于非成对语音，非成对文本以及成对语音文本的利用能力，但是对于非成对数据的利用仍然不够充分。另外，此类预训练技术通常没有对于语音文本的对齐关系进行显式的有监督学习，没有充分挖掘利用成对数据间的对齐信息。

发明内容

本发明提供一种语音文本联合预训练方法及系统，用以解决现有语音文本联合预训练技术中对于非成对数据利用不充分的问题、以及对于成对数据中的对齐关系挖掘不充分的问题。

第一方面，本发明提供一种语音文本联合预训练方法，包括：

获取非成对语音数据、非成对文本数据和成对语音文本数据；

将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中，计算初始损失总函数以训练得到初始训练联合模型；

将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型，利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数，利用所述成对语音文本数据计算更新成对数据损失函数，将所述初始损失总函数与所述更新成对数据损失函数求和，得到更新损失总函数以训练得到更新训练联合模型；

将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型，利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数，利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数，将所述最终闭环成对数据损失函数与所述更新损失总函数求和，得到最终损失总函数以训练最终训练联合模型；

其中，所述预训练联合模型包括文本编码器、语音编码器、跨模态编码器、语音识别解码模块和语音合成解码模块。

根据本发明提供的一种语音文本联合预训练方法，所述将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中，计算初始损失总函数以训练得到初始训练联合模型，包括：

将所述非成对语音数据输入所述语音编码器，得到非成对声学特征序列，将所述非成对文本数据输入所述文本编码器，得到非成对文本特征序列；

将所述非成对声学特征序列输入所述跨模态编码器，得到声学掩蔽损失函数，将所述非成对文本特征序列输入所述跨模态编码器，得到文本掩蔽损失函数；

基于所述非成对声学特征序列计算自监督对比损失，得到声学对比损失函数；

确定声学掩蔽损失加权系数、文本掩蔽损失加权系数和声学对比损失加权系数；

基于所述声学掩蔽损失加权系数、所述声学掩蔽损失函数、所述文本掩蔽损失加权系数、所述文本掩蔽损失函数、所述声学对比损失加权系数和所述声学对比损失函数，得到所述初始损失总函数；

基于所述初始损失总函数计算所述预训练联合模型的反向传播梯度，得到所述初始训练联合模型。

根据本发明提供的一种语音文本联合预训练方法，所述将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型，利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数，利用所述成对语音文本数据计算更新成对数据损失函数，将所述初始损失总函数与所述更新成对数据损失函数求和，得到更新损失总函数以训练得到更新训练联合模型，包括：

基于所述初始损失总函数完成所述非成对语音数据和所述非成对文本数据的前向传播计算；

利用所述成对语音文本数据中的语音数据完成所述语音编码器和所述语音识别解码器的前向传播过程，利用所述语音识别解码器的输出和所述成对语音文本数据中的文本数据计算文本预测损失函数；

利用所述成对语音文本数据中的文本数据完成所述文本编码器和所述语音合成解码器的前向传播过程，利用所述语音合成解码器的输出和所述成对语音文本数据中的语音数据计算语音重建损失函数；

分别获取所述成对语音文本数据经过所述语音编码器的语音序列数据，以及经过所述文本编码器的文本序列数据，将所述语音序列数据和所述文本序列数据输入至所述跨模态编码器，获得翻译语言建模损失函数、语音文本匹配损失函数和区间字符预测损失函数；

确定文本预测损失加权系数、语音重建损失加权系数、翻译语言建模损失加权系数、语音文本匹配损失加权系数和区间字符预测损失加权系数；

基于所述初始损失总函数、所述文本预测损失加权系数、所述文本预测损失函数、所述语音重建损失加权系数、所述语音重建损失函数、所述翻译语言建模加权系数、所述翻译语言建模损失函数、所述语音文本匹配损失加权系数、所述语音文本匹配损失函数、所述区间字符预测损失函数和所述区间字符预测损失函数，得到所述更新损失总函数；

基于所述更新损失总函数计算所述初始训练联合模型的反向传播梯度，得到所述更新训练联合模型。

根据本发明提供的一种语音文本联合预训练方法，所述将所述成对语音文本数据依次输入所述语音编码器和所述语音识别解码模块，获得文本预测损失函数，包括：

将所述成对语音文本数据中的语音数据输入所述语音编码器得到声学特征序列，对所述声学特征序列施加连接时序分类损失，得到连接时序分类损失子函数；

将所述声学特征序列输入所述语音识别解码模块得到非自回归语音解码输出序列，对所述非自回归语音解码输出序列施加交叉熵损失，得到交叉熵损失子函数；

获取所述声学特征序列经过连续累积发放CIF模块的输出权重之和，对所述输出权重之和施加数量损失，得到所述数量损失子函数；

综合所述连接时序分类损失子函数、所述交叉熵损失子函数和所述数量损失子函数，得到所述文本预测损失函数。

根据本发明提供的一种语音文本联合预训练方法，所述将所述成对语音文本数据依次输入所述文本编码器和所述语音合成解码器，获得语音重建损失函数，包括：

获取所述语音文本成对数据中的文本数据，并输入所述文本编码器，并将所述文本编码器的输出输入到所述语音合成解码器，得到声学特征序列；

对所述声学特征序列施加重建损失，得到所述语音重建损失函数。

根据本发明提供的一种语音文本联合预训练方法，所述分别获取所述成对语音文本数据经过所述语音编码器的语音序列数据，以及经过所述文本编码器的文本序列数据，将所述语音序列数据和所述文本序列数据输入至所述跨模态编码器，获得翻译语言建模损失函数、语音文本匹配损失函数和区间字符预测损失函数，包括：

确定预设比例数据对所述成对语音文本数据的预设部分区间进行掩蔽，基于所述跨模态编码器中的语音模态信息和文本模态信息对掩蔽的预设部分区间进行预测，获得所述翻译语言建模损失函数；

基于所述成对语音文本数据的原始样本构造数量一致、语音文本内容不匹配的负样本，分别确定所述负样本为第一标签，以及原始正样本为第二标签，基于所述跨模态编码器的标记位置的对应输出，对语音文本是否匹配进行预测，获得所述语音文本匹配损失函数；

随机选择所述成对语音文本数据中的文本数据部分中的字符，在所述语音编码区输入处将所述随机选择的字符对应的由CIF的字符声学边界确定的语音区间进行掩蔽，将所述跨模态编码器输出处的所述掩蔽语音区间内的表征进行平均后得到平均值，基于所述平均值对所述随机选择的字符进行预测，得到所述区间字符预测损失函数。

根据本发明提供的一种语音文本联合预训练方法，所述将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型，利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数，利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数，将所述最终闭环成对数据损失函数与所述更新损失总函数求和，得到最终损失总函数以训练最终训练联合模型，包括：

基于所述更新损失总函数完成所述非成对语音数据，所述非成对文本数据以及所述成对语音文本数据的前向传播计算；

获取所述非成对语音数据通过所述语音识别解码模块输出的识别文本结果，将所述识别文本结果与所述非成对语音数据构造成对语音文本数据，利用所述成对语音文本数据计算所述更新成对数据损失函数，得到所述最终闭环成对语音数据损失函数；

获取所述非成对文本数据通过所述语音合成解码模块输出的合成语音结果，将所述合成语音结果与所述非成对文本数据构成成对语音文本数据，利用所述成对语音文本数据计算所述更新成对数据损失函数，得到所述最终闭环成对文本数据损失函数；

综合所述最终闭环成对语音数据损失函数、所述最终闭环成对文本数据损失函数和所述更新损失总函数，得到最终损失总函数；

基于所述最终损失总函数计算所述更新训练联合模型的反向传播梯度，得到所述最终训练联合模型。

第二方面，本发明还提供一种语音文本联合预训练系统，包括：

获取模块，用于获取非成对语音数据、非成对文本数据和成对语音文本数据；

初始训练模块，用于将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中，计算初始损失总函数以训练得到初始训练联合模型；

更新训练模块，用于将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型，利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数，利用所述成对语音文本数据计算更新成对数据损失函数，将所述初始损失总函数与所述更新成对数据损失函数求和，得到更新损失总函数以训练得到更新训练联合模型；

最终训练模块，用于将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型，利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数，利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数，将所述最终闭环成对数据损失函数与所述更新损失总函数求和，得到最终损失总函数以训练最终训练联合模型；

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音文本联合预训练方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音文本联合预训练方法的步骤。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音文本联合预训练方法的步骤。

本发明提供的语音文本联合预训练方法及系统，通过对非成对语音数据、非成对文本数据和成对语音文本数据进行多次迭代训练，采用闭环言语链机理和连续累积发放机制，有效解决了非成对数据利用不充分问题，以及成对数据对齐关系学习不充分的问题。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音文本联合预训练方法的流程示意图；

图2是本发明提供的闭环言语链原理示意图；

图3是本发明提供的言语链中语音和文本闭环结构示意图；

图4是本发明提供的连续累积发放过程示意图；

图5是本发明提供的语音文本联合预训练框架模型结构图；

图6是本发明提供的语音文本联合预训练系统的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在目前主流的语音文本联合预训练技术中，虽然已经具备了初步的对于非成对语音数据，非成对文本数据以及成对语音文本数据的利用能力，但是对于非成对数据的利用仍然不够充分。另外，上述语音文本联合预训练技术中通常没有对于语音文本的对齐关系进行显式的监督学习，没有充分利用成对数据间的对齐信息。

为解决上述问题，本发明提出一种语音文本联合预训练方法，图1是本发明提供的语音文本联合预训练方法的流程示意图，如图1所示，包括：

步骤S1，获取非成对语音数据、非成对文本数据和成对语音文本数据；

步骤S2，将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中，计算初始损失总函数以训练得到初始训练联合模型；

步骤S3，将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型，利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数，利用所述成对语音文本数据计算更新成对数据损失函数，将所述初始损失总函数与所述更新成对数据损失函数求和，得到更新损失总函数以训练得到更新训练联合模型；

步骤S4，将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型，利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数，利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数，将所述最终闭环成对数据损失函数与所述更新损失总函数求和，得到最终损失总函数以训练最终训练联合模型；

需要说明的是，本发明的实现方案涉及闭环言语链机理和连续累积发放机制：

图2是本发明提供的闭环言语链原理示意图，言语链是一条联结说话人头脑与听话人头脑的许多事件的链条，左侧人脑属于说话人，右侧人脑属于听话人。说话人人脑首先在语言学层面上，根据想要表达的语义，选择恰当的单词和短语，来构造想要表达的语句，然后在生理学层面控制运动神经产生肌肉活动，最后在物理学层面产生空气震动与声波传递。听话人部分的过程则同说话人完全相反。在这个过程中，言语链依次经历了如下几个层面的处理：语言学层面-生理学层面-物理学层面-生理学层面-语言学层面。同时，言语链还有一个侧向连接，被称为听觉反馈(Auditory Feedback)。听觉反馈指的是说话人对自身所发出声音的接收过程，其同说话人的说话(发声)过程共同构成了一个闭环言语链。具备听觉反馈的闭环言语链在人类言语能力习得过程中起到了重要作用，闭环语音链中的听觉反馈机制，对于早期的言语能力习得尤为重要，但是随着人的年龄增长和言语能力的提高，人脑对于听觉反馈的敏感性会逐渐降低。在早期的言语能力习得过程中，婴儿会通过自己发出的声音反馈来监控自己的发声，并不断矫正发音过程。经过这种持续的矫正，婴儿的言语能力将会不断提升，最终获得较为完善的言语认知能力。

言语链机理在基于机器的语音技术中的应用最早可以追溯到Andros Tjandra等人首次将深度学习技术用于构造语音和文本的闭环结构，如图3所示，同时利用成对的语音文本数据和非成对的语音文本数据对闭环结构进行训练。相比于没有利用非成对数据的识别与合成模型，在言语链框架中训练的语音识别系统和语音合成系统均获得了更好的性能。另外，Takaaki Hori等人提出一种将语音合成模块替换为“TTE(Text-to-Embedding,文本到中间声学表征模块)”的闭环模型，并引入了循环一致性损失和强化学习算法使得整个模型能够以端到端方式训练。后来，Andros Tjandra提出的闭环言语链框架基础上引入了直通估计(Straight-through Estimator)的梯度近似方法，使得这一框架也具备了端到端训练的能力，同时，还在合成模块引入了说话人表示，使得模型具备了多说话人的语音合成能力；在Takaaki Hori的基于循环一致性训练的闭环言语链框架上，将TTE替换成了语音合成，实现真正意义上的闭环言语链。近年来，对于Andros Tjandra提出的闭环言语链模型的相关研究仍层出不穷，譬如，在说话人自适应技术方面的工作以及在领域自适应技术方面的工作等，这些研究工作均促进了机器言语链技术的进一步发展。总体来说，闭环言语链机制为当前的语音技术提供了一种利用无标注数据来提升零资源或低资源场景下机器语音系统的性能的方案。

除此之外，连续累积发放机制是一种典型的声学边界加工过程。一方面，CIF机制提取了原始语音特征序列中不同符号对应的声学区块间的边界，另一方面，CIF机制利用边界之间的声学区块来凝练出符号对应的声学表示。在基于CIF的语音识别模型中，CIF模块充当了编码器和解码器的中间媒介。给定原始声学特征序列x＝[x₁,x₂,…,x_t,…,x_T]作为输入，声学编码器(Encoder)首先将其编码为低阶语音表征序列h＝[h₁,h₂,…,h_u,…,h_U](U<T)。利用低阶语音表征序列，可以生成CIF过程所需的权重α＝[α₁,α₂,…,α_u,…,α_U]。然后，以h和α作为输入，CIF模块输出非均匀压缩后的字符层面的声学表征序列c＝[c₁,c₂,…,c_i,…,c_I]。最后，解码器利用字符层面的声学表征序列完成语音识别的预测。

具体来说，在CIF过程中，CIF模块会维护一个累积权重之和与一个待发放的声学表征。在编码器输出的每个时刻u，CIF模块接收h_u与α_u，并且不断地累加接收的权重α_u，且同步地用对应于h_u的权重将h_u加权求和作为待发放的声学表征。当累积的权重之和超过预先设定的阈值β后，当前时刻将被标记为声学边界，并且发放输出当前时刻更新后的待发放声学表征c_i。需要注意的是，这一发放时刻对应的声学信息由当前边界的前一个符号和后一个符号所共享：α_u1用于补全声学边界前一个符号的累积发放权重和到1，α_u2用于声学边界后一个符号的权重累积(其中，α_u1+α_u2＝α_u)。最终，在整个原始声学特征序列上完成的累积发放过程将会给出压缩后的字符层面的声学表征c＝[c₁,c₂,…,c_i,…,c_I]。上述连续累积发放过程的细节详见图4，CIF模块输出的字符层面的声学表征所具备的最重要的意义是，其为在语音识别中的声学层面上整合文本形式的知识创造了可能性。

基于上述闭环言语链原理和连续累积发放机制，本发明的联合预训练模型整体包括文本编码器、语音编码器、跨模态编码器、语音识别解码和语音合成解码模块，如图5所示，其作用分别如下：

文本编码器：文本编码器负责编码输入的文本序列，譬如，图中文本编码器编码了输入的“联合预训练”文本；

语音编码器：语音编码器负责编码输入的语音信号；

跨模态编码器：能够接收两种模态的输入特征序列，将两个模态特征进行深度整合与对齐编码；

语音识别解码模块：用于输出语音识别结果(文本序列)，其中包含了CIF模块和一个非自回归解码器；

语音合成解码模块：用于输出语音合成结果(声学信号)。

在上述整体模型基础上，本发明采用非成对语音数据、非成对文本数据和成对语音文本数据分别对预训练框架进行多阶段的迭代训练。

在第一阶段训练中，将非成对语音数据和非成对文本数据输入至预训练联合模型中，得到初始损失总函数，并通过优化初始损失总函数得到初始训练联合模型。

在第二阶段训练中，除了非成对语音数据和非成对文本数据之外，还利用了成对语音文本数据。在初始训练联合模型的基础上，利用非成对语音数据和非成对文本数据计算第一阶段定义的初始损失总函数，利用成对语音文本数据计算更新成对数据损失函数，将初始损失总函数同更新成对数据损失函数求和，得到更新损失总函数，并通过优化更新损失总函数得到更新训练联合模型。

在第三阶段训练中，再次输入非成对语音数据、非成对文本数据和成对语音文本数据至二阶段训练好的更新训练联合模型，同样地，保持二阶段定义的更新损失总函数计算方式不变，得到更新损失总函数。此外，分别对非成对语音数据和非成对文本数据进行解码，得到的解码结果和非成对数据本身组成匹配的成对数据，利用该成对数据计算闭环成对数据损失函数，将得到的闭环成对数据损失函数和更新损失总函数求和，得到最终损失总函数，并通过优化最终损失总函数得到最终训练联合模型。

本发明利用非成对语音数据、非成对文本数据、成对语音文本数据对联合模型进行多次迭代训练，采用闭环言语链机理和连续累积发放机制，有效解决了非成对数据利用不充分问题，以及成对数据对齐关系学习不充分的问题。

基于上述实施例，步骤S2包括：

具体地，在第一阶段训练中，采用非成对语音数据和非成对文本数据作为输入，非成对语音数据输入到语音编码器后输出非成对声学特征序列H_s，非成对文本数据输入到文本编码器后输出非成对文本特征序列H_t。

分别将非成对声学特征序列H_s和非成对文本特征序列H_t输入到跨模态编码器中，对应于非成对文本特征序列H_t的跨模态编码器输出用于完成文本的自监督掩蔽语言模型任务，得到文本掩蔽损失函数L_{text_mlm}；同样地，对应于非成对声学特征序列H_s的跨模态编码器输出用于完成语音的自监督掩蔽语言模型任务，得到声学损失函数L_{speech_mlm}；另外，语音编码器输出非成对声学特征序列H_s，还用于计算自监督对比损失，该对比损失记为声学对比损失函数L_{speech_contrastive}。

将上述三项损失函数进行加权相加，先确定各损失函数对应的加权系数，文本掩蔽损失加权系数α_{text_mlm}、声学掩蔽损失加权系数α_{speech_mlm}和声学对比损失加权系数α_{speech_contrastive}，由此得到此阶段的总损失函数为L₁＝α_{text_mlm}*L_{text_mlm}+α_{speech_mlm}*L_{speech_mlm}+α_{speech_contrastive}*L_{speech_contrastive}。

将上述初始损失总函数用于预训练联合模型的反向传播的梯度计算，梯度计算完成后，更新模型参数，得到初始训练联合模型。

本发明通过对预训练联合模型进行初始训练，使非成对数据得到了充分的利用，模型性能得到进一步提升。

基于上述任一实施例，步骤S3包括：

其中，所述将所述成对语音文本数据依次输入所述语音编码器和所述语音识别解码模块，获得文本预测损失函数，包括：

其中，所述将所述成对语音文本数据依次输入所述文本编码器和所述语音合成解码器，获得语音重建损失函数，包括：

其中，所述分别获取所述成对语音文本数据经过所述语音编码器的语音序列数据，以及经过所述文本编码器的文本序列数据，将所述语音序列数据和所述文本序列数据输入至所述跨模态编码器，获得翻译语言建模损失函数、语音文本匹配损失函数和区间字符预测损失函数，包括：

基于所述成对语音文本数据的原始样本构造数量一致、语音文本内容不一致的负样本，分别确定所述负样本为第一标签，以及原始正样本为第二标签，基于所述跨模态编码器的标记位置的对应输出，对语音文本是否匹配进行预测，获得所述语音文本匹配损失函数；

随机选择所述成对语音文本数据中的文本数据部分中的字符，基于CIF模块输出的字符声学边界，在所述语音编码区输入处将随机选择的字符对应的语音区间进行掩蔽，将所述跨模态编码器输出处的掩蔽语音区间内的表征进行平均后得到平均值，基于所述平均值对所述随机选择的文本字符进行预测，得到所述区间字符预测损失函数。

具体地，在第二阶段的训练中，与第一阶段训练不同的是，同时为一阶段训练好的初始训练联合模型输入非成对语音数据、非成对文本数据和成对语音文本数据。

其中，对于非成对语音数据和非成对文本数据按照第一阶段的损失计算方式完成前向传播的计算。

对于成对语音文本数据，则分为三个部分进行训练：

(1)语音编码器和语音识别解码模块部分

对于语音编码器输出H_s施加连接时序分类损失，记为连接时序分类损失子函数L_{asr_ctc}；

对于语音识别非自回归解码器的最终输出施加交叉熵损失，记为交叉熵损失子函数L_{asr_ce}；

对于CIF模块的输出权重之和施加数量损失，记为数量损失子函数L_quantity；

将上述三个损失子函数作为整体记为文本预测损失函数L_asr。

(2)文本编码器与语音合成解码模块部分

对于语音合成解码模块的输出，使用语音的原始特征作为训练目标，对其施加重建损失，得到语音重建损失函数L_mse。

(3)跨模态编码器部分

针对成对数据，以大比例掩蔽语音和文本的部分区间，鼓励模型充分利用两个模态的信息来预测这些区间的原始内容，此损失被称为翻译语言建模任务，其损失记为翻译语言建模损失函数L_tlm；

同样针对成对数据，构造同等数量的成对但是语音文本内容不一致的负样本，然后将这些构造的负样本的语音文本匹配标签记为第一标签0，代表语音和文本不匹配，将原始的匹配的语音文本对匹配标签记为第二标签1，代表语音文本相匹配，利用跨模态编码器的[CLS]位置对应的输出来预测语音文本是否匹配，该损失记为语音文本匹配损失函数L_stm；

由于语音识别解码器中的CIF模块能够给出字符的声学边界，因此，训练中，将会随机选择文本中某些字符，在语音编码器输入处，将这些字符对应的语音区间全部掩蔽，然后在跨模态编码器对应区间内的表征平均后用于预测被选择的字符，此损失被记为区间字符预测损失函数L_{span_pred}。

进一步地，综合上述所有损失函数，此阶段总损失函数记为更新损失总函数L₂＝L₁+α_asr*L_asr+α_mse*L_mse+α_stm*L_stm+α_tlm*L_tlm+α_{span_pred}*L_{span_pred}。

采用该更新损失总函数计算初始训练联合模型的反向传播梯度，便得到更新训练联合模型。

本发明利用成对数据训练联合模型，使得模型具备简单的语音识别与合成能力，有效地建模了跨模态的对齐关系，同时引入了连续累积发放机制学习字符间的声学边界信息，利用此边界来监督对齐关系的学习过程。

基于上述任一实施例，步骤S4包括：

具体地，在第三阶段训练中，还是为更新训练联合模型输入非成对语音数据、非成对文本数据和成对语音文本数据，保持第二阶段的损失计算方式不变。

对于非成对语音数据，首先采用语音识别解码模块输出其解码结果，然后将其解码结果同非成对语音数据本身组合成一个匹配的成对数据，执行第二阶段中的成对样本的损失计算，得到最终闭环成对语音数据损失函数；

对于非成对文本数据，首先采用语音合成解码模块输出其语音特征，然后将其解码结果同非成对文本数据本身组合成一个匹配的成对数据，执行第二阶段中的成对样本的损失计算，得到最终闭环成对文本数据损失函数。

综合最终闭环成对语音数据损失函数、最终闭环成对文本数据损失函数和更新损失总函数，得到最终损失总函数，由该最终损失总函数计算更新训练联合模型的反向传播梯度，得到最终训练联合模型。

本发明引入的闭环言语链机理使得非成对数据得到更加充分地利用，有利于基于该联合预训练模型的语音识别模型性能的进一步提升。

下面对本发明提供的语音文本联合预训练系统进行描述，下文描述的语音文本联合预训练系统与上文描述的语音文本联合预训练方法可相互对应参照。

图6是本发明提供的语音文本联合预训练系统的结构示意图，如图6所示，包括：获取模块61、初始训练模块62、更新训练模块63和最终训练模块64，包括：

获取模块61用于获取非成对语音数据、非成对文本数据和成对语音文本数据；初始训练模块62用于将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中，计算初始损失总函数以训练得到初始训练联合模型；更新训练模块63用于将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型，利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数，利用所述成对语音文本数据计算更新成对数据损失函数，将所述初始损失总函数与所述更新成对数据损失函数求和，得到更新损失总函数以训练得到更新训练联合模型；最终训练模块64用于将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型，利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数，利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数，将所述最终闭环成对数据损失函数与所述更新损失总函数求和，得到最终损失总函数以训练最终训练联合模型；其中，所述预训练联合模型包括文本编码器、语音编码器、跨模态编码器、语音识别解码模块和语音合成解码模块。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行语音文本联合预训练方法，该方法包括：获取非成对语音数据、非成对文本数据和成对语音文本数据；将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中，计算初始损失总函数以训练得到初始训练联合模型；将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型，利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数，利用所述成对语音文本数据计算更新成对数据损失函数，将所述初始损失总函数与所述更新成对数据损失函数求和，得到更新损失总函数以训练得到更新训练联合模型；将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型，利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数，利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数，将所述最终闭环成对数据损失函数与所述更新损失总函数求和，得到最终损失总函数以训练最终训练联合模型其中，所述预训练联合模型包括文本编码器、语音编码器、跨模态编码器、语音识别解码模块和语音合成解码模块。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语音文本联合预训练方法，该方法包括：获取非成对语音数据、非成对文本数据和成对语音文本数据；将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中，计算初始损失总函数以训练得到初始训练联合模型；将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型，利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数，利用所述成对语音文本数据计算更新成对数据损失函数，将所述初始损失总函数与所述更新成对数据损失函数求和，得到更新损失总函数以训练得到更新训练联合模型；将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型，利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数，利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数，将所述最终闭环成对数据损失函数与所述更新损失总函数求和，得到最终损失总函数以训练最终训练联合模型其中，所述预训练联合模型包括文本编码器、语音编码器、跨模态编码器、语音识别解码模块和语音合成解码模块。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语音文本联合预训练方法，该方法包括：获取非成对语音数据、非成对文本数据和成对语音文本数据；将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中，计算初始损失总函数以训练得到初始训练联合模型；将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型，利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数，利用所述成对语音文本数据计算更新成对数据损失函数，将所述初始损失总函数与所述更新成对数据损失函数求和，得到更新损失总函数以训练得到更新训练联合模型；将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型，利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数，利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数，将所述最终闭环成对数据损失函数与所述更新损失总函数求和，得到最终损失总函数以训练最终训练联合模型其中，所述预训练联合模型包括文本编码器、语音编码器、跨模态编码器、语音识别解码模块和语音合成解码模块。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音文本联合预训练方法，其特征在于，包括：

2.根据权利要求1所述的语音文本联合预训练方法，其特征在于，所述将所述非成对语音数据和所述非成对文本数据输入至预训练联合模型中，计算初始损失总函数以训练得到初始训练联合模型，包括：

3.根据权利要求1所述的语音文本联合预训练方法，其特征在于，所述将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述初始训练联合模型，利用所述非成对语音数据和所述非成对文本数据计算所述初始损失总函数，利用所述成对语音文本数据计算更新成对数据损失函数，将所述初始损失总函数与所述更新成对数据损失函数求和，得到更新损失总函数以训练得到更新训练联合模型，包括：

4.根据权利要求3所述的语音文本联合预训练方法，其特征在于，所述将所述成对语音文本数据依次输入所述语音编码器和所述语音识别解码模块，获得文本预测损失函数，包括：

5.根据权利要求3所述的语音文本联合预训练方法，其特征在于，所述将所述成对语音文本数据依次输入所述文本编码器和所述语音合成解码器，获得语音重建损失函数，包括：

6.根据权利要求3所述的语音文本联合预训练方法，其特征在于，所述分别获取所述成对语音文本数据经过所述语音编码器的语音序列数据，以及经过所述文本编码器的文本序列数据，将所述语音序列数据和所述文本序列数据输入至所述跨模态编码器，获得翻译语言建模损失函数、语音文本匹配损失函数和区间字符预测损失函数，包括：

7.根据权利要求1所述的语音文本联合预训练方法，其特征在于，所述将所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据输入所述更新训练联合模型，利用所述非成对语音数据、所述非成对文本数据和所述成对语音文本数据计算所述更新损失总函数，利用所述非成对语音数据与所述非成对文本数据计算最终闭环成对数据损失函数，将所述最终闭环成对数据损失函数与所述更新损失总函数求和，得到最终损失总函数以训练最终训练联合模型，包括：

获取所述非成对文本数据通过所述语音合成解码模块输出的合成语音结果，将所述合成语音结果与所述非成对文本数据构造成对语音文本数据，利用所述成对语音文本数据计算所述更新成对数据损失函数，得到所述最终闭环成对文本数据损失函数；

8.一种语音文本联合预训练系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音文本联合预训练方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音文本联合预训练方法的步骤。