CN115731922A

CN115731922A - 一种基于跨语言ctc的端到端语音翻译模型建模方法和设备

Info

Publication number: CN115731922A
Application number: CN202211518194.5A
Authority: CN
Inventors: 杜权; 杨迪
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-03-03

Abstract

本发明涉及一种基于跨语言CTC的端到端语音翻译模型建模方法和设备，属于自然语言处理技术领域；解决了现有技术中语音翻译方法忽略了来自目标语言文本对于编码器的指导，及CTC存在着单调假设与条件独立假设问题；本发明的建模方法包括以下步骤：构建初始语音翻译模型；所述初始语音翻译模型包括声学编码器、文本编码器和解码器；获取语音数据集；所述语音数据集中包括源语言语音数据、所述语音数据对应的源语言标注文本和目标语言标注文本；利用所述语音数据集对所述初始语音翻译模型进行训练，经过损失函数迭代更新，得到所述语音翻译模型。

Description

一种基于跨语言CTC的端到端语音翻译模型建模方法和设备

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于跨语言CTC的端到端语音翻译模型建模方法和设备。

背景技术

早期语音翻译模型的设计思路，是先通过语音识别模型来对语音进行转录为文本，然后通过文本翻译模型对转录文本进行翻译，称之为级联语音翻译。尽管级联语音翻译取得了不错的性能，但这种方式存在着错误传播、翻译效率较低和语音中的副语言信息丢失的问题。

近期，研究人员们提出了端到端语音翻译，也就是通过单个模型，完成指定源语言语音到目标语言文本的生成。这种方法可以有效缓解上述几个问题，但却面临着两个新的挑战：

任务建模复杂，语音翻译模型需要学习从源语言语音到目标语言文本的生成，这种跨模态跨语言的建模导致模型的收敛更加困难。并且，由于端到端模型并没有中间的输出信息，很难针对翻译过程中出现的问题进行定向的优化。尤其是在实际场景中，音频中可能包含非常多的噪声，口语化的句子结构十分不规范，如何处理这种情况，是端到端系统在实际应用时的难点与痛点。

数据积累不足，端到端语音翻译是一个新兴的方向，数据集大都在近几年标注，目前最常用的MUST-C数据集，数据量只有几百个小时音频，数据量的不足是语音翻译发展的最大障碍。

针对这两个问题，现有的解决思路是通过CTC作为辅助损失预测输入音频所对应的标注问题，从而指导编码器的学习。但现有的方法忽略了来自目标语言文本对于编码器的指导。同时，CTC存在着两个重要的假设，分别是单调假设与条件独立假设，在一定程度上阻碍了CTC的使用。

发明内容

鉴于上述的分析，本发明旨在提供一种基于跨语言CTC的端到端语音翻译模型建模方法和设备；解决现有技术中的语音翻译方法仅针对源语言文本进行预测，忽略了来自目标语言文本对于编码器的指导，及CTC存在着单调假设与条件独立假设，一定程度上阻碍了CTC的使用问题。

本发明的目的主要是通过以下技术方案实现的：

一方面，本发明提供了一种基于跨语言CTC的端到端语音翻译模型建模方法，包括以下步骤：

获取语音数据集；所述语音数据集中包括源语言语音数据、所述语音数据对应的源语言标注文本和目标语言标注文本；

构建初始语音翻译模型；所述初始语音翻译模型包括声学编码器、文本编码器和解码器；所述声学编码器用于对输入语音进行特征提取及源语言语义嵌入，得到声学编码器隐向量；所述文本编码器用于对所述声学编码器隐向量进行特征提取及目标语言语义嵌入，得到文本编码器隐向量；所述解码器用于基于所述文本编码器隐向量进行解码，得到所述输入语音对应的翻译文本；

利用所述语音数据集对所述初始语音翻译模型进行训练，经过损失函数迭代更新，得到所述语音翻译模型。

进一步的，所述声学编码器包括依次连接的n层特征提取层和设置于第l层特征提取层的第一语义嵌入模块，n为大于1的整数，2/n<l<n；其中，

n层所述特征提取层用于对输入的源语言语音数据依次进行特征提取；

所述语义嵌入模块用于对所述第l层特征提取层的输出进行语义嵌入，得到具有初步预测内容的张量表示SIM(h^l)；

所述张量表示SIM(h^l)为所述编码器第l+1层特征提取层的输入。

进一步的，所述语义嵌入模块通过下述方法进行语义嵌入：

对所述声学编码器第l层特征提取层的输出计算对于预测的源语言文本的CTC分布；

通过所述CTC分布对源语言词嵌入矩阵W进行加权，得到具有文本表示的软词嵌入矩阵；所述源语言词嵌入矩阵W为模型参数；

将所述软词嵌入矩阵与所述第l层特征提取层的输出相加，得到具有初步预测内容的张量表示SIM(h^l)。

进一步的，所述语义嵌入模块通过下述公式得到所述张量表示SIM(h^l)：

SIM(h^l)＝h^l+P_{SIM_CTC}(π|h^l)·W；

其中，SIM(h^l)为所述语音编码器第l层特征提取层的语义嵌入模块输出的具有初步预测内容的张量表示；h^l为所述第l层特征提取层的输出，π为预测的源语言文本；W为所述源语言词嵌入矩阵，P_{SIM_CTC}()为所述编码器第l层特征提取层输出的CTC分布。

进一步的，在声学编码器和文本编码器之间还包括适配器模块，所述适配器模块用于对所述声学编码器隐向量进行处理，得到具有源语言语义信息的声学表示

所述声学表示

用于通过解码器进行解码，得到所述输入语音对应的翻译文本；

所述对所述声学编码器隐向量进行处理，包括：

对所述声学编码器隐向量计算对于预测的源语言文本的CTC分布P_{SRC_CTC}；

将所述CTC分布P_{SRC_CTC}对源语言词嵌入矩阵进行加权，并将加权后得到的声学表示与所述声学编码器隐向量相加，得到具有源语言语义信息的声学表示

进一步的，所述文本编码器包括依次连接的n层特征提取层和设置于第K层特征提取层的第二语义嵌入模块；利用所述第二语义嵌入模块进行目标语言语义嵌入，包括：

通过所述文本编码器第K层的输出表示计算对于预测的目标语言文本的CTC分布P_{SIM_TGT_CTC}(h^K)，K为大于1的整数；

通过所述CTC分布P_{SIM_TGT_CTC}(h^K)对目标语言文本的词嵌入矩阵进行加权，将加权得到的表示与所述第K层的输出表示相加，得到具有目标语言文本语义信息的表示SIM(h^K)；所述具有目标语言文本语义信息的表示为所述文本编码器第K+1层的输入。

进一步的，对所述语音编码器和适配器模块分别计算对于源语言标注文本的损失，对文本编码器和解码器分别对于目标语言标注文本的损失，并设置不同的权重，经过迭代更新，得到所述语音翻译模型。

进一步的，所述声学编码器的损失权重设置为0.2，适配器的损失设置为0.3，文本编码器中间层的损失权重设置为0.2，文本编码器顶层的损失权重设置为0.3，解码器的损失权重设置为1。

进一步的，所述声学编码器包括12层特征提取层，对第6层和第9层分别设置第一语义嵌入模块进行源语言语义嵌入。

另一方面，还提供一种计算机设备，包括至少一个处理器，以及至少一个与所述处理器通信连接的存储器；

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现前述的基于跨语言CTC的端到端语音翻译模型建模方法。

本技术方案的有益效果：

针对现有技术中仅使用源语言CTC以及CTC中存在单调假设与条件独立假设的问题，本发明通过在编码器的中间层计算CTC损失，将预测信息融入到编码过程中；并且设置额外的文本编码器，通过CTC预测目标语言文本，从而在强化监督信息的同时，降低了由于CTC内置假设造成的损失，显著提高了语音翻译模型的性能。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例的基于跨语言CTC的端到端语音翻译模型建模方法流程图。

图2为本发明实施例的语音翻译模型结构示意图；

图3为本发明实施例的预测结果集成示意图；

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明公开了一种基于跨语言CTC的端到端语音翻译模型建模方法，输入待处理语音，在声学编码器将预测信息融入到编码过程中，并且利用文本编码器通过CTC预测目标语言文本，在强化监督信息的同时，降低由于CTC内置假设造成的损失，实现了高质量的由语音数据到目标语言文本的端到端语音翻译。

本实施例中的一种基于跨语言CTC的端到端语音翻译模型建模方法，如图1所示，包括以下步骤：

步骤S1、获取语音数据集。

具体的，本实施例采用语音翻译领域常用的带有标注的MuST-C英德数据集；数据集中包括源语言语音数据、语音数据对应的源语言标注文本和目标语言标注文本。

步骤S2、构建初始语音翻译模型。

具体的，如图2所示，本实施例的初始语音翻译模型包括声学编码器、文本编码器和解码器；

其中，声学编码器用于对输入语音进行特征提取及源语言语义嵌入，得到声学编码器隐向量；

优选的，本实施例的声学编码器包括依次连接的n层特征提取层和设置于第l层特征提取层的第一语义嵌入模块，n为大于1的整数，2/n<l<n；其中，

n层特征提取层用于对输入的源语言语音数据依次进行特征提取；n层特征提取层可采用n层相同的Transformer层或Conformer层，本实施例采用12层Transformer层，每层分别包含一个自注意力模块和一个前馈神经网络层。若采用Conformer层，则在每一层还包含一个卷积层，用于捕获局部信息。

第一语义嵌入模块用于对第l层特征提取层的输出进行语义嵌入，得到具有初步预测内容的张量表示SIM(h^l)；

具体的，第一语义嵌入模块通过下述方法进行语义嵌入，如图3所示，

对语音编码器第l层特征提取层的输出计算对于预测的源语言文本的CTC分布，在CTC分布中，包含了对应词表中每个token的预测概率，词表指的是构成训练集文本数据的单词集合；

通过CTC分布对源语言词嵌入矩阵W进行加权，得到具有文本表示的软词嵌入矩阵，其中蕴含了在当前层的CTC预测信息；源语言词嵌入矩阵W为模型参数，在训练之前随机初始化，训练过程中不断更新参数得到。

将软词嵌入矩阵与第l层特征提取层的输出相加，得到具有初步预测内容的张量表示SIM(h^l)，作为第l+1层特征提取层的输入。

通过上述操作，为模型后续的编码注入了初步的预测内容，从而可以在后续的预测中进行不断修订，缓解CTC中的条件独立假设问题。

优选的，语义嵌入模块通过下述公式得到张量表示SIM(h^l)：

SIM(h^l)＝h^l+P_{SIM_CTC}(π|h^l)·W；

其中，SIM(h^l)为语音编码器第l层特征提取层的语义嵌入模块输出的具有初步预测内容的张量表示；h^l为第l层特征提取层的输出，π为预测的源语言文本的向量表示；W为源语言词嵌入矩阵，P_{SIM_CTC}()为编码器第l层特征提取层输出的CTC分布。

本实施例中在编码器的上层进行计算，以保证通过充分的编码，使得CTC具有较好的预测结果。对于本实施例的12层的声学编码器，可以在第6层和第9层特征提取层分别插入第一语义嵌入模块。由于CTC自身的条件独立假设，CTC在预测过程并未考虑上下文的预测结果，容易导致重复生成等问题。因此，通过集成中间预测结果，可以使模型在顶层预测之前感知中间的预测结果，从而缓解条件独立假设。

作为一个具体的实施例，在声学编码器和文本编码器之间还可以采用适配器模块，适配器模块用于对声学编码器隐向量进行处理，得到具有源语言语义信息的声学表示

声学表示

用于通过解码器进行解码，得到输入语音对应的翻译文本；

具体的，将声学编码器隐向量输入适配器，首先对声学编码器隐向量计算对于预测的源语言文本的CTC分布P_{SRC_CTC}；

然后通过CTC分布P_{SRC_CTC}对源语言词嵌入矩阵进行加权，并将加权后得到的声学表示与声学编码器隐向量相加，得到具有源语言语义信息的声学表示

如下式所示：

其中，h^a为声学编码器隐向量。

不同于语音编码器的语义嵌入操作是为了缓解条件独立假设，适配器模块通过对编码器隐向量进行源语言语义嵌入后输入文本编码器中，其在声学编码器隐向量中融入文本信息，进一步丰富了声学编码器输出向量表示的信息。

进一步的，文本编码器用于对声学编码器隐向量进行特征提取及目标语言语义嵌入，得到文本编码器隐向量；解码器用于基于文本编码器隐向量进行解码，得到输入语音对应的翻译文本；

优选的，文本编码器采用与声学编码器类似的结构，包括依次连接的n层特征提取层和设置于第K层特征提取层的第二语义嵌入模块；利用第二语义嵌入模块进行目标语言语义嵌入，

特殊的，由于CTC内置的单调假设，对于跨模态的语音识别来说是天然成立的，然而，对于跨语言的学习是很难直接完成的。为此，本实施例通过一个训练好的文本翻译模型，将训练样本集中的源语言文本重新进行翻译，利用重新翻译得到的目标语言本文代替训练样本集中的目标语言文本，使得目标语言文本相比训练样本集中的原始目标语言文本数据更加干净，对齐更加合理，利于文本编码器的训练。

具体的，文本编码器通过下述方法对声学编码器隐向量进行特征提取及目标语言语义嵌入，得到文本编码器隐向量：

首先通过文本编码器第K层的输出表示计算对于预测的目标语言文本的CTC分布P_{SIM_TGT_CTC}(h^K)，K为大于1的整数；

通过CTC分布对目标语言文本的词嵌入矩阵进行加权，将加权得到的表示与第K层的输出表示相加，得到具有目标语言文本语义信息的张量表示SIM(h^K)；具有目标语言文本语义信息的张量表示SIM(h^K)为文本编码器第K+1层的输入。

特殊的，与声学编码器相似，文本编码器也在上层特征提取层进行计算，保证CTC具有更好的性能。且由于本实施例采用重新生成的目标语言文本作为CTC的训练目标，有效缓解了CTC中的单调假设问题。

进一步的，将文本编码器隐向量输入解码器，生成待翻译语音对应的目标语言文本。

语音翻译模型的解码器由多个相同的Transformer层组成，每层包含一个自注意力模块、编码器-解码器注意模块和前馈神经网络模块。由于在编码器中，文本翻译模型已经具备了一定的预测目标语言文本的能力，因此可以大大减轻解码器预测的学习压力。将文本编码器的输出送入端到端语音翻译模型的解码器中，生成最终需要的目标语言文本。

步骤S3、利用语音数据集对初始语音翻译模型进行训练，经过损失函数迭代更新，得到语音翻译模型。

具体的，获取语音数据集后，首先面向声学任务，通过信号处理方法从音频文件中提取帧级别的特征序列。本实施例中，利用信号处理中的预加重、分帧、加窗等操作，通过离散傅立叶变换得到数据集中语音数据的帧级别的特征序列，帧级别的特征序列可以为80维的MFCC特征或FBank特征。

将得到的语音数据对应的帧级别特征序列及语音数据对应的源语言文本和目标语言文本输入语音翻译模型的语音编码器、适配器模块、文本编码器和解码器，分别通过损失函数计算损失，并设置不同的权重，经过迭代更新，得到语音翻译模型。

对于语音编码器，通过CTC预测分布和输入音频所对应的源语言标注文本计算损失，如下式所示：

在训练过程中令该损失最小化。为了保证CTC预测的准确性，对CTC预测结果进行监督，并且通过一个较小的权重对其加权，如本实施例设置为0.2，使其不会过度影响其他模块损失的学习。

对于适配器，通过声学编码器输出的表示计算CTC损失，令该损失最小化，如下式所示：

同样，为了提高CTC的预测精度，在训练过程中最小化CTC损失，并且赋予一个相比语音编码器CTC更大的权重，本实施例设置为0.3，从而进行更好的优化。

对于文本编码器，通过中间层CTC预测分布和输入音频所对应的目标语言标注文本计算损失，在训练过程中令该损失最小化，权重设置为0.2；

通过文本编码器顶层的输出表示和目标语言标注文本计算CTC损失，在训练过程中对其优化使之不断减小，权重设置为0.3。

通过解码器的输出表示和目标语言标注文本计算交叉熵损失，在训练过程中对齐优化使之不断减小，权重设置为1。

在语音翻译任务上验证本发明提出的方法，利用语音翻译常用的MuST-C英德数据集，本实施例基于Transformer架构，使用12层的声学编码器和6层的文本编码器，以及6层的解码器，隐藏层维度设置为256。基础模型达到了24.6的BLEU值，添加跨语言CTC达到了25.1的BLEU值。通过缓解条件独立假设，达到了26.0的BLEU值，通过使用文本翻译模型生成的文本作为目标语言CTC的学习目标，缓解了单调假设，最终达到了26.7的BLEU值，相比基线设置有2.1BLEU的提升。本发明提出的方法对于端到端语音翻译模型具有很大的帮助，可以有效缓解建模压力，取得显著的性能提升。

在实际应用中，加载训练完成的语音翻译模型，接收待识别语音，通过信号处理工具提取得到对应的FBank特征，输入语音翻译模型，经过语音编码器、适配器、文本编码器和解码器进行特征提取和预测，得到待识别语音对应的目标语言翻译文本。

本发明的另一个实施例，还提供一种计算机设备，包括至少一个处理器，以及至少一个与处理器通信连接的存储器；

存储器存储有可被处理器执行的指令，指令用于被处理器执行以实现前述的基于跨语言CTC的端到端语音翻译模型建模方法。

综上，本发明的实施例提供的一种基于跨语言CTC的端到端语音翻译模型建模方法，通过在编码器的中间层计算CTC损失，将预测信息融入到编码过程中；并且设置额外的文本编码器，通过CTC预测目标语言文本，从而在强化监督信息的同时，降低了由于CTC内置单调假设与条件独立假设假设造成的损失，显著提高了语音翻译的模型性能。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于跨语言CTC的端到端语音翻译模型建模方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于跨语言CTC的端到端语音翻译模型建模方法，其特征在于，所述声学编码器包括依次连接的n层特征提取层和设置于第l层特征提取层的第一语义嵌入模块，n为大于1的整数，2/n<l<n；其中，

3.根据权利要求2所述的基于跨语言CTC的端到端语音翻译模型建模方法，其特征在于，所述语义嵌入模块通过下述方法进行语义嵌入：

4.根据权利要求3所述的基于跨语言CTC的端到端语音翻译模型建模方法，其特征在于，所述语义嵌入模块通过下述公式得到所述张量表示SIM(h^l)：

SIM(h^l)＝h^l+PSIM_CTC(π|h^l)·W；

5.根据权利要求1所述的基于跨语言CTC的端到端语音翻译模型建模方法，其特征在于，在声学编码器和文本编码器之间还包括适配器模块，所述适配器模块用于对所述声学编码器隐向量进行处理，得到具有源语言语义信息的声学表示

所述声学表示

所述对所述声学编码器隐向量进行处理，包括：

6.根据权利要求1所述的基于跨语言CTC的端到端语音翻译模型建模方法，其特征在于，所述文本编码器包括依次连接的n层特征提取层和设置于第K层特征提取层的第二语义嵌入模块；利用所述第二语义嵌入模块进行目标语言语义嵌入，包括：

7.根据权利要求5所述的基于跨语言CTC的端到端语音翻译模型建模方法，其特征在于，对所述语音编码器和适配器模块分别计算对于源语言标注文本的损失，对文本编码器和解码器分别对于目标语言标注文本的损失，并设置不同的权重，经过迭代更新，得到所述语音翻译模型。

8.根据权利要求7所述的基于跨语言CTC的端到端语音翻译模型建模方法，其特征在于，所述声学编码器的损失权重设置为0.2，适配器的损失设置为0.3，文本编码器中间层的损失权重设置为0.2，文本编码器顶层的损失权重设置为0.3，解码器的损失权重设置为1。

9.根据权利要求8所述的基于跨语言CTC的端到端语音翻译模型建模方法，其特征在于，所述声学编码器包括12层特征提取层，对第6层和第9层分别设置第一语义嵌入模块进行源语言语义嵌入。

10.一种计算机设备，其特征在于，包括至少一个处理器，以及至少一个与所述处理器通信连接的存储器；

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求1-9任一项所述的基于跨语言CTC的端到端语音翻译模型建模方法。