CN116129902A

CN116129902A - 一种基于跨模态对齐的语音翻译方法及系统

Info

Publication number: CN116129902A
Application number: CN202211713065.1A
Authority: CN
Inventors: 邓彪; 刘宇宸
Original assignee: Zhongkefan Language Wuhan Technology Co ltd
Current assignee: Zhongkefan Language Wuhan Technology Co ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-05-16

Abstract

本发明属于语音翻译技术领域，具体提供了一种基于跨模态对齐的语音翻译方法及系统，其中方法包括：对语音和文本模态的输入数据分别进行特征编码，提取语义表示；使用共享记忆模块将语音和文本的语义表示映射到同一空间；将共享记忆模块得到的语义表示输入到文本解码器中，输出目标译文。本发明设计了模态对齐的方法，通过拉近语音和文本的语义空间，缓解了模态鸿沟问题；还可以更加有效地利用额外的语音和文本的数据，从而提升语音翻译模型的性能。本方案能够更加充分地利用语音识别和文本翻译的平行数据，减少对端到端语音翻译数据的依赖程度，在低资源语音翻译的数据场景下能够显著提升模型的翻译质量。

Description

一种基于跨模态对齐的语音翻译方法及系统

技术领域

本发明涉及语音翻译技术领域，更具体地，涉及一种基于跨模态对齐的语音翻译方法及系统。

背景技术

语音翻译旨在将一种语言的语音翻译成另一种语言的语音或者文本。现有的语音翻译系统一般由语音识别模块、机器翻译模块等构成。这种语音翻译系统已经被广泛使用，但是这种语音翻译系统存在着错误累积、翻译时延、计算和存储资源占用较大等缺点。因此，近年来在一个模型中直接实现源语言语音到目标语言文本的端到端的语音翻译方法逐渐受到广泛关注。然而，端到端的语音翻译方法所需要的平行数据较为稀缺且难以大规模获取，现有的数据集仅包含几百个小时的语音翻译数据。另一方面，语音识别和机器翻译作为语音翻译的辅助任务，相比语音翻译通常具有更大规模的数据。如何借助语音识别和机器翻译的数据，减少对大规模语音翻译数据的依赖是一个值得研究的问题。

目前端到端的语音翻译模型的质量通常依赖于大规模高质量的语音翻译平行数据。现有端到端的语音翻译方法采用预训练、多任务学习、知识蒸馏、数据增强等方法以引入语音识别和机器翻译等相关数据辅助语音翻译模型的训练，进而提升模型的性能。

然而，现有方法对于语音识别和机器翻译等外部数据的利用有限，因为语音和文本分属于不同的模态，存在巨大的模态鸿沟问题，模型难以同时处理语音和文本模态的数据，使得两者在高维空间表示中存在偏差。

发明内容

本发明提供了一种基于跨模态对齐的语音翻译方法，包括以下步骤：

S1，对语音和文本模态的输入数据分别进行特征编码，提取语义表示；

S2，使用共享记忆模块将语音和文本的语义表示映射到同一空间；

S3，将共享记忆模块得到的语义表示输入到文本解码器中，输出目标译文。

优选地，所述S1具体包括：

对于语音数据，使用原始音频信号作为输入，使用预训练的wav2vec2.0模型作为声学编码器从原始音频信号中提取声学的语义表示；

对于文本数据，原始文本首先经过分词或词汇化处理，通过查询词嵌入矩阵Embedding得到文本向量化表示作为输入，经过共享的语义编码器获得语义表示。

优选地，对于语音数据，先将语音输入预训练的wav2vec2.0模型，然后使用两层一维卷积网络CNN将长度缩减为原来的1/4，之后将缩减后的声学表示输入语义编码器获取对应的语义表示。

优选地，所述S1具体包括：

对于语音输入，在语义编码器的输出层增加CTC损失；

对于文本输入，使用掩码语言模型计算损失；

其中，CTC损失是指语音数据经过声学编码器和语义编码器预测得到的词语输出序列映射为目标转录文本路径的最大似然损失，掩码语言模型的损失是指对文本输入的部分词语进行掩码处理，即将部分词语替换为<MASK>，经过语义编码器预测得到的词语分布与掩码位置对应的真实词语之间的交叉熵损失；且在计算CTC损失和掩码语言模型中使用共享的softmax矩阵。

优选地，所述S2具体包括：使用共享记忆模块将来自语音模态和文本模态的语义表示映射到长度为|M|的定长表示；

其中，所述共享记忆模块具有|M|个可学习的模态独立的记忆查询向量Q，分别使用模态相关的语义表示作为键向量和值向量，使用多头注意力机制计算得到各模态的记忆表示。

优选地，所述S3具体包括：

文本解码器遵循标准的翻译解码器模型，以共享记忆模块的输出作为输入，并输出目标译文；

其中，基于文本翻译平行数据进行翻译解码器模型训练，此时翻译解码器模型的损失为基于少量语音翻译平行数据进行翻译解码器模型训练，此时翻译解码器模型的损失为

优选地，所述S3之后还包括步骤S4，计算多任务损失函数并计算模型更新梯度，训练模型，具体过程如下：

首先基于大规模语音识别和文本翻译平行数据训练语义编码器、共享记忆模块和解码器，使用语音识别数据计算CTC损失使用文本翻译数据计算翻译损失和掩码语言模型的损失

然后利用语音识别平行数据、文本翻译平行数据和少量语音翻译平行数据微调全部模型。

本发明还提供了一种基于跨模态对齐的语音翻译系统，所述系统用于实现基于跨模态对齐的语音翻译方法，包括：

语义编码器，用于对语音和文本模态的输入数据分别进行特征编码，提取语义表示；

共享记忆模块，用于使用共享记忆模块将语音和文本的语义表示映射到同一空间；

文本解码器，用于将共享记忆模块得到的语义表示输入到文本解码器中，输出目标译文。

本发明还提供了一种电子设备，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现基于跨模态对齐的语音翻译方法步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现基于跨模态对齐的语音翻译方法步骤。

有益效果：本发明提供的一种基于跨模态对齐的语音翻译方法及系统，其中方法包括：对语音和文本模态的输入数据分别进行特征编码，提取语义表示；使用共享记忆模块将语音和文本的语义表示映射到同一空间；将共享记忆模块得到的语义表示输入到文本解码器中，输出目标译文。本发明设计了模态对齐的方法，通过拉近语音和文本的语义空间，缓解了模态鸿沟问题；还可以更加有效地利用额外的语音和文本的数据，从而提升语音翻译模型的性能。本方案能够更加充分地利用语音识别和文本翻译的平行数据，减少对端到端语音翻译数据的依赖程度，在低资源语音翻译的数据场景下能够显著提升模型的翻译质量。

附图说明

图1为本发明提供的一种基于跨模态对齐的语音翻译方法流程图；

图2为本发明提供的一种可能的电子设备的硬件结构示意图；

图3为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为本发明提供的一种基于跨模态对齐的语音翻译方法，包括以下步骤：

本发明设计了一种跨模态对齐机制，实现了一种端到端的语音翻译模型，通过引入共享参数与共享记忆模块，对语音和文本模态的表示进行跨模态对齐，并利用多任务学习的方式融合CTC损失、掩码语言模型的损失、文本机器翻译的损失和语音翻译的损失等多种损失函数，并采用分阶段训练的方式优化模型的不同模块。该发明能够提高对语音识别和文本翻译等高资源相关数据利用的充分程度，缓解对低资源端到端的语音翻译平行数据的依赖，从而有效提升端到端语音翻译模型的翻译质量。

在一个具体的实施场景中，基于跨模态对齐的语音翻译方法具体包括：

步骤1：对语音和文本模态的输入数据分别进行特征编码，提取语义表示。其中，进行特征编码所使用的编码器为语音编码器。语音编码器包含一个声学编码器和一个语义编码器。对于语音数据，本发明使用原始音频信号作为输入，使用预训练的wav2vec2.0模型作为声学编码器从原始音频信号中提取声学的语义表示。

由于声学的语义表示的序列长度较长，在使用预训练的wav2vec2.0模型作为声学编码器从原始音频信号中提取声学的语义表示后，再使用了两层一维卷积网络CNN将其长度缩减为原来的1/4。之后将缩减后的声学表示输入语义编码器获取对应的语义表示H_s。

对于文本数据，原始文本首先经过分词或词汇化处理，通过查询词嵌入矩阵Embedding得到文本向量化表示作为输入，经过共享的语义编码器获得语义表示H_t。

为增强语义编码器对于语音模态和文本模态输入的编码表示能力，对于语音输入，本发明在语义编码器的输出层增加了CTC损失；对于文本输入，我们使用掩码语言模型计算损失。其中，CTC损失是指语音数据经过声学编码器和语义编码器预测得到的词语输出序列映射为目标转录文本路径的最大似然损失，掩码语言模型的损失是指对文本输入的部分词语进行掩码处理，即将部分词语替换为<MASK>。经过语义编码器预测得到的词语分布与掩码位置对应的真实词语之间的交叉熵损失。特别地，在计算CTC损失和掩码语言模型中所使用的softmax矩阵是共享的，以此隐式地增强语义编码器在对语音模态和文本模态数据进行编码时的跨模态对齐能力。

步骤2：使用共享记忆模块将语音和文本的语义表示映射到同一空间。

由于语音模态和文本模态的表示具有不同的编码长度，使得两者难以进行跨模态对齐，本发明引入了一种共享的记忆模块。该记忆模块将来自不同模态的语义表示映射到长度为|M|的定长表示。该共享记忆模块具有|M|个可学习的模态独立的记忆查询向量Q，分别使用模态相关的语义表示作为键向量和值向量，使用多头注意力机制计算得到各模态的记忆表示。具体地，

多头注意力机制的计算过程为：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O

其中，均为参数矩阵，d_k为键向量的维度。

步骤3：将共享记忆模块得到的语义表示输入到文本解码器中，输出目标译文。

文本解码器遵循标准的翻译解码器模型，以共享记忆模块的输出作为输入(可能来自文本模态，也可能来自语音模态)，并输出目标译文。其中，基于文本翻译平行数据进行语义编码器、共享记忆模块和翻译解码器模型训练，此时模型的损失为：

基于少量语音翻译平行数据进行声学编码器、共享记忆模块和翻译解码器模型训练，此时模型的损失为：

步骤4：计算多任务损失函数并更新模型梯度，训练模型。将语音输入训练好的模型即可得到翻译译文。

使用预训练与微调的方式训练整个模型。首先基于大规模语音识别和文本翻译平行数据训练语义编码器、共享记忆模块和解码器，使用语音识别数据计算CTC损失使用文本翻译数据计算翻译损失和掩码语言模型的损失之后利用语音识别平行数据、文本翻译平行数据和少量语音翻译平行数据微调全部模型。

本发明实施例还提供了一种基于跨模态对齐的语音翻译系统，所述系统用于实现基于跨模态对齐的语音翻译方法，包括：

本发明实施例使用了一个共享的记忆模块将文本和语音模态的数据编码到等长的表示，通过将文本和语音模态的表示映射到相同的高维语义空间，以更加充分地利用语音识别和机器翻译的数据训练端到端的语音翻译模型，进而提升语音翻译模型的性能。与现有方法相比，本发明具有以下优点：

1).该发明设计了模态对齐的方法，通过拉近语音和文本的语义空间，缓解了模态鸿沟问题；

2).该发明可以更加有效地利用额外的语音和文本的数据，从而提升语音翻译模型的性能。

请参阅图2为本发明实施例提供的电子设备的实施例示意图。如图2所示，本发明实施例提了一种电子设备，包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311，处理器1320执行计算机程序1311时实现以下步骤：S1，对语音和文本模态的输入数据分别进行特征编码，提取语义表示；

请参阅图3为本发明提供的一种计算机可读存储介质的实施例示意图。如图3所示，本实施例提供了一种计算机可读存储介质1400，其上存储有计算机程序1411，该计算机程序1411被处理器执行时实现如下步骤：S1，对语音和文本模态的输入数据分别进行特征编码，提取语义表示；

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于跨模态对齐的语音翻译方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于跨模态对齐的语音翻译方法，其特征在于，所述S1具体包括：

3.根据权利要求2所述的基于跨模态对齐的语音翻译方法，其特征在于，对于语音数据，先将语音输入预训练的wav2vec2.0模型，然后使用两层一维卷积网络CNN将长度缩减为原来的1/4，之后将缩减后的声学表示输入语义编码器获取对应的语义表示。

4.根据权利要求1所述的基于跨模态对齐的语音翻译方法，其特征在于，所述S1具体包括：

对于语音输入，在语义编码器的输出层增加CTC损失；

对于文本输入，使用掩码语言模型计算损失；

其中，CTC损失是指语音数据经过声学编码器和语义编码器预测得到的词语输出序列映射为目标转录文本路径的最大似然损失，掩码语言模型的损失是指对文本输入的部分词语进行掩码处理，即将部分词语替换为MASK，经过语义编码器预测得到的词语分布与掩码位置对应的真实词语之间的交叉熵损失；且在计算CTC损失和掩码语言模型中使用共享的softmax矩阵。

5.根据权利要求1所述的基于跨模态对齐的语音翻译方法，其特征在于，所述S2具体包括：使用共享记忆模块将来自语音模态和文本模态的语义表示映射到长度为|M|的定长表示；

6.根据权利要求1所述的基于跨模态对齐的语音翻译方法，其特征在于，所述S3具体包括：

7.根据权利要求6所述的基于跨模态对齐的语音翻译方法，其特征在于，所述S3之后还包括步骤S4，计算多任务损失函数并计算模型更新梯度，训练模型，具体过程如下：

8.一种基于跨模态对齐的语音翻译系统，其特征在于，所述系统用于实现如权利要求1-7任一项所述的基于跨模态对齐的语音翻译方法，包括：

9.一种电子设备，其特征在于，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的基于跨模态对齐的语音翻译方法步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现如权利要求1-7任一项所述的基于跨模态对齐的语音翻译方法步骤。