CN116151276A

CN116151276A - 用于多模式双语预训练和语音翻译的融合声学和文本编码

Info

Publication number: CN116151276A
Application number: CN202210949913.2A
Authority: CN
Inventors: 郑人杰; 陈俊锟; 马明博; 黄亮
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2021-11-23
Filing date: 2022-08-09
Publication date: 2023-05-23
Also published as: US20230169281A1

Abstract

用于文本和语音的表示学习改进了许多与语言相关的任务。然而，现有方法仅从一种输入模式中学习，而诸如端到端语音翻译等任务需要语音和文本两者的统一表示。因此，这些方法无法利用各种大规模的文本和语音数据，并且它们的性能受到并行语音翻译数据稀缺的限制。为了解决这些问题，公开了融合声学和文本掩蔽语言模型(FAT‑MLM)的实施例。FAT‑MLM实施例联合学习来自各种类型的语料库的声音和文本输入两者的统一表示，该语料库包括用于语音识别和机器翻译的并行数据以及纯语音和文本数据。在这个跨模式表示学习框架内，进一步提出了端到端模型以用于融合声学和文本语音翻译。实验表明，通过从FAT‑MLM进行微调，语音翻译模型实施例显著提高了翻译质量。

Description

用于多模式双语预训练和语音翻译的融合声学和文本编码

技术领域

本公开总体上涉及用于计算机学习的系统和方法，该系统和方法可以提供改进的计算机性能、特征和用途。更具体地，本公开涉及用于使用融合声学和文本编码进行语音翻译的系统和方法。

背景技术

深度神经网络在许多领域都取得了巨大的成功，诸如计算机视觉、自然语言处理、推荐系统等。

近年来，任务不可知的文本表示学习由于其在许多下游任务中的强大表现而在NLP社区中引起了很多关注。最近，无监督语音表示学习也成功地改进了许多与语音相关的任务，诸如语音识别和语音翻译。

然而，现有方法受到两个限制：(a)它们仅从一种输入模式中学习，而诸如端到端语音翻译等任务需要语音和文本两者的统一表示，并且因此，(b)它们无法利用各种大规模文本和语音数据，并且其性能受限于并行语音翻译数据的稀缺。

因此，需要的是具有改进的性能和准确性的用于双语预训练和语音翻译的系统和方法。

附图说明

将参考本公开的实施例，其示例可以在附图中示出。这些附图意图是说明性的，而不是限制性的。尽管本公开通常在这些实施例的上下文中描述，但是应当理解，这并不意味着将本公开的范围限制于这些特定实施例。图中的项目可以不按比例绘制。

图(“FIG.”)1以图形的方式描绘了除大量的数据集语音识别和文本机器翻译的有限的语音翻译数据集；

图2A描绘了用于文本表示学习的掩蔽语言模型(MLM)的先前工作；

图2B描绘了用于跨语言文本表示学习的翻译语言模型(TLM)的先前工作；

图2C描绘了用于语音表示学习的掩蔽声学模型(MAM)的先前工作；

图3A描绘了根据本公开的实施例的单语融合声学和文本掩蔽语言模型(FAT-MLM)；

图3B描绘了根据本公开的实施例的FAT-MLM的声学嵌入模块；

图3C描绘了根据本公开的实施例的FAT-MLM的语音重构模块；

图4描绘了根据本公开的实施例的用于预训练多模式转换器编码器的过程；

图5以图形的方式描绘了根据本公开的实施例的翻译FAT-MLM；

图6描绘了根据本公开的实施例的用于翻译FAT-MLM训练的过程；

图7以图形的方式描绘了根据本公开的实施例的翻译FAT-MLM的自注意力层；

图8A描绘了根据本公开的实施例的FAT-MLM中的两种语言之间良好的跨语言对齐；

图8B描绘了根据本公开的实施例的FAT-MLM中的清晰的单调语音到文本的跨模式注意力；

图9以图形的方式描绘了根据本公开的实施例的融合声学和文本语音翻译(FAT-ST)模型；

图10描绘了根据本公开的实施例的用于训练包括多模式编码器和解码器的FAT-ST模型的过程；

图11以图形的方式描绘了根据本公开的实施例的级联模型和FAT-ST模型之间的解码时间比较；

图12描绘了根据本公开的实施例的计算装置/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于解释的目的，阐述了具体细节以提供对本公开的理解。然而，对于本领域技术人员来说，很明显，没有这些细节也可以实践本公开。此外，本领域技术人员将认识到，下面描述的本公开的实施例可以以多种方式实现，诸如在有形计算机可读介质上的过程、设备、系统、装置或方法。

图中所示的部件或模块是本公开的示例性实施例的说明，并且旨在避免模糊本公开。应当理解，在整个讨论中，部件可以被描述为单独的功能单元，其可以包括子单元，但是本领域技术人员将认识到，各种部件或其部分可以被分成单独的部件或者可以集成在一起，包括例如在单个系统或部件中。应当注意，这里讨论的功能或操作可以实施为部件。部件可以用软件、硬件或其组合来实现。

此外，图中部件或系统之间的连接并不意图限于直接连接。相反，这些部件之间的数据可以被中间部件修改、重新格式化或以其他方式改变。另外，可以使用更多或更少的连接。还应当注意，术语“耦合”、“连接”、“通信地耦合”、“介接”、“接口”或其派生词中的任一者应被理解为包括直接连接、通过一个或多个中间装置的间接连接以及无线连接。还应当注意，诸如信号、响应、答复、确认、消息、查询等任何通信都可以包括一个或多个信息交换。

说明书中对“一个或多个实施例”、“优选实施例”、“一个实施例”、“一些实施例”等的引用意指结合实施例描述的特定特征、结构、特性或功能包括在本公开的至少一个实施例中，并且可以在多于一个实施例中。另外，说明书中不同地方出现的上述短语不一定都指相同的一个或多个实施例。

在说明书的不同地方使用某些术语是为了说明，并且不应被解释为限制。服务、功能或资源不限于单一的服务、功能或资源；这些术语的使用可以指相关服务、功能或资源的分组，这些服务、功能或资源可以是分布式的或聚合的。术语“包括”、“包含”或其变型中的任一者应被理解为开放式术语，并且对在其后面的项目的任何列举都是示例项目而不打算限于所列项目。“层”可以包括一个或多个操作。词语“最优”、“优化”、“最优化”等指代结果或过程的改进，而不要求指定的结果或过程达到“最优”或峰值状态。对存储器、数据库、信息库、数据存储、表、硬件、高速缓存等的使用在本文中可以用来指代系统部件或可以向其输入或以其他方式记录信息的部件。集合可以包含任意数量的元素，包括空集。

在一个或多个实施例中，停止条件可以包括：(1)已经执行了设定次数的迭代；(2)已经达到一定量的处理时间；(3)收敛(例如，连续迭代之间的差值小于第一阈值)；(4)发散(例如，性能退化)；(5)已经达到可接受的结果；(6)已经处理了所有的数据。

本领域技术人员应当认识到：(1)可以可选地执行某些步骤；(2)步骤可以不限于本文所述的特定顺序；(3)某些步骤可以以不同的顺序执行；并且(4)某些步骤可以同时进行。

本文中使用的任何标题仅用于组织目的，并且不应用于限制说明书或权利要求的范围。在本专利文件中提到的每个参考文献/文件通过援引以其全部内容结合本文。

应当注意，本文提供的任何实验和结果仅通过说明的方式提供并且使用一个或多个具体实施例在具体条件下执行；因此，这些实验和它们的结果都不应被用来限制本专利文件的公开的范围。

A.概述

然而，所有这些现有方法只能处理一种模式，文本或语音，而对于许多端到端口语处理任务(诸如口语问答和端到端语音到文本翻译)，需要联合声学和文本表示。例如，需要端到端语音翻译(ST)，因为它优于流水线范式，诸如低延迟、减少错误传播和更少的参数。端到端语音翻译模型的质量已受到语音翻译数据集的稀缺的限制。然而，如图1所示，有大量可以利用的语音、文本、语音识别和机器翻译数据的数据集。如果可以经由丰富的语音识别和文本机器翻译数据将源语音和双语文本编码成统一的表示，这将是有帮助的。一些研究表明，联合训练多模式ST编码器可以大大提高翻译质量。然而，他们提出的表示学习方法受限于序列到序列的框架，并且没有实验表明所提出的方法是否可以从额外的语音识别和机器翻译数据中受益。

本专利公开提出了融合声学和文本掩蔽语言模型(FAT-MLM)的实施例，以统一不同语言的表示以用于双语跨语言的语言模型预训练和语音训练。FAT-MLM可以联合学习声学和文本输入的统一表示。以这种方式，掩蔽语言模型的输入可以从仅声学或文本数据扩展到包含声学和文本数据两者的多模式语料库，从而可以在一个模型中实现语音识别和语音翻译。

在一个或多个实施例中，融合声学和文本(FAT)编码器可以进一步扩展至序列到序列框架。进一步提出了端到端融合声学和文本语音翻译模型(FAT-ST)的实施例。可以从语音和文本机器翻译数据将FAT-ST训练成单个编码器-解码器模型。同时，该模型还可以使用额外的FAT-MLM损失从语音识别数据中学习。这解决了现有的单个编码器和解码器语音翻译模型的局限性，其只能从稀缺的并行语音翻译数据中学习而忽略了更大规模的语音识别和文本机器翻译数据。

本专利公开的贡献至少包括以下内容：

(1)提出了FAT-MLM的实施例以学习统一的声学和文本表示；

(2)基于FAT-MLM，提出了融合声学和文本语音翻译模型(FAT-ST)的实施例以用于在单个编码器-解码器框架中进行语音识别和机器翻译；

(3)在三个语言对上的自发语音翻译实验表明，通过微调FAT-MLM，FAT-ST的准确性将端到端语音翻译模型平均提高了+4:65的双语评估代替(BLEU)分数、并且实现了最高水准，这是端到端语音翻译模型首次在该数据集的这三个翻译方向上实现了与强级联系统相似的性能，同时仍然维持了较小的模型大小和更快的解码时间；以及

(4)本专利公开实验表明，用额外的语音识别、机器翻译和单语文本数据训练的FAT-MLM可以将FAT-ST提高+1:25的BLEU分数。通过使用额外的语音识别和机器翻译数据，可以进一步改进FAT-ST。

B.一些相关工作

1.掩蔽语言建模

研究人员研究了用于预训练转换器编码器的语言建模。其他人提出了通过掩蔽语言建模(MLM)目标实现深度双向表示预训练的BERT，而不是使用单向语言模型进行预训练，如图2A所示，它从输入中随机地掩蔽一些标记、并且仅基于其内容来使用目标恢复被掩蔽的标记。这种方法导致对包括文本分类和问答在内的若干自然语言理解任务的显著改进。

2.翻译语言建模

有些人通过提出两种方法将MLM扩展到跨语言预训练：一种仅依赖单语数据的无监督方法，以及一种具有被称为翻译语言模型(TLM)的全新跨语言的语言模型目标的利用并行数据的监督方法。如图2B所示，TLM在使用[掩蔽]掩蔽若干标记后，从并行数据中对源句子和目标句子进行编码，然后学习恢复被掩蔽的标记。实验表明，TLM在跨语言分类、无监督和有监督机器翻译方面取得了最高水准的结果。

3.掩蔽声学模型

最近，研究人员提出在语音侧以自监督方式学习语音编码器，其可以利用语音数据而无需转录。掩蔽声学模型(MAM)这种技术，也可以在没有注释的情况下对任何声学信号(包括非语音信号)进行预训练。MAM的架构如图2C所示。与MLM类似，MAM用掩蔽标记[掩蔽]替换语音声谱图的跨度。在2D卷积层和转换器编码器之后，MAM在训练期间经由2D反卷积层学习恢复掩蔽的声谱图。结果表明，MAM可以作为附加损失或预训练模型改进端到端语音翻译。与MAM并行，其他人提出了wav2vec2.0预训练模型，该模型在潜在空间中掩蔽语音输入，并且经由在潜在表示的量化上定义的对比任务对模型进行预训练。

C.FAT-MLM的实施例

尽管现有的预训练模型表现出强大的表示学习能力并且显著改进了许多下游任务，但它们都只能学习文本或语音的表示。然而，统一的语音和文本多模式表示对于许多端到端口语处理任务很有用。

为了解决这个问题，在本公开中公开了FAT-MLM的实施例，它是将声学和文本编码成统一表示的多模式预训练模型。与依靠共享子词词汇表来对齐不同语言的表示来学习不同语言的统一表示的方法不同，FAT-MLM是涉及声学和文本的多模式模型。在一个或多个实施例中，FAT-MLM可以使用并行语音识别数据。在以下部分中，首先介绍单语FAT-MLM的实施例，然后将单语FAT-MLM扩展到翻译情境。

1.单语FAT-MLM的实施例

图3A以图形的方式描绘了根据本公开的实施例的单语FAT-MLM。单语FAT-MLM 300将语音和转录元组作为输入，表示为D_s，x＝{(s，x)}，其中s＝(s₁，...，s_|s|)是声学特征的序列

可以是语音音频的声谱图或梅尔声谱图，每个s_i表示框架级语音功能，并且x＝(x₁，...，x_|x|)是相应的转录序列。/>

如图3B所示，在一个或多个实施例中，s的序列中的一个或多个声学特征s_i可以被输入s上的随机声学特征掩蔽函数Mask_span(·)随机地掩蔽。

在等式(1)中，Mask_span(·)用随机初始化向量

通过λ的概率(例如，在一个或多个实施例中为30％)替换s的一个或多个随机跨度，以获得掩蔽序列/>

在一个或多个实施例中，用卷积324和转换器编码器328将/>

编码到声学嵌入/>

302中e类似地，x中的标记可以被输入x上的随机标记掩蔽函数随机地掩蔽：

Mask_token(·)在等式(2)中，Mask_token(·)用随机初始化向量

通过λ的概率(例如，在一个或多个实施例中为30％)替换x的一个或多个随机跨度。之后，声学嵌入

和掩蔽的标记序列/>

被级联成级联嵌入/>

多模式转换器编码器310基于级联嵌入生成统一的潜在表示/>

312。在一个或多个实施例中，位置嵌入(例如位置嵌入306)可以用于针对不同类型的输入进行重置。统一潜在表示/>

可以用于由语音重构模块340和对应于一个或多个掩蔽标记的一个或多个重构标记314生成重构的声谱图。

在一个或多个实施例中，单语FAT-MLM的训练目标包括语音重构损失

和文本重构损失/>

对于语音输入s，可以使用以下训练目标来重构带有周围上下文信息的原始语音信号：

在等式(3)中，g是从编码表示

中恢复原始信号的重构函数(例如，2D反卷积)。在一个或多个实施例中，均方误差用于测量s与重构的声学特征(例如，声谱图)之间的差异/>

在一个或多个实施例中，对于转录输入x，下面表示的交叉熵损失可以用于重构掩蔽标记。

单语FAT-MLM的最终损失

是多模式损失，可以表示为：

在一个或多个实施例中，如图3C所示，g是的语音重构模块340的重构函数。语音重构模块340可以包括一个或多个2D反卷积层342以从由多模式转换器编码器310输出的统一潜在表示

312生成重构的声谱图/>

344。重构的声谱图/>

与序列s之间的差异可以用于构建用于模型训练的语音重构损失/>

图4描绘了根据本公开的实施例的用于预训练多模式转换器编码器的过程。对于语音音频，对语音音频的声学特征序列进行掩蔽(405)，使用随机声学特征掩蔽函数来随机地掩蔽一个或多个声学特征，以获得掩蔽的声学特征序列。使用转换器编码器将掩蔽的声学特征序列编码(410)成声学嵌入序列。用于语音音频的转录的标记序列被掩蔽(415)，使用随机标记掩蔽函数来随机掩蔽一个或多个标记，以获得掩蔽的标记序列。在一个或多个实施例中，声学特征序列和标记序列的随机掩蔽比率可以相同或不同。掩蔽的声学特征序列和掩蔽的标记序列使用多模式转换器编码器来编码(420)成声学和文本输入的统一潜在表示。基于统一的潜在表示，使用语音重构模块生成(425)重构声学特征序列。基于统一的潜在表示生成(430)对应于一个或多个掩蔽标记的一个或多个重构标记。使用包括语音重构损失和文本重构损失的整体损失来训练(435)多模式转换器编码器。在一个或多个实施例中，语音重构损失是基于声学特征序列与声学特征的重构序列的序列之间的均方误差，并且文本重构损失是基于一个或多个重构标记的交叉熵损失。

2.翻译FAT-MLM的实施例

在一个或多个实施例中，为了支持诸如语音翻译之类的多模式跨语言任务，通过使用源语言转录的附加目标语言翻译作为输入，可以将单语FAT-MLM扩展到翻译FAT-MLM。翻译FAT-MLM可以将D_s，x，y＝{(s，x，y)}作为输入，其中y＝(y₁，...，y_|y|)表示用于目标语言的翻译转录的目标标记序列。这种三元组输入在语音翻译语料库中很常见。

图5以图形的方式描绘了根据本公开的实施例的翻译FAT-MLM。如图所示，用于不同语言的源语言嵌入e_src505和目标语言嵌入e_tet507以显示语言差异。具体地，源语言嵌入e_src505可以被并入声学嵌入

502和掩蔽的源语言标记序列/>

504，或与它们结合，以形成结合声学嵌入的源语言/>

和结合标记的源语言序列/>

在一个或多个实施例中，声学嵌入/>

502和掩蔽的源语言标记序列/>

504可以在类似于图4所示的步骤405至步骤415的过程中生成。在一个或多个实施例中，位置嵌入508可以用于对齐掩蔽的源语言标记序列/>

和掩蔽的目标语言标记序列/>

用于跨语言对齐。

类似于单语FAT-MLM，翻译FAT-MLM使用随机目标标记掩蔽函数来随机地掩蔽目标标记序列y中的一个或多个目标标记，以获得掩蔽的目标语言标记序列

与/>

和/>

类似，掩蔽的目标语言标记序列/>

可以与目标语言嵌入e_tgt合并，以形成结合目标标记的目标语言序列/>

该序列与结合声学嵌入(的源语言/>

)以及结合标记的源语言序列/>

级联，以形成级联嵌入h_s，x，y：

多模式转换器编码器510将级联嵌入h_s，x，y编码成对语音、源语言文本和目标语言文本的统一表示f(h_s，x，y)512。统一表示f(h_s，x，y)可以用于使用语音重构模块540来重构声学特征的重构序列，一个或多个重构源标记514对应于一个或多个掩蔽源标记，一个或多个重构目标标记516对应于一个或多个掩蔽目标标记。

在一个或多个实施例中，不同掩蔽输入的重构损失可以包括语音重构损失

源文本重构损失/>

和目标文本重构损失/>

可以表示为：

在一个或多个实施例中，可以对上述损失函数求和，以获得翻译FAT-MLM的最终损失函数：

为了充分利用语料库用于不同的任务，FAT-MLM可以将语音、转录、翻译三元组

的任意组合作为输入，这是三元组{s，x，y}的幂集。具体地，这些组合包括仅语音数据{s}、单语文本数据、{x}或{y}、用于语音识别的语音和转录元组{(s，x)}、用于机器翻译的转录和翻译元组{(x，y)}、用于直接语音翻译的语音和翻译元组{(s，y)}、以及语音转录翻译三元组{(s，x，y)}。对于不同的输入组合，FAT-MLM可以对其嵌入的完整级联进行编码并恢复被掩蔽的部分。在一个或多个实施例中，完整的损失函数可以表示为：

在等式(11)中，D_s*、D_x*、D_y*分别表示包括语音、源语言文本和目标语言文本的任何输入。应当注意的是，在这个框架中，MLM、TLM和MAM的损失分别表示为

和

图6描绘了根据本公开的实施例的用于预训练翻译FAT-MLM的过程。给定源语言的语音音频，将一系列声学嵌入与源语言嵌入合并以形成(605)结合声学嵌入的源语言。与声学嵌入302序列类似，声学嵌入序列可以通过对语音音频的掩蔽声学特征序列进行编码来获得。可以通过随机掩蔽语音音频的声学特征序列中的一个或多个声学特征来生成掩蔽声学特征序列。

掩蔽的源语言标记序列与源语言嵌入合并以形成(610)结合标记序列的源语言。类似于图3A中所示的标记

序列，可以通过随机掩蔽对应于语音音频的转录的标记序列x中的一个或多个标记来获得用于翻译FAT-MLM的源语言标记序列/>

掩蔽的目标语言标记序列

与目标语言嵌入结合，以形成(615)结合标记的目标语言序列。目标语言标记序列/>

可以通过随机掩蔽在标记序列y中的一个或多个标记来获得，所述标记序列y中的一个或多个标记对应于源语言中转录的目标语言中的翻译转录。

结合声学嵌入的源语言、结合标记序列的源语言和结合标记的目标语言序列被级联(620)以形成级联嵌入h_s，x，y，其由多模式转换器编码器编码(625)成语音、源语言文本和目标语言文本的统一表示f(h_s，x，y)。

统一表示用于使用语音重构模块来重构(630)声学特征的重构序列，一个或多个重构源标记对应于一个或多个掩蔽源标记，一个或多个重构目标标记对应于一个或多个掩蔽目标标记。使用从语音重构损失

源文本重构损失/>

和目标文本重构损失/>

中选择的一个或多个损失来训练(635)翻译FAT-MLM。在一个或多个实施例中，可以使用所有这些重构损失的总和来训练翻译FAT-MLM。

3.注意力可视化的实施例

为了证明FAT-MLM统一不同模式和语言的表示的能力，翻译FAT-MLM的自注意力层在图7、图8A和图8B中以图形的方式示出。图7以图形的方式示出声学嵌入模块中的第一转换器层处的一个语音自注意力头部的输出及其对应的声谱图。图7中的模型是使用语音翻译En→De数据集训练的翻译FAT-MLM模型。图7中清晰的单调注意力示出了FAT-MLM方法可以学习良好的语音表示。

图8A和图8B示出了在来自使用语音翻译数据集训练的翻译FAT-MLM模型的声学和文本共享转换器的第一层处的两个自注意力头部的输出，用对应的声谱图、转录(英语)和翻译(德语)进行了注释。图8A示出FAT-MLM可以学习两种语言之间的良好跨语言对齐，诸如“and到Und”以及“you到Sie”。自注意力头部分别在转录和翻译中示出“and”和“Und”、“you”和“Sie”、“what”和“was”之间的双语对齐。图8B示出了FAT-MLM能够像许多语音识别模型一样学习清晰的单调语音到文本跨模式注意力。在图8B中，左侧声谱图示出了黄金语音-转录对齐。这个自注意力头部在框852中示出了单调的跨模式注意力。同时，语音到翻译注意力(在框854中)分别在语音和翻译中清楚地示出了“you”和“Sie”、“know”和“wissen”之间的对齐。应注意，在这个语音中，“and”的发音很弱。

D.FAT-ST的实施例

本节公开了如何使FAT-MLM适应语音翻译并使语音翻译模型能够从语音识别和文本机器翻译中学习。

1.从文本翻译到语音翻译

不管不同的序列到序列模型的特定设计如何，文本机器翻译编码器总是采用输入序列x＝(x₁，...，x_n)，其中每个

是d_x维度的词嵌入，并且产生新的隐藏状态序列h＝f(x)＝(h₁，...，h_n)。另一方面，在给定源序列(实际上是它的表示h)和先前生成的单词(表示为y_＜t＝(y₁，...，y_t-1))的情况下，解码器预测下一个输出单词y_t。解码器在其发出<eos>时停止，并且最终假设y＝(y₁，...，<eos>)具有概率：

在训练时，在给定整个训练数据D_x，y上的输入x的情况下，将每个基础事实目标语句或转录y＊的条件概率最大化，或者等效地将以下损失最小化：

与文本机器翻译不同，语音翻译将语音特征s＝(s₁，...，s_|s|)作为输入。与FAT-MLM的语音输入部分相同，这些语音特征是从语音信号(例如声谱图)转换的。

形式上，语音翻译模型的解码和训练可以定义如下：

2.FAT-ST的实施例

在一个或多个实施例中，为了提高端到端语音翻译的性能，语音翻译能够通过简单地将单语FAT-MLM的架构适应于融合声学和文本语音翻译(FAT-ST)模型来编码声学和文本特征两者作为输入。图9以图形的方式描绘了根据本公开的实施例的FAT-ST模型。FAT-ST模型包括转换器编码器910和转换器解码器920。转换器编码器910将对应于源语言中的语音音频的至少一个声学嵌入902编码成表示912，然后该表示由转换器解码器920对其进行处理，以预测与源语言不同的目标语言中的翻译转录930序列。在一个或多个实施例中，当FAT-ST模型在训练过程中运行时，声学嵌入902可以是掩蔽的声学嵌入，或者当FAT-ST模型被部署用于推理时，该声学嵌入可以是没有任何掩蔽的原始声学嵌入。当转换器编码器仅接收声学嵌入902时，表示912可以是声学表示，或者当转换器编码器接收到声学嵌入902和文本嵌入904两者时，该表示可以是统一表示。在一个或多个实施例中，位置嵌入906可以用于对齐文本嵌入904以用于转录对齐。

在一个或多个实施例中，FAT-ST转换器编码器可以具有与单语FAT-MLM的转换器编码器相似或相同的架构。以这种方式，FAT-ST转换器编码器可以对声学特征、文本特征或这两种特征进行编码。可以使用一种或多种损失来优化或训练FAT-ST模型，包括直接语音翻译损失

机器翻译损失/>

和FAT-MLM损失/>

图10描绘了根据本公开的实施例的用于训练包括多模式编码器和解码器的FAT-ST模型的过程。给定三元组语音翻译数据集D_s，x，y，该数据集包括语音音频的语音声学嵌入、用于语音音频的转录的源语言中的标记序列、用于转录的转录翻译的目标语言中的标记序列，三元组语音翻译数据集被解耦(1005)为直接语音翻译数据集D_s，y、机器翻译数据集D_x，y和语音识别数据集D_s，x。如等式(5)所示，FAT-ST模型分别在直接语音翻译数据集D_s，y上运行(1010)以获得直接语音翻译损失

在机器翻译数据集D_x，y上运行以获得机器翻译损失

并且在语音识别数据集D_s，x上运行以获得FAT-MLM损失/>

这是包含/>

和

的多模式损失。如图9中的路径950所示，当在直接语音翻译数据集上运行时，多模式编码器将从声学特征序列生成的声学嵌入编码成声学表示，并且解码器基于声学表示输出目标语言中的预测标记序列。如图9中的路径955所示，当在机器翻译数据集上运行时，多模式编码器将用于转录的标记序列的掩蔽版本编码成文本表示，并且解码器基于文本表示输出目标语言中的预测标记序列。如图3A中类似所示，当在语音识别数据集上运行时，多模式编码器将用于转录和声学嵌入的标记序列的掩蔽版本编码成统一表示，该统一表示用于生成重构声学特征序列和用于掩蔽标记的一个或多个重构标记。

然后可以基于直接语音翻译损失、机器翻译损失和FAT-MLM损失

的组合来获得(1015)最终的FAT-ST损失函数。在一个或多个实施例中，FAT-ST损失函数可以是三个损失的总和，如下所示：

可以使用FAT-ST损失函数来优化或更新(1020)FAT-ST模型的一个或多个模型参数。

虽然图10示出了使用三元组语音翻译数据集进行FAT-ST训练的过程，FAT-ST训练也可以使用独立的直接语音翻译数据集、独立的机器翻译数据集、独立的语音识别数据集或其任意组合来实现。等式(16)中所示的FAT-ST损失函数可能仍适用于任何独立训练。例如，当使用独立的机器翻译数据集训练FAT-ST模型时，因为其他两个损失

和

降基本上为零，所以FAT-ST损失函数实际上会是/>

应当注意，语音识别和机器翻译数据可以包括在语音翻译数据或附加数据集中。同时，发现联结主义时间分类(CTC)损失可能有助于提高翻译质量，并且因此包括在本公开的一个或多个实施例中。

3.从翻译FAT-MLM微调FAT-ST的实施例

在一个或多个实施例中，可以通过从FAT-MLM进行微调来进一步改进FAT-ST模型。由于FAT-ST转换器解码器仅预测文本，它可以从声学和文本共享的多模式转换器编码器初始化。例如，FAT-ST转换器解码器的参数可以从转换器编码器的参数初始化，然后在训练过程中进行优化。虽然转换器解码器是单向的，这与双向FAT-MLM不同，但在实验中它仍然可以从FAT-MLM中受益。

E.实验结果

应注意，这些实验和结构仅通过说明的方式提供并且使用一个或多个具体实施例在具体条件下执行；因此，这些实验和它们的结果都不应被用来限制本专利文件的公开的范围。

在三个方向进行各种语音翻译实验：英语到德语(En→De)、英语到西班牙语(En→Es)和英语到荷兰语(En→N1)以示出基准翻译质量和本公开的实施例的翻译质量。

1.数据集

使用具有不同模式和语言的各种语料库，包括语音翻译数据D_s，x，y、语音识别数据D_s，x、机器翻译和单语文本数据D_x，y、D_x、D_y、仅语音数据D_s和单独的单语文本数据(仅用于Nl)。数据集的统计结果如表1所示。所提出的方法的实施例是在基于自发语音收集的语音翻译数据上进行评估的，这些数据与实验中使用的其他有声读物语音数据集有很大不同。自发语音比有声读物数据集更难进行语音翻译。这就是为什么在自发语音上的级联系统方面端到端语音翻译的翻译准确率比其他语音翻译语料库差很多的原因之一。

表1.实验中使用的所有数据集的统计。En、De、Es单语文本使用并行语料库；单语文本数据用于N1文本。#句子表示句子的数量

(a)双语数据集

(b)单语数据集

2.一些训练细节

在一个或多个实验中，使用25ms的窗口大小和10ms的步长大小、使用原始音频文件来提取与3维音高特征堆叠的多维log-Mel滤波器组。在每个数据集中训练具有8K文本联合词汇量的文本标记器/去标记器模型。针对GPU效率，已忽略超过3,000帧的训练样本。基本的基于转换器的端到端FAT-ST框架具有以下设置：首先使用2层大小为3且步长为2的2D卷积对语音输入进行下采样，然后是带有2,048隐藏大小的前馈层的标准12层转换器来桥接源端和目标端。转换器的每一侧上使用了四个注意力头部，并且每个注意力头部的维度为256。本节还示出了FAT-ST大模型的结果，该模型具有4,096隐藏大小，用于所有转换器层的前馈层。对于语音重构模块，转换器编码器的输出简单地线性投影到另一个潜在空间，然后用2层反卷积对潜在表示进行上采样以匹配原始输入信号的大小。在包括预训练在内的所有实验中，随机掩蔽率λ被选择为30％。在推理过程中，语音输入没有掩蔽。最后5个检查点被平均用于测试。对于解码，使用波束搜索，波束大小为5，并且针对德语长度惩罚为0.6、西班牙语为0.0、荷兰语为0.3。

3.翻译质量比较

在本小节中，将FAT-ST实施例的转换精度与表2和表3中的基准进行比较。

ST：这是普通语音翻译系统，它不使用转录。

ST+ASR MTL：ST模型带有额外的ASR解码器，并且使用转录用ASR多任务学习进行训练。

ST+ASR&MT MTL：带有附加ASR解码器和MT编码器的ST模型。它利用ASR和MT多任务学习进行训练。

ST+MAM：用附加MAM损失来训练ST，其形式化为

(如图2C所示)。

ST+MAM+ASR MTL：用MAM损失和ASR多任务学习来训练ST。

E2E-ST+MME：具有多模式编码器的端到端ST系统。

E2E-ST+ASR：最高水准的端到端ST模型，带有额外的ASR解码器。

级联：级联模型，其首先将语音转录成转录，然后将结果传递给机器翻译系统。

ST+ASR&MT预训练：ST的编码器由预训练的ASR编码器初始化，并且解码器由预训练的MT解码器初始化。

伪翻译：通过使用级联或端到端语音翻译模型生成伪翻译来利用附加语音数据的现有技术方法。

表2.所公开的方法实施例与仅使用D_s，x，y(包括预训练方法)的3个翻译方向上的其他基准之间在语音翻译测试集上的BLEU分数比较。§是现有技术的实施方式。

表3.关于使用附加数据的FAT-ST实施例之间的语音翻译数据测试集的BLEU分数比较。D_s，x：语音识别数据，D_x，y：并行语料库MT，D_s：仅语音数据，D_x、D_y：来自并行语料库或维基百科文本的单语数据。§是现有技术的实施方式。伪翻译使用额外的D′_s，t，其包括语音识别数据(D_s，x)以及35,217小时版本的仅语音数据(几乎用于FAT-ST实施例的D_s的10×)，这些数据与其由ASR和MT模型生成的对应伪翻译配对。伪翻译的模型大小为435.0M。

a)预训练模型的模型大小

表4示出了不同预训练模型的参数数量。可以看出FAT-MLM基础模型比MAM预训练模型稍大，并且FAT-MLM大模型比基础模型大很多。

表4.不同模型的模型尺寸

b)用D_s，x，y训练

在表2中，在无预训练的情况下，可以看出除了E2E ST+ASR和级联模型外，FAT-ST基础模型实现了最好的结果。然而，FAT-ST基本模型具有的参数比它们都少得多。具有ASR或MT MTL和E2E ST+MME的模型都使用语音翻译数据集中的转录数据，但性能较差，因此FAT-ST模型更有效地使用转录数据。与其他开源ST在语音翻译数据集上的实现结果类似，ST+ASR和MT MTL的实现比ST+ASR更差。

还比较了根据不同预训练模型预训练的模型的性能。在语音翻译数据集上进行预训练后，FAT-ST(基础)通过从FAT-MLM的微调提高了0.85的BLEU分数，而通过根据MAM的微调，其性能下降了。同时，与ASR和MT预训练基准相比，所提出的方法实施例实现了更好的性能。应注意，如图11所示，FAT-ST基础模型首次在语音翻译的这三个翻译方向上实现了与级联基准相似的性能，而与级联模型相比，FAT-ST基础模型在尺寸上要小得多并且推理速度更快。

c)使用附加数据进行预训练

表3表明，FAT-MLM可以通过简单地添加语音识别数据D_s，x(语音识别数据)、文本机器翻译数据D_x，y(并行语料库)、甚至仅语音数据D_s(仅语音数据)和单语文本数据D_x∪D_y，来进一步改进FAT-ST。这示出了FAT-MLM的良好的表示学习能力。可以看出，使用更大的数据，FAT-ST(大)模型的性能提升比基础模型快得多。这是因为基础模型的参数数量太有限，以至于无法从这种大数据中学习。

d)用附加数据进行微调

表2的最后部分示出FAT-ST可以通过从额外的语音识别和机器翻译数据中学习来改进。因为与更丰富的语音识别和机器翻译数据相比，语音翻译数据非常有限，所以这是有希望的。与通过生成伪翻译来利用额外语音数据的先前的努力不同，FAT-ST不使用任何伪标签。通过使用小7倍的模型大小和几乎小10倍的语音数据，最好的FAT-ST模型优于以往的En→De的模型。

e)辅助MT任务的执行

表5示出了FAT-ST的辅助MT任务的翻译质量。尽管使用语音翻译数据集训练的FAT-ST模型比MT基准更差，但通过使用用更多数据训练的FAT-MLM，FAT-ST方法可以很容易优于MT基准。应注意，这些模型的参数是为优化语音翻译任务而调整的，并且MT仅是辅助任务。

表5.辅助MT任务在MT基准与FAT-ST方法之间的比较。§是现有技术的实施方式。

f)消融研究

表6示出了FAT-ST方法实施例的消融研究。可以看出，所有部件都对最终性能有贡献。

表6.消融研究。在这里，分层转换器意味着模型仅共享转换器编码器的6层用于声学特征输入和文本特征输入。

g)英→汉语音翻译

将英→汉语音翻译任务中的若干模型与训练集中约525小时的语音、验证集中的1.5小时的语音和测试集中的2.5小时的语音进行比较。根据先前的实验，对实验数据进行预处理。使用字符级BLEU分数评估模型的性能。表7示出了该数据集中的一个示例。因为级联模型的ASR中的错误(例如，他们→那里(their→there)，谁→去做(of who→to do))，所以级联模型的翻译是错误的，而FAT-ST生成正确的翻译。表8示出了FAT-ST的实施例在很大程度上优于其他基准。

表7.英到汉语音翻译示例。级联系统是使用自发语音训练数据的实施方式。级联模型的错误以粗体突出显示。

表8.关于英到汉语音翻译的BLEU分数比较。*为本公开的实施方式实施例。级联模型是现有技术实施方式。

h)解码器速度

图11示出了级联模型和FAT-ST模型实施例之间的解码速度比较。FAT-ST模型几乎比级联模型快2倍，后者需要等待语音识别模块完成才能开始翻译。由于只是增加了转换器中的前馈网络，FAT-ST(大)的解码时间几乎与FAT-ST(基础)相同。

F.一些观察

在本公开中，公开了融合声学和文本掩蔽语言模型(FAT-MLM)的实施例以从组合语音和文本的任何数据中学习文本和语音的统一表示。FAT-MLM可以进一步扩展至序列到序列语音翻译模型，该模型能够在第一时间从语音识别和基于文本的机器翻译数据中学习。实验结果表明，FAT-MLM实施例在三个翻译方向上有显著改进，并且优于级联基准。

G.计算系统实施例

在一个或多个实施例中，本专利文件的各方面可以针对、可以包括或可以在一个或多个信息处理系统(或计算系统)上实现。信息处理系统/计算系统可以包括可操作以计算、核算、确定、分类、处理、发射、接收、检索、发起、路由、切换、存储、显示、通信、显现、检测、记录、再现、处置或利用任何形式的信息、智能或数据的任何工具或工具集合。例如，计算系统可以是或可以包括个人计算机(例如，膝上型计算机)、平板计算机、移动装置(例如，个人数字助理(PDA)、智能电话、平板手机、平板电脑等)智能手表、服务器(例如，刀片式服务器或机架式服务器)、网络存储装置、相机或任何其他合适装置，并且可以在大小、形状、性能、功能性和价格方面变化。计算系统可以包括随机存取存储器(RAM)、一个或多个处理资源(诸如中央处理单元(CPU)或硬件或软件控制逻辑)、只读存储器(ROM)和/或其他类型的存储器。计算系统的附加部件可以包括一个或多个驱动器(例如，硬盘驱动器、固态驱动器或这两者)、用于与外部装置通信的一个或多个网络端口，以及各种输入和输出(I/O)装置，诸如键盘、鼠标、触摸屏、手写笔、麦克风、相机、触控板、显示器等。计算系统还可以包括一条或多条总线，其可操作以在各种硬件部件之间传输通信内容。

图12描绘了根据本公开的实施例的信息处理系统(或计算系统)的简化框图。应理解，系统1200所示的功能可以操作来支持计算系统的各种实施例，但应理解，计算系统可以被不同地配置并包括不同的部件，包括具有如图12所描绘的更少或更多的部件。

如图12所示，计算系统1200包括提供计算资源并控制计算机的一个或多个CPU1201。CPU 1201可以用微处理器等实施，并且还可以包括一个或多个图形处理单元(GPU)1202和/或用于数学计算的浮点协处理器。在一个或多个实施例中，一个或多个GPU 1202可以合并在显示控制器1209内，诸如一个或多个图形卡的一部分。系统1200还可以包括系统存储器1219，其可以包括RM、ROM或这两者。

还可以提供多个控制器和外围设备，如图12所示。输入控制器1203表示到各种输入装置1204的接口。计算系统1200还可以包括用于与一个或多个存储装置1208连接的存储装置控制器1207，每个存储装置包括诸如磁带或磁盘的存储介质，或者可以用于记录操作系统、实用工具和应用程序的指令程序的光学介质，这些指令程序可以包括实现本公开的各个方面的程序的实施例。存储装置1208也可以用于存储已处理的数据或根据本公开要处理的数据。系统1200还可以包括显示控制器1209，以用于提供显示装置1211的接口，该显示装置可以是阴极射线管(CRT)显示器、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或任何其他类型的显示器。计算系统1200还可以包括一个或多个外围设备1206的一个或多个外围设备控制器或接口1205。外围设备的示例可以包括一个或多个打印机、扫描仪、输入装置、输出装置、传感器等。通信控制器1214可以与一个或多个通信装置1215连接，这使得系统1200能够通过包括互联网、云资源(例如以太网云、以太网光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网(SAN)在内的各种网络中的任何一种或通过任何合适的电磁载波信号(包括红外信号)连接到远程装置。如在所描绘的实施例中所示，计算系统1200包括一个或多个风扇或风扇托盘1218以及一个或多个冷却子系统控制1217，所述冷却子系统控制器监测系统1200(或其部件)的热温度并且操作风扇/风扇托盘1218来帮助调节温度。

在所示的系统中，所有主要系统部件可以连接到总线1216，该总线可以表示多于一条物理总线。然而，各种系统部件可以在物理上彼此接近，也可以不接近。例如，输入数据和/或输出数据可以从一个物理位置远程传输到另一个物理位置。此外，可以通过网络从远程位置(例如，服务器)访问实现本公开各方面的程序。这种数据和/或程序可以通过各种机器可读介质中的任何一种来传送，包括例如：磁性介质，诸如硬盘、软盘和磁带；光学介质，诸如光盘(CD)和全息装置；磁光介质；以及专门被配置为存储或存储并执行程序代码的硬件装置，诸如专用集成电路(ASIC)、可编程逻辑装置(PLD)、快闪存储器装置、其他非易失性存储器(NVM)装置(诸如3D基于XPoint的装置)以及ROM和RAM装置。

本公开的各方面可以用指令编码在一个或多个非暂时性计算机可读介质上，所述指令用于一个或多个处理器或处理单元以使得步骤得以执行。应当注意，非暂时性计算机可读介质应当包括易失性和非易失性存储器。应当注意，替代实施方案是可能的，包括硬件实施方案或软件/硬件实施方案。硬件实施的功能可以使用ASIC、可编程阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“装置”旨在涵盖软件实施方案和硬件实施方案。类似地，本文中使用的术语“计算机可读介质”包括其上具有指令程序的软件和/或硬件，或者它们的组合。考虑到这些替代实施方式，应当理解，附图和所附描述提供了本领域技术人员编写程序代码(即软件)和/或制造电路(即硬件)以执行所需处理所需的功能信息。

应当注意，本公开的实施例还可以涉及具有非暂时性有形计算机可读介质的计算机产品，所述计算机可读介质上具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为本公开的目的专门设计和构造的那些，或者它们可以是相关领域技术人员已知或可获得的类型。有形计算机可读介质的示例包括例如：磁性介质，诸如硬盘、软盘和磁带；光学介质，诸如CD和全息装置；磁光介质；以及专门被配置为存储或存储并执行程序代码的硬件装置，诸如ASIC、PLD、快闪存储器装置、其他非易失性存储器装置(诸如3D基于XPoint的装置)以及ROM和RAM装置。计算机代码的示例包括机器代码，诸如由编译器产生的代码，以及包含由计算机使用解释器执行的高级代码的文件。本公开的实施例可以全部或部分实现为机器可执行指令，其可以在由处理装置执行的程序模块中。程序模块的示例包括库、程序、例程、对象、部件和数据结构。在分布式计算环境中，程序模块可以物理地位于本地、远程或两者兼有的环境中。

本领域技术人员将认识到，没有任何计算系统或编程语言对本公开的实践是至关重要的。本领域技术人员还将认识到，上述许多元件可以在物理上和/或功能上分成模块和/或子模块或组合在一起。

本领域技术人员将理解，前面的示例和实施方式是示例性的，并不限制本公开的范围。本领域技术人员在阅读说明书和研究附图后显而易见的所有置换、增强、等同物、组合和改进都包含在本公开的真实精神和范围内。还应当注意，任何权利要求的元素可以用不同的方式安排，包括具有多个从属性、配置和组合。

Claims

1.一种用于训练神经网络模型的计算机实现的方法，所述方法包括：

掩蔽语音音频的声学特征序列中的一个或多个声学特征，以获得掩蔽的声学特征序列；

将所述掩蔽的声学特征序列编码为声学嵌入序列；

掩蔽用于所述语音音频的转录的标记序列中的一个或多个标记，以获得掩蔽的标记序列；

使用所述模型中的多模式转换器编码器来将所述掩蔽的声学特征序列和所述掩蔽的标记序列编码为声学和文本输入两者的统一潜在表示；

基于所述统一潜在表示生成重构的声学特征序列；

基于所述统一潜在表示生成对应于掩蔽的所述一个或多个标记的一个或多个重构标记；以及

使用包括语音重构损失和文本重构损失的整体损失来训练所述多模式转换器编码器。

2.如权利要求1所述的计算机实现的方法，其中所述神经网络模型是用于端到端语音翻译的模型。

3.如权利要求1所述的计算机实现的方法，其中使用随机声学特征掩蔽函数对所述声学特征序列中的所述一个或多个声学特征进行随机掩蔽，使用随机标记掩蔽函数对所述标记序列中的所述一个或多个标记进行随机掩蔽。

4.如权利要求1所述的计算机实现的方法，其中将所述掩蔽的声学特征序列和所述掩蔽的标记序列级联在一起以进行编码。

5.如权利要求1所述的计算机实现的方法，其中所述语音重构损失基于所述声学特征序列与所述重构的声学特征序列之间的均方误差。

6.如权利要求1所述的计算机实现的方法，其中所述文本重构损失是基于所述一个或多个重构标记的交叉熵损失。

7.如权利要求1所述的计算机实现的方法，其中所述声学特征序列是所述语音音频的声谱图或梅尔声谱图，每个声学特征是帧级语音特征。

8.一种用于训练语音翻译模型的计算机实现的方法，所述方法包括：

将声学嵌入序列与源语言嵌入结合，以形成结合声学嵌入的源语言，所述声学嵌入序列对应于语音音频；

将掩蔽的源语言标记序列与源语言嵌入结合，以形成结合标记的源语言序列，通过掩蔽标记序列中的一个或多个标记获得所述源语言标记序列，所述标记序列中的一个或多个标记对应于源语言中的所述的语音音频的转录；

将掩蔽的目标语言标记序列与目标语言嵌入结合，以形成结合标记的目标语言序列，通过掩蔽标记序列中的一个或多个标记获得所述目标语言标记序列，所述标记序列中的一个或多个标记对应于用于所述源语言中的转录的目标语言中的翻译转录；

将所述结合声学嵌入的源语言、所述结合标记的源语言序列和所述结合标记的目标语言序列级联，以形成级联嵌入；

通过所述语音翻译模型中的多模式转换器编码器，将所述级联嵌入编码为对语音、源语言文本和目标语言文本的统一表示；

基于所述统一表示来重构重构的声学特征序列、一个或多个重构源标记、一个或多个重构目标标记；以及

使用一种或多种损失来训练所述语音翻译模型，所述一种或多种损失选自：基于所述重构的声学特征序列的语音重构损失、基于所述一个或多个重构源标记的源文本重构损失、以及基于所述一个或多个重构目标标记的目标文本重构损失。

9.如权利要求8所述的计算机实现的方法，其中通过对掩蔽的声学特征序列进行编码获得所述声学嵌入序列，所述掩蔽的声学特征序列对应于所述语音音频，所述掩蔽的声学特征序列是通过随机掩蔽用于所述语音音频的声学特征序列中的一个或多个声学特征而生成的。

10.如权利要求8所述的计算机实现的方法，其中使用所述语音重构损失、所述源文本重构损失和所述目标文本重构损失的总和来训练所述语音翻译模型。

11.如权利要求8所述的计算机实现的方法，其中所述语音重构损失基于所述声学特征序列与所述重构的声学特征序列之间的均方误差。

12.如权利要求8所述的计算机实现的方法，其中所述源文本重构损失和所述目标文本重构损失是交叉熵损失。

13.如权利要求8所述的计算机实现的方法，还包括：

使用位置嵌入来对齐所述掩蔽的源语言标记序列和所述掩蔽的目标语言标记序列，用于跨语言对齐。

14.一种用于训练语音翻译模型的计算机实现的方法，所述方法包括：

将三元组语音翻译数据集解耦为直接语音翻译数据集、机器翻译数据集和语音识别数据集，所述三元组语音翻译数据集包括对应于语音音频的声学特征序列、用于所述语音音频的源语言中的转录的标记序列、以及用于目标语言中的所述语音音频的翻译转录的标记序列；

在所述直接语音翻译数据集上运行所述语音翻译模型以获得直接语音翻译损失，所述语音翻译模型包括多模式编码器和解码器，当在所述直接语音翻译数据集上运行时，所述多模式编码器将从所述声学特征序列生成的声学嵌入编码为声学表示，所述解码器基于所述声学表示输出所述目标语言中预测的标记序列；

在所述机器翻译数据集上运行所述语音翻译模型以获得机器翻译损失，当在所述机器翻译数据集上运行时，所述多模式编码器将用于所述转录的标记序列的掩蔽版本编码为文本表示，所述解码器基于所述文本表示输出所述目标语言中预测的标记序列；

在所述语音识别数据集上运行所述语音翻译模型以获得声学和文本两者的多模式损失，当在所述语音识别数据集上运行时，所述多模式编码器将用于所述转录的所述标记序列的所述掩蔽版本编码为统一表示以及将所述声学嵌入编码为统一表示，所述统一表示用于生成重构的声学特征序列和用于掩蔽标记的一个或多个重构标记；

基于所述直接语音翻译损失、所述机器翻译损失和所述多模式损失的组合获得最终损失函数；以及

使用最终损失来训练所述语音翻译模型。

15.如权利要求14所述的计算机实现的方法，其中所述最终损失函数是所述直接语音翻译损失、所述机器翻译损失和所述多模式损失的总和。

16.如权利要求14所述的计算机实现的方法，其中所述声学嵌入使用包括以下步骤从所述声学特征序列生成：

使用随机声学特征掩蔽函数来掩蔽语音音频的所述声学特征序列中的一个或多个声学特征，以获得掩蔽的声学特征序列；以及

使用转换器编码器将所述掩蔽的声学特征序列编码为声学嵌入。

17.如权利要求14所述的计算机实现的方法，其中所述多模式损失包括基于所述重构的声学特征序列的语音重构损失和基于所述一个或多个重构标记的文本重构损失。

18.如权利要求17所述的计算机实现的方法，其中所述语音重构损失是所述声学特征序列与所述重构的声学特征序列之间的均方误差，并且所述文本重构损失是基于所述一个或多个重构标记的交叉熵损失。

19.如权利要求14所述的计算机实现的方法，其中所述标记序列的掩蔽版本使用位置嵌入来对齐，用于由所述多模式编码器进行编码。

20.如权利要求14所述的计算机实现的方法，其中从所述多模式转换器编码器初始化所述解码器。