CN115862630A

CN115862630A - 语音翻译的方法、装置、电子设备和介质

Info

Publication number: CN115862630A
Application number: CN202211529415.9A
Authority: CN
Inventors: 董倩倩; 程旭欣; 岳凤鹏; 高汝霆; 王明轩
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-03-28

Abstract

本公开的实施例涉及语音翻译的方法、装置、电子设备和介质。该方法包括获取源语言的多个音频，并且通过对多个音频的多层级扩增，生成混合语音特征，其中多层级包括词层级、句层级、或者帧层级中的至少二者。该方法还包括基于混合语音特征，生成与多个音频相对应的目标语言文本。根据本公开的实施例，能够更充分地利用有限的语音翻译数据，利用多层级扩增实现数据增强，从而提升语音翻译的准确率。

Description

语音翻译的方法、装置、电子设备和介质

技术领域

本公开的实施例涉及计算机领域，并且更具体地，涉及语音翻译的方法、装置、电子设备和介质。

背景技术

语音翻译是一个从语音到文本的跨模态任务，旨在将一种语言的语音翻译成另一种语言的文本，具有广泛的应用场景。传统的语音翻译方法主要由语音识别模型和机器翻译模型级联组成，其中语音识别模型将输入的源语言的语音转换为源语言的文本，机器翻译模型将语音识别模型输出的源语言的文本翻译为目标语言的文本。

从源语言的语音到源语言的文本可能会出现错误，该错误在从源语言的文本到目标语言的文本的翻译中可能会进一步出错，或者与其他字词、语法等相关联的错误。此外，语音识别模型和机器翻译模型的级联也造成了语音翻译任务的延迟较大，即从输入源语言的语音到输出目标语言的文本之间的处理过程的时间较长。

发明内容

本公开的实施例提供了一种语音翻译的方法、装置、电子设备和计算机可读存储介质。

根据本公开的第一方面，提供了一种语音翻译的方法。该方法包括获取源语言的多个音频。该方法还包括通过对多个音频的多层级扩增，生成混合语音特征，其中多层级包括词层级、句层级、或者帧层级中的至少二者。该方法还包括基于混合语音特征，生成与多个音频相对应的目标语言文本。

在本公开的第二方面中，提供了一种用于语音翻译的装置。该装置包括语音获取模块，被配置为获取源语言的多个音频。该装置还包括多层级扩增模块，被配置为通过对多个音频的多层级扩增，生成混合语音特征，其中多层级包括词层级、句层级、或者帧层级中的至少二者。该装置还包括文本生成模块，被配置为基于混合语音特征，生成与多个音频相对应的目标语言文本。

根据本公开的第三方面，提供了一种电子设备。该电子设备包括处理器以及与处理器耦合的存储器，存储器具有存储于其中的指令，指令在被处理器执行时使电子设备执行根据第一方面所述的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据第一方面所述的方法。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其它特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的一些实施例的语音翻译方法可以在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的语音翻译的方法的流程图；

图3示出了根据本公开的一些实施例的多层级扩增的过程的示意图；

图4示出了根据本公开的一些实施例的训练语音翻译模型的过程的示意图；

图5示出了根据本公开的一些实施例的微调语音翻译模型的过程的示意图；

图6示出了根据本公开的一些实施例的语音翻译模型的实例架构的示意图；

图7示出了根据本公开的一些实施例的用于语音翻译的装置的框图；以及

图8示出了根据本公开的一些实施例的电子设备的框图。

在所有附图中，相同或相似参考数字表示相同或相似元素。

具体实施方式

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息(如语音)的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息(如语音)。可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。

可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包括，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象，除非明确说明。下文还可能包括其它明确的和隐含的定义。

在本公开的一些实施例中，将以英语语音到德语文本的语音翻译任务作为示例进行描述，然而，其他语言的“语音”和“文本”也可以和本公开的实施例结合使用。另外，本文所有具体数值都是示例，仅是为了帮助理解，绝无限定范围之意图。

如上所讨论的，传统的语音识别模型和机器翻译模型的级联模型，可以基于语音识别任务的数据集和机器翻译的数据集而被训练。这些数据集的规模庞大，并且获取容易。机器翻译也被广泛使用，因为获取大量的机器翻译数据也是容易的。传统的级联模型在准确性和延迟方面存在一些问题。

然而，在研究中发现端到端的语音翻译模型能够克服级联方法的缺陷，并且超越级联模型的翻译效果。然而，训练端到端的语音翻译模型面临着数据稀缺性的问题。因为语音翻译任务的数据集的规模远小于语音识别任务的数据集和机器翻译的数据集。现有的解决方法是利用机器翻译任务的数据集辅助语音翻译模型的训练。

为了解决上述缺点，本公开的实施例提供了一种语音翻译的方案。该方案可以利用已有的训练数据实现数据增强，有效地解决数据稀缺性问题。该方案提供了一种多层级的数据扩增方法，可以在不同的维度对原始的训练数据进行扩增，使得扩增后的训练数据包括不同程度的语义或音色的混合，从而使得语音翻译模型学习到更多的隐藏特征，提供更充份的利用了有限的训练数据，由此提高语音翻译的准确率。

在下文描述中，某些实施例将参考英语语音和德语文本的语音翻译过程来讨论。但是应当理解，这仅仅是为了使本领域普通技术人员更好地理解本公开实施例的原理和思想，而无意以任何方式限制本公开的范围。

图1示出了根据本公开的某些实施例的语音翻译方法可以在其中实现的示例环境100的示意图。如图1所示，示例环境100可以包括计算设备110，其可以是用户终端、移动设备、计算机等，其也可以为计算系统、单个服务器、分布式服务器、或者基于云的服务器。计算设备110可以接收音频160-1，音频160-2，音频160-3，音频160-4(单独或统一地被称为音频160)。音频160可以理解为一段时长的语音，例如用户说话的声音，其包含有意义的内容，通常可以被文字记录下来。可以理解，环境100中还可以包括更多或更少的音频。

在计算设备110中，还可以包括语音翻译系统120。例如，在计算设备110中部署语音翻译系统120。语音翻译系统120可以被用以基于音频160来生成音频160的翻译结果，即文本170-1或文本170-2(单独或统一地被称为文本170)。在一些实施例中，语音翻译系统120可以基于机器学习模型的架构，通过利用与音频的声学特性、标注的对应文本相关联的损失函数来训练得到。

参考图1，语音翻译系统120，包括多层级扩增模型130。使用多层级扩增模型130，可以在原始的音频训练数据的基础上，利用多层级扩增的扩展方法获取更多的音频训练数据来进行训练，使机器学习模型学习到优化的模型参数，并且得到训练后的模型以用于推理阶段。

语音翻译系统120还包括声学编码器140。声学编码器140可以将原始音频和扩增后的音频的语音特征转化为词向量矩阵。词向量矩阵然后将被输入语音翻译模型150。语音翻译模型150将确定与音频160对应的文本中的每个字词的多个概率，并且基于这些概率来确定文本170。

应当理解，仅出于示例性的目的来描述示例环境100中的架构和功能，而不暗示对本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的其他环境中。

下文将结合图2至图6详细描述根据本公开实施例的过程。为了便于理解，在下文描述中提及的具体数据均是示例性的，并不用于限定本公开的保护范围。可以理解，以下描述的实施例还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

图2示出了根据本公开的某些实施例的语音翻译方法200的流程图。方法200可以在训练语音翻译系统120时使用。在框202处，获取源语言的多个音频。例如，语音翻译系统120获取音频160-1和160-2，或者获取音频160-1、160-2、160-3和160-4。

在框204处，通过对多个音频的多层级扩增，生成混合语音特征，其中多层级包括词层级、句层级、或者帧层级中的至少二者。可以理解，该混合语音特征可以以高维向量(仅作为示例，例如64维、128维、256维等等)的形式表示音频的声学特性，例如，表示音色的能量区集中度的特征，以及表示语音韵律特性的时长、基频、平均语声功率等特征。下文结合图3和图4描述了如何实现多层级扩增的示例实现。

在框206处，基于混合语音特征，生成与多个音频相对应的目标语言文本。作为示例，混合语音特征经由声学编码器转化为词向量后，通过语音翻译模型生成对应的文本。该对应的文本已经是目标语言的文本，从而实现了从源语言的语音到目标语言的文本的端到端的语音翻译。

这样，能够在多个维度对原始的训练数据进行扩增，使得扩增后的训练数据包括不同程度的语义或音色的混合，从而使得语音翻译模型学习到更多的隐藏特征，因此能够更充分地利用有限的训练数据，提高语音翻译的准确率。

图3示出了根据本公开的一些实施例的多层级扩增的过程300的示意图。过程300可以在图1中的多层级扩增模型130中实现。在过程300中，可以基于获取的音频160在多个维度上扩增语料，更充分地利用有限的训练数据。

在词层级302处，可以在词层级的维度上对音频进行扩增。作为示例，可以将获取的音频S1(又称为第一音频)：So I told them this story(所以我告诉了他们这个故事)和音频S2(又称为第二音频)：It’s just cash(这只是现金)进行词层级扩增。

在一些实施例中，可以基于三元组替换的方式实现词层级扩增。例如，训练数据可以表示为(语音、转写文本、翻译)的三元组。其中语音表示源语言的音频，转写文本表示源语言的语音所对应的文本，翻译文本表示目标语言的文本。例如，对于训练语料三元组D＝{(s,x,y)},其中D表示三元组，S＝[s₁,s₂,...,s_|s|]表示源语言的音频；X＝[x₁,x₂,...,x_|y|]表示源语言的拼音所对应的文本(即转写文本)；Y＝[y₁,y₂,...,y_|y|]表示目标语言的文本。

因此，可以首先将S1的三元组中的表示story的转写文本替换为其近义词article(文章)。再将article的发音与未替换的部分的语音组成新的音频S1’，即So I told themthis article。类似地，可以首先将S2的三元组中的表示cash的转写文本替换为其近义词money(钱)。再将money的发音与未替换的部分的语音组成新的音频S2’，即It’s justmoney(这只是钱)。

同理，可以将获取的音频S3(又称为第三音频)：So that was the book(这就是那本书)和S4(又称为第四音频)：That’s my wish(那是我的愿望)进行词层级扩增。例如，将book替换为近义词notebook(笔记本)，得到S3’:So that was the notebook(这就是那本笔记本)。对于S4，可以将wish替换为近义词hope(希望)，得到S4’：That’s my hope(那是我的希望)。

接下来，在句层级304处，可以对两个句子进行拼接。例如，在拼接306-1处，对S1’和S2’进行拼接，即S1’和S2’首尾相连的音频S5：So I told them this article It’sjust money。在拼接306-2处，对S3’和S4’进行拼接，即S3’和S4’首尾相连的音频S6：Sothat was the notebook That’s my hope。音频S5也被称为第一词层级扩增音频，音频S6也被称为第二词层级扩增音频。

在一些实施例中，关于用来进行词层级扩增的音频可以是随机选择的。备选地，关于用来进行词层级扩增的音频可以是按获取顺序安排的。根据本公开的实施例，期望扩增的数据能够尽量增强语音翻译系统120的准确度和泛化能力。

在帧层级308处，可以对音频S5和音频S6进行帧层级扩增。在一些实施例中，帧层级扩增可以对音频S5的语音特征和音频S6的语音特征进行加权。例如在混合310处，可以以p*为权重对S5进行加权以1-p*为权重对S6进行加权。将加权后的混合语音特征312输出至声学编码器140用于进一步处理。例如，以公式(1)表示：

s_mix＝p*s_i+(1-p*)s_j (1)

其中，s_mix表示混合语音的序列；s_i，s_j分别表示句层级扩增音频；i，j表示音频的计数。

图4示出了根据本公开的一些实施例的训练语音翻译模型的过程400的示意图。在图4中，声学编码器404可以为图1中的声学编码器140，而语音翻译模型410可以为图1中的语音翻译模型150。

声学编码器404可以包括语言模型层408(例如隐藏单元的双向编码器表示模型Hubert层)和卷积神经网络(CNN)层406。Hubert层408是通过隐藏单元掩码预测的自监督语音表示学习。作为示例，Hubert层408基于所述混合语音特征312，确定其音频的掩码区域。基于该掩码区域，确定其隐藏单元，并且基于该隐藏单元，生成音频的词向量。

Hubert层408在预测时的预测损失可应用于掩码区域，可以利用未掩码输入的良好高层表示，以正确推断掩码输入的目标。Hubert层408在连续输入上学习组合的声学和语言模型，因此可以生成高质量的词向量，增加后续语音翻译模型的翻译准确度。

在一些实施例中，可以利用CNN层406进一步缩小词向量的维度。作为示例，可以从256维缩小至需要的目标维度，例如128维。这样可以减少存储器需求，也可以根据需要调整，例如在计算开销、处理速度与翻译准确度上平衡时的维度。

在训练过程400中，声学编码器404还获取未混合的语音特征，例如音频S5和音频S6的语音特征作为训练时使用的数据。在训练语音翻译模型410时，还需要利用与音频对应的文本来使得语音翻译模型410学习相关的语音特征，调整模型的参数。

在一些实施例中，过程400可以准备好与音频S1对应的德语文本Y1：also er

ich ihnen diese geschichte(所以我告诉了他们这个故事)，以及与音频S2对应的德语文本Y2：es ist einfach bargeld(这只是现金)。在德语文本Y1中：将geschichte替换为其同义词artikel(文章)，得到德语文本Y1’：also er/>

ich ihnen dieseartikel。在德语文本Y2中：将bargeld替换为其同义词geld(钱)，得到德语文本Y2’：es isteinfach geld。

过程400可以准备好与音频S3对应的德语文本Y3：darum ginges also in diesembuch(这就是那本书)，以及与音频S4对应的德语文本Y4：das ist mein wunsch(那是我的愿望)。在德语文本Y3中：将buch替换为其同义词notizbuch(笔记本)，得到德语文本Y3’：darum ginges also in diesem notizbuch。在德语文本Y4中：将wunsch替换为其同义词hoffnung(希望)，得到德语文本Y4’：das ist mein hoffnung。

在拼接430处，可以将德语文本Y1’和德语文本Y2’拼接，即获得德语文本Y5：alsoer

ich ihnen diese artikel es ist einfach geld。在拼接432处，可以将德语文本Y3’和德语文本Y4’拼接，即获得德语文本Y6：darum ginges also in diesem notizbuchdas ist mein hoffnung。

通过这种方式，能够准备好对应的标注文本。可以看出，英语音频S1与德语文本Y1对应，英语音频S2与德语文本Y2对应，以此类推。在训练时，未混合的语音特征402(例如音频S5和S6)被输入语音翻译模型410。混合语音特征312也被输入语音翻译模型410。语音翻译模型410经由翻译编码器414和翻译解码器412来分别将未混合的语音特征402和混合语音特征312翻译为德语文本。应当注意，本公开仅以4个音频作为示例来描述，但实际中可以有更多的音频数据，因此翻译得到的德语文本将以分布416和分布418表示。其中，分布416与未混合语音特征402相关联，分布418与混合语音特征312相关联。分布416和分布418以概率分布的形式表示。

这样，可以分别计算3个损失函数，以即音频S5的输出与文本Y5损失函数L1(又被称为第一损失函数)，音频S6的输出与文本Y6的损失函数L2(又被称为第二损失函数)。可以理解损失函数L1和损失函数L2的权重420都为1。还可以计算混合音频特征312与文本Y5和文本Y6相关联的损失函数L3。其中，损失函数L1以p*为权重422，损失函数L2以1-p*为权重424，对损失函数L1和损失函数L2加权得到损失函数L3(又被称为第三损失函数)。

作为示例，可以使用以下公式(2)计算第一损失函数：

L_i ＝ L_CE(s_mix, y_i) (2)

其中，i表示音频序列的计数，L_CE表示损失函数的操作符，在一些实施例中，L_CE可以通过最大似然估计的方式来计算；s_mix表示混合语音的序列；y_i表示与音频i对应的目标语言的文本i。

同理，可以使用以下公式(3)计算第二损失函数：

L_j ＝ L_CE(s_mix, y_j) (3)

其中，j表示音频序列的计数，L_CE表示损失函数的操作符，在一些实施例中，L_CE可以通过最大似然估计的方式来计算；s_mix表示混合语音的序列；y_j表示与音频j对应的目标语言的文本j。

可以使用以下公式(4)计算第三损失函数：

L_MIX(s, y) ＝ p*L_i + (1 - p*)L_j (4)

其中，L_MIX(s,y)表示混合语音特征的损失函数；p*表示权重。

因此，最终的损失函数可以表示为公式(5)：

L₁(s, y) ＝ L_CE(s, y) + L_MIX(s, y) (5)

其中，L₁(s,y)表示最终的损失函数，L_CE(s,y)表示L_i与L_j的和，L_MIX(s,y)表示混合语音特征的损失函数。

通过这样的损失函数的设计，可以使得语音翻译模型将输出的源语言的语音的语义既与目标语言的文本的语义相似，又使得源语言的对应的文本的语义与目标语言的文本的语义相似。并且利用了多层级的扩增数据，提高了翻译模型的鲁棒性和翻译的准确率。虽然图3和图4的示例示出了词层级、句层级、帧层级的三级混合数据扩增，然而，本公开的实施例也可以与二级混合数据扩增或者四级以上的混合数据扩增组合实施。

通过过程400，可以实现对语音翻译模型的预训练(也被称为第一阶段)。在一些实施例中，还可以对语音翻译模型进行微调，以实现更好的翻译效果。图5示出了根据本公开的一些实施例的微调语音翻译模型的过程500的示意图。

过程500(也被称为第二阶段)的主要原理是，让语音翻译模型410接收两种类型的数据，一种类型的语音翻译数据对。语音翻译数据对可以由一段源语言的音频和对应的目标语言的文本构成。另一种类型的数据为机器翻译数据对。机器翻译数据对由一段源语言的文本和对应的目标语言的文本构成。在微调的第一阶段，输入的数据只有语音翻译数据对。在微调的第二阶段，输入的数据同时包括语音翻译数据对和机器翻译数据对。两种数据对均通过语音翻译模型410，模型在翻译解码器412的输出部分采用Jensen–Shannon散度正则化这两部分的输出，使得语音翻译模型410不会过拟合，即不会学习到误差的特征。其中翻译解码器412包括语音翻译的解码器和文本翻译的解码器。

在过程500中，将以音频S4作为示例来描述微调语音翻译模型410的过程，但是过程500可以包括利用更多的音频来微调语音翻译模型410。音频S4：That’s my wish经由声学编码器404转换为词向量矩阵，并且输入语音翻译模型410。与英语音频S4对应的英语文本X4被编码为词嵌入502。词嵌入502也是向量，可以利用热独(one-hot)编码得到，词嵌入502被输入语音翻译模型410。

另一方面，微调时可以准备好与英语音频S4相对应的德语文本Y4：Das ist meinWunsch，作为正确的翻译结果。语音翻译模型410可以基于Y4和预测结果，计算与音频S4相关联的损失函数508(又被称为第四损失函数)。语音翻译模型410可以基于Y4和预测结果，计算与文本X4相关联的损失函数510(又被称为第五损失函数)。语音翻译模型410还可以计算与Y4和X4相关联的损失函数512(又被称为第六损失函数)。

计算第四损失函数，第五损失函数和第六损失函数的和，微调语音翻译模型410的参数，使得第四损失函数，第五损失函数和第六损失函数的和最小化。将此时的参数确定为微调后的语音翻译模型410的参数。

作为示例，可以利用公式(2)和(3)计算第二阶段的第四损失函数和第五损失函数，并且利用公式(6)计算第六损失函数：

pθ(yi|y<i,h(x))

其中，h()表示翻译编码器输出的内容表示；pθ(yi|y<i,h(s))表示语音翻译的解码器输出的概率分布；pθ(yi|y<i,h(x))表示文本翻译的解码器输出的概率分布。

作为示例，可以微调阶段的总体损失函数可以表示为：

L2(s,y)＝L_CE(s,y)+L_CE(x,y)+L_JSD(s,x,y) (7)

通过上述过程完成语音翻译模型的微调过程。用于微调的过程500增强了从机器翻译到语音翻译的知识转换。因此进一步提高模型的泛化能力，增强了模型的鲁棒性。并且，这样的数据扩增可以在线进行，无需提前进行准备。不需要在训练前提前进行数据增强，从而节省存储空间。

在一些实施例中，可以利用训练好的语音翻译模型来执行语音翻译任务。例如，接收源语言的一段音频，基于语音翻译模型来生成对应的目标语言的文本。

图6示出了根据本公开的一些实施例的语音翻译模型的实例架构600的示意图。如图6所示，语音翻译模型410中的翻译编码器414包括多个层。仅作为示例，翻译编码器414具有六层，例如编码器层611、编码器层612、编码器层613、编码器层614、编码器层615、编码器层616，以充分提取词向量602的语义信息并且将其编码信息矩阵。

在一个实施例中，单独的一个编码器层(例如，编码器层611)可以包括两个子层，一层是多头注意力层，利用注意力机制学习源文本内部的关系。另一层是前馈层，例如全连接网络，通过多层的线性变换和激活函数(例如，ReLU函数)来生成和输出编码信息矩阵。

解码阶段的语音翻译模型410中的翻译解码器412可以包括多个层，例如包括六个解码器层，例如解码器层621、解码器层622、解码器层623、解码器层624、解码器层625、解码器层626。每个解码器层都可以基于编码信息矩阵和上一个解码器层的输出进行解码，以预测下一字词的概率。基于针对每个位置上的每个字词的概率，可以选择出每个位置上具有最大概率的字词的组合作为输出的目标语言的目标文本604。

因为此时的语音翻译模型410是基于多层级扩增数据和微调得到的，因此对源语言的语音至目标语言的文本进行翻译时，能够实现更加准确的翻译效果。虽然图6示出了六个编码器和/或解码器层，本公开的实施例可以具有更少或更多的编码器层和/或解码器层。

图7示出了根据本公开的某些实施例的用于语音翻译的装置700的框图。如图7所示，装置700包括语音获取模块，被配置为获取源语言的多个音频。装置700还包括多层级扩增模块，被配置为通过对多个音频的多层级扩增，生成混合语音特征，其中多层级包括词层级、句层级、或者帧层级中的至少二者。装置700还包括文本生成模块，被配置为基于混合语音特征，生成与多个音频相对应的目标语言文本。装置700还可以包括其他模块，实现根据本公开的实施例的方法200的步骤，为了简洁，在此不再赘述。

可以理解，通过本公开的装置700，可以实现如上文描述的方法或过程所能够实现的诸多优点中的至少一个。例如，能够在不同的维度对原始的训练数据进行扩增，使得扩增后的训练数据包括不同程度的语义或音色的混合，从而使得语音翻译模型学习到更多的隐藏特征，因此能够更充份地利用有限的训练数据，提高翻译准确率。通过语音翻译模型的泛化能力，增强模型的鲁棒性。并且，这种数据扩增的方法可以在线进行，无需提前进行准备。不需要在训练前提前进行数据增强，从而节省存储空间。

根据本公开的一些实施例的语音翻译效果可以参考表1。表1示出了实验结果，以双语评估替换分数(BLEU)得分示出。BLEU得分的总体思想就是准确率，假如给定标准译文作为参考，神经网络生成的句子是候选，句子长度为n，候选中有m个单词出现在参考中，m/n可以是BLEU的一元的计算公式。

表1 BLEU得分的比较

本公开的实施例	德语	英语	8种语言的平均
				无机器翻译数据	26.4	31.0	28.6
有机器翻译数据	29.3	32.4	29.9

表2示出了基线的实验结果。现有的基线可以以多种模型的BLEU得分的平均为参考，例如W2V2-Transformer模型等等。为了简洁，表2仅示出了其中一种实验结果。

表2基线的BLEU得分(以W2V2-Transformer模型为示例)

W2V2-Transformer模型	德语	英语	8种语言的平均
				无机器翻译数据	24.3	29.6	26.7
有机器翻译数据	27.2	30.2	27.8

由表1至表2可以看出，本公开提出的语音翻译模型的翻译效果比基线水平高，表明本公开的方案能够更充分地利用有限的数据，训练出效果更好的语音翻译模型，从而提供更高的翻译准确率。

图8示出了根据本公开的某些实施例的电子设备800的框图，设备800可以是本公开的实施例所描述的设备或装置。如图8所示，设备800包括中央处理单元(CPU)和/或图形处理单元(GPU)801，其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM 803中，还可以存储设备800操作所需的各种程序和数据。CPU/GPU 801、ROM802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。虽然未在图8中示出，设备800还可以包括协处理器。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如互联网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个方法或过程可以由CPU/GPU 801来执行。例如，在一些实施例中，方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序被加载到RAM 803并由CPU/GPU 801执行时，可以执行上文描述的方法或过程中的一个或多个步骤或动作。

在一些实施例中，以上所描述的方法和过程可以被实现为计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如互联网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言，以及常规的过程式编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用互联网服务提供商来通过互联网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这取决于所涉及的功能。也要注意的是，框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进，或者使得本技术领域的其它普通技术人员能理解本文公开的各实施例。

以下列出了本公开的一些示例实现。

示例1.一种语音翻译方法，包括：

获取源语言的多个音频；

通过对所述多个音频的多层级扩增，生成混合语音特征，所述多层级包括词层级、句层级、或者帧层级中的至少二者；以及

基于所述混合语音特征，生成与所述多个音频相对应的目标语言文本。

示例2.根据示例1所述的方法，其中所述多个音频包括第一音频和第二音频，并且通过对所述多个音频的多层级扩增，生成混合语音特征包括：

将与所述第一音频对应的第一文本中的至少一个名词替换为所述至少一个名词的近义词；以及

基于所述第一音频和所述近义词的音频，生成第一词层级扩增音频。

示例3.根据示例1-2中任一项所述的方法，其中通过对所述多个音频的多层级扩增，生成混合语音特征还包括：

生成所述第二音频的第二词层级扩增音频；以及

通过将所述第一词层级扩增音频与所述第二词层级扩增音频进行拼接，来生成第一句层级扩增音频，其中所述第一音频具有与所述第二音频不同的音色。

示例4.根据示例1-3中任一项所述的方法，其中所述多个音频还包括第三音频和第四音频，并且通过对所述多个音频的多层级扩增，生成混合语音特征还包括：

生成所述第三音频和所述第四音频的第二句层级扩增音频；以及

基于预定的权重，对所述第一句层级扩增音频和所述第二句层级扩增音频的语音特征进行加权，以生成帧层级的所述混合语音特征。

示例5.根据示例1-4中任一项所述的方法，其中通过对所述多个音频的多层级扩增，生成混合语音特征还包括：

确定与所述第一句层级扩增音频相关联的第一损失函数；

确定与所述第二句层级扩增音频相关联的第二损失函数；

基于所述预定的权重，将所述第一损失函数和所述第二损失函数进行加权，以获得第三损失函数；以及

使用所述第一损失函数、所述第二损失函数和所述第三损失函数来训练语音翻译模型。

示例6.根据示例1-5中任一项所述的方法，还包括：

基于多层级扩增的训练数据和损失函数，训练语音翻译模型；以及

对经训练的所述语音翻译模型进行微调，以获取经微调的语音翻译模型。

示例7.根据示例1-6中任一项所述的方法，其中所述训练数据包括：

所述多个音频；以及

与句层级扩增音频对应的标注文本。

示例8.根据示例1-7中任一项所述的方法，其中对所述经训练的所述语音翻译模型进行微调，以获取经微调的语音翻译模型包括：

获取语音翻译数据集，所述语音翻译数据集包括所述源语言的多个音频和对应的所述目标语言的多个文本；

获取机器翻译数据集，所述机器翻译数据集包括所述源语言的多个文本和对应的所述目标语言的多个文本；以及

基于所述语音翻译数据集和所述机器翻译数据集来微调所述语音翻译模型。

示例9.根据示例1-8中任一项所述的方法，其中基于所述语音翻译数据集和所述机器翻译数据集来微调所述语音翻译模型包括：

确定语音翻译任务的第四损失函数；

确定机器翻译任务的第五损失函数；

确定与所述语音翻译任务和所述机器翻译任务二者相关联的第六损失函数；以及

基于所述第四损失函数，所述第五损失函数和所述第六损失函数，调整所述语音翻译模型的参数，使得所述第四损失函数，所述第五损失函数和所述第六损失函数的组合值最小。

示例10.根据示例1-9中任一项所述的方法，还包括：

获取所述源语言的目标音频；以及

使用所述语音翻译模型，将所述目标音频翻译为所述目标语言的目标文本。

示例11.根据示例1-10中任一项所述的方法，其中基于所述混合语音特征，生成与所述多个音频相对应的目标语言文本包括：

确定所述目标语言文本中每个位置上的多个词的多个概率；以及

将每个位置上的具有最大概率的词选择为所述目标语言文本中的相应词。

示例12.根据示例1-11中任一项所述的方法，还包括：

基于所述混合语音特征，确定音频的掩码区域；

基于所述掩码区域，确定音频的隐藏单元；以及

基于所述隐藏单元，生成音频的词向量。

示例13.根据示例1-12中任一项所述的方法，还包括：

利用卷积神经网络将所述词向量的维度缩小至目标维度。

示例14.一种用于语音翻译的装置，包括：

语音获取模块，被配置为获取源语言的多个音频；

多层级扩增模块，被配置为通过对所述多个音频的多层级扩增，生成混合语音特征，所述多层级包括词层级、句层级、或者帧层级中的至少二者；以及

文本生成模块，被配置为基于所述混合语音特征，生成与所述多个音频相对应的目标语言文本。

示例15.根据示例14所述的装置，其中所述多层级扩增模块包括：

第一替换模块，被配置为将与所述第一音频对应的第一文本中的至少一个名词替换为所述至少一个名词的近义词；以及

词层级扩增模块，被配置为基于所述第一音频和所述近义词的音频，生成第一词层级扩增音频。

示例16.根据示例14-15中任一项所述的装置，其中所述多层级扩增模块还包括：

第二扩增模块，被配置为生成所述第二音频的第二词层级扩增音频；以及

第一句层级扩增模块，被配置为通过将所述第一词层级扩增音频与所述第二词层级扩增音频进行拼接，来生成第一句层级扩增音频，其中所述第一音频具有与所述第二音频不同的音色。

示例17.根据示例14-16中任一项所述的装置，其中所述多层级扩增模块还包括：

第二句层级扩增模块，被配置为生成所述第三音频和所述第四音频的第二句层级扩增音频；以及

第一加权模块，被配置为基于预定的权重，对所述第一句层级扩增音频和所述第二句层级扩增音频的语音特征进行加权，以生成帧层级的所述混合语音特征。

示例18.根据示例14-17中任一项所述的装置，其中所述多层级扩增模块还包括：

第一损失函数确定模块，被配置为确定与所述第一句层级扩增音频相关联的第一损失函数；

第二损失函数确定模块，被配置为确定与所述第二句层级扩增音频相关联的第二损失函数；

第三损失函数确定模块，被配置为基于所述预定的权重，将所述第一损失函数和所述第二损失函数进行加权，以获得第三损失函数；以及

第一训练模块，被配置为使用所述第一损失函数、所述第二损失函数和所述第三损失函数来训练语音翻译模型。

示例19.根据示例14-18中任一项所述的装置，还包括：

语音翻译模型训练模块，被配置为基于多层级扩增的训练数据和损失函数，训练语音翻译模型；以及

微调模块，被配置为对经训练的所述语音翻译模型进行微调，以获取经微调的语音翻译模型。

示例20.根据示例14-19中任一项所述的装置，所述训练数据包括：

所述多个音频；以及

与句层级扩增音频对应的标注文本。

示例21.根据示例14-20中任一项所述的装置，其中所述微调模块包括：

语音翻译数据集获取模块，被配置为获取语音翻译数据集，所述语音翻译数据集包括所述源语言的多个音频和对应的所述目标语言的多个文本；

机器翻译数据集获取模块，被配置为获取机器翻译数据集，所述机器翻译数据集包括所述源语言的多个文本和对应的所述目标语言的多个文本；以及

第二微调模块，被配置为基于所述语音翻译数据集和所述机器翻译数据集来微调所述语音翻译模型。

示例22.根据示例14-21中任一项所述的装置，其中第二微调模块包括：

第四损失函数确定模块，被配置为确定语音翻译任务的第四损失函数；

第五损失函数确定模块，被配置为确定机器翻译任务的第五损失函数；

第六损失函数确定模块，被配置为确定与所述语音翻译任务和所述机器翻译任务二者相关联的第六损失函数；以及

最小化模块，被配置为基于所述第四损失函数，所述第五损失函数和所述第六损失函数，调整所述语音翻译模型的参数，使得所述第四损失函数，所述第五损失函数和所述第六损失函数的组合值最小。

示例23.根据示例14-22中任一项所述的装置，还被配置为：

第二语音获取模块，被配置为获取所述源语言的目标音频；以及

语音翻译模块，被配置为使用所述语音翻译模型，将所述目标音频翻译为所述目标语言的目标文本。

示例24.根据示例14-23中任一项所述的装置，其中所述文本生成模块还包括：

概率确定模块，被配置为确定所述目标语言文本中每个位置上的多个词的多个概率；以及

选择模块，被配置为将每个位置上的具有最大概率的词选择为所述目标语言文本中的相应词。

示例25.根据示例14-24中任一项所述的装置，还包括：

掩码确定模块，被配置为基于所述混合语音特征，确定音频的掩码区域；

隐藏单元确定模块，被配置为基于所述掩码区域，确定音频的隐藏单元；以及

词向量生成模块，被配置为基于所述隐藏单元，生成音频的词向量。

示例26.根据示例14-25中任一项所述的装置，还包括：

卷积神经网络模块，被配置为利用卷积神经网络将所述词向量的维度缩小至目标维度。

示例27.一种电子设备，包括：

处理器；以及

与所述处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被处理器执行时使所述设备执行动作，所述动作包括：

获取源语言的多个音频；

示例28.根据示例27所述的电子设备，其中所述多个音频包括第一音频和第二音频，并且通过对所述多个音频的多层级扩增，生成混合语音特征包括：

示例29.根据示例27-28中任一项所述的电子设备，其中通过对所述多个音频的多层级扩增，生成混合语音特征还包括：

生成所述第二音频的第二词层级扩增音频；以及

示例30.根据示例27-29中任一项所述的电子设备，其中所述多个音频还包括第三音频和第四音频，并且通过对所述多个音频的多层级扩增，生成混合语音特征还包括：

示例31.根据示例27-30中任一项所述的电子设备，其中通过对所述多个音频的多层级扩增，生成混合语音特征还包括：

确定与所述第一句层级扩增音频相关联的第一损失函数；

确定与所述第二句层级扩增音频相关联的第二损失函数；

示例32.根据示例27-31中任一项所述的电子设备，所述动作还包括：

示例33.根据示例27-32中任一项所述的电子设备，其中所述训练数据包括：

所述多个音频；以及

与句层级扩增音频对应的标注文本。

示例34.根据示例27-33中任一项所述的电子设备，其中对所述经训练的所述语音翻译模型进行微调，以获取经微调的语音翻译模型包括：

示例35.根据示例27-34中任一项所述的电子设备，其中基于所述语音翻译数据集和所述机器翻译数据集来微调所述语音翻译模型包括：

确定语音翻译任务的第四损失函数；

确定机器翻译任务的第五损失函数；

示例36.根据示例27-35中任一项所述的电子设备，所述动作还包括：

获取所述源语言的目标音频；以及

示例37.根据示例27-36中任一项所述的电子设备，其中基于所述混合语音特征，生成与所述多个音频相对应的目标语言文本包括：

示例38.根据示例27-37中任一项所述的电子设备，所述动作还包括：

基于所述混合语音特征，确定音频的掩码区域；

基于所述掩码区域，确定音频的隐藏单元；以及

基于所述隐藏单元，生成音频的词向量。

示例39.根据示例27-38中任一项所述的电子设备，所述动作还包括：

利用卷积神经网络将所述词向量的维度缩小至目标维度

示例40.一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中所述一条或多条计算机指令被处理器执行以实现根据示例1至13中任一项所述的方法。

示例41.一种计算机程序产品，所述计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可执行指令，所述计算机可执行指令在由设备执行时使所述设备执行根据示例1至13中任一项所述的方法。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种语音翻译的方法，包括：

获取源语言的多个音频；

2.根据权利要求1所述的方法，其中所述多个音频包括第一音频和第二音频，并且通过对所述多个音频的多层级扩增，生成混合语音特征包括：

3.根据权利要求2所述的方法，其中通过对所述多个音频的多层级扩增，生成混合语音特征还包括：

生成所述第二音频的第二词层级扩增音频；以及

4.根据权利要求3所述的方法，其中所述多个音频还包括第三音频和第四音频，并且通过对所述多个音频的多层级扩增，生成混合语音特征还包括：

5.根据权利要求4中所述的方法，其中通过对所述多个音频的多层级扩增，生成混合语音特征还包括：

确定与所述第一句层级扩增音频相关联的第一损失函数；

确定与所述第二句层级扩增音频相关联的第二损失函数；

6.根据权利要求1中所述的方法，还包括：

对经训练的所述语音翻译模型进行微调，以获取经微调的所述语音翻译模型。

7.根据权利要求6中所述的方法，其中所述训练数据包括：

所述多个音频；以及

与句层级扩增音频相对应的标注文本。

8.根据权利要求6中所述的方法，其中对所述经训练的所述语音翻译模型进行微调，以获取经微调的语音翻译模型包括：

9.根据权利要求8中所述的方法，其中基于所述语音翻译数据集和所述机器翻译数据集来微调所述语音翻译模型包括：

确定语音翻译任务的第四损失函数；

确定机器翻译任务的第五损失函数；

10.根据权利要求9所述的方法，还包括：

获取所述源语言的目标音频；以及

11.根据权利要求1所述的方法，其中基于所述混合语音特征，生成与所述多个音频相对应的目标语言文本包括：

12.根据权利要求1所述的方法，还包括：

基于所述混合语音特征，确定音频的掩码区域；

基于所述掩码区域，确定音频的隐藏单元；以及

基于所述隐藏单元，生成音频的词向量。

13.根据权利要求12所述的方法，还包括：

利用卷积神经网络将所述词向量的维度缩小至目标维度。

14.一种用于语音翻译的装置，包括：

语音获取模块，被配置为获取源语言的多个音频；

15.一种电子设备，包括：

处理器；以及

与所述处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被处理器执行时，使得所述电子设备执行根据权利要求1至13中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机可执行指令，其中所述计算机可执行指令被处理器执行以实现根据权利要求1至13中任一项所述的方法。