CN114048758A

CN114048758A - 训练方法、语音翻译方法、设备和计算机可读介质

Info

Publication number: CN114048758A
Application number: CN202111328003.4A
Authority: CN
Inventors: 叶蓉; 房庆凯; 王明轩; 冯洋
Original assignee: Institute of Computing Technology of CAS; Beijing Youzhuju Network Technology Co Ltd
Current assignee: Institute of Computing Technology of CAS; Beijing Youzhuju Network Technology Co Ltd
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-02-15
Also published as: WO2023082916A1

Abstract

本公开提供了一种用于语音翻译模型的训练方法、语音翻译方法、设备和计算机可读介质。训练方法包括：获得与源语音数据对应的源语音表示序列和与该源语音数据对应的源文本表示序列；根据源语音表示序列和源文本表示序列，获得混合序列；利用语音翻译模型对源语音表示序列进行处理以输出第一目标文本的第一概率分布，并利用语音翻译模型对混合序列进行处理以输出第二目标文本的第二概率分布；根据第一概率分布和第二概率分布，计算总损失函数；和根据总损失函数训练语音翻译模型。

Description

训练方法、语音翻译方法、设备和计算机可读介质

技术领域

本公开涉及语音翻译技术领域，特别涉及一种用于语音翻译模型的训练方法、语音翻译方法、设备和计算机可读介质。

背景技术

语音翻译(Speech Translation，简称为ST)旨在将源语言下的语音翻译成目标语言下的文本，在跨国会议、视频字幕等场景中有着广泛的应用。相关技术中的语音翻译系统通常采用级联的方式，首先利用自动语音识别(Automatic Speech Recognition，简称为ASR)技术将语音信号转换为源语言下的转写文字(transcription)，再利用机器翻译(Machine Translation，简称为MT)技术将源语言下的转写文字翻译成目标语言下的译文(translation)。然而，级联方式通常存在错误传递和高延迟的缺点。错误传递是指语音识别的错误会传递给机器翻译系统，可能会导致错误的译文产生。高延迟是由于从源语言语音到目标语言文本需要先后经过ASR和MT两个模型，一定程度上增加了语音翻译系统的延时。

近年来，研究者们提出端到端语音翻译(End-to-end Speech Translation)来解决上述两个问题。端到端语音翻译旨在使用一个模型完成从源语言语音到目标语言文本的转换。与文本翻译相比，语音翻译任务更加复杂，但数据规模通常较小。在相关技术中，可以利用知识蒸馏等技术来提升语音翻译模型的性能。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

根据本公开的一些实施例，提供了一种用于语音翻译模型的训练方法，包括：获得与源语音数据对应的源语音表示序列和与所述源语音数据对应的源文本表示序列；根据所述源语音表示序列和所述源文本表示序列，获得混合序列；利用所述语音翻译模型对所述源语音表示序列进行处理以输出第一目标文本的第一概率分布，并利用所述语音翻译模型对所述混合序列进行处理以输出第二目标文本的第二概率分布；根据所述第一概率分布和所述第二概率分布，计算总损失函数；和根据所述总损失函数训练所述语音翻译模型。

根据本公开的另一些实施例，提供了一种语音翻译方法，包括：采集源语音数据；和将所述源语音数据输入到语音翻译模型以输出目标文本，其中，所述语音翻译模型通过本公开中所述的任一实施例的训练方法进行训练。

根据本公开的另一些实施例，提供了一种用于语音翻译模型的训练装置，包括：第一获取单元，用于获得与源语音数据对应的源语音表示序列和与所述源语音数据对应的源文本表示序列；第二获取单元，用于根据所述源语音表示序列和所述源文本表示序列获得混合序列；处理单元，用于利用所述语音翻译模型对所述源语音表示序列进行处理以输出第一目标文本的第一概率分布，并利用所述语音翻译模型对所述混合序列进行处理以输出第二目标文本的第二概率分布；计算单元，用于根据所述第一概率分布和所述第二概率分布计算总损失函数；和训练单元，用于根据所述总损失函数训练所述语音翻译模型。

根据本公开的另一些实施例，提供了一种语音翻译装置，包括：采集模块，用于采集源语音数据；和输入模块，用于将所述源语音数据输入到语音翻译模型以输出目标文本，其中，所述语音翻译模型通过本公开中所述的任一实施例的训练方法进行训练。

根据本公开的另一些实施例，提供了一种电子设备，包括：存储器；和耦接至所述存储器的处理器，所述存储器中存储有指令，所述指令当由所述处理器执行时，使得所述电子设备执行本公开中所述的任一实施例的方法。

根据本公开的另一些实施例，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序由处理器执行时实现本公开中所述的任一实施例的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征、方面及其优点将会变得清楚。

附图说明

下面参照附图说明本公开的优选实施例。此处所说明的附图用来提供对本公开的进一步理解，各附图连同下面的具体描述一起包含在本说明书中并形成说明书的一部分，用于解释本公开。应当理解的是，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开构成限制。在附图中：

图1是示出根据本公开一些实施例的用于语音翻译模型的训练方法的流程图；

图2是示出根据本公开一些实施例的用于语音翻译模型的训练方法的示意图；

图3是示出根据本公开一些实施例的语音翻译方法的流程图；

图4是示出根据本公开一些实施例的用于语音翻译模型的训练装置的结构框图；

图5是示出根据本公开一些实施例的语音翻译装置的结构框图；

图6示出根据本公开一些实施例的电子设备的框图；

图7是示出根据本公开一些实施例中可采用的计算机系统的示例结构的框图。

应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不一定是按照实际的比例关系绘制的。在各附图中使用了相同或相似的附图标记来表示相同或者相似的部件。因此，一旦某一项在一个附图中被定义，则在随后的附图中可能不再对其进行进一步讨论。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，但是显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对实施例的描述实际上也仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值应被解释为仅仅是示例性的，不限制本公开的范围。

本公开中使用的术语“包括”及其变型意指至少包括后面的元件/特征、但不排除其他元件/特征的开放性术语，即“包括但不限于”。此外，本公开使用的术语“包含”及其变型意指至少包含后面的元件/特征、但不排除其他元件/特征的开放性术语，即“包含但不限于”。因此，包括与包含是同义的。术语“基于”意指“至少部分地基于”。

整个说明书中所称“一个实施例”、“一些实施例”或“实施例”意味着与实施例结合描述的特定的特征、结构或特性被包括在本发明的至少一个实施例中。例如，术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。而且，短语“在一个实施例中”、“在一些实施例中”或“在实施例中”在整个说明书中各个地方的出现不一定全都指的是同一个实施例，但是也可以指同一个实施例。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。除非另有指定，否则“第一”、“第二”等概念并非意图暗示如此描述的对象必须按时间上、空间上、排名上的给定顺序或任何其他方式的给定顺序。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面结合附图对本公开的实施例进行详细说明，但是本公开并不限于这些具体的实施例。下面这些具体实施例可以相互结合，对于相同或者相似的概念或过程可能在某些实施例不再赘述。此外，在一个或多个实施例中，特定的特征、结构或特性可以由本领域的普通技术人员从本公开将清楚的任何合适的方式组合。

本公开的发明人发现，相关技术中的端到端语音翻译模型XSTNet或SATE利用大规模机器翻译数据对模型进行预训练，但当模型接入前置的声学编码器(Acoustic Encoder)后，在迁移到语音翻译的过程中通常出现性能的下降。这是由于声学编码器编码得到的声学表示(Acoustic Representation)和文本的嵌入表示(Text Embedding)存在模态间的不一致，导致在文本翻译上性能较好的Transformer编码器解码器在处理语音序列时较为困难。

鉴于此，本公开的实施例提供了一种用于语音翻译模型的训练方法，以提升语音翻译效果。

图1是示出根据本公开一些实施例的用于语音翻译模型的训练方法的流程图。图2是示出根据本公开一些实施例的用于语音翻译模型的训练方法的示意图。下面结合图1和图2详细描述根据本公开一些实施例的用于语音翻译模型的训练方法。

如图1所示，在步骤S102，获得与源语音数据对应的源语音表示序列和与该源语音数据对应的源文本表示序列。

这里，源语音表示序列包括源语音数据中的每个单词对应的语音向量；源文本表示序列包括源语音数据中的每个单词对应的文本向量。

例如，如图2所示，语音翻译模型可以包括声学编码器(Acoustic Encoder)、翻译编码器(Translation Encoder)和翻译解码器(Translation Decoder)等。例如，声学编码器为预训练的wav2vec 2.0模型，翻译编码器和翻译解码器为Transformer模型。翻译编码器既可以接受语音的声学表示序列s作为输入，又可以接收转写文字的嵌入表示序列x作为输入。

另一些实施例中，如图2所示，该语音翻译模型还可以包括特征提取层和嵌入层。例如，该特征提取层可以包括CNN(Convolutional Neural Networks，卷积神经网络)。

下面以该语音翻译模型将英文语音翻译成中文文本为例，对该步骤S102进行描述。

例如，如图2所示，源语音数据为“I like sandwich”。声学编码器将该源语音数据进行编码，获得对应的向量，然后，特征提取层经过对向量进行特征提取操作得到对应的源语音表示序列。该源语音表示序列包括单词“I”、“like”、“sandwich”分别对应的语音向量。例如，在图2中，白色圆圈表示单词“I”的语音向量，点状填充的圆圈表示单词“like”的语音向量，黑色圆圈表示单词“sandwich”的语音向量。这样，根据源语音数据获得了源语音表示序列。

再者，将与源语音数据对应的源文本数据“I like sand_wich”经过嵌入层等处理，可以获得对应的源文本表示序列。源文本表示序列包括单词“I”、“like”、“sand_wich”分别对应的文本向量。例如，在图2中，白色方块表示单词“I”的文本向量，点状填充的方块表示单词“like”的文本向量，黑色方块表示单词“sand_wich”的文本向量。这样，根据源语音数据获得了源文本表示序列。

回到图1，在步骤S104，根据源语音表示序列和源文本表示序列，获得混合序列(也可以称为跨模态混合序列)。

在一些实施例中，该步骤S104包括：从对应于源语音数据中的每个单词的语音向量和文本向量中选择一种向量作为混合序列中的对应于该每个单词的向量；和将选择出的所有向量组成混合序列。例如，从对应于源语音数据中的每个单词的语音向量和文本向量中随机选择一种向量作为混合序列中的对应于该每个单词的向量。

例如，在前面的示例中，源语音表示序列包括单词“I”、“like”、“sandwich”分别对应的语音向量，源文本表示序列包括单词“I”、“like”、“sand_wich”分别对应的文本向量。可以通过随机选取的方式分别选择单词“I”、“like”、“sandwich”对应的向量。例如，如图2所示，可以随机选择单词“I”的文本向量、单词“like”的语音向量和单词“sandwich”的文本向量组成了混合序列。

需要说明的是，每个单词的语音向量可以是一组向量，每个单词的文本向量也可以是一组向量，因此，在从某个单词的语音向量和文本向量中选择一种向量时实际上选择出的是该单词的一组语音向量或一组文本向量。

在一些实施例中，从对应于源语音数据中的每个单词的语音向量和文本向量中随机选择一种向量的步骤包括：对源语音数据中的每个单词生成随机数；以及对随机数与预先设置的阈值进行比较以选择得到对应于所述每个单词的向量。

在一些实施例中，对随机数与预先设置的阈值进行比较以选择出对应于所述每个单词的向量的步骤包括：在某个单词的随机数小于或等于阈值的情况下，选择该某个单词的语音向量作为混合序列中的对应于该某个单词的向量；或者在某个单词的随机数大于阈值的情况下，选择该某个单词的文本向量作为混合序列中的对应于该某个单词的向量。

在一些实施例中，阈值p的范围为0<p<1。另外，这里对每个单词生成的随机数m的范围为0<m<1。

例如，如图2所示，可以预先设置阈值p为0.6。对单词“I”、“like”、“sandwich”分别生成随机数，例如，单词“I”的随机数m₁为0.7，单词“like”的随机数m₂为0.4，单词“sandwich”的随机数m₃为0.8。由于m₁>0.6，因此选择单词“I”的文本向量(由图2中的白色方块表示)作为混合序列中的单词“I”的向量；由于m₂<0.6，因此选择单词“like”的语音向量(由图2中的点状填充的圆圈表示)作为混合序列中的单词“like”的向量；由于m₃>0.6，因此选择单词“sandwich”的文本向量(由图2中的黑色方块表示)作为混合序列中的单词“sandwich”的向量。这样，经过混合(Mixup)操作，组成了混合序列mixup((s,x),p)，如图2所示。这里，s表示源语言下的语音序列，x表示源语言下的文本序列。

在上面的实施例中，将成对的<语音表示序列、文本表示序列>按照预先设置的阈值(或者称为概率阈值)进行单词级别的混合，将混合后的序列作为翻译编码器的输入。例如，对二元组<s，x>做单词级别的强制对齐，每个单词对应语音表示序列中的向量s_i，并且对应文本表示序列中的向量x_i。按照预先设置的阈值p，每个单词随机选择对应的语音表示序列s_i或文本表示序列x_i，拼接后的序列即为混合序列，记为mixup(<s,x>,p)。

回到图1，在步骤S106，利用语音翻译模型对源语音表示序列进行处理以输出第一目标文本的第一概率分布，并利用语音翻译模型对混合序列进行处理以输出第二目标文本的第二概率分布。

例如，如图2所示，利用翻译编码器和翻译解码器等对源语音表示序列进行处理以输出第一目标文本的第一概率分布P(y|s)，并利用语音翻译模型对混合序列进行处理以输出第二目标文本的第二概率分布P(y|mixup((s,x),p))，其中，y为目标语言下的文本序列。这里，语音翻译模型中的翻译编码器和翻译解码器等采用已知的算法对输入的序列进行处理，这里不再详细描述。

为了区分第一概率分布和第二概率分布，可以将第一概率分布记为P₁(y₁|s)，将第二概率分布记为P₂(y₂|mixup((s,x),p))，其中，y₁为目标语言下的第一目标文本的文本序列，y₂为该目标语言下的第二目标文本的文本序列。P₁(y₁|s)表示输入为语音序列s时，模型预测产生译文y₁的概率分布，P₂(y₂|mixup((s,x),p))表示输入为混合序列时，模型预测产生译文y₂的概率分布。

回到图1，在步骤S108，根据第一概率分布和第二概率分布，计算总损失函数。

在一些实施例中，步骤S108包括：根据第一概率分布和第二概率分布计算第一损失函数；根据第一概率分布和第二概率分布计算KL散度值(Kullback-Leible散度，库尔贝克-莱布勒散度，也可以称为相对熵)；根据KL散度值计算第二损失函数；以及根据第一损失函数和第二损失函数，计算总损失函数。

在一些实施例中，第一损失函数为对应于第一概率分布的损失函数与对应于第二概率分布的损失函数的加权和。

例如，对应于第一概率分布的损失函数和对应于第二概率分布的损失函数均采用已知的负对数似然损失函数(Negative log-likelihood，简称为NLL)，即损失函数NLL()，则对应于第一概率分布的损失函数为NLL(P₁(y₁|s))，对应于第二概率分布的损失函数为NLL(P₂(y₂|mixup((s,x),p)))。这里，NLL(P₁(y₁|s))表示语音翻译模型对第一概率分布P₁(y₁|s)计算负对数似然损失函数，NLL(P₂(y₂|mixup((s,x),p)))表示语音翻译模型对第二概率分布P₂(y₂|mixup((s,x),p))计算负对数似然损失函数。需要说明的是，负对数似然损失函数NLL()为本领域技术人员已知的损失函数，这里不再详细描述。

计算第一损失函数

为

这里，

为衡量第一概率分布P₁(y₁|s)和第二概率分布P₂(y₂|mixup((s,x),p))与译文的真实概率分布之间距离的损失函数，α为与损失函数NLL(P₁(y₁|s))对应的权重系数，β为与损失函数NLL(P₂(y₂|mixup((s,x),p)))对应的权重系数。该α和β为已知的系数，可以根据实际需要来确定。例如，α>0，且β>0。

例如，在α和β均为1的情况下，上述关系式(1)简化为

KL散度值D_KL可以衡量两个概率分布之间的距离。

在一些实施例中，KL散度值包括：前向KL散度值和后向KL散度值。例如，对于第一概率分布P₁(y₁|s)和第二概率分布P₂(y₂|mixup((s,x),p))，可以计算得到前向KL散度值D_KL(P₁||P₂)和后向KL散度值D_KL(P₂||P₁)。

在一些实施例中，第二损失函数为前向KL散度值和后向KL散度值的平均值。即，第二损失函数

为

为衡量第一概率分布P₁(y₁|s)和第二概率分布P₂(y₂|mixup((s,x),p))之间距离的损失函数。

总损失函数

可以用于更新模型参数以优化模型。在一些实施例中，总损失函数为第一损失函数与第二损失函数的加权和。即，总损失函数

为

其中，γ为与第一损失函数

对应的权重系数，δ为与第二损失函数

对应的权重系数。该γ和δ为已知的系数，可以根据实际需要来确定。例如，γ>0，且δ≥0。

例如，在γ和δ均为1的情况下，上述关系式(4)简化为

至此，实现了总损失函数的一些实施例的计算方法。

在上面总损失函数的计算过程中，除了计算与两个概率分布分别对应的损失函数，还引进了KL散度值来衡量两个概率分布之间的距离，这样可以更好的拉进两个概率分布的距离，进一步提高语音翻译的性能。利用上述总损失函数在后续优化模型参数的过程中可以更加准确快速的优化参数。

需要说明的是，总损失函数的计算方法并不仅限于上述计算方法。例如，可以将上述第一损失函数作为总损失函数，而不引入上述KL散度值。

在步骤S110，根据总损失函数训练语音翻译模型。

即，根据在步骤S108中计算得到的总损失函数更新语音翻译模型中的参数。

至此，提供了根据本公开一些实施例的用于语音翻译模型的训练方法。该训练方法包括：获得与源语音数据对应的源语音表示序列和与所述源语音数据对应的源文本表示序列；根据源语音表示序列和源文本表示序列，获得混合序列；利用语音翻译模型对源语音表示序列进行处理以输出第一目标文本的第一概率分布，并利用语音翻译模型对所述混合序列进行处理以输出第二目标文本的第二概率分布；根据第一概率分布和所述第二概率分布，计算总损失函数；和根据总损失函数训练语音翻译模型。在该训练方法中，采用多任务学习的方式，除了利用语音表示序列对模型进行训练，还利用混合序列对模型进行训练。由于混合模型中含有语音向量成分和文本向量成分，这可以隐式地拉近语音表示与文本表示的距离，从而可以辅助语音序列训练，使得语音序列训练更加简单且准确。利用这样训练方法训练后的语音翻译模型进行语音翻译时，可以提升语音翻译效果。

需要说明的是，虽然前面的示例是以英文语音到中文文本的翻译，但是本公开的模型和方法并不仅限于此，本公开的模型和方法可以适用于任意语言之间的翻译。

还需要说明的是，本公开中所使用的术语“单词”可以并不仅仅被理解成一个字或一个单词。例如，对于英文来说，“单词”可以被理解为一个单词、或者一个单词组合，或者一个短语，等等；对于中文来说，“单词”可以被理解为一个字、或者一个词组，或者一个短语，等等，其他语言也类似。因此，本公开中的“单词”的含义可以根据实际需要来确定。

在一些实施例中，所述训练方法还可以包括：在步骤S102之前，利用机器翻译的平行语料对语音翻译模型进行预训练。

在本公开的一些实施例中，可以首先使用机器翻译的大规模平行语料进行预训练，然后通过微调的方式训练语音翻译模型。在微调阶段，使用多任务学习的方法，同时训练两个任务：第一个任务是常规的语音翻译任务，第二个任务是在输入为跨模态混合序列时的翻译任务。两个任务同时进行训练。

图3是示出根据本公开一些实施例的语音翻译方法的流程图。如图3所示，该语音翻译方法包括步骤S302至S304。

在步骤S302，采集源语音数据。

在步骤S304，将源语音数据输入到语音翻译模型以输出目标文本。这里，该语音翻译模型通过如前所述的训练方法进行训练。

至此，提供了根据本公开一些实施例的语音翻译方法。由于在该方法中，采用了通过如前所述的训练方法进行训练的语音翻译模型对源语音数据进行翻译，因此，可以提升语音翻译效果。

本公开的实施例使用了语音翻译中MuST-C数据集(英-德语向)来测试模型的性能。与其他语音翻译模型的对比见表1。表1采用的是机器翻译中常用的BLEU(BilingualEvaluation Understudy，双语评估替补)指标，可以看到本公开的语音翻译模型在端到端语音翻译上取得了最佳的效果。

表1本公开模型与其他模型在MuST-C En-De数据测试集上的BLEU分数对比

图4是示出根据本公开一些实施例的用于语音翻译模型的训练装置的结构框图。如图4所示，训练装置包括第一获取单元402、第二获取单元404、处理单元406、计算单元408和训练单元410。

第一获取单元402用于获得与源语音数据对应的源语音表示序列和与该源语音数据对应的源文本表示序列。

在一些实施例中，源语音表示序列包括源语音数据中的每个单词对应的语音向量，源文本表示序列包括源语音数据中的每个单词对应的文本向量。

第二获取单元404用于根据源语音表示序列和源文本表示序列获得混合序列。

在一些实施例中，第二获取单元404用于从对应于源语音数据中的每个单词的语音向量和文本向量中选择一种向量作为混合序列中的对应于该每个单词的向量，以及将选择出的所有向量组成混合序列。

例如，第二获取单元404用于从对应于源语音数据中的每个单词的语音向量和文本向量中随机选择一种向量作为混合序列中的对应于该每个单词的向量。

在一些实施例中，第二获取单元404用于对源语音数据中的每个单词生成随机数，以及对随机数与预先设置的阈值进行比较以选择得到对应于每个单词的向量。

例如，第二获取单元404用于在某个单词的随机数小于或等于阈值的情况下，选择该某个单词的语音向量作为混合序列中的对应于该某个单词的向量，或者在某个单词的随机数大于该阈值的情况下，选择该某个单词的文本向量作为混合序列中的对应于该某个单词的向量。

处理单元406用于利用语音翻译模型对源语音表示序列进行处理以输出第一目标文本的第一概率分布，并利用语音翻译模型对混合序列进行处理以输出第二目标文本的第二概率分布。

计算单元408用于根据第一概率分布和第二概率分布计算总损失函数。

在一些实施例中，计算单元408用于根据第一概率分布和第二概率分布计算第一损失函数，根据第一概率分布和第二概率分布计算KL散度值，根据KL散度值计算第二损失函数，以及根据第一损失函数和第二损失函数计算总损失函数。

在一些实施例中，KL散度值包括：前向KL散度值和后向KL散度值。

在一些实施例中，第二损失函数为前向KL散度值和后向KL散度值的平均值。

在一些实施例中，总损失函数为第一损失函数与第二损失函数的加权和。

训练单元410用于根据总损失函数训练语音翻译模型。

至此，描述了根据本公开一些实施例的用于语音翻译模型的训练装置。训练装置包括第一获取单元、第二获取单元、处理单元、计算单元和训练单元。在该训练装置中，采用多任务学习的方式，除了利用语音表示序列对模型进行训练，还利用混合序列对模型进行训练。由于混合模型中含有语音向量成分和文本向量成分，这可以隐式地拉近语音表示与文本表示的距离，从而可以辅助语音序列训练，使得语音序列训练更加简单且准确。利用这样训练装置训练后的语音翻译模型进行语音翻译时，可以提升语音翻译效果。

在一些实施例中，所述训练装置还包括预训练单元，该预训练单元用于利用机器翻译的平行语料对语音翻译模型进行预训练。

图5是示出根据本公开一些实施例的语音翻译装置的结构框图。如图5所示，该语音翻译装置包括采集模块502和输入模块504。

采集模块502用于采集源语音数据。

输入模块504用于将源语音数据输入到语音翻译模型以输出目标文本。该语音翻译模型通过如前所述的训练方法(例如图1所示的训练方法)进行训练。

至此，提供了根据本公开一些实施例的语音翻译装置。由于在该语音翻译装置中，采用了通过如前所述的训练方法进行训练的语音翻译模型对源语音数据进行翻译，因此，可以提升语音翻译效果。

应注意，上述各个单元仅是根据其所实现的具体功能划分的逻辑模块，而不是用于限制具体的实现方式，例如可以以软件、硬件或者软硬件结合的方式来实现。在实际实现时，上述各个单元可被实现为独立的物理实体，或者也可由单个实体(例如，处理器(CPU或DSP等)、集成电路等)来实现。此外，上述各个单元所实现的操作/功能可由处理电路本身来实现。

此外，尽管未示出，该设备也可以包括存储器，其可以存储由设备、设备所包含的各个单元在操作中产生的各种信息、用于操作的程序和数据、将由通信单元发送的数据等。存储器可以是易失性存储器和/或非易失性存储器。例如，存储器可以包括但不限于随机存储存储器(RAM)、动态随机存储存储器(DRAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、闪存存储器。当然，存储器可也位于该设备之外。可选地，尽管未示出，但是该设备也可以包括通信单元，其可用于与其它装置进行通信。在一个示例中，通信单元可以被按照本领域已知的适当方式来实现，例如包括天线阵列和/或射频链路等通信部件，各种类型的接口、通信单元等等。这里将不再详细描述。此外，设备还可以包括未示出的其它部件，诸如射频链路、基带处理单元、网络接口、处理器、控制器等。这里将不再详细描述。

本公开的一些实施例还提供一种电子设备。图6示出根据本公开一些实施例的电子设备的框图。例如，在一些实施例中，电子设备6可以为各种类型的设备，例如可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。例如，电子设备6可以包括显示面板，以用于显示根据本公开的方案中所利用的数据和/或执行结果。例如，显示面板可以为各种形状，例如矩形面板、椭圆形面板或多边形面板等。另外，显示面板不仅可以为平面面板，也可以为曲面面板，甚至球面面板。

如图6所示，该实施例的电子设备6包括：存储器61以及耦接至该存储器61的处理器62。应当注意，图6所示的电子设备6的组件只是示例性的，而非限制性的，根据实际应用需要，该电子设备6还可以具有其他组件。处理器62可以控制电子设备6中的其它组件以执行期望的功能。

在一些实施例中，存储器61用于存储一个或多个计算机可读指令。处理器62用于运行计算机可读指令时，计算机可读指令被处理器62运行时实现根据上述任一实施例所述的方法。关于该方法的各个步骤的具体实现以及相关解释内容可以参见上述的实施例，重复之处在此不作赘述。

例如，处理器62和存储器61之间可以直接或间接地互相通信。例如，处理器62和存储器61可以通过网络进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。处理器62和存储器61之间也可以通过系统总线实现相互通信，本公开对此不作限制。

例如，处理器62可以体现为各种适当的处理器、处理装置等，诸如中央处理器(CPU)、图形处理器(Graphics Processing Unit，GPU)、网络处理器(NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。中央处理元(CPU)可以为X86或ARM架构等。例如，存储器61可以包括各种形式的计算机可读存储介质的任意组合，例如易失性存储器和/或非易失性存储器。存储器61例如可以包括系统存储器，系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。在存储介质中还可以存储各种应用程序和各种数据等。

另外，根据本公开的一些实施例，根据本公开的各种操作/处理在通过软件和/或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的计算机系统，例如图7所示的计算机系统700安装构成该软件的程序，该计算机系统在安装有各种程序时，能够执行各种功能，包括诸如前文所述的功能等等。图7是示出根据本公开一些实施例中可采用的计算机系统的示例结构的框图。

在图7中，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中，也根据需要存储当CPU701执行各种处理等时所需的数据。中央处理单元仅仅是示例性的，其也可以是其它类型的处理器，诸如前文所述的各种处理器。ROM702、RAM 703和存储部分708可以是各种形式的计算机可读存储介质，如下文所述。需要注意的是，虽然图7中分别示出了ROM702、RAM 703和存储部分708，但是它们中的一个或多个可以合并或者位于相同或不同的存储器或存储模块中。

CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件连接到输入/输出接口705：输入部分706，诸如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等；输出部分707，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)，扬声器，振动器等；存储部分708，包括硬盘，磁带等；和通信部分709，包括网络接口卡比如LAN卡、调制解调器等。通信部分709允许经由网络比如因特网执行通信处理。容易理解的是，虽然图7中示出电子设备700中的各个装置或模块是通过总线704来通信的，但它们也可以通过网络或其它方式进行通信，其中，网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。

根据需要，驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上，使得从中读出的计算机程序根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，可以从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。

根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，或者从存储部分708被安装，或者从ROM 702被安装。在该计算机程序被CPU 701执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，在本公开的上下文中，计算机可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。例如，计算机可读存储介质为非瞬时性计算机可读存储介质。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是，但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

在一些实施例中，还提供了一种计算机程序，包括：指令，指令当由处理器执行时使处理器执行上述任一个实施例的方法。例如，指令可以体现为计算机程序代码。

在本公开的实施例中，可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块、部件或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块、部件或单元的名称在某种情况下并不构成对该模块、部件或单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示例性的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在一些实施例中，根据所述第一概率分布和所述第二概率分布计算所述总损失函数的步骤包括：根据所述第一概率分布和所述第二概率分布计算第一损失函数；根据所述第一概率分布和所述第二概率分布计算KL散度值；根据所述KL散度值计算第二损失函数；以及根据所述第一损失函数和所述第二损失函数，计算总损失函数。

在一些实施例中，所述KL散度值包括：前向KL散度值和后向KL散度值。

在一些实施例中，所述第二损失函数为所述前向KL散度值和所述后向KL散度值的平均值。

在一些实施例中，所述总损失函数为所述第一损失函数与所述第二损失函数的加权和。

在一些实施例中，所述第一损失函数为对应于所述第一概率分布的损失函数与对应于所述第二概率分布的损失函数的加权和。

在一些实施例中，所述源语音表示序列包括所述源语音数据中的每个单词对应的语音向量；所述源文本表示序列包括所述源语音数据中的每个单词对应的文本向量。

在一些实施例中，根据所述源语音表示序列和所述源文本表示序列获得所述混合序列的步骤包括：从对应于所述源语音数据中的每个单词的语音向量和文本向量中选择一种向量作为所述混合序列中的对应于该每个单词的向量；和将选择出的所有向量组成所述混合序列。

在一些实施例中，从对应于所述源语音数据中的每个单词的语音向量和文本向量中随机选择一种向量作为所述混合序列中的对应于该每个单词的向量。

在一些实施例中，从对应于所述源语音数据中的每个单词的语音向量和文本向量中随机选择一种向量的步骤包括：对所述源语音数据中的每个单词生成随机数；以及对所述随机数与预先设置的阈值进行比较以选择得到对应于所述每个单词的向量。

在一些实施例中，对所述随机数与预先设置的阈值进行比较以选择出对应于所述每个单词的向量的步骤包括：在某个单词的随机数小于或等于所述阈值的情况下，选择该某个单词的语音向量作为所述混合序列中的对应于该某个单词的向量；或者在某个单词的随机数大于所述阈值的情况下，选择该某个单词的文本向量作为所述混合序列中的对应于该某个单词的向量。

在一些实施例中，所述训练方法还包括：在获得所述源语音表示序列和所述源文本表示序列之前，利用机器翻译的平行语料对所述语音翻译模型进行预训练。

根据本公开的另一些实施例，提供了一种语音翻译方法，包括：采集源语音数据；和将所述源语音数据输入到语音翻译模型以输出目标文本，其中，所述语音翻译模型通过如前所述的训练方法进行训练。

根据本公开的另一些实施例，提供了一种语音翻译装置，包括：采集模块，用于采集源语音数据；和输入模块，用于将所述源语音数据输入到语音翻译模型以输出目标文本，其中，所述语音翻译模型通过如前所述的训练方法进行训练。

根据本公开的又一些实施例，提供了一种计算机程序，包括：指令，指令当由处理器执行时使处理器执行本公开中所述的任一实施例的方法。

根据本公开的一些实施例，提供了一种计算机程序产品，包括指令，所述指令当由处理器执行时实现本公开中所述的任一实施例的方法。

以上描述仅为本公开的一些实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

在本文提供的描述中，阐述了许多特定细节。然而，理解的是，可以在没有这些特定细节的情况下实施本发明的实施例。在其他情况下，为了不模糊该描述的理解，没有对众所周知的方法、结构和技术进行详细展示。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种用于语音翻译模型的训练方法，包括：

获得与源语音数据对应的源语音表示序列和与所述源语音数据对应的源文本表示序列；

根据所述源语音表示序列和所述源文本表示序列，获得混合序列；

利用所述语音翻译模型对所述源语音表示序列进行处理以输出第一目标文本的第一概率分布，并利用所述语音翻译模型对所述混合序列进行处理以输出第二目标文本的第二概率分布；

根据所述第一概率分布和所述第二概率分布，计算总损失函数；和

根据所述总损失函数训练所述语音翻译模型。

2.根据权利要求1所述的训练方法，其中，根据所述第一概率分布和所述第二概率分布计算所述总损失函数的步骤包括：

根据所述第一概率分布和所述第二概率分布计算第一损失函数；

根据所述第一概率分布和所述第二概率分布计算库尔贝克-莱布勒KL散度值；

根据所述KL散度值计算第二损失函数；以及

根据所述第一损失函数和所述第二损失函数，计算总损失函数。

3.根据权利要求2所述的训练方法，其中，

所述KL散度值包括：前向KL散度值和后向KL散度值。

4.根据权利要求3所述的用于语音翻译模型的训练方法，其中，

所述第二损失函数为所述前向KL散度值和所述后向KL散度值的平均值。

5.根据权利要求2所述的训练方法，其中，

所述总损失函数为所述第一损失函数与所述第二损失函数的加权和。

6.根据权利要求2所述的训练方法，其中，

所述第一损失函数为对应于所述第一概率分布的损失函数与对应于所述第二概率分布的损失函数的加权和。

7.根据权利要求1所述的训练方法，其中，

所述源语音表示序列包括所述源语音数据中的每个单词对应的语音向量；

所述源文本表示序列包括所述源语音数据中的每个单词对应的文本向量。

8.根据权利要求7所述的训练方法，其中，根据所述源语音表示序列和所述源文本表示序列获得所述混合序列的步骤包括：

从对应于所述源语音数据中的每个单词的语音向量和文本向量中选择一种向量作为所述混合序列中的对应于该每个单词的向量；和

将选择出的所有向量组成所述混合序列。

9.根据权利要求8所述的训练方法，其中，

从对应于所述源语音数据中的每个单词的语音向量和文本向量中随机选择一种向量作为所述混合序列中的对应于该每个单词的向量。

10.根据权利要求9所述的训练方法，其中，从对应于所述源语音数据中的每个单词的语音向量和文本向量中随机选择一种向量的步骤包括：

对所述源语音数据中的每个单词生成随机数；以及

对所述随机数与预先设置的阈值进行比较以选择得到对应于所述每个单词的向量。

11.根据权利要求10所述的训练方法，其中，对所述随机数与预先设置的阈值进行比较以选择出对应于所述每个单词的向量的步骤包括：

在某个单词的随机数小于或等于所述阈值的情况下，选择该某个单词的语音向量作为所述混合序列中的对应于该某个单词的向量；或者

在某个单词的随机数大于所述阈值的情况下，选择该某个单词的文本向量作为所述混合序列中的对应于该某个单词的向量。

12.根据权利要求1所述的训练方法，还包括：

在获得所述源语音表示序列和所述源文本表示序列之前，利用机器翻译的平行语料对所述语音翻译模型进行预训练。

13.一种语音翻译方法，包括：

采集源语音数据；和

将所述源语音数据输入到语音翻译模型以输出目标文本，其中，所述语音翻译模型通过如权利要求1至12任意一项所述的训练方法进行训练。

14.一种用于语音翻译模型的训练装置，包括：

第一获取单元，用于获得与源语音数据对应的源语音表示序列和与所述源语音数据对应的源文本表示序列；

第二获取单元，用于根据所述源语音表示序列和所述源文本表示序列获得混合序列；

处理单元，用于利用所述语音翻译模型对所述源语音表示序列进行处理以输出第一目标文本的第一概率分布，并利用所述语音翻译模型对所述混合序列进行处理以输出第二目标文本的第二概率分布；

计算单元，用于根据所述第一概率分布和所述第二概率分布计算总损失函数；和

训练单元，用于根据所述总损失函数训练所述语音翻译模型。

15.一种语音翻译装置，包括：

采集模块，用于采集源语音数据；和

输入模块，用于将所述源语音数据输入到语音翻译模型以输出目标文本，其中，所述语音翻译模型通过如权利要求1至12任意一项所述的训练方法进行训练。

16.一种电子设备，包括：

存储器；和

耦接至所述存储器的处理器，所述存储器中存储有指令，所述指令当由所述处理器执行时，使得所述电子设备执行根据权利要求1至13中任意一项所述的方法。

17.一种计算机可读存储介质，其上存储有计算机程序，该程序由处理器执行时实现根据权利要求1至13中任意一项所述的方法。