CN112699690A

CN112699690A - 翻译模型的训练方法、翻译方法、电子设备、存储介质

Info

Publication number: CN112699690A
Application number: CN202011591157.8A
Authority: CN
Inventors: 李亚; 刘丹; 刘俊华
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-23
Anticipated expiration: 2040-12-29
Also published as: CN112699690B

Abstract

本发明提供一种语音翻译模型的训练方法、翻译方法、电子设备、存储介质，语音翻译模型包括级联的语音识别模型以及文本翻译模型，训练方法包括：获取到语音样本数据、语音样本数据的语音识别结果以及文本翻译结果；利用语音样本数据、语音识别结果对初始语音识别模型进行训练，以得到语音识别模型；通过语音识别模型对语音样本数据进行语音预测，得到语音样本数据中每个词的识别概率；利用语音样本数据中每个词的识别概率以及文本翻译结果对初始文本翻译模型进行训练，得到文本翻译模型，语音识别模型以及文本翻译模型级联得到语音翻译模型。通过将语音识别模型和文本翻译模型联合训练，解决分阶段进行语音翻译的方法的错误传递问题。

Description

翻译模型的训练方法、翻译方法、电子设备、存储介质

技术领域

本发明涉及语音翻译技术领域，尤其是涉及一种翻译模型的训练方法、翻译方法、电子设备、存储介质。

背景技术

随着科技的发展以及全球化进程的推进，语言成为来自不同国家及地区的人与人之间交流的主要障碍。语音翻译致力于对不同语言进行互译，帮助人们理解不同的语言。目前语音翻译产品已经广泛的应用到各种产品中，包括语音翻译机、同传传译机以及辅助翻译中。现有的语音翻译技术主要是包括了两个部分：语音识别、文本翻译。由于近些年，神经网络的方法发展迅速，现有的语音识别模型、文本翻译模型都是基于神经网络的方法进行训练。基于神经网络的方法不仅效果好，而且简化了传统语音识别、机器翻译训练过程。

目前流行的神经网络识别系统以及神经网络翻译系统的分阶段的语音翻译系统已经能够实现较好的翻译效果，但是分阶段的语音翻译系统有个致命的缺陷，比如在语音识别阶段如果有识别错误，那么该错误将被传递到文本翻译系统，如果该语音识别错误是关键词的错误，那么将导致文本翻译结果不可接受。因此，如何减少语音翻译中的错误的传递是一个有意义并且具有挑战性的问题。

发明内容

本发明提供一种翻译模型的训练方法、翻译方法、电子设备、存储介质。其能够解决传统的分阶段进行语音翻译的方法的错误传递问题。

为解决上述技术问题，本申请提供的第一个技术方案为：提供一种语音翻译模型的训练方法，语音翻译模型包括级联的语音识别模型以及文本翻译模型，训练方法包括：获取到若干语音样本数据、各个语音样本数据的语音识别结果以及文本翻译结果；利用语音样本数据以及语音样本数据的语音识别结果对初始语音识别模型进行训练，以得到训练完成后的语音识别模型；通过训练完成的语音识别模型对语音样本数据进行语音预测，得到语音样本数据中每个词的识别概率；利用语音样本数据中每个词的识别概率以及语音样本数据的文本翻译结果对初始文本翻译模型进行训练，得到训练完成后的文本翻译模型，训练完成的语音识别模型以及训练完成后的文本翻译模型级联得到语音翻译模型。

其中，获取到若干语音样本数据、各个语音样本数据的语音识别结果以及文本翻译结果，包括：利用初始文本翻译模型对各个语音样本数据的语音识别结果进行翻译，得到各个语音样本数据的文本翻译结果。

其中，利用语音样本数据以及语音样本数据的语音识别结果对初始语音识别模型进行训练，以得到训练完成后的语音识别模型，包括：利用卷积神经网络对语音样本数据进行下采样处理；利用编码器对下采样处理的语音样本数据进行语义编码，得到第一编码数据；利用解码器对语音样本数据的语音识别结果以及第一编码数据进行处理，进而得到语音样本数据中每个词的预测语音识别结果的概率，并根据预测语音识别结果的概率得到语音样本数据的预测语音识别结果；利用语音样本数据的语音识别结果以及预测语音识别结果对语音识别模型进行训练，进而得到训练完成的语音识别模型。

其中，利用编码器对下采样处理的语音样本数据进行语义编码，得到第一编码数据，包括：利用第一注意力机制对下采样处理后的语音样本数据进行语义编码，得到第一编码数据；利用解码器对语音样本数据的语音识别结果以及第一编码数据进行处理，进而得到语音样本数据中每个词的预测语音识别结果的概率，包括：利用第二注意力机制对语音样本数据的语音识别结果进行语义编码，进而得到第二编码数据；利用第三注意力机制对第一编码数据以及第二编码数据进行解码处理，进而得到语音样本数据中每个词的预测语音识别结果的概率。

其中，利用语音样本数据中每个词的识别概率以及语音样本数据的文本翻译结果对初始文本翻译模型进行训练，得到训练完成后的文本翻译模型，包括：对语音样本数据中每个词的预测语音识别结果的概率进行加权，并根据加权后的预测语音识别结果的概率得到语音样本数据的预测语音识别结果；利用编码器对预测语音识别结果进行语义编码，得到第三编码数据；利用解码器对语音样本数据的文本翻译结果以及第三编码数据进行处理，进而得到语音样本数据中每个词的预测翻译结果的概率；并根据语音样本数据中每个词的预测翻译结果的概率得到语音样本数据的预测文本翻译结果；利用预测文本翻译结果以及语音样本数据的文本翻译结果对文本翻译模型进行训练，进而得到训练完成后的文本翻译模型。

其中，利用编码器对预测语音识别结果进行语义编码，得到第三编码数据，包括：利用第一注意力机制对预测语音识别结果进行语义编码，得到第三编码数据；利用解码器对语音样本数据的文本翻译结果以及第三编码数据进行处理，进而得到语音样本数据中每个词的预测翻译结果的概率，包括：利用第二注意力机制对语音样本数据的文本翻译结果进行语义编码，进而得到第四编码数据；利用第三注意力机制对第三编码数据以及第四编码数据进行解码处理，进而得到语音样本数据中每个词的预测翻译结果的概率。

为解决上述技术问题，本发明提供的第二个技术方案为：提供一种语音翻译方法，语音翻译方法基于语音翻译模型实现，语音翻译模型通过上述任一项的方法训练所得，翻译方法包括：获取待翻译语音数据；利用语音翻译模型对待翻译语音数据进行翻译，进而得到待翻译语音数据对应的文本翻译结果。

其中，语音翻译模型包括级联的语音识别模型以及文本翻译模型；利用语音翻译模型对待翻译语音数据进行翻译，进而得到待翻译语音数据对应的文本翻译结果包括：利用语音识别模型对待翻译语音数据进行语音识别，以得到待翻译语音数据中每个词的语音识别概率；对待翻译语音数据中每个词的语音识别概率进行加权，进而得到待翻译语音数据的语音识别结果；利用文本翻译模型对待翻译语音数据的语音识别结果进行文本翻译，以得到待翻译语音数据的文本翻译结果。

为解决上述技术问题，本发明提供的第三个技术方案为：提供一种电子设备，包括：存储器和处理器，其中，存储器存储有程序指令，处理器从存储器调取程序指令以执行上述任一项的语音翻译模型的训练方法以及任一项的语音翻译方法。

为解决上述技术问题，本发明提供的第三个技术方案为：提供一种计算机可读存储介质，存储有程序文件，程序文件能够被执行以实现如上述任一项的语音翻译模型的训练方法以及任一项的语音翻译方法。

本发明的有益效果，区别于现有技术的情况，本发明利用语音样本数据以及语音样本数据的语音识别结果对初始语音识别模型进行训练，以得到训练完成后的语音识别模型；通过训练完成的语音识别模型对语音样本数据进行语音预测，得到语音样本数据中每个词的识别概率；利用语音样本数据中每个词的识别概率以及语音样本数据的文本翻译结果对初始文本翻译模型进行训练，得到训练完成后的文本翻译模型，训练完成的语音识别模型以及训练完成后的文本翻译模型级联得到语音翻译模型。通过将语音识别模型和文本翻译模型联合训练，解决分阶段进行语音翻译的方法的错误传递问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明语音翻译模型的训练方法的一实施例的流程示意图；

图2为本发明语音翻译模型的一实施例的结构示意图；

图3为图1中步骤S12的一实施例的流程示意图；

图4为图1中步骤S14的一实施例的流程示意图；

图5为本发明语音翻译方法的一实施例的流程示意图；

图6为图5中步骤S52的一实施例的流程示意图；

图7为本发明电子设备的一实施例的结构示意图；

图8为本发明计算机可读存储介质的一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果特定姿态发生改变时，则方向性指示也相应地随之改变。本申请实施例中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或组件。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

现有语音翻译方案主要有两大类方法，一是分阶段的语音翻译方案，二是端到端的语音翻译方案。基于分阶段的语音翻译方案，主要包括语音识别和文本翻译两个部分，该方案基于现有的语音识别系统以及文本翻译系统，首先对语音进行识别，识别出的文字再送到文本翻译系统进行翻译。基于端到端的语音翻译方案能够充分利用源端语音信息，直接从输入语音到目标语言进行翻译，免去了中间识别过程。

分阶段的语音翻译系统主要有两个缺点，一是语音识别容易导致识别错误，进而将这种识别错误传递到文本翻译中，如果识别错误属于关键词错误，那么文本翻译的结果将不可接受。二是语音识别出的文字丢失了一些语音上的信息，比如断句以及情感上的信息，导致文本翻译对这部分信息不可感知。

基于端到端的语音翻译方案能够充分利用源端语音信息，并且避免了语音识别错误的传递，且端到端的语音翻译更切合翻译的目标，而非识别的目标。但是端到端语音翻译需要大量的从源端语音到目标端翻译的数据，这些数据很难得到，如果只要少量这种端到端数据，端到端语音翻译模型的效果很难和分阶段的语音翻译模型相媲美。基于上述缺点，本申请提供一种语音翻译模型的训练方法、语音翻译方法、电子设备以及存储介质，其能够减缓语音识别错误传递带来的翻译错误，并解决端到端语音训练数据不充分的问题。下面结合附图以及具体实施例对本申请的技术方案进行描述。

请参见图1，为本发明语音翻译模型的训练方法的一实施例的流程示意图。具体的，结合图2，本发明语音翻译模型包括级联的语音识别模21以及文本翻译模型22，训练方法包括：

步骤S11：获取到若干语音样本数据、各个语音样本数据的语音识别结果以及文本翻译结果。

具体的，本申请中，对语音翻译模型进行训练时，训练样本可以包括三类数据，即语音样本数据、各个语音样本数据的语音识别结果、语音样本数据的文本翻译结果。其中，语音样本数据、各个语音样本数据的语音识别结果为语音识别模型21的训练样本，而语音识别模型21的识别结果与语音样本数据的文本翻译结果为文本翻译模型22的训练样本。以此，将语音识别模21以及文本翻译模型22进行联合训练，使得语音识别模型21提供语音识别的中间特征，能够解决分阶段进行语音翻译的错误传递问题。

例如，现有的分阶段进行语音翻译的方案为，利用语音识别模型对语音进行识别，利用文本翻译模型对语音识别模型的识别结果进行翻译，若语音识别模型的识别结果存在错误，则文本翻译模型的翻译结果也会产生错误，进而形成错误传递问题。本申请采用将语音识别模21以及文本翻译模型22进行联合训练，使得语音识别模型21提供语音识别的中间特征，能够解决现有的分阶段进行语音翻译的错误传递问题。

本申请中，为了避免训练数据过少，使得训练得到的语音翻译模型不够准确，进一步的，可以伪造训练数据。具体的，可以对语音样本数据进行人工语音识别，进而得到语音样本数据的语音识别结果，利用现有的文本翻译结果对语音样本数据的语音识别结果进行翻译，进而得到语音样本数据的文本翻译结果。通过此方法，避免了语音识别模型识别错误的问题延续至文本翻译，并且能够得到大量的训练样本数据。

具体的，在本实施例中，为了让语音翻译模型中的语音识别模型对语音识别错误有更强的容错性能，在训练的过程中不使用语音标注的文本，而是使用语音识别出来的文本。除了上述的伪造数据之外，如果有真实的端到端语音数据，那么也可以加入到模型的训练中。通过本实施例的方式，能够解决端到端语音训练数据不充足的问题。

步骤S12：利用语音样本数据以及语音样本数据的语音识别结果对初始语音识别模型进行训练，以得到训练完成后的语音识别模型。

具体的，请结合图3，利用语音样本数据以及语音样本数据的语音识别结果对初始语音识别模型进行训练具体包括：

步骤S121：利用卷积神经网络对语音样本数据进行下采样处理。

具体的，利用卷积神经网络对语音样本数据进行下采样处理。如图2所示，利用卷积神经网络，例如Conv Layers对语音样本数据进行下采样处理，使得语音样本数据的语音信号长度保持在合理的范围之内。卷积神经网络，例如Conv Layers中包括多层卷积层阵列。

步骤S122：利用编码器对下采样处理的语音样本数据进行语义编码，得到第一编码数据。

具体的，语音识别模型具有编码器和解码器两部分。在本申请中，利用编码器对经过卷积神经网络下采样后的语音样本数据进行语义编码，得到第一编码数据。

具体的，在一实施例中，进一步利用第一注意力机制对下采样处理的语音样本数据进行语义编码，得到第一编码数据；如图2所示，第一注意力机制可以为自注意力网络Self-Attention。

具体的，可以利用如下公式对语音样本数据进行语义编码，得到第一编码数据：

h_1…L＝enc(W_encx_1…T)

其中，T表示下采样后的语音样本数据的长度，L表示经过编码器编码后的语音样本数据的长度，h_1…L表示经过编码器语义编码后得到的第一编码数据，W_enc表示编码器的网络参数。

进一步的，在一实施例中，利用编码器对下采样处理的语音样本数据进行语义编码，得到第一编码数据还包括：利用Add&Norm算法将对下采样处理的语音样本数据以及语义编码后的数据进行处理，其中，Add算法是为了解决多层神经网络训练困难的问题，通过将前一层的信息无差的传递到下一层，可以有效的仅关注差异部分，这一方法在图像处理结构如ResNet等中常常用到。Norm算法通过对层的激活值的归一化，可以加速模型的训练过程，使其更快的收敛。再利用前馈神经网络(Feed Forword)算法对Add&Norm算法的输出结果进行处理。具体的，在前馈神经网络中，各神经元从输入层开始，接收前一级输入，并输入到下一级，直至输出层。进一步利用Add&Norm算法对Feed Forword算法的输出结果以及第一次Add&Norm算法的输出结果进行处理，进而得到第一编码数据。本申请提供的翻译方法，能够准确识别语音样本数据的识别结果，并将其作为中间特征进行翻译，进而提高翻译效果。

步骤S123：利用解码器对语音样本数据的语音识别结果以及第一编码数据进行处理，进而得到语音样本数据中每个词的预测语音识别结果的概率，并根据预测语音识别结果的概率得到语音样本数据的预测语音识别结果。

具体的，请结合图2，可以利用第二注意力机制对语音样本数据的语音识别结果进行语义编码，进而得到第二编码数据。例如，可以利用带掩码标记的自注意力网络MaskSelf-Attention对语音样本数据的语音识别结果进行语义编码，再利用Add&Norm算法对语音编码的结果进行处理，进而得到第二编码数据。

利用第三注意力机制对第一编码数据以及第二编码数据进行解码并处理，进而得到语音样本数据中每个词的预测语音识别结果的概率。在一具体实施例中，第三注意力机制可以为Encoder Decoder-Attention，利用Encoder Decoder-Attention对第一编码数据以及第二编码数据进行解码，依次利用Add&Norm算法、Feed Forward算法、利用Add&Norm算法、Linear算法、Softmax算法对解码后的数据进行处理，进而得到语音样本数据中每个词的预测语音识别结果的概率。

本申请中，解码器包括第二注意力机制，例如MaskSelf-Attention，还包括第三注意力机制，例如Encoder Decoder-Attention。注意力函数表示如下：

其中，针对自注意力(MaskSelf-Attention)，Q，K，V都是输入的历史识别文本

而编码-解码注意力(Encoder Decoder-Attention)，

K＝h_1…L，V＝h_1…L，这时候就会把编码器的结果h_1…L用起来，其中m表示自编码的属于第m层。

传统的语音识别模型将会输出one-hot的预测标签，假设输出长度为L，那么语音识别模型将会预测一个L×1的预测标签。如果采用one-hot的预测标签并选择对应的文本翻译模型中的嵌入层embedding作为输入，由于选择的操作，不能进行梯度回传，导致联合训练无法进行。为了让语音识别模型和文本翻译模型能够联合训练，让模型更贴近翻译目标，将语音识别模型预测的每个词的预测语音识别结果的概率输入给翻译模型，每个词的预测语音识别结果的概率代表的物理含义可以认为是最有可能识别出的topk个词语的概率。即语音识别模型的输出Logits为矩阵W，其中W的大小L×V，V为词典大小。假设W_i表示矩阵W的第i行，表示语音识别模型对第i个单词预测的概率，即W_i＝[p₁,p₂,p₃,…,p_V]。其中p_i表示当前预测的词属于词典中第i个词的概率。为了让语音翻译模型具有容错性能以及让模型能够联合训练，现在取每个单词预测的topk，即：

其中select_topk操作表示选择向量W_i中最大的k个元素保留，其余元素置为负无穷，主要是要保证这些非topk的元素经过softmax之后的值为0。经过取topk之后，语音识别模型的输出Logits矩阵W变为W^topk。然后过一个softmax函数进行归一化：

通过上述方式得到语音识别模型预测的每个词的预测语音识别结果的概率。

在得到预测语音识别结果的概率后，可以进一步根据预测语音识别结果的概率得到语音样本数据的预测语音识别结果。

步骤S124：利用语音样本数据的语音识别结果以及预测语音识别结果对语音识别模型进行训练，进而得到训练完成的语音识别模型。

具体的，可以利用损失函数计算语音样本数据的语音识别结果以及预测语音识别结果之间的误差，然后基于语音样本数据的语音识别结果以及预测语音识别结果对语音识别模型进行训练，进而得到训练完成的语音识别模型。

步骤S13：通过训练完成的语音识别模型对语音样本数据进行语音预测，得到语音样本数据中每个词的识别概率。

利用训练完成后的语音识别模型对语音样本数据进行语音预测，进而得到语音样本数据中每个词的识别概率。

步骤S14：利用语音样本数据中每个词的识别概率以及语音样本数据的文本翻译结果对初始文本翻译模型进行训练，得到训练完成后的文本翻译模型，训练完成的语音识别模型以及训练完成后的文本翻译模型级联得到语音翻译模型。

具体的，本申请中为了避免分阶段语音翻译带来的错误传递问题，直接利用语音样本数据中每个词的识别概率对文本翻译模型进行训练。具体的，请结合图4，包括：

步骤S141：对语音样本数据中每个词的预测语音识别结果的概率进行加权，并根据加权后的预测语音识别结果的概率得到语音样本数据的预测语音识别结果。

在得到语音识别模型的输出的语音样本数据中每个词的预测语音识别结果的概率后，对其进行加权。具体的，可以在嵌入层中进行加权。假设嵌入层为矩阵E，其大小为V×D。那么语音样本数据中每个词的预测语音识别结果的概率为：

根据加权后的预测语音识别结果的概率得到语音样本数据的预测语音识别结果。

步骤S142：利用编码器对预测语音识别结果进行语义编码，得到第三编码数据。

具体的，文本翻译模型具有编码器和解码器两部分。在本申请中，利用编码器对预测语音识别结果进行语义编码，得到第三编码数据。

具体的，在一实施例中，利用第一注意力机制对预测语音识别结果进行语义编码，得到第三编码数据；如图2所示，第一注意力机制可以为自注意力网络Self-Attention。

具体的，可以利用如下公式对预测语音识别结果进行语义编码，得到第三编码数据：

h_1…L＝enc(W_encx_1…T)

其中，T表示预测语音识别结果的长度，L表示经过编码器编码后的预测语音识别结果的长度，h_1…L表示经过编码器语义编码后得到的第三编码数据，W_enc表示编码器的网络参数。

进一步的，在一实施例中，利用编码器对预测语音识别结果进行语义编码，得到第三编码数据还包括：利用Add&Norm算法将对预测语音识别结果以及语义编码后的数据进行处理，在利用Feed Forword算法对Add&Norm算法的输出结果进行处理，进一步利用Add&Norm算法对Feed Forword算法的输出结果以及第一次Add&Norm算法的输出结果进行处理，进而得到第三编码数据。

步骤S143：利用解码器对语音样本数据的文本翻译结果以及第三编码数据进行处理，进而得到语音样本数据中每个词的预测翻译结果的概率；并根据语音样本数据中每个词的预测翻译结果的概率得到语音样本数据的预测文本翻译结果。

具体的，请结合图2，可以利用第二注意力机制对语音样本数据的文本翻译结果进行语义编码，进而得到第四编码数据。例如，可以利用带掩码标记的自注意力网络MaskSelf-Attention对语音样本数据的文本翻译结果进行语义编码，再利用Add&Norm算法对语义编码的结果进行处理，进而得到第四编码数据。

利用第三注意力机制对第三编码数据以及第四编码数据进行解码并处理，进而得到语音样本数据中每个词的预测翻译结果的概率。在一具体实施例中，第三注意力机制可以为Encoder Decoder-Attention，利用Encoder Decoder-Attention对第三编码数据以及第四编码数据进行解码，依次利用Add&Norm算法、Feed Forward算法、利用Add&Norm算法、Linear算法、Softmax算法对解码后的数据进行处理，进而得到语音样本数据中每个词的预测翻译结果的概率。

而编码-解码注意力(Encoder Decoder-Attention)，

根据语音样本数据中每个词的预测翻译结果的概率得到语音样本数据的预测文本翻译结果。

步骤S144：利用预测文本翻译结果以及语音样本数据的文本翻译结果对文本翻译模型进行训练，进而得到训练完成后的文本翻译模型。

具体的，可以利用损失函数计算预测文本翻译结果以及语音样本数据的文本翻译结果之间的误差，然后基于预测文本翻译结果以及语音样本数据的文本翻译结果对文本翻译模型进行训练，进而得到训练完成的文本翻译模型。

由于分阶段的语音翻译模型，需要中间的识别结果，且文本翻译模型仅仅依赖识别结果进行翻译，这导致了语音识别错误的不可逆性。本申请中，训练完成后的语音识别模型与训练完成后的文本翻译模型组成语音翻译模型，其中，语音识别模型得到的中间特征直接送入文本翻译模型中进行训练，以此不直接使用语音识别的结果，而是间接的使用语音识别结果，通过语音识别模型以及语音识别结果计算中间特征，然后将中间特征送入到翻译模型进行翻译。让语音识别模型更好的贴近文本翻译模型，提供中间特征。以此解决错误传递问题。另外，为了解决训练数据太少的问题，本申请利用伪造的训练数据，例如人工对语音样本数据进行语音识别，将识别结果送入文本翻译模型中进行文本翻译，进而获取样本数据。以此使得训练得到的语音翻译模型更加优化。

本申请提出了一种基于语音识别和机器翻译联合训练的语音翻译模型，该方法通过大规模语料预训练语音识别模型和文本翻译模型，避免了传统端到端语音翻译数据较少的缺点。同时提出了一种将二者联合训练的方法，避免直接使用语音识别结果作为翻译输入带来的错误传递。通过语音识别结果作为中间结果，从而计算出语音识别的topk的输出概率，再以该概率进行文本embedding的加权作为文本翻译的输入。为了避免端到端语音数据较少的缺点，提出了通过翻译模型以及现有的语音识别数据，构造伪端到端语音识别数据进行模型的训练，并在训练中加入识别结果，让模型学会纠错的能力。

请参见图5，为本发明语音翻译方法的一实施例的流程示意图，本实施例的语音翻译方法基于语音翻译模型实现，语音翻译模型为上述图2所示，语音翻译模型包括级联的语音识别模型以及文本翻译模型。翻译方法包括：

步骤S51：获取待翻译语音数据。

步骤S52：利用语音翻译模型对待翻译语音数据进行翻译，进而得到待翻译语音数据对应的文本翻译结果。

将待翻译语音数据输入至语音翻译模型，利用语音翻译模型对待翻译语音数据进行翻译，进而得到待翻译语音数据对应的文本翻译结果。具体的，请结合图6，步骤S52具体包括：

步骤S521：利用语音识别模型对待翻译语音数据进行语音识别，以得到待翻译语音数据中每个词的语音识别概率。

具体的，利用语音翻译模型中的语音识别模型对待翻译语音数据进行语音识别，进而得到待翻译语音数据中每个词的语音识别概率。

具体的，语音识别模型对待翻译语音数据进行语音识别时，先通过编码器得到语义编码h_1…L，然后在使用解码器进行自回归解码，即第一个输入为特殊符号<s>,通过解码器对语义编码进行attention，解出第二个字符，然后循环回归解码，直到遇到结束符<eos>，最终解出来识别结果y_1…K。

步骤S522：对待翻译语音数据中每个词的语音识别概率进行加权，进而得到待翻译语音数据的语音识别结果。

具体的，在语音识别模型得到待翻译语音数据中每个词的语音识别概率后，对其进行加权。具体的，可以在嵌入层中进行加权。假设嵌入层为矩阵E，其大小为V×D。那么待翻译语音数据中每个词的语音识别结果的概率为：

步骤S523：利用文本翻译模型对待翻译语音数据的语音识别结果进行文本翻译，以得到待翻译语音数据的文本翻译结果。

利用文本翻译模型对待翻译语音数据的语音识别结果进行文本翻译，以得到待翻译语音数据的文本翻译结果。

通过本申请的翻译方法，能够得到更准确的翻译结果。

请参见图7，为本发明电子设备的一实施例的结构示意图，电子设备包括相互连接的存储器202和处理器201。

存储器202用于存储实现上述任意一项方法的程序指令。

处理器201用于执行存储器202存储的程序指令。

其中，处理器201还可以称为CPU(Central Processing Unit，中央处理单元)。处理器201可能是一种集成电路芯片，具有信号的处理能力。处理器201还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器202可以为内存条、TF卡等，可以存储设备的电子设备中全部信息，包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器中。它根据控制器指定的位置存入和取出信息。有了存储器，电子设备才有记忆功能，才能保证正常工作。电子设备的存储器按用途存储器可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等，能长期保存信息。内存指主板上的存储部件，用来存放当前正在执行的数据和程序，但仅用于暂时存放程序和数据，关闭电源或断电，数据会丢失。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，系统服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。

请参阅图8，为本发明计算机可读存储介质的结构示意图。本申请的存储介质存储有能够实现上述所有方法的程序文件203，其中，该程序文件203可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音翻译模型的训练方法，其特征在于，所述语音翻译模型包括级联的语音识别模型以及文本翻译模型，所述训练方法包括：

获取到若干语音样本数据、各个所述语音样本数据的语音识别结果以及文本翻译结果；

利用所述语音样本数据以及所述语音样本数据的语音识别结果对初始语音识别模型进行训练，以得到训练完成后的语音识别模型；

通过训练完成的所述语音识别模型对所述语音样本数据进行语音预测，得到所述语音样本数据中每个词的识别概率；

利用所述语音样本数据中每个词的识别概率以及所述语音样本数据的文本翻译结果对初始文本翻译模型进行训练，得到训练完成后的文本翻译模型，训练完成的所述语音识别模型以及训练完成后的所述文本翻译模型级联得到所述语音翻译模型。

2.根据权利要求1所述的训练方法，其特征在于，所述获取到若干语音样本数据、各个所述语音样本数据的语音识别结果以及文本翻译结果，包括：

利用所述初始文本翻译模型对各个所述语音样本数据的语音识别结果进行翻译，得到各个所述语音样本数据的文本翻译结果。

3.根据权利要求1所述的方法，其特征在于，所述利用所述语音样本数据以及所述语音样本数据的语音识别结果对初始语音识别模型进行训练，以得到训练完成后的语音识别模型，包括：

利用卷积神经网络对所述语音样本数据进行下采样处理；

利用编码器对下采样处理的所述语音样本数据进行语义编码，得到第一编码数据；

利用解码器对所述语音样本数据的语音识别结果以及所述第一编码数据进行处理，进而得到所述语音样本数据中每个词的预测语音识别结果的概率，并根据所述预测语音识别结果的概率得到所述语音样本数据的预测语音识别结果；

利用所述语音样本数据的语音识别结果以及所述预测语音识别结果对语音识别模型进行训练，进而得到训练完成的所述语音识别模型。

4.根据权利要求3所述的方法，其特征在于，所述利用编码器对下采样处理的所述语音样本数据进行语义编码，得到第一编码数据，包括：

利用第一注意力机制对下采样处理后的所述语音样本数据进行语义编码，得到所述第一编码数据；

所述利用解码器对所述语音样本数据的语音识别结果以及所述第一编码数据进行处理，进而得到所述语音样本数据中每个词的预测语音识别结果的概率，包括：

利用第二注意力机制对所述语音样本数据的语音识别结果进行语义编码，进而得到第二编码数据；

利用第三注意力机制对所述第一编码数据以及所述第二编码数据进行解码处理，进而得到所述语音样本数据中每个词的预测语音识别结果的概率。

5.根据权利要求3所述的方法，其特征在于，所述利用所述语音样本数据中每个词的识别概率以及所述语音样本数据的文本翻译结果对初始文本翻译模型进行训练，得到训练完成后的文本翻译模型，包括：

对所述语音样本数据中每个词的预测语音识别结果的概率进行加权，并根据加权后的所述预测语音识别结果的概率得到所述语音样本数据的预测语音识别结果；

利用编码器对所述预测语音识别结果进行语义编码，得到第三编码数据；

利用解码器对所述语音样本数据的文本翻译结果以及所述第三编码数据进行处理，进而得到所述语音样本数据中每个词的预测翻译结果的概率；并根据所述语音样本数据中每个词的预测翻译结果的概率得到所述语音样本数据的预测文本翻译结果；

利用所述预测文本翻译结果以及所述语音样本数据的文本翻译结果对文本翻译模型进行训练，进而得到训练完成后的文本翻译模型。

6.根据权利要求5所述的方法，其特征在于，所述利用编码器对所述预测语音识别结果进行语义编码，得到第三编码数据，包括：

利用第一注意力机制对所述预测语音识别结果进行语义编码，得到所述第三编码数据；

所述利用解码器对所述语音样本数据的文本翻译结果以及所述第三编码数据进行处理，进而得到所述语音样本数据中每个词的预测翻译结果的概率，包括：

利用第二注意力机制对所述语音样本数据的文本翻译结果进行语义编码，进而得到第四编码数据；

利用第三注意力机制对所述第三编码数据以及所述第四编码数据进行解码处理，进而得到所述语音样本数据中每个词的预测翻译结果的概率。

7.一种语音翻译方法，其特征在于，所述语音翻译方法基于语音翻译模型实现，所述语音翻译模型通过上述权利要求1～6任一项所述的方法训练所得，所述翻译方法包括：

获取待翻译语音数据；

利用所述语音翻译模型对所述待翻译语音数据进行翻译，进而得到所述待翻译语音数据对应的文本翻译结果。

8.根据权利要求7所述的语音翻译方法，其特征在于，所述语音翻译模型包括级联的语音识别模型以及文本翻译模型；

所述利用所述语音翻译模型对所述待翻译语音数据进行翻译，进而得到所述待翻译语音数据对应的文本翻译结果包括：

利用语音识别模型对所述待翻译语音数据进行语音识别，以得到所述待翻译语音数据中每个词的语音识别概率；

对所述待翻译语音数据中每个词的语音识别概率进行加权，进而得到所述待翻译语音数据的语音识别结果；

利用文本翻译模型对所述待翻译语音数据的语音识别结果进行文本翻译，以得到所述待翻译语音数据的文本翻译结果。

9.一种电子设备，其特征在于，包括：存储器和处理器，其中，所述存储器存储有程序指令，所述处理器从所述存储器调取所述程序指令以执行如权利要求1-6任一项所述的语音翻译模型的训练方法以及权利要求7-8任一项所述的语音翻译方法。

10.一种计算机可读存储介质，其特征在于，存储有程序文件，所述程序文件能够被执行以实现如权利要求1-6任一项所述的语音翻译模型的训练方法以及权利要求7-8任一项所述的语音翻译方法。