CN110503945A

CN110503945A - 一种语音处理模型的训练方法及装置

Info

Publication number: CN110503945A
Application number: CN201910843789.XA
Authority: CN
Inventors: 王峰; 唐剑波; 李长亮; 郭馨泽
Original assignee: Chengdu Kingsoft Digital Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Current assignee: Chengdu Kingsoft Digital Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-11-26
Anticipated expiration: 2039-09-06
Also published as: CN110503945B

Abstract

本申请提供一种语音处理模型的训练方法及装置。其中，所述方法包括：获取训练样本和样本标签，所述训练样本包括源语言语音数据，所述样本标签包括标准目标语言语句和标准源语言音标序列；将所述源语言语音数据输入至所述编码器中进行处理，生成编码向量；将所述编码向量输入至所述第一解码器中进行处理，生成目标语言语句，并基于所述目标语言语句和所述标准目标语言语句对所述语音翻译模型进行更新；将所述编码向量输入至所述第二解码器中进行处理，生成源语言音标序列，并基于所述源语言音标序列与所述标准源语言音标序列对所述声学模型进行更新。本申请提供的语音处理模型的训练方法及装置，可以有效提升模型的训练效果。

Description

一种语音处理模型的训练方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种语音处理模型的训练方法及装置、计算设备及计算机可读存储介质。

背景技术

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。现有的机器翻译技术主要是针对源语言文本到目标语言文本。

目前，对于语音数据的翻译是先通过ASR识别出文本，再利用传统的机器翻译技术将识别出的文本翻译成目标语言文本。但是此种翻译方法易造成语音识别及机器翻译两阶段的错误累加，翻译结果不准确。

发明内容

有鉴于此，本申请实施例提供了一种语音处理模型的训练方法及装置、计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种语音处理模型的训练方法，所述语音处理模型包括语音翻译模型和声学模型，所述语音翻译模型和声学模型包括同一个编码器，所述语音翻译模型还包括第一解码器，所述声学模型还包括第二解码器；

所述训练方法，包括：

获取训练样本和样本标签，所述训练样本包括源语言语音数据，所述样本标签包括标准目标语言语句和标准源语言音标序列；

将所述源语言语音数据输入至所述编码器中进行处理，生成编码向量；

将所述编码向量输入至所述第一解码器中进行处理，生成目标语言语句，并将所述目标语言语句和所述标准目标语言语句进行对比，基于所述目标语言语句和所述标准目标语言语句的对比结果，对所述语音翻译模型进行更新；

将所述编码向量输入至所述第二解码器中进行处理，生成源语言音标序列，并将所述源语言音标序列和所述标准语言音标序列进行对比，基于所述源语言音标序列与所述标准源语言音标序列的对比结果，对所述声学模型进行更新。

进一步地，所述编码器包括编码单元，所述编码单元包括m层编码层，其中，m＞1，且m为整数；

所述将所述源语言语音数据输入至所述编码器中进行处理，生成编码向量，包括：

S11、将所述源语言语音数据输入至第1层编码层中进行处理，生成第1层编码层的输出向量；

S12、将第n-1层编码层的输出向量输入至第n层编码层中进行处理，生成第n层编码层的输出向量，其中n≤m，且n为整数；

S13、将n自增1，判断自增1后的n是否小于等于m；若是，则执行步骤S12；若否，则执行步骤S14；

S14、将所述第n层编码层的输出向量作为编码向量。

进一步地，所述第一解码器包括第一注意力单元和第一解码单元；

所述将所述编码向量输入至所述第一解码器中进行处理，生成目标语言语句，包括：

将所述编码向量输入至所述第一注意力单元中进行处理，生成第一中间向量；

将所述第一中间向量输入至所述第一解码单元中进行处理，生成目标语言语句。

进一步地，所述第一解码单元包括p层翻译解码层，其中，p＞1，且p为整数；

所述将所述第一中间向量输入至所述第一解码单元中进行处理，生成目标语言语句，包括：

S21、将所述第一中间向量输入至第1层翻译解码层中进行处理，生成第1层翻译解码层的输出向量；

S22、将第q-1层翻译解码层的输出向量输入至第q层翻译解码层中进行处理，生成第q层翻译解码层的输出向量，其中q≤p，且q为整数；

S23、将q自增1，判断自增1后的q是否小于等于p；若是，则执行步骤S22；若否，则执行步骤S24；

S24、基于所述第q层翻译解码层的输出向量生成目标语言语句。

进一步地，所述第二解码器包括第二注意力单元和第二解码单元；

所述将所述编码向量输入至所述第二解码器中进行处理，生成源语言音标序列，包括：

将所述编码向量输入至所述第二注意力单元中进行处理，生成第二中间向量；

将所述第二中间向量输入至所述第二解码单元中进行处理，生成源语言音标序列。

进一步地，所述第二解码单元包括i层声学解码层，其中，i＞1，且i为整数；

所述将所述第二中间向量输入至所述第二解码单元中进行处理，生成源语言音标序列，包括：

S31、将所述第一中间向量输入至第1层声学解码层中进行处理，生成第1层声学解码层的输出向量；

S32、将第j-1层声学解码层的输出向量输入至第j层声学解码层中进行处理，生成第j层声学解码层的输出向量，其中j≤i，且j为整数；

S33、将j自增1，判断自增1后的j是否小于等于i；若是，则执行步骤S32；若否，则执行步骤S34；

S34、基于所述第j层声学解码层的输出向量生成源语言音标序列。

本申请还提供一种语音处理方法，包括：

获取待翻译语言语音数据；

将所述待翻译语言语音数据输入至语音处理模型中进行处理，生成目标翻译语言语句；

其中，所述语音处理模型是通过所述的语音处理模型的训练方法训练得到的。

进一步地，所述语音处理模型包括语音翻译模型和声学模型，所述语音翻译模型和声学模型包括同一个编码器，所述语音翻译模型还包括第一解码器，

所述将所述待翻译语言语音数据输入至语音处理模型中进行处理，生成目标翻译语言语句，包括：

将所述待翻译语言语音数据输入至所述编码器中进行处理，生成待翻译语言编码向量；

将所述待翻译语言编码向量输入至所述第一解码器中进行处理，生成目标翻译语言语句。

本申请还提供一种语音处理模型的训练装置，所述语音处理模型包括语音翻译模型和声学模型，所述语音翻译模型和声学模型包括同一个编码器，所述语音翻译模型还包括第一解码器，所述声学模型还包括第二解码器；

所述训练装置，包括：

第一获取模块，被配置为获取训练样本和样本标签，所述训练样本包括源语言语音数据，所述样本标签包括标准目标语言语句和标准源语言音标序列；

第一编码模块，被配置为将所述源语言语音数据输入至所述编码器中进行处理，生成编码向量；

第一解码模块，被配置为将所述编码向量输入至所述第一解码器中进行处理，生成目标语言语句，并基于所述目标语言语句和所述标准目标语言语句对所述语音翻译模型进行更新；

第二解码模块，被配置为将所述编码向量输入至所述第二解码器中进行处理，生成源语言音标序列，并基于所述源语言音标序列与所述标准源语言音标序列对所述声学模型进行更新。

本申请还提供一种语音处理装置，包括：

第二获取模块，被配置为获取待翻译语言语音数据；

翻译处理模块，被配置为将所述待翻译语言语音数据输入至语音处理模型中进行处理，生成目标翻译语言语句；

本申请还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现上述语音处理模型的训练方法或者上述语音处理方法的步骤。

本申请还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现上述语音处理模型的训练方法或者上述语音处理方法的步骤。

本申请提供的一种语音处理模型的训练方法及装置，通过将语音翻译模型和声学模型共同使用一个编码器，利用语音翻译模型和声学模型共同对编码器进行训练，可以有效提升模型的训练效果，进而有效提高语音翻译模型翻译的准确率。

本申请提供的一种语音处理方法及装置，通过语音翻译模型将待翻译语言语音数据直接翻译成目标翻译语言语句，省略了中间将待翻译语言语音数据转换为待翻译语言文本的过程，可以有效减少翻译过程中错误的出现及累加，有效提高翻译速度及翻译准确率。

附图说明

图1是本申请实施例的语音处理模型的结构示意图；

图2是本申请实施例的语音处理模型的训练方法的步骤流程示意图；

图3是本申请实施例的语音处理模型的训练方法的步骤流程示意图；

图4是本申请实施例的语音处理模型的训练方法的步骤流程示意图；

图5是本申请实施例的语音处理模型的训练方法的步骤流程示意图；

图6是本申请实施例的语音处理方法的步骤流程示意图；

图7是本申请实施例的语音处理模型的训练装置的结构示意图；

图8是本申请实施例的语音翻译装置的结构示意图；

图9是本申请实施例的计算设备的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

循环神经网络(Recurrent Neural Network，RNN)：神经网络是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如不分段的手写识别、语音识别等。

长短期记忆网络(Long Short-Term Memory，LSTM)：是一种时间循环神经网络。

多头注意力(multi-head attention)：是利用多个查询，来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分。

在本申请中，提供了一种语音翻译模型的训练方法及装置、计算设备及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了本申请实施例所述的语音处理模型的结构示意图。

如图1所示，所述语音处理模型包括语音翻译模型和声学模型，所述语音翻译模型和声学模型包括同一个编码器，所述语音翻译模型还包括第一解码器，所述声学模型还包括第二解码器。

语音翻译模型和声学模型的编码器包括编码层，编码层对输入的源语言语音数据进行处理，得到编码向量。

其中，编码层可以为循环神经网络层，具体地，编码层可以为双向循环神经网络层，更为具体地，编码层可以为双向LSTM网络层，双向LSTM网络层可以在编码的过程中对上下文的信息进行充分的利用，以提升模型训练效果。编码层的层数优选为多层，多层的网络结构可以提高编码单元的编码能力，进而提升编码效果。编码层的层数可视情况而定，本申请对此不做限制。

语音翻译模型的第一解码器包括第一注意力单元和第一解码单元，第一解码单元包括翻译解码层，第一注意力单元对输入的编码向量进行处理，得到第一中间向量，翻译编码层对输入的第一中间向量进行处理，得到目标语言语句，并基于目标语言语句与标准语言语句对语音翻译模型进行更新。

声学模型的第二解码器包括第二注意力单元和第二解码单元，第二解码单元包括声学解码层，第二注意力单元对输入的编码向量进行处理，得到第二中间向量，声学解码层对输入的第二中间向量进行处理，得到源语言音标序列，并基于源语言音标序列与标准语言音标序列对声学模型进行更新。

其中，翻译解码层和声学解码层均可以为循环神经网络层，具体地，翻译解码层和声学解码层均可以为单向循环神经网络层，更为具体地，翻译解码层和声学解码层均可以为单向LSTM网络层。翻译解码层和声学解码层的层数可视情况而定，本申请对此不做限制。

在利用语音翻译模型与声学模型共同对编码器进行训练、调整之后，在使用阶段，仅使用语音翻译模型对源语言语音数据进行翻译处理。

在使用阶段，语音翻译模型的编码器对输入的待翻译语言语音数据进行处理，得到待翻译语言编码向量，第一注意力单元对待翻译语言编码向量进行处理，得到中间向量，第一解码单元的翻译解码层对中间向量进行处理，得到目标翻译语言语句。

本实施例提供的语音处理模型，利用语音翻译模型与声学模型共同对编码器进行训练，可以有效提高训练效果，进而有效提高语音翻译模型的翻译速度及翻译质量。

图2是示出了根据本申请一实施例的语音处理模型的训练方法的示意性流程图，包括步骤S210至步骤S240。

S210、获取训练样本和样本标签。所述训练样本包括源语言语音数据，所述样本标签包括标准目标语言语句和标准源语言音标序列。

具体地，样本是对观察或研究的一部分个体的统称。

训练样本包括源语言语音数据，即原始输入的待翻译的语音数据，可以是各种长度及各种格式的语音数据，本申请对此不做限制。

样本标签包括标准目标语言语句和标准源语言音标序，其中，源语言是待翻译的语言，目标语言是翻译后的语言，源语言、目标语言均可以是汉语、英语、日语等各个国家的语言，以中译英为例，中文即为源语言，英文即为目标语言。标准目标语言语句是对源语言语音数据中的待翻译语句最准确的翻译结果，标准源语言音标序列是源语言语音数据中的待翻译语句最准确的音标识别结果。

例如，假设将英文的源语言语句翻译成中文文本，源语言语音数据的内容包括“Ilove China”，那么标准目标语言语句为“我爱中国”，标准源语言音标序列为

S220、将所述源语言语音数据输入至所述编码器中进行处理，生成编码向量。

进一步地，编码器包括编码单元，编码单元包括编码层，编码层可以为双向循环神经网络层，编码单元可以仅包括1层编码层，也可以包括如2层、3层、4层、6层、8层等的多层编码层，本申请对此不做限制。

在编码单元仅包括一层编码层的情况下，将所述源语言语音数据输入至该编码层中进行处理，生成编码层的输出向量，并将该编码层层的输出向量作为编码向量。

在编码单元包括两层或多层编码层的情况下，以编码单元包括m层编码层为例，其中，m＞1，且m为整数，所述步骤S220包括步骤S221至步骤S224，如图3所示。

S221、将所述源语言语音数据输入至第1层编码层中进行处理，生成第1层编码层的输出向量。

S222、将第n-1层编码层的输出向量输入至第n层编码层中进行处理，生成第n层编码层的输出向量，其中n≤m，且n为整数。

S223、将n自增1，判断自增1后的n是否小于等于m；若是，则执行步骤S222；若否，则执行步骤S224。

S224、将所述第n层编码层的输出向量作为编码向量。

S230、将所述编码向量输入至所述第一解码器中进行处理，生成目标语言语句，并将所述目标语言语句和所述标准目标语言语句进行对比，基于所述目标语言语句和所述标准目标语言语句的对比结果，对所述语音翻译模型进行更新。

进一步地，所述第一解码器包括第一注意力单元和第一解码单元。将所述编码向量输入至所述第一注意力单元中进行处理，生成第一中间向量；将所述第一中间向量输入至所述第一解码单元中进行处理，生成目标语言语句。

具体地，第一注意力单元采用多头注意力机制，优选为8-head注意力。第一解码单元包括翻译解码层，翻译解码层可以为单向循环神经网络层，第一解码单元可以仅包括1层翻译解码层，也可以包括如2层、3层、4层、6层、8层等的多层翻译解码层，本申请对此不做限制。

在第一解码单元仅包括1层翻译解码层的情况下，可以将所述第一中间向量输入至该翻译解码层中进行处理，生成该翻译解码层的输出向量，并基于所述该翻译解码层的输出向量生成目标语言语句。

在第一解码单元包括两层或多层翻译解码层的情况下，以第一解码单元包括p层翻译解码层为例，其中，p＞1，且p为整数，步骤S230还包括步骤S231至步骤S234，如图4所示。

S231、将所述第一中间向量输入至第1层翻译解码层中进行处理，生成第1层翻译解码层的输出向量。

S232、将第q-1层翻译解码层的输出向量输入至第q层翻译解码层中进行处理，生成第q层翻译解码层的输出向量，其中q≤p，且q为整数。

S233、将q自增1，判断自增1后的q是否小于等于p；若是，则执行步骤S234；若否，则执行步骤S232。

S234、基于所述第q层翻译解码层的输出向量生成目标语言语句。

第一解码单元还包括全连接层和线性层，将翻译解码层的输出向量输入至全连接层和线性层进行线性化和归一化处理，生成目标语言语句。

进一步地，可以计算所述目标语言语句与标准目标语言语句之间的相似度；根据目标语言语句与标准目标语言语句之间的相似度，为目标语言语句配置相似权重值，并将所述相似权重值作为损失函数的损失值。可以判断所述损失函数的损失值是否大于预设期望值；若所述损失函数的损失值大于预设期望值，则调整语音翻译模型的参数，更新语音翻译模型，并继续迭代训练；若所述损失函数的损失值小于或等于预设期望值，则结束训练。

S240、将所述编码向量输入至所述第二解码器中进行处理，生成源语言音标序列，并将所述源语言音标序列和所述标准语言音标序列进行对比，基于所述源语言音标序列与所述标准源语言音标序列的对比结果，对所述声学模型进行更新。

进一步地，所述第二解码器包括第二注意力单元和第二解码单元。可以将所述编码向量输入至所述第二注意力单元中进行处理，生成第二中间向量；将所述第二中间向量输入至所述第二解码单元中进行处理，生成源语言音标序列。

具体地，第二注意力单元采用RNN注意力机制。第二解码单元包括声学解码层，声学解码层可以为单向循环神经网络层，第二解码单元可以仅包括1层声学解码层，也可以包括如2层、3层、4层等的多层声学解码层，本申请对此不做限制。

在第二解码单元仅包括1层声学解码层的情况下，可以将所述第二中间向量输入至该声学解码层中进行处理，生成该声学解码层的输出向量，并基于所述该声学解码层的输出向量生成源语言音标序列。

在第二解码单元包括两层或多层声学解码层的情况下，以第二解码单元包括i层声学解码层为例，其中，i＞1，且i为整数，所述步骤S240还包括步骤S241至步骤S244，如图5所示。

S241、将所述第一中间向量输入至第1层声学解码层中进行处理，生成第1层声学解码层的输出向量。

S242、将第j-1层声学解码层的输出向量输入至第j层声学解码层中进行处理，生成第j层声学解码层的输出向量，其中j≤i，且j为整数。

S243、将j自增1，判断自增1后的j是否小于等于i；若是，则执行步骤S242；若否，则执行步骤S244。

S244、基于所述第j层声学解码层的输出向量生成源语言音标序列。

第二解码单元还包括全连接层和线性层，将翻译解码层的输出向量输入至全连接层和线性层进行线性化和归一化处理，生成源语言音标序列。

进一步地，可以计算所述源语言音标序列与标准源语言音标序列之间的相似度；根据源语言音标序列与标准源语言音标序列之间的相似度，为源语言音标序列配置相似权重值，并将所述相似权重值作为损失函数的损失值。可以判断所述损失函数的损失值是否大于预设期望值；若所述损失函数的损失值大于预设期望值，则调整声学模型的参数，更新声学模型，并继续迭代训练；若所述损失函数的损失值小于或等于预设期望值，则结束训练。

需要说明的是，本实施例在训练语音处理模型的过程中，还可以进行常规的NDA(norm、dropout、residual)处理，以提高训练过程中模型的稳定性。

其中，Residual是指通过残差函数对模型输出进行约束，防止过拟合；Norm是指规范化操作，将模型的输出向量规范至正态分布范围内；dropout是指在解码过程中随机让某些隐含层节点的权重不加入工作，不工作的那些节点可以暂时认为不是网络结构的一部分，但是它的权重得保留下来(只是暂时不更新而已)，因为下次解码过程中可能又需要加入工作。

下面结合具体的例子对本实施例作进一步说明。

例如，以英译汉为例，假设编码单元包括8层编码层，且编码层为双向LSTM网络层，语音翻译模型的第一注意力单元采用8-haed注意力机制，第一解码单元包括8层翻译解码层，声学模型的第二注意力单元采用传统RNN注意力机制，第二解码单元包括两层声学解码层，且翻译解码层和声学解码层均为单向LSTM网络层。

获取训练样本和样本标签。训练样本的源语言语音数据为“It's a new A-bomb”，那么标准目标语言语句为“这是一种新型的原子弹”，标准源语言音标序列为

将源语言语音数据输入至编码单元的第1层编码层中进行处理，生成第1层编码层的输出向量A₁₁，将A₁₁输入至第2层编码层中进行处理，生成第2层编码层的输出向量A₁₂，将A₁₂输入至第3层编码层中进行处理，生成第3层编码层的输出向量A₁₃，以此类推，将第7层编码层的输出向量A₁₇输入至第8层编码层中进行处理，生成第8层编码层的输出向量A₁₈，并将A₁₈作为编码向量。

将编码向量A₁₈输入至语音翻译模型的第一注意力单元中进行处理，生成第一中间向量A₂₀。

将第一中间向量A₂₀输入至第1层翻译解码层中进行处理，生成第1层翻译解码层的输出向量A₂₁，将A₂₁输入至第2层翻译解码层中进行处理，生成第2层翻译解码层的输出向量A₂₂，以此类推，将第7层翻译解码层的输出向量A₂₇输入至第8层翻译解码层中进行处理，生成第8层翻译解码层的输出向量A₂₈，并将A₂₈进行线性处理，生成目标语言语句“这是一种新型的炸弹”。

计算目标语言语句“这是一种新型的炸弹”与标准目标语言语句“这是一种新型的原子弹”之间的相似度，得到相似度为0.85，那么损失函数的损失值即为0.15，假设损失函数的预设期望值为0.1,损失函数的损失值0.15大于预设期望值0.1，调整语音翻译模型的参数，更新语音翻译模型，并继续迭代训练，直至损失函数的损失值小于或等于0.1，结束训练。

将编码向量A₁₈输入至声学模型的第二注意力单元中进行处理，生成第二中间向量A₃₀。

将第二中间向量A₃₀输入至第1层声学解码层中进行处理，生成第1层声学解码层的输出向量A₃₁，将A₃₁输入至第2层声学解码层中进行处理，生成第2层声学解码层的输出向量A₃₂，以此类推，将第7层声学解码层的输出向量A₃₇输入至第8层声学解码层中进行处理，生成第8层声学解码层的输出向量A₃₈，并将A₂₈进行线性处理，生成源语言音标序列

计算源语言音标序列与标准源语言音标序列之间的相似度，得到相似度为0.8，那么损失函数的损失值即为0.2，假设损失函数的预设期望值为0.1,损失函数的损失值0.2大于预设期望值0.1，调整声学模型的参数，更新声学模型，并继续迭代训练，直至损失函数的损失值小于或等于0.1，结束训练。

需要说明的是，本实施例所述的语音处理模型的训练方法，其中语音翻译模型和声学模型两部分的训练是交替进行的，即训练样本的源语言语音数据输入至语音处理模型中后，首先其中的语音翻译模型对源语言语音数据进行处理，生成目标语言语句，基于目标语言语句和标准目标语言语句，计算损失函数的损失值并对编码器进行更新，随后其中的声学模型对源语言语音数据进行处理，生成源语言音标序列，基于源语言音标序列和标准源语言音标序列，计算损失函数的损失值并对编码器进行更新，再次输入源语言语音数据，再次重复上述过程，直到达到训练停止条件，停止训练。

本实施例所述的语音处理模型的训练过程，是包括语音翻译任务(用于语音翻译模型)和辅助发音任务(用于声学模型)的相关联的多任务学习过程。语音翻译任务和辅助发音任务可以在学习过程中共享其所学到的信息。相关联的多任务学习比单任务学习能取得更好的泛化，可以挖掘不同任务之间隐藏的共有数据特征。上述两个相关任务放在一起学习，在学习其中一个任务(Main task)时，与该任务不相关的部分，在学习过程中相当于是噪声，引入噪声可以提高学习的泛化(generalization)效果。单任务学习时，梯度的反向传播倾向于陷入局部最优，而多任务学习中不同任务的局部最优处于不同的位置，通过相互作用，可以帮助隐含层逃离局部最优。在本实施例中，语音翻译任务更加关注翻译过程，辅助发音任务更加关注语音识别过程，两者相结合，可以有效提高模型的语音识别及翻译能力，提高训练效果。

本实施例所述的语音处理模型的训练方法，通过同时训练语音翻译模型和声学模型，达到对编码单元进行双重训练的效果，在编码过程中还可以充分利用上下文信息，有效提高编码单元的编码能力及编码效果，进而提升语音翻译模型的翻译质量。

如图6所示，一种语音处理方法，包括步骤S610至步骤S620。

S610、获取待翻译语言语音数据。

具体地，待翻译语言可以是各个国家的语言，待翻译语言语音数据可以是各种长度及各种格式的语音数据，本申请对此不做限制。

S620、将所述待翻译语言语音数据输入至语音处理模型中进行处理，生成目标翻译语言语句。

其中，所述语音处理模型是通过上述的语音处理模型的训练方法训练得到的。

进一步地，步骤S620包括步骤S621至步骤S622。

S621、将所述待翻译语言语音数据输入至所述编码器中进行处理，生成待翻译语言编码向量。

编码器的具体处理过程可以参见上述实施例，在此不再赘述。

S622、将所述待翻译语言编码向量输入至所述第一解码器中进行处理，生成目标翻译语言语句。

进一步地，所述第一解码器包括第一注意力单元和第一解码单元；可以将所述待翻译语言编码向量输入至所述第一注意力单元中进行处理，生成中间向量；将所述中间向量输入至所述第一解码单元中进行处理，生成目标翻译语言语句。

第一解码器的具体处理过程可以参见上述实施例，在此不再赘述。

下面结合具体的例子对本实施例进一步说明。

例如，以汉译英为例，假设编码单元包括8层编码层，且编码层为双向LSTM网络层，语音翻译模型的第一注意力单元采用8-haed注意力机制，第一解码单元包括8层翻译解码层。

获取待翻译语言语音数据为“我爱中国”。

将待翻译语言语音数据输入至编码单元的第1层编码层中进行处理，生成第1层编码层的输出向量B₁₁，将B₁₁输入至第2层编码层中进行处理，生成第2层编码层的输出向量B₁₂，将B₁₂输入至第3层编码层中进行处理，生成第3层编码层的输出向量B₁₃，以此类推，将第7层编码层的输出向量B₁₇输入至第8层编码层中进行处理，生成第8层编码层的输出向量B₁₈，并将B₁₈作为编码向量。

将编码向量B₁₈输入至语音翻译模型的第一注意力单元中进行处理，生成第一中间向量B₂₀。

将第一中间向量B₂₀输入至第1层翻译解码层中进行处理，生成第1层翻译解码层的输出向量B₂₁，将B₂₁输入至第2层翻译解码层中进行处理，生成第2层翻译解码层的输出向量B₂₂，以此类推，将第7层翻译解码层的输出向量B₂₇输入至第8层翻译解码层中进行处理，生成第8层翻译解码层的输出向量B₂₈，并将B₂₈进行线性处理，生成目标语言语句“I loveChina”。

本实施例所述的语音处理方法，通过语音翻译模型直接将待翻译语言语音数据翻译成目标翻译语言语句，省略了将待翻译语言语音数据转换为待翻译语言文本的过程，减少了翻译过程中错误的产生及累加，可以有效提高翻译速度及翻译质量。

如图7所示，一种语音处理模型的训练装置，所述语音处理模型包括语音翻译模型和声学模型，所述语音翻译模型和声学模型包括同一个编码器，所述语音翻译模型还包括第一解码器，所述声学模型还包括第二解码器；

所述训练装置，包括：

第一获取模块701，被配置为获取训练样本和样本标签，所述训练样本包括源语言语音数据，所述样本标签包括标准目标语言语句和标准源语言音标序列。

第一编码模块702，被配置为将所述源语言语音数据输入至所述编码器中进行处理，生成编码向量。

第一解码模块703，被配置为将所述编码向量输入至所述第一解码器中进行处理，生成目标语言语句，并将所述目标语言语句与所述标准目标语言语句进行对比，基于所述目标语言语句和所述标准目标语言语句的对比结果，对所述语音翻译模型进行更新。

第二解码模块704，被配置为将所述编码向量输入至所述第二解码器中进行处理，生成源语言音标序列，并将所述源语言音标序列与所述标准源语言音标序列进行对比，基于所述源语言音标序列与所述标准源语言音标序列的对比结果，对所述声学模型进行更新。

可选地，所述编码器包括编码单元，所述编码单元包括m层编码层，其中，m＞1，且m为整数。

所述第一编码模块702，进一步地被配置为：

S11、将所述源语言语音数据输入至第1层编码层中进行处理，生成第1层编码层的输出向量。

S12、将第n-1层编码层的输出向量输入至第n层编码层中进行处理，生成第n层编码层的输出向量，其中n≤m，且n为整数。

S13、将n自增1，判断自增1后的n是否小于等于m；若是，则执行步骤S12；若否，则执行步骤S14。

S14、将所述第n层编码层的输出向量作为编码向量。

可选地，所述第一解码器包括第一注意力单元和第一解码单元。

所述第一解码模块703，进一步地被配置为：

将所述编码向量输入至所述第一注意力单元中进行处理，生成第一中间向量。

可选地，所述第一解码单元包括p层翻译解码层，其中，p＞1，且p为整数。

所述第一解码模块703，进一步地被配置为：

S21、将所述第一中间向量输入至第1层翻译解码层中进行处理，生成第1层翻译解码层的输出向量。

S22、将第q-1层翻译解码层的输出向量输入至第q层翻译解码层中进行处理，生成第q层翻译解码层的输出向量，其中q≤p，且q为整数。

S23、将q自增1，判断自增1后的q是否小于等于p；若是，则执行步骤S22；若否，则执行步骤S24。

可选地，所述第二解码器包括第二注意力单元和第二解码单元。

所述第二解码模块704，进一步地被配置为：

将所述编码向量输入至所述第二注意力单元中进行处理，生成第二中间向量。

可选地，所述第二解码单元包括i层声学解码层，其中，i＞1，且i为整数。

所述第二解码模块704，进一步地被配置为：

S31、将所述第一中间向量输入至第1层声学解码层中进行处理，生成第1层声学解码层的输出向量。

S32、将第j-1层声学解码层的输出向量输入至第j层声学解码层中进行处理，生成第j层声学解码层的输出向量，其中j≤i，且j为整数。

S33、将j自增1，判断自增1后的j是否小于等于i；若是，则执行步骤S32；若否，则执行步骤S34。

本实施例提供的语音处理模型的训练装置，通过将语音翻译模型和声学模型共同使用一个编码器，利用语音翻译模型和声学模型共同对编码器进行训练，可以有效提升模型的训练效果，进而有效提高语音翻译模型翻译的准确率。

如图8所示，一种语音处理装置，包括：

第二获取模块801，被配置为获取待翻译语言语音数据。

翻译处理模块802，被配置为将所述待翻译语言语音数据输入至语音处理模型中进行处理，生成目标翻译语言语句。

具体地，所述翻译处理模块802，包括：

编码处理模块，被配置为将所述待翻译语言语音数据输入至所述编码器中进行处理，生成待翻译语言编码向量。

解码翻译模块，被配置为将所述待翻译语言编码向量输入至所述第一解码器中进行处理，生成目标翻译语言语句。

其中，通过将源语言语音数据输入至语音处理模型，生成目标语言语句和源语言音标序列，并将所述目标语言语句和所述标准目标语言语句进行对比，基于所述目标语言语句和所述标准目标语言语句的对比结果，对所述编码器进行训练，将所述源语言音标序列和标准源语言音标序列进行对比，基于所述源语言音标序列和所述标准源语言音标序列的对比结果，对所述编码器进行训练直到达到训练停止条件，得到所述语音翻译模型的编码器。

所述解码翻译模块，进一步地被配置为：

将所述待翻译语言编码向量输入至所述第一注意力单元中进行处理，生成中间向量。

将所述中间向量输入至所述第一解码单元中进行处理，生成目标翻译语言语句。

本实施例提供的语音翻译装置，通过语音翻译模型将待翻译语言语音数据直接翻译成目标翻译语言语句，省略了中间将待翻译语言语音数据转换为待翻译语言文本的过程，可以有效减少翻译过程中错误的出现及累加，有效提高翻译速度及翻译准确率。

图9是示出了根据本说明书一实施例的计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接，数据库950用于保存数据。

计算设备900还包括接入设备940，接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图9所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备900可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述语音处理模型的训练方法、语音处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的语音处理模型的训练方法、语音处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述语音处理模型的训练方法、语音处理方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种语音处理模型的训练方法，其特征在于，所述语音处理模型包括语音翻译模型和声学模型，所述语音翻译模型和声学模型包括同一个编码器，所述语音翻译模型还包括第一解码器，所述声学模型还包括第二解码器；

所述训练方法，包括：

2.根据权利要求1所述的语音处理模型的训练方法，其特征在于，所述编码器包括编码单元，所述编码单元包括m层编码层，其中，m＞1，且m为整数；

S14、将所述第n层编码层的输出向量作为编码向量。

3.根据权利要求1所述的语音处理模型的训练方法，其特征在于，所述第一解码器包括第一注意力单元和第一解码单元；

4.根据权利要求3所述的语音处理模型的训练方法，其特征在于，所述第一解码单元包括p层翻译解码层，其中，p＞1，且p为整数；

5.根据权利要求1所述的语音处理模型的训练方法，其特征在于，所述第二解码器包括第二注意力单元和第二解码单元；

6.根据权利要求5所述的语音处理模型的训练方法，其特征在于，所述第二解码单元包括i层声学解码层，其中，i＞1，且i为整数；

7.一种语音处理方法，其特征在于，包括：

获取待翻译语言语音数据；

其中，所述语音处理模型是通过权利要求1-6任意一项所述的语音处理模型的训练方法训练得到的。

8.根据权利要求7所述的语音处理方法，其特征在于，所述语音处理模型包括语音翻译模型和声学模型，所述语音翻译模型和声学模型包括同一个编码器，所述语音翻译模型还包括第一解码器；

9.一种语音处理模型的训练装置，其特征在于，所述语音处理模型包括语音翻译模型和声学模型，所述语音翻译模型和声学模型包括同一个编码器，所述语音翻译模型还包括第一解码器，所述声学模型还包括第二解码器；

所述训练装置，包括：

10.一种语音处理装置，其特征在于，包括：

第二获取模块，被配置为获取待翻译语言语音数据；

11.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-6或者7-8任意一项所述方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-6或者7-8任意一项所述方法的步骤。