CN113362810B

CN113362810B - 语音处理模型的训练方法、装置、设备及存储介质

Info

Publication number: CN113362810B
Application number: CN202110595206.3A
Authority: CN
Inventors: 陈霖捷; 王健宗; 黄章成
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2024-02-09
Anticipated expiration: 2041-05-28
Also published as: CN113362810A

Abstract

本申请提供一种语音处理模型的训练方法、装置、设备及计算机可读存储介质，该方法包括：获取样本数据，样本数据包括源语种的语音和与源语种的语音对应的目标语种样本文本；将源语种的语音输入语音处理模型的语音识别子模型，得到源语种文本；将源语种文本输入语音处理模型的字词数据库中遍历，得到源语种文本对应的词向量；将词向量和目标语种样本文本输入语音处理模型的机器翻译子模型，得到目标语种翻译文本；基于预设损失函数，根据目标语种翻译文本和目标语种样本文本计算语音处理模型的损失值；根据损失值对语音处理模型进行参数调整，得到训练好的语音处理模型。可以减少模型的训练数据，提高训练效率。本申请还涉及区块链技术。

Description

语音处理模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音处理模型的训练方法、装置、设备及计算机可读存储介质。

背景技术

目前，语音翻译技术多数先通过ASR对语音进行文本转录，再通过机器翻译将转录后的文本翻译为所需要的目标文本，需要经过自动语音识别(ASR)模型转录以及神经机器翻译(NMT)模型翻译，在对上述模型进行训练时，需要大量的数据，训练的效率不高，且自动语音识别(ASR)模型的转录效果不够精确的情况下，经翻译处理后输出的结果会产生更大的误差，从而得到的从语音到文本的翻译结果不符合预期。

发明内容

本申请的主要目的在于提供一种语音处理模型的训练方法、装置、设备及计算机可读存储介质，旨在提高语音处理模型的训练效率和准确性，训练好的语音处理模型能够降低翻译文本输出的时延性以及得到更精准的翻译文本。

第一方面，本申请提供一种语音处理模型的训练方法，所述语音处理模型的训练方法包括以下步骤：获取样本数据，所述样本数据包括源语种的语音和与所述源语种的语音对应的目标语种样本文本；

将所述源语种的语音输入语音处理模型的语音识别子模型，得到所述语音识别子模型输出的源语种文本；

将所述源语种文本输入所述语音处理模型的字词数据库中遍历，得到所述源语种文本对应的词向量；

将所述词向量和所述源语种的语音对应的目标语种样本文本输入所述语音处理模型的机器翻译子模型，得到所述机器翻译子模型输出的目标语种翻译文本；

基于预设损失函数，根据所述目标语种翻译文本和所述目标语种样本文本计算所述语音处理模型的损失值；

根据所述损失值对语音处理模型进行参数调整，得到训练好的语音处理模型。

第二方面，本申请还提供一种语音处理模型的训练装置，所述语音处理模型的训练装置包括：

数据获取模块，用于获取样本数据，所述样本数据包括源语种的语音和与所述源语种的语音对应的目标语种样本文本；

语音识别模块，用于将所述源语种的语音输入语音处理模型的语音识别子模型，得到所述语音识别子模型输出的源语种文本；

文本遍历模块，用于将所述源语种文本输入所述语音处理模型的字词数据库中遍历，得到所述源语种文本对应的词向量；

文本翻译模块，用于将所述词向量和所述源语种的语音对应的目标语种样本文本输入所述语音处理模型的机器翻译子模型，得到所述机器翻译子模型输出的目标语种翻译文本；

损失计算模块，用于基于预设损失函数，根据所述目标语种翻译文本和所述目标语种样本文本计算所述语音处理模型的损失值；

参数调整模块，用于根据所述损失值对语音处理模型进行参数调整，得到训练好的语音处理模型。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的语音处理模型的训练方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的语音处理模型的训练方法的步骤。

本申请提供一种语音处理模型的训练方法、装置、设备及计算机可读存储介质，本申请通过获取样本数据，所述样本数据包括源语种的语音和与所述源语种的语音对应的目标语种样本文本；将所述源语种的语音输入语音处理模型的语音识别子模型，得到所述语音识别子模型输出的源语种文本；将所述源语种文本输入所述语音处理模型的字词数据库中遍历，得到所述源语种文本对应的词向量；将所述词向量和所述源语种的语音对应的目标语种样本文本输入所述语音处理模型的机器翻译子模型，得到所述机器翻译子模型输出的目标语种翻译文本；基于预设损失函数，根据所述目标语种翻译文本和所述目标语种样本文本计算所述语音处理模型的损失值；根据所述损失值对语音处理模型进行参数调整，得到训练好的语音处理模型。可以减少语音处理模型的训练数据和需要训练的子模型，有效提高语音处理模型训练的效率，且训练好的语音处理模型能够提高对语音进行识别和翻译的速率，提升语音翻译的效果，得到更精准的翻译文本。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请的一实施例提供的一种语音处理模型的训练方法的步骤示意图；

图2为本申请的一实施例提供的一种语音处理模型的示意性框图；

图3为本申请的另一实施例提供的一种语音处理模型的示意性框图；

图4为本申请的实施例提供的一种语音处理模型的训练方法的子步骤示意图；

图5本申请的另一实施例提供的一种语音处理模型的示意性框图；

图6为本申请的实施例提供的一种语音处理模型的训练方法的子步骤示意图；

图7为本申请的实施例提供的一种语音处理模型的训练方法的子步骤示意图；

图8为本申请一实施例提供的另一种语音处理模型的训练装置的示意性框图；

图9为本申请一实施例涉及的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种语音处理模型的训练方法、装置、计算机设备及计算机可读存储介质。其中，该语音处理模型的训练方法可应用于终端设备中，该终端设备可以手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1和图2，图1为本申请的实施例提供的一种语音处理模型的训练方法的步骤示意图，图2为本申请的实施例提供的一种语音处理模型的示意性框图。

如图1所示，该语音处理模型的训练方法包括步骤S110至步骤S160。

步骤S110、获取样本数据，所述样本数据包括源语种的语音和与所述源语种的语音对应的目标语种样本文本。

示例性的，获取的样本数据用于训练语音处理模型，样本数据包括源语种的语音和与源语种的语音对应的目标语种样本文本，源语种的语音可以是播放装置播报的语音，也可以是用户朗读、讲话的语音，源语种表示用户讲话的语种、也即是待翻译的语种，包括但不限于中文、英文。

示例性的，获取源语种的语音对应的目标语种样本文本，如目标语种为英语，则获取英语样本文本，以对语音处理模型进行训练。可以理解的，目标语种为期望得到的语种，并且目标语种与源语种为两个不相同的语种。获取的英语样本文本应当是源语种的语音对应的英语样本文本，如源语种的语音是一段中文的语音，目标语种样本文本应是与这段中文语音对应的英文文本。

步骤S120、将所述源语种的语音输入语音处理模型的语音识别子模型，得到所述语音识别子模型输出的源语种文本。

示例性的，如图2所示，语音处理模型包括语音识别子模型，语音识别子模型用于对源语种的语音进行识别，得到与源语种的语音对应的源语种文本。例如，通过语音处理模型中的语音识别子模型对一段中文语音进行识别，语音识别子模型输出一个与这段中文语音对应的中文文本。

请参阅图3，图3为本申请的另一实施例提供的一种语音处理模型的示意性框图。

在一些实施例中，所述语音识别子模型包括：卷积层和时序分类层；所述将所述源语种的语音输入语音处理模型的语音识别子模型，得到所述语音识别子模型输出的源语种文本，包括：将所述源语种的语音输入所述卷积层进行特征提取处理，得到语音向量；将所述语音向量输入所述时序分类层进行转换处理得到源语种文本。

示例性的，如图3所示，语音识别子模型包括多个批标准化的卷积层、PW(pointwise)卷积层和时序分类层(Connectionist Temporal Classification)，输入的源语种的语音先通过具有批标准化的卷积层转变为高维向量，其中，每一个卷积层均与批标准化层和线性整流连接，源语种的语音进入卷积层后进行向量特征提取，得到语音向量，然后通过与卷积层连接的批标准化层进行数据批量标准化，具体的，在批标准化层中计算语音向量的均值和方差，根据均值和方差对向量进行正态化处理，根据批标准化层的参数和正态化处理之后的向量对输入的语音向量的值进行更新，从而得到更新后的语音向量，避免了梯度消失与梯度爆炸的问题，将更新后的语音向量输入到线性整流函数(ReLU)中，进行线性整流之后输出语音向量，并将批标准化的卷积层输出的语音向量输入至PW(pointwise)卷积层。

示例性的，在PW(pointwise)卷积层的卷积核的尺寸为1*1*M，M为上一层的通道数，在PW(pointwise)卷积层中会将从具有批标准化的卷积层输出的语音向量在深度方向上进行加权组合，得到PW(pointwise)卷积层的输出，PW(pointwise)卷积层的层数可以比常规卷积层数更多，运算速率更快。

示例性的，经过PW(pointwise)卷积层处理后进入时序分类层(ConnectionistTemporal Classification)进行源语种文本的生成，并且在生成的源语种文本可以得到每个语音向量在源语种文本上的时序，也即是各个语音向量对应的词在源语种文本中的位置，CTC处理例如定义输入的时间步为T，每个时间步上的特征维度记作m，则可以得到x＝(x1,x2,...,xT)、xt＝(xt1,xt2,...,xtm)。同样的，每个输出的时间步也为T,与输入一一对应，每个时间步输出的特征维度记作n，可以得到y＝(y1,y2,...,yT)、yt＝(yt1,yt2,...,ytn)，假设源语种文本为英文，有些位置可能没有字符，定义“-”作为空白符加入字符集合中，则每个时间步输出维度为27，也即是27个字符在这个时间步上输出的概率，根据这些概率进行选取，每个时间步选取一个元素，就可以得到输出序列，定义一个B变换，对输出序列进行变换，变换成真实输出(比如下例中的state)，把连续的相同字符删减为1个，并删去空白符。例如，输出序列为π＝(--stta-t---e)，经B变换处理后得到单词state。

示例性的，对于其中一个真实输出，有多个输出序列可以通过B转换得到，若逐条遍历求得，会存在n的T次方种可能，为了增加计算速度，时序分类层(ConnectionistTemporal Classification)使用了前向-后向算法来计算。具体的，对某个时间步的某个字符用下式求导(这里用k表示字符集合中的某个字符或字符索引)，恰好是与概率相关的路径。

其中，π表示未经变换的输出序列。定义前向(forward)为α_t(l’_k)，表示t时刻经过l’_k字符的路径概率中1-t的概率之和，式子定义如下：

定义后向(backward)为β_t(l’_k)，表示t时刻经过l’_k字符的路径概率中t-T的概率之和，式子定义如下：

根据前向(forward)和后向(backward)的式子定义，它们相乘可以得到：

可以推导出求导式：

可以理解的，求导式的时间复杂度为nT，大大减小了计算量。

具体的，在进行源语种文本的生成过程中，若B＝3，第一时间步选取概率最大的三个字符，在第二时间步也选取概率最大的三个字符，两两组合可以得到9个序列，其中，组合过程中概率相乘，9个序列在B转换之后会得到一些相同的输出，把具有相同输出的序列进行合并，即概率相加，得到概率最大的三个序列，继续和下一时间步的字符进行同样的操作，直到源语种文本的生成完成，从语音识别子模型中的输出可得到具有时间序列的一个源语种文本。

通过语音处理模型中的语音识别子模型对源语种的语音进行识别得到源语种文本，以使语音处理模型对源语种文本进行翻译，且通过语音识别子模型的时序分类层，标识源语种文本中各个词向量的位置，避免在进行词向量在字词数据库中遍历后发生位置错乱。

步骤S130、将所述源语种文本输入所述语音处理模型的字词数据库中遍历，得到所述源语种文本对应的词向量。

示例性的，语音处理模型还包括字词数据库，所述字词数据库用于对语音处理模型的语音识别子模型输出的源语种文本进行映射编码处理，得到源语种文本中的各个词对应的词向量。

在一些实施例中，所述将所述源语种文本输入所述语音处理模型的字词数据库中遍历，得到所述源语种文本对应的词向量包括：基于所述字词数据库的预设编码规则，对所述源语种文本中的各个词逐一进行映射编码处理，得到所述源语种文本中各个词对应的词向量。

可以理解的，字词数据库中包括多个字和/或词，每一个字和/或词均有一一对应的编码规则，例如我对应1，即编码规则为“我-1”，将文字形式转化成数字形式的词向量，以通过编码规则对源语种文本中的每一个字/词逐一进行映射编码，得到源语种文本的词向量。

例如，源语种文本为“我是一个学生”，字词数据库中包括映射关系“我-1，是-2，一-11，个-113，学生-1124”，可以理解的，生成的词向量为[1,2,11,113,1124]以表征我是一个学生的信息。将生成的词向量输入语音处理模型的机器翻译子模型中，以使机器翻译子模型对词向量进行翻译。

可以理解的，上述将字词数据库的编码规则是示例性举例，并不对本申请的字词数据库的编码规则进行限定，编码规则可以有更多其他规则，如英文-数字形式。

通过源语种文本在字词数据库中进行遍历得到对应的向量，可以提升机器翻译子模型的处理速率。

步骤S140、将所述词向量和所述源语种的语音对应的目标语种样本文本输入所述语音处理模型的机器翻译子模型，得到所述机器翻译子模型输出的目标语种翻译文本。

示例性的，将经字词数据库遍历后输出的源语种文本的词向量，以及源语种的语音对应的目标语种样本文本输入到语音处理模型的机器翻译子模型中，得到目标语种翻译文本，例如，源语种为中文，目标语种为英语，将语音处理模型的字词数据库遍历后输出的源语种文本的词向量和英语样本文本输入机器翻译子模型中，得到英语翻译文本，可以理解的，即语音处理模型将中文语音进行识别以及翻译处理得到英语翻译文本。

请参照图4和图5，图4为本申请的实施例提供的一种语音处理模型的训练方法的子步骤示意图，图5本申请的另一实施例提供的一种语音处理模型的示意性框图。

如图4、图5所示，在一些实施例中，所述机器翻译子模型包括编码器和解码器；所述将所述词向量和所述目标语种样本文本输入所述语音处理模型的机器翻译子模型，得到所述机器翻译子模型输出的目标语种翻译文本，包括：步骤S141～步骤S142。

步骤S141、将所述词向量输入所述编码器进行权重计算，得到权重计算后的权重词向量；

示例性的，通过卷积层和时序分类得到源语种的语音对应的源语种文本，得到的源语种文本输入字词数据库进行映射编码后得到源语种文本的词向量，将词向量编码器进行权重计算，得到权重词向量。

示例性的，编码器还包括多头注意力网络(Multi-head attention)和前馈网络(Feed Forward)，多头注意力网络(Multi-head attention)用于进行权重计算，前馈网络(Feed Forward)用于对多头注意力网络(Multi-head attention)的输出进行卷积操作。

其中，编码器将源语种文本的词向量分成V、K、Q矩阵，对V、K、Q矩阵进行线性变换，并输入单层神经网络层激活，得到新的V、K、Q矩阵，将V、K、Q矩阵在最后一维进行切分，对切分完的矩阵在axis＝0维上进行连接，得到V_,Q_,K_矩阵，Q_矩阵相乘K_的转置(对最后2维)，生成结果记为第一输出，然后对第一输出进行缩放一次以更新第一输出，得到第二输出；此次矩阵相乘是计算词与词的相关性，切成多个num_heads进行计算是为了实现对词与词之间深层次相关性进行计算；对第二输出进行softmax计算后，将第二输出的(K和Q的相关性)矩阵相乘V_，得到的值更新为第三输出，然后进入Add&norm层将输入和对应的输出叠加，即第四输出＝第三输出+Q，避免梯度消失，对第四输出进行标准化校正，并在前馈网络(Feed Forward)中进行卷积操作，进行卷积操作后再次进入Add&norm层进行相应的叠加操作，经过上述多头注意力网络(Multi-head attention)和前馈网络(Feed Forward)的N次循环操作后，得到权重计算后的权重词向量，将权重词向量输入至解码器进行预测翻译，以生成目标语种翻译文本。

步骤S142、将所述权重词向量和所述目标语种样本文本输入所述解码器进行预测翻译得到目标语种翻译文本。

示例性的，将编码器的输出和目标语种样本文本共同输入解码器进行预测，得到目标语种翻译文本。从而完成源语种的语音到生成目标语种翻译文本的处理。

示例性的，解码器还包括右移位(shifted right)和掩盖多头注意力网络(maskedmulti-head attention)，其中，右移位(shifted right)用于输入目标语种样本文本，掩盖多头注意力网络(masked multi-head attention)用于输入编码器的输出，即权重词向量，且解码器的掩盖多头注意力网络(masked multi-head attention)与编码器的多头注意力网络(multi-head attention)作用相似，以增加文本中不同字词的相关性计算。

示例性的，如源语种文本为“我是一个学生”，则输入解码器的是权重词向量[1,2,11,113,1124]可以理解的，期望翻译得到的目标语种翻译文本为英语语种，则目标语种翻译文本应当是“I am a student”，经时序分类层处理和字词数据库遍历后，源语种文本的权重向量还包括位置信息，如[1-1,2-2,11-3,113-4,1124-5]，“-”之前的数字用于表示源语种文本中的权重词向量，“-”之后的数字用于表示该词在源语种文本中的位置信息，解码器将源语种文本的权重词向量进行预测，以进行翻译，从而得到目标语种翻译文本“I am astudent”。

请参照图6，图6为本申请的实施例提供的一种语音处理模型的训练方法的子步骤示意图。

如图6所示，在一些实施例中，所述将所述权重词向量和所述目标语种样本文本输入所述解码器进行预测翻译得到目标语种翻译文本，包括：步骤S1411～步骤S1412。

步骤S1411、将所述权重词向量和所述目标语种样本文本N个位置的样本词向量输入所述解码器进行预测翻译，得到位于目标语种翻译文本第N+1个位置的目标词向量，其中，N为大于零且不大于所述权重词向量的数量的正整数。

示例性的，在进行预测翻译的时候，在解码器的右移位(shifted right)输入目标语种样本N个位置的样本词向量，其中，目标语种样本N个位置的样本词向量表示在目标语种样本中，在N个位置上对应的样本词向量，如3个位置的样本词向量表示目标语种样本的前3个词向量，即从开头的词开始计数，到第三个词结束。通过输入目标样本N个位置的样本词向量以及权重词向量预测，得到位于目标翻译文本的第N+1个位置的目标词向量，例如，输入3个位置的样本词向量以及权重词向量，则输出的是目标翻译文本的第4个位置的目标词向量。

步骤S1412、将预测得到的位于目标语种翻译文本各个位置的目标词向量进行拼接得到目标语种翻译文本。

可以理解的，将解码器预测翻译得到每一个位置的目标词向量进行拼接，得到目标语种翻译文本。

请参阅图7，图7为本申请实施例提供的一种语音处理模型的训练方法的子步骤示意图。

在一些实施例中，步骤S1411还包括步骤S14111～步骤S14112。

步骤S14111、若N等于1，将所述权重词向量和位于所述目标语种样本文本第一个位置的样本词向量输入解码器进行预测翻译，得到位于目标语种翻译文本第二个位置的目标词向量，以及将N加1。

示例性的，在预测位于目标语种翻译文本的第二个位置的目标词向量时，通过编码器输出的源语种文本的权重词向量进入解码器的掩盖多头注意力网络(masked multi-head attention)进行预测得到目标语种翻译文本的第二个位置的目标词向量。

可以理解的，在预测位于目标语种翻译文本的第一个位置的目标词向量时，通过权重词向量以及目标语种样本文本中的起始标识进行预测的，可以理解的，目标语种样本文本中的起始标识位于目标语种样本文本的第一个位置的样本词向量之前，起始标识可以是自定义的一个字符，解码器能够获取该字符和权重词向量进行翻译，得到目标语种翻译文本的第一个位置的目标词向量。

步骤S14112、若N大于1，将预测得到的目标语种翻译文本N个位置的目标词向量进行拼接，并将拼接后的目标词向量、目标语种样本文本N个位置的样本词向量以及权重词向量输入解码器进行预测翻译，得到位于目标语种翻译文本的第N+1个位置的目标词向量，以及若N不大于所述权重词向量的数量时将N加1。

示例性的，在预测得到位于目标语种翻译文本的第一个位置和第二个位置的目标词向量后，对位于目标语种翻译文本的第三个位置的目标词向量进行预测，可以理解的，在对位于目标语种翻译文本的第三个位置的词向量进行预测时，将上一时间步预测得到的位于目标语种翻译文本的第一个位置的目标词向量和第二个位置的目标词向量进行向量拼接，并将拼接后的向量输入解码器，以使解码器根据拼接后的目标词向量、目标语种样本文本N个位置的样本词向量和权重词向量进行预测翻译。

可以理解的，将拼接后的目标词向量、和位于目标语种样本文本的第一个位置以及第二个位置的词向量输入解码器的右移位(shifted right)中，编码器输出的源语种文本的权重词向量输入解码器的掩盖多头注意力网络(masked multi-head attention)中，共同预测得到位于目标语种翻译文本的第三个位置的词向量。

示例性的，通过权重词向量、拼接后的目标词向量以及目标语种样本的样本词向量对目标语种翻译文本进行预测，可以有效提高预测的精准度。

在一些实施例中，所述方法还包括对所述目标语种样本文本进行时序编码处理，得到处理后的目标语种样本文本；所述根据所述源语种文本和所述目标语种样本文本进行预测翻译得到目标语种翻译文本，包括：根据所述源语种文本和处理后的目标语种样本文本进行预测翻译得到目标语种翻译文本。

示例性的，可以在目标语种样本文本输入解码器之前进行时序编码的处理，以使目标语种训练样本能够使解码器获取各个词向量的位置。

示例性的，可以在使解码器连接位置编码层(position Embedding)或连接另一个时序分类层(Connectionist Temporal Classification)，以对目标语种训练样本进行时序编码处理。

通过对目标语种样本文本进行时序编码，可以使解码器进行预测时获取目标语种样本文本N个位置的样本词向量更准确，减少输入的样本词向量位置不正确的几率。

S150、基于预设损失函数，根据所述目标语种翻译文本和所述目标语种样本文本计算所述语音处理模型的损失值。

示例性的，基于预设的损失函数，通过目标语种翻译文本和目标语种样本文本计算得到损失值，可以理解的，由于目标语种翻译文本是通过目标语种样本文本和源语音数据预测得到的，语音处理模型的输出应该不会与期望的结果相差很远，但仍会由于一些参数设置不正确，或进行预测的时候上下文关联性不高，导致得到的目标语种翻译文本仍与期望的结果有所差别，通过目标语种翻译文本和目标样本文本计算损失值，以基于所述损失值对语音处理模型进行参数的调整，从而提升语音处理模型的处理效果，得到更精准的目标语种翻译文本。

在一些实施例中，所述基于预设损失函数，根据所述目标语种翻译文本和所述目标语种样本文本计算损失值，包括：

损失函数为下式：

其中，w^T为样本词向量对应的权重，yⁱ为所述目标语种翻译文本中的目标词向量，Xⁱ为所述目标语种样本文本中的样本词向量，n为所述目标语种翻译文本中目标词向量的数量。

可以理解的，通过上式可以对目标语种翻译文本和目标语种样本文本进行损失值的计算，从而根据损失值的计算结果对语音处理模型的参数进行调整。

步骤S160、根据所述损失值对语音处理模型进行参数调整，得到训练好的语音处理模型。

示例性的，将步骤S150计算得到的损失值对语音处理模型的参数进行调整，可以理解的，可以对语音处理模型中语音识别子模型的卷积层、时序分类层、以及语音处理模型中机器翻译子模型的编码器、解码器中的任意一个网络对应的参数进行调整，以得到训练好的语音处理模型，提升通过源语种的语音得到目标语种翻译文本的效果。

示例性的，训练好的语音处理模型可以存储在区块链中，以供用户使用。所述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

上述实施例提供的语音处理模型的训练方法，可以提升模型的训练效率，以及训练好的语音处理模型能够得到更精准的目标语种翻译文本，从而提升了语音处理模型的性能。

请参阅图8，图8是本申请一实施例提供的一种语音处理模型的训练装置的示意图，该语音处理模型的训练装置可以配置于服务器或终端中，用于执行前述的语音处理模型的训练方法。

如图8所示，该语音处理模型的训练装置，包括：数据获取装置110、语音识别模块120、文本遍历模块130、文本翻译模块140、损失计算模块150、参数调整模块160。

数据获取模块110，用于获取样本数据，所述样本数据包括源语种的语音和与所述源语种的语音对应的目标语种样本文本。

语音识别模块120，用于将所述源语种的语音输入语音处理模型的语音识别子模型，得到所述语音识别子模型输出的源语种文本。

文本遍历模块130，用于将所述源语种文本输入所述语音处理模型的字词数据库中遍历，得到所述源语种文本对应的词向量。

文本翻译模块140，用于将所述词向量和所述源语种的语音对应的目标语种样本文本输入所述语音处理模型的机器翻译子模型，得到所述机器翻译子模型输出的目标语种翻译文本。

损失计算模块150，用于基于预设损失函数，根据所述目标语种翻译文本和所述目标语种样本文本计算所述语音处理模型的损失值。

参数调整模块160，用于根据所述损失值对语音处理模型进行参数调整，得到训练好的语音处理模型。

示例性的，文本翻译模块140包括编码器子模块、解码器子模块。

编码器子模块，用于将所述词向量输入所述编码器进行权重计算，得到权重计算后的权重词向量。

声码器子模块，用于将所述权重词向量和所述目标语种样本文本输入所述解码器进行预测翻译得到目标语种翻译文本。

示例性的，解码器子模块还用于将所述权重词向量和所述目标语种样本文本N个位置的样本词向量输入所述解码器进行预测翻译得到位于目标语种翻译文本第N+1个位置的目标词向量，其中，N为大于零且不大于所述权重词向量的数量的正整数；

解码器子模块还用于将预测得到的位于目标语种翻译文本各个位置的目标词向量进行拼接得到目标语种翻译文本。

示例性的，解码器子模块还用于，若N等于1，将所述权重词向量和位于所述目标语种样本文本第一个位置的样本词向量输入解码器进行翻译，得到位于目标语种翻译文本第二个位置的目标词向量，以及将N加1；

若N大于1，将预测得到的目标语种翻译文本N个位置的目标词向量进行拼接，并将拼接后的目标词向量、目标语种样本文本N个位置的样本词向量以及权重词向量输入解码器进行预测翻译，得到位于目标语种翻译文本的第N+1个位置的目标词向量，以及若N不大于所述权重词向量的数量时将N加1。

示例性的，损失计算模块150还用于，通过

计算得到损失值，其中，w^T为样本词向量对应的权重，yⁱ为所述目标语种翻译文本中的目标词向量，Xⁱ为所述目标语种样本文本中的样本词向量，n为所述目标语种翻译文本中目标词向量的数量。

示例性的，语音识别模块120还包括卷积子模块和时序分类子模块。

卷积子模块，用于将所述源语种的语音输入所述卷积层进行特征提取处理，得到语音向量。

时序分类子模块，还用于将所述语音向量输入所述时序分类层进行转换处理得到源语种文本。

示例性的，文本遍历模块130还用于基于所述字词数据库的预设编码规则，对所述源语种文本中的各个词逐一进行映射编码处理，得到所述源语种文本中各个词对应的词向量。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

示例性地，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或终端。

如图9所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语音处理模型的训练方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音处理模型的训练方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取样本数据，所述样本数据包括源语种的语音和与所述源语种的语音对应的目标语种样本文本；

在一个实施例中，所述处理器在实现将所述词向量和所述目标语种样本文本输入所述语音处理模型的机器翻译子模型，得到所述机器翻译子模型输出的目标语种翻译文本时，用于实现：

将所述词向量输入所述编码器进行权重计算，得到权重计算后的权重词向量；

将所述权重词向量和所述目标语种样本文本输入所述解码器进行预测翻译得到目标语种翻译文本。

在一个实施例中，所述处理器在实现将所述权重词向量和所述目标语种样本文本输入所述解码器进行预测翻译得到目标语种翻译文本时，用于实现：

将所述权重词向量和所述目标语种样本文本N个位置的样本词向量输入所述解码器进行预测翻译得到位于目标语种翻译文本第N+1个位置的目标词向量，其中，N为大于零且不大于所述权重词向量的数量的正整数；

将预测得到的位于目标语种翻译文本各个位置的目标词向量进行拼接得到目标语种翻译文本。

在一个实施例中，所述处理器在实现将所述权重词向量和所述目标语种样本文本N个位置的样本词向量输入所述解码器进行预测翻译得到位于目标语种翻译文本第N+1个位置的目标词向量时，用于实现：

若N等于1，将所述权重词向量和位于所述目标语种样本文本第一个位置的样本词向量输入解码器进行预测翻译，得到位于目标语种翻译文本第二个位置的目标词向量，以及将N加1；

在一个实施例中，所述处理器在实现基于预设损失函数，根据所述目标语种翻译文本和所述目标语种样本文本计算损失值时，用于实现：

通过下式损失函数计算得到损失值：

在一个实施例中，所述处理器在实现将所述源语种的语音输入语音处理模型的语音识别子模型，得到所述语音识别子模型输出的源语种文本时，用于实现：

将所述源语种的语音输入所述卷积层进行特征提取处理，得到语音向量；

将所述语音向量输入所述时序分类层进行转换处理得到源语种文本。

在一个实施例中，所述处理器在实现将所述源语种文本输入所述语音处理模型的字词数据库中遍历，得到所述源语种文本对应的词向量时，用于实现：

基于所述字词数据库的预设编码规则，对所述源语种文本中的各个词逐一进行映射编码处理，得到所述源语种文本中各个词对应的词向量。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述语音处理模型的训练装置的具体工作过程，可以参考前述语音处理模型的训练方法的实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请语音处理模型的训练方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音处理模型的训练方法，其特征在于，包括：

根据所述损失值对语音处理模型进行参数调整，得到训练好的语音处理模型；

其中，所述将所述词向量和所述源语种的语音对应的目标语种样本文本输入所述语音处理模型的机器翻译子模型，得到所述机器翻译子模型输出的目标语种翻译文本，包括：

将所述词向量输入所述机器翻译子模型中的编码器进行权重计算，得到权重计算后的权重词向量；

将所述权重词向量和所述目标语种样本文本N个位置的样本词向量输入所述机器翻译子模型中的解码器进行翻译，得到位于目标语种翻译文本第N+1个位置的目标词向量，其中，N为大于零且不大于所述权重词向量的数量的正整数；

2.如权利要求1所述的语音处理模型的训练方法，其特征在于，所述将所述权重词向量和所述目标语种样本文本N个位置的样本词向量输入所述机器翻译子模型中的解码器进行翻译，得到位于目标语种翻译文本第N+1个位置的目标词向量，包括：

若N等于1，将所述权重词向量和位于所述目标语种样本文本第一个位置的样本词向量输入所述解码器进行翻译，得到位于目标语种翻译文本第二个位置的目标词向量，以及将N加1；

若N大于1，将预测得到的目标语种翻译文本N个位置的目标词向量进行拼接，并将拼接后的目标词向量、目标语种样本文本N个位置的样本词向量以及权重词向量输入所述解码器进行翻译，得到位于目标语种翻译文本的第N+1个位置的目标词向量，以及若N不大于所述权重词向量的数量时将N加1。

3.如权利要求1或2所述的语音处理模型的训练方法，其特征在于，所述基于预设损失函数，根据所述目标语种翻译文本和所述目标语种样本文本计算损失值，包括：

通过下式损失函数计算得到损失值：

其中，为样本词向量对应的权重，/>为所述目标语种翻译文本中的目标词向量，/>为所述目标语种样本文本中的样本词向量，n为所述目标语种翻译文本中目标词向量的数量。

4.如权利要求1或2所述的语音处理模型的训练方法，其特征在于，所述语音识别子模型包括：卷积层和时序分类层；所述将所述源语种的语音输入语音处理模型的语音识别子模型，得到所述语音识别子模型输出的源语种文本，包括：

5.如权利要求4所述的语音处理模型的训练方法，其特征在于，所述将所述源语种文本输入所述语音处理模型的字词数据库中遍历，得到所述源语种文本对应的词向量包括：

6.一种语音处理模型的训练装置，其特征在于，所述语音处理模型的训练装置包括：

参数调整模块，用于根据所述损失值对语音处理模型进行参数调整，得到训练好的语音处理模型；

其中，所述文本翻译模块包括编码器子模块和解码器子模块，所述编码器子模块用于将所述词向量输入所述编码器进行权重计算，得到权重计算后的权重词向量；

所述解码器子模块用于将所述权重词向量和所述目标语种样本文本N个位置的样本词向量输入所述解码器进行翻译，得到位于目标语种翻译文本第N+1个位置的目标词向量，其中，N为大于零且不大于所述权重词向量的数量的正整数，

所述解码器子模块还用于将预测得到的位于目标语种翻译文本各个位置的目标词向量进行拼接得到目标语种翻译文本。

7.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至5中任一项所述的语音处理模型的训练方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至5中任一项所述的语音处理模型的训练方法的步骤。