CN110648658A

CN110648658A - 一种语音识别模型的生成方法、装置及电子设备

Info

Publication number: CN110648658A
Application number: CN201910840757.4A
Authority: CN
Inventors: 赵媛媛; 李�杰; 王晓瑞; 李岩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2020-01-03
Anticipated expiration: 2039-09-06
Also published as: US20200402500A1; CN110648658B

Abstract

本公开关于一种语音识别模型的生成方法、装置及电子设备，用于提高模型识别的准确率和识别效果。该方法包括：获取训练样本，每个训练样本包括语音帧序列及对应的标注文本序列；将所述语音帧序列作为所述编码器的输入特征，将所述语音帧序列的语音编码帧作为所述编码器的输出特征，对所述编码器进行训练；将所述语音编码帧作为所述解码器的输入特征，将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练，得到当前预测文本序列，将所述语音编码帧作为所述解码器的输入特征，将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征，对所述解码器进行再次训练。

Description

一种语音识别模型的生成方法、装置及电子设备

技术领域

本公开涉及语音识别技术领域，尤其涉及一种语音识别模型的生成方法、装置及电子设备。

背景技术

目前主流的语音识别框架为基于编解码注意力机制的端到端框架，例如语音识别神经网络(Listen Attend and Spell，LAS)模型，该模型包括编码、解码、注意力机制三部分功能，编码用于对语音的特征帧进行建模，获取声学的高层信息表示，解码用于建模语言信息，在给定上一时刻的输出，结合声学表示预测当前时刻的输出，注意力机制用于在语言和声学之间建立联系，从声学表示中抽取和当前语言相关的内容。该模型把传统模型的词典模型、声学模型、语言模型、解码模型都融合在一个神经网络模型中，同时学习声学和语言两方面的信息，属于目前为止较有潜力的端到端框架。

但目前的端到端框架计算资源消耗大、并行计算困难，并且通过语音识别神经网络模型进行语音识别时，会存在上一时刻的输出错误导致错误的累积，模型的识别准确率较低，识别效果较差。

发明内容

本公开提供了一种语音识别模型的生成方法、装置及电子设备，用于在基于自注意力机制的编解码器模型中，利用自注意力机制完成对语音的编解码，并且在模型生成的过程中，在所述语音帧序列对应的标注文本序列与编解码器模型输出端反馈的预测文本序列之间按照预设概率进行采样，将错误的预测文本加入到模型生成的过程中，能够解决在上一帧预测文本错误时仍能够在下一帧得到正确的预测文本，缓解由于错误累积带来的误差累积，提高模型识别的准确率和识别效果。

第一方面，本公开提供一种语音识别模型的生成方法，该方法包括：

获取训练样本，每个训练样本包括语音帧序列及对应的标注文本序列；

将所述语音帧序列作为所述编码器的输入特征，将所述语音帧序列的语音编码帧作为所述编码器的输出特征，对所述编码器进行训练；

将所述语音编码帧作为所述解码器的输入特征，将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练，得到当前预测文本序列，将所述语音编码帧作为所述解码器的输入特征，将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征，对所述解码器进行再次训练。

作为一种可能的实施方式，所述获取训练样本步骤包括：

获取语音信号并进行语音特征提取，得到初始语音帧序列；

对所述初始语音帧序列中语音帧进行拼帧，并下采样拼帧后的语音帧，得到语音帧序列。

作为一种可能的实施方式，所述预设概率根据所述解码器输出的预测文本序列的准确率确定。

作为一种可能的实施方式，所述根据所述解码器输出的预测文本序列的准确率确定所述预设概率步骤包括：

根据解码器输出的预测文本序列的准确率的大小，按照正比关系确定采样预测文本序列的预设概率，按照反比关系确定采样标注文本序列的预设概率。

作为一种可能的实施方式，还包括：

确定所述当前预测文本序列与对应的标注文本序列的接近程度满足预设值，及确定所述当前预测文本序列中的字错误率CER满足预设值时，结束对所述语音识别模型的训练。

作为一种可能的实施方式，所述标注文本序列为标注的音节序列，所述预测文本序列为预测的音节序列。

第二方面，本公开提供一种语音识别模型的生成装置，所述语音识别模型包括编码器和解码器，该装置包括：获取样本单元、编码器训练单元、解码器训练单元，其中：

获取样本单元，被配置为执行获取训练样本，每个训练样本包括语音帧序列及对应的标注文本序列；

编码器训练单元，被配置为执行将所述语音帧序列作为所述编码器的输入特征，将所述语音帧序列的语音编码帧作为所述编码器的输出特征，对所述编码器进行训练；

解码器训练单元，被配置为执行将所述语音编码帧作为所述解码器的输入特征，将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练，得到当前预测文本序列，将所述语音编码帧作为所述解码器的输入特征，将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征，对所述解码器进行再次训练。

作为一种可能的实施方式，所述获取样本单元具体被配置为执行：

获取语音信号并进行语音特征提取，得到初始语音帧序列；

作为一种可能的实施方式，所述解码器训练单元具体被配置为执行：

作为一种可能的实施方式，所述装置还包括完成训练单元被配置为执行：

第三方面，本公开提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如下步骤：

作为一种可能的实施方式，所述处理器具体被配置为执行：

获取语音信号并进行语音特征提取，得到初始语音帧序列；

作为一种可能的实施方式，所述处理器具体被配置为执行：

作为一种可能的实施方式，所述处理器具体还被配置为执行：

第四方面，本公开提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面所述方法的步骤。

本公开提供的一种语音识别模型的生成方法、装置及电子设备，具有以下有益效果：

在基于自注意力机制的编解码器模型中，不存在循环神经网络结构，利用自注意力机制完成对语音帧的编解码，改善现有技术中语音识别神经网络模型中的缺陷；并且在模型生成的过程中，在标注文本序列与输出端反馈的预测文本序列之间按照预设概率进行采样，将部分错误的预测文本加入到模型生成的过程中，能够解决在上一帧预测文本错误时仍能够在下一帧得到正确的预测文本，缓解由于错误累积带来的误差累积，提高模型识别的准确率和识别效果。

附图说明

图1为本公开实施例提供的一种目前使用的语音识别模型示意图；

图2为本公开实施例提供的一种语音识别模型示意图；

图3为本公开实施例提供的一种语音识别模型的生成方法流程图；

图4为本公开实施例提供的一种语音识别模型的生成装置示意图；

图5为本公开实施例提供的一种电子设备示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

实施例1

目前基于编解码注意力机制的端到端框架进行语音识别时，仍存在如下缺陷：

一方面，目前的语音识别神经网络模型中的编解码功能都是基于循环神经网络结构实现的，而循环神经网络存在计算资源消耗大、并行计算困难等问题；

另一方面，目前的语音识别神经网络模型在进行模型训练时，与输入的语音帧对应的标注文本数据能够确保上一时刻的输出一定是正确的，因此对模型训练的过程中，并未考虑上一时刻的输出错误时，如何训练该模型仍能够得到正确的输出结果，导致使用训练完成的模型进行语音识别时，会存在上一时刻的输出错误导致错误的累积，模型的识别准确率较低，识别效果较差。

目前提出的一种端到端的语音识别模型如图1所示，该模型包括编码器模块100、解码器模块101，其中：

编码器模块100，包括多个块，每个块包括一个多头(multi-head)自注意力机制模块和一个前向网络模块，用于对输入的语音序列进行编码；

解码器模块101，包括多个块，每个块包括一个多头(multi-head)自注意力机制模块、一个掩藏(Masked)多头(multi-head)自注意力机制模块和一个前向网络模块，其中解码器的输入端包括：编码后输出的语音编码帧，解码器模块输出端反馈的预测文本序列，以及标注文本序列。

对上述模型进行训练的过程中，会根据标注文本序列来确保上一时刻输出端输出的预测文本序列一定是正确的，因此该模型训练的过程中并未考虑将错误的输出预测文本作为训练的参考因素，若使用该训练好的模型进行语音识别，当上一时刻的预测文本序列出错时，错误就会累积。

为了解决上述技术问题，本实施例提供了一种语音识别模型生成方法，该模型是基于自注意力机制的编解码器模型，是一种端到端模型且不包括循环神经网络结构，该模型主要采用自注意力机制结合前向网络结构进行语音帧的编解码。

本发明提出一种语音识别模型，如图2所示，该模型的结构包括：

编码器模块200、解码器模块201、采样模块202，该模型中的各个模块是虚拟模块，可通过计算机程序实现该虚拟模块的功能，其中：

编码器模块200包括多个块，每个块包括一个多头(multi-head)自注意力机制模块和一个前向网络模块，由于语音包括多个特性，例如语音的快慢、音量、方言种类、背景噪音等，因此用其中一头自注意力机制模块用于计算语音的其中一个特性，前向网络模块能够确定编码器的输出维度d；

解码器模块201包括多个块，每个块包括一个多头(multi-head)自注意力机制模块、一个掩藏(Masked)多头(multi-head)自注意力机制模块和一个前向网络模块，其中一个多头(multi-head)自注意力机制模块用于计算语音帧序列与对应的标注文本序列之间的相似度，得到第一预测文本序列，一个掩藏(Masked)多头(multi-head)自注意力机制模块用于计算第一预测文本序列与所述前一预测文本序列之间的关联性，从第一预测文本中筛选出当前预测文本序列，前向网络模块能够确定编码器的输出维度d；

采样模块202用于在所述语音帧序列对应的标注文本序列与编解码器模型输出端反馈的预测文本序列之间按照预设概率进行采样。

基于上述编解码器模型的基础上，本实施例提供了一种语音识别模型的生成方法，所述语音识别模型包括编码器和解码器，如图3所示，具体实施流程包括：

步骤300、获取训练样本，每个训练样本包括语音帧序列及对应的标注文本序列；

本实施例中可采用如下方式获取训练样本：

1)获取语音信号并进行语音特征提取，得到初始语音帧序列；

其中，可以利用语音特征提取模块进行特征提取，例如可利用语音特征提取模块来提取语音信号的梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，MFCC)特征。本实施例中可采用提取40维的MFCC特征。

2)对所述初始语音帧序列中语音帧进行拼帧，并下采样拼帧后的语音帧，得到语音帧序列。

本实施例中可先采用倒谱均值方差归一化(Cepstral Mean and VarianceNormalization，CMVN)对所述初始语音帧序列进行归一化处理，然后对所述初始语音帧序列中语音帧进行拼帧，将几帧语音帧拼帧后作为一帧新语音帧，最后对拼帧后的多帧新语音帧进行下采样，降低语音帧的帧率，例如可将6帧语音帧拼帧后作为一帧新语音帧，对拼帧后的多帧新语音帧进行下采样后的帧率为16.7Hz。

本实施例中对语音帧序列进行低帧率处理能让语音帧序列的长度缩减到原来的六分之一，计算量约减少36倍。

步骤301、将所述语音帧序列作为所述编码器的输入特征，将所述语音帧序列的语音编码帧作为所述编码器的输出特征，对所述编码器进行训练；

步骤302、将所述语音编码帧作为所述解码器的输入特征，将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练，得到当前预测文本序列，将所述语音编码帧作为所述解码器的输入特征，将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征，对所述解码器进行再次训练。

利用所述训练样本对语音识别模型进行训练，在具体训练过程中，利用所述语音识别模型中的编码器计算语音帧序列中任一语音帧与之后每个语音帧之间的相似性，得到语音编码帧后，在所述语音帧序列对应的标注文本序列与解码器输出端反馈的预测文本序列之间按照预设概率进行采样，结合所述标注文本序列得到的前一预测文本序列，根据所述标注文本序列及前一预测文本序列对所述语音编码帧进行解码，在输出端输出当前预测文本序列。

为了清楚的说明上述训练过程，下面按照对编码器进行训练的过程和对解码器进行训练的过程分别进行说明：

第一个部分，对所述语音识别模型中的编码器进行训练，将所述语音帧序列作为所述编码器的输入特征，将所述语音帧序列的语音编码帧作为所述编码器的输出特征，对所述编码器进行训练；

在训练过程中，利用所述编码器计算语音帧序列中任一语音帧与之后每个语音帧之间的相似性，由于该编码器不包括循环神经网络，而是基于自注意力机制的编码器，在运算过程中对语音帧序列中的任意两帧都进行了相似性计算，从而保证了该计算过程较循环神经网络具有长时依赖性，对于语音信号中的每个音节与每个音节之间的先后关系都进行了考虑，保证了更强的相关性。

第二个部分，对所述语音识别模型中的解码器进行训练，将编码器输出的语音编码帧作为所述解码器的输入特征，将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练，得到当前预测文本序列，但此时预测的文本序列只是由标注文本进行预测的，更进一步的，本实施例将所述语音编码帧作为所述解码器的输入特征，将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征，对所述解码器进行再次训练。

具体的，利用采样模块在对应的标注文本序列和当前预测文本序列之间按预设概率进行采样后，输入到解码器模块中，具体过程如下：

在解码器中包括三个输入端，一个是语音编码帧的输入、另一个是对应的标注文本序列、最后一个是该解码器输出端反馈的预测文本序列，其中，对所述标注文本序列和所述反馈的预测文本序列(即该解码器输出端输出的当前预测文本序列)，先按照预设概率采样后，再输入到解码器中进行解码。

可选的，本实施例中解码器模块的具体解码步骤如下：

1)筛选所述标注文本序列中，与所述语音编码帧之间的相似度大于预设值的文本，得到第一预测文本序列；

可以基于自注意力机制计算语音编码帧与对应的标注文本序列之间的相似性，从而对所述标注文本序列进行筛选，得到第一预测文本序列。

2)计算第一预测文本序列与所述前一预测文本序列之间的关联性，从第一预测文本中筛选出当前预测文本序列。

可以基于自注意力机制计算第一预测文本序列与所述前一预测文本序列之间的关联性，从而筛选出当前预测的文本序列。

本实施例在解码过程中并没有直接采用标注的文本序列，及输出的当前预测文本序列，而是在所述语音帧序列对应的标注文本序列与解码器输出的当前预测文本序列之间按照预设概率进行采样，利用采样的方式将预测文本序列中错误的预测文本结合正确的标注文本输入到解码器中进行训练，从而在训练的过程中降低了错误累积给模型带来的影响。

可选的，本实施例还可以采用计划采样(Scheduled，SS)的采样算法，在所述语音帧序列对应的标注文本序列与解码器输出的当前预测文本序列之间按照预设概率进行计划采样，使得模型的训练过程和预测过程能够更加匹配，有效缓解上一时刻的输出预测文本的错误带来的误差累计。

可选的，本实施例中的预设概率根据解码器输出的预测文本序列的准确率确定。例如，如果预测文本序列的准确率比较低的时候，对该预测文本序列的采样概率较小，对标注文本序列的采样概率较大，从而能够保证在训练过程中引入的错误的预测文本不会过多，仍能够保证模型输出正确的预测结果。

可选的，根据解码器输出的预测文本序列的准确率的大小，按照正比关系确定采样预测文本序列的预设概率，按照反比关系确定采样标注文本序列的预设概率。例如，当预测文本序列的准确率低于10％时，按照90％的采样概率在所述语音帧序列对应的标注文本序列与解码器输出的当前预测文本序列之间进行采样，假设标注文本序列和当前预测文本序列中文本的个数为100个，则按照90％的采样概率采样时，从标注文本序列中选取90个文本，从当前预测文本序列中选取10个文本，输入到编码器模型中进行解码；当预测文本序列的准确率高于90％时，按照10％的采样概率在所述语音帧序列对应的标注文本序列与解码器输出的预测文本序列之间进行采样，假设标注文本序列和当前预测文本序列中文本的个数为100个，则按照10％的采样概率采样时，从标注文本序列中选取10个文本，从当前预测文本序列中选取90个文本，输入到编码器模型中进行解码。

本实施例中可以采用自适应的调整机制，根据输出的预测文本的准确率从小到大的变化，对所述文本序列按照从小到大的预设概率进行采样，例如预测文本的准确率从0％-90％逐渐递增，可以按照0％-90％逐渐递增的采样概率进行采样，同时，对所述标注文本序列按照100％-10％逐渐递减的采样概率进行采样。

作为一种可选的实施方式，确定所述当前预测文本序列与对应的标注文本序列的接近程度满足预设值，及确定所述当前预测文本序列中的字错误率CER满足预设值时，结束对所述语音识别模型的训练。

本实施例中，可以使用交叉熵作为目标函数对上述模型训练到收敛，通过观测到的损失值，确定所述当前预测文本序列与对应的标注文本序列的接近程度满足预设值；由于使用交叉熵观测到的损失值虽然和最终输出的预测文本序列中的字或词的错误率强相关，但并没有对字错误率直接建模，因此本实施例中又使用最小词错误率(Minimum WordError Rate，MWER)准则作为目标函数的微调fine-tune网络，进一步对模型进行训练，确定所述当前预测文本序列中的字错误率(Character Error Rate，CER)满足预设值时结束训练，该MWER准则的好处是能够直接利用错词率CER优化上述模型的评价准则，从而能够直接根据错词率来作为模型训练结束的一个约束条件，有效提升模型性能。

本实施例中建模单元为音节，所述标注文本序列为标注的音节序列，所述预测文本序列为预测的音节序列。相比于汉字作为输出的预测文本序列，音节的好处是个数固定，建模粒度和汉字一样，不会存在词汇量不足的问题，外加语言模型时，性能的收益远大于汉字。

实施例2

基于相同的发明构思，本公开实施例还提供了一种语音识别模型的生成装置，由于该装置即是本公开实施例中的方法中的装置，并且该装置解决问题的原理与该方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

如图4所示，所述语音识别模型包括编码器和解码器，该装置包括：获取样本单元400、编码器训练单元401、解码器训练单元402，其中：

获取样本单元400，被配置为执行获取训练样本，每个训练样本包括语音帧序列及对应的标注文本序列；

编码器训练单元401，被配置为执行将所述语音帧序列作为所述编码器的输入特征，将所述语音帧序列的语音编码帧作为所述编码器的输出特征，对所述编码器进行训练；

解码器训练单元402，被配置为执行将所述语音编码帧作为所述解码器的输入特征，将所述语音帧序列对应的标注文本序列作为输出特征对解码器进行训练，得到当前预测文本序列，将所述语音编码帧作为所述解码器的输入特征，将所述语音帧序列对应的标注文本序列及所述当前预测文本序列按照预设概率采样后合并得到的序列作为输出特征，对所述解码器进行再次训练。

作为一种可能的实施方式，所述获取样本单元400具体被配置为执行：

获取语音信号并进行语音特征提取，得到初始语音帧序列；

作为一种可能的实施方式，所述解码器训练单元402具体被配置为执行：

实施例3

基于相同的发明构思，本公开实施例还提供了一种电子设备，由于该电子设备即是本公开实施例中的方法中的电子设备，并且该电子设备解决问题的原理与该方法相似，因此该电子设备的实施可以参见方法的实施，重复之处不再赘述。

如图5所示，该电子设备包括：

处理器500；

用于存储所述处理器500可执行指令的存储器501；

其中，所述处理器500被配置为执行所述指令，以实现如下步骤：

作为一种可能的实施方式，所述处理器500具体被配置为执行：

获取语音信号并进行语音特征提取，得到初始语音帧序列；

作为一种可能的实施方式，所述处理器500具体还被配置为执行：

本实施例还提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种语音识别模型的生成方法，其特征在于，所述语音识别模型包括编码器和解码器，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取训练样本步骤包括：

获取语音信号并进行语音特征提取，得到初始语音帧序列；

3.根据权利要求1所述的方法，其特征在于，所述预设概率根据所述解码器输出的预测文本序列的准确率确定。

4.根据权利要求3所述的方法，其特征在于，所述根据所述解码器输出的预测文本序列的准确率确定所述预设概率步骤包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.一种语音识别模型的生成装置，其特征在于，所述语音识别模型包括编码器和解码器，该装置包括：获取样本单元、编码器训练单元、解码器训练单元，其中：

7.根据权利要求6所述的装置，其特征在于，所述获取样本单元具体被配置为执行：

获取语音信号并进行语音特征提取，得到初始语音帧序列；

8.根据权利要求6所述的装置，其特征在于，所述预设概率根据所述解码器输出的预测文本序列的准确率确定。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一所述的一种语音识别模型的生成方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～5任一所述的一种语音识别模型的生成方法。