CN111402893A

CN111402893A - 语音识别模型确定方法、语音识别方法及装置、电子设备

Info

Publication number: CN111402893A
Application number: CN202010210590.6A
Authority: CN
Inventors: 李�杰; 王晓瑞; 李岩
Original assignee: Reach Best Technology Co Ltd
Current assignee: Reach Best Technology Co Ltd; Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2020-07-10

Abstract

本公开关于一种语音识别模型确定方法、语音识别方法及装置、电子设备，涉及语音识别领域。所述语音识别模型确定方法包括：获取样本语音数据；对样本语音数据进行分帧，对分帧获得的各帧样本语音数据进行特征提取，获得各帧样本语音数据的语音特征；对各帧样本语音数据的语音特征基于音节进行对齐，得到各帧样本语音数据对应的音节标签；采用待训练语音识别模型对各帧样本语音数据的语音特征进行识别，获得各帧样本语音数据对应的预测音节。采用本方法能够提升语音识别的准确性。

Description

语音识别模型确定方法、语音识别方法及装置、电子设备

技术领域

本公开涉及语音识别技术领域，尤其涉及一种语音识别模型确定方法、语音识别方法及装置、电子设备。

背景技术

自动语音识别(Automatic Speech Recognition,ASR)是通过算法将人类的语音转化成相应文本的过程。目前的自动语音识别系统中，常用的语音识别模型建模方法有链式建模、连接时序分类等，常用的建模单元是音素或者音素状态。

相关技术中，语音识别模型采用音素作为建模单元，并且考虑上下文相关音素，然而，由于音素的持续时间短，受制于协同发音效应，难以对人类语音的长期时间依赖性进行建模，与人类语音感知的匹配度不够高，导致语音识别的准确性较低。

发明内容

本公开提供一种语音识别模型确定方法、语音识别方法及装置、电子设备，以至少解决相关技术中语音识别的准确性较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音识别模型确定方法，包括：

获取样本语音数据；

对所述样本语音数据进行分帧，对分帧获得的各帧样本语音数据进行特征提取，获得所述各帧样本语音数据的语音特征；

对所述各帧样本语音数据的语音特征基于音节进行对齐，得到所述各帧样本语音数据对应的音节标签；

采用待训练语音识别模型对所述各帧样本语音数据的语音特征进行识别，获得所述各帧样本语音数据对应的预测音节；

根据所述各帧样本语音数据对应的预测音节和音节标签，训练所述待训练语音识别模型，得到训练好的语音识别模型。

可选的，所述对所述各帧样本语音数据的语音特征基于音节进行对齐，得到所述各帧样本语音数据对应的音节标签，包括：采用隐马尔可夫模型-混合高斯模型对所述各帧样本语音数据的语音特征基于音节进行对齐，得到所述各帧样本语音数据对应的音节标签。

可选的，所述隐马尔可夫模型-混合高斯模型的训练过程包括：

获取样本语音数据以及所述样本语音数据对应的音节序列；

对所述样本语音数据进行特征提取，获得所述样本语音数据的语音特征；

采用待训练隐马尔可夫模型-混合高斯模型对所述语音特征基于音节进行对齐，获得所述语音特征对应的音节数据，根据所述语音特征对应的音节数据以及所述音节序列，训练所述待训练隐马尔可夫模型-混合高斯模型，得到训练好的隐马尔可夫模型-混合高斯模型。

可选的，所述待训练语言识别模型的结构包括时延神经网络-长短期记忆网络层和归一化层；所述采用待训练语音识别模型对所述各帧样本语音数据的语音特征进行识别，获得所述各帧样本语音数据对应的预测音节，包括：

通过所述时延神经网络-长短期记忆网络层，对所述各帧语音数据的语音特征进行特征抽取，获得所述各帧语音数据的目标特征；

通过所述归一化层对各所述目标特征进行识别，获得所述各帧语音数据对应的预测音节。

可选的，所述通过所述时延神经网络-长短期记忆网络层，对所述各帧语音数据的语音特征进行特征抽取，获得所述各帧语音数据的目标特征，包括：

通过所述时延神经网络对当前帧语音数据以及所述当前帧的前后帧语音数据的语音特征进行特征抽取，获得所述当前帧语音数据的中间输出特征；

通过所述长短期记忆网络对所述当前帧语音数据的语音特征以及所述中间输出特征进行特征抽取，获得所述当前帧语音数据的目标特征。

可选的，所述通过所述时延神经网络对当前帧语音数据以及所述当前帧的前后帧语音数据的语音特征进行特征抽取，获得所述当前帧语音数据的中间输出特征，包括：

以第一帧采样频率，将当前帧语音数据以及所述当前帧的前后帧语音数据的语音特征输入时延神经网络，通过所述时延神经网络对当前帧语音数据以及所述当前帧的前后帧语音数据的语音特征进行特征抽取，获得所述当前帧语音数据的中间输出特征；

所述通过所述长短期记忆网络对所述当前帧语音数据的语音特征以及所述中间输出特征进行特征抽取，获得所述当前帧语音数据的目标特征，包括：

以小于所述第一帧采样频率的第二帧采样频率，将所述当前帧语音数据的语音特征以及所述中间输出特征输入长短期记忆网络，通过所述长短期记忆网络对所述当前帧语音数据的语音特征以及所述中间输出特征进行特征抽取，获得所述当前帧语音数据的目标特征。

根据本公开实施例的第二方面，提供一种语音识别方法，包括：

获取待识别语音数据；

对所述待识别语音数据进行分帧，对分帧获得的各帧语音数据进行特征提取，获得所述各帧语音数据的语音特征；

采用本公开实施例的第一方面中任一项所述方法获得的语音识别模型对所述各帧语音数据的语音特征进行识别，获得所述各帧语音数据对应的音节；

根据所述各帧语音数据对应的音节，确定所述待识别语音数据对应的文本。

根据本公开实施例的第三方面，提供一种语音识别模型确定装置，包括：

获取模块，被配置为获取样本语音数据；

特征提取模块，被配置为对所述样本语音数据进行分帧，对分帧获得的各帧样本语音数据进行特征提取，获得所述各帧样本语音数据的语音特征；

对齐模块，被配置为对所述各帧样本语音数据的语音特征基于音节进行对齐，得到所述各帧样本语音数据对应的音节标签；

识别模块，被配置为采用待训练语音识别模型对所述各帧样本语音数据的语音特征进行识别，获得所述各帧样本语音数据对应的预测音节；

训练模块，被配置为根据所述各帧样本语音数据对应的预测音节和音节标签，训练所述待训练语音识别模型，得到训练好的语音识别模型。

可选的，所述对齐模块包括：

训练单元，被配置为训练获得隐马尔可夫模型-混合高斯模型；

对齐单元，被配置为采用所述隐马尔可夫模型-混合高斯模型对所述各帧样本语音数据的语音特征基于音节进行对齐，得到所述各帧样本语音数据对应的音节标签。

可选的，所述训练单元包括：

获取子单元，被配置为获取样本语音数据以及所述样本语音数据对应的音节序列；

特征提取子单元，被配置为对所述样本语音数据进行特征提取，获得所述样本语音数据的语音特征；

训练子单元，被配置为采用待训练隐马尔可夫模型-混合高斯模型对所述语音特征基于音节进行对齐，获得所述语音特征对应的音节数据，根据所述语音特征对应的音节数据以及所述音节序列，训练所述待训练隐马尔可夫模型-混合高斯模型，得到训练好的隐马尔可夫模型-混合高斯模型。

可选的，所述待训练语音识别模型的结构包括时延神经网络-长短期记忆网络层和归一化层；所述识别模块包括：

特征抽取单元，被配置为通过所述时延神经网络-长短期记忆网络层，对所述各帧语音数据的语音特征进行特征抽取，获得所述各帧语音数据的目标特征；

识别单元，被配置为通过所述归一化层对各所述目标特征进行识别，获得所述各帧语音数据对应的预测音节。

可选的，所述特征抽取单元包括：

第一特征抽取子单元，被配置为通过所述时延神经网络对当前帧语音数据以及所述当前帧的前后帧语音数据的语音特征进行特征抽取，获得所述当前帧语音数据的中间输出特征；

第二特征抽取子单元，被配置为通过所述长短期记忆网络对所述当前帧语音数据的语音特征以及所述中间输出特征进行特征抽取，获得所述当前帧语音数据的目标特征。

可选的，所述第一特征抽取子单元被配置为以第一帧采样频率，将当前帧语音数据以及所述当前帧的前后帧语音数据的语音特征输入时延神经网络，通过所述时延神经网络对当前帧语音数据以及所述当前帧的前后帧语音数据的语音特征进行特征抽取，获得所述当前帧语音数据的中间输出特征；

所述第二特征抽取子单元被配置为以小于所述第一帧采样频率的第二帧采样频率，将所述当前帧语音数据的语音特征以及所述中间输出特征输入时延神经网络，通过所述长短期记忆网络对所述当前帧语音数据的语音特征以及所述中间输出特征进行特征抽取，获得所述当前帧语音数据的目标特征。

根据本公开实施例的第四方面，提供一种语音识别装置，包括：

获取模块，被配置为获取待识别语音数据；

特征提取模块，被配置为对所述待识别语音数据进行分帧，对分帧获得的各帧语音数据进行特征提取，获得所述各帧语音数据的语音特征；

识别模块，被配置为采用本公开实施例的第一方面中任一项所述方法获得的语音识别模型对所述各帧语音数据的语音特征进行识别，获得所述各帧语音数据对应的音节；

确定模块，被配置为根据所述各帧语音数据对应的音节，确定所述待识别语音数据对应的文本。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述存储器上所存放的指令时，实现本公开实施例的第一至第二方面中任一所述方法的步骤。

根据本公开实施例的第六方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一至第二方面中任一所述方法的步骤。

根据本公开实施例的第七方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例的第一至第二方面中任一所述方法的步骤。

本公开的实施例提供的技术方案至少带来以下有益效果：根据音节对语音数据进行识别，与传统的音素相比，音节的粒度更大，持续时间更长，发音更加稳定，对上下文的变化更加鲁棒，与人类的感知也更加匹配，从而基于音节建模得到的语音识别模型，可以提升语音识别的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1为根据一示例性实施例示出的语音识别模型确定方法的流程图；

图2为根据一示例性实施例示出的HMM拓扑结构的示意图；

图3为根据一示例性实施例示出的语音识别方法的流程图；

图4为基于不同HMM拓扑结构的语音识别模型的字错误率测试结果；

图5为根据一示例性实施例示出的基于TDNN-LSTM的语音识别模型的配置数据；

图6为根据另一示例性实施例示出的基于TDNN-LSTM的语音识别模型的配置数据；

图7为根据另一示例性实施例示出的基于TDNN-LSTM的语音识别模型的配置数据；

图8为根据另一示例性实施例示出的基于TDNN-LSTM的语音识别模型的配置数据；

图9为基于不同TDNN-LSTM配置以及不同HMM拓扑结构的语音识别模型的延时和字错误率测试结果；

图10为基于不同TDNN-LSTM配置以及不同HMM拓扑结构的语音识别模型的另一字错误率测试结果；

图11为基于不同TDNN-LSTM配置以及不同HMM拓扑结构的语音识别模型的另一字错误率测试结果；

图12为基于不同TDNN-LSTM配置以及不同HMM拓扑结构的语音识别模型的解码速度测试结果；

图13为根据一示例性实施例示出的语音识别模型确定装置的框图；

图14为根据一示例性实施例示出的语音识别装置的框图；

图15为根据一示例性实施例示出的一种电子设备的框图；

图16为根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开提供的语音识别模型确定方法和语音识别方法可以应用于安装有语音识别系统的终端或者服务器中，终端和服务器可以通过网络连接。终端具体可以是台式终端或移动终端，移动终端具体可以但不限于是手机、平板电脑和笔记本电脑。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图1是根据一示例性实施例示出的一种语音识别模型确定方法的流程图，如图1所示，该方法包括以下步骤101至步骤105。

步骤101，获取样本语音数据。

其中，样本语音数据可以是采用中文普通话语音数据库(AISHELL)中的语音数据，也可以是录制的语音数据，或者是截取的音频或视频中播放的语音数据。

步骤102，对样本语音数据进行分帧，对分帧获得的各帧样本语音数据进行特征提取，获得各帧样本语音数据的语音特征。

在一种可行的实施方式中，可以按照预设的帧长和帧移对样本语音数据进行分帧加窗处理，例如，帧长设为25ms，帧移设为10ms，对每帧数据提取的语音特征可以是梅尔频率倒谱系数(MFCC)特征向量。

步骤103，对各帧样本语音数据的语音特征基于音节进行对齐，得到各帧样本语音数据对应的音节标签。

在实施中，对各帧样本语音数据的语音特征基于音节进行对齐，可以将各语音特征对应到相应的音节数据，作为标签数据用于训练语音识别模型。

步骤104，采用待训练语音识别模型对各帧样本语音数据的语音特征进行识别，获得各帧样本语音数据对应的预测音节。

在实施中，将各帧样本语音数据的语音特征输入待训练语音识别模型中，经待训练语音识别模型输出的结果即为各帧样本语音数据对应的预测音节。

步骤105，根据各帧样本语音数据对应的预测音节和音节标签，训练待训练语音识别模型，得到训练好的语音识别模型。

在实施中，获得各帧样本语音数据对应的预测音节和音节标签后，判断是否满足训练结束条件，当不满足训练结束条件时，根据预测音节与对应的音节标签的误差调整待训练语音识别模型的参数，并重复步骤104直至满足训练结束条件，得到训练好的语音识别模型。在一种可行的实施方式中，训练结束条件可以是预测音节与对应的音节标签的误差小于预设误差，也可以是迭代次数到达预设迭代次数。其中，预设误差和预设迭代次数可以结合实际情况进行设置。

上述实施例中提供的语音识别模型确定方法，根据音节对语音数据进行识别，与传统的音素相比，音节的粒度更大，持续时间更长，发音更加稳定，对上下文的变化更加鲁棒，与人类的感知也更加匹配，从而基于音节建模得到的语音识别模型，可以提升语音识别的准确性。

可选的，对各帧样本语音数据的语音特征基于音节进行对齐，得到各帧样本语音数据对应的音节标签时，具体可以是采用隐马尔可夫模型(HMM)-混合高斯模型(GMM)对各帧样本语音数据的语音特征基于音节进行对齐，得到各帧样本语音数据对应的音节标签。

其中，隐马尔可夫模型(HMM)可以采用上下文无关的带声调音节(1727个)作为建模单元，每个音节都对应一个HMM，每个HMM包含若干个状态，各状态之间存在转换概率。在一种可行的实施方式中，如图2所示，提供了六种不同的HMM拓扑结构，其中，S1、S2和S3均表示HMM的一个状态，图2(A)-(B)所示的HMM包含S1和S2两个状态，分别对应一个音节的前半部分和后半部分，图2(C)-(F)所示的HMM包含S1、S2和S3三个状态，分别对应一个音节的起始部分、持续部分和结尾部分，箭头表示转换路径。例如，在图2(F)所示的HMM拓扑结构中，S1包括到S2的一条转换路径，S2包括到S3和结束的两条转换路径，S3包括到S3和结束的两条转换路径。

隐马尔可夫模型-混合高斯模型的训练过程可以包括以下步骤：获取样本语音数据以及样本语音数据对应的音节序列；对样本语音数据进行特征提取，获得样本语音数据的语音特征；采用待训练隐马尔可夫模型-混合高斯模型对语音特征基于音节进行对齐，获得语音特征对应的音节数据，根据语音特征对应的音节数据以及音节序列，训练待训练隐马尔可夫模型-混合高斯模型，得到训练好的隐马尔可夫模型-混合高斯模型。

在实施中，样本语音数据标注有音节序列，每个音节对应一个HMM，样本语音数据对应一个HMM序列，可以先提取样本语音数据的语音特征序列，对语音特征序列根据音节进行均匀划分，得到每个HMM所对应的语音特征序列，GMM用于生成语音特征对应于每个HMM的概率分布，采用待训练HMM-GMM，根据每个HMM所对应的语音特征序列和HMM序列进行对齐，以更新每个HMM所对应的语音特征序列，重复该过程，得到收敛后的HMM-GMM。

上述实施例中，对HMM拓扑结构进行优化，既有助于音节内部的声学变换建模，又有助于更确定性的状态对齐，继而通过HMM-GMM对各帧样本语音数据的语音特征基于音节进行对齐，有助于提升语音识别的准确性。

可选的，待训练语言识别模型的结构包括时延神经网络-长短期记忆网络层和归一化层；采用待训练语音识别模型对各帧样本语音数据的语音特征进行识别，获得各帧样本语音数据对应的预测音节，具体可以包括以下步骤：通过时延神经网络-长短期记忆网络层，对各帧语音数据的语音特征进行特征抽取，获得各帧语音数据的目标特征；通过归一化层对各目标特征进行识别，获得各帧语音数据对应的预测音节。

其中，时延神经网络-长短期记忆网络层(TDNN-LSTM)可以包含多层时延神经网络(TDNN)和多层长短期记忆网络(LSTM)，例如，可以是包含七层TDNN和三层LSTM，其排布可以依次是三层TDNN、一层LSTM、两层TDNN、一层LSTM、两层TDNN、一层LSTM，最后的一层LSTM连接归一化层(softmax)。

上述实施例中，基于时延神经网络-长短期记忆网络层(TDNN-LSTM)结构的语音识别模型，可以捕捉更长的时长，具有更强的长时间声学轨迹建模能力，可以更好的对音节内部的声学变换进行建模，提升语音识别的准确性。

可选的，通过时延神经网络-长短期记忆网络层，对各帧语音数据的语音特征进行特征抽取，获得各帧语音数据的目标特征，具体可以包括以下步骤：通过时延神经网络对当前帧语音数据以及当前帧的前后帧语音数据的语音特征进行特征抽取，获得当前帧语音数据的中间输出特征；通过长短期记忆网络对当前帧语音数据的语音特征以及中间输出特征进行特征抽取，获得当前帧语音数据的目标特征。

上述实施例中，通过时延神经网络(TDNN)对多帧语音数据的语音特征进行特征抽取，能够更好的表达语音特征在时间上的关系，通过长短期记忆网络(LSTM)对当前帧以及TDNN输出的中间输出特征进行特征抽取，能够捕捉更长的时长，从而获得的目标特征可以更好的体现音节内部的声学变换，提升语音识别的准确性。

可选的，通过时延神经网络对当前帧语音数据以及当前帧的前后帧语音数据的语音特征进行特征抽取，获得当前帧语音数据的中间输出特征，具体可以包括：以第一帧采样频率，将当前帧语音数据以及当前帧的前后帧语音数据的语音特征输入时延神经网络，通过时延神经网络对当前帧语音数据以及当前帧的前后帧语音数据的语音特征进行特征抽取，获得当前帧语音数据的中间输出特征；通过长短期记忆网络对当前帧语音数据的语音特征以及中间输出特征进行特征抽取，获得当前帧语音数据的目标特征，具体可以包括：以小于第一帧采样频率的第二帧采样频率，将当前帧语音数据的语音特征以及中间输出特征输入长短期记忆网络，通过长短期记忆网络对当前帧语音数据的语音特征以及中间输出特征进行特征抽取，获得当前帧语音数据的目标特征。

在一种可行的实施方式中，时延神经网络-长短期记忆网络(TDNN-LSTM)采用七层TDNN和三层LSTM，其排布依次是TDNN1、TDNN2、TDNN3、LSTM1、TDNN4、TDNN5、LSTM2、TDNN6、TDNN7、LSTM3，前一层的输出连接后一层的输入，LSTM3的输出连接至归一化层(softmax)。

通过TDNN-LSTM获得当前帧语音数据的目标特征，具体包括以下步骤：将第一输入数据(用[-2，-1，0，1，2]表示)以第一帧采样频率输入TDNN1，利用TDNN1对第一输入数据进行特征抽取，获得第一中间输出特征；将第二输入数据(包括第一中间输出特征和[-1，0，1])以第一帧采样频率输入TDNN2，利用TDNN2对第二输入数据进行特征抽取，获得第二中间输出特征；将第三输入数据(包括第二中间输出特征和[-1，0，1])以第二帧采样频率输入TDNN3，利用TDNN3对第三输入数据进行特征抽取，获得第三中间输出特征；将第四输入数据(包括第三中间输出特征和[0])以第二帧采样频率输入LSTM1，利用LSTM1对第四输入数据进行特征抽取，获得第四中间输出特征；将第五输入数据(包括第四中间输出特征和[-6，0])以第三帧采样频率输入TDNN4，利用TDNN4对第五输入数据进行特征抽取，获得第五中间输出特征；将第六输入数据(包括第五中间输出特征和[-6，0，6])以第三帧采样频率输入TDNN5，利用TDNN5对第六输入数据进行特征抽取，获得第六中间输出特征；将第七输入数据(包括第六中间输出特征和[0])以第三帧采样频率输入LSTM2，利用LSTM2对第七输入数据进行特征抽取，获得第七中间输出特征；将第八输入数据(包括第七中间输出特征和[-6，0])以第三帧采样频率输入TDNN6，利用TDNN6对第八输入数据进行特征抽取，获得第八中间输出特征；将第九输入数据(包括第八中间输出特征和[-6，0，6])以第三帧采样频率输入TDNN7，利用TDNN7对第九输入数据进行特征抽取，获得第九中间输出特征；将第十输入数据(包括第九中间输出特征和[0])以第三帧采样频率输入LSTM3，利用LSTM3对第十输入数据进行特征抽取，获得目标特征。其中，“0”表示当前帧语音数据的语音特征，“-1”表示当前帧的前1帧语音数据的语音特征、“1”表示当前帧的后1帧语音数据的语音特征、“-2”表示当前帧的前2帧语音数据的语音特征、“2”表示当前帧的后2帧语音数据的语音特征，“-6”表示当前帧的前6帧语音数据的语音特征、“6”表示当前帧的后6帧语音数据的语音特征，第一、第二、第三帧采样频率依次降低，例如可以分别为100Hz、33.3Hz和16.7Hz。

上述实施例中，对TDNN-LSTM每一层的输入数据进行优化，可以从语音数据中抽取更丰富的目标特征，从而提升语音识别的准确性，同时通过降低帧频率还可以缩短后续解码的时间，提升解码速度。

图3是根据一示例性实施例示出的一种语音识别方法的流程图，如图3所示，该方法包括以下步骤301至步骤304。

步骤301，获取待识别语音数据。

步骤302，对待识别语音数据进行分帧，对分帧获得的各帧语音数据进行特征提取，获得各帧语音数据的语音特征。

步骤303，采用语音识别模型对各帧语音数据的语音特征进行识别，获得各帧语音数据的对应的音节。其中，该语音识别模型为根据上述实施例中任一语音识别模型确定方法获得的语音识别模型。

步骤304，根据各帧语音数据对应的音节，确定待识别语音数据对应的文本。具体地，可以根据语言模型、发音词典以及各帧语音数据对应的音节，确定待识别语音数据对应的文本。其中，发音词典用于将语音识别模型得到的音节转换为多个可能的文本，语言模型用于对各文本进行评估，确定音节对应的文本。上述发音词典和语言模型分别可以采用现有的发音词典和语言模型。

上述实施例中提供的语音识别方法，根据音节对语音数据进行识别，与传统的音素相比，音节的粒度更大，持续时间更长，发音更加稳定，对上下文的变化更加鲁棒，与人类的感知也更加匹配，从而可以提升语音识别的准确性。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

下面对本公开实施例的语音识别模型的语音识别效果进行测试，获得字错误率(character error rate,CER)，作为语音识别效果的评价指标。测试过程中采用了多组测试数据，包括数据库AISHELL-1中的测试集(用AS1_test表示)，数据库AISHELL-2中的开发集(用AS2_dev表示)、数据库AISHELL-2中的测试集(用AS2_test表示)、来自语音输入的真实语音测试集(用VoiceInput表示)和来自短视频中的真实语音测试集(用ShortVideo表示)。

图4为基于不同HMM拓扑结构的语音识别模型的字错误率测试结果，其中的A-F分别对应图2所示的HMM结构。由图4的测试结果可见，基于图2(F)所示的HMM拓扑结构获得的语音识别模型的CER最小，这是由于图2(F)所示的HMM拓扑结构既有助于音节内部的声学变换建模，又有助于更确定性的状态对齐，从而可以提升语音识别的准确性，实现更准确的语音识别效果。

图5至图8为基于不同TDNN-LSTM配置的语音识别模型(分别用SylNet-0、SylNet-1、SylNet-2和SylNet-3表示)的配置数据，图9为基于不同TDNN-LSTM配置以及不同HMM拓扑结构的语音识别模型的延时(Latency)和字错误率(CER)测试结果，其中，Baseline为现有的采用音素作为建模单元获得的语音识别模型，其TDNN-LSTM配置与SylNet-0相同。由图9的测试结果可见，基于图2(F)所示的HMM拓扑结构的SylNet-3的CER最小，且延时较小，最后一行的CERR表示SylNet-3的CER相对于Baseline的CER的降低率，可见CER降低了5％左右，这是由于SylNet-3的TDNN-LSTM配置对各层的输入和采样帧频率做了优化，实现了更高的模型计算效率，且HMM拓扑结构的优化和TDNN-LSTM配置的优化具有互补性，在延时较小的同时可以进一步提升语音识别的准确性。

图10为基于不同TDNN-LSTM配置以及不同HMM拓扑结构的语音识别模型的另一字错误率测试结果，由图10的测试结果可见，在几个不同的测试数据下，基于图2(F)所示的HMM拓扑结构的SylNet-3的CER都相对较小，SylNet-3的CER相对于Baseline的CER的降低率(CERR)最高可达到9.8％，这是由于音节相对于音素具有更稳定的声学特征，对于环境、说话人的差异比较不敏感，从而能够适应更复杂的环境中的语音识别。

图11为基于不同TDNN-LSTM配置以及不同HMM拓扑结构的语音识别模型的另一字错误率测试结果，其中，+5db和+0db分别表示信噪比为5db和0db的噪音测试数据，由图11的测试结果可见，随着信噪比的降低，SylNet-3的CER相对于Baseline的CER的降低率(CERR)从9.4％提高到13.1％，说明SylNet-3在噪音环境下的鲁棒性更好。

图12为基于不同TDNN-LSTM配置以及不同HMM拓扑结构的语音识别模型的解码速度测试结果，采用解码实时因子(real time factor,RTF)作为解码速度的评价指标，最后一行的RTFR表示SylNet-3的RTF相对于Baseline的RTF的增加率，由图12的测试结果可见，SylNet-3的解码速度相对于Baseline的解码速度提高了33.3％。

图13是根据一示例性实施例示出的一种语音识别模型确定装置框图，如图13所示，该语音识别模型确定装置1300包括：获取模块1310、特征提取模块1320、对齐模块1330、识别模块1340和训练模块1350。

获取模块1310，被配置为获取样本语音数据。

特征提取模块1320，被配置为对样本语音数据进行分帧，对分帧获得的各帧样本语音数据进行特征提取，获得各帧样本语音数据的语音特征。

对齐模块1330，被配置为对各帧样本语音数据的语音特征基于音节进行对齐，得到各帧样本语音数据对应的音节标签。

识别模块1340，被配置为采用待训练语音识别模型对各帧样本语音数据的语音特征进行识别，获得各帧样本语音数据对应的预测音节。

训练模块1350，被配置为根据各帧样本语音数据对应的预测音节和音节标签，训练待训练语音识别模型，得到训练好的语音识别模型。

上述实施例中提供的语音识别模型确定装置，根据音节对语音数据进行识别，与传统的音素相比，音节的粒度更大，持续时间更长，发音更加稳定，对上下文的变化更加鲁棒，与人类的感知也更加匹配，从而基于音节建模得到的语音识别模型，可以提升语音识别的准确性。

可选的，对齐模块1330包括：训练单元和对齐单元。训练单元，被配置为训练获得隐马尔可夫模型-混合高斯模型；对齐单元，被配置为采用隐马尔可夫模型-混合高斯模型对各帧样本语音数据的语音特征基于音节进行对齐，得到各帧样本语音数据对应的音节标签。

可选的，训练单元包括：获取子单元、特征提取子单元和训练子单元。获取子单元，被配置为获取样本语音数据以及样本语音数据对应的音节序列；特征提取子单元，被配置为对样本语音数据进行特征提取，获得样本语音数据的语音特征；训练子单元，被配置为采用待训练隐马尔可夫模型-混合高斯模型对语音特征基于音节进行对齐，获得语音特征对应的音节数据，根据语音特征对应的音节数据以及音节序列，训练待训练隐马尔可夫模型-混合高斯模型，得到训练好的隐马尔可夫模型-混合高斯模型。

可选的，待训练语音识别模型的结构包括时延神经网络-长短期记忆网络层和归一化层；识别模块1340包括：特征抽取单元和识别单元。特征抽取单元，被配置为通过时延神经网络-长短期记忆网络层，对各帧语音数据的语音特征进行特征抽取，获得各帧语音数据的目标特征；识别单元，被配置为通过归一化层对各目标特征进行识别，获得各帧语音数据对应的预测音节。

可选的，特征抽取单元包括：第一特征抽取子单元和第二特征抽取子单元。第一特征抽取子单元，被配置为通过时延神经网络对当前帧语音数据以及当前帧的前后帧语音数据的语音特征进行特征抽取，获得当前帧语音数据的中间输出特征；第二特征抽取子单元，被配置为通过长短期记忆网络对当前帧语音数据的语音特征以及中间输出特征进行特征抽取，获得当前帧语音数据的目标特征。

可选的，第一特征抽取子单元被配置为以第一帧采样频率，将当前帧语音数据以及当前帧的前后帧语音数据的语音特征输入时延神经网络，通过时延神经网络对当前帧语音数据以及当前帧的前后帧语音数据的语音特征进行特征抽取，获得当前帧语音数据的中间输出特征；第二特征抽取子单元被配置为以小于第一帧采样频率的第二帧采样频率，将当前帧语音数据的语音特征以及中间输出特征输入时延神经网络，通过长短期记忆网络对当前帧语音数据的语音特征以及中间输出特征进行特征抽取，获得当前帧语音数据的目标特征。

图14是根据一示例性实施例示出的一种语音识别装置框图，如图14所示，该语音识别装置1400包括：获取模块1410、特征提取模块1420、识别模块1430和确定模块1440。

获取模块1410，被配置为获取待识别语音数据。

特征提取模块1420，被配置为对待识别语音数据进行分帧，对分帧获得的各帧语音数据进行特征提取，获得各帧语音数据的语音特征。

识别模块1430，被配置为采用上述实施例中任一语音识别模型确定方法获得的语音识别模型对各帧语音数据的语音特征进行识别，获得各帧语音数据对应的音节。

确定模块1440，被配置为根据各帧语音数据对应的音节，确定待识别语音数据对应的文本。

可选的，语音识别装置1400还可以包括上述语音识别模型确定装置1300，语音识别模型确定装置1300被配置为获取训练好的语音识别模型。

上述实施例中提供的语音识别装置，根据音节对语音数据进行识别，与传统的音素相比，音节的粒度更大，持续时间更长，发音更加稳定，对上下文的变化更加鲁棒，与人类的感知也更加匹配，从而可以提升语音识别的准确性。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图15是根据一示例性实施例示出的一种用于语音识别模型确定或语音识别的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图15所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型确定方法或语音识别方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

图16是根据一示例性实施例示出的一种用于语音识别模型确定或语音识别的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图16所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型确定方法或语音识别方法。

本领域技术人员可以理解，图15和图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种电子设备，包括处理器和用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现上述实施例中任一语音识别模型确定方法或语音识别方法的步骤。

在一个实施例中，提供了一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例中任一语音识别模型确定方法或语音识别方法的步骤。

在一个实施例中，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一语音识别模型确定方法或语音识别方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音识别模型确定方法，其特征在于，包括：

获取样本语音数据；

2.根据权利要求1所述的方法，其特征在于，所述对所述各帧样本语音数据的语音特征基于音节进行对齐，得到所述各帧样本语音数据对应的音节标签，包括：采用隐马尔可夫模型-混合高斯模型对所述各帧样本语音数据的语音特征基于音节进行对齐，得到所述各帧样本语音数据对应的音节标签。

3.根据权利要求2所述的方法，其特征在于，所述隐马尔可夫模型-混合高斯模型的训练过程包括：

获取样本语音数据以及所述样本语音数据对应的音节序列；

4.根据权利要求1所述的方法，其特征在于，所述待训练语言识别模型的结构包括时延神经网络-长短期记忆网络层和归一化层；所述采用待训练语音识别模型对所述各帧样本语音数据的语音特征进行识别，获得所述各帧样本语音数据对应的预测音节，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过所述时延神经网络-长短期记忆网络层，对所述各帧语音数据的语音特征进行特征抽取，获得所述各帧语音数据的目标特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述通过所述时延神经网络对当前帧语音数据以及所述当前帧的前后帧语音数据的语音特征进行特征抽取，获得所述当前帧语音数据的中间输出特征，包括：

7.一种语音识别方法，其特征在于，包括：

获取待识别语音数据；

采用权利要求1至6中任一项所述方法获得的语音识别模型对所述各帧语音数据的语音特征进行识别，获得所述各帧语音数据对应的音节；

8.一种语音识别模型确定装置，其特征在于，包括：

获取模块，被配置为获取样本语音数据；

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述存储器上所存放的指令时，实现如权利要求1至7中任一项所述方法的步骤。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述方法的步骤。