CN108510979A

CN108510979A - 一种混合频率声学识别模型的训练方法及语音识别方法

Info

Publication number: CN108510979A
Application number: CN201710108893.5A
Authority: CN
Inventors: 范利春
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2017-02-27
Filing date: 2017-02-27
Publication date: 2018-09-07
Anticipated expiration: 2037-02-27
Also published as: WO2018153214A1; US20200380954A1; TW201832223A; CN108510979B; US11120789B2

Abstract

本发明公开了一种混合频率声学识别模型的训练方法及语音识别方法，属于语音识别技术领域；方法包括：获取第一语音信号的第一类语音特征并进行处理，以得到对应的第一语音训练数据；获取第二语音信号的第一类语音特征并对进行处理，以得到对应的第二语音训练数据；根据功率谱获取第一语音信号的第二类语音特征以及第二语音信号的第二类语音特征；根据第一语音信号和第二语音信号预训练形成混合频率声学识别模型的一初步识别模型；根据第一语音训练数据、第二语音训练数据以及第二类语音特征对初步识别模型进行有监督的参数训练，以形成混合频率声学识别模型。上述技术方案的有益效果是：识别模型具有较好的鲁棒性和泛化性。

Description

一种混合频率声学识别模型的训练方法及语音识别方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种混合频率声学识别模型的训练方法及语音识别方法。

背景技术

现有技术中，由于使用环境、数据传输要求和传输使用的技术手段的不同，不同的录音设备和存储方法之间存在较大的差异，其中比较主要的差异在于采样频率的差异。例如8kHz采样频率的语音数据通常来自于电话录音，那么在传统的语音识别方法中会专门利用电话数据训练形成一个8kHz数据的声学识别模型。相应地，16kHz采样频率的语音数据通常来自于桌面录音，同样利用桌面数据训练形成一个16kHz数据的声学识别模型。因此传统的针对混合采样频率的语音数据的声学识别方法是针对不同环境不同采样频率的语音数据分别建立声学识别模型。

尽管使用专用的声学模型能够使得测试环境和训练环境更加匹配，但是这样做也会带来很多弊端：一是识别模型的更新和维护会非常繁琐，需要分别针对每个专用的声学模型进行专门的更新和维护；二是每个专用的声学模型分别进行训练会使得各个模型的训练数据不够充分，模型的鲁棒性和泛化性也会受到限制。

发明内容

根据现有技术中存在的上述问题，现提供一种混合频率声学识别模型的训练方法及语音识别方法的技术方案，旨在针对不同采样频率的语音信号形成一个统一的声学识别模型，使得模型对不同采样频率的数据具有较好的鲁棒性和泛化性，并且能够较好地抑制环境噪声对语音识别的影响。

上述技术方案具体包括：

一种混合频率声学识别模型的训练方法，其中，训练形成一统一的所述混合频率声学识别模型，以分别对具有一第一采样频率的第一语音信号进行声学识别，以及对具有一第二采样频率的第二语音信号进行声学识别；

所述混合频率声学识别模型的训练方法具体包括：

步骤S1，获取所述第一语音信号的第一类语音特征并对所述第一语音数据进行处理，以得到对应的第一语音训练数据；

步骤S2，获取所述第二语音信号的所述第一类语音特征并对所述第二语音数据进行处理，以得到对应的第二语音训练数据；

步骤S3，根据所述第一语音信号的功率谱获取所述第一语音信号的第二类语音特征，以及根据所述第二语音信号的功率谱获取所述第二语音信号的第二类语音特征；

步骤S4，根据所述第一语音信号和所述第二语音信号预训练形成所述混合频率声学识别模型的一初步识别模型；

步骤S5，根据所述第一语音训练数据、所述第二语音训练数据以及所述第二类语音特征对所述初步识别模型进行有监督的参数训练，以形成所述混合频率声学识别模型。

优选的，该训练方法，其中，所述第一采样频率为16KHz的采样频率。

优选的，该训练方法，其中，所述第二采样频率为8KHz的采样频率。

优选的，该训练方法，其中，所述第一类语音特征为MFCC特征。

优选的，该训练方法，其中，所述第二类语音特征为fbank特征。

优选的，该训练方法，其中，所述步骤S1中，对所述第一语音信号进行处理以得到所述第一语音训练数据的方法具体包括：

步骤S11，利用所述第一类语音特征训练形成一第一声学模型；

步骤S12，利用所述第一声学模型对所述第一语音信号进行强制对齐操作，以形成帧对齐的所述第一语音训练数据。

优选的，该训练方法，其中，所述步骤S2中，利用与所述第一声学模型相同的三音子决策树获取所述第二语音信号的所述第一类语音特征。

优选的，该训练方法，其中，所述步骤S2中，对所述第二语音信号进行处理以得到所述第二语音训练数据的方法具体包括：

步骤S21，利用所述第二类语音特征训练形成一第二声学模型；

步骤S22，利用所述第二声学模型对所述第二语音信号进行强制对齐操作，以形成帧对齐的所述第二语音训练数据。

优选的，该训练方法，其中，所述第一声学模型为GMM-HMM声学模型。

优选的，该训练方法，其中，所述第二声学模型为GMM-HMM声学模型。

优选的，该训练方法，其中，所述第一语音信号的所述第一采样频率为16KHz；

所述步骤S3中，获取所述第一语音信号中的所述第二类语音特征的方法具体包括：

步骤S31a，获取所述第一语音信号的功率谱；

步骤S32a，采用梅尔滤波器组，根据所述第一语音信号的所述功率谱对所述第一语音信号的高频带的信号部分进行规整，以得到所述第一语音信号的所述第二类语音特征的高频部分；

步骤S33a，采用梅尔滤波器组，根据所述第一语音信号的所述功率谱对所述第一语音信号的低频带的信号部分进行规整，以得到所述第一语音信号的所述第二类语音特征的低频部分；

步骤S34a，结合所述高频部分和所述低频部分得到所述第一语音信号的所述第二类语音特征。

优选的，该训练方法，其中，所述第二语音信号的所述第二采样频率为8KHz；

所述步骤S3中，获取所述第二语音信号中的所述第二类语音特征的方法具体包括：

步骤S31b，获取所述第二语音信号的功率谱；

步骤S32b，采用梅尔滤波器组，根据所述第二语音信号的所述功率谱对所述第二语音信号进行规整，以得到所述第二语音信号的所述第二类语音特征的低频部分；

步骤S33b，对所述第二语音信号进行高维补零处理，以得到所述第二语音信号的所述第二类语音特征的高频部分；

步骤S34b，结合所述高频部分和所述低频部分得到所述第二语音信号的所述第二类语音特征。

优选的，该训练方法，其中，所述混合频率声学识别模型为部分连接的深度神经网络模型；或者

所述混合频率声学识别模型为全连接的深度神经网络模型。

优选的，该训练方法，其中，所述步骤S4中，采用限制玻尔兹曼机，根据所述第一语音信号和所述第二语音信号对所述深度神经网络模型进行预训练，以形成所述混合频率声学模型的初步识别模型。

优选的，该训练方法，其中，所述步骤S5中，采用随机梯度下降方法，根据所述第一语音训练数据、所述第二语音训练数据以及所述第二类语音特征对所述初步识别模型进行有监督的参数训练，以形成所述混合频率声学识别模型。

一种语音识别方法，其中，采用上述的混合频率声学识别模型的训练方法。

上述技术方案的有益效果是：提供一种混合频率声学识别模型的训练方法，能够针对不同采样频率的语音信号形成一个统一的声学识别模型，使得模型对不同采样频率的数据具有较好的鲁棒性和泛化性，并且能够较好地抑制环境噪声对语音识别的影响。

附图说明

图1是本发明的较佳的实施例中，一种混合频率声学识别模型的训练方法的总体流程示意图；

图2-3是本发明的较佳的实施例中，训练得到第一类语音特征的流程示意图；

图4-5是本发明的较佳的实施例中，训练得到第二类语音特征的流程示意图；

图6是本发明的一个较佳的实施例中，采用梅尔滤波器组训练得到第二类语音特征的示意图；

图7是本发明的一个较佳的实施例中，采用部分连接的深度神经网络作为混合频率声学识别模型的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

基于现有技术中存在的上述问题，现提供一种混合频率声学识别模型的训练方法，该方法中，训练形成一统一的混合频率声学识别模型，以分别对具有一第一采样频率的第一语音信号进行声学识别，以及对具有一第二采样频率的第二语音信号进行声学识别。换言之，在该训练方法中，针对多种不同采样频率的语音数据，训练形成一个统一的声学识别模型进行识别，而非如传统方法那样针对每种语音数据训练形成专用的声学识别模型进行识别。

上述训练方法具体如图1所示，包括：

步骤S1，获取第一语音信号的第一类语音特征并对第一语音数据进行处理，以得到对应的第一语音训练数据；

步骤S2，获取第二语音信号的第一类语音特征并对第二语音数据进行处理，以得到对应的第二语音训练数据；

步骤S3，根据第一语音信号的功率谱获取第一语音信号的第二类语音特征，以及根据第二语音信号的功率谱获取第二语音信号的第二类语音特征；

步骤S4，根据第一语音信号和第二语音信号预训练形成混合频率声学识别模型的一初步识别模型；

步骤S5，根据第一语音训练数据、第二语音训练数据以及第二类语音特征对初步识别模型进行有监督的参数训练，以形成混合频率声学识别模型。

具体地，本实施例中，首先需要分别获得上述第一语音信号和第二语音信号的第一类语音特征。上述第一语音信号的第一类语音特征和第二语音信号的第二类语音特征应当保持一致，因此应当采用相同的三音子决策树分别处理获取上述第一语音信号和第二语音信号的第一类语音特征。进一步地，上述第一类语音特征为梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)特征，具体获取过程在下文中详述。

在获取上述第一类语音特征后，根据第一类语音特征分别对对应的第一语音信号或者第二语音信号进行处理，以得到第一语音训练数据或者第二语音训练数据。

本实施例中，随后分别获取第一语音信号和第二语音信号的第二类语音特征。进一步地，上述第二类语音特征为fbank特征，具体获取过程在下文中详述。

本实施例中，将上述第一语音信号和第二语音信号作为输入数据，对混合频率声学识别模型进行预训练，以形成一个初步模型，随后根据上述第一类语音特征、第二类语音特征以及上述第一语音训练数据和第二语音训练数据对上述初步模型进行有监督的参数训练，并最终训练形成混合频率声学识别模型。

本发明的较佳的实施例中，上述第一语音信号的第一采样频率为16kHz，通常来自电话录音。而上述第二语音信号的第二采样频率为8kHz，通常来自桌面录音。

本发明的较佳的实施例中，上述步骤S1中，如图2中所示，对上述第一语音信号进行处理以得到第一语音训练数据的方法具体包括：

步骤S11，利用第一类语音特征训练形成一第一声学模型；

步骤S12，利用第一声学模型对第一语音信号进行强制对齐操作，以形成帧对齐的第一语音训练数据。

具体地，本实施例中，首先对上述第一语音信号提取第一类语音特征(即MFCC特征)，随后利用该第一类语音特征训练形成一个第一声学模型。MFCC特征是语音识别领域内最常见的语音特征，从语音信号中提取MFCC特征的方法在现有技术中也有较为成熟的实现方式，在此不再赘述。

本发明的一个较佳的实施例中，在基于DNN-HMM(Deep Neural Networks-HiddenMarkov Model，深度神经网络-隐马尔可夫模型)框架的声学模型出现之前，基于GMM-HMM(Gaussian Mixture Model-Hidden Markov Model，高斯混合模型-隐马尔可夫模型)框架的声学模型是语音识别领域最为广泛的配置。这种框架结构利用隐马尔可夫模型对三音子状态进行转移建模，并且利用高斯混合模型对状态的发射概率建模，这些状态正好都对应深度神经网络模型的输出节点。因此，当上述混合频率声学识别模型为深度神经网络模型时，上述第一声学模型可以为GMM-HMM声学模型，即利用上述MFCC特征训练形成一GMM-HMM声学模型。

本实施例中，利用上述训练形成的第一声学模型对上述第一语音信号进行强制对齐。所谓强制对齐，是指将语音的每一帧语音特征都对应到绑定三音子的某一个状态上去，而这些状态正好对应着混合频率声学识别模型的输出节点。有了帧对齐的数据就可以对混合频率声学识别模型(深度神经网络模型)进行有监督的参数训练了。

本发明的较佳的实施例中，类似上文中，上述步骤S2中，对第二语音信号进行处理以得到第二语音训练数据的方法如图3所示，具体包括：

步骤S21，利用第二类语音特征训练形成一第二声学模型；

步骤S22，利用第二声学模型对第二语音信号进行强制对齐操作，以形成帧对齐的第二语音训练数据。

上述获取第二类语音特征并训练形成第二声学模型，随后利用第二声学模型对第二语音信号进行强制操作的过程与上文中针对第一语音信号的操作类似，在此不再赘述。

应当注意的是，由于16kHz语音与8kHz语音的语音特征存在较大的差异，其中每一维所涵盖的频域都是不相同的，因此这两种语音数据无法共享同一个GMM-HMM模型，并且由于需要使用16kHz语音数据和8kHz语音数据共同训练形成同一个混合频率声学识别模型，因此这两种语音数据帧对齐的输出节点要保持一致。则在对上述第二语音信号提取第二类语音特征时，采用与上述第一声学模型相同的三音子决策树提取，即第一语音信号和第二语音信号中提取第一类语音特征所使用的音子集和决策树相同。

本发明的较佳的实施例中，上述步骤S3中，获取16kHz的第一语音信号中的第二类语音特征的方法具体如图4所示，包括：

步骤S31a，获取第一语音信号的功率谱；

步骤S32a，采用梅尔滤波器组，根据第一语音信号的功率谱对第一语音信号的高频带的信号部分进行规整，以得到第一语音信号的第二类语音特征的高频部分；

步骤S33a，采用梅尔滤波器组，根据第一语音信号的功率谱对第一语音信号的低频带的信号部分进行规整，以得到第一语音信号的第二类语音特征的低频部分；

步骤S34a，结合高频部分和低频部分得到第一语音信号的第二类语音特征。

具体地，本实施例中，如上文中所述，上述第二类语音特征为fbank特征。则上述步骤中，首先获取第一语音信号的功率谱，随后Mel滤波器组分别对该第一语音信号的高频带和低频带进行规整，以获取语音的fbank特征。具体地，获取语音信号的功率谱的方法是所有语音特征都需要进行的处理过程，大致需要进行语音信号的预加重、分帧、加窗、快速傅里叶变换以得到语音信号的频谱，然后再得到功率谱。

本实施例中，常见的Mel滤波器组对功率谱进行规整的过程中，对于16kHz的语音数据(第一语音信号)通常采用24维的Mel滤波器组，对于8kHz的语音数据(第二语音信号)通常采用8维的Mel滤波器组。而在本发明中，对于第一语音信号的低频带部分采用22维的Mel滤波器组进行规整以形成上述低频部分，对于第一语音信号的高频带部分采用7维的Mel滤波器组进行规整以形成上述高频部分，随后归纳上述低频部分和高频部分形成第二类语音特征(具体如图6所示)。

本发明的较佳的实施例中，上述步骤S3中，获取8kHz的第二语音信号中的第二类语音特征的方法具体如图5所示，包括：

步骤S31b，获取第二语音信号的功率谱；

步骤S32b，采用梅尔滤波器组，根据第二语音信号的功率谱对第二语音信号进行规整，以得到第二语音信号的第二类语音特征的低频部分；

步骤S33b，对第二语音信号进行高维补零处理，以得到第二语音信号的第二类语音特征的高频部分；

步骤S34b，结合高频部分和低频部分得到第二语音信号的第二类语音特征。

获取上述第二语音信号的功率谱的方式与上述第一语音信号相同，均为现有技术中通常采用的方式，在此不再赘述。

本实施例中，由于8kHz的第二语音信号没有高频段，因此经过Mel滤波器组之后仅为22维的特征。为了使得第二语音信号和第一语音信号具有相同长度的语音特征，在对第二语音信号采用Mel滤波器组进行规整之后，对其进行高维补零处理，即对其高频带用零补齐，从而同样形成第二类语音特征。

上述处理之后，第二语音信号的第二类语音特征与第一语音信号的第二类语音特征的长度相同，并且语音特征在低频带能够共享。

本发明的较佳的实施例中，上述混合频率声学识别模型为部分连接或者全连接的深度神经网络模型。

具体地，全连接的深度神经网络模型无法单独处理语音中来自不同频段的噪声干扰。因此可以提供一种部分连接的深度神经网络模型，该深度神经网络中包括至少一个部分连接的隐藏层，每个部分连接的隐藏层71仅接受来自特定频段的输入数据，并且这些输入数据之间没有相互重叠。高层的部分连接层同样仅接受来自底层的部分连接层的输入数据。这样在每一组频率段之间就不存在相互交叉的影响，从而使得每个神经网络能够单独处理对应频段内的噪声。在上述部分连接的神经元层之上是多个全连接的神经元层，其能够将对应每组频段的输入数据进行结合处理，并最终形成一个具有表达能力的特征组合，进而得到输出结果。

本发明的一个较佳的实施例中，上述部分连接的深度神经网络的一种神经网络结构如图7所示。若输入的语音特征被分为m个频带部分，被表示为：

V＝[v₁,v₂,...,v_m]； (1)

则上述部分连接的隐藏层也相应地被分为m个部分，则第n个部分的部分连接的隐藏层的各个部分被表示为：

H_n＝[h_n1,h_n2,...,h_nm]； (2)

那么第k个部分的值可以通过比其第一层的第k个部分的值计算得到，具体为：

其中，

θ(*)为激活函数；

用于表示第n个部分连接的隐藏层的第k个部分的权重矩阵；

用于表示第n个部分连接的隐藏层的第k个部分的偏置量。

本发明中，部分连接的深度神经网络与全连接的深度神经网络在训练方法上是相通的，部分连接的神经网络的部分连接层在进行预训练时，可以看作是对多个相互分离的深度神经网络进行预训练。本发明中，采用部分连接的深度神经网络作为混合频率声学识别模型能够提升其抗噪性能，对多种环境噪声均能够有效抑制，并且能够获得比普通的全连接的深度神经网络更好的识别性能。

本发明中同样可以采用全连接的深度神经网络作为混合频率声学识别模型，其在抗噪性能上略逊于部分连接的深度神经网络。

如上文中所述，部分连接的深度神经网络和全连接的深度神经网络在训练步骤上是相通的，因此下文中不再一一对全连接的深度神经网络和部分连接的深度神经网络的训练过程做分别阐述。

本发明的较佳的实施例中，上述步骤S4中，采用限制玻尔兹曼机，根据第一语音信号和第二语音信号对深度神经网络模型进行预训练，以形成混合频率声学模型的初步识别模型。

具体地，本实施例中，以部分连接的深度神经网络为例，对于上述第二类语音特征，部分连接层采用两个部分分别对应第二类语音特征的低频部分和高频部分，即0-4kHz对应低频部分，4-8kHz对应高频部分。随后将fbank特征的低频部分输入到部分连接层的第一个部分，将fbank特征的高频部分输入到部分连接层的第二个部分，最后利用限制玻尔兹曼机(Restricted Boltzmann Machine，RBM)对部分连接的深度神经网络进行预训练以形成混合频率声学识别模型的初步模型。

本发明的较佳的实施例中，上述步骤S5中，可以采用随机梯度下降方法，根据第一语音训练数据、第二语音训练数据以及第二类语音特征对初步识别模型进行有监督的参数训练，以形成混合频率声学识别模型。

具体地，本实施例中，可以采用随机梯度下降法(Stochastic Gradient descent，SGD)对整个初步模型进行有监督的优化训练。具体地，利用fbank特征和帧对齐的第一语音训练数据和第二语音训练数据对初步模型进行有监督训练。训练过程中可以使用真实数据的开发集来观测模型的性能。开发集的测试性能会随着模型的迭代逐渐变好。当开发集的性能增加变慢并且两次模型迭代在开发集上的绝对性能增加小于一预设阈值时，训练停止。此时训练好的模型即为最终完成的混合频率声学识别模型。根据这个模型能够分别对16kHz的第一语音信号和8kHz的第二语音信号进行识别，提升了模型的鲁棒性和泛化性。当该混合频率声学识别模型采用部分连接的深度神经网络模型训练形成时，其抗噪性能也有所提升，对于多种环境噪声都能够有效抑制，并且进一步提升了识别性能。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种混合频率声学识别模型的训练方法，其特征在于，训练形成一统一的所述混合频率声学识别模型，以分别对具有一第一采样频率的第一语音信号进行声学识别，以及对具有一第二采样频率的第二语音信号进行声学识别；

所述混合频率声学识别模型的训练方法具体包括：

2.如权利要求1所述的训练方法，其特征在于，所述第一采样频率为16KHz的采样频率。

3.如权利要求1所述的训练方法，其特征在于，所述第二采样频率为8KHz的采样频率。

4.如权利要求1所述的训练方法，其特征在于，所述第一类语音特征为MFCC特征。

5.如权利要求1所述的训练方法，其特征在于，所述第二类语音特征为fbank特征。

6.如权利要求1所述的训练方法，其特征在于，所述步骤S1中，对所述第一语音信号进行处理以得到所述第一语音训练数据的方法具体包括：

7.如权利要求6所述的训练方法，其特征在于，所述步骤S2中，利用与所述第一声学模型相同的三音子决策树获取所述第二语音信号的所述第一类语音特征。

8.如权利要求1所述的训练方法，其特征在于，所述步骤S2中，对所述第二语音信号进行处理以得到所述第二语音训练数据的方法具体包括：

9.如权利要求6或7所述的训练方法，其特征在于，所述第一声学模型为GMM-HMM声学模型。

10.如权利要求8所述的训练方法，其特征在于，所述第二声学模型为GMM-HMM声学模型。

11.如权利要求1所述的训练方法，其特征在于，所述第一语音信号的所述第一采样频率为16KHz；

步骤S31a，获取所述第一语音信号的功率谱；

12.如权利要求1所述的训练方法，其特征在于，所述第二语音信号的所述第二采样频率为8KHz；

步骤S31b，获取所述第二语音信号的功率谱；

13.如权利要求1所述的训练方法，其特征在于，所述混合频率声学识别模型为部分连接的深度神经网络模型；或者

所述混合频率声学识别模型为全连接的深度神经网络模型。

14.如权利要求13所述的训练方法，其特征在于，所述步骤S4中，采用限制玻尔兹曼机，根据所述第一语音信号和所述第二语音信号对所述深度神经网络模型进行预训练，以形成所述混合频率声学模型的初步识别模型。

15.如权利要求13所述的训练方法，其特征在于，所述步骤S5中，采用随机梯度下降方法，根据所述第一语音训练数据、所述第二语音训练数据以及所述第二类语音特征对所述初步识别模型进行有监督的参数训练，以形成所述混合频率声学识别模型。

16.一种语音识别方法，其特征在于，采用如权利要求1-15所述的混合频率声学识别模型的训练方法。