CN108682417B

CN108682417B - 语音识别中的小数据语音声学建模方法

Info

Publication number: CN108682417B
Application number: CN201810455011.7A
Authority: CN
Inventors: 陶建华; 易江燕; 温正棋
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2020-05-19
Anticipated expiration: 2038-05-14
Also published as: CN108682417A

Abstract

本发明属于电子行业信号处理技术领域，旨在解决只具有少量标注数据的目标语种的声学模型判别性能低的问题。为此，本发明提供了一种语音识别中的小数据语音声学建模方法，包括：通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型；将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征；将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征；利用融合特征进行训练，以建立目标语种的声学模型。采用该方法有效地克服了现有技术中因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显，甚至负迁移现象，从而提高目标语种的语音识别精度。

Description

语音识别中的小数据语音声学建模方法

技术领域

本发明涉及电子行业信号处理技术领域，具体涉及一种语音识别中的小数据语音声学建模方法。

背景技术

语音交互是人机交互最为自然的一种方式，而语音识别又是语音交互中最重要的技术。近年来，随着深度学习技术在语音识别中的深入应用，语音识别技术取得了重大突破。

众所周知，深度学习需要大量标注数据，对于普通话或英语来说，这些标注数据很容易获得，然而对于方言来说，很难获取到大量的标注数据，只能采集到少量标注数据。因此，对于建立标注数据量少的目标语种(如方言)的声学模型，采用常规的深度学习方法效果并不理想。

目前，已有学者采用多语种训练技术训练具有大量标注数据的语种的瓶颈网络，再利用该瓶颈网络提取目标语种的瓶颈特征，然后将提取出的瓶颈特征用于辅助目标语种进行声学建模，这样可以从已有资源(如普通话或英语)中迁移知识来辅助目标语种进行建模，此种方法在一定程度上提高了目标语种的识别精度。

但是，该方法目前仍然存在问题。依据上述方法提取出的瓶颈特征往往包含了大量语种相关的信息，这些语种相关的信息对目标语种的识别性能提升不明显，甚至会带来负迁移，导致目标语种的声学模型的精度降低，从而影响目标语种的语音识别精度。

相应地，本领域需要一种新的声学建模方法来解决上述问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有目标语种的声学模型识别精度低的问题，本发明提供了一种语音识别中的小数据语音声学建模方法，该声学建模方法包括：

通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型；

将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征；

将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征；

利用融合特征进行训练，以建立目标语种的声学模型。

在上述声学建模方法的优选技术方案中，在“对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型”的步骤之前，该声学建模方法还包括：采集多语种以形成多语种语音数据库；基于该多语种语音数据库提取多语种的声学特征。

在上述声学建模方法的优选技术方案中，训练多语种对抗的瓶颈网络模型的准则为多语种对抗训练，其损失函数表示为L_All，其公式表示为：

L_All(θ^m,θ^a,θ^s)＝L_Mul(θ^m,θ^s)+λL_Adv(θ^a,θ^s)；

损失函数中模型参数的更新过程表示为：

其中，L_All表示多语种对抗训练的损失函数，L_Mul表示多语种训练的损失函数，L_Adv表示语种对抗判别器的损失函数，m表示语种的类别，θ^m表示只与语种m相关的模型参数，θ^a表示语种对抗判别器的模型参数，θ^s表示所有语种共享的隐层的模型参数，α表示瓶颈网络的学习速率，λ表示L_Adv的权重，λ的取值范围为[0,1]。

在上述声学建模方法的优选技术方案中，多语种训练的损失函数L_Mul的公式表示为：

语种对抗判别器的损失函数L_Adv的公式表示为：

其中，M表示所有语种的数目，i表示某一帧语音的序号，N_m表示语种m的所有语音帧总数，P表示概率，

表示语种m的第i帧特征向量，

表示语种m的第i帧特征向量对应的输出标签。

在上述声学建模方法的优选技术方案中，多语种对抗的瓶颈网络模型包含共享隐层，共享隐层包含若干层，语种对抗判别器通过梯度可逆层连接共享隐层的节点来进行语种判别的对抗，以使共享隐层能学习到语种无关的特征。

在上述声学建模方法的优选技术方案中，在“将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取与语种无关的瓶颈特征”的步骤之前，声学建模方法还包括：采集目标语种以形成目标语种语音数据库；基于目标语种语音数据库提取目标语种的声学特征。

在上述声学建模方法的优选技术方案中，“将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取与语种无关的瓶颈特征”的步骤具体包括：使用目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入；采用前向传播算法，提取语种无关的瓶颈特征。

在上述声学建模方法的优选技术方案中，“利用融合特征进行训练，以建立目标语种的声学模型”的步骤具体包括：使用融合特征作为深度神经网络的输入；利用后向传播算法进行误差反传，训练目标语种的声学模型。

在上述声学建模方法的优选技术方案中，多语种的声学特征和目标语种的声学特征均为梅尔频率倒谱系数声学特征或感知线性预测倒谱系数声学特征或梅尔标度滤波器组声学特征。

本领域技术人员能够理解的是，在本发明的优选技术方案中，通过对具有大量标注数据的现有多语种的声学特征进行对抗训练，以建立一个多语种对抗的瓶颈网络模型，通过将目标语种的声学特征作为该多语种对抗的瓶颈网络模型的输入，提取出语种无关的瓶颈特征，然后将语种无关的瓶颈特征用于辅助建立目标语种的声学模型，这样既能从现有的多语种的声学特征中迁移知识用于辅助目标语种进行声学建模，又能保证所迁移的知识是与语种无关的瓶颈特征，这不仅有效地克服了因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显，甚至负迁移现象，从而提高目标语种的语音识别精度，使得该目标语种的声学模型能够应用在目标语种只有很少训练数据的情形中。

进一步地，在本发明的优选技术方案中，训练多语种对抗的瓶颈网络模型的算法采用了多语种对抗训练的损失函数，即在原多语种训练的算法中加入语种对抗判别器，使得在输入目标语种的声学特征后，能提取出语种无关的瓶颈特征，语种无关的瓶颈特征与语种自身无关，更具通用性，融合至目标语种的声学特征中后有助于丰富用于训练的知识，进而使该目标语种的声学模型能够应用在目标语种只有很少训练数据的情形中。

更进一步地，语种对抗判别器通过梯度可逆层连接共享隐层的节点来进行语种判别的对抗，采用后向传播算法进行误差反传，能使多语种对抗的瓶颈网络模型的共享隐层学习到语种无关的特征；使得目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入后，采用前向传播算法，能提取到语种无关的瓶颈特征，利用语种无关的瓶颈特征辅助目标语种训练声学模型，进而获得识别度高的目标语种的声学模型。

附图说明

下面参照附图来描述本发明的优选实施方式。附图中：

图1为本发明的语音识别中的小数据语音声学建模方法的主要步骤流程图；

图2为本发明的语音识别中的小数据语音声学建模方法中采用多语种对抗训练技术训练多语种对抗的瓶颈网络模型的具体步骤流程图；

图3为本发明的语音识别中的小数据语音声学建模方法中利用前向传播算法从多语种对抗的瓶颈网络模型中提取语种无关的瓶颈特征的具体步骤流程图；

图4为本发明的语音识别中的小数据语音声学建模方法中利用目标语种的融合特征训练目标语种的声学模型的具体步骤流程图。

图5为本发明的语音识别中的小数据语音声学建模方法的具体步骤流程图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

基于背景技术指出的现有的目标语种的语音识别性能低的问题，本发明提供了一种语音识别中的小数据语音声学建模方法，旨在提高目标语种的识别精度，目标语种即代表小数据语音。

参照图1-5，图1为本发明的语音识别中的小数据语音声学建模方法的主要步骤流程图；图2为本发明的语音识别中的小数据语音声学建模方法中采用多语种对抗训练技术训练多语种对抗的瓶颈网络模型的具体步骤流程图；图3为本发明的语音识别中的小数据语音声学建模方法中利用前向传播算法从多语种对抗的瓶颈网络模型中提取语种无关的瓶颈特征的具体步骤流程图；图4为本发明的语音识别中的小数据语音声学建模方法中利用目标语种的融合特征训练目标语种的声学模型的具体步骤流程图；图5为本发明的语音识别中的小数据语音声学建模方法的具体步骤流程图。

参照图1，本实施例的语音识别中的小数据语音声学建模方法主要包括：

步骤S100、通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型。

具体地，参照图2，采用多语种对抗训练技术训练多语种对抗的瓶颈网络模型的具体步骤包括：

S101、采集多语种的语音数据以形成多语种语音数据库。

S102、基于步骤S101中获得的多语种语音数据库，提取多语种的声学特征。例如对于语音数据库中的每帧音频数据，对其进行特征参数提取，以获得多语种的梅尔频率倒谱系数声学特征。

更具体地，先提取多语种的静态参数，即梅尔频率倒谱系数特征参数，梅尔频率倒谱系数只反映了语音参数的静态特性，其动态特性通过分别计算各个梅尔频率倒谱系数的一阶差分和二阶差分。最终提取的特征是39维，利用这39维属性进行后续状态的识别。

S103、采用多语种对抗训练技术训练瓶颈网络模型，过程中采用后向传播算法进行参数更新。

具体地，本申请提出的多语种对抗训练技术主要是指在现有的多语种训练的损失函数的基础上增加语种对抗的约束，即增加语种对抗判别器来实现，从而保证现有的多语种瓶颈网络模型学习到的特征是跟语种无关的，即学习到的是通用的、不仅仅用在单一语种中的特征。

现有技术中，训练多语种瓶颈网络模型的准则为多语种训练，其损失函数表示为L_Mul，其公式(1)表示为：

其中，L_Mul表示多语种训练的损失函数，P表示概率，m表示语种的类别，M表示所有语种的数目，i表示某一帧语音的序号，N_m表示语种m的所有语音帧总数，

表示语种m的第i帧特征向量，

表示语种m的第i帧特征向量对应的输出标签(三音素)，θ^m表示只与语种m相关的模型参数，θ^s表示所有语种共享的模型参数。

语种对抗判别器的损失函数L_Adv的公式(2)表示为：

其中，L_Adv代表语种对抗训练的损失函数，P代表概率，m代表语种的类别，M代表所有语种的数目，i代表某一帧语音的序号，N_m代表语种m的所有语音帧总数，

代表语种m的第i帧特征向量，θ^a代表语种判别器的模型参数，θ^s代表所有语种共享的模型参数。

故此，多语种对抗训练的损失函数L_All的公式(3)定义如下：

L_All(θ^m,θ^a,θ^s)＝L_Mul(θ^m,θ^s)+λL_Adv(θ^a,θ^s) (3)

损失函数中模型参数的更新过程表示为(4)～(6)：

其中，L_All代表多语种对抗训练的损失函数，α瓶颈网络的学习速率，λ代表L_Adv的权重，该权重可调节，取值范围为[0,1].

利用步骤S102提取的特征参数，再采用步骤S103所提出的多语种对抗训练技术，并采用后向传播算法进行参数更新，即可以训练获得一个多语种对抗的瓶颈网络模型。

进一步地，本发明中的多语种对抗的瓶颈网络模型是基于长短时记忆神经网络模型构建的，该多语种对抗的瓶颈网络模型包含共享隐层参数θ^s、各自语种相关的模型参数θ^m，以及语种判别器参数θ^a。瓶颈网络模型的共享隐层包含若干层，语种对抗判别器通过梯度可逆层连接共享隐层的节点来进行语种判别的对抗，从而保证多语种对抗的瓶颈网络模型的共享隐层能学习到语种无关的特征。

步骤S200、将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征。

具体地，参照图3，利用前向传播算法从多语种对抗的瓶颈网络模型中提取语种无关的瓶颈特征的步骤具体为：

S201、采集目标语种的语音数据以形成目标语种语音数据库。

S202、基于步骤S201中的目标语种语音数据库提取目标语种的梅尔频率倒谱系数声学特征，具体提取目标语种的梅尔频率倒谱系数声学特征的过程和理由与步骤S102中类似，在此不再赘述。

S203、将步骤S202中提取的目标语种的梅尔频率倒谱系数声学特征作为步骤S104中建立的多语种对抗的瓶颈网络模型的输入。

S204、采用前向传播算法，瓶颈特征的维数取60维。

S205、经前向传播算法计算后，提取语种无关的瓶颈特征。

步骤S300、将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征。

具体地，先将步骤S205中提取的语种无关的瓶颈特征与步骤S202中提取的目标语种的梅尔频率倒谱系数声学特征进行特征融合，得到目标语种的融合特征。特征融合的策略为将上述两种特征拼接到一起，生成目标语种的融合特征。

步骤S400，利用步骤S300中获得的融合特征进行训练，以建立目标语种的声学模型。

具体地，参照图4，在获得融合特征的基础上，进行训练获得目标语种声学模型的具体步骤包括：

S401、将步骤S300中获得的融合特征作为深度神经网络声学模型的输入。

S402、对步骤S401中的深度神经网络声学模型进行训练。

S403、训练过程采用后向传播算法进行误差反传，最后会训练获得目标语种的声学模型。

在本发明的优选技术方案中，通过对具有大量标注数据的现有多语种的声学特征进行对抗训练，以建立一个多语种对抗的瓶颈网络模型，通过将目标语种的声学特征作为该多语种对抗的瓶颈网络模型的输入，提取出语种无关的瓶颈特征，然后将语种无关的瓶颈特征用于辅助建立目标语种的声学模型，这样既能从现有的多语种的声学特征中迁移知识用于辅助目标语种进行声学建模，又能保证所迁移的知识是与语种无关的瓶颈特征，这不仅有效地克服了因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显，甚至负迁移现象，从而提高目标语种的语音识别精度，使得该目标语种的声学模型能够应用在目标语种只有很少训练数据的情形中。

更具体地，参照图5，本发明的语音识别中的小数据语音声学建模方法的具体步骤如下：

S501、采集多语种的语音数据以形成多语种语音数据库；S502、基于步骤S501中的多语种语音数据库，提取多语种的梅尔频率倒谱系数声学特征；S503、基于步骤S502提取的声学特征，采用多语种对抗训练技术，训练多语种对抗的瓶颈网络模型，建立多语种对抗的瓶颈网络模型；S504、采集目标语种的语音数据以形成目标语种语音数据库；S505、基于步骤S504中的目标语种语音数据库提取目标语种的梅尔频率倒谱系数声学特征；S506、将步骤S505中提取的目标语种的梅尔频率倒谱系数声学特征作为步骤S503中获得的多语种对抗的瓶颈网络模型的输入进行预测；S507、提取语种无关的瓶颈特征；S508、融合语种无关的瓶颈特征与目标语种的梅尔频率倒谱系数声学特征，获得融合特征；S509、将步骤S508中获得的融合特征作为深度神经网络声学模型的输入，训练目标语种的深度神经网络，获得目标语种的声学模型。

关于图5的方法，需要指出的是，尽管本申请中以特定顺序对其进行了描述，但是这种顺序仅仅是示例性的，并不具有限制作用，本领域技术人员可以根据需要对其作出调整。例如，图5中的步骤S501和S504就可以同时进行，步骤S502和S505可以同时进行，甚至S504可以先于步骤S501执行等等。这些顺序调整都没有偏离本发明的基本原理，因此都将落入本发明的保护范围之内。

此外本发明中的多语种对抗的瓶颈网络模型的网络结构和目标语种的声学模型的网络结构不仅限于长短时记忆模型和深度神经网络，也可适用于其他深度神经网络模型及其变种，如深度卷积神经网络、深度循坏神经网络等。提取的声学特征可以是梅尔频率倒谱系数声学特征，也可以是其他特征，比如：感知线性预测倒谱系数声学特征或梅尔标度滤波器组声学特征等。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。