CN110634476B

CN110634476B - 一种快速搭建鲁棒性声学模型的方法及系统

Info

Publication number: CN110634476B
Application number: CN201910953684.XA
Authority: CN
Inventors: 黄磊; 田松雪; 孙维泽; 黄敏
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2022-06-14
Anticipated expiration: 2039-10-09
Also published as: CN110634476A

Abstract

本发明提供了一种快速搭建鲁棒性声学模型的方法及系统，方法包括执行以下步骤：第一步骤：数据准备阶段；准备训练样本以及测试样本；第二步骤：以CTC损失函数设计目标函数；采用端到端的训练方式，采用批量梯度的更新方式，设计目标函数；第三步骤：搭建神经网络；搭建声学模型的神经网络，以卷积神经网络、全连接网络为基础，使用随机失活缓解网络训练的过拟合，提高网络参数的泛化能力；第四步骤：构建训练网络。本发明的有益效果是：本发明公开的一种快速搭建鲁棒性声学模型的方法，在不增加语音识别系统复杂度的情况下，提高了模型对加性噪声的鲁棒性。

Description

一种快速搭建鲁棒性声学模型的方法及系统

技术领域

本发明涉及软件领域，尤其涉及一种快速搭建鲁棒性声学模型的方法及系统。

背景技术

近年来，基于深度神经网络的语音识别系统获得越来越多的关注。语音识别是一项将语音转换到对应文字的技术，是实现人机交互的核心技术之一。语音识别系统大致包含声学模型、发音字典、语言模型。其中，声学模型的性能对整体系统的性能影响起着决定性的作用。目前，有很多方法论在干净语音识别任务上能够取得很好的效果，然而这类模型需要在干净语音样本下训练，并且在带噪语音识别任务中模型会性能会大幅度下降，可见提高声学模型鲁棒性问题具有很强的工程应用意义。

研究鲁棒性声学模型的方法论大致分为以下几类，基于前端处理、后端模型、前后端联合优化。基于前端处理类的鲁棒性声学模型可类比为语音增强、降噪。该方法直接作用于声学模型的前端，其核心思想是从带噪语音中恢复出原始的干净语音，然后将干净的语音特征输入到提前训练好的声学模型进行识别。本质上，该类方法并没有解决声学模型的鲁棒性问题，而且添加一个前端处理模板后，增加了语音识别系统模型的复杂度。基于后端类的方法论可简述为设计一个深度神经网络，将带噪样本与干净样本同时用于训练网络，以增强模型的鲁棒性。基于前后端联合优化的方法论可同时优化两个任务：语音增强、语音识别。让语音识别任务的梯度参与指导语音增强的任务，使得增强的任务有利于识别的任务。因为这类联合优化的方法输入的是带噪语音，为了训练准确的声学模型，需要知道带噪语音特征所对应的音素标签、干净的语音特征。所以该类方法需要用干净的语音提前训练一个声学模型，用于为语音帧打标签。

鉴于此，有必要提供一种可以保证模型在干净语音识别任务中有较好的性能情况下，能够提高模型对加噪的声鲁棒性，同时又不增加系统复杂度的方法。

发明内容

本发明提供了一种快速搭建鲁棒性声学模型的方法，包括执行以下步骤：

第一步骤：数据准备阶段；准备训练样本以及测试样本；

第二步骤：以CTC损失函数设计目标函数；采用端到端的训练方式，以L(w)＝CTC(x；w)+σCTC(x′；w)+αL_d(x,x′:w)为损失函数，采用批量梯度的更新方式，设计目标函数；

第三步骤：搭建神经网络；搭建声学模型的神经网络，以卷积神经网络、全连接网络为基础，使用随机失活缓解网络训练的过拟合，提高网络参数的泛化能力；

第四步骤：构建训练网络；训练一个网络参数共享卷积神经网络，干净样本与带噪样本需要成对输入到该网络，然后通过loss曲线，音素错误率曲线监控网络训练情况。

作为本发明的进一步改进，在所述第一步骤中，还包括依次执行以下步骤：

步骤1：选取两种开源的实录噪声库，即：QUT-NOISE、NOISEX-92；QUT-NOISE中的cafa-foodcourtb-1用于产生训练样本，NOISEX-92的hf-channel、f-16、babble、car、white噪声用于产生测试样本，并以设定的信噪比向干净的语音中加入噪声，产生带噪语料；

步骤2：提取步骤1中带噪语料的fbank语音特征，得到T×64的特征矩阵，其中T代表每条语音的帧数，并生成训练样本集。

作为本发明的进一步改进，所述的以设定的信噪比向干净的语音中加入噪声具体包括：

选取TIMIT作为实验语料，包含61英文音素，TIMIT数据集中只包含干净语料，需要对每条干净语料加入几种加性噪声并产生0、5、10、15dB的带噪语料。

作为本发明的进一步改进，在所述步骤2中，还包括执行以下步骤：fbank语音特征提取步骤：假设每条语音帧是短时平稳，语音帧长为25ms，帧移10ms，每条语音帧做短时傅里叶变换得到一张二维的语谱图，然后将频率轴通过如下公式转化到梅尔频谱，设置64个梅尔滤波器，每帧语音提取64维的特征；

梅尔刻度、赫兹与梅尔滤波器之间的计算关系如下：

mel(f)＝1125ln(1+f/700)

f(m)＝700(10^m/2595-1)

其中，f表示频率，m表示梅尔刻度；

梅尔滤波器系数计算方式如下：

其中，

m表示第m个梅尔滤波器，k表示第k个梅尔刻度；

训练样本集生成步骤：对每条干净的语音生成干净的特征x以及相对应的带噪语音的x′，(x～x′)构成一对语音样本X，标记对对应的音素序列，构成训练样本集(X_i,y_i)＝{(X₁,y₁),(X₂,y₂),...,(X_m,y_m)}。

作为本发明的进一步改进，在所述第二步骤中，还包括执行以下步骤：第1步骤：CTC是一种使用动态规划算法以实现端到端的语音识别的目标函数，即：CTC(x)＝-log(p(y|x))，x为输入的语音特征，y为x对应的音素序列，p(y|x)表示输入为x，输出为y的条件概率，优化过程中最小化CTC(x)损失函数，即最大化条件概率p(y|x)；

第2步骤：设计以下目标函数：

L(w)＝CTC(x；w)+σCTC(x′；w)+αL_d(x,x′:w)、

添加L_d(x,x′；w)约束项可以将干净样本与带噪样本投影到尽可能相近的概率空间，有利于提高声学模型对噪声的抗干扰能力，w代表网络参数，x代表干净样本，x′代表带噪样本，

代表网络的输出层，即为用于计算CTC损失的概率矩阵，σ、α为超参数，用于加权CTC(x′:w)、L_d(x,x′；w)的损失。

作为本发明的进一步改进，在所述第三步骤中，还包括：

搭建7层卷积层，每层卷积层有256个卷积核，卷积核大小为5×3，不使用池化层；3层全连接层，前两层设置512个隐藏单元，最后一层设置62个隐藏单元；随机失活率为0.5，激活函数使用Relu，学习率为1e-5,每输入16组样本，更新一次参数；输入为T×64语音特征矩阵，网络输出为T×62的概率矩阵，其中T代表每条语音的帧数，62代表声学模型的建模单元数，包含61个有效音素及一个空白符，空白符用来当前帧处于有效音素与无效音素之间的状态，每帧特征通过softmax函数得到62个建模单元的概率分布，即：

其中

表示第t帧判定为第k类的概率。

作为本发明的进一步改进，在所述第三步骤中，由于采用的卷积神经网络，而语音长短不一，需要采用补值的方法将短的语音特征补长，使得一个batch的语音特征是等长的，因此产生一个批量数据时，需要统计16样本中语音帧最长的数值，然后将其余的语音特征在语音帧维度补值至最大数值，网络的输入为四维的张量，[batch,frame,64,1]，其中batch表示当前批量样本数为16，frame表示当前批量中最大帧长，64表示每帧语音的特征维数，语音特征深度为1，卷积网络的最后输出特征的是一个四维的张量，[batch,frame,feature,filters]，feature表示特征维度，filters表示输出特征的深度，为了将四维张量输入到全连接层，保证batch、frame维度不变，因此将[batch,frame,feature,filters]重组为三维张[batch,frame,feature×filters]，然后输入到全连接层。

作为本发明的进一步改进，在所述第四步骤中，每次迭代过程如下：首先输入干净样本x，得到CTC(x；w)、

接着输入对应的带噪样本x′计算得到CTC(x′；w)、

最后代入L(w)＝CTC(x；w)+σCTC(x′；w)+αL_d(x,x′:w)中，计算梯度

并使用Adam优化算法更新参数，通过监控网络的损失函数曲线和音素错误率PER曲线来选择和保存模型。

作为本发明的进一步改进，所述音素错误率PER计算公式如下：

其中S、D、I表示需要从预测音素序列通过替换、删除、插入操作得到真实序列的操作数。

本发明还公开了一种快速搭建鲁棒性声学模型的系统，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。

本发明的有益效果是：1.本发明公开的一种快速搭建鲁棒性声学模型的方法，将Connectionist Temporal Classification(CTC)优化目标的方法用于鲁棒性声学模型的任务中，利用干净样本、带噪样本的特征共同训练网络参数，同时在网络输出层加入二者概率矩阵的L2范数惩罚，将干净特征与带噪特征映射到尽可能相近的概率空间，有利于模型依据概率分布做出相近的决策。2.本发明公开的一种快速搭建鲁棒性声学模型的方法，在不增加语音识别系统复杂度的情况下，提高了模型对加性噪声的鲁棒性；

附图说明

图1是本发明的快速搭建鲁棒性声学模型的流程图；

图2是本发明的鲁棒性声学模型网络结构,即RPSSL模型；

图3是本发明的声学模型网络结构,即baseline模型；

图4是本发明的鲁棒性声学模型对比实验模,即RPS模型；

图5是本发明的测试baseline、RPS、RPSSL声学模型的PER结果图。

具体实施方式

本发明公开了一种快速搭建鲁棒性声学模型的方法，包括执行以下步骤：

第一步骤：数据准备阶段；准备训练样本以及测试样本；

第二步骤：以CTC损失函数设计目标函数；采用端到端的训练方式，以L(w)＝CTC(x；w)+σCTC(x′；w)+αL_d(x,x′:w)为损失函数，采用批量(bath)梯度的更新方式，设计目标函数，batch大小为16；

第四步骤：构建训练网络；开始训练网络，训练一个网络参数共享卷积神经网络，干净样本与带噪样本需要成对输入到该网络，然后通过loss曲线，音素错误率(PER)曲线监控网络训练情况。

如图1所示，在所述第一步骤中，还包括依次执行以下步骤：

在所述步骤1中，所述的以设定的信噪比向干净的语音中加入噪声具体包括：

选取英文语料TIMIT作为实验语料，包含61英文音素，英文语料TIMIT数据集中只包含干净语料，需要对每条干净语料加入几种加性噪声并产生0、5、10、15dB的带噪语料。

在所述步骤2中，还包括执行以下步骤：

fbank语音特征提取步骤：假设每条语音帧是短时平稳，语音帧长为25ms，帧移10ms，每条语音帧做短时傅里叶变换得到一张二维的语谱图，然后将频率轴通过如下公式转化到梅尔频谱，设置64个梅尔滤波器，每帧语音提取64维的特征；

梅尔刻度、赫兹与梅尔滤波器之间的计算关系如下：

mel(f)＝1125ln(1+f/700)

f(m)＝700(10^m/2595-1)

其中，f表示频率，m表示梅尔刻度；

梅尔滤波器系数计算方式如下：

其中，

m表示第m个梅尔滤波器，k表示第k个梅尔刻度；

在所述第二步骤中，还包括执行以下步骤：

第1步骤：CTC是一种使用动态规划算法以实现端到端的语音识别的目标函数，即：CTC(x)＝-log(p(y|x))，x为输入的语音特征，y为x对应的音素序列，p(y|x)表示输入为x，输出为y的条件概率，优化过程中最小化CTC(x)损失函数，即最大化条件概率p(y|x)；

第2步骤：为提高模型的鲁棒性，设计以下目标函数：L(w)＝CTC(x；w)+σCTC(x′；w)+αL_d(x,x′:w)、

在所述第三步骤中，还包括：搭建7层卷积层，每层卷积层有256个卷积核，卷积核大小为5×3，不使用池化层；3层全连接层，前两层设置512个隐藏单元，最后一层设置62个隐藏单元；随机失活率为0.5，激活函数使用Relu，学习率为1e-5,每输入16组样本，更新一次参数；输入为T×64语音特征矩阵，网络输出为T×62的概率矩阵，其中T代表每条语音的帧数，62代表声学模型的建模单元数，包含61个有效音素及一个空白符，空白符用来当前帧处于有效音素与无效音素之间的状态，每帧特征通过softmax函数得到62个建模单元的概率分布，即：

其中

表示第t帧判定为第k类的概率。

在所述第三步骤中，由于采用的卷积神经网络，而语音长短不一，需要采用补值的方法将短的语音特征补长，使得一个batch的语音特征是等长的，因此产生一个批量数据时，需要统计16样本中语音帧最长的数值，然后将其余的语音特征在语音帧维度补值至最大数值，网络的输入为四维的张量，[batch,frame,64,1]，其中batch表示当前批量样本数为16，frame表示当前批量中最大帧长，64表示每帧语音的特征维数，语音特征深度为1，卷积网络的最后输出特征的是一个四维的张量，[batch,frame,feature,filters]，feature表示特征维度，filters表示输出特征的深度，为了将四维张量输入到全连接层，保证batch、frame维度不变，因此将[batch,frame,feature,filters]重组为三维张[batch,frame,feature×filters]，然后输入到全连接层。

在所述第四步骤中，每次迭代过程如下：

首先输入干净样本x，得到CTC(x；w)、

接着输入对应的带噪样本x′计算得到CTC(x′；w)、

最后代入L(w)＝CTC(x；w)+σCTC(x′；w)+αL_d(x,x′:w)中，计算梯度

并使用Adam优化算法更新参数，通过监控网络的损失函数曲线和音素错误率(PER)曲线来选择和保存模型。

所述音素错误率PER计算公式如下：

本发明公开的一种快速搭建鲁棒性声学模型的方法，训练网络阶段，CTC采用动态规划的思路求解条件概率p(y|x)，模型解码阶段，只需要输出每帧特征对应的概率最大的音素，然后以此删除重复及空格符，得到最终预测输出。

如图2-5所示，为了做对比试验分析，训练三个模型，简称为：baseline、RPS(Parameter Sharing)、RPSSL(RPS with Similarity Loss)，优化函数分别如下：

L₁(w)＝CTC(x；w)、

L₂(w)＝CTC(x；w)+σCTC(x′；w)、

L₃(w)＝CTC(x；w)+σCTC(x′；w)+αL_d(x,x′:w)，

用相同的网络结构、超参数设定训练三个模型，模型测试阶段，所有PER测试结果均是基于39类音素计算得到的。

Baseline、RPS、RPSSL简称为a、b、c，表1为对应模型的PER。

表1

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种快速搭建鲁棒性声学模型的方法，其特征在于，包括执行以下步骤：

第一步骤：数据准备阶段；准备训练样本以及测试样本；

第二步骤：以CTC损失函数设计目标函数；采用端到端的训练方式，以L(w)＝CTC(x；w)+σCTC(x′；w)+αL_d(x,x′:w)为损失函数，采用批量梯度的更新方式，设计目标函数，w代表网络参数，x代表干净样本，x′代表带噪样本，即为用于计算CTC损失的概率矩阵，σ、α为超参数，用于加权CTC(x′:w)、L_d(x,x′；w)的损失；

第四步骤：构建训练网络；训练一个网络参数共享卷积神经网络，干净样本与带噪样本需要成对输入到该网络，然后通过loss曲线，音素错误率PER曲线监控网络训练情况；

在所述第一步骤中，还包括依次执行以下步骤：

步骤2：提取步骤1中带噪语料的fbank语音特征，得到T×64的特征矩阵，其中T代表每条语音的帧数，并生成训练样本集；

选取TIMIT作为实验语料，包含61英文音素，TIMIT数据集中只包含干净语料，需要对每条干净语料加入几种加性噪声并产生0、5、10、15dB的带噪语料；

在所述第二步骤中，还包括执行以下步骤：

第2步骤：设计以下目标函数：

L(w)＝CTC(x；w)+σCTC(x′；w)+αL_d(x,x′:w)、

2.根据权利要求1所述的方法，其特征在于，在所述步骤2中，还包括执行以下步骤：

梅尔刻度、赫兹与梅尔滤波器之间的计算关系如下：

mel(f)＝1125ln(1+f/700)

f(m)＝700(10^m/2595-1)

其中，f表示频率，m表示梅尔刻度；

梅尔滤波器系数计算方式如下：

其中，

m表示第m个梅尔滤波器，k表示第k个梅尔刻度；

3.根据权利要求1所述的方法，其特征在于，在所述第三步骤中，还包括：搭建7层卷积层，每层卷积层有256个卷积核，卷积核大小为5×3，不使用池化层；3层全连接层，前两层设置512个隐藏单元，最后一层设置62个隐藏单元；随机失活率为0.5，激活函数使用Relu，学习率为1e-5,每输入16组样本，更新一次参数；输入为T×64语音特征矩阵，网络输出为T×62的概率矩阵，其中T代表每条语音的帧数，62代表声学模型的建模单元数，包含61个有效音素及一个空白符，空白符用来当前帧处于有效音素与无效音素之间的状态，每帧特征通过softmax函数得到62个建模单元的概率分布，即：

其中

表示第t帧判定为第k类的概率。

4.根据权利要求3所述的方法，其特征在于，在所述第三步骤中，由于采用的卷积神经网络，而语音长短不一，需要采用补值的方法将短的语音特征补长，使得一个batch的语音特征是等长的，因此产生一个批量数据时，需要统计16样本中语音帧最长的数值，然后将其余的语音特征在语音帧维度补值至最大数值，网络的输入为四维的张量，[batch,frame,64,1]，其中batch表示当前批量样本数为16，frame表示当前批量中最大帧长，64表示每帧语音的特征维数，语音特征深度为1，卷积网络的最后输出特征的是一个四维的张量，[batch,frame,feature,filters]，feature表示特征维度，filters表示输出特征的深度，为了将四维张量输入到全连接层，保证batch、frame维度不变，因此将[batch,frame,feature,filters]重组为三维张量[batch,frame,feature×filters]，然后输入到全连接层。

5.根据权利要求1所述的方法，其特征在于，在所述第四步骤中，每次迭代过程如下：

首先输入干净样本x，得到CTC(x；w)、

接着输入对应的带噪样本x′计算得到CTC(x′；w)、

最后代入L(w)＝CTC(x；w)+σCTC(x′；w)+αL_d(x,x′:w)中，计算梯度

6.根据权利要求5所述的方法，其特征在于，所述音素错误率PER计算公式如下：

7.一种快速搭建鲁棒性声学模型的系统，其特征在于，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1－6中任一项所述的方法的步骤。