CN109119072A

CN109119072A - 基于dnn-hmm的民航陆空通话声学模型构建方法

Info

Publication number: CN109119072A
Application number: CN201811135847.5A
Authority: CN
Inventors: 贾桂敏; 邱意; 李凯涛; 杨金锋
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-01-01

Abstract

一种基于DNN‑HMM的民航陆空通话声学模型构建方法。其包括制作中文陆空通话语料库；对民航陆空通话语音信号进行预处理；从民航陆空通话语音信号中提取出Fbank特征作为民航陆空通话语音特征；对民航陆空通话语音特征进行线性判别分析、特征空间最大似然回归变换以及说话人自适应训练变换处理；利用经过处理后的语音特征搭建基于DNN‑HMM的陆空通话声学模型等步骤。本发明效果：通过提取陆空通话语音的FBANK与MFCC特征来训练DNN网络，得到适用于陆空通话语音识别的DNN‑HMM声学模型，结合词典和语言模型，在构建的数据上，使用特征增强的DNN‑HMM模型可使陆空通话语音音素识别错误率降低到5.62％。

Description

基于DNN-HMM的民航陆空通话声学模型构建方法

技术领域

本发明属于语音识别技术领域，特别涉及一种基于DNN-HMM的民航陆空通话声学模型构建方法。

背景技术

随着国民经济的不断发展，由于飞机具有快捷舒适的特点，因此已成为人们出行的首选交通工具，尤其在近几年，民航航班数量明显增加，国际航空公司的航班增量更大，因此民航安全将面临一个更严峻的考验。民航陆空通话作为飞行员与管制员在飞行过程中主要的信息沟通方式，对保障飞行安全有着重要意义，管制员和飞行员只有正确地理解陆空通话内容，才能有效地保障飞行安全。

由于陆空通话特殊应用场景、句式结构和特殊发音，决定了通用语音识别模型无法应用于陆空通话领域。声学模型是语音识别系统的重要组成部分。目前针对中文陆空通话语音识别和声学建模的研究并不多见，且大多集中在对陆空通话关键词的语音识别和基于传统高斯混合模型-隐马尔可夫模型(GMM-HMM)声学建模。利用深度神经网络(DNN)的强大分类能力，搭建基于DNN-HMM的中文陆空通话声学模型，提高陆空通话语音识别性能，辅助飞行员理解管制指令，保障飞行安全。深度学习算法中的神经网络结构具有强大的分析提取信息的能力，在语音识别领域有着广泛的应用。卷积神经网络(CNN)各隐层之间非全连接，通过卷积核卷积计算降低特征维度；长短时记忆网络(LSTM)各隐层之间是全连接的，且可得到时序信息，但计算复杂度较高。DNN较CNN与LSTM结构更加简单且易实现，各隐层之间全连接能够保留更多信息。对于陆空通话而言，其语法规则较为固定，不使用很复杂的网络，也能取得很好的识别效果，因此，有必要发明一种基于深度神经网络-隐马尔可夫模型(DNN-HMM)的陆空通话声学模型构建方法。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于DNN-HMM的民航陆空通话声学模型构建方法。

为了达到上述目的，(暂空)

本发明提供的基于DNN-HMM的民航陆空通话声学模型构建方法具有如下有益效果：基于DNN网络与HMM模型来搭建DNN-HMM模型，通过提取陆空通话语音的FBANK与MFCC特征来训练DNN网络，得到适用于陆空通话语音识别的DNN-HMM声学模型，结合词典和语言模型，在构建的数据上，使用特征增强的DNN-HMM模型可使陆空通话语音音素识别错误率降低到5.62％。

附图说明

图1为本发明提供的基于DNN-HMM的民航陆空通话声学模型构建方法流程图。

图2为从陆空通话语音信号中提取Fbank特征过程示意图。

图3为梅尔滤波器组尺度变化示意图。

图4为DNN结构图

图5为DNN-HMM框架图。

具体实施方式

下面结合附图和具体实施例对本发明提供的基于DNN-HMM的民航陆空通话声学模型构建方法进行详细说明。

如图1所示，本发明提供的基于DNN-HMM的民航陆空通话声学模型构建方法包括按顺序进行的下列步骤：

步骤1)制作中文陆空通话语料库；

根据民航陆空通话标准，以实际陆空通话语音和相关课程教材作为建立语料库的原始参考，建立中文陆空通话语料库；该语料库由空管专业人员与一线工作管制员共同录制，包含多条飞行各个阶段的民航陆空通话语音信号。本发明采用的中文陆空通话语料库共包含13400条(共21人，15男，6女生，每人录音640句)音频文件，容量4G，录音格式为：采样率8kHz，比特率256kbps，单声道，wav格式，并标注出民航陆空通话语音信号的文本序列和音素信息。

步骤2)对上述中文陆空通话语料库中的民航陆空通话语音信号进行预处理；

语音信号是时变的非平稳信号，需要通过分帧加窗转换成短时平稳信号进行处理。由于实际民航陆空通话语速明显快于日常对话，因此将民航陆空通话语音信号帧长设置为10ms，帧移设为帧长的50％；使用过零点端点检测技术提取民航陆空通话语音信号的语音段，去除非语音段；再通过预加重处理来提升民航陆空通话语音信号的高频分量。

步骤3)从上述预处理后的民航陆空通话语音信号中提取出Fbank特征作为语音特征；

声学特征是表达语音信号内部规律的一种形式，好的特征应该具有优秀的区分性，主要体现在声学模型利用不同的建模单元建模时应该具有较强的鲁棒性。本发明采用Fbank特征作为语音识别的声学特征，较之梅尔频率倒谱系数(MFCC)特征少了一次离散余弦变换，可减少语音特征在时域的前后关联性丢失，能够更好地保留语音信号中的结构信息。图2是从陆空通话语音信号中提取Fbank特征过程示意图。

Fbank特征提取是对上述预处理后的每一帧民航陆空通话语音信号进行离散傅里叶变换(Discrete Fourier Transform，DFT)，获得民航陆空通话语音信号的频域表达，将得到的线性频率f转换为倒谱域的Mel频率，公式如下：

当在梅尔刻度上面是均匀分度的话，频率之间的距离将会是逐渐增大的，梅尔刻度的滤波器组的尺度变化如图3所示。在Mel频谱范围内设置39个等带宽的三角状带通滤波器，然后将Mel频谱输入到这39个三角状带通滤波器中，分别计算出这39个三角状带通滤波器输出的对数能量与每一帧民航陆空通话语音信号的能量，构成一个40维的Fbank特征。

步骤4)对上述民航陆空通话语音特征进行线性判别分析、特征空间最大似然回归变换以及说话人自适应训练变换处理；

对上述民航陆空通话语音特征进行线性判别分析(LDA)和特征空间最大似然回归(FMLLR)变换，以增强语音特征的区分性，进行说话人自适应训练(SAT)变换，以减少说话人口音的影响，从而可提高语音特征的鲁棒性以及声学模型的性能。

步骤5)利用经过步骤4)处理后的语音特征搭建基于DNN-HMM的陆空通话声学模型；

每一帧民航陆空通话语音信号的Fbank特征为40维，将当前帧及其前后各N帧连接，以这2N+1帧的语音特征作为基于DNN-HMM的陆空通话声学模型的输入，以音素作为基元，使用最大似然估计准则对该模型进行训练，搭建上下文相关的三音素模型，并对搭建好的三音素模型的语音特征进行LDA、SAT、FMLLR变换(简称增强变换)，以进一步增加语音特征的鲁棒性。模型初始学习率为0.008，初始权重为0.5，包含4个隐层，每层节点数为1024，利用sigmod函数作为模型激活函数，输出语音特征为3642维。

DNN是由受限玻尔兹曼机(RBM)叠加而成的一种自底向上训练的网络模型，结构如图4所示。通过无监督训练生成DNN模型的初始权重，再通过有监督训练，利用各层之间的连接关系，使用期望输出与实际输出之间的误差自顶向下逐层传递，不断调整DNN模型的参数，完成整个DNN模型的训练。

RBM是一种无向网络模型，其训练的关键在于训练该网络模型中各层之间的连接参数。RBM由包含随机节点的输入层与服从二值分布的隐层相连接而构成，能量函数为：

其中，θ＝{a_i，b_j，w_ij}表示每个RBM的参数集合，a_i表示输入层第i个输入单元的偏移量、b_j表示隐层第j个隐含单元的偏移量、w_ij表示第i个输入单元和第j个隐含单元之间的连接权重，并且w_ij＝w_j。V表示输入层节点个数、H表示隐层节点个数。似然函数p(v|θ)和归一化因子z(θ)为：

若已知输入层各个节点，根据输入和连接权重，可求出隐层第j个节点的激活概率为：

其中，激活函数σ(x)＝1/(1+|exp(-x))。由于RBM是无向网络模型，输入层第i个节点的激活概率为：

想要得到输入样本的分布，可以利用RBM训练样本的最大似然函数对数值估算每个RBM的参数集合θ的近似值θ^*，公式如下，其中T为训练样本的数目：

使用训练样本初始化输入单元的各个状态，计算得到隐层各单元的状态，再根据隐层各单元的状态反向推测出输入单元的状态，完成单层RBM的参数更新和训练。将计算所得输出状态作为下一个RBM的输入数据，以此类推完成DNN模型的训练。

根据中文陆空通话语料库中标注的音素信息，将陆空通话的各个音素映射到HMM结构的各个状态上，音素序列随时间变化的过程就构成了HMM状态转移过程。然后，以中文陆空通话语料库中标注的音素信息作为期望输出，根据DNN模型训练基本方法可以得到DNN模型的输出。最后，HMM的训练，给定民航陆空通话语音信号，假定语音信号在t时刻处于状态s_j的前向概率为α_t(s_j)，后向概率为β_t(s_j)，计算状态占有概率γ_t(s_j)和每一时刻的状态转移概率，找出每一个语音特征的后验概率并映射为HMM状态，与DNN的softmax函数输出相对应，完成基于DNN-HMM的陆空通话语音识别声学模型的构建。一个M隐层的DNN-HMM框架如图5所示。

实验与分析

在陆空通话声学模型构建中，选取每人录制的固定500条语音(共21*500条)作为DNN模型的训练数据，每人剩余的140条语音(21*140条)作为DNN模型的测试数据。对训练数据进行音素标注，以上述标注的音素信息作为DNN模型的期望输出，调整DNN模型结构，完成DNN模型的训练，同时作为先验信息计算HMM的结构。

一般地，使用音素错误率(Phoneme Error Rate，PER)作为声学模型评价的标准。为了使识别出来的音素序列和标准的音素序列之间保持一致，需要进行替换、删除或者插入某些音素在内的操作，这些插入(C_i)、替换(C_s)和删除(C_d)的音素的总个数占标准的音素序列中音素(C)总数的百分比即为音素错误率，计算公式如下：

为了确定基于DNN-HMM的陆空通话声学模型的最优输入，分别利用MFCC特征、Fbank特征及二者增强变换后得到的语音特征作为该声学模型的输入，并对比声学模型的音素错误率，如表1所示。可以看出，Fbank特征更适合作为基于DNN-HMM的陆空通话声学模型的输入，这是由于基于DNN-HMM的声学模型不需要做高斯拟合，Fbank特征更多地保留了原始语音信号的相关信息，可以使深度神经网络更好地利用音素的前后相关性，更精确地确定输出特征所对应的音素。同时，通过语音特征增强变换，可以进一步降低音素错误率。因此，在后续实验中均采用增强变换后的Fbank特征作为基于DNN-HMM的陆空通话声学模型的输入。

表1不同语音特征输入基于DNN-HMM的陆空通话声学模型的音素识别结果

输入维数对基于DNN-HMM的陆空通话声学模型的训练十分重要。如果输入维数过大，会造成过度拟合，而输入维数过小会造成拟合不够。在基于DNN-HMM的陆空通话声学模型构建中，本发明选定连接帧数目为11帧，对比不同Fbank特征维数对音素错误率的影响，如表2所示。

表2 Fbank特征维数对音素错误率的影响

当每一帧语音信号的Fbank特征维数固定时，采用不同的连接帧数对基于DNN-HMM的陆空通话声学模型构建也有较大影响，如表3所示。从表2、表3可以看出，输入特征向量长度为40*11(前后连接11帧，每一帧包含40维的Fbank特征)，基于DNN-HMM的陆空通话声学模型的音素错误率最低。

表3连接帧数对音素错误率的影响

将本发明方法与传统GMM-HMM模型的声学模型构建方法进行对比，在民航陆空通话语料库上进行实验分析。音素识别结果如表4所示。可以看出，本发明方法的音素错误率更低，更适合对陆空通话语音信号的声学建模。需要指出的是，目前的民航陆空通话语料库规模仍然较小，随着语料库规模的增大，相关语音识别工作的实验证明，基于DNN-HMM的陆空通话声学模型优势将更明显。

表4不同声学模型的音素识别结果

上述实验结果说明，利用DNN-HMM模型搭建陆空通话语音识别声学模型是可行的，同时基于DNN-HMM的陆空通话声学模型的性能优于GMM-HMM模型。同时也证明了本发明方法的实用性和可行性。

Claims

1.一种基于DNN-HMM的民航陆空通话声学模型构建方法，其特征在于：所述的方法包括按顺序进行的下列步骤：

步骤1)制作中文陆空通话语料库；

步骤3)从上述预处理后的民航陆空通话语音信号中提取出Fbank特征作为民航陆空通话语音特征；

步骤5)利用经过步骤4)处理后的语音特征搭建基于DNN-HMM的陆空通话声学模型。

2.根据权利要求1所述的基于DNN-HMM的民航陆空通话声学模型构建方法，其特征在于：在步骤1)中，所述的制作中文陆空通话语料库的方法是：根据民航陆空通话标准，以实际陆空通话语音和相关课程教材作为建立语料库的原始参考，建立中文陆空通话语料库；该语料库由空管专业人员与一线工作管制员共同录制，包含多条飞行各个阶段的民航陆空通话语音信号，并标注出民航陆空通话语音信号的文本序列和音素信息。

3.根据权利要求1所述的基于DNN-HMM的民航陆空通话声学模型构建方法，其特征在于：在步骤2)中，所述的对上述中文陆空通话语料库中的民航陆空通话语音信号进行预处理的方法是：将民航陆空通话语音信号帧长设置为10ms，帧移设为帧长的50％；使用过零点端点检测技术提取民航陆空通话语音信号的语音段，去除非语音段；再通过预加重处理来提升民航陆空通话语音信号的高频分量。

4.根据权利要求1所述的基于DNN-HMM的民航陆空通话声学模型构建方法，其特征在于：在步骤3)中，所述的从上述预处理后的民航陆空通话语音信号中提取出Fbank特征作为民航陆空通话语音特征的方法是：

对上述预处理后的每一帧民航陆空通话语音信号进行离散傅里叶变换，获得民航陆空通话语音信号的频域表达，将得到的线性频率f转换为倒谱域的Mel频率，公式如下：

在Mel频谱范围内设置39个等带宽的三角状带通滤波器，然后将Mel频谱输入到这39个三角状带通滤波器中，分别计算出这39个三角状带通滤波器输出的对数能量与每一帧民航陆空通话语音信号的能量，构成一个40维的Fbank特征。

5.根据权利要求1所述的基于DNN-HMM的民航陆空通话声学模型构建方法，其特征在于：在步骤5)中，所述的利用经过步骤4)处理后的语音特征搭建基于DNN-HMM的陆空通话声学模型的方法是：

每一帧民航陆空通话语音信号的Fbank特征为40维，将当前帧及其前后各N帧连接，以这2N+1帧的语音特征作为基于DNN-HMM的陆空通话声学模型的输入，以音素作为基元，使用最大似然估计准则对该模型进行训练，搭建上下文相关的三音素模型，并对搭建好的三音素模型的语音特征进行LDA、SAT、FMLLR变换；

根据中文陆空通话语料库中标注的音素信息，将陆空通话的各个音素映射到HMM结构的各个状态上，音素序列随时间变化的过程就构成了HMM状态转移过程。然后，以中文陆空通话语料库中标注的音素信息作为期望输出，根据DNN模型训练基本方法可以得到DNN模型的输出。最后，HMM的训练，给定民航陆空通话语音信号，假定语音信号在t时刻处于状态s_j的前向概率为α_t(s_j)，后向概率为β_t(s_j)，计算状态占有概率γ_t(s_j)和每一时刻的状态转移概率，找出每一个语音特征的后验概率并映射为HMM状态，与DNN的softmax函数输出相对应，完成基于DNN-HMM的陆空通话语音识别声学模型的构建。