CN110390929A

CN110390929A - 基于cdnn-hmm的中英文民航陆空通话声学模型构建方法

Info

Publication number: CN110390929A
Application number: CN201910717450.5A
Authority: CN
Inventors: 张海刚; 刘远庆; 杨金锋
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-10-29

Abstract

一种基于CDNN‑HMM的中英文民航陆空通话声学模型构建方法。其包括建立中英文民航陆空通话语料库；对语音信号进行预处理；提取出Fbank特征；对声学特征进行处理，获得Tran‑Fbank特征；利用Tran‑Fbank特征构建基于CDNN‑HMM的中英文民航陆空通话声学模型等步骤。本发明优点：通过对不同卷积神经网络的实验结果分析，一维卷积神经网络更适合民航陆空通话语音信号的识别任务，加入卷积的深度神经网络声学模型比单纯的DNN‑HMM模型性能更好。加入低帧率(LFR)后，不仅有效地降低了词错误率，而且也缩短了模型训练解码的时间。

Description

基于CDNN-HMM的中英文民航陆空通话声学模型构建方法

技术领域

本发明属于语音识别技术领域，特别涉及一种基于CDNN-HMM的中英文民航陆空通话声学模型构建方法。

背景技术

随着我国经济的快速发展，民航航班数量明显增加，国际航空公司的航班增量更大，因此民航安全将面临一个更严峻的考验。民航陆空通话作为飞行员与管制员在飞行过程中主要的信息沟通方式，对航空器的安全高效运行具有至关重要的作用。管制员和飞行员之间只有正确理解了通话内容，才能使飞行安全得到保障。

由于民航陆空通话特殊的语法结构与发音，通用语音识别声学模型在民航陆空通话语音识别任务中并不适用。而声学模型又是语音识别系统不可或缺的部分，所以构建民航陆空通话声学模型尤为关键。目前语音识别在民航陆空通话领域的研究大多集中在对陆空通话关键词的语音识别、基于传统高斯混合模型-隐马尔可夫模型(GMM-HMM)声学建模以及单语种的陆空通话语音识别，而管制员在工作时会用不同的语言指挥不同的航班(国际航班-英语\国内航班-中文)，通话中涉及中英文切换的情况屡见不鲜，所以构建中英文民航陆空通话声学模型更能满足实际要求。深度学习算法中的神经网络结构具有强大的分析提取信息的能力，随着神经网络再度兴起，深度学习技术在语音识别领域的应用越发广泛。卷积神经网络(CNN)能够提供时间和空间上的平移不变性卷积，可以利用卷积的不变性来克服语音信号本身的多样性。深度神经网络(DNN)能够将特征映射到独立空间，所以依靠DNN强大的分类能力能准确将语音的声学特征分类到相应的HMM状态。对于陆空通话而言，其语法规则较为固定，不使用很复杂的网络，也能取得很好的识别效果，因此，基于以上考虑将CNN与DNN结合到一起而构成卷积深度神经网络(CDNN)，发明一种基于卷积深度神经网络-隐马尔可夫模型(CDNN-HMM)的中英文陆空通话声学模型构建方法是很有必要的。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于CDNN-HMM的中英文民航陆空通话声学模型的构建方法。

为了达到上述目的，本发明提供的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法包括按顺序进行的下列步骤：

步骤1)建立由中文数据集和英文数据集构成的中英文民航陆空通话语料库；

步骤2)对上述中英文陆空通话语料库中的中英文民航陆空通话语音信号进行预处理；

步骤3)从上述预处理后的中英文民航陆空通话语音信号中提取出Fbank特征并作为民航陆空通话语音信号的声学特征；

步骤4)对上述民航陆空通话语音信号的声学特征进行线性判别分析、特征空间最大似然回归变换以及说话人自适应训练变换处理，获得Tran-Fbank特征；

步骤5)利用步骤4)获得的Tran-Fbank特征构建基于CDNN-HMM的中英文民航陆空通话声学模型。

在步骤1)中，所述的建立由中文数据集和英文数据集构成的中英文民航陆空通话语料库的方法是：根据民航陆空通话标准，利用实际陆空通话语音信号和相关课程教材的内容建立中英文民航陆空通话语料库；该语料库由空管专业人员与一线工作管制员共同录制，包含多条飞行各个阶段的中英文民航陆空通话语音信号，并标注出民航陆空通话语音信号对应的文本序列和音素信息。

在步骤2)中，所述的对上述中英文陆空通话语料库中的中英文民航陆空通话语音信号进行预处理方法是：通过预加重来提升民航陆空通话语音信号的高频分量，增大特征分辨率；然后将民航陆空通话语音信号进行分帧加窗处理，此处加入低帧率，即帧长设置为30ms，帧移设为15ms。

在步骤3)中，所述的从上述预处理后的中英文民航陆空通话语音信号中提取出Fbank特征并作为民航陆空通话语音信号的声学特征的方法是：

1)对上述预处理后的每一帧中英文民航陆空通话语音信号进行离散傅里叶变换，获得民航陆空通话语音信号的频域表达，即线性频率f，然后将线性频率f转换为倒谱域的Mel频率，公式如下：

2)在Mel频谱范围内设置39个等带宽的三角状带通滤波器，然后将Mel频谱输入到这39个三角状带通滤波器中，分别计算出这39个三角状带通滤波器输出的对数能量与每一帧中英文民航陆空通话语音信号的能量，构成一个40维的Fbank特征。

在步骤5)中，所述的利用步骤4)获得的Tran-Fbank特征构建基于CDNN-HMM的中英文民航陆空通话声学模型的方法是：

将卷积神经网络引入到深度神经网络中共同构成卷积深度神经网络，其中卷积神经网络主要用来处理声学特征，利用其在时间和空间上的平移不变性卷积来克服语音信号本身的多样性；深度神经网络则是用来对音素进行分类；同时根据中英文民航陆空通话语料库中标注的音素信息，将民航陆空通话的各个音素映射到HMM结构的各个状态上，音素序列随时间变化的过程就构成了HMM状态转移过程；最后，每个声学特征的HMM状态与卷积深度神经网络的softmax函数输出相对应，由此完成基于CDNN-HMM的陆空通话语音识别声学模型的构建。

本发明提供的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法具有如下优点：通过对不同卷积神经网络的实验结果分析，一维卷积神经网络更适合民航陆空通话语音信号的识别任务，加入卷积的深度神经网络声学模型比单纯的DNN-HMM模型性能更好。加入低帧率后，不仅有效地降低了词错误率，而且也缩短了模型训练解码的时间。最终使用CDNN-HMM模型，结合词典以及语言模型实现了跨语种民航陆空通话语音识别，词错误率降低到了4.28％。

附图说明

图1为本发明提供的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法流程图。

图2为低帧率原理图。

图3为从民航陆空通话语音信号中提取Fbank特征过程示意图。

图4为梅尔刻度的滤波器组尺度变化示意图。

图5为卷积深度神经网络结构图。

图6为CDNN-HMM框架图。

具体实施方式

下面结合附图和具体实施例对本发明提供的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法进行详细说明。

如图1所示，本发明提供的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法包括按顺序进行的下列步骤：

根据民航陆空通话标准，利用实际陆空通话语音信号和相关课程教材的内容建立中英文民航陆空通话语料库；该语料库由空管专业人员与一线工作管制员共同录制，包含多条飞行各个阶段的中英文民航陆空通话语音信号。本发明采用的中英文民航陆空通话语料库中共收集27700条音频文件，时间为57小时，录制人员31名，其中中文数据集包含13400条音频文件，时间为27个小时，录制人员21名；英文数据集包含14300条音频文件，时间为30个小时，录制人员11名，如表1所示。录音格式为：采样率8kHz，比特率256kbps，单声道，wav格式，并标注出民航陆空通话语音信号对应的文本序列和音素信息。

表1中英文民航陆空通话语料库

首先通过预加重处理来提升中英文民航陆空通话语音信号的高频分量，使信号的频谱变得平坦，并保持在从低频到高频的整个频带中，因此能用同样的信噪比求出频谱。但是，由于中英文民航陆空通话语音信号是时变的非平稳信号，因此平稳信号的相关处理方法对其并不适用，所以需要通过分帧加窗的方法转换成短时平稳信号再进行处理。本发明在分帧时加入低帧率(LFR)，即当帧移取较大值时，帧数会减少，相应的帧率降低，所以低帧率就是通过增加帧移的值来减少帧数，其原理如图2所示，帧长设置为30ms，帧移设置为15ms，从而有15ms的重叠，通过这种方式来防止帧与帧之间丢失重要的信息。

声学特征是表达语音信号内部规律的一种形式，好的特征应该具有优秀的区分性，主要体现在声学模型利用不同的建模单元建模时应该具有较强的鲁棒性。本发明采用Fbank特征作为中英文民航陆空通话语音信号的声学特征，较之梅尔频率倒谱系数(MFCC)特征少了一次离散余弦变换，可减少语音信号在时域的前后关联性丢失，能够更好地保留语音信号中的结构信息。图3是从民航陆空通话语音信号中提取Fbank特征过程示意图。

Fbank特征提取方法是对上述预处理后的每一帧中英文民航陆空通话语音信号进行离散傅里叶变换(Discrete Fourier Transform，DFT)，获得民航陆空通话语音信号的频域表达，即线性频率f，然后将得到的线性频率f转换为倒谱域的Mel频率，公式如下：

当在梅尔刻度上面是均匀分度的话，频率之间的距离将会是逐渐增大的，梅尔刻度的滤波器组尺度变化如图4所示。在Mel频谱范围内设置39个等带宽的三角状带通滤波器，然后将Mel频谱输入到这39个三角状带通滤波器中，分别计算出这39个三角状带通滤波器输出的对数能量与每一帧中英文民航陆空通话语音信号的能量，构成一个40维的Fbank特征。

对上述民航陆空通话语音信号的声学特征进行线性判别分析(LDA)和特征空间最大似然回归(FMLLR)变换，以增强声学特征的区分性；并进行说话人自适应训练(SAT)变换，以减少说话人口音的影响，从而可提高声学特征的鲁棒性以及声学模型的性能，通过上述一系列的特征变换处理即可得到用于训练下述基于CDNN-HMM的中英文民航陆空通话声学模型的Tran-Fbank特征。

步骤5)利用步骤4)获得的Tran-Fbank特征构建基于CDNN-HMM的中英文民航陆空通话声学模型；

要想提高语音信号的识别率，就需要克服语音信号所面临的多样性问题，包括说话人的多样性(说话人自身以及说话人之间)、环境的多样性等。基于以上考虑本发明将卷积神经网络(CNN)引入到深度神经网络(DNN)中共同构成卷积深度神经网络(CDNN)，其结构如图5所示，以此来建立中英文民航陆空通话声学模型。其中CNN主要用来处理声学特征，利用其在时间和空间上的平移不变性卷积来克服语音信号本身的多样性。CNN在语音信号识别任务中可以使用一维模型或者二维模型，由于一维模型能很好地适应语音信号的一维特性，而二维模型的网络过于复杂，因此本发明选取一维模型。DNN则是用来对音素进行分类，因为DNN能够将特征映射到独立空间，所以DNN强大的分类能力能准确地将语音信号的声学特征分类到相应的HMM状态。

CNN抛开输入、输出层不谈，其主体包括卷积层和池化(采样)层，卷积层通过卷积核在时间轴上的移动来对输入的语音信号进行声学特征提取，这样一方面可以适应语音信号时变的特点，另一方面保留了频带的相关性，对识别性能的提高有很大帮助。对于给定的一系列声学特征值X，卷积层将声学特征值X与k个滤波器{Wi}进行卷积，得到的激活特征映射Hi计算公式如下：

H_i＝σ(W_i*X+b_i),i＝1,…,k. (2)

其中，σ(·)表示sigmoid函数，符号*表示卷积运算，W_i表示权值矩阵，b_i表示偏置参数。对于模型中的所有卷积运算，卷积步幅选择为1。

池化层是对卷积层提取出的声学特征进行降维，一方面使特征图变小，以简化网络计算的复杂度；另一方面进行声学特征压缩，提取出主要特征，由此减小过拟合，同时提高模型的容错性。池化方法主要有最大池化方法和平均池化方法，在语音信号识别中一般采用最大池化方法。

DNN是由输入层、输出层和若干隐藏层组成。v^l(t)表示第l层在时刻t的输入向量，W_l，a_l分别表示权值矩阵和偏置向量。在给定输入向量的情况下，DNN计算条件独立的隐藏层二进制单位h^l(t)的后验概率。实际上，第i个元素hli(t)的后验概率计算公式如下：

其中，σ(·)表示sigmoid函数。以上元素是下一层l+1的输入，观测向量o(t)输入到最底层l＝0。

对于DNN，顶层L是一个针对于每个上下文相关音素状态的softmax函数，公式如下所示：

DNN可以使用预训练进行初始化，预训练是在受限玻尔兹曼机RBM上使用对比度发散算法对L-1层进行初始化。同时也可以使用随机初始化的方法，顶层权重通常是随机初始化的，初始化完成后，使用反向传播算法的微调过程来更新所有DNN参数。损失函数选择交叉熵函数，如公式(5)所示，其中q(t)为时刻t时的期望输出。

根据中英文民航陆空通话语料库中标注的音素信息，将陆空通话的各个音素映射到HMM结构的各个状态上，音素序列随时间变化的过程就构成了HMM状态转移过程。然后，以中英文民航陆空通话语料库中标注的音素信息作为期望输出，根据CDNN模型训练基本方法可以得到CDNN模型的输出。最后，HMM的训练，给定民航陆空通话语音信号，假定民航陆空通话语音信号在t时刻处于状态sj的前向概率为αt(sj)，后向概率为βt(sj)，计算状态占有概率γt(sj)和每一时刻的状态转移概率，找出每一个语音特征的后验概率并映射为HMM状态，与CDNN的softmax函数输出相对应，由此完成基于CDNN-HMM的陆空通话语音识别声学模型的构建。CDNN-HMM框架如图6所示。

基于CDNN-HMM的陆空通话语音识别声学模型的输入特征是40维的Fbank特征，相邻的帧由11帧窗口(每侧5个窗口)连接而成。为了便于CNN对声学特征进行进一步的处理，本发明将输入特征变成一维向量，具体的步骤是将提取的声学特征参数按照帧的顺序排列(首尾相连)，例如将11帧40维的Fbank特征首尾连接，构成1*440的一维向量作为CNN的输入。用于处理声学特征的CNN包括两个卷积层和一个池化层，两个卷积层的卷积核大小分别为11*8和128*4，卷积步幅均为1，池化层池化大小、步幅均为3，最后输出2048维向量并作为DNN的输入。DNN的架构由4个隐藏层组成，每个层由1024个单元组成，输出层由3613个单元组成。DNN模型用交叉熵准则进行训练，使用随机梯度下降(SGD)算法来执行优化，将最小批量处理大小设定为256帧，初始学习率设定为0.008。

实验与分析

用于语音信号识别的评价指标常选用词错误率(Word Error Rate,WER)，为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换(Ci)、删除(Cd)、插入(Cs)某些词，将这些词的总数目除以标准的词序列中词的总数C，从而得到以百分比表示的词错误率，如公式(6)所示：

众所周知，卷积神经网络在图像处理任务中表现十分突出，但是将其应用到语音信号识别任务中就需要根据实际情况认真考虑分析。针对于语音信号识别的卷积神经网络可以选择一维卷积神经网络和二维卷积神经网络。为了验证哪种卷积神经网络更适合于民航陆空通话语音信号的识别任务，本发明进行了对比实验，实验分别使用相同层数的(卷积层+池化层+卷积层)一维卷积神经网络(CNN1D)和二维卷积神经网络(CNN2D)对上述民航陆空通话语音信号的声学特征进行处理，处理后的声学特征在相同配置的深度神经网络上进行训练识别，识别结果如表2所示。

表2两种卷积神经网络性能对比

将四个基于CDNN的实验结果进行了一个简单的对比，结果如表3所示，从表中可以明显地看出，用TIMIT标注的识别结果要比CMU标注的识别结果好；而加入低帧率(LFR)后，TIMIT标注的效果依然表现较好，但是在耗时方面就稍显逊色。但是从整体上看，加入LFR确实能将训练解码时间缩小，而且性能也有所提升。

表3卷积神经网络间的比较

本发明根据中英文民航陆空通话语言特点，提出了基于卷积深度神经网络模型的跨语种陆空通话语音识别方法。通过对不同卷积神经网络的实验结果分析，一维卷积神经网络更适合民航陆空通话语音信号的识别任务，加入卷积的深度神经网络声学模型比单纯的DNN-HMM模型性能更好。从实验结果来看，在已有的中英文民航陆空通话语料库上，采取不同的标注形式(CMU/TIMIT)对识别性能有影响，TIMIT标注形式适用于跨语种民航陆空通话语音信号识别。加入低帧率的思想以后，不仅有效地降低了词错误率，而且也缩短了模型训练解码的时间。最终使用CDNN-HMM模型，结合词典以及语言模型实现了跨语种民航陆空通话语音识别，词错误率降低到了4.28％。

Claims

1.一种基于CDNN-HMM的中英文民航陆空通话声学模型构建方法，其特征在于：所述的方法包括按顺序进行的下列步骤：

2.根据权利要求1所述的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法，其特征在于：在步骤1)中，所述的建立由中文数据集和英文数据集构成的中英文民航陆空通话语料库的方法是：根据民航陆空通话标准，利用实际陆空通话语音信号和相关课程教材的内容建立中英文民航陆空通话语料库；该语料库由空管专业人员与一线工作管制员共同录制，包含多条飞行各个阶段的中英文民航陆空通话语音信号，并标注出民航陆空通话语音信号对应的文本序列和音素信息。

3.根据权利要求1所述的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法，其特征在于：在步骤2)中，所述的对上述中英文陆空通话语料库中的中英文民航陆空通话语音信号进行预处理方法是：通过预加重来提升民航陆空通话语音信号的高频分量，增大特征分辨率；然后将民航陆空通话语音信号进行分帧加窗处理，此处加入低帧率，即帧长设置为30ms，帧移设置为15ms。

4.根据权利要求1所述的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法，其特征在于：在步骤3)中，所述的从上述预处理后的中英文民航陆空通话语音信号中提取出Fbank特征并作为民航陆空通话语音信号的声学特征的方法是：

5.根据权利要求1所述的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法，其特征在于：在步骤5)中，所述的利用步骤4)获得的Tran-Fbank特征构建基于CDNN-HMM的中英文民航陆空通话声学模型的方法是：