CN109065033A

CN109065033A - 一种基于随机深度时延神经网络模型的自动语音识别方法

Info

Publication number: CN109065033A
Application number: CN201811091089.1A
Authority: CN
Inventors: 黄晓荣; 张伟彬; 徐向民; 殷瑞祥
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2018-12-21
Anticipated expiration: 2038-09-19
Also published as: CN109065033B

Abstract

本发明属于自动语音识别技术领域，涉及一种基于随机深度时延神经网络模型的自动语音识别方法，包括：准备训练数据；对训练语音音频数据提取声学特征；训练传统GMM‑HMM模型，用训练好的GMM‑HMM模型对训练语音音频数据进行强制对齐，得到对应的帧级别训练标注；利用训练语音音频数据和对应的帧级别训练标注，对基于随机深度的时延神经网络模型进行监督训练，最终结合隐马尔科夫模型得到声学模型；利用对应的文本标注数据或者其他数据集的文本进行训练，得到训练好的语言模型；利用训练好的语言模型和声学模型，构建自动语音识别的解码器。本发明不仅提高了模型的建模能力，还解决了训练过程中过拟合以及梯度消失的问题，从而提高了语音识别的准确性。

Description

一种基于随机深度时延神经网络模型的自动语音识别方法

技术领域

本发明属于自动语音识别技术领域，涉及一种基于随机深度时延神经网络模型的自动语音识别方法。

背景技术

随着深度学习技术的不断发展，自动语音识别在实际应用中的范围也越来越广，如苹果Siri、亚马逊Alexa，且不断深度到人们的工作、学习和生活中。因此，对于鲁棒性、建模能力更强的模型的需求也越来越高。

自动语音识别的主要任务是寻求一种在能够有效地解决不同环境因素(如说话人、声道等)的前提下，达到同人类一样的识别率，解决思路是给定输入语音信号，提取合适的特征，通过声学模型和语言模型解码得到对应的文字。传统的声学建模使用混合高斯模型(GMM)对每个音素状态进行建模，但是这种模型存在几个缺点：首先，GMM对非线性建模不具有优势，对于一些复杂的信号(如语音)需要更多的参数才能到达到很好的效果；其次，GMM对于输入特征维度敏感，输入维度的增长带来模型参数的几何增长。

目前，深度神经网络(DNN)已经成为自动语音识别领域研究的热点。从DNN到卷积神经网络(CNN)、循环神经网络(RNN)，都在自动语音识别的声学建模上取得了比较好的效果，因此深度学习已经成为语音识别的主流方案。延时神经网络(TDNN)最早用在音素识别任务，网络每一层在当前时刻的输入都是由前一层的某些时刻的输出拼接而成。有研究者在延时神经网络中引入子采样(sub-sampling)，既减少了模型参数，又加快了模型的训练速度，此后TDNN开始成为自动语音识别中的主流声学模型之一。而后，在TDNN中引入长短时记忆模型(LSTM)，赋予神经网络更强的序列建模能力。

现有的TDNN模型主要存在以下问题：

1.TDNN模型在每个上下文颗粒度建模时，只有一个TDNN层，其建模能力不足；

2.较深的TDNN模型会导致梯度消失问题，从而限制了神经网络的学习能力；

3.当采用较大的TDNN模型时，容易造成过拟合问题。

发明内容

针对现有技术的不足，本发明提供一种基于随机深度时延神经网络模型的自动语音识别方法，首先在基本TDNN网络框架上，对于每层TDNN，加入更多的DNN层，并在这些DNN层中引入随机深度，以提高模型的建模能力和鲁棒性。本发明不仅提高了模型的建模能力，也很好地解决了训练过程中的过拟合以及梯度消失的问题，从而提高了语音识别的准确性。

本发明所采用的技术方案是：

一种基于随机深度的时延神经网络模型的自动语音识别方法，包括以下步骤：

a.准备训练语音音频数据和对应的文本标注数据；

b.提取特征：对训练语音音频数据提取声学特征，形成特征向量序列；

c.训练传统的GMM-HMM模型，用训练好的GMM-HMM模型对训练语音音频数据进行强制对齐，得到对应的帧级别训练标注；

d利用训练音频数据和对应的帧级别训练标注，对基于随机深度的时延神经网络(TDNN-SD)模型进行监督训练，最终结合隐马尔科夫模型得到声学模型；

e.利用对应的文本标注数据或者其他数据集的文本进行训练，得到训练好的语言模型；

f.利用训练好的语言模型和声学模型，构建自动语音识别的解码器。

进一步地，步骤d中随机深度时延神经网络(TDNN-SD)模型的构建，包括以下步骤：

①.在原有的TDNN网络框架上，对于每一个拼接了上下文帧的TDNN层，加入g个DNN层；

②.对于每一个加入的DNN层，加入shortcut连接，构成DNN残差结构；

③.在DNN残差结构内部，加入随机深度结构，得到TDNN-SD模型。

进一步地，TDNN-SD模型由TDNN-SD块(又称TDNN-SD-block)组成，每个TDNN-SD-block包含一个TDNN层和g层DNN层，且在DNN层中引入随机深度，引入了随机深度的DNN层又称SD层；具体为：在TDNN模型的第k个TDNN层的基础上，加入g个DNN层，同时引入随机深度，形成第k个TDNN-SD块，增强了模型在每个上下文颗粒度时的建模能力。

在一个优选的实施例中，对于第k个TDNN-SD块，其输入的拼接帧配置为[-m，n]，且加入2个DNN层(设置g＝2)，通过以下方程计算第k个块在t时刻的输出激活向量

其中，表示前一个TDNN-SD块在t-m时刻的输出激活向量，表示拼接第k-1个TDNN-SD块在t-m和t+n时刻的输出激活向量，作为第k个TDNN-SD块的输入向量，W₀ ^k和b₀ ^k表示第k个块中TDNN层的权重矩阵和偏置向量，W₁ ^k、b₁ ^k、W₂ ^k和b₂ ^k分别表示第k个块中添加的两个DNN层的权重矩阵和偏置向量；Φ表示随机深度的丢弃(dropout)函数。

与现有的技术相比，本发明的有益效果是：

(1)在原来TDNN模型的TDNN层中加入更多的DNN层，从而增强了每个TDNN层的建模能力。与传统的TDNN模型相比，其建模能力更强，鲁棒性更高。

(2)充分考虑随机深度和TDNN各自的优点，把随机深度嵌入到TDNN中，很好地解决了训练过程中的过拟合以及梯度消失的问题，提高了语音识别的准确性。

附图说明

图1为本发明一个实施例中的TDNN-SD架构图。

具体实施方式

下面结合附图和实施例，对本发明所述的技术方案作进一步的阐述。

一种基于随机深度时延神经网络(TDNN-SD)模型的自动语音识别方法，充分考虑随机深度和TDNN各自的优点，把随机深度嵌入到TDNN中。TDNN作为一种长时依赖建模的模型，其计算效率和训练时间相比于循环神经网络更加高效。通过将随机深度嵌入到TDNN中，即在原来的TDNN中，对于每一个有上下帧拼接的TDNN层，引入随机深度网络，从而增强网络的建模能力和鲁棒性，解决训练过程中的过拟合以及梯度消失的问题，从而提高语音识别的准确性。

典型的语音识别系统由特征提取、声学模型、语言模型和解码器等组成。一种基于随机深度时延神经网络模型的自动语音识别方法，包括以下步骤：

S1.准备训练语音音频数据和对应的文本标注数据。

S2.提取特征，对训练语音音频数据提取声学特征，形成特征向量序列。

本实施例中，把训练音频数据每一帧波形变成一个包含声音信息的多维向量，对训练音频数据提取梅尔倒谱系数(MFCC)作为声学特征。

S3.训练传统的GMM-HMM模型，用训练好的GMM-HMM模型对训练语音音频数据进行强制对齐，得到对应的帧级别训练标注。

S4.利用训练音频数据和对应的帧级别训练标注，对基于随机深度的时延神经网络(TDNN-SD)模型进行监督训练，最终结合隐马尔科夫模型得到声学模型。

具体为：训练基于深度学习的DNN-HMM模型，利用训练语音音频数据和对应的帧级别训练标注，对声学模型进行监督训练，此处的深度神经网络模型(DNN)为基于随机深度时延神经网络模型。

随机深度的时延神经网络(TDNN-SD)模型如图1所示，通过以下步骤获得：

①.在原有的TDNN网络框架上，对于每一个TDNN层(这里的TDNN层指拼接了上下文帧的层)，加入g个DNN层。

在每个TDNN层后加入更多的DNN层，以提高网络模型的学习能力。本实施例中，选取有4层TDNN层的TDNN模型为基础模型，其网络的拼接配置为{-1,0,1；-1,0,1；-2,2；-3,3}。对于每个TDNN层，加入2个DNN层。每个DNN层的维度与TDNN层一致，激活函数为Relu，激活函数后面加入Batch Normalization。

原有的TDNN模型由若干个TDNN层组成，每个TDNN层拼接前一个TDNN层在某些时刻的输出作为其输入。对于第k层，其输入的拼接帧配置为[-m，n]，通过以下方程计算第k层在t时刻的输出激活向量

其中，表示前一个TDNN层在t-m时刻的输出激活向量，表示拼接第k-1个TDNN层在t-m和t+n时刻的输出激活向量，作为第k层的输入向量，W^k表示第k层的权重矩阵，b^k表示第k层的偏置向量，f表示第k层的激活函数。

②.对于每一个加入的DNN层，加入shortcut连接，构成残差结构；

加入残差结构可以加快网络内部的信息传递，缓解梯度消失的问题。本实施例中，shortcut连接采用恒等映射，不包含其它的操作。

在残差结构中加入随机深度的dropout，得到TDNN-SD模型，提高网络的鲁棒性。具体为：对于每一个加入的DNN层，在其残差结构内部加入per minibatch的丢弃函数，且在触发丢弃时丢弃整个激活向量，此时的模型称随机深度时延神经网络(TDNN-SD)模型。

TDNN-SD模型由TDNN-SD块(又称TDNN-SD-block)组成，每个TDNN-SD-block包含一个TDNN层和g层DNN层，且在DNN层中引入随机深度，引入了随机深度的DNN层又称SD层；具体为：在TDNN模型的第k个TDNN层的基础上，加入g个DNN层，同时引入随机深度，形成第k个TDNN-SD块，增强了模型在每个上下文颗粒度时的建模能力。

本实施例中，对于第k个TDNN-SD块，其输入的拼接帧配置为[-m，n]，且加入2个DNN层(设置g＝2)，通过以下方程计算第k个块在t时刻的输出激活向量

不同于传统的dropout方法，随机深度丢弃以基本残差网络模型(ResNets)作为基础模型，在所有残差块中加入随机深度丢弃函数。随机深度丢弃函数是以minibatch为单位，且在触发丢弃时直接将该残差块的整个输出向量设置为0向量。此外，与传统的丢弃函数不同，丢弃函数的概率随着训练进行不断变化，丢弃函数的配置为0@0、p@0.5和0@1，即将整个训练过程看成1，在训练开始时丢弃概率为0；训练到一半的时候，丢弃概率线性增长到p；到训练结束的时候，丢弃概率线性减少到0。本实施例中，丢弃概率p设置为0.3可以达到比较好的效果。

与普通的残差结构不同，加入随机深度后，在训练时随机断开一些残差映射支路，减少各个通路的依赖性，迫使神经网络每个通路都能够充分学习。

S5.利用对应的文本标注数据或者其他数据集的文本进行训练，得到训练好的语言模型。

S6.利用训练好的语言模型和声学模型，构建自动语音识别的解码器。

本实施例中，解码器采用加权有限状态转换器(WFST)实现。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于随机深度时延神经网络模型的自动语音识别方法，其特征在于，包括：

a.准备训练语音音频数据和对应的文本标注数据；

d.利用训练语音音频数据和对应的帧级别训练标注，对基于随机深度的时延神经网络模型进行监督训练，最终结合隐马尔科夫模型得到声学模型；

2.根据权利要求1所述的自动语音识别方法，其特征在于，步骤d中随机深度时延神经网络模型由以下步骤构建而成：

3.根据权利要求2所述的自动语音识别方法，其特征在于，步骤②中shortcut连接采用恒等映射。

4.根据权利要求2所述的自动语音识别方法，其特征在于，步骤③中随机深度结构以基本残差网络模型作为基础模型，在所有残差块中加入随机深度丢弃函数。

5.根据权利要求4所述的自动语音识别方法，其特征在于，随机深度丢弃函数以minibatch为单位，且在触发丢弃时直接将该残差块的整个输出向量设置为0向量。

6.根据权利要求5所述的自动语音识别方法，其特征在于，随机深度丢弃函数的配置为0@0、p@0.5和0@1。

7.根据权利要求5所述的自动语音识别方法，其特征在于，丢弃函数的丢弃概率p＝0.3。

8.根据权利要求2-7中任一项所述的自动语音识别方法，其特征在于，深度时延神经网络模型中对于每个TDNN层，加入2个DNN层，每个DNN层的维度与TDNN层一致，激活函数为Relu，激活函数后面加入Batch Normalization。

9.根据权利要求2-7中任一项所述的自动语音识别方法，其特征在于，深度时延神经网络模型中对于第k个TDNN-SD块，其输入的拼接帧配置为[-m，n]，加入2个DNN层，通过以下方程计算第k个块在t时刻的输出激活向量

其中，表示前一个TDNN-SD块在t-m时刻的输出激活向量，表示拼接第k-1个TDNN-SD块在t-m和t+n时刻的输出激活向量，作为第k个TDNN-SD块的输入向量，W₀ ^k和b₀ ^k表示第k个块中TDNN层的权重矩阵和偏置向量，W₁ ^k、b₁ ^k、W₂ ^k和b₂ ^k分别表示第k个块中添加的两个DNN层的权重矩阵和偏置向量；Φ表示随机深度的丢弃函数。