CN109147774B

CN109147774B - 一种改进的延时神经网络声学模型

Info

Publication number: CN109147774B
Application number: CN201811090966.3A
Authority: CN
Inventors: 陈凯斌; 张伟彬; 徐向民
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2021-07-20
Anticipated expiration: 2038-09-19
Also published as: CN109147774A

Abstract

本发明属于语音识别技术领域，涉及一种改进的延时神经网络声学模型，包括：搭建基础TDNN网络；在相邻的两层隐藏层中间添加注意力模块，得到改进后的TDNN网络；针对改进后的TDNN网络进行训练，得到最终的声学模型。注意力模块由一个仿射变换和一个加权函数组成，以前一隐藏层的输出作为输入，提取对输入的特征权重值，用提取到的权重值为原输入特征加权，得到加权后的特征。本发明在考虑模型建模能力、对上下文信息提取能力及模型的大小等方面的因素下，通过多层次地为神经网络隐藏层特征加权，有效对层间特征的相对重要性进行显式建模，提高了TDNN声学模型的性能，从而提高了语音识别系统整体性能。

Description

一种改进的延时神经网络声学模型

技术领域

本发明属于语音识别技术领域，涉及一种延时神经网络声学模型。

背景技术

从上世纪50年代世界第一个语音识别系统诞生以来，到21世纪的前十年间，语音识别的核心枝术经历了从模板匹配到建立统计模型的逐渐演变。在语音识别领域中最经典至今仍具有重大意义的是隐马尔科夫模型(Hidden Markov Model，HMM)和混合高斯模型(Gaussian Mixture Model,GMM)相结合的方法，即用隐马尔科夫模型来对语音信号进行动态建模，描述发音状态的时域跳转，用混合高斯模型来对各发音状态进行特征分布拟合，因为这种方法很好地利用了语音信号的短时平稳特性，所以在过去的几十年间成为语音识别中声学建模的核心技术。

自2009年以来，机器学习领域深度学习被引入到语音识别声学模型训练，比起上述的HMM-GMM技术，在众多真实世界的大词汇量语音识别任务中，深度学习语音识别声学模型都使得识别错误率降低了30％甚至更多，这是因为深度神经网络(Deep NeuralNetworks,DNN)具有更强大的非线性表达能力，所以用它取代混合高斯模型对发音状态进行特征分布拟合，可以使得声学模型的性能更优。

一个完整的语音识别系统可以由以下几个部分组成：前端处理、声学模型、语言模型和解码器，声学模型对整体性能有着举足轻重的影响。提升声学模型的识别性能一方面要考虑模型的建模能力、性能以及模型对上下文信息的提取能力，另一方面要考虑模型的计算复杂度和模型的大小，因为这些会影响系统的解码速度和相关的硬件资源需求。

基于深度学习的发展，延时深度神经网络模型(TDNN)被应用到声学建模中，并取得了好的效果，但TDNN模型在层间特征相对重要性方面并无进行显式建模，所以从这方面来说，基于延时神经网络的声学模型性能有待提升。

发明内容

针对现有技术的不足，本发明提供一种改进的延时神经网络(Time Delay NeuralNetworks,TDNN)声学模型，在考虑模型建模能力、对上下文信息提取能力及模型的大小等方面的因素下，通过多层次地为神经网络隐藏层特征加权，有效对层间特征的相对重要性进行显式建模，提高声学模型的性能，从而提高语音识别系统整体性能。

一种改进的延时神经网络(TDNN)声学模型，包括：

a、搭建基础TDNN网络；基础TDNN网络包含：输入层、隐藏层和输出层，其中隐藏层设有若干层，并且在隐藏层实行同层参数共享和跳帧采样；

b、在相邻的两层隐藏层中间添加注意力模块，得到改进后的TDNN网络；

c、针对改进后的TDNN网络进行训练，得到最终的声学模型。

优选地，步骤b注意力模块数学公式表达如下：

a(x)＝nonL(w·x)

其中，x是注意力模块的输入，即前一层隐藏层的输出；y是注意力模块的输出，即下一层隐藏层的输入；

表示逐元素相乘运算；w是模块用于进行仿射变换的参数矩阵，nonL是加权函数。

与现有技术相比，本发明具有如下优点与有益效果：

1、注意力模块中仿射变换的参数采取和TDNN一样的同层共享机制，注意力模块中的仿射变换和原TDNN的跳帧同步，从整个模型来看，参数增加量不大，对整个模型大小影响不大。

2、注意力模型中的加权函数能有效对层间特征的相对重要性进行显式建模，强化模型的建模能力。

3、本发明综合考虑模型大小、计算复杂度和TDNN本身对上下文信息的有效建模，最终相比于原始的TDNN，使得声学模型在各个数据集上取得一定的性能提升。

附图说明

图1是本发明注意力模块的结构示意图；

图2是本发明一个实施例中改进的TDNN架构图；

图3是本发明一个实施例中特征加权效果图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的描述。

一种改进的延时神经网络(TDNN)声学模型，在TDNN的若干个隐藏层间加上一个特定模块(又称注意力层、attention layer或注意力模块)，利用特定模块对原输入特征进行加权，并把加权后的特征送往下一隐藏层。

注意力模块由一个仿射变换和一个加权函数组成，以前一隐层的输出作为输入，提取对输入的特征权重值，用提取到的权重值为原输入特征加权(逐元素相乘运算)，得到加权后的特征。注意力模块可有效与TDNN相结合，在不引入过多参数和额外计算量的前提下，有效地提高TDNN声学模型的性能，进而提高语音识别的准确率。

本实施例中，改进的延时神经网络(TDNN)声学模型，如图1-3所示，具体可分以下几步：

S1、对相关的语音数据集提取梅尔倒谱系数(MFCC)作为声学特征，并逐步训练更优的HMM-GMM模型，为延时神经网络训练提供相对准确的帧级标注。

按训练的先后顺序分别是：单音素模型、三音素模型、带线性判别分析和最大似然线性回归的三音素模型、带说话人自适应的三音素模型。这是为了对训练数据进行强制对齐来给后面的延时神经网络训练提供相对准确的帧级标注(即每一帧语音对应的三音素发音状态，或称隐马尔科夫模型的状态)。

S2、搭建基础TDNN网络。

基础TDNN网络包含：输入层、隐藏层和输出层，其中隐藏层设有若干层，并且在隐藏层实行同层参数共享和跳帧采样。

S3、在S2的基础TDNN网络的基础上，在相邻的两层隐藏层中间添加注意力模块，得到改进后的TDNN网络。

在深度神经网络的层次结构中，每一层都可看作是对输入特征的特征映射，层中的每一个节点单元代表一个特征，而每一层中的每一个特征的重要性不一样，有的是重要的关键特征，而有的却无关紧要。本发明中所添加的注意力模块如图1所示，是为了在各层特征往下一层输送之前，显式地计算每一个特征的重要性，根据重要性为特征加权后再输入到下一层。注意力模块用数学公式表达如下：

a(x)＝nonL(w·x)

注意力模块具有以下特点：

1)注意力模块中仿射变换所需的参数矩阵采用和基础TDNN网络一样的同层共享机制；

2)注意力模块中仿射变换采用和基础TDNN网络一样的跳帧采样的机制；

3)注意力模块中加权函数可以采用多种函数来获取权重值；

4)采用逐元素相乘加权的形式来得到体现特征间相对重要性的加权特征。

加权函数可使用在深度学习中常用的激活函数及相关的组合或简单优化，比如identity、sigmoid、tanh、relu、log-sigmoid、relu+renorm、softmax、log-softmax等。

本实施例中，加权函数选用log-softmax。其中，softmax可以在提取权重的过程中放大特征间的差异，并由其归一化的特性使得它可以充分地考虑各个特征间的联系，而不是单独地去看待每一个特征；另外，log函数的使用则解决了在这个问题中softmax本身带来的数值问题，从而有效地给出特征间的相对重要性。因而，本实施例中，log-softmax函数是优选的加权函数。

S4、针对改进后的TDNN网络进行训练，得到最终的声学模型。

改进后的TDNN网络架构如图2所示，本实施例中，对改进后的TDNN网络进行训练，具体为：对改进后的TDNN网络进行初始化，改进后的TDNN网络的输入为步骤S1中采集的包含上下文若干帧的语音特征(MFCC)，输出为当前输入对应的三音素发音状态，接着按梯度下降法训练改进后的TDNN网络，得到最终的TDNN声学模型，用于语音识别。

引入注意力模块的特征加权效果如图3所示，图3是TDNN网络在某一输入下在某一层得到的加权前后的差异，图中只取了该层的前45维。

进一步地，把语言模型和上述得到的最终TDNN声学模型结合组成解码图，并用解码算法(Token Passing)解码测试集语音数据进行性能测试。

本发明所涉及的技术方法，在本领域的技术人员可以很容易应用到其他网络结构中，都应视为本发明的变种。上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种改进的延时神经网络声学模型，其特征在于，通过多层次地为神经网络隐藏层特征加权，对层间特征的相对重要性进行显式建模，包括：

a、对相关的语音数据集提取梅尔倒谱系数作为声学特征，并逐步训练更优的HMM-GMM模型；

b、搭建基础TDNN网络；基础TDNN网络包含：输入层、隐藏层和输出层，其中隐藏层设有若干层，并且在隐藏层实行同层参数共享和跳帧采样；

c、在相邻的两层隐藏层中间添加注意力模块，得到改进后的TDNN网络；

d、针对改进后的TDNN网络进行训练，得到最终的声学模型；

步骤c中注意力模块数学公式为：

a(x)＝nonL(w·x)

2.根据权利要求1所述的延时神经网络声学模型，其特征在于，注意力模块中仿射变换所需的参数矩阵采用和基础TDNN网络一样的同层共享机制。

3.根据权利要求2所述的延时神经网络声学模型，其特征在于，注意力模块中仿射变换采用和基础TDNN网络一样的跳帧采样的机制。

4.根据权利要求2所述的延时神经网络声学模型，其特征在于，注意力模块中加权函数采用多种函数获取权重值。

5.根据权利要求4所述的延时神经网络声学模型，其特征在于，注意力模块中加权函数为log-softmax函数。

6.根据权利要求1-5中任一项所述的延时神经网络声学模型，其特征在于，采用梯度下降法训练改进后的TDNN网络。