CN112927682A

CN112927682A - 一种基于深度神经网络声学模型的语音识别方法及系统

Info

Publication number: CN112927682A
Application number: CN202110412667.2A
Authority: CN
Inventors: 范建存; 马一航; 周世豪; 景海婷; 杨涛; 左良玉
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-06-08
Anticipated expiration: 2041-04-16
Also published as: CN112927682B

Abstract

本发明公开了一种基于深度神经网络声学模型的语音识别方法及系统，对待识别的语音进行滑动加窗预处理操作，提取声学特征；构建深度神经网络声学模型并进行训练；利用深度神经网络声学模型计算提取的声学特征对应的似然概率；构建静态解码图，解码器通过静态解码图和似然概率，基于动态规划的维特比算法构建一个包含所有识别结果的有向无环图作为解码网络，从解码网络中获取状态级别的词图并通过确定化得到词级别的词图；获取词级别词图的最优代价路径词图，得到词图最优状态序列对应的词序列，作为最终的识别结果，完成语音识别。本发明能够解决复杂结构网络模型带来的梯度弥散和梯度爆炸，在保证解码速度的同时降低词错误率，提高识别准确度。

Description

一种基于深度神经网络声学模型的语音识别方法及系统

技术领域

本发明属于语音识别技术领域，具体涉及一种基于深度神经网络声学模型的语音识别方法及系统。

背景技术

近年来，随着人工智能行业的迅速发展，语音识别技术得到了越来越多学术界和工业界的关注。作为语音交互领域的前端技术，语音识别发挥着至关重要的作用。它被广泛地应用于诸多人机交互系统中，例如智能客服系统，聊天机器人，个人智能助理以及智能家居等。

在经典的语音识别框架中，一个声学模型就是一组HMM(Hidden Markov Model)，一般一个HMM的参数由初始概率、转移概率和观察概率三部分构成。根据声学模型可以计算某一帧声学特征在某一个状态上的对数观察概率，观察概率的经典建模方法是使用多个高斯分量加权叠加的高斯混合模型(Gaussian Mixtrue Mode，GMM)，但是GMM不能学习深层非线性特征变换并且没有利用帧的上下文信息；目前常见的语音识别技术主要是基于HMM-DNN框架搭建的，这样建模的优势是可以通过相对较少的数据训练得到一个准确率还不错的语音识别系统，通过使用激活函数并且考虑帧的上下文其表现优于GMM；为了使声学模型的性能更加优异，可以考虑历史信息来辅助当前任务的长短时记忆(Long Short-TermMemory，LSTM)循环神经网络进入了人们的视线，2014年谷歌在LSTM RNNs的基础上为语音识别提出了投影LSTM架构，即在输出层前添加了一个投影层用来减少模型参数；为了加快模型训练速度，快速LSTM(Fast LSTM，FLSTM)将LSTM中的四个操作通过一个更大的矩阵优化为一个操作把训练时间缩短一半，同时性能也可得到提高。

但是目前的研究还存在一些挑战，高计算量深度神经网络训练的声学模型会引起梯度弥散和梯度爆炸，在低任务场景下识别准确度仍有待提高。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于深度神经网络声学模型的语音识别方法及系统，利用结构复杂的神经网络声学模型提高识别准确度的同时避免梯度弥散梯度爆炸。

本发明采用以下技术方案：

一种基于深度神经网络声学模型的语音识别方法，包括以下步骤：

S1、对待识别的语音进行滑动加窗预处理操作，提取声学特征；

S2、构建深度神经网络声学模型并进行训练；

S3、利用步骤S2训练好的深度神经网络声学模型计算步骤S1提取的声学特征对应的似然概率；

S4、构建静态解码图，解码器通过静态解码图和步骤S3计算得到的似然概率，基于动态规划的维特比算法构建一个包含所有识别结果的有向无环图作为解码网络，从解码网络中获取状态级别的词图并通过确定化得到词级别的词图；

S5、获取步骤S4词级别词图的最优代价路径词图，得到词图最优状态序列对应的词序列，作为最终的识别结果，完成语音识别。

具体的，步骤S1具体为：

S101、采集语音信号，经过采样和A/D转换后将模拟信号转变为数字信号；然后对数字信号滑动加窗实现分帧；

S102、对每一帧做快速傅里叶变换，将时域信号转换为频域信号得到频谱样本点，将频谱样本点的实部乘以实部加上虚部乘以虚部得到对应的功率谱；

S103、对功率谱应用梅尔滤波器组获得FBank声学特征，并对得到的梅尔滤波器对数能量向量做离散余弦变换获得不同维数的MFCC声学特征。

具体的，步骤S2具体为：

S201、构建深度神经网络声学模型，TDNN为时域卷积层，通过子采样方法减小深度神经网络声学模型的大小，FLSTM Res为循环层，在FLSTM中引入残差结构，即输入层和投影层间加入一个快捷通道，拼接输入层和记忆单元处理后的输出，将拼接向量投影到对应位置的原始维数上；

S202、对训练数据进行强制对齐及生成模型训练特需的决策树，依赖分母有限状态机和分子有限状态机生成模型训练样本存档，采用基于数据并行的同步随机梯度下降训练方法训练深度神经网络声学模型，在训练过程中，根据一批训练样本计算梯度，然后按照设定的学习率调整权重，通过指定大迭代的次数，并设置初始学习率和终止学习率控制学习率的变化不断更新迭代得到最终声学模型。

进一步的，基于数据并行的同步随机梯度下降训练方法中采用的目标函数为最大互信息J_MMI如下：

其中，w^m表示第m个句子的标注文本，o^m表示第m个句子的声学特征序列，θ表示模型参数，M为句子总数。

进一步的，声学模型训练过程中，对神经网络进行纯序列建模，从头开始训练神经网络，训练时一个句子被拆分成若干个训练块并采用跳帧技术每三帧处理一次；分子词格和分母词格都被有限状态机代替并且所有训练数据公用一个分母有限状态机。

具体的，步骤S3具体为：

使用步骤S1计算得到的声学特征作为声学模型的输入，将中心帧的前后多帧语音特征一起输入声学模型；使用两个HMM状态建模一个音素的发音，根据训练好的声学模型，一次计算多帧语音信号的对数似然值，行对应于具体的那帧语音信号，列对应每一个转移边上transition-id映射的pdf-id值，得出声学后验概率结果。

具体的，步骤S4具体为：

S401、对解码器进行初始化操作，生成第一个起始状态并把该状态放到第0帧的状态结点链表中，然后通过空跳转完成第0帧的所有状态生成；

S402、根据初始化生成的第0帧状态计算得到一层阈值和二层阈值，一层阈值筛选第0帧得到能够留下来的结点，二层阈值筛选留下来状态的所有出弧，得到输入标签不为∈出弧对应的第一帧状态，接着通过空跳转生成第一帧的另一部分状态；然后依次往前传递逐帧进行解码，t时刻到达的状态由t-1时刻出发，每一帧生成的状态由转移边相链接；每经过特定帧数，反向进行转移边剪枝，如果一个状态的所有转移边都被剪枝掉，对应状态被剪枝掉；对音频的所有帧处理完解码结束后，对最后一帧状态进行前向链接和状态的剪枝，最后能留下来的是还剩下出弧的终止状态，然后回溯对前面的每一帧都进行前向链接和状态的剪枝，直到第0帧的状态剪枝结束为止，至此得到每一帧对应的所有状态，完成解码网络；

S403、对解码网络进行拓扑排序，接着有限状态转换机会根据每一个状态生成它对应的状态ID，然后通过状态ID和前向链接生成相应的弧边，最后一帧状态额外加上值不是无穷大的最终概率，得到一个状态Id和弧边的结构，将词序列标签存储在弧边上；

S404、对状态级别词图进行确定化，对转移边中输入标签相同的出弧进行裁剪，将输出标签词标签交换到输入标签并对转移边按照词标签进行排序，删除相同的词标签，同时将权重过大的转移边指向一个特定的状态ID，接着将指向特定状态ID的转移边删除并且将入弧为空的状态ID删除。

具体的，步骤S5具体为：

S501、通过广度优先搜索确定每一个状态节点的最优前驱节点和当前状态处的最优代价获取步骤S4词级别词图的最优代价路径词图；

S502、将最优代价路径词图中权重信息里的转移ID取出替换输入标签转化为状态级别词图得到最优状态序列；

S503、通过最优状态序列得到弧边上输出标签不为0的词标签，依据单词符号表找到这些词标签对应的汉字，依次输出实现语音由音频到汉字的识别过程。

进一步的，步骤S501具体为：

S5011、按顺序访问词图中的每一个状态，遍历所有转移边计算从转移边出发到对应目标状态的代价，更新目标状态处的最优代价并记录对应转移边的起始状态作为最优前驱节点；

S5012、重复步骤S5011直到得到最后一帧状态节点的最优前驱节点和当前状态处的最优代价，添加一个最终状态记录最佳终止状态的stateID以及加上终止状态权重的最佳代价；

S5013、从最终状态开始回溯，通过最优前驱节点和转移边得到目标词图对应的最优代价路径词图。

本发明的另一个技术方案是，一种基于深度神经网络声学模型的语音识别系统，包括：

提取模块，对待识别的语音进行滑动加窗预处理操作，提取声学特征；

构建模块，构建深度神经网络声学模型并进行训练；

计算模块，利用构建模块训练好的深度神经网络声学模型计算提取模块提取的声学特征对应的似然概率；

词图生成模块，构建静态解码图，解码器通过静态解码图和计算模块计算得到的似然概率，基于动态规划的维特比算法构建一个包含所有识别结果的有向无环图作为解码网络，从解码网络中获取状态级别的词图并通过确定化得到词级别的词图；

识别模块，获取网络模块词级别词图的最优代价路径词图，得到词图最优状态序列对应的词序列，作为最终的识别结果，完成语音识别。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于TDNN-FLSTM Res深度神经网络声学模型的语音识别方法。其中训练采用一种不需要额外生成词格便可以对神经网络进行区分性训练的方法，大大提高模型的训练速度；FLSTM Res递归层通过引入残差结构可以直接从输入层到投影层，在低任务场景下不会因过度训练适得其反，从而提高整体识别准确度；TDNN卷积层采用子采样时延神经网络，仅用序列水平代价函数进行训练对所有输出进行平摊计算，可以在更深层次匹配输出帧率减少模型的计算量，模型后面TDNN-FLSTM Res交叠层采用33Hz低输出帧率同样可以提供巨大的计算节省，加之解码时采用双重beam降低生成词图的大小减少生成最优词序列时的搜索时间，从而在提高准确度的同时加快识别速度。

进一步的，对于步骤S1中的语音信号，首先通过语音活动检测(Voice ActivityDetection，VAD)过滤一部分长静音帧，保留有效的语音信号实现降噪的效果。接着对有效的语音块进行预处理、特征提取后得到对应维度的声学特征，可以将8k采样率一帧25ms的200个样本点提取为经过Mel滤波器的40维Fbank特征，大大降低语音信号的维度。

进一步的，声学模型在语音识别过程中最重要的作用就是计算声学分，经典语音识别框架中，一个声学模型就是一组HMM(Hidden Markov Model)，HMM状态的现实物理意义可以当作是音素的发音状态，习惯上用“初始态”“稳定态”“结束态”三部分表示一个音素的发音状态。本发明在经典语音识别框架的基础上，利用帧级别的标注训练得到神经网络声学模型，使用两个状态来建模音素的起始帧和其他帧，对219个音素通过三音素决策树聚类后得到5696个发音结果，以及5256个转移状态，每个转移状态都对应一个前向ID和自环ID，共有10512个转移ID，能够更好的拟合现实中的发音结果。

进一步的，针对要抑制那些让训练数据在其解码词格过程中产生错误参数的问题，本发明主要采用一种最大互信息的目标函数(Maximum Mutual Information，MMI)旨在解决该问题进而优化整体模型性能。目标函数最大互信息尝试最大化观测序列o^m与单词序列w^m的互信息，其本质和降低训练数据中的句错误率息息相关。但只用最大互信息目标函数进行训练的时候，由于训练数据生成的词格不能包含所有可能的词序列，会发生过拟合。为了解决过拟合问题，本文将传统的交叉熵目标函数和最大互信息目标函数进行插值，生成一个新的目标函数进而对神经网络进行训练。

进一步的，对神经网络进行纯序列建模的思想来源于Connectionist TemporalClassification(CTC)的实现过程，本发明模型训练对数据进行强制对齐并生成特需的决策树时，将降帧的概念引入决策树的构建过程中，默认每3帧处理一次；对训练数据进行强制对齐生成分子有限状态机，利用对齐结果生成公用的分母有限状态机，基于此生成训练所需的样本存档，上述设计在保证识别精度稳定的同时大大提高训练速度。

进一步的，使用步骤S1计算得到的语音特征作为步骤S2所得声学模型的输入，一般一次计算多帧的声学概率矩阵，将多帧语音信号数据块拼接上它的上下文信息一起输入声学模型，降低声学后验概率矩阵计算的次数，提高解码速度。

进一步的，解码通过双重beam依次向前生成状态结点和转移边，并每隔一段固定的帧数进行反向转移边和状态的剪枝，保证状态级别词图不会过于庞大，接着对状态级别词图进行确定化，使每个状态节点上的任意输入序列都只对应唯一的跳转，可以大大减少在图中匹配序列的计算量，确定化后词图的冗余度要比确定化前低得多，进而加快后续最优词序列生成的速度。

进一步的，获取最佳词序列作为最终的识别结果后，通过加标点服务得到最终的输出，提升用户体验度。

综上所述，本发明能够解决复杂结构网络模型带来的梯度弥散和梯度爆炸，在保证解码速度的同时大大降低词错误率提高识别准确度。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的流程图；

图2为本发明模型架构图；

图3为本发明卷积层TDNN网络拓扑图；

图4为本发明循环神经网络FLSTM Res结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种语音识别方法，获取待识别语音进行滑动加窗等预处理操作提取声学特征；对基于TDNN-FLSTM Res深度神经网络的声学模型进行训练；由训练好的声学模型计算声学特征对应的声学后验概率；解码器通过训练好的解码图和计算得到的声学信息通过基于动态规划的维特比算法构建一个包含所有识别结果的有向无环图即为解码网络，从解码网络中获取状态级别的词图并通过确定化得到词级别的词图；获取词级别词图的最优代价路径词图，继而得到该词图最优状态序列对应的词序列，将之作为最终的识别结果。本发明支持在线解码，在保证解码速度的同时进一步降低词错误率。

请参阅图1，本发明一种语音识别方法，包括以下步骤：

S1、对待识别语音进行滑动加窗等预处理操作提取声学特征；

S101、通过麦克风采集语音信号，经过采样和A/D转换后由模拟信号转变为数字信号；然后对语音的数字信号滑动加窗从而实现分帧，通常设置帧长25ms，帧移10ms保证帧内信号的平稳性以便进行傅里叶变换，并使帧之间有交叠；

S102、对每一帧做快速傅里叶变换(Fast Fourier Transform，FFT)将时域信号转换为频域信号得到频谱样本点，接着将频谱样本点的实部乘以实部加上虚部乘以虚部得到其功率谱；

S103、对功率谱应用梅尔滤波器组获得FBank声学特征，并对得到的梅尔滤波器对数能量向量做离散余弦变换(Discrete Cosine Transform，DCT)获得不同维数的MFCC声学特征。

S2、声学模型训练；

S201、声学模型结构；

请参阅图2，构建深度神经网络声学模型，输入包括输入层input和输入层ivector，分别对应40维FBank声学特征和100维ivector特征(i-vector可以表征说话人相关的最重要的信息)，二者经过固定仿射变换层Ida通过LDA矩阵做特征变换，并使用Append描述符定义拼接FBank特征和ivector特征的规则，本文Append用到的相邻帧为-1、0、1；拼接后的说话人自适应特征输入时延神经网络(TDNN)进行时域卷积；三层TDNN时域卷积层后是FLSTM Res-TDNN交叠层，依次为一个FLSTM Res层和两个TDNN时域卷积层，两个FLSTMRes-TDNN交叠层后输入最后一个FLSTM Res层，最后的输出层包括output和output-xent，即每一帧语音信号对应的声学概率矩阵。除了第一个FLSTM Res-TDNN交叠层是和前面TDNN层一样的高帧率，其余的交叠层皆为低帧率33hz，是100hz时计算输出所需计算量的三分之一。

TDNN为时域卷积层，如图3所示，该网络共有4个隐藏层，其时域扩展如下为：

tdnn1(-2，-1，0，1，2)；tdnn2(-1，2)；tdnn3(-3，3)；tdnn4(-7，2)

即中心帧向前扩展13帧，向后扩展9帧，因此同时输入中心帧的左边音频和右边音频，左边音频的帧数数目大于右边音频的帧数数目，这样可以减少实时在线解码中的延迟。

FLSTM Res为循环层，如图4所示在FLSTM中加入残差结构即跨层连接，与传统的残差LSTM架构每一层的输出都是网络的输入和输出之和不同，本发明使用改进的残差LSTM网络，用如图4所示标蓝位置的拼接向量代替向量的加法，然后将拼接后的向量投影到该位置的原始维数上来避免向量的维度弥散和维度爆炸，将改进的残差LSTM网络命名为LSTMRes，在计算m_t时FLSTM Res有如下方程：

h_t＝(tanh(c_t),x_t) (1)

m_t＝o_t⊙(W_Res1h_t) (2)

其中，h_t为拼接向量，W_Res为投影矩阵。

S202、声学模型具体训练过程；

S2021、训练时的准备工作

对训练数据进行强制对齐及生成模型训练特需的决策树；

强制对齐主要用于生成训练数据词格并进一步转换成模型训练所需的有限状态机，为了更好地处理多音词的情况，对齐结果是通过对每个训练语句的标注文本生成解码图，然后对训练音频利用其相应的解码图进行解码所获得的；决策树的构建基于上文相关的双音子决策树，而不是传统的上下文相关的三音子决策树，同时将降帧的概念引入决策树的构建过程中加快训练速度。

S2022、训练前还需要依赖分母有限状态机和分子有限状态机生成模型训练样本存档；

分母有限状态机方面首先利用数据的强制对齐结果，训练一个高元语法音素单元的语言模型并转换为有限状态机，接着将其和C(上下文相关)有限状态转换器和H(HMM)有限状态转换器利用合并算法结合，形成最终的分母有限状态转换器，并且所有训练数据公用一个分母有限状态机，分子有限状态机在对训练数据做强制对齐时已产生。

S2023、采用基于数据并行的同步随机梯度下降(SGD)训练方法，采用的目标函数为最大互信息(Maximum Mutual Information，MMI)，公式如下：

其中，w^m表示第m个句子的标注文本，o^m表示第m个句子的声学特征序列，θ表示模型参数，最大互信息目标函数试图最大化观测序列o^m和单词序列w^m分布的互信息，尽可能区分正确结果和错误结果，减少容易混淆二者的情况。并且为了防止过拟合，本发明同时使用交叉熵目标函数和最大互信息目标函数进行插值。

本发明对神经网络进行纯序列建模，从头开始训练神经网络，不需要基于交叉熵训练的神经网络作为起点，在训练过程中，一个句子会被拆分成若干个训练块并采用跳帧技术每三帧处理一次。通过多个设备依据训练样本计算梯度，然后按照学习率调整权重，将输出模型的参数加权平均，得到一次小迭代的输出模型，接着以该模型开始下一次迭代。通过指定大迭代的次数，并设置初始学习率和终止学习率控制学习率的变化不断更新模型，全部迭代完成最后若干次小迭代的模型生成最终模型。

S3、由步骤S2训练好的声学模型计算步骤S1声学特征对应的似然概率；

使用两个HMM状态建模一个音素的发音，根据训练好的声学模型，计算某一帧声学特征在某一个状态上的声学分，即该声学特征对于该状态的声学后验概率；

声学后验概率经典的建模方法是高斯混合模型的思路，使用多个高斯分量加权叠加从而拟合出任意分布的概率密度函数，对应于实际计算中的pdf-id；

本发明TDNN-FLSTM Res深度神经网络声学模型的输出维度(即pdf-id的个数)对应每一帧语音信号经过三音素聚类后所有发音结果的种类，也即声学概率矩阵的列数；使用步骤S1计算得到的声学特征作为声学模型的输入，为了考虑每一帧特征的声学上下文信息，将中心帧的前后多帧语音特征一起输入声学模型；为了加快解码速度，一次计算多帧语音信号的对数似然值，行对应于具体的那帧语音信号，列对应每一个转移边上transition-id映射的pdf-id值，即得出声学后验概率结果。

S4、解码器通过训练好的解码图和步骤S3计算得到的声学信息通过基于动态规划的维特比算法构建一个包含所有识别结果的有向无环图即为解码网络，从解码网络中获取状态级别的词图并通过确定化得到词级别的词图；

S401、解码器是语音识别系统的识别阶段，在正式解码之前先进行一些初始化操作，生成第一个起始状态并把该状态放到第0帧的状态结点链表中，然后通过空跳转完成第0帧的所有状态生成；

S402、根据初始化生成的第0帧状态计算得到一层阈值和二层阈值，一层阈值筛选第0帧得到能够留下来的结点，二层阈值筛选留下来状态的所有出弧，得到输入标签不为∈出弧对应的第一帧状态，接着通过空跳转生成第一帧的另一部分状态；然后依次往前传递逐帧进行解码，t时刻可以到达的状态由t-1时刻出发，每一帧生成的状态由转移边相链接；在此过程中每经过一段特定的帧数，都会反向进行转移边的剪枝，如果一个状态的所有转移边都被剪枝掉了，那么该状态也会被剪枝掉；对音频的所有帧处理完解码结束后，要对最后一帧状态进行前向链接和状态的剪枝，最后能留下来的是还剩下出弧的终止状态，然后回溯对前面的每一帧都进行前向链接和状态的剪枝，直到第0帧的状态剪枝结束为止，至此得到每一帧对应的所有状态，也即解码网络；

S403、对解码网络进行拓扑排序，保证其拓扑有序性，接着有限状态转换机会根据每一个状态生成它对应的状态ID，然后通过状态ID和前向链接生成相应的弧边，最后一帧状态要额外加上值不是无穷大的最终概率，这样就得到了一个状态Id和弧边的结构(状态级别词图)，该音频所有可能的识别结果，也即词序列标签就存储在弧边上；

S404、为了加快步骤S5生成最优代价路径词图的速度，需要对状态级别词图进行确定化，对转移边中输入标签相同的出弧进行裁剪，将输出标签词标签交换到输入标签并对转移边按照词标签进行排序，删除相同的词标签，同时将权重过大的转移边指向一个特定的状态ID，接着将指向特定状态ID的转移边删除并且将入弧为空的状态ID也删除，保证词图最优生成词级别词图。

S5、获取步骤S4词级别词图的最优代价路径词图，继而得到该词图最优状态序列对应的词序列，将之作为最终的识别结果。

S501、通过广度优先搜索确定每一个状态节点的最优前驱节点和当前状态处的最优代价获取上述目标词图的最优代价路径词图；

S5011、按顺序访问词图中的每一个状态，遍历它的所有转移边计算从该边出发到其目标状态的代价，从而更新目标状态处的最优代价并记录对应转移边的起始状态作为最优前驱节点；

S5013、从最终状态开始回溯，通过最优前驱节点和转移边得到目标词图对应的最优代价路径词图；

S503、通过最优状态序列得到弧边上输出标签不为0的词标签，依据单词符号表找到这些词标签对应的汉字，依次输出即可实现语音由音频到汉字的识别过程。

本发明再一个实施例中，提供一种基于深度神经网络声学模型的语音识别系统，该系统能够用于实现上述基于深度神经网络声学模型的语音识别方法，具体的，该基于深度神经网络声学模型的语音识别系统包括提取模块、构建模块、计算模块、词图生成模块以及识别模块。

其中，提取模块，对待识别的语音进行滑动加窗预处理操作，提取声学特征；

构建模块，构建深度神经网络声学模型并进行训练；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于语音识别方法的操作，包括：

对待识别的语音进行滑动加窗预处理操作，提取声学特征；构建深度神经网络声学模型并进行训练；利用深度神经网络声学模型计算提取的声学特征对应的似然概率；构建静态解码图，解码器通过静态解码图和似然概率，基于动态规划的维特比算法构建一个包含所有识别结果的有向无环图作为解码网络，从解码网络中获取状态级别的词图并通过确定化得到词级别的词图；获取词级别词图的最优代价路径词图，得到词图最优状态序列对应的词序列，作为最终的识别结果，完成语音识别。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关语音识别方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例在多个真实场景测试集下将增量词图重打分语音识别方法和主流解码方法进行了对比工作，采用的数据集是电话场景下采集的真实对话数据，其内容涵盖多个行业，平均每个数据集的时长在2h左右。本发明参考的指标主要是语音识别的词错误率(Word Error Rate,WER)以及解码结束后最后一帧状态剪枝和词图确定化带来的延迟。

为了充分验证本发明所提TDNN-FLSTM Res神经网络声学模型的优越性，分别与TDNN以及TDNN-FLSTM神经网络声学模型做对比。对于TDNN声学模型，训练3个epoch，batchsize大小为256个，学习率从1.5×10^-2到1.5×10^-3并呈指数递减。对于TDNN-FLSTM和交叠TDNN-FLSTM Res声学模型，训练6个epoch，batchsize大小为128个，学习率从3×10^-3到3×10^-4并呈指数递减。语言模型选择经典的3-gram语言模型。实验结果如表1和2所示。

表1不同声学模型语音识别的延迟(ms)

表2不同声学模型语音识别字错误率(WER(％))

由表1和表2可知，所提交叠TDNN-FLSTM Res声学模型与结构较简单的TDNN相比，延迟提升不多的情况下，字错误率平均下降近2.64个百分点，表明所提神经网络训练声学模型时能在保证解码速度的同时大大提高识别准确度。与TDNN-FLSTM声学模型相比，不仅延迟减低并且字错误率也下降，表明所提TDNN-FLSTM Res声学模型能有效缓解复杂结构神经网络带来的延迟增加，并同时解决梯度弥散梯度爆炸问题降低词错误率。

综上所述，本发明一种基于深度神经网络声学模型的语音识别方法及系统，通过大量实验，所提TDNN-FLSTM Res神经网络声学模型能够解决复杂结构网络模型带来的梯度弥散和梯度爆炸，在保证解码速度的同时大大降低词错误率提高识别准确度。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于深度神经网络声学模型的语音识别方法，其特征在于，包括以下步骤：

S2、构建深度神经网络声学模型并进行训练；

2.根据权利要求1所述的方法，其特征在于，步骤S1具体为：

3.根据权利要求1所述的方法，其特征在于，步骤S2具体为：

S202、对训练数据进行强制对齐以及生成模型训练特需的决策树，依赖分母有限状态机和分子有限状态机生成模型训练样本存档，采用基于数据并行的同步随机梯度下降训练方法训练深度神经网络声学模型，在训练过程中，根据一批训练样本计算梯度，然后按照设定的学习率调整权重，通过指定大迭代的次数，并设置初始学习率和终止学习率控制学习率的变化不断更新迭代得到最终声学模型。

4.根据权利要求3所述的方法，其特征在于，基于数据并行的同步随机梯度下降训练方法中采用的目标函数为最大互信息J_MMI如下：

5.根据权利要求3所述的方法，其特征在于，声学模型训练过程中，对神经网络进行纯序列建模，从头开始训练神经网络，训练时一个句子被拆分成若干个训练块并采用跳帧技术每三帧处理一次；分子词格和分母词格都被有限状态机代替并且所有训练数据公用一个分母有限状态机。

6.根据权利要求1所述的方法，其特征在于，步骤S3具体为：

7.根据权利要求1所述的方法，其特征在于，步骤S4具体为：

8.根据权利要求1所述的方法，其特征在于，步骤S5具体为：

9.根据权利要求8所述的方法，其特征在于，步骤S501具体为：

10.一种基于深度神经网络声学模型的语音识别系统，其特征在于，包括：

构建模块，构建深度神经网络声学模型并进行训练；