CN105845128B - 基于动态剪枝束宽预测的语音识别效率优化方法 - Google Patents
基于动态剪枝束宽预测的语音识别效率优化方法 Download PDFInfo
- Publication number
- CN105845128B CN105845128B CN201610214520.1A CN201610214520A CN105845128B CN 105845128 B CN105845128 B CN 105845128B CN 201610214520 A CN201610214520 A CN 201610214520A CN 105845128 B CN105845128 B CN 105845128B
- Authority
- CN
- China
- Prior art keywords
- beam width
- frame
- pruning
- neural network
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/085—Methods for reducing search complexity, pruning
Abstract
本发明公开了一种基于动态剪枝束宽预测的语音识别效率优化方法,该方法针对传统语音解码剪枝算法中存在较多冗余路径,以及已有改进算法中剪枝有效性不足问题,提出基于声学特征进行动态剪枝束宽的预测思路,并根据实现复杂度的不同,提出两种具体的建模方式和相应的参数估计训练方法,从而提高了语音识别解码效率。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于动态剪枝束宽预测的语音识别效率优化方法。
背景技术
大规模语音标注数据的积累,图形处理器(Graphic Processing Unit,GPU)运算速度的提升,以及深度神经网络技术的成熟,大词汇量连续语音识别效果近年来取得了显著的提升,成为人机交互的重要方式。目前语音交互虽然主要还是基于云端服务,但移动终端(如智能手机)的兴起和无互联网情况下的语音交互,也要求语音识别器能够适应硬件计算资源比较有限的移动终端。提高语音识别器的运行效率无论是对节省云端服务硬件资源提供更多服务,还是对移动终端用户离线识别版本的诉求都具有明确的意义。
大词汇量连续语音识别计算耗时主要分为两个部分,一是输入语音声学得分的计算,二是从非常庞大的解码网络中搜索最优路径(称之为解码)。当前主流的语音识别一般采用深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional NeuralNetwork,CNN)或者循环神经网络(Recurrent Neural Network,RNN)建立语音信号的声学模型,采用加权有限状态机(Weighted Finite State Transducer,WFST)表征解码空间,通过广度优先维特比解码获得最优解码路径和识别结果。对于声学部分目前主要通过缩减模型结构、奇异值分解等方法减少运算量。而在解码部分则主要通过束宽剪枝(BeamPruning)和直方图剪枝(Histogram Pruning/Rank Pruning)来提升解码效率。根据声学模型结构和复杂度,以及解码剪枝参数的不同,解码部分耗时比例一般在30%-70%左右。
传统的束宽剪枝和直方图剪枝虽然能够在一定程度上提高解码效率,但是解码耗时仍旧很多,继续减小解码束宽参数虽然能够进一步提升效率但往往会导致语音识别性能的急剧下降。针对该问题,目前有几类解决思路:
1)引入更多的信息量增加剪枝有效性,在解码过程中提前利用解码路径上的声学得分或者语言模型得分提前进行剪枝。但是该方法声学信息的利用还比较有限;
2)细化剪枝颗粒度多个维度进行剪枝,在束宽剪枝和直方图剪枝的基础之上引入更细致的剪枝单元,包括词尾处剪枝、状态等长剪枝、词等长剪枝以及词头扩展处剪枝等。由于每个维度的剪枝束宽是通过开发集合人工调整,导致最优参数确定非常困难。同时词的头尾边界信息在WFST生成过程中被合成、确定化、最小化等操作更改掉,使得在基于WFST解码框架下使用比较困难。
3)基于动态剪枝参数估计的思路,例如,通过反馈机制避免直方图剪枝中二遍遍历问题,通过分析解码过程中全局最优解码路径在每一时刻的排名顺序,建立数学模型动态估计直方图剪枝参数。他们是对直方图剪枝束宽进行估计,而直方图剪枝有效性本身低于束宽剪枝,很少单独使用。此外,基于声学置信度动态预测剪枝束宽的思路,其置信度基于传统GMM(Gaussian Mixture Model)建模方式,置信度估计难以做到很准确,另外其剪枝束宽估计建模比较直观简单,参数调整根据经验,剪枝有效性挖掘不够充分。
发明内容
本发明的目的是提供一种基于动态剪枝束宽预测的语音识别效率优化方法,极大的提高了语音识别解码效率。
本发明的目的是通过以下技术方案实现的:
一种基于动态剪枝束宽预测的语音识别效率优化方法,包括:
基于训练好的神经网络模型从输入的训练语音数据中提取出相应的神经网络声学特征;
根据提取出的神经网络声学特征采用维特比解码的方式,计算输入的训练语音数据对应的全局最优路径及每帧对应的得分,以及每帧数据局部最优路径的得分,从而获得每帧数据的临界剪枝束宽;
利用每帧数据的临界剪枝束宽与对应的神经网络声学特征,来确定动态剪枝束宽预测模型并估计相应的模型参数;
根据所述动态剪枝束宽预测模型以及相应的模型参数,估计待识别语音数据中每一帧数据对应的剪枝束宽,并利用估计出的剪枝束宽替代原始的固定剪枝束宽,从而提高待识别语音数据的语音识别效率。
进一步的,所述基于训练好的神经网络模型从输入的训练语音数据中提取出相应的神经网络声学特征包括:
接收输入的训练语音数据;
对所述训练语音数据进行分帧处理,获取语音帧序列并提取各语音帧的底层声学特征;其中,所述底层声学特征为以下任意一种:LPCC特征、滤波器FilterBank特征、 MFCC特征、PLP特征;
对所述底层声学特征提取一阶差分和二阶差分,将所述一阶差分和二阶差分与所述底层声学特征组成多维声学特征,并将所述多维 声学特征通过前后扩帧拼接成更高维的特征;
基于训练好的神经网络模型与拼接后的特征提取出神经网络的隐层作为神经网络声学特征。
进一步的,所述神经网络模型为:DNN声学模型、CNN声学模型、RNN声学模型或者LSTM声学模型;则提取出的神经网络声学特征为相应的DNN声学特征、CNN声学特征、RNN声学特征或者LSTM声学特征。
进一步的,所述根据提取出的神经网络声学特征采用维特比解码的方式,计算输入的训练语音数据对应的全局最优路径及每帧对应的得分,以及每帧数据局部最优路径的得分包括:
a、基于所述神经网络声学特征计算每一帧数据的建模单元的后验概率;对于每帧数据,每一节点即为一个建模单元,则第i个节点后验概率计算公式为:其中,γ为可调参数控制输出后验概率尖锐程度,M为建模单元的个数,yi为输出层第i 个节点的线性输出,定义为xj为最后一个隐层第j个节点的输出, N为节点数,wji和bi为DNN网络中相应的权重和偏置参数,f(·)为神经元的非线性作用函数;
b、对于当前帧,将其每个建模单元的后验概率的得分转换为相应的似然概率得分;
c、根据上一时刻局部最优路径与当前时刻相应建模单元的似然概率得分来估计当前时刻局部最优路径的得分;
d、根据解码网络拓扑结构和当前的活动令牌,以及相应的似然概率得分,更新每个活动令牌得分;
e、比较每个活动令牌得分与当前时刻局部最优路径的得分之间的差距,将差距在设定束宽之外的活动令牌丢弃;
f、对保留下来的活动令牌按照得分统计起直方图分布,丢弃在直方图束宽之外的活动令牌,并记录当前的局部最优路径的得分;
g、对直方图束宽剪枝保留下来的活动令牌路径沿着解码网络拓扑结构进行向后扩展;并判断当前帧是否是最后一帧,如果不是,则继续取下一帧并重复上述步骤b~f;
h、当所有输入帧解码完毕之后获取全局最优路径,以及每帧的得分。
进一步的,获得每帧数据的临界剪枝束宽包括:
假设第t帧,局部最优路径得分为Qlocal-max(t),全局最优路径得分为Qglobal-max(t),则临界剪枝束宽B(t)计算如下:
B(t)=Qlocal-max(t)-Qglobal-max(t)。
进一步的,所述利用每帧数据的临界剪枝束宽与对应的神经网络声学特征,来确定动态剪枝束宽预测模型并估计相应的模型参数包括:
所述动态剪枝束宽预测模型包括:线性回归模型与多层感知器MLP模型;
其中,采用线性回归模型时,每帧数据的临界剪枝束宽B(t)与对应的神经网络声学特征X(t)服从线性关系,即B(t)=wTX(t)+b;其中w,b为待估计参数;
首先,采用最小均方误差估计w和b的初始值,即最小化如下目标函数:
其中,T为训练语音数据总的帧数;
再利用Boost-MSE算法对参数进行调整,调整后的目标函数为:
采用梯度下降算法对调整后的目标函数进行计算,估计出参数w与b;
采用MLP模型时,假设每帧数据的临界剪枝束宽波动范围在[0,P]之间,按照非等间隔将该波动范围划分为L类,每类的临界束宽为其所属范围的最大值;训练过程中若输入的神经网络声学特征对应临界束宽属于第i类,则将第i类标记为1,其他类标记为0,再采用向后扩展算法训练;所述MLP模型为前向神经网络,每层的节点会和下一层节点进行全连接,每个连接对应一个加权系数,通过该加权系数,当前层的信息就可以传递给下一层,另输入层和每个隐层均包含一个输出为1的节点,用以表征偏置项;所述加权系数即为MLP模型需要估计的参数。
进一步的,根据所述动态剪枝束宽预测模型以及相应的模型参数,估计待识别语音数据中每一帧数据对应的剪枝束宽,并利用估计出的剪枝束宽替代原始的固定剪枝束宽,从而提高待识别语音数据的语音识别效率包括:
采用与提取训练语音数据的神经网络声学特征相同的方式提取待识别语音数据的神经网络声学特征;
将待识别语音数据的神经网络声学特征与所述动态剪枝束宽预测模型以及相应的模型参数相结合,进行每一帧数据动态剪枝束宽的估计;
基于待识别语音数据的神经网络声学特征计算每一帧数据的建模单元的后验概率,并结合估计出的相应帧的动态剪枝束宽,采用维特比解码的方式进行语音解码,获得语音识别结果。
由上述本发明提供的技术方案可以看出,针对传统语音解码剪枝算法中存在较多冗余路径,以及已有改进算法中剪枝有效性不足问题,提出基于声学特征进行动态剪枝束宽的预测思路,并根据实现复杂度的不同,提出两种具体的建模方式和相应的参数估计训练方法,提高了语音识别解码效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的临界剪枝束宽随时间的变化情况的示意图;其中的a部分为语音波形,b部分为剪枝束宽;
图2为本发明实施例提供的本发明中线性回归和分段MLP(Multi-LayerPerceptron) 动态剪枝束宽预测方法下,相比传统基线剪枝方法的效率提升情况的示意图;
图3为本发明实施例提供的一种基于动态剪枝束宽预测的语音识别效率优化方法的流程图;
图4为本发明实施例提供的提取神经网络声学特征的流程图;
图5为本发明实施例提供的用于预测动态剪枝束宽所采用的DNN模型结构的示意图;
图6为本发明实施例提供的获得全局最优路径及每帧对应的得分,以及每帧数据局部最优路径的得分的流程图;
图7为本发明实施例提供的为采用分段MLP建模方案的MLP模型结构示意图;
图8为本发明实施例提供的基于动态剪枝束宽预测模型以及相应的模型参数实现语音识别的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
大词汇量连续语音识别中由于词典规模的增加搜索空间非常庞大,导致解码过程是语音识别器非常耗时的部分。传统剪枝算法通过减少剪枝束宽虽然可以提高解码效率,但往往带来识别性能的急剧下降。已有的改进剪枝算法一定程度上提高了剪枝的有效性,但提升幅度和预期还是有一定距离。
语音解码中剪枝的目的一方面尽可能地提前去除冗余路径提高解码搜索效率,另一方面则要求全局最优路径在每个时刻不会被错误剪枝掉。由于传统基于固定剪枝束宽的方法需要考虑每个时刻上最坏情况,一般剪枝束宽设置较大,其它时刻上存在较大的冗余。图1所示是临界剪枝束宽随时间的变化情况,图1中的a部分为语音波形,图1中的b部分为剪枝束宽,可以看出每个时刻上临界束宽波动范围很大,为了兼顾最坏的情况,在其它时刻的冗余比较明显。
考虑这种特性,每个时刻单独估计一个动态剪枝束宽来减少冗余度。由于临界剪枝束宽受语音包含内容、信道、噪声,以及声学模型和语言模型等多种因素的影响,直接估计非常困难。本发明充分利用深度神经网络的建模能力,将神经网络的隐层输出作为声学特征对临界束宽进行预测,取得了较好的效果。图2所示,是本发明中线性回归和分段MLP动态剪枝束宽预测方法下,相比传统基线剪枝方法的效率提升情况。可以看出相同的识别正确率下,两种方法的平均剪枝束宽能够取得明显的下降。而平均剪枝束宽的下降会带来解码过程中冗余度的下降,从而提升解码效率。
下面结合具体实施例对本发明的方案做详细的说明。
如图3所示,为本发明实施例提供的一种基于动态剪枝束宽预测的语音识别效率优化方法的流程图,其主要包括如下步骤:
步骤11、基于训练好的神经网络模型从输入的训练语音数据中提取出相应的神经网络声学特征。
本步骤的具体过程如图4所示,包括:
1)接收输入的训练语音数据;
2)对所述训练语音数据进行分帧处理,获取语音帧序列。
示例性的,可以通过加汉明窗的方式对所述训练语音数据进行分帧处理,得到语音帧序列。
3)提取各语音帧的底层声学特征。
其中,所述底层声学特征为以下任意一种:LPCC特征、滤波器FilterBank特征、MFCC特征、PLP特征。
4)对所述底层声学特征提取一阶差分和二阶差分,将所述一阶差分和二阶差分与所述底层声学特征组成多维声学特征,并将所述多维 声学特征通过前后扩帧拼接成更高维的特征。
5)基于训练好的神经网络模型与拼接后的特征提取出神经网络的隐层作为神经网络声学特征。
本发明实施例中,所述神经网络模型为:DNN声学模型、CNN声学模型、RNN声学模型或者LSTM声学模型;则提取出的神经网络声学特征为相应的DNN声学特征、CNN 声学特征、RNN声学特征或者LSTM声学特征。
示例性的,如果神经网络模型为DNN声学模型,则可以采用语音识别资源中的DNN声学模型,也可以独立单独训练一个模型。如图5所示为本发明实施例中的DNN模型结构示意图,具体为金子塔DNN模型结构,当然还可以包含其它结构,如层数的不同,每层节点数量变化等。当将所述训练神经网络模型与语音识别资源中的模型共享时,可以减少训练流程,同时在语音识别器减少资源所占内存空间,以及用于估计动态剪枝束宽的 DNN声学特征在解码过程声学得分计算过程中同步生成,不会增加额外的计算量。
本发明实施例中,将提取出来的隐层输出作为神经网络声学特征,通常情况下,神经网络结果一旦确定,每个隐层的输出都可以用来估计动态剪枝束宽,为了获得更加稳定的表征特征,本发明可以采用最后一个隐层的输出。
步骤12、根据提取出的神经网络声学特征采用维特比解码的方式,计算输入的训练语音数据对应的全局最优路径及每帧对应的得分,以及每帧数据局部最优路径的得分,从而获得每帧数据的临界剪枝束宽。
获得全局最优路径及每帧对应的得分,以及每帧数据局部最优路径的得分的具体过程如图6所示,包括:
a、基于所述神经网络声学特征计算每一帧数据的建模单元的后验概率;对于每帧数据,每一节点即为一个建模单元,则第i个节点后验概率计算公式为:其中,γ为可调参数控制输出后验概率尖锐程度,M为建模单元的个数;yi是指输出层第i个节点的线性输出,定义为这里xj为最后一个隐层第j个节点的输出,N为最后一个隐层的节点数,wji和bi为DNN网络中相应的权重和偏置参数;f(·) 为神经元的非线性作用函数,可以是sigmoid函数,也可以说tanh函数或者RELU函数,不做限制。
b、对于当前帧,将其每个建模单元的后验概率的得分转换为相应的似然概率得分。
示例性的,可以根据贝叶斯公式,除以该建模单元的先验概率,获得相应的似然概率得分。
c、根据上一时刻局部最优路径与当前时刻相应建模单元的似然概率得分来估计当前时刻局部最优路径的得分。
示例性的,可以将上一时刻局部最优路径加上当前时刻相应建模单元的似然概率得分,向后扩展并加上扩展路径上相应的语言模型得分即可。
本领域技术人员可以理解,所述语言模型得分是指已获知解码路径上历史词序列时,当前扩展路径上词出现的概率得分。
d、根据解码网络拓扑结构和当前的活动令牌(Active Token),以及相应的似然概率得分,更新每个活动令牌得分。
本领域技术人员可以理解,令牌是解码引擎实现过程中,用于记录解码路径信息的数据结构,包括当前时刻局部路径得分信息、历史词序列信息等。每条路径都对应一个令牌,有些路径得分较小会被剪枝,不再向后传播,而另外一部分路径得分较大,会继续向后扩展,称之为活动令牌。此处的活动令牌得分表示局部路径得分。
e、比较每个活动令牌得分与当前时刻局部最优路径的得分之间的差距,将差距在设定束宽之外的活动令牌丢弃。
f、对保留下来的活动令牌按照得分统计起直方图分布,丢弃在直方图束宽之外的活动令牌,并记录当前的局部最优路径的得分。
示例性的,如果当前直方图束宽为H,在直方图排名中只保留前H个活动令牌。同时记录当前局部最优路径的得分,以便估计临界剪枝束宽。
g、对直方图束宽剪枝保留下来的活动令牌路径沿着解码网络拓扑结构进行向后扩展;并判断当前帧是否是最后一帧,如果不是,则继续取下一帧并重复上述步骤b~f。
h、当所有输入帧解码完毕之后获取全局最优路径,以及每帧的得分。
此后,根据每帧局部最优路径得分和全局最优路径得分计算临界剪枝束宽,只要每帧上的剪枝束宽大于该剪枝束宽就不会出现全局最优路径被错误裁掉的风险:
假设第t帧,局部最优路径得分为Qlocal-max(t),全局最优路径得分为Qglobal-max(t),则临界剪枝束宽B(t)计算如下:
步骤13、利用每帧数据的临界剪枝束宽与对应的神经网络声学特征,来确定动态剪枝束宽预测模型并估计相应的模型参数。
本发明实例根据实现的复杂程度,提出两种不同的模型结构,和相应的参数估计方法:线性回归模型与多层感知器MLP模型;
1)采用线性回归模型时,每帧数据的临界剪枝束宽B(t)与对应帧的神经网络声学特征X(t)服从线性关系,即B(t)=wTX(t)+b;其中w,b为待估计参数;
首先,采用最小均方误差(MSE)估计w和b的初始值,即最小化如下目标函数:
其中,T是指训练语音数据总的帧数。
当预测值大于临界束宽时不会导致剪枝错误但会影响剪枝效率,预测值小于临界束宽时则会导致剪枝错误。而动态剪枝的最终目的是在保留最优路径的条件下提高剪枝效率,所以在MSE估计的基础之上,再利用Boost-MSE算法对参数进行调整,调整后的目标函数为:
采用梯度下降算法对调整后的目标函数进行计算,估计出参数w与b。具体的求导过程可参见现有技术,此处不再赘述。
2)Boost-MSE算法相比MSE准则虽然能够取得更好的预测效果,但由于临界剪枝束宽波动范围较大,受到的影响因素较多,和神经网络声学特征之间并不一定呈现出简单的线性关系,因此这里考虑基于MLP模型进行拟合。
采用常见的MLP回归的思路,同样需要对波动范围很大的DNN声学特征和临界剪枝束宽进行预测,此时MLP网络结构将会很复杂。本发明实施例中,将MLP分类和回归的思路结合起来,提出一种分段MLP预测算法,只需一个隐层即能较好地完成预测功能。
假设每帧数据的临界剪枝束宽波动范围在[0,P]之间,按照非等间隔将该波动范围划分为L类,每类的临界束宽为其所属范围的最大值;训练过程中若输入的神经网络声学特征对应临界束宽属于第i类,则将第i类标记为1,其他类标记为0。
所述MLP模型为前向神经网络,即每层的节点会和下一层节点进行全连接,每个连接对应一个加权系数,通过该加权系数,当前层的信息就可以传递给下一层。另输入层和每个隐层均包含一个输出为1的节点,用以表征偏置项。所述加权系数即为MLP模型需要估计的参数,可以采用经典的后向扩展算法进行估计。
示例性的,如图7所示,为采用分段MLP建模方案的MLP模型结构示意图。假设临界束宽波动范围在[0,175]之间,首先按照非等间隔将其划分为L类(L=16),每类的临界束宽设置为其上限。即在图7中若临界束宽在(0,5]之间则它们属于同一个类,对应同一个 MLP输出节点,该节点输出的临界束宽为5。图7所示是分段MLP算法中采用的网络结果拓扑图,其输出特征为X(t),中间加一个隐层,输出节点个数为L,分别对应每个划分段。
步骤14、根据所述动态剪枝束宽预测模型以及相应的模型参数,估计待识别语音数据中每一帧数据对应的剪枝束宽,并利用估计出的剪枝束宽替代原始的固定剪枝束宽,从而提高待识别语音数据的语音识别效率。
本步骤的具体过程如图8所示,包括:
1)采用与提取训练语音数据的神经网络声学特征相同的方式提取待识别语音数据的神经网络声学特征。具体过程已经在前文进行了详细介绍,故不再赘述。
2)将待识别语音数据的神经网络声学特征与所述动态剪枝束宽预测模型以及相应的模型参数相结合,进行每一帧数据动态剪枝束宽的估计。
其中,x(t)'为待识别语音数据中某一帧数据的神经网络声学特征;w和b分别为训练出的模型参数,在具体的实现中,为了更好地平衡剪枝错误和解码效率,b可以进行上下手动调整。
如果所述动态剪枝束宽预测模型为MLP模型结构,对于输入的每一神经网络声学特征x(t)'会得到一个L维的输出向量,每个元素表示相应节点上的后验概率。可以选择后验概率最大的节点对应的临界束宽输出,作为预测值。但在实际应用中发现部分特征输出的最大后验概率置信度并不是很高,为了增加鲁棒性,这里采用累计后验概率分布的方法确定预测值。令
其中,0<n≤L,oi(t)是指第t帧数据属于第i类的后验概率,计算方式如下:
其中,γ控制后验分布尖锐程度,为最后一个隐层的线性输出,N为节点数,wji和bi为MLP网络中相应的权重和偏置参数;f(·)为神经元的非线性作用函数,可以是sigmoid函数,也可以说tanh函数或者RELU函数,不做限制。
如果第n个节点的累计后验概率超过某个阈值,则该节点对应的输出束宽即为预测临界束宽。
3)基于待识别语音数据的神经网络声学特征计算每一帧数据的建模单元的后验概率,并结合估计出的相应帧的动态剪枝束宽,采用维特比解码的方式进行语音解码,获得语音识别结果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (7)
1.一种基于动态剪枝束宽预测的语音识别效率优化方法,其特征在于,包括:
基于训练好的神经网络模型从输入的训练语音数据中提取出相应的神经网络声学特征;
根据提取出的神经网络声学特征采用维特比解码的方式,计算输入的训练语音数据对应的全局最优路径及每帧对应的得分,以及每帧数据局部最优路径的得分,从而获得每帧数据的临界剪枝束宽;
利用每帧数据的临界剪枝束宽与对应的神经网络声学特征,来确定动态剪枝束宽预测模型并估计相应的模型参数;
根据所述动态剪枝束宽预测模型以及相应的模型参数,估计待识别语音数据中每一帧数据对应的剪枝束宽,并利用估计出的剪枝束宽替代原始的固定剪枝束宽,从而提高待识别语音数据的语音识别效率。
2.根据权利要求1所述的方法,其特征在于,所述基于训练好的神经网络模型从输入的训练语音数据中提取出相应的神经网络声学特征包括:
接收输入的训练语音数据;
对所述训练语音数据进行分帧处理,获取语音帧序列并提取各语音帧的底层声学特征;其中,所述底层声学特征为以下任意一种:LPCC特征、滤波器FilterBank特征、MFCC特征、PLP特征;
对所述底层声学特征提取一阶差分和二阶差分,将所述一阶差分和二阶差分与所述底层声学特征组成多维声学特征,并将所述多维声学特征通过前后扩帧拼接成更高维的特征;
基于训练好的神经网络模型与拼接后的特征提取出神经网络的隐层作为神经网络声学特征。
3.根据权利要求1或2所述的方法,其特征在于,所述神经网络模型为:DNN声学模型、CNN声学模型、RNN声学模型或者LSTM声学模型;则提取出的神经网络声学特征为相应的DNN声学特征、CNN声学特征、RNN声学特征或者LSTM声学特征。
4.根据权利要求1所述的方法,其特征在于,所述根据提取出的神经网络声学特征采用维特比解码的方式,计算输入的训练语音数据对应的全局最优路径及每帧对应的得分,以及每帧数据局部最优路径的得分包括:
a、基于所述神经网络声学特征计算每一帧数据的建模单元的后验概率;对于每帧数据,每一节点即为一个建模单元,则第i个节点后验概率计算公式为:其中,γ为可调参数控制输出后验概率尖锐程度,M为建模单元的个数,yi为输出层第i个节点的线性输出,定义为xj为最后一个隐层第j个节点的输出,N为节点数,wji和bi为DNN网络中相应的权重和偏置参数,f(·)为神经元的非线性作用函数;
b、对于当前帧,将其每个建模单元的后验概率的得分转换为相应的似然概率得分;
c、根据上一时刻局部最优路径与当前时刻相应建模单元的似然概率得分来估计当前时刻局部最优路径的得分;
d、根据解码网络拓扑结构和当前的活动令牌,以及相应的似然概率得分,更新每个活动令牌得分;
e、比较每个活动令牌得分与当前时刻局部最优路径的得分之间的差距,将差距在设定束宽之外的活动令牌丢弃;
f、对保留下来的活动令牌按照得分统计起直方图分布,丢弃在直方图束宽之外的活动令牌,并记录当前的局部最优路径的得分;
g、对直方图束宽剪枝保留下来的活动令牌路径沿着解码网络拓扑结构进行向后扩展;并判断当前帧是否是最后一帧,如果不是,则继续取下一帧并重复上述步骤b~f;
h、当所有输入帧解码完毕之后获取全局最优路径,以及每帧的得分。
5.根据权利要求1或4所述的方法,其特征在于,获得每帧数据的临界剪枝束宽包括:
假设第t帧,局部最优路径得分为Qlocal-max(t),全局最优路径得分为Qglobal-max(t),则临界剪枝束宽B(t)计算如下:
B(t)=Qlocal-max(t)-Qglobal-max(t)。
6.根据权利要求1或2或4所述的方法,其特征在于,所述利用每帧数据的临界剪枝束宽与对应的神经网络声学特征,来确定动态剪枝束宽预测模型并估计相应的模型参数包括:
所述动态剪枝束宽预测模型包括:线性回归模型与多层感知器MLP模型;
其中,采用线性回归模型时,每帧数据的临界剪枝束宽B(t)与对应的神经网络声学特征X(t)服从线性关系,即B(t)=wTX(t)+b;其中w,b为待估计参数;
首先,采用最小均方误差估计w和b的初始值,即最小化如下目标函数:
其中,T为训练语音数据总的帧数;
再利用Boost-MSE算法对参数进行调整,调整后的目标函数为:
采用梯度下降算法对调整后的目标函数进行计算,估计出参数w与b;
采用MLP模型时,假设每帧数据的临界剪枝束宽波动范围在[0,P]之间,按照非等间隔将该波动范围划分为L类,每类的临界束宽为其所属范围的最大值;训练过程中若输入的神经网络声学特征对应临界束宽属于第i类,则将第i类标记为1,其他类标记为0,再采用向后扩展算法训练;所述MLP模型为前向神经网络,每层的节点会和下一层节点进行全连接,每个连接对应一个加权系数,通过该加权系数,当前层的信息就可以传递给下一层,另输入层和每个隐层均包含一个输出为1的节点,用以表征偏置项;所述加权系数即为MLP模型需要估计的参数。
7.根据权利要求6所述的方法,其特征在于,根据所述动态剪枝束宽预测模型以及相应的模型参数,估计待识别语音数据中每一帧数据对应的剪枝束宽,并利用估计出的剪枝束宽替代原始的固定剪枝束宽,从而提高待识别语音数据的语音识别效率包括:
采用与提取训练语音数据的神经网络声学特征相同的方式提取待识别语音数据的神经网络声学特征;
将待识别语音数据的神经网络声学特征与所述动态剪枝束宽预测模型以及相应的模型参数相结合,进行每一帧数据动态剪枝束宽的估计;
基于待识别语音数据的神经网络声学特征计算每一帧数据的建模单元的后验概率,并结合估计出的相应帧的动态剪枝束宽,采用维特比解码的方式进行语音解码,获得语音识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610214520.1A CN105845128B (zh) | 2016-04-06 | 2016-04-06 | 基于动态剪枝束宽预测的语音识别效率优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610214520.1A CN105845128B (zh) | 2016-04-06 | 2016-04-06 | 基于动态剪枝束宽预测的语音识别效率优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105845128A CN105845128A (zh) | 2016-08-10 |
CN105845128B true CN105845128B (zh) | 2020-01-03 |
Family
ID=56596988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610214520.1A Active CN105845128B (zh) | 2016-04-06 | 2016-04-06 | 基于动态剪枝束宽预测的语音识别效率优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105845128B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107785015A (zh) * | 2016-08-26 | 2018-03-09 | 阿里巴巴集团控股有限公司 | 一种语音识别方法及装置 |
CN106328126B (zh) * | 2016-10-20 | 2019-08-16 | 北京云知声信息技术有限公司 | 远场语音识别处理方法及装置 |
CN106980811A (zh) * | 2016-10-21 | 2017-07-25 | 商汤集团有限公司 | 人脸表情识别方法和人脸表情识别装置 |
JP6618884B2 (ja) * | 2016-11-17 | 2019-12-11 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
CN106710599A (zh) * | 2016-12-02 | 2017-05-24 | 深圳撒哈拉数据科技有限公司 | 一种基于深度神经网络的特定声源检测方法与系统 |
CN106875936B (zh) * | 2017-04-18 | 2021-06-22 | 广州视源电子科技股份有限公司 | 语音识别方法及装置 |
CN109754790B (zh) * | 2017-11-01 | 2020-11-06 | 中国科学院声学研究所 | 一种基于混合声学模型的语音识别系统及方法 |
CN108074575A (zh) * | 2017-12-14 | 2018-05-25 | 广州势必可赢网络科技有限公司 | 一种基于循环神经网络的身份验证方法及装置 |
CN108389575B (zh) * | 2018-01-11 | 2020-06-26 | 苏州思必驰信息科技有限公司 | 音频数据识别方法及系统 |
CN108550364B (zh) * | 2018-04-20 | 2019-04-30 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN110619871B (zh) * | 2018-06-20 | 2023-06-30 | 阿里巴巴集团控股有限公司 | 语音唤醒检测方法、装置、设备以及存储介质 |
CN109727603B (zh) * | 2018-12-03 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置、用户设备及存储介质 |
CN110164421B (zh) | 2018-12-14 | 2022-03-11 | 腾讯科技(深圳)有限公司 | 语音解码方法、装置及存储介质 |
CN111583910B (zh) * | 2019-01-30 | 2023-09-26 | 北京猎户星空科技有限公司 | 模型更新方法、装置、电子设备及存储介质 |
CN112151020A (zh) * | 2019-06-28 | 2020-12-29 | 北京声智科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN110532448B (zh) * | 2019-07-04 | 2023-04-18 | 平安科技(深圳)有限公司 | 基于神经网络的文档分类方法、装置、设备及存储介质 |
CN110689040B (zh) * | 2019-08-19 | 2022-10-18 | 广州荔支网络技术有限公司 | 一种基于主播画像的声音分类方法 |
US11120786B2 (en) * | 2020-03-27 | 2021-09-14 | Intel Corporation | Method and system of automatic speech recognition with highly efficient decoding |
CN111883181A (zh) * | 2020-06-30 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 音频检测方法、装置、存储介质及电子装置 |
CN111785303B (zh) * | 2020-06-30 | 2024-04-16 | 合肥讯飞数码科技有限公司 | 模型训练方法、模仿音检测方法、装置、设备及存储介质 |
CN112564716B (zh) * | 2020-08-05 | 2022-12-13 | 新疆大学 | 一种基于剪枝迭代的pc-scma系统联合译码方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982799A (zh) * | 2012-12-20 | 2013-03-20 | 中国科学院自动化研究所 | 一种融合引导概率的语音识别优化解码方法 |
CN105096939A (zh) * | 2015-07-08 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN105340005A (zh) * | 2012-12-21 | 2016-02-17 | 赛普拉斯半导体公司 | 基于直方图获取有效hmm的预剪枝方案 |
-
2016
- 2016-04-06 CN CN201610214520.1A patent/CN105845128B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982799A (zh) * | 2012-12-20 | 2013-03-20 | 中国科学院自动化研究所 | 一种融合引导概率的语音识别优化解码方法 |
CN105340005A (zh) * | 2012-12-21 | 2016-02-17 | 赛普拉斯半导体公司 | 基于直方图获取有效hmm的预剪枝方案 |
CN105096939A (zh) * | 2015-07-08 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
Non-Patent Citations (1)
Title |
---|
《An efficient layer-wised beam pruning algorithm for large vocabulary continuous speech recognition system》;XIE CHEN等;《2012 International Conference on Audio,Language and Image Processing》;IEEE;20121211;第1010-1013页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105845128A (zh) | 2016-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105845128B (zh) | 基于动态剪枝束宽预测的语音识别效率优化方法 | |
US11056099B2 (en) | End-to-end speech recognition with policy learning | |
CN108346436B (zh) | 语音情感检测方法、装置、计算机设备及存储介质 | |
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
US10891944B2 (en) | Adaptive and compensatory speech recognition methods and devices | |
US11210470B2 (en) | Automatic text segmentation based on relevant context | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
EP1465154B1 (en) | Method of speech recognition using variational inference with switching state space models | |
CN112967739B (zh) | 一种基于长短期记忆网络的语音端点检测方法及系统 | |
US11605377B2 (en) | Dialog device, dialog method, and dialog computer program | |
KR20190136578A (ko) | 음성 인식 방법 및 장치 | |
WO2018232591A1 (en) | SEQUENCE RECOGNITION PROCESSING | |
CN112652306A (zh) | 语音唤醒方法、装置、计算机设备和存储介质 | |
Liu et al. | Loss and double-edge-triggered detector for robust small-footprint keyword spotting | |
CN112825250A (zh) | 语音唤醒方法、设备、存储介质及程序产品 | |
US20180061395A1 (en) | Apparatus and method for training a neural network auxiliary model, speech recognition apparatus and method | |
WO2020151017A1 (zh) | 一种可扩展的领域人机对话系统状态跟踪方法及设备 | |
JP5070591B2 (ja) | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム | |
Pan et al. | Speech recognition via Hidden Markov Model and neural network trained by genetic algorithm | |
CN112017676A (zh) | 音频处理方法、装置和计算机可读存储介质 | |
WO2021217619A1 (zh) | 基于标签平滑的语音识别方法、终端及介质 | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
KR20230156425A (ko) | 자체 정렬을 통한 스트리밍 asr 모델 지연 감소 | |
Moons et al. | Resource aware design of a deep convolutional-recurrent neural network for speech recognition through audio-visual sensor fusion | |
CN110874553A (zh) | 一种识别模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |