CN102737638B

CN102737638B - 一种语音解码的方法及装置

Info

Publication number: CN102737638B
Application number: CN201210226796.3A
Authority: CN
Inventors: 钱胜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-06-30
Filing date: 2012-06-30
Publication date: 2015-06-03
Anticipated expiration: 2032-06-30
Also published as: CN102737638A

Abstract

本发明提供了一种语音解码的方法及装置，其中语音解码的方法包括：A．从待解码的语音特征流中获取当前语音特征帧；B.利用当前语音特征帧对当前的各条解码路径进行扩展；C.利用语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前的解码路径，并判断待解码的语音特征流是否已到达最后帧，如果是，则从当前的各条解码路径中确定最优解码路径作为对所述待解码的语音特征流进行解码的结果，否则将待解码的语音特征流的下一帧作为当前语音特征帧，返回所述步骤B。通过上述方式，提高了语音解码的精度。

Description

一种语音解码的方法及装置

【技术领域】

本发明涉及语音识别技术，特别涉及一种语音解码的方法及装置。

【背景技术】

采用HMM（Hidden Markov Model，隐马尔科夫模型）模型进行语音识别已经是语音识别中的主流技术。HMM是一个对语音信号的时间序列结构建立的统计模型，它将语音信号看作一个数学上的双重随机过程：一个是用具有有限状态数的马尔科夫链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与马尔科夫链的每一个状态相关联的观测序列的随即过程。在采用HMM模型进行语音解码时，随着解码过程的进行，解码路径的数量会以几何级数进行增长，因此，为了减少计算量并加快解码的速度，在进行语音解码的解码过程中，需要对解码路径进行裁剪，在现有技术中，路径裁剪时仅考虑当前解码路径在解码模型中的得分，这种方式在解码中没有考虑语音具有的短时平稳特征。

语音短时平稳特征指的是语音在很短的一个时间范围内具有相对的稳定性，表现为在很短的一个时间范围内，语音所处的状态应该是一致的。而HMM模型是一个统计模型，该模型无法自动对频繁进行状态跳转的路径进行惩罚，从而有可能出现频繁跳转的解码路径得到的分值反倒大于其他解码路径，从而使得正确的解码路径过早被裁剪掉，影响了语音解码的速度和精度。

【发明内容】

本发明所要解决的技术问题是提供一种语音解码方法及装置，以解决现有技术在进行语音解码时速度慢、精度低的技术缺陷。

本发明为解决技术问题而采用的技术方案是提供一种语音解码方法，包括：A．从待解码的语音特征流中获取当前语音特征帧；B.利用当前语音特征帧对当前的各条解码路径进行扩展；C.利用语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前的解码路径，并判断待解码的语音特征流是否已到达最后帧，如果是，则从当前的各条解码路径中确定最优解码路径作为对所述待解码的语音特征流进行解码的结果，否则将待解码的语音特征流的下一帧作为当前语音特征帧，返回所述步骤B。

根据本发明之一优选实施例，所述步骤B具体包括：根据已知的语音特征帧之间的状态跳转关系，确定当前的各条解码路径中最后一个状态节点代表的状态至当前语音特征帧之间所有可能的状态跳转，其中一种可能的状态跳转对应由当前语音特征帧的一个状态节点扩展而来的一条解码路径；根据声学模型和语言模型确定扩展后的各条解码路径的得分。

根据本发明之一优选实施例，利用语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前的解码路径的步骤具体包括：从扩展后的各条解码路径中确定违背语音短时平稳特征的解码路径；降低所述违背语音短时平稳特征的解码路径的得分；根据各条解码路径的得分选取一条以上的解码路径作为当前的解码路径。

根据本发明之一优选实施例，确定违背语音短时平稳特征的解码路径的步骤具体包括：将扩展后的各条解码路径中相同状态的连续节点数低于限值的解码路径作为违背语音短时平稳特征的解码路径。

根据本发明之一优选实施例，根据各条解码路径的得分选取一条以上的解码路径作为当前的解码路径的步骤具体包括：从各条解码路径中选取得分最高的N条解码路径作为当前的解码路径，其中N为自然数；或者，将各条解码路径中得分与最高分之间差值大于设定值的解码路径剔除并将剩余解码路径作为当前的解码路径。

根据本发明之一优选实施例，所述步骤C中确定最优解码路径的步骤具体包括：将当前的各条解码路径中得分最高的解码路径作为最优解码路径。

本发明还提供了一种语音解码装置，包括：接收单元，用于从待解码的语音特征流中获取当前语音特征帧；扩展单元，用于利用当前语音特征帧对当前的各条解码路径进行扩展；选取单元，用于利用语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前的解码路径，并触发判断单元运行；判断单元，用于判断待解码的语音特征流是否已到达最后帧，如果是，则从当前的各条解码路径中确定最优解码路径作为对所述待解码的语音特征流进行解码的结果，否则将待解码的语音特征流的下一帧作为当前语音特征帧并触发所述扩展单元运行。

根据本发明之一优选实施例，所述扩展单元具体包括：路径扩展子单元，用于根据已知的语音特征帧之间的状态跳转关系，确定当前的各条解码路径中最后一个状态节点代表的状态至当前语音特征帧之间所有可能的状态跳转，其中一种可能的状态跳转对应当前语音特征帧的一个状态节点扩展而来的一条解码路径；得分确定子单元，用于根据声学模型和语言模型确定扩展后的各条解码路径的得分。

根据本发明之一优选实施例，所述选取单元具体包括：路径确定子单元，用于从扩展后的各条解码路径中确定违背语音短时平稳特征的解码路径；惩罚子单元，用于降低所述违背语音短时平稳特征的解码路径的得分；路径选取子单元，用于根据各条解码路径的得分选取一条以上的解码路径作为当前的解码路径。

根据本发明之一优选实施例，所述路径确定子单元将扩展后的各条解码路径中相同状态的连续节点数低于限值的解码路径作为违背语音短时平稳特征的解码路径。

根据本发明之一优选实施例，所述路径选取子单元从各条解码路径中选取得分最高的N条解码路径作为当前的解码路径，其中N为自然数；或者，将各条解码路径中得分与最高分之间差值大于设定值的解码路径剔除并将剩余解码路径作为当前的解码路径。

根据本发明之一优选实施例，所述判断单元确定最优解码路径的方式具体包括：将当前的各条解码路径中得分最高的解码路径作为最优解码路径。

由以上技术方案可以看出，在本发明中采用了一种新的语音解码方法，该解码方法充分考虑了语音的短时平稳特征，利用了语音的短时平稳特征在解码过程中进行路径选取，从而更有效地裁剪掉不合理的解码路径，降低了正确解码路径被错误裁剪的可能性，提高了语音解码的速度和精度。

【附图说明】

图1为本发明中语音解码方法的流程示意图；

图2为本发明中解码路径扩展的示意图；

图3为本发明中语音解码装置的结构示意框图；

图4为本发明中扩展单元的实施例的结构示意框图；

图5为本发明中选取单元的实施例的结构示意框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

对语音进行识别通常包括了以下几大部分：对语音进行前端处理、提取语音的声学特征，以及对提取特征后形成的语音特征流进行解码。其中对语音进行前端处理包括对原始语音进行处理，部分消除噪声和不同说话人带来的影响，使处理后的信号更能反映语音的本质特征，最常用的前端处理有端点检测和语音增强。在提取语音的声学特征阶段，较常用的声学特征包括线性预测系数LPC、倒谱系数CEP等。对语音进行前端处理和提取语音的声学特征已有很多成熟的现有技术，本发明主要涉及的是如何对语音特征流进行解码。

请参考图1，图1为本发明中语音解码方法的流程示意图。如图1所示，该方法包括：

步骤S101：从待解码的语音特征流中获取当前语音特征帧。

步骤S102：利用当前语音特征帧对当前的各条解码路径进行扩展。

步骤S103：利用语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前的解码路径，并判断待解码的语音特征流是否已到达最后帧，如果是，则从当前的各条解码路径中确定最优解码路径作为对待解码的语音特征流进行解码的结果，否则将待解码的语音特征流的下一帧作为当前语音特征帧并返回步骤S102。

下面对上述步骤进行具体说明。

语音特征流从数据的开始时刻至结束时刻，可按照时间顺序划分为语音特征帧，每个帧是极短的一段时间内的语音特征数据。步骤S101中的当前语音特征帧在初始时刻，即为语音特征流的第一帧。

步骤S102具体地包括：

步骤S1021：根据已知的语音特征帧之间的状态跳转关系，确定当前的各条解码路径中的最后一个状态节点代表的状态至当前语音特征帧之间所有可能的状态跳转，其中一种可能的状态跳转对应由当前语音特征帧的一个状态节点扩展而来的一条解码路径。

步骤S1022：根据声学模型和语言模型确定扩展后的各条解码路径的得分。

一条解码路径是对语音特征流进行解码时存在的一种可能，语音解码的核心即是从各种可能的解码路径中找出最优的一条解码路径作为解码结果。以最常用的HMM语音解码方法为例说明上述步骤S1021。请参考图2，图2为本发明中解码路径扩展的示意图。如图2所示，图的左边是已知的解码网络，其定义了语音特征帧之间的状态跳转关系。根据该解码网络，状态1只能跳转到状态2，状态2可以跳转回状态2或者跳转到状态3或状态4，状态3可以跳转回状态3或者跳转到状态4或状态5，其余状态跳转关系同理可以判断。根据上述的解码网络，一个语音特征帧A在状态2时，当下一语音特征帧B到达时，语音特征帧B可能具有的状态就是状态2、状态3或状态4。

请参考图2的右侧，坐标系的纵轴定义了语音特征帧可能具有的状态，坐标系的横轴定义了以时间划分的各个语音特征帧。一条解码路径中的一个节点代表了一个语音特征帧的一种状态，可称之为状态节点。一条解码路径可表示为数组的形式，其中各个分量顺序依次表示语音特征帧的时间顺序，各分量值代表了对应语音特征帧的一种状态，例如解码路径（1，2，3），表示三个连续语音特征帧的状态分别是状态1、状态2和状态3。

假设初始时刻0的语音特征帧的状态是1，其确定了各条解码路径的首个节点。当时刻1的语音特征帧到达时，根据已知的语音特征帧之间的状态跳转关系（即解码网络），可以知道，可能的状态跳转只有状态2，则扩展得到的解码路径为（1，2）。当时刻2的语音特征帧到达时，根据已知的语音特征帧之间的状态关系，解码路径（1，2）的最后一个状态节点代表的状态（即状态2）至当前语音特征帧（即时刻2的语音特征帧）之间所有可能的状态跳转包括：状态2跳转到状态2、状态2跳转到状态3、状态2跳转到状态4，因此解码路径（1，2）可以扩展成三条解码路径（1，2，2）、（1，2，3）和（1，2，4）。依次类推，在时刻3的语音特征帧到达时，解码路径可以扩展成八条，分别是（1，2，2，2）、（1，2，2，3）、（1，2，2，4）、（1，2，3，3）、（1，2，3，4）、（1，2，3，5）、（1，2，4，4）、（1，2，4，5）。

得到扩展后的解码路径，在步骤S1022中，声学模型和语言模型的分值也会添加到扩展的解码路径上。这个过程与现有的语音解码相同，在此不再展开叙述。

可以看出，在解码过程中，随着语音特征帧的增加，扩展后解码路径的数量也越来越多，如果不对扩展后的解码路径进行裁剪，则随着不断进行的路径扩展，计算量会迅速增大。在本发明的步骤S103中，利用了语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前解码路径参与下一个语音特征帧到达时的路径扩展。语音短时平稳特征，指的是，语音在一个短时间的范围内（一般认为是10至30毫秒内），其特性基本保持不变。这时因为，语音是通过人的口腔内一系列的肌肉运动产生，而口腔肌肉的这种运动的变化频率远小于语音采样的频率。

具体地，利用语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前的解码路径的步骤包括：

S1031：从扩展后的各条解码路径中确定违背语音短时平稳特征的解码路径；

S1032：降低违背语音短时平稳特征的解码路径的得分；

S1033：根据各条解码路径的得分选取一条以上的解码路径作为当前的解码路径。

其中，确定违背语音短时平稳特征的解码路径的具体方式为：将扩展后的各条解码路径中相同状态的连续节点数低于限值的解码路径作为违背语音短时平稳特征的解码路径。

例如下面两条解码路径：A（2，2，2，2，2，3，3，3）和B（2，2，2，2，2，3，3，4），假设要求相同状态的连续节点数至少要大于3，则解码路径B显然就违背了语音的短时平稳特征。因为解码路径B的状态3的节点数只有两个就跳转到了状态4，从语音的短时平稳特征来看，这种跳转是不合理的。

在利用语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前的解码路径时，除了降低违背语音短时平稳特征的解码路径的得分，也可以删除部分违背语音短时平稳特征的解码路径，以降低下一语音特征帧到达时进行路径扩展的计算量。如对违背语音短时平稳特征的解码路径设置一个绝对数目限制，当违背语音短时平稳特征的解码路径数目超过这个限制时，就删除部分违背语音短时平稳特征的解码路径，以使得违背语音短时平稳特征的解码路径数目始终保持在限制数之下。

步骤S1033具体的实施方式包括：从各条解码路径中选取得分最高的N条解码路径作为当前的解码路径，其中N为自然数；或者，将各条解码路径中得分与最高分之间差值大于设定值的解码路径剔除并将剩余解码路径作为当前的解码路径。很容易理解，前者选择当前解码路径的原则依赖各条解码路径得分的绝对值，例如选取得分排名前20位的解码路径为当前的解码路径。后者选择当前解码路径的原则依赖各条解码路径得分的相对值，例如最高分为20，设定值为5，则得分低于15分的解码路径就会被剔除，其他剩余下来的解码路径就作为当前的解码路径。

在一个待解码的语音特征流未完成完整的路径扩展（即未到达最后帧前），上述对当前解码路径的扩展和对扩展后路径的裁剪（即选取当前解码路径）的过程会不断进行，直到待解码的语音特征流已得到完整的各种可能的解码路径为止，这时，步骤S103中确定最优解码路径的一种实施方式即是将当前的各条解码路径中得分最高的解码路径作为最优解码路径。

请参考图3，图3为本发明中语音解码装置的结构示意框图。如图3所示，语音解码装置包括：接收单元201、扩展单元202、选取单元203和判断单元204。

其中接收单元201，用于从待解码的语音特征流中获取当前语音特征帧。

扩展单元202，用于利用当前语音特征帧对当前的各条解码路径进行扩展。

选取单元203，用于利用语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前的解码路径并触发判断单元运行204运行。

判断单元204，用于判断待解码的语音特征流是否已到达最后帧，如果是，则从当前的各条解码路径中确定最优解码路径作为对待解码的语音特征流进行解码的结果，否则将待解码的语音特征流的下一帧作为当前语音特征帧并触发扩展单元202运行。

请参考图4，图4为本发明中扩展单元的实施例的结构示意框图。如图4所示，扩展单元202包括路径扩展子单元2021和得分确定子单元2022。其中路径扩展子单元2021，用于根据已知的语音特征帧之间的状态跳转关系，确定当前的各条解码路径中最后一个状态节点代表的状态至当前语音特征帧之间所有可能的状态跳转，其中一种可能的状态跳转对应当前语音特征帧的一个状态节点扩展而来的一条解码路径。得分确定子单元2022，用于根据声学模型和语言模型确定扩展后的各条解码路径的得分。

请参考图2，图2为本发明中解码路径扩展的示意图。如图2所示，图的左边是已知的解码网络，其定义了语音特征帧之间的状态跳转关系。根据该解码网络，状态1只能跳转到状态2，状态2可以跳转回状态2或者跳转到状态3或状态4，状态3可以跳转回状态3或者跳转到状态4或状态5，其余状态跳转关系同理可以判断。根据上述的解码网络，一个语音特征帧A在状态2时，当下一语音特征帧B到达时，语音特征帧B可能具有的状态就是状态2、状态3或状态4。

假设初始时刻0的语音特征帧的状态是1，其确定了各条解码路径的首个节点。当时刻1的语音特征帧到达时，路径扩展子单元2021根据已知的语音特征帧之间的状态跳转关系（即解码网络），得到可能的状态跳转只有状态2，则扩展得到的解码路径为（1，2）。当时刻2的语音特征帧到达时，路径扩展子单元2022根据已知的语音特征帧之间的状态关系，确定解码路径（1，2）的最后一个状态节点代表的状态（即状态2）至当前语音特征帧（即时刻2的语音特征帧）之间所有可能的状态跳转包括：状态2跳转到状态2、状态2跳转到状态3、状态2跳转到状态4，因此可以将解码路径（1，2）扩展成三条解码路径（1，2，2）、（1，2，3）和（1，2，4）。依次类推，在时刻3的语音特征帧到达时，路径扩展子单元2021可以将解码路径扩展成八条，分别是（1，2，2，2）、（1，2，2，3）、（1，2，2，4）、（1，2，3，3）、（1，2，3，4）、（1，2，3，5）、（1，2，4，4）、（1，2，4，5）。

请继续参考图4。路径扩展子单元2021在得到扩展后的各条解码路径后，通过得分确定子单元2022查找声学模型和语言模型，就可以确定扩展后的各条解码路径的得分。

请参考图5，图5为本发明中选取单元的实施例的结构示意框图。如图5所示，选择单元203包括路径确定子单元2031、惩罚子单元2032及路径选取子单元2033。

其中路径确定子单元2031，用于从扩展后的各条解码路径中确定违背语音短时平稳特征的解码路径。惩罚子单元2032，用于降低违背语音短时平稳特征的解码路径的得分。路径选取子单元2033，用于根据各条解码路径的得分选取一条以上的解码路径作为当前的解码路径。

具体地，路径确定子单元2031将扩展后的各条解码路径中相同状态的连续节点数低于限值的解码路径作为违背语音短时平稳特征的解码路径。具体地，路径选取子单元2033从各条解码路径中选取得分最高的N条解码路径作为当前的解码路径，其中N为自然数；或者，将各条解码路径中得分与最高分之间差值大于设定值的解码路径剔除并将剩余解码路径作为当前的解码路径。

请继续参考图3。图3中的判断单元204，在语音特征流到达最后一帧时，从当前的解码路径中选择最优路径，作为一种实施方式，可以从当前的解码路径中选择得分最高的解码路径作为最优解码路径，从而得到对语音特征流进行解码的结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音解码方法，包括：

A．从待解码的语音特征流中获取当前语音特征帧；

B.利用当前语音特征帧对当前的各条解码路径进行扩展；

C.利用语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前的解码路径，并判断待解码的语音特征流是否已到达最后帧，如果是，则从当前的各条解码路径中确定最优解码路径作为对所述待解码的语音特征流进行解码的结果，否则将待解码的语音特征流的下一帧作为当前语音特征帧，返回所述步骤B。

2.根据权利要求1所述的方法，其特征在于，所述步骤B具体包括：

根据已知的语音特征帧之间的状态跳转关系，确定当前的各条解码路径中最后一个状态节点代表的状态至当前语音特征帧之间所有可能的状态跳转，其中一种可能的状态跳转对应由当前语音特征帧的一个状态节点扩展而来的一条解码路径；

根据声学模型和语言模型确定扩展后的各条解码路径的得分。

3.根据权利要求2所述的方法，其特征在于，利用语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前的解码路径的步骤具体包括：

从扩展后的各条解码路径中确定违背语音短时平稳特征的解码路径；

降低所述违背语音短时平稳特征的解码路径的得分；

根据各条解码路径的得分选取一条以上的解码路径作为当前的解码路径。

4.根据权利要求3所述的方法，其特征在于，确定违背语音短时平稳特征的解码路径的步骤具体包括：

将扩展后的各条解码路径中相同状态的连续节点数低于限值的解码路径作为违背语音短时平稳特征的解码路径。

5.根据权利要求3所述的方法，其特征在于，根据各条解码路径的得分选取一条以上的解码路径作为当前的解码路径的步骤具体包括：

从各条解码路径中选取得分最高的N条解码路径作为当前的解码路径，其中N为自然数；或者，将各条解码路径中得分与最高分之间差值大于设定值的解码路径剔除并将剩余解码路径作为当前的解码路径。

6.根据权利要求5所述的方法，其特征在于，所述步骤C中确定最优解码路径的步骤具体包括：

将当前的各条解码路径中得分最高的解码路径作为最优解码路径。

7.一种语音解码装置，包括：

接收单元，用于从待解码的语音特征流中获取当前语音特征帧；

扩展单元，用于利用当前语音特征帧对当前的各条解码路径进行扩展；

选取单元，用于利用语音短时平稳特征从扩展后的各条解码路径中选取一条以上的解码路径作为当前的解码路径，并触发判断单元运行；

判断单元，用于判断待解码的语音特征流是否已到达最后帧，如果是，则从当前的各条解码路径中确定最优解码路径作为对所述待解码的语音特征流进行解码的结果，否则将待解码的语音特征流的下一帧作为当前语音特征帧并触发所述扩展单元运行。

8.根据权利要求7所述的装置，其特征在于，所述扩展单元具体包括：

路径扩展子单元，用于根据已知的语音特征帧之间的状态跳转关系，确定当前的各条解码路径中最后一个状态节点代表的状态至当前语音特征帧之间所有可能的状态跳转，其中一种可能的状态跳转对应当前语音特征帧的一个状态节点扩展而来的一条解码路径；

得分确定子单元，用于根据声学模型和语言模型确定扩展后的各条解码路径的得分。

9.根据权利要求8所述的装置，其特征在于，所述选取单元具体包括：

路径确定子单元，用于从扩展后的各条解码路径中确定违背语音短时平稳特征的解码路径；

惩罚子单元，用于降低所述违背语音短时平稳特征的解码路径的得分；

路径选取子单元，用于根据各条解码路径的得分选取一条以上的解码路径作为当前的解码路径。

10.根据权利要求9所述的装置，其特征在于，所述路径确定子单元将扩展后的各条解码路径中相同状态的连续节点数低于限值的解码路径作为违背语音短时平稳特征的解码路径。

11.根据权利要求9所述的装置，其特征在于，所述路径选取子单元从各条解码路径中选取得分最高的N条解码路径作为当前的解码路径，其中N为自然数；或者，将各条解码路径中得分与最高分之间差值大于设定值的解码路径剔除并将剩余解码路径作为当前的解码路径。

12.根据权利要求11所述的装置，其特征在于，所述判断单元确定最优解码路径的方式具体包括：