CN101751924A

CN101751924A - 嵌入式平台大词汇量语音命令词的识别方法

Info

Publication number: CN101751924A
Application number: CN200910242404A
Authority: CN
Inventors: 刘加; 钱彦旻
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2009-12-10
Filing date: 2009-12-10
Publication date: 2010-06-23

Abstract

本发明公开了语音识别技术领域中的一种嵌入式平台大词汇量语音命令词的识别方法。包括下列步骤：语音信号的预处理和语音识别参数的提取、建立语音声学模型并进行语音模型训练、构建树形识别网络、应用快速识别搜索算法；其中，语音声学模型，采用基于声母右相关的词内双音子模型；构建树形识别网络具体是，构建基于相同父音节的树形识别网络，合并有相同父音节的结点；快速识别搜索算法，根据所述基于相同父音节的树形识别网络，采用动态调整窗宽的状态级剪枝策略以及帧同步词级剪枝策略。本发明对传统的嵌入式语音识别方法进行了改进，实现了内存和CPU资源的高效利用，提高了大词汇量语音命令词识别的速度。

Description

嵌入式平台大词汇量语音命令词的识别方法

技术领域

本发明属于语音识别技术领域，尤其涉及一种嵌入式平台大词汇量语音命令词的识别方法。

背景技术

语音识别技术是指使用机器从一段语音信号中识别出语音的具体内容，广泛地应用于各种人机交互系统。随着语音技术，特别是语音识别技术的飞速发展，语音识别的应用已经越来越普遍，尤其是一些简单的命令词识别系统更是因为其识别率高，性能稳定，人机交互便捷等有利条件而获得了越来越大的应用和市场前景。比如声控服务机器人、语音识别玩具、电话转接系统、简易旅游服务导航系统等。

近些年，国外一些语音技术和半导体公司都投入大量人力和物力开发语音识别专用芯片，并对自己的语音识别算法进行专利保护。这些专用芯片的语音识别算法过程通常如图1所示，输入的语音信号首先经过A/D进行采样，频谱整形加窗预加重处理，提高高频成分，进行实时特征参数提取，提取的参数为Mel频标倒谱系数(MFCC，Mel Frequency Cepstrum Coefficient)，同时进行语音识别模型训练和语音识别模板匹配。

传统的基于PC计算机上大词汇量语音命令词识别系统如图2所示，采用完全树状解码网络，该网络结构复杂，虽然可以减少剪枝路径数量，但是网络结构的实现上需要大量的链表和指针，造成存储量空间迅速增长；当识别任务是中小词表语音识别系统时，一般都采用并行的解码网络结构，如图3所示。这种识别网络实现容易，比较适合中小词表的嵌入式识别系统。在解码识别策略方面，一般采用一阶段的最优维特比束搜索剪枝方法。

然而，由于嵌入式系统存储器资源和CPU计算资源都很有限，这种传统的方法不适应于嵌入式平台上语音命令词识别的实现，当识别任务到达万级词汇量甚至几十万时，上述介绍的传统语音网络建模和剪枝方法根本无法承受庞大的词表所带来的存储和计算资源的负担。

发明内容

针对上述背景技术中提出的使用传统语音命令词识别的方法，不适于嵌入式平台的问题，本发明提出了一种嵌入式平台大词汇量语音命令词的识别方法。

本发明的技术方案是，一种嵌入式平台大词汇量语音命令词的识别方法，包括步骤：语音信号的预处理和语音识别参数的提取、建立语音声学模型并进行语音模型训练、构建树形识别网络、应用快速识别搜索算法，其特征在于，所述语音声学模型，采用基于声母右相关的词内双音子模型；

所述构建树形识别网络具体是，构建基于相同父音节的树形识别网络，合并有相同父音节的结点；

所述快速识别搜索算法，根据所述基于相同父音节的树形识别网络，采用动态调整窗宽的状态级剪枝策略以及帧同步词级剪枝策略。

所述动态调整窗宽的状态级剪枝策略采用公式：B_r＝max{-n·f_a+B_MAX，B_MIN}调整窗宽；其中，其中n是帧序号，f_a是窗宽调整因子，B_MAX，B_MIN，和B_r分别代表窗宽的上限、下限以及实际所用的窗宽。

所述帧同步词级剪枝策略采用公式：W_r＝max{-f_i·(n-N_i)+W_i，W_MIN}，i＝1，2，3，...控制词级剪枝速度，其中n是帧序号，W_MIN和W_r分别是词级剪枝的下界和实际剪枝后的候选词条数量，N_i是剪枝速度发生改变的帧序号，f_i是词级剪枝的速度因子。

本发明的有益效果是，通过改进传统的嵌入式语音识别方法，到达内存和CPU资源的高效利用的目的；在保证高识别率的基础上，既减少了识别系统所需要的存储空间，又大幅的缩减了CPU的计算资源需求，提高了大词汇量语音命令词识别的速度。

附图说明

图1是常用的语音识别的过程示意图；

图2是PC计算机上采用的完全树状的解码网络示意图；

图3是传统的嵌入式平台并行解码网络示意图；

图4是本发明中使用的基于相同父音节的树形结构识别网络示意图；

图5是本发明中使用的帧同步词级剪枝策略的示意图。

具体实施方式

下面结合附图，对优选实施例作详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

本发明中，语音信号的预处理和语音识别参数的提取采用现有技术。语音信息预处理主要是进行A/D转换和增益放大，同时进行频谱整形及分帧加窗处理，保证分帧语音的准平稳性。识别参数的提取主要是对分帧语音的特征进行提取。提取的语音特征包括MFCC倒谱系数、能量以及它们的一阶衍生特征。

对语音声学模型进行分析，构建基于声母右相关的词内双音子模型，即Biphone模型。传统的Triphone模型源自西方语言的语音声学模型分析，虽然也适合汉语，但是该模型规模太大，不适于嵌入式系统。本发明在深入分析了汉语发音规则后，建立了的基于声母右相关的词内双音子模型。

汉语的发音规则是：绝大多数汉语文字的发音都是单音节，即一个汉字的发音由一个声母加上一个韵母或韵母组合组成，或者是一个韵母单独构成。例如，“清华”的“清”由一个声母“q”加上一个韵母“ing”组成。“英雄”的“雄”由一个声母“x”加上一个韵母组合“i”和“ong”组成。“欧”由一个韵母“ou”组成。根据汉语的这一发音规则，构建基于声母右相关的词内双音子模型，该模型只考虑汉字的声母右边所连的音的影响，不再考虑声母左边所连接的音的影响。比如，在“清华”，“q+ing+h+ua”中，建“h”的双音子模型时，只考虑“ua”对“h”的影响，而不考虑“ing”对“h”的影响；建“q”时只考虑“ing”对“q”的影响，而不考虑“q”前面的音对它的影响。由于Biphone模型只考虑声母右边所连的音的影响，因此该模型的规模要远远小于传统的Triphone模型。

对建立的Biphone模型进行大词汇量训练。训练的方法与传统的Triphone模型训练方法一样。这样，原嵌入式平台的识别算法如果使用Triphone模型的话，也可以兼容Biphone模型。

构建树形识别网络。传统的嵌入式平台一般采用实现简单的并行解码网络，如图3所示。该网络存在着相同音节重复存储和重复匹配方面的浪费，但是在词表只有几百或者几千时，这种重复的现象发生几率较低，所以资源的浪费并不显著。由于在汉语中，多音字现象是相当普遍的，汉语一共有418个无调音节，所以当词表变大，达到上万甚至几十万时，词条间大部分音节都是重复的，这既存在着重复存储方面的浪费，还存在着在识别解码中音节重复匹配带来的计算资源的浪费。

计算机上通常使用连续语音识别的完全树状解码网络，如图2所示。这种网络可以在很大程度上避免音节重复匹配带来的计算资源浪费。但是由于这种复杂的解码网络在具体实现方面需要大量的链表和指针，所以存储量方面的降低不是很显著，不太适合存储资源同样有限的嵌入式系统。

基于以上的考虑，为了到达计算时间和存储空间的双赢，本发明构建一种基于相同父音节的树状识别网络，其构建方法是：将有相同父音节结点的部分进行合并。图4是基于相同父音节的树状识别网络示意图。图4中，“上海交通大学”和“上海邮管所”中，“交”与“邮”的相同父音节是“上海(shanghai)”；“上海交通大学”和“上海交管所”中，“通”与“管”的相同父音节是“上海交(shang hai jiao)”。将有相同父音节结点的部分进行合并，就是将“上海交通大学”和“上海邮管所”中，“交”与“邮”的相同父音节“上海(shang hai)”合并，以及将“上海交通大学”和“上海交管所”中的“上海交(shang hai jiao)”合并。这种网络的实现不需要大量的链表或者指针，而只需要一张简单的索引表便可以实现。这样既克服了大量音节结点重复匹配造成的计算时间的浪费，又节省了存储空间。

在构建识别网络后，改进快速识别搜索算法。根据上述基于相同父音节的树形识别网络，采用动态调整窗宽的状态级剪枝策略以及帧同步词级剪枝策略。

传统的固定窗宽的viterbi束搜索解码，窗宽的选择很大程度上决定着识别的速度和识别准确率，一般窗宽越大识别时间越长，识别准确率越高；相反，窗宽越窄识别时间越短，但是识别准确率也会随之下降；基于实验证明，随着搜索的进行，有效路径会越来越明确，有效路径和无效路径之间的差异也会变大，候选有效路径数会越来越少。在整个搜索过程中始终保持一个恒定的窗宽大小其实是没有必要的，这会带来时间上的浪费。

基于以上考虑，为了进一步节省网络解码时间，本发明提出了一种在状态级动态调整窗宽的剪枝策略，随着维特比搜索的进行，窗宽会变得越来越窄，这里采用简单但有效的线性公式来调整窗框大小：

B_r＝max{-n·f_a+B_MAX，B_MIN}

其中n是帧序号，f_a是窗宽调整因子，B_MAX，B_MIN，和B_r分别代表窗宽的上限、下限以及实际所用的窗宽。

当识别词表很大时，识别网络搜索占据了系统总识别时间的大部分，所以如果能在保证高识别率的情况下很好的控制候选词条数量，那就能很大程度上的减少识别时间的开销。为此，本发明提出了一种帧同步词级剪枝策略，随着搜索的进行，词条之间的差异逐渐显现，以此可以逐步将一些可能性较小的词条进行剪枝。

考虑到如图4所示的搜索网络结构，汉语一共有418个无调的音节，在搜索的刚开始搜索空间的分支度可以认为是418(只有418棵音节树)，随着搜索网络的扩展，整个空间的分支度会越来越大，不确定性也越来越大。基于搜索网络分支度的考虑，本发明采用了如图5所示的分段线性的词级剪枝速度来近似分支度的非线性变化。当刚开始分支度比较小时，采用比较陡峭的线性函数进行快速的词级剪枝；随着网络分支度的不断增加，采用比较平滑的线性函数来放慢词级剪枝速度。分段线性的词级剪枝公式如下：

W_r＝max{-f_i·(n-N_i)+W_i，W_MIN}，i＝1，2，3，...

其中n是帧序号，W_MIN和W_r分别是词级剪枝的下界和实际剪枝后的候选词条数量，N_i是剪枝速度发生改变的帧序号，f_i是词级剪枝的速度因子。

本发明以一个车载GPS导航系统为嵌入式平台进行实验，其识别任务是上海地名，共包括165,176个上海地名。实验表明，在存储量方面，采用传统的嵌入式语音识别方法，需要16.07MB空间；而本发明需要9.09MB空间，存储量上节省43.43％。在CPU计算资源方面，在相同实验平台的条件下，本发明的识别时间是原来方法的1/6，节省了82.72％；同时一选识别率到达了91％，前十选识别率超过了97.5％，能够保持和传统方法相当的识别精度。适合应用于大词汇量语音命令词识别的嵌入式实现。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种嵌入式平台大词汇量语音命令词的识别方法，包括步骤：语音信号的预处理和语音识别参数的提取、建立语音声学模型并进行语音模型训练、构建树形识别网络、应用快速识别搜索算法，其特征在于，所述语音声学模型，采用基于声母右相关的词内双音子模型；

2.根据权利要求1所述的一种嵌入式平台大词汇量语音命令词的识别方法，其特征在于，所述动态调整窗宽的状态级剪枝策略采用公式：B_r＝max{-n·f_a+B_MAX，B_MIN}调整窗宽；其中，其中n是帧序号，f_a是窗宽调整因子，B_MAX，B_MIN，和B_r分别代表窗宽的上限、下限以及实际所用的窗宽。

3.根据权利要求1所述的一种嵌入式平台大词汇量语音命令词的识别方法，其特征在于，所述帧同步词级剪枝策略采用公式：W_r＝max{-f_i·(n-N_i)+W_i，W_MIN}，i＝1，2，3，...控制词级剪枝速度，其中n是帧序号，W_MIN和W_r分别是词级剪枝的下界和实际剪枝后的候选词条数量，N_i是剪枝速度发生改变的帧序号，f_i是词级剪枝的速度因子。