CN102402984A

CN102402984A - 基于置信度的关键词检出系统裁剪方法

Info

Publication number: CN102402984A
Application number: CN2011102806038A
Authority: CN
Inventors: 韩纪庆; 袁浩; 李海洋
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2011-09-21
Filing date: 2011-09-21
Publication date: 2012-04-04

Abstract

基于置信度的关键词检出系统裁剪方法，涉及关键词检出系统中的局部路径裁剪方法。解决现有基于似然分的路径裁剪不能最大程度地缩减搜索空间，从而导致系统效率低，关键词确认阶段计算量大的问题。将语音特征提取得特征矢量序列，根据Viterbi解码，计算局部路径上活动模型状态产生特征矢量的概率，并累加得局部路径概率得分，再计算特征矢量的后验概率，累加得局部路径置信度得分；然后依次进行基于似然分和置信度的状态层局部路径裁剪，然后判断是否到达语音末尾，是则据解码过程生成的网格回溯找关键词，得到识别结果，否则重新解码。本发明能最大程度地缩减搜索空间，能减少30％的关键词候选。本发明适用于确认阶段计算量大的任务中。

Description

基于置信度的关键词检出系统裁剪方法

技术领域

本发明涉及一种关键词检出系统中的局部路径裁剪方法，具体是在基于似然分裁剪的基础上添加基于置信度裁剪的方法。

背景技术

关键词检出是从连续语音中识别出一组给定词的过程，它是一种非受限的语音信号处理系统，允许用户采用自然的说话方式，而不必局限于特定的语法。虽然近年来关键词检出技术获得了长足的进步，但是其检出效率仍不够高。一般的关键词检出系统，检出率通常能达到90％以上，但是系统效率始终是制约其进一步发展的瓶颈。为此，人们引入ViterbiBeam解码过程来对未知语音进行解码，它基于似然分进行局部路径的裁剪。但是这种方法具有一定的局限性，如在解码过程中，没有考虑观察矢量的先验概率，解码得到的只是所有可能的词序列中与输入语音最匹配的词串，但是其置信度不一定足够高，也就是最匹配的词串不一定就是实际语音对应的词串。它只是扩展那些似然分高的局部路径，而忽略那些似然分低的局部路径，解码过程中完全没有考虑各条路径的可信程度。造成裁剪过程不充分，搜索空间中保留一些不可能的路径，增加系统的计算量，降低系统的实时性。因此，需要研究关键词检出中的裁剪过程，进一步提高系统的检出速度，改善系统的实时性。

发明内容

本发明的目的是为了解决现有关键词检出系统解码过程中，基于似然分的路径裁剪不能最大程度地缩减搜索空间，从而导致系统效率低下，关键词确认阶段计算量大的问题，本发明提供了一种基于置信度的关键词检出系统裁剪方法。

本发明的基于置信度的关键词检出系统裁剪方法是通过以下步骤实现的：

步骤一、输入语音信号，对输入的语音信号进行预处理，特征提取得到特征矢量序列X＝{x₁，x₂，...x_s}，其中S代表自然数；

步骤二、根据Viterbi解码算法，对每帧语音特征在预先定义的识别网络上进行解码，解码之前，为每条局部路径增加一个变量，用于记录该条局部路径上的累积置信度得分，并将累积置信度得分初始化为0；

步骤三、在t时刻，所有局部路径向前扩展一次，得相应局部路径的活动模块，然后计算每个活动模型的状态q产生特征矢量x_t的概率，并累加到该条局部路径的似然分中，同时计算每个活动模型中状态q相对于x_t的后验概率，再将后验概率累加到对应的局部路径的置信度得分中，获得每条局部路径的置信度得分，其中，x_t∈X，1≤t≤S，t取自然数；

步骤四、进行基于似然分的状态层局部路径裁剪；

步骤五、进行基于置信度的状态层局部路径裁剪；

步骤六、判断是否到达语音末尾，是则转步骤七，否则转步骤二；

步骤七、根据解码过程中生成的网格回溯查找关键词，并基于后验概率确认关键词候选从而得到最终的识别结果，完成基于置信度的关键词检出系统裁剪方法。

本发明步骤三中获得每条局部路径的置信度得分的过程为：

步骤1、计算每个活动模型的状态q产生特征矢量x_t的先验概率P(x_t)：设在处理x_t时，系统存在N个活动模型，累加每个活动模型中包含的所有状态q产生特征矢量x_t的概率，作为P(x_t)的近似值，即：

P (x_{t}) = \underset{m &Element; A_mode l}{Σ} \underset{q &Element; m}{Σ} P (x_{t} | q),

其中，A_model表示t时刻系统中存在的N个活动模型的集合，m表示集合中任意一个活动模型，q为活动模型m中的状态；

步骤2、t时刻系统中每个活动模型中状态q的对数后验概率按下式进行计算：

logP(q|x_t)＝logP(x_t|q)+logP(q)-logP(x_t)，

其中，P(x_t)为步骤1中计算的特征矢量x_t的先验概率，P(x_t|q)为状态q产生特征矢量x_t的声学概率，P(q)为状态q的先验概率，可以离线计算得到，也可以忽略不计；

步骤3、将状态q的后验概率累加到其对应的局部路径置信度得分中。

本发明步骤四中进行基于似然分的状态层局部路径裁剪的过程为：

步骤1、按照从大到小的顺序依次保存任意t时刻所有局部路径似然分(步骤三中得到的)到数组score[1...N]中，假设t时刻共N条局部路径；

步骤2、任意时刻t，根据和该时刻t的N条局部路径中的最大似然分S_max，计算得到t时刻的裁剪门限：

threshhold(t)＝α×(S_max(t)-beam(t))

其中，beam(t)为第时刻t(t帧)时的束宽度；

步骤3、遍历数组score[1...N]，对于其中的每一个得分score[i]，如果score[i]＜threshhold(t)，则终止在其对应的局部路径上的搜索，否则，继续在该条局部路径上进行搜索，其中，1≤i≤N。

其中步骤2中的束宽度beam(t)可以采用预先设定的固定束宽度，也可以自适应获得beam(t)，如根据t时刻所有局部路径得分中最大的和所有得分的平均值计算得到beam(t)等方法。束宽度beam(t)的设定是本领域技术人员公知的。

本发明步骤五中进行基于置信度的状态层局部路径裁剪的过程为：

步骤1、按照从大到小的顺序依次保存任意t时刻所有局部路径的置信度得分(步骤三中得到的)到数组score[1...N]中，假设t时刻共N条局部路径；

步骤2、任意时刻t，根据裁剪宽度beam(t)和该时刻t的N条局部路径中的最大置信度得分S_max，计算得到t时刻的裁剪门限：

threshhold(t)＝α×(S_max(t)-beam(t))

其中，beam(t)为第时刻t(t帧)时的束宽度；

步骤3、遍历数组score，对于其中的每一个得分score[i]，如果score[i]＜threshhold(t)，则终止在其对应的局部路径上的搜索，否则，继续在该条局部路径上进行搜索。

本发明步骤一中特征提取得到特征矢量序列的过程为：对说话人信号s(n)(即待检测语音信号)进行采样量化和预加重处理，假设说话人信号是短时平稳的，所以说话人信号可以进行分帧处理，具体分帧方法是采用可移动的有限长度窗口进行加权的方法来实现的，对加权后的语音信号s_w(n)计算Mel倒谱系数(MFCC参数)，从而得到特征矢量序列X＝{x₁，x₂，...，x_s}，其中，MFCC参数的提取过程如下：

(1)将语音信号进行分帧，预加重和加汉明窗处理，然后进行短时傅里叶变换，得到语音信号的频谱；

(2)求出频谱平方(即能量谱)，并用M个Mel带通滤波器进行滤波，由于每个频带中分量的作用在人耳中是叠加的，因此将每个滤波器频带内的能量进行叠加，这时第k个滤波器输出功率谱为x′(k)，1≤k≤M，k取整数；

(3)将每个滤波器的输出取对数，得到相应频带的对数功率谱；并进行反离散余弦变换，得到L个MFCC系数，一般L取12～16个。MFCC系数为

C_{n} = Σ_{k = 1}^{M} \log x^{'} (k) \cos [π (k - 0.5) n / M],

n＝1，2，...L

(4)将步骤(3)直接得到的MFCC系数作为静态特征，再将静态特征做一阶和二阶差分，得到相应的动态特征。

本发明步骤二中所述的预先定义的识别网络是由关键词模型和垃圾模型构成的。

本发明采用基于似然分和置信度相结合进行状态层裁剪的新方法，能最大程度地缩减搜索空间。与传统的仅基于似然分进行状态层裁剪的方法相比，本发明的新方法的识别时间比降低了4％～10％，本发明的新方法能够减少30％的关键词候选，而系统识别性能没有明显的改变。这种方法尤其适用于确认阶段计算量大的任务中。

附图说明

图1是具体实施方式一的步骤二中预先定义的识别网络的结构示意图；图2是关键词检出方法的系统性能识别曲线图，其中，曲线1是试验1的基于置信度的关键词检出系统裁剪方法的统性能识别曲线，曲线2是试验2的似然分的关键词检出系统裁剪方法的系统识别性能曲线。

具体实施方式

本发明技术方案不局限于以下所列举具体实施方式，还包括各具体实施方式间的任意组合。

具体实施方式一：本实施方式为基于置信度的关键词检出系统裁剪方法，其是通过以下步骤实现的：

步骤四、进行基于似然分的状态层局部路径裁剪；

步骤五、进行基于置信度的状态层局部路径裁剪；

本实施方式步骤七为本领域技术人员的公知常识，结合现有技术，即可完成。

本实施方式步骤一中对于一个语音文件，S是有限的。但是如果直接用麦克风输入语音，那么理论上S可以无限大，但这种情况在实际中很少。实际上是对输入的语音每隔一段时间就提取一帧特征矢量，可以随着时间向后推移，那么S就逐渐增大。

本实施方式采用基于似然分和置信度相结合进行状态层裁剪的新方法，能最大程度地缩减搜索空间。与传统的仅基于似然分进行状态层裁剪的方法相比，本实施方式的新方法的识别时间比降低了4％～10％，本发明的新方法能够减少30％的关键词候选，而系统识别性能没有明显的改变。这种方法尤其适用于确认阶段计算量大的任务中。

本实施方式步骤一中特征提取得到特征矢量序列的过程为：对说话人信号s(n)(即待检测语音信号)进行采样量化和预加重处理，假设说话人信号是短时平稳的，所以说话人信号可以进行分帧处理，具体分帧方法是采用可移动的有限长度窗口进行加权的方法来实现的，对加权后的语音信号s_w(n)计算Mel倒谱系数(MFCC参数)，从而得到特征矢量序列X＝{x₁，x₂，...，x_s}。其中，MFCC参数的提取过程如下：

(1)将待检测语音信号进行分帧，预加重和加汉明窗处理，然后进行短时傅里叶变换，得到待检测语音信号的频谱；

C_{n} = Σ_{k = 1}^{M} \log x^{'} (k) \cos [π (k - 0.5) n / M],

n＝1，2，...L

本实施方式中步骤二中所述预先定义的识别网络是由关键词模型和垃圾模型构成的。预先定义的识别网络结构示意图，如图1所示。如图1所示，左右两处的节点把其他节点连接起来。箭头表示实际识别过程中，局部路径扩展的方向，对应于具体实施方式一的关键词检出系统裁剪方法中的步骤二。用户首先根据自己的需要设定一组希望监听的词(即图1中关键词模型1至关键词模型N)，那么就根据这组词和单音素(即图1中的垃圾模型1至垃圾模型N)构成如图1中的识别网络。其中单音素是确定的。用户自己设定的希望监听的词，需要根据字典扩展成三音素的形式。

具体实施方式二：本实施方式与具体实施方式一不同的是步骤三中获得每条局部路径的置信度得分的过程为：

P (x_{t}) = \underset{m &Element; A_mode l}{Σ} \underset{q &Element; m}{Σ} P (x_{t} | q),

logP(q|x_t)＝logP(x_t|q)+logP(q)-logP(x_t)，

其中，P(x_t)为步骤1中计算的特征矢量x_t的先验概率，P(x_t|q)为状态q产生特征矢量x_t的声学概率，P(q)为状态q的先验概率；

其它步骤及参数与具体实施方式一相同。

本实施方式的步骤2中的P(q)可以离线计算得到，也可以忽略不计。

具体实施方式三：本实施方式与具体实施方式一或二不同的是步骤四的进行基于似然分的状态层局部路径裁剪的过程为：

threshhold(t)＝α×(S_max(t)-beam(t))

其中，beam(t)为第时刻t(t帧)时的束宽度；

本实施方式的步骤2中的束宽度beam(t)可以采用预先设定的固定束宽度，也可以自适应获得beam(t)，如根据t时刻所有局部路径得分中最大的和所有得分的平均值计算得到beam(t)等方法。束宽度beam(t)的设定是本领域技术人员公知的。

具体实施方式四：本实施方式与具体实施方式一、二或三不同的是步骤五中进行基于置信度的状态层局部路径裁剪的过程为：

threshhold(t)＝α×(S_max(t)-beam(t))

其中，beam(t)为第时刻t(t帧)时的束宽度；

为了验证本发明的效果，进行如下试验：

试验1：基于置信度的关键词检出系统裁剪方法，通过以下步骤实现：

步骤四、进行基于似然分的状态层局部路径裁剪；

步骤五、进行基于置信度的状态层局部路径裁剪；

试验1中步骤七为本领域技术人员的公知常识，结合现有技术，即可完成。

试验1中，实验使用PC机，CPU为奔腾4双核，3.0GHz，1GB内存，步骤一中输入的待检测语音信号的语料时长为53min，其中包含710个测试文件，每个文件中的语音时长为3到6秒。

试验1的步骤二中所述预先定义的识别网络是由关键词模型和垃圾模型构成的，如图1所示。其中，用户首先根据自己的需要设定一组希望监听的词，那么就根据这组词和单音素构成如图1中的识别网络。其中单音素是确定的。用户自己设定的希望监听的词，需要根据字典扩展成三音素的形式。

试验1步骤一中的S取值会依据待检测语音信号的具体时长，系统会自己运行。

试验1步骤三中获得每条局部路径的置信度得分的过程如具体实施方式二中所述。步骤四按具体实施方式三进行。步骤五按具体实施方式四进行(其中控制裁剪门限threshhold(t)为固定值)。步骤四及步骤五中的N的取值，在每一时刻，系统中存在的局部路径的个数是不同的。实际有多少条局部路径，那么N就是多少。系统运行过程中会自动记录这个值。

试验1的基于基于置信度的关键词检出系统裁剪方法的系统识别性能曲线如图2中曲线1所示。

试验1的基于置信度的关键词检出系统裁剪方法对语料时长为53min的待检测语音信号的识别时间为39min13s，计算观察概率的时间为20min6s，识别时间比为73％。

试验1在随机选择的10个语音数据文件上解码，关键词初选阶段得到的词网格中关键词数目如表1中所示。

试验2：为对比试验，仅采用基于似然分的关键词检出系统裁剪方法，与试验1的区别在于进行完步骤四的基于似然分的状态层局部路径裁剪后，不进行步骤五的基于置信度的状态层局部路径裁剪，直接进入步骤六。其它步骤及参数与试验1相同。

试验2中，实验使用PC机，CPU为奔腾4双核，3.0GHz，1GB内存，步骤一中输入的待检测语音信号的语料与试验1相同。

试验2的基于似然分的关键词检出系统裁剪方法的系统识别性能曲线如图2中曲线2所示。

试验2的基于似然分的关键词检出系统裁剪方法对语料时长为53min的待检测语音信号的识别时间为41min34s，计算观察概率的时间为23min38s，识别时间比为77％。

由图2可见，试验1的基于基于置信度的关键词检出系统裁剪方法的系统识别性能曲线与试验2的基于似然分的关键词检出系统裁剪方法的系统识别性能曲线几乎完全重合。

试验1的基于置信度的关键词检出系统裁剪方法的系统识别时间比(识别时间与测试语料时长之比)由基于似然分的关键词检出系统裁剪方法的77％降低到了73％，系统效率有了的提高。

试验2在随机选择的10个语音数据文件上解码，关键词初选阶段得到的词网格中关键词数目如表1中所示。

表1是试验1和试验2中10个语音数据文件的关键词初选阶段得到的词网格中关键词数目。

表1

由表1可以看出，相比于试验2的基于似然分的关键词检出系统裁剪方法，试验1的基于置信度的关键词检出系统裁剪方法大约能够减少30％的关键词候选，而系统识别性能没有明显的改变。试验1的方法尤其适用于确认阶段计算量大的任务中。

Claims

1.基于置信度的关键词检出系统裁剪方法，其特征在于基于置信度的关键词检出系统裁剪方法是通过以下步骤实现的：

步骤四、进行基于似然分的状态层局部路径裁剪；

步骤五、进行基于置信度的状态层局部路径裁剪；

2.根据权利要求1所述的基于置信度的关键词检出系统裁剪方法，其特征在于步骤三中获得每条局部路径的置信度得分的过程为：

P (x_{t}) = \underset{m &Element; A_\mod el}{Σ} \underset{q &Element; m}{Σ} P (x_{t} | q),

logP(q|x_t)＝logP(x_t|q)+logP(q)-logP(x_t)，

3.根据权利要求1或2所述的基于置信度的关键词检出系统裁剪方法，其特征在于步骤四中进行基于似然分的状态层局部路径裁剪的过程为：

步骤1、按照从大到小的顺序依次保存任意t时刻所有局部路径似然分到数组score[1...N]中，假设t时刻共N条局部路径；

threshhold(t)＝α×(S_max(t)-beam(t))

其中，beam(t)为第时刻t时的束宽度；

4.根据权利要求1或2所述的基于置信度的关键词检出系统裁剪方法，其特征在于步骤五中进行基于置信度的状态层局部路径裁剪的过程为：

步骤1、按照从大到小的顺序依次保存任意t时刻所有局部路径的置信度得分到数组score[1...N]中，假设t时刻共N条局部路径；

threshhold(t)＝α×(S_max(t)-beam(t))

其中，beam(t)为第时刻t时的束宽度；