CN102426836B

CN102426836B - 基于分位数自适应裁剪的快速关键词检出方法

Info

Publication number: CN102426836B
Application number: CN2011102445311A
Authority: CN
Inventors: 韩纪庆; 袁浩; 李海洋
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2011-08-25
Filing date: 2011-08-25
Publication date: 2013-03-20
Anticipated expiration: 2031-08-25
Also published as: CN102426836A

Abstract

基于分位数自适应裁剪的快速关键词检出方法，涉及连续语音中关键词的快速检出方法。解决关键词检出系统解码过程中自适应裁剪方法不能最大程度裁剪局部路径，导致系统效率低下的问题。将检测语音特征提取得特征矢量序列，根据Viterbi解码，计算局部路径上活动模型状态产生特征矢量的概率，并累加得局部路径概率得分，再进行基于分位数的状态层局部路径裁剪，然后判断是否到达语音末尾，是则据解码过程生成的网格回溯找关键词，并基于后验概率确认关键词候选得到识别结果，否则重新解码。本发明能很好的嵌入原有的关键词检出系统，同时在解码过程中的每一时刻，都能有效裁剪掉不可能的路径，最大程度上减小搜索空间规模，提高系统检出效率。

Description

基于分位数自适应裁剪的快速关键词检出方法

技术领域

本发明涉及一种连续语音中关键词的快速检出方法，具体是在Viterbi解码过程中快速自适应裁剪局部路径的方法。

背景技术

语音识别是机器通过识别和理解过程将人类的语音信号转换为相应的文本或命令的技术，根本目的是研究出一种机器，使其具有听觉功能，即以人类的语音作为输入，理解并做出相应的反应。关键词检出是语音识别中一个重要的研究领域，是从连续语音中识别出一组给定词的过程。它是一种非受限的语音信号处理系统，允许用户采用自然的说话方式，而不必局限于特定的语法。相比于连续语音识别，关键词检出具有检出率高、实用性强、时间耗费少等优点，具有广阔的应用前景。虽然关键词检出技术有这些优点，且近年来取得了长足的进步，但是其检出效率仍不够高。一般的关键词检出系统，检出率通常能达到90％以上，但是系统效率始终是制约其进一步发展的瓶颈。当前，随着网络的普及，网络上传播的音视频信息迅速增加，人们可以方便快速的从中获取海量的音视频数据。但是如何有效地从大量的多媒体数据中挖掘特定的信息成为一个问题。当前基于垃圾模型的关键词检出系统，都是根据Viterbi解码算法在许多隐马尔科夫模型构成的大的模型上解码得到关键词和垃圾模型的序列。解码过程中，某一时刻可能存在大量的局部路径，及早删除不可能的路径，只在那些可能性高的路径上进行搜索，能大幅提高系统的检出效率。但是传统的自适应裁剪方法对局部路径的裁剪不够彻底，每帧裁剪后通常会有一多半的路径会保留下来，而这其中有很多不可能的路径，导致系统效率低下。因此，需要研究自适应的裁剪方法，进一步提高系统的检出速度，改善实时性。

发明内容

本发明的目的是为了解决关键词检出系统解码过程中，自适应裁剪方法不能有效最大程度裁剪局部路径，从而导致系统效率低下的问题，本发明提供了一种基于分位数自适应裁剪的快速关键词检出方法。

本发明的基于分位数自适应裁剪的快速关键词检出方法是通过以下步骤实现：

步骤一、输入待检测语音信号，对输入的待检测语音信号进行预处理，特征提取得到语音特征矢量序列X＝{x₁，x₂，...x_S}，其中S代表自然数；

步骤二、根据Viterbi解码算法，将语音特征矢量序列在预先定义的识别网络上进行解码；

步骤三、对于任意时刻t，所有局部路径向前扩展一次得每个局部路径上对应的活动模型，同时计算每个活动模型的状态产生x_t的概率，并累加每个活动模型的状态产生x_t的概率得相应局部路径概率得分，其中，x_t∈X，1≤t≤S，t取整数；

步骤四、进行基于分位数的状态层局部路径裁剪；

步骤五、判断是否到达语音末尾，是则转步骤六，否则转步骤二；

步骤六、根据解码过程中生成的网格回溯查找关键词，并基于后验概率确认关键词候选从而得到最终的识别结果，完成基于分位数自适应裁剪的快速关键词检出方法。

本发明步骤一中对于一个语音文件，S是有限的。但是如果直接用麦克风输入语音，那么理论上S可以无限大，但这种情况在实际中很少。实际上是对输入的语音每隔一段时间就提取一帧特征矢量，可以随着时间向后推移，那么S就逐渐增大。

本发明步骤四中进行基于分位数的状态层局部路径裁剪，具体如下：

步骤1、设定t时刻要求保留局部路径的百分比α和加权因子λ，其中，α取值为0＜α＜1，λ的取值为1＜λ＜3；

步骤2、保存t时刻所有局部路径概率得分(即步骤三中得的相应局部路径概率得分)到数组score[1...N]中，假设t时刻共N条局部路径；

步骤3、根据二分查找算法在score[1...N]中查找第N×α大的数S_α，即上α分位数；

步骤4、设定t时刻裁剪的束宽度为beam(t)＝λ×(S_max-S_α)(1＜λ＜3)；

步骤5、设定t时刻的裁剪门限为thresh(t)＝S_max-beam(t)，其中S_max为数组score[1...N]中的最大数；

步骤6、遍历score[1...N]中每一维数据，如果小于thresh(t)，则其对应的局部路径不再扩展，并丢弃其对应的数据结构，如果大于thresh(t)，则其对应的局部路径继续扩展。

本发明步骤一中特征提取得到特征矢量序列的过程为：对说话人信号s(n)(即待检测语音信号)进行采样量化和预加重处理，假设说话人信号是短时平稳的，所以说话人信号可以进行分帧处理，具体分帧方法是采用可移动的有限长度窗口进行加权的方法来实现的，对加权后的语音信号s_w(n)计算Mel倒谱系数(MFCC参数)，从而得到特征矢量序列X＝{x₁，x₂，...，x_s}，其中，MFCC参数的提取过程如下：

(1)将待检测语音信号进行分帧，预加重和加汉明窗处理，然后进行短时傅里叶变换，得到待检测语音信号的频谱；

(2)求出频谱平方(即能量谱)，并用M个Mel带通滤波器进行滤波，由于每个频带中分量的作用在人耳中是叠加的，因此将每个滤波器频带内的能量进行叠加，这时第k个滤波器输出功率谱为x′(k)，1≤k≤M，k取整数；

(3)将每个滤波器的输出取对数，得到相应频带的对数功率谱；并进行反离散余弦变换，得到L个MFCC系数，一般L取12～16个。MFCC系数为：

C_{n} = Σ_{k = 1}^{M} {\log x}^{'} (k) \cos [π (k - 0.5) n / M],

n＝1，2，...L

(4)将步骤(3)直接得到的MFCC系数作为静态特征，再将静态特征做一阶和二阶差分，得到相应的动态特征。

本发明的有益效果：能很好的嵌入原有的关键词检出系统，同时在解码过程中的每一时刻，都能有效的裁剪掉那些不可能的路径，最大程度上减小搜索空间的规模，提高系统的检出效率。

本发明的基于分位数自适应裁剪的快速关键词检出方法的系统性能曲线与传统基于均值自适应裁剪系统性能曲线几乎完全重合。本发明的基于分位数自适应裁剪的快速关键词检出方法的系统识别时间比(识别时间与测试语料时长之比)由64％(传统基于均值自适应裁剪系统的系统识别时间比)降低到了49％，系统效率有了较大的提高。本发明的基于分位数自适应裁剪的快速关键词检出方法在尽可能保持系统性能的前提下，提高了识别速度。

附图说明

图1是具体实施方式五的预先定义的识别网络的结构示意图；图2是关键词检出方法的系统性能识别曲线图，其中，曲线1是具体实施方式七的基于分位数自适应裁剪的快速关键词检出方法的统性能识别曲线，曲线2是具体实施方式八的传统基于均值自适应裁剪的关键词检出方法的系统识别性能曲线。

具体实施方式

本发明技术方案不局限于以下所列举具体实施方式，还包括各具体实施方式间的任意组合。

具体实施方式一：本实施方式为基于分位数自适应裁剪的快速关键词检出方法，其是通过以下步骤实现的：

步骤三、对于任意时刻t，所有局部路径向前扩展一次得相应局部路径上对应的活动模型，同时计算每个活动模型的状态产生x_t的概率，并累加每个活动模型的状态产生x_t的概率得相应局部路径概率得分，其中，x_t∈X，1≤t≤S，t取整数；

步骤四、进行基于分位数的状态层局部路径裁剪；

本实施方式步骤六为本领域技术人员的公知常识，结合现有技术，即可完成。

本实施方式步骤一中对于一个语音文件，S是有限的。但是如果直接用麦克风输入语音，那么理论上S可以无限大，但这种情况在实际中很少。实际上是对输入的语音每隔一段时间就提取一帧特征矢量，可以随着时间向后推移，那么S就逐渐增大。

本实施方式的有益效果：能很好的嵌入原有的关键词检出系统，同时在解码过程中的每一时刻，都能有效的裁剪掉那些不可能的路径，最大程度上减小搜索空间的规模，提高系统的检出效率。

本实施方式的基于分位数自适应裁剪的快速关键词检出方法的系统性能曲线与传统基于均值自适应裁剪系统性能曲线几乎完全重合。本发明的基于分位数自适应裁剪的快速关键词检出方法的系统识别时间比(识别时间与测试语料时长之比)由64％(传统基于均值自适应裁剪系统的系统识别时间比)降低到了49％，系统效率有了较大的提高。本发明的基于分位数自适应裁剪的快速关键词检出方法在尽可能保持系统性能的前提下，提高了识别速度。

具体实施方式二：本实施方式与具体实施方式一不同的是步骤四中进行基于分位数的状态层局部路径裁剪，具体如下：

步骤4、设定t时刻裁剪的束宽度为beam(t)＝λ×(S_max-S_α) (1＜λ＜3)；

其它步骤及参数与具体实施方式一相同。

本实施方式在Viterbi解码过程中基于分位数，快速自适应的裁剪不可能的局部路径，在处理每帧特征矢量之后，从系统中所有局部路径的累积概率得分找到预先定义的上α分位数S_α，根据S_α和最大概率得分设置该时刻状态层的裁剪门限，并裁剪掉那些低于裁剪门限的局部路径。

具体实施方式三：本实施方式与具体实施方式一或二不同的是步骤一中特征提取得到特征矢量序列的过程为：对说话人信号s(n)(即待检测语音信号)进行采样量化和预加重处理，假设说话人信号是短时平稳的，所以说话人信号可以进行分帧处理，具体分帧方法是采用可移动的有限长度窗口进行加权的方法来实现的，对加权后的语音信号s_w(n)计算Mel倒谱系数(MFCC参数)，从而得到特征矢量序列X＝{x₁，x₂，...，x_s}。其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式三不同的是MFCC参数的提取过程如下：

(3)将每个滤波器的输出取对数，得到相应频带的对数功率谱；并进行反离散余弦变换，得到L个MFCC系数，一般L取12～16个。MFCC系数为

C_{n} = Σ_{k = 1}^{M} {\log x}^{'} (k) \cos [π (k - 0.5) n / M],

n＝1，2，...L

其它步骤及参数与具体实施方式三相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是步骤二中所述预先定义的识别网络是由关键词模型和垃圾模型构成的。其它步骤及参数与具体实施方式一至四之一相同。

本实施方式中的预先定义的识别网络结构示意图，如图1所示。如图1所示，左右两处的节点把其他节点连接起来。箭头表示实际识别过程中，局部路径扩展的方向，对应于具体实施方式一的快速关键词检出方法中的步骤二。

本实施方式的系统中，用户首先根据自己的需要设定一组希望监听的词(即图1中关键词模型1至关键词模型N)，那么就根据这组词和单音素(即图1中的垃圾模型1至垃圾模型N)构成如图1中的识别网络。其中单音素是确定的。用户自己设定的希望监听的词，需要根据字典扩展成三音素的形式。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是步骤四中的上α分位数S_α定义为：

设x₁，x₂，...x_N为N个观测值，将它们由大到小记为x₍₁₎，x₍₂₎，...x_(N)，即x₍₁₎≥x₍₂₎≥...≥x_(N)，称它们为次序计量值，其中第i个次序统计量值是x_(i)，表示大于x_(i)的值有100×αN％个，其余的小于等于x_(i)，

对于0≤α＜1，数据x₁，x₂，...x_n的上α分位数是

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式为基于分位数自适应裁剪的快速关键词检出方法，其是通过以下步骤实现的：

步骤四、进行基于分位数的状态层局部路径裁剪；

其中，步骤四中进行基于分位数的状态层局部路径裁剪，具体如下：

本实施方式中，实验使用PC机，CPU为奔腾4双核，3.0GHz，1GB内存，步骤一中输入的待检测语音信号的语料时长为53min，其中包含710个测试文件，每个文件中的语音时长为3到6秒。

本实施方式的步骤二中所述预先定义的识别网络是由关键词模型和垃圾模型构成的，如图1所示。其中，用户首先根据自己的需要设定一组希望监听的词，那么就根据这组词和单音素构成如图1中的识别网络。其中单音素是确定的。用户自己设定的希望监听的词，需要根据字典扩展成三音素的形式。

本实施方式步骤一中的S取值会依据待检测语音信号的具体时长，系统会自己运行。步骤四的步骤2中的N的取值，在每一时刻，系统中存在的局部路径的个数是不同的。实际有多少条局部路径，那么N就是多少。系统运行过程中会自动记录这个值。

本实施方式的基于分位数自适应裁剪的快速关键词检出方法的系统识别性能曲线如图2中曲线1所示。

本实施方式的基于分位数自适应裁剪的快速关键词检出方法对语料时长为53min的待检测语音信号的识别时间为26min37s，计算观察概率的时间为11min56s，识别时间比为49％。

具体实施方式八：本实施方式为对比实验，采用传统基于均值自适应裁剪的关键词检出方法，对与具体实施方式七中相同的语料时长为53min的待检测语音信号进行关键词检出。

本实施方式的传统基于均值自适应裁剪的关键词检出方法的系统识别性能曲线如图2中曲线2所示。

本实施方式的传统基于均值自适应裁剪的关键词检出方法对语料时长为53min的待检测语音信号的识别时间为34min2s，计算观察概率的时间为17min35s，识别时间比为64％。

由图1可见，具体实施方式七的基于分位数自适应裁剪的快速关键词检出方法的系统识别性能曲线与具体实施方式八的传统基于均值自适应裁剪的关键词检出方法的系统识别性能曲线几乎完全重合。

具体实施方式七的基于分位数自适应裁剪的快速关键词检出方法的系统识别时间比(识别时间与测试语料时长之比)由传统基于均值自适应裁剪的关键词检出方法的64％降低到了49％，系统效率有了较大的提高。

具体实施方式七的基于分位数自适应裁剪的快速关键词检出方法在尽可能保持系统性能的前提下，提高了识别速度。

Claims

1.基于分位数自适应裁剪的快速关键词检出方法，其特征在于基于分位数自适应裁剪的快速关键词检出方法是通过以下步骤实现：

步骤四、进行基于分位数的状态层局部路径裁剪；

2.如权利要求1所述的基于分位数自适应裁剪的快速关键词检出方法，其特征在于步骤四中进行基于分位数的状态层局部路径裁剪，具体如下：

步骤2、保存t时刻所有局部路径概率得分到数组score[1...N]中，假设t时刻共N条局部路径；

步骤4、设定t时刻裁剪的束宽度为beam(t)＝λ×(S_max-S_a)，其中1＜λ＜3；