CN102254558B

CN102254558B - 基于端点检测的智能轮椅语音识别的控制方法

Info

Publication number: CN102254558B
Application number: CN201110184321A
Authority: CN
Inventors: 张毅; 罗元; 蔡军; 林海波; 谢颖; 徐晓东; 黄璜
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2011-07-01
Filing date: 2011-07-01
Publication date: 2012-10-03
Anticipated expiration: 2031-07-01
Also published as: CN102254558A

Abstract

本发明请求保护一种在一般噪声环境下基于端点检测的智能轮椅语音识别的控制方法，涉及人工智能领域，本发明中语音信号序列经过一系列预处理；估计倒谱距离dst；计算短时能量amp；为倒谱距离和短时能量分别确定两个高低门限；进行语音端点检测；通过倒谱距离或能量超过了低门限来判断语音进入过渡段和倒谱距离或能量超过高门限来判断进入语音段，实现一般噪声环境下的语音端点检测，本发明与其它低噪声下的语音端点检测方法不同之处在于提出了一种一般噪声环境下有效的语音端点检测方法，利用此方法能准确检测到语音端点，通过设置5个基本语音命令：前进、后退、左转、右转、停止，在智能轮椅上实现了语音控制。

Description

基于端点检测的智能轮椅语音识别的控制方法

技术领域

本发明涉及一种智能控制与人工智能领域，特别涉及一种智能轮椅语音识别的端点检测控制方法。

背景技术

随着世界人口老龄化越来越严重和各种灾难、疾病等原因造成的残障人士的增加，他们存在不同程度的能力丧失，如行走、视力、动手及语言等，这一些特殊群体的医疗和护理，将成为经济和社会发展的巨大压力。为了给残障人士和老人平常生活带来方便，世界各国都广泛开展了智能轮椅方面研究。

以前的轮椅主要是通过手动或操纵杆来控制它运动，这些方式需要力量和技巧才能完成，因此在一定程度上给某些老人和残障人士造成困难，而现在的出现的基于人机交互的轮椅有语音、人脸、眼睛、脑电波等一些交互方式，而语音作为一种自然的交流方式，更具人性化和亲合力，更加方便，成为智能轮椅人机交互的重要方式之一。语音识别系统中，有效准确地确定语音段端点不仅能使处理时间减到最小，而且能排除无声段的噪声干扰，从而使识别系统具有良好的性能。目前研究的端点检测方法主要有基于谱熵的端点检测改进方法、基于神经网络的端点检测方法、基于倒谱特征的算法、普通话孤立词语音端点检测的分形维方法、基于短时能量的语音端点检测算法、基于小波分析的语音端点检测算法研究与仿真、基于子带幅度差异的方法、基于子带谱熵的方法等等，而这一些方法主要在低噪声的环境下进行研究，当应用在一般噪声环境下时，语音端点检测出现问题，语音识别率受到影响。

因此急需一种在一般噪声环境下能有效的检测到语音端点的智能轮椅语音识别方法。

发明内容

有鉴于此，为了解决上述问题，本发明提出一种在一般噪声环境下能有效的检测到语音端点的智能轮椅语音识别方法。克服了在一般噪声环境下端点检测不准确的缺陷。

本发明的目的是这样实现的：

本发明提供的基于端点检测的智能轮椅语音识别的控制方法，包括以下步骤：

步骤1：采集并对语音信号序列预处理；

步骤2：通过以下公式计算当前状态的倒谱距离dst：

式中，dst为倒谱距离，对于两个不同信号s₀(n)和s₁(n)，c₀(n)和c₁(n)分别对应于谱密度函数

和

的倒谱系数，

表示角频率；

步骤3：通过以下公式计算当前状态的短时能量amp：

式中，x(m)表示语音信号，

表示窗函数，m表示帧长，n表示第几帧语音信号；

步骤4：确定倒谱距离门限、短时能量门限；

步骤5：语音端点检测，根据当前状态的倒谱距离与倒谱距离门限的比较，当前状态的短时能量与短时能量门限的比较，来确定语音信号处理的相应阶段的处理程序。

进一步，所述步骤1中的：语音信号序列预处理包括将语音序列通过减去平均值来去掉直流，再对语音序列作归一化处理，然后通过一个预加重滤波器，滤去电源干扰；

进一步，所述步骤4中的倒谱距离门限包括倒谱距离高门限dst1和倒谱距离低门限dst2；

进一步，所述步骤4中的短时能量门限包括短时能量高门限amp1和短时能量低门限amp2；

进一步，所述步骤2中计算当前状态的倒谱距离dst采用以下公式进行：

dst = 4.3429 \sqrt{{(c_{1} (n) - c_{0} (n))}^{2} 2 Σ_{n = 1}^{p} {(c_{1} (n) - c_{0} (n))}^{2}},

式中，c₀(n)表示信号0的倒谱系数，c₁(n)表示信号1的倒谱系数，p表示倒谱系数的阶数，n表示自然数；

进一步，所述步骤3中当前状态的短时能量amp是根据语音信号和窗函数来计算短时能量，所采用窗函数为汉明窗w(n)，其公式如下：

其中N为帧长，即窗的长度；

进一步，所述步骤5中的语音端点检测包括以下步骤：

步骤51：若当前状态的倒谱距离dst大于倒谱距离最低门限dst2或当前状态的短时能量amp大于短时能量最低门限amp2，记录标记起始点，则进入语音处理过渡段；

步骤52：在语音处理过渡段中，如果当前状态的倒谱距离dst小于倒谱距离最低门限dst2且当前状态的短时能量amp小于短时能量最低门限amp2，则当前状态进入静音状态；

步骤53：若当前状态的倒谱距离dst大于倒谱距离最高门限dst1或当前状态的短时能量amp大于短时能量最高门限amp1，则当前状态进入语音段。

本发明的优点在于：本发明是智能轮椅在一般噪声环境下语音端点检测的研究，与其它低噪声下的语音端点检测方法不同之处在于提出了一种在一般噪声环境下有效的语音端点检测方法。利用此方法能准确检测到语音端点，通过设置5个基本语音命令：前进、后退、左转、右转、停止，在智能轮椅上实现了语音控制。

本发明的其它优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其它优点可以通过下面的说明书，权利要求书，以及附图中所特别指出的结构来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为算法流程图；

图2为加噪“前进”命令的倒谱距离的端点检测图；

图3为加噪“前进”命令的短时能量与倒谱距离的端点检测图；

图4为智能轮椅在实验室中所跑的路径图；

图5为三种不同环境下五个语音命令的识别率统计图。

具体实施方式

以下将结合附图，对本发明的优选实施例进行详细的描述；应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

下面详细描述基于端点检测的智能轮椅语音识别的控制方法的原理：

设信号s(n)，其倒谱变换为c(n)。信号倒谱的一种定义是信号的能量谱密度函数的对数傅里叶反变换，或者可以将信号s(n)的倒谱c(n)看成是

的傅里叶级数展开，即

式中，c(n)为倒谱系数，且c(n)＝c(-n)是实数。

假设信号s(n)的Z变换具有有理函数的形式

S (z) = {Az}^{r} \frac{Π_{k = 1}^{m_{1}} (1 - a_{k} z^{- 1}) Π_{k = 1}^{m_{0}} (1 - b_{k} z)}{Π_{k = 1}^{p_{1}} (1 - c_{k} z^{- 1}) Π_{k = 1}^{p_{0}} (1 - d_{k} z)} - - - (2)

式中a_k、b_k、c_k和d_k的模都小于1，m₁和m₀分别表示单位圆内和外的零点数目，p₁和p₀分别表示单位圆内和外的极点数目，对logS(z)取逆Z变换得到倒谱系数的另一种表达式为：

\{\begin{matrix} \log | A | & n = 0 \\ - Σ_{k = 1}^{m_{1}} \frac{a_{k}^{n}}{n} + Σ_{k = 1}^{p 1} \frac{c_{k}^{n}}{n} & n > 0 \\ - Σ_{k = 1}^{m_{0}} \frac{b_{k}^{- n}}{n} + Σ_{k = 1}^{p_{0}} \frac{d_{k}^{- n}}{n} & n < 0 \end{matrix} - - - (3)

很明显当n趋向无穷大时倒谱的幅度值是收敛的：

| c (n) | < ξ \frac{λ^{| n |}}{| n |},

当|n|→∞时 (4)

式中λ是a_k、b_k、c_k和d_k模的最大值，ξ为一实常数。由(4)式可以看出，，倒谱是一个快速衰减序列，其衰减速率至少为1/|n|，所以在误差允许的范围内可以用有限阶(比如p阶)的倒谱系数近似无限阶的倒谱系数。

根据Parseval定理，对于两个不同信号s₀(n)和s₁(n)，其倒谱差异的均方值可用倒谱距离表示：

式中dst为倒谱距离，c₀(n)和c₁(n)分别对应于谱密度函数

和

的倒谱系数。用p阶倒谱系数接近于无限倒谱系数，(5)式可以近似为：

dst = 4.3429 \sqrt{{(c_{1} (n) - c_{0} (n))}^{2} 2 Σ_{n = 1}^{p} {(c_{1} (n) - c_{0} (n))}^{2}} - - - (6)

式中，c₀(n)表示信号0的倒谱系数，c₁(n)表示信号1的倒谱系数，p表示倒谱系数的阶数，n表示自然数。

信号与其倒谱是一一对应的变换，因此倒谱的均方距离可以反映两个信号(语音与背景噪声)谱的区别，倒谱距离可以作为端点检测的判决参数，属于相似距离范畴。

图1为算法流程图；如图所示：本发明提供的基于端点检测的智能轮椅语音识别的控制方法，包括以下步骤：

步骤1：采集并对语音信号序列预处理；

步骤2：通过以下公式计算当前状态的倒谱距离dst：

和

的倒谱系数，

表示角频率；

步骤3：通过以下公式计算当前状态的短时能量amp：

式中，x(m)表示语音信号，

表示窗函数，m表示帧长，n表示第几帧语音信号；

步骤4：确定倒谱距离门限、短时能量门限；

作为上述实施例的进一步改进，所述步骤1中的：语音信号序列预处理包括将语音序列通过减去平均值来去掉直流，再对语音序列作归一化处理，然后通过一个预加重滤波器，滤去电源干扰。

作为上述实施例的进一步改进，所述步骤4中的倒谱距离门限包括倒谱距离高门限dst1和倒谱距离低门限dst2。

作为上述实施例的进一步改进，所述步骤4中的短时能量门限包括短时能量高门限amp1和短时能量低门限amp2。

作为上述实施例的进一步改进，所述步骤2中计算当前状态的倒谱距离dst采用以下公式进行：

dst = 4.3429 \sqrt{{(c_{1} (n) - c_{0} (n))}^{2} 2 Σ_{n = 1}^{p} {(c_{1} (n) - c_{0} (n))}^{2}},

作为上述实施例的进一步改进，所述步骤3中当前状态的短时能量amp是根据语音信号和窗函数来计算短时能量，所采用窗函数为汉明窗w(n)，其公式如下：

其中N为帧长，即窗的长度。

作为上述实施例的进一步改进，所述步骤5中的语音端点检测包括以下步骤：

下面详细描述基于端点检测的智能轮椅语音识别的控制方法的具体实施过程：

语音信号序列先经过一系列预处理。首先将语音序列去直流(即减去平均值)，再作归一化处理将幅值限制在1之内，然后通过一个预加重滤波器，滤去50Hz的电源干扰和超出一半采样率的频率分量。经过预处理后的语音序列即可进行倒谱距离计算dst和短时能量计算amp，其中倒谱距离和短时能量分别按公式(7)和(8)计算。

dst = 4.3429 \sqrt{{(c_{1} (n) - c_{0} (n))}^{2} 2 Σ_{n = 1}^{p} {(c_{1} (n) - c_{0} (n))}^{2}} - - - (7)

首先为倒谱距离和短时能量分别确定两个门限。两个倒谱距离的门限(一个高门限dst1和一个低门限dst2)和两个短时能量的门限(一个高门限amp1和一个低门限amp2)。dst2、amp2比较低的门限，其数值比较小，对信号变化比较敏感，很容易就会被超过。dst1、amp1是比较高的门限，数值比较大，信号必须达到一定的强度，该门限才可能被超过。低门限被超过未必就是语音的开始，有可能是时间很短的噪音引起的。高门限被超过则可以基本确信是由于语音信号引起的。

整个检测阶段：在静音段，如果倒谱距离或能量超过了低门限(dst＞dst2或amp＞amp2)，就应该开始标记起始点，进入过渡段。在过渡段中，由于参数的数值比较小，不能确信是否处于真正的语音段，因此只要两个参数的数值都回落到低门限以下(dst＜dst2且amp＜amp2)，就将当前状态回复到静音状态。而如果在过渡段中两个参数中的任一个超过了高门限(dst＞dst1或amp＞amp1)，就可以确信进入语音段了。因此本发明是采用短时能量与倒谱距离结合的端点检测方法。

当SNR＝10dB时语音信号与噪音信号几乎无法辨别，当SNR为10dB～30dB之间，此时的噪声为强噪声环境；当SNR为40dB～50dB之间，此时的噪声为通常实际中一般噪声环境；当SNR为50dB～60dB之间，此时的噪声为低噪环境。故在通常情况下，在该实验中我们取高斯白噪声的能量以SNR：45dB大小来表示一般环境下噪声，利用短时能量与倒谱距离相结合的方法研究和比较。

图2为加噪“前进”命令的倒谱距离的端点检测图；图3为加噪“前进”命令的短时能量与倒谱距离的端点检测图；图4为智能轮椅在实验室中所跑的路径图；图5为三种不同环境下五个语音命令的识别率统计图，如图所示，本发明所取的语音样本为我们录好的200条相对纯净的语音，男女各100条，2男2女所录的语音中都包括前进、后退、左转、右转、停止等五个命令，每个命令各10条。采样频率为16kHz，16bit量化，单声道，然后对各个语音样本进行45dB混噪，最后进行实验。图2为在一般噪声环境下，利用倒谱距离的“前进”语音命令端点检测图，图3为在一般噪声环境下，短时能量与倒谱距离结合的“前进”语音命令端点检测图，表1为女声的端点检测结果，表2为男声的端点检测结果。

从实验结果可以看出，在一般噪声环境下，倒谱距离用于端点检测明显失去了作用，并不能检测到语音的端点，所以短时能量与倒谱距离相结合比倒谱距离的端点检测方法，更能很好的检测到语音的起始点。

最后在智能轮椅上做个实验，以验证智能轮椅在一般噪声环境下语音端点检测的实际效果。实验室过道1.2米。安排一个人在实验室的三种环境中进行实验来让智能轮椅跑一个相同的路径。我们设置的路径如图4所示。

测试中的三种不同环境分别为：几乎听不见噪声的安静环境、由音响产生的轻音乐低噪声环境、由音响产生的集市的一般噪声环境。在三种不同环境中，都让智能轮椅按相同路径跑五次，然后把五个命令中每个命令所使用到的次数和每个语音命令识别正确的次数记录下来，最后计算出每个命令在不同环境下的识别率。实验结果如图5所示。

从实验结果，我们可以看出在安静环境下的五个语音命令识别率很接近于其它两种环境的识别率。实验证明，利用短时能量与倒谱距离相结合的端点检测方法，在一般噪声环境下，该方法也能很好的检测到语音的起止点，具有良好的鲁棒性，进而对整个智能轮椅的语音识别系统起到了关键作用。

表1

命令	测试次数	成功次数
			前进	20	15
后退	20	16
			左转	20	15
右转	20	17
			停止	20	18

表2

命令	测试次数	成功次数
			前进	20	17
后退	20	16
			左转	20	16
右转	20	16
			停止	20	18

以上所述仅为本发明的优选实施例，并不用于限制本发明，显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.基于端点检测的智能轮椅语音识别的控制方法，其特征在于：包括以下步骤：步骤1：采集并对语音信号序列预处理；

步骤2：通过以下公式计算当前状态的倒谱距离dst：

和

的倒谱系数，

表示角频率；

步骤3：通过以下公式计算当前状态的短时能量amp：

式中，x(m)表示语音信号，

表示窗函数，m表示帧长，n表示第几帧语音信号；

步骤4：确定倒谱距离门限、短时能量门限；

2.根据权利要求1所述的基于端点检测的智能轮椅语音识别的控制方法，其特征在于：所述步骤1中的：语音信号序列预处理包括将语音序列通过减去平均值来去掉直流，再对语音序列作归一化处理，然后通过一个预加重滤波器，滤去电源干扰。

3.根据权利要求1所述的基于端点检测的智能轮椅语音识别的控制方法，其特征在于：所述步骤4中的倒谱距离门限包括倒谱距离高门限dst1和倒谱距离低门限dst2。

4.根据权利要求3所述的基于端点检测的智能轮椅语音识别的控制方法，其特征在于：所述步骤4中的短时能量门限包括短时能量高门限amp1和短时能量低门限amp2。

5.根据权利要求1所述的基于端点检测的智能轮椅语音识别的控制方法，其特征在于：所述步骤2中计算当前状态的倒谱距离dst采用以下公式进行：

dst = 4.3429 \sqrt{{(c_{1} (n) - c_{0} (n))}^{2} + 2 Σ_{n = 1}^{p} {(c_{1} (n) - c_{0} (n))}^{2}},

6.根据权利要求1所述的基于端点检测的智能轮椅语音识别的控制方法，其特征在于：所述步骤3中当前状态的短时能量amp是根据语音信号和窗函数来计算短时能量，所采用窗函数为汉明窗w(n)，其公式如下：

其中N为帧长，即窗的长度。

7.根据权利要求1所述的基于端点检测的智能轮椅语音识别的控制方法，其特征在于：所述步骤5中的语音端点检测包括以下步骤：