CN101944359A

CN101944359A - 一种面向特定人群的语音识别方法

Info

Publication number: CN101944359A
Application number: CN 201010234226
Authority: CN
Inventors: 熊伟; 刘伟; 王飞浪; 谢伟良; 陈鑫娜; 陈鹏; 熊俱扬; 熊鑫
Original assignee: Hangzhou Wangdou Digital Technology Co Ltd
Current assignee: Hangzhou Ping Pong Intelligent Technology Co ltd
Priority date: 2010-07-23
Filing date: 2010-07-23
Publication date: 2011-01-12
Anticipated expiration: 2030-07-23
Also published as: CN101944359B

Abstract

本发明公开了一种面向特定人群的语音识别方法，首先对语音信号采样，将其从模拟信号转换至数字信号，然后对数字语音信号进行预加重、加窗分帧和端点检测的前端处理，接着采用离散小波变换对语音信号做特征提取，最后采用经样本训练后的离散隐马尔可夫模型对特征提取后的语音信号做语音识别。在对语音信号的前端处理和特征提取过程中充分考虑不同目标人群的频谱特征和发音特点对语音信息提取的过程进行优化，可简化处理过程和信息提取过程，从而在保证识别精度的同时，大大降低了识别过程中的计算量和信息存储量，实现了在嵌入式平台上的语音识别。

Description

一种面向特定人群的语音识别方法

技术领域

本发明涉及语音信号处理与识别技术领域，尤其涉及一种面向特定目标人群的语音识别方法。

背景技术

语音识别，是机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术，即将语音信号逐字逐句的翻译为相应的书面语言，或对语音所包含的要求和命令做出正确的响应。随着科学的发展和计算机的普及，人们对与计算机的交流方式提出了更高的要求。这促进了语音识别技术的发展，并使之成为语音处理领域中的一个重要研究方向。语音识别具有广阔的应用前景，其发展、成熟和实用化将推动许多产业的迅速发展，包括计算机、办公室自动化、通信、国防、机器人等等。目前，在实验室环境下，语音识别系统的识别率已经达到了很高的水平。但是由于受现实环境噪声的影响，语音识别系统的识别率较实验室环境大幅度下降，语言识别系统的实用性受到了很大的影响。

语音识别中最重要的技术基本集中在语音特征提取和模式匹配两个环节。在汉语语音识别系统中，主要采用以下三种特征提取方法：

基于LPC的倒谱参数(LPCC)分析法：该方法的典型代表是基于Durbin或Levinson迭代算法求解“维纳-霍夫方程”获得LPC预测系数为基础，进而得到的LPC的倒谱参数(LPCC)。

基于Mel系数的Mel频标倒谱系数(MPCC)分析法：该方法基于FFT频谱余弦变换为基础，根据Mel曲线将语音信号频谱分为若干个频带，每个频带的能量经FFT变换对应一组MFCC参数。

基于现代处理技术的小波变换系数分析法：该方法将语音信号与一个在时域和频域均具有良好局部化性质的小波函数族进行积分(小波变换)，从而把信号分解成一组位于不同频率和时段内的分量，即选择小波函数为某类平滑函数的一阶导数，从而获得语音特征参数。小波变换法则是一种新兴的理论工具，与经典的LPCC和MPCC方法相比，小波变换法有着计算量小、复杂程度低、识别效果好等许多优点，是未来语音识别技术发展的一个方向。

为解决语音识别的另一个技术难题-模式匹配，Rabiner等人在20世纪80年代将隐马尔可夫(HMM)模型引入语音识别领域。该算法以HMM模型为基本建模模型，运用统计学习理论对发音的基本音素建立对应的声学模型，统计学习各个音素之间的概率转移关系，再结合语义分析进行内容识别。通过大量的语音库，就能够获得一个稳健的统计模型，能够适应实际语音中的各种突发情况。目前绝大多数基于PC的系统都采用此方法。

伴随着科技进步和全球信息交流的日益扩大，嵌入式设备产品的市场规模得到了迅猛的发展。3G手机、GPS导航设备等移动通信终端和MP3、电子词典等便携式消费电子产品的日益普及，使语音合成、语音识别、手写输入技术在嵌入式中的应用成了最具吸引力的功能，具有语音识别功能的嵌入式系统有助于提高人机交互的效率，增强人对智能化设备的控制，具有广阔的市场应用前景，可广泛应用于语音导航、语音拨号、智能家电和玩具的语音控制等领域。

目前主流的语音识别技术是基于统计模式识别的理论，由于算法复杂，运算量大，一般由PC机来完成，这无疑限制了它在便携嵌入式设备中的运用。嵌入式语音识别技术并不能简单地将PC机通用的语音识别技术应用到嵌入式系统，它受到嵌入式处理器的处理能力、存储资源、应用环境及成本等方面的严格限制和制约，迫切需要在噪声处理、语音特征提取算法以及语音识别算法等方面做出改进，提出适用于嵌入式平台的语音识别方法。

发明内容

本发明的目的在于提供一种基于嵌入式系统平台的、面向特定人群的语音识别方法，该方法根据目标人群发音的统计特点对前端处理以及离散小波变换环节的参数进行选择，采用离散小波变换提取频谱特征，并采用离散马尔可夫模型对语音信号进行识别，从而大大降低了运算量和待处理的信息量，进而在嵌入式平台上实现了采用隐马尔可夫模型的语音识别技术。

由于人的年龄不同，声带长度、体积、肌张力及神经传导速度都有一定的差异。研究表明，年龄会对嗓音造成显著性影响，儿童、成人与老人的嗓音具有明显的差别。针对发音者的年龄划分目标人群，不同目标人群的声学参数，如基调频率、频率微扰、振幅微扰及声门噪声等均不同，其发音的不同语音元素(如元音、清音、浊辅音等)的频率分布范围也存在差异，这就为本发明中根据不同目标群体的音频特点采用不同的前端处理中加窗分帧参数和不同的离散小波变换频段进行语音信号的特征提取提供了理论依据。

一种面向特定目标人群的语音识别方法，包括：

(1)对语音信号采样，将语音信号由模拟信号转换至数字信号；

由于语音信号的能量绝大部分集中在4kHz以下的频段内，本发明采用8kHz的采样信号对语音信号进行采样并量化，将其换至数字信号。

(2)对数字语音信号进行前端处理；

所述的前端处理包括预加重、加窗分帧和端点检测。

所述的预加重是对语音信号作+6dB/倍频程的高频提升，提升语音信号的高频部分，使信号的频谱变得宽坦，以减少低频干扰分量的影响，便于进行频谱分析或声道分析。

所述的加窗分帧采用窗函数平滑地在语音信号上滑动，将语音信号划分为若干语音帧帧。为了使划分出的语音帧更能反映出发音者的语音特征，对语音信号进行加窗分帧处理时考虑目标人群语音信号的基调周期。例如，小孩的基调频率在300～400Hz，而成年女人的基调频率在150～250Hz，成年男人的基调频率在100～150Hz等。基调周期与基调频率成倒数关系，不同目标人群的基调周期也必然不同。

本发明中每个语音帧的帧长大于目标人群语音信号的基调周期的两倍，帧移为帧长的一半，帧速根据帧长的数值来确定，它们两者互为倒数。

所述的端点检测是在噪声环境下将语音信息和非语音信息区分开来，从而避免一些误判，可以有效地提高识别率。以每一个语音帧的帧能量与帧过零率的乘积作为端点检测的指标量。在语音开始后，一旦有某一个语音帧的帧能量与帧过零率乘积超过预设的阈值，就认为有效语音开始。在有效语音开始后，当连续的几个语音帧的帧能量与帧过零率乘积低于阈值时，认为有效语音结束。

(3)根据目标人群的发音特点对经过前端处理后的语音信号进行特征提取；

特征提取阶段是语音识别的重要阶段，特征提取的实质是对经过预处理的语音信号经过某种变换，去掉冗余部分，把代表语音信号本质的特征参数抽取剥离出来，它是在语音信号经过端点检测提取出有用的语音数据后再进行。正确合理地选择特征参数不仅对语音识别系统的识别率至关重要，同时对系统的实时性能也有很大的影响。本发明利用离散小波变换(DWT)特有的奇异特征提取和时变滤波功能，用小波变换代替傅里叶变换，把小波变换引入梅尔频率倒谱参数(MFCC参数)的提取，使语音词汇的识别做到更准确、更快速。

对语音信号进行特征提取，得到特征参数的过程为：

1.将每个语音帧进行离散小波变换，将其划分为若干个频带，求出每个频带的小波分解系数，小波变换的频带特征频率由目标人群语音频谱中语音元素的频率分布决定。语音元素包括元音、清音、浊辅音等。一般清音的频率高于元音、浊辅音的频率。但是，不同年龄目标人群的语音频谱中这些语音元素的频率分布是不同的。按照不同年龄目标人群的语音频谱中语音元素的频率分布将语音信号划分为不同的频带，这样对语音信号进行灵活性的频带划分处理，可提高语音识别的识别率；

2.将上述若干个频带上分解出的小波系数分别作FFT变换，再通过一级量化后，根据它们各自的频带关系通过频谱拼接，生成完整的语音频谱，求取语音频谱的能量；

3.将语音频谱能量通过梅尔滤波器组，得到经过梅尔滤波器组后的输出；

4.对上述滤波器组的输出求取对数，转换为对数频谱，再将对数频谱经过离散余弦变换得到语音信号的特征参数。

(4)采用离散隐马尔可夫模型对特征提取后的语音信号做语音识别；

首先基于标准语音库中的样本数据对离散隐马尔可夫模型进行训练，当模型收敛到一个预设的阈值或者训练一定次数之后，即终止训练过程，然后采用训练好的离散隐马尔可夫模型对语音信号进行识别。

本发明针对目标人群发音频谱特性对前端处理和特征提取模块的参数进行优化，确保处理后的信号更能反映语音的本质特征，增强了语音识别结果的可靠性。而且本发明中利用离散小波变换提取频谱特征，进而采用基于离散马尔可夫模型的语音识别程序对语音信号进行识别，可以在提高语音频谱特征提取效果的同时大大的降低运算量和信息的处理量，为在处理能力、存储资源以及成本均受到限制的嵌入式平台上实现隐马尔可夫模型的语音在线识别创造了有利的条件，具有良好的应用前景。

本发明的技术效果如下：

(1)针对不同目标人群的语音频谱特征，选取合适的前端处理以及离散小波变换特征参数，提高了信号提取的有效性；

(2)利用离散小波变换提取频谱特征，并在嵌入式平台上实现了基于离散隐马尔可夫模型HMM识别算法，提高了识别准确率而又避免了大计算量；

(3)该方法通过科学的算法模型，结合嵌入式语音识别技术的优化设计，解决了语音识别技术在嵌入式平台上应用的困难，从而实现了在微型化系统中实现语音识别功能的方案。

附图说明

图1为本发明流程示意图；

图2为本发明对语音信号进行前端处理的模块化示意图。

具体实施方式

下面以年龄大于60岁的老年人作为目标人群为例，详细介绍本发明语音识别方法的过程。

参见图1，一种面向特定目标人群的语音识别方法，包括：

S1、对语音信号采样，将语音信号由模拟信号转换至数字信号；

由于数字信号处理技术的成熟和方便，在信号处理领域，一般将模拟信号转换至数字信号进行处理。语音信号是时间和幅度都连续变化的一维模拟信号，首先要对语音信号进行采样和模/数转换，将它变成时间和幅度上均离散化的数字信号，再对其进行处理。

根据奈奎斯特采样定律，当采样频率大于信号最高频率的两倍时，才能保证采样过程不会丢失原始信息，而且能从采样信号中准确的重构出原始信号的波形。由于语音信号的能量绝大部分集中在4kHz以下的频段内，因此对语音信号的采样频率设定为8kHz。

为了抑制混叠干扰(包括高、低频噪声)，在采样前先对语音信号进行预滤波处理：首先采用低通滤波器滤除语音信号中超过采样频率一半的部分，即滤除频率高于4kHz的部分；然后采用高通滤波器抑制40Hz以下的低频噪声。为简化系统结构，可采用一个带通滤波器对语音信号进行滤波处理，将频率大于4kHz的信号以及40Hz以下的信号均予以滤除。进行预滤波处理后，再采用预设的采样频率8kHz进行对语音信号采样。

S2、对数字语音信号进行前端处理；

如图2所示，前端处理包括三个分步骤：

201、预加重

受声门激励和口鼻辐射的影响，语音信号的高频端按6dB/倍频程跌落，为此在对语音信号进行分析之前需要对语音信号作+6dB/倍频程的高频提升，这个高频提升的过程称之为预加重。通过对语音信号进行预加重处理可以使语音信号的频谱变得平坦，以便于频谱分析或声道参数分析。采用一阶数字滤波器实现对语音信号的预加重处理，一阶数字滤波器可用如下的系统函数表示：

H(z)＝1-0.94×z^-1(1)

202、加窗分帧

语音信号的时域特性是非平稳、时变的，但通过加窗分帧的“短时”处理将其分为若干个短时信号，每个短时信号称为一个语音帧，在每一个语音帧内可以认为语音信号是平稳、非时变的。分帧处理中窗口序列的长度N(即帧长)将起决定性的作用。窗长N选得太大，语音信号波形的振幅变化细节看不出来；窗长N选得太小，语音信号不能被足够的平均化。

一般窗长至少应大于两个基音周期，才能获得较好的估计效果。对于目标人群为老年人来讲，其语音的基调频率主要集中在60-320Hz之间，即基音周期在15ms左右。因此本实施例中，选取窗长为40ms，一个语音帧内的信号点为320个(8KHz的采样频率)，帧速25帧/s，选取帧移为窗长的1/2，即帧移为160点(20ms)。相对于帧长在20-30ms之间的常规算法，本发明选取更长的帧长，可以大大减少数据量，同时对识别率影响不大。

在本实施例中，我们选取哈明窗作加窗处理，其处理过程可用以下的数学表达式表示：

S (i) = Σ_{k = - \infty}^{\infty} T [x (k)] ω (i - k) - - - (2)

其中，T表示对语音信号进行变换，此变换可以是线性的，也可以是非线性的；S(i)为加窗后的语音序列，x(k)表示数字语音信号，ω(i-k)表示窗函数，k表示时序信号点，i表示窗内点。

203、端点检测

在语音识别系统中，数字语音信号是由语音和非语音(如静音和各种背景噪音等)混合组成的。在这种信号中，将语音和各种非语音信号时段区分开来，准确地确定出语音信号起始点和终点称为端点检测。在语音识别中，端点检测的性能对于识别正确率和识别速度都有着重要影响。采用帧能量与帧过零率的乘积作为端点检测的指标量。帧能量是指一个语音帧内所有语音样值的平方和，用Power表示，其计算公式为：

Power = Σ_{i = 1}^{n} S^{2} [i] - - - (3)

其中，n为一个语音帧内的样本数，S[i]为一个样本的语音样值。

帧过零率是指一个语音帧内语音样值的短时过零数，用Zero表示，其计算公式为：

Zero = Σ_{i = 1}^{n} (S [i] \times S [i - 1] < 0) - - - (4)

其中，S[i-1]表示S[i]的前一个语音样值。

在语音开始后，一旦有某一个语音帧的帧能量与帧过零率乘积超过预设的阈值，就认为有效语音开始。这样做的目的在于能使某些帧能量与帧过零率乘积较小的辅音语音帧也被划入到有效语音段。在有效语音开始后，只有当连续的几个语音帧的帧能量与帧过零率乘积低于阈值时，才认为有效语音结束，这样保证了当一个字刚刚结束而另一个字尚未开始时，不会将后面的语音帧截断，造成有效语音信号丢失。

S3、根据目标人群的发音特点对经过前端处理后的语音信号进行特征提取；

根据语音学知识，年龄在60岁以上的老年人的语音频谱特征如下表所示：

表1年龄在60岁以上的老年人的语音频谱特征

本发明采用离散小波变换(DWT)对语音信号做特征提取，小波变换在语音识别中没有得到广泛应用的主要问题在于，很难将小波变换系数转换成传统意义上的特征参数。本方法中语音信号通过离散小波变换后，分解为若干频带，对不同频带的系数分别作FFT变换；再通过一级量化后，根据它们的频带关系将它们的频谱拼接生成完整的频谱，最后通过梅尔(Mel)滤波器组，将频谱转变生成维数较低的语音特征参数。这种参数的提取过程与梅尔频率倒谱参数(MFCC参数)的提取过程相似，不同的是，本发明应用了小波变换，通过小波变换将语音中不同频带上的特征信息提取和分离出来。根据小波变换的压缩特性，语音信号的小波系数将是稀疏的。也就是说小波变换将语音信号进行了压缩，使得语音信号的小波系数在少数点的幅值出现大值；而对高斯噪声，各级小波系数的方差均等于原信号的方差，因此平均的幅度小。这样通过量化，可以去除一部分噪声谱，从而有效地压缩了数据量。同时，间接地提高了分析的信噪比。把小波变换引入MFCC参数的提取，并充分考虑目标人群的语音频谱特征，使语音信号的识别做到更准确、更快速。

对语音信号进行特征提取包括：

301、将每个语音帧进行离散小波变换，分解为若干频带，求出每个频带的小波分解系数，小波变换的频带特征频率由目标人群的语音频谱特征决定；

考虑到如表1所示的老年人的语音频谱特征，将语音信号划分为40-200Hz、200-500Hz、500-3200Hz和3200-4KHz四个频段，针对每个频带需要一个低通滤波器和一个高通滤波器。例如，针对第一个频带40-200Hz，需要一个低通滤波器滤除高于200Hz的频率成分，另外需要一个高通滤波器滤除低于40Hz频率成分，从而保留频率在40-200Hz之间的信号。然后对于剩余频率空间的信号再进行类似的划分提取。

这个按照目标群体的语音频谱特征进行语音信号特征提取的过程可用以下算式表示：

DWT (S, 2^{j}, k 2^{j}) = D_{j, k} = \underset{i &Element; Z}{Σ} S {(i) h}_{1}^{j} (i - 2^{j} k) - - - (5)

\begin{matrix} C_{j, k} = \underset{i &Element; Z}{Σ} S (i) h_{0}^{j} (i - 2^{j} k) & (i, j, k &Element; Z) - - - (6) \end{matrix}

其中，C_j，k和D_j，k分别为每个频带上的离散逼近信号(低频系数)和离散细节信号(高频系数)，它们可由Mallat塔式算法计算得到。

低通滤波器h₀及带通滤波器h₁形成了一对镜像滤波器组h₁＝(-1)^1-nh₀(1-n)，每个频带的h₀及h₁是根据表1中的老年人频谱特征决定的。通过滤波器h₀和h₁将信号分解成低频空间和高频空间，接着在剩余的频带空间继续分解。分解结束后得到各个频带上的细节系数和近似系数。

利用离散小波变换特有的分频和局部分析能力，对语音信号进行上述四个频段上的离散子波变换，按照Mallat算法分解为不同频道。在频率高端，频率分辨率低；在频率低端，频率分辨率高，这与语音信号功率谱能量主要集中在频率低端相吻合。而清音和环境背景噪声通常出现在高频段中，将语音信号划分为上述四个频带后，对清音频带(3200Hz-4000Hz)的语音信号做阈值处理。对于这个频带的语音信号，将语音强度低于某一强度阈值的噪声信号予以舍弃，而将高于这一强度阈值的有效语音信号予以保留。

302、将上述4个频带上的小波分解系数分别作FFT变换，再通过一级量化后，根据它们各自的频带关系通过频谱拼接，生成完整的语音频谱X_m(k)，并通过对X_m(k)求取平方获得语音频谱的能量。

303、将上一步得到的语音频谱能量通过Mel滤波器组，得到经过Mel滤波器组后的输出；

采用三角滤波器组为例，一个三角滤波器组

可用以下方程表示：

U_{Δ_{m}} (k) = \{\begin{matrix} 1 - | k | / Δ_{m} & | k | < Δ_{m} \\ 0 & | k | &GreaterEqual; Δ_{m} \end{matrix} - - - (7)

其中，

为第m个三角滤波器的频率带宽。第m个滤波器的输出Y(m)通过下式计算：

Y (m) = Σ_{k = h_{m} - Δ_{m}}^{h_{m} + Δ_{m}} {| X_{m} (k) |}^{2} U_{Δ_{m}} (k + b_{m}) - - - (8)

其中，|X_m(k)|²为步骤302中得到的语音频谱能量。

304、通过对303中得到的滤波器输出Y(m)进行离散余弦变换得到语音信号的特征参数；

首先对步骤303中的滤波器输出Y(m)求取对数，然后进行离散余弦变换得到语音信号的特征参数c(n)，这一过程的数学表达式为：

\begin{matrix} c (n) = Σ_{m = 1}^{M - 1} \ln (Y (m)) \cos (\frac{πn (m + 1 / 2)}{M}) & (0 \leq m < M) - - - (9) \end{matrix}

M为步骤303中所采用的滤波器个数，经过以上语音信号特征提取，在典型环境下(平缓的语音输入)，数据码率可缩减30％以上。

S4、对特征提取后的语音信号做语音识别；

在本发明中，采用离散隐马尔可夫模型(DHMM)对特征提取后的语音信号做语音识别。

401、对离散隐马尔可夫模型进行训练：

离散隐马尔可夫模型用于描述随机过程统计特性的概率模型，它由马尔可夫链演变来的。一个有Q个状态(记为s₁，s₂...s_Q)的马尔可夫模型可用三元组参数λ＝(π，A，B)表示。其中π＝(π₁，π₂...π_Q)为初始分布矢量，用于描述待识别语音序列在初始时刻所处的状态；A为状态转移概率分布，A_ij＝{a_ij|i，j＝1，2，...Q}为状态转移概率矩阵，其元素a_ij是指t时刻状态为S_i，而在t+1时刻转移到状态S_j的概率；B是状态S_j的观测符号概率分布，B＝{b_i；i＝1，2，...，Q}，满足∑b_j＝1。

在使用离散隐马尔可夫模型对语音信号识别之前，需要对模型进行基于样本数据的训练。首先将标准语音库中样本观测数据的各个矢量序列量化为观察值符号序列，最后由Baum-Welch算法训练出离散的隐马尔可夫模型，并把训练结果存储起来。

首先采用前向-后向算法计算给定模型参数时观察值序列的概率P{O|λ}。观测值序列记为o₁，o₂...o_T，共有T个观测值，对于第t(1≤t≤T)个观测值，分别计算其前向概率a_t(i)和后向概率β_t(i)。

定义前向概率为a_i(i)＝P(o₁，o₂...o_t)，即状态模型为λ，利用a_t(i)计算输出条件概率P{O|λ}：

前向概率的初始化：

a₁(i)＝π_ib_i(o₁)，1≤i≤Q (10)

迭代计算：

\begin{matrix} a_{t + 1} (i) = [Σ_{i = 1}^{Q} a_{t} (i) a_{ij}] b_{j} (o_{t + 1}) & 1 \leq t \leq T - 1,1 \leq j \leq Q - - - (11) \end{matrix}

终止计算：

P {O | λ} = Σ_{i = 1}^{Q} a_{T} (i) - - - (12)

后向概率β_t(i)的计算过程同前向概率计算过程相同。

利用前向概率和后向概率将整个观测值序列O对HMM模型的输出概率分为两个部分观测值序列的输出概率的乘积，可以大大简化计算量，则整个观测值序列的概率可表示如下：

\begin{matrix} P {O | λ} = Σ_{i = 1}^{Q} a_{t} (i) β_{t} (i) = Σ_{i = 1}^{Q} Σ_{j = 1}^{Q} a_{t} (i) a_{ij} b_{j} (o_{t + 1}) β_{t + 1} (j), & 1 \leq t \leq T - 1 - - - (13) \end{matrix}

通过上述计算，我们得到了观察值符号序列，接下来我们采用Baum-Welch算法对离散隐马尔可夫模型进行迭代训练，假设原始离散隐马尔可夫模型为λ＝f(π，A，B)，训练一次以后新的模型为λ′＝f(π′，A′，B′)，由新的模型参数λ′产生观察矢量序列的概率比先前的模型参数λ更大，即p(Y/λ′)＞p(Y/λ)。因此，使用上述迭代方法，可以逐步调整离散隐马尔可夫模型的参数。当模型收敛到一定程度或迭代一定的次数后，终止训练过程。

402、利用训练好的离散隐马尔可夫模型进行语音识别：

语音识别系统模型通常由语音模型和语言模型两部分组成。语音模型包含了不同发音者的语音特征模型库，这个模型库包含的语音特征越丰富，系统能够识别的发音者人群将越广泛；语言模型用来存储文字、词语、成语、谚语等语言学元素，其中包括发音学、音韵学、语义结构、语言的数学描述模型等，语言模型存储的语言学元素越多，系统能够识别的语言也就越多。语音识别的过程即是接收用户的话语语音，利用语音模型和语言模型，搜索出与输入语音的特征最匹配的字、词、句，作为识别结果输出。

将经过前段处理和特征提取的语音序列输入到训练好的离散隐马尔可夫模型中，采用Viterbi算法对语音信号进行识别，即根据待识别的语音序列找出最佳匹配的隐含状态序列。假设待识别的语音序列为D＝(d₁，d₂...d_N)，要求找到隐含状态序列Z＝(z₁，z₂...z_N)，使得下式概率达到最大：

v^*＝arc maxp[Z，D/λ](14)

则Z即为所得的最佳识别结果，将经过语音模型识别后的结果送入语言模型进行进一步的处理，语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。当语音模型的输出结果错误时，可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音字则必须通过上下文结构才能确定词义。

Claims

1.一种面向特定目标人群的语音识别方法，其特征在于，包括：

(1)对语音信号进行采样，将语音信号由模拟信号转换至数字信号；

(2)对语音信号进行前端处理；

(3)提取语音信号的特征参数；

(4)采用离散隐马尔可夫模型对语音信号进行识别。

2.如权利要求1所述的语音识别方法，其特征在于，对语音信号进行采样的采样信号为8kHz。

3.如权利要求1所述的语音识别方法，其特征在于，所述的对语音信号进行前端处理包括预加重、加窗分帧和端点检测。

4.如权利要求3所述的语音识别方法，其特征在于，所述的预加重为对语音信号作+6dB/倍频程的高频提升。

5.如权利要求3所述的语音识别方法，其特征在于，所述的加窗分帧操作中采用的帧长大于目标人群语音频谱中基调周期的两倍，帧移为帧长的一半。

6.如权利要求1所述的语音识别方法，其特征在于，所述的提取语音信号的特征参数包括：

a、对语音信号进行离散小波变换，将语音信号划分为若干个频带，计算每个频带上的小波分解系数，频带的划分基于目标人群频谱中语音元素的频率分布；

b、将各个频带上的小波系数分别作快速傅里叶变换，再通过一级量化后，将所有频带上的频谱拼接成完整的语音频谱，计算完整语音频谱的频谱能量；

c、将完整语音频谱的频谱能量通过梅尔滤波器组，计算梅尔滤波器组的输出；

d、对梅尔滤波器组的输出进行对数变换和离散余弦变换得到语音信号的特征参数。