CN102982803A

CN102982803A - 基于hrsf及改进dtw算法的孤立词语音识别方法

Info

Publication number: CN102982803A
Application number: CN2012105334669A
Authority: CN
Inventors: 胡晓晖; 李玉婷; 彭宏利; 薛云; 蔡倩华; 黄海东; 曾广祥
Original assignee: Guangzhou Jisheng Information Science & Technology Development Co Ltd; South China Normal University
Current assignee: Guangzhou Jisheng Information Science & Technology Development Co Ltd; South China Normal University
Priority date: 2012-12-11
Filing date: 2012-12-11
Publication date: 2013-03-20

Abstract

本发明公开了基于HRSF及改进DTW算法的孤立词语音识别方法，其包括如下步骤：（1）对接收到的模拟语音信号进行预处理，所述预处理包括预滤波、采样及量化、预加重、加窗、短时能量分析、短时平均过零率分析和端点检测；（2）通过FFT得到该帧信号的功率谱X(n)，转换为Mel频率下的功率谱，计算MFCC参数，对计算的MFCC参数进一步求取一阶差分及二阶差分后再进行半升正弦函数倒谱提升；（3）利用改进的DTW算法将测试模版和参考模版进行匹配，将匹配分数最高的参考模板作为识别结果。本发明通过改进的DTW算法解决单个汉字的识别问题，提高了单个汉字的识别率与识别速度。

Description

基于HRSF及改进DTW算法的孤立词语音识别方法

技术领域

本发明涉及语音识别的应用领域，具体涉及基于半升正弦函数倒谱提升（Half Raised-Sine function，HRSF)及改进动态时间弯折(Dynamic Time Warping, DTW)算法进行孤立词识别方法。

背景技术

在语音识别领域，一般来说语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。

一、基于语音学和声学的方法。基于语音学和声学的方法起步较早，在语音识别技术提出的开始就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。

通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现：

第一步:分段和标号

把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号；

第二步:得到词序列

根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的文法和语义同时进行。

二、模板匹配的方法。模板匹配的方法发展比较成熟，目前已达到了实用阶段。在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整(DTW)、隐马尔可夫（HMM）理论、矢量量化（VQ）技术。

1 、动态时间规整(DTW)

语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素) 的始点和终点的位置，从语音信号中排除无声段。在早期，进行端点检测的主要依据是能量、振幅和过零率，但效果往往不明显。60年代学者Itakura提出了动态时间规整算法(DTW：DynamicTime Warping)。该算法的思想就是把未知量均匀地升长或缩短，直到与参考模式的长度一致。在这一过程中，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模型特征对正。

现有的DTW算法介绍：

动态时间弯折（Dynamic Time Warping ，DTW）是把时间归正和距离测度计算结合起来的一种非线性归正技术。它也是语音识别中的一种很成功的匹配算法。

DTW算法可以分两步进行，一是计算两个模版（测试模版和参考模版）各帧之间的距离，即求出帧匹配距离矩阵，二是在帧匹配距离矩阵中找出一条最佳路径。

假设参考模版的特征矢量序列为a₁,a₂,…,a_m,…,a_M，输入语音特征矢量序列为b₁,b₂,…,b_n,…,b_N，N≠M（此处N、M与其他地方出现的N、M一致），那么动态时间规整是要寻找时间规整函数m=w（n），它把输入模版（即发明内容中的测试模板）的帧数n非线性地映射到参考模版的帧数m，并且该w满足

D (n, m) = \min_{w (j)} Σ_{j = 1}^{n} d [j, w (j)]

式中，d[(n,w(n))]是第n帧输入矢量和第m帧参考矢量的距离，D是相应于最优时间规整下两个模版的距离测度。

在具体问题中，规整函数w(n)满足一定的约束条件。

边界条件：

w(1)=1,w(N)=M

连续条件：

w (n + 1) - w (n) = \{\begin{matrix} 0,1,2 & w (n) &NotEqual; w (n - 1) \\ 1,2 & w (n) = w (n - 1) \end{matrix}

如图1所示，根据约束条件，函数w(n)曲线限于一个平行四边形区内，它的一条边斜率是2，另一条边斜率是1/2。即在极端情况下n增加1，m增加2，终点坐标为M=2N；反之，n增加2，m至少增加1，那么M=N/2。从物理意义上讲，等于把两个模版之间长度差异限制在1/2到2之内。因此，w(n)的走向受到限制。如果前面点[n，w(n)]上的w(n)值已经改变过的话，w(n)的斜率为0，1或2；否则w(n)的斜率为1或2。DP的问题可以视为：从始点(1，1)沿着怎样一条路线到达终点(N，M)，以使两个模版的匹配距离最小。

假设d[n，m]=d[n，w(n)]是帧矢量b_n和a_m之间的距离，则最小累计距离为

D (n, m) = \min_{w (j)} Σ_{j = 1}^{n} d [j, w (j)]

依照动态规划的一般算法，是从过程的最后一个阶段开始考虑，即其最优决策是逆序过程，这一决策过程，可写成递推公式形式：

D(n+1,m)=d[n+1,m]+min[D(n,m)g(n,m),D(n,m-1),D(n,m-2)]

式中

g (n, m) = \{\begin{matrix} 1 & w (n) &NotEqual; w (n - 1) \\ \infty & w (n) = w (n - 1) \end{matrix}

这里，g(n，m)的引入，等效于n，m取值满足w(n)的约束条件，最后便能求出D(N,M)。

2、隐马尔可夫法(HMM)

隐马尔可夫法(HMM) 是70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。HMM 方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov 链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov 链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态) 发出的音素的参数流。HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性，是较为理想的一种语音模型。

3、矢量量化(VQ)

矢量量化(Vector Quantization) 是一种重要的信号压缩方法。与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每一帧，或有k个参数的每一参数帧，构成 k 维空间中的一个矢量，然后对矢量进行量化。量化时，将 k 维无限空间划分为 M 个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。

核心思想可以这样理解：如果一个码书是为某一特定的信源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真，也就是说编码器本身存在区分能力。

在实际的应用过程中，人们还研究了多种降低复杂度的方法，这些方法大致可以分为两类：无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。

三、神经网络的方法。利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点，目前仍处于实验探索阶段。

由于ANN不能很好的描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别。

以上列举的方法各有其优缺点，此外，现有的基于半升正弦函数倒谱提升（Half Raised-Sine function，HRSF)及动态时间弯折(Dynamic Time Warping, DTW)算法的孤立词识别方法存在以下不足：应用DTW算法进行语音识别时，每次都要将测试语音去匹配所有的声纹模型，然后找出最相近模型对应的说话人作为识别结果。这样，随着模型数目的增多，一次识别所花费的时间会直线上升，导致识别率和识别速度大大降低。

发明内容

本发明针对目前孤立词语音识别方法存在的不足和缺陷，提供一种基于HRSF及改进DTW算法的孤立词语音识别方法，具体技术方案如下。

基于HRSF及改进DTW算法的孤立词语音识别方法，其包括如下步骤：

（1）语音信号的数字化和预处理：对接收到的模拟语音信号进行预处理，所述预处理包括预滤波、采样及量化、预加重、加窗、短时能量分析、短时平均过零率分析和端点检测；

（2）语音信号的参数提取：通过离散FFT变换得到经步骤（1）处理后的语音信号的功率谱X(n)，转换为Mel频率下的功率谱，计算MFCC参数，对计算的MFCC参数进一步求取一阶差分及二阶差分后再进行半升正弦函数倒谱提升；

（3）语音信号参数特征的训练和识别：利用改进的DTW算法将测试模版和参考模版进行匹配，将匹配分数最高的参考模板作为识别结果；参考模版表示为U={U₁,U₂,...,U_m,… U_M}m为模板语音帧的顺序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模式包含的语音帧总数,U_i为第i帧语音的语音特征矢量；所要识别的一个输入词条语音称为测试模版,测试模版表示为V={V₁,V₂,...,V_n,...,V_N},n为测试语音帧号, 模版中一共包括N帧语音, V_j为第j帧特征矢量，参考模板中的语音特征矢量和测试模板中的特征矢量由步骤（2）中经过半升正弦函数倒谱提升后的MFCC参数构成。

进一步优化的，步骤（2）所述MFCC参数的计算包括如下步骤：

I、首先确定每一帧语音信号采样序列的点数N，对每帧序列x(n)（n=1,2,…N）进行预加重处理后再经过离散FFT变换，取其模的平方得到离散功率谱X(n)；

II、计算X(n)通过M个H_m(n)后所得到的功率值，即计算X(n)和H_m(n)在各离散频率点上乘积之和，得到M个参数P_m,m=0,1,…,M-1；

III、计算P_m的自然对数，得到L₀,L₁,…,L_m-1；

IV 、对L₀,L₁,…,L_m-1计算其离散余弦变换，得到D_m,m=0,1,…,M-1；

V 、舍去代表直流成分的D₀，取D₀,D₁,…,D_k作为MFCC参数。

进一步优化的，步骤（2）中对提取的MFCC参数进行半阶正弦倒谱提升，提高数值相对较小的中高阶分量值，降低易受噪声干扰的低阶分量值，权重公式的前半部分加0.5保证倒谱分量不完全衰减，后半部分则对高低阶分量进行不同程度的加权，

C_i=r_iD_i

ri=0.5+0.5sin(πi/H)

其中：i=0，1… H-1；H为特征阶数，D_i为提取的MFCC特征参数，C_i为加权MFCC参数，r_i为加权系数。

进一步优化的，步骤（3）所述改进的DTW算法具体采用已有DTW算法中U_i（测试模版矢量数据）和V_j（参考模版矢量数据）两个特征矢量相似度作为匹配计算的测度，以相似度最大作为相互匹配点位的标准，并以总相似度最大作为U和V两个序列的动态匹配测度，分两个步骤逐步减少计算量：

（3.1）采用矢量的余弦值的大小进行取舍：

相似度L（i，j）采用矢量间夹角的余弦来加以计算，即

L (i, j) = \frac{U_{i} V_{j}}{| U_{i} | \cdot | V_{j} |}

L（i，j）<= 1，当L（i，j）=1时矢量X和欠量Y完全相似，为了减少运算量，经过上式计算出的L（i，j）<=0.5时，直接令L（i，j）=0；

对于有N帧的参考模板和M帧的测试模板来说，计算他们之间的最大相似度L是一个代价很高的行为，需要用到N*M的矩阵，这时可以采取分块矩阵；

（3.2）采取分块矩阵以减少计算量：

在矩阵中找到k个点（k>=2,可以随机确定，也可以自己根据帧数定义， U(m)= U_m，V(n) =V_n）

）U(m)、 V(n) ，记为U(m₁),V(n₁),U(m₂),V(n₂),….U(m_k),V(n_k),使L(U(m₁),V(n₁)),L(U(m₂),V(n₂)),….L(U(m_k),V(n_k))最大，且满足 (n₁＜n₂＜…＜n_k),(m₁＜m₂＜…＜m_k)，这样只需要计算L[((U(1),V(1)),(U(m₁),V(n₁))),L[(U(m₁),V(n₁)),(U(m₂),V(n₂))]…

L[(U(m_k-1),V(m_k-1)),(U(m_k),V(n_k)) }

，其中K为选取的最大相似点的个数，

再把他们相加即得，

\begin{matrix} L [U, V] = Σ_{i = 1}^{k - 1} L [(U (m_{i}), V (n_{i})), (U (m_{i + 1}), V (n_{i + 1}))] \\ L [(U (m_{i}), V (n_{i})), (U (m_{i + 1}), V (n_{i + 1}))] = Σ_{n = n_{i}, m = m_{i}}^{n_{i + 1}, m_{i + 1}} L [U (m), V (n)] \end{matrix}

这样就把原来的N*M矩阵的最大相似度，简化为几个分块矩阵的最大相似度之和，大大降低了运行的时间；经过上述两个步骤我们发现，模版匹配的时间较之以前减少了许多，结果识别的效率得到了一定的提升。

进一步优化的，步骤（1）中所述预滤波是抑制输入语音信号各频域分量中频率超出1/2采样频率的所有分量，同时抑制50Hz的电源工频干扰；所述采样和量化是将语音信号变成时间和幅度都离散的数字信号，其中，所述采样的频率大于信号最高频率的两倍，且用采样后的信号重构原始信号，所述量化是将语音信号波形的幅度值离散化，即将整个语音信号的幅度值分成若干个有限的区间，并且把落入同一个区间的幅值都用同一个幅值来表示，这个幅度值即为量化值。

进一步优化的，步骤（1）中所述预加重的目的是提升高频部分，使信号的频谱变得平坦，用具有6dB/倍频程的提升高频特性的预加重数字滤波器实现；

所述加窗处理是采用窗函数得到短时的语音信号，窗函数平滑地在语音信号上滑动，又将语音信号分成帧，所述窗函数采用矩形窗或汉明窗。

进一步优化的，步骤（1）所述短时能量分析具体是：

设语音波形时域信号为x(l)、加窗分帧处理后得到的第n帧语音信号为x_n(m)，则x_n(m)满足下式：

x_n(m)=w(m)x(n+m),0≤m≤P-1

其中，n=0，1T，2T，…，并且P为帧长，T为帧移长度；

设第n帧语音信号x_n(m)的短时能量用E_n表示，则其计算公式如下：

E_{n} = Σ_{m = 0}^{P - 1} x_{n}^{2} (m)

。

与现有技术相比，本发明有以下优点和技术效果：

本发明主要针对基于半升正弦函数倒谱提升（Half Raised-Sine function，HRSF)及动态时间弯折(Dynamic Time Warping, DTW)算法进行孤立词识别的不足，利用改进的动态时间弯折(Dynamic TimeWarping, DTW)算法进行单个汉字的语音识别。

本发明采用U_i和V_j两个特征矢量相似度作为匹配计算的测度，以相似度最大作为相互匹配点位的标准，并以总相似度最大作为U和V两个序列的动态匹配测度并把原来的N*M矩阵的最大相似度，简化为几个分块矩阵的最大相似度之和，从而大大降低了运行的时间，提高了单个汉字的识别率和识别速度。

在半升正弦函数倒谱提升（Half Raised-Sine function，HRSF)及现有的动态时间弯折(Dynamic Time Warping, DTW)算法的基础上，通过对动态时间弯折(Dynamic Time Warping, DTW)算法进行改进，简化了语音识别的操作，进而有效地提高了语音系统的识别率和识别速度。本发明注重理论和实际应用的结合，进一步改善了语音识别领域的技术方法。

简而言之，本发明通过改进的DTW算法解决单个汉字的识别问题，提高了单个汉字的识别率与识别速度。

附图说明

图1是现有DP算法示意图。

图2是DP算法中w(n)连续条件示意图。

图3是实施方式中基于HRSF及改进DTW算法的孤立词语音识别方法的总流程示意图。

图4是实例中双门限法的各门限值示意图。

图5是实施方式中滤波器组波形示意图。

具体实施方式

本发明的以上技术方案对于本领域技术人员来说已经清楚明确，为便于审查员理解，以下结合附图和实例对本发明的具体实施作进一步说明，但本发明的实施和保护范围不限于此，本发明未特别说明之处均为本领域技术人员。

如图1，基于HRSF及改进DTW算法的孤立词语音识别方法，该方法的主要流程如下：

（1）语音信号的数字化和预处理：输入的模拟语音信号首先要进行预处理，包括预滤波、采样和量化、加窗、预加重、端点检测等；

（2）语音信号的参数提取：语音信号经预处理后，接下来很重要的一环就是特征参数提取，首先通过FFT得到该帧信号的功率谱X(n)，转换为Mel频率下的功率谱，计算MFCC参数，对计算的基本MFCC特征参数进一步求取一阶差分及二阶差分后再进行半升正弦函数进行倒谱提升；

（3）语音信号参数特征的训练和识别：利用改进的DTW算法将测试模版和参考模版进行匹配，将匹配分数最高的参考模板作为识别结果。

步骤（2）所述MFCC参数的计算通常采用如下的流程：

I首先确定每一帧语音采样序列的点数，本系统取N＝256点。对每帧序列x(n)进行预加重处理后再经过离散FFT变换，取模的平方得到离散功率谱X(n)；

II计算X(n)通过M个H_m(n)后所得到的功率值，即计算X(n)和H_m(n)在各离散频率点上乘积之和，得到M个参数P_m,m=0,1,…,M-1；

III 计算P_m的自然对数，得到L₀,L₁,…,L_m-1；

IV 对L₀,L₁,…,L_m-1计算其离散余弦变换，得到D_m,m=0,1,…,M-1；

V 舍去代表直流成分的D₀，取D₀,D₁,…,D_k作为MFCC参数。

对提取的MFCC参数进行半阶正弦倒谱提升。可以提高数值相对较小的中高阶分量值，降低易受噪声干扰的低阶分量值。权重公式的前半部分加0.5保证倒谱分量不完全衰减，后半部分则对高低阶分量进行不同程度的加权，

加权MFCC参数 C_i=r_iD_i

ri=0.5+0.5sin(πi/H)

其中：i=0，1… H-1；H为特征阶数，D_i为提取的MFCC特征参数，C_i为加权MFCC参数，r_i为加权系数。已有的DTW算法在序位配对计算时，都用计算U_i和V_i两个特征矢量之间距离的方法，以距离最小作为相互匹配点位的标准，并以总加权距离最小作为U和V一两个序列的动态匹配测度。步骤（3）所述改进的DTW算法具体采用U_i和V_i两个特征矢量相似度作为匹配计算的测度，以相似度最大作为相互匹配点位的标准，并以总相似度最大作为U和V两个序列的动态匹配测度。分两个步骤逐步减少计算量，达到提高算法速度的目的。

采用矢量的余弦值的大小（相似度）进行取舍：

相似度L（i，j）采用矢量间夹角的余弦来加以计算，即

L (i, j) = \frac{U_{i} V_{j}}{| U_{i} | \cdot | V_{j} |}

一般L（i，j）<= 1，当L（i，j）=1时矢量X和欠量Y完全相似，为了减少运算量，经过上式计算出的L（i，j）<=0.5时，直接令L（i，j）=0。

对于有N帧的参考模板和M帧的测试模板来说，计算他们之间的最大相似度L是一个代价很高的行为，需要用到N*M的矩阵，这时可以采取分块矩阵。

1.采取分块矩阵以减少计算量：

在矩阵中找到几个点U(m)，V(n)，记为U(m₁),V(n₁),U(m₂),V(n₂),….U(m_k),V(n_k),使L(U(m₁),V(n₁)),L(U(m₂),V(n₂)),….L(U(m_k),V(n_k))最大，且满足 (n₁＜n₂＜…＜n_k),(m₁＜m₂＜…＜m_k)，这样我们只需要计算L[((U(1),V(1)),(U(m₁),V(n₁))),L[(U(m₁),V(n₁)),(U(m₂),V(n₂))]…

L[(U(m_k-1),V(m_k-1)),(U(m_k),V(n_k)) }

(K为选取的最大相似点的个数)再把他们相加即可。

\begin{matrix} L [U, V] = Σ_{i = 1}^{k - 1} L [(U (m_{i}), V (n_{i})), (U (m_{i + 1}), V (n_{i + 1}))] \\ L [(U (m_{i}), V (n_{i})), (U (m_{i + 1}), V (n_{i + 1}))] = Σ_{n = n_{i}, m = m_{i}}^{n_{i + 1}, m_{i + 1}} L [U (m), V (n)] \end{matrix}

这样就把原来的N*M矩阵的最大相似度，简化为几个分块矩阵的最大相似度之和，这样可以大大降低了运行的时间。

经过上述两个步骤我们发现，模版匹配的时间较之以前减少了许多，结果识别的效率得到了一定的提升。

下面再对上述几个步骤中涉及的内容进行详细描述：

1、语音信号的数字化和预处理

1.1预滤波、采样、量化

语音信号是时间和幅度都连续变换的一维模拟信号，要想对语音信号进行分析或者处理，就必须将其转换为数字信号。要数字化语音信号，就要先进行采样和量化，将其变成时间和幅度都离散的数字信号。

预滤波的目的有两个：（1）抑制输入信号各频域分量中频率超出1/2采样频率的所有分量，以防止混叠干扰。（2）抑制50Hz的电源工频干扰。

采样称为波形的离散化过程。根据采样定理，当采样频率大于信号最高频率的两倍是，在采样过程中就不会丢失信息，并且可以用采样后的信号重构原始信号。人说话的语音频率范围为300Hz~3400Hz，一般将采样频率设为8KHz。

量化的目的是将语音信号波形的幅度值离散化，也就是说将整个信号的幅度值分成若干个有限的区间，并且把落入同一个区间的幅值都用同一个幅值来表示，这个幅度值称为量化值。

1.2预处理

语音信号的预处理指的是对语音信号进行特殊的处理：预加重或称高频提升，加窗分帧处理。

预加重的目的是提升高频部分，使信号的频谱变得平坦，以便于进行频谱分析或声道参数分析。用具有6dB/倍频程的提升高频特性的预加重数字滤波器实现，它一般是一阶的，即

H(z)=1-μ·z^-1

式中，μ值接近于1，典型值为0.94。

因为语音信号是一个非平稳过程，但是在一个短时间范围内（一般认为在10~30ms的短时间内），其特性基本保持不变即相对稳定，因而可以认为语音信号具有短是平稳性。为了得到短时的语音信号，就需要对语音信号进行加窗处理。而窗函数平滑的在语音信号上滑动，又将语音信号分成帧。

窗函数可以选用矩形窗，即

也可以采用其它形式的窗函数，例如汉明窗，即

1.3 短时能量分析

x_n(m)=w(m)x(n+m) 0≤m≤N-1

其中，n=0，1T，2T，…，并且N为帧长，T为帧移长度。

E_{n} = Σ_{m = 0}^{N - 1} x_{n}^{2} (m)

1.4 短时平均过零率分析

短时过零率表示一帧语音信号波形穿过横轴（零电平）的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号，过零即意味着时域波形通过时间轴；而对于离散信号，如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。

定义语音信号x_n(m)的短时过零率Z_n为：

Z_{n} = \frac{1}{2} Σ_{m = 0}^{N - 1} | sgn [x_{n} (m)] - sgn [x_{n} (m - 1)] |

式中，sgn[ ]是符号函数，即：

sgn [x] = \{\begin{matrix} 1 & x > 0 \\ - 1 & x < 0 \end{matrix}

短时平均过零率分析用于语音信号的清/浊音判决。发浊音时，尽管声道中有若干个共振峰，但其能量集中于低于3k Hz的频率范围内；反之，发清音时，多数能量出现在较高频率上。高频就意味着高的平均过零率，低频意味着低的过零率，因此用过零率可以定量地分析清/浊音。

短时能量与短时平均过零率两个参数在有/无声的判断中可以估计话音的起点和终点位置，在背景噪声电平较小时，短时能量更为有效，在背景噪声电平较大时，短时平均过零率更为有效。

1.5 语音信号的端点检测

端点检测是指用数字处理技术来找出语音信号中的各种段落的始点和终点的位置。常用的方法有基于短时能量和短时平均过零率的检测方法，亦称双门限比较法。

语音刚开按的一段，其短时能量大小与背景噪声的短时能量大小差不多，因此要想可靠地检测到语音起点，存在较大困难。双门限法是考虑到语音开始以后总会出现能量较大的浊音，设一个较高的门限T_h用以确定语音已开始，再取一比T_h稍低的门限T_L，用以确定真正的起止点N₁及结束点N₂。判断清音与无话的差别，是采用另一个较低的门限T₁，求越过该门限“过零率”。只要T₁取得合适，通常背景噪声的低门限过零率值将明显低于语音的低门限过零率值，如图4所示。这种方法普遍地用于有话、无话鉴别或词语前端检测。通常窗长(即帧长)取10~15ms，帧间隔(即Q”的采样间隔)取5~10ms。

2 语音信号的参数提取

2.1 Mel频率倒谱参数（MFCC）

MFCC参数线性频率的转换关系是：

f_{mel} = 2595 \log_{10} (1 + \frac{f}{700})

f_mel即MFCC参数线性频率，f为信号频率。

首先通过FFT得到该帧信号的功率谱X(n)，转换为Mel频率下的功率谱.在计算之前先对语音的频谱范围内设置若干个带通滤波器：

H_{m} (n), m = 0,1, . . ., M - 1, n = 0,1, . . ., \frac{N}{2} - 1

M为滤波器的个数，N为一帧语音信号的点数，为了计算FFT的方便，取N为256.滤波器在频域上为简单的三角形，其中心频率为f_m，它们在Mel频率轴上均匀分布。在线性频率上，当m较小时，相邻的f_m间隔很小，随着m的增加，相邻的f_m间隔逐渐拉大.另外在频率较低的区域，f_m和f之间有一段是线性的。带通滤波器的参数事先计算好，在计算MFCC参数时直接使用。本发明中M取24，N为256，信号的采样频率为8KHz，滤波器组波形如图5所示。

MFCC参数的计算采用如下的流程：

（1）首先确定每一帧语音采样序列的点数，取N=256点。对每帧序列x(n)进行预加重处理后再经过离散FFT变换，取模的平方得到离散功率谱X(n)；

（2）计算X(n)通过M个H_m(n)后所得到的功率值，即计算X(n)和H_m(n)在各离散频率点上乘积之和，得到M个参数P_m,m=0,1,…,M-1；

（3）计算P_m的自然对数，得到L₀,L₁,…,L_m-1；

（4）对L₀,L₁,…,L_m-1计算其离散余弦变换，得到D_m,m=0,1,…,M-1；

（5）舍去代表直流成分的D₀，取D₀,D₁,…,D_k作为MFCC参数。

2.2半升正弦函数倒谱提升

标准的MFCC参数只反映了语音参数的静态特性，而人耳对语音的动态特征更为敏感，通常用差分倒谱参数来描述这种动态特性。

差分参数的计算采用下面的公式：

d (n) = \frac{1}{\sqrt{Σ_{i = - k}^{k} i^{2}}} Σ_{i = - k}^{k} i \cdot c (n + i)

式中c和d都表示一帧语音参数，k为常数，通常取2，这时差分参数就被称为当前帧的前两帧和后两帧参数的线性组合。由此式计算得到二阶差分MFCC参数。实际使用中，将MFCC参数和各阶差分参数合并为一个矢量，作为一帧语音信号的参数。

同时通过大量实验研究得知，特征向量的各个分量对于识别率的贡献不同。在语音识别中，高阶MFCC分量比低阶MFCC分量更不易受到噪声的影响，所以才用半升正弦函数进行倒谱提升，可以提高数值相对较小的中高阶分量值，降低易受噪声干扰的低阶分量值。权重公式的前半部分0.5保证倒谱分量不完全衰减，后半部分则对高低阶分量进行不同程度的加权。

C_i=r_iD_i

ri=0.5+0.5sin(πi/H)

其中：i=0，1… H-1；H为特征阶数，D_i为提取的MFCC特征参数，C_i为加权MFCC参数，r_i为加权系数。3 语音信号参数特征的训练和识别

3.1 现有的DTW算法

动态时间弯折（Dynamic Time Warping ，DTW）是把时间归正和距离测度计算结合起来的一种非线性归正技术，它也是语音识别中的一种很成功的匹配算法。

假设参考模版的特征矢量序列为a₁,a₂,…,a_m,…,a_M，输入语音特征矢量序列为b₁,b₂,…,b_n,…,b_N，N≠M，那么动态时间规整是要寻找时间规整函数m=w（n），它把输入模版的时间轴n非线性地映射到参考模版的时间轴m，并且该w满足

D (n, m) = \min_{w (j)} Σ_{j = 1}^{n} d [j, w (j)]

在具体问题中，规整函数w(n)满足一定的约束条件。

边界条件：

w(1)=1,w(N)=M

连续条件：

w (n + 1) - w (n) = \{\begin{matrix} 0,1,2 & w (n) &NotEqual; w (n - 1) \\ 1,2 & w (n) = w (n - 1) \end{matrix}

如图1所示，根据约束条件，函数w(n)曲线限于一个平行四边形区内，它的一条边斜率是2，另一条边斜率是1/2.即在极端情况下n增加1，m增加2，终点坐标为M=2N；反之，n增加2，m至少增加1，那么M=N/2。从物理意义上讲，等于把两个模版之间长度差异限制在1/2到2之内。因此，w(n)的走向受到限制，如图1所示。如果前面点[n，w(n)]上的w(n)值已经改变过的话，w(n)的斜率为0，1或2；否则w(n)的斜率为1或2。DP的问题可以视为：从始点(1,1)沿着怎样一条路线到达终点(N,M)，以使两个模版的匹配距离最小。

D (n, m) = \min_{w (j)} Σ_{j = 1}^{n} d [j, w (j)]

D(n+1,m)=d[n+1,m]+min[D(n,m)g(n,m),D(n,m-1),D(n,m-2)]

式中

g (n, m) = \{\begin{matrix} 1 & w (n) &NotEqual; w (n - 1) \\ \infty & w (n) = w (n - 1) \end{matrix}

这里g(n,m)的引入，等效于n，m取值满足w(n)的约束条件。最后便能求出D(N,M)。

已有的DTW算法在序位配对计算时，都用计算U_i和V_i两个特征矢量之间距离的方法，以距离最小作为相互匹配点位的标准，并以总加权距离最小作为U和V一两个序列的动态匹配测度。本方法所述改进的DTW算法具体采用U_i和V_i两个特征矢量相似度作为匹配计算的测度，以相似度最大作为相互匹配点位的标准，并以总相似度最大作为U和V两个序列的动态匹配测度。分两个步骤逐步减少计算量，达到提高算法速度的目的。

采用矢量的余弦值的大小（相似度）进行取舍：

相似度L（i，j）采用矢量间夹角的余弦来加以计算，即

L (i, j) = \frac{U_{i} V_{j}}{| U_{i} | \cdot | V_{j} |}

1.采取分块矩阵以减少计算量：

在矩阵中找到k个点U(m)、 V(n) ，记为U(m₁),V(n₁),U(m₂),V(n₂),….U(m_k),V(n_k),使L(U(m₁),V(n₁)),L(U(m₂),V(n₂)),….L(U(m_k),V(n_k))最大，且满足(n₁＜n₂＜…＜n_k),(m₁＜m₂＜…＜m_k)，这样只需要计算L[((U(1),V(1)),(U(m₁),V(n₁))),L[(U(m₁),V(n₁)),(U(m₂),V(n₂))]…

L[(U(m_k-1),V(m_k-1)),(U(m_k),V(n_k)) }

(K为选取的最大相似点的个数)再把他们相加即可。

\begin{matrix} L [U, V] = Σ_{i = 1}^{k - 1} L [(U (m_{i}), V (n_{i})), (U (m_{i + 1}), V (n_{i + 1}))] \\ L [(U (m_{i}), V (n_{i})), (U (m_{i + 1}), V (n_{i + 1}))] = Σ_{n = n_{i}, m = m_{i}}^{n_{i + 1}, m_{i + 1}} L [U (m), V (n)] \end{matrix}

基于以上方法的实例，所采用的数据都是通过计算机的声卡录音，录制了20个人（10男，10女）在3个不同时间说的同一句话“华南师范大学物电学院”，共60句。采用8KHz采用频率、8bit量化、单声道的PCM录音格式。从每个人的3句话中选择频谱最清晰的一句训练成模板，这样参考模板库中有200个样本，待识别的语音有400个。语音特征参数选择14阶MFCC参数，每帧语音提取14个特征参数，对此参数进行半阶正弦倒谱提升（HRSF）。采用改进的算法进行语音匹配识别，在MATLAB2010a下仿真，与对照方法的实验结果如表1：

表1 改进算法与传统算法实验结果

算法	识别率(%)	平均耗时（ms）
			MFCC+传统DTW	86.3	413.22
HRSF+传统DTW	92.7	436.17
			MFCC+改进DTW	90.5	286.37
HRSF+改进DTW	96.1	309.46

由表1可知，采用HRSF与改进的DTW算法结合，可明显地提高识别率，减少匹配算法的计算量，提高了识别速度，增强了系统的实用性。

Claims

1.基于HRSF及改进DTW算法的孤立词语音识别方法，其特征在于包括如下步骤：

2.根据权利要求1所述的基于HRSF及改进DTW算法的孤立词语音识别方法，其特征在于：步骤（2）所述MFCC参数的计算包括如下步骤：

III、计算P_m的自然对数，得到L₀,L₁,…,L_m-1；

V 、舍去代表直流成分的D₀，取D₀,D₁,…,D_k-1作为MFCC参数。

3.根据权利要求2所述的基于HRSF及改进DTW算法的孤立词语音识别方法，其特征在于：步骤（2）中对提取的MFCC参数进行半阶正弦倒谱提升，提高数值相对较小的中高阶分量值，降低易受噪声干扰的低阶分量值，权重公式的前半部分加0.5保证倒谱分量不完全衰减，后半部分则对高低阶分量进行不同程度的加权，加权MFCC参数C_i=r_iD_i

ri=0.5+0.5sin(πi/H)

4.根据权利要求1所述的基于HRSF及改进DTW算法的孤立词语音识别方法，其特征在于：步骤（3）所述改进的DTW算法具体采用已有DTW算法中U_i（测试模版矢量数据）和V_j（参考模版矢量数据）两个特征矢量相似度作为匹配计算的测度，以相似度最大作为相互匹配点位的标准，并以总相似度最大作为U和V两个序列的动态匹配测度，分两个步骤逐步减少计算量：

（3.1）采用矢量的余弦值的大小进行取舍：

相似度L（i，j）采用矢量间夹角的余弦来加以计算，即

L (i, j) = \frac{U_{i} V_{j}}{| U_{i} | \cdot | V_{j} |}

（3.2）采取分块矩阵以减少计算量：

L[(U(m_k-1),V(m_k-1)),(U(m_k),V(n_k)) }

，其中K为选取的最大相似点的个数，

再把他们相加即得，

\begin{matrix} L [U, V] = Σ_{i = 1}^{k - 1} L [(U (m_{i}), V (n_{i})), (U (m_{i + 1}), V (n_{i + 1}))] \\ L [(U (m_{i}), V (n_{i})), (U (m_{i + 1}), V (n_{i + 1}))] = Σ_{n = n_{i}, m = m_{i}}^{n_{i + 1}, m_{i + 1}} L [U (m), V (n)] \end{matrix}

，

即把原来的N*M矩阵的最大相似度，简化为几个分块矩阵的最大相似度之和。

5.根据权利要求1所述的基于HRSF及改进DTW算法的孤立词语音识别方法，其特征在于：步骤（1）中所述预滤波是抑制输入语音信号各频域分量中频率超出1/2采样频率的所有分量，同时抑制50Hz的电源工频干扰；所述采样和量化是将语音信号变成时间和幅度都离散的数字信号，其中，所述采样的频率大于信号最高频率的两倍，且用采样后的信号重构原始信号，所述量化是将语音信号波形的幅度值离散化，即将整个语音信号的幅度值分成若干个有限的区间，并且把落入同一个区间的幅值都用同一个幅值来表示，这个幅度值即为量化值。

6.根据权利要求1所述的基于HRSF及改进DTW算法的孤立词语音识别方法，其特征在于：步骤（1）中所述预加重的目的是提升高频部分，使信号的频谱变得平坦，用具有6dB/倍频程的提升高频特性的预加重数字滤波器实现；

7.根据权利要求1所述的基于HRSF及改进DTW算法的孤立词语音识别方法，其特征在于：步骤（1）所述短时能量分析具体是：

x_n(m)=w(m)x(n+m),0≤m≤P-1

其中，n=0，1T，2T，…，并且P为帧长，T为帧移长度；

E_{n} = Σ_{m = 0}^{P - 1} x_{n}^{2} (m)

。