CN107039037A

CN107039037A - 一种基于dtw的孤立词语音识别方法

Info

Publication number: CN107039037A
Application number: CN201710264774.9A
Authority: CN
Inventors: 邓立新; 周炳良; 洪民江
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2017-04-21
Filing date: 2017-04-21
Publication date: 2017-08-11

Abstract

本发明公开了一种基于DTW的孤立词语音识别方法，该方法通过截取测试语音特征矢量起始部分长度与库模板矢量进行最优路径匹配，并且匹配后只保留失真度较小的部分库模板矢量继续进行下一次最优路径匹配，如此反复截取待测语音特征矢量的起始不同部分进行匹配与模板矢量保留，直至保留模板矢量唯一。这种算法的实现，在保证识别精度较高的情况下，能大幅减少孤立词语音识别系统的计算开销，有效提高孤立词语音识别系统的识别效率。

Description

一种基于DTW的孤立词语音识别方法

技术领域

本发明属于语音识别技术领域，特别是涉及一种基于DTW的孤立词语音识别方法。

背景技术

语音识别即让机器接收、识别和理解语音信号，能够“听懂”会话中的语音语义并执行人类意图。常用的识别方法包括动态时间规整(DTW)、隐马尔科夫模型(HMM)和人工神经网络(ANN)等。在孤立词语音识别中，动态时间规整是最简单有效的方法。DTW算法基于动态规划(DP)的思想，能够较好地解决孤立词识别时说话速度不均匀的难题。相较于传统的语音线性伸缩匹配的方法，DTW方法有效的提高了孤立词语音识别系统的识别率，因此在特定场合下获得较好的应用。

近年来，为了提高孤立词语音识别系统的效率，使其广泛地适用于市场和各类服务领域，科研人员提出了许多基于DTW的改进型语音识别算法，经典的主要有3种：基于音节个数的高效DTW算法、改变局部路径限制的DTW算法以及增设参考模板阈值的DTW算法。

(1)基于音节个数的高效DTW算法，该算法利用双门限检测法预先检测出语音信号中的音节个数，并将其只与含有相同音节个数的训练模板进行最优匹配，减少了系统的计算开销，提高了系统的识别效率。但该算法对双门限阈值精度要求很高，一旦阈值设置不准确，系统识别效率将大幅降低。

(2)改变局部路径限制的DTW算法，该算法改善了局部路径节点前进的范围，有利于解决测试语音特征矢量与模板矢量均匀变化剧烈的匹配问题，加快了两矢量匹配的过程。但该算法增加了系统局部路径搜索的复杂度和内存消耗，且不利于解决两矢量均匀变化平缓的匹配过程。

(3)增设参考模板阈值的DTW算法，该算法在进行测试语音特征矢量与模板矢量匹配时，一旦计算出部分失真度大于预先增设的模板阈值，将终止对该模板继续运算，转入对其他模板继续匹配运算。由于是中途停止对模板的匹配运算，因此可以节省部分计算开销，提高了系统的识别效率。但该算法必须要为每一个模板预先找到一个合理的阈值，否则将无法减少系统的运算量，甚至大幅度降低系统的识别率。

发明内容

本发明的目的在于解决上述现有技术的不足，提出一种基于DTW的孤立词语音识别方法，该方法通过提取测试语音信号的特征参数并截取测试语音特征矢量起始部分长度与库模板矢量进行最优路径匹配，并且匹配后只保留失真度较小的部分库模板矢量继续进行下一次最优路径匹配，如此反复截取测试语音特征矢量的起始不同部分进行匹配与模板矢量保留，直至保留模板矢量唯一。

本发明的目的可以通过以下技术方法实现：

该方法基于传统的语音训练模式，改进了语音识别阶段，先提取出测试语音信号的特征参数并截取测试语音特征矢量的起始部分长度，并从起点开始搜索它们与各个模板矢量的最优匹配路径，采用松弛端点检测的方法找到最优匹配路径的止点并求出各自的最小累积距离D，即找出各模板矢量与截取语音特征矢量匹配度最大的起始部分长度并求出相应的D，然后选择D相对较小的部分模板保留下来，排除掉D相对较大的模板。如此循环采用这种方法对剩余的模板进行部分长度匹配和排除，直至剩余模板数量唯一。

有益效果

本发明仅截取部分测试语音特征矢量与所有模板进行最优路径匹配，便排除了大量的不可能模板。相较于传统的利用全部语音特征矢量与模板进行最优路径匹配，前者在保证了识别精度基本不变的情况下，大幅度减少了识别系统的运算量，有效提高了系统的识别效率。同时对比于上述第三种改进算法，本发明避免了预先设置模板阈值的问题，减少了系统的额外工作量。

附图说明

图1是本发明的语音识别流程图。

图2是本发明语音特征矢量起始部分截取方式示意图。

图3是本发明最优匹配路径的全局限制示意图。

图4是本发明最优匹配路径的局部限制示意图。

具体实施方式

下面结合附图对本发明创造作进一步的详细说明。

如图1所示，本发明是一种基于DTW孤立词语音识别方法的研究。其基于传统的语音训练模式，针对语音识别阶段加以改进，包括3个部分：语音信号预处理、特征参数提取和语音识别，下面将具体描述改进的识别阶段内容。

本发明识别阶段具体实施步骤包括如下：

1.语音信号预处理

语音信号预处理目的是分析处理输入的语音信号，并将其转化为语音预处理信号,其主要包括预加重、分帧加窗和端点检测3个部分内容。

(1)预加重

由于人体发音系统的抑制(口唇辐射和声带影响等)，导致语音信号的频谱呈升余弦滚降衰落，高频分量的值通常远小于低频分量，为了增加语音信号高频分辨率和突出高频部分的共振峰，我们对语音信号预加重。将输入的语音测试信号通过一个高通滤波器，系统函数为：H(z)＝1-uz^-1，其中u为预加重系数，介于0.9-1之间，一般u＝0.93。

(2)分帧加窗

由于语音信号是慢时变信号，具有短时平稳性，可以认为语音信号在一段时间(一般10ms-30ms)内参数模型近似不变。这样，可以把语音信号分成一些短时段(分帧)来分析，一般1秒的帧数约为33-100帧。同时为了使相邻帧之间平滑过渡，保持连续性，因此会让相邻帧之间有一段重叠区域，这个重叠区域称之为帧移，通常帧移与帧长的比值取1/3-1/2之间。最后将每一帧信号乘以汉明窗，这样可以确保每一帧信号具有平滑性，反应出每一帧信号的包络和能量变化。

其中汉明窗表达式为：

式中a为汉明窗系数，通常取值0.46。

(3)端点检测

端点检测主要目的是从已分帧的语音信号中准确的检测语音信号的起止帧，排除掉无声段干扰，从而提高语音识别的精度。本发明中使用语音信号的2个时域特征区别语音段和无声段，分别为：短时平均能量和过零率。其中短时平均能量的定义表示为：其中x(n)为输入语音信号，w(n) 为汉明窗函数；过零率的定义表达式为：

其中x(n)为输入语音信号。由于当帧信号的短时平均能量较大，过零率较小或短时平均能量较小，过零率较大时，可以认为该帧信号为语音帧，否则为无声段信号。因此本发明中预先设置短时平均能量和过零率阈值，并将语音帧信号的短时平均能量和过零率求出与阈值作比较，从而判断该帧是否为语音段。

2.特征参数提取

根据人耳的听觉机理，人耳对不同频率的声波有不同的听觉敏感度。对于人耳而言，一般低音容易掩蔽高音，而高音掩蔽低音较困难，在低频处的声音掩蔽的临界带宽较高频要小。为了符合人耳的听觉特性，本发明中采用梅尔倒谱系数 (MFCC)来描述人耳的非线性特性。下面具体描述MFCC的提取步骤：

(1)对语音预处理信号的各帧信号进行FFT得到各帧的频谱，并对语音信号的频谱取模平方得到语音信号的功率谱。

(2)将能量谱通过一组Mel三角形滤波器组，其中滤波器的个数一般取22-26，滤波器组的中心频率按Mel频率均匀排列，每个滤波器的底角为相邻滤波器的中心频率。Mel频率与频率的近似关系式：其中f 为频率。

(3)计算每个滤波器组输出的对数能量，通过离散余弦变换(DCT)得到MFCC 特征矢量。

3.语音识别

(1)将语音训练模板存入内存，总数记为c，同时进行语音识别预设工作：设置测试语音特征矢量的截取方式，包括截取次数m和各次截取长度a₁,a₂… a_m(百分比)，其中每次截取时都是从起点开始，且截取比例a₁,a₂…a_m逐次增加如图2所示；设置各次最优路径匹配后训练模板的保留个数 b₁,b₂…b_m-1(百分比且最后一次取一个模板，b_m可忽略)，其中保留比例 b₁,b₂…b_m-1逐次减小。

(2)利用测试语音特征矢量与训练模板矢量最优匹配路径的全局限制条件，排除部分训练模板，保留满足条件的训练模板。条件公式如下：其中N为测试语音特征矢量长度，M为训练模板矢量长度

(3)设某一保留训练模板矢量与测试语音特征矢量的帧匹配失真度矩阵为d 和累积失真度矩阵为D＝Realmax，其中d和D的大小均为N*M且横向表示测试语音帧，纵向表示训练模板帧。计算训练模板矢量第一帧与测试语音特征矢量第一帧的帧失真度(欧式距离)，并保存到d(1,1)和D(1,1)中。同理，计算所有保留训练模板矢量第一帧与测试语音特征矢量第一帧的帧失真度(欧式距离)，并分别保存到各自的帧失真度矩阵与累积失真度矩阵相同的位置。

(4)搜索出训练模板矢量中与测试语音特征矢量第s-f帧相交的且在图3平行四边形之内的训练模板矢量帧，其中(四舍五入取整)， n为截取迭代次数，初值n＝1且a₀＝0。

(5)计算搜索到的训练模板矢量帧与测试语音s～f帧的帧失真度(欧式距离)，并利用如下公式递推帧之间的累积失真度，分别保存到d与D相应的位置，其中累积失真度公式满足2步局部路径限制。累积失真度公式：

D(x,y)＝d(T(x),R(y))+min{D(x-1,y),D(x-1,y-1),D(x-1,y-2)}，其中T(x) 为测试语音特征矢量第x帧，R(y)为训练模板矢量第y帧。

(6)搜索累积失真度矩阵f列中最小的值，记为该训练模板矢量与测试语音特征矢量部分匹配失真度Dmin。

(7)利用步骤4-6，计算并搜索出测试语音特征矢量与所有保留训练模板矢量的部分匹配失真度Dmin。将所有训练模板矢量按照得到的Dmin进行从小到大排序，保留排序前c*b_n(四舍五入取整)个模板。

(8)判决c*bn＞1？

若是，则转入步骤9执行；

若否，则转入步骤10执行。

(9)步骤9：检测n<m？

若是，则截取迭代次数n＝n+1，转入步骤4执行；

若否，则转入步骤10执行。

(10)将步骤7中已排序的训练模板矢量中的第一个训练模板矢量表示的语音判决为测试语音，结束。

本发明不局限于以上实例，不以任何方式限制本发明，凡在不背离本发明原则的范围内，任何根据以上实例修改、等同替换所得到的技术方案，均应包含在本发明的保护权利范围内。

Claims

1.一种基于DTW的孤立词语音识别方法，基于传统的语音训练模式，改进了语音识别阶段，其特征在于，先截取测试语音特征矢量的起始部分长度，并从起点开始搜索它们与各个模板矢量的最优匹配路径，采用松弛端点检测的方法找到最优匹配路径的止点并求出各自的最小累积距离D，即找出各模板矢量与截取语音特征矢量匹配度最大的起始部分长度并求出相应的D，然后选择D相对较小的部分模板保留下来，排除掉D相对较大的模板；如此循环采用这种方法对剩余的模板进行部分长度匹配和排除，直至剩余模板数量唯一。

2.如权要求1所述的方法，其特征在于，识别阶段具体步骤如下：

步骤1：将通过训练得到语音训练模板存入内存，总数记为c，同时进行识别阶段预设工作，设置测试语音特征矢量的截取方式，包括截取次数m和各次截取长度a₁,a₂…a_m即百分比；设置各次最优路径匹配后训练模板的保留个数b₁,b₂…b_m-1，百分比且最后一次取一个模板，b_m可忽略；

步骤2：利用测试语音特征矢量与训练模板矢量最优匹配路径的全局限制条件，排除部分训练模板，保留满足条件的训练模板；条件公式如下：

其中N为测试语音特征矢量长度，M为训练模板矢量长度；

步骤3：记保存测试语音特征矢量与某一保留训练模板矢量帧匹配失真度矩阵为d和累积失真度矩阵为D＝Realmax，其中d和D的大小均为N*M且横向表示测试语音帧，纵向表示训练模板帧。计算测试语音特征矢量第一帧与上述训练模板矢量第一帧的帧失真度，并保存到d(1,1)和D(1,1)中；同理，计算测试语音特征矢量第一帧与所有保留训练模板矢量第一帧的帧失真度，并分别保存到各自的帧失真度矩阵d与累积失真度矩阵D相同的位置；

步骤4：满足图4全局路径限制，搜索出训练模板矢量中与测试语音特征矢量第s-f帧相交的帧，其中四舍五入取整，n为截取迭代次数，初值n＝1且a₀＝0；

步骤5：计算搜索到的相交帧的帧失真度，并利用如下公式递推相交帧的累积失真度，分别保存到d与D相应的位置，其中累积失真度公式满足图5的局部路径限制方式；累积失真度公式：

D(x,y)＝d(T(x),R(y))+min{D(x-1,y),D(x-1,y-1),D(x-1,y-2)}

其中T(x)为测试语音特征矢量第x帧，R(y)为训练模板矢量第y帧；

步骤6：搜索累积失真度矩阵f列中最小的值，记为该训练模板矢量与测试语音特征矢量部分匹配失真度Dmin；

步骤7：利用步骤4～6，计算并搜索出测试语音特征矢量与所有保留训练模板矢量的部分匹配失真度Dmin。将所有训练模板矢量按照得到的Dmin进行从小到大排序，保留排序前c*b_n个模板，，四舍五入取整；

步骤8:判决c*b_n＞1？

若是，则转入步骤9执行；

若否，则转入步骤10执行；

步骤9：检测n<m？

若是，则截取迭代次数n＝n+1，转入步骤4执行；

若否，则转入步骤10执行；

步骤10：将步骤7中已排序的训练模板矢量中的第一个训练模板矢量表示的语音判决为测试语音，结束。