CN101114449A

CN101114449A - 非特定人孤立词的模型训练方法、识别系统及识别方法

Info

Publication number: CN101114449A
Application number: CNA2006101078441A
Authority: CN
Inventors: 周金星
Original assignee: DALIAN SANXI INTELLIGENT TECHNOLOGY Co Ltd
Current assignee: DALIAN SANXI INTELLIGENT TECHNOLOGY Co Ltd
Priority date: 2006-07-26
Filing date: 2006-07-26
Publication date: 2008-01-30

Abstract

本发明公开了一种非特定人孤立词的模型训练方法、识别系统及识别方法，其中，该非特定人孤立词的模型训练方法包括使用动态时间规整算法获取非特定人孤立词的多个训练模型的步骤，还包括：中心训练模型获取步骤，将非特定人孤立词的多个训练模型合并为非特定人孤立词的中心训练模型。本发明通过将一个非特定人孤立词的多个训练模型合并到一个中心训练模型，降低了匹配操作时的计算量。同时，本发明还在识别处理时，将识别结果得分小于拒识阈值的直接识别为集外词，有效地提高了对集外词的拒识能力。另外，通过限定搜索区域范围，放松匹配起点，提高了系统的识别率，减小了计算量。

Description

非特定人孤立词的模型训练方法、识别系统及识别方法

技术领域

本发明涉及语音识别技术，特别是语音识别技术中的非特定人孤立词的识别。

背景技术

现有的非特定人孤立词识别系统如图1所示，包括：

实时语音接收模块，用于将外界的声音信号以单个词的形式采集；

语音特征值提取模块，用于从采集到的原始声音数据中提取出有代表性的特征值数据；

识别模块，用于根据模型数据对特征值数据进行正确的识别，并输出识别结果；

识别结果处理模块，用于根据识别结果执行实现定义好的处理程序。

目前，对于非特定人孤立词模型的训练方法中包括基于DTW(DynamicTime Warping，动态时间规整)算法回溯匹配路径得到平均模板，然后结合K均值算法(MKM)，它是矢量量化中LBG算法的变形，其实现流程如图2所示。

然而，由图2所示的非特定人孤立词模型的训练方法训练出的每个孤立词将会有多个模型，这样在识别时就需要与每个模型都进行一次匹配才能得到识别结果，因此计算量相当大。

同时，现有的非特定人孤立词语音识别系统对没有训练过的集外词的拒识能力比较差。

发明内容

本发明的目的在于提供一种非特定人孤立词的模型训练方法、识别系统及识别方法，提高识别率，同时有效地降低现有训练方法计算量大、识别率低的问题。

为了实现上述目的，本发明提供了一种非特定人孤立词的模型训练方法，包括使用动态时间规整算法获取非特定人孤立词的多个训练模型的步骤，还包括：

中心训练模型获取步骤，将非特定人孤立词的多个训练模型合并为非特定人孤立词的中心训练模型。

上述的非特定人孤立词的模型训练方法，其中，所述中心训练模型获取步骤具体包括：

步骤A1，使用动态时间规整算法对非特定人孤立词的多个训练模型进行两两匹配，并计算每个训练模型与所有训练模型的相似度；

步骤A2，计算每个训练模型对应的一组相似度的平均值；

步骤A3，将其他的训练模型利用动态时间规整算法回溯归并到最小相似度平均值所对应的训练模型；

步骤A4，对归并后的训练模型求平均后得到非特定人孤立词对应的中心训练模型。

为了更好的实现上述目的，本发明还提供了一种非特定人孤立词的识别方法，包括实时语音接收步骤和语音特征值提取步骤，还包括：

识别步骤，根据非特定人孤立词的中心训练模型和特征值数据进行识别处理，获取非特定人孤立词与中心训练模型的相似度；

识别结果选择步骤，将最小的相似度对应的中心训练模型作为最终识别结果输出；

所述非特定人孤立词的中心训练模型由利用动态时间规整算法获取的非特定人孤立词的多个训练模型合并得到。

上述的非特定人孤立词的识别方法，其中，所述中心训练模型具体根据以下方法获取：

步骤A2，计算每个训练模型对应的一组相似度的平均值；

上述的非特定人孤立词的识别方法，其中，识别步骤和识别结果选择步骤之间还包括：

识别结果筛选步骤，判断识别结果得分是否大于或等于拒识阈值，如果是进入识别结果选择步骤，否则识别为集外词。

上述的非特定人孤立词的识别方法，其中，实时语音接收步骤中根据过零率和能量判断是否有声音输入。

上述的非特定人孤立词的识别方法，其中，所述识别步骤中，搜索区域为距离阵与距离阵的对角线向两边平移一定距离后所形成的区域的重叠部分。

上述的非特定人孤立词的识别方法，其中，所述识别步骤中，匹配路径的起始点位于搜索区域的任意一条边。

上述的非特定人孤立词的识别方法，其中，所述识别步骤中，选择帧长在待测试语音帧的帧长的一半和两倍之间的中心训练模型进行识别处理。

上述的非特定人孤立词的识别方法，其中，识别结果选择步骤之后还包括：

识别结果处理步骤，根据最终识别结果执行相应处理程序。

为了更好的实现上述目的，本发明还提供了一种利用中心训练模型的非特定人孤立词识别系统，包括实时语音接收模块和语音特征值提取模块，还包括：

识别模块，用于结合非特定人孤立词的中心训练模型和特征值数据进行识别处理，获取非特定人孤立词与中心训练模型的相似度，并将最小的相似度对应的中心训练模型作为最终识别结果输出。

上述的非特定人孤立词的识别系统，其中，所述识别模块还用于将识别结果得分小于拒识阈值的语音数据识别为集外词。

上述的非特定人孤立词的识别系统，其中，

所述实时语音接收模块用于将外界的声音以单个词的形式采集；

所述语音特征值提取模块用于从采集到的原始声音数据中获取特征值数据。

本发明通过将利用现有DTW算法得到的一个非特定人孤立词的多个训练模型合并到一个中心训练模型，这样在模型匹配步骤中根据输入声音数据的特征值与所有孤立词的训练模型进行匹配时，每个孤立词只需对一个中心训练模型进行匹配，大大减少了匹配操作的次数，降低了匹配操作时的计算量。同时，本发明还在识别处理时，将大于拒识阈值的识别结果排除掉，有效地提高了对集外词的拒识能力。另外，本发明限定了搜索区域的范围，并放松匹配起点，提高了系统的识别率，减小了计算量。

附图说明

图1为非特定人孤立词识别系统的结构示意图；

图2为非特定人孤立词模型训练的流程示意图；

图3为本发明的非特定人孤立词模型训练方法的流程示意图；

图4为本发明的非特定人孤立词模型训练方法的示意图；

图5为本发明的模型匹配识别的图解示意图；

图6为本发明的利用的中心训练模型计算识别结果得分的示意图；

图7为外界声音数据的采集的流程示意图；

图8为本发明的限制的识别搜索区域的示意图。

具体实施方式

本发明对于非特定人孤立词利用基于DTW算法得到的多个训练模型进行合并得到孤立词对应的中心训练模型，使每个孤立词最终只有一个中心训练模型，这样在模型匹配步骤中根据输入声音数据的特征值与所有孤立词的训练模型进行匹配时，每个孤立词只需对一个中心训练模型进行匹配，大大减少了匹配操作的次数，降低了匹配操作时的计算量。

如图3所示，本发明的非特定人孤立词模型训练方法具体包括如下步骤：

步骤31，使用DTW算法获取一个非特定人孤立词的多个训练模型；

步骤32，使用DTW算法对非特定人孤立词的多个训练模型进行两两匹配；

步骤33，计算两两匹配后每个训练模型的相似度的平均值；

步骤34，确定最小的相似度平均值对应的训练模型；

步骤35，将其他的训练模型利用DTW算法回溯归并到最小平均值对应的训练模型；

步骤36，对归并后的训练模型求平均后得到非特定人孤立词对应的中心训练模型。

下面结合图4对本发明的训练方法进行进一步详细的描述。

如图4所示，假设一个非特定人孤立词X根据现有的DTW算法训练后有n个训练模型，分别为M1、M2、...、Mn，则本发明的非特定人孤立词模型训练方法中，首先对孤立词的多个训练模型进行两两匹配，具体实现方法如下：

将M1分别与n个训练模型使用DTW算法进行匹配，获取M1对应的n个相似度；

将M2分别与n个训练模型使用DTW算法进行匹配，获取M2对应的n个相似度；

将Mn分别与n个训练模型使用DTW算法进行匹配，获取Mn对应的n个相似度。

在获得了n个训练模型M1、M2、...、Mn对应的n个相似度后，分别对M1、M2、...、Mn对应的相似度计算平均值，获得M1、M2、...、Mn对应的相似度平均值S1_Average、S2_Average、...、Sn_Average。

然后确定n个相似度平均值S1_Average、S2_Average、...、Sn_Average中最小的相似度平均值所对应的非特定人孤立词训练模型。假设S1_Average在S1_Average、S2_Average、...、Sn_Average中最小，则选择M2为对应的非特定人孤立词训练模型。

在确定了最小相似度平均值所对应的非特定人孤立词训练模型后，将其他模型利用DTW回溯方法归并到这个训练模型，并对回溯归并后的训练模型求平均后得到非特定人孤立词对应的中心训练模型。

本发明的非特定人孤立词识别方法中，识别模块利用非特定人孤立词对应的中心训练模型对特征值数据进行识别，这样减少了匹配的次数。

如图5所示，本发明的非特定人孤立词语音识别系统利用非特定人孤立词的中心训练模型来进行模型匹配识别，则每个非特定人孤立词(你好)和每个非特定人孤立词(早上好、再见、...、你好)的中心训练模型都会有一个匹配结果，此时最相近的结果应该是中心训练模型“你好”，其相似度最低，为10。

在利用本发明的非特定人孤立词模型训练方法获取非特定人孤立词的中心训练模型后，本发明进一步对每个非特定人孤立词的中心训练模型设定拒识阈值，解决现有的非特定人孤立词语音识别系统对集外词的拒识能力比较差的问题，只有在识别匹配结果的得分大于或等于预设的拒识阈值时才将识别匹配结果放入到识别结果队列，最后从识别结果队列中选择相似度最小的识别结果作为正确的识别结果，这样就有效提高了对集外词的拒识能力。

下面结合附图对拒识阈值的获取进行详细的说明。

由于非特定人孤立词和所有的中心训练模型都有一个匹配的结果，如图5所示，“你好”与图5中的中心训练模型的相似度分别为100、110、120、150、......，这些相似度之间存在一个比例关系为10∶11∶12∶15∶......，以第一个为准进行规一化后，结果为1∶1.1∶1.2∶1.5......。

因为训练过的词的个数和发音都相对固定，所以每个训练过的词的这一组比例参数都是稳定在一个范围之内的；使用这个规律就可以为每一个中心训练模型设定一组比例参数，通过对这组参数进行评分，然后设定一个最低分数阈值即可得到一个拒绝识别和接受识别的效果。

如图6所示，首先使用第i个中心训练模型和除第i个以外的所有中心训练模型进行匹配，匹配后得到对应的相似度Sx(x＝1，2，3.....n；x！＝i)，进而得到这些相似度的比值为：S1∶S2∶S3∶......∶Sn，进行规一化处理后得到比值为：1∶S2/S1∶S3/S1∶......∶Sn/S1。

在此，为方便描述，设Sn/S1＝Kx(x＝2，3.....n；x！＝i)，则原比例参数变为：1∶K2∶K3∶......∶Kn。

其他的每个中心训练模型都可以通过这种方法设定一组比例参数。

下面对如何根据比例参数获取识别操作的得分进行说明。

设一次识别操作后得到的一组相似度的比例参数为：1∶M2∶M3∶......∶Mn，然后获取最小的相似度对应的中心训练模型的原比例参数1∶K2∶K3∶......∶Kn，其中：Knmax＝max(Kn，Mn)，Mnminn＝min(Kn，Mn)，则得分为：

Score＝1×(M2min/K2max)×(M3min/K3max)×...×(Mnmin/Knmax)

如设定Score≥0.8(0.8即为拒识阈值)时系统接受本次识别结果，则当Score＜0.8时系统将会把这次接受到的语音数据识别为一个没有训练过的词，从而避免错误的识别为系统中的某个词。

这样，非特定人孤立词语音识别系统在获取到识别结果(即一组相似度)后根据拒识阈值和得分对识别结果进行筛选，在识别结果得分小于拒识阈值的情况下，将接受到的语音数据识别为一个没有训练过的词，有效地提高了对集外词的拒识能力。

下面结合整个非特定人孤立词识别系统对本发明进行更进一步的说明。

本发明的非特定人孤立词识别系统包括：

实时语音接收模块，用于将外界的声音以单个词的形式采集；

识别模块，用于结合非特定人孤立词的中心训练模型和拒识阈值对特征值数据进行正确的识别，并输出表示识别结果的标号；

识别结果处理模块，根据识别结果的标号执行实现定义好的处理程序。

实时语音接收模块主要负责将外界的声音数据以一单个词的形式采集进来，具体实现的方法是通过声音的过零率和能量进行检测，当检测到有声音数据时便从声音开始的时刻起将一个预定时间长短(如2S)的外界的声音数据采集并发送给语音特征值提取模块。

过零率和能量是语音信号处理最基本的参数，在各种语音信号处理中都会用到，计算这些参数时一般使用的是一个窗函数。当窗的起点n＝0时，语音信号的短时能量用E表示为：

E = Σ_{n = 0}^{N - 1} s_{n}^{2}

过零率用Z表示为：

Z = \frac{1}{2} Σ_{n = 0}^{N - 1} | sgn [n] - sgn [n - 1] |

其中，sng[]表示取符号，

sgn [x] = \{\begin{matrix} - 1, x < 0 \\ 1, x > 0 \end{matrix}

在比较安静的环境下面采用声音的能量即可比较准确的确定出声音的起点，本系统同时结合了过零率来确定声音的起点，提高了系统判断的准确度。

外界声音数据的采集具体如图7所示，具体包括如下流程：

步骤71，系统启动后由实时语音接收模块扫描声音数据缓冲区，并截取一段数据；

步骤72，计算该段数据的能量和过零率；

步骤73，根据能量和过零率判断是否为外界声音输入，如果是进入步骤74，否则返回步骤71继续检测是否有声音数据输入；

步骤74，保存预定长度(如2S)的声音数据。

语音特征值提取模块，用于从采集到的原始声音数据中提取出有代表性的特征值数据，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，为识别和训练做准备，包括如下步骤：

预加重步骤，获取实时语音接收模块的声音信号后执行预加重操作，消除发声过程中声带和嘴唇的效应，来补偿声音信号受到发音系统所压抑的高频部分；在此，预加重是将语音信号采用高通滤波器，结合预加重系数来处理，其中，预加重系数通常在0.9到1之间。

分帧步骤，将N个采样点集合成一个观测单位，成为一帧(Frame)。通常N的值是256或512，蕴涵的时间约为20～30ms左右，当然，也可以更少或更多。为了相邻两帧间具有相关性，在处理过程中会让相邻帧之间有一段重叠区域，此重叠区域包含了M个采样点，通常的M的值是N的1/2或1/3，也就是每次位移一帧的二分之一或三分之一后再取下一帧，这样可以避免帧与帧之间的特性变化太大。

加窗步骤，本发明中将每一帧乘上海明窗，以增加一帧左端和右端的连续性。

快速傅立叶变换步骤，将加窗后的帧经过FFT(Fast Fourier Transform，快速傅立叶变换)求出每帧的频谱参数。由于语音信号在时域上的变化快速而不稳定，很难看出信号的特性，所以通常都将它转换成频域上的能量分布来观察。

滤波步骤，将频谱参数乘以一组20个(当然可以更多或更少)三角带通滤波器，求得每一个滤波器输出的对数能量(Log Energy)，在此，三角带通滤波器在Mel频率上是均匀分布的，Mel频率和正常频率转换关系如下：

Mel(f)＝2595*log10(1+f/700)

余弦变换步骤，将对数能量进行余弦变换后获得声音特征值数据，余弦变换如下所示：

C_{m} = Σ_{k = 1}^{N} E_{k} \cos (m (k - \frac{1}{2}) \frac{π}{N}), m = 1,2 . . . . L

其中，N为滤波器的个数，L为声音特征值的维数。

在获取声音特征值数据以后即可由识别模块结合非特定人孤立词的中心训练模型和拒识阈值对特征值数据进行识别处理，下面进行详细说明。

原始的DTW算法是将待识别的语音帧进行弯折，在弯折的计算过程中会产生一个M行N列的距离阵，然后再通过局部最优的DP原理，得到一个全局的最小值，作为待识别语音和训练模型的之间表示相似程度的一个距离值。

然而，有可能匹配的最优路径与距离阵的对角线产生了很大的偏移，弯折的程度很大，同时没有对识别搜索区域进行限制，容易将一个噪声信号与某个模型错误的匹配出一个很小的距离，从而得到一个错误的识别结果，这样必然影响系统正确识别率，同时计算量也比较大。

因此本发明采用了限制识别搜索区域，放松匹配起点的方法进行处理。

如图8所示，本发明进行识别处理时，在0.5≤M/N≤2时，搜索区域为距离阵与距离阵的对角线向两边平移一定距离后所形成的区域的重叠部分，其中，M为模型的帧长，而N为待测试语音帧的帧长；在搜索区域设定好之后，将中心训练模型的数据帧和待识别的声音特征值数据分别顺次存放到预定位置，然后使用DTW算法计算出搜索区域的数据值即可。

限制识别搜索区域在减小计算量的同时，能够放大测试语音与模型不匹配时的距离，减小测试语音与模型匹配时的距离，所以这样做能够有效的提高识别率。

M/N＞2或M/N＜0.5时，认为待识别的语音帧不能和模型匹配，所以不和这个模型进行匹配。

同时，识别处理的过程中，如果不放松起始匹配点，进行匹配处理时，路径的起点和终点是固定的。本发明采用放松起始匹配点，匹配路径的起始点可以在搜索区域的任意一条边上，这样可产生多种可能的匹配路径，可对声音起始点检测不准确的情况起到一定的矫正作用，从而提高系统的识别率。

本发明中的识别处理具体包括如下步骤：

训练模型选择步骤，选择待识别语音的需要匹配的中心训练模型，选择的标准就是0.5≤M/N≤2时，其中，M为中心训练模型的帧长，而N为待测试语音帧的帧长；

搜索区域限定步骤，将距离阵的对角线向两边平移一定距离后所形成的区域与距离阵的重叠部分设定为搜索区域；

匹配结果计算步骤，利用DTW算法在搜索区域内计算与非特定人孤立词的中心训练模型的相似度；

识别结果得分计算步骤，根据匹配结果计算步骤得到的相似度获取相似度的比例参数1∶M2∶M3∶......∶Mn，并结合原比例参数1∶K2∶K3∶......∶Kn计算识别结果得分Score＝1×(M2min/K2max)×(M3min/K3max)×...×(Mnmin/Knmax)；

最终识别结果获取步骤，用于在识别结果得分大于或等于拒识阈值时，从匹配结果中选择相似度最小的一个作为最终识别结果。

识别结果处理模块主要是根据识别模块获取的最终识别结果给出相应的输出，如播放回答文、显示识别结果等，如在手机中，可以是对姓名识别后给出相应的电话号码或直接拨打相应电话号码等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种非特定人孤立词的模型训练方法，包括使用动态时间规整算法获取非特定人孤立词的多个训练模型的步骤，其特征在于，还包括：

2.根据权利要求1所述的非特定人孤立词的模型训练方法，其特征在于，所述中心训练模型获取步骤具体包括：

步骤A2，计算每个训练模型对应的一组相似度的平均值；

3.一种非特定人孤立词的识别方法，包括实时语音接收步骤和语音特征值提取步骤，其特征在于，还包括：

4.根据权利要求3所述的非特定人孤立词的识别方法，其特征在于，所述中心训练模型具体根据以下方法获取：

步骤A2，计算每个训练模型对应的一组相似度的平均值；

5.根据权利要求3或4所述的非特定人孤立词的识别方法，其特征在于，识别步骤和识别结果选择步骤之间还包括：

6.根据权利要求3或4所述的非特定人孤立词的识别方法，其特征在于，实时语音接收步骤中根据过零率和能量判断是否有声音输入。

7.根据权利要求3或4所述的非特定人孤立词的识别方法，其特征在于，所述识别步骤中，搜索区域为距离阵与距离阵的对角线向两边平移一定距离后所形成的区域的重叠部分。

8.根据权利要求7所述的非特定人孤立词的识别方法，其特征在于，所述识别步骤中，匹配路径的起始点位于搜索区域的任意一条边。

9.根据权利要求3或4所述的非特定人孤立词的识别方法，其特征在于，所述识别步骤中，选择帧长在待测试语音帧的帧长的一半和两倍之间的中心训练模型进行识别处理。

10.根据权利要求3或4所述的非特定人孤立词的识别方法，其特征在于，识别结果选择步骤之后还包括：

识别结果处理步骤，根据最终识别结果执行相应处理程序。

11.利用权利要求1获取的中心训练模型的非特定人孤立词识别系统，包括实时语音接收模块和语音特征值提取模块，其特征在于，还包括：

12.根据权利要求11所述的非特定人孤立词的识别系统，其特征在于，所述识别模块还用于将识别结果得分小于拒识阈值的语音数据识别为集外词。

13.根据权利要求11或12所述的非特定人孤立词的识别系统，其特征在于：