CN103903612A

CN103903612A - 一种实时语音识别数字的方法

Info

Publication number: CN103903612A
Application number: CN201410116759.6A
Authority: CN
Inventors: 汪晓妍; 柴文润; 陈胜勇; 管秋; 郑焕彰; 李军伟
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2014-03-26
Filing date: 2014-03-26
Publication date: 2014-07-02
Anticipated expiration: 2034-03-26
Also published as: CN103903612B

Abstract

本发明公开了一种实时语音识别数字的方法，用于手机终端中通过语音识别数字从而进行群发短信或者语音拨号，通过自适应采样频率对输入的语音进行采样，并对采样获得的语音信号进行预处理；对预处理后的语音信号进行端点检测，提取出单个数字语音信号；提取每个数字语音信号的MFCC特征；采用实时动态时间规整DTW算法将每个数字语音信号的MFCC特征与通过训练获得的MFCC参数模板进行匹配识别。本发明方法适用于复杂不联网的实际环境，能够快速进行语音识别。

Description

一种实时语音识别数字的方法

技术领域

本发明属于电话通信技术领域，尤其涉及应用在手机终端中的一种实时语音识别数字的方法。

背景技术

随着计算机技术的发展，语音识别技术越来越受到重视，应用的领域很广阔，包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等，可见语音识别的发展将改变人们现在的生活方式，具有广阔的前景。

目前语音识别技术的应用由于识别的准确性等原因，还具有很大的局限。虽然市场上已经有语音识别的手机终端，例如苹果的iPhone系列，安装有成熟的语音识别软件产品Siri，提供了丰富的语音应用。其他公司的手机产品也纷纷推出了基于语音识别的应用，但是大多数是针对普通消费者，只提供基于网络的语音识别，同时语音识别的准确性仍然差强人意，因此一直以来未得到广泛的使用。

市场上典型的三个开发语言的工具有Google语音识别的API、微软的Microsoft Speech SDK，以及科大的iFLY Mobile Speech Platform。但是Google和科大的产品的识别引擎都位于服务器端，需要联网进行语音识别，微软的虽然语音识别引擎位于本地，但是其语音识别引擎小，识别精准度较低。因此在实际的应用中，特别是对于噪声环境、实时性要求较高的场合，环境噪声大，语音识别的困难度加大，识别效率降低，还无法满足应用需求。例如针对老年人用的手机终端，老年人触碰按键拨号十分不便，而采用语音识别则能较好的进行操作；再如快递员，快递员在送货时，基本都是靠打电话或者手动去发短信通知收货人取件，效率比较低，但是其工作环境噪声比较大，且不具有联网条件。现有的具有语音识别功能的手机终端只是针对普通消费者设计，对于这种类似的应用，一是需要联网，二是不满足实时性需要，三是成本较高，因此尚不能满足目前的应用。

发明内容

本发明的目的是针对上述问题，提出一种语音拨号方法及终端，针对连续数字进行高效的语音识别和拨号，以满足复杂环境下，不需要联网，又能快速语音识别的简单应用。

本发明的总体思路是提出一种实时性很强，能正常工作在噪声环境下，识别准确且不需要联网识别的语音拨号方法及终端。为了实现上述发明目的，本发明技术方案如下：

一种实时语音识别数字的方法，用于手机终端中通过语音识别数字从而进行群发短信或者语音拨号，包括以下步骤：

通过自适应采样频率对输入的语音进行采样，并对采样获得的语音信号进行预处理；

对预处理后的语音信号进行端点检测，提取出单个数字语音信号；

提取每个数字语音信号的MFCC特征；

采用实时动态时间规整DTW算法将每个数字语音信号的MFCC特征与通过训练获得的MFCC参数模板进行匹配识别。

其中，所述预处理包括以下步骤：

对采样获得语音信号进行调幅；

对调幅后的语音信号通过加窗处理滤除高频成分；

对滤除高频成分后的语音信号采用频域最小均方LMS算法去除噪声。

进一步地，所述加窗处理采用的是汉明窗。

本发明所述采样频率通过自适应方法获得，所述自适应方法包括步骤：

1）、检测输入的当前段语音信号的第一个数字开始时刻到最后一个数字结束的时刻的总时间T_total；

2）、根据每一个单独的数字语音信号从端点检测的开始到端点检测的结束时间，计算出数字语音信号的总和时间T_main，T_main=t₁+₂+...t_n，t₁,t₂,...t_n为当前段语音信号中每个数字语音信号的持续时间；

3）、根据下面公式计算得到下一段语音信号的采样频率Fre：

\{\begin{matrix} Fre = F * (λ + α), λ &Element; (0.7,1) \\ Fre = F, λ &Element; (0,0.7] \end{matrix}

其中，

所以λ一定是小于1的数，α是一个常数，根据经验值该常数α=0.35，F为当前段语音信号的采样频率。

进一步地，所述当前段语音信号的采样频率F初始为32KHz。

进一步地，所述采用实时动态时间规整DTW算法将每个数字语音信号的MFCC特征与通过训练获得的MFCC参数模板进行匹配识别，具体包括步骤：

构造由二元数组对{TestNum,RefNum}组成的表Table[]，其中二元数组TestNum和RefNum表示在进行相似度计算和矢量距离累加时用到的数字语音信号的帧序号和参考模板的帧序号；

按照表Table[]中的二元数组对依次计算对应帧的矢量距离；

将计算获得的矢量距离进行累加，根据累加结果进行模板匹配。

进一步地，所述根据累加结果进行模板匹配，是选取矢量距离累加值最小的数字语音信号作为语音识别结果输出。

本发明所述通过训练获得的MFCC参数模板是针对数字0～9通过训练获得的MFCC参数模板。

本发明提出了一种实时语音识别数字的方法，通过对语音数字进行自适应频率采样，提取数字语音的MFCC特征与训练获得的数字参考模板MGCC进行匹配。本发明仅针对语音数字拨号应用，在复杂环境下，不需要联网进行实时的语音数字识别，能够快速进行语音识别。

附图说明

图1为本方买哪个实时语音识别数字的方法流程图；

图2为实时动态时间规整DTW算法的计算区域示意图。

具体实施方式

下面结合附图和实施例对本发明技术方案做进一步详细说明，以下实施例不构成对本发明的限定。

本实施例针对仅需要进行简单数字语音识别拨号，能满足实时性和噪声工作环境，不需要联网进行语音识别，又具有较高语音识别准确性的情况下的手机终端语音拨号的应用，提出了一种实时语音识别数字的方法，其流程如图1所示，包括步骤：

步骤101、通过自适应采样频率对输入的语音进行采样，并对采样获得的语音信号进行预处理。

人能够听到的音频频率范围是20Hz到20KHz，根据奈奎斯特抽样定理，在最大频率20KHz的情况下，系统的最低采样频率应该是音频频率的两倍，即40KHz。本实施例采样频率采用自适应的方法获得，每个人在语音拨号时发出的语音信号前后两段输入的语音的频率相差不大，输入第一句语音信号后，根据自适应方法计算出下一句语音信号的采样频率。初始采样频率设置为32KHz，考虑到不同的人说话的频率不一样，本实施例采用32kHz的采样频率。在人的正常语速下，32KHz采样频率是足够了，根据奈奎斯特定理，这个采样频率可以保证声音信号的无失真复原，选择32KHz符合实际要求。

采样频率自适应计算过程如下：

3）、根据下面公式计算得到下一段语音信号的采样频率Fre：

\{\begin{matrix} Fre = F * (λ + α), λ &Element; (0.7,1) \\ Fre = F, λ &Element; (0,0.7] \end{matrix}

其中，所以λ一定是小于1的数，α常数等于0.35是一个经验值，F为当前段语音信号的采样频率，初始为32KHz。

根据上述自适应方法得到的Fre的数值作为下一段语音信号的输入时候的采样频率。

由λ的定义可以知道，λ越小，说明采样信号频率和语音信息频率的比值越大。当采样频率太大，采样信号的质量在某一个程度后并没有提高很多，相反频率太大，势必会增加系统的运行时间；如果频率太低，不同的采样信号会存在不同程度失真的情况。所以，为了兼顾两者，本发明提出了自适应的采样频率的方法，这种办法可以很好的兼顾到采样信号的不失真和系统运行效率。

具体地，对采样获得的语音信号进行预处理，包括如下步骤：

1）、对采样获得语音信号进行调幅。语音信号有麦克输入，其幅值可能会很大，这会造成不必要的干扰；也可能由于手机输入模块出现问题导致录入的语音的幅值很小，影响后续的信号处理。所以对语音信号进行幅值的调整，即调幅，将可以有效改善后续的语音识别的准确度。

2）、对调幅后的语音信号通过加窗处理滤除高频成分。对语音信号进行加窗处理可以有效防止频谱的混叠，本实施例采用汉明窗来进行加窗处理。

3）、对滤除高频成分后的语音信号采用频域最小均方LMS算法去除噪声。由麦克输入的语音信号的信噪比都比较高，如果不是用麦克输入，信号的信噪比可能要差很多，因此，对信号进行必要的除噪措施是非常有必要的。除噪措施采用频域LMS算法（FBLMS算法），FBLMS算法由于采用了快速运算方法，因此大大降低了其计算复杂度，而且在于运算量较大时它的运算时间短，时间耗费上有明显优势。

步骤102、对预处理后的语音信号进行端点检测，提取出单个数字语音信号。

语音信号经过预处理后，为了提取出单个的数字，就必须通过进行端点检测来去除前后两端无声区的影响，使得语音信号尽可能不受人为输入反应时间的干扰。端点的检测的原理是计算所有语音信号幅值的平均值a，当声音的幅值达到平均值的（1/2）a，则认为这个字开始了，当语音信号再次下降到平均值的（1/4）a，则认为这个数字结束了。

步骤103、提取每个数字语音信号的MFCC特征。

提取语音信号的梅尔频率倒谱系数MFCC（Mel Frequency CepstrumCoefficient）特征的方法已经非常成熟，通常包括如下步骤：

1）、先对语音信号进行预加重、分帧和加窗。

预加重处理其实是一个高通滤波器，该高通滤波顺的传递函数为：

H(Z)=1-aZ^-1

其中的a取值为0.97，该高通滤波器作用是滤去低频，使语音信号的高频特性更加突现。

由于语音信号只在较短的时间内呈现平稳性（一般认为10-30ms），因此将语音信号划分为一个一个的短时段即一帧。同时为避免丢失语音信号的动态信息，相邻帧之间要有一段重叠区域，重叠区域一段为帧长的1/2或1/3。然后再将每帧乘上窗函数，以增加每帧左端和右端的连续性。

分帧的作用是把截取到的单个数字语音信号分为多帧的信号，本实施例将单个数字语音信号分为16帧。一般每一个数字语音信号的持续时间为0.25s，当采样频率为32KHz时，就可以得到8000个采样点，分为16帧，每一帧有500个采样点；而采样频率为16KHz时，就可以得到4000个采样点点，分为16帧，每一帧有250个点。

2）、对每一帧语音信号，通过FFT得到对应的频谱。

3）、将上面的频谱通过Mel滤波器组得到Mel频谱。

4）、在Mel频谱上面进行倒谱分析（取对数，做逆变换，实际逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数），获得Mel频率倒谱系数MFCC，这个MFCC就是这帧语音信号的特征。

步骤104、采用实时动态时间规整DTW算法将每个数字语音信号的MFCC特征与通过训练获得的MFCC参数模板进行匹配识别。

本实施例采用实时动态时间规整（Dynamic Time Warping，DTW）算法比较输入语音信号的MFCC特征与参考模板，进行语音识别。在孤立词语音识别中，最为简单有效的方法是采用DTW算法，该算法基于动态规划（DP）的思想，解决了发音长短不一的模板匹配问题，是语音识别中出现较早、较为经典的一种算法。用于孤立词识别，DTW算法与HMM算法在训练阶段需要提供大量的语音数据，通过反复计算才能得到模型参数，而DTW算法的训练中几乎不需要额外的计算。所以在孤立词语音识别中，DTW算法仍然得到广泛的应用。

无论在训练和建立模板阶段还是在识别阶段，都先采用端点算法确定语音信号的起点和终点。将通过训练已存入模板库的各个词条称为参考模板，一个参考模板可表示为R={R(1),R(2),…，R(m)，…，R(M)}，m为训练语音帧的时序标号，m=1为起点语音帧，m=M为终点语音帧，因此M为该模板所包含的语音帧总数，R(M)为第m帧的语音特征矢量。所要识别的一个输入词条语音称为测试模板，可表示为T={T(1)，T(2)，…，T(n)，…，T(N)}，n为测试语音帧的时序标号，n=1为起点语音帧，n=N为终点语音帧，因此N为该模板所包含的语音帧总数，T(n)为第n帧的语音特征矢量。参考模板与测试模板一般采用相同类型的特征矢量（如MFCC，LPC系数）、相同的帧长、相同的窗函数和相同的帧移，本实施例采用MFCC特征。

假设测试和参考模板分别用T和R表示，为了比较它们之间的相似度，可以计算它们之间的距离D[T，R]，距离越小则相似度越高。为了计算这一失真距离，应从T和R中各个对应帧之间的距离算起。设n和m分别是T和R中任意选择的帧号，d[T（n），R（m）]表示这两帧特征矢量之间的距离。距离函数取决于实际采用的距离度量，在DTW算法中通常采用欧氏距离。

利用实时处理中分批进行固定的N帧和M帧匹配的特点，业界已经进一步把计算区域缩小到图2中的横线部分区域，最大限度地提高DTW算法的识别速度。图2中Y轴对应为参考模板的帧号，最大为M，X轴对应为测试模板的帧号，最大为N，X_a和X_b都取最接近的整数：

\{\begin{matrix} X_{a} = \frac{1}{3} (2 M - N) \\ X_{b} = \frac{2}{3} (2 N - M) \end{matrix} .

本实施例采用的DTW方法采用基于查表法的相似度计算和矢量距离累加，包括步骤：

1）、构造一个由二元数组对{TestNum,RefNum}组成的表Table[]，其中二元数组TestNum和RefNum表示在进行相似度计算和矢量距离累加时用到的测试帧的序号和参考帧的序号。

2）按照表Table[]中的二元数组对依次计算，保证只有横线区域的测试帧和参考帧对参与计算，节省了计算时间。

假设N=4,M=4，则Ta[]={{2,1},{2,2},{2,3},{3,2},{3,3},{3,4}}。在进行相似度计算和矢量距离累加时，只须计算Table[]中的6对测试帧和参考帧，省去了部分相似度计算和矢量距离累加，从而省去了一部分计算时间。由于Table[]表是事先建的，而查表过程通常只有一个指令周期，运行时间基本可以忽略不计。

根据矢量距离累加值越小，其匹配度越高。最后，当找到匹配度最高的一个数字作为识别的结果，根据识别出的数字进行拨号，即可完成语音拨号，进行通信。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种实时语音识别数字的方法，用于手机终端中通过语音识别数字从而进行群发短信或者语音拨号，其特征在于，包括以下步骤：

提取每个数字语音信号的MFCC特征；

2.根据权利要求1所述的实时语音识别数字的方法，其特征在于，所述预处理包括以下步骤：

对采样获得语音信号进行调幅；

对调幅后的语音信号通过加窗处理滤除高频成分；

3.根据权利要求2所述的实时语音识别数字的方法，其特征在于，所述加窗处理采用的是汉明窗。

4.根据权利要求1所述的实时语音识别数字的方法，其特征在于，所述采样频率通过自适应方法获得，所述自适应方法包括步骤：

3）、根据下面公式计算得到下一段语音信号的采样频率Fre：

\{\begin{matrix} Fre = F * (λ + α), λ &Element; (0.7,1) \\ Fre = F, λ &Element; (0,0.7] \end{matrix}

其中，α是一个常数，F为当前段语音信号的采样频率。

5.根据权利要求4所述的实时语音识别数字的方法，其特征在于，所述当前段语音信号的采样频率F初始为32KHz。

6.根据权利要求1所述的实时语音识别数字的方法，其特征在于，所述采用实时动态时间规整DTW算法将每个数字语音信号的MFCC特征与通过训练获得的MFCC参数模板进行匹配识别，具体包括步骤：

按照表Table[]中的二元数组对依次计算对应帧的矢量距离；

7.根据权利要求6所述的实时语音识别数字的方法，其特征在于，所述根据累加结果进行模板匹配，是选取矢量距离累加值最小的数字语音信号作为语音识别结果输出。

8.根据权利要求7所述的实时语音识别数字的方法，其特征在于，所述通过训练获得的MFCC参数模板是针对数字0～9通过训练获得的MFCC参数模板。