CN102208186B

CN102208186B - 汉语语音识别方法

Info

Publication number: CN102208186B
Application number: CN 201110125829
Authority: CN
Inventors: 梁向东; 唐勇明
Original assignee: NANNING XIANGMING INFORMATION TECHNOLOGY CO LTD
Current assignee: NANNING XIANGMING INFORMATION TECHNOLOGY CO LTD
Priority date: 2011-05-16
Filing date: 2011-05-16
Publication date: 2012-12-19
Anticipated expiration: 2031-05-16
Also published as: CN102208186A

Abstract

本发明公开了一种汉语语音识别方法，具体为：将拾音器输入的汉语语音进行A/D转换后，经音节界定、基波分析、对汉语单字进行声调/韵母/声母识别，最后将上述识别出的汉语语音声母、韵母、声调进行整合，输出汉语单字拼音序列；将识别出的各汉语单字拼音序列按顺序进行组合，即形成汉语句子的拼音序列。本汉语语音识别方法的优点：可对汉语声、韵母进行单音节分析；采用频域幅频特性分析技术，汉语韵母的识别率高；不需要在使用前对特定人语音进行学习或训练；能识别出汉语四个声调；能识别出非特定人的汉语语音单字和句子；采用自适应等效采样速率梳状DFT频谱分析算法，计算量小，占用存储单元少，便于移植应用到嵌入式设备上。

Description

汉语语音识别方法

技术领域

本发明涉及语音识别领域，更具体地说是涉及一种基于频域特性与时域特性相结合、基于共鸣腔选频曲线分析的汉语语音识别方法。

背景技术

随着计算机与信息技术的持续发展，语音交互已成为人机交互的必要手段。语音识别技术经过了近半个世纪的发展，目前已日趋成熟，并得到广泛的应用。汉语数码语音识别已经在电话自动拨号、家电产品的遥控、工业控制等领域中开始发挥作用，但是仍然有很大的深入研究空间，以提高识别系统的速度、稳健性和识别率。

一般来说，语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。其中：

(1)基于声道模型和语音知识的方法，是基于通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分的原理。该方法分为两步实现：(a)把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号；(b)根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的文法和语义同时进行。该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，至今仍没有达到实用的阶段。

(2)利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统，它模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其较强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点，该方法目前仍处于实验探索阶段。由于ANN不能很好的描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别。

(3)模板匹配的方法发展比较成熟，目前已达到了实用阶段。在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。

1)动态时间规整(DTW)

语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置，从语音信号中排除无声段。在早期，进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW：DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短，直到与参考模式的长度一致。在这一过程中，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模型特征对正。

2)隐马尔可夫法(HMM)是70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性，是较为理想的一种语音模型。

3)矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每一帧，或有k个参数的每一参数帧，构成k维空间中的一个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。

在实际的应用过程中，人们还研究了多种降低复杂度的方法，这些方法大致可以分为两类：无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。目前几乎所有成功的语音识别方法都是基于统计的、概率的或信息理论的方法。其中较具代表性的方法有上文提及的矢量量化法(VQ)和隐马尔可夫模型法(HMM)。VQ法是由Shore和Burton首先提出的，其主要优点是无需进行时间规正或动态时间伸缩(DTW)，缺点是需要进行训练和学习，在用于大词汇量、孤立词时需要配备大容量词汇表。由于语音特征是时间序列，所以Burton等人又提出了分段VQ的方法，它可以看成是VQ法和DTW的统合。DTW也需要进行训练和学习，或者配备大容量词汇表。HMM作为统计概率模型已经被证明是一种很好的语音识别模型，但是这些识别方法需要的计算复杂，数据库庞大，对系统硬件的要求高，难以在便携式设备上使用。

在国内公开文献中，关于汉语语音识别软件的开发已有一些相关报道，其中南京理工大学陈丽霞2005年在其硕士学位论文《基于声韵母基元的汉语语音识别系统》中，通过研究大词汇量汉语语音识别技术，针对汉语语音识别的特点，采用声韵母基元作为识别基元，开发了以语音识别为主要目的的语音分析系统。其主要工作包括以下三个部分：建立基于声韵母基元的特定人大词汇表孤立词汉语语音识别系统；建立针对特定人的所有汉语音节的声母识别系统；建立以语音识别为主要目的的语音分析系统，以实现语音的实时操作、时域分析、频域分析以及基于声韵母基元的汉语语音识别。该系统的四大功能模块为：语音基本处理模块、时域分析模块、频域分析模块、训练和识别模块。

北京工业大学王彦朋2008年在其硕士学位论文的《汉语数码语音识别系统设计与实现》中，基于语音产生的模型，从时域、频域，特别是从倒谱出发，对语音信号进行分析，并结合模式识别的理论，进行了基于模板匹配法的孤立词、特定人语音识别系统研究，介绍了一个基于DSP的硬件，汉语数码语音识别系统的设计与实现。

对信号进行动态时域分析，正如本领域技术人员所公知的，包络线检波处理技术常用于无线电技术领域，上升时间(速率)和过冲及超调量的计算均为自动控制领域的常用方法，但是，未见有其应用于语音识别的文献及报道。

发明内容

本发明的目的，即在于提供一种不需要在使用前对特定人声进行学习、能识别出非特定人的汉语语音单字及句子的汉语语音识别方法。针对现有技术的不足，本发明汉语语音识别方法基于语音频域特性与时域特性相结合，能识别出汉语语音声母、韵母、声调，在进一步进行拼音整合后，即可输出汉语单字拼音，进而形成汉语句子的拼音序列。

本发明汉语语音识别方法，具体包括以下步骤：

(1)汉语语音由拾音器输入，进行A/D转换后生成数字语音信号序列；

(2)音节界定：

音节是听觉感觉可以区分清楚的语音的基本单位，汉语中一般一个汉字就是一个音节，每个音节由声母、韵母和声调三个部分组成。通过对采集得到的汉语数字语音信号序列进行分析，不难发现：通常，说话时各音节间存在明显的信号停顿或突变，这就为音节界定提供了条件。此外，由于识别时，拾音器会在无人声或只有背景噪声时也采集信号，因此还要把无用信号依据信号强弱和有无周期性规律按时段与有用信号划分出来。

音节界定的方法是：先将前述获得的数字语音信号序列中无周期性规律的信号及背景噪声信号去除，再根据各音节间存在的固有的信号停顿或突变，明确每个音节的起止，从而获取各单字的数字语音信号序列；

(3)对各单字的数字语音信号序列进行汉语单字拼音的识别：

a)识别所需相关参数的提取：对该单字的数字语音信号序列提取包络线并波形进行分析，包括计算其上升时间及超调量，以及，标定出该单字的数字语音信号序列基频稳定阶段的起点和终点；以波形两个峰点之间计为一个周期，对该基频稳定阶段的波形进行周期界定，并计算出各个周期的基波频率；及，标定出该单字的数字语音信号序列的前端信息段；所述前端信息段指从该段数字语音信号序列的信号截取起点到基频稳定阶段起点之间的信号区段；

声调识别：依据该单字的数字语音信号序列中周期变化的各信号时段的基波频率的变化特征识别出该音节的声调；

声母识别：对该单字的数字语音信号序列的前端信息段进行波形动态时域分析，根据分析得到的包括有包络线瞬态响应的上升时间长短及超调量大小在内的参数，结合经验数据，识别出声母；

韵母识别：用该单字的数字语音信号序列中除所述前端信息段外的余下信息段作为韵母识别处理的信息源；根据该信息段的基波数据分析出该信息段各周期变化时段的幅频特性；以该幅频特性的带宽及矩形系数分别与韵母发音时共鸣腔的体积大小及张紧程度相对应，与收集统计得到的各韵母发音时共鸣腔体积大小及张紧程度的经验数值进行比对，即可识别出该韵母。

本发明人在测试中通过对数字语音信号序列进行分析，发现：韵母发音时共鸣腔的体积大小及张紧程度与相应的数字语音信号序列的幅频特性的带宽及矩形系数存在相对简单的对应关系：共鸣腔(口腔和咽)体积大时，对应的数字语音信号序列的幅频特性带宽大；共鸣腔的肌肉较为紧张时，对应的数字语音信号序列的幅频特性矩形系数较大。由于a，o，e等各韵母发音时，共鸣腔的形状及张紧程度存在明显不同，所以可以根据共鸣腔的选频曲线，结合经验数据反推出具体发出的是哪个音。例如，带宽比较窄时(例如小于440HZ时)，表明共鸣腔较小，可能发音为i、u、或ü，通过与收集统计得到的各韵母发音时共鸣腔的实际数值比较，挑选最接近的一个，就可推断识别出该韵母；

c)将上述识别出的汉语语音声母、韵母、声调进行整合，输出汉语单字拼音；

(4)将识别出的各汉语单字拼音按时间顺序进行组合，即形成汉语句子的拼音序列。

进一步地，所述声调识别的方法步骤可设计为：

若本单字的数字语音信号序列中周期变化的各信号时段的基波频率保持稳定，则声调为第一声；

若为连续上升，则声调为第二声；

若为先降后升，则声调为第三声；

若为下降，则声调为第四声。

进一步地，所述声母识别的方法步骤可设计为：

(1)标定出气声数据段：

在本单字的数字语音信号序列的前端信息段里，标定出波形平稳期的起点；该起点与本单字的数字语音信号序列的起点之间的数据段，即为气声数据段；测试表明，该气声数据段的长度与汉语单字发音的气声长度相对应；

(2)将该气声数据段的时长与经验阈值相比较，将声母的类型划分为有气声或无气声两种类型；判断无气声时，转至(3)；判断有气声时，转至(4)；

(3)根据本单字的数字语音信号序列前端信息段的包络线瞬态响应的上升时间长短，结合经验数据，识别出声母为w、m、n、r或l：根据测试经验，上升时间从长至短依次为m、n、w、r、l；

(4)对该单字的数字语音信号序列的前端信息段进行包络检波处理，计算其上升时间及超调量；将超调量大小与经验阈值相比较，分为有爆鸣声(超调量大)或无爆鸣声(超调量小)；判断有爆鸣声时，转至(5)；判断无爆鸣声时，转至(6)；

(5)结合经验数据，根据超调量大小识别出声母为p、t、g或k；根据测试经验，超调量从大到小依次为p、t、k、g；

(6)进行气声长度分析：将所述气声数据段的长短与经验阈值相比较，区分出短气声和长气声：

判断为短气声时，将所述包络线瞬态响应的上升时间与经验阈值相比较，区分出声母为b或d；如上升时间处于判断阈值的临界期时，还可以用超调量参与辅助判断：上升时间短/超调量大的为d；

判断为长气声时，结合经验数据，根据气声长度识别出声母为f、h、z、c、s、j、q、x、zh、ch、或sh。根据测试经验，上述声母中，气声长度最长的为f。同样地，如气声长度处于判断阈值的临界期时，还可以用包络线上升时间参与辅助判断。

上述方案中，所述幅频特性可采用DFT算法，优选采用自适应DFT算法分析得到。DFT算法和公式在所有信号处理类教科书中都有重点阐述，但由于在保证精度的前提下，计算量巨大，在实际使用中几乎无应用价值。目前的频谱分析都用60年代派生出的碟形运算FFT(快速傅里叶)算法。不过，本发明人在本项目对特定信号(人声)分析时发现：结合自适应调节等效采样速率的前提下，DFT的计算量反而远小于FFT。而且，采用自适应DFT算法，除了可以达到自适应调节等效采样速率，还可实现动态改变NT值，避免栅栏效应，降低泄漏，提高频谱分析的精度。

自适应DFT算法应用于韵母识别时的方法步骤可设计为：

(1)从该单字的数字语音信号序列中除所述前端信息段外的余下信息段的语音数字序列中连续截取出时长为T的若干段数据，统计获得每一段所包含的数据个数N后，自适应动态生成对应的若干个

及

表；其中，T为每一段的基波周期；k＝0，1，2，…，N；N为自然数；

(2)结合上表及前文分析得出的对应时段的基波频率，通过进行DFT分析，计算出该段语音信号1～10次谐波的幅度，再以不小于谐波最大幅值-30db的所有谐波的最高频率确定带宽：

a)如带宽大于1040Hz时，该韵母初步界定为a；

当带宽小于等于440Hz时，韵母为i、u、或ü，并转至(c)；

带宽介于440Hz至1040Hz之间时，则为e或o，并转至(b)；

b)进行高次谐波的DFT分析，计算出1000Hz至1500Hz所对应的语音谐波幅度：如果存在有1000Hz至1500Hz的谐波，该韵母界定为e；

c)进行高次谐波的DFT分析，计算出3kHz-3.5kHz频段的语音谐波幅度：如果存在有该频段的谐波，该韵母界定为i，如果不存在有该频段的谐波，则转至(d)；

d)进行高次谐波的DFT分析，计算出1.7kHz-2.5kHz频段的语音谐波幅度：如果存在有该频段的谐波，该韵母界定为ü；如果不存在有该频段的谐波，该韵母界定为u。

此外，所述声调识别，不但可用该单字的数字语音信号序列的所有整段信号序列作为声调识别处理信息源，或者，还可选用该单字的数字语音信号序列除所述前端信息段外的余下的信息段作为声调识别处理信息源。

从上述技术方案可知，本发明汉语语音识别方法基于频域特性与时域特性相结合，可针对汉语声、韵母、声调分别进行单音节识别，算法相对简单，计算量小，占用存储单元少，能移植应用到嵌入式设备上，不需要在使用前对特定人语音进行学习或训练，也不需要建立一个庞大的词汇库，并且能识别出非特定人的汉语语音单字和句子，识别结果以拼音序列的形式输出，识别率高。

本发明汉语语音识别方法制成软件时，若与输入法软件相结合，即可以进一步应用于语音合成及语音识别领域，既可以在PC平台上应用，也可以在嵌入式平台应用，应用领域广泛，市场价值巨大。

附图说明

图1是本发明汉语语音识别方法的一个实施例的原理示意框图。

图2是本发明汉语语音识别方法的一个实施例的声调识别流程图。

图3是本发明汉语语音识别方法的一个实施例的声母识别流程图。

图4是本发明汉语语音识别方法的一个实施例的韵母识别流程图。

图5是例举拾音器输入汉语语音“跳”时，进行A/D转换后生成的数字语音信号序列(节选)。

图6是与图5所示的数字语音信号序列对应的声音电平随时间变化的波形图(未经任何处理)。

图7是图6经音节界定处理后得到的汉语单字“跳”的声音电平随时间变化的波形图(并已进行周期界定)。

图8是作为韵母识别处理信息源的例举单字“跳”的部分数字语音信号序列的声音电平随时间变化的波形图。

图9为图7所示的单字的数字语音信号序列中韵母a所对应信息段的选频曲线。

图10为图7所示的单字的数字语音信号序列中韵母o所对应信息段的选频曲线

图11是根据基频稳定阶段的波形界定出的若干个周期的基频变化趋势图。

具体实施方式

以下结合附图及实施例对本发明汉语语音识别方法作进一步地说明。

如图1所示，本发明汉语语音识别方法主要由语音信号的A/D转换步骤、音节界定步骤、各汉语单字拼音的识别步骤(其中包括基频分析及声调/声母/韵母识别步骤、拼音整合步骤)、及拼音输出步骤等组成。

以下以一段汉语语音(对应汉语发音为“跳”)的识别为例，说明本发明的汉语语音识别方法及步骤：

一、汉语语音由拾音器输入，进行A/D转换后生成数字语音信号序列：

图5是拾音器输入汉语语音“跳”时，采用固定采样速率(20KB/s、44KB/s等)，通过声卡将声波振幅信号采样并进行A/D转换后生成的数字语音信号序列(由于页面篇幅有限，图5中只示出了节选出的其中三段。)。该数字语音信号序列中的各个数据代表声波各采样点的电平大小。

不对汉语语音“跳”经A/D转换后生成的数字语音信号序列做任何增删/过滤处理，直接制出的声音电平随时间变化的波形图如图6所示。

二、音节界定：

观察如图6所示的该“跳”字的声音电平随时间变化的波形图，可以看出该波形图可以划分为有明显、周期性规律信号的中段及无明显、周期性规律信号的前、后段共三段。分析图5所示的数字语音信号序列中声波各采样点电平大小的变化，显然也同样能观察到这一特征。将前、后段代表无周期性规律的信号及背景噪声信号的部分去除，即可获得单字“跳”的数字语音信号序列(此时对应的声音电平随时间变化的波形图如图7所示)。

三、对上一步获得的单字的数字语音信号序列进行汉语单字拼音的识别：

(1)识别所需相关参数的提取：对该单字的数字语音信号序列提取包络线并进行波形分析，包括

1)计算其上升时间及超调量；

2)标定出该单字的数字语音信号序列基频稳定阶段的起点和终点(对应如图7中的B处和C处所示)；

3)以波形两个峰点之间计为一个周期，对该单字的数字语音信号序列基频稳定阶段(即B点和C点间)的波形进行周期界定(划分出的若干个周期如图7中的各分界线所示)，并计算出各个周期的基波频率(如图11所示)；及，

4)标定出该单字的数字语音信号序列的前端信息段OB：如图7所示，该前端信息段OB，是指从该段数字语音信号序列的信号截取起点O到基频稳定阶段起点B之间的信号区段。

(2)基于如上参数，可进行声调/声母/韵母识别：

1)声调识别：本发明方法是依据该单字的数字语音信号序列中周期变化的各信号时段的基波频率的变化特征识别出音节的声调；观察图11所示基频数据，由于该单字的数字语音信号序列基频稳定阶段的基波频率随时间变化从173Hz连续降到119Hz，具有持续下降的趋势，因此，可判定出本单字的声调为第四声；

声调识别方法的流程图可参见图2。

2)声母识别：对该单字的数字语音信号序列的前端信息段OB进行波形动态时域分析，根据分析得到的包括有包络线瞬态响应的上升时间长短及超调量大小在内的参数，结合经验数据，识别出声母；具体方法为：

a)标定出气声数据段：

在本单字的数字语音信号序列的前端信息段OB里，标定出波形平稳期的起点A(参见图7)；该起点A与本单字的数字语音信号序列的起点O之间的数据段，即为气声数据段OA；

b)测得该气声数据段OA的时长为60ms，经与经验阈值相比较，判断为有气声，同时，由于不是无气声，即可初步判定出该声母不是w、m、n、r或l之一；

c)对该单字的数字语音信号序列的前端信息段OB进行包络检波处理，计算出其上升时间为23ms，超调量为17％；将超调量大小与经验阈值相比较，判断存在有爆鸣声；同时，由于不是无爆鸣声，即可初步判定出该声母不是b、d、f、h、z、c、s、j、q、x、zh、ch、或sh之一；

d)结合经验数据，根据超调量大小识别出声母为p、t、g或k中的t；

上述声母识别的方法步骤可参见图3所示的具体流程图。

3)韵母识别：用该单字的数字语音信号序列中除所述前端信息段OB外的余下信息段(大致如图8所示)作为韵母识别处理的信息源；根据该信息段的基波数据利用跳点、补点算法，对采样得到的信号数据进行处理，分析出该信息段各周期变化时段的幅频特性；以该幅频特性的带宽及矩形系数分别与韵母发音时共鸣腔的体积大小及张紧程度相对应，与收集统计得到的各韵母发音时共鸣腔体积大小及张紧程度的经验数值(韵母特征)进行比对，即可识别出该韵母；所述幅频特性可采用自适应DFT算法分析获得，其方法包括有如下步骤：

a)从该单字的数字语音信号序列中除所述前端信息段OB外的余下信息段的语音数字序列中连续截取出时长为T的若干段数据，统计获得每一段所包含的数据个数N后，自适应动态生成对应的若干个

及

b)结合上表及前文分析得出的对应时段的基波频率，通过进行DFT分析，计算出该段语音1～10次谐波的幅度，再以不小于谐波最大幅值-30db的所有谐波的最高频率确定带宽。

采用上述方法分析获取各周期变化时段的幅频特性后，即可进行下一步的幅频特性分析并进而识别出对应韵母：

该段作为韵母识别处理的信息源的各周期变化时段的幅频特性，其中的一段如图9所示(注：该段对应分析的是图7中的T1周期)。图9中，其上部及下部分别以图形和数值方式表示出经过自适应DFT分析出的谐波特性参数，位于各柱形图形下部的数值的含义为f(A_V)，其中f为频率，A_V为该频率对应的幅度值。分析图9中所显示的幅频特性图，以不小于谐波最大幅值-30db的所有谐波的最高频率确定带宽，如图9中的虚线框住的图形部分及虚线框住的数值部分所示，不论是从图形亦或数据均可看出该段带宽＝1269Hz。根据本发明技术方案可知，该韵母初步界定为a；

由于分析该段作为韵母识别处理的信息源的各周期变化时段的幅频特性，在前述韵母a对应时段的前后，另可观察到还各包括一段带宽符合条件区间，其带宽分别为312Hz(图略)和725Hz(参见图10)。根据本发明技术方案，可初步界定带宽为312Hz时韵母为i、u、或ü，带宽为725Hz时韵母为e或o；进而进行高次谐波的DFT分析，分别对前者计算出3kHz至3.5kHz及1.7kHz至2.5kHz所对应的语音谐波幅度、对后者计算出1000Hz至1500Hz的语音谐波幅度，根据计算结果可知：由于后者不存在1000Hz至1500Hz的谐波，因而确认对应韵母为o；由于前者存在3kHz-3.5kHz的谐波，因而确认对应韵母为i。

韵母识别的流程图可参见图4。

为帮助理解，现对图5所示的(节选)数字语音信号序列作补充说明：

由于该数字语音信号序列中的各个数据代表声波各采样点的电平大小，所以，本领域普通技术人员经过数据分析不难得知，该图中包含的三段数字语音信号序列分别大致对应的是背景噪声段、前段信息段及基频稳定段。

值得一提的是：以上实施例中的声调识别，是采用用该单字的数字语音信号序列除所述前端信息段外的余下信息段作为声调识别处理信息源，但显然，也可采用该单字的数字语音信号序列的所有整段信号序列作为声调识别处理信息源。

四、拼音整合及其结果输出步骤

将上述识别出的汉语语音声母t，三个韵母i、a和o，声调(第四声)进行整合，输出汉语单字拼音tiao(第四声)。

以上仅以一个单字为例，介绍了其声母、韵母、声调的识别方法，但根据其原理，本领域普通技术人员不难得知，其它单字的语音识别也可同理实现。故在此不再赘述。

使用时，将识别出的各汉语单字拼音按时间顺序进行组合，即形成汉语句子的拼音序列。

Claims

1.汉语语音识别方法，其特征在于，包括以下步骤：

步骤1.1、汉语语音由拾音器输入，进行A/D转换后生成数字语音信号序列；

步骤1.2、音节界定：先将前述获得的数字语音信号序列中无周期性规律的信号及背景噪声信号去除，再根据各音节间存在的固有的信号停顿或突变，明确每个音节的起止，从而获取各单字的数字语音信号序列；

步骤1.3、对各单字的数字语音信号序列进行汉语单字拼音的识别：

a)识别所需相关参数的提取：对该单字的数字语音信号序列提取包络线并进行波形分析，包括计算其上升时间及超调量，以及，标定出该单字的数字语音信号序列基频稳定阶段的起点和终点；以波形两个峰点之间计为一个周期，对该基频稳定阶段的波形进行周期界定，并计算出各个周期的基波频率；及，标定出该单字的数字语音信号序列的前端信息段；所述前端信息段，是指从该段数字语音信号序列的信号截取起点到基频稳定阶段起点之间的信号区段；

韵母识别：用该单字的数字语音信号序列中除所述前端信息段外的余下信息段作为韵母识别处理的信息源；根据该信息段的基波数据分析出该信息段各周期变化时段的幅频特性；以该幅频特性的带宽及矩形系数分别与韵母发音时共鸣腔的体积大小及张紧程度相对应，与收集统计得到的各韵母发音时共鸣腔体积大小及张紧程度的经验数值进行比对，即可识别出该韵母；

b)将上述识别出的汉语语音声母、韵母、声调进行整合，输出汉语单字拼音；

步骤1.4、将识别出的各汉语单字拼音按时间顺序进行组合，即形成汉语句子的拼音序列；

其中，所述声母识别的方法步骤为：

步骤S1、标定出气声数据段：

在本单字的数字语音信号序列的前端信息段里，标定出波形平稳期的起点；该起点与本单字的数字语音信号序列的起点之间的数据段，即为气声数据段；

步骤S2、将该气声数据段的时长与经验阈值相比较，将声母的类型划分为有气声或无气声两种类型；判断无气声时，转至步骤S3；判断有气声时，转至步骤S4；

步骤S3、根据本单字的数字语音信号序列前端信息段的包络线瞬态响应的上升时间长短，结合经验数据，识别出声母为w、m、n、r或l；

步骤S4、对该单字的数字语音信号序列的前端信息段进行包络检波处理，计算其上升时间及超调量；将超调量大小与经验阈值相比较，判断是否存在爆鸣声；判断有爆鸣声时，转至步骤S5；判断无爆鸣声时，转至步骤S6；

步骤S5、结合经验数据，根据超调量大小识别出声母为p、t、g或k；

步骤S6、进行气声长度分析：将所述气声数据段的长短与经验阈值相比较，区分出短气声和长气声：

判断为短气声时，将所述包络线瞬态响应的上升时间与经验阈值相比较，区分出声母为b或d；

判断为长气声时，结合经验数据，根据气声长度识别出声母为f、h、z、c、s、j、q、x、zh、ch、或sh。

2.根据权利要求1所述的汉语语音识别方法，其特征在于，所述声调识别的方法为：

若为连续上升，则声调为第二声；

若为先降后升，则声调为第三声；

若为下降，则声调为第四声。

3.根据权利要求1所述的汉语语音识别方法，其特征在于：所述幅频特性，采用DFT算法分析得到。

4.根据权利要求3所述的汉语语音识别方法，其特征在于，所述幅频特性采用自适应DFT算法分析获得，其方法包括有如下步骤：

步骤4.1、从该单字的数字语音信号序列中除所述前端信息段外的余下信息段的语音数字序列中连续截取出时长为T的若干段数据，统计获得每一段所包含的数据个数N后，自适应动态生成对应的若干个

及

步骤4.2、结合上表及前文分析得出的对应时段的基波频率，通过进行DFT分析，计算出该段语音信号1～10次谐波的幅度，再以不小于谐波最大幅值-30db的所有谐波的最高频率确定带宽。

5.根据权利要求4所述的汉语语音识别方法，其特征在于：

步骤5.1、如带宽＞1040Hz时，该韵母初步界定为a；

当带宽≤440Hz时，韵母为i、u、或ü，并转至步骤5.3；

带宽在440Hz至1040Hz之间时，则为e或o，并转至步骤5.2；

步骤5.2、进行高次谐波的DFT分析，计算出1000Hz至1500Hz所对应的语音谐波幅度：如果存在有1000Hz至1500Hz的谐波，该韵母界定为e；

步骤5.3、进行高次谐波的DFT分析，计算出3000至3500Hz频段的语音谐波幅度：如果存在有该频段的谐波，该韵母界定为i；如果不存在有该频段的谐波，则转至步骤5.4；

步骤5.4、进行高次谐波的DFT分析，计算出1700至2500Hz频段的语音谐波幅度：如果存在有该频段的谐波，该韵母界定为ü；如果不存在有该频段的谐波，该韵母界定为u。

6.根据权利要求1至5之一所述的汉语语音识别方法，其特征在于，所述声调识别，是采用该单字的数字语音信号序列的所有整段信号序列作为声调识别处理信息源，或者，是采用该单字的数字语音信号序列除所述前端信息段外的余下的信息段作为声调识别处理信息源。