CN103474062A

CN103474062A - 一种语音识别方法

Info

Publication number: CN103474062A
Application number: CN2012102761629A
Authority: CN
Inventors: 陈奕
Original assignee: WOWTECH Inc
Current assignee: WOWTECH Inc
Priority date: 2012-08-06
Filing date: 2012-08-06
Publication date: 2013-12-25

Abstract

一种语音识别方法，基于word3-gram和context-dependentHMM，其中语音识别方法包括训练和识别两个部分，训练就是HMM建模的过程，其中，语音识别包括两种解决方案，为非语音现象合发声变形建立相应的声学模型，或建立描述口语内在随机性语法网络或统计语言模型；语音采集方式为实时采集：一边进行实时采集一边将已经采集的语音实时送往缓存。本发明的语音识别方法，在已有功能模块及应用方法的基础上自主建立语音库，可以实现即时语音识别，不仅具有对英文识别率高，在日文识别率也处于世界领先地位，尤其是在刚起步的日文语音识别市场，更是国际领先水平。而这套语音识别技术所采用的技术框架完全可以扩展到中文识别甚至可以扩展到包括中文的其他国家语言。

Description

一种语音识别方法

技术领域

本发明具体涉及一种语音识别方法。

背景技术

语音识别又是一门交叉学科，它与声学、语音学、语言学、数字信号处理理论、计算机科学等众多科学紧密相连。语言识别是以基于应用就是语言打字机，用口述代替键盘，实现向计算机输入文字，它具有自然、快速、不需用手、不受地点限制等优点。在英语识别系统中，Google和 Nuance是目前语言识别技术的领跑者，其所开发的商业语言识别引擎被广泛购买使用。目前，还有一些语音识别技术采用京都大学的语音识别引擎，其独特的技术框架具有较好的识别率和扩展性.基于word 3-gram和context-dependent HMM虽然它的性能优秀，但是目前市场上并没有成熟的产品面世。

发明内容

为了解决目前存在的不足，本发明提供了一种适用性强的语音识别方法。

一种语音识别方法，基于word 3-gram和context-dependent HMM，其中语音识别方法包括训练和识别两个部分，训练就是HMM建模的过程，根据一定的参数重估算法，不断调整模型参数，其中，

语音识别包括两种解决方案，为非语音现象合发声变形建立相应的声学模型，或建立描述口语内在随机性语法网络或统计语言模型；

语音采集方式为实时采集：一边进行实时采集一边将已经采集的语音实时送往缓存。

优选的,所述语音识别方法采用具有抗噪特性的特征，并通过麦克风阵列、语音增强和针对噪声的模型补偿方法，去除电话合周围环境噪音等影响。

优选的，所述语音识别方法还包括基于语音识别的人机互动：通过让计算机识别人的语音指令来驱动模型，为游戏引擎提供了语音识别上的软件技术支持，从而在语音上实现对游戏中人物角色的行为进行控制。

与现有技术相比，本发明的优势在于：

本发明的语音识别技术识别率高，扩展性好，这套语音识别技术所采用的技术框架完全可以扩展到中文识别甚至是其他语言的识别中。

本发明将语音采集方式改为实时采集：不等说话人说完，就将已经采集的语音实时送往缓存，一边处理一边采集，可以极大提高系统效率。现在语音数据都是先存到硬盘上，在送往识别器进行识别，反应速度慢。

通过自主建立语音库，可以实现即时语音识别，不仅具有对英文识别率高，在日文识别率也处于世界领先地位，尤其是在刚起步的日文语音识别市场，更是国际领先水平。而这套语音识别技术所采用的技术框架完全可以扩展到中文识别甚至可以扩展到包括中文的其他国家语言。

附图说明 图1为本发明的一种语音识别方法的流程示意图。

具体实施方式

结合图1所示，本发明的一种语音识别方法，自主研发的语音识别技术所采用的语音识别技术基于京都大学的语音识别引擎，其独特的技术框架具有较好的识别率和扩展性.基于word 3-gram和context-dependent HMM虽然它的性能优秀，但是目前市场上并没有成熟的产品面世。在此之上通过自主建立语音库，可以实现即时语音识别，不仅具有对英文识别率高，在日文识别率也处于世界领先地位，尤其是在刚起步的日文语音识别市场，更是国际领先水平。而这套语音识别技术所采用的技术框架完全可以扩展到中文识别甚至可以扩展到包括中文的其他国家语言。

从图1可以看出，语音识别系统要经过训练和识别两个部分，训练就是HMM建模的过程，根据一定的参数重估算法，不断调整模型参数，得到性能较好的模型，通过对基本模型的改进和优化，提高模型的精确度，以到达较好的识别效果。

创新技术点：

（1）自然口语语音识别

在实际的使用环境中，更多、更自然的人机交互式是“自然口语”，本技术对口语识别提出两种解决方案：①为非语音现象合发声变形建立相应的声学模型；②建立描述口语内在随机性语法网络或统计语言模型。

（2）采用具有抗噪特性的特征，麦克风阵列、语音增强和针对噪声的模型补偿方法，去除电话合周围环境噪音等影响

（3）语音识别技术识别率高，扩展性好，这套语音识别技术所采用的技术框架完全可以扩展到中文识别甚至是其他语言的识别中。

（4）改进了基于特征的弹性图区配语音算法

证明改进算法识别率高、实时性好，在给出0dB,2dB，8dB，12dB, 15dB信号比下，仍能准确的检测出端点结果。

（5）基于语音识别的人机互动

通过让计算机识别人的语音指令来驱动模型，所以语音识别的性能将决定互动的结果，为游戏引擎提供了语音识别上的软件技术支持，可以在语音上实现对游戏中人物角色的行为进行控制，实现真正意义上的实时性语音互动。

（6）将语音采集方式改为实时采集

不等说话人说完，就将已经采集的语音实时送往缓存，一边处理一边采集，可以极大提高系统效率。现在语音数据都是先存到硬盘上，在送往识别器进行识别，反应速度慢。

随着对语音识别技术的研究和应用，人们将对人类的发声机能的认识有更深入的认识。对各国语言的电子化也会有巨大促进作用。同时包括音声模型及网络传输协议在内等现有技术也会随之不断更新，从而将相关的学科推向一个新的高度。本项目中自主研发的编解码技术和语音识别技术对国内同行业市场注入新鲜的血液，对形成行业的良性竞争和不断优质发展具有积极的作用，同时也会填补国内语音识别技术中针对日语识别的技术空白。

上述实施例只是为了说明本发明的技术构思及特点，其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所作出的等效的变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种语音识别方法，基于word 3-gram和context-dependent HMM，其中语音识别方法包括训练和识别两个部分，训练就是HMM建模的过程，根据一定的参数重估算法，不断调整模型参数，其特征在于，

2.根据权利要求1所述的语音识别方法，其特征在于,所述语音识别方法采用具有抗噪特性的特征，并通过麦克风阵列、语音增强和针对噪声的模型补偿方法，去除电话合周围环境噪音等影响。

3.根据权利要求1所述的语音识别方法，其特征在于，所述语音识别方法还包括基于语音识别的人机互动：通过让计算机识别人的语音指令来驱动模型，为游戏引擎提供了语音识别上的软件技术支持，从而在语音上实现对游戏中人物角色的行为进行控制。