CN103474062A - 一种语音识别方法 - Google Patents
一种语音识别方法 Download PDFInfo
- Publication number
- CN103474062A CN103474062A CN2012102761629A CN201210276162A CN103474062A CN 103474062 A CN103474062 A CN 103474062A CN 2012102761629 A CN2012102761629 A CN 2012102761629A CN 201210276162 A CN201210276162 A CN 201210276162A CN 103474062 A CN103474062 A CN 103474062A
- Authority
- CN
- China
- Prior art keywords
- voice
- identification
- voice identification
- recognition method
- audio recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
一种语音识别方法,基于word3-gram和context-dependentHMM,其中语音识别方法包括训练和识别两个部分,训练就是HMM建模的过程,其中,语音识别包括两种解决方案,为非语音现象合发声变形建立相应的声学模型,或建立描述口语内在随机性语法网络或统计语言模型;语音采集方式为实时采集:一边进行实时采集一边将已经采集的语音实时送往缓存。本发明的语音识别方法,在已有功能模块及应用方法的基础上自主建立语音库,可以实现即时语音识别,不仅具有对英文识别率高,在日文识别率也处于世界领先地位,尤其是在刚起步的日文语音识别市场,更是国际领先水平。而这套语音识别技术所采用的技术框架完全可以扩展到中文识别甚至可以扩展到包括中文的其他国家语言。
Description
技术领域
本发明具体涉及一种语音识别方法。
背景技术
语音识别又是一门交叉学科,它与声学、语音学、语言学、数字信号处理理论、计算机科学等众多科学紧密相连。语言识别是以基于应用就是语言打字机,用口述代替键盘,实现向计算机输入文字,它具有自然、快速、不需用手、不受地点限制等优点。在英语识别系统中,Google和 Nuance是目前语言识别技术的领跑者,其所开发的商业语言识别引擎被广泛购买使用。目前,还有一些语音识别技术采用京都大学的语音识别引擎,其独特的技术框架具有较好的识别率和扩展性.基于word 3-gram和context-dependent HMM虽然它的性能优秀,但是目前市场上并没有成熟的产品面世。
发明内容
为了解决目前存在的不足,本发明提供了一种适用性强的语音识别方法。
一种语音识别方法,基于word 3-gram和context-dependent HMM,其中语音识别方法包括训练和识别两个部分,训练就是HMM建模的过程,根据一定的参数重估算法,不断调整模型参数,其中,
语音识别包括两种解决方案,为非语音现象合发声变形建立相应的声学模型,或建立描述口语内在随机性语法网络或统计语言模型;
语音采集方式为实时采集:一边进行实时采集一边将已经采集的语音实时送往缓存。
优选的,所述语音识别方法采用具有抗噪特性的特征,并通过麦克风阵列、语音增强和针对噪声的模型补偿方法,去除电话合周围环境噪音等影响。
优选的,所述语音识别方法还包括基于语音识别的人机互动:通过让计算机识别人的语音指令来驱动模型,为游戏引擎提供了语音识别上的软件技术支持,从而在语音上实现对游戏中人物角色的行为进行控制。
与现有技术相比,本发明的优势在于:
本发明的语音识别技术识别率高,扩展性好,这套语音识别技术所采用的技术框架完全可以扩展到中文识别甚至是其他语言的识别中。
本发明将语音采集方式改为实时采集:不等说话人说完,就将已经采集的语音实时送往缓存,一边处理一边采集,可以极大提高系统效率。现在语音数据都是先存到硬盘上,在送往识别器进行识别,反应速度慢。
通过自主建立语音库,可以实现即时语音识别,不仅具有对英文识别率高,在日文识别率也处于世界领先地位,尤其是在刚起步的日文语音识别市场,更是国际领先水平。而这套语音识别技术所采用的技术框架完全可以扩展到中文识别甚至可以扩展到包括中文的其他国家语言。
附图说明 图1为本发明的一种语音识别方法的流程示意图。
具体实施方式
结合图1所示,本发明的一种语音识别方法,自主研发的语音识别技术所采用的语音识别技术基于京都大学的语音识别引擎,其独特的技术框架具有较好的识别率和扩展性.基于word 3-gram和context-dependent HMM虽然它的性能优秀,但是目前市场上并没有成熟的产品面世。在此之上通过自主建立语音库,可以实现即时语音识别,不仅具有对英文识别率高,在日文识别率也处于世界领先地位,尤其是在刚起步的日文语音识别市场,更是国际领先水平。而这套语音识别技术所采用的技术框架完全可以扩展到中文识别甚至可以扩展到包括中文的其他国家语言。
从图1可以看出,语音识别系统要经过训练和识别两个部分,训练就是HMM建模的过程,根据一定的参数重估算法,不断调整模型参数,得到性能较好的模型,通过对基本模型的改进和优化,提高模型的精确度,以到达较好的识别效果。
创新技术点:
(1)自然口语语音识别
在实际的使用环境中,更多、更自然的人机交互式是“自然口语”,本技术对口语识别提出两种解决方案:①为非语音现象合发声变形建立相应的声学模型;②建立描述口语内在随机性语法网络或统计语言模型。
(2)采用具有抗噪特性的特征,麦克风阵列、语音增强和针对噪声的模型补偿方法,去除电话合周围环境噪音等影响
(3)语音识别技术识别率高,扩展性好,这套语音识别技术所采用的技术框架完全可以扩展到中文识别甚至是其他语言的识别中。
(4)改进了基于特征的弹性图区配语音算法
证明改进算法识别率高、实时性好,在给出0dB,2dB,8dB,12dB, 15dB信号比下,仍能准确的检测出端点结果。
(5)基于语音识别的人机互动
通过让计算机识别人的语音指令来驱动模型,所以语音识别的性能将决定互动的结果,为游戏引擎提供了语音识别上的软件技术支持,可以在语音上实现对游戏中人物角色的行为进行控制,实现真正意义上的实时性语音互动。
(6)将语音采集方式改为实时采集
不等说话人说完,就将已经采集的语音实时送往缓存,一边处理一边采集,可以极大提高系统效率。现在语音数据都是先存到硬盘上,在送往识别器进行识别,反应速度慢。
随着对语音识别技术的研究和应用,人们将对人类的发声机能的认识有更深入的认识。对各国语言的电子化也会有巨大促进作用。同时包括音声模型及网络传输协议在内等现有技术也会随之不断更新,从而将相关的学科推向一个新的高度。本项目中自主研发的编解码技术和语音识别技术对国内同行业市场注入新鲜的血液,对形成行业的良性竞争和不断优质发展具有积极的作用,同时也会填补国内语音识别技术中针对日语识别的技术空白。
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所作出的等效的变化或修饰,都应涵盖在本发明的保护范围内。
Claims (3)
1.一种语音识别方法,基于word 3-gram和context-dependent HMM,其中语音识别方法包括训练和识别两个部分,训练就是HMM建模的过程,根据一定的参数重估算法,不断调整模型参数,其特征在于,
语音识别包括两种解决方案,为非语音现象合发声变形建立相应的声学模型,或建立描述口语内在随机性语法网络或统计语言模型;
语音采集方式为实时采集:一边进行实时采集一边将已经采集的语音实时送往缓存。
2.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别方法采用具有抗噪特性的特征,并通过麦克风阵列、语音增强和针对噪声的模型补偿方法,去除电话合周围环境噪音等影响。
3.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别方法还包括基于语音识别的人机互动:通过让计算机识别人的语音指令来驱动模型,为游戏引擎提供了语音识别上的软件技术支持,从而在语音上实现对游戏中人物角色的行为进行控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102761629A CN103474062A (zh) | 2012-08-06 | 2012-08-06 | 一种语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102761629A CN103474062A (zh) | 2012-08-06 | 2012-08-06 | 一种语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103474062A true CN103474062A (zh) | 2013-12-25 |
Family
ID=49798883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012102761629A Pending CN103474062A (zh) | 2012-08-06 | 2012-08-06 | 一种语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103474062A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106448676A (zh) * | 2016-10-26 | 2017-02-22 | 安徽省云逸智能科技有限公司 | 一种基于自然语言处理的机器人语音识别系统 |
CN106531152A (zh) * | 2016-10-26 | 2017-03-22 | 安徽省云逸智能科技有限公司 | 一种基于htk的连续语音识别系统 |
CN106803422A (zh) * | 2015-11-26 | 2017-06-06 | 中国科学院声学研究所 | 一种基于长短时记忆网络的语言模型重估方法 |
CN111354337A (zh) * | 2018-12-24 | 2020-06-30 | 上海新微技术研发中心有限公司 | 语音识别方法以及用户终端 |
CN113349753A (zh) * | 2021-07-19 | 2021-09-07 | 成都芯跳医疗科技有限责任公司 | 一种基于便携式动态心电监护仪的心律失常检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030046073A1 (en) * | 2001-08-24 | 2003-03-06 | International Business Machines Corporation | Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods |
WO2009101837A1 (ja) * | 2008-02-13 | 2009-08-20 | Nec Corporation | 記号挿入装置および記号挿入方法 |
CN101887725A (zh) * | 2010-04-30 | 2010-11-17 | 中国科学院声学研究所 | 一种基于音素混淆网络的音素后验概率计算方法 |
CN102084417A (zh) * | 2008-04-15 | 2011-06-01 | 移动技术有限责任公司 | 现场维护语音到语音翻译的系统和方法 |
US20110320498A1 (en) * | 2010-06-25 | 2011-12-29 | Educational Testing Service | Systems and Methods for Optimizing Very Large N-Gram Collections for Speed and Memory |
-
2012
- 2012-08-06 CN CN2012102761629A patent/CN103474062A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030046073A1 (en) * | 2001-08-24 | 2003-03-06 | International Business Machines Corporation | Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods |
WO2009101837A1 (ja) * | 2008-02-13 | 2009-08-20 | Nec Corporation | 記号挿入装置および記号挿入方法 |
CN102084417A (zh) * | 2008-04-15 | 2011-06-01 | 移动技术有限责任公司 | 现场维护语音到语音翻译的系统和方法 |
CN101887725A (zh) * | 2010-04-30 | 2010-11-17 | 中国科学院声学研究所 | 一种基于音素混淆网络的音素后验概率计算方法 |
US20110320498A1 (en) * | 2010-06-25 | 2011-12-29 | Educational Testing Service | Systems and Methods for Optimizing Very Large N-Gram Collections for Speed and Memory |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106803422A (zh) * | 2015-11-26 | 2017-06-06 | 中国科学院声学研究所 | 一种基于长短时记忆网络的语言模型重估方法 |
CN106803422B (zh) * | 2015-11-26 | 2020-05-12 | 中国科学院声学研究所 | 一种基于长短时记忆网络的语言模型重估方法 |
CN106448676A (zh) * | 2016-10-26 | 2017-02-22 | 安徽省云逸智能科技有限公司 | 一种基于自然语言处理的机器人语音识别系统 |
CN106531152A (zh) * | 2016-10-26 | 2017-03-22 | 安徽省云逸智能科技有限公司 | 一种基于htk的连续语音识别系统 |
CN111354337A (zh) * | 2018-12-24 | 2020-06-30 | 上海新微技术研发中心有限公司 | 语音识别方法以及用户终端 |
CN113349753A (zh) * | 2021-07-19 | 2021-09-07 | 成都芯跳医疗科技有限责任公司 | 一种基于便携式动态心电监护仪的心律失常检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11620983B2 (en) | Speech recognition method, device, and computer-readable storage medium | |
CN102376305B (zh) | 语音识别方法及系统 | |
CN103971685B (zh) | 语音命令识别方法和系统 | |
CN102723078B (zh) | 基于自然言语理解的语音情感识别方法 | |
CN103065620B (zh) | 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法 | |
CN104036774A (zh) | 藏语方言识别方法及系统 | |
CN101727901B (zh) | 嵌入式系统的汉英双语语音识别方法 | |
KR20120054845A (ko) | 로봇의 음성인식방법 | |
CN102903361A (zh) | 一种通话即时翻译系统和方法 | |
CN104157285A (zh) | 语音识别方法、装置及电子设备 | |
US20090240499A1 (en) | Large vocabulary quick learning speech recognition system | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN103474062A (zh) | 一种语音识别方法 | |
CN109887511A (zh) | 一种基于级联dnn的语音唤醒优化方法 | |
CN106875936A (zh) | 语音识别方法及装置 | |
CN113096647B (zh) | 语音模型训练方法、装置和电子设备 | |
CN111081219A (zh) | 一种端到端的语音意图识别方法 | |
Gupta et al. | Speech feature extraction and recognition using genetic algorithm | |
CN106653002A (zh) | 一种文字直播方法及平台 | |
Rawat et al. | Digital life assistant using automated speech recognition | |
CN111091809A (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
Rahman et al. | Automatic speech recognition system for Malay speaking children | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
Masumura et al. | Improving speech-based end-of-turn detection via cross-modal representation learning with punctuated text data | |
Rasipuram et al. | Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20131225 |