CN106531160A - 一种基于词网语言模型的连续语音识别系统 - Google Patents
一种基于词网语言模型的连续语音识别系统 Download PDFInfo
- Publication number
- CN106531160A CN106531160A CN201610944682.0A CN201610944682A CN106531160A CN 106531160 A CN106531160 A CN 106531160A CN 201610944682 A CN201610944682 A CN 201610944682A CN 106531160 A CN106531160 A CN 106531160A
- Authority
- CN
- China
- Prior art keywords
- module
- search module
- layer
- acoustic model
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims abstract description 6
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000035479 physiological effects, processes and functions Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002490 cerebral effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于词网语言模型的连续语音识别系统,包括依次连接的语音输入模块、特征提取模块、声学模型层搜索模块、词法层搜索模块、句法层搜索模块;声学模型层输入端连接有声学模型;词法层搜索模块的输入端连接有词法信息库;句法层搜索模块的输入端连接有句法信息库。本发明通过将语音识别过程分为声学模型层、词法层和句法层,通过声学模型层对子词进行搜索,得到候选子词序列,然后在词法层上根据词法信息及词的语言模型进行词条的搜索,得到候选词条序列,最后根据语法、词义信息等句子的语言模型进行句法层的搜索,从而得到最终的识别结果,通过这种方式对语音信号逐步处理,有利于提高对语音信号识别的精准度和识别效率。
Description
技术领域
本发明属于语音识别技术领域,特别是涉及一种基于词网语言模型的连续语音识别系统。
背景技术
随着计算机科学和信息技术的发展,语音识别技术日渐成为人与机器交互的主要工具。经过几十年的研究和发展,语音识别技术已日渐成熟并逐步走向实用,正在渐渐地改变着人们的生活方式。计算机已经渗透到人类生活的每个角落。在现代社会中,人类正逐渐借助计算机来完成各项任务。在这种形势下,如何实现人与计算机的智能化交互,成了人工智能领域的一个重要研究课题。语音是人际交流最习惯、最自然的方式,因此,语音识别成为人机交互的理想选择。
目前,语音识别已经取得了一定的发展,然而距离真正的人机自由交流还有很大的差距,主要表现在:存在协同发音现象;语音识别系统的适应性差;端点检测困难;如何将语言学、生理学、心里学方面的研究成果有效地应用于语音识别,还需深入研究;对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面还知之甚少,如何把这方面现有的成果用于语音识别,也是一个难题。语音识别技术走向实用需要综合应用语言学、心理学、生理学以及信号处理等各门学科的有关知识。
发明内容
本发明的目的在于提供一种基于词网语言模型的连续语音识别系统,通过该系统的应用,解决了现有的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于词网语言模型的连续语音识别系统,包括依次连接的语音输入模块、特征提取模块、声学模型层搜索模块、词法层搜索模块、句法层搜索模块;所述声学模型层输入端连接有声学模型;所述词法层搜索模块的输入端连接有词法信息库;所述句法层搜索模块的输入端连接有句法信息库。
进一步地,所述语音输入模块用于输入语音信号并将该语音信号传至特征提取模块;所述特征提取模块对接收到的语音信号进行语音特征的提取,其中语音特征包括LPC参数、MFCC参数;所述声学模型层搜索模块通过声学模型采用模式匹配的方法查找与语音特征相对应的发音,继而将相关的发音发送至词法层搜索模块;所述词法层搜索模块根据收到的发音,在词法信息库搜索相应的词条,继而将搜索到的词条发至句法层搜索模块;所述句法层搜索模块根据收到的词条,在句法信息库中搜索相应的句法,继而将句法以语句的形式发送至识别结果输出模块;所述识别结果输出模块用于输出语句。
进一步地,所述语音输入模块为话筒和音频解码器。
本发明具有以下有益效果:
本发明通过将语音识别的过程处理分为声学模型层、词法层和句法层,通过声学模型层对所要子词进行搜索,从而得到候选子词序列,然后在词法层上根据词法信息及词的语言模型进行词条的搜索,从而得到候选词条序列,最后根据语法、词义信息等句子的语言模型进行句法层的搜索,从而得到最终的识别结果,通过这种方式对语音信号逐步处理,有利于提高对语音信号识别的精准度和识别效率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于词网语言模型的连续语音识别系统的组成框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于词网语言模型的连续语音识别系统,包括依次连接的语音输入模块、特征提取模块、声学模型层搜索模块、词法层搜索模块、句法层搜索模块,其中声学模型层输入端连接有声学模型,词法层搜索模块的输入端连接有词法信息库,句法层搜索模块的输入端连接有句法信息库。
其中,语音输入模块用于输入语音信号并将该语音信号传至特征提取模块;特征提取模块对接收到的语音信号进行语音特征的提取,其中语音特征包括LPC参数、MFCC参数;声学模型层搜索模块通过声学模型采用模式匹配的方法查找与语音特征相对应的发音,继而将相关的发音发送至词法层搜索模块;词法层搜索模块根据收到的发音,在词法信息库搜索相应的词条,继而将搜索到的词条发至句法层搜索模块;句法层搜索模块根据收到的词条,在句法信息库中搜索相应的句法,继而将句法以语句的形式发送至识别结果输出模块;识别结果输出模块用于输出语句。
其中,语音输入模块为话筒和音频解码器。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
最后需要说明的是,以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (3)
1.一种基于词网语言模型的连续语音识别系统,其特征在于:包括依次连接的语音输入模块、特征提取模块、声学模型层搜索模块、词法层搜索模块、句法层搜索模块;所述声学模型层输入端连接有声学模型;所述词法层搜索模块的输入端连接有词法信息库;所述句法层搜索模块的输入端连接有句法信息库。
2.根据权利要求1所述的一种基于词网语言模型的连续语音识别系统,其特征在于:
所述语音输入模块用于输入语音信号并将该语音信号传至特征提取模块;
所述特征提取模块对接收到的语音信号进行语音特征的提取,其中语音特征包括LPC参数、MFCC参数;
所述声学模型层搜索模块通过声学模型采用模式匹配的方法查找与语音特征相对应的发音,继而将相关的发音发送至词法层搜索模块;
所述词法层搜索模块根据收到的发音,在词法信息库搜索相应的词条,继而将搜索到的词条发至句法层搜索模块;
所述句法层搜索模块根据收到的词条,在句法信息库中搜索相应的句法,继而将句法以语句的形式发送至识别结果输出模块;
所述识别结果输出模块用于输出语句。
3.根据权利要求1所述的一种基于词网语言模型的连续语音识别系统,其特征在于:所述语音输入模块为话筒和音频解码器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610944682.0A CN106531160A (zh) | 2016-10-26 | 2016-10-26 | 一种基于词网语言模型的连续语音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610944682.0A CN106531160A (zh) | 2016-10-26 | 2016-10-26 | 一种基于词网语言模型的连续语音识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106531160A true CN106531160A (zh) | 2017-03-22 |
Family
ID=58292804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610944682.0A Pending CN106531160A (zh) | 2016-10-26 | 2016-10-26 | 一种基于词网语言模型的连续语音识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106531160A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288468A (zh) * | 2017-06-29 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置 |
CN113707135A (zh) * | 2021-10-27 | 2021-11-26 | 成都启英泰伦科技有限公司 | 一种高精度连续语音识别的声学模型训练方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102543073A (zh) * | 2010-12-10 | 2012-07-04 | 上海上大海润信息系统有限公司 | 一种沪语语音识别信息处理方法 |
CN103150381A (zh) * | 2013-03-14 | 2013-06-12 | 北京理工大学 | 一种高精度汉语谓词识别方法 |
CN103150303A (zh) * | 2013-03-08 | 2013-06-12 | 北京理工大学 | 汉语语义格分层识别方法 |
CN104063259A (zh) * | 2014-06-05 | 2014-09-24 | 中国人民解放军信息工程大学 | 基于程序文法的指令集类型识别方法 |
JP2015227915A (ja) * | 2014-05-30 | 2015-12-17 | 富士通株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
-
2016
- 2016-10-26 CN CN201610944682.0A patent/CN106531160A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102543073A (zh) * | 2010-12-10 | 2012-07-04 | 上海上大海润信息系统有限公司 | 一种沪语语音识别信息处理方法 |
CN103150303A (zh) * | 2013-03-08 | 2013-06-12 | 北京理工大学 | 汉语语义格分层识别方法 |
CN103150381A (zh) * | 2013-03-14 | 2013-06-12 | 北京理工大学 | 一种高精度汉语谓词识别方法 |
JP2015227915A (ja) * | 2014-05-30 | 2015-12-17 | 富士通株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
CN104063259A (zh) * | 2014-06-05 | 2014-09-24 | 中国人民解放军信息工程大学 | 基于程序文法的指令集类型识别方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288468A (zh) * | 2017-06-29 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置 |
WO2019001194A1 (zh) * | 2017-06-29 | 2019-01-03 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN108288468B (zh) * | 2017-06-29 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置 |
US11164568B2 (en) | 2017-06-29 | 2021-11-02 | Tencent Technology (Shenzhen) Company Ltd | Speech recognition method and apparatus, and storage medium |
CN113707135A (zh) * | 2021-10-27 | 2021-11-26 | 成都启英泰伦科技有限公司 | 一种高精度连续语音识别的声学模型训练方法 |
CN113707135B (zh) * | 2021-10-27 | 2021-12-31 | 成都启英泰伦科技有限公司 | 一种高精度连续语音识别的声学模型训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
Echols | A role for stress in early speech segmentation | |
US20170287474A1 (en) | Improving Automatic Speech Recognition of Multilingual Named Entities | |
CN103578464B (zh) | 语言模型的建立方法、语音辨识方法及电子装置 | |
EP2940684B1 (en) | Voice recognizing method and system for personalized user information | |
CN103578471B (zh) | 语音辨识方法及其电子装置 | |
CN105118501B (zh) | 语音识别的方法及系统 | |
CN106601259A (zh) | 一种基于声纹搜索的信息推荐方法及装置 | |
CN102543073B (zh) | 一种沪语语音识别信息处理方法 | |
CN109829058A (zh) | 一种基于多任务学习提高方言识别准确率的分类识别方法 | |
CN107945805A (zh) | 一种智能化跨语言语音识别转化方法 | |
CN107403619A (zh) | 一种应用于自行车环境的语音控制方法及系统 | |
CN104078044A (zh) | 移动终端及其录音搜索的方法和装置 | |
CN106710585B (zh) | 语音交互过程中的多音字播报方法及系统 | |
CN111105785B (zh) | 一种文本韵律边界识别的方法及装置 | |
WO2013066409A8 (en) | System, method and program for customized voice communication | |
Yu | Research on speech recognition technology and its application | |
CN104575497B (zh) | 一种声学模型建立方法及基于该模型的语音解码方法 | |
CN103164403A (zh) | 视频索引数据的生成方法和系统 | |
Lileikytė et al. | Conversational telephone speech recognition for Lithuanian | |
Zheng et al. | Acoustic texttiling for story segmentation of spoken documents | |
CN105869622B (zh) | 中文热词检测方法和装置 | |
CN106531160A (zh) | 一种基于词网语言模型的连续语音识别系统 | |
CN107123419A (zh) | Sphinx语速识别中背景降噪的优化方法 | |
Price et al. | Combining linguistic with statistical methods in modeling prosody |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170322 |