CN103839546A - 一种基于江淮语系的语音识别系统 - Google Patents
一种基于江淮语系的语音识别系统 Download PDFInfo
- Publication number
- CN103839546A CN103839546A CN201410116258.8A CN201410116258A CN103839546A CN 103839546 A CN103839546 A CN 103839546A CN 201410116258 A CN201410116258 A CN 201410116258A CN 103839546 A CN103839546 A CN 103839546A
- Authority
- CN
- China
- Prior art keywords
- river
- training
- module
- voice
- yangze
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于江淮语系的语音识别系统。本发明提供的这种基于江淮语系的语音识别系统,由训练模块、建模模块和应用端模块组成。所述训练模块通过对输入的江淮语系训练语音以及对应的语音文本进行训练,通过所述建模模块应用隐马尔可夫模型(HMM)的工具包进行建模,并利用建立好的模型来完成所述应用端模块的设计;需要转换的语音信号直接送入所述应用端模块,由应用端模块进行语音识别,并转换成文本文档。本系统在实现语音识别的基础上,更加强化了对江淮大部分地区方言的识别。
Description
技术领域
基于江淮语系的语音识别系统,涉及一种语音识别技术,具体的说是将江淮语系的语音识别加入到普通的语音识别系统中去从而实现更宽泛的语音识别。
背景技术
目前我国市场上所研发的语音识别系统多是基于普通话的识别,涉及到方言的相对较少,即使涉及到方言也是粤语或者闽南语这些相对有代表性的语音。
发明内容
本发明为针对上述已有技术中存在的不足之处,提供一种基于江淮语系的语音识别系统,即在实现普通话识别的基础上同时满足对江淮语系语音的识别,以实现更宽泛的语音识别。其构造方案如下:
1、一种基于江淮语系的语音识别系统,其特征在于,它包括训练模块、建模模块和应用端模块,所述建模模块是训练模块与应用端模块连接的桥梁,它们之间按照先训练(训练模块)再建模(建模模块)最后应用(应用端模块)的顺序进行工作,上述各单元还有以下特征:
(1)所述训练模块,由训练语音、语音对应的转录文本和训练工具组成,用于建立语音与文本之间的联系,为建模准备素材,训练语音由江淮语系语音和普通话语音两部分组成,它们与转录文本之间采用多对一的方式即江淮语系的发音与普通话发音对应同一个转录文本,由训练工具通过单音节绑定→建模→三音节绑定→建模多次训练找出语音与文本的对应关系的规律。
(2)所述建模模块,通过训练模块准备的素材应用隐马尔可夫模型(HMM)的工具包并配合模糊音识别技术建立准确合理的模型,所谓模糊音识别技术主要是指对江淮地区方言的一些发音进行模糊处理,示例如下:
(3)所述应用端模块,由语音识别器和语境二次识别器组成,所述语音识别器根据建模模块建立的模型来完成设计,用于对送入语音的首次识别,所述语境二次识别器由大量的词库组成,将首次识别后的语音根据前后文的语境进行二次识别,最后将识别的结果以文本的方式输出。
本发明的有益效果:
由于江淮语系识别的加入,降低了系统对江淮地区使用者输入语音普通话的要求,同时由于引入了语境二次识别器,更大大的提高了识别的准确性。
附图说明
图1为本发明结构示意图。
图中:1、训练模块;2、建模模块;3、应用端模块;4、江淮语系训练语音;5、普通话训练语音;6、转录文本;7、训练工具;8、语音识别器;9、语境二次识别器;10、语音输入端;11、文本输出端。
具体实施方式
参见图1,基于江淮语系的语音识别系统,包括有语音采集单元1、训练模块;2、建模模块;3应用端模块。
训练模块1由江淮语系训练语音4、普通话训练语音5、转录文本6和训练工具7组成,训练工具7即为计算机上运行的软件,而江淮语系训练语音4、普通话训练语音5和转录文本6也存储在同一台计算机上,由训练工具7同时将它们调用进行多对一训练,通过单音节绑定→建模→三音节绑定→建模多次训练找出语音与文本的对应关系的规律,为建模模块2提供建模素材。
建模模块2也即为计算机上运行的软件,通过对训练模块1提供素材的读取,应用隐马尔可夫模型(HMM)的工具包并配合模糊音识别技术建立准确合理的模型,用以为应用端模块3设计语音识别器8。
应用端模块3由语音识别器8和语境二次识别器9组成,语音识别器8为根据建模模块2提供的模型设计而成的,用于对语音进行一次识别;语境二次识别器9由大量的词库组成,通过对一次语音识别后的文档,根据前后文的意思再次进行二次识别对识别的结果进行最后确认并输出文本,
需要识别的语音由语音输入端10输入应用端模块3,首先由语音识别器8进行一次识别,结果送入语境二次识别器9对应前后文进行二次识别,最后由文本输出端11输出文本文档。
Claims (1)
1.一种基于江淮语系的语音识别系统,其特征在于,它包括训练模块、建模模块和应用端模块,所述建模模块是训练模块与应用端模块连接的桥梁,它们之间按照先训练(训练模块)再建模(建模模块)最后应用(应用端模块)的顺序进行工作,上述各单元还有以下特征:
(1)所述训练模块,由训练语音、语音对应的转录文本和训练工具组成,用于建立语音与文本之间的联系,为建模准备素材,训练语音与文本之间采用多对一的方式即江淮语系的发音与普通话发音对应同一个转录文本;
(2)所述建模模块,通过训练模块准备的素材应用隐马尔可夫模型(HMM)的工具包并配合模糊音识别技术建立准确合理的模型;
(3)所述应用端模块,由语音识别器和语境二次识别器组成,语音识别器根据建模模块建立的模型来完成设计,用于对送入语音的首次识别,语境二次识别器由大量的词库组成,将首次识别后的语音根据前后文的语境进行二次识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410116258.8A CN103839546A (zh) | 2014-03-26 | 2014-03-26 | 一种基于江淮语系的语音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410116258.8A CN103839546A (zh) | 2014-03-26 | 2014-03-26 | 一种基于江淮语系的语音识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103839546A true CN103839546A (zh) | 2014-06-04 |
Family
ID=50802979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410116258.8A Pending CN103839546A (zh) | 2014-03-26 | 2014-03-26 | 一种基于江淮语系的语音识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103839546A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109243460A (zh) * | 2018-08-15 | 2019-01-18 | 浙江讯飞智能科技有限公司 | 一种自动生成基于地方方言的讯或询问笔录的方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1145511A (zh) * | 1995-03-15 | 1997-03-19 | 国际商业机器公司 | 统计声学处理方法和使用声调音素系统的语言识别装置 |
CN1298533A (zh) * | 1998-04-22 | 2001-06-06 | 国际商业机器公司 | 用于特殊领域或方言的语音识别器 |
CN1538384A (zh) * | 2003-03-31 | 2004-10-20 | 索尼电子有限公司 | 有效地实施普通话汉语语音识别字典的系统和方法 |
CN1645478A (zh) * | 2004-01-21 | 2005-07-27 | 微软公司 | 用于音调语言的分段音调建模 |
CN1835076A (zh) * | 2006-04-07 | 2006-09-20 | 安徽中科大讯飞信息科技有限公司 | 一种综合运用语音识别、语音学知识及汉语方言分析的语音评测方法 |
CN101393740A (zh) * | 2008-10-31 | 2009-03-25 | 清华大学 | 一种计算机多方言背景的汉语普通话语音识别的建模方法 |
CN101415259A (zh) * | 2007-10-18 | 2009-04-22 | 三星电子株式会社 | 嵌入式设备上基于双语语音查询的信息检索系统及方法 |
CN101462522A (zh) * | 2007-12-21 | 2009-06-24 | 通用汽车公司 | 交通工具内根据状况的语音识别 |
CN101515456A (zh) * | 2008-02-18 | 2009-08-26 | 三星电子株式会社 | 语音识别接口装置及其语音识别方法 |
CN101785048A (zh) * | 2007-08-20 | 2010-07-21 | 微软公司 | 基于hmm的双语(普通话-英语)tts技术 |
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
-
2014
- 2014-03-26 CN CN201410116258.8A patent/CN103839546A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1145511A (zh) * | 1995-03-15 | 1997-03-19 | 国际商业机器公司 | 统计声学处理方法和使用声调音素系统的语言识别装置 |
CN1298533A (zh) * | 1998-04-22 | 2001-06-06 | 国际商业机器公司 | 用于特殊领域或方言的语音识别器 |
CN1538384A (zh) * | 2003-03-31 | 2004-10-20 | 索尼电子有限公司 | 有效地实施普通话汉语语音识别字典的系统和方法 |
CN1645478A (zh) * | 2004-01-21 | 2005-07-27 | 微软公司 | 用于音调语言的分段音调建模 |
CN1835076A (zh) * | 2006-04-07 | 2006-09-20 | 安徽中科大讯飞信息科技有限公司 | 一种综合运用语音识别、语音学知识及汉语方言分析的语音评测方法 |
CN101785048A (zh) * | 2007-08-20 | 2010-07-21 | 微软公司 | 基于hmm的双语(普通话-英语)tts技术 |
CN101415259A (zh) * | 2007-10-18 | 2009-04-22 | 三星电子株式会社 | 嵌入式设备上基于双语语音查询的信息检索系统及方法 |
CN101462522A (zh) * | 2007-12-21 | 2009-06-24 | 通用汽车公司 | 交通工具内根据状况的语音识别 |
CN101515456A (zh) * | 2008-02-18 | 2009-08-26 | 三星电子株式会社 | 语音识别接口装置及其语音识别方法 |
CN101393740A (zh) * | 2008-10-31 | 2009-03-25 | 清华大学 | 一种计算机多方言背景的汉语普通话语音识别的建模方法 |
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
Non-Patent Citations (1)
Title |
---|
哈斯其劳: "面向语音识别的蒙古语声学模型的研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109243460A (zh) * | 2018-08-15 | 2019-01-18 | 浙江讯飞智能科技有限公司 | 一种自动生成基于地方方言的讯或询问笔录的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8498857B2 (en) | System and method for rapid prototyping of existing speech recognition solutions in different languages | |
CN112352275A (zh) | 具有多级别文本信息的神经文本到语音合成 | |
Darjaa et al. | Effective triphone mapping for acoustic modeling in speech recognition | |
EP4318463A3 (en) | Multi-modal input on an electronic device | |
El Amrani et al. | Building CMU Sphinx language model for the Holy Quran using simplified Arabic phonemes | |
TW200638337A (en) | Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system | |
US7502731B2 (en) | System and method for performing speech recognition by utilizing a multi-language dictionary | |
CN108446278A (zh) | 一种基于自然语言的语义理解系统及方法 | |
Kipyatkova et al. | Lexicon size and language model order optimization for Russian LVCSR | |
Kempton et al. | Cross-Language Phone Recognition when the Target Language Phoneme Inventory is not Known. | |
CN111933116A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN103839546A (zh) | 一种基于江淮语系的语音识别系统 | |
CN101958118A (zh) | 有效地实施语音识别字典的系统和方法 | |
Rawoof et al. | ARM based implementation of Text-To-Speech (TTS) for real time Embedded System | |
Thu et al. | Syllable pronunciation features for myanmar grapheme to phoneme conversion | |
Greibus et al. | The phoneme set influence for Lithuanian speech commands recognition accuracy | |
Vlasenko et al. | Processing affected speech within human machine interaction | |
Rasipuram | Combining acoustic data driven G2P and letter-to-sound rules for under resource lexicon generation | |
Dureja et al. | Speech-to-Speech Translation: A Review | |
Bouselmi et al. | Fully automated non-native speech recognition using confusion-based acoustic model integration and graphemic constraints | |
Pandey et al. | Development and suitability of indian languages speech database for building watson based asr system | |
WO2009151868A3 (en) | System and methods for maintaining speech-to-speech translation in the field | |
Zgank | Cross-lingual speech recognition between languages from the same language family | |
Bhowmik | Prosodic and Phonological Feature based Speech Recognition System for Bengali | |
Koo et al. | KEBAP: Korean Error Explainable Benchmark Dataset for ASR and Post-processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140604 |