CN103839546A

CN103839546A - 一种基于江淮语系的语音识别系统

Info

Publication number: CN103839546A
Application number: CN201410116258.8A
Authority: CN
Inventors: 刘亚斌; 许林冲; 陈良
Original assignee: HEFEI XINTAO INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Current assignee: HEFEI XINTAO INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2014-03-26
Filing date: 2014-03-26
Publication date: 2014-06-04

Abstract

本发明公开了一种基于江淮语系的语音识别系统。本发明提供的这种基于江淮语系的语音识别系统，由训练模块、建模模块和应用端模块组成。所述训练模块通过对输入的江淮语系训练语音以及对应的语音文本进行训练，通过所述建模模块应用隐马尔可夫模型（HMM）的工具包进行建模，并利用建立好的模型来完成所述应用端模块的设计；需要转换的语音信号直接送入所述应用端模块，由应用端模块进行语音识别，并转换成文本文档。本系统在实现语音识别的基础上，更加强化了对江淮大部分地区方言的识别。

Description

一种基于江淮语系的语音识别系统

技术领域

基于江淮语系的语音识别系统，涉及一种语音识别技术，具体的说是将江淮语系的语音识别加入到普通的语音识别系统中去从而实现更宽泛的语音识别。

背景技术

目前我国市场上所研发的语音识别系统多是基于普通话的识别，涉及到方言的相对较少，即使涉及到方言也是粤语或者闽南语这些相对有代表性的语音。

发明内容

本发明为针对上述已有技术中存在的不足之处，提供一种基于江淮语系的语音识别系统，即在实现普通话识别的基础上同时满足对江淮语系语音的识别，以实现更宽泛的语音识别。其构造方案如下：

1、一种基于江淮语系的语音识别系统，其特征在于，它包括训练模块、建模模块和应用端模块，所述建模模块是训练模块与应用端模块连接的桥梁，它们之间按照先训练（训练模块）再建模（建模模块）最后应用（应用端模块）的顺序进行工作，上述各单元还有以下特征：

（1）所述训练模块，由训练语音、语音对应的转录文本和训练工具组成，用于建立语音与文本之间的联系，为建模准备素材，训练语音由江淮语系语音和普通话语音两部分组成，它们与转录文本之间采用多对一的方式即江淮语系的发音与普通话发音对应同一个转录文本，由训练工具通过单音节绑定→建模→三音节绑定→建模多次训练找出语音与文本的对应关系的规律。

（2）所述建模模块，通过训练模块准备的素材应用隐马尔可夫模型（HMM）的工具包并配合模糊音识别技术建立准确合理的模型，所谓模糊音识别技术主要是指对江淮地区方言的一些发音进行模糊处理，示例如下：

（3）所述应用端模块，由语音识别器和语境二次识别器组成，所述语音识别器根据建模模块建立的模型来完成设计，用于对送入语音的首次识别，所述语境二次识别器由大量的词库组成，将首次识别后的语音根据前后文的语境进行二次识别，最后将识别的结果以文本的方式输出。

本发明的有益效果：

由于江淮语系识别的加入，降低了系统对江淮地区使用者输入语音普通话的要求，同时由于引入了语境二次识别器，更大大的提高了识别的准确性。

附图说明

图1为本发明结构示意图。

图中：1、训练模块；2、建模模块；3、应用端模块；4、江淮语系训练语音；5、普通话训练语音；6、转录文本；7、训练工具；8、语音识别器；9、语境二次识别器；10、语音输入端；11、文本输出端。

具体实施方式

参见图1，基于江淮语系的语音识别系统，包括有语音采集单元1、训练模块；2、建模模块；3应用端模块。

训练模块1由江淮语系训练语音4、普通话训练语音5、转录文本6和训练工具7组成，训练工具7即为计算机上运行的软件，而江淮语系训练语音4、普通话训练语音5和转录文本6也存储在同一台计算机上，由训练工具7同时将它们调用进行多对一训练，通过单音节绑定→建模→三音节绑定→建模多次训练找出语音与文本的对应关系的规律，为建模模块2提供建模素材。

建模模块2也即为计算机上运行的软件，通过对训练模块1提供素材的读取，应用隐马尔可夫模型（HMM）的工具包并配合模糊音识别技术建立准确合理的模型，用以为应用端模块3设计语音识别器8。

应用端模块3由语音识别器8和语境二次识别器9组成，语音识别器8为根据建模模块2提供的模型设计而成的，用于对语音进行一次识别；语境二次识别器9由大量的词库组成，通过对一次语音识别后的文档，根据前后文的意思再次进行二次识别对识别的结果进行最后确认并输出文本，

需要识别的语音由语音输入端10输入应用端模块3，首先由语音识别器8进行一次识别，结果送入语境二次识别器9对应前后文进行二次识别，最后由文本输出端11输出文本文档。

Claims

1.一种基于江淮语系的语音识别系统，其特征在于，它包括训练模块、建模模块和应用端模块，所述建模模块是训练模块与应用端模块连接的桥梁，它们之间按照先训练（训练模块）再建模（建模模块）最后应用（应用端模块）的顺序进行工作，上述各单元还有以下特征：

（1）所述训练模块，由训练语音、语音对应的转录文本和训练工具组成，用于建立语音与文本之间的联系，为建模准备素材，训练语音与文本之间采用多对一的方式即江淮语系的发音与普通话发音对应同一个转录文本；

（2）所述建模模块，通过训练模块准备的素材应用隐马尔可夫模型（HMM）的工具包并配合模糊音识别技术建立准确合理的模型；

（3）所述应用端模块，由语音识别器和语境二次识别器组成，语音识别器根据建模模块建立的模型来完成设计，用于对送入语音的首次识别，语境二次识别器由大量的词库组成，将首次识别后的语音根据前后文的语境进行二次识别。