CN101847406B

CN101847406B - 语音识别查询方法及系统

Info

Publication number: CN101847406B
Application number: CN2010101792762A
Authority: CN
Inventors: 高万林; 欧文浩; 张树亮; 徐山川; 李桢; 易景平
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2010-05-18
Filing date: 2010-05-18
Publication date: 2012-01-11
Anticipated expiration: 2030-05-18
Also published as: CN101847406A

Abstract

本发明公开了一种语音识别查询方法，包括：对语音查询信息进行录音，并生成音频文件；根据音频文件进行语音识别，识别后生成文本文件；利用所述文本文件生成标准的SQL数据库查询语句并提交到数据库进行查询，并生成查询结果文本文件；将所述查询结果文本文件转换成可供语音卡播放的音频文件，并播放。本发明还公开了一种语音识别查询系统，包括：录音模块、语音识别模块、数据库查询模块和语音生成模块。本发明减少了人工干预的操作，实现语音信息查询的自动化；提高了语音服务系统效率，减少收听冗余提示音的时间，节省人工坐席时间及通话费用。

Description

语音识别查询方法及系统

技术领域

本发明涉及语音信息服务技术领域，特别涉及一种语音识别查询方法及系统。

背景技术

随着我国农村信息化建设的快速发展，为农业从业人员提供信息服务的农业语音热线也正在全国大力开展和建设，通过近几年的发展，语音服务系统已基本在农村普及，并且建立庞大的信息资源数据库，可为农民用户及时提供所需信息。

但在调研现有语音服务系统的过程中发现，农村现有的语音服务系统至少存在以下技术缺陷：

1、语音服务系统有较多的操作需人工干预，系统的自动化程度较低；

2、等待提示音时间较长，系统使用费用较昂贵；

3、数据量过多时，不能快速定位到用户所需信息。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：解决现有语音服务系统有较多的人工操作步骤，低效率、高费用的问题，及经常等待收听冗余提示音的播放，以致语音服务缓慢、繁琐的问题。

(二)技术方案

一种语音识别查询方法，包括以下步骤：

S101：对语音查询信息进行录音，并生成音频文件；

S102：根据音频文件进行语音识别，识别后生成文本文件，语音识别的方式为：根据XML格式的关键词语法文件对音频文件中的关键词进行识别，所述XML格式的第一层结构定义识别的语言，第二层结构定义识别的关键词；

S103：利用所述文本文件生成标准的SQL数据库查询语句并提交到数据库进行查询，并生成查询结果的文本文件；

S104：将所述查询结果的文本文件转换成可供语音卡播放的音频文件，并播放。

其中，所述音频文件为WAV格式文件。

其中，语音识别后生成的文本文件为TXT格式文件。

一种语音识别查询系统，包括：

录音模块，用于对语音查询信息进行录音，并生成音频文件；

语音识别模块，用于根据音频文件进行语音识别，识别后生成文本文件，语音识别的方式为：根据XML格式的关键词语法文件对音频文件中的关键词进行识别，所述XML格式的第一层结构定义识别的语言，第二层结构定义识别的关键词；

数据库查询模块，用于利用所述文本文件生成标准的SQL数据库查询语句并提交到数据库进行查询，并生成查询结果的文本文件；

语音生成模块，用于将所述查询结果的文本文件转换成可供语音卡播放的音频文件，并播放。

(三)有益效果

本发明的语音识别查询方法及系统具有如下有益效果：

1、直接对语音进行识别及转换，减少了人工干预的操作，实现了语音信息查询的自动化；

2、通过关键词查询，可以快速定位所需信息，提高了语音服务系统效率，减少了收听冗余提示音的时间，节省人工坐席时间及通话费用。

附图说明

图1是根据本发明实施例的一种语音识别查询方法实施例流程图；

图2是根据本发明实施例的一种语音识别查询系统实施例结构示意图。

具体实施方式

本发明提出的语音识别查询方法及系统，结合附图和实施例说明如下。

如图1所示，为本发明方法在语音信息服务业务中的流程图。

步骤S101，对客户端语音查询信息进行录音，并生成音频文件，其中音频文件为WAV格式或其它常见的音频格式文件。

步骤S102，根据录音的音频文件进行语音识别，识别后生成文本文件。本实施例中调用微软的SAPI(The Microsoft Speech API)接口进行语音识别。有以下两种识别方式：

1、听写模式，根据语音识别字库对音频文件进行全字符识别，但准确率较低，将识别结果按识别语言的编码存入新建的TXT文件；

2、自定义关键词语法文件对音频文件中关键词进行识别，关键词语法文件一般为XML格式文件，内部第一层结构为定义识别的语言，例如：<GRAMMAR LANGID＝″804″>，LANGID为识别语言的ID号，804代表中文；第二层结构为Rule Name，定义识别的关键词，基于关键词语音识别的识别率可达85％以上。在进行关键词识别前，关键词XML语法文件需调用SAPI中的IspeechRecoGrammar接口进行初始化，语音识别时将录音的音频文件和XML语法文件作为上述SAPI接口参数(WAV录音音频文件路径和关键词XML语法文件路径)，如果识别次数超过3次仍不能匹配语法文件中的关键字，则自动放弃此次识别，返回空字符串，如果成功识别则返回识别结果并按识别语言的编码存入新建的TXT文件。

步骤S 103，利用所述TXT文件生成标准的SQL数据库查询语句并提交到数据库进行查询，并生成查询结果文本文件。在语音信息服务业务中对预先设定好的数据库进行连接和对数据库进行必要的库操作。在操作前需先进行数据库的参数进行配置，配置参数有数据库的网络地址(IP Address)，数据库名(DataBase Name)，数据库连接端口(Port)，数据库用户名(UserName)和密码(Password)等，配置好后自动连接设定的数据库进行查询，并生成查询结果的文本文件。

步骤S104：将所述查询结果的文本文件转换成可供语音卡播放的音频文件，本实施例中利用微软提供的DotNetSpeech类库中的SpFileStream函数，以所述查询结果的文本文件为参数，生成可供语音卡播放的音频文件，并向客户端播放。转换时的参数为需要生成语音文件的字符串(查询结果文本文件的内容)，以及存放路径，转换后便生成单声道8位的WAV格式的音频文件，通过语音卡向客户端播放。

如图2所示，为本发明实施例的一种语音识别查询系统实施例结构示意图，包括：

录音模块，用于对客户端语音查询信息进行录音，并生成音频文件。

语音识别模块，用于根据音频文件进行语音识别，识别后生成文本文件。该模块基于微软语音开发应用程序接口(The MicrosoftSpeech API，SAPI)，在Windows操作系统下开发而成，可支持多种语言识别，包括英文、中文、日文等。

数据库查询模块，用于利用所述文本文件生成标准的SQL数据库查询语句并提交到数据库进行查询，并生成查询结果的文本文件。

语音生成模块(Text-To-Speech，TTS)，用于将所述查询结果的文本文件转换成可供语音卡播放的音频文件，并向客户端播放。其中，语音卡支持单声道8位的WAV格式的音频文件。

由以上实施例可以看出，本发明的语音识别查询方法及系统通过直接对语音进行识别及转换，减少了人工干预的操作，实现了语音信息查询的自动化；通过关键词查询，可以快速定位所需信息，提高了语音服务系统效率，减少了收听冗余提示音的时间，节省人工坐席时间及通话费用。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种语音识别查询方法，其特征在于，包括以下步骤：

S101：对语音查询信息进行录音，并生成音频文件；

2.如权利要求1所述的语音识别查询方法，其特征在于，所述音频文件为WAV格式文件。

3.如权利要求1所述的语音识别查询方法，其特征在于，语音识别后生成的文本文件为TXT格式文件。

4.一种语音识别查询系统，其特征在于，包括：