CN101847406B - 语音识别查询方法及系统 - Google Patents

语音识别查询方法及系统 Download PDF

Info

Publication number
CN101847406B
CN101847406B CN2010101792762A CN201010179276A CN101847406B CN 101847406 B CN101847406 B CN 101847406B CN 2010101792762 A CN2010101792762 A CN 2010101792762A CN 201010179276 A CN201010179276 A CN 201010179276A CN 101847406 B CN101847406 B CN 101847406B
Authority
CN
China
Prior art keywords
query
speech recognition
audio file
text
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101792762A
Other languages
English (en)
Other versions
CN101847406A (zh
Inventor
高万林
欧文浩
张树亮
徐山川
李桢
易景平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN2010101792762A priority Critical patent/CN101847406B/zh
Publication of CN101847406A publication Critical patent/CN101847406A/zh
Application granted granted Critical
Publication of CN101847406B publication Critical patent/CN101847406B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语音识别查询方法,包括:对语音查询信息进行录音,并生成音频文件;根据音频文件进行语音识别,识别后生成文本文件;利用所述文本文件生成标准的SQL数据库查询语句并提交到数据库进行查询,并生成查询结果文本文件;将所述查询结果文本文件转换成可供语音卡播放的音频文件,并播放。本发明还公开了一种语音识别查询系统,包括:录音模块、语音识别模块、数据库查询模块和语音生成模块。本发明减少了人工干预的操作,实现语音信息查询的自动化;提高了语音服务系统效率,减少收听冗余提示音的时间,节省人工坐席时间及通话费用。

Description

语音识别查询方法及系统
技术领域
本发明涉及语音信息服务技术领域,特别涉及一种语音识别查询方法及系统。 
背景技术
随着我国农村信息化建设的快速发展,为农业从业人员提供信息服务的农业语音热线也正在全国大力开展和建设,通过近几年的发展,语音服务系统已基本在农村普及,并且建立庞大的信息资源数据库,可为农民用户及时提供所需信息。 
但在调研现有语音服务系统的过程中发现,农村现有的语音服务系统至少存在以下技术缺陷: 
1、语音服务系统有较多的操作需人工干预,系统的自动化程度较低; 
2、等待提示音时间较长,系统使用费用较昂贵; 
3、数据量过多时,不能快速定位到用户所需信息。 
发明内容
(一)要解决的技术问题 
本发明要解决的技术问题是:解决现有语音服务系统有较多的人工操作步骤,低效率、高费用的问题,及经常等待收听冗余提示音的播放,以致语音服务缓慢、繁琐的问题。 
(二)技术方案 
一种语音识别查询方法,包括以下步骤: 
S101:对语音查询信息进行录音,并生成音频文件; 
S102:根据音频文件进行语音识别,识别后生成文本文件,语音识别的方式为:根据XML格式的关键词语法文件对音频文件中的关 键词进行识别,所述XML格式的第一层结构定义识别的语言,第二层结构定义识别的关键词; 
S103:利用所述文本文件生成标准的SQL数据库查询语句并提交到数据库进行查询,并生成查询结果的文本文件; 
S104:将所述查询结果的文本文件转换成可供语音卡播放的音频文件,并播放。 
其中,所述音频文件为WAV格式文件。 
其中,语音识别后生成的文本文件为TXT格式文件。 
一种语音识别查询系统,包括: 
录音模块,用于对语音查询信息进行录音,并生成音频文件; 
语音识别模块,用于根据音频文件进行语音识别,识别后生成文本文件,语音识别的方式为:根据XML格式的关键词语法文件对音频文件中的关键词进行识别,所述XML格式的第一层结构定义识别的语言,第二层结构定义识别的关键词; 
数据库查询模块,用于利用所述文本文件生成标准的SQL数据库查询语句并提交到数据库进行查询,并生成查询结果的文本文件; 
语音生成模块,用于将所述查询结果的文本文件转换成可供语音卡播放的音频文件,并播放。 
(三)有益效果 
本发明的语音识别查询方法及系统具有如下有益效果: 
1、直接对语音进行识别及转换,减少了人工干预的操作,实现了语音信息查询的自动化; 
2、通过关键词查询,可以快速定位所需信息,提高了语音服务系统效率,减少了收听冗余提示音的时间,节省人工坐席时间及通话费用。 
附图说明
图1是根据本发明实施例的一种语音识别查询方法实施例流程 图; 
图2是根据本发明实施例的一种语音识别查询系统实施例结构示意图。 
具体实施方式
本发明提出的语音识别查询方法及系统,结合附图和实施例说明如下。 
如图1所示,为本发明方法在语音信息服务业务中的流程图。 
步骤S101,对客户端语音查询信息进行录音,并生成音频文件,其中音频文件为WAV格式或其它常见的音频格式文件。 
步骤S102,根据录音的音频文件进行语音识别,识别后生成文本文件。本实施例中调用微软的SAPI(The Microsoft Speech API)接口进行语音识别。有以下两种识别方式: 
1、听写模式,根据语音识别字库对音频文件进行全字符识别,但准确率较低,将识别结果按识别语言的编码存入新建的TXT文件; 
2、自定义关键词语法文件对音频文件中关键词进行识别,关键词语法文件一般为XML格式文件,内部第一层结构为定义识别的语言,例如:<GRAMMAR LANGID=″804″>,LANGID为识别语言的ID号,804代表中文;第二层结构为Rule Name,定义识别的关键词,基于关键词语音识别的识别率可达85%以上。在进行关键词识别前,关键词XML语法文件需调用SAPI中的IspeechRecoGrammar接口进行初始化,语音识别时将录音的音频文件和XML语法文件作为上述SAPI接口参数(WAV录音音频文件路径和关键词XML语法文件路径),如果识别次数超过3次仍不能匹配语法文件中的关键字,则自动放弃此次识别,返回空字符串,如果成功识别则返回识别结果并按识别语言的编码存入新建的TXT文件。 
步骤S 103,利用所述TXT文件生成标准的SQL数据库查询语句并提交到数据库进行查询,并生成查询结果文本文件。在语音信息服务 业务中对预先设定好的数据库进行连接和对数据库进行必要的库操作。在操作前需先进行数据库的参数进行配置,配置参数有数据库的网络地址(IP Address),数据库名(DataBase Name),数据库连接端口(Port),数据库用户名(UserName)和密码(Password)等,配置好后自动连接设定的数据库进行查询,并生成查询结果的文本文件。 
步骤S104:将所述查询结果的文本文件转换成可供语音卡播放的音频文件,本实施例中利用微软提供的DotNetSpeech类库中的SpFileStream函数,以所述查询结果的文本文件为参数,生成可供语音卡播放的音频文件,并向客户端播放。转换时的参数为需要生成语音文件的字符串(查询结果文本文件的内容),以及存放路径,转换后便生成单声道8位的WAV格式的音频文件,通过语音卡向客户端播放。 
如图2所示,为本发明实施例的一种语音识别查询系统实施例结构示意图,包括: 
录音模块,用于对客户端语音查询信息进行录音,并生成音频文件。 
语音识别模块,用于根据音频文件进行语音识别,识别后生成文本文件。该模块基于微软语音开发应用程序接口(The MicrosoftSpeech API,SAPI),在Windows操作系统下开发而成,可支持多种语言识别,包括英文、中文、日文等。 
数据库查询模块,用于利用所述文本文件生成标准的SQL数据库查询语句并提交到数据库进行查询,并生成查询结果的文本文件。 
语音生成模块(Text-To-Speech,TTS),用于将所述查询结果的文本文件转换成可供语音卡播放的音频文件,并向客户端播放。其中,语音卡支持单声道8位的WAV格式的音频文件。 
由以上实施例可以看出,本发明的语音识别查询方法及系统通过直接对语音进行识别及转换,减少了人工干预的操作,实现了语音信 息查询的自动化;通过关键词查询,可以快速定位所需信息,提高了语音服务系统效率,减少了收听冗余提示音的时间,节省人工坐席时间及通话费用。 
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。 

Claims (4)

1.一种语音识别查询方法,其特征在于,包括以下步骤:
S101:对语音查询信息进行录音,并生成音频文件;
S102:根据音频文件进行语音识别,识别后生成文本文件,语音识别的方式为:根据XML格式的关键词语法文件对音频文件中的关键词进行识别,所述XML格式的第一层结构定义识别的语言,第二层结构定义识别的关键词;
S103:利用所述文本文件生成标准的SQL数据库查询语句并提交到数据库进行查询,并生成查询结果的文本文件;
S104:将所述查询结果的文本文件转换成可供语音卡播放的音频文件,并播放。
2.如权利要求1所述的语音识别查询方法,其特征在于,所述音频文件为WAV格式文件。
3.如权利要求1所述的语音识别查询方法,其特征在于,语音识别后生成的文本文件为TXT格式文件。
4.一种语音识别查询系统,其特征在于,包括:
录音模块,用于对语音查询信息进行录音,并生成音频文件;
语音识别模块,用于根据音频文件进行语音识别,识别后生成文本文件,语音识别的方式为:根据XML格式的关键词语法文件对音频文件中的关键词进行识别,所述XML格式的第一层结构定义识别的语言,第二层结构定义识别的关键词;
数据库查询模块,用于利用所述文本文件生成标准的SQL数据库查询语句并提交到数据库进行查询,并生成查询结果的文本文件;
语音生成模块,用于将所述查询结果的文本文件转换成可供语音卡播放的音频文件,并播放。
CN2010101792762A 2010-05-18 2010-05-18 语音识别查询方法及系统 Expired - Fee Related CN101847406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101792762A CN101847406B (zh) 2010-05-18 2010-05-18 语音识别查询方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101792762A CN101847406B (zh) 2010-05-18 2010-05-18 语音识别查询方法及系统

Publications (2)

Publication Number Publication Date
CN101847406A CN101847406A (zh) 2010-09-29
CN101847406B true CN101847406B (zh) 2012-01-11

Family

ID=42772002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101792762A Expired - Fee Related CN101847406B (zh) 2010-05-18 2010-05-18 语音识别查询方法及系统

Country Status (1)

Country Link
CN (1) CN101847406B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867276B (zh) * 2012-08-14 2015-10-28 北京用尚科技有限公司 基于电力业务系统的交互式控制方法
CN104751843A (zh) * 2013-12-25 2015-07-01 上海博泰悦臻网络技术服务有限公司 一种语音服务切换方法和系统
CN104021186A (zh) * 2014-06-13 2014-09-03 中国民航信息网络股份有限公司 基于语音识别的航班动态智能查询系统及方法
CN104125347A (zh) * 2014-06-24 2014-10-29 小米科技有限责任公司 获取语音服务的方法和装置
US9560200B2 (en) 2014-06-24 2017-01-31 Xiaomi Inc. Method and device for obtaining voice service
US20160379641A1 (en) * 2015-06-29 2016-12-29 Microsoft Technology Licensing, Llc Auto-Generation of Notes and Tasks From Passive Recording
CN107305567A (zh) * 2016-04-21 2017-10-31 北京智能管家科技有限公司 一种基于双层trie树的语句查询方法及装置
CN105957517A (zh) * 2016-04-29 2016-09-21 中国南方电网有限责任公司电网技术研究中心 基于开源api的语音数据结构化转换方法及其系统
CN108737538B (zh) * 2018-05-17 2021-03-23 深圳友讯达科技股份有限公司 后台数据处理方法及装置
CN113113019A (zh) * 2021-03-27 2021-07-13 上海红阵信息科技有限公司 一种语音库生成系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1358019A (zh) * 2001-12-31 2002-07-10 阮闯 全球电子导游系统及其导游方法
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance

Also Published As

Publication number Publication date
CN101847406A (zh) 2010-09-29

Similar Documents

Publication Publication Date Title
CN101847406B (zh) 语音识别查询方法及系统
US7980465B2 (en) Hands free contact database information entry at a communication device
US9183834B2 (en) Speech recognition tuning tool
US8676577B2 (en) Use of metadata to post process speech recognition output
US8189746B1 (en) Voice rendering of E-mail with tags for improved user experience
US20100299150A1 (en) Language Translation System
CN201504266U (zh) 一种基于电话银行的用户语音处理系统
US20080130699A1 (en) Content selection using speech recognition
US20100094616A1 (en) Messaging Translation Services
CN101141666B (zh) 在手机中将文本短信转换成语音播放的方法
US20090240488A1 (en) Corrective feedback loop for automated speech recognition
CN1920945B (zh) 语音的声调轮廓的转换
RU2010132237A (ru) Способ и устройство для реализации распределенных мультимодальных приложений
US8374862B2 (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
CN1783213A (zh) 用于自动语音识别的方法和装置
WO2009006081A2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
JP2002032213A (ja) ボイス・メール・メッセージを転記する方法およびシステム
GB2396033A (en) Voice control of software applications
JP6783339B2 (ja) 音声を処理する方法及び装置
WO2010129056A2 (en) System and method for speech processing and speech to text
CN104050966A (zh) 终端设备的语音交互方法和使用该方法的终端设备
CN104202455A (zh) 智能语音拨号的方法及装置
CN101340676A (zh) 一种实现同声翻译的方法、装置和移动终端
CN109040485B (zh) 一种基于自然语言处理的高速服务热线智能全景语音导航系统
CN106598955A (zh) 语音翻译方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120111

Termination date: 20180518

CF01 Termination of patent right due to non-payment of annual fee