CN102968992B - 用于浏览器的语音识别处理方法和浏览器 - Google Patents

用于浏览器的语音识别处理方法和浏览器 Download PDF

Info

Publication number
CN102968992B
CN102968992B CN201210487232.5A CN201210487232A CN102968992B CN 102968992 B CN102968992 B CN 102968992B CN 201210487232 A CN201210487232 A CN 201210487232A CN 102968992 B CN102968992 B CN 102968992B
Authority
CN
China
Prior art keywords
web
browser
local
voice
speech data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210487232.5A
Other languages
English (en)
Other versions
CN102968992A (zh
Inventor
杨东
任寰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201210487232.5A priority Critical patent/CN102968992B/zh
Publication of CN102968992A publication Critical patent/CN102968992A/zh
Application granted granted Critical
Publication of CN102968992B publication Critical patent/CN102968992B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种用于浏览器的语音识别处理方法和浏览器。该方法包括接收用户指令设置浏览器的声控模式为命令输入模式或者文本输入模式;接收语音输入,并转换为语音数据;调用浏览器侧本地语音识别引擎对语音数据进行识别,接收本地语音识别结果,如果完全识别成功,则依据本地语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理;否则,调用WEB语音识别引擎对未成功识别的语音数据进行识别,整合本地语音识别结果和WEB语音识别结果得到最终识别结果,依据最终识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理。采用本发明,综合本地语音识别引擎和WEB语音识别引擎对语音数据进行识别,提高了识别效率和准确度。

Description

用于浏览器的语音识别处理方法和浏览器
技术领域
本发明涉及互联网通信技术领域,特别涉及一种用于浏览器的语音识别处理方法和浏览器。
背景技术
语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
浏览器是指可以显示网页服务器或者文件系统的HTML(Hypertext Markup Language,超文本标记语言)文件内容,并让用户与这些文件交互的一种软件。网页浏览器主要通过HTTP(Hypertexttransfer protocol,超文本传递协议)协议与网页服务器交互并获取网页,这些网页由URL(Uniform/Universal Resource Locator,统一资源定位符)指定,文件格式通常为HTML,并由MIME(MultipurposeInternet Mail Extensions,多功能互联网邮件扩充服务)在HTTP协议中指明。
现有的浏览器大多没有集成语音识别功能,即是个别浏览器集成了语音识别功能,一般只基于本地语音识别引擎或只基于WEB(网络)语音识别引擎,识别效率低、准确性差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种用于浏览器的语音识别处理方法和浏览器。
依据本发明的一个方面,提供了一种浏览器,其包括:
处理器,适于接收用户输入指令设置浏览器的声控模式为命令输入模式或者文本输入模式;
语音接收器,适于接收用户的语音输入,并转换为语音数据;
本地识别单元,适于调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
WEB识别单元,适于在所述本地识别单元识别失败的情况下,调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,依据WEB语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
其中,所述本地识别单元,还适于在对所述语音数据部分识别成功的情况下,将未成功识别的语音数据发送给所述WEB识别单元;
所述WEB识别单元,还适于调用WEB语音识别引擎对未成功识别的语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,整合本地语音识别结果和WEB语音识别结果得到最终识别结果,依据最终识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理。
可选地,所述本地识别单元包括:
本地调用模块,适于调用本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果;
本地判断模块,适于判断所述本地语音识别结果是否为空,如果是,认为识别失败,向WEB识别单元发送启动通知;否则,判断当前声控模式是否是文本输入模式,如果是,认为识别成功,在所述浏览器中输入所述本地语音识别结果对应的输入文本,否则,向本地匹配模块发送本地匹配指令;
所述本地匹配模块,适于根据所述本地匹配指令,将所述本地语音识别结果与所述浏览器的命令集进行匹配,如果匹配成功,按照所述本地语音识别结果执行相应的浏览器操作,否则,认为识别失败,向WEB识别单元发送启动通知。
可选地,所述WEB识别单元包括:
通知接收模块,适于接收所述本地识别单元发送的启动通知;
WEB调用模块,适于调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果;
WEB判断模块,适于判断当前声控模式是否是文本输入模式,如果是,在所述浏览器中输入所述WEB语音识别结果对应的输入文本,否则,向WEB匹配模块发送WEB匹配指令;
WEB匹配模块,适于根据所述WEB匹配指令将所述WEB语音识别结果与所述浏览器的命令集进行匹配,并按照所述WEB语音识别结果执行相应的浏览器操作。
可选地,所述命令集包括所述浏览器的操作命令。
可选地,所述浏览器还包括:训练语音识别单元;
所述训练语音识别单元包括:
训练语音库建立模块,适于预先对用户的语音数据进行训练,生成包含训练语音及相应的输入文本或相应的所述操作命令的训练语音库;
训练语音匹配模块,适于将所述语音数据与所述训练语音库中的训练语音相匹配,如果匹配成功,在文本输入模式下,在所述浏览器中输入相应的输入文本,或者,在命令输入模式下,按照相应的操作命令执行相应的浏览器操作。
可选地,所述训练语音识别单元还包括:提示模块;
所述提示模块,适于提示用户对常用操作命令、地址栏中常用地址和/或搜索栏中常用搜索关键字进行语音训练。
可选地,所述训练语音识别单元还包括:建表模块和查表模块;
所述建表模块,适于生成地址栏中输入和推荐的常用地址的URL与相应的网页标题的对应关系表;
其中,所述网页标题还作为所述训练语音库中的输入文本与相应的训练语音相对应;
所述训练语音匹配模块,还适于当用户在地址栏中进行语音输入时,将用户输入的语音与所述训练语音相匹配获得对应的网页标题;
所述查表模块,适于根据匹配获得的网页标题查询所述对应关系表获得相应的URL,并将获得的URL输入至所述浏览器的地址栏中。
可选地,所述浏览器还包括:历史语音识别单元;
所述历史语音识别单元包括:
历史语音库建立模块,适于将所述系统已经识别的历史语音及相应的输入文本或相应的所述操作命令进行存储生成历史语音库;
历史语音匹配模块,适于将所述语音数据与所述历史语音库中的历史语音相匹配,如果匹配成功,在文本输入模式下,在所述浏览器中输入相应的输入文本,或者,在命令输入模式下,按照相应的操作命令执行相应的浏览器操作。
可选地,所述训练语音库和/或历史语音库与相应的浏览器用户绑定,并作为相应的浏览器用户的个人信息存储在浏览器侧或者网络服务器侧的数据库中。
本发明还提供一种用于浏览器的语音识别处理方法,其包括步骤:
接收用户输入指令设置浏览器的声控模式为命令输入模式或者文本输入模式;
接收用户的语音输入,并转换为语音数据;
调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
否则,调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,依据WEB语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
其中,所述调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
否则,调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,依据WEB语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理,进一步为:
调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果完全识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
否则,调用WEB语音识别引擎对未成功识别的语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,整合本地语音识别结果和WEB语音识别结果得到最终识别结果,依据最终识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理。
可选地,所述调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理的步骤包括:
调用本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果;
在所述本地语音识别结果不为空的情况下,判断当前声控模式是否是文本输入模式,如果是,认为识别成功,在所述浏览器中输入所述本地语音识别结果对应的输入文本后结束流程,否则,
将所述本地语音识别结果与所述浏览器的命令集进行匹配,如果匹配成功,按照所述本地语音识别结果执行相应的浏览器操作后结束流程。
可选地,所述调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,依据WEB语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理的步骤包括:
调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果;
判断当前声控模式是否是文本输入模式,如果是,在所述浏览器中输入所述WEB语音识别结果对应的输入文本,否则,根据所述WEB匹配指令将所述WEB语音识别结果与所述浏览器的命令集进行匹配,并按照所述WEB语音识别结果执行相应的浏览器操作。
可选地,所述命令集包括所述浏览器的操作命令。
可选地,在所述调用浏览器侧本地语音识别引擎对所述语音数据进行识别,之前还包括步骤:
预先对用户的语音数据进行训练,生成包含训练语音及相应的输入文本或相应的所述操作命令的训练语音库;
将所述语音数据与所述训练语音库中的训练语音相匹配,如果匹配成功,在文本输入模式下,在所述浏览器中输入相应的输入文本后结束流程,或者,在命令输入模式下,按照相应的操作命令执行相应的浏览器操作后结束流程;否则,执行所述调用本地语音识别引擎对所述语音数据进行识别的步骤。
可选地,所述预先对用户的语音数据进行训练之前包括步骤:
提示用户对常用操作命令、地址栏中常用地址和/或搜索栏中常用搜索关键字进行语音训练。
可选地,所述生成包含训练语音及相应的输入文本或相应的所述操作命令的训练语音库,之后还包括步骤:
生成地址栏中输入和推荐的常用地址的URL与相应的网页标题的对应关系表;
其中,所述网页标题还作为所述训练语音库中的输入文本与相应的训练语音相对应;
当用户在地址栏中进行语音输入时,将用户输入的语音与所述训练语音相匹配获得对应的网页标题;
在网页标签中打开所述网页标题对应的URL。
可选地,在所述调用浏览器侧本地语音识别引擎对所述语音数据进行识别,之前还包括步骤:
将所述系统已经识别的历史语音及相应的输入文本或相应的所述操作命令进行存储生成历史语音库;
将所述语音数据与所述历史语音库中的历史语音相匹配,如果匹配成功,在文本输入模式下,在所述浏览器中输入相应的输入文本后结束流程,或者,在命令输入模式下,按照相应的操作命令执行相应的浏览器操作后结束流程;否则,执行所述调用本地语音识别引擎对所述语音数据进行识别的步骤。
可选地,所述训练语音库和/或历史语音库与相应的浏览器用户绑定,并作为相应的浏览器用户的个人信息存储在浏览器侧或者网络服务器侧的数据库中。
本发明所述用于浏览器的语音识别处理方法和浏览器,综合本地语音识别引擎和WEB语音识别引擎对语音数据进行识别,显著提高了识别效率和识别准确度。同时,通过结合训练语音库和历史语音库,对语音数据进行前期预识别,能够进一步提高识别效率和识别准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的浏览器的模块结构示意图;
图2示出了根据本发明一个实施例的本地识别单元的模块结构示意图;
图3示出了根据本发明一个实施例的WEB识别单元的模块结构示意图;
图4示出了根据本发明另一个实施例的浏览器的模块结构示意图;
图5示出了根据本发明另一个实施例的训练语音识别单元的模块结构示意图;
图6示出了根据本发明另一个实施例的历史语音识别单元的模块结构示意图;
图7示出了根据本发明一个实施例的用于浏览器的语音识别处理方法流程图;
图8示出了根据本发明另一个实施例的用于浏览器的语音识别处理方法流程图;
图9示出了根据本发明再一个实施例的用于浏览器的语音识别处理方法流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的浏览器的模块结构示意图,如图1所示,所述浏览器100包括:
处理器110,适于接收用户输入指令设置浏览器的声控模式为命令输入模式或者文本输入模式。在所述命令输入模式下,用户的输入会被识别为对浏览器执行的操作命令,比如前进、后退;在文本输入模式下,用户的输入会被识别为输入文本,比如在地址栏中输入相应的网页地址。
语音接收器120,适于接收用户的语音输入,并转换为语音数据。所述语音接收器120可以是麦克风等现有设备。
本地识别单元130,适于调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理。其中,所述本地语音识别引擎可以采用微软的语音识别引擎等。
参见图2,所述本地识别单元130包括:
本地调用模块131,适于调用本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果。
本地判断模块132,适于判断所述本地语音识别结果是否为空,如果是,认为识别失败,向WEB识别单元发送启动通知;否则,判断当前声控模式是否是文本输入模式,如果是,认为识别成功,在所述浏览器中输入所述本地语音识别结果对应的输入文本,否则,向本地匹配模块发送本地匹配指令。
所述本地匹配模块133,适于根据所述本地匹配指令,将所述本地语音识别结果与所述浏览器的命令集进行匹配,如果匹配成功,按照所述本地语音识别结果执行相应的浏览器操作,否则,认为识别失败,向WEB识别单元发送启动通知。
WEB识别单元140,适于在所述本地识别单元识别失败的情况下,调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,依据WEB语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理。所述WEB语音识别引擎可以采用谷歌的语音识别引擎等。
参见图3,所述WEB识别单元140包括:
通知接收模块141,适于接收所述本地识别单元发送的启动通知。
WEB调用模块142,适于调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果。
WEB判断模块143,适于判断当前声控模式是否是文本输入模式,如果是,在所述浏览器中输入所述WEB语音识别结果对应的输入文本,否则,向WEB匹配模块发送WEB匹配指令。
WEB匹配模块144,适于根据所述WEB匹配指令将所述WEB语音识别结果与所述浏览器的命令集进行匹配,并按照所述WEB语音识别结果执行相应的浏览器操作。
其中,所述命令集包括所述浏览器100的操作命令,比如前进、后退、向上滚动一页浏览页面、向下滚动一页浏览页面等。
另外,所述本地识别单元130,还适于在对所述语音数据部分识别成功的情况下,将未成功识别的语音数据发送给所述WEB识别单元。
所述WEB识别单元140,还适于调用WEB语音识别引擎对未成功识别的语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,整合本地语音识别结果和WEB语音识别结果得到最终识别结果,依据最终识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理。
也就是说,当所述本地识别单元130对语音数据识别不清楚时,即部分数据未识别时,可以令所述WEB识别单元140对所述本地识别单元130的本地识别结果进行校正,即只对未成功识别的部分进行补充识别,这样可以充分利用本地识别单元130的计算资源,减少对WEB识别单元140的依赖,从而可以提高识别效率。
图4示出了根据本发明另一个实施例的浏览器的模块结构示意图,如图4所示,本实施例所述浏览器与上一实施例所述浏览器基本相同,其不同之处仅在于,该浏览器100还包括:训练语音识别单元150、训练语音库160、历史语音识别单元170和历史语音库180。
参见图5,所述训练语音识别单元150包括:
训练语音库建立模块151,适于预先对用户的语音数据进行训练,生成包含训练语音及相应的输入文本或相应的所述操作命令的训练语音库160。
训练语音匹配模块152,适于将所述语音数据与所述训练语音库160中的训练语音相匹配,如果匹配成功,在文本输入模式下,在所述浏览器中输入相应的输入文本,或者,在命令输入模式下,按照相应的操作命令执行相应的浏览器操作。
所述训练语音识别单元150还包括:提示模块153、建表模块154和查表模块155。
所述提示模块153,适于提示用户对常用操作命令、地址栏中常用地址和/或搜索栏中常用搜索关键字进行语音训练。
所述建表模块154,适于生成地址栏中输入和推荐的常用地址的URL与相应的网页标题的对应关系表。
其中,所述网页标题还作为所述训练语音库中的输入文本与相应的训练语音相对应。
所述训练语音匹配模块152,还适于当用户在地址栏中进行语音输入时,将用户输入的语音与所述训练语音相匹配获得对应的网页标题。
所述查表模块155,适于根据匹配获得的网页标题查询所述对应关系表获得相应的URL,并将获得的URL输入至所述浏览器的地址栏中。
例如,用户可以将经常使用的“凤凰网”作为网页标题,生成其对应的训练语音,同时在对应关系表中建立“凤凰网”与其URL:www.ifeng.com的对应关系,这样,当用户通过语音输入“凤凰网”时,可以自动通过浏览器打开凤凰网的主页。
参见图6,所述历史语音识别单元170包括:
历史语音库建立模块171,适于将所述系统已经识别的历史语音及相应的输入文本或相应的所述操作命令进行存储生成历史语音库180。
历史语音匹配模块172,适于将所述语音数据与所述历史语音库180中的历史语音相匹配,如果匹配成功,在文本输入模式下,在所述浏览器中输入相应的输入文本,或者,在命令输入模式下,按照相应的操作命令执行相应的浏览器操作。
其中,所述训练语音库和/或历史语音库与相应的浏览器用户绑定,并作为相应的浏览器用户的个人信息存储在浏览器侧或者网络服务器侧的数据库中,这样当用户凭账号、密码登录浏览器后,浏览器自动调用相应的训练语音库和/或历史语音库对用户输入的语音数据进行辅助识别。
图7示出了根据本发明一个实施例的用于浏览器的语音识别处理方法流程图,如图7所示,所述方法包括步骤:
S100、接收用户输入指令设置浏览器的声控模式为命令输入模式或者文本输入模式。
S200、接收用户的语音输入,并转换为语音数据。
S300、调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理。
所述步骤S300进一步包括:
调用本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果;
在所述本地语音识别结果不为空的情况下,判断当前声控模式是否是文本输入模式,如果是,认为识别成功,在所述浏览器中输入所述本地语音识别结果对应的输入文本后结束流程,否则,
将所述本地语音识别结果与所述浏览器的命令集进行匹配,如果匹配成功,按照所述本地语音识别结果执行相应的浏览器操作后结束流程。
S400、否则,调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,依据WEB语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理。
所述步骤S400进一步包括:
调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果;
判断当前声控模式是否是文本输入模式,如果是,在所述浏览器中输入所述WEB语音识别结果对应的输入文本,否则,根据所述WEB匹配指令将所述WEB语音识别结果与所述浏览器的命令集进行匹配,并按照所述WEB语音识别结果执行相应的浏览器操作。
其中,所述命令集包括所述浏览器的操作命令。
另外,所述步骤S300和S400可以进一步为:
S300’、调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果完全识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
S400’、否则,调用WEB语音识别引擎对未成功识别的语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,整合本地语音识别结果和WEB语音识别结果得到最终识别结果,依据最终识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理。
图8示出了根据本发明另一个实施例的用于浏览器的语音识别处理方法流程图,如图8所示,本实施例所述方法与上一实施例所述方法基本相同其不同之处在于,该方法在所述步骤S300之前还包括步骤:
P1、预先对用户的语音数据进行训练,生成包含训练语音及相应的输入文本或相应的所述操作命令的训练语音库;
P2、将所述语音数据与所述训练语音库中的训练语音相匹配,如果匹配成功,在文本输入模式下,在所述浏览器中输入相应的输入文本后结束流程,或者,在命令输入模式下,按照相应的操作命令执行相应的浏览器操作后结束流程;否则,执行所述调用本地语音识别引擎对所述语音数据进行识别的步骤。
另外,在所述步骤P1之前还可以包括步骤:
提示用户对常用操作命令、地址栏中常用地址和/或搜索栏中常用搜索关键字进行语音训练。
相应地,在所述步骤P1之后还可以包括步骤:
生成地址栏中输入和推荐的常用地址的URL与相应的网页标题的对应关系表;
其中,所述网页标题还作为所述训练语音库中的输入文本与相应的训练语音相对应;
当用户在地址栏中进行语音输入时,将用户输入的语音与所述训练语音相匹配获得对应的网页标题;
在网页标签中打开所述网页标题对应的URL。
图9示出了根据本发明再一个实施例的用于浏览器的语音识别处理方法流程图,如图9所示,本实施例与第一个方法实施例基本相同,其不同之处仅在于,该实施例中方法在所述步骤S300之前还包括步骤:
T1、将所述系统已经识别的历史语音及相应的输入文本或相应的所述操作命令进行存储生成历史语音库;
T2、将所述语音数据与所述历史语音库中的历史语音相匹配,如果匹配成功,在文本输入模式下,在所述浏览器中输入相应的输入文本后结束流程,或者,在命令输入模式下,按照相应的操作命令执行相应的浏览器操作后结束流程;否则,执行所述调用本地语音识别引擎对所述语音数据进行识别的步骤。
另外,所述训练语音库和/或历史语音库与相应的浏览器用户绑定,并作为相应的浏览器用户的个人信息存储在浏览器侧或者网络服务器侧的数据库中。并且,上述后两个方法实施例中所增加的步骤(步骤P1、P2和步骤T1、T2)可以组合使用,也就是说同时利用所述训练语音库和历史语音库进行前期的辅助语音识别,以进一步提高识别效率。
本发明实施例所述可进行语音识别处理的浏览器及浏览器中进行语音识别处理的方法,综合本地语音识别引擎和WEB语音识别引擎对语音数据进行识别,显著提高了识别效率和识别准确度。同时,通过结合训练语音库和历史语音库,对语音数据进行前期预识别,能够进一步提高识别效率和识别准确度。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的浏览器中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (18)

1.一种浏览器,其包括:
处理器,适于接收用户输入指令设置浏览器的声控模式为命令输入模式或者文本输入模式;
语音接收器,适于接收用户的语音输入,并转换为语音数据;
本地识别单元,适于调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
WEB识别单元,适于在所述本地识别单元识别失败的情况下,调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,依据WEB语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
其中,所述本地识别单元,还适于在对所述语音数据部分识别成功的情况下,将未成功识别的语音数据发送给所述WEB识别单元;
所述WEB识别单元,还适于调用WEB语音识别引擎对未成功识别的语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,整合本地语音识别结果和WEB语音识别结果得到最终识别结果,依据最终识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
所述浏览器还包括:训练语音识别单元,所述训练语音识别单元包括:
建表模块,适于生成地址栏中输入和推荐的常用地址的URL与相应的网页标题的对应关系表;其中,所述网页标题作为训练语音库中的输入文本与相应的训练语音相对应;所述训练语音库与相应的浏览器用户绑定。
2.如权利要求1所述的浏览器,其特征在于,所述本地识别单元包括:
本地调用模块,适于调用本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果;
本地判断模块,适于判断所述本地语音识别结果是否为空,如果是,认为识别失败,向WEB识别单元发送启动通知;否则,判断当前声控模式是否是文本输入模式,如果是,认为识别成功,在所述浏览器中输入所述本地语音识别结果对应的输入文本,否则,向本地匹配模块发送本地匹配指令;
所述本地匹配模块,适于根据所述本地匹配指令,将所述本地语音识别结果与所述浏览器的命令集进行匹配,如果匹配成功,按照所述本地语音识别结果执行相应的浏览器操作,否则,认为识别失败,向WEB识别单元发送启动通知。
3.如权利要求2所述的浏览器,其特征在于,所述WEB识别单元包括:
通知接收模块,适于接收所述本地识别单元发送的启动通知;
WEB调用模块,适于调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果;
WEB判断模块,适于判断当前声控模式是否是文本输入模式,如果是,在所述浏览器中输入所述WEB语音识别结果对应的输入文本,否则,向WEB匹配模块发送WEB匹配指令;
WEB匹配模块,适于根据所述WEB匹配指令将所述WEB语音识别结果与所述浏览器的命令集进行匹配,并按照所述WEB语音识别结果执行相应的浏览器操作。
4.如权利要求2或3所述的浏览器,其特征在于,所述命令集包括所述浏览器的操作命令。
5.如权利要求4所述的浏览器,其特征在于,所述训练语音识别单元还包括:
训练语音库建立模块,适于预先对用户的语音数据进行训练,生成包含训练语音及相应的输入文本或相应的所述操作命令的训练语音库;
训练语音匹配模块,适于将所述语音数据与所述训练语音库中的训练语音相匹配,如果匹配成功,在文本输入模式下,在所述浏览器中输入相应的输入文本,或者,在命令输入模式下,按照相应的操作命令执行相应的浏览器操作。
6.如权利要求5所述的浏览器,其特征在于,所述训练语音识别单元还包括:提示模块;
所述提示模块,适于提示用户对常用操作命令、地址栏中常用地址和/或搜索栏中常用搜索关键字进行语音训练。
7.如权利要求6所述的浏览器,其特征在于,所述训练语音识别单元还包括:查表模块;
所述训练语音匹配模块,还适于当用户在地址栏中进行语音输入时,将用户输入的语音与所述训练语音相匹配获得对应的网页标题;
所述查表模块,适于根据匹配获得的网页标题查询所述对应关系表获得相应的URL,并将获得的URL输入至所述浏览器的地址栏中。
8.如权利要求5所述的浏览器,其特征在于,所述浏览器还包括:历史语音识别单元;
所述历史语音识别单元包括:
历史语音库建立模块,适于将所述系统已经识别的历史语音及相应的输入文本或相应的所述操作命令进行存储生成历史语音库;
历史语音匹配模块,适于将所述语音数据与所述历史语音库中的历史语音相匹配,如果匹配成功,在文本输入模式下,在所述浏览器中输入相应的输入文本,或者,在命令输入模式下,按照相应的操作命令执行相应的浏览器操作。
9.如权利要求8所述的浏览器,其特征在于,所述训练语音库和/或历史语音库与相应的浏览器用户绑定,并作为相应的浏览器用户的个人信息存储在浏览器侧或者网络服务器侧的数据库中。
10.一种用于浏览器的语音识别处理方法,其包括步骤:
接收用户输入指令设置浏览器的声控模式为命令输入模式或者文本输入模式;
接收用户的语音输入,并转换为语音数据;
调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
否则,调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,依据WEB语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
其中,所述调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
否则,调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,依据WEB语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理,进一步为:
调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果完全识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
否则,调用WEB语音识别引擎对未成功识别的语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,整合本地语音识别结果和WEB语音识别结果得到最终识别结果,依据最终识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理;
在所述调用浏览器侧本地语音识别引擎对所述语音数据进行识别,之前还包括:
生成地址栏中输入和推荐的常用地址的URL与相应的网页标题的对应关系表;其中,所述网页标题还作为所述训练语音库中的输入文本与相应的训练语音相对应;所述训练语音库与相应的浏览器用户绑定。
11.如权利要求10所述的方法,其特征在于,所述调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理的步骤包括:
调用本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果;
在所述本地语音识别结果不为空的情况下,判断当前声控模式是否是文本输入模式,如果是,认为识别成功,在所述浏览器中输入所述本地语音识别结果对应的输入文本后结束流程,否则,
将所述本地语音识别结果与所述浏览器的命令集进行匹配,如果匹配成功,按照所述本地语音识别结果执行相应的浏览器操作后结束流程。
12.如权利要求11所述的方法,其特征在于,所述调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,依据WEB语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理的步骤包括:
调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果;
判断当前声控模式是否是文本输入模式,如果是,在所述浏览器中输入所述WEB语音识别结果对应的输入文本,否则,根据所述WEB匹配指令将所述WEB语音识别结果与所述浏览器的命令集进行匹配,并按照所述WEB语音识别结果执行相应的浏览器操作。
13.如权利要求11或12所述的方法,其特征在于,所述命令集包括所述浏览器的操作命令。
14.如权利要求13所述的方法,其特征在于,在所述调用浏览器侧本地语音识别引擎对所述语音数据进行识别,之前还包括步骤:
预先对用户的语音数据进行训练,生成包含训练语音及相应的输入文本或相应的所述操作命令的训练语音库;
将所述语音数据与所述训练语音库中的训练语音相匹配,如果匹配成功,在文本输入模式下,在所述浏览器中输入相应的输入文本后结束流程,或者,在命令输入模式下,按照相应的操作命令执行相应的浏览器操作后结束流程;否则,执行所述调用本地语音识别引擎对所述语音数据进行识别的步骤。
15.如权利要求14所述的方法,其特征在于,所述预先对用户的语音数据进行训练之前包括步骤:
提示用户对常用操作命令、地址栏中常用地址和/或搜索栏中常用搜索关键字进行语音训练。
16.如权利要求15所述的方法,其特征在于,所述生成包含训练语音及相应的输入文本或相应的所述操作命令的训练语音库,之后还包括步骤:
当用户在地址栏中进行语音输入时,将用户输入的语音与所述训练语音相匹配获得对应的网页标题;
在网页标签中打开所述网页标题对应的URL。
17.如权利要求14所述的方法,其特征在于,在所述调用浏览器侧本地语音识别引擎对所述语音数据进行识别,之前还包括步骤:
将所述系统已经识别的历史语音及相应的输入文本或相应的所述操作命令进行存储生成历史语音库;
将所述语音数据与所述历史语音库中的历史语音相匹配,如果匹配成功,在文本输入模式下,在所述浏览器中输入相应的输入文本后结束流程,或者,在命令输入模式下,按照相应的操作命令执行相应的浏览器操作后结束流程;否则,执行所述调用本地语音识别引擎对所述语音数据进行识别的步骤。
18.如权利要求17所述的方法,其特征在于,所述训练语音库和/或历史语音库与相应的浏览器用户绑定,并作为相应的浏览器用户的个人信息存储在浏览器侧或者网络服务器侧的数据库中。
CN201210487232.5A 2012-11-26 2012-11-26 用于浏览器的语音识别处理方法和浏览器 Expired - Fee Related CN102968992B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210487232.5A CN102968992B (zh) 2012-11-26 2012-11-26 用于浏览器的语音识别处理方法和浏览器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210487232.5A CN102968992B (zh) 2012-11-26 2012-11-26 用于浏览器的语音识别处理方法和浏览器

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201410510427.6A Division CN104240707A (zh) 2012-11-26 2012-11-26 用于浏览器的语音识别处理方法和浏览器

Publications (2)

Publication Number Publication Date
CN102968992A CN102968992A (zh) 2013-03-13
CN102968992B true CN102968992B (zh) 2014-11-05

Family

ID=47799099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210487232.5A Expired - Fee Related CN102968992B (zh) 2012-11-26 2012-11-26 用于浏览器的语音识别处理方法和浏览器

Country Status (1)

Country Link
CN (1) CN102968992B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105940399B (zh) * 2014-03-28 2019-04-26 松下知识产权经营株式会社 声音检索装置、声音检索方法以及显示装置
CN104503779A (zh) * 2014-12-09 2015-04-08 北京奇虎科技有限公司 一种运行应用程序的方法和装置
CN106470199B (zh) * 2015-08-21 2020-07-24 石家庄市善理通益科技有限公司 语音数据的处理方法、装置及对讲系统
CN105719650A (zh) * 2016-01-30 2016-06-29 深圳市尔木科技有限责任公司 一种语音识别的方法及系统
CN106373574A (zh) * 2016-08-31 2017-02-01 乐视控股(北京)有限公司 语音识别处理方法及装置
CN107944006A (zh) * 2017-12-07 2018-04-20 珠海市横琴新区龙族科技有限公司 自属数据库的建模装置及方法、信息处理系统及方法
CN108491178B (zh) * 2018-02-13 2021-05-28 北京百度网讯科技有限公司 信息浏览方法、浏览器和服务器
CN109741749B (zh) * 2018-04-19 2020-03-27 北京字节跳动网络技术有限公司 一种语音识别的方法和终端设备
CN109994110A (zh) * 2018-12-06 2019-07-09 平安科技(深圳)有限公司 基于人工智能的语音识别方法、装置、计算机设备
CN110021291B (zh) * 2018-12-26 2021-01-29 创新先进技术有限公司 一种语音合成文件的调用方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1330325A (zh) * 2000-06-20 2002-01-09 国际商业机器公司 基于网络的输入系统和方法
EP1184782A2 (en) * 2000-08-29 2002-03-06 Sharp Kabushiki Kaisha On-demand interface device and window display for the same
KR20020081912A (ko) * 2001-04-20 2002-10-30 황규오 웹상에서의 음성 서비스 방법
CN1735929A (zh) * 2003-01-09 2006-02-15 摩托罗拉公司 用于通信系统的语音浏览器对话启用器
CN102609190A (zh) * 2012-01-16 2012-07-25 优视科技有限公司 浏览操作方法、浏览操作装置、浏览器以及移动终端
CN102708865A (zh) * 2012-04-25 2012-10-03 北京车音网科技有限公司 语音识别方法、装置及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1330325A (zh) * 2000-06-20 2002-01-09 国际商业机器公司 基于网络的输入系统和方法
EP1184782A2 (en) * 2000-08-29 2002-03-06 Sharp Kabushiki Kaisha On-demand interface device and window display for the same
KR20020081912A (ko) * 2001-04-20 2002-10-30 황규오 웹상에서의 음성 서비스 방법
CN1735929A (zh) * 2003-01-09 2006-02-15 摩托罗拉公司 用于通信系统的语音浏览器对话启用器
CN102609190A (zh) * 2012-01-16 2012-07-25 优视科技有限公司 浏览操作方法、浏览操作装置、浏览器以及移动终端
CN102708865A (zh) * 2012-04-25 2012-10-03 北京车音网科技有限公司 语音识别方法、装置及系统

Also Published As

Publication number Publication date
CN102968992A (zh) 2013-03-13

Similar Documents

Publication Publication Date Title
CN102968992B (zh) 用于浏览器的语音识别处理方法和浏览器
CN103020165B (zh) 可进行语音识别处理的浏览器及处理方法
CN104240707A (zh) 用于浏览器的语音识别处理方法和浏览器
CN105027121B (zh) 对本机应用的应用页面建索引
CN109190049B (zh) 关键词推荐方法、系统、电子设备和计算机可读介质
WO2019143538A1 (en) Question and answer pair generation using machine learning
CN108268635B (zh) 用于获取数据的方法和装置
CN108334517A (zh) 一种网页渲染方法及相关设备
CN106406844B (zh) 实现通讯交互平台公众号菜单的方法和装置
CN102495855A (zh) 自动登录方法及装置
CN102144228A (zh) 根据输入字符序列的资源定位符建议
US20160335279A1 (en) Method for loading website commenting information, and browser client
CN103500210A (zh) 一种进行网页加载的方法、装置和浏览器
US11645467B2 (en) Training a system to perform a task with multiple specific steps given a general natural language command
CN107958078A (zh) 信息生成方法和装置
CN103237003B (zh) 对网络中的高访问流量进行响应的方法和装置
CN106471497A (zh) 使用上下文的辅助浏览
CN103530329A (zh) 一种进行网页加载的方法、装置和浏览器
CN102932367A (zh) 一种实现应用程序切换的终端设备、系统和方法
CN112699213A (zh) 语音意图识别方法、装置、计算机设备及存储介质
CN103778156A (zh) 数据搜索的方法和装置以及用于数据搜索的服务器
CN110222144B (zh) 文本内容提取方法、装置、电子设备及存储介质
CN103678706A (zh) 一种基于截图信息的识图方法、系统、设备及装置
CN104699836A (zh) 一种多关键字的搜索提示方法和装置
CN103942168A (zh) 一种浏览器进行信息传输的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141105

Termination date: 20211126