CN104715752B - 语音识别方法、装置及系统 - Google Patents

语音识别方法、装置及系统 Download PDF

Info

Publication number
CN104715752B
CN104715752B CN201510167373.2A CN201510167373A CN104715752B CN 104715752 B CN104715752 B CN 104715752B CN 201510167373 A CN201510167373 A CN 201510167373A CN 104715752 B CN104715752 B CN 104715752B
Authority
CN
China
Prior art keywords
speech recognition
phonetic feature
server
intelligent terminal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510167373.2A
Other languages
English (en)
Other versions
CN104715752A (zh
Inventor
刘文军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510167373.2A priority Critical patent/CN104715752B/zh
Publication of CN104715752A publication Critical patent/CN104715752A/zh
Application granted granted Critical
Publication of CN104715752B publication Critical patent/CN104715752B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种语音识别方法、装置及系统,该方法包括:对拾取的语音数据进行预处理得到预处理后的语音数据;提取预处理后的语音数据中的语音特征;将语音特征与智能终端本地语音特征数据库进行匹配,若无匹配的结果,向目标服务器发送第一语音识别请求;接收目标服务器返回的包括目标服务器将语音特征与其本地语音特征数据库进行匹配的匹配结果的第一语音识别响应,在第一语音识别响应为匹配不成功时,向目标服务器发送第二语音识别请求,接收目标服务器返回的第二语音识别响应,第二语音识别响应包括目标服务器将预处理后的语音数据发送给人工翻译终端设备进行人工翻译后得到的语音识别结果。本发明实施例方案极大地提高了智能终端的语音识别率。

Description

语音识别方法、装置及系统
技术领域
本发明涉及信息技术领域,特别涉及一种语音识别方法、一种语音识别装置及一种语音识别系统。
背景技术
随着信息技术的发展,语音识别的技术应用的越来越广泛,例如,越来越多的智能终端(例如智能手机、智能平板)的厂家把语音助理作为一种标准配置,逐渐开启拟人化的人机界面,但目前的语音识别准确率还无法做到100%,即使采用比较标准的发音也只能做到90%左右,如果采用日常口语式发音或带有方言口音时,准确率更会大幅下降,大大影响用户体验。随着机器人技术的发展,机器人的应用会越来越广泛,将来人与机器人之间的接口必然是以拟人化的语音交流为主,另外智能家居最近发展迅猛,将来人与智能家居设备的接口也一定会有语音交流接口,这些都必需依赖语音识别技术,将来语音一定会代替键盘、触摸屏成为人机交互的主要接口,所以提升语音识别的准确率具有极其重要的意义。
现有语音识别的基本模式是:通过话筒拾取语音,提取语音特征,将提取的语音特征与语音特征库比对找到合适的文字输出。为了提升识别的准确率,目前改进的语音识别技术已增加学习功能,通过学习修正语音特征库,以改善对个人语音不标准或方言口音导致的识别率低的问题,但因增加了学习过程,与正常的用户习惯不一致,对用户体验造成很大影响,同时仍然只能将识别率提升到接近标准发音时的识别率,在实际应用中仍然存在问题,准确率仍然不是很高。
发明内容
基于此,本发明实施例的目的在于提供一种语音识别方法、一种语音识别装置及一种语音识别系统,其可以大幅提升语音识别的准确率,用户语音识别使用体验可达到理想状态。
为达到上述目的,本发明实施例采用以下技术方案:
一种语音识别方法,包括步骤:
对拾取的语音数据进行预处理,得到预处理后的语音数据;
提取所述预处理后的语音数据中的特征信息,获得语音特征;
将所述语音特征与智能终端本地语音特征数据库进行匹配,判断所述智能终端本地语音特征数据库中是否有与所述语音特征匹配的语音识别结果;
若没有,向目标服务器发送第一语音识别请求,所述目标服务器为与所述语音特征所属语系对应的地域语音特征库服务器,所述第一语音识别请求中包括所述语音特征;
接收所述目标服务器返回的第一语音识别响应,所述第一语音识别响应包括所述目标服务器将所述语音特征与所述目标服务器本地语音特征数据库进行匹配获得的匹配结果;
在所述匹配结果为匹配不成功时,向所述目标服务器发送第二语音识别请求,所述第二语音识别请求中包括所述预处理后的语音数据;
接收所述目标服务器返回的第二语音识别响应,所述第二语音识别响应包括所述目标服务器将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译后得到的语音识别结果。
一种语音识别方法,包括步骤:
接收智能终端发送的第一语音识别请求,所述第一语音识别请求中包括语音特征;
将所述语音特征与服务器本地语音特征数据库进行匹配,获得匹配结果;
向所述智能终端发送第一语音识别响应,所述第一语音识别响应包括所述匹配结果;
接收所述智能终端在所述匹配结果为匹配不成功时发送的第二语音识别请求,所述第二语音识别请求中包括预处理后的语音数据,所述语音特征从所述预处理后的语音数据中提取;
将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译;
接收所述人工翻译终端设备返回的语音识别结果;
向所述智能终端发送第二语音识别响应,所述第二语音识别响应包括所述人工翻译终端设备返回的语音识别结果。
一种语音识别装置,包括:
预处理模块,用于对拾取的语音数据进行预处理,得到预处理后的语音数据;
特征提取模块,用于提取所述预处理后的语音数据中的特征信息,获得语音特征;
终端匹配模块,用于将所述语音特征与智能终端本地语音特征数据库进行匹配,判断所述智能终端本地语音特征信息数据库中是否有与所述语音特征匹配的语音识别结果;
终端信息交互模块,用于在所述终端匹配模块的判断结果为否时,向目标服务器发送第一语音识别请求,所述目标服务器为与所述语音特征所属语系对应的地域语音特征库服务器,所述第一语音识别请求中包括所述语音特征;并接收所述目标服务器返回的第一语音识别响应,所述第一语音识别响应包括所述目标服务器将所述语音特征与所述目标服务器本地语音特征数据库进行匹配获得的匹配结果,并在所述匹配结果为匹配不成功时,向所述目标服务器发送第二语音识别请求,所述第二语音识别请求中包括所述预处理后的语音数据;并接收所述目标服务器返回的第二语音识别响应,所述第二语音识别响应包括所述目标服务器将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译后得到的语音识别结果。
一种语音识别装置,包括:
服务端第一信息交互模块,用于接收智能终端发送的第一语音识别请求,所述第一语音识别请求中包括语音特征,并向所述智能终端发送第一语音识别响应,所述第一语音识别响应包括服务端匹配模块的匹配结果,并接收所述智能终端在所述匹配结果为匹配不成功时发送的第二语音识别请求,所述第二语音识别请求中包括预处理后的语音数据,所述语音特征从所述预处理后的语音数据中提取;并向所述智能终端发送第二语音识别响应,所述第二语音识别响应包括服务端第二信息交互模块接收的人工翻译终端设备返回的语音识别结果;
服务端匹配模块,用于将所述语音特征与服务器本地语音特征数据库进行匹配,获得匹配结果;
所述服务端第二信息交互模块,用于将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译,并接收所述人工翻译终端设备返回的语音识别结果。
一种语音识别系统,包括一个以上的地域语音特征库服务器,各地域语音特征库服务器分别与相应地域的各智能终端对应,为相应地域的智能终端提供语音识别服务,各地域语音特征库服务器分别包括如上所述的语音识别装置。
根据如上所述的本发明实施例的方案,其在智能终端无法对提取的语音特征进行匹配时,基于语音特征所属语系将该语音特征发送给与该语系对应的目标服务器,由目标服务器基于服务器语音特征数据库对该语音特征进行匹配,并将该匹配结果返回给智能终端,在目标服务器也匹配不成功的情况下,将预处理后的语音数据经由目标服务器发送至人工翻译终端设备进行人工翻译,从而可以获得接近100%准确率的语音识别。而且,在此情况下,目标服务器是与语音所属语系对应的,因而可以按照语言差异为各地域设置不同的语音特征库服务器分布在各地,实现海量语音特征数据的收集、存储和检索,可以建立无穷容量、包罗万象的语音特征库,极大地提高智能终端的语音识别率。
附图说明
图1是本发明一个实施例中的语音识别方法的流程示意图;
图2是本发明另一个实施例中的语音识别方法的流程示意图;
图3是一个具体示例的语音识别过程中智能终端与服务器之间的交互过程的流程示意图;
图4是一个实施例中的语音识别装置的结构示意图;
图5是本发明一个实施例中的语音识别系统的架构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1中示出了本发明一个实施例的语音识别方法的流程示意图,该实施例是以各智能终端的处理过程为例进行说明,这些智能终端包括但不限于智能手机、平板电脑、智能家居设备、机器人、个人计算机等等。
如图1所示,本实施例中的方法包括步骤:
步骤S101:对拾取的语音数据进行预处理,得到预处理后的语音数据;
步骤S102:提取所述预处理后的语音数据中的特征信息,获得语音特征;
步骤S103:将所述语音特征与智能终端本地语音特征数据库进行匹配,判断所述智能终端本地语音特征信息数据库中是否有与所述语音特征匹配的语音识别结果,若没有,则进入步骤S104;
步骤S104:向目标服务器发送第一语音识别请求,所述目标服务器为与所述语音特征所属语系对应的地域语音特征库服务器,所述第一语音识别请求中包括所述语音特征;
步骤S105:接收所述目标服务器返回的第一语音识别响应,所述第一语音识别响应包括所述目标服务器将所述语音特征与所述目标服务器本地语音特征数据库进行匹配获得的匹配结果;
步骤S106:判断第一语音识别响应中的匹配结果是否为匹配成功的语音识别结果,若不是,即第一语音识别响应中的匹配结果为匹配不成功时,进入步骤S107;
步骤S107:向目标服务器发送第二语音识别请求,所述第二语音识别请求中包括所述预处理后的语音数据;
步骤S108:接收所述目标服务器返回的第二语音识别响应,所述第二语音识别响应包括所述目标服务器将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译后得到的语音识别结果。
根据如上所述的本发明实施例的方案,其在智能终端无法对提取的语音特征进行匹配时,基于语音特征所属语系将该语音特征发送给与该语系对应的目标服务器,由目标服务器基于服务器语音特征数据库对该语音特征进行匹配,并将该匹配结果返回给智能终端,在目标服务器也匹配不成功的情况下,可将预处理后的语音数据经由目标服务器发送至人工翻译终端设备进行人工翻译,从而可以获得接近100%准确率的语音识别。而且,在此情况下,目标服务器是与语音所属语系对应的,因而可以按照语言差异为各地域设置不同的语音特征库服务器分布在各地,实现海量语音特征数据的收集、存储和检索,可以建立无穷容量、包罗万象的语音特征库,极大地提高智能终端的语音识别率。
其中,上述语音特征所属语系,可以采用各种可能的方式确定。例如,在其中一种方式中,可以在智能终端事先设定语系信息,在到达上述步骤S104时,基于智能终端设定的语系直接向与该语系对应的目标服务器发送第一语音识别请求即可。
此外,在上述步骤S106中判定第一语音识别响应中的匹配结果是匹配成功得到的语音识别结果时,以及步骤S108中接收到第二语音识别响应后,还可以进入步骤S109:
步骤S109:将该第一语音识别响应中匹配的语音识别结果或者第二语音识别响应中的语音识别结果与所述语音特征关联后存储到智能终端本地语音特征数据库。实现智能终端本地语音特征数据库的自动更新,进一步提升语音识别的准确性。
通过本实施例的方案,智能终端无法识别的语音特征,会发送至与智能终端的语系对应的地域语音特征库服务器进行识别,在对应的地域语音特征库服务器也无法识别的情况下,会发送至人工翻译终端设备进行人工翻译,从而可以获得接近100%准确率的语音识别。在语音特征数据积累阶段,由于有少量语音识别需要依赖人工翻译,可能会存在一定时间的延时,对用户体验会产生一定的影响,而随着服务器上海量语音特征数据的快速积累,对人工翻译的依赖越来越低,智能终端可以即时获得接近100%准确率的语音识别,用户语音识别使用体验可达到理想状态。
图2示出了本发明另一个实施例的语音识别方法的流程示意图,该实施例是以地域语音特征库服务器的处理过程为例进行说明。
如图2所示,本实施例中的方法包括步骤:
步骤S201:接收智能终端发送的第一语音识别请求,所述第一语音识别请求中包括语音特征;
步骤S202:将所述语音特征与服务器本地语音特征数据库进行匹配,获得匹配结果;
步骤S203:向所述智能终端发送第一语音识别响应,所述第一语音识别响应包括所述匹配结果。
上述第一语音识别响应中的匹配结果,可能是匹配成功得到的语音识别结果,也可能是匹配不成功的信息。为了能够准确地进行语音识别,在第一语音识别响应中的匹配结果为匹配不成功时,智能终端还可以发送第二语音识别请求。据此,如图2所示,还可以包括下述步骤:
步骤S204:接收所述智能终端在所述匹配结果为匹配不成功时发送的第二语音识别请求,所述第二语音识别请求中包括预处理后的语音数据,所述语音特征从所述预处理后的语音数据中提取;
步骤S205:将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译;
步骤S206:接收所述人工翻译终端设备返回的语音识别结果;
步骤S207:向所述智能终端发送第二语音识别响应,所述第二语音识别响应包括所述人工翻译终端设备返回的语音识别结果。
其中,目标服务器在接收到人工翻译终端设备返回的语音识别结果后,还可以进入步骤S208:
步骤S208:将人工翻译终端设备返回的该语音识别结果与所述语音特征关联后存储到目标服务器本地语音特征数据库,实现服务器本地语音特征数据库的自动更新。
结合上述实施例的语音识别方法,图3示出了一个具体示例的语音识别过程中智能终端与服务器之间的交互过程的流程示意图。
如图3所示,在一个具体的语音识别过程中,智能终端会先拾取语音,并对拾取的语音进行预处理,得到预处理的语音数据。预处理的过程可以包括但不限于智能降噪、语音增强、语音片段截取等过程,以降低环境噪音、不合适的声音起点对语音识别的影响,具体的预处理的方式,可以采用任何可能的方式进行。
针对得到的预处理的语音数据,对其进行语音特征的提取,获得语音特征,具体提取语音特征的方式,可以采用任何可能的方式进行。智能终端检索智能终端本地语音特征数据库,将提取的语音特征与智能终端本地语音特征数据库进行匹配。
若检索到匹配的语音特征数据,则将匹配的语音特征数据作为语音识别结果反馈给相应的应用程序。
若没有匹配的语音特征数据,则智能终端确定该语音特征所属语系。该所属语系可以是智能终端中事先设定的语系,也可以是对语音特征进行分析来确定。考虑到绝大部分智能终端的使用者是固定的,且每个人的母语或者习惯语言是固定的,因而各智能终端的语系是可以已知且可以进行预先设定的,因此,在本发明实施例中以智能终端中事先设定语系为例进行说明。
随后,智能终端基于该语系向与该语系对应的目标服务器发送第一语音识别请求,该目标服务器为与所述语音特征所属语系对应的地域语音特征库服务器,上述第一语音识别请求中包括有上述提取的语音特征。
本地域语音特征库服务器接收到该第一语音识别请求后,先判断该第一语音识别请求的语音特征所属语系是否与自身相对应。若不对应,则将该第一语音识别请求向与该第一语音识别请求的语音特征所属语系对应的地域语音特征库服务器进行转发。
若该第一语音识别请求的语音特征所属语系与自身相对应,则继续执行后续过程。
本地域语音特征库服务器接收到第一语音识别请求后,将第一语音识别请求中的语音特征与服务器本地语音特征数据库进行匹配,并基于匹配结果向智能终端返回第一语音识别响应。
若匹配成功,获得匹配的语音识别结果,则该第一语音识别响应中包括有该匹配的语音识别结果。智能终端接收后,将该语音识别结果与上述语音特征进行关联后,存储到智能终端本地语音特征数据库,并将该语音识别结果反馈给相应的应用程序。
若匹配不成功,则该第一语音识别响应中包括有匹配不成功的信息。智能终端接收后,向本地域语音特征库服务器发送第二语音识别请求,该第二语音识别请求中包括有上述预处理后的语音数据。
本地域语音特征库服务器接收到该第二语音识别请求后,将第二语音识别请求中的预处理后的语音数据发送给人工翻译终端设备进行人工翻译。并在接收到接收所述人工翻译终端设备返回的语音识别结果后,向智能终端发送第二语音识别响应,该第二语音识别响应中包括有上述人工翻译终端设备返回的语音识别结果。此外,本地域语音特征库服务器接收到人工终端翻译设备返回的语音识别结果后,还可以将该语音识别结果与上述语音特征关联后,存储到服务器本地语音特征数据库,实现对服务器本地语音特征库服务器的存储。
智能终端接收到的第二语音识别响应后,将该第二语音识别响应中的语音识别结果与上述语音特征进行关联后,存储到智能终端本地语音特征数据库,并将该语音识别结果反馈给相应的应用程序。
通过本实施例的方案,智能终端无法识别的语音特征,会发送至与智能终端的语系对应的地域语音特征库服务器进行识别,在对应的地域语音特征库服务器也无法识别的情况下,会发送至人工翻译设备进行人工翻译,从而可以获得接近100%准确率的语音识别。在语音特征数据积累阶段,由于有少量语音识别需要依赖人工翻译,会存在一定时间的延时,对用户体验会产生一定的影响。因此,在具体的技术实施时,上述发送给人工翻译设备进行人工翻译的过程,可以为有偿抢答方式,系统根据抢答结果中相同结果的百分比判断正确答案,并向最先提交正确答案者支付报酬,通过这种方式来实现最短时间获得正确结果,从而即使现有语音识别库没有有效的语音特征数据也能快速得到语音识别结果,可大幅提升智能终端的语音识别使用体验。而随着服务器上海量语音特征数据的快速积累,对人工翻译的依赖越来越低,智能终端可以即时获得接近100%准确率的语音识别,用户语音识别使用体验可达到理想状态。
基于与上述语音识别方法相同的思想,本发明实施例还提供一种语音识别装置。图4中示出了一个实施例中的语音识别装置的结构示意图,在图4所示的示例中,出于简洁说明的目的,同时示出了设置在智能终端401的语音识别装置的部分和设置在地域语音特征库服务器402的语音识别装置的部分。
如图4所示,设置在智能终端401的语音识别装置包括有预处理模块4011、特征提取模块4012、终端匹配模块4013、终端信息交互模块4014,设置在地域语音特征库服务器402的语音识别装置包括有服务端第一信息交互模块4021、服务端匹配模块4022、有服务端第二信息交互模块4023。
其中,上述预处理模块4011,用于对拾取的语音数据进行预处理,得到预处理后的语音数据;
上述特征提取模块4012,用于提取所述预处理后的语音数据中的特征信息,获得语音特征;
上述终端匹配模块4013,用于将所述语音特征与智能终端本地语音特征信息库进行匹配,判断所述本地语音特征信息数据库中是否有与所述语音特征匹配的语音识别结果;
上述终端信息交互模块4014,用于在上述终端匹配模块4013的判断结果为否时,向目标服务器发送第一语音识别请求,所述目标服务器为与所述语音特征所属语系对应的地域语音特征库服务器,所述第一语音识别请求中包括所述语音特征;并接收所述目标服务器返回的第一语音识别响应,所述第一语音识别响应包括所述目标服务器将所述语音特征与所述目标服务器本地语音特征数据库进行匹配获得的匹配结果,并在所述第一语音识别响应中的匹配结果为匹配不成功时,向所述目标服务器发送第二语音识别请求,所述第二语音识别请求中包括所述预处理后的语音数据;并接收所述目标服务器返回的第二语音识别响应,所述第二语音识别响应包括所述目标服务器将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译后得到的语音识别结果。
相应地,
上述服务端第一信息交互模块4021,用于接收智能终端发送的上述第一语音识别请求,所述第一语音识别请求中包括语音特征,并向所述智能终端发送第一语音识别响应,所述第一语音识别响应包括服务端匹配模块的匹配结果,还接收所述智能终端在所述匹配结果为匹配不成功时发送的第二语音识别请求,所述第二语音识别请求中包括预处理后的语音数据,所述语音特征从所述预处理后的语音数据中提取;并向所述智能终端发送第二语音识别响应,所述第二语音识别响应包括服务端第二信息交互模块4023接收的人工翻译终端设备返回的语音识别结果;
上述服务端匹配模块4022,用于将所述语音特征与服务器本地语音特征数据库进行匹配,获得匹配结果;
上述服务端第二信息交互模块4023,用于将所述预处理后的语音数据发送给人工翻译终端设备403进行人工翻译,并接收所述人工翻译终端设备403返回的语音识别结果。
根据如上所述的本发明实施例的方案,其在智能终端无法对提取的语音特征进行匹配时,基于语音特征所属语系将该语音特征发送给与该语系对应的目标服务器,由目标服务器基于服务器语音特征数据库对该语音特征进行匹配,并将该匹配结果返回给智能终端,在目标服务器也匹配不成功的情况下,将预处理后的语音数据经由目标服务器发送至人工翻译终端设备进行人工翻译,从而可以获得接近100%准确率的语音识别。而且,在此情况下,目标服务器是与语音所属语系对应的,因而可以按照语言差异为各地域设置不同的语音特征库服务器分布在各地,实现海量语音特征数据的收集、存储和检索,可以建立无穷容量、包罗万象的语音特征库,极大地提高智能终端的语音识别率。
其中,上述语音特征所属语系,可以采用各种可能的方式确定。例如,在其中一种方式中,可以在智能终端事先设定语系信息,终端信息交互模块4014基于智能终端设定的语系直接向与该语系对应的目标服务器发送第一语音识别请求即可。
其中,智能终端在得到目标服务器返回的语音识别结果后,还可以将该语音识别结果与所述语音特征关联后存储到智能终端本地语音特征数据库。实现智能终端本地语音特征数据库的自动更新,以进一步提升语音识别的准确性。
据此,如图4所示,设置在智能终端401上的语音识别装置,还可以包括:
终端数据库更新模块4015,用于将所述第一语音识别响应中匹配的语音识别结果或者第二语音识别响应中的语音识别结果与所述语音特征关联后存储到所述智能终端本地语音特征数据库。
此外,服务端第二信息交互模块4023接收到人工翻译终端设备403返回的语音识别结果后,也可以将该语音识别结果与所述语音特征关联后存储到服务器本地语音特征数据库。
据此,如图4所示,设置在地域语音特征库服务器402上的语音识别装置,还可以包括:
服务端数据库更新模块4024,用于将所述人工翻译终端设备返回的语音识别结果与所述语音特征关联后存储到所述服务器本地语音特征数据库。
在一个具体示例中,如图4所示,设置在地域语音特征库服务器402的语音识别装置还可以包括有:
终端身份识别模块4025,用于在服务端第一信息交互模块4021接收到第一语音识别请求时,判断所述语音特征所属语系是否与自身相对应,若不对应,则将该第一语音识别请求向与所述语音特征所属语系对应的地域语音特征库服务器转发。
此时,上述服务端匹配模块4022,在终端身份识别模块4025的判定结果为对应时,再将所述语音特征与服务器本地语音特征数据库进行匹配。
基于如上所述的语音识别装置,本发明实施例还提供一种语音识别系统,图5示出了一个实施例中的语音识别系统的架构示意图。
如图5所示,在本实施例的语音识别系统中,包括一个以上的地域语音特征库服务器,各地域语音特征库服务器分别与相应地域的各智能终端对应,为相应地域的智能终端提供语音识别服务,各地域语音特征库服务器上包括有如上所述的语音识别装置。
结合如5所示,在该系统结构中,不仅设有公共标准发音语音特征库服务器(通常为标准官方语言,例如中国的普通话),而且,根据各地语言差异,还设置基于语言差异进行分布的各地域语音特征库服务器,例如图5中所示的地域1语音特征库服务器、地域2语音特征库服务器、地域n语音特征库服务器,各地域语音特征库服务器确保本地域联网语音特征(相对智能终端内置的语音特征数据库而言)的收集、存储及检索优先在本地域语音特征库服务器实现,只有少数漫游终端需要进行跨地域检索,可减少跨地域的网络流量并降低处理延时。
各地域语音特征库服务器上安装有联网语音识别服务端,可接收智能终端(如智能手机、平板电脑、智能家居设备、机器人等)上传的语音特征并检索在本地服务器特征数据库。如果检索到匹配(从技术上而言,匹配并非完全相同,而是相同特征达到预设的百分比,该百分比可在实际应用中根据识别的准确率情况整定到合理值)的语音特征数据,则将结果反馈给所述智能终端。如果没有检索到,服务器会基于智能终端的第二语音识别请求将语音数据传递给联网的可进行人工翻译的计算机,在计算机上完成人工翻译后将结果传递给所述服务器,服务器再将结果返回给智能终端。
联网的智能终端上安装有联网语音识别客户端,客户端内置有本地语音特征数据库,该智能终端本地语音特征数据库可以为标准语音特征库,可以实现标准发音的大部分语音识别,可降低对网络检索的需求。另一方面,智能终端本地语音特征数据库可存储个人积累的语音特征库,实现地域性相应语系的语言特征的识别。其中,这里的语系可以指按语言差异分解到的最小的语言片区,以中国的语系为例,一个省份可能有多个语系。
由于每个地域的网络出口带宽是有限的,在需要跨地域进行大流量数据传递时,往往会出现较大的延时,甚至出现拥塞而瘫痪,因此,如图5所示,本发明实施例的系统构架是以地域为子单元,每个地域有本地域的语音特征库服务器、联网的可进行人工翻译的计算机以及通过路由器或无线基站经Internet(互联网)接入系统的智能终端(包含智能手机、平板电脑、智能家居设备、机器人等),服务器安装有语音识别服务端(包含人工翻译服务端)、智能终端安装有语音识别客户端、可进行人工翻译的计算机安装有人工翻译客户端。各子单元以及标准语音特征库服务器通过Internet等网络全部连接起来构成一个大的系统,各子单元可承载本地域绝大部分业务需求,只有少部分业务(如处于漫游状态的智能终端,所接收语音的语系与本地域不符的情况)需要进行跨地域实现,极大地减少了跨地域传递的数据量,保证了数据流量的及时性。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种语音识别方法,其特征在于,应用于智能终端,所述方法包括步骤:
对拾取的语音数据进行预处理,得到预处理后的语音数据;
提取所述预处理后的语音数据中的特征信息,获得语音特征;
将所述语音特征与智能终端本地语音特征数据库进行匹配,判断所述智能终端本地语音特征数据库中是否有与所述语音特征匹配的语音识别结果;
若没有,向目标服务器发送第一语音识别请求,所述目标服务器为与所述语音特征所属语系对应的地域语音特征库服务器,所述第一语音识别请求中包括所述语音特征,所述语音特征所属语系为在所述智能终端设定的语系;
接收所述目标服务器返回的第一语音识别响应,所述第一语音识别响应包括所述目标服务器将所述语音特征与所述目标服务器本地语音特征数据库进行匹配获得的匹配结果;
在所述匹配结果为匹配不成功时,向所述目标服务器发送第二语音识别请求,所述第二语音识别请求中包括所述预处理后的语音数据;
接收所述目标服务器返回的第二语音识别响应,所述第二语音识别响应包括所述目标服务器将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译后得到的语音识别结果。
2.根据权利要求1所述的语音识别方法,其特征在于,还包括步骤:
将所述第一语音识别响应中匹配的语音识别结果或所述第二语音识别响应中的语音识别结果与所述语音特征关联后存储到所述智能终端本地语音特征数据库。
3.一种语音识别方法,其特征在于,应用于地域语音特征库服务器,所述方法包括步骤:
接收智能终端发送的第一语音识别请求,所述第一语音识别请求中包括语音特征,所述地域语音特征库服务器为与所述语音特征所属语系对应的地域语音特征库服务器,所述语音特征所属语系为在所述智能终端设定的语系;
将所述语音特征与服务器本地语音特征数据库进行匹配,获得匹配结果;
向所述智能终端发送第一语音识别响应,所述第一语音识别响应包括所述匹配结果;
接收所述智能终端在所述匹配结果为匹配不成功时发送的第二语音识别请求,所述第二语音识别请求中包括预处理后的语音数据,所述语音特征从所述预处理后的语音数据中提取;
将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译;
接收所述人工翻译终端设备返回的语音识别结果;
向所述智能终端发送第二语音识别响应,所述第二语音识别响应包括所述人工翻译终端设备返回的语音识别结果。
4.根据权利要求3所述的语音识别方法,其特征在于,还包括步骤:
将所述人工翻译终端设备返回的语音识别结果与所述语音特征关联后存储到所述服务器本地语音特征数据库。
5.一种语音识别装置,其特征在于,应用于智能终端,所述装置包括:
预处理模块,用于对拾取的语音数据进行预处理,得到预处理后的语音数据;
特征提取模块,用于提取所述预处理后的语音数据中的特征信息,获得语音特征;
终端匹配模块,用于将所述语音特征与智能终端本地语音特征数据库进行匹配,判断所述智能终端本地语音特征信息数据库中是否有与所述语音特征匹配的语音识别结果;
终端信息交互模块,用于在所述终端匹配模块的判断结果为否时,向目标服务器发送第一语音识别请求,所述目标服务器为与所述语音特征所属语系对应的地域语音特征库服务器,所述第一语音识别请求中包括所述语音特征,所述语音特征所属语系为在所述智能终端设定的语系;并接收所述目标服务器返回的第一语音识别响应,所述第一语音识别响应包括所述目标服务器将所述语音特征与所述目标服务器本地语音特征数据库进行匹配获得的匹配结果,并在所述匹配结果为匹配不成功时,向所述目标服务器发送第二语音识别请求,所述第二语音识别请求中包括所述预处理后的语音数据;并接收所述目标服务器返回的第二语音识别响应,所述第二语音识别响应包括所述目标服务器将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译后得到的语音识别结果。
6.根据权利要求5所述的语音识别装置,其特征在于,还包括:
终端数据库更新模块,用于将所述第一语音识别响应中匹配的语音识别结果或者所述第二语音识别响应中的语音识别结果与所述语音特征关联后存储到所述智能终端本地语音特征数据库。
7.一种语音识别装置,其特征在于,应用于地域语音特征库服务器,所述装置包括:
服务端第一信息交互模块,用于接收智能终端发送的第一语音识别请求,所述第一语音识别请求中包括语音特征,所述地域语音特征库服务器为与所述语音特征所属语系对应的地域语音特征库服务器,所述语音特征所属语系为在所述智能终端设定的语系,并向所述智能终端发送第一语音识别响应,所述第一语音识别响应包括服务端匹配模块的匹配结果,并接收所述智能终端在所述匹配结果为匹配不成功时发送的第二语音识别请求,所述第二语音识别请求中包括预处理后的语音数据,所述语音特征从所述预处理后的语音数据中提取;并向所述智能终端发送第二语音识别响应,所述第二语音识别响应包括服务端第二信息交互模块接收的人工翻译终端设备返回的语音识别结果;
服务端匹配模块,用于将所述语音特征与服务器本地语音特征数据库进行匹配,获得匹配结果;
所述服务端第二信息交互模块,用于将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译,并接收所述人工翻译终端设备返回的语音识别结果。
8.根据权利要求7所述的语音识别装置,其特征在于,还包括终端身份识别模块;
所述终端身份识别模块,用于在服务端第一信息交互模块接收到第一语音识别请求时,判断所述语音特征所属语系是否与自身相对应,若不对应,则将该第一语音识别请求向与所述语音特征所属语系对应的地域语音特征库服务器转发;
所述服务端匹配模块在所述终端身份识别模块的判定结果为对应时,将所述语音特征与服务器本地语音特征数据库进行匹配。
9.根据权利要求7或8所述的语音识别装置,其特征在于,还包括:
服务端数据库更新模块,用于将所述人工翻译终端设备返回的语音识别结果与所述语音特征关联后存储到所述服务器本地语音特征数据库。
10.一种语音识别系统,其特征在于,包括两个以上的地域语音特征库服务器,各地域语音特征库服务器分别与相应地域的各智能终端对应,为相应地域的智能终端提供语音识别服务,各地域语音特征库服务器分别包括如权利要求7至9任意一项所述的语音识别装置。
CN201510167373.2A 2015-04-09 2015-04-09 语音识别方法、装置及系统 Expired - Fee Related CN104715752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510167373.2A CN104715752B (zh) 2015-04-09 2015-04-09 语音识别方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510167373.2A CN104715752B (zh) 2015-04-09 2015-04-09 语音识别方法、装置及系统

Publications (2)

Publication Number Publication Date
CN104715752A CN104715752A (zh) 2015-06-17
CN104715752B true CN104715752B (zh) 2019-01-08

Family

ID=53415014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510167373.2A Expired - Fee Related CN104715752B (zh) 2015-04-09 2015-04-09 语音识别方法、装置及系统

Country Status (1)

Country Link
CN (1) CN104715752B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096952A (zh) * 2015-09-01 2015-11-25 联想(北京)有限公司 一种语音识别的辅助处理方法和服务器
CN105931633A (zh) * 2016-05-30 2016-09-07 深圳市鼎盛智能科技有限公司 语音识别的方法及系统
CN105895083A (zh) * 2016-05-30 2016-08-24 珠海市魅族科技有限公司 一种信息处理方法及装置
CN107451131A (zh) * 2016-05-30 2017-12-08 贵阳朗玛信息技术股份有限公司 一种语音识别方法及装置
CN106019993B (zh) * 2016-06-01 2020-07-14 佛山市顺德区美的电热电器制造有限公司 烹饪系统
CN106920551A (zh) * 2016-06-28 2017-07-04 广州零号软件科技有限公司 共用一套麦克风阵列的服务机器人双语音识别方法
CN106230689B (zh) * 2016-07-25 2019-07-05 北京奇虎科技有限公司 一种语音信息交互的方法、装置及服务器
CN106297782A (zh) * 2016-07-28 2017-01-04 北京智能管家科技有限公司 一种人机交互方法及系统
CN106228974A (zh) * 2016-08-19 2016-12-14 镇江惠通电子有限公司 基于语音识别的控制方法、装置及系统
CN106439967B (zh) * 2016-10-14 2019-01-04 广州视源电子科技股份有限公司 一种提高油烟机语音识别率的方法及系统
CN106531151B (zh) * 2016-11-16 2019-10-11 北京云知声信息技术有限公司 语音识别方法及装置
CN106409285A (zh) * 2016-11-16 2017-02-15 杭州联络互动信息科技股份有限公司 智能终端设备根据语音数据识别语言种类的方法及装置
CN107221322A (zh) * 2017-06-15 2017-09-29 重庆柚瓣科技有限公司 一种基于养老机器人的方言识别系统
CN107331388A (zh) * 2017-06-15 2017-11-07 重庆柚瓣科技有限公司 一种基于养老机器人的方言收集系统
CN107450564A (zh) * 2017-09-22 2017-12-08 芜湖星途机器人科技有限公司 自引导机器人
CN107945805B (zh) * 2017-12-19 2018-11-30 北京烽火万家科技有限公司 一种智能化跨语言语音识别转化方法
CN109994101A (zh) * 2018-01-02 2019-07-09 中国移动通信有限公司研究院 一种语音识别方法、终端、服务器及计算机可读存储介质
CN108881377B (zh) * 2018-04-28 2021-12-03 上海车音智能科技有限公司 一种应用服务调用方法、终端设备及服务器
CN108766431B (zh) * 2018-06-06 2021-07-23 广东小天才科技有限公司 一种基于语音识别的自动唤醒方法及电子设备
CN108899030A (zh) * 2018-07-10 2018-11-27 深圳市茁壮网络股份有限公司 一种语音识别方法及装置
CN108806688A (zh) * 2018-07-16 2018-11-13 深圳Tcl数字技术有限公司 智能电视的语音控制方法、智能电视、系统及存储介质
CN111105798B (zh) * 2018-10-29 2023-08-18 宁波方太厨具有限公司 基于语音识别的设备控制方法
CN110136700B (zh) * 2019-03-15 2021-04-20 湖北亿咖通科技有限公司 一种语音信息处理方法及装置
CN112102820B (zh) * 2019-06-18 2024-10-18 北京汇钧科技有限公司 交互方法、交互装置、电子设备和介质
CN111950459A (zh) * 2020-08-13 2020-11-17 深圳市睿策者科技有限公司 移动人脸识别方法、装置、计算机和存储介质
CN112989922B (zh) * 2021-01-07 2024-08-27 腾讯科技(深圳)有限公司 基于人工智能的脸部识别方法、装置、设备和存储介质
CN112966528B (zh) * 2021-03-01 2023-09-19 郑州铁路职业技术学院 一种英语语音的翻译模糊匹配系统
CN112927693A (zh) * 2021-03-03 2021-06-08 立讯电子科技(昆山)有限公司 基于语音控制的控制方法、装置和系统
CN113592559B (zh) * 2021-08-03 2022-06-07 贝壳找房(北京)科技有限公司 口音识别模型建立方法、装置及存储介质和电子设备
CN115390663B (zh) * 2022-07-27 2023-05-26 上海合壹未来文化科技有限公司 一种虚拟人机交互方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496364A (zh) * 2011-11-30 2012-06-13 苏州奇可思信息科技有限公司 基于云端网络的交互式语音识别方法
CN103188408A (zh) * 2011-12-29 2013-07-03 上海博泰悦臻电子设备制造有限公司 语音自动应答云端服务器、系统及方法
CN103247291A (zh) * 2013-05-07 2013-08-14 华为终端有限公司 一种语音识别设备的更新方法、装置及系统
CN104143329A (zh) * 2013-08-19 2014-11-12 腾讯科技(深圳)有限公司 进行语音关键词检索的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496364A (zh) * 2011-11-30 2012-06-13 苏州奇可思信息科技有限公司 基于云端网络的交互式语音识别方法
CN103188408A (zh) * 2011-12-29 2013-07-03 上海博泰悦臻电子设备制造有限公司 语音自动应答云端服务器、系统及方法
CN103247291A (zh) * 2013-05-07 2013-08-14 华为终端有限公司 一种语音识别设备的更新方法、装置及系统
CN104143329A (zh) * 2013-08-19 2014-11-12 腾讯科技(深圳)有限公司 进行语音关键词检索的方法及装置

Also Published As

Publication number Publication date
CN104715752A (zh) 2015-06-17

Similar Documents

Publication Publication Date Title
CN104715752B (zh) 语音识别方法、装置及系统
CN103440867B (zh) 语音识别方法及系统
WO2021034038A1 (en) Method and system for context association and personalization using a wake-word in virtual personal assistants
CN107180080B (zh) 一种多交互模式的智能问答方法及装置
CN108984650B (zh) 计算机可读记录介质及计算机设备
US20080300852A1 (en) Multi-Lingual Conference Call
WO2017206661A1 (zh) 语音识别的方法及系统
CN102708865A (zh) 语音识别方法、装置及系统
CN103594085B (zh) 一种提供语音识别结果的方法及系统
EP1689184A3 (en) Method and system enabling web content searching from a remote set-top control interface or device
CN105931642B (zh) 语音识别方法、设备及系统
CN103561086A (zh) 呈现日程提醒信息的方法、终端设备及云服务器
US9720982B2 (en) Method and apparatus for natural language search for variables
CN102497391A (zh) 服务器、移动终端和提示方法
US9088647B2 (en) Method and system for voice-based contact updation
US11503110B2 (en) Method for presenting schedule reminder information, terminal device, and cloud server
CN107862071A (zh) 生成会议记录的方法和装置
US20220005483A1 (en) Group Chat Voice Information Processing Method and Apparatus, Storage Medium, and Server
CN105701224B (zh) 一种基于大数据的证券资讯个性化服务系统
CN111291157A (zh) 应答响应方法、装置、终端及存储介质
CN113132214B (zh) 一种对话方法、装置、服务器及存储介质
CN106603792A (zh) 一种号码查找设备
CN108540677A (zh) 语音处理方法及系统
CN110209804B (zh) 目标语料的确定方法和装置、存储介质及电子装置
CN109964473B (zh) 语音业务应答的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190108

CF01 Termination of patent right due to non-payment of annual fee