CN104715752B

CN104715752B - 语音识别方法、装置及系统

Info

Publication number: CN104715752B
Application number: CN201510167373.2A
Authority: CN
Inventors: 刘文军
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-04-09
Filing date: 2015-04-09
Publication date: 2019-01-08
Anticipated expiration: 2035-04-09
Also published as: CN104715752A

Abstract

一种语音识别方法、装置及系统，该方法包括：对拾取的语音数据进行预处理得到预处理后的语音数据；提取预处理后的语音数据中的语音特征；将语音特征与智能终端本地语音特征数据库进行匹配，若无匹配的结果，向目标服务器发送第一语音识别请求；接收目标服务器返回的包括目标服务器将语音特征与其本地语音特征数据库进行匹配的匹配结果的第一语音识别响应，在第一语音识别响应为匹配不成功时，向目标服务器发送第二语音识别请求，接收目标服务器返回的第二语音识别响应，第二语音识别响应包括目标服务器将预处理后的语音数据发送给人工翻译终端设备进行人工翻译后得到的语音识别结果。本发明实施例方案极大地提高了智能终端的语音识别率。

Description

语音识别方法、装置及系统

技术领域

本发明涉及信息技术领域，特别涉及一种语音识别方法、一种语音识别装置及一种语音识别系统。

背景技术

随着信息技术的发展，语音识别的技术应用的越来越广泛，例如，越来越多的智能终端(例如智能手机、智能平板)的厂家把语音助理作为一种标准配置，逐渐开启拟人化的人机界面，但目前的语音识别准确率还无法做到100％，即使采用比较标准的发音也只能做到90％左右，如果采用日常口语式发音或带有方言口音时，准确率更会大幅下降，大大影响用户体验。随着机器人技术的发展，机器人的应用会越来越广泛，将来人与机器人之间的接口必然是以拟人化的语音交流为主，另外智能家居最近发展迅猛，将来人与智能家居设备的接口也一定会有语音交流接口，这些都必需依赖语音识别技术，将来语音一定会代替键盘、触摸屏成为人机交互的主要接口，所以提升语音识别的准确率具有极其重要的意义。

现有语音识别的基本模式是：通过话筒拾取语音，提取语音特征，将提取的语音特征与语音特征库比对找到合适的文字输出。为了提升识别的准确率，目前改进的语音识别技术已增加学习功能，通过学习修正语音特征库，以改善对个人语音不标准或方言口音导致的识别率低的问题，但因增加了学习过程，与正常的用户习惯不一致，对用户体验造成很大影响，同时仍然只能将识别率提升到接近标准发音时的识别率，在实际应用中仍然存在问题，准确率仍然不是很高。

发明内容

基于此，本发明实施例的目的在于提供一种语音识别方法、一种语音识别装置及一种语音识别系统，其可以大幅提升语音识别的准确率，用户语音识别使用体验可达到理想状态。

为达到上述目的，本发明实施例采用以下技术方案：

一种语音识别方法，包括步骤：

对拾取的语音数据进行预处理，得到预处理后的语音数据；

提取所述预处理后的语音数据中的特征信息，获得语音特征；

将所述语音特征与智能终端本地语音特征数据库进行匹配，判断所述智能终端本地语音特征数据库中是否有与所述语音特征匹配的语音识别结果；

若没有，向目标服务器发送第一语音识别请求，所述目标服务器为与所述语音特征所属语系对应的地域语音特征库服务器，所述第一语音识别请求中包括所述语音特征；

接收所述目标服务器返回的第一语音识别响应，所述第一语音识别响应包括所述目标服务器将所述语音特征与所述目标服务器本地语音特征数据库进行匹配获得的匹配结果；

在所述匹配结果为匹配不成功时，向所述目标服务器发送第二语音识别请求，所述第二语音识别请求中包括所述预处理后的语音数据；

接收所述目标服务器返回的第二语音识别响应，所述第二语音识别响应包括所述目标服务器将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译后得到的语音识别结果。

一种语音识别方法，包括步骤：

接收智能终端发送的第一语音识别请求，所述第一语音识别请求中包括语音特征；

将所述语音特征与服务器本地语音特征数据库进行匹配，获得匹配结果；

向所述智能终端发送第一语音识别响应，所述第一语音识别响应包括所述匹配结果；

接收所述智能终端在所述匹配结果为匹配不成功时发送的第二语音识别请求，所述第二语音识别请求中包括预处理后的语音数据，所述语音特征从所述预处理后的语音数据中提取；

将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译；

接收所述人工翻译终端设备返回的语音识别结果；

向所述智能终端发送第二语音识别响应，所述第二语音识别响应包括所述人工翻译终端设备返回的语音识别结果。

一种语音识别装置，包括：

预处理模块，用于对拾取的语音数据进行预处理，得到预处理后的语音数据；

特征提取模块，用于提取所述预处理后的语音数据中的特征信息，获得语音特征；

终端匹配模块，用于将所述语音特征与智能终端本地语音特征数据库进行匹配，判断所述智能终端本地语音特征信息数据库中是否有与所述语音特征匹配的语音识别结果；

终端信息交互模块，用于在所述终端匹配模块的判断结果为否时，向目标服务器发送第一语音识别请求，所述目标服务器为与所述语音特征所属语系对应的地域语音特征库服务器，所述第一语音识别请求中包括所述语音特征；并接收所述目标服务器返回的第一语音识别响应，所述第一语音识别响应包括所述目标服务器将所述语音特征与所述目标服务器本地语音特征数据库进行匹配获得的匹配结果，并在所述匹配结果为匹配不成功时，向所述目标服务器发送第二语音识别请求，所述第二语音识别请求中包括所述预处理后的语音数据；并接收所述目标服务器返回的第二语音识别响应，所述第二语音识别响应包括所述目标服务器将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译后得到的语音识别结果。

一种语音识别装置，包括：

服务端第一信息交互模块，用于接收智能终端发送的第一语音识别请求，所述第一语音识别请求中包括语音特征，并向所述智能终端发送第一语音识别响应，所述第一语音识别响应包括服务端匹配模块的匹配结果，并接收所述智能终端在所述匹配结果为匹配不成功时发送的第二语音识别请求，所述第二语音识别请求中包括预处理后的语音数据，所述语音特征从所述预处理后的语音数据中提取；并向所述智能终端发送第二语音识别响应，所述第二语音识别响应包括服务端第二信息交互模块接收的人工翻译终端设备返回的语音识别结果；

服务端匹配模块，用于将所述语音特征与服务器本地语音特征数据库进行匹配，获得匹配结果；

所述服务端第二信息交互模块，用于将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译，并接收所述人工翻译终端设备返回的语音识别结果。

一种语音识别系统，包括一个以上的地域语音特征库服务器，各地域语音特征库服务器分别与相应地域的各智能终端对应，为相应地域的智能终端提供语音识别服务，各地域语音特征库服务器分别包括如上所述的语音识别装置。

根据如上所述的本发明实施例的方案，其在智能终端无法对提取的语音特征进行匹配时，基于语音特征所属语系将该语音特征发送给与该语系对应的目标服务器，由目标服务器基于服务器语音特征数据库对该语音特征进行匹配，并将该匹配结果返回给智能终端，在目标服务器也匹配不成功的情况下，将预处理后的语音数据经由目标服务器发送至人工翻译终端设备进行人工翻译，从而可以获得接近100％准确率的语音识别。而且，在此情况下，目标服务器是与语音所属语系对应的，因而可以按照语言差异为各地域设置不同的语音特征库服务器分布在各地，实现海量语音特征数据的收集、存储和检索，可以建立无穷容量、包罗万象的语音特征库，极大地提高智能终端的语音识别率。

附图说明

图1是本发明一个实施例中的语音识别方法的流程示意图；

图2是本发明另一个实施例中的语音识别方法的流程示意图；

图3是一个具体示例的语音识别过程中智能终端与服务器之间的交互过程的流程示意图；

图4是一个实施例中的语音识别装置的结构示意图；

图5是本发明一个实施例中的语音识别系统的架构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1中示出了本发明一个实施例的语音识别方法的流程示意图，该实施例是以各智能终端的处理过程为例进行说明，这些智能终端包括但不限于智能手机、平板电脑、智能家居设备、机器人、个人计算机等等。

如图1所示，本实施例中的方法包括步骤：

步骤S101：对拾取的语音数据进行预处理，得到预处理后的语音数据；

步骤S102：提取所述预处理后的语音数据中的特征信息，获得语音特征；

步骤S103：将所述语音特征与智能终端本地语音特征数据库进行匹配，判断所述智能终端本地语音特征信息数据库中是否有与所述语音特征匹配的语音识别结果，若没有，则进入步骤S104；

步骤S104：向目标服务器发送第一语音识别请求，所述目标服务器为与所述语音特征所属语系对应的地域语音特征库服务器，所述第一语音识别请求中包括所述语音特征；

步骤S105：接收所述目标服务器返回的第一语音识别响应，所述第一语音识别响应包括所述目标服务器将所述语音特征与所述目标服务器本地语音特征数据库进行匹配获得的匹配结果；

步骤S106：判断第一语音识别响应中的匹配结果是否为匹配成功的语音识别结果，若不是，即第一语音识别响应中的匹配结果为匹配不成功时，进入步骤S107；

步骤S107：向目标服务器发送第二语音识别请求，所述第二语音识别请求中包括所述预处理后的语音数据；

步骤S108：接收所述目标服务器返回的第二语音识别响应，所述第二语音识别响应包括所述目标服务器将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译后得到的语音识别结果。

根据如上所述的本发明实施例的方案，其在智能终端无法对提取的语音特征进行匹配时，基于语音特征所属语系将该语音特征发送给与该语系对应的目标服务器，由目标服务器基于服务器语音特征数据库对该语音特征进行匹配，并将该匹配结果返回给智能终端，在目标服务器也匹配不成功的情况下，可将预处理后的语音数据经由目标服务器发送至人工翻译终端设备进行人工翻译，从而可以获得接近100％准确率的语音识别。而且，在此情况下，目标服务器是与语音所属语系对应的，因而可以按照语言差异为各地域设置不同的语音特征库服务器分布在各地，实现海量语音特征数据的收集、存储和检索，可以建立无穷容量、包罗万象的语音特征库，极大地提高智能终端的语音识别率。

其中，上述语音特征所属语系，可以采用各种可能的方式确定。例如，在其中一种方式中，可以在智能终端事先设定语系信息，在到达上述步骤S104时，基于智能终端设定的语系直接向与该语系对应的目标服务器发送第一语音识别请求即可。

此外，在上述步骤S106中判定第一语音识别响应中的匹配结果是匹配成功得到的语音识别结果时，以及步骤S108中接收到第二语音识别响应后，还可以进入步骤S109：

步骤S109：将该第一语音识别响应中匹配的语音识别结果或者第二语音识别响应中的语音识别结果与所述语音特征关联后存储到智能终端本地语音特征数据库。实现智能终端本地语音特征数据库的自动更新，进一步提升语音识别的准确性。

通过本实施例的方案，智能终端无法识别的语音特征，会发送至与智能终端的语系对应的地域语音特征库服务器进行识别，在对应的地域语音特征库服务器也无法识别的情况下，会发送至人工翻译终端设备进行人工翻译，从而可以获得接近100％准确率的语音识别。在语音特征数据积累阶段，由于有少量语音识别需要依赖人工翻译，可能会存在一定时间的延时，对用户体验会产生一定的影响，而随着服务器上海量语音特征数据的快速积累，对人工翻译的依赖越来越低，智能终端可以即时获得接近100％准确率的语音识别，用户语音识别使用体验可达到理想状态。

图2示出了本发明另一个实施例的语音识别方法的流程示意图，该实施例是以地域语音特征库服务器的处理过程为例进行说明。

如图2所示，本实施例中的方法包括步骤：

步骤S201：接收智能终端发送的第一语音识别请求，所述第一语音识别请求中包括语音特征；

步骤S202：将所述语音特征与服务器本地语音特征数据库进行匹配，获得匹配结果；

步骤S203：向所述智能终端发送第一语音识别响应，所述第一语音识别响应包括所述匹配结果。

上述第一语音识别响应中的匹配结果，可能是匹配成功得到的语音识别结果，也可能是匹配不成功的信息。为了能够准确地进行语音识别，在第一语音识别响应中的匹配结果为匹配不成功时，智能终端还可以发送第二语音识别请求。据此，如图2所示，还可以包括下述步骤：

步骤S204：接收所述智能终端在所述匹配结果为匹配不成功时发送的第二语音识别请求，所述第二语音识别请求中包括预处理后的语音数据，所述语音特征从所述预处理后的语音数据中提取；

步骤S205：将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译；

步骤S206：接收所述人工翻译终端设备返回的语音识别结果；

步骤S207：向所述智能终端发送第二语音识别响应，所述第二语音识别响应包括所述人工翻译终端设备返回的语音识别结果。

其中，目标服务器在接收到人工翻译终端设备返回的语音识别结果后，还可以进入步骤S208：

步骤S208：将人工翻译终端设备返回的该语音识别结果与所述语音特征关联后存储到目标服务器本地语音特征数据库，实现服务器本地语音特征数据库的自动更新。

结合上述实施例的语音识别方法，图3示出了一个具体示例的语音识别过程中智能终端与服务器之间的交互过程的流程示意图。

如图3所示，在一个具体的语音识别过程中，智能终端会先拾取语音，并对拾取的语音进行预处理，得到预处理的语音数据。预处理的过程可以包括但不限于智能降噪、语音增强、语音片段截取等过程，以降低环境噪音、不合适的声音起点对语音识别的影响，具体的预处理的方式，可以采用任何可能的方式进行。

针对得到的预处理的语音数据，对其进行语音特征的提取，获得语音特征，具体提取语音特征的方式，可以采用任何可能的方式进行。智能终端检索智能终端本地语音特征数据库，将提取的语音特征与智能终端本地语音特征数据库进行匹配。

若检索到匹配的语音特征数据，则将匹配的语音特征数据作为语音识别结果反馈给相应的应用程序。

若没有匹配的语音特征数据，则智能终端确定该语音特征所属语系。该所属语系可以是智能终端中事先设定的语系，也可以是对语音特征进行分析来确定。考虑到绝大部分智能终端的使用者是固定的，且每个人的母语或者习惯语言是固定的，因而各智能终端的语系是可以已知且可以进行预先设定的，因此，在本发明实施例中以智能终端中事先设定语系为例进行说明。

随后，智能终端基于该语系向与该语系对应的目标服务器发送第一语音识别请求，该目标服务器为与所述语音特征所属语系对应的地域语音特征库服务器，上述第一语音识别请求中包括有上述提取的语音特征。

本地域语音特征库服务器接收到该第一语音识别请求后，先判断该第一语音识别请求的语音特征所属语系是否与自身相对应。若不对应，则将该第一语音识别请求向与该第一语音识别请求的语音特征所属语系对应的地域语音特征库服务器进行转发。

若该第一语音识别请求的语音特征所属语系与自身相对应，则继续执行后续过程。

本地域语音特征库服务器接收到第一语音识别请求后，将第一语音识别请求中的语音特征与服务器本地语音特征数据库进行匹配，并基于匹配结果向智能终端返回第一语音识别响应。

若匹配成功，获得匹配的语音识别结果，则该第一语音识别响应中包括有该匹配的语音识别结果。智能终端接收后，将该语音识别结果与上述语音特征进行关联后，存储到智能终端本地语音特征数据库，并将该语音识别结果反馈给相应的应用程序。

若匹配不成功，则该第一语音识别响应中包括有匹配不成功的信息。智能终端接收后，向本地域语音特征库服务器发送第二语音识别请求，该第二语音识别请求中包括有上述预处理后的语音数据。

本地域语音特征库服务器接收到该第二语音识别请求后，将第二语音识别请求中的预处理后的语音数据发送给人工翻译终端设备进行人工翻译。并在接收到接收所述人工翻译终端设备返回的语音识别结果后，向智能终端发送第二语音识别响应，该第二语音识别响应中包括有上述人工翻译终端设备返回的语音识别结果。此外，本地域语音特征库服务器接收到人工终端翻译设备返回的语音识别结果后，还可以将该语音识别结果与上述语音特征关联后，存储到服务器本地语音特征数据库，实现对服务器本地语音特征库服务器的存储。

智能终端接收到的第二语音识别响应后，将该第二语音识别响应中的语音识别结果与上述语音特征进行关联后，存储到智能终端本地语音特征数据库，并将该语音识别结果反馈给相应的应用程序。

通过本实施例的方案，智能终端无法识别的语音特征，会发送至与智能终端的语系对应的地域语音特征库服务器进行识别，在对应的地域语音特征库服务器也无法识别的情况下，会发送至人工翻译设备进行人工翻译，从而可以获得接近100％准确率的语音识别。在语音特征数据积累阶段，由于有少量语音识别需要依赖人工翻译，会存在一定时间的延时，对用户体验会产生一定的影响。因此，在具体的技术实施时，上述发送给人工翻译设备进行人工翻译的过程，可以为有偿抢答方式，系统根据抢答结果中相同结果的百分比判断正确答案，并向最先提交正确答案者支付报酬，通过这种方式来实现最短时间获得正确结果，从而即使现有语音识别库没有有效的语音特征数据也能快速得到语音识别结果，可大幅提升智能终端的语音识别使用体验。而随着服务器上海量语音特征数据的快速积累，对人工翻译的依赖越来越低，智能终端可以即时获得接近100％准确率的语音识别，用户语音识别使用体验可达到理想状态。

基于与上述语音识别方法相同的思想，本发明实施例还提供一种语音识别装置。图4中示出了一个实施例中的语音识别装置的结构示意图，在图4所示的示例中，出于简洁说明的目的，同时示出了设置在智能终端401的语音识别装置的部分和设置在地域语音特征库服务器402的语音识别装置的部分。

如图4所示，设置在智能终端401的语音识别装置包括有预处理模块4011、特征提取模块4012、终端匹配模块4013、终端信息交互模块4014，设置在地域语音特征库服务器402的语音识别装置包括有服务端第一信息交互模块4021、服务端匹配模块4022、有服务端第二信息交互模块4023。

其中，上述预处理模块4011，用于对拾取的语音数据进行预处理，得到预处理后的语音数据；

上述特征提取模块4012，用于提取所述预处理后的语音数据中的特征信息，获得语音特征；

上述终端匹配模块4013，用于将所述语音特征与智能终端本地语音特征信息库进行匹配，判断所述本地语音特征信息数据库中是否有与所述语音特征匹配的语音识别结果；

上述终端信息交互模块4014，用于在上述终端匹配模块4013的判断结果为否时，向目标服务器发送第一语音识别请求，所述目标服务器为与所述语音特征所属语系对应的地域语音特征库服务器，所述第一语音识别请求中包括所述语音特征；并接收所述目标服务器返回的第一语音识别响应，所述第一语音识别响应包括所述目标服务器将所述语音特征与所述目标服务器本地语音特征数据库进行匹配获得的匹配结果，并在所述第一语音识别响应中的匹配结果为匹配不成功时，向所述目标服务器发送第二语音识别请求，所述第二语音识别请求中包括所述预处理后的语音数据；并接收所述目标服务器返回的第二语音识别响应，所述第二语音识别响应包括所述目标服务器将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译后得到的语音识别结果。

相应地，

上述服务端第一信息交互模块4021，用于接收智能终端发送的上述第一语音识别请求，所述第一语音识别请求中包括语音特征，并向所述智能终端发送第一语音识别响应，所述第一语音识别响应包括服务端匹配模块的匹配结果，还接收所述智能终端在所述匹配结果为匹配不成功时发送的第二语音识别请求，所述第二语音识别请求中包括预处理后的语音数据，所述语音特征从所述预处理后的语音数据中提取；并向所述智能终端发送第二语音识别响应，所述第二语音识别响应包括服务端第二信息交互模块4023接收的人工翻译终端设备返回的语音识别结果；

上述服务端匹配模块4022，用于将所述语音特征与服务器本地语音特征数据库进行匹配，获得匹配结果；

上述服务端第二信息交互模块4023，用于将所述预处理后的语音数据发送给人工翻译终端设备403进行人工翻译，并接收所述人工翻译终端设备403返回的语音识别结果。

其中，上述语音特征所属语系，可以采用各种可能的方式确定。例如，在其中一种方式中，可以在智能终端事先设定语系信息，终端信息交互模块4014基于智能终端设定的语系直接向与该语系对应的目标服务器发送第一语音识别请求即可。

其中，智能终端在得到目标服务器返回的语音识别结果后，还可以将该语音识别结果与所述语音特征关联后存储到智能终端本地语音特征数据库。实现智能终端本地语音特征数据库的自动更新，以进一步提升语音识别的准确性。

据此，如图4所示，设置在智能终端401上的语音识别装置，还可以包括：

终端数据库更新模块4015，用于将所述第一语音识别响应中匹配的语音识别结果或者第二语音识别响应中的语音识别结果与所述语音特征关联后存储到所述智能终端本地语音特征数据库。

此外，服务端第二信息交互模块4023接收到人工翻译终端设备403返回的语音识别结果后，也可以将该语音识别结果与所述语音特征关联后存储到服务器本地语音特征数据库。

据此，如图4所示，设置在地域语音特征库服务器402上的语音识别装置，还可以包括：

服务端数据库更新模块4024，用于将所述人工翻译终端设备返回的语音识别结果与所述语音特征关联后存储到所述服务器本地语音特征数据库。

在一个具体示例中，如图4所示，设置在地域语音特征库服务器402的语音识别装置还可以包括有：

终端身份识别模块4025，用于在服务端第一信息交互模块4021接收到第一语音识别请求时，判断所述语音特征所属语系是否与自身相对应，若不对应，则将该第一语音识别请求向与所述语音特征所属语系对应的地域语音特征库服务器转发。

此时，上述服务端匹配模块4022，在终端身份识别模块4025的判定结果为对应时，再将所述语音特征与服务器本地语音特征数据库进行匹配。

基于如上所述的语音识别装置，本发明实施例还提供一种语音识别系统，图5示出了一个实施例中的语音识别系统的架构示意图。

如图5所示，在本实施例的语音识别系统中，包括一个以上的地域语音特征库服务器，各地域语音特征库服务器分别与相应地域的各智能终端对应，为相应地域的智能终端提供语音识别服务，各地域语音特征库服务器上包括有如上所述的语音识别装置。

结合如5所示，在该系统结构中，不仅设有公共标准发音语音特征库服务器(通常为标准官方语言，例如中国的普通话)，而且，根据各地语言差异，还设置基于语言差异进行分布的各地域语音特征库服务器，例如图5中所示的地域1语音特征库服务器、地域2语音特征库服务器、地域n语音特征库服务器，各地域语音特征库服务器确保本地域联网语音特征(相对智能终端内置的语音特征数据库而言)的收集、存储及检索优先在本地域语音特征库服务器实现，只有少数漫游终端需要进行跨地域检索，可减少跨地域的网络流量并降低处理延时。

各地域语音特征库服务器上安装有联网语音识别服务端，可接收智能终端(如智能手机、平板电脑、智能家居设备、机器人等)上传的语音特征并检索在本地服务器特征数据库。如果检索到匹配(从技术上而言，匹配并非完全相同，而是相同特征达到预设的百分比，该百分比可在实际应用中根据识别的准确率情况整定到合理值)的语音特征数据，则将结果反馈给所述智能终端。如果没有检索到，服务器会基于智能终端的第二语音识别请求将语音数据传递给联网的可进行人工翻译的计算机，在计算机上完成人工翻译后将结果传递给所述服务器，服务器再将结果返回给智能终端。

联网的智能终端上安装有联网语音识别客户端，客户端内置有本地语音特征数据库，该智能终端本地语音特征数据库可以为标准语音特征库，可以实现标准发音的大部分语音识别，可降低对网络检索的需求。另一方面，智能终端本地语音特征数据库可存储个人积累的语音特征库，实现地域性相应语系的语言特征的识别。其中，这里的语系可以指按语言差异分解到的最小的语言片区，以中国的语系为例，一个省份可能有多个语系。

由于每个地域的网络出口带宽是有限的，在需要跨地域进行大流量数据传递时，往往会出现较大的延时，甚至出现拥塞而瘫痪，因此，如图5所示，本发明实施例的系统构架是以地域为子单元，每个地域有本地域的语音特征库服务器、联网的可进行人工翻译的计算机以及通过路由器或无线基站经Internet(互联网)接入系统的智能终端(包含智能手机、平板电脑、智能家居设备、机器人等)，服务器安装有语音识别服务端(包含人工翻译服务端)、智能终端安装有语音识别客户端、可进行人工翻译的计算机安装有人工翻译客户端。各子单元以及标准语音特征库服务器通过Internet等网络全部连接起来构成一个大的系统，各子单元可承载本地域绝大部分业务需求，只有少部分业务(如处于漫游状态的智能终端，所接收语音的语系与本地域不符的情况)需要进行跨地域实现，极大地减少了跨地域传递的数据量，保证了数据流量的及时性。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音识别方法，其特征在于，应用于智能终端，所述方法包括步骤：

对拾取的语音数据进行预处理，得到预处理后的语音数据；

若没有，向目标服务器发送第一语音识别请求，所述目标服务器为与所述语音特征所属语系对应的地域语音特征库服务器，所述第一语音识别请求中包括所述语音特征,所述语音特征所属语系为在所述智能终端设定的语系；

2.根据权利要求1所述的语音识别方法，其特征在于，还包括步骤：

将所述第一语音识别响应中匹配的语音识别结果或所述第二语音识别响应中的语音识别结果与所述语音特征关联后存储到所述智能终端本地语音特征数据库。

3.一种语音识别方法，其特征在于，应用于地域语音特征库服务器，所述方法包括步骤：

接收智能终端发送的第一语音识别请求，所述第一语音识别请求中包括语音特征，所述地域语音特征库服务器为与所述语音特征所属语系对应的地域语音特征库服务器，所述语音特征所属语系为在所述智能终端设定的语系；

接收所述人工翻译终端设备返回的语音识别结果；

4.根据权利要求3所述的语音识别方法，其特征在于，还包括步骤：

将所述人工翻译终端设备返回的语音识别结果与所述语音特征关联后存储到所述服务器本地语音特征数据库。

5.一种语音识别装置，其特征在于，应用于智能终端，所述装置包括：

终端信息交互模块，用于在所述终端匹配模块的判断结果为否时，向目标服务器发送第一语音识别请求，所述目标服务器为与所述语音特征所属语系对应的地域语音特征库服务器，所述第一语音识别请求中包括所述语音特征,所述语音特征所属语系为在所述智能终端设定的语系；并接收所述目标服务器返回的第一语音识别响应，所述第一语音识别响应包括所述目标服务器将所述语音特征与所述目标服务器本地语音特征数据库进行匹配获得的匹配结果，并在所述匹配结果为匹配不成功时，向所述目标服务器发送第二语音识别请求，所述第二语音识别请求中包括所述预处理后的语音数据；并接收所述目标服务器返回的第二语音识别响应，所述第二语音识别响应包括所述目标服务器将所述预处理后的语音数据发送给人工翻译终端设备进行人工翻译后得到的语音识别结果。

6.根据权利要求5所述的语音识别装置，其特征在于，还包括：

终端数据库更新模块，用于将所述第一语音识别响应中匹配的语音识别结果或者所述第二语音识别响应中的语音识别结果与所述语音特征关联后存储到所述智能终端本地语音特征数据库。

7.一种语音识别装置，其特征在于，应用于地域语音特征库服务器，所述装置包括：

服务端第一信息交互模块，用于接收智能终端发送的第一语音识别请求，所述第一语音识别请求中包括语音特征，所述地域语音特征库服务器为与所述语音特征所属语系对应的地域语音特征库服务器，所述语音特征所属语系为在所述智能终端设定的语系，并向所述智能终端发送第一语音识别响应，所述第一语音识别响应包括服务端匹配模块的匹配结果，并接收所述智能终端在所述匹配结果为匹配不成功时发送的第二语音识别请求，所述第二语音识别请求中包括预处理后的语音数据，所述语音特征从所述预处理后的语音数据中提取；并向所述智能终端发送第二语音识别响应，所述第二语音识别响应包括服务端第二信息交互模块接收的人工翻译终端设备返回的语音识别结果；

8.根据权利要求7所述的语音识别装置，其特征在于，还包括终端身份识别模块；

所述终端身份识别模块，用于在服务端第一信息交互模块接收到第一语音识别请求时，判断所述语音特征所属语系是否与自身相对应，若不对应，则将该第一语音识别请求向与所述语音特征所属语系对应的地域语音特征库服务器转发；

所述服务端匹配模块在所述终端身份识别模块的判定结果为对应时，将所述语音特征与服务器本地语音特征数据库进行匹配。

9.根据权利要求7或8所述的语音识别装置，其特征在于，还包括：

服务端数据库更新模块，用于将所述人工翻译终端设备返回的语音识别结果与所述语音特征关联后存储到所述服务器本地语音特征数据库。

10.一种语音识别系统，其特征在于，包括两个以上的地域语音特征库服务器，各地域语音特征库服务器分别与相应地域的各智能终端对应，为相应地域的智能终端提供语音识别服务，各地域语音特征库服务器分别包括如权利要求7至9任意一项所述的语音识别装置。