CN110060668A

CN110060668A - 一种语音识别控制中减少识别延时的系统及方法

Info

Publication number: CN110060668A
Application number: CN201810104040.9A
Authority: CN
Inventors: 朱建强
Original assignee: Shanghai Hua Zhen Electronic Technology Co Ltd
Current assignee: Shanghai Hua Zhen Electronic Technology Co Ltd
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2019-07-26

Abstract

本发明公开了一种语音识别控制中减少识别延时的系统，包括：本地终端，用于录音；云端语音识别服务器，用于识别录音内容，得出第一识别结果和第一识别分值，并将第一识别结果和第一识别分值发送至本地语音识别服务器；本地语音识别服务器，用于识别录音内容，得出第二识别结果和第二识别分值，并判断第二识别分值是否大于识别分值阈值，若是，则输出第二识别结果，否则，继续判断云端语音识别服务器发送来的第一识别分值是否大于识别分值阈值，若是，则输出第一识别结果，否则，不做输出或输出提示重新录音的提示音。本发明还公开了一种语音识别控制中减少识别延时的方法。

Description

一种语音识别控制中减少识别延时的系统及方法

技术领域

本发明属于语音识别技术领域，尤其涉及一种语音识别控制中减少识别延时的系统及方法。

背景技术

目前云端语音识别受制于宽带网络阻塞和无线网络信号不稳定等因素的限制，经常出现语音识别延时的情况，因此用户在语音控制某个设备时，经常出现说完语音控制指令后，过了2～3秒后甚至更久才会有识别结果返回，用户很可能在此等待的过程中，又说了一遍甚至多遍语音控制指令，用户体验会很差，为此本发明提出一种语音识别控制中减少识别延时的解决方案。

发明内容

基于此，本发明提供一种语音识别控制中减少识别延时的系统及方法，能够完全有效解决上述技术问题。

本发明的技术方案是：一种语音识别控制中减少识别延时的系统，包括：

本地终端，用于录音，并将录音同时发送至本地语音识别服务器和云端语音识别服务器；

云端语音识别服务器，用于接收本地终端的录音，识别录音内容，得出第一识别结果和第一识别分值，并将第一识别结果和第一识别分值发送至本地语音识别服务器；

本地语音识别服务器，用于接收本地终端的录音，识别录音内容，得出第二识别结果和第二识别分值，并判断第二识别分值是否大于识别分值阈值，若是，则输出第二识别结果，否则，继续判断云端语音识别服务器发送来的第一识别分值是否大于识别分值阈值，若是，则输出第一识别结果，否则，不做输出或输出提示重新录音的提示音。

在优选的实施例中，所述的本地语音识别服务器包括：

语音识别引擎模块，用于接收录音数据，识别录音内容，得出第二识别结果和第二识别分值；

识别分值判断模块，用于判断第二识别分值是否大于识别分值阈值，若是，则输出第二识别结果，否则，继续判断云端语音识别服务器发送来的第一识别分值是否大于识别分值阈值，若是，则输出第一识别结果，否则，不做输出或输出提示重新录音的提示音。

为解决技术问题，本发明还提供一种语音识别控制中减少识别延时的方法，包括如下过程：

S1、录音；

S2、对录音进行本地识别和云端识别；

S3、判断本地识别是否成功，若是，则输出识别结果，否则，判断云端识别是否成功，若是，则输出识别结果，否则不做输出或输出请重新录音的提示；

在优选的实施例中，步骤S2包括如下过程：

S21、对录音进行本地识别，给出本地识别的识别结果和识别分值；

S22、对录音进行云端识别，给出云端识别的识别结果和识别分值。

在优选的实施例中，步骤S3包括如下过程：

S31、判断本地识别的识别分值是否大于识别分值阈值，若是，则输出本地识别的识别结果，否则，进入下一步；

S32、判断云端识别的识别分值是否大于识别分值阈值，若是，则输出云端识别的识别结果，否则，不做输出或输出提示重新录音的提示音。

本发明的有益效果是：用户在实际使用中，常用的的语音控制指令识别，在本地识别完成，更丰富的语音控制指令在云端识别完成，在保证用户说语音控制指令丰富程度的基础上，最大程度的降低了识别延时，极大的提高了用户体验，让用户实现说完语音控制指令就出结果，完成了控制。

附图说明

图1是本发明实施例所述语音识别控制中减少识别延时的系统的原理框图；

图2是本发明实施例所述语音识别控制中减少识别延时的方法的流程图；

附图标记说明：

100-本地终端，200-本地语音识别服务器，300-云端语音识别服务器，201-语音识别引擎模块，202-识别分值判断模块。

具体实施方式

下面对本发明进行详细说明。

实施例

如图1所示，一种语音识别控制中减少识别延时的系统，包括：

本地终端100，用于录音，并将录音同时发送至本地语音识别服务器200和云端语音识别服务器300；利用本地终端（可以是嵌入式系统、PC、或者其他SOC系统）的录音设备，持续的接收录音，收到录音后，进行端点检测、语音分帧、语音特征值提取。

云端语音识别服务器300，用于接收本地终端100的录音，识别录音内容，得出第一识别结果和第一识别分值，并将第一识别结果和第一识别分值发送至本地语音识别服务器200。

本地语音识别服务器200，用于接收本地终端100的录音，识别录音内容，得出第二识别结果和第二识别分值，并判断第二识别分值是否大于识别分值阈值，若是，则输出第二识别结果，否则，继续判断云端语音识别服务器300发送来的第一识别分值是否大于识别分值阈值，若是，则输出第一识别结果，否则，不做输出或输出提示重新录音的提示音。

在另一个实施例中，所述的本地语音识别服务器200包括：

语音识别引擎模块201，用于接收录音数据，识别录音内容，得出第二识别结果和第二识别分值；

识别分值判断模块202，用于判断第二识别分值是否大于识别分值阈值，若是，则输出第二识别结果，否则，继续判断云端语音识别服务器300发送来的第一识别分值是否大于识别分值阈值，若是，则输出第一识别结果，否则，不做输出或输出提示重新录音的提示音。

如图2所示，为解决技术问题，本发明还提供一种语音识别控制中减少识别延时的方法，包括如下过程：

S1、录音；具体地，利用本地终端（可以是嵌入式系统、PC、或者其他SOC系统）的录音设备，持续的接收录音，收到录音后，进行端点检测、语音分帧、语音特征值提取。

S2、对录音进行本地识别和云端识别；具体的，将录音的语音特征值分别送到本地的语音识别引擎和云端的服务器接口做本地识别计算和云端识别计算；本地识别是指利用本地终端设备录音，并在本地语音识别服务器上做语音识别计算，无需联网，本地识别一般运行中小词汇量的语音识别，在本地终端持续录音的情况下，将录制的声音送到本地语音识别服务器上的识别引擎去做识别，返回结果包括识别出的语音控制指令的内容以及此次识别分值；云端识别是指在大型服务器上运行语音识别引擎，此引擎为大词汇量语音识别引擎，可以支持海量的语音识别内容识别，此引擎支持多线程，支持多个硬件终端通过宽带网络或者无线网络同时送录音数据，同时做语音识别的计算，识别后将识别结果和识别分值返回给终端设备。

S3、判断本地识别是否成功，若是，则输出识别结果，否则，判断云端识别是否成功，若是，则输出识别结果，否则不做输出或输出请重新录音的提示。

上述过程中，每次语音控制指令说完后，录音后同时送到本地识别引擎和云端语音识别服务器，两者同时运行。利用本地识别的识别时间短，无识别延时的优势，优先采用本地识别中识别出的语音控制指令。本地能识别的语音控制指令基本包括了用户常用的语音控制指令。利用云端识别的识别内容更丰富，如本地无法识别语音控制指令时，再采用云端识别结果。云端识别可采用大词汇量语音识别，包括了用户的语音控制中基本上所有可能的语音控制指令的说法，让各种用户人群，各种不同说法，都可以识别，并去做控制。此发明在保证语音识别控制说法丰富的基础上，有效的降低识别的延时。

在另一个实施例中，步骤S2包括如下过程：

在另一个实施例中，步骤S3包括如下过程：

上述实施例中，比如用户要调节空调温度，我们把常用的调节空调温度的语音控制指令放在本地识别，比如“空调调到20度”、“把空调调到20度”、“温度调到20度”、“把温度调到20度”、“调到20度”和“20度”等语音控制指令均在本地识别，当用户说这些语音控制指令时，在本地即可完成识别（毫无延时）并控制空调调节温度，但不同区域的人说法各不相同，有些用户会说“空调打到20度”、“把空调打到20度”等等其他调节空调温度的语音控制指令都放到云端识别上去，这样即使用户说的这些非常用的温度调节的语音控制指令，也可识别并响应。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种语音识别控制中减少识别延时的系统，其特征在于，包括：

2.根据权利要求1所述的语音识别控制中减少识别延时的系统，其特征在于，所述的本地语音识别服务器包括：

3.一种语音识别控制中减少识别延时的方法，其特征在于，包括如下过程：

S1、录音；

S2、对录音进行本地识别和云端识别；

4.根据权利要求3所述的语音识别控制中减少识别延时的方法，其特征在于，步骤S2包括如下过程：

5.根据权利要求4所述的语音识别控制中减少识别延时的方法，其特征在于，步骤S3包括如下过程：