CN106558313A

CN106558313A - 语音识别方法及装置

Info

Publication number: CN106558313A
Application number: CN201611010184.5A
Authority: CN
Inventors: 袁莎莎
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Beijing Yunzhisheng Information Technology Co Ltd
Priority date: 2016-11-16
Filing date: 2016-11-16
Publication date: 2017-04-05

Abstract

本发明是关于一种语音识别方法及装置，其中，方法包括：采集语音数据信息；标记所述语音数据信息的语音识别开始点和语音识别结束点，得到标记后的语音数据信息；分别发送所述标记后的语音数据信息至本地服务器和网络服务器，以使所述本地服务器和所述网络服务器分别根据所述语音识别开始点和所述语音识别结束点对所述语音数据信息进行语音识别，得到第一识别结果和第二识别结果；获取所述第一识别结果和所述第二识别结果，并根据所述第一识别结果和所述第二识别结果确定最终识别结果；输出所述最终识别结果。通过该技术方案，使得用户无需关心设备是否联网，可以带给用户更好的使用体验。

Description

语音识别方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法及装置。

背景技术

语音识别存在两种模式，一种离线识别模式，即通过本地服务器识别，另外一种在线识别模式，即通过网络服务器识别。传统的方式是需要在两种模式之间显示的进行切换，需要用户感知联网和不联网，例如默认在离线识别模式进行命令识别，现在想联网查个天气预报，需要先命令切换在线模式，再查询天气预报，用户使用体验效果非常不好。

发明内容

本发明实施例提供一种语音识别方法及装置，用以实现不需要用户来回切换识别模式，从而提升用户的使用体验。

根据本发明实施例的第一方面，提供一种语音识别方法，包括：

采集语音数据信息；

标记所述语音数据信息的语音识别开始点和语音识别结束点，得到标记后的语音数据信息；

分别发送所述标记后的语音数据信息至本地服务器和网络服务器，以使所述本地服务器和所述网络服务器分别根据所述语音识别开始点和所述语音识别结束点对所述语音数据信息进行语音识别，得到第一识别结果和第二识别结果；

获取所述第一识别结果和所述第二识别结果，并根据所述第一识别结果和所述第二识别结果确定最终识别结果；

输出所述最终识别结果。

在一个实施例中，所述本地服务器识别所述语音数据信息时不需要联网，所述网络服务器识别所述语音数据信息时需要联网。

在该实施例中，通过本地服务器和网络服务器同时识别语音数据，即将在线识别模式和离线识别模式混合使用，并从本地服务器和网络服务器得到的识别结果中选定最终识别结果，这样，在网络条件较好，本地设备硬件配置较低的情况下，在线比离线反馈结果要快，而在设备配置较高，运算速度很高的时候，离线比在线速度要快，从而可以使得识别速度更快。并且在线识别结果和离线识别结果可以互相备份，当网络发生故障的时候，离线识别可以识别有限的存储的语句库，当本地设备有更高优先级任务导致本地计算慢的情况下，在线识别可以保证识别结果的输出，从而使得用户无需关心设备是否联网，可以带给用户更好的使用体验。

其中，标记出语音识别开始点和语音识别结束点，方便服务器根据语音识别开始点和语音识别结束点对语音信息进行识别。

在一个实施例中，所述方法还包括：

在得到标记后的语音数据信息后，按照预设格式存储所述标记后的语音数据信息。

在该实施例中，将标记后的语音数据信息按照预设格式存储，这样，可以方便后续流程对语音数据信息进行处理。

在一个实施例中，所述获取所述第一识别结果和所述第二识别结果，包括：

分别获取所述本地服务器和所述网络服务器的识别进度，在所述识别进度到达所述语音识别结束点，或者总识别时长达到预设识别时长时，获取所述第一识别结果和所述第二识别结果。

在该实施例中，用户或者厂商可以设置预设识别时长，这样，在识别某个语音数据信息的总识别时长达到预设识别时长时，获取识别结果，从而保证识别结果返回的时效性。当然，也可以在识别进度到达语音识别结束点，即语音数据信息识别结束后，获取识别结果，从而保证识别结果的完整性和准确性。

在一个实施例中，所述第一识别结果和所述第二识别结果中均包含识别结果可信度，所述根据所述第一识别结果和所述第二识别结果确定最终识别结果，包括：

分别获取所述第一识别结果和所述第二识别结果对应的获取时刻和识别结果可信度；

将所述第一识别结果和所述第二识别结果中，获取时刻在先且识别结果可信度大于或者等于预设可信度的识别结果确定为所述最终识别结果。

在该实施例中，在识别结果中包含识别可信度，这样，在筛选识别结果的时候，可以筛选出识别可信度较高且获取时刻在先，即识别较快的识别结果，从而保证识别结果的准确性和识别速度，提升用户的使用体验。

根据本发明实施例的第二方面，提供一种语音识别装置，包括：

采集模块，用于采集语音数据信息；

标记模块，用于标记所述语音数据信息的语音识别开始点和语音识别结束点，得到标记后的语音数据信息；

发送模块，用于分别发送所述标记后的语音数据信息至本地服务器和网络服务器，以使所述本地服务器和所述网络服务器分别根据所述语音识别开始点和所述语音识别结束点对所述语音数据信息进行语音识别，得到第一识别结果和第二识别结果；

获取模块，用于获取所述第一识别结果和所述第二识别结果，并根据所述第一识别结果和所述第二识别结果确定最终识别结果；

输出模块，用于输出所述最终识别结果。

在一个实施例中，所述装置还包括：

存储模块，用于在得到标记后的语音数据信息后，按照预设格式存储所述标记后的语音数据信息。

在一个实施例中，所述获取模块用于：

在一个实施例中，所述第一识别结果和所述第二识别结果中均包含识别结果可信度，所述获取模块包括：

获取子模块，用于分别获取所述第一识别结果和所述第二识别结果对应的获取时刻和识别结果可信度；

确定子模块，用于将所述第一识别结果和所述第二识别结果中，获取时刻在先且识别结果可信度大于或者等于预设可信度的识别结果确定为所述最终识别结果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音识别方法的流程图。

图2是根据一示例性实施例示出的另一种语音识别方法的流程图。

图3是根据一示例性实施例示出的一种语音识别方法中步骤S104的流程图。

图4是根据一示例性实施例示出的另一种语音识别方法中步骤S104的流程图。

图5是根据一示例性实施例示出的一种语音识别装置的框图。

图6是根据一示例性实施例示出的另一种语音识别装置的框图。

图7是根据一示例性实施例示出的一种语音识别装置中获取模块的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音识别方法的流程图。该语音唤醒方法应用于终端设备中，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有语音控制功能的设备。如图1所示，该方法包括步骤S101-S105：

在步骤S101中，采集语音数据信息；其中，可以通过录音线程采集语音数据信息。

在步骤S102中，标记语音数据信息的语音识别开始点和语音识别结束点，得到标记后的语音数据信息；

在步骤S103中，分别发送标记后的语音数据信息至本地服务器和网络服务器，以使本地服务器和网络服务器分别根据语音识别开始点和语音识别结束点对语音数据信息进行语音识别，得到第一识别结果和第二识别结果；

在线和离线识别线程逻辑处理流程大致一致，以在线识别为例，其处理流程如下：首先阻塞等待信号量，即控制线程给出的信号，获取到信号量之后，找到要识别语音的语音识别开始点，进行压缩数据，发送至网络服务器；当确定识别进度到达语音识别结束点或者总识别时长超时，获取网络服务器识别的结果。

离线识别部分与上述在线识别部分的流程的区分是送至本地服务器。并且本地服务器每一帧数据是阻塞处理的，而在线识别是发送至网络服务器后，异步等待服务器的反馈。

在步骤S104中，获取第一识别结果和第二识别结果，并根据第一识别结果和第二识别结果确定最终识别结果；

在步骤S105中，输出最终识别结果。

在一个实施例中，本地服务器识别语音数据信息时不需要联网，网络服务器识别语音数据信息时需要联网。

如图2所示，在一个实施例中，在上述步骤S102之后，上述方法还包括步骤S201：

在步骤S201中，在得到标记后的语音数据信息后，按照预设格式存储标记后的语音数据信息。

其中，预设存储格式可以是以下格式：

如图3所示，在一个实施例中，上述步骤S104包括步骤S301：

在步骤S301中，分别获取本地服务器和网络服务器的识别进度，在识别进度到达语音识别结束点，或者总识别时长达到预设识别时长时，获取第一识别结果和第二识别结果，并根据第一识别结果和第二识别结果确定最终识别结果。

如图4所示，在一个实施例中，第一识别结果和第二识别结果中均包含识别结果可信度，上述步骤S104包括步骤S401-S402：

在步骤S401中，分别获取第一识别结果和第二识别结果对应的获取时刻和识别结果可信度；

在步骤S402中，将第一识别结果和第二识别结果中，获取时刻在先且识别结果可信度大于或者等于预设可信度的识别结果确定为最终识别结果。

下述为本发明装置实施例，可以用于执行本发明方法实施例。

图5是根据一示例性实施例示出的一种语音识别装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图5所示，该语音识别装置包括：

采集模块51，用于采集语音数据信息；其中，可以通过录音线程采集语音数据信息。

标记模块52，用于标记所述语音数据信息的语音识别开始点和语音识别结束点，得到标记后的语音数据信息；

发送模块53，用于分别发送所述标记后的语音数据信息至本地服务器和网络服务器，以使所述本地服务器和所述网络服务器分别根据所述语音识别开始点和所述语音识别结束点对所述语音数据信息进行语音识别，得到第一识别结果和第二识别结果；

获取模块54，用于获取所述第一识别结果和所述第二识别结果，并根据所述第一识别结果和所述第二识别结果确定最终识别结果；

输出模块55，用于输出所述最终识别结果。

如图6所示，在一个实施例中，上述装置还包括：

存储模块61，用于在得到标记后的语音数据信息后，按照预设格式存储所述标记后的语音数据信息。

其中，预设存储格式可以是以下格式：

在一个实施例中，所述获取模块54用于：

如图7所示，在一个实施例中，所述第一识别结果和所述第二识别结果中均包含识别结果可信度，所述获取模块54包括：

获取子模块71，用于分别获取所述第一识别结果和所述第二识别结果对应的获取时刻和识别结果可信度；

确定子模块72，用于将所述第一识别结果和所述第二识别结果中，获取时刻在先且识别结果可信度大于或者等于预设可信度的识别结果确定为所述最终识别结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别方法，其特征在于，包括：

采集语音数据信息；

输出所述最终识别结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述获取所述第一识别结果和所述第二识别结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述第一识别结果和所述第二识别结果中均包含识别结果可信度，所述根据所述第一识别结果和所述第二识别结果确定最终识别结果，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述本地服务器识别所述语音数据信息时不需要联网，所述网络服务器识别所述语音数据信息时需要联网。

6.一种语音识别装置，其特征在于，包括：

采集模块，用于采集语音数据信息；

输出模块，用于输出所述最终识别结果。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述获取模块用于：

9.根据权利要求6所述的装置，其特征在于，所述第一识别结果和所述第二识别结果中均包含识别结果可信度，所述获取模块包括：

10.根据权利要求6至9中任一项所述的方法，其特征在于，所述本地服务器识别所述语音数据信息时不需要联网，所述网络服务器识别所述语音数据信息时需要联网。