CN106558305B

CN106558305B - 语音数据处理方法及装置

Info

Publication number: CN106558305B
Application number: CN201611010063.0A
Authority: CN
Inventors: 袁莎莎
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2016-11-16
Filing date: 2016-11-16
Publication date: 2020-06-02
Anticipated expiration: 2036-11-16
Also published as: CN106558305A

Abstract

本发明是关于一种语音数据处理方法及装置，其中，方法包括：采集语音数据信息；对语音数据信息中的每一帧数据进行顺序编号，并顺序存储至预设队列中，其中，语音数据信息包括待唤醒数据信息和待识别数据信息；检测语音数据信息的语音起始点和语音结束点，并根据语音起始点和语音结束点确定语音数据信息中待唤醒数据信息对应的第一编号范围，以及待识别数据信息对应的第二编号范围；对处于第一编号范围内的待唤醒数据信息进行唤醒处理，并在唤醒处理成功后，控制本地服务器和网络服务器根据第二编号范围从预设队列中分别读取待识别数据信息，对待识别数据进行识别处理。通过该技术方案，提高了识别效率，并节省了存储空间，提升了用户的使用体验。

Description

语音数据处理方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音数据处理方法及装置。

背景技术

目前，在本地服务器和网络服务器对语音数据进行识别时，需要分别对语音数据进行拷贝后，才能进行识别，这样，在数据的数量较大时，拷贝效率低，进而导致语音识别效率低，影响用户的使用体验。

发明内容

本发明实施例提供一种语音数据处理方法及装置，用以实现在保证语音处理的准确率的基础上，提高语音识别的效率，从而提升用户的使用体验。

根据本发明实施例的第一方面，提供一种语音数据处理方法，包括：

采集语音数据信息；

对所述语音数据信息中的每一帧数据进行顺序编号，并顺序存储至预设队列中，其中，所述语音数据信息包括待唤醒数据信息和待识别数据信息；

检测所述语音数据信息的语音起始点和语音结束点，并根据所述语音起始点和所述语音结束点确定所述语音数据信息中待唤醒数据信息对应的第一编号范围，以及所述待识别数据信息对应的第二编号范围；

对处于所述第一编号范围内的所述待唤醒数据信息进行唤醒处理，并在唤醒处理成功后，控制本地服务器和网络服务器根据所述第二编号范围从所述预设队列中分别读取所述待识别数据信息，对所述待识别数据进行识别处理。

在该实施例中，对语音数据进行编号，这样进行连续标注，可以在语音识别发生故障时进行问题定位跟踪，并且，当本地服务器和在线服务器同时识别语音数据时，不需要分别进行拷贝，只使用一份数据即可，这样，提高了识别效率，并节省了存储空间，提升了用户的使用体验。

在一个实施例中，所述第一编号范围的结束编号的下一个编号为所述第二编号范围的起始编号。

在一个实施例中，所述方法还包括：

将唤醒处理完成的每一帧数据的唤醒状态标注为已唤醒状态，将所述本地服务器识别完成的每一帧数据的离线识别状态标注为离线识别完成状态，将所述服务器识别完成的每一帧数据的在线识别状态标注为在线识别完成状态。

在该实施例中，对语音数据信息的状态进行标注，这样，便于根据语音数据信息的状态对其进行处理，如删除已经处理完成的语音信息，从而实现语音数据连续全流程的管理和记录。

在一个实施例中，所述方法还包括：

将处于已唤醒状态的每一帧数据，或者同时处于离线识别完成状态和在线识别完成状态的每一帧数据从所述预设队列中删除。

在该实施例中，对处于已唤醒状态的语音数据或者同时处于离线识别完成状态和在线识别完成状态的语音数据，将其从预设队列中删除，这样，可以避免预设队列中缓存大量的数据而造成处理效率降低。

在一个实施例中，所述方法还包括：

获取所述本地服务器识别完成的当前帧数据对应的第一编号和所述网络服务器识别完成的当前帧数据对应的第二编号；

当所述第一编号与所述第二编号之间的编号差值大于或者等于预设编号差值时，则将所述第一编号和所述第二编号之间的所有编号对应的帧数据的在线识别状态标注为在线识别完成状态；

控制所述网络服务器从所述第二编号的下一个编号对应的帧数据开始进行识别处理。

在该实施例中，在本地服务器识别完成的当前帧数据对应的第一编号和所述网络服务器识别完成的当前帧数据对应的第二编号之间的编号差值大于或者等于预设编号差值时，说明网络发声了堵塞，即网络服务器与本地服务器相比，有多帧数据未处理，此时，为了避免预设队列中的数据堵塞较长时间，可以通过本地服务器通知网络服务器，本地服务器已经处理到的帧数据的编号，从而使得网络服务器从该编号的下一个编号开始处理，并将该编号之前的数据的在线识别状态标注为在线识别完成状态，即便于及时删除预设队列中同时处于在线识别完成状态和离线识别完成状态的数据。

根据本发明实施例的第二方面，提供一种语音数据处理装置，其特征在于，包括：

采集模块，用于采集语音数据信息；

存储模块，用于对所述语音数据信息中的每一帧数据进行顺序编号，并顺序存储至预设队列中，其中，所述语音数据信息包括待唤醒数据信息和待识别数据信息；

确定模块，用于检测所述语音数据信息的语音起始点和语音结束点，并根据所述语音起始点和所述语音结束点确定所述语音数据信息中待唤醒数据信息对应的第一编号范围，以及所述待识别数据信息对应的第二编号范围；

处理模块，用于对处于所述第一编号范围内的所述待唤醒数据信息进行唤醒处理，并在唤醒处理成功后，控制本地服务器和网络服务器根据所述第二编号范围从所述预设队列中分别读取所述待识别数据信息，对所述待识别数据进行识别处理。

在一个实施例中，所述装置还包括：

第一标注模块，用于将唤醒处理完成的每一帧数据的唤醒状态标注为已唤醒状态，将所述本地服务器识别完成的每一帧数据的离线识别状态标注为离线识别完成状态，将所述服务器识别完成的每一帧数据的在线识别状态标注为在线识别完成状态。

在一个实施例中，所述装置还包括：

删除模块，用于将处于已唤醒状态的每一帧数据，或者同时处于离线识别完成状态和在线识别完成状态的每一帧数据从所述预设队列中删除。

在一个实施例中，所述装置还包括：

获取模块，用于获取所述本地服务器识别完成的当前帧数据对应的第一编号和所述网络服务器识别完成的当前帧数据对应的第二编号；

第二标注模块，用于当所述第一编号与所述第二编号之间的编号差值大于或者等于预设编号差值时，则将所述第一编号和所述第二编号之间的所有编号对应的帧数据的在线识别状态标注为在线识别完成状态；

识别模块，用于控制所述网络服务器从所述第二编号的下一个编号对应的帧数据开始进行识别处理。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音数据处理方法的流程图。

图2是根据一示例性实施例示出的另一种语音数据处理方法的流程图。

图3是根据一示例性实施例示出的又一种语音数据处理方法的流程图。

图4是根据一示例性实施例示出的再一种语音数据处理方法的流程图。

图5是根据一示例性实施例示出的一种语音数据处理装置的框图。

图6是根据一示例性实施例示出的另一种语音数据处理装置的框图。

图7是根据一示例性实施例示出的又一种语音数据处理装置的框图。

图8是根据一示例性实施例示出的再一种语音数据处理装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音数据处理方法的流程图。该语音数据处理方法应用于终端设备中，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有语音处理功能的设备。如图1所示，该方法包括步骤S101-S104：

在步骤S101中，采集语音数据信息；

在步骤S102中，对语音数据信息中的每一帧数据进行顺序编号，并顺序存储至预设队列中，其中，语音数据信息包括待唤醒数据信息和待识别数据信息；

对每帧数据进行顺序编号，即对每帧数据进行序列号号标注，序列号依次增加。除了对语音数据信息进行编号，还可以对其语音状态进行标注，其中，其语音状态包括语音起始点和语音结束点，标注后的语音数据信息可以按照预设格式存储，这样，可以方便后续流程对语音数据信息进行处理。

其中，预设存储格式可以是以下格式：

在步骤S103中，检测语音数据信息的语音起始点和语音结束点，并根据语音起始点和语音结束点确定语音数据信息中待唤醒数据信息对应的第一编号范围，以及待识别数据信息对应的第二编号范围；

在一个实施例中，第一编号范围的结束编号的下一个编号为第二编号范围的起始编号。

其中，根据语音数据信息的语音起始点，可以确定待唤醒数据信息对应的第一编号范围，每次数据唤醒成功后，从第一编号范围的结束编号的下一个编号开始，即结束编号对应的下一个编号的帧数据开始进行数据识别，并根据数据信息的结束点，即在语音识别结束，或者在语音识别的时间超时时，确定数据识别结束，重新切换回唤醒处理。

在步骤S104中，对处于第一编号范围内的待唤醒数据信息进行唤醒处理，并在唤醒处理成功后，控制本地服务器和网络服务器根据第二编号范围从预设队列中分别读取待识别数据信息，对待识别数据进行识别处理。

如图2所示，在一个实施例中，上述方法还包括步骤S201：

在步骤S201中，将唤醒处理完成的每一帧数据的唤醒状态标注为已唤醒状态，将本地服务器识别完成的每一帧数据的离线识别状态标注为离线识别完成状态，将服务器识别完成的每一帧数据的在线识别状态标注为在线识别完成状态。

如图3所示，在一个实施例中，上述方法还包括步骤S301：

在步骤S301中，将处于已唤醒状态的每一帧数据，或者同时处于离线识别完成状态和在线识别完成状态的每一帧数据从预设队列中删除。

对于预设队列中的待唤醒数据信息，需要在其唤醒状态为已唤醒状态时，才可以进行删除，而对于待识别数据信息，需要本地服务器和网络服务器同时识别完毕，即数据同时处于离线识别完成状态和在线识别完成状态才能进行删除。

也就是说，同一时间的数据只能进行唤醒或进行在线和离线的混合识别，所以删除队列中数据的条件为已唤醒，说明数据进行了唤醒处理；或者在线识别和离线识别同时为已完成，说明在线和离线都进行完了识别处理。

如图4所示，在一个实施例中，上述方法还包括步骤S401-S403：

在步骤S401中，获取本地服务器识别完成的当前帧数据对应的第一编号和网络服务器识别完成的当前帧数据对应的第二编号；

在步骤S402中，当第一编号与第二编号之间的编号差值大于或者等于预设编号差值时，则将第一编号和第二编号之间的所有编号对应的帧数据的在线识别状态标注为在线识别完成状态；

在步骤S403中，控制网络服务器从第二编号的下一个编号对应的帧数据开始进行识别处理。

在该实施例中，在本地服务器识别完成的当前帧数据对应的第一编号和网络服务器识别完成的当前帧数据对应的第二编号之间的编号差值大于或者等于预设编号差值时，说明网络发声了堵塞，即网络服务器与本地服务器相比，有多帧数据未处理，此时，为了避免预设队列中的数据堵塞较长时间，可以通过本地服务器通知网络服务器，本地服务器已经处理到的帧数据的编号，从而使得网络服务器从该编号的下一个编号开始处理，并将该编号之前的数据的在线识别状态标注为在线识别完成状态，即便于及时删除预设队列中同时处于在线识别完成状态和离线识别完成状态的数据。

例如，在线在处理到编号为seq a的时候网络发生了阻塞，而此时离线识别已经处理到seq m；为避免数据拥塞较长时间，此时本地服务器通知网络服务器已经处理到seq m的位置；那么网络服务器只对seq a–seq m的数据进行标注为已处理，直接跳到seq m的位置；这样seq a–seq m之间的数据，就可以释放，避免拥塞较长时间。

下述为本发明装置实施例，可以用于执行本发明方法实施例。

图5是根据一示例性实施例示出的一种语音数据处理装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图5所示，该语音数据处理装置包括：

采集模块51，用于采集语音数据信息；

存储模块52，用于对语音数据信息中的每一帧数据进行顺序编号，并顺序存储至预设队列中，其中，语音数据信息包括待唤醒数据信息和待识别数据信息；

其中，预设存储格式可以是以下格式：

确定模块53，用于检测语音数据信息的语音起始点和语音结束点，并根据语音起始点和语音结束点确定语音数据信息中待唤醒数据信息对应的第一编号范围，以及待识别数据信息对应的第二编号范围；

处理模块54，用于对处于第一编号范围内的待唤醒数据信息进行唤醒处理，并在唤醒处理成功后，控制本地服务器和网络服务器根据第二编号范围从预设队列中分别读取待识别数据信息，对待识别数据进行识别处理。

如图6所示，在一个实施例中，上述装置还包括：

第一标注模块61，用于将唤醒处理完成的每一帧数据的唤醒状态标注为已唤醒状态，将本地服务器识别完成的每一帧数据的离线识别状态标注为离线识别完成状态，将服务器识别完成的每一帧数据的在线识别状态标注为在线识别完成状态。

如图7所示，在一个实施例中，上述装置还包括：

删除模块71，用于将处于已唤醒状态的每一帧数据，或者同时处于离线识别完成状态和在线识别完成状态的每一帧数据从预设队列中删除。

如图8所示，在一个实施例中，上述装置还包括：

获取模块81，用于获取本地服务器识别完成的当前帧数据对应的第一编号和网络服务器识别完成的当前帧数据对应的第二编号；

第二标注模块82，用于当第一编号与第二编号之间的编号差值大于或者等于预设编号差值时，则将第一编号和第二编号之间的所有编号对应的帧数据的在线识别状态标注为在线识别完成状态；

识别模块83，用于控制网络服务器从第二编号的下一个编号对应的帧数据开始进行识别处理。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音数据处理方法，其特征在于，包括：

采集语音数据信息；

对处于所述第一编号范围内的所述待唤醒数据信息进行唤醒处理，并在唤醒处理成功后，控制本地服务器和网络服务器根据所述第二编号范围从所述预设队列中分别读取所述待识别数据信息，对所述待识别数据进行识别处理；

将唤醒处理完成的每一帧数据的唤醒状态标注为已唤醒状态，将所述本地服务器识别完成的每一帧数据的离线识别状态标注为离线识别完成状态，将所述服务器识别完成的每一帧数据的在线识别状态标注为在线识别完成状态；

所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述第一编号范围的结束编号的下一个编号为所述第二编号范围的起始编号。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.一种语音数据处理装置，其特征在于，包括：

采集模块，用于采集语音数据信息；

处理模块，用于对处于所述第一编号范围内的所述待唤醒数据信息进行唤醒处理，并在唤醒处理成功后，控制本地服务器和网络服务器根据所述第二编号范围从所述预设队列中分别读取所述待识别数据信息，对所述待识别数据进行识别处理；

第一标注模块，用于将唤醒处理完成的每一帧数据的唤醒状态标注为已唤醒状态，将所述本地服务器识别完成的每一帧数据的离线识别状态标注为离线识别完成状态，将所述服务器识别完成的每一帧数据的在线识别状态标注为在线识别完成状态；

所述装置还包括：

5.根据权利要求4所述的装置，其特征在于，所述第一编号范围的结束编号的下一个编号为所述第二编号范围的起始编号。

6.根据权利要求4所述的装置，其特征在于，所述装置还包括：