CN107146618A

CN107146618A - 语音处理方法及装置

Info

Publication number: CN107146618A
Application number: CN201710458438.8A
Authority: CN
Inventors: 全刚
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Beijing Yunzhisheng Information Technology Co Ltd
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2017-09-08

Abstract

本发明是关于一种语音处理方法及装置，其中，方法包括：接收终端设备发送的当前采集的语音信息；对所述语音信息进行语音识别，得到语音识别结果；根据所述语音识别结果确定是否结束采集所述语音信息；在确定结束采集所述语音信息后，发送停止采集指令至所述终端设备，以使所述终端设备停止采集所述语音信息。通过该技术方案，由服务器根据语音信息的语音识别结果确定结束采集语音信息的时间，进而发送停止采集指令至终端设备，这样，终端设备就可以根据该停止采集指令停止采集语音信息。这样，根据语音信息的语音识别结果确定何时停止采集语音信息，可以更准确的判断语音信息停止的时间。

Description

语音处理方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音处理方法及装置。

背景技术

现有技术中，由客户端采集语音信息，发送给服务器，对于语音信息何时采集结束，是由客户端通过简单的能量检测进行判断的，但是由于客户端没有语音识别功能，因此，现有的客户端的判断方式不够准确。

发明内容

本发明实施例提供一种语音处理方法及装置，用以实现准确的判断语音信息的采集结束时间，从而提升用户的使用体验。

根据本发明实施例的第一方面，提供一种语音处理方法，用于服务器，包括：

接收终端设备发送的当前采集的语音信息；

对所述语音信息进行语音识别，得到语音识别结果；

根据所述语音识别结果确定是否结束采集所述语音信息；

在确定结束采集所述语音信息后，发送停止采集指令至所述终端设备，以使所述终端设备停止采集所述语音信息。

在该实施例中，由服务器根据语音信息的语音识别结果确定结束采集语音信息的时间，进而发送停止采集指令至终端设备，这样，终端设备就可以根据该停止采集指令停止采集语音信息。这样，根据语音信息的语音识别结果确定何时停止采集语音信息，可以更准确的判断语音信息停止的时间。

在一个实施例中，对所述语音信息进行语音识别，得到语音识别结果，包括：

对所述语音信息进行语音识别，以生成所述语音信息对应的文本信息和静音信息；

根据所述文本信息、所述静音信息和所述文本信息中上下文之间的相关性，将所述文本信息划分为有效文本信息和非有效文本信息，其中，所述非有效文本信息包括静音信息和无效文本信息；

从所述文本信息中提取出所述有效文本信息，并执行所述有效文本信息对应的处理操作；

丢弃所述非有效文本信息。

在该实施例中，对语音信息进行识别，得到文本信息和静音信息，进而将文本信息划分为有效文本信息和非有效文本信息，从而将非有效文本信息丢弃，将有效文本信息作为语音识别结果，这样，使得语音识别结果更准确。

在一个实施例中，所述根据所述语音识别结果确定是否结束采集所述语音信息，包括：

统计所述非有效文本信息的连续时长；

当所述连续时长大于或者等于预设时长时，确定结束采集所述语音信息。

在该实施例中，根据非有效文本信息的连续时长确定结束采集语音信息的时间，可以使得结束时间更准确，避免采集过多的无用语音。

在一个实施例中，从所述文本信息中提取出所述有效文本信息，并执行所述有效文本信息对应的处理操作，包括：

从所述文本信息中提取出所述有效文本信息；

对所述有效文本信息进行语义解析，得到语义解析结果；

根据所述语义解析结果确定所述有效文本信息是否完整；

当确定所述有效文本信息完整时，执行所述有效文本信息对应的处理操作。

在该实施例中，文本信息中包含了用户意图，例如“今天天气怎么样”，对有效文本信息进行语义解析，可以确定有效文本信息中的用户意图是否完整，即有效文本信息是否完整。例如，“今天天气怎么样”即是一个完整的用户意图，“导航到”即是一个不完整的用户意图，因为其并没有地点。在有效文本信息完整时，及时执行对应的处理操作，可以尽快满足用户意图，提升用户的使用体验。

在一个实施例中，所述方法还包括：

当确定所述有效文本信息不完整时，等待下一个有效文本信息，并确定所述有效文本信息和所述下一个有效文本信息结合后的结合有效文本信息是否完整；

当确定所述结合有效文本信息完整时，执行所述结合有效文本信息对应的处理操作。

在该实施例中，在有效文本信息不完整时，即用户意图不完整时，可以等待下一个有效文本信息，这样，在将两个有效文本信息结合后得到完整的有效文本信息再执行对应的处理操作，从而保证执行到完整的用户意图，满足用户的需求。

根据本发明实施例的第二方面，提供一种语音处理装置，用于服务器，包括：

接收模块，用于接收终端设备发送的当前采集的语音信息；

识别模块，用于对所述语音信息进行语音识别，得到语音识别结果；

确定模块，用于根据所述语音识别结果确定是否结束采集所述语音信息；

发送模块，用于在确定结束采集所述语音信息后，发送停止采集指令至所述终端设备，以使所述终端设备停止采集所述语音信息。

在一个实施例中，所述识别模块包括：

生成子模块，用于对所述语音信息进行语音识别，以生成所述语音信息对应的文本信息和静音信息；

划分子模块，用于根据所述文本信息、所述静音信息和所述文本信息中上下文之间的相关性，将所述文本信息划分为有效文本信息和非有效文本信息，其中，所述非有效文本信息包括静音信息和无效文本信息；

提取子模块，用于从所述文本信息中提取出所述有效文本信息，并执行所述有效文本信息对应的处理操作；

丢弃子模块，用于丢弃所述非有效文本信息。

在一个实施例中，所述确定模块包括：

统计子模块，用于统计所述非有效文本信息的连续时长；

确定子模块，用于当所述连续时长大于或者等于预设时长时，确定结束采集所述语音信息。

在一个实施例中，所述提取子模块用于：

从所述文本信息中提取出所述有效文本信息；

对所述有效文本信息进行语义解析，得到语义解析结果；

根据所述语义解析结果确定所述有效文本信息是否完整；

在一个实施例中，所述装置还包括：

等待模块，用于当确定所述有效文本信息不完整时，等待下一个有效文本信息，并确定所述有效文本信息和所述下一个有效文本信息结合后的结合有效文本信息是否完整；

执行模块，用于当确定所述结合有效文本信息完整时，执行所述结合有效文本信息对应的处理操作。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音处理方法的流程图。

图2是根据一示例性实施例示出的一种语音处理方法中步骤S102的流程图。

图3是根据一示例性实施例示出的一种语音处理方法中步骤S103的流程图。

图4是根据一示例性实施例示出的一种语音处理方法中步骤S203的流程图。

图5是根据一示例性实施例示出的另一种语音处理方法的流程图。

图6是根据一示例性实施例示出的一种语音处理装置的框图。

图7是根据一示例性实施例示出的一种语音处理装置中识别模块的框图。

图8是根据一示例性实施例示出的一种语音处理装置中确定模块的框图。

图9是根据一示例性实施例示出的另一种语音处理装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音处理方法的流程图。该语音处理方法应用于服务器中。如图1所示，该方法包括步骤S101-S104：

在步骤S101中，接收终端设备发送的当前采集的语音信息；其中，终端设备通过语音唤醒功能开始采集用户语音，将采集的语音发送给服务器，同时能根据收到的服务器发送的用户意图做相应语音播报或命令执行。

在步骤S102中，对语音信息进行语音识别，得到语音识别结果；其中，该语音识别结果即语音信息对应的文本信息。

在步骤S103中，根据语音识别结果确定是否结束采集语音信息；

在步骤S104中，在确定结束采集语音信息后，发送停止采集指令至终端设备，以使终端设备停止采集语音信息。

如图2所示，在一个实施例中，上述步骤S102包括步骤S201-S204：

在步骤S201中，对语音信息进行语音识别，以生成语音信息对应的文本信息和静音信息；

在步骤S202中，根据文本信息、静音信息和文本信息中上下文之间的相关性，将文本信息划分为有效文本信息和非有效文本信息，其中，非有效文本信息包括静音信息和无效文本信息；

根据文本信息、静音信息和文本信息中上下文之间的相关性，可以将文本信息划分为有效文本信息、静音信息和无效文本信息，并标出每段信息的时长。其中无效文本信息是指跟语言层面上下文无关的信息，如“嗯啊哈哈哈哼哼哈哈”。其中，可预先训练无效文本信息的语言模型，该语言模型通过大量的有效文本和无效文本训练得到。

在步骤S203中，从文本信息中提取出有效文本信息，并执行有效文本信息对应的处理操作；

在步骤S204中，丢弃非有效文本信息。

例如，用户说“导航到嗯嗯嗯嗯啊啊啊啊王府井”，中间“嗯嗯嗯啊啊啊啊”可能是用户说的拟声词，也可能是周边人的背景声音。服务器识别出“导航到嗯嗯嗯嗯啊啊啊啊王府井”，将这段文本标识出三段“导航到”、“嗯嗯嗯嗯啊啊啊啊”、“王府井”，其中“嗯嗯嗯嗯啊啊啊啊”标识为无效文本，其他两个标识为有效文本，这样，服务器只会对“导航到”和“王府井”进行提取，并进行语义解析，解析出完整意图“导航到王府井”，进而将该完整意图发送给终端设备。

如图3所示，在一个实施例中，上述步骤S103包括步骤S301-S302：

在步骤S301中，统计非有效文本信息的连续时长；

在步骤S302中，当连续时长大于或者等于预设时长时，确定结束采集语音信息。

例如，预设时长为10S，则在连续10S的静音或者无效信息后，即发送报告停止采集命令至终端设备，使终端设备停止采集语音信息，即停止录音，进入待唤醒状态。

如图4所示，在一个实施例中，上述步骤S203包括步骤S401-S404：

在步骤S401中，从文本信息中提取出有效文本信息；

在步骤S402中，对有效文本信息进行语义解析，得到语义解析结果；

在步骤S403中，根据语义解析结果确定有效文本信息是否完整；

在步骤S404中，当确定有效文本信息完整时，执行有效文本信息对应的处理操作。

例如，用户说：“今天天气怎么样”，服务器识别出“今天天气怎么样”，对这一整段标出有效语音段，进而对此文本做语义分析，发现这是一个完整意图，即给出“今天天气晴，18度”的解析结果给设备。

如图5所示，在一个实施例中，傻瓜书方法还包括步骤S501-S502：

在步骤S501中，当确定有效文本信息不完整时，等待下一个有效文本信息，并确定有效文本信息和下一个有效文本信息结合后的结合有效文本信息是否完整；

在步骤S502中，当确定结合有效文本信息完整时，执行结合有效文本信息对应的处理操作。

例如，用户说“导航到…..东单”，中间有一段停顿。服务器识别出“导航到”、静音段、“东单”，其中，对第一个有效文本信息进行语义解析，发现“导航到”是不完整意图，继续等待，静音段会被丢弃，当收到“东单”后，将其与上一个有效文本信息“导航到”结合，并进行语义解析，解析出完整意图“导航到东单”，给出完整的导航意图给终端设备。

下述为本发明装置实施例，可以用于执行本发明方法实施例。

图6是根据一示例性实施例示出的一种语音处理装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图6所示，该语音处理装置包括：

接收模块61，用于接收终端设备发送的当前采集的语音信息；

识别模块62，用于对所述语音信息进行语音识别，得到语音识别结果；

确定模块63，用于根据所述语音识别结果确定是否结束采集所述语音信息；

发送模块64，用于在确定结束采集所述语音信息后，发送停止采集指令至所述终端设备，以使所述终端设备停止采集所述语音信息。

如图7所示，在一个实施例中，所述识别模块62包括：

生成子模块71，用于对所述语音信息进行语音识别，以生成所述语音信息对应的文本信息和静音信息；

划分子模块72，用于根据所述文本信息、所述静音信息和所述文本信息中上下文之间的相关性，将所述文本信息划分为有效文本信息和非有效文本信息，其中，所述非有效文本信息包括静音信息和无效文本信息；

提取子模块73，用于从所述文本信息中提取出所述有效文本信息，并执行所述有效文本信息对应的处理操作；

丢弃子模块74，用于丢弃所述非有效文本信息。

如图8所示，在一个实施例中，所述确定模块63包括：

统计子模块81，用于统计所述非有效文本信息的连续时长；

确定子模块82，用于当所述连续时长大于或者等于预设时长时，确定结束采集所述语音信息。

在一个实施例中，所述提取子模块73用于：

从所述文本信息中提取出所述有效文本信息；

对所述有效文本信息进行语义解析，得到语义解析结果；

根据所述语义解析结果确定所述有效文本信息是否完整；

如图9所示，在一个实施例中，上述装置还包括：

等待模块91，用于当确定所述有效文本信息不完整时，等待下一个有效文本信息，并确定所述有效文本信息和所述下一个有效文本信息结合后的结合有效文本信息是否完整；

执行模块92，用于当确定所述结合有效文本信息完整时，执行所述结合有效文本信息对应的处理操作。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音处理方法，用于服务器，其特征在于，包括：

接收终端设备发送的当前采集的语音信息；

对所述语音信息进行语音识别，得到语音识别结果；

根据所述语音识别结果确定是否结束采集所述语音信息；

2.根据权利要求1所述的方法，其特征在于，对所述语音信息进行语音识别，得到语音识别结果，包括：

丢弃所述非有效文本信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述语音识别结果确定是否结束采集所述语音信息，包括：

统计所述非有效文本信息的连续时长；

4.根据权利要求2所述的方法，其特征在于，从所述文本信息中提取出所述有效文本信息，并执行所述有效文本信息对应的处理操作，包括：

从所述文本信息中提取出所述有效文本信息；

对所述有效文本信息进行语义解析，得到语义解析结果；

根据所述语义解析结果确定所述有效文本信息是否完整；

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.一种语音处理装置，用于服务器，其特征在于，包括：

接收模块，用于接收终端设备发送的当前采集的语音信息；

7.根据权利要求6所述的装置，其特征在于，所述识别模块包括：

丢弃子模块，用于丢弃所述非有效文本信息。

8.根据权利要求7所述的装置，其特征在于，所述确定模块包括：

统计子模块，用于统计所述非有效文本信息的连续时长；

9.根据权利要求7所述的装置，其特征在于，所述提取子模块用于：

从所述文本信息中提取出所述有效文本信息；

对所述有效文本信息进行语义解析，得到语义解析结果；

根据所述语义解析结果确定所述有效文本信息是否完整；

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：