CN107919130A

CN107919130A - 基于云端的语音处理方法和装置

Info

Publication number: CN107919130A
Application number: CN201711079226.5A
Authority: CN
Inventors: 钱胜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2018-04-17
Anticipated expiration: 2037-11-06
Also published as: CN107919130B; US11024332B2; US20190139566A1

Abstract

本发明提出一种基于云端的语音处理方法和装置，其中，方法包括：获取终端采集的待识别的语音；对待识别的语音进行语音识别；在语音识别的过程中，同时检测待识别的语音是否结束；当检测到待识别的语音结束时，将待识别的语音的识别结果反馈给终端。通过在语音的识别过程中，同时检测待识别的语音是否结束，从而可以保证语音识别的准确性。进一步地，由云端进行语音识别，与终端本地无关，因此和硬件平台无关，不存在迁移开发，且不受终端本地资源的限制，因此，云端使用的语音识别模型可以做的非常复杂精细，从而可以提升系统的抗干扰性能。此外，云端使用的语音识别模型，已经为不同的应用量身打造，无需重新训练模型，简化了开发量。

Description

基于云端的语音处理方法和装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种基于云端的语音处理方法和装置。

背景技术

随着终端设备的不断发展，为了简化用户的操作，用户可以通过在终端中输入一段语音，而后，终端可以对该段语音进行识别，转化为对应的文本，从而用户可以根据转化的文本进行后续操作，例如上网、购物等。现有技术中，终端在本地通过语音端点检测(Voice Activity Detection，VAD)模型对语音进行识别，具体地，采用音频的时域能量信号判决语音的起点和尾点。

这种方式下，受限于终端本地的内存、存储空间以及计算能力，终端本地VAD模型只能使用简单的模型结构，导致对噪声的抗干扰性能较差，从而导致识别的准确性较低。此外，由于VAD模型在终端本地实现，当迁移到不同的硬件平台时，需要重新开发，导致成本较高。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于云端的语音处理方法，以实现在语音的识别过程中，同时检测待识别的语音是否结束，从而可以保证语音识别的准确性。进一步地，由云端进行语音识别，与终端本地无关，因此和硬件平台无关，不存在迁移开发，且不受终端本地资源的限制，因此，云端使用的语音识别模型可以做的非常复杂精细，从而可以提升系统的抗干扰性能，进而可以进一步地提升语音识别的准确性。此外，云端使用的语音识别模型，已经为不同的应用量身打造，无需重新训练模型，简化了开发量，用于解决现有受限于终端本地的内存、存储空间、计算能力，终端本地VAD模型只能使用简单的模型结构，导致对噪声的抗干扰性能较差，从而导致识别的准确性较低。此外，由于VAD模型在终端本地实现，当迁移到不同的硬件平台时，需要重新开发，导致成本较高的技术问题。

本发明的第二个目的在于提出一种基于云端的语音处理装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机程序产品。

本发明的第五个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种基于云端的语音处理方法，包括：

获取终端采集的待识别的语音；

对所述待识别的语音进行语音识别；

在所述语音识别的过程中，同时检测所述待识别的语音是否结束；

当检测到所述待识别的语音结束时，将所述待识别的语音的识别结果反馈给所述终端。

本发明实施例的基于云端的语音处理方法，通过获取终端采集的待识别的语音；对待识别的语音进行语音识别；在语音识别的过程中，同时检测待识别的语音是否结束；当检测到待识别的语音结束时，将待识别的语音的识别结果反馈给终端。本实施例中，通过在语音的识别过程中，同时检测待识别的语音是否结束，从而可以保证语音识别的准确性。进一步地，由云端进行语音识别，与终端本地无关，因此和硬件平台无关，不存在迁移开发，且不受终端本地资源的限制，因此，云端使用的语音识别模型可以做的非常复杂精细，从而可以提升系统的抗干扰性能，进而可以进一步地提升语音识别的准确性。此外，云端使用的语音识别模型，已经为不同的应用量身打造，无需重新训练模型，简化了开发量。

为达上述目的，本发明第二方面实施例提出了一种基于云端的语音处理装置，包括：

语音获取模块，用于获取终端采集的待识别的语音；

语音识别模块，用于对所述待识别的语音进行语音识别；

检测模块，用于在所述语音识别的过程中，同时检测所述待识别的语音是否结束；

反馈模块，用于当检测到所述待识别的语音结束时，将所述待识别的语音的识别结果反馈给所述终端。

本发明实施例的基于云端的语音处理装置，通过获取终端采集的待识别的语音；对待识别的语音进行语音识别；在语音识别的过程中，同时检测待识别的语音是否结束；当检测到待识别的语音结束时，将待识别的语音的识别结果反馈给终端。本实施例中，通过在语音的识别过程中，同时检测待识别的语音是否结束，从而可以保证语音识别的准确性。进一步地，由云端进行语音识别，与终端本地无关，因此和硬件平台无关，不存在迁移开发，且不受终端本地资源的限制，因此，云端使用的语音识别模型可以做的非常复杂精细，从而可以提升系统的抗干扰性能，进而可以进一步地提升语音识别的准确性。此外，云端使用的语音识别模型，已经为不同的应用量身打造，无需重新训练模型，简化了开发量。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括：处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如本发明第一方面实施例所述的基于云端的语音处理方法。

为了实现上述目的，本发明第四方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如本发明第一方面实施例所述的基于云端的语音处理方法。

为了实现上述目的，本发明第五方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明第一方面实施例所述的基于云端的语音处理方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于云端的语音处理方法的流程示意图；

图2为本发明实施例所提供的第二种基于云端的语音处理方法的流程示意图；

图3为本发明实施例所提供的第三种基于云端的语音处理方法的流程示意图；

图4为本发明实施例所提供的第四种基于云端的语音处理方法的流程示意图；

图5为本发明实施例提供的一种基于云端的语音处理装置的结构示意图；

图6为本发明实施例提供的另一种基于云端的语音处理装置的结构示意图；

图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于云端的语音处理方法和装置。

图1为本发明实施例所提供的第一种基于云端的语音处理方法的流程示意图。

本发明实施例的执行主体为云端，通过云端对语音进行识别处理。

如图1所示，该基于云端的语音处理方法包括以下步骤：

步骤101，获取终端采集的待识别的语音。

本发明实施例中，待识别的语音为云端需要识别的语音。终端可以向云端提供采集到的待识别的语音，其中，终端例如为个人电脑(Personal Computer，PC)，云端设备或者移动设备，移动设备例如智能手机，或者平板电脑等。

具体地，终端上可以设置一个语音输入的触发条件，例如，触发条件可以为一个语音输入按钮，用户通过语音输入按钮触发输入待识别的语音，终端可以采集该待识别的语音，而后将采集的待识别的语音发送至云端，从而云端可以获取待识别的语音。

需要说明的是，在用户输入待识别的语音的过程中，终端可以在采集用户输入的待识别的语音的同时，将采集的待识别的语音发送至云端，从而可以实现用户在输入待识别的语音的同时，云端可以获取到用户输入的待识别的语音，保证语音识别的实时性。

步骤102，对待识别的语音进行语音识别。

可选地，云端在接收到待识别的语音时，可以采用现有技术中较为成熟的语音识别技术对待识别的语音进行语音识别，获得识别结果，对此不作限制。

步骤103，在语音识别的过程中，同时检测待识别的语音是否结束。

可以理解的是，在语音识别的过程中，需要检测语音的起点和尾点，其中，尾点检测是核心，决定用户输入完语音后的等待时长。当检测到语音的尾点后，用户可以得到识别结果，从而可以根据识别结果触发后续操作。在尾点检测的过程中，如果尾点的判断时间过长，则用户需要等待较长时间才能得到识别结果，或者，如果误判断语音的尾点，可能发生用户还未说完，当前语音已经结束的情况，将极大的影响用户的使用体验。

因此，本发明实施例中，在语音识别的过程中，当云端在预设的时长内未识别出文字，或者识别出的最后一个识别字符在预设的时长内未发生变化，则可以确定该待识别的语音到达尾点。而当待识别的语音到达尾点时，可以确定待识别的语音是否结束。因此，本实施例中，在语音识别的过程中，可以通过VAD技术检测待识别语音的尾点，判断待识别的语音是否结束。

进一步地，在检测到待识别语音的尾点时，为了保证识别结果的准确性，还可以对识别结果的语义进行分析，在识别结果的语义完整时，可以确定待识别的语音结束。因此，本实施例中，在语音识别的过程中，可以语音端点检测VAD技术和识别结果的语义完整性，判断待识别的语音是否结束。

或者，在语音识别的过程中，为了保证语音识别的实时性，可以直接根据识别结果的语义完整性，判断待识别的语音是否结束，本发明实施例对此不作限制。

步骤104，当检测到待识别的语音结束时，将待识别的语音的识别结果反馈给终端。

本发明实施例中，当云端检测到待识别的语音结束时，为了保证用户获取识别结果的实时性，可以将待识别的语音的识别结果反馈给终端，从而用户可以继续后续处理过程。

本实施例的基于云端的语音处理方法，通过获取终端采集的待识别的语音；对待识别的语音进行语音识别；在语音识别的过程中，同时检测待识别的语音是否结束；当检测到待识别的语音结束时，将待识别的语音的识别结果反馈给终端。本实施例中，通过在语音的识别过程中，同时检测待识别的语音是否结束，从而可以保证语音识别的准确性。进一步地，由云端进行语音识别，与终端本地无关，因此和硬件平台无关，不存在迁移开发，且不受终端本地资源的限制，因此，云端使用的语音识别模型可以做的非常复杂精细，从而可以提升系统的抗干扰性能。此外，云端使用的语音识别模型，已经为不同的应用量身打造，无需重新训练模型，简化了开发量。

作为一种可能的实现方式，为了提升语音识别的实时性，可以通过语音端点检测VAD技术检测待识别语音的尾点，判断待识别的语音是否结束。下面结合图2，对上述过程进行详细说明。

图2为本发明实施例所提供的第二种基于云端的语音处理方法的流程示意图。

如图2所示，步骤103具体包括以下子步骤：

步骤201，在语音识别的过程中，通过语音端点检测技术检测待识别语音的尾点。

本发明实施例中，在语音识别的过程中，通过语音端点检测VAD技术检测待识别语音的尾点。具体地，当云端在预设的时长内未识别出文字，或者识别出的最后一个识别字符在预设的时长内未发生变化，则可以确定该待识别的语音到达尾端。

步骤202，对尾点的第一持续时长进行计时。

本发明实施例中，可以通过设置计时器，对尾点的第一持续时长进行计时，例如标记尾点的第一持续时长为T1。

步骤203，将当前计时得到的第一持续时长与预设的第一时长比较。

本实施例中，在检测到尾点后，云端可以等待一段时间，判断用户是否继续说话。可以理解的是，如果云端等待的时间过长，用户需要等待较长的时间才可以得到识别结果，将极大地影响地用户使用体验。因此，本发明实施例中，第一时长不应设置的过长，例如第一时长可以为1s。可选地，标记第一时长为T11。

可选地，将当前计时得到的第一持续时长T1与预设的第一时长T11进行比较，可以得到T1大于等于T11的结果，或者，得到T1小于T11的结果。

步骤204，判断第一持续时长是否到达第一时长，若是，执行步骤205，否则，执行步骤202。

可选地，当判断第一持续时长T1到达第一时长T11时，即T1大于等于T11时，表明用户在第一时长T11内未说话，此时，为了避免用户等待较长的时间才可以得到识别结果，云端可以确定待识别的语音结束，从而提升语音识别的实时性。而在尾点的第一持续时长T1未到达第一时长T11时，则继续对尾点的第一持续时长T1进行计时，直到到达第一时长T11时，确定待识别的语音结束。

步骤205，确定待识别的语音结束。

本实施例的基于云端的语音处理方法，通过语音端点检测VAD技术检测待识别语音的尾点，判断待识别的语音是否结束，可以有效提升语音识别的实时性。

作为另一种可能的实现方式，为了提升语音识别的准确性，可以通过语音端点检测VAD技术和识别结果的语义完整性，判断待识别的语音是否结束。下面结合图3，对上述过程进行详细说明。

图3为本发明实施例所提供的第三种基于云端的语音处理方法的流程示意图。

如图3所示，步骤103具体包括以下子步骤：

步骤301，在语音识别的过程中，通过VAD技术检测待识别语音的尾点。

步骤302，对尾点的第一持续时长进行计时。

步骤301～302的执行过程可以参见上述实施例中步骤201～202的执行过程，在此不做赘述。

步骤303，判断当前计时得到的第一持续时长是否到达预设的第二时长，若是，执行步骤304，否则，执行步骤302。

本发明实施例中，第二时长小于第一时长T11，标记第二时长为T12，例如第二时长T12可以为0.5s。

本实施例中，云端可以在指定时刻，本实施例中记为尾点的持续时长到达第二时长时，对识别结果进行语义分析，以提升语音识别的准确性。因此，首先需要判断当前计时得到的第一持续时长T1是否到达预设的第二时长T12，当到达时，可以触发步骤304，当未到达时，可以继续对尾点的第一持续时长T1进行计时，即触发步骤302。

步骤304，对识别结果进行语义分析，判断识别结果的语义是否完整，若是，执行步骤305，否则，执行步骤306。

本实施例中，为了保证识别结果的准确性，云端可以在第一持续时长T1到达第二时长T12时，通过判断识别结果的语义是否完整，确定待识别的语音是否结束。具体地，在当前计时得到的第一持续时长T1到达预设的第二时长T12时，可以对识别结果进行语义分析，例如可以采用现有技术对识别结果进行语义分析，从而可以确定识别结果的语义是否完整。当识别结果的语义完整时，可以确定待识别的语音结束，而当识别结果的语义不完整时，可以触发步骤306。

步骤305，确定待识别的语音结束。

步骤306，继续对第一持续时长进行计时。

步骤307，判断第一持续时长是否到达预设的第三时长，若是，执行步骤305，否则，执行步骤306。

本发明实施例中，第三时长大于第一时长，标记第三时长为T13，例如第三时长T13可以为1.5s。

可选地，在判断出识别结果的语义不完整时，可以调整预设的第一时长T11，使第一时长T11变为预设的第三时长T13，通过判断第一持续时长T1是否到达预设的第三时长T13，确定待识别的语音是否结束。具体地，当第一持续时长T1到达预设的第三时长T13时，可以确定待识别的语音结束，而当第一持续时长T1未到达预设的第三时长T13时，可以继续对第一持续时长T1进行计时，直到第一持续时长T1到达预设的第三时长T13时，确定待识别的语音结束。

举例说明，识别结果为“今天天气怎”通过语义分析，可以得知该识别结果的语义并不完整，即使计时到预设的第一时长T1，还需要继续等待一段时间。而当识别结果为“今天天气怎么样”，可以得知该识别结果的语义已经完整，此时可以继续检测一段时间，如果未检测到新的内容出现，说明当前实际到达该语音的尾点，就可以输出识别结果反馈给终端。

本实施例的基于云端的语音处理方法，通过语音端点检测VAD技术和识别结果的语义完整性，判断待识别的语音是否结束，能够有效提升语音识别的准确性。

作为又一种可能的实现方式，为了保证语音识别的实时性，可以直接通过识别结果的语义完整性，判断待识别的语音是否结束。下面结合图4，对上述过程进行详细说明。

图4为本发明实施例所提供的第四种基于云端的语音处理方法的流程示意图。

如图4所示，步骤103具体包括以下子步骤：

步骤401，在语音识别的过程中，对识别结果进行语义分析。

可选地，可以采用现有技术对识别结果进行语义分析，获得识别结果的语义分析结果，本发明实施例对此不作限制。

步骤402，判断识别结果的语义是否完整，若是，执行步骤403，否则，执行步骤401。

可选地，在识别结果的语义完整时，此时，只能确定用户说完一句完整的话，而并不能表明待识别的语音结束，此时，可以触发步骤403，而在识别结果的语义不完整时，表明待识别的语音未结束，此时，可以继续对识别结果进行语义分析，即触发步骤401。

步骤403，统计识别结果中最后一个识别字符的第二持续时长。

本发明实施例中，可以通过设置计时器，统计识别结果中最后一个识别字符的第二持续时长，例如标记第二持续时长为T2。

本实施例中，在判断出识别结果的语义完整时，此时，只能确定用户说完一句完整的话，而并不能表明待识别的语音结束，因此，可以通过进一步判断识别结果中最后一个识别字符的第二持续时长T2，确定待识别的语音是否结束。

步骤404，将第二持续时长与预设的第四时长比较。

本发明实施例中，在确定识别结果中最后一个识别字符时，云端可以等待一段时间，判断用户是否继续说话。如果云端等待的时间过长，用户需要等待较长的时间才可以得到识别结果，将极大地影响地用户使用体验。因此，本发明实施例中，第四时长不应设置的过长。可选地，第四时长可以小于第一时长T11，标记第四时长为T14，例如第四时长T14可以为0.5s。

步骤405，判断第二持续时长是否到达第四时长，若是，执行步骤406，否则，执行步骤403。

可选地，在第二持续时长T2未到达第四时长T14时，可以继续对识别结果中最后一个识别字符的第二持续时长进行统计，即触发步骤403，而在第二持续时长T2到达第四时长T14时，可以确定待识别的语音结束。

步骤406，确定待识别的语音结束。

本实施例的基于云端的语音处理方法，通过识别结果的语义完整性，判断待识别的语音是否结束，能够有效提升语音识别的实时性。

本发明实施例中，当云端检测到待识别的语音结束时，可以向终端发送结束指示，以使终端执行与结束指示匹配的目标操作；其中，结束指示用于指示待识别的语音已经结束。当终端接收到结束指示时，可以结束用户语音输入的操作，从而用户可以得到识别结果，而后可以根据识别结果执行后续操作。

为了实现上述实施例，本发明还提出一种基于云端的语音处理装置。

图5为本发明实施例提供的一种基于云端的语音处理装置的结构示意图。

如图5所示，该基于云端的语音处理装置500包括：语音获取模块510、语音识别模块520、检测模块530，以及反馈模块540。其中，

语音获取模块510，用于获取终端采集的待识别的语音。

语音识别模块520，用于对待识别的语音进行语音识别。

检测模块530，用于在语音识别的过程中，同时检测待识别的语音是否结束。

本发明实施例中，检测模块530，具体用于在语音识别的过程中，通过语音端点检测VAD技术和/或识别结果的语义完整性，判断待识别的语音是否结束。

作为本发明实施例的一种可能的实现方式，检测模块530，具体用于在语音识别的过程中，通过语音端点检测技术检测待识别语音的尾点；对尾点的第一持续时长进行计时；将当前计时得到的第一持续时长与预设的第一时长比较；如果第一持续时长到达第一时长，则确定待识别的语音结束。

作为本发明实施例的另一种可能的实现方式，检测模块530，具体用于在语音识别的过程中，通过VAD技术检测待识别语音的尾点；对尾点的第一持续时长进行计时；如果当前计时得到的第一持续时长到达预设的第二时长，则对识别结果进行语义分析，判断识别结果的语义是否完整；如果判断出识别结果的语义完整，则确定待识别的语音结束；如果判断出识别结果的语义不完整，则继续对第一持续时长进行计时；当第一持续时长到达预设的第三时长时，则确定待识别的语音结束。

作为本发明实施例的又一种可能的实现方式，检测模块530，具体用于在语音识别的过程中，对识别结果进行语义分析，判断识别结果的语义是否完整；如果判断出识别结果的语义完整，则统计识别结果中最后一个识别字符的第二持续时长；将第二持续时长与预设的第四时长比较；如果第二持续时长到达第四时长，则确定待识别的语音结束。

反馈模块540，用于当检测到待识别的语音结束时，将待识别的语音的识别结果反馈给终端。

进一步地，在本发明实施例的一种可能的实现方式中，参见图6，在图5所示实施例的基础上，该基于云端的语音处理装置500还可以包括：发送模块550。

发送模块550，用于当检测到待识别的语音结束时，向终端发送结束指示，以使终端执行与结束指示匹配的目标操作；其中，结束指示用于指示待识别的语音已经结束。

需要说明的是，前述对基于云端的语音处理方法实施例的解释说明也适用于该实施例的基于云端的语音处理装置500，此处不再赘述。

本实施例的基于云端的语音处理装置，通过获取终端采集的待识别的语音；对待识别的语音进行语音识别；在语音识别的过程中，同时检测待识别的语音是否结束；当检测到待识别的语音结束时，将待识别的语音的识别结果反馈给终端。本实施例中，通过在语音的识别过程中，同时检测待识别的语音是否结束，从而可以保证语音识别的准确性。进一步地，由云端进行语音识别，与终端本地无关，因此和硬件平台无关，不存在迁移开发，且不受终端本地资源的限制，因此，云端使用的语音识别模型可以做的非常复杂精细，从而可以提升系统的抗干扰性能。此外，云端使用的语音识别模型，已经为不同的应用量身打造，无需重新训练模型，简化了开发量。

为了实现上述实施例，本发明还提出一种计算机设备。

图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/12交互的设备通信，和/或与使得该计算机系统/12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图7中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的基于云端的语音处理方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如本发明前述实施例提出的基于云端的语音处理方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明前述实施例提出的基于云端的语音处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于云端的语音处理方法，其特征在于，包括：

获取终端采集的待识别的语音；

对所述待识别的语音进行语音识别；

2.根据权利要求1所述的基于云端的语音处理方法，其特征在于，还包括：

当检测到所述待识别的语音结束时，向所述终端发送结束指示，以使所述终端执行与所述结束指示匹配的目标操作；其中，所述结束指示用于指示所述待识别的语音已经结束。

3.根据权利要求1或2所述的基于云端的语音处理方法，其特征在于，所述在所述语音识别的过程中，同时检测所述待识别的语音是否结束，包括：

在所述语音识别的过程中，通过语音端点检测VAD技术和/或所述识别结果的语义完整性，判断所述待识别的语音是否结束。

4.根据权利要求3所述的基于云端的语音处理方法，其特征在于，所述通过语音端点检测VAD技术，判断所述待识别的语音是否结束，包括：

在所述语音识别的过程中，通过语音端点检测技术检测所述待识别语音的尾点；

对所述尾点的第一持续时长进行计时；

将当前计时得到的所述第一持续时长与预设的第一时长比较；

如果所述第一持续时长到达所述第一时长，则确定所述待识别的语音结束。

5.根据权利要求3所述的基于云端的语音处理方法，其特征在于，所述通过语音端点检测VAD技术和所述识别结果的语义完整性，判断所述待识别的语音是否结束，包括：

在所述语音识别的过程中，通过所述VAD技术检测所述待识别语音的尾点；

对所述尾点的第一持续时长进行计时；

如果当前计时得到的所述第一持续时长到达预设的第二时长，则对所述识别结果进行语义分析，判断所述识别结果的语义是否完整；

如果判断出所述识别结果的语义完整，则确定所述待识别的语音结束。

6.根据权利要求5所述的基于云端的语音处理方法，其特征在于，还包括：

如果判断出所述识别结果的语义不完整，则继续对所述第一持续时长进行计时；

当所述第一持续时长到达预设的第三时长时，则确定所述待识别的语音结束。

7.根据权利要求3所述的基于云端的语音处理方法，其特征在于，所述通过所述识别结果的语义完整性，判断所述待识别的语音是否结束，包括：

在所述语音识别的过程中，对所述识别结果进行语义分析，判断所述识别结果的语义是否完整；

如果判断出所述识别结果的语义完整，则统计所述识别结果中最后一个识别字符的第二持续时长；

将所述第二持续时长与预设的第四时长比较；

如果所述第二持续时长到达所述第四时长，则确定所述待识别的语音结束。

8.一种基于云端的语音处理装置，其特征在于，包括：

语音获取模块，用于获取终端采集的待识别的语音；

语音识别模块，用于对所述待识别的语音进行语音识别；

9.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-7中任一所述的基于云端的语音处理方法。

10.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令处理器执行时实现如权利要求1-7中任一所述的基于云端的语音处理方法。

11.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的基于云端的语音处理方法。