CN112002349A

CN112002349A - 一种语音端点检测方法及装置

Info

Publication number: CN112002349A
Application number: CN202011026378.0A
Authority: CN
Inventors: 韩启源; 李智勇; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-11-27
Anticipated expiration: 2040-09-25
Also published as: CN112002349B

Abstract

本发明提供一种语音端点检测方法及装置，该方法包括：获取用户输入的语音数据；对所述语音数据进行语音识别，得到所述语音数据对应的文本；对所述文本进行整句检测，得到第一检测结果；在目标检测结果指示所述文本为整句的情况下，输出语音活性检测VAD结束信号，其中，所述目标检测结果包括所述第一检测结果。本发明实施例相比于现有基于语音能量的VAD检测方式，可在减少无声段的等待时间即缩短响应时间的基础上，进一步提高语音端点检测结果的准确性。

Description

一种语音端点检测方法及装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音端点检测方法及装置。

背景技术

语音信号一般可分为无声段、清音段和浊音段，其中，无声段是背景噪声段，平均能量最低，浊音段为声带振动发出对应的语音信号段，平均能量最高，清音段是空气在口腔中的摩擦、冲击或爆破而发出的语音信号段，平均能量居于前两者之间。

语音活动检测(Voice Activity Detection，VAD)又称语音端点检测，语音边界检测，其目的是检测当前语音信号中是否包含话音信号存在，即对输入信号进行判断，将话音信号与各种背景噪声信号区分出来。

目前VAD算法是基于语音能量特征来判定语音信号的结束(即VAD end)，通常需要在“实际语音”结束后再检测一段“无声段”来确认语音是否已经结束，以避免语音发音各个文字之间的间隔或停顿导致VAD的误判结束，即实际语音尚未说完，则VAD误判为已经结束。而“无声段”时间通常为几百毫秒，这样就造成了一定的延迟：实际语音已经结束，但给出“判定语音结束”的结果延迟了几百毫秒，造成语音交互体验上可以明显感受到响应迟滞。

现有技术中，为了优化VAD效果，减少响应时间，有采用情感向量作为是情感因素的衡量指标，依据情感因素来判断一句话是否结束的方案，但这种方案还是比较容易出现误判，即检测的准确性较低。

发明内容

本发明实施例提供一种语音端点检测方法及装置，以解决现有语音端点检测方式准确性较低的问题。

为解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音端点检测方法，包括：

获取用户输入的语音数据；

对所述语音数据进行语音识别，得到所述语音数据对应的文本；

对所述文本进行整句检测，得到第一检测结果；

在目标检测结果指示所述文本为整句的情况下，输出语音活性检测VAD结束信号，其中，所述目标检测结果包括所述第一检测结果。

可选的，所述对所述文本进行整句检测，得到第一检测结果，包括：

将所述文本输入整句检测模型进行整句检测；

获取所述整句检测识别模型输出的第一检测结果。

可选的，所述整句检测模型通过如下方式训练得到：

获取标定有语句结束位置的语句训练集；

利用所述语句训练集对循环神经网络进行训练，得到所述整句检测模型。

可选的，所述在目标检测结果指示所述文本为整句的情况下，输出语音活性检测VAD结束信号之前，所述方法还包括：

对预设VAD算法进行目标调整，得到调整后的VAD优化算法，其中，所述目标调整包括移除或缩短所述预设VAD算法中的无声段的检测时间，和/或增加所述预设VAD算法的灵敏度阈值；

采用所述VAD优化算法对所述语音数据进行语音信号结束检测，得到第二检测结果；

所述目标检测结果包括所述第一检测结果和所述第二检测结果；所述在目标检测结果指示所述文本为整句的情况下，输出语音活性检测VAD结束信号，包括：

在所述第一检测结果指示所述文本为整句，且所述第二检测结果指示用户输入语音数据结束的情况下，输出VAD结束信号。

可选的，所述方法还包括：

在所述第一检测结果指示所述文本不为整句，或所述第二检测结果指示用户输入语音数据未结束的情况下，继续等待用户输入语音数据。

可选的，所述方法还包括：

在所述第二检测结果持续第一预设时长指示用户输入语音数据结束的情况下，输出VAD结束信号。

可选的，所述方法还包括：

在所述第一检测结果指示所述文本不为整句的情况下，若检测到所述文本超过第二预设时长未更新的情况下，输出VAD结束信号。

第二方面，本发明实施例提供一种语音端点检测装置，包括：

获取模块，用于获取用户输入的语音数据；

语音识别模块，用于对所述语音数据进行语音识别，得到所述语音数据对应的文本；

整句检测模块，用于对所述文本进行整句检测，得到第一检测结果；

第一输出模块，用于在目标检测结果指示所述文本为整句的情况下，输出语音活性检测VAD结束信号，其中，所述目标检测结果包括所述第一检测结果。

可选的，所述整句检测模块包括：

检测单元，用于将所述文本输入整句检测模型进行整句检测；

获取单元，用于获取所述整句检测识别模型输出的检测结果。

可选的，所述整句检测模型通过如下方式训练得到：

获取标定有语句结束位置的语句训练集；

可选的，所述语音端点检测装置还包括：

调整模块，用于对预设VAD算法进行目标调整，得到调整后的VAD优化算法，其中，所述目标调整包括移除或缩短所述预设VAD算法中的无声段的检测时间，和/或增加所述预设VAD算法的灵敏度阈值；

VAD检测模块，用于采用所述VAD优化算法对所述语音数据进行语音信号结束检测，得到第二检测结果；

所述目标检测结果包括所述第一检测结果和所述第二检测结果；所述第一输出模块用于在所述第一检测结果指示所述文本为整句，且所述第二检测结果指示用户输入语音数据结束的情况下，输出VAD结束信号。

可选的，所述语音端点检测装置还包括：

决策模块，用于在所述第一检测结果指示所述文本不为整句，或所述第二检测结果指示用户输入语音数据未结束的情况下，继续等待用户输入语音数据。

可选的，所述语音端点检测装置还包括：

第二输出模块，用于在所述第二检测结果持续第一预设时长指示用户输入语音数据结束的情况下，输出VAD结束信号。

可选的，所述语音端点检测装置还包括：

第三输出模块，用于在所述第一检测结果指示所述文本不为整句的情况下，若检测到所述文本超过第二预设时长未更新的情况下，输出VAD结束信号。

第三方面，本发明实施例提供一种语音端点检测装置，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述语音端点检测方法中的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音端点检测方法中的步骤。

本发明实施例中，通过对用户输入的语音数据进行识别，并对识别后的文本进行整句检测，在检测为整句的情况下，输出VAD结束信号，即判定用户输入语音数据结束，这样，由于整句检测的方式可避免语音检测中的语速、情感等干扰，具备较高的准确性，因此，该方式相比于现有基于语音能量的VAD检测方式，可在减少无声段的等待时间即缩短响应时间的基础上，进一步提高语音端点检测结果的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音端点检测方法的流程图；

图2是本发明实施例提供的一种语音端点检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种语音端点检测方法的流程图，如图1所示，包括以下步骤：

步骤101、获取用户输入的语音数据。

上述获取用户输入的语音数据，可以是直接采集用户输入的语音数据，也可以是接收其他装置或设备发送的其采集的用户输入的语音数据。例如，用户可以在与智能设备(如智能音箱、智能家电等)进行语音交互的过程中输入语音数据，从而智能设备可以采集到用户输入的语音数据，或者智能设备还可以将采集的用户语音数据发送至对应的云服务器，从而云服务器可获取到用户语音数据。

步骤102、对所述语音数据进行语音识别，得到所述语音数据对应的文本。

本发明实施例中，为了通过整句识别的方式来准确判定用户输入语音数据是否结束，可以先对获取的用户输入的语音数据进行语音识别，以将所述语音数据转换成对应的文本，再依据所述文本进行整句检测。

其中，所述对所述语音数据进行语音识别可以是采用自动语音识别(AutomaticSpeech Recognition，ASR)技术来实现，即可将所述语音数据输入ASR模型中，通过所述ASR模型对所述语音数据进行语音识别处理，即将所述语音数据转换成对应的文本，再获取所述ASR模型输出的文本即可，其中，所述ASR模型可以是预先获取的传统ASR模型，也可以是预先训练得到的。

步骤103、对所述文本进行整句检测，得到第一检测结果。

上述对所述文本进行整句检测，可以是检测所述文本是否为完整的语句，从而得到相应的第一检测结果，以通过所述文本的语句完整性判断所述语音数据是否为一段完整的语音，进而判定用户当前输入语音是否结束。例如，可以检测所述文本是否存在词义中断、语句词义表达不清楚、不完整等情况，若存在，则可以判定所述文本不是完整的语句，若确定所述文本不存在中断，且词义表达清晰完整，则可以判定所述文本是完整的语句。其中，所述第一检测结果可指示所述文本是否为完整的语句。

其中，所述对所述文本进行整句检测，得到第一检测结果，可以包括：

将所述文本输入整句检测模型进行整句检测；

获取所述整句检测识别模型输出的第一检测结果。

该实施方式中，可以通过一整句检测模型来实现对所述文本的整句检测过程，所述整句检测模型可以是预先获取的，也可以是预先训练得到的。

其中，所述整句检测模型可以是采用语句训练集对初始整句检测模型进行训练得到的，所述语句训练集可以是一些标定的完整语句，所述初始整句检测模型可以是循环神经网络、深度学习模型等，训练后的所述整句检测模型可用于对输入文本进行整句检测，得到相应的整句检测结果。

这样，在得到所述语音数据对应的文本后，可以直接将所述文本输入所述整句检测模型中，并获取所述整句检测模型输出的相应检测结果即可。且通过这种方式，可保证快速准确地完成对所述文本的整句检测。

其中，所述整句检测模型可通过如下方式训练得到：

获取标定有语句结束位置的语句训练集；

即为了训练得到所述整句检测模型，可以通过获取标定有语句结束位置的语句训练集，并利用所述语句训练集对循环神经网络进行训练，来得到能够准确识别输入语句是否为完整语句的整句检测模型。

上述标定有语句结束位置的语句训练集，可以是一些完整的训练语句，每句训练语句均标定有相应的结束位置，且考虑到现有语音识别通常应用于对话交互场景，故可根据实际需要选择一些常用问题和对话语句作为所述语句训练集。

该实施方式中，可构建一循环神经网络作为初始训练模型，并利用所述语句训练集作为输入训练数据，对所述循环神经网络进行训练，在训练过程中，可将每次所述循环神经网络输出的检测结果与相应的标定输入语句进行对比，判断所述循环神经网络输出的检测结果是否准确，在不准确的情况下，对所述循环神经网络的结构参数进行调整修正，并重复上述训练过程，直至调整后的循环神经网络能够输出较为准确的检测结果，最终得到的循环神经网络模型即为训练后的整句检测模型。

通过这种训练方式，可保证训练得到的整句检测模型具备较高的检测准确率，进而保证所述语音端点检测结果的准确性。

其中，需说明的是，所述整句检测模型可以是预先配置好的，并在本发明实施例中可以不执行上述训练的过程，也就是说，所述整句检测模型的训练过程可以是在其他装置上完成的，本方案只需调用该整句检测模型即可，或者是所述整句检测模型是预先训练好的，在本方案的具体实施过程中，不需要进行所述整句检测模型的训练步骤。

步骤104、在目标检测结果指示所述文本为整句的情况下，输出语音活性检测VAD结束信号，其中，所述目标检测结果包括所述第一检测结果。

一种实施方式中，可以在整句检测结果指示所述文本为整句的情况下，判定用户输入语音数据已结束，从而可输出VAD结束信号，以指示用户输入语音数据结束。且这种方式无需等待无声段的检测时间，即可缩短响应时间，减少时延，进而可提升用户的语音交互体验。

可选的，所述步骤104之前，所述方法还包括：

所述目标检测结果包括所述第一检测结果和所述第二检测结果；所述步骤104包括：

另一种实施方式中，可以结合VAD检测结果和所述整句检测模型的检测结果，来综合判断用户输入语音数据是否结束，以保证获得更为可靠的检测结果。

具体地，为了加快响应速度，减少延迟，可以先对预设VAD算法进行优化调整，如移除或缩短所述预设VAD算法中的无声段的检测时间，例如，可直接去除无声段的检测时间，不再进行无声段检测，或者，可由原来500ms至600ms左右的无声段检测时间缩短至200ms左右，即缩短300ms至400ms左右的无声段检测时间；或者还可以增加所述预设VAD算法的灵敏度阈值，以使所述预设VAD算法能够更快被触发；当然，还可以同时移除或缩短所述预设VAD算法中的无声段的检测时间，并增加所述预设VAD算法的灵敏度阈值，以进一步加快响应速度。其中，所述预设VAD算法可以是采用传统的VAD算法模型。

这样，可利用调整后的VAD优化算法对所述语音数据进行语音信号结束检测，得到相应的第二检测结果，即为通过语音信号能量检测得到的检测结果，所述第二检测结果也用于指示用户是否输入语音数据结束。

其中，为了保证检测效率，上述利用所述VAD优化算法对所述语音数据进行语音信号结束检测的过程可与对所述文本进行整句检测的过程同步进行。

最后，可结合所述第一检测结果和所述第二检测结果来综合判断用户是否输入语音数据结束，具体地，在所述第一检测结果指示所述文本为整句，且所述第二检测结果指示用户输入语音数据结束的情况下，可判定用户输入语音数据已结束，从而输出VAD结束信号，而在其中任一检测结果不满足的情况下，都不会判定用户输入语音数据结束，并不会输出VAD结束信号。

通过这种实施方式，可避免任一误判情况下输出VAD结束信号所导致的语音端点检测结果不准的问题，只有在两个检测结果均指示用户输入语音数据确为结束的情况下，才会输出VAD结束信号，从而可保证所输出的VAD结束信号具备较高的可信度。

可选的，所述方法还包括：

而在所述第一检测结果指示所述文本不为整句，或所述第二检测结果指示用户输入语音数据未结束的情况下，即两个检测结果中只要任一检测结果指示用户输入语音数据未真正结束的情况下，均不会输出VAD结束信号，而是继续等待用户输入语音数据，以保证用户能够输入完整有效的语音数据，进而保证语音交互效果。

可选的，所述方法还包括：

在实际应用中，整句检测结果有可能出现小概率的检测失误或检测延迟等问题，从而导致用户输入实际已结束，但整句检测结果却没有给出相应指示的情况，例如，整句检测是在云端执行的，在网络较差或断网的情况下，可能出现整句检测结果延迟或无法获得的情况。

在上述情况下，为保证语音检测结果的可靠，可以依据所述第二检测结果来确定是否输出VAD结束信号，具体地，可以是在所述第二检测结果即VAD检测结果指示用户输入语音数据结束，且该结果维持了一定时长的情况下，判定用户语音输入已结束，进而输出VAD结束信号。也就是说，可以在VAD检测结果指示用户输入语音数据结束，但未接收到整句检测结果或整句检测结果指示不为整句的情况下，对所述VAD检测结果加以超时保护，即进一步判断所述VAD检测结果是否持续一定时长指示用户输入语音数据结束，若是，则可判定用户实际输入语音数据已结束，并可输出VAD结束信号。其中，上述持续时长即所述第一预设时长可以是基于实际需求设定，例如，可以是800ms、600ms等。

这样，通过该实施方式，可进一步保证语音端点检测结果的准确性和可靠性。

可选的，所述方法还包括：

在实际应用中，整句检测结果也可能由于用户输入不完整的语音或检测精度等因素而指示用户输入语音数据未结束(但实际已结束)的情况，为避免这种情况下的误判，可以在所述第一检测结果即整句检测结果指示所述文本不为整句的情况下，进一步检测所述文本是否超过一定时长未更新，以确定用户是在持续输入语音数据还是已输入结束。

若用户仍在持续输入语音数据，则语音识别结果即用户输入的语音数据对应的文本会随语音输入数据的持续而更新，而若用户已停止输入语音数据，则语音识别结果即用户输入的语音数据对应的文本不会再发生变化，因此，该实施方式中，可以基于此原理，在所述第一检测结果指示所述文本不为整句的情况下，通过检测到所述文本是否超过第二预设时长未更新，来决定是否输出VAD结束信号，具体地，若检测到所述文本超过一定时长未更新，则可判定用户已无语音数据输入，进而可输出VAD结束信号。其中，所述第二预设时长可以是基于实际需求设定，例如，可以是1s、800ms等。

本发明实施例中，上述语音端点检测装置可以是任何具有存储媒介的设备，例如：计算机(Computer)、服务器、手机、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)、个人数字助理(Personal Digital Assistant，PDA)、移动上网装置(Mobile Internet Device，MID)或可穿戴式设备(Wearable Device)、音箱、或其他智能语音设备等。

本实施例中的语音端点检测方法，通过对用户输入的语音数据进行识别，并对识别后的文本进行整句检测，在检测为整句的情况下，输出VAD结束信号，即判定用户输入语音数据结束，这样，由于整句检测的方式可避免语音检测中的语速、情感等干扰，具备较高的准确性，因此，该方式相比于现有基于语音能量的VAD检测方式，可在减少无声段的等待时间即缩短响应时间的基础上，进一步提高语音端点检测结果的准确性。

参见图2，图2是本发明实施例提供的一种语音端点检测装置的结构示意图，如图2所示，语音端点检测装置200包括：

获取模块201，用于获取用户输入的语音数据；

语音识别模块202，用于对所述语音数据进行语音识别，得到所述语音数据对应的文本；

整句检测模块203，用于对所述文本进行整句检测，得到第一检测结果；

第一输出模块204，用于在目标检测结果指示所述文本为整句的情况下，输出语音活性检测VAD结束信号，其中，所述目标检测结果包括所述第一检测结果。

可选的，整句检测模块203包括：

可选的，所述整句检测模型通过如下方式训练得到：

获取标定有语句结束位置的语句训练集；

可选的，语音端点检测装置200还包括：

所述目标检测结果包括所述第一检测结果和所述第二检测结果；第一输出模块204用于在所述第一检测结果指示所述文本为整句，且所述第二检测结果指示用户输入语音数据结束的情况下，输出VAD结束信号。

可选的，语音端点检测装置200还包括：

语音端点检测装置200能够实现图1的方法实施例中的各个过程，为避免重复，这里不再赘述。本发明实施例的语音端点检测装置200通过对用户输入的语音数据进行识别，并对识别后的文本进行整句检测，在检测为整句的情况下，输出VAD结束信号，即判定用户输入语音数据结束，这样，由于整句检测的方式可避免语音检测中的语速、情感等干扰，具备较高的准确性，因此，该方式相比于现有基于语音能量的VAD检测方式，可在减少无声段的等待时间即缩短响应时间的基础上，进一步提高语音端点检测结果的准确性。

本发明实施例还提供一种语音端点检测装置，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述语音端点检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音端点检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音端点检测方法，其特征在于，包括：

获取用户输入的语音数据；

对所述文本进行整句检测，得到第一检测结果；

2.根据权利要求1所述的方法，其特征在于，所述对所述文本进行整句检测，得到第一检测结果，包括：

将所述文本输入整句检测模型进行整句检测；

获取所述整句检测识别模型输出的第一检测结果。

3.根据权利要求2所述的方法，其特征在于，所述整句检测模型通过如下方式训练得到：

获取标定有语句结束位置的语句训练集；

4.根据权利要求1所述的方法，其特征在于，所述在目标检测结果指示所述文本为整句的情况下，输出语音活性检测VAD结束信号之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种语音端点检测装置，其特征在于，包括：

获取模块，用于获取用户输入的语音数据；

9.一种语音端点检测装置，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音端点检测方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音端点检测方法中的步骤。