CN113314153A

CN113314153A - 语音端点检测的方法、装置、设备和存储介质

Info

Publication number: CN113314153A
Application number: CN202110690082.7A
Authority: CN
Inventors: 岑吴镕; 李骊
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-08-27
Anticipated expiration: 2041-06-22
Also published as: CN113314153B

Abstract

本申请提供一种语音端点检测的方法、装置、设备和存储介质，方法包括，将待检测音频划分为多个音频帧；计算每一个音频帧的能量参数；在其中由小至大的选取预设比例的能量参数，计算选取的能量参数的平均值，得到基准阈值；检测每个帧组合(指每两个连续的音频帧)是否符合起始条件(帧组合中每个音频帧的能量参数均大于N倍的基准阈值)或终止条件(帧组合中每个音频帧的能量参数均小于M倍的基准阈值)；标记符合起始条件的帧组合之前一个音频帧为语音起始帧，标记符合终止条件的帧组合之中第二个音频帧为语音终止帧。本方案能够针对不同音频动态确定语音端点检测所用的基准阈值，针对不同情况下采集到的音频进行检测时均有较高的准确度。

Description

语音端点检测的方法、装置、设备和存储介质

技术领域

本发明涉及语音处理技术领域，特别涉及一种语音端点检测的方法、装置、设备和存储介质。

背景技术

在对一段音频信号进行语音识别时，往往需要检测出音频中的语音端点。语音端点，包括语音起始点和语音结束点，可以理解为一段带有噪音的音频信号中用户语音所在的一段信号(可以称为语音段)的起始点和结束点，相对的，音频信号中不包含用户语音的一段信号可以称为噪音段。

检测出的语音端点的准确性，会直接影响语音识别结果的准确性，若检测的语音端点不准，则后续语音识别就可能缺失部分用户语音，导致语音识别结果也不准。

现有的语音端点检测技术，一般是通过实验测定一个阈值，然后将音频信号中每一段信号的特定参数(一般可以是标准差或频域能量值)和该阈值比对，根据比对结果检测出语音端点。

现有技术的问题在于，对于不同的音频信号，产生语音的用户和采集信号时的环境造影往往有较大差异，而用特定情况下测得的固定阈值检测多种不同情况下采集到的音频信号，准确度较差。

发明内容

针对上述现有技术存在的问题，本发明提供一种语音端点检测的方法、装置、设备和存储介质，以提高语音端点检测的准确性。

本申请第一方面提供一种语音端点检测的方法，包括：

获取待检测音频；其中，所述待检测音频的时长小于或等于预设的时长阈值；

按预设的帧长和帧移将所述待检测音频划分为多个音频帧；

计算每一个所述音频帧的能量参数；其中，所述能量参数指代与所述音频帧的时域能量或频域能量相关的参数；

在计算得到的多个能量参数中由小至大的选取预设比例的能量参数，并计算被选取的多个所述能量参数的平均值，得到基准阈值；

分别检测每一个帧组合是否符合起始条件或终止条件；其中，所述帧组合指代所述待检测音频中每两个连续的音频帧；所述起始条件包括，帧组合中每一个音频帧的所述能量参数均大于N倍的所述基准阈值；所述终止条件包括，帧组合中每一个音频帧的所述能量参数均小于M倍的所述基准阈值；N和M为预设的正整数；

分别标记出所述待检测音频的语音起始帧和/或语音终止帧，以完成对所述待检测音频的语音端点检测；其中，所述语音起始帧为符合所述起始条件的帧组合之前一个音频帧，所述语音终止帧为符合所述终止条件的帧组合之中第二个音频帧。

可选的，所述计算每一个所述音频帧的能量参数，包括：

针对每一个所述音频帧，获取所述音频帧中每一个采样点的幅值；

针对每一个所述音频帧，计算所述音频帧中所有采样点的幅值的标准差，并将计算得到的标准差确定为所述音频帧的能量参数。

可选的，所述获取待检测音频包括：

获取时长大于所述时长阈值的初始音频；

将所述初始音频划分为多个时长小于或等于所述时长阈值的音频段；

将任意一个未完成语音端点检测的音频段确定为待检测音频；

所述分别标记出所述待检测音频的语音起始帧和/或语音终止帧，以完成对所述待检测音频的语音端点检测之后，还包括：

若存在未完成语音端点检测的音频段，返回执行所述将任意一个未完成语音端点检测的音频段确定为待检测音频，直至完成每一个所述音频段的语音端点检测。

可选的，所述分别标记出所述待检测音频的语音起始帧和/或语音终止帧，以完成对所述待检测音频的语音端点检测之后，还包括：

根据标记出的语音起始帧和/或语音终止帧，调整所述预设比例，所述N和所述M的值。

本申请第二方面提供一种语音端点检测的装置，包括：

获取单元，用于获取待检测音频；其中，所述待检测音频的时长小于或等于预设的时长阈值；

划分单元，用于按预设的帧长和帧移将所述待检测音频划分为多个音频帧；

计算单元，用于计算每一个所述音频帧的能量参数；其中，所述能量参数指代与所述音频帧的时域能量或频域能量相关的参数；

选取单元，用于在计算得到的多个能量参数中由小至大的选取预设比例的能量参数，并计算被选取的多个所述能量参数的平均值，得到基准阈值；

检测单元，用于分别检测每一个帧组合是否符合起始条件或终止条件；其中，所述帧组合指代所述待检测音频中每两个连续的音频帧；所述起始条件包括，帧组合中每一个音频帧的所述能量参数均大于N倍的所述基准阈值；所述终止条件包括，帧组合中每一个音频帧的所述能量参数均小于M倍的所述基准阈值；N和M为预设的正整数；

标记单元，用于分别标记出所述待检测音频的语音起始帧和/或语音终止帧，以完成对所述待检测音频的语音端点检测；其中，所述语音起始帧为符合所述起始条件的帧组合之前一个音频帧，所述语音终止帧为符合所述终止条件的帧组合之中第二个音频帧。

可选的，所述计算单元计算每一个所述音频帧的能量参数时，具体用于：

可选的，所述获取单元获取待检测音频时，具体用于：

获取时长大于所述时长阈值的初始音频；

所述标记单元分别标记出所述待检测音频的语音起始帧和/或语音终止帧，以完成对所述待检测音频的语音端点检测之后，还用于：

若存在未完成语音端点检测的音频段，触发所述获取单元执行所述将任意一个未完成语音端点检测的音频段确定为待检测音频，直至完成每一个所述音频段的语音端点检测。

可选的，所述装置还包括：

调整单元，用于根据标记出的语音起始帧和/或语音终止帧，调整所述预设比例，所述N和所述M的值。

本申请第三方面提供一种计算机存储介质，用于存储计算机程序，所述计算机程序被执行时，具体用于实现本申请第一方面任意一项所提供的语音端点检测的方法。

本申请第四方面提供一种电子设备，包括存储器和处理器；

其中，所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序，具体用于实现本申请第一方面任意一项所提供的语音端点检测的方法。

本申请提供一种语音端点检测的方法、装置、设备和存储介质，方法包括，获取待检测音频；其中，待检测音频的时长小于或等于预设的时长阈值；按预设的帧长和帧移将待检测音频划分为多个音频帧；计算每一个音频帧的能量参数；其中，能量参数指代与音频帧的时域能量或频域能量相关的参数；在计算得到的多个能量参数中由小至大的选取预设比例的能量参数，并计算被选取的多个能量参数的平均值，得到基准阈值；分别检测每一个帧组合是否符合起始条件或终止条件；其中，帧组合指代待检测音频中每两个连续的音频帧；起始条件包括，帧组合中每一个音频帧的能量参数均大于N倍的基准阈值；终止条件包括，帧组合中每一个音频帧的能量参数均小于M倍的基准阈值；N和M为预设的正整数；分别标记出待检测音频的语音起始帧和/或语音终止帧，以完成对待检测音频的语音端点检测；其中，语音起始帧为符合起始条件的帧组合之前一个音频帧，语音终止帧为符合终止条件的帧组合之中第二个音频帧。本方案能够针对不同的待检测音频动态的确定语音端点检测所用的基准阈值，针对不同情况下采集到的音频进行检测时均有较高的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种语音端点检测的方法的流程图；

图2为本申请实施例提供的将音频信号划分为音频帧的示意图；

图3为本申请实施例提供的一种语音端点检测的装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

在语音领域，语言端点检测(Voice Activity Detection，VAD)是音频整理切割时必不可少的环节。一般的VAD是考虑音频能量是否过域。如果大于阈值，则判断为语音段；不过域，则判断为静音段。但是这种方法有个明显的问题，就是阈值单一固定，碰到不同大小的环境噪声+语音段，往往不能起到很好的效果。本专利针对这一问题，设计了一套可以根据环境变化而变化的阈值方案。

也就是说，现有技术的问题是，阈值的确定要通过反复实验确定，并且固定的阈值只对类似数据有效，不能做有效推广。而本专利，可以根据不同音频自动确定阈值。

本申请提供一种语音端点检测的方法，请参考图1，该方法可以包括如下步骤：

S101、获取待检测音频。

其中，待检测音频的时长小于或等于预设的时长阈值。

时长阈值可以根据实际情况设定，例如可以设定时长阈值为5分钟，或者设置为8分钟。

在步骤S101中，若用户输入了一段总时长小于或等于时长阈值的初始音频，则可以直接将该初始音频确定为待检测音频，然后进入步骤S102。

若用户输入的初始音频的总时长大于时长阈值，则步骤S101，即获取待检测音频，具体可以包括：

获取时长大于时长阈值的初始音频；

将初始音频划分为多个时长小于或等于时长阈值的音频段；

将任意一个未完成语音端点检测的音频段确定为待检测音频。

相应的，在对当前确定的待检测音频完成语音端点检测后，若存在未完成语音端点检测的音频段，返回执行将任意一个未完成语音端点检测的音频段确定为待检测音频，直至完成每一个音频段的语音端点检测。

也就是说，当时长阈值设定为5分钟时，若需要语音端点检测的音频时长大于5分钟，则每隔5分钟执行一次本发明提供的方法，分别标记出每5分钟的音频中的语音端点。

S102、按预设的帧长和帧移将待检测音频划分为多个音频帧。

请参考图2，图2为将待检测音频划分为音频帧的示意图，图2中每一矩形框表示划分出的一个音频帧，矩形框的宽度相当于音频帧的帧长，相邻两个矩形框的左侧边的距离相当于帧移。可以看出，帧长实际就是每个音频帧的时长，帧移则是每两个相邻的音频帧之间的间隔。

在一个实施例中，帧长可以设定为0.2秒，帧移可以设定为0.1秒，当然，帧长和帧移可以根据需要调节，例如帧长也可以设为0.1秒，帧移则设为0.05秒。

S103、计算每一个音频帧的能量参数。

其中，能量参数指代与音频帧的时域能量或频域能量相关的参数。

上述能量参数，可以是每个音频帧的频域能量，可以是每个音频帧的采样点幅值的标准差。其中，音频帧的频域能量的计算方法可以参考相关的现有技术，此处不再赘述，下面具体说明采样点幅值的标准差的计算方法。

换言之，当能量参数是音频帧的采样点幅值的标准差时，步骤S103，即计算每一个音频帧的能量参数，包括：

针对每一个音频帧，获取音频帧中每一个采样点的幅值；

针对每一个音频帧，计算音频帧中所有采样点的幅值的标准差，并将计算得到的标准差确定为音频帧的能量参数。

本实施例中，每个音频帧的标准差可以采用如下公式计算：

上述公式中，S_k表示第k个音频帧的各个采样点的幅值的标准差，X_ik表示第个音频帧的第i个采样点的幅值，Sum表示第k个音频帧包含的采样点的总数，X_avg，k表示第k个音频帧的所有采样点的幅值的平均值。

S104、在计算得到的多个能量参数中由小至大的选取预设比例的能量参数，并计算被选取的多个能量参数的平均值，得到基准阈值。

上述预设比例可以设定为10％，也可以设定为20％，还可以根据需要调整为其他比例。

当预设比例为10％时，步骤S104相当于，将S103中计算得到的所有能量参数(例如标准差)按从小到大的顺序排序，然后取排序后的前10％的能量参数，计算这钱10％的能量参数的平均值，将计算结果作为基准阈值(不妨将基准阈值记为St)。

S105、分别检测每一个帧组合是否符合起始条件或终止条件。

其中，帧组合指代待检测音频中每两个连续的音频帧；起始条件包括，帧组合中每一个音频帧的能量参数均大于N倍的基准阈值；终止条件包括，帧组合中每一个音频帧的能量参数均小于M倍的基准阈值；N和M为预设的正整数。

N和M均为正整数，其具体的取值均可以根据实际情况进行调整。在一个实施例中，N可以设定为5，M可以设定为3。

也就是说，当能量参数为采样点幅值的标准差时，若有连续两个音频帧的标准差均大于5倍的St，那么这两个连续的音频帧符合起始条件，若有连续两个音频帧的标准差均小于3倍的基准阈值，则这两个连续的音频帧符合终止条件。

S106、分别标记出待检测音频的语音起始帧和/或语音终止帧，以完成对待检测音频的语音端点检测。

其中，语音起始帧为符合起始条件的帧组合之前一个音频帧，语音终止帧为符合终止条件的帧组合之中第二个音频帧。

换言之，若有连续两个音频帧的能量参数均大于5倍的基准阈值，则那两帧之前的1帧，标记为语音起始帧，若有连续两个音频帧的能量参数均小于3倍的基准阈值，则那两帧的第2帧，标记为语音终止帧。

下面结合具体的例子进行说明：

假设，N设定为5，M设定为3，能量参数为音频帧的采样点幅值的标准差。

若待检测音频中，第L帧和第L+1帧的标准差均大于5倍的St，就将第L-1帧标记为待检测音频中的语音起始帧，表示待检测音频中的语音段的首个音频帧为第L-1帧。

若待检测音频中，第K帧和第K+1帧的标准差均小于3倍的St，就将第K帧和第K+1帧之中的第二帧，也就是将第K+1帧标记为语音终止帧，表示待检测音频的语音段的最后一个音频帧为第K+1帧。

可选的，步骤S106，即分别标记出待检测音频的语音起始帧和/或语音终止帧，以完成对待检测音频的语音端点检测之后，还包括：

根据标记出的语音起始帧和/或语音终止帧，调整预设比例，N和M的值。

本发明提供的方法可以针对不同音频，自动确定不同的阈值，无需人为实验参与。从而具有更强的实用性。

虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或电子设备上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

结合本申请实施例提供的语音端点检测的方法，本申请实施例还提供一种语音端点检测的装置，请参考图3，该装置可以包括如下单元：

获取单元301，用于获取待检测音频。

其中，待检测音频的时长小于或等于预设的时长阈值。

划分单元302，用于按预设的帧长和帧移将待检测音频划分为多个音频帧。

计算单元303，用于计算每一个音频帧的能量参数。

选取单元304，用于在计算得到的多个能量参数中由小至大的选取预设比例的能量参数，并计算被选取的多个能量参数的平均值，得到基准阈值。

检测单元305，用于分别检测每一个帧组合是否符合起始条件或终止条件。

标记单元306，用于分别标记出待检测音频的语音起始帧和/或语音终止帧，以完成对待检测音频的语音端点检测。

可选的，计算单元303计算每一个音频帧的能量参数时，具体用于：

针对每一个音频帧，获取音频帧中每一个采样点的幅值；

可选的，获取单元301获取待检测音频时，具体用于：

获取时长大于时长阈值的初始音频；

将初始音频划分为多个时长小于或等于时长阈值的音频段；

标记单元306分别标记出待检测音频的语音起始帧和/或语音终止帧，以完成对待检测音频的语音端点检测之后，还用于：

若存在未完成语音端点检测的音频段，触发获取单元执行将任意一个未完成语音端点检测的音频段确定为待检测音频，直至完成每一个音频段的语音端点检测。

可选的，该装置还包括：

调整单元307，用于根据标记出的语音起始帧和/或语音终止帧，调整预设比例，N和M的值。

本申请实施例提供的语音端点检测的装置，其具体工作原理可以参考本申请任一实施例提供的语音端点检测的方法中的相关步骤，此处不再赘述。

本申请提供一种语音端点检测的装置，其中，获取单元301获取待检测音频；其中，待检测音频的时长小于或等于预设的时长阈值；划分单元302按预设的帧长和帧移将待检测音频划分为多个音频帧；计算单元303计算每一个音频帧的能量参数；其中，能量参数指代与音频帧的时域能量或频域能量相关的参数；选取单元304在计算得到的多个能量参数中由小至大的选取预设比例的能量参数，并计算被选取的多个能量参数的平均值，得到基准阈值；检测单元305分别检测每一个帧组合是否符合起始条件或终止条件；其中，帧组合指代待检测音频中每两个连续的音频帧；起始条件包括，帧组合中每一个音频帧的能量参数均大于N倍的基准阈值；终止条件包括，帧组合中每一个音频帧的能量参数均小于M倍的基准阈值；N和M为预设的正整数；标记单元305分别标记出待检测音频的语音起始帧和/或语音终止帧，以完成对待检测音频的语音端点检测；其中，语音起始帧为符合起始条件的帧组合之前一个音频帧，语音终止帧为符合终止条件的帧组合之中第二个音频帧。本方案能够针对不同的待检测音频动态的确定语音端点检测所用的基准阈值，针对不同情况下采集到的音频进行检测时均有较高的准确度。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

本申请实施例还提供一种计算机存储介质，用于存储计算机程序，计算机程序被执行时，具体用于实现本申请任一实施例所提供的语音端点检测的方法。

本申请实施例还提供一种电子设备，请参考图4，该设备包括存储器401和处理器402。

其中，存储器401用于存储计算机程序。

处理器402用于执行计算机程序，具体用于实现本申请任一实施例所提供的语音端点检测的方法。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音端点检测的方法，其特征在于，包括：

按预设的帧长和帧移将所述待检测音频划分为多个音频帧；

2.根据权利要求1所述的方法，其特征在于，所述计算每一个所述音频帧的能量参数，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取待检测音频包括：

获取时长大于所述时长阈值的初始音频；

4.根据权利要求1所述的方法，其特征在于，所述分别标记出所述待检测音频的语音起始帧和/或语音终止帧，以完成对所述待检测音频的语音端点检测之后，还包括：

5.一种语音端点检测的装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述计算单元计算每一个所述音频帧的能量参数时，具体用于：

7.根据权利要求5所述的装置，其特征在于，所述获取单元获取待检测音频时，具体用于：

获取时长大于所述时长阈值的初始音频；

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

9.一种电子设备，其特征在于，包括存储器和处理器；

其中，所述存储器用于存储计算机程序；

所述处理器用于执行所述计算机程序，具体用于实现如权利要求1至4任意一项所述的语音端点检测的方法。

10.一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序被执行时，具体用于实现如权利要求1至4任意一项所述的语音端点检测的方法。