CN114495907A

CN114495907A - 自适应的语音活动检测方法、装置、设备以及存储介质

Info

Publication number: CN114495907A
Application number: CN202210098365.7A
Authority: CN
Inventors: 徐波
Original assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Duoyi Network Co ltd
Current assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Duoyi Network Co ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-13

Abstract

本发明涉及语音信号处理技术领域，特别涉及是一种自适应的语音活动检测方法、装置、设备以及存储介质，所述方法包括：获取音频数据，对所述音频数据的帧能量进行计算，获取所述音频数据的帧平均能量；根据所述音频数据的帧平均能量，获取所述音频数据的候选非语音段；获取所述候选非语音段的帧平均能量以及过零率，根据所述候选非语音段的帧平均能量以及过零率，获取对所述音频数据的语音段和非语言段进行识别的双门限法的能量阈值以及过零率阈值；根据所述双门限法的能量阈值以及过零率阈值，利用双门限法获取所述音频数据的语音段。降低了噪声对于帧能量、帧过零率、短时自相关带来的影响，保证了语音检测的精准性同时，提高了语音检测的通用性以及效率。

Description

自适应的语音活动检测方法、装置、设备以及存储介质

技术领域

本发明涉及语音信号处理技术领域，特别涉及是一种自适应的语音活动检测方法、装置、设备以及存储介质。

背景技术

语音活动检测(Voice Activity detection，VAD)也被称为语音检测，在语音处理中用于检测语音的存在与否，从而将信号中的语音片段和非语音片段分开，旨在从长音频中提取说话段落，并用于后续的语音识别。

目前的技术方案主要通过时域方法、频域方法和深度学习方法来进行语音活动检测，然而，对于不同采集场景下，噪声对于帧能量、帧过零率、短时自相关的影响巨大，固定设置的帧能量和过零率阈值难以匹配不同说话音量大小的音频，导致了语音检测的精准性下降，通用性差的问题。

发明内容

基于此，本发明的目的在于，提供一种自适应的语音活动检测方法、装置、设备以及存储介质，能够根据基于不同场景下的采集的各种音频，获取从所述音频数据中提取语音段所需的能量阈值和过零率阈值，并结合双门限法得到音频的语音段，降低了噪声对于帧能量、帧过零率、短时自相关带来的影响，保证了语音检测的精准性同时，提高了语音检测的通用性以及效率。该技术方案如下：

第一方面，本申请实施例提供了一种自适应的语音活动检测方法，包括以下步骤：

获取音频数据，对所述音频数据的帧能量进行计算，获取所述音频数据的帧平均能量；

根据所述音频数据的帧平均能量，获取所述音频数据的候选非语音段；

获取所述候选非语音段的帧平均能量以及过零率，根据所述候选非语音段的帧平均能量以及过零率，获取对所述音频数据的语音段和非语言段进行识别的双门限法的能量阈值以及过零率阈值；

根据所述双门限法的能量阈值以及过零率阈值，利用双门限法获取所述音频数据的语音段。

第二方面，本申请实施例提供了一种自适应的语音活动检测装置，包括：

帧能量获取模块，用于获取音频数据，对所述音频数据的帧能量进行计算，获取所述音频数据的帧平均能量；

候选非语音段获取模块，用于根据所述音频数据的帧平均能量，获取所述音频数据的候选非语音段；

参数获取模块，用于获取所述候选非语音段的帧平均能量以及过零率，根据所述候选非语音段的帧平均能量以及过零率，获取对所述音频数据的语音段和非语言段进行识别的双门限法的能量阈值以及过零率阈值；

语音段获取模块，用于根据所述双门限法的能量阈值以及过零率阈值，利用双门限法获取所述音频数据的语音段。

第三方面，本申请实施例提供了一种计算机设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述计算机程序被所述处理器执行时实现如第一方面所述自适应的语音活动检测方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的自适应的语音活动检测方法的步骤。

在本实施例中，能够根据基于不同场景下的采集的各种音频，获取从所述音频数据中提取语音段所需的能量阈值和过零率阈值，并结合双门限法得到音频的语音段，降低了噪声对于帧能量、帧过零率、短时自相关带来的影响，保证了语音检测的精准性同时，提高了语音检测的通用性以及效率。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本申请一个实施例提供的自适应的语音活动检测方法的流程示意图；

图2为本申请一个实施例提供的自适应的语音活动检测方法中S2的流程示意图；

图3为本申请另一个实施例提供的自适应的语音活动检测方法中S2的流程示意图；

图4为本申请一个实施例提供的自适应的语音活动检测方法中S4的流程示意图；

图5为本申请一个实施例提供的自适应的语音活动检测装置的结构示意图；

图6为本申请一个实施例提供的设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，图1为本申请一个实施例提供的自适应的语音活动检测方法的流程示意图，所述方法包括如下步骤：

S1：获取音频数据，对所述音频数据的帧能量进行计算，获取所述音频数据的帧平均能量。

所述自适应的语音活动检测方法的执行主体为基于自适应的语音活动检测方法的检测设备(以下简称检测设备)，在一个可选的实施例中，所述检测设备可以是一台计算机设备可以是服务器，或是多台计算机设备联合而成的服务器机群。

在一个可选的实施例中，音频数据可以为编辑设备中预先存储的音频数据，在另一个可选的实施例中，音频数据也可以是网络音频数据库中的音频数据。

若音频数据是网络音频数据库中的音频数据，那么检测设备需预先建立与远程服务器的数据连接，该远程服务器中加载有网络音频数据库，接收远程服务器发送的音频数据。

在本实施例中，检测设备获取音频数据，根据帧能量计算算法，对所述音频数据的每一帧能量进行计算，其中，所述帧能量计算算法为：

式中，energy_i为所述音频数据的每一帧的能量，所述N为所述音频数据的帧长，所述j为所述音频数据的某一帧的第j个数据点，所述frame_i为第i帧的第j个数据点的值。

检测设备根据所述每一帧能量以及帧平均能量计算算法，获取所述音频数据的帧平均能量，其中，所述帧平均能量计算算法为：

式中，energy为所述音频数据的帧平均能量，M为所述音频数据的总帧数，i为所述音频数据的第i帧。

S2：根据所述音频数据的帧平均能量，获取所述音频数据的候选非语音段。

在本实施例中，检测设备根据所述音频数据的帧平均能量，将所述音频数据中的语音段和候选非语音段分开，获取所述音频数据的候选非语音段。

请参阅图2，图2为本申请一个实施例提供的自适应的语音活动检测方法中S2的流程示意图，包括步骤S201～S202，具体如下：

S201：根据所述音频数据的帧平均能量以及预设的帧平均能量阈值，获取所述音频数据的候选帧。

在本实施例中，检测设备预先设置有帧平均能量阈值，当所述帧平均能量小于所述帧平均能量阈值时，选取该帧作为所述音频数据的候选帧。

在一个可选的实施例中，所述帧平均能量阈值可以设置为固定值，也可以根据所述音频数据的帧平均能量进行设置，例如k＝1/energy，k为所述帧平均能量阈值。

S202：根据预设的最短静音时长阈值，从所述候选帧中获取若干个连续的候选帧，作为候选非语音段。

在本实施例中，由于所述候选帧中包括断续帧以及连续帧，检测设备通过计算该连续帧的长度，根据预设的最短静音时长阈值，当所述连续帧的长度大于所述最短静音时长阈值，将所述连续帧作为所述音频数据的候选非语音段。

在一个可选的实施例中，请参阅图3，图3为本申请另一个实施例提供的自适应的语音活动检测方法中S2的流程示意图，还包括步骤S203～S204，具体如下：

S203：根据所述候选非语音段中候选帧的帧数，获取所述候选非语音段的中间帧。

在本实施例中，检测设备获取所述候选非语音段中候选帧的帧数，若所述候选帧的帧数为奇数，则获取位于所述候选非语音段的中间位置的候选帧作为中间帧，若所述候选帧的帧数为偶数，则获取位于所述候选非语音段的中间位置的两个非语音候选帧中排序靠前的那一帧作为所述候选非语音段的中间帧。

S204：获取所述候选非语音段的中间帧的能量作为裁剪比例计算基数，根据所述裁剪比例计算基数以及预设的能量裁剪比例，获取所述候选非语音段的裁剪位置，根据所述裁剪位置，对所述候选非语音段进行裁剪处理，获取处理后的候选非语音段。

为了保证候选非语音段之间的连续性，使帧与帧之间平滑过渡，在本实施例中，检测设备获取所述候选非语音段的中间帧的能量，作为裁剪比例计算基数，根据所述裁剪比例计算基数以及预设的能量裁剪比例，获取语音段的头尾位置，作为所述候选非语音段的裁剪位置，其中，所述裁剪位置的帧能量均大于预设的帧能量阈值，根据所述裁剪位置，对所述候选非语音段的头部和尾部进行裁剪处理，获取处理后的候选非语音段，其中，所述候选非语音段的长度大于所述最短静音时长阈值。

S3：获取所述候选非语音段的帧平均能量以及过零率，根据所述候选非语音段的帧平均能量以及过零率，获取对所述音频数据的语音段和非语言段进行识别的双门限法的能量阈值以及过零率阈值。

所述过零率为单位时间穿过坐标系横轴的次数，即一帧音频数据的时域信号穿过0(时间轴)的次数，用于计算每一帧的相邻的数据的符号相反的次数。

在本实施例中，检测设备获取所述候选非语音段的帧平均能量，根据过零率计算算法，获取所述候选非语音段的过零率，其中，所述过零率计算算法为：

式中，Z_i为所述候选非语音段的过零率，sgn为阶跃函数。

根据所述候选非语音段的帧平均能量以及过零率，获取所述双门限法的能量阈值以及过零率阈值。基于所述候选非语音段的帧平均能量以及过零率，能够更加精准地区分所述音频数据的语音段和非语音段，提高对不同场景下采集的音频数据进行语音段和非语音段分离的通用性。

S4：根据所述双门限法的能量阈值以及过零率阈值，利用双门限法获取所述音频数据的语音段。

清音为声带不振动的音，浊音为声带振动的音。在音频数据中，由于声音的启动和停止都需要声道上肌肉的运动完成，此运动对气流造成阻碍，也就是说在气道开合的时候，即每个音节的前后端，是辅音，其中，辅音分为清辅音和浊辅音。而音节的主体部分，是元音，元音都是浊音。

为了区分浊音和清音，从而更好地区分所述音频数据的语音段和候选非语音段，在本实施例中，检测设备根据所述获取到的能量阈值以及过零率阈值，利用双门限法获取所述音频数据的语音段。

请参阅图4，图4为本申请一个实施例提供的自适应的语音活动检测方法中S4的流程示意图，包括步骤S401～S404，具体如下：

S401：获取所述音频数据的当前帧的能量以及过零率。

在本实施例中，检测设备获取所述音频数据的所有帧的能量以及过零率，并根据预设的遍历时长，按照先后顺序遍历所述音频数据，每一次遍历获取的帧作为所述音频数据的当前帧，检测设备获取所述音频数据的当前帧的能量以及过零率，其中，所述当前帧包括若干个语音数据点，所述当前帧的能量包括当前帧的各个语音数据点的能量。

S402：根据所述当前帧的能量以及过零率，以及所述双门限法的能量阈值、过零率阈值，对所述当前帧是否为语音起始点进行判断，获取判断结果，根据所述判断结果，将所述当前帧作为所述语音起始点。

检测设备根据所述当前帧的能量中所述当前帧中各个语音数据点的能量以及与所述门限法的能量阈值、过零率阈值之间的数值关系，对所述当前帧是否为语音起始点进行判断，获取判断结果，根据所述判断结果，将所述当前帧作为所述语音起始点，其中，所述判断结果包括判断成功结果以及判断失败结果。

在一个可选的实施例中，所述门限法的能量阈值包括第一能量阈值以及第二能量阈值，所述第一能量阈值可以是所述候选非语音段的帧平均能量的5倍，所述过零率阈值为所述候选非语音段的过零率阈值的2倍，所述过零率阈值可以是所述候选非语音段的过零率的2倍。

当所述当前帧的语音数据点的能量大于所述第一能量阈值时，获取判断成功结果，根据所述判断成功结果，将所述语音数据点所在的当前帧作为所述音频数据的语音起始点；

当所述语音数据点的能量位于所述第一能量阈值与所述第二能量阈值之间，且所述当前帧的过零率大于所述过零率阈值时，获取判断成功结果，根据所述判断成功结果，将所述语音数据点所在的当前帧作为所述音频数据的语音起始点；

根据所述判断成功结果，将所述语音数据点所在的当前帧作为所述音频数据的语音起始点。

S403：根据所述语音起始点以及预设的最少有效帧数目，获取所述语音终止点，其中，所述有效帧为对应的能量大于所述能量阈值的帧。

在本实施例中，检测设备根据所述语音起始点的位置，对所述语音起始点之后的所有帧的能量进行分析，获取能量大于所述能量阈值的帧，作为有效帧，根据所述有效帧与所述语音起始点的距离，根据距离的大小形成有效帧序列。

根据所述语音起始点的位置以及预设的最少有效帧数目，从所有效帧序列中提取所述若干个有效帧，根据所述语音起始点以及提取的有效帧，组成所述音频数据的语音段。

在本实施例中，检测设备根据所述获取到的语音起始点以及语音终止点，将语音起始点以及语音终止点连接的音频段从所述音频数据中分离出来，作为所述音频数据的语音段。

请参考图5，图5为本申请一个实施例提供的自适应的语音活动检测装置的结构示意图，该装置可以通过软件、硬件或两者的结合实现自适应的语音活动检测装置的全部或一部分，该装置5包括：

帧能量获取模块51，用于获取音频数据，对所述音频数据的帧能量进行计算，获取所述音频数据的音频平均帧能量；

候选非语音段获取模块52，用于根据所述音频数据的音频平均帧能量，获取所述音频数据的候选非语音段；

参数获取模块53，用于获取所述候选非语音段的帧平均能量以及过零率，根据所述候选非语音段的帧平均能量以及过零率，获取对所述音频数据的语音段和非语言段进行识别的双门限法的能量阈值以及过零率阈值；

语音段获取模块54，用于根据所述双门限法的能量阈值以及过零率阈值，利用双门限法获取所述音频数据的语音段。

在本实施例中，通过帧能量获取模块，获取音频数据，对所述音频数据的帧能量进行计算，获取所述音频数据的音频平均帧能量；通过候选非语音段获取模块，根据所述音频数据的音频平均帧能量，获取所述音频数据的候选非语音段；通过参数获取模块，获取所述候选非语音段的帧平均能量以及过零率，根据所述候选非语音段的帧平均能量以及过零率，获取对所述音频数据的语音段和非语言段进行识别的双门限法的能量阈值以及过零率阈值；通过语音段获取模块，根据所述双门限法的能量阈值以及过零率阈值，利用双门限法获取所述音频数据的语音段。本申请能够根据基于不同场景下的采集的各种音频，获取从所述音频数据中提取语音段所需的能量阈值和过零率阈值，并结合双门限法得到音频的语音段，降低了噪声对于帧能量、帧过零率、短时自相关带来的影响，保证了语音检测的精准性同时，提高了语音检测的通用性以及效率。

请参考图6，图6为本申请一个实施例提供的设备的结构示意图，设备6包括：处理器61、存储器62以及存储在存储器62上并可在处理器61上运行的计算机程序63；计算机设备可以存储有多条指令，指令适用于由处理器61加载并执行图1至图4所示实施例的方法步骤，具体执行过程可以参见图1至图4所示实施例的具体说明，在此不进行赘述。

其中，处理器61可以包括一个或多个处理核心。处理器61利用各种接口和线路连接服务器内的各个部分，通过运行或执行存储在存储器62内的指令、程序、代码集或指令集，以及调用存储器62内的数据，自适应的语音活动检测装置5的各种功能和处理数据，可选的，处理器61可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programble LogicArray，PLA)中的至少一个硬件形式来实现。处理器61可集成中央处理器61(CentralProcessing Unit，CPU)、图像处理器61(Graphics Processing Unit，GPU)和调制解调器等中的一个或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器61中，单独通过一块芯片进行实现。

其中，存储器62可以包括随机存储器62(Random Access Memory，RAM)，也可以包括只读存储器62(Read-Only Memory)。可选的，该存储器62包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器62可用于存储指令、程序、代码、代码集或指令集。存储器62可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器62可选的还可以是至少一个位于远离前述处理器61的存储装置。

本申请实施例还提供了一种存储介质，所述存储介质可以存储有多条指令，所述指令适用于由处理器加载并执行上述图1至图4所示实施例的方法步骤，具体执行过程可以参见图1至图4所示实施例的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种自适应的语音活动检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的自适应的语音活动检测方法，其特征在于，所述根据所述音频数据的帧平均能量，获取所述音频数据的候选非语音段，包括步骤：

根据所述音频数据的帧平均能量以及预设的帧平均能量阈值，获取所述音频数据的候选帧；

根据预设的最短静音时长阈值，从所述候选帧中获取若干个连续的候选帧，作为候选非语音段。

3.根据权利要求2所述的自适应的语音活动检测方法，其特征在于，所述根据预设的最短静音时长阈值，从所述候选帧中获取若干个连续的候选帧，作为候选非语音段后，还包括步骤：

根据所述候选非语音段中候选帧的帧数，获取所述候选非语音段的中间帧；

获取所述候选非语音段的中间帧的能量作为裁剪比例计算基数，根据所述裁剪比例计算基数以及预设的能量裁剪比例，获取所述候选非语音段的裁剪位置，根据所述裁剪位置，对所述候选非语音段进行裁剪处理，获取处理后的候选非语音段。

4.根据权利要求1所述的自适应的语音活动检测方法，其特征在于，所述根据所述双门限法的能量阈值以及过零率阈值，利用双门限法获取所述音频数据的语音段，包括步骤：

获取所述音频数据的当前帧的能量以及过零率；

根据所述当前帧的能量以及过零率，以及所述双门限法的能量阈值、过零率阈值，对所述当前帧是否为语音起始点进行判断，获取判断结果，根据所述判断结果，将所述当前帧作为所述语音起始点；

根据所述语音起始点以及预设的最少有效帧数目，获取所述语音终止点，其中，所述有效帧为对应的能量大于所述能量阈值的帧。

5.一种自适应的语音活动检测装置，其特征在于，包括：

6.一种计算机设备，其特征在于，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的自适应的语音活动检测方法的步骤。

7.一种存储介质，其特征在于：所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的自适应的语音活动检测方法的步骤。