CN110556128A

CN110556128A - 一种语音活动性检测方法、设备及计算机可读存储介质

Info

Publication number: CN110556128A
Application number: CN201910977031.5A
Authority: CN
Inventors: 付聪; 李勤
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2019-12-10
Anticipated expiration: 2039-10-15
Also published as: CN110556128B

Abstract

本发明公开了一种语音活动性检测方法、设备及计算机可读存储介质，所述方法包括：获取声音信号；对所述声音信号进行信号能量估计，得到所述声音信号的能量估计值；判断所述声音信号的能量估计值是否超出能量阈值，得到判断结果；当所述判断结果为所述声音信号的能量估计值未超出能量阈值时，对所述声音信号进行语音活动性检测，得到语音活动性检测结果，应用本发明实施例提供的方法，在不增加内存占用，运算消耗的前提下，能够提升嘈杂环境下语音活动性检测的准确率。

Description

一种语音活动性检测方法、设备及计算机可读存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音活动性检测方法、设备及计算机可读存储介质。

背景技术

语音活动性检测，VAD(Voice Activity Detection)，是一种检测输入信号是不是语音的方法。可以基于能量，过零率，信噪比，谱熵，神经网络等，通过多种方式实现。通常用来对信号处理流程进行控制：若检测到语音，则进入后续处理流程；若检测到非语音，则不进入后续处理流程。通过这种方式，能够降低整个信号处理流程所占用的运算资源。

随着数据处理设备的体积越来越少，在小体积设备中，由于系统内存和运算资源有限，语音活动性检测通常都基于能量和信噪比来设计，但因内存和运算资源的限制，容易把输入信号误判成语音信号，导致判断准确率下降。

发明内容

本发明实施例提供了一种语音活动性检测方法、设备及计算机可读存储介质，提升语音活动性检测的准确率。

本发明一方面提供一种语音活动性检测方法，所述方法包括：获取声音信号；对所述声音信号进行信号能量估计，得到所述声音信号的能量估计值；判断所述声音信号的能量估计值是否超出能量阈值，得到判断结果；当所述判断结果为所述声音信号的能量估计值未超出能量阈值时，对所述声音信号进行语音活动性检测，得到语音活动性检测结果。

在一可实施方式中，所述方法还包括：当所述判断结果为所述声音信号的能量估计值超出能量阈值时，对所述声音信号进行降噪处理，获得降噪后的声音信号；对所述降噪后的声音信号进行语音活动性检测。

在一可实施方式中，对所述声音信号进行信号能量估计，得到所述声音信号的能量估计值，包括：对所述声音信号进行噪声估计，得到噪声估计结果；基于时间窗口对所述噪声估计结果进行处理，得到噪声估计均方值；确定所述噪声估计方值为能量估计值。

在一可实施方式中，对所述声音信号进行语音活动性检测，包括：确定所述声音信号的能量或信噪比；基于所述声音信号的能量或信噪比进行语音活动性检测。

在一可实施方式中，所述方法还包括：当所得到的语音活动性检测结果为所述声音信号包含语音信号时，将所述声音信号作为后处理模块的输入信号；当所得到的语音活动性检测结果为所述声音信号不包含语音信号时，直接将所述声音信号丢弃。

本发明另一方面提供一种语音活动性检测设备，所述设备包括：获取模块，用于获取声音信号；估计模块，用于对所述声音信号进行信号能量估计，得到所述声音信号的能量估计值；判断模块，用于判断所述声音信号的能量估计值是否超出能量阈值，得到判断结果；检测模块，用于当所述判断结果为所述声音信号的能量估计值未超出能量阈值时，对所述声音信号进行语音活动性检测，得到语音活动性检测结果。

在一可实施方式中，所述设备还包括：降噪模块，用于当所述判断结果为所述声音信号的能量估计值超出能量阈值时，对所述声音信号进行降噪处理，获得降噪后的声音信号；所述检测模块，还用于对所述降噪后的声音信号进行语音活动性检测。

在一可实施方式中，所述估计模块，包括：噪声估计子模块，用于对所述声音信号进行噪声估计，得到噪声估计结果；处理子模块，用于基于时间窗口对所述噪声估计结果进行处理，得到噪声估计均方值；第一确定子模块，用于确定所述噪声估计方值为能量估计值。

在一可实施方式中，所述检测模块，包括：第二确定子模块，用于确定所述声音信号的能量或信噪比；检测子模块，用于基于所述声音信号的能量或信噪比进行语音活动性检测。

在一可实施方式中，所述设备还包括：处理模块，用于当所得到的语音活动性检测结果为所述声音信号包含语音信号时，将所述声音信号作为后处理模块的输入信号；丢弃模块，用于当所得到的语音活动性检测结果为所述声音信号不包含语音信号时，直接将所述声音信号丢弃。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述任一项所述的语音活动性检测方法。

本发明实施例提供的一种语音活动性检测方法、设备及计算机可读存储介质在进行语音活动性检测之前，通过对声音信号进行信号能量估计，获得能量估计值，并判断能量估计值是否超出能量阈值，通过能量估计值与能量阈值的判断，能够判断声音信号为噪音或非噪音，当判断结果为声音信号的能量估计值未超出能量阈值，认为声音信号为非噪音，对认定为非噪音的声音信号进行语音活动性检测，在不增加内存占用，运算消耗的前提下，提升嘈杂环境下语音活动性检测的准确率。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种语音活动性检测方法的实现流程示意图；

图2为本发明实施例一种语音活动性检测方法降噪处理的实现流程示意图；

图3为本发明实施例一种语音活动性检测方法能量估计的实现流程示意图；

图4为本发明实施例一种语音活动性检测方法语音活动性检测的实现流程示意图；

图5为本发明实施例一种语音活动性检测设备的模块示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种语音活动性检测方法的实现流程示意图。

参见图1，本发明实施例一方面提供一种语音活动性检测方法，方法包括：步骤101，获取声音信号；步骤102，对声音信号进行信号能量估计，得到声音信号的能量估计值；步骤103，判断声音信号的能量估计值是否超出能量阈值，得到判断结果；步骤104，当判断结果为声音信号的能量估计值未超出能量阈值时，对声音信号进行语音活动性检测，得到语音活动性检测结果。

本发明实施例提供的语音活动性检测方法在进行语音活动性检测之前，通过对声音信号进行信号能量估计，获得能量估计值，并判断能量估计值是否超出能量阈值，通过能量估计值与能量阈值的判断，能够判断声音信号为噪音或非噪音，当判断结果为声音信号的能量估计值未超出能量阈值，认为声音信号为非噪音，对认定为非噪音的声音信号进行语音活动性检测，避免噪声影响语音活动性检测的准确性。

本方法实施例提供的语音活动性检测方法包括获取声音信号。具体的，应用本发明实施例提供的语音活动性检测方法的设备获取声音信号的方式可以是直接由该设备的语音获取模块直接获取，如通过麦克风获取声音；也可以是经过信号传输获取，如通过信号传输与第三方设备连接，通过接收第三方设备的录音；还可以是通过读取设备可读介质获取声音信号，如通过读取存储卡数据获取录音。本发明实施例不对声音信号的获取方式进行限定。

本方法还包括对声音信号进行信号能量估计，得到声音信号的能量估计值。具体的，用于执行信号能量估计的模块可以使用来自设备其他处理步骤中用于信号能量估计的模块，也可以额外增加一个信号能量估计的模块，信号能量估计的运算量较小，而且在语音活动性检测及其后续信号处理流程中，同样具有能够执行信号能量估计的模块，因此声音信号先进行信号能量估计并没有提升运算资源的消耗，反而节省了信号处理流程中的其他模块，如去混响，热词唤醒，语音识别等对运算资源的消耗。

本方法还包括判断声音信号的能量估计值是否超出能量阈值，得到判断结果。具体的，此处指代的能量阈值为用于区分声音信号是噪声或非噪声的临界值，如，设定的能量阈值可以是对应法律规定噪音分贝的能量值。能量阈值还可以是对应容易造成设备在语音活动性检测过程中容易误判的能量值，如设定的能量阈值可以是对应环境噪声60分贝的能量值。通过比较能量估计值和能量阈值，可以获得用于评价能量估计值是否超过能量阈值的判断结果。

本方法还包括当判断结果为声音信号的能量估计值未超出能量阈值时，对声音信号进行语音活动性检测，得到语音活动性检测结果。

具体的，当判断结果为声音信号的能量估计值未超出能量阈值时，即说明对应该能量估计值的声音信号在进行语音活动性检测过程中不容易出现误判情况。因此，可以将对应该能量估计值的声音信号进行语音活动性检测，由此得到语音活动性检测结果具有较高的准确率。本发明实施例所提供的方法适用于具有数据处理功能的设备，尤其适用于具有数据处理功能的嵌入式设备、可穿戴设备、隐蔽型设备或其他小型设备，如耳机。在系统内存和运算资源有限的情况下，能够不增加内存占用和运算消耗，提升嘈杂环境下语音活动性检测的准确率。实测在环境噪声60dB～80dB的情况下，语音活动性检测的准确率可提升70％以上。

图2为本发明实施例一种语音活动性检测方法降噪处理的实现流程示意图。

参见图2，在本发明实施例中，方法还包括：步骤201，当判断结果为声音信号的能量估计值超出能量阈值时，对声音信号进行降噪处理，获得降噪后的声音信号；步骤202，对降噪后的声音信号进行语音活动性检测。

当判断结果为声音信号的能量估计值超出能量阈值时，即说明对应该能量估计值的声音信号在进行语音活动性检测过程中容易出现误判为语音信号的情况。通过对超出能量阈值的判断结果进行降噪处理，在进行语音活动性检测过程中，能够减少环境噪音对语音活动性检测的影响，降噪后的声音信号能够有利于语音活动性检测的准确率。

本发明实施例方法还包括当判断结果为声音信号的能量估计值超出能量阈值时，对声音信号进行降噪处理，获得降噪后的声音信号。具体的，当判断结果为声音信号的能量估计值超出能量阈值时，需要对声音信号进行降噪处理，执行降噪处理的模块可以是使用来自设备其他处理步骤中用于降噪处理的模块，也可以额外增加一个用于降噪处理的模块，具体的降噪算法可以是通用的降噪算法，如单麦降噪、多麦降噪等。

本发明实施例方法还包括对降噪后的声音信号进行语音活动性检测。通过对降噪后的声音信号进行语音活动性检测，能够有利于语音活动性检测的准确率。

图3为本发明实施例一种语音活动性检测方法能量估计的实现流程示意图。

参见图3，在本发明实施例中，步骤102，对声音信号进行信号能量估计，得到声音信号的能量估计值，包括：步骤1021，对声音信号进行噪声估计，得到噪声估计结果；步骤1022，基于时间窗口对噪声估计结果进行处理，得到噪声估计均方值；步骤1023，确定噪声估计方值为能量估计值。

在一种情况中，由于系统内存和运算资源有限，通常都基于能量和信噪比来设计，当输入的声音信号能量较大，或者信噪比较高时，通过语音活动性检测，该声音信号会被认为是语音信号。因此，噪声容易造成语音活动性检测的误判。

本方法对声音信号进行信号能量估计，得到声音信号的能量估计值，包括，对声音信号进行噪声估计，得到噪声估计结果。具体的，执行噪声估计的模块可以采用具有噪声估计的效果的噪声估计算法，如最小值统计的噪声估计算法、递归平均噪声算法、最小值跟踪算法等。基于减小运算量，本发明实施例可以的噪声估计模块优选使用运算量较小的噪声估计算法。

本方法还包括基于时间窗口对噪声估计结果进行处理，得到噪声估计均方值。具体的，将噪声估计结果放进一个时间窗口，可根据应用场景选择设置这个窗口持续时长，比如5秒、10秒、20秒。还可根据声音信号的长度确定时间窗口的长度，如与声音信号的时长保持一致。计算该时间窗口内的噪声估计均方值。计算得到的噪声估计均方值即为能量估计值，即确定噪声估计方值为能量估计值。

图4为本发明实施例一种语音活动性检测方法语音活动性检测的实现流程示意图。

参见图4，在本发明实施例中，步骤104，对声音信号进行语音活动性检测，包括：步骤1041，确定声音信号的能量或信噪比；步骤1042，基于声音信号的能量或信噪比进行语音活动性检测。

在如嵌入式设备一类的小型设备上，语音活动性检测方法由于系统内存和运算资源有限，通常都基于能量和信噪比来设计，本发明实施例优选基于能量或信噪比实现语音活动性检测。该语音活动性检测可以在时域实现，也可在频域或子带域实现。基于声音信号的能量或信噪比进行语音活动性检测同样具有较小的运算量，有利于在不增加内存占用，运算消耗的前提下，提升嘈杂环境下语音活动性检测的准确率。

在本发明实施例中，方法还包括：当所得到的语音活动性检测结果为声音信号包含语音信号时，将声音信号作为后处理模块的输入信号；当所得到的语音活动性检测结果为声音信号不包含语音信号时，直接将声音信号丢弃。

根据语音活动性检测结果，当所得到的语音活动性检测结果为声音信号包含语音信号时，确定声音信号是语音信号，将声音信号作为后处理模块的输入信号进行后续处理。当所得到的语音活动性检测结果为声音信号不包含语音信号时，该声音信号不需要后处理模块进行后续处理，可直接将声音信号丢弃。相较于直接通过语音活动性检测对声音信号进行检测，该方法可以避免将噪声误判为语音信号，避免包含噪声且不包含语音信号的声音信号进入后处理模块，减少后处理模块由于处理噪声造成的浪费。

为方便上述实施例的理解，以下提供一种具体实施场景进行说明。在该实施场景中，该语音活动性检测方法应用于智能耳机。

当耳机周围环境产生声音时，该耳机耳机通过装设在耳机上的声音接收模块获取声音，实现声音信号的获取。在获取声音信号后，通过噪声估计模块对该声音信号进行噪声估计，获得噪声估计结果，将噪声估计的结果放进一个时间窗口，窗口持续时长10秒。计算该时间窗口内的噪声估计均方值。通过预设在耳机中的能量阈值与噪声估计均方值进行比较，获得比较结果，如果比较结果为噪声估计均方值高于能量阈值，认为该声音信号包含嘈杂场景。此时先将声音信号送给降噪模块进行降噪，然后把降噪后的信号送给语音活动性检测模块，通过语音活动性检测判断是否语音，再根据结果选择将声音信号送给后续处理模块，或者丢弃。如果比较结果为噪声估计均方值低于能量阈值，认为该声音信号包含安静环境，直接把声音信号送给语音活动性检测模块，通过语音活动性检测判断是否语音，再根据结果选择将声音信号送给后续处理模块，或者丢弃。上述所有的情况下，同时只使用一个语音活动性检测模块。

图5为本发明实施例一种语音活动性检测设备的模块示意图。

参见图5，本发明实施例另一方面提供一种语音活动性检测设备，设备包括：获取模块501，用于获取声音信号；估计模块502，用于对声音信号进行信号能量估计，得到声音信号的能量估计值；判断模块503，用于判断声音信号的能量估计值是否超出能量阈值，得到判断结果；检测模块504，用于当判断结果为声音信号的能量估计值未超出能量阈值时，对声音信号进行语音活动性检测，得到语音活动性检测结果。

在本发明实施例中，设备还包括：降噪模块505，用于当判断结果为声音信号的能量估计值超出能量阈值时，对声音信号进行降噪处理，获得降噪后的声音信号；检测模块504，还用于对降噪后的声音信号进行语音活动性检测。

在本发明实施例中，估计模块502，包括：噪声估计子模块5021，用于对声音信号进行噪声估计，得到噪声估计结果；处理子模块5022，用于基于时间窗口对噪声估计结果进行处理，得到噪声估计均方值；第一确定子模块5023，用于确定噪声估计方值为能量估计值。

在本发明实施例中，检测模块504，包括：第二确定子模块5041，用于确定声音信号的能量或信噪比；检测子模块5042，用于基于声音信号的能量或信噪比进行语音活动性检测。

在本发明实施例中，设备还包括：处理模块506，用于当所得到的语音活动性检测结果为声音信号包含语音信号时，将声音信号作为后处理模块的输入信号；丢弃模块507，用于当所得到的语音活动性检测结果为声音信号不包含语音信号时，直接将声音信号丢弃。

本发明实施例另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项的语音活动性检测方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音活动性检测方法，其特征在于，所述方法包括：

获取声音信号；

对所述声音信号进行信号能量估计，得到所述声音信号的能量估计值；

判断所述声音信号的能量估计值是否超出能量阈值，得到判断结果；

当所述判断结果为所述声音信号的能量估计值未超出能量阈值时，对所述声音信号进行语音活动性检测，得到语音活动性检测结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述判断结果为所述声音信号的能量估计值超出能量阈值时，对所述声音信号进行降噪处理，获得降噪后的声音信号；

对所述降噪后的声音信号进行语音活动性检测。

3.根据权利要求1所述的方法，其特征在于，对所述声音信号进行信号能量估计，得到所述声音信号的能量估计值，包括：

对所述声音信号进行噪声估计，得到噪声估计结果；

基于时间窗口对所述噪声估计结果进行处理，得到噪声估计均方值；

确定所述噪声估计方值为能量估计值。

4.根据权利要求1所述的方法，其特征在于，对所述声音信号进行语音活动性检测，包括：

确定所述声音信号的能量或信噪比；

基于所述声音信号的能量或信噪比进行语音活动性检测。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所得到的语音活动性检测结果为所述声音信号包含语音信号时，将所述声音信号作为后处理模块的输入信号；

当所得到的语音活动性检测结果为所述声音信号不包含语音信号时，直接将所述声音信号丢弃。

6.一种语音活动性检测设备，其特征在于，所述设备包括：

获取模块，用于获取声音信号；

估计模块，用于对所述声音信号进行信号能量估计，得到所述声音信号的能量估计值；

判断模块，用于判断所述声音信号的能量估计值是否超出能量阈值，得到判断结果；

检测模块，用于当所述判断结果为所述声音信号的能量估计值未超出能量阈值时，对所述声音信号进行语音活动性检测，得到语音活动性检测结果。

7.根据权利要求6所述的设备，其特征在于，所述设备还包括：

降噪模块，用于当所述判断结果为所述声音信号的能量估计值超出能量阈值时，对所述声音信号进行降噪处理，获得降噪后的声音信号；

所述检测模块，还用于对所述降噪后的声音信号进行语音活动性检测。

8.根据权利要求6所述的设备，其特征在于，所述估计模块，包括：

噪声估计子模块，用于对所述声音信号进行噪声估计，得到噪声估计结果；

处理子模块，用于基于时间窗口对所述噪声估计结果进行处理，得到噪声估计均方值；

第一确定子模块，用于确定所述噪声估计方值为能量估计值。

9.根据权利要求6所述的设备，其特征在于，所述检测模块，包括：

第二确定子模块，用于确定所述声音信号的能量或信噪比；

检测子模块，用于基于所述声音信号的能量或信噪比进行语音活动性检测。

10.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-5任一项所述的语音活动性检测方法。