CN113470621B

CN113470621B - 语音检测方法、装置、介质及电子设备

Info

Publication number: CN113470621B
Application number: CN202110968230.7A
Authority: CN
Inventors: 王志强; 阮良; 陈功; 陈丽
Original assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2023-10-24
Anticipated expiration: 2041-08-23
Also published as: CN113470621A

Abstract

本公开的实施方式提供了一种语音检测方法、装置、介质及电子设备，涉及语音识别技术领域。该方法包括：获取待检测信号，确定待检测信号对应的全频谱值；根据全频谱值确定待检测信号的偏值平坦度，根据偏值平坦度确定待检测信号的第一语音活动性检测结果；对待检测信号进行语音活动检测，得到第二语音活动性检测结果；根据第一语音活动性检测结果与第二语音活动性检测结果确定待检测信号的目标语音检测结果。本公开可以检测出待检测信号中是否包含语音，可以有效提高语音活动性检测过程中语音命中率和非语音命中率。

Description

语音检测方法、装置、介质及电子设备

技术领域

本公开的实施方式涉及语音识别技术领域，更具体地，本公开的实施方式涉及语音检测方法、语音检测装置、计算机可读存储介质及电子设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

语音活动性检测(Voice Activity Detection，VAD)是判断当前信号是否有语音的技术，在语音处理中至关重要，也有非常多的用途。对于节省带宽来说，如果判断当前信号帧不含有语音，可以选择不发音频帧节省带宽。对于自动增益控制(Adaptive GainControl，AGC)来说，如果判断当前信号不含有语音，可以缩小抑制当前信号，如果判断当前信号含有语音，可以增大信号。对于语音噪声抑制(Audio Noise Suppression，ANS)来说，如果判断当前信号不含有语音，可以将其视为噪声并跟踪，进而准确抑制噪声，如果判断当前信号含有语音，不用此时信号更新噪声，进而保护语音。

发明内容

为此，本公开提出一种语音检测方法，以使对待检测信号进行语音活动检测时，可以同时具有较高的(Speech Hit Ratio，SHR)与非语音命中率(Non-speech Hit Ratio，NHR)，提高语音检测的鲁棒性。

在本上下文中，本公开的实施方式期望提供一种语音检测方法、语音检测装置、计算机可读存储介质及电子设备。

在本公开实施方式的第一方面中，提供了一种语音检测方法，包括：获取待检测信号，确定待检测信号对应的全频谱值；根据全频谱值确定待检测信号的偏值平坦度，根据偏值平坦度确定待检测信号的第一语音活动性检测结果；对待检测信号进行语音活动检测，得到第二语音活动性检测结果；根据第一语音活动性检测结果与第二语音活动性检测结果确定待检测信号的目标语音检测结果。

在本公开的一个实施例中，根据全频谱值确定待检测信号的偏值平坦度，包括：确定待检测信号包含的帧信号以及帧信号数量；对帧信号进行频谱转换处理，得到对应的帧信号频谱；根据全频谱值、帧信号频谱与帧信号数量确定偏值平坦度。

在本公开的一个实施例中，偏值平坦度包括待检测信号中所有帧信号对应的偏值平坦度；根据偏值平坦度确定待检测信号的第一语音活动性检测结果，包括：获取平坦度阈值，将偏值平坦度与平坦度阈值进行对比；偏值平坦度基于待检测信号中各帧信号的帧信号频谱确定；确定目标帧信号，如果目标帧信号的偏值平坦度大于等于平坦度阈值，则将第一语音活动性检测结果确定为目标帧信号是非语音信号；如果目标帧信号的偏值平坦度小于平坦度阈值，则将第一语音活动性检测结果确定为目标帧信号是语音信号。

在本公开的一个实施例中，对待检测信号进行语音活动检测，得到第二语音活动性检测结果，包括：获取待检测信号的帧信号数量，根据帧信号数量确定待检测信号对应的检测周期时长；获取待检测信号的帧信号频谱，根据帧信号频谱确定待检测信号的帧信号能量；根据帧信号能量与检测周期时长对待检测信号进行帧级语音活动检测，得到第二语音活动性检测结果。

在本公开的一个实施例中，根据帧信号能量与检测周期时长对待检测信号进行帧级语音活动检测，得到第二语音活动性检测结果，包括：根据检测周期时长确定帧级语音活动检测对应的多个检测周期；确定各检测周期对应的最小能量值；将各检测周期内的帧信号能量分别与最小能量值进行对比，以根据能量对比结果确定第二语音活动性检测结果。

在本公开的一个实施例中，确定各检测周期对应的最小能量值，包括：对多个检测周期逐一进行下述处理：确定当前检测周期，并确定当前检测周期的第一临时能量值；第一临时能量值基于当前检测周期的初始帧信号能量确定；根据初始帧信号能量与第一临时能量值确定当前检测周期的初始最小能量值；根据当前帧信号能量对第一临时能量值进行更新处理，以得到当前检测周期的第二临时能量值；根据当前帧信号能量对初始最小能量值进行更新处理，以得到当前检测周期的最小能量值。

在本公开的一个实施例中，将各检测周期内的帧信号能量分别与最小能量值进行对比，以根据能量对比结果确定第二语音活动性检测结果，包括：获取预先设定的系数因子，根据系数因子与最小能量值确定能量阈值；将各帧信号能量分别与能量阈值对比；确定目标帧信号，如果帧信号能量小于能量阈值，则确定第二语音活动性检测结果为目标帧信号是非语音信号；如果帧信号能量大于等于能量阈值，则确定第二语音活动性检测结果为目标帧信号是语音信号。

在本公开的一个实施例中，根据第一语音活动性检测结果与第二语音活动性检测结果确定待检测信号的目标语音检测结果，包括：如果第一语音活动性检测结果为语音信号且第二语音活动性检测结果为语音信号，则目标语音检测结果为目标帧信号是语音信号；如果第一语音活动性检测结果为语音信号且第二语音活动性检测结果为非语音信号，则目标语音检测结果为目标帧信号是语音信号；如果第一语音活动性检测结果为非语音信号且第二语音活动性检测结果为语音信号，则根据当前检测帧的当前检测帧信号能量确定目标语音检测结果；如果第一语音活动性检测结果为非语音信号且第二语音活动性检测结果为非语音信号，则目标语音检测结果为目标帧信号是非语音信号。

在本公开的一个实施例中，根据当前帧信号能量确定目标语音检测结果，包括：确定当前检测帧的信号位置，根据信号位置确定目标数量个参考帧以及各参考帧的参考帧信号能量；确定多个参考帧信号能量的平均帧能量；如果当前检测帧信号能量大于预设比例的平均帧能量，则目标语音检测结果为目标帧信号是语音信号。

在本公开实施方式的第二方面中，提供了一种语音检测装置，包括：信号获取模块，用于获取待检测信号，确定待检测信号对应的全频谱值；第一结果确定模块，用于根据全频谱值确定待检测信号的偏值平坦度，根据偏值平坦度确定待检测信号的第一语音活动性检测结果；第二结果确定模块，用于对待检测信号进行语音活动检测，得到第二语音活动性检测结果；目标结果确定模块，用于根据第一语音活动性检测结果与第二语音活动性检测结果确定待检测信号的目标语音检测结果。

在本公开的一个实施例中，第一结果确定模块包括平坦度确定单元，用于确定待检测信号包含的帧信号以及帧信号数量；对帧信号进行频谱转换处理，得到对应的帧信号频谱；根据全频谱值、帧信号频谱与帧信号数量确定偏值平坦度。

在本公开的一个实施例中，第一结果确定模块还包括第一结果确定单元，用于获取平坦度阈值，将偏值平坦度与平坦度阈值进行对比；偏值平坦度基于待检测信号中各帧信号的帧信号频谱确定；确定目标帧信号，如果目标帧信号的偏值平坦度大于等于平坦度阈值，则将第一语音活动性检测结果确定为目标帧信号是非语音信号；如果目标帧信号的偏值平坦度小于平坦度阈值，则将第一语音活动性检测结果确定为目标帧信号是语音信号。

在本公开的一个实施例中，第二结果确定模块包括第二结果确定单元，用于获取待检测信号的帧信号数量，根据帧信号数量确定待检测信号对应的检测周期时长；获取待检测信号的帧信号频谱，根据帧信号频谱确定待检测信号的帧信号能量；根据帧信号能量与检测周期时长对待检测信号进行帧级语音活动检测，得到第二语音活动性检测结果。

在本公开的一个实施例中，第二结果确定单元包括第二结果确定子单元，用于根据检测周期时长确定帧级语音活动检测对应的多个检测周期；确定各检测周期对应的最小能量值；将各检测周期内的帧信号能量分别与最小能量值进行对比，以根据能量对比结果确定第二语音活动性检测结果。

在本公开的一个实施例中，第二结果确定子单元包括能量值确定子单元，用于对多个检测周期逐一进行下述处理：确定当前检测周期，并确定当前检测周期的第一临时能量值；第一临时能量值基于当前检测周期的初始帧信号能量确定；根据初始帧信号能量与第一临时能量值确定当前检测周期的初始最小能量值；根据当前帧信号能量对第一临时能量值进行更新处理，以得到当前检测周期的第二临时能量值；根据当前帧信号能量对初始最小能量值进行更新处理，以得到当前检测周期的最小能量值。

在本公开的一个实施例中，第二结果确定子单元包括能量值对比子单元，用于获取预先设定的系数因子，根据系数因子与最小能量值确定能量阈值；将各帧信号能量分别与能量阈值对比；确定目标帧信号，如果帧信号能量小于能量阈值，则确定第二语音活动性检测结果为目标帧信号是非语音信号；如果帧信号能量大于等于能量阈值，则确定第二语音活动性检测结果为目标帧信号是语音信号。

在本公开的一个实施例中，目标结果确定模块包括目标结果确定单元，用于如果第一语音活动性检测结果为语音信号且第二语音活动性检测结果为语音信号，则目标语音检测结果为目标帧信号是语音信号；如果第一语音活动性检测结果为语音信号且第二语音活动性检测结果为非语音信号，则目标语音检测结果为目标帧信号是语音信号；如果第一语音活动性检测结果为非语音信号且第二语音活动性检测结果为语音信号，则根据当前检测帧的当前检测帧信号能量确定目标语音检测结果；如果第一语音活动性检测结果为非语音信号且第二语音活动性检测结果为非语音信号，则目标语音检测结果为目标帧信号是非语音信号。

在本公开的一个实施例中，目标结果确定单元包括目标结果确定子单元，用于确定当前检测帧的信号位置，根据信号位置确定目标数量个参考帧以及各参考帧的参考帧信号能量；确定多个参考帧信号能量的平均帧能量；如果当前检测帧信号能量大于预设比例的平均帧能量，则目标语音检测结果为目标帧信号是语音信号。

在本公开实施方式的第三方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的语音检测方法。

在本公开实施方式的第四方面中，提供了一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上述所述的语音检测方法。

根据本公开实施方式的技术方案，一方面，在计算待检测信号的平坦度时，为平坦度特征增加偏值，得到偏值平坦度特征，以基于偏值平坦度确定语音检测结果，可以提高语音检测的鲁棒性。另一方面，采用基于偏值平坦度进行语音检测与基础语音活动检测联合确定待检测信号的语音检测结果，使得语音检测结果同时具有较高的语音命中率与非语音命中率。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性地示出了用语音活动检测判断语音信号中是否含有语音的结果图；

图2示意性地示出了对第一带噪信号进行平坦度计算后得到平坦度结果图；

图3示意性地示出了根据本公开的一些实施例的示例性应用场景的系统架构的示意框图；

图4示意性地示出了根据本公开的一些实施例的语音检测方法的流程示意图；

图5示意性地示出了根据本公开的一些实施例的确定待检测信号对应的目标语音检测结果的整体流程图；

图6示意性地示出了第二带噪信号进行平坦度计算后得到的平坦度结果图；

图7示意性地示出了第二带噪信号进行偏值平坦度计算后得到的偏值平坦度结果图；

图8示意性地示出了根据本公开的一些实施例的语音检测装置的示意框图；

图9示意性地示出了根据本公开的示例实施例的存储介质的示意图；以及

图10示意性地示出了根据发明的示例实施例的电子设备的方框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种语音检测方法、语音检测装置、介质和电子设备。

在本文中，需要理解的是，所涉及的术语，比如：平坦度(Flatness)可以是信号的几何平均与算术平均之比，代表信号分布的平坦性特征。

自动增益控制可以根据信号的类型和输入幅度，自动设置增益，放大所需的信号幅度和缩小不需要的信号幅度。

语音噪声抑制，是一种语音增强技术，能抑制信号内的噪声，增强信号内的语音。

语音命中率(Speech Hit Ratio，SHR)，可以是评价VAD的一种定量标准，值越高代表VAD能从信号中检测出越多的语音信号。

非语音命中率(Non-speech Hit Ratio，NHR)，可以是评价VAD的一种定量标准，值越高代表VAD能从信号中检测出越多的非语音信号。

最小递归控制平均可以是一种频点级的VAD技术。

长时频谱差异(Long-Term Spectral Divergence，LTSD)可以用来评价两个信号频谱差异的特征值，如果两个信号频谱差异越大，该特征值越大；如果两个信号的频谱差异越小，该特征值越小。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

在进行语音活动性检测时，可以采用VAD技术判断语音信号中是否含有语音。参考图1，图1示意性地示出了现有技术中采用语音活动检测判断语音活动性检测中是否含有语音的结果图。图1中的上半图是时域带噪语音信号波形图，下半图是VAD技术的判断结果，值为0则判断当前信号不含有语音，值为1则判断当前信号含有语音。MCRA-VAD的理论假设是非语音段能量小于语音段能量。根据这个假设，其寻找信号的局部最小值，小于该值的判为非语音段，大于则判为语音段。

虽然MCRA的VAD能对每一个频点做出一个判断，但是其局部最小值更新周期慢，往往跟不上噪声的变化，即使有着较高的SHR，但是NHR非常低。如果设置较快的最小值更新周期，会非常容易将语音判为噪声，降低了SHR以提高NHR。

Flatness Based VAD是一种帧级的VAD技术。人在说话时，声带会振动，因此语音信号(Speech)的频谱会有明显的基频信号和对应的谐波信号，频谱较为不平坦。而非语音信号很少有这种谐波成分，非语音信号(Non-Speech)的频谱分布较为平均，整体频谱呈平坦，因此，可以通过平坦度区分Speech和Non-Speech。

举例而言，对于一段第一带噪信号，可以对第一带噪信号进行平坦度计算，可以得到第一带噪信号的平坦度。参考图2，图2示意性地示出了第一带噪信号进行平坦度计算后得到平坦度结果图。图2中的上半图的横坐标为帧，纵坐标为平坦度(Flatness)特征数值。下半图横坐标为帧，纵坐标为每一帧的帧信号能量(总能量)。从图2中可以看到，非语音段频谱较为平坦，Flatness值很高。语音段频谱不够平坦，Flatness值很低。

然而，从平坦度的计算公式看到，其仅能描述信号的一种集中分布度：信号分布越不平坦，该值越低，信号分布越平坦，该值越高。但该特征不能很好的描述语音带来的不平坦度，即频谱的不平坦是由基频和对应的谐波信号产生的。举一个简单的例子，如果某一帧频谱所有能量集中在800HZ，其它频率成分没有任何能量。代入平坦度计算公式，该帧的平坦度为0，基于Flatness-VAD会将其判为Speech。但很显然，这种信号不可能是Speech。这就是Flatness Based VAD的理论缺陷。

上述技术方案中单独采用基于最小递归控制平均的语音活动检测(MinimaControlled Recursive Averaging Based VAD，MCRA Based VAD)，或者基于平坦度的语音活动检测方法(Flatness Based VAD)无法同时得到较高的SHR与NHR的问题。

基于上述内容，本公开的基本思想在于，获取待检测信号，确定待检测信号对应的全频谱值；根据全频谱值确定待检测信号的偏值平坦度，根据偏值平坦度确定待检测信号的第一语音活动性检测结果；对待检测信号进行语音活动检测，得到第二语音活动性检测结果；根据第一语音活动性检测结果与第二语音活动性检测结果确定待检测信号的目标语音检测结果。一方面，在计算待检测信号的平坦度时，为平坦度特征增加偏值，得到偏值平坦度特征，以基于偏值平坦度确定语音检测结果，可以提高语音检测的鲁棒性。另一方面，采用基于偏值平坦度进行语音检测与基础语音活动检测联合确定待检测信号的语音检测结果，使得语音检测结果同时具有较高的语音命中率与非语音命中率。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

首先参考图3，图3示出了可以应用本公开实施例的一种语音检测方法及装置的示例性应用场景的系统架构的示意框图。

如图3所示，系统架构300可以包括终端设备301、302、303中的一个或多个，网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备301、302、303可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器305可以是多个服务器组成的服务器集群等。

本公开实施例所提供的语音检测方法一般由服务器305执行，相应地，语音检测装置一般设置于服务器305中。但本领域技术人员容易理解的是，本公开实施例所提供的语音检测方法也可以由终端设备301、302、303执行，相应的，语音检测装置也可以设置于终端设备301、302、303中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，可以是工作人员通过终端设备301、302、303将待检测信号上传至服务器305，服务器通过本公开实施例所提供的语音检测方法对待检测信号进行语音检测处理，得到目标语音检测结果，并将确定出的目标语音检测结果传输给终端设备301、302、303等以使终端设备301、302、303将确定出的目标语音检测结果展示给用户。

应该理解的是，图3所示的应用场景仅是本公开的实施例可以在其中得以实现的一个示例。本公开实施例的适用范围不受到该应用场景任何方面的限制。

示例性方法

下面结合图3的应用场景，参考图4来描述根据本公开示例性实施方式的语音检测方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

本公开首先提供了一种语音检测方法，该方法执行主体可以是终端设备，也可以是服务器，本公开对此不做特殊限定，本示例实施例中以服务器执行该方法为例进行说明。

参照图4所示，该语音检测方法可以包括以下步骤S410至步骤S440：

步骤S410，获取待检测信号，确定待检测信号对应的全频谱值。

在一些示例实施例中，待检测信号可以是待进行语音检测以判断其中是否含有语音的语音信号。全频谱值可以是根据待检测信号的频谱确定出的值。

获取到待检测信号后，可以根据待检测信号的频谱确定对应的全频谱值，以根据得到的全频谱值进行后续的语音检测操作。

步骤S420，根据全频谱值确定待检测信号的偏值平坦度，根据偏值平坦度确定待检测信号的第一语音活动性检测结果。

在一些示例实施例中，偏值平坦度可以是对待检测信号的频谱加入正数偏移后计算得到的平坦度。第一语音活动性检测结果可以是根据偏值平坦度进行语音检测处理后得到的结果。

在确定出待检测信号的全频谱值后，可以将全频谱值作为正数偏移添加至平坦度计算过程中，得到待检测信号对应的偏值平坦度。根据得到的偏值平坦度可以确定出待检测信号的第一语音活动性检测结果。当待检测信号的偏值平坦度越接近于1，则表明待检测信号为非语音信号；当待检测信号的偏值平坦度越接近于0，则表明待检测信号为语音信号。

步骤S430，对待检测信号进行语音活动检测，得到第二语音活动性检测结果。

在一些示例实施例中，语音活动检测可以是采用VAD技术对待检测信号进行检测的处理过程。第二语音活动性检测结果可以是采用语音活动检测方式确定待检测信号是否包含语音的检测结果。

在获取到待检测信号后，可以对待检测信号进行语音活动检测，得到第二语音活动性检测结果，确定待检测信号中是否包含语音。例如，在使用采用MCRA-VAD算法对待检测信号进行语音活动检测时，可以将待检测信号中帧信号的平均频谱能量作为输入，以得到最终的检测结果。在本公开中，可以将MCRA的算法思想应用于时域帧级能量上，计算待检测信号中每一帧信号的能量，作为算法的输入，以确定第二语音活动性检测结果。

步骤S440，根据第一语音活动性检测结果与第二语音活动性检测结果确定待检测信号的目标语音检测结果。

在一些示例实施例中，目标语音检测结果可以是综合第一语音活动性检测结果与第二语音活动性检测结果得到的语音检测结果。

在分别得到第一语音活动性检测结果与第二语音活动性检测结果后，可以基于两个语音检测结果联合确定待检测信号的语音检测结果，作为目标语音检测结果。利用语音活动检测中较高的SHR，提高基于偏值平坦度进行语音活动检测的SHR。

在本示例实施方式所提供的语音检测方法，获取待检测信号，确定待检测信号对应的全频谱值；根据全频谱值确定待检测信号的偏值平坦度，根据偏值平坦度确定待检测信号的第一语音活动性检测结果；对待检测信号进行语音活动检测，得到第二语音活动性检测结果；根据第一语音活动性检测结果与第二语音活动性检测结果确定待检测信号的目标语音检测结果。一方面，在计算待检测信号的平坦度时，为平坦度特征增加偏值，得到偏值平坦度特征，以基于偏值平坦度确定语音检测结果，可以提高语音检测的鲁棒性。另一方面，采用基于偏值平坦度进行语音检测与基础语音活动检测联合确定待检测信号的语音检测结果，使得语音检测结果同时具有较高的语音命中率与非语音命中率。

下面，对于本示例实施方式的上述步骤进行更加详细的说明。

在本公开的一个实施例中，确定待检测信号包含的帧信号以及帧信号数量；对帧信号进行频谱转换处理，得到对应的帧信号频谱；根据全频谱值、帧信号频谱与帧信号数量确定偏值平坦度。

其中，帧信号可以是待检测信号中包含信号帧，待检测信号中可以包括多个帧信号。帧信号数量可以是帧信号的具体个数。频谱是频率谱密度的简称，是频率的分布曲线。频谱转换处理可以是对待检测信号中的帧信号进行频谱转换，以确定帧信号对应的频谱的过程。帧信号频谱可以是每一个帧信号对应的频谱，即某一帧的频率幅度信号。

在获取到待检测信号后，可以确定待检测信号中包含的帧信号，并确定待检测信号中的帧信号数量。对得到的帧信号进行频谱转换处理，以得到对应的帧信号频谱。参考图5，图5示意性地示出了根据本公开的一些实施例的确定待检测信号对应的目标语音检测结果的整体流程图。在步骤S510，对获取到的帧信号进行短时傅里叶变换(short-timeFourier transform，STFT)，得到对应的帧信号频谱。在步骤S520中，计算偏值平坦度。在确定出帧信号、帧信号数量与得到帧信号频谱后，可以根据上述内容确定待检测信号对应的偏值平坦度。

获取第二带噪信号，对于第二带噪信号而言，在基于Flatness Based VAD方式计算语音信号的平坦度时，可以采用公式1中计算方法进行。

其中，Y(k,l)可以是输入的待检测信号第l帧的频率幅度信号；ln()是以e为底的对数函数。

参考图6，图6示意性地示出了对第二带噪信号进行平坦度计算后得到的平坦度结果图。从图6可以看出，基于Flatness的VAD对于非平稳的Non-Speech和Speech几乎没有区分能力。对比图6与图2，可以得出结论，当Non-Speech信号是不平坦的，基于Flatness的VAD无法将其与Speech区分开。针对基于Flatness Based VAD方式的上述缺点，本公开在计算待检测信号的平坦度的过程中，可以为原始的输入信号的频谱增加正数的偏移，逐帧计算待检测信号的偏值平坦度，具体的计算过程如公式2所示。

其中，Y(k,l)可以是输入的待检测信号第l帧的频率幅度信号；ln()是以e为底的对数函数；σ可以是全频谱值；K可以是表示帧信号数量。

在本公开的一个实施例中，获取平坦度阈值，将偏值平坦度与平坦度阈值进行对比；偏值平坦度基于待检测信号中各帧信号的帧信号频谱确定；确定目标帧信号，如果目标帧信号的偏值平坦度大于等于平坦度阈值，则将第一语音活动性检测结果确定为目标帧信号是非语音信号；如果目标帧信号的偏值平坦度小于平坦度阈值，则将第一语音活动性检测结果确定为目标帧信号是语音信号。

其中，目标帧信号可以是待检测信号中当前进行语音活动性检测的帧信号。平坦度阈值可以是预先设定的用于与偏值平坦度进行对比的数值。

在计算平坦度的过程中，增加偏值σ可以相当于先在原始待检测信号中增加足够强的平坦信号，全频谱值为σ，此时平坦度为1。而后叠加频谱信号Y(k,l)，Y(k,l)需要足够不平坦且能量足够大，才能将原始非常平坦的信号变为不平坦信号，计算出得偏值平坦度Bias Flatness特征值才会变低。采用上述计算方式，基于Bias Flatness的VAD可以有效区分Speech和Non-Speech，即使Non-Speech是非平稳信号，因此，有效提高了语音活动检测的鲁棒性。

在采用公式2确定出待检测信号中每一个帧信号的偏值平坦度后，可以获取预先设定的平坦度阈值，例如，平坦度阈值可以是为0.5，平坦度的取值范围可以是[0,1]。继续参考图5，在步骤S530中，将偏值平坦度与平坦度阈值进行对比，如果偏值平坦度大于等于平坦度阈值，说明目标帧信号对应的频谱信号较为平坦，能量值较小，则将第一语音活动性检测结果确定为目标帧信号是非语音信号。如果偏值平坦度小于平坦度阈值，说明目标帧信号对应的频谱信号不够不平坦，能量值较大，则将第一语音活动性检测结果确定为目标帧信号是语音信号。可以将上述根据待检测信号的偏值平坦度确定语音检测结果的检测方法称为偏值平坦度语音活动检测(Bias Flatness VAD)。

参考图7，图7示意性地示出了对第二带噪信号进行偏值平坦度计算后得到的偏值平坦度结果图。从图7中可以看出，Speech和Non-Speech区分度非常高，并且，通过统计该待检测音频信号的得分数据，得到SHR＝0.987，NHR＝0.956。

在采用MCRA Based VAD进行语音活动检测时，该算法的伪代码如下所示：

其中，z可以表示一个变量。k可以代表频点，S(k,l)可以表示待检测信号的第l帧的平均频谱能量(Averaging Spectrum Power)；根据确定出的Y(k,l)进行平方计算，可以得到S(k,l)。S_min(k)可以表示当前检测周期内帧信号的最小频谱能量。S_tmp(k)可以表示当前检测周期内帧信号的频谱能量的临时值。

上述伪代码表示：在整个语音检测过程中，将S(k,l)作为算法的输入，对S(k,l)进行语音活动检测处理，以得到待检测信号是否包含语音的检测结果。具体的，先根据待检测信号中包含的帧信号数量确定检测周期时长，例如，当帧数量处于(0,100]时，可以将检测周期时长确定为15；当帧数量处于(100,1000]时，可以将检测周期时长确定为50；当帧数量处于(1000,10000]时，可以将检测周期时长确定为150；当帧数量大于10000时，可以将检测周期时长确定为300。

在语音活动检测过程中，当处于某一检测周期内时，可以根据S(k,l)与S_min(k)对S_min(k)的值进行更新，并根据S(k,l)与S_tmp(k)对S_tmp(k)的值进行更新。当检测过程跳出该检测周期时，根据S(k,l)确定S_tmp(k)，并根据S(k,l)与S_tmp(k)确定S_min(k)。将确定出的S_min(k)放大α倍，将每信号中每一帧的平均频谱能量与α*S_min(k)对比，如果S(k,l)＜α*S_min(k)，则认为该帧中能量较小，得到VAD(k,l)＝0，确定该帧信号包含语音，将其判定为语音信号；否则，得到VAD(k,l)＝1，确定该帧信号不包含语音，将其判定为非语音信号。

采用基于MCRA的VAD(MCRA-VAD)算法的检测方法对第二加噪信号进行检测时，检测的频率点是800HZ，得到对应的SHR和NHR分别为100％和60.5％，具体如表1所示。

表1

虽然MCRA-VAD算法可以拥有100％的SHR，能够很好保护语音信号，但其NHR仅有60.5％，作为一个检测类技术其性能是不够的。以将其运用到AGC为例，实施思路为放大MCRA-VAD检测到的Speech，缩小MCRA-VAD检测到的Non-Speech。虽然能放大100％的Speech，但也会放大39.5％的Non-Speech。有近40％的Non-Speech被错误放大，严重影响了用户体验。因此，单独采用MCRA-VAD算法进行语音活动检测无法满足实际的检测需求。

在本公开的一个实施例中，在进行语音检测时，将MCRA算法思想运用于时域帧级能量上，而非原始的频点能量上，对待检测信号进行语音活动检测，以得到第二语音活动性检测结果。继续参考图5，在步骤S540中，采用时域MCRA算法对待检测信号进行语音检测处理。

在本公开的一个实施例中，获取待检测信号的帧信号数量，根据帧信号数量确定待检测信号对应的检测周期时长；获取待检测信号的帧信号频谱，根据帧信号频谱确定待检测信号的帧信号能量；根据帧信号能量与检测周期时长对待检测信号进行帧级语音活动检测，得到第二语音活动性检测结果。

其中，检测周期时长可以是对待检测信号进行语音检测的一个检测周期对应的时长。帧信号能量可以是每一帧信号的能量。帧级语音活动检测(Time Domain MCRA VAD)可以是将MCRA算法思想运用于时域帧级能量，以确定待检测信号的语音检测结果的检测方式。

本公开在对待检测信号进行帧级语音活动检测时，将待检测信号中语音信号的帧信号能量作为算法的输入。在获取到待检测信号后，可以确定待检测信号中包含的帧信号数量，以根据确定出的帧信号数量确定待检测信号对应的检测周期时长，具体的确定方式可以参照MCRA-VAD算法中的确定方式，即当帧信号的变量标识较小时，可以设定较小值的检测周期时长；当帧信号的变量标识较大时，将检测周期时长对应设置为一个较大的值。具体原因如下：在一段待检测信号中，语音信号在刚开始的时候可能更新的较快一些，这时将检测周期时长设置为一个较小的时，可以更敏锐的判断出该段语音信号中语音与非语音的变化，随着通话时间变长，由于语音信号可能变化较慢，因此可以相应调整检测周期时长，将其设置为一个较长的时间值。

在MCRA-VAD算法中，由于S(k,l)中的k表示频点，以一秒(second)时长的语音信号为例，将一秒时长的信号分为100帧，则每一帧对应0.01s，再确定每一帧中包含的频点，每一帧例如可以包含256个频点，则MCRA-VAD算法可以得到语音信号中每一个频点是否包含语音的判断结果。

获取待检测信号的帧信号频谱，可以将一个帧信号中的所有频谱能量总和作为该帧的帧信号能量。在确定出帧信号能量之后，对帧信号能量进行帧级语音活动检测，得到第二语音活动性检测结果。

在本公开的一个实施例中，根据检测周期时长确定帧级语音活动检测对应的多个检测周期；确定各检测周期对应的最小能量值；将各检测周期内的帧信号能量分别与最小能量值进行对比，以根据能量对比结果确定第二语音活动性检测结果。

其中，检测周期可以是对待检测信号进行帧级语音活动检测的过程中所划分出的周期。最小能量值可以是在各检测周期内语音信号中的帧信号对应的帧信号能量的最小值。能量对比结果可以是某一检测周期内所有的帧信号能量与最小能量值进行对比得到的结果。

在确定出检测周期时长后，可以基于检测周期时长与帧信号数量划分出多个检测周期，如在前100帧中，每隔15帧确定一个检测周期；在第100帧到第1000帧之间，每隔50帧确定一个检测周期，等等。在确定出多个检测周期后，可以确定出每个检测周期中的最小能量值，以便将该检测周期中的所有帧信号分别与最小能量值进行对比，根据能量对比结果确定待检测信号的第二语音活动性检测结果。

在本公开的一个实施例中，对多个检测周期逐一进行下述处理：确定当前检测周期，并确定当前检测周期的第一临时能量值；第一临时能量值基于当前检测周期的初始帧信号能量确定；根据初始帧信号能量与第一临时能量值确定当前检测周期的初始最小能量值；根据当前帧信号能量对第一临时能量值进行更新处理，以得到当前检测周期的第二临时能量值；根据当前帧信号能量对初始最小能量值进行更新处理，以得到当前检测周期的最小能量值。

其中，当前检测周期可以是帧级语音检测过程中当前所处的检测周期。第一临时能量值可以是进入到当前检测周期内，该检测周期中用于存储帧信号能量的临时变量。初始帧信号能量可以是从上一检测周期进入当前检测周期时，待检测信号中首帧语音信号的帧信号能量。初始最小能量值可以是从上一检测周期进入当前检测周期时，当前检测周期中帧信号对应的最小能量值。当前帧信号能量可以是从当前检测周期中获取的用于与其他能量值进行对比的帧信号能量。第二临时能量值可以是根据当前检测周期中的帧信号能量与第一临时能量值确定出的用于存储帧信号能量的临时变量。

在确定出当前检测周期后，可以确定当前检测周期对应的第一临时能量值，第一临时能量值可以是待检测信号在当前检测周期中对应的首帧信号的能量值。在确定出第一临时能量值之后，可以根据第一临时能量值与当前检测周期内的所有帧信号能量共同确定初始最小能量值，具体的，可以将第一临时能量值与当前检测周期内的所有帧信号能量进行逐一对比，将确定出的最小值作为初始最小能量值。然后，在当前检测周期内，可以从当前检测周期内获取某一帧信号能量作为当前帧信号能量，根据当前帧信号能量对第一临时能量值进行更新处理，将当前检测周期内的所有帧信号能量，逐一作为当前帧信号能量与第一临时能量值进行对比，取对比结果中的较小值作为第二临时能量值。并且，将当前检测周期内的所有帧信号能量，逐一作为当前帧信号能量分别与初始最小能量值进行对比，取对比结果中的最小值作为当前检测周期的最小能量值。

在本公开的一个实施例中，获取预先设定的系数因子，根据系数因子与最小能量值确定能量阈值；将各帧信号能量分别与能量阈值对比；确定目标帧信号，如果帧信号能量小于能量阈值，则确定第二语音活动性检测结果为目标帧信号是非语音信号；如果帧信号能量大于等于能量阈值，则确定第二语音活动性检测结果为目标帧信号是语音信号。

其中，系数因子可以是用于与最小能量值进行计算，以确定能量阈值所采用的系数。能量阈值可以是与待检测信号中各帧的帧信号能量进行对比的数值。

在确定出最小能量值后，可以获取预先设定的系数因子α，例如，α的取值可以是150、300等，将系数因子与最小能量值进行乘法计算，可以得到能量阈值。将待检测信号中各帧信号能量分别与能量阈值进行对比。如果帧信号能量小于能量阈值，说明该帧信号对应的能量值较小，可以将该帧信号的第二语音活动性检测结果确定为目标帧信号是非语音信号；如果帧信号能量大于等于能量阈值，说明该帧信号对应的能量值较大，可以将该帧信号的第二语音活动性检测结果确定为目标帧信号是语音信号。将MCRA思想于帧级能量上，提出的Time Domain MCRA VAD，该方法相较于原始的频点级MCRA-VAD算法具有较高的NHR。

在本公开的一个实施例中，如果第一语音活动性检测结果为语音信号且第二语音活动性检测结果为语音信号，则目标语音检测结果为目标帧信号是语音信号；如果第一语音活动性检测结果为语音信号且第二语音活动性检测结果为非语音信号，则目标语音检测结果为目标帧信号是语音信号；如果第一语音活动性检测结果为非语音信号且第二语音活动性检测结果为语音信号，则根据当前检测帧的当前检测帧信号能量确定目标语音检测结果；如果第一语音活动性检测结果为非语音信号且第二语音活动性检测结果为非语音信号，则目标语音检测结果为目标帧信号是非语音信号。

其中，当前检测帧可以是当前联合语音检测所判断的信号帧。当前检测帧信号能量可以是当前检测帧对应的信号能量值。

继续参考图5，在步骤S550中，执行联合判断步骤。在步骤S560中，得到目标语音检测结果。在分别确定出第一检测语音信号的第一语音活动性检测结果与第二语音活动性检测结果后，可以基于两个判断结果进行融合判断，确定出目标语音检测结果。在组合不同VAD进行联合判断时，不能使用简单的与或非逻辑组合各自VAD判断结果，以本公开中的Bias Flatness VAD和Time Domain MCRA VAD为例，如果Bias Flatness VAD判断当前帧为Speech，而Time Domain MCRA VAD判断当前帧为Non-Speech。很难界定当前帧是Speech或Non-Speech，如果判断结果组合逻辑问题较大，组合VAD方法的SHR或者NHR会低于任意一个VAD方法。而如果偏向一方，例如偏向保护Speech，采用简单的或逻辑组合两个VAD判断结果，将导致虽然保证了极高的SHR，但NHR会极低。

因此，本公开采用下述联合判断方式，以Bias Flatness VAD为主VAD，以TimeDomain MCRA VAD为辅VAD。核心思想为用Time Domain MCRA VAD的高SHR能力提高BiasFlatness VAD的SHR。具体方法如下：

当Bias Flatness VAD判断为Speech且Time Domain MCRA VAD判断为Speech时，则目标语音检测结果为Speech。

当Bias Flatness VAD判断为Speech且Time Domain MCRA VAD判断为Non-Speech时，则目标语音检测结果为Speech。

当Bias Flatness VAD判断为Non-Speech且Time Domain MCRA VAD判断为Speech时，则基于当前检测帧对应的当前检测帧信号能量确定目标语音检测结果。

当Bias Flatness VAD判断为Non-Speech且Time Domain MCRA VAD判断为Non-Speech时，则目标语音检测结果为Non-Speech。

在本公开的一个实施例中，确定当前检测帧的信号位置，根据信号位置确定目标数量个参考帧以及各参考帧的参考帧信号能量；确定多个参考帧信号能量的平均帧能量；如果当前检测帧信号能量大于预设比例的平均帧能量，则目标语音检测结果为目标帧信号是语音信号。

其中，信号位置可以是当前检测帧在待检测信号中所处的位置。目标数量可以是确定出的参考帧信号能量的数量，可以记为N。参考帧信号能量可以是根据当前帧信号的信号位置确定出的多个参考帧信号的分别对应的帧信号能量。平均帧能量可以是确定出的多个参考帧信号能量的平均值。预设比例可以是预先设定的比例值。

当Bias Flatness VAD判断为Non-Speech且Time Domain MCRA VAD判断为Speech时，可以确定出当前进行语音检测的当前检测帧对应的信号位置。根据该信号位置可以确定出N个参考帧的参考帧信号能量，例如，可以根据该信号位置向前回溯N个帧作为参考帧；还可以根据该信号位置从待检测信号中每隔一帧获取一个参考帧，直至确定出N个参考帧；也可以根据该信号位置向前随机选取N个帧作为参考帧。将确定出的N个参考帧的参考帧信号能量进行平均值计算，可以得到平均帧能量。将当前检测帧信号能量与预设比例的平均帧能量进行对比，如果当前检测帧信号能量大于预设比例的平均帧能量，则目标语音检测结果为待检测信号是语音信号。

示例性装置

在介绍了本公开示例性实施方式的方法之后，接下来，参考图8对本公开示例性实施例的语音检测装置进行说明。

在图8中，语音检测装置800可以包括信号获取模块810、第一结果确定模块820、第二结果确定模块830以及目标结果确定模块840。其中：信号获取模块810，用于获取待检测信号，确定待检测信号对应的全频谱值；第一结果确定模块820，用于根据全频谱值确定待检测信号的偏值平坦度，根据偏值平坦度确定待检测信号的第一语音活动性检测结果；第二结果确定模块830，用于对待检测信号进行语音活动检测，得到第二语音活动性检测结果；目标结果确定模块840，用于根据第一语音活动性检测结果与第二语音活动性检测结果确定待检测信号的目标语音检测结果。

在本公开的一个实施例中，第一结果确定模块还包括第一结果确定单元，用于获取平坦度阈值，将偏值平坦度与平坦度阈值进行对比；如果偏值平坦度大于等于平坦度阈值，则将第一语音活动性检测结果确定为待检测信号是非语音信号；如果偏值平坦度小于平坦度阈值，则将第一语音活动性检测结果确定为待检测信号是语音信号。

由于本公开的示例实施例的语音检测装置的各个功能模块与上述语音检测方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的语音检测方法的实施例，此处不再赘述。

应当注意，尽管在上文详细描述中提及了语音检测装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开实施例的第三方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的语音检测方法。

示例性介质

在介绍了本公开示例性实施方式的装置之后，接下来，参考图9对本公开示例性实施例的存储介质进行说明。

在一些实施例中，本公开的各个方面还可以实现为一种介质，其上存储有程序代码，当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的语音检测方法中的步骤。

例如，所述设备的处理器执行所述程序代码时可以实现如图4中所述的步骤S410，获取待检测信号，确定待检测信号对应的全频谱值。步骤S420，根据全频谱值确定待检测信号的偏值平坦度，根据偏值平坦度确定待检测信号的第一语音活动性检测结果。步骤S430，对待检测信号进行语音活动检测，得到第二语音活动性检测结果。步骤S440，根据第一语音活动性检测结果与第二语音活动性检测结果确定待检测信号的目标语音检测结果。

参考图9所示，描述了根据本公开的实施例的用于实现上述语音检测方法或者实现上述语音检测方法的程序产品900，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备。

示例性计算设备

在介绍了本公开示例性实施方式的语音检测方法、语音检测装置以及存储介质之后，接下来，参考图10对本公开示例性实施方式的电子设备进行说明。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施例中，根据本公开的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的语音检测方法中的步骤。例如，所述处理单元可以执行如图4中所示的步骤步骤S410，获取待检测信号，确定待检测信号对应的全频谱值。步骤S420，根据全频谱值确定待检测信号的偏值平坦度，根据偏值平坦度确定待检测信号的第一语音活动性检测结果。步骤S430，对待检测信号进行语音活动检测，得到第二语音活动性检测结果。步骤S440，根据第一语音活动性检测结果与第二语音活动性检测结果确定待检测信号的目标语音检测结果。

下面参照图10来描述根据本公开的示例实施例的电子设备1000。图10所示的电子设备1000仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：上述至少一个处理单元1001、上述至少一个存储单元1002、连接不同系统组件(包括存储单元1002和处理单元1001)的总线1003、显示单元1007。

总线1003表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元1002可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1021和/或高速缓存存储器1022，还可以进一步包括只读存储器(ROM)1023。

存储单元1002还可以包括具有一组(至少一个)程序模块1024的程序/实用工具1025，这样的程序模块1024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备1000也可以与一个或多个外部设备1004(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与电子设备1000交互的设备通信，和/或与使得电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1005进行。并且，电子设备1000还可以通过网络适配器1006与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1006通过总线1003与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了语音检测装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种语音检测方法，其特征在于，包括：

获取待检测信号，确定所述待检测信号对应的全频谱值；

根据所述全频谱值确定所述待检测信号的偏值平坦度，根据所述偏值平坦度确定所述待检测信号的第一语音活动性检测结果，所述偏值平坦度是对所述待检测信号的频谱加入正数偏移后计算得到的平坦度，所述第一语音活动性检测结果基于所述偏值平坦度与平坦度阈值的对比结果确定；

对所述待检测信号进行语音活动检测，得到第二语音活动性检测结果；

根据所述第一语音活动性检测结果与所述第二语音活动性检测结果确定所述待检测信号的目标语音检测结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述全频谱值确定所述待检测信号的偏值平坦度，包括：

确定所述待检测信号包含的帧信号以及帧信号数量；

对所述帧信号进行频谱转换处理，得到对应的帧信号频谱；

根据所述全频谱值、所述帧信号频谱与所述帧信号数量确定所述偏值平坦度。

3.根据权利要求1所述的方法，其特征在于，所述偏值平坦度包括所述待检测信号中所有帧信号对应的偏值平坦度；所述根据所述偏值平坦度确定所述待检测信号的第一语音活动性检测结果，包括：

获取平坦度阈值，将所述偏值平坦度与所述平坦度阈值进行对比；所述偏值平坦度基于所述待检测信号中各所述帧信号的帧信号频谱确定；

确定目标帧信号，如果所述目标帧信号的偏值平坦度大于等于所述平坦度阈值，则将所述第一语音活动性检测结果确定为所述目标帧信号是非语音信号；

如果所述目标帧信号的偏值平坦度小于所述平坦度阈值，则将所述第一语音活动性检测结果确定为所述目标帧信号是语音信号。

4.根据权利要求1所述的方法，其特征在于，所述对所述待检测信号进行语音活动检测，得到第二语音活动性检测结果，包括：

获取所述待检测信号的帧信号数量，根据所述帧信号数量确定所述待检测信号对应的检测周期时长；

获取所述待检测信号的帧信号频谱，根据所述帧信号频谱确定所述待检测信号的帧信号能量；

根据所述帧信号能量与所述检测周期时长对所述待检测信号进行帧级语音活动检测，得到第二语音活动性检测结果。

5.根据权利要求4所述的方法，其特征在于，所述根据所述帧信号能量与所述检测周期时长对所述待检测信号进行帧级语音活动检测，得到第二语音活动性检测结果，包括：

根据所述检测周期时长确定所述帧级语音活动检测对应的多个检测周期；

确定各所述检测周期对应的最小能量值；

将各所述检测周期内的所述帧信号能量分别与所述最小能量值进行对比，以根据所述能量对比结果确定所述第二语音活动性检测结果。

6.根据权利要求5所述的方法，其特征在于，所述确定各所述检测周期对应的最小能量值，包括：

对多个所述检测周期逐一进行下述处理：

确定当前检测周期，并确定所述当前检测周期的第一临时能量值；所述第一临时能量值基于所述当前检测周期的初始帧信号能量确定；

根据所述初始帧信号能量与所述第一临时能量值确定所述当前检测周期的初始最小能量值；

根据所述当前帧信号能量对所述第一临时能量值进行更新处理，以得到所述当前检测周期的第二临时能量值；

根据所述当前帧信号能量对所述初始最小能量值进行更新处理，以得到所述当前检测周期的最小能量值。

7.根据权利要求5所述的方法，其特征在于，所述将各所述检测周期内的所述帧信号能量分别与所述最小能量值进行对比，以根据所述能量对比结果确定所述第二语音活动性检测结果，包括：

获取预先设定的系数因子，根据所述系数因子与所述最小能量值确定能量阈值；

将各所述帧信号能量分别与所述能量阈值对比；

确定目标帧信号，如果所述帧信号能量小于所述能量阈值，则确定所述第二语音活动性检测结果为所述目标帧信号是非语音信号；

如果所述帧信号能量大于等于所述能量阈值，则确定所述第二语音活动性检测结果为所述目标帧信号是语音信号。

8.根据权利要求1所述的方法，其特征在于，所述根据所述第一语音活动性检测结果与所述第二语音活动性检测结果确定所述待检测信号的目标语音检测结果，包括：

如果所述第一语音活动性检测结果为语音信号且所述第二语音活动性检测结果为语音信号，则所述目标语音检测结果为所述目标帧信号是语音信号；

如果所述第一语音活动性检测结果为语音信号且所述第二语音活动性检测结果为非语音信号，则所述目标语音检测结果为所述目标帧信号是语音信号；

如果所述第一语音活动性检测结果为非语音信号且所述第二语音活动性检测结果为语音信号，则根据当前检测帧的当前检测帧信号能量确定所述目标语音检测结果；

如果所述第一语音活动性检测结果为非语音信号且所述第二语音活动性检测结果为非语音信号，则所述目标语音检测结果为所述目标帧信号是非语音信号。

9.根据权利要求8所述的方法，其特征在于，所述根据当前检测帧的当前检测帧信号能量确定所述目标语音检测结果，包括：

确定所述当前检测帧的信号位置，根据所述信号位置确定目标数量个参考帧以及各所述参考帧的参考帧信号能量；

确定多个所述参考帧信号能量的平均帧能量；

如果所述当前检测帧信号能量大于预设比例的所述平均帧能量，则所述目标语音检测结果为所述目标帧信号是语音信号。

10.一种语音检测装置，其特征在于，包括：

信号获取模块，用于获取待检测信号，确定所述待检测信号对应的全频谱值；

第一结果确定模块，用于根据所述全频谱值确定所述待检测信号的偏值平坦度，根据所述偏值平坦度确定所述待检测信号的第一语音活动性检测结果，所述偏值平坦度是对所述待检测信号的频谱加入正数偏移后计算得到的平坦度，所述第一语音活动性检测结果基于所述偏值平坦度与平坦度阈值的对比结果确定；

第二结果确定模块，用于对所述待检测信号进行语音活动检测，得到第二语音活动性检测结果；

目标结果确定模块，用于根据所述第一语音活动性检测结果与所述第二语音活动性检测结果确定所述待检测信号的目标语音检测结果。

11.根据权利要求10所述的装置，其特征在于，第一结果确定模块包括平坦度确定单元，用于确定所述待检测信号包含的帧信号以及帧信号数量；

对所述帧信号进行频谱转换处理，得到对应的帧信号频谱；

12.根据权利要求10所述的装置，其特征在于，第一结果确定模块还包括第一结果确定单元，用于获取平坦度阈值，将所述偏值平坦度与所述平坦度阈值进行对比；所述偏值平坦度包括所述待检测信号中所有帧信号对应的偏值平坦度，所述偏值平坦度基于所述待检测信号中各所述帧信号的帧信号频谱确定；

如果所述偏值平坦度大于等于所述平坦度阈值，则将所述第一语音活动性检测结果确定为所述待检测信号是非语音信号；

如果所述偏值平坦度小于所述平坦度阈值，则将所述第一语音活动性检测结果确定为所述待检测信号是语音信号。

13.根据权利要求10所述的装置，其特征在于，第二结果确定模块包括第二结果确定单元，用于获取所述待检测信号的帧信号数量，根据所述帧信号数量确定所述待检测信号对应的检测周期时长；

14.根据权利要求13所述的装置，其特征在于，第二结果确定单元包括第二结果确定子单元，用于根据所述检测周期时长确定所述帧级语音活动检测对应的多个检测周期；

确定各所述检测周期对应的最小能量值；

15.根据权利要求14所述的装置，其特征在于，第二结果确定子单元包括能量值确定子单元，用于对多个所述检测周期逐一进行下述处理：

16.根据权利要求14所述的装置，其特征在于，第二结果确定子单元包括能量值对比子单元，用于获取预先设定的系数因子，根据所述系数因子与所述最小能量值确定能量阈值；

将各所述帧信号能量分别与所述能量阈值对比；

17.根据权利要求10所述的装置，其特征在于，目标结果确定模块包括目标结果确定单元，用于如果所述第一语音活动性检测结果为语音信号且所述第二语音活动性检测结果为语音信号，则所述目标语音检测结果为所述目标帧信号是语音信号；

18.根据权利要求17所述的装置，其特征在于，目标结果确定单元包括目标结果确定子单元，用于确定所述当前检测帧的信号位置，根据所述信号位置确定目标数量个参考帧以及各所述参考帧的参考帧信号能量；

确定多个所述参考帧信号能量的平均帧能量；

19.一种电子设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至9中任意一项所述的语音检测方法。

20.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任意一项所述的语音检测方法。