CN115862685B

CN115862685B - 一种实时语音活动的检测方法、装置和电子设备

Info

Publication number: CN115862685B
Application number: CN202310169414.6A
Authority: CN
Inventors: 梁民; 付永强
Original assignee: G Net Cloud Service Co Ltd
Current assignee: G Net Cloud Service Co Ltd
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-09-15
Anticipated expiration: 2043-02-27
Also published as: CN115862685A

Abstract

本申请实施例公开了一种实时语音活动的检测方法、装置和电子设备，其方法包括：获取低信噪比环境和／或非平稳背景噪声环境下的数字信号所对应的当前帧的短时幅度谱改进型自相关函数积累统计量；根据当前帧的短时幅度谱改进型自相关函数积累统计量和预设更新模型计算对应的当前帧的语音活动检测判决参数；以及将当前帧的短时幅度谱改进型自相关函数积累统计量、当前帧的语音活动检测判决参数和当前帧的前一帧的语音活动检测判决结果指示信号均输入至预设判决决策模型中，输出当前帧的语音活动检测判决结果指示信号，以通过当前帧的判决指示信号指示当前低信噪比环境和／或非平稳背景噪声环境下是否有语音信号。

Description

一种实时语音活动的检测方法、装置和电子设备

技术领域

本发明涉及语音检测技术领域，具体涉及一种实时语音活动的检测方法、装置、存储介质、电子设备和计算机程序产品。

背景技术

语音处理应用中的一个重要问题是识别或区分输入信号中的语音和非语音区域。鉴于语音和/或背景噪声的非平稳性质，语音和非语音区域之间的确定将存在很多挑战。用于检测语音区域是否存在的算法称为VAD（Voice Activity Detection，语音活动检测）。VAD在诸如语音编码、语音识别、语音增强等语音信号处理的应用领域中发挥着重要作用，其准确性会直接影响到相关应用系统的性能，因此，受到了相关学术界和工业界的高度关注和广泛研究，并涌现出大量行之有效的技术方法。然而，这些VAD技术方法在噪声干扰的运行环境中，特别是低SNR（Signal-to-Noise-Ratio，信噪比）非平稳的噪声条件下，其性能将急剧恶化。为此，需要继续研究和探索一种新的VAD技术，特别是低SNR和非平稳噪声条件下能有效进行语音活动检测的技术，是必要的。

典型VAD算法的核心均由特征提取和决策机制这两个模块构成，特征提取模块从给定的待检测输入信号帧中提取能够有效区分语音和非语音的声学特征信息，而决策机制则使用提取的这些特征信号和一组决策规则，做出该信号帧是语音决策或非语音的决策。迄今为止，业界已提出了许多利用语音和背景噪声之间不同特性的各种特征参数。早期的VAD算法采用逐帧短时能量和过零率作为信号特征，然而该VAD算法的性能在低信噪比和/或非平稳背景噪声下会急剧恶化。于是，人们提出了采用诸如低估计方差的频谱、语音浊音准周期性（例如，短时自相关系数、平均幅度差函数和短时倒谱系数等）、子带域功率、高阶统计量和基于短时归一化频谱的负熵以及LRT（Likelihood Ratio Test，似然比检验）等一些较为鲁棒的声学特征；基于这些特征的VAD算法大都假设背景噪声在一定时期内是平稳的，因此，它们对观测信号的SNR变化很敏感；在平稳噪声和SNR高于10 dB的情况下，均可较好地工作；但在较低信噪比或非平稳背景噪声的情况，其性能较差。最近，有关学者提出采用LTSI（Long-term speech information，长时语音信息）作为VAD的声学特征，以进一步提高VAD算法的性能，特别是低信噪比和/或非平稳背景噪声条件下的鲁棒性。LTSI中最为代表性的特征是：LTSD（Long-Term Spectral Divergence，长时频谱散度）、LTSV（Long-TermSignal Variability，长时信号变异性）、LSFM（Long-term Spectral Flatness Measure，长时频谱平坦性测度）和FLDE（Frequency domain Long-term Differential Entropy，频域长时差分熵）。基于上述这些LTSI特征的VAD算法，如同基于似然比检验的VAD算法一样，均依赖于“非语音开始”的假设条件，该假设条件即：待处理的信号总是以若干“非语音”信号帧开始的。VAD算法首先基于这一假设来进行初始化，然后再将其后续每一帧的“语音/非语音”判别结果反馈给初始化过程中的相关变量进行更新处理。

这种“非语音开始”的假设，在实际应用中存在缺陷。存在的缺陷具体为：如果待处理信号以“语音信号”开始，则“非语音开始”的假设将不满足，从而产生无效的初始化过程，由此，会造成VAD此时出现严重的漏检，并且后续可能会导致更多的错误。此外，现有的典型VAD算法在噪声背景下其性能急剧恶化，对运行环境中的噪声鲁棒性极差。

另外，为克服VAD上述这一缺陷，一种基于无监督学习框架的新型 VAD便应运而生。该VAD算法工作在频域，并采用一个序贯的GMM（Gaussian Mixture Models，高斯混合模型）在每个频段实现无监督学习，其中应用“EM（Expectation-Maximum，期望-最大化）”算法来初始化，以及通过更新过程来进行增量学习；该GMM中有两个分量，这两个分量分别代表语音分布和非语音分布。根据GMM模型，可产生一个自我调节阈值来区分每个子带的语音/非语音；所有频段的判别结果通过投票程序进行汇总。

上述基于无监督学习框架的新型 VAD虽然克服现有VAD算法所存在的缺陷，但其初始化学习过程需要较长的时间（通常大于 500 ms），此外，整个算法的计算复杂度较大，因此，无法在实际应用中实时实现，尤其是在商用的信号处理器上无法做到实时地在线实现。

发明内容

基于此，有必要针对基于现有的检测方法，在低信噪比环境和／或非平稳背景噪声环境下，无法实现对语音活动的精准检测的问题，提供一种实时语音活动的检测方法、装置、存储介质、电子设备和计算机程序产品。

第一方面，本申请实施例提供了一种实时语音活动的检测方法，所述方法包括：

获取低信噪比环境和／或非平稳背景噪声环境下的数字信号所对应的当前帧的短时幅度谱改进型自相关函数积累统计量；

根据当前帧的短时幅度谱改进型自相关函数积累统计量和预设更新模型计算对应的当前帧的语音活动检测判决参数；

获取当前帧的前一帧的语音活动检测判决结果；

将当前帧的短时幅度谱改进型自相关函数积累统计量、当前帧的语音活动检测判决参数和当前帧的前一帧的语音活动检测判决结果指示信号均输入至预设判决决策模型中，输出当前帧的语音活动检测判决结果指示信号，以通过当前帧的语音活动检测判决结果指示信号指示当前低信噪比环境和／或非平稳背景噪声环境下是否有语音信号。

第二方面，本申请实施例提供了一种实时语音活动的检测装置，所述装置包括：

第一获取模块，用于获取低信噪比环境和／或非平稳背景噪声环境下的数字信号所对应的当前帧的短时幅度谱改进型自相关函数积累统计量；

计算模块，用于根据当前帧的短时幅度谱改进型自相关函数积累统计量和预设更新模型计算对应的当前帧的语音活动检测判决参数；

第二获取模块，用于获取当前帧的前一帧的语音活动检测判决结果；

处理模块，用于将当前帧的短时幅度谱改进型自相关函数积累统计量、当前帧的语音活动检测判决参数和当前帧的前一帧的语音活动检测判决结果指示信号均输入至预设判决决策模型中，输出当前帧的语音活动检测判决结果指示信号，以通过当前帧的语音活动检测判决结果指示信号指示当前低信噪比环境和／或非平稳背景噪声环境下是否有语音信号。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现上述的方法步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行上述的方法步骤。

在本申请实施例中，获取低信噪比环境和／或非平稳背景噪声环境下的数字信号所对应的当前帧的短时幅度谱改进型自相关函数积累统计量；根据当前帧的短时幅度谱改进型自相关函数积累统计量和预设更新模型计算对应的当前帧的语音活动检测判决参数；获取当前帧的前一帧的语音活动检测判决结果指示信号；以及将当前帧的短时幅度谱改进型自相关函数积累统计量、当前帧的语音活动检测判决参数和当前帧的前一帧的语音活动检测判决结果指示信号均输入至预设判决决策模型中，输出当前帧的语音活动检测判决结果指示信号，以通过当前帧的语音活动检测判决结果指示信号指示当前低信噪比环境和／或非平稳背景噪声环境下是否有语音信号。本申请实施例提供的实时语音活动的检测方法，由于引入了预设判决决策模型，将当前帧的短时幅度谱改进型自相关函数积累统计量、当前帧的语音活动检测判决参数和当前帧的前一帧的语音活动检测判决结果指示信号均输入至预设判决决策模型中，能够输出当前帧的语音活动检测判决结果指示信号，以通过当前帧的判决指示信号指示当前低信噪比环境和／或非平稳背景噪声环境下是否有语音信号，该检测方法的检测概率高、误检概率低，对噪声的鲁棒性好；此外，该检测方法的计算复杂度低，因而能够做到实时检测。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为具体应用场景下的用于确定语音活动检测自适应语音活动检测判决参数所对应的流程示意图；

图2为根据本申请一示例性实施例提供的实时语音活动的检测方法的流程图；

图3为具体应用场景下实时语音活动的检测方法的流程图；

图4为根据本申请一示例性实施例提供的实时语音活动的检测装置400的结构示意图；

图5示出了本申请一示例性实施例提供的一种电子设备的示意图；

图6示出了本申请一示例性实施例提供的一种计算机可读介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种实时语音活动的检测方法及装置、一种电子设备以及计算机可读介质，下面结合附图进行说明。

本申请实施例提供的实时语音活动的检测方法为低复杂度自动实时语音活动检测方法。该检测方法的技术构思是：理论研究和仿真实验均表明：浊音（即有声语音）信号的短时频谱与其频谱自相关函数具有相同的周期性和精细谐波结构，而轻音（即无声语音）信号短时频谱虽然没有显示任何谐波结构，但其频谱自相关函数也具有一定程度上的周期性。那么，在频域中通过抽取能充分表征语音信号短时能量及其频谱自相关函数周期性的这一综合信息、并将它用作区分语音信号与背景噪声的特征，便可完成VAD的任务。

为了更好地理解本申请实施例提供的实时语音活动的检测方法，如下为具体应用场景下的实时语音活动的检测方法的实例，具体如下所述：

设有麦克风接收信号x(n)，它可以表述为：

式（1）；

在上述式（1）中，v(n)为背景噪声信号，s(n)为语音信号，并且假设v(n)和s(n)统计不相关。

将信号x(n)作分帧处理和短时傅里叶变换，可获得下述的短时频谱信号X(k,t)：

式（2）；

在上述式（2）中，其中k = 0, 1, 2, …, N-1、t = 0, 1, 2, …，和n = 0, 1, 2,…, N-1,分别为频点索引、信号帧索引和样本索引；w( )为N个样本长度的窗函数，通常可选为Hamming、Hanning和Blackman窗函数；x(n, t)为第t帧信号段中的第n个样本，即：

式（3）；

在上述式（3）中，L为信号的帧移长度，单位为样本。

根据上述式（1）和式（2），可知：

式（4）；

在上述式（4）中，S(k, t)为语音短时频谱，V(k, t)为背景噪声短时频谱, 并且S(k, t)与V(k, t)统计不相关。

众所周知，任一信号的短时能量及其短时频谱的谐波结构信息通常由其幅度谱的自相关函数来描述，该相关函数在数学上定义为：

式（5）；

在上述式（5）中，m = 0，1，2，…，K，是频点索引k的频点滞后；为不大于N/2的最大正整数。

在S(k, t)与V(k, t)统计不相关条件下，根据上述式（4）和式（5）式，易知：

式（6）；

在上述式（6）中，和/>分别为语音信号和背景噪声信号的幅度谱的自相关函数，即：

式（7）；

式（8）；

理论研究分析和仿真实验表明：对纯净的浊音信号频谱S(k, t)而言，它的频谱幅度在其基频 (即基音周期的倒数)和谐波频率/> (这里q = 2, 3, 4,…Q)所对应的频点索引/>处均存在显著的峰值(这里/>，/>为信号采样频率，/>为基频/>对应的频点索引，/>表示不大于x值的最大正整数)，这便使得其幅度谱相关函数在m =/>（p = 0, 1, 2, …, Q）处均存在局部的最大值，而在其它的m点(即非谐波频点索引)处均取值较小，其中，/>比例于浊音信号在第t帧时的短时能量。那么，一种直观的想法便是：把浊音信号的/>对其所有频点滞后变量m进行累加运算，由此，可获得一个能有效地度量和表征该信号短时能量及其谐波结构特性的综合信息特征。因此，该特征为浊音信号幅度谱相关函数/>的积累统计量，并记为/>，即：

式（9）；

其中，浊音信号的值较大。对轻音信号而言，虽然，其短时幅度谱没有显示任何谐波结构，但在多次的仿真实验研究中发现：其幅度谱自相关函数却存在一定程度上的周期性。因而，轻音信号短时幅度谱自相关函数积累统计量的数值同样也较大。

然而，对背景噪声信号频谱V(k, t)而言，由于其随机性和非周期性，故在/>处的取值均很小，它仅在m=0处有局部峰值，该值比例于背景噪声信号在第t帧的短时能量。

考虑到麦克风接收信号短时频谱X(k,t)的相关函数积累统计量可表述为：

式（10）；

在上述式（10）中，可以将视为一个声学特征，并据此来进行语音活动检测。

应该指出的是，对含有背景噪声的浊音信号频谱而言，由于非零本底噪声幅度谱的存在，致使上述式（5）定义的这种传统幅度谱自相关函数，在一些非谐波频点索引处将会产生一定强度的非正常局部峰值，这便严重地影响了基于相关函数累统计量特征的VAD算法性能。为克服上述式（5）的上述这一缺陷，本申请实施例提供的检测方法提出了一种新型幅度谱自相关函数，并称之为“IACF（Improvedautocorrelation function，改进型自相关函数）”。对短时幅度谱|X(k, t)|而言，其改进型自相关函数/>定义为：

式（11）；

其中，mod(k+m, K+1)为k+m对（K+1）的取模运算符，其可能的结果为0, 1, 2, …,K；m=0,1,2,…, K。

上述式（11）定义的这种短时幅度谱改进型自相关函数如同上述式（5）定义的传统短时幅度谱自相关函数/>一样，在/>处均有局部最大值，而在其它非谐波频点索引对应的m处，/>均取较小的本底噪声功率谱，从而达到“在加强谐波成分的同时，也抑制了非谐波成分”的效果；实际的仿真实验也充分证实了这一特性。记“改进型自相关函数”积累统计量为/>，则有：

式（12）；

其中和/>分别为第t帧的语音信号和背景噪声短时幅度谱改进型自相关函数积累统计量。

通过上述式（12），表明：在语音信号出现时，麦克风接收信号短时幅度谱X(k，t)改进型自相关函数积累统计量取值较大；而在无语音信号（即仅有背景噪声）时，该积累统计量取值较小。因此，可以通过选择一个比例于背景噪声/>的判决参数来鉴别当前信号帧是否有语音存在。

在本申请实施例提供的检测方法中，提供一种基于判决参数构成的双门限VAD决策机制，即：

式（13）；

在上述式（13）中，vadFlag(t)为VAD的第t帧输出的二元型判决结果指示信号，其值为“1”时表示有语音信号，而其值为“0”时则表示无语音信号；和/>分别为第t帧VAD的高判决门限和低判决门限，这里，/>为第t帧的VAD（自适应）判决参数，α > β > 0分别为预设的高判决门限和低判决门限的系数。

上述式（13）中的自适应判决参数可以通过应用降噪处理技术中噪声功率谱估计的相关算法思想来确定。本申请实施例提供的检测方法，采用Martin提出的最小统计量的计算思想来构造求取VAD（自适应）判决参数/>的算法。具体地，设有第t帧改进型自相关函数积累统计量为/>，采用两个短时跟踪窗W1和W2以及一个长时更新窗W，来跟踪与更新有关变量，以便确定其长时最小统计量。这三个窗的职责分别是：

跟踪窗W1：基于当前帧t的来跟踪更新其第一最小统计量/>，即：

式（14）；

跟踪窗W2：基于前一帧的长时最小统计量和上述更新的第一最小统计量/>来跟踪更新当前帧的长时最小统计量/>，即：

式（15）；

长时更新窗W：在进入长时更新窗W的当前帧时刻，作以下的更新处理：

处理1：用前一帧的第一最小统计量来更新当前帧的第二最小统计量/>，以便记忆第一最小统计量的历史；即：

式（16）；

处理2：用当前帧的来更新当前帧的第一最小统计量/>，即：

式（17）；

处理3：基于当前帧的和前一帧的第一最小统计量/>与其第二最小统计量/>来更新当前帧的长时最小统计量/>，即：

式（18）；

那么，第t帧时刻的VAD自适应判决参数为：

式（19）；

求解VAD自适应判决参数算法的具体工程实现，详见图1所示的该算法程序流程示意图，其中，N为信号帧长度，/>为不大于N/2的最大正整数；为计数器的更新周期参数（单位为信号帧），这里L为帧移长度（单位为样本），/>输入信号的采样频率（单位为赫兹），/>为计数器的更新周期所对应的时间周期（单位为秒）；RAIL为麦克风接收信号x(n)允许的最大电平值，例如，对归一化的麦克风接收信号而言，其RAIL=1；而对非归一化的麦克风接收信号而言，若模-数转换器的比特位宽是B比特，那么，此时的/>。

针对上述图1的流程处理过程做如下说明：

在图1中，先读取第t帧的输入；

再判断：在当前低信噪比环境和／或非平稳背景噪声环境下，cnt是否大于或等于，其中，/>为计数器的更新周期参数（单位为信号帧）；

根据不同的判断结果，采用不同的处理流程，具体如下所述：

处理流程1：响应于判断出：cnt大于或等于，通过复位计数器对cnt进行重置，将其置为零，然后分别用上述（16）式、（17）式和（18）式来更新第二最小统计量、第一最小统计量和长时最小统计量。

用上述（19）式来计算更新VAD自适应判断参数，并将之输出。

处理流程2：响应于判断出：cnt小于，分别用上述（14）式和上述（15）式来更新第一最小统计量/>和长时最小统计量/>。

针对图1的其它相关描述，参见前述相同或相似部分的描述，尤其对应的各个公式的详细描述，参见前述相同或相似部分的描述，在此不再赘述。

请参考图2，其示出了本申请的一些实施方式所提供的一种实时语音活动的检测方法的流程图，如图所示，实时语音活动的检测方法可以包括以下步骤：

步骤S201：获取低信噪比环境和／或非平稳背景噪声环境下的数字信号所对应的当前帧的短时幅度谱改进型自相关函数积累统计量。

在一种可能的实现方式中，获取低信噪比环境下的数字信号所对应的当前帧的短时幅度谱改进型自相关函数积累统计量，包括：

接收低信噪比环境和／或非平稳背景噪声环境下的数字信号；

对数字信号分别进行重叠分帧处理和短时傅里叶变换处理，得到对应的当前帧的短时频谱；

根据当前帧的短时频谱和预设方式计算对应的当前帧的短时幅度谱改进型自相关函数积累统计量。

在某一具体应用场景中，根据当前帧的短时频谱和预设方式计算对应的当前帧的短时幅度谱改进型自相关函数积累统计量的过程具体如下所述：

考虑到麦克风接收信号短时频谱X(k, t)的相关函数积累统计量可表述为：

式（10）；

式（11）；

式（12）；

其中，和/>分别为第t帧的语音信号和背景噪声短时幅度谱改进型自相关函数积累统计量。

通过上述式（12），表明：在语音信号出现时，麦克风接收信号短时幅度谱X(k，t)改进型自相关函数积累统计量取值较大；而在无语音信号（即仅有背景噪声）时，该积累统计量取值较小。因此，可以通过选择一个比例于背景噪声/>的判决参数/>来鉴别当前信号帧是否有语音存在。

针对式（5）、式（10）、式（11）和式（12）的相关描述，参见前述相同或相似部分的描述，尤其对应的各个公式的详细描述，参见前述相同或相似部分的描述，在此不再赘述。

步骤S202：根据当前帧的短时幅度谱改进型自相关函数积累统计量和预设更新模型计算对应的当前帧的语音活动检测判决参数。

如图1所示，为具体应用场景下的用于确定语音活动检测自适应语音活动检测判决参数所对应的流程示意图。

在某一具体应用场景中，根据当前帧的短时幅度谱改进型自相关函数积累统计量和预设更新模型计算对应的当前帧的语音活动检测判决参数的过程可以通过参见如图1所示的流程来实现。

针对上述图1的流程处理过程做如下说明：

在图1中，先读取第t帧的输入；

针对式（14）、式（16）、式（17）、式（18）和式（19）的相关描述，参见前述相同或相似部分的描述，尤其对应的各个公式的详细描述，参见前述相同或相似部分的描述，在此不再赘述。

在一种可能的实现方式中，根据当前帧的短时幅度谱改进型自相关函数积累统计量和预设更新模型计算对应的当前帧的语音活动检测判决参数，预设更新模型包括通过第一跟踪窗和第二跟踪窗实现跟踪更新的第一预设更新子模型，包括：

响应于当前环境满足采用第一预设更新子模型，通过第一跟踪窗，对当前帧的语音活动检测判决参数进行更新处理，基于当前帧的短时幅度谱改进型自相关函数积累统计量，跟踪更新对应的当前帧的第一最小统计量；

获取当前帧的前一帧的长时最小统计量；

通过所述第二跟踪窗，根据当前帧的前一帧的长时最小统计量和当前帧的第一最小统计量，跟踪更新当前帧的长时最小统计量；

基于当前帧的长时最小统计量，对当前帧的语音活动检测判决参数进行自适应更新计算，得到对应的当前帧的语音活动检测判决参数。

需要说明的是，在实际应用场景中，上述步骤可以通过两个短时跟踪窗W1和W2实现，具体实现过程如下所述：

式（14）；

式（15）；

那么，第t帧时刻的VAD自适应判决参数为：

式（19）；

针对式（14）、式（15）和式（19）的相关描述，参见前述相同或相似部分的描述，尤其对应的各个公式的详细描述，参见前述相同或相似部分的描述，在此不再赘述。

在一种可能的实现方式中，根据当前帧的短时幅度谱改进型自相关函数积累统计量和预设更新模型计算对应的当前帧的语音活动检测判决参数，预设更新模型还包括通过第三跟踪窗实现跟踪更新的第二预设更新子模型，还包括以下步骤：

响应于当前环境满足采用第二预设更新子模型，通过第三跟踪窗，对当前帧的语音活动检测判决参数进行更新处理，读取当前帧的前一帧的第一最小统计量；

基于当前帧的前一帧的第一最小统计量更新当前帧的第二最小统计量；

基于当前帧的短时幅度谱改进型自相关函数积累统计量更新当前帧的第一最小统计量；

基于当前帧的短时幅度谱改进型自相关函数积累统计量、当前帧的前一帧的第一最小统计量和当前帧的前一帧的第二最小统计量，更新当前帧的长时最小统计量；

基于当前帧的长时最小统计量，对当前帧的语音活动检测判决参数进行自适应更新计算，得到对应的当前帧的语音活动检测判决参数，其中，第一跟踪窗对应的第一更新周期、第二跟踪窗对应的第二更新周期，均小于第三跟踪窗对应的第三更新周期。

需要说明的是，在实际应用场景中，上述步骤可以通过一个长时更新窗W实现，具体实现过程具体如下所述：

式（16）；

处理2：用当前帧的来更新当前帧的第一最小统计量/>，即：

式（17）；

式（18）；

那么，第t帧时刻的VAD自适应判决参数为：

式（19）；

针对式（16）、式（17）、式（18）和式（19）的相关描述，参见前述相同或相似部分的描述，尤其对应的各个公式的详细描述，参见前述相同或相似部分的描述，在此不再赘述。

步骤S203：获取当前帧的前一帧的语音活动检测判决结果指示信号。

步骤S204：将当前帧的短时幅度谱改进型自相关函数积累统计量、当前帧的语音活动检测判决参数和当前帧的前一帧的语音活动检测判决结果指示信号均输入至预设判决决策模型中，输出当前帧的语音活动检测判决结果指示信号，以通过当前帧的语音活动检测判决结果指示信号指示当前低信噪比环境和／或非平稳背景噪声环境下是否有语音信号。

在实际应用场景中，本申请实施例提供的检测方法，提供一种基于判决参数构成的双门限VAD决策机制，即：

式（13）；

在上述式（13）中，vadFlag(t)为VAD的第t帧输出的二元型判决结果指示信号，其值为“1”时表示有语音信号，而其值为“0”时则表示无语音信号；和分别为第t帧VAD的高判决门限和低判决门限，这里，/>为第t帧的VAD（自适应）判决参数，/>分别为预设的高判决门限和低判决门限的系数。

针对式（13）的相关描述，参见前述相同或相似部分的描述，参见前述相同或相似部分的描述，在此不再赘述。

在一种可能的实现方式中，通过当前帧的语音活动检测判决结果指示信号指示当前低信噪比环境和／或非平稳背景噪声环境下是否有语音信号，包括以下步骤：

在满足第一预设条件的情况下，第一预设条件为：当前帧的前一帧的语音活动检测判决结果指示信号为0、当前帧的短时幅度谱改进型自相关函数积累统计量大于第一判决门限，输出当前帧的语音活动检测判决结果指示信号为1，以指示当前低信噪比环境和／或非平稳背景噪声环境下存在有语音信号。

在实际应用场景中，可以通过如下方式就可以精准地确定出当前低信噪比环境和／或非平稳背景噪声环境下存在有语音信号：

vadFlag(t) = 1，若；

针对上述式的相关描述，参见前述相同或相似部分的描述，参见前述相同或相似部分的描述，在此不再赘述。

在一种可能的实现方式中，通过当前帧的判决结果指示信号指示当前低信噪比环境和／或非平稳背景噪声环境下是否有语音信号，还包括以下步骤：

在满足第二预设条件的情况下，第二预设条件为：当前帧的前一帧的语音活动检测判决结果指示信号为1、且当前帧的短时幅度谱改进型自相关函数积累统计量小于第二判决门限的情况下，输出当前帧的语音活动检测判决结果指示信号为0，以指示当前低信噪比环境和／或非平稳背景噪声环境下无语音信号，其中，第一判决门限大于第二判决门限。

vadFlag(t) = 0，若；

在不满足第一预设条件并且不满足第二预设条件的情况下，输出当前帧的语音活动检测判决结果指示信号，以指示当前低信噪比环境和／或非平稳背景噪声环境下是否存在语音信号，其中，当前帧的语音活动检测判决结果指示信号与当前帧的前一帧的语音活动检测判决结果指示信号保持一致。

如图3所示，为具体应用场景下实时语音活动的检测方法的流程图。

针对如图3所示的流程做如下说明：

根据上述式（13）进行语音活动检测的判决，并输出语音活动检测判决结果指示信号vadFlag(t)，以通过该输出的语音活动检测判决结果指示信号指示当前低信噪比环境下是否有语音信号。

在实际应用场景中，通过上述输出的语音活动检测判决结果指示信号指示当前低信噪比环境下是否有语音信号过程具体如下所述：

当前低信噪比环境下存在有语音信号的判断过程：

当前低信噪比环境下存在无语音信号的判断过程：

此外，在不满足第一预设条件并且不满足第二预设条件的情况下，输出当前帧的语音活动检测判决结果指示信号，以指示当前低信噪比环境和／或非平稳背景噪声环境下是否存在语音信号，其中，当前帧的语音活动检测判决结果指示信号与当前帧的前一帧的语音活动检测判决结果指示信号保持一致。

通过上述判断过程，就可以直观且精准地判断出当前低信噪比环境下是否有语音信号。

针对图3的其它相关描述，参见前述相同或相似部分的描述，尤其对应的各个公式的详细描述，参见前述相同或相似部分的描述，在此不再赘述。

本申请实施例提供的实时语音活动的检测方法，由于引入了预设判决决策模型，将当前帧的短时幅度谱改进型自相关函数积累统计量、当前帧的语音活动检测判决参数和当前帧的前一帧的语音活动检测判决结果指示信号均输入至预设判决决策模型中，能够输出当前帧的语音活动检测判决结果指示信号，以通过当前帧的语音活动检测判决结果指示信号指示当前低信噪比环境和／或非平稳背景噪声环境下是否有语音信号，该检测方法的检测概率高、误检概率低，对噪声的鲁棒性好；此外，该检测方法的计算复杂度低，因而能够做到实时检测。该检测方法不仅仅适应于低信噪比环境和／或非平稳背景噪声环境下，还可以适应于其它环境中，均可以精准地识别出当前环境下是否存在语音信号。另外，该检测方法无需对输入信号做出“非语音开始”的假设条件，因而对现有检测方法所对应的算法进行了进一步地简化处理，使其能够适用于更多的实际应用场景中。

在上述的实施例中，提供了一种实时语音活动的检测方法，与之相对应的，本申请还提供一种实时语音活动的检测装置。本申请实施例提供的实时语音活动的检测装置可以实施上述实时语音活动的检测方法，该实时语音活动的检测装置可以通过软件、硬件或软硬结合的方式来实现。例如，该实时语音活动的检测装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。

请参考图4，其示出了本申请的一些实施方式所提供的一种实时语音活动的检测装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图4所示，该实时语音活动的检测装置400可以包括：

第一获取模块401，用于获取低信噪比环境和／或非平稳背景噪声环境下的数字信号所对应的当前帧的短时幅度谱改进型自相关函数积累统计量；

计算模块402，用于根据当前帧的短时幅度谱改进型自相关函数积累统计量和预设更新模型计算对应的当前帧的语音活动检测判决参数；

第二获取模块403，用于获取当前帧的前一帧的语音活动检测判决结果；

处理模块404，用于将当前帧的短时幅度谱改进型自相关函数积累统计量、当前帧的语音活动检测判决参数和当前帧的前一帧的语音活动检测判决结果指示信号均输入至预设判决决策模型中，输出当前帧的语音活动检测判决结果指示信号，以通过当前帧的语音活动检测判决结果指示信号指示当前低信噪比环境和／或非平稳背景噪声环境下是否有语音信号。

在本申请实施例的一些实施方式中，处理模块403具体用于：

在本申请实施例的一些实施方式中，处理模块403还具体用于：

在本申请实施例的一些实施方式中，获取模块401具体用于：

在本申请实施例的一些实施方式中，预设更新模型包括通过第一跟踪窗和第二跟踪窗实现跟踪更新的第一预设更新子模型，计算模块402具体用于：

获取当前帧的前一帧的长时最小统计量；

在本申请实施例的一些实施方式中，预设更新模型还包括通过第三跟踪窗实现跟踪更新的第二预设更新子模型，计算模块402还具体用于：

在本申请实施例的一些实施方式中本申请实施例提供的实时语音活动的检测装置400，与本申请前述实施例提供的实时语音活动的检测方法出于相同的发明构思，具有相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的实时语音活动的检测方法对应的电子设备，电子设备可以是用于服务端的电子设备，例如服务器，包括独立的服务器和分布式服务器集群等，以执行上述实时语音活动的检测方法；电子设备也可以是用于客户端的电子设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行上述实时语音活动的检测方法。

请参考图5，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图5所示，电子设备40包括：处理器400，存储器401，总线402和通信接口403，处理器400、通信接口403和存储器401通过总线402连接；存储器401中存储有可在处理器400上运行的计算机程序，处理器400运行计算机程序时执行本申请前述的实时语音活动的检测方法。

其中，存储器401可能包含高速随机存取存储器（RAM：Random Access Memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个通信接口403（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线402可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中，存储器401用于存储程序，处理器400在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的实时语音活动的检测方法可以应用于处理器400中，或者由处理器400实现。

处理器400可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器400中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器400可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401，处理器400读取存储器401中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的实时语音活动的检测方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的实时语音活动的检测方法对应的计算机可读介质，请参考图6，其示出的计算机可读存储介质为光盘50，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会执行前述实时语音活动的检测方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的实时语音活动的检测方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims

1.一种实时语音活动的检测方法，包括：

获取当前帧的前一帧的语音活动检测判决结果指示信号；

将当前帧的短时幅度谱改进型自相关函数积累统计量、当前帧的语音活动检测判决参数和当前帧的前一帧的语音活动检测判决结果指示信号均输入至预设判决决策模型中，输出当前帧的语音活动检测判决结果指示信号，以通过当前帧的语音活动检测判决结果指示信号指示当前低信噪比环境和／或非平稳背景噪声环境下是否有语音信号；

其中，将信号x(n)作分帧处理和短时傅里叶变换，可获得下述的短时频谱信号X(k,t)：

；

在上述式中，其中k = 0, 1, 2, …, N-1、t = 0, 1, 2, …，和n = 0, 1, 2, …, N-1,分别为频点索引、信号帧索引和样本索引；w()为N个样本长度的窗函数，x(n, t)为第t帧信号段中的第n个样本；

改进型自相关函数定义为：

式（11）；

其中，mod(k+m, K+1)为k+m对（K+1）的取模运算符，其可能的结果为0, 1, 2, …, K；m=0,1,2,…, K；

改进型自相关函数积累统计量为为

；

所述通过当前帧的语音活动检测判决结果指示信号指示当前低信噪比环境和／或非平稳背景噪声环境下是否有语音信号，包括：

在满足第一预设条件的情况下，所述第一预设条件为：当前帧的前一帧的语音活动检测判决结果指示信号为0、当前帧的短时幅度谱改进型自相关函数积累统计量大于第一判决门限，输出当前帧的语音活动检测判决结果指示信号为1，以指示当前低信噪比环境和／或非平稳背景噪声环境下存在有语音信号；

所述通过当前帧的语音活动检测判决结果指示信号指示当前低信噪比环境和／或非平稳背景噪声环境下是否有语音信号，还包括：

在满足第二预设条件的情况下，所述第二预设条件为：当前帧的前一帧的语音活动检测判决结果指示信号为1、且当前帧的短时幅度谱改进型自相关函数积累统计量小于第二判决门限的情况下，输出当前帧的语音活动检测判决结果指示信号为0，以指示当前低信噪比环境和／或非平稳背景噪声环境下无语音信号，其中，所述第一判决门限大于所述第二判决门限；

在不满足所述第一预设条件并且不满足所述第二预设条件的情况下，输出当前帧的语音活动检测判决结果指示信号，以指示当前低信噪比环境和／或非平稳背景噪声环境下是否存在语音信号，其中，当前帧的语音活动检测判决结果指示信号与当前帧的前一帧的语音活动检测判决结果指示信号保持一致。

2.根据权利要求1所述的方法，其中，所述获取低信噪比环境下的数字信号所对应的当前帧的短时幅度谱改进型自相关函数积累统计量，包括：

对所述数字信号分别进行重叠分帧处理和短时傅里叶变换处理，得到对应的当前帧的短时频谱；

3.根据权利要求1所述的方法，其中，所述根据当前帧的短时幅度谱改进型自相关函数积累统计量和预设更新模型计算对应的当前帧的语音活动检测判决参数，所述预设更新模型包括通过第一跟踪窗和第二跟踪窗实现跟踪更新的第一预设更新子模型，包括：

响应于当前环境满足采用所述第一预设更新子模型，通过所述第一跟踪窗，对当前帧的语音活动检测判决参数进行更新处理，基于当前帧的短时幅度谱改进型自相关函数积累统计量，跟踪更新对应的当前帧的第一最小统计量；

获取当前帧的前一帧的长时最小统计量；

4.根据权利要求3所述的方法，其中，所述根据当前帧的短时幅度谱改进型自相关函数积累统计量和预设更新模型计算对应的当前帧的语音活动检测判决参数，所述预设更新模型还包括通过第三跟踪窗实现跟踪更新的第二预设更新子模型，还包括：

响应于当前环境满足采用所述第二预设更新子模型，通过所述第三跟踪窗，对当前帧的语音活动检测判决参数进行更新处理，读取当前帧的前一帧的第一最小统计量；

基于当前帧的长时最小统计量，对当前帧的语音活动检测判决参数进行自适应更新计算，得到对应的当前帧的语音活动检测判决参数，其中，所述第一跟踪窗对应的第一更新周期、所述第二跟踪窗对应的第二更新周期，均小于所述第三跟踪窗对应的第三更新周期。

5.一种实时语音活动的检测装置，包括：

处理模块，用于将当前帧的短时幅度谱改进型自相关函数积累统计量、当前帧的语音活动检测判决参数和当前帧的前一帧的语音活动检测判决结果指示信号均输入至预设判决决策模型中，输出当前帧的语音活动检测判决结果指示信号，以通过当前帧的语音活动检测判决结果指示信号指示当前低信噪比环境和／或非平稳背景噪声环境下是否有语音信号；

；

改进型自相关函数定义为：

式（11）；

改进型自相关函数积累统计量为为

；

处理模块具体用于：

处理模块还具体用于：

6.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现上述权利要求1至4中任一项所述的方法。