CN102103200B

CN102103200B - 一种分布式非同步声传感器的声源空间定位方法

Info

Publication number: CN102103200B
Application number: CN 201010568360
Authority: CN
Inventors: 杨毅; 刘加
Original assignee: Tsinghua University
Current assignee: Beijing Huacong Zhijia Technology Co Ltd
Priority date: 2010-11-29
Filing date: 2010-11-29
Publication date: 2012-12-05
Anticipated expiration: 2030-11-29
Also published as: CN102103200A

Abstract

一种分布式非同步声传感器的声源空间定位方法，先在假设条件下计算空间坐标，再发射校正信号计算分布式非同步声传感器的结构，然后对分布式非同步声传感器采集的信号进行预处理，再对声源信号采用时延估计法计算，得到对应的时延估计值，最后根据时延估计值计算每个声源的空间位置坐标，本发明声传感器的排列和间距没有任何限制，声传感器采集的信号在时间域不完全同步，具有价格低廉、使用方便等优势，可应用于复杂声学环境下的多人多方对话场景。

Description

一种分布式非同步声传感器的声源空间定位方法

技术领域

本发明属于语音技术领域，具体涉及一种分布式非同步声传感器的声源空间定位方法。

背景技术

随着网络和通讯技术的不断发展，利用现有的多媒体技术、网络与通讯技术、分布式处理技术等可以实现复杂声学环境场景下的多人多方对话。

传统声源输入和录音设备包括头戴式麦克风、全向性和方向性麦克风、麦克风阵列等。单麦克风作为传统声源输入和录音设备，具有体积小、价格低廉等优点，但不具备对环境噪声处理以及声源定位的能力；麦克风阵列由多个按照特定几何位置摆放的麦克风组成，对空间信号进行时空域联合处理，其能力包括：混响条件下的声源定位、增强语音信号、辨识与分离声源等。

分布式非同步声传感器是由多个单声传感器组成的信号采集系统，各个声传感器由不同设备控制，对声传感器的排列和间距没有任何限制，声传感器采集的信号在时间域不完全同步。分布式非同步声传感器结构简单、使用方便、节约成本，符合多声源多方向复杂对活场景的要求，可有效地完成声源定位、说话人聚类和识别等多种应用。

但是，麦克风阵列系统算法对各个设备之间采样的误差敏感，因此对音频数据同步性要求十分严格；而普通的多人多方会议场景中声源个数未知、声传感器位置未知、房间声学环境未知，即需要在时间和空间先验信息均缺失的场景下对声音数据进行处理。

分布式非同步声传感器的声源空间定位方法和麦克风阵列的声源空间定位方法有所不同。麦克风阵列的麦克风需要组成阵列，或至少麦克风间距固定，而分布式非同步声传感器对声传感器的位置和摆放没有任何约束和限制，因此使用更加灵活；麦克风阵列采集的信号在时间域完全同步，各个麦克风由统一的时钟进行控制，声传感器采集的信号在时间域不完全同步；此外分布式非同步声传感器系统中的声源和声传感器位置信息未知，需要对其进行估计。

分布式非同步声传感器和麦克风阵列网络系统也有所不同。其区别在于：麦克风阵列网络系统是由多个麦克风阵列作为节点组成网络声传感器对语音进行处理，无线网络中分布式语音输入设备需要统一的时钟来保证采集时间同步；而分布式非同步声传感器中的各个声传感器由不同的终端设备控制，使用不同的采集卡进行信号采集，因此具有各自独立的时钟和采样频率，导致采集时间不同步。

麦克风阵列定位的主要方法包括单步定位方法和双步定位方法。

单步定位包括基于波束指向的定位方法和基于高分辨率谱分析的定位方法。前一种方法通过补偿声源到不同麦克风之间的时间差，将补偿后的信号进行相加平均得到阵列的输出。后一种方法主要涉及了自回归模型、最小方差谱估计和各种基于特征分析技术的方法。这些方法通常需要搜索整个空间来达到定位的目的。

双步定位技术实现一个定位过程要分两步来实现，它包括两类：基于TDOA(到达时间差)的双步定位和基于ILD(双耳电平差)的双步定位。基于TDOA(到达时间差)的定位首先通过时延估计算法估计出信号在不同阵元处的TDOA(到达时间差)，进而再通过几何关系进行定位。基于ILD(双耳电平差)的定位技术建立在人耳感知特性基础之上，它借助于声源到达两耳间的电平差信息来判断声源的位置。

麦克风阵列时延估计算法主要包括GCC(广义互相关)方法和LMS(最小均方误差)方法。GCC(广义互相关)受混响影响比较严重，改进后产生了CEP(倒谱预滤波)方法和基音加权的GCC(广义互相关)方法，EVD(特征值分解)和基于ATF(声学传递函数)比的时延估计方法则分别利用子空间的技术和传递函数比来求解。

作为传统声源输入和录音设备的麦克风，价格低廉、结构简单，缺点是易受环境干扰，且不能对声源进行定位；麦克风阵列系统已被广泛研究，没有商用化的主要原因是专用硬件价格昂贵以及算法复杂度较高。

发明内容

为了克服上述现有技术的缺点，本发明提供了一种分布式非同步声传感器的声源空间定位方法，声传感器的排列和间距没有任何限制，声传感器采集的信号在时间域不完全同步，具有价格低廉、使用方便的优势，可应用于复杂声学环境下的多人多方对话场景。

一种分布式非同步声传感器的声源空间定位方法，包括以下步骤：

第一步，在假设条件下计算空间坐标

首先假设在数据获得过程中全部声传感器的数目n和空间位置不变，n为大于零的整数，声源数目k不变，k为大于零的整数，声源与声传感器距离符合近场模型的要求，各个声传感器的物理性质相同，再对每个声传感器按顺序编号为声传感器M1，M2…，Mn，选择初始编号为1和2的两个声传感器M1和M2，设声传感器M1的位置为原点坐标，声传感器M1到声传感器M2的方向为起点坐标轴方向，这样可以确定一个空间坐标系，

第二步，发射校正信号计算分布式非同步声传感器的结构

首先令声传感器M1发射校正信号C，除声传感器M1之外的其他声传感器进行记录；同样地，声传感器M2发射相同的校正信号C，除声传感器M2之外的其他声传感器进行记录；以此类推，全部n个声传感器都发射一遍校正信号C；这样，每个声传感器得到对应n-1个记录信号；计算这n-1个记录信号的起始时间与每个声传感器M_i发射校正信号C时刻的对应时延，时延与声速c的乘积则为每个发射声传感器M_i到每个接收声传感器M_j的物理距离d_ij。

然后在第一步确定的坐标系下得到每个声传感器M_i到原点的距离d_i0及声传感器M_i到起点坐标轴的夹角θ_i，由此计算得到每个声传感器M_i的二维坐标(d_i0，θ_i)，当每个声传感器M_i到起点坐标轴的夹角θ_i相同时，表明多声传感器为线形多声传感器阵列，当声传感器之间的距离完全相等时为均匀线阵，此时可用传统的声传感器阵列处理方法对声源进行定位，即通过余弦定理公式计算每个声传感器的二维极坐标，如公式(1)～公式(3)所示：

cosC＝(a^2+b^2-c^2)/2ab(1)

cosB＝(a^2+c^2-b^2)/2ac(2)

cosA＝(b^2+c^2-a^2)/2bc(3)

其中：a为任意声传感器M_i与声传感器M₁之间的物理距离，b为声传感器M₁与声传感器M₂之间的物理距离，c为声传感器M_i与声传感器M₂之间的物理距离，由此计算可得声传感器M_i到起点坐标轴的夹角C，

第三步，对分布式非同步声传感器采集的信号进行预处理

首先对分布式非同步声传感器获得的多路声源信号进行预处理，先对多路声源信号分帧及进行快速傅立叶变换(FFT)变换，然后对多路声源信号进行端点检测，将信号分为声源信号和非声源信号两类，语音端点检测方法可采用子带频谱熵算法，先将每帧语音的频谱划分成n(n为大于零的整数)子带，计算出每个子带的频谱熵，然后把相继n帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵，根据频谱熵的值对输入的语音进行分类，具体步骤为：将每帧的语音信号经过快速傅立叶变换(FFT)之后得到它在功率谱上的N_FFT个点Y_i(0≤i≤N_FFT)，每个点在频谱域上的概率密度可用公式(4)表示：

p_{i} = Y_{i} / Σ_{k = 0}^{N_{FFT} - 1} Y_{k} - - - (4)

其中：Y_k为经过FFT变换的语音信号在功率谱上的第k个点，Y_i为经过FFT变换的语音信号在功率谱上的第i个点，N_FFT为i的个数，p_i为第i个点在频谱域上的概率密度，

相应信号在频谱域上的熵函数定义可用公式(5)表示：

H = - Σ_{k = 0}^{N_{FFT} - 1} p_{k} \log (p_{k}) - - - (5)

其中：p_k为第k个点在频谱域上的概率密度，N_FFT为i的个数，H为频谱域上的熵函数，

将频域上的N_FFT个点划分成K个互不重叠的频段，称为子带，计算第l帧频谱域上每个点的概率如公式(6)所示：

p_{l} [k, i] = (Y_{i} + Q) / Σ_{j = m_{k}}^{m_{k + 1} - 1} (Y_{j} + Q) - - - (6)

其中：Y_j为经过FFT变换的语音信号在功率谱上的第j个点，Y_i为第k个子带上的点，

为子带下限，Q为常数，p_l[k，i]为第l帧频谱域上每个点的概率，

根据信息熵的定义，第l帧的第k个子带的频谱熵的值如公式(7)所示：

E_{s} [l, k] = Σ_{i = mk}^{m_{k + 1} - 1} p_{l} [k, i] \log (p_{l} [k, i]) (0 \leq k \leq K - 1) - - - (7)

其中：p_l[k，i]为第l帧频谱域上每个点的概率，E_s[l，k]为第l帧的第k个子带的频谱熵，

根据下面公式(8)我们可以计算出第l帧的频谱信息熵：

H_{l} = - \frac{1}{K} Σ_{k = 0}^{K - 1} E_{h} [l, k] - - - (8)

其中：E_h[l，k]为第l帧的第k个子带的频谱熵，K为子带个数，H_l为经过滤波平滑处理后的第l帧的第k个子带的信息熵，定义如公式(9)所示：

E_h[l，k]＝(1-λ)E_s(h)[l，k]+λE_s(h+1)[l，k](0≤k≤K-1)(9)

其中：E_s(h)[l，k]获得方法如下：算法中每个子带的顺序统计滤波器作用在一组长度为L的子带信息熵E_s[l-N，k]，KE_s[l，k]，K E_s[l+N，k]上，将这组子带信息熵按升序顺序排序，E_s(h)[l，k]是E_s[l-N，k]，KE_s[l，k]，K E_s[l+N，k]中的第h个最大值；λ为一常数，E_h[l，k]为滤波平滑处理后的第l帧的第k个子带的信息熵，

由公式(8)可以得到每帧的信号有一个频谱熵H_l，当H_l的值大于事先设定的阈值T时，将第l帧判别语音帧，否则判为非语音帧；阈值T的定义为T＝βAvg+θ，其中

β＝0.01，θ＝0.1，E_m[k]为E_s0，k]，K，E_s[N-1，k]的中值，Avg是输入信号最开始N帧的噪声估计，

第四步，对声源信号采用时延估计法计算，得到对应的时延估计值

首先采用时延估计法对声源信号到任意两个传感器之间的时延差进行估计，时延估计可采用PHAT(相位变换)加权算法，其加权系数如公式(10)所示，时延估计方法如公式(11)～(12)所示：

W (ω) = \frac{1}{| X_{1} (ω) X_{2}^{*} (ω) |} - - - (10)

其中：X₁(ω)、X₂(ω)分别为两路时域信号经过FFT变换之后的输出，*为共轭符号，

R_{x_{1} x_{2}} (n) = IFFT (W (ω) \cdot X_{1} (ω) \cdot X_{2}^{*} (ω)) - - - (11)

\hat{τ} = \underset{n}{\arg \max} R_{x_{1} x_{2}} (n) - - - (12)

其中：

为两路信号的广义互相关函数，

为x₁和x₂之间的时

延估计值，

其次需要去除无效数据，按下面公式(13)计算时延：

τ [n] = \{\begin{matrix} \hat{τ} [n - 1] & SNR < {Thr}_{SNR} \\ \hat{τ} [n] & SNR &GreaterEqual; {Thr}_{SNR} \end{matrix} - - - (13)

其中：n为某一帧的索引值，τ为某一帧对应的时延数据，

为某一帧估计的时延数据，当某一时刻信噪比小于阈值Thr_SNR时，采用上一时刻的估计时延作为该时刻的时延估计值，

以及按公式(14)进一步计算时延：

τ [n] = \{\begin{matrix} \hat{τ} [n - 1] & \hat{τ} [n] < Thr \\ \hat{τ} [n] & \hat{τ} [n] &GreaterEqual; Thr \end{matrix} - - - (14)

其中：n为某一帧的索引值，τ为某一帧对应的时延数据，

为某一帧估计的时延数据，当某一时刻时延估计小于阈值Thr时，采用上

一时刻的估计时延作为该时刻的时延估计值，

第五步，根据时延估计值计算每个声源的空间位置坐标

首先对每个声源按照出现顺序编号为为S₁，S₂，K，S_n，采用第四步中提到的时延估计算法对每个声源到任意两个声传感器m_i和m_j之间的时延差进行估计，得到n(n-1)个时延估计值。用公式15对声源S_a的空间矢量位置进行计算：

τ_{ij} (S_{a}) = \frac{| | {\overset{V}{m}}_{i} - {\overset{V}{S}}_{a} | | - | | {\overset{V}{m}}_{j} - {\overset{V}{S}}_{a} | |}{c} - - - (15)

其中：τ_ij(S_a)为声源S_a到第i个麦克风和第j个麦克风之间的时延，为第i个麦克风的空间位置，

为第j个麦克风的空间位置，

为声源S_a的空间位置，

接下来对全部声源的空间矢量位置进行计算：将每个声源对应的n(n-1)个时延估计值和全部声传感器坐标带入公式(15)，则每个声源对应得到n(n-1)个双曲线方程，这些双曲线方程组的解为该声源的空间位置，

此外需要通过计算排除不正确的声源位置，上述双曲线方程组可能出现方程数大于未知数的情况，此时可将方程组的解带入冗余方程来排除不正确的声源位置，

当方程组的解不唯一时，将双曲线相交形成的封闭空间视为声源范围，通过计算得到该组数据的中心点作为方程组的解，中心点的计算如公式(16)和公式(17)所示：

d_{ct} = \frac{d_{\max} + d_{\min}}{2} - - - (16)

其中：d_ct为中心点到坐标原点之间的距离，d_max为封闭空间全部数据到坐标原点之间的距离的最大值，d_min为封闭空间全部数据到坐标原点之间的距离的最小值，

θ_{ct} = \frac{θ_{\max} + θ_{\min}}{2} - - - (17)

其中：θ_ct为中心点向量与起始坐标之间的夹角，θ_max为封闭空间全部数据向量与起始坐标之间的夹角的最大值，θ_min为封闭空间全部数据向量与起始坐标之间的夹角的最小值。若双曲线方程组无交点，则将该组数据视为错误数据排除，

重复以上方法，依次计算时域不重叠的k个声源二维空间位置。

本发明具有如下优点：

一、本发明提出的分布式非同步声传感器，对声传感器的空间位置无严格限制，此外对采集信号的同步性要求较低，相比麦克风阵列而言应用更加灵活广泛；

二、本发明提出的利用校正信号确定声传感器空间结构的计算方法，原理简单且性能稳定；

三、本发明充分利用了分布式非同步声传感器的空间结构进行声源时延估计；

四、本发明充分利用了声传感器之间及声源与声传感器之间的多个时延差进行信息融合，利用冗余方程排除错误时延估计，提高了时延估计的准确度和稳健性；

五、本发明的分布式非同步声传感器的多声源空间定位方法能够应用于多种多人多方对话场景，具有稳健性好，适应多种声学环境的特点，并且本发明可以在目前的掌上电脑、个人数字助理(PDA)或手机上实现，其应用范围非常广泛。

附图说明

图1是本发明的流程示意图。

图2是本发明分布式非同步声传感器空间结构的计算实施图。

图3是本发明端点检测的计算实施图。

图4是本发明声源时延估计的计算实施图。

图5是本发明多声源空间定位的计算实施图。

具体实施方式

以下结合附图对本发明进行详细说明。

参照图1，一种分布式非同步声传感器的声源空间定位方法，包括以下步骤：

第一步，参照图2，在假设条件下计算空间坐标

第二步，发射校正信号计算分布式非同步声传感器的结构

cosC＝(a^2+b^2-c^2)/2ab (1)

cosB＝(a^2+c^2-b^2)/2ac (2)

cosA＝(b^2+c^2-a^2)/2bc (3)

第三步，参照图3，对分布式非同步声传感器采集的信号进行预处理

首先对分布式非同步声传感器获得的多路声源信号进行预处理，先对多路声源信号分帧及进行快速傅立叶变换(FFT)变换，然后对多路声源信号进行端点检测，将信号分为声源信号和非声源信号两类，端点检测的目的在于从信号中区分出语音信号和非语音信号，语音端点检测方法可采用子带频谱熵算法，先将每帧语音的频谱划分成n(n为大于零的整数)子带，计算出每个子带的频谱熵，然后把相继n帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵，根据频谱熵的值对输入的语音进行分类，具体步骤为：将每帧的语音信号经过快速傅立叶变换(FFT)之后得到它在功率谱上的N_FFT个点Y_i(0≤i≤N_FFT)，每个点在频谱域上的概率密度可用公式(4)表示：

p_{i} = Y_{i} / Σ_{k = 0}^{N_{FFT} - 1} Y_{k} - - - (4)

相应信号在频谱域上的熵函数定义可用公式(5)表示：

H = - Σ_{k = 0}^{N_{FFT} - 1} p_{k} \log (p_{k}) - - - (5)

p_{l} [k, i] = (Y_{i} + Q) / Σ_{j = m_{k}}^{m_{k + 1} - 1} (Y_{j} + Q) - - - (6)

E_{s} [l, k] = Σ_{i = mk}^{m_{k + 1} - 1} p_{l} [k, i] \log (p_{l} [k, i]) (0 \leq k \leq K - 1) - - - (7)

根据下面公式(8)我们可以计算出第l帧的频谱信息熵：

H_{l} = - \frac{1}{K} Σ_{k = 0}^{K - 1} E_{h} [l, k] - - - (8)

E_h[l，k]＝(1-λ)E_s(h)[l，k]+λE_s(h+1)[l，k](0≤k≤K-1)(9)

其中：E_s(h)[l，k]获得方法如下：算法中每个子带的顺序统计滤波器作用在一组长度为L的子带信息熵E_s[l-N，k]，K E_s[l，k]，K E_s[l+N，k]上，将这组子带信息熵按升序顺序排序，E_s(h)[l，k]是E_s[l-N，k]，K E_s[l，k]，K E_s[l+N，k]中的第h个最大值；λ为一常数，E_h[l，k]为滤波平滑处理后的第l帧的第k个子带的信息熵，

β＝0.01，θ＝0.1，E_m[k]为E_s[0，k]，K，E_s[N-1，k]的中值，Avg是输入信号最开始N帧的噪声估计，

第四步，参照图4，对声源信号采用时延估计法计算，得到对应的时延估计值，

W (ω) = \frac{1}{| X_{1} (ω) X_{2}^{*} (ω) |} - - - (10)

R_{x_{1} x_{2}} (n) = IFFT (W (ω) \cdot X_{1} (ω) \cdot X_{2}^{*} (ω)) - - - (11)

\hat{τ} = \underset{n}{\arg \max} R_{x_{1} x_{2}} (n) - - - (12)

其中：

为两路信号的广义互相关函数，

为x₁和x₂之间的时延估计值，

其次需要去除无效数据，按下面公式(13)计算时延：

τ [n] = \{\begin{matrix} \hat{τ} [n - 1] & SNR < {Thr}_{SNR} \\ \hat{τ} [n] & SNR &GreaterEqual; {Thr}_{SNR} \end{matrix} - - - (13)

其中：n为某一帧的索引值，τ为某一帧对应的时延数据，

以及按公式(14)进一步计算时延：

τ [n] = \{\begin{matrix} \hat{τ} [n - 1] & \hat{τ} [n] < Thr \\ \hat{τ} [n] & \hat{τ} [n] &GreaterEqual; Thr \end{matrix} - - - (14)

其中：n为某一帧的索引值，τ为某一帧对应的时延数据，

为某一帧估计的时延数据，当某一时刻时延估计小于阈值Thr时，采用上一时刻的估计时延作为该时刻的时延估计值，

第五步，参照图5，根据时延估计值计算每个声源的空间位置坐标

τ_{ij} (S_{a}) = \frac{| | {\overset{V}{m}}_{i} - {\overset{V}{S}}_{a} | | - | | {\overset{V}{m}}_{j} - {\overset{V}{S}}_{a} | |}{c} - - - (15)

其中：τ_ij(S_a)为声源S_a到第i个麦克风和第j个麦克风之间的时延，

为第i个麦克风的空间位置，

为第j个麦克风的空间位置，

为声源S_a的空间位置，

d_{ct} = \frac{d_{\max} + d_{\min}}{2} - - - (16)

θ_{ct} = \frac{θ_{\max} + θ_{\min}}{2} - - - (17)

附图中：

为单个声源的空间位置向量，

为另一单个声源的空间位置向量，

分别为单个麦克风M_i、M_k、M_j的空间位置向量。

Claims

1.一种分布式非同步声传感器的声源空间定位方法，其特征在于：包括以下步骤：

第一步，在假设条件下计算空间坐标

首先假设在数据获得过程中全部声传感器的数目n_sensor和空间位置不变，n_sensor为大于零的整数，声源数目k不变，k为大于零的整数，声源与声传感器距离符合近场模型的要求，各个声传感器的物理性质相同，再对每个声传感器按顺序编号为声传感器M₁,M₂,…,M_n，选择初始编号为1和2的两个声传感器M₁和M₂，设声传感器M₁的位置为坐标原点，声传感器M₁到声传感器M₂的方向为起点坐标轴方向，这样可以确定一个空间坐标系，

第二步，发射校正信号计算分布式非同步声传感器的结构

首先令声传感器M₁发射校正信号C，除声传感器M₁之外的其他声传感器进行记录；同样地，声传感器M₂发射相同的校正信号C，除声传感器M₂之外的其他声传感器进行记录；以此类推，全部n个声传感器都发射一遍校正信号C；这样，每个声传感器得到对应n-1个记录信号；计算这n-1个记录信号的起始时间与每个声传感器M_i发射校正信号C时刻的对应时延，时延与声速c的乘积则为每个声传感器M_i到另一个声传感器M_j的物理距离,

然后在第一步确定的坐标系下得到每个声传感器M_i到原点的距离d_i0及声传感器M_i的向量与起点坐标轴的夹角θ_i，由此计算得到每个声传感器M_i的二维极坐标（ d_i0，θ_i），当每个声传感器M_i向量与起点坐标轴的夹角θ_i相同时，表明多声传感器为线形多声传感器阵列，当声传感器之间的距离完全相等时为均匀线阵，此时可用传统的声传感器阵列处理方法对声源进行定位，即通过余弦定理公式计算每个声传感器的二维极坐标，

第三步，对分布式非同步声传感器采集的信号进行预处理

首先对分布式非同步声传感器获得的多路声源信号进行预处理，先对多路声源信号分帧及进行快速傅立叶变换（FFT），然后对多路声源信号进行端点检测，将信号分为声源信号和非声源信号两类，语音端点检测方法可采用子带频谱熵算法，先将每帧语音的频谱划分成大于零的整数K个子带，计算出每个子带的频谱熵，然后把相继N帧的子带频谱熵经过一组顺序统计滤波器获得每帧的频谱熵，根据频谱熵的值对输入的语音进行分类，具体步骤为：将每帧的语音信号经过快速傅立叶变换（FFT）之后得到它在功率谱上的N_FFT个点Y_i(0≤i≤N_FFT-1)，每个点在频谱域上的概率密度可用公式(1)表示：

相应信号在频谱域上的熵函数定义可用公式(2)表示：

将频域上的N_FFT个点划分成K个互不重叠的频段，称为子带，计算第l帧频谱域上每个点的概率如公式(3)所示：

为子带下限，Q为常数，p_l[k,i]为第l帧频谱域上每个点的概率，

根据信息熵的定义，第l帧的第k个子带的信息熵的值如公式(4)所示：

其中：p_l[k,i]为第l帧频谱域上每个点的概率，E_s[l,k]为第l帧的第k个子带的信息熵，

根据下面公式（5）我们可以计算出第l帧的频谱熵：

其中：H_l为第l帧的频谱熵，K为子带个数，E_h[l,k]为第l帧的第k个子带的频谱信息熵，定义如公式(6)所示：

E_h[l,k]=(1-λ)E_s(h)[l,k]+λE_s(h+1)[l,k](0≤k≤K-1)（6）

其中：E_s(h)[l,k]获得方法如下：算法中每个子带的顺序统计滤波器作用在一组长度为2N+1的子带信息熵E_s[l-N,k],…E_s[l,k],…E_s[l+N,k]上，将这组子带信息熵按升序顺序排序，E_s(h)[l,k]是E_s[l-N,k],…E_s[l,k],…E_s[l+N,k]中的第h个最大值；λ为一常数，

由公式（5）可以得到每帧的信号有一个频谱熵H_l，当H_l的值大于事先设定的阈值T时，将第l帧判为语音帧，否则判为非语音帧；阈值T的定义为T=βAvg+θ，其中