CN106356076A

CN106356076A - 基于人工智能的语音活动性检测方法和装置

Info

Publication number: CN106356076A
Application number: CN201610814980.8A
Authority: CN
Inventors: 李峥
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-09-09
Filing date: 2016-09-09
Publication date: 2017-01-25
Anticipated expiration: 2036-09-09
Also published as: CN106356076B

Abstract

本发明公开了基于人工智能的语音活动性检测方法和装置，所述方法包括：获取待处理的当前帧信号；分别确定出该信号的信号能量估计值以及基频和谐波能量之和估计值；根据信号能量估计值以及基频和谐波能量之和估计值确定出该信号的语音活动性判断参数；根据语音活动性判断参数确定出该信号是否为语音信号。应用本发明所述方案，能够提高检测结果的准确性等。

Description

基于人工智能的语音活动性检测方法和装置

【技术领域】

本发明涉及计算机应用技术，特别涉及基于人工智能的语音活动性检测方法和装置。

【背景技术】

目前，人工智能技术已经得到了广泛应用，人工智能(ArtificialIntelligence)，英文缩写为AI，它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

如语音活动性检测(VAD,Voice Activity Detection)是机器人语音交互过程中的一项重要技术。

机器人需要对获取到的当前帧信号进行识别，以确定其中是否存在语音信息，即确定该信号是否为语音信号，如果为语音信号，后续可相应地响应用户的需求等。

对获取到的各帧信号进行识别，以确定各帧信号是否为语音信号的操作即可称为语音活动性检测。

现有技术中，主要基于语音信号的一些规则特征来进行语音活动性检测，比如，利用语音信号与噪声信号之间的某些特征的差异进行区分，包括信号能量、过零率、倒谱、长时谱等，通过阈值比较和逻辑运算，确定是否为语音信号。其中比较典型的方法包括双门限检测法和基于自相关极大值的语音活动性检测方法等。

但上述方法受环境噪声的影响很大，因此检测结果的准确性较低。

【发明内容】

本发明提供了基于人工智能的语音活动性检测方法和装置，能够提高检测结果的准确性。

具体技术方案如下：

一种基于人工智能的语音活动性检测方法，包括：

获取待处理的当前帧信号；

分别确定出所述信号的信号能量估计值以及基频和谐波能量之和估计值；

根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数；

根据所述语音活动性判断参数确定出所述信号是否为语音信号。

一种基于人工智能的语音活动性检测装置，包括：获取单元、第一能量估计单元、第二能量估计单元和语音活动性判断单元；

所述获取单元，用于获取待处理的当前帧信号，并将所述信号分别发送给所述第一能量估计单元和所述第二能量估计单元；

所述第一能量估计单元，用于确定出所述信号的信号能量估计值，将所述信号能量估计值发送给所述语音活动性判断单元；

所述第二能量估计单元，用于确定出所述信号的基频和谐波能量之和估计值，将所述基频和谐波能量之和估计值发送给所述语音活动性判断单元；

所述语音活动性判断单元，用于根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数，根据所述语音活动性判断参数确定出所述信号是否为语音信号。

基于上述介绍可以看出，采用本发明所述方案，根据语音的浊音中独有的基频和谐波特征，并结合信号能量，来实现语音活动性检测，从而克服了现有技术中的问题，进而提高了语音活动性检测结果的准确性。

【附图说明】

图1为本发明所述基于人工智能的语音活动性检测方法实施例的流程图。

图2为本发明所述基于人工智能的语音活动性检测装置实施例的组成结构示意图。

图3为现有一段语音信号的波形与频谱图。

图4为采用本发明所述方案对图3所示语音信号进行语音活动性检测的检测结果示意图。

【具体实施方式】

语音由清音和浊音结合而成，语音学中，将发音时声带振动的音称为浊音，将发音时声带不振动的音称为清音。对于语音来说，浊音的能量和持续时间均远大于清音，因此，任何有意义的语音片段中必然会包含一定长度的浊音。浊音又主要包括基频和谐波两部分，对浊音进行分析可知，其能量主要集中在基频和谐波中。

各种环境噪声均不具备浊音的这种特征，因此，只要能够在信号中检测到浊音的谐波特征等，再结合语音能量一般高于噪声能量的特点，即可比较准确地确定出信号是否为语音信号。

为了使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案作进一步地详细说明。

实施例一

图1为本发明所述基于人工智能的语音活动性检测方法实施例的流程图，如图1所示，包括以下具体实现方式。

在11中，获取待处理的当前帧信号；

在获取到待处理的当前帧信号之后，还可对该信号进行预处理；

在12中，分别确定出该信号的信号能量估计值以及基频和谐波能量之和估计值；

在13中，根据信号能量估计值以及基频和谐波能量之和估计值确定出该信号的语音活动性判断参数；

在14中，根据语音活动性判断参数确定出该信号是否为语音信号。

以下分别对上述各部分的具体实现进行详细说明。

1)预处理

在获取到待处理的当前帧信号之后，分别确定出该信号的信号能量估计值以及基频和谐波能量之和估计值之前，可先对该信号进行预处理。

预处理主要包括：依次对该信号进行加窗处理、快速傅里叶变换(FFT，FastFourier Transformation)以及求取频谱能量。

可选择汉明窗来对该信号进行加窗处理，汉明窗表示如下：

h a m m (n) = 0.54 - 0.46 \cdot c o s (2 π \cdot \frac{n - 1}{L - 1}), n = 1, ..., L; - - - (1)

相应地，加窗处理后的信号可表示为：

s_win(n)＝hamm(n)·s(n),n＝1,…,L； (2)

s(n)表示加窗处理之前的信号，L表示该信号(数字信号)的帧长，L一般为2的正整数次方，如256，以便于进行快速傅里叶变换。

之后，可对该信号的加窗处理结果s_win(n)进行快速傅里叶变换，得到频域信号如下：

s_fft(k)＝FFT[s_win(n)],k＝1,…,L； (3)

进一步地，可在式(3)的基础上求取出该信号的频谱能量：

s_spectrum(k)＝abs[s_fft(k)],k＝1,…,L； (4)

abs表示取模运算。

2)信号能量估计值

首先，可根据该信号的帧长L和采样率fs，确定出离散频点bin_fmax，bin_fmax小于L；之后，可根据k的取值从1～bin_fmax时分别对应的s_spectrum(k)，确定出该信号的信号能量估计值E_lg。

bin_fmax＝floor(A/fs·L)； (5)

floor表示向下取整，A表示预先设定的频率值，A大于3400Hz，由于语音信号的频率范围为20～3400Hz，因此A的取值需要大于3400Hz，具体取值可根据实际需要而定，比如可为4000Hz，信号的采样率fs可为16KHz等。

在得到bin_fmax之后，可计算出该信号的能量值如下：

E = \frac{1}{{bin}_{f m a x}} Σ_{k = 1}^{{bin}_{f \max}} s_{s p e c t r u m} {(k)}^{2}; - - - (6)

即将式(4)中k的取值从1～bin_fmax时分别对应的s_spectrum(k)的平方求和之后再求平均。

语音信号的能量通常用分贝进行表示，这跟人耳的听觉效应有关，采用分贝表示声音的大小更符合人耳对声音大小变化分辨的听觉习惯，因此，可对式(6)中得到的E取log10，从而得到信号能量估计值E_lg如下：

E_lg＝lg(1+E)。 (7)

3)基频和谐波能量之和估计值

语音信号的基频的频率范围一般为60～400Hz，谐波频率是基频频率的整数倍，因此浊音在频率上存在均匀分布的能量极值，其间隔等于基频，浊音即使受到各种环境噪声的影响，一般也至少能够保持3～5个能量比较明显的谐波成分，因此，可搜寻距离基频最近的N条谐波，以所有可能的基频与对应的N条谐波能量之和为比较标准，取能量最大的频点作为基频位置，从而最终确定出信号的基频和谐波能量之和估计值。

具体地，可首先确定出基频对应的离散频点fw的取值范围[f_lower,f_upper]，之后，可针对位于所述取值范围内的每个fw的取值，分别确定出该取值下的基频与距离基频最近的N条谐波的能量之和，并将取值最大的作为基频和谐波能量之和估计值E_val。

N为大于1的正整数，具体取值可根据实际需要而定，比如可为4。

f_lower＝floor(B1/fs·L)；(8)

f_upper＝floor(B2/fs·L)；(9)

B1表示基频频率的最小取值，B2表示基频频率的最大取值，如B1的取值可为60Hz，B2的取值可为400Hz。

E_{v a l, f_{w}} = Σ_{n = 1}^{1 + N} s_{s p e c t r u m} (n \cdot f_{w}); - - - (10)

参照式(4)，s_spectrum(n·f_w)表示当k的取值为n·f_w时对应的s_spectrum(k)，n·f_w小于L，假设N的取值为4，那么式(10)中，分别将s_spectrum(1·f_w)、s_spectrum(2·f_w)、s_spectrum(3·f_w)、s_spectrum(4·f_w)和s_spectrum(5·f_w)相加求和。

在针对位于取值范围[f_lower,f_upper]内的每个fw的取值，分别计算出对应的之后，可选取出其中取值最大的作为所需的基频和谐波能量之和估计值E_val，即：

E_{val} = \max {E_{val, f_{w}}}, (f_{lower} \leq f_{w} \leq f_{upper}) . - - - (11)

4)语音活动性判断

对于11中获取到的当前帧信号，在分别按照2)和3)中所述方式获取到该信号的信号能量估计值E_lg以及基频和谐波能量之和估计值E_val之后，可进一步得到该信号的语音活动性判断参数E_comb如下：

E_comb＝max{0,E_lg-E_lg,noise}·max{0,E_val-E_val,noise}； (12)

E_lg,noise表示预先确定的噪声条件下的信号能量阈值；

E_val,noise表示预先确定的噪声条件下的基频和谐波能量阈值。

对于一段包含语音信号的待处理信号来说，通常初始的一段时间内均为环境噪声，接下来才会出现语音信号，因此在初始阶段，可不进行语音活动性判断，而是对计算得到的E_lg和E_val进行跟踪，以确定噪声条件下这两个特征的基本阈值，即E_lg,noise和E_val,noise，从而作为后续语音活动性判断的标准。

具体跟踪过程可如下所示：

对于获取到的待处理的当前帧信号，确定该信号的帧号是否小于或等于M，M为大于1的正整数，信号的帧号为正整数；

若是，且该信号的帧号p＝1，则将该信号的E_lg作为E_lg,noise，将该信号的E_val作为E_val,noise，即有：

E_lg,noise＝E_lg，E_val,noise＝E_val； (13)

若是，且该信号的帧号p满足1<p<＝M，则根据该信号的E_lg对E_lg,noise进行更新，并根据该信号的E_val对E_val,noise进行更新；

更新后的E_lg,noise＝0.9·E_lg,noise+0.1·E_lg； (14)

更新后的E_val,noise＝0.9·E_val,noise+0.1·E_val； (15)

若否，则根据该信号的E_lg和E_val以及最新得到的E_lg,noise和E_val,noise，确定出该信号的E_comb。

M的具体取值可根据实际需要而定，比如可为20，通过上述介绍可以看出，对于前20帧信号，可不进行语音活动性判断，并将根据第20帧信号的E_lg和E_val进行更新后的E_lg,noise和E_val,noise作为最终所需的E_lg,noise和E_val,noise。

之后，从第21帧信号开始，可分别按照式(12)计算出E_comb，并可将计算得到的E_comb与预先设定的判决门限E_threshold进行比较，若E_comb≥E_threshold，则可确定该信号为语音信号，若E_comb<E_threshold，则可确定该信号为非语音信号。

E_threshold的具体取值同样可根据实际需要而定，较佳地，取值范围可为0.07～0.15。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

实施例二

图2为本发明所述基于人工智能的语音活动性检测装置实施例的组成结构示意图，如图2所示，包括：获取单元21、第一能量估计单元22、第二能量估计单元23和语音活动性判断单元24。

获取单元21，用于获取待处理的当前帧信号，并将该信号分别发送给第一能量估计单元22和第二能量估计单元23；

第一能量估计单元22，用于确定出该信号的信号能量估计值，将信号能量估计值发送给语音活动性判断单元24；

第二能量估计单元23，用于确定出该信号的基频和谐波能量之和估计值，将基频和谐波能量之和估计值发送给语音活动性判断单元24；

语音活动性判断单元24，用于根据信号能量估计值以及基频和谐波能量之和估计值确定出该信号的语音活动性判断参数，根据语音活动性判断参数确定出该信号是否为语音信号。

以下分别对上述各单元的具体功能进行详细介绍。

1)获取单元21

获取单元21在获取到待处理的当前帧信号之后，可先对该信号进行预处理，之后将进行预处理后的信号发送给第一能量估计单元22和第二能量估计单元23。

具体地，获取单元21可对该信号依次进行以下预处理：对该信号进行加窗处理、快速傅里叶变换以及求取频谱能量。

可选择汉明窗来对该信号进行加窗处理，汉明窗表示如下：

h a m m (n) = 0.54 - 0.46 \cdot c o s (2 π \cdot \frac{n - 1}{L - 1}), n = 1, ..., L; - - - (1)

相应地，加窗处理后的信号可表示为：

s_win(n)＝hamm(n)·s(n),n＝1,...,L； (2)

s_fft(k)＝FFT[s_win(n)],k＝1,...,L； (3)

进一步地，可在式(3)的基础上求取出该信号的频谱能量：

s_spectrum(k)＝abs[s_fft(k)],k＝1,...,L； (4)

abs表示取模运算。

2)第一能量估计单元22

第一能量估计单元22可根据该信号的帧长L和采样率fs，确定出离散频点bin_fmax，bin_fmax小于L，并根据k的取值从1～bin_fmax时分别对应的s_spectrum(k)，确定出该信号的信号能量估计值E_lg。

bin_fmax＝floor(A/fs·L)； (5)

在得到bin_fmax之后，可计算出该信号的能量值如下：

E = \frac{1}{{bin}_{f m a x}} Σ_{k = 1}^{{bin}_{f \max}} s_{s p e c t r u m} {(k)}^{2}; - - - (6)

E_lg＝lg(1+E)。 (7)

3)第二能量估计单元23

第二能量估计单元23可首先确定出基频对应的离散频点f_w的取值范围[f_lower,f_upper]，之后，可针对位于所述取值范围内的每个fw的取值，分别确定出该取值下的基频与距离基频最近的N条谐波的能量之和并将取值最大的作为基频和谐波能量之和估计值E_val。

f_lower＝floor(B1/fs·L)； (8)

f_upper＝floor(B2/fs·L)； (9)

E_{v a l, f_{w}} = Σ_{n = 1}^{1 + N} s_{s p e c t r u m} (n \cdot f_{w}); - - - (10)

E_{val} = \max {E_{val, f_{w}}}, (f_{lower} \leq f_{w} \leq f_{upper}) . - - - (11)

4)语音活动性判断单元24

对于获取到的当前帧信号，语音活动性判断单元24在分别获取到该信号的信号能量估计值E_lg和基频和谐波能量之和估计值E_val之后，可得到该信号的语音活动性判断参数E_comb如下：

E_comb＝max{0,E_lg-E_lg,noise}·max{0,E_val-E_val,noise}； (12)

E_lg,noise表示预先确定的噪声条件下的信号能量阈值；

为此，语音活动性判断单元24还可进一步进行以下处理：

E_lg,noise＝E_lg，E_val,noise＝E_val； (13)

更新后的E_lg,noise＝0.9·E_lg,noise+0.1·E_lg； (14)

更新后的E_val,noise＝0.9·E_val,noise+0.1·E_val； (15)

M的具体取值可根据实际需要而定，比如可为20，通过上述介绍可以看出，对于前20帧信号，语音活动性判断单元24可不进行语音活动性判断，并将根据第20帧信号的E_lg和E_val进行更新后的E_lg,noise和E_val,noise作为最终所需的E_lg,noise和E_val,noise。

之后，从第21帧信号开始，语音活动性判断单元24可分别按照式(12)计算出E_comb，并可将计算得到的E_comb与预先设定的判决门限E_threshold进行比较，若E_comb≥E_threshold，则可确定该信号为语音信号，若E_comb<E_threshold，则可确定该信号为非语音信号。

总之，采用本发明所述方案，根据语音的浊音中独有的基频和谐波特征，并结合信号能量，来实现语音活动性检测，从而克服了现有技术中的问题，进而提高了语音活动性检测结果的准确性；而且，本发明所述方案可适用于各种环境，具有广泛适用性。

图3为现有一段语音信号的波形与频谱图，如图3所示，其中存在4段明显的语音信号，用矩形框进行了标注，可以看出，时域上，语音信号的幅度和能量相比于噪声均高出不少，频域上，在语音信号存在的地方，会出现明显的基频与谐波特征(如矩形框中所示)。

图4为采用本发明所述方案对图3所示语音信号进行语音活动性检测的检测结果示意图，如图4所示，0表示不存在语音信号，可以看出，检测结果非常准确，而且对于中间出现的短时干扰噪声(如矩形框中所示)也能够准确地进行区分。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于人工智能的语音活动性检测方法，其特征在于，包括：

获取待处理的当前帧信号；

2.根据权利要求1所述的方法，其特征在于，

所述分别确定出所述信号的信号能量估计值以及基频和谐波能量之和估计值之前，进一步包括：对所述信号进行预处理。

3.根据权利要求2所述的方法，其特征在于，

所述对所述信号进行预处理包括：依次对所述信号进行加窗处理、快速傅里叶变换以及求取频谱能量；

其中，对所述信号的快速傅里叶变换结果s_fft(k)进行取模运算，得到所述信号的频谱能量s_spectrum(k)，k＝1,...,L，所述L表示所述信号的帧长。

4.根据权利要求3所述的方法，其特征在于，

所述确定出所述信号的信号能量估计值包括：

根据所述信号的帧长L和采样率fs，确定出离散频点bin_fmax，bin_fmax小于L；

根据k的取值从1～bin_fmax时分别对应的s_spectrum(k)，确定出所述信号的信号能量估计值E_lg。

5.根据权利要求4所述的方法，其特征在于，

所述确定出离散频点bin_fmax包括：

计算预先设定的频率值A与所述fs之商，将所述商与所述L的乘积向下取整，得到所述bin_fmax，所述A大于3400Hz；

所述确定出所述信号的信号能量估计值E_lg包括：

分别计算k的取值从1～bin_fmax时对应的s_spectrum(k)的平方值；

计算各平方值的均值；

对所述均值与1的相加之和取log10，得到所述E_lg。

6.根据权利要求3所述的方法，其特征在于，

所述确定出所述信号的基频和谐波能量之和估计值包括：

确定出基频对应的离散频点fw的取值范围[f_lower,f_upper]；

针对位于所述取值范围内的每个f_w的取值，分别确定出该取值下的基频与距离基频最近的N条谐波的能量之和N为大于1的正整数；

将取值最大的作为所述基频和谐波能量之和估计值E_val。

7.根据权利要求6所述的方法，其特征在于，

确定出所述f_lower包括：

计算基频频率的最小取值B1与采样率fs之商，将所述商与所述L的乘积向下取整，得到所述f_lower；

确定出所述f_upper包括：

计算基频频率的最大取值B2与所述fs之商，将所述商与所述L的乘积向下取整，得到所述f_upper；

所述针对位于所述取值范围内的每个f_w的取值，分别确定出该取值下的基频与距离基频最近的N条谐波的能量之和包括：

计算n的取值从1到(1+N)时分别对应的s_spectrum(n·f_w)的相加之和，将计算结果作为所述所述s_spectrum(n·f_w)表示当k的取值为n·f_w时对应的s_spectrum(k)，n·f_w小于L。

8.根据权利要求1所述的方法，其特征在于，

所述根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数包括：

计算所述信号的信号能量估计值E_lg与预先确定的噪声条件下的信号能量阈值E_lg,noise之差，得到第一差值；

计算所述信号的基频和谐波能量之和估计值E_val与预先确定的噪声条件下的基频和谐波能量阈值E_val,noise之差，得到第二差值；

计算所述第一差值和0之间的较大者与所述第二差值和0之间的较大者的乘积，得到所述信号的语音活动性判断参数E_comb。

9.根据权利要求8所述的方法，其特征在于，

所述根据所述信号能量估计值以及所述基频和谐波能量之和估计值确定出所述信号的语音活动性判断参数之前，进一步包括：

确定所述信号的帧号是否小于或等于M，M为大于1的正整数，所述信号的帧号为正整数；

若是，且所述信号的帧号p＝1，则将所述信号的E_lg作为所述E_lg,noise，将所述信号的E_val作为所述E_val,noise；

若是，且所述信号的帧号p满足1<p<＝M，则根据所述信号的E_lg对所述E_lg,noise进行更新，更新后的E_lg,noise等于0.9与E_lg,noise的乘积以及0.1与E_lg的乘积之和，并根据所述信号的E_val对所述E_val,noise进行更新，更新后的E_val,noise等于0.9与E_val,noise的乘积以及0.1与E_val的乘积之和；

若否，则根据所述信号的E_lg和E_val以及最新得到的E_lg,noise和E_val,noise，确定出所述信号的E_comb。

10.根据权利要求1～9中任一项所述的方法，其特征在于，

所述根据所述语音活动性判断参数确定出所述信号是否为语音信号包括：

将所述语音活动性判断参数与预先设定的判决门限进行比较；

若所述语音活动性判断参数小于所述判决门限，则确定所述信号为非语音信号，否则，确定所述信号为语音信号。

11.一种基于人工智能的语音活动性检测装置，其特征在于，包括：获取单元、第一能量估计单元、第二能量估计单元和语音活动性判断单元；

12.根据权利要求11所述的装置，其特征在于，

所述获取单元进一步用于，

对所述信号进行预处理，将进行预处理后的信号发送给所述第一能量估计单元和所述第二能量估计单元。

13.根据权利要求12所述的装置，其特征在于，

所述获取单元依次对所述信号进行加窗处理、快速傅里叶变换以及求取频谱能量；

14.根据权利要求13所述的装置，其特征在于，

所述第一能量估计单元根据所述信号的帧长L和采样率fs，确定出离散频点bin_fmax，bin_fmax小于L，并根据k的取值从1～bin_fmax时分别对应的s_spectrum(k)，确定出所述信号的信号能量估计值E_lg。

15.根据权利要求14所述的装置，其特征在于，

所述第一能量估计单元计算预先设定的频率值A与所述fs之商，将所述商与所述L的乘积向下取整，得到所述bin_fmax，所述A大于3400Hz；

所述第一能量估计单元分别计算k的取值从1～bin_fmax时对应的s_spectrum(k)的平方值，计算各平方值的均值，对所述均值与1的相加之和取log10，得到所述E_lg。

16.根据权利要求13所述的装置，其特征在于，

所述第二能量估计单元确定出基频对应的离散频点fw的取值范围[f_lower,f_upper]，并针对位于所述取值范围内的每个fw的取值，分别确定出该取值下的基频与距离基频最近的N条谐波的能量之和N为大于1的正整数，将取值最大的作为所述基频和谐波能量之和估计值E_val。

17.根据权利要求16所述的装置，其特征在于，

所述第二能量估计单元计算基频频率的最小取值B1与采样率fs之商，将所述商与所述L的乘积向下取整，得到所述f_lower，计算基频频率的最大取值B2与所述fs之商，将所述商与所述L的乘积向下取整，得到所述f_upper；

所述第二能量估计单元计算n的取值从1到(1+N)时分别对应的s_spectrum(n·f_w)的相加之和，将计算结果作为所述所述s_spectrum(n·f_w)表示当k的取值为n·f_w时对应的s_spectrum(k)，n·f_w小于L。

18.根据权利要求11所述的装置，其特征在于，

所述语音活动性判断单元计算所述信号的信号能量估计值E_lg与预先确定的噪声条件下的信号能量阈值E_lg,noise之差，得到第一差值，计算所述信号的基频和谐波能量之和估计值E_val与预先确定的噪声条件下的基频和谐波能量阈值E_val,noise之差，得到第二差值，计算所述第一差值和0之间的较大者与所述第二差值和0之间的较大者的乘积，得到所述信号的语音活动性判断参数E_comb。

19.根据权利要求18所述的装置，其特征在于，

所述语音活动性判断单元进一步用于，

20.根据权利要求11～19中任一项所述的装置，其特征在于，

所述语音活动性判断单元将所述语音活动性判断参数与预先设定的判决门限进行比较，若所述语音活动性判断参数小于所述判决门限，则确定所述信号为非语音信号，否则，确定所述信号为语音信号。