CN104424956A

CN104424956A - 激活音检测方法和装置

Info

Publication number: CN104424956A
Application number: CN201310390795.7A
Authority: CN
Inventors: 朱长宝; 袁浩
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2013-08-30
Filing date: 2013-08-30
Publication date: 2015-03-18
Anticipated expiration: 2033-08-30
Also published as: CN104424956B9; CN104424956B; WO2014177084A1; KR20160039677A; EP3040991B1; EP3040991A4; PL3040991T3; JP6412132B2; US9978398B2; EP3040991A1; US20160203833A1; KR101831078B1; JP2016529555A

Abstract

本发明提供了一种激活音检测方法和装置。解决了现有VAD检测不准确的问题。该方法包括：根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果。本发明提供的技术方案适用于语音业务，实现了高准确性的VAD判决。

Description

激活音检测方法和装置

技术领域

本发明涉及通信领域，尤其涉及一种激活音检测方法和装置。

背景技术

正常的语音通话中，用户有时在说话，有时在听，这个时候就会在通话过程出现非激活音阶段，正常情况下通话双方总的非语音激活阶段要超过通话双方总的语音编码时长的50%。在非激活音阶段，只有背景噪声，背景噪声通常没有任何有用信息。利用这一事实，在语音频信号处理过程中，通过激活音检测（VAD）算法检测出于激活音和非激活音，并采用不同的方法分别进行处理。现代的很多语音编码标准，如AMR、AMR-WB，都支持VAD功能。在效率方面，这些编码器的VAD并不能在所有的典型背景噪声下都达到很好的性能。特别是在非稳定噪声下，这些编码器的VAD效率都较低。而对于音乐信号，这些VAD有时候会出现错误检测，导致相应的处理算法出现明显的质量下降。另外，现有的VAD技术会存在判决不准确的情况，例如有的VAD技术在语音段之前几帧检测不准，有的VAD在语音段之后几帧检测不准确。

发明内容

本发明提供了一种激活音检测方法和装置，解决了现有VAD检测不准确的问题。

一种激活音检测方法，包括：

根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终的联合VAD判决结果。

优选的，该方法还包括：

获得当前帧的子带信号及频谱幅值；

根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；

根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；

根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。

优选的，该方法还包括：

获取前一帧估计得到的背景噪声能量；

根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。

优选的，所述获取前一帧估计得到的背景噪声能量包括：

获得前一帧的子带信号及频谱幅值；

根据前一帧子带信号计算得到前一帧帧能量参数、谱重心特征参数、时域稳定度特征参数的值；

根据前一帧频谱幅值计算得到前一帧谱平坦度特征参数和调性特征参数；

根据前一帧的帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到前一帧的背景噪声标识；

根据前一帧调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算前一帧调性信号标志；

根据前一帧的背景噪声标识、帧能量参数、调性信号标志、前第二帧的全带背景噪声能量，得到前一帧全带背景噪声能量。

优选的，所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值；

所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值，或该比值进行平滑滤波得到的值；

所述时域稳定度特征参数是若干个相邻两帧能量幅值叠加值的方差和若干个相邻两帧能量幅值叠加值平方的期望的比值，或该比值乘上一个系数；

所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值，或该比值乘上一个系数；

调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关系数得到的，或继续对该相关系数进行平滑滤波得到的。

优选的，根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志包括：

A）在当前帧信号为非调性信号，用一个调性帧标志tonality_frame来指示当前帧是否为调性帧；

B）在下述条件之一被满足时执行步骤C），在下述两个条件均不满足时执行步骤D）：

调性特征参数tonality_rate1的值或其平滑滤波后的值大于对应的设定的第一调性特征参数判定门限值，

调性特征参数tonality_rate1的值或其平滑滤波后的值大于对应的设定的第二调性特征参数门限值；

C）判断当前帧是否为调性帧，并根据判断结果设置所述调性帧标志的值，具体的：

在满足全部以下条件时判断所述当前帧为调性帧，在任一或任意多个以下条件不满足时判断所述当前帧为非调性帧并执行步骤D：

所述时域稳定度特征参数值小于一个设定的第一时域稳定度判定门限值，

谱重心特征参数值大于一个设定的第一谱重心判定门限值，

各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度判定门限值时，判断当前帧为调性帧，设置所述调性帧标志的值；

D）根据所述调性帧标志对调性程度特征参数tonality_degree进行更新，其中调性程度参数tonality_degree初始值在激活音检测开始工作时进行设置；

E）根据更新后的所述调性程度特征参数tonality_degree判断所述当前帧是否为调性信号，并设置调性标志tonality_flag的值。

优选的，在当前的调性帧标志指示所述当前帧为调性帧时，采用以下表达式对调性程度特征参数tonality_degree进行更新：

tonality_degree＝tonality_degree_-1·td_scale_A+td_scale_B，

其中，tonality_degree_-1为前一帧的调性程度特征参数，其初始值取值范围为[0，1]，td_scale_A为衰减系数，td_scale_B为累加系数。

优选的，在调性程度特征参数tonality_degree大于设定的调性程度门限值时，判断当前帧为调性信号；

在调性程度特征参数tonality_degree小于或等于设定的调性程度门限值时，判断当前帧为非调性信号。

优选的，该方法还包括：

在当前帧为第二帧及第二帧以后的语音帧时，通过前一联合VAD判决结果计算当前的连续激活音帧个数continuous_speech_num2，具体的：

当联合VAD标志vad_flag标志为1时continuous_speech_num2加1；

当vad_flag判为0时，continuous_speech_num2置0。

优选的，在当前帧为第一帧时，所述连续激活音帧个数为0。

优选的，所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧，所述已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧，所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果包括：

当满足以下任意一个条件时选择至少两种已有VAD的判决结果的逻辑运算作为联合VAD判决结果，当不满足下列至少一个条件时选择所述至少两种已有VAD判决结果中的一个已有VAD判决结果作为联合VAD判决结果，其中，所述逻辑运算是指“或”运算或者“和”运算：

条件1：平均全带信噪比大于信噪比阈值，

条件2：continuous_speech_num2大于连续激活音帧个数阈值且平均全带信噪比大于信噪比阈值，

条件3：调性信号标志设置为1。

优选的，所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧，所述已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧，，所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果包括：

当满足以下任一条件时所述联合VAD判决结果为1，当不满足下列至少一个条件时选择所述至少两个已有VAD判决结果的逻辑运算作为输出，其中，逻辑运算是指“或”运算或者“和”运算：

条件1：至少两个已有VAD判决结果全部为1，

条件2：至少两个已有VAD判决结果之和大于联合判决阈值，并且调性信号标志设置为1，

条件3：continuous_speech_num2大于连续激活音帧个数阈值且平均全带信噪比大于信噪比阈值，调性信号标志设置为1。

本发明还提供了一种激活音检测装置，包括：

联合判决模块，用于根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终的联合VAD判决结果。

优选的，该装置还包括参数获取模块，所述参数获取模块包括：

第一参数获取单元，用于获得当前帧的子带信号及频谱幅值；

第二参数获取单元，用于根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；

第三参数获取单元，用于根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；

第四参数获取单元，用于根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。

优选的，所述参数获取模块还包括：

第五参数获取单元，用于获取前一帧估计得到的背景噪声能量；

第六参数获取单元，用于根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。

优选的，所述参数获取模块还包括：

第七参数获取单元，用于在当前帧为第一帧时，确定所述连续激活音帧个数为0，

当联合VAD标志vad_flag标志为1时continuous_speech_num2加1；

当vad_flag判为0时，continuous_speech_num2置0。

本发明提供了一种激活音检测方法和装置，根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果，实现了根据多种参数综合进行VAD判决，提高了VAD判决的准确性，解决了VAD检测不准确的问题。

附图说明

图1为本发明的实施例一提供的一种激活音检测方法的流程图；

图2为本发明的实施例二提供的一种激活音检测方法的流程图；

图3为本发明的实施例四提供的一种激活音检测装置的结构示意图；

图4为图3中参数获取模块302的结构示意图。

具体实施方式

为了解决VAD检测不准确的问题，本发明的实施例提供了一种激活音检测方法。下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

下面结合附图，对本发明的实施例一进行说明。

本发明实施例提供了一种激活音检测方法，使用该方法完成VAD的流程如图1所示，包括：

步骤101：获取至少两种已有的VAD的判决结果；

步骤102：获得当前帧的子带信号及频谱幅值；

本发明实施例中以帧长为20ms，采样率为32kHz的音频流为例具体说明。在其它帧长和采样率条件下，本发明实施例提供的激活音检测方法同样适用。

将当前帧时域信号输入滤波器组单元，进行子带滤波计算，得到滤波器组子带信号。

本发明实施例中采用一个40通道的滤波器组，本发明实施例提供的技术方案对于采用其他通道数的滤波器组同样适用。

将当前帧时域信号输入40通道的滤波器组，进行子带滤波计算，得到16个时间样点上40个子带的滤波器组子带信号X[k,l]，0≤k＜40，0≤l＜16，其中k为滤波器组子带的索引，其值表示系数对应的子带，l为各个子带的时间样点索引，其实现步骤如下：

1：将最近的640个音频信号样值存储在数据缓存中。

2：将数据缓存中的数据移40个位置，把最早的40个采样值移出数据缓存，并把40个新的样点存入到0到39的位置上。

将缓存中的数据x乘上窗系数，得到数组z，计算表达式如下：

z[n]＝x[n]·W_qmf[n];0≤n＜640;

其中W_qmf为滤波器组窗系数。

采用以下的伪代码计算得到一个80点的数据u，

采用下面的方程计算得到数组r和i：

\begin{matrix} r [n] = u [n] - u [79 - n] \\ i [n] = u [n] + u [79 - n] \end{matrix}, 0 \leq n < 40

采用下面的方程计算得到第一个时间样点上40个复数子带样值，X[k,l]＝R(k)+iI(k),0≤k＜40，其中R(k)和I(k)分别为滤波器组子带信号X第l个时间样点上系数的实部和虚部，其计算表达式如下：

\begin{matrix} R (k) = Σ_{n = 0}^{39} r (n) \cos [\frac{π}{40} (k + \frac{1}{2}) n] \\ I (k) = Σ_{n = 0}^{39} i (n) \cos [\frac{π}{40} (k + \frac{1}{2}) n] \end{matrix}, 0 \leq k < 40 .

3：重复2的计算过程，直到将本帧的所有数据都经过滤波器组滤波，最后的输出结果即为滤波器组子带信号X[k,l]。

4：完成上面计算过程后，得到40个子带的16个时间样点的滤波器组子带信号X[k,l]，0≤k＜40，0≤l＜16。

然后，对滤波器组子带信号进行时频变换，并计算得到频谱幅值。

其中对全部滤波器组子带或部分滤波器组子带进行时频变换，计算频谱幅值，都可以实现本发明实施例。本发明实施例所述的时频变换方法可以是DFT、FFT、DCT或DST。本发明实施例采用DFT为例，说明其具体实现方法。计算过程如下：

对索引为0到9的每个滤波器组子带上的16个时间样点数据进行16点的DFT变换，进一步提高频谱分辨率，并计算各个频点的幅值，得到频谱幅值X_{DFT_AMP}。

时频变换计算表达式如下：

X_{DFT} [k, j] = Σ_{l = 0}^{15} X [k, l] \cdot e^{- \frac{2 πi}{16} jl}; 0 \leq k < 9; 0 \leq j < 16;

计算各个频点的幅值过程如下：

首先，计算数组X_DFT[k][j]在各个点上的能量，计算表达式如下：

X_{DFT_POW}[k,j]＝(real(X_DFT[k,j])²+(image(X_DFT[k,j])²;0≤k＜10;0≤j＜16;其中real(X_{DFT_POW}[k,j])，image(X_{DFT_POW}[k,j])分别表示频谱系数X_{DFT_POW}[k,j]的实部和虚部。

如果k为偶数，则采用以下方程计算各个频点上的频谱幅值：

X_{DFT_AMP} [8 \cdot k + j] = \sqrt{X_{DFT_POW} [k, j] + X_{DFT_POW} [k, 15 - j]}; 0 \leq k < 10; 0 \leq j < 8;

如果k为奇数，则采用以下方程计算各个频点上的频谱幅值：

X_{DFT_AMP} [8 \cdot k + 7 - j] = \sqrt{X_{DFT_POW} [k, j] + X_{DFT_POW} [k, 15 - j]}; 0 \leq k < 10; 0 \leq j < 8;

X_{DFT_AMP}即为时频变换后的频谱幅值。

步骤103：根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值，根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；

帧能量参数可采用现有技术方法获得，优选的，各参数采用如下方法获得：

所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值，具体地：

1、根据滤波器组子带信号X[k,l]计算各滤波器组子带的能量，计算表达式如下：

E_{sb} [k] = Σ_{l = 0}^{15} ({(real (X [k, l]))}^{2} + {(image (X [k, l]))}^{2}); 0 \leq k < 40;

2、将部分听觉比较敏感的滤波器组子带或所有的滤波器组子带的能量累加，得到帧能量参数。

其中根据心理听觉模型，人耳对极低频（如100Hz以下）和高频（如20kHz以上）声音会比较不敏感，本发明认为按照频率从低到高排列的滤波器组子带，从第二个子带到倒数第二个子带为听觉比较敏感的主要滤波器组子带，将部分或全部听觉比较敏感的滤波器组子带能量累加得到帧能量参数1，计算表达式如下：

E_{t 1} = Σ_{n = e_sb_start}^{e_sb_end} E_{sb} [n];

其中，e_sb_start为起始子带索引，其取值范围为[0，6]。e_sb_end为结束子带索引，其取值大于6，小于子带总数。

帧能量参数1的值加上部分或全部在计算帧能量参数1时未使用的滤波器组子带的能量的加权值，得到帧能量参数2，其计算表达式如下：

E_{t 2} = E_{t 1} + e_scale 1 \cdot Σ_{n = 0}^{e_sb_start - 1} E_{sb} [n] + e_scale 2 \cdot Σ_{n = e_sb_end + 1}^{num_band} E_{sb} [n];

其中e_scale1，e_scale2为加权比例因子，其取值范围分别为[0，1]。num_band为子带总个数。

所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值；

具体地，

根据各个滤波器组子带的能量计算得到谱重心特征参数，谱重心特征参数是通过求滤波器组子带能量加权相加的和与子带能量的直接相加的和的比值或通过对其他谱重心特征参数值进行平滑滤波得到的。

谱重心特征参数可以采用如下子步骤实现：

1、将用于谱重心特征参数计算的子带区间划分如表1所示。

表1

2、采用1的谱重心特征参数计算区间划分方式和以下表达式，计算得到两个谱重心特征参数值，分别为第一区间谱重心特征参数和第二区间谱重心特征参数。

sp_center [k] = \frac{Σ_{n = 0}^{spc_end_band (k) - spc_start_band (k)} (n + 1) \cdot E_{sb} [n + spc_start_band (k)] + Delta 1}{Σ_{n = 0}^{spc_end_band (k) - spc_start_band (k)} E_{sb} [n + spc_star_band (k)] + Delta 2}; 0 \leq k < 2

Delta1，Delta2分别为一个小的偏置值，取值范围为（0，1）。其中k为谱重心编号索引。

3、对第一区间谱重心特征参数sp_center[0]进行平滑滤波运算，得到平滑谱重心特征参数值，即第一区间谱重心特征参数值的平滑滤波值，计算过程如下：

sp_center[2]＝sp_center_-1[2]·spc_sm_scale+sp_center[0]·(1-spc_sm_scale)

其中，spc_sm_scale为谱重心参数平滑滤波比例因子，sp_center_-1[2]表示上一帧的平滑谱重心特征参数值，其初始值为1.6。

所述时域稳定度特征参数是若干相邻两帧能量幅值叠加值的方差和若干相邻两帧能量幅值叠加值平方的期望的比值，或该比值乘上一个系数；

具体地，

由最新的若干帧信号的帧能量参数计算得到时域稳定度特征参数。在本发明实施例中采用最新的40帧信号的帧能量参数计算得到时域稳定度特征参数。具体计算步骤为：

首先，计算得到最近40帧信号的能量幅值，计算方程如下：

{Amp}_{t 1} [n] = \sqrt{E_{t 2} (n)} + e_offset; 0 \leq n < 40;

其中，e_offset为一个偏置值，其取值范围为[0，0.1]。

其次，依次将当前帧到前面第40帧的相邻两帧的能量幅值相加，得到20个幅值叠加值。具体计算方程如下：

Amp_t2(n)＝Amp_t1(-2n)+Amp_t1(-2n-1);0≤n＜20;

其中，n＝0时，Amp_t1表示当前帧的能量幅值，n＜0时，Amp_t1表示当前帧往前的n帧的能量幅值。

最后，通过计算最近的20个幅值叠加值的方差和平均能量的比值，得到时域稳定度特征参数ltd_stable_rate0。计算表达式如下：

ltd_stable_rate 0 = \frac{Σ_{n = 0}^{19} {({Amp}_{t 2} (n) - \frac{1}{20} Σ_{j = 0}^{19} {Amp}_{t 2} (j))}^{2}}{Σ_{n = 0}^{19} {Amp}_{t 2} {(n)}^{2} + Delta};

具体地，将频谱幅值X_{DFT_AMP}划分成若干个频带，并计算当前帧各个频带的谱平坦度，得到当前帧的谱平坦度特征参数。

本发明实施例将频谱幅值划分成3个频带，并计算这3个频带的谱平坦度特征，其具体实现步骤如下：

首先、将X_{DFT_AMP}按照下表2的索引划分为3个频带。

表2

其次、分别计算各个子带的谱平坦度，得到当前帧的谱平坦度特征参数。当前帧的各个谱平坦度特征参数值的计算表达式如下：

SMR (k) = \frac{{(\underset{n &Element; Freq_band (k)}{Π} X_{DFT_AMP} (n))}^{1 / (freq_band_end (k) - freq_band_start (k) + 1)}}{\frac{1}{freq_band_end (k) - freq_band_start (k) + 1} \underset{n &Element; Freq_band (k)}{Σ} X_{DFT_AMP} (n)}; 0 \leq k < 3

最后，对当前帧的谱平坦度特征参数进行平滑滤波，得到当前帧最终的谱平坦度特征参数。

sSMR(k)＝smr_scale·sSMR_-1(k)+(1-smr_scale)·SMR(k);0≤k＜3

其中smr_scale为平滑因子，其取值范围为[0.6，1]，sSMR_-1(k)为上一帧的第k个谱平坦度特征参数的值。

调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关值得到的，或继续对该相关值进行平滑滤波得到的。

具体地，前后两帧信号的帧内频谱差分系数的相关值的计算方法如下：

根据频谱幅值计算得到调性特征参数，其中调性特征参数可以根据所有频谱幅值或部分频谱幅值计算得到。

其计算步骤如下：

1、将部分（不小于8个频谱系数）或全部频谱幅值跟相邻的频谱幅值做差分运算，并将差分结果小于0的值置0，得到一组非负的频谱差分系数。

本发明实施例选择位置索引为3到61的频点系数为例，计算调性特征参数。具体过程如下：

将频点3到频点61的相邻频谱幅值做差分运算，表达式如下：

spec_dif[n-3]＝X_{DFT_AMP}(n+1)-X_{DFT_AMP}(n);3≤n＜62;

将spec_dif中小于0的变量置零。

2、求取步骤1计算得到的当前帧非负的频谱差分系数和前一帧非负的频谱差分系数的相关系数，得到第一调性特征参数值。计算表达式如下：

tonality_ratel = \frac{Σ_{n = 0}^{56} spec_dif [n] \cdot pre_spec_dif [n]}{\sqrt{Σ_{n = 0}^{56} spec_dif {[n]}^{2} \cdot Σ_{n = 0}^{56} pre_spec_dif {[n]}^{2}}}

其中，pre_spec_dif为前一帧的非负的频谱差分系数。

3、对第一调性特征参数值进行平滑运算，得到第二调性特征参数值。计算方程如下：

tonality_rate2＝tonal_scale·tonality_rate2_-1+(1-tonal_scale)·tonality_rate1

tonal_scale为调性特征参数平滑因子，其取值范围为[0.1，1]，tonality_rate2_-1为前一帧的第二调性特征参数值，其初始值取值范围为[0，1]。

步骤104：计算调性信号标志，参考本发明的实施例三中调性信号计算的流程。

步骤105：根据前一帧估计得到的全带背景噪声能量、当前帧的帧能量参数计算得到平均全带信噪比；

前一帧的全带背景噪声能量获得方法参见实施例2。

根据估计得到的上一帧全带背景噪声能量（见实施例2）和当前帧的帧能量参数，计算全带信噪比SNR2：

SNR 2 = \log_{2} \frac{E_{t 1}}{E_{t_bg}}

其中E_{t_bg}为估计得到的上一帧全带背景噪声能量，得到上一帧全带背景噪声能量原理与得到当前帧的全带背景噪声能量的原理相同。

计算最近若干个帧的全带信噪比SNR2的平均值，得到平均全带信噪比SNR2_lt_ave。

步骤106：获取连续激活音帧的个数；

具体地，连续激活音帧个数continuous_speech_num2可以通过VAD判决结果进行计算，初始值设为0，当VAD标志vad_flag标志为1时continuous_speech_num2加1；vad_flag判为0时，continuous_speech_num2置0。

步骤107：根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终的联合VAD判决结果；

本步骤中，所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧，所述已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧。需要说明的是，以1、0值代表激活音帧和非激活音帧仅是一种标记方式，以其他值或其他方式标记区分VAD判决的不同结果的方案均在本发明的保护范围之内。

下面以两种具体实现为例进行说明，具体实施过程可以有其他的联合方法。

条件1：平均全带信噪比大于信噪比阈值，

条件3：调性信号标志设置为1。

所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧，所述已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧，所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果包括：

条件1：至少两个已有VAD判决结果全部为1，

需要说明的是，本发明实施例中的步骤101至步骤106并无严格的时序关系（其中步骤102、103和104的时序顺序不可颠倒），只要能获得本发明实施例进行联合VAD判决时所需的连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果的方案，均属于本发明的实施例的保护范围。

下面结合附图，对本发明的实施例二进行说明。

如图2所示，给出了一种前一帧背景噪声能量的计算方法，前一帧的背景噪声能量用于计算平均全带信噪比。前一帧的背景噪声能量的计算流程和当前帧的背景噪声能量的计算流程相同，为方便描述，本发明实施例给出了当前帧的全带背景噪声能量的计算方法。

步骤201：获得当前帧的子带信号及频谱幅值，计算方法见步骤102。

步骤202：根据子带信号计算得到当前的帧能量参数、谱重心特征参数、时域稳定度特征参数的值；根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值，计算方法见步骤103。

步骤203：根据当前帧帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到当前帧的背景噪声标识。背景噪声标识用于表示当前帧是否是噪声信号，如果是噪声信号，则背景噪声标识设置为1，否则设置为0。

优选的，假定当前是背景噪声信号，判断以下任一条件成立，则判断当前帧不是噪声信号：

条件1：所述时域稳定度特征参数lt_stable_rate0大于一个设定的时域稳定度门限值；

条件2：第一区间谱重心特征参数值的平滑滤波值大于一个设定的谱重心门限值，且时域稳定度特征参数值也大于设定的时域稳定度门限值；

条件3：调性特征参数或其平滑滤波后的值大于一个设定的调性特征参数门限值，且时域稳定度特征参数lt_stable_rate0值大于其设定的时域稳定度门限值；

条件4：各子带的谱平坦度特征参数或各自平滑滤波后的值均小于各自对应的设定的谱平坦度门限值；

条件5：判断帧能量参数E_t1的的值大于设定的帧能量门限值E_thr1。

具体地，本发明实施例通过一个背景噪声标识background_flag来指示当前帧是否是背景噪声，并约定如果判断当前帧为背景噪声，则设置背景噪声标识background_flag为1，否则设置背景噪声标识background_flag为0。

根据时域稳定度特征参数、谱重心特征参数、谱平坦度特征参数、调性特征参数、当前帧能量参数检测当前帧是否为噪声信号。如果不是噪声信号，则将背景噪声标识background_flag置0。

具体过程如下：

对于条件1：判断时域稳定度特征参数lt_stable_rate0是否大于一个设定的第一时域稳定度门限值lt_stable_rate_thr1。如果是，则判断当前帧不是噪声信号，并将background_flag置0。本发明实施例中第一时域稳定度门限值lt_stable_rate_thr1取值范围为[0.8，1.6]；

对于条件2：判断第一区间平滑谱重心特征参数值是否大于一个设定的第一谱重心门限值sp_center_thr1，并且时域稳定度特征参数lt_stable_rate0的值也大于第二时域稳定度门限值lt_stable_rate_thr2。如果是，则判断当前帧不是噪声信号，并将background_flag置0。sp_center_thr1的取值范围为[1.6，4]；lt_stable_rate_thr2的取值范围为（0，0.1]。

对于条件3：判断调性特征参数tonality_rate2的值是否大于一个第一调性特征参数门限值tonality_rate_thr1，时域稳定度特征参数lt_stable_rate0值是否大于设定的第三时域稳定度门限值lt_stable_rate_thr3，如果上述条件同时成立，则判断当前帧不是背景噪声，background_flag赋值为0。tonality_rate_thr1取值范围在[0.4，0.66]。lt_stable_rate_thr3的取值范围为[0.06，0.3]。

对于条件4：判断第一谱平坦度特征参数sSMR[0]的值是否小于设定的第一谱平坦度门限值sSMR_thr1，判断第二谱平坦度特征参数sSMR[1]的值是否小于设定的第二谱平坦度门限值sSMR_thr2，判断第三谱平坦度特征参数sSMR[2]的值是否小于设定的第三谱平坦度门限值sSMR_thr3。如果上述条件同时成立，则判断当前帧不是背景噪声。background_flag赋值为0。门限值sSMR_thr1、sSMR_thr2、sSMR_thr3的取值范围为[0.88，0.98]。判断第一谱平坦度特征参数sSMR[0]的值是否小于设定的第四谱平坦度门限值sSMR_thr4，判断第二谱平坦度特征参数sSMR[1]的值是否小于设定的第五谱平坦度门限值sSMR_thr5，判断第二谱平坦度特征参数sSMR[1]的值是否小于设定的第六谱平坦度门限值sSMR_thr6。如果上述任一条件成立，则判断当前帧不是背景噪声。background_flag赋值为0。sSMR_thr4、sSMR_thr5、sSMR_thr6的取值范围为 [0.80，0.92]

对于条件5：判断帧能量参数E_t1的值是否大于设定的帧能量门限值E_thr1，如果上述条件成立，则判断当前帧不是背景噪声。background_flag赋值为0。E_thr1根据帧能量参数的动态范围进行取值。

步骤204：根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算调性信号标志；该步骤见本发明的实施例三中的调性信号计算流程。

步骤205：根据帧能量参数、背景噪声标识、调性信号标志计算当前帧背景噪声能量。

1、如果当前帧的背景噪声标识为1，则更新背景噪声能量累加值E_{t_sum}和背景噪声能量累计帧数N_{Et_counter}，计算方程如下：

E_{t_sum}＝E_{t_sum_-1}+E_t1;

N_{Et_counter}＝N_{Et_counter_-1}+1;

其中E_{t_sum_-1}为前一帧的背景噪声能量累加值，N_{Et_counter_-1}为前一帧计算得到的背景噪声能量累计帧数。

2、全带背景噪声能量由背景噪声能量累加值E_{t_sum}和累计帧数N_{Et_counter}的比值得到：

E_{t_bg} = \frac{E_{t_sum}}{N_{Et_counter}}

判断N_{Et_counter}是否等于64，如果N_{Et_counter}等于64则分别将背景噪声能量累加值E_{t_sum}和累计帧数N_{Et_counter}乘0.75。

3、根据调性信号标志、帧能量参数、全带背景噪声能量的值对背景噪声能量累加值进行调整。计算过程如下：

如果调性标志tonality_flag等于1并且帧能量参数E_t1的值小于背景噪声能量特征参数E_{t_bg}的值乘以一个增益系数gain，

则，E_{t_sum}＝E_{t_sum}·gain+delta;

其中，gain的取值范围为[0.3，1]。

下面结合附图，对本发明的实施例三进行说明。

本发明实施例提供了一种激活音检测方法，能够与本发明的实施例一和实施例二所提供的技术方案相结合，用于计算调性信号标志，包括：

根据调性特征参数、时域稳定度特征参数、谱平坦度特征参数、谱重心特征参数判断当前帧是否为调性信号。

判断是否为调性信号时，执行以下操作：

1、用一个调性帧标志tonality_frame来指示当前帧是否为调性帧；

本发明实施例中tonality_frame的值为1表示当前帧为调性帧，0表示当前帧为非调性帧；

2、判断调性特征参数tonality_rate1或其平滑滤波后tonality_rate2的值是否大于对应的设定的第一调性特征参数判定门限值tonality_decision_thr1或第二调性特征参数判定门限值tonality_decision_thr2，如果上述条件有一个成立则执行步骤3，否则执行步骤4；

其中，tonality_decision_thr1的取值范围为[0.5，0.7]，tonality_rate1的取值范围为[0.7，0.99]。

3、如果时域稳定度特征参数值lt_stable_rate0小于一个设定的第一时域稳定度判定门限值lt_stable_decision_thr1；谱重心特征参数值sp_center[1]大于一个设定的第一谱重心判定门限值spc_decision_thr1，且各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度门限值，具体地，第一谱平坦度特征参数sSMR[0]小于一个设定的第一谱平坦度判定门限值sSMF_decision_thr1或第二谱平坦度参数sSMR[1]小于一个设定的第二谱平坦度判定门限值sSMF_decision_thr2或第三谱平均度参数sSMR[2]小于一个设定的第三谱平坦度判定门限值sSMF_decision_thr3；则判断当前帧为调性帧，设置调性帧标志tonality_frame的值为1，否则判断为非调性帧，设置调性帧标志tonality_frame的值为0。并继续执行步骤4。

其中，lt_stable_decision_thr1的取值范围为[0.01，0.25]，spc_decision_thr1为[1.0，1.8]，sSMF_decision_thr1为[0.6，0.9]，sSMF_decision_thr2[0.6，0.9]，sSMF_decision_thr3[0.7，0.98]。

4、根据调性帧标志tonality_frame对调性程度特征参数tonality_degree进行更新，其中调性程度参数tonality_degree初始值在激活音检测装置开始工作时进行设置，取值范围为[0，1]。不同的情况下，调性程度特征参数tonality_degree计算方法不同：

如果当前的调性帧标志指示当前帧为调性帧，则采用以下表达式对调性程度特征参数tonality_degree进行更新：

tonality_degree＝tonality_degree_-1·td_scale_A+td_scale_B;

其中，tonality_degree_-1为前一帧的调性程度特征参数。其初始值取值范围为[0，1]。td_scale_A为衰减系数，其取值范围为[0，1]；td_scale_B为累加系数，其取值范围为[0，1]。

5、根据更新后的调性程度特征参数tonality_degree判断当前帧是否为调性信号，并设置调性标志tonality_flag的值；

具体地，若调性程度特征参数tonality_degree大于设定的调性程度门限值，则判断当前帧为调性信号，否则，判断当前帧为非调性信号。

下面结合附图，对本发明的实施例四进行说明。

本发明实施例还提供了一种激活音检测装置，如图3所示，该装置包括：

联合判决模块301，用于根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终的联合VAD判决结果。

优选的，该装置还包括参数获取模块302，所述参数获取模块302的结构如图4所示，包括：

第一参数获取单元3021，用于获得当前帧的子带信号及频谱幅值；

第二参数获取单元3022，用于根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；

第三参数获取单元3023，用于根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；具体计算方法可参照本发明的实施例三。

第四参数获取单元3024，用于根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。

优选的，所述参数获取模块302还包括：

第五参数获取单元3025，用于获取前一帧估计得到的背景噪声能量；具体计算方法或参考本发明的实施例二。

第六参数获取单元3026，用于根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。

优选的，所述参数获取模块302还包括：

第七参数获取单元3027，用于在当前帧为第一帧时，确定所述连续激活音帧个数为0，

在当前帧为第二帧及第二帧以后的语音帧时，通过前一联合VAD判决结果计算当前的连续激活音帧个数continuous_speech_num2，具体的：当联合VAD标志vad_flag标志为1时continuous_speech_num2加1；

当vad_flag判为0时，continuous_speech_num2置0。

优选的，所述参数获取模块302还包括：

第八参数获取单元3028，用于获取至少两种已有VAD判决结果。

本发明的实施例提供了一种激活音检测方法和装置，根据连续激活音帧个数、平均全带信噪比、调性信号标志、至少两种已有VAD判决结果得到最终联合VAD判决结果，实现了根据多种参数综合进行VAD判决，提高了VAD判决的准确性，解决了VAD检测不准确的问题。

本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现，所述计算机程序可以存储于一计算机可读存储介质中，所述计算机程序在相应的硬件平台上（如系统、设备、装置、器件等）执行，在执行时，包括方法实施例的步骤之一或其组合。

可选地，上述实施例的全部或部分步骤也可以使用集成电路来实现，这些步骤可以被分别制作成一个个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现，它们可以集中在单个的计算装置上，也可以分布在多个计算装置所组成的网络上。

上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器，磁盘或光盘等。

任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求所述的保护范围为准。

Claims

1.一种激活音检测方法，其特征在于，包括：

根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有激活音检测（VAD）判决结果得到最终的联合VAD判决结果。

2.根据权利要求1所述的激活音检测方法，其特征在于，该方法还包括：

获得当前帧的子带信号及频谱幅值；

3.根据权利要求1所述的激活音检测方法，其特征在于，该方法还包括：

获取前一帧估计得到的背景噪声能量；

4.根据权利要求3所述的激活音检测方法，其特征在于，所述获取前一帧估计得到的背景噪声能量包括：

获得前一帧的子带信号及频谱幅值；

5.根据权利要求4所述的激活音检测方法，其特征在于，

所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值；

6.根据权利要求2所述的激活音检测方法，其特征在于，根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志包括：

谱重心特征参数值大于一个设定的第一谱重心判定门限值，

7.根据权利要求6所述的激活音检测方法，其特征在于，在当前的调性帧标志指示所述当前帧为调性帧时，采用以下表达式对调性程度特征参数tonality_degree进行更新：

tonality_degree＝tonality_degree_-1·td_scale_A+td_scale_B，

8.根据权利要求6所述的激活音检测方法，其特征在于，

在调性程度特征参数tonality_degree大于设定的调性程度门限值时，判断当前帧为调性信号；

9.根据权利要求1所述的激活音检测方法，其特征在于，该方法还包括：

当联合VAD标志vad_flag标志为1时continuous_speech_num2加1；

当vad_flag判为0时，continuous_speech_num2置0。

10.根据权利要求9所述的激活音检测方法，其特征在于，

在当前帧为第一帧时，所述连续激活音帧个数为0。

11.根据权利要求1所述的激活音检测方法，其特征在于，所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧，所述已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧，所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果包括：

条件1：平均全带信噪比大于信噪比阈值，

条件3：调性信号标志设置为1。

12.根据权利要求1所述的激活音检测方法，其特征在于，所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧，所述已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧，，所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果包括：

条件1：至少两个已有VAD判决结果全部为1，

13.一种激活音检测装置，其特征在于，包括：

14.根据权利要求13所述的激活音检测装置，其特征在于，该装置还包括参数获取模块，所述参数获取模块包括：

15.根据权利要求14所述的激活音检测装置，其特征在于，所述参数获取模块还包括：

16.根据权利要求14所述的激活音检测装置，其特征在于，所述参数获取模块还包括：

当联合VAD标志vad_flag标志为1时continuous_speech_num2加1；

当vad_flag判为0时，continuous_speech_num2置0。