CN103839544A

CN103839544A - 语音激活检测方法和装置

Info

Publication number: CN103839544A
Application number: CN201210488703.4A
Authority: CN
Inventors: 吴晟; 林福辉; 徐晶明; 蒋斌
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2012-11-27
Filing date: 2012-11-27
Publication date: 2014-06-04
Anticipated expiration: 2032-11-27
Also published as: CN103839544B

Abstract

本发明公开一种语音激活检测方法和装置。其中在语音激活检测方法中，检测音频信号中的单调分量，并将单调分量放置在单调分量集合中；计算单调分量集合中连续谐波片段的和谐性判据；将最大的和谐性判据作为检测判据，若检测判据大于判别阈值，则判断所述音频信号为语音信号。通过检测音频信号中的连续谐音片段，并估计各个连续谐音片段的和谐性，利用和谐性的判据判断是否存在语音信号，从而提高了语音激活检测在非平稳噪声环境下的准确率和鲁棒性。

Description

语音激活检测方法和装置

技术领域

本发明涉及通信领域，特别是涉及一种语音激活检测方法和装置。

背景技术

语音激活检测（Voice Active Detection，简称：VAD）是数字语音处理技术的基础，它提供对一段音频信号中是否有语音信号存在的判断。语音激活检测广泛应用于语音编码，语音增强和去噪，语音识别等领域中，例如，在语音编码中，可以对有语音的片段进行有效的语音编码，对无语音的片段进行静音编码或舒适性噪声编码，从而提高编码的效率；对于语音增强和去噪，语音激活检测使得语音间隙的噪声估计和语音片段的信噪比估计成为可能；良好的语音激活检测则能极大提高语音识别的准确率。

尽管语音激活检测如此基础和重要，其实现算法也多种多样，但其准确率，鲁棒性和实时性，依旧是极难解决的问题。语音激活检测的准确率，极度依赖于信号中噪声的强度和类型，当信噪比较低，噪声非平稳时，判断准确率不可避免地降低。如果增加提供给语音激活检测算法的信息，即延长判断的时间间隔，可以一定程度提高准确率和鲁棒性，但是这又降低了判断的时间分辨率，增加了判断延迟，进一步降低了算法实时性，这将阻碍语音激活检测在一些在线的或实时的语音处理应用中发挥作用。

现有语音激活检测的实现算法，包括基于能量/信噪比阈值的算法和基于频域特征的算法。基于能量/信噪比阈值的算法，有时域短时能量/信噪比判别和子带域短时能量/信噪比判别，这类算法通过设置能量/信噪比的单门限或双门限进行激活判断。基于频域特征的算法检测频谱的不平滑特征，典型的有信号熵检测和利用Mel倒谱系数的模式分类。上述算法都未能充分利用语音信号的特征，其在噪声环境下的鲁棒性并不足够高。

发明内容

本发明要解决的技术问题是提供一种语音激活检测方法和装置。通过音频信号的单调分量集合中连续谐波片段的和谐性判据来判断音频信号是否为语音信号，能够提高语音激活检测在非平稳噪声环境下的准确性和鲁棒性。

根据本发明的一个方面，提供一种语音激活检测方法，包括：

检测音频信号中的单调分量，并将单调分量放置在单调分量集合中；

计算单调分量集合中连续谐波片段的和谐性判据；

将最大的和谐性判据作为检测判据，若检测判据大于判别阈值，则判断所述音频信号为语音信号。

优选的，检测音频信号中的单调分量，并将单调分量放置在单调分量集合中的步骤包括：

针对音频信号中的每一个频谱幅值X_A[k]，若X_A[k]同时大于X_A[k-1]和X_A[k+1]，则将X_A[k]作为单调分量，其中k为频谱序号索引；

将单调分量放置在单调分量集合中。

优选的，若X_A[k]同时大于X_A[k-1]和X_A[k+1]，进一步判断X_A[k]是否大于幅度阈值；

若X_A[k]大于幅度阈值，则执行将X_A[k]作为单调分量的步骤。

优选的，与X_A[k]相对应的幅度阈值为本底幅度曲线值X_S[k]，其中

X_{S} [k] = \log {Σ_{l = 0}^{l = 2 L_{h}} X_{A} [k - L_{h} + l] h (l)},

或者，

X_{S} [k] = Σ_{l = 0}^{l = 2 L_{h}} X_{LA} [k - L_{h} + l] h (l), X_{LA} [k] = \log (X_{A} [k]),

其中h是包括2L_h+1个加权平滑因子的集合，在k<0及k>N/2时X_S[k]=0，N为用于进行频谱分析获得音频信号频谱的窗函数长度；

或者，

X_S[0]=X_A[0]

X_{S} [k] = \{\begin{matrix} λ_{1} X_{S} [k - 1] + (1 - λ_{1}) X_{A} [k], & X_{S} [k - 1] > X_{A} [k] \\ λ_{2} X_{S} [k - 1] + (1 - λ_{2}) X_{A} [k], & X_{S} [k - 1] \leq X_{A} [k] \end{matrix}, k = 1,2,3, . . ., N / 2,

或者，

X_S[N/2]=X_A[N/2]

X_{S} [k] = \{\begin{matrix} λ_{1} X_{S} [k + 1] + (1 - λ_{1}) X_{A} [k], & X_{S} [k + 1] > X_{A} [k] \\ λ_{2} X_{S} [k + 1] + (1 - λ_{2}) X_{A} [k], & X_{S} [k + 1] \leq X_{A} [k] \end{matrix}, k = N / 2 - 1, N / 2 - 2, . . ., 0,

其中0<λ₁<λ₂<1。

优选的，频谱序号索引k的取值范围为大于索引下限int[f_lowN/f_s]，小于索引上限int[f_highN/f_s]，其中函数int[]表示向下舍入取整函数，N为用于进行频谱分析获得音频信号频谱的窗函数长度，f_s为音频信号的采样频率，f_low为频率下限，f_high为频率上限。

优选的，计算单调分量集合中连续谐波片段的和谐性判据的步骤包括：

对于单调分量集合中的包括L个单调分量的子集合{X_A[c_i]}，i=1，2，…，L，c₁<c₂<…<c_L，X_A[c_i]对应的频率为T_f[c_i]，其中T_f[c₁]<T_f[c₂]<…<T_f[c_L]，若满足

T_f[c₁]=m(f₀+Δf_c1)

T_f[c₂]=(m+1)(f₀+Δf_c2)，

·

T_f[c_L]=(m+L-1)(f₀+Δf_cL)

其中m≥0，同时非和谐因子F_unharmonic满足

F_{unharmonic} = \max (\frac{| Δ f_{c 1} |}{f_{0}}, \frac{| Δ f_{c 2} |}{f_{0}}, . . ., \frac{| Δ f_{cL} |}{f_{0}}) < F_{unharmonic_Thr},

则判断所述子集合为连续谐波片段，其中f₀为候选基频，F_{unharmonic_Thr}为非和谐因子阈值，Δf_c1,Δf_c2,…,Δf_cL为子集合中各单调分量的频率偏差；

计算所述连续谐波片段的和谐性判据F_weight，F_weight为

F_{weight} = \frac{T_{w} [c_{1}] + T_{w} [c_{2}] + . . . + T_{w} [c_{L}]}{L},

其中T_w[c_i]是X_A[c_i]的判决权重。

优选的，在计算所述连续谐波片段的和谐性判据F_weight之后，还包括：

对和谐性判据F_weight进行加权处理，以得到更新后的和谐性判据F_{weight_new}，

F_{weight_new}=F_weightH_unharmonic[F_unharmonic]h_L，

其中h_L是固定的权重，H_unharmonic[x]是映射函数，如果x=F_{unharmonic_Thr}，则H_unharmonic[x]=H_thr；如果x=0，则H_unharmonic[x]=H₀，则H_unharmonic[x]在0≤x≤F_{unharmonic_Thr}的范围内连续变动。

优选的，

H_{unharmonic} [x] = {(\frac{F_{unharmonic_Thr} - x}{F_{unharmonic_Thr}})}^{2} (H_{0} - H_{thr}) + H_{thr} .

优选的，候选基频f₀的选择范围为[f_{0_min}，f_{0_max}]，

f_{0_min}=min(f_d,f_{d_c1},f_{d_c2},…,f_{d_cL})

f_{0_max}=max(f_d,f_{d_c1},f_{d_c2},…,f_{d_cL})

f_{d} = \frac{T_{f} [c_{L}] - T_{f} [c_{1}]}{L - 1},

f_{d_cl} = \frac{T_{f} [c_{l}]}{int [T_{f} [c_{l}] / f_{d} + 0.5]}, l = 1,2, . . ., L .

优选的，在[f_{0_min}，f_{0_max}]中，选择候选基频f₀使得max(|Δf_c1|,|Δf_c2|,…,|Δf_cL|)最小。

优选的，X_A[c_i]的判决权重T_w[c_i]为对数频谱幅值X_LA[c_i]，其中X_LA[c_i]＝log(X_A[c_i])。

优选的，X_A[c_i]的判决权重T_w[c_i]为单调分量X_A[c_i]对应的完整峰体范围内对数频谱幅值曲线X_LA高于当前音频信号本底幅度曲线X_S部分的和；

其中，所述完整峰体范围对应的索引边界为：

从c_i逐一递减，将满足X_LA[k_s-1]<X_LA[k_s]且X_LA[k_s]>X_LA[k_s+1]或X_LA[k_s]<X_S[k_s]的第一个索引k_s作为所述完整峰体范围的索引下边界；

从c_i逐一递增，将满足X_LA[k_e-1]<X_LA[k_e]且X_LA[k_e]>X_LA[k_e+1]或X_LA[k_e]<X_S[k_e]的第一个索引k_e作为所述完整峰体范围的索引上边界。

优选的，单调分量X_A[k]对应的频率T_f[k]为kf_s/N，其中N为用于进行频谱分析获得音频信号频谱的窗函数长度，f_s为音频信号的采样频率。

优选的，单调分量X_A[k]对应的频率T_f[k]为k_ff_s/N，其中，

k_{f} = k + \frac{X_{A} [k - 1] - X_{A} [k + 1]}{X_{A} [k - 1] + X_{A} [k + 1] - 2 X_{A} [k]},

其中N为用于进行频谱分析获得音频信号频谱的窗函数长度，f_s为音频信号的采样频率。

优选的，单调分量X_A[k]对应的频率T_f[k]为k_ff_s/N，其中，

若X_A[k-1]<X_A[k+1]，则

k_{f} = k + \frac{1}{2} - \frac{1}{2} \frac{X_{A} [k] - X_{A} [k + 1]}{X_{A} [k] - X_{A} [k - 1]},

若X_A[k-1]>X_A[k+1]，则

k_{f} = k - \frac{1}{2} + \frac{1}{2} \frac{X_{A} [k] - X_{A} [k - 1]}{X_{A} [k] - X_{A} [k + 1]},

优选的，判别阈值J_{vad_thr}为

J_{vad_thr}=αJ_{vad_speech}，

其中α为判决参数，J_{vad_speech}为针对无噪声语音信号逐帧计算出的和谐性判据的平均值。

根据本发明的另一方面，提供一种语音激活检测装置，包括：

单调分量检测单元，用于检测音频信号中的单调分量，并将单调分量放置在单调分量集合中；

和谐性判据计算单元，用于计算单调分量集合中连续谐波片段的和谐性判据；

语音信号检测单元，用于将最大的和谐性判据作为检测判据，若检测判据大于判别阈值，则判断所述音频信号为语音信号。

优选的，单调分量检测单元具体针对音频信号中的每一个频谱幅值X_A[k]，若X_A[k]同时大于X_A[k-1]和X_A[k+1]，则将X_A[k]作为单调分量，其中k为频谱序号索引；并将单调分量放置在单调分量集合中。

优选的，单调分量检测单元还用于在X_A[k]同时大于X_A[k-1]和X_A[k+1]时，进一步判断X_A[k]是否大于幅度阈值，若X_A[k]大于幅度阈值，则执行将X_A[k]作为单调分量的操作。

优选的，和谐性判据计算单元包括识别模块和判据计算模块，其中：

识别模块，用于对于单调分量集合中的包括L个单调分量的子集合{X_A[c_i]}，i=1，2，…，L，c₁<c₂<…<c_L，X_A[c_i]对应的频率为T_f[c_i]，其中T_f[c₁]<T_f[c₂]<…<T_f[c_L]，若满足

T_f[c₁]=m(f₀+Δf_c1)

T_f[c₂]=(m+1)(f₀+Δf_c2)，

·

T_f[c_L]=(m+L-1)(f₀+Δf_cL)

其中m≥0，同时非和谐因子F_unharmonic满足

F_{unharmonic} = \max (\frac{| Δ f_{c 1} |}{f_{0}}, \frac{| Δ f_{c 2} |}{f_{0}}, . . ., \frac{| Δ f_{cL} |}{f_{0}}) < F_{unharmonic_Thr},

判据计算模块，用于计算所述连续谐波片段的和谐性判据F_weight，F_weight为

F_{weight} = \frac{T_{w} [c_{1}] + T_{w} [c_{2}] + . . . + T_{w} [c_{L}]}{L},

其中T_w[c_i]是X_A[c_i]的判决权重。

优选的，和谐性判据计算单元还包括加权模块，用于在判据计算模块计算所述连续谐波片段的和谐性判据F_weight之后，对和谐性判据F_weight进行加权处理，以得到更新后的和谐性判据F_{weight_new}，

F_{weight_new}=F_weightH_unharmonic[F_unharmonic]h_L，

优选的，

H_{unharmonic} [x] = {(\frac{F_{unharmonic_Thr} - x}{F_{unharmonic_Thr}})}^{2} (H_{0} - H_{thr}) + H_{thr} .

优选的，候选基频f₀的选择范围为[f_{0_min}，f_{0_max}]，

f_{0_min}=min(f_d,f_{d_c1},f_{d_c2},…,f_{d_cL})

f_{0_max}=max(f_d,f_{d_c1},f_{d_c2},…,f_{d_cL})

f_{d} = \frac{T_{f} [c_{L}] - T_{f} [c_{1}]}{L - 1},

f_{d_cl} = \frac{T_{f} [c_{l}]}{int [T_{f} [c_{l}] / f_{d} + 0.5]}, l = 1,2, . . ., L .

其中，所述完整峰体范围对应的索引边界为：

优选的，判别阈值J_{vad_thr}为

J_{vad_thr}=αJ_{vad_speech}，

其中α为判决参数，J_{ad_speech}为针对无噪声语音信号逐帧计算出的和谐性判据的平均值。

从语音的频域分析可以得知，语音由基音和一系列频率接近基音整数倍的谐音组成，语音信号的能量在数个连续谐音处达到最大。如果一段音频信号里发现有谐波特征，且谐波的基频频率在语音基频范围内，那么这段信号为语音信号的几率将非常大。这里的谐波特征可以是包括基频，一次谐波，二次谐波等在内的完整谐波系列，也可以是仅包含2次谐波和3次谐波这样的谐波系列片段。通过谐波特征判断语音信号的出现与否，对输入信号的质量要求较低，具备了一定抗各类噪声的能力，它的判断准确率要高于传统的语音激活判别算法。

本发明通过检测音频信号中的连续谐音片段，并估计各个连续谐音片段的和谐性，利用和谐性的判据判断是否存在语音信号，这种方法提高了语音激活检测在非平稳噪声环境下的准确率和鲁棒性。

附图说明

图1为本发明语音激活检测方法一个实施例的示意图。

图2为本发明计算和谐性判据一个实施例的示意图。

图3为本发明计算和谐性判据另一实施例的示意图。

图4为本发明等腰三角形匹配一个实施例的示意图。

图5a-图5c为本发明对纯净语音进行检测的结果示意图。

图6a-图6c为本发明对含机械噪声的语音进行检测的结果示意图。

图7为本发明语音激活检测装置一个实施例的示意图。

图8为本发明和谐性判据计算单元一个实施例的示意图。

图9为本发明和谐性判据计算单元另一实施例的示意图。

具体实施方式

下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。

图1为本发明语音激活检测方法一个实施例的示意图。如图1所示，本实施例的语音激活检测方法步骤如下：

步骤101，检测音频信号中的单调分量，并将单调分量放置在单调分量集合中。

步骤102，计算单调分量集合中连续谐波片段的和谐性判据。

步骤103，将最大的和谐性判据作为检测判据，若检测判据大于判别阈值，则判断所述音频信号为语音信号。

基于本发明上述实施例提供的语音激活检测方法，通过检测音频信号中的连续谐音片段，并估计各个连续谐音片段的和谐性，利用和谐性的判据判断是否存在语音信号，从而提高了语音激活检测在非平稳噪声环境下的准确率和鲁棒性。

优选的，在上述步骤101中，具体采用以下方式检测音频信号的单调分量。

针对音频信号中的每一个频谱幅值X_A[k]，若X_A[k]同时大于X_A[k-1]和X_A[k+1]，则将X_A[k]作为单调分量，其中k为频谱序号索引。然后将单调分量放置在单调分量集合中。

优选的，若X_A[k]同时大于X_A[k-1]和X_A[k+1]，还需要进一步判断X_A[k]是否大于幅度阈值。若X_A[k]大于幅度阈值，则将X_A[k]作为单调分量；否则，不将X_A[k]作为单调分量。

这是由于，仅仅检测频谱幅度X_A中的峰值，会带来大量的伪单调分量，这些伪单调分量实际相对频谱本底能量并没有特别突出，或本身就是频谱的一些波动，它们的存在不但会极大增加后续谐波检测的计算量，而且还会降低检测的准确率。通过设置单调分量的幅度阈值可以有效排除这些伪单调分量。

优选的，可通过计算当前音频信号本底幅度曲线，将本底幅度曲线X_S以上的峰值作为更加可靠的单调分量。

其中，与X_A[k]相对应的幅度阈值为本底幅度曲线值X_S[k]，

X_{S} [k] = \log {Σ_{l = 0}^{l = 2 L_{h}} X_{A} [k - L_{h} + l] h (l)},

或者，

X_{S} [k] = Σ_{l = 0}^{l = 2 L_{h}} X_{LA} [k - L_{h} + l] h (l), X_{LA} [k] = \log (X_{A} [k]),

其中h是包括2L_h+1个加权平滑因子的集合，一般选择使用2L_h+1点的低通FIR（Finite Impulse Response，有限冲击响应）滤波器，对数计算log的底数应当统一，例如统一为log₂或log_e，在k<0及k>N/2时X_S[k]=0，N为用于进行频谱分析获得音频信号频谱的窗函数长度；

或者，本底幅度曲线值X_S[k]还可以表示为：

X_S[0]=X_A[0]

X_{S} [k] = \{\begin{matrix} λ_{1} X_{S} [k - 1] + (1 - λ_{1}) X_{A} [k], & X_{S} [k - 1] > X_{A} [k] \\ λ_{2} X_{S} [k - 1] + (1 - λ_{2}) X_{A} [k], & X_{S} [k - 1] \leq X_{A} [k] \end{matrix}, k = 1,2,3, . . ., N / 2,

或者，

X_S[N/2]=X_A[N/2]

X_{S} [k] = \{\begin{matrix} λ_{1} X_{S} [k + 1] + (1 - λ_{1}) X_{A} [k], & X_{S} [k + 1] > X_{A} [k] \\ λ_{2} X_{S} [k + 1] + (1 - λ_{2}) X_{A} [k], & X_{S} [k + 1] \leq X_{A} [k] \end{matrix}, k = N / 2 - 1, N / 2 - 2, . . ., 0,

其中0<λ₁<λ₂<1。

优选的，λ₁＝0.5，λ₂＝0.95。

单调分量的检测可以对全部频带进行，优选地检测集中语音主要能量的频率范围。因此，可以将频谱序号索引k的取值范围设定为大于索引下限int[f_lowN/f_s]，同时小于索引上限int[f_highN/f_s]，其中函数int[]表示向下舍入取整函数，N为用于进行频谱分析获得音频信号频谱的窗函数长度，f_s为语音信号的采样频率，f_low为频率下限，f_high为频率上限。

优选的，频率下限f_low的取值范围是40-90Hz，频率上限f_high的取值范围是1200-2000Hz。作为一种优选实施例，频率下限f_low的取值是45Hz，频率上限f_high的取值是1800Hz。

图2为本发明计算和谐性判据一个实施例的示意图。如图2所示，上述步骤102可具体包括以下步骤：

步骤201，识别单调分量集合中的连续谐波片段。

T_f[c₁]=m(f₀+Δf_c1)

T_f[c₂]=(m+1)(f₀+Δf_c2)，

·

T_f[c_L]=(m+L-1)(f₀+Δf_cL)

其中m≥0，同时非和谐因子F_unharmonic满足

F_{unharmonic} = \max (\frac{| Δ f_{c 1} |}{f_{0}}, \frac{| Δ f_{c 2} |}{f_{0}}, . . ., \frac{| Δ f_{cL} |}{f_{0}}) < F_{unharmonic_Thr},

则判断所述子集合为连续谐波片段，其中f₀为候选基频，F_{unharmonic_Thr}为非和谐因子阈值，Δf_c1,Δf_c2,…,Δf_cL为子集合中各单调分量的频率偏差。

非和谐因子阈值F_{unharmonic_Thr}的取值范围可以为[0.02，0.2]，优选值为0.1。

步骤202，计算所述连续谐波片段的和谐性判据F_weight，F_weight为

F_{weight} = \frac{T_{w} [c_{1}] + T_{w} [c_{2}] + . . . + T_{w} [c_{L}]}{L},

其中T_w[c_i]是X_A[c_i]的判决权重。

图3为本发明计算和谐性判据另一实施例的示意图。与图2所示实施例相比，在图3所示实施例中，进一步对和谐性判据进行加权处理。

步骤301，识别单调分量集合中的连续谐波片段。

步骤302，计算所述连续谐波片段的和谐性判据F_weight。

步骤303，对和谐性判据F_weight进行加权处理，以得到更新后的和谐性判据F_{weight_new}，

F_{weight_new}=F_weightH_unharmonic[F_unharmonic]h_L，

其中h_L是固定的权重，L=2,3,…，考虑到更多次的连续谐波片段代表更强的语音特征，要求h_L<h_L+1，可以令h₂=1，h_L+1＝r_Lh_L,1<r_L<3，r_L的典型值一般设为略大于L/(L-1)的值。

H_unharmonic[x]是映射函数，考虑到非和谐因子越大，语音特征越弱，因此需要利用非和谐因子来调整判决权重。映射函数H_unharmonic[x]的原则是，如果x＝F_{unharmonic_Thr}，即刚好满足阈值，则H_unharmonic[x]=H_thr；如果x=0，即完全和谐，则H_unharmonic[x]=H₀，H₀>H_thr。优选的，H₀为1，H_thr为0.1。

H_unharmonic[x]在0≤x≤F_{unharmonic_Thr}的范围内连续变动，优选的，

H_{unharmonic} [x] = {(\frac{F_{unharmonic_Thr} - x}{F_{unharmonic_Thr}})}^{2} (H_{0} - H_{thr}) + H_{thr} .

优选的，候选基频f₀的选择范围为[f_{0_min}，f_{0_max}]，

f_{0_min}=min(f_d,f_{d_c1},f_{d_c2},…,f_{d_cL})

f_{0_max}=max(f_d,f_{d_c1},f_{d_c2},…,f_{d_cL})

f_{d} = \frac{T_{f} [c_{L}] - T_{f} [c_{1}]}{L - 1},

f_{d_cl} = \frac{T_{f} [c_{l}]}{int [T_{f} [c_{l}] / f_{d} + 0.5]}, l = 1,2, . . ., L .

优选地，可以仅考虑候选基频频率在人类语音的最常见基音频率范围内的连续谐波片段，f_{speech_low}和f_{speech_high}对应着人类语音的最常见基音频率范围，50Hz<f_{speech_low}<100Hz，400Hz<f_{speech_high}<800Hz，典型值为f_{speech_low}=70Hz和f_{speech_high}=500Hz。

优选的，X_A[c_i]的判决权重T_w[c_i]为单调分量X_A[c_i]对应的完整峰体范围内对数频谱幅值曲线X_LA高于当前音频信号本底幅度曲线X_S部分的和，即近似为该范围内对数频谱幅度曲线X_LA高于当前音频信号本底幅度曲线X_S部分的面积。

其中，所述完整峰体范围对应的索引边界为：

从c_i逐一递减，将满足X_LA[k_s-1]<X_LA[k_s]且X_LA[k_s]>X_LA[k_s+1]或X_LA[k_s]<X_S[k_s]的第一个索引k_s作为所述完整峰体范围的索引下边界，两个条件以先到为准。

从c_i逐一递增，将满足X_LA[k_e-1]<X_LA[k_e]且X_LA[k_e]>X_LA[k_e+1]或X_LA[k_e]<X_S[k_e]的第一个索引k_e作为所述完整峰体范围的索引上边界，两个条件以先到为准。

在上述各实施例中，可通过各种方式计算单调分量X_A[k]对应的频率T_f[k]，下面给出几个具体实施例。需要说明的是，这几个实施例仅是示例性的，并不用于限定本发明。

实施例一：单调分量X_A[k]对应的频率T_f[k]为kf_s/N，其中N为用于进行频谱分析获得音频信号频谱的窗函数长度，f_s为音频信号的采样频率。这是一种近似表示。

实施例二：单调分量X_A[k]对应的频率T_f[k]为k_ff_s/N。这里，k_f对应于X_A[k-1]、X_A[k]和X_A[k+1]做二阶多项式拟合求得其最高点。二阶多项式拟合是令二阶多项式曲线ax²+bx+c＝y通过三个点{k-1，X_A[k-1]}，{k，X_A[k]}，{k+1，X_A[k+1]}，曲线的最大值将出现在

k_{f} = x = \frac{- b}{2 a} = k + \frac{X_{A} [k - 1] - X_{A} [k + 1]}{X_{A} [k - 1] + X_{A} [k + 1] - 2 X_{A} [k]},

可选地，用于二阶多项式拟合的幅度值X_A[k-1]、X_A[k]和X_A[k+1]可以用它们的对数域值log{X_A[k-1]}、log{X_A[k]}和log{X_A[k+1]}代替。

实施例三：单调分量X_A[k]对应的频率T_f[k]为k_ff_s/N。这里，k_f对应于利用X_A[k-1]、X_A[k]和X_A[k+1]做等腰三角形匹配求得的最高点。

等腰三角形匹配是令三个点{k-1，X_A[k-1]}、{k，X_A[k]}、{k+1，X_A[k+1]}在等腰三角形对称的两条腰上，等腰三角形的底平行于索引对应的轴。可选地，用于等腰三角形匹配的幅度值X_A[k-1]、X_A[k]和X_A[k+1]可以用它们的对数域值代替。图4为本发明等腰三角形匹配一个实施例的示意图，其中X_A[k-1]<X_A[k+1]。

若X_A[k-1]<X_A[k+1]，则等腰三角形的顶点出现在

k_{f} = k + \frac{1}{2} - \frac{1}{2} \frac{X_{A} [k] - X_{A} [k + 1]}{X_{A} [k] - X_{A} [k - 1]},

同时，若X_A[k-1]>X_A[k+1]，则等腰三角形的顶点出现在

k_{f} = k - \frac{1}{2} + \frac{1}{2} \frac{X_{A} [k] - X_{A} [k - 1]}{X_{A} [k] - X_{A} [k + 1]},

优选的，在步骤103中，将当前音频信号频谱中所有系列谐波片段中最大的和谐性的判据，作为语音激活检测的判据J_vad。如果当前音频信号频谱中没有找到单调分量，或者单调分量中没有找到有效的有谐波系列片段，那么语音激活检测的判据J_vad=0。当判据语音激活检测的判据J_vad大于语音激活检测的判别阈值J_{vad_thr}时，认为当前音频信号为语音信号，否则为非语音信号。

语音激活检测的判据J_vad，即系列谐波片段的中最大的和谐性的判据，是经过多次对数计算和加权处理的，由于基准设置的自由性，判别阈值需要通过语音训练来获得。

将预先标记出语音时段或语音帧的无噪声语音信号逐帧计算出语音激活检测的判据J_vad，纯语音帧对应的语音激活检测的判据的均值为J_{vad_speech}，判决阈值J_{vad_thr}为J_{vad_thr}=αJ_{vad_speech}，0<α<1，α的优选值为1/3。

纯语音帧对应的语音激活检测的判据的均值J_{vad_speech}，可以通过对纯语音帧对应的语音激活检测的判据求算数均值取得，也可以通过求几何均值取得，也通过求对数域均值取得，优选取对数域均值。

图5a-图5c为本发明对纯净语音进行检测的结果示意图。其中音频信号采样频率为8000Hz，16位采样，频谱分析的块长为256，信号块50%交迭，频谱分析窗函数为汉宁（hanning）窗。图5a是音频信号的波形和J_vad曲线，图5b是VAD判决结果，图5c是音频信号的光谱图。统计出的纯语音帧J_vad的对数域均值约为5.1（对数计算取log2），便设置对数域的阈值为log2(J_{vad_thr})=2.6。

图6a-图6c为本发明对含机械噪声的语音进行检测的结果示意图。其中音频信号采样频率为8000Hz，16位采样，频谱分析的块长256，信号块50%交迭，频谱分析窗函数为汉宁（hanning）窗，其分段信噪比segSNR约为+3dB（即有语音段的平均信噪比）。图6a是音频信号的波形和J_vad曲线，图6b是VAD判决结果，图6c是音频信号的光谱图。根据设置的对数域阈值log2(J_{vad_thr})=2.6，本发明能很好的将其中的语音段判别出来。

图7为本发明语音激活检测装置一个实施例的示意图。如图7所示，语音激活检测装置包括单调分量检测单元701、和谐性判据计算单元702和语音信号检测单元703。其中：

单调分量检测单元701，用于检测音频信号中的单调分量，并将单调分量放置在单调分量集合中。

和谐性判据计算单元702，用于计算单调分量集合中连续谐波片段的和谐性判据。

语音信号检测单元703，用于将最大的和谐性判据作为检测判据，若检测判据大于判别阈值，则判断所述音频信号为语音信号。

基于本发明上述实施例提供的语音激活检测装置，通过检测音频信号中的连续谐音片段，并估计各个连续谐音片段的和谐性，利用和谐性的判据判断是否存在语音信号，从而提高了语音激活检测在非平稳噪声环境下的准确率和鲁棒性。

优选的，单调分量检测单元701具体针对音频信号中的每一个频谱幅值X_A[k]，若X_A[k]同时大于X_A[k-1]和X_A[k+1]，则将X_A[k]作为单调分量，其中k为频谱序号索引；并将单调分量放置在单调分量集合中。

优选的，单调分量检测单元701还用于在X_A[k]同时大于X_A[k-1]和X_A[k+1]时，进一步判断X_A[k]是否大于幅度阈值，若X_A[k]大于幅度阈值，则执行将X_A[k]作为单调分量的操作。

图8为本发明和谐性判据计算单元一个实施例的示意图。如图8所示，和谐性判据计算单元702包括识别模块801和判据计算模块802。其中：

识别模块801，用于对于单调分量集合中的包括L个单调分量的子集合{X_A[c_i]}，i=1，2，…，L，c₁<c₂<…<c_L，X_A[c_i]对应的频率为T_f[c_i]，其中T_f[c₁]<T_f[c₂]<…<T_f[c_L]，若满足

T_f[c₁]=m(f₀+Δf_c1)

T_f[c₂]=(m+1)(f₀+Δf_c2),

·

T_f[c_L]=(m+L-1)(f₀+Δf_cL)

其中m≥0，同时非和谐因子F_unharmonic满足

F_{unharmonic} = \max (\frac{| Δ f_{c 1} |}{f_{0}}, \frac{| Δ f_{c 2} |}{f_{0}}, . . ., \frac{| Δ f_{cL} |}{f_{0}}) < F_{unharmonic_Thr},

判据计算模块802，用于计算所述连续谐波片段的和谐性判据F_weight，F_weight为

F_{weight} = \frac{T_{w} [c_{1}] + T_{w} [c_{2}] + . . . + T_{w} [c_{L}]}{L},

其中T_w[c_i]是X_A[c_i]的判决权重。

图9为本发明和谐性判据计算单元另一实施例的示意图。与图8所示实施例相比，在图9所示实施例中，和谐性判据计算单元还包括加权模块901，用于在判据计算模块计算所述连续谐波片段的和谐性判据F_weight之后，对和谐性判据F_weight进行加权处理，以得到更新后的和谐性判据F_{weight_new}，

F_{weight_new}=F_weightH_unharmonic[F_unharmonic]h_L，

其中h_L是固定的权重，H_unharmonic[x]是映射函数，如果x=F_{unharmonic_Thr}，则H_unharmonic[x]=H_thr；如果x=0，则H_unharmonic[x]=H₀，则H_unharmonic[x]在0≤x≤F_{unharmonic_Thr}的范围内连续变动。H₀>H_thr，优选的，H₀为1，H_thr为0.1。

优选的，

H_{unharmonic} [x] = {(\frac{F_{unharmonic_Thr} - x}{F_{unharmonic_Thr}})}^{2} (H_{0} - H_{thr}) + H_{thr} .

优选的，候选基频f₀的选择范围为[f_{0_min}，f_{0_max}]，

f_{0_min}=min(f_d,f_{d_c1},f_{d_c2},…,f_{d_cL})

f_{0_max}=max(f_d,f_{d_c1},f_{d_c2},…,f_{d_cL})

f_{d} = \frac{T_{f} [c_{L}] - T_{f} [c_{1}]}{L - 1},

f_{d_cl} = \frac{T_{f} [c_{l}]}{int [T_{f} [c_{l}] / f_{d} + 0.5]}, l = 1,2, . . ., L .

优选的，X_A[c_i]的判决权重T_w[c_i]为单调分量X_A[c_i]对应的完整峰体范围内对数频谱幅值曲线X_LA高于当前音频信号本底幅度曲线X_S部分的和。

其中，所述完整峰体范围对应的索引边界为：

从c_i逐一递减，将满足X_LA[k_s-1]<X_LA[k_s]且X_LA[k_s]＞X_LA[k_s+1]或X_LA[k_s]<X_S[k_s]的第一个索引k_s作为所述完整峰体范围的索引下边界；

优选的，判别阈值J_{vad_thr}为

J_{vad_thr}=αJ_{vad_speech}，

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种语音激活检测方法，其特征在于，包括：

计算单调分量集合中连续谐波片段的和谐性判据；

2.根据权利要求1所述的方法，其特征在于：

检测音频信号中的单调分量，并将单调分量放置在单调分量集合中的步骤包括：

将单调分量放置在单调分量集合中。

3.根据权利要求2所述的方法，其特征在于：

若X_A[k]同时大于X_A[k-1]和X_A[k+1]，进一步判断X_A[k]是否大于幅度阈值；

若X_A[k]大于幅度阈值，则执行将X_A[k]作为单调分量的步骤。

4.根据权利要求3所述的方法，其特征在于：

与X_A[k]相对应的幅度阈值为本底幅度曲线值X_S[k]，其中

X_{S} [k] = \log {Σ_{l = 0}^{l = 2 L_{h}} X_{A} [k - L_{h} + l] h (l)},

或者，

X_{S} [k] = Σ_{l = 0}^{l = 2 L_{h}} X_{LA} [k - L_{h} + l] h (l), X_{LA} [k] = \log (X_{A} [k]),

或者，

X_S[0]=X_A[0]

X_{S} [k] = \{\begin{matrix} λ_{1} X_{S} [k - 1] + (1 - λ_{1}) X_{A} [k], & X_{S} [k - 1] > X_{A} [k] \\ λ_{2} X_{S} [k - 1] + (1 - λ_{2}) X_{A} [k], & X_{S} [k - 1] \leq X_{A} [k] \end{matrix}, k = 1,2,3, . . ., N / 2,

或者，

X_S[N/2]=X_A[N/2]

X_{S} [k] = \{\begin{matrix} λ_{1} X_{S} [k + 1] + (1 - λ_{1}) X_{A} [k], & X_{S} [k + 1] > X_{A} [k] \\ λ_{2} X_{S} [k + 1] + (1 - λ_{2}) X_{A} [k], & X_{S} [k + 1] \leq X_{A} [k] \end{matrix}, k = N / 2 - 1, N / 2 - 2, . . ., 0,

其中0<λ₁<λ₂<1。

5.根据权利要求2-4中任一项所述的方法，其特征在于：

频谱序号索引k的取值范围为大于索引下限int[f_lowN/f_s]，小于索引上限int[f_highN/f_s]，其中函数int[]表示向下舍入取整函数，N为用于进行频谱分析获得音频信号频谱的窗函数长度，f_s为音频信号的采样频率，f_low为频率下限，f_high为频率上限。

6.根据权利要求1所述的方法，其特征在于：

计算单调分量集合中连续谐波片段的和谐性判据的步骤包括：

T_f[c₁]=m(f₀+Δf_c1)

T_f[c₂]=(m+1)(f₀+Δf_c2),

·

T_f[c_L]=(m+L-1)(f₀+Δf_cL)

其中m≥0，同时非和谐因子F_unharmonic满足

F_{unharmonic} = \max (\frac{| Δ f_{c 1} |}{f_{0}}, \frac{| Δ f_{c 2} |}{f_{0}}, . . ., \frac{| Δ f_{cL} |}{f_{0}}) < F_{unharmonic_Thr},

计算所述连续谐波片段的和谐性判据F_weight，F_weight为

F_{weight} = \frac{T_{w} [c_{1}] + T_{w} [c_{2}] + . . . + T_{w} [c_{L}]}{L},

其中T_w[c_i]是X_A[c_i]的判决权重。

7.根据权利要求6所述的方法，其特征在于：

在计算所述连续谐波片段的和谐性判据F_weight之后，还包括：

F_{weight_new}=F_weightH_unharmonic[F_unharmonic]h_L，

8.根据权利要求7所述的方法，其特征在于：

H_{unharmonic} [x] = {(\frac{F_{unharmonic_Thr} - x}{F_{unharmonic_Thr}})}^{2} (H_{0} - H_{thr}) + H_{thr} .

9.根据权利要求6-8中任一项所述的方法，其特征在于：

候选基频f₀的选择范围为[f_{0_min}，f_{0_max}]，

f_{0_min}=min(f_d,f_{d_c1},f_{d_c2},…,f_{d_cL})

f_{0_max}=max(f_d,f_{d_c1},f_{d_c2},…,f_{d_cL})

f_{d} = \frac{T_{f} [c_{L}] - T_{f} [c_{1}]}{L - 1},

f_{d_cl} = \frac{T_{f} [c_{l}]}{int [T_{f} [c_{l}] / f_{d} + 0.5]}, l = 1,2, . . ., L .

10.根据权利要求9所述的方法，其特征在于：

在[f_{0_min}，f_{0_max}]中，选择候选基频f₀使得max(|Δf_c1|,|Δf_c2|,…,|Δf_cL|)最小。

11.根据权利要求6-8中任一项所述的方法，其特征在于：

X_A[c_i]的判决权重T_w[c_i]为对数频谱幅值X_LA[c_i]，其中X_LA[c_i]＝log(X_A[c_i])。

12.根据权利要求6-8中任一项所述的方法，其特征在于：

X_A[c_i]的判决权重T_w[c_i]为单调分量X_A[c_i]对应的完整峰体范围内对数频谱幅值曲线X_LA高于当前音频信号本底幅度曲线X_S部分的和；

其中，所述完整峰体范围对应的索引边界为：

13.根据权利要求6-8中任一项所述的方法，其特征在于：

单调分量X_A[k]对应的频率T_f[k]为kf_s/N，其中N为用于进行频谱分析获得音频信号频谱的窗函数长度，f_s为音频信号的采样频率。

14.根据权利要求6-8中任一项所述的方法，其特征在于：

单调分量X_A[k]对应的频率T_f[k]为k_ff_s/N，其中，

k_{f} = k + \frac{X_{A} [k - 1] - X_{A} [k + 1]}{X_{A} [k - 1] + X_{A} [k + 1] - 2 X_{A} [k]},

15.根据权利要求6-8中任一项所述的方法，其特征在于：

单调分量X_A[k]对应的频率T_f[k]为k_ff_s/N，其中，

若X_A[k-1]<X_A[k+1]，则

k_{f} = k + \frac{1}{2} - \frac{1}{2} \frac{X_{A} [k] - X_{A} [k + 1]}{X_{A} [k] - X_{A} [k - 1]},

若X_A[k-1]>X_A[k+1]，则

k_{f} = k - \frac{1}{2} + \frac{1}{2} \frac{X_{A} [k] - X_{A} [k - 1]}{X_{A} [k] - X_{A} [k + 1]},

16.根据权利要求1所述的方法，其特征在于：

判别阈值J_{vad_thr}为

J_{vad_thr}=αJ_{vad_speech}，

17.一种语音激活检测装置，其特征在于，包括：

18.根据权利要求17所述的装置，其特征在于：

单调分量检测单元具体针对音频信号中的每一个频谱幅值X_A[k]，若X_A[k]同时大于X_A[k-1]和X_A[k+1]，则将X_A[k]作为单调分量，其中k为频谱序号索引；并将单调分量放置在单调分量集合中。

19.根据权利要求18所述的装置，其特征在于：

单调分量检测单元还用于在X_A[k]同时大于X_A[k-1]和X_A[k+1]时，进一步判断X_A[k]是否大于幅度阈值，若X_A[k]大于幅度阈值，则执行将X_A[k]作为单调分量的操作。

20.根据权利要求18或19所述的装置，其特征在于：

21.根据权利要求17所述的装置，其特征在于：和谐性判据计算单元包括识别模块和判据计算模块，其中：

T_f[c₁]=m(f₀+Δf_c1)

T_f[c₂]=(m+1)(f₀+Δf_c2),

·

T_f[c_L]=(m+L-1)(f₀+Δf_cL)

其中m≥0，同时非和谐因子F_unharmonic满足

F_{unharmonic} = \max (\frac{| Δ f_{c 1} |}{f_{0}}, \frac{| Δ f_{c 2} |}{f_{0}}, . . ., \frac{| Δ f_{cL} |}{f_{0}}) < F_{unharmonic_Thr},

F_{weight} = \frac{T_{w} [c_{1}] + T_{w} [c_{2}] + . . . + T_{w} [c_{L}]}{L},

其中T_w[c_i]是X_A[c_i]的判决权重。

22.根据权利要求21所述的装置，其特征在于：和谐性判据计算单元还包括加权模块，用于在判据计算模块计算所述连续谐波片段的和谐性判据F_weight之后，对和谐性判据F_weight进行加权处理，以得到更新后的和谐性判据F_{weight_new}，

F_{weight_new}=F_weightH_unharmonic[F_unharmonic]h_L，

23.根据权利要求22所述的装置，其特征在于：

H_{unharmonic} [x] = {(\frac{F_{unharmonic_Thr} - x}{F_{unharmonic_Thr}})}^{2} (H_{0} - H_{thr}) + H_{thr} .

24.根据权利要求21-23中任一项所述的装置，其特征在于：

候选基频f₀的选择范围为[f_{0_min}，f_{0_max}]，

f_{0_min}=min(f_d,f_{d_c1},f_{d_c2},…,f_{d_cL})

f_{0_max}=max(f_d,f_{d_c1},f_{d_c2},…,f_{d_cL})

f_{d} = \frac{T_{f} [c_{L}] - T_{f} [c_{1}]}{L - 1},

f_{d_cl} = \frac{T_{f} [c_{l}]}{int [T_{f} [c_{l}] / f_{d} + 0.5]}, l = 1,2, . . ., L .

25.根据权利要求21-23中任一项所述的装置，其特征在于：

26.根据权利要求21-23中任一项所述的装置，其特征在于：

其中，所述完整峰体范围对应的索引边界为：

27.根据权利要求17所述的装置，其特征在于：

判别阈值J_{vad_thr}为

J_{vad_thr}=αJ_{vad_speech}，