CN103794222A

CN103794222A - 语音基音频率检测方法和装置

Info

Publication number: CN103794222A
Application number: CN201210427486.8A
Authority: CN
Inventors: 吴晟; 林福辉; 徐晶明; 蒋斌
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2012-10-31
Filing date: 2012-10-31
Publication date: 2014-05-14
Anticipated expiration: 2032-10-31
Also published as: CN103794222B

Abstract

本发明公开一种语音基音频率检测方法和装置。其中在语音基音频率检测方法中，检测语音信号帧中的单调分量，利用频谱幅值最大的M个单调分量的频率确定候选基频，并将候选基频放置在候选基频集合中，计算候选基频集合中每个候选基频的和谐判据，将具有最大和谐判据的候选基频作为所述语音信号帧的基频。通过利用具有较大能量的单调分量作为基音检测的基础，从而提高了基音检测在有噪环境下的准确率。

Description

语音基音频率检测方法和装置

技术领域

本发明涉及通信领域，特别是涉及一种语音基音频率检测方法和装置。

背景技术

人类语音由清音和浊音构成。清音是气流通过口径缩小的声门，气流高速冲过产生湍流引起的摩擦音，这种音在语音中占的比例较少，发声时声带不振动，因此没有周期性，类似于宽带噪音；浊音呼气使声带靠拢发声颤动时发出的具有周期性的声音，这种声音在频率构成上由一个基音和一系列谐音构成，基音的频率就是声音周期的倒数。音频频率在语音信号处理中是最基本的参数之一，它在语音信号的分析、合成、编码、识别等各项应用中起着非常重要的作用。

在语音的基音频率检测方面，已经有很多相关研究成果，这些成果大多基于相关性的检测，即通过时域、频域或者信号的预测残差的自相关函数来得到相关性峰值所在的延迟采样数或者离散频率数。基于自相关的方法有以下几个缺陷，首先是自相关的计算量较大；其次检测出的周期采样数是整数，其对应的频率便是一组离散数，精度不足，这在基音频率较高时问题突出；三，自相关函数的峰值判断困难，多数情况下会有多个峰对应着基频、谐频或干扰噪声，这常常导致基频判断错误。

发明内容

本发明要解决的技术问题是提供一种语音基音频率检测方法和装置。通过利用具有较大能量的单调分量作为基音检测的基础，能够提高基音检测在有噪环境下的准确率。

根据本发明的一个方面，提供一种语音基音频率检测方法，包括：

检测语音信号帧中的单调分量；

利用频谱幅值最大的M个单调分量的频率确定候选基频，并将候选基频放置在候选基频集合中；

计算候选基频集合中每个候选基频的和谐判据；

将具有最大和谐判据的候选基频作为所述语音信号帧的基频。

优选的，检测语音信号帧中的单调分量的步骤包括：

针对语音信号帧中的每一个频谱幅值X_A[k]，若X_A[k]同时大于X_A[k-1]和X_A[k+1]，则将X_A[k]作为单调分量，其中k为频谱序号索引。

优选的，若X_A[k]同时大于X_A[k-1]和X_A[k+1]，进一步判断X_A[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值；

若X_A[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值，则执行将X_A[k]作为单调分量的步骤。

优选的，频谱序号索引k的取值范围为大于索引下限int[f_lowN/f_s]，小于索引上限int[f_highN/f_s]，其中函数int[]表示向下舍入取整函数，N为语音信号帧长度，f_s为语音信号的采样频率，f_low为频率下限，f_high为频率上限。

优选的，利用频谱幅值最大的M个单调分量的频率确定候选基频，并将候选基频放置在候选基频集合中的步骤包括：

选择频谱幅值最大的M个单调分量；

对于所述M个单调分量中的每一个单调分量X_A[k]，分别计算相应的分频频率T_f[k]/m_div，其中T_f[k]为单调分量X_A[k]对应的频率，m_div为正整数；

将属于基频范围内的分频频率T_f[k]/m_div作为候选基频放置到候选基频集合中。

优选的，将属于基频范围内的分频频率T_f[k]/m_div作为候选基频放置到候选基频集合中的步骤之后，还包括：

将候选基频集合中数值接近的候选基频合并。

优选的，将候选基频集合中数值接近的候选基频合并的步骤包括：

对于候选基频集合中的包含K_g个元素的子集合{F_candidate[g_i}，i=1,2，...,K_g，若满足

\frac{\max {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]} - \min {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]}}{mean {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]}} < r_{f_thr},

则将子集合{F_candidate[g_i]}中的全部基频合并为一个新候选基频，新候选基频的频率值为

mean {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]},

其中max()是获取最大值的函数，min()是获取最小值的函数，mean()是计算平均值的函数，r_{f_thr}为频率相似阈值。

优选的，单调分量X_A[k]对应的频率T_f[k]为kf_s/N，其中N为语音信号帧长度，f_s为语音信号的采样频率。

优选的，单调分量X_A[k]对应的频率T_f[k]为k_ff_s/N，其中，

k_{f} = k + \frac{X_{A} [k - 1] - X_{A} [k + 1]}{X_{A} [k - 1] + X_{A} [k + 1] - 2 X_{A} [k]},

N为语音信号帧长度，f_s为语音信号的采样频率。

优选的，单调分量X_A[k]对应的频率T_f[k]为k_ff_s/N，其中，

若X_A[k-1]<X_A[k+1]，则

k_{f} = k + \frac{1}{2} - \frac{1}{2} \frac{X_{A} [k] - X_{A} [k + 1]}{X_{A} [k] - X_{A} [k - 1]},

若X_A[k-1]>X_A[k+1]，则

k_{f} = k - \frac{1}{2} + \frac{1}{2} \frac{X_{A} [k] - X_{A} [k - 1]}{X_{A} [k] - X_{A} [k + 1]},

N为语音信号帧长度，f_s为语音信号的采样频率。

优选的，单调分量X_A[k]对应的频率T_f[k]为

T_{f} [k] = \frac{f_{s}}{N} k + \frac{f_{s}}{L} res [\frac{X_{P} - {X_{P}}^{'}}{2 π} - k \frac{L}{N}],

其中X_P为语音信号帧的频谱相位，X_P’为语音信号帧的L点采样前的频谱相位，res[]为取整残差函数，res[x]＝x-int[x+0.5]。

优选的，计算候选基频集合中每个候选基频的和谐判据的步骤包括：

对于候选基频集合中的每个候选基频F_candidate[g]，如果在单调分量集合中存在一个包括K_C个单调分量的子集合，所述子集合对应的频率集合为{T_f[c₁]，...,T_f[c_Kc]}，同时满足

m_{div} = int [\frac{T_{f} [c_{1}]}{F_{candidate} [g]} + 0.5] = int [\frac{T_{f} [c_{2}]}{F_{candidate} [g]} + 0.5] = . . . = int [\frac{T_{f} [c_{K_{C}}]}{F_{candidate} [g]} + 0.5]

和

\max {\frac{| m_{div} F_{candidate} [g] - T_{f} [c_{1}] |}{m_{div} F_{candidate} [g]}, . . ., \frac{| m_{div} F_{candidate} [g] - T_{f} [c_{K_{C}}] |}{m_{div} F_{candidate} [g]}} < r_{h_thr},

则将所述子集合中频率幅度最大的单调分量作为候选基频F_candidate[g]的第m_div-1次谐音A_g[m_div-1]，其中r_h thr为非和谐阈值；

利用候选基频F_candidate[g]的各次谐音计算候选基频F_candidate[g]的和谐判据J_h[g]，其中

J_{h} [g] = Σ_{m = 0}^{m_{M} - 1} {F_{weight_l} (A_{g} [m]) \times F_{weight_h} (A_{g} [m + 1])},

其中m_M为最大的谐音次数，F_{weight_l}()和F_{weight_h}()为加权函数，

\begin{matrix} F_{weight_l} (x) = x^{λ_{l}} + μ_{l} \\ F_{weight_h} (x) = x^{λ_{h}} + μ_{h} \end{matrix},

λ_l,μ_l和λ_h，μ_h为加权系数。

优选的，若候选基频F_candidate[g]的第m次谐音A_g[m]不存在，且m≠0，则设定A_g[m]的幅度为第m-1次谐音A_g[m-1]的幅度的β倍；

若候选基频F_candidate[g]的第0次谐音A_g[0]不存在，则设定A_g[0]的幅度为0。

优选的，利用候选基频F_candidate[g]的各次谐音计算候选基频F_candidate[g]的和谐判据J_h[g]的步骤之后，还包括：

判断候选基频F_candidate[g]相对于前一语音信号帧的基频f_{0_old}的偏差是否满足延续性条件，即：

\frac{| F_{candidate} [g] - f_{0_old} |}{f_{0_old}} < r_{f_change},

若候选基频F_candidate[g]相对于前一语音信号帧的基频f_{0_old}的偏差满足延续性条件，则将候选基频F_candidate[g]的和谐判据J_h[g]乘以加权系数α，其中r_{f_change}为偏差阈值。

根据本发明的另一方面，提供一种语音基音频率检测装置，包括：

检测单元，用于检测语音信号帧中的单调分量；

候选基频确定单元，用于利用频谱幅值最大的M个单调分量的频率确定候选基频，并将候选基频放置在候选基频集合中；

和谐判据计算单元，用于计算候选基频集合中每个候选基频的和谐判据；

基频选择单元，用于将具有最大和谐判据的候选基频作为所述语音信号帧的基频。

优选的，检测单元具体针对语音信号帧中的每一个频谱幅值X_A[k]，若X_A[k]同时大于X_A[k-1]和X_A[k+1]，则将X_A[k]作为单调分量，其中k为频谱序号索引。

优选的，检测单元还用于在X_A[k]同时大于X_A[k-1]和X_A[k+1]时，进一步判断X_A[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值，若X_A[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值，则执行将X_A[k]作为单调分量的操作。

优选的，候选基频确定单元包括第一选择模块、分频频率计算模块和第二选择模块，其中：

第一选择模块，用于选择频谱幅值最大的M个单调分量；

分频频率计算模块，用于对于所述M个单调分量中的每一个单调分量X_A[k]，分别计算相应的分频频率T_f[k]/m_div，其中T_f[k]为单调分量X_A[k]对应的频率，m_div为正整数；

第二选择模块，用于将属于基频范围内的分频频率T_f[k]/m_div作为候选基频放置到候选基频集合中。

优选的，候选基频确定单元还包括合并模块，用于将候选基频集合中数值接近的候选基频合并。

优选的，合并模块具体针对候选基频集合中的包含K_g个元素的子集合{F_candidate[g_i}，i=1,2，...,K_g，若满足

\frac{\max {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]} - \min {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]}}{mean {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]}} < r_{f_thr},

mean {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]},

优选的，和谐判据计算单元具体包括谐音选择模块、判据计算模块，其中：

谐音选择模块，用于针对候选基频集合中的每个候选基频F_candidate[g]，如果在单调分量集合中存在一个包括K_C个单调分量的子集合，所述子集合对应的频率集合为{T_f[c₁]，...,T_f[c_Kc]}，同时满足

m_{div} = int [\frac{T_{f} [c_{1}]}{F_{candidate} [g]} + 0.5] = int [\frac{T_{f} [c_{2}]}{F_{candidate} [g]} + 0.5] = . . . = int [\frac{T_{f} [c_{K_{C}}]}{F_{candidate} [g]} + 0.5]

和

\max {\frac{| m_{div} F_{candidate} [g] - T_{f} [c_{1}] |}{m_{div} F_{candidate} [g]}, . . ., \frac{| m_{div} F_{candidate} [g] - T_{f} [c_{K_{C}}] |}{m_{div} F_{candidate} [g]}} < r_{h_thr},

则将所述子集合中频率幅度最大的单调分量作为候选基频F_candidate[g]的第m_div-1次谐音A_g[m_div-1]，其中r_{h_thr}为非和谐阈值；

判据计算模块，用于利用候选基频F_candidate[g]的各次谐音计算候选基频F_candidate[g]的和谐判据Jh[g]，其中

J_{h} [g] = Σ_{m = 0}^{m_{M} - 1} {F_{weight_l} (A_{g} [m]) \times F_{weight_h} (A_{g} [m + 1])},

\begin{matrix} F_{weight_l} (x) = x^{λ_{l}} + μ_{l} \\ F_{weight_h} (x) = x^{λ_{h}} + μ_{h} \end{matrix},

λ_l,μ_l和λ_h,μ_k为加权系数。

优选的，谐音选择模块具体在候选基频F_candidate[g]的第m次谐音A_g[m]不存在时，且m≠0，则设定A_g[m]的幅度为第m-1次谐音A_g[m-1]的幅度的β倍；在候选基频F_candidate[g]的第0次谐音A_g[0]不存在时，则设定A_g[0]的幅度为0。

优选的，和谐判据计算单元还包括加权模块，用于在判据计算模块利用候选基频F_candidate[g]的各次谐音计算候选基频F_candidate[g]的和谐判据J_h[g]的步骤之后，判断候选基频F_candidate[g]相对于前一语音信号帧的基频f_{0_old}的偏差是否满足延续性条件，即：

\frac{| F_{candidate} [g] - f_{0_old} |}{f_{0_old}} < r_{f_change},

从语音的频域分析可以得知，语音由基音和一系列频率接近基音整数倍的谐音组成，这些基音/谐音中，往往会有一个或数个具有较大能量。反之，在某一时刻语音信号频谱中，幅度或能量最大的几个单调分量，它们具有极大的可能是语音的基音或谐音。那么当前语音的基频频率，具有极大可能等于或接近于这几个单调分量中某一个所对应的频率或该频率的分频。利用这些具有较大幅度或能量的单调分量作为基音检测的基础，基音检测方法可以有较高的抗噪声能力。

本发明通过找到当前时刻语音信号频谱中幅度最大的几个单调分量，利用它们的频率以及整数倍分频作为候选的基频，对这些候选基频逐个做谐波检测，评估当前语音是否在该频率和谐，最终将具有最大和谐性评估判据的候选基频作为检测到的基频。这种方法充分利用了语音频谱中信噪比最大的部分，因此提高了基音检测在有噪环境下的准确率。

附图说明

图1为本发明语音基音频率检测方法一个实施例的示意图。

图2为本发明确定候选基频方法一个实施例的示意图。

图3为本发明确定候选基频方法另一实施例的示意图。

图4为本发明等腰三角形匹配一个实施例的示意图。

图5为本发明计算和谐判据方法一个实施例的示意图。

图6为本发明计算和谐判据方法另一实施例的示意图。

图7为本发明对纯净语音进行基音检测的结果示意图。

图8为本发明对含噪语音进行基音检测的结果示意图。

图9为本发明语音基音频率检测装置一个实施例的示意图。

图10为本发明候选基频确定单元一个实施例的示意图。

图11为本发明候选基频确定单元另一实施例的示意图。

图12为本发明和谐判据计算单元一个实施例的示意图。

图13为本发明和谐判据计算单元另一实施例的示意图。

具体实施方式

下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。

图1为本发明语音基音频率检测方法一个实施例的示意图。如图1所示，本实施例的语音基音频率检测方法步骤如下：

步骤101，检测语音信号帧中的单调分量。

步骤102，利用频谱幅值最大的M个单调分量的频率确定候选基频，并将候选基频放置在候选基频集合中。

步骤103，计算候选基频集合中每个候选基频的和谐判据。

步骤104，将具有最大和谐判据的候选基频作为所述语音信号帧的基频。

通过利用具有较大能量的单调分量作为基音检测的基础，能够提高基音检测在有噪环境下的准确率。

优选的，在上述步骤101中，具体采用以下方式检测语音信号帧中的单调分量：

针对语音信号帧中的每一个频谱幅值X_A[k]，若X_A[k]同时大于X_A[k-1]和X_A[k+1]，则将X_A[k]作为单调分量，其中k为频谱序号索引，k=0，1，2，…，N/2，N为语音信号帧的长度。

优选的，若X_A[k]同时大于X_A[k-1]和X_A[k+1]，还需进一步判断X_A[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值。

若X_A[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值，则将X_A[k]作为单调分量；否则，不将X_A[k]作为单调分量。

这是由于，仅仅检测频谱幅度X_A中的峰值，会带来大量的伪单调分量，这些伪单调分量实际相对频谱本底能量并没有特别突出，或本身就是频谱的一些波动，它们的存在不但会极大增加后续谐波检测的计算量，而且还会降低检测的准确率。通过设置单调分量的幅度阈值可以有效排除这些伪单调分量。

优选的，幅度阈值的取值为不大于20％。作为一种优选实施例，幅度阈值的取值为5％。

单调分量的检测可以对全部频带进行，优选地检测集中语音主要能量的频率范围。因此，可以将频谱序号索引k的取值范围设定为大于索引下限int[f_lowN/f_s]，同时小于索引上限int[f_highN/f_s]，其中函数int[]表示向下舍入取整函数，N为语音信号帧长度，f_s为语音信号的采样频率，f_low为频率下限，f_high为频率上限。

优选的，频率下限f_low的取值范围是40-90Hz，频率上限f_high的取值范围是1200-2000Hz。作为一种优选实施例，频率下限f_low的取值是45Hz，频率上限f_high的取值是1800Hz。

图2为本发明确定候选基频方法一个实施例的示意图。优选的，如图2所示，上述确定候选基频的步骤102可包括以下步骤：

步骤201，选择频谱幅值最大的M个单调分量。

步骤202，对于所述M个单调分量中的每一个单调分量X_A[k]，分别计算相应的分频频率T_f[k]/m_div，其中T_f[k]为单调分量X_A[k]对应的频率，m_div为正整数。

步骤203，将属于基频范围内的分频频率T_f[k]/m_div作为候选基频放置到候选基频集合中。

在某一时刻的语音信号频谱中，幅度或能量最大的几个单调分量，它们极有可能是语音的基音或谐音。那么当前语音的基频频率，极有可能等于或接近于这几个单调分量中某一个所对应的频率或该频率的分频。利用这些具有较大幅度或能量的单调分量作为基音检测的基础，基音检测方法可以有较高的抗噪声能力。

基频范围对应着人类语音的最常见的基音频率范围。优选的，基频范围的下限为50-100Hz，基频范围的上限为400-800Hz。作为一种优选实施例，基频范围的下限为70Hz，基频范围的上限为500Hz。

图3为本发明确定候选基频方法另一实施例的示意图。与图2所示实施例相比，在图3所示实施例中，还进一步对候选基频集合中数值接近的候选基频合并。具体方法步骤如下：

步骤301，选择频谱幅值最大的M个单调分量。

步骤302，对于所述M个单调分量中的每一个单调分量X_A[k]，分别计算相应的分频频率T_f[k]/m_div，其中T_f[k]为单调分量X_A[k]对应的频率，m_div为正整数。

步骤303，将属于基频范围内的分频频率T_f[k]/m_div作为候选基频放置到候选基频集合中。

步骤304，将候选基频集合中数值接近的候选基频合并。

在候选基频集合中，往往会有数个候选基频频率值十分接近。通过将这些候选基频合并，可以将候选基频集合变小，这可降低后续计算的工作量。

优选的，上述将候选基频集合中数值接近的候选基频合并的步骤包括：

对于候选基频集合中的包含K_g个元素的子集合{F_candidate[g_i]}，i=1,2，...,K_g，若满足

\frac{\max {F_{candidate} [g_{1}], . . ., F_{cadidate} [g_{K_{g}}]} - \min {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]}}{mean {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]}} < r_{f_thr},

mean {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]},

优选的，频率相似阈值r_{f_thr}的取值大于0且不大于0.2，作为一个优选实施例，频率相似阈值r_{f_thr}的取值为0.02。

在上述实施例中，可通过各种方式计算单调分量X_A[k]对应的频率T_f[k]，下面给出几个具体实施例。需要说明的是，这几个实施例仅是示例性的，并不用于限定本发明。

实施例一：将单调分量X_A[k]对应的频率T_f[k]为kf_s/N，其中N为语音信号帧长度，f_s为语音信号的采样频率。这是频率T_f[k]的一种近似表示。

实施例二：单调分量X_A[k]对应的频率T_f[k]为k_ff_s/N。这里，k_f对应于X_A[k-1]、X_A[k]和X_A[k+1]做二阶多项式拟合求得其最高点。二阶多项式拟合是令二阶多项式曲线ax²+bx+c＝y通过三个点{k-1，X_A[k-1]}，{k，X_A[k]}，{k+1，X_A[k+1]}，曲线的最大值将出现在

k_{f} = x = \frac{- b}{2 a} = k + \frac{X_{A} [k - 1] - X_{A} [k + 1]}{X_{A} [k - 1] + X_{A} [k + 1] - 2 X_{A} [k]},

其中N为语音信号帧长度，f_s为语音信号的采样频率。

可选地，用于二阶多项式拟合的幅度值X_A[k-1]、X_A[k]和X_A[k+1]可以用它们的对数域值log{X_A[k-1]}、log{X_A[k]}和log{X_A[k+1]}代替。

实施例三：单调分量X_A[k]对应的频率T_f[k]为k_ff_s/N。这里，k_f对应于利用X_A[k-1]、X_A[k]和X_A[k+1]做等腰三角形匹配求得的最高点。

等腰三角形匹配是令三个点{k-1，X_A[k-1]}、{k，X_A[k]}、{k+1，X_A[k+1]}在等腰三角形对称的两条腰上，等腰三角形的底平行于索引对应的轴。可选地，用于等腰三角形匹配的幅度值X_A[k-1]、X_A[k]和X_A[k+1]可以用它们的对数域值代替。图4为本发明等腰三角形匹配一个实施例的示意图，其中X_A[k-1]<X_A[k+1]。

若X_A[k-1]<X_A[k+1]，则等腰三角形的顶点出现在

k_{f} = k + \frac{1}{2} - \frac{1}{2} \frac{X_{A} [k] - X_{A} [k + 1]}{X_{A} [k] - X_{A} [k - 1]},

同时，若X_A[k-1]>X_A[k+1]，则等腰三角形的顶点出现在

k_{f} = k - \frac{1}{2} + \frac{1}{2} \frac{X_{A} [k] - X_{A} [k - 1]}{X_{A} [k] - X_{A} [k + 1]},

其中N为语音信号帧长度，f_s为语音信号的采样频率。

实施例四：利用相位差进行频率估计以得到所有频率对应的频率。即，单调分量X_A[k]对应的频率T_f[k]为

T_{f} [k] = \frac{f_{s}}{N} k + \frac{f_{s}}{L} res [\frac{X_{P} - {X_{P}}^{'}}{2 π} - k \frac{L}{N}],

图5为本发明计算和谐判据一个实施例的示意图。优选的，如图5所示，上述计算和谐判据的步骤103可包括以下步骤：

步骤501，计算候选基频的各次谐音。

优选的，对于候选基频集合中的每个候选基频F_candidate[g]，如果在单调分量集合中存在一个包括K_C个单调分量的子集合，所述子集合对应的频率集合为{T_f[c₁]，...,T_f[cK_c]}，同时满足

m_{div} = int [\frac{T_{f} [c_{1}]}{F_{candidate} [g]} + 0.5] = int [\frac{T_{f} [c_{2}]}{F_{candidate} [g]} + 0.5] = . . . = int [\frac{T_{f} [c_{K_{C}}]}{F_{candidate} [g]} + 0.5]

和

\max {\frac{| m_{div} F_{candidate} [g] - T_{f} [c_{1}] |}{m_{div} F_{candidate} [g]}, . . ., \frac{| m_{div} F_{candidate} [g] - T_{f} [c_{K_{C}}] |}{m_{div} F_{candidate} [g]}} < r_{h_thr},

则将所述子集合中频率幅度最大的单调分量作为候选基频F_candidate[g]的第m_div-1次谐音A_g[m_div-1]，其中r_{h_thr}为非和谐阈值。

优选的，非和谐阈值r_{h_thr}的取值范围是大于0且小于0.15。作为一种优选实施例，r_{h_thr}的取值为0.05。

优选的，若候选基频F_candidate[g]的第m次谐音A_g[m]不存在，且m≠0，则设定A_g[m]的幅度为第m-1次谐音A_g[m-1]的幅度的β倍。若候选基频F_candidate[g]的第0次谐音A_g[0]不存在，则设定A_g[0]的幅度为0。

优选的，β的范围是0<β<1。作为一种优选实施例，β的值为0.5。

步骤502，利用候选基频的各次谐音计算候选基频的和谐判据。

优选的，利用候选基频F_candidate[g]的各次谐音计算候选基频F_candidate[g]的和谐判据J_h[g]，其中

J_{h} [g] = Σ_{m = 0}^{m_{M} - 1} {F_{weight_l} (A_{g} [m]) \times F_{weight_h} (A_{g} [m + 1])},

\begin{matrix} F_{weight_l} (x) = x^{λ_{l}} + μ_{l} \\ F_{weight_h} (x) = x^{λ_{h}} + μ_{h} \end{matrix},

λ_l,μ_l和λ_h,μ_h为加权系数。

优选的，加权系数λ_l和λ_h的取值范围是0<λ_l,λ_h<3，μ_l和μ_h的取值范围是-min(A_g[m])<μ_l,μ_h<max(A_g[m]),m=1,2,...,m_M。作为一种优选实施例，λ_l=1,λ_h=1,μ_l=0,μ_h=0。

图6为本发明计算和谐判据另一实施例的示意图。与图5所示实施例相比，在图6所示实施例中，还需要进一步对和谐判据进行加权处理。具体方法步骤如下：

步骤601，计算候选基频的各次谐音。

步骤602，利用候选基频的各次谐音计算候选基频的和谐判据。

步骤603，对和谐判据进行加权处理。

语音基频的变化是连续的，几乎不存在突变。基音判断由于种种因素干扰，得到的基音估计会出现跳变，主要是跳变到一次倍频。为了提高基音估计的连续性，在判决前需要对和谐性评估判据J_h[g]进行延续性加权。即，判断候选基频F_candidate[g]相对于前一语音信号帧的基频f_{0_old}的偏差是否满足延续性条件，即：

\frac{| F_{candidate} [g] - f_{0_old} |}{f_{0_old}} < r_{f_change},

优选的，加权系数α的取值范围为1.5≤α≤3，偏差阈值r_{f_change}的取值范围为0.1≤r_{f_change}≤0.3。作为一种优选实施例，加权系数α的取值为2，参数r_{f_change}的取值为0.2。

图7和图8分别是使用本发明对一段纯净语音和一段含噪语音进行基音检测的结果。语音信号的采样频率是8000Hz，频谱分析的帧长为512，每隔128个采样进行一次分析，频率估计采用相位差估计，其余参数均采用上述优选实施例。在图7和图8中，上半部分曲线为检测到的基音轨迹，下半部分是语音的光谱图。从图7和图8中可以看到，本发明的基音检测效果良好，检测到的基音轨迹能平稳准确的符合语音光谱图中的声纹轨迹。

图9为本发明语音基音频率检测装置一个实施例的示意图。如图9所示，该装置包括：

检测单元901，用于检测语音信号帧中的单调分量。

候选基频确定单元902，用于利用频谱幅值最大的M个单调分量的频率确定候选基频，并将候选基频放置在候选基频集合中。

和谐判据计算单元903，用于计算候选基频集合中每个候选基频的和谐判据。

基频选择单元904，用于将具有最大和谐判据的候选基频作为所述语音信号帧的基频。

优选的，检测单元901具体针对语音信号帧中的每一个频谱幅值X_A[k]，若X_A[k]同时大于X_A[k-1]和X_A[k+1]，则将X_A[k]作为单调分量，其中k为频谱序号索引。

优选的，检测单元901还用于在X_A[k]同时大于X_A[k-1]和X_A[k+1]时，进一步判断X_A[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值，若X_A[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值，则执行将X_A[k]作为单调分量的操作。

通过设置单调分量的幅度阈值可以有效排除这些伪单调分量。

优选的，频率下限f_low的取值范围是40-90Hz，频率上限f_high的取值范围是1200-2000Hz。作为一种优选实施例，频率下限f_low的取值是45Hz，频率上限f_high的取值是1800Hz。从而可以检测集中语音主要能量的频率范围。

图10为本发明候选基频确定单元一个实施例的示意图。如图10所示，候选基频确定单元902包括第一选择模块1001、分频频率计算模块1002和第二选择模块1003，其中：

第一选择模块1001，用于选择频谱幅值最大的M个单调分量。

分频频率计算模块1002，用于对于所述M个单调分量中的每一个单调分量X_A[k]，分别计算相应的分频频率T_f[k]/m_div，其中T_f[k]为单调分量X_A[k]对应的频率，m_div为正整数。

第二选择模块1003，用于将属于基频范围内的分频频率T_f[k]/m_div作为候选基频放置到候选基频集合中。

优选的，基频范围的下限为50-100Hz，基频范围的上限为400-800Hz。作为一种优选实施例，基频范围的下限为70Hz，基频范围的上限为500Hz。

图11为本发明候选基频确定单元另一实施例的示意图。其中在图11所示实施例中，第一选择模块1101、分频频率计算模块1102和第二选择模块1103与图10所示实施例中的第一选择模块1001、分频频率计算模块1002和第二选择模块1003相同。此外，在图11所示实施例中，还包括合并模块1104，用于将候选基频集合中数值接近的候选基频合并。

优选的，合并模块1104具体针对候选基频集合中的包含K_g个元素的子集合{F_candidate[g_i]}，i=1,2，...,K_g，若满足

\frac{\max {F_{candidate} [g_{1}], . . ., F_{cadidate} [g_{K_{g}}]} - \min {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]}}{mean {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]}} < r_{f_thr},

mean {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]},

优选的，可采用上述给出的实施例一至实施例四中的一个来计算单调分量X_A[k]对应的频率T_f[k]。

图12为本发明和谐判据计算单元一个实施例的示意图。如图12所示，和谐判据计算单元具体包括谐音选择模块1201、判据计算模块1202，其中：

谐音选择模块1201，用于针对候选基频集合中的每个候选基频F_candidate[g]，如果在单调分量集合中存在一个包括K_C个单调分量的子集合，所述子集合对应的频率集合为{T_f[c₁]，...,T_f[c_Kc]}，同时满足

m_{div} = int [\frac{T_{f} [c_{1}]}{F_{candidate} [g]} + 0.5] = int [\frac{T_{f} [c_{2}]}{F_{candidate} [g]} + 0.5] = . . . = int [\frac{T_{f} [c_{K_{C}}]}{F_{candidate} [g]} + 0.5]

和

\max {\frac{| m_{div} F_{candidate} [g] - T_{f} [c_{1}] |}{m_{div} F_{candidate} [g]}, . . ., \frac{| m_{div} F_{candidate} [g] - T_{f} [c_{K_{C}}] |}{m_{div} F_{candidate} [g]}} < r_{h_thr},

判据计算模块1202，用于利用候选基频F_candidate[g]的各次谐音计算候选基频F_candidate[g]的和谐判据J_h[g]，其中

J_{h} [g] = Σ_{m = 0}^{m_{M} - 1} {F_{weight_l} (A_{g} [m]) \times F_{weight_h} (A_{g} [m + 1])},

其中m_M为最大的谐音次数，F_{weieht_l}()和F_{weight_h}()为加权函数，

\begin{matrix} F_{weight_l} (x) = x^{λ_{l}} + μ_{l} \\ F_{weight_h} (x) = x^{λ_{h}} + μ_{h} \end{matrix},

λ_l,μ_l和λ_h,μ_h为加权系数。

优选的，加权系数λ_l和λ_h的取值范围是0<λ_l,λ_h<3,μ_l和μ_h的取值范围是-min(A_g[m])<μ_l,μ_h<max(A_g[m]),m=1,2,...,m_M。作为一种优选实施例，λ_l=1,λ_h=1,μ_l=0,μ_h=0。

优选的，谐音选择模块1201具体在候选基频F_candidate[g]的第m次谐音A_g[m]不存在时，且m≠0，则设定A_g[m]的幅度为第m-1次谐音A_g[m-1]的幅度的β倍；在候选基频F_candidate[g]的第0次谐音A_g[0]不存在时，则设定A_g[0]的幅度为0。

图13为本发明和谐判据计算单元另一实施例的示意图。其中在图13所示实施例中，谐音选择模块1301和判据计算模块1302分别与图12所示实施例中涉及的谐音选择模块1201和判据计算模块1202相同。此外，和谐判据计算单元903还包括加权模块1303，用于在判据计算模块利用候选基频F_candidate[g]的各次谐音计算候选基频F_candidate[g]的和谐判据J_h[g]的步骤之后，判断候选基频F_candidate[g]相对于前一语音信号帧的基频f_{0_old}的偏差是否满足延续性条件，即：

\frac{| F_{candidate} [g] - f_{0_old} |}{f_{0_old}} < r_{f_change},

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种语音基音频率检测方法，其特征在于，包括：

检测语音信号帧中的单调分量；

计算候选基频集合中每个候选基频的和谐判据；

2.根据权利要求1所述的方法，其特征在于：

检测语音信号帧中的单调分量的步骤包括：

3.根据权利要求2所述的方法，其特征在于：

若X_A[k]同时大于X_A[k-1]和X_A[k+1]，进一步判断X_A[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值；

4.根据权利要求2或3所述的方法，其特征在于：

频谱序号索引k的取值范围为大于索引下限int[f_lowN/f_s]，小于索引上限int[f_highN/f_s]，其中函数int[]表示向下舍入取整函数，N为语音信号帧长度，f_s为语音信号的采样频率，f_low为频率下限，f_high为频率上限。

5.根据权利要求1所述的方法，其特征在于：

利用频谱幅值最大的M个单调分量的频率确定候选基频，并将候选基频放置在候选基频集合中的步骤包括：

选择频谱幅值最大的M个单调分量；

6.根据权利要求5所述的方法，其特征在于：

将属于基频范围内的分频频率T_f[k]/m_div作为候选基频放置到候选基频集合中的步骤之后，还包括：

将候选基频集合中数值接近的候选基频合并。

7.根据权利要求6所述的方法，其特征在于：

将候选基频集合中数值接近的候选基频合并的步骤包括：

对于候选基频集合中的包含K_g个元素的子集合{F_candidate[g_i]}，i=1,2,…,K_g，若满足

\frac{\max {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]} - \min {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]}}{mean {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]}} < r_{f_thr},

mean {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]},

8.根据权利要求5-7中任一项所述的方法，其特征在于：

单调分量X_A[k]对应的频率T_f[k]为kf_s/N，其中N为语音信号帧长度，f_s为语音信号的采样频率。

9.根据权利要求5-7中任一项所述的方法，其特征在于：

单调分量X_A[k]对应的频率T_f[k]为k_ff_s/N，其中，

k_{f} = k + \frac{X_{A} [k - 1] - X_{A} [k + 1]}{X_{A} [k - 1] + X_{A} [k + 1] - 2 X_{A} [k]},

N为语音信号帧长度，f_s为语音信号的采样频率。

10.根据权利要求5-7中任一项所述的方法，其特征在于：

单调分量X_A[k]对应的频率T_f[k]为k_ff_s/N，其中，

若X_A[k-1]<X_A[k+1]，则

k_{f} = k + \frac{1}{2} - \frac{1}{2} \frac{X_{A} [k] - X_{A} [k + 1]}{X_{A} [k] - X_{A} [k - 1]},

若X_A[k-1]>X_A[k+1]，则

k_{f} = k - \frac{1}{2} + \frac{1}{2} \frac{X_{A} [k] - X_{A} [k - 1]}{X_{A} [k] - X_{A} [k + 1]},

N为语音信号帧长度，f_s为语音信号的采样频率。

11.根据权利要求5-7中任一项所述的方法，其特征在于：

单调分量X_A[k]对应的频率T_f[k]为

T_{f} [k] = \frac{f_{s}}{N} k + \frac{f_{s}}{L} res [\frac{X_{P} - {X_{P}}^{'}}{2 π} - k \frac{L}{N}],

12.根据权利要求1所述的方法，其特征在于：

计算候选基频集合中每个候选基频的和谐判据的步骤包括：

对于候选基频集合中的每个候选基频F_candidate[g]，如果在单调分量集合中存在一个包括K_C个单调分量的子集合，所述子集合对应的频率集合为{T_f[c₁],…,T_f[c_Kc]}，同时满足

m_{div} = int [\frac{T_{f} [c_{1}]}{F_{candidate} [g]} + 0.5] = int [\frac{T_{f} [c_{2}]}{F_{candidate} [g]} + 0.5] = . . . = int [\frac{T_{f} [c_{K_{C}}]}{F_{candidate} [g]} + 0.5]

和

\max {\frac{| m_{div} F_{candidate} [g] - T_{f} [c_{1}] |}{m_{div} F_{candidate} [g]}, . . ., \frac{| m_{div} F_{candidate} [g] - T_{f} [c_{K_{C}}] |}{m_{div} F_{candidate} [g]}} < r_{h_thr},

J_{h} [g] = Σ_{m = 0}^{m_{M} - 1} {F_{weight_l} (A_{g} [m]) \times F_{weight_h} (A_{g} [m + 1])},

\begin{matrix} F_{weight_l} (x) = x^{λ_{l}} + μ_{l} \\ F_{weight_h} (x) = x^{λ_{h}} + μ_{h} \end{matrix},

λ_l,μ_l和λ_h,μ_k为加权系数。

13.根据权利要求12所述的方法，其特征在于：

若候选基频F_candidate[g]的第m次谐音A_g[m]不存在，且m≠0，则设定A_g[m]的幅度为第m-1次谐音A_g[m-1]的幅度的β倍；

14.根据权利要求12或13所述的方法，其特征在于：

利用候选基频F_candidate[g]的各次谐音计算候选基频F_candidate[g]的和谐判据J_h[g]的步骤之后，还包括：

\frac{| F_{candidate} [g] - f_{0_old} |}{f_{0_old}} < r_{f_change},

15.一种语音基音频率检测装置，其特征在于，包括：

检测单元，用于检测语音信号帧中的单调分量；

16.根据权利要求15所述的装置，其特征在于：

检测单元具体针对语音信号帧中的每一个频谱幅值X_A[k]，若X_A[k]同时大于X_A[k-1]和X_A[k+1]，则将X_A[k]作为单调分量，其中k为频谱序号索引。

17.根据权利要求16所述的装置，其特征在于：

检测单元还用于在X_A[k]同时大于X_A[k-1]和X_A[k+1]时，进一步判断X_A[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值，若X_A[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值，则执行将X_A[k]作为单调分量的操作。

18.根据权利要求16或17所述的装置，其特征在于：

19.根据权利要求15所述的装置，其特征在于：

候选基频确定单元包括第一选择模块、分频频率计算模块和第二选择模块，其中：

第一选择模块，用于选择频谱幅值最大的M个单调分量；

20.根据权利要求19所述的装置，其特征在于：

候选基频确定单元还包括合并模块，用于将候选基频集合中数值接近的候选基频合并。

21.根据权利要求20所述的装置，其特征在于：

合并模块具体针对候选基频集合中的包含K_g个元素的子集合{F_candidate[g_i]}，i＝1,2，...,K_g，若满足

\frac{\max {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]} - \min {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]}}{mean {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]}} < r_{f_thr},

mean {F_{candidate} [g_{1}], . . ., F_{candidate} [g_{K_{g}}]},

22.根据权利要求15所述的装置，其特征在于：

和谐判据计算单元具体包括谐音选择模块、判据计算模块，其中：

m_{div} = int [\frac{T_{f} [c_{1}]}{F_{candidate} [g]} + 0.5] = int [\frac{T_{f} [c_{2}]}{F_{candidate} [g]} + 0.5] = . . . = int [\frac{T_{f} [c_{K_{C}}]}{F_{candidate} [g]} + 0.5]

和

\max {\frac{| m_{div} F_{candidate} [g] - T_{f} [c_{1}] |}{m_{div} F_{candidate} [g]}, . . ., \frac{| m_{div} F_{candidate} [g] - T_{f} [c_{K_{C}}] |}{m_{div} F_{candidate} [g]}} < r_{h_thr},

判据计算模块，用于利用候选基频F_candidate[g]的各次谐音计算候选基频F_candidate[g]的和谐判据J_h[g]，其中

J_{h} [g] = Σ_{m = 0}^{m_{M} - 1} {F_{weight_l} (A_{g} [m]) \times F_{weight_h} (A_{g} [m + 1])},

\begin{matrix} F_{weight_l} (x) = x^{λ_{l}} + μ_{l} \\ F_{weight_h} (x) = x^{λ_{h}} + μ_{h} \end{matrix},

λ_l,μ_l和λ_h,μ_h为加权系数。

23.根据权利要求22所述的装置，其特征在于：

谐音选择模块具体在候选基频F_candidate[g]的第m次谐音A_g[m]不存在时，且m≠0，则设定A_g[m]的幅度为第m-1次谐音A_g[m-1]的幅度的β倍；在候选基频F_candidate[g]的第0次谐音A_g[0]不存在时，则设定A_g[0]的幅度为0。

24.根据权利要求22或23所述的装置，其特征在于：

和谐判据计算单元还包括加权模块，用于在判据计算模块利用候选基频F_candidate[g]的各次谐音计算候选基频F_candidate[g]的和谐判据J_h[g]的步骤之后，判断候选基频F_candidate[g]相对于前一语音信号帧的基频f_{0_old}的偏差是否满足延续性条件，即：

\frac{| F_{candidate} [g] - f_{0_old} |}{f_{0_old}} < r_{f_change},