CN114822577A

CN114822577A - 语音信号基频估计方法和装置

Info

Publication number: CN114822577A
Application number: CN202210717242.7A
Authority: CN
Inventors: 梁民
Original assignee: G Net Cloud Service Co Ltd
Current assignee: G Net Cloud Service Co Ltd
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-07-29
Anticipated expiration: 2042-06-23
Also published as: CN114822577B

Abstract

本发明公开了一种语音信号基频估计方法和装置。所述方法包括：对含噪语音信号进行降噪处理，得到语音短时频谱；根据所述语音短时频谱及其谱包络，提取声源激励短时幅度谱；根据所述声源激励短时幅度谱，提取基频参数。本发明通过对含噪语音信号进行降噪处理，实现运行环境的平稳与非平稳以及相干与非相干噪声的抑制，增强基频估计的鲁棒性；基于声源激励短时幅度谱提取基频参数，提高基频估计的准确度和抗噪能力。

Description

语音信号基频估计方法和装置

技术领域

本发明涉及通信技术领域，尤其涉及一种语音信号基频估计方法和装置。

背景技术

语音信号的基频（Fundamental frequency，通常记为F₀）估计又名基音（Pitch）估计或检测，在诸如语音增强、语音声码器、语音合成和语音识别等领域获得广泛而深入的应用。针对语音信号的基频估计（或称基音检测），目前已涌现出大量的技术方法，这些众多的技术方法通常可划分为时域、频域和时-频混合域的三种处理技术。

然而，目前基于时域处理技术的语音信号基音检测方法主要是利用语音信号的时域周期性，具有代表性并获得广泛使用的这类基音检测器是基于时域的相关函数和/或差分函数，这些时域语音信号基音检测技术虽然对纯净语音信号和不相关白噪声环境下的含噪语音信号的基频或基音周期提取，取得了良好的预期结果；但在相干和非平稳噪声条件下，其性能却急剧下降。

基于频域处理技术的语音信号基音检测方法中，考虑到有声语音（Voicedspeech, 即浊音）的周期性反映为其幅度谱中的谐波结构这一特性，致使这些频域基音检测技术方法的性能受限于被处理语音信号须有较好的谐波结构，如果谐波结构不明显，例如钟形的非谐波频谱或正弦曲线的单部分频谱，该类方法将提供错误的结果，并且它们对环境噪声均缺乏较好的鲁棒性。

而基于时-频混合域处理技术的语音信号基音检测方法通常将输入信号分解为多个频率子带，并对每个子带信号应用时域处理技术，然而，目前基于时-频混合域语音信号基音检测技术在大部分低频谐波因传输信道特性而被衰减或者被强低频噪声干扰所掩盖时，其性能将急剧恶化。

因此，尽管目前已涌现出大量的基频估计技术方法，但这些技术方法对含噪语音信号，特别是低信噪比条件下的含噪语音信号，其估计性能有待提高。

发明内容

为了解决上述问题，本发明提供了一种语音信号基频估计方法和装置，能够在低信噪比条件下对平稳和非平稳以及相干和非相干环境噪声具有良好的鲁棒性，提高基频估计的准确度和抗噪能力。

本发明的第一方面涉及一种语音信号基频估计方法，包括：

对含噪语音信号进行降噪处理，得到语音短时频谱；

根据所述语音短时频谱及其谱包络，提取声源激励短时幅度谱；

根据所述声源激励短时幅度谱，提取基频参数。

可选地，所述对含噪语音信号进行降噪处理之前，还包括：

对所述含噪语音信号进行预加重处理。

可选地，所述对含噪语音信号进行降噪处理，包括：

根据预加重处理后的含噪语音信号的奇偶序列谱信号，得到噪声抑制增益函数；

利用所述噪声抑制增益函数，对预加重处理后的含噪语音信号的谱信号进行降噪滤波，得到增强的语音信号的短时频谱。

可选地，所述对含噪语音信号进行降噪处理之后，所述方法还包括：

对所述增强的语音信号的短时频谱进行时频域平滑处理；

相应地，将经过时频域平滑处理的所述增强的语音信号的短时频谱，作为所述语音短时频谱。

可选地，所述语音短时频谱的谱包络根据如下方式提取：

根据所述语音短时频谱，计算其频谱自相关函数；

获取所述频谱自相关函数的局部峰值频点集；

通过在对数幅度谱尺度下进行线性插值，确定所述语音短时频谱的谱包络。

可选地，所述根据所述语音短时频谱及其谱包络，提取声源激励短时幅度谱，包括：

根据所述语音短时频谱，提取语音短时幅度谱；

将所述语音短时幅度谱与所述语音短时频谱的谱包络的比值，作为所述声源激励短时幅度谱。

可选地，所述根据所述声源激励短时幅度谱，提取基频参数，包括：

根据所述声源激励短时幅度谱，构造基音周期代价函数；

根据所述基音周期代价函数的最大峰值点位置以及预置的门限参数，进行有声/无声语音的识别；

对于有声语音，通过抛物线插值技术，根据所述代价函数最大峰值点位置以及数字信号的采样频率提取基频参数。

可选地，所述语音信号基频估计方法还包括：

对每帧提取的基频参数进行平滑后处理，获得基频参数轨迹。

本发明的第二方面涉及一种语音信号基频估计装置，包括：

含噪语音信号预处理模块，用于对含噪语音信号进行降噪处理，得到语音短时频谱；

声源激励短时幅度谱提取模块，用于根据所述语音短时频谱及其谱包络，提取声源激励短时幅度谱；

基频参数提取模块，用于根据所述声源激励短时幅度谱，提取基频参数。

可选地，所述含噪语音信号预处理模块还用于对含噪语音信号进行降噪处理之前，对所述含噪语音信号进行预加重处理。

可选地，所述含噪语音信号预处理模块具体用于根据预加重处理后的含噪语音信号的奇偶序列谱信号，得到噪声抑制增益函数；利用所述噪声抑制增益函数，对预加重处理后的含噪语音信号的谱信号进行降噪滤波，得到增强的语音信号的短时频谱。

可选地，所述含噪语音信号预处理模块还用于对含噪语音信号进行降噪处理之后，对所述增强的语音信号的短时频谱进行时频域平滑处理；将经过时频域平滑处理的所述增强的语音信号的短时频谱，作为所述语音短时频谱。

可选地，所述声源激励短时幅度谱提取模块具体用于根据如下方式提取所述语音短时频谱的谱包络：根据所述语音短时频谱，计算其频谱自相关函数；获取所述频谱自相关函数的局部峰值频点集；通过在对数幅度谱尺度下进行线性插值，确定所述语音短时频谱的谱包络。

可选地，所述声源激励短时幅度谱提取模块具体用于根据所述语音短时频谱，提取语音短时幅度谱；将所述语音短时幅度谱与所述语音短时频谱的谱包络的比值，作为所述声源激励短时幅度谱。

可选地，所述基频参数提取模块具体用于根据所述声源激励短时幅度谱，构造基音周期代价函数；根据所述基音周期代价函数的最大峰值点位置以及预置的门限参数，进行有声/无声语音的识别；对于有声语音，通过抛物线插值技术，根据所述代价函数最大峰值点位置以及数字信号的采样频率提取基频参数。

可选地，所述语音信号基频估计装置还包括：用于对每帧提取的基频参数进行平滑后处理，获得基频参数轨迹的基频轨迹跟踪模块。

本发明的第三方面涉及一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如第一方面所述的语音信号基频估计方法。

本发明的第四方面涉及一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如第一方面所述的语音信号基频估计方法。

本发明通过对含噪语音信号进行降噪处理，实现运行环境的平稳与非平稳以及相干与非相干噪声的抑制，增强基频估计的鲁棒性；基于声源激励短时幅度谱提取基频参数，提高基频估计的准确度和抗噪能力。

附图说明

图1为根据本发明一实施例的语音信号基频估计方法的流程示意图；

图2为根据本发明一实施例的含噪语音信号预处理方法的流程示意图；

图3为根据本发明一实施例的谱包络提取方法的流程示意图；

图4为根据本发明一实施例的基于声源激励短时幅度谱估计基频的方法的流程示意图；

图5为根据本发明一实施例的语音信号基频估计装置的结构示意图；

图6为根据本发明又一实施例的语音信号基频估计装置的结构示意图；

图7为能够实施本发明实施例的示例性电子设备的方框示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

语音信号的产生模型指出，语音信号是由一声源激励信号经过声道传输滤波器和口-唇辐射处理后而产生的，其中声源激励信号在有声语音（即浊音）时为一（基音）周期脉冲串信号，而在无声语音（即清音）时为一随机白噪声信号。根据这一模型，如图1所示，本发明一实施例提供了一种语音信号基频估计方法，包括：S101、对含噪语音信号进行降噪处理，得到语音短时频谱；S102、根据所述语音短时频谱及其谱包络，提取声源激励短时幅度谱； S103、根据所述声源激励短时幅度谱，提取基频参数。

本发明的一些实施例中，针对含噪语音信号的降噪处理，可以根据所述含噪语音信号的奇偶序列谱信号，得到噪声抑制增益函数；利用所述噪声抑制增益函数，对所述含噪语音信号的谱信号进行降噪滤波，得到增强的语音信号的短时频谱，并作为所述语音短时频谱。具体地，可以根据含噪语音信号的谱信号，得到所述含噪语音信号的奇序列谱信号和偶序列谱信号；根据所述奇序列谱信号和偶序列谱信号，估计所述含噪语音信号的奇偶序列互功率谱；估计所述含噪语音信号中噪声信号的奇偶序列互功率谱幅度；根据所述含噪语音信号的奇偶序列互功率谱的幅度和所述噪声信号的奇偶序列互功率谱幅度，计算含噪语音信号中语音信号的奇偶序列互功率谱幅度；根据所述语音信号的奇偶序列互功率谱幅度、所述含噪语音信号的奇序列自功率谱，以及所述含噪语音信号的偶序列自功率谱，估计噪声抑制增益函数。这样，通过含噪语音信号的奇偶序列谱信号来设计一个降噪滤波器的噪声抑制增益函数，用之对含噪语音信号的谱信号进行滤波处理，可以自适应抑制运行环境的平稳与非平稳以及相干与非相干噪声。

考虑语音短时频谱的谱包络近似等价于声道传输滤波器幅度谱。本发明的一些实施例中，可以提取语音短时频谱的谱包络；之后，根据所述语音短时频谱，提取语音短时幅度谱，并将所述语音短时幅度谱与所述语音短时频谱的谱包络的比值，作为所述声源激励短时幅度谱。

本发明实施例提供的语音信号基频估计方案中，通过对含噪语音信号进行降噪处理，实现运行环境的平稳与非平稳以及相干与非相干噪声的抑制，增强基频估计的鲁棒性；通过降噪处理后得到的语音短时频谱来提取声源激励短时幅度谱，并根据声源激励短时幅度谱提取基频参数，可极大地降低声道传输特性（特别是共振峰频率）对基频估计的影响，估计准确度高且计算复杂度较低，便于在商用DSP（Digital Signal Processing，数字信号处理）芯片上实时实现。

本发明的一些实施例中，对含噪语音信号进行降噪处理之前，可以对所述含噪语音信号进行预加重处理。相应地，后续对预加重处理后的含噪语音信号进行降噪处理。这样，通过对含噪语音信号进行预加重处理，可以有效补偿语音信号生成时的口-唇辐射的能量衰减效应，从而提高基频估计的准确度。

本发明的一些实施例中，可以根据预加重处理后的含噪语音信号的奇偶序列谱信号，得到噪声抑制增益函数；利用所述噪声抑制增益函数，对预加重处理后的含噪语音信号的谱信号进行降噪滤波，得到增强的语音信号的短时频谱。

本发明的一些实施例中，对含噪语音信号进行降噪处理之后，可以对语音信号的短时频谱进行时频域平滑处理。相应地，将经过时频域平滑处理的语音信号的短时频谱，作为语音短时频谱。这样，可以进一步降低语音短时频谱中残留环境噪声谱分量对后续基频估计的影响，提高基频估计的准确度。

本发明的一些实施例中，根据所述声源激励短时幅度谱，提取基频参数之后，对每帧提取的基频参数进行平滑后处理，获得基频参数轨迹。实际应用中，可以应用递归就地增长型移动平均-中值混合滤波非线性后处理技术，对每帧估计的基频参数进行实时跟踪后处理，从而进一步获得更为可靠而精确的基频参数轨迹。

参考图2，其示出了根据本发明一实施例的含噪语音信号预处理方法的流程示意图。如图2所示，本发明一实施例提供了一种含噪语音信号预处理方法，包括：

S201、对所述含噪语音信号进行预加重处理。

可以理解的是，含噪语音信号x(n)在数学上可表示为：

（1）

其中，

为纯净的语音信号，

为环境噪声信号，并假设它们之间统计不相关；n为时域样本索引，n=0，1，2，……。

对（1）式应用预加重处理，获得预加重处理后的含噪语音信号y(n)：

（2）

其中，

和

分别为预加重处理后的纯净语音信号和环境噪声信号，

为预置的预加重系数；显然s(n)和v(n)统计不相关。

可以理解的是，对含噪语音信号x(n)进行预加重处理产生输出信号y(n)，其目的是补偿语音信号生成时的口-唇辐射的能量衰减效应。

S202、对预加重处理后的含噪语音信号进行降噪处理，得到增强的语音信号的短时频谱。

本发明的一些实施例中，可以根据预加重处理后的含噪语音信号的谱信号，得到所述预加重处理后的含噪语音信号的奇序列谱信号和偶序列谱信号；根据所述奇序列谱信号和偶序列谱信号，估计所述预加重处理后的含噪语音信号的奇偶序列互功率谱；估计所述预加重处理后的含噪语音信号中噪声信号的奇偶序列互功率谱幅度；根据所述预加重处理后的含噪语音信号的奇偶序列互功率谱的幅度和所述噪声信号的奇偶序列互功率谱幅度，计算预加重处理后的含噪语音信号中语音信号的奇偶序列互功率谱幅度；根据所述语音信号的奇偶序列互功率谱幅度、所述预加重处理后的含噪语音信号的奇序列自功率谱，以及所述预加重处理后的含噪语音信号的偶序列自功率谱，估计噪声抑制增益函数。利用所述噪声抑制增益函数，对预加重处理后的含噪语音信号的谱信号进行降噪滤波，得到增强的语音信号的短时频谱。

具体地，本发明的一些实施例中，可以将预加重处理后的含噪语音信号y(n)进行分帧和加窗、并进行短时傅里叶变换处理，从而获得如下的短时频谱Y(k,t)：

（3）

其中，S(k,t)和V(k,t)分别为预加重处理后的纯净语音信号s(n)和预加重处理后的环境噪声信号v(n)的短时频谱，k为频点索引，k=0，1，2，……；t为信号帧索引，k=0，1，2，……；N（取偶数）为窗口函数的长度，窗口函数可选为Hamming（海明）窗或Hanning（汉宁）窗；设定窗口内的重叠样本占比为50%，那么信号帧长度L取为N/2。

继而，可以对短时频谱Y(k,t)进行降噪处理，从而获得增强的语音信号的短时频谱

，即：

（4）

其中，

为根据预加重处理后的含噪语音信号的奇偶序列谱信号得到的噪声抑制增益函数。

本发明的一些实施例中，在采样率保持不变的条件下，可将预加重处理后的含噪语音信号的谱信号Y(k, t)直接分解成其奇序列和偶序列时域信号对应的两个短时频域的谱信号。具体地，可以根据如下公式（5）、公式（6），将预加重处理后的含噪语音信号的谱信号

进行分解，得到所述预加重处理后的含噪语音信号的奇序列谱信号

和偶序列谱信号

：

（5）

（6）

其中，

，k = 0, 1, 2, …, 2L-1为短时频谱的频点索引，t为时域信号帧索引，短时频域变换中使用的窗函数的窗长为2L, 信号帧长为L。这样，可以降低在时域分解并对其分解的时域子信号分别进行频域变换的方法复杂度。

本发明的一些实施例中，可以根据如下公式（7）估计所述预加重处理后的含噪语音信号的奇偶序列互功率谱

：

（7）

其中，

为所述预加重处理后的含噪语音信号的奇序列谱信号，

为所述预加重处理后的含噪语音信号的偶序列谱信号，

为根据如下公式（8）计算得到的平滑参数：

（8）

其中，

为t-1帧时刻的噪声抑制增益函数。

本发明的一些实施例中，可将中值滤波器窗口划分为q个子窗口

，每个子窗口

的窗口长度为

，且

，

为中值滤波器窗口长度；继而，根据如下公式（9）计算每个子窗口

中的预加重处理后的含噪语音信号的奇偶序列互功率谱幅度的算数平均值

：

（9）

进而，根据如下公式（10），对预加重处理后的含噪语音信号中的噪声信号的奇偶序列互功率谱幅度进行估计：

（10）

其中，Med{·}为中值滤波的运算符。实际应用中，可以划分为3个子窗口，采用3阶中值滤波器的方式来估计噪声信号的奇偶序列互功率谱幅度。

本发明的一些实施例中，可以应用决策引导技术预先进行先验信噪比估计，并由此构造一个维纳滤波器来从预加重处理后的含噪语音信号的奇偶序列互功率谱中提取语音信号的奇偶序列互功率谱。具体地，可以根据如下公式（11），先估计后验信噪比

：

（11）

继而，根据如下公式（12）、（13），估计先验信噪比

；

（12）

（13）

这样，可以基于估计的先验信噪比，根据如下公式（14），进行维纳滤波器函数

估计：

（14）

继而，根据如下公式（15），计算语音信号的奇偶序列互功率谱幅度：

（15）

其中，

为所述预加重处理后的含噪语音信号的奇序列谱信号、

为偶序列谱信号；

为所述噪声信号的奇偶序列互功率谱幅度；

根据如下公式

计算得到；

为t-1帧时刻的噪声抑制增益函数，

为t-1帧时刻的维纳滤波器函数。通过本发明实施例提供的上述方式来估计先验信噪比，可以克服决策引导技术中存在的估计滞后一帧的缺陷。

本发明的一些实施例中，可以根据如下公式（16）、（17）来估计预加重处理后的含噪语音信号的奇序列信号的自功率谱以及预加重处理后的含噪语音信号的偶序列自功率谱：

（16）

（17）

其中，平滑参数

根据公式

计算得到。

由公式（15）、（16）和（17）可以获得如下的噪声抑制增益函数

（18）

这样，后续可以利用噪声抑制增益函数

，对所述预加重处理后的含噪语音信号的谱信号进行降噪滤波，自适应抑制运行环境的平稳与非平稳以及相干与非相干噪声，得到增强的语音信号的短时频谱。

S203、对所述增强的语音信号的短时频谱进行时频域平滑处理，得到所述语音短时频谱。

考虑到语音短时频谱

虽然是S(k,t)的一个有效估计，但其仍含有一定程度的残留噪声谱分量，它对后续短时频谱包络、乃至相应的激励源短时频谱幅度的提取，仍有一定程度的影响。

为进一步降低这一残留噪声分量对后续处理的影响，本发明的一些实施例中，可根据如下公式（19）对

作时-频平滑处理：

（19）

其中，

，

为预置的（信号帧）平滑时常数，

为系数归一化的频域平滑窗，其长度为2Q+1，即

，其中，Q为预设的一个正整数，比如，Q=1时，平滑窗的长度为3；Q=2时，平滑窗的长度为5。

通过本发明实施例提供的含噪语音信号预处理方案，可使得基频参数的估计性能对工作环境中的平稳与非平稳以及相干与非相干噪声（特别是“鸡尾酒会效应”和散射噪声）具有良好的鲁棒性。

考虑对语音短时频谱

，提取其谱包络

，由于它近似等价于声道传输滤波器幅度谱，进而可提取相应的声源激励短时幅度谱

。

本发明的一些实施例中，可以通过语音短时频谱的功率谱傅里叶逆变化而获取对应的时域短时信号自相关函数，应用Levinson-Durbin（莱文森—德宾）算法来求取时域短时信号的p个线性预测系数，由此建立一个具有p阶极点的全极点滤波器传递函数，用其频响幅度来作为相应的短时频谱的谱包络估计。

可选地，本发明的一些实施例中，可以通过对语音短时频谱的幅度对数进行低通滤波，用低通滤波后的平滑短时频谱幅度作为其谱包络估计，或者可以通过频谱幅度对数进行迭代平滑来获得的。

为提高谱包络提取的准确性以及便于在现有的商用DSP芯片上实时实现，优选地，本发明的一些实施例中，可以基于短时频谱自相关函数局部最大值频点所对应的短时幅度谱，作为其谱包络的局部峰值，对其它频点的谱包络值可由这些谱包络的局部峰值在对数尺度（即dB尺度）下进行线性插值来获取。

可以理解的是，根据语音产生模型，在补偿口-唇辐射能量衰减效应的预加重处理后, 纯净的语音信号s(n)可表达为：

（20）

其中，运算符 * 为线性卷积，h(n)为声道传输滤波器的冲击响应，e(n)为声源激励信号，该声源激励信号在有声语音（即浊音）时为一（基音）周期脉冲串，而在无声语音（即清音）时为一随机白噪声。根据Oppenheim等人的研究成果可知，对信号s(n）进行分帧和加窗处理后获得的短时信号

可表示为：

（21）

其中，

为声源激励短时信号，w(n-t)为位于信号帧索引t处、长度为N的窗函数。

对（20）式两边进行短时傅里叶变化处理可得：

（22）

其中，

；

；

。

为语音信号s(n)的短时频谱（简称语音短时频谱），

为声源激励信号e(n)的短时频谱，

为声道传递滤波器的频响，其频响幅度对应于

的谱包络，它通常随频点k的变化较慢。

对有声语音（即浊音）的声源激励信号e(n)而言，考虑到，其短时频谱E(k,t)是k的周期为N/

的函数。这里不失一般性，假设N/

为正整数，以下均同，不做另外说明。并且在k = (N/

)m点处取局部最大值，这里

为基音周期对应的时域样本点个数，m = 0,1,2,…,

；并且，鉴于H(k)通常随k变化较慢，可以将它在长度为N/

的区间里近似为某一常数，那么由（22）式可知，对于任一给定帧t的有声语音（即浊音）短时语音信号

，其短时频谱

的频谱自相关函数

也近似为m的周期函数，其周期为N/

，并且在m =(N/

)p处取局部最大值，其中，p=0,1,2,…

。可以理解的是，在无声语音（即清音）的情况下，虽然语音短时频谱自相关函数

在理论上并不存在明然的周期性，但在多次的仿真实验中可以观察到它具有一定程度上的周期性，尽管其短时幅度谱并没有显示任何谐波结构。上述的这一特性，为本发明基于频谱自相关函数的局部最大值频点所对应的短时频谱样本幅度来提取其谱包络，提供了依据。

参考图3，其示出了根据本发明一实施例的谱包络提取方法的流程示意图。如图3所示，本发明一实施例提供了一种谱包络提取方法，包括：S301、根据所述语音短时频谱，计算频谱自相关函数；S302、获取所述频谱自相关函数的局部峰值频点集；S303、通过在对数幅度谱尺度下进行线性插值，确定所述语音短时频谱的谱包络。

本发明的一些实施例中，对于任一纯净的语音短时频谱

，其频谱自相关函数

在数学上定义为：

（23）

其中，运算符

为复共轭算子，m = 0, 1, 2, …, N/2，N为短时频谱的窗函数长度，N取偶数。

考虑到，频谱自相关函数

与其语音短时频谱S(k, t)具有相同的周期性和精细结构，本发明的一些实施例中，可以通过采峰（Peak-Picking）技术方便地获得

的所有局部最大值所对应的频点集合

，这里

, M为频谱自相关函数局部最大值点总个数，

在原点m=0处的最大值除外,并将待估计的谱包络在这些点处的幅值选择为短时幅度谱在相应点处的采样值；而在开区间

中的任意频点m处的谱包络值，可用插值技术来获得。实际应用中，在对数（即dB）尺度下进行线性插值，可以获得满意的结果。

本发明的一些实施例中，语音短时频谱S(k, t)的谱包络

可由下式确定：

（24）

（25）

（26）

其中，

为公式（23）中除原点m=0之外的局部峰值频点，

，M为局部峰值频点总数，i=1，2，…，M。

相应地，本发明的一些实施例中，在提取所述语音短时频谱的谱包络之后，可以根据所述语音短时频谱及其谱包络，提取声源激励短时幅度谱。具体地，鉴于谱包络近似等价于传递滤波器的频响幅度，那么由公式（22）可提取声源激励短时幅度谱

：

（27）

其中，

为声源激励短时幅度谱，

为语音短时频谱的短时幅度谱，

为语音短时频谱的谱包络。

可以理解的是，本发明的一些实施例中，在语音短时频谱为含噪语音信号经过预加重处理、降噪处理和时-频域平滑处理后而获得的语音短时频谱

的情形下，在求解实际的语音短时频谱

的谱包络

和声源激励信号的短时频谱幅度

时，必须用

去替换（23）~（27）式中的S(k,t)，即：

（28）

（29）

（30）

（31）

其中，

为公式（28）中除原点m=0之外的局部峰值频点，

，M为局部峰值频点总数，i=1，2，…，M。

为声源激励短时幅度谱，

为语音短时频谱的短时幅度谱，

为语音短时频谱的谱包络。

本发明实施例提供的谱包络提取方案，采用短时频谱自相关函数的局部峰值频点所对应的短时幅度谱，作为其谱包络的局部峰值，并在对数幅度谱尺度下，应用谱包络的局部峰值对位于其局部峰值频点间的其它频点谱包络值进行线性插值处理，由此获得一个能连接短时幅度谱所有真实局部峰值的平滑而较为准确的谱包络，并且该方案复杂度低，易于实时工程实现，从而克服了现有的线性预测法和实倒谱平滑法提取包络谱的误差大及其改进技术的计算复杂度高等缺陷。

参考图4，其示出了根据本发明一实施例的基于声源激励短时幅度谱估计基频的方法的流程示意图。

如图4所示，本发明一实施例提供了一种基于声源激励短时幅度谱估计基频的方法，包括：S401、根据所述声源激励短时幅度谱，构造基音周期代价函数；S402、根据所述基音周期代价函数的最大峰值点位置以及预置的门限参数，进行有声/无声语音的识别；S403、对于有声语音，通过抛物线插值技术，根据所述代价函数最大峰值点位置以及数字信号的采样频率提取基频参数。

本发明的一些实施例中，为提高基频提取的准确度和抗噪能力，可以根据声源激励短时幅度谱，构造基音周期代价函数

：

(32)

其中，

为一预置的正则化因子常数，τ为样本延时索引，

为

对应的声源激励短时频谱，

为

对应的声源激励短时信号。

考虑到，对于有声语音（即浊音）的声源激励短时信号而言，公式（32）对应曲线有显著的峰值，并在τ位于声源激励基音周期所对应的样本点索引及其整数倍处分别取最大值和局部最大值；对于无声语音（即清音）的声源激励短时信号而言，公式（32）对应曲线无显著的峰值。因此对公式（32）定义的代价函数，可应用一预置的门限参数

，来识别此时的声源激励短时信号是有声语音（即浊音）还是无声语音（即清音）。

鉴于人类的基音频率范围通常分布在[20 Hz, 500 Hz]区间范围，本发明的一些实施例中，公式（32）对应得最大峰值点位置

可以在

区间内搜寻，即：

(33)

其中，

和

分别为基音周期所对应的样本点索引下界和上界，

表示不大于x的最大整数，

表示不小于x的最小整数；

为数字信号的采样频率,单位为赫兹（Hz）。

当

时，该帧信号为无声语音（即清音），其基频

置为0 Hz。当

时，该帧信号为有声语音（即浊音），此时考虑到公式（32）中的参数τ已数字量化为整数变量，为求出其真实的位置参数值，可在其最大值点

的附近应用抛物线函数插值技术，因此在帧t时时刻的有声语音（即浊音）基频参数

（单位为Hz）可由下式给出：

(34)

其中，

(35)

（36）

这里

为

的分数值部分；

为

的整数值部分，由（33）式确定；

为数字信号的采样频率，单位为赫兹（Hz）。

本发明实施例提供的基于声源激励短时幅度谱估计基频方案，创造性地定义了一种与基音周期密切关联的代价函数来搜寻信号的基音周期，并应用基于三点的抛物线插值技术来获取精度较高的基音周期实际值，据此提取信号的基频参数，使得基频参数提取的精度更高。

鉴于语音信号在时间上的连续性，本发明的一些实施例中，可以对每帧估计的基频

进行平滑后处理，以获得平滑的基频

的轨迹

，以便进一步降低因信号帧中过度段占比较高而致的估计误差，提高基频估计的准确度。

可选地，本发明的一些实施例中，可以采用标准的中值滤波技术或递归的中值滤波器技术进行平滑后处理。

可选地，本发明的一些实施例中，可以应用线性-中值混合滤波器技术作为平滑后处理技术。其中线性滤器子结构采用L₀个输入样本的移动平均，而中值滤波器采用3阶的标准的中值滤波器，即：

（37）

其中，Med{·}为中值滤波器算子，正整数

为标准的移动平均滤波器的阶参数，

为起始位置在t的窗长度为

的矩形窗中第

个输入样本，i =0，1，…，

，yy(t)为t时刻的标准的中值滤波器的输出样本。

进一步地，考虑到，对降噪而言，其长平均子结构优于短平均子结构，因为平均器的输出方差与平均子结构长度

成反比。然而，在阶梯边缘附近，具有长平均子结构的线性-中值混合滤波器性能将恶化。事实上，当公式（37）里中值滤波器算子的中心点接近边缘时，其右边平均子结构的输出与左边的yy(t-1)之间的差异在距边缘

个样本的距离处开始增加，直到中心点进入边缘时达到最大值。由此，使得线性-中值混合滤波器选择xx(t) 作为其输出的概率将增加，这便致使线性-中值混合滤波器的抗噪能力下降。

进一步地，考虑可以依次重复地使用若干个平均子结构，其边缘附近的噪声随着平均子结构窗口长度的缩短而衰减，而所需的根信号长度则用于确定平均子结构最长窗口。

本发明的一些实施例中，可以通过递归就地增长的移动平均-中值混合滤波器进行平滑后处理，即根据如下公式（38）输出基频参数轨迹：

（38）

通过上述递归就地增长的移动平均-中值混合滤波器进行平滑后处理，完整保留了理想边缘，并在噪声边缘附近所产生的偏置误差，相对标准的中值滤波器和递归的中值滤波器而言，小到了可以忽略不计的程度，且能有效地衰减宽带噪声。

实际应用中，应用（38）式来进行信号帧的基频估计平滑后处理时，记第t帧的基频估计值为

，记其经递归就地增长的移动平均-中值混合滤波器平滑处理后的输出的基频参数轨迹为

，置变量

，计算

，其中，

，

；继而，输出基频参数轨迹：

。

较佳地，在考虑算法的工程实现和实时性，选择平均子结构长度参数

，可以获得满意的效果；相应地，此时后处理引入的时延为2帧，时延较小，满足实时处理跟踪的要求。

通过本发明实施例提供的一种对已估计的基频参数进行实时跟踪后处理技术，由此可进一步降低基频估计的意外误差，从而获得更为精确可靠的基频轨迹；而采用了递归就地增长的移动平均-中值混合滤波器技术，可完整保留了理想边缘，并能有效地衰减宽带噪声。

参考图5，其示出了根据本发明一实施例的语音信号基频估计装置的结构示意图；如图5所示，本发明一实施例提供了一种语音信号基频估计装置，包括：含噪语音信号预处理模块501、声源激励短时幅度谱提取模块502和基频参数提取模块503。

其中，含噪语音信号预处理模块501用于对含噪语音信号进行降噪处理，得到语音短时频谱。

声源激励短时幅度谱提取模块502用于根据所述语音短时频谱及其谱包络，提取声源激励短时幅度谱。

基频参数提取模块503用于根据所述声源激励短时幅度谱，提取基频参数。

本发明的一些实施例中，所述含噪语音信号预处理模块501还用于对含噪语音信号进行降噪处理之前，对所述含噪语音信号进行预加重处理。

本发明的一些实施例中，所述含噪语音信号预处理模块501具体用于根据预加重处理后的含噪语音信号的奇偶序列谱信号，得到噪声抑制增益函数；利用所述噪声抑制增益函数，对预加重处理后的含噪语音信号的谱信号进行降噪滤波，得到增强的语音信号的短时频谱。

本发明的一些实施例中，所述含噪语音信号预处理模块501还用于对含噪语音信号进行降噪处理之后，对所述增强的语音信号的短时频谱进行时频域平滑处理；将经过时频域平滑处理的所述增强的语音信号的短时频谱，作为所述语音短时频谱。

本发明的一些实施例中，所述声源激励短时幅度谱提取模块502具体用于根据如下方式提取所述语音短时频谱的谱包络：根据所述语音短时频谱，计算其频谱自相关函数；获取所述频谱自相关函数的局部峰值频点集；通过在对数幅度谱尺度下进行线性插值，确定所述语音短时频谱的谱包络。

本发明的一些实施例中，所述声源激励短时幅度谱提取模块502具体用于根据所述语音短时频谱，提取语音短时幅度谱；将所述语音短时幅度谱与所述语音短时频谱的谱包络的比值，作为所述声源激励短时幅度谱。

本发明的一些实施例中，所述基频参数提取模块503具体用于根据所述声源激励短时幅度谱，构造基音周期代价函数；根据所述基音周期代价函数的最大峰值点位置以及预置的门限参数，进行有声/无声语音的识别；对于有声语音，通过抛物线插值技术，根据所述代价函数最大峰值点位置以及数字信号的采样频率提取基频参数。

参考图6，其示出了根据本发明又一实施例的语音信号基频估计装置的结构示意图；如图6所示，本发明又一实施例提供了一种语音信号基频估计装置，包括：含噪语音信号预处理模块601、声源激励短时幅度谱提取模块602、基频参数提取模块603和基频轨迹跟踪模块604。

可以理解的是，图6所示实施例提供的语音信号基频估计装置中的含噪语音信号预处理模块601、声源激励短时幅度谱提取模块602和基频参数提取模块603的具体实现，可分别参见图5所示实施例提供的语音信号基频估计装置中的含噪语音信号预处理模块501、声源激励短时幅度谱提取模块502和基频参数提取模块503，此处不再赘述。

本发明的一些实施例中，基频轨迹跟踪模块604用于对每帧提取的基频参数进行平滑后处理，获得基频参数轨迹。

可以理解的是，本发明的上述实施例提供的语音信号基频估计装置的各模块，用于对应地实现上述语音信号基频估计方法中的各步骤，具体内容在此不再赘述。

本发明的一些实施例中，还提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如上所述的语音信号基频估计方法。进一步地，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的语音信号基频估计方法。图7示出了可以用来实施本公开的实施例的电子设备700的示意性框图。如图7所示，电子设备700包括中央处理单元（CPU）701，其可以根据存储在只读存储器（ROM）702中的计算机程序指令或者从存储单元708加载到随机访问存储器（RAM）703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可以存储电子设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元701执行上文所描述的各个方法和处理。例如，在一些实施例中，方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由CPU 701执行时，可以执行上文描述的方法的一个或多个步骤。备选地，在其他实施例中，CPU 701可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种语音信号基频估计方法，其特征在于，包括：

对含噪语音信号进行降噪处理，得到语音短时频谱；

根据所述声源激励短时幅度谱，提取基频参数。

2.根据权利要求1所述的方法，其特征在于，所述对含噪语音信号进行降噪处理之前，还包括：

对所述含噪语音信号进行预加重处理。

3.根据权利要求2所述的方法，其特征在于，所述对含噪语音信号进行降噪处理，包括：

4.根据权利要求3所述的方法，其特征在于，所述对含噪语音信号进行降噪处理之后，所述方法还包括：

对所述增强的语音信号的短时频谱进行时频域平滑处理；

5.根据权利要求4所述的方法，其特征在于，所述语音短时频谱的谱包络根据如下方式提取：

根据所述语音短时频谱，计算其频谱自相关函数；

获取所述频谱自相关函数的局部峰值频点集；

6.根据权利要求5所述的方法，其特征在于，所述根据所述语音短时频谱及其谱包络，提取声源激励短时幅度谱，包括：

根据所述语音短时频谱，提取语音短时幅度谱；

7.根据权利要求6所述的方法，其特征在于，所述根据所述声源激励短时幅度谱，提取基频参数，包括：

根据所述声源激励短时幅度谱，构造基音周期代价函数；

8.根据权利要求1~7任一所述的方法，其特征在于，还包括：

9.一种语音信号基频估计装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述含噪语音信号预处理模块还用于对含噪语音信号进行降噪处理之前，对所述含噪语音信号进行预加重处理。

11.根据权利要求10所述的装置，其特征在于，所述含噪语音信号预处理模块具体用于根据预加重处理后的含噪语音信号的奇偶序列谱信号，得到噪声抑制增益函数；利用所述噪声抑制增益函数，对预加重处理后的含噪语音信号的谱信号进行降噪滤波，得到增强的语音信号的短时频谱。

12.根据权利要求11所述的装置，其特征在于，所述含噪语音信号预处理模块还用于对含噪语音信号进行降噪处理之后，对所述增强的语音信号的短时频谱进行时频域平滑处理；将经过时频域平滑处理的所述增强的语音信号的短时频谱，作为所述语音短时频谱。

13.根据权利要求12所述的装置，其特征在于，所述声源激励短时幅度谱提取模块具体用于根据如下方式提取所述语音短时频谱的谱包络：根据所述语音短时频谱，计算其频谱自相关函数；获取所述频谱自相关函数的局部峰值频点集；通过在对数幅度谱尺度下进行线性插值，确定所述语音短时频谱的谱包络。

14.根据权利要求13所述的装置，其特征在于，所述声源激励短时幅度谱提取模块具体用于根据所述语音短时频谱，提取语音短时幅度谱；将所述语音短时幅度谱与所述语音短时频谱的谱包络的比值，作为所述声源激励短时幅度谱。

15.根据权利要求14所述的装置，其特征在于，所述基频参数提取模块具体用于根据所述声源激励短时幅度谱，构造基音周期代价函数；根据所述基音周期代价函数的最大峰值点位置以及预置的门限参数，进行有声/无声语音的识别；对于有声语音，通过抛物线插值技术，根据所述代价函数最大峰值点位置以及数字信号的采样频率提取基频参数。

16.根据权利要求9~15任一所述的装置，其特征在于，还包括：用于对每帧提取的基频参数进行平滑后处理，获得基频参数轨迹的基频轨迹跟踪模块。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1~8中任一项所述的方法。

18.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1~8中任一项所述的方法。