CN101030375B

CN101030375B - 一种基于动态规划的基音周期提取方法

Info

Publication number: CN101030375B
Application number: CN2007100654015A
Authority: CN
Inventors: 崔慧娟; 唐昆; 魏旋; 党晓妍
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2007-04-13
Filing date: 2007-04-13
Publication date: 2011-01-26
Anticipated expiration: 2027-04-13
Also published as: CN101030375A

Abstract

本发明属于语音编码技术领域，其特征在于，采用逆滤波进行谱平坦操作，并把逆滤波零点位置限制在单位圆内的一个单位圆的同心圆中，避免了零点处谐波被过度衰减；同时该动态规划方法考虑了基音周期的正常变化与自身提取错误的情况，使用分段函数计算路径代价，并且对刚过去一帧与当前帧的路径代价限幅，以避免错误传播。由于清音不含周期信息，不能参与动态规划，该算法需要输入清浊音信息，但清浊音的判决错误同样不可避免，所以该算法使用帧间加权来减弱清音帧判断错误对算法的影响。本发明能在较低延时下取得更好的提取性能。

Description

一种基于动态规划的基音周期提取方法

技术领域

这种延时受限的基音提取方法适用于语音编码领域。在延时有限的情况下，使用改进的动态规划方法，有效地减少基音周期提取错误，能极大地提高声码器主观听觉质量。

背景技术

逆滤波是一种常见的谱平坦方法，为了消除其不利影响，M.Schroeder和B.Atal在1979年提出使用共振峰加权滤波器来衰减逆滤波器的影响。这种方法相当于衰减了逆滤波器的作用，防止了其不良影响，也削弱了其性能。本方法中对此作了修改，把逆滤波器零点进行限制，防止对零点处频率过度衰减，但是不影响一般情况下的性能。

动态规划方法是一种常用的平滑算法。Bruce G..和George R.在1982年通过实验证明，动态规划方法较之非线性平滑、中值滤波有更好的性能。本算法考虑了基音周期的正常变动，清浊音信息判断错误和自身算法产生的错误，能在较低延时的情况下得到更高性能。

发明内容

本发明基于自相关法求取基音周期，使得在较低延时下得到更好性能，以提高基音周期提取性能。

其特征在于，所述方法是在数字集成电路中依次按以下步骤实现的：

步骤(1)对输入的语音信号用一个高通滤波器滤去直流分量和工频干扰；

步骤(2)对步骤(1)所述经过高通滤波的语音信号用一个低通滤波器去除影响基音提取的高频信号；

步骤(3)对于低通滤波的输出信号s_LP(n)用下述二阶LPC逆滤波器进行逆滤波，其中该二阶LPC逆滤波器的零点被限制在一个半径比单位圆小并与单位圆同心的圆内，得到残差信号e_LP(n)，其中，所述的二阶LPC逆滤波器的传输函数H(z)为：

H(z)＝1+a₁z^-1+a₂z^-2，

其中，

a_{1} = {\begin{matrix} a_{1}^{'} & a_{2}^{'} \leq γ^{2} \\ a_{1}^{'} * γ / \sqrt{a_{2}^{'}} & a_{2}^{'} > γ^{2} \end{matrix},

a_{2} = {\begin{matrix} a_{2}^{'} & a_{2}^{'} \leq γ^{2} \\ γ^{2} & a_{2}^{'} > γ^{2} \end{matrix},

a_{1}^{'} = - \frac{r_{s} (0) r_{s} (1) - r_{s} (1) r_{s} (2)}{r_{s} {(0)}^{2} + r_{s} {(1)}^{2}},

a_{2}^{'} = - \frac{r_{s} (0) r_{s} (2) - r_{s} {(1)}^{2}}{r_{s} {(0)}^{2} + r_{s} {(1)}^{2}},

其中，γ＝0.96，r_s(0)，r_s(1)，r_s(2)为s_LP(n)的自相关系数，

其中，

r_{s} (m) = \frac{Σ_{n = 0}^{N - 1 - m} S_{LP} (n) S_{LP} (n + m)}{Σ_{n = 0}^{N - 1} S_{LP} (n) S_{LP} (n)}, m = 0,1,2,

其中，n用来表示各个采用点，每帧信号中样点总数N取200；

步骤(4)在给定的基音周期范围内，求出残差信号的各个自相关值r(m)，m＝18～148，

r (m) = \frac{Σ_{n = 0}^{N - 1 - m} e_{LP} (n) e_{LP} (n + m)}{Σ_{n = 0}^{N - 1} e_{LP} (n) e_{LP} (n)}

同时，找出自相关函数的最大值点的位置p₀和相应的自相关值R_max；

步骤(5)进行倍频检测，调整步骤(4)中所计算的自相关函数值：

如果下式条件满足

r(p)≥αR_max

则令

r(p)＝R_max-ε

其中p取p₀/2、或p₀/3、或p₀/4，α、ε为常数值，分别取0.8和0.0001，p₀为步骤(4)中所找出的自相关函数的最大值点的位置；

步骤(6)以需要判决基音周期的当前帧为0帧，用Frm⁽⁰⁾表示，以下一个前瞻帧为1帧，用Frm⁽¹⁾表示，以刚过去的一帧为-1帧，用Frm^(-1)表示，在所述Frm⁽⁰⁾、Frm⁽¹⁾中的全部自相关值中依次各选出前5个最大的极大值点作为备选基音周期，把k帧的第n个极大值点记为P_n ^(k)，对应的自相关值R_n ^(k)，其中k＝0，1，n＝1，2，...，5，对于已经进行过基音提取的Frm^(-1)，仅使用提取结果p^(-1)；

步骤(7)分别记录Frm⁽⁰⁾、Frm⁽¹⁾、Frm^(-1)各帧的功率，分别记为σ^(-1)、σ⁽⁰⁾、σ⁽¹⁾，按下式计算一条完全穿过Frm^(-1)、Frm⁽⁰⁾、Frm⁽¹⁾的完整路径

P^{(- 1)} - > P_{i}^{(0)} - > P_{j}^{(1)}

的路径代价C_a，其中P_i ⁽⁰⁾、P_j ⁽¹⁾分别是步骤(6)所述的Frm⁽⁰⁾、Frm⁽¹⁾中依次选定的的5个备选基音周期中任意的一个，

C_{a} (P^{(- 1)}, P_{i}^{(0)}, P_{j}^{(1)}) = \min {C_{p} (P^{(- 1)}, P_{i}^{(0)}), T_{pc}} * w_{f} (σ^{(- 1)} - σ^{(0)}) +

(C_{p} (P_{i}^{(0)}, P_{j}^{(1)}) + C_{r} (R_{j}^{(1)})) * w_{f} (σ^{(1)} - σ^{(0)}) +

C_{r} (R_{i}^{(0)})

其中T_PC＝0.42，C_p(P^(-1)，P_i ⁽⁰⁾)、C_p(P_i ⁽⁰⁾，P_j ⁽¹⁾)依次分别是路径

P^{(- 1)} - > P_{i}^{(0)}, P_{i}^{(0)} - > P_{j}^{(1)}

的路径代价，各依次按下式计算：

C_{p} (P^{(- 1)}, P_{i}^{(0)}) = α {(\max {\frac{| P^{(- 1)} - P_{i}^{(0)} |}{\max {P^{(- 1)}, P_{i}^{(0)}}} - Δ, 0})}^{2}

C_{p} (P_{i}^{(0)}, P_{j}^{(1)}) = α {(\max {\frac{{| P}_{i}^{(0)} - P_{j}^{(1)} |}{\max {P_{i}^{(0)}, P_{j}^{(1)}}} - Δ, 0})}^{2}

其中，α＝3.175，Δ＝0.1；

w_f(σ^(-1)-σ⁽⁰⁾)和w_f(σ⁽¹⁾-σ⁽⁰⁾)为过去帧的能量加权函数，由下式决定：

其中Δ_σf在w_f(σ^(-1)-σ⁽⁰⁾)和w_f(σ⁽¹⁾-σ⁽⁰⁾)中分别对应σ^(-1)-σ⁽⁰⁾和σ⁽¹⁾-σ⁽⁰⁾；

C_r(R_j ⁽¹⁾、C_r(R_j ⁽⁰⁾)依次分别为P_i ⁽⁰⁾、P_j ⁽¹⁾相对应的点代价函数值，按下式分别计算：

C_{r} (R_{n}^{k}) = 1 - R_{n}^{k},

n＝i时k＝0；n＝j时k＝1，

步骤(8)，遍历由

P^{(- 1)} - > P_{i}^{(0)} - > P_{j}^{(1)}

的各条完整路径，找出完整路径代价最的一条路径为正确的路径轨迹，并取该路径上在当前帧位置上的点P_n ⁽⁰⁾为基音周期。

本发明基于自相关法求取基音周期，对于预处理和后处理算法都进行了调整，使得在几乎不增加复杂度的情况下进一步提高性能。

对语音信号进行预处理时，限制逆滤波器的零点位置。当某一个谐波能量特别强时，可以避免对该谐波的过度衰减；而当各谐波能量相对均衡时，不影响逆滤波性能。

使用动态规划进行基音周期提取时，考虑到基音周期的正常变化。对于低于某一门限的变化，认为代价为0；对于高于该门限的变化，使用一个二次函数来表示其代价。这样对于基音周期变化的实际路径代价很小，而对于基音周期变化超过正常范围的(错误)路径代价很大。

考虑基音突变与算法自身判断错误的情况，对过去帧与当前帧之间的路径代价进行限幅，避免过去帧错误的传播。

根据各帧与当前帧的功率电平差进行加权，使用一条折线表示：对于较小的电平变化，加权为1；对于电平较高的帧，适当增加权重；对于电平较低的帧，则给予较低权重，甚至权重设为0。这有效减少清浊音判断错误对基音提取的影响。

使用Keele数据库进行测试，该数据库中含有10段约30s语音，分别由10个说话人，5男5女，分别颂读同一段文字所得。使用本发明所述方法测试结果如下表所示：

	错误率
		严重错误率	2.71％
一般错误均值	0.649

其中，严重错误指超过1ms的错误，一般错误均值指不超过1ms的错误的平均值。

附图说明

图1、基音周期动态规划平滑算法示意图。

图2、本发明所述方法的流程图。

具体实施方式

输入的语音信号首先经过一个高通滤波器，滤去直流分量和工频干扰。这里使用一个一阶的IIR滤波器，传递函数为

H_{HP} (z) = \frac{1 - z^{- 1}}{1 - {0.99 z}^{- 1}} - - - (1)

然后对经过高通滤波的语音信号s(n)进行低通滤波，以去除高频信号对基音提取的影响。选用截止频率为800Hz的Chebyshev II型低通滤波器，其传递函数为

H_{LP} (z) = \frac{0.0018356 * (1 + {4 z}^{- 1} + 6 z^{- 2} + 4 z^{- 3} + z^{- 4})}{1 - 3.0543 z^{- 1} + 3.829 z^{- 2} - 2.2925 z^{- 3} + 0.55074 z^{- 4}} - - - (2)

对于低通滤波的输出信号s_LP(n)，再经过二阶LP逆滤波。二阶LP逆滤波器传输函数为

H(z)＝1+a₁z^-1+a₂z^-2 (3)

其中的系数a₁，a₂为，

a_{1}^{'} = - \frac{r_{s} (0) r_{s} (1) - r_{s} (1) r_{s} (2)}{r_{s} {(0)}^{2} + r_{s} {(1)}^{2}},

a_{2}^{'} = - \frac{r_{s} (0) r_{s} (2) - r_{s} {(1)}^{2}}{r_{s} {(0)}^{2} + r_{s} {(1)}^{2}} - - - (4)

a_{1} = {\begin{matrix} a_{1}^{'} & a_{2}^{'} \leq γ^{2} \\ a_{1}^{'} * γ / \sqrt{a_{2}^{'}} & a_{2}^{'} > γ^{2} \end{matrix},

a_{2} = {\begin{matrix} a_{2}^{'} & a_{2}^{'} \leq γ^{2} \\ γ^{2} & a_{2}^{'} > γ^{2} \end{matrix} - - - (5)

其中，γ＝0.96，r_s(0)，r_s(1)，r_s(2)为s_LP(n)的自相关系数

r_{s} (m) = \frac{Σ_{n = 0}^{N - 1 - m} S_{LP} (n) S_{LP} (n + m)}{Σ_{n = 0}^{N - 1} S_{LP} (n) S_{LP} (n)}, m = 0,1,2, - - - (6)

这里把一般所求二阶逆滤波系数所对应的零点限制在γ为半径，原点为圆心的圆中。

在本方法中，采用自相关法进行基音周期检测，基音周期的范围限制在区间[18，148]。

设s_LP(n)经过二阶LP逆滤波器的输出信号记为e_LP(n)，在基音范围内用下式计算e_LP(n)的归一化自相关，

r (m) = \frac{Σ_{n = 0}^{N - 1 - m} e_{LP} (n) e_{LP} (n + m)}{Σ_{n = 0}^{N - 1} e_{LP} {(n)}^{2}}, m = 18 ~ 148 - - - (7)

由于基音周期处的自相关值将出现极大值，但在基音周期的倍数位置同样可能出现极大值，甚至最大值。使用倍频检测算法，调整上面所计算的自相关函数值，可以消除部分错误。首先找到e_LP(n)自相关函数最大值点P₀和对应的自相关值R_max，如果下式条件满足

r(p)≥αR_max (8)

则令

r(p)＝R_max-ε (9)

其中p取p₀/2、或p₀/3、或p₀/4，α、ε为常数值，分别取0.8和0.0001。

为了从落在基音范围内的极大值点中选出正确的基音周期，利用基音周期变化缓慢这一特性，综合刚过去的前一帧和前瞻的一帧的信息，使用动态规划算法进行基音周期判决。

以需要判决基音周期的当前帧为第0帧，刚过去的一帧为-1帧，前瞻的一帧为1帧，分别记为Frm⁽⁰⁾、Frm^(-1)、Frm⁽¹⁾。对于Frm⁽⁰⁾和Frm⁽¹⁾，分别找到极大值点中较大的前5个点，作为备选基音周期，k帧第n个备选基音周期点记为P_n ^(k)，对应自相关值为R_n ^(k)，其中k＝0，1，n＝1，2，...，5。而对于Frm^(-1)，由于已经进行了基音提取，只记录提取结果P^(-1)。另外，分别记录三帧的功率，其中第k帧功率记为σ^(k)，其中k＝-1，0，1。

由于基音周期变化缓慢，而且基音周期处的自相关函数值较大，可以认为基音轨迹中变化平缓，各点自相关值较大的路径，最有可能是正确的基音变化轨迹。

假设一条完整路径(完全穿过Frm^(-1)，Frm⁽⁰⁾和Frm⁽¹⁾)为

P^{(- 1)} - > P_{i}^{(0)} - > P_{j}^{(1)},

定义Frm^(-1)到Frm⁽⁰⁾，以及Frm⁽⁰⁾到Frm⁽¹⁾的路径代价分别依下式计算。

C_{p} (P^{(- 1)}, P_{i}^{(0)}) = α {(\max {\frac{| P^{(- 1)} - P_{i}^{(0)} |}{\max {P^{(- 1)}, P_{i}^{(0)}}} - Δ, 0})}^{2} - - - (10)

C_{p} (P_{i}^{(0)}, P_{j}^{(1)}) = α {(\max {\frac{{| P}_{i}^{(0)} - P_{j}^{(1)} |}{\max {P_{i}^{(0)}, P_{j}^{(1)}}} - Δ, 0})}^{2} - - - (11)

其中α和Δ为常量，本方法中分别取3.175和0.1。

设Frm⁽⁰⁾或Frm⁽¹⁾中的某一帧中的自相关函数的一个备选基音周期P_n ^(k)对应自相关值为R_n ^(k)，定义该备选基音周期的点代价为

C_{r} (R_{n}^{k}) = 1 - R_{n}^{k} - - - (12)

由于Frm^(-1)与Frm⁽⁰⁾能量可能相差很多，甚至不可比，适当加权是有必要的。以Frm⁽⁰⁾为基准，定义Frm^(-1)与Frm⁽¹⁾的加权函数分别为w_f(σ^(-1)-σ⁽⁰⁾)和w_f(σ⁽¹⁾-σ⁽⁰⁾)，其中

则一条完整路径

P^{(- 1)} - > P_{i}^{(0)} - > P_{j}^{(1)}

的完整路径代价可以定义为

C_{a} (P^{(- 1)}, P_{i}^{(0)}, P_{j}^{(1)}) = \min {C_{p} (P^{(- 1)}, P_{i}^{(0)}), T_{pc}} * w_{p} (σ^{(- 1)} - σ^{(0)}) +

(C_{p} (P_{i}^{(0)}, P_{j}^{(1)}) + C_{r} (R_{j}^{(1)})) * w_{f} (σ^{(1)} - σ^{(0)}) + - - - (14)

C_{r} (R_{i}^{(0)})

其中R_j ⁽⁰⁾和R_j ⁽¹⁾分别为备选基音周期P_i ⁽⁰⁾和P_j ⁽¹⁾对应的自相关函数值，T_pc为一常数，这里取0.42。

由于清音帧不含基音周期信息，所以清音帧不参与动态规划。若Frm⁽⁰⁾帧为清音，则判断该帧基音周期是无意义的；若Frm^(-1)帧为清音，则令w_p(σ⁽⁰⁾-σ^(-1))为0，刚过去一帧不参与动态规划；若Frm⁽¹⁾帧为清音，则令w_f(σ⁽⁰⁾-σ⁽¹⁾)为0，前瞻的一帧不参与动态规划。这里清浊音信息是由任意其它算法提供的参考信息，并不要求判断完全准确。

最后选择完整路径代价最小的一条路径

P^{(- 1)} - > P_{n 0}^{(0)} - > P_{n 1}^{(1)}

是正确的基音轨迹，则取该路径在Frm⁽⁰⁾帧穿过的点P_n0 ⁽⁰⁾为当前帧基音周期。