CN1719514A

CN1719514A - 基于语音分析与合成的高品质实时变声方法

Info

Publication number: CN1719514A
Application number: CNA2004100623371A
Authority: CN
Inventors: 孟猛; 张树武
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2004-07-06
Filing date: 2004-07-06
Publication date: 2006-01-11
Anticipated expiration: 2024-07-06
Also published as: CN100440314C

Abstract

本发明涉及语音变换技术领域的一种基于语音分析与合成的高品质实时变声方法。在时域上按照时间长度改变的要求对信号进行插值或抽剪，然后变换到频域，对幅度谱和相位谱分别进行处理，分离基频和共振峰，并对其进行独立调节，调节时补偿时间长度调整对此二者的影响，最后恢复时域信号。通过快速傅立叶变换将时域信号转化到频域上，将话音的基频和共振峰位置进行分离，并分别调整，然后重新合成语音，从而调节音长、音高和音色，改变音强，实现嗓音变换。本发明可以实时对语音进行处理，可直接应用于网络电话、语音聊天室等休闲领域，也可用于配音、音乐合成等实用领域。同时，该方法也可以应用语音合成方面，起到改善合成语音整体音质的作用。

Description

基于语音分析与合成的高品质实时变声方法

技术领域

本发明涉及语音变换技术领域，特别是一种基于语音分析与合成的高品质实时变声方法。

背景技术

语音变换技术用于改变语音的音调和速度等声学特征，从而按照人们的意图产生出符合需要的新特征，其在许多方面有着广泛的实际应用，例如配音、音乐合成、网络聊天、声音保密等等。该技术拓宽了语音处理的研究范围，使得语音处理的应用变得更多元化。

语音的基本物理特征包括音高、音强、音质和音长。音高是由发音物体振动频率的高低决定的，频率高声音就高，频率低声音就低。比如妇女和儿童的声带比较短而且比较薄，说话唱歌时声带振动频率高，而男人和老人的声带比较长而且比较厚，说话唱歌时声带振动频率低，因而男人和老人的声音比起女声和童声来说要低沉。通过改变基频可以改变音高。音强对应声音的强弱，决定于声音的振幅，即由振动的大小所决定。音质又叫音色，就是声音的本质、特色，它取决于声波振动的形式，是不同的声音能够互相区别的最基本的特征，如人声、钢琴声、提琴声表演同一个曲调，听起来各不相同。共振峰反映了声音中分量突出的谐波成分，从而认为共振峰的高度、位置和数量影响着音色。音长就是声音的长短，决定于发音体振动的时间。

作为声音的基本要素，音高、音强、音质和音长中任何一种因素都不是独立存在的。通常情况下只改变其中一种，另外几种也会随之改变。例如，通过改变数字语音信号播放的采样频率就可以改变语音的语速，即改变音长，但与此同时，语音的基频和共振峰位置也同时发生改变，从而我们听到的声音中不只是语速发生了变化，音色和音高也发生了变化，整个说话人的特征变得面目全非。再如，只对语音中的基频进行比例缩放，重新合成语音后，共振峰的位置也会随基频发生移动，音色同样发生变化。这些问题在语音变换技术中需要得到解决。

本发明明确了四种因素的关系，通过分离、补偿等方式，对音高、音强、音质和音长实现了独立调整，因而可以灵活的调整语音说话人的音色、音调、语速等特征，达到对多种说话人身份(老人，小孩，成年男、女等)的高品质模拟。

发明内容

本发明的目的在于提供一种基于语音分析与合成的高品质实时变声方法。

本方法基于对语音的物理属性的认识，通过研究其差异对语音变化造成的影响，得到一种通过数字信号处理的方法对语音的说话人身份特征进行改变的方法。本发明基于数字信号的时频分析，通过时域上的插值和抽剪改变语音的长度，通过短时傅立叶变换将时域信号转化到频域上，调整相位谱、幅度谱以及幅度谱的谱包络形状，达到将话音的基频和共振峰位置分离，从而可以分别进行调整的目的，最后将改变后的特征重新合成为语音信号，改变了嗓音特征，实现了变声。本发明实现了基频、共振峰位置和时间长度、音强的独立调节，从而可以灵活的调整语音说话人的音色、音高、语速等特征，达到对多种说话人性别和年龄特征(老人，小孩，成年男、女等)的高品质模拟。

一种基于语音分析与合成的高品质实时变声方法，基于傅立叶分析与合成技术，包括如下步骤：在时域上按照时长改变的要求对信号进行插值或抽剪，然后变换到频域，对幅度谱和相位谱分别进行处理，分离基频和共振峰，并对其进行独立调节，调节时补偿时长调整对此二者的影响，最后恢复时域信号。方法拥有快速的处理速度和高质量的处理效果，可以同时满足实时性和实用性的要求。

在频域上对信号的基频和共振峰位置进行独立调整，将基频和共振峰位置分离开来，既可以改变语音信号的基频及其谐波，又可以同时维持共振峰位置或对共振峰位置进行随意调整，实现了音色和音高的独立改变。

直接在时域上对语音信号的时间长度进行改变，通过插值或抽剪对数字信号实现重采样，从而拉长或缩短语音的时间尺度，再对由此而改变的基频和共振峰位置进行补偿，从而实现单独对语速进行改变的效果。

对信号的能量进行统计，实时调整输入输出信号的能量比，从而可以灵活改变输出信号的语音强度。

对幅度谱和相位谱的分别调整，通过求取幅度谱的谱包络，并以此为基础，对进行过基频调整后的频谱信号的新的幅度谱的谱包络进行形状上的改变，在不影响基频的前提下，实现对共振峰位置的随意调整。

本发明基于语音分析与合成技术，如图2所示。

语音信号看作是一种短时平稳信号，可以通过短时傅立叶变换对语音信号转换到频域进行分析处理。做短时傅立叶变换时，时间窗的长度不能太短，通常要包含若干个基频周期，同时，由于短时平稳的限制，也不能太长，保证一帧之内物理特性的变化不明显。对于人声来说，男声的基频较低，通常在125HZ左右，基频周期约8ms，因此，通常可以取时间窗的长度为24ms至32ms附近。在数字信号处理中，窗函数的长度即一帧的数据样本点数，其大小取决于该语音信号的采样率大小。

进行短时傅立叶变换，等价于对该帧语音信号先加窗，再对在时间轴上周期延拓后得到的信号计算傅立叶级数，即此帧信号周期延拓后被表示成一组复正弦信号的叠加，变换得到的傅立叶系数即这些复正弦组份的幅度。如果将得到的每一个复正弦组份的频率值同时通过乘以某一比例系数p调整到新的频率值，那么再经过傅立叶反变换重新合成后的时域语音信号的基频及其谐波频率也同时乘了比例系数p，从而实现对原始信号基频的改变。

在实际方法中，短时傅立叶变换通过加窗和快速傅立叶变换(FFT)实现。变换之后，为了进一步完成对各组份频率值的调整并使用快速傅立叶逆变换(IFFT)重新合成时域信号，需要先将得到的傅立叶系数由直角坐标转换到极坐标，即得到其幅度谱和相位谱。这样做既方便实现基频与共振峰位置的分离，又容易完成下面的等价实现：即把改变某一复正弦信号组份的原始频率值f₁到另一频率值p*f₁，变成在固定频率f₂上将该组份的幅度和相位值转变为对应的原始频率为f₂/_p的组份的幅度和相位值，从而可以直接使用IFFT实现合成。

对幅度谱来说，完成上诉处理只需要对原始幅度谱进行比例插值或抽剪即可完成。而对于相位谱，则需要先对相位谱进行展开，如图3所示。某一帧内，某一频率复正弦信号组份的频率值f₁调整到p*f₁，该组份的相位在此帧内的变化量也要变为原来变化量的p倍，并且这一相位的变化会逐帧累积到下一帧的初始相位上。为了实现相位谱的这种调整，方法是将展开后的相位谱在相邻两帧上的相位差(即前一帧内的相位变化量)调整为原来的p倍，再经过累积得到的初始相位也将变为原来p倍。

相位谱的展开方法：

假设两帧之间的偏移时间长度为t_w，对于频率为f_k的复正弦波组份来说，其在t(t＞1)时刻，与前一帧之间的相位变化量的理论值为

ΔΦ_k ^(t)＝2π·f_k·t_w.

实际两帧之间的初始相位差为

Δθ_k ^(t)＝θ_k ^(t)-θ_k ^(t-1).

定义

Δφ_k ^(t)＝(Δθ_k ^(t)-ΔΦ_k ^(t))MOD2π+ΔΦ_k ^(t)，

其中

那么，Δφ_k ^(t)即作为t时刻展开后的相邻两帧间的相位变化量。通过累加，得到t时刻展开后的初始相位：

\{\begin{matrix} {\tilde{θ}}_{k}^{(t)} = {\tilde{θ}}_{k}^{(t - 1)} + {Δφ}_{k}^{(t)}, \\ {\tilde{θ}}_{k}^{(1)} = {θ_{k}}^{(1)} . \end{matrix}

如前面所说，改变基频时，对于幅度谱只需要对原始幅度谱进行比例插值或抽剪。但这样做，在改变了基频的同时，也按同样的比例移动了共振峰的位置。所以，需要引入另外的方法在不影响基频的情况下调整共振峰。这种方法是通过提取幅度谱的谱包络来达到最终目的的。

下面的公式中，e(n)为调整之前原始幅度谱的谱包络，按上面的处理方法，基频提高p倍后，谱包络随之变为ê(n)，并且有

\hat{e} (n) = e (\frac{n}{p}),

(n)为经过插值调整后的幅度谱，为对共振峰进行补偿后的幅度谱。有

\tilde{a} (n) = \frac{e (n)}{\hat{e} (n)} \hat{a} (n) = \frac{e (n)}{e (\frac{n}{p})} \hat{a} (n) .

由此得到的补偿后的幅度谱维持了原始幅度谱的谱包络e(n)，从而保证了原来的共振峰位置不变动，同时不会对频率的调整造成影响。

同样的思路，可以进一步将公式

\tilde{a} (n) = \frac{e (n)}{\hat{e} (n)} \hat{a} (n)

中的e(n)换成对共振峰做出调整后新的谱包络，从而实现对共振峰位置的改变。

求取谱包络的方法常见的有：线性预测编码(LPC)的方法，倒谱分析的方法，低通滤波的方法，离散倒谱方法，以及对局部峰值点插值的方法等等。为了满足实时性的要求，选择的方法要求有较低的复杂度，同时，还要保证较好的效果。本实例中采用的是经过改进的倒谱分析的方法，实验证明，该方法稳定性强，适用于多种声音类型，且计算效果和计算量都符合实用要求。

以上的方法实现了对基频和共振峰位置的独立改变。

在此基础上，音长的独立调整也变得易于实现。

已经知道，通过改变数字语音信号播放时的采样频率就可以改变语音的语速，即改变了音长。于是，可以先在时间域上对语音信号数据作插值或抽剪，在原来的采样率速度下播放，语速就得到了减慢或加快。但与此同时，语音的基频和共振峰位置也同时发生改变。假如，按照比例因子t对时域信号进行插值，则基频周期变为原来的t倍，基频就变成¹/_t，同时影响共振峰位置也按¹/_t的比例发生变化。

有了前面对基频和共振峰位置独立改变的方法，此时只要对基频和共振峰位置按比例因子t同时进行补偿，就实现了只改变音长的目的。

由上面的讨论可以看到，三种物理特性的调整顺序为音长、基频，然后是共振峰位置。假设其比例调整因子依次为t、p、f，且三特征分开依次调整，情形如下：首先按比例因子t调整音长，同时对基频和共振峰位置用因子t进行补偿。再按比例因子p调整基频，同时对共振峰位置补偿因子¹/_p。最后按比例因子f调整共振峰位置。因此，最终相当于先用因子t调整音长，再用因子p*t调整基频，最后用因子

调整此时的共振峰位置，从而实现分别用t、p、f独立调整三种物理特性的目的。实际应用中，共振峰的调整可以进行简化，只需在初始的位置上调整f*t，如图1所示。

三种物理特性的调整都是通过样本点的插值和抽剪实现的，为了保证较好的变声效果，且在满足人声变换要求的前提下，将各比例因子限制在0.5～2之间。实验结果表明，在此范围内做出的调整，大部分都能取得令人满意的效果。同时要注意，调整共振峰位置和基频时对音长调整的补偿，可能使此二者的调整比例变得很大(大大超过2倍)，造成许多信息的丢失或模糊。因此，在共振峰位置或基频的调整比例较大时，不宜同时对音长作大的调整。

音强的调整方法如下：ΔE_i，n、ΔE_o，n分别表示第n帧信号的输入时(频谱分析之前，音长调整之后)的能量值和输出时(调整过基频和共振峰，重新合成时域信号之后)的能量值，E_i，n、E_o，n用来表示第n帧之前输入信号的总能量和输出信号的总能量。从而有

E_i，n＝E_i，n-1+ΔE_i，n，

E_o，n＝E_o，n-1+ΔE_o，n.

则，第n帧输出信号的各数据点D_n，k值按下式调整为

{\hat{D}}_{n, k} = D_{n, k} \cdot \sqrt{\frac{E_{i, n}}{E_{o, n}}} .

上面的式子保证了语音变换之后的信号与变换之前的原始信号能量基本保持一致，即音强保持不变。若需对音强作某一比例的调整，只需在此基础上再使用此比例系数调整

附图说明

图1是本发明的音长、基频、共振峰位置调整详细流程图；

图2是本发明的信号分析与合成步骤流程示意图；

图3是本发明的相位展开示意图。

具体实施方式

图1的音长、基频、共振峰位置调整的步骤如下：

步骤S1-1，在时域上按照调整因子t对某一帧进行数据点的插值或抽剪；

步骤S1-2，变换到频域，并由直角坐标转换到极坐标上，得到相位谱I和幅度谱II；

步骤S1-3，对幅度谱II提取包络，得到包络谱III，对III在频率轴上按照调整因子t×f进行缩放，得到调整过共振峰位置的包络谱IV；

步骤S1-4，对幅度谱II点对点除以包络谱III，得到V，将谱V的横坐标在频率轴上按照调整因子t×p进行缩放，然后点对点乘以调整后的包络谱IV，得到调整后的幅度谱VII；

步骤S1-5，对相位谱I，与相邻帧的相位差进行展开，得到两帧之间各频率上相位改变的实际值，该值乘以调整因子t×p，然后对频率轴按照调整因子t×p进行缩放，将调整后的相位差重新累加，得到当前帧调整后的相位谱VIII；

步骤S1-6，将调整后的幅度谱VII和相位谱VIII变换到直角坐标，重新变换到时域。

图2的语音信号分析与合成，其步骤如下：

步骤S2-1，对信号在时域上进行处理，包括叠接分帧、插值、加窗等；

步骤S2-2，将时域上得到的每一帧通过时频变换转化到频域上，在频谱上进行处理，包括调整基频和共振峰等，然后通过时频逆变换重新恢复到时域；

步骤S2-3，在时域上对各帧进行窗函数补偿，再用合成窗函数加窗，叠接相加后得到完整的时域信号。

图3的相位展开，具体展开的过程的说明如前文详述。

为了实现对男声、女声、童声和老人声的模拟及相互变换，本发明在各物理特性的调整上基于下面的说明。

在普通说话的情况下，一般认为，童声的基频最高，可以达到300Hz左右，女声大致平均在220Hz附近，而男声的基频平均在125Hz左右。由此，可以得到男声、女声和童声的基频的大致比例。实际应用中发现，女声与男声的基频比例在1.5～1.8之间，通常可以有较理想到效果，而童声与男声的基频比例须在1.8以上。对于模拟老人的声音，通常要下调基频到0.6～0.9的比例附近，得到较真实的效果。

对于共振峰来说，通常，男声、女声、童声的共振峰大致都有6∶7∶8的简单关系。实际情况中，男、女、童声在不同频率高低的各峰之间，其比例并非是线性的，通常频率较低的各峰差别较大，频率较高的则差别不大。普通的应用条件下，可以忽略不考虑。对于老人声，可以认为其音色偏向于男声，所以其共振峰的调节比例选用小于1的数值。

在男女声相互变换时，通常认为语速没有变化，而对于老人声和童声，可以将语速稍稍放慢，较符合实际情况。

实施例

依据本发明提出的方法，在pc平台上实现了一个可以录音、原声播放，以及实时处理并模拟男声、女声、老人声或小孩声播放的演示程序。该程序对播放缓冲区队列中的每个缓冲区先预处理，按预定的调整比例对该缓冲区语音数据段进行音长、基频和共振峰的调整，分别模拟出男、女、老人和小孩声。而且可以手工调整上述三种特征的调整比例，达到更满意的模拟效果。该程序实现了实时处理，实时调整，实时播放。

在CPU为P4-2.4GHz，内存为256M的测试平台下，空闲时的CPU使用率为2％，原声播放时CPU使用率为10％左右，而实时变声播放时，CPU使用率在22％左右。该变声方法对处理器的要求完全在可接受到范围之内，而且在音质上达到了令人满意的效果。

Claims

1.一种基于语音分析与合成的高品质实时变声方法，基于傅立叶分析与合成技术，其特征在于，包括如下步骤：在时域上按照时间长度改变的要求对信号进行插值或抽剪，然后变换到频域，对幅度谱和相位谱分别进行处理，分离基频和共振峰，并对其进行独立调节，调节时补偿时间长度调整对此二者的影响，最后恢复时域信号。

2.根据权利要求1所述的基于语音分析与合成的高品质实时变声方法，其特征在于，在频域上对信号的基频和共振峰位置进行独立调整，将基频和共振峰位置分离开来，既可以改变语音信号的基频及其谐波，又可以同时维持共振峰位置或对共振峰位置进行随意调整，实现音色和音高的独立改变。

3.根据权利要求1所述的基于语音分析与合成的高品质实时变声方法，其特征在于，直接在时域上对语音信号的时间长度进行改变，通过插值或抽剪对数字信号实现重采样，从而拉长或缩短语音的时间尺度，再按权利要求2所述的基于语音分析与合成的高品质实时变声方法，对由此而改变的基频和共振峰位置进行补偿，从而实现单独对语速进行改变的效果。

4.根据权利要求1所述的基于语音分析与合成的高品质实时变声方法，其特征在于，对信号的能量进行统计，实时调整输入输出信号的能量比，从而可以灵活改变输出信号的语音强度。

5.根据权利要求5所述的基于语音分析与合成的高品质实时变声方法，其特征在于，通过求取幅度谱的谱包络，并以此为基础，对进行过基频调整后的频谱信号的新的幅度谱的谱包络进行形状上的改变，在不影响基频的前提下，实现对共振峰位置的随意调整。

6.根据权利要求1或2所述的基于语音分析与合成的高品质实时变声方法，其特征在于，基频、共振峰位置的调整，其步骤如下：

步骤S1-3，对幅度谱II提取包络，得到包络谱III，对III在频率轴上按调整因子t×f进行缩放，得到调整过共振峰位置的包络谱IV；

7.根据权利要求1或2所述的基于语音分析与合成的高品质实时变声方法，其特征在于，语音分析与合成的步骤如下：

步骤S2-1，对信号在时域上进行处理，包括叠接分帧、插值、加窗；

步骤S2-2，将时域上得到的每一帧通过时频变换转化到频域上，在频谱上进行处理，包括调整基频和共振峰，然后通过时频逆变换重新恢复到时域；