CN102592590A

CN102592590A - 一种可任意调节的语音自然变声方法及装置

Info

Publication number: CN102592590A
Application number: CN2012100393181A
Authority: CN
Inventors: 宁更新; 刘元庆; 韦岗; 杨萃
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2012-02-21
Filing date: 2012-02-21
Publication date: 2012-07-18
Anticipated expiration: 2032-02-21
Also published as: CN102592590B

Abstract

本发明公开一种可任意调节的语音自然变声方法及装置，所述方法将语音信号在声道中进行建模，随后求出发音的系统模型，即声道的模型，之后再改变声道的模型，最后在新的声道模型中还原出语音信号，这个新输出的语音信号即为变声后的信号。装置包括电源模块、输入输出模块、控制模块和处理模块，控制模块将参数送至处理模块并控制系统运行的起止。由输入输出模块输入声音信号，并转化为数字信号，送入处理模块中，处理模块根据输入的参数对信号进行处理，形成变声信号后送入输入输出模块，再转化为模拟信号，并由音箱输出。本发明使变声后的信号可以有很自然的声音效果，且可任意调节。本发明中装置简单，容易实现，且设备成本低廉，使用方便。

Description

一种可任意调节的语音自然变声方法及装置

技术领域

本发明涉及语音信号处理技术，具体涉及一种将语音信号在声道中进行建模，再改变声道的模型，获得变声信号的方法及装置。

背景技术

利用信号处理的方法改变语音信号的音调和音色，实现语音变声，甚至男女声的互相变换，既是语音信号处理的重要理论研究内容，同时也具有很强的应用价值。男女声频率的范围存在很大差异，男声频率范围大约在80-7000HZ，而女声的频率范围大约在150-11000HZ，比男声高了几乎一倍。如果要实现男女声的互相变换，那么就一定要改变语音信号的频率，使之提高或降低一个水平，这样就可以达到变声的目的。目前已有不少的方法应用于语音变声，最常用的大概是基于以下两种思想，以将男声变为女声为例，第一种方法是将语音信号在时域进行处理，通过缩短时域长度来提高信号的频率，使之变为女声，再通过插值使新信号与原信号保持一致(CN03137014.4)；第二种方法是在频域进行处理，主要就是对频谱搬移，即将语音信号先进行插值或抽检，再对其作傅里叶变换，在频域上使其频谱整体向高频率范围移动一段距离，最后再将其变换回时域，通过这种方法也可以达到使语音信号频率提高的效果，最终实现变声的目的(CN200410062337.1)。

由此可以看到，目前的语音变声方法都是将信号在频域或时域进行直接处理，使之频率改变，从而达到变声的效果。但是这些方法都没从发音系统角度出发设计，使得变声后语音的谐波关系保持的不佳，造成了语音的不自然。此外，现有的方法只能在几种特定的声音模式之间进行切换，无法做到根据要求快速地随意进行变声。

本发明从声音的产生过程出发，提出了一种在系统域进行变换来实现变声的方法，这一方法可以有效解决上述方法中的不足，在实现语音变声的同时，保证了声音的质量。

发明内容

本发明的目的在于克服现有变声方法存在的声音不自然、有机器味、不能随意变成任何人声音等不足，提供一种可任意调节的语音自然变声方法及装置，具体技术方案如下。

一种可任意调节的语音自然变声方法，包括如下步骤：

步骤一、建立通过声道后的语音信号的声道模型：声带振动产生一个激励，通过口腔后形成一个语音信号G[n]，使G[n]通过一个声道，输出一个信号y[n]，该信号的声道模型为：

y [n] = G [n] + Σ_{i = 1}^{N} a_{i} y [n - i]

(公式1)，

公式1中，系数a_i即为声道模型的参数，G[n]表示为：

G [n] = Σ_{i = 0}^{N} a_{i} y [n - i]

(公式2)；

步骤二、求出声道的系统传递函数：对语音信号G[n]进行Z变换，对上式两边同时进行Z变换，得到如下结果：

G (z) = Σ_{i = 0}^{N} a_{i} Y (z) z^{- i}

(公式3)，

将公式3作变换，将等号左边写为输出与输入函数的比值形式，即得到下式

\frac{Y (z)}{G (z)} = \frac{1}{Σ_{i = 0}^{N} a_{i} z^{- i}}

(公式4)，

公式4即为该声道系统函数H(z)

H (z) = \frac{1}{Σ_{i = 0}^{N} a_{i} z^{- i}}

(公式5)；

步骤三、求出声道的系统函数的极点：根据上面的表达式，求H(z)的极点即为求下面方程的根，

Σ_{i = 0}^{N} a_{i} z^{- i} = 0

(公式6)

令

Σ_{i = 0}^{N} a_{i} z^{- i} = Π_{i = 0}^{N} (1 - ϵ_{i} z^{- 1}) = 0

(公式7)

解该方程，可以得到一组复数根

即为系统函数H(z)的极点；

步骤四、根据输入的变声参数，对原声道系统的极点进行移位，在极点移位后，仍保持各次谐波的关系，故而在进行极点移位时，针对不同的极点要附加不同的移动距离，移位的过程如下，首先利用数字信号处理的估算方法算出基波的频率ω₀，之后按照如下的方法将极点进行移位：

{\hat{ϵ}}_{k} = {λr}_{k} e^{j ω_{k} (1 + \frac{ω_{k}}{ω_{0}} Δ)} k = 1,2 . . . N

(公式8)

即为系统的新极点，N为正整数，其中，Δ为输入的语音变声参数，λ为音量调节参数，这样，在移位的过程中既调整了语音频率，又调整了音量大小；

步骤五、利用移位后的极点重新恢复出新的

为新的语音声道的系数，这样，新的声道模型得以建立，由于各新极点即是方程

的根，则得到下式：

Π_{i = 0}^{N} (1 - {\hat{ϵ}}_{i} z^{- 1}) = Σ_{i = 0}^{N} {\hat{a}}_{i} z^{- i}

(公式10)

从而得到新声道的系统函数

\hat{H (z)} = \frac{1}{Σ_{i = 0}^{N} {\hat{a}}_{i} z^{- i}}

(公式11)；

步骤六、将激励即语音信号G[n]输入新声道，得到新的语音信号模型，即为变声后的语音信号，最终得到变声后的语音信号为：

\hat{y [n]} = G [n] + Σ_{i = 1}^{N} {\hat{a}}_{i} y [n - i]

(公式12)。

上述可任意调节的语音自然变声方法中，步骤一根据数字信号处理的估计算法提取出该声道模型中的各项系数a_i，通过目前已知的y[n]和a_i得到系统的输入信号G[n]。所述数字信号处理的估计算法包括杜宾算法。

上述可任意调节的语音自然变声方法中，步骤四利用自相关法估算出基波的频率ω₀。

本发明还提供实现所述语音自然变声方法的装置，其包括电源模块、输入输出模块、控制模块和处理模块，其中，所述控制模块与处理模块及输入输出模块相连接，负责向处理模块输入变声参数及控制整个装置开始及结束工作；所述输入输出模块与处理模块相连接，其功能为向处理模块输入激励信号及输出变声后声音信号，并在输入输出前进行数字/模拟信号的互相转化；处理模块根据输入的变声参数，对输入信号进行变声，变声后的信号送入输入输出模块。

上述装置还可包括接口模块，接口模块与处理模块和电源模块相连。如果输出信号需要在某些系统中进行使用，则由接口模块完成传送。

上述装置中，所述输入输出模块包括麦克风、音箱及A/D转换器和D/A转换器，麦克风的输出端通过A/D转换器与处理模块的输入端连接，音箱的输入端通过D/A转换器与处理模块的输出端连接。由操作者输入参数至控制模块，控制模块将参数送至处理模块并控制系统运行的起止。由输入输出模块的麦克风输入声音信号，并转化为数字信号，送入处理模块中，处理模块根据输入的参数对信号进行处理，形成变声信号后送入输入输出模块，再转化为模拟信号，并由音箱输出。

本发明的优点有：

1.变声自然。由于本发明是从声音的产生过程出发，在系统域进行变换，没有进行插值或者抽值，故而可以完整地保留原语音信号的信息，使变声后的信号可以有很自然的声音效果。

2.可任意调节。本发明中，基频移位距离Δ及附加倍数λ都是可根据要求进行输入的参数，故而声音的音调及音量可以很方便地通过改变参数进行自由调节。

3.装置简单，容易实现，且设备成本低廉。

4.可适用范围广，使用方便，即插即用。本发明可以用在多种需变声的情况及系统中。

附图说明

图1为具体实施方式中装置的结构框图。

图2为本发明方法的原理框图。

图3为实施方式中可任意调节的语音自然变声方法的流程示意图。

图4为实施方式中声道输出频域图。

图5为实施方式中声道输出极点图。

图6为实施方式中极点移位后声道频域图。

图7为实施方式中移位后极点图。

具体实施方式

下文结合附图对本发明的具体实施方式(装置具体构成以及本发明装置的工作步骤)作进一步的说明，但本发明的实施不限于此。

本实施方式中的装置如图1所示，分为电源模块，输入输出模块，接口模块，控制模块和处理模块几个部分。其中，控制模块与处理模块及输入输出模块相连接，主要负责向处理模块输入外部参数及控制装置开始及结束工作。输入输出模块与处理模块相连接，其功能为向处理模块输入激励信号及输出变声后声音信号，另外在输入输出前进行数字/模拟信号的互相转化。处理模块为本装置核心部分，具体由一数字信号处理芯片构成，负责本装置的主要功能，即根据输入的参数，对输入信号进行变声。

装置主要的工作流程如下：

由操作者输入参数至控制模块，控制模块将参数送至处理模块并控制系统运行的起止。由输入输出模块的麦克风输入声音信号，并转化为数字信号，送入处理模块中，处理模块根据输入的参数对信号进行处理，形成变声信号后送入输入输出模块，再转化为模拟信号，并由音箱输出。如果输出信号需要在某些系统中进行使用，则由接口模块完成传送。

本实施方式的变声方法如附图3所示，是将语音信号在声道中进行建模，随后求出发音的系统模型，即声道的模型，之后再改变声道的模型，最后在新的声道模型中还原出语音信号，这个新输出的语音信号即为变声后的信号。

变声方法的步骤分为为以下几点，下面分别对每一步骤进行详细说明。

步骤一，建立通过声道后的语音信号的声道模型。

如图2所示，语音信号如人的声音，其发声原理为声带振动产生一个激励，通过口腔后形成一个声音信号G[n]。现在使G[n]通过一个声道，就会输出一个信号y[n]，该信号的声道模型为：

y [n] = G [n] + Σ_{i = 1}^{N} a_{i} y [n - i]

(公式1)

公式1中，系数a_i即为声道模型的参数。下面可以通过一些信号处理的方法检测出这个信号y[n]。同时，还可以根据一些数字信号处理的估计算法(如杜宾算法等)提取出该声道模型中的各项系数a_i。这样，通过目前已知的y[n]和a_i就可以得到系统的输入信号G[n]。G[n]可表示为：

G [n] = Σ_{i = 0}^{N} a_{i} y [n - i]

(公式2)

步骤二，求出发音系统的传递函数。

对语音信号G[n]进行Z变换。对上式两边同时进行Z变换，可以得到如下结果：

G (z) = Σ_{i = 0}^{N} a_{i} Y (z) z^{- i}

(公式3)

将上式稍作变换，将等号左边写为输出与输入函数的比值形式，即可得到下式

\frac{Y (z)}{G (z)} = \frac{1}{Σ_{i = 0}^{N} a_{i} z^{- i}}

(公式4)

公式4即为该声道的系统函数H(z)

H (z) = \frac{1}{Σ_{i = 0}^{N} a_{i} z^{- i}}

(公式5)

第三，求出原发音系统H(z)的极点。根据上面的表达式，可以看到，求H(z)的极点即为求下面方程的根。

Σ_{i = 0}^{N} a_{i} z^{- i} = 0

(公式6)

令

Σ_{i = 0}^{N} a_{i} z^{- i} = Π_{i = 0}^{N} (1 - ϵ_{i} z^{- 1}) = 0

(公式7)

解该方程，可以得到一组复数根

即为系统函数H(z)的极点，如图4所示。这组极点对应系统频域的共振峰，即如图5所示语音频谱图中极大值点，ε_k对应第k个极大值点。

注意到，这组点是信号频谱图包络的极大值点，每个共振峰均为信号的某谐波次点，这些峰值点对应的频率为基频频率的某整数倍数。

步骤四，根据输入的变声参数，对原发音系统的极点进行移位。目前现有的频域移位的方法，其缺点即在于未能保证各谐波对应频率移位后仍保持谐波关系，故而造成声音的不自然。在极点移位后，必须仍保持各次谐波的关系才能达到良好的变声效果。故而在进行极点移位时，针对不同的极点要附加不同的移动距离。移位的过程如下，首先利用数字信号处理的方法(如自相关法)估算出基波的频率ω₀。之后按照如下的方法将极点进行移位：

{\hat{ϵ}}_{k} = {λr}_{k} e^{j ω_{k} (1 + \frac{ω_{k}}{ω_{0}} Δ)} k = 1,2 . . . N

(公式8)

即为系统的新极点，N为正整数。如图6所示。其中，Δ为输入的语音变声参数，λ为音量调节参数。这样，在移位的过程中既调整了语音频率，又调整了音量大小，使声道能更加灵活和适应信号变声的需求。这组新极点对应于移位后的共振峰，如图7所示。

步骤五，利用移位后的极点重新恢复出新的

为新的语音声道的系数，这样，新的声道模型得以建立。由于各新极点即是方程

的根，则我们据此即可得到下式：

Π_{i = 0}^{N} (1 - {\hat{ϵ}}_{i} z^{- 1}) = Σ_{i = 0}^{N} {\hat{a}}_{i} z^{- i}

(公式10)

从而可以得到新声道的系统函数

\hat{H (z)} = \frac{1}{Σ_{i = 0}^{N} {\hat{a}}_{i} z^{- i}}

(公式11)

步骤六，将激励G[n]输入新声道，得到新的语音信号模型，即为变声后的语音信号。最终得到变声后的语音信号为：

\hat{y [n]} = G [n] + Σ_{i = 1}^{N} {\hat{a}}_{i} y [n - i]

(公式12)

通过上述步骤，本发明实现了通过改变声道实现变声，克服了现有方法的缺点。

作为实例，本实施方式中的接口模块可以是USB接口。输入输出模块包括麦克风、音箱及A/D、D/A转换器。处理模块中的数字处理器可以用DSP芯片或者ARM等实现(如：TI公司TMS320C2812的DSP芯片)。

该实例装置的变声方法的主要步骤如下：

步骤一：输入操作参数，由控制模块接受操作模块信息，并把操作信息交给处理模块，操作参数信息包括语音变声参数Δ，音量调节参数λ以及数模转换器采样频率。现例如输入参数谐波次数N＝5，Δ＝10％，λ＝0.8，则输入男声激励信号

经过处理模块后，即可输出为新的女声语音信号

y [n] = G [n] + Σ_{i = 1}^{5} {\hat{a}}_{i} y [n - i],

从而实现了男女声的变换。

步骤二：由麦克风接受声音激励信号，并将信号传给处理模块中的A/D转换器采样，变为数字信号，输入数字处理器中。采样频率由步骤一输入。

步骤三：数字处理器中的处理步骤可参照图2，具体如下：

1.检测信号，得到一帧语音y[n]：

y [n] = Σ_{i = 1}^{N} a_{i} y [n - i] + G [n]

2.提取声道参数a_i，这时，可利用如下的算法：

首先，求出模型的自相关函数：

R_{y} (m) = E [y (n) y (n - m)]

= Σ_{i = 1}^{N} a_{i} y (m - i) + E [G (n) y (n - m)]

根据Yule-Walker方程，可把自相关函数表示如下：

R_{y} (m) = Σ_{i = 1}^{N} a_{i} y (m - i)

在上式中，取m＝1，2...N，利用自相关函数的一个性质R_x(m)＝R_x(-m)，可得，

R_x(1)＝a₁R_x(0)+a₂R_x(1)+...+a_NR_x(N-1)

R_x(2)＝a₁R_x(1)+a₂R_x(0)+...+a_NR_x(N-2)

...

R_x(N)＝a₁R_x(N-1)+a₂R_x(N-2)+...+a_NR_x(0)

取m＝0，1，2...N，将上式写为矩阵形式，可得

(\begin{matrix} R_{x} (0) & R_{x} (N) \\ K \\ R_{x} (1) & R_{x} (N - 1) \\ M & O & M \\ R_{x} (N) & L & R_{x} (0) \end{matrix}) (\begin{matrix} 1 \\ a_{1} \\ M \\ a_{N} \end{matrix}) = (\begin{matrix} σ^{2} \\ 0 \\ M \\ 0 \end{matrix})

解此方程，就可以提取出a_i

3.通过目前已知的y[n]和a_i得到系统的输入信号G[n]。将G[n]进行Z变换，求出H(z)的极点。

H (z) = \frac{Y (z)}{G (z)} = \frac{1}{Σ_{i = 0}^{N} a_{i} z^{- i}}

4，估计出信号基频ω₀，进行极点移位，得到新的极点

{\hat{ϵ}}_{k} = {λr}_{k} e^{j ω_{k} (1 + \frac{ω_{k}}{ω_{0}} Δ)} .

5，将移位后的极点利用公式

重新恢复出新的从而建立新的声道模型其传递函数为

\hat{H (z)} = \frac{1}{Σ_{i = 0}^{N} {\hat{a}}_{i} z^{- i}} .

6，将输入信号G[n]输入新声道，得到新的语音信号模型，即为变声后的语音信号

之后再循环回第一步，处理下一帧语音信号。

步骤四：将变声后的声音信号经D/A转换器变为模拟信号后，通过输如输出模块的音箱输出，完成整个变声过程。之后再循环回第一步，处理下一帧语音信号。

Claims

1.一种可任意调节的语音自然变声方法，其特征在于包括如下步骤：

y [n] = G [n] + Σ_{i = 1}^{N} a_{i} y [n - i]

(公式1)，

公式1中，系数a_i即为声道模型的参数，G[n]表示为：

G [n] = Σ_{i = 0}^{N} a_{i} y [n - i]

(公式2)；

G (z) = Σ_{i = 0}^{N} a_{i} Y (z) z^{- i}

(公式3)，

\frac{Y (z)}{G (z)} = \frac{1}{Σ_{i = 0}^{N} a_{i} z^{- i}}

(公式4)，

公式4即为该声道系统函数H(z)

H (z) = \frac{1}{Σ_{i = 0}^{N} a_{i} z^{- i}}

(公式5)；

Σ_{i = 0}^{N} a_{i} z^{- i} = 0

(公式6)

令

Σ_{i = 0}^{N} a_{i} z^{- i} = Π_{i = 0}^{N} (1 - ϵ_{i} z^{- 1}) = 0

(公式7)

解该方程，可以得到一组复数根即为系统函数H(z)的极点；

{\hat{ϵ}}_{k} = {λr}_{k} e^{j ω_{k} (1 + \frac{ω_{k}}{ω_{0}} Δ)} k = 1,2 . . . N

(公式8)

步骤五、利用移位后的极点

重新恢复出新的

的根，则得到下式：

Π_{i = 0}^{N} (1 - {\hat{ϵ}}_{i} z^{- 1}) = Σ_{i = 0}^{N} {\hat{a}}_{i} z^{- i}

(公式10)

从而得到新声道的系统函数

\hat{H (z)} = \frac{1}{Σ_{i = 0}^{N} {\hat{a}}_{i} z^{- i}}

(公式11)；

\hat{y [n]} = G [n] + Σ_{i = 1}^{N} {\hat{a}}_{i} y [n - i]

(公式12)。

2.根据权利要求1所述的可任意调节的语音自然变声方法，其特征在于步骤一中根据数字信号处理的估计算法提取出该声道模型中的各项系数a_i，通过目前已知的y[n]和a_i得到系统的输入信号G[n]。

3.根据权利要求1所述的可任意调节的语音自然变声方法，其特征在于所述数字信号处理的估计算法包括杜宾算法。

4.根据权利要求1所述的可任意调节的语音自然变声方法，其特征在于步骤四中利用自相关法估算出基波的频率ω₀。

5.一种实现权利要求1所述语音自然变声方法的装置，其特征在于包括电源模块、输入输出模块、控制模块和处理模块，其中，所述控制模块与处理模块及输入输出模块相连接，负责向处理模块输入变声参数及控制整个装置开始及结束工作；所述输入输出模块与处理模块相连接，其功能为向处理模块输入激励信号及输出变声后声音信号，并在输入输出前进行数字/模拟信号的互相转化；处理模块根据输入的变声参数，对输入信号进行变声，变声后的信号送入输入输出模块。

6.根据权利要求5所述的装置，其特征在于，其特征在于所述处理模块包括数字信号处理芯片。

7.根据权利要求5所述的装置，其特征在于还包括接口模块，接口模块与处理模块和电源模块相连。

8.根据权利要求7所述的装置，其特征在于所述接口模块USB接口。

9.根据权利要求5所述的装置，其特征在于，所述输入输出模块包括麦克风、音箱及A/D转换器和D/A转换器，麦克风的输出端通过A/D转换器与处理模块的输入端连接，音箱的输入端通过D/A转换器与处理模块的输出端连接。