CN203038659U

CN203038659U - 一种可任意调节的语音自然变声装置

Info

Publication number: CN203038659U
Application number: CN 201220055999
Authority: CN
Inventors: 宁更新; 刘元庆; 韦岗; 杨萃
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2012-02-21
Filing date: 2012-02-21
Publication date: 2013-07-03
Anticipated expiration: 2022-02-21

Abstract

本实用新型公开一种可任意调节的语音自然变声装置，装置包括电源模块、输入输出模块、控制模块和处理模块，控制模块将参数送至处理模块并控制系统运行的起止。由输入输出模块输入声音信号，并转化为数字信号，送入处理模块中，处理模块根据输入的参数对信号进行处理，形成变声信号后送入输入输出模块，再转化为模拟信号，并由音箱输出。本实用新型使变声后的信号可以有很自然的声音效果，且可任意调节。本实用新型中装置简单，容易实现，且设备成本低廉，使用方便。

Description

一种可任意调节的语音自然变声装置

技术领域

本实用新型涉及语音信号处理技术，具体涉及一种将语音信号在声道中进行建模，再改变声道的模型，获得变声信号的装置。

背景技术

利用信号处理的方法改变语音信号的音调和音色，实现语音变声，甚至男女声的互相变换，既是语音信号处理的重要理论研究内容，同时也具有很强的应用价值。男女声频率的范围存在很大差异，男声频率范围大约在80—7000HZ，而女声的频率范围大约在150—11000HZ，比男声高了几乎一倍。如果要实现男女声的互相变换，那么就一定要改变语音信号的频率，使之提高或降低一个水平，这样就可以达到变声的目的。目前已有不少的方法应用于语音变声，最常用的大概是基于以下两种思想，以将男声变为女声为例，第一种方法是将语音信号在时域进行处理，通过缩短时域长度来提高信号的频率，使之变为女声，再通过插值使新信号与原信号保持一致（CN03137014.4）；第二种方法是在频域进行处理，主要就是对频谱搬移，即将语音信号先进行插值或抽检，再对其作傅里叶变换，在频域上使其频谱整体向高频率范围移动一段距离，最后再将其变换回时域，通过这种方法也可以达到使语音信号频率提高的效果，最终实现变声的目的(CN200410062337.1)。

由此可以看到，目前的语音变声方法都是将信号在频域或时域进行直接处理，使之频率改变，从而达到变声的效果。但是这些方法都没从发音系统角度出发设计，使得变声后语音的谐波关系保持的不佳，造成了语音的不自然。此外，现有的方法只能在几种特定的声音模式之间进行切换，无法做到根据要求快速地随意进行变声。

本实用新型从声音的产生过程出发，提出了一种在系统域进行变换来实现变声的装置，可以有效解决上述方法中的不足，在实现语音变声的同时，保证了声音的质量。

实用新型内容

本实用新型的目的在于克服现有变声方法存在的声音不自然、有机器味、不能随意变成任何人声音等不足，提供一种可任意调节的语音自然变声装置，具体技术方案如下。

本实用新型还提供实现所述语音自然变声方法的装置，其包括电源模块、输入输出模块、控制模块和处理模块，其中，所述控制模块与处理模块及输入输出模块相连接，用于向处理模块输入变声参数及控制整个装置开始及结束工作；所述输入输出模块与处理模块相连接，用于向处理模块输入激励信号及输出变声后声音信号，并在输入输出前进行数字/模拟信号的互相转化；处理模块用于根据输入的变声参数，对输入信号进行变声，并将变声后的信号送入输入输出模块。上述装置还可包括接口模块，接口模块与处理模块和电源模块相连。如果输出信号需要在某些系统中进行使用，则由接口模块完成传送。所述接口模块可以是USB接口。

上述装置中，所述输入输出模块包括麦克风、音箱及A/D转换器和D/A转换器，麦克风的输出端通过A/D转换器与处理模块的输入端连接，音箱的输入端通过D/A转换器与处理模块的输出端连接。由操作者输入参数至控制模块，控制模块将参数送至处理模块并控制系统运行的起止。由输入输出模块的麦克风输入声音信号，并转化为数字信号，送入处理模块中，处理模块根据输入的参数对信号进行处理，形成变声信号后送入输入输出模块，再转化为模拟信号，并由音箱输出。

上述装置中，处理模块用于根据输入的变声参数，对输入信号进行变声，包括如下步骤：

步骤一、建立通过声道后的语音信号的声道模型：声带振动产生一个激励，通过口腔后形成一个语音信号G[n]，使G[n]通过一个声道，输出一个信号y[n]，该信号的声道模型为：

y [n] = G [n] + Σ_{i = 1}^{N} a_{i} y [n - i]

（公式1），

公式1中，系数a_i即为声道模型的参数，G[n]表示为：

G [n] = Σ_{i = 0}^{N} a_{i} y [n - i]

（公式2）；

步骤二、求出声道的系统传递函数：对语音信号G[n]进行Z变换，对上式两边同时进行Z变换，得到如下结果：

G (z) = Σ_{i = 0}^{N} a_{i} Y (z) z^{- i}

（公式3），

将公式3作变换，将等号左边写为输出与输入函数的比值形式，即得到下式

\frac{Y (z)}{G (z)} = \frac{1}{Σ_{i = 0}^{N} a_{i} z^{- i}}

（公式4），

公式4即为该声道系统函数H(z)

H (z) = \frac{1}{Σ_{i = 0}^{N} a_{i} z^{- i}}

（公式5）；

步骤三、求出声道的系统函数的极点：根据上面的表达式，求H(z)的极点即为求下面方程的根，

Σ_{i = 0}^{N} a_{i} z^{- i} = 0

（公式6）

令

Σ_{i = 0}^{N} a_{i} z^{- i} = Π_{i = 0}^{N} (1 - ϵ_{i} z^{- 1}) = 0

（公式7）

解该方程，可以得到一组复数根

，即为系统函数H(z)的极点；

步骤四、根据输入的变声参数，对原声道系统的极点进行移位，在极点移位后，仍保持各次谐波的关系，故而在进行极点移位时，针对不同的极点要附加不同的移动距离，移位的过程如下，首先利用数字信号处理的估算方法算出基波的频率ω₀，之后按照如下的方法将极点进行移位：

\hat{ϵ_{k}} = λ r_{k} e^{j ω_{k} (1 + \frac{ω_{k}}{ω_{0}})} k = 1,2 . . . N

（公式8）

即为系统的新极点，N为正整数，其中，Δ为输入的语音变声参数，λ为音量调节参数，这样，在移位的过程中既调整了语音频率，又调整了音量大小；

步骤五、利用移位后的极点

重新恢复出新的

，

为新的语音声道的系数，这样，新的声道模型得以建立，由于各新极点即是方程

的根，则得到下式：

Π_{i = 0}^{N} (1 - \hat{ϵ_{i}} z^{- 1}) = Σ_{i = 0}^{N} \hat{a_{i}} z^{- i}

（公式10）

从而得到新声道的系统函数

\hat{H (z)} = \frac{1}{Σ_{i = 0}^{N} \hat{a_{i}} z^{- i}}

（公式11）；

步骤六、将激励即语音信号G[n]输入新声道，得到新的语音信号模型，即为变声后的语音信号，最终得到变声后的语音信号为:

\hat{y [n]} = G [n] + Σ_{i = 0}^{N} \hat{a_{i}} y [n - i]

（公式12）。

本实用新型的优点有：

1.变声自然。由于本实用新型是从声音的产生过程出发，在系统域进行变换，没有进行插值或者抽值，故而可以完整地保留原语音信号的信息，使变声后的信号可以有很自然的声音效果。

2.可任意调节。本实用新型中，基频移位距离Δ及附加倍数λ都是可根据要求进行输入的参数，故而声音的音调及音量可以很方便地通过改变参数进行自由调节。

3.装置简单，容易实现，且设备成本低廉。

4.可适用范围广，使用方便，即插即用。本实用新型可以用在多种需变声的情况及系统中。

附图说明

图1为具体实施方式中装置的结构框图。

图2为本实用新型方法的原理框图。

图3为实施方式中可任意调节的语音自然变声方法的流程示意图。

图4为实施方式中声道输出频域图。

图5为实施方式中声道输出极点图。

图6为实施方式中极点移位后声道频域图。

图7为实施方式中移位后极点图。

具体实施方式

下文结合附图对本实用新型的具体实施方式（装置具体构成以及本实用新型装置的工作步骤）作进一步的说明，但本实用新型的实施不限于此。

本实施方式中的装置如图1所示，分为电源模块，输入输出模块，接口模块，控制模块和处理模块几个部分。其中，控制模块与处理模块及输入输出模块相连接，主要负责向处理模块输入外部参数及控制装置开始及结束工作。输入输出模块与处理模块相连接，其功能为向处理模块输入激励信号及输出变声后声音信号，另外在输入输出前进行数字/模拟信号的互相转化。处理模块为本装置核心部分，具体由一数字信号处理芯片构成，负责本装置的主要功能，即根据输入的参数，对输入信号进行变声。

装置主要的工作流程如下：

由操作者输入参数至控制模块，控制模块将参数送至处理模块并控制系统运行的起止。由输入输出模块的麦克风输入声音信号，并转化为数字信号，送入处理模块中，处理模块根据输入的参数对信号进行处理，形成变声信号后送入输入输出模块，再转化为模拟信号，并由音箱输出。如果输出信号需要在某些系统中进行使用，则由接口模块完成传送。

本实施方式的变声方法如附图3所示，是将语音信号在声道中进行建模，随后求出发音的系统模型，即声道的模型，之后再改变声道的模型，最后在新的声道模型中还原出语音信号，这个新输出的语音信号即为变声后的信号。

变声方法的步骤分为为以下几点，下面分别对每一步骤进行详细说明。

步骤一，建立通过声道后的语音信号的声道模型。

如图2所述，语音信号如人的声音，其发声原理为声带振动产生一个激励，通过口腔后形成一个声音信号G[n]。现在使G[n]通过一个声道，就会输出一个信号y[n]，该信号的声道模型为：

y [n] = G [n] + Σ_{i = 1}^{N} a_{i} y [n - i]

（公式1）

公式1中，系数a_i即为声道模型的参数。下面可以通过一些信号处理的方法检测出这个信号y[n]。同时，还可以根据一些数字信号处理的估计算法（如杜宾算法等）提取出该声道模型中的各项系数a_i。这样，通过目前已知的y[n]和a_i就可以得到系统的输入信号G[n]。G[n]可表示为：

G [n] = Σ_{i = 0}^{N} a_{i} y [n - i]

（公式2）

步骤二，求出发音系统的传递函数。

对语音信号G[n]进行Z变换。对上式两边同时进行Z变换，可以得到如下结果：

G (z) = Σ_{i = 0}^{N} a_{i} Y (z) z^{- i}

（公式3）

将上式稍作变换，将等号左边写为输出与输入函数的比值形式，即可得到下式

\frac{Y (z)}{G (z)} = \frac{1}{Σ_{i = 0}^{N} a_{i} z^{- i}}

（公式4）

公式4即为该声道的系统函数H[z]

H (z) = \frac{1}{Σ_{i = 0}^{N} a_{i} z^{- i}}

（公式5）

第三，求出原发音系统H(z)的极点。根据上面的表达式，可以看到，求H(z)的极点即为求下面方程的根。

Σ_{i = 0}^{N} a_{i} z^{- i} = 0

（公式6）

令

Σ_{i = 0}^{N} a_{i} z^{- i} = Π_{i = 0}^{N} (1 - ϵ_{i} z^{- 1}) = 0

（公式7）

解该方程，可以得到一组复数根

，即为系统函数H(z)的极点，如图4所示。这组极点对应系统频域的共振峰，即如图5所示语音频谱图中极大值点，ε_k对应第k个极大值点。

注意到，这组点是信号频谱图包络的极大值点，每个共振峰均为信号的某谐波次点，这些峰值点对应的频率为基频频率的某整数倍数。

步骤四，根据输入的变声参数，对原发音系统的极点进行移位。目前现有的频域移位的方法，其缺点即在于未能保证各谐波对应频率移位后仍保持谐波关系，故而造成声音的不自然。在极点移位后，必须仍保持各次谐波的关系才能达到良好的变声效果。故而在进行极点移位时，针对不同的极点要附加不同的移动距离。移位的过程如下，首先利用数字信号处理的方法（如自相关法）估算出基波的频率ω₀。之后按照如下的方法将极点进行移位：

\hat{ϵ_{k}} = λ r_{k} e^{j ω_{k} (1 + \frac{ω_{k}}{ω_{0}})} k = 1,2 . . . N

（公式8）

即为系统的新极点，N为正整数。如图6所示。其中，Δ为输入的语音变声参数，λ为音量调节参数。这样，在移位的过程中既调整了语音频率，又调整了音量大小，使声道能更加灵活和适应信号变声的需求。这组新极点对应于移位后的共振峰，如图7所示。

步骤五，利用移位后的极点

重新恢复出新的

，

为新的语音声道的系数，这样，新的声道模型得以建立。由于各新极点即是方程

的根，则我们据此即可得到下式：

Π_{i = 0}^{N} (1 - \hat{ϵ_{i}} z^{- 1}) = Σ_{i = 0}^{N} \hat{a_{i}} z^{- i}

（公式10）

从而可以得到新声道的系统函数

\hat{H (z)} = \frac{1}{Σ_{i = 0}^{N} \hat{a_{i}} z^{- i}}

（公式11）

步骤六，将激励G[n]输入新声道，得到新的语音信号模型，即为变声后的语音信号。最终得到变声后的语音信号为:

\hat{y [n]} = G [n] + Σ_{i = 0}^{N} \hat{a_{i}} y [n - i]

（公式12）

通过上述步骤，本实用新型实现了通过改变声道实现变声，克服了现有方法的缺点。

作为实例，本实施方式中的接口模块可以是USB接口。输入输出模块包括麦克风、音箱及A/D、D/A转换器。处理模块中的数字处理器可以用DSP芯片或者ARM等实现（如：TI公司TMS320C2812的DSP芯片）。

该实例装置的变声方法的主要步骤如下：

步骤一：输入操作参数，由控制模块接受操作模块信息，并把操作信息交给处理模块，操作参数信息包括语音变声参数Δ，音量调节参数λ以及数模转换器采样频率。现例如输入参数谐波次数N=5，Δ=10%，λ=0.8，则输入男声激励信号经过处理模块后，即可输出为新的女声语音信号

，从而实现了男女声的变换。

步骤二：由麦克风接受声音激励信号，并将信号传给处理模块中的A/D转换器采样，变为数字信号，输入数字处理器中。采样频率由步骤一输入。

步骤三：数字处理器中的处理步骤可参照图2，具体如下：

1.检测信号，得到一帧语音y[n]：

y [n] = Σ_{i = 1}^{N} a_{i} y [n - i] + G [n]

2.提取声道参数a_i，这时，可利用如下的算法：

首先，求出模型的自相关函数：

\begin{matrix} R_{y} (m) = E [y (n) y (n - m)] \\ = Σ_{i = 1}^{N} a_{i} y (m + i) + E [G (n) y (n - m)] \end{matrix}

根据Yule-Walker方程，可把自相关函数表示如下：

R_{y} (m) = Σ_{i = 1}^{N} a_{i} y (m - i)

在上式中，取m=1,2…N，利用自相关函数的一个性质R_x(m)=R_x(-m)，可得，

R_x(1)=a₁R_x(0)+ a₂R_x(1) +…+a_NR_x(N-1)

R_x(2)=a₁R_x(1)+ a₂R_x(0) +…+a_NR_x(N-2)

…

R_x(N)=a₁R_x(N-1)+ a₂R_x(N-2) +…+a_NR_x(0)

取m=0,1,2…N，将上式写为矩阵形式，可得

解此方程，就可以提取出a_i

3. 通过目前已知的y[n]和a_i得到系统的输入信号G[n]。将G[n]进行Z变换，求出H(z)的极点。

H (z) = \frac{Y (z)}{H (z)} = \frac{1}{Σ_{i = 0}^{N} a_{i} z^{- i}}

4，估计出信号基频ω₀，进行极点移位,得到新的极点

\hat{ϵ_{k}} = λ r_{k} e^{j ω_{k} (1 + \frac{ω_{k}}{ω_{0}} Δ)}

。

5，将移位后的极点利用公式

重新恢复出新的

，从而建立新的声道模型其传递函数为

。

6，将输入信号G[n]输入新声道，得到新的语音信号模型，即为变声后的语音信号。之后再循环回第一步，处理下一帧语音信号。

步骤四：将变声后的声音信号经D/A转换器变为模拟信号后，通过输如输出模块的音箱输出，完成整个变声过程。之后再循环回第一步，处理下一帧语音信号。

Claims

1.一种可任意调节的语音自然变声装置，其特征在于包括电源模块、输入输出模块、控制模块和处理模块，其中，所述控制模块与处理模块及输入输出模块相连接，用于向处理模块输入变声参数及控制整个装置开始及结束工作；所述输入输出模块与处理模块相连接，用于向处理模块输入激励信号及输出变声后声音信号，并在输入输出前进行数字/模拟信号的互相转化；处理模块用于根据输入的变声参数，对输入信号进行变声，并将变声后的信号送入输入输出模块。

2.根据权利要求1所述的可任意调节的语音自然变声装置，其特征在于，其特征在于所述处理模块包括数字信号处理芯片。

3.根据权利要求1所述的可任意调节的语音自然变声装置，其特征在于还包括接口模块，接口模块与处理模块和电源模块相连。

4.根据权利要求3所述的可任意调节的语音自然变声装置，其特征在于所述接口模块为USB接口。

5.根据权利要求1~4任一项所述的可任意调节的语音自然变声装置，其特征在于，所述输入输出模块包括麦克风、音箱及A/D转换器和D/A转换器，麦克风的输出端通过A/D转换器与处理模块的输入端连接，音箱的输入端通过D/A转换器与处理模块的输出端连接。