CN105654941A

CN105654941A - 一种基于指向目标人变声比例参数的语音变声方法及装置

Info

Publication number: CN105654941A
Application number: CN201610036866.7A
Authority: CN
Inventors: 宁更新; 钟英文; 杨文圣; 张军; 冯义志; 季飞
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-01-20
Filing date: 2016-01-20
Publication date: 2016-06-08

Abstract

本发明公开了一种基于指向目标人变声比例参数的语音变声方法及装置，获得使用者和特定目标人同一内容语音样本，根据声道建模模型，分别求得系统的极点，推导出两者语音之间的变声比例参数。随后输入该使用者待变声的一段语音，并根据建模模型和变声比例参数搬移极点，从而求得新的发音的系统模型，最后利用变声比例参数修正待变声语音激励的基音周期，并在新的声道系统中还原输出变声后的语音信号。本发明的装置具有可行性强、安装简单且设备成本低廉，可适用于多种语音变声应用场景等优点。

Description

一种基于指向目标人变声比例参数的语音变声方法及装置

技术领域

本发明涉及语音信号处理技术领域，特别涉及一种基于指向目标人变声比例参数的语音变声方法及装置。

背景技术

在语音信号处理领域中，语音变声是一个重要的分支，具有重要的学术研究价值和应用价值。目前语音变声已有不少方法，传统的方法基本上是基于以下三种思想：第一种方法是在时域上处理语音信号，通过缩放时域长度来改变信号的频率，再通过插值法使新信号长度与原信号保持一致(CN03137014.4)；第二种方法是在频域上进行处理，即先对语音信号进行插值或抽检，再对其作傅里叶变换，在频域上使其频谱整体搬移一段距离，最后再将其变换回时域，从而达到改变语音信号频率的效果(CN200410062337.1)。第三种方法，从发声系统角度出发设计，在系统域上，求出声道对应的极点，通过调节声道系统的极点的幅值和相角等参数实现极点搬移，从而改变声道系统，来实现语音变声(CN102592590B)。

由此可见，方法一和方法二都是将信号在频域或时域进行直接处理，使之频率改变，从而达到变声的效果。但是这些方法都没从发音系统角度出发设计，使得变声后语音的谐波关系保持的不佳，造成了语音的不自然。方法三，针对方法一和二的缺点，从系统域的角度去设计，确实是消除了变声后语音的不自然、有机器味的缺点，但是方法三无法往特定目标人语音变化，它只是通过盲目地调节变声参数，无方向地搬移极点，也即无方向地改变声道系统，所以也就不能变化出特定目标人的语音，不能适应语音变声的实际应用需求。

本发明在方法三的基础上出发，同样是从声音的产生过程出发，在系统域上进行处理，但是本方法，在极点的搬移上，引入特定目标人的语音，根据使用者语音和目标人语音来共同确定变声比例参数，这样搬移后的极点对应的声道系统会具有“指向性”，变化出来的语音更像特定目标人发出来的语音，这一方法可以有效解决先前方法中的不足，不仅实现了语音变声的自然变声，而且还可往特定目标人语音变化。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于指向目标人变声比例参数的语音变声方法及装置，克服现有变声方法存在的变声语音不自然、机器味重、以及不能往特定目标人语音变化等缺点。

本发明的目的通过如下技术方案实现：一种基于指向目标人变声比例参数的语音变声方法，具体包括以下步骤：

S1、从发声原理出发建立声道模型，并求得发音系统的传递函数和极点；

所述步骤S1具体为：由人声道发声原理可知，可使用如下R阶的声道模型：

y [n] = G [n] + Σ_{k = 1}^{R} a_{k} y [n - k],

其中G[n]是声带振动产生的一个激励，y[n]是G[n]通过声道后输出的信号，系数a_k即为声道模型的参数，可由杜宾算法等估计算法来提取，可知上式是一个R阶全极点的AR模型，所以它的系统函数H(z)，也即声道的系统函数为：

H (z) = \frac{1}{Σ_{k = 0}^{R} a_{k} z^{- k}}

对于一帧短时语音(通常取5ms-20ms)，求它的极点，也即令：

Σ_{k = 0}^{R} a_{k} z^{- k} = Π_{k = 0}^{R} (1 - ϵ_{k} z^{- 1}) = 0

解该方程，可以得到一组复数根k＝1,2,…,R即为系统函数H(z)的极点。

S2、输入使用者和特定目标人的同一内容语音样本，求出使用者和特定目标人语音之间的变声比例参数，包括极点变声比例参数和基音周期变声比例参数两种参数；

所述步骤S2包括以下分步骤：

S21、取使用者语音样本，并分帧(每帧Xms，设共N帧)，根据步骤一可求出每一帧的极点，同时，利用经典的基音周期估计法(如基于求短时自相关函数(ACF)或者求短时平均幅度差函数(AMDF)法)求得每一帧的基音周期，结果如下：

记第i帧的第k阶极点为：i＝1,2,…N,k＝1,2,…R，

记第i帧的基音周期为：T_ii＝1,2,…,N。

S22、取特定目标人语音样本，并分帧(每帧Xms，设共M帧)，与上一步同理，可求出每一帧的极点和基音周期，结果如下：

记第i帧的第k阶极点为i＝1,2,…M,k＝1,2,…R，

记第i帧的基音周期为：T'_ii＝1,2,…M。

S23、那么，求得极点变声比例参数如下：

极点幅值比例参数：

λ_{k} = \frac{\frac{1}{M} Σ_{i = 1}^{M} {r^{'}}_{i k}}{\frac{1}{N} Σ_{i = 1}^{N} r_{i k}}, k = 1, 2, ..., R,

极点相角比例参数：

Δ_{k} = \frac{\frac{1}{M} Σ_{i = 1}^{M} {w^{'}}_{i k}}{\frac{1}{N} Σ_{i = 1}^{N} w_{i k}}, k = 1, 2, ..., R,

S24、求得基音周期变声比例参数为：

ρ = \frac{\frac{1}{M} Σ_{i = 1}^{M} {T^{'}}_{i}}{\frac{1}{N} Σ_{i = 1}^{N} T_{i}},

这样，我们便获得了语音变声所需的变声比例参数λ_k，Δ_k，ρ。

S3、输入使用者待变声语音，并求其语音系统极点，后进行极点搬移获得新的声道系统，再修正激励基音周期后输入新的声道，获得变声语音。

所述步骤S3包括如下分步骤：

S31、取得一帧使用者待变声语音(每帧Xms)，求该帧语音的R阶极点和该帧语音的基波频率(利用经典的基音周期估计法)，结果如下：

记求得的该帧的第k阶极点为k＝1,2,…R，记求得的该帧的基波频率为：ω₀；

S32、那么，可以按照下面的表达式去搬移极点，即该帧第k阶新的极点表达式为：

{\hat{ϵ}}_{k} = λ_{k} r_{k} e^{{jω}_{k} (1 + \frac{ω_{k}}{ω_{0}} Δ k)}, k = 1, 2 ... R

即为系统的新极点。这样，在移位的过程中就引进了特定目标人语音的特性，使新的声道系统更具有“指向性”，而不是盲目随意地变声；

S33、再利用移位后的新极点恢复出新的为该帧语音新的声道系统参数，这样，新的声道模型得以建立，

对于该帧语音，由公式3可得下式：

Π_{k = 0}^{R} (1 - {\hat{ϵ}}_{k} z^{- 1}) = Σ_{k = 0}^{R} {\hat{a}}_{k} z^{- k},

由上式求得新的从而可以得到新声道的系统函数

\hat{H} (z) = \frac{1}{Σ_{k = 0}^{R} {\hat{a}}_{k} z^{- k}};

S34、最后，修正待变声语音激励G[n]的基音周期，并输入新声道中，便可得到变声后的语音信号：

由可以得到该帧语音的的激励的表达式为：

G [n] = Σ_{k = 0}^{R} a_{k} y [n - k],

对G[n]进行ρ倍的插值得到现将输入新的声道系统中，便可得到该帧变声后的语音信号:

\hat{y} [n] = \hat{G} [n] + Σ_{k = 1}^{R} {\hat{a}}_{k} y [n - k]

最后，再将该帧变声后的语音输出即可；

循环S31、S32、S33、S34四个步骤，直至待变声语音处理完毕为止。

通过上述三大步骤，本发明通过引进使用者和特定目标人的同一段语音样本构造出来的变声比例参数，有“指向性”地搬移极点，同时修正激励基音周期，克服了现有方法的缺点。

本发明的另一目的通过如下技术方案实现：一种基于指向目标人变声比例参数的语音变声装置，包括电源模块，输入模块，输出模块，控制模块与处理模块，其中：

控制模块与处理模块、输入模块、输出模块和显示模块相连接，主要用于发出指令对各个模块进行控制；

输入模块与处理模块、控制模块相连接，其主要根据控制模块的指令向处理模块输入特定目标人和使用者语音，同时也包括输入前将模拟信号转变为数字信号；

输出模块与处理模块、控制模块相连接，其主要根据控制模块的指令输出变声后的语音，同时也包括输出前将数字信号转变为模拟信号；

处理模块与控制模块、输入模块和输出模块相连，根据控制模块的指令进行数字语音信号处理，运用相关算法完成语音变声；

显示模块，与控制模块相连，提供人机交互界面，根据控制模块的指令指引用户输入语音样本和待变声语音。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明变声自然，无机器味。由于本发明是从系统域的角度去设计，消除了插值或者抽值等变声方法带来的语音的不自然、有机器味的缺点，使变声后的语音具有很自然的声音效果。

2、本发明可往特定目标人的语音变化。本发明引入特定目标人的语音，根据使用者语音和目标人语音来共同确定变声参数，新的声道系统和激励会具有“指向性”，变化出来的语音更像特定目标人发出来的语音。

3、本发明装置可行性强、安装简单且设备成本低廉，可适用于多种语音变声应用场景。

附图说明

图1为本发明所述的基于指向目标人变声比例参数的语音变声装置的总体结构示意框图。

图2为图1所述装置的硬件结构框图。

图3为本发明装置工作流程图。

图4为本发明所述的基于指向目标人变声比例参数的语音变声方法的总体流程图。

图5为图4所述方法中求解语音变声比例参数算法流程图。

图6为图4所述方法中待变声语音变声处理算法流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明主要装置如图1所示分为输入模块，输出模块，电源模块，控制模块和处理模块五个部分。其中，输入模块包括麦克风和A/D转换器，输出模块包括音箱和D/A转换器。控制模块和处理模块中的数字处理器可以用DSP芯片来实现(如：TI公司TMS320VC5509A的DSP芯片)。本发明所述装置的硬件结构框图如图2所示。本发明装置主要工作流程如图3所示。

本发明方法主要流程图如图4所示，详细步骤如下：

步骤一：根据显示模块的提示，分别向输入模块的麦克风输入使用者和特定目标人同一内容的语音样本(例如均输入：“您好，这是语音测试样本”)，输入模块的A/D转换器以8k/s的采样率采样转变为数字信号，输入到处理模块中存储后等待处理。

步骤二，处理模块通过下面处理步骤求得变声比例参数，具体流程图如附图5所示：

(1)取使用者语音样本，并分帧(每帧Xms，设共N帧)，求出它的10阶极点，同时，利用求短时平均幅度差函数法(AMDF)求得该语音样本的基音周期，结果如下：

记第i帧的第k阶极点为：i＝1,2,…N,k＝1,2,…10

记第i帧的基音周期为：T_ii＝1,2,…,N

(2)取特定目标人语音样本，并分帧(每帧Xms，设共M帧)，与上一步同理，可求出它的10阶极点和该语音样本的基音周期，结果如下：

记第i帧的第k阶极点：i＝1,2,…M,k＝1,2,…10

记第i帧的基音周期为：T'_ii＝1,2,…M

(3)那么，可以求得极点变声比例参数如下：

极点幅值比例参数：

λ_{k} = \frac{\frac{1}{M} Σ_{i = 1}^{M} {r^{'}}_{i k}}{\frac{1}{N} Σ_{i = 1}^{N} r_{i k}}, k = 1, 2, ..., 10

极点相角比例参数

Δ_{k} = \frac{\frac{1}{M} Σ_{i = 1}^{M} {w^{'}}_{i k}}{\frac{1}{N} Σ_{i = 1}^{N} w_{i k}}, k = 1, 2, ..., 10

(4)那么，可以求得基音周期变声比例参数为：

ρ = \frac{\frac{1}{M} Σ_{i = 1}^{M} {T^{'}}_{i}}{\frac{1}{N} Σ_{i = 1}^{N} T_{i}}

步骤三，具体流程图如附图6所示，根据显示模块的提示，向输入模块输入使用者待变声语音，(例如输入：“您好，这是待变声语音”)，同样地，输入模块的A/D转换器以8k/s的采样率采样转变为数字信号，输入到处理模块中存储后等待处理。再通过如下步骤对待变声语音进行语音自然变声处理：

(1)取得一帧使用者待变声语音(每帧20ms)，求该帧语音的10阶极点，并利用AMDF法求解该帧语音的基波频率：

该帧语音的10阶极点为：k＝1,2,…10

该帧语音的基波频率为：ω₀。

(2)再按照下面的表达式去搬移极点，即该帧第k阶新的极点为：

{\hat{ϵ}}_{k} = λ_{k} r_{k} e^{{jω}_{k} (1 + \frac{ω_{k}}{ω_{0}} Δ k)}, k = 1, 2 ... 10

(3)再利用移位后的新极点恢复出新的声道参数建立新声道系统。

对于该帧语音，求解下面的方程式可以得到新的声道参数

Π_{k = 0}^{10} (1 - {\hat{ϵ}}_{k} z^{- 1}) = Σ_{k = 0}^{10} {\hat{a}}_{k} z^{- k}

从而可以得到新声道的系统函数

\hat{H} (z) = \frac{1}{Σ_{k = 0}^{10} {\hat{a}}_{k} z^{- k}}

(4)修正待变声语音激励G[n]的基音周期，并输入新声道中，便可得到变声后的语音信号。

首先利用杜宾算法提取该帧待变声语音声道参数a_k，于是可以得到该帧语音的的激励为：

G [n] = Σ_{k = 0}^{R} a_{k} y [n - k]

\hat{y} [n] = \hat{G} [n] + Σ_{k = 1}^{R} {\hat{a}}_{k} y [n - k]

(5)将该帧变声后的语音信号经D/A转换器变为模拟信号后，再通过输出模块的音箱输出。

循环(1)(2)(3)(4)(5)五小步，直至待变声语音处理完毕为止。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于指向目标人变声比例参数的语音变声方法具体包括以下步骤：

2.根据权利要求1所述的基于指向目标人变声比例参数的语音变声方法，其特征在于所述步骤S1具体为：

由人声道发声原理可知，使用如下R阶的声道模型：

y [n] = G [n] + Σ_{k = 1}^{R} a_{k} y [n - k],

其中G[n]是声带振动产生的一个激励，y[n]是G[n]通过声道后输出的信号，系数a_k即为声道模型的参数，由杜宾算法等估计算法来提取，可知上式是一个R阶全极点的AR模型，所以它的系统函数H(z)，也即声道的系统函数为：

H (z) = \frac{1}{Σ_{k = 0}^{R} a_{k} z^{- k}}

对于一帧短时语音(通常取5ms-20ms)，求它的极点，也即令：

Σ_{k = 0}^{R} a_{k} z^{- k} = Π_{k = 0}^{R} (1 - ϵ_{k} z^{- 1}) = 0

解该方程，得到一组复数根k＝1,2,…,R即为系统函数H(z)的极点。

3.根据权利要求1所述的基于指向目标人变声比例参数的语音变声方法，其特征在于所述步骤S2包括以下分步骤：

S21、取使用者语音样本，并分帧：每帧Xms，设共N帧，根据步骤S1可求出每一帧的极点，同时，利用经典的基音周期估计法求得每一帧的基音周期，结果如下：

记第i帧的第k阶极点为：i＝1,2,…N,k＝1,2,…R，记第i帧的基音周期为：T_ii＝1,2,…,N；

S22、取特定目标人语音样本，并分帧：每帧Xms，设共M帧，与上一步同理，可求出每一帧的极点和基音周期，结果如下：

记第i帧的第k阶极点为i＝1,2,…M,k＝1,2,…R，记第i帧的基音周期为：T'_ii＝1,2,…M；

S23、那么，求得极点变声比例参数如下：

极点幅值比例参数：

λ_{k} = \frac{\frac{1}{M} Σ_{i = 1}^{M} {r^{'}}_{i k}}{\frac{1}{N} Σ_{i = 1}^{N} r_{i k}}, k = 1, 2, ..., R,

极点相角比例参数：

Δ_{k} = \frac{\frac{1}{M} Σ_{i = 1}^{M} {w^{'}}_{i k}}{\frac{1}{N} Σ_{i = 1}^{N} w_{i k}}, k = 1, 2, ..., R,

S24、求得基音周期变声比例参数为：

ρ = \frac{\frac{1}{M} Σ_{i = 1}^{M} {T^{'}}_{i}}{\frac{1}{N} Σ_{i = 1}^{N} T_{i}},

4.根据权利要求1所述的基于指向目标人变声比例参数的语音变声方法，其特征在于所述步骤S3包括如下分步骤：

S31、取得一帧使用者待变声语音，每帧为Xms，求该帧语音的R阶极点和该帧语音的基波频率(利用经典的基音周期估计法)，结果如下：

S32、那么按照下面的表达式去搬移极点，即该帧第k阶新的极点表达式为：

{\hat{ϵ}}_{k} = λ_{k} r_{k} e^{{jω}_{k} (1 + \frac{ω_{k}}{ω_{0}} Δ_{k})}, k = 1, 2... R,

其中即为系统的新极点，这样，在移位的过程中就引进了特定目标人语音的特性，使新的声道系统更具有“指向性”，而不是盲目随意地变声；

对于该帧语音，由公式3得下式：

Π_{k = 0}^{R} (1 - {\hat{ϵ}}_{k} z^{- 1}) = Σ_{k = 0}^{R} {\hat{a}}_{k} z^{- k},

由上式求得新的从而得到新声道的系统函数

\hat{H} (z) = \frac{1}{Σ_{k = 0}^{R} {\hat{a}}_{k} z^{- k}};

由

y [n] = G [n] + Σ_{k = 1}^{R} a_{k} y [n - k]

得到该帧语音的的激励的表达式为：

G [n] = Σ_{k = 0}^{R} a_{k} y [n - k],

对G[n]进行ρ倍的插值得到现将输入新的声道系统中，便得到该帧变声后的语音信号:

\hat{y} [n] = \hat{G} [n] + Σ_{k = 1}^{R} {\hat{a}}_{k} y [n - k]

最后，再将该帧变声后的语音输出即可；循环S31、S32、S33、S34四个步骤，直至待变声语音处理完毕为止。

5.一种基于指向目标人变声比例参数的语音变声装置，其特征在于包括电源模块，输入模块，输出模块，控制模块与处理模块，其中：