CN105304092A

CN105304092A - 一种基于智能终端的实时变声方法

Info

Publication number: CN105304092A
Application number: CN201510599104.3A
Authority: CN
Inventors: 邹永杭; 朱汉坤; 张南; 刘恒; 宋志东; 邵忠
Original assignee: SHENZHEN HIPAD COMMUNICATION TECHNOLOGY Co Ltd
Current assignee: SHENZHEN HIPAD COMMUNICATION TECHNOLOGY Co Ltd
Priority date: 2015-09-18
Filing date: 2015-09-18
Publication date: 2016-02-03

Abstract

本发明提供了一种基于智能终端的实时变声方法，包括以下步骤：S1、语音信号读入；S2、汉明窗加权语音；S3、计算线性预测系统A；S4、计算激励、滤波，重建语音作为测试对比用；S5、根据激励计算基频和合成激励能量；S6、根据变频系数α改变基频频率；S7、根据预测系统求极点；S8、移动极点改变极点角度ω改变共振峰频率；S9、根据新极点求出新系数A1；S10、根据新基频、新系数A1，计算出合成激励、插值抽值，计算出合成语音；S11、输出变声后的语音信号。本发明的有益效果是：可实现实时变声，适用于实时语音交流。

Description

一种基于智能终端的实时变声方法

技术领域

本发明涉及变声方法，尤其涉及一种基于智能终端的实时变声方法。

背景技术

目前在使用的智能终端有录放变声的App，这种不适用于实时语音交流。

发明内容

为了解决现有技术中的问题，本发明提供了一种基于智能终端的实时变声方法。

本发明提供了一种基于智能终端的实时变声方法，包括以下步骤：

S1、语音信号读入；

S2、汉明窗加权语音；

S3、计算线性预测系统A；

S4、计算激励、滤波，重建语音作为测试对比用；

S5、根据激励计算基频和合成激励能量；

S6、根据变频系数α改变基频频率；

S7、根据预测系统求极点；

S8、移动极点改变极点角度ω改变共振峰频率；

S9、根据新极点求出新系数A1；

S10、根据新基频、新系数A1，计算出合成激励、插值抽值，计算出合成语音；

S11、输出变声后的语音信号。

作为本发明的进一步改进，步骤S6中：假设重采样因子为P/Q，其中，P为上采样因子，Q为下采样因子，上采样过程就是往原始信号相邻两点间内插P-1个采样点，这样使得基音周期变为原来的P倍，频谱压缩为原来的1/P倍，时长变为原来的P倍，即基频变为原来的1/P倍，音调降为原来的1/P倍，语速变为原来的1/P倍，同样地，下采样过程就是每隔Q-1个点进行抽取，这样会使得基音周期长度为原来的1/Q倍，频谱扩展为原来的Q倍，时长变为原来的1/Q倍，即基频变为原来的Q倍，音调升为原来的Q倍，语速变为原来的Q倍，综合上述两个过程，通过P/Q倍的重采样后，保持播放速率不变，重采样语音语速和音调都变为原来的Q/P倍。

作为本发明的进一步改进，步骤S8中：提高共振峰频率G1Hz，语音采样频率为L1Hz则ω＝-G1*2*л/L1；降低共振峰频率G2Hz，语音采样频率为L2Hz则ω＝G2*2*л/L2。

作为本发明的进一步改进，步骤S8中：提高共振峰频率100Hz，语音采样频率为8kHz则ω＝-100*2*л/8000；降低共振峰频率160Hz，语音采样频率为8kHz则ω＝160*2*л/8000。

作为本发明的进一步改进，步骤S10中：用基于时域抽取或内插的方法实现变调，通过在相邻两个数据点之间线性插入新的数据点来达到增采样的目的，也可以通过每隔一定时间抽取一些点来达到降采样的目的，增采样可以实现频谱的压缩，从而起到降调的作用；降采样能够实现频谱的扩展，从而有升调的作用，将时域抽取和内插相结合可以实现任意倍频率的变调，假设变调前频率为f₀，变调后频率为f，变调系数为α，则α＝f/f₀；假设α＝f/f₀＝M/L，其中，M、L均为正整数，要实现任意有理数倍频率的变调，采用以下公式：

\begin{matrix} x_{1} (n) = x ([\frac{n}{L}]) + \frac{\mod (n, L)}{L} \times \\ {x ([\frac{n}{L}] + 1) - x ([\frac{n}{L}])} \end{matrix},

n＝0，1，2，…，(N－1)×L+1，

y(n)＝x₁(M×n)，n＝0，1，2，…，N×L/M

其中，N是帧长，[]表示取整运算，当M＞L时，实现升调；M＜L时，实现降调，x(n)为输入信号。

作为本发明的进一步改进，步骤S10中：对信号在频域上进行插值或抽取，能够实现信号频谱的变化，从而实现变调，频谱插值能够将信号在频域上进行扩展，从而实现升调；频域抽取能够将信号在频域上进行压缩，从而实现降调，为了保持相位的连续性，采用帧间重叠处理技术，令变调系数α＝2^d/12，处理中，对低频高频均线性内插，采用以下公式：

X(k)＝FFT{x(n)}，k＝0，1，…，N－1，

\begin{matrix} Y (k) = \\ \{\begin{matrix} Y (k) = X ([\frac{k}{α}]) + {X ([\frac{k}{α}] + 1) - X ([\frac{k}{α}])} (\frac{k}{α} - [\frac{k}{α}]), \\ k = 0, 1, ..., \min {[(N - 1) / 2], [(N - 1) α / 2]}, \\ 0, k = [(N - 1) α / 2], ..., (N - 1) / 2, \end{matrix} \\ Y * (N - 1 - k), k = [(N - 1) / 2] + 1, ..., N - 1 \end{matrix}

其中，FFT()表示对信号进行快速傅里叶变换，N是帧长，[]表示取整，min()表示取较小值，*表示取共轭，仅仅对于降调时，才有花括号式中对Y(k)的补0。

本发明的有益效果是：通过上述方案，可实现实时变声，适用于实时语音交流。

附图说明

图1是本发明一种基于智能终端的实时变声方法的流程图。

具体实施方式

下面结合附图说明及具体实施方式对本发明进一步说明。

如图1所示，一种基于智能终端的实时变声方法，包括以下步骤：

S1、语音信号读入；

S2、汉明窗加权语音；

S3、计算线性预测系统A；

S4、计算激励、滤波，重建语音作为测试对比用；

S5、根据激励计算基频和合成激励能量；

S6、根据变频系数α改变基频频率；

S7、根据预测系统求极点；

S8、移动极点改变极点角度ω改变共振峰频率；

S9、根据新极点求出新系数A1；

S11、输出变声后的语音信号。

重采样使得信号的样本数目增加或减少，若以不变的采样频率播放，速度会变慢或变快，因此需要进行保持声调不变的变速处理(变速不变调)，恢复到原来的样本数目。同时为了改变信号的基频，还必须对信号进行变调处理即基频移动，在运用变调因子时，必须抵消重采样引起的基频变化。变调采样因子在变调不变速的做法如下：

假设重采样因子为P/Q，其中，P为上采样因子，Q为下采样因子。上采样过程就是往原始信号相邻两点间内插P-1个采样点，这样使得基音周期变为原来的P倍，频谱压缩为原来的1/P倍，时长变为原来的P倍，即基频变为原来的1/P倍，音调降为原来的1/P倍，语速变为原来的1/P倍。同样地，下采样过程就是每隔Q-1个点进行抽取，这样会使得基音周期长度为原来的1/Q倍，频谱扩展为原来的Q倍，时长变为原来的1/Q倍，即基频变为原来的Q倍，音调升为原来的Q倍，语速变为原来的Q倍。综合上述两个过程，通过P/Q倍的重采样后，保持播放速率不变，重采样语音语速和音调都变为原来的Q/P倍。

步骤S8中：提高共振峰频率G1Hz，语音采样频率为L1Hz则ω＝-G1*2*л/L1；降低共振峰频率G2Hz，语音采样频率为L2Hz则ω＝G2*2*л/L2。例如：提高共振峰频率100Hz，语音采样频率为8kHz则ω＝-100*2*л/8000；降低共振峰频率160Hz，语音采样频率为8kHz则ω＝160*2*л/8000。

智能终端App在界面上实现选择升调、降调(通过调节变声系数α实现)，并传给底层执行。同时提供时域和频域两种方案的抽值、插值方法。

方案一：用基于时域抽取或内插的方法实现变调，通过在相邻两个数据点之间线性插入新的数据点来达到增采样的目的，也可以通过每隔一定时间抽取一些点来达到降采样的目的，增采样可以实现频谱的压缩，从而起到降调的作用；降采样能够实现频谱的扩展，从而有升调的作用，将时域抽取和内插相结合可以实现任意倍频率的变调，假设变调前频率为f₀，变调后频率为f，变调系数为α，则α＝f/f₀；假设α＝f/f₀＝M/L，其中，M、L均为正整数，要实现任意有理数倍频率的变调，采用以下公式：

\begin{matrix} x_{1} (n) = x ([\frac{n}{L}]) + \frac{\mod (n, L)}{L} \times \\ {x ([\frac{n}{L}] + 1) - x ([\frac{n}{L}])} \end{matrix},

n＝0，1，2，…，(N－1)×L+1，

y(n)＝x₁(M×n)，n＝0，1，2，…，N×L/M

其中，N是帧长，[]表示取整运算，当M＞L时，实现升调；M＜L时，实现降调，x(n)为输入信号。为了实时实现，帧长N不易取得过大。该方法可以实现时域线性内插，时域线性内插比时域插0失真小，不会产生镜像失真，效果要好。

方案二：对信号在频域上进行插值或抽取，能够实现信号频谱的变化，从而实现变调，频谱插值能够将信号在频域上进行扩展，从而实现升调；频域抽取能够将信号在频域上进行压缩，从而实现降调，为了保持相位的连续性，采用帧间重叠处理技术，令变调系数α＝2^d/12，处理中，对低频高频均线性内插，采用以下公式：

X(k)＝FFT{x(n)}，k＝0，1，…，N－1，

\begin{matrix} Y (k) = \\ \{\begin{matrix} Y (k) = X ([\frac{k}{α}]) + {X ([\frac{k}{α}] + 1) - X ([\frac{k}{α}])} (\frac{k}{α} - [\frac{k}{α}]), \\ k = 0, 1, ..., \min {[(N - 1) / 2], [(N - 1) α / 2]}, \\ 0, k = [(N - 1) α / 2], ..., (N - 1) / 2, \end{matrix} \\ Y * (N - 1 - k), k = [(N - 1) / 2] + 1, ..., N - 1 \end{matrix}

其中，FFT()表示对信号进行快速傅里叶变换，N是帧长，[]表示取整，min()表示取较小值，*表示取共轭，仅仅对于降调时，才有花括号式中对Y(k)的补0。在频域进行频谱插或抽取处理后，经过傅里叶逆变换，得到对应的时域序列。实验表明：采用基于频域插值的变调方法对语音信号进行处理后，所得到的变调后语音无明显噪音，变调效果相比时域调制法要好，而且变调方法相对不是很复杂。这种方法的缺点在于内插的方法会引入不需要的频率；特别是在某些能量大的频点，假设要升2倍频，将会引入一些能量为原频点能量一半的频率分量，这些频率分量会大大影响音频的音质，变调后的语音会有部分失真。

测试结果：

方案一，时域调制法是一种简单的变调方法。其原理为对时域信号进行调制，能够将原信号的频谱进行搬移，从而实现频率的升高或降低，达到变调的效果。

该变调方法操作简单，而且可以保持语音信号的长度不变，计算量相对较小。但是该调制方法是将信号频谱进行搬移，不是频率的线性变化，而且调制后的信号低频出现空白，高频损失导致信号失真，变调后得到的语音信号会有明显的金属声和较大噪音。

方案二，采用基于频域插值的变调方法对语音信号进行处理后，所得到的变调后语音无明显噪音，变调效果相比时域调制法要好，而且变调方法相对不是很复杂。这种方法的缺点在于内插的方法会引入不需要的频率；特别是在某些能量大的频点，假设要升2倍频，将会引入一些能量为原频点能量一半的频率分量，这些频率分量会大大影响音频的音质，变调后的语音会有部分失真。

本发明提供的一种基于智能终端的实时变声方法，可适用于基于对通过改变输入声音频率，进而改变声音的音色、音调，使输出声音在感官上与原声音不同。不同的人的声音是不同，源于我们的每个人的音色和音调不同，即便音调一致，我们依然能区分出两个不同人的声音，这就是音色的不同。该变声技术，正是借助对声音音色和音调的双重复合改变，实现输出声音的改变。该变声技术用于智能终端的语音传送上，既提高了娱乐性，又可在作被叫时具备一定的防诈骗功能，例如用户是男生的，在作被叫接听变声为女生，首先在犯罪份子的欺骗对象上产生了巨大的差异性。

本发明主要完成使用ARM微控制器对基于Android的智能终端驱动层和HAL的修改。在进行性别变声时，主要考虑的是基频和共振峰频率的变化。当基频伸展，共振峰频率也同时伸展时，可由男声变女声，女声变成童声；反之，基频收缩，共振峰频率也同时收缩时，则由童声变女声，女声变男声。为了获得自然度、真实感较好的变声效果，基频和共振峰频率通常必须各自独立地伸缩变化。通过自己发音，共振峰频率的改变是基本重采样实现的，从重采样原理知道，这也同时引发了基频的变化，为保证基频变化和共振频率变化的独立、互不相关，在基频移动时必须考虑抵消重采样带来的偏移，理论上只要基频检测足够精确，确保可以保证基频改变和共振峰频率改变间的互不相关，通过搬移和改变基频、语速，实现变声。

ARM：(AdvancedRISCMachines)，既可以认为是一个公司的名字，也可以认为是对一类微处理器的通称，还可以认为是一种技术的名字。

MCU：(MicroControlUnit)中文名称为微控制单元，又称单片微型计算机(SingleChipMicrocomputer)或者单片机，是指随着大规模集成电路的出现及其发展，将计算机的CPU、RAM、ROM、定时计数器和多种I/O接口集成在一片芯片上，形成芯片级的计算机，为不同的应用场合做不同组合控制。

FFT：(FastFourierTransform)，即快速傅里叶变换，是离散傅里叶变换的快速算法，也可用于计算离散傅里叶变换的逆变换。快速傅里叶变换有广泛的应用，如数字信号处理、计算大整数乘法、求解偏微分方程等。

HAL：(HardwareAbstractionLayer)，即硬件抽象层，是抽象层的一种，是实现于硬件和运行于该电脑的软件之间的一种特殊软件。它的功用是将硬件方面的不同，隐藏并抽离于操作系统的核心之中。如此一来核心模式的代码就不必因为硬件的不同而需要修改。所以硬件抽象层可增进软件的可移植性。

本发明提出一种界面友好的智能方案，直接修改驱动层和HAL层的相关部分，在不增加硬件的前提下实现实时变声功能。

无论是硬件变声，还是软件变声，其原理都是，通过改变输入声音频率，进而改变声音的音色、音调，使输出声音在感官上与原声音不同。我们每个人的声音不同，源于我们的每个人的音色和音调不同，我们所说的男中音、男高音，就是音调的不同，而即便音调一致，我们依然能区分出两个不同人的声音，或不同乐器的声音，这就是音色的不同。变声器，正是借助对声音音色和音调的双重复合改变，实现输出声音的改变。共振峰频率的改变是基于重采样实现的，从重采样原理知道，这也同时引发了基频的变化，为保证基频变化和共振峰频率变化的独立、互不相关，在基频移动时必须考虑抵消重采样带来的偏移，理论上只要基频检测足够精确，确实可以保证基频改变和共振峰频率改变间的互不相关。保证变声效果的自然度主要是没有采用基音检测将基音移动和共振峰变化彻底隔离的缘故。

本发明的优点是用嵌入式软件实现智能终端通话时的实时变声，并有友好的界面供使用者选择变声方式。优点实时变声，不需增加额外硬件。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于智能终端的实时变声方法，其特征在于，包括以下步骤：

S1、语音信号读入；

S2、汉明窗加权语音；

S3、计算线性预测系统A；

S4、计算激励、滤波，重建语音作为测试对比用；

S5、根据激励计算基频和合成激励能量；

S6、根据变频系数α改变基频频率；

S7、根据预测系统求极点；

S8、移动极点改变极点角度ω改变共振峰频率；

S9、根据新极点求出新系数A1；

S11、输出变声后的语音信号。

2.根据权利要求1所述的基于智能终端的实时变声方法，其特征在于，步骤S6中：假设重采样因子为P/Q，其中，P为上采样因子，Q为下采样因子，上采样过程就是往原始信号相邻两点间内插P-1个采样点，这样使得基音周期变为原来的P倍，频谱压缩为原来的1/P倍，时长变为原来的P倍，即基频变为原来的1/P倍，音调降为原来的1/P倍，语速变为原来的1/P倍，同样地，下采样过程就是每隔Q-1个点进行抽取，这样会使得基音周期长度为原来的1/Q倍，频谱扩展为原来的Q倍，时长变为原来的1/Q倍，即基频变为原来的Q倍，音调升为原来的Q倍，语速变为原来的Q倍，综合上述两个过程，通过P/Q倍的重采样后，保持播放速率不变，重采样语音语速和音调都变为原来的Q/P倍。

3.根据权利要求1所述的基于智能终端的实时变声方法，其特征在于，步骤S8中：提高共振峰频率G1Hz，语音采样频率为L1Hz则ω＝-G1*2*л/L1；降低共振峰频率G2Hz，语音采样频率为L2Hz则ω＝G2*2*л/L2。

4.根据权利要求3所述的基于智能终端的实时变声方法，其特征在于，步骤S8中：提高共振峰频率100Hz，语音采样频率为8kHz则ω＝-100*2*л/8000；降低共振峰频率160Hz，语音采样频率为8kHz则ω＝160*2*л/8000。

5.根据权利要求1所述的基于智能终端的实时变声方法，其特征在于，步骤S10中：用基于时域抽取或内插的方法实现变调，通过在相邻两个数据点之间线性插入新的数据点来达到增采样的目的，也可以通过每隔一定时间抽取一些点来达到降采样的目的，增采样可以实现频谱的压缩，从而起到降调的作用；降采样能够实现频谱的扩展，从而有升调的作用，将时域抽取和内插相结合可以实现任意倍频率的变调，假设变调前频率为f₀，变调后频率为f，变调系数为α，则α＝f/f₀；假设α＝f/f₀＝M/L，其中，M、L均为正整数，要实现任意有理数倍频率的变调，采用以下公式：

\begin{matrix} x_{1} (n) = x ([\frac{n}{L}]) + \frac{\mod (n, L)}{L} \times \\ {x ([\frac{n}{L}] + 1) - x ([\frac{n}{L}])}, \end{matrix}

n＝0，1，2，…，(N－1)×L+1，

y(n)＝x₁(M×n)，n＝0，1，2，…，N×L/M

6.根据权利要求1所述的基于智能终端的实时变声方法，其特征在于，步骤S10中：对信号在频域上进行插值或抽取，能够实现信号频谱的变化，从而实现变调，频谱插值能够将信号在频域上进行扩展，从而实现升调；频域抽取能够将信号在频域上进行压缩，从而实现降调，为了保持相位的连续性，采用帧间重叠处理技术，令变调系数α＝2^d/12，处理中，对低频高频均线性内插，采用以下公式：

X(k)＝FFT{x(n)}，k＝0，1，…，N－1，

\begin{matrix} Y (k) = \\ \{\begin{matrix} Y (k) = X ([\frac{k}{α}]) + {X ([\frac{k}{α}] + 1) - X ([\frac{k}{α}])} (\frac{k}{α} - [\frac{k}{α}]), \\ k = 0, 1, ..., \min {[(N - 1) / 2], [(N - 1) α / 2]}, \\ 0, k = [(N - 1) α / 2], ..., (N - 1) / 2, \end{matrix} \end{matrix}

Y*(N－1－k)，k＝[(N－1)/2]+1，…，N－1