CN102543091A

CN102543091A - 一种模拟音效的生成系统及方法

Info

Publication number: CN102543091A
Application number: CN2011104511286A
Authority: CN
Inventors: 赵伟峰
Original assignee: Shenzhen Wondershare Software Co Ltd
Current assignee: Wanxing Polytron Technologies Inc
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2012-07-04
Anticipated expiration: 2031-12-29
Also published as: CN102543091B

Abstract

本发明公开了一种模拟音效的生成系统，包括：用于对原始输入的音频进行分帧加窗处理，获取分帧音频信号的分帧加窗预处理装置、用于防止所述分帧音频信号的频移过大产生频率混叠的第一低通滤波装置、用于调制所述分帧音频信号，获取调制信号的低频振荡装置以及用于滤除高频，除去所述调制信号中噪声的第二低通滤波装置；所述分帧加窗预处理装置、所述第一低通滤波装置、所述低频振荡装置以及所述第二低通滤波装置依次连接。本发明还公开了一种模拟音效的生成方法。实施本发明的模拟音效的生成系统及方法，解决了转换音效中颤音生成和滤波的问题，可以通过对低频振荡装置的相位调制参数的调整，产生更多的音效，应用广泛。

Description

一种模拟音效的生成系统及方法

技术领域

本发明涉及计算机领域，尤其涉及一种通过对低频振荡装置的相位调制参数的调整产生相应模拟音效的生成系统和方法。

背景技术

现有技术中，在动画片中经常会出现各种音效来模拟场景和某些角色的声音，例如，山谷中恐怖的幽灵，梦中天使精灵，大森林中会说话的松鼠，UFO中出现的外星机器人等声音效果。在早期动画片中，上述声音效果是通过配音演员配音完成的。甚至到当前，仍然有大量的配音演员通过模拟相应的音效进行配音。

工人模拟配音的方式不但费事费力，而且声音效果限制较大。现有技术中还不存在相应的模拟音效的生成方法，也不存在由普通人通过正常发声即可转变为最终需要声音效果的设备。

发明内容

本发明所要解决的技术问题在于，提供一种模拟音效的生成系统及方法，解决了转换音效中颤音生成和滤波的问题，可以通过对低频振荡装置的相位调制参数的调整，产生更多的音效，应用广泛。

为了解决上述技术问题，本发明的实施例提供了一种模拟音效的生成系统，包括：用于对原始输入的音频进行分帧加窗处理，获取分帧音频信号的分帧加窗预处理装置、用于防止所述分帧音频信号的频移过大产生频率混叠的第一低通滤波装置、用于调制所述分帧音频信号，获取调制信号的低频振荡装置以及用于滤除高频，除去所述调制信号中噪声的第二低通滤波装置；

所述分帧加窗预处理装置、所述第一低通滤波装置、所述低频振荡装置以及所述第二低通滤波装置依次连接。

优选的，所述低频振荡装置的相位调制参数与载波的幅度、载波的频率以及相位信号之间设置对应关联；所述相位信号与调制信号设置对应关联。

优选的，所述低频振荡装置包括时变脉冲响应系统，所述时变脉冲响应系统与调相信号设置对应关联；

所述调相信号的调制深度和震荡角频率设置为可调。

优选的，所述调制深度取值在[100，200]，所述震荡角频率对应的频率取值在[5，14]Hz。

优选的，所述第一低通滤波装置和所述第二低通滤波装置的截止频率小于4000Hz。

本发明还公开了一种模拟音效的生成方法，包括以下步骤：

分帧加窗处理原始输入的音频，获取分帧音频信号；

对所述获取的分帧音频信号进行滤波抗混叠；

调制所述分帧音频信号，获取调制信号；

滤除高频，除去所述调制信号中的噪声，输出相应的模拟音效。

优选的，所述分帧加窗处理原始输入的音频，获取分帧音频信号的步骤包括：

通过加载长度为N的窗函数，将原始输入的音频分为多帧进行处理，所述窗函数包括矩形窗；

所述分帧加窗处理原始输入的音频，获取分帧音频信号的步骤中的帧叠加长度为0。

优选的，所述调制所述分帧音频信号，获取调制信号的步骤包括以下步骤：

连续时间调相参数与载波的幅度、载波的频率以及相位信号之间对应关联，所述相位信号与调制信号对应关联。

优选的，所述调制所述分帧音频信号，获取调制信号的步骤包括时变脉冲响应的步骤，所述时变脉冲响应的步骤与调相信号对应关联；

所述调相信号的调制深度和震荡角频率设置为可调。

优选的，所述时变脉冲响应的步骤中的所述调制深度取值在[100，200]，所述震荡角频率对应的频率取值在[5，14]Hz。

本发明所提供的模拟音效的生成系统及方法，由于分帧加窗预处理装置、第一低通滤波装置、所述低频振荡装置以及第二低通滤波装置依次连接，经加窗预处理装置获取的分帧音频信号通过第一低通滤波装置滤波抗混叠，经低频振荡装置调制后获取调制信号，再经第二低通滤波装置高频滤除，去掉调制信号中的噪声后可得到相应的音效效果；可以将普通的人声输入转换为类似的巫婆或巫师音效效果应用在动画片中，同时解决了颤音生成和滤波的问题；可以通过对低频振荡装置的相位调制参数的调整，产生更多的音效，应用广泛。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的模拟音效的生成系统的电路结构示意图；

图2是本发明实施例的模拟音效的生成方法的流程框图。

具体实施方式

下面参考附图对本发明的优选实施例进行描述。

参见图1，本发明实施例提供了一种模拟音效的生成系统，包括：用于对原始输入的音频进行分帧加窗处理，获取分帧音频信号的分帧加窗预处理装置1、用于防止所述分帧音频信号频移过大产生频率混叠的第一低通滤波装置2、用于调制所述分帧音频信号，获取调制信号的低频振荡装置3以及用于滤除高频，除去所述调制信号中噪声的第二低通滤波装置4，所述分帧加窗预处理装置1、所述第一低通滤波装置2、所述低频振荡装置3以及所述第二低通滤波装置4依次连接。

优选的，加窗预处理装置1通过加载长度为N的窗函数获取分帧音频信号，所述窗函数包括矩形窗。

加窗预处理装置1是本发明模拟音效生成系统中对原始输入的音频进行短时分析的设备，其也是模拟音效生成过程中必须的步骤。具体实施时，加窗预处理装置1可以通过一个长度为N的窗函数，将原始输入的音频信号分为多帧并进行处理。获取分帧音频信号依如下公式进行：

x_n(m)＝w(m)x(n+m) 0≤m≤N-1

其中，x_n(m)表示帧号为n的第m个采样值，N为帧长，w(m)为窗函数，实施时，其一般采用hamming，海明窗函数。海明窗也是余弦窗的一种，又称改进的升余弦窗，Hamming窗函数的表达式如下：

本实施例中所应用的w(m)窗函数为矩形窗，矩形窗的表达式如下：

第一低通滤波装置2是用于防止上述分帧音频信号频移过大产生频率混叠的设备。

具体实施时，低通滤波器可以使用Iir(Infinite Impulse Response，滤波器)滤波器和fir(Finite Impulse Response，滤波器)两种。其中，Iir滤波器延迟小，但稳定性不如fir滤波器，Iir滤波器的计算量小，能够满足实时性要求。fir滤波器虽然阶数较低，但其设计简单，可以减少延迟，同时能够获得比较好的相位信息。下述以fir滤波器为例，说明第一低通滤波装置2的实施过程。

本实施例中，低通相位滤波器的冲激响应函数的表达式如下：

h (n) = \frac{\sin [wc (N - M)]}{n (N - M)}, 0 \leq n \leq N - 1

其中，N为滤波器长度，N-1为滤波器阶数，M＝(N-1)/2。

根据如下式的卷积运算得到低通后的信号，卷积运算的表达式如下：

y_m(n)＝h(n)*x_m(n)

低频振荡装置3是用于调制所述分帧音频信号，获取调制信号的设备。其作用是将分帧音频信号进行调制。

优选的，低频振荡装置3的相位调制参数与载波的幅度、载波的频率以及相位信号之间设置对应关联；

所述相位信号与调制信号设置对应关联。

优选的，低频振荡装置3的相位调制参数包括时变脉冲响应系统，所述时变脉冲响应系统与调相信号设置对应关联；

所述调相信号的调制深度DEPTH和震荡角频率设置为可调。

优选的，低频振荡装置3的调制深度DEPTH取值在[100，200]，震荡角频率对应的频率取值在[5，14]Hz。

按照上述低频振荡装置3的调制参数进行实施可将分帧音频信号调制成低沉、颤抖的效果，进而实现将原始输入音频转换为类似巫师和巫婆声音的效果。具体过程如下：

在低频振荡装置3的具体调制过程中，低频振荡装置3连续时间调相的表达式如下：

其中，A_c为载波的幅度，f_c为载波的频率，下标PM表示调相，FM表示调频。

调制信号m(t)与相位信号

之间关系的表达式如下：

上述相位调制系统可以认为是一个时变脉冲响应(impulse response)h(n)系统，h(n)系统的表达式如下：

h(n)＝δ(n-m(n))

该时变脉冲响应h(n)系统能够得到调相信号y(n)，y(n)的表达式如下：

y(n)＝x_PM(n)＝x(n)*h(n)＝x(n)*δ(n-m(n))＝x(n-m(n))

其中，运算符“*”表示卷积操作，这里采用的是正弦调制中的一个典型调制信号，该调制信号的表达式如下：

m(n)＝M+DEPTH·sin(ω_MnT)

其中，M为固定延迟，取值为5～10ms的采样数；DEPTH为调制深度，ω_M为低频振荡装置3的角频率，对应的频率取5～14Hz；T为信号采样周期。

由上述调制信号的表达式得到的重采样因子的表达式如下：

α (n) = \frac{ω_{1}}{ω} = 1 - DEPTH \cdot ω_{M} T \cos (ω_{M} nT)

其中，ω₁表示瞬时角频率，ω表示输入信号的角频率，α(n)反应了基音的变化率。

优选的，对于原始输入的16bit量化的信号，调制信号表达式中DETPH的取值在[100，200]，ω_M对应的频率取值在[5，14]Hz，低频振荡装置3可以将输入的声音变得颤抖而低沉。

第二低通滤波装置4是用于滤除高频，去掉上述经低频振荡装置3获取的调制信号中噪声的设备。第二低通滤波装置4可按照上述第一低通滤波装置2的冲激响应函数的方式进行实施。由于第一低通滤波装置2和第二低通滤波装置4的作用不同，因此第一低通滤波装置2和第二低通滤波装置4的截止频率也不同。

实施时，对于第一低通滤波装置2，其截止频率fc、低频振荡装置3的震荡频率fm和信号最大频率fmax之间需满足如下关系表达式：

f_c＜fmax-fm

对于第二低通滤波装置4，其截止频率fc需满足如下关系表达式：

f_c＜4000

综上，在保证第一低通滤波装置2和第二低通滤波装置4能够达到上述作用的前提下，可以将第一低通滤波装置2和第二低通滤波装置4的截止频率设置统一。优选的，第一低通滤波装置2和第二低通滤波装置4的截止频率均满足f_c＜4000。

由此可见，经加窗预处理装置1获取的分帧音频信号通过第一低通滤波装置2滤波抗混叠，经低频振荡装置3调制后获取调制信号，再经第二低通滤波装置4高频滤除，去掉调制信号中的噪声就得到相应的音效。

由于上述实施过程中，低频振荡装置3的参数设置为固定，对于原始输入的16bit量化的信号，低频振荡装置3调制信号表达式中DETPH的取值在[100，200]，ω_M对应的频率取值在[5，14]Hz，因此，按照上述低频振荡装置3所设置的参数，可获得颤抖而低沉的类似巫师或巫婆的声音。

可以理解的是，本发明的模拟音效的生成系统，通过对低频振荡装置3相位调制参数的调整，可以产生更多的音效，并不限定在获得上述颤抖而低沉的类似巫师或巫婆的声音。

参见图2，本发明还公开了一种模拟音效的生成方法，包括以下步骤：

分帧加窗处理原始输入的音频，获取分帧音频信号；

对所述获取的分帧音频信号进行滤波抗混叠；

调制所述分帧音频信号，获取调制信号；

优选的，所述步骤S10，分帧加窗处理原始输入的音频，获取分帧音频信号包括：通过加载长度为N的窗函数，将原始输入的音频分为多帧进行处理，所述窗函数包括矩形窗。

获取分帧音频信号依如下公式进行：

x_n(m)＝w(m)x(n+m) 0≤m≤N-1

其中，x_n(m)表示帧号为n的第m个采样值，N为帧长，w(m)为窗函数，实施时，其一般采用海明窗(hamming)函数。海明窗也是余弦窗的一种，又称改进的升余弦窗，Hamming窗函数的表达式如下：

优选的，加窗预处理装置1在音频处理中省去了帧重叠(frame overlap)部分，即加窗预处理装置1的帧叠加长度为0。

步骤S20，对所述获取的分帧音频信号进行滤波抗混叠的步骤可以使用Iir(Infinite Impulse Response，滤波器)滤波器和fir(Finite Impulse Response，滤波器)两种。其中，Iir滤波器延迟小，但稳定性不如fir滤波器，Iir滤波器的计算量小，能够满足实时性要求。fir滤波器虽然阶数较低，但其设计简单，可以减少延迟，同时能够获得比较好的相位信息。下述以fir滤波器为例，说明滤波抗混叠的实施过程。

h (n) = \frac{\sin [wc (N - M)]}{n (N - M)}, 0 \leq n \leq N - 1

其中，N为滤波器长度，N-1为滤波器阶数，M＝(N-1)/2。

y_m(n)＝h(n)*x_m(n)

具体实施时，用于滤波抗混叠的第一低通滤波装置2的截止频率fc、低频振荡装置3的震荡频率fm和信号最大频率fmax之间需满足如下关系表达式：

f_c＜fmax-fm

步骤S30，调制所述分帧音频信号，获取调制信号的步骤中，相位调制参数与载波的幅度、载波的频率以及相位信号之间设置对应关联；

相位信号与调制信号设置对应关联。

优选的，相位调制参数包括时变脉冲响应系统，所述时变脉冲响应系统与调相信号设置对应关联；

所述调相信号的调制深度DEPTH和震荡角频率设置为可调。

优选的，调制深度DEPTH取值在[100，200]，震荡角频率对应的频率取值在[5，14]Hz。

按照上述调制参数进行实施可将分帧音频信号调制成低沉、颤抖的效果，进而实现将原始输入音频转换为类似巫师和巫婆声音的效果。具体过程如下：

在具体调制过程中，连续时间调相的表达式如下：

调制信号m(t)与相位信号

之间关系的表达式如下：

h(n)＝δ(n-m(n))

y(n)＝x_PM(n)＝x(n)*h(n)＝x(n)*δ(n-m(n))＝x(n-m(n))

m(n)＝M+DEPTH·sin(ω_MnT)

由上述调制信号的表达式得到的重采样因子的表达式如下：

α (n) = \frac{ω_{1}}{ω} = 1 - DEPTH \cdot ω_{M} T \cos (ω_{M} nT)

优选的，对于原始输入的16bit量化的信号，调制信号表达式中DETPH的取值在[100，200]，ω_M对应的频率取值在[5，14]Hz，可以将输入的声音变得颤抖而低沉。

步骤S40，滤除高频，除去所述调制信号中的噪声，输出相应的模拟音效的步骤中，可按照上述第一低通滤波装置2的冲激响应函数的方式进行实施。由于第一低通滤波装置2和第二低通滤波装置4的作用不同，因此第一低通滤波装置2和第二低通滤波装置4的截止频率也不同。

实施时，对于第二低通滤波装置4，其截止频率fc需满足如下关系表达式：

f_c＜4000

实施本发明的模拟音效的生成系统及方法，由于分帧加窗预处理装置、第一低通滤波装置、所述低频振荡装置以及第二低通滤波装置依次连接，经加窗预处理装置获取的分帧音频信号通过第一低通滤波装置滤波抗混叠，经低频振荡装置调制后获取调制信号，再经第二低通滤波装置高频滤除，去掉调制信号中的噪声后可得到相应的音效效果；可以将普通的人声输入转换为类似的巫婆或巫师音效效果应用在动画片中，同时解决了颤音生成和滤波的问题；可以通过对低频振荡装置的相位调制参数的调整，产生更多的音效，应用广泛。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此等同变化，仍属本发明所涵盖的范围。

Claims

1.一种模拟音效的生成系统，其特征在于，包括：用于对原始输入的音频进行分帧加窗处理，获取分帧音频信号的分帧加窗预处理装置(1)、用于防止所述分帧音频信号的频移过大产生频率混叠的第一低通滤波装置(2)、用于调制所述分帧音频信号，获取调制信号的低频振荡装置(3)以及用于滤除高频，除去所述调制信号中噪声的第二低通滤波装置(4)；

所述分帧加窗预处理装置(1)、所述第一低通滤波装置(2)、所述低频振荡装置(3)以及所述第二低通滤波装置(4)依次连接。

2.如权利要求1所述的模拟音效的生成系统，其特征在于，所述低频振荡装置(3)的相位调制参数与载波的幅度、载波的频率以及相位信号之间设置对应关联；

所述相位信号与调制信号设置对应关联。

3.如权利要求2所述的模拟音效的生成系统，其特征在于，所述低频振荡装置(3)包括时变脉冲响应系统，所述时变脉冲响应系统与调相信号设置对应关联；

所述调相信号的调制深度和震荡角频率设置为可调。

4.如权利要求3所述的模拟音效的生成系统，其特征在于，所述调制深度取值在[100，200]，所述震荡角频率对应的频率取值在[5，14]Hz。

5.如权利要求1-4任一项所述的模拟音效的生成系统，其特征在于，所述第一低通滤波装置(2)和所述第二低通滤波装置(4)的截止频率小于4000Hz。

6.一种模拟音效的生成方法，其特征在于，包括以下步骤：

分帧加窗处理原始输入的音频，获取分帧音频信号；

对所述获取的分帧音频信号进行滤波抗混叠；

调制所述分帧音频信号，获取调制信号；

7.如权利要求6所述的模拟音效的生成方法，其特征在于，所述分帧加窗处理原始输入的音频，获取分帧音频信号的步骤包括：

8.如权利要求7所述的模拟音效的生成方法，其特征在于，所述调制所述分帧音频信号，获取调制信号的步骤包括以下步骤：

9.如权利要求6所述的模拟音效的生成方法，其特征在于，所述调制所述分帧音频信号，获取调制信号的步骤包括时变脉冲响应的步骤，所述时变脉冲响应的步骤与调相信号对应关联；

所述调相信号的调制深度和震荡角频率设置为可调。

10.如权利要求9所述的模拟音效的生成方法，其特征在于，所述时变脉冲响应的步骤中的所述调制深度取值在[100，200]，所述震荡角频率对应的频率取值在[5，14]Hz。