CN1719514A - 基于语音分析与合成的高品质实时变声方法 - Google Patents

基于语音分析与合成的高品质实时变声方法 Download PDF

Info

Publication number
CN1719514A
CN1719514A CNA2004100623371A CN200410062337A CN1719514A CN 1719514 A CN1719514 A CN 1719514A CN A2004100623371 A CNA2004100623371 A CN A2004100623371A CN 200410062337 A CN200410062337 A CN 200410062337A CN 1719514 A CN1719514 A CN 1719514A
Authority
CN
China
Prior art keywords
time
spectrum
voice
frequency
resonance peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004100623371A
Other languages
English (en)
Other versions
CN100440314C (zh
Inventor
孟猛
张树武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CNB2004100623371A priority Critical patent/CN100440314C/zh
Publication of CN1719514A publication Critical patent/CN1719514A/zh
Application granted granted Critical
Publication of CN100440314C publication Critical patent/CN100440314C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

本发明涉及语音变换技术领域的一种基于语音分析与合成的高品质实时变声方法。在时域上按照时间长度改变的要求对信号进行插值或抽剪,然后变换到频域,对幅度谱和相位谱分别进行处理,分离基频和共振峰,并对其进行独立调节,调节时补偿时间长度调整对此二者的影响,最后恢复时域信号。通过快速傅立叶变换将时域信号转化到频域上,将话音的基频和共振峰位置进行分离,并分别调整,然后重新合成语音,从而调节音长、音高和音色,改变音强,实现嗓音变换。本发明可以实时对语音进行处理,可直接应用于网络电话、语音聊天室等休闲领域,也可用于配音、音乐合成等实用领域。同时,该方法也可以应用语音合成方面,起到改善合成语音整体音质的作用。

Description

基于语音分析与合成的高品质实时变声方法
技术领域
本发明涉及语音变换技术领域,特别是一种基于语音分析与合成的高品质实时变声方法。
背景技术
语音变换技术用于改变语音的音调和速度等声学特征,从而按照人们的意图产生出符合需要的新特征,其在许多方面有着广泛的实际应用,例如配音、音乐合成、网络聊天、声音保密等等。该技术拓宽了语音处理的研究范围,使得语音处理的应用变得更多元化。
语音的基本物理特征包括音高、音强、音质和音长。音高是由发音物体振动频率的高低决定的,频率高声音就高,频率低声音就低。比如妇女和儿童的声带比较短而且比较薄,说话唱歌时声带振动频率高,而男人和老人的声带比较长而且比较厚,说话唱歌时声带振动频率低,因而男人和老人的声音比起女声和童声来说要低沉。通过改变基频可以改变音高。音强对应声音的强弱,决定于声音的振幅,即由振动的大小所决定。音质又叫音色,就是声音的本质、特色,它取决于声波振动的形式,是不同的声音能够互相区别的最基本的特征,如人声、钢琴声、提琴声表演同一个曲调,听起来各不相同。共振峰反映了声音中分量突出的谐波成分,从而认为共振峰的高度、位置和数量影响着音色。音长就是声音的长短,决定于发音体振动的时间。
作为声音的基本要素,音高、音强、音质和音长中任何一种因素都不是独立存在的。通常情况下只改变其中一种,另外几种也会随之改变。例如,通过改变数字语音信号播放的采样频率就可以改变语音的语速,即改变音长,但与此同时,语音的基频和共振峰位置也同时发生改变,从而我们听到的声音中不只是语速发生了变化,音色和音高也发生了变化,整个说话人的特征变得面目全非。再如,只对语音中的基频进行比例缩放,重新合成语音后,共振峰的位置也会随基频发生移动,音色同样发生变化。这些问题在语音变换技术中需要得到解决。
本发明明确了四种因素的关系,通过分离、补偿等方式,对音高、音强、音质和音长实现了独立调整,因而可以灵活的调整语音说话人的音色、音调、语速等特征,达到对多种说话人身份(老人,小孩,成年男、女等)的高品质模拟。
发明内容
本发明的目的在于提供一种基于语音分析与合成的高品质实时变声方法。
本方法基于对语音的物理属性的认识,通过研究其差异对语音变化造成的影响,得到一种通过数字信号处理的方法对语音的说话人身份特征进行改变的方法。本发明基于数字信号的时频分析,通过时域上的插值和抽剪改变语音的长度,通过短时傅立叶变换将时域信号转化到频域上,调整相位谱、幅度谱以及幅度谱的谱包络形状,达到将话音的基频和共振峰位置分离,从而可以分别进行调整的目的,最后将改变后的特征重新合成为语音信号,改变了嗓音特征,实现了变声。本发明实现了基频、共振峰位置和时间长度、音强的独立调节,从而可以灵活的调整语音说话人的音色、音高、语速等特征,达到对多种说话人性别和年龄特征(老人,小孩,成年男、女等)的高品质模拟。
一种基于语音分析与合成的高品质实时变声方法,基于傅立叶分析与合成技术,包括如下步骤:在时域上按照时长改变的要求对信号进行插值或抽剪,然后变换到频域,对幅度谱和相位谱分别进行处理,分离基频和共振峰,并对其进行独立调节,调节时补偿时长调整对此二者的影响,最后恢复时域信号。方法拥有快速的处理速度和高质量的处理效果,可以同时满足实时性和实用性的要求。
在频域上对信号的基频和共振峰位置进行独立调整,将基频和共振峰位置分离开来,既可以改变语音信号的基频及其谐波,又可以同时维持共振峰位置或对共振峰位置进行随意调整,实现了音色和音高的独立改变。
直接在时域上对语音信号的时间长度进行改变,通过插值或抽剪对数字信号实现重采样,从而拉长或缩短语音的时间尺度,再对由此而改变的基频和共振峰位置进行补偿,从而实现单独对语速进行改变的效果。
对信号的能量进行统计,实时调整输入输出信号的能量比,从而可以灵活改变输出信号的语音强度。
对幅度谱和相位谱的分别调整,通过求取幅度谱的谱包络,并以此为基础,对进行过基频调整后的频谱信号的新的幅度谱的谱包络进行形状上的改变,在不影响基频的前提下,实现对共振峰位置的随意调整。
本发明基于语音分析与合成技术,如图2所示。
语音信号看作是一种短时平稳信号,可以通过短时傅立叶变换对语音信号转换到频域进行分析处理。做短时傅立叶变换时,时间窗的长度不能太短,通常要包含若干个基频周期,同时,由于短时平稳的限制,也不能太长,保证一帧之内物理特性的变化不明显。对于人声来说,男声的基频较低,通常在125HZ左右,基频周期约8ms,因此,通常可以取时间窗的长度为24ms至32ms附近。在数字信号处理中,窗函数的长度即一帧的数据样本点数,其大小取决于该语音信号的采样率大小。
进行短时傅立叶变换,等价于对该帧语音信号先加窗,再对在时间轴上周期延拓后得到的信号计算傅立叶级数,即此帧信号周期延拓后被表示成一组复正弦信号的叠加,变换得到的傅立叶系数即这些复正弦组份的幅度。如果将得到的每一个复正弦组份的频率值同时通过乘以某一比例系数p调整到新的频率值,那么再经过傅立叶反变换重新合成后的时域语音信号的基频及其谐波频率也同时乘了比例系数p,从而实现对原始信号基频的改变。
在实际方法中,短时傅立叶变换通过加窗和快速傅立叶变换(FFT)实现。变换之后,为了进一步完成对各组份频率值的调整并使用快速傅立叶逆变换(IFFT)重新合成时域信号,需要先将得到的傅立叶系数由直角坐标转换到极坐标,即得到其幅度谱和相位谱。这样做既方便实现基频与共振峰位置的分离,又容易完成下面的等价实现:即把改变某一复正弦信号组份的原始频率值f1到另一频率值p*f1,变成在固定频率f2上将该组份的幅度和相位值转变为对应的原始频率为f2/p的组份的幅度和相位值,从而可以直接使用IFFT实现合成。
对幅度谱来说,完成上诉处理只需要对原始幅度谱进行比例插值或抽剪即可完成。而对于相位谱,则需要先对相位谱进行展开,如图3所示。某一帧内,某一频率复正弦信号组份的频率值f1调整到p*f1,该组份的相位在此帧内的变化量也要变为原来变化量的p倍,并且这一相位的变化会逐帧累积到下一帧的初始相位上。为了实现相位谱的这种调整,方法是将展开后的相位谱在相邻两帧上的相位差(即前一帧内的相位变化量)调整为原来的p倍,再经过累积得到的初始相位也将变为原来p倍。
相位谱的展开方法:
假设两帧之间的偏移时间长度为tw,对于频率为fk的复正弦波组份来说,其在t(t>1)时刻,与前一帧之间的相位变化量的理论值为
         ΔΦk (t)=2π·fk·tw.
实际两帧之间的初始相位差为
         Δθk (t)=θk (t)k (t-1).
定义
Δφk (t)=(Δθk (t)-ΔΦk (t))MOD2π+ΔΦk (t)
其中
那么,Δφk (t)即作为t时刻展开后的相邻两帧间的相位变化量。通过累加,得到t时刻展开后的初始相位:
θ ~ k ( t ) = θ ~ k ( t - 1 ) + Δφ k ( t ) , θ ~ k ( 1 ) = θ k ( 1 ) .
如前面所说,改变基频时,对于幅度谱只需要对原始幅度谱进行比例插值或抽剪。但这样做,在改变了基频的同时,也按同样的比例移动了共振峰的位置。所以,需要引入另外的方法在不影响基频的情况下调整共振峰。这种方法是通过提取幅度谱的谱包络来达到最终目的的。
下面的公式中,e(n)为调整之前原始幅度谱的谱包络,按上面的处理方法,基频提高p倍后,谱包络随之变为ê(n),并且有 e ^ ( n ) = e ( n p ) , (n)为经过插值调整后的幅度谱, 为对共振峰进行补偿后的幅度谱。有
a ~ ( n ) = e ( n ) e ^ ( n ) a ^ ( n ) = e ( n ) e ( n p ) a ^ ( n ) .
由此得到的补偿后的幅度谱 维持了原始幅度谱的谱包络e(n),从而保证了原来的共振峰位置不变动,同时不会对频率的调整造成影响。
同样的思路,可以进一步将公式 a ~ ( n ) = e ( n ) e ^ ( n ) a ^ ( n ) 中的e(n)换成对共振峰做出调整后新的谱包络,从而实现对共振峰位置的改变。
求取谱包络的方法常见的有:线性预测编码(LPC)的方法,倒谱分析的方法,低通滤波的方法,离散倒谱方法,以及对局部峰值点插值的方法等等。为了满足实时性的要求,选择的方法要求有较低的复杂度,同时,还要保证较好的效果。本实例中采用的是经过改进的倒谱分析的方法,实验证明,该方法稳定性强,适用于多种声音类型,且计算效果和计算量都符合实用要求。
以上的方法实现了对基频和共振峰位置的独立改变。
在此基础上,音长的独立调整也变得易于实现。
已经知道,通过改变数字语音信号播放时的采样频率就可以改变语音的语速,即改变了音长。于是,可以先在时间域上对语音信号数据作插值或抽剪,在原来的采样率速度下播放,语速就得到了减慢或加快。但与此同时,语音的基频和共振峰位置也同时发生改变。假如,按照比例因子t对时域信号进行插值,则基频周期变为原来的t倍,基频就变成1/t,同时影响共振峰位置也按1/t的比例发生变化。
有了前面对基频和共振峰位置独立改变的方法,此时只要对基频和共振峰位置按比例因子t同时进行补偿,就实现了只改变音长的目的。
由上面的讨论可以看到,三种物理特性的调整顺序为音长、基频,然后是共振峰位置。假设其比例调整因子依次为t、p、f,且三特征分开依次调整,情形如下:首先按比例因子t调整音长,同时对基频和共振峰位置用因子t进行补偿。再按比例因子p调整基频,同时对共振峰位置补偿因子1/p。最后按比例因子f调整共振峰位置。因此,最终相当于先用因子t调整音长,再用因子p*t调整基频,最后用因子
Figure A20041006233700101
调整此时的共振峰位置,从而实现分别用t、p、f独立调整三种物理特性的目的。实际应用中,共振峰的调整可以进行简化,只需在初始的位置上调整f*t,如图1所示。
三种物理特性的调整都是通过样本点的插值和抽剪实现的,为了保证较好的变声效果,且在满足人声变换要求的前提下,将各比例因子限制在0.5~2之间。实验结果表明,在此范围内做出的调整,大部分都能取得令人满意的效果。同时要注意,调整共振峰位置和基频时对音长调整的补偿,可能使此二者的调整比例变得很大(大大超过2倍),造成许多信息的丢失或模糊。因此,在共振峰位置或基频的调整比例较大时,不宜同时对音长作大的调整。
音强的调整方法如下:ΔEi,n、ΔEo,n分别表示第n帧信号的输入时(频谱分析之前,音长调整之后)的能量值和输出时(调整过基频和共振峰,重新合成时域信号之后)的能量值,Ei,n、Eo,n用来表示第n帧之前输入信号的总能量和输出信号的总能量。从而有
           Ei,n=Ei,n-1+ΔEi,n
           Eo,n=Eo,n-1+ΔEo,n.
则,第n帧输出信号的各数据点Dn,k值按下式调整为
D ^ n , k = D n , k · E i , n E o , n .
上面的式子保证了语音变换之后的信号与变换之前的原始信号能量基本保持一致,即音强保持不变。若需对音强作某一比例的调整,只需在此基础上再使用此比例系数调整
Figure A20041006233700113
附图说明
图1是本发明的音长、基频、共振峰位置调整详细流程图;
图2是本发明的信号分析与合成步骤流程示意图;
图3是本发明的相位展开示意图。
具体实施方式
图1的音长、基频、共振峰位置调整的步骤如下:
步骤S1-1,在时域上按照调整因子t对某一帧进行数据点的插值或抽剪;
步骤S1-2,变换到频域,并由直角坐标转换到极坐标上,得到相位谱I和幅度谱II;
步骤S1-3,对幅度谱II提取包络,得到包络谱III,对III在频率轴上按照调整因子t×f进行缩放,得到调整过共振峰位置的包络谱IV;
步骤S1-4,对幅度谱II点对点除以包络谱III,得到V,将谱V的横坐标在频率轴上按照调整因子t×p进行缩放,然后点对点乘以调整后的包络谱IV,得到调整后的幅度谱VII;
步骤S1-5,对相位谱I,与相邻帧的相位差进行展开,得到两帧之间各频率上相位改变的实际值,该值乘以调整因子t×p,然后对频率轴按照调整因子t×p进行缩放,将调整后的相位差重新累加,得到当前帧调整后的相位谱VIII;
步骤S1-6,将调整后的幅度谱VII和相位谱VIII变换到直角坐标,重新变换到时域。
图2的语音信号分析与合成,其步骤如下:
步骤S2-1,对信号在时域上进行处理,包括叠接分帧、插值、加窗等;
步骤S2-2,将时域上得到的每一帧通过时频变换转化到频域上,在频谱上进行处理,包括调整基频和共振峰等,然后通过时频逆变换重新恢复到时域;
步骤S2-3,在时域上对各帧进行窗函数补偿,再用合成窗函数加窗,叠接相加后得到完整的时域信号。
图3的相位展开,具体展开的过程的说明如前文详述。
为了实现对男声、女声、童声和老人声的模拟及相互变换,本发明在各物理特性的调整上基于下面的说明。
在普通说话的情况下,一般认为,童声的基频最高,可以达到300Hz左右,女声大致平均在220Hz附近,而男声的基频平均在125Hz左右。由此,可以得到男声、女声和童声的基频的大致比例。实际应用中发现,女声与男声的基频比例在1.5~1.8之间,通常可以有较理想到效果,而童声与男声的基频比例须在1.8以上。对于模拟老人的声音,通常要下调基频到0.6~0.9的比例附近,得到较真实的效果。
对于共振峰来说,通常,男声、女声、童声的共振峰大致都有6∶7∶8的简单关系。实际情况中,男、女、童声在不同频率高低的各峰之间,其比例并非是线性的,通常频率较低的各峰差别较大,频率较高的则差别不大。普通的应用条件下,可以忽略不考虑。对于老人声,可以认为其音色偏向于男声,所以其共振峰的调节比例选用小于1的数值。
在男女声相互变换时,通常认为语速没有变化,而对于老人声和童声,可以将语速稍稍放慢,较符合实际情况。
实施例
依据本发明提出的方法,在pc平台上实现了一个可以录音、原声播放,以及实时处理并模拟男声、女声、老人声或小孩声播放的演示程序。该程序对播放缓冲区队列中的每个缓冲区先预处理,按预定的调整比例对该缓冲区语音数据段进行音长、基频和共振峰的调整,分别模拟出男、女、老人和小孩声。而且可以手工调整上述三种特征的调整比例,达到更满意的模拟效果。该程序实现了实时处理,实时调整,实时播放。
在CPU为P4-2.4GHz,内存为256M的测试平台下,空闲时的CPU使用率为2%,原声播放时CPU使用率为10%左右,而实时变声播放时,CPU使用率在22%左右。该变声方法对处理器的要求完全在可接受到范围之内,而且在音质上达到了令人满意的效果。

Claims (7)

1.一种基于语音分析与合成的高品质实时变声方法,基于傅立叶分析与合成技术,其特征在于,包括如下步骤:在时域上按照时间长度改变的要求对信号进行插值或抽剪,然后变换到频域,对幅度谱和相位谱分别进行处理,分离基频和共振峰,并对其进行独立调节,调节时补偿时间长度调整对此二者的影响,最后恢复时域信号。
2.根据权利要求1所述的基于语音分析与合成的高品质实时变声方法,其特征在于,在频域上对信号的基频和共振峰位置进行独立调整,将基频和共振峰位置分离开来,既可以改变语音信号的基频及其谐波,又可以同时维持共振峰位置或对共振峰位置进行随意调整,实现音色和音高的独立改变。
3.根据权利要求1所述的基于语音分析与合成的高品质实时变声方法,其特征在于,直接在时域上对语音信号的时间长度进行改变,通过插值或抽剪对数字信号实现重采样,从而拉长或缩短语音的时间尺度,再按权利要求2所述的基于语音分析与合成的高品质实时变声方法,对由此而改变的基频和共振峰位置进行补偿,从而实现单独对语速进行改变的效果。
4.根据权利要求1所述的基于语音分析与合成的高品质实时变声方法,其特征在于,对信号的能量进行统计,实时调整输入输出信号的能量比,从而可以灵活改变输出信号的语音强度。
5.根据权利要求5所述的基于语音分析与合成的高品质实时变声方法,其特征在于,通过求取幅度谱的谱包络,并以此为基础,对进行过基频调整后的频谱信号的新的幅度谱的谱包络进行形状上的改变,在不影响基频的前提下,实现对共振峰位置的随意调整。
6.根据权利要求1或2所述的基于语音分析与合成的高品质实时变声方法,其特征在于,基频、共振峰位置的调整,其步骤如下:
步骤S1-1,在时域上按照调整因子t对某一帧进行数据点的插值或抽剪;
步骤S1-2,变换到频域,并由直角坐标转换到极坐标上,得到相位谱I和幅度谱II;
步骤S1-3,对幅度谱II提取包络,得到包络谱III,对III在频率轴上按调整因子t×f进行缩放,得到调整过共振峰位置的包络谱IV;
步骤S1-4,对幅度谱II点对点除以包络谱III,得到V,将谱V的横坐标在频率轴上按照调整因子t×p进行缩放,然后点对点乘以调整后的包络谱IV,得到调整后的幅度谱VII;
步骤S1-5,对相位谱I,与相邻帧的相位差进行展开,得到两帧之间各频率上相位改变的实际值,该值乘以调整因子t×p,然后对频率轴按照调整因子t×p进行缩放,将调整后的相位差重新累加,得到当前帧调整后的相位谱VIII;
步骤S1-6,将调整后的幅度谱VII和相位谱VIII变换到直角坐标,重新变换到时域。
7.根据权利要求1或2所述的基于语音分析与合成的高品质实时变声方法,其特征在于,语音分析与合成的步骤如下:
步骤S2-1,对信号在时域上进行处理,包括叠接分帧、插值、加窗;
步骤S2-2,将时域上得到的每一帧通过时频变换转化到频域上,在频谱上进行处理,包括调整基频和共振峰,然后通过时频逆变换重新恢复到时域;
步骤S2-3,在时域上对各帧进行窗函数补偿,再用合成窗函数加窗,叠接相加后得到完整的时域信号。
CNB2004100623371A 2004-07-06 2004-07-06 基于语音分析与合成的高品质实时变声方法 Expired - Fee Related CN100440314C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2004100623371A CN100440314C (zh) 2004-07-06 2004-07-06 基于语音分析与合成的高品质实时变声方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2004100623371A CN100440314C (zh) 2004-07-06 2004-07-06 基于语音分析与合成的高品质实时变声方法

Publications (2)

Publication Number Publication Date
CN1719514A true CN1719514A (zh) 2006-01-11
CN100440314C CN100440314C (zh) 2008-12-03

Family

ID=35931331

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100623371A Expired - Fee Related CN100440314C (zh) 2004-07-06 2004-07-06 基于语音分析与合成的高品质实时变声方法

Country Status (1)

Country Link
CN (1) CN100440314C (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010000161A1 (zh) * 2008-06-30 2010-01-07 腾讯科技(深圳)有限公司 一种基于即时通讯系统的语音通话方法及装置
CN101727899A (zh) * 2009-11-27 2010-06-09 北京中星微电子有限公司 一种音频数据处理方法及音频数据处理系统
CN101764879A (zh) * 2009-10-10 2010-06-30 宇龙计算机通信科技(深圳)有限公司 一种改变移动终端语音输出的方法及移动终端
CN101860617A (zh) * 2009-04-12 2010-10-13 比亚迪股份有限公司 一种具有语音处理效果的移动终端及方法
CN101917163A (zh) * 2010-07-29 2010-12-15 大连理工大学 一种改善非正弦周期信号电液激振控制波形的方法
CN102341842A (zh) * 2009-05-28 2012-02-01 国际商业机器公司 用于语者调适的基频移动量学习装置、基频生成装置、移动量学习方法、基频生成方法及移动量学习程序
CN102592590A (zh) * 2012-02-21 2012-07-18 华南理工大学 一种可任意调节的语音自然变声方法及装置
CN101743585B (zh) * 2008-04-04 2012-09-12 弗劳恩霍夫应用研究促进协会 采用高质量音高校正的音频处理
CN102682766A (zh) * 2012-05-12 2012-09-19 黄莹 可自学习的情侣声音对换机
WO2013020341A1 (zh) * 2011-08-10 2013-02-14 深圳市万兴软件有限公司 一种音效变音方法及装置
CN102044245B (zh) * 2009-10-16 2013-03-27 成都玺汇科技有限公司 在智能机器内对输入语音信息进行即时处理的方法
CN103258539A (zh) * 2012-02-15 2013-08-21 展讯通信(上海)有限公司 一种语音信号特性的变换方法和装置
WO2013139038A1 (en) * 2012-03-23 2013-09-26 Siemens Aktiengesellschaft Speech signal processing method and apparatus and hearing aid using the same
CN103430234A (zh) * 2011-03-17 2013-12-04 国际商业机器公司 具有编码信息的语音变换
CN103489443A (zh) * 2013-09-17 2014-01-01 湖南大学 一种声音模仿方法及装置
CN103714824A (zh) * 2013-12-12 2014-04-09 小米科技有限责任公司 一种音频处理方法、装置及终端设备
CN103730117A (zh) * 2012-10-12 2014-04-16 中兴通讯股份有限公司 一种自适应智能语音装置及方法
CN105304092A (zh) * 2015-09-18 2016-02-03 深圳市海派通讯科技有限公司 一种基于智能终端的实时变声方法
CN105632490A (zh) * 2015-12-18 2016-06-01 合肥寰景信息技术有限公司 一种网络社区的语音交流的语境模拟方法
CN105679331A (zh) * 2015-12-30 2016-06-15 广东工业大学 一种声气信号分离与合成的方法及系统
CN105845146A (zh) * 2016-05-23 2016-08-10 珠海市杰理科技有限公司 语音信号处理的方法及装置
CN106128478A (zh) * 2016-06-28 2016-11-16 北京小米移动软件有限公司 语音播报方法及装置
CN107863095A (zh) * 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
CN108053814A (zh) * 2017-11-06 2018-05-18 芋头科技(杭州)有限公司 一种模拟用户歌声的语音合成系统及方法
CN108492832A (zh) * 2018-03-21 2018-09-04 北京理工大学 基于小波变换的高质量声音变换方法
CN108682413A (zh) * 2018-04-24 2018-10-19 上海师范大学 一种基于语音转换的情感疏导系统
CN108831437A (zh) * 2018-06-15 2018-11-16 百度在线网络技术(北京)有限公司 一种歌声生成方法、装置、终端和存储介质
CN109192218A (zh) * 2018-09-13 2019-01-11 广州酷狗计算机科技有限公司 音频处理的方法和装置
CN109410973A (zh) * 2018-11-07 2019-03-01 北京达佳互联信息技术有限公司 变声处理方法、装置和计算机可读存储介质
CN109859327A (zh) * 2019-02-20 2019-06-07 中山市嘉游动漫科技有限公司 一种结合虚拟与现实的动画场景构建方法及装置
CN109920446A (zh) * 2019-03-12 2019-06-21 腾讯音乐娱乐科技(深圳)有限公司 一种音频数据处理方法、装置及计算机存储介质
CN110663080A (zh) * 2017-02-13 2020-01-07 法国国家科研中心 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
CN110661760A (zh) * 2018-06-29 2020-01-07 视联动力信息技术股份有限公司 一种数据处理方法和装置
WO2020134851A1 (zh) * 2018-12-28 2020-07-02 广州市百果园信息技术有限公司 语音信号变换方法、装置、设备和存储介质
CN111816198A (zh) * 2020-08-05 2020-10-23 上海影卓信息科技有限公司 改变语音音调和音色的变声方法和系统
CN112309425A (zh) * 2020-10-14 2021-02-02 浙江大华技术股份有限公司 一种声音变调方法、电子设备及计算机可读存储介质
CN113066472A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置
WO2022017040A1 (zh) * 2020-07-21 2022-01-27 思必驰科技股份有限公司 语音合成方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1118493A (zh) * 1994-08-01 1996-03-13 中国科学院声学研究所 基音同步波形叠加汉语文语转换系统
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101743585B (zh) * 2008-04-04 2012-09-12 弗劳恩霍夫应用研究促进协会 采用高质量音高校正的音频处理
WO2010000161A1 (zh) * 2008-06-30 2010-01-07 腾讯科技(深圳)有限公司 一种基于即时通讯系统的语音通话方法及装置
CN101860617A (zh) * 2009-04-12 2010-10-13 比亚迪股份有限公司 一种具有语音处理效果的移动终端及方法
CN102341842B (zh) * 2009-05-28 2013-06-05 国际商业机器公司 用于语者调适的基频移动量学习装置和方法及基频生成装置和方法
CN102341842A (zh) * 2009-05-28 2012-02-01 国际商业机器公司 用于语者调适的基频移动量学习装置、基频生成装置、移动量学习方法、基频生成方法及移动量学习程序
CN101764879A (zh) * 2009-10-10 2010-06-30 宇龙计算机通信科技(深圳)有限公司 一种改变移动终端语音输出的方法及移动终端
CN102044245B (zh) * 2009-10-16 2013-03-27 成都玺汇科技有限公司 在智能机器内对输入语音信息进行即时处理的方法
CN101727899B (zh) * 2009-11-27 2014-07-30 北京中星微电子有限公司 一种音频数据处理方法及音频数据处理系统
CN101727899A (zh) * 2009-11-27 2010-06-09 北京中星微电子有限公司 一种音频数据处理方法及音频数据处理系统
CN101917163B (zh) * 2010-07-29 2012-05-23 大连理工大学 一种改善非正弦周期信号电液激振控制波形的方法
CN101917163A (zh) * 2010-07-29 2010-12-15 大连理工大学 一种改善非正弦周期信号电液激振控制波形的方法
CN103430234A (zh) * 2011-03-17 2013-12-04 国际商业机器公司 具有编码信息的语音变换
CN103430234B (zh) * 2011-03-17 2015-06-10 国际商业机器公司 具有编码信息的语音变换
WO2013020341A1 (zh) * 2011-08-10 2013-02-14 深圳市万兴软件有限公司 一种音效变音方法及装置
CN103258539A (zh) * 2012-02-15 2013-08-21 展讯通信(上海)有限公司 一种语音信号特性的变换方法和装置
CN103258539B (zh) * 2012-02-15 2015-09-23 展讯通信(上海)有限公司 一种语音信号特性的变换方法和装置
CN102592590B (zh) * 2012-02-21 2014-07-02 华南理工大学 一种可任意调节的语音自然变声方法及装置
CN102592590A (zh) * 2012-02-21 2012-07-18 华南理工大学 一种可任意调节的语音自然变声方法及装置
WO2013139038A1 (en) * 2012-03-23 2013-09-26 Siemens Aktiengesellschaft Speech signal processing method and apparatus and hearing aid using the same
CN104205213A (zh) * 2012-03-23 2014-12-10 西门子公司 语音信号处理方法及装置以及使用其的助听器
CN102682766A (zh) * 2012-05-12 2012-09-19 黄莹 可自学习的情侣声音对换机
CN103730117A (zh) * 2012-10-12 2014-04-16 中兴通讯股份有限公司 一种自适应智能语音装置及方法
CN103489443A (zh) * 2013-09-17 2014-01-01 湖南大学 一种声音模仿方法及装置
CN103714824A (zh) * 2013-12-12 2014-04-09 小米科技有限责任公司 一种音频处理方法、装置及终端设备
CN103714824B (zh) * 2013-12-12 2017-06-16 小米科技有限责任公司 一种音频处理方法、装置及终端设备
CN105304092A (zh) * 2015-09-18 2016-02-03 深圳市海派通讯科技有限公司 一种基于智能终端的实时变声方法
CN105632490A (zh) * 2015-12-18 2016-06-01 合肥寰景信息技术有限公司 一种网络社区的语音交流的语境模拟方法
CN105679331A (zh) * 2015-12-30 2016-06-15 广东工业大学 一种声气信号分离与合成的方法及系统
CN105845146A (zh) * 2016-05-23 2016-08-10 珠海市杰理科技有限公司 语音信号处理的方法及装置
CN105845146B (zh) * 2016-05-23 2019-09-06 珠海市杰理科技股份有限公司 语音信号处理的方法及装置
CN106128478A (zh) * 2016-06-28 2016-11-16 北京小米移动软件有限公司 语音播报方法及装置
CN106128478B (zh) * 2016-06-28 2019-11-08 北京小米移动软件有限公司 语音播报方法及装置
CN110663080A (zh) * 2017-02-13 2020-01-07 法国国家科研中心 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
CN108053814B (zh) * 2017-11-06 2023-10-13 芋头科技(杭州)有限公司 一种模拟用户歌声的语音合成系统及方法
CN108053814A (zh) * 2017-11-06 2018-05-18 芋头科技(杭州)有限公司 一种模拟用户歌声的语音合成系统及方法
CN107863095A (zh) * 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
US10964300B2 (en) 2017-11-21 2021-03-30 Guangzhou Kugou Computer Technology Co., Ltd. Audio signal processing method and apparatus, and storage medium thereof
CN108492832A (zh) * 2018-03-21 2018-09-04 北京理工大学 基于小波变换的高质量声音变换方法
CN108682413A (zh) * 2018-04-24 2018-10-19 上海师范大学 一种基于语音转换的情感疏导系统
CN108682413B (zh) * 2018-04-24 2020-09-29 上海师范大学 一种基于语音转换的情感疏导系统
CN108831437A (zh) * 2018-06-15 2018-11-16 百度在线网络技术(北京)有限公司 一种歌声生成方法、装置、终端和存储介质
CN108831437B (zh) * 2018-06-15 2020-09-01 百度在线网络技术(北京)有限公司 一种歌声生成方法、装置、终端和存储介质
CN110661760A (zh) * 2018-06-29 2020-01-07 视联动力信息技术股份有限公司 一种数据处理方法和装置
CN109192218A (zh) * 2018-09-13 2019-01-11 广州酷狗计算机科技有限公司 音频处理的方法和装置
CN109192218B (zh) * 2018-09-13 2021-05-07 广州酷狗计算机科技有限公司 音频处理的方法和装置
CN109410973A (zh) * 2018-11-07 2019-03-01 北京达佳互联信息技术有限公司 变声处理方法、装置和计算机可读存储介质
CN109410973B (zh) * 2018-11-07 2021-11-16 北京达佳互联信息技术有限公司 变声处理方法、装置和计算机可读存储介质
CN111383646A (zh) * 2018-12-28 2020-07-07 广州市百果园信息技术有限公司 一种语音信号变换方法、装置、设备和存储介质
CN111383646B (zh) * 2018-12-28 2020-12-08 广州市百果园信息技术有限公司 一种语音信号变换方法、装置、设备和存储介质
WO2020134851A1 (zh) * 2018-12-28 2020-07-02 广州市百果园信息技术有限公司 语音信号变换方法、装置、设备和存储介质
CN109859327A (zh) * 2019-02-20 2019-06-07 中山市嘉游动漫科技有限公司 一种结合虚拟与现实的动画场景构建方法及装置
CN109920446A (zh) * 2019-03-12 2019-06-21 腾讯音乐娱乐科技(深圳)有限公司 一种音频数据处理方法、装置及计算机存储介质
CN113066472A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN113066472B (zh) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 合成语音处理方法及相关装置
WO2022017040A1 (zh) * 2020-07-21 2022-01-27 思必驰科技股份有限公司 语音合成方法及系统
US11842722B2 (en) 2020-07-21 2023-12-12 Ai Speech Co., Ltd. Speech synthesis method and system
CN111816198A (zh) * 2020-08-05 2020-10-23 上海影卓信息科技有限公司 改变语音音调和音色的变声方法和系统
CN112309425A (zh) * 2020-10-14 2021-02-02 浙江大华技术股份有限公司 一种声音变调方法、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN100440314C (zh) 2008-12-03

Similar Documents

Publication Publication Date Title
CN1719514A (zh) 基于语音分析与合成的高品质实时变声方法
Cook Real sound synthesis for interactive applications
Virtanen et al. Analysis of polyphonic audio using source-filter model and non-negative matrix factorization
CN106971703A (zh) 一种基于hmm的歌曲合成方法及装置
Sundberg et al. Acoustical study of classical Peking Opera singing
JPH11513820A (ja) 音声合成のための制御構造
CN113314140A (zh) 一种端到端时域多尺度卷积神经网络的音源分离算法
CN112331222A (zh) 一种转换歌曲音色的方法、系统、设备及存储介质
CN1815552A (zh) 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
CN106997765A (zh) 人声音色的定量表征方法
Patterson et al. The perception of family and register in musical tones
Jensen The timbre model
Bonada et al. Singing voice synthesis combining excitation plus resonance and sinusoidal plus residual models
Tachibana et al. A real-time audio-to-audio karaoke generation system for monaural recordings based on singing voice suppression and key conversion techniques
Bonada et al. Generation of growl-type voice qualities by spectral morphing
Munoz-Montoro et al. Online/offline score informed music signal decomposition: application to minus one
Burns Octave adjustment by non‐western musicians
US11495200B2 (en) Real-time speech to singing conversion
Shimizu et al. Comparative evaluation of neural vocoders for speech synthesis of operatic singing
Südholt et al. Vocal timbre effects with differentiable digital signal processing
Franzson et al. Autocoder: a variational autoencoder for spectral synthesis
Chanrungutai et al. Singing voice separation in mono-channel music
Huang et al. Musical timbre style transfer with diffusion model
CN116153277A (zh) 歌曲处理方法及相关设备
O'Reilly Regueiro Evaluation of interpolation strategies for the morphing of musical sound objects

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081203

Termination date: 20210706

CF01 Termination of patent right due to non-payment of annual fee