CN1527281A - 语音音调转换方法 - Google Patents
语音音调转换方法 Download PDFInfo
- Publication number
- CN1527281A CN1527281A CNA031051421A CN03105142A CN1527281A CN 1527281 A CN1527281 A CN 1527281A CN A031051421 A CNA031051421 A CN A031051421A CN 03105142 A CN03105142 A CN 03105142A CN 1527281 A CN1527281 A CN 1527281A
- Authority
- CN
- China
- Prior art keywords
- voice
- desire
- parameter
- squares
- sound frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
一种语音音调转换方法,是分析一欲调语音的频谱参数、振幅参数及音调参数,然后将此音调参数以另一参考语音的音调参数取代,以完成一语音音调转换。而欲调语音与参考语音的长度并不相同,藉由累积平方差的方式,计算欲调语音的频谱参数的变化情形,并以此为依据,将欲调语音长度调成与参考语音相同长度,然后进行音调参数的取代,根据发明所公开的方法,可以节省语音合成所需的内存以及解决因素不足的问题。
Description
技术领域
本发明是关于一种语音音调转换方法,特别是一种关于语音合成的语音音调转换方法。
背景技术
标榜以真人发音的功能,已成为电子辞典主要追求的特色。为了提升电子辞典在市场的竞争力,各家厂商无不专注于语音功能的改进并且同时要能降低生产成本。有些厂商所强调的真人录制特定语音,由于其资料量大,且系统输出的种类受极大限制,相当耗费成本,所以,大多数厂商都以语音分析合成的方式来接近真人发音,可让电子辞典能节省语音数据存储器并提高声音品质。
在中文的注音拼音中,是以声母与韵母作为拼音的依据,辅以一声、二声、三声、四声以及轻声的变化组成不同的音调。在汉语拼音的语音处理中,可以藉由一个基本音调,调整出其它音调。
然而,在处理语音合成时,常常因为缺少某种音调的因素,使得无法合成出该有的音调,即使重新录制语音文件,亦无法得到相同的音质或音色。
例如中文文字转语音(Text to Speeh;TTS)中,若其音调的合成方式是由储存的音素所决定的,而非实时调整的,当缺少某种音调的音素时,便需补录该音素,或者藉由人工方式来调音,此不仅耗时,且不符合经济效益。
因此,解决内存以及因素不足所造成无法合成相同音色的问题,遂成为亟待解决的技术课题。
发明内容
鉴于以上的问题,本发明的主要目的在于提供一种语音音调转换方法,以程序辅助自动调整音调,其亦可作为语音合成系统的音调实时调整的依据,此时只需储存基本音调的音素,而达到节省储存音素资料的内存的目的。
根据本发明所公开的一种以程序自动处理的语音音调转换方法,其分析一欲调语音的频谱参数、振幅参数及音调参数,然后将此音调参数以另一参考语音的音调参数取代。
而欲调语音与参考语音的长度并不相同,此时藉由累积平方差的方式,计算欲调语音的频谱参数的变化情形,并以此为依据,将欲调语音长度调成与参考语音相同长度,然后进行音调参数的取代。
因此,为达上述目的,本发明所公开的语音音调转换方法,首先将一已编码的欲调语音,分析出其频谱参数、振幅参数与音调参数及分析出一已编码的参考语音的音调参数;再根据欲调语音的频谱参数变化情形及参考语音的长度,计算该欲调语音的平均频谱参数累计平方差,以调整该欲调语音的长度使其与参考语音的长度一致;接着,根据该欲调语音调整后的长度,将该欲调语音的该音调参数由该参考语音的该音调参数一对一取代;最后,将该取代后的语音参数重新编码以完成音调转换。
为使对本发明的目的、方法、特征、及其功能有进一步的了解,兹配合实施例详细说明如下。
附图说明
图1是为本发明的语音音调转换方法的方法流程图;
图2是为本发明的欲调语音的长度调整方法流程图;
图3是为本发明的音调参数取代流程图;以及
图4是为本发明的音调转换波形图。
图中
步骤100分析一欲调语音的频谱参数、一振幅参数与一音调参数以及一参考语音的音调参数
步骤200调整该欲调语音的平均长度
步骤300根据该欲调语音的平均长度,将该欲调语音的该语音参数由该参考语音的该语音参数取代
步骤400将该取代后的语音参数重新编码以完成音调转换
步骤210计算该欲调语音的频谱参数的累计平方差将该累计平方差除以该参考语音的
步骤220音框数以取得该欲调语音的平均长度
步骤230以平均累计平方差为间隔,累计平方差每增加平均累计平方差即取用该欲调语音的音框
步骤310平均累计平方差的累加值=0,欲调语音音框m=0,参考语音音框n=0
步骤320平均累计平方差的累加值是否大于第m个音框的累计平方差
步骤330设第n个调整参数为取用第m个欲调语音的频谱参数及振幅参数并将该欲调语音的音调参数由参考语音的音调参数取代
步骤340将一平均累计平方差加入平均累计平方差的累加值中并令n=n+1
步骤350欲调语音的音调参数是否取代完毕n=N?
步骤360继续选取下一个欲调语音音框m=m+1具体实施方式
通常语音信号处理将语音信号切成一段段的数个音框,此音框长度大约为20~25ms,每个音框皆有其代表此音框语音的参数包括频谱参数、振幅参数与音调参数等。首先,请参考图1,为本发明所公开的语音音调转换方法的方法流程图,首先分析出一欲调语音的频谱参数、振幅参数与音调参数及一参考语音的音调参数(步骤100);再调整该欲调语音的长度(步骤200);接着,根据该欲调语音调整后的长度将该欲调语音的该音调参数由该参考语音的该音调参数一对一取代,并保留该欲调语音的该频谱参数与振幅参数(步骤300);最后,将该取代后的语音参数重新编码以完成音调转换(步骤400)。欲调语音的频谱参数、振幅参数以及音调参数是与欲调语音的音框数相等,欲调语音的音框数是代表欲调语音的长度。而参考语音的音调参数则与其音框数相等。
而欲调语音与参考语音的长度并不相同,因此步骤200的调整该欲调语音的长度是藉由计算欲调语音频谱参数的累计平方差来达成,是计算该欲调语音的频谱参数的累计平方差(步骤210),再将该累计平方差除以该参考语音的音框数以取得该欲调语音的平均累计平方差(步骤220),以平均累计平方差为间隔,累计平方差每增加平均累计平方差即取用该欲调语音的音框,则总共所取用的音框数将等于该参考语音的音框数(步骤230)。
将上述方法流程详细说明如下。
首先,步骤100中是分析由一欲调语音的语音压缩文件以及一参考语音的语音压缩文件中的参数,欲调语音的参数包括有频谱参数RCm(i),i=0,1,2,…,p-1其中p代表频谱参数的阶数、振幅参数RMSm,m=0 1,2,…,M-1、以及音调参数Pitchm,m=0,1,2,…,M-1,参考语音则取得其音调参数Pitch_refn,n=0,1,2,… ,N-1,M与N分别代表欲调语音与参考语音的音框数,即代表语音长度。
接着,步骤200计算欲调语音相邻频谱参数的累积平方差为
m=1,2…,M-1,将累积平方差除以参考语音的音框数N得到平均累计平方差DeltaASD=ASD(M-1)/N。计算累计平方差与平均累计平方差的理由,是因为欲调语音的音框数M与参考语音的音框数N不相等,而在音调取代的过程中,必须要以参考语音的音调参数做为取代的依据,因此,利用累计平方差的方法,可以在欲调语音的M个音框数中取出N个音框进行音调参数的取代,若M<N,则欲调语音的某些个音框必须重复取用。接着进行步骤300,根据上述所分析的参数进行音调转换及语音参数调整。令调整后的语音参数为:频谱参数RC_newn(i),i=0,1,2,…,p-1、振幅参数RMS_newn、音调参数Pitch_newn,n=0,1,2,…,N-1,N为参考语音的音框数。
则调整后的的语音参数取得方法如下:首先令平均累计平方差的累加值MASD=0,欲调语音的音框m=0,参考语音的音框n=0(步骤310),接着在M个欲调语音的语音音框中取出N个参考语音的语音音框,是检查平均累计平方差的累加值MASD是否大于第m个音框的累计平方差ASD(m)(步骤320),若是则继续选取下一个欲调语音音框m=m+1,并回到步骤320,否则设第n个调整参数为取用第m个欲调语音的频谱参数及振幅参数并将欲调语音的音调参数由参考语音的音调参数取代(步骤330),接着继续下一个音框的音调参数取代,是将一平均累计平方差加入平均累计平方差的累加值中MASD=MASD+DeltaASD并令n=n+1(步骤340),若欲调语音的音调参数尚未取代完毕(n=N?)(步骤350),则继续步骤320至步骤340的音调参数取代流程。
如果,平均累计平方差的累加值小于第m个音框的累计平方差,则继续比较下一个欲调语音音框(步骤360)。音调转换与语音参数调整完毕后,再将的语音参数重新编码还原成压缩文件格式,再以相关的软件将其解压缩验听其结果。
根据本发明所公开的语音音调转换方法,当欲合成一ㄅㄚ
的语音文件,仅需要有一个ㄅㄚ的欲调语音,将其音调参数以参考语音ㄆㄚ
的音调参数取代,即可合成ㄅㄚ
的语音文件。
实际转换的音调请参考图4,其中ban1为ㄅㄢ的波形图,将其音调由二声、三声、四声及轻声的参考语音的音调参数取代,即可得到ㄅㄢㄅㄢ
ㄅㄢ
以及ㄅㄢ
的语音。其中ban2为ㄅㄢ
的波形图,ban3为ㄅㄢ
的波形图,ban4为ㄅㄢ
的波形图,ban5为ㄅㄢ
的波形图。
本发明所公开的语音音调转换方法,已以C程序语言撰写完成,可将原音的音调更改为任意的参考音调,并将原本相当缓慢的调音工作,变成一个可验证且自动执行的非常有效率的解决方法,可一次处理大量的音档,不仅对于中文的TTS的修音帮助很大,亦可应用到解决内存减小与音素不足等问题。
虽然本发明以前述的较佳实施例公开如上,然其并非用以限定本发明,任何熟习相像技术者,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,因此本发明的专利保护范围须视本说明书所附的权利要求的保护范围所界定者为准。
Claims (7)
1.一种语音音调转换方法,包括有下列步骤:
分析一欲调语音的频谱参数、一振幅参数与一音调参数以及一参考语音的音调参数;
调整该欲调语音的长度;
将该欲调语音的该音调参数由该参考语音的该音调参数取代;及
将完成取代后的参数重新编码以完成音调转换。
2.如权利要求1所述的语音音调转换方法,其中该调整该欲调语音的长度的步骤更包括下列步骤:
计算该欲调语音的频谱参数的累计平方差;以及将该累计平方差除以该参考语音的音框数以取得该欲调语音的平均累计平方差;以及以该平均累计平方差为间隔,累计平方差每增加平均累计平方差即取用该欲调语音的音框。
3.如权利要求1所述的语音音调转换方法,其中该将该欲调语音的该音调参数由该参考语音的该音调参数取代的步骤中,是在欲调语音音框数中取出参考语音的音框数。
4.如权利要求1所述的语音音调转换方法,其中该欲调语音的该频谱参数数与该欲调语音的音框数相等。
5.如权利要求1所述的语音音调转换方法,其中该欲调语音的该振幅参数数与该欲调语音的音框数相等。
6.如权利要求1所述的语音音调转换方法,其中该欲调语音的该音调参数数与该欲调语音的音框数相等。
7.如权利要求1所述的语音音调转换方法,其中该参考语音的该音调参数数与该参考语音的音框数相等。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB031051421A CN1226716C (zh) | 2003-03-04 | 2003-03-04 | 语音音调转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB031051421A CN1226716C (zh) | 2003-03-04 | 2003-03-04 | 语音音调转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1527281A true CN1527281A (zh) | 2004-09-08 |
CN1226716C CN1226716C (zh) | 2005-11-09 |
Family
ID=34282531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB031051421A Expired - Fee Related CN1226716C (zh) | 2003-03-04 | 2003-03-04 | 语音音调转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1226716C (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105810211A (zh) * | 2015-07-13 | 2016-07-27 | 维沃移动通信有限公司 | 一种音频数据的处理方法及终端 |
CN107240401A (zh) * | 2017-06-13 | 2017-10-10 | 厦门美图之家科技有限公司 | 一种音色转换方法及计算设备 |
-
2003
- 2003-03-04 CN CNB031051421A patent/CN1226716C/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105810211A (zh) * | 2015-07-13 | 2016-07-27 | 维沃移动通信有限公司 | 一种音频数据的处理方法及终端 |
CN105810211B (zh) * | 2015-07-13 | 2019-11-29 | 维沃移动通信有限公司 | 一种音频数据的处理方法及终端 |
CN107240401A (zh) * | 2017-06-13 | 2017-10-10 | 厦门美图之家科技有限公司 | 一种音色转换方法及计算设备 |
CN107240401B (zh) * | 2017-06-13 | 2020-05-15 | 厦门美图之家科技有限公司 | 一种音色转换方法及计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN1226716C (zh) | 2005-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0680652B1 (en) | Waveform blending technique for text-to-speech system | |
DE69826446T2 (de) | Stimmumwandlung | |
US6240384B1 (en) | Speech synthesis method | |
JP5247826B2 (ja) | 復号化音調音響信号を増強するためのシステムおよび方法 | |
EP1704558B1 (en) | Corpus-based speech synthesis based on segment recombination | |
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
US7257535B2 (en) | Parametric speech codec for representing synthetic speech in the presence of background noise | |
US5642466A (en) | Intonation adjustment in text-to-speech systems | |
CN1159691A (zh) | 用于声频信号线性预测分析的方法 | |
EP1850326A3 (en) | Frame erasure compensation method in a variable rate speech coder | |
US5717827A (en) | Text-to-speech system using vector quantization based speech enconding/decoding | |
GB2392592A (en) | Speech synthesis | |
WO2001029825B1 (en) | Variable bit-rate celp coding of speech with phonetic classification | |
US20070011009A1 (en) | Supporting a concatenative text-to-speech synthesis | |
US6985857B2 (en) | Method and apparatus for speech coding using training and quantizing | |
CN1815552A (zh) | 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法 | |
CN1226716C (zh) | 语音音调转换方法 | |
KR20170003596A (ko) | 음성 정보를 갖는 개선된 프레임 손실 보정 | |
CN1132157C (zh) | 线性预测分析合成的编码方法和编码器 | |
CN1210688C (zh) | 语音音素的编码及语音合成方法 | |
WO2007037359A1 (ja) | 音声符号化装置および音声符号化方法 | |
CN1262987C (zh) | 母音间转音的平滑处理方法 | |
CN1238805C (zh) | 用于压缩语音库的方法和装置 | |
CN1291373C (zh) | 语音音调参数的分析方法 | |
CN1189862C (zh) | 语音音素译码器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20051109 Termination date: 20170304 |