CN1527281A

CN1527281A - 语音音调转换方法

Info

Publication number: CN1527281A
Application number: CNA031051421A
Authority: CN
Inventors: 杨凰琳
Original assignee: Inventec Besta Co Ltd
Current assignee: Inventec Besta Co Ltd
Priority date: 2003-03-04
Filing date: 2003-03-04
Publication date: 2004-09-08
Anticipated expiration: 2023-03-04
Also published as: CN1226716C

Abstract

一种语音音调转换方法，是分析一欲调语音的频谱参数、振幅参数及音调参数，然后将此音调参数以另一参考语音的音调参数取代，以完成一语音音调转换。而欲调语音与参考语音的长度并不相同，藉由累积平方差的方式，计算欲调语音的频谱参数的变化情形，并以此为依据，将欲调语音长度调成与参考语音相同长度，然后进行音调参数的取代，根据发明所公开的方法，可以节省语音合成所需的内存以及解决因素不足的问题。

Description

语音音调转换方法

技术领域

本发明是关于一种语音音调转换方法，特别是一种关于语音合成的语音音调转换方法。

背景技术

标榜以真人发音的功能，已成为电子辞典主要追求的特色。为了提升电子辞典在市场的竞争力，各家厂商无不专注于语音功能的改进并且同时要能降低生产成本。有些厂商所强调的真人录制特定语音，由于其资料量大，且系统输出的种类受极大限制，相当耗费成本，所以，大多数厂商都以语音分析合成的方式来接近真人发音，可让电子辞典能节省语音数据存储器并提高声音品质。

在中文的注音拼音中，是以声母与韵母作为拼音的依据，辅以一声、二声、三声、四声以及轻声的变化组成不同的音调。在汉语拼音的语音处理中，可以藉由一个基本音调，调整出其它音调。

然而，在处理语音合成时，常常因为缺少某种音调的因素，使得无法合成出该有的音调，即使重新录制语音文件，亦无法得到相同的音质或音色。

例如中文文字转语音(Text to Speeh；TTS)中，若其音调的合成方式是由储存的音素所决定的，而非实时调整的，当缺少某种音调的音素时，便需补录该音素，或者藉由人工方式来调音，此不仅耗时，且不符合经济效益。

因此，解决内存以及因素不足所造成无法合成相同音色的问题，遂成为亟待解决的技术课题。

发明内容

鉴于以上的问题，本发明的主要目的在于提供一种语音音调转换方法，以程序辅助自动调整音调，其亦可作为语音合成系统的音调实时调整的依据，此时只需储存基本音调的音素，而达到节省储存音素资料的内存的目的。

根据本发明所公开的一种以程序自动处理的语音音调转换方法，其分析一欲调语音的频谱参数、振幅参数及音调参数，然后将此音调参数以另一参考语音的音调参数取代。

而欲调语音与参考语音的长度并不相同，此时藉由累积平方差的方式，计算欲调语音的频谱参数的变化情形，并以此为依据，将欲调语音长度调成与参考语音相同长度，然后进行音调参数的取代。

因此，为达上述目的，本发明所公开的语音音调转换方法，首先将一已编码的欲调语音，分析出其频谱参数、振幅参数与音调参数及分析出一已编码的参考语音的音调参数；再根据欲调语音的频谱参数变化情形及参考语音的长度，计算该欲调语音的平均频谱参数累计平方差，以调整该欲调语音的长度使其与参考语音的长度一致；接着，根据该欲调语音调整后的长度，将该欲调语音的该音调参数由该参考语音的该音调参数一对一取代；最后，将该取代后的语音参数重新编码以完成音调转换。

为使对本发明的目的、方法、特征、及其功能有进一步的了解，兹配合实施例详细说明如下。

附图说明

图1是为本发明的语音音调转换方法的方法流程图；

图2是为本发明的欲调语音的长度调整方法流程图；

图3是为本发明的音调参数取代流程图；以及

图4是为本发明的音调转换波形图。

图中

步骤100分析一欲调语音的频谱参数、一振幅参数与一音调参数以及一参考语音的音调参数

步骤200调整该欲调语音的平均长度

步骤300根据该欲调语音的平均长度，将该欲调语音的该语音参数由该参考语音的该语音参数取代

步骤400将该取代后的语音参数重新编码以完成音调转换

步骤210计算该欲调语音的频谱参数的累计平方差将该累计平方差除以该参考语音的

步骤220音框数以取得该欲调语音的平均长度

步骤230以平均累计平方差为间隔，累计平方差每增加平均累计平方差即取用该欲调语音的音框

步骤310平均累计平方差的累加值＝0，欲调语音音框m＝0，参考语音音框n＝0

步骤320平均累计平方差的累加值是否大于第m个音框的累计平方差

步骤330设第n个调整参数为取用第m个欲调语音的频谱参数及振幅参数并将该欲调语音的音调参数由参考语音的音调参数取代

步骤340将一平均累计平方差加入平均累计平方差的累加值中并令n＝n+1

步骤350欲调语音的音调参数是否取代完毕n＝N？

步骤360继续选取下一个欲调语音音框m＝m+1具体实施方式

通常语音信号处理将语音信号切成一段段的数个音框，此音框长度大约为20～25ms，每个音框皆有其代表此音框语音的参数包括频谱参数、振幅参数与音调参数等。首先，请参考图1，为本发明所公开的语音音调转换方法的方法流程图，首先分析出一欲调语音的频谱参数、振幅参数与音调参数及一参考语音的音调参数(步骤100)；再调整该欲调语音的长度(步骤200)；接着，根据该欲调语音调整后的长度将该欲调语音的该音调参数由该参考语音的该音调参数一对一取代，并保留该欲调语音的该频谱参数与振幅参数(步骤300)；最后，将该取代后的语音参数重新编码以完成音调转换(步骤400)。欲调语音的频谱参数、振幅参数以及音调参数是与欲调语音的音框数相等，欲调语音的音框数是代表欲调语音的长度。而参考语音的音调参数则与其音框数相等。

而欲调语音与参考语音的长度并不相同，因此步骤200的调整该欲调语音的长度是藉由计算欲调语音频谱参数的累计平方差来达成，是计算该欲调语音的频谱参数的累计平方差(步骤210)，再将该累计平方差除以该参考语音的音框数以取得该欲调语音的平均累计平方差(步骤220)，以平均累计平方差为间隔，累计平方差每增加平均累计平方差即取用该欲调语音的音框，则总共所取用的音框数将等于该参考语音的音框数(步骤230)。

将上述方法流程详细说明如下。

首先，步骤100中是分析由一欲调语音的语音压缩文件以及一参考语音的语音压缩文件中的参数，欲调语音的参数包括有频谱参数RC_m(i)，i＝0，1，2，…，p-1其中p代表频谱参数的阶数、振幅参数RMS_m，m＝0 1，2，…，M-1、以及音调参数Pitch_m，m＝0，1，2，…，M-1，参考语音则取得其音调参数Pitch_ref_n，n＝0，1，2，… ，N-1，M与N分别代表欲调语音与参考语音的音框数，即代表语音长度。

接着，步骤200计算欲调语音相邻频谱参数的累积平方差为

ASD (0) = Σ_{i = 0}^{p - 1} {({RC}_{0} (i))}^{2},

以及

ASD (m) = ASD (m - 1) + Σ_{i = 0}^{p - 1} {({RC}_{m} (i) - {RC}_{m - 1} (i))}^{2},

m＝1，2…，M-1，将累积平方差除以参考语音的音框数N得到平均累计平方差DeltaASD＝ASD(M-1)/N。计算累计平方差与平均累计平方差的理由，是因为欲调语音的音框数M与参考语音的音框数N不相等，而在音调取代的过程中，必须要以参考语音的音调参数做为取代的依据，因此，利用累计平方差的方法，可以在欲调语音的M个音框数中取出N个音框进行音调参数的取代，若M＜N，则欲调语音的某些个音框必须重复取用。接着进行步骤300，根据上述所分析的参数进行音调转换及语音参数调整。令调整后的语音参数为：频谱参数RC_new_n(i)，i＝0，1，2，…，p-1、振幅参数RMS_new_n、音调参数Pitch_new_n，n＝0，1，2，…，N-1，N为参考语音的音框数。

则调整后的的语音参数取得方法如下：首先令平均累计平方差的累加值MASD＝0，欲调语音的音框m＝0，参考语音的音框n＝0(步骤310)，接着在M个欲调语音的语音音框中取出N个参考语音的语音音框，是检查平均累计平方差的累加值MASD是否大于第m个音框的累计平方差ASD(m)(步骤320)，若是则继续选取下一个欲调语音音框m＝m+1，并回到步骤320，否则设第n个调整参数为取用第m个欲调语音的频谱参数及振幅参数并将欲调语音的音调参数由参考语音的音调参数取代(步骤330)，接着继续下一个音框的音调参数取代，是将一平均累计平方差加入平均累计平方差的累加值中MASD＝MASD+DeltaASD并令n＝n+1(步骤340)，若欲调语音的音调参数尚未取代完毕(n＝N？)(步骤350)，则继续步骤320至步骤340的音调参数取代流程。

如果，平均累计平方差的累加值小于第m个音框的累计平方差，则继续比较下一个欲调语音音框(步骤360)。音调转换与语音参数调整完毕后，再将的语音参数重新编码还原成压缩文件格式，再以相关的软件将其解压缩验听其结果。

根据本发明所公开的语音音调转换方法，当欲合成一ㄅㄚ的语音文件，仅需要有一个ㄅㄚ的欲调语音，将其音调参数以参考语音ㄆㄚ的音调参数取代，即可合成ㄅㄚ的语音文件。

实际转换的音调请参考图4，其中ban1为ㄅㄢ的波形图，将其音调由二声、三声、四声及轻声的参考语音的音调参数取代，即可得到ㄅㄢㄅㄢ

ㄅㄢ

以及ㄅㄢ

的语音。其中ban2为ㄅㄢ

的波形图，ban3为ㄅㄢ的波形图，ban4为ㄅㄢ

的波形图，ban5为ㄅㄢ

的波形图。

本发明所公开的语音音调转换方法，已以C程序语言撰写完成，可将原音的音调更改为任意的参考音调，并将原本相当缓慢的调音工作，变成一个可验证且自动执行的非常有效率的解决方法，可一次处理大量的音档，不仅对于中文的TTS的修音帮助很大，亦可应用到解决内存减小与音素不足等问题。

虽然本发明以前述的较佳实施例公开如上，然其并非用以限定本发明，任何熟习相像技术者，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，因此本发明的专利保护范围须视本说明书所附的权利要求的保护范围所界定者为准。