CN1208910A

CN1208910A - 语音合成中的语音规整方法

Info

Publication number: CN1208910A
Application number: CN97116047A
Authority: CN
Inventors: 张景嵩; 沙海红; 徐彬艳
Original assignee: Inventec Corp
Current assignee: Inventec Corp
Priority date: 1997-08-15
Filing date: 1997-08-15
Publication date: 1999-02-24
Anticipated expiration: 2017-08-15
Also published as: CN1113330C

Abstract

本发明的方法是针对句子的文字内容,分析其对应的句型、词性、片语群及特殊词等,并自该规则库中检索出对应的每个音节的音节参数,进而求得一音节参数阵列,而该句子经由语音合成装置合成的WAV数据,则通过分音节模块,于其中插入音节标记,再依据上述音节参数阵列与WAV数据间的对应关系,针对所标出的每个音节进行语调类型、能量、时间长度及静音等处理,最后,再将处理后的语音数据重新整合成新的WAV数据,产生更接近自然语言的发音。

Description

语音合成中的语音规整方法

本发明涉及一种语音合成方法，特别是一种语音合成中的语音规整方法。

目前普遍使用的语音合成方法主要分为二类，一类为参数合成法，另一类为波形合成法，其中一种以共振波峰合成为代表的参数合成法(LPC)，由于其研究发展的时间较长，且能以较小的语音资料库与及时的合成运算法完成语音的合成，故在早期低速率且低配置的计算机及通讯设备上亦能实现语音的合成，在理论及实务上已属相当成熟的参数合成法。该种合成法在合成词句或句子时，虽可方便地进行音调的处理变换，且在加入语音资料库后，能合成流畅稳定的语音，但该种合成法所合成的语音音质不高，此外，由于该种合成法所合成的语音频宽较窄，故在合成女声或中高音男声时，合成的声音将变哑。而波形合成法(如：脉码调整(PULSE CODING MODIFICATION)的编码合成法，以下简称PCM)，虽然其合成语音的频宽可达4KHz以上，且合成的语音音质较好，能更接近真人的发音，但是在合成连贯的句子时，由于该种合成法不易进行即时(real time)且不失真的音调处理，致所合成的句子语音不连贯，故难以实现自然语言的各种音调。

本发明的目的是使所合成的语音在音质和语调上均能趋近自然语音，有效克服惯用的参数合成法及波形合成法的不足及所衍生的诸多缺点。

为达到上述目的，本发明提供一种语音合成的语音规整方法，该方法包含步骤为：将文字输入到语音合成装置，并通过用计算机语音合成方法，对文字进行预处理，合成句子的句型、单词音节数、特殊词及片语标志后，针对所产生的原始合成语音数据，从所存储的一自然语言规则库中检索出句子中每个音节的最佳参数；然后，形成一音节参数阵列，该音节参数阵列是一组以音节符号为索引的数据，该参数阵列的每个数据包含对应音节的音节语调类型、音节长度、音节能量及静音间隔等；

而输入该语音合成装置的文字在进行预处理后，另外又借助一语音合成模块，根据一语音资料库，合成该句子中各组成单词的语音数据；然后再将这些数据经过一划分音节模块的处理，在这些数据所划分出的音节中，插入音节标志；

由此，所划分出的这些音节和该音节参数阵列间形成一对一的对应关系，然后再根据该音节参数阵列，对每个音节的原始数据进行音节的语调类型、音节长度、音节能量及音节静音等的音节处理步骤，使原始合成的单词音调更丰富、从而获得更接近自然语言的播放语言。

这里，所说的音节处理包括如下步骤：首先计算音节调型，然后判断与音节参数指定调型是否一样，如果一样，则判断该音节长度是否大于参数指定长度；如果与音节参数指定调型不一样，则还需要进行调型变换后再进行音节长度的判断，如果音节长度大于参数指定长度，则将音节压缩到音节参数指定长度，如果音节长度小于音节参数指定长度，则将音节扩展到音节参数指定长度；然后判断参数是否指定重读，如果为重读，则增加音节语音数据振幅，如果不是重读，则直接进行参数指定静音的判断，如果该判断为是肯定的，则进行插入静音段后结束处理过程，如果判断为否定的，则处理结束。

图1是本发明所说方法的处理流程示意图；

图2a及2b是本发明的自然语言规则库中句型规则库及片语规则库的结构图；

图3是本发明的各语调类型的基音周期曲线的示意图；

图4a及4b分别为经本发明处理前的原始合成的句子基音曲线及处理后的句子基音曲线的示意图；

图5是本发明的音节处理流程示意图。

图6是单词的PCM数据波形。

本发明是一种语音合成中的语音规整方法，该方法主要是将英语句子输入至一语音合成装置，并利用已知的发音及音标合成方法合成该句子中各组成单词的语音数据后，再根据本发明的语音规整方法判断其音节，并决定音节参数，然后再针对各音节进行变换调整，参照图1所示其基本结构如下：

句子→语音信号合成处理→原始合成语音数据→语言规整处理→自然语音，其中在该语音信号的合成处理中，首先由输入文字1，经过文字预处理3，至合成句子的句型、单词音节数、特殊词及片语标志5等过程，然后，从已存储在计算机中的一自然语言规则库6中检索出句子中每个音节的最佳参数，形成一音节参数阵列8，该音节参数阵列8是一组以音节符号为索引的数据，该参数阵列8的每个数据包含对应音节的音节长度、音节语调类型、音节能量及静音间隔等，这些数据是本发明在进行后续音节处理时的基本依据。该自然语言规则库6是自大量的英语语句、片语中，依其句型、词性、片语群及特殊词等因素，所统计归纳而获得的一系列音节参数的资料库，其统计归纳的步骤如下：

(1)首先，选取大量的句型及片语；

(2)其次，通过以英语为母语的研究人员，以正确的发音，将所选取的语句及片语，藉由录音装置转录为WAV数据的语音文件；

(3)再利用语音编辑工具，针对上述的语音文件进行基音周期(该基音周期是与音调频率成反比)的识别与调整，并予以标记；

(4)最后，经研究分析不同句型的基音周期曲线，总结出各种句型或片语中音节的语调类型、音节长度、能量及静音长度等规则，再将所总结的规则存入资料库，以作为检索的依据，该资料库即本发明所称的自然语言规则库6。

现举一实例，以说明该自然语言规则库6的建立模式如下：

本发明在建立一陈述句(句型的一种)的音节参数时，首先选取10个(实际作业时，可不限于此)典型陈述句及其录音的原始波形数据，再利用语音编辑工具对每个句子的语音文件进行基音周期的识别与调整，划分出句子的音节，并于其中插入音节标记。如：一例句为“I know his brother and mother.”，经上述语音编辑工具划分音节后，可得到8个音节“I”、“know”、“his”、“bro”、“ther”、“and”、“mo”及“ther”，此时，再将8个音节依其先后顺序划分为5组，即第一音节、第二音节、中间音节、倒数第二音节及末音节等5组，并分别标记为FS、SS、MS、SLS及LS，故该例句中5组音节分别为FS＝“I”、SS＝“know”、MS＝“his”+“bro”+“ther”+“and”、SLS＝“mo”及LS＝“ther”。根据所述步骤，分别针对所选取的10个句子，逐一进行划分音节处理，并研究分析基音周期曲线，即可分别获得该等句子中5组音节(即FS、SS、MS、SLS及LS)的平均语调类型、音节长度、能量及静音长度等数据，并以其作为代表该陈述句型的标准数据，储存于自然语言规则库6中。对于其它各类句型语句的FS、SS、MS、SLS及LS部分，也可依前述处理步骤建立对应的标准数据(对于片语群，则可将其音节分为首音节SS、中音节MS及尾音节LS等三组)，再经研究分析不同句型的基音周期曲线，总结出各种句型或片语中音节的语调类型、音节长度、能量及静音长度等规则，并将所总结的规则存入自然语言规则库6中的句型规则库及片语规则库，参照图2a及2b所示，以作为检索的依据。

再参照图1所示，本发明在文字输入1至一语音合成装置，并经由计算机语音信号合成方法针对文字进行预处理3，再通过语音合成模块4，根据语音资料库2(在本发明的一实施例中，该语音库依所需的语音格式可为一音调同步差分编码(PITCH SYNCHRONIZED DIFFERENTIAL CODING)的格式，以下简称PSDC，但实施时，并不局限于此)，合成该句子中各组成单词的语音数据7，然后再将这些数据经划分音节模块9的处理，随后在这些数据所划分出的音节中，插入音节标志10，如此，所划分出的音节与上述音节参数阵列8间，形成一对一的对应关系。

本发明所称的音节参数阵列8是一组以音节符号为索引的数据，该阵列中每项均包括下列变量：

(1)音节语调类型：该语调类型可分为平调(EVEN)、升调(RISE)及降调(FALL)等三种类型，该等类型再根据音节整体基音周期水平的高低不同，参阅图3所示的基音周期曲线示意图，又可细分为高平调(HIGHEVEN)、低平调(LOWEVEN)、高升调(HIGHRISE)、低升调(LOWRISE)、高降调(HIGHFALL)及低降调(LOWFALL)等，如：惊叹句中多用高平、高降及高升调等类型的语调类型。

(2)音节长度：是指音节中母音(VOWEL)中包含的基音周期个数(基音周期是指人们针对元音进行发音时，其声门张合运动的周期，该周期恰与音调频率成反比)，而音节数据是呈准周期状，其周期可由LPC(Linear predictivecoding)算出，一个音节通常是由几十至一百多个相似的周期所组成，通过改变周期即可调整音节的长度；通常强调词(如：程度副词、句尾词等…)的音节中包含的基音周期个数较多，而大部分虚词(如：前置词、连接词、冠词等…)的音节中包含的基音周期个数则较少。

音节是一个以单元音为中心，且以辅音为分界的语音单元，而语音数据则为一种准周期信号，该信号可透过LPC(Linear predictive coding)分析出包含波音段及清音段二部分，其中波音段是呈现周期性，而清音段则呈现噪音的特性，在语音分析上该波音及清音段恰正对应于语音学上的元音和辅音，因此，通过LPC分析法自该语音数据中分析出其波音段，并标出该波音段的位置，即可以其作为一个音节的标志，至于其清音段由于是属噪音，没有音调，故在本发明的语音规整时，可不予考虑。

现以单词grateful为例，该单词由其音标[＇gretfl]观之，其上有两个音节，其PCM的数据波形如图6所示。

经由LPC分析，可很容易找出对应辅音“g”的噪音段T1、对应有声音节“re”的波音段T2、对应辅音“tf”的噪音段T3及对应元音“1”的波音段T4，故，可在其语音数据中贮存T2段和T4段的起始位置，以作为该单词的音节标记，T1和T3段因属噪音段(辅音)，则不作标记。

(3)音节能量：是用以表示音量的一参数，能最高代表人们在发音时强调某些词句或表现某些句子的节奏感，该音节能量可由下列公式计算：

1/N∑S²，其中N为音节的总抽样点数；S为每个抽样点的抽样值。

(4)静音间隔：指在音节后增加长短不同的静音，该静音间隔可用以区分句子的意群单元或表现说话者的节奏，该静音长度是以静音抽样点数予以表示。

在本发明的一实施例中，语音信号的合成处理是依据一PSDC语音格式的语音资料库2，合成该句子中各组成单词的PSDC格式语音数据7，该PSDC数据是将标准PCM语音数据以相关参数合成法(LPC)分析出数据中的子音段及母音段，并求出母音段的音调基音周期(即声源激励声门的周期)，经调整修正后，再将子音长度、母音长度及母音周期长度串等信息存放于该PSDC格式数据的文件头中。该PSDC文件在读入存储器后，每个子音及母音的周期数据将依次读入存储器，以数据或链表结构存放，这些数据将有助于划分音节和进行音调调频变换之用。而本发明在划分音节9时，是以母音头为音节的起始点，后续的母音周期均为同一音节，直到碰到子音、另一母音头、另一单词或句尾为止。

再参照图1所示，在该PSDC格式数据经由分音节处理9后，可于所划分出的音节中插入基音周期标志10，如此，所划分出的音节与上述音节参数阵列8间即形成一对一的对应关系。然后，再根据音节参数，对每个音节的原始数据进行处理11，该处理包括音节的语调类型、音节长度及音节能量等处理，该处理将令原始合成的千篇一律的单词音调丰富起来，句子的整体效果也更接近自然语言。

由于，经计算机语音信号合成方法所产生的原始合成的音调轮廓比较单一，绝大部分的词语都呈降调，而且词形或双音素间的音调高低不一，起伏较大，必需经过平滑和变调处理，尤其是，一般疑问句的词尾音节必须变为升调。故，本发明在输入文字1经计算机语音合成方法针对文字进行预处理3，合成句子的句型、单词音节数、特殊词及片语标志等5后，可自该自然语言规则库6中，检索得其音节参数，嗣再依音节参数阵列8，求得PSDC格式数据，并得到音节中标有周期的母音数据(子音对音调影响不大，可不做变换)，再用一种PSDC运算法扩展或压缩母音周期，使整体音节的基音周期的轮廓曲线呈现平调、升调或降调的趋势。本发明通过对大量的实际发音的升降调音节的基音周期的轮廓线进行研究后，发现可采用如下的模拟升降调的模型(实际作业时，并不局限于此)进行该音节语调类型处理：

升调：y(x)＝a^*(1-sin(π^*x/2b))+c

降调：y(x)＝a^*(1-cos(π^*x/2b))+c，其中x：为时间轴变数，y：为音调变数；a：为常人正确发音的音调变化范围；b：为常人正确发音的单音节发音的长度；c：为常人正确发音的音调下限。

本发明为使语句音调更为平稳，尚应针对音节进行平滑处理，参照图4a及4b所示，例句“I know your uncle.”在未经平滑处理及经平滑处理后句子的基音周期曲线。

此外，在本发明的该音节长度处理及音节静音处理中，参照图5所示，前者是由中央处理单元(CPU)判断音节的实际长度Ls_i与音节参数中设定的音节长度Lp_i，如果Ls_i＞Lp_i，则将音节拉长，否则，将音节缩短。而本发明中压缩或拉长周期是在音节中较稳定的中间段进行，当Ls_i＜Lp_i时，每隔两个点合成一新的点，当Ls_i＞Lp_i时，删除一点，如此，即可使音节变长或变短。而在本发明中增加静音的方法，是在音节后附加一段以零填充的数据段，令语音在其意群尾部有一定量的停顿时间，如例句：“The staff on duty weresleep|when the fire broke out.”中“|”是表示在意群分界处所插入的定量静音。

本发明的方法，由于可将经语音合成装置所合成的WAV数据，通过本发明的分音节模块，在其中插入音节标记，再依据上述自然语言规则库6中的音节参数阵列与该WAV数据间的对应关系，针对所标出的每个音节进行语调类型、能量、时间长度及静音长度等的调整处理，再将处理后的语音数据重新整合成WAV数据12，并予以播音，故能产生更逼近自然语音的语调。

以上所述，仅为本发明的一较佳实施例，但，本发明所要求保护的权利范围，并不局限于此，由本领域技术人员，依据本发明所披露的技术内容，可轻而易举的进行改进或等效变化，均应属于本发明的保护范围。

Claims

1.一种语音合成中的语音规整方法，所述方法包含以下步骤：将文字输入至一语音合成装置，并通过用计算机语音合成方法针对文字进行预处理，合成句子的句型、单词音节数、特殊词及片语标志后，针对所产生的原始合成语音数据，从所存储的一自然语言规则库中检索出句子中每个音节的最佳参数；然后，形成一音节参数阵列，所述音节参数阵列是一组以音节符号为索引的数据，所述参数阵列的每个数据包含对应音节的音节语调类型、音节长度、音节能量及静音间隔；

而输入所述语音合成装置的文字在进行预处理后，另外借助一语音合成模块，根据一语音资料库，合成所述句子中各组成单词的语音数据；然后再将这些数据经由一划分音节模块的处理，在这些数据所划分出的音节中，插入音节标志；

由此，所划分出的这些音节与所述音节参数阵列间，形成一对一的对应关系，然后再根据所述音节参数阵列，对每个音节的原始数据进行音节的语调类型、音节长度、音节能量及音节静音等的音节处理，从而获得接近自然的语音。

2.如权利要求1所述的语音合成中的语音规整方法，其中所述音节处理包括如下步骤：

首先计算音节调型，然后判断与音节参数指定调型是否一样，如果一样，则判断所述音节长度是否大于参数指定长度；如果与音节参数指定调型不一样，则还需要进行调型变换；如果音节长度判断为大于参数指定长度则将音节压缩到音节参数指定长度，如果音节长度小于音节参数指定长度，则将音节扩展到音节参数指定长度；然后判断参数是否指定重读，如果为重读，则增加音节语音数据振幅，否则直接进行参数指定静音的判断，如果所述判断为是肯定的，则进行插入静音段，然后结束处理过程，如果判断为否定的，则结束处理过程。

3.如权利要求1或2所述的语音合成中的语音规整方法，其中对每个音节的原始数据进行音节的语调类型、音节长度及音节能量等处理后，为使语句音调更为平稳，还可针对音节进行平滑处理。

4.如权利要求1或2所述的语音合成中的语音规整方法，其中采用如下的模拟升降调的模型处理所述音节语调类型：

升调：y(x)＝a^*(1-sin(π^*x/2b))+c

5.如权利要求1或2所述的语音合成中的语音规整方法，其中通过公式1/N∑S²进行所述音节能量处理，式中N为音节的总抽样点数，S为每个抽样点的抽样值。

6.如权利要求1或2所述的语音合成中的语音规整方法，其中所述音节长度处理是由中央处理单元判断音节的实际长度Ls_i与音节参数中设定的音节长度Lp_i，如果Ls_i＞Lp_i，则将音节拉长，否则，将音节缩短。

7.如权利要求6所述的语音合成中的语音规整方法，其中所述音节长度处理中压缩或拉长周期是在音节中较稳定的中间段进行，当Ls_i＜Lp_i时，每隔两个点合成一新的点，当Ls_i＞Lp_i时，删除一点，如此，即可使音节变长或变短。

8.如权利要求1或2所述的语音合成中的语音规整方法，其中所述静音处理是在音节后附加一段以零填充的数据段，使语音在其意群尾部有一定量的停顿时间。

9.如权利要求1所述的语音合成中的语音规整方法，其中所述语音资料库依所需的语音格式可为一音调同步差分编码(PITCH SYNCHRONIZEDDIFFERENTIAL CODING)的格式。

10.如权利要求1或2所述的语音合成中的语音规整方法，其中所述音节参数阵列中所述音节语调类型可分为平调(EVEN)、升调(RISE)及降调(FALL)等三种类型，该类型再根据音节整体基音周期水平的高低不同，细分为高平调(HIGHEVEN)、低平调(LOWEVEN)、高升调(HIGHRISE)、低升调(LOWRISE)、高降调(HIGHFALL)及低降调(LOWFALL)。

11.如权利要求1或2所述的语音合成中的语音规整方法，其中所述音节参数阵列中所述音节长度是指音节中母音(VOWEL)包含的基音周期个数。

12.如权利要求1或2所述的语音合成中的语音规整方法，其中所述音节参数阵列中所述音节长度可借助分析法自所述语音数据中分析出其波音段，并标出所述波音段的位置，以其作为一个音节的标志。

13.如权利要求12所述的语音合成中的语音规整方法，其中所述分析法可为一线性预测编码(LPC)的分析法。

14.如权利要求1或2所述的语音合成中的语音规整方法，其中所述音节参数阵列中静音长度是指在音节后增加长短不同的静音，以区分句子的意群单元或表现说话者的节奏，该静音长度是以静音抽样点数予以表示。