CN1811912B

CN1811912B - 小音库语音合成方法

Info

Publication number: CN1811912B
Application number: CN2005100049112A
Authority: CN
Inventors: 陈明; 吕士楠; 张连毅; 武卫东; 肖娜
Original assignee: JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Current assignee: Beijing InfoQuick SinoVoice Speech Technology Corp.
Priority date: 2005-01-28
Filing date: 2005-01-28
Publication date: 2011-06-15
Anticipated expiration: 2025-01-28
Also published as: CN1811912A

Abstract

本发明提供一种小音库语音合成方法，该方法基于自然语音压缩音库，综合利用声学参数规划、实时解压和韵律参数调节技术，具体包括如下步骤：(a)音数据库、语音索引库、韵律模型库；(b)对于要合成的语音进行文本预处理；(c)声学参数规划；(d)查找最优样本，得到相应的选中样本的声学参数信息；(e)实时解压，获得实际的语音波形数据；(f)韵律调节；(g)波形拼接，将调节后或未调节的波形数据的进行拼接，得到语音合成结果。采用该方法保留了韵律的变化性，又最大程度地避免了韵律调节算法带来的机器声和回声。主要可针对嵌入式系统的使用。

Description

小音库语音合成方法

技术领域

本发明涉及语音合成技术领域，具体涉及语音合成方法。

背景技术

目前，国内外语音合成技术主要有参数合成技术和波形合成技术两种。波形合成技术又分为简单波形拼接技术和基于大规模语料库的波形拼接技术两种。

从理论上讲参数合成技术是合理的，并且音库十分之小，因此很适于嵌入式应用，但这种技术过分依赖于语言学和语音学的发展，由于言语生成模型不够完善，合成语音的音质总是不尽人意，无法达到很高的自然度，并且这种方案所需的运算量比较大，在嵌入式系统中性能较低的CPU下很难完成。

波形拼接法采用了真实的录音进行拼接，但由于简单的方法每个音节仅有1～2个样本，用于无限词汇的汉语文语转换系统时，如果不改变原始采样波形的声学参数，合成出的连续语音的自然度较差。而利用基音同步波形叠加等方法在时间域中调节韵律参数，对提高自然度有一定作用，但处理后的声音和音色与原始发音不完全相同，有机器声、回声，听起来不够亲切和清晰，也很难为公众所接受。而如果提高音节的样本数目，例如采用基于大规模语料库的波形拼接方案，可以不进行调节，提高自然度，但所使用的音库很大，占用内存很多，因此也无法移植到嵌入式系统下。

应用参数合成技术的资料可参阅中国重大科技成果数据库(1986-今)，1.编号851408，四川大学杨家沅等的研究成果：“计算机汉语语音合成装置”2.编号880759，四川大学苟大举等的研究成果，“无限词汇的计算机汉语语音合成系统”；3.编号912209，复旦大学李宗葛等的研究成果：“人-机器人汉语语音通信系统研究”。

应用波形拼接合成技术的资料可查阅：1.中国发明专利：ZL94103372，发明人：清华大学蔡莲红等，发明名称：“基于波形编辑的汉语文字一语音转换方法及系统”；2.中国重大科技成果数据库，a.编号891728，复旦大学邵祥义等的研究成果：“汉语语声识别及合成技术开发”；b.编号941008，清华大学蔡莲红等的研究成果，“汉语文语转换系统TH-Speech”3.中国适用技术数据库(1983-今)，编号199012，同济大学邵祥义等的研究成果：“汉语语声识别及合成技术开发”。4.中国实用新型专利ZL 97215108，发明人吕士楠等，发明名称为“基音同步波形叠加汉语文语转换装置”。

发明内容

鉴于上述情况，提出本发明以解决现有语音合成系统合成质量不高、音库太大或运算量太大难以在嵌入式系统运行的问题。

本发明提供一种基于自然语音压缩音库，综合利用声学参数规划、实时解压和韵律参数调节技术的动态汉语语音合成方法，主要可针对嵌入式系统的使用。

该方法考虑了对声学参数影响最大的若干韵律条件，并根据此录制真实语音数据，同时采用语音压缩算法获得较小的音库。在实际合成时，通过声学参数规划获得目标值，然后同样根据韵律条件进行匹配获得最优样本，并进行实时解压获得语音数据。然后检查实际样本和规划的目标声学参数之间的距离，如果相差太大，则进行韵律调节。最后将调节或不调节的语音波形进行拼接，获得输出。

[0002](a)建立语音数据库、语音索引库和韵律模型库；

(a)建立语音数据库、语音索引库和韵律模型库；

(b)对要合成的语音进行文本预处理，包括断句、文本规整化、分词、韵律层级结构分析和转拼音；

(c)声学参数规划：从韵律模型库中查出每个音节所应当具有的声学参数，也即每个音节的音高、音长和音强，完成对每个音节的声学参数的规划；

(d)查找最优样本：对每个音节通过韵律条件进行匹配，从所述语音数据库中选择搜索对应的样本，并且得到相应的选中样本的声学参数信息；

(e)实时解压：获得压缩的语音数据，并根据所采用的压缩算法进行实时解压，获得实际的语音波形数据；

(f)韵律调节：计算所选样本的声学参数和所规划的音节的声学参数之间的代价；

若该代价大于阈值，则将解压后得到的所述语音波形数据的音高、音长和/或音强调节到所需的目标值；若该代价小于阈值，则不进行调节；

(g)波形拼接，对调节后或未调节的波形数据进行拼接，得到语音合成结果。

本发明与现有技术相比具有以下优点：

1.考虑了对声学参数影响最大的若干韵律条件，并根据此进行录制，使得所需录制得样本数量少，但又能代表声学参数较大范围的变化，这样在增加有限量的样本的基础上，使后面的韵律调节可以降低到最少。

2.采用音库压缩技术可以得到较小的音库，并在合成时通过实时解压得到最终的语音数据。

3.声学参数规划、查找最优样本的韵律条件匹配方法，以及按需进行的韵律调节算法，使得保留了韵律的变化性，又最大程度地避免了韵律调节算法带来的机器声和回声。

附图说明

图1为本发明提供的小音库语音合成方法的流程图。

具体实施方式

在进行语音合成之前，须先建立语音数据库、语音索引库、韵律模型库；

语音数据库：按照不同音节在实际语句中所可能出现的频度，分为三个级别录制不同的样本数目的真实语音。第一个级别每个音节录制6个样本，分别对应不同的前调联(2种情况，阴平、阳平一类，上声、去声、轻声一类)和词中位置(3种情况，词首、词中、词末或单字)。第二个级别每个音节录制3个样本，分别对应词中位置(3种情况，词首、词中、词末或单字)。第三个级别每个音节只录制1个样本。并利用语音压缩算法(例如G.729)对这些样本进行了压缩。同时记录每个音节样本的声学参数(音高、音长、音强)。

索引库：对所有的音节，记录了它的级别，以及在小音库中所有样本的序号，由这个序号查找小音库，可以快速得到这个音节的相关数据。

韵律模型库：通过统计训练得到的韵律模型，也即一句话中每个音节的音高、音长、音强应该是什么样的。这些声学参数的数值和句型、词性序列、句子和韵律短语的长度等因素密切相关。

具体描述如下：

文本预处理

对于要合成的语音进行文本预处理。此步骤包括断句、文本规整化、分词、韵律层级结构分析、转拼音等。最终可以得到如下结果：

●一句话中每个音节的拼音。

●每个音节的词中位置、韵律短语中位置和句中位置。

具体的文本预处理步骤如下：

(1)断句，即利用标点信息(逗号、句号、问号、感叹号、分号、冒号等)将输入的文本文件切分为短句。

(2)文本归整化：主要包括数字处理和符号转换，也即将数字、符号转换成相应的中文读法。

a数字处理：根据上下文来进行自动判断数字的读法。例如

昨晚21:17，孔令辉以21:17胜了第三局。

第一个21:17将按照时间来读取(即读成二十一点十七分)，第二个21:17将按照比分来读取(即读成二十一比十七)。

b符号转换：根据上下文判断符号的读法，转换为相应的中文读法。“-”有时做为减号，有时做为“到”(如1-5％)。“/”可以做为“除以”，也可能是“每”(如100m/s)。

(3)分词，本发明采用双向最大匹配的分词法和基于词性的歧义处理方法来进行分词处理。

例如：“这件事一时的确定不下来”的正、逆向分词结果分别为：

正向：这件/事/一时/的确/定/不/下来

逆向：这件/事/一时/的/确定/不/下来

因此，此文本中有一个歧义字串“的确定”，其它的都已经得到正确结果。再根据该歧义字串内提供首字和末字的词性信息(主要是介词、副词、助词、连词等)进行切分，如果不能满足切分规则的，则使用逆向最大分词的结果。

(4)韵律层级结构分析：包括韵律词处理，韵律短语切分和句子结构分析。韵律词处理是将语法词根据人说话时的规律加以拼接或拆分。例如“我是中华人民共和国的公民”，语法词分析完为“我/是/中华人民共和国/的/公民”，但韵律词为“我是/中华/人民/共和国的/公民”。韵律短语划分主要根据前停词(例如“不是”“而是”、)后停词(例如“说”、“讲”)，人们阅读到这些词的时候一般要做明显的停顿，再根据人大致说7个字左右需要进行呼吸的特点，进行韵律短语切分。经过韵律层级结构分析后，每个发音的韵律短语中位置和韵律词中位置就都得到了。另外，还根据句末的标点判断语调模式。

(5)获得拼音：将切分好的文本转化成为拼音码，对照字音转换表和词库中的拼音标注可以得到汉字的拼音，如果是多音字并且在分词时被分为单字，则对某些特殊的字根据上下文进行判断。例如：“重”如果前面是数字，则读“虫”音，否则读“众”音。如果不在这些特殊的字中间，则采用默认的拼音。另外还包括音变处理：在语流中，连着读的音节或声调有时会发生变化。这里主要处理了变调、轻声、儿化等，根据事先拟定的规则，将拼音码改变。

声学参数规划

通过一些属性，从韵律模型库中查出每个音节所应当具有的声学参数，也即每个音节的音高、音长、音强应该是什么样的，完成对每个音节的声学参数的规划。这些属性包括：这个音节是在词首、词中、词尾还是单字词(韵律词中位置)；这个音节所在的词是在句首、句中还是句末(韵律短语中位置)；这个音节前面和后面的声调是什么，也即调连属性；这个音节前面的韵母和后面的声母是什么，也即音连属性；这个音节的前粘、后粘属性；这个音节所在韵律短语的位置，这个音节所在语句的语调模式等。

假设一句话共有K个音节(从1到K)，则其规划后各音节的声学参数如下：

X_k＝{H_k，L_k，T_k，A_k} (k＝1，...，K)

分别为第k个音节所规划的高音点、低音点、音长和音强。

查找最优样本

在这一步骤中，每个音节通过韵律条件进行匹配，也即根据其不同的级别，分别考虑其在词中的位置、前后调联信息，在音库中选择搜索对应的样本，并且得到相应的选中样本的声学参数信息。例如：“你看中国人呐”，根据分词结果，分为：你是/中国人/呐三个韵律词。查找“看”的级别为2，也即每个音节对应3个样本，则只考虑词中位置，“看”为词末，则选择音库中对应的词末的音节；查找“中”的级别为1，也即每个音节对应6个样本，其为词首，前调联为第2类(前一个字“是”的音调为去声)，因此，选择音库中对应的词首/调联为第2类的音节样本；查找“呐”的级别为3，只有一个样本，则选择音库中的这一个样本。其余的汉字都是类似方法，就可以选择所有的音节的最优样本。并且得到这些样本的声学参数：X′_k＝{H_k′，L_k′，A_k′，A_k′}(k＝1，...，K)分别为第k个音节所规划的高音点、低音点、音长和音强。其中高音点，低音点和音长值是经过归一化的数据，也即相对于此音节平均高音点，平均低音点和平均音长的比例。

实时解压

通过上面的步骤，对每个音节选定了样本。根据其选择，就可以从小音库中获得压缩后的语音数据。根据所采用的压缩算法进行实时解压，获得实际的语音波形数据。

例如，采用G729算法进行解压缩时，从库中得到的语音数据为压缩后的数据。G729压缩算法针对的是8KHz采样的16位线形PCM码(码流率为128K bps)，可以压缩到8Kbps的码流率，也即压缩16倍。解码是按照帧为单位进行的，每个音节的压缩数据都分解为多个帧，每帧为10毫秒语音，也即10个字节。经过解压，得到80个8KHz采样的16位线形PCM码语音样本，数据量为160个字节。针对多帧循环进行解压，就可以得到实际的语音波形。最终的语音波形数据即为解压后的8000Hz下16位线形PCM码数据。

韵律调节

计算所选样本的声学参数和所规划的音节的声学参数之间的代价。

g (X_{i}, X_{j}^{'}) = \sqrt{ω_{H} {(H_{i} - H_{j}^{'})}^{2} + ω_{L} {(L_{i} - L_{j}^{'})}^{2} + ω_{T} {(T_{i} - T_{j}^{'})}^{2}}

其中ω为不同参数各自的权重。

若其代价大于一定的阈值，表示相差较大，则利用基音同步叠加算法(PSOLA调节算法)将从音库中取得的音节波形信号的音高、音长调节到所需的目标值。否则，如果此代价小于一定阈值，则不引入调节的过程，以减少调节算法带来的机器声和回声。

例如合成“王老师问”，我们规划的音高音强和所选样本实际的音高音强以及计算出来的代价如下(假设上述权重都是1)：

当我们的阈值设为0.1时，则“王”和“老”两个音节需要调节，而“师”和“问”两个音节则不需要调节。

由于调整音强不会引入机器声和回声，因此，总是将音强调节到规划音强。

波形拼接

将调节后或未调节的波形数据的进行拼接，得到最终的语音合成结果。

Claims

1.一种小音库语音合成方法，所述小音库适用于嵌入式系统，该方法包括如下步骤：

(a)建立语音数据库、语音索引库和韵律模型库；

(g)波形拼接：对调节后或未调节的波形数据进行拼接，得到语音合成结果。