CN1811912B - 小音库语音合成方法 - Google Patents

小音库语音合成方法 Download PDF

Info

Publication number
CN1811912B
CN1811912B CN2005100049112A CN200510004911A CN1811912B CN 1811912 B CN1811912 B CN 1811912B CN 2005100049112 A CN2005100049112 A CN 2005100049112A CN 200510004911 A CN200510004911 A CN 200510004911A CN 1811912 B CN1811912 B CN 1811912B
Authority
CN
China
Prior art keywords
sound
syllable
speech
parameters
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2005100049112A
Other languages
English (en)
Other versions
CN1811912A (zh
Inventor
陈明
吕士楠
张连毅
武卫东
肖娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing InfoQuick SinoVoice Speech Technology Corp.
Original Assignee
JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd filed Critical JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority to CN2005100049112A priority Critical patent/CN1811912B/zh
Publication of CN1811912A publication Critical patent/CN1811912A/zh
Application granted granted Critical
Publication of CN1811912B publication Critical patent/CN1811912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种小音库语音合成方法,该方法基于自然语音压缩音库,综合利用声学参数规划、实时解压和韵律参数调节技术,具体包括如下步骤:(a)音数据库、语音索引库、韵律模型库;(b)对于要合成的语音进行文本预处理;(c)声学参数规划;(d)查找最优样本,得到相应的选中样本的声学参数信息;(e)实时解压,获得实际的语音波形数据;(f)韵律调节;(g)波形拼接,将调节后或未调节的波形数据的进行拼接,得到语音合成结果。采用该方法保留了韵律的变化性,又最大程度地避免了韵律调节算法带来的机器声和回声。主要可针对嵌入式系统的使用。

Description

小音库语音合成方法
技术领域
本发明涉及语音合成技术领域,具体涉及语音合成方法。 
背景技术
目前,国内外语音合成技术主要有参数合成技术和波形合成技术两种。波形合成技术又分为简单波形拼接技术和基于大规模语料库的波形拼接技术两种。 
从理论上讲参数合成技术是合理的,并且音库十分之小,因此很适于嵌入式应用,但这种技术过分依赖于语言学和语音学的发展,由于言语生成模型不够完善,合成语音的音质总是不尽人意,无法达到很高的自然度,并且这种方案所需的运算量比较大,在嵌入式系统中性能较低的CPU下很难完成。 
波形拼接法采用了真实的录音进行拼接,但由于简单的方法每个音节仅有1~2个样本,用于无限词汇的汉语文语转换系统时,如果不改变原始采样波形的声学参数,合成出的连续语音的自然度较差。而利用基音同步波形叠加等方法在时间域中调节韵律参数,对提高自然度有一定作用,但处理后的声音和音色与原始发音不完全相同,有机器声、回声,听起来不够亲切和清晰,也很难为公众所接受。而如果提高音节的样本数目,例如采用基于大规模语料库的波形拼接方案,可以不进行调节,提高自然度,但所使用的音库很大,占用内存很多,因此也无法移植到嵌入式系统下。 
应用参数合成技术的资料可参阅中国重大科技成果数据库(1986-今),1.编号851408,四川大学杨家沅等的研究成果:“计算机汉语 语音合成装置”2.编号880759,四川大学苟大举等的研究成果,“无限词汇的计算机汉语语音合成系统”;3.编号912209,复旦大学李宗葛等的研究成果:“人-机器人汉语语音通信系统研究”。 
应用波形拼接合成技术的资料可查阅:1.中国发明专利:ZL94103372,发明人:清华大学蔡莲红等,发明名称:“基于波形编辑的汉语文字一语音转换方法及系统”;2.中国重大科技成果数据库,a.编号891728,复旦大学邵祥义等的研究成果:“汉语语声识别及合成技术开发”;b.编号941008,清华大学蔡莲红等的研究成果,“汉语文语转换系统TH-Speech”3.中国适用技术数据库(1983-今),编号199012,同济大学邵祥义等的研究成果:“汉语语声识别及合成技术开发”。4.中国实用新型专利ZL 97215108,发明人吕士楠等,发明名称为“基音同步波形叠加汉语文语转换装置”。 
发明内容
鉴于上述情况,提出本发明以解决现有语音合成系统合成质量不高、音库太大或运算量太大难以在嵌入式系统运行的问题。 
本发明提供一种基于自然语音压缩音库,综合利用声学参数规划、实时解压和韵律参数调节技术的动态汉语语音合成方法,主要可针对嵌入式系统的使用。 
该方法考虑了对声学参数影响最大的若干韵律条件,并根据此录制真实语音数据,同时采用语音压缩算法获得较小的音库。在实际合成时,通过声学参数规划获得目标值,然后同样根据韵律条件进行匹配获得最优样本,并进行实时解压获得语音数据。然后检查实际样本和规划的目标声学参数之间的距离,如果相差太大,则进行韵律调节。最后将调节或不调节的语音波形进行拼接,获得输出。 
 [0002](a)建立语音数据库、语音索引库和韵律模型库; 
(a)建立语音数据库、语音索引库和韵律模型库; 
(b)对要合成的语音进行文本预处理,包括断句、文本规整化、分词、韵律层级结构分析和转拼音; 
(c)声学参数规划:从韵律模型库中查出每个音节所应当具有的声学参数,也即每个音节的音高、音长和音强,完成对每个音节的声学参数的规划; 
(d)查找最优样本:对每个音节通过韵律条件进行匹配,从所述语音数据库中选择搜索对应的样本,并且得到相应的选中样本的声学参数信息; 
(e)实时解压:获得压缩的语音数据,并根据所采用的压缩算法进行实时解压,获得实际的语音波形数据; 
(f)韵律调节:计算所选样本的声学参数和所规划的音节的声学参数之间的代价; 
若该代价大于阈值,则将解压后得到的所述语音波形数据的音高、音长和/或音强调节到所需的目标值;若该代价小于阈值,则不进行调节; 
(g)波形拼接,对调节后或未调节的波形数据进行拼接,得到语音合成结果。 
本发明与现有技术相比具有以下优点: 
1.考虑了对声学参数影响最大的若干韵律条件,并根据此进行录制,使得所需录制得样本数量少,但又能代表声学参数较大范围的变化,这样在增加有限量的样本的基础上,使后面的韵律调节可以降低到最少。 
2.采用音库压缩技术可以得到较小的音库,并在合成时通过实时解压得到最终的语音数据。 
3.声学参数规划、查找最优样本的韵律条件匹配方法,以及按需进行的韵律调节算法,使得保留了韵律的变化性,又最大程度地避免了韵律调节算法带来的机器声和回声。 
附图说明
图1为本发明提供的小音库语音合成方法的流程图。 
具体实施方式
在进行语音合成之前,须先建立语音数据库、语音索引库、韵律模型库; 
语音数据库:按照不同音节在实际语句中所可能出现的频度,分为三个级别录制不同的样本数目的真实语音。第一个级别每个音节录制6个样本,分别对应不同的前调联(2种情况,阴平、阳平一类,上声、去声、轻声一类)和词中位置(3种情况,词首、词中、词末或单字)。第二个级别每个音节录制3个样本,分别对应词中位置(3种情况,词首、词中、词末或单字)。第三个级别每个音节只录制1个样本。并利用语音压缩算法(例如G.729)对这些样本进行了压缩。同时记录每个音节样本的声学参数(音高、音长、音强)。 
索引库:对所有的音节,记录了它的级别,以及在小音库中所有样本的序号,由这个序号查找小音库,可以快速得到这个音节的相关数据。 
韵律模型库:通过统计训练得到的韵律模型,也即一句话中每个音节的音高、音长、音强应该是什么样的。这些声学参数的数值和句型、词性序列、句子和韵律短语的长度等因素密切相关。 
具体描述如下: 
文本预处理 
对于要合成的语音进行文本预处理。此步骤包括断句、文本规整化、分词、韵律层级结构分析、转拼音等。最终可以得到如下结果: 
●一句话中每个音节的拼音。 
●每个音节的词中位置、韵律短语中位置和句中位置。 
具体的文本预处理步骤如下: 
(1)断句,即利用标点信息(逗号、句号、问号、感叹号、分号、冒号等)将输入的文本文件切分为短句。 
(2)文本归整化:主要包括数字处理和符号转换,也即将数字、符号转换成相应的中文读法。 
a数字处理:根据上下文来进行自动判断数字的读法。例如 
昨晚21:17,孔令辉以21:17胜了第三局。 
第一个21:17将按照时间来读取(即读成二十一点十七分),第二个21:17将按照比分来读取(即读成二十一比十七)。 
b符号转换:根据上下文判断符号的读法,转换为相应的中文读法。“-”有时做为减号,有时做为“到”(如1-5%)。“/”可以做为“除以”,也可能是“每”(如100m/s)。 
(3)分词,本发明采用双向最大匹配的分词法和基于词性的歧义处理方法来进行分词处理。 
例如:“这件事一时的确定不下来”的正、逆向分词结果分别为: 
正向:这件/事/一时/的确/定/不/下来 
逆向:这件/事/一时/的/确定/不/下来 
因此,此文本中有一个歧义字串“的确定”,其它的都已经得到正确结果。再根据该歧义字串内提供首字和末字的词性信息(主要是介词、副词、助词、连词等)进行切分,如果不能满足切分规则的,则使用逆向最大分词的结果。 
(4)韵律层级结构分析:包括韵律词处理,韵律短语切分和句子结构分析。韵律词处理是将语法词根据人说话时的规律加以拼接或拆分。例如“我是中华人民共和国的公民”,语法词分析完为“我/是/中华人民共和国/的/公民”,但韵律词为“我是/中华/人民/共和国的/公民”。韵律短语划分主要根据前停词(例如“不是”“而是”、)后停词(例如“说”、“讲”),人们阅读到这些词的时候一般要做明显的停顿,再根据人大致说7个字左右需要进行呼吸的特点,进行韵律短语切分。经过韵律层级结构分析后,每个发音的韵律短语中位置和韵律词中位置就都得到了。另外,还根据句末的标点判断语调模式。 
(5)获得拼音:将切分好的文本转化成为拼音码,对照字音转换表和词库中的拼音标注可以得到汉字的拼音,如果是多音字并且在分词时被分为单字,则对某些特殊的字根据上下文进行判断。例如:“重”如果前面是数字,则读“虫”音,否则读“众”音。如果不在这些特殊的字中间,则采用默认的拼音。另外还包括音变处理:在语流中,连着读的音节或声调有时会发生变化。这里主要处理了变调、轻声、儿化等,根据事先拟定的规则,将拼音码改变。 
声学参数规划 
通过一些属性,从韵律模型库中查出每个音节所应当具有的声学参数,也即每个音节的音高、音长、音强应该是什么样的,完成对每个音节的声学参数的规划。这些属性包括:这个音节是在词首、词中、词尾还是单字词(韵律词中位置);这个音节所在的词是在句首、句中还是句末(韵律短语中位置);这个音节前面和后面的声调是什么,也即调连属性;这个音节前面的韵母和后面的声母是什么,也即音连属性;这个音节的前粘、后粘属性;这个音节所在韵律短语的位置,这个音节所在语句的语调模式等。 
假设一句话共有K个音节(从1到K),则其规划后各音节的声学参数如下: 
Xk={Hk,Lk,Tk,Ak}  (k=1,...,K) 
分别为第k个音节所规划的高音点、低音点、音长和音强。 
查找最优样本 
在这一步骤中,每个音节通过韵律条件进行匹配,也即根据其不同的级别,分别考虑其在词中的位置、前后调联信息,在音库中选择搜索对应的样本,并且得到相应的选中样本的声学参数信息。例如:“你看中国人呐”,根据分词结果,分为:你是/中国人/呐三个韵律词。查找“看”的级别为2,也即每个音节对应3个样本,则只考虑词中位置,“看”为词末,则选择音库中对应的词末的音节;查找“中”的级别为1,也即每个音节对应6个样本,其为词首,前调联为第2类(前一个字“是”的音调为去声),因此,选择音库中对应的词首/调联为第2类的音节样本;查找“呐”的级别为3,只有一个样本,则选择音库中的这一个样本。其余的汉字都是类似方法,就可以选择所有的音 节的最优样本。并且得到这些样本的声学参数:X′k={Hk′,Lk′,Ak′,Ak′}(k=1,...,K)分别为第k个音节所规划的高音点、低音点、音长和音强。其中高音点,低音点和音长值是经过归一化的数据,也即相对于此音节平均高音点,平均低音点和平均音长的比例。 
实时解压 
通过上面的步骤,对每个音节选定了样本。根据其选择,就可以从小音库中获得压缩后的语音数据。根据所采用的压缩算法进行实时解压,获得实际的语音波形数据。 
例如,采用G729算法进行解压缩时,从库中得到的语音数据为压缩后的数据。G729压缩算法针对的是8KHz采样的16位线形PCM码(码流率为128K bps),可以压缩到8Kbps的码流率,也即压缩16倍。解码是按照帧为单位进行的,每个音节的压缩数据都分解为多个帧,每帧为10毫秒语音,也即10个字节。经过解压,得到80个8KHz采样的16位线形PCM码语音样本,数据量为160个字节。针对多帧循环进行解压,就可以得到实际的语音波形。最终的语音波形数据即为解压后的8000Hz下16位线形PCM码数据。 
韵律调节 
计算所选样本的声学参数和所规划的音节的声学参数之间的代价。 
g ( X i , X j ′ ) = ω H ( H i - H j ′ ) 2 + ω L ( L i - L j ′ ) 2 + ω T ( T i - T j ′ ) 2
其中ω为不同参数各自的权重。 
若其代价大于一定的阈值,表示相差较大,则利用基音同步叠加算法(PSOLA调节算法)将从音库中取得的音节波形信号的音高、音长调节到所需的目标值。否则,如果此代价小于一定阈值,则不引入调 节的过程,以减少调节算法带来的机器声和回声。 
例如合成“王老师问”,我们规划的音高音强和所选样本实际的音高音强以及计算出来的代价如下(假设上述权重都是1): 
Figure 2005100049112A00800091
当我们的阈值设为0.1时,则“王”和“老”两个音节需要调节,而“师”和“问”两个音节则不需要调节。 
由于调整音强不会引入机器声和回声,因此,总是将音强调节到规划音强。 
波形拼接 
将调节后或未调节的波形数据的进行拼接,得到最终的语音合成结果。 

Claims (1)

1.一种小音库语音合成方法,所述小音库适用于嵌入式系统,该方法包括如下步骤:
(a)建立语音数据库、语音索引库和韵律模型库;
(b)对要合成的语音进行文本预处理,包括断句、文本规整化、分词、韵律层级结构分析和转拼音;
(c)声学参数规划:从韵律模型库中查出每个音节所应当具有的声学参数,也即每个音节的音高、音长和音强,完成对每个音节的声学参数的规划;
(d)查找最优样本:对每个音节通过韵律条件进行匹配,从所述语音数据库中选择搜索对应的样本,并且得到相应的选中样本的声学参数信息;
(e)实时解压:获得压缩的语音数据,并根据所采用的压缩算法进行实时解压,获得实际的语音波形数据;
(f)韵律调节:计算所选样本的声学参数和所规划的音节的声学参数之间的代价;
若该代价大于阈值,则将解压后得到的所述语音波形数据的音高、音长和/或音强调节到所需的目标值;若该代价小于阈值,则不进行调节;
(g)波形拼接:对调节后或未调节的波形数据进行拼接,得到语音合成结果。
CN2005100049112A 2005-01-28 2005-01-28 小音库语音合成方法 Active CN1811912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2005100049112A CN1811912B (zh) 2005-01-28 2005-01-28 小音库语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2005100049112A CN1811912B (zh) 2005-01-28 2005-01-28 小音库语音合成方法

Publications (2)

Publication Number Publication Date
CN1811912A CN1811912A (zh) 2006-08-02
CN1811912B true CN1811912B (zh) 2011-06-15

Family

ID=36844795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005100049112A Active CN1811912B (zh) 2005-01-28 2005-01-28 小音库语音合成方法

Country Status (1)

Country Link
CN (1) CN1811912B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000765B (zh) * 2007-01-09 2011-03-30 黑龙江大学 基于韵律特征的语音合成方法
CN104575487A (zh) * 2014-12-11 2015-04-29 百度在线网络技术(北京)有限公司 一种语音信号的处理方法及装置
CN107516509B (zh) * 2017-08-29 2021-12-28 苏州奇梦者网络科技有限公司 用于新闻播报语音合成的语音库构建方法及系统
CN109389968B (zh) * 2018-09-30 2023-08-18 平安科技(深圳)有限公司 基于双音节混搭的波形拼接方法、装置、设备及存储介质
CN109686361B (zh) * 2018-12-19 2022-04-01 达闼机器人有限公司 一种语音合成的方法、装置、计算设备及计算机存储介质
CN109785823B (zh) * 2019-01-22 2021-04-02 中财颐和科技发展(北京)有限公司 语音合成方法及系统
CN112735376A (zh) * 2020-12-29 2021-04-30 竹间智能科技(上海)有限公司 自学习平台

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1179587A (zh) * 1996-09-30 1998-04-22 微软公司 具有语音合成所使用的基本频率模板的韵律数据库
JP2975586B2 (ja) * 1998-03-04 1999-11-10 株式会社エイ・ティ・アール音声翻訳通信研究所 音声合成システム
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
US20010051872A1 (en) * 1997-09-16 2001-12-13 Takehiko Kagoshima Clustered patterns for text-to-speech synthesis
CN1372246A (zh) * 2001-01-05 2002-10-02 松下电器产业株式会社 与文本语音系统相配的韵律模板
WO2004012183A2 (en) * 2002-07-25 2004-02-05 Motorola Inc Concatenative text-to-speech conversion

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1179587A (zh) * 1996-09-30 1998-04-22 微软公司 具有语音合成所使用的基本频率模板的韵律数据库
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
US20010051872A1 (en) * 1997-09-16 2001-12-13 Takehiko Kagoshima Clustered patterns for text-to-speech synthesis
JP2975586B2 (ja) * 1998-03-04 1999-11-10 株式会社エイ・ティ・アール音声翻訳通信研究所 音声合成システム
CN1372246A (zh) * 2001-01-05 2002-10-02 松下电器产业株式会社 与文本语音系统相配的韵律模板
WO2004012183A2 (en) * 2002-07-25 2004-02-05 Motorola Inc Concatenative text-to-speech conversion

Also Published As

Publication number Publication date
CN1811912A (zh) 2006-08-02

Similar Documents

Publication Publication Date Title
US11443733B2 (en) Contextual text-to-speech processing
Mache et al. Review on text-to-speech synthesizer
Cosi et al. Festival speaks italian!
CN108899009A (zh) 一种基于音素的中文语音合成系统
CN1811912B (zh) 小音库语音合成方法
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
CN104217713A (zh) 汉藏双语语音合成方法及装置
WO2006104988A1 (en) Hybrid speech synthesizer, method and use
Anumanchipalli et al. Festvox: Tools for creation and analyses of large speech corpora
JP2024012423A (ja) 韻律的特徴からのパラメトリックボコーダパラメータの予測
CN101887719A (zh) 语音合成方法、系统及具有语音合成功能的移动终端设备
Al-Anzi et al. The impact of phonological rules on Arabic speech recognition
Levy et al. The effect of pitch, intensity and pause duration in punctuation detection
Kayte et al. A Marathi Hidden-Markov Model Based Speech Synthesis System
CN105895076B (zh) 一种语音合成方法及系统
CN111370001A (zh) 一种发音的纠正方法、智能终端及存储介质
Hamad et al. Arabic text-to-speech synthesizer
CN115359778A (zh) 基于说话人情感语音合成模型的对抗与元学习方法
Chen et al. A Mandarin Text-to-Speech System
Nair et al. Indian text to speech systems: A short survey
Ma et al. Russian speech recognition system design based on HMM
Gu et al. A system framework for integrated synthesis of Mandarin, Min-nan, and Hakka speech
Roux et al. Data-driven approach to rapid prototyping Xhosa speech synthesis
Li et al. Corpus design and annotation for speech synthesis and recognition
Nitisaroj et al. The Lessac Technologies system for Blizzard Challenge 2010

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP03 Change of name, title or address

Address after: 100193, No. two, building 10, Zhongguancun Software Park, 8 northeast Wang Xi Road, Beijing, Haidian District, 206-1

Patentee after: Beijing InfoQuick SinoVoice Speech Technology Corp.

Address before: 100085 Zhongguancun development building, 12 information road, Beijing, Haidian District, E101

Patentee before: Jietong Huasheng Speech Technology Co., Ltd.