CN102122505A - 一种提高语音合成系统表现力的建模方法 - Google Patents

一种提高语音合成系统表现力的建模方法 Download PDF

Info

Publication number
CN102122505A
CN102122505A CN2010100465195A CN201010046519A CN102122505A CN 102122505 A CN102122505 A CN 102122505A CN 2010100465195 A CN2010100465195 A CN 2010100465195A CN 201010046519 A CN201010046519 A CN 201010046519A CN 102122505 A CN102122505 A CN 102122505A
Authority
CN
China
Prior art keywords
sigma
duration
fundamental frequency
frequency spectrum
prime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010100465195A
Other languages
English (en)
Inventor
王程程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2010100465195A priority Critical patent/CN102122505A/zh
Publication of CN102122505A publication Critical patent/CN102122505A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公布了一种提高语音合成系统表现力的建模方法,本发明的特征是在Trainable TTs中引入了基频和频谱两个声学特征异步建模的概念,保证基频与频谱的音素边界相同的情况下进行独立的模型训练,最后通过参数生成算法各自生成出参数然后进行语音合成,实现了合成语音在音质的表现力方面的提升。

Description

一种提高语音合成系统表现力的建模方法
技术领域
本发明涉及语音合成领域,具体是提出一种对语音合成中基频和频谱两个声学特征异步建模的方法,达到提高合成语音的音质,使其韵律更加丰富的目的。
背景技术
语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中,早期的研究主要是采用参数合成方法,后来随着计算机技术的发展又出现了波形拼接的合成方法。
在语音合成技术的发展中,早期的研究主要是采用参数合成方法。值得提及的是Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980),只要精心调整参数,这两个合成器都能合成出非常自然的语音。最具代表性的文语转换系统当数美国DEC公司的DECtalk(1987)。但是经过多年的研究与实践表明,由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换系统的实用要求。基于隐马尔可夫模型(HMM-based TrainableTTS)方法就是将HMM用于语音信号的建模和预测的参数合成方法,它能够实现稳定平滑的语音合成,但是由于参数模型是预测的,所以他合成出来的语音的音质存在一定缺陷。
在基于HMM的参数语音合成中,需要对频谱参数和基频参数同时进行建模和预测。传统方法是使用一个多流的HMM来对这两种参数进行同步建模,即:频谱参数和基频参数共享同样的一个状态序列;在状态序列给定的情况下,基频特征和频谱特征是独立的。也就是说,传统的Trainable TTS系统是同步和独立的。这样的同步假设是否会带来一些问题?我们知道,基频和频谱产生的生理机理是不同的,基频是说话时声带振动,产生基音的频率。而频谱反映了声道的形状。不同的发音器官器官决定了基频和频谱本应该是有异步性的。如果假设为同步会带来什么影响呢?我们知道,传统方法在HMM训练时,通过训练数据调整模型参数,包括状态转移和输出的概率分布,使模型创建的输出序列具有最大的概率,而状态占有率的计算是基频参数和谱参数结合在一起进行的:
rt(i)=P(qt=Si|O1,O2,λ)其中,rt(i)为t时刻是状态Si的概率,O1,O2分别为频谱和基频参数的观测值,λ为HMM模型。
由于谱参数(O1)的维数(一般123维)大大于基频参数(O2)的维数(一般3维),所以谱参数基本决定了状态占有率,对模型状态的分布及参数的更新起导向性作用。这样一起进行建模势必会影响到维数较小的基频模型的准确性。所以,我们提出基频与频谱异步独立建模的思想,使基频解除频谱的这种束缚,独立的根据训练数据的基频参数统计建模。
基于上面的分析,为了达到合成语音在音质的表现力方面的提升,提出基频与频谱异步独立建模的思想,从而提高了语音合成的系统的总体水平。
发明内容
本发明提供了一种提高语音合成系统表现力的建模方法,本发明的特征是在Trainable TTS中引入了基频和频谱两个声学特征异步建模的概念,保证基频与频谱的音素边界相同的情况下进行独立的模型训练,最后通过参数生成算法各自生成出参数然后进行语音合成,实现了合成语音在音质的表现力方面的提升。
本发明的技术方案如下:
(1)、模型训练:在保证基频与频谱的音素边界与原来基线系统相同的情况下,通过各自的异步建模观察对基频模型和基频参数预测的表现。实际上,这是一种半异步的做法,之所以没有完全异步,我们是考虑到以下问题:如果基频与频谱在没有相同音素边界的限定的情况下建模,基频的音素边界会因为一些以清音(unvioced)为起止的音而划分不准;在合成时,我们也会因为基频和频谱完全异步而存在很大的对齐问题。具体步骤如下:
I.训练开始,最初步骤与原来同步建模系统相同,直到训练出初始的聚类隐马尔可夫模型(HMMs)。
II.用Baum-Welch参数更新算法深入训练后的同步模型来确定音素的边界,作为后面基频和频谱异步建模的公共的一致性的边界。
III.确定音素边界后,对基频和频谱分别进行深入训练,即在音素边界固定的情况下,对于基频频谱分别进行Baum-Welch参数更新算法进行更新。分别得到基频和频谱的新的聚类HMMs。
IV.得到基频和频谱的各自音素内部的状态划分,训练音素时长,频谱状态时长,基频状态时长模型。
(2)、参数生成:基频和频谱参数生成就是在给定HMM集合λ的前提下,对目标矢量参数O1,O2(这里为频谱和基频参数)进行预测,相当于最大化P(O1,O2|λ),而此式可写作:
Figure G2010100465195D00021
Figure G2010100465195D00022
在传统同步建模中,状态序列q1=q2=q;而在异步建模中,q1≠q2。所以,在异步系统中,参数生成可近似的分为以下两步最大化操作:
Figure G2010100465195D00023
Figure G2010100465195D00024
接下来使用一阶,二阶动态参数的参数生成算法与原基线系统一致。
参数生成时的时长预测问题,涉及到音素时长,频谱和基频的状态时长的加权。对目标参数di,di′的预测,相当于最大化下面的似然值:
似然值:
Figure G2010100465195D00025
约束条件: Σ i d i = d
Σ i d i ′ = d
其中:似然值F式子的第一部分是频谱状态时长的似然值,第二部分是基频状态时长的似然值,第三部分为音素时长的似然值,三部分通过w1和w2这两个权值加权到一起,目的是在F式最大的情况下生成时长参数。di为预测的频谱时长,di′为预测的基频时长,d为预测的音素时长。 P i = N ( d i | m i , σ i 2 ) 为频谱时长的模型分布, P i ′ = N ( d i ′ | m i ′ , σ i ′ 2 ) 为基频时长的模型分布,P=N(d|m,σ2)为音素时长的模型分布。
由拉格朗日:
Figure G2010100465195D000210
解上面这个方程,得到最终预测的时长:
d i * = m i + ρ 1 · σ i 2 d i ′ * = m i ′ + ρ 2 · σ i ′ 2
其中: ρ 1 = d - Σ i m i Σ i σ i 2 ρ 2 = w 1 ( d - Σ i m i ′ ) Σ i σ i ′ 2
w1和w2值选取不同,得到的效果也就各不相同。
经过了上面的流程之后,频谱,基频,时长等参数得以生成,进而最后的语音合成得以实现。
发明的效果:
本发明的方法嵌套在Trainable TTS系统中,在其中添加了相关处理模块,具有可扩展性;
客观误差的降低:经过了这种方法的改进后,其基频方面的客观误差明显降低,基频曲线更加接近原始分析的参数。
主观音质的提高:经过了这种方法的改进后,合成语音的音质有了明显的提高,韵律更加丰富,音色更加像自然发音人。
术语解释
语音合成:语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。
可训练语音合成(Trainable TTS):就是可自动训练的语音合成,其基本原理就是基于一套自动化的流程,根据输入的语音数据进行训练,最后形成一个相应的语音合成系统。
隐马尔可夫模型(Hidden Markov Model,HMM):隐马尔可夫模型作为一种统计分析模型,创立于20世纪70年代。80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有响应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。自20世纪80年代以来,HMM被应用于语音识别,取得重大成功。到了90年代,HMM还被引入计算机文字识别和移动通信核心技术“多用户的检测”。近年来,HMM在生物信息科学、故障诊断等领域也开始得到应用。
附图说明
附图:一种提高语音合成系统表现力的基频频谱异步建模方法的流程图
具体实施方式
(1)、模型训练:在保证基频与频谱的音素边界与原来基线系统相同的情况下,通过各自的异步建模观察对基频模型和基频参数预测的表现。实际上,这是一种半异步的做法,之所以没有完全异步,我们是考虑到以下问题:如果基频与频谱在没有相同音素边界的限定的情况下建模,基频的音素边界会因为一些以清音(unvioced)为起止的音而划分不准;在合成时,我们也会因为基频和频谱完全异步而存在很大的对齐问题。具体步骤如下:
I.训练开始,最初步骤与原来同步建模系统相同,直到训练出初始的聚类隐马尔可夫模型(HMMs)。
II.用Baum-Welch参数更新算法深入训练后的同步模型来确定音素的边界,作为后面基频和频谱异步建模的公共的一致性的边界。
III.确定音素边界后,对基频和频谱分别进行深入训练,即在音素边界固定的情况下,对于基频频谱分别进行Baum-Welch参数更新算法进行更新。分别得到基频和频谱的新的聚类HMMs。
IV.得到基频和频谱的各自音素内部的状态划分,训练音素时长,频谱状态时长,基频状态时长模型。
(2)、参数生成:基频和频谱参数生成就是在给定HMM集合λ的前提下,对目标矢量参数O1,O2(这里为频谱和基频参数)进行预测,相当于最大化P(O1,O2|λ),而此式可写作:
Figure G2010100465195D00041
Figure G2010100465195D00042
在传统同步建模中,状态序列q1=q2=q;而在异步建模中,q1≠q2。所以,在异步系统中,参数生成可近似的分为以下两步最大化操作:
Figure G2010100465195D00043
Figure G2010100465195D00044
接下来使用一阶,二阶动态参数的参数生成算法与原基线系统一致。
参数生成时的时长预测问题,涉及到音素时长,频谱和基频的状态时长的加权。对目标参数di,di′的预测,相当于最大化下面的似然值:
似然值:
Figure G2010100465195D00045
约束条件: Σ i d i = d
Σ i d i ′ = d
其中:似然值F式子的第一部分是频谱状态时长的似然值,第二部分是基频状态时长的似然值,第三部分为音素时长的似然值,三部分通过w1和w2这两个权值加权到一起,目的是在F式最大的情况下生成时长参数。di为预测的频谱时长,di′为预测的基频时长,d为预测的音素时长。 P i = N ( d i | m i , σ i 2 ) 为频谱时长的模型分布, P i ′ = N ( d i ′ | m i ′ , σ i ′ 2 ) 为基频时长的模型分布,P=N(d|m,σ2)为音素时长的模型分布。
由拉格朗日:
Figure G2010100465195D000410
解上面这个方程,得到最终预测的时长:
d i * = m i + ρ 1 · σ i 2 d i ′ * = m i ′ + ρ 2 · σ i ′ 2
其中: ρ 1 = d - Σ i m i Σ i σ i 2 ρ 2 = w 1 ( d - Σ i m i ′ ) Σ i σ i ′ 2
w1和w2值选取不同,得到的效果也就各不相同。
经过了上面的流程之后,频谱,基频,时长等参数得以生成,进而最后的语音合成得以实现。

Claims (1)

1.一种提高语音合成系统表现力的建模方法,即基频和频谱两个声学特征异步建模的方法,其特征是具体的实现方式如下:
(1)、模型训练:在保证基频与频谱的音素边界与原来基线系统相同的情况下,通过各自的异步建模观察对基频模型和基频参数预测的表现。实际上,这是一种半异步的做法,之所以没有完全异步,我们是考虑到以下问题:如果基频与频谱在没有相同音素边界的限定的情况下建模,基频的音素边界会因为一些以清音(unvioced)为起止的音而划分不准;在合成时,我们也会因为基频和频谱完全异步而存在很大的对齐问题。具体步骤如下:
I.训练开始,最初步骤与原来同步建模系统相同,直到训练出初始的聚类隐马尔可夫模型(HMMs)。
II.用Baum-Welch参数更新算法深入训I练后的同步模型来确定音素的边界,作为后面基频和频谱异步建模的公共的一致性的边界。
III.确定音素边界后,对基频和频谱分别进行深入训练,即在音素边界固定的情况下,对于基频频谱分别进行Baum-Welch参数更新算法进行更新。分别得到基频和频谱的新的聚类HMMs。
IV.得到基频和频谱的各自音素内部的状态划分,训练音素时长,频谱状态时长,基频状态时长模型。
(2)、参数生成:基频和频谱参数生成就是在给定HMM集合λ的前提下,对目标矢量参数O1,O2(这里为频谱和基频参数)进行预测,相当于最大化P(O1,O2|λ),而此式可写作:
P ( O 1 , O 2 | λ ) = Σ q 1 , q 2 P ( O 1 , O 2 | λ , q 1 , q 2 ) P ( q 1 , q 2 | λ )
= Σ q 1 , q 2 P ( O 1 | λ , q 1 ) P ( O 2 | λ , q 2 ) P ( q 1 , q 2 | λ )
在传统同步建模中,状态序列q1=q2=q;而在异步建模中,q1≠q2。所以,在异步系统中,参数生成可近似的分为以下两步最大化操作:
[ q 1 * , q 2 * ] = arg max q 1 , q 2 P ( q 1 | λ ) P ( q 2 | λ )
[ O 1 * , O 2 * ] = arg max O 1 , O 2 P ( O 1 | λ , q 1 * ) P ( O 2 | λ , q 2 * )
接下来使用一阶,二阶动态参数的参数生成算法与原基线系统一致。
参数生成时的时长预测问题,涉及到音素时长,频谱和基频的状态时长的加权。对目标参数di,di′的预测,相当于最大化下面的似然值:
似然值: F = Σ i log P ( d i | λ i ) + w 1 Σ i log P ( d i ′ | λ i ′ ) + w 2 Σ i log P ( d | λ )
约束条件: Σ i d i = d
Σ i d i ′ = d
其中:似然值F式子的第一部分是频谱状态时长的似然值,第二部分是基频状态时长的似然值,第三部分为音素时长的似然值,三部分通过w1和w2这两个权值加权到一起,目的是在F式最大的情况下生成时长参数。di为预测的频谱时长,di′为预测的基频时长,d为预测的音素时长。 P i = N ( d i | m i , σ i 2 ) 为频谱时长的模型分布, P i ′ = N ( d i ′ | m i ′ , σ i ′ 2 ) 为基频时长的模型分布,P=N(d|m,σ2)为音素时长的模型分布。
由拉格朗日:
F = - 1 2 Σ i ( d i - m i ) 2 σ i 2 - w 1 2 Σ i ( d i ′ - m i ′ ) 2 σ i ′ 2 - w 2 2 Σ i ( d - m ) 2 σ 2 + λ 1 ( Σ i d i - d ) + λ 2 ( Σ i d i ′ - d )
解上面这个方程,得到最终预测的时长:
d i * = m i + ρ i · σ i 2 d i ′ * = m i ′ + ρ 2 · σ i ′ 2
其中: ρ 1 = d - Σ i m i Σ i σ i 2 ρ 2 = w 1 ( d - Σ i m i ′ ) Σ i σ i ′ 2
w1和w2值选取不同,得到的效果也就各不相同。
经过了上面的流程之后,频谱,基频,时长等参数得以生成,进而最后的语音合成得以实现。
CN2010100465195A 2010-01-08 2010-01-08 一种提高语音合成系统表现力的建模方法 Pending CN102122505A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010100465195A CN102122505A (zh) 2010-01-08 2010-01-08 一种提高语音合成系统表现力的建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010100465195A CN102122505A (zh) 2010-01-08 2010-01-08 一种提高语音合成系统表现力的建模方法

Publications (1)

Publication Number Publication Date
CN102122505A true CN102122505A (zh) 2011-07-13

Family

ID=44251047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010100465195A Pending CN102122505A (zh) 2010-01-08 2010-01-08 一种提高语音合成系统表现力的建模方法

Country Status (1)

Country Link
CN (1) CN102122505A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107924677A (zh) * 2015-06-11 2018-04-17 交互智能集团有限公司 用于异常值识别以移除语音合成中的不良对准的系统和方法
CN108806665A (zh) * 2018-09-12 2018-11-13 百度在线网络技术(北京)有限公司 语音合成方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107924677A (zh) * 2015-06-11 2018-04-17 交互智能集团有限公司 用于异常值识别以移除语音合成中的不良对准的系统和方法
CN107924677B (zh) * 2015-06-11 2022-01-25 交互智能集团有限公司 用于异常值识别以移除语音合成中的不良对准的系统和方法
CN108806665A (zh) * 2018-09-12 2018-11-13 百度在线网络技术(北京)有限公司 语音合成方法和装置

Similar Documents

Publication Publication Date Title
Yamagishi et al. Thousands of voices for HMM-based speech synthesis–Analysis and application of TTS systems built on various ASR corpora
CN101178896B (zh) 基于声学统计模型的单元挑选语音合成方法
Ling et al. Integrating articulatory features into HMM-based parametric speech synthesis
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
CN104217713A (zh) 汉藏双语语音合成方法及装置
CN103165126A (zh) 一种手机文本短信的语音播放的方法
CN110364140A (zh) 歌声合成模型的训练方法、装置、计算机设备以及存储介质
CN106057192A (zh) 一种实时语音转换方法和装置
KR20170107683A (ko) 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법
US9129596B2 (en) Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality
Bettayeb et al. Speech synthesis system for the holy quran recitation.
TW201411602A (zh) 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組
Gao et al. Articulatory copy synthesis using long-short term memory networks
CN102122505A (zh) 一种提高语音合成系统表现力的建模方法
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
Sun et al. A method for generation of Mandarin F0 contours based on tone nucleus model and superpositional model
Petrushin et al. Whispered speech prosody modeling for TTS synthesis
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
Li et al. A lyrics to singing voice synthesis system with variable timbre
Ninh A speaker-adaptive hmm-based vietnamese text-to-speech system
JP2011141470A (ja) 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム
Pitrelli et al. Expressive speech synthesis using American English ToBI: questions and contrastive emphasis
Waghmare et al. Analysis of pitch and duration in speech synthesis using PSOLA

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
DD01 Delivery of document by public notice

Addressee: Wang Chengcheng

Document name: Notification of Publication of the Application for Invention

DD01 Delivery of document by public notice

Addressee: Wang Chengcheng

Document name: Notification of before Expiration of Request of Examination as to Substance

DD01 Delivery of document by public notice

Addressee: Wang Chengcheng

Document name: Notification that Application Deemed to be Withdrawn

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110713