CN103226946B - 一种基于受限玻尔兹曼机的语音合成方法 - Google Patents

一种基于受限玻尔兹曼机的语音合成方法 Download PDF

Info

Publication number
CN103226946B
CN103226946B CN201310099895.4A CN201310099895A CN103226946B CN 103226946 B CN103226946 B CN 103226946B CN 201310099895 A CN201310099895 A CN 201310099895A CN 103226946 B CN103226946 B CN 103226946B
Authority
CN
China
Prior art keywords
hmm
state
spectrum
feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310099895.4A
Other languages
English (en)
Other versions
CN103226946A (zh
Inventor
凌震华
陈凌辉
戴礼荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201310099895.4A priority Critical patent/CN103226946B/zh
Publication of CN103226946A publication Critical patent/CN103226946A/zh
Application granted granted Critical
Publication of CN103226946B publication Critical patent/CN103226946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于受限玻尔兹曼机的语音合成方法。使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模;利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分;利用切分得到的各状态起止时间,对提取的训练数据库中的原始频谱包络特征进行切分,收集得到上下文相关HMM模型中各状态对应的频谱包络数据;利用Gaussian-HMM模型进行基频特征的预测,并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器,生成最终的合成语音。该方法能够提高基于HMM的参数语音合成方法中的频谱特征建模精度,从而改善合成语音的音质与自然度。

Description

一种基于受限玻尔兹曼机的语音合成方法
技术领域
本发明涉及信号处理技术领域,尤其涉及一种基于受限玻尔兹曼机的语音合成方法。
背景技术
目前,语音合成实现文字到语音的转换,是智能人机交互的核心技术之一。基于隐马尔科夫模型(Hidden Markov Model,HMM)的参数语音合成是现阶段一种主流的语音合成方法。该方法在训练时首先提取训练语音数据库中的频谱、基频等声学特征,然后使用统一的HMM框架对声学特征进行建模;在合成时,首先利用训练得到的统计模型基于最大输出概率准则进行各种声学特征的预测,再将预测的声学特征送入参数合成器重构合成语音。该方法可以合成高可懂度与流畅度的语音。但是合成语音的音质往往不够理想,造成整体自然度欠佳。
上述传统基于HMM参数语音合成方法在频谱建模上的不足,是造成合成语音音质不理想的重要原因。具体来说,由于在传统频谱建模中使用的频谱特征往往是一些高层的频谱特征,例如梅尔倒谱(Mel Cepstra)、线谱对(Line Spectral Pairs)等,这些特征都是对原始语音频谱的一种模型化或者近似化表征,在特征提取的过程中已经造成了频谱细节信息的丢失;同时,由于传统频谱建模方法通常使用单高斯分布来描述HMM中每个状态的频谱特征输出概率,在合成阶段基于最大输出概率准则进行频谱特征的预测,由于单高斯分布的均值具有最大的输出概率,因此参数生成结果很接近于模型的均值,而该均值是在训练阶段基于最大似然准则通过对训练样本的平均化来估计得到的,这样造成了预测的频谱特征往往过于平滑,从而影响了最终合成语音的音质。
发明内容
本发明的目的是提供一种基于受限玻尔兹曼机的语音合成方法,该方法能够提高基于HMM的参数语音合成方法中的频谱特征建模精度,从而改善合成语音的音质与自然度。
本发明的目的是通过以下技术方案实现的,一种基于受限玻尔兹曼机的语音合成方法,所述方法包括:
在模型训练阶段,使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模;
利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息,依据基于隐马尔科夫模型HMM的参数语音合成方法,进行上下文相关单高斯的HMM训练;
在单高斯的HMM训练完成后,利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分,得到每个状态对应的起止时间;
利用切分得到的各状态起止时间,对提取的训练数据库中的原始频谱包络特征进行切分,收集得到上下文相关HMM模型中各状态对应的频谱包络数据,并使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况;
在语音合成阶段,通过高斯近似进行HMM各状态输出概率的重估,再利用最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测;
利用Gaussian-HMM模型进行基频特征的预测,并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器,生成最终的合成语音。
所述通过高斯近似进行HMM各状态输出概率的重估,具体包括:
使用单高斯分布N(v;μ,Σ)来拟合逼近受限波尔兹曼机RBM所描述的概率密度函
数,其中高斯均值向量μ为:
μ = arg max log v P ( v )
高斯协方差矩阵Σ为对角阵,通过统计训练样本的协方差得到;P(v)为RBM所描述的概率密度函数。
所述使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况,具体包括:使用受限玻尔兹曼机取代单高斯分布用于表征频谱特征的HMM状态输出概率。
所述利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息,依据基于隐马尔科夫模型HMM的参数语音合成方法,进行上下文相关单高斯的HMM训练,具体包括:
采用协方差矩阵为对角阵的单高斯分布来描述每个HMM状态的高层频谱特征输出概率;
采用多空间概率分布MSD来描述每个HMM状态的基频特征输出概率;
采用基于决策树的模型聚类方法实现对于不同上下文相关模型参数的绑定训练。
由上述本发明提供的技术方案可以看出,在模型训练阶段,使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模;利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息,依据基于隐马尔科夫模型HMM的参数语音合成方法,进行上下文相关单高斯的HMM训练;在单高斯的HMM训练完成后,利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分,得到每个状态对应的起止时间;利用切分得到的各状态起止时间,对提取的训练数据库中的原始频谱包络特征进行切分,收集得到上下文相关HMM模型中各状态对应的频谱包络数据,并使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况;在语音合成阶段,通过高斯近似进行HMM各状态输出概率的重估,再利用最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测;利用Gaussian-HMM模型进行基频特征的预测,并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器,生成最终的合成语音。该方法能够提高基于HMM的参数语音合成方法中的频谱特征建模精度,从而改善合成语音的音质与自然度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于受限玻尔兹曼机的语音合成方法流程示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
下面将结合附图对本发明实施例作进一步地详细描述,如图1所示为本发明实施例提供的基于受限玻尔兹曼机的语音合成方法流程示意图,所述方法包括:
步骤11:在模型训练阶段,使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模。
在该步骤中,在模型训练阶段,可以使用自适应加权谱内插STRAIGHT合成器进行训练语音数据库的声学特征提取。具体来说,在提取每帧语音对应的基频与高层频谱特征(这里使用线谱对特征)的同时,进一步提取STRAIGHT分析得到的每帧语音的原始频谱包络,用于后续的频谱建模。
步骤12:利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息,依据传统基于隐马尔科夫模型HMM的参数语音合成方法,进行上下文相关单高斯HMM训练。
在该步骤中,首先在提取的声学特征中加入动态参数。
举例来说:假设为用于模型训练的声学特征序列,其中(·)T表示矩阵转置,N为序列帧数。其中第t帧的声学特征向量ot∈R3D包括提取的静态声学特征ct∈RD及其一阶与二阶差分,具体如下:
o t = [ c t T , Δc t T , Δ 2 c t T ] T - - - ( 1 )
其中,D为特征提取阶段得到的静态声学特征维数,动态参数的计算方法如下:
Δc t = 0.5 c t + 1 - 0.5 c t - 1 ∀ t ∈ [ 2 , N - 1 ] - - - ( 2 )
Δc1=Δc2,ΔcN=ΔcN-1                (3)
Δ 2 c t = c t + 1 - 2 c t + c t - 1 ∀ t ∈ [ 2 , N - 1 ] - - - ( 4 )
Δ2c12cz2cN2cN-1                (5)
然后,基于最大似然准则进行上下文相关HMM模型参数的估计。
这里的HMM采用自左至右无跳转的模型结构;使用协方差矩阵为对角阵的单高斯分布来描述每个HMM状态的高层频谱特征输出概率;使用多空间概率分布(Multi-Spaceprobability Distribution,MSD)来描述每个HMM状态的基频特征输出概率;为了解决上下文相关模型训练造成的数据稀疏问题,我们采用基于决策树的模型聚类方法实现对于不同上下文相关模型参数的绑定训练。
步骤13:在单高斯HMM训练完成后,利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分,得到每个状态对应的起止时间。
步骤14:利用切分得到的各状态起止时间,对提取的训练数据库中的原始频谱包络特征进行切分。
在该步骤中,进一步采用步骤13收集得到的各状态起止时间对提取的训练数据库中的原始频谱包络特征进行切分,收集得到上下文相关HMM模型中各状态对应的频谱包络数据,并使用受限波尔兹曼机(RBM)来描述各状态对应的频谱包络的分布情况。这里,使用受限波尔兹曼机(RBM)来描述各状态对应的频谱包络的分布情况,具体为使用受限玻尔兹曼机取代单高斯分布用于表征频谱特征的HMM状态输出概率。
举例来说,在收集每帧频谱包络向量时,参考上述式(2)-(5)加入其一阶二阶差分参数,然后,使用受限波尔兹曼机(RBM)来描述各状态对应的频谱包络特征的分布情况。
这里,受限波尔兹曼机RBM是一种用于描述一组随机变量间相互依赖关系的具有双层结构的无向图模型,其中对应可见随机变量v=[v1,...,vV]T的节点与对应隐含随机变量h=[h1,...,hH]T的节点互相连接,V和H分别为可见随机变量节点与隐含随机变量节点的维数。在本实施例中,使用RBM来描述每个HMM状态中的频谱包络特征分布概率,即可见随机变量v对应一帧数据的频谱包络向量。
采用Gaussian-Bernoulli形式的RBM,即可见随机变量为连续实数而隐含随机变量为{0,1}二值。这时,状态{v,h}对应的能量函数定义为
E ( v , h ) = Σ i = 1 V ( v i - a i ) 2 2 - Σ j = 1 H b j h j - Σ i = 1 V Σ j = 1 H w ij v i h j - - - ( 6 )
其中a=(a1,...,aV]T,b=[b1,...,bH]T,w={wij}V×H为需要估计的RBM模型参数。可见随机变量v的概率密度函数可以表示为
其中
利用收集得到的每个状态对应的频谱包络特征训练数据,依据最大似然准则,采用Contrastive Divergence(CD)算法进行模型参数{a,b,w}的估计。
步骤15:在语音合成阶段,通过高斯近似进行HMM各状态输出概率的重估,再利用最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测。
在该步骤中,在语音合成阶段,由于采用了式(7)所示的RBM取代单高斯用以表征各状态频谱特征的输出概率,所以传统的最大输出概率参数生成算法不再有闭合解。为了提高合成端的参数生成效率,本实施例采用了高斯近似的方法,即使用单高斯分布N(v;μ,Σ)来拟合逼近式(7)所示的RBM概率密度函数。其中高斯均值向量
μ = arg max log v P ( v ) - - - ( 9 )
高斯协方差矩阵Σ为对角阵,通过统计训练样本的协方差得到。
采用梯度下降算法来求解式(9),即
v ( i + 1 ) = v ( i ) + α · ∂ log P ( v ) ∂ v | v = v ( i ) - - - ( 10 )
其中i为迭代步数,α为迭代步长,梯度偏导
由公式(9-11)可见,通过RBM的高斯近似得到的高斯分布均值不再是样本均值,从而起到了改善合成语音过平滑问题的目的。
步骤16:利用Gaussian-HMM模型进行基频特征的预测,并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器,生成最终的合成语音。
在该步骤中,Gaussian-HMM表示使用单高斯作为状态输出概率表征的HMM模型;RBM-HMM表示使用受限玻尔兹曼机作为状态输出概率表征的HMM模型。
在上述步骤15中RBM-HMM的高斯近似完成后,可以在合成阶段利用传统的最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测。该算法考虑了一阶与二阶差分参数的约束作用,从而可以保证生成的频谱特征的平滑性。
进一步的,本实施例利用Gaussian-HMM模型进行基频特征的预测,并将预测的频谱包络特征与基频特征送入STRAIGHT合成器,生成最终的合成语音。
综上所述,本发明实施例所述基于受限玻尔兹曼机的语音合成方法,能够提高基于HMM的参数语音合成方法中的频谱特征建模精度,从而改善合成语音的音质与自然度。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (4)

1.一种基于受限玻尔兹曼机的语音合成方法,其特征在于,所述方法包括:
在模型训练阶段,使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模;
利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息,依据基于隐马尔科夫模型HMM的参数语音合成方法,进行上下文相关单高斯的HMM训练;
在单高斯的HMM训练完成后,利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分,得到每个状态对应的起止时间;
利用切分得到的各状态起止时间,对提取的训练数据库中的原始频谱包络特征进行切分,收集得到上下文相关HMM模型中各状态对应的频谱包络数据,并使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况;
在语音合成阶段,通过高斯近似进行HMM各状态输出概率的重估,再利用最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测;
利用Gaussian-HMM模型进行基频特征的预测,并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器,生成最终的合成语音。
2.根据权利要求1所述基于受限玻尔兹曼机的语音合成方法,其特征在于,所述通过高斯近似进行HMM各状态输出概率的重估,具体包括:
使用单高斯分布N(v;μ,Σ)来拟合逼近受限波尔兹曼机RBM所描述的概率密度函数,其中高斯均值向量μ为:
μ = arg max v log P ( v )
高斯协方差矩阵Σ为对角阵,通过统计训练样本的协方差得到;P(v)为RBM所描述的概率密度函数,其中v为可见随机变量。
3.根据权利要求1所述基于受限玻尔兹曼机的语音合成方法,其特征在于,所述使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况,具体包括:
使用受限玻尔兹曼机取代单高斯分布用于表征频谱特征的HMM状态输出概率。
4.根据权利要求1所述基于受限玻尔兹曼机的语音合成方法,其特征在于,所述利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息,依据基于隐马尔科夫模型HMM的参数语音合成方法,进行上下文相关单高斯的HMM训练,具体包括:
采用协方差矩阵为对角阵的单高斯分布来描述每个HMM状态的高层频谱特征输出概率;
采用多空间概率分布MSD来描述每个HMM状态的基频特征输出概率;
采用基于决策树的模型聚类方法实现对于不同上下文相关模型参数的绑定训练。
CN201310099895.4A 2013-03-26 2013-03-26 一种基于受限玻尔兹曼机的语音合成方法 Active CN103226946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310099895.4A CN103226946B (zh) 2013-03-26 2013-03-26 一种基于受限玻尔兹曼机的语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310099895.4A CN103226946B (zh) 2013-03-26 2013-03-26 一种基于受限玻尔兹曼机的语音合成方法

Publications (2)

Publication Number Publication Date
CN103226946A CN103226946A (zh) 2013-07-31
CN103226946B true CN103226946B (zh) 2015-06-17

Family

ID=48837369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310099895.4A Active CN103226946B (zh) 2013-03-26 2013-03-26 一种基于受限玻尔兹曼机的语音合成方法

Country Status (1)

Country Link
CN (1) CN103226946B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413548B (zh) * 2013-08-16 2016-02-03 中国科学技术大学 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法
CN103632663B (zh) * 2013-11-25 2016-08-17 内蒙古大学 一种基于hmm的蒙古语语音合成前端处理的方法
CN105023570B (zh) * 2014-04-30 2018-11-27 科大讯飞股份有限公司 一种实现声音转换的方法及系统
KR20160058470A (ko) * 2014-11-17 2016-05-25 삼성전자주식회사 음성 합성 장치 및 그 제어 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4816144B2 (ja) * 2006-03-02 2011-11-16 カシオ計算機株式会社 音声合成装置、音声合成方法、及び、プログラム
JP5326546B2 (ja) * 2008-12-19 2013-10-30 カシオ計算機株式会社 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm
CN101710488B (zh) * 2009-11-20 2011-08-03 安徽科大讯飞信息科技股份有限公司 语音合成方法及装置
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统

Also Published As

Publication number Publication date
CN103226946A (zh) 2013-07-31

Similar Documents

Publication Publication Date Title
CN109326283B (zh) 非平行文本条件下基于文本编码器的多对多语音转换方法
CN101710488B (zh) 语音合成方法及装置
Chavan et al. An overview of speech recognition using HMM
CN103065620B (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN102306492B (zh) 基于卷积非负矩阵分解的语音转换方法
CN1835075B (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
WO2010119534A1 (ja) 音声合成装置、方法およびプログラム
CN105654939A (zh) 一种基于音向量文本特征的语音合成方法
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
CN103226946B (zh) 一种基于受限玻尔兹曼机的语音合成方法
CN105206257A (zh) 一种声音转换方法及装置
CN105654942A (zh) 一种基于统计参数的疑问句、感叹句的语音合成方法
Yin et al. Modeling F0 trajectories in hierarchically structured deep neural networks
CN103413548B (zh) 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法
CA3195582A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
Gao et al. Mixed-bandwidth cross-channel speech recognition via joint optimization of DNN-based bandwidth expansion and acoustic modeling
Stanek et al. Algorithms for vowel recognition in fluent speech based on formant positions
AU2015411306A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
Liu et al. Using bidirectional associative memories for joint spectral envelope modeling in voice conversion
WO2020175530A1 (ja) データ変換学習装置、データ変換装置、方法、及びプログラム
CN101178895A (zh) 基于生成参数听感误差最小化的模型自适应方法
Toda et al. Statistical approach to vocal tract transfer function estimation based on factor analyzed trajectory HMM
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant