CN1815553A - 基于生成参数听感误差最小化的声学模型训练方法 - Google Patents

基于生成参数听感误差最小化的声学模型训练方法 Download PDF

Info

Publication number
CN1815553A
CN1815553A CNA2006100385902A CN200610038590A CN1815553A CN 1815553 A CN1815553 A CN 1815553A CN A2006100385902 A CNA2006100385902 A CN A2006100385902A CN 200610038590 A CN200610038590 A CN 200610038590A CN 1815553 A CN1815553 A CN 1815553A
Authority
CN
China
Prior art keywords
acoustic
parameter
lsf
parameters
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006100385902A
Other languages
English (en)
Inventor
凌震华
吴义坚
王仁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV
Original Assignee
ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV filed Critical ZHONGKEDA XUNFEI INFORMATION SCIENCE & TECHNOLOGY Co Ltd ANHUI PROV
Priority to CNA2006100385902A priority Critical patent/CN1815553A/zh
Publication of CN1815553A publication Critical patent/CN1815553A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种用于语音合成的基于生成参数听感误差最小化的声学模型训练方法,包括结合听感实验确定合理的声学参数听感距离计算方式;依据声学模型生成训练数据文本对应的声学参数,并计算其相对于训练数据声学参数的听感距离;基于听感误差最小化对模型参数进行逐次的迭代调整;最终达到提高合成语音音质与自然度的目的。

Description

基于生成参数听感误差最小化的声学模型训练方法
技术领域
本发明涉及语音合成方法,具体是在对声学参数利用统计概率模型进行建模的训练过程中,将最小化训练数据对应生成参数的听感误差作为模型参数估计的准则,以满足语音合成对于声学模型的实际要求,提高模型的合理性和合成语音的效果。
背景技术
现有的语音合成技术主要有基于波形拼接的语音合成方法和基于参数合成的语音合成方法两大类。前者通过利用包含自然声学样本的语音音库和在合成时进行单元选择的方法可以取得较高的合成语音的音质与自然度。但是由于语音音库的使用,往往在存储量上有比较大的消耗,难以实现在嵌入式平台等资源受限领域的使用。
另一种基于参数合成的语音合成方法首先对训练使用的语音数据进行参数化分析,然后对分析得到的声学参数利用统计方法进行建模,在合成时利用声学模型进行参数的生成与预测,最终通过参数合成器还原语音信号。这种方法同样可以实现较为自然流畅的合成语音输出,并且由于在合成时不需要庞大的语音音库,因此对于存储量的需求较小,在资源受限平台上的使用有明显优势。
统计模型(如隐马尔可夫模型等)在语音中的应用最早开始于语音识别领域,通常使用最大似然准测或者最小分类误差准则等来实现对于模型参数的估计,而最初这些准则的引入往往为了满足语音识别的目标,保证模型在似然度或者区分度上的优势,这和语音合成的要求并不相同。在语音合成中更希望的是,在利用训练得到的模型进行合成时,能够生成和自然语音最为接近的声学参数,以保证合成语音的自然度与音质。
因此,我们针对语音合成的需求,提出了以最小化训练数据对应生成参数的听感误差作为准则的声学模型参数训练方法,以提高语音合成系统的整体效果。
发明内容
本发明的目的就是为了提供一种用于语音合成的基于生成参数听感误差最小化的声学模型训练方法,以达到提高合成语音效果的目的。
本发明的技术方案如下:
基于生成参数听感误差最小化的声学模型训练方法,其特征在于利用声学模型由原始训练数据的文本信息生成合成语音时使用的声学参数;对于不同的语音声学参数,通过听感试验确定其变化对于人耳听感影响的强弱,并最终综合出对于任意两组语音声学参数之间的听感误差计算公式;以听感误差计算公式计算生成的合成语音时使用的声学参数与原始训练数据的声学参数之间的听感距离;以最小化听感距离为目标,利用梯度下降算法,通过逐次迭代的方法,更新声学模型中包含的参数,以保证每次迭代后模型生成参数听感距离的逐渐降低,最终实现基于生成参数听感误差最小化的模型训练过程。
本发明使用隐马尔可夫模型作为声学模型,基于最大似然的参数生成方法,建模采用的声学参数为线谱频率参数,听感误差计算公式可以是:
D ( C , C % ( λ ) ) =
Σ t = 1 T Σ p = 1 N ( lsf t , p - lsf t , p % ) 2 / min ( lsf t , p - lsf t , p - 1 , lsf t , p + 1 - lsf t - p )
C:原始训练数据的声学参数, 合成语音时使用的声学参数,lsf1,p:语音数据第t帧的第p阶线谱频率参数,(lsF1,p右上角的标号含义同上述 右上角标号的含义)
N:线谱频率参数的阶数,T:总帧数。
从合成语音的效果来看,使用该算法后,合成语音在自然度和音质上都有一定程度的提高;在对合成语音的倾向性主观测听中,认为使用该算法后的合成语音质量要高于单纯最大似然训练结果的比例占了80%以上。
术语解释
语音合成(Text-To-Speech):又称为文语转化。它涉及声学、语言学、数字信号处理、多媒体等多种学科,是中文信息处理领域的一项前沿技术。语音合成技术解决的主要问题是:如何将电子化文本的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,目的是让计算机能够产生高清晰度、高自然度的连续语音。
隐马尔可夫模型(Hidden Markov Model):马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。用隐马尔可夫刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。
最大似然估计(Maximum Likelihood Estimation):假设随机变量X的分布函数为F(X,θ),密度函数为p(X,θ),θ为参数,θ=(θ1,...θm)∈Θ,X1,...,Xn来源于分布族{F(X,θ):θ∈Θ},定义似然函数 L ( θ ) = Π i = 1 n p ( x i , θ ) 是θ=(θ1,...θm)的函数,若
Figure A20061003859000062
是L(θ)的唯一最大值点,则称
Figure A20061003859000063
为θ的最大似然估计。
梯度下降算法(Gradient Descent Algorithm):一种用于求解函数无约束极值问题的基本算法,它选择函数的负梯度方向(最速下降方向)作为迭代时的搜索方向。
附图说明
图1:训练流程框图
具体实施方式
基于生成参数听感误差最小化的声学模型训练方法,其具体算法是:
(1)、计算训练数据的文本信息对应的生成参数听感误差
a、利用声学模型生成训练数据对应的声学参数
将训练数据对应的文本以及相关的上下文信息输入声学模型λ中,利用最大似然准则或其他方法,预测与训练数据的声学参数C各帧相对应的用于生成合成语音的声学参数
Figure A20061003859000064
其中:
C=[c1,c2,...,cT]
C % ( λ ) = [ c 1 % , c 2 % , . . . , c 7 %
T为总帧数,使用隐马尔可夫模型作为声学模型和基于最大似然的参数生成方法,建模采用的声学参数为线谱频率参数,即:
ct=[lsft,1,...,lsft,N]
c t % = [ lsf t , 1 % , . . . , lsf t , N % ]
其中N为线谱频率参数的阶数,N为24;
b、计算声学参数之间的听感距离
依据使用声学参数的不同,确定能够较为适当的反映两组声学参数之间听感差异情况的听感误差计算公式,为了保证这种听感差异度量的合理性,可以结合一定的听感实验来进行主观听感差异与参数距离之间的相关性测试;线谱频率参数使用以下公式来计算训练数据声学参数C与生成参数 之间的听感距离:
D ( C , C % ( λ ) ) =
Σ t = 1 T Σ p = 1 N ( lsf t , p - lsf t , p % ) 2 / min ( lsf t , p - lsf t , p - 1 , lsf t , p + 1 - lsf t , p )
(2)、以最小化听感距离为目标,调整声学模型参数为了求解听感距离最小时的所对应的模型参数λ,通过采用梯度下降的方法来对声学模型参数进行逐步的调整,即:
λ n + 1 = λ n - ϵ n ∂ D ( C , C % ( λ ) ) ∂ λ | λ = λ n
具体的参数更新方法可以由上式结合听感误差计算公式进行推导确定,其中n为迭代次数,εn为每一步的迭代步长,λn表示第n次迭代后的声学模型参数。
(3)、对步骤(1)和(2)进行反复迭代,直至模型参数收敛,迭代次数为20次,最终实现完整的基于生成参数听感误差最小化的模型训练过程。
本发明利用以上算法进行了参数模型训练与语音合成实验,选择的频谱参数为24阶的线谱频率参数;为了实现对听感误差的有效度量,在计算两组线谱频率之间的距离时,利用阶间差分倒数对各阶线谱频率的欧氏距离进行了加权;使用隐马尔可夫模型作为声学参数模型;在训练过程中使用最大似然估计的结果作为模型的初始值,再利用最小化生成参数听感误差方法对模型参数进行迭代调整。
实验结果表明,利用以上算法经过10~20次迭代后,模型参数会得到有效收敛;对于集外数据的测试表明,利用最小化生成参数听感误差算法训练后的模型可以取得相对单纯的最大似然模型训练10%左右的听感误差减小程度。

Claims (3)

1、基于生成参数听感误差最小化的声学模型训练方法,其特征在于利用声学模型由原始训练数据的文本信息生成合成语音时使用的声学参数;对于不同的语音声学参数,通过听感试验确定其变化对于人耳听感影响的强弱,并最终综合出对于任意两组语音声学参数之间的听感误差计算公式;以听感误差计算公式计算生成的合成语音时使用的声学参数与原始训练数据的声学参数之间的听感距离;以最小化听感距离为目标,利用梯度下降算法,通过逐次迭代的方法,更新声学模型中包含的参数,以保证每次迭代后模型生成参数听感距离的逐渐降低,最终实现基于生成参数听感误差最小化的模型训练过程。
2、根据权利要求1所述的方法,其特征在于使用隐马尔可夫模型作为声学模型,基于最大似然的参数生成方法,建模采用的声学参数为线谱频率参数,听感误差计算公式是:
D ( C , C % ( λ ) ) =
Σ t = 1 T Σ p = 1 N ( lsf t , p - lsf t , p % ) 2 / min ( lsf t , p - lsf t , p - 1 , lsf t , p + 1 - lsf t , p )
C:原始训练数据的声学参数, 合成语音时使用的声学参数,
lsft,p:语音数据第t帧的第p阶线谱频率参数,
N:线谱频率参数的阶数,T:总帧数。
3、根据权利要求1所述的方法,其特征在于具体步骤为:
(1)、计算训练数据的文本信息对应的生成参数听感误差
a、利用声学模型生成训练数据对应的声学参数
将训练数据对应的文本以及相关的上下文信息输入声学模型λ中,利用最大似然准则或其他方法,预测与训练数据的声学参数C各帧相对应的声学参数 其将用于生成合成语音时使用,其中:
C=[c1,c2,...,cT]
C % ( λ ) = [ c 1 % , c 2 % , . . . , c T % ]
T为总帧数,使用隐马尔可夫模型作为声学模型和基于最大似然的参数生成方法,建模采用的声学参数为线谱频率参数lsf,即:
ct=[lsft,1,...,lsft,N]
c t % = [ lsf t , 1 % , . . . , lsf t , N % ]
其中N为线谱频率参数的阶数,N为24;
b、计算声学参数之间的听感距离依据使用声学参数的不同,确定能够较为适当的反映两组声学参数之间听感差异情况的听感误差计算公式,线谱频率参数使用以下公式来计算训练数据声学参数C与生成参数 之间的听感距离:
D ( C , C % ( λ ) ) =
Σ t = 1 T Σ p = 1 N ( lsf t , p - lsf t , p % ) 2 / min ( lsf t , p - lsf t , p - 1 , lsf t , p + 1 - lsf t , p )
(2)、以最小化听感距离为目标,调整声学模型参数为了求解听感距离最小时的所对应的模型参数λ,通过采用梯度下降的方法来对声学模型参数进行逐步的调整,即:
λ n + 1 = λ n - ϵ n ∂ D ( C , C % ( λ ) ) ∂ λ | λ = λ n
具体的参数更新方法可以由上式结合听感误差计算公式进行推导确定,其中n为迭代次数,εn为每一步的迭代步长,λn表示第n次迭代后的声学模型参数;
(3)、对步骤(1)和(2)进行反复迭代,直至模型参数收敛,最终实现完整的基于生成参数听感误差最小化的模型训练过程。
CNA2006100385902A 2006-02-28 2006-02-28 基于生成参数听感误差最小化的声学模型训练方法 Pending CN1815553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2006100385902A CN1815553A (zh) 2006-02-28 2006-02-28 基于生成参数听感误差最小化的声学模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2006100385902A CN1815553A (zh) 2006-02-28 2006-02-28 基于生成参数听感误差最小化的声学模型训练方法

Publications (1)

Publication Number Publication Date
CN1815553A true CN1815553A (zh) 2006-08-09

Family

ID=36907727

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006100385902A Pending CN1815553A (zh) 2006-02-28 2006-02-28 基于生成参数听感误差最小化的声学模型训练方法

Country Status (1)

Country Link
CN (1) CN1815553A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286317B (zh) * 2008-05-30 2011-07-27 同济大学 语音识别装置、模型训练方法、及交通信息服务平台
CN104183236A (zh) * 2014-09-04 2014-12-03 北京语言大学 一种测定感知参数的区分性的方法以及系统
CN106297766A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286317B (zh) * 2008-05-30 2011-07-27 同济大学 语音识别装置、模型训练方法、及交通信息服务平台
CN104183236A (zh) * 2014-09-04 2014-12-03 北京语言大学 一种测定感知参数的区分性的方法以及系统
CN104183236B (zh) * 2014-09-04 2017-12-26 北京语言大学 一种测定感知参数的区分性的方法以及系统
CN106297766A (zh) * 2015-06-04 2017-01-04 科大讯飞股份有限公司 语音合成方法及系统

Similar Documents

Publication Publication Date Title
Airaksinen et al. Quasi closed phase glottal inverse filtering analysis with weighted linear prediction
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
CN101178896B (zh) 基于声学统计模型的单元挑选语音合成方法
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN1815552B (zh) 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
Qian et al. Improved prosody generation by maximizing joint probability of state and longer units
Sheikhan et al. Using DTW neural–based MFCC warping to improve emotional speech recognition
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
CN1835074A (zh) 一种结合高层描述信息和模型自适应的说话人转换方法
CN113506562B (zh) 基于声学特征与文本情感特征融合的端到端语音合成方法及系统
CN105654939A (zh) 一种基于音向量文本特征的语音合成方法
Yin et al. Modeling F0 trajectories in hierarchically structured deep neural networks
JP4382808B2 (ja) 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム
TWI503813B (zh) 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組
CN101178895A (zh) 基于生成参数听感误差最小化的模型自适应方法
JP2024505076A (ja) 多様で自然なテキスト読み上げサンプルを生成する
Liu et al. Articulatory-to-acoustic conversion using BLSTM-RNNs with augmented input representation
Xue et al. Cross-modal information fusion for voice spoofing detection
Choi et al. A melody-unsupervision model for singing voice synthesis
Gao et al. Articulatory copy synthesis using long-short term memory networks
CN1815553A (zh) 基于生成参数听感误差最小化的声学模型训练方法
CN116913244A (zh) 一种语音合成方法、设备及介质
Yu et al. Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20060809