CN101064104A

CN101064104A - 基于语音转换的情感语音生成方法

Info

Publication number: CN101064104A
Application number: CNA2006100760147A
Authority: CN
Inventors: 陶建华; 康永国
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Priority date: 2006-04-24
Filing date: 2006-04-24
Publication date: 2007-10-31
Anticipated expiration: 2026-04-24
Also published as: CN101064104B

Abstract

本发明公开一种新的基于语音转换的情感语音生成方法，包括训练阶段，对中性语音和情感语音分别提取频谱和基频特征，分别在频谱和基频特征上建立中性语音和情感语音的映射关系，在基频的表示和转换上是基于基频目标模型。对中性语音和情感语音的基频曲线提取模型参数，使用高斯混合模型和分类回归树的方法建立基频目标模型参数间的映射函数；包括生成阶段，同样对要转换的中性语音提取频谱和基频特征，对于基频特征通过利用训练阶段获得的映射函数对基频曲线进行转换，使得转换基频曲线具有情感的特性。最后将转换后的频谱和基频曲线合成为带有相应情感的转换语音。本发明可以用于个性化语音合成、带有表现力的语音合成等多个领域。

Description

基于语音转换的情感语音生成方法

技术领域

本发明属于语音合成技术，涉及一种新的基于语音转换的情感语音生成方法。

背景技术

语音合成技术已经发展了几十年了，无论从可懂度还是自然度上说都有了很大的进展，但是目前的合成语音虽然没有了“机器味”，但是依然比较单调无趣。现在，人们可以通过互联网获取大量的信息，在电子购物、网上医疗、网上聊天、电子会议以及有声电子邮件等应用上，人们所希望听到的已不再是枯燥的机器音，而是更具“人情味”的语音。如果合成语音具有相应的情感，那么无疑会大大增强合成语音的人性化。因此情感语音合成现在是语音合成研究领域的一个热点。情感语音合成的研究是一个全新的研究领域，涉及到情感语音库设计，情感韵律特征分析及情感建模，语法、语义与情感发音相互之间的影响，面向口语的韵律分析及建模，情感语音声学模型的建立，情景分布与个性化特征对情感发音的影响等一系列的课题。

目前情感语音合成研究从方法上说可以分为以下两类：

1.基于韵律修改的情感合成法

这一方法首先分析真实情感语音的韵律参数分布，获得情感语音相对于中性语音在韵律参数上的变化规律，然后通过在语音合成系统的韵律产生模块中应用这些规律以使得合成语音带有真实情感语音的特征。Cahn首先利用这种方法设计了一个情感编辑器(Affect Editor)，生成了带有情感的语音。其后有代表性的有Burkhardt和Sendlmeier使用共振峰合成方法实现了包括七种情感的德语情感合成系统，Iriondo等人和Rank基于波形拼接实现的情感合成系统，Shikler等人基于声学参数修改算法实现的情感编辑器等。该方法的特点在于直接应用分析得到的声学特征到韵律模型中，比较简单有效地生成情感语音，缺点在于分析结果容易受情感语料的影响，另外情感控制规则的实际参数需要经验选取。

2.基于情感语音库的拼接合成法

基于情感语音库的拼接合成方法和常规的基于大语料库的语音合成方法没有大的区别，只是将原来系统中使用的正常语音数据库改换成了几个表达不同情感的情感语音数据库，再通过情感特征矢量库的支持，利用原系统中的韵律预测模块进行情感的韵律预测，然后在情感语音库中选择基元进行拼接。该方法没有单独的情感韵律分析模块，不需要对情感语音做非常详细的分析，因此实现起来比较容易，缺点是需要大规模情感语音库的支持，录制和标注这样大规模的语音库是比较困难的。这一方法的代表是日本ATR的Nick等人实现的CHATR情感语音合成系统。

发明内容

为了解决上述现有技术需要大规模情感语音库的支持，录制和标注这样大规模的语音库是比较困难的问题，分析结果容易受情感语料的影响的问题，本发明的目的是基于基频目标(pitch target)模型对中性和情感基频曲线之间建立映射关系，并通过转换基频曲线的形式产生情感语音，为此，本发明要提供一种使用、计算比较简单、容易实现、训练过程自动进行，分析结果不容易受情感语料影响、基于语音转换的情感语音生成方法。

为了实现上述目的，本发明提供基于基频目标语音转换的情感语音生成方法，包括步骤：

创建语音基频曲线模型：对语音的基频曲线，根据各音节边界，自动提取基频目标模型参数；

创建用于训练的中性和情感相对应的参数集合：对中性语音和情感语音的基频目标模型参数，根据中性语音和情感语音发音内容一一对应在一起构成用于训练中性与情感参数映射关系的参数集；

建立参数映射关系：根据创建的训练参数集，使用高斯混合模型或者分类回归树的方法建立中性和情感基频目标模型参数之间的映射关系；

建立基频转换：使用训练得到的映射关系，对来自中性基频曲线的基频目标模型参数进行基频转换；

重建基频曲线：根据基频目标模型对转换后的模型参数生成对应重建的基频曲线；

语音合成：将转换后重建带有情感的基频曲线和带有情感的频谱包络合成为语音信号。

本发明的有益效果：现有技术的基频转换方法是对基频曲线本身进行转换，而本发明使用基频目标模型描述基频曲线，通过转换基频目标模型参数来达到转换基频曲线的目的，转换效果要优于传统的转换方法。通过对提供的情感语音基于基频目标模型训练基频曲线的转换函数，可以自动地将中性基频曲线转换为情感基频曲线，对应合成得到的转换语音就带有了相应的情感。该方法可以用于个性化语音合成、带有表现力的语音合成等多个领域。

该系统的计算比较简单，容易实现，且训练过程可以自动进行。能够直接应用到情感语音合成、带有表现力的语音合成等各个领域。

附图说明

通过以下结合附图的详细描述，本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中：

图1是本发明基于语音转换的情感语音生成的总体框架图

图2是本发明基于基频目标模型的基频转换的框架图

图3是本发明一句话的基频曲线基于高斯混合模型(GMM)转换方法的框图

图4是本发明基于分类回归树方法建立映射函数的框架图

具体实施方式

下面结合附图对本发明作具体说明。应该指出，所描述的施例仅仅视为说明的目的，而不是对本发明的限制。

根据本发明的图1基于语音转换的情感语音生成的总体框架图所示：图中包括：

语音分析12：是对中性语音信号11进行分析获得基频曲线13和频谱包络14。

基于基频目标模型的基频转换15：通常的基频转换方法是对基频曲线本身进行转换，而本发明使用基频目标模型15描述基频曲线13，通过转换基频目标模型参数来达到转换基频曲线的目的，具体实现方式由图2进行解释。

频谱转换16：要将中性语音11转换为带有情感语音，除了要转换基频曲线，语音的频谱包络也要做相应的转换。

语音合成19：提供一种将基频曲线和频谱包络合成为语音信号方法。输入到语音合成模块19的是转换后带有情感的基频曲线17和带有情感的频谱包络18，所以语音合成模块19可以合成出带有情感的语音110。

根据本发明的图2基于基频目标(pitch target)模型的基频转换的框架图所示，图中包括：以图中虚线为界可以把整个转换系统分为两个部分：虚线以上为训练部分，目的是根据建立的训练情感语音库，建立中性基频曲线模型和情感基频曲线模型之间的映射关系。输入的中性基频曲线21和情感基频曲线24均来自训练语音库；虚线以下为转换部分，利用训练部分获得的基频模型参数间的映射关系对输入的中性基频曲线29模型参数进行转换，最终转换获得情感基频曲线215，输入的中性基频曲线不属于训练语音库，可以是该音库录音人的任意语音的基频曲线；

训练和转换两部分的区别是：训练部分要同时输入中性基频曲线21和情感基频曲线24，而且输入的中性基频曲线21和情感基频曲线24要基于同一文本，训练部分中机器学习算法27的输出结果是中性基频目标模型参数23和情感基频目标模型参数26之间的映射关系，表现为一组数学转换函数28；转换部分只输入要转换的中性基频曲线29，经过基频目标模型参数估计过程210后得到对应的基频目标模型参数211，然后使用训练部分获得的转换函数28进行模型参数转换212，转换结果为新的基频目标模型参数213，根据基频目标模型公式(2)应用基频曲线生成方法214，即为带有情感的基频曲线215。

根据本发明创建语音基频曲线模型步骤，首先建立训练情感语音库，步骤如下：首先需要建立用于训练的中性和情感语音库，这些语音应该是基于同一文本的。其中的情感语音应该是由专业演员表演出来的，虽然同真实的情感语音相比略显夸张，但是这样的情感语音同中性语音在声学特征上的差异也更大，有利于建立中性语音和情感语音声学参数之间的映射关系。在录音过程中发音人有足够的时间来酝酿相应的情感，当录音工作人员感觉语音情感状态不明显或者错误时会要求发音人重新录制这一句。录音后的数据提取基频曲线和确定音节边界，必要时需要手工校正。

所述创建语音基频曲线模型，即为从基频曲线中估计基频目标模型参数，对应图2中标号为22、25、210的模块，其内容包括：

根据本发明，使用基频目标(pitch target)模型描述基频曲线，此基频曲线可以是中性的，也可以是情感的，具体步骤：

T(t)＝at+b (1)

y(t)＝βexp(-λt)+at+b，0≤t≤D，λ≥0 (2)

在基频目标模型中，真实的基频曲线可以用公式(1)和公式(2)近似表示。其中参数a和b分别表示基频目标的斜率和截距，这两个参数描述的是基频轨迹潜在的变化方向和调域，可能和观测到的真实基频曲线有较大区别。参数β描述的是基频轨迹开始时(t＝0)基频曲线和基频目标之间的距离。参数λ是一个正数，在数学上表示的是指数函数衰减的速度，在生理上可以认为表示的是发音人向该音节基频目标逼近的快慢，λ越大逼近速度就越快。由公式(1)和公式(2)可以看出一个音节的基频曲线可以由参数(a，b，β，λ)表示。

要应用基频目标模型22、25、210进行基频转换，从真实的基频曲线中自动估计模型参数(a，b，β，λ)是必不可少的一步。因为基频目标模型是定义在音节的基频曲线上的，因此必须事先获得音节边界。模型参数的估计可以通过非线性回归的方法来实现，加入一些边界条件可以使得估计结果更加鲁棒。这里我们使用初始点和中间点作为边界条件，并且假设在中间点基频轨迹已经逼近到了基频目标直线，非线性回归可以使用著名的LM(Levenberg-Marquardt)算法。

所述创建用于训练的中性和情感相对应的参数集合，其内容是：对训练语音库中的中性和情感基频曲线分别根据以上方法建立中性语音模型参数：对一句中性语音的一个音节的基频曲线自动估计的基频目标模型参数为(a_s，b_s，β_s，λ_s)，根据发音内容一一对应在一起构成用于训练中性与情感参数映射关系的参数集。

建立情感语音模型参数：基于同一文本情感语音的对应音节的基频曲线估计的基频目标参数为(a_t，b_t，β_t，λ_t)；

建立训练语音数据集：设训练语音中总的音节数目是N，最终得到数据集：(a_s ⁿ，a_t ⁿ)，(b_s ⁿ，b_t ⁿ)，(β_s ⁿ，β_t ⁿ)，(λ_s ⁿ，λ_t ⁿ)，n＝1，2，…N，其中下标s代表来自中性基频曲线，t代表来自情感基频曲线。

根据本发明，所述创建中性语音和情感语音模型和建立参数映射关系步骤，对应于图2中机器学习算法模块27：将训练语音中的中性和情感模型参数一一对应基频目标后，使用高斯混合模型和分类回归树算法两种机器学习算法建立中性和情感基频目标模型参数之间的映射关系。

在基频目标(pitch target)模型参数之间可以使用高斯混合模型或者分类回归树方法建立映射函数，下面分别介绍这两种方法。

根据本发明图3，是本发明一句话的基频曲线基于高斯混合模型转换方法的框图，图中所示是对一句话的转换过程，图中只对一句话中的一个音节进行描述如下：

一句话的基频曲线31，它由音节32、33、34、35等组成。这里以音节33为代表说明斯混合模型转换方法，其他音节32、34、35的转换过程和音节33是一样的。

音节33的基频曲线36可以由基频目标模型的参数a、b、β和λ表示，但是λ参数不满足高斯分布所以不参与参数转换，因此转换过程包括a、b、β三个参数。对这三个参数分别基于高斯混合模型37、38、39进行转换，接下来阐述具体的高斯混合模型转换方法。

高斯混合模型的回归算法其理论假设是中性和情感基频目标参数服从高斯分布。在训练过程中，需要转换的基频目标模型参数需要各自独立的高斯混合模型，对其中的每一个参数都有下面的训练和转换过程。

在训练过程中，针对每一个基频目标参数使用期望值最大算法估计数据集的均值μ_q，协方差∑_q以及高斯函数的权重α_q，然后根据高斯混合模型回归获得转换函数F(x)，转换函数由估计到的均值、协方差和高斯函数的权重组成。在转换过程中，要转换的中性基频模型参数输入到转换函数F(x)中，输出即为带有情感的基频模型参数。

所述基于来自中性语音和情感语音的基频目标模型参数之间使用高斯混合模型建立参数映射关系步骤包括：

建立中性语音模型参数：对一句中性语音31的每一个音节32、33、34.......的基频曲线36自动估计的基频目标模型参数为(a_s，b_s，β_s，λ_s)；

建立情感语音模型参数：基于同一文本的情感语音的对应音节的基频曲线估计的基频目标参数为(a_t，b_t，β_t，λ_t)；

建立训练语音数据集：设训练语音中总的音节数目是N，最终得到数据集：(a_s ⁿ，a_t ⁿ)，(b_s ⁿ，b_t ⁿ)，(β_s ⁿ，β_t ⁿ)，(λ_s ⁿ，λ_t ⁿ)，n＝1，2，…N。

建立数据集模型：对所得数据集使用高斯混合模型进行建模，针对每一个基频目标参数估计数据集的均值μ_q，协方差∑_q以及高斯函数的权重α_q。

建立转换模型：针对每一个基频目标参数估计到的混合高斯模型参数建立转换函数F(x)，使用以下公式来建立转换函数：

F (x) = Σ_{q = 1}^{Q} p_{q} (x) [μ_{q}^{Y} + Σ_{q}^{YX} {(Σ_{q}^{XX})}^{- 1} (x - μ_{q}^{X})]

使用转换函数F(x)对音节33的基频曲线36的三个基频目标参数a、b、β进行转换，转换结果记为a′，b′，β′。转换后的基频目标参数a′，b′，β′和未转换的基频目标参数λ代入基频目标公式(2)即可得到转换后的基频曲线311。应用同样的方法可以把音节32、34、35的基频曲线转换为新的基频曲线310、312、313，转换后全部音节的基频曲线构成了转换后的整个语句的基频曲线。

根据本发明图4基于分类回归树方法建立映射函数的框架图所示：

对于来自训练情感语音库的中性基频曲线的基频目标模型参数41和情感基频曲线的基频目标模型参数42，针对两者之间的差值43，即(a_s ⁿ-a_t ⁿ)，(b_s ⁿ-b_t ⁿ)，(β_s ⁿ-β_t ⁿ)，(λ_s ⁿ-λ_t ⁿ)作为训练的分类回归树44的回归目标，分类回归树44用于建立回归模型的参数为语境信息45。

所述提取用于分类回归树方法的语境信息45：针对分别提取自中性语音和情感语音各音节基频曲线的基频目标模型参数，提取各音节的语境信息，包括：

●声调信息：包括当前音节，前一音节和后一音节的声调，声调类型包括四声以及轻声。

●声母类型：包括当前音节和前一音节的声母类型，类型包括不送气塞音，送气塞音，不送气塞擦音，送气塞擦音，不发音擦音，发音擦音，鼻音，边音，零声母。

●韵母类型：包括当前音节和后一音节的韵母类型，类型包括开口呼，齐齿呼，合口呼，撮口呼。

●当前音节在句子中的位置。

所述建立语境信息模型：使用分类回归树44利用提取的语境信息45对基频目标模型参数数据集进行建模，回归目标的是中性和情感基频目标参数之间的差值43，即(a_s ⁿ-a_t ⁿ)，(b_s ⁿ-b_t ⁿ)，(β_s ⁿ-β_t ⁿ)，(λ_s ⁿ-λ_t ⁿ)。分类回归树的映射结果为和语境参数相关的转换函数。在转换阶段，在转换过程中，要转换的中性基频模型所在音节的语境参数输入到分类回归树方法所获得的转换函数中，函数输出和输入的中性基频模型参数相加即为带有情感的基频模型参数。

根据本发明，重建基频：基于转换后的基频目标模型参数(a，b，β，λ)，利用音节的边界[0，D]，根据公式(2)重建基频曲线y(t)，y(t)表示由模型参数得到的基频曲线；

综上所述，生成情感基频曲线的框架如图2所示。提取自中性和情感基频曲线的基频目标模型参数使用机器学习算法建立两者之间的映射关系，机器学习算法可以使用高斯混合模型和分类回归树。转换时通过使用获得的映射关系对要转换的中性基频目标参数进行转换，然后由基频目标参数可以最终生成带有情感的基频曲线。

根据本发明图1中语音合成模块19，所述生成情感语音步骤：根据转换后的基频曲线以及同样经过转换的频谱特征，使用参数合成的方法合成为带有情感的转换语音。

上面描述是用于实现本发明及其实施例，各个步骤均为示例，本领域普通技术人员可以根据实际情况确定要使用的实际步骤，而且各个步骤的有多种实现方法，均应属于本发明的范围之内。本发明的范围不应由该描述来限定。本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1.基于语音转换的情感语音生成方法，其特征在于：包括步骤：

2.根据权利要求1所述基于语音转换的情感语音生成方法，其特征在于，所述基于来自中性语音和情感语音的基频目标模型参数之间使用高斯混合模型建立参数映射关系步骤包括：

建立中性语音模型参数：对一句中性语音的每一个音节的基频曲线自动估计的基频目标模型参数为(a_s，b_s，β_s，λ_s)；

建立训练语音数据集：设训练语音中总的音节数目是N，最终得到数据集：(a_s ⁿ，a_t ⁿ)，(b_s ⁿ，b_t ⁿ)，(β_s ⁿ，β_t ⁿ)，(λ_s ⁿ，λ_t ⁿ)，n＝1，2，…N；

建立数据集模型：对所得数据集使用高斯混合模型进行建模，针对每一个基频目标参数估计数据集的均值μ_q，协方差∑_q以及高斯函数的权重α_q；

建立转换模型：针对每一个基频目标参数估计到的混合高斯模型参数建立转换函数F(x)。

3.根据权利要求1所述基于语音转换的情感语音生成方法，其特征在于，所述基于来自中性语音和情感语音的基频目标模型参数之间使用分类回归树建立映射关系步骤包括：

建立中性语音模型参数：对一句中性语音的一个音节的基频曲线自动估计的基频目标模型参数为(a_s，b_s，β_s，λ_s)；

提取用于分类回归树方法的语境参数：针对分别提取自中性语音和情感语音各音节基频曲线的基频目标模型参数，提取各音节的语境信息，包括前一音节的声调、韵母类型，后一音节的声调、声母类型，当前音节的声调和在句子中的位置；

建立语境信息模型：使用分类回归树方法利用提取的语境信息对基频目标模型参数数据集进行建模，回归目标的是中性和情感基频目标参数之间的差值，即(a_s ⁿ-a_t ⁿ)，(b_s ⁿ-b_t ⁿ)，(β_s ⁿ-β_t ⁿ)，(λ_s ⁿ-λ_t ⁿ)。

4.根据权利要求1所述基于语音转换的情感语音生成方法，其特征在于，所述基于训练映射模型步骤，重建基频曲线包括：

基于转换后的基频目标模型参数(a，b，β，λ)，根据基频曲线的发音目标以及音节边界重建基频曲线。

5.根据权利要求1所述的基于语音转换的情感语音生成方法，其特征在于，所述语音合成步骤包括：根据转换后的基频曲线以及同样经过转换的频谱特征，使用参数合成的方法合成为带有情感的转换语音。