CN101064104A - 基于语音转换的情感语音生成方法 - Google Patents

基于语音转换的情感语音生成方法 Download PDF

Info

Publication number
CN101064104A
CN101064104A CNA2006100760147A CN200610076014A CN101064104A CN 101064104 A CN101064104 A CN 101064104A CN A2006100760147 A CNA2006100760147 A CN A2006100760147A CN 200610076014 A CN200610076014 A CN 200610076014A CN 101064104 A CN101064104 A CN 101064104A
Authority
CN
China
Prior art keywords
parameter
fundamental frequency
fundamental
emotion
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006100760147A
Other languages
English (en)
Other versions
CN101064104B (zh
Inventor
陶建华
康永国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN2006100760147A priority Critical patent/CN101064104B/zh
Publication of CN101064104A publication Critical patent/CN101064104A/zh
Application granted granted Critical
Publication of CN101064104B publication Critical patent/CN101064104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开一种新的基于语音转换的情感语音生成方法,包括训练阶段,对中性语音和情感语音分别提取频谱和基频特征,分别在频谱和基频特征上建立中性语音和情感语音的映射关系,在基频的表示和转换上是基于基频目标模型。对中性语音和情感语音的基频曲线提取模型参数,使用高斯混合模型和分类回归树的方法建立基频目标模型参数间的映射函数;包括生成阶段,同样对要转换的中性语音提取频谱和基频特征,对于基频特征通过利用训练阶段获得的映射函数对基频曲线进行转换,使得转换基频曲线具有情感的特性。最后将转换后的频谱和基频曲线合成为带有相应情感的转换语音。本发明可以用于个性化语音合成、带有表现力的语音合成等多个领域。

Description

基于语音转换的情感语音生成方法
技术领域
本发明属于语音合成技术,涉及一种新的基于语音转换的情感语音生成方法。
背景技术
语音合成技术已经发展了几十年了,无论从可懂度还是自然度上说都有了很大的进展,但是目前的合成语音虽然没有了“机器味”,但是依然比较单调无趣。现在,人们可以通过互联网获取大量的信息,在电子购物、网上医疗、网上聊天、电子会议以及有声电子邮件等应用上,人们所希望听到的已不再是枯燥的机器音,而是更具“人情味”的语音。如果合成语音具有相应的情感,那么无疑会大大增强合成语音的人性化。因此情感语音合成现在是语音合成研究领域的一个热点。情感语音合成的研究是一个全新的研究领域,涉及到情感语音库设计,情感韵律特征分析及情感建模,语法、语义与情感发音相互之间的影响,面向口语的韵律分析及建模,情感语音声学模型的建立,情景分布与个性化特征对情感发音的影响等一系列的课题。
目前情感语音合成研究从方法上说可以分为以下两类:
1.基于韵律修改的情感合成法
这一方法首先分析真实情感语音的韵律参数分布,获得情感语音相对于中性语音在韵律参数上的变化规律,然后通过在语音合成系统的韵律产生模块中应用这些规律以使得合成语音带有真实情感语音的特征。Cahn首先利用这种方法设计了一个情感编辑器(Affect Editor),生成了带有情感的语音。其后有代表性的有Burkhardt和Sendlmeier使用共振峰合成方法实现了包括七种情感的德语情感合成系统,Iriondo等人和Rank基于波形拼接实现的情感合成系统,Shikler等人基于声学参数修改算法实现的情感编辑器等。该方法的特点在于直接应用分析得到的声学特征到韵律模型中,比较简单有效地生成情感语音,缺点在于分析结果容易受情感语料的影响,另外情感控制规则的实际参数需要经验选取。
2.基于情感语音库的拼接合成法
基于情感语音库的拼接合成方法和常规的基于大语料库的语音合成方法没有大的区别,只是将原来系统中使用的正常语音数据库改换成了几个表达不同情感的情感语音数据库,再通过情感特征矢量库的支持,利用原系统中的韵律预测模块进行情感的韵律预测,然后在情感语音库中选择基元进行拼接。该方法没有单独的情感韵律分析模块,不需要对情感语音做非常详细的分析,因此实现起来比较容易,缺点是需要大规模情感语音库的支持,录制和标注这样大规模的语音库是比较困难的。这一方法的代表是日本ATR的Nick等人实现的CHATR情感语音合成系统。
发明内容
为了解决上述现有技术需要大规模情感语音库的支持,录制和标注这样大规模的语音库是比较困难的问题,分析结果容易受情感语料的影响的问题,本发明的目的是基于基频目标(pitch target)模型对中性和情感基频曲线之间建立映射关系,并通过转换基频曲线的形式产生情感语音,为此,本发明要提供一种使用、计算比较简单、容易实现、训练过程自动进行,分析结果不容易受情感语料影响、基于语音转换的情感语音生成方法。
为了实现上述目的,本发明提供基于基频目标语音转换的情感语音生成方法,包括步骤:
创建语音基频曲线模型:对语音的基频曲线,根据各音节边界,自动提取基频目标模型参数;
创建用于训练的中性和情感相对应的参数集合:对中性语音和情感语音的基频目标模型参数,根据中性语音和情感语音发音内容一一对应在一起构成用于训练中性与情感参数映射关系的参数集;
建立参数映射关系:根据创建的训练参数集,使用高斯混合模型或者分类回归树的方法建立中性和情感基频目标模型参数之间的映射关系;
建立基频转换:使用训练得到的映射关系,对来自中性基频曲线的基频目标模型参数进行基频转换;
重建基频曲线:根据基频目标模型对转换后的模型参数生成对应重建的基频曲线;
语音合成:将转换后重建带有情感的基频曲线和带有情感的频谱包络合成为语音信号。
本发明的有益效果:现有技术的基频转换方法是对基频曲线本身进行转换,而本发明使用基频目标模型描述基频曲线,通过转换基频目标模型参数来达到转换基频曲线的目的,转换效果要优于传统的转换方法。通过对提供的情感语音基于基频目标模型训练基频曲线的转换函数,可以自动地将中性基频曲线转换为情感基频曲线,对应合成得到的转换语音就带有了相应的情感。该方法可以用于个性化语音合成、带有表现力的语音合成等多个领域。
该系统的计算比较简单,容易实现,且训练过程可以自动进行。能够直接应用到情感语音合成、带有表现力的语音合成等各个领域。
附图说明
通过以下结合附图的详细描述,本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中:
图1是本发明基于语音转换的情感语音生成的总体框架图
图2是本发明基于基频目标模型的基频转换的框架图
图3是本发明一句话的基频曲线基于高斯混合模型(GMM)转换方法的框图
图4是本发明基于分类回归树方法建立映射函数的框架图
具体实施方式
下面结合附图对本发明作具体说明。应该指出,所描述的施例仅仅视为说明的目的,而不是对本发明的限制。
根据本发明的图1基于语音转换的情感语音生成的总体框架图所示:图中包括:
语音分析12:是对中性语音信号11进行分析获得基频曲线13和频谱包络14。
基于基频目标模型的基频转换15:通常的基频转换方法是对基频曲线本身进行转换,而本发明使用基频目标模型15描述基频曲线13,通过转换基频目标模型参数来达到转换基频曲线的目的,具体实现方式由图2进行解释。
频谱转换16:要将中性语音11转换为带有情感语音,除了要转换基频曲线,语音的频谱包络也要做相应的转换。
语音合成19:提供一种将基频曲线和频谱包络合成为语音信号方法。输入到语音合成模块19的是转换后带有情感的基频曲线17和带有情感的频谱包络18,所以语音合成模块19可以合成出带有情感的语音110。
根据本发明的图2基于基频目标(pitch target)模型的基频转换的框架图所示,图中包括:以图中虚线为界可以把整个转换系统分为两个部分:虚线以上为训练部分,目的是根据建立的训练情感语音库,建立中性基频曲线模型和情感基频曲线模型之间的映射关系。输入的中性基频曲线21和情感基频曲线24均来自训练语音库;虚线以下为转换部分,利用训练部分获得的基频模型参数间的映射关系对输入的中性基频曲线29模型参数进行转换,最终转换获得情感基频曲线215,输入的中性基频曲线不属于训练语音库,可以是该音库录音人的任意语音的基频曲线;
训练和转换两部分的区别是:训练部分要同时输入中性基频曲线21和情感基频曲线24,而且输入的中性基频曲线21和情感基频曲线24要基于同一文本,训练部分中机器学习算法27的输出结果是中性基频目标模型参数23和情感基频目标模型参数26之间的映射关系,表现为一组数学转换函数28;转换部分只输入要转换的中性基频曲线29,经过基频目标模型参数估计过程210后得到对应的基频目标模型参数211,然后使用训练部分获得的转换函数28进行模型参数转换212,转换结果为新的基频目标模型参数213,根据基频目标模型公式(2)应用基频曲线生成方法214,即为带有情感的基频曲线215。
根据本发明创建语音基频曲线模型步骤,首先建立训练情感语音库,步骤如下:首先需要建立用于训练的中性和情感语音库,这些语音应该是基于同一文本的。其中的情感语音应该是由专业演员表演出来的,虽然同真实的情感语音相比略显夸张,但是这样的情感语音同中性语音在声学特征上的差异也更大,有利于建立中性语音和情感语音声学参数之间的映射关系。在录音过程中发音人有足够的时间来酝酿相应的情感,当录音工作人员感觉语音情感状态不明显或者错误时会要求发音人重新录制这一句。录音后的数据提取基频曲线和确定音节边界,必要时需要手工校正。
所述创建语音基频曲线模型,即为从基频曲线中估计基频目标模型参数,对应图2中标号为22、25、210的模块,其内容包括:
根据本发明,使用基频目标(pitch target)模型描述基频曲线,此基频曲线可以是中性的,也可以是情感的,具体步骤:
              T(t)=at+b                             (1)
          y(t)=βexp(-λt)+at+b,0≤t≤D,λ≥0     (2)
在基频目标模型中,真实的基频曲线可以用公式(1)和公式(2)近似表示。其中参数a和b分别表示基频目标的斜率和截距,这两个参数描述的是基频轨迹潜在的变化方向和调域,可能和观测到的真实基频曲线有较大区别。参数β描述的是基频轨迹开始时(t=0)基频曲线和基频目标之间的距离。参数λ是一个正数,在数学上表示的是指数函数衰减的速度,在生理上可以认为表示的是发音人向该音节基频目标逼近的快慢,λ越大逼近速度就越快。由公式(1)和公式(2)可以看出一个音节的基频曲线可以由参数(a,b,β,λ)表示。
要应用基频目标模型22、25、210进行基频转换,从真实的基频曲线中自动估计模型参数(a,b,β,λ)是必不可少的一步。因为基频目标模型是定义在音节的基频曲线上的,因此必须事先获得音节边界。模型参数的估计可以通过非线性回归的方法来实现,加入一些边界条件可以使得估计结果更加鲁棒。这里我们使用初始点和中间点作为边界条件,并且假设在中间点基频轨迹已经逼近到了基频目标直线,非线性回归可以使用著名的LM(Levenberg-Marquardt)算法。
所述创建用于训练的中性和情感相对应的参数集合,其内容是:对训练语音库中的中性和情感基频曲线分别根据以上方法建立中性语音模型参数:对一句中性语音的一个音节的基频曲线自动估计的基频目标模型参数为(as,bs,βs,λs),根据发音内容一一对应在一起构成用于训练中性与情感参数映射关系的参数集。
建立情感语音模型参数:基于同一文本情感语音的对应音节的基频曲线估计的基频目标参数为(at,bt,βt,λt);
建立训练语音数据集:设训练语音中总的音节数目是N,最终得到数据集:(as n,at n),(bs n,bt n),(βs n,βt n),(λs n,λt n),n=1,2,…N,其中下标s代表来自中性基频曲线,t代表来自情感基频曲线。
根据本发明,所述创建中性语音和情感语音模型和建立参数映射关系步骤,对应于图2中机器学习算法模块27:将训练语音中的中性和情感模型参数一一对应基频目标后,使用高斯混合模型和分类回归树算法两种机器学习算法建立中性和情感基频目标模型参数之间的映射关系。
在基频目标(pitch target)模型参数之间可以使用高斯混合模型或者分类回归树方法建立映射函数,下面分别介绍这两种方法。
根据本发明图3,是本发明一句话的基频曲线基于高斯混合模型转换方法的框图,图中所示是对一句话的转换过程,图中只对一句话中的一个音节进行描述如下:
一句话的基频曲线31,它由音节32、33、34、35等组成。这里以音节33为代表说明斯混合模型转换方法,其他音节32、34、35的转换过程和音节33是一样的。
音节33的基频曲线36可以由基频目标模型的参数a、b、β和λ表示,但是λ参数不满足高斯分布所以不参与参数转换,因此转换过程包括a、b、β三个参数。对这三个参数分别基于高斯混合模型37、38、39进行转换,接下来阐述具体的高斯混合模型转换方法。
高斯混合模型的回归算法其理论假设是中性和情感基频目标参数服从高斯分布。在训练过程中,需要转换的基频目标模型参数需要各自独立的高斯混合模型,对其中的每一个参数都有下面的训练和转换过程。
在训练过程中,针对每一个基频目标参数使用期望值最大算法估计数据集的均值μq,协方差∑q以及高斯函数的权重αq,然后根据高斯混合模型回归获得转换函数F(x),转换函数由估计到的均值、协方差和高斯函数的权重组成。在转换过程中,要转换的中性基频模型参数输入到转换函数F(x)中,输出即为带有情感的基频模型参数。
所述基于来自中性语音和情感语音的基频目标模型参数之间使用高斯混合模型建立参数映射关系步骤包括:
建立中性语音模型参数:对一句中性语音31的每一个音节32、33、34.......的基频曲线36自动估计的基频目标模型参数为(as,bs,βs,λs);
建立情感语音模型参数:基于同一文本的情感语音的对应音节的基频曲线估计的基频目标参数为(at,bt,βt,λt);
建立训练语音数据集:设训练语音中总的音节数目是N,最终得到数据集:(as n,at n),(bs n,bt n),(βs n,βt n),(λs n,λt n),n=1,2,…N。
建立数据集模型:对所得数据集使用高斯混合模型进行建模,针对每一个基频目标参数估计数据集的均值μq,协方差∑q以及高斯函数的权重αq
建立转换模型:针对每一个基频目标参数估计到的混合高斯模型参数建立转换函数F(x),使用以下公式来建立转换函数:
F ( x ) = Σ q = 1 Q p q ( x ) [ μ q Y + Σ q YX ( Σ q XX ) - 1 ( x - μ q X ) ]
使用转换函数F(x)对音节33的基频曲线36的三个基频目标参数a、b、β进行转换,转换结果记为a′,b′,β′。转换后的基频目标参数a′,b′,β′和未转换的基频目标参数λ代入基频目标公式(2)即可得到转换后的基频曲线311。应用同样的方法可以把音节32、34、35的基频曲线转换为新的基频曲线310、312、313,转换后全部音节的基频曲线构成了转换后的整个语句的基频曲线。
根据本发明图4基于分类回归树方法建立映射函数的框架图所示:
对于来自训练情感语音库的中性基频曲线的基频目标模型参数41和情感基频曲线的基频目标模型参数42,针对两者之间的差值43,即(as n-at n),(bs n-bt n),(βs nt n),(λs nt n)作为训练的分类回归树44的回归目标,分类回归树44用于建立回归模型的参数为语境信息45。
所述提取用于分类回归树方法的语境信息45:针对分别提取自中性语音和情感语音各音节基频曲线的基频目标模型参数,提取各音节的语境信息,包括:
●声调信息:包括当前音节,前一音节和后一音节的声调,声调类型包括四声以及轻声。
●声母类型:包括当前音节和前一音节的声母类型,类型包括不送气塞音,送气塞音,不送气塞擦音,送气塞擦音,不发音擦音,发音擦音,鼻音,边音,零声母。
●韵母类型:包括当前音节和后一音节的韵母类型,类型包括开口呼,齐齿呼,合口呼,撮口呼。
●当前音节在句子中的位置。
所述建立语境信息模型:使用分类回归树44利用提取的语境信息45对基频目标模型参数数据集进行建模,回归目标的是中性和情感基频目标参数之间的差值43,即(as n-at n),(bs n-bt n),(βs nt n),(λs nt n)。分类回归树的映射结果为和语境参数相关的转换函数。在转换阶段,在转换过程中,要转换的中性基频模型所在音节的语境参数输入到分类回归树方法所获得的转换函数中,函数输出和输入的中性基频模型参数相加即为带有情感的基频模型参数。
根据本发明,重建基频:基于转换后的基频目标模型参数(a,b,β,λ),利用音节的边界[0,D],根据公式(2)重建基频曲线y(t),y(t)表示由模型参数得到的基频曲线;
综上所述,生成情感基频曲线的框架如图2所示。提取自中性和情感基频曲线的基频目标模型参数使用机器学习算法建立两者之间的映射关系,机器学习算法可以使用高斯混合模型和分类回归树。转换时通过使用获得的映射关系对要转换的中性基频目标参数进行转换,然后由基频目标参数可以最终生成带有情感的基频曲线。
根据本发明图1中语音合成模块19,所述生成情感语音步骤:根据转换后的基频曲线以及同样经过转换的频谱特征,使用参数合成的方法合成为带有情感的转换语音。
上面描述是用于实现本发明及其实施例,各个步骤均为示例,本领域普通技术人员可以根据实际情况确定要使用的实际步骤,而且各个步骤的有多种实现方法,均应属于本发明的范围之内。本发明的范围不应由该描述来限定。本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均属于本发明权利要求来限定的范围。

Claims (5)

1.基于语音转换的情感语音生成方法,其特征在于:包括步骤:
创建语音基频曲线模型:对语音的基频曲线,根据各音节边界,自动提取基频目标模型参数;
创建用于训练的中性和情感相对应的参数集合:对中性语音和情感语音的基频目标模型参数,根据中性语音和情感语音发音内容一一对应在一起构成用于训练中性与情感参数映射关系的参数集;
建立参数映射关系:根据创建的训练参数集,使用高斯混合模型或者分类回归树的方法建立中性和情感基频目标模型参数之间的映射关系;
建立基频转换:使用训练得到的映射关系,对来自中性基频曲线的基频目标模型参数进行基频转换;
重建基频曲线:根据基频目标模型对转换后的模型参数生成对应重建的基频曲线;
语音合成:将转换后重建带有情感的基频曲线和带有情感的频谱包络合成为语音信号。
2.根据权利要求1所述基于语音转换的情感语音生成方法,其特征在于,所述基于来自中性语音和情感语音的基频目标模型参数之间使用高斯混合模型建立参数映射关系步骤包括:
建立中性语音模型参数:对一句中性语音的每一个音节的基频曲线自动估计的基频目标模型参数为(as,bs,βs,λs);
建立情感语音模型参数:基于同一文本的情感语音的对应音节的基频曲线估计的基频目标参数为(at,bt,βt,λt);
建立训练语音数据集:设训练语音中总的音节数目是N,最终得到数据集:(as n,at n),(bs n,bt n),(βs n,βt n),(λs n,λt n),n=1,2,…N;
建立数据集模型:对所得数据集使用高斯混合模型进行建模,针对每一个基频目标参数估计数据集的均值μq,协方差∑q以及高斯函数的权重αq
建立转换模型:针对每一个基频目标参数估计到的混合高斯模型参数建立转换函数F(x)。
3.根据权利要求1所述基于语音转换的情感语音生成方法,其特征在于,所述基于来自中性语音和情感语音的基频目标模型参数之间使用分类回归树建立映射关系步骤包括:
建立中性语音模型参数:对一句中性语音的一个音节的基频曲线自动估计的基频目标模型参数为(as,bs,βs,λs);
建立情感语音模型参数:基于同一文本情感语音的对应音节的基频曲线估计的基频目标参数为(at,bt,βt,λt);
建立训练语音数据集:设训练语音中总的音节数目是N,最终得到数据集:(as n,at n),(bs n,bt n),(βs n,βt n),(λs n,λt n),n=1,2,…N;
提取用于分类回归树方法的语境参数:针对分别提取自中性语音和情感语音各音节基频曲线的基频目标模型参数,提取各音节的语境信息,包括前一音节的声调、韵母类型,后一音节的声调、声母类型,当前音节的声调和在句子中的位置;
建立语境信息模型:使用分类回归树方法利用提取的语境信息对基频目标模型参数数据集进行建模,回归目标的是中性和情感基频目标参数之间的差值,即(as n-at n),(bs n-bt n),(βs nt n),(λs nt n)。
4.根据权利要求1所述基于语音转换的情感语音生成方法,其特征在于,所述基于训练映射模型步骤,重建基频曲线包括:
基于转换后的基频目标模型参数(a,b,β,λ),根据基频曲线的发音目标以及音节边界重建基频曲线。
5.根据权利要求1所述的基于语音转换的情感语音生成方法,其特征在于,所述语音合成步骤包括:根据转换后的基频曲线以及同样经过转换的频谱特征,使用参数合成的方法合成为带有情感的转换语音。
CN2006100760147A 2006-04-24 2006-04-24 基于语音转换的情感语音生成方法 Active CN101064104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2006100760147A CN101064104B (zh) 2006-04-24 2006-04-24 基于语音转换的情感语音生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006100760147A CN101064104B (zh) 2006-04-24 2006-04-24 基于语音转换的情感语音生成方法

Publications (2)

Publication Number Publication Date
CN101064104A true CN101064104A (zh) 2007-10-31
CN101064104B CN101064104B (zh) 2011-02-02

Family

ID=38965092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006100760147A Active CN101064104B (zh) 2006-04-24 2006-04-24 基于语音转换的情感语音生成方法

Country Status (1)

Country Link
CN (1) CN101064104B (zh)

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226742B (zh) * 2007-12-05 2011-01-26 浙江大学 基于情感补偿的声纹识别方法
CN101178897B (zh) * 2007-12-05 2011-04-20 浙江大学 利用基频包络剔除情感语音的说话人识别方法
CN102063899A (zh) * 2010-10-27 2011-05-18 南京邮电大学 一种非平行文本条件下的语音转换方法
CN101751921B (zh) * 2009-12-16 2011-09-14 南京邮电大学 一种在训练数据量极少条件下的实时语音转换方法
CN101751922B (zh) * 2009-07-22 2011-12-07 中国科学院自动化研究所 基于隐马尔可夫模型状态映射的文本无关语音转换系统
CN101419800B (zh) * 2008-11-25 2011-12-14 浙江大学 基于频谱平移的情感说话人识别方法
CN102341842A (zh) * 2009-05-28 2012-02-01 国际商业机器公司 用于语者调适的基频移动量学习装置、基频生成装置、移动量学习方法、基频生成方法及移动量学习程序
CN102005205B (zh) * 2009-09-03 2012-10-03 株式会社东芝 情感语音合成方法和装置
CN102881283A (zh) * 2011-07-13 2013-01-16 三星电子(中国)研发中心 用于语音处理的方法与系统
CN103065620A (zh) * 2012-12-27 2013-04-24 安徽科大讯飞信息科技股份有限公司 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN104123932A (zh) * 2014-07-29 2014-10-29 科大讯飞股份有限公司 一种语音转换系统及方法
CN105023570A (zh) * 2014-04-30 2015-11-04 安徽科大讯飞信息科技股份有限公司 一种实现声音转换的方法及系统
CN105244042A (zh) * 2015-08-26 2016-01-13 安徽建筑大学 一种基于有限状态自动机的语音情感交互装置与方法
CN105280179A (zh) * 2015-11-02 2016-01-27 小天才科技有限公司 一种文字转语音的处理方法及系统
CN105355193A (zh) * 2015-10-30 2016-02-24 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN105551504A (zh) * 2015-12-03 2016-05-04 广东欧珀移动通信有限公司 一种基于哭声触发智能移动终端功能应用的方法及装置
CN105931631A (zh) * 2016-04-15 2016-09-07 北京地平线机器人技术研发有限公司 语音合成系统和方法
CN106205623A (zh) * 2016-06-17 2016-12-07 福建星网视易信息系统有限公司 一种声音转换方法及装置
CN106531150A (zh) * 2016-12-23 2017-03-22 上海语知义信息技术有限公司 一种基于深度神经网络模型的情感合成方法
CN106688034A (zh) * 2014-09-11 2017-05-17 微软技术许可有限责任公司 具有情感内容的文字至语音转换
CN107068165A (zh) * 2016-12-31 2017-08-18 南京邮电大学 一种语音转换方法
CN107103900A (zh) * 2017-06-06 2017-08-29 西北师范大学 一种跨语言情感语音合成方法及系统
CN107221344A (zh) * 2017-04-07 2017-09-29 南京邮电大学 一种语音情感迁移方法
CN107886938A (zh) * 2016-09-29 2018-04-06 中国科学院深圳先进技术研究院 虚拟现实引导催眠语音处理方法及装置
CN108447470A (zh) * 2017-12-28 2018-08-24 中南大学 一种基于声道和韵律特征的情感语音转换方法
CN109461435A (zh) * 2018-11-19 2019-03-12 北京光年无限科技有限公司 一种面向智能机器人的语音合成方法及装置
CN109935225A (zh) * 2017-12-15 2019-06-25 富泰华工业(深圳)有限公司 文字信息处理装置及方法、计算机存储介质及移动终端
WO2019218773A1 (zh) * 2018-05-15 2019-11-21 中兴通讯股份有限公司 语音的合成方法及装置、存储介质、电子装置
CN110853616A (zh) * 2019-10-22 2020-02-28 武汉水象电子科技有限公司 一种基于神经网络的语音合成方法、系统与存储介质
CN111108549A (zh) * 2019-12-24 2020-05-05 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备及计算机可读存储介质
CN111192568A (zh) * 2018-11-15 2020-05-22 华为技术有限公司 一种语音合成方法及语音合成装置
CN112349272A (zh) * 2020-10-15 2021-02-09 北京捷通华声科技股份有限公司 语音合成方法、装置、存储介质及电子装置
CN112489621A (zh) * 2020-11-20 2021-03-12 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN113611286A (zh) * 2021-10-08 2021-11-05 之江实验室 一种基于共性特征提取的跨语种语音情感识别方法和系统
CN114420086A (zh) * 2022-03-30 2022-04-29 北京沃丰时代数据科技有限公司 语音合成方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2853125A1 (fr) * 2003-03-27 2004-10-01 France Telecom Procede d'analyse d'informations de frequence fondamentale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d'analyse.

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178897B (zh) * 2007-12-05 2011-04-20 浙江大学 利用基频包络剔除情感语音的说话人识别方法
CN101226742B (zh) * 2007-12-05 2011-01-26 浙江大学 基于情感补偿的声纹识别方法
CN101419800B (zh) * 2008-11-25 2011-12-14 浙江大学 基于频谱平移的情感说话人识别方法
CN102341842A (zh) * 2009-05-28 2012-02-01 国际商业机器公司 用于语者调适的基频移动量学习装置、基频生成装置、移动量学习方法、基频生成方法及移动量学习程序
CN102341842B (zh) * 2009-05-28 2013-06-05 国际商业机器公司 用于语者调适的基频移动量学习装置和方法及基频生成装置和方法
CN101751922B (zh) * 2009-07-22 2011-12-07 中国科学院自动化研究所 基于隐马尔可夫模型状态映射的文本无关语音转换系统
CN102005205B (zh) * 2009-09-03 2012-10-03 株式会社东芝 情感语音合成方法和装置
CN101751921B (zh) * 2009-12-16 2011-09-14 南京邮电大学 一种在训练数据量极少条件下的实时语音转换方法
CN102063899B (zh) * 2010-10-27 2012-05-23 南京邮电大学 一种非平行文本条件下的语音转换方法
CN102063899A (zh) * 2010-10-27 2011-05-18 南京邮电大学 一种非平行文本条件下的语音转换方法
CN102881283A (zh) * 2011-07-13 2013-01-16 三星电子(中国)研发中心 用于语音处理的方法与系统
CN102881283B (zh) * 2011-07-13 2014-05-28 三星电子(中国)研发中心 用于语音处理的方法与系统
CN103065620A (zh) * 2012-12-27 2013-04-24 安徽科大讯飞信息科技股份有限公司 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN105023570A (zh) * 2014-04-30 2015-11-04 安徽科大讯飞信息科技股份有限公司 一种实现声音转换的方法及系统
CN105023570B (zh) * 2014-04-30 2018-11-27 科大讯飞股份有限公司 一种实现声音转换的方法及系统
CN104123932A (zh) * 2014-07-29 2014-10-29 科大讯飞股份有限公司 一种语音转换系统及方法
CN106688034A (zh) * 2014-09-11 2017-05-17 微软技术许可有限责任公司 具有情感内容的文字至语音转换
CN106688034B (zh) * 2014-09-11 2020-11-13 微软技术许可有限责任公司 具有情感内容的文字至语音转换
CN105244042B (zh) * 2015-08-26 2018-11-13 安徽建筑大学 一种基于有限状态自动机的语音情感交互装置与方法
CN105244042A (zh) * 2015-08-26 2016-01-13 安徽建筑大学 一种基于有限状态自动机的语音情感交互装置与方法
CN105355193B (zh) * 2015-10-30 2020-09-25 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN105355193A (zh) * 2015-10-30 2016-02-24 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN105280179A (zh) * 2015-11-02 2016-01-27 小天才科技有限公司 一种文字转语音的处理方法及系统
CN105551504B (zh) * 2015-12-03 2019-04-23 Oppo广东移动通信有限公司 一种基于哭声触发智能移动终端功能应用的方法及装置
CN105551504A (zh) * 2015-12-03 2016-05-04 广东欧珀移动通信有限公司 一种基于哭声触发智能移动终端功能应用的方法及装置
CN105931631A (zh) * 2016-04-15 2016-09-07 北京地平线机器人技术研发有限公司 语音合成系统和方法
CN106205623A (zh) * 2016-06-17 2016-12-07 福建星网视易信息系统有限公司 一种声音转换方法及装置
CN107886938B (zh) * 2016-09-29 2020-11-17 中国科学院深圳先进技术研究院 虚拟现实引导催眠语音处理方法及装置
CN107886938A (zh) * 2016-09-29 2018-04-06 中国科学院深圳先进技术研究院 虚拟现实引导催眠语音处理方法及装置
CN106531150A (zh) * 2016-12-23 2017-03-22 上海语知义信息技术有限公司 一种基于深度神经网络模型的情感合成方法
CN107068165B (zh) * 2016-12-31 2020-07-24 南京邮电大学 一种语音转换方法
CN107068165A (zh) * 2016-12-31 2017-08-18 南京邮电大学 一种语音转换方法
CN107221344A (zh) * 2017-04-07 2017-09-29 南京邮电大学 一种语音情感迁移方法
CN107103900A (zh) * 2017-06-06 2017-08-29 西北师范大学 一种跨语言情感语音合成方法及系统
CN109935225A (zh) * 2017-12-15 2019-06-25 富泰华工业(深圳)有限公司 文字信息处理装置及方法、计算机存储介质及移动终端
CN108447470A (zh) * 2017-12-28 2018-08-24 中南大学 一种基于声道和韵律特征的情感语音转换方法
WO2019218773A1 (zh) * 2018-05-15 2019-11-21 中兴通讯股份有限公司 语音的合成方法及装置、存储介质、电子装置
CN111192568A (zh) * 2018-11-15 2020-05-22 华为技术有限公司 一种语音合成方法及语音合成装置
CN109461435A (zh) * 2018-11-19 2019-03-12 北京光年无限科技有限公司 一种面向智能机器人的语音合成方法及装置
CN110853616A (zh) * 2019-10-22 2020-02-28 武汉水象电子科技有限公司 一种基于神经网络的语音合成方法、系统与存储介质
CN111108549A (zh) * 2019-12-24 2020-05-05 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备及计算机可读存储介质
CN111108549B (zh) * 2019-12-24 2024-02-02 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备及计算机可读存储介质
CN112349272A (zh) * 2020-10-15 2021-02-09 北京捷通华声科技股份有限公司 语音合成方法、装置、存储介质及电子装置
CN112489621A (zh) * 2020-11-20 2021-03-12 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN113611286A (zh) * 2021-10-08 2021-11-05 之江实验室 一种基于共性特征提取的跨语种语音情感识别方法和系统
CN114420086A (zh) * 2022-03-30 2022-04-29 北京沃丰时代数据科技有限公司 语音合成方法和装置
CN114420086B (zh) * 2022-03-30 2022-06-17 北京沃丰时代数据科技有限公司 语音合成方法和装置

Also Published As

Publication number Publication date
CN101064104B (zh) 2011-02-02

Similar Documents

Publication Publication Date Title
CN101064104B (zh) 基于语音转换的情感语音生成方法
US20200402497A1 (en) Systems and Methods for Speech Generation
CN111785261B (zh) 基于解纠缠和解释性表征的跨语种语音转换方法及系统
US11222620B2 (en) Speech recognition using unspoken text and speech synthesis
CN103928023B (zh) 一种语音评分方法及系统
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
US20220013106A1 (en) Multi-speaker neural text-to-speech synthesis
CN110992987A (zh) 语音信号中针对通用特定语音的并联特征提取系统及方法
CN108777140A (zh) 一种非平行语料训练下基于vae的语音转换方法
US11823656B2 (en) Unsupervised parallel tacotron non-autoregressive and controllable text-to-speech
US10235991B2 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
US10255910B2 (en) Centered, left- and right-shifted deep neural networks and their combinations
US11908448B2 (en) Parallel tacotron non-autoregressive and controllable TTS
CN106128450A (zh) 一种汉藏双语跨语言语音转换的方法及其系统
CN101064103A (zh) 基于音节韵律约束关系的汉语语音合成方法及系统
CN1835074A (zh) 一种结合高层描述信息和模型自适应的说话人转换方法
Zhao et al. Using phonetic posteriorgram based frame pairing for segmental accent conversion
CN112184859A (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
KR20200088263A (ko) 텍스트- 다중 음성 변환 방법 및 시스템
JP2024505076A (ja) 多様で自然なテキスト読み上げサンプルを生成する
CN1811912A (zh) 小音库语音合成方法
CN1099165A (zh) 基于波形编辑的汉语文字-语音转换方法及系统
CN115359778A (zh) 基于说话人情感语音合成模型的对抗与元学习方法
Daouad et al. An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture
CN113362803B (zh) 一种arm侧离线语音合成的方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20170505

Address after: 100094, No. 4, building A, No. 1, building 2, wing Cheng North Road, No. 405-346, Beijing, Haidian District

Patentee after: Beijing Rui Heng Heng Xun Technology Co., Ltd.

Address before: 100080 Zhongguancun East Road, Beijing, No. 95, No.

Patentee before: Institute of Automation, Chinese Academy of Sciences

TR01 Transfer of patent right
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181217

Address after: 100190 Zhongguancun East Road, Haidian District, Haidian District, Beijing

Patentee after: Institute of Automation, Chinese Academy of Sciences

Address before: 100094 No. 405-346, 4th floor, Building A, No. 1, Courtyard 2, Yongcheng North Road, Haidian District, Beijing

Patentee before: Beijing Rui Heng Heng Xun Technology Co., Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190527

Address after: 310019 1105, 11 / F, 4 building, 9 Ring Road, Jianggan District nine, Hangzhou, Zhejiang.

Patentee after: Limit element (Hangzhou) intelligent Polytron Technologies Inc

Address before: 100190 Zhongguancun East Road, Haidian District, Haidian District, Beijing

Patentee before: Institute of Automation, Chinese Academy of Sciences

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 310019 1105, 11 / F, 4 building, 9 Ring Road, Jianggan District nine, Hangzhou, Zhejiang.

Patentee after: Zhongke extreme element (Hangzhou) Intelligent Technology Co., Ltd

Address before: 310019 1105, 11 / F, 4 building, 9 Ring Road, Jianggan District nine, Hangzhou, Zhejiang.

Patentee before: Limit element (Hangzhou) intelligent Polytron Technologies Inc.