CN103021418A - 一种面向多时间尺度韵律特征的语音转换方法 - Google Patents

一种面向多时间尺度韵律特征的语音转换方法 Download PDF

Info

Publication number
CN103021418A
CN103021418A CN201210538744XA CN201210538744A CN103021418A CN 103021418 A CN103021418 A CN 103021418A CN 201210538744X A CN201210538744X A CN 201210538744XA CN 201210538744 A CN201210538744 A CN 201210538744A CN 103021418 A CN103021418 A CN 103021418A
Authority
CN
China
Prior art keywords
prosodic features
speaker
centerdot
under
source speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210538744XA
Other languages
English (en)
Inventor
李燕萍
张玲华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201210538744XA priority Critical patent/CN103021418A/zh
Publication of CN103021418A publication Critical patent/CN103021418A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种面向多时间尺度韵律特征的语音转换方法,属于语音信号处理技术领域。该方法首先对语音信号进行多时间尺度下的韵律特征分析与参数化提取,其次基于双隐马尔科夫模型对提取的多时间尺度韵律特征建立转换模型;最后在转换阶段,形成目标说话人的估计特征,得到转换后的语音。本发明不仅能够实现对韵律特性从整体到局部细致完整的刻画,克服韵律信息表述的模糊性和复杂性,而且通过时序性统计模型的建立,实现多时间尺度的韵律特征转换,增强转换语音的说话人个性信息,同时提高转换语音的可懂度和自然度。

Description

一种面向多时间尺度韵律特征的语音转换方法
技术领域
本发明涉及一种语音转换技术,尤其是一种基于双隐马尔科夫模型的多时间尺度韵律特征的语音转换方法,属于语音信号处理技术领域。
背景技术
语音转换是语音信号处理领域近年来新兴的研究分支,是在说话人识别和语音合成的研究基础上进行的,同时也是这两个分支内涵的丰富和延拓。
语音转换的目标是改变源说话人语音中的个性特征信息,使之具有目标说话人的个性特征,从而使转换后的语音听起来就像是目标说话人的声音,而其中的语义信息保持不变。
性能良好的语音转换系统,既要保持重构语音的听觉质量,又要兼顾转换后的目标说话人个性特征是否准确,现有的语音转换算法大多单纯关注频谱特征的准确转换,重建的语音尽管与目标说话人声音个性相似,但存在发音模糊和不连续现象,自然度较差。由于韵律信息的表述具有复杂性和不稳定性,对其建立有效的数学模型和参数提取存在一定的困难与挑战,一直以来对韵律特征转换的研究成果较少。然而,众所周知,韵律特性对语音信号的可懂度和自然度贡献显著,随着和谐人机交互技术的进一步发展,对韵律特性的重视和深入研究在语音转换、情感语音合成和情感识别等情感信息处理领域达成广泛共识。
在韵律特性研究方面,传统观点认为韵律特征指的是超音段特征,即语音信号在超音段层次上表现出来的时间演变特性,并且认为这种特性与语音音段在时间轴的排列顺序无关,然而本质上韵律特性与音段类特性之间存在有相关性,因此这种观点存在一定的局限性。
相关的文献比如:1.Padmalaya Pattnaik,Shreela Dash.A study on prosody analysis.International Journal of Computational Engineering Research,2012,2(5):1594-1599.
2.Takashi Nose,Takao Kobayashi.Speaker-independent HMM-based voice conversionusing adaptive quantization of the fundamental frequency.Speech Communication,2011,53(7):973-985。
另一种观点认为,韵律特征是一类参数的集合,这类参数描述的是语音信号由不同层次成分构成时的组织结构和特有规律,这种观点提取的语音参数着重于描述不同层次语义单元在构成语音信号时的结构特点。
相关的文献比如:3.K.Sreenivasa Rao.Voice conversion by mapping the speaker-specificfeatures using pitch synchronous approach.Computer Speech and Language,2010,24(3):474-494.
4.Raul Fernandez,Rosalind Picard.Recognizing  affect from speech prosody usinghierarchical graphical models.Speech Communication,2011,53(9-10):1088-1103。
发明内容
本发明的所要解决的技术问题是提供一种面向多时间尺度韵律特征的语音转换方法,达到增强转换语音中的说话人个性特征的同时提高转换语音的听觉质量与自然度。
本发明为解决以上技术问题采用如下技术方案:
一种面向多时间尺度韵律特征的语音转换方法,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:
一种面向多时间尺度韵律特征的语音转换方法,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:
步骤A,语音信号预处理:对目标说话人和源说话人输入的语音信号,分别依次进行预加重、分帧和加窗处理;
步骤B,语音特征矢量提取,所述语音特征矢量包括语音频谱特征和多时间尺度韵律特征,其中所述多时间尺度韵律特征包括短语尺度下的韵律特征、音节尺度下的韵律特征、语句尺度下的韵律特征,具体提取步骤如下:
对步骤A预处理后的源说话人和目标说话人的语音信号分别进行时域参数分析提取,得到源说话人和目标说话人在音节尺度、语句尺度下的韵律特征;
同时对步骤A预处理后的源说话人和目标说话人的语音信号基于谐波加噪声模型进行分解,求取语音信号的谐波成分和噪声成分,然后对谐波加噪声模型的参数进一步降维与量化,最终分别得到源说话人和目标说话人的语音信号的语音频谱特征、短语尺度下的韵律特征;
步骤C,根据步骤B得到的源说话人、目标说话人的语音信号的多时间尺度韵律特征,对于每一个时间尺度下的源说话人、目标说话人的韵律特征,分别采用双隐马尔科夫模型进行建模,进行动态特性和统计特性的分析,实现各时间尺度下的韵律特征的转换;
步骤D,根据步骤B得到的源说话人、目标说话人的语音信号的语音频谱特征,采用联合高斯混合模型进行建模,实现频谱特征的转换;
所述转换阶段包括如下步骤:
步骤E,输入源说话人新的语音,对源说话人输入的新的语音信号依次进行步骤A所述的语音信号预处理和步骤B所述的语音特征矢量提取操作,得到源说话人新的语音信号的频谱特征和多时间尺度韵律特征;
步骤F,对步骤E得到的源说话人新的语音信号的每个时间尺度韵律特征,采用上述步骤C得到的该时间尺度下的双隐马尔科夫模型分别进行语音韵律特征转换;
步骤G,对步骤E得到的源说话人新的语音信号的频谱特征,采用上述步骤D得到的高斯混合模型进行语音频谱转换,得到转换后的目标说话人的频谱特征;
步骤H,对步骤F和G转换后的语音韵律特征和频谱特征经过谐波加噪声模型进行合成,最终得到转换后的语音。
作为本发明的面向多时间尺度韵律特征的语音转换方法的进一步优化方案,所述步骤A的预处理步骤中,所述预加重处理的预加重系数为0.96,分帧处理按20ms分帧,所述加窗处理采用汉明窗进行加窗处理。
作为本发明的面向多时间尺度韵律特征的语音转换方法的进一步优化方案,步骤B的多时间尺度韵律特征具体提取步骤如下:
B-1,对短语尺度下的韵律特征,采用矢量量化对经过谐波加噪声模型分解后得到的基频轨迹进行码本量化,结合整个语句中的最大基频
Figure BDA00002580335200031
最小基频
Figure BDA00002580335200032
以及基频平均值
Figure BDA00002580335200033
一起构成短语尺度下的韵律特征;
B-2,对音节尺度下的韵律特征、语句尺度下的韵律特征,
i,对音节尺度下的韵律特征,对于语音信号,选用时长结合标注音节的短时均方能量参数RMSs来描述,所述时长采用标注音节的持续采样点数{Ds,s=1,2,…S}来描述,其中s表示语句中S个音节中的第s个音节,s、S均为正整数;考虑到相邻音节之间的动态特性,将当前音节与下一音节参数之间的差值ΔD=Ds-1-Ds作为补充特征,并且加入整句中音节持续时长的平均值AVGD和音节能量的平均值AVGRMS构成联合特征;
ii,对语句尺度下的韵律特征,采用整个语句的逐帧有效声压级值的量化码本来表征,所述的逐帧有效声压级值根据公式SPLt=20×log(RMSt/(2×10-5))计算,其中RMSt表示语句中第t帧的短时均方能量。
作为本发明的面向多时间尺度韵律特征的语音转换方法的进一步优化方案,步骤C所述每一时间尺度下的源说话人、目标说话人的韵律特征的转换,具体实现过程如下:
第一步,首先采用动态时间规整算法对源说话人的该时间尺度韵律特征参数和目标说话人的该时间尺度韵律特征参数进行对齐操作,所述的源说话人的该时间尺度韵律特征参数用
Figure BDA00002580335200041
表示,目标说话人的该时间尺度韵律特征参数用
Figure BDA00002580335200042
表示,其中:TX和TY分别表示源说话人和目标说话人语音信号在该时间尺度下韵律特征总的帧数,xt和yt分别表示源说话人和目标说话人语音信号在该时间尺度下的第t帧韵律特征参数;
第二步,采用期望最大化算法训练双隐马尔科夫模型参数集λ={λXY},所述参数集中的λX对应于源说话人的隐马尔科夫模型,在模型训练过程中,与源说话人的特征矢量序列 X = { x 1 , x 2 , · · · , x t , · · · x T X } 相对应的状态序列是 S X = { s x 1 , s x 2 , · · · , s x T S } , 所述参数集中的λY对应于目标说话人的隐马尔科夫模型,在模型训练过程中,与目标说话人的特征矢量序列 Y = { y 1 , y 2 , · · · , y t , · · · y T Y } 相对应的状态序列是 S Y = { s y 1 , s y 2 , · · · , s y T Y } ;
第三步,求解SX和SY在具有最大联合概率p(Y,SY,X,SX|λ)时的隐状态序列对
Figure BDA00002580335200047
用公式表示为:;
( S Y * , S X * ) = arg max S Y , S X p ( Y , S Y , X , S X | λ ) = arg max S Y , S X p ( Y , S Y | X , S X , λ Y ) p ( X , S X | λ X )
= arg max S Y , S X p ( Y | X , S X , S Y , λ Y ) p ( S Y | λ Y ) p ( S Y | λ Y ) p ( X | S X , λ X ) p ( S X | λ X )
第四步,对于源说话人的韵律特征矢量x,当对应的隐状态
Figure BDA000025803352000410
时,基于最小均方误差准则,隐状态
Figure BDA000025803352000411
时的每个高斯混合成分对应的转换函数用公式 y ^ = F s x * = i ( x ) = Σ j = 1 J { p i ( j | x , λ ) × [ μ i , j Y + Σ i , j YX ( Σ i , j XX ) - 1 ( x - μ i , j X ) ] } 表示,得到转换后的目标说话人的韵律特征向量
Figure BDA000025803352000413
其中J表示模型混合数,i、j均为自然数;
Figure BDA000025803352000414
Figure BDA000025803352000415
分别表示源说话人和目标说话人特征矢量在隐状态i时的第j个混合度下对应的均值矢量,
Figure BDA000025803352000416
是源说话人特征矢量对应的协方差矩阵,是源说话人和目标说话人特征矢量的互协方差矩阵,pi(j|x,λ)表示源说话人特征矢量x在隐状态i时的第j个混合度下对应的条件概率,用公式表示,其中wi,j表示隐状态i时的第j个混合度的权值矢量。
作为本发明的面向多时间尺度韵律特征的语音转换方法的进一步优化方案,步骤F对每一个时间尺度下的韵律特征进行转换的具体实现过程如下:
第一步,在转换阶段,对源说话人新输入的语音信号在该时间尺度下的韵律特征X={x1,x2,…,xt,…xT},其中下标T表示源说话人新输入的语音信号在该时间尺度下的韵律特征总的帧数,t=1,2,…,T,基于源说话人的隐马尔科夫模型λY得到相对应的状态序列SX
第二步,对于源说话人新输入的在该时间尺度下的第t帧韵律特征向量xt,在隐状态时,根据训练阶段得到的转换函数求解预估计变量
Figure BDA00002580335200052
y ~ t = F s x t = i ( x t ) = Σ j = 1 J { p i ( j | x t , λ ) × [ μ i , j Y + Σ i , j YX ( Σ i , j XX ) - 1 ( x t - μ i , j X ) ] } ;
第三步,在得到源说话人新输入的语音信号在该时间尺度下的韵律特征X={x1,x2,…,xt,…xT}和预估计变量
Figure BDA00002580335200054
的前提下,基于训练阶段得到的双隐马尔科夫模型参数集λ={λXY},采用维特比算法根据公式 ( S X * , S Y ^ * ) = arg max S X , S Y ^ p ( Y ~ , S Y ~ , λ Y ) p ( S Y ~ | λ Y ) p ( X | S X , λ X ) p ( S X | λ X ) , 求解转换阶段具有最小联合概率的最优状态序列对
Figure BDA00002580335200056
其中p(SXY)和
Figure BDA00002580335200057
分别表示源说话人该时间尺度下的的韵律特征矢量和预估计变量
Figure BDA00002580335200058
在隐马尔科夫模型中对应的状态转移概率;
第四步,至此,基于极大似然概率准则,转换后的目标说话人特征矢量
Figure BDA00002580335200059
根据公式 Y ^ = F S X * ( X ) = { F S x 1 * ( x 1 ) , F S x 2 * ( x 2 ) , · · · , F S x T * ( x T ) } 得到。
本发明与现有技术相比,其显著优点:
1.语音信号的不同韵律特性在不同的时间尺度下得到最合适的表征,本发明采用逐级细化的策略实现语音信号在多时间尺度下的韵律特征分析与参数化提取,实现对韵律特性从整体到局部细致完整的刻画,这种抽取方法不仅可以降低韵律特性表述的模糊性和复杂性,也符合语音信号表达高层次信息的方式,提取的韵律特征必将作为音段特征的重要补充。
2.对于提取的每一个时间尺度下的韵律特征,采用双隐马尔科夫模型进行转换函数的建模,既考虑了语音信号在时域的结构组织特点,又通过模型中的状态转移概率描述了相邻韵律特征之间的相关性约束与信息补充,保证了重构语音的可懂度与自然度。
附图说明
图1是本发明基于双隐马尔科夫模型的多时间尺度韵律特征转换示意图。
图2是多时间尺度韵律特征提取示意图,图中上半部分为时域波形;下半部分为韵律特性示意图,其中实线的非连续包络为基频轨迹,虚线的连续包络为反映强度的有效声压级轨迹。
图3是双隐马尔科夫模型中源说话人和目标说话人的隐状态对应示意图。
具体实施方案
下面结合附图对技术方案的实施作进一步的详细描述:
如图1,本发明基于双隐马尔科夫模型的多时间尺度韵律特征转换方法,步骤如下:
第一步,对输入的源说话人和目标说话人的语音信号进行预加重、分帧和加窗等预处理后,如图2所示,根据语音信号的语法规则和人耳的听觉感知特性,一个语句可以分解为若干短语,这些短语能够完整独立地表达一个语义。一个短语可以划分为若干音节,每个音节是发音的基本单元。语音信号的不同韵律特性在不同的时间尺度下得到最合适的表征,将语音划分为语句、短语和音节三个时间尺度,在多时间尺度上分析语音的韵律特性,分别抽取对应的韵律特征,其中:
语句尺度下的特征描述韵律的全局长时信息;
音节尺度下的特征描述韵律的局部细节信息;
短语介于全局和局部之间,描述音节构成语句时的语法规则约束与信息补充。
完成语句、短语和音节三个时间尺度的韵律特征的提取与参数化表示,具体过程如下:
(1)预加重处理的预加重系数为0.96,分帧处理按20ms分帧,加窗处理采用汉明窗进行加窗处理。
(2)对经过预处理后的源说话人和目标说话人的语音信号,基于谐波加噪声模型进行分解,求取语音信号的谐波成分和噪声成分,然后对谐波加噪声模型的参数进一步降维,提取语音信号的线性谱频率参数,分别得到源说话人和目标说话人的语音信号的频谱特征和基频轨迹韵律特征,采用矢量量化对基频轨迹进行码本量化,结合整个语句中的最大基频
Figure BDA00002580335200061
,最小基频
Figure BDA00002580335200062
以及基频平均值
Figure BDA00002580335200063
一起构成短语尺度下的韵律特征。
(3)对音节尺度下的韵律特征,对于语音信号,选用时长结合标注音节的短时均方能量参数RMSs来描述,所述时长采用标注音节的持续采样点数{Ds,s=1,2,…S}来描述,其中s表示语句中S个音节中的第s个音节,s、S均为正整数;所述标注音节的短时均方能量RMSs根据公式
Figure BDA00002580335200064
计算,考虑到相邻音节之间的动态特性,将当前音节与下一音节参数之间的差值ΔD=Ds-1-Ds作为补充特征,并且加入整句中音节持续时长的平均值AVGD和音节能量的平均值AVGRMS构成联合特征。
(4)对语句尺度下的韵律特征,采用整个语句的逐帧有效声压级值的量化码本来表征,所述的逐帧有效声压级值根据公式SPLt=20×log(RMSt/(2×10-5))计算,其中RMSt表示语句中第t帧的短时均方能量,根据公式计算,其中Dt表示第t帧语音信号的持续采样点数。
第二步,韵律特征转换模型的建立,鉴于隐马尔科夫模型的隐状态转移概率能够有效地反映信号的动态时序信息,本发明在训练的过程中,采用双隐马尔科夫模型对第一步得到的源说话人和目标说话人的每个时间尺度的韵律特征矢量分别进行概率建模,如果采用联合估计,两个隐马尔科夫模型对应的混合概率成分和转移概率会存在混乱。因此,如图3所示,采用动态时间规整对源说话人和目标说话人的每个时间尺度的韵律特征矢量进行对齐操作,实现两个隐马尔科夫模型的隐状态对齐,构建每个隐状态下的转换函数。
具体过程如下:
(1)采用动态时间规整算法对源说话人的韵律特征参数和目标说话人的韵律特征参数进行对齐操作,其中源说话人的韵律特征参数和目标说话人的韵律特征参数分别用 X = { x 1 , x 2 , · · · , x t , · · · x T X } Y = { y 1 , y 2 , · · · , y t , · · · y T Y } 表示,TX和TY分别表示源说话人和目标说话人韵律特征总的帧数,xt和yt分别表示源说话人和目标说话人的第t帧韵律特征参数。
(2)采用期望最大化算法训练双隐马尔科夫模型参数集λ={λXY},所述参数集中的λX对应于源说话人的隐马尔科夫模型,在模型训练过程中,与源说话人的特征矢量序列 X = { x 1 , x 2 , · · · , x t , · · · x T X } 相对应的状态序列是 S X = { s x 1 , s x 2 , · · · , s x T S } . 所述参数集中的λY对应于目标说话人的隐马尔科夫模型,在模型训练过程中,与目标说话人的特征矢量序列 Y = { y 1 , y 2 , · · · , y t , · · · y T Y } 相对应的状态序列是 S Y = { s y 1 , s y 2 , · · · , s y T Y } .
(3)求解SX和SY在具有最大联合概率p(Y,SY,X,SX|λ)时的隐状态序列对
Figure BDA00002580335200078
用公式表示为:
( S Y * , S X * ) = arg max S Y , S X p ( Y , S Y , X , S X | λ ) = arg max S Y , S X p ( Y , S Y | X , S X , λ Y ) p ( X , S X | λ X )
= arg max S Y , S X p ( Y | X , S X , S Y , λ Y ) p ( S Y | λ Y ) p ( S Y | λ Y ) p ( X | S X , λ X ) p ( S X | λ X ) .
(4)对于源说话人的韵律特征矢量x,当对应的隐状态
Figure BDA000025803352000711
时,基于最小均方误差准则,隐状态
Figure BDA000025803352000712
时的每个高斯混合成分对应的转换函数用公式 y ^ = F s x * = i ( x ) = Σ j = 1 J { p i ( j | x , λ ) × [ μ i , j Y + Σ i , j YX ( Σ i , j XX ) - 1 ( x - μ i , j X ) ] } 表示,得到转换后的目标说话人的韵律特征向量
Figure BDA00002580335200082
其中J表示模型混合数,
Figure BDA00002580335200083
分别表示源说话人和目标说话人特征矢量在隐状态i时的第j个混合度下对应的均值矢量,是源说话人特征矢量对应的协方差矩阵,
Figure BDA00002580335200086
是源说话人和目标说话人特征矢量的互协方差矩阵,pi(j|x,λ)表示源说话人特征矢量x在隐状态i时的第j个混合度下对应的条件概率,用公式
Figure BDA00002580335200087
表示,其中wi,j表示隐状态i时的第j个混合度的权值矢量,其中i、j均为自然数。
第三步,韵律特征转换,即对于转换阶段输入的源说话人语音X,采用第二步训练的转换模型实现韵律特征的转换。具体实现过程如下:
(1)在转换阶段,对源说话人新输入的语音信号的韵律特征X,基于源说话人的隐马尔科夫模型λX得到相对应的状态序列SX
(2)对于源说话人新输入的韵律特征向量x,在隐状态Sx=i时,根据训练阶段得到的转换函数求解预估计变量
Figure BDA00002580335200088
y ^ = F s x = i ( x ) = Σ j = 1 J { p i ( j | x , λ ) × [ μ i , j Y + Σ i , j YX ( Σ i , j XX ) - 1 ( x - μ i , j X ) ] } .
(3)在得到源说话人新输入的语音信号的韵律特征X和预估计变量
Figure BDA000025803352000810
的前提下,基于训练阶段得到的双隐马尔科夫模型参数集λ={λXY},采用维特比算法根据公式 ( S X * , S Y ^ * ) = arg max S X , S Y ^ p ( Y ~ , S Y ~ , λ Y ) p ( S Y ~ | λ Y ) p ( X | S X , λ X ) p ( S X | λ X ) , 求解转换阶段具有最小联合概率的最优状态序列对
Figure BDA000025803352000812
其中p(SXY)和
Figure BDA000025803352000813
分别表示源说话人的特征矢量X和预估计变量在隐马尔科夫模型中对应的状态转移概率。
(4)至此,基于极大似然概率准则,转换后的目标说话人的韵律特征矢量
Figure BDA000025803352000815
根据公式 Y ^ = F S X * ( X ) = { F S x 1 * ( x 1 ) , F S x 2 * ( x 2 ) , · · · , F S x T * ( x T ) } 得到。
第四步,频谱特征转换,对第一步得到的频谱特征基于经典的高斯混合模型进行转换,具体过程如下:
(1)在训练阶段,采用动态时间规整算法对源说话人和目标说话人的L维频谱特征矢量序列X={xt,t=1,2,…,T′x}和Y={yt,t=1,2,…,T′y}进行对齐,将相应的xt和yt拼接成一个2L维特征矢量, Z = { x t y t , t = 1,2 , · · · , T z ′ } , 至此,形成一个新的矢量空间Z={zt,t=1,2,…T′z};其中:T′x、T′y分别表示源说话人和目标说话人语音信号频谱特征矢量总的帧数;T′z表示xt和yt拼接后形成的特征矢量总的帧数。
(2)利用高斯混合模型对新的特征向量Z进行概率密度建模,用期望最大化算法迭代训练模型的参数,设zt的概率密度函数为 p ( z t ) = Σ m = 1 M ω m · N ( z t ; μ m , Σ m ) , t = 1,2 , · · · T z ′ , 其中μm和∑m分别是第m个高斯混合分量的均值和协方差矩阵,分别表示为: μ m = μ mX μ mY , Σ m = Σ mXX Σ mXY Σ mYX Σ mYY , 若X已知,则在最小均方误差估计准则下,对Y的估计用公式表示为
Figure BDA00002580335200095
其中μX和μY分别是X和Y的均值,∑YX是Y和X的互协方差矩阵,∑XX是X的协方差矩阵。
(3)在转换阶段,当源说话人新输入的频谱特征矢量是x′t时,采用训练阶段得到的高斯混合模型,对转换后目标说话人的频谱特征
Figure BDA00002580335200096
的最小均方误差估计为
Figure BDA00002580335200097
得到转换后的目标说话人的频谱特征。
第五步,至此得到转换后目标说话人的韵律特征和频谱特征,指导基于谐波加噪声模型的语音合成,得到转换后的语音
Figure BDA00002580335200098
实现语音转换。

Claims (5)

1.一种面向多时间尺度韵律特征的语音转换方法,其特征在于,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:
步骤A,语音信号预处理:对目标说话人和源说话人输入的语音信号,分别依次进行预加重、分帧和加窗处理;
步骤B,语音特征矢量提取,所述语音特征矢量包括语音频谱特征和多时间尺度韵律特征,其中所述多时间尺度韵律特征包括短语尺度下的韵律特征、音节尺度下的韵律特征、语句尺度下的韵律特征,具体提取步骤如下:
对步骤A预处理后的源说话人和目标说话人的语音信号分别进行时域参数分析提取,得到源说话人和目标说话人在音节尺度、语句尺度下的韵律特征;
同时对步骤A预处理后的源说话人和目标说话人的语音信号基于谐波加噪声模型进行分解,求取语音信号的谐波成分和噪声成分,然后对谐波加噪声模型的参数进一步降维与量化,最终分别得到源说话人和目标说话人的语音信号的语音频谱特征、短语尺度下的韵律特征;
步骤C,根据步骤B得到的源说话人、目标说话人的语音信号的多时间尺度韵律特征,对于每一个时间尺度下的源说话人、目标说话人的韵律特征,分别采用双隐马尔科夫模型进行建模,进行动态特性和统计特性的分析,实现各时间尺度下的韵律特征的转换;
步骤D,根据步骤B得到的源说话人、目标说话人的语音信号的语音频谱特征,采用联合高斯混合模型进行建模,实现频谱特征的转换;
所述转换阶段包括如下步骤:
步骤E,输入源说话人新的语音,对源说话人输入的新的语音信号依次进行步骤A所述的语音信号预处理和步骤B所述的语音特征矢量提取操作,得到源说话人新的语音信号的频谱特征和多时间尺度韵律特征;
步骤F,对步骤E得到的源说话人新的语音信号的每个时间尺度韵律特征,采用上述步骤C得到的该时间尺度下的双隐马尔科夫模型分别进行语音韵律特征转换;
步骤G,对步骤E得到的源说话人新的语音信号的频谱特征,采用上述步骤D得到的高斯混合模型进行语音频谱转换,得到转换后的目标说话人的频谱特征;
步骤H,对步骤F和G转换后的语音韵律特征和频谱特征经过谐波加噪声模型进行合成,最终得到转换后的语音。
2.根据权利要求1所述的面向多时间尺度韵律特征的语音转换方法,其特征在于,所述步骤A的预处理步骤中,所述预加重处理的预加重系数为0.96,分帧处理按20ms分帧,所述加窗处理采用汉明窗进行加窗处理。
3.根据权利要求1所述的面向多时间尺度韵律特征的语音转换方法,其特征在于,所述步骤B的多时间尺度韵律特征具体提取步骤如下:
B-1,对短语尺度下的韵律特征,采用矢量量化对经过谐波加噪声模型分解后得到的基频轨迹进行码本量化,结合整个语句中的最大基频,最小基频
Figure FDA00002580335100022
以及基频平均值一起构成短语尺度下的韵律特征;
B-2,对音节尺度下的韵律特征、语句尺度下的韵律特征,
i,对音节尺度下的韵律特征,对于语音信号,选用时长结合标注音节的短时均方能量参数RMSs来描述,所述时长采用标注音节的持续采样点数{Ds,s=1,2,…S}来描述,其中s表示语句中S个音节中的第s个音节,s、S均为正整数;考虑到相邻音节之间的动态特性,将当前音节与下一音节参数之间的差值ΔD=Ds-1-Ds作为补充特征,并且加入整句中音节持续时长的平均值AVGD和音节能量的平均值AVGRMS构成联合特征;
ii,对语句尺度下的韵律特征,采用整个语句的逐帧有效声压级值的量化码本来表征,所述的逐帧有效声压级值根据公式SPLt=20×log(RMSt/(2×10-5))计算,其中RMSt表示语句中第t帧的短时均方能量。
4.根据权利要求1所述的面向多时间尺度韵律特征的语音转换方法,其特征在于,步骤C所述每一时间尺度下的源说话人、目标说话人的韵律特征的转换,具体实现过程如下:
第一步,首先采用动态时间规整算法对源说话人的该时间尺度韵律特征参数和目标说话人的该时间尺度韵律特征参数进行对齐操作,所述的源说话人的该时间尺度韵律特征参数用
Figure FDA00002580335100024
表示,目标说话人的该时间尺度韵律特征参数用
Figure FDA00002580335100025
表示,其中:TX和TY分别表示源说话人和目标说话人语音信号在该时间尺度下韵律特征总的帧数,xt和yt分别表示源说话人和目标说话人语音信号在该时间尺度下的第t帧韵律特征参数;
第二步,采用期望最大化算法训练双隐马尔科夫模型参数集λ={λXY},所述参数集中的λX对应于源说话人的隐马尔科夫模型,在模型训练过程中,与源说话人的特征矢量序列 X = { x 1 , x 2 , · · · , x t , · · · x T X } 相对应的状态序列是 S X = { s x 1 , s x 2 , · · · , s x T S } , 所述参数集中的λY对应于目标说话人的隐马尔科夫模型,在模型训练过程中,与目标说话人的特征矢量序列 Y = { y 1 , y 2 , · · · , y t , · · · y T Y } 相对应的状态序列是 S Y = { s y 1 , s y 2 , · · · , s y T Y } ;
第三步,求解SX和SY在具有最大联合概率p(Y,SY,X,SX|λ)时的隐状态序列对
Figure FDA00002580335100033
用公式表示为:;
( S Y * , S X * ) = arg max S Y , S X p ( Y , S Y , X , S X | λ ) = arg max S Y , S X p ( Y , S Y | X , S X , λ Y ) p ( X , S X | λ X )
= arg max S Y , S X p ( Y | X , S X , S Y , λ Y ) p ( S Y | λ Y ) p ( S Y | λ Y ) p ( X | S X , λ X ) p ( S X | λ X )
第四步,对于源说话人的韵律特征矢量x,当对应的隐状态
Figure FDA00002580335100036
时,基于最小均方误差准则,隐状态
Figure FDA00002580335100037
时的每个高斯混合成分对应的转换函数用公式 y ^ = F s x * = i ( x ) = Σ j = 1 J { p i ( j | x , λ ) × [ μ i , j Y + Σ i , j YX ( Σ i , j XX ) - 1 ( x - μ i , j X ) ] } 表示,得到转换后的目标说话人的韵律特征向量
Figure FDA00002580335100039
其中J表示模型混合数,i、j均为自然数;
Figure FDA000025803351000310
Figure FDA000025803351000311
分别表示源说话人和目标说话人特征矢量在隐状态i时的第j个混合度下对应的均值矢量,
Figure FDA000025803351000312
是源说话人特征矢量对应的协方差矩阵,
Figure FDA000025803351000313
是源说话人和目标说话人特征矢量的互协方差矩阵,pi(j|x,λ)表示源说话人特征矢量x在隐状态i时的第j个混合度下对应的条件概率,用公式
Figure FDA000025803351000314
表示,其中wi,j表示隐状态i时的第j个混合度的权值矢量。
5.根据权利要求1所述的面向多时间尺度韵律特征的语音转换方法,其特征在于,所述步骤F对每一个时间尺度下的韵律特征进行转换的具体实现过程如下:
第一步,在转换阶段,对源说话人新输入的语音信号在该时间尺度下的韵律特征X={x1,x2,…,xt,…xT},其中下标T表示源说话人新输入的语音信号在该时间尺度下的韵律特征总的帧数,t=1,2,…,T,基于源说话人的隐马尔科夫模型λX得到相对应的状态序列SX
第二步,对于源说话人新输入的在该时间尺度下的第t帧韵律特征向量xt,在隐状态
Figure FDA000025803351000315
时,根据训练阶段得到的转换函数求解预估计变量
Figure FDA000025803351000316
y ~ t = F s x t = i ( x t ) = Σ j = 1 J { p i ( j | x t , λ ) × [ μ i , j Y + Σ i , j YX ( Σ i , j XX ) - 1 ( x t - μ i , j X ) ] } ;
第三步,在得到源说话人新输入的语音信号在该时间尺度下的韵律特征X={x1,x2,…,xt,…xT}和预估计变量
Figure FDA00002580335100041
的前提下,基于训练阶段得到的双隐马尔科夫模型参数集λ={λXY},采用维特比算法根据公式 ( S X * , S Y ^ * ) = arg max S X , S Y ^ p ( Y ~ , S Y ~ , λ Y ) p ( S Y ~ | λ Y ) p ( X | S X , λ X ) p ( S X | λ X ) , 求解转换阶段具有最小联合概率的最优状态序列对其中p(SXY)和分别表示源说话人该时间尺度下的的韵律特征矢量和预估计变量
Figure FDA00002580335100045
在隐马尔科夫模型中对应的状态转移概率;
第四步,至此,基于极大似然概率准则,转换后的目标说话人特征矢量
Figure FDA00002580335100046
根据公式 Y ^ = F S X * ( X ) = { F S x 1 * ( x 1 ) , F S x 2 * ( x 2 ) , · · · , F S x T * ( x T ) } 得到。
CN201210538744XA 2012-12-13 2012-12-13 一种面向多时间尺度韵律特征的语音转换方法 Pending CN103021418A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210538744XA CN103021418A (zh) 2012-12-13 2012-12-13 一种面向多时间尺度韵律特征的语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210538744XA CN103021418A (zh) 2012-12-13 2012-12-13 一种面向多时间尺度韵律特征的语音转换方法

Publications (1)

Publication Number Publication Date
CN103021418A true CN103021418A (zh) 2013-04-03

Family

ID=47969948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210538744XA Pending CN103021418A (zh) 2012-12-13 2012-12-13 一种面向多时间尺度韵律特征的语音转换方法

Country Status (1)

Country Link
CN (1) CN103021418A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886859A (zh) * 2014-02-14 2014-06-25 河海大学常州校区 基于一对多码书映射的语音转换方法
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
CN104299621A (zh) * 2014-10-08 2015-01-21 百度在线网络技术(北京)有限公司 一种音频文件的节奏感强度获取方法及装置
CN105390141A (zh) * 2015-10-14 2016-03-09 科大讯飞股份有限公司 声音转换方法和装置
CN107545903A (zh) * 2017-07-19 2018-01-05 南京邮电大学 一种基于深度学习的语音转换方法
CN107871497A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 语音识别方法和装置
CN109712634A (zh) * 2018-12-24 2019-05-03 东北大学 一种自动声音转换方法
CN110010136A (zh) * 2019-04-04 2019-07-12 北京地平线机器人技术研发有限公司 韵律预测模型的训练和文本分析方法、装置、介质和设备
CN110782908A (zh) * 2019-11-05 2020-02-11 广州欢聊网络科技有限公司 一种音频信号处理的方法及装置
WO2020118521A1 (en) * 2018-12-11 2020-06-18 Microsoft Technology Licensing, Llc Multi-speaker neural text-to-speech synthesis
CN113327627A (zh) * 2021-05-24 2021-08-31 清华大学深圳国际研究生院 一种基于特征解耦的多因素可控的语音转换方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751922A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 基于隐马尔可夫模型状态映射的文本无关语音转换系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751922A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 基于隐马尔可夫模型状态映射的文本无关语音转换系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHUNG-HSIEN WU,ET AL.: "Voice Conversion Using Duration-Embedded Bi-HMMs for Expressive Speech Synthesis", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》, vol. 14, no. 4, 31 July 2006 (2006-07-31), pages 1109 - 1116 *
李燕萍等: "基于多时间尺度韵律特征分析的语音转换研究", 《计算机技术与发展》, vol. 22, no. 12, 10 December 2012 (2012-12-10) *
李燕萍等: "基于音素分类的汉语语声转换算法", 《南京邮电大学学报(自然科学版)》, vol. 31, no. 1, 28 February 2011 (2011-02-28) *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886859B (zh) * 2014-02-14 2016-08-17 河海大学常州校区 基于一对多码书映射的语音转换方法
CN103886859A (zh) * 2014-02-14 2014-06-25 河海大学常州校区 基于一对多码书映射的语音转换方法
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
CN104299621A (zh) * 2014-10-08 2015-01-21 百度在线网络技术(北京)有限公司 一种音频文件的节奏感强度获取方法及装置
CN104299621B (zh) * 2014-10-08 2017-09-22 北京音之邦文化科技有限公司 一种音频文件的节奏感强度获取方法及装置
CN105390141A (zh) * 2015-10-14 2016-03-09 科大讯飞股份有限公司 声音转换方法和装置
CN105390141B (zh) * 2015-10-14 2019-10-18 科大讯飞股份有限公司 声音转换方法和装置
CN107871497A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 语音识别方法和装置
CN107545903A (zh) * 2017-07-19 2018-01-05 南京邮电大学 一种基于深度学习的语音转换方法
CN107545903B (zh) * 2017-07-19 2020-11-24 南京邮电大学 一种基于深度学习的语音转换方法
WO2020118521A1 (en) * 2018-12-11 2020-06-18 Microsoft Technology Licensing, Llc Multi-speaker neural text-to-speech synthesis
CN109712634A (zh) * 2018-12-24 2019-05-03 东北大学 一种自动声音转换方法
CN110010136A (zh) * 2019-04-04 2019-07-12 北京地平线机器人技术研发有限公司 韵律预测模型的训练和文本分析方法、装置、介质和设备
CN110782908B (zh) * 2019-11-05 2020-06-16 广州欢聊网络科技有限公司 一种音频信号处理的方法及装置
CN110782908A (zh) * 2019-11-05 2020-02-11 广州欢聊网络科技有限公司 一种音频信号处理的方法及装置
CN113327627A (zh) * 2021-05-24 2021-08-31 清华大学深圳国际研究生院 一种基于特征解耦的多因素可控的语音转换方法及系统
CN113327627B (zh) * 2021-05-24 2024-04-05 清华大学深圳国际研究生院 一种基于特征解耦的多因素可控的语音转换方法及系统

Similar Documents

Publication Publication Date Title
CN103021418A (zh) 一种面向多时间尺度韵律特征的语音转换方法
CN103928023B (zh) 一种语音评分方法及系统
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN101751922B (zh) 基于隐马尔可夫模型状态映射的文本无关语音转换系统
Wu et al. Voice conversion using duration-embedded bi-HMMs for expressive speech synthesis
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
CN105869624A (zh) 数字语音识别中语音解码网络的构建方法及装置
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN1815552B (zh) 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN110060657A (zh) 基于sn的多对多说话人转换方法
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
Tobing et al. Voice conversion with cyclic recurrent neural network and fine-tuned WaveNet vocoder
CN106782599A (zh) 基于高斯过程输出后滤波的语音转换方法
Singh et al. Data augmentation using cyclegan for end-to-end children asr
Jalin et al. Text to speech synthesis system for tamil using HMM
Chen et al. The USTC System for Voice Conversion Challenge 2016: Neural Network Based Approaches for Spectrum, Aperiodicity and F0 Conversion.
Nazir et al. Deep learning end to end speech synthesis: A review
Cahyaningtyas et al. Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN
CN114512121A (zh) 语音合成方法、模型训练方法及装置
Aroon et al. Statistical parametric speech synthesis: A review
Bahaadini et al. Implementation and evaluation of statistical parametric speech synthesis methods for the Persian language
Oura et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2009
Nguyen et al. A Linguistic-based Transfer Learning Approach for Low-resource Bahnar Text-to-Speech
Raju et al. Importance of non-uniform prosody modification for speech recognition in emotion conditions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130403