CN103021418A

CN103021418A - 一种面向多时间尺度韵律特征的语音转换方法

Info

Publication number: CN103021418A
Application number: CN201210538744XA
Authority: CN
Inventors: 李燕萍; 张玲华
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2012-12-13
Filing date: 2012-12-13
Publication date: 2013-04-03

Abstract

本发明公开了一种面向多时间尺度韵律特征的语音转换方法，属于语音信号处理技术领域。该方法首先对语音信号进行多时间尺度下的韵律特征分析与参数化提取，其次基于双隐马尔科夫模型对提取的多时间尺度韵律特征建立转换模型；最后在转换阶段，形成目标说话人的估计特征，得到转换后的语音。本发明不仅能够实现对韵律特性从整体到局部细致完整的刻画，克服韵律信息表述的模糊性和复杂性，而且通过时序性统计模型的建立，实现多时间尺度的韵律特征转换，增强转换语音的说话人个性信息，同时提高转换语音的可懂度和自然度。

Description

一种面向多时间尺度韵律特征的语音转换方法

技术领域

本发明涉及一种语音转换技术，尤其是一种基于双隐马尔科夫模型的多时间尺度韵律特征的语音转换方法，属于语音信号处理技术领域。

背景技术

语音转换是语音信号处理领域近年来新兴的研究分支，是在说话人识别和语音合成的研究基础上进行的，同时也是这两个分支内涵的丰富和延拓。

语音转换的目标是改变源说话人语音中的个性特征信息，使之具有目标说话人的个性特征，从而使转换后的语音听起来就像是目标说话人的声音，而其中的语义信息保持不变。

性能良好的语音转换系统，既要保持重构语音的听觉质量，又要兼顾转换后的目标说话人个性特征是否准确，现有的语音转换算法大多单纯关注频谱特征的准确转换，重建的语音尽管与目标说话人声音个性相似，但存在发音模糊和不连续现象，自然度较差。由于韵律信息的表述具有复杂性和不稳定性，对其建立有效的数学模型和参数提取存在一定的困难与挑战，一直以来对韵律特征转换的研究成果较少。然而，众所周知，韵律特性对语音信号的可懂度和自然度贡献显著，随着和谐人机交互技术的进一步发展，对韵律特性的重视和深入研究在语音转换、情感语音合成和情感识别等情感信息处理领域达成广泛共识。

在韵律特性研究方面，传统观点认为韵律特征指的是超音段特征，即语音信号在超音段层次上表现出来的时间演变特性，并且认为这种特性与语音音段在时间轴的排列顺序无关，然而本质上韵律特性与音段类特性之间存在有相关性，因此这种观点存在一定的局限性。

相关的文献比如：1.Padmalaya Pattnaik,Shreela Dash.A study on prosody analysis.International Journal of Computational Engineering Research,2012,2(5):1594-1599.

2.Takashi Nose,Takao Kobayashi.Speaker-independent HMM-based voice conversionusing adaptive quantization of the fundamental frequency.Speech Communication,2011,53(7):973-985。

另一种观点认为，韵律特征是一类参数的集合，这类参数描述的是语音信号由不同层次成分构成时的组织结构和特有规律，这种观点提取的语音参数着重于描述不同层次语义单元在构成语音信号时的结构特点。

相关的文献比如：3.K.Sreenivasa Rao.Voice conversion by mapping the speaker-specificfeatures using pitch synchronous approach.Computer Speech and Language,2010,24(3):474-494.

4.Raul Fernandez,Rosalind Picard.Recognizing affect from speech prosody usinghierarchical graphical models.Speech Communication,2011,53(9-10):1088-1103。

发明内容

本发明的所要解决的技术问题是提供一种面向多时间尺度韵律特征的语音转换方法，达到增强转换语音中的说话人个性特征的同时提高转换语音的听觉质量与自然度。

本发明为解决以上技术问题采用如下技术方案：

一种面向多时间尺度韵律特征的语音转换方法，包括训练阶段和转换阶段，其中所述训练阶段包括如下步骤：

步骤A，语音信号预处理：对目标说话人和源说话人输入的语音信号，分别依次进行预加重、分帧和加窗处理；

步骤B，语音特征矢量提取，所述语音特征矢量包括语音频谱特征和多时间尺度韵律特征，其中所述多时间尺度韵律特征包括短语尺度下的韵律特征、音节尺度下的韵律特征、语句尺度下的韵律特征，具体提取步骤如下：

对步骤A预处理后的源说话人和目标说话人的语音信号分别进行时域参数分析提取，得到源说话人和目标说话人在音节尺度、语句尺度下的韵律特征；

同时对步骤A预处理后的源说话人和目标说话人的语音信号基于谐波加噪声模型进行分解，求取语音信号的谐波成分和噪声成分，然后对谐波加噪声模型的参数进一步降维与量化，最终分别得到源说话人和目标说话人的语音信号的语音频谱特征、短语尺度下的韵律特征；

步骤C，根据步骤B得到的源说话人、目标说话人的语音信号的多时间尺度韵律特征，对于每一个时间尺度下的源说话人、目标说话人的韵律特征，分别采用双隐马尔科夫模型进行建模，进行动态特性和统计特性的分析，实现各时间尺度下的韵律特征的转换；

步骤D，根据步骤B得到的源说话人、目标说话人的语音信号的语音频谱特征，采用联合高斯混合模型进行建模，实现频谱特征的转换；

所述转换阶段包括如下步骤：

步骤E，输入源说话人新的语音，对源说话人输入的新的语音信号依次进行步骤A所述的语音信号预处理和步骤B所述的语音特征矢量提取操作，得到源说话人新的语音信号的频谱特征和多时间尺度韵律特征；

步骤F，对步骤E得到的源说话人新的语音信号的每个时间尺度韵律特征，采用上述步骤C得到的该时间尺度下的双隐马尔科夫模型分别进行语音韵律特征转换；

步骤G，对步骤E得到的源说话人新的语音信号的频谱特征，采用上述步骤D得到的高斯混合模型进行语音频谱转换，得到转换后的目标说话人的频谱特征；

步骤H，对步骤F和G转换后的语音韵律特征和频谱特征经过谐波加噪声模型进行合成，最终得到转换后的语音。

作为本发明的面向多时间尺度韵律特征的语音转换方法的进一步优化方案，所述步骤A的预处理步骤中，所述预加重处理的预加重系数为0.96，分帧处理按20ms分帧，所述加窗处理采用汉明窗进行加窗处理。

作为本发明的面向多时间尺度韵律特征的语音转换方法的进一步优化方案，步骤B的多时间尺度韵律特征具体提取步骤如下：

B-1，对短语尺度下的韵律特征，采用矢量量化对经过谐波加噪声模型分解后得到的基频轨迹进行码本量化，结合整个语句中的最大基频

最小基频

以及基频平均值

一起构成短语尺度下的韵律特征；

B-2，对音节尺度下的韵律特征、语句尺度下的韵律特征，

i，对音节尺度下的韵律特征，对于语音信号，选用时长结合标注音节的短时均方能量参数RMS_s来描述，所述时长采用标注音节的持续采样点数{D_s,s=1,2,…S}来描述，其中s表示语句中S个音节中的第s个音节，s、S均为正整数；考虑到相邻音节之间的动态特性，将当前音节与下一音节参数之间的差值Δ_D=D_s-1-D_s作为补充特征，并且加入整句中音节持续时长的平均值AVG_D和音节能量的平均值AVG_RMS构成联合特征；

ii，对语句尺度下的韵律特征，采用整个语句的逐帧有效声压级值的量化码本来表征，所述的逐帧有效声压级值根据公式SPL_t=20×log(RMS_t/(2×10^-5))计算，其中RMS_t表示语句中第t帧的短时均方能量。

作为本发明的面向多时间尺度韵律特征的语音转换方法的进一步优化方案，步骤C所述每一时间尺度下的源说话人、目标说话人的韵律特征的转换，具体实现过程如下：

第一步，首先采用动态时间规整算法对源说话人的该时间尺度韵律特征参数和目标说话人的该时间尺度韵律特征参数进行对齐操作，所述的源说话人的该时间尺度韵律特征参数用

表示，目标说话人的该时间尺度韵律特征参数用

表示，其中：T_X和T_Y分别表示源说话人和目标说话人语音信号在该时间尺度下韵律特征总的帧数，x_t和y_t分别表示源说话人和目标说话人语音信号在该时间尺度下的第t帧韵律特征参数；

第二步，采用期望最大化算法训练双隐马尔科夫模型参数集λ={λ_X,λ_Y}，所述参数集中的λ_X对应于源说话人的隐马尔科夫模型，在模型训练过程中，与源说话人的特征矢量序列

X = {x_{1}, x_{2}, \cdot \cdot \cdot, x_{t}, \cdot \cdot \cdot x_{T_{X}}}

相对应的状态序列是

S_{X} = {s_{x_{1}}, s_{x_{2}}, \cdot \cdot \cdot, s_{x_{T_{S}}}},

所述参数集中的λ_Y对应于目标说话人的隐马尔科夫模型，在模型训练过程中，与目标说话人的特征矢量序列

Y = {y_{1}, y_{2}, \cdot \cdot \cdot, y_{t}, \cdot \cdot \cdot y_{T_{Y}}}

相对应的状态序列是

S_{Y} = {s_{y_{1}}, s_{y_{2}}, \cdot \cdot \cdot, s_{y_{T_{Y}}}};

第三步，求解S_X和S_Y在具有最大联合概率p(Y,S_Y,X,S_X|λ)时的隐状态序列对

用公式表示为：；

(S_{Y}^{*}, S_{X}^{*}) = \underset{S_{Y}, S_{X}}{\arg \max} p (Y, S_{Y}, X, S_{X} | λ) = \underset{S_{Y}, S_{X}}{\arg \max} p (Y, S_{Y} | X, S_{X}, λ_{Y}) p (X, S_{X} | λ_{X})

= \underset{S_{Y}, S_{X}}{\arg \max} p (Y | X, S_{X}, S_{Y}, λ_{Y}) p (S_{Y} | λ_{Y}) p (S_{Y} | λ_{Y}) p (X | S_{X}, λ_{X}) p (S_{X} | λ_{X})

第四步，对于源说话人的韵律特征矢量x，当对应的隐状态

时，基于最小均方误差准则，隐状态

时的每个高斯混合成分对应的转换函数用公式

\hat{y} = F_{s_{x}^{*} = i} (x) = Σ_{j = 1}^{J} {p_{i} (j | x, λ) \times [μ_{i, j}^{Y} + Σ_{i, j}^{YX} {(Σ_{i, j}^{XX})}^{- 1} (x - μ_{i, j}^{X})]}

表示，得到转换后的目标说话人的韵律特征向量

其中J表示模型混合数，i、j均为自然数；

和

分别表示源说话人和目标说话人特征矢量在隐状态i时的第j个混合度下对应的均值矢量，

是源说话人特征矢量对应的协方差矩阵，是源说话人和目标说话人特征矢量的互协方差矩阵，p_i(j|x,λ)表示源说话人特征矢量x在隐状态i时的第j个混合度下对应的条件概率，用公式表示，其中w_i,j表示隐状态i时的第j个混合度的权值矢量。

作为本发明的面向多时间尺度韵律特征的语音转换方法的进一步优化方案，步骤F对每一个时间尺度下的韵律特征进行转换的具体实现过程如下：

第一步，在转换阶段，对源说话人新输入的语音信号在该时间尺度下的韵律特征X={x₁,x₂,…,x_t,…x_T}，其中下标T表示源说话人新输入的语音信号在该时间尺度下的韵律特征总的帧数，t=1,2,…,T，基于源说话人的隐马尔科夫模型λY得到相对应的状态序列S_X；

第二步，对于源说话人新输入的在该时间尺度下的第t帧韵律特征向量x_t，在隐状态时，根据训练阶段得到的转换函数求解预估计变量

{\tilde{y}}_{t} = F_{s_{x_{t}} = i} (x_{t}) = Σ_{j = 1}^{J} {p_{i} (j | x_{t}, λ) \times [μ_{i, j}^{Y} + Σ_{i, j}^{YX} {(Σ_{i, j}^{XX})}^{- 1} (x_{t} - μ_{i, j}^{X})]};

第三步，在得到源说话人新输入的语音信号在该时间尺度下的韵律特征X={x₁,x₂,…,x_t,…x_T}和预估计变量

的前提下，基于训练阶段得到的双隐马尔科夫模型参数集λ={λ_X,λ_Y}，采用维特比算法根据公式

(S_{X}^{*}, S_{\hat{Y}}^{*}) = \underset{S_{X}, S_{\hat{Y}}}{\arg \max} p (\tilde{Y}, S_{\tilde{Y}}, λ_{Y}) p (S_{\tilde{Y}} | λ_{Y}) p (X | S_{X}, λ_{X}) p (S_{X} | λ_{X}),

求解转换阶段具有最小联合概率的最优状态序列对

其中p(S_X|λ_Y)和

分别表示源说话人该时间尺度下的的韵律特征矢量和预估计变量

在隐马尔科夫模型中对应的状态转移概率；

第四步，至此，基于极大似然概率准则，转换后的目标说话人特征矢量

根据公式

\hat{Y} = F_{S_{X}^{*}} (X) = {F_{S_{x_{1}}^{*}} (x_{1}), F_{S_{x_{2}}^{*}} (x_{2}), \cdot \cdot \cdot, F_{S_{x_{T}}^{*}} (x_{T})}

得到。

本发明与现有技术相比，其显著优点：

1.语音信号的不同韵律特性在不同的时间尺度下得到最合适的表征，本发明采用逐级细化的策略实现语音信号在多时间尺度下的韵律特征分析与参数化提取，实现对韵律特性从整体到局部细致完整的刻画，这种抽取方法不仅可以降低韵律特性表述的模糊性和复杂性，也符合语音信号表达高层次信息的方式，提取的韵律特征必将作为音段特征的重要补充。

2.对于提取的每一个时间尺度下的韵律特征，采用双隐马尔科夫模型进行转换函数的建模，既考虑了语音信号在时域的结构组织特点，又通过模型中的状态转移概率描述了相邻韵律特征之间的相关性约束与信息补充，保证了重构语音的可懂度与自然度。

附图说明

图1是本发明基于双隐马尔科夫模型的多时间尺度韵律特征转换示意图。

图2是多时间尺度韵律特征提取示意图，图中上半部分为时域波形；下半部分为韵律特性示意图，其中实线的非连续包络为基频轨迹，虚线的连续包络为反映强度的有效声压级轨迹。

图3是双隐马尔科夫模型中源说话人和目标说话人的隐状态对应示意图。

具体实施方案

下面结合附图对技术方案的实施作进一步的详细描述：

如图1，本发明基于双隐马尔科夫模型的多时间尺度韵律特征转换方法，步骤如下：

第一步，对输入的源说话人和目标说话人的语音信号进行预加重、分帧和加窗等预处理后，如图2所示，根据语音信号的语法规则和人耳的听觉感知特性，一个语句可以分解为若干短语，这些短语能够完整独立地表达一个语义。一个短语可以划分为若干音节，每个音节是发音的基本单元。语音信号的不同韵律特性在不同的时间尺度下得到最合适的表征，将语音划分为语句、短语和音节三个时间尺度，在多时间尺度上分析语音的韵律特性，分别抽取对应的韵律特征，其中：

语句尺度下的特征描述韵律的全局长时信息；

音节尺度下的特征描述韵律的局部细节信息；

短语介于全局和局部之间，描述音节构成语句时的语法规则约束与信息补充。

完成语句、短语和音节三个时间尺度的韵律特征的提取与参数化表示，具体过程如下：

(1)预加重处理的预加重系数为0.96，分帧处理按20ms分帧，加窗处理采用汉明窗进行加窗处理。

(2)对经过预处理后的源说话人和目标说话人的语音信号，基于谐波加噪声模型进行分解，求取语音信号的谐波成分和噪声成分，然后对谐波加噪声模型的参数进一步降维，提取语音信号的线性谱频率参数，分别得到源说话人和目标说话人的语音信号的频谱特征和基频轨迹韵律特征，采用矢量量化对基频轨迹进行码本量化，结合整个语句中的最大基频

，最小基频

以及基频平均值

一起构成短语尺度下的韵律特征。

(3)对音节尺度下的韵律特征，对于语音信号，选用时长结合标注音节的短时均方能量参数RMS_s来描述，所述时长采用标注音节的持续采样点数{D_s,s=1,2,…S}来描述，其中s表示语句中S个音节中的第s个音节，s、S均为正整数；所述标注音节的短时均方能量RMS_s根据公式

计算，考虑到相邻音节之间的动态特性，将当前音节与下一音节参数之间的差值Δ_D=D_s-1-D_s作为补充特征，并且加入整句中音节持续时长的平均值AVG_D和音节能量的平均值AVG_RMS构成联合特征。

(4)对语句尺度下的韵律特征，采用整个语句的逐帧有效声压级值的量化码本来表征，所述的逐帧有效声压级值根据公式SPL_t=20×log(RMS_t/(2×10^-5))计算，其中RMS_t表示语句中第t帧的短时均方能量，根据公式计算，其中D_t表示第t帧语音信号的持续采样点数。

第二步，韵律特征转换模型的建立，鉴于隐马尔科夫模型的隐状态转移概率能够有效地反映信号的动态时序信息，本发明在训练的过程中，采用双隐马尔科夫模型对第一步得到的源说话人和目标说话人的每个时间尺度的韵律特征矢量分别进行概率建模，如果采用联合估计，两个隐马尔科夫模型对应的混合概率成分和转移概率会存在混乱。因此，如图3所示，采用动态时间规整对源说话人和目标说话人的每个时间尺度的韵律特征矢量进行对齐操作，实现两个隐马尔科夫模型的隐状态对齐，构建每个隐状态下的转换函数。

具体过程如下：

(1)采用动态时间规整算法对源说话人的韵律特征参数和目标说话人的韵律特征参数进行对齐操作，其中源说话人的韵律特征参数和目标说话人的韵律特征参数分别用

X = {x_{1}, x_{2}, \cdot \cdot \cdot, x_{t}, \cdot \cdot \cdot x_{T_{X}}}

和

Y = {y_{1}, y_{2}, \cdot \cdot \cdot, y_{t}, \cdot \cdot \cdot y_{T_{Y}}}

表示，T_X和T_Y分别表示源说话人和目标说话人韵律特征总的帧数，x_t和y_t分别表示源说话人和目标说话人的第t帧韵律特征参数。

(2)采用期望最大化算法训练双隐马尔科夫模型参数集λ={λ_X,λ_Y}，所述参数集中的λ_X对应于源说话人的隐马尔科夫模型，在模型训练过程中，与源说话人的特征矢量序列

X = {x_{1}, x_{2}, \cdot \cdot \cdot, x_{t}, \cdot \cdot \cdot x_{T_{X}}}

相对应的状态序列是

S_{X} = {s_{x_{1}}, s_{x_{2}}, \cdot \cdot \cdot, s_{x_{T_{S}}}} .

Y = {y_{1}, y_{2}, \cdot \cdot \cdot, y_{t}, \cdot \cdot \cdot y_{T_{Y}}}

相对应的状态序列是

S_{Y} = {s_{y_{1}}, s_{y_{2}}, \cdot \cdot \cdot, s_{y_{T_{Y}}}} .

(3)求解S_X和S_Y在具有最大联合概率p(Y,S_Y,X,S_X|λ)时的隐状态序列对

用公式表示为：

(S_{Y}^{*}, S_{X}^{*}) = \underset{S_{Y}, S_{X}}{\arg \max} p (Y, S_{Y}, X, S_{X} | λ) = \underset{S_{Y}, S_{X}}{\arg \max} p (Y, S_{Y} | X, S_{X}, λ_{Y}) p (X, S_{X} | λ_{X})

= \underset{S_{Y}, S_{X}}{\arg \max} p (Y | X, S_{X}, S_{Y}, λ_{Y}) p (S_{Y} | λ_{Y}) p (S_{Y} | λ_{Y}) p (X | S_{X}, λ_{X}) p (S_{X} | λ_{X}) .

(4)对于源说话人的韵律特征矢量x，当对应的隐状态

时，基于最小均方误差准则，隐状态

时的每个高斯混合成分对应的转换函数用公式

\hat{y} = F_{s_{x}^{*} = i} (x) = Σ_{j = 1}^{J} {p_{i} (j | x, λ) \times [μ_{i, j}^{Y} + Σ_{i, j}^{YX} {(Σ_{i, j}^{XX})}^{- 1} (x - μ_{i, j}^{X})]}

表示，得到转换后的目标说话人的韵律特征向量

其中J表示模型混合数，

和分别表示源说话人和目标说话人特征矢量在隐状态i时的第j个混合度下对应的均值矢量，是源说话人特征矢量对应的协方差矩阵，

是源说话人和目标说话人特征矢量的互协方差矩阵，p_i(j|x,λ)表示源说话人特征矢量x在隐状态i时的第j个混合度下对应的条件概率，用公式

表示，其中w_i,j表示隐状态i时的第j个混合度的权值矢量，其中i、j均为自然数。

第三步，韵律特征转换，即对于转换阶段输入的源说话人语音X，采用第二步训练的转换模型实现韵律特征的转换。具体实现过程如下：

(1)在转换阶段，对源说话人新输入的语音信号的韵律特征X，基于源说话人的隐马尔科夫模型λ_X得到相对应的状态序列S_X。

(2)对于源说话人新输入的韵律特征向量x，在隐状态S_x=i时，根据训练阶段得到的转换函数求解预估计变量

\hat{y} = F_{s_{x} = i} (x) = Σ_{j = 1}^{J} {p_{i} (j | x, λ) \times [μ_{i, j}^{Y} + Σ_{i, j}^{YX} {(Σ_{i, j}^{XX})}^{- 1} (x - μ_{i, j}^{X})]} .

(3)在得到源说话人新输入的语音信号的韵律特征X和预估计变量

(S_{X}^{*}, S_{\hat{Y}}^{*}) = \underset{S_{X}, S_{\hat{Y}}}{\arg \max} p (\tilde{Y}, S_{\tilde{Y}}, λ_{Y}) p (S_{\tilde{Y}} | λ_{Y}) p (X | S_{X}, λ_{X}) p (S_{X} | λ_{X}),

求解转换阶段具有最小联合概率的最优状态序列对

其中p(S_X|λ_Y)和

分别表示源说话人的特征矢量X和预估计变量在隐马尔科夫模型中对应的状态转移概率。

(4)至此，基于极大似然概率准则，转换后的目标说话人的韵律特征矢量

根据公式

\hat{Y} = F_{S_{X}^{*}} (X) = {F_{S_{x_{1}}^{*}} (x_{1}), F_{S_{x_{2}}^{*}} (x_{2}), \cdot \cdot \cdot, F_{S_{x_{T}}^{*}} (x_{T})}

得到。

第四步，频谱特征转换，对第一步得到的频谱特征基于经典的高斯混合模型进行转换，具体过程如下：

(1)在训练阶段，采用动态时间规整算法对源说话人和目标说话人的L维频谱特征矢量序列X={x_t,t=1,2,…,T′_x}和Y={y_t,t=1,2,…,T′_y}进行对齐，将相应的x_t和y_t拼接成一个2L维特征矢量，

Z = {[\begin{matrix} x_{t} \\ y_{t} \end{matrix}], t = 1,2, \cdot \cdot \cdot, T_{z}^{'}},

至此，形成一个新的矢量空间Z={z_t,t=1,2,…T′_z}；其中：T′_x、T′_y分别表示源说话人和目标说话人语音信号频谱特征矢量总的帧数；T′_z表示x_t和y_t拼接后形成的特征矢量总的帧数。

(2)利用高斯混合模型对新的特征向量Z进行概率密度建模，用期望最大化算法迭代训练模型的参数，设z_t的概率密度函数为

p (z_{t}) = Σ_{m = 1}^{M} ω_{m} \cdot N (z_{t}; μ_{m}, Σ_{m}), t = 1,2, \cdot \cdot \cdot T_{z}^{'},

其中μ_m和∑_m分别是第m个高斯混合分量的均值和协方差矩阵，分别表示为：

μ_{m} = [\begin{matrix} μ_{mX} \\ μ_{mY} \end{matrix}],

Σ_{m} = [\begin{matrix} Σ_{mXX} & Σ_{mXY} \\ Σ_{mYX} & Σ_{mYY} \end{matrix}],

若X已知，则在最小均方误差估计准则下，对Y的估计用公式表示为

其中μ_X和μ_Y分别是X和Y的均值，∑_YX是Y和X的互协方差矩阵，∑_XX是X的协方差矩阵。

(3)在转换阶段，当源说话人新输入的频谱特征矢量是x′_t时，采用训练阶段得到的高斯混合模型，对转换后目标说话人的频谱特征

的最小均方误差估计为

得到转换后的目标说话人的频谱特征。

第五步，至此得到转换后目标说话人的韵律特征和频谱特征，指导基于谐波加噪声模型的语音合成，得到转换后的语音

实现语音转换。

Claims

1.一种面向多时间尺度韵律特征的语音转换方法，其特征在于，包括训练阶段和转换阶段，其中所述训练阶段包括如下步骤：

所述转换阶段包括如下步骤：

2.根据权利要求1所述的面向多时间尺度韵律特征的语音转换方法，其特征在于，所述步骤A的预处理步骤中，所述预加重处理的预加重系数为0.96，分帧处理按20ms分帧，所述加窗处理采用汉明窗进行加窗处理。

3.根据权利要求1所述的面向多时间尺度韵律特征的语音转换方法，其特征在于，所述步骤B的多时间尺度韵律特征具体提取步骤如下：

B-1，对短语尺度下的韵律特征，采用矢量量化对经过谐波加噪声模型分解后得到的基频轨迹进行码本量化，结合整个语句中的最大基频，最小基频

以及基频平均值一起构成短语尺度下的韵律特征；

B-2，对音节尺度下的韵律特征、语句尺度下的韵律特征，

i，对音节尺度下的韵律特征，对于语音信号，选用时长结合标注音节的短时均方能量参数RMS_s来描述，所述时长采用标注音节的持续采样点数{D_s,s=1,2,…S}来描述，其中s表示语句中S个音节中的第s个音节，s、S均为正整数；考虑到相邻音节之间的动态特性，将当前音节与下一音节参数之间的差值ΔD=D_s-1-D_s作为补充特征，并且加入整句中音节持续时长的平均值AVG_D和音节能量的平均值AVG_RMS构成联合特征；

4.根据权利要求1所述的面向多时间尺度韵律特征的语音转换方法，其特征在于，步骤C所述每一时间尺度下的源说话人、目标说话人的韵律特征的转换，具体实现过程如下：