CN101751921A - 一种在训练数据量极少条件下的实时语音转换方法 - Google Patents
一种在训练数据量极少条件下的实时语音转换方法 Download PDFInfo
- Publication number
- CN101751921A CN101751921A CN200910263101A CN200910263101A CN101751921A CN 101751921 A CN101751921 A CN 101751921A CN 200910263101 A CN200910263101 A CN 200910263101A CN 200910263101 A CN200910263101 A CN 200910263101A CN 101751921 A CN101751921 A CN 101751921A
- Authority
- CN
- China
- Prior art keywords
- centerdot
- parameter
- sigma
- theta
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提出了一种在训练数据量极少条件下的实时语音转换方法,利用集成学习理论(Ensemble Learning,EL)对采集到的数据进行高斯混合模型(Gaussian Mixture Model,GMM)的建模,并在均方误差最小(Minimum Mean Square Error,MMSE)的准则下设计映射函数。避免了标准的GMM模型在数据量极少的情况下容易产生过拟合(Over-fitting)的问题,提高了语音转换算法对数据量问题的鲁棒性。同时本发明方法在估算GMM参数的过程中的运算复杂度较标准的GMM低,因此适用于进行实时的语音转换。
Description
技术领域
本发明涉及语音转换技术(Voice conversion,VC),尤其涉及一种在训练数据量极少条件下的实时语音转换方法,是用于文语转换系统和机器人发声系统的基于统计分析模型的语音转换方案,属于信号处理特别是语音信号处理技术领域。
背景技术
本专利所涉及的知识领域被称为语音转换技术,是语音信号处理领域近年来新兴的研究分支,涵盖了说话人识别和语音合成的核心技术,并使之结合到一起以达到统一的目标,即:在保持语义内容不变的情况下,通过改变一个特定说话人(被称为源说话人,Sourcespeaker)的话音个性特征,使他(或她)说的话被听者认为是另一个特定说话人(被称为目标说话人,Target speaker)说的话。简而言之,语音转换的主要任务包括提取代表说话人个性的特征参数并进行数学变换,然后将变换后的参数重构成语音。在这过程中,既要保持重构语音的听觉质量,又要兼顾转换后的个性特征是否准确。
经过多年的发展,语音转换领域虽然已经涌现出大量的算法,但是这些算法都只是在实验室环境下才能运行的,即需要充足的训练数据。但是现实情况往往比较“残酷”,特别是目标说话人的语音数据常常难以收集,或者只能采集到一小部分,例如几秒钟。在这种恶劣的环境下,如果直接套用传统的语音转换算法,就会导致系统不稳定或者崩溃。之所以会产生这样的问题,原因不外乎以下两点:①在训练数据量较少,待估计的模型参数较多的情况下,系统形成了一种所谓的“欠学习”的情况,即估计得到的模型对数据“拟合”的不理想,或者虽然对这部分数据“拟合”的比较理想,但是对其他数据的“预测”性能却不佳。这种现象也常常被称为“模型的过拟合”(Over-fitting)问题。②传统的最常用的估计模型参数的方法是最大似然估计(Maximum Likelihood,ML)和最大后验概率估计(Maximum a Posterior,MAP)。但遗憾的是,这两种方法都是“点估计”方法,即它们选取的最优参数往往是使似然函数或后验概率函数取局部最大值的那个值。如果训练数据量较多,尚有一定的普适性,但在数据量较少的情况下,以上两种方法选取的最优点常常不具有代表性,即它们只能代表这些已有的一小部分数据的最优,而不能代表其他众多数据的最优值。
一般来说,语音转换系统的核心步骤之一是对采集的数据进行统计建模,即用统计概率模型(Statistical Model)来拟合数据的概率分布,进而得到与之有关的信息,方便后续步骤加以利用。在这个过程中,如何利用已有数据来“学习”或“预测”模型的参数就成为了最为关键的问题。期望最大化算法(Expectation Maximization,EM)被公认为一种学习统计模型参数的优秀算法,因此被广泛采用。但是由于它是一种局部优化算法,因此往往会使结果陷入局部最小值的误区,特别是在训练数据量较少的情况下,这个问题更为明显,这种现象亦被称为“模型的过拟合”问题(Over-fitting)。考虑到在现实的环境下,我们收集到的语音数据往往是稀疏的,即数据量较少,因此经典的EM算法肯定是不适用的。
目前国际、国内尚未出现研究如何在训练数据稀少情况下进行语音转换的课题,发明内容在该领域尚属首创。
发明内容
针对现有技术之不足,本发明提出了一种在训练数据量极少条件下的实时语音转换方法,该方法在采集到的语音数据(训练数据)数量特别少的恶劣情况下,能保证语音转换系统的正常运行。
本发明的技术方案是:一种在训练数据量极少条件下的实时语音转换方法,其特征在于:利用集成学习理论对采集到的训练数据进行高斯混合模型的建模,并在均方误差最小的准则下设计映射函数,用映射函数对源的语音进行映射,实现实时语音转换;其步骤是:第一步,选用谐波加噪声模型作为语音分析合成模型对源和目标的语音进行分析,得到语音的基频轨迹和谐波幅度值和相位值,然后进一步提取其中的线性谱频率作为特征参数;第二步,将源和目标的特征参数按照所属音素内容的不同进行划分,并在语音帧的层面进行对齐,即使得源和目标人数量不一样的特征参数集合通过归一化处理,使其在集合数据之间产生一一对应的关系;第三步,利用高斯混合模型针对对齐后的特征参数进行建模,即利用对齐后的特征参数来估计该高斯混合模型的参数,这时的高斯混合模型的参数是在集成学习理论的框架下估计得到的,接着,根据高斯混合模型估计得到的参数,在均方误差最小的准则下估计回归函数,将其作为最终的映射函数;第四步,当完成了以上所有步骤之后,用上述的映射函数对任意的源的语音进行映射,得到转换后的目标说话人语音;上述第一步~第三步为训练阶段,第四步为转换阶段。
所说第二步中将源和目标的特征参数按照所属音素内容的不同进行划分,采用人工对语音波形进行标注,将不同的声母韵母区分开来的方式。
估计高斯混合模型参数的步骤如下:
首先确定优化目标:首先确定优化目标:
这里用到一个技巧:(1)式中q(X,θ)不再取使不等号变成等号的那个后验概率了,而是另取一个任意的概率形式,前提是易于求解。同时为了便于计算,认为它可以因式分解为q(X,θ)=qX(X)qθ(θ),这样(1)式可以进一步改写为:
于是,优化logp(Y)的问题转换为了优化它的下限F(q(X),q(θ))的问题。求取分布函数q(X)和q(θ)的过程,可以用一种迭代的方式来进行,分别被称为集成学习期望化(EL-Expectation,ELE)和集成学习最大化(EL-Maximization,ELM)步骤:
ELE:
ELM:
式中的t表示迭代步骤。
上述的集成学习通用算法可以用来学习一些模型的参数,在本专利中,将它用来学习高斯混合模型的参数。即对于某个观测变量y,假设它服从M个混合度的高斯分布,用数学式子可表示如下:
其中πm为混合系数,μm和∑m分别为第m个混合度的均值和方差。用这样一个模型可以很方便的描述现实中的一大部分数据的概率分布,正是由于这个原因,语音转换中也采用这个模型对数据进行建模。现在假设获得了观测数据序列Y={y1,y2,…,yT},再假设有一个与之相对应的隐变量数据序列X={x1,x2,…,xT}用来表示在某一时刻t,数据yt是从哪个混合度产生出来的,也就是说xt∈{1,2,…,M}。根据高斯混合模型的特点,待估计的参数集合θ可定义为:θ={πm,μm,∑m,m=1,2,…,M}。
我们知道,在集成学习理论框架下,所有的参数和隐变量都有各自的概率分布函数,且根据上述的公示推导,q(X)和q(θ)都是自由分布函数,即它们可以是任何概率形式。为了方便后续计算,不失一般性,不妨假设混合系数{πm}服从联合Dirichlet分布,即p({πm})=D(λ0);均值服从正态分布,即 协方差矩阵的逆服从Wishart分布,即 同时,假设 于是根据公式(3)(4)可以计算得到:
其中, Tm=Tπm, 传统的估计算法在得到(6)式之后就结束了,而集成学习理论不同于传统算法的地方正是将所有的未知变量看作随即变量,因此具有一定的分布概率。于是还要用(6)式的结果继续更新模型,即估计未知参数的概率分布。考虑到之前为高斯混合模型参数假设的概率分布函数属于共轭先验函数集,因此它们的后验概率分布应该和先验分布属于同一种类型,不同之处只是在参数的取值上。也就是说有:q({πm})=D(λm), 然后应用以下规律更新分布参数:
λm=Tm+λ0,ρm=(Tmμm+β0ρ0)/(Tm+β0),βm=Tm+β0 (7)
vm=Tm+v0,Φm=Tm∑m+Tmβ0(μm-ρ0)(μm-ρ0)T/(Tm+β0)+Φ0 (8)
式(7)(8)就是集成学习理论下高斯混合模型参数的求取公式。
一般来说,语音转换系统可以分为两个实施阶段:训练阶段和转换阶段。
在训练阶段:
①源和目标人的语音通过谐波加噪声模型(Harmonic plus noise model,HNM)进行分解,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值。具体细节描述如下:
a.对语音信号进行分帧,帧长20ms,帧重叠间隔10ms。
b.在每帧中,用自相关法估计基频,若该帧为清音帧,则设置基频等于零。
c.对于浊音帧(即基频不为零的帧),假设语音信号可以由一系列的正弦波叠加而成:
式中L为正弦波的个数,{Cl}为正弦波的复幅度。令sh表示sh(n)在一帧内的样点所组成的矢量,则(9)式可以改写成:
通过最小二乘算法可以确定以上的{Cl}:
其中s(n)是真实语音信号,w(n)是窗函数,一般取汉明窗。将窗函数也改写成矩阵形式:
则最优的x可以这样得到:
d.得到了{Cl},则谐波幅度和相位值如下:
②由于原始谐波加噪声模型参数维数较高,不便于后续计算,因此必须对其进行降维。由于基频轨迹是一维参数,因此,降维的主要对象是声道幅度谱参数和相位参数。同时,降维的目标是将声道参数转化为经典的线性预测参数(Linear Prediction Coefficient,LPC),进而产生适用于语音转换系统的线性谱频率参数(Linear Spectrum Frequency,LSF)。求解步骤概括如下:
a.分别求取离散的L个幅度值Al的平方,并将其认为是离散功率谱的采样值P(ωl)。
b.根据帕斯卡定律,功率谱密度函数和自相关函数是一对傅立叶变换对,即 因此我们可以通过求解下式得到对线性预测参数系数的初步估值:
其中a1,a2,…,ap是p阶线性预测参数系数。
c.将p阶线性预测参数系数代表的全极点模型转换成时域冲激响应函数h*[n]:
其中 可以证明,h*和估计得到的自相关序列R*满足:
在满足板仓-斋田距离(Itakura-Satio,IS)距离最小化的情况下,有真实的R和估计的R*的关系如下:
d.于是将(17)式代替(18)式,并重估计(15)式,有:
e.用IS准则评估误差,如果误差大于设定的阈值,则重复步骤c~e。反之,则停止迭代。
得到的线性预测参数系数通过联立求解下面两个等式,转化为线性谱频率参数:
P(z)=A(z)+z-(p+1)A(z-1)
(20)
Q(z)=A(z)-z-(p+1)A(z-1)
③通过②骤得到的源和目标的线性谱频率参数,用动态时间规整算法(Dynamic TimeWarping,DTW)进行对齐。所谓的“对齐”是指:使得对应的源和目标的线性谱频率在设定的失真准则上具有最小的失真距离。这样做的目的是:使得源和目标人的特征序列在参数的层面上关联,便于后续统计模型学习其中的映射规律。动态时间规整算法步骤简要概述如下:
对于同一个语句的发音,假定源说话人的声学个性特征参数序列为x1,x2,…,,…,,而目标说话人的特征参数序列为y1,y2,…,,…,,且Nx≠Ny。设定源说话人的特征参数序列为参考模板,则动态时间规整算法就是要寻找时间规整函数使得目标特征序列的时间轴ny非线性地映射到源特征参数序列的时间轴nx,从而使得总的累积失真量最小,在数学上可以表示为:
动态时间规整是一种最优化算法,它把一个N阶段决策过程化为N个单阶段的决策过程,也就是转化为逐一做出决策的N个子问题,以便简化计算。动态时间规整的过程一般是从最后一个阶段开始进行,也即它是一个逆序过程,其递推过程可以表示为:
D(ny+1,nx)=d(ny+1,nx)+min[D(ny,nx)g(ny,nx),D(ny,nx-1),D(ny,nx-2)] (24)
④计算平均基频比:认为源和目标的基频序列服从单高斯分布,然后估计高斯模型的参数,即均值μ和方差σ。
⑤用高斯混合模型对动态时间规整对齐后的特征参数进行建模,集成学习理论估计模型参数。即首先将源和目标矢量组合成一个扩展矢量,即 然后用(6)-(8)式对zt估计模型参数,得:
在转换阶段:
①待转换的语音用谐波加噪声模型进行分析,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值,该过程和训练阶段中的第一步相同。
②和训练阶段一样,将谐波加噪声模型参数转换为线性谱频率参数。
③利用训练阶段得到的有关基频的模型参数,设计基频转换函数为:
其中f′0是转换后的基频,μy,μx分别是训练出来的源和目标高斯模型的均值,同样,σy,σx分别是源和目标高斯模型的方差。
④在均方误差最小的准则下设计声道线性谱频率参数的转换函数如下:
其中
⑤将转换后的线性谱频率参数反变换为谐波加噪声模型系数,然后和修改后的基频轨迹一起合成转换后的语音,详细步骤如下:
b.为了减少帧间交替时产生的误差,采用叠接相加法合成整个语音,即对于任意相邻的两帧,有:
其中N表示一帧语音中包含的样点数。
本发明的优点及显著效果:集成学习理论能在学习过程中逐步对模型结构进行“自我调整”,优化模型参数的分布,从而使得参数的个数和维度保持在一定的复杂度之内。这个特点对于较少数据量的学习过程非常有效,因为它不会产生少数据量对应高复杂度模型的情况,也就是避免了过拟合问题。集成学习法(Ensemble Learning,EL)来对模型进行学习认知,其中的统计模型我们选择高斯混合模型(Gaussian Mixture Model,GMM)。集成学习算法的特点在于:它能在学习过程中逐步对模型结构进行“自我调整”,优化模型参数的分布,从而使得参数的个数和维度保持在一定的复杂度之内。这个特点对于较少数据量的学习过程非常有效,因为它不会产生少数据量对应高复杂度模型的情况,也就是避免了过拟合。
附图说明
图1是现有语音转换系统结构图;
图2是本发明提出的语音转换系统详细框图。
具体实施方式
已公开的语音转换系统结构如图1所示。从横向来看,该系统可以分为两大主要部分:训练阶段和转换阶段。在训练阶段,源和目标的语音数据被采集、分析、提取特征参数、学习转换规则并加以保存;在转换阶段,新的待转换的源语音数据同样被采集、分析、提取参数,随后将训练阶段得出的转换规则用于其上,最后将变换后的所有参数通过语音合成模块合成语音。一般来说,训练阶段是非实时阶段,即是离线模式;而转换阶段是实时阶段,即在线模式。从纵向来看,该系统又可以被分为信号的分析与合成、参数选择和提取、参数对齐算法、转换函数设计四大步骤。每一步骤都在整个语音转换系统中发挥着独特的作用,缺一不可。
本专利提出的语音转换系统框图如图2所示。
在训练阶段:
①源和目标人的语音通过谐波加噪声模型进行分解,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值。
②由于原始谐波加噪声模型参数维数较高,不便于后续计算,因此必须对其进行降维。由于基频轨迹是一维参数,因此,降维的主要对象是声道幅度谱参数和相位参数。同时,降维的目标是将声道参数转化为经典的线性预测参数,进而产生适用于语音转换系统的线性谱频率参数。
③通过②骤得到的源和目标的线性谱频率参数,用动态时间规整算法进行对齐。这样做的目的是:使得源和目标人的特征序列在参数的层面上具有一定的联系,便于后续统计模型学习其中的映射规律。
④计算平均基频比:认为源和目标的基频序列服从单高斯分布,然后估计高斯模型的参数,即均值和方差。
⑤用高斯混合模型对动态时间规整对齐后的特征参数进行建模,并用集成学习理论估计模型参数。
在转换阶段:
①待转换的语音用谐波加噪声模型进行分析,得到有关的参数。
②将谐波加噪声模型参数转换为线性谱频率参数。
③利用训练阶段得到的有关基频的模型参数,对源的基频进行转换。
④在均方误差最小的准则下转换声道线性谱频率参数。
⑤将转换后的线性谱频率参数反变换为谐波加噪声模型系数,然后和修改后的基频轨迹一起合成转换后的语音。
Claims (3)
1.一种在训练数据量极少条件下的实时语音转换方法,其特征在于:利用集成学习理论对采集到的训练数据进行高斯混合模型的建模,并在均方误差最小的准则下设计映射函数,用映射函数对源的语音进行映射,实现实时语音转换;其步骤是:第一步,选用谐波加噪声模型作为语音分析合成模型对源和目标的语音进行分析,得到语音的基频轨迹和谐波幅度值和相位值,然后进一步提取其中的线性谱频率作为特征参数;第二步,将源和目标的特征参数按照所属音素内容的不同进行划分,并在语音帧的层面进行对齐,即使得源和目标人数量不一样的特征参数集合通过归一化处理,使其在集合数据之间产生一一对应的关系;第三步,利用高斯混合模型针对对齐后的特征参数进行建模,即利用对齐好的特征参数来估计该高斯混合模型的参数,这时的高斯混合模型的参数是在集成学习理论的框架下估计得到的,接着,根据高斯混合模型估计得到的参数,在均方误差最小的准则下估计回归函数,将其作为最终的映射函数;第四步,当完成了以上所有步骤之后,用上述的映射函数对任意的源的语音进行映射,得到转换后的目标说话人语音;上述第一步~第三步为训练阶段,第四步为转换阶段。
2.根据权利要求1所述的在训练数据量极少条件下的实时语音转换方法,其特征在于:第二步中将源和目标的特征参数按照所属音素内容的不同进行划分,采用人工对语音波形进行标注,将不同的声母韵母区分开来的方式。
3.根据权利要求1或2所述的在训练数据量极少条件下的实时语音转换方法,其特征在于:估计高斯混合模型参数的步骤如下:
首先确定优化目标:
式中q(X,θ)取一个易于求解任意的概率形式,它可以因式分解为q(X,θ)=qX(X)qθ(θ),这样(1)式可以进一步改写为:
于是,优化logp(Y)的问题转换为了优化它的下限F(q(X),q(θ))及求取分布函数q(X)和q(θ)的过程,用一种迭代的方式来进行,分别被称为集成学习期望化EL-Expectation,ELE和集成学习最大化EL-Maximization,ELM步骤:
式中的t表示迭代步骤;
将上述集成学习通用算法用于学习高斯混合模型的参数,即对于任意一个观测变量y,假设它服从M个混合度的高斯分布,用数学式子可表示如下:
假设获得了观测数据序列Y={y1,y2,…,yT},再假设有一个与之相对应的隐变量数据序列X={x1,x2,…,xT}用来表示在某一时刻t,数据yt是从哪个混合度产生出来的,也就是说xt∈{1,2,…,M},根据高斯混合模型的特点,待估计的参数集合θ可定义为:
θ={πm,μm,∑m,m=1,2,…,M};
在集成学习理论框架下,所有的参数和隐变量都有各自的概率分布函数,且根据上述的公示推导,q(X)和q(θ)都是自由分布函数,即它们可以是任何概率形式,为了方便后续计算,不失一般性,假设混合系数{πm}服从联合Dirichlet分布,即p({πm})=D(λ0);均值服从正态分布,即 协方差矩阵的逆服从Wishart分布,即 同时,假设 于是根据公式(3)(4)可以计算得到:
其中, Tm=Tπm,
用(6)式的结果继续更新模型,即估计未知参数的概率分布,考虑到之前为高斯混合模型参数假设的概率分布函数属于共轭先验函数集,因此它们的后验概率分布应该和先验分布属于同一种类型,不同之处只是在参数的取值上,也就是说有:q({πm})=D(λm), 然后应用以下规律更新分布参数:
λm=Tm+λ0,ρm=(Tmμm+β0ρ0)/(Tm+β0),βm=Tm+β0 (7)
vm=Tm+v0,Φm=Tm∑m+Tmβ0(μm-ρ0)(μm-ρ0)T/(Tm+β0)+Φ0 (8)
式(7)(8)就是集成学习理论下高斯混合模型参数的求取公式。
3、根据权利要求1或2所述的在训练数据量极少条件下的实时语音转换方法,其特征在于:
在训练阶段
①源和目标人的语音通过谐波加噪声模型进行分解,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值,具体步骤如下:
a.对语音信号进行分帧,帧长20ms,帧重叠间隔10ms;
b.在每帧中,用自相关法估计基频,若该帧为清音帧,则设置基频等于零;
c.对于基频不为零的浊音帧,假设语音信号由一系列的正弦波叠加而成:
式中L为正弦波的个数,{Cl}为正弦波的复幅度,令sh表示sh(n)在一帧内的样点所组成的矢量,则(9)式可以改写成:
通过最小二乘算法可以确定以上的{Cl}:
其中s(n)是真实语音信号,w(n)是窗函数,取汉明窗,将窗函数也改写成矩阵形式:
则最优的x可以这样得到:
d.得到了{Cl},则谐波幅度和相位值如下:
Al=2|Cl|=2|C-l|,
②由于原始谐波加噪声模型参数维数较高,不便于后续计算,因此必须对其进行降维,由于基频轨迹是一维参数,因此,降维的主要对象是声道幅度谱参数和相位参数,同时,降维的目标是将声道参数转化为经典的线性预测参数,进而产生适用于语音转换系统的线性谱频率参数,求解如下:
a.分别求取离散的L个幅度值Al的平方,并将其认为是离散功率谱的采样值P(ωl);
b.根据帕斯卡定律,功率谱密度函数和自相关函数是一对傅立叶变换对,即因此我们可以通过求解下式得到对线性预测参数系数的初步估值:
其中a1,a2,…,ap是p阶线性预测参数系数;
c.将p阶线性预测参数系数代表的全极点模型转换成时域冲激响应函数h*[n]:
其中 可以证明,h*和估计得到的自相关序列R*满足:
在满足板仓-斋田距离Itakura-Satio,IS距离最小化的情况下,有真实的R和估计的R*的关系如下:
d.将(17)式代替(18)式,并重估计(15)式,有:
e.用IS准则评估误差,如果误差大于设定的阈值,则重复步骤c~e;反之,则停止迭代;
得到的线性预测参数系数通过联立求解下面两个等式,转化为线性谱频率参数:
P(z)=A(z)+z-(p+1)A(z-1)
(20)
Q(z)=A(z)-z-(p+1)A(z-1)
③通过②得到的源和目标的线性谱频率参数,用动态时间规整算法进行对齐,使得对应的源和目标的线性谱频率在设定失真准则上具有最小的失真距离,使得源和目标人的特征序列在参数的层面上关联,便于后续统计模型学习其中的映射规律,动态时间规整算法如下:
对于同一个语句的发音,假定源说话人的声学个性特征参数序列为x1,x2,…,,…,,而目标说话人的特征参数序列为y1,y2,…,,…,,且Nx≠Ny,设定源说话人的特征参数序列为参考模板,则动态时间规整算法就是要寻找时间规整函数使得目标特征序列的时间轴ny非线性地映射到源特征参数序列的时间轴nx,从而使得总的累积失真量最小,在数学上可以表示为:
动态时间规整是一种最优化算法,它把一个N阶段决策过程化为N个单阶段的决策过程,也就是转化为逐一做出决策的N个子问题,以便简化计算;动态时间规整的过程一般是从最后一个阶段开始进行,也即它是一个逆序过程,其递推过程可以表示为:
D(ny+1,nx)=d(ny+1,nx)+min[D(ny,nx)g(ny,nx),D(ny,nx-1),D(ny,nx-2)] (24)
④计算平均基频比:认为源和目标的基频序列服从单高斯分布,然后估计高斯模型的参数,即均值μ和方差σ;
⑤用高斯混合模型对动态时间规整对齐后的特征参数进行建模,并用第2点权利要求中提出的集成学习理论估计模型参数。即首先将源和目标矢量组合成一个扩展矢量,即 然后用(6)-(8)式对zt估计模型参数,得:
在转换阶段
①待转换的语音用谐波加噪声模型进行分析,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值,该过程和训练阶段中的①相同;
②和训练阶段一样,将谐波加噪声模型参数转换为线性谱频率参数;
③利用训练阶段得到的有关基频的模型参数,设计基频转换函数为:
其中f′0是转换后的基频,μy,μx分别是训练出来的源和目标高斯模型的均值,同样,σy,σx分别是源和目标高斯模型的方差;
④在均方误差最小的准则下设计声道线性谱频率参数的转换函数如下:
其中
⑤将转换后的线性谱频率参数反变换为谐波加噪声模型系数,然后和修改后的基频轨迹一起合成转换后的语音:
b.为了减少帧间交替时产生的误差,采用叠接相加法合成整个语音,即对于任意相邻的两帧,有:
其中N表示一帧语音中包含的样点数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102631017A CN101751921B (zh) | 2009-12-16 | 2009-12-16 | 一种在训练数据量极少条件下的实时语音转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102631017A CN101751921B (zh) | 2009-12-16 | 2009-12-16 | 一种在训练数据量极少条件下的实时语音转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101751921A true CN101751921A (zh) | 2010-06-23 |
CN101751921B CN101751921B (zh) | 2011-09-14 |
Family
ID=42478792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102631017A Expired - Fee Related CN101751921B (zh) | 2009-12-16 | 2009-12-16 | 一种在训练数据量极少条件下的实时语音转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101751921B (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102568476A (zh) * | 2012-02-21 | 2012-07-11 | 南京邮电大学 | 基于自组织特征映射网络聚类和径向基网络的语音转换法 |
GB2489473A (en) * | 2011-03-29 | 2012-10-03 | Toshiba Res Europ Ltd | A voice conversion method and system |
CN102737628A (zh) * | 2012-07-04 | 2012-10-17 | 哈尔滨工业大学深圳研究生院 | 一种基于lpc及rbf神经网络的声音转换的方法 |
CN102930863A (zh) * | 2012-10-19 | 2013-02-13 | 河海大学常州校区 | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 |
CN102968988A (zh) * | 2012-11-27 | 2013-03-13 | 河海大学常州校区 | 训练数据匮乏下的鲁棒性语音转换方法 |
CN103035236A (zh) * | 2012-11-27 | 2013-04-10 | 河海大学常州校区 | 基于信号时序特征建模的高质量语音转换方法 |
CN103262069A (zh) * | 2010-12-21 | 2013-08-21 | 国际商业机器公司 | 用于预测建模的方法和系统 |
CN103413548A (zh) * | 2013-08-16 | 2013-11-27 | 中国科学技术大学 | 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法 |
CN104123932A (zh) * | 2014-07-29 | 2014-10-29 | 科大讯飞股份有限公司 | 一种语音转换系统及方法 |
CN104123933A (zh) * | 2014-08-01 | 2014-10-29 | 中国科学院自动化研究所 | 基于自适应非平行训练的语音转换方法 |
CN104217721A (zh) * | 2014-08-14 | 2014-12-17 | 东南大学 | 基于说话人模型对齐的非对称语音库条件下的语音转换方法 |
CN104392717A (zh) * | 2014-12-08 | 2015-03-04 | 常州工学院 | 一种基于声道谱高斯混合建模的快速语音转换系统及其方法 |
CN104464744A (zh) * | 2014-11-19 | 2015-03-25 | 河海大学常州校区 | 一种基于混合高斯随机过程的分簇语音转换方法及系统 |
CN105828871A (zh) * | 2013-12-20 | 2016-08-03 | Med-El电气医疗器械有限公司 | 使用卷积复合动作电位模型检测神经元动作电位 |
CN106055911A (zh) * | 2016-06-13 | 2016-10-26 | 达而观信息科技(上海)有限公司 | 一种基于组合归一的量化指标评价方法 |
WO2017067206A1 (zh) * | 2015-10-20 | 2017-04-27 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN107103914A (zh) * | 2017-03-20 | 2017-08-29 | 南京邮电大学 | 一种高质量的语音转换方法 |
CN107301859A (zh) * | 2017-06-21 | 2017-10-27 | 南京邮电大学 | 基于自适应高斯聚类的非平行文本条件下的语音转换方法 |
CN104091592B (zh) * | 2014-07-02 | 2017-11-14 | 常州工学院 | 一种基于隐高斯随机场的语音转换系统 |
CN107451101A (zh) * | 2017-07-21 | 2017-12-08 | 江南大学 | 一种分层集成的高斯过程回归软测量建模方法 |
WO2018068654A1 (zh) * | 2016-10-10 | 2018-04-19 | 深圳云天励飞技术有限公司 | 场景模型动态估计方法、数据分析方法及装置、电子设备 |
CN108021444A (zh) * | 2017-11-06 | 2018-05-11 | 珠海格力智能装备有限公司 | 数据处理方法和装置 |
CN108198566A (zh) * | 2018-01-24 | 2018-06-22 | 咪咕文化科技有限公司 | 信息处理方法及装置、电子设备及存储介质 |
CN108766450A (zh) * | 2018-04-16 | 2018-11-06 | 杭州电子科技大学 | 一种基于谐波冲激分解的语音转换方法 |
CN110085255A (zh) * | 2019-03-27 | 2019-08-02 | 河海大学常州校区 | 语音转换基于深度内核学习高斯过程回归建模方法 |
CN111985408A (zh) * | 2020-08-21 | 2020-11-24 | 云南电网有限责任公司电力科学研究院 | 一种瓷支柱绝缘子故障识别方法及装置 |
CN112954633A (zh) * | 2021-01-26 | 2021-06-11 | 电子科技大学 | 一种基于参数约束的双网络架构室内定位方法 |
CN113571054A (zh) * | 2020-04-28 | 2021-10-29 | 中国移动通信集团浙江有限公司 | 语音识别信号预处理方法、装置、设备及计算机存储介质 |
CN114333856A (zh) * | 2021-12-24 | 2022-04-12 | 南京西觉硕信息科技有限公司 | 给定线性预测系数时后半帧语音信号的求解方法、装置及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101064104B (zh) * | 2006-04-24 | 2011-02-02 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
-
2009
- 2009-12-16 CN CN2009102631017A patent/CN101751921B/zh not_active Expired - Fee Related
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103262069B (zh) * | 2010-12-21 | 2016-04-13 | 国际商业机器公司 | 用于预测建模的方法和系统 |
CN103262069A (zh) * | 2010-12-21 | 2013-08-21 | 国际商业机器公司 | 用于预测建模的方法和系统 |
GB2489473A (en) * | 2011-03-29 | 2012-10-03 | Toshiba Res Europ Ltd | A voice conversion method and system |
GB2489473B (en) * | 2011-03-29 | 2013-09-18 | Toshiba Res Europ Ltd | A voice conversion method and system |
US8930183B2 (en) | 2011-03-29 | 2015-01-06 | Kabushiki Kaisha Toshiba | Voice conversion method and system |
CN102568476A (zh) * | 2012-02-21 | 2012-07-11 | 南京邮电大学 | 基于自组织特征映射网络聚类和径向基网络的语音转换法 |
CN102568476B (zh) * | 2012-02-21 | 2013-07-03 | 南京邮电大学 | 基于自组织特征映射网络聚类和径向基网络的语音转换法 |
CN102737628A (zh) * | 2012-07-04 | 2012-10-17 | 哈尔滨工业大学深圳研究生院 | 一种基于lpc及rbf神经网络的声音转换的方法 |
CN102930863B (zh) * | 2012-10-19 | 2014-05-28 | 河海大学常州校区 | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 |
CN102930863A (zh) * | 2012-10-19 | 2013-02-13 | 河海大学常州校区 | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 |
CN103035236A (zh) * | 2012-11-27 | 2013-04-10 | 河海大学常州校区 | 基于信号时序特征建模的高质量语音转换方法 |
CN102968988B (zh) * | 2012-11-27 | 2015-09-16 | 河海大学常州校区 | 训练数据匮乏下的鲁棒性语音转换方法 |
CN102968988A (zh) * | 2012-11-27 | 2013-03-13 | 河海大学常州校区 | 训练数据匮乏下的鲁棒性语音转换方法 |
CN103413548A (zh) * | 2013-08-16 | 2013-11-27 | 中国科学技术大学 | 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法 |
CN103413548B (zh) * | 2013-08-16 | 2016-02-03 | 中国科学技术大学 | 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法 |
US10863911B2 (en) | 2013-12-20 | 2020-12-15 | Med-El Elektromedizinische Geraete Gmbh | Detecting neuronal action potentials using a convolutive compound action potential model |
CN105828871B (zh) * | 2013-12-20 | 2017-08-08 | Med-El电气医疗器械有限公司 | 用于从电刺激神经组织检测神经元动作电位信号的系统和方法 |
CN105828871A (zh) * | 2013-12-20 | 2016-08-03 | Med-El电气医疗器械有限公司 | 使用卷积复合动作电位模型检测神经元动作电位 |
CN104091592B (zh) * | 2014-07-02 | 2017-11-14 | 常州工学院 | 一种基于隐高斯随机场的语音转换系统 |
CN104123932A (zh) * | 2014-07-29 | 2014-10-29 | 科大讯飞股份有限公司 | 一种语音转换系统及方法 |
CN104123933A (zh) * | 2014-08-01 | 2014-10-29 | 中国科学院自动化研究所 | 基于自适应非平行训练的语音转换方法 |
CN104217721B (zh) * | 2014-08-14 | 2017-03-08 | 东南大学 | 基于说话人模型对齐的非对称语音库条件下的语音转换方法 |
CN104217721A (zh) * | 2014-08-14 | 2014-12-17 | 东南大学 | 基于说话人模型对齐的非对称语音库条件下的语音转换方法 |
CN104464744A (zh) * | 2014-11-19 | 2015-03-25 | 河海大学常州校区 | 一种基于混合高斯随机过程的分簇语音转换方法及系统 |
CN104392717A (zh) * | 2014-12-08 | 2015-03-04 | 常州工学院 | 一种基于声道谱高斯混合建模的快速语音转换系统及其方法 |
WO2017067206A1 (zh) * | 2015-10-20 | 2017-04-27 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
US10410621B2 (en) | 2015-10-20 | 2019-09-10 | Baidu Online Network Technology (Beijing) Co., Ltd. | Training method for multiple personalized acoustic models, and voice synthesis method and device |
CN106055911A (zh) * | 2016-06-13 | 2016-10-26 | 达而观信息科技(上海)有限公司 | 一种基于组合归一的量化指标评价方法 |
WO2018068654A1 (zh) * | 2016-10-10 | 2018-04-19 | 深圳云天励飞技术有限公司 | 场景模型动态估计方法、数据分析方法及装置、电子设备 |
CN107103914B (zh) * | 2017-03-20 | 2020-06-16 | 南京邮电大学 | 一种高质量的语音转换方法 |
CN107103914A (zh) * | 2017-03-20 | 2017-08-29 | 南京邮电大学 | 一种高质量的语音转换方法 |
CN107301859B (zh) * | 2017-06-21 | 2020-02-21 | 南京邮电大学 | 基于自适应高斯聚类的非平行文本条件下的语音转换方法 |
CN107301859A (zh) * | 2017-06-21 | 2017-10-27 | 南京邮电大学 | 基于自适应高斯聚类的非平行文本条件下的语音转换方法 |
CN107451101B (zh) * | 2017-07-21 | 2020-06-09 | 江南大学 | 一种分层集成的高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法 |
CN107451101A (zh) * | 2017-07-21 | 2017-12-08 | 江南大学 | 一种分层集成的高斯过程回归软测量建模方法 |
CN108021444A (zh) * | 2017-11-06 | 2018-05-11 | 珠海格力智能装备有限公司 | 数据处理方法和装置 |
CN108198566A (zh) * | 2018-01-24 | 2018-06-22 | 咪咕文化科技有限公司 | 信息处理方法及装置、电子设备及存储介质 |
CN108766450A (zh) * | 2018-04-16 | 2018-11-06 | 杭州电子科技大学 | 一种基于谐波冲激分解的语音转换方法 |
CN108766450B (zh) * | 2018-04-16 | 2023-02-17 | 杭州电子科技大学 | 一种基于谐波冲激分解的语音转换方法 |
CN110085255A (zh) * | 2019-03-27 | 2019-08-02 | 河海大学常州校区 | 语音转换基于深度内核学习高斯过程回归建模方法 |
CN113571054A (zh) * | 2020-04-28 | 2021-10-29 | 中国移动通信集团浙江有限公司 | 语音识别信号预处理方法、装置、设备及计算机存储介质 |
CN113571054B (zh) * | 2020-04-28 | 2023-08-15 | 中国移动通信集团浙江有限公司 | 语音识别信号预处理方法、装置、设备及计算机存储介质 |
CN111985408A (zh) * | 2020-08-21 | 2020-11-24 | 云南电网有限责任公司电力科学研究院 | 一种瓷支柱绝缘子故障识别方法及装置 |
CN112954633A (zh) * | 2021-01-26 | 2021-06-11 | 电子科技大学 | 一种基于参数约束的双网络架构室内定位方法 |
CN114333856A (zh) * | 2021-12-24 | 2022-04-12 | 南京西觉硕信息科技有限公司 | 给定线性预测系数时后半帧语音信号的求解方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101751921B (zh) | 2011-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101751921B (zh) | 一种在训练数据量极少条件下的实时语音转换方法 | |
CN101136199B (zh) | 语音数据处理方法和设备 | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
CN101246685B (zh) | 计算机辅助语言学习系统中的发音质量评价方法 | |
US20050038655A1 (en) | Bubble splitting for compact acoustic modeling | |
US20150340027A1 (en) | Voice recognition system | |
Cui et al. | Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR | |
CN109192200B (zh) | 一种语音识别方法 | |
US20080167862A1 (en) | Pitch Dependent Speech Recognition Engine | |
JP6973304B2 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
CN102237083A (zh) | 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法 | |
Bhardwaj et al. | Development of robust automatic speech recognition system for children's using kaldi toolkit | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
Gamit et al. | Isolated words recognition using mfcc lpc and neural network | |
Alamsyah et al. | Speech gender classification using bidirectional long short term memory | |
Labied et al. | Automatic speech recognition features extraction techniques: A multi-criteria comparison | |
Mohammed et al. | Robust speaker verification by combining MFCC and entrocy in noisy conditions | |
CN103886859A (zh) | 基于一对多码书映射的语音转换方法 | |
El-Henawy et al. | Recognition of phonetic Arabic figures via wavelet based Mel Frequency Cepstrum using HMMs | |
Aggarwal et al. | Application of genetically optimized neural networks for hindi speech recognition system | |
CHEN et al. | High-quality voice conversion system based on GMM statistical parameters and RBF neural network | |
Ou et al. | Probabilistic acoustic tube: a probabilistic generative model of speech for speech analysis/synthesis | |
Swamidason et al. | Exploration of diverse intelligent approaches in speech recognition systems | |
Mait et al. | Unsupervised phoneme segmentation of continuous Arabic speech | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110914 Termination date: 20141216 |
|
EXPY | Termination of patent right or utility model |