CN101751921A - 一种在训练数据量极少条件下的实时语音转换方法 - Google Patents

一种在训练数据量极少条件下的实时语音转换方法 Download PDF

Info

Publication number
CN101751921A
CN101751921A CN200910263101A CN200910263101A CN101751921A CN 101751921 A CN101751921 A CN 101751921A CN 200910263101 A CN200910263101 A CN 200910263101A CN 200910263101 A CN200910263101 A CN 200910263101A CN 101751921 A CN101751921 A CN 101751921A
Authority
CN
China
Prior art keywords
centerdot
parameter
sigma
theta
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910263101A
Other languages
English (en)
Other versions
CN101751921B (zh
Inventor
徐宁
杨震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN2009102631017A priority Critical patent/CN101751921B/zh
Publication of CN101751921A publication Critical patent/CN101751921A/zh
Application granted granted Critical
Publication of CN101751921B publication Critical patent/CN101751921B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提出了一种在训练数据量极少条件下的实时语音转换方法,利用集成学习理论(Ensemble Learning,EL)对采集到的数据进行高斯混合模型(Gaussian Mixture Model,GMM)的建模,并在均方误差最小(Minimum Mean Square Error,MMSE)的准则下设计映射函数。避免了标准的GMM模型在数据量极少的情况下容易产生过拟合(Over-fitting)的问题,提高了语音转换算法对数据量问题的鲁棒性。同时本发明方法在估算GMM参数的过程中的运算复杂度较标准的GMM低,因此适用于进行实时的语音转换。

Description

一种在训练数据量极少条件下的实时语音转换方法
技术领域
本发明涉及语音转换技术(Voice conversion,VC),尤其涉及一种在训练数据量极少条件下的实时语音转换方法,是用于文语转换系统和机器人发声系统的基于统计分析模型的语音转换方案,属于信号处理特别是语音信号处理技术领域。
背景技术
本专利所涉及的知识领域被称为语音转换技术,是语音信号处理领域近年来新兴的研究分支,涵盖了说话人识别和语音合成的核心技术,并使之结合到一起以达到统一的目标,即:在保持语义内容不变的情况下,通过改变一个特定说话人(被称为源说话人,Sourcespeaker)的话音个性特征,使他(或她)说的话被听者认为是另一个特定说话人(被称为目标说话人,Target speaker)说的话。简而言之,语音转换的主要任务包括提取代表说话人个性的特征参数并进行数学变换,然后将变换后的参数重构成语音。在这过程中,既要保持重构语音的听觉质量,又要兼顾转换后的个性特征是否准确。
经过多年的发展,语音转换领域虽然已经涌现出大量的算法,但是这些算法都只是在实验室环境下才能运行的,即需要充足的训练数据。但是现实情况往往比较“残酷”,特别是目标说话人的语音数据常常难以收集,或者只能采集到一小部分,例如几秒钟。在这种恶劣的环境下,如果直接套用传统的语音转换算法,就会导致系统不稳定或者崩溃。之所以会产生这样的问题,原因不外乎以下两点:①在训练数据量较少,待估计的模型参数较多的情况下,系统形成了一种所谓的“欠学习”的情况,即估计得到的模型对数据“拟合”的不理想,或者虽然对这部分数据“拟合”的比较理想,但是对其他数据的“预测”性能却不佳。这种现象也常常被称为“模型的过拟合”(Over-fitting)问题。②传统的最常用的估计模型参数的方法是最大似然估计(Maximum Likelihood,ML)和最大后验概率估计(Maximum a Posterior,MAP)。但遗憾的是,这两种方法都是“点估计”方法,即它们选取的最优参数往往是使似然函数或后验概率函数取局部最大值的那个值。如果训练数据量较多,尚有一定的普适性,但在数据量较少的情况下,以上两种方法选取的最优点常常不具有代表性,即它们只能代表这些已有的一小部分数据的最优,而不能代表其他众多数据的最优值。
一般来说,语音转换系统的核心步骤之一是对采集的数据进行统计建模,即用统计概率模型(Statistical Model)来拟合数据的概率分布,进而得到与之有关的信息,方便后续步骤加以利用。在这个过程中,如何利用已有数据来“学习”或“预测”模型的参数就成为了最为关键的问题。期望最大化算法(Expectation Maximization,EM)被公认为一种学习统计模型参数的优秀算法,因此被广泛采用。但是由于它是一种局部优化算法,因此往往会使结果陷入局部最小值的误区,特别是在训练数据量较少的情况下,这个问题更为明显,这种现象亦被称为“模型的过拟合”问题(Over-fitting)。考虑到在现实的环境下,我们收集到的语音数据往往是稀疏的,即数据量较少,因此经典的EM算法肯定是不适用的。
目前国际、国内尚未出现研究如何在训练数据稀少情况下进行语音转换的课题,发明内容在该领域尚属首创。
发明内容
针对现有技术之不足,本发明提出了一种在训练数据量极少条件下的实时语音转换方法,该方法在采集到的语音数据(训练数据)数量特别少的恶劣情况下,能保证语音转换系统的正常运行。
本发明的技术方案是:一种在训练数据量极少条件下的实时语音转换方法,其特征在于:利用集成学习理论对采集到的训练数据进行高斯混合模型的建模,并在均方误差最小的准则下设计映射函数,用映射函数对源的语音进行映射,实现实时语音转换;其步骤是:第一步,选用谐波加噪声模型作为语音分析合成模型对源和目标的语音进行分析,得到语音的基频轨迹和谐波幅度值和相位值,然后进一步提取其中的线性谱频率作为特征参数;第二步,将源和目标的特征参数按照所属音素内容的不同进行划分,并在语音帧的层面进行对齐,即使得源和目标人数量不一样的特征参数集合通过归一化处理,使其在集合数据之间产生一一对应的关系;第三步,利用高斯混合模型针对对齐后的特征参数进行建模,即利用对齐后的特征参数来估计该高斯混合模型的参数,这时的高斯混合模型的参数是在集成学习理论的框架下估计得到的,接着,根据高斯混合模型估计得到的参数,在均方误差最小的准则下估计回归函数,将其作为最终的映射函数;第四步,当完成了以上所有步骤之后,用上述的映射函数对任意的源的语音进行映射,得到转换后的目标说话人语音;上述第一步~第三步为训练阶段,第四步为转换阶段。
所说第二步中将源和目标的特征参数按照所属音素内容的不同进行划分,采用人工对语音波形进行标注,将不同的声母韵母区分开来的方式。
估计高斯混合模型参数的步骤如下:
首先确定优化目标:首先确定优化目标:
log p ( Y ) = log ∫ dθdXp ( X , Y , θ )
= log ∫ dθdXq ( X , θ ) · p ( X , Y , θ ) q ( X , θ ) - - - ( 1 )
≥ ∫ dθdXq ( X , θ ) · log p ( X , Y , θ ) q ( X , θ )
这里用到一个技巧:(1)式中q(X,θ)不再取使不等号变成等号的那个后验概率了,而是另取一个任意的概率形式,前提是易于求解。同时为了便于计算,认为它可以因式分解为q(X,θ)=qX(X)qθ(θ),这样(1)式可以进一步改写为:
log p ( Y ) ≥ ∫ dθdXq ( X ) q ( θ ) · log p ( X , Y , θ ) q ( X ) q ( θ )
= ∫ dθq ( θ ) [ ∫ dXq ( X ) log p ( X , Y | θ ) q ( X ) + log p ( θ ) q ( θ ) ] - - - ( 2 )
= F ( q ( X ) , q ( θ ) )
于是,优化logp(Y)的问题转换为了优化它的下限F(q(X),q(θ))的问题。求取分布函数q(X)和q(θ)的过程,可以用一种迭代的方式来进行,分别被称为集成学习期望化(EL-Expectation,ELE)和集成学习最大化(EL-Maximization,ELM)步骤:
ELE: q ( t + 1 ) ( X ) = 1 Z X exp [ ∫ dθ q ( t ) ( θ ) log p ( X , Y | θ ) ] - - - ( 3 )
ELM: q ( t + 1 ) ( θ ) = 1 Z θ p ( θ ) exp [ ∫ dX q ( t + 1 ) ( X ) log p ( X , Y | θ ) ] - - - ( 4 )
式中的t表示迭代步骤。
上述的集成学习通用算法可以用来学习一些模型的参数,在本专利中,将它用来学习高斯混合模型的参数。即对于某个观测变量y,假设它服从M个混合度的高斯分布,用数学式子可表示如下:
p ( y ) = Σ m = 1 M π m N ( y ; μ m , Σ m ) - - - ( 5 )
其中πm为混合系数,μm和∑m分别为第m个混合度的均值和方差。用这样一个模型可以很方便的描述现实中的一大部分数据的概率分布,正是由于这个原因,语音转换中也采用这个模型对数据进行建模。现在假设获得了观测数据序列Y={y1,y2,…,yT},再假设有一个与之相对应的隐变量数据序列X={x1,x2,…,xT}用来表示在某一时刻t,数据yt是从哪个混合度产生出来的,也就是说xt∈{1,2,…,M}。根据高斯混合模型的特点,待估计的参数集合θ可定义为:θ={πm,μm,∑m,m=1,2,…,M}。
我们知道,在集成学习理论框架下,所有的参数和隐变量都有各自的概率分布函数,且根据上述的公示推导,q(X)和q(θ)都是自由分布函数,即它们可以是任何概率形式。为了方便后续计算,不失一般性,不妨假设混合系数{πm}服从联合Dirichlet分布,即p({πm})=D(λ0);均值服从正态分布,即 p ( π m | Σ m - 1 ) = N ( ρ 0 , β 0 Σ m - 1 ) ; 协方差矩阵的逆服从Wishart分布,即 p ( Σ m - 1 ) = W ( v 0 , Φ 0 ) . 同时,假设 q ( θ ) = q ( { π m } ) Π m q ( μ m , Σ m ) , 于是根据公式(3)(4)可以计算得到:
π ‾ m = 1 T Σ t = 1 T γ m t , μ ‾ m = 1 T ‾ m Σ t = 1 T γ m t y t , Σ ‾ m = 1 T ‾ m Σ t = 1 T γ m t C m t - - - ( 6 )
其中, γ m t = p ( x t = m | y t ) , Tm=Tπm C m t = ( y t - μ ‾ m ) ( y t - μ ‾ m ) T . 传统的估计算法在得到(6)式之后就结束了,而集成学习理论不同于传统算法的地方正是将所有的未知变量看作随即变量,因此具有一定的分布概率。于是还要用(6)式的结果继续更新模型,即估计未知参数的概率分布。考虑到之前为高斯混合模型参数假设的概率分布函数属于共轭先验函数集,因此它们的后验概率分布应该和先验分布属于同一种类型,不同之处只是在参数的取值上。也就是说有:q({πm})=D(λm), q ( π m | Σ m - 1 ) = N ( ρ m , β m Σ m - 1 ) , q ( Σ m - 1 ) = W ( v m , Φ m ) . 然后应用以下规律更新分布参数:
λm=Tm0,ρm=(Tmμm0ρ0)/(Tm0),βm=Tm0       (7)
vm=Tm+v0,Φm=Tmm+Tmβ0m0)(μm0)T/(Tm0)+Φ0  (8)
式(7)(8)就是集成学习理论下高斯混合模型参数的求取公式。
一般来说,语音转换系统可以分为两个实施阶段:训练阶段和转换阶段。
在训练阶段:
①源和目标人的语音通过谐波加噪声模型(Harmonic plus noise model,HNM)进行分解,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值。具体细节描述如下:
a.对语音信号进行分帧,帧长20ms,帧重叠间隔10ms。
b.在每帧中,用自相关法估计基频,若该帧为清音帧,则设置基频等于零。
c.对于浊音帧(即基频不为零的帧),假设语音信号可以由一系列的正弦波叠加而成:
s h ( n ) = Σ l = - L L C l e j ω 0 n - - - ( 9 )
式中L为正弦波的个数,{Cl}为正弦波的复幅度。令sh表示sh(n)在一帧内的样点所组成的矢量,则(9)式可以改写成:
sh=Bx,
Figure G2009102631017D00052
x = C L * C L - 1 * . . . C L - - - ( 10 )
通过最小二乘算法可以确定以上的{Cl}:
ϵ = Σ n = - N 2 N 2 w 2 ( n ) · ( s ( n ) - s h ( n ) ) 2 - - - ( 11 )
其中s(n)是真实语音信号,w(n)是窗函数,一般取汉明窗。将窗函数也改写成矩阵形式:
W = w 2 ( - N / 2 ) w 2 ( - N / 2 + 1 ) . . . w 2 ( N / 2 ) - - - ( 12 )
则最优的x可以这样得到:
WBx = Ws ⇒ x opt = B H W H Ws - - - ( 13 )
d.得到了{Cl},则谐波幅度和相位值如下:
Al=2|Cl|=2|C-l|,
Figure G2009102631017D00057
②由于原始谐波加噪声模型参数维数较高,不便于后续计算,因此必须对其进行降维。由于基频轨迹是一维参数,因此,降维的主要对象是声道幅度谱参数和相位参数。同时,降维的目标是将声道参数转化为经典的线性预测参数(Linear Prediction Coefficient,LPC),进而产生适用于语音转换系统的线性谱频率参数(Linear Spectrum Frequency,LSF)。求解步骤概括如下:
a.分别求取离散的L个幅度值Al的平方,并将其认为是离散功率谱的采样值P(ωl)。
b.根据帕斯卡定律,功率谱密度函数和自相关函数是一对傅立叶变换对,即 R n ∝ ∫ - π π P ( ω ) e jωn dω , 因此我们可以通过求解下式得到对线性预测参数系数的初步估值:
其中a1,a2,…,ap是p阶线性预测参数系数。
c.将p阶线性预测参数系数代表的全极点模型转换成时域冲激响应函数h*[n]:
h * [ n ] = 1 L Re { Σ l 1 A ( e j ω l ) e j ω l n } - - - ( 16 )
其中 A ( e jω l ) = A ( z ) | z = e j ω l = 1 + a 1 z - 1 + a 2 z - 2 + · · · + a p z - p . 可以证明,h*和估计得到的自相关序列R*满足:
Σ i = 0 p a i R * ( n - i ) = h * [ - n ] - - - ( 17 )
在满足板仓-斋田距离(Itakura-Satio,IS)距离最小化的情况下,有真实的R和估计的R*的关系如下:
Σ i = 0 p a i R * ( n - i ) = Σ i = 0 p a i R ( n - i ) - - - ( 18 )
d.于是将(17)式代替(18)式,并重估计(15)式,有:
Figure G2009102631017D00067
e.用IS准则评估误差,如果误差大于设定的阈值,则重复步骤c~e。反之,则停止迭代。
得到的线性预测参数系数通过联立求解下面两个等式,转化为线性谱频率参数:
P(z)=A(z)+z-(p+1)A(z-1)
                               (20)
Q(z)=A(z)-z-(p+1)A(z-1)
③通过②骤得到的源和目标的线性谱频率参数,用动态时间规整算法(Dynamic TimeWarping,DTW)进行对齐。所谓的“对齐”是指:使得对应的源和目标的线性谱频率在设定的失真准则上具有最小的失真距离。这样做的目的是:使得源和目标人的特征序列在参数的层面上关联,便于后续统计模型学习其中的映射规律。动态时间规整算法步骤简要概述如下:
对于同一个语句的发音,假定源说话人的声学个性特征参数序列为x1,x2,…,
Figure G2009102631017D00071
,…,
Figure G2009102631017D00072
,而目标说话人的特征参数序列为y1,y2,…,
Figure G2009102631017D00073
,…,
Figure G2009102631017D00074
,且Nx≠Ny。设定源说话人的特征参数序列为参考模板,则动态时间规整算法就是要寻找时间规整函数
Figure G2009102631017D00075
使得目标特征序列的时间轴ny非线性地映射到源特征参数序列的时间轴nx,从而使得总的累积失真量最小,在数学上可以表示为:
Figure G2009102631017D00076
其中
Figure G2009102631017D00077
表示第ny帧的目标说话人特征参数和第
Figure G2009102631017D00078
帧源说话人特征参数之间的某种测度距离。在动态时间规整的规整过程中,规整函数
Figure G2009102631017D00079
是要满足以下的约束条件的,有边界条件和连续性条件分别为:
Figure G2009102631017D000710
Figure G2009102631017D000711
Figure G2009102631017D000712
动态时间规整是一种最优化算法,它把一个N阶段决策过程化为N个单阶段的决策过程,也就是转化为逐一做出决策的N个子问题,以便简化计算。动态时间规整的过程一般是从最后一个阶段开始进行,也即它是一个逆序过程,其递推过程可以表示为:
D(ny+1,nx)=d(ny+1,nx)+min[D(ny,nx)g(ny,nx),D(ny,nx-1),D(ny,nx-2)]    (24)
其中
Figure G2009102631017D00081
g(ny,nx)是为了ny,nx的取值满足时间规整函数的约束条件。
④计算平均基频比:认为源和目标的基频序列服从单高斯分布,然后估计高斯模型的参数,即均值μ和方差σ。
⑤用高斯混合模型对动态时间规整对齐后的特征参数进行建模,集成学习理论估计模型参数。即首先将源和目标矢量组合成一个扩展矢量,即 z t = [ x t T , y t T ] T , 然后用(6)-(8)式对zt估计模型参数,得:
μ m z = μ m X μ m Y , Σ m Z = Σ m XX Σ m XY Σ m YX Σ m YY , m=1,2,…,M                (25)
在转换阶段:
①待转换的语音用谐波加噪声模型进行分析,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值,该过程和训练阶段中的第一步相同。
②和训练阶段一样,将谐波加噪声模型参数转换为线性谱频率参数。
③利用训练阶段得到的有关基频的模型参数,设计基频转换函数为:
log f 0 ′ = μ y + σ y σ x ( log f 0 - μ x ) - - - ( 26 )
其中f′0是转换后的基频,μy,μx分别是训练出来的源和目标高斯模型的均值,同样,σy,σx分别是源和目标高斯模型的方差。
④在均方误差最小的准则下设计声道线性谱频率参数的转换函数如下:
y ^ t = E [ y t | x t ] = Σ m = 1 M p m ( x t ) · [ μ m Y + Σ m YX ( Σ m XX ) - 1 ( x t - μ m X ) ] - - - ( 27 )
其中 p m ( x t ) = π m N ( x t ; μ m X , Σ m XX ) / Σ m π m N ( x t ; μ m X , Σ m XX ) .
⑤将转换后的线性谱频率参数反变换为谐波加噪声模型系数,然后和修改后的基频轨迹一起合成转换后的语音,详细步骤如下:
a.将获得的Al,f0
Figure G2009102631017D00088
用正弦模型的定义合成第k的语音,即:
Figure G2009102631017D00091
b.为了减少帧间交替时产生的误差,采用叠接相加法合成整个语音,即对于任意相邻的两帧,有:
s ( kN + m ) = ( N - m N ) · s ( k ) ( m ) + ( m N ) · s ( k + 1 ) ( m - N ) , 0 ≤ m ≤ N - - - ( 29 )
其中N表示一帧语音中包含的样点数。
本发明的优点及显著效果:集成学习理论能在学习过程中逐步对模型结构进行“自我调整”,优化模型参数的分布,从而使得参数的个数和维度保持在一定的复杂度之内。这个特点对于较少数据量的学习过程非常有效,因为它不会产生少数据量对应高复杂度模型的情况,也就是避免了过拟合问题。集成学习法(Ensemble Learning,EL)来对模型进行学习认知,其中的统计模型我们选择高斯混合模型(Gaussian Mixture Model,GMM)。集成学习算法的特点在于:它能在学习过程中逐步对模型结构进行“自我调整”,优化模型参数的分布,从而使得参数的个数和维度保持在一定的复杂度之内。这个特点对于较少数据量的学习过程非常有效,因为它不会产生少数据量对应高复杂度模型的情况,也就是避免了过拟合。
附图说明
图1是现有语音转换系统结构图;
图2是本发明提出的语音转换系统详细框图。
具体实施方式
已公开的语音转换系统结构如图1所示。从横向来看,该系统可以分为两大主要部分:训练阶段和转换阶段。在训练阶段,源和目标的语音数据被采集、分析、提取特征参数、学习转换规则并加以保存;在转换阶段,新的待转换的源语音数据同样被采集、分析、提取参数,随后将训练阶段得出的转换规则用于其上,最后将变换后的所有参数通过语音合成模块合成语音。一般来说,训练阶段是非实时阶段,即是离线模式;而转换阶段是实时阶段,即在线模式。从纵向来看,该系统又可以被分为信号的分析与合成、参数选择和提取、参数对齐算法、转换函数设计四大步骤。每一步骤都在整个语音转换系统中发挥着独特的作用,缺一不可。
本专利提出的语音转换系统框图如图2所示。
在训练阶段:
①源和目标人的语音通过谐波加噪声模型进行分解,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值。
②由于原始谐波加噪声模型参数维数较高,不便于后续计算,因此必须对其进行降维。由于基频轨迹是一维参数,因此,降维的主要对象是声道幅度谱参数和相位参数。同时,降维的目标是将声道参数转化为经典的线性预测参数,进而产生适用于语音转换系统的线性谱频率参数。
③通过②骤得到的源和目标的线性谱频率参数,用动态时间规整算法进行对齐。这样做的目的是:使得源和目标人的特征序列在参数的层面上具有一定的联系,便于后续统计模型学习其中的映射规律。
④计算平均基频比:认为源和目标的基频序列服从单高斯分布,然后估计高斯模型的参数,即均值和方差。
⑤用高斯混合模型对动态时间规整对齐后的特征参数进行建模,并用集成学习理论估计模型参数。
在转换阶段:
①待转换的语音用谐波加噪声模型进行分析,得到有关的参数。
②将谐波加噪声模型参数转换为线性谱频率参数。
③利用训练阶段得到的有关基频的模型参数,对源的基频进行转换。
④在均方误差最小的准则下转换声道线性谱频率参数。
⑤将转换后的线性谱频率参数反变换为谐波加噪声模型系数,然后和修改后的基频轨迹一起合成转换后的语音。

Claims (3)

1.一种在训练数据量极少条件下的实时语音转换方法,其特征在于:利用集成学习理论对采集到的训练数据进行高斯混合模型的建模,并在均方误差最小的准则下设计映射函数,用映射函数对源的语音进行映射,实现实时语音转换;其步骤是:第一步,选用谐波加噪声模型作为语音分析合成模型对源和目标的语音进行分析,得到语音的基频轨迹和谐波幅度值和相位值,然后进一步提取其中的线性谱频率作为特征参数;第二步,将源和目标的特征参数按照所属音素内容的不同进行划分,并在语音帧的层面进行对齐,即使得源和目标人数量不一样的特征参数集合通过归一化处理,使其在集合数据之间产生一一对应的关系;第三步,利用高斯混合模型针对对齐后的特征参数进行建模,即利用对齐好的特征参数来估计该高斯混合模型的参数,这时的高斯混合模型的参数是在集成学习理论的框架下估计得到的,接着,根据高斯混合模型估计得到的参数,在均方误差最小的准则下估计回归函数,将其作为最终的映射函数;第四步,当完成了以上所有步骤之后,用上述的映射函数对任意的源的语音进行映射,得到转换后的目标说话人语音;上述第一步~第三步为训练阶段,第四步为转换阶段。
2.根据权利要求1所述的在训练数据量极少条件下的实时语音转换方法,其特征在于:第二步中将源和目标的特征参数按照所属音素内容的不同进行划分,采用人工对语音波形进行标注,将不同的声母韵母区分开来的方式。
3.根据权利要求1或2所述的在训练数据量极少条件下的实时语音转换方法,其特征在于:估计高斯混合模型参数的步骤如下:
首先确定优化目标:
log p ( Y ) = log ∫ dθdXp ( X , Y , θ )
= log ∫ dθdXq ( X , θ ) · p ( X , Y , θ ) q ( X , θ ) - - - ( 1 )
≥ ∫ dθdXq ( X , θ ) · log p ( X , Y , θ ) q ( x , θ )
式中q(X,θ)取一个易于求解任意的概率形式,它可以因式分解为q(X,θ)=qX(X)qθ(θ),这样(1)式可以进一步改写为:
log p ( Y ) ≥ ∫ dθdXq ( X ) q ( θ ) · log p ( X , Y , θ ) q ( X ) q ( θ )
= ∫ dθq ( θ ) [ ∫ dXq ( X ) log p ( X , Y | θ ) q ( X ) + log p ( θ ) q ( θ ) ] - - - ( 2 )
= F ( q ( X ) , q ( θ ) )
于是,优化logp(Y)的问题转换为了优化它的下限F(q(X),q(θ))及求取分布函数q(X)和q(θ)的过程,用一种迭代的方式来进行,分别被称为集成学习期望化EL-Expectation,ELE和集成学习最大化EL-Maximization,ELM步骤:
ELE : q ( t + 1 ) ( X ) = 1 Z x exp [ ∫ dθ q ( t ) ( θ ) log p ( X , Y | θ ) ] - - - ( 3 )
ELM : q ( t + 1 ) ( θ ) = 1 Z θ p ( θ ) exp [ ∫ dX q ( t + 1 ) ( X ) log p ( X , Y | θ ) ] - - - ( 4 )
式中的t表示迭代步骤;
将上述集成学习通用算法用于学习高斯混合模型的参数,即对于任意一个观测变量y,假设它服从M个混合度的高斯分布,用数学式子可表示如下:
p ( y ) = Σ m = 1 M π m N ( y ; μ m , Σ m ) - - - ( 5 )
假设获得了观测数据序列Y={y1,y2,…,yT},再假设有一个与之相对应的隐变量数据序列X={x1,x2,…,xT}用来表示在某一时刻t,数据yt是从哪个混合度产生出来的,也就是说xt∈{1,2,…,M},根据高斯混合模型的特点,待估计的参数集合θ可定义为:
θ={πm,μm,∑m,m=1,2,…,M};
在集成学习理论框架下,所有的参数和隐变量都有各自的概率分布函数,且根据上述的公示推导,q(X)和q(θ)都是自由分布函数,即它们可以是任何概率形式,为了方便后续计算,不失一般性,假设混合系数{πm}服从联合Dirichlet分布,即p({πm})=D(λ0);均值服从正态分布,即 p ( π m | Σ m - 1 ) = N ( ρ 0 , β 0 Σ m - 1 ) ; 协方差矩阵的逆服从Wishart分布,即 p ( Σ m - 1 ) = W ( v 0 , Φ 0 ) ; 同时,假设 q ( θ ) = q ( { π m } ) Π m q ( μ m , Σ m ) , 于是根据公式(3)(4)可以计算得到:
π ‾ m = 1 T Σ t = 1 T γ m t , μ ‾ m = 1 T ‾ m Σ t = 1 T γ m t y t , Σ ‾ m = 1 T ‾ m Σ t = 1 T γ m t C m t - - - ( 6 )
其中, γ m t = p ( x t = m | y t ) , Tm=Tπm C m t = ( y t - μ ‾ m ) ( y t - μ ‾ m ) T ;
用(6)式的结果继续更新模型,即估计未知参数的概率分布,考虑到之前为高斯混合模型参数假设的概率分布函数属于共轭先验函数集,因此它们的后验概率分布应该和先验分布属于同一种类型,不同之处只是在参数的取值上,也就是说有:q({πm})=D(λm), q ( π m | Σ m - 1 ) = N ( ρ m , β m Σ m - 1 ) , q ( Σ m - 1 ) = W ( v m , Φ m ) , 然后应用以下规律更新分布参数:
λm=Tm0,ρm=(Tmμm0ρ0)/(Tm0),βm=Tm0         (7)
vm=Tm+v0,Φm=Tmm+Tmβ0m0)(μm0)T/(Tm0)+Φ0    (8)
式(7)(8)就是集成学习理论下高斯混合模型参数的求取公式。
3、根据权利要求1或2所述的在训练数据量极少条件下的实时语音转换方法,其特征在于:
在训练阶段
①源和目标人的语音通过谐波加噪声模型进行分解,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值,具体步骤如下:
a.对语音信号进行分帧,帧长20ms,帧重叠间隔10ms;
b.在每帧中,用自相关法估计基频,若该帧为清音帧,则设置基频等于零;
c.对于基频不为零的浊音帧,假设语音信号由一系列的正弦波叠加而成:
s h ( n ) = Σ l = - L L C l e j ω 0 n - - - ( 9 )
式中L为正弦波的个数,{Cl}为正弦波的复幅度,令sh表示sh(n)在一帧内的样点所组成的矢量,则(9)式可以改写成:
s h = Bx , B = e - jL ω 0 ( - N / 2 ) e - j ( L - 1 ) ω 0 ( - N / 2 ) · · · e jL ω 0 ( - N / 2 ) e - jL ω 0 ( - N / 2 + 1 ) e - j ( L - 1 ) ω 0 ( - N / 2 + 1 ) · · · e jL ω 0 ( - N / 2 + 1 ) · · · · · · · · · · · · e - jL ω 0 ( N / 2 ) e - j ( L - 1 ) ω 0 ( N / 2 ) · · · e jL ω 0 ( N / 2 ) , x = C L * C L - 1 * · · · C L - - - ( 10 )
通过最小二乘算法可以确定以上的{Cl}:
ϵ = Σ n = - N 2 N 2 w 2 ( n ) · ( s ( n ) - s h ( n ) ) 2 - - - ( 11 )
其中s(n)是真实语音信号,w(n)是窗函数,取汉明窗,将窗函数也改写成矩阵形式:
W = w 2 ( - N / 2 ) w 2 ( - N / 2 + 1 ) · · · w 2 ( N / 2 ) - - - ( 12 )
则最优的x可以这样得到:
WBx = Ws ⇒ x opt = B H W H Ws - - - ( 13 )
d.得到了{Cl},则谐波幅度和相位值如下:
Al=2|Cl|=2|C-l|,
②由于原始谐波加噪声模型参数维数较高,不便于后续计算,因此必须对其进行降维,由于基频轨迹是一维参数,因此,降维的主要对象是声道幅度谱参数和相位参数,同时,降维的目标是将声道参数转化为经典的线性预测参数,进而产生适用于语音转换系统的线性谱频率参数,求解如下:
a.分别求取离散的L个幅度值Al的平方,并将其认为是离散功率谱的采样值P(ωl);
b.根据帕斯卡定律,功率谱密度函数和自相关函数是一对傅立叶变换对,即因此我们可以通过求解下式得到对线性预测参数系数的初步估值:
R 0 R 1 · · · R p - 1 R 1 R 0 · · · R p - 2 · · · · · · · · · · · · R p - 1 R p - 2 · · · R 0 a 1 a 2 · · · a p = - R 1 - R 2 · · · - R p - - - ( 15 )
其中a1,a2,…,ap是p阶线性预测参数系数;
c.将p阶线性预测参数系数代表的全极点模型转换成时域冲激响应函数h*[n]:
h * [ n ] = 1 L Re { Σ l 1 A ( e j ω l ) e j ω l n } - - - ( 16 )
其中 A ( e j ω l ) = A ( z ) | z = e j ω l = 1 + a 1 z - 1 + a 2 z - 2 + . . . + a p z - p . 可以证明,h*和估计得到的自相关序列R*满足:
Σ i = 0 p a i R * ( n - i ) = h * [ - n ] - - - ( 17 )
在满足板仓-斋田距离Itakura-Satio,IS距离最小化的情况下,有真实的R和估计的R*的关系如下:
Σ i = 0 p a i R * ( n - i ) = Σ i = 0 p a i R ( n - i ) - - - ( 18 )
d.将(17)式代替(18)式,并重估计(15)式,有:
R 0 R - 1 · · · R - p R 1 R 0 · · · R - p + 1 · · · · · · · · · · · · R p R p - 1 · · · R 0 a 0 a 2 · · · a p = h * [ 0 ] h * [ - 1 ] · · · h * [ - p ] - - - ( 19 )
e.用IS准则评估误差,如果误差大于设定的阈值,则重复步骤c~e;反之,则停止迭代;
得到的线性预测参数系数通过联立求解下面两个等式,转化为线性谱频率参数:
P(z)=A(z)+z-(p+1)A(z-1)
                                (20)
Q(z)=A(z)-z-(p+1)A(z-1)
③通过②得到的源和目标的线性谱频率参数,用动态时间规整算法进行对齐,使得对应的源和目标的线性谱频率在设定失真准则上具有最小的失真距离,使得源和目标人的特征序列在参数的层面上关联,便于后续统计模型学习其中的映射规律,动态时间规整算法如下:
对于同一个语句的发音,假定源说话人的声学个性特征参数序列为x1,x2,…,
Figure F2009102631017C00056
,…,
Figure F2009102631017C00057
,而目标说话人的特征参数序列为y1,y2,…,
Figure F2009102631017C00058
,…,
Figure F2009102631017C00059
,且Nx≠Ny,设定源说话人的特征参数序列为参考模板,则动态时间规整算法就是要寻找时间规整函数
Figure F2009102631017C000510
使得目标特征序列的时间轴ny非线性地映射到源特征参数序列的时间轴nx,从而使得总的累积失真量最小,在数学上可以表示为:
Figure F2009102631017C00061
其中
Figure F2009102631017C00062
表示第ny帧的目标说话人特征参数和第帧源说话人特征参数之间的某种测度距离,在动态时间规整的规整过程中,规整函数
Figure F2009102631017C00064
是要满足一定的约束条件的,有边界条件和连续性条件分别为:
Figure F2009102631017C00065
Figure F2009102631017C00066
Figure F2009102631017C00067
动态时间规整是一种最优化算法,它把一个N阶段决策过程化为N个单阶段的决策过程,也就是转化为逐一做出决策的N个子问题,以便简化计算;动态时间规整的过程一般是从最后一个阶段开始进行,也即它是一个逆序过程,其递推过程可以表示为:
D(ny+1,nx)=d(ny+1,nx)+min[D(ny,nx)g(ny,nx),D(ny,nx-1),D(ny,nx-2)]  (24)
其中
Figure F2009102631017C00068
g(ny,nx)是为了ny,nx的取值满足时间规整函数的约束条件;
④计算平均基频比:认为源和目标的基频序列服从单高斯分布,然后估计高斯模型的参数,即均值μ和方差σ;
⑤用高斯混合模型对动态时间规整对齐后的特征参数进行建模,并用第2点权利要求中提出的集成学习理论估计模型参数。即首先将源和目标矢量组合成一个扩展矢量,即 z t = [ x t T , y t T ] T , 然后用(6)-(8)式对zt估计模型参数,得:
μ m z = μ m X μ m Y , Σ m Z = Σ m XX Σ m XY Σ m YX Σ m YY , m = 1,2 , . . . , M - - - ( 25 ) ;
在转换阶段
①待转换的语音用谐波加噪声模型进行分析,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值,该过程和训练阶段中的①相同;
②和训练阶段一样,将谐波加噪声模型参数转换为线性谱频率参数;
③利用训练阶段得到的有关基频的模型参数,设计基频转换函数为:
log f 0 ′ = μ y + σ y σ x ( log f 0 - μ x ) - - - ( 26 )
其中f′0是转换后的基频,μy,μx分别是训练出来的源和目标高斯模型的均值,同样,σy,σx分别是源和目标高斯模型的方差;
④在均方误差最小的准则下设计声道线性谱频率参数的转换函数如下:
y ^ t = E [ y t | x t ] = Σ m = 1 M p m ( x t ) · [ μ m Y + Σ m YX ( Σ m XX ) - 1 ( x t - μ m X ) ] - - - ( 27 )
其中 p m ( x t ) = π m N ( x t ; μ m X , Σ m XX ) / Σ m π m N ( x t ; μ m X , Σ m XX ) ;
⑤将转换后的线性谱频率参数反变换为谐波加噪声模型系数,然后和修改后的基频轨迹一起合成转换后的语音:
a.将获得的Al,f0
Figure F2009102631017C00074
用正弦模型的定义合成第k的语音,即:
Figure F2009102631017C00075
b.为了减少帧间交替时产生的误差,采用叠接相加法合成整个语音,即对于任意相邻的两帧,有:
s ( kN + m ) = ( N - m N ) · s ( k ) ( m ) + ( m N ) · s ( k + 1 ) ( m - N ) , 0 ≤ m ≤ N - - - ( 29 )
其中N表示一帧语音中包含的样点数。
CN2009102631017A 2009-12-16 2009-12-16 一种在训练数据量极少条件下的实时语音转换方法 Expired - Fee Related CN101751921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102631017A CN101751921B (zh) 2009-12-16 2009-12-16 一种在训练数据量极少条件下的实时语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102631017A CN101751921B (zh) 2009-12-16 2009-12-16 一种在训练数据量极少条件下的实时语音转换方法

Publications (2)

Publication Number Publication Date
CN101751921A true CN101751921A (zh) 2010-06-23
CN101751921B CN101751921B (zh) 2011-09-14

Family

ID=42478792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102631017A Expired - Fee Related CN101751921B (zh) 2009-12-16 2009-12-16 一种在训练数据量极少条件下的实时语音转换方法

Country Status (1)

Country Link
CN (1) CN101751921B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102568476A (zh) * 2012-02-21 2012-07-11 南京邮电大学 基于自组织特征映射网络聚类和径向基网络的语音转换法
GB2489473A (en) * 2011-03-29 2012-10-03 Toshiba Res Europ Ltd A voice conversion method and system
CN102737628A (zh) * 2012-07-04 2012-10-17 哈尔滨工业大学深圳研究生院 一种基于lpc及rbf神经网络的声音转换的方法
CN102930863A (zh) * 2012-10-19 2013-02-13 河海大学常州校区 一种基于简化自适应内插加权谱模型的语音转换及重构方法
CN102968988A (zh) * 2012-11-27 2013-03-13 河海大学常州校区 训练数据匮乏下的鲁棒性语音转换方法
CN103035236A (zh) * 2012-11-27 2013-04-10 河海大学常州校区 基于信号时序特征建模的高质量语音转换方法
CN103262069A (zh) * 2010-12-21 2013-08-21 国际商业机器公司 用于预测建模的方法和系统
CN103413548A (zh) * 2013-08-16 2013-11-27 中国科学技术大学 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法
CN104123932A (zh) * 2014-07-29 2014-10-29 科大讯飞股份有限公司 一种语音转换系统及方法
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
CN104217721A (zh) * 2014-08-14 2014-12-17 东南大学 基于说话人模型对齐的非对称语音库条件下的语音转换方法
CN104392717A (zh) * 2014-12-08 2015-03-04 常州工学院 一种基于声道谱高斯混合建模的快速语音转换系统及其方法
CN104464744A (zh) * 2014-11-19 2015-03-25 河海大学常州校区 一种基于混合高斯随机过程的分簇语音转换方法及系统
CN105828871A (zh) * 2013-12-20 2016-08-03 Med-El电气医疗器械有限公司 使用卷积复合动作电位模型检测神经元动作电位
CN106055911A (zh) * 2016-06-13 2016-10-26 达而观信息科技(上海)有限公司 一种基于组合归一的量化指标评价方法
WO2017067206A1 (zh) * 2015-10-20 2017-04-27 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
CN107103914A (zh) * 2017-03-20 2017-08-29 南京邮电大学 一种高质量的语音转换方法
CN107301859A (zh) * 2017-06-21 2017-10-27 南京邮电大学 基于自适应高斯聚类的非平行文本条件下的语音转换方法
CN104091592B (zh) * 2014-07-02 2017-11-14 常州工学院 一种基于隐高斯随机场的语音转换系统
CN107451101A (zh) * 2017-07-21 2017-12-08 江南大学 一种分层集成的高斯过程回归软测量建模方法
WO2018068654A1 (zh) * 2016-10-10 2018-04-19 深圳云天励飞技术有限公司 场景模型动态估计方法、数据分析方法及装置、电子设备
CN108021444A (zh) * 2017-11-06 2018-05-11 珠海格力智能装备有限公司 数据处理方法和装置
CN108198566A (zh) * 2018-01-24 2018-06-22 咪咕文化科技有限公司 信息处理方法及装置、电子设备及存储介质
CN108766450A (zh) * 2018-04-16 2018-11-06 杭州电子科技大学 一种基于谐波冲激分解的语音转换方法
CN110085255A (zh) * 2019-03-27 2019-08-02 河海大学常州校区 语音转换基于深度内核学习高斯过程回归建模方法
CN111985408A (zh) * 2020-08-21 2020-11-24 云南电网有限责任公司电力科学研究院 一种瓷支柱绝缘子故障识别方法及装置
CN112954633A (zh) * 2021-01-26 2021-06-11 电子科技大学 一种基于参数约束的双网络架构室内定位方法
CN113571054A (zh) * 2020-04-28 2021-10-29 中国移动通信集团浙江有限公司 语音识别信号预处理方法、装置、设备及计算机存储介质
CN114333856A (zh) * 2021-12-24 2022-04-12 南京西觉硕信息科技有限公司 给定线性预测系数时后半帧语音信号的求解方法、装置及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064104B (zh) * 2006-04-24 2011-02-02 中国科学院自动化研究所 基于语音转换的情感语音生成方法

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103262069B (zh) * 2010-12-21 2016-04-13 国际商业机器公司 用于预测建模的方法和系统
CN103262069A (zh) * 2010-12-21 2013-08-21 国际商业机器公司 用于预测建模的方法和系统
GB2489473A (en) * 2011-03-29 2012-10-03 Toshiba Res Europ Ltd A voice conversion method and system
GB2489473B (en) * 2011-03-29 2013-09-18 Toshiba Res Europ Ltd A voice conversion method and system
US8930183B2 (en) 2011-03-29 2015-01-06 Kabushiki Kaisha Toshiba Voice conversion method and system
CN102568476A (zh) * 2012-02-21 2012-07-11 南京邮电大学 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN102568476B (zh) * 2012-02-21 2013-07-03 南京邮电大学 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN102737628A (zh) * 2012-07-04 2012-10-17 哈尔滨工业大学深圳研究生院 一种基于lpc及rbf神经网络的声音转换的方法
CN102930863B (zh) * 2012-10-19 2014-05-28 河海大学常州校区 一种基于简化自适应内插加权谱模型的语音转换及重构方法
CN102930863A (zh) * 2012-10-19 2013-02-13 河海大学常州校区 一种基于简化自适应内插加权谱模型的语音转换及重构方法
CN103035236A (zh) * 2012-11-27 2013-04-10 河海大学常州校区 基于信号时序特征建模的高质量语音转换方法
CN102968988B (zh) * 2012-11-27 2015-09-16 河海大学常州校区 训练数据匮乏下的鲁棒性语音转换方法
CN102968988A (zh) * 2012-11-27 2013-03-13 河海大学常州校区 训练数据匮乏下的鲁棒性语音转换方法
CN103413548A (zh) * 2013-08-16 2013-11-27 中国科学技术大学 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法
CN103413548B (zh) * 2013-08-16 2016-02-03 中国科学技术大学 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法
US10863911B2 (en) 2013-12-20 2020-12-15 Med-El Elektromedizinische Geraete Gmbh Detecting neuronal action potentials using a convolutive compound action potential model
CN105828871B (zh) * 2013-12-20 2017-08-08 Med-El电气医疗器械有限公司 用于从电刺激神经组织检测神经元动作电位信号的系统和方法
CN105828871A (zh) * 2013-12-20 2016-08-03 Med-El电气医疗器械有限公司 使用卷积复合动作电位模型检测神经元动作电位
CN104091592B (zh) * 2014-07-02 2017-11-14 常州工学院 一种基于隐高斯随机场的语音转换系统
CN104123932A (zh) * 2014-07-29 2014-10-29 科大讯飞股份有限公司 一种语音转换系统及方法
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
CN104217721B (zh) * 2014-08-14 2017-03-08 东南大学 基于说话人模型对齐的非对称语音库条件下的语音转换方法
CN104217721A (zh) * 2014-08-14 2014-12-17 东南大学 基于说话人模型对齐的非对称语音库条件下的语音转换方法
CN104464744A (zh) * 2014-11-19 2015-03-25 河海大学常州校区 一种基于混合高斯随机过程的分簇语音转换方法及系统
CN104392717A (zh) * 2014-12-08 2015-03-04 常州工学院 一种基于声道谱高斯混合建模的快速语音转换系统及其方法
WO2017067206A1 (zh) * 2015-10-20 2017-04-27 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
US10410621B2 (en) 2015-10-20 2019-09-10 Baidu Online Network Technology (Beijing) Co., Ltd. Training method for multiple personalized acoustic models, and voice synthesis method and device
CN106055911A (zh) * 2016-06-13 2016-10-26 达而观信息科技(上海)有限公司 一种基于组合归一的量化指标评价方法
WO2018068654A1 (zh) * 2016-10-10 2018-04-19 深圳云天励飞技术有限公司 场景模型动态估计方法、数据分析方法及装置、电子设备
CN107103914B (zh) * 2017-03-20 2020-06-16 南京邮电大学 一种高质量的语音转换方法
CN107103914A (zh) * 2017-03-20 2017-08-29 南京邮电大学 一种高质量的语音转换方法
CN107301859B (zh) * 2017-06-21 2020-02-21 南京邮电大学 基于自适应高斯聚类的非平行文本条件下的语音转换方法
CN107301859A (zh) * 2017-06-21 2017-10-27 南京邮电大学 基于自适应高斯聚类的非平行文本条件下的语音转换方法
CN107451101B (zh) * 2017-07-21 2020-06-09 江南大学 一种分层集成的高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法
CN107451101A (zh) * 2017-07-21 2017-12-08 江南大学 一种分层集成的高斯过程回归软测量建模方法
CN108021444A (zh) * 2017-11-06 2018-05-11 珠海格力智能装备有限公司 数据处理方法和装置
CN108198566A (zh) * 2018-01-24 2018-06-22 咪咕文化科技有限公司 信息处理方法及装置、电子设备及存储介质
CN108766450A (zh) * 2018-04-16 2018-11-06 杭州电子科技大学 一种基于谐波冲激分解的语音转换方法
CN108766450B (zh) * 2018-04-16 2023-02-17 杭州电子科技大学 一种基于谐波冲激分解的语音转换方法
CN110085255A (zh) * 2019-03-27 2019-08-02 河海大学常州校区 语音转换基于深度内核学习高斯过程回归建模方法
CN113571054A (zh) * 2020-04-28 2021-10-29 中国移动通信集团浙江有限公司 语音识别信号预处理方法、装置、设备及计算机存储介质
CN113571054B (zh) * 2020-04-28 2023-08-15 中国移动通信集团浙江有限公司 语音识别信号预处理方法、装置、设备及计算机存储介质
CN111985408A (zh) * 2020-08-21 2020-11-24 云南电网有限责任公司电力科学研究院 一种瓷支柱绝缘子故障识别方法及装置
CN112954633A (zh) * 2021-01-26 2021-06-11 电子科技大学 一种基于参数约束的双网络架构室内定位方法
CN114333856A (zh) * 2021-12-24 2022-04-12 南京西觉硕信息科技有限公司 给定线性预测系数时后半帧语音信号的求解方法、装置及系统

Also Published As

Publication number Publication date
CN101751921B (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
CN101751921B (zh) 一种在训练数据量极少条件下的实时语音转换方法
CN101136199B (zh) 语音数据处理方法和设备
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
CN101246685B (zh) 计算机辅助语言学习系统中的发音质量评价方法
US20050038655A1 (en) Bubble splitting for compact acoustic modeling
US20150340027A1 (en) Voice recognition system
Cui et al. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR
CN109192200B (zh) 一种语音识别方法
US20080167862A1 (en) Pitch Dependent Speech Recognition Engine
JP6973304B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
Bhardwaj et al. Development of robust automatic speech recognition system for children's using kaldi toolkit
CN114495969A (zh) 一种融合语音增强的语音识别方法
Gamit et al. Isolated words recognition using mfcc lpc and neural network
Alamsyah et al. Speech gender classification using bidirectional long short term memory
Labied et al. Automatic speech recognition features extraction techniques: A multi-criteria comparison
Mohammed et al. Robust speaker verification by combining MFCC and entrocy in noisy conditions
CN103886859A (zh) 基于一对多码书映射的语音转换方法
El-Henawy et al. Recognition of phonetic Arabic figures via wavelet based Mel Frequency Cepstrum using HMMs
Aggarwal et al. Application of genetically optimized neural networks for hindi speech recognition system
CHEN et al. High-quality voice conversion system based on GMM statistical parameters and RBF neural network
Ou et al. Probabilistic acoustic tube: a probabilistic generative model of speech for speech analysis/synthesis
Swamidason et al. Exploration of diverse intelligent approaches in speech recognition systems
Mait et al. Unsupervised phoneme segmentation of continuous Arabic speech
CN108573698B (zh) 一种基于性别融合信息的语音降噪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110914

Termination date: 20141216

EXPY Termination of patent right or utility model