CN108206024B - 一种基于变分高斯回归过程的语音数据处理方法 - Google Patents

一种基于变分高斯回归过程的语音数据处理方法 Download PDF

Info

Publication number
CN108206024B
CN108206024B CN201711474721.6A CN201711474721A CN108206024B CN 108206024 B CN108206024 B CN 108206024B CN 201711474721 A CN201711474721 A CN 201711474721A CN 108206024 B CN108206024 B CN 108206024B
Authority
CN
China
Prior art keywords
data
function
variational
approximation
point set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711474721.6A
Other languages
English (en)
Other versions
CN108206024A (zh
Inventor
徐宁
缪晓宇
刘小峰
蒋爱民
王平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201711474721.6A priority Critical patent/CN108206024B/zh
Publication of CN108206024A publication Critical patent/CN108206024A/zh
Application granted granted Critical
Publication of CN108206024B publication Critical patent/CN108206024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于变分高斯回归过程的语音数据处理方法,基于变分高斯回归过程模型进行语音数据处理,所述变分高斯回归过程模型在VFE近似基础上,对对数似然函数进行变换,使得求出的最终下限变大,求出活动点集的自由变分高斯分布,自由变分高斯分布为映射近似中所需要的选取点的后验分布,按映射近似的方法来对语音数据进行处理。本发明提高计算的效率,对于最后求出的下限最大值中的部分项作出近似,在尽量减小相似性的损失的同时,使得计算效率能够大大提升。

Description

一种基于变分高斯回归过程的语音数据处理方法
技术领域
本发明涉及语音数据处理领域,具体涉及一种基于变分高斯回归过程的语音数据处理方法
背景技术
对于语音数据的处理是现代信息数据处理的很重要的一部分,通过按时间间隔分帧,对于每一帧语音数据,可以用一个高维列向量来表示它,每一维对应一个特征,如共振峰频率,带宽等等。这样就能将语音数据的处理问题转换为更为常见的数据处理问题,进而转换为回归问题;
高斯过程回归是一种机器学习回归方法,它是一种非参数回归方法,所以相较于参数回归方法,它的过拟合现象并不严重,而且预测结果具有概率意义,既有预测值,同时还有对于预测值的可信度的判断(通俗的讲,就是对于预测结果准确率的信心),在对于小样本数据的处理上,高斯过程回归的效果相当好。
但是高斯过程回归也有一些问题,最主要的就是所花费的计算代价极大,在当下时代,数据处理中所涉及的都是量级十分巨大的数据,所以标准的高斯过程回归在实际应用中并没有得到推广。现有技术,最标准高斯过程回归的最大问题就是计算量太大,换句话来说就是计算时间太长。而之后的各种近似包括VFE近似都是在尽量保证准确性的基础上,使得计算量减小,不可避免的会造成准确度的降低。
发明内容
发明目的:本发明在VFE((Variational Free approximation VariatioinalFree Energy approximation))近似模型的基础上进一步缩小PP近似(Project processapproximation,映射近似)模型和标准高斯过程回归模型两者对数似然函数之间的差异,从而提升预测准确性。
本发明技术方案如下。
一种基于变分高斯回归过程的语音数据处理方法,基于变分高斯回归过程模型进行语音数据处理,变分高斯回归过程模型在VFE近似基础上,对对数似然函数进行变换,将对数似然函数进行最小化,求出活动点集的自由变分高斯分布,自由变分高斯分布为映射近似中所需要的选取点的后验分布,按映射近似的方法来对语音数据进行处理。
一种基于变分高斯回归过程的语音数据处理方法,具体包括以下步骤:
S01,语音数据按时间间隔分帧,对每一帧数据提取特征数据,将特征数据组成训练数据,数量记为N,每个特征数据为d维数据;
S02,确定所需要的活动点的数量,记为m,在对数似然函数表达式进行变换之后,通过运用詹森不等式,计算得出一个下限,求出活动点集所服从的自由高斯分布;
S03,采用贪婪算法确定活动点集中的m个元素;
S04,对求出的对数似然函数下限中的参数求偏导,采用优化方法对偏导数进行最小化,得出参数的最优解;
S05,将步骤S04中求出的参数代入到步骤S02中的活动点集高斯分布中,并按照PP近似的方法来求出语音数据的预测值,实现对语音数据的回归。
步骤S02具体包括以下步骤:
(201)对数似然函数表达式为式(1):
lnp(y)=ln∫∫p(y|f)p(f|fm)p(fm)dfdfm (1)
在语音转换中,训练样本是每一帧源语音数据与其对应的目标语音数据所形成的数据对集合,假设目标语音数据为一维数据,建立目标语音数据模型为y=f(x)+ε,其中y为观测到的带有噪声的观测值,f为未受到噪声污染的函数值,x为源语音数据,ε为噪声,假设噪声服从高斯分布N(0,σ2I),定义I是指单位矩阵;fm为活动点集中所有源语音数据所对应的目标数据的函数值;p(y|f)表示已知变量f后变量y的概率;p(f|fm)表示已知fm情况下f的概率,p(fm)表示fm的概率;p(y)表示y的概率;
(202)VFE近似过程为式(2):
Figure GDA0003064454810000021
(203)詹森不等式表述为式为:
f为凸函数或者凹函数,x为随机变量,若f为凸函数,则E(f(x))≥f(E(x));若f为凹函数,则E(f(x))≤f(E(x))),其中E(f(x))是随机变量f(x)的期望;
(204)在高斯过程回归的预测阶段,结合詹森不等式将对数似然函数进行最小化,又因为ln函数为凹函数,得到式(3):
Figure GDA0003064454810000031
将lnp(y)的最小化问题转化为求式(3)不等式右边的最大化问题,不等式(3)右边定义为FV(Xm,φ),要求FV(Xm,φ)的最大值,将φ(fm)作为自变函数,进行变分求解,求出FV(Xm,φ)的最大值以及所对应的φ(fm)所服从的高斯分布;
(205)以所述VFE近似过程为基础,对数似然函数转换为式(4):
Figure GDA0003064454810000032
则式(4)经过詹森不等式变化后,转换为式(5):
Figure GDA0003064454810000033
n为正整数,
Figure GDA0003064454810000034
的Hessian矩阵为半正定矩阵,为凸函数,则
Figure GDA0003064454810000035
为凹函数,
得出:
Figure GDA0003064454810000036
Figure GDA0003064454810000037
表示均值为0,方差为
Figure GDA0003064454810000038
的高斯分布;
其中
Figure GDA0003064454810000039
KNm为所有N个数据与m个活动点之间的协方差,Kmm为m个活动点与m个活动点之间的协方差,KmN为KNm的转置。
将n取得足够大(n≥104),式(7)中第三项忽略掉,近似等式变换为式(8):
Figure GDA00030644548100000310
得出活动点集所服从的分布为:
φ(fm)~N(σ-2Kmm(Kmm-2KmnKnm)-1Kmny,Kmm(Kmm-2KmnKnm)-1Kmm)
设θ为所有参数的集合,根据极大似然法,要求出FH(Xm)对θ的偏导,最终求出所有的参数θ。
步骤S03具体包括以下步骤:
(301)建立一个活动点集,活动点集初始为一个空集记为J,然后建立J的余集记为JC,则JUJC为全部训练数据;
(302)随机从JC中选取一部分元素建立一个工作集,记为W,将W中的数据点分别代入到
Figure GDA0003064454810000041
中去,最大化
Figure GDA0003064454810000042
为选取活动点的选择标准,其中
Figure GDA0003064454810000043
其中Tr是指矩阵的迹,即主对角线所有元素的和;选出使得
Figure GDA0003064454810000044
最大一个点加入活动点集J,更新JC,并再次从JC中随机选取工作集W,第二次选择第二个活动点,重复m次,直至选出m个活动点,使得J成为所需要的活动点集。
活动点集为代表整个训练样本的子集。
较优地,步骤S04所述优化方法为共轭梯度法或者牛顿法。
本发明的有益效果包括:本申请一种基于变分高斯回归过程的语音数据处理方法利用了
Figure GDA0003064454810000045
凹函数的性质,在VFE近似的基础上进一步提高了预测值得精确性;在VFE近似的基础上进一步缩小了PP近似与标准高斯过程回归两者似然函数的差异,从而使得语音预测结果会更加好,实现原语音数据准确回归;本发明提高计算的效率,对于最后求出的下限最大值中的部分项作出近似,在尽量减小相似性的损失的同时,使得计算效率能够大大提升。
附图说明
下面结合附图和实施例对本发明进一步说明;
图1为本发明一种基于变分高斯回归过程的语音数据处理方法流程图;
图2为本发明涉及的活动点集按照变分方法根据近似性标准选取的图示说明。
具体实施方式
下面结合附图并通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
为了使本发明的技术手段、创作特征、工作流程、使用方法达成目的与功效,且为了使该评价方法易于明白了解,下面结合具体实施例,进一步阐述本发明。
一种基于变分高斯回归过程的语音数据处理方法,基于变分高斯回归过程模型进行语音数据处理,所述变分高斯回归过程模型在VFE近似基础上,对对数似然函数进行变换,将对数似然函数进行最小化,然后求出活动点集的自由变分高斯分布,自由变分高斯分布为映射近似(PP近似)(Project Process approximation)中所需要的选取点的后验分布,按映射近似(PP近似)的方法来对语音数据进行处理。
如图1所示,一种基于变分高斯回归过程的语音数据处理方法,具体包括以下步骤:
S01,语音数据按时间间隔分帧,对每一帧数据提取特征数据,将特征数据组成训练数据,数量记为N,每个特征数据为d维数据;
S02,确定所需要的活动点的数量(活动点集代表整个训练样本的子集),记为m,对对数似然函数进行变换,使用变分求出一个下限,在对数似然函数表达式进行变换之后,通过运用詹森不等式,得出一个下限,相较于VFE近似所得出的下限,本申请所得出的下限更大,并求出活动点集所服从的自由高斯分布;
S03,采用贪婪算法确定最终的活动点集中的m个元素;
S04,对求出的对数似然函数下限中的参数求偏导,并采用共轭梯度法或者牛顿法等优化方法对偏导数进行最小化,得出参数的最优解;
S05,按照PP近似的方法,将步骤S04中求出的参数代入到步骤S02中的活动点集高斯分布中,并按照PP近似的方法来求出语音数据的预测值,实现对语音数据的回归。语音数据进行分帧后,每一帧语音数据进行特征提取,由此将一段语音抽象成一组数据样本,而PP近似则是标准高斯过程回归的一种近似方法,即一种对数据的回归方法。
如图2所示,步骤S02具体包括以下步骤:
(201)对数似然函数表达式为式(1):
lnp(y)=ln∫∫p(y|f)p(f|fm)p(fm)dfdfm (1)
在语音转换中,训练样本是每一帧源语音数据与其对应的目标语音数据所形成的数据对集合,而目标语音数据是一个多维向量,为计算简便,假设目标语音数据为一维数据,建立目标语音数据模型为y=f(x)+ε,其中y为观测到的带有噪声的观测值,f为未受到噪声污染的函数值,x为源语音数据,ε为噪声,假设噪声服从高斯分布N(0,σ2I),定义I是单位矩阵;fm为活动点集中所有源语音数据所对应的目标数据的函数值;p(y|f)表示已知变量f后变量y的概率;p(f|fm)表示已知fm情况下f的概率,p(fm)表示fm的概率;p(y)表示y的概率;
(202)VFE近似过程为式(2):
Figure GDA0003064454810000061
(203)詹森不等式表述为式为:
f为凸函数或者凹函数,x为随机变量,若f为凸函数,则E(f(x))≥f(E(x));若f为凹函数,则E(f(x))≤f(E(x))),其中E(f(x))是随机变量f(x)的期望;
(204)在高斯过程回归的预测阶段,结合詹森不等式将对数似然函数进行最小化,又因为ln函数为凹函数,得到式(3):
Figure GDA0003064454810000062
将lnp(y)的最小化问题转化为求式(3)不等式右边的最大化问题,不等式(3)右边定义为FV(Xm,φ),要求FV(Xm,φ)的最大值,将φ(fm)作为自变函数,进行变分求解,求出FV(Xm,φ)的最大值以及所对应的φ(fm)所服从的高斯分布;
(205)以所述VFE近似过程为基础,对数似然函数转换为式(4):
Figure GDA0003064454810000063
则式(4)经过詹森不等式变化后,转换为式(5):
Figure GDA0003064454810000064
n为正整数,
Figure GDA0003064454810000065
的Hessian矩阵为半正定矩阵,为凸函数,则
Figure GDA0003064454810000066
为凹函数,因此可以对等式作如上变换;
进一步证明上述式子比VFE近似所求的下限更大,证明如下:
Figure GDA0003064454810000067
对FH(Xm,φ)再用一次詹森不等式,得到不等式(6):
Figure GDA0003064454810000071
不等式右边则为FV(Xm,φ),由此得证。
最终得出:
Figure GDA0003064454810000072
定义I是指单位矩阵,
Figure GDA0003064454810000073
表示均值为0,方差为
Figure GDA0003064454810000074
的高斯分布;
其中
Figure GDA0003064454810000075
KNm为所有N个数据与m个活动点之间的协方差,Kmm为m个活动点与m个活动点之间的协方差,KmN为KNm的转置。
为了不增加计算量,将n取得足够大(n≥104本实施例n=104),式(7)中
第三项中的KNN这一项忽略掉,近似等式变换为式(8):
Figure GDA0003064454810000076
并得出活动点集所服从的分布为:
φ(fm)~N(σ-2Kmm(Kmm-2KmnKnm)-1Kmny,Kmm(Kmm-2KmnKnm)-1Kmm)
设θ为所有参数的集合,根据极大似然法,要求出FH(Xm)对θ的偏导,最终求出所有的参数θ。
步骤S03具体包括以下步骤:
(301)建立一个活动点集,活动点集初始为一个空集记为J,然后建立J的余集记为JC,则JUJC为全部训练数据;
(302)随机从JC中选取一部分元素建立一个工作集,记为W,将W中的数据点分别代入到
Figure GDA0003064454810000077
中去,这里最大化
Figure GDA0003064454810000078
为选取活动点的选择标准,其中
Figure GDA0003064454810000079
其中Tr是指矩阵的迹,即主对角线所有元素的和;选出使得
Figure GDA00030644548100000710
最大一个点(注:这里起始只有一个活动点)加入活动点集J,然后更新JC,并再次从JC中随机选取工作集W,第二次就是选择第二个活动点(第二次计算
Figure GDA0003064454810000081
最大值时,这里的Xm就是两个点了,一个是已经选择好的数据点,另一个是新的工作集W中的数据点),这样重复m次,直至选出m个活动点,使得J成为所需要的活动点集。
步骤S04包括如下步骤:对步骤S03中所求出的对数似然函数的下限中的参数分别求偏导,采用牛顿法或者共轭梯度法优化方法得出参数的最优解。牛顿法或者共轭梯度法优化方法都是本领域技术人员的公知常识,本实施例不再详述。
将测试点的数据和步骤S04中求得的模型参数代入至PP近似模型中,从而得出最终预测结果。就是根据已有源语音数据和目标语音数据,给出一段新的源语音数据,音转换是建立在有双方语音音频的基础之上,预测出与之对应的目标语音数据。
本领域内的技术人员可以对本发明进行改动或变型的设计但不脱离本发明的思想和范围。因此,如果本发明的这些修改和变型属于本发明权利要求及其等同的技术范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种基于变分高斯回归过程的语音数据处理方法,其特征在于,
基于变分高斯回归过程模型进行语音数据处理,变分高斯回归过程模型进行语音数据处理具体包括以下步骤:所述变分高斯回归过程模型在VFE近似基础上,对对数似然函数进行变换,将对数似然函数进行最小化,求出活动点集的变分高斯分布,变分高斯分布为映射近似中所需要的活动点的后验分布,基于变分高斯分布按映射近似的方法来对语音数据进行处理;活动点集是整个训练样本的子集;
所述一种基于变分高斯回归过程的语音数据处理方法,具体包括以下步骤:
S01,语音数据按时间间隔分帧,对每一帧数据提取特征数据,将特征数据组成训练数据,数量记为N,每个特征数据为d维数据;
S02,确定所需要的活动点的数量为m,将对数似然函数表达式进行变换,通过运用詹森不等式,将对数似然函数进行最小化,求出活动点集所服从的变分高斯分布;
S03,采用贪婪算法确定活动点集中的m个元素;
S04,对求出的对数似然函数下限中的参数求偏导,采用优化方法对偏导数进行最小化,得出参数的最优解;
S05,将步骤S04中求出的参数代入到步骤S02中的活动点集高斯分布中,并按照映射近似的方法来求出语音数据的预测值,实现对语音数据的回归;
所述步骤S03具体包括以下步骤:
(301)建立一个活动点集,活动点集初始为一个空集记为J,然后建立J的余集记为JC,则JUJC为全部训练数据;
(302)随机从JC中选取一部分元素建立一个工作集,记为W,将W中的数据点分别代入到
Figure FDA0003064454800000011
中去,最大化
Figure FDA0003064454800000012
为选取活动点的选择标准,其中
Figure FDA0003064454800000013
其中Tr是指矩阵的迹,即主对角线所有元素的和;使得
Figure FDA0003064454800000014
最大的一个点加入活动点集J,更新JC,并再次从更新后的JC中重新随机选取工作集W,选择第二个活动点,重复m次,直至选出m个活动点,使得J成为所需要的活动点集。
2.根据权利要求1所述的一种基于变分高斯回归过程的语音数据处理方法,其特征在于,
所述步骤S02具体包括以下步骤:
(201)对数似然函数表达式为式(1):
lnp(y)=ln∫∫p(y|f)p(f|fm)p(fm)dfdfm (1)
在语音转换中,训练样本是每一帧源语音数据与其对应的目标语音数据所形成的数据对集合,假设目标语音数据为一维数据,建立目标语音数据模型为y=f(x)+ε,其中y为观测到的带有噪声的观测值,f为未受到噪声污染的函数值,x为源语音数据,ε为噪声,假设噪声服从高斯分布N(0,σ2I),定义I是指单位矩阵;fm为活动点集中所有源语音数据所对应的目标数据的函数值;p(y|f)表示已知变量f后变量y的概率;p(f|fm)表示已知fm情况下f的概率,p(fm)表示fm的概率;p(y)表示y的概率;
(202)VFE近似过程为式(2):
Figure FDA0003064454800000021
(203)詹森不等式表述为式为:
如果f为凸函数或者凹函数,x为随机变量,若f为凸函数,则E(f(x))≥f(E(x));若f为凹函数,则E(f(x))≤f(E(x))),其中E(f(x))是随机变量f(x)的期望;
(204)在高斯过程回归的预测阶段,结合詹森不等式将对数似然函数进行最小化,又因为ln函数为凹函数,得到式(3):
Figure FDA0003064454800000022
将lnp(y)的最小化问题转化为求式(3)不等式右边的最大化问题,不等式(3)右边定义为FV(Xm,φ),要求FV(Xm,φ)的最大值,将φ(fm)作为自变函数,进行变分求解,求出FV(Xm,φ)的最大值以及所对应的φ(fm)所服从的高斯分布;
(205)以所述VFE近似过程为基础,对数似然函数转换为式(4):
Figure FDA0003064454800000023
则式(4)经过詹森不等式变化后,转换为式(5):
Figure FDA0003064454800000024
n为正整数,
Figure FDA0003064454800000031
的Hessian矩阵为半正定矩阵,为凸函数,则
Figure FDA0003064454800000032
为凹函数,
得出:
Figure FDA0003064454800000033
Figure FDA0003064454800000034
表示均值为0,方差为
Figure FDA0003064454800000035
的高斯分布;
其中
Figure FDA0003064454800000036
KNm为所有N个数据与m个活动点之间的协方差,Kmm为m个活动点之间的协方差,KmN为KNm的转置;
将n取得足够大,式(7)中第三项忽略掉,近似等式变换为式(8):
Figure FDA0003064454800000037
得出活动点集所服从的分布为:
φ(fm)~N(σ-2Kmm(Kmm-2KmnKnm)-1Kmny,Kmm(Kmm-2KmnKnm)-1Kmm)
设θ为所有参数的集合,根据极大似然法,要求出FH(Xm)对θ的偏导,最终求出所有的参数θ。
3.根据权利要求1所述的一种基于变分高斯回归过程的语音数据处理方法,其特征在于,
步骤S04所述优化方法为共轭梯度法或者牛顿法。
4.根据权利要求2所述的一种基于变分高斯回归过程的语音数据处理方法,其特征在于,n≥104
CN201711474721.6A 2017-12-29 2017-12-29 一种基于变分高斯回归过程的语音数据处理方法 Active CN108206024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711474721.6A CN108206024B (zh) 2017-12-29 2017-12-29 一种基于变分高斯回归过程的语音数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711474721.6A CN108206024B (zh) 2017-12-29 2017-12-29 一种基于变分高斯回归过程的语音数据处理方法

Publications (2)

Publication Number Publication Date
CN108206024A CN108206024A (zh) 2018-06-26
CN108206024B true CN108206024B (zh) 2021-06-25

Family

ID=62606107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711474721.6A Active CN108206024B (zh) 2017-12-29 2017-12-29 一种基于变分高斯回归过程的语音数据处理方法

Country Status (1)

Country Link
CN (1) CN108206024B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109256142B (zh) * 2018-09-27 2022-12-02 河海大学常州校区 语音转换基于扩展内核类网格法处理零散数据建模方法及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683122A (zh) * 2016-12-16 2017-05-17 华南理工大学 一种基于高斯混合模型和变分贝叶斯的粒子滤波方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100498935C (zh) * 2006-06-29 2009-06-10 上海交通大学 基于语音生成模型的变分贝叶斯语音增强方法
CN106782599A (zh) * 2016-12-21 2017-05-31 河海大学常州校区 基于高斯过程输出后滤波的语音转换方法
CN107068165B (zh) * 2016-12-31 2020-07-24 南京邮电大学 一种语音转换方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683122A (zh) * 2016-12-16 2017-05-17 华南理工大学 一种基于高斯混合模型和变分贝叶斯的粒子滤波方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Variational free energy and the Laplace approximation;KarlFriston;《NeuroImage》;20070130;全文 *
Voice conversion based on Gaussian processes by coherent;Ning Xu;《Speech Communication》;20131126;全文 *
一种稀少训练数据条件下的语音转换算法;徐宁等;《南京邮电大学学报》;20101030;第2.1、2.1节 *

Also Published As

Publication number Publication date
CN108206024A (zh) 2018-06-26

Similar Documents

Publication Publication Date Title
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
JP2019056975A (ja) 改良型敵対的生成ネットワーク実現プログラム、改良型敵対的生成ネットワーク実現装置及び学習済モデル生成方法
WO2014029099A1 (en) I-vector based clustering training data in speech recognition
CN111144566B (zh) 神经网络权重参数的训练方法、特征分类方法及对应装置
CN103839041A (zh) 客户端特征的识别方法和装置
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
JP6992709B2 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN112509600A (zh) 模型的训练方法、装置、语音转换方法、设备及存储介质
CN110929836B (zh) 神经网络训练及图像处理方法和装置、电子设备、介质
CN109766476B (zh) 视频内容情感分析方法、装置、计算机设备及存储介质
WO2019163736A1 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
CN108206024B (zh) 一种基于变分高斯回归过程的语音数据处理方法
WO2022173650A1 (en) System and method for domain-agnostic bias reduction with selected sampling for few-shot learning
CN117577117A (zh) 正交化低秩适应矩阵的语音检测模型的训练方法及装置
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN111640438A (zh) 音频数据处理方法、装置、存储介质及电子设备
Zheng et al. Functional gradient ascent for Probit regression
JP2020135485A (ja) 拡張装置、拡張方法及び拡張プログラム
CN115795355A (zh) 一种分类模型训练方法、装置及设备
US20140343945A1 (en) Method of visual voice recognition by following-up the local deformations of a set of points of interest of the speaker's mouth
US20140343944A1 (en) Method of visual voice recognition with selection of groups of most relevant points of interest
CN113823292A (zh) 基于通道注意力深度可分卷积网络的小样本话者辨认方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant