CN106205623B - 一种声音转换方法及装置 - Google Patents
一种声音转换方法及装置 Download PDFInfo
- Publication number
- CN106205623B CN106205623B CN201610437415.4A CN201610437415A CN106205623B CN 106205623 B CN106205623 B CN 106205623B CN 201610437415 A CN201610437415 A CN 201610437415A CN 106205623 B CN106205623 B CN 106205623B
- Authority
- CN
- China
- Prior art keywords
- speaker
- converted
- sound
- coefficient
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000009466 transformation Effects 0.000 claims abstract description 84
- 230000003044 adaptive effect Effects 0.000 claims abstract description 40
- 239000000284 extract Substances 0.000 claims abstract description 11
- OSXPVFSMSBQPBU-UHFFFAOYSA-N 2-(2-carboxyethoxycarbonyl)benzoic acid Chemical compound OC(=O)CCOC(=O)C1=CC=CC=C1C(O)=O OSXPVFSMSBQPBU-UHFFFAOYSA-N 0.000 claims description 126
- 238000006243 chemical reaction Methods 0.000 claims description 65
- 239000013598 vector Substances 0.000 claims description 56
- 238000000605 extraction Methods 0.000 claims description 42
- 238000001228 spectrum Methods 0.000 claims description 26
- 230000003595 spectral effect Effects 0.000 claims description 16
- 230000003068 static effect Effects 0.000 claims description 16
- 230000006978 adaptation Effects 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000000465 moulding Methods 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 238000002156 mixing Methods 0.000 description 24
- 239000000470 constituent Substances 0.000 description 18
- 239000000203 mixture Substances 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 8
- 238000001831 conversion spectrum Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010189 synthetic method Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000004615 ingredient Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种声音转换方法及装置,属于语音信号处理技术领域。所述声音转换方法主要对预存储的多个源说话人以及一个中间说话人的训练语料提取声音特征系数,建立第一联合高斯混合模型,采用待转换源说话人语料的声音特征系数对第一联合高斯混合模型自适应出第一转换模型,并通过第一转换模型把待转换源说话人的声音转换成具有中间说话人音色的声音。本发明当源说话人改变时,无须重新建立联合高斯混合模型,极大提高了智能化程度,也增加了趣味性。自适应过程中不需要对称语料,且需要估计的参数少,运算复杂度低,便于实际应用。
Description
技术领域
本发明涉及一种转换技术,尤其是一种声音转换方法及装置,属于语音信号处理技术领域。
背景技术
声音转换是声音信号处理领域近年来新兴的研究分支,声音转换技术是指在保持语义内容不变的情况下,通过改变一个源说话人的语音个性特征,使他说的话被听者认为是目标说话人说的话。经过多年发展,声音转换领域已涌现出大量算法,但这些算法只能针对一对一进行转换,转换过程训练阶段需要大量对齐语料,运算复杂度高,这给实际应用带来很大的不便。
发明内容
本发明为解决上述技术问题,提供一种声音转换方法及装置,可以实现将任意一源说话人的声音转换为具有中间说话人音色的声音,并进一步实现将任意一源说话人的声音转换为具有任意一目标说话人音色的声音。
为达到上述目的,本发明公开了一种声音转换方法,为了实现将任意一源说话人的声音转换为具有中间说话人音色的声音,采用的技术方案为:
一种声音转换方法,包括步骤:
对参考源说话人语料和中间说话人第一语料分别提取声音特征系数,并建立第一联合高斯混合模型,其中参考源说话人的数量为2个以上;
提取待转换源说话人语料的声音特征系数,采用待转换源说话人语料的声音特征系数对第一联合高斯混合模型进行自适应得到第一转换模型,所述第一转换模型为待转换源说话人与中间说话人的声音转换模型;
通过第一转换模型将待转换源说话人的声音转换为具有中间说话人音色的声音。
本发明进一步优化,为了实现将任意一源说话人的声音转换为具有任意一目标说话人音色的声音,还包括步骤:
对中间说话人第二语料与参考目标说话人语料分别提取声音特征系数,并建立第二联合高斯混合模型,其中参考目标说话人的数量为2个以上;
提取待转换目标说话人语料的声音特征系数,采用待转换目标说话人语料的声音特征系数对第二联合高斯混合模型进行自适应得到第二转换模型,所述第二转换模型为中间说话人与待转换目标说话人的声音转换模型;
通过第一转换模型将待转换源说话人的声音转换为具有中间说话人音色的声音之后,再通过第二转换模型将具有中间说话人音色的声音转换为具有待转换目标说话人音色的声音。
本发明进一步优化,为了实现将任意一源说话人的声音转换为具有中间说话人音色的声音,具体步骤包括:
提取预存储的S个参考源说话人语料与中间说话人第一语料的梅尔倒谱MCEP系数,S大于20;
采用动态时间规整算法对S个参考源说话人语料与中间说话人第一语料的梅尔倒谱MCEP系数分别进行对齐并组合,构成联合特征矢量,所述S个参考源说话人与中间说话人的语料内容相同;
对S个参考源说话人与中间说话人的联合特征矢量建立参考源说话人无关的联合高斯混合模型;
提取待转换源说话人语料的梅尔倒谱MCEP系数,利用所述梅尔倒谱MCEP系数对参考源说话人无关的联合高斯模型中的参考源说话人均值部分进行自适应,得到待转换源说话人与中间说话人的第一转换模型;
提取待转换源说话人的待转换声音的梅尔倒谱MCEP系数后,并通过自适应后的第一转换模型进行转换,得到转换后的梅尔倒谱MCEP系数;
将转换后的梅尔倒谱MCEP系数与待转换源说话人的梅尔倒谱MCEP系数作差分并构建梅尔对数谱MLSA滤波器,利用所述滤波器对待转换源说话人声音信号进行滤波,得到具有中间说话人音色的声音。
本发明进一步优化,所述“利用所述梅尔倒谱MCEP系数对与参考源说话人无关的联合高斯模型中的源说话人均值部分进行自适应,得到待转换源说话人与中间说话人的转换模型”包括:
将参考源说话人无关的联合高斯模型拆分,抽取联合高斯模型中的参考源说话人均值部分以及参考源说话人协方差部分,构建参考源说话人无关的高斯混合模型;
利用待转换源说话人语料的梅尔倒谱MCEP系数对参考源说话人无关的高斯混合模型做MLLR均值自适应得到待转换源说话人均值矢量;
将待转换源说话人均值矢量替换联合高斯混合模型中的参考源说话人均值部分,得到待转换源说话人与中间说话人的联合高斯模型。
本发明进一步优化,为实现将任意一源说话人的声音转换为具有任意一目标说话人音色的声音,具体步骤还包括:
提取预存储的中间说话人第二语料与S个参考目标说话人语料的梅尔倒谱MCEP系数,S大于20;
采用动态时间规整算法对中间说话人第二语料与S个参考目标说话人语料的梅尔倒谱MCEP系数分别进行对齐并组合,构成联合特征矢量,所述中间说话人与S个参考目标说话人的语料内容相同;
对中间说话人与参考目标说话人联合特征矢量建立参考目标说话人无关的联合高斯混合模型;
提取待转换目标说话人语料的梅尔倒谱MCEP系数,利用所述梅尔倒谱MCEP系数对参考目标说话人无关的联合高斯模型中的参考目标说话人均值部分进行自适应,得到中间说话人与待转换目标说话人的第二转换模型;
在通过第一转换模型将待转换源说话人的声音转换为具有中间说话人音色的声音后,提取具有中间说话人音色的声音的梅尔倒谱MCEP系数,并通过自适应后的第二转换模型进行转换,得到转换后的梅尔倒谱MCEP系数;
将转换后的梅尔倒谱MCEP系数与具有中间说话人音色的声音的梅尔倒谱MCEP系数作差分并构建梅尔对数谱MLSA滤波器,利用所述滤波器对具有中间说话人音色的声音信号进行滤波,从而得到具有待转换目标说话人音色的声音。
本发明进一步优化,所述“利用所述梅尔倒谱MCEP系数对与参考目标说话人无关的联合高斯模型中的参考目标说话人均值部分进行自适应,得到中间说话人与待转换目标说话人的转换模型”包括:
将参考目标说话人无关的联合高斯模型拆分,抽取联合高斯模型中的参考目标说话人均值部分以及目标说话人协方差部分,构建参考目标说话人无关的高斯混合模型;
利用待转换目标说话人的梅尔倒谱MCEP系数对参考目标说话人无关的高斯混合模型做MLLR均值自适应得到待转换目标说话人的均值矢量;
将待转换目标说话人的均值矢量替换联合高斯混合模型中的参考目标说话人均值部分,得到中间说话人与待转换目标说话人的联合高斯模型。
本发明进一步优化,所述提取梅尔倒谱MCEP系数步骤包括:利用STRAIGHT分析合成器对声音按帧分析,得到静态频谱包络,根据所述静态频谱包络提取梅尔倒谱MCEP系数。
为达到上述目的,本发明还公开了一种声音转换装置,为了实现将任意一源说话人的声音转换为具有中间说话人音色的声音,采用的技术方案为:
第一提取模块,用于提取参考源说话人、中间说话人和待转换源说话人的声音特征系数;
第一联合高斯混合模型建立模块,用于通过提取模块得到的参考源说话人语料和中间说话人第一语料的声音特征系数,来建立参考源说话人和中间说话人的第一联合高斯混合模型;
第一自适应模块,用于通过第一提取模块得到的待转换源说话人语料的声音特征系数对第一联合高斯混合模型自适应,得到第一转换模型,所述第一转换模型为待转换源说话人与中间说话人的声音转换模型;
第一转换模块,用于通过第一转换模型将待转换源说话人的声音转换为具有中间说话人音色的声音。
本发明进一步优化,为了实现将任意一源说话人的声音转换为具有任意一目标说话人音色的声音,还包括:
第二提取模块,用于提取中间说话人、参考目标说话人、待转换目标说话人的声音特征系数;
第二联合高斯混合模型建立模块,用于通过所述第二提取模块得到的中间说话人第二语料和参考目标说话人语料的声音特征系数建立中间说话人和参考目标说话人的第二联合高斯混合模型;
第二自适应模块,用于通过第二提取模块得到的待转换目标说话人语料的声音特征系数对第二联合高斯混合模型自适应,得到第二转换模型,所述第二转换模型为中间说话人与待转换目标说话人的声音转换模型;
第二转换模块,用于通过第一转换模型把待转换源说话人的声音转换为具有中间说话人音色的声音之后,再通过第二转换模型把具有中间说话人音色的声音转换为具有待转换目标说话人音色的声音;
本发明进一步优化,所述第一联合高斯混合模型建立模块,具体用于:
通过第一提取模块,提取预存储的S个参考源说话人语料与中间说话人第一语料的梅尔倒谱梅尔倒谱MCEP系数,S大于20;
采用动态时间规整算法对S个参考源说话人语料与中间说话人第一语料的梅尔倒谱MCEP系数分别进行对齐并组合,构成联合特征矢量,所述S个参考源说话人与中间说话人的语料内容相同;
对S个参考源说话人与中间说话人的联合特征矢量建立参考源说话人无关的联合高斯混合模型。
所述第一自适应模块,具体用于:
通过第一提取模块,提取待转换源说话人语料的梅尔倒谱MCEP系数,利用所述梅尔倒谱MCEP系数对参考源说话人无关的联合高斯模型中的参考源说话人均值部分进行自适应,得到待转换源说话人与中间说话人的第一转换模型;
所述第一转换模块,具体用于:
通过第一提取模块,提取待转换源说话人的待转换声音的梅尔倒谱MCEP系数,并通过第一转换模型进行转换,得到转换后的梅尔倒谱MCEP系数;
将转换后的梅尔倒谱MCEP系数与待转换源说话人的梅尔倒谱MCEP系数作差分并构建梅尔对数谱MLSA滤波器,利用所述滤波器对待转换源说话人声音信号进行滤波,得到具有中间说话人音色的声音;
本发明进一步优化,所述第一自适应模块,具体还用于:
将参考源说话人无关的联合高斯模型拆分,抽取联合高斯模型中的参考源说话人均值部分以及参考源说话人协方差部分,构建参考源说话人无关的高斯混合模型;
利用待转换源说话人语料的梅尔倒谱MCEP系数对参考源说话人无关的高斯混合模型做MLLR均值自适应得到待转换源说话人均值矢量;
将待转换源说话人均值矢量替换联合高斯混合模型中的参考源说话人均值部分,得到待转换源说话人与目标说话人的联合高斯模型;
本发明进一步优化,所述第二联合高斯混合模型建立模块,具体用于:
通过第二提取模块,提取预存储的中间说话人第二语料与S个参考目标说话人语料的梅尔倒谱MCEP系数,S大于20;
采用动态时间规整算法对中间说话人第二语料与S个参考目标说话人语料的梅尔倒谱MCEP系数分别进行对齐并组合,构成联合特征矢量,所述中间说话人与S个参考目标说话人的语料内容相同;
对中间说话人与参考目标说话人联合特征矢量建立参考目标说话人无关的联合高斯混合模型;
所述第二自适应模块,具体用于:通过第二提取模块,提取待转换目标说话人语料的梅尔倒谱MCEP系数,利用所述梅尔倒谱MCEP系数对参考目标说话人无关的联合高斯模型中的参考目标说话人均值部分进行自适应,得到中间说话人与待转换目标说话人的第二转换模型;
所述第二转换模块,具体用于:
通过第一转换模型将待转换源说话人的声音转换为具有中间说话人音色的声音之后,再通过第二提取模块提取具有中间说话人音色的声音的梅尔倒谱MCEP系数,并将所述梅尔倒谱MCEP系数通过第二转换模型进行转换,得到转换后的梅尔倒谱MCEP系数;
将转换后的梅尔倒谱MCEP系数与具有中间说话人音色的声音的梅尔倒谱MCEP系数作差分并构建梅尔对数谱MLSA滤波器,利用所述滤波器对具有中间说话人音色的声音信号进行滤波,从而得到具有待转换目标说话人音色的声音。
本发明进一步优化,所述第二自适应模块,具体还用于:
将参考目标说话人无关的联合高斯模型拆分,抽取联合高斯模型中的参考目标说话人均值部分以及目标说话人协方差部分,构建参考目标说话人无关的高斯混合模型;
利用待转换目标说话人的梅尔倒谱MCEP系数对参考目标说话人无关的高斯混合模型做MLLR均值自适应得到待转换目标说话人的均值矢量;
将待转换目标说话人的均值矢量替换联合高斯混合模型中的参考目标说话人均值部分,得到中间说话人与待转换目标说话人的联合高斯模型;
本发明进一步优化,所述第一提取模块或所述第二提取模块,具体还用于:利用STRAIGHT分析合成器对声音按帧分析,得到静态频谱包络,根据所述静态频谱包络提取梅尔倒谱MCEP系数;
本发明的有益效果为:
1、提出一种多对一声音转换方法,即将任意一源说话人的声音转换为具有中间说话人(特定目标说话人)音色的声音;同时提出一种多对多声音转换方法,即将任意一源说话人的声音转换为具有任意一目标说话人音色的声音;本发明方法也适用于歌唱声音的转换。
2、现有技术大都只能将某一个特定源说话人的声音转换成另一个特定目标说话人的声音,且需要大量对称语料才能训练得到转换模型,运算复杂度极高,而本发明的算法自适应过程不需要对称语料即可得到转换模型,且要求的语料数据量不多,估计的参数少,运算复杂度低,便于实际应用。
3、利用STRAIGHT分析合成器进行分析并提取梅尔倒谱系数,可提高重建声音的自然度。
4、声音合成采用MLSA滤波器,可以极大提高转换后声音的质量。
附图说明
图1为本发明实施例1所述声音转换方法的流程图;
图2为本发明实施例2所述声音转换方法的流程图;
图3为本发明实施例3所述声音转换装置的模块图。
图4为本发明实施例4所述声音转换装置的模块图。
具体实施方式
为详细说明本发明的技术内容、构造特征、所实现目的及效果,以下结合实施方式并配合附图详予说明。
实施例1
本实施例可以实现将任意一源说话人的声音转换为具有中间说话人(特定目标说话人)音色的声音,请参阅图1,包括训练阶段、自适应阶段以及转换阶段。
训练阶段:对参考源说话人语料和中间说话人第一语料分别提取声音特征系数,并建立第一联合高斯混合模型,其中参考源说话人的数量为2个以上,包括步骤S101-S103。
步骤S101:
利用STRATIGHT分析合成器分别对预存储的S个参考源说话人语料和中间说话人第一语料按帧分析,得到静态频谱包络,并根据静态频谱包络提取梅尔倒谱MCEP系数。本实施例梅尔倒谱MCEP系数取40维。S通常大于20。
步骤S102:
采用动态时间规整算法(DTW)对S个参考源说话人语料和中间说话人第一语料的梅尔倒谱MCEP系数Xt与Yt分别进行对齐并组合,构成联合特征矢量S个参考源说话人与中间说话人的语料是对称的,即内容相同。
步骤S103:
建立第一联合高斯混合模型,具体如下:
对S个参考源说话人与中间说话人联合特征矢量建立第一联合高斯混合模型JDGMM:其中Ts是总的帧数,λ1 (0)是与参考源说话人无关的联合高斯混合模型。M为高斯混合度,αi为混合权值,μi与∑i分别为第i个混合成分对应的均值和协方差矩阵,其中: 分别为多参考源说话人和中间说话人第i个混合成分的均值向量;为多参考源说话人第i个混合成分的协方差矩阵,为多参考源说话人和中间说话人第i个混合成分的互协方差矩阵。
自适应阶段:提取待转换源说话人的语料的声音特征系数,采用待转换源说话人语料的声音特征系数对第一联合高斯混合模型进行自适应得到第一转换模型,所述第一转换模型为待转换源说话人与中间说话人的声音转换模型,包括步骤S104-S105。
步骤S104:
如步骤S101的方法提取待转换源说话人语料的梅尔倒谱MCEP系数。
步骤S105:
利用步骤S104提取的梅尔倒谱MCEP系数对第一联合高斯模型中的参考源说话人均值部分进行自适应,从而得到待转换源说话人与中间说话人的频谱特征转换模型,既第一转换模型。自适应过程如下:
将参考源说话人无关的联合高斯模型拆分,抽取联合高斯模型中的参考源说话人均值部分以及参考源说话人协方差部分,构建参考源说话人无关的高斯混合模型GMM:λ'1(α,μX,∑XX),
接着利用待转换源说话人语料的梅尔倒谱MCEP系数对GMM做MLLR均值自适应得到待转换源说话人的均值矢量
然后将待转换源说话人的均值矢量替换联合高斯混合模型中的参考源说话人均值部分,得到新联合均值矢量:从而得到待转换源说话人与中间说话人的联合高斯模型λ1 o(α,μo,∑)。在其他实施方式中,也可以采用MAP算法做均值自适应。
本发明自适应的过程对声音内容没有限制,即待转换源说话人与中间说话人的声音内容可以不同,可以在非平行文本条件下进行,而且自适应过程需要估计的参数较少,要求的数据量不多,因此运算速度较快。
转换阶段:通过第一转换模型将待转换源说话人的声音转换为具有中间说话人音色的声音,包括步骤S106-S108。
步骤S106:
如步骤S101的方法提取待转换源说话人的待转换声音的梅尔倒谱MCEP系数。
步骤S107:
通过自适应后的模型λo进行转换。转换函数为:其中pi(X)为频谱特征X属于模型(α,μX,∑XX)第i个混合成分的概率。
步骤S108:
将转换后的中间说话人梅尔倒谱MCEP系数与待转换源说话人的梅尔倒谱MCEP系数作差分并构建MLSA滤波器,使用这个滤波器直接对待转换源说话人的待转换声音信号进行滤波,从而得到高质量的具有中间说话人音色的声音。
声音转换一般要求在转换频谱包络的同时也要转换基频,但基频在提取以及用于合成声音时,会引起误差的存在,从而影响转换声音的自然度,本发明用一种新的合成方法来提高转换声音的质量,即将转换后的频谱特征与源说话人的声音频谱特征作差分并构建MLSA滤波器,使用这个滤波器直接对源说话人声音信号进行滤波,可以极大的提高合成声音的自然度。本实施例采用开源工具SPTK中的MLSA滤波器。
本实施例采用上述方法,可实现将任意一源说话人的声音转换为具有中间说话人(特定目标说话人)音色的声音。
实施例2
本实施为了实现将任意一源说话人的声音转换为具有任意一目标说话人音色的声音,参阅图2,包括训练阶段、自适应阶段以及转换阶段。
训练阶段:包括训练得到第一联合高斯模型与第二联合高斯模型(不分先后顺序),具体如下:
对参考源说话人语料和中间说话人第一语料分别提取声音特征系数,并建立第一联合高斯混合模型,其中参考源说话人的数量为2个以上,包括步骤S101-S103。
对中间说话人第二语料与参考目标说话人语料分别提取声音特征系数,并建立第二联合高斯混合模型,其中参考目标说话人的数量为2个以上,包括步骤S109-S111。
本实施例中,中间说话人第一语料与中间说话人第二语料可以相同,也可以不同。
步骤S109:
利用STRAIGHT分析合成器分别对中间说话人第二语料和S个参考目标说话人的语料按帧分析,得到静态频谱包络,并根据静态频谱包络提取梅尔倒谱MCEP系数。本实施例梅尔倒谱MCEP系数取40维。S通常大于20。
步骤S110:
采用动态时间规整算法(DTW)对中间说话人第二语料和S个参考目标说话人语料的梅尔倒谱MCEP系数Xt与Yt分别进行对齐并组合,构成联合特征矢量S个参考目标说话人与中间说话人的语料是对称的,即语料内容相同。
步骤S111:
建立第二联合高斯混合模型,具体如下:
对中间说话人和S个参考目标说话人联合特征矢量建立第二联合高斯混合模型JDGMM:其中Ts是总的帧数,λ2 (0)是与参考目标说话人无关的联合高斯混合模型。M为高斯混合度,αi为混合权值,μi与∑i分别为第i个混合成分对应的均值和协方差矩阵,其中 分别为中间说话人和多参考目标说话人第i个混合成分的均值向量;为中间说话人第i个混合成分的协方差矩阵,为中间说话人和多参考目标说话人第i个混合成分的互协方差矩阵。
自适应阶段:训练阶段结束后进入自适应阶段,包括自适应生成第一转换模型与第二转换模型(不分先后顺序),具体如下:
提取待转换源说话人的语料的声音特征系数,采用待转换源说话人的语料的声音特征系数对第一联合高斯混合模型进行自适应得到第一转换模型,所述第一转换模型为待转换源说话人与中间说话人的声音转换模型,包括步骤S104-S105。
提取待转换目标说话人语料的声音特征系数,采用待转换目标说话人语料的声音特征系数对第二联合高斯混合模型进行自适应得到第二转换模型,所述第二转换模型为中间说话人与待转换目标说话人的声音转换模型,包括步骤S112-S113。
步骤S112:
如步骤S101的方法提取待转换目标说话人语料的梅尔倒谱MCEP系数。
步骤S113:
利用步骤S112提取的梅尔倒谱MCEP系数对联合高斯模型中的待转换目标说话人均值部分进行自适应,从而得到中间说话人与待转换目标说话人的频谱特征转换模型,既第二转换模型。自适应过程如下:
将参考目标说话人无关的联合高斯模型拆分,抽取联合高斯模型中的参考目标说话人均值部分以及目标说话人协方差部分,构建参考目标说话人无关的高斯混合模型GMM:λ'2(α,μY,∑YY);
利用待转换目标说话人的梅尔倒谱MCEP系数对参考目标说话人无关的高斯混合模型做MLLR均值自适应得到待转换目标说话人的均值矢量
将待转换目标说话人的均值矢量替换联合高斯混合模型中的参考目标说话人均值部分,得到新联合均值矢量:从而得到中间说话人与待转换目标说话人的联合高斯模型λ2 o(α,μo,∑)。在其他实施方式中,也可以采用MAP算法做均值自适应。
本发明自适应的过程对声音内容没有限制,即待转换目标说话人与中间说话人的声音内容可以不同,可以在非平行文本条件下进行,而且自适应过程需要估计的参数较少,要求的数据量不多,因此运算速度较快。
转换阶段:自适应阶段完成之后,即可将待转换源说话人的声音进行转换得到具有待转换目标说话人音色的声音,转换过程需要先后通过第一转换模型以及第二转换模型,具体如下:
通过第一转换模型将待转换源说话人的声音转换为具有中间说话人音色的声音之后,包括步骤S106-S108;再通过第二转换模型将具有中间说话人音色的声音转换为具有待转换目标说话人音色的声音,包括步骤S114-S116。
步骤S114:
在经过步骤S108得到具有中间说话人音色的声音后,如步骤S101的方法提取具有中间说话人音色的声音的梅尔倒谱MCEP系数,
步骤S115:
根据自适应后的模型λo,对该梅尔倒谱MCEP系数进行转换。转换函数为:其中pi(X)为频谱特征X属于模型(α,μX,∑XX)第i个混合成分的概率。
步骤S116:
将转换后的梅尔倒谱MCEP系数与具有中间说话人音色的声音的梅尔倒谱MCEP系数作差分并构建MLSA滤波器,使用这个滤波器直接对具有中间说话人音色的声音信号进行滤波,从而得到高质量的具有待转换目标说话人音色的声音。
声音转换一般要求在转换频谱包络的同时也要转换基频,但基频在提取以及用于合成声音时,会引起误差的存在,从而影响转换声音的自然度,本发明用一种新的合成方法来提高转换声音的质量,即将转换后的频谱特征与中间说话人的声音频谱特征作差分并构建MLSA滤波器,使用这个滤波器直接对中间说话人声音信号进行滤波,可以极大的提高合成声音的自然度。本实施例采用开源工具SPTK中的MLSA滤波器。
本实施例中,所述步骤S101-S108的操作与实施例1相同。
本实施例采用上述的技术方案,可实现将任意一源说话人的声音转换为具有任意一目标说话人音色的声音,无需每次音色转化都建一次转化模型,针对多个音色的转化,大大减少了计算量。
在其他实施例中,可省略步骤S108与步骤S114,即不需要重建具有中间说话人音色的声音,而直接将步骤S107转换后的梅尔倒谱MCEP系数输入到步骤S115,并调整步骤S116如下:
将转换后的梅尔倒谱MCEP系数与待转换源说话人声音的梅尔倒谱MCEP系数作差分并构建MLSA滤波器,使用这个滤波器直接对待转换源说话人的声音信号进行滤波,从而得到高质量的具有待转换目标说话人音色的声音。
实施例3
本实施例提供一种声音转换装置,将任意一源说话人的声音转换为具有中间说话人(特定目标说话人)音色的声音,请参阅图3,具体包括:
第一提取模块201:
用于提取参考源说话人、中间说话人和待转换源说话人的声音特征系数,具体如下:
利用STRATIGHT分析合成器分别对预存储的S个参考源说话人语料和中间说话人第一语料按帧分析,得到静态频谱包络,并根据静态频谱包络提取梅尔倒谱MCEP系数。本实施例梅尔倒谱MCEP系数取40维。S通常大于20。
第一联合高斯混合模型建立模块202:
用于通过第一提取模块得到的参考源说话人语料和中间说话人第一语料的声音特征系数,建立参考源说话人和中间说话人的第一联合高斯混合模型,具体如下:
采用动态时间规整算法(DTW)对S个参考源说话人语料和中间说话人第一语料的梅尔倒谱MCEP系数Xt与Yt分别进行对齐并组合,构成联合特征矢量S个参考源说话人与中间说话人的语料是对称的,即内容相同。
对S个参考源说话人与中间说话人联合特征矢量建立第一联合高斯混合模型JDGMM:其中Ts是总的帧数,λ1 (0)是与参考源说话人无关的联合高斯混合模型。M为高斯混合度,αi为混合权值,μi与∑i分别为第i个混合成分对应的均值和协方差矩阵,其中: 分别为多参考源说话人和中间说话人第i个混合成分的均值向量;为多参考源说话人第i个混合成分的协方差矩阵,为多参考源说话人和中间说话人第i个混合成分的互协方差矩阵。
第一自适应模块203:
用于通过第一提取模块,提取待转换源说话人语料的梅尔倒谱MCEP系数,利用所述梅尔倒谱MCEP系数对第一联合高斯模型中的参考源说话人均值部分进行自适应,从而得到待转换源说话人与中间说话人的频谱特征转换模型,既第一转换模型。自适应过程如下:
将参考源说话人无关的联合高斯模型拆分,抽取联合高斯模型中的参考源说话人均值部分以及参考源说话人协方差部分,构建参考源说话人无关的高斯混合模型GMM:λ'1(α,μX,∑XX),
接着利用待转换源说话人语料的梅尔倒谱MCEP系数对GMM做MLLR均值自适应得到待转换源说话人的均值矢量
然后将待转换源说话人的均值矢量替换联合高斯混合模型中的参考源说话人均值部分,得到新联合均值矢量:从而得到待转换源说话人与中间说话人的联合高斯模型λo 1(α,μo,∑)。在其他实施方式中,也可以采用MAP算法做均值自适应。
本发明自适应的过程对声音内容没有限制,即待转换源说话人与中间说话人的声音内容可以不同,可以在非平行文本条件下进行,而且自适应过程需要估计的参数较少,要求的数据量不多,因此运算速度较快。
第一转换模块204:
用于通过第一提取模块,提取待转换源说话人的待转换声音的梅尔倒谱MCEP系数,通过自适应后的模型λo进行转换。转换函数为:其中pi(X)为频谱特征X属于模型(α,μX,∑XX)第i个混合成分的概率。
将转换后的中间说话人梅尔倒谱MCEP系数与待转换源说话人的梅尔倒谱MCEP系数作差分并构建MLSA滤波器,使用这个滤波器直接对待转换源说话人的待转换声音信号进行滤波,从而得到高质量的具有中间说话人音色的声音。
声音转换一般要求在转换频谱包络的同时也要转换基频,但基频在提取以及用于合成声音时,会引起误差的存在,从而影响转换声音的自然度,本发明用一种新的合成方法来提高转换声音的质量,即将转换后的频谱特征与源说话人的声音频谱特征作差分并构建MLSA滤波器,使用这个滤波器直接对源说话人声音信号进行滤波,可以极大的提高合成声音的自然度。本实施例采用开源工具SPTK中的MLSA滤波器。
实施例4
为了实现将任意一源说话人的声音转换为具有任意一目标说话人音色的声音,在实施例3的基础上,还包括以下模块,参阅图4,具体如下:
第二提取模块205:
用于对中间说话人第二语料与参考目标说话人语料分别提取声音特征系数,具体如下:
利用STRAIGHT分析合成器分别对中间说话人第二语料和S个参考目标说话人的语料按帧分析,得到静态频谱包络,并根据静态频谱包络提取梅尔倒谱MCEP系数MCEP。本实施例梅尔倒谱MCEP系数取40维。S通常大于20。
第二联合高斯混合模型建立模块206:
采用动态时间规整算法(DTW)对中间说话人第二语料和S个参考目标说话人语料的梅尔倒谱MCEP系数Xt与Yt分别进行对齐并组合,构成联合特征矢量S个参考目标说话人与中间说话人的语料是对称的,即语料内容相同。
对中间说话人和S个参考目标说话人联合特征矢量建立第二联合高斯混合模型JDGMM:其中Ts是总的帧数,λ2 (0)是与参考目标说话人无关的联合高斯混合模型。M为高斯混合度,αi为混合权值,μi与∑i分别为第i个混合成分对应的均值和协方差矩阵,其中 为分别中间说话人和多参考目标说话人第i个混合成分的均值向量;为中间说话人第i个混合成分的协方差矩阵,为中间说话人和多参考目标说话人第i个混合成分的互协方差矩阵。
第二自适应模块207:
用于通过第二提取模块,提取待转换目标说话人语料的梅尔倒谱MCEP系数,利用所述梅尔倒谱MCEP系数对联合高斯模型中的待转换目标说话人均值部分进行自适应,从而得到中间说话人与待转换目标说话人的频谱特征转换模型,既第二转换模型。自适应过程如下:
将参考目标说话人无关的联合高斯模型拆分,抽取联合高斯模型中的参考目标说话人均值部分以及目标说话人协方差部分,构建参考目标说话人无关的高斯混合模型GMM:λ'2(α,μY,∑YY);
利用待转换目标说话人的梅尔倒谱MCEP系数对参考目标说话人无关的高斯混合模型做MLLR均值自适应得到待转换目标说话人的均值矢量
将待转换目标说话人的均值矢量替换联合高斯混合模型中的参考目标说话人均值部分,得到新联合均值矢量:从而得到中间说话人与待转换目标说话人的联合高斯模型λo 2(α,μo,∑)。在其他实施方式中,也可以采用MAP算法做均值自适应。
本发明自适应的过程对声音内容没有限制,即待转换目标说话人与中间说话人的声音内容可以不同,可以在非平行文本条件下进行,而且自适应过程需要估计的参数较少,且要求的数据量不多,因此运算速度较快。
第二转换模块208:
用于通过第一转换模型将待转换源说话人的声音转换为具有中间说话人音色的声音之后,通过第二提取模块提取具有中间说话人音色的声音的梅尔倒谱MCEP系数,通过自适应后的模型λo对所述梅尔倒谱MCEP系数进行转换。转换函数为:其中pi(X)为频谱特征X属于模型(α,μX,∑XX)第i个混合成分的概率。
将转换后的梅尔倒谱MCEP系数与具有中间说话人音色的声音的梅尔倒谱MCEP系数作差分并构建MLSA滤波器,使用这个滤波器直接对具有中间说话人音色的声音信号进行滤波,从而得到高质量的具有待转换目标说话人音色的声音。
声音转换一般要求在转换频谱包络的同时也要转换基频,但基频在提取以及用于合成声音时,会引起误差的存在,从而影响转换声音的自然度,本发明用一种新的合成方法来提高转换声音的质量,即将转换后的频谱特征与中间说话人声音的频谱特征作差分并构建MLSA滤波器,使用这个滤波器直接对中间说话人声音信号进行滤波,可以极大的提高合成声音的自然度。本实施例采用开源工具SPTK中的MLSA滤波器。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (14)
1.一种声音转换方法,其特征在于:包括步骤:
对参考源说话人语料和中间说话人第一语料分别提取声音特征系数,并建立第一联合高斯混合模型,其中参考源说话人的数量为2个以上;
提取待转换源说话人语料的声音特征系数,采用待转换源说话人语料的声音特征系数对第一联合高斯混合模型进行自适应得到第一转换模型,所述第一转换模型为待转换源说话人与中间说话人的声音转换模型;
通过第一转换模型将待转换源说话人的声音转换为具有中间说话人音色的声音。
2.根据权利要求1所述的声音转换方法,其特征在于:还包括步骤:
对中间说话人第二语料与参考目标说话人语料分别提取声音特征系数,并建立第二联合高斯混合模型,其中参考目标说话人的数量为2个以上;
提取待转换目标说话人语料的声音特征系数,采用待转换目标说话人语料的声音特征系数对第二联合高斯混合模型进行自适应得到第二转换模型,所述第二转换模型为中间说话人与待转换目标说话人的声音转换模型;
通过第一转换模型将待转换源说话人的声音转换为具有中间说话人音色的声音之后,再通过第二转换模型将具有中间说话人音色的声音转换为具有待转换目标说话人音色的声音。
3.根据权利要求1所述的声音转换方法,其特征在于:
具体步骤包括:
提取预存储的S个参考源说话人语料与中间说话人第一语料的梅尔倒谱MCEP系数,S大于20;
采用动态时间规整算法对S个参考源说话人语料与中间说话人第一语料的梅尔倒谱MCEP系数分别进行对齐并组合,构成联合特征矢量,所述S个参考源说话人与中间说话人的语料内容相同;
对S个参考源说话人与中间说话人的联合特征矢量建立参考源说话人无关的联合高斯混合模型;
提取待转换源说话人语料的梅尔倒谱MCEP系数,利用所述梅尔倒谱MCEP系数对参考源说话人无关的联合高斯模型中的参考源说话人均值部分进行自适应,得到待转换源说话人与中间说话人的第一转换模型;
提取待转换源说话人的待转换声音的梅尔倒谱MCEP系数后,并通过自适应后的第一转换模型进行转换,得到转换后的梅尔倒谱MCEP系数;
将转换后的梅尔倒谱MCEP系数与待转换源说话人的梅尔倒谱MCEP系数作差分并构建梅尔对数谱MLSA滤波器,利用所述滤波器对待转换源说话人声音信号进行滤波,得到具有中间说话人音色的声音。
4.根据权利要求3所述的声音转换方法,其特征在于:
所述“利用所述梅尔倒谱MCEP系数对参考源说话人无关的联合高斯模型中的参考源说话人均值部分进行自适应,得到待转换源说话人与中间说话人的第一转换模型”包括:
将参考源说话人无关的联合高斯模型拆分,抽取联合高斯模型中的参考源说话人均值部分以及参考源说话人协方差部分,构建参考源说话人无关的高斯混合模型;
利用待转换源说话人语料的梅尔倒谱MCEP系数对参考源说话人无关的高斯混合模型做MLLR均值自适应得到待转换源说话人均值矢量;
将待转换源说话人均值矢量替换联合高斯混合模型中的参考源说话人均值部分,得到待转换源说话人与中间说话人的联合高斯模型。
5.根据权利要求2所述的声音转换方法,其特征在于:
具体步骤包括:
提取预存储的中间说话人第二语料与S个参考目标说话人语料的梅尔倒谱MCEP系数,S大于20;
采用动态时间规整算法对中间说话人第二语料与S个参考目标说话人语料的梅尔倒谱MCEP系数分别进行对齐并组合,构成联合特征矢量,所述中间说话人与S个参考目标说话人的语料内容相同;
对中间说话人与参考目标说话人联合特征矢量建立参考目标说话人无关的联合高斯混合模型;
提取待转换目标说话人语料的梅尔倒谱MCEP系数,利用所述梅尔倒谱MCEP系数对参考目标说话人无关的联合高斯模型中的参考目标说话人均值部分进行自适应,得到中间说话人与待转换目标说话人的第二转换模型;
在通过第一转换模型将待转换源说话人的声音转换为具有中间说话人音色的声音后,提取具有中间说话人音色的声音的梅尔倒谱MCEP系数,并通过自适应后的第二转换模型进行转换,得到转换后的梅尔倒谱MCEP系数;
将转换后的梅尔倒谱MCEP系数与具有中间说话人音色的声音的梅尔倒谱MCEP系数作差分并构建梅尔对数谱MLSA滤波器,利用所述滤波器对具有中间说话人音色的声音信号进行滤波,从而得到具有待转换目标说话人音色的声音。
6.根据权利要求5所述的声音转换方法,其特征在于:
所述“利用所述梅尔倒谱MCEP系数对参考目标说话人无关的联合高斯模型中的参考目标说话人均值部分进行自适应,得到中间说话人与待转换目标说话人的第二转换模型”包括:
将参考目标说话人无关的联合高斯模型拆分,抽取联合高斯模型中的参考目标说话人均值部分以及目标说话人协方差部分,构建参考目标说话人无关的高斯混合模型;
利用待转换目标说话人的梅尔倒谱MCEP系数对参考目标说话人无关的高斯混合模型做MLLR均值自适应得到待转换目标说话人的均值矢量;
将待转换目标说话人的均值矢量替换联合高斯混合模型中的参考目标说话人均值部分,得到中间说话人与待转换目标说话人的联合高斯模型。
7.根据权利要求3至6之一所述的声音转换方法,其特征在于:
提取梅尔倒谱MCEP系数步骤包括:
利用STRAIGHT分析合成器对声音按帧分析,得到静态频谱包络,根据所述静态频谱包络提取梅尔倒谱MCEP系数。
8.一种声音转换装置,其特征在于,包括:
第一提取模块,用于提取参考源说话人、中间说话人和待转换源说话人的声音特征系数;
第一联合高斯混合模型建立模块,用于通过第一提取模块得到的参考源说话人语料和中间说话人第一语料的声音特征系数,建立参考源说话人和中间说话人的第一联合高斯混合模型;
第一自适应模块,用于通过第一提取模块得到的待转换源说话人语料的声音特征系数对第一联合高斯混合模型自适应,得到第一转换模型,所述第一转换模型为待转换源说话人与中间说话人的声音转换模型;
第一转换模块,用于通过第一转换模型将待转换源说话人的声音转换为具有中间说话人音色的声音。
9.根据权利要求8所述的声音转换装置,其特征在于:还包括:
第二提取模块,用于提取中间说话人、参考目标说话人、待转换目标说话人的声音特征系数;
第二联合高斯混合模型建立模块,用于通过所述第二提取模块得到的中间说话人第二语料和参考目标说话人语料的声音特征系数,建立中间说话人和参考目标说话人的第二联合高斯混合模型;
第二自适应模块,用于通过第二提取模块得到的待转换目标说话人语料的声音特征系数对第二联合高斯混合模型自适应,得到第二转换模型,所述第二转换模型为中间说话人与待转换目标说话人的声音转换模型;
第二转换模块,用于通过第一转换模型把待转换源说话人的声音转换为具有中间说话人音色的声音之后,再通过第二转换模型把具有中间说话人音色的声音转换为具有待转换目标说话人音色的声音。
10.根据权利要求8所述的声音转换装置,其特征在于:
所述第一联合高斯混合模型建立模块,具体用于:
通过第一提取模块,提取预存储的S个参考源说话人语料与中间说话人第一语料的梅尔倒谱MCEP系数,S大于20;
采用动态时间规整算法对S个参考源说话人语料与中间说话人第一语料的梅尔倒谱MCEP系数分别进行对齐并组合,构成联合特征矢量,所述S个参考源说话人与中间说话人的语料内容相同;
对S个参考源说话人与中间说话人的联合特征矢量建立参考源说话人无关的联合高斯混合模型;
所述第一自适应模块,具体用于:
通过第一提取模块,提取待转换源说话人语料的梅尔倒谱MCEP系数,利用所述梅尔倒谱MCEP系数对参考源说话人无关的联合高斯模型中的参考源说话人均值部分进行自适应,得到待转换源说话人与中间说话人的第一转换模型;
所述第一转换模块,具体用于:
通过第一提取模块,提取待转换源说话人的待转换声音的梅尔倒谱MCEP系数,并通过第一转换模型进行转换,得到转换后的梅尔倒谱MCEP系数;
将转换后的梅尔倒谱MCEP系数与待转换源说话人的梅尔倒谱MCEP系数作差分并构建梅尔对数谱MLSA滤波器,利用所述滤波器对待转换源说话人声音信号进行滤波,得到具有中间说话人音色的声音。
11.根据权利要求10所述的声音转换装置,其特征在于:
所述第一自适应模块,具体还用于:
将参考源说话人无关的联合高斯模型拆分,抽取联合高斯模型中的参考源说话人均值部分以及参考源说话人协方差部分,构建参考源说话人无关的高斯混合模型;
利用待转换源说话人语料的梅尔倒谱MCEP系数对参考源说话人无关的高斯混合模型做MLLR均值自适应得到待转换源说话人均值矢量;
将待转换源说话人均值矢量替换联合高斯混合模型中的参考源说话人均值部分,得到待转换源说话人与中间说话人的联合高斯模型。
12.根据权利要求9所述的声音转换装置,其特征在于:
所述第二联合高斯混合模型建立模块,具体用于:
通过第二提取模块,提取预存储的中间说话人第二语料与S个参考目标说话人语料的梅尔倒谱MCEP系数,S大于20;
采用动态时间规整算法对中间说话人第二语料与S个参考目标说话人语料的梅尔倒谱MCEP系数分别进行对齐并组合,构成联合特征矢量,所述中间说话人与S个参考目标说话人的语料内容相同;
对中间说话人与参考目标说话人联合特征矢量建立参考目标说话人无关的联合高斯混合模型;
所述第二自适应模块,具体用于:
通过第二提取模块,提取待转换目标说话人语料的梅尔倒谱MCEP系数,利用所述梅尔倒谱MCEP系数对参考目标说话人无关的联合高斯模型中的参考目标说话人均值部分进行自适应,得到中间说话人与待转换目标说话人的第二转换模型;
所述第二转换模块,具体用于:
通过第一转换模型将待转换源说话人的声音转换为具有中间说话人音色的声音之后,再通过第二提取模块提取具有中间说话人音色的声音的梅尔倒谱MCEP系数,并将所述梅尔倒谱MCEP系数通过第二转换模型进行转换,得到转换后的梅尔倒谱MCEP系数;
将转换后的梅尔倒谱MCEP系数与具有中间说话人音色的声音的梅尔倒谱MCEP系数作差分并构建梅尔对数谱MLSA滤波器,利用所述滤波器对具有中间说话人音色的声音信号进行滤波,从而得到具有待转换目标说话人音色的声音。
13.根据权利要求12所述的声音转换装置,其特征在于:
所述第二自适应模块,具体还用于:
将参考目标说话人无关的联合高斯模型拆分,抽取联合高斯模型中的参考目标说话人均值部分以及目标说话人协方差部分,构建参考目标说话人无关的高斯混合模型;
利用待转换目标说话人的梅尔倒谱MCEP系数对参考目标说话人无关的高斯混合模型做MLLR均值自适应得到待转换目标说话人的均值矢量;
将待转换目标说话人的均值矢量替换联合高斯混合模型中的参考目标说话人均值部分,得到中间说话人与待转换目标说话人的联合高斯模型。
14.根据权利要求12至13之一所述的声音转换装置,其特征在于:
所述第一提取模块或所述第二提取模块,具体用于:
利用STRAIGHT分析合成器对声音按帧分析,得到静态频谱包络,根据所述静态频谱包络提取梅尔倒谱MCEP系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610437415.4A CN106205623B (zh) | 2016-06-17 | 2016-06-17 | 一种声音转换方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610437415.4A CN106205623B (zh) | 2016-06-17 | 2016-06-17 | 一种声音转换方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106205623A CN106205623A (zh) | 2016-12-07 |
CN106205623B true CN106205623B (zh) | 2019-05-21 |
Family
ID=57460674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610437415.4A Active CN106205623B (zh) | 2016-06-17 | 2016-06-17 | 一种声音转换方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106205623B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481735A (zh) * | 2017-08-28 | 2017-12-15 | 中国移动通信集团公司 | 一种转换音频发声的方法、服务器及计算机可读存储介质 |
CN107785030B (zh) * | 2017-10-18 | 2021-04-30 | 杭州电子科技大学 | 一种语音转换方法 |
CN107767879A (zh) * | 2017-10-25 | 2018-03-06 | 北京奇虎科技有限公司 | 基于音色的音频转换方法及装置 |
JP7139628B2 (ja) * | 2018-03-09 | 2022-09-21 | ヤマハ株式会社 | 音処理方法および音処理装置 |
CN108766459B (zh) * | 2018-06-13 | 2020-07-17 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及系统 |
TW202009924A (zh) * | 2018-08-16 | 2020-03-01 | 國立臺灣科技大學 | 音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體 |
CN109147758B (zh) * | 2018-09-12 | 2020-02-14 | 科大讯飞股份有限公司 | 一种说话人声音转换方法及装置 |
CN109671442B (zh) * | 2019-01-14 | 2023-02-28 | 南京邮电大学 | 基于STARGAN和x向量的多对多说话人转换方法 |
KR20210114518A (ko) * | 2019-02-21 | 2021-09-23 | 구글 엘엘씨 | 종단간 음성 변환 |
CN111247584B (zh) * | 2019-12-24 | 2023-05-23 | 深圳市优必选科技股份有限公司 | 语音转换方法、系统、装置及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101064104B (zh) * | 2006-04-24 | 2011-02-02 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
KR101041035B1 (ko) * | 2009-02-27 | 2011-06-14 | 고려대학교 산학협력단 | 고속 화자 인식 방법 및 장치, 고속 화자 인식을 위한 등록방법 및 장치 |
CN103280224B (zh) * | 2013-04-24 | 2015-09-16 | 东南大学 | 基于自适应算法的非对称语料库条件下的语音转换方法 |
CN104464744A (zh) * | 2014-11-19 | 2015-03-25 | 河海大学常州校区 | 一种基于混合高斯随机过程的分簇语音转换方法及系统 |
CN104485108A (zh) * | 2014-11-26 | 2015-04-01 | 河海大学 | 一种基于多说话人模型的噪声与说话人联合补偿方法 |
CN105206259A (zh) * | 2015-11-03 | 2015-12-30 | 常州工学院 | 一种语音转换方法 |
-
2016
- 2016-06-17 CN CN201610437415.4A patent/CN106205623B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106205623A (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106205623B (zh) | 一种声音转换方法及装置 | |
Toda et al. | One-to-many and many-to-one voice conversion based on eigenvoices | |
Kleijn et al. | Generative speech coding with predictive variance regularization | |
Diener et al. | Direct conversion from facial myoelectric signals to speech using deep neural networks | |
CN109326302A (zh) | 一种基于声纹比对和生成对抗网络的语音增强方法 | |
CN110060691B (zh) | 基于i向量和VARSGAN的多对多语音转换方法 | |
CN107767879A (zh) | 基于音色的音频转换方法及装置 | |
CN104123933A (zh) | 基于自适应非平行训练的语音转换方法 | |
CN107967920A (zh) | 一种改进的自编码神经网络语音增强算法 | |
CN110491406A (zh) | 一种多模块抑制不同种类噪声的双噪声语音增强方法 | |
Hsu et al. | WG-WaveNet: Real-time high-fidelity speech synthesis without GPU | |
Doi et al. | Statistical approach to enhancing esophageal speech based on Gaussian mixture models | |
CN106782500A (zh) | 一种基于基音周期和mfcc的融合特征参数提取方法 | |
Ohtani et al. | Non-parallel training for many-to-many eigenvoice conversion | |
CN106875944A (zh) | 一种语音控制家庭智能终端的系统 | |
CN110176243A (zh) | 语音增强方法、模型训练方法、装置和计算机设备 | |
Ohtani et al. | Many-to-many eigenvoice conversion with reference voice | |
Gandhiraj et al. | Auditory-based wavelet packet filterbank for speech recognition using neural network | |
CN107818792A (zh) | 音频转换方法及装置 | |
Okamoto et al. | Convnext-TTS And Convnext-VC: Convnext-Based Fast End-To-End Sequence-To-Sequence Text-To-Speech And Voice Conversion | |
Okamoto et al. | WaveNeXt: ConvNeXt-based fast neural vocoder without iSTFT layer | |
Udagawa et al. | Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS | |
WO2023102932A1 (zh) | 音频转换方法、电子设备、程序产品及存储介质 | |
Hu et al. | A light-weight full-band speech enhancement model | |
CN114550701A (zh) | 一种基于深度神经网络的汉语电子喉语音转换装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |