CN104217721B - 基于说话人模型对齐的非对称语音库条件下的语音转换方法 - Google Patents
基于说话人模型对齐的非对称语音库条件下的语音转换方法 Download PDFInfo
- Publication number
- CN104217721B CN104217721B CN201410399475.2A CN201410399475A CN104217721B CN 104217721 B CN104217721 B CN 104217721B CN 201410399475 A CN201410399475 A CN 201410399475A CN 104217721 B CN104217721 B CN 104217721B
- Authority
- CN
- China
- Prior art keywords
- speaker
- gmm
- vector
- model
- prime
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000012546 transfer Methods 0.000 title claims abstract description 10
- 239000013598 vector Substances 0.000 claims abstract description 82
- 238000006243 chemical reaction Methods 0.000 claims abstract description 72
- 230000006870 function Effects 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 2
- 241000976924 Inca Species 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 9
- 238000012360 testing method Methods 0.000 abstract description 5
- 238000001228 spectrum Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000000737 ABX test Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于说话人模型对齐的非对称语音库条件下的语音转换方法,首先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的参数找到源说话人特征向量和辅助向量之间的转换函数、辅助向量和目标说话人特征向量之间的转换函数,最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用了说话人模型对齐的方法,并且为了进一步提升语音转换的效果,还采用了将说话人模型对齐与高斯混合模型相融合的方法。实验结果表明:本发明在频谱失真度和相关度、转换语音的质量和相似度上,都取得了比传统基于INCA的语音转换方法更好的效果。
Description
技术领域
本发明涉及一种语音转换技术,尤其是涉及一种非对称语音库条件下的语音转换方法,属于语音信号处理技术领域。
背景技术
语音转换指的是改变一个说话人(源说话人)的语音个性特征使之变为另一个说话人(目标说话人)的语音个性特征的一种技术。语音转换技术有着广泛的应用前景,如用于个性化的语音合成、在保密通信领域用于说话人身份的伪装、在医疗领域用作受损语音的恢复、在低比特率语音通信中的接收端用于说话人个性特征的恢复等。
为了实现高质量的说话人个性特征转换,国内外学者提出了很多的语音转换方法,如码本映射法、高斯混合模型(Gaussian mixture model,GMM)法、人工神经网络法、频率弯折法、隐马尔科夫模型法等。然而,这些方法都是针对对称(相同文本内容)语音库的情况提出来的,但是在实际情况中,对称的语音库很难直接获取。因此许多学者又提出了基于非对称语音库的语音转换方法,如最大似然约束自适应法、最近邻循环迭代(Iterativecombination of a Nearest Neighbor search step and a Conversion stepAlignment,INCA)方法、基于说话人自适应的语音转换方法等。但是这些方法仍然存在着较大的局限性:如最大似然约束自适应法需要预先训练得到参考说话人的转换函数;INCA方法是建立在特征空间中邻近的频谱特征对应着相同音素的假设基础上,而该假设在实际中往往并不十分准确,同时这种训练方法需要较多的训练语句;基于说话人自适应的语音转换方法依赖于第三方说话人训练模型。因此,这些问题都在很大程度上限制了非对称语音库条件下的语音转换技术的实际应用。
发明内容
本发明的目的是针对非对称语音库情况下的语音转换,提出一种基于说话人模型对齐的非对称语音库条件下的语音转换方法。
本发明的技术方案为:基于说话人模型对齐的非对称语音库条件下的语音转换方法,该方法针对非对称语音库的情况,通过引入辅助向量来寻找源说话人和目标说话人之间的转换函数,即先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的均值与协方差找到源说话人特征向量和辅助向量之间的转换函数,以及辅助向量和目标说话人特征向量之间的转换函数,最后通过所求得的两个转换函数之间的函数关系找到源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用说话人模型对齐的方法,以及将说话人模型对齐与高斯混合模型相融合的方法,最终通过STRAIGHT语音分析/合成模型对转换后的频谱特征进行合成得到转换语音。
基于说话人模型对齐的语音转换方法的具体步骤如下:
步骤Ⅰ,模型训练:运用STRAIGHT模型提取源说话人和目标说话人的频谱特征,获得源说话人和目标说话人的特征向量,分别记为x和y;通过期望最大化(Expectationmaximization,EM)方法分别训练得到源说话人模型和目标说话人模型,记为GMMx和GMMy,这里采用高斯混合模型(Gaussian mixture model,GMM)对GMMx和GMMy进行建模,具体为:
其中,N(·)表示高斯分布,和分别表示GMMx和GMMy模型的第i个高斯分量,M表示高斯分量的个数,和表示第i个高斯分量的均值向量,和表示第i个高斯分量的方差矩阵,ωi和vi表示第i个高斯分量所占的权重,且满足
步骤Ⅱ,引入辅助向量并初始化:引入辅助向量序列X′={x′j},其中j表示第j帧,且j=1,2,...,J,J表示帧数,且J≥1;X′用于每一次迭代搜索后的中间序列,并运用EM算法训练得到辅助向量序列的模型,记作GMMx′,具体表达式为:
其中,x′表示辅助向量,ωi表示第i个高斯分量所占的权重,且满足GMMx′的参数为并且初始化设定为
步骤Ⅲ,说话人模型的相似度计算:GMMx和GMMy不同高斯分量之间的相似度用矩阵D表示如下:
其中,dij表示GMMx的第i个高斯分量与GMMy的第j个高斯分量之间的相似度,并采用对称的KL Divergence(KLD)来描述两个高斯分量fi(x)和fj(x)之间的相似度,具体为
其中,
步骤Ⅳ,最近邻搜索:对GMMx′的每一高斯分量s,通过相似度矩阵D来寻找到GMMy中与其相似度最高的高斯分量σ(s);类似地,对GMMy中的每一高斯分量t,通过D找到其在GMMx′中对应的相似度最高的分量ψ(t);
步骤Ⅴ,转换:通过最近邻搜索,分别得到两个均值向量对序列,分别记为和其中,s=1,2,…,M,t=1,2,…,M;和分别表示GMMx′第s个高斯分量的辅助均值向量及其在GMMy中对应的高斯分量σ(s)所对应的均值向量,和分别表示GMMy第t个高斯分量的辅助均值向量及其在GMMx′中对应的高斯分量ψ(t)所对应的均值向量;去除和中重复的序列对,并连接在一起得到一个完整的均值向量对序列{μx′,μy};利用最小二乘估计法计算得到μx′和μy之间的映射函数:
fmu(μx′)=Aμx′+b (5)
其中,b=μy-Aμx′;
将表达式(5)所示的映射函数直接用于辅助向量与目标说话人特征向量之间的转换,则转换函数如下:
fmu(x′)=Ax′+b (6)
辅助向量x′可以通过下式得到:
x′=fmu(x′) (7)
进而,得到源说话人特征向量x和辅助向量x′之间的转换函数:
x′=fsa(x)=Cx+d (8)
其中,C和d均为常数,且d=μx′-Aμx,可见x和x′之间是个简单的线性映射关系;
步骤Ⅵ,通过期望最大化方法对辅助向量序列X′重新进行模型训练得到GMMx′,重复步骤Ⅲ~Ⅴ,直到GMMx′和GMMy之间的相似度满足收敛条件其中δ为一取值非常小的经验常数,主要根据经验结合实际情况而定。
基于说话人模型对齐的转换方法在一定程度上可以实现源说话人向目标说话人的语音转换,但是一方面,单一的映射转换并不能保证转换函数的准确度;另一方面,转换函数通过模型均值训练得到而并没有充分利用频谱特征的信息,因而很难获得令人满意的转换效果。因此,作为对本发明的进一步改进,提出了将说话人模型对齐和GMM相融合的方法,具体操作如下:
经过说话人模型的矢量对齐训练,获得了辅助向量序列X′;采用联合概率密度对辅助向量x′和目标说话人特征向量y组成的特征序列对进行GMM建模,如下:
其中,αi表示第i个高斯分量所占的权重,且满足 μi和Σi分别表示第i个高斯分量的均值矩阵和协方差矩阵;
采用最小均方误差法计算得到辅助向量和目标说话人特征向量之间的转换函数:
其中,p(i|x′)表示x′属于第i个高斯分量的后验概率,满足
其中,αj表示第j个高斯分量所占的权重,且满足bi(x′)和bj(x′)分别表示第i个高斯分量和第j个高斯分量;
进而,根据表达式(8)和表达式(10)得到源说话人特征向量与目标说话人特征向量之间的转换函数:y=F(x)=fat(fsa(x))。
有益效果:与现有技术相比,本发明提供的基于说话人模型对齐的非对称语音库条件下的语音转换方法,优点和效果在于:
1)与其他基于非对称语音库的语音转换方法不同,本发明不需要任何第三方说话人的信息,仅通过源说话人和目标说话人的语音数据训练得到二者之间的映射关系,方法实际操作简单,在提升转换效果的同时在一定程度上减少了语音转换系统的运算复杂度。
2)本发明所提出的方法特别适合在非对称语音库情况下的语音转换,既可以用于同一语种说话人之间的语音转换,也可以推广到不同语种说话人之间的语音转换。
附图说明
图1为本发明所提出的基于说话人模型对齐的语音转换方法的示意图;
图2为本发明实施例与经典INCA方法的MCD比较试验结果;
图3为本发明实施例与经典INCA方法的客观评价结果对比图;
图4为本发明实施例与经典INCA方法的MOS评价和ABX测试的结果对比图。
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案做进一步阐述。
语音转换是语音信号处理领域的一个比较新的研究方向,在过去几十年中获得了长足的发展。国内外的研究主要集中在基于对称语音库的语音转换的研究,但是在实际情况下,对称的语音库通常很难直接获取。针对这种情况,本发明从说话人模型对齐的角度出发,提出了一种新的非对称语音库条件下的基于说话人模型对齐的语音转换方法。首先,分别训练得到源说话人和目标说话人的模型;然后,利用说话人模型的均值和协方差参数,对说话人模型进行迭代对齐,从而得到频谱特征的转换函数;最后,通过与GMM方法相融合进一步提升了语音转换的效果。
基于说话人模型对齐的非对称语音库条件下的语音转换方法,包括如下步骤:
1)选择STRIAHGT语音分析/合成模型对说话人的语句进行频谱特征的提取,提取美尔倒谱系数(Mel-cepstrum coefficients,MCC)和基音频率F0。
2)对MCC参数运用EM算法分别训练得到源说话人和目标说话人的模型GMMx和GMMy,模型参数表示为{x,μx,σx}和{y,μy,σy}。
3)引入辅助向量序列X′={x′j},j=1,2,...,J用于每一次迭代后的中间序列,同样运用EM算法训练得到辅助向量序列的模型,记作GMMx′,其模型参数表示为{x′,μx′,σx′},初始化设定为{x,μx,σx}。
4)采用对称的KLD计算得到两个说话人模型不同高斯分量之间的相似度,用矩阵D=[dij]M×M来表示。
5)对GMMx′的每一高斯分量s,通过相似度矩阵D来寻找到GMMy中与其相似度最高的高斯分量σ(s);类似地,对GMMy中的每一高斯分量t,通过D找到其在GMMx′中对应的相似度最高的分量ψ(t)。
6)通过最近邻搜索,分别得到两个均值向量对序列,分别记为和去除重复的序列对,将两个序列对连接得到一个完整的均值向量对序列{μx′,μy}。引入最小二乘估计法,计算得到μx′和μy之间的映射函数,从而得到x和x′之间的映射函数:x′=fsa(x)。
7)通过EM算法对X′重新进行模型训练得到GMMx′。重复步骤4)~6)直到GMMx′和GMMy之间的相似度满足收敛条件其中δ取值为0.1。
图1给出了本发明提出的基于说话人模型对齐的语音转换方法的示意图,从图中可以发现,随着迭代次数的增加,辅助向量序列的模型GMMx′越来越接近于目标说话人的模型GMMy。
8)经过说话人模型对齐训练,获得了辅助向量序列X′。与传统基于对称语音库的GMM方法的做法类似,采用联合概率密度对辅助向量和目标说话人的特征向量进行建模,并通过最小均方误差法得到它们之间的转换函数fat(·)。根据源说话人特征向量与辅助向量之间的映射关系结合转换函数fat(·)可得到源说话人和目标说话人频谱特征之间的转换函数y=F(x)=fat(fsa(x))。
9)对基音频率F0运用传统高斯归一化方法进行转换,转换函数为:
其中,fx为源说话人的基音频率F0,和分别表示源说话人和目标说话人基音频率F0的均值,和源说话人和目标说话人基音频率F0的协方差。
10)通过STRAIGHT语音分析/合成模型对转换后的频谱特征及F0进行合成得到转换语音。
性能评价:
本发明选择CMU ATCTIC语音数据库对转换效果进行了评价。分别选择两个男性说话人(BDL和RMS)和两个女性说话人(SLT和CLB)的各80条语句用作实验,其中50条语句用于训练,另外30条语句用于评价测试。高斯混合模型的高斯分量M的大小被优化设定为256。本实施例中优先选择了男性到女性、女性到男性、男性到男性、女性到女性的四种语音转换方式,并对基于传统INCA对齐的语音转换方法(INCA)、本发明提出的基于说话人模型对齐的语音转换方法(SMA)、本发明提出的基于GMM和说话人模型对齐融合的语音转换方法(GMM-SMA)进行了评价。
在本实施例中选择美尔倒谱距离(Mel cepstral distance,MCD)来对语音转换效果进行客观评价。
其中和分别为转换语音和目标说话人语音的第j维(1≤j≤24)的MCC,MCC阶数取为24。MCD值越小,说明转换效果越好。
同时,在本实施例中选取皮尔逊积矩相关系数用于语音转换的客观评价,其主要用于描述转换语音和目标说话人语音的MCC特征之间的相关度。第d维(1≤d≤24)的相关度计算公式如下式(3)所示
其中和分别为转换语音和目标说话人语音的第n(n≥1)帧MCC的第d维的特征,和分别为对应的特征均值。相关度越大,则表示转换效果越好。
图2给出了本发明所提出的方法与经典INCA方法的MCD比较试验结果。从图中我们可以发现,随着训练语句的增加,不同方法的MCD取值都呈现出相同的变小的趋势;同时,本发明提出的基于说话人模型对齐的语音转换方法总是能取得比传统INCA更低的结果;并且通过与GMM方法融合,可以进一步降低MCD值。这说明所提出的方法在客观条件下较INCA方法可以取得更好的效果。
图3给出了相关度评价结果。可以发现,随着训练语句的增加,相关度呈现出上升的趋势,并且本发明所提出的说话人模型对齐的语音转换方法取得了比INCA方法更高的相关度;同时,通过进一步与GMM融合的方法总是能取得最高的相关度,因此从客观角度来说本发明提出的方法是有效的。
在主观评价上,8名说话人参与了主观打分评价。在本实施例中分别选择平均意见得分(Mean opinion score,MOS)和ABX相似度测试两种方法对转换语音的质量及与目标说话人语音相似度进行测试。并且选择5分制分别对语音的质量和相似度进行打分,其中1分表示“质量很差”或“完全不同”,5分表示“质量非常好”或“完全相同”。
图4给出了MOS评价和ABX测试的结果,其中置信度为0.95,Quality表示的是MOS评价的结果,Similarity表示的是ABX测试的结果,图中的“Ⅰ”字形表示的是标准差。从图中可以发现,SMA方法总是能取得比INCA方法更高的打分;同时,GMM-SMA方法总是能取得最高的得分,这在一定程度上验证了主观评价的结果。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (2)
1.一种基于说话人模型对齐的非对称语音库条件下的语音转换方法,其特征在于:针对非对称语音库的情况,通过引入辅助向量来寻找源说话人和目标说话人之间的转换函数,即先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的均值与协方差找到源说话人特征向量和辅助向量之间的转换函数,以及辅助向量和目标说话人特征向量之间的转换函数,最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用说话人模型对齐的方法,以及将说话人模型对齐与高斯混合模型相融合的方法,最终通过STRAIGHT语音分析/合成模型对转换后的频谱特征进行合成得到转换语音;所述的说话人模型对齐方法的步骤具体如下:
步骤Ⅰ,训练得到说话人模型:运用STRAIGHT模型提取源说话人和目标说话人的频谱特征,获得源说话人和目标说话人的特征向量,分别记为x和y;通过期望最大化方法分别训练得到源说话人模型和目标说话人模型,记为GMMx和GMMy,具体为:
其中,p(x)对应着GMMx,p(y)对应着GMMy,N(·)表示高斯分布,和分别表示GMMx和GMMy模型的第i个高斯分量,M表示高斯分量的个数,和表示第i个高斯分量的均值向量,和表示第i个高斯分量的协方差矩阵,ωi和vi表示第i个高斯分量所占的权重,且满足
步骤Ⅱ,引入辅助向量并初始化:引入辅助向量序列X'={x'j},其中j表示第j帧,且j=1,2,...,J,J表示帧数,且J≥1;X'用于每一次迭代搜索后的中间序列,并运用期望最大化方法训练得到辅助向量序列的模型,记作GMMx',具体表达式为:
其中,x'表示辅助向量,ωi表示第i个高斯分量所占的权重,且满足GMMx'的参数为并且初始化设定为
步骤Ⅲ,说话人模型的相似度计算:GMMx和GMMy不同高斯分量之间的相似度用矩阵D表示如下:
其中,dij表示GMMx的第i个高斯分量与GMMy的第j个高斯分量之间的相似度,并采用对称的KL Divergence来描述两个高斯分量fi(x)和fj(x)之间的相似度,具体为
其中,
步骤Ⅳ,最近邻搜索:对GMMx'的每一高斯分量s,通过相似度矩阵D来寻找到GMMy中与其相似度最高的高斯分量σ(s);类似地,对GMMy中的每一高斯分量t,通过D找到其在GMMx'中对应的相似度最高的分量ψ(t);
步骤Ⅴ,转换:通过最近邻搜索,分别得到两个均值向量对序列,分别记为和其中,s=1,2,…,M,t=1,2,…,M;和分别表示GMMx'第s个高斯分量的辅助均值向量及其在GMMy中对应的高斯分量σ(s)所对应的均值向量,和分别表示GMMy第t个高斯分量的辅助均值向量及其在GMMx'中对应的高斯分量ψ(t)所对应的均值向量;去除和中重复的序列对,并连接在一起得到一个完整的均值向量对序列{μx',μy};利用最小二乘估计法计算得到μx'和μy之间的映射函数:
fmu(μx')=Aμx'+b (5)
其中,T表示矩阵转置,b=μy-Aμx';
将表达式(5)所示的映射函数直接用于辅助向量与目标说话人特征向量之间的转换,则转换函数如下:
fmu(x')=Ax'+b (6)
辅助向量x'通过下式得到,具体为:
x'=fmu(x') (7)
源说话人特征向量x和辅助向量x'之间的转换函数fsa(x)为:
x'=fsa(x)=Cx+d (8)
其中,d=μx'-Aμx;
步骤Ⅵ,通过期望最大化方法对辅助向量序列X'重新进行模型训练得到GMMx',重复上述步骤Ⅲ~Ⅴ,直到GMMx'和GMMy之间的相似度满足收敛条件其中δ为一经验常数。
2.根据权利要求1所述的基于说话人模型对齐的非对称语音库条件下的语音转换方法,其特征在于,所述的说话人模型对齐与高斯混合模型相融合方法的具体步骤如下:
步骤Ⅰ,经过说话人模型的对齐训练,获得辅助向量序列X';采用联合概率密度对辅助向量x'和目标说话人特征向量y组成的特征序列对进行GMM建模,如下:
其中,αi表示第i个高斯分量所占的权重,且满足 μi和Σi分别表示第i个高斯分量的均值矩阵和协方差矩阵;
步骤Ⅱ,采用最小均方误差法计算得到辅助向量和目标说话人特征向量之间的转换函数:
其中,p(i|x')表示x'属于第i个高斯分量的后验概率,满足
其中,αj表示第j个高斯分量所占的权重,且满足bi(x')和bj(x')分别表示第i个高斯分量和第j个高斯分量;
步骤Ⅲ,根据表达式(8)和表达式(10)得到源说话人特征向量与目标说话人特征向量之间的转换函数:y=F(x)=fat(fsa(x))。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410399475.2A CN104217721B (zh) | 2014-08-14 | 2014-08-14 | 基于说话人模型对齐的非对称语音库条件下的语音转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410399475.2A CN104217721B (zh) | 2014-08-14 | 2014-08-14 | 基于说话人模型对齐的非对称语音库条件下的语音转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104217721A CN104217721A (zh) | 2014-12-17 |
CN104217721B true CN104217721B (zh) | 2017-03-08 |
Family
ID=52099131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410399475.2A Expired - Fee Related CN104217721B (zh) | 2014-08-14 | 2014-08-14 | 基于说话人模型对齐的非对称语音库条件下的语音转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104217721B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104485099A (zh) * | 2014-12-26 | 2015-04-01 | 中国科学技术大学 | 一种合成语音自然度的提升方法 |
US10176819B2 (en) * | 2016-07-11 | 2019-01-08 | The Chinese University Of Hong Kong | Phonetic posteriorgrams for many-to-one voice conversion |
CN109671423B (zh) * | 2018-05-03 | 2023-06-02 | 南京邮电大学 | 训练数据有限情形下的非平行文本语音转换方法 |
CN110556092A (zh) * | 2018-05-15 | 2019-12-10 | 中兴通讯股份有限公司 | 语音的合成方法及装置、存储介质、电子装置 |
CN109599091B (zh) * | 2019-01-14 | 2021-01-26 | 南京邮电大学 | 基于STARWGAN-GP和x向量的多对多说话人转换方法 |
CN110085254A (zh) * | 2019-04-22 | 2019-08-02 | 南京邮电大学 | 基于beta-VAE和i-vector的多对多语音转换方法 |
CN112331181B (zh) * | 2019-07-30 | 2024-07-05 | 中国科学院声学研究所 | 一种基于多说话人条件下目标说话人语音提取方法 |
CN111599368B (zh) * | 2020-05-18 | 2022-10-18 | 杭州电子科技大学 | 一种基于直方图匹配的自适应实例规一化语音转换方法 |
CN113889120A (zh) * | 2021-09-28 | 2022-01-04 | 北京百度网讯科技有限公司 | 声纹特征提取方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101432799A (zh) * | 2006-04-26 | 2009-05-13 | 诺基亚公司 | 基于高斯混合模型的变换中的软校准 |
CN101751921A (zh) * | 2009-12-16 | 2010-06-23 | 南京邮电大学 | 一种在训练数据量极少条件下的实时语音转换方法 |
CN103280224A (zh) * | 2013-04-24 | 2013-09-04 | 东南大学 | 基于自适应算法的非对称语料库条件下的语音转换方法 |
CN103413548A (zh) * | 2013-08-16 | 2013-11-27 | 中国科学技术大学 | 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8224648B2 (en) * | 2007-12-28 | 2012-07-17 | Nokia Corporation | Hybrid approach in voice conversion |
-
2014
- 2014-08-14 CN CN201410399475.2A patent/CN104217721B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101432799A (zh) * | 2006-04-26 | 2009-05-13 | 诺基亚公司 | 基于高斯混合模型的变换中的软校准 |
CN101751921A (zh) * | 2009-12-16 | 2010-06-23 | 南京邮电大学 | 一种在训练数据量极少条件下的实时语音转换方法 |
CN103280224A (zh) * | 2013-04-24 | 2013-09-04 | 东南大学 | 基于自适应算法的非对称语料库条件下的语音转换方法 |
CN103413548A (zh) * | 2013-08-16 | 2013-11-27 | 中国科学技术大学 | 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法 |
Non-Patent Citations (4)
Title |
---|
"NON-PARALLEL TRAINING FOR VOICE CONVERSION BASED ON ADAPTATION";PENG SONG等;《IEEE ICASSP 2013》;20131021;全文 * |
"基于GMM的独立建模语音转换系统研究";徐小峰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100401;全文 * |
"基于混合Gauss归一化的语音转换方法";宋鹏等;《清华大学学报(自然科学版)》;20130615;第53卷(第6期);全文 * |
"采用模型自适应的语音转换方法";宋鹏等;《信号处理》;20131025;第29卷(第10期);摘要,第1295页右栏第4-5行,第1296-1297页第3.3小节 * |
Also Published As
Publication number | Publication date |
---|---|
CN104217721A (zh) | 2014-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104217721B (zh) | 基于说话人模型对齐的非对称语音库条件下的语音转换方法 | |
CN109377978B (zh) | 非平行文本条件下基于i向量的多对多说话人转换方法 | |
Zhang et al. | Towards multi-speaker unsupervised speech pattern discovery | |
US9355642B2 (en) | Speaker recognition method through emotional model synthesis based on neighbors preserving principle | |
Markov et al. | Robust speech recognition using generalized distillation framework. | |
CN109584893B (zh) | 非平行文本条件下基于VAE与i-vector的多对多语音转换系统 | |
CN105469784B (zh) | 一种基于概率线性鉴别分析模型的说话人聚类方法及系统 | |
CN110047504B (zh) | 身份矢量x-vector线性变换下的说话人识别方法 | |
CN105261367B (zh) | 一种说话人识别方法 | |
Wu et al. | Locally Linear Embedding for Exemplar-Based Spectral Conversion. | |
CN104123933A (zh) | 基于自适应非平行训练的语音转换方法 | |
CN106971180B (zh) | 一种基于语音字典稀疏迁移学习的微表情识别方法 | |
CN110060691B (zh) | 基于i向量和VARSGAN的多对多语音转换方法 | |
CN110047501B (zh) | 基于beta-VAE的多对多语音转换方法 | |
CN107103914B (zh) | 一种高质量的语音转换方法 | |
Hwang et al. | Incorporating global variance in the training phase of GMM-based voice conversion | |
Kazumi et al. | Factor analyzed voice models for HMM-based speech synthesis | |
CN113870840A (zh) | 语音识别方法、装置及相关设备 | |
CN110148417B (zh) | 基于总变化空间与分类器联合优化的说话人身份识别方法 | |
Gonzalez-Rodriguez | Speaker recognition using temporal contours in linguistic units: The case of formant and formant-bandwidth trajectories | |
Zen et al. | Probabilistic feature mapping based on trajectory HMMs. | |
CN108510995B (zh) | 面向语音通信的身份信息隐藏方法 | |
Ijima et al. | Emotional speech recognition based on style estimation and adaptation with multiple-regression HMM | |
Sarkar et al. | Investigation of Speaker-Clustered UBMs based on Vocal Tract Lengths and MLLR matrices for Speaker Verification. | |
Mohammadi et al. | Eigenvoice speaker adaptation with minimal data for statistical speech synthesis systems using a MAP approach and nearest-neighbors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170308 Termination date: 20200814 |
|
CF01 | Termination of patent right due to non-payment of annual fee |