CN104217721A - 基于说话人模型对齐的非对称语音库条件下的语音转换方法 - Google Patents

基于说话人模型对齐的非对称语音库条件下的语音转换方法 Download PDF

Info

Publication number
CN104217721A
CN104217721A CN201410399475.2A CN201410399475A CN104217721A CN 104217721 A CN104217721 A CN 104217721A CN 201410399475 A CN201410399475 A CN 201410399475A CN 104217721 A CN104217721 A CN 104217721A
Authority
CN
China
Prior art keywords
speaker
gmm
vector
prime
sigma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410399475.2A
Other languages
English (en)
Other versions
CN104217721B (zh
Inventor
宋鹏
赵力
金赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201410399475.2A priority Critical patent/CN104217721B/zh
Publication of CN104217721A publication Critical patent/CN104217721A/zh
Application granted granted Critical
Publication of CN104217721B publication Critical patent/CN104217721B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于说话人模型对齐的非对称语音库条件下的语音转换方法,首先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的参数找到源说话人特征向量和辅助向量之间的转换函数、辅助向量和目标说话人特征向量之间的转换函数,最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用了说话人模型对齐的方法,并且为了进一步提升语音转换的效果,还采用了将说话人模型对齐与高斯混合模型相融合的方法。实验结果表明:本发明在频谱失真度和相关度、转换语音的质量和相似度上,都取得了比传统基于INCA的语音转换方法更好的效果。

Description

基于说话人模型对齐的非对称语音库条件下的语音转换方法
技术领域
本发明涉及一种语音转换技术,尤其是涉及一种非对称语音库条件下的语音转换方法,属于语音信号处理技术领域。
背景技术
语音转换指的是改变一个说话人(源说话人)的语音个性特征使之变为另一个说话人(目标说话人)的语音个性特征的一种技术。语音转换技术有着广泛的应用前景,如用于个性化的语音合成、在保密通信领域用于说话人身份的伪装、在医疗领域用作受损语音的恢复、在低比特率语音通信中的接收端用于说话人个性特征的恢复等。
为了实现高质量的说话人个性特征转换,国内外学者提出了很多的语音转换方法,如码本映射法、高斯混合模型(Gaussian mixture model,GMM)法、人工神经网络法、频率弯折法、隐马尔科夫模型法等。然而,这些方法都是针对对称(相同文本内容)语音库的情况提出来的,但是在实际情况中,对称的语音库很难直接获取。因此许多学者又提出了基于非对称语音库的语音转换方法,如最大似然约束自适应法、最近邻循环迭代(Iterative combination of a Nearest Neighborsearch step and a Conversion step Alignment,INCA)方法、基于说话人自适应的语音转换方法等。但是这些方法仍然存在着较大的局限性:如最大似然约束自适应法需要预先训练得到参考说话人的转换函数;INCA方法是建立在特征空间中邻近的频谱特征对应着相同音素的假设基础上,而该假设在实际中往往并不十分准确,同时这种训练方法需要较多的训练语句;基于说话人自适应的语音转换方法依赖于第三方说话人训练模型。因此,这些问题都在很大程度上限制了非对称语音库条件下的语音转换技术的实际应用。
发明内容
本发明的目的是针对非对称语音库情况下的语音转换,提出一种基于说话人模型对齐的非对称语音库条件下的语音转换方法。
本发明的技术方案为:基于说话人模型对齐的非对称语音库条件下的语音转换方法,该方法针对非对称语音库的情况,通过引入辅助向量来寻找源说话人和目标说话人之间的转换函数,即先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的均值与协方差找到源说话人特征向量和辅助向量之间的转换函数,以及辅助向量和目标说话人特征向量之间的转换函数,最后通过所求得的两个转换函数之间的函数关系找到源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用说话人模型对齐的方法,以及将说话人模型对齐与高斯混合模型相融合的方法,最终通过STRAIGHT语音分析/合成模型对转换后的频谱特征进行合成得到转换语音。
基于说话人模型对齐的语音转换方法的具体步骤如下:
步骤Ⅰ,模型训练:运用STRAIGHT模型提取源说话人和目标说话人的频谱特征,获得源说话人和目标说话人的特征向量,分别记为x和y;通过期望最大化(Expectation maximization,EM)方法分别训练得到源说话人模型和目标说话人模型,记为GMMx和GMMy,这里采用高斯混合模型(Gaussian mixture model,GMM)对GMMx和GMMy进行建模,具体为:
p ( x ) = Σ i = 1 M ω i N ( x , μ i x , Σ i x ) , p ( y ) = Σ i = 1 M v i N ( y , μ i y , Σ i y ) - - - ( 1 )
其中,N(·)表示高斯分布,分别表示GMMx和GMMy模型的第i个高斯分量,M表示高斯分量的个数,表示第i个高斯分量的均值向量,表示第i个高斯分量的方差矩阵,ωi和vi表示第i个高斯分量所占的权重,且满足 Σ i = 1 M ω i = 1,0 ≤ ω i ≤ 1 , Σ i = 1 M v i = 1,0 ≤ v i ≤ 1 ;
步骤Ⅱ,引入辅助向量并初始化:引入辅助向量序列X′={x′j},其中j表示第j帧,且j=1,2,...,J,J表示帧数,且J≥1;X′用于每一次迭代搜索后的中间序列,并运用EM算法训练得到辅助向量序列的模型,记作GMMx′,具体表达式为:
p ( x ′ ) = Σ i = 1 M ω i N ( x ′ , μ x ′ , σ x ′ ) - - - ( 2 )
其中,x′表示辅助向量,ωi表示第i个高斯分量所占的权重,且满足 Σ i = 1 M ω i = 1,0 ≤ ω i ≤ 1 ; GMMx′的参数为并且初始化设定为
步骤Ⅲ,说话人模型的相似度计算:GMMx和GMMy不同高斯分量之间的相似度用矩阵D表示如下:
D = d 11 d 12 . . . d 1 M d 21 d 22 . . . d 2 M . . . . . . . . . . . . d M 1 d M 2 . . . d MM - - - ( 3 )
其中,dij表示GMMx的第i个高斯分量与GMMy的第j个高斯分量之间的相似度,并采用对称的KL Divergence(KLD)来描述两个高斯分量fi(x)和fj(x)之间的相似度,具体为
d ij = 1 2 ( d ( f i ( x ) | | f j ( x ) ) + d ( f j ( x ) | | f i ( x ) ) ) - - - ( 4 )
其中, d ( f i ( x ) | | f j ( x ) ) = Σ x f i ( x ) ln f i ( x ) f j ( x ) , d ( f j ( x ) | | f i ( x ) ) = Σ x f j ( x ) ln f j ( x ) f i ( x ) ;
步骤Ⅳ,最近邻搜索:对GMMx′的每一高斯分量s,通过相似度矩阵D来寻找到GMMy中与其相似度最高的高斯分量σ(s);类似地,对GMMy中的每一高斯分量t,通过D找到其在GMMx′中对应的相似度最高的分量ψ(t);
步骤Ⅴ,转换:通过最近邻搜索,分别得到两个均值向量对序列,分别记为其中,s=1,2,…,M,t=1,2,…,M;分别表示GMMx′第s个高斯分量的辅助均值向量及其在GMMy中对应的高斯分量σ(s)所对应的均值向量,分别表示GMMy第t个高斯分量的辅助均值向量及其在GMMx′中对应的高斯分量ψ(t)所对应的均值向量;去除中重复的序列对,并连接在一起得到一个完整的均值向量对序列{μx′y};利用最小二乘估计法计算得到μx′和μy之间的映射函数:
fmux′)=Aμx′+b    (5)
其中, A = μ y ′ μ x T ( μ x μ x T ) - 1 , b=μy-Aμx′
将表达式(5)所示的映射函数直接用于辅助向量与目标说话人特征向量之间的转换,则转换函数如下:
fmu(x′)=Ax′+b    (6)
辅助向量x′可以通过下式得到:
x′=fmu(x′)    (7)
进而,得到源说话人特征向量x和辅助向量x′之间的转换函数:
x′=fsa(x)=Cx+d    (8)
其中,C和d均为常数,且d=μx′-Aμx,可见x和x′之间是个简单的线性映射关系;
步骤Ⅵ,通过期望最大化方法对辅助向量序列X′重新进行模型训练得到GMMx′,重复步骤Ⅲ~Ⅴ,直到GMMx′和GMMy之间的相似度满足收敛条件其中δ为一取值非常小的经验常数,主要根据经验结合实际情况而定。
基于说话人模型对齐的转换方法在一定程度上可以实现源说话人向目标说话人的语音转换,但是一方面,单一的映射转换并不能保证转换函数的准确度;另一方面,转换函数通过模型均值训练得到而并没有充分利用频谱特征的信息,因而很难获得令人满意的转换效果。因此,作为对本发明的进一步改进,提出了将说话人模型对齐和GMM相融合的方法,具体操作如下:
经过说话人模型的矢量对齐训练,获得了辅助向量序列X′;采用联合概率密度对辅助向量x′和目标说话人特征向量y组成的特征序列对 z = x ′ y 进行GMM建模,如下:
p ( z ) = Σ i = 1 M α i N ( z , μ i , Σ i ) - - - ( 9 )
其中,αi表示第i个高斯分量所占的权重,且满足 Σ i = 1 M α i = 1,0 ≤ α i ≤ 1 ; μ i = μ i x ′ μ i y , Σ i = Σ i x ′ x ′ Σ i x ′ y Σ i yx ′ Σ i yy , μi和Σi分别表示第i个高斯分量的均值矩阵和协方差矩阵;
采用最小均方误差法计算得到辅助向量和目标说话人特征向量之间的转换函数:
f at ( x ′ ) = Σ i = 1 M p ( i | x ′ ) ( μ i y + Σ i x ′ y Σ i x ′ x ′ ( x ′ - μ i x ′ ) ) - - - ( 10 )
其中,p(i|x′)表示x′属于第i个高斯分量的后验概率,满足
p ( i | x ′ ) = α i b i ( x ′ ) Σ j = 1 M α j b j ( x ′ ) - - - ( 11 )
其中,αj表示第j个高斯分量所占的权重,且满足bi(x′)和bj(x′)分别表示第i个高斯分量和第j个高斯分量;
进而,根据表达式(8)和表达式(10)得到源说话人特征向量与目标说话人特征向量之间的转换函数:y=F(x)=fat(fsa(x))。
有益效果:与现有技术相比,本发明提供的基于说话人模型对齐的非对称语音库条件下的语音转换方法,优点和效果在于:
1)与其他基于非对称语音库的语音转换方法不同,本发明不需要任何第三方说话人的信息,仅通过源说话人和目标说话人的语音数据训练得到二者之间的映射关系,方法实际操作简单,在提升转换效果的同时在一定程度上减少了语音转换系统的运算复杂度。
2)本发明所提出的方法特别适合在非对称语音库情况下的语音转换,既可以用于同一语种说话人之间的语音转换,也可以推广到不同语种说话人之间的语音转换。
附图说明
图1为本发明所提出的基于说话人模型对齐的语音转换方法的示意图;
图2为本发明实施例与经典INCA方法的MCD比较试验结果;
图3为本发明实施例与经典INCA方法的客观评价结果对比图;
图4为本发明实施例与经典INCA方法的MOS评价和ABX测试的结果对比图。
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案做进一步阐述。
语音转换是语音信号处理领域的一个比较新的研究方向,在过去几十年中获得了长足的发展。国内外的研究主要集中在基于对称语音库的语音转换的研究,但是在实际情况下,对称的语音库通常很难直接获取。针对这种情况,本发明从说话人模型对齐的角度出发,提出了一种新的非对称语音库条件下的基于说话人模型对齐的语音转换方法。首先,分别训练得到源说话人和目标说话人的模型;然后,利用说话人模型的均值和协方差参数,对说话人模型进行迭代对齐,从而得到频谱特征的转换函数;最后,通过与GMM方法相融合进一步提升了语音转换的效果。
基于说话人模型对齐的非对称语音库条件下的语音转换方法,包括如下步骤:
1)选择STRIAHGT语音分析/合成模型对说话人的语句进行频谱特征的提取,提取美尔倒谱系数(Mel-cepstrum coefficients,MCC)和基音频率F0。
2)对MCC参数运用EM算法分别训练得到源说话人和目标说话人的模型GMMx和GMMy,模型参数表示为{x,μxx}和{y,μyy}。
3)引入辅助向量序列X′={x′j},j=1,2,...,J用于每一次迭代后的中间序列,同样运用EM算法训练得到辅助向量序列的模型,记作GMMx′,其模型参数表示为{x′,μx′x′},初始化设定为{x,μxx}。
4)采用对称的KLD计算得到两个说话人模型不同高斯分量之间的相似度,用矩阵D=[dij]M×M来表示。
5)对GMMx′的每一高斯分量s,通过相似度矩阵D来寻找到GMMy中与其相似度最高的高斯分量σ(s);类似地,对GMMy中的每一高斯分量t,通过D找到其在GMMx′中对应的相似度最高的分量ψ(t)。
6)通过最近邻搜索,分别得到两个均值向量对序列,分别记为去除重复的序列对,将两个序列对连接得到一个完整的均值向量对序列{μx′y}。引入最小二乘估计法,计算得到μx′和μy之间的映射函数,从而得到x和x′之间的映射函数:x′=fsa(x)。
7)通过EM算法对X′重新进行模型训练得到GMMx′。重复步骤4)~6)直到GMMx′和GMMy之间的相似度满足收敛条件其中δ取值为0.1。
图1给出了本发明提出的基于说话人模型对齐的语音转换方法的示意图,从图中可以发现,随着迭代次数的增加,辅助向量序列的模型GMMx′越来越接近于目标说话人的模型GMMy
8)经过说话人模型对齐训练,获得了辅助向量序列X′。与传统基于对称语音库的GMM方法的做法类似,采用联合概率密度对辅助向量和目标说话人的特征向量进行建模,并通过最小均方误差法得到它们之间的转换函数fat(·)。根据源说话人特征向量与辅助向量之间的映射关系结合转换函数fat(·)可得到源说话人和目标说话人频谱特征之间的转换函数y=F(x)=fat(fsa(x))。
9)对基音频率F0运用传统高斯归一化方法进行转换,转换函数为:
F ( f x ) = μ f y + σ f y σ f x ( f x - μ f x ) - - - ( 1 )
其中,fx为源说话人的基音频率F0,分别表示源说话人和目标说话人基音频率F0的均值,源说话人和目标说话人基音频率F0的协方差。
10)通过STRAIGHT语音分析/合成模型对转换后的频谱特征及F0进行合成得到转换语音。
性能评价:
本发明选择CMU ATCTIC语音数据库对转换效果进行了评价。分别选择两个男性说话人(BDL和RMS)和两个女性说话人(SLT和CLB)的各80条语句用作实验,其中50条语句用于训练,另外30条语句用于评价测试。高斯混合模型的高斯分量M的大小被优化设定为256。本实施例中优先选择了男性到女性、女性到男性、男性到男性、女性到女性的四种语音转换方式,并对基于传统INCA对齐的语音转换方法(INCA)、本发明提出的基于说话人模型对齐的语音转换方法(SMA)、本发明提出的基于GMM和说话人模型对齐融合的语音转换方法(GMM-SMA)进行了评价。
在本实施例中选择美尔倒谱距离(Mel cepstral distance,MCD)来对语音转换效果进行客观评价。
MCD = 10 / ln 10 2 Σ j = 1 24 ( C j c - C j t ) 2 - - - ( 2 )
其中分别为转换语音和目标说话人语音的第j维(1≤j≤24)的MCC,MCC阶数取为24。MCD值越小,说明转换效果越好。
同时,在本实施例中选取皮尔逊积矩相关系数用于语音转换的客观评价,其主要用于描述转换语音和目标说话人语音的MCC特征之间的相关度。第d维(1≤d≤24)的相关度计算公式如下式(3)所示
r d = Σ n = 1 N ( C nd c - C ‾ d c ) ( C nd t - C ‾ d t ) Σ n = 1 N ( C nd c - C ‾ d c ) 2 Σ n = 1 N ( C nd t - C ‾ d t ) 2 - - - ( 3 )
其中分别为转换语音和目标说话人语音的第n(n≥1)帧MCC的第d维的特征,分别为对应的特征均值。相关度越大,则表示转换效果越好。
图2给出了本发明所提出的方法与经典INCA方法的MCD比较试验结果。从图中我们可以发现,随着训练语句的增加,不同方法的MCD取值都呈现出相同的变小的趋势;同时,本发明提出的基于说话人模型对齐的语音转换方法总是能取得比传统INCA更低的结果;并且通过与GMM方法融合,可以进一步降低MCD值。这说明所提出的方法在客观条件下较INCA方法可以取得更好的效果。
图3给出了相关度评价结果。可以发现,随着训练语句的增加,相关度呈现出上升的趋势,并且本发明所提出的说话人模型对齐的语音转换方法取得了比INCA方法更高的相关度;同时,通过进一步与GMM融合的方法总是能取得最高的相关度,因此从客观角度来说本发明提出的方法是有效的。
在主观评价上,8名说话人参与了主观打分评价。在本实施例中分别选择平均意见得分(Mean opinion score,MOS)和ABX相似度测试两种方法对转换语音的质量及与目标说话人语音相似度进行测试。并且选择5分制分别对语音的质量和相似度进行打分,其中1分表示“质量很差”或“完全不同”,5分表示“质量非常好”或“完全相同”。
图4给出了MOS评价和ABX测试的结果,其中置信度为0.95,Quality表示的是MOS评价的结果,Similarity表示的是ABX测试的结果,图中的“Ⅰ”字形表示的是标准差。从图中可以发现,SMA方法总是能取得比INCA方法更高的打分;同时,GMM-SMA方法总是能取得最高的得分,这在一定程度上验证了主观评价的结果。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种基于说话人模型对齐的非对称语音库条件下的语音转换方法,其特征在于:针对非对称语音库的情况,通过引入辅助向量来寻找源说话人和目标说话人之间的转换函数,即先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的均值与协方差找到源说话人特征向量和辅助向量之间的转换函数,以及辅助向量和目标说话人特征向量之间的转换函数,最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用说话人模型对齐的方法,以及将说话人模型对齐与高斯混合模型相融合的方法,最终通过STRAIGHT语音分析/合成模型对转换后的频谱特征进行合成得到转换语音。
2.根据权利要求1所述的基于说话人模型对齐的非对称语音库条件下的语音转换方法,其特征在于,所述的说话人模型对齐方法的步骤具体如下:
步骤Ⅰ,训练得到说话人模型:运用STRAIGHT模型提取源说话人和目标说话人的频谱特征,获得源说话人和目标说话人的特征向量,分别记为x和y;通过期望最大化方法分别训练得到源说话人模型和目标说话人模型,记为GMMx和GMMy,具体为:
p ( x ) = Σ i = 1 M ω i N ( x , μ i x , Σ i x ) , p ( y ) = Σ i = 1 M v i N ( y , μ i y , Σ i y ) - - - ( 1 )
其中,p(x)对应着GMMx,p(y)对应着GMMy,N(·)表示高斯分布,分别表示GMMx和GMMy模型的第i个高斯分量,M表示高斯分量的个数,表示第i个高斯分量的均值向量,表示第i个高斯分量的协方差矩阵,ωi和vi表示第i个高斯分量所占的权重,且满足
步骤Ⅱ,引入辅助向量并初始化:引入辅助向量序列X′={x′j},其中j表示第j帧,且j=1,2,...,J,J表示帧数,且J≥1;X′用于每一次迭代搜索后的中间序列,并运用期望最大化方法训练得到辅助向量序列的模型,记作GMMx′,具体表达式为:
p ( x ′ ) = Σ i = 1 M ω i N ( x ′ , μ x ′ , σ x ′ ) - - - ( 2 )
其中,x′表示辅助向量,ωi表示第i个高斯分量所占的权重,且满足GMMx′的参数为并且初始化设定为
步骤Ⅲ,说话人模型的相似度计算:GMMx和GMMy不同高斯分量之间的相似度用矩阵D表示如下:
D = d 11 d 12 . . . d 1 M d 21 d 22 . . . d 2 M . . . . . . . . . . . . d M 1 d M 2 . . . d MM - - - ( 3 )
其中,dij表示GMMx的第i个高斯分量与GMMy的第j个高斯分量之间的相似度,并采用对称的KL Divergence来描述两个高斯分量fi(x)和fj(x)之间的相似度,具体为
d ij = 1 2 ( d ( f i ( x ) | | f j ( x ) ) + d ( f j ( x ) | | f i ( x ) ) ) - - - ( 4 )
其中, d ( f i ( x ) | | f j ( x ) ) = Σ x f i ( x ) ln f i ( x ) f j ( x ) , d ( f j ( x ) | | f i ( x ) ) = Σ x f j ( x ) ln f j ( x ) f i ( x ) ;
步骤Ⅳ,最近邻搜索:对GMMx′的每一高斯分量s,通过相似度矩阵D来寻找到GMMy中与其相似度最高的高斯分量σ(s);类似地,对GMMy中的每一高斯分量t,通过D找到其在GMMx′中对应的相似度最高的分量ψ(t);
步骤Ⅴ,转换:通过最近邻搜索,分别得到两个均值向量对序列,分别记为其中,s=1,2,…,M,t=1,2,…,M;分别表示GMMx′第s个高斯分量的辅助均值向量及其在GMMy中对应的高斯分量σ(s)所对应的均值向量,分别表示GMMy第t个高斯分量的辅助均值向量及其在GMMx′中对应的高斯分量ψ(t)所对应的均值向量;去除中重复的序列对,并连接在一起得到一个完整的均值向量对序列{μx′y};利用最小二乘估计法计算得到μx′和μy之间的映射函数:
fmux′)=Aμx′+b    (5)
其中,T表示矩阵转置,b=μy-Aμx′
将表达式(5)所示的映射函数直接用于辅助向量与目标说话人特征向量之间的转换,
则转换函数如下:
fmu(x′)=Ax′+b    (6)
辅助向量x′通过下式得到,具体为:
x′=fmu(x′)    (7)
源说话人特征向量x和辅助向量x′之间的转换函数为:
x′=fsa(x)=Cx+d    (8)
其中, C = μ x ′ μ x T ( μ x μ x T ) - 1 , d=μx′-Aμx
步骤Ⅵ,通过期望最大化方法对辅助向量序列X′重新进行模型训练得到GMMx′,重复上述步骤Ⅲ~Ⅴ,直到GMMx′和GMMy之间的相似度满足收敛条件其中δ为一经验常数。
3.根据权利要求1所述的基于说话人模型对齐的非对称语音库条件下的语音转换方法,其特征在于,所述的说话人模型对齐与高斯混合模型相融合方法的具体步骤如下:
步骤Ⅰ,经过说话人模型的对齐训练,获得辅助向量序列X′;采用联合概率密度对辅助向量x′和目标说话人特征向量y组成的特征序列对 z = x ′ y 进行GMM建模,如下:
p ( z ) = Σ i = 1 M α i N ( z , μ i , Σ i ) - - - ( 9 )
其中,αi表示第i个高斯分量所占的权重,且满足 Σ i = 1 M α i = 1,0 ≤ α i ≤ 1 ; μ i = μ i x ′ μ i y , Σ i = Σ i x ′ x ′ Σ i x ′ y Σ i yx ′ Σ i yy , μi和Σi分别表示第i个高斯分量的均值矩阵和协方差矩阵;
步骤Ⅱ,采用最小均方误差法计算得到辅助向量和目标说话人特征向量之间的转换函数:
f at ( x ′ ) = Σ i = 1 M p ( i | x ′ ) ( μ i y + Σ i x ′ y Σ i x ′ x ′ ( x ′ - μ i x ′ ) ) - - - ( 10 )
其中,p(i|x′)表示x′属于第i个高斯分量的后验概率,满足
p ( i | x ′ ) = α i b i ( x ′ ) Σ j = 1 M α j b j ( x ′ ) - - - ( 11 )
其中,αj表示第j个高斯分量所占的权重,且满足bi(x′)和bj(x′)分别表示第i个高斯分量和第j个高斯分量;
步骤Ⅲ,根据表达式(8)和表达式(10)得到源说话人特征向量与目标说话人特征向量之间的转换函数:y=F(x)=fat(fsa(x))。
CN201410399475.2A 2014-08-14 2014-08-14 基于说话人模型对齐的非对称语音库条件下的语音转换方法 Expired - Fee Related CN104217721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410399475.2A CN104217721B (zh) 2014-08-14 2014-08-14 基于说话人模型对齐的非对称语音库条件下的语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410399475.2A CN104217721B (zh) 2014-08-14 2014-08-14 基于说话人模型对齐的非对称语音库条件下的语音转换方法

Publications (2)

Publication Number Publication Date
CN104217721A true CN104217721A (zh) 2014-12-17
CN104217721B CN104217721B (zh) 2017-03-08

Family

ID=52099131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410399475.2A Expired - Fee Related CN104217721B (zh) 2014-08-14 2014-08-14 基于说话人模型对齐的非对称语音库条件下的语音转换方法

Country Status (1)

Country Link
CN (1) CN104217721B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104485099A (zh) * 2014-12-26 2015-04-01 中国科学技术大学 一种合成语音自然度的提升方法
CN107610717A (zh) * 2016-07-11 2018-01-19 香港中文大学 基于语音后验概率的多对一语音转换方法
CN109599091A (zh) * 2019-01-14 2019-04-09 南京邮电大学 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN109671423A (zh) * 2018-05-03 2019-04-23 南京邮电大学 训练数据有限情形下的非平行文本语音转换方法
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
CN110556092A (zh) * 2018-05-15 2019-12-10 中兴通讯股份有限公司 语音的合成方法及装置、存储介质、电子装置
CN111599368A (zh) * 2020-05-18 2020-08-28 杭州电子科技大学 一种基于直方图匹配的自适应实例规一化语音转换方法
CN112331181A (zh) * 2019-07-30 2021-02-05 中国科学院声学研究所 一种基于多说话人条件下目标说话人语音提取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101432799A (zh) * 2006-04-26 2009-05-13 诺基亚公司 基于高斯混合模型的变换中的软校准
US20090171657A1 (en) * 2007-12-28 2009-07-02 Nokia Corporation Hybrid Approach in Voice Conversion
CN101751921A (zh) * 2009-12-16 2010-06-23 南京邮电大学 一种在训练数据量极少条件下的实时语音转换方法
CN103280224A (zh) * 2013-04-24 2013-09-04 东南大学 基于自适应算法的非对称语料库条件下的语音转换方法
CN103413548A (zh) * 2013-08-16 2013-11-27 中国科学技术大学 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101432799A (zh) * 2006-04-26 2009-05-13 诺基亚公司 基于高斯混合模型的变换中的软校准
US20090171657A1 (en) * 2007-12-28 2009-07-02 Nokia Corporation Hybrid Approach in Voice Conversion
CN101751921A (zh) * 2009-12-16 2010-06-23 南京邮电大学 一种在训练数据量极少条件下的实时语音转换方法
CN103280224A (zh) * 2013-04-24 2013-09-04 东南大学 基于自适应算法的非对称语料库条件下的语音转换方法
CN103413548A (zh) * 2013-08-16 2013-11-27 中国科学技术大学 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PENG SONG等: ""NON-PARALLEL TRAINING FOR VOICE CONVERSION BASED ON ADAPTATION"", 《IEEE ICASSP 2013》 *
宋鹏等: ""基于混合Gauss归一化的语音转换方法"", 《清华大学学报(自然科学版)》 *
宋鹏等: ""采用模型自适应的语音转换方法"", 《信号处理》 *
徐小峰: ""基于GMM的独立建模语音转换系统研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104485099A (zh) * 2014-12-26 2015-04-01 中国科学技术大学 一种合成语音自然度的提升方法
CN107610717A (zh) * 2016-07-11 2018-01-19 香港中文大学 基于语音后验概率的多对一语音转换方法
CN109671423A (zh) * 2018-05-03 2019-04-23 南京邮电大学 训练数据有限情形下的非平行文本语音转换方法
CN110556092A (zh) * 2018-05-15 2019-12-10 中兴通讯股份有限公司 语音的合成方法及装置、存储介质、电子装置
CN109599091A (zh) * 2019-01-14 2019-04-09 南京邮电大学 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN109599091B (zh) * 2019-01-14 2021-01-26 南京邮电大学 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
CN112331181A (zh) * 2019-07-30 2021-02-05 中国科学院声学研究所 一种基于多说话人条件下目标说话人语音提取方法
CN111599368A (zh) * 2020-05-18 2020-08-28 杭州电子科技大学 一种基于直方图匹配的自适应实例规一化语音转换方法
CN111599368B (zh) * 2020-05-18 2022-10-18 杭州电子科技大学 一种基于直方图匹配的自适应实例规一化语音转换方法

Also Published As

Publication number Publication date
CN104217721B (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN104217721A (zh) 基于说话人模型对齐的非对称语音库条件下的语音转换方法
CN109272988B (zh) 基于多路卷积神经网络的语音识别方法
CN103280224B (zh) 基于自适应算法的非对称语料库条件下的语音转换方法
CN109377978B (zh) 非平行文本条件下基于i向量的多对多说话人转换方法
Yuan et al. Improving zero-shot voice style transfer via disentangled representation learning
CN110060701B (zh) 基于vawgan-ac的多对多语音转换方法
CN102737633B (zh) 一种基于张量子空间分析的说话人识别方法及其装置
US9355642B2 (en) Speaker recognition method through emotional model synthesis based on neighbors preserving principle
Wang et al. Using parallel tokenizers with DTW matrix combination for low-resource spoken term detection
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN109637545A (zh) 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN110060691B (zh) 基于i向量和VARSGAN的多对多语音转换方法
CN109599091A (zh) 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN101178896A (zh) 基于声学统计模型的单元挑选语音合成方法
CN107146615A (zh) 基于匹配模型二次识别的语音识别方法及系统
CN104240706B (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN105469784A (zh) 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN105023570B (zh) 一种实现声音转换的方法及系统
CN108109615A (zh) 一种基于dnn的蒙古语声学模型的构造和使用方法
CN105261367A (zh) 一种说话人识别方法
US8645135B2 (en) Method for creating a speech model
CN102982799A (zh) 一种融合引导概率的语音识别优化解码方法
CN110136686A (zh) 基于STARGAN与i向量的多对多说话人转换方法
CN103021418A (zh) 一种面向多时间尺度韵律特征的语音转换方法
Omar et al. Training Universal Background Models for Speaker Recognition.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170308

Termination date: 20200814

CF01 Termination of patent right due to non-payment of annual fee