CN105206257A - 一种声音转换方法及装置 - Google Patents

一种声音转换方法及装置 Download PDF

Info

Publication number
CN105206257A
CN105206257A CN201510673278.XA CN201510673278A CN105206257A CN 105206257 A CN105206257 A CN 105206257A CN 201510673278 A CN201510673278 A CN 201510673278A CN 105206257 A CN105206257 A CN 105206257A
Authority
CN
China
Prior art keywords
model
target speaker
speech data
phonetic synthesis
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510673278.XA
Other languages
English (en)
Other versions
CN105206257B (zh
Inventor
陈凌辉
江源
李栋梁
李啸
张卫庆
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201510673278.XA priority Critical patent/CN105206257B/zh
Publication of CN105206257A publication Critical patent/CN105206257A/zh
Application granted granted Critical
Publication of CN105206257B publication Critical patent/CN105206257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种声音转换方法及装置,该方法包括:接收待转换语音数据;对所述待转换语音数据进行语音识别,得到识别结果及所述识别结果的时长信息;获取目标发音人的语音合成模型;利用所述语音合成模型及所述时长信息生成语音合成参数;利用所述语音合成参数对所述识别结果进行语音合成,得到目标发音人音色合成语音数据。利用本发明,可以使转换后的语音数据的时长与待转换语音数据的时长一致,提高合成语音的自然度。

Description

一种声音转换方法及装置
技术领域
本发明涉及语音信号处理技术领域,具体涉及一种声音转换方法及装置。
背景技术
在日常的生活交流中,一个人的声音往往就是他的身份名片,听到自己熟悉人的声音后,就可辨认出这个人。声音转换技术由于可以将一个发音人的声音转换为另一个发音人的声音,使人听起来像是另一个人的发音,有着广泛的应用前景,如用户可以将自己的声音转换成自己喜欢的明星的声音,或转换成用户自己熟悉人的声音。
现有的声音转换方法一般是将待转换语音数据进行语音识别,得到识别文本后,利用目标发音人合成模型对所述识别文本进行语音合成,从而得到目标发音人音色的合成语音数据。这种方法对识别文本进行语音合成时,容易出现合成的语音数据与待转换语音数据的时长不一致的情况,从而使合成语音听起来较机械,韵律感差,大大降低了合成语音的自然度。
发明内容
本发明提供一种声音转换方法及装置,以使转换后的语音数据的时长与待转换语音数据的时长一致,提高合成语音的自然度。
为此,本发明提供如下技术方案:
一种声音转换方法,包括:
接收待转换语音数据;
对所述待转换语音数据进行语音识别,得到识别结果及所述识别结果的时长信息;
获取目标发音人的语音合成模型;
利用所述语音合成模型及所述时长信息生成语音合成参数;
利用所述语音合成参数对所述识别结果进行语音合成,得到目标发音人音色合成语音数据。
优选地,所述对所述待转换语音数据进行语音识别,得到识别结果及所述识别结果的时长信息包括:
利用预先训练的声学模型及语言模型构建解码网络;
提取所述待转换语音数据的特征参数;
基于所述解码网络及所述特征参数对所述待转换语音数据进行解码,得到最优解码路径对应的文本序列及所述文本序列中各字和/或词的时长信息。
优选地,所述对所述待转换语音数据进行语音识别,得到识别结果及所述识别结果的时长信息包括:
利用预先训练的声学模型及语言模型构建解码网络;
提取所述待转换语音数据的特征参数;
基于所述解码网络及所述特征参数对所述待转换语音数据进行解码,得到最优解码路径对应的语法单元序列及所述语法单元序列中各语法单元的时长信息。
优选地,所述获取目标发音人的语音合成模型包括:
向用户展现可选的目标发音人信息,并根据用户的选择确定目标发音人,然后获取所述目标发音人的语音合成模型;或者
接收用户提供的目标发音人语音数据,并利用所述目标发音人语音数据训练得到目标发音人的语音合成模型。
优选地,所述目标发音人合成模型包括:时长合成模型、基频合成模型、频谱合成模型;
所述利用所述语音合成模型及所述时长信息生成语音合成参数包括:
利用所述时长信息及所述时长合成模型生成每个语法单元每个状态的时长合成参数;
利用目标发音人基频合成模型生成基频合成参数;
利用目标发音人频谱合成模型生成频谱合成参数。
一种声音转换装置,包括:
接收模块,用于接收待转换语音数据;
语音识别模块,用于对所述待转换语音数据进行语音识别,得到识别结果及所述识别结果的时长信息;
模型获取模块,用于获取目标发音人的语音合成模型;
合成参数生成模块,用于利用所述语音合成模型及所述时长信息生成语音合成参数;
语音合成模块,用于利用所述语音合成参数对所述识别结果进行语音合成,得到目标发音人音色合成语音数据。
优选地,所述语音识别模块包括:
第一解码网络构建单元,用于利用预先训练的声学模型及语言模型构建解码网络;
特征提取单元,用于提取所述待转换语音数据的特征参数;
第一解码单元,用于基于所述解码网络及所述特征参数对所述待转换语音数据进行解码,得到最优解码路径对应的文本序列及所述文本序列中各字和/或词的时长信息。
优选地,所述语音识别模块包括:
第二解码网络构建单元,用于利用预先训练的声学模型及语言模型构建解码网络;
特征提取单元,用于提取所述待转换语音数据的特征参数;
第二解码单元,用于基于所述解码网络及所述特征参数对所述待转换语音数据进行解码,得到最优解码路径对应的语法单元序列及所述语法单元序列中各语法单元的时长信息。
优选地,所述模型获取模块包括:
展现单元,用于向用户展现可选的目标发音人信息;
目标发音人确定单元,用于根据用户的选择确定目标发音人;
模型获取单元,用于获取所述目标发音人的语音合成模型;
或者,所述目标发音人确定模块包括:
接收单元,用于接收用户提供的目标发音人语音数据;
模型训练单元,用于利用所述目标发音人语音数据训练得到目标发音人的语音合成模型。
优选地,所述目标发音人合成模型包括:时长合成模型、基频合成模型、频谱合成模型;
所述合成参数生成模块包括:
时长合成参数生成单元,用于利用所述时长信息及所述时长合成模型生成每个语法单元每个状态的时长合成参数;
基频合成参数生成单元,用于利用目标发音人基频合成模型生成基频合成参数;
频谱合成参数生成单元,用于利用目标发音人频谱合成模型生成频谱合成参数。
本发明实施例提供的声音转换方法及装置,首先接收待转换语音数据,然后对待转换语音数据进行语音识别,得到识别结果及其时长信息,最后利用目标发音人的语音合成模型及所述时长信息生成语音合成参数,利用该语音合成参数对所述识别结果进行语音合成,得到目标发音人音色合成语音数据。该方法及装置对待转换语音数据进行语音识别时,不仅获取识别结果,而且还要获取该识别结果的时长信息,利用该时长信息生成目标发音人的语音合成参数,有效保证了合成语音数据的时长与待转换语音数据的时长一致,提高了转换后语音的自然度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例声音转换方法的一种流程图;
图2是本发明实施例声音转换方法的一种具体应用流程图;
图3是本发明实施例声音转换装置的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对现有技术进行声音转换时容易出现合成的语音数据与待转换语音数据的时长不一致的情况,使转换后的声音韵律感差、自然度低的问题,本发明实施例提供一种声音转换方法及装置,在对待转换语音数据进行语音识别时,获取识别结果对应的时长信息,利用该时长信息生成目标发音人的语音合成参数,从而使最终得到的目标发音人音色的合成语音数据与待转换语音数据的时长保持一致,提高转换后语音的自然度。
如图1所示,是本发明实施例声音转换方法的一种流程图,包括以下步骤:
步骤101,接收待转换语音数据。
步骤102,对所述待转换语音数据进行语音识别,得到识别结果及所述识别结果的时长信息。
语音识别的具体过程与现有技术相同,即利用预先训练的声学模型及语言模型构建解码网络;提取语音数据的特征参数,比如,线性预测参数(LPCC)、和/或Mel频率倒谱系数(MFCC)参数,然后基于所述解码网络及所述特征参数对所述语音数据进行解码,得到最优解码路径对应的识别文本,即由字和/词组成的文本序列。不同的是,在本发明实施例中,不仅要获取识别结果,还要获取与该识别结果对应的时长信息,也就是说,所述文本序列中各字和/或词的时长信息。所述时长信息可以根据所述字、词对应的语音段的时长信息来得到,在此不再详述。
步骤103,获取目标发音人的语音合成模型。
所述目标发音人语音合成模型主要包括目标发音人的时长合成模型、基频合成模型和频谱合成模型。
在实际应用中,目标发音人的语音合成模型的获取可以有多种方式。
比如,向用户展现可选的目标发音人信息,根据用户的选择确定目标发音人,然后即可从模型库中获取所述目标发音人的语音合成模型。所述发音人信息可以是目标发音人编号、目标发音人名称等,对此本发明实施例不做限定。当然,给出目标发音人的同时,还可以给出对每个目标发音人发音特点的简单描述,如发音人:小明,发音特点:浑厚有力、语速较慢。所述目标发音人的语音合成模型可以通过预先收集大量目标发音人语音数据训练得到。当然,目标发音人的确定还可以有其它方式,比如由系统随机给出目标发音人等,在此不再一一列举。
再比如,也可以利用用户提供的目标发音人语音数据得到目标发音人的语音合成模型,具体地,接收用户提供的目标发音人语音数据,然后利用所述目标发音人语音数据训练得到目标发音人的语音合成模型;或者根据用户提供的目标发音人语音数据进行模型自适应得到,具体训练过程或自适应过程与现有技术相同,在此不再详述。
步骤104,利用所述语音合成模型及所述时长信息生成语音合成参数。
所述语音合成参数包括时长参数、基频参数、频谱参数,各种参数生成方法具体如下:
对于识别文本,使用语音合成文本分析器将其解析成对应的语法单元序列,所述语法单元为语音合成时,使用的最小语法单元,如音素;每个语法单元包含多个状态,如5个,每个状态的时长分布假设服从单高斯分布:
P ( d n i | p n , i ) = N ( d ; μ n i , σ n i 2 ) - - - ( 1 )
其中,pn为第n个语法单元,为第n个语法单元第i个状态的时长,为第n个语法单元第i个状态的时长合成模型均值和方差。
为了保证合成语音数据与待转换语音数据时长一致,本发明实施例对生成的时长参数进行约束,即在待转换语音时长范围内生成时长合成参数,如对各字或词的时长进行约束,具体约束方法如式(2)所示:
Σ n ∈ C j Σ i = 1 i = S d n i = D j - - - ( 2 )
其中,Cj为第j个字或词所包含的语法单元集合,Dj为第j个字或词的时长,S为每个语法单元的状态数。
使用最大似然准则估计得到每个语法单元每个状态的时长参数集合如式(3)所示:
{ d n i * } = argmax { d n i } Π i = 1 S P ( d n i | p n , i ) - - - ( 3 )
其中,为第n个语法单元第i个状态估计得到的时长参数。
将式(1)和式(2)代入式(3)求解即可得每个语法单元每个状态的时长参数,如式(4)所示。
d n i * = μ n i + σ n i 2 ( d p n - Σ n ∈ C j Σ i = 1 i = S μ i ) Σ n ∈ C j Σ i = 1 i = S σ n i 2 - - - ( 4 )
频谱、基频参数的生成与传统方法一致。
步骤105,利用所述语音合成参数对所述识别结果进行语音合成,得到目标发音人音色合成语音数据。
本发明实施例提供的声音转换方法,首先接收待转换语音数据,然后对待转换语音数据进行语音识别,得到识别结果及其时长信息,最后利用目标发音人的语音合成模型及所述时长信息生成语音合成参数,利用该语音合成参数对所述识别结果进行语音合成,得到目标发音人音色合成语音数据。该方法对待转换语音数据进行语音识别时,不仅获取识别结果,而且还要获取该识别结果的时长信息,利用该时长信息生成目标发音人的语音合成参数,有效保证了合成语音数据的时长与待转换语音数据的时长一致,提高了转换后语音的自然度。
考虑到直接对识别文本进行语音合成,容易将语音识别过程出现的错误带入到语音合成中,如多音字问题,造成合成后语音数据的语义相比待转换语音数据的语义发生了变化,如待转换语音数据为“办张美国信用卡”,识别文本为“办张没过信用卡”,出现了识别错误,利用目标发音人语音合成模型对识别文本进行合成后,得到的合成语音为“办张没过信用卡”,合成语音的语义发生了变化,这是不希望出现的结果。因此,在实际应用中,还可以将根据声学模型得到的语法单元序列作为所述识别结果,同时获取所述语法单元序列中各语法单元的时长信息。这样,在进行语音合成时,直接对待转换语音数据对应的语法单元序列进行语音合成,从而避免了将语音识别过程出现的错误带入到语音合成中,保证了合成后的语音数据的语义与待转换语音数据的语义的一致性。
下面结合图2所示流程对上述声音转换方法做进一步详细说明。
如图2所示,是本发明实施例声音转换方法的一种具体应用流程图,包括以下步骤:
步骤201,接收待转换语音数据。
步骤202,利用预先训练的声学模型及语言模型构建解码网络。
步骤203,提取所述待转换语音数据的特征参数。
所述特征参数可以是LPCC、和/或MFCC。
步骤204,基于所述解码网络及所述特征参数对所述语音数据进行解码,得到最优解码路径对应的语法单元序列及所述语法单元序列中各语法单元的时长信息。
所述语法单元是指语音识别时使用的最小语法单元,如音素。
步骤205,获取目标发音人的语音合成模型。
步骤206,利用所述语音合成模型及所述时长信息生成语音合成参数。
所述语音合成参数包括时长参数、基频参数、频谱参数,各种参数生成方法具体如下:
1)利用语法单元序列时长信息及目标发音人时长合成模型生成时长合成参数
每个语法单元序列采用多个状态表示,如5个状态;每个状态的时长模型假设服从单高斯分布,如式(5)所示:
P ( d n i | n p , i ) = N ( d ; μ n i , σ n i 2 ) - - - ( 5 )
其中,pn为第n个语法单元,为第n个语法单元第i个状态的时长,为第n个语法单元第i个状态的时长合成模型均值和方差。
为了保证合成语音数据与待转换语音数据时长一致,本发明实施例对生成的时长参数进行约束,即在待转换语音时长范围内生成时长合成参数,具体约束方法如式(6)所示:
Σ i = 1 i = S d n i = d p n - - - ( 6 )
其中,dpn为待转换语音中第n个语法单元时长,S为语法单元的状态总数。
根据待转换语音数据语法单元对应的时长约束,及目标发音人时长合成模型,采用最大似然准则估计得到每个语法单元每个状态的时长合成参数如式(7)所示:
{ d n i * } = argmax { d n i } Π i = 1 S P ( d n i | p n , i ) - - - ( 7 )
其中,为第n个语法单元第i个状态估计得到的时长参数。
将式(5)和式(6)代入式(7)进行计算,可以得到语法单元每个状态的时长,具体如式(8)所示:
d n i * = μ n i + σ n i 2 ( d p n - Σ i = 1 i = S μ i ) Σ i = 1 i = S σ n i 2 - - - ( 8 )
2)利用目标发音人基频合成模型生成基频合成参数
基频合成参数的生成过程如下:
首先,对识别得到的语法单元序列进行扩展,扩展成上下文相关的语法单元序列,如语法单元序列为“xx-y-u-y-in-h-e-ch-eng-xx”,将所述语法单元序列扩展成上下文相关的语法单元序列为:“xx-y+u:/A,y-u+y:/A,u-y+in:/A,y-in+h:/A,in-h+e:/A,h-e+ch:/A,e-ch+eng:/A,ch-eng+xx:/A”,其中“-”和“+”之间语法单元为当前语法单元,“:/A”为当前语法单元的上下文相关信息,如声调信息,当然所述上下文相关的语法单元序列的表示方法不限于上述表示方法;
然后,利用基频合成模型预测得到当前语法单元各状态的基频模型,具体预测方法与现有技术相同,在此不再详述;
随后,根据语法单元序列的状态时长信息对各语法单元相应状态进行复制,根据每个语法单元预测得到的各状态的基频模型,得到复制后的语法单元序列的基频分布,即语法单元序列预测得到的基频模型;
最后,根据语法单元序列的基频分布生成基频合成参数,如式(9)所示:
c=(WΤUW)-1WΤUW(9)
其中,W为计算语法单元序列动态参数的窗函数矩阵,c为待生成的基频合成参数,M和U分别为预测得到的语法单元序列所有状态基频模型的均值及协方差矩阵。
3)利用目标发音人频谱合成模型生成频谱合成参数
频谱合成参数的生成过程与上述基频合成参数的生成过程类似,在此不再赘述。
步骤207,利用所述语音合成参数对所述识别结果进行语音合成,得到目标发音人音色合成语音数据。
语音合成的具体实现过程与现有技术相同,在此不再赘述。
本发明实施例提供的声音转换方法,不仅有效保证了合成语音数据的时长与待转换语音数据的时长一致,提高了转换后语音的自然度;而且还进一步将根据声学模型得到的语法单元序列作为所述识别结果,这样,在进行语音合成时,直接对待转换语音数据对应的语法单元序列进行语音合成,从而避免了将语音识别过程出现的错误带入到语音合成中,保证了合成后的语音数据的语义与待转换语音数据的语义的一致性。
相应地,本发明实施例还提供一种声音转换装置,如图3所示,是本发明实施例声音转换装置的一种结构示意图。
在该实施例中,所述装置包括:
接收模块301,用于接收待转换语音数据;
语音识别模块302,用于对所述待转换语音数据进行语音识别,得到识别结果及所述识别结果的时长信息;
模型获取模块303,用于获取目标发音人的语音合成模型;
合成参数生成模块304,用于利用所述语音合成模型及所述时长信息生成语音合成参数;
语音合成模块305,用于利用所述语音合成参数对所述识别结果进行语音合成,得到目标发音人音色合成语音数据。
在实际应用中,语音识别模块302可以对待识别语音数据进行语音识别,得到待识别语音数据对应的文本序列及所述文本序列中各字和/或词的时长信息。相应地,语音识别模块302的一种具体结构包括以下各单元:
第一解码网络构建单元,用于利用预先训练的声学模型及语言模型构建解码网络;
特征提取单元,用于提取待转换语音数据的特征参数;
第一解码单元,用于基于所述解码网络及所述特征参数对所述待转换语音数据进行解码,得到最优解码路径对应的文本序列及所述文本序列中各字和/或词的时长信息。
考虑到直接对识别文本进行语音合成,容易将语音识别过程出现的错误带入到语音合成中,如多音字问题,造成合成后语音数据的语义相比待转换语音数据的语义发生了变化。因此,在实际应用中,语音识别模块302还可以将根据声学模型得到的语法单元序列作为所述识别结果,同时获取所述语法单元序列中各语法单元的时长信息。这样,在进行语音合成时,直接对待转换语音数据对应的语法单元序列进行语音合成,从而避免了将语音识别过程出现的错误带入到语音合成中,保证了合成后的语音数据的语义与待转换语音数据的语义的一致性。相应地,语音识别模块302的另一种具体结构包括以下各单元:
第二解码网络构建单元,用于利用预先训练的声学模型及语言模型构建解码网络;
特征提取单元,用于提取待转换语音数据的特征参数;
第二解码单元,用于基于所述解码网络及所述特征参数对所述待转换语音数据进行解码,得到最优解码路径对应的语法单元序列及所述语法单元序列中各语法单元的时长信息。
另外,上述模型获取模块303也可以有多种实现方式。
比如,模型获取模块303的一种具体结构可以包括:展现单元、目标发音人确定单元、以及模型获取单元。其中,所述展现单元用于向用户展现可选的目标发音人信息;所述目标发音人确定单元用于根据用户的选择确定目标发音人;所述模型获取单元用于获取所述目标发音人的语音合成模型。
再比如,模型获取模块303的另一种具体结构可以包括:接收单元和模型训练单元。其中,所述接收单元用于接收用户提供的目标发音人语音数据;所述模型训练单元用于利用所述目标发音人语音数据训练得到目标发音人的语音合成模型。
所述目标发音人合成模型包括:时长合成模型、基频合成模型、频谱合成模型。
相应地,所述合成参数生成模块304包括:
时长合成参数生成单元,用于利用所述时长信息及所述时长合成模型生成每个语法单元每个状态的时长合成参数;
基频合成参数生成单元,用于利用目标发音人基频合成模型生成基频合成参数;
频谱合成参数生成单元,用于利用目标发音人频谱合成模型生成频谱合成参数。
本发明实施例提供的声音转换装置,首先接收待转换语音数据,然后对待转换语音数据进行语音识别,得到识别结果及其时长信息,最后利用目标发音人的语音合成模型及所述时长信息生成语音合成参数,利用该语音合成参数对所述识别结果进行语音合成,得到目标发音人音色合成语音数据。该方法及系统对待转换语音数据进行语音识别时,不仅获取识别结果,而且还要获取该识别结果的时长信息,利用该时长信息生成目标发音人的语音合成参数,有效保证了合成语音数据的时长与待转换语音数据的时长一致,提高了转换后语音的自然度。进一步地,可以将根据声学模型得到的语法单元序列作为所述识别结果,这样,在进行语音合成时,直接对待转换语音数据对应的语法单元序列进行语音合成,从而避免了将语音识别过程出现的错误带入到语音合成中,保证了合成后的语音数据的语义与待转换语音数据的语义的一致性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种声音转换方法,其特征在于,包括:
接收待转换语音数据;
对所述待转换语音数据进行语音识别,得到识别结果及所述识别结果的时长信息;
获取目标发音人的语音合成模型;
利用所述语音合成模型及所述时长信息生成语音合成参数;
利用所述语音合成参数对所述识别结果进行语音合成,得到目标发音人音色合成语音数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述待转换语音数据进行语音识别,得到识别结果及所述识别结果的时长信息包括:
利用预先训练的声学模型及语言模型构建解码网络;
提取所述待转换语音数据的特征参数;
基于所述解码网络及所述特征参数对所述待转换语音数据进行解码,得到最优解码路径对应的文本序列及所述文本序列中各字和/或词的时长信息。
3.根据权利要求1所述的方法,其特征在于,所述对所述待转换语音数据进行语音识别,得到识别结果及所述识别结果的时长信息包括:
利用预先训练的声学模型及语言模型构建解码网络;
提取所述待转换语音数据的特征参数;
基于所述解码网络及所述特征参数对所述待转换语音数据进行解码,得到最优解码路径对应的语法单元序列及所述语法单元序列中各语法单元的时长信息。
4.根据权利要求1所述的方法,其特征在于,所述获取目标发音人的语音合成模型包括:
向用户展现可选的目标发音人信息,并根据用户的选择确定目标发音人,然后获取所述目标发音人的语音合成模型;或者
接收用户提供的目标发音人语音数据,并利用所述目标发音人语音数据训练得到目标发音人的语音合成模型。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述目标发音人合成模型包括:时长合成模型、基频合成模型、频谱合成模型;
所述利用所述语音合成模型及所述时长信息生成语音合成参数包括:
利用所述时长信息及所述时长合成模型生成每个语法单元每个状态的时长合成参数;
利用目标发音人基频合成模型生成基频合成参数;
利用目标发音人频谱合成模型生成频谱合成参数。
6.一种声音转换装置,其特征在于,包括:
接收模块,用于接收待转换语音数据;
语音识别模块,用于对所述待转换语音数据进行语音识别,得到识别结果及所述识别结果的时长信息;
模型获取模块,用于获取目标发音人的语音合成模型;
合成参数生成模块,用于利用所述语音合成模型及所述时长信息生成语音合成参数;
语音合成模块,用于利用所述语音合成参数对所述识别结果进行语音合成,得到目标发音人音色合成语音数据。
7.根据权利要求6所述的装置,其特征在于,所述语音识别模块包括:
第一解码网络构建单元,用于利用预先训练的声学模型及语言模型构建解码网络;
特征提取单元,用于提取所述待转换语音数据的特征参数;
第一解码单元,用于基于所述解码网络及所述特征参数对所述待转换语音数据进行解码,得到最优解码路径对应的文本序列及所述文本序列中各字和/或词的时长信息。
8.根据权利要求6所述的装置,其特征在于,所述语音识别模块包括:
第二解码网络构建单元,用于利用预先训练的声学模型及语言模型构建解码网络;
特征提取单元,用于提取所述待转换语音数据的特征参数;
第二解码单元,用于基于所述解码网络及所述特征参数对所述待转换语音数据进行解码,得到最优解码路径对应的语法单元序列及所述语法单元序列中各语法单元的时长信息。
9.根据权利要求6所述的装置,其特征在于,
所述模型获取模块包括:
展现单元,用于向用户展现可选的目标发音人信息;
目标发音人确定单元,用于根据用户的选择确定目标发音人;
模型获取单元,用于获取所述目标发音人的语音合成模型;
或者,所述目标发音人确定模块包括:
接收单元,用于接收用户提供的目标发音人语音数据;
模型训练单元,用于利用所述目标发音人语音数据训练得到目标发音人的语音合成模型。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述目标发音人合成模型包括:时长合成模型、基频合成模型、频谱合成模型;
所述合成参数生成模块包括:
时长合成参数生成单元,用于利用所述时长信息及所述时长合成模型生成每个语法单元每个状态的时长合成参数;
基频合成参数生成单元,用于利用目标发音人基频合成模型生成基频合成参数;
频谱合成参数生成单元,用于利用目标发音人频谱合成模型生成频谱合成参数。
CN201510673278.XA 2015-10-14 2015-10-14 一种声音转换方法及装置 Active CN105206257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510673278.XA CN105206257B (zh) 2015-10-14 2015-10-14 一种声音转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510673278.XA CN105206257B (zh) 2015-10-14 2015-10-14 一种声音转换方法及装置

Publications (2)

Publication Number Publication Date
CN105206257A true CN105206257A (zh) 2015-12-30
CN105206257B CN105206257B (zh) 2019-01-18

Family

ID=54953887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510673278.XA Active CN105206257B (zh) 2015-10-14 2015-10-14 一种声音转换方法及装置

Country Status (1)

Country Link
CN (1) CN105206257B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106302134A (zh) * 2016-09-29 2017-01-04 努比亚技术有限公司 一种消息播放装置和方法
CN106920547A (zh) * 2017-02-21 2017-07-04 腾讯科技(上海)有限公司 语音转换方法和装置
CN107705802A (zh) * 2017-09-11 2018-02-16 厦门美图之家科技有限公司 语音转换方法、装置、电子设备及可读存储介质
CN107818794A (zh) * 2017-10-25 2018-03-20 北京奇虎科技有限公司 基于节奏的音频转换方法及装置
CN107833572A (zh) * 2017-11-06 2018-03-23 芋头科技(杭州)有限公司 一种模拟用户说话的语音合成方法及系统
CN109147758A (zh) * 2018-09-12 2019-01-04 科大讯飞股份有限公司 一种说话人声音转换方法及装置
CN110164413A (zh) * 2019-05-13 2019-08-23 北京百度网讯科技有限公司 语音合成方法、装置、计算机设备和存储介质
CN110600045A (zh) * 2019-08-14 2019-12-20 科大讯飞股份有限公司 声音转换方法及相关产品
CN112786018A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 语音转换及相关模型的训练方法、电子设备和存储装置
CN113160794A (zh) * 2021-04-30 2021-07-23 京东数字科技控股股份有限公司 基于音色克隆的语音合成方法、装置及相关设备
WO2022141126A1 (zh) * 2020-12-29 2022-07-07 深圳市优必选科技股份有限公司 个性化语音转换训练方法、计算机设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
CN1534595A (zh) * 2003-03-28 2004-10-06 中颖电子(上海)有限公司 语音转换合成装置及其方法
US20070168189A1 (en) * 2006-01-19 2007-07-19 Kabushiki Kaisha Toshiba Apparatus and method of processing speech
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
CN101894547A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种语音合成方法和系统
CN102306492A (zh) * 2011-09-09 2012-01-04 中国人民解放军理工大学 基于卷积非负矩阵分解的语音转换方法
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN103035235A (zh) * 2011-09-30 2013-04-10 西门子公司 一种将语音转换为旋律的方法和装置
CN103065619A (zh) * 2012-12-26 2013-04-24 安徽科大讯飞信息科技股份有限公司 一种语音合成方法和语音合成系统
CN103295574A (zh) * 2012-03-02 2013-09-11 盛乐信息技术(上海)有限公司 唱歌语音转换设备及其方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
CN1534595A (zh) * 2003-03-28 2004-10-06 中颖电子(上海)有限公司 语音转换合成装置及其方法
US20070168189A1 (en) * 2006-01-19 2007-07-19 Kabushiki Kaisha Toshiba Apparatus and method of processing speech
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
CN101894547A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种语音合成方法和系统
CN102306492A (zh) * 2011-09-09 2012-01-04 中国人民解放军理工大学 基于卷积非负矩阵分解的语音转换方法
CN103035235A (zh) * 2011-09-30 2013-04-10 西门子公司 一种将语音转换为旋律的方法和装置
CN103295574A (zh) * 2012-03-02 2013-09-11 盛乐信息技术(上海)有限公司 唱歌语音转换设备及其方法
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN103065619A (zh) * 2012-12-26 2013-04-24 安徽科大讯飞信息科技股份有限公司 一种语音合成方法和语音合成系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李波等: "《语音转换及相关技术综述》", 《通信学报》 *
郭威彤的话: "《普通话到西安话的韵律转换》", 《计算机工程与应用》 *
陈凌辉等: "《基于话者无关模型的说话人转换方法》", 《模式识别与人工智能》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106302134A (zh) * 2016-09-29 2017-01-04 努比亚技术有限公司 一种消息播放装置和方法
CN106920547A (zh) * 2017-02-21 2017-07-04 腾讯科技(上海)有限公司 语音转换方法和装置
CN107705802A (zh) * 2017-09-11 2018-02-16 厦门美图之家科技有限公司 语音转换方法、装置、电子设备及可读存储介质
CN107818794A (zh) * 2017-10-25 2018-03-20 北京奇虎科技有限公司 基于节奏的音频转换方法及装置
CN107833572A (zh) * 2017-11-06 2018-03-23 芋头科技(杭州)有限公司 一种模拟用户说话的语音合成方法及系统
CN109147758A (zh) * 2018-09-12 2019-01-04 科大讯飞股份有限公司 一种说话人声音转换方法及装置
CN110164413A (zh) * 2019-05-13 2019-08-23 北京百度网讯科技有限公司 语音合成方法、装置、计算机设备和存储介质
CN110164413B (zh) * 2019-05-13 2021-06-04 北京百度网讯科技有限公司 语音合成方法、装置、计算机设备和存储介质
CN110600045A (zh) * 2019-08-14 2019-12-20 科大讯飞股份有限公司 声音转换方法及相关产品
WO2022141126A1 (zh) * 2020-12-29 2022-07-07 深圳市优必选科技股份有限公司 个性化语音转换训练方法、计算机设备及存储介质
CN112786018A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 语音转换及相关模型的训练方法、电子设备和存储装置
CN113160794A (zh) * 2021-04-30 2021-07-23 京东数字科技控股股份有限公司 基于音色克隆的语音合成方法、装置及相关设备
CN113160794B (zh) * 2021-04-30 2022-12-27 京东科技控股股份有限公司 基于音色克隆的语音合成方法、装置及相关设备

Also Published As

Publication number Publication date
CN105206257B (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN105206257A (zh) 一种声音转换方法及装置
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
CN102779508B (zh) 语音库生成设备及其方法、语音合成系统及其方法
CN105869624A (zh) 数字语音识别中语音解码网络的构建方法及装置
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
US20220013106A1 (en) Multi-speaker neural text-to-speech synthesis
CN105593936B (zh) 用于文本转语音性能评价的系统和方法
CN108305616A (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN115516552A (zh) 使用未说出的文本和语音合成的语音识别
KR102311922B1 (ko) 사용자의 음성 특성을 이용한 대상 정보 음성 출력 제어 장치 및 방법
US10255903B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN106057192A (zh) 一种实时语音转换方法和装置
CN104217713A (zh) 汉藏双语语音合成方法及装置
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN109767778A (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
CN108922521A (zh) 一种语音关键词检索方法、装置、设备及存储介质
Yin et al. Modeling F0 trajectories in hierarchically structured deep neural networks
CN106653002A (zh) 一种文字直播方法及平台
KR102272554B1 (ko) 텍스트- 다중 음성 변환 방법 및 시스템
Nidhyananthan et al. Language and text-independent speaker identification system using GMM
CN109300339A (zh) 一种英语口语的练习方法及系统
CN112185342A (zh) 语音转换与模型训练方法、装置和系统及存储介质
CN115101046A (zh) 一种特定说话人语音合成方法和装置
AU2015411306A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
Sultana et al. A survey on Bengali speech-to-text recognition techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant