CN103456295A - 歌唱合成中基频参数生成方法及系统 - Google Patents

歌唱合成中基频参数生成方法及系统 Download PDF

Info

Publication number
CN103456295A
CN103456295A CN2013103368966A CN201310336896A CN103456295A CN 103456295 A CN103456295 A CN 103456295A CN 2013103368966 A CN2013103368966 A CN 2013103368966A CN 201310336896 A CN201310336896 A CN 201310336896A CN 103456295 A CN103456295 A CN 103456295A
Authority
CN
China
Prior art keywords
fundamental frequency
synthesis unit
base frequency
frequency parameters
basic synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103368966A
Other languages
English (en)
Other versions
CN103456295B (zh
Inventor
孙见青
凌震华
何婷婷
胡郁
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201310336896.6A priority Critical patent/CN103456295B/zh
Publication of CN103456295A publication Critical patent/CN103456295A/zh
Application granted granted Critical
Publication of CN103456295B publication Critical patent/CN103456295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

本发明涉及语音合成处理技术领域,公开了一种歌唱合成中基频参数生成方法及系统,所述方法包括:接收待合成简谱信息,所述简谱信息包括:歌词标注、音高标注、时长标注和节奏信息;根据所述音高标注确定各基本合成单元的理论基频参数;根据所述歌词标注确定各基本合成单元的基频参考模型;根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化。利用本发明,不仅可以保证基频参数的稳定性,而且还可以保证基频参数符合发音人的发声特点及基频范围,有效地改善了合成语音的听感。

Description

歌唱合成中基频参数生成方法及系统
技术领域
本发明涉及语音合成处理技术领域,具体涉及一种歌唱合成中基频参数生成方法及系统。
背景技术
近年来,歌唱合成系统得到了广泛的研究和应用,其中有基于隐马尔科夫模型(Hidden Markov Model,HMM)的参数合成系统以及基于波形拼接合成的系统。相比于基于波形拼接合成的系统,参数合成方法对训练数据量要求较少且系统规模较小,因而具有较好的实用价值。基于参数合成的歌唱合成系统首先分别确定各基本合成单元(如音节,音素等)的时长参数序列,基频参数序列以及频谱参数序列,随后再根据各参数序列利用参数合成器得到连续歌唱信号。
作为语音信号最主要影响因素的基频参数,其准确性对歌唱合成效果有着至关重要的作用。目前传统系统主要采用如下两种方式生成:
(1)基于数据驱动的统计模型挑选方法:该方法预先录制歌唱语音训练数据并根据对应简谱标注信息(如歌词标注、音高标注及时长标注等)训练得到各基本合成单元的基于真实数据驱动的基频模型;在接收到歌唱合成请求时,根据简谱标注信息获取各基本合成单元对应的基频模型进而生成相应的基频参数。该方法通过对真实数据的统计模拟得到符合发音人音色特点的基频模型,然而由于建模本身带来的损失、以及基频模型选择的不完全准确性,该方法很难保证最终合成效果的稳定性。
(2)基于规则生成的方法:该方法根据简谱音高标注确定各基本合成单元对应的标准音高,并根据音高基频转换公式直接生成基频参数。这种方法实现简单高效,但由于简谱的标注音高并不一定满足发音人音域分布,从而导致根据标准音高获取的基频参数与发音人频谱参数间存在明显不符现象,影响合成语音的听感。
发明内容
本发明实施例提供一种歌唱合成中基频参数生成方法及系统,以使基频参数更符合发音人的音域范围,并保证最终合成效果的稳定性。
为此,本发明提供如下技术方案:
一种歌唱合成中基频参数生成方法,包括:
接收待合成简谱信息,所述简谱信息包括:歌词标注、音高标注、时长标注和节奏信息;
根据所述音高标注确定各基本合成单元的理论基频参数;
根据所述歌词标注确定各基本合成单元的基频参考模型;
根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化。
优选地,所述根据所述歌词标注确定各基本合成单元的基频参考模型包括:
对所述歌词标注进行切分,获取各基本合成单元;
对所述各基本合成单元进行文本解析,获得所述基本合成单元的上下文信息,所述上下文信息包括:音素序列、声调、韵律词、韵律短语;
获取所述基本合成单元对应的基频二叉决策树;
根据所述上下文信息在所述基频二叉决策树中进行路径决策,得到对应的叶节点;
将所述叶节点对应的基频模型作为所述合成单元的基频参考模型。
优选地,所述方法还包括按以下方式构建各基本合成单元对应的基频二叉决策树:
采集训练数据并对所述训练数据进行信息标注;
从所述训练数据中提取各基本语音合成单元对应语音片断的基频参数;
根据所述基本合成单元对应语音片断的标注信息和基频参数,构建所述基本合成单元对应的基频二叉决策树;
对所述基频二叉决策树的各节点分别训练得到一个基频模型。
优选地,所述根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化包括:
对所述理论基频参数进行升降调处理,得到不同基调下的基频参数;
计算不同基调下的基频参数与所述基频参考模型的似然度;
选择具有最大似然度的基频参数作为优化的基频参数。
优选地,所述根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化包括:
根据简谱信息中的节奏信息计算各基本合成单元的理论时长;
根据所述理论时长获取简谱对应的理论基频参数序列;
获取所述简谱对应的基频参考模型序列;
根据所述基频参考模型序列对所述理论基频参数序列进行联合优化。
优选地,所述根据所述基频参考模型序列对所述理论基频参数序列进行联合优化包括:
分别对所述理论基频参数序列中所有理论基频参数统一升降调处理,得到不同基调下的基频参数序列;
计算所述不同基调下基频参数序列与所述基频参考模型序列的似然度;
选择具有最大似然度的基频参数序列作为优化的基频参数序列。
一种歌唱合成中基频参数生成系统,包括:
接收模块,用于接收待合成简谱信息,所述简谱信息包括:歌词标注、音高标注、时长标注和节奏信息;
理论基频参数确定模块,用于根据所述音高标注确定各基本合成单元的理论基频参数;
基频参考模型确定模块,用于根据所述歌词标注确定各基本合成单元的基频参考模型;
优化模块,用于根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化。
优选地,所述基频参考模型确定模块包括:
切分单元,用于对所述歌词标注进行切分,获取各基本合成单元;
解析单元,用于对所述各基本合成单元进行文本解析,获得所述基本合成单元的上下文信息,所述上下文信息包括:音素序列、声调、韵律词、韵律短语;
二叉决策树获取单元,用于获取所述基本合成单元对应的基频二叉决策树;
决策单元,用于根据所述上下文信息在所述基频二叉决策树中进行路径决策,得到对应的叶节点;
输出单元,用于将所述叶节点对应的基频模型作为所述合成单元的基频参考模型。
优选地,所述系统还包括:
二叉决策树构建模块,用于构建各基本合成单元对应的基频二叉决策树;所述二叉决策树构建模块包括:
标注单元,用于采集训练数据并对所述训练数据进行信息标注;
提取单元,用于从所述训练数据中提取各基本语音合成单元对应语音片断的基频参数;
构建单元,用于根据所述基本合成单元对应语音片断的标注信息和基频参数,构建所述基本合成单元对应的基频二叉决策树;
训练单元,用于对所述基频二叉决策树的各节点分别训练得到一个基频模型。
可选地,所述优化模块包括:
第一音调处理单元,用于对所述理论基频参数进行升降调处理,得到不同基调下的基频参数;
第一似然度计算单元,用于计算不同基调下的基频参数与所述基频参考模型的似然度;
选择单元,用于选择具有最大似然度的基频参数作为优化的基频参数。
可选地,所述优化模块包括:
时长计算单元,用于根据简谱信息中的节奏信息计算各基本合成单元的理论时长;
获取单元,用于根据所述理论时长获取简谱对应的理论基频参数序列;
模型序列获取单元,用于获取所述简谱对应的基频参考模型序列;
联合优化单元,用于根据所述基频参考模型序列对所述理论基频参数序列进行联合优化。
优选地,所述联合优化单元包括:
第二音调处理单元,用于分别对所述理论基频参数序列中所有理论基频参数统一升降调处理,得到不同基调下的基频参数序列;
第二似然度计算单元,用于计算所述不同基调下基频参数序列与所述基频参考模型序列的似然度;
第二选择单元,用于选择具有最大似然度的基频参数序列作为优化的基频参数序列。
本发明实施例提供的歌唱合成中基频参数生成方法及系统,在进行歌唱合成时,首先根据简谱音高标注确定各基本合成单元的理论基频参数,然后根据歌词标注确定各基本合成单元的基频参考模型,根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化,从而可以在最大似然准则指导下选择最符合当前发音人音域范围的基频参数,既保证了基频参数的稳定性,又保证了基频参数符合发音人的发声特点及基频范围,有效地改善了合成语音的听感。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例歌唱合成中基频参数生成方法的流程图;
图2是本发明实施例中基频二叉决策树示意图;
图3是本发明实施例中对理论基频参数进行优化的一种流程图;
图4是本发明实施例中对理论基频参数进行优化的另一种流程图;
图5是本发明实施例中构建基频二叉决策树的流程图;
图6是本发明实施例歌唱合成中基频参数生成系统的结构示意图;
图7是本发明实施例中基频参考模型确定模块的一种结构示意图;
图8是本发明实施例中优化模块的一种结构示意图;
图9是本发明实施例中优化模块的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对现有的歌唱合成中基频参数生成方法存在的弊端:其中基于统计数据模型的方法很难保证生成基频参数的稳定性,而基于简谱标准音高转换规则的方法很难保证最终生成的基频参数符合合成发音人的基频分布。本发明实施例提供了一种新的歌唱合成中基频参数生成方法及系统,对基于规则的理论基频参数相应于统计基频参考模型进行优化调整,在最大似然准则指导下确定优化的基调进而获得优化的基频参数,有效地解决了传统基频参数生成方法的弊端。
如图1所示,是本发明实施例歌唱合成中基频参数生成方法的流程图,包括以下步骤:
步骤101,接收待合成简谱信息,所述简谱信息包括:歌词标注、音高标注、时长标注和节拍信息。
步骤102,根据所述音高标注确定各基本合成单元的理论基频参数。
所述基本合成单元可以是音节单元或音素单元等。
具体地,可以按照下述公式计算得到各基本合成单元对应的理论基频参数:
F0_rule=440*2(p-69)/12   (1)
其中,F0_rule为理论基频参数,440表示中央C上A音符发出的频率(单位为Hz),p为当前简谱标注的音高值与中央C上A音符的距离,单位为半音(在钢琴上相邻的两个键所拥有的音程)。
步骤103,根据所述歌词标注确定各基本合成单元的基频参考模型。
可以首先对所述歌词标注进行切分,获取各基本合成单元;并对各基本合成单元进行文本解析,获得该基本合成单元的上下文信息,所述上下文信息包括:音素序列、声调、韵律词、韵律短语;然后,根据所述上下文信息及基本合成单元对应的基频二叉决策树,对该基本合成单元确定其对应的基频参考模型。
具体地,首先获取当前考察的合成单元对应的基频二叉决策树;然后,根据所述上下文信息在所述基频二叉决策树中进行路径决策,得到对应的叶节点;将所述叶节点对应的基频模型作为所述合成单元的基频参考模型。
具体地,进行路径决策的过程如下:
根据所述合成单元的上下文信息,从所述基频二叉决策树的根节点开始依次对各节点分裂问题进行回答;根据回答结果获取一条自上而下的匹配路径;根据所述匹配路径获得叶子节点。
比如,可以根据预置的基频二叉决策树,如图2所示,从所述基频二叉决策树的根节点开始,根据所述相关信息逐层向下通过对各节点预设问题的答复下推直到叶节点,将所述叶节点对应的基频模型作为所述基本合成单元对应的基频参考模型。
进一步地,如果采用基于HMM模型的参数合成方法,还可以对基本合成单元的各状态分别构建相应的基频参考模型。
如图2所示,对应音素单元的各状态(如状态2,3,4,5,6)分别具有对应的基频模型。对此将分别确定基本合成单元各状态的基频参考模型,并按照先后顺序拼接得到对应所述基本合成单元的基频参考模型序列。
在本发明实施例中,利用所述基频二叉决策树实现对基频模型的选择,所述基频二叉决策树可以通过离线构建,具体过程将在后面详细说明。
步骤104,根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化。
由于不同发音人音域存在差异,不同人在演唱同一首歌时基调选择可能并不一致,而理论基频参数F0_rule是直接根据简谱信息中的音高标注计算得到的,与当前合成发音人的基频范围可能不一致,会导致合成的语音听起来奇怪,影响听感。
为此,在本发明实施例中,进一步对各基本合成单元在最在似然准则指导下相应于对应的基频参考模型或基频参考模型序列进行升降调优选,获得优化的基频参数。
如图3所示,是本发明实施例中对理论基频参数进行优化的一种流程图,包括以下步骤:
步骤301,获取基本合成单元的基频参考模型及理论基频参数。
步骤302,对所述理论基频参数进行升降调处理,得到不同基调下的基频参数。
具体地,可以遍历不同的半音bt候选基调(bt∈[-N,N])生成新的基频参数F0_newbt
F0_newbt=F0_rule*2bt/12   (2)
其中,N由系统预先设置,考虑到计算量和计算效果,可以设置参数N=15。
由此,得到不同基调下的基频参数,这些基频参数组成了更广音域的基频序列。
步骤303,计算不同基调下的基频参数与所述基频参考模型的似然度。
比如,在单高斯的基频参考模型下,其似然度为:
LogL = 1 2 σ 2 ( F 0 _ new bt - μ ) 2 - 1 2 ln σ 2    (3)
其中,μ和σ分别为基频参考模型的均值和方差。
步骤304,选择具有最大似然度的基频参数作为优化的基频参数。
需要说明的是,在基本合成单元和基频单元不对应的情况下(如基本合成单元选择为音素单元,而基频单元选择为各音素单元模型的状态单元),为了提高基频参数优化的合理性,还可以对基本合成单元对应的基频参考模型序列进行统一优化,分别计算升降调处理后的基频参数相应于基频参考模型序列的似然度,并选择具有最大似然度的基频参数为优化结果。其基频参考模型序列的似然度计算如下:
LogL = Σ k = 1 K - 1 2 σ k 2 ( F 0 _ new bt - μ k ) 2 - 1 2 ln σ k 2    (4)
其中,μk和σk分别为基频参考模型序列中第k个模型的均值和方差,K为参考模型序列的模型数,所述模型数具体可以根据基本合成单元和基频单元设置。
在上述图3所示的理论基频参数优化过程中,对各基本合成单元分别生成基频参数,也就是说,相应于每个基本合成单元分别调整基调值并选择具有最大似然度的基频参数为优选结果。在这样的设定下不同的基本合成单元可能会选择不同的基调值以满足对应基频参数似然度最大的要求,从而可能导致基频参数的不稳定。由于同一发音人在歌唱同一首歌时基调应该具有一致性,即对不同合成单元都应该选择相同的基调值。
为此,在本发明方法的另一实施例中,还可以对各基本合成单元对应的理论基频参数进行联合优化,进一步保证基频参数的稳定性。
如图4所示,是本发明实施例中对理论基频参数进行优化的另一种流程图,包括以下步骤:
步骤401,根据简谱信息中的节奏信息计算各基本合成单元的理论时长。
d_usei=60/tempo*d_notei   (5)
其中,d_usei为音节的理论时长,单位为秒,tempo为简谱信息中的节奏,即每分钟含有的拍数,d_notei为简谱中描述的音节时值(音节的时长即时长标注)。
步骤402,根据所述理论时长获取简谱对应的理论基频参数序列。
具体地,对各基本合成单元的理论基频参数按照其对应的理论时长复制相应次数,得到该基本合成单元帧级的理论基频参数序列,随后将所有基本合成单元对应的理论基频参数序列拼接,得到简谱对应的理论基频参数序列。
步骤403,获取所述简谱对应的基频参考模型序列。
在基频参考模型和基本合成单元单位一致的情况下,对各基本合成单元的基频参考模型按照其对应的理论时长复制相应次数,得到该基本合成单元帧级的基频参考模型序列,随后将所有基本合成单元对应的基频参考模型序列拼接,得到简谱对应的基频参考模型序列。
在基频参考模型和基本合成单元单位不一致的情况下,如在采用基于HMM模型的参数合成方法时,可以对基本合成单元的各状态分别构建相应的基频单元,在这种情况下,可以通过以下过程得到简谱对应的基频参考模型序列:
首先,根据简谱信息中的歌词标注确定各基本合成单元的时长参考模型序列。具体地,可以根据预设的时长二叉决策树确定各基本合成单元对应的时长参考模型序列。具体过程与前面利用基频二叉决策树获取基频参考模型序列的方法类似,在此不再详细描述。
然后,获取各基本合成单元的理论时长总值,具体可以根据简谱信息中的节奏信息计算各基本合成单元的理论时长总值。
最后,确定各基本合成单元对应的基频参考模型或模型序列对应的时长值。
其中基本合成单元中第k个基频单元对应的时长值其中
Figure BDA00003620880100102
分别是所述基本合成单元的第i个时长模型的均值和方差,K为基本合成单元对应的时长(基频)模型个数,Dur为基本合成单元的理论时长总值,即上面提到的d_usei
步骤404,根据所述基频参考模型序列对所述理论基频参数序列进行联合优化。
首先,分别对所述理论基频参数序列中所有理论基频参数统一升降调处理,得到不同基调下的基频参数序列。具体地,可以通过遍历-N~+N(单位为半音)的bt候选基调生成新的基频参数{F0_newbt}序列,其中F0_newbt=F0_rule*2bt/12。参数N由系统预先设置,考虑到计算量和计算效果,可以设置参数N=15。
随后,计算不同基调下基频参数序列{F0_newbt}与所述基频参考模型序列的似然度:
LogL = Σ i = 1 T ( - 1 2 ( F 0 _ new bt , i - m i ) T u i - 1 ( F 0 _ new bt , i - m i ) - 1 2 log u i )    (6)
其中,mi为第i个时间帧对应的基频参考模型的均值,ui为第i个时间帧对应的基频参考模型的方差,T为总时长。
最后,选择具有最大似然度的基频参数序列作为优化的基频参数序列。
本发明实施例提供的歌唱合成中基频参数生成方法,在进行歌唱合成时,首先根据简谱音高标注确定各基本合成单元的理论基频参数,然后根据歌词标注确定各基本合成单元的基频参考模型,根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化,从而可以在最大似然准则指导下选择最符合当前发音人音域范围的基频参数,既保证了基频参数的稳定性,又保证了基频参数符合发音人的发声特点及基频范围,有效地改善了合成语音的听感。
如图5所示,是本发明实施例中构建基频二叉决策树的流程图,包括以下步骤:
步骤501,采集训练数据并对所述训练数据进行信息标注。
具体地,可以获取特定发音人的歌唱语音并进行相应的信息标注,标注信息包括:对基本合成单元及语音段切分,声调、韵律词、韵律短语等信息。
步骤502,从所述训练数据中提取各基本语音合成单元对应语音片断的基频参数。
步骤503,根据所述基本合成单元对应语音片断的标注信息和基频参数,构建所述基本合成单元对应的基频二叉决策树。
可以根据基本合成单元对应语音片断的标注信息和基频参数,采用二叉树节点分裂的方式,获取对应的基频二叉决策树。
具体地,首先设置仅包含根节点的二叉树并设置根节点为新的考察节点,随后依次挑选预设问题集中的所有问题对当前考察节点的数据进行分裂尝试并选择具有最大样本分裂度的问题为优选问题。然后根据分裂后样本聚集度或分裂后子节点中样本数据规模判断是否继续分裂。若分裂后样本聚集度下降幅度小于预设的阈值,或子节点中样本数据量小于预设门限,则设置当前考察节点为叶节点,不再分裂;否则按照最优问题对其分裂,并获取子节点和对应的样本数据。所述样本聚集度即样本分散程度,一般来说,分散度越大,则说明该节点分裂的可能性越大,否则分裂的可能性越小。
在本发明实施例中,可以采用样本方差来衡量节点聚集度,即计算节点包含的所有样本数据距离该类中心的距离(或距离平方)的平均值。
步骤504,对所述基频二叉决策树的各叶节点分别训练得到一个基频模型。
具体地,可以采用高斯混合模型(Guassian Mixture Model,GMM)来模拟叶节点的基频分布,其高斯数可以参考训练数据规模确定,为正整数。比如,选择高斯数为1。
本发明实施例提供的歌唱合成中基频参数生成方法,在进行歌唱合成时,首先根据简谱音高标注确定各基本合成单元的理论基频参数,然后根据歌词标注确定各基本合成单元的基频参考模型,根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化,从而可以在最大似然准则指导下选择最符合当前发音人音域范围的基频参数,既保证了基频参数的稳定性,又保证了基频参数符合发音人的发声特点及基频范围,有效地改善了合成语音的听感。
相应地,本发明实施例还提供一种歌唱合成中基频参数生成系统,如图6所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
接收模块601,用于接收待合成简谱信息,所述简谱信息包括:歌词标注、音高标注、时长标注和节奏信息;
理论基频参数确定模块602,用于根据所述音高标注确定各基本合成单元的理论基频参数;
所述基本合成单元可以是音节单元或音素单元等。具体地,可以按照下述公式计算得到各基本合成单元对应的理论基频参数:
F0_rule=440*2(p-69)/12
其中,F0_rule为理论基频参数,440表示中央C上A音符发出的频率(单位为Hz),p为当前简谱标注的音高值与中央C上A音符的距离,单位为半音(在钢琴上相邻的两个键所拥有的音程);
基频参考模型确定模块603,用于根据所述歌词标注确定各基本合成单元的基频参考模型;
优化模块604,用于根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化。
在该实施例中,基频参考模型确定模块603可以利用基频二叉决策树,对各基本合成单元确定其对应的基频参考模型。
所述基频参考模型确定模块603的一种具体实现方式如图7所示,包括:
切分单元701,用于对歌词标注进行切分,获取各基本合成单元;
解析单元702,用于对所述各基本合成单元进行文本解析,获得所述基本合成单元的上下文信息,所述上下文信息包括:音素序列、声调、韵律词、韵律短语;
二叉决策树获取单元703,用于获取所述基本合成单元对应的基频二叉决策树;
决策单元704,用于根据所述上下文信息在所述基频二叉决策树中进行路径决策,得到对应的叶节点;具体可以根据所述合成单元的上下文信息,从所述基频二叉决策树的根节点开始依次对各节点分裂问题进行回答;根据回答结果获取一条自上而下的匹配路径;根据所述匹配路径获得叶子节点;
输出单元705,用于将所述叶节点对应的基频模型作为所述合成单元的基频参考模型。
在本发明实施例的系统中,利用所述基频二叉决策树实现对基频模型的选择,所述基频二叉决策树可以通过离线构建。
为此,在本发明歌唱合成中基频参数生成系统的另一实施例中,所述系统还可进一步包括:二叉决策树构建模块(未图示),用于构建各基本合成单元对应的基频二叉决策树。所述二叉决策树构建模块的一种具体实现方式可以包括:
标注单元,用于采集训练数据并对所述训练数据进行信息标注。
所述标注单元具体可以获取特定发音人的歌唱语音并进行相应的信息标注,标注信息包括:对基本合成单元及语音段切分,声调、韵律词、韵律短语等信息。
提取单元,用于从所述训练数据中提取各基本语音合成单元对应语音片断的基频参数。
构建单元,用于根据所述基本合成单元对应语音片断的标注信息和基频参数,构建所述基本合成单元对应的基频二叉决策树。
具体可以根据基本合成单元对应语音片断的标注信息和基频参数,采用二叉树节点分裂的方式,获取对应的基频二叉决策树,具体过程可参照前面的描述,在此不再赘述。
训练单元,用于对所述基频二叉决策树的各节点分别训练得到一个基频模型。
具体地,所述训练单元可以采用高斯混合模型来模拟叶节点的基频分布,其高斯数可以参考训练数据规模确定,为正整数。比如,选择高斯数为1。
由于不同发音人音域存在差异,不同人在演唱同一首歌时基调选择可能并不一致,而理论基频参数F0_rule是直接根据简谱信息中的音高标注计算得到的,与当前合成发音人的基频范围可能不一致,会导致合成的语音听起来奇怪,影响听感。
为此,在本发明歌唱合成中基频参数生成系统中,由优化模块604对各基本合成单元在最在似然准则指导下相应于对应的基频参考模型或基频参考模型序列进行升降调优选,获得优化的基频参数。所述优化模块604可以有多种实现方式,下面分别举例说明。
如图8所示,是本发明实施例中优化模块的一种结构示意图。
在该实施例中,所述优化模块包括:
第一音调处理单元,用于对理论基频参数进行升降调处理,得到不同基调下的基频参数;
第一似然度计算单元,用于计算不同基调下的基频参数与基频参考模型的似然度;
第一选择单元,用于选择具有最大似然度的基频参数作为优化的基频参数。
如图9所示,是本发明实施例中优化模块的另一种结构示意图。
在该实施例中,所述优化模块包括:
时长计算单元901,用于根据简谱信息中的节奏信息计算各基本合成单元的理论时长;理论时长的计算可参照前面公式(5)。
理论基频参数获取单元902,用于根据所述理论时长获取简谱对应的理论基频参数序列。
具体地,理论基频参数获取单元902可以对各基本合成单元的理论基频参数按照其对应的理论时长复制相应次数,得到该基本合成单元帧级的理论基频参数序列,随后将所有基本合成单元对应的理论基频参数序列拼接,得到简谱对应的理论基频参数序列。
基频参考模型获取单元903,用于获取所述简谱对应的基频参考模型序列。
在基频参考模型和基本合成单元单位一致的情况下,基频参考模型获取单元903可以对各基本合成单元的基频参考模型按照其对应的理论时长复制相应次数,得到该基本合成单元帧级的基频参考模型序列,随后将所有基本合成单元对应的基频参考模型序列拼接,得到简谱对应的基频参考模型序列。
在基频参考模型和基本合成单元单位不一致的情况下,如在采用基于HMM模型的参数合成方法时,基频参考模型获取单元903可以对基本合成单元的各状态分别构建相应的基频单元,在这种情况下,可以通过以下过程得到简谱对应的基频参考模型序列:
首先,根据简谱信息中的歌词标注确定各基本合成单元的时长参考模型序列。具体地,可以根据预设的时长二叉决策树确定各基本合成单元对应的时长参考模型序列。具体过程与前面利用基频二叉决策树获取基频参考模型序列的方法类似,在此不再详细描述。
然后,获取各基本合成单元的理论时长总值,具体可以根据简谱信息中的节奏信息计算各基本合成单元的理论时长总值。
最后,确定各基本合成单元对应的基频参考模型或模型序列对应的时长值。
其中基本合成单元中第k个基频单元对应的时长值
Figure BDA00003620880100151
其中
Figure BDA00003620880100152
分别是所述基本合成单元的第i个时长模型的均值和方差,K为基本合成单元对应的时长(基频)模型个数,Dur为基本合成单元的理论时长总值,即上面提到的d_usei
联合优化单元904,用于根据所述基频参考模型序列对所述理论基频参数序列进行联合优化。
联合优化单元904具体可以分别对所述理论基频参数序列中所有理论基频参数统一升降调处理,得到不同基调下的基频参数序列。随后,计算不同基调下基频参数序列{F0_newbt}与所述基频参考模型序列的似然度。最后,选择具有最大似然度的基频参数序列作为优化的基频参数序列。
为此,所述联合化单元904的一种具体实现方式包括:
第二音调处理单元,用于分别对所述理论基频参数序列中所有理论基频参数统一升降调处理,得到不同基调下的基频参数序列;
第二似然度计算单元,用于计算所述不同基调下基频参数序列与所述基频参考模型序列的似然度;
第二选择单元,用于选择具有最大似然度的基频参数序列作为优化的基频参数序列。
与图8所示相比,图9所示的优化模块通过对各基本合成单元对应的理论基频参数进行联合优化,可以更好地保证基频参数的稳定性。
本发明实施例提供的歌唱合成中基频参数生成系统,在进行歌唱合成时,首先根据简谱音高标注确定各基本合成单元的理论基频参数,然后根据歌词标注确定各基本合成单元的基频参考模型,根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化,从而可以在最大似然准则指导下选择最符合当前发音人音域范围的基频参数,既保证了基频参数的稳定性,又保证了基频参数符合发音人的发声特点及基频范围,有效地改善了合成语音的听感。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种歌唱合成中基频参数生成方法,其特征在于,包括:
接收待合成简谱信息,所述简谱信息包括:歌词标注、音高标注、时长标注和节奏信息;
根据所述音高标注确定各基本合成单元的理论基频参数;
根据所述歌词标注确定各基本合成单元的基频参考模型;
根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化。
2.根据权利要求1所述的方法,其特征在于,所述根据所述歌词标注确定各基本合成单元的基频参考模型包括:
对所述歌词标注进行切分,获取各基本合成单元;
对所述各基本合成单元进行文本解析,获得所述基本合成单元的上下文信息,所述上下文信息包括:音素序列、声调、韵律词、韵律短语;
获取所述基本合成单元对应的基频二叉决策树;
根据所述上下文信息在所述基频二叉决策树中进行路径决策,得到对应的叶节点;
将所述叶节点对应的基频模型作为所述合成单元的基频参考模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括按以下方式构建各基本合成单元对应的基频二叉决策树:
采集训练数据并对所述训练数据进行信息标注;
从所述训练数据中提取各基本语音合成单元对应语音片断的基频参数;
根据所述基本合成单元对应语音片断的标注信息和基频参数,构建所述基本合成单元对应的基频二叉决策树;
对所述基频二叉决策树的各节点分别训练得到一个基频模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化包括:
对所述理论基频参数进行升降调处理,得到不同基调下的基频参数;
计算不同基调下的基频参数与所述基频参考模型的似然度;
选择具有最大似然度的基频参数作为优化的基频参数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化包括:
根据简谱信息中的节奏信息计算各基本合成单元的理论时长;
根据所述理论时长获取简谱对应的理论基频参数序列;
获取所述简谱对应的基频参考模型序列;
根据所述基频参考模型序列对所述理论基频参数序列进行联合优化。
6.根据权利要求5所述的方法,其特征在于,所述根据所述基频参考模型序列对所述理论基频参数序列进行联合优化包括:
分别对所述理论基频参数序列中所有理论基频参数统一升降调处理,得到不同基调下的基频参数序列;
计算所述不同基调下基频参数序列与所述基频参考模型序列的似然度;
选择具有最大似然度的基频参数序列作为优化的基频参数序列。
7.一种歌唱合成中基频参数生成系统,其特征在于,包括:
接收模块,用于接收待合成简谱信息,所述简谱信息包括:歌词标注、音高标注、时长标注和节奏信息;
理论基频参数确定模块,用于根据所述音高标注确定各基本合成单元的理论基频参数;
基频参考模型确定模块,用于根据所述歌词标注确定各基本合成单元的基频参考模型;
优化模块,用于根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化。
8.根据权利要求7所述的系统,其特征在于,所述基频参考模型确定模块包括:
切分单元,用于对所述歌词标注进行切分,获取各基本合成单元;
解析单元,用于对所述各基本合成单元进行文本解析,获得所述基本合成单元的上下文信息,所述上下文信息包括:音素序列、声调、韵律词、韵律短语;
二叉决策树获取单元,用于获取所述基本合成单元对应的基频二叉决策树;
决策单元,用于根据所述上下文信息在所述基频二叉决策树中进行路径决策,得到对应的叶节点;
输出单元,用于将所述叶节点对应的基频模型作为所述合成单元的基频参考模型。
9.根据权利要求8所述的系统,其特征在于,所述系统还包括:
二叉决策树构建模块,用于构建各基本合成单元对应的基频二叉决策树;所述二叉决策树构建模块包括:
标注单元,用于采集训练数据并对所述训练数据进行信息标注;
提取单元,用于从所述训练数据中提取各基本语音合成单元对应语音片断的基频参数;
构建单元,用于根据所述基本合成单元对应语音片断的标注信息和基频参数,构建所述基本合成单元对应的基频二叉决策树;
训练单元,用于对所述基频二叉决策树的各节点分别训练得到一个基频模型。
10.根据权利要求7所述的系统,其特征在于,所述优化模块包括:
第一音调处理单元,用于对所述理论基频参数进行升降调处理,得到不同基调下的基频参数;
第一似然度计算单元,用于计算不同基调下的基频参数与所述基频参考模型的似然度;
选择单元,用于选择具有最大似然度的基频参数作为优化的基频参数。
11.根据权利要求7所述的系统,其特征在于,所述优化模块包括:
时长计算单元,用于根据简谱信息中的节奏信息计算各基本合成单元的理论时长;
获取单元,用于根据所述理论时长获取简谱对应的理论基频参数序列;
模型序列获取单元,用于获取所述简谱对应的基频参考模型序列;
联合优化单元,用于根据所述基频参考模型序列对所述理论基频参数序列进行联合优化。
12.根据权利要求11所述的系统,其特征在于,所述联合优化单元包括:
第二音调处理单元,用于分别对所述理论基频参数序列中所有理论基频参数统一升降调处理,得到不同基调下的基频参数序列;
第二似然度计算单元,用于计算所述不同基调下基频参数序列与所述基频参考模型序列的似然度;
第二选择单元,用于选择具有最大似然度的基频参数序列作为优化的基频参数序列。
CN201310336896.6A 2013-08-05 2013-08-05 歌唱合成中基频参数生成方法及系统 Active CN103456295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310336896.6A CN103456295B (zh) 2013-08-05 2013-08-05 歌唱合成中基频参数生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310336896.6A CN103456295B (zh) 2013-08-05 2013-08-05 歌唱合成中基频参数生成方法及系统

Publications (2)

Publication Number Publication Date
CN103456295A true CN103456295A (zh) 2013-12-18
CN103456295B CN103456295B (zh) 2016-05-18

Family

ID=49738598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310336896.6A Active CN103456295B (zh) 2013-08-05 2013-08-05 歌唱合成中基频参数生成方法及系统

Country Status (1)

Country Link
CN (1) CN103456295B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766603A (zh) * 2014-01-06 2015-07-08 安徽科大讯飞信息科技股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置
CN104766602A (zh) * 2014-01-06 2015-07-08 安徽科大讯飞信息科技股份有限公司 歌唱合成系统中基频合成参数生成方法及系统
CN106097828A (zh) * 2016-08-12 2016-11-09 淮阴师范学院 一种声乐教学演唱技能检测系统
CN108766413A (zh) * 2018-05-25 2018-11-06 北京云知声信息技术有限公司 语音合成方法及系统
CN111429877A (zh) * 2020-03-03 2020-07-17 云知声智能科技股份有限公司 歌曲处理方法及装置
CN112309410A (zh) * 2020-10-30 2021-02-02 北京有竹居网络技术有限公司 一种歌曲修音方法、装置、电子设备及存储介质
CN112767914A (zh) * 2020-12-31 2021-05-07 科大讯飞股份有限公司 歌唱语音合成方法及合成设备、计算机存储介质
CN113470670A (zh) * 2021-06-30 2021-10-01 广州资云科技有限公司 电音基调快速切换方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7379813B2 (en) * 2004-09-03 2008-05-27 Aisin Aw Co., Ltd. Driving support system and driving support module
CN101308652A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法
CN101901598A (zh) * 2010-06-30 2010-12-01 北京捷通华声语音技术有限公司 一种哼唱合成方法和系统
CN103035235A (zh) * 2011-09-30 2013-04-10 西门子公司 一种将语音转换为旋律的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7379813B2 (en) * 2004-09-03 2008-05-27 Aisin Aw Co., Ltd. Driving support system and driving support module
CN101308652A (zh) * 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种个性化歌唱语音的合成方法
CN101901598A (zh) * 2010-06-30 2010-12-01 北京捷通华声语音技术有限公司 一种哼唱合成方法和系统
CN103035235A (zh) * 2011-09-30 2013-04-10 西门子公司 一种将语音转换为旋律的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蔡莲红 等: "基于音高指导的HMM参数化歌唱合成", 《第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集 , 2009 年》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766602A (zh) * 2014-01-06 2015-07-08 安徽科大讯飞信息科技股份有限公司 歌唱合成系统中基频合成参数生成方法及系统
CN104766603A (zh) * 2014-01-06 2015-07-08 安徽科大讯飞信息科技股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置
CN104766602B (zh) * 2014-01-06 2019-01-18 科大讯飞股份有限公司 歌唱合成系统中基频合成参数生成方法及系统
CN104766603B (zh) * 2014-01-06 2019-03-19 科大讯飞股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置
CN106097828B (zh) * 2016-08-12 2019-05-07 淮阴师范学院 一种声乐教学演唱技能检测系统
CN106097828A (zh) * 2016-08-12 2016-11-09 淮阴师范学院 一种声乐教学演唱技能检测系统
CN108766413A (zh) * 2018-05-25 2018-11-06 北京云知声信息技术有限公司 语音合成方法及系统
CN111429877A (zh) * 2020-03-03 2020-07-17 云知声智能科技股份有限公司 歌曲处理方法及装置
CN112309410A (zh) * 2020-10-30 2021-02-02 北京有竹居网络技术有限公司 一种歌曲修音方法、装置、电子设备及存储介质
CN112767914A (zh) * 2020-12-31 2021-05-07 科大讯飞股份有限公司 歌唱语音合成方法及合成设备、计算机存储介质
CN112767914B (zh) * 2020-12-31 2024-04-30 科大讯飞股份有限公司 歌唱语音合成方法及合成设备、计算机存储介质
CN113470670A (zh) * 2021-06-30 2021-10-01 广州资云科技有限公司 电音基调快速切换方法及系统
CN113470670B (zh) * 2021-06-30 2024-06-07 广州资云科技有限公司 电音基调快速切换方法及系统

Also Published As

Publication number Publication date
CN103456295B (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN103456295B (zh) 歌唱合成中基频参数生成方法及系统
CN106652984B (zh) 一种使用计算机自动创作歌曲的方法
CN104766603A (zh) 构建个性化歌唱风格频谱合成模型的方法及装置
CN101308652B (zh) 一种个性化歌唱语音的合成方法
CN103823867B (zh) 一种基于音符建模的哼唱式音乐检索方法及系统
CN106971703A (zh) 一种基于hmm的歌曲合成方法及装置
TWI394142B (zh) 歌聲合成系統、方法、以及裝置
CN102024453B (zh) 歌声合成系统、方法以及装置
CN103915093B (zh) 一种实现语音歌唱化的方法和装置
CN107146497A (zh) 一种钢琴考级评分系统
CN102576524A (zh) 接收、分析并编辑音频来创建音乐作品的系统和方法
CN105023574B (zh) 一种实现合成语音增强的方法及系统
US20230402047A1 (en) Audio processing method and apparatus, electronic device, and computer-readable storage medium
TWI605350B (zh) 文字轉語音方法以及多語言語音合成裝置
CN114170999A (zh) 语音转换方法、装置、电子设备和存储介质
CN110853457B (zh) 可互动的音乐教学指导方法
CN104766602B (zh) 歌唱合成系统中基频合成参数生成方法及系统
CN110956870A (zh) 一种视唱练耳教学方法及装置
Shen et al. Solfeggio Teaching Method Based on MIDI Technology in the Background of Digital Music Teaching
CN113870897A (zh) 音频数据教学测评方法及其装置、设备、介质、产品
CN102122505A (zh) 一种提高语音合成系统表现力的建模方法
CN105931624A (zh) 基于语音输入的说唱音乐自动生成方法
CN101710367A (zh) 基于勋伯格十二音体系的计算机作曲方法
CN101692974B (zh) 用于电子耳蜗植入者的音乐能力测试系统
CN111816157A (zh) 一种基于语音合成的乐谱智能视唱方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant after: Iflytek Co., Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant before: Anhui USTC iFLYTEK Co., Ltd.

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant