CN104464725B - 一种唱歌模仿的方法与装置 - Google Patents

一种唱歌模仿的方法与装置 Download PDF

Info

Publication number
CN104464725B
CN104464725B CN201410839900.5A CN201410839900A CN104464725B CN 104464725 B CN104464725 B CN 104464725B CN 201410839900 A CN201410839900 A CN 201410839900A CN 104464725 B CN104464725 B CN 104464725B
Authority
CN
China
Prior art keywords
singer
mrow
msub
msubsup
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410839900.5A
Other languages
English (en)
Other versions
CN104464725A (zh
Inventor
王子亮
邹应双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FUJIAN KAIMI NETWORK SCIENCE & TECHNOLOGY CO., LTD.
Original Assignee
Fujian Kaimi Network Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Kaimi Network Science & Technology Co Ltd filed Critical Fujian Kaimi Network Science & Technology Co Ltd
Priority to CN201410839900.5A priority Critical patent/CN104464725B/zh
Publication of CN104464725A publication Critical patent/CN104464725A/zh
Application granted granted Critical
Publication of CN104464725B publication Critical patent/CN104464725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本发明提出了一种唱歌模仿的方法,包括:预备好源演唱者和目标演唱者对应音频素材;使用STRAIGHT模型分析源演唱者和目标演唱者的声音特征;使用高斯混合模型训练得到源演唱者与目标演唱者的联合GMM模型;音色转换过程中使用基于帧间关联的高斯转换函数;将源演唱者的音色与目标演唱者音色按比例混合;使用STRAIGHT模型重建具有目标演唱者音色的声音;本发明还提供了实现上述方法的装置。本发明可以将源演唱者的声音转换为具有目标演唱者音色的声音,转换音质良好,音色接近目标演唱者,并且可以按比例加入目标演唱者的音色特征;特别地,当目标演唱者是歌星时,可以极大地提高数字视听场所用户演唱的自信心以及趣味性,并提高用户模仿歌星音色的水平。

Description

一种唱歌模仿的方法与装置
技术领域
本发明涉及音色转换的方法,尤其涉及一种唱歌模仿的方法。
背景技术
随着智能终端的普及,人们对生活智能化服务的要求越来越高,语音智能化服务成为人们迫切需要。
现有唱歌补偿系统中已有对演唱者音调修正的技术,使演唱者在走调的情况下,仍然可以按标准音调进行演唱,但较少涉及对演唱者音色进行转换以模仿歌星音色演唱的技术。K歌系统的智能化迫切需要一种技术,能够让用户通过机器辅助模仿歌星演唱,且音色接近专业歌手,从而极大地提高用户演唱的自信心以及趣味性,并提高用户模仿歌星音色的水平。
发明内容
为此,需要提供一种唱歌模仿的方法,解决对源演唱者音色进行转换以模仿目标演唱者音色演唱的问题。
为实现上述目的,发明人提供了一种唱歌模仿的方法,用于将源演唱者的声音转换为具有目标演唱者音色的声音,该方法包括训练阶段和转换阶段,其中:
所述训练阶段包括:
利用STRAIGHT模型对源演唱者和目标演唱者对应的音频素材分别计算基频序列值以及频谱包络系数,根据源演唱者的频谱包络系数提取源演唱者的LSF系数,根据目标演唱者的频谱包络系数提取目标演唱者的LSF系数;利用DTW算法对齐并组合源演唱者和目标演唱者的LSF系数;将组合的LSF系数进行GMM训练得到源演唱者与目标演唱者的联合GMM模型,根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数;使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数;
所述转换阶段包括:
利用STRAIGHT模型对待转换的源演唱者的音频素材计算基频序列值以及频谱包络系数,并根据所述频谱包络系数提取待转换的源演唱者的LSF系数;根据特征映射函数,对待转换的源演唱者的LSF系数进行转换,根据基频映射函数,对待转换的源演唱者的基频序列值进行转换;根据转换后的LSF系数计算得到转换后的频谱包络系数;根据转换后的频谱包络系数与转换后的基频序列值,利用STRAIGHT模型重建得到具有目标演唱者音色的声音。
进一步的,所述“根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数”,具体为:
联合GMM:λ=(Q,α,μ,Σ),其联合特征空间的分布为:
是由μ和Σ分解得到:
Q为高斯混合数,为源演唱者和目标演唱者第i个高斯分量的均值向量;为源演唱者第i个高斯分量的方差矩阵,为源演唱者和目标演唱者第i个高斯分量的协方差矩阵,pi(Xt)为特征矢量Xt属于GMM第i个高斯分量的概率;
对于当前语音帧Xt,计算Q个pi(Xt)(1≤i≤Q),按降序排列;
计算概率最大值所对应的高斯分量:
对于当前语音帧的下一帧Xt+1,同样计算概率最大值所对应的高斯分量:接着,用下一帧语音参数来确定当前语音帧的第二转换分量函数:
若i==j,则转换函数为:
若i≠j,则转换函数为:
进一步的,所述“使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数”,具体为:分别计算源演唱者的基频序列值与目标演唱者的基频序列值的均值与方差,源演唱者到目标演唱者的基频映射函数为:
其中,fx为源演唱者的基频序列值,分别为源演唱者与目标演唱者的基频序列值的均值,分别为源演唱者与目标演唱者的基频序列值的方差。
进一步的,所述“根据特征映射函数,对待转换的源演唱者的LSF系数进行转换”之前,还包括步骤:调整转换函数中的均值将源演唱者、目标演唱者的模型均值按比例混合,公式为:
其中,a是预设系数,且0<=a<=1。
进一步的,所述“根据转换后的LSF系数计算得到转换后的频谱包络系数”之后,还包括步骤:调整转换后的频谱包络系数,将待转换的源演唱者的频谱包络系数、转换后的频谱包络系数按比例混合,公式为:
P1=P0*(1-b)+P1*b
其中,P1为转换后的频谱包络系数,P0为待转换的源演唱者的频谱包络系数,b是预设系数,且0<=b<=1。
本发明还提供一种唱歌模仿的装置,用于将源演唱者的声音转换为具有目标演唱者音色的声音,包括特征提取模块、训练模块、转换模块和重建模块:
所述特征提取模块用于利用STRAIGHT模型对源演唱者和目标演唱者对应的音频素材分别计算基频序列值以及频谱包络系数,根据源演唱者的频谱包络系数提取源演唱者的LSF系数,根据目标演唱者的频谱包络系数提取目标演唱者的LSF系数;所述训练模块用于利用DTW算法对齐并组合源演唱者和目标演唱者的LSF系数;将组合的LSF系数进行GMM训练得到源演唱者与目标演唱者的联合GMM模型,根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数;使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数;
所述特征提取模块还用于利用STRAIGHT模型对待转换的源演唱者的音频素材计算基频序列值以及频谱包络系数,并根据所述频谱包络系数提取待转换的源演唱者的LSF系数;所述转换模块用于根据特征映射函数,对待转换的源演唱者的LSF系数进行转换,根据基频映射函数,对待转换的源演唱者的基频序列值进行转换,根据转换后的LSF系数计算得到转换后的频谱包络系数;所述重建模块用于根据转换后的频谱包络系数与转换后的基频序列值,利用STRAIGHT模型重建得到具有目标演唱者音色的声音。
进一步的,所述训练模块“根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数”,具体为:
联合GMM:λ=(Q,α,μ,Σ),其联合特征空间的分布为:
是由μ和Σ分解得到:
Q为高斯混合数,为源演唱者和目标演唱者第i个高斯分量的均值向量;为源演唱者第i个高斯分量的方差矩阵,为源演唱者和目标演唱者第i个高斯分量的协方差矩阵,pi(Xt)为特征矢量Xt属于GMM第i个高斯分量的概率;
对于当前语音帧Xt,计算Q个pi(Xt)(1≤i≤Q),按降序排列;
计算概率最大值所对应的高斯分量:
对于当前语音帧的下一帧Xt+1,同样计算概率最大值所对应的高斯分量:接着,用下一帧语音参数来确定当前语音帧的第二转换分量函数:
若i==j,则转换函数为:
若i≠j,则转换函数为:
进一步的,所述训练模块“使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数”,具体为:分别计算源演唱者的基频序列值与目标演唱者的基频序列值的均值与方差,源演唱者到目标演唱者的基频映射函数为:
其中,fx为源演唱者的基频序列值,分别为源演唱者与目标演唱者的基频序列值的均值,分别为源演唱者与目标演唱者的基频序列值的方差。
进一步的,所述转换模块还用于调整转换函数中的均值将源演唱者、目标演唱者的模型均值按比例混合,公式为:
其中,a是预设系数,且0<=a<=1。
进一步的,所述转换模块还用于调整转换后的频谱包络系数,将待转换的源演唱者的频谱包络系数、转换后的频谱包络系数按比例混合,公式为:
P1=P0*(1-b)+P1*b
其中,P1为转换后的频谱包络系数,P0为待转换的源演唱者的频谱包络系数,b是预设系数,且0<=b<=1。
本发明的优点在于:
1、本发明首次提出一种唱歌模仿的方法与装置,可以将源演唱者的声音转换为具有目标演唱者音色的声音。
2、本发明在进行音色转换时,创新性地使用基于帧间关联的高斯转换函数,可改善传统高斯转换函数转换后谱包络过平滑的问题,并且计算速度快,转换音质良好。
3、本发明首次提出将源演唱者与目标演唱者的音色按比例混合的方法,特别地,当目标演唱者是歌星时,可以极大地提高数字视听场所用户演唱的自信心以及趣味性,并提高用户模仿歌星音色的水平。
附图说明
图1为本发明方法训练阶段流程示意图;
图2为本发明方法转换阶段流程示意图;
图3为本发明装置模块示意图。
附图标记说明:
31、特征提取模块;
32、训练模块;
33、转换模块;
34、重建模块。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
本发明第一实施方式所述的一种唱歌模仿的方法,用于将源演唱者的声音转换为具有目标演唱者音色的声音。该方法包括训练阶段和转换阶段,其中:
所述训练阶段,请参阅图1,包括步骤S101-S105:
S101、利用STRAIGHT模型对源演唱者和目标演唱者对应的音频素材分别计算基频序列值以及频谱包络系数;
自适应加权谱内插(STRAIGHT)是一种高质量的语音合成器,该合成器能够有效实现语音声源与滤波器的分离,将语音信号分解成基频和去除基频影响的频谱包络两部分。STRAIGHT模型与其他的语音模型相比,在语音分析和合成时能获得更高的语音质量。
S102、根据源演唱者的频谱包络系数提取源演唱者的LSF系数,根据目标演唱者的频谱包络系数提取目标演唱者的LSF系数;
本实施方式中,LSF系数维数取为20。所述LSF参数与其他特征参数如MFCC相比,能够更好的反映声道幅度谱的特点,并且具有良好的插值和量化特性。
S103、利用DTW算法对齐并组合源演唱者和目标演唱者的LSF系数,并将对应帧组合得到源演唱者和目标演唱者的联合LSF系数Z=[X Y];
S104、将组合的LSF系数进行GMM训练得到源演唱者与目标演唱者的联合GMM模型:λ=(Q,α,μ,Σ);
S105、根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数;使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数。
传统的方法是通过求解联合高斯分布的条件期望得到特征映射函数,转换函数如下:
其中:
是由μ和Σ分解得到:
Q为高斯混合数,为源演唱者和原来目标演唱者第i个高斯分量的均值向量;为源演唱者第i个高斯分量的方差矩阵,为源演唱者和目标演唱者第i个高斯分量的协方差矩阵,pi(Xt)为特征矢量Xt属于GMM第i个高斯分量的概率。
用传统的全转换函数进行转换,可能使谱包络变得过平滑,转换后的声音有压抑的感觉,并且Q通常取到128以上,导致转换函数计算量增大。本实施方式采用部分转换分量函数的加权和作为新的转换函数,通过引入了帧间关联,不仅能提高音色转换速度,而且对转换后的声音质量也有一定提高。具体步骤如下:
对于当前语音帧Xt,计算Q个pi(Xt)(1≤i≤Q),按降序排列;
计算概率最大值所对应的高斯分量:
对于当前语音帧的下一帧Xt+1,同样计算概率最大值所对应的高斯分量:为了保证语音转换的连续性,用下一帧语音参数来确定当前语音帧的第二转换分量函数:
若i==j,则转换函数为:
若i≠j,则转换函数为:
所述使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数具体为:
分别计算源演唱者的基频序列值与目标演唱者的基频序列值的均值与方差,源演唱者到目标演唱者的基频映射函数为:
其中,fx为源演唱者的基频序列值,分别为源演唱者与目标演唱者的基频序列值的均值,分别为源演唱者与目标演唱者的基频序列值的方差。
所述转换阶段请参阅图2,包括步骤S201-S205:
S201、利用STRAIGHT模型对待转换的源演唱者的音频素材计算基频序列值以及频谱包络系数;
S202、根据所述频谱包络系数提取待转换的源演唱者的LSF系数,本实施方式中LSF系数的维数取为20;
S203、根据特征映射函数,对待转换的源演唱者的LSF系数进行转换,根据基频映射函数,对待转换的源演唱者的基频序列值进行转换;
S204、根据转换后的LSF系数计算得到转换后的频谱包络系数;
S205、根据转换后的频谱包络系数与转换后的基频序列值,利用STRAIGHT模型重建得到具有目标演唱者音色的声音。
通过上述步骤可实现将源演唱者的声音转换为具有目标演唱者音色的声音,为了进一步提高演唱者演唱的乐趣,本发明还提出将源演唱者音色与目标演唱者音色按比例混合的方法,包括如下两个实例:
在一个实施例中,包括第一实施方式中的所有步骤,并且在步骤S202“对待转换的源演唱者的LSF系数进行转换”之前,增加步骤:调整转换函数中的均值将源演唱者、目标演唱者的模型均值按比例混合,公式为:
其中,a是预设系数,且0<=a<=1,可根据实际需要调整,当a<0.5时,演唱音色占主要部分,当a>0.5时,目标演唱者音色占主要部分,从而实现源演唱者音色特征与目标演唱者音色特征的按比例混合。
在另一个实施例中,包括第一实施方式中的所有步骤,并且在步骤S204“根据转换后的LSF系数计算得到转换后的频谱包络系数”之后,增加步骤:调整转换后的频谱包络系数,将待转换的源演唱者的频谱包络系数、转换后的频谱包络系数按比例混合,公式为:
P1=P0*(1-b)+P1*b
其中,P1为转换后的频谱包络系数,P0为待转换的源演唱者的频谱包络系数,b是预设系数,且0<=b<=1,可根据实际需要调整,当b<0.5时,演唱音色占主要部分,当b>0.5时,目标演唱者音色占主要部分,从而实现源演唱者音色特征与目标演唱者音色特征的按比例混合。
通过以上方法,可以将源演唱者的声音转换为具有目标演唱者音色的声音,转换音质良好,音色接近目标演唱者,并且可以按比例加入目标演唱者的音色特征;特别地,当目标演唱者是歌星时,可以极大地提高数字视听场所用户演唱的自信心以及趣味性,并提高用户模仿歌星音色的水平。
如图3所示,本发明在另一实施方式中还提供一种唱歌模仿的装置,用于将源演唱者的声音转换为具有目标演唱者音色的声音,包括特征提取模块31、训练模块32、转换模块33和重建模块34:
所述特征提取模块31用于利用STRAIGHT模型对源演唱者和目标演唱者对应的音频素材分别计算基频序列值以及频谱包络系数。
自适应加权谱内插(STRAIGHT)是一种高质量的语音合成器,该合成器能够有效实现语音声源与滤波器的分离,将语音信号分解成基频和去除基频影响的频谱包络两部分。STRAIGHT模型与其他的语音模型相比,在语音分析和合成时能获得更高的语音质量。
所述特征提取模块31还用于根据源演唱者的频谱包络系数提取源演唱者的LSF系数,根据目标演唱者的频谱包络系数提取目标演唱者的LSF系数,本实施方式中LSF系数的维数取为20。
所述LSF参数与其他特征参数如MFCC相比,能够更好的反映声道幅度谱的特点,并且具有良好的插值和量化特性。
所述训练模块32用于利用DTW算法对齐并组合源演唱者和目标演唱者的LSF系数,并将对应帧组合得到源演唱者和目标演唱者的联合LSF系数Z=[XY];将组合的LSF系数进行GMM训练得到源演唱者与目标演唱者的联合GMM模型:λ=(Q,α,μ,Σ)。
所述训练模块32还用于,根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数;使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数。
联合GMM:λ=(Q,α,μ,Σ),其联合特征空间的分布为:
是由μ和Σ分解得到:
Q为高斯混合数,为源演唱者和目标演唱者第i个高斯分量的均值向量;为源演唱者第i个高斯分量的方差矩阵,为源演唱者和目标演唱者第i个高斯分量的协方差矩阵,pi(Xt)为特征矢量Xt属于GMM第i个高斯分量的概率;
所述“引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数”具体为:
对于当前语音帧Xt,计算Q个pi(Xt)(1≤i≤Q),按降序排列;
计算概率最大值所对应的高斯分量:
对于当前语音帧的下一帧Xt+1,同样计算概率最大值所对应的高斯分量:为了保证语音转换的连续性,用下一帧语音参数来确定当前语音帧的第二转换分量函数:
若i==j,则转换函数为:
若i≠j,则转换函数为:
所述“使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数”具体为:
分别计算源演唱者的基频序列值与目标演唱者的基频序列值的均值与方差,源演唱者到目标演唱者的基频映射函数为:
其中,fx为源演唱者的基频序列值,分别为源演唱者与目标演唱者的基频序列值的均值,分别为源演唱者与目标演唱者的基频序列值的方差。
所述特征提取模块31还用于利用STRAIGHT模型对待转换的源演唱者的音频素材计算基频序列值以及频谱包络系数;并根据所述频谱包络系数提取待转换的源演唱者的LSF系数,本实施方式中LSF系数的维数取为20。
所述转换模块33用于根据特征映射函数,对待转换的源演唱者的LSF系数进行转换,根据基频映射函数,对待转换的源演唱者的基频序列值进行转换;并根据转换后的LSF系数计算得到转换后的频谱包络系数。
所述重建模块34用于根据转换后的频谱包络系数与转换后的基频序列值,利用STRAIGHT模型重建得到具有目标演唱者音色的声音。
所述转换模块33还用于在“对待转换的源演唱者的LSF系数进行转换”之前,调整转换函数中的均值将源演唱者、目标演唱者的模型均值按比例混合,公式为:
其中,a是预设系数,且0<=a<=1,可根据实际需要调整,当a<0.5时,演唱音色占主要部分,当a>0.5时,目标演唱者音色占主要部分,从而实现源演唱者音色特征与目标演唱者音色特征的按比例混合。
所述转换模块33还用于在“根据转换后的LSF系数计算得到转换后的频谱包络系数”之后,调整转换后的频谱包络系数,将待转换的源演唱者的频谱包络系数、转换后的频谱包络系数按比例混合,公式为:
P1=P0*(1-b)+P1*b
其中,P1为转换后的频谱包络系数,P0为待转换的源演唱者的频谱包络系数,b是预设系数,且0<=b<=1,可根据实际需要调整,当b<0.5时,演唱音色占主要部分,当b>0.5时,目标演唱者音色占主要部分,从而实现源演唱者音色特征与目标演唱者音色特征的按比例混合。
通过以上装置,可以将源演唱者的声音转换为具有目标演唱者音色的声音,转换音质良好,音色接近目标演唱者,并且可以按比例加入目标演唱者的音色特征;特别地,当目标演唱者是歌星时,可以极大地提高数字视听场所用户演唱的自信心以及趣味性,并提高用户模仿歌星音色的水平。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

Claims (8)

1.一种唱歌模仿的方法,其特征在于,所述方法用于将源演唱者的声音转换为具有目标演唱者音色的声音,该方法包括训练阶段和转换阶段,其中:
所述训练阶段包括:
利用STRAIGHT模型对源演唱者和目标演唱者对应的音频素材分别计算基频序列值以及频谱包络系数,根据源演唱者的频谱包络系数提取源演唱者的LSF系数,根据目标演唱者的频谱包络系数提取目标演唱者的LSF系数;利用DTW算法对齐并组合源演唱者和目标演唱者的LSF系数;将组合的LSF系数进行GMM训练得到源演唱者与目标演唱者的联合GMM模型,根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数;使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数;
所述转换阶段包括:
利用STRAIGHT模型对待转换的源演唱者的音频素材计算基频序列值以及频谱包络系数,并根据所述频谱包络系数提取待转换的源演唱者的LSF系数;根据特征映射函数,对待转换的源演唱者的LSF系数进行转换,根据基频映射函数,对待转换的源演唱者的基频序列值进行转换;根据转换后的LSF系数计算得到转换后的频谱包络系数;根据转换后的频谱包络系数与转换后的基频序列值,利用STRAIGHT模型重建得到具有目标演唱者音色的声音;
所述“根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数”,具体为:
联合GMM:λ=(Q,α,μ,Σ),其联合特征空间的分布为:
是由μ和Σ分解得到:
Q为高斯混合数,为源演唱者和目标演唱者第i个高斯分量的均值向量;为源演唱者第i个高斯分量的方差矩阵,为源演唱者和目标演唱者第i个高斯分量的协方差矩阵,pi(Xt)为特征矢量Xt属于GMM第i个高斯分量的概率;
对于当前语音帧Xt,计算Q个pi(Xt)(1≤i≤Q),按降序排列;
计算概率最大值所对应的高斯分量:
对于当前语音帧的下一帧Xt+1,同样计算概率最大值所对应的高斯分量:接着,用下一帧语音参数来确定当前语音帧的第二转换分量函数:
若i==j,则转换函数为:
若i≠j,则转换函数为:
<mrow> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;lsqb;</mo> <msubsup> <mi>&amp;mu;</mi> <mi>i</mi> <mi>Y</mi> </msubsup> <mo>+</mo> <msubsup> <mi>&amp;Sigma;</mi> <mi>i</mi> <mrow> <mi>Y</mi> <mi>X</mi> </mrow> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>&amp;Sigma;</mi> <mi>i</mi> <mrow> <mi>X</mi> <mi>X</mi> </mrow> </msubsup> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>-</mo> <msubsup> <mi>&amp;mu;</mi> <mi>i</mi> <mi>X</mi> </msubsup> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>&amp;lsqb;</mo> <msubsup> <mi>&amp;mu;</mi> <mi>j</mi> <mi>Y</mi> </msubsup> <mo>+</mo> <msubsup> <mi>&amp;Sigma;</mi> <mi>j</mi> <mrow> <mi>Y</mi> <mi>X</mi> </mrow> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>&amp;Sigma;</mi> <mi>j</mi> <mrow> <mi>X</mi> <mi>Y</mi> </mrow> </msubsup> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>-</mo> <msubsup> <mi>&amp;mu;</mi> <mi>j</mi> <mi>X</mi> </msubsup> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>.</mo> </mrow>
2.根据权利要求1所述的唱歌模仿的方法,其特征在于,所述“使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数”,具体为:分别计算源演唱者的基频序列值与目标演唱者的基频序列值的均值与方差,源演唱者到目标演唱者的基频映射函数为:
<mrow> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&amp;mu;</mi> <msub> <mi>f</mi> <mi>y</mi> </msub> </msub> <mo>+</mo> <mfrac> <msub> <mi>&amp;Sigma;</mi> <msub> <mi>f</mi> <mi>y</mi> </msub> </msub> <msub> <mi>&amp;Sigma;</mi> <msub> <mi>f</mi> <mi>x</mi> </msub> </msub> </mfrac> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>x</mi> </msub> <mo>-</mo> <msub> <mi>&amp;mu;</mi> <msub> <mi>f</mi> <mi>x</mi> </msub> </msub> <mo>)</mo> </mrow> </mrow>
其中,fx为源演唱者的基频序列值,分别为源演唱者与目标演唱者的基频序列值的均值,分别为源演唱者与目标演唱者的基频序列值的方差。
3.根据权利要求1所述的唱歌模仿的方法,其特征在于,所述“根据特征映射函数,对待转换的源演唱者的LSF系数进行转换”之前,还包括步骤:调整转换函数中的均值将源演唱者、目标演唱者的模型均值按比例混合,公式为:
<mrow> <msubsup> <mi>u</mi> <mi>i</mi> <mi>Y</mi> </msubsup> <mo>=</mo> <msubsup> <mi>u</mi> <mi>i</mi> <mi>X</mi> </msubsup> <mo>*</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>u</mi> <mi>i</mi> <mi>Y</mi> </msubsup> <mo>*</mo> <mi>a</mi> </mrow>
<mrow> <msubsup> <mi>u</mi> <mi>j</mi> <mi>Y</mi> </msubsup> <mo>=</mo> <msubsup> <mi>u</mi> <mi>j</mi> <mi>X</mi> </msubsup> <mo>*</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>u</mi> <mi>j</mi> <mi>Y</mi> </msubsup> <mo>*</mo> <mi>a</mi> </mrow>
其中,a是预设系数,且0<=a<=1。
4.根据权利要求1所述的唱歌模仿的方法,其特征在于,所述“根据转换后的LSF系数计算得到转换后的频谱包络系数”之后,还包括步骤:调整转换后的频谱包络系数,将待转换的源演唱者的频谱包络系数、转换后的频谱包络系数按比例混合,公式为:
P1=P0*(1-b)+P1*b
其中,P1为转换后的频谱包络系数,P0为待转换的源演唱者的频谱包络系数,b是预设系数,且0<=b<=1。
5.一种唱歌模仿的装置,其特征在于,所述装置用于将源演唱者的声音转换为具有目标演唱者音色的声音,包括特征提取模块、训练模块、转换模块和重建模块:
所述特征提取模块用于利用STRAIGHT模型对源演唱者和目标演唱者对应的音频素材分别计算基频序列值以及频谱包络系数,根据源演唱者的频谱包络系数提取源演唱者的LSF系数,根据目标演唱者的频谱包络系数提取目标演唱者的LSF系数;所述训练模块用于利用DTW算法对齐并组合源演唱者和目标演唱者的LSF系数;将组合的LSF系数进行GMM训练得到源演唱者与目标演唱者的联合GMM模型,根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数;使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数;
所述特征提取模块还用于利用STRAIGHT模型对待转换的源演唱者的音频素材计算基频序列值以及频谱包络系数,并根据所述频谱包络系数提取待转换的源演唱者的LSF系数;所述转换模块用于根据特征映射函数,对待转换的源演唱者的LSF系数进行转换,根据基频映射函数,对待转换的源演唱者的基频序列值进行转换,根据转换后的LSF系数计算得到转换后的频谱包络系数;所述重建模块用于根据转换后的频谱包络系数与转换后的基频序列值,利用STRAIGHT模型重建得到具有目标演唱者音色的声音;
所述训练模块“根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数”,具体为:
联合GMM:λ=(Q,α,μ,Σ),其联合特征空间的分布为:
是由μ和Σ分解得到:
Q为高斯混合数,为源演唱者和目标演唱者第i个高斯分量的均值向量;为源演唱者第i个高斯分量的方差矩阵,为源演唱者和目标演唱者第i个高斯分量的协方差矩阵,pi(Xt)为特征矢量Xt属于GMM第i个高斯分量的概率;
对于当前语音帧Xt,计算Q个pi(Xt)(1≤i≤Q),按降序排列;
计算概率最大值所对应的高斯分量:
对于当前语音帧的下一帧Xt+1,同样计算概率最大值所对应的高斯分量:接着,用下一帧语音参数来确定当前语音帧的第二转换分量函数:
若i==j,则转换函数为:
若i≠j,则转换函数为:
<mrow> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;lsqb;</mo> <msubsup> <mi>&amp;mu;</mi> <mi>i</mi> <mi>Y</mi> </msubsup> <mo>+</mo> <msubsup> <mi>&amp;Sigma;</mi> <mi>i</mi> <mrow> <mi>Y</mi> <mi>X</mi> </mrow> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>&amp;Sigma;</mi> <mi>i</mi> <mrow> <mi>X</mi> <mi>X</mi> </mrow> </msubsup> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>-</mo> <msubsup> <mi>&amp;mu;</mi> <mi>i</mi> <mi>X</mi> </msubsup> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>&amp;lsqb;</mo> <msubsup> <mi>&amp;mu;</mi> <mi>j</mi> <mi>Y</mi> </msubsup> <mo>+</mo> <msubsup> <mi>&amp;Sigma;</mi> <mi>j</mi> <mrow> <mi>Y</mi> <mi>X</mi> </mrow> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>&amp;Sigma;</mi> <mi>j</mi> <mrow> <mi>X</mi> <mi>X</mi> </mrow> </msubsup> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>-</mo> <msubsup> <mi>&amp;mu;</mi> <mi>j</mi> <mi>X</mi> </msubsup> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>.</mo> </mrow>
6.根据权利要求5所述的唱歌模仿的装置,其特征在于,所述训练模块“使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数”,具体为:分别计算源演唱者的基频序列值与目标演唱者的基频序列值的均值与方差,源演唱者到目标演唱者的基频映射函数为:
<mrow> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>x</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&amp;mu;</mi> <msub> <mi>f</mi> <mi>y</mi> </msub> </msub> <mo>+</mo> <mfrac> <msub> <mi>&amp;Sigma;</mi> <msub> <mi>f</mi> <mi>y</mi> </msub> </msub> <msub> <mi>&amp;Sigma;</mi> <msub> <mi>f</mi> <mi>x</mi> </msub> </msub> </mfrac> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>x</mi> </msub> <mo>-</mo> <msub> <mi>&amp;mu;</mi> <msub> <mi>f</mi> <mi>x</mi> </msub> </msub> <mo>)</mo> </mrow> </mrow>
其中,fx为源演唱者的基频序列值,分别为源演唱者与目标演唱者的基频序列值的均值,分别为源演唱者与目标演唱者的基频序列值的方差。
7.根据权利要求5所述的唱歌模仿的装置,其特征在于,所述转换模块还用于调整转换函数中的均值将源演唱者、目标演唱者的模型均值按比例混合,公式为:
<mrow> <msubsup> <mi>u</mi> <mi>i</mi> <mi>Y</mi> </msubsup> <mo>=</mo> <msubsup> <mi>u</mi> <mi>i</mi> <mi>X</mi> </msubsup> <mo>*</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>u</mi> <mi>i</mi> <mi>Y</mi> </msubsup> <mo>*</mo> <mi>a</mi> </mrow>
<mrow> <msubsup> <mi>u</mi> <mi>j</mi> <mi>Y</mi> </msubsup> <mo>=</mo> <msubsup> <mi>u</mi> <mi>j</mi> <mi>X</mi> </msubsup> <mo>*</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>u</mi> <mi>j</mi> <mi>Y</mi> </msubsup> <mo>*</mo> <mi>a</mi> </mrow>
其中,a是预设系数,且0<=a<=1。
8.根据权利要求5所述的唱歌模仿的装置,其特征在于,所述转换模块还用于调整转换后的频谱包络系数,将待转换的源演唱者的频谱包络系数、转换后的频谱包络系数按比例混合,公式为:
P1=P0*(1-b)+P1*b
其中,P1为转换后的频谱包络系数,P0为待转换的源演唱者的频谱包络系数,b是预设系数,且0<=b<=1。
CN201410839900.5A 2014-12-30 2014-12-30 一种唱歌模仿的方法与装置 Active CN104464725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410839900.5A CN104464725B (zh) 2014-12-30 2014-12-30 一种唱歌模仿的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410839900.5A CN104464725B (zh) 2014-12-30 2014-12-30 一种唱歌模仿的方法与装置

Publications (2)

Publication Number Publication Date
CN104464725A CN104464725A (zh) 2015-03-25
CN104464725B true CN104464725B (zh) 2017-09-05

Family

ID=52910676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410839900.5A Active CN104464725B (zh) 2014-12-30 2014-12-30 一种唱歌模仿的方法与装置

Country Status (1)

Country Link
CN (1) CN104464725B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106571145A (zh) * 2015-10-08 2017-04-19 重庆邮电大学 一种语音模仿方法和装置
CN107800879A (zh) * 2017-10-23 2018-03-13 努比亚技术有限公司 一种音频调整方法、终端及计算机可读存储介质
CN107863095A (zh) 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
CN108156561B (zh) 2017-12-26 2020-08-04 广州酷狗计算机科技有限公司 音频信号的处理方法、装置及终端
CN108156575B (zh) 2017-12-26 2019-09-27 广州酷狗计算机科技有限公司 音频信号的处理方法、装置及终端
CN108460390A (zh) * 2018-02-27 2018-08-28 北京中晟信达科技有限公司 一种基于特征学习的敏感图像识别方法
CN109036457B (zh) 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
CN109147757B (zh) * 2018-09-11 2021-07-02 广州酷狗计算机科技有限公司 歌声合成方法及装置
CN111583894B (zh) * 2020-04-29 2023-08-29 长沙市回音科技有限公司 一种实时修正音色的方法、装置、终端设备及计算机存储介质
CN114120943B (zh) * 2021-11-22 2023-07-04 腾讯科技(深圳)有限公司 虚拟演唱会的处理方法、装置、设备及存储介质
CN114464151B (zh) * 2022-04-12 2022-08-23 北京荣耀终端有限公司 修音方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645268A (zh) * 2009-08-19 2010-02-10 李宋 一种演唱和演奏的计算机实时分析系统
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN104183245A (zh) * 2014-09-04 2014-12-03 福建星网视易信息系统有限公司 一种演唱者音色相似的歌星推荐方法与装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399044B (zh) * 2007-09-29 2013-09-04 纽奥斯通讯有限公司 语音转换方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645268A (zh) * 2009-08-19 2010-02-10 李宋 一种演唱和演奏的计算机实时分析系统
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN104183245A (zh) * 2014-09-04 2014-12-03 福建星网视易信息系统有限公司 一种演唱者音色相似的歌星推荐方法与装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于GMM的独立建模语音转换系统研究;徐小峰;《中国优秀硕士学位论文 信息科技辑》;20110115(第01期);全文 *
汉语语音转换系统的研究;杨阳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20080815(第08期);第2、6-8、17-44页,图3.1 *

Also Published As

Publication number Publication date
CN104464725A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104464725B (zh) 一种唱歌模仿的方法与装置
CN101178896B (zh) 基于声学统计模型的单元挑选语音合成方法
CN108461079A (zh) 一种面向音色转换的歌声合成方法
CN101064104B (zh) 基于语音转换的情感语音生成方法
CN104240711B (zh) 用于生成自适应音频内容的方法、系统和装置
CN103186527B (zh) 建立音乐分类模型的系统、推荐音乐的系统及相应方法
CN111081259B (zh) 基于说话人扩充的语音识别模型训练方法及系统
CN103714806B (zh) 一种结合svm和增强型pcp特征的和弦识别方法
CN106971703A (zh) 一种基于hmm的歌曲合成方法及装置
CN101577117B (zh) 伴奏音乐提取方法及装置
KR20150016225A (ko) 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
Choi et al. Sequence-to-sequence emotional voice conversion with strength control
CN105957515A (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
CN109326280A (zh) 一种歌唱合成方法及装置、电子设备
US20230402047A1 (en) Audio processing method and apparatus, electronic device, and computer-readable storage medium
CN110047501A (zh) 基于beta-VAE的多对多语音转换方法
CN112562728A (zh) 生成对抗网络训练方法、音频风格迁移方法及装置
CN110189766A (zh) 一种基于神经网络的语音风格转移方法
CN104392717A (zh) 一种基于声道谱高斯混合建模的快速语音转换系统及其方法
WO2019218773A1 (zh) 语音的合成方法及装置、存储介质、电子装置
Zhang et al. Automatic synthesis technology of music teaching melodies based on recurrent neural network
CN101178895A (zh) 基于生成参数听感误差最小化的模型自适应方法
CN203038659U (zh) 一种可任意调节的语音自然变声装置
Kızrak et al. Classification of classic Turkish music makams

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20151028

Address after: 350018 Fujian city of Fuzhou province Nanjiang gate town of Cangshan District West Coast Road No. 198 Fuzhou Strait International Convention and Exhibition Center basement East Office Center No. A-029 (FTA test area)

Applicant after: FUJIAN KAIMI NETWORK SCIENCE & TECHNOLOGY CO., LTD.

Address before: Cangshan District of Fuzhou City, Fujian province 350028 Jinshan Road No. 618 juyuanzhou Industrial Zone Ruijie Science Park building 20, four floor

Applicant before: Fujian Starnet e-Video Information System Co., Ltd.

GR01 Patent grant
GR01 Patent grant