发明内容
为此,需要提供一种唱歌模仿的方法,解决对源演唱者音色进行转换以模仿目标演唱者音色演唱的问题。
为实现上述目的,发明人提供了一种唱歌模仿的方法,用于将源演唱者的声音转换为具有目标演唱者音色的声音,该方法包括训练阶段和转换阶段,其中:
所述训练阶段包括:
利用STRAIGHT模型对源演唱者和目标演唱者对应的音频素材分别计算基频序列值以及频谱包络系数,根据源演唱者的频谱包络系数提取源演唱者的LSF系数,根据目标演唱者的频谱包络系数提取目标演唱者的LSF系数;利用DTW算法对齐并组合源演唱者和目标演唱者的LSF系数;将组合的LSF系数进行GMM训练得到源演唱者与目标演唱者的联合GMM模型,根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数;使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数;
所述转换阶段包括:
利用STRAIGHT模型对待转换的源演唱者的音频素材计算基频序列值以及频谱包络系数,并根据所述频谱包络系数提取待转换的源演唱者的LSF系数;根据特征映射函数,对待转换的源演唱者的LSF系数进行转换,根据基频映射函数,对待转换的源演唱者的基频序列值进行转换;根据转换后的LSF系数计算得到转换后的频谱包络系数;根据转换后的频谱包络系数与转换后的基频序列值,利用STRAIGHT模型重建得到具有目标演唱者音色的声音。
进一步的,所述“根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数”,具体为:
联合GMM:λ=(Q,α,μ,Σ),其联合特征空间的分布为:
是由μ和Σ分解得到:
Q为高斯混合数,为源演唱者和目标演唱者第i个高斯分量的均值向量;为源演唱者第i个高斯分量的方差矩阵,为源演唱者和目标演唱者第i个高斯分量的协方差矩阵,pi(Xt)为特征矢量Xt属于GMM第i个高斯分量的概率;
对于当前语音帧Xt,计算Q个pi(Xt)(1≤i≤Q),按降序排列;
计算概率最大值所对应的高斯分量:
对于当前语音帧的下一帧Xt+1,同样计算概率最大值所对应的高斯分量:接着,用下一帧语音参数来确定当前语音帧的第二转换分量函数:
若i==j,则转换函数为:
若i≠j,则转换函数为:
进一步的,所述“使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数”,具体为:分别计算源演唱者的基频序列值与目标演唱者的基频序列值的均值与方差,源演唱者到目标演唱者的基频映射函数为:
其中,fx为源演唱者的基频序列值,和分别为源演唱者与目标演唱者的基频序列值的均值,与分别为源演唱者与目标演唱者的基频序列值的方差。
进一步的,所述“根据特征映射函数,对待转换的源演唱者的LSF系数进行转换”之前,还包括步骤:调整转换函数中的均值与将源演唱者、目标演唱者的模型均值按比例混合,公式为:
其中,a是预设系数,且0<=a<=1。
进一步的,所述“根据转换后的LSF系数计算得到转换后的频谱包络系数”之后,还包括步骤:调整转换后的频谱包络系数,将待转换的源演唱者的频谱包络系数、转换后的频谱包络系数按比例混合,公式为:
P1=P0*(1-b)+P1*b
其中,P1为转换后的频谱包络系数,P0为待转换的源演唱者的频谱包络系数,b是预设系数,且0<=b<=1。
本发明还提供一种唱歌模仿的装置,用于将源演唱者的声音转换为具有目标演唱者音色的声音,包括特征提取模块、训练模块、转换模块和重建模块:
所述特征提取模块用于利用STRAIGHT模型对源演唱者和目标演唱者对应的音频素材分别计算基频序列值以及频谱包络系数,根据源演唱者的频谱包络系数提取源演唱者的LSF系数,根据目标演唱者的频谱包络系数提取目标演唱者的LSF系数;所述训练模块用于利用DTW算法对齐并组合源演唱者和目标演唱者的LSF系数;将组合的LSF系数进行GMM训练得到源演唱者与目标演唱者的联合GMM模型,根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数;使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数;
所述特征提取模块还用于利用STRAIGHT模型对待转换的源演唱者的音频素材计算基频序列值以及频谱包络系数,并根据所述频谱包络系数提取待转换的源演唱者的LSF系数;所述转换模块用于根据特征映射函数,对待转换的源演唱者的LSF系数进行转换,根据基频映射函数,对待转换的源演唱者的基频序列值进行转换,根据转换后的LSF系数计算得到转换后的频谱包络系数;所述重建模块用于根据转换后的频谱包络系数与转换后的基频序列值,利用STRAIGHT模型重建得到具有目标演唱者音色的声音。
进一步的,所述训练模块“根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数”,具体为:
联合GMM:λ=(Q,α,μ,Σ),其联合特征空间的分布为:
是由μ和Σ分解得到:
Q为高斯混合数,为源演唱者和目标演唱者第i个高斯分量的均值向量;为源演唱者第i个高斯分量的方差矩阵,为源演唱者和目标演唱者第i个高斯分量的协方差矩阵,pi(Xt)为特征矢量Xt属于GMM第i个高斯分量的概率;
对于当前语音帧Xt,计算Q个pi(Xt)(1≤i≤Q),按降序排列;
计算概率最大值所对应的高斯分量:
对于当前语音帧的下一帧Xt+1,同样计算概率最大值所对应的高斯分量:接着,用下一帧语音参数来确定当前语音帧的第二转换分量函数:
若i==j,则转换函数为:
若i≠j,则转换函数为:
进一步的,所述训练模块“使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数”,具体为:分别计算源演唱者的基频序列值与目标演唱者的基频序列值的均值与方差,源演唱者到目标演唱者的基频映射函数为:
其中,fx为源演唱者的基频序列值,和分别为源演唱者与目标演唱者的基频序列值的均值,与分别为源演唱者与目标演唱者的基频序列值的方差。
进一步的,所述转换模块还用于调整转换函数中的均值与将源演唱者、目标演唱者的模型均值按比例混合,公式为:
其中,a是预设系数,且0<=a<=1。
进一步的,所述转换模块还用于调整转换后的频谱包络系数,将待转换的源演唱者的频谱包络系数、转换后的频谱包络系数按比例混合,公式为:
P1=P0*(1-b)+P1*b
其中,P1为转换后的频谱包络系数,P0为待转换的源演唱者的频谱包络系数,b是预设系数,且0<=b<=1。
本发明的优点在于:
1、本发明首次提出一种唱歌模仿的方法与装置,可以将源演唱者的声音转换为具有目标演唱者音色的声音。
2、本发明在进行音色转换时,创新性地使用基于帧间关联的高斯转换函数,可改善传统高斯转换函数转换后谱包络过平滑的问题,并且计算速度快,转换音质良好。
3、本发明首次提出将源演唱者与目标演唱者的音色按比例混合的方法,特别地,当目标演唱者是歌星时,可以极大地提高数字视听场所用户演唱的自信心以及趣味性,并提高用户模仿歌星音色的水平。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
本发明第一实施方式所述的一种唱歌模仿的方法,用于将源演唱者的声音转换为具有目标演唱者音色的声音。该方法包括训练阶段和转换阶段,其中:
所述训练阶段,请参阅图1,包括步骤S101-S105:
S101、利用STRAIGHT模型对源演唱者和目标演唱者对应的音频素材分别计算基频序列值以及频谱包络系数;
自适应加权谱内插(STRAIGHT)是一种高质量的语音合成器,该合成器能够有效实现语音声源与滤波器的分离,将语音信号分解成基频和去除基频影响的频谱包络两部分。STRAIGHT模型与其他的语音模型相比,在语音分析和合成时能获得更高的语音质量。
S102、根据源演唱者的频谱包络系数提取源演唱者的LSF系数,根据目标演唱者的频谱包络系数提取目标演唱者的LSF系数;
本实施方式中,LSF系数维数取为20。所述LSF参数与其他特征参数如MFCC相比,能够更好的反映声道幅度谱的特点,并且具有良好的插值和量化特性。
S103、利用DTW算法对齐并组合源演唱者和目标演唱者的LSF系数,并将对应帧组合得到源演唱者和目标演唱者的联合LSF系数Z=[X Y];
S104、将组合的LSF系数进行GMM训练得到源演唱者与目标演唱者的联合GMM模型:λ=(Q,α,μ,Σ);
S105、根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数;使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数。
传统的方法是通过求解联合高斯分布的条件期望得到特征映射函数,转换函数如下:
其中:
是由μ和Σ分解得到:
Q为高斯混合数,为源演唱者和原来目标演唱者第i个高斯分量的均值向量;为源演唱者第i个高斯分量的方差矩阵,为源演唱者和目标演唱者第i个高斯分量的协方差矩阵,pi(Xt)为特征矢量Xt属于GMM第i个高斯分量的概率。
用传统的全转换函数进行转换,可能使谱包络变得过平滑,转换后的声音有压抑的感觉,并且Q通常取到128以上,导致转换函数计算量增大。本实施方式采用部分转换分量函数的加权和作为新的转换函数,通过引入了帧间关联,不仅能提高音色转换速度,而且对转换后的声音质量也有一定提高。具体步骤如下:
对于当前语音帧Xt,计算Q个pi(Xt)(1≤i≤Q),按降序排列;
计算概率最大值所对应的高斯分量:
对于当前语音帧的下一帧Xt+1,同样计算概率最大值所对应的高斯分量:为了保证语音转换的连续性,用下一帧语音参数来确定当前语音帧的第二转换分量函数:
若i==j,则转换函数为:
若i≠j,则转换函数为:
所述使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数具体为:
分别计算源演唱者的基频序列值与目标演唱者的基频序列值的均值与方差,源演唱者到目标演唱者的基频映射函数为:
其中,fx为源演唱者的基频序列值,和分别为源演唱者与目标演唱者的基频序列值的均值,与分别为源演唱者与目标演唱者的基频序列值的方差。
所述转换阶段请参阅图2,包括步骤S201-S205:
S201、利用STRAIGHT模型对待转换的源演唱者的音频素材计算基频序列值以及频谱包络系数;
S202、根据所述频谱包络系数提取待转换的源演唱者的LSF系数,本实施方式中LSF系数的维数取为20;
S203、根据特征映射函数,对待转换的源演唱者的LSF系数进行转换,根据基频映射函数,对待转换的源演唱者的基频序列值进行转换;
S204、根据转换后的LSF系数计算得到转换后的频谱包络系数;
S205、根据转换后的频谱包络系数与转换后的基频序列值,利用STRAIGHT模型重建得到具有目标演唱者音色的声音。
通过上述步骤可实现将源演唱者的声音转换为具有目标演唱者音色的声音,为了进一步提高演唱者演唱的乐趣,本发明还提出将源演唱者音色与目标演唱者音色按比例混合的方法,包括如下两个实例:
在一个实施例中,包括第一实施方式中的所有步骤,并且在步骤S202“对待转换的源演唱者的LSF系数进行转换”之前,增加步骤:调整转换函数中的均值与将源演唱者、目标演唱者的模型均值按比例混合,公式为:
其中,a是预设系数,且0<=a<=1,可根据实际需要调整,当a<0.5时,演唱音色占主要部分,当a>0.5时,目标演唱者音色占主要部分,从而实现源演唱者音色特征与目标演唱者音色特征的按比例混合。
在另一个实施例中,包括第一实施方式中的所有步骤,并且在步骤S204“根据转换后的LSF系数计算得到转换后的频谱包络系数”之后,增加步骤:调整转换后的频谱包络系数,将待转换的源演唱者的频谱包络系数、转换后的频谱包络系数按比例混合,公式为:
P1=P0*(1-b)+P1*b
其中,P1为转换后的频谱包络系数,P0为待转换的源演唱者的频谱包络系数,b是预设系数,且0<=b<=1,可根据实际需要调整,当b<0.5时,演唱音色占主要部分,当b>0.5时,目标演唱者音色占主要部分,从而实现源演唱者音色特征与目标演唱者音色特征的按比例混合。
通过以上方法,可以将源演唱者的声音转换为具有目标演唱者音色的声音,转换音质良好,音色接近目标演唱者,并且可以按比例加入目标演唱者的音色特征;特别地,当目标演唱者是歌星时,可以极大地提高数字视听场所用户演唱的自信心以及趣味性,并提高用户模仿歌星音色的水平。
如图3所示,本发明在另一实施方式中还提供一种唱歌模仿的装置,用于将源演唱者的声音转换为具有目标演唱者音色的声音,包括特征提取模块31、训练模块32、转换模块33和重建模块34:
所述特征提取模块31用于利用STRAIGHT模型对源演唱者和目标演唱者对应的音频素材分别计算基频序列值以及频谱包络系数。
自适应加权谱内插(STRAIGHT)是一种高质量的语音合成器,该合成器能够有效实现语音声源与滤波器的分离,将语音信号分解成基频和去除基频影响的频谱包络两部分。STRAIGHT模型与其他的语音模型相比,在语音分析和合成时能获得更高的语音质量。
所述特征提取模块31还用于根据源演唱者的频谱包络系数提取源演唱者的LSF系数,根据目标演唱者的频谱包络系数提取目标演唱者的LSF系数,本实施方式中LSF系数的维数取为20。
所述LSF参数与其他特征参数如MFCC相比,能够更好的反映声道幅度谱的特点,并且具有良好的插值和量化特性。
所述训练模块32用于利用DTW算法对齐并组合源演唱者和目标演唱者的LSF系数,并将对应帧组合得到源演唱者和目标演唱者的联合LSF系数Z=[XY];将组合的LSF系数进行GMM训练得到源演唱者与目标演唱者的联合GMM模型:λ=(Q,α,μ,Σ)。
所述训练模块32还用于,根据联合GMM模型均值与方差,并引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数;使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数。
联合GMM:λ=(Q,α,μ,Σ),其联合特征空间的分布为:
是由μ和Σ分解得到:
Q为高斯混合数,为源演唱者和目标演唱者第i个高斯分量的均值向量;为源演唱者第i个高斯分量的方差矩阵,为源演唱者和目标演唱者第i个高斯分量的协方差矩阵,pi(Xt)为特征矢量Xt属于GMM第i个高斯分量的概率;
所述“引入帧间关联,推导出源演唱者到目标演唱者的特征映射函数”具体为:
对于当前语音帧Xt,计算Q个pi(Xt)(1≤i≤Q),按降序排列;
计算概率最大值所对应的高斯分量:
对于当前语音帧的下一帧Xt+1,同样计算概率最大值所对应的高斯分量:为了保证语音转换的连续性,用下一帧语音参数来确定当前语音帧的第二转换分量函数:
若i==j,则转换函数为:
若i≠j,则转换函数为:
所述“使用单高斯模型推导出源演唱者到目标演唱者的基频映射函数”具体为:
分别计算源演唱者的基频序列值与目标演唱者的基频序列值的均值与方差,源演唱者到目标演唱者的基频映射函数为:
其中,fx为源演唱者的基频序列值,和分别为源演唱者与目标演唱者的基频序列值的均值,与分别为源演唱者与目标演唱者的基频序列值的方差。
所述特征提取模块31还用于利用STRAIGHT模型对待转换的源演唱者的音频素材计算基频序列值以及频谱包络系数;并根据所述频谱包络系数提取待转换的源演唱者的LSF系数,本实施方式中LSF系数的维数取为20。
所述转换模块33用于根据特征映射函数,对待转换的源演唱者的LSF系数进行转换,根据基频映射函数,对待转换的源演唱者的基频序列值进行转换;并根据转换后的LSF系数计算得到转换后的频谱包络系数。
所述重建模块34用于根据转换后的频谱包络系数与转换后的基频序列值,利用STRAIGHT模型重建得到具有目标演唱者音色的声音。
所述转换模块33还用于在“对待转换的源演唱者的LSF系数进行转换”之前,调整转换函数中的均值与将源演唱者、目标演唱者的模型均值按比例混合,公式为:
其中,a是预设系数,且0<=a<=1,可根据实际需要调整,当a<0.5时,演唱音色占主要部分,当a>0.5时,目标演唱者音色占主要部分,从而实现源演唱者音色特征与目标演唱者音色特征的按比例混合。
所述转换模块33还用于在“根据转换后的LSF系数计算得到转换后的频谱包络系数”之后,调整转换后的频谱包络系数,将待转换的源演唱者的频谱包络系数、转换后的频谱包络系数按比例混合,公式为:
P1=P0*(1-b)+P1*b
其中,P1为转换后的频谱包络系数,P0为待转换的源演唱者的频谱包络系数,b是预设系数,且0<=b<=1,可根据实际需要调整,当b<0.5时,演唱音色占主要部分,当b>0.5时,目标演唱者音色占主要部分,从而实现源演唱者音色特征与目标演唱者音色特征的按比例混合。
通过以上装置,可以将源演唱者的声音转换为具有目标演唱者音色的声音,转换音质良好,音色接近目标演唱者,并且可以按比例加入目标演唱者的音色特征;特别地,当目标演唱者是歌星时,可以极大地提高数字视听场所用户演唱的自信心以及趣味性,并提高用户模仿歌星音色的水平。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。