CN104272382A

CN104272382A - 基于模板的个性化歌唱合成的方法和系统

Info

Publication number: CN104272382A
Application number: CN201380022658.6A
Authority: CN
Inventors: 李肇华; 岑玲; 李海州; 陈耀柱; 董明会
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2012-03-06
Filing date: 2013-03-06
Publication date: 2015-01-07
Anticipated expiration: 2033-03-06
Also published as: CN104272382B; WO2013133768A1; US20150025892A1

Abstract

本发明提供了用于说话至歌唱合成的系统和方法。该方法包括获得第一个人的歌唱声音的特征以及响应于第一个人的歌唱声音的特征来修改第二个人的声音的声音特征，从而生成第二个人的合成歌唱声音。在一个实施方式中，该方法包括响应于第一个人的说话声音和歌唱声音获得第一说话特征和第一歌唱特征的模板以及从第二个人的说话声音提取第二说话特征，然后，根据模板修改第二说话特征来生成第二个人的近似歌唱声音，并响应于第一说话特征、第一歌唱特征以及第二说话特征来对齐第二个人的近似歌唱声音的声学特征，从而生成第二个人的合成歌唱声音。

Description

基于模板的个性化歌唱合成的方法和系统

优先权声明

本发明申请要求于2012年3月6日提交的第201201581-4号新加坡专利申请的优先权。

技术领域

本发明大体涉及声音合成，更具体地涉及用于基于模板的个性化歌唱合成的系统和方法。

技术背景

从二十世纪60年代在计算机中利用线性预测编码(LPC)来合成歌唱声音到现在的合成技术，基于计算机的音乐技术对娱乐行业的直接影响不断增加。例如，歌唱声音合成技术(诸如从歌词的说话声音合成歌唱声音)在娱乐行业中有许多应用。通过说话至歌唱转化的歌唱合成的优点是易于保留声音的音色。因此，易于实现较高的歌唱声音质量并可生成个性化的歌唱。然而，最大的难点之一是很难在合成歌唱声音时从乐谱中生成自然的旋律。

根据在歌唱生成中使用的参照资源，歌唱声音合成可分为两类。在第一类中，歌唱声音由歌词合成，被称为歌词至歌唱合成(LTS)。第二类中的歌唱声音由歌词的口语表达生成。该类被称为说话至歌唱(STS)合成。

在LTS合成中，大多使用基于语料库的方法，诸如波拼接合成和隐式马尔可夫模型(HMM)合成。这比使用诸如声道物理模型以及基于共振峰的合成方法的传统系统更实用。

与LTS合成相比，STS合成受到的关注少得多。然而，STS合成可使用户能够仅通过阅读歌词就生成并聆听他/她的歌唱声音。例如，STS合成可通过改正不完美部分修改非专业歌手的歌唱来改进他/她的声音质量。因为合成的歌唱保留了说话者的音色，所以合成的歌唱听起来就像由说话者所唱，使得可为较差的歌唱者生成具有专业质量的歌唱声音。

然而，现在的STS系统很复杂和/或难以由终端用户实现。在一个常规方法中，歌唱声音通过手动修改F₀轮廓、音素持续时间以及说话说话声音的频谱来生成。在提出的另一STS系统中，不仅基于来自歌曲的乐谱的信息，而且基于歌曲的节奏来自动控制和修改F₀轮廓、音素持续时间和频谱。用于合成汉语歌唱声音的系统也已经被提出，然而该系统不仅需要输入歌词以及汉语发音，而且需要输入乐谱。合成歌唱声音的基频轮廓从音乐的音高生成，并且持续时间使用分段线性函数进行控制以生成歌唱声音。

因此，需要一种用于说话至歌唱合成的系统和方法，该系统和方法降低了合成复杂度并简化了由终端用户进行的操作。另外，通过以下详细描述和所附的权利要求，结合附图以及本公开的背景，其他期待的特征和特性将变得显而易见。

发明内容

根据具体实施方式，提供了用于说话至歌唱合成的方法。该方法包括获得第一个人的歌唱声音的特征以及响应于第一个人的歌唱声音的特征修改第二个人的声音的声音特征以生成第二个人的合成歌唱声音。

根据另一方面，提供了用于说话至歌唱合成的方法。该方法包括响应于第一个人的说话声音和歌唱声音获得第一说话特征模板和第一歌唱特征，并从第二个人的说话声音提取第二说话特征。该方法还包括根据模板修改第二说话特征以生成第二个人的近似歌唱的声音，并响应于第一说话特征、第一歌唱特征和第二说话特征对齐第二个人的近似歌唱声音的声学特征，从而生成第二个人的合成歌唱声音。

根据另一方面，提供了用于说话至歌唱合成的方法。该方法包括从第一个人的歌唱声音提取音高轮廓信息和对齐信息，并从第二个人的说话声音提取对齐信息和频谱参数序列。该方法还包括从第一个人歌唱声音的对齐信号以及第二个人的说话声音的对齐信号生成对齐信息，并响应于对齐信息转换来自第二个人的说话声音的转换频谱参数序列，从而生成转换的频谱参数序列。最后，该方法包括响应于转换的频谱参数序列以及第一个人的歌唱声音的音高轮廓信息合成第二个人的歌唱声音。

附图说明

附图和以下详细描述一起纳入本说明书并构成本说明书的一部分，用于示出各种实施方式并根据本实施方式解释各种原理和优点，其中，在附图中，在全部单独视图中，相同的附图标号表示相同或功能相近的元素。

图1示出了根据实施方式的用于基于模板的说话至歌唱合成的方法的整体的流程图。

图2示出了根据本实施方式的用于使图1的方法能够进行的基于模板的说话至歌唱合成系统的框图。

图3示出了根据本实施方式的图2的基于模板的说话至歌唱合成系统的对齐过程的第一变体的框图。

图4示出了根据本实施方式的图2的基于模板的说话至歌唱合成系统的对齐过程的第二变体的框图。

图5示出了根据本实施方式的图2的基于模板的说话至歌唱合成系统的对齐过程的第三变体的框图。

图6示出了根据本实施方式的图2的基于模板的说话至歌唱合成系统的更完整的框图。

图7示出了根据本实施方式的图2的基于模板的说话至歌唱合成系统的过程框图。

图8包括图8A和8B，示出了声音图案以及在时间弯曲矩阵中声音图案的组合，其中图8A组合了模板说话声音与模板歌唱声音以获得时间弯曲矩阵，图8B组合了新说话声音与模板说话声音以获得时间弯曲矩阵。

图9示出了一套预定音素的修改的持续时间，其中，上部图示出了模板歌唱声音的频谱，中间图示出了转换的说话声音的频谱，下部图示出了转换的歌唱声音的频谱。

本领域技术人员应该理解的是，附图中的元素仅仅为了简单明了而示出，而且不一定按比例示出。例如，为了有助于提高对本该实施方式的理解，框图和流程图中的一些元素的尺寸可能相对于其他部件可进行夸大。从而。

具体实施方式

以下详细描述本质上只是示例，并不旨在限制本发明或者本发明的应用和使用。另外，并不受前面本发明背景描述中的任何理论以及后面具体描述的限制。本发明的目的是提供基于模板的说话至歌唱(STS)的转化系统，其中，该系统中使用来自于个人(诸如专业歌手)的模板歌唱声音以从另一人的说话声音合成歌唱声音。

不同于以往基于歌曲乐谱估计用于合成歌唱声音的声学特征的技术，根据本实施方式的操作仅从读歌词的声音生成歌唱声音。使用说话者的音质同时采用专业声音的旋律，可将用户的说话声音转化为歌唱。以这种方法，从阅读歌词的声音生成歌唱声音。基于通过分析和制模来自于同一个人的说话声音和歌唱声音确定的说话声音与歌唱声音的差异修改声学特征。因此，有利地不需要将歌曲乐谱作为输入，从而降低了系统操作的复杂度，从而，对终端用户更简单。另外，在无需修改代表F₀震动(诸如过冲和颤音)的步轮廓条件下，从实际的歌唱声音中获得自然的音高轮廓。这可以潜在的提高合成歌唱声音的自然性和质量。同样，通过自动的对齐歌唱声音和说话声音，无需为说话声音执行手动的分段，从而使得能够实现真正的自动STS系统。

因此，根据本实施方式，基于模板的STS系统通过在预录制的模板声音的帮助下自动修改说话声音的声学特征将说话声音转换为歌唱声音。参照图1，整个系统100可以分解为三个阶段：学习阶段102、转化阶段104以及合成阶段106。

在学习阶段102，对模板歌唱声音110和模板说话声音112进行分析以提取Mel频率倒谱系数(MFCC)114、短时能量(未示出)、语音和非语音(VUV)信息116、基频(F₀)轮廓118以及频谱(未示出。在歌唱声音和说话声音的对齐120中，MFCC114、能量和VUV116被用做声学特征，以调节它们在时间上的差异并实现它们之间的最佳映射。根据本实施方式，动态时间规整(DTW)用于对齐120。然后，基于获得的同步信息(即，同步索引128)提取用于F₀轮廓118(即，F₀建模112)的转换模型和音素持续时间(包括持续时间模型124和频谱模型126)。

在转换阶段104，为新说话声音130提取特征，该新说话声音通常由与模板说话者的不同的人发出。这些特征为MFCC、短时能量、VUV信息、F₀轮廓以及频谱。这些特征进行修改(即，F₀修改132、音素持续时间修改134和频谱修改136)以基于转换模型使其接近歌唱声音的特征，从而生成F₀轮廓140、VUV信息142、非周期(AP)索引144以及频谱信息146。

在这些特征被修改之后，歌唱声音在最后阶段106中进行合成150。为了增强音乐效果，可将伴奏曲和混响效果添加152至合成的歌唱。在我们的实施中，使用高质量的语音分析STRAIGHT来进行说话声音和歌唱声音的分析以及歌唱声音的合成，其中，STRAIGHT是典型信道VOCODER的延伸。

可以肯定的是，在歌唱声音中每个音素的持续时间和进入点都会与说话声音中的音素的持续时间和进入点不同。在获得转换模型122、124、126并进行声学特征转化104之前，对两个声音110、112进行对齐120。合成歌唱声音的质量在很大程度上依赖这些对齐结果的精确度。根据本实施方式，在对齐120使用采用使用多声学特征的基于DTW的两步对齐方法。

在对齐120之前，从待对齐信号中去除静默。该静默基于能量和频谱距心进行检测，并且根据本实施方式去除静默提高了对齐的精确度。然后，将MFCC114、短时能量(未示出)以及语音/非语音区域116作为声学特征进行提取，从而得获得对齐的数据。MFCC114是在自动语音识别(ASR)中使用的流行特征，并且MFCC在Mel倒谱范围内计算短时能量谱真实算法的余弦变换。因为歌唱声音110和说话112中都发出了具有相等音高的相同歌词发出，所以语音和非语音区域116可为对齐120提供有用的信息，因此，在对齐120之前提取语音和非语音区域116作为特征。

除了原始特征114、116，还计算了这些特征114、116的三角洲(Delta)和加速度(Delta-Delta)。在特征114、116上执行帧级和参数级的归一化以减少不同帧和不同参数间的声学的变化。归一化通过减去特征114、116的平均值并除以特征114、116的标准差来执行归一化。

在对齐120过程中，使用DTW使不同信号的声学特征彼此对齐。DTW算法测量在时间上或速度上变化的两个序列的相似度，旨在找到这两个序列之间的最佳匹配。使用如下余弦距离来测量两个信号声学特征的相似度：

s = \frac{x_{i} \cdot y_{j}}{| | x_{i} | | \cdot | | y_{j} | |}

其中，s是相似度矩阵，x_i和y_j分别为两个信号中第i帧和第j帧的特征向量。

实施两步骤对齐以提高待转换的新说话声音话语式与由不同的说话者演唱的模板歌唱声音对齐的精确度。对齐120为第一步，对齐来自同一个讲话者的模板歌唱声音110与模板说话声音112。然后，使用来自对齐120的对齐数据来获得歌唱与语之间的声学特征的映射模型124、126。

执行第二对齐步骤(未在图1中示出)以对齐模板说话声音112与新说话声音130。一起使用从该对齐数据提取的同步信息以及从对齐120模板说话声音获得的同步信息来找出模板歌唱110与新说话声音130之间的最佳映射。

在通过对齐120实现歌唱声音和说话声音的映射之后，基于模板声音获得转换模型124、126。然后，对新说话声音130的声学特征进行修改132、134、136以获得合成歌唱的特征。在转换104之前，如果待转换的声学特征的长度与对齐中使用短时特征的长度不同，那么在待转换的声学特征上进行插值和平滑处理。鉴于精确度和计算量，模板说话声音被分成几段并且为每一段分别训练转换模型。当使用被训练的转换模型将新说话声音示例转化为歌唱时，需要将新说话声音示例与模板说话声音类似地进行分段。在提出的系统中，通过从模板说话声音获得自然F₀轮廓来修改132说话声音的F₀轮廓。在这种情况下，无需修改步轮廓来为F₀抖动(如过冲和颤音)负责。具有实际歌唱的F₀轮廓的合成歌唱声音可以更自然。说话声音的音素持续时间与歌唱声音的音素持续时间不同，并且，应在音素持续时间修改134中根据歌唱声音的转换104过程中进行加长或缩短。

不同于传统的STS系统，不需要将乐谱作为输入来获得歌唱中每个音素的持续时间，并且，也无需在转化之前为说话声音的每个音素执行手动分段。相反，使用来自对齐模板说话声音与转换的说话声音的同步信息来确定音素持续时间的修改134。说话声音中每个音素的持续时间都被修改成与模板歌唱声音的音素持续时间相等。为实施这一点，根据音素持续时间的转换模型压缩或延长VUV、频谱包络以及使用声码器(如STRAIGHT)估计的非周期(AP)索引。

参照图2，示出了根据本实施方式的基于模板的个性化歌唱合成系统的简化图200。首先，响应于第一个人的说话声音和歌唱声音获得歌唱声音的说话特征和歌唱特征的模板202。从模板歌唱声音202提取音高轮廓信息206和对齐信息208，其中，音高轮廓信息206通过分析209提取。同样，从第二个人的说话声音204提取对齐信息210和频谱参数序列信息212，其中，频谱参数序列信息212通过分析213提取。对第二个人的说话声音204的对齐信息210以及模板歌唱声音202的对齐信息208执行对齐214，以建立两个不同序列中相同声音的段之间的时间映射。对齐214生成对齐信息215，对齐信息215在计时处理216过程中被用来改变输入说话声音信号的计时，以使得生成的信号中每个小片(即，来源于响应于计时处理216中的对齐信息转换频谱序列212的转换的频谱参数序列218)都具有与模板歌唱声音202中的信号相同的计时。

歌唱声音202的分析209的主要目的是提取歌唱声音202的音高轮廓206，以便从专业声音提取歌曲旋律。说话声音204的分析213的目的是从说话声音204中提取频谱参数序列212，从而为合成220捕获说话声音204的音色。

根据本发明，计时处理216从对齐214中获取对齐信息215，并使用对齐信息215来转换频谱序列212，以重新生成目标歌唱声音的转换的频谱参数序列218。与说话声音204相比较，一些声音段被延伸至更长，而一些片段被压缩得更短。在转换的频谱参数序列218中，每个声音段的都与模板歌唱声音202中与其相应的部分相匹配。然后，合成器220使用转换的频谱参数序列218以及来自模板歌唱声音202的音高轮廓206来合成个性化的歌唱声音222。

在图3、4和5所示的三个变体中之一中，可根据本实施方式实施对齐处理214。参照图3，对齐处理214的第一变体直接根据动态时间规整(DTW)方法302来对齐对齐信息208和210。特征提取304从模板歌唱声音202提取对齐信息208。类似地，特征提取306从输入说话声音204提取对齐信息210。DTW302通过动态时间规整302对齐信息208、210来生成对齐信息215。

参照图4，对齐方法214的第二变体使用模板说话声音402作为参照进行对齐。当比较模板歌唱声音202和输入说话声音204时，两个主要因素确定信号的差异。一个主要因素是讲话者的标识(两个不同讲话者)，另一主要因素是信号的类型(说话和歌唱)。为了降低匹配的难度并提高对齐214的精确度，可以引入由歌唱者(即，生成模板歌唱声音202的相同个人)生成的模板说话声音402。。

特征提取304从模板歌唱声音202提取对齐信息208。类似于特征提取304和特征提取306，特征提取404从模板说话声音402提取对齐信息406。然后，执行两步骤DTW。首先，通过对齐信息208和对齐信息406的DTW408使模板歌唱声音202与模板说话声音402相匹配。因为两个声音202、402来自同一讲话者，所以两个信号的频谱类似，其中，主要差异在时间和音高上。因此，对齐两个信号208、406比对齐信号208、210(图3)更容易。然后，输入说话声音204和模板说话声音402的对齐信息406、210通过DTW组合。由于两个信号406和210都是口语信号，所以唯一的差异是由于讲话者的不同导致的音质差异，从而还促进通过DTW410进行两个信号406、210的对齐。在对齐412，组合来自DTW 408、410的两个对齐信息，从而生成输入说话声音204与模板歌唱声音202之间的对齐信息215。

根据本实施方式以及对齐214的该第二变体，分析模板歌唱202和模板说话声音402以提取Mel倒频相关系数(MFCC)、短时能量、语音和非语音(VUV)信息、F₀轮廓和频谱，Mel倒频相关系数(MFCC)、短时能量、语音和非语音(VUV)信息、F₀轮廓和频谱在外行术语中为音高、时间和频谱。然后，基于获得的信息导出F₀122的转换模型(图1)。对于个性化的说话至歌唱合成，为个人的说话声音204提取特征，并基于导出的转换模型122、124、126(图1)修改这些特征，从而近似于歌唱声音的特征。

动态时间规整(DTW)算法用于对齐为模板歌唱声音202和说话声音204抽取的声学特征以及为个人的说话声音204抽取的声学特征。执行两步对齐来对齐说话声音和歌唱声音。首先，对齐408来自于同一人的模板歌唱声音202和说话声音402，并且对齐数据被用于导出歌唱与说话之间的声学特征的映射模型124、126(图1)。然后，使模板说话声音402和新说话声音204对齐410，并且使用从该对齐数据连同从对齐模板声音获得的对齐数据导出的同步信息找到模板歌唱和新说话声音之间的最佳映射。以这种方式，可从提取的新的个人的说话声音的音高、时间和频谱中获得该个人的歌唱声音的合成220(图2)，其中，保持说话声音的频谱，但音高和时间被来自歌唱声音的音高和时间替代。

参照图5，对齐方法214的第三变体为对齐使用基于隐式马尔可夫模型(HMM-based)语音识别方法。虽然DTW对于洁净信号有效，但是输入信号204中常常有噪音。基于HMM的强制对齐可提供更健壮的对齐方法。HMM使用统计方法来训练模型，其中不同变化的采样提供在嘈杂环境中比DTW更为精确的对齐结果。另外，该第三变体使用歌词文本502作为媒介，而不是歌唱个人的说话声音402(图4)。

文本到电话的转换504从歌词文本502中提取对齐信息506。然后，执行两步HMM(类似于图4的两步DTW408、410)。首先，通过对齐信息208与对齐信息506的、基于HMM的强制对齐508使模板歌唱声音202与歌词文本502相匹配。然后，通过基于HMM强制对齐510组合歌词文本502的对齐信息506、210以及输入说话声音204。在对齐512，来自HMM 508、510的两个对齐信息进行组合，由此生成输入说话声音204与模板歌唱202之间的对齐信息215。

基于模板的个性化歌唱合成方法的更完整的描述600在图6中示出。与图2相比较，主要的差异是利用图4中引入的附加模板语音402加入频谱转换处理602和音高变换处理604。

输入说话声音204(用户声音)与模板歌唱声音202的对齐214建立了两个不同序列中相同声音的段之间的时间映射。输入说话声音204的分析606、模板歌唱声音202的分析209以及模板说话声音402的分析608从每个信号204、202、402中提取频谱信息212、610、612和音高轮廓614、206、616。

模板说话声音402和模板歌唱声音202来自于同一个人。通过对比两个声音402、202的分析612、610，能够找到两个声音的频谱差异，从而训练频谱转换规则618，由此形成了用于频谱转化的规则620。

在计时处理216中，对齐信息215用于重新生成频谱序列218，以使得说话声音段与歌唱声音的段相匹配。用于频谱变换的规则620用于频谱转换602，频谱转换602变换重新生成的频谱序列218以获得用户的说话声音的转换的频谱序列622。音高变换604根据音高轮廓206、614之间的关系变换音高轮廓616，以生成变换的音高轮廓624，从而把模板歌唱声音的旋律带入到更适合用户的声音的水平。最后，合成组件626使用来自模板歌唱声的变换的音高轮廓624以及转换的频谱参数序列622来生成个性化的歌唱声音222。

虽然已经在图1、图2到图5以及图6中示出了用于个性化说话至歌唱合成的系统和方法的实施，但是本领域的技术人员会意识到有很多其他可能的实施和许多不同的方法来实施系统中的每个组件。例如，可用高质量的声码器STRAIGHT来完成语音信号分析及合成。在分析608、209、606中，F₀(音高)轮廓、频谱包络、非周期索引(AP)以及用于语音和非语音区域(VUV)的标签从歌唱信号或语音信号进行计算。以这种方式，合成626是从F₀轮廓、频谱包络和AP索引生成声音音信号的逆过程。

参照图7，示出了根据本实施方式的用于声音分析702和声音合成704的系统700。模板歌唱声音202和用户输入说话声音204二者都进行分析，并且每个信号都被转换成音高轮廓710、720、频谱包络712、722以及非周期序列714、724。然后，频谱包络722和非周期序列724进行重新排列以与模板歌唱声音信号202的频谱包络712和非周期序列714相对齐。说话声音204的音高轮廓720由歌唱202的音高轮廓710代替。最后，用来自说话声音204的时间对齐非周期728和时间对齐频谱包络726以及模板歌唱声音202的音高轮廓710生成合成的歌唱信号730。

根据本实施方式，歌唱声音中每个音素的进入点和持续时间必然与说话声音中的不同。因此，两个声音应在获得转换模型之前进行对齐。合成的歌唱声音的质量很大程度上依赖于对齐结果的精确度。

如上所述，短时倒谱特征、MFCC114(图1)作为用于获得对齐数据的声学特征进行提取。MFCC 114在Mel倒谱频率标度内计算短时能量谱的真实对数的余弦变换。另外，计算原始MFCC特征的三角洲和加速度(delta-delta)，原始MFCC特征的三角洲和加速度(delta-delta)连同语音-非语音的决策(VUV)(因为在歌唱和说话二者中都以相同音阶数发出的相同的歌词)一起都是在对齐120(图1所示)中使用的重要特征。

例如，对齐中使用的所有特征集合可具有尺寸M，其中M＝40是为每一帧计算的总特征数量。特征数量包括一个VUV特征和39个MFCC特征(其中，12个MFCC特征、12个delta MFCC特征、12个Delta-Delta MFCC特征、一个(对数)帧能量、一个Delta(对数)帧能量以及一个Delta-Delta(对数)帧能量)。为了减少不同帧与不同参数之间的声学变化，在MFCC上的相关特征上进行帧水平和参数水平的归一化。归一化通过以下公式减去特征的平均值并除以特征的标准差计算。

x_{ij} = \frac{(x_{ij} - μ_{pi}) / δ_{pi} - μ_{fj}}{δ_{fj}}

其中，x_ij是第j帧的第i(i≤39)个MFCC系数，μ_pi和δ_pi是第i个MFCC系数的均值和标准差，μ_fi和δ_fi是第j帧的均值和标准差。

特征集合在使用DTW方法的对齐120、214过程中进行使用。DTW测量时域或速度上不同的两个序列的相似度，旨在找到两个序列之间的最佳匹配。该方法在ASR中广泛应用以处理不同的说话速度。参照图8，示出了用于中国歌曲中歌词“对你的思念(Dui Ni De Si Nian)”的对齐结果的示例，其中，图8A示出了用于DTW408(图4)的对齐结果，图8B示出了用于DTW410的对齐结果。在图8A中，左侧的波形802和底部的波形804代表了待对齐的两个声音：模板歌唱声音202和模板说话声音402。黑线806表示中间图的时域规整矩阵808的最佳规整路径。图8B中，左侧波形812和底部波形814代表待对齐的两个声音：模板说话声音402和新说话声音204，黑线816表示中间图的时域规整矩阵818的最佳规整路径。

参照图9，在具有修改的音素持续时间的谱图906、转换的语音谱图904以及模板歌唱声音的谱图902中示出了用于发出“对你的思念(Dui Ni De Si Nian)”的音素的修改的持续时间。从该图中可看出，模板歌唱和合成歌唱的音素持续时间相似。

因此，根据本实施方式，提供了基于个性化模板的歌唱声音合成系统，该歌唱声音合成系统能够从说出的歌曲的歌词生成歌唱声音。模板歌唱声音用于提供歌曲的非常自然的旋律，而用户的说话声音用于保持用户的自然声音节奏。在这种情况下，以普通用户的声音和专业的旋律生成了歌唱声音。

所提出的歌唱合成在娱乐、教育以及其他领域有许多潜在的应用。本实施方式的方法使得用户能够通过仅阅读歌词就可以生成并聆听他/她自己的歌唱声音。因为系统中使用了模板歌唱声音，所以能够从实际的歌唱声音的音高轮廓获取自然的音高轮廓，而无需特意从乐谱的步轮廓直接生成震动(如过冲和颤音)。这大幅提高了合成歌唱的自然性和质量，并可为欠佳的歌手生成具有专业质量的歌唱。因为合成的歌唱保留了说话者的音质，因此听起来就是由说话者所唱。

本发明的技术及其各种变体还可以用于其他场合。例如，根据本实施方式，可通过纠正不完美的部分来修改非专业歌手的歌唱可以提高他/她的声音质量。可替代地，可通过检测学生歌唱旋律中的错误来教导学生如何提高他的歌唱。

因此，可以看出，本申请提供了用于说话至歌唱合成的系统和方法，该系统和方法不但降低了合成的复杂度，而且简化了最终用户的操作。

可以减小合成的复杂度并同时简化终端用户操作的。虽然在以上详细描述中已介绍了示例性实施方式，但是应理解的是还存在大量的变体。

还应该进一步理解的是，示例性实施方式仅仅是示例，并不旨在以任何方式来限制本发明的范围、应用、操作或配置。并且，上述详细描述为本领域技术人员提供了用于实施本发明的示例性实施方式的方便路线图，但应该理解的是在未脱离所附权利要求中提出的本发明的范围的情况下，可对示例性实施方式中描述的元素的功能和分布以及操作方法进行各种改变。

Claims

1.一种用于说话至歌唱合成的方法，包括：

获得第一个人的歌唱声音特征；以及

响应于所述第一个人的歌唱声音特征来改变第二个人的声音的声音特征，从而生成所述第二个人的合成歌唱声音。

2.根据权利要求1所述的方法，其中，所述第二个人的声音是说话声音。

3.根据权利要求1所述的方法，其中，所述第二个人的声音是有缺陷的歌唱，其中，所述合成歌唱声音是改正的歌唱。

4.根据权利要求1至3中任一项所述的方法，其中，改变所述第二个人的声音的声音特征包括：

响应于所述第一个人的歌唱声音的特征修改所述第二个人的声音音高来生成所述第二个人的合成歌唱声音。

5.根据权利要求1至4中任一项所述的方法，其中，修改所述第二个人的声音的声音特征包括：

响应于所述第一个人的歌唱声音的特征修改所述第二个人的声音频谱来生成所述第二个人的合成歌唱声音。

6.根据权利要求1至5中任一项所述的方法，其中，修改所述第二个人的声音的声音特征包括：

响应于所述第一个人的声音与所述第二个人的声音的对齐来修改所述第二个人的声音的声音特征，从而生成所述第二个人的合成歌唱声音。

7.根据权利要求6所述的方法，其中，所述第一个人的声音与所述第二个人的声音对齐包括：

使所述第一个人的歌唱声音与所述第一个人的说话声音对齐；以及

使所述第一个人的说话声音与所述第二个人的声音对齐；以及

组合对齐步骤的结果以获得所述第一个人的歌唱声音与所述第二个人的声音的对齐。

8.根据权利要求6所述的方法，其中，所述第一个人的声音与所述第二个人的声音的对齐包括：

使所述第一个人的歌唱声音与文本对齐；以及

使所述文本与所述第二个人的声音对齐；以及

9.一种用于说话至歌唱合成的方法，包括：

响应于第一个人的说话声音和歌唱声音获得第一说话特征和第一歌唱特征的模板；

从第二个人的说话声音提取第二说话特征；

根据所述模板修改所述第二说话特征以生成所述第二个人的近似歌唱声音；以及

响应于所述第一说话特征、所述第一歌唱特征以及所述第二说话特征来对齐所述第二个人的近似歌唱声音的声学特征，从而生成所述第二个人的合成歌唱声音。

10.根据权利要求9所述的方法，其中，对齐步骤包括：

响应于所述第一说话特征、所述第一歌唱特征以及所述第二说话特征，根据动态时间规整(DTW)算法来对齐所述第二个人的近似歌唱声音的声学特征，从而生成所述第二个人的合成歌唱声音。

11.根据权利要求9或10所述的方法，其中，对齐步骤包括：

生成所述第一说话特征和所述第一歌唱特征的第一动态时间规整(DTW)；

生成所述第一说话特征和所述第二说话特征的第二DTW；以及

响应于所述第一DTW和所述第二DTW的结果来对齐所述第二个人的近似歌唱声音的声学特征，从而生成所述第二个人的合成歌唱声音。

12.根据权利要求11所述的方法，其中，第一生成步骤包括：

生成所述第一说话特征和所述第一歌唱特征的第一DTW以使所述第一说话特征与所述第一歌唱特征对齐，从而根据所述第一说话特征与所述第一歌唱特征的最佳映射来生成模板对齐。

13.根据权利要求11所述的方法，其中，第二生成步骤包括：

生成所述第一说话特征和所述第二说话特征的第二DTW以使所述第一说话特征与所述第二说话特征对齐，从而根据所述第一说话特征和所述第二说话特征的最佳映射来生成所述第一说话特征与所述第二说话特征之间的对齐。

14.根据权利要求10所述的方法，其中，对齐步骤包括：

响应于所述第一说话特征、所述第一歌唱特征以及所述第二说话特征获得同步信息；以及

响应于所述同步信息来对齐所述第二个人的近似歌唱声音的声学特征，从而通过所述DTW算法的最佳映射结果来生成所述第二个人的合成歌唱声音。

15.根据权利要求9至14中任一项所述的方法，其中，所述第一歌唱特征包括第一音高、第一计时和第一频谱，其中，所述第二说话特征包括第二音高、第二计时和第二频谱。

16.根据权利要求15的所述方法，其中，对齐步骤包括：

响应于保持所述第二说话特征的第二频谱同时用所述第一歌唱声音的第一音高和第一计时来代替所述第二说话特征的第二音高和第二计时，对齐所述第二个人的近似歌唱声音的声学特征。

17.根据权利要求9至16中任一项所述的方法，其中，所述第一说话特征和所述第一歌唱特征包括用于基频F₀的转换模型。

18.根据权利要求9至17中任一项所述的方法，所述第二说话特征包括从Mel频率倒谱系数(MFCC)、短时能量信息、语音和非语音(VUV)信息、基频轮廓信息以及频谱信息中选择的特征。

19.一种用于说话至歌唱合成的方法，包括：

从第一个人的歌唱声音提取音高轮廓信息和对齐信息；

从第二个人的说话声音提取对齐信息和频谱参数序列；

从所述第一个人的歌唱声音的对齐信号以及所述第二个人的说话声音的对齐信号生成对齐信息；

响应于所述对齐信息，转换来自所述第二个人的说话声音频谱参数序列以生成转换的频谱参数序列；以及

响应于所述转换的频谱参数序列以及所述第一个人的歌唱声音的音高轮廓信息来合成所述第二个人的歌唱声音。