CN113808555A

CN113808555A - 歌曲合成方法及其装置、设备、介质、产品

Info

Publication number: CN113808555A
Application number: CN202111091710.6A
Authority: CN
Inventors: 劳振锋; 陈传艺; 黄杰雄; 孙洪文; 关迪聆; 黄不群
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-12-17

Abstract

本申请公开一种歌曲合成方法及其装置、设备、介质、产品，所述方法包括：确定目标歌曲相对应的第一音源对象、第二音源对象及目标乐谱，所述目标乐谱包括曲谱及其相应的歌词文本；调用音高生成模型根据目标乐谱中的曲谱及歌词文本生成融合了第一音源对象的音高变化特征的音高特征信息；获取目标歌曲相对应的合成特征信息集，所述合成特征信息集包括第一音源对象的音高特征信息、第二音源对象的音色特征信息、根据目标乐谱中的曲谱及歌词文本编码形成的音素特征信息以及音序特征信息；采用声学模型编解码获得梅尔频谱信息；采用声码器将梅尔频谱信息转换出音频数据。本申请能全自动合成出融合了第一音源对象的唱功和第二音源对象的音色的目标歌曲。

Description

歌曲合成方法及其装置、设备、介质、产品

技术领域

本申请涉及音频处理技术领域，尤其涉及一种歌曲合成方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术

歌曲辅助创作相关的技术，借助语音合成技术来实现，由用户创作好旋律与和弦之后，由系统应用虚拟说话人为其生成相关的音频数据。这种系统的局限，主要体现为其辅助创作所得的虚拟歌曲中，虚拟说话人的声音通常不够自然，导致相应的创作歌曲无法得到听众的认可。

业内针对虚拟歌曲中存在的先天不足，存在一些探索和尝试，例如，在生产出虚拟歌曲的基础上，由用户指定某一音色，然后以该音色对虚拟歌曲进行转换，使虚拟歌曲以该音色进行演唱。由此，虚拟歌曲的播放效果倾向更为自然。即使如此，听众仍无法接受虚拟歌曲，原因在于虚拟歌曲中，每一音符的音调均无变化，而真人演唱歌曲时，针对每个音符的音调，是存在变化的，这些变化体现为演唱者的唱功，不同的演唱者具有不同的唱功，因此，每个演唱者的唱功相对而言是独特的。

同理，业内也曾就演唱者的唱功相对应的音高特征的提取做出探索，但在应用方面，仍然未能有效推广，对于歌曲辅助创作而言，更是未见建树。

对于歌曲辅助创作应用场景而言，需要为创作者提供更高的便利度，使创作者能以更高效的方式将其创作的旋律转换为相应的虚拟歌曲，并且确保虚拟歌曲更为匹配自然人声，而现有技术目前尚无法从技术上解决这一问题。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种歌曲合成方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品，以实现辅助音乐创作。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提供的一种歌曲合成方法，包括如下步骤：

确定目标歌曲相对应的第一音源对象、第二音源对象及目标乐谱，所述目标乐谱包括曲谱及其相应的歌词文本；

调用音高生成模型根据目标乐谱中的曲谱及歌词文本生成融合了第一音源对象的音高变化特征的音高特征信息；

获取目标歌曲相对应的合成特征信息集，所述合成特征信息集包括第一音源对象的音高特征信息、第二音源对象的音色特征信息、根据目标乐谱中的曲谱及歌词文本编码形成的音素特征信息以及音序特征信息；

采用声学模型对所述合成特征信息集进行编解码，获得梅尔频谱信息；

采用声码器将梅尔频谱信息转换为目标歌曲人声演唱部分相对应的音频数据。

深化的实施例中，调用音高生成模型根据目标乐谱中的曲谱及歌词文本生成融合了第一音源对象的音高变化特征的音高特征信息，包括如下步骤：

获取第一音源对象的身份标签；

根据该身份标签调用相应的控制参数集配置所述音高生成模型，所述音高生成模型根据该第一音源对象的音频数据及其相应的目标乐谱为训练样本训练而生成关联于该第一音源对象的身份标签的所述控制参数集；

由该音高生成模型根据所述目标乐谱中的曲谱及歌词文本生成融合了第一音源对象的音高变化特征的所述音高特征信息。

深化的实施例中，获取目标歌曲相对应的合成特征信息集，包括如下步骤：

获取音高生成模型生成的音高特征信息；

获取第二音源对象的身份标签相对应的音色特征信息，所述音色特征信息为调用预设的音色提取模型从所述第二音源对象的音频数据中提取出的声纹特征；

将所述音高特征信息、音色特征信息、音素特征信息以及音序特征信息拼接为合成特征信息集。

深化的实施例中，采用声学模型对所述合成特征信息集进行编解码，获得梅尔频谱信息，包括如下步骤：

采用声学模型中的编码网络对合成特征信息集进行编码处理，获得编码后的编码特征向量；

对编码后的编码特征向量进行降采样处理，得到降采样后的编码特征向量；

采用注意力机制对降采样后的编码特征向量进行特征重组处理，得到根据上下文信息重组后的编码特征向量；

采用声学模型中的解码网络对重组后的编码特征向量进行解码处理，得到梅尔频谱信息。

具体化的实施例中，采用声学模型中的解码网络对重组后的编码特征向量进行解码处理，得到梅尔频谱信息之后，还包括如下步骤：

采用残差预估网络对从解码网络得到的音频数据的梅尔频谱信息进行残差预估处理，得到残差信息；

基于残差信息对该音频数据的梅尔频谱信息进行修正，得到修正后的梅尔频谱信息。

扩展的实施例中，本申请的歌曲合成方法还包括如下步骤：

获取目标歌曲相对应的背景音乐的音频数据；

提取所述背景音乐与所述目标乐谱中的曲谱所共同遵循的乐曲基础信息，所述乐曲基础信息包括演奏时速、拍号以及调号；

根据所述乐曲基础信息，将所述背景音乐的音频数据与所述目标歌曲人声演唱部分相对应的音频数据合成目标歌曲相对应的音频数据；

输出所述目标歌曲相对应的音频数据。

较佳的实施例中，所述音高特征信息所表征的音高变化特征涵盖相应发音数据被播放时所呈现的节奏、音准、气息、真假音的转换流畅程度、换声断层的明显程度、声音的通透程度中至少一项或任意多项。

适应本申请的目的之一而提供的一种歌曲合成装置，包括：素材获取模块、音高处理模块、特征合成模块，频谱转换模块，以及歌曲转换模块。其中：所述素材获取模块，用于确定目标歌曲相对应的第一音源对象、第二音源对象及目标乐谱，所述目标乐谱包括曲谱及其相应的歌词文本；所述音高处理模块，用于调用音高生成模型根据目标乐谱中的曲谱及歌词文本生成融合了第一音源对象的音高变化特征的音高特征信息；所述特征合成模块，用于获取目标歌曲相对应的合成特征信息集，所述合成特征信息集包括第一音源对象的音高特征信息、第二音源对象的音色特征信息、根据目标乐谱中的曲谱及歌词文本编码形成的音素特征信息以及音序特征信息；所述频谱预测模块，用于采用声学模型对所述合成特征信息集进行编解码，获得梅尔频谱信息；所述歌曲转换模块，用于采用声码器将梅尔频谱信息转换为目标歌曲人声演唱部分相对应的音频数据。

深化的实施例中，所述音高处理模块包括：音高标签子模块，用于获取第一音源对象的身份标签；模型配置子模块，用于根据该身份标签调用相应的控制参数集配置所述音高生成模型，所述音高生成模型根据该第一音源对象的音频数据及其相应的目标乐谱为训练样本训练而生成关联于该第一音源对象的身份标签的所述控制参数集；音高提取子模块，用于由该音高生成模型根据所述目标乐谱中的曲谱及歌词文本生成融合了第一音源对象的音高变化特征的所述音高特征信息。

深化的实施例中，所述特征合成模块包括：音高特征获取子模块，用于获取音高生成模型生成的音高特征信息；音色特征获取子模块，用于获取第二音源对象的身份标签相对应的音色特征信息，所述音色特征信息为调用预设的音色提取模型从所述第二音源对象的音频数据中提取出的声纹特征；特征合成子模块，用于将所述音高特征信息、音色特征信息、音素特征信息以及音序特征信息拼接为合成特征信息集。

深化的实施例中，所述频谱转换模块包括：编码处理子模块，用于采用声学模型中的编码网络对合成特征信息集进行编码处理，获得编码后的编码特征向量；特征采样子模块，用于对编码后的编码特征向量进行降采样处理，得到降采样后的编码特征向量；特征重组子模块，用于采用注意力机制对降采样后的编码特征向量进行特征重组处理，得到根据上下文信息重组后的编码特征向量；特征解码子模块，用于采用声学模型中的解码网络对重组后的编码特征向量进行解码处理，得到梅尔频谱信息。

具体化的实施例中，本申请的频谱转换模块还包括：残差预估子模块，用于采用残差预估网络对从解码网络得到的音频数据的梅尔频谱信息进行残差预估处理，得到残差信息；残差修正子模块，用于基于残差信息对该音频数据的梅尔频谱信息进行修正，得到修正后的梅尔频谱信息。

扩展的实施例中，本申请的歌曲合成装置还包括：伴奏获取模块，用于获取目标歌曲相对应的背景音乐的音频数据；信息同步模块，用于提取所述背景音乐与所述目标乐谱中的曲谱所共同遵循的乐曲基础信息，所述乐曲基础信息包括演奏时速、拍号以及调号；对齐合成模块，用于根据所述乐曲基础信息，将所述背景音乐的音频数据与所述目标歌曲人声演唱部分相对应的音频数据合成目标歌曲相对应的音频数据；音频输出模块，用于输出所述目标歌曲相对应的音频数据。

适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的歌曲合成方法的步骤。

适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的歌曲合成方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

相对于现有技术，本申请的优势如下：

首先，本申请统一获取创作虚拟歌曲所需的相关信息，包括用于确定虚拟歌曲所应用的唱功的第一音源对象、用于确定虚拟歌曲所应用的音色的第二音源对象，以及虚拟歌曲的目标乐谱，然后，调用音高生成模型生成融合了该第一音源对象的音高变化特征的音高特征信息、获取该第二音源对象相对应的音色特征信息，利用来源不同的这两种信息，在声学模型和声码器的协助下，生成根据所述目标乐谱中的曲谱和歌词文本进行演唱的歌曲人声部分音频数据。可以理解，这一音频数据融合了第一音源对象独有的音高特征信息，体现了第一音源对象的唱功，同时又融合了第二音源对象独有的音色特征信息，实现了音高特征信息与音色特征信息的解耦，两者可以独立构造，并且，灵活结合运用，为歌曲辅助创作系统开放了更高的灵活性，允许用户以自身的音色结合其他歌手的唱功对已有的旋律曲谱和歌词文本生成虚拟歌曲，快速感受创作效果，从而提升歌曲辅助创作效率。

其次，本申请中，所述目标乐谱的曲谱及歌词文本，一方面在音高生成模型中被用于生成音高特征信息，另一方面又被声学模型引用实现以便保持所生成的梅尔频谱信息包含准确的旋律信息，而目标乐谱体现所包括的曲谱、歌词文本体现为用户最为直观的便于其编辑的方式，因此，降低了对用户侧的专业性的要求，使得用户可以专注于曲谱和歌词文本的谱写创作，而无需自行处理音高特征信息与音色特征信息之间的处理，使虚拟歌曲创作过程更加智能化，提升了虚拟歌曲的生产效率。

此外，本申请的技术方案的实施，在实现音高特征信息与音色特征信息解耦的基础上，更有利于实现歌曲协同创作，例如用户向一个歌手购买唱功相对应的音高特征信息，以该音高特征信息与自身的音色特征信息进行虚拟歌曲创作，从而借助歌手的唱功提升自身的歌曲作品的品质，促进在线娱乐用户之间的协同，进一步促进用户作品分享活跃，活跃用户流量，重新定义互联网音乐生态，使得“人人都是音乐人”有望成为现实。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的歌曲合成方法的典型实施例的流程示意图；

图2为用于实施本申请的歌曲合成方法的网络结构示意图；

图3为本申请实施例中音高生成模型生成音高特征信息过程的流程示意图；

图4为本申请实施例中获取合成特征信息集过程的流程示意图；

图5为本申请实施例中声学模型编解码过程的流程示意图；

图6为本申请实施例中实现背景音乐与目标歌曲人声发音部分合成的过程的流程示意图；

图7为本申请的歌曲合成装置的原理框图；

图8为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种歌曲合成方法，可被编程为计算机程序产品，部署于客户端和/或服务器中运行而实现，藉此，客户端可以网页程序或应用程序的形式访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程实现人机交互。

请参阅图1和图2，在其典型实施例中，该方法通过图2所示的网络架构实施，包括如下步骤：

步骤S1100、确定目标歌曲相对应的第一音源对象、第二音源对象及目标乐谱，所述目标乐谱包括曲谱及其相应的歌词文本:

为了创作本申请的虚拟歌曲，即目标歌曲，需要收集生成虚拟歌曲所需的素材，故可要求用户先行指定相应的唱功模板和音色模板，所述唱功模板用于封装第一音源对象的身份标签，所述音色模板用于封装第二音源对象的身份标签。所述第一音源对象一般指代具有相当唱功的真人角色，所述第二音源对象一般是指代一个提供音色模板的真人角色，第一音源对象与第二音源对象在计算机程序层面均以身份标签的形式来表示。

所述的唱功，是指演唱者在演唱歌曲旋律时，适应旋律中各个音符及跨音符进行演唱时，表现出音调变化、节奏把握以及气息变换等方面的技巧，也即演唱者处理歌词吐字发声的演唱表现。一个歌手的唱功通常体现在声、气、字等方面的把握。在声学原理上，唱功表现到相应的频谱中，便是演唱者的音高变化特征。由此可知，不同的演唱者，由于长期的演唱习惯使然，便形成了其个性化的音高变化特征，这些音高变化特征可以借助音高提取相关的神经网络模型或其他语音合成手段获得。

除了确定目标歌曲所需的第一音源对象和第二音源对象，还需进一步获取相应的目标乐谱，所述的目标乐谱一般是由用户在其客户端借助歌曲辅助创作系统谱写的，包括曲谱和歌词文本，曲谱由多个不同音长的不同音符序列构成，歌词文本由与音符相对齐的歌词文字构成，当然，曲谱与歌词文本可以来源于由不同用户创作，只需要应本申请的技术方案所需，一并作为目标歌曲的创作素材提供即可。

步骤S1200、调用音高生成模型根据目标乐谱中的曲谱及歌词文本生成融合了第一音源对象的音高变化特征的音高特征信息：

本申请的采用的音高生成模型，可以基于本领域的语音信号处理的手段或者基于深度语义学习的方式来构造。

为了获得根据所述目标乐谱生成而且融合了所述第一音源对象相对应的音高特征信息，调用一个预设的音高生成模型来实现。所述音高生成模型经过预先训练，使其适于利用一个第一音源对象的身份标签而获取其相对应的控制参数集，在该控制参数集的作用下，而能够生成融合了该第一音源对象的音高变化特征的音高特征信息。

在所述音高生成模型的作用下，可以生成所述目标乐谱相对应的音高特征信息，所述音高特征信息所表征的音高变化特征即为第一音源对象的音高变化特征，这一音高变化特征所表征的唱功，可以涵盖相应依赖其生成的发音数据被播放时所呈现的节奏、音准、气息、真假音的转换流畅程度、换声断层的明显程度、声音的通透程度中至少一项或任意多项。

由此可见，在所述音高生成模型的作用下，所述目标乐谱便被转换为基频信息，并且借助第一音源对象的音高变化特征对该基频信息进行了修正，使其融合了第一音源对象相应的音高变化特征，从而获得所述的目标歌曲本身的音高特征信息。

步骤S1300、获取目标歌曲相对应的合成特征信息集，所述合成特征信息集包括第一音源对象的音高特征信息、第二音源对象的音色特征信息、根据目标乐谱中的曲谱及歌词文本编码形成的音素特征信息以及音序特征信息：

在获得目标歌曲的音高特征信息的基础上，进一步利用第二音源对象的身份标签调用预先为该第二音源对象生成的音色特征信息。音色特征信息可以借助多种声纹特征提取模型进行提取，最后将其与第二音源对象的身份标签关联存储即可。

所述音素特征信息，是根据曲谱和歌词文本的发音标注信息沿目标歌曲的时域分帧进行编码形成的音素序列，所述音序特征信息是由所述音素序列中的音素所处位置信息编码形成的音素位置序列，所述音高特征信息也是一个音高序列，用于对应指示所述各个音素的音高，所述音色特征信息为用于表示第二音源对象的声纹特征的向量。

为了生成目标歌曲相对应的歌曲频谱，需要再次借助所述目标乐谱，对目标乐谱中的曲谱和歌词文本进行编码，形成目标歌曲相对应的音素特征信息和音序特征信息，在此基础上，利用语音合成原理，便可将音高特征信息、音素特征信息以及音序特征信息进行对齐和合成。其中，为了融合第二音源对象相对应的音色特征，需沿时域将第二音源对象的音色特征信息与所述音高特征信息、音素特征信息、音序特征信息进行拼接合成，最终构造出声学模型编解码所需的合成特征信息集。

步骤S1400、采用声学模型对所述合成特征信息集进行编解码，获得梅尔频谱信息：

在所述合成特征信息的基础上，进一步可采用经预训练的声学模型，包括但不限于诸如Tactron、Tactron2、Fastspeech、Durian等，通常是基于适于处理序列信息的LSTM、BiLSTM网络模型开发实现的，可以理解，只要适于根据所述合成特征信息集进行编解码，将本申请加工后形成的合成特征信息集转换为目标歌曲所需的梅尔频谱信息的相关现有及未来实现的声学模型，均可构成本申请所需的声学模型。

所述的声学模型根据所述合成特征信息集进行编解码，将所述合成特征信息集转换为梅尔频谱信息，使其中表现出所述的第一音源对象的音高特征信息及第二音源对象的音色特征信息。

步骤S1500、采用声码器将梅尔频谱信息转换为目标歌曲人声演唱部分相对应的音频数据：

在获得所述梅尔频谱信息的基础上，应用诸如Wavenet、Vocoder、World/Straight、Griffin-Lim之类的解码器，即可将所述梅尔频谱信息转换为音频数据，可以理解，所述音频数据包含目标歌曲人声演唱部分的内容。

由本典型实施例可以看出，由于综合了不同音源对象的不同信息，即音高和音色，故据其获得的音频数据，能够更为自然地表现歌声，此外，通过本典型实施例还可以看到本申请的如下更丰富的内涵和优势：

首先，本申请一次性获取创作虚拟歌曲所需的相关信息，包括用于确定虚拟歌曲所应用的唱功的第一音源对象、用于确定虚拟歌曲所应用的音色的第二音源对象，以及虚拟歌曲的目标乐谱，然后，调用音高生成模型生成融合了该第一音源对象的音高变化特征的音高特征信息、获取该第二音源对象相对应的音色特征信息，利用来源不同的这两种信息，在声学模型和声码器的协助下，生成根据所述目标乐谱中的曲谱和歌词文本进行演唱的歌曲人声部分音频数据。可以理解，这一音频数据融合了第一音源对象独有的音高特征信息，体现了第一音源对象的唱功，同时又融合了第二音源对象独有的音色特征信息，实现了音高特征信息与音色特征信息的解耦，两者可以独立构造，并且，灵活结合运用，为歌曲辅助创作系统开放了更高的灵活性，允许用户以自身的音色结合其他歌手的唱功对已有的旋律曲谱和歌词文本生成虚拟歌曲，快速感受创作效果，从而提升歌曲辅助创作效率。

请参阅图3，深化的实施例中，步骤S1200、调用音高生成模型根据目标乐谱中的曲谱及歌词文本生成融合了第一音源对象的音高变化特征的音高特征信息，包括如下步骤：

步骤S1210、获取第一音源对象的身份标签：

本实施例中，需要向音高生成模型提供第一音源对象的身份标签，用户在下达运行本申请的技术方案的语音合成指令时，便指定了第一音源对象，相应便可确定其相对应的身份标签，直接传参给该音高生成模型即可。

步骤S1220、根据该身份标签调用相应的控制参数集配置所述音高生成模型，所述音高生成模型根据该第一音源对象的音频数据及其相应的目标乐谱为训练样本训练而生成关联于该第一音源对象的身份标签的所述控制参数集：

适应采用控制参数集控制音高生成模型的情况，需要先根据第一音源对象确定其相对应的控制参数集，而所述控制参数集已事先由该音高生成模型生成并与第一音源对象的身份标签关联存储。对于采用语音参数合成所实现的音高生成模型，所述控制参数集是指其为了实现融合第一音源对象的音高变化特征而需具备的相关语音控制参数；对于基于深层语义学习的音高生成模型，例如单人或多人音高生成模型，所述控制参数集是指其适应具体第一音源对象相对应的权重参数。

需要使用音高生成模型用于结合第一音源对象的音高变化特征和目标乐谱生成相应的音高特征信息时，音高生成模型根据该第一音源对象的身份标签调用相应的控制参数集进行配置，以此为基础便可实现基于所棕目标乐谱生成融合了第一音源对象的音高变化特征的音高特征信息。

可以理解，所述音高生成模型应被预先训练，在其训练过程中，采用所述第一音源对象的多个音频数据及其对应的样本乐谱作为训练样本，使音高生成模型实现对该音频数据的正确分类，对应到第一音源对象的身份标签，由此便获得了对第一音源对象进行音高变化特征提取和合成的能力。对此，本领域技术人员可以根据选用的具体网络模型进行灵活处理，恕不赘述。

步骤S1230、由该音高生成模型根据所述目标乐谱中的曲谱及歌词文本生成融合了第一音源对象的音高变化特征的所述音高特征信息：

所述音高生成模型按照如下过程生成音高特征信息：获取目标乐谱，所述目标乐谱中包含曲谱所包含的曲调信息以及根据歌词文本确定的文字发音信息；基于所述曲调信息以及所述文字发音信息，获取所述目标乐谱的综合特征向量集合；所述综合特征向量集合用以表征所述曲调信息的特征以及所述文字发音信息的特征；最后对所述综合特征向量集合进行解码，生成所述目标乐谱对应的音高特征信息。

获取综合特征向量集合的过程，包括：先提取所述目标乐谱的曲调特征向量集合；所述曲调特征向量集合是基于所述曲调信息提取的特征向量的集合；然后提取所述目标乐谱的发音特征向量集合；所述发音特征向量集合是基于所述文字发音信息提取的特征向量的集合；继而，分别对所述曲调特征向量集合以及所述发音特征向量集合进行编码，获得编码后的所述曲调特征向量集合以及编码后的所述发音特征向量集合；最后基于编码后的所述曲调特征向量集合，以及编码后的所述发音特征向量集合，获得所述目标乐谱的综合特征向量集合。

将所述曲调特征向量集体与所述发音特征向量集合进行合成获得所述综合特征向量集合的过程包括：

首先，对编码后的所述曲调特征向量集合进行帧扩展处理，获得第一向量集合；具体而言，先获取目标曲调对应的第一持续时长，所述目标曲调是所述曲调信息中的任意一个曲调；然后基于所述第一持续时长，对目标曲调特征向量进行帧扩展处理，获得所述目标曲调特征向量对应的第一向量；所述目标曲调特征向量是编码后的所述曲调特征向量集合中，所述目标曲调对应的编码后的曲调特征向量。其中，所述基于所述第一持续时长，对目标曲调特征向量进行帧扩展处理，获得所述目标曲调特征向量对应的第一向量的具体过程，包括：基于所述第一持续时长，以及第一时间间隔，获取帧扩展后的所述目标曲调向量的第一帧数；基于所述第一帧数，对所述目标曲调向量进行帧扩展处理，获得所述目标曲调特征向量对应的所述第一向量。

对编码后的所述发音特征向量集合进行帧扩展处理，获得第二向量集合；具体而言，先获取目标文字发音信息对应的第二持续时长，所述目标文字发音信息是所述文字发音信息中的任意一个文字发音；然后基于所述第二持续时长，对目标发音特征向量进行帧扩展处理，获得所述目标发音特征向量对应的第二向量；所述目标发音特征向量是编码后的所述发音特征向量集合中，对应于所述目标文字发音信息的编码后的发音特征向量对所述第一向量集合以及所述第二向量集合进行拼接，获得所述综合特征向量集合。其中，所述基于所述第二持续时长，对目标发音特征向量进行帧扩展处理，获得所述目标发音特征向量对应的第二向量，包括：基于所述第二持续时长，以及第二时间间隔，获取帧扩展后的所述目标发音特征向量的第二帧数；基于所述第二帧数，对所述目标发音向量进行帧扩展处理，获得所述目标发音向量对应的所述第二向量。

通过音高生成模型的上述过程的处理，便可根据目标乐谱转换出相应的融合了第一音源对象的音高变化特征的音高特征信息。

本实施例借助经预先训练的音高生成模型，利用其习得的能力，能够更为便捷地根据第一音源对象的身份标签而调用相应的控制参数集，实现将第一音源对象的音高变化特征融入到其生成的音高特征信息中，能够实现音高特征信息的快速提取，可以提升音乐辅助创作的加工生产效率。

请参阅图4，深化的实施例中，所述步骤S1300、获取目标歌曲相对应的合成特征信息集，包括如下步骤：

步骤S1310、获取音高生成模型生成的音高特征信息：

直接接受音高生成模型的输入即可。

步骤S1320、获取第二音源对象的身份标签相对应的音色特征信息，所述音色特征信息为调用预设的音色提取模型从所述第二音源对象的音频数据中提取出的声纹特征：

如前所述，音色特征信息是预先生成的，其与第二音源对象的身份标签关联存储，可以直接通过第二音源对象的身份标签进行调用。所述音色特征信息本质上是一个声纹特征向量，经预训练的音色提取模型预先提取生成。

所述音色提取模型按照如下过程从第二音源对象的音频采样数据中提取出相应的音色特征信息：获取音频采样数据，从中提取出人声发音部分相对应的梅尔频谱信息；从所述梅尔频谱信息中提取出表征该音频采样数据的第二音源对象的音色的向量矩阵集，该向量矩阵集包括时域上的多个向量矩阵；求取所述向量矩阵集中多个向量矩阵之间的均值向量矩阵作为该第二音源对象的声纹特征信息；生成所述第二音源对象相对应的音色模板，所述音色模板包括第二音源对象的身份标签及由该身份标签所指向的所述声纹特征信息。

从所述梅尔频谱信息中提取出表征该音频采样数据的第二音源对象的音色的向量矩阵集的步骤包括：沿时域从所述梅尔频谱信息中提取出表征所述音频采样数据的第二音源对象的音色的多个向量矩阵；将所述多个向量矩阵进行全连接，获得全连接后的综合向量矩阵，所述综合向量矩阵包括时域上的多个向量矩阵；从所述综合向量矩阵中选取时域上最后且连续的若干个向量矩阵，将其构造为所述的向量矩阵集，每个向量矩阵集包含时域上的多个向量矩阵，每个向量矩阵包含多个表征音色的向量。

沿时域从所述梅尔频谱信息中提取出表征所述音频采样数据的音源对象的音色的多个向量矩阵，包括如下步骤：调用残差卷积网络对所述梅尔频谱信息进行表示学习，以获得其中的音频纹理特征信息；调用递归神经网络对所述音频纹理特征信息进行整理，以获得综合了所述音频纹理特征信息在时域上的相关性信息的多个向量矩阵。

所述音色提取模型的训练过程包括：从训练样本的梅尔频谱信息中提取出表征该训练样本的第二音源对象的音色的向量矩阵，对所述向量矩阵进行全连接，获得全连接后的综合向量矩阵，所述综合向量矩阵包括时域上的多个向量矩阵，每个训练样本包含单个第二音源对象的歌曲清唱发声数据；调用预设分类模型对所述综合向量矩阵进行分类，以所述训练样本相对应的监督标签对分类结果进行监督，根据监督结果反向传播修正所述音色提取模型的权重参数；循环迭代实施对所述音色提取模型的训练，直至所述分类模型的交叉熵损失函数达到收敛状态。

步骤S1330、将所述音高特征信息、音色特征信息、音素特征信息以及音序特征信息拼接为合成特征信息集：

如前所述，音素特征信息与音序特征信息是沿时域展开的序列，且每一分帧相对应的音素特征信息与音序特征信息均关联第一音源对象的音高特征信息与第二音源对象的音色特征信息，因此，具备各个特征信息之后，便构造出了所述的合成特征信息集。

请参阅图5，深化的实施例中，所述步骤S1400、采用声学模型对所述合成特征信息集进行编解码，获得梅尔频谱信息，包括如下步骤：

步骤S1410、采用声学模型中的编码网络对合成特征信息集进行编码处理，获得编码后的编码特征向量：

声学模型的编码网络适于对所述合成特征信息集的各个特征信息进行拼接和编码，由此便可获得相应的编码特征向量。

步骤S1420、对编码后的编码特征向量进行降采样处理，得到降采样后的编码特征向量：

进一步，借助一个降采样网络对所述编码特征向量进行降采样，获得特征尺度被规格化的编码特征向量。

步骤S1430、采用注意力机制对降采样后的编码特征向量进行特征重组处理，得到根据上下文信息重组后的编码特征向量：

注意力机制可以根据特征序列中的上下文信息对特征向量进行重组，在使序列体现上下文语义，因此，在降采样的基础上将编码特征向量进行特征重组后，便可获得语义上经过梳理的编码特征向量。

步骤S1440、采用声学模型中的解码网络对重组后的编码特征向量进行解码处理，得到梅尔频谱信息：

声学模型的解码网络在注意力机制的作用下，对注意力机制梳理后的编码特征向量进行转换，便可获得相应的梅尔频谱信息。

步骤S1450、采用残差预估网络对从解码网络得到的音频数据的梅尔频谱信息进行残差预估处理，得到残差信息：

为了使所述梅尔频谱信息更为纯正，进一步可借助残差预估网络来对其进行修正，该残差预估网络可以对解码网络得到的梅尔频谱信息进行残差预估，得到相应的残差信息，以便用于梅尔频谱信息的修正。

步骤S1460、基于残差信息对该音频数据的梅尔频谱信息进行修正，得到修正后的梅尔频谱信息。

本实施例的声学模型可先经预训练，或直接迁移已经成熟的声学模型也可，所述声学模型可以是Tactron、Fastspeech之类，其在训练阶段，提供相应的样本乐谱及所述音高特征信息和音色特征信息进行训练至收敛状态，使其具备依据所述合成特征信息集转换出相应的梅尔频谱信息。

本实施例中，根据语音合成原理，应用声学模型对所述合成特征信息集进行编解码，实现语义梳理，并获得目标歌曲相应的梅尔频谱信息，实现了特征到频谱之间的转换，全程自行实施，非常高效。

请参阅图6，扩展的实施例中，本申请的歌曲合成方法还包括如下步骤：

步骤S2100、获取目标歌曲相对应的背景音乐的音频数据：

前述各实施例均可确保获得融合了第一音源对象的音高特征信息及第二音源对象的音色特征信息的目标歌曲，但该目标歌曲暂时仅包含与目标乐谱中的曲谱相对应的人声歌唱部分内容，为了使歌曲辅助创作效率更为高效，进一步可以获取适配于该目标歌曲的背景音乐来与之合成，具体而言，是获取该背景音乐相对应的音频数据。所述背景音乐与所述目标乐谱之间的对应关系，可以预先设定。

步骤S2200、提取所述背景音乐与所述目标乐谱中的曲谱所共同遵循的乐曲基础信息，所述乐曲基础信息包括演奏时速、拍号以及调号：

所述背景音乐一般已经按照一定的节奏进行组织，因此，在预备之时也便确定了其相应的演奏时速、拍号以及调号等乐曲基础信息，这些乐曲基础信息及所述背景音乐相应的和弦信息可以被封装为一个伴奏模板，在用户启动歌曲创作之初，便由该用户选定该伴奏模板，也就确定了用户创作的目标乐谱中的曲谱的乐曲基础信息，从而，用户根据该伴奏模板获取到所述的乐曲基础信息，便可确保其目标乐谱与背景音乐一致地遵循于所述的乐曲基础信息。

步骤S2300、根据所述乐曲基础信息，将所述背景音乐的音频数据与所述目标歌曲人声演唱部分相对应的音频数据合成目标歌曲相对应的音频数据：

至此，即可利用本领域技术人员常用的语音合成手段，在遵循所述乐曲基础信息的规则的情况下，将所述背景音乐对应的音频数据与所述目标歌曲人声演唱部分相对应的音频数据实现对齐并合二为了，获得目标歌曲相对应的音频数据。

步骤S2400、输出所述目标歌曲相对应的音频数据：

获得所述目标歌曲相对应的音频数据之后，便可对应推送给相应的创作用户，从而使目标用户可以在其客户端播放所述的目标歌曲，达致完善整个歌曲辅助创作的过程。

本实施例进一步完善辅助音乐创作流程，全程自动完成，大大简化了用户进行音乐创作的繁琐操作，提升了辅助音乐创作效率。

本申请较佳的变通实施例中，所述第二音源对象可以是自用户本人，采用所述音色提取模型预先从其本人提供的音频采样数据可提取出其音色特征信息，将其与该用户的身份标签关联存储，后续在应用本申请的前述各实施例的过程中，调用该音色特征信息用于进行目标歌曲的合成，从而可以让用户采用其本人的音色结合他人的唱功进行歌曲合成，合成出的目标歌曲是用户自身提供的旋律和歌词，音色是其自身的，而唱功则借鉴了他人，由此可见，本申请的实施，可以使得歌曲辅助创作系统大幅提升其产出的目标歌曲的品质，获得更多令人满意的作品。

请参阅图7，本申请提供的一种歌曲合成装置，适应本申请的歌曲合成方法进行功能化部署，包括：素材获取模块1100、音高处理模块1200、特征合成模块1300，频谱转换模块1400，以及歌曲转换模块1500。其中：所述素材获取模块1100，用于确定目标歌曲相对应的第一音源对象、第二音源对象及目标乐谱，所述目标乐谱包括曲谱及其相应的歌词文本；所述音高处理模块1200，用于调用音高生成模型根据目标乐谱中的曲谱及歌词文本生成融合了第一音源对象的音高变化特征的音高特征信息；所述特征合成模块1300，用于获取目标歌曲相对应的合成特征信息集，所述合成特征信息集包括第一音源对象的音高特征信息、第二音源对象的音色特征信息、根据目标乐谱中的曲谱及歌词文本编码形成的音素特征信息以及音序特征信息；所述频谱预测模块，用于采用声学模型对所述合成特征信息集进行编解码，获得梅尔频谱信息；所述歌曲转换模块1500，用于采用声码器将梅尔频谱信息转换为目标歌曲人声演唱部分相对应的音频数据。

深化的实施例中，所述音高处理模块1200包括：音高标签子模块，用于获取第一音源对象的身份标签；模型配置子模块，用于根据该身份标签调用相应的控制参数集配置所述音高生成模型，所述音高生成模型根据该第一音源对象的音频数据及其相应的目标乐谱为训练样本训练而生成关联于该第一音源对象的身份标签的所述控制参数集；音高提取子模块，用于由该音高生成模型根据所述目标乐谱中的曲谱及歌词文本生成融合了第一音源对象的音高变化特征的所述音高特征信息。

深化的实施例中，所述特征合成模块1300包括：音高特征获取子模块，用于获取音高生成模型生成的音高特征信息；音色特征获取子模块，用于获取第二音源对象的身份标签相对应的音色特征信息，所述音色特征信息为调用预设的音色提取模型从所述第二音源对象的音频数据中提取出的声纹特征；特征合成子模块，用于将所述音高特征信息、音色特征信息、音素特征信息以及音序特征信息拼接为合成特征信息集。

深化的实施例中，所述频谱转换模块1400包括：编码处理子模块，用于采用声学模型中的编码网络对合成特征信息集进行编码处理，获得编码后的编码特征向量；特征采样子模块，用于对编码后的编码特征向量进行降采样处理，得到降采样后的编码特征向量；特征重组子模块，用于采用注意力机制对降采样后的编码特征向量进行特征重组处理，得到根据上下文信息重组后的编码特征向量；特征解码子模块，用于采用声学模型中的解码网络对重组后的编码特征向量进行解码处理，得到梅尔频谱信息。

具体化的实施例中，本申请的频谱转换模块1400还包括：残差预估子模块，用于采用残差预估网络对从解码网络得到的音频数据的梅尔频谱信息进行残差预估处理，得到残差信息；残差修正子模块，用于基于残差信息对该音频数据的梅尔频谱信息进行修正，得到修正后的梅尔频谱信息。

为解决上述技术问题，本申请实施例还提供计算机设备。如图8所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种歌曲合成方法方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的歌曲合成方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图7中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的歌曲合成装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的歌曲合成方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请可根据用户提供的创作歌曲所需的基础配置信息，根据用户指定全自动合成出融合了第一音源对象的唱功和第二音源对象的音色的目标歌曲，可以获得更接近自然人声的音频数据。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种歌曲合成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的歌曲合成方法，其特征在于，调用音高生成模型根据目标乐谱中的曲谱及歌词文本生成融合了第一音源对象的音高变化特征的音高特征信息，包括如下步骤：

获取第一音源对象的身份标签；

3.根据权利要求1所述的歌曲合成方法，其特征在于，获取目标歌曲相对应的合成特征信息集，包括如下步骤：

获取音高生成模型生成的音高特征信息；

4.根据权利要求1所述的歌曲合成方法，其特征在于，采用声学模型对所述合成特征信息集进行编解码，获得梅尔频谱信息，包括如下步骤：

5.根据权利要求4所述的歌曲合成方法，其特征在于，采用声学模型中的解码网络对重组后的编码特征向量进行解码处理，得到梅尔频谱信息之后，还包括如下步骤：

6.根据权利要求1至5中任意一项所述的歌曲合成方法，其特征在于，本方法包括如下步骤：

获取目标歌曲相对应的背景音乐的音频数据；

输出所述目标歌曲相对应的音频数据。

7.根据权利要求1至5中任意一项所述的歌曲合成方法，其特征在于，所述音高特征信息所表征的音高变化特征涵盖相应发音数据被播放时所呈现的节奏、音准、气息、真假音的转换流畅程度、换声断层的明显程度、声音的通透程度中至少一项或任意多项。

8.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至7任意一项中所述方法的步骤。