CN113744759B

CN113744759B - 音色模板定制方法及其装置、设备、介质、产品

Info

Publication number: CN113744759B
Application number: CN202111092287.1A
Authority: CN
Inventors: 黄杰雄
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2023-09-22
Anticipated expiration: 2041-09-17
Also published as: CN113744759A

Abstract

本申请公开音色模板定制方法及其装置、设备、介质、产品，所述方法包括：获取音频采样数据，从中提取出人声发音部分相对应的梅尔频谱信息；调用预训练至收敛状态的音色提取模型从所述梅尔频谱信息中提取出表征该音频采样数据的音源对象的音色的向量矩阵集，该向量矩阵集包括时域上的多个向量矩阵；求取所述向量矩阵集中多个向量矩阵之间的均值向量矩阵作为该音源对象的声纹特征信息；生成所述音源对象相对应的音色模板，所述音色模板包括音源对象的命名标识及由该命名标识所指向的所述声纹特征信息。本申请能够从音频数据中有效地综合并抽象出表征音源对象的音色的声纹特征信息，有助于辅助音乐创作。

Description

音色模板定制方法及其装置、设备、介质、产品

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音色模板定制方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术

随着语音合成技术的进步，逐渐实现了音色、音高的解耦，使得虚拟语音合成越来越成熟，有助于音乐领域生态的构建，同时，如何有效利用解耦后的音色、音高之类的特征信息，也为音乐领域的拓展应用带来新的挑战。

音色通过音频数据中提取的声纹特征来表征。音频的声纹特征是是众多生物识别特征的一种，是在人发声时提取出来的，可以作为发声人的表征和标识，是一种能与其他人相互区别的语音特征。声纹特征描述了人声的发音特点，可以通过梅尔频谱来提取，具有类似指纹一样的唯一性和独特性，因此如何获得一个优秀的声纹特征对于音色的表征是非常重要的。

现有的技术中，常用于提取声纹特征的方法有基于传统统计声学模型的i-vector算法，和基于T-DNN神经网络的x-vector算法。这些算法在语音声纹提取上都做了不错的尝试，通过提取人说话时的声纹embedding来表示不同的说话人。

遗憾的是，现有的i-vector和x-vector算法都是应用在人说话时提取语音的声纹特征，而在歌声的声纹特征提取中，这些方法得到的声纹并不能够很好地表示歌声的音色特点，后续业内做出的一些尝试，尽管有所改善，但仍存在难以有效提取出歌唱所需的声纹特征的问题，由此也难以在这些技术提取出的声纹特征的基础上做进一步的拓展应用。因此，现有技术对音乐领域的贡献是有限的。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种音色模板定制方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品，以有助辅助音乐创作。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提供的一种音色模板定制方法，包括如下步骤：

获取音频采样数据，从中提取出人声发音部分相对应的梅尔频谱信息；

调用预训练至收敛状态的音色提取模型从所述梅尔频谱信息中提取出表征该音频采样数据的音源对象的音色的向量矩阵集，该向量矩阵集包括时域上的多个向量矩阵；

求取所述向量矩阵集中多个向量矩阵之间的均值向量矩阵作为该音源对象的声纹特征信息；

生成所述音源对象相对应的音色模板，所述音色模板包括音源对象的命名标识及由该命名标识所指向的所述声纹特征信息。

较佳的实施例中，所述音色提取模型的预训练过程包括如下步骤：

调用所述音色提取模型从训练样本的梅尔频谱信息中提取出表征该训练样本的音源对象的音色的向量矩阵，对所述向量矩阵进行全连接，获得全连接后的综合向量矩阵，所述综合向量矩阵包括时域上的多个向量矩阵，每个训练样本包含单个音源对象的歌曲清唱发声数据；

调用预设分类模型对所述综合向量矩阵进行分类，以所述训练样本相对应的监督标签对分类结果进行监督，根据监督结果反向传播修正所述音色提取模型的权重参数；

循环迭代实施对所述音色提取模型的训练，直至所述分类模型的交叉熵损失函数达到收敛状态。

深化的实施例中，获取音频采样数据，从中提取出人声发音部分相对应的梅尔频谱信息，包括如下步骤：

向客户端中的用户推送采样模板信息；

获取所述客户端提交的音频采样数据，所述音频采样数据包含音源对象朗读或演唱所述音频模板信息而生成的音频数据；

对所述歌曲数据实施音源分离，提取出该音频采样数据中人声部分相对应的音频数据；

从所述人声部分相对应的音频数据中提取出梅尔频谱信息。

进一步的实施例中，调用预训练至收敛状态的音色提取模型从所述梅尔频谱信息中提取出表征该音频采样数据的音源对象的音色的向量矩阵集的步骤包括：

沿时域从所述梅尔频谱信息中提取出表征所述音频采样数据的音源对象的音色的多个向量矩阵；

将所述多个向量矩阵进行全连接，获得全连接后的综合向量矩阵，所述综合向量矩阵包括时域上的多个向量矩阵；

从所述综合向量矩阵中选取时域上最后且连续的若干个向量矩阵，将其构造为所述的向量矩阵集，每个向量矩阵集包含时域上的多个向量矩阵，每个向量矩阵包含多个表征音色的向量。

具体化的实施例中，沿时域从所述梅尔频谱信息中提取出表征所述音频采样数据的音源对象的音色的多个向量矩阵，包括如下步骤：

调用残差卷积网络对所述梅尔频谱信息进行表示学习，以获得其中的音频纹理特征信息；

调用递归神经网络对所述音频纹理特征信息进行整理，以获得综合了所述音频纹理特征信息在时域上的相关性信息的多个向量矩阵。

深化的实施例中，求取所述向量矩阵集中多个向量矩阵之间的均值向量矩阵的步骤中，根据时域同步关系对所述向量矩阵集中的多个向量矩阵进行向量相加后求均值，以形成所述的均值向量矩阵。

深化的实施例中，生成所述音源对象相对应的音色模板，包括如下步骤：

获取所述音源对象相对应的均值向量矩阵；

获取所述音源对象的命名标识；

将所述命名标识与所述均值向量矩阵关联存储为所述的音色模板，添加至提交所述音频采样数据的用户的账户信息库中。

适应本申请的目的之一而提供的一种音色模板定制装置，包括：频谱提取模块、向量提取模块、声纹构造模块，以及模板生成模块，所述频谱提取模块，用于获取音频采样数据，从中提取出人声发音部分相对应的梅尔频谱信息；所述向量提取模块，用于调用预训练至收敛状态的音色提取模型从所述梅尔频谱信息中提取出表征该音频采样数据的音源对象的音色的向量矩阵集，该向量矩阵集包括时域上的多个向量矩阵；所述声纹构造模块，用于求取所述向量矩阵集中多个向量矩阵之间的均值向量矩阵作为该音源对象的声纹特征信息；所述模板生成模块，用于生成所述音源对象相对应的音色模板，所述音色模板包括音源对象的命名标识及由该命名标识所指向的所述声纹特征信息。

适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的音色模板定制方法的步骤。

适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的音色模板定制方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述音色模板定制方法的步骤。

相对于现有技术，本申请的优势如下：

首先，本申请采用经预先训练的适于提取出适合音乐歌唱所需的声纹特征的音色特征模型对音频采样数据进行特征提取后，可获得时域上的多个向量矩阵，然后取这些向量矩阵的均值构成的均值向量矩阵用于表征音源对象的声纹特征，实现对音源对象的音色的更为有效的表示学习，有效表现音源对象的音色，由于所述均值向量矩阵实现了对时域上的特征的有效综合和抽象，故所提取的声纹特征更能表现音源对象的音色，为将其做一步的拓展应用奠定坚实的基础。

其次，本申请进一步将其所确定的声纹特征构造为音色模板，将音色对应的声纹特征从音频数据中解耦出来，进一步可构成音色模板库，方便将其独立应用于音乐辅助创作中，为用户创作以特定音色模板中的音色虚拟演唱的歌曲提供了技术实现可能。

此外，本申请在求取声纹特征的均值向量矩阵时，采用时域上的多个向量矩阵求均值的方式来实现，计算效率高，占用系统运行资源少，提取声纹特征高效而迅速。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的音色模板定制方法的典型实施例的流程示意图；

图2为本申请中音色提取模型的训练过程的流程示意图；

图3为本申请中音色提取模型的结构原理框图；

图4为本申请从服务器侧获取音频采样数据过程的流程示意图；

图5为本申请中音色提取模型构造向量矩阵集过程的流程示意图；

图6为本申请从服务器侧完成音色模板定制过程的流程示意图；

图7为本申请的音色模板生成装置的典型实施例的原理框图；

图8为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用。本领域技术人员应当理解，只要设备运行资源适格，均可用作所述神经网络模型相应的模型训练设备和模型运行设备。某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种音色模板定制方法，可被编程为计算机程序产品，部署于终端设备和/或服务器中运行而实现，藉此，客户端可以网页程序或应用程序的形式访问该计算机程序产品运行后开放的用户界面，实现人机交互。

请参阅图1，在其典型实施例中，该方法包括如下步骤：

步骤S1100、获取音频采样数据，从中提取出人声发音部分相对应的梅尔频谱信息：

为了实现音色提取，需要依赖音频采样数据，所述音频采样数据可以存储为各种形式的音频文件，并适应本申请所需而转换为了预定格式，例如脉冲编码调制而成的PCM格式。所述音频文件可以由用户实时采集提交的，也可以是用户指定的线上曲库内的音频文件。

所述梅尔频谱信息，主要是经语音处理获得的梅尔倒谱信息。根据语音数据处理原理，在获取所述音频采样数据的基础上，进一步通过预加重、分帧、快速傅里叶变换、取绝对值或平方值、梅尔滤波、取对数、DCT离散余弦变换等本领域技术人员熟知的流程，来获得相应的梅尔倒谱特征向量，构成所述的梅尔频谱信息，以便后续本申请的音色提取模型可以在此基础上进一步提取出频谱图中的表征音色的声纹特征。

变通的实施例中，可以对所述音频采样数据先行预处理，例如实施去除噪声、去除背景音乐、去除静音段等，以便有助于提升音色提取模型的提取效率，除此之外，本领域技术人员还可适应一般语音处理原则而适用其他技术手段，使得所述的音频采样数据更有助于实现声纹提取的目的。

步骤S1200、调用预训练至收敛状态的音色提取模型从所述梅尔频谱信息中提取出表征该音频采样数据的音源对象的音色的向量矩阵集，该向量矩阵集包括时域上的多个向量矩阵：

所述音色提取模型被预先训练至收敛状态，使其适于较为准确高效地从梅尔频谱信息中提取出音频采样数据的音频对象相应的声纹特征。所述音色提取模型在一种实施例中所采用的结构及其训练过程将在后续的实施例中进一步揭示，此处从略。本领域技术人员也可通过构造能够实现同等功能效果的音色提取模型来实现声纹特征提取的目的，对此，也不影响本典型实施例的创造精神的体现。

经所述音色提取模型对所述梅尔频谱信息进行特征提取之后，可以提取出一个向量矩阵集，所述的向量矩阵集包括梅尔频谱信息中的时域方向生成的多个向量矩阵，每个向量矩阵表征音源对象在相应的时刻上的音色相对应的声纹特征，本实施例中，既可取梅尔频谱信息中全时域的所有向量矩阵构成所述的向量矩阵集，也可以仅获取其中的一部分。由于音源对象的发音相对应的音色，表现在其所有发音中，因此也对应表现在沿时域分布的各个所述的向量矩阵中，故本申请采取多个向量矩阵用于构造所述向量矩阵集，以做声纹特征信息确定之用，可使所确定的声纹特征信息更具对音色的概括能力，实现更好的表示学习效果。

步骤S1300、求取所述向量矩阵集中多个向量矩阵之间的均值向量矩阵作为该音源对象的声纹特征信息：

为了确定所述的声纹特征信息，本实施例中，采用对所述向量矩阵集中的多个向量矩阵进行向量相加求均值的方式来实现，其他实施例中，也可对所述多个向量矩阵进行例如加权平均之类的线性融合手段来获得所述的声纹特征信息，据此所获得的均值向量矩阵，能够实现对用户音色相对应的声纹特征的有效抽象，特别是对于歌曲这种音高不断大幅变化的应用场景来说，通过求取均值向量来表示音色，更能均衡音源对象发音过程中的一些异常表现，使所抽象出的声纹特征信息更逼近于音源对象的真实音色。

步骤S1400、生成所述音源对象相对应的音色模板，所述音色模板包括音源对象的命名标识及由该命名标识所指向的所述声纹特征信息：

确定所述音频采样数据的音源对象相对应的声纹特征信息之后，便可将其构造为音色模板，以供进一步调用，便于将其用于创作虚拟演唱作品时供用户选取相对应的音色。一种实施例中，本申请提取出来的音色模板中的声纹特征信息相对应的均值向量矩阵，可以用于与歌曲中的音高特征信息、音素特征信息、音序特征信息相对应的向量矩阵进行拼接后，进一步合成相应的歌曲，使该歌曲在播放时表现该音色模板相对应的音源对象的音色。

所述音色模板适于存在用户方便调用的设备中，例如服务器的曲库中，或者服务器中，提供所述音频采样数据的用户的账户信息库中。

为了便于调用所述声纹特征信息的，可以将用户给定的命名标识与所述音频采样数据相对应的声纹特征信息进行关联存储，使用户可以通过所述命名标识而调用其所指向的声纹特征信息相对应的均值向量矩阵。

本实施例的实施，可以取得多方面的优势，包括但不限于如下优势：

请参阅图2，本申请深化的另一实施例中，所述音色提取模型的预训练过程包括如下步骤：

步骤S2100、调用所述音色提取模型从训练样本的梅尔频谱信息中提取出表征该训练样本的音源对象的音色的向量矩阵，对所述向量矩阵进行全连接，获得全连接后的综合向量矩阵，所述综合向量矩阵包括时域上的多个向量矩阵，每个训练样本包含单个音源对象的歌曲清唱发声数据：

结合图3所示，本申请所采用的音色提取模型，在结构上包括一个残差卷积网络、递归神经网络以及全连接层，残差卷积网络适于对训练样本的梅尔频谱信息进行表示学习，而递归神经网络则适于概括并整理出表示学习后的中间向量中的音频纹理特征信息，全连接层可以进一步将递归神经网络整理后的中间向量进行综合，获得综合向量矩阵输出，使综合向量矩阵包括时域上的多个向量矩阵。各个卷积网络均为神经网络模型，关于各个卷积网络如何具体发挥作用，可参照本申请的其他后续实施例的揭示，此处从略。

为实现所述音色提取模型的训练，在所述全连接层之后接入一个分类模型，通过该分类模型将所述全连接层的综合向量矩阵进行分类，使每个输出均能得到相应的分类结果，以便通过所述分类结果实施监督训练。

所述训练样本可以预先制备。变通的实施例中，利用歌手作为标签，搜集不同歌手的歌曲，每个歌手搜集若干首歌曲。歌曲下载完全后，利用本领域技术人员熟知的任意音源分离算法，将歌曲中的伴奏信息消除，再将静音的部分截取去除，只留下音乐中歌声部分，即纯人声演唱部分，由此制备出相应的音频采样数据作为训练所需的样本。通过这种做法，可以搭建了一个涵盖上千歌手、每个歌手包含多首歌曲的训练数据集，训练集中的音频采样数据只有歌声的部分，没有任何伴奏音乐。

至此，所制备的音频采样数据可以作为本申请的音色提取模型的训练样本使用，而其相应的歌手则可作为监督标签使用，在音色提取模型与分类模型的结合下，实际便搭建出一个歌手识别网络，通过所述训练数据集的迭代训练，可以使得整个识别网络适于从一个音频采样数据中识别出对应的歌手，而其中，音色提取模型便习得了对声纹特征信息进行提取的能力，正是在音色提取模型能够分辨出不同歌手的音色的情况下，才使得整个识别网络能够依据音频采样数据正确分辨出歌手身份。由此而得的音色提取模型，其全连接的输出必然包含了音源对象的声纹特征信息。

步骤S2200、调用预设分类模型对所述综合向量矩阵进行分类，以所述训练样本相对应的监督标签对分类结果进行监督，根据监督结果反向传播修正所述音色提取模型的权重参数：

所述的分类模型，一般采用Softmax函数构造以便实现多分类功能，具体而言，分类模型将根据所述的监督标签对一个训练样本的综合向量矩阵进行分类评分，然后，根据评分结果反向传播修正所述音色提取模型的权重参数，使音色提取模型的声纹提取准确度不断提升。

步骤S2300、循环迭代实施对所述音色提取模型的训练，直至所述分类模型的交叉熵损失函数达到收敛状态：

通过采用海量训练样本对所述识别网络进行迭代训练，可以不断提升该识别网络进行歌手分类的准确度，所述分类模型一般采用交叉熵损失函数对目标进行监督，因此，对识别网络进行的迭代训练，止于所述交叉熵损失函数达到收敛状态即可，当然也包括高度逼近所述收敛状态。

本实施例通过先行构造歌手识别网络，在歌手识别网络中利用音色提取模型对训练样本进行声纹特征提取，巧妙地使音色提取模型获得对音频采样数据中包含的音源对象的音色的表示学习能力，使音色提取模型最终适于高效准确地从音频采样数据中提取出相应的音源对象的音色，而构造所述歌手识别网络，只需在音源提取模型的基础上接入分类模型即可实现，在使用音色提取模型用于提取声纹特征时相应去除所述分类模型即可，可见，训练成本低，训练效率高。

请参阅图4，本申请深化的另一实施例中，所述步骤S1100、获取音频采样数据，从中提取出人声发音部分相对应的梅尔频谱信息，包括如下步骤：

步骤S1110、向客户端中的用户推送采样模板信息：

本实施例中，可以由服务器负责维护本申请的音色模板的采集、定制与存储。为此，由该服务器向客户端中的用户推送采样模板信息，以便采集相对应的音频采样数据。

所述的采样模板信息，可以是可以在客户端播放以引导用户唱歌的背景音乐文件，也可以是可以在客户端显示以引导用户朗读或清唱的纯文本文件。客户端用户在收到所述的采样模板信息后，便可对应引用用户进行音频采样数据的采集。

步骤S1120、获取所述客户端提交的音频采样数据，所述音频采样数据包含音源对象朗读或演唱所述音频模板信息而生成的音频数据：

如前所述，客户端的用户对应所述的采样模板信息而录入其语音，对应所述背景音乐文件，可以录入其演唱相对应的音频数据；对应所述纯文本文件，可以录入其朗读相对应的音频数据。

考虑到匹配歌曲创作的需要，用户可优先录入演唱类型的音频数据，以使其音色模板用于音乐辅助创作时，能够实现更好的融合。

客户端录制的音频数据，可以在客户端进一步转换为适于本申请处理的音频采样数据，然后提交至服务器，服务器获取该音频采样数据之后，还可按需做进一步的检测和处理。

步骤S1130、对所述歌曲数据实施音源分离，提取出该音频采样数据中人声部分相对应的音频数据：

本实施例中，为提升音频采样数据的质量，对于客户端提交的音频采样数据，可以音源分离算法对其实施音源分离，使音频采样数据尽量仅包含纯净的人声部分数据，以便确保从中提取出的声纹特征信息更为准确。

步骤S1140、从所述人声部分相对应的音频数据中提取出梅尔频谱信息：

根据语音数据处理原理，在所述人声部分相对应的音频数据的基础上，进一步通过预加重、分帧、快速傅里叶变换、取绝对值或平方值、梅尔滤波、取对数、DCT离散余弦变换等本领域技术人员熟知的流程，来获得相应的梅尔倒谱特征向量，构成所述的梅尔频谱信息，以便后续本申请的音色提取模型可以在此基础上进一步提取出频谱图中的表征音色的声纹特征。

本实施例实现了音色模板的客制化服务，通过服务器向客户端推送采样模板信息，引导客户端提交相应的音频采样数据，辅以对音频采样数据在客户端、服务器端的加工，净化音频采样数据，确保后续进一步借助音色提取模型提取出准确的声纹特征信息，以定制出更符合音源对象原声的音色模板。

请参阅图5，本申请深化的另一实施例中，所述步骤S1200、调用预训练至收敛状态的音色提取模型从所述梅尔频谱信息中提取出表征该音频采样数据的音源对象的音色的向量矩阵集，包括如下步骤：

步骤S1210、沿时域从所述梅尔频谱信息中提取出表征所述音频采样数据的音源对象的音色的多个向量矩阵：

请结合图3，本实施例中，被训练至收敛状态的音色特征模型，可以沿梅尔频谱信息的时域方向，从梅尔频谱信息中提取出表征所述音频采样数据的音源对象的音色的多个向量矩阵，具体可通过如下过程来实现：

步骤S1211、调用残差卷积网络对所述梅尔频谱信息进行表示学习，以获得其中的音频纹理特征信息：

残差卷积网络，其跳层连接结构，可更快速地实现收敛，较为高效。该残差卷积网络在本申请的音色提取模型的应用，在于从所述梅尔频谱信息中提取出中间特征向量，实现对梅尔频谱信息的表示学习，所述的中间特征向量有效表示了梅尔频谱信息中的音色相对应的音频纹理特征信息。

步骤S1212、调用递归神经网络对所述音频纹理特征信息进行整理，以获得综合了所述音频纹理特征信息在时域上的相关性信息的多个向量矩阵：

所述的递归神经网络，一般采用BiLSTM为架构的神经网络模型来构造，使其能够处理序列信息，并且借助注意力关注机制，能够实现对上下文关系的梳理。在此基础上，便可调用该递归神经网络对残差卷积网络获得的表示音频纹理特征信息的中间特征向量做进一步的整理构造出由时域上分布对应的多个向量矩阵，这些向量矩阵由此习得了所棕音频纹理特征信息在时域上的相关性信息。

由此，依据所述的音频采样数据相对应的梅尔频谱信息，经过残差卷积网络和递归神经网络的先后处理后，便获得了用于表征音频采样数据中的音频纹理信息的多个向量矩阵。

步骤S1220、将所述多个向量矩阵进行全连接，获得全连接后的综合向量矩阵，所述综合向量矩阵包括时域上的多个向量矩阵：

所述音色提取模型中的全连接层进一步对所述递归神经网络中输出的多个向量矩阵进行全连接，全连接后便获得综合向量矩阵，其中，所述综合向量矩阵包含时域上的多个向量矩阵。

假设输入的歌曲的时间长度为T，全连接层的神经元数为D，提取全连接层的值后可以得到一个时间长度为T*D的embedding(嵌入向量)矩阵。

步骤S1230、从所述综合向量矩阵中选取时域上最后且连续的若干个向量矩阵，将其构造为所述的向量矩阵集，每个向量矩阵集包含时域上的多个向量矩阵，每个向量矩阵包含多个表征音色的向量：

为了更好地表示音频采样数据相对应的声纹特征，本实施例只从所述综合向量矩阵中选取最后若干个时间维度的向量矩阵，例如选用10个时间维度的向量矩阵，构成所述的向量矩阵集。

在向量矩阵集的基础上，为了实现对声纹特征的抽象综合能力，本实施例以简化的方式，沿时域对各个向量矩阵做向量相加之后求其平均值，得到的1*D的embedding矩阵便可最终作为表征该音频采样数据中人声部分的音色的声纹特征。

本实施例充分发挥了经预训练的音色提取模型的优势，利用其提取出的时域上的若干个向量矩阵求均值之后获得的均值向量矩阵来表示音源对象的声纹特征，由于经过表示学习、上下文整理以及全连接后，所获得的声纹特征充分表现了音源对象的音色，然后经过求均值操作构造出声纹特征信息，使得最终获得的声纹特征信息不仅充分概括了音源对象的音色，也实现对音源对象的音色的深层语义抽象，能够获得符合自然发声习惯的音色模板的基础数据。

请参阅图6，本申请深化的另一实施例中，所述步骤S1400中，生成所述音源对象相对应的音色模板，包括如下步骤：

步骤S1410、获取所述音源对象相对应的均值向量矩阵：

本实施例中，直接将所述均值向量矩阵作为表示音频采样数据的音源对象的音色的声纹特征信息，因此，相应获取该均值向量矩阵，便可用于制作本申请所需的音色模板。

步骤S1420、获取所述音源对象的命名标识：

为了方便检索和调用所述的音色模板，提供客制化便利的服务器，可以要求用户在其客户端处提交其所定制的音色模板相对应的命名标识，或者由服务器自动生成命名标识亦可。

步骤S1430、将所述命名标识与所述均值向量矩阵关联存储为所述的音色模板，添加至提交所述音频采样数据的用户的账户信息库中。

用户提交所述的命名标识后，服务器可以构造出该命名标识与所述均值向量矩阵的映射关系数据，从而构造出所述的音色模板，然后添加到用户的账户信息库中，以便用户在需要时，通过该音色模板的命名标识来调用相应的均值向量矩阵，用做虚拟演唱歌曲合成。

本实施例进一步丰富了客制化流程，提供给用户定制音色模板所需的存储操作步骤，为音色模板的调用奠定基础，使得用户可以自定义自身或他人的音色模板，进一步将自定义的音色模板用于音乐辅助创作。

本申请中，示例性使用的残差卷积网络层组为Res2Net网络结构，而递归神经网络层组则采用3层双向LSTM(BiLSTM)的网络结构。将歌曲的音频采样数据的梅尔频谱信息输入到神经网络后，Res2Net卷积网络可以学习音频频谱的纹理信息，并将其抽象为高维度特征以表征音频频谱中声音的音色特点；之后，将卷积层组输出的抽象特征输入到递归网络层组，通过递归网络层组学习特征在时间序列上的相关性信息，从而更好地从一段音频中描述出音色的所有特征信息；最后，通过全连接层梳理特征信息，并使用交叉信息熵对网络进行歌手分类学习。充分训练后的递归神经网络可以将歌曲正确的分类为各个歌手ID，为之后提取歌声声纹做准备。

需要注意的是，本申请所示的卷积网络层组和递归网络层组的具体结构不局限于举例的结构和网络层数，其具体结构和层数可以根据网络效果和运算效率的需求来平衡选择，例如本申请使用例就是使用1个Res2Net网络结合3层BiLSTM的结构。如果需要提取的歌手声纹信息更准确且无需太多效率上的考量，本发明可以将Res2Net的具体结构参数增大，或者使用更多层卷积网络层组，也可以通过增加递归神经网络的层数以及参数大小来提升时序相关信息的学习效果；如果需要在保证声纹准确性的前提下提升提取的效率，本申请也可以相应的把递归神经网络的层数减少为1或者2，以减少模型的计算量从而提升效率。

此外，本申请使用的多层双向递归神经网络的结构可以使用双向GRU代替双向LSTM，而本申请所使用的残差卷积网络可以使用其他有效的卷积网络结构代替Res2Net。本申请提取全连接层的输出值后，通过计算最后10个时间维度的平均值，最终得到歌声声纹的embedding信息，作为替代实施例，也可以通过计算所有时间维度的平均值，或者取最后1个时间维度的值作为歌声的声纹特征。

请参阅图7，本申请提供的一种音色模板定制装置，适应本申请的音色模板定制方法进行功能化部署，包括：频谱提取模块1100、向量提取模块1200、声纹构造模块1300，以及模板生成模块1400，所述频谱提取模块1100，用于获取音频采样数据，从中提取出人声发音部分相对应的梅尔频谱信息；所述向量提取模块1200，用于调用预训练至收敛状态的音色提取模型从所述梅尔频谱信息中提取出表征该音频采样数据的音源对象的音色的向量矩阵集，该向量矩阵集包括时域上的多个向量矩阵；所述声纹构造模块1300，用于求取所述向量矩阵集中多个向量矩阵之间的均值向量矩阵作为该音源对象的声纹特征信息；所述模板生成模块1400，用于生成所述音源对象相对应的音色模板，所述音色模板包括音源对象的命名标识及由该命名标识所指向的所述声纹特征信息。

深化的实施例中，所述频谱提取模块1100包括：采样推送子模块，用于向客户端中的用户推送采样模板信息；采样获取子模块，用于获取所述客户端提交的音频采样数据，所述音频采样数据包含音源对象朗读或演唱所述音频模板信息而生成的音频数据；音源分离子模块，用于对所述歌曲数据实施音源分离，提取出该音频采样数据中人声部分相对应的音频数据；频谱提取子模块，用于从所述人声部分相对应的音频数据中提取出梅尔频谱信息。

进一步的实施例中，所述向量提取模块1200包括：矩阵提取子模块，用于沿时域从所述梅尔频谱信息中提取出表征所述音频采样数据的音源对象的音色的多个向量矩阵；矩阵连接子模块，用于将所述多个向量矩阵进行全连接，获得全连接后的综合向量矩阵，所述综合向量矩阵包括时域上的多个向量矩阵；矩阵优选子模块，用于从所述综合向量矩阵中选取时域上最后且连续的若干个向量矩阵，将其构造为所述的向量矩阵集，每个向量矩阵集包含时域上的多个向量矩阵，每个向量矩阵包含多个表征音色的向量。

具体化的实施例中，所述矩阵提取子模块包括：残差卷积二级模块，用于调用残差卷积网络对所述梅尔频谱信息进行表示学习，以获得其中的音频纹理特征信息；递归卷积二级模块，用于调用递归神经网络对所述音频纹理特征信息进行整理，以获得综合了所述音频纹理特征信息在时域上的相关性信息的多个向量矩阵。

深化的实施例中，所述声纹构造模块1300被配置为根据时域同步关系对所述向量矩阵集中的多个向量矩阵进行向量相加后求均值，以形成所述的均值向量矩阵。

深化的实施例中，所述模板生成模块1400包括：声纹传入子模块，用于获取所述音源对象相对应的均值向量矩阵；标识获取子模块，用于获取所述音源对象的命名标识；模板存储子模块，用于将所述命名标识与所述均值向量矩阵关联存储为所述的音色模板，添加至提交所述音频采样数据的用户的账户信息库中。

为解决上述技术问题，本申请实施例还提供计算机设备。如图8所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种音色模板定制方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的音色模板定制方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图7中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的音色模板定制装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的音色模板定制方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述音色模板定制方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请能够从音频数据中有效地综合并抽象出表征音源对象的音色的声纹特征信息，有助于辅助音乐创作。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种音色模板定制方法，其特征在于，包括如下步骤：

获取音频采样数据，对所述音频采样数据进行音源分离获得人声部分相对应的音频数据，从该音频数据中提取出人声发音部分相对应的梅尔频谱信息；

调用预训练至收敛状态的音色提取模型从所述梅尔频谱信息中提取出表征该音频采样数据的音源对象的音色的向量矩阵集，该向量矩阵集包括时域上的多个向量矩阵；其中，调用所述音色提取模型中的残差卷积网络对所述梅尔频谱信息进行表示学习以获得音频纹理特征信息，然后调用所述音色提取模型中的递归神经网络整理所述音频纹理特征信息得到综合了所述音频纹理特征信息在时域上的相关性信息的多个向量矩阵；

生成所述音源对象相对应的音色模板，所述音色模板包括音源对象的命名标识及由该命名标识所指向的所述声纹特征信息，所述声纹特征信息相对应的均值向量矩阵适于与音高特征信息、音素特征信息、音序特征信息相对应的向量矩阵相拼接合成为歌曲，以表现出所述音色模板相对应的音源对象的音色。

2.根据权利要求1所述的音色模板定制方法，其特征在于，所述音色提取模型的预训练过程包括如下步骤：

3.根据权利要求1所述的音色模板定制方法，其特征在于，对所述音频采样数据进行音源分离获得人声部分相对应的音频数据，从该音频数据中提取出人声发音部分相对应的梅尔频谱信息，包括如下步骤：

向客户端中的用户推送采样模板信息；

对所述音频采样数据实施音源分离，提取出该音频采样数据中人声部分相对应的音频数据；

从所述人声部分相对应的音频数据中提取出梅尔频谱信息。

4.根据权利要求1所述的音色模板定制方法，其特征在于，调用预训练至收敛状态的音色提取模型从所述梅尔频谱信息中提取出表征该音频采样数据的音源对象的音色的向量矩阵集的步骤包括：

5.根据权利要求1所述的音色模板定制方法，其特征在于，求取所述向量矩阵集中多个向量矩阵之间的均值向量矩阵的步骤中，根据时域同步关系对所述向量矩阵集中的多个向量矩阵进行向量相加后求均值，以形成所述的均值向量矩阵。

6.根据权利要求1所述的音色模板定制方法，其特征在于，生成所述音源对象相对应的音色模板，包括如下步骤：

获取所述音源对象相对应的均值向量矩阵；

获取所述音源对象的命名标识；

7.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的步骤。

8.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。