CN109829482B

CN109829482B - 歌曲训练数据处理方法、装置及计算机可读存储介质

Info

Publication number: CN109829482B
Application number: CN201910008832.0A
Authority: CN
Inventors: 朱清影; 程宁; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2023-10-27
Anticipated expiration: 2039-01-04
Also published as: CN109829482A

Abstract

本发明涉及语音语义技术领域，公开了一种歌曲训练数据处理方法，该方法包括：获取初始样本数据，所述初始样本数据包括每首歌的乐谱及每首歌的乐谱对应的清唱录音，对初始样本数据进行标注，得到训练数据，并基于所述训练数据，训练得到声学特征输出模型。之后，该方法对目标训练数据进行处理，将所述目标训练数据中每首歌曲的语言学特征和音乐特征作为所述训练后的声学特征输出模型的输入数据，并输出每首歌曲的声学特征，根据所述每首歌曲的声学特征及每首歌曲的音乐特征对每首歌曲进行音高转移。本发明还提出一种歌曲训练数据处理装置以及一种计算机可读存储介质。本发明实现了在不录制额外语料的情况下，提高训练样本数量。

Description

歌曲训练数据处理方法、装置及计算机可读存储介质

技术领域

本发明涉及语音语义技术领域，尤其涉及一种歌曲训练数据处理方法、装置及计算机可读存储介质。

背景技术

歌唱合成的概念一经推出，就一直广受人们的关注，其最终目标是让机器以堪比真人歌手的自然度唱出各种旋律的歌曲。参数合成是歌唱合成的主流技术之一，其技术核心是通过训练模型，让模型学习如何将歌词的语言特征和乐谱的音乐特征转化为歌唱的声学特征。因此，模型的训练是参数合成技术中至关重要的一步，而训练后模型的性能依赖于训练语料的质量。如果某些语境因素少或从未出现在训练语料中，那么模型将不能很好的学习到如何准确的合成这些因素。另外，在所有音乐因素中，音高是影响歌唱质量的主要原因之一，所以使语料均匀而全面的概括各个音高是训练数据时的一大要点，现有技术中需要录制很多训练样本，才能得到全面的概括各个音高的语料，不仅需要非常多的人力，物力和时间，而且音高分布参差不齐。

发明内容

本发明提供一种歌曲训练数据处理方法、装置及计算机可读存储介质，其主要目的在于实现在不录制额外语料的情况下，提高训练样本数量，得到音高分布均匀的训练样本。

为实现上述目的，本发明还提供一种歌曲训练数据处理方法，所述方法包括：

获取初始样本数据，所述初始样本数据包括每首歌的乐谱及每首歌的乐谱对应的清唱录音；

对初始样本数据进行标注，得到训练数据；

基于所述训练数据，训练得到声学特征输出模型；

获取目标训练数据；

提取所述目标训练数据中每首歌曲的语言学特征和音乐特征；

将所述目标训练数据中每首歌曲的语言学特征和音乐特征作为所述训练后的声学特征输出模型的输入数据，并输出每首歌曲的声学特征；

根据所述每首歌曲的声学特征及每首歌曲的音乐特征对每首歌曲进行音高转移。

可选地，所述初始样本数据包括各个音域的歌曲；其中音域指某人声或乐器所能达到的最低音至最高音的范围。

可选地，所述对初始样本数据进行标注，得到训练数据包括：

提取所述初始样本数据中每首歌曲的语言学特征和音乐特征，将每首歌曲的语言学特征和音乐特征作为训练声学特征输出模型的输入参数，其中所述语言学特征包括：歌词的发音、歌词的前后关联；所述音乐特征包括：乐谱的音调、拍号、各音符的音高、音符时长。

可选地，所述基于所述训练数据，训练得到声学特征输出模型包括：

在训练所述声学特征输出模型时，利用训练算法根据每首歌驱的语言学特征和音乐特征输出每首歌的声学特征，并将输出的每首歌的声学特征与每首歌曲的清唱录音进行对比，直至使所述声学特征输出模型能提取每首歌曲的声学特征，其中所述声学特征包括基频和梅尔频谱系数。

可选地，所述根据所述每首歌曲的声学特征及每首歌曲的音乐特征对每首歌曲进行音高转移包括以下过程：

将每个首歌曲的音乐特征中所有音符的音高进行调整包括：将每个首歌曲的音乐特征中所有音符的音高都调高或调低半音，其他所有的音乐特征保持不变；

将每个首歌曲的声学特征中在基频参数上增加或减去半音所对应的基频值，其他的声学特征保持不变。

为实现上述目的，本发明还提供一种歌曲训练数据处理装置，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的歌曲训练数据处理程序，所述歌曲训练数据处理程序被所述处理器执行时实现如下步骤：

对初始样本数据进行标注，得到训练数据；

基于所述训练数据，训练得到声学特征输出模型；

获取目标训练数据；

可选地，所述歌曲训练数据处理程序还可被所述处理器执行，实现如下步骤：

所述基于所述训练数据，训练得到声学特征输出模型包括：

在训练所述声学特征输出模型时，利用训练算法根据每首歌驱的语言学特征和音乐特征输出每首歌的声学特征，并将输出的每首歌的声学特征与每首歌曲的清唱录音进行对比，直至可以使所述声学特征输出模型能提取每首歌曲的声学特征，其中所述声学特征包括基频和梅尔频谱系数。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有歌曲训练数据处理程序，所述歌曲训练数据处理程序可被一个或者多个处理器执行，以实现如上所述的歌曲训练数据处理方法的步骤。

本发明公开了一种歌曲训练数据处理方法，该方法包括：获取初始样本数据，所述初始样本数据包括每首歌的乐谱及每首歌的乐谱对应的清唱录音，对初始样本数据进行标注，得到训练数据，并基于所述训练数据，训练得到声学特征输出模型。并对目标训练数据进行处理，将所述目标训练数据中每首歌曲的语言学特征和音乐特征作为所述训练后的声学特征输出模型的输入数据，并输出每首歌曲的声学特征，根据所述每首歌曲的声学特征及每首歌曲的音乐特征对每首歌曲进行音高转移。本发明实现了在不录制额外语料的情况下，提高训练样本数量。

附图说明

图1为本发明一实施例提供的歌曲训练数据处理方法的流程示意图；

图2为本发明一实施例提供的歌曲训练数据处理装置的内部结构示意图；

图3为本发明一实施例提供的歌曲训练数据处理装置中歌曲训练数据处理程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种歌曲训练数据处理方法。参照图1所示，为本发明一实施例提供的歌曲训练数据处理方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，歌曲训练数据处理方法包括：

S10、获取初始样本数据，所述初始样本数据包括每首歌的乐谱及每首歌的乐谱对应的清唱录音。

优选地，所述初始样本数据包括各个音域的歌曲。其中音域指某人声或乐器所能达到的最低音至最高音的范围。各音区的特性音色在音乐表现中，有着重大的作用。高音区一般具有清脆、嘹亮、尖锐的特性；而低音区则往往给人以浑厚、厚重之感。因此，在初始样本数据中尽可能多的包含各个音域的歌曲，可以尽量获得各个音符的音高的数据，便于后续再训练模型时，使模式参数能平衡各个音高的数据分布。

S11、对初始样本数据进行标注，得到训练数据。

可选地，对初始样本数据进行标注，得到训练数据包括：

提取所述初始样本数据中每首歌曲的语言学特征和音乐特征，将每首歌曲的语言学特征和音乐特征作为训练声学特征输出模型的输入参数，其中所述语言学特征包括，但不限于：歌词的发音、歌词的前后关联。所述音乐特征包括，但不限于：乐谱的音调、拍号、各音符的音高、音符时长等等。

S12、基于所述训练数据，训练得到声学特征输出模型。

优选地，所述声学特征包括，但不限于：基频和梅尔频谱系数等。音高是通过基频参数体现的。

可选地，在训练所述声学特征输出模型时，利用训练算法所述声学特征输出模型会不停尝试根据每首歌的语言学特征和音乐特征输出每首歌的声学特征，并将输出的每首歌的声学特征与实际的每首歌的清唱录音进行对比，直至可以使模型有效的提取每首歌曲的声学特征。通过反复的训练，最终所述声学特征输出模型可以提取每首歌的声学特征。

所述声学特征输出模型属于所述深度卷积神经网络模型。所述深度卷积神经网络模型由1个输入层、20个卷积层、6个池化层、3个隐含层、1个分类层构成。所述深度卷积神经网络模型的模型架构如图3所示，其中，Conv a-b(例如，Conv 3-64)表示该层卷积核的维度为a×a，该层卷积核的个数为b；Maxpool2表示所述池化层的池化核的维度为2×2；FC-c(例如，FC-6)表示该隐含层(即：完全连接层)有c个输出节点；Soft-max表示该分类层使用Soft-max分类器对输入的音视频数据进行处理。

在本实施例中，所述声学特征输出模型的训练过程主要包括：

(1)获取第一预设数量(例如，50万组)的训练数据。

(2)将所述第一预设数量的训练数据依次输入所述声学特征输出模型，利用预设的训练算法训练所述声学特征输出模型，并利用第二预设数量的训练数据校验训练后的声学特征输出模型。

在本实施例中，利用第二预设数量的训练数据校验训练后的声学特征输出模型，若训练后的声学特征输出模型的识别准确率大于或等于预设阈值(例如，95％)，则训练完成，后续利用训练后的声学特征输出模型能从输入的混合音频中分离出于与图像中的乐器所对应的声音。

若训练后的声学特征输出模型的识别准确率小于预设阈值(例如，95％)，则发出提醒信息，提醒用户增加样本数量重新按照上述步骤(1)-(2)训练所述声学特征输出模型。整个训练过程中，不需要任何人工的标注，分类等监督，完全由模型自主监督完成，省去和很多人力和时间。

在本实施例中，声学特征输出模型训练的原理揭露如下：

所述声学特征输出模型的训练采用第三开源库(Convolutional Architecturefor Fast Feature Embedding，Caffe)自带的Cifar10数据分类任务的参数。Caffe是一个清晰、高效的深度学习框架的开源库，能够自主地从数据上学到有用的特征，特别是对于一些图像等。Cifar10是Caffe中一个数据库。

在本实施例中，所述预设的训练算法为自适应矩估计算法(adaptive momentestimation，Adam)。Adam算法是一种基于随机优化的算法，它在基于momentum(即学习势能，又称为“矩”)的随机梯度下降(Stochastic gradient descent，SGD)算法基础上做了改进。通过自适应地对momentum项进行估计，以加快达到模型训练的目标。

S13、获取目标训练数据。

在本实施例中，所述目标训练数据为用于训练模型的训练样本。可以从存储器中直接读取目标训练数据。

在一具体实现中，目标训练数据存储于云端中，可以从云端中下载目标训练数据。

S14、提取所述目标训练数据中每首歌曲的语言学特征和音乐特征。

在本实施例中，其中所述语言学特征包括，但不限于：歌词的发音、歌词的前后关联。所述音乐特征包括，但不限于：乐谱的音调、拍号、各音符的音高、音符时长等等。

S15、将所述目标训练数据中每首歌曲的语言学特征和音乐特征作为所述训练后的声学特征输出模型的输入数据，并输出每首歌曲的声学特征。

其中，所述训练后的声学特征输出模型采用上述实施例的方法进行训练。

S16、根据所述每首歌曲的声学特征及每首歌曲的音乐特征对每首歌曲进行音高转移。

优选地，所述根据所述每首歌曲的声学特征及每首歌曲的音乐特征对每首歌曲进行音高转移包括以下过程：

将每个首歌曲的音乐特征中所有音符的音高进行调整包括：将每个首歌曲的音乐特征中所有音符的音高都调高或调低半音，其他所有的音乐特征保持不变。

本发明获取初始样本数据，所述初始样本数据包括每首歌的乐谱及每首歌的乐谱对应的清唱录音，对初始样本数据进行标注，得到训练数据，并基于所述训练数据，训练得到声学特征输出模型。并对目标训练数据进行处理，将所述目标训练数据中每首歌曲的语言学特征和音乐特征作为所述训练后的声学特征输出模型的输入数据，并输出每首歌曲的声学特征，根据所述每首歌曲的声学特征及每首歌曲的音乐特征对每首歌曲进行音高转移。利用这种音高转移的方式，在不录制额外语料的情况下，数据量增加到了原来的三倍(原版，升半音和降半音)。在出现单个音高数据不足，但邻近的音高数据充足的问题时，该方法能有效且准确的补足了原本不足的音高数据，同时已经数据充足的音高不会被在过度扩充，有效的实现了数据在音高上的分布平均化。

本发明还提供一种歌曲训练数据处理装置。参照图2所示，为本发明一实施例提供的歌曲训练数据处理装置的内部结构示意图。

在本实施例中，歌曲训练数据处理装置1可以是个人电脑(Personal Computer，PC)，也可以是智能手机、平板电脑、便携计算机等终端设备。该歌曲训练数据处理装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是歌曲训练数据处理装置1的内部存储单元，例如该歌曲训练数据处理装置1的硬盘。存储器11在另一些实施例中也可以是歌曲训练数据处理装置1的外部存储设备，例如歌曲训练数据处理装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括歌曲训练数据处理装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于歌曲训练数据处理装置1的应用软件及各类数据，例如歌曲训练数据处理程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行歌曲训练数据处理程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在歌曲训练数据处理装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及歌曲训练数据处理程序01的歌曲训练数据处理装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对歌曲训练数据处理装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图3所示的装置1实施例中，存储器11中存储有歌曲训练数据处理程序01；处理器12执行存储器11中存储的歌曲训练数据处理程序01时实现如下步骤：

获取初始样本数据，所述初始样本数据包括每首歌的乐谱及每首歌的乐谱对应的清唱录音。

对初始样本数据进行标注，得到训练数据。

可选地，对初始样本数据进行标注，得到训练数据包括：

基于所述训练数据，训练得到声学特征输出模型。

可选地，在训练所述声学特征输出模型时，所述声学特征输出模型会不停尝试根据每首歌的语言学特征和音乐特征输出每首歌的声学特征，并将输出的每首歌的声学特征与实际的每首歌的清唱录音进行对比，直至可以使模型有效的提取每首歌曲的声学特征。通过反复的训练，最终所述声学特征输出模型可以提取每首歌的声学特征。

(1)获取第一预设数量(例如，50万组)的训练数据。

在本实施例中，声学特征输出模型训练的原理揭露如下：

获取目标训练数据。

提取所述目标训练数据中每首歌曲的语言学特征和音乐特征。

将所述目标训练数据中每首歌曲的语言学特征和音乐特征作为所述训练后的声学特征输出模型的输入数据，并输出每首歌曲的声学特征。

可选地，在其他实施例中，歌曲训练数据处理程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述歌曲训练数据处理程序在歌曲训练数据处理装置中的执行过程。

例如，参照图3所示，为本发明歌曲训练数据处理装置一实施例中的歌曲训练数据处理程序的程序模块示意图，该实施例中，歌曲训练数据处理程序可以被分割为板块获取模块10、标注模块20、训练模块30、提取模块40，输出模块50、转移模块60，示例性地：

获取模块10用于：获取初始样本数据，所述初始样本数据包括每首歌的乐谱及每首歌的乐谱对应的清唱录音。

标注模块20用于：对初始样本数据进行标注，得到训练数据。

训练模块30用于：基于所述训练数据，训练得到声学特征输出模型。

提取模块40提取所述目标训练数据中每首歌曲的语言学特征和音乐特征；

输出模块50将所述目标训练数据中每首歌曲的语言学特征和音乐特征作为所述训练后的声学特征输出模型的输入数据，并输出每首歌曲的声学特征；

转移模块60根据所述每首歌曲的声学特征及每首歌曲的音乐特征对每首歌曲进行音高转移。

上述获取模块10、标注模块20、训练模块30、提取模块40、输出模块50及转移模块60等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有歌曲训练数据处理程序，所述歌曲训练数据处理程序可被一个或多个处理器执行，以实现如下操作：

对初始样本数据进行标注，得到训练数据；

基于所述训练数据，训练得到声学特征输出模型。

获取目标训练数据；

本发明计算机可读存储介质具体实施方式与上述歌曲训练数据处理装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种歌曲训练数据处理方法，应用于电子装置，其特征在于，所述方法包括：

对初始样本数据进行标注，得到训练数据；

基于所述训练数据，训练得到声学特征输出模型；

获取目标训练数据；

将所述目标训练数据中每首歌曲的语言学特征和音乐特征作为训练后的声学特征输出模型的输入数据，并输出每首歌曲的声学特征；

根据所述每首歌曲的声学特征及每首歌曲的音乐特征对每首歌曲进行音高转移；

其中，所述对初始样本数据进行标注，得到训练数据包括：提取所述初始样本数据中每首歌曲的语言学特征和音乐特征，将每首歌曲的语言学特征和音乐特征作为训练声学特征输出模型的输入参数，其中所述语言学特征包括：歌词的发音、歌词的前后关联；所述音乐特征包括：乐谱的音调、拍号、各音符的音高、音符时长；

所述基于所述训练数据，训练得到声学特征输出模型包括：在训练所述声学特征输出模型时，利用训练算法根据每首歌曲的语言学特征和音乐特征输出每首歌的声学特征，将输出的每首歌的声学特征与每首歌曲的清唱录音进行对比，直至使所述声学特征输出模型能提取每首歌曲的声学特征，其中所述声学特征包括基频和梅尔频谱系数；

所述根据所述每首歌曲的声学特征及每首歌曲的音乐特征对每首歌曲进行音高转移包括以下过程：将每首歌曲的音乐特征中所有音符的音高进行调整包括：将每首歌曲的音乐特征中所有音符的音高都调高或调低半音，其他所有的音乐特征保持不变；将每首歌曲的声学特征中在基频参数上增加或减去半音所对应的基频值，其他的声学特征保持不变。

2.如权利要求1所述的歌曲训练数据处理方法，其特征在于，所述初始样本数据包括各个音域的歌曲；其中音域指某人声或乐器所能达到的最低音至最高音的范围。

3.一种歌曲训练数据处理装置，用于实现如权利要求1至2中任一项所述的歌曲训练数据处理方法，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的歌曲训练数据处理程序，所述歌曲训练数据处理程序被所述处理器执行时实现如下步骤：

对初始样本数据进行标注，得到训练数据；

基于所述训练数据，训练得到声学特征输出模型；

获取目标训练数据；

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有歌曲训练数据处理程序，所述歌曲训练数据处理程序可被一个或者多个处理器执行，以实现如权利要求1至2中任一项所述的歌曲训练数据处理方法的步骤。