CN109859770A

CN109859770A - 音乐分离方法、装置及计算机可读存储介质

Info

Publication number: CN109859770A
Application number: CN201910008846.2A
Authority: CN
Inventors: 朱清影; 程宁; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2019-06-07

Abstract

本发明涉及语音语义技术领域，公开了一种音乐分离方法，该方法包括：获取初始样本数据，所述初始样本数据包括多种乐器的初始样本数据，其中一种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面；从所述初始样本数据中选取不同种乐器的初始样本数据进行混合，生成混合音频数据作为训练数据，并基于所述训练数据，训练得到分离乐器声音模型。之后，该方法获取输入的待分离的混合音视频，利用训练后的分离乐器声音模型，从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。本发明还提出一种音乐分离装置以及一种计算机可读存储介质。本发明能为音乐家调整视频、音频提供、便利，分离准确且人力资源消耗少。

Description

音乐分离方法、装置及计算机可读存储介质

技术领域

本发明涉及语音语义技术领域，尤其涉及一种音乐分离方法、装置及计算机可读存储介质。

背景技术

在人们的日常生活中，每天都会产生丰富的视觉和听觉资源。人类的视觉和听觉系统能及时有效的辨别不同的事物，识别看到的物件，并从复杂的环境中辨别定位物件发出的声音。例如，在观看一段乐器演奏的视频时，音乐家通常可以准确的辨别出不同乐器发出的声音。但如音乐家想要调节视频中乐器的音量，就必须将不同乐器的声音从音频中分离出来。深度学习技术被认为能够有效的学习出复杂事物之间的深层连接关系。然而，普通的基于深度学习的图像识别或声音分离的方法，通常需要很多如给图片或音频分类，标注等的人工监督。通常这类人工监督不仅需要耗费很多人力和时间，还需要扎实的专业知识支持。

发明内容

本发明提供一种音乐分离方法、装置及计算机可读存储介质，其主要目的在于实现了利用自主监督的分离乐器声音模型分离乐器声音的方法能为音乐家调整视频的音频提供极大的便利，帮助音乐家准确的定位视频中的声源，能让音乐家轻松的做到乐器声音的提取，便于后期的学习和创作，具有分离准确且人力资源消耗少的优点。

为实现上述目的，本发明还提供一种音乐分离方法，所述方法包括：

获取初始样本数据，所述初始样本数据包括多种乐器的初始样本数据，其中一种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面；

从所述初始样本数据中选取不同种乐器的初始样本数据进行混合，生成混合音频数据作为训练数据；

基于所述训练数据，训练得到分离乐器声音模型；

获取输入的待分离的混合音视频；

利用训练后的分离乐器声音模型，从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。

可选地，所述获取初始样本数据包括：

采集每种乐器演奏的音视频数据；

利用图像提取算法，从该种乐器演奏的音视频数据中获取该种乐器的视频数据及该种乐器的音频数据；

从该种乐器的视频数据的帧图像中提取一个或者多个仅包含该种乐器的画面作为该种乐器的初始样本画面；

从该种乐器的音频数据中提取仅包含该种乐器的演奏声音的数据作为该种乐器的初始样本声音。

可选地，从所述初始样本数据中选取不同种乐器的初始样本数据进行混合，生成混合音频数据作为训练数据包括：

从所述初始样本数据中随机选取不同种的乐器的初始样本数据进行混合，生成混合音频数据作为训练数据。

可选地，所述分离乐器声音模型包括图像处理深度网络模型、声音处理深度网络模型、音频合成深度网络模型。

为了实现上述目的，本发明还提供一种音乐分离装置，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的音乐分离程序，所述音乐分离程序被所述处理器执行时实现如下步骤：

基于所述训练数据，训练得到分离乐器声音模型；

获取输入的待分离的混合音视频；

可选地，所述处理器具体用于：

采集每种该种乐器演奏的音视频数据；

可选地，所述处理器具体用于：

从所述初始样本数据中选取多组数据，并将所述多种数据作为所述训练数据；其中每组数据包括一种或者多种乐器的初始样本数据。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有音乐分离程序，所述音乐分离程序可被一个或者多个处理器执行，以实现如上所述的音乐分离方法的步骤。

本发明获取初始样本数据，所述初始样本数据包括多种乐器的初始样本数据，其中一种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面，生成混合音频数据，得到训练数据，并基于所述训练数据，训练得到分离乐器声音模型。获取输入的待分离的混合音视频，利用训练后的分离乐器声音模型，从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。本发明利用自主监督的分离乐器声音模型分离乐器声音的方法能为音乐家调整视频的音频提供极大的便利，帮助音乐家准确的定位视频中的声源，能让音乐家轻松的做到乐器声音的提取，便于后期的学习和创作，具有分离准确且人力资源消耗少的优点。

附图说明

图1为本发明一实施例提供的音乐分离方法的流程示意图；

图2为本发明一实施例提供的音乐分离装置的内部结构示意图；

图3为本发明一实施例提供的音乐分离装置中音乐分离程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种音乐分离方法。参照图1所示，为本发明一实施例提供的音乐分离方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，音乐分离方法包括：

S10、获取初始样本数据，所述初始样本数据包括多种乐器的初始样本数据，其中一种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面。

可选地，所述获取初始样本数据包括：

采集该种乐器演奏的音视频数据；

从该种乐器的音频数据中提取仅包含该种乐器的演奏声音的数据作为该种乐器的初始样本声音。其中该种乐器的初始样本声音没有杂音，以便于后续训练过程中减少杂音对训练模型的影响。

例如，在钢琴演奏现场，采集钢琴演奏的音视频数据，并按照上述方案得到钢琴的初始样本数据。

S11、从所述初始样本数据中选取不同种乐器的初始样本数据进行混合，生成混合音频数据作为训练数据。

可选地，从所述初始样本数据中随机选取不同种的乐器的初始样本数据进行混合，生成混合音频数据作为训练数据。

在一个或者多个实施例中，多种乐器的初始样本数据都是随机挑选的。这样可以训练数据多种化及复杂化，便于后续训练参数的训练。

S12、并基于所述训练数据，训练得到分离乐器声音模型。

所述图像处理深度网络模型用于将视频画面进行区域划分及视觉特征提取，从而得到至少一个视觉区域，其中每个视觉区域对应一组视觉特征。

所述声音处理深度网络模型用于将音频转换为频谱图，然后将频谱图分离为至少一个音轨。

所述音频合成深度网络模型用于结合视觉区域和音轨，利用音频掩蔽方法确定每个视觉区域掩蔽后的频谱图，最后将频谱图转化为音频输出。

在训练所述分离乐器声音模型时，所述分离乐器声音模型会不停尝试分离同一种乐器的声音，每次分离后，所述分离乐器声音模型会对比分离出的结果和该乐器对应的实际音频，依照实际音频不断改善分离方式。通过训练所述分离乐器声音模型从不同的混合音频中分离出同一种乐器的声音，同时给出含有这种乐器的不同的照片，可以使模型有效的识别这种乐器的声音和图像。通过反复的训练，最终所述分离乐器声音模型可以识别多种不同的乐器的声音及与乐器的声音对应的图像。

所述分离乐器声音模型属于所述深度卷积神经网络模型。所述深度卷积神经网络模型由1个输入层、20个卷积层、6个池化层、3个隐含层、1个分类层构成。所述深度卷积神经网络模型的模型架构如图3所示，其中，Conv a-b(例如，Conv 3-64)表示该层卷积核的维度为a×a，该层卷积核的个数为b；Maxpool2表示所述池化层的池化核的维度为2×2；FC-c(例如，FC-6)表示该隐含层(即：完全连接层)有c个输出节点；Soft-max表示该分类层使用Soft-max分类器对输入的音视频数据进行处理。

在本实施例中，所述分离乐器声音模型的训练过程主要包括：

(1)获取第一预设数量(例如，50万组)的训练数据。

(2)将所述第一预设数量的训练数据依次输入所述分离乐器声音模型，利用预设的训练算法训练所述分离乐器声音模型，并利用第二预设数量的训练数据校验训练后的分离乐器声音模型。

在本实施例中，利用第二预设数量的训练数据校验训练后的分离乐器声音模型，若训练后的分离乐器声音模型的识别准确率大于或等于预设阈值(例如，95％)，则训练完成，后续利用训练后的分离乐器声音模型能从输入的混合音频中分离出于与图像中的乐器所对应的声音。

若训练后的分离乐器声音模型的识别准确率小于预设阈值(例如，95％)，则发出提醒信息，提醒用户增加样本数量重新按照上述步骤(1)-(2)训练所述分离乐器声音模型。整个训练过程中，不需要任何人工的标注，分类等监督，完全由模型自主监督完成，省去和很多人力和时间。

在本实施例中，分离乐器声音模型训练的原理揭露如下：

所述分离乐器声音模型的训练采用第三开源库(Convolutional Architecturefor Fast Feature Embedding，Caffe)自带的Cifar10数据分类任务的参数。Caffe是一个清晰、高效的深度学习框架的开源库，能够自主地从数据上学到有用的特征，特别是对于一些图像等。Cifar10是Caffe中一个数据库。

在本实施例中，所述预设的训练算法为自适应矩估计算法(adaptive momentestimation，Adam)。Adam算法是一种基于随机优化的算法，它在基于momentum(即学习势能，又称为“矩”)的随机梯度下降(Stochastic gradient descent，SGD)算法基础上做了改进。通过自适应地对momentum项进行估计，以加快达到模型训练的目标。

S13、获取输入的待分离的混合音视频。

S14、利用训练后的分离乐器声音模型，从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。

其中，所述训练后的分离乐器声音模型采用上述实施例的方法进行训练。

例如，输入一个现场采集的包括钢琴、小提琴、二胡演奏的混合音视频，利用训练后的分离乐器声音模型，可以得到只有钢琴的第一音频及与第一音频对应的包含钢琴的第一图像；只有小提琴的第二音频及与第二音频对应的包含小提琴的第二图像；只有二胡的第三音频及与第三音频对应的包含二胡的第三图像。

本发明获取初始样本数据，所述初始样本数据包括多种乐器的初始样本数据，其中一种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面，从所述初始样本数据中选取不同种乐器的初始样本数据进行混合，生成混合音频数据作为训练数据，并基于所述训练数据，训练得到分离乐器声音模型。获取输入的待分离的混合音视频，利用训练后的分离乐器声音模型，从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。本发明利用自主监督的分离乐器声音模型分离乐器声音的方法能为音乐家调整视频的音频提供极大的便利，帮助音乐家准确的定位视频中的声源，能让音乐家轻松的做到乐器声音的提取，便于后期的学习和创作，具有分离准确且人力资源消耗少的优点。

本发明还提供一种音乐分离装置。参照图2所示，为本发明一实施例提供的音乐分离装置的内部结构示意图。

在本实施例中，音乐分离装置1可以是PC(Personal Computer，个人电脑)，也可以是智能手机、平板电脑、便携计算机等终端设备。该音乐分离装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是音乐分离装置1的内部存储单元，例如该音乐分离装置1的硬盘。存储器11在另一些实施例中也可以是音乐分离装置1的外部存储设备，例如音乐分离装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括音乐分离装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于音乐分离装置1的应用软件及各类数据，例如音乐分离程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行音乐分离程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在音乐分离装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及音乐分离程序01的音乐分离装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对音乐分离装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有音乐分离程序01；处理器12执行存储器11中存储的音乐分离程序01时实现如下步骤：

获取初始样本数据，所述初始样本数据包括多种乐器的初始样本数据，其中一种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面。

可选地，所述获取初始样本数据包括：

采集每种乐器演奏的音视频数据；

从所述初始样本数据中选取不同种乐器的初始样本数据进行混合，生成混合音频数据作为训练数据。

可选地，所述生成混合音频数据，得到训练数据包括：

从所述初始样本数据中选取多不同乐器的数据，并将所述多种不同乐器的数据进行混合，生成混合音视频数据作为所述训练数据；。

并基于所述训练数据，训练得到分离乐器声音模型。

(1)获取第一预设数量(例如，50万组)的训练数据。

在本实施例中，分离乐器声音模型训练的原理揭露如下：

获取输入的待分离的混合音视频。

可选地，在其他实施例中，音乐分离程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述音乐分离程序在音乐分离装置中的执行过程。

例如，参照图3所示，为本发明音乐分离装置一实施例中的音乐分离程序的程序模块示意图，该实施例中，音乐分离程序可以被分割为板块获取模块10、生成模块20、训练模块30、输出模块40，示例性地：

获取模块10用于获取初始样本数据，所述初始样本数据包括多种乐器的初始样本数据，其中一种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面；

生成模块20用于生成混合音频数据，得到训练数据；

训练模块30用于基于所述训练数据，训练得到分离乐器声音模型。

所述获取模块10还用于获取输入的待分离的混合音视频。所述音乐分离程序可以被分割为：

输出模块40用于利用训练后的分离乐器声音模型，从所述待分离的混合音视频中分离出同一种乐器的声音及与同一种乐器的声音对应的图像。

上述获取模块10、生成模块20、训练模块30、输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有音乐分离程序，所述音乐分离程序可被一个或多个处理器执行，以实现如下操作：

获取初始样本数据，所述初始样本数据包括多种乐器的初始样本数据，其中该种乐器的初始样本数据包括该种乐器的初始样本声音及该种乐器的初始样本画面；

基于所述训练数据，训练得到分离乐器声音模型；

获取输入的待分离的混合音视频；

本发明计算机可读存储介质具体实施方式与上述音乐分离装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音乐分离方法，其特征在于，所述方法包括：

获取初始样本数据，所述初始样本数据包括多种乐器的初始样本数据，其中一种乐器的初始样本数据包括该种乐器的初始样本声音及初始样本画面；

基于所述训练数据，训练得到分离乐器声音模型；

获取输入的待分离的混合音视频；

2.如权利要求1所述的音乐分离方法，其特征在于，所述获取初始样本数据包括：

采集每种乐器演奏的音视频数据；

利用图像提取算法，从一种乐器演奏的音视频数据中获取该种乐器的视频数据及音频数据；

3.如权利要求1所述的音乐分离方法，其特征在于，所述从所述初始样本数据中选取多种乐器的初始样本数据进行混合，生成混合音频数据作为训练数据包括：

从所述初始样本数据中随机选取不同种乐器的初始样本数据进行混合，生成混合音频数据作为训练数据。

4.如权利要求1或3所述的音乐分离方法，其特征在于，所述分离乐器声音模型的训练过程包括：

获取第一预设数量的训练数据；

将所述第一预设数量的训练数据依次输入所述分离乐器声音模型，利用预设的训练算法训练所述分离乐器声音模型，并利用第二预设数量的训练数据校验训练后的分离乐器声音模型。

5.如权利要求1-4任一项所述的音乐分离方法，其特征在于，所述分离乐器声音模型包括图像处理深度网络模型、声音处理深度网络模型、音频合成深度网络模型。

6.一种音乐分离装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的音乐分离程序，所述音乐分离程序被所述处理器执行时实现如下步骤：

基于所述训练数据，训练得到分离乐器声音模型；

获取输入的待分离的混合音视频；

7.如权利要求6所述的音乐分离装置，其特征在于，所述处理器具体用于：

采集每种乐器演奏的音视频数据；

8.如权利要求6所述的音乐分离装置，其特征在于，所述处理器具体用于：

9.如权利要求6至8中任一项所述的音乐分离装置，其特征在于，所述分离乐器声音模型包括图像处理深度网络模型、声音处理深度网络模型、音频合成深度网络模型。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有音乐分离程序，所述音乐分离程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的音乐分离方法的步骤。