CN107704631B

CN107704631B - 一种基于众包的音乐标注原子库的构建方法

Info

Publication number: CN107704631B
Application number: CN201711051951.1A
Authority: CN
Inventors: 郭奕; 卿朝进; 张岷涛; 王波; 刘霞; 肖舒予
Original assignee: Xihua University
Current assignee: Xihua University
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2020-12-01
Anticipated expiration: 2037-10-30
Also published as: CN107704631A

Abstract

本发明公开了一种基于众包的音乐标注原子库的构建方法，包括以下步骤：建立集合组；将音符集和音乐集公开发布让用户参与标注和添加；对用户参与标注的音乐集样本进行质量控制并区分出垃圾信息和有效结果；根据用户标注数量和质量对用户支付报酬。本发明一种基于众包的音乐标注原子库的构建方法，通过建立集合组并公开发布征集的方式，可以获得大量的标注数据，从而为多基频估计的人工神经网络提供机器学习所需的训练样本，提高了多基频估计分析的准确度。

Description

一种基于众包的音乐标注原子库的构建方法

技术领域

本发明涉及计算机技术领域，具体涉及一种基于众包的音乐标注原子库的构建方法。

背景技术

在实际的音乐中存在着大量的复调音乐，其本质在于具有大量的同时发声的多个音符，因此不可避免的需要对同时发音的多个音符进行估计，这就需要用到多基频估计技术。多基频估计是自动音乐标注的核心技术之一，很多时候多基频估计技术直接被等同于自动音乐标注技术。多基频估计的根本任务是要估计出一个音乐片段中同时发声的多个音符，而采用的基本方法是为每个音符建立一定的数学模型，再对待检测的音乐片段建立同样的模型，然后进行匹配。建立什么样的数学模型，采用什么样的方法来建立模型以及如何将待检测音乐和标准音符模型进行匹配，是多基频估计技术的关键问题。

多基频估计是属于机器学习的研究范畴，而机器学习本身就是一个跨学科跨领域的一个研究内容，针对一个问题往往需要融合多个学科的方法。针对多基频估计的问题，通常可融合信号处理、音乐知识、统计科学等多方面的知识。在过去的研究方法当中，由于受到当时计算机能力的限制，对于统计学知识的应用还停留在初级阶段，计算的概率分布等数据也是简单的估算，而并非最优结果。近年来，随着电脑技术的发展，人工神经网络迎来了春天，深度学习进入了人们的视野，而各种结构的人工神经网络，能够使得多基频估计方法当中的各种统计学参数能够获得相对更优的结果。

多基频估计最常用的方法之一就是将待测音乐的短时频谱分解到各个标准音符的频谱分量上去，表示为标准音符的各个频谱分量的加权和的形式。这需要事先估计出各标准音符的表示方式，这种表示方式可以直接从待估计音频中得到这些信息，但由于缺少限制条件，获得的模型通常不准确，识别结果也不佳，而由事先的训练学习来得到，会造成很繁琐的数据收集和训练的工作。

发明内容

本发明所要解决的技术问题是现有的多基频估计方式收集样本进行训练学习时，样本数据收集和训练非常繁琐，提高了多基频估计的应用成本，目的在于提供一种基于众包的音乐标注原子库的构建方法，解决上述问题。

本发明通过下述技术方案实现：

一种基于众包的音乐标注原子库的构建方法，其特征在于，包括以下步骤：S1：建立集合组；所述集合组的元素包括：用于储存用户编号的用户集；用于储存标注编号的标注集；用于储存标注数据的数据集；用于储存用户集、标注集和数据集中元素之间关系的超边集；用于储存音符元素的音符集；用于储存音乐信号的音乐集；S2：将音符集和音乐集公开发布让用户参与标注和添加；S3：对用户参与标注的音乐集样本进行质量控制并区分出垃圾信息和有效结果；对于有效结果执行S4；S4：记录参与音符集和音乐集中元素的标注和添加的用户到用户集；记录标注产生标注编号到标注集；记录标注的数据到数据集；记录用户、标注和标注数据之间的关联关系到超边集；记录添加的音符到音符集；记录添加的音乐信号到音乐集；S5：根据用户标注数量和质量对用户支付报酬。

现有技术中，多基频估计需要事先估计出各标准音符的表示方式，这种表示方式可以直接从待估计音频中得到这些信息，但由于缺少限制条件，获得的模型通常不准确，识别结果也不佳，而由事先的训练学习来得到，会造成很繁琐的数据收集和训练的工作。

本发明应用时，先建立集合组，集合组是以多个集合为元素构成的集合，这些元素包括而不限于用户集、标注集、数据集、超边集、音符集和音乐集，然后将音符集和音乐集公开发布让用户参与标注和添加，这里所说的公开发布主要采用互联网或者游戏的方式，并鼓励用户参与标注和添加，由于通过公开发布的方式，可以轻易的获取大量的样本数据，然后对用户参与标注的音乐集样本进行质量控制，从而选取出有效的结果，并将有效结果进行记录，记录的方式采用记录参与音符集和音乐集中元素的标注和添加的用户到用户集；记录标注产生标注编号到标注集；记录标注的数据到数据集；记录用户、标注和标注数据之间的关联关系到超边集；记录添加的音符到音符集；记录添加的音乐信号到音乐集，从而保障了在大量获取样本的同时，可以保证样本的质量；再根据用户标注数量和质量对用户支付报酬，从而提高用户参与整个过程的积极性；上文所说的标注是指对音乐集中的音乐信号进行识别，并标识上音符、间隔、音调、乐器等信息。本发明通过建立集合组并公开发布征集的方式，可以获得大量的标注数据，从而为多基频估计的人工神经网络提供机器学习所需的训练样本，提高了多基频估计分析的准确度。

进一步的，步骤S2包括以下步骤：当用户为一种乐器添加音符时，要求用户输入该乐器演奏的基音原子数据作为音符。

本发明应用时，为了保障样本库的自行更新，所以提供接口允许用户参与乐器的音符添加，当用户为一种乐器添加音符时，要求用户输入该乐器演奏的基音原子数据作为音符，并在后面的步骤S4中，将这些音符添加到音符集中，这样就可以在用户使用的过程中持续的自行更新音符集，从而丰富标注产生的数据。

再进一步的，用户输入的乐器演奏的基音原子数据为72个或88个。

本发明应用时，针对一种乐器，72个基音原子数据一般已经在使用中够用了，而如果需要将这个乐器的音域扩展到钢琴的音域，则需要标准钢琴键盘的88个基音原子数据，如此要求用户输入基音原子数据，可以使得音符库中的音符被完全标准化，有利于以后样本的生成。

再进一步的，步骤S3包括以下子步骤：当步骤S2中用户选择添加音符时，将输入的基音原子数据与音符集中的音符进行频域结构对比；如果频域结构对比不同，则进行人工审查并将通过人工审查的基音原子数据作为有效结果。

本发明应用时，为了对用户添加的音符进行有效的分析和判别，发明人发现提取频域结构进行对比的方式非常快速有效，频域结构可以有效的体现出不同乐器音符的特色，当发现频域结构对比不同的音符时，即认为这可能是一种新录入的乐器，随即进行人工审查，并将通过人工审查的基音原子数据作为有效结果，然后在后面的步骤中储存入音符库，充实了音符库，这样就可以在用户使用的过程中持续的自行更新音符集，从而丰富标注产生的数据。

进一步的，步骤S2包括以下步骤：当用户对音乐进行标注时，从音乐集中选出音乐信号并提供给用户；用户听取音乐信号后并对音乐信号进行标注。

本发明应用时，向用户提供对音乐进行标注的端口，然后从音乐集中选出音乐信号并提供给用户，用户听取音乐信号后并对音乐信号进行标注，这里所说的标注是指对音乐集中的音乐信号进行识别，并标识上音符、间隔、音调、乐器等信息，然后再在后续步骤中，将标注产生的数据储存入数据集，为多基频估计的人工神经网络提供机器学习所需的训练样本，提高了多基频估计分析的准确度。

再进一步的，步骤S3包括以下子步骤：当用户选择对音乐进行标注时，如果两个及以上用户共同标注过的音乐信号不存在标准曲谱，且两个及以上用户的标注数据一致，则标注数据与AMT结果进行对比，当标注数据与AMT结果一致时，则认为标注数据为有效结果；如果两个及以上用户共同标注过的音乐信号存在标准曲谱，且两个及以上用户的标注数据与标准曲谱一致，则认为标注数据为有效结果。

本发明应用时，用户主观性强，而用户行为难以控制，导致标注信息也容易随意化，可能会包含大量的不正常数据，所以必须剔除这些不正常数据，如果完全采用人工审查的方式，势必会产生大量的人工成本。当用户选择对音乐进行标注时，如果两个及以上用户共同标注过的音乐信号不存在标准曲谱，且两个及以上用户的标注数据一致，说明这些用户进行共同标注的部分具有一定的可信性，从而采用AMT结果对这些结果进行比对，虽然AMT结果准确性低于人工审核，但是对于这些有一定可信性的数据，AMT结果的准确性已经足以胜任，实际甄别的准确性可以达到99％以上，这里所说的AMT结果是自动音乐标注的结果，也就是说利用已经训练好的模型对这些标注进行比对，当标注数据与AMT结果一致时，则认为标注数据为有效结果；而如果两个及以上用户共同标注过的音乐信号存在标准曲谱，且两个及以上用户的标注数据与标准曲谱一致时，则可以直接跳过AMT结果，直接认定标注数据为有效结果。这里所说的标准曲谱，是指已经被有效的标注过的曲谱。本发明通过以上的认定方式，可以对大部分的有效标注进行识别，从而节省了人工审查的成本。

再进一步的，步骤S3还包括以下子步骤：将所有不为有效结果和垃圾信息的标注数据进行人工审查，通过的标注数据则认定为有效结果，未通过的标注数据则认定为垃圾信息。

本发明应用时，为了保证有效的标注数据不被错过，对所有不为有效结果和垃圾信息的标注数据进行人工审查，通过的标注数据则认定为有效结果，未通过的标注数据则认定为垃圾信息，经过初步识别以后的数据量已经大幅的下降，所以完全可以对这些数据进行人工审查，从而进一步丰富了数据集中的数据量。

进一步的，步骤S2包括以下步骤：当用户进行音乐创作时，从音符集中选出音符并提供给用户；用户根据音符得出音乐信号。

本发明应用时，音乐集中的音乐数量本身受到初始条件的限制，而本发明创造性的通过向用户提供创作端口，而可以通过用户对音乐集中的音乐进行充实，从而将整个过程形成一个良性循环，向用户提供资源，用户生存标注和新的资源，再将这些新的资源提供给用户，如此循环，就可以源源不断的获取新的标注数据，极大的丰富了训练样本。

再进一步的，步骤S4包括以下子步骤：将用户根据音符得出的音乐信号与音乐集中的音乐信号比较，当差异大于阈值时，将用户得出的音乐信号记录进音乐集。

进一步的，还包括以下步骤：S6：以数据集中的数据元素为样本进行训练并提供给AMT。

本发明应用时，为了保障数据筛选的有效性，发明人创造性的使用了一个循环方法，即采用AMT对数据筛选，而筛选出的数据再用来对AMT进行训练，使得整个过程具有一个自我学习的过程，只需要用户参与，就可以训练出非常成熟的AMT结果。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明一种基于众包的音乐标注原子库的构建方法，通过建立集合组并公开发布征集的方式，可以获得大量的标注数据，从而为多基频估计的人工神经网络提供机器学习所需的训练样本，提高了多基频估计分析的准确度；

2、本发明一种基于众包的音乐标注原子库的构建方法，通过以上的认定方式，可以对大部分的有效标注进行识别，从而节省了人工审查的成本；

3、本发明一种基于众包的音乐标注原子库的构建方法，使得整个过程具有一个自我学习的过程，只需要用户参与，就可以训练出非常成熟的AMT结果。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明数据结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1所示，本发明一种基于众包的音乐标注原子库的构建方法，包括以下步骤：S1：建立集合组；所述集合组的元素包括：用于储存用户编号的用户集；用于储存标注编号的标注集；用于储存标注数据的数据集；用于储存用户集、标注集和数据集中元素之间关系的超边集；用于储存音符元素的音符集；用于储存音乐信号的音乐集；S2：将音符集和音乐集公开发布让用户参与标注和添加；S3：对用户参与标注的音乐集样本进行质量控制并区分出垃圾信息和有效结果；对于有效结果执行S4；S4：记录参与音符集和音乐集中元素的标注和添加的用户到用户集；记录标注产生标注编号到标注集；记录标注的数据到数据集；记录用户、标注和标注数据之间的关联关系到超边集；记录添加的音符到音符集；记录添加的音乐信号到音乐集；S5：根据用户标注数量和质量对用户支付报酬。

本实施例实施时，图1中可见的User为用户集，Tag为标注集，Date为数据集，Edge为超边集，Note为音符集，Music为音乐集，本图只是为更好的理解集合之间的关系的示意图，不对保护范围做任何限定，先建立集合组，集合组是以多个集合为元素构成的集合，这些元素包括而不限于用户集、标注集、数据集、超边集、音符集和音乐集，然后将音符集和音乐集公开发布让用户参与标注和添加，这里所说的公开发布主要采用互联网或者游戏的方式，并鼓励用户参与标注和添加，由于通过公开发布的方式，可以轻易的获取大量的样本数据，然后对用户参与标注的音乐集样本进行质量控制，从而选取出有效的结果，并将有效结果进行记录，记录的方式采用记录参与音符集和音乐集中元素的标注和添加的用户到用户集；记录标注产生标注编号到标注集；记录标注的数据到数据集；记录用户、标注和标注数据之间的关联关系到超边集；记录添加的音符到音符集；记录添加的音乐信号到音乐集，从而保障了在大量获取样本的同时，可以保证样本的质量；再根据用户标注数量和质量对用户支付报酬，从而提高用户参与整个过程的积极性；上文所说的标注是指对音乐集中的音乐信号进行识别，并标识上音符、间隔、音调、乐器等信息。本发明通过建立集合组并公开发布征集的方式，可以获得大量的标注数据，从而为多基频估计的人工神经网络提供机器学习所需的训练样本，提高了多基频估计分析的准确度。

实施例2

本实施例在实施例1的基础上，步骤S2包括以下步骤：当用户为一种乐器添加音符时，要求用户输入该乐器演奏的基音原子数据作为音符。

本实施例实施时，为了保障样本库的自行更新，所以提供接口允许用户参与乐器的音符添加，当用户为一种乐器添加音符时，要求用户输入该乐器演奏的基音原子数据作为音符，并在后面的步骤S4中，将这些音符添加到音符集中，这样就可以在用户使用的过程中持续的自行更新音符集，从而丰富标注产生的数据。

实施例3

本实施例在实施例2的基础上，用户输入的乐器演奏的基音原子数据为72个或88个。

本实施例实施时，针对一种乐器，72个基音原子数据一般已经在使用中够用了，而如果需要将这个乐器的音域扩展到钢琴的音域，则需要标准钢琴键盘的88个基音原子数据，如此要求用户输入基音原子数据，可以使得音符库中的音符被完全标准化，有利于以后样本的生成。

实施例4

本实施例在实施例2的基础上，步骤S3包括以下子步骤：当步骤S2中用户选择添加音符时，将输入的基音原子数据与音符集中的音符进行频域结构对比；如果频域结构对比不同，则进行人工审查并将通过人工审查的基音原子数据作为有效结果。

本实施例实施时，为了对用户添加的音符进行有效的分析和判别，发明人发现提取频域结构进行对比的方式非常快速有效，频域结构可以有效的体现出不同乐器音符的特色，当发现频域结构对比不同的音符时，即认为这可能是一种新录入的乐器，随即进行人工审查，并将通过人工审查的基音原子数据作为有效结果，然后在后面的步骤中储存入音符库，充实了音符库，这样就可以在用户使用的过程中持续的自行更新音符集，从而丰富标注产生的数据。

实施例5

本实施例在实施例1的基础上，步骤S2包括以下步骤：当用户对音乐进行标注时，从音乐集中选出音乐信号并提供给用户；用户听取音乐信号后并对音乐信号进行标注。

本实施例实施时，向用户提供对音乐进行标注的端口，然后从音乐集中选出音乐信号并提供给用户，用户听取音乐信号后并对音乐信号进行标注，这里所说的标注是指对音乐集中的音乐信号进行识别，并标识上音符、间隔、音调、乐器等信息，然后再在后续步骤中，将标注产生的数据储存入数据集，为多基频估计的人工神经网络提供机器学习所需的训练样本，提高了多基频估计分析的准确度。

实施例6

本实施例在实施例5的基础上，步骤S3包括以下子步骤：当用户选择对音乐进行标注时，如果两个及以上用户共同标注过的音乐信号不存在标准曲谱，且两个及以上用户的标注数据一致，则标注数据与AMT结果进行对比，当标注数据与AMT结果一致时，则认为标注数据为有效结果；如果两个及以上用户共同标注过的音乐信号存在标准曲谱，且两个及以上用户的标注数据与标准曲谱一致，则认为标注数据为有效结果。

本实施例实施时，用户主观性强，而用户行为难以控制，导致标注信息也容易随意化，可能会包含大量的不正常数据，所以必须剔除这些不正常数据，如果完全采用人工审查的方式，势必会产生大量的人工成本。当用户选择对音乐进行标注时，如果两个及以上用户共同标注过的音乐信号不存在标准曲谱，且两个及以上用户的标注数据一致，说明这些用户进行共同标注的部分具有一定的可信性，从而采用AMT结果对这些结果进行比对，虽然AMT结果准确性低于人工审核，但是对于这些有一定可信性的数据，AMT结果的准确性已经足以胜任，实际甄别的准确性可以达到99％以上，这里所说的AMT结果是自动音乐标注的结果，也就是说利用已经训练好的模型对这些标注进行比对，当标注数据与AMT结果一致时，则认为标注数据为有效结果；而如果两个及以上用户共同标注过的音乐信号存在标准曲谱，且两个及以上用户的标注数据与标准曲谱一致时，则可以直接跳过AMT结果，直接认定标注数据为有效结果。这里所说的标准曲谱，是指已经被有效的标注过的曲谱。本发明通过以上的认定方式，可以对大部分的有效标注进行识别，从而节省了人工审查的成本。

实施例7

本实施例在实施例5的基础上，步骤S3还包括以下子步骤：将所有不为有效结果和垃圾信息的标注数据进行人工审查，通过的标注数据则认定为有效结果，未通过的标注数据则认定为垃圾信息。

本实施例实施时，为了保证有效的标注数据不被错过，对所有不为有效结果和垃圾信息的标注数据进行人工审查，通过的标注数据则认定为有效结果，未通过的标注数据则认定为垃圾信息，经过初步识别以后的数据量已经大幅的下降，所以完全可以对这些数据进行人工审查，从而进一步丰富了数据集中的数据量。

实施例8

本实施例在实施例1的基础上，步骤S2包括以下步骤：当用户进行音乐创作时，从音符集中选出音符并提供给用户；用户根据音符得出音乐信号。

本实施例实施时，音乐集中的音乐数量本身受到初始条件的限制，而本发明创造性的通过向用户提供创作端口，而可以通过用户对音乐集中的音乐进行充实，从而将整个过程形成一个良性循环，向用户提供资源，用户生存标注和新的资源，再将这些新的资源提供给用户，如此循环，就可以源源不断的获取新的标注数据，极大的丰富了训练样本。

实施例9

本实施例在实施例1的基础上，还包括以下步骤：S6：以数据集中的数据元素为样本进行训练并提供给AMT。

本实施例实施时，为了保障数据筛选的有效性，发明人创造性的使用了一个循环方法，即采用AMT对数据筛选，而筛选出的数据再用来对AMT进行训练，使得整个过程具有一个自我学习的过程，只需要用户参与，就可以训练出非常成熟的AMT结果。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于众包的音乐标注原子库的构建方法，其特征在于，包括以下步骤：

S1：建立集合组；所述集合组的元素包括：用于储存用户编号的用户集；用于储存标注编号的标注集；用于储存标注数据的数据集；用于储存用户集、标注集和数据集中元素之间关系的超边集；用于储存音符元素的音符集；用于储存音乐信号的音乐集；

S2：将音符集和音乐集公开发布让用户参与标注和添加；

S3：对用户参与标注的音乐集样本进行质量控制并区分出垃圾信息和有效结果；对于有效结果执行S4；

S4：记录参与音符集和音乐集中元素的标注和添加的用户到用户集；记录标注产生标注编号到标注集；记录标注的数据到数据集；记录用户、标注和标注数据之间的关联关系到超边集；记录添加的音符到音符集；记录添加的音乐信号到音乐集；

S5：根据用户标注数量和质量对用户支付报酬。

2.根据权利要求1所述的一种基于众包的音乐标注原子库的构建方法，其特征在于，步骤S2包括以下步骤：

当用户为一种乐器添加音符时，要求用户输入该乐器演奏的基音原子数据作为音符。

3.根据权利要求2所述的一种基于众包的音乐标注原子库的构建方法，其特征在于，用户输入的乐器演奏的基音原子数据为72个或88个。

4.根据权利要求2所述的一种基于众包的音乐标注原子库的构建方法，其特征在于，步骤S3包括以下子步骤：

当步骤S2中用户选择添加音符时，将输入的基音原子数据与音符集中的音符进行频域结构对比；如果频域结构对比不同，则进行人工审查并将通过人工审查的基音原子数据作为有效结果。

5.根据权利要求1所述的一种基于众包的音乐标注原子库的构建方法，其特征在于，步骤S2包括以下步骤：

当用户对音乐进行标注时，从音乐集中选出音乐信号并提供给用户；

用户听取音乐信号后并对音乐信号进行标注。

6.根据权利要求5所述的一种基于众包的音乐标注原子库的构建方法，其特征在于，步骤S3包括以下子步骤：

当用户选择对音乐进行标注时，如果两个及以上用户共同标注过的音乐信号不存在标准曲谱，且两个及以上用户的标注数据一致，则标注数据与AMT结果进行对比，当标注数据与AMT结果一致时，则认为标注数据为有效结果；

如果两个及以上用户共同标注过的音乐信号存在标准曲谱，且两个及以上用户的标注数据与标准曲谱一致，则认为标注数据为有效结果。

7.根据权利要求6所述的一种基于众包的音乐标注原子库的构建方法，其特征在于，步骤S3还包括以下子步骤：

将所有不为有效结果和垃圾信息的标注数据进行人工审查，通过的标注数据则认定为有效结果，未通过的标注数据则认定为垃圾信息。

8.根据权利要求1所述的一种基于众包的音乐标注原子库的构建方法，其特征在于，步骤S2包括以下步骤：

当用户进行音乐创作时，从音符集中选出音符并提供给用户；

用户根据音符得出音乐信号。

9.根据权利要求8所述的一种基于众包的音乐标注原子库的构建方法，其特征在于，步骤S4包括以下子步骤：

将用户根据音符得出的音乐信号与音乐集中的音乐信号比较，当差异大于阈值时，将用户得出的音乐信号记录进音乐集。

10.根据权利要求1所述的一种基于众包的音乐标注原子库的构建方法，其特征在于，还包括以下步骤：

S6：以数据集中的数据元素为样本进行训练并提供给AMT。