CN105138617A

CN105138617A - 一种音乐自动定位和注解系统及方法

Info

Publication number: CN105138617A
Application number: CN201510490065.3A
Authority: CN
Inventors: 杨刚; 许洁萍
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2015-08-07
Filing date: 2015-08-07
Publication date: 2015-12-09

Abstract

本发明涉及一种音乐自动定位和注解系统及方法，其特征在于：它包括数据预处理模块、音乐定位模块、音乐注解模块、结果展示模块和音乐信息数据库；数据预处理模块从待分类多媒体数据或带标签的音乐数据中提取音频片段的MFCC特征发送到音乐定位模块；音乐定位模块根据音频MFCC特征得到所有音乐片段的起点和长度信息后发送到音乐注解模块；音乐注解模块从音乐信息数据库中找到与音乐定位模块所得到的音乐片段相似度最高的音乐数据和其相关注解信息，并发送到结果展示模块；结果展示模块通过用户交互界面将接收到的注解信息呈现给用户；用户对得到的注解信息进行有效性验证，并通过用户交互界面将验证结果反馈到音乐信息数据库。本发明可以广泛应用于音乐自动定位和注解领域中。

Description

一种音乐自动定位和注解系统及方法

技术领域

本发明涉及音频信号处理和多媒体信息检索系统技术领域，特别是关于一种复杂音频环境中基于音频指纹特征的音乐自动定位和注解系统及方法。

背景技术

音乐是多媒体信息的重要呈现形式，在电视节目、电影、广告等信息传播形式中随处可见，但在节目中使用未经授权的音乐就使得版权所有人蒙受巨大的损失。如今音乐创作者们越来越注重音乐版权保护问题，因此嵌入到商业媒体中的音乐应该有效的避免侵权问题。目前，一些音乐维权机构，如中国音乐著作权协会(MCSC)对电视节目等商业媒体中音乐使用的审查主要是借助人工方式。通过观看电视节目找到其中的音乐位置和相关信息，进而进行版本保护工作。然而，人工方式审查存在诸多问题，如工作量大、效率低、易遗漏等。这些都增加了音乐维权的成本。

目前已公开的专利中，已有若干根据音频指纹特征进行音乐检索的专利技术，采取的检索方式也大同小异，如倒排索引、智能分类等技术，有的甚至正是为探测音乐侵权行为设计的。但是这些专利技术都不能对复杂音频环境中的音乐进行定位、检索。如一些在线音乐盗版监控系统虽然能够在检测出可能的侵权行为后，自动向侵权者发出警告，并同时完成对侵权行为的调查取证工作。但这类系统却不能检测出含有音乐作品的复杂音/视频资料中的音乐作品侵权行为。另外，北京邮电大学模式识别实验室围绕“复杂音频环境下的音频事件探测”这一课题发表了多篇论文。但其相关研究并没有对“音乐”这一分类做研究，甚至没有将它作为若干种音频分类中的一种。目前还没有在像电视节目这种复杂的环境下对音乐的检索的商业化系统。

发明内容

针对上述问题，本发明的目的是提供一种可靠性高、效率高，可以在复杂音频环境中对音乐进行准确定位和注解的音乐自动定位和注解系统及方法。

为实现上述目的，本发明采取以下技术方案：一种音乐自动定位和注解系统，其特征在于：它包括数据预处理模块、音乐定位模块、音乐注解模块、结果展示模块和音乐信息数据库；所述数据预处理模块从待分类多媒体数据或带标签的音乐数据中分离出独立的音频文件进行切片处理后，从音频切片中提取音频片段的MFCC特征发送到所述音乐定位模块；所述音乐定位模块根据音频MFCC特征对所有音频切片进行分类，并得到所有音乐片段的起点和长度信息后发送到所述音乐注解模块；所述音乐注解模块从所述音乐信息数据库中找到与所述音乐定位模块所得到的音乐片段相似度最高的音乐数据和其相关注解信息，并发送到所述结果展示模块；所述结果展示模块通过用户交互界面将接收到的注解信息呈现给用户；所述用户对得到的注解信息进行有效性验证，并通过所述用户交互界面将验证结果反馈到所述音乐信息数据库。

所述数据预处理模块包括数据录入模块、音频分离模块、音频切片模块和音频特征抽取模块；所述数据录入模块将待分类多媒体数据或带标签的音乐数据发送到所述音频分离模块；所述音频分离模块从待分类多媒体数据或带标签的音乐数据中分离出独立的音频文件后发送到所述音频切片模块；所述音频切片模块对音频文件进行切片处理，得到大量的音频切片后发送到所述音频特征抽取模块；所述音频特征抽取模块从所有音频切片中提取音频片段的MFCC特征，并将待分类的音频片段的MFCC特征发送到所述音乐定位模块，将带标签的音频片段的MFCC特征数据发送到所述音乐信息数据库。

所述音乐定位模块包括训练分类器、音频片段分类模块以及音乐起点和长度检测模块；所述训练分类器根据所述音乐信息数据库中带标签的音频片段的MFCC特征作为样本进行训练；所述音频片段分类模块基于接收到的待分类的音频片段的MFCC特征，使用所述训练分类器将所有音频切片分为三类，并将分类结果发送到所述音乐起点和长度检测模块；所述音乐起点和长度检测模块根据分类结果确定对所有音乐片段进行定位，即确定每首音乐片段的音乐起点和长度信息。

所述音乐注解模块包括音乐片段指纹提取模块和检索模块；所述音乐片段指纹提取模块从已定位的每首音乐片段中分别抽取两片音频指纹，并发送到所述检索模块；所述检索模块根据提取的音频指纹从所述音乐信息数据库中找到与各首音乐片段相似度最大的音乐数据和其注解信息，并发送到所述结果展示模块。

一种音乐自动定位和注解方法，包括以下步骤：1)数据预处理模块从录入的待分类多媒体数据中分离出独立的音频文件进行切片处理得到音频切片，从音频切片中提取MFCC特征后发送到音乐定位模块的音频片段分类模块；2)音频片段分类模块基于接收到的MFCC特征，使用训练分类器将所有音频切片分为三类，并将分类结果发送到音乐起点和长度检测模块；3)基于上述分类结果，音乐起点和长度检测模块按照要求对音乐片段进行定位，找出步骤1)所分离出的音频文件中所有音乐片段的音乐起点和音乐长度信息，并发送到音乐注解模块的音频片段指纹提取模块；4)音乐注解模块中的音频片段指纹提取模块从已被定位的每首音乐片段中分别抽取两片音频指纹，并发送到检索模块；5)检索模块根据音频指纹从音乐信息数据库中找到与音频文件中的音乐片段相似度最大的音乐及其相关的注解信息，并将注解信息发送到结果展示模块；6)结果展示模块通过用户交互界面将匹配到的注解信息呈现给用户；7)用户对得到的注解信息进行有效性验证，当发现错误时，通过用户交互界面对产生的错误进行更正，并上传到音乐信息数据库，音乐信息数据库根据用户反馈的信息进行修正。

所述步骤3)中，音乐起点是指音乐片段的起点，音乐起点用x_s表示，当音频切片x_i满足下面两个条件中的任意一个时，即为音乐起点x_s：

①x_i-1＝0并且(x_i+j＝2或x_i+j＝1)；j＝0，1，2，...，M；

②x_i-1＝1并且x_i+j＝2，j＝1，2，...，M；或者满足限定①；

式中，M表示所需查找音乐片段的长度阈值。

所述步骤3)中，音乐长度是指连续的音乐片段的大小，用I表示音频切片序列的索引，则音乐长度L_len表示有以下两种情况：

①L_len＝I_xe-I_xs，其中x_e＝0，且当前音乐的音乐起点x_s到最后一个音频切片x_e中间的任何一个音频切片的分类都不为0；

②L_len＝I_xe-I_xs，其中x_e＝0，若当前音乐中出现同时满足两个音乐起点定义的音乐起点出现时，则选择满足音乐起点条件①的音乐起点x_s的索引；且当前音乐的音乐起点x_s到最后一个音频切片x_e中间任何一个音频切片的分类都不为0。

本发明由于采取以上技术方案，其具有以下优点：1、本发明由于设置有数据预处理模块，其可以从待分类的多媒体数据中分离出独立的音频文件，进而对分离出的音频文件进行定位和分类，有效的降低了在复杂的音频环境中，对音乐审查的人工成本。2、本发明由于采用MFCC特征作为音频特征，在无需抽取足够多的数据条件下，可以很好的表示音频文件的音频特征，很好的平衡了复杂性和有效性问题。3、本发明由于设置有闭环自检策略，用户对返回的分类结果进行有效性验证发现错误时，可以及时反馈回音乐信息数据库中，提高了可靠性。4、本发明由于在使用和运行过程中，不断的有新的带标签的音乐数据作为分类训练器的样本数据，可以有效提高训练分类器的精度，使得本发明可靠性进一步提高。本发明可以有效的在海量的多媒体数据中快速准确的对音乐进行定位和注解，进而为快速有效的开展音乐维权活动提供了保障，可以广泛应用于多媒体数据中音乐的快速检索领域。

附图说明

图1是本发明结构示意图

图2是本发明方法流程示意图

图3是本发明的用户交互界面示例图

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

如图1所示，本发明音乐自动定位和注解系统包括数据预处理模块1、音乐定位模块2、音乐注解模块3、结果展示模块4和音乐信息数据库5。数据预处理模块1从待分类多媒体数据或带标签的音乐数据中分离出独立的音频文件进行切片处理后，从音频切片中提取音频MFCC特征发送到音乐定位模块2。音乐定位模块2根据音频MFCC特征对所有音频切片进行分类，并得到所有音乐片段的起点和长度信息后发送到音乐注解模块3。音乐注解模块3从音乐信息数据库5中找到与音乐定位模块2所得到的音乐片段相似度最高的音乐数据和其相关注解信息，并发送到结果展示模块4。结果展示模块4通过用户交互界面将接收到的注解信息呈现给用户。用户对得到的注解信息进行有效性验证，并通过用户交互界面将验证结果反馈到音乐信息数据库5，形成闭环。

其中，数据预处理模块1包括数据录入模块11、音频分离模块12、音频切片模块13和音频特征抽取模块14。数据录入模块11将待分类多媒体数据或带标签的音乐数据发送到音频分离模块12；音频分离模块12从待分类多媒体数据或带标签的音乐数据中分离出独立的音频文件后发送到音频切片模块13；音频切片模块13对音频文件进行切片处理，得到大量的音频切片后发送到音频特征抽取模块14；音频特征抽取模块14从所有音频切片中提取音频片段的MFCC特征，并将待分类的音频片段的MFCC特征发送到音乐定位模块2，将带标签的音频片段的MFCC特征发送到音乐信息数据库5。

音乐定位模块2包括训练分类器21、音频片段分类模块22以及音乐起点和长度检测模块23。训练分类器21根据音乐信息数据库5中带标签的音频片段的MFCC特征作为样本进行训练。音频片段分类模块22基于接收到的待分类的音频片段的MFCC特征，使用训练分类器21将所有音频切片分为三类，并将分类结果发送到音乐起点和长度检测模块23。音乐起点和长度检测模块23根据分类结果确定对所有音乐片段进行定位，即确定每首音乐片段的音乐起点和长度信息。

音乐注解模块3包括音乐片段指纹提取模块31和检索模块32。音乐片段指纹提取模块31从已定位的每首音乐片段中分别抽取两片音频指纹，并发送到检索模块33。检索模块33根据提取的音频指纹从音乐信息数据库5中找到与各首音乐片段相似度最大的音乐数据和其注解信息，并发送到结果展示模块4。

如图2所示，基于上述音乐自动定位和注解系统，本发明还提出了一种音乐自动定位和注解方法，包括以下步骤：

1)数据预处理模块1从录入的待分类多媒体数据中分离出独立的音频文件进行切片处理得到音频切片，从音频切片中提取MFCC特征后发送到音乐定位模块2的音频片段分类模块。

本发明以视频文件为例做进一步介绍，但不限于此。音频分离模块12从视频文件中分离出独立的音频文件后发送到音频切片模块13。音频切片模块13对音频文件进行切片处理，即以固定时长将音频文件切分成大量的定长音频切片，本发明中以时长一秒对音频文件进行切分，每一个音频切片用x_i表示，i＝1，2，…，n，其中n表示音频文件切片的总数量。音频特征抽取模块14从所有音频切片中抽取MFCC特征，并发送到音频定位模块2。采用音频的MFCC特征(MelFrequencyCepstrumCoefficient，频率倒谱系数)作为音频切片的提取特征，是由于音频的MFCC特征能够很好的表示信号频谱包络，而信号频谱包络与音色极其相关，其能够区分不同音频片段。

2)音频片段分类模块22基于接收到的MFCC特征，使用训练分类器21将所有音频切片分为三类，并将分类结果发送到音乐起点和长度检测模块23。

为了获得音乐片段的起点和长度，需要对音频的内容进行分类。本发明根据音频的内容将音频切片分为非音乐、混合音乐和纯音乐三类，且非音乐表示为x_i＝0；混合音乐表示为x_i＝1；纯音乐表示为x_i＝2，i＝1，2，…，n。音频片段分类模块22基于接收到的音频MFCC特征，使用训练分类器21即可得到音频片段的分类结果，训练分类器21是基于音乐信息数据库5中的数据训练出来的。

音乐信息数据库5包括指纹库和音乐注解库，其中，指纹库是由一些32位的子带数据构建的，其内存储了大量的从电视视频流中获得歌曲的音频指纹。音乐注解库包含一个查找表，该查找表中存储有所有可能的32位子指纹条目。音乐注解库内存储了大量与指纹库中存储的音频指纹相关的注解信息，如作者、标题、歌手、电视频道和音乐长度等，也就是说，指纹库中的每一条音频指纹在音乐注解库中均对应一个相关注解信息。指纹库与音乐注解库的构建方法为已有技术，在此不再赘述。其中，音频指纹技术是基于音乐频率域来计算音频切片的音频指纹，每一首歌都可以用独一无二的音频指纹表示，将音乐频率域的子带能量量化到(0，1)内，这样可以节省很多存储空间，且音频指纹技术允许在一定噪声干扰情况下找到几乎相同的音乐数据。

训练分类器21是一层使用RCF内核的支持向量机(SVM)组成的，SVM从音乐信息数据库5中抽取带有标签的音频MFCC特征作为训练样本，将其分为非音乐、混合音乐和纯音乐对训练分类器21进行训练。其中，SVM是分类中常用方法，本发明不再赘述。在本发明音乐自动定位和注解系统的使用和运行过程中，会不断的自动从权威的音乐网站上抓取带标签的音乐数据或后续手工录入新的带标签的数据，由数据预处理模块1提取其音频MFCC特征后，作为训练分类器21的样本数据保存到音乐信息数据库5中，以提高训练分类器21的精度。

3)基于上述分类结果，音乐起点和长度检测模块23按照要求对音乐片段进行定位，即找出步骤1)所分离出的音频文件中所有音乐片段的音乐起点和音乐长度信息，并发送到音乐注解模块3中。

其中，音乐起点是指音乐片段的起点，音乐起点用x_s表示，当音频切片x_i满足下面两个条件中的任意一个时，即为音乐起点x_s：

①x_i-1＝0并且(x_i+j＝2或x_i+j＝1)；j＝0，1，2，...，M；

②x_i-1＝1并且x_i+j＝2，j＝1，2，...，M；或者满足限定①；

式中，M表示所需查找音乐片段的长度阈值，其用于划分出小片段音乐，即所要要查找的音乐片段的长度大于或等于M，且M≥3。如果把M设置成一个比较小的值，便可以快速查找小段音乐。例如，由于电视节目中的广告也常常会用小段音乐来美化他们的广告内容，如果初始化M＝5即可找到短时长的无用音乐，并把这些无用音乐过滤掉。使用音乐起点条件①的标准可以用来找到一些像音乐会或者电影音乐这样的纯音乐。使用音乐起点条件②的标准，则几乎可以找到视频文件中所有的音乐。

音乐长度是指连续的音乐片段的大小，用I表示音频切片序列的索引，则音乐长度L_len表示有以下两种情况：

4)音乐注解模块3中的音频片段指纹提取模块31从已被定位的每首音乐片段中分别抽取两片音频指纹，并发送到检索模块32。

5)检索模块32根据音频指纹从音乐信息数据库5中找到与音频文件中的音乐片段相似度最大的音乐及其相关的注解信息，并将注解信息发送到结果展示模块4。

检索模块32通过查表和最小距离匹配两种匹配方式在音乐信息数据库中倒序查找与之相似的音频，并同时找到与音频相关联的注解信息。查表时，检索模块根据提取的两片音频指纹在查找表中对所有的32位子指纹进行检索和筛选，最终找到与音频文件中的音乐片段完全匹配的条目。当查表无法找到完全匹配的条目时，则采用最小距离匹配法进行查找。最小距离匹配是指采用相似度度量的方法，计算提取的音频指纹和音乐信息数据库中存储的指纹的海明码距离，最终找到一首与音频文件中的音乐片段相似度最大的音乐及其相关注解信息。

6)如图3所示，结果展示模块4通过用户交互界面将匹配到的注解信息呈现给用户。

7)用户对得到的注解信息进行有效性验证，当发现错误时，通过用户交互界面对产生的错误进行更正，并上传到音乐信息数据库5，音乐信息数据库5根据用户反馈的信息进行修正。

上述各实施例仅用于说明本发明，其中各部件的结构、连接方式和制作工艺等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.一种音乐自动定位和注解系统，其特征在于：它包括数据预处理模块、音乐定位模块、音乐注解模块、结果展示模块和音乐信息数据库；

所述数据预处理模块从待分类多媒体数据或带标签的音乐数据中分离出独立的音频文件进行切片处理后，从音频切片中提取音频片段的MFCC特征发送到所述音乐定位模块；所述音乐定位模块根据音频MFCC特征对所有音频切片进行分类，并得到所有音乐片段的起点和长度信息后发送到所述音乐注解模块；所述音乐注解模块从所述音乐信息数据库中找到与所述音乐定位模块所得到的音乐片段相似度最高的音乐数据和其相关注解信息，并发送到所述结果展示模块；所述结果展示模块通过用户交互界面将接收到的注解信息呈现给用户；所述用户对得到的注解信息进行有效性验证，并通过所述用户交互界面将验证结果反馈到所述音乐信息数据库。

2.如权利要求1所述的一种音乐自动定位和注解系统，其特征在于：所述数据预处理模块包括数据录入模块、音频分离模块、音频切片模块和音频特征抽取模块；

所述数据录入模块将待分类多媒体数据或带标签的音乐数据发送到所述音频分离模块；所述音频分离模块从待分类多媒体数据或带标签的音乐数据中分离出独立的音频文件后发送到所述音频切片模块；所述音频切片模块对音频文件进行切片处理，得到大量的音频切片后发送到所述音频特征抽取模块；所述音频特征抽取模块从所有音频切片中提取音频片段的MFCC特征，并将待分类的音频片段的MFCC特征发送到所述音乐定位模块，将带标签的音频片段的MFCC特征数据发送到所述音乐信息数据库。

3.如权利要求1或2所述的一种音乐自动定位和注解系统，其特征在于：所述音乐定位模块包括训练分类器、音频片段分类模块以及音乐起点和长度检测模块；

所述训练分类器根据所述音乐信息数据库中带标签的音频片段的MFCC特征作为样本进行训练；所述音频片段分类模块基于接收到的待分类的音频片段的MFCC特征，使用所述训练分类器将所有音频切片分为三类，并将分类结果发送到所述音乐起点和长度检测模块；所述音乐起点和长度检测模块根据分类结果确定对所有音乐片段进行定位，即确定每首音乐片段的音乐起点和长度信息。

4.如权利要求1或2所述的一种音乐自动定位和注解系统，其特征在于：所述音乐注解模块包括音乐片段指纹提取模块和检索模块；

所述音乐片段指纹提取模块从已定位的每首音乐片段中分别抽取两片音频指纹，并发送到所述检索模块；所述检索模块根据提取的音频指纹从所述音乐信息数据库中找到与各首音乐片段相似度最大的音乐数据和其注解信息，并发送到所述结果展示模块。

5.如权利要求3所述的一种音乐自动定位和注解系统，其特征在于：所述音乐注解模块包括音乐片段指纹提取模块和检索模块；

6.一种采用如权利要求1～5任一项所述音乐自动定位和注解系统的音乐自动定位和注解方法，包括以下步骤：

1)数据预处理模块从录入的待分类多媒体数据中分离出独立的音频文件进行切片处理得到音频切片，从音频切片中提取MFCC特征后发送到音乐定位模块的音频片段分类模块；

2)音频片段分类模块基于接收到的MFCC特征，使用训练分类器将所有音频切片分为三类，并将分类结果发送到音乐起点和长度检测模块；

3)基于上述分类结果，音乐起点和长度检测模块按照要求对音乐片段进行定位，找出步骤1)所分离出的音频文件中所有音乐片段的音乐起点和音乐长度信息，并发送到音乐注解模块的音频片段指纹提取模块；

4)音乐注解模块中的音频片段指纹提取模块从已被定位的每首音乐片段中分别抽取两片音频指纹，并发送到检索模块；

5)检索模块根据音频指纹从音乐信息数据库中找到与音频文件中的音乐片段相似度最大的音乐及其相关的注解信息，并将注解信息发送到结果展示模块；

6)结果展示模块通过用户交互界面将匹配到的注解信息呈现给用户；

7)用户对得到的注解信息进行有效性验证，当发现错误时，通过用户交互界面对产生的错误进行更正，并上传到音乐信息数据库，音乐信息数据库根据用户反馈的信息进行修正。

7.如权利要求6所述的一种音乐自动定位和注解方法，其特征在于：所述步骤3)中，音乐起点是指音乐片段的起点，音乐起点用x_s表示，当音频切片x_i满足下面两个条件中的任意一个时，即为音乐起点x_s：

①x_i-1＝0并且(x_i+j＝2或x_i+j＝1)；j＝0，1，2，...，M；

②x_i-1＝1并且x_i+j＝2，j＝1，2，...，M；或者满足限定①；

式中，M表示所需查找音乐片段的长度阈值。

8.如权利要求6或7所述的一种音乐自动定位和注解方法，其特征在于：所述步骤3)中，音乐长度是指连续的音乐片段的大小，用I表示音频切片序列的索引，则音乐长度L_len表示有以下两种情况：