CN103180847A

CN103180847A - 音乐查询方法和装置

Info

Publication number: CN103180847A
Application number: CN2011800021708A
Authority: CN
Inventors: 许洁萍; 袁斌; 崔建伟; 王君; 何山
Original assignee: Huawei Technologies Co Ltd
Current assignee: Guangzhou Fangwei Information Technology Co ltd; Wang Jiacheng
Priority date: 2011-10-19
Filing date: 2011-10-19
Publication date: 2013-06-26
Anticipated expiration: 2031-10-19
Also published as: CN103180847B; WO2012163013A1

Abstract

本发明提供一种音乐查询方法和装置，该音乐查询方法包括：从待查询音乐文件中截取待查询音乐片段，对待查询音乐片段进行分帧；提取待查询音乐片段包含的分帧片段的指纹特征，以获得待查询音乐片段的指纹特征；根据待查询音乐片段包含的分帧片段的指纹特征，在指纹数据库存储的指纹特征中查询与待查询音乐片段的指纹特征匹配的指纹特征，并根据待查询音乐片段的指纹特征与查询到的指纹特征的相似程度返回查询结果。本发明对音乐查询片段的长度和起始点等没有要求，可以提高音乐的查询效率。

Description

音乐查询方法和装置

技术领域本发明实施例涉及通信技术领域，尤其涉及一种音乐查询方法和装置。

背景技术

随着互联网和数字多媒体的迅猛发展，如何快速而有效地进行音乐检索成为目前关注的研究热点之一，基于文本的传统检索方式只能对有标注信息的文件进行检索，而基于内容的的检索则不依靠标注信息，而是通过获取音乐的一个片段或部分内容进行检索，这是一个极具挑战的研究课题。随着基于内容的音乐检索的发展和实现，最终会给广大音乐听众的检索带来极大的方便性。

音乐指纹，简称为乐纹（ Audio Fingerprint ) , 定义为一段经过处理后能表征音乐 "身份" 的音频片段特征序列。乐纹识别和检索研究的方法与传统的基于歌名、演唱者等元数据的音乐检索具有明显的不同。乐纹中不包含一首音乐的所有信息，但是可以用来识别一首独一无二的音乐，即通过乐纹可以从海量数据中查询到想要的音乐。

现有的音乐查询技术一般对歌曲查询片段的长度和起始点等都有具体的要求，查询效率较低。。发明内容

本发明实施例提供一种音乐查询方法和装置，以提高音乐的查询效率。

本发明实施例提供一种音乐查询方法，包括：

从待查询音乐文件中截取待查询音乐片段，对所述待查询音乐片段进行分帧；

提取所述待查询音乐片段包含的分帧片段的指纹特征，以获得所述待查询音乐片段的指紋特征；

根据所述待查询音乐片段包含的分帧片段的指纹特征，在指纹数据库存储的指纹特征中查询与所述待查询音乐片段的指纹特征匹配的指纹特征，并根据所述待查询音乐片段的指纹特征与查询到的指纹特征的相似程度返回查询结果。

本发明实施例还提供一种音乐查询装置，包括：

截取模块，用于从待查询音乐文件中截取待查询音乐片段；

分帧模块，用于对所述待查询音乐片段进行分帧；

提取模块，用于提取所述待查询音乐片段包含的分帧片段的指纹特征，以获得所述待查询音乐片段的指纹特征；

查询模块，用于根据所述提取模块提取的所述待查询音乐片段包含的分帧片段的指纹特征，在指纹数据库存储的指纹特征中查询与所述待查询音乐片段的指纹特征匹配的指纹特征；

返回模块，用于根据所述待查询音乐片段的指纹特征与所述查询模块查询到的指纹特征的相似程度返回查询结果。

本发明实施例首先从待查询音乐文件中截取待查询音乐片段，并对待查询音乐片段进行分帧，然后提取上述待查询音乐片段包含的分帧片段的指纹特征，以获得待查询音乐片段的指纹特征；最后根据所述待查询音乐片段包含的分帧片段的指纹特征，在指纹数据库存储的指纹特征中查询与上述待查询音乐片段的指纹特征匹配的指纹特征，并根据待查询音乐片段的指纹特征与查询到的指纹特征的相似程度返回查询结果；本发明实施例对音乐查询片段的长度和起始点等没有要求，可以提高音乐的查询效率。附图说明

实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明音乐查询方法一个实施例的流程图；图 2为本发明指纹特征提取过程一个实施例的流程图；

图 3为本发明提取频谱包络和降维处理一个实施例的示意图；图 4为本发明音乐查询装置一个实施例的结构示意图；

图 5为本发明音乐查询装置另一个实施例的结构示意图；

图 6为本发明计算机设备一个实施例的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图 1为本发明音乐查询方法一个实施例的流程图，如图 1所示，该音乐查询方法可以包括：

步骤 101 , 从待查询音乐文件中截取待查询音乐片段，对待查询音乐片段进行分帧。

步骤 102 , 提取上述待查询音乐片段包含的分帧片段的指纹特征，以获得所述待查询音乐片段的指纹特征。

步骤 103 , 根据上述待查询音乐片段包含的分帧片段的指纹特征，在指纹数据库存储的指纹特征中查询与上述待查询音乐片段的指纹特征匹配的指纹特征，并根据上述待查询音乐片段的指纹特征与查询到的指纹特征的相似程度返回查询结果。

进一步地，根据上述待查询音乐片段包含的分帧片段的指纹特征，在指纹数据库存储的指纹特征中查询与上述待查询音乐片段的指纹特征匹配的指纹特征之前，需要先对已知音乐文件进行分帧；然后提取已知音乐文件包含的分帧片段的指纹特征，以获得上述已知音乐文件的指纹特征，最后将上述已知音乐文件的指纹特征存储到指纹数据库。

本实施例中，提取上述待查询音乐片段包含的分帧片段的指纹特征可以为：对上述待查询音乐片段包含的分帧片段进行时频转换，对时频转换获得的频域数据进行求模；根据人耳听觉特性在求模后的频域数据中选择预定频带上的频域数据；提取上述预定频带上的频域数据的频谱包络；对提取频谱包络后获得的特征矩阵进行降维处理，获得待查询音乐片段包含的分帧片段的指紋特征。

本实施例中，提取已知音乐文件包含的分帧片段的指纹特征可以为：对上述已知音乐文件包含的分帧片段进行时频转换，对时频转换获得的频域数据进行求模；根据人耳听觉特性在求模后的频域数据中选择预定频带上的频域数据；提取上述预定频带上的频域数据的频谱包络；对提取频谱包络后获得的特征矩阵进行降维处理，获得已知音乐文件包含的分帧片段的指纹特征。

本实施例中，步骤 103可以为：首先，根据待查询音乐片段包含的分帧片段的指纹特征，在上述指纹数据库存储的指纹特征中查询与上述待查询音乐片段包含的分帧片段的指纹特征匹配的指纹特征；其次，根据指纹数据库存储的所述匹配的指纹特征在所属歌曲中的位置，从上述位置开始在指纹数据库中读取预定数量的指纹特征，该预定数量与待查询音乐片段包含的分帧片段数相同；最后，比较上述预定数量的指纹特征与待查询音乐片段包含的所有分帧片段的指纹特征的相似程度，根据该相似程度返回查询结果。

上述实施例对音乐查询片段的长度和起始点等没有要求，可以提高音乐的查询效率；并且在有噪声的环境下，能有效地完成音乐指纹查询，返回歌曲容噪下的匹配结果。

下面从音乐指纹提取过程、指纹数据库建立过程和音乐指纹查询过程这三个方面对本发明实施例提供的音乐查询方法进行详细介绍。

1、音乐指纹提取过程。

本实施例中，音乐指纹提取过程可以包括：解码、降采样和指纹特征提取。下面分别加以描述：

( 1 ) 解码过程：由于音乐文件一般是经过编码压缩处理的，因此在提取该音乐文件的指纹特征之前，首先要对该音乐文件进行解码，将音乐文件解码为波形（Wave; 以下简称： WAV ) 文件，解码后的音乐文件的采样率跟原始音乐相同，常见的音乐文件的采样率一般为 44KHz或 22KHz 等。 ( 2 ) 降采样过程：由于音乐文件的采样率一般较高，包含了大部分高频信息，对音乐文件的识别带来困难，因此，对于解码后的音乐文件，还需要进行降采样处理，即将解码后的音乐文件从 44KHz或 22KHz等较高的采样率降低到较低的采样率上，本实施例中，将解码后的音乐文件统一降到 5KHz采样率上，并将进行降采样处理后的音乐文件转换成脉冲编码调制（ Pulse Code Modulation；以下简称： PCM )格式的文件。

( 3 ) 指纹特征提取过程：在经过解码过程和降采样过程之后，进行指纹特征提取过程，如图 2所示，图 2为本发明指纹特征提取过程一个实施例的流程图，包括：

步骤 201 , 对进行降采样处理后的音乐文件进行分帧。

本实施例中，在进行分帧时需保证相邻两帧之间有部分重叠，以保持信号的短时平稳性。具体地，分帧的过程是通过加窗实现，例如：可以采用汉宁窗进行分帧，汉宁窗窗长为 2048个点。

步骤 202, 对分帧得到的分帧片段进行时频转换。

具体地，可以采用多种方式对上述分帧片段进行时频转换，本实施例对时频转换的实现方式不作限定。本实施例以对上述分帧片段进行 2048 个点的快速傅里叶变换（ Fast Fourier Transform; 以下简称： FFT )为例进行说明，本实施例中，相邻两帧的数据重复率为 31/32, 也就是后一帧相对于前一帧大约有 60个新的 PCM数据进行 FFT。步骤 202得到的数值是复数。

步骤 203 , 对时频转换获得的频域数据进行求模。

步骤 204, 根据人耳听觉特性在求模后的频域数据中选择预定频带上的频域数据。

本实施例中，根据人耳的听觉特性从求模后的频域数据中选定了 33 个子带，这些子带的频率分布空间范围是 0〜2.5kHz, 并且上述 33个子带的带宽，在对数域上成线性关系分布。

步骤 205 , 提取上述预定频带上的频域数据的频谱包络。

具体地，提取频谱包络可以采用多种方式，本实施例对提取频谱包络所采用的方式不作限定，但本实施例以采用小波变换提取上述频域数据的频媒包络为例进行说明。小波变换是空间和频率的局部变换，通过伸缩和平移等运算功能可对函数或信号进行多尺度的细化分析，因而能有效地从信号中提取信息。本实施例采用标准的哈尔（Haar ) 小波对上述频域数据进行分析，只保留最大的 300个小波系数（按频谱能量绝对值），不在最大的 300个小波系数中的其它系数均量化为 "00" 。对于最大的 300个小波系数中的每一个系数，若为正数，则量化为 " 10" ，否则量化为 "01 " 。

步骤 206, 对提取频谱包络后获得的特征矩阵进行降维处理，获得上述音乐文件包含的分帧片段的指纹特征。

由于小波变换之后得到的是高维的 0-1特征矩阵，因此需要进行降维处理。本实施例使用最小哈希（MinHash ) 算法进行降维处理，即对每个 0-1特征矩阵任意位置任意交换 P次，每次记录第一个 1的位置；一般说来，在第 255位之后第一次出现 1的概率很小，所以 255之后统一取为 255; 这样就把高维的 0-1特征矩阵压缩成 P维的特征值，每组 P维 0〜255的整数称为乐纹的一个子乐纹。在实际实现时，可以取 P = 100, 这样降维处理后可以得到 100维 0〜255的数，本实施例中，将每组 100维 0〜255的整数称为乐纹的一个子乐纹。

图 3为本发明提取频谱包络和降维处理一个实施例的示意图，如图 3 所示，本实施例按照时间顺序读入 PCM数据，每一帧数据相对于前一帧多读入 60个 PCM数据，这个过程一直循环下去，直到到达 PCM数据的末端。然后，按照步骤 205提供的方法提取每帧 PCM数据的频谱包络，再按照步骤 206提供的方法对提取频谱包络后获得的特征矩阵进行降维处理，获得上述音乐文件包含的分帧片段的指纹特征。下面将分帧片段的指纹特征称为子乐纹，将上述音乐文件的指纹特征称为乐纹，由图 3可以看出，乐纹为子乐纹的一个序列，序列中子乐纹的先后顺序反应了该子乐纹对应的分帧片段在时间上的先后顺序关系。

2、指纹数据库建立过程。

( 1 ) 按照上述音乐指纹提取过程中提供的方法，提取需要入库的已知音乐文件的指纹特征。

( 2 ) 指纹数据库中保存两个数据表，一个是索引表，一个是乐纹表。索引表中的每个表项存储一个子乐纹和该子乐纹在指纹数据库中的唯一标识，以及该子乐纹在所属歌曲中的具体时间位置。乐纹表中的每个表项存储一首歌曲的乐纹，即这首歌曲包含的全部子乐纹。

( 3 ) 乐纹入库：具体操作为依次将每首歌曲的每个子乐纹录入索引表，并在索引表中为每个子乐纹分配在指纹数据库中的唯一标识，并每首歌曲包含的全部子乐纹录入到乐纹表里。

3、音乐指纹查询过程。

本发明实施例中，在音乐指纹查询过程中，先要按照上述音乐指纹提取过程中提供的方法提取待查询音乐片段的指纹特征，然后对于待查询音乐片段包含的分帧片段的指纹特征，先要在索引表中查询与待查询音乐片段包含的分帧片段的指纹特征匹配的指纹特征，然后根据索引表中保存的上述匹配的指纹特征的标识，查找到乐纹表中与上述匹配的指纹特征对应的表项，再根据索引表中保存的上述匹配的指纹特征在所属歌曲中的位置，从上述位置开始在乐纹表与上述匹配的指纹特征对应的表项中读取预定数量的子乐纹，其中该预定数量与待查询音乐片段包含的分帧片段数相同。最后比较读取的预定数量的子乐纹与待查询音乐片段包含的所有分帧片段的指纹特征的相似程度，根据该相似程度返回查询结果列表。

综上所述，本发明实施例提供的音乐查询方法具有以下优 , ：

1、乐纹压缩比都可达到百倍以上的压缩，压缩比大，并且表征性强。在噪声环境下，利用小波变换可以剔出噪声细节的特点，将频谱图中的高能量信息部分进行哈希压缩处理，使一帧数据由原来的 8192个点压缩到 100个字节；使音乐数据缩小为原数据的几百分之一；因此，特征压缩比大并且表征性强。

2、乐纹设计具有一定的抗噪性。

在提取能量谱的基础上进一步做小波变换，并且只提取幅度较为明显的最大的 300个小波系数，从而避免了一定的噪声信号影响；使用最小哈希算法对特征矩阵进行处理，使得长达 8192维度的特征得到了降维，同时使得特征经过很简单的比较计算就可以得到相似度；在制造数据库链表时，考虑到乐纹局部特征的变化特性，引入了局部敏感哈希，适用性较强，大大降低了候选的乐纹查找范围。由于在乐纹提取阶段就考虑到了一定抗噪容忍性，并不含有专门的去噪系统，所以最终的无噪乐纹，具有一定的抗噪性。

3、对不同的查询需求，进行不同的查询。

本发明实施例从实际应用考虑出发，能够按照相似程度返回查询结果列表。

4、本发明实施例还可以对相似音乐片段进行相似度比较和重叠部分的度量。

由于本发明实施例提取的乐纹在时间上具有顺序性，所以可以很方便地知道两个片段的来源，和在所属歌曲中的位置，由此可以判断出两个相似音乐片段的相似度以及重叠部分所占的比例。这种乐纹在指纹数据库存放的顺序性以及查询的高效性，保证了这类需求方面的实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括： ROM、 RAM, 磁碟或者光盘等各种可以存储程序代码的介质。

图 4为本发明音乐查询装置一个实施例的结构示意图，如图 4所示，该音乐查询装置可以包括：截取模块 41、分帧模块 42、提取模块 43、查询模块 44和返回模块 45。

其中，截取模块 41 , 用于从待查询音乐文件中截取待查询音乐片段；分帧模块 42, 用于对上述待查询音乐片段进行分帧；

提取模块 43 ,用于提取上述待查询音乐片段包含的分帧片段的指纹特征，以获得上述待查询音乐片段的指纹特征；

查询模块 44, 用于根据提取模块 43提取的待查询音乐片段包含的分帧片段的指纹特征，在指纹数据库存储的指纹特征中查询与上述待查询音乐片段的指纹特征匹配的指纹特征；

返回模块 45 , 用于根据待查询音乐片段的指纹特征与查询模块 44查询到的指纹特征的相似程度返回查询结果。

上述音乐查询装置对音乐查询片段的长度和起始点等没有要求，可以提高音乐的查询效率；并且在有噪声的环境下，能有效地完成音乐指纹查询，返回歌曲容噪下的匹配结果。图 5为本发明音乐查询装置另一个实施例的结构示意图，如图 5所示，该音乐查询装置还可以包括：存储模块 46;

本实施例中，分帧模块 42 , 还用于对已知音乐文件进行分帧；提取模块 43 ,还用于提取上述已知音乐文件包含的分帧片段的指纹特征，以获得上述已知音乐文件的指纹特征；

存储模块 46 , 用于将提取模块 43获得的上述已知音乐文件的指纹特征存储到指纹数据库。

具体地，提取模块 43可以包括：转换子模块 43 1、求模子模块 432、选择子模块 433、包络提取子模块 434和降维子模块 435。

转换子模块 43 1 , 用于对上述待查询音乐片段包含的分帧片段进行时频转换；

求模子模块 432 , 用于对时频转换获得的频域数据进行求模；选择子模块 433 , 用于根据人耳听觉特性在求模子模块 432获得的频域数据中选择预定频带上的频域数据；

包络提取子模块 434 , 用于提取上述预定频带上的频域数据的频谱包络；

降维子模块 435 , 用于对包络提取子模块 434提取频谱包络后获得的特征矩阵进行降维处理，获得上述待查询音乐片段包含的分帧片段的指纹特征。

具体地，本实施例中，查询模块 44 可以包括：特征查询子模块 441 和特征读取子模块 442;

其中，特征查询子模块 441 , 用于根据上述待查询音乐片段包含的分帧片段的指纹特征，在指纹数据库存储的指纹特征中查询与上述待查询音乐片段包含的分帧片段的指纹特征匹配的指纹特征；

特征读取子模块 442 , 用于根据指纹数据库存储的所述匹配的指纹特征在所属歌曲中的位置，从该位置开始在指纹数据库中读取预定数量的指纹特征，该预定数量与待查询音乐片段包含的分帧片段数相同。

本实施例中，返回模块 45可以比较特征读取子模块 442读取的预定数量的指纹特征与上述待查询音乐片段包含的所有分帧片段的指纹特征的相似程度，根据上述相似程度返回查询结果。上述音乐查询装置对音乐查询片段的长度和起始点等没有要求，可以提高音乐的查询效率；并且在有噪声的环境下，能有效地完成音乐指纹查询，返回歌曲容噪下的匹配结果。

图 6为本发明计算机设备一个实施例的结构示意图，本实施例中的计算机设备可以实现本发明图 4或图 5所示实施例中音乐查询装置的功能，如图 6所示，该计算机设备可以包括：中央处理单元 ( Central Processing Unit; 以下简称： CPU ) 61、总线控制逻辑 62、系统总线 63、内存 64、接口 65和输入输出（ Input I Output; 以下简称： I/O )子系统 66; 其中 I/O 子系统 66包括 I/O设备 661和存储器 662。

本实施例中， CPU 61 ,用于从待查询音乐文件中截取待查询音乐片段，对上述待查询音乐片段进行分帧，提取上述待查询音乐片段包含的分帧片段的指纹特征，以获得上述待查询音乐片段的指纹特征，根据提取的待查询音乐片段包含的分帧片段的指纹特征，在指纹数据库存储的指纹特征中查询与上述待查询音乐片段的指纹特征匹配的指纹特征，并根据待查询音乐片段的指纹特征与查询到的指纹特征的相似程度返回查询结果；本实施例中的 CPU 61可以实现本发明图 4或图 5所示实施例中截取模块 41、分帧模块 42、提取模块 43和查询模块 44的功能。

其中，上述指纹数据库存储在存储器 662中；具体地， CPU 61返回查询结果可以为： CPU 61将查询结果发送给总线控制逻辑 62, 由总线控制逻辑 62将上述查询结果通过系统总线 63和接口 65 ,发送给 I/O设备 661 , 由 I/O设备 661将上述查询结果发送出去；另外，在 I/O设备 661发送上述查询结果之前，上述查询结果可以先緩存在内存 64 中。也就是说，本实施例中， CPU 61、总线控制逻辑 62、系统总线 63、内存 64、接口 65 和 I/O设备 661共同完成本发明图 4或图 5所示实施例中返回模块 45的功能。

进一步地， CPU 61 还可以对已知音乐文件进行分帧，提取上述已知音乐文件包含的分帧片段的指纹特征，以获得上述已知音乐文件的指纹特征。

本实施例中，存储器 662, 用于保存指纹数据库，将 CPU 61获得的上述已知音乐文件的指纹特征存储到指纹数据库；本实施例中的存储器 662可以实现本发明图 5所示实施例中存储模块 46的功能。

上述计算机设备对音乐查询片段的长度和起始点等没有要求，可以提高音乐的查询效率；并且在有噪声的环境下，能有效地完成音乐指纹查询，返回歌曲容噪下的匹配结果。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

权利要求书

1、一种音乐查询方法，其特征在于，包括：

从待查询音乐文件中截取待查询音乐片段，对所述待查询音乐片段进行分帧；

提取所述待查询音乐片段包含的分帧片段的指纹特征，以获得所述待查询音乐片段的指紋特征；

根据所述待查询音乐片段包含的分帧片段的指纹特征，在指纹数据库存储的指纹特征中查询与所述待查询音乐片段的指纹特征匹配的指纹特征，并根据所述待查询音乐片段的指纹特征与查询到的指纹特征的相似程度返回查询结果。

2、根据权利要求 1 所述的方法，其特征在于，所述根据所述待查询音乐片段包含的分帧片段的指纹特征，在指纹数据库存储的指纹特征中查询与所述待查询音乐片段的指纹特征匹配的指纹特征之前，还包括：对已知音乐文件进行分帧；

提取所述已知音乐文件包含的分帧片段的指纹特征，以获得所述已知音乐文件的指纹特征；

将所述已知音乐文件的指纹特征存储到所述指纹数据库。

3、根据权利要求 1 所述的方法，其特征在于，所述提取所述待查询音乐片段包含的分帧片段的指纹特征包括：

对所述待查询音乐片段包含的分帧片段进行时频转换，对所述时频转换获得的频域数据进行求模；

根据人耳听觉特性在求模后的频域数据中选择预定频带上的频域数据；

提取所述预定频带上的频域数据的频谱包络；

对提取频谱包络后获得的特征矩阵进行降维处理，获得所述待查询音乐片段包含的分帧片段的指纹特征。

4、根据权利要求 2所述的方法，其特征在于，所述提取所述已知音乐文件包含的分帧片段的指纹特征包括：

对所述已知音乐文件包含的分帧片段进行时频转换，对所述时频转换获得的频域数据进行求模；根据人耳听觉特性在求模后的频域数据中选择预定频带上的频域数据；

提取所述预定频带上的频域数据的频谱包络；

对提取频谱包络后获得的特征矩阵进行降维处理，获得所述已知音乐文件包含的分帧片段的指纹特征。

5、根据权利要求 3或 4所述的方法，其特征在于，所述根据所述待查询音乐片段包含的分帧片段的指纹特征，在指纹数据库存储的指纹特征中查询与所述待查询音乐片段的指纹特征匹配的指纹特征，并根据所述待查询音乐片段的指纹特征与查询到的指纹特征的相似程度返回查询结果包括：

根据所述待查询音乐片段包含的分帧片段的指纹特征，在所述指纹数据库存储的指纹特征中查询与所述待查询音乐片段包含的分帧片段的指纹特征匹配的指纹特征；

根据所述指纹数据库存储的所述匹配的指纹特征在所属歌曲中的位置，从所述位置开始在所述指纹数据库中读取预定数量的指纹特征，所述预定数量与所述待查询音乐片段包含的分帧片段数相同；

比较所述预定数量的指纹特征与所述待查询音乐片段包含的所有分帧片段的指纹特征的相似程度，根据所述相似程度返回查询结果。

6、一种音乐查询装置，其特征在于，包括：

截取模块，用于从待查询音乐文件中截取待查询音乐片段；分帧模块，用于对所述待查询音乐片段进行分帧；

提取模块，用于提取所述待查询音乐片段包含的分帧片段的指纹特征，以获得所述待查询音乐片段的指纹特征；

查询模块，用于根据所述提取模块提取的所述待查询音乐片段包含的分帧片段的指纹特征，在指纹数据库存储的指纹特征中查询与所述待查询音乐片段的指纹特征匹配的指纹特征；

返回模块，用于根据所述待查询音乐片段的指纹特征与所述查询模块查询到的指纹特征的相似程度返回查询结果。

7、根据权利要求 6所述的装置，其特征在于，还包括：存储模块；所述分帧模块，还用于对已知音乐文件进行分帧；所述提取模块，还用于提取所述已知音乐文件包含的分帧片段的指纹特征，以获得所述已知音乐文件的指纹特征；

所述存储模块，用于将所述提取模块获得的所述已知音乐文件的指纹特征存储到所述指纹数据库。

8、根据权利要求 6或 7所述的装置，其特征在于，所述提取模块包括：

转换子模块，用于对所述待查询音乐片段包含的分帧片段进行时频转换；

求模子模块，用于对所述时频转换获得的频域数据进行求模；选择子模块，用于根据人耳听觉特性在所述求模子模块获得的频域数据中选择预定频带上的频域数据；

包络提取子模块，用于提取所述预定频带上的频域数据的频谱包络；降维子模块，用于对所述包络提取子模块提取频谱包络后获得的特征矩阵进行降维处理，获得所述待查询音乐片段包含的分帧片段的指纹特征。

9、根据权利要求 8所述的装置，其特征在于，所述查询模块包括：特征查询子模块，用于根据所述待查询音乐片段包含的分帧片段的指纹特征，在所述指纹数据库存储的指纹特征中查询与所述待查询音乐片段包含的分帧片段的指纹特征匹配的指纹特征；

特征读取子模块，用于根据所述指纹数据库存储的所述匹配的指纹特征在所属歌曲中的位置，从所述位置开始在所述指纹数据库中读取预定数量的指纹特征，所述预定数量与所述待查询音乐片段包含的分帧片段数相同。

10、根据权利要求 9所述的装置，其特征在于，

所述返回模块，具体用于比较所述特征读取子模块读取的预定数量的指纹特征与所述待查询音乐片段包含的所有分帧片段的指纹特征的相似程度，根据所述相似程度返回查询结果。