CN103854661A

CN103854661A - 一种提取音乐特征的方法及装置

Info

Publication number: CN103854661A
Application number: CN201410104198.8A
Authority: CN
Inventors: 宋辉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-03-20
Filing date: 2014-03-20
Publication date: 2014-06-11

Abstract

本发明公开了一种提取音乐特征的方法及装置，所述方法包括：对接收到的音频信号进行切分处理，以生成至少两个分段音频信号；对每个所述分段音频信号进行傅里叶变换，获取每个所述分段音频信号的频域信号；根据每个所述分段音频信号的频域信号和所述频域信号对应的频率，计算每个所述分段音频信号的频率质心，作为音乐特征；根据每个所述分段音频信号的频率质心、频域信号和所述频域信号对应的频率，计算每个所述分段音频信号的带宽，作为音乐特征。本发明实施例通过对接收的音频信号分段，并根据每段音频信号中所有符合条件的频率信息来计算每段音频信号的质心和带宽，作为音乐特征，从而减小了环境对音频信号特征的影响，提高了系统的辨识率。

Description

一种提取音乐特征的方法及装置

技术领域

本发明涉及信号处理技术，尤其涉及一种提取音乐特征的方法及装置。

背景技术

CMI(Contend-based Music Identification，基于内容的音乐辨识)是目前智能手机端的一个热门应用。它的应用场景是：当用户听到一首自己喜欢但不知道歌名的音乐时，可以通过手机录制音乐的几秒钟片段，然后由后台系统通过搜索技术找到该音乐的各种信息反馈给用户。为了实现这一功能，首要任务是从大量的训练曲库中，提取合适的音乐特征，建立训练集特征索引库，作为后续对待测试音乐片段进行特征匹配的依据。

特征提取是CMI系统的重要组成部分，现有的CMI技术采用的特征大多为MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒频系数)、基音、BPM(Beat per Minute，每分钟节拍数)等音频信号的基础特征，以及相应的演化特征（如一阶、二阶差分特征）。CMI系统中训练曲库中的信号为纯音乐信号，没有任何干扰，但待测试音乐信号由于周围环境噪声或信道的影响会有明显的信号失真，从而导致训练曲库中的信号特征与待测试音乐信号产生很大的差异，降低了CMI系统的识别率。

发明内容

有鉴于此，本发明实施例提供了一种提取音乐特征的方法及装置，以减少环境对音乐特征的影响，提高系统的识别率。

一方面，本发明实施例提供了一种提取音乐特征的方法，所述方法包括：

对接收到的音频信号进行切分处理，以生成至少两个分段音频信号；

对每个所述分段音频信号进行傅里叶变换，获取每个所述分段音频信号的频域信号；

根据每个所述分段音频信号的频域信号和所述频域信号对应的频率，计算每个所述分段音频信号的频率质心，作为音乐特征；

根据每个所述分段音频信号的频率质心、频域信号和所述频域信号对应的频率，计算每个所述分段音频信号的带宽，作为音乐特征。

另一方面，本发明实施例还提供了一种提取音乐特征的装置，所述装置包括：

切分单元，用于对接收到的音频信号进行切分处理，以生成至少两个分段音频信号；

变换单元，用于对每个所述分段音频信号进行傅里叶变换，获取每个所述分段音频信号的频域信号；

第一计算单元，用于根据每个所述分段音频信号的频域信号和所述频域信号对应的频率，计算每个所述分段音频信号的频率质心，作为音乐特征；

第二计算单元，用于根据每个所述分段音频信号的频率质心、频域信号和所述频域信号对应的频率，计算每个所述分段音频信号的带宽，作为音乐特征。

本发明实施例提供的一种提取音乐特征的方法及装置，通过对接收的音频信号分段，并根据每段音频信号的所有符合条件的频率信息来计算每段音频信号的质心和带宽，作为音乐特征，从而减小了环境对音频信号特征的影响，准确提取音乐特征，进而能提高系统对音乐的辨识率。

附图说明

图1是本发明实施例适用的系统架构的示意图；

图2是本发明第一实施例提供的提取音乐特征的方法的流程图；

图3是本发明第四实施例提供的提取音乐特征的装置的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

本发明所有实施例可适用于图1所示的系统架构，该系统架构主要用于提取音乐特征并适用到音乐识别应用中，该系统架构中可包括预处理单元101、特征提取单元102、音频切分单元103、特征聚类单元104和匹配单元105等，所述预处理单元101用于对接收到的音乐信号预滤波、传递函数预测、降采样等，产生音频信号；所述特征提取单元102用于提取音频信号的音乐特征；所述音频切分单元103用于根据音乐特征寻找音频信号的突变点，并根据突变点将所述音频信号划分成若干段；所述特征聚类单元104用于根据聚类算法，将各个段的音频信号聚类，提取整段音频信号最具代表性的K类音乐特征；所述匹配单元105用于根据提取到的K类音乐特征在训练数据库中查找目标音乐。本发明实施例提供的方法可以由特征提取单元102来执行。

实施例一

图2是本发明第一实施例提供的提取音乐特征的方法的流程图，本实施例的执行主体可以为特征提取单元，所述特征提取单元又可称为提取音乐特征的装置，由硬件和/或软件实现，可以配置于本地的客户端，还可以配置于网络中的服务器，在此不作具体限定，本实施例提供的方法具体包括如下步骤：

步骤201、对接收到的音频信号进行切分处理，以生成至少两个分段音频信号。

在本方案中，音频信号可以是任意来源，例如用户自行录制，或接收获取的音频信号。优选的，可以将所述接收的音频信号切分成至少两段长度相等音频信号，也可以将所述接收的音频信号切分成至少两段长度不等的音频信号，在此不作具体限定。

例如，具体可以根据预先设置的长度信息，如10ms，将接收到的音频信号切分成至少两个长度相等的分段音频信号；具体还可以根据所述接收到的音频信号的节奏信息，如鼓点、旋等，将所述音频信号切分成至少两个分段音频信号，由于所述音频信号的节奏信息变化并不是恒定不变的，所以根据所述节奏信息得到的每个分段音频信号的长度也可以不相等。

步骤202、对每个所述分段音频信号进行傅里叶变换，获取每个所述分段音频信号的频域信号。

步骤203、根据每个所述分段音频信号的频域信号和所述频域信号对应的频率，计算每个所述分段音频信号的频率质心，作为音乐特征。

本方案中，所述接收到的音频信号中可能包含有噪声，噪声在整个频率范围内的分布与所述音频信号相比，更加平稳。噪声的存在可能会严重影响所述音频信号频域上的某个频率，但对于整个频域上频率质心来说，影响并不大。

步骤204、根据每个所述分段音频信号的频率质心、频域信号和所述频域信号对应的频率，计算每个所述分段音频信号的带宽，作为音乐特征。

所述带宽用来描述所述接收到的音频信号的有效频率范围，即使环境改变，音频信号的带宽也不会有明显的变化。

本发明实施例提供的一种提取音乐特征的方法，通过对接收的音频信号分段，并根据每段音频信号的所有符合条件的频率信息来计算每段音频信号的质心和带宽，作为音乐特征，从而减小了环境对音频信号特征的影响，准确提取音乐特征，进而能提高系统对音乐的辨识率。

在上述技术方案的基础上，所述步骤203根据每个所述分段音频信号的频域信号和所述频域信号的对应频率，计算每个所述分段音频信号的频率质心，作为音乐特征，优选的，可包括根据每个所述分段音频信号的频域信号和所述频域信号对应的频率，利用下述公式1计算得到所述频率质心：

PC = \frac{Σ_{f = f \min}^{f = f \max} f . {| X (f) |}^{2}}{Σ_{f = f \min}^{f = f \max} {| X (f) |}^{2}}

其中，PC为所述分段音频信号的频率质心，X（f）为对音频信号切分处理生成的分段音频信号x(t)进行傅里叶变换得到的分段频域信号，f为所述分段音频信号的频率，在公式1中，f的取值范围满足预设频率范围，f_min、f_max分别为所述分段音频域信号的频率在满足预设频率范围时的最小频率值和最大频率值。

在这里，计算所述频率质心时采用的频率为所述接收到的音频信号频域上所有符合预设频率范围的频率，当所述音频信号频域上的某个频率不在预设频率范围时，说明所述频率可能受环境的影响太大，此时丢弃所述频率，从而有效的减少环境因素对音乐特征的影响。

另外，所述步骤203根据每个所述分段音频信号的频域信号和所述频域信号的对应频率，计算每个所述分段音频信号的频率质心，作为音乐特征，优选的，还可采用其他方式来确定频率质心，例如提取每个所述分段音频信号的高频分量和低频分量，并根据所述高频分量和低频分量的比例来确定所述分段音频信号的频率质心。

在上述技术方案的基础上，所述步骤204根据每个所述分段音频信号的频率质心、频域信号和所述频域信号对应的频率，计算每个所述分段音频信号的带宽，作为音乐特征，优选的，可包括：根据每个所述分段音频信号的频率质心、频域信号和所述频域信号对应的频率，利用下述公式2计算得到所述带宽：

BandWidth = \sqrt{Σ_{f = 0}^{f = F_{s} / 2} {(f - PC)}^{2} . {| X (f) |}^{2}}

其中，BandWidth为所述分段音频信号的带宽，F_s为所述音频信号的采样率，通常可以预先设定，如16kHz。

在这里，计算所述带宽时，充分利用了所述分段音频信号的频率信息，使得所述音乐特征更加稳健，更加不易受到环境的影响。

另外，所述步骤204根据每个所述分段音频信号的频率质心、频域信号和所述频域信号对应的频率，计算每个所述分段音频信号的带宽，作为音乐特征还可以采用其他方式实现，例如：根据所述分段音频信号的质心，频域信号中的高频分量和低频分量来获取所述分段音频信号的带宽。

第二实施例

本实施例在上述实施例的基础上，进一步增加了步骤在获取到每个所述分段音频信号音乐特征之后，根据每个所述分段音频信号的音乐特征，计算每个所述分段音频信号的差分特征，作为音乐特征。所述步骤可以在步骤203之后，步骤204之前执行，也可以在步骤204之后执行，也可以既在步骤203后执行，又在步骤204后执行，在此不作具体限定。

例如，当获取到每个分段音频信号的频率质心后，可以用前一段音频信号的频率质心减去当前段音频信号的频率质心，作为当前段音频信号的频率质心差分特征，用来描述频率质心的变化规律；当获取到每个分段音频信号的带宽后，可以用前一段音频信号的带宽减去当前段音频信号的带宽，作为当前段音频信号的带宽差分特征，用来描述带宽的变化规律。另外还可以所述频率质心差分特征或带宽差分特征进行二次差分，作为音乐特征。

本实施例通过计算接收到的音频信号的频率质心差分特征和/或带宽差分特征，来进一步描述每个音乐特征在时间上的相关性，从而使得音乐特征更能反映接收到的音频信号的信息，提高系统的识别率。

第三实施例

本实施例是在上述各实施例的基础上，进一步增加了步骤在获取音乐特征之后，将提取到的音乐特征拼接成一个多维向量，并对所述多维向量进行降维处理。

获取到某一段音频信号的某一音乐特征后，通常不会单独使用所述特征，而是会将几个音乐特征相结合，构成一个高维特征向量，以便更加准确的描述一段音频信号。新构造的特征向量维数可能较高，通过降维技术，一方面能够缩小特征向量的维数，降低后续建立特征索引和特征匹配的计算量，另一方面也能够降低特征向量各个维度之间的相关性，能够明显降低后续模块的计算量，比如我们需要计算特征的协方差矩阵，如果特征各个维度之间相关性较弱，甚至不相关的话，我们只需要计算矩阵的对角线元素即可。

本实施方案中的降维技术，可以采用PCA(Principal Components Analysis，主成分分析)技术、LDA(Linear Discriminant Analysis，线性区分行分析)技术等，在此不作具体限定，而且降维后整个系统的识别性能几乎不受影响。

例如，对接收到的音频信号分段，生成20个分段音频信号，然后提取每一段音频信号的音乐特征，并将这些音乐特征拼接后，获得一个100维的向量，则整个音频信号的音乐特征可以构成一个20×100的样本矩阵M，采用PCA技术进行降维处理，首先可以求这个样本矩阵的协方差矩阵V=N×N^T，得到20×20的协方差矩阵，其中，矩阵N为矩阵M中的每个数减去该数所在的列中所有数的平均值所得的20×100的矩阵，然后求这个协方差矩阵的特征值和特征向量，取出较大的几个特征值及其对应的特征向量，如5个，构成20×5的矩阵P，用N^T乘以矩阵P得到一个100×5的矩阵Q。最后将样本矩阵M中的每一行作为一个小样本乘以矩阵Q，即可得到一个1×5的新样本，样本矩阵M中的所有样本就可以构成一个20×5的新样本矩阵Z，再用所述样本去进行后续的索引建立或匹配运算将会降低计算的复杂度。所述LDA技术的基本思想是将高维的特征样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证特征样本在新的子空间有最大的类间距离和最小的类内距离，即特征样本在该空间中有最佳的可分离性。因此，LDA技术也是一种有效的特征抽取方法，使用这种方法能够使投影后特征样本的类间散布矩阵最大，并且同时类内散布矩阵最小。

本实施例通过将提取到的新的音乐特征和音频信号的传统音乐特征拼接成一个高维向量，然后对该高维向量进行降维处理，从而降低了系统后续的计算量。

第四实施例

图3示出了本发明第四实施例提供的提取音乐特征的装置的示意图，所述装置包括：切分单元301、变换单元302、第一计算单元303和第二计算单元304，其中，所述切分单元301用于对接收到的音频信号进行切分处理，以生成至少两个分段音频信号；所述变换单元302用于对每个所述分段音频信号进行傅里叶变换，获取每个所述分段音频信号的频域信号；所述第一计算单元303用于根据每个所述分段音频信号的频域信号和所述频域信号对应的频率，计算每个所述分段音频信号的频率质心，作为音乐特征；所述第二计算单元304用于根据每个所述分段音频信号的频率质心、频域信号和所述频域信号对应的频率，计算每个所述分段音频信号的带宽，作为音乐特征。

上述方案中，所述第一计算单元303具体可用于根据每个所述分段音频信号的频域信号和所述频域信号对应的频率，利用下述公式1计算得到所述频率质心：

PC = \frac{Σ_{f = f \min}^{f = f \max} f . {| X (f) |}^{2}}{Σ_{f = f \min}^{f = f \max} {| X (f) |}^{2}}

其中，PC为所述分段音频信号的频率质心，X（f）为对音频信号切分处理生成的分段音频信号x(t)进行傅里叶变换得到的分段频域信号，f为所述分段音频信号的频率，在公式1中f的范围满足预设频率范围，f_min、f_max分别为所述分段音频域信号的频率在满足预设频率范围时的最小频率值和最大频率值。

上述方案中，所述第二计算单元304具体可用于根据每个所述分段信号的频率质心、频域信号和所述频域信号对应的频率，利用下述公式2计算得到所述带宽：

BandWidth = \sqrt{Σ_{f = 0}^{f = F_{s} / 2} {(f - PC)}^{2} . {| X (f) |}^{2}}

其中，BandWidth为所述分段音频信号的带宽，F_s为所述音频信号的采样率。

所述装置优选的，还可包括：第三计算单元305，用于在获取音乐特征之后，根据每个所述分段音频信号的音乐特征，计算每个所述分段音频信号的差分特征，作为音乐特征。

所述装置优选的，还可包括：第四计算单元306，用于在获取音乐特征之后，将提取到的音乐特征拼接成一个多维向量，并对所述多维向量进行降维处理。

本发明实施例提供的提取音乐特征的装置用于执行本发明任意实施例提供的提取音乐特征的方法，具备相应的功能模块，可达到与所述方法相似的技术效果，此处不再赘述。

显然，本领域技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提取音乐特征的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的提取音乐特征的方法，其特征在于，根据每个所述分段音频信号的频域信号和所述频域信号对应的频率，计算每个所述分段音频信号的频率质心，作为音乐特征包括：

根据每个所述分段音频信号的频域信号和所述频域信号对应的频率，利用下述公式1计算得到所述频率质心：

PC = \frac{Σ_{f = f \min}^{f = f \max} f . {| X (f) |}^{2}}{Σ_{f = f \min}^{f = f \max} {| X (f) |}^{2}}

3.根据权利要求2所述的提取音乐特征的方法，其特征在于，根据每个所述分段音频信号的频率质心、频域信号和所述频域信号对应的频率，计算每个所述分段音频信号的带宽，作为音乐特征包括：

根据每个所述分段音频信号的频率质心、频域信号和所述频域信号对应的频率，利用下述公式2计算得到所述带宽：

BandWidth = \sqrt{Σ_{f = 0}^{f = F_{s} / 2} {(f - PC)}^{2} . {| X (f) |}^{2}}

4.根据权利要求1-3任一所述的提取音乐特征的方法，其特征在于，在获取音乐特征之后，所述方法还包括：

根据每个所述分段音频信号的音乐特征，计算每个所述分段音频信号的差分特征，作为音乐特征。

5.根据权利要求1-3任一所述的提取音乐特征的方法，其特征在于，在获取音乐特征之后，所述方法还包括：

将提取到的音乐特征拼接成一个多维向量，并对所述多维向量进行降维处理。

6.一种提取音乐特征的装置，其特征在于，所述装置包括：

7.根据权利要求8所述的提取音乐特征的装置，其特征在于，所述第一计算单元具体用于根据每个所述分段音频信号的频域信号和所述频域信号对应的频率，利用下述公式1计算得到所述频率质心：

PC = \frac{Σ_{f = f \min}^{f = f \max} f . {| X (f) |}^{2}}{Σ_{f = f \min}^{f = f \max} {| X (f) |}^{2}}

8.根据权利要求7所述的提取音乐特征的装置，其特征在于，所述第二计算单元具体用于根据每个所述分段信号的频率质心、频域信号和所述频域信号对应的频率，利用下述公式2计算得到所述带宽：

BandWidth = \sqrt{Σ_{f = 0}^{f = F_{s} / 2} {(f - PC)}^{2} . {| X (f) |}^{2}}

9.根据权利要求6-8任一所述的提取音乐特征的装置，其特征在于，所述装置还包括：第三计算单元，用于在获取音乐特征之后，根据每个所述分段音频信号的音乐特征，计算每个所述分段音频信号的差分特征，作为音乐特征。

10.根据权利要求6-8任一所述的提取音乐特征的装置，其特征在于，所述装置还包括：第四计算单元，用于在获取音乐特征之后，将提取到的音乐特征拼接成一个多维向量，并对所述多维向量进行降维处理。