CN110472097A

CN110472097A - 乐曲自动分类方法、装置、计算机设备和存储介质

Info

Publication number: CN110472097A
Application number: CN201910595994.9A
Authority: CN
Inventors: 张爽; 王义文; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-11-19

Abstract

本发明公开了一种乐曲自动分类方法、装置、计算机设备和存储介质。所述乐曲自动分类方法包括：获取待分类的乐曲文件，对乐曲文件进行解析，得到与乐曲文件对应的目标语音帧集合；对每个目标语音帧进行信号特征提取，得到基于节拍的音级轮廓特征向量，并将其输入到预设的隐马尔科夫模型中进行和弦识别，得到乐曲文件的目标和弦序列；从预设的对比和弦直方图集合中获取与目标和弦直方图的相似度最大的对比和弦直方图，并将获取到的对比和弦直方图对应的音乐分类，作为乐曲文件的目标分类。采用本方法能够大大提高乐曲分类的精确性。

Description

乐曲自动分类方法、装置、计算机设备和存储介质

技术领域

本申请涉及乐曲自动分类技术，特别是涉及一种乐曲自动分类方法、装置、计算机设备和存储介质。

背景技术

随着社会的不断发展，人们的精神压力以及生活压力逐渐增大，音乐可有效地降低人们的精神压力，不同的音乐类型常带给人们不同的作用，但是随着音乐种类越来越多，在存储音乐时易出现存储混乱，不便于音乐按照有规律的条件进行存储，增加了对音乐管理的难度。

和弦是指由几个不同的音组成的和声，和弦作为音乐最重要的特征之一，包含着丰富的和声结构信息，是音乐情感的表达，对音乐信息检索具有重要意义。传统技术中的乐曲自动分类一般先通过获取一首乐曲中的一组连续的和弦作为和弦进行序列，再获取这一组和弦的变化情况，例如从一个和弦进行序列中的和弦从Em和弦变化到F和弦，再变成G和弦，最后变成Am和弦这种变化情况，然后可以根据这种和弦变化生成该和弦进行序列的和弦进行变化特征向量，根据和弦进行序列以及和弦进行变化特征向量对多首乐曲进行分组。这种方法虽然也可以实现乐曲自动分类的效果，但是由于同一首歌中的同一个主旋律可以有不同的和弦进行序列，通过传统技术无法对存在多个和弦进行序列的乐曲进行准确分类，造成乐曲分类的混乱。

发明内容

本发明实施例提供一种乐曲自动分类方法、装置、计算机设备和存储介质，以解决现有技术中无法对存在多个和弦进行模式的乐曲进行准确分类，造成乐曲自动分类混乱的技术问题。

一种乐曲自动分类方法，包括：

获取待分类的乐曲文件，对乐曲文件进行解析，得到与乐曲文件对应的目标语音帧集合，其中，目标语音帧集合中包括N帧目标语音帧，N为正整数；对每个目标语音帧进行信号特征提取，得到基于节拍的音级轮廓特征向量，其中，基于节拍的音级轮廓特征向量为目标语音帧集合中连续两个节拍点之间中包括的M帧目标语音帧的音级轮廓特征向量的平均值，M<N，M为正整数；将基于节拍的音级轮廓特征向量输入到预设的隐马尔科夫模型中进行和弦识别，得到乐曲文件的目标和弦序列；根据目标和弦序列生成目标和弦直方图，从预设的对比和弦直方图集合中获取与目标和弦直方图的相似度最大的对比和弦直方图，并将获取到的对比和弦直方图对应的音乐分类，作为乐曲文件的目标分类。

一种乐曲自动分类装置，包括：

语音处理模块，用于获取待分类的乐曲文件，对乐曲文件进行解析，得到与乐曲文件对应的目标语音帧集合，其中，目标语音帧集合中包括N帧目标语音帧，N为正整数；音级特征提取模块，用于对每个目标语音帧进行信号特征提取，得到基于节拍的音级轮廓特征向量，其中，基于节拍的音级轮廓特征向量为目标语音帧集合中连续两个节拍点之间中包括的M帧目标语音帧的音级轮廓特征向量的平均值，M<N，M为正整数；和弦识别模块，用于将基于节拍的音级轮廓特征向量输入到预设的隐马尔科夫模型中进行和弦识别，得到乐曲文件的目标和弦序列；乐曲分类模块，用于根据目标和弦序列生成目标和弦直方图，从预设的对比和弦直方图集合中获取与目标和弦直方图的相似度最大的对比和弦直方图，并将获取到的对比和弦直方图对应的音乐分类，作为乐曲文件的目标分类。

一种计算机设备，包括存储器和处理器，以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述乐曲自动分类方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述乐曲自动分类方法的步骤。

上述乐曲自动分类方法、装置、计算机设备和存储介质中，通过获取乐曲中连续两个节拍点之间的目标语音帧的音级轮廓特征向量，实现对待识别乐曲中和弦的更精准的识别，且可以获得一首乐曲中所有的和弦序列，以整首歌曲中的和弦序列作为识别基础，可以对包含多个和弦进行序列的待识别乐曲进行准确类型定位，大大提高了识别的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中乐曲自动分类方法的应用环境图；

图2为一个实施例中乐曲自动分类方法的流程示意图；

图3为一个实施例中乐曲自动分类方法中步骤204的流程示意图；

图4为另一个实施例中乐曲自动分类方法中步骤202的流程示意图；

图5为另一个实施例中乐曲自动分类方法的流程示意图；

图6为一个实施例中乐曲自动装置的示意图；

图7为一个实施例中计算机设备的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的乐曲自动分类方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102将获取到的待分类乐曲文件发送给服务器104，服务器104对乐曲文件进行解析、处理获取乐曲文件的目标和弦序列生成的目标和弦直方图，服务器104再根据目标和弦直方图获取乐曲文件的目标分类，从而实现对乐曲文件精确分类的目的。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种乐曲自动分类方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取待分类的乐曲文件，对乐曲文件进行解析，得到与乐曲文件对应的目标语音帧集合，其中，目标语音帧集合中包括N帧目标语音帧，N为正整数。

具体地，待检测的乐曲文件可以是一首歌曲，也可以是一段正在播放的音频信息，该乐曲文件的格式可以是WAVE、MP3、AMP、FLAC或者WMA，但不局限于以上描述的格式。具体地，获取乐曲文件的方法可以是用户上传、站点下载、外界环境中乐曲播放录音等等。

步骤204，对每个目标语音帧进行信号特征提取，得到基于节拍的音级轮廓特征向量，其中，基于节拍的音级轮廓特征向量为目标语音帧集合中连续两个节拍点之间中包括的M帧所述目标语音帧的音级轮廓特征向量的平均值，M<N，M为正整数。

具体地，音级轮廓特征向量(Pitch Class Profile，PCP)又称为音级特征，是一种对音乐信号的频谱能量(包括谐波能量)进行压缩到十二平均律的12个音级之上的向量，该向量能够直观有效地表征和弦的12维音级特征，音级轮廓特征向量(Pitch ClassProfile，PCP)与音乐有一定的相关性，它通过重建频谱映射使音乐成为音级谱，在这种重建方式下，音乐中的众多泛音以多对一的方式呗映射为其对应的少数的音级值，因此，音级轮廓特征向量具有一个重要的特性，即能量压缩。

具体地，作曲在乐音中使用的、有固定音高的音的总和叫做乐音体系，乐音体系中的音按照上行和下行次序排列起来，叫做音列。乐音体系中的各个音叫做音级(STEP)，音级包括基本音级和变化音级两种，七个相邻的具有同样名称的音之间的跨度叫做八度(OCTAVE)，这样的一个八度被包含12个音级，分别是：C、#C、D、#D、E、F、#F、G、#G、A、#A、B。

此外，音乐的节奏模式有两个基本概念，一个称为拍(BEAT)，一个称为小节(MEASURE)，不同时值的音符组成一定的节拍，一个小节中按规定包含一定数量的拍数，小节也构成了音乐乐句和乐段的节奏基础，拍内或拍间的音符的时值关系组成了音乐上的节奏型。值得说明的是，通过音频数据的频谱映射，使得每帧信号仅仅由12维特征向量组成，因而极大地简化了每帧的数据，同时，该音级特征还能够对给定歌曲所包含的和弦进行编码，因此，具有相似和声内容的两个音频的帧具有相同的音级轮廓特征向量。

步骤206，将基于节拍的音级轮廓特征向量输入到预设的隐马尔科夫模型中进行和弦识别，得到乐曲文件的目标和弦序列。

将获取到的基于节拍的音级轮廓特征向量输入到预设的隐马尔科夫模型中，将每个音级轮廓特征向量作为一个观测向量通过预设好的隐马尔科夫模型进行识别，得出该观测向量中所有的和弦识别序列，并从所有的和弦识别序列中得到最佳识别结果，作为目标和弦序列，其中，识别出的结果为隐藏状态序列。因在隐形马尔科夫模型对观测向量进行和弦识别的过程中，得到的和弦识别序列可能为多种，其中不同和弦识别序列中可能只有一个或者两个和弦的差别，我们需要通过从中得出最接近真实和弦序列的那个和弦识别序列，作为最佳的识别结果，即本实施例中的目标和弦序列。

其中，目标和弦序列中可能包括多个和弦，和弦作为音乐最重要的特征之一，包含着丰富的和声结构信息，通过对和弦序列的识别可快速对乐曲文件进行分类。在本实施例中主要针对的和弦包括12种大三和弦，12种小三和弦。因而，在预设的隐马尔科夫模型中，包括24个状态，每个状态包括隐藏状态和可见状态，每个和弦对应一个隐藏状态，每一目标语音帧的音级轮廓特征向量都是可见状态。

优选地，在预设的隐马尔科夫模型中，使用维特比算法对基于节拍的音级轮廓特征向量进行和弦识别，得到目标和弦序列。其中，维特比算法(Viterbi Algorithm)是一种动态规划算法，用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列，特别是在马尔可夫信息源上下文和隐马尔可夫模型中。该算法就是多步骤每步多选择模型的最优选择问题，其在每一步的所有选择都保存了前续所有步骤到当前步骤当前选择的最小总代价或者最大价值以及当前代价的情况下前继步骤的选择。依次计算完所有步骤后，通过回溯的方法找到最优选择路径，即目标和弦序列。

步骤208，根据目标和弦序列生成目标和弦直方图，从预设的对比和弦直方图集合中获取与目标和弦直方图的相似度最大的对比和弦直方图，并将获取到的对比和弦直方图对应的音乐分类，作为所述乐曲文件的目标分类。

具体地，根据目标和弦序列中包含的目标和弦的顺序和时长，在获取到目标和弦序列后，本实施例提供一个中级音乐特征：和弦直方图，即目标和弦直方图，以显示每一个和弦在歌曲中所占的时间百分比。通过两首歌曲的和弦直方图记录，可以看到某些和弦，例如C、F、G和Am经常出现在两首歌曲中。通过统计相同和弦出现的时长和频率，可对唤起情绪的相似度进行预估。

上述乐曲自动分类方法中，通过获取乐曲中连续两个节拍点之间的目标语音帧的音级轮廓特征向量，实现对待分类乐曲中和弦的更精准的识别，获取待分类乐曲中所有的和弦序列，以整首歌曲中的和弦序列作为识别基础，可以对包含多个和弦进行序列的待识别乐曲进行准确类型定位，大大提高了识别的准确度。

在一个实施例中，如图3所示，在步骤204中，对每个所述目标语音帧进行信号特征提取，得到基于节拍的音级轮廓特征向量包括：

步骤302，通过节拍跟踪方式获取目标语音帧集合中的节拍点，并将连续两个节拍点的间隔作为节拍间隔。

节拍跟踪，用于获取待检测的音乐信号中的节拍信息，确定每个节拍在音乐信号中的大致时间位置，它是自动伴奏、转录、计算机辅助音频编辑以及音乐相似性等应用的基础，同步节拍特征也是归一化不同音乐版本之间速率变化的一种很好的途径。

优选地，本实施例采用动态规划(Dynamic Programming，DP)节拍跟踪算法对目标语音帧集合中的节拍点进行检测，其中，在本实施例中的目标语音帧集合即为待检测的音乐信号。

具体地，对待检测的目标语音帧集合进行快速傅里叶变换(Fast FourierTransform，FFT)，通过一个权重矩阵将傅里叶频谱变换成40维Mel频谱。进而计算每一维Mel频谱沿时间轴上的一阶差分，将整个频谱内的值相加，滤除直流后得到起始能量包络；再对整个目标语音集合的起始能量进行自相关运算，得到全局速率估计，并在目标语音帧集合对数域上加高斯窗获取单一主峰值，将自相关中最大的滞后值作为最佳速率估计。

对得到的起始能量包络和全局速率进行处理和检测，并通过动态对话算法获取节拍时间位置信息，从而完成节拍跟踪，将每个节拍时间位置作为一个节拍点，将连续两个节拍点之间的时间间隔作为节拍间隔，从而实现对目标语音帧集合进行节拍获取的目的。

步骤304，对采用傅里叶变换方式获取到的每个目标语音帧的能量信号进行差分相位求导，得到代表音调的瞬时频率；音级轮廓特征向量(Pitch Class Profile，PCP)是音乐信息分类检索中广泛使用的一种信号特征，在基于瞬时频率的音级频谱中，通过估计瞬时频率的光谱区域可以从噪声中区分音调元素，同时处理调谐中的差异，本实施例结合高频率倒谱系数PFCC改进了基于瞬时频率的特征的提取算法，提出了一种对乐器类型以及音色变化更具有鲁棒性的音级特征。

具体地，将经过分帧加窗处理后的目标语音帧进行快速傅里叶变换，得到每一目标语音帧的信号能量E，进而对该信号能量E进行差分相位求导，得到代表音调的瞬时频率，此时，可采用类似Mel尺度的音调尺度lg(C×E+1)代替信号能量E，其中，C代表高音正常数，E表示信号能量。

优选地，在本实施例中，C的取值为100，进而对使用对数表示的音调进行离散余弦变换(Discrete Cosine Transform，DCT)获取高频率倒谱系数PFCC，保留上层高频率倒谱系数PFCC，并对保留的高频率倒谱系数PFCC进行DCT反变换，得到音调向量lgE，也即瞬时频率。

具体地，对每个目标语音帧上的n＝4096个点做傅里叶变换，其中，离散余弦变换用于将数据或图像的压缩，能够将空域的信号转换到频域上，具有良好的去相关性的性能。DCT变换本身是无损的，在图像编码等领域给接下来的量化、哈弗曼编码等创造了很好的条件，同时，由于DCT变换是对称的，所以，我们可以在量化编码后利用DCT反变换，在接收端恢复原始的图像信息。DCT变换在当前的图像分析已经压缩领域有着极为广大的用途，我们常见的JPEG静态图像编码以及MJPEG、MPEG动态编码等标准中都使用了DCT变换。

其中，Mel尺度又称为梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient，MFCC)，是组成梅尔频率倒谱的系数，梅尔频率倒谱(Mel-FrequencyCepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换，Mel尺度衍生自音讯片段的倒频谱(cepstrum)。倒谱和梅尔频率倒谱的区别在于，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这样的非线性表示，可以在多个领域中使声音信号有更好的表示。

步骤306，对瞬时频率进行频谱映射，得到每个目标语音帧的音级轮廓特征向量；

在本实施例中，可以使用如下公式进行频谱映射：

其中，PCP表示音级轮廓特征向量，k为系数，p表示频带，E表示信号能量。

忽略八度关系，只考虑把频率能量分为12个频带，将所有与某一特定音级对应的频率值的音级分量进行相加，得到一个12维的音级特征PCP。

步骤308，获取连续两个节拍点之间包括的目标语音帧的音级轮廓特征向量PCP的平均值，并将平均值作为基于节拍的音级轮廓特征向量。

计算每个节拍间隔的音级轮廓特征向量PCP的平均值，将得到的结果作为基于节拍的音级轮廓特征向量。

本实施例通过音频数据的频谱映射，使得每帧目标语音信号仅仅由12维特征向量组成，因而极大地简化了每帧语音信号的数据，同时，该音级特征即音级轮廓特征向量还能够对给定歌曲所包含的和弦进行编码，因此，具有相似和声内容的两个音频帧具有相同的音级特征，因同一少乐曲内和声存在重复处，所以通过本实施例的方式可以大大减少数据的处理量，提高数据处理的效率。

在一个实施例中，如图4所示，在步骤202中，获取待分类的乐曲文件，对乐曲文件进行解析，得到与乐曲文件对应的目标语音帧集合包括：

步骤402，提取乐曲文件中的语音数据，并对语音数据进行幅值归一化处理，得到基础语音信号。

具体地，利用设备获取的语音信号都是模拟信号，在对这些模拟信号进行预加重处理之前，需要经过采样和量化将模拟信息转化为数字信号，优选地，本实施例根据音乐信号的特点，将采样率可设置为22050KHz，单声道，量化精度为16bit的标准音乐信号。

应理解，此处采样率和量化精度的数值范围，为本实施例优选范围，但可以根据实际应用的需要进行设置，此处不做限制。

步骤404，对基础语音信号进行预加重处理，生成具有平坦频谱的目标语音信号。

具体地，由于声门激励和口鼻辐射会对语音信号的平均功率谱产生影响，导致高频在超过800Hz时会按6dB/倍频跌落，所以在计算语音信号频谱时，频率越高相应的成分越小，为此要在预处理中进行预加重(Pre-emphasis)处理，预加重的目的是提高高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或者声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行，这样不仅可以进行预加重，而且可以压缩信号的动态范围，有效地提高信噪比。预加重可使用一阶的数字滤波器来实现，例如：有限脉冲响应(Finite Impulse Response，FIR)滤波器。

语音信号在经过预加重后，频谱的高频部分得到提升，信号也变得平坦，生成具有平坦频谱的目标语音信号，有利于后续的处理。

步骤406，通过分帧和加窗方式，对目标语音信号进行处理，得到初始语音帧信号。

具体地，语音信号具有短时平稳的性质，语音信号在经过预加重处理后，需要对其进行分帧和加窗处理，来保持信号的短时平稳性，通常情况下，每秒钟包含的帧数在33～100帧之间。为了保持帧与帧之间的连续性，使得相邻两帧都能平滑过渡，采用交叠分帧的方式。

优选地，帧移与帧长的比值的取值范围为(0，0.5)。

例如，在本实施例中，预加重后的语音信号为s'(n)，帧长为N个采样点，帧移为M个采样点。当第l帧对应的采样点为第n个时，原始语音信号x_l(n)与各参数之间的对应关系为：

x_l(n)＝x[(l-1)M+n]

其中，n＝0,1,...,N-1,N＝256。

进一步地，声纹样本经过分帧之后，使用相应的窗函数w(n)与预加重后的语音信号s'(n)相乘，即得到加窗后的语音信号S_w，将该语音信号作为初始语音帧信号。

其中，窗函数包括但不限于：矩形窗(Rectangular)、汉明窗(Hamming)和汉宁窗(Hanning)等。

矩形窗表达式为：

汉明窗表达式为：

汉宁窗表达式为：

优选地，本实施例通过采用汉宁窗的窗函数进行加窗处理，对经过预加重处理的目标语音信号进行分帧和加窗处理，使得语音信号保持帧与帧之间的连续性，并剔除掉一些异常的信号点，提高了初始语音帧信号的鲁棒性。

步骤408，对初始语音帧信号进行静默分离，得到包括目标语音帧的目标语音帧集合。

具体地，在通话持续期间，语音信号可分为激活期和静默期两个状态，静默期不传送任何语音信号，上、下行链路的激活期和静默期相互独立。在获取到的音乐文件中，存在每次发音前后，均会有停顿的状态，这个状态会带来语音信号的停顿，即静默期，在进行后续特征提取的时候，需要检测出静默期状态，进而将静默期与激活期进行分离，以得到持续的激活期，将保留下来的持续的激活期的语音信号作为目标语音帧。

其中，检测静默音状态的方式包括但不限于：语音端点检测、FFMPEG探测音频静音算法和语音活动检测(Voice Activity Detection，VAD)算法等，其中，FFMPEG为一套视频处理和存储等的技术方案。

本实施例中通过对音乐信号进行去除噪音、静默分离等处理得到一整首乐曲或一段乐曲的目标语音帧集合，保证目标语音帧集合的语音的连续性。

在一个实施例中，如图5所示，还可以根据和弦序列进行音乐检索，详述如下：

步骤502，接收音乐检索请求，获取音乐检索请求中包括的检索和弦序列；音乐检索请求可以是用户/客户端发送的一个检索指令，其中可以包括要检索的语音片段，然后通过处理获得待检索的乐曲的和弦序列作为检索和弦序列。

具体地，其中，检索和弦序列的获取方式可以为：通过对音乐检索请求中的待分类的音乐文件进行解析，得到与该音乐文件对应的语音帧集合，其中，该语音帧集合中包括N帧语音帧，N为正整数；对每个语音帧进行信号特征提取，得到基于节拍的音级轮廓特征向量，其中，基于节拍的音级轮廓特征向量为语音帧集合中连续两个节拍点之间中包括的M帧语音帧的音级轮廓特征向量的平均值，M<N，M为正整数；将基于节拍的音级轮廓特征向量输入到预设的隐马尔科夫模型中进行和弦识别，得到该音乐文件的和弦序列，并将得到的和弦序列作为检索和弦序列。

步骤504，识别检索和弦序列中包含的音乐情感，作为目标情感；传统技术中使用低水平的特征来预测音乐情感，通过这种方式获取的音乐情感不准确。当通过和弦直方图描绘歌曲的和声结构图像时，可用于音乐检索。本实施例中通过获取和弦序列在歌曲中所占的时间百分比，更有效地识别和检索各个相似的歌曲。

步骤506，从预设音乐库中，提取与所述目标情感对应的音乐文件集，得到音乐文件集中每个音乐文件的和弦序列，并将得到的和弦序列作为对比和弦序列。

具体地，对比和弦序列的集合为对比和弦序列集；其中，预设音乐库可以是整个网站数据库中的乐曲、也可以是预先存储好的音乐集合，预设音乐库中包括预先提取到的每个音乐文件的和弦序列以及目标情感，作为每个音乐文件的检索索引。

步骤508，对比和弦序列集中，获取与检索和弦序列的相似度最大的对比和弦序列，并将获取到的对比和弦序列对应的音乐文件，作为目标音乐文件。

具体地，获取检索和弦序列与对比和弦序列中和弦的数量和种类，若检索和弦序列与对比和弦序列中和弦的数量和种类都相同，则提取与对比和弦序列对应的所有音乐文件，作为初步检索结果；再判断检索和弦序列与对比和弦序列中和弦出现的时间顺序是否一致，若一致，则从初步检索结果中剔除和弦顺序不一致的音乐文件，将剔除和弦顺序不一致的音乐文件后的音乐文件集合作为二次检索结果；最后，比较检索和弦序列中和弦在待检索音乐文件中所占时间百分比与对比和弦序列中和弦对比音乐文件中的时间百分比的数值，并从二次检索结果中获取与待检索音乐文件中和弦时间百分比数值偏差在预设阈值内的对比音乐文件，作为目标音乐文件。

两首歌曲中的和弦序列在歌曲中所占的时间百分比的数值越相近，则代表两首歌越相似，反之，则代表两首歌曲的相似度越低。

本实施例通过和弦序列在歌曲中所占时间百分比，识别和检索得到与该歌曲相似的歌曲，并获得最相似的歌曲文件作为目标文件，以解决传统技术中音乐检索不准确的技术问题。

应该理解的是，虽然图2-图5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种乐曲自动分类装置，该乐曲自动分类装置与上述实施例中乐曲自动分类方法一一对应。该乐曲自动分类装置包括语音处理模块602、音级特征处理模块604和和弦识别模块606以及乐曲分类模块608，其中：

语音处理模块602，用于获取待分类的乐曲文件，对乐曲文件进行解析，得到与乐曲文件对应的目标语音帧集合，其中，目标语音帧集合中包括N帧目标语音帧，N为正整数。

具体的，语音处理模块602，包括：

语音数据处理子模块6022，用于提取乐曲文件中的语音数据，并对语音数据进行幅值归一化处理，得到基础语音信号；

预加重处理子模块6024，用于对基础语音信号进行预加重处理，生成具有平坦频谱的目标语音信号；

分帧处理子模块6026，用于通过分帧和加窗方式，对目标语音信号进行处理，得到初始语音帧信号；

静默分离子模块6028，用于对初始语音帧信号进行静默分离，得到包括目标语音帧的目标语音帧集合。

音级特征处理模块604，用于对每个目标语音帧进行信号特征提取，得到基于节拍的音级轮廓特征向量，其中，基于节拍的音级轮廓特征向量为目标语音帧集合中连续两个节拍点之间中包括的M帧目标语音帧的音级轮廓特征向量的平均值，M<N，M为正整数。

进一步地，音级特征处理模块604包括：

节拍跟踪子模块6042，用于获取目标语音帧集合中的节拍点，并将连续两个节拍点的间隔作为节拍间隔；

频率获取子模块6044，用于对采用快速傅里叶变换方式获取到的每个目标语音帧的能量信号进行差分相位求导，得到代表音调的瞬时频率；

特征提取子模块6046，用于对瞬时频率进行频谱映射，得到每个目标语音帧的音级轮廓特征向量；

均值计算子模块6048，用于获取每连续两个节拍点之间包括的目标语音帧的音级轮廓特征向量的平均值，并将平均值作为基于节拍的音级轮廓特征向量。

和弦识别模块606，用于将基于节拍的音级轮廓特征向量输入到预设的隐马尔科夫模型中进行和弦识别，得到乐曲文件的目标和弦序列。

进一步地，和弦识别模块606，还用于在隐马尔科夫模型中，使用维特比算法对基于节拍的音级轮廓向量进行和弦识别，得到目标和弦序列。

乐曲分类模块608，用于根据目标和弦序列生成目标和弦直方图，从预设的对比和弦直方图集合中获取与目标和弦直方图的相似度最大的对比和弦直方图，并将获取到的对比和弦直方图对应的音乐分类，作为乐曲文件的目标分类。

作为本实施例的进一步改进，本乐曲自动分类装置还包括音乐检索模块610，用于：

接收音乐检索请求，获取所述音乐检索请求中包括的检索和弦序列；识别所述检索和弦序列中包含的音乐情感，作为目标情感；从预设音乐库中，提取与所述目标情感对应的音乐文件集，得到所述音乐文件集中每个音乐文件的和弦序列，并将得到的和弦序列作为对比和弦序列，其中，所述对比和弦序列的集合为对比和弦序列集；从所述对比和弦序列集中，获取与所述检索和弦序列的相似度值最大的对比和弦序列，并将获取到的对比和弦序列对应的音乐文件，作为目标音乐文件。

关于乐曲自动装置的具体限定可以参见上文中对于乐曲自动分类方法的限定，在此不再赘述。上述乐曲自动分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储乐曲文件数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种乐曲自动分类方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中乐曲自动分类方法的步骤，例如图2所示的步骤202至步骤208，或者，处理器执行计算机程序时实现上述实施例中乐曲自动分类装置的各模块/单元的功能，例如图6所示模块602至模块610的功能。为避免重复，此处不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中乐曲自动分类方法的步骤，例如图2所示的步骤202至步骤208，或者，处理器执行计算机程序时实现上述实施例中乐曲自动分类装置的各模块/单元的功能，例如图6所示模块602至模块610的功能。为避免重复，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将乐曲自动分类装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形、改进或者对部分技术特征进行等同替换，而这些修改或者替换，并不使相同技术方案的本质脱离本发明个实施例技术方案地精神和范畴，都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种乐曲自动分类方法，其特征在于，所述乐曲自动分类方法包括：

获取待分类的乐曲文件，对所述乐曲文件进行解析，得到与所述乐曲文件对应的目标语音帧集合，其中，所述目标语音帧集合中包括N帧目标语音帧，N为正整数；

对每个所述目标语音帧进行信号特征提取，得到基于节拍的音级轮廓特征向量，其中，所述基于节拍的音级轮廓特征向量为所述目标语音帧集合中连续两个节拍点之间中包括的M帧所述目标语音帧的音级轮廓特征向量的平均值，M<N，M为正整数；

将所述基于节拍的音级轮廓特征向量输入到预设的隐马尔科夫模型中进行和弦识别，得到所述乐曲文件的目标和弦序列；

根据所述目标和弦序列生成目标和弦直方图，从预设的对比和弦直方图集合中获取与所述目标和弦直方图的相似度最大的对比和弦直方图，并将获取到的对比和弦直方图对应的音乐分类，作为所述乐曲文件的目标分类。

2.根据权利要求1所述的乐曲自动分类方法，其特征在于，所述对每个所述目标语音帧进行信号特征提取，得到基于节拍的音级轮廓特征向量包括：

通过节拍跟踪方式获取所述目标语音帧集合中的节拍点，并将连续两个所述节拍点的间隔作为节拍间隔；

对采用快速傅里叶变换方式获取到的每个所述目标语音帧的能量信号进行差分相位求导，得到代表音调的瞬时频率；

对所述瞬时频率进行频谱映射，得到每个所述目标语音帧的音级轮廓特征向量；

获取每连续两个节拍点之间包括的所述目标语音帧的音级轮廓特征向量的平均值，并将所述平均值作为基于节拍的音级轮廓特征向量。

3.根据权利要求1所述的乐曲自动分类方法，其特征在于，所述乐曲自动分类方法还包括：

接收音乐检索请求，获取所述音乐检索请求中包括的检索和弦序列；

识别所述检索和弦序列中包含的音乐情感，作为目标情感；

从预设音乐库中，提取与所述目标情感对应的音乐文件集，得到所述音乐文件集中每个音乐文件的和弦序列，并将得到的和弦序列作为对比和弦序列，其中，所述对比和弦序列的集合为对比和弦序列集；

从所述对比和弦序列集中，获取与所述检索和弦序列的相似度最大的对比和弦序列，并将获取到的对比和弦序列对应的音乐文件，作为目标音乐文件。

4.根据权利要求1所述的乐曲自动分类方法，其特征在于，所述获取待分类的乐曲文件，对所述乐曲文件进行解析，得到与所述乐曲文件对应的目标语音帧集合包括：

提取所述乐曲文件中的语音数据，并对所述语音数据进行幅值归一化处理，得到基础语音信号；

对所述基础语音信号进行预加重处理，生成具有平坦频谱的目标语音信号；

通过分帧和加窗方式，对所述目标语音信号进行处理，得到初始语音帧信号；

对所述初始语音帧信号进行静默分离，得到包括所述目标语音帧的目标语音帧集合。

5.根据权利要求1所述的乐曲自动分类方法，其特征在于，所述将所述基于节拍的音级轮廓特征向量输入到预设的隐马尔科夫模型中，得到所述乐曲文件的目标和弦序列包括：

所述预设的隐马尔科夫模型中,使用维特比算法对所述基于节拍的音级轮廓特征向量进行和弦识别，得到目标和弦序列。

6.一种乐曲自动分类装置，其特征在于，所述乐曲自动分类装置包括：

语音处理模块，用于获取待分类的乐曲文件，对所述乐曲文件进行解析，得到与所述乐曲文件对应的目标语音帧集合，其中，所述目标语音帧集合中包括N帧目标语音帧，N为正整数；

音级特征提取模块，用于对每个所述目标语音帧进行信号特征提取，得到基于节拍的音级轮廓特征向量，其中，所述基于节拍的音级轮廓特征向量为所述目标语音帧集合中连续两个节拍点之间中包括的M帧所述目标语音帧的音级轮廓特征向量的平均值，M<N，M为正整数；

和弦识别模块，用于将所述基于节拍的音级轮廓特征向量输入到预设的隐马尔科夫模型中进行和弦识别，得到所述乐曲文件的目标和弦序列；

乐曲分类模块，用于根据所述目标和弦序列生成目标和弦直方图，从预设的对比和弦直方图集合中获取与所述目标和弦直方图的相似度最大的对比和弦直方图，并将获取到的所述对比和弦直方图对应的音乐分类，作为所述乐曲文件的目标分类。

7.根据权利要求6所述的乐曲自动分类装置，其特征在于，所述音级特征提取模块，包括：

节拍跟踪子模块，用于通过节拍跟踪方式获取所述目标语音帧集合中的节拍点，并将连续两个所述节拍点的间隔作为节拍间隔；

频率获取子模块，用于对采用快速傅里叶变换方式获取到的每个所述目标语音帧的能量信号进行差分相位求导，得到代表音调的瞬时频率；

特征提取子模块，用于对所述瞬时频率进行频谱映射，得到每个所述目标语音帧的音级轮廓特征向量；

均值计算子模块，用于获取每连续两个节拍点之间包括的所述目标语音帧的音级轮廓特征向量的平均值，并将所述平均值作为基于节拍的音级轮廓特征向量。

8.根据权利要求6所述的乐曲自动分类装置，其特征在于，所述乐曲自动分类装置还包括音乐检索模块，用于：

识别所述检索和弦序列中包含的音乐情感，作为目标情感；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的乐曲自动分类方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的乐曲自动分类方法。