CN111223491B

CN111223491B - 一种提取音乐信号主旋律的方法、装置及终端设备

Info

Publication number: CN111223491B
Application number: CN202010075634.9A
Authority: CN
Inventors: 马学军; 张虎; 陈刚
Original assignee: Shenzhen Breo Technology Co Ltd
Current assignee: Shenzhen Breo Technology Co Ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2022-11-15
Anticipated expiration: 2040-01-22
Also published as: CN111223491A

Abstract

本发明实施例适用于信号处理技术领域，提供了一种提取音乐信号主旋律的方法、装置及终端设备，所述方法包括：获取待处理的音乐信号，所述音乐信号包括多帧音频数据；通过对每帧音频数据进行预处理，区分有效帧和无效帧；对于无效帧，标识为无基频；对于有效帧，计算帧频谱并根据帧频谱确定主频；根据有效帧的主频和预置的谐波能量互相关算法，确定有效帧的多个候选基频；按照预设规则，从有效帧的多个候选基频中识别出基频；基于所有有效帧的基频，生成匹配音乐信号的基频轮廓线，即是音乐信号的主旋律。本实施例可以实时、准确地提取音乐信号的主旋律，计算量小，可以在各类含微处理器的硬件中使用。

Description

一种提取音乐信号主旋律的方法、装置及终端设备

技术领域

本发明属于信号处理技术领域，特别是涉及一种提取音乐信号主旋律的方法、装置及终端设备。

背景技术

音乐信号节奏，准确地称为旋律，是指音频数据中每个时刻主要的音高以及所有时间内各音高的变化情况。旋律和人耳听觉感知有关，是音频数据的基本特征，在音乐信号学研究上没有较为严格的定义，通常采用的旋律的定义是指音乐信号中的一组有序的音高序列，但需要和谐波区分开。一般理解，旋律是音频数据的基频序列。具体来说，对于纯乐器信号，主旋律指占主要地位的基频随时间变化的情况；在有人唱歌，即混合人声和背景音乐信号时，主旋律是指人声的基频随时间变化的情况。

现有技术中，对于给定的任意一段音乐信号，如果需要提取该段音乐信号的主旋律，其处理过程往往十分复杂，且很多处理方法都是需要全局处理，非实时处理。

发明内容

有鉴于此，本发明实施例提供了一种提取音乐信号主旋律的方法、装置及终端设备，以解决现有技术中提取音乐信号主旋律的过程十分复杂且不能实时提取的问题。

本发明实施例的第一方面提供了一种提取音乐信号主旋律的方法，包括：

获取待处理的音乐信号，所述音乐信号包括多帧音频数据；

通过对所述多帧音频数据进行预处理，区分所述音频数据中的有效帧和无效帧，对于无效帧，标识为无基频；

对于所述有效帧，计算所述有效帧的帧频谱，并根据所述帧频谱确定所述有效帧的主频；

根据所述有效帧的主频和预置的谐波能量互相关算法，确定所述有效帧的多个候选基频；

按照预设规则，从所述多个候选基频中识别出基频；

基于所有有效帧的基频，生成匹配所述音乐信号的基频轮廓线，所述基频轮廓线即是所述音乐信号的主旋律。

本发明实施例的第二方面提供了一种提取音乐信号主旋律的装置，包括：

音乐信号获取模块，用于获取待处理的音乐信号，所述音乐信号包括多帧音频数据；

帧类型区分模块，用于通过对所述多帧音频数据进行预处理，区分所述音频数据中的有效帧和无效帧，对于无效帧，标识为无基频；

主频确定模块，用于对于所述有效帧，计算所述有效帧的帧频谱，并根据所述帧频谱确定所述有效帧的主频；

候选基频确定模块，用于根据所述有效帧的主频和预置的谐波能量互相关算法，确定所述有效帧的多个候选基频；

基频识别模块，用于按照预设规则，从所述多个候选基频中识别出基频；

主旋律生成模块，用于基于所有有效帧的基频，生成匹配所述音乐信号的基频轮廓线，所述基频轮廓线即是所述音乐信号的主旋律。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的提取音乐信号主旋律的方法。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的提取音乐信号主旋律的方法。

与现有技术相比，本发明实施例包括以下优点：

本发明实施例，在获取待处理的音乐信号后，通过对该音乐信号中包括的多帧音频数据进行预处理，可以区分出其中的有效帧和无效帧，对于无效帧，标识为无基频，对于有效帧，通过计算帧频谱，确定主频，在根据主频和预置的谐波能量互相关算法，确定出多个候选基频后，可以按照预设规则，从多个候选基频中识别出基频，进而根据所有有效帧的基频，生成匹配上述音乐信号的基频轮廓线，即是音乐信号的主旋律。本实施例能够实时、准确地提取音乐信号的主旋律，计算量小、可以在各类含微处理器的硬件中使用。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种提取音乐信号主旋律的方法的步骤流程示意图；

图2是本发明一个实施例的某有效帧的当前一个基频的示意图；

图3是本发明一个实施例的一种提取音乐信号主旋律的装置的示意图；

图4是本发明一个实施例的一种终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本发明。在其他情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

下面通过具体实施例来说明本发明的技术方案。

参照图1，示出了本发明一个实施例的一种提取音乐信号主旋律的方法的步骤流程示意图，具体可以包括如下步骤：

S101、获取待处理的音乐信号，所述音乐信号包括多帧音频数据；

需要说明的是，待处理的音乐信号可以是任意给定或实时播放的一首音乐或一段音乐信号。

在本发明实施例中，对于一首音乐信号，可以通过对输入的音乐信号进行分帧处理，得到每帧音频数据。

通常，信号采样率为16k，可以按照设定的20ms帧移，40ms帧长，对输入的音乐信号进行分帧处理，则处理后的每帧音频数据为640点。

当然，根据实际需要，本领域技术人员还可以按照其他规格对音乐信号进行分帧处理，本实施例对此不作限定。

S102、通过对所述多帧音频数据进行预处理，区分所述音频数据中的有效帧和无效帧，对于所述无效帧，标识为无基频；

在本发明实施例中，音乐信号中的有效帧可以是信号幅值不小于预设的有效帧信号幅值阈值的音频数据。上述预设的有效帧信号幅值阈值可以通过时域信号幅值统计处理的方式得到，即，通过在机器音量固定时，大量统计最小有效声音段的信号幅值确定。

例如，可以将机器开到某个音量，输入正确格式的音乐信号(如通过手机录制的唱歌声音)，然后通过波形分析软件查看，重点考查人声起始段和结束段的数据值大小，大致确定人声数据的信号幅值阈值。通常，数据起始段中有一部分是随机噪声和抖动噪声，然后是人唱歌和音乐信号同时存在的部分，最后还有一部分是背景音乐信号，通过设置某个阈值，作为一次统计。当统计较多数据后，可以大致确定出有效帧信号幅值阈值。

因此，针对任一帧音频数据，可以判断该音频数据的信号幅值是否小于预设的有效帧信号幅值阈值；若音频数据的音量小于预设的有效帧信号幅值阈值，则可以判定当前音频数据为无效帧；若音频数据的音量大于等于预设的有效帧信号幅值阈值，则可以判定当前音频数据为有效帧。在后续的处理中，只对有效帧进行处理，对于无效帧，标识为无基频。

S103、对于所述有效帧，计算所述有效帧的帧频谱，并根据所述帧频谱确定所述有效帧的主频；

在本发明实施例中，在上述判断出有效帧和无效帧的基础上，还可以通过判断当前帧是否是过渡帧，来计算出相应的帧频谱。

通常，判断某一帧是否为过渡帧，主要考查前后帧的峰值位置、个数。若峰值位置和个数比较稳定的，属于同一信号段；若前后帧变化明显的，则后一帧为过渡帧。

在具体实现中，针对任一有效帧，判断所述有效帧与前一有效帧是否属于同一信号段时，可以首先在设定的频带范围内，确定所述有效帧与前一有效帧在各自对应的频谱中的峰值位置。需要说明的是，在确定当前帧和前一帧的频谱峰值位置时，可以首先对有效帧做加窗和FFT(Fast Fourier Transformation，快速傅里叶变换)处理。例如，对640点信号补零到1024 点做1024点的FFT，得到两帧信号频谱幅值并归一化，依次设为X_t-1(f)、X_t(f)。

然后，在一定范围的低频段，分别搜寻两帧频谱幅值上的峰值位置，对峰值设置阈值，太小的峰值可以舍弃。

当确定出峰值后，可以根据峰值位置，统计所述有效帧与前一有效帧的峰值位置相似度。

在具体实现中，可以设定一初始的相似度，然后针对前一有效帧的任一峰值位置，判断所述有效帧的各个峰值位置与前一有效帧的所述峰值位置之间的变化规律是否符合预设规律，上述预设规律可以是指有效帧的各个峰值位置与前一有效帧的所述峰值位置之差是否小于预设区间阈值。若是，则峰值位置相似度递增，直到对前一有效帧的各个峰值位置判断完毕，便可以获得所述有效帧与前一有效帧的峰值位置相似度。

当峰值位置相似度超过预设相似度阈值时，可以判定所述有效帧与前一有效帧属于同一信号段，否则，判定所述有效帧与前一有效帧不属于同一信号段。

在本发明实施例中，若所述有效帧与前一有效帧属于同一信号段，则可以按照预设权重值对所述有效帧与前一有效帧的频谱幅值进行加权平均，获得所述有效帧的帧频谱。上述权重值可以通过试验获得。

当然，若二者属于不同信号段，则无需对当前帧的频谱幅值进行加权处理。

在得到所述有效帧的帧频谱后，可以在该频谱上，计算出有效帧的主频，即寻找频谱中的峰值位置。

S104、根据所述有效帧的主频和预置的谐波能量互相关算法，确定所述有效帧的多个候选基频；

在本发明实施例中，在确定所述有效帧的候选基频前，可以首先对所述有效帧的帧频谱做分辨率转换处理，将频谱的分辨率转换为预设频率数值。

例如，可以将频谱分辨率转换为1Hz。为叙述方便，分辨率转换后频谱称为变换分辨率频谱。

在本发明实施例中，可以设置一基频范围，通过判断所述有效帧的主频是否在该基频范围内，识别出多个候选基频。在本发明实施例中，当所述有效帧的主频在预设基频范围内时，可以在变换分辨率频谱上，分别计算在主频的多个预设比例的频率的设定范围内，是否存在满足设定阈值要求的峰值位置。上述多个预设比例均小于1，可以是1/2、1/3、1/4、1/5、1/6等等。通过设定阈值要求对峰值进行限定，可以有效避免选择出较小的峰值。

若存在满足设定阈值要求的峰值位置，则可以识别峰值位置中最大峰值对应的频率为所述有效帧的第一候选基频；若不存在满足设定阈值要求的峰值位置，则可以将主频设为所述有效帧的第一候选基频。第一候选基频是权重值最大的候选基频。

当然，当所述有效帧的主频不在预设基频范围内时，同样可以在变换分辨率的频谱上，分别计算在主频的多个预设比例的频率的设定范围内，是否存在满足设定阈值要求的峰值位置。若存在满足设定阈值要求的峰值位置，则可以识别峰值位置中最大峰值对应的频率为所述有效帧的第二候选基频；若不存在满足设定阈值要求的峰值位置，则可以识别主频为所述有效帧的第三候选基频。第二候选基频是权重值次大的候选基频，第三候选基频是权重值较大的候选基频，即第一候选基频的权重值大于第二候选基频的权重值，第二候选基频的权重值大于第三候选基频的权重值。上述最大、次大、较大的权重值可以预先在算法中设定。即，预先在算法中设置三个大小不等的数值，在识别出对应的候选基频后，根据各个候选基频的权重值大小关系，分别为其赋予相应大小的数值。

在本发明实施例中，若所述有效帧与前一有效帧属于同一信号段，则还可以确定所述有效帧的多个其他候选基频。并采用预置的谐波能量互相关算法计算得到多个其他候选基频的权重值。

在具体实现中，可以在变换分辨率频谱的预设基频范围内，选定预设个数的峰值，然后以峰值位置对应的频率作为所述有效帧的多个其他候选基频。

需要说明的是，在选定预设个数的峰值时，可以按照频率由小至大的顺序选择。例如，可以在在变换分辨率频谱的预设基频范围内，按频率由小到大寻找15个峰值。当然，峰值需要满足一定条件，可以对其设置阈值，超过阈值则可以作为候选基频。若峰值不足15个，峰值可以用0填充。

S105、按照预设规则，从所述多个候选基频中识别出基频；

在本发明实施例中，在得到多个候选基频后，可以按照预设规则从多个候选基频中识别出基频。

需要说明的是，多个候选基频包括步骤S104中的第一候选基频、第二候选基频、第三候选基频以及其他候选基频。对于其他候选基频，还可以对其作进一步的校正。

在具体实现中，针对任一其他候选基频，可以首先识别在所述有效帧的帧频谱上该候选基频的多个预设倍数频率附近多个谐波峰值。上述多个预设倍数频率可以为多个连续的整数值倍数对应的频率，即在原始频谱上，在基频整数倍附近寻找谐波关系。

例如，对于每一个其他候选基频，可以在频谱上从其2到20倍附近搜寻峰值，对附近的控制依然是设定浮动区间，可以是固定大小区间。当同一个区间内存在多个峰值时，取最接近整数倍的峰值。当然，对峰值大小，也需要进行限制，设置阈值排除过小的峰值。如果某个倍数附近没有峰值存在，或者峰值小于阈值，则该次谐波峰值用0表示。这样，记录每一帧的每个其他候选基频的20个谐波峰值(包含1次谐波即候选基频本身的值)。

由于上述第一次搜寻到的其他候选基频不一定准确，在上述搜寻谐波峰值的过程中，通过各个谐波峰值位置对这些其他候选基频进行校正，获得最终校正后的其他候选基频。

例如，对于图2中所示的某帧的当前一个其他候选基频，如453.1Hz，可以在原始频谱上找2次谐波，即在图2中906.2Hz附近搜寻峰值，设置浮动区间为30Hz，则在图中找到是906.3Hz。此时，按照453.1Hz和906.3Hz 校正原基频，校正方式可以是设置一个加权因子，将谐波频率除以其次数的结果和当前基频进行加权。如设置因子为a，则得到新的基频f₀为：

f₀＝453.1*(1-a)+906.3/2*a

若设置a为0.1，则此次校正基频f₀＝453.105，如此每次搜寻谐波峰值都能对基频进行校正，然后，可以记录最终校正得到的基频f₀，对其取整后可以得到相应的基频，作为最终校正后的所述其他候选基频，该其他候选基频在变换分辨率频谱上对应的频谱幅值为其能量。

通过计算所述有效帧与前一有效帧各个其他候选基频对应的谐波能量互相关系数，可以在识别出谐波能量互相关系数大于预设相关系数阈值的多个目标互相关系数后，计算多个目标互相关系数对应的所述有效帧最终的其他候选基频。即，对上述校正后的其他候选基频，还做了一次调整。

需要说明的是，计算前后两帧的各基频的谐波能量互相关系数针对的是前后帧属于同一信号段的情形。

在具体实现中，可以以所述有效帧的一个其他候选基频的谐波能量作为第一数组，以前一有效帧的一个其他候选基频的谐波能量作为第二数组，计算第一数组和第二数组的协方差，然后计算第一数组的方差与第二数组的方差之间的乘积，以协方差与乘积的平方根之间的比值，作为当前帧这个候选目标基频对应的谐波能量互相关系数。

需要说明的是，所述有效帧的每个其他候选基频的谐波能量数组需要和前一有效帧的每个其他候选基频的谐波能量数组做上述互相关计算。

例如，对于所述有效帧的15个其他候选基频，设为f_t(0)₁、f_t(0)₂、 f_t(0)₃、……、f_t(0)₁₅(不足15个基频的用0填充)，对应有15组谐波峰值，每组有20个谐波峰值(包含1次谐波，即基频)，如对应第一个基频的20 个谐波峰值为：V(f_t(0)₁)、V(f_t(1)₁)、V(f_t(2)₁)、……、V(f_t(19)₁)，则类似地，前一有效帧的各个其他候选基频及其对应各次谐波，都能保存。比如前一有效帧的第2个其他候选基频可记为f_t-1(0)₂，其20次谐波峰值记为则V(f_t-1(0)₂)、 V(f_t-1(1)₂)、V(f_t-1(2)₂)、……、V(f_t-1(19)₂)。对于这两帧的各个其他候选基频，当差值在一个设置区间内时，为表达方便，不妨设前一帧第m个其他候选基频谐波能量组成的20维数组为V(f_t-1()_m)，后一帧第n个其他候选基频谐波能量组成的20维数组为V(f_t()_n)，可以按照如下公式计算这两个其他候选基频及对应谐波的能量互相关系数：

其中，Cov表示求协方差，Var表示求方差。互相关值的范围在-1到1 之间。值越小，相关性越小；值越大，相关性越大。理论上，前后帧之间所有其他候选基频都需要计算互相关(如果所有前后帧其他候选基频两两之间差值都是在预设区间内)，即，对应当前帧的第一个其他候选基频，可以和前一帧的15个其他候选基频计算出15个相关系数；第二个其他候选基频，也可以和前一帧的15个其他候选基频计算出15个相关系数，最终最多可以计算出15*15个相关系数。需要注意的是，若当前帧某其他候选基频和前一帧某其他候选基频之间差值大于设置区间，则不计算相关，直接将相关系数置为零，所以，相邻两帧，最终还是可以计算得到15*15个相关系数。

可以对上述计算得到的相关系数设置阈值，当相关系数大于阈值则保留，小于等于，则置为零。然后，可以通过计算，得到每个不为零的相关系数(即大于阈值)对应的其他候选基频。

在本发明实施例中，针对任一不为零的目标互相关系数，可以首先确定该目标互相关系数对应的前一有效帧的其他候选基频和所述有效帧的其他候选基频，然后，计算前一有效帧的其他候选基频和所述有效帧的其他候选基频的平均值，更新所述有效帧此其他候选基频，并以该不为零的互相关系数作为该其他候选基频的权重值。

例如，若某个目标互相关系数是由前一帧的第p个其他候选基频谐波能量和当前帧第q个其他候选基频谐波能量做相关计算得到的，假设前一帧第 p个其他候选基频为f_t-1(0)_p，当前帧第q个其他候选基频为f_t(0)_q，更新当前帧的该其他候选基频可以表示为：

f_t(0)_q＝0.5*(f_t-1(0)_p+f_t(0)_q)

当然，前述由主频确定的第一候选基频、第二候选基频和第三候选基频，也将作为后续处理的候选基频，其权重值即是各自对应的权重值。

然后，可以从上述第一候选基频、第二候选基频、第三候选基频和其他候选基频识别出所述有效帧的基频。

在本发明实施例中，若所述有效帧与前一有效帧不属于同一信号段，则可以通过识别所述有效帧的候选基频的权重值中的最大值，以权重值的最大值对应的候选基频作为所述有效帧的基频。

若所述有效帧与前一有效帧属于同一信号段，则可以首先判断所述有效帧的候选基频与前一有效帧的基频之间的差值是否大于预设基频阈值，该预设基频阈值可以是50音分。

当所述有效帧的候选基频与前一有效帧的基频之间的差值不大于50音分时，则可以将所述有效帧的候选基频，作为所述有效帧的基频；

在按照上述处理后，若能够唯一地确定当前帧的基频，则给出该基频。

需要说明的是，若所述有效帧的任一候选基频与前一有效帧的基频之间的差值均大于预设基频阈值，则可以根据当前帧全部候选基频的平均值与前一有效帧的基频的关系，对所述有效帧的候选基频进行调整，获得所述有效帧的基频。

例如，可以首先判断全部候选基频的平均值是否大于前一有效帧的基频；若是，则可以将前一有效帧的基频加上预设基频阈值，作为所述有效帧的基频；若否，则可以将前一有效帧的基频减去预设基频阈值，作为所述有效帧的基频。

在本发明实施例中，若经过上述处理，所述有效帧的基频还包括多个，则可以在将所述有效帧的多个基频分别减去前一有效帧的基频，再分别除以各基频对应的权重，得到与各个基频对应的基频差值；以所有基频对应的基频差值中绝对值最小值对应的基频作为所述有效帧的基频，若最小值对应的基频包括多个(不止一个)，则可以在最小值对应的多个基频中选择和前一有效帧基频之间的差值最小的一个基频，作为有效帧的基频。

需要说明的是，这里也可以有其他处理方式，但基本方法都是依据前帧基频和后帧的候选基频差值绝对值和后帧基频权重值做处理。

需要说明的是，本实施例还可以采用类似于平滑滤波的方法对有效帧的基频做进一步调整。即，在计算出所述有效帧的基频后，若该有效帧之前有设定帧数的相同信号段的有效帧，则可以对这个设定帧数的有效帧和当前帧的基频序列作平滑处理，进一步调整当前帧的基频。

S106、基于所有有效帧的基频，生成匹配所述音乐信号的基频轮廓线，所述基频轮廓线即是所述音乐信号的主旋律。

在得到各个有效帧的基频后，便可以基于所有有效帧和无效帧的基频生成匹配当前的音乐信号的基频轮廓线，该基频轮廓线即是上述音乐信号的主旋律。

需要说明的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

需要说明的是，上述实施例对提取音乐信号主旋律的过程进行了详细的说明，但基于本发明所提供的方法，本领域的普通技术人员还可以采用其他方式对本发明的部分细节进行修改或替换，例如，区分有效帧和无效帧的方式，判断前后帧的相似度，通过谐波能量互相关算法确定候选基频，等等。这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，都应包含在本发明的保护范围之内。

参照图3，示出了本发明一个实施例的一种提取音乐信号主旋律的装置的示意图，具体可以包括如下模块：

音乐信号获取模块301，用于获取待处理的音乐信号，所述音乐信号包括多帧音频数据；

帧类型区分模块302，用于通过对所述多帧音频数据进行预处理，区分所述音频数据中的有效帧和无效帧，对于所述无效帧，标识为无基频；

主频确定模块303，用于对于所述有效帧，计算所述有效帧的帧频谱，并根据所述帧频谱确定所述有效帧的主频；

候选基频确定模块304，用于根据所述有效帧的主频和预置的谐波能量互相关算法，确定所述有效帧的多个候选基频；

基频识别模块305，用于按照预设规则，从所述多个候选基频中识别出基频；

主旋律生成模块306，用于基于所有有效帧的基频，生成匹配所述音乐信号的基频轮廓线，所述基频轮廓线即是所述音乐信号的主旋律。

在本发明实施例中，所述帧类型区分模块302具体可以包括如下子模块：

音频数据信号幅值判断子模块，用于针对任一帧音频数据，判断所述音频数据的信号幅值是否小于预设的有效帧信号幅值阈值，所述预设的有效帧信号幅值阈值通过在机器音量固定时，统计最小有效声音段的信号幅值确定；

无效帧识别子模块，用于若所述音频数据的信号幅值小于预设的有效帧信号幅值阈值，则判定当前音频数据为无效帧，对于所述无效帧，标识为无基频；

有效帧识别子模块，用于若所述音频数据的信号幅值大于或等于预设的有效帧信号幅值阈值，则判定当前音频数据为有效帧。在本发明实施例中，所述主频确定模块303具体可以包括如下子模块：

信号段判断子模块，用于针对任一有效帧，判断所述有效帧与前一有效帧是否属于同一信号段；

帧频谱计算子模块，用于若所述有效帧与前一有效帧属于同一信号段，则按照预设权重值对所述有效帧与前一有效帧的频谱幅值进行加权平均，获得所述有效帧的帧频谱。若所述有效帧与前一有效帧不属于同一信号段，则不作加权处理。

在本发明实施例中，所述信号段判断子模块具体可以包括如下单元：

峰值位置确定单元，用于针对任一有效帧，在设定的频带范围内，确定所述有效帧与前一有效帧在各自对应的频谱中的峰值位置；

峰值位置相似度统计单元，用于根据所述峰值位置，统计所述有效帧与前一有效帧的峰值位置相似度；

信号段判定单元，用于若所述峰值位置相似度超过预设相似度阈值，判定所述有效帧与前一有效帧属于同一信号段，否则，判定所述有效帧与前一有效帧不属于同一信号段。

在本发明实施例中，所述峰值位置相似度统计单元具体可以包括如下子单元：

峰值位置判断子单元，用于针对所述前一有效帧的任一峰值位置，判断所述有效帧的各个峰值位置与所述前一有效帧的所述峰值位置之间的变化规律是否符合预设规律；

峰值位置相似度统计子单元，用于若是，则对峰值位置相似度递增，直到对所述前一有效帧的各个峰值位置判断完毕，获得所述有效帧与前一有效帧的峰值位置相似度。

在本发明实施例中，所述装置还可以包括如下模块：

频谱分辨率转换模块模块，用于对所述有效帧的帧频谱做抽取、插值处理，获得所述有效帧的变换分辨率频谱。

在本发明实施例中，所述候选基频确定模块304具体可以包括如下子模块：

第一、二、三候选基频确定子模块，用于若所述有效帧的主频在预设基频范围内，则在变换分辨率的频谱上，分别计算在所述主频的多个预设比例的频率的设定范围内，是否存在满足设定阈值要求的峰值位置；若存在所述峰值位置，则识别所述峰值位置中最大峰值对应的频率为所述有效帧的第一候选基频；若不存在所述峰值位置，则识别所述主频为所述有效帧的第一候选基频；当所述有效帧的主频不在预设基频范围内，则在所述变换分辨率的频谱上，分别计算在所述主频的多个预设比例的频率的设定范围内，是否存在满足设定阈值要求的峰值位置；若存在所述峰值位置，则识别所述峰值位置中最大峰值对应的频率为所述有效帧的第二候选基频；若不存在所述峰值位置，则识别所述主频为所述有效帧的第三候选基频；其中，所述第一候选基频的权重值大于所述第二候选基频的权重值，所述第二候选基频的权重值大于所述第三候选基频的权重值，所述多个预设比例均小于1；

其他候选基频确定子模块，用于确定所述有效帧的多个其他候选基频；所述多个其他候选基频的权重值通过采用预置的谐波能量互相关算法计算得到。

在本发明实施例中，所述其他候选基频确定子模块可以包括如下单元：

其他候选基频确定单元，用于若所述有效帧与前一有效帧属于同一信号段，则在所述变换分辨率的频谱的预设基频范围内，选定预设个数的峰值位置；以所述预设个数的峰值位置对应的频率作为所述有效帧的多个其他候选基频；

谐波峰值识别单元，用于针对任一所述其他候选基频，识别在所述有效帧的帧频谱上所述其他候选基频的多个预设倍数频率的设定范围的多个谐波峰值，所述多个预设倍数频率为多个连续整数值倍数对应的频率；

其他候选基频校正单元，用于通过所述多个谐波峰值位置和所述其他候选基频的关系，校正所述其他候选基频，所述其他候选基频在变换分辨率频谱上对应的频谱幅值为其谐波能量；

谐波能量互相关系数计算单元，用于计算所述有效帧与前一有效帧各个其他候选基频对应的谐波能量互相关系数；

目标互相关系数识别单元，用于识别所述谐波能量互相关系数超过预设相关系数阈值的多个目标互相关系数；

其他候选基频更新单元，用于更新所述多个目标互相关系数对应的当前帧的其他候选基频。

在本发明实施例中，所述谐波能量互相关系数计算单元具体可以包括如下子单元：

谐波能量互相关系数计算子单元，用于以所述有效帧的多个其他候选基频中一个的谐波能量作为第一数组，以所述前一有效帧的多个其他候选基频中一个的谐波能量作为第二数组，计算所述第一数组和第二数组的谐波能量互相关系数；

谐波能量互相关系数处理单元，用于若所述谐波能量互相关系数大于所述预设相关系数阈值，则保留所述谐波能量互相关系数；若所述谐波能量互相关系数小于或等于所述预设相关系数阈值，则将所述谐波能量互相关系数置为零。

在本发明实施例中，所述其他候选基频更新单元具体可以包括如下子单元：

其他候选基频确定子单元，用于针对任一大于零的目标互相关系数，确定所述目标互相关系数对应的前一有效帧的其他候选基频和所述有效帧的其他候选基频；

其他候选基频计算子单元，用于计算所述前一有效帧的其他候选基频和所述有效帧的其他候选基频的平均值，更新所述有效帧的其他候选基频，以所述不为零的互相关系数作为所述其他候选基频的权重值。

在本发明实施例中，所述基频识别模块305还包括如下子模块：

基频判断子模块，用于若所述有效帧与前一有效帧属于同一信号段，则判断所述有效帧的候选基频与所述前一有效帧的基频之间的差值是否大于预设基频阈值；

基频确定子模块，还用于若所述有效帧的任一候选基频与所述前一有效帧的基频之间的差值均大于预设基频阈值，则判断全部候选基频的平均值是否大于所述前一有效帧的基频；若是，则将所述前一有效帧的基频加上预设基频阈值，作为所述有效帧的基频；若否，则将所述前一有效帧的基频减去所述预设基频阈值，作为所述有效帧的基频；

基频确定子模块，还用于若所述有效帧的候选基频与所述前一有效帧的基频之间的差值不大于预设基频阈值，则将所述有效帧的候选基频作为所述有效帧的基频；

基频确定子模块，还用于若所述有效帧的基频包括多个，则在将所述有效帧的多个基频分别减去所述前一有效帧的基频，再分别除以其对应权重值后，得到与各个基频对应的基频差值；以所述各个基频差值中绝对值最小值对应的基频作为所述有效帧的基频，若最小值对应的基频包括多个(不止一个)，则在最小值对应的多个基频中选择和前一有效帧基频之间的差值最小的一个基频，作为所述有效帧的基频。

基频确定子模块，还用于若所述有效帧与前一有效帧不属于同一信号段，则识别所述有效帧的候选基频的权重值中的最大值，以所述权重值的最大值对应的候选基频作为所述有效帧的基频。

基频调整子模块，用于在计算出所述有效帧的基频后，若该有效帧之前有设定帧数的相同信号段的有效帧，则对所述设定帧数的有效帧和当前帧的基频序列作平滑处理，进一步调整所述有效帧的基频。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例部分的说明即可。

参照图4，示出了本发明一个实施例的一种终端设备的示意图。如图4 所示，本实施例的终端设备400包括：处理器410、存储器420以及存储在所述存储器420中并可在所述处理器410上运行的计算机程序421。所述处理器410执行所述计算机程序421时实现上述提取音乐信号主旋律的方法各个实施例中的步骤，例如图1所示的步骤S101至S107。或者，所述处理器 410执行所述计算机程序421时实现上述各装置实施例中各模块/单元的功能，例如图3所示模块301至307的功能。

示例性的，所述计算机程序421可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器420中，并由所述处理器410 执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段可以用于描述所述计算机程序421在所述终端设备400中的执行过程。例如，所述计算机程序421可以被分割成音乐信号获取模块、帧类型区分模块、主频确定模块、候选基频确定模块、基频识别模块、主旋律生成模块，各模块具体功能如下：

帧类型区分模块，用于通过对所述多帧音频数据进行预处理，区分所述音频数据中的有效帧和无效帧，对于所述无效帧，标识为无基频；

所述终端设备400可包括，但不仅限于，处理器410、存储器420。本领域技术人员可以理解，图4仅仅是终端设备400的一种示例，并不构成对终端设备400的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备400还可以包括输入输出设备、网络接入设备、总线等。

所述处理器410可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器420可以是所述终端设备400的内部存储单元，例如终端设备400的硬盘或内存。所述存储器420也可以是所述终端设备400的外部存储设备，例如所述终端设备400上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card) 等等。进一步地，所述存储器420还可以既包括所述终端设备400的内部存储单元也包括外部存储设备。所述存储器420用于存储所述计算机程序421 以及所述终端设备400所需的其他程序和数据。所述存储器420还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种提取音乐信号主旋律的方法，其特征在于，包括：

获取待处理的音乐信号，所述音乐信号包括多帧音频数据；

通过对所述多帧音频数据进行预处理，区分所述音频数据中的有效帧和无效帧，对于所述无效帧，标识为无基频；

对于所述有效帧，计算所述有效帧的帧频谱，并根据所述帧频谱确定所述有效帧的主频，所述主频为所述帧频谱中峰值所对应的频率；

按照预设规则，从所述多个候选基频中识别出基频；

基于所有有效帧的基频，生成匹配所述音乐信号的基频轮廓线，所述基频轮廓线即是所述音乐信号的主旋律；

其中，所述对于所述有效帧，计算所述有效帧的帧频谱，包括：针对任一有效帧，判断所述有效帧与前一有效帧是否属于同一信号段，所述属于同一信号段的有效帧与前一有效帧的峰值位置相似度在预设范围内；

若所述有效帧与前一有效帧属于同一信号段，则按照预设权重值对所述有效帧与前一有效帧的频谱幅值进行加权平均，获得所述有效帧的帧频谱；

若所述有效帧与前一有效帧不属于同一信号段，则直接计算所述有效帧的频谱，作为所述有效帧的帧频谱。

2.根据权利要求1所述的方法，其特征在于，通过对所述多帧音频数据进行预处理，区分所述音频数据中的有效帧和无效帧，对于所述无效帧，标识为无基频，包括：

针对任一帧音频数据，判断所述音频数据的信号幅值是否小于预设的有效帧信号幅值阈值，所述预设的有效帧信号幅值阈值通过在机器音量固定时，统计最小有效声音段的信号幅值确定；

若所述音频数据的信号幅值小于预设的有效帧信号幅值阈值，则判定当前音频数据为无效帧，对于所述无效帧，标识为无基频；

若所述音频数据的信号幅值大于或等于预设的有效帧信号幅值阈值，则判定当前音频数据为有效帧。

3.根据权利要求1所述的方法，其特征在于，所述针对任一有效帧，判断所述有效帧与前一有效帧是否属于同一信号段，包括：

针对任一有效帧，在设定的频带范围内，确定所述有效帧与前一有效帧在各自对应的频谱中的峰值位置；

根据所述峰值位置，统计所述有效帧与前一有效帧的峰值位置相似度；

若所述峰值位置相似度在预设范围内，判定所述有效帧与前一有效帧属于同一信号段，否则，判定所述有效帧与前一有效帧不属于同一信号段。

4.根据权利要求3所述的方法，其特征在于，所述根据所述峰值位置，统计所述有效帧与前一有效帧的峰值位置相似度，包括：

针对所述前一有效帧的任一峰值位置，判断所述有效帧的各个峰值位置与所述前一有效帧的所述峰值位置之间的变化规律是否符合预设规律；

若是，则对峰值位置相似度递增，直到对所述前一有效帧的各个峰值位置判断完毕，获得所述有效帧与前一有效帧的峰值位置相似度。

5.根据权利要求1所述的方法，其特征在于，所述根据所述有效帧的主频和预置的谐波能量互相关算法，确定所述有效帧的多个候选基频，包括：

对所述有效帧的帧频谱做分辨率变换处理，将频谱的分辨率转换为预设频率数值；

若所述有效帧的主频在预设基频范围内，则在变换分辨率的频谱上，分别计算在所述主频的多个预设比例的频率的设定范围内，是否存在满足设定阈值要求的峰值位置；若存在所述峰值位置，则识别所述峰值位置中最大峰值对应的频率为所述有效帧的第一候选基频；若不存在所述峰值位置，则识别所述主频为所述有效帧的第一候选基频；

若所述有效帧的主频不在预设基频范围内，则在所述变换分辨率的频谱上，分别计算在所述主频的多个预设比例的频率的设定范围内，是否存在满足所述设定阈值要求的峰值位置；若存在所述峰值位置，则识别所述峰值位置中最大峰值对应的频率为所述有效帧的第二候选基频；若不存在所述峰值位置，则识别所述主频为所述有效帧的第三候选基频；其中，所述第一候选基频的权重值大于所述第二候选基频的权重值，所述第二候选基频的权重值大于所述第三候选基频的权重值，所述多个预设比例均小于1；

若所述有效帧与前一有效帧属于同一信号段，则确定所述有效帧的多个其他候选基频，所述多个其他候选基频的权重值通过采用预置的谐波能量互相关算法计算得到。

6.根据权利要求5所述的方法，其特征在于，若所述有效帧与前一有效帧属于同一信号段，确定所述有效帧的多个其他候选基频，包括：

在所述变换分辨率的频谱的预设基频范围内，选定预设个数的峰值位置，以所述预设个数的峰值位置对应的频率作为所述有效帧的多个其他候选基频；

针对任一所述其他候选基频，识别在所述有效帧的帧频谱上所述其他候选基频的多个预设倍数频率的设定范围内满足预设阈值范围的多个谐波峰值，所述多个预设倍数频率为多个连续的整数值倍数对应的频率；

通过所述多个谐波峰值位置和所述其他候选基频的关系，校正所述其他候选基频，所述其他候选基频在降采样频谱上对应的频谱幅值为所述其他候选基频的谐波能量；

计算所述有效帧与前一有效帧各个其他候选基频对应的谐波能量互相关系数；

识别所述谐波能量互相关系数超过预设相关系数阈值的多个目标互相关系数；

计算所述多个目标互相关系数对应的其他候选基频。

7.根据权利要求6所述的方法，其特征在于，所述计算所述有效帧与前一有效帧各个其他候选基频对应的谐波能量互相关系数，包括：

以所述有效帧的多个其他候选基频中一个的谐波能量作为第一数组，以所述前一有效帧的多个其他候选基频中一个的谐波能量作为第二数组，计算所述第一数组和第二数组的互相关系数，作为所述有效帧的所述基频与所述前一有效帧的所述基频的谐波能量互相关系数；

若所述谐波能量互相关系数大于所述预设相关系数阈值，则保留所述谐波能量互相关系数；

若所述谐波能量互相关系数小于或等于所述预设相关系数阈值，则将所述谐波能量互相关系数置为零。

8.根据权利要求7所述的方法，其特征在于，所述计算所述多个目标互相关系数对应的其他候选基频，包括：

针对任一大于零的目标互相关系数，计算其所对应的所述前一有效帧的其他候选基频和所述有效帧的其他候选基频的平均值，作为所述有效帧的其他候选基频，以所述目标互相关系数，作为所述有效帧的其他候选基频的权重值。

9.根据权利要求1所述的方法，其特征在于，所述多个候选基频包括第一候选基频、第二候选基频、第三候选基频和其他候选基频，所述按照预设规则，从所述多个候选基频中识别出基频，包括：

若所述有效帧与前一有效帧属于同一信号段，则判断所述有效帧的候选基频与所述前一有效帧的基频之间的差值是否大于预设基频阈值；

若所述有效帧的任一候选基频与所述前一有效帧的基频之间的差值均大于预设基频阈值，则判断全部候选基频的平均值是否大于所述前一有效帧的基频；若是，则将所述前一有效帧的基频加上预设基频阈值，作为所述有效帧的基频；若否，则将所述前一有效帧的基频减去所述预设基频阈值，作为所述有效帧的基频；

若所述有效帧的候选基频与所述前一有效帧的基频之间的差值不大于预设基频阈值，则将所述有效帧的候选基频作为所述有效帧的基频；

若所述有效帧的基频包括多个，则在将所述有效帧的多个基频分别减去所述前一有效帧的基频，再分别除以其对应权重值后，得到与各个基频对应的基频差值；以所述各个基频对应的基频差值中绝对值最小值对应的基频作为所述有效帧的基频，若所述最小值对应的基频包括多个，则在所述最小值对应的多个基频中选择和前一有效帧基频之间的差值最小的一个基频，作为所述有效帧的基频；

若所述有效帧与前一有效帧不属于同一信号段，则识别所述有效帧的候选基频的权重值中的最大值，以所述权重值的最大值对应的候选基频作为所述有效帧的基频。

10.一种提取音乐信号主旋律的装置，其特征在于，包括：

主频确定模块，用于对于所述有效帧，计算所述有效帧的帧频谱，并根据所述帧频谱，确定所述有效帧的主频，所述主频为所述帧频谱中峰值所对应的频率；

主旋律生成模块，用于基于所有有效帧的基频，生成匹配所述音乐信号的基频轮廓线，所述基频轮廓线即是所述音乐信号的主旋律；

其中，所述主频确定模块具体用于：针对任一有效帧，判断所述有效帧与前一有效帧是否属于同一信号段，所述属于同一信号段的有效帧与前一有效帧的峰值位置相似度在预设范围内；若所述有效帧与前一有效帧属于同一信号段，则按照预设权重值对所述有效帧与前一有效帧的频谱幅值进行加权平均，获得所述有效帧的帧频谱；若所述有效帧与前一有效帧不属于同一信号段，则直接计算所述有效帧的频谱，作为所述有效帧的帧频谱。

11.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述的提取音乐信号主旋律的方法。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的提取音乐信号主旋律的方法。