CN112420071A

CN112420071A - 一种基于恒q变换的复调电子琴音乐音符识方法

Info

Publication number: CN112420071A
Application number: CN202011236049.9A
Authority: CN
Inventors: 彭丹卉; 胡海波
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-26
Anticipated expiration: 2040-11-09
Also published as: CN112420071B

Abstract

一种基于恒Q变换的电子琴复调音乐的音符识别方法，包括以下步骤：获取电子琴的单音音频，对单音音频做恒Q变换得到单音频谱模板；对弹奏音乐信号进行音符的切分，采用超通量和计算相邻两帧的频谱向量差的方法寻找分析时间段内能量曲线的局部最大值以确定起始点的位置；以切分的音符为单位分析包含的基频，得到音符的频谱图，将得到的音符的频谱图和所述单音频谱模板相比较得到音符内包含的基频；按比例从音符的频谱中减去已识别的基频，余下的频谱继续与所述单音频谱模板比较，找出候选单音；重复上述过程直到减余的频谱低于预定的能量阈值为止。该方法有益效果为：降低了多音高检测的难度；提高起始点检测的精确度；提升音高判断的准确率。

Description

一种基于恒Q变换的复调电子琴音乐音符识方法

技术领域

本发明属于数字音频处理技术，涉及音乐信号识别算法，具体为一种基于恒Q变换的能实时识别复调钢琴音乐的音符的方法。

背景技术

随着经济的发展和社会的进步，人们的物质生活的基本需求已得到满足，在精神生活方面的需求日益增加，器乐学习就是人们陶冶情操、放松身心的途径之一。然而器乐教学的最大特点就是需要长期的练习时间，同时需要教师点对点的指导学生的音准及节奏情况，这对于大多数音乐爱好者来说是难以实现的。针对这个问题，研究人员一直寻找合适的算法使计算机可以分析接收到的演奏音频数据，能够有效的识别演奏的准确性和完成度，从而评价并辅助学员更好的完成器乐练习。通常对演奏最基本的评价是对音符是否弹错，因此在辅助器乐教学中音符基频的估计是核心解决问题。

基频是音频信号处理方面定义的一个概念，是音乐信号重要的一种表达方式。音乐信号中同一时间内有多个基频出现的被称为复合音乐。近年来，音乐信号的识别分析技术有了一定的发展，但多基频提取技术还没有出现成熟完备的算法。这是因为单个基频对应有很多的谐频，不同基频的频谱中可能会出现谐频峰值出现在同一位置的现象，即频谱重叠问题。另一方面，对于一般的谐和乐器，会遵循基频的每个谐频会出现在基频频率的倍数处的规律，但是准和谐乐器的谐频位置可能会在基频倍频的附近，并因此引出了频谱偏移问题。

对音频的频率特征分析，常用的变换方法为短时傅里叶变换，该方法的时频窗口在变换的过程中保持不变，得到的频谱图在频率分辨率也是固定的。然而在音乐中，所有的音阶都是由若干八度的12平均律共同组成的，这十二平均律对应着钢琴中一个八度上的十二个半音。半音作为表示音高差距的音程的基本单位，临近的半音之间频率比是固定的，即在器乐中音高是呈指数分布的，与傅里叶变换得到的线性分布的频谱在频率点上无法一一对应，可能会导致某些音阶频率的估计值产生误差。而恒Q变换(Constant Q Transform)的频率分辨率呈指数分布，符合音乐的音高划分规律，通过对低频选取较多的釆样点，高频选取较少的采样点，达到高低频分辨率不一样的目的。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何准确识别电子琴复调音乐的音符的问题。

为实现上述目的，本发明提出一种基于恒Q变换的电子琴复调音乐的音符识别方法，包括以下步骤：

步骤1、获取电子琴单音音符的单音音频，对单音音频做恒Q变换得到时频图，将不同时间得到的频谱数据平均后得到单音频谱模板；

步骤2、对电子琴弹奏音乐进行采集并进行中值滤波的预处理去噪；

步骤3、对弹奏音乐信号进行分帧加窗处理；

步骤4、对弹奏音乐信号进行音符的切分，具体的方法为：采用超通量和计算相邻两帧的频谱向量差的方法寻找分析时间段内能量曲线的局部最大值以确定起始点的位置；

步骤5、以切分的音符为单位分析包含的基频，得到音符的频谱图，将得到的音符的频谱图和单音频谱模板相比较，相似度比较高的单音频谱模板即为音符内包含的基频；

步骤6、按比例从音符的频谱中减去步骤5中已识别的基频，余下的频谱经过平滑后继续与单音频谱模板比较，找出可能存在的候选单音；重复上述过程直到减余的频谱低于某能量阈值为止。

进一步地，步骤1中，恒Q变换的频率分辨率由Q值决定，计算公式为：

其中，b为一个八度内所包含的频谱线数。

优选地，上述公式中，b＝60，即一个半音有5条频率分量。

优选地，步骤1中，将频谱中局部最大值频率附近相差2个频率分量点的幅值累加到局部最大值上，得到最终的模板。

优选地，步骤2中，使用麦克风阵列对电子琴弹奏音乐进行采集。

优选地，步骤3中，取每0.2s的采样点进行分析。

优选地，步骤3中，采用汉明窗。

进一步地，步骤4中，超通量算法具体内容包括：对恒Q变换的幅值做对数处理，对频率方向的幅值采取最大值滤波，其公式为：

其中n表示时间帧，m表示频率分量，x_log为对数化后的幅值。

超通量比较相邻两帧的能量差的公式为：

其中F表示频率范围，μ≥1，μ表示两个时间帧之间的间隔，得到与时间相关的SF值以后对该数据进行半波整流后寻找时间段内大于平均值的极大值点作为起始点候补；

计算相邻两帧的频谱向量差的方法为，基于恒Q变换得到的结果是包含幅值和相位信息，将相邻两帧以向量的方式相减，得到的向量差的幅值作为能量变化比较的标准，公式为：

其中cfs表示恒Q变换后的原始数据，f(m)表示m频谱分量对应的频率，得到与时间相关的d值以后寻找时间段内大于平均值的极大值点作为起始点候补。

根据两种起始点计算方法得到了两组候选起始点序列之后，将两种方法的结果相融合得到最终的起始点序列，具体方法为：比较两种方法得到的序列N1、N2，若存在|N1(i1)-N2(i2)|<σ时(其中N1(i1)为序列N1上的一点，N2(i2)为序列N2 上的一点，σ为一预定的值)，认为这两点来源于同一个音符端点，取两点的平均值作为最终的候选起始点存储，无法满足条件的点认为是可能存在的噪声造成的扰动，不计入起始点。

进一步地，步骤5中，将步骤4中得到起始点的时间位置后将相邻的两个起始点间的音频信号看作一个音符，以音符为单位分析基频情况，将两个起始点之间的恒Q变换的时频图取幅度后将不同时间帧的频谱取平均值得到音符的频谱图，与步骤1得到的单音频谱模板一一对比进行相似度比较，衡量相似度的方法采用巴氏距离，表达式为：

其中，

N为频率分量的总数，Q1、Q2分别表示待测音频信号和模板的恒Q变换谱图， m表示频率分量，当音符频谱与模板频谱相似度越高时求得的巴氏距离越短，比较后巴氏距离最短的结果对应的音高模板为音符的候选基频。

进一步地，步骤6中，找出候选基频频谱模板中大于平均值的特征峰值 p_m1、p_m2…对应的频率分量点m1、m2...，在音符频谱中也找出这些频率点对应的峰值p₁、p₂…，则计算候选音高在音符中所占比例r的公式为：

根据计算结果按比例从音符的频谱中减去候选基频，余下的频谱图将可能存在的幅值小于0的位置置零的平滑处理后判断此时频谱的能量与未发生步骤6处理的频谱的能量相比是否低于预定的能量阈值，若否，则按照步骤5的方式继续寻找可能存在的基频，直到余下的频谱的能量低于预定的能量阈值，认为音符内候选基频的寻找已经完成，结束该音符内的基频查找运算。

优选地，步骤6中，预定的能量阈值为未发生步骤6处理的频谱的能量的15％。

与现有技术相比，本发明的有益效果如下：

(1)本发明的电子琴演奏音乐识别和检测结合了电子琴单音频谱的先验知识，降低了多音高检测的难度；

(2)本发明采用两种起始点识别方法融合的方法确定起始点，可以提高起始点检测的精确度；

(3)本发明采用恒Q变换处理音频信号，与傅里叶变换相比提升了低频部分的分辨率，提升音高判断的准确率；

(4)本发明的电子琴演奏复调识别方法按音符进行了切分，在教学中可以与乐谱一一对应，实现对弹奏正误的实时检测，有利于提高教学的质量。

具体实施方式

以下介绍本申请的优选实施例，使其技术内容更加清楚和便于理解。本申请可以通过许多不同形式的实施例来得以体现，本申请的保护范围并非仅限于文中提到的实施例。

以下将对本发明的构思、具体结构及产生的技术效果作进一步的说明，以充分地了解本发明的目的、特征和效果，但本发明的保护不仅限于此。

本发明的一个实施例

基于恒Q变换的电子琴复调音乐的音符识别方法具体步骤如下：

步骤1，获取电子琴单音音符的音频，对单音音频做恒Q变换，恒Q变换的频率分辨率由Q值决定，计算公式为：

其中，b为一个八度内所包含的频谱线数，因为一个八度有12个半音，通常 b设置为12的倍数；为增加频率分辨率，使b＝60，即一个半音有5条频率分量；电子琴音高的频率范围为27.5-4186Hz，所以设置恒Q变换处理的最低频率为27.5Hz、最高频率为4186Hz，这样能减少在音高范围外的噪声的影响；得到时频图之后，将不同时间得到的频谱幅值数据平均后得到单音的频谱模板。为了减少单音频谱中各频率可能存在的噪声影响，同时为了突出基频和谐频的峰值特征，将频谱中局部最大值频率附近相差2个频率分量点的幅值累加到局部最大值上，得到最终的模板。

步骤2，使用麦克风阵列对电子琴弹奏音乐进行采集并进行中值滤波预处理去噪；

步骤3，由于音频信号的特征是随时间变化的，需要在一段时间间隔内音频信号才能保持相对稳定一致的特征，而恒Q变换不同频率的时间窗是不同的，考虑到低频需要较长的时间窗，因此取每0.2s的采样点进行分析；由于音频信号被分割后会出现吉布斯效应，因此采用汉明窗，使单帧边缘两端信号可以平滑过渡。该步骤也是之后计算音乐信号相关特征等一系列步骤的基础。

步骤4，对传递来的音频片段进行恒Q变换后做起始点分析，分析的方法之一为超通量算法，其具体内容包括：对恒Q变换的幅值做对数处理；考虑到声音随时间变化可能发生频率的偏移，对频率方向的幅值采取最大值滤波，其公式为：

其中n表示时间帧，m表示频率分量，x_log为对数化后的幅值。

超通量比较相邻两帧的能量差的公式为：

其中F表示频率范围，μ≥1。μ表示两个时间帧之间的间隔，通常情况下时间帧间隔越大，使用到的原音频数据重复性低，能量变化较大。这里取μ＝2。得到与时间相关的SF值以后对该数据进行半波整流后寻找时间段内大于平均值的极大值点作为起始点候补。

判断起始点的另一方法基于恒Q变换得到的结果是包含幅值和相位信息的，因此将相邻两帧以向量的方式相减，得到的向量差的幅值作为能量变化比较的标准。由于恒Q变换不同频率窗长不同的特点，低频部分的时间分辨率较低，使低频信号谱分布产生超前及拖尾现象，为降低该影响，调整高低频的权重使高频部分的能量变化占主导，最终的公式为：

其中cfs表示恒Q变换后的原始数据，f(m)表示m频谱分量对应的频率。得到与时间相关的d值以后寻找时间段内大于平均值的极大值点作为起始点候补。

根据两种起始点计算方法得到了两组候选起始点序列之后，将两种方法的结果相融合得到最终的起始点序列。具体方法为：比较两种方法得到的序列N1、N2，若存在|N1(i1)-N2(i2)|<σ时(其中N1(i1)为序列N1上的一点，N2(i2)为序列N2 上的一点，σ为一预定的值)，认为这两点来源于同一个音符端点，取两点的平均值作为最终的候选起始点存储，无法满足条件的点认为是可能存在的噪声造成的扰动，不计入起始点。这里σ＝4。

步骤5，得到起始点的时间位置后将相邻的两个起始点间的音频信号看做一个音符，以音符为单位分析基频情况。将两个起始点之间的恒Q变换的时频图取幅度后将不同时间帧的频谱取平均值得到音符的频谱图，与步骤1得到的单音的频谱模板一一对比进行相似度比较，衡量相似度的方法采用巴氏距离，表达式为：

其中，

N为频率分量的总数，Q1、Q2分别表示待测音频信号和模板的恒Q变换谱图， m表示频率分量。当音符频谱与模板频谱相似度越高时求得的巴氏距离越短。电子琴一共有88个音高，与88个音阶模板比较后巴氏距离最短的结果对应的音高模板为音符的候选基频。

步骤6，找出候选基频频谱模板中大于平均值的特征峰值p_m1、p_m2…对应的频率分量点m1、m2...，在音符频谱中也找出这些频率点对应的峰值p₁、p₂…。则计算候选音高在音符中所占比例r的公式为：

根据计算结果按比例从音符的频谱中减去候选基频，余下的频谱图将可能存在的幅值小于0的位置置零的平滑处理后判断此时频谱的能量与未发生步骤6处理的频谱的能量相比是否低于15％，若不是则按照步骤5的方式继续寻找可能存在的基频，直到余下的频谱的能量低于原音符频谱的能量的15％，认为音符内候选基频的寻找已经完成，结束该音符内的基频查找运算。

以上详细描述了本申请的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本申请的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本申请的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于恒Q变换的电子琴复调音乐的音符识别方法，其特征在于，包括以下步骤：

步骤1、获取电子琴单音音符的单音音频，对单音音频做所述恒Q变换得到时频图，将不同时间得到的频谱数据平均后得到单音频谱模板；

步骤3、对弹奏音乐信号进行分帧加窗处理；

步骤4、对所述弹奏音乐信号进行音符的切分，具体的方法为：采用超通量和计算相邻两帧的频谱向量差的方法寻找分析时间段内能量曲线的局部最大值以确定起始点的位置；

步骤5、以切分的音符为单位分析包含的基频，得到音符的频谱图，将得到的音符的频谱图和所述单音频谱模板相比较，相似度比较高的所述单音频谱模板即为音符内包含的基频；

步骤6、按比例从所述音符的频谱中减去步骤5中已识别的基频，余下的频谱经过平滑后继续与所述单音频谱模板比较，找出可能存在的候选单音；重复上述过程直到减余的频谱低于预定的能量阈值为止。

2.如权利要求1所述的音符识别方法，其特征在于，所述步骤1中，所述恒Q变换的频率分辨率由Q值决定，计算公式如公式1：

其中，b为一个八度内所包含的频谱线数。

3.如权利要求2所述的音符识别方法，其特征在于，公式1中b＝60，即一个半音有5条频率分量。

4.如权利要求1所述的音符识别方法，其特征在于，所述步骤1中，将频谱中局部最大值频率附近相差2个频率分量点的幅值累加到局部最大值上，得到最终的模板。

5.如权利要求1所述的音符识别方法，其特征在于，所述步骤2中，使用麦克风阵列对电子琴弹奏音乐进行采集。

6.如权利要求1所述的音符识别方法，其特征在于，所述步骤3中，取每0.2s的采样点进行分析。

7.如权利要求1所述的音符识别方法，其特征在于，所述步骤3中，采用汉明窗。

8.如权利要求1所述的音符识别方法，其特征在于，所述骤4中，所述超通量算法具体内容包括：对所述恒Q变换的幅值做对数处理，对频率方向的幅值采取最大值滤波，其公式为：

其中n表示时间帧，m表示频率分量，x_log为对数化后的幅值；

超通量比较相邻两帧的能量差的公式为：

所述计算相邻两帧的频谱向量差的方法为，基于所述恒Q变换得到的结果包含幅值和相位信息，将相邻两帧以向量的方式相减，得到的向量差的幅值作为能量变化比较的标准，公式为：

其中cfs表示所述恒Q变换后的原始数据，f(m)表示m频谱分量对应的频率，得到与时间相关的d值以后寻找时间段内大于平均值的极大值点作为起始点候补；

根据所述超通量算法和所述计算相邻两帧的频谱向量差的方法这两种起始点计算方法得到了两组候选起始点序列之后，将该两种方法的结果相融合得到最终的起始点序列，具体方法为：比较该两种方法得到的序列N1、N2，若存在序列N1上的一点N1(i1)以及序列N2上的一点N2(i2)使得|N1(i1)-N2(i2)|<σ，其中σ为一预定的值，则认为这两点来源于同一个音符端点，取两点的平均值作为最终的候选起始点存储，无法满足条件的点认为是可能存在的噪声造成的扰动，不计入起始点。

9.如权利要求1所述的音符识别方法，其特征在于，所述步骤5中，将所述步骤4中得到起始点的时间位置后，将相邻的两个起始点间的音频信号看作一个音符，以音符为单位分析基频情况，将两个起始点之间的所述恒Q变换的时频图取幅度后将不同时间帧的频谱取平均值得到所述音符的频谱图，与所述步骤1得到的单音频谱模板一一对比进行相似度比较，衡量相似度的方法采用巴氏距离，表达式为：

其中，

N为频率分量的总数，Q1、Q2分别表示待测音频信号和模板的恒Q变换谱图，m表示频率分量，当音符频谱与模板频谱相似度越高时求得的巴氏距离越短，比较后巴氏距离最短的结果对应的音高模板为音符的候选基频。

10.如权利要求1所述的音符识别方法，其特征在于，所述步骤6中，找出步骤5中得到的候选基频的频谱模板中大于平均值的特征峰值p_m1、p_m2…对应的频率分量点m1、m2...，在所述音符的频谱中也找出这些频率点对应的峰值p₁、p₂…，则计算候选音高在音符中所占比例r的公式为：

根据计算结果按比例从所述音符的频谱中减去候选基频，余下的频谱图将可能存在的幅值小于0的位置置零的平滑处理后判断此时频谱的能量与未发生步骤6处理的频谱的能量相比是否低于预定的能量阈值，若否，则按照步骤5的方式继续寻找可能存在的基频，直到余下的频谱的能量低于预定的能量阈值，认为音符内候选基频的寻找已经完成，结束该音符内的基频查找运算。