CN112420071A - 一种基于恒q变换的复调电子琴音乐音符识方法 - Google Patents

一种基于恒q变换的复调电子琴音乐音符识方法 Download PDF

Info

Publication number
CN112420071A
CN112420071A CN202011236049.9A CN202011236049A CN112420071A CN 112420071 A CN112420071 A CN 112420071A CN 202011236049 A CN202011236049 A CN 202011236049A CN 112420071 A CN112420071 A CN 112420071A
Authority
CN
China
Prior art keywords
frequency
frequency spectrum
note
notes
constant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011236049.9A
Other languages
English (en)
Other versions
CN112420071B (zh
Inventor
彭丹卉
胡海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202011236049.9A priority Critical patent/CN112420071B/zh
Publication of CN112420071A publication Critical patent/CN112420071A/zh
Application granted granted Critical
Publication of CN112420071B publication Critical patent/CN112420071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

一种基于恒Q变换的电子琴复调音乐的音符识别方法,包括以下步骤:获取电子琴的单音音频,对单音音频做恒Q变换得到单音频谱模板;对弹奏音乐信号进行音符的切分,采用超通量和计算相邻两帧的频谱向量差的方法寻找分析时间段内能量曲线的局部最大值以确定起始点的位置;以切分的音符为单位分析包含的基频,得到音符的频谱图,将得到的音符的频谱图和所述单音频谱模板相比较得到音符内包含的基频;按比例从音符的频谱中减去已识别的基频,余下的频谱继续与所述单音频谱模板比较,找出候选单音;重复上述过程直到减余的频谱低于预定的能量阈值为止。该方法有益效果为:降低了多音高检测的难度;提高起始点检测的精确度;提升音高判断的准确率。

Description

一种基于恒Q变换的复调电子琴音乐音符识方法
技术领域
本发明属于数字音频处理技术,涉及音乐信号识别算法,具体为一种基于恒Q变换的能实时识别复调钢琴音乐的音符的方法。
背景技术
随着经济的发展和社会的进步,人们的物质生活的基本需求已得到满足,在精神生活方面的需求日益增加,器乐学习就是人们陶冶情操、放松身心的途径之一。然而器乐教学的最大特点就是需要长期的练习时间,同时需要教师点对点的指导学生的音准及节奏情况,这对于大多数音乐爱好者来说是难以实现的。针对这个问题,研究人员一直寻找合适的算法使计算机可以分析接收到的演奏音频数据,能够有效的识别演奏的准确性和完成度,从而评价并辅助学员更好的完成器乐练习。通常对演奏最基本的评价是对音符是否弹错,因此在辅助器乐教学中音符基频的估计是核心解决问题。
基频是音频信号处理方面定义的一个概念,是音乐信号重要的一种表达方式。音乐信号中同一时间内有多个基频出现的被称为复合音乐。近年来,音乐信号的识别分析技术有了一定的发展,但多基频提取技术还没有出现成熟完备的算法。这是因为单个基频对应有很多的谐频,不同基频的频谱中可能会出现谐频峰值出现在同一位置的现象,即频谱重叠问题。另一方面,对于一般的谐和乐器,会遵循基频的每个谐频会出现在基频频率的倍数处的规律,但是准和谐乐器的谐频位置可能会在基频倍频的附近,并因此引出了频谱偏移问题。
对音频的频率特征分析,常用的变换方法为短时傅里叶变换,该方法的时频窗口在变换的过程中保持不变,得到的频谱图在频率分辨率也是固定的。然而在音乐中,所有的音阶都是由若干八度的12平均律共同组成的,这十二平均律对应着钢琴中一个八度上的十二个半音。半音作为表示音高差距的音程的基本单位,临近的半音之间频率比是固定的,即在器乐中音高是呈指数分布的,与傅里叶变换得到的线性分布的频谱在频率点上无法一一对应,可能会导致某些音阶频率的估计值产生误差。而恒Q变换(Constant Q Transform)的频率分辨率呈指数分布,符合音乐的音高划分规律,通过对低频选取较多的釆样点,高频选取较少的采样点,达到高低频分辨率不一样的目的。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何准确识别电子琴复调音乐的音符的问题。
为实现上述目的,本发明提出一种基于恒Q变换的电子琴复调音乐的音符识别方法,包括以下步骤:
步骤1、获取电子琴单音音符的单音音频,对单音音频做恒Q变换得到时频图,将不同时间得到的频谱数据平均后得到单音频谱模板;
步骤2、对电子琴弹奏音乐进行采集并进行中值滤波的预处理去噪;
步骤3、对弹奏音乐信号进行分帧加窗处理;
步骤4、对弹奏音乐信号进行音符的切分,具体的方法为:采用超通量和计算相邻两帧的频谱向量差的方法寻找分析时间段内能量曲线的局部最大值以确定起始点的位置;
步骤5、以切分的音符为单位分析包含的基频,得到音符的频谱图,将得到的音符的频谱图和单音频谱模板相比较,相似度比较高的单音频谱模板即为音符内包含的基频;
步骤6、按比例从音符的频谱中减去步骤5中已识别的基频,余下的频谱经过平滑后继续与单音频谱模板比较,找出可能存在的候选单音;重复上述过程直到减余的频谱低于某能量阈值为止。
进一步地,步骤1中,恒Q变换的频率分辨率由Q值决定,计算公式为:
Figure RE-GDA0002904535480000021
其中,b为一个八度内所包含的频谱线数。
优选地,上述公式中,b=60,即一个半音有5条频率分量。
优选地,步骤1中,将频谱中局部最大值频率附近相差2个频率分量点的幅值累加到局部最大值上,得到最终的模板。
优选地,步骤2中,使用麦克风阵列对电子琴弹奏音乐进行采集。
优选地,步骤3中,取每0.2s的采样点进行分析。
优选地,步骤3中,采用汉明窗。
进一步地,步骤4中,超通量算法具体内容包括:对恒Q变换的幅值做对数处理,对频率方向的幅值采取最大值滤波,其公式为:
Figure RE-GDA0002904535480000022
其中n表示时间帧,m表示频率分量,xlog为对数化后的幅值。
超通量比较相邻两帧的能量差的公式为:
Figure RE-GDA0002904535480000031
其中F表示频率范围,μ≥1,μ表示两个时间帧之间的间隔,得到与时间相关的SF值以后对该数据进行半波整流后寻找时间段内大于平均值的极大值点作为起始点候补;
计算相邻两帧的频谱向量差的方法为,基于恒Q变换得到的结果是包含幅值和相位信息,将相邻两帧以向量的方式相减,得到的向量差的幅值作为能量变化比较的标准,公式为:
Figure RE-GDA0002904535480000032
其中cfs表示恒Q变换后的原始数据,f(m)表示m频谱分量对应的频率,得到与时间相关的d值以后寻找时间段内大于平均值的极大值点作为起始点候补。
根据两种起始点计算方法得到了两组候选起始点序列之后,将两种方法的结果相融合得到最终的起始点序列,具体方法为:比较两种方法得到的序列N1、N2,若存在|N1(i1)-N2(i2)|<σ时(其中N1(i1)为序列N1上的一点,N2(i2)为序列N2 上的一点,σ为一预定的值),认为这两点来源于同一个音符端点,取两点的平均值作为最终的候选起始点存储,无法满足条件的点认为是可能存在的噪声造成的扰动,不计入起始点。
进一步地,步骤5中,将步骤4中得到起始点的时间位置后将相邻的两个起始点间的音频信号看作一个音符,以音符为单位分析基频情况,将两个起始点之间的恒Q变换的时频图取幅度后将不同时间帧的频谱取平均值得到音符的频谱图,与步骤1得到的单音频谱模板一一对比进行相似度比较,衡量相似度的方法采用巴氏距离,表达式为:
Figure RE-GDA0002904535480000033
其中,
Figure RE-GDA0002904535480000034
N为频率分量的总数,Q1、Q2分别表示待测音频信号和模板的恒Q变换谱图, m表示频率分量,当音符频谱与模板频谱相似度越高时求得的巴氏距离越短,比较后巴氏距离最短的结果对应的音高模板为音符的候选基频。
进一步地,步骤6中,找出候选基频频谱模板中大于平均值的特征峰值 pm1、pm2…对应的频率分量点m1、m2...,在音符频谱中也找出这些频率点对应的峰值p1、p2…,则计算候选音高在音符中所占比例r的公式为:
Figure RE-GDA0002904535480000041
根据计算结果按比例从音符的频谱中减去候选基频,余下的频谱图将可能存在的幅值小于0的位置置零的平滑处理后判断此时频谱的能量与未发生步骤6处理的频谱的能量相比是否低于预定的能量阈值,若否,则按照步骤5的方式继续寻找可能存在的基频,直到余下的频谱的能量低于预定的能量阈值,认为音符内候选基频的寻找已经完成,结束该音符内的基频查找运算。
优选地,步骤6中,预定的能量阈值为未发生步骤6处理的频谱的能量的15%。
与现有技术相比,本发明的有益效果如下:
(1)本发明的电子琴演奏音乐识别和检测结合了电子琴单音频谱的先验知识,降低了多音高检测的难度;
(2)本发明采用两种起始点识别方法融合的方法确定起始点,可以提高起始点检测的精确度;
(3)本发明采用恒Q变换处理音频信号,与傅里叶变换相比提升了低频部分的分辨率,提升音高判断的准确率;
(4)本发明的电子琴演奏复调识别方法按音符进行了切分,在教学中可以与乐谱一一对应,实现对弹奏正误的实时检测,有利于提高教学的质量。
具体实施方式
以下介绍本申请的优选实施例,使其技术内容更加清楚和便于理解。本申请可以通过许多不同形式的实施例来得以体现,本申请的保护范围并非仅限于文中提到的实施例。
以下将对本发明的构思、具体结构及产生的技术效果作进一步的说明,以充分地了解本发明的目的、特征和效果,但本发明的保护不仅限于此。
本发明的一个实施例
基于恒Q变换的电子琴复调音乐的音符识别方法具体步骤如下:
步骤1,获取电子琴单音音符的音频,对单音音频做恒Q变换,恒Q变换的频率分辨率由Q值决定,计算公式为:
Figure RE-GDA0002904535480000042
其中,b为一个八度内所包含的频谱线数,因为一个八度有12个半音,通常 b设置为12的倍数;为增加频率分辨率,使b=60,即一个半音有5条频率分量;电子琴音高的频率范围为27.5-4186Hz,所以设置恒Q变换处理的最低频率为27.5Hz、最高频率为4186Hz,这样能减少在音高范围外的噪声的影响;得到时频图之后,将不同时间得到的频谱幅值数据平均后得到单音的频谱模板。为了减少单音频谱中各频率可能存在的噪声影响,同时为了突出基频和谐频的峰值特征,将频谱中局部最大值频率附近相差2个频率分量点的幅值累加到局部最大值上,得到最终的模板。
步骤2,使用麦克风阵列对电子琴弹奏音乐进行采集并进行中值滤波预处理去噪;
步骤3,由于音频信号的特征是随时间变化的,需要在一段时间间隔内音频信号才能保持相对稳定一致的特征,而恒Q变换不同频率的时间窗是不同的,考虑到低频需要较长的时间窗,因此取每0.2s的采样点进行分析;由于音频信号被分割后会出现吉布斯效应,因此采用汉明窗,使单帧边缘两端信号可以平滑过渡。该步骤也是之后计算音乐信号相关特征等一系列步骤的基础。
步骤4,对传递来的音频片段进行恒Q变换后做起始点分析,分析的方法之一为超通量算法,其具体内容包括:对恒Q变换的幅值做对数处理;考虑到声音随时间变化可能发生频率的偏移,对频率方向的幅值采取最大值滤波,其公式为:
Figure RE-GDA0002904535480000051
其中n表示时间帧,m表示频率分量,xlog为对数化后的幅值。
超通量比较相邻两帧的能量差的公式为:
Figure RE-GDA0002904535480000052
其中F表示频率范围,μ≥1。μ表示两个时间帧之间的间隔,通常情况下时间帧间隔越大,使用到的原音频数据重复性低,能量变化较大。这里取μ=2。得到与时间相关的SF值以后对该数据进行半波整流后寻找时间段内大于平均值的极大值点作为起始点候补。
判断起始点的另一方法基于恒Q变换得到的结果是包含幅值和相位信息的,因此将相邻两帧以向量的方式相减,得到的向量差的幅值作为能量变化比较的标准。由于恒Q变换不同频率窗长不同的特点,低频部分的时间分辨率较低,使低频信号谱分布产生超前及拖尾现象,为降低该影响,调整高低频的权重使高频部分的能量变化占主导,最终的公式为:
Figure RE-GDA0002904535480000053
其中cfs表示恒Q变换后的原始数据,f(m)表示m频谱分量对应的频率。得到与时间相关的d值以后寻找时间段内大于平均值的极大值点作为起始点候补。
根据两种起始点计算方法得到了两组候选起始点序列之后,将两种方法的结果相融合得到最终的起始点序列。具体方法为:比较两种方法得到的序列N1、N2,若存在|N1(i1)-N2(i2)|<σ时(其中N1(i1)为序列N1上的一点,N2(i2)为序列N2 上的一点,σ为一预定的值),认为这两点来源于同一个音符端点,取两点的平均值作为最终的候选起始点存储,无法满足条件的点认为是可能存在的噪声造成的扰动,不计入起始点。这里σ=4。
步骤5,得到起始点的时间位置后将相邻的两个起始点间的音频信号看做一个音符,以音符为单位分析基频情况。将两个起始点之间的恒Q变换的时频图取幅度后将不同时间帧的频谱取平均值得到音符的频谱图,与步骤1得到的单音的频谱模板一一对比进行相似度比较,衡量相似度的方法采用巴氏距离,表达式为:
Figure RE-GDA0002904535480000061
其中,
Figure RE-GDA0002904535480000062
N为频率分量的总数,Q1、Q2分别表示待测音频信号和模板的恒Q变换谱图, m表示频率分量。当音符频谱与模板频谱相似度越高时求得的巴氏距离越短。电子琴一共有88个音高,与88个音阶模板比较后巴氏距离最短的结果对应的音高模板为音符的候选基频。
步骤6,找出候选基频频谱模板中大于平均值的特征峰值pm1、pm2…对应的频率分量点m1、m2...,在音符频谱中也找出这些频率点对应的峰值p1、p2…。则计算候选音高在音符中所占比例r的公式为:
Figure RE-GDA0002904535480000063
根据计算结果按比例从音符的频谱中减去候选基频,余下的频谱图将可能存在的幅值小于0的位置置零的平滑处理后判断此时频谱的能量与未发生步骤6处理的频谱的能量相比是否低于15%,若不是则按照步骤5的方式继续寻找可能存在的基频,直到余下的频谱的能量低于原音符频谱的能量的15%,认为音符内候选基频的寻找已经完成,结束该音符内的基频查找运算。
以上详细描述了本申请的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本申请的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本申请的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于恒Q变换的电子琴复调音乐的音符识别方法,其特征在于,包括以下步骤:
步骤1、获取电子琴单音音符的单音音频,对单音音频做所述恒Q变换得到时频图,将不同时间得到的频谱数据平均后得到单音频谱模板;
步骤2、对电子琴弹奏音乐进行采集并进行中值滤波的预处理去噪;
步骤3、对弹奏音乐信号进行分帧加窗处理;
步骤4、对所述弹奏音乐信号进行音符的切分,具体的方法为:采用超通量和计算相邻两帧的频谱向量差的方法寻找分析时间段内能量曲线的局部最大值以确定起始点的位置;
步骤5、以切分的音符为单位分析包含的基频,得到音符的频谱图,将得到的音符的频谱图和所述单音频谱模板相比较,相似度比较高的所述单音频谱模板即为音符内包含的基频;
步骤6、按比例从所述音符的频谱中减去步骤5中已识别的基频,余下的频谱经过平滑后继续与所述单音频谱模板比较,找出可能存在的候选单音;重复上述过程直到减余的频谱低于预定的能量阈值为止。
2.如权利要求1所述的音符识别方法,其特征在于,所述步骤1中,所述恒Q变换的频率分辨率由Q值决定,计算公式如公式1:
Figure FDA0002766688960000011
其中,b为一个八度内所包含的频谱线数。
3.如权利要求2所述的音符识别方法,其特征在于,公式1中b=60,即一个半音有5条频率分量。
4.如权利要求1所述的音符识别方法,其特征在于,所述步骤1中,将频谱中局部最大值频率附近相差2个频率分量点的幅值累加到局部最大值上,得到最终的模板。
5.如权利要求1所述的音符识别方法,其特征在于,所述步骤2中,使用麦克风阵列对电子琴弹奏音乐进行采集。
6.如权利要求1所述的音符识别方法,其特征在于,所述步骤3中,取每0.2s的采样点进行分析。
7.如权利要求1所述的音符识别方法,其特征在于,所述步骤3中,采用汉明窗。
8.如权利要求1所述的音符识别方法,其特征在于,所述骤4中,所述超通量算法具体内容包括:对所述恒Q变换的幅值做对数处理,对频率方向的幅值采取最大值滤波,其公式为:
Figure FDA0002766688960000021
其中n表示时间帧,m表示频率分量,xlog为对数化后的幅值;
超通量比较相邻两帧的能量差的公式为:
Figure FDA0002766688960000022
其中F表示频率范围,μ≥1,μ表示两个时间帧之间的间隔,得到与时间相关的SF值以后对该数据进行半波整流后寻找时间段内大于平均值的极大值点作为起始点候补;
所述计算相邻两帧的频谱向量差的方法为,基于所述恒Q变换得到的结果包含幅值和相位信息,将相邻两帧以向量的方式相减,得到的向量差的幅值作为能量变化比较的标准,公式为:
Figure FDA0002766688960000023
其中cfs表示所述恒Q变换后的原始数据,f(m)表示m频谱分量对应的频率,得到与时间相关的d值以后寻找时间段内大于平均值的极大值点作为起始点候补;
根据所述超通量算法和所述计算相邻两帧的频谱向量差的方法这两种起始点计算方法得到了两组候选起始点序列之后,将该两种方法的结果相融合得到最终的起始点序列,具体方法为:比较该两种方法得到的序列N1、N2,若存在序列N1上的一点N1(i1)以及序列N2上的一点N2(i2)使得|N1(i1)-N2(i2)|<σ,其中σ为一预定的值,则认为这两点来源于同一个音符端点,取两点的平均值作为最终的候选起始点存储,无法满足条件的点认为是可能存在的噪声造成的扰动,不计入起始点。
9.如权利要求1所述的音符识别方法,其特征在于,所述步骤5中,将所述步骤4中得到起始点的时间位置后,将相邻的两个起始点间的音频信号看作一个音符,以音符为单位分析基频情况,将两个起始点之间的所述恒Q变换的时频图取幅度后将不同时间帧的频谱取平均值得到所述音符的频谱图,与所述步骤1得到的单音频谱模板一一对比进行相似度比较,衡量相似度的方法采用巴氏距离,表达式为:
Figure FDA0002766688960000031
其中,
Figure FDA0002766688960000032
N为频率分量的总数,Q1、Q2分别表示待测音频信号和模板的恒Q变换谱图,m表示频率分量,当音符频谱与模板频谱相似度越高时求得的巴氏距离越短,比较后巴氏距离最短的结果对应的音高模板为音符的候选基频。
10.如权利要求1所述的音符识别方法,其特征在于,所述步骤6中,找出步骤5中得到的候选基频的频谱模板中大于平均值的特征峰值pm1、pm2…对应的频率分量点m1、m2...,在所述音符的频谱中也找出这些频率点对应的峰值p1、p2…,则计算候选音高在音符中所占比例r的公式为:
Figure FDA0002766688960000033
根据计算结果按比例从所述音符的频谱中减去候选基频,余下的频谱图将可能存在的幅值小于0的位置置零的平滑处理后判断此时频谱的能量与未发生步骤6处理的频谱的能量相比是否低于预定的能量阈值,若否,则按照步骤5的方式继续寻找可能存在的基频,直到余下的频谱的能量低于预定的能量阈值,认为音符内候选基频的寻找已经完成,结束该音符内的基频查找运算。
CN202011236049.9A 2020-11-09 2020-11-09 一种基于恒q变换的复调电子琴音乐音符识方法 Active CN112420071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011236049.9A CN112420071B (zh) 2020-11-09 2020-11-09 一种基于恒q变换的复调电子琴音乐音符识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011236049.9A CN112420071B (zh) 2020-11-09 2020-11-09 一种基于恒q变换的复调电子琴音乐音符识方法

Publications (2)

Publication Number Publication Date
CN112420071A true CN112420071A (zh) 2021-02-26
CN112420071B CN112420071B (zh) 2022-12-02

Family

ID=74780651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011236049.9A Active CN112420071B (zh) 2020-11-09 2020-11-09 一种基于恒q变换的复调电子琴音乐音符识方法

Country Status (1)

Country Link
CN (1) CN112420071B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113658612A (zh) * 2021-08-25 2021-11-16 桂林智神信息技术股份有限公司 一种基于音频识别被弹奏琴键的方法及系统
CN115472143A (zh) * 2022-09-13 2022-12-13 天津大学 一种调性音乐音符起始点检测与音符解码方法及装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090241758A1 (en) * 2008-03-07 2009-10-01 Peter Neubacker Sound-object oriented analysis and note-object oriented processing of polyphonic sound recordings
CN103354092A (zh) * 2013-06-27 2013-10-16 天津大学 一种带检错功能的音频乐谱比对方法
US20160019878A1 (en) * 2014-07-21 2016-01-21 Matthew Brown Audio signal processing methods and systems
CN106935236A (zh) * 2017-02-14 2017-07-07 复旦大学 一种钢琴演奏评估方法及系统
CN107978323A (zh) * 2017-12-01 2018-05-01 腾讯科技(深圳)有限公司 音频识别方法、装置及存储介质
CN108630222A (zh) * 2017-03-21 2018-10-09 株式会社东芝 信号处理系统、信号处理方法以及信号处理程序
CN110599987A (zh) * 2019-08-25 2019-12-20 南京理工大学 基于卷积神经网络的钢琴音符识别算法
CN111063327A (zh) * 2019-12-30 2020-04-24 咪咕文化科技有限公司 音频处理方法、装置、电子设备及存储介质
CN111145779A (zh) * 2019-12-26 2020-05-12 腾讯科技(深圳)有限公司 一种音频文件的目标检测方法及相关设备
CN111429940A (zh) * 2020-06-15 2020-07-17 杭州贝哆蜂智能有限公司 一种基于深度学习的实时音乐转录与曲谱匹配方法
CN111553260A (zh) * 2020-04-26 2020-08-18 苏州缪斯谈谈科技有限公司 一种交互式教学方法和系统
CN111554256A (zh) * 2020-04-21 2020-08-18 华南理工大学 一种基于强弱标准的钢琴视奏能力评价系统
CN111680187A (zh) * 2020-05-26 2020-09-18 平安科技(深圳)有限公司 乐谱跟随路径的确定方法、装置、电子设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090241758A1 (en) * 2008-03-07 2009-10-01 Peter Neubacker Sound-object oriented analysis and note-object oriented processing of polyphonic sound recordings
CN103354092A (zh) * 2013-06-27 2013-10-16 天津大学 一种带检错功能的音频乐谱比对方法
US20160019878A1 (en) * 2014-07-21 2016-01-21 Matthew Brown Audio signal processing methods and systems
CN106935236A (zh) * 2017-02-14 2017-07-07 复旦大学 一种钢琴演奏评估方法及系统
CN108630222A (zh) * 2017-03-21 2018-10-09 株式会社东芝 信号处理系统、信号处理方法以及信号处理程序
CN107978323A (zh) * 2017-12-01 2018-05-01 腾讯科技(深圳)有限公司 音频识别方法、装置及存储介质
CN110599987A (zh) * 2019-08-25 2019-12-20 南京理工大学 基于卷积神经网络的钢琴音符识别算法
CN111145779A (zh) * 2019-12-26 2020-05-12 腾讯科技(深圳)有限公司 一种音频文件的目标检测方法及相关设备
CN111063327A (zh) * 2019-12-30 2020-04-24 咪咕文化科技有限公司 音频处理方法、装置、电子设备及存储介质
CN111554256A (zh) * 2020-04-21 2020-08-18 华南理工大学 一种基于强弱标准的钢琴视奏能力评价系统
CN111553260A (zh) * 2020-04-26 2020-08-18 苏州缪斯谈谈科技有限公司 一种交互式教学方法和系统
CN111680187A (zh) * 2020-05-26 2020-09-18 平安科技(深圳)有限公司 乐谱跟随路径的确定方法、装置、电子设备及存储介质
CN111429940A (zh) * 2020-06-15 2020-07-17 杭州贝哆蜂智能有限公司 一种基于深度学习的实时音乐转录与曲谱匹配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BRAIN MAK ETC: "Phone clustering using the Bhattacharyya distance", 《ENABLING ATUOMATIC LANGUAGE IDENTIFICATION RESEARCH》 *
陈静: "钢琴音乐的多基频估计研究", 《中国优秀博硕士学位论文全文数据库(硕士),信息科技辑》 *
马新建: "基于稀疏分解的音符起始点检测", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113658612A (zh) * 2021-08-25 2021-11-16 桂林智神信息技术股份有限公司 一种基于音频识别被弹奏琴键的方法及系统
CN113658612B (zh) * 2021-08-25 2024-02-09 桂林智神信息技术股份有限公司 一种基于音频识别被弹奏琴键的方法及系统
CN115472143A (zh) * 2022-09-13 2022-12-13 天津大学 一种调性音乐音符起始点检测与音符解码方法及装置

Also Published As

Publication number Publication date
CN112420071B (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
Emiya et al. Multipitch estimation of piano sounds using a new probabilistic spectral smoothness principle
Ikemiya et al. Singing voice analysis and editing based on mutually dependent F0 estimation and source separation
Paulus et al. Measuring the similarity of Rhythmic Patterns.
Klapuri Multiple fundamental frequency estimation based on harmonicity and spectral smoothness
Gillet et al. Transcription and separation of drum signals from polyphonic music
Klapuri et al. Robust multipitch estimation for the analysis and manipulation of polyphonic musical signals
Wu et al. Polyphonic music transcription with semantic segmentation
Benetos et al. Polyphonic music transcription using note onset and offset detection
Benetos et al. Joint multi-pitch detection using harmonic envelope estimation for polyphonic music transcription
Krishna et al. Music instrument recognition: from isolated notes to solo phrases
CN112420071B (zh) 一种基于恒q变换的复调电子琴音乐音符识方法
Fiss et al. Automatic real-time electric guitar audio transcription
Benetos et al. Automatic transcription of pitched and unpitched sounds from polyphonic music
US20130339011A1 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
Giannoulis et al. Improving instrument recognition in polyphonic music through system integration
Pikrakis et al. Tracking melodic patterns in flamenco singing by analyzing polyphonic music recordings
Li et al. Pitch detection in polyphonic music using instrument tone models
Su et al. Power-scaled spectral flux and peak-valley group-delay methods for robust musical onset detection
Ozaslan et al. Legato and glissando identification in classical guitar
Gurunath Reddy et al. Predominant melody extraction from vocal polyphonic music signal by time-domain adaptive filtering-based method
Kitahara et al. Instrogram: A new musical instrument recognition technique without using onset detection nor f0 estimation
Papadopoulos et al. Music-content-adaptive robust principal component analysis for a semantically consistent separation of foreground and background in music audio signals
Derrien A very low latency pitch tracker for audio to MIDI conversion
Paradzinets et al. Use of continuous wavelet-like transform in automated music transcription
Dziubiński et al. High accuracy and octave error immune pitch detection algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant