CN103377647B - 一种基于音视频信息的自动音乐记谱方法及系统 - Google Patents

一种基于音视频信息的自动音乐记谱方法及系统 Download PDF

Info

Publication number
CN103377647B
CN103377647B CN201210122443.9A CN201210122443A CN103377647B CN 103377647 B CN103377647 B CN 103377647B CN 201210122443 A CN201210122443 A CN 201210122443A CN 103377647 B CN103377647 B CN 103377647B
Authority
CN
China
Prior art keywords
note
audio
information
video
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210122443.9A
Other languages
English (en)
Other versions
CN103377647A (zh
Inventor
周若华
颜永红
万玉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201210122443.9A priority Critical patent/CN103377647B/zh
Publication of CN103377647A publication Critical patent/CN103377647A/zh
Application granted granted Critical
Publication of CN103377647B publication Critical patent/CN103377647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种基于音视频信息的自动音乐记谱方法及系统,所述方法包含:采集钢琴演奏的视频和音频数据;依据采集的视频信息用视频跟踪算法获取手部在钢琴上的所有位置信息,根据所述手部位置信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息,即依据视频采集信息获得钢琴弹奏的音符备选范围序列集,简称“视频音符备选范围序列集”;对采集的音频信息采用音频自动音乐记谱算法获取演奏者所演奏的弹奏音符的基频信息,根据基频信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息;将同步后的视频音符备选范围序列集和音频音符备选范围序列集取交集确定演奏的所有音符及这些音符的各个音符对应的弹奏时刻信息。

Description

一种基于音视频信息的自动音乐记谱方法及系统
技术领域
本发明涉及一种应用于钢琴计算机辅助教学的自动音乐记谱技术,更具体地说,本发明涉及基于音视频结合的钢琴自动音乐记谱技术,即本发明提供了一种基于音视频信息的自动音乐记谱方法及系统。
背景技术
自动音乐记谱是指用计算机分析技术将音乐声学信号转换成符号代表,将其所对应的乐谱信息自动翻译出来。它使计算机具有一定程度“听懂“音乐,并完成记谱的能力,在音乐信号处理和分析领域中,有着十分重要的位置,同时也是一个极具挑战性的世界难题.通常音乐记谱需要受过专门训练的音乐工作者人工完成,要耗费大量的时间和人力。自动音乐记谱极大的方便了自动化音乐分析和音乐注释,可被广泛用于基于内容的音乐检索,音乐教育,音乐创作,低位率的压缩编码和自动音乐伴奏系统等,是音乐信号处理中的关键技术。
由于绝大多数音乐都是复音音乐,因此复音音乐自动记谱是该领域的重点和难点,从斯坦福大学70年代开发第一个计算机复音音乐记谱系统至今已有近40年,期间对于复音音乐记谱的研究探索也取得了丰富的学术成果,积累了宝贵的经验,然而当前该技术的准确率和实际应用需求还有相当大的差距,形成这种状况的根本原因在于复音音乐所包括的音乐风格和演奏乐器类型过于繁多,种类繁多,其自动记谱需要很高的智能,只有受过多年训练的音乐专家才能胜任;让计算机也具有如此高的智能,当前的人工智能技术还相距甚远.过去在这一领域的研究绝大部分是不针对任何特定应用的,不能充分利用与特定应用相关的其他信息。
钢琴作为当今世界最流行的乐器,被称为乐器之王,近年来我国越来越多的人特别是青少年开始接受专业或者业余的音乐教育,中国音乐家协会透露,目前全国有3000多万人在学习钢琴。钢琴作为复音乐器的代表,所需要的音乐自动记谱技术难度最大,如果能有效的解决钢琴音乐的自动记谱,其他乐器的自动记谱问题也能迎刃而解。现有的钢琴自动音乐记谱技术仅仅依靠听觉(声音媒介),自动音乐记谱的准确率低,难以被实际应用。
发明内容
本发明的目的在于,为克服现有技术的记录钢琴弹奏乐谱存在精度低等诸多缺陷,从而提供一种基于音视频信息的自动音乐记谱方法及系统。
为实现上述目的,本发明提供了一种基于音视频信息的自动音乐记谱方法,该方法采用多媒体技术自动完成钢琴弹奏者的音乐记谱,所述方法包含如下步骤:
步骤101)录制并采集钢琴演奏的视频和音频数据,用于同步处理分析;
步骤102)依据采集的视频信息采用视频跟踪算法获取手部在钢琴上的所有位置信息,根据所述手部位置信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息,即依据视频采集信息获得钢琴弹奏的音符备选范围序列集,简称“视频音符备选范围序列集”;
步骤103)对采集的音频信息采用音频自动音乐记谱算法获取演奏者所演奏的弹奏音符的基频信息,根据所述的基频信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息,即依据音频采集信息获取钢琴弹奏的音符备选范围序列集,简称“音频音符备选范围序列集”;
步骤104)将步骤102)获得的各个弹奏音符的所有手部位置信息和步骤103)获得的各弹奏音符的基频信息在时间上逐一进行对齐,并对对齐后的视频音符备选范围序列集和音频音符备选范围序列集取交集最终确定演奏者演奏的所有音符及这些音符的各个音符对应的弹奏时刻信息,完成对钢琴演奏的自动音乐记谱;
其中,所述弹奏时刻信息包含:各个音符的开始弹奏时刻及持续时间。
所述步骤102)的视频跟踪算法采用背景差分法及肤色检测算法来跟踪手部在钢琴上的位置。
可选的,所述步骤102)进一步包含如下子步骤:在演奏之前,手动完成钢琴键盘的上下左右边界的设定,同时保存空白键盘的帧作为背景帧;
待演奏开始后,将当前帧和背景帧都转换成灰度图像,并进行灰度图像直方图均衡化,做差分计算,得到差分动态部分的二值图像;同时将背景帧和当前帧都转换到HSV色彩空间及YCrCb色彩空间,分别在两个色彩空间求背景帧与当前帧的差分,得到肤色部分的动态二值图像;
对所得二值图像进行中值滤波,膨胀腐蚀,最后两两求交集,进行轮廓检测,圈定最大矩形轮廓,得到钢琴键盘上手的活动范围;
最后结合所圈定的钢琴长宽及位置信息,等比例求得手部位置所对应的音符范围。
可选的,所述步骤103)音频自动音乐记谱算法进一步包含:
首先对演奏的钢琴采集其单音音符多种不同响度的样点,进行RTFI频谱分析获取各样点的谐波频谱结构特征及RTFI平均能量谱的平均能量谱并存储;
然后按照谐音组合原理,将RTFI平均能量谱转换为基频能量谱和相对基频能量谱;
根据相对基频能量谱算法采用峰拾取方法对可能出现的基频进行初步预测;
然后根据音符的谐波频谱结构特征和频谱不规律性,消除错误预测。
基于上述方法本发明还提供了一种基于音视频信息的自动音乐记谱系统,该系统采用多媒体技术自动完成钢琴弹奏者的音乐记谱,所述系统包含:
音视频采集模块,用于录制并采集钢琴演奏的视频和音频信息;
音频分析模块,用于将采集的音频数据进行RTFI分析获得RTFI平均能量谱,将获得的RTFI平均能量谱,采用基于能量变化的切分方法得到音符的弹奏时刻和持续时间,运用快速非迭代方法对获得的获得基频信息,结合音符的起始位置和多基频信息得出大致的各个音符的范围及这些音符的各个音符对应的弹奏时刻信息;
视频数据分析模块,用于将采集的视频图像进行图像预处理和分析提取出所有音符对应的手部位置信息,并将所有手部位置信息输入音视频信息综合处理模块;
音视频信息综合处理模块,用于手部位置信息缩小音频数据分析模块的音符判定范围,最终提取出所弹奏的各个音符的乐谱信息。
上述技术方案中,所述视频数据分析处理模块进一步包含如下子模块:
边界界定子模块,用于记录:在演奏之前,手动完成钢琴键盘的上下左右边界的设定,同时保存空白键盘的帧作为背景帧;
二值图像处理子模块,用于待演奏开始后,将当前帧和背景帧都转换成灰度图像,并进行灰度图像直方图均衡化,做差分计算,得到差分动态部分的二值图像;同时将背景帧和当前帧都转换到HSV色彩空间及YCrCb色彩空间,分别在两个色彩空间求背景帧与当前帧的差分,得到肤色部分的动态二值图像;
第一处理子模块,用于对所得的二值图像进行中值滤波,膨胀腐蚀,最后两两求交集,进行轮廓检测,圈定最大矩形轮廓,得到钢琴键盘上手的活动范围;和
第二处理子模块,用于结合所圈定的钢琴长宽及位置信息,比例求得手部位置所对应的音符范围。
与现有技术相比较,本发明的优点在于:
(1)计算机除了利用音频信息以外,还利用视频中的手部位置信息来设定所演奏音符的范围,显著提高了自动音乐记谱的性能,即大幅度提高钢琴自动音乐记谱的准确率,同时保持算法的快速性。
(2)本发明视频跟踪部分能够采用的是背景差分法及肤色检测算法来跟踪手部在钢琴上的位置,计算量小,能够满足实时应用的要求。
(3)本发明音频自动记谱算法是由本发明负责人在国际上首次提出的,该算法在2008年国际音乐信息检索评测比赛中,获得钢琴自动音乐记谱第一名,且速度最快。
附图说明
图1是本发明的整个钢琴自动音乐记谱方法的具体流程框图;
图2是本发明在钢琴弹奏过程中,摄像头记录手在键盘上的运动示意图,其中,灰色色块代表手的圈定范围。
具体实施方式
下面结合附图对本发明的内容进行详细说明。
本发明采用多媒体融合技术,通过结合视频对于手部在钢琴键盘上的位置信息跟踪和为特定钢琴音符建立包含频谱和时序特征模型的方法,大幅度提高钢琴自动音乐记谱算法的准确率,同时保持算法的快速性,使钢琴自动记谱算法的性能达到计算机辅助教学特定应用的要求。
为实现上述目的,本发明的自动音乐记谱技术方法包括以下步骤予以实现:
第一步,采集钢琴演奏的视频和音频数据,用于同步处理分析。
第二步,对视频先进行钢琴手动定位,并运用视频跟踪算法对手部在钢琴上的位置进行跟踪定位,同时结合钢琴键盘对应的音符分布对所弹奏音符的范围进行限定。其中视频跟踪算法主要包括三个子模块:采集视频图像、图像预处理和图像分析,采集视频图像子模块利用摄像设备监视钢琴的键盘区域,并将所获得图像转换成计算机能够识别的信号;图像预处理子模块将图像进行锐化处理,使图像清晰度更高,有利于计算机处理,便于各种图像特征的分析;图像分析模块,利用背景差分法及人体肤色检测算法,将演奏者手部相关的信息从背景中分离出来,形成二值图像,求其轮廓,最终得到演奏者手部在键盘上的位置信息,最后结合所圈定的钢琴长宽及位置信息,等比例求得手部位置所对应的音符范围。
第三步,对音频进行RTFI频谱分析,然后按照谐音组合原理,将RTFI平均能量谱转换为基频能量谱(pitch energy spectrum,PES)和相对基频能量谱(relative pitchenergy spectrum,RPES),根据相对基频能量谱,采用简单的峰拾取方法对可能出现的基频进行初步预测,并将基频、开始时间及持续时间信息转换成相应的音符时间序列。
第四步,将第二步得到的位置信息和第三步得到的基频信息在时间上对齐,利用位置信息限定的音符范围,消除第三步中出现的错误预测。
第五步,最终确定所演奏的音符及它们的开始和持续时间,完成自动音乐记谱。
如图1所示,该图是本发明的钢琴自动音乐记谱系统的具体流程图,它描述了本发明的核心组成部分,主要由以下几部分构成:音视频采集部分、音频数据分析部分、视频数据分析部分以及音视频信息结合部分。
在钢琴演奏者演奏过程中进行视频及音频录制,将采集到的视频图像输入到视频处理模块,进行图像预处理、图像分析,提取出手部位置信息;同时音频信号经过RTFI分析后,进行切分并运用快速非迭代方法进行基频估计,结合音符的起始位置和多基频信息得出大致的音符范围;最后将音视频两部分的分析结果结合起来,利用视频信息结果缩小音符判定范围,提取出所弹奏的乐谱。
图2为视频录制及分析示意图。钢琴演奏者弹奏之前,首先手动确定钢琴上下左右边界,设定好钢琴在画面中的位置,并记录空白键盘帧作为背景帧。开始弹奏后,对图像进行背景差分法及肤色识别,圈定手在钢琴键盘上的位置范围,进一步通过分析手所覆盖的按键计算出此时所弹奏音符的范围,辅助音频数据处理结果,提高自动音乐记谱的准确率。
基于上述方法本发明提供了一种基于音视频信息的自动音乐记谱系统,该系统采用多媒体技术自动完成钢琴弹奏者的音乐记谱,所述系统包含:
音视频采集模块,用于录制并采集钢琴演奏的视频和音频信息;
音频分析模块,用于将采集的音频数据进行RTFI分析获得RTFI平均能量谱,将获得的RTFI平均能量谱,采用基于能量变化的切分方法得到音符的弹奏时刻和持续时间,运用快速非迭代方法对获得的获得基频信息,结合音符的起始位置和多基频信息得出大致的各个音符的范围及这些音符的各个音符对应的弹奏时刻信息;
视频数据分析模块,用于将采集的视频图像进行图像预处理和分析提取出所有音符对应的手部位置信息,并将所有手部位置信息输入音视频信息综合处理模块;
音视频信息综合处理模块,用于手部位置信息缩小音频数据分析模块的音符判定范围,最终提取出所弹奏的各个音符的乐谱信息。
上述技术方案中所述视频数据分析处理模块进一步包含如下子模块:
边界界定子模块,用于记录:在演奏之前,手动完成钢琴键盘的上下左右边界的设定,同时保存空白键盘的帧作为背景帧;
二值图像处理子模块,用于待演奏开始后,将当前帧和背景帧都转换成灰度图像,并进行灰度图像直方图均衡化,做差分计算,得到差分动态部分的二值图像;同时将背景帧和当前帧都转换到HSV色彩空间及YCrCb色彩空间,分别在两个色彩空间求背景帧与当前帧的差分,得到肤色部分的动态二值图像;
第一处理子模块,用于对所得的二值图像进行中值滤波,膨胀腐蚀,最后两两求交集,进行轮廓检测,圈定最大矩形轮廓,得到钢琴键盘上手的活动范围;
第二处理子模块,用于结合所圈定的钢琴长宽及位置信息,比例求得手部位置所对应的音符范围。
上述技术方案中,所述音频数据分析处理模块进一步包含如下子模块:
时频分析模块,采用RTFI进行时频分析。输入样点为单声道的音乐信号,采用共振滤波器组。滤波器的中心频率按照对数标度设置。输入信号首先通过RTFI分析后,产生了RTFI能量谱(RTFI energy spectrum);然后RTFI能量谱对每10毫秒帧进行平均得到RTFI平均能量谱。RTFI平均能量谱如下列方程所示:
A ( l , ω m ) = db ( 1 M Σ i = ( l - 1 ) M + 1 lM | RTFI ( n , ω m ) | 2 )
其中M是一个整数,M/采样频率代表了每帧的时间长度。本文所建议的方法中,M被设定为441,所对应的帧时间长度为10ms.RTFI(n,ωm)代表了离散RTFI在采样点n和频率ωm的值;l是帧索引.
音符切分模块,时频分析模块获得的RTFI平均能量谱,被进一步的按照下列方程转换为频谱D.
R ( k , ω m ) = 1 5 Σ i = 1 5 A ( k , i · ω m )
S ( k , ω m ) = 1 25 Σ i = k - 2 k + 2 Σ m - 2 m + 2 R ( k , ω m )
D(k,ωm)=S(k,ωm)-S(k-n,ωm)
频谱D可以被用来跟踪瞬时信息,从而产生能量基的侦测函数(detection function),如下列方程所示:
L(k,ωm)=H(D(k,ωm)-θ1),θ1>0
DF(k)=mean(L(k,ωm))
其中H(x)=(x+|x|/2是半波整流函数,DF代表了能量基的侦测函数,侦测函数再通过简单的移动平均滤波器来进行光滑。然后简单的峰拾起算法被采用,仅仅那些超过阈值的峰被考虑为可能的音符起始位置。
多基频估计模块,按照谐音组合原理,由时频分析模块输入的RTFI平均能量谱首先按下面的方程被转换为基频能量谱(pitch energy spectrum,PES)和相对基频能量谱(relative pitch energy spectrum,RPES)。
PES ( ω k ) = 1 L Σ i = 1 L A ( i · ω k )
RPES ( ω k ) = PES ( ω k ) - 1 N 1 + 1 Σ i = k - N 1 / 2 k + N 1 / 2 PES ( ω i )
RES ( ω k ) = A ( ω k ) - Σ i = k - N 2 / 2 k + N 2 / 2 A ( ω i )
根据相对基频能量谱,算法对可能出现的基频按照下面的假定进行初步预测。在相对基频能量谱中,如果在频率ωk存在一个峰,而且峰值超过一个阈值A1,则该频率被初步估计为一个候选基频。然后对候选基频按照下面的方法进行排除;当基频为ω1的音符和一个基频为nω1的音符混合在一起的时候,则对应的谐音频谱包络不是光滑的;而是每第n谐音分量要明显大于相邻的谐音分量。这种现象能够通过计算频谱不规律性(spectral irregularity,SI)来检测。
SI ( n ) = Σ i = 1 3 ( A ( i · n · ω k ) - ( A ( i · n · ω k - 1 ) + A ( i · · ω k + 1 ) 2 ) )
当候选基频中存在着基频ω1和ω2,且ω2=nω1。如果更高的基频不存在,则SI(n)的值常常是小的;反之,由于重叠的谐音分量被加强,SI(n)有比较大的值。基于这一实验观察,当SI(n)小于某个阈值时,则算法会将较高的基频预测ω2排除。其阈值是通过实验来确定的。在实际应用中,大部分由谐音分量重叠所引起的错误预测,其基频是真实存在的基频的2,3或4倍。因此,算法仅对基本频率比为2,3和4的两个候选基频进行SI检测,以排除可能的错误预测。和
处理模块,按照音符切分模块所检测到的音符起始位置,被分割成不同的时间片段。对于每个时间片段的输入信号,采用多基频估计模块,以预测在该时间片段里所出现一个或多个音符的基频。最后,算法检测每个被预测到的基频是从本时间片段开始,还是从以前的时间片段就已经开始了。对于第n个时间片段,如果一个基频ω被预测,而第n-1个时间片段所预测的基频不包含ω,则基频ω被认定为是第N个时间片段新出现的基频。反之,如果第N-1个时间片段所预测的基频也包含ω,则只有在基频所对应的能量谱或者第二谐音所对应的能量谱在第N个时间片段有显著的能量增加,才会被认定为是第N个时间片段新出现的基频。当每个时间片段所出现音符的基频和这些音符的起始位置被估计后,下一步就是估计这些音符的持续时间。由于音符的开始时间已经在前面的步骤估计了,系统只需预测出音符的终止时间就可以得到持续时间。当预测第N个时间片段内新出现音符a的终止时间时,系统将从前往后逐个观察后续时间片段内所预测的基频;直到发现了一个时间片段,系统对该片段所预测的基频中不包含该音符的基频,或者包含了该音符的基频,但此基频被估计是新出现的;那么该时间片段的起始位置被确定为音符a的终止时间。
总之,本发明涉及一种可以应用于钢琴计算机辅助教学的自动音乐记谱方法。包括:利用背景差分法及不同色彩空间的肤色检测算法对视频中手部在钢琴键盘上的位置进行跟踪,通过比对钢琴键盘与音符的对应关系设定音符的范围;对音频进行RTFI频谱分析,然后按照谐音组合原理,将RTFI平均能量谱转换为基频能量谱(pitch energy spectrum,PES)和相对基频能量谱(relative pitch energy spectrum,RPES),根据相对基频能量谱,采用简单的峰拾取方法对可能出现的基频进行初步预测,并将基频、开始时间及持续时间信息转换成相应的音符时间序列;结合音视频的分析结果对音符的错误预测进行消除。最终确定所演奏的音符及它们的开始和持续时间,完成自动音乐记谱。
相对于现有技术的仅仅依靠音频信息的复音音乐记谱技术由于会出现倍频问题,同时基频预测的算法本身也具有局限性,技术性能尚不能达到实际应用的需求。这一领域的技术研究绝大部分也不是针对特定应用的,不能利用与特定应用相关的其他信息。本发明的目的在于提供一种基于多媒体融合的钢琴计算机辅助教学的自动音乐记谱技术,利用了视频中手部位置信息来设定所演奏音符的范围,显著提高了自动音乐记谱技术的性能,解决了复音音乐记谱技术不能被实际应用的问题。
综上所述,本发明提供了一种基于音视频信息的自动音乐记谱方法及系统,该方法采用多媒体技术自动完成钢琴弹奏者的音乐记谱,所述方法可应用于钢琴计算机辅助教学的自动音乐记谱技术。该方法采用音视频的多媒体融合技术,利用视频中演奏者手部在键盘上的位置信息对自动音乐记谱技术进行修正,从而得到更为精确的自动音乐记谱结果。基于音视频结合的自动音乐记谱技术对钢琴音乐的记谱准确率与未采用多媒体融合的自动音乐记谱技术相比较,有了很大的提高,同时视频部分的算法计算量小,能够满足实时应用。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于音视频信息的自动音乐记谱方法,该方法采用多媒体技术自动完成钢琴弹奏者的音乐记谱,所述方法包含如下步骤:
步骤101)录制并采集钢琴演奏的视频和音频数据,用于同步处理分析;
步骤102)依据采集的视频信息采用视频跟踪算法获取手部在钢琴上的所有位置信息,根据所述手部位置信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息,即依据视频采集信息获得钢琴弹奏的音符备选范围序列集,简称“视频音符备选范围序列集”;
步骤103)对采集的音频信息采用音频自动音乐记谱算法获取演奏者所演奏的弹奏音符的基频信息,根据所述的基频信息确定演奏者所演奏的弹奏音符和各弹奏音符对应的弹奏时刻信息,即依据音频采集信息获取钢琴弹奏的音符备选范围序列集,简称“音频音符备选范围序列集”;
步骤104)将步骤102)获得的各个弹奏音符的所有手部位置信息和步骤103)获得的各弹奏音符的基频信息在时间上逐一进行对齐,并对对齐后的视频音符备选范围序列集和音频音符备选范围序列集取交集最终确定演奏者演奏的所有音符及这些音符的各个音符对应的弹奏时刻信息,完成对钢琴演奏的自动音乐记谱;
其中,所述弹奏时刻信息包含:各个音符的开始弹奏时刻及持续时间。
2.根据权利要求1所述的基于音视频信息的自动音乐记谱方法,其特征在于,所述步骤102)的视频跟踪算法采用背景差分法及肤色检测算法来跟踪手部在钢琴上的位置。
3.根据权利要求2所述的基于音视频信息的自动音乐记谱方法,其特征在于,所述步骤102)进一步包含如下子步骤:在演奏之前,手动完成钢琴键盘的上下左右边界的设定,同时保存空白键盘的帧作为背景帧;
待演奏开始后,将当前帧和背景帧都转换成灰度图像,并进行灰度图像直方图均衡化,做差分计算,得到差分动态部分的二值图像;同时将背景帧和当前帧都转换到HSV色彩空间及YCrCb色彩空间,分别在两个色彩空间求背景帧与当前帧的差分,得到肤色部分的动态二值图像;
对所得二值图像进行中值滤波,膨胀腐蚀,最后两两求交集,进行轮廓检测,圈定最大矩形轮廓,得到钢琴键盘上手的活动范围;
最后结合所圈定的钢琴长宽及位置信息,等比例求得手部位置所对应的音符范围。
4.根据权利要求1所述的基于音视频信息的自动音乐记谱方法,其特征在于,所述步骤103)音频自动音乐记谱算法进一步包含:
首先对演奏的钢琴采集其单音音符多种不同响度的样点,进行RTFI频谱分析获取各样点的谐波频谱结构特征及RTFI平均能量谱的平均能量谱并存储;
然后按照谐音组合原理,将RTFI平均能量谱转换为基频能量谱和相对基频能量谱;
根据相对基频能量谱算法采用峰拾取方法对可能出现的基频进行初步预测;
然后根据音符的谐波频谱结构特征和频谱不规律性,消除错误预测。
5.一种基于音视频信息的自动音乐记谱系统,该系统采用多媒体技术自动完成钢琴弹奏者的音乐记谱,所述系统包含:
音视频采集模块,用于录制并采集钢琴演奏的视频和音频信息;
音频分析模块,用于将采集的音频数据进行RTFI分析获得RTFI平均能量谱,将获得的RTFI平均能量谱,采用基于能量变化的切分方法得到音符的弹奏时刻和持续时间,运用快速非迭代方法获得基频信息,结合音符的起始位置和多基频信息得出大致的各个音符的范围及这些音符的各个音符对应的弹奏时刻信息;
视频数据分析模块,用于将采集的视频图像进行图像预处理和分析提取出所有音符对应的手部位置信息,并将所有手部位置信息输入音视频信息综合处理模块;和
音视频信息综合处理模块,用于根据手部位置信息缩小音频数据分析模块的音符判定范围,最终提取出所弹奏的各个音符的乐谱信息。
6.根据权利要求5所述的基于音视频信息的自动音乐记谱系统,其特征在于,所述视频数据分析处理模块进一步包含如下子模块:
边界界定子模块,用于记录:在演奏之前,手动完成钢琴键盘的上下左右边界的设定,同时保存空白键盘的帧作为背景帧;
二值图像处理子模块,用于待演奏开始后,将当前帧和背景帧都转换成灰度图像,并进行灰度图像直方图均衡化,做差分计算,得到差分动态部分的二值图像;同时将背景帧和当前帧都转换到HSV色彩空间及YCrCb色彩空间,分别在两个色彩空间求背景帧与当前帧的差分,得到肤色部分的动态二值图像;
第一处理子模块,用于对所得的二值图像进行中值滤波,膨胀腐蚀,最后两两求交集,进行轮廓检测,圈定最大矩形轮廓,得到钢琴键盘上手的活动范围;和
第二处理子模块,用于结合所圈定的钢琴长宽及位置信息,比例求得手部位置所对应的音符范围。
7.根据权利要求5所述的基于音视频信息的自动音乐记谱系统,其特征在于,所述音频数据分析处理模块进一步包含如下子模块:
时频分析模块,采用RTFI进行时频分析,输入样点为单声道的音乐信号,采用共振滤波器组;滤波器的中心频率按照对数标度设置,输入信号首先通过RTFI分析后,产生了RTFI能量谱;然后RTFI能量谱对每10毫秒帧进行平均得到RTFI平均能量谱;
音符切分模块,对时频分析模块获得的RTFI平均能量谱沿时间轴进行差分,获得差分能量谱,然后进行能量增信息处理,即将差分能量谱的所有小于零的值被设置为零,大于零的值维持不变,再将处理过的差分能量谱,对每一时间帧在频域上求平均,得到能量基的检测函数;再通过简单的移动平均滤波器对检测函数进行平滑,然后对检测函数进行峰拾取算法,即那些超过阈值的峰被考虑为可能的音符起始位置;
多基频估计模块,将时频分析模块获得的RTFI平均能量谱按照谐音组合原理转换为相对基频能量谱,并基于相对基频能量谱采用简单的峰拾起方法对基频做初步估计;然后根据频谱不规律性和乐音谐音结构的基本假定,消除初步估计中的错误预测,得到基频信息;和
处理模块,按照音符切分模块所检测到的音符起始位置,被分割成不同的时间片段,对于每个时间片段的输入信号,采用多基频估计模块,以预测在该时间片段里所出现一个或多个音符的基频。
CN201210122443.9A 2012-04-24 2012-04-24 一种基于音视频信息的自动音乐记谱方法及系统 Active CN103377647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210122443.9A CN103377647B (zh) 2012-04-24 2012-04-24 一种基于音视频信息的自动音乐记谱方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210122443.9A CN103377647B (zh) 2012-04-24 2012-04-24 一种基于音视频信息的自动音乐记谱方法及系统

Publications (2)

Publication Number Publication Date
CN103377647A CN103377647A (zh) 2013-10-30
CN103377647B true CN103377647B (zh) 2015-10-07

Family

ID=49462678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210122443.9A Active CN103377647B (zh) 2012-04-24 2012-04-24 一种基于音视频信息的自动音乐记谱方法及系统

Country Status (1)

Country Link
CN (1) CN103377647B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105304073B (zh) * 2014-07-09 2019-03-12 中国科学院声学研究所 一种敲击弦乐器的音乐多音符估计方法及系统
TWI556225B (zh) * 2014-08-04 2016-11-01 健行學校財團法人健行科技大學 自動採譜方法與相關應用程式產品
CN105513580A (zh) * 2014-09-26 2016-04-20 上海渐华科技发展有限公司 基于辅助摄像头的键盘乐器弹奏音符识别系统
JP6614356B2 (ja) * 2016-07-22 2019-12-04 ヤマハ株式会社 演奏解析方法、自動演奏方法および自動演奏システム
CN106375780B (zh) * 2016-10-20 2019-06-04 腾讯音乐娱乐(深圳)有限公司 一种多媒体文件生成方法及其设备
CN108074439A (zh) * 2016-11-18 2018-05-25 北京酷我科技有限公司 一种钢琴陪练设备及钢琴
CN108074437A (zh) * 2016-11-18 2018-05-25 北京酷我科技有限公司 一种钢琴演奏的纠错方法及系统
CN108074438A (zh) * 2016-11-18 2018-05-25 北京酷我科技有限公司 一种钢琴演奏的纠错方法及系统
CN108074440A (zh) * 2016-11-18 2018-05-25 北京酷我科技有限公司 一种钢琴演奏的纠错方法及系统
CN108073867A (zh) * 2016-11-18 2018-05-25 北京酷我科技有限公司 一种钢琴演奏的视频特征提取方法及系统
CN108074441A (zh) * 2016-11-18 2018-05-25 北京酷我科技有限公司 一种钢琴演奏的纠错方法及系统
CN106782464A (zh) * 2016-12-01 2017-05-31 北京银河润泰科技有限公司 键盘动作检测方法及装置
CN108731791B (zh) * 2018-03-22 2020-07-28 深圳市月白电子科技有限公司 一种采集钢琴按键动作的方法及装置
WO2019196052A1 (en) * 2018-04-12 2019-10-17 Sunland Information Technology Co., Ltd. System and method for generating musical score
CN110010106B (zh) * 2019-01-23 2023-01-03 张鹤宝 一种音乐演奏自动打谱系统
CN110111761B (zh) * 2019-03-28 2022-03-11 深圳市芒果未来科技有限公司 对乐音演奏进行实时跟随的方法及相关产品
CN112714286B (zh) * 2020-12-23 2023-04-18 西安卓逸数字信息科技有限公司 基准信号预先调配系统
CN113257210B (zh) * 2021-06-02 2023-10-24 南京邮电大学 一种铜制或木制乐器的多模态转谱方法及系统
CN115985273B (zh) * 2023-03-21 2023-12-26 北京卓颜翰景科技有限公司 基于多传感器数据融合的记谱方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6245982B1 (en) * 1998-09-29 2001-06-12 Yamaha Corporation Performance image information creating and reproducing apparatus and method
WO2009098181A2 (en) * 2008-02-06 2009-08-13 Universitat Pompeu Fabra Audio recording analysis and rating
JP2010114737A (ja) * 2008-11-07 2010-05-20 Kddi Corp 携帯端末、拍位置修正方法および拍位置修正プログラム
CN102027440A (zh) * 2008-03-18 2011-04-20 艾利普提克实验室股份有限公司 对象与运动检测

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6245982B1 (en) * 1998-09-29 2001-06-12 Yamaha Corporation Performance image information creating and reproducing apparatus and method
WO2009098181A2 (en) * 2008-02-06 2009-08-13 Universitat Pompeu Fabra Audio recording analysis and rating
CN102027440A (zh) * 2008-03-18 2011-04-20 艾利普提克实验室股份有限公司 对象与运动检测
JP2010114737A (ja) * 2008-11-07 2010-05-20 Kddi Corp 携帯端末、拍位置修正方法および拍位置修正プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一个快速自动音乐记谱方法;周若华,颜永红;《声学学报》;20100331;第35卷(第2期);全文 *

Also Published As

Publication number Publication date
CN103377647A (zh) 2013-10-30

Similar Documents

Publication Publication Date Title
CN103377647B (zh) 一种基于音视频信息的自动音乐记谱方法及系统
CN105405439B (zh) 语音播放方法及装置
CN107784118B (zh) 一种针对用户兴趣语义的视频关键信息提取系统
Sadjadi et al. The 2019 NIST Audio-Visual Speaker Recognition Evaluation.
CN110880329B (zh) 一种音频识别方法及设备、存储介质
US11138989B2 (en) Sound quality prediction and interface to facilitate high-quality voice recordings
CN107393554A (zh) 一种声场景分类中融合类间标准差的特征提取方法
CN113012720B (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
CN104916289A (zh) 行车噪声环境下快速声学事件的检测方法
CN102937320B (zh) 用于智能空调的健康保护方法
CN108206027A (zh) 一种音频质量评价方法及系统
CN107144818A (zh) 基于双向双耳匹配滤波器加权融合的双耳声源定位方法
CN106057210A (zh) 双耳间距下基于频点选择的快速语音盲源分离方法
CN103903632A (zh) 一种多声源环境下的基于听觉中枢系统的语音分离方法
CN110120230A (zh) 一种声学事件检测方法及装置
CN117095694B (zh) 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN115346561B (zh) 基于语音特征的抑郁情绪评估预测方法及系统
CN113052138A (zh) 一种舞蹈与运动动作的智能对比矫正的方法
CN109841219A (zh) 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法
CN107274892A (zh) 说话人识别方法及装置
CN104157294B (zh) 一种农产品市场要素信息采集的鲁棒性语音识别方法
CN115831352B (zh) 一种基于动态纹理特征和时间分片权重网络的检测方法
Jiang et al. Speech emotion recognition method based on improved long short-term memory networks
CN116705060A (zh) 一种基于神经算法多源音频特征的智能仿真方法和系统
CN111785236A (zh) 一种基于动机提取模型与神经网络的自动作曲方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant