CN111429940A - 一种基于深度学习的实时音乐转录与曲谱匹配方法 - Google Patents
一种基于深度学习的实时音乐转录与曲谱匹配方法 Download PDFInfo
- Publication number
- CN111429940A CN111429940A CN202010539625.0A CN202010539625A CN111429940A CN 111429940 A CN111429940 A CN 111429940A CN 202010539625 A CN202010539625 A CN 202010539625A CN 111429940 A CN111429940 A CN 111429940A
- Authority
- CN
- China
- Prior art keywords
- note
- music
- time
- model
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013518 transcription Methods 0.000 title claims abstract description 25
- 230000035897 transcription Effects 0.000 title claims abstract description 25
- 238000013135 deep learning Methods 0.000 title claims abstract description 22
- 230000006870 function Effects 0.000 claims abstract description 29
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000011295 pitch Substances 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims description 3
- 230000005012 migration Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000012937 correction Methods 0.000 abstract description 4
- 239000011159 matrix material Substances 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009448 modified atmosphere packaging Methods 0.000 description 2
- 235000019837 monoammonium phosphate Nutrition 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明提供一种基于深度学习的实时音乐转录与曲谱匹配方法,包括以下步骤:S1:获取音频片段的音符时间标签数据及音高标签数据;S2:处理音频片段中的音频数据及噪音数据,得到音频的频域数据和噪音的频域数据;S3:将上述数据以一定规则输入至卷积神经网络并获得第一模型和第二模型;S4:将第一模型和第二模型的训练结果输入到隐式马尔科夫模型进行曲谱匹配,获得正确音符集合及初步错误区域;S5:针对初步错误区域采用Merged‑Output隐式马尔科夫模型进行重校准匹配,获得匹配结果。本发明在增加了噪音检测模块以及噪音处理功能,完成了实际复杂场景的音乐转录及弹奏纠错,能在实际场景中得到良好的效果。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种基于深度学习的实时音乐转录与曲谱匹配方法。
背景技术
随着互联网发展导致的数据累积、硬件设备的不断完善以及深度学习技术的深入研究,凭借深度学习方法的强大拟合泛化能力,在各领域都取得了超越传统方法的成就。
音乐转录领域最常见的传统方法是非负矩阵分解,该方法不需要基于先验知识就能完成转录,但是要求音乐片段中的音符必须具有静态和声特征,也就是说音符必须具有固定的谐波格式。这在实际中几乎是不可能的,嘈杂的环境、乐器调音的细微不同、弹奏的声音高低、泛音识别等等问题,给这项技术在实际中使用带来了困难。归根结底的原因是非负矩阵分解表达能力不够强,没法处理实际场景中的复杂音乐特征。
基于深度学习模型的最主要的特点就是“万能近似定理”:由于神经网络具有至少一个非线性隐藏层,那么只要给予网络足够数量的隐藏单元,它就可以以任意的精度来近似任何从一个有限维空间到另一个有限维空间的函数。
因此基于深度学习的识别方法可以在一定程度解决上述问题,大量的不同场合下弹奏的音乐数据结合模型的强大的拟合泛化能力,能够解决复杂实际场景中音乐转录问题,并且结合目前的硬件设施,其处理速度完全能够做到实时转录,具有极大的实用价值。
发明内容
为了解决上述的问题,本发明提供了一种基于深度学习的实时音乐转录与曲谱匹配方法,运用了深度学习方法解决实际复杂场景中存在的问题,能够完成高效准确的音乐转录并完成鲁棒的弹奏纠错功能。
本发明的技术方案如下所示:
一种基于深度学习的实时音乐转录与曲谱匹配方法,包括以下步骤:
S1:获取音频片段的音符时间标签数据及音高标签数据;
S2:处理音频片段中的音频数据及噪音数据,得到音频的频域数据和噪音的频域数据;
S3:将所述音符时间标签数据、音频的频域数据和噪音的频域数据输入第一卷积神经网络并训练得到第一模型;将所述音高标签数据和音频的频域数据输入第二卷积神经网络训练得到第二模型;
S4:将第一模型和第二模型的训练结果输入到隐式马尔科夫模型进行曲谱匹配,获得正确音符集合及初步错误区域;
S5:针对初步错误区域采用Merged-Output隐式马尔科夫模型进行重校准匹配,获得匹配结果。
优选的,所述步骤S2中采用常量Q变换处理音频片段。
优选的,所述第一模型用于识别音符的出现时间并判断当前音频为音乐还是噪声,所述第二模型用于识别出现音符的音高。
优选的,所述第一模型采用卷积神经网络,以交叉熵函数为目标函数,有两个输出,输出一的最后一层采用sigmoid函数,用于输出长度为t的置信度向量以确定出现音符的时间点,其中t为音频转换后频谱的宽度,当置信度超过预先设置的阈值,则判断为音符出现;输出二的最后一层采用softmax函数,用于输出一个二分类结果,用以判断当前音频是音乐还是噪音。
优选的,所述第二模型采用卷积神经网络,以交叉熵函数为目标函数,其最后一层采用sigmoid函数,用于输出长度为m的置信度向量,以判断哪些音出现的可能性,其中m为单乐器可弹奏的音的数量,当置信度超出预先设置的阈值,则判断为出现了该对应音高的音。
优选的,还包括聚类操作,具体为:对于不断输入的新的音频片段,在经步骤S1~S3的处理后,先将其与已经过步骤S2~S3处理后得到的音频片段按照起始时间进行聚类,当音符的起始时间间隔小于预先设定的阈值,则音符被合并为一类,形成音符聚类。
优选的,每一个所述音符聚类取其所有音符起始时间的均值作为该聚类的整体起始时间,并按照音符聚类的起始时间先后进行排序,当起始时间相同时则按照音高进行排序,得到排序后的音符序列,对标准曲谱的音符采用同样规则进行排序,获得标准序列;使用隐式马尔科夫模型将音符序列与标准序列进行曲谱匹配,获得正确音符集合及判定为初步错误的区域。
优选的,所述重校准匹配的过程具体为:已经匹配成功的音符可以用来表示,
其中表示音高,则表示时间,其中表示一共N个正确匹配的音符;正确匹
配的音符聚类的下标为,其中是正确匹配的音乐符聚类的总数;如果初步错
误区域中存在个音符,那么其中第n个音符为,局部的音符弹奏速度为;因此Merged-Output隐式马尔科夫模型中第n个隐藏状态可以
表示为,Merged-Output隐式马尔科夫模型的迁移和输出概率如下:
上述公式中,概率分布描述了弹奏在曲谱中的表现得分,为弹奏时速度的方差变
化,表示音高错误概率,描述标准音和弹奏的音对应匹配概率;附加了噪
音识别概率项,用以减少误检测噪音的干扰;起始时间输出概率
形式反映了不同聚类音符之间的起始时间间隔服从指数分布,和标准差和可
通过测量得到,为克罗内克函数。
本发明的有益效果为:
1、本发明在音符检测模型中添加了噪音检测模块以及在隐式马尔科夫模型中加入噪音处理功能,完成了实际复杂场景的音乐转录及弹奏纠错,能在实际场景中得到良好的效果;
2、本发明使用常量Q变换代替传统的傅里叶变换进行时域转频域的操作,以得到各频段特征突出的频谱数据,结合深度学习方法,能够鲁棒的识别频谱中音乐出现点、是否噪音以及音符音高信息,该方法鲁棒准确,发挥了最新的深度学习方法与海量数据的优势,起始位置与音高识别分开的模块化设计,提高了准确率并减少了计算量,非常适用于高精度、高灵敏度的音乐实时转录。
附图说明
图1为本发明方法的整体流程示意图。
图2为神经网络模型结构的示意图。
图3为隐式马尔科夫模型的示意图。
具体实施方式
下面将结合说明书附图对本发明实施例作进一步的说明。
本发明的基于深度学习的实时音乐转录与曲谱匹配方法,首先将得到音乐音频片段进行频域转化,使用频谱与标签数据训练音符检测模型和音高识别模型,输入的数据同样会转化为频谱,然后先后输入两个模型,这就可以得到一个音频切片的音乐音符,曲谱匹配算法也可实时得到匹配结果,接着将音频片段持续输入即可得到整曲的转录和匹配纠错结果。具体如下:
(1)时域音频的频域转化
与短时傅里叶变换一样,常量Q变换也是一种时域信号转换算法,参考了音乐的十二平均律,使得到的结果更加适用于音乐。十二平均律显示高八度音的频率比刚好为2,音乐音符的频率呈现为一个等比数列,因此常量Q变换采用了等比数列关系的滤波器,这使得常量Q变换得到的音符特征呈现为均匀排列,特征更加清晰,而短时傅里叶变换的滤波器带宽是等长的。
其中b是指每个八度存在多少个滤波器,此值通常取12的倍数。
(2)音符检测和噪音检测
采用常量Q变量对音频片段进行处理生成频谱图之后,与对应的标签一起输入到
第一模型,即音符检测模型进行训练(标签数据可以在网络上搜索,例如MAPs数据集,或者
自行打标获得),训练好后输入频谱图,音符检测模型包含两个输出:一是长度为t的置信度
向量,用来确定出现音符的时间点,根据需要设置相应阈值作为判断标准,置信度超过阈
值,则判断音符出现;二是一个二分类结果,用以判断当前音频是音乐还是噪音。音符检测
模型主体是卷积神经网络。
音符检测模型具体结构如图2所示,其两个输出中,输出一的最后一层是sigmoid函数,输出二的最后一层是softmax函数,而两个输出的目标函数都是交叉熵函数,其定义如下:
输入一段音频后如果输出二判断当前的音频是噪音,那么流程到此为止;如果判断当前音频为音乐,并且当前输入中检测到音符,那么流程继续往下走。
(3)音高识别
与上一个模块类似,将频谱和音高标签一起输入到第二模型进行训练,训练好后输入
频谱图,第二模型输出一个长度为(对应单乐器中可弹奏的音的数量)的置信度向量,用
于判断哪些音出现的可能性,预先根据需要设置阈值,超过阈值则判断出现对应音高的音。
该模型主体是卷积神经网络,最后一层为sigmoid函数,目标函数与上一个音符检测模型一
样都是交叉熵。
(4)曲谱匹配
将上述两个模型的结果组合之后就得到一个完整的曲谱,一次弹奏往往会存在一个或者几个音符,得到最新音频片段后首先与之前得到的音根据起始时间进行聚类,起始时间小于一定阈值,该值为自行设置,如0.05秒,的音乐音符会被合并为一类,获得音符聚类。
对每一个音符聚类取其所有音符起始时间的均值作为该聚类的整体起始时间,接
着根据起始时间为第一优先级,音高为第二优先级进行排列,即先按照音符聚类的起始时
间先后进行排序,当起始时间相同时则按照音高进行排序,得到排序后的音符序列用户弹奏音符下标记为其中为用户弹奏的音符数量,同时定义集
合,将曲谱上的标准音符按同样的规则进行排序,获得序列,将其
下标记为,定义集合。
执行两遍从左到右的扫描匹配算法,第一遍以音符聚类为单位,第二遍以音符聚
类中的每个音符为单位,根据音高和起始时间与曲谱上的标准音符进行匹配。正确音符的
集合记为,如果存在两个,那么对于任意一个,且,都可能属于多余或错误音符,这些错误音符组成了一个初步错误区域。
上述的扫描匹配算法具体如下:从一个音符聚类到音符聚类中的一个音符,使用
隐式马尔科夫模型进行匹配,由于真人弹奏除了可能存在弹奏错误,还可以存在时间上的
偏差,因此弹奏音符与标准曲谱的匹配映射需要符合下列的概率:
上述的匹配是最简单的一次匹配,只能判断出哪些音符是正确的。初步错误区域中还包括一类匹配错误,即该音符为正确音符,但在前期扫描匹配时将其归入了初步错误区域中,经过最简单的扫描匹配后,难免存在一些复杂的情况,使得匹配的结果是不当的,这时需要将其纠正过来。
首先将所有正确音符作为参考点,对每一个音符聚类取其所有音符起始时间的均
值作为该聚类的整体起始时间,如果与标准曲谱对比,在标准曲谱中中的两个
音符之间还具有其他音符,那么就采用插值或者外推的方法补充相应音符的起始时间。定
义多余、错误、缺失三种错误分别为:多余(extre)音符区域为,错误(pitch error)音符
区域为、 缺失(missing)音符区域为,三中错误合并为。其中匹配错误也存在于
中。
对于任意一个,且,错误区域就是,为了能
够重新校准匹配错误,其对应的参考点音符(即)必须包含在需处理的区域之内,在之外也扩充一个包含一些音符用以作为参考。在上述局部的区域内,可以与标准曲
谱进行进一步地匹配。
重校准方法可以使用Merged-Output隐式马尔科夫(HMM)模型来解决。已经匹配成
功的音符可以用来表示,其中表示音高,则表示时间,其中N表示一共
N个正确匹配的音符。而正确匹配的音符聚类的下标为,其中是正确匹配的
音符聚类的总数,其中与含义相同,取值不同。如果待校准的局部区域中存在个音符,
那么其中第n个音符可以为,且局部的音符弹奏速度为,。因此HMM中第n个隐藏状态可以表示为,Merged-Output HMM的迁移和输
出概率如下:
上述公式中,假设组合以及组合是符合统计独立性的。概率分布描述了弹奏
在曲谱中的表现得分,表示一个以为均值,为方差的A的正态分布;为弹奏
时速度的方差变化,表示音高错误概率,描述标准音和弹奏的音对应匹配概率。附加了噪音识别概率项,用以减少误检测噪音的干扰。起始时间输出概率形式反
映了不同聚类音符之间的起始时间间隔服从指数分布,和标准差和可通过测量
得到,这些测量需要考虑误检测噪音的影响。
上述方法是对《Performance Error Detection and Post-Processing for Fast andAccurate Symbolic Music Alignment》中算法进一步改进,该论文中的算法不适合实时匹配,同时其算法没有考虑到实际场景中的噪音环境所产生的干扰,本发明方法充分考虑了噪音影响,并在公式中添加了误检测噪音音符的项,且可实现匹配的实时化,能在实际场景中得到良好的效果。
经过算法匹配后基本可以得到想要的匹配结果,但是匹配时可以发现一些不符合音乐规则的现象,比如存在一些不应该存在的音、存在不符合曲谱曲调规则的音,这些音可能是没有完全识别出来的泛音,或者是一些没有完全区分开的环境音,我们可以用专家系统知识将其纠正过来。
以下将通过具体实验数据来对本发明方法的效果作进一步的描述。
实验情况如下:
本实验使用学术数据库MAPs,其中包含了上万首真人钢琴弹奏数据与标签,且数据集
中包含的数据类型非常全面,包括了各类高低音、不同高低音组成的和弦、长曲弹奏等等,
为模拟实际情况,在音频中混入一些轻微的噪音数据。实验分为两类,每类两组,第一类使
用原始数据,第二类使用混合噪音数据,每一类分为两组,传统的非负矩阵分
解以及本发明的基于卷积神经网络的音乐转录方法(简称CNN)。
模型训练时使用原始数据进行训练,实验中的测试数据不用于模型的训练。NMF使用2010年的《Adaptive harmonic spectral decomposition for multiple pitchestimation》的研究结果进行对比。
实验结果如下所示:
实验结果非常明显,基于深度学习方法要好于传统的非负矩阵分解,并且神经网络泛化能力也要比非负矩阵分解要强,使用带有噪声的数据其各项指标下降得更少。而使用实际噪音数据训练后,其效果下降幅度会更小。上述实验证明,基于深度学习方法的音乐转录方法要明显优于传统方法,并且更适用于实际领域的应用。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种基于深度学习的实时音乐转录与曲谱匹配方法,其特征在于,包括以下步骤:
S1:获取音频片段的音符时间标签数据及音高标签数据;
S2:处理音频片段中的音频数据及噪音数据,得到音频的频域数据和噪音的频域数据;
S3:将所述音符时间标签数据、音频的频域数据和噪音的频域数据输入第一卷积神经网络并训练得到第一模型;将所述音高标签数据和音频的频域数据输入第二卷积神经网络训练得到第二模型;
S4:将第一模型和第二模型的训练结果输入到隐式马尔科夫模型进行曲谱匹配,获得正确音符集合及初步错误区域;
S5:针对初步错误区域采用Merged-Output隐式马尔科夫模型进行重校准匹配,获得匹配结果。
2.根据权利要求1所述的基于深度学习的实时音乐转录与曲谱匹配方法,其特征在于,所述步骤S2中采用常量Q变换处理音频片段。
3.根据权利要求1所述的基于深度学习的实时音乐转录与曲谱匹配方法,其特征在于,所述第一模型用于识别音符的出现时间并判断当前音频为音乐还是噪声,所述第二模型用于识别出现音符的音高。
4.根据权利要求3所述的基于深度学习的实时音乐转录与曲谱匹配方法,其特征在于,所述第一模型采用卷积神经网络,以交叉熵函数为目标函数,共有两个输出,输出一的最后一层采用sigmoid函数,用于输出长度为t的置信度向量以确定出现音符的时间点,其中t为音频转换后频谱的宽度,当置信度超过预先设置的阈值,则判断为音符出现;输出二的最后一层采用softmax函数,用于输出二分类结果,以判断当前音频是音乐还是噪音。
5.根据权利要求3所述的基于深度学习的实时音乐转录与曲谱匹配方法,其特征在于,第二模型采用卷积神经网络,以交叉熵函数为目标函数,其最后一层采用sigmoid函数,用于输出长度为m的置信度向量,以判断哪些音出现的可能性,其中m为单乐器可弹奏的音的数量,当置信度超出预先设置的阈值,则判断为出现了该对应音高的音。
6.根据权利要求1所述的基于深度学习的实时音乐转录与曲谱匹配方法,其特征在于,还包括聚类操作,具体为:对于不断输入的新的音频片段,在经步骤S1~S3的处理后,先将其与已经过步骤S2~S3处理后得到的音频片段按照起始时间进行聚类,当音符的起始时间间隔小于预先设定的阈值,则音符被合并为一类,形成音符聚类。
7.根据权利要求6所述的基于深度学习的实时音乐转录与曲谱匹配方法,其特征在于,每一个音符聚类取其所有音符起始时间的均值作为该聚类的整体起始时间,并按照音符聚类的起始时间先后进行排序,当起始时间相同时则按照音高进行排序,得到排序后的音符序列,对标准曲谱的音符采用同样规则进行排序,获得标准序列;使用隐式马尔科夫模型将音符序列与标准序列进行曲谱匹配,获得正确音符集合及判定为初步错误的区域。
8.根据权利要求7所述的基于深度学习的实时音乐转录与曲谱匹配方法,其特征在于,所述重校准匹配的过程具体为:已经匹配成功的音符可以用来表示,其中表示音高,则表示时间,其中表示一共N个正确匹配的音符;正确匹配的音符聚类的下标为,其中是正确匹配的音乐符聚类的总数;如果初步错误区域中存在个音符,那么其中第n个音符为,局部的音符弹奏速度为;因此Merged-Output隐式马尔科夫模型中第n个隐藏状态可以表示为,Merged-Output隐式马尔科夫模型的迁移和输出概率如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010539625.0A CN111429940B (zh) | 2020-06-15 | 2020-06-15 | 一种基于深度学习的实时音乐转录与曲谱匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010539625.0A CN111429940B (zh) | 2020-06-15 | 2020-06-15 | 一种基于深度学习的实时音乐转录与曲谱匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429940A true CN111429940A (zh) | 2020-07-17 |
CN111429940B CN111429940B (zh) | 2020-10-09 |
Family
ID=71551353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010539625.0A Expired - Fee Related CN111429940B (zh) | 2020-06-15 | 2020-06-15 | 一种基于深度学习的实时音乐转录与曲谱匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429940B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898753A (zh) * | 2020-08-05 | 2020-11-06 | 字节跳动有限公司 | 音乐转录模型的训练方法、音乐转录方法以及对应的装置 |
CN111930867A (zh) * | 2020-08-09 | 2020-11-13 | 武汉中海庭数据技术有限公司 | 一种基于原始轨迹生成停止线的方法及系统 |
CN112036519A (zh) * | 2020-11-06 | 2020-12-04 | 中科创达软件股份有限公司 | 基于多位sigmoid的分类处理方法、装置及电子设备 |
CN112420071A (zh) * | 2020-11-09 | 2021-02-26 | 上海交通大学 | 一种基于恒q变换的复调电子琴音乐音符识方法 |
CN114417915A (zh) * | 2021-12-29 | 2022-04-29 | 星花怒放(苏州)科技有限公司 | 一种用于翻谱的二维序列相似度评估系统 |
US11749237B1 (en) * | 2022-12-02 | 2023-09-05 | Staffpad Limited | System and method for generation of musical notation from audio signal |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9832456B2 (en) * | 2014-12-22 | 2017-11-28 | Canon Kabushiki Kaisha | Multiscale depth estimation using depth from defocus |
CN109065008A (zh) * | 2018-05-28 | 2018-12-21 | 森兰信息科技(上海)有限公司 | 一种音乐演奏曲谱匹配方法、存储介质及智能乐器 |
CN109074820A (zh) * | 2016-05-10 | 2018-12-21 | 谷歌有限责任公司 | 使用神经网络进行音频处理 |
JP2020003536A (ja) * | 2018-06-25 | 2020-01-09 | カシオ計算機株式会社 | 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム |
US20200086496A1 (en) * | 2018-09-14 | 2020-03-19 | Lg Electronics Inc. | Emotion recognizer, robot including the same, and server including the same |
CN110992974A (zh) * | 2019-11-25 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
-
2020
- 2020-06-15 CN CN202010539625.0A patent/CN111429940B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9832456B2 (en) * | 2014-12-22 | 2017-11-28 | Canon Kabushiki Kaisha | Multiscale depth estimation using depth from defocus |
CN109074820A (zh) * | 2016-05-10 | 2018-12-21 | 谷歌有限责任公司 | 使用神经网络进行音频处理 |
CN109065008A (zh) * | 2018-05-28 | 2018-12-21 | 森兰信息科技(上海)有限公司 | 一种音乐演奏曲谱匹配方法、存储介质及智能乐器 |
JP2020003536A (ja) * | 2018-06-25 | 2020-01-09 | カシオ計算機株式会社 | 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム |
US20200086496A1 (en) * | 2018-09-14 | 2020-03-19 | Lg Electronics Inc. | Emotion recognizer, robot including the same, and server including the same |
CN110992974A (zh) * | 2019-11-25 | 2020-04-10 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
EITA NAKAMURA 等: "Performance Error Detection and Post-Processing for Fast and Accurate Symbolic Music Alignment", 《PROCEEDINGS OF THE 18TH ISMIR CONFERENCE》 * |
EITA NAKAMURA 等: "Rhythm Transcription of Polyphonic Piano Music Based on Merged-Output HMM for Multiple Voices", 《TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898753A (zh) * | 2020-08-05 | 2020-11-06 | 字节跳动有限公司 | 音乐转录模型的训练方法、音乐转录方法以及对应的装置 |
CN111930867A (zh) * | 2020-08-09 | 2020-11-13 | 武汉中海庭数据技术有限公司 | 一种基于原始轨迹生成停止线的方法及系统 |
CN111930867B (zh) * | 2020-08-09 | 2023-06-02 | 武汉中海庭数据技术有限公司 | 一种基于原始轨迹生成停止线的方法及系统 |
CN112036519A (zh) * | 2020-11-06 | 2020-12-04 | 中科创达软件股份有限公司 | 基于多位sigmoid的分类处理方法、装置及电子设备 |
CN112036519B (zh) * | 2020-11-06 | 2021-05-04 | 中科创达软件股份有限公司 | 基于多位sigmoid的分类处理方法、装置及电子设备 |
CN112420071A (zh) * | 2020-11-09 | 2021-02-26 | 上海交通大学 | 一种基于恒q变换的复调电子琴音乐音符识方法 |
CN112420071B (zh) * | 2020-11-09 | 2022-12-02 | 上海交通大学 | 一种基于恒q变换的复调电子琴音乐音符识方法 |
CN114417915A (zh) * | 2021-12-29 | 2022-04-29 | 星花怒放(苏州)科技有限公司 | 一种用于翻谱的二维序列相似度评估系统 |
US11749237B1 (en) * | 2022-12-02 | 2023-09-05 | Staffpad Limited | System and method for generation of musical notation from audio signal |
EP4379708A1 (en) * | 2022-12-02 | 2024-06-05 | Staffpad Limited | System and method for generation of musical notation from audio signal |
Also Published As
Publication number | Publication date |
---|---|
CN111429940B (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111429940B (zh) | 一种基于深度学习的实时音乐转录与曲谱匹配方法 | |
Benetos et al. | Automatic music transcription: An overview | |
Lee et al. | Acoustic chord transcription and key extraction from audio using key-dependent HMMs trained on synthesized audio | |
Wu et al. | Polyphonic music transcription with semantic segmentation | |
CN109979488B (zh) | 基于重音分析的人声转乐谱系统 | |
JP2023081946A (ja) | 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム | |
CN111613199B (zh) | 一种基于乐理与统计规则的midi序列生成装置 | |
Bittner et al. | Multitask learning for fundamental frequency estimation in music | |
Han et al. | Sparse feature learning for instrument identification: Effects of sampling and pooling methods | |
Abeßer | Automatic string detection for bass guitar and electric guitar | |
Shi et al. | Music genre classification based on chroma features and deep learning | |
Zalkow et al. | CTC-based learning of chroma features for score–audio music retrieval | |
JP2012506061A (ja) | デジタル音楽音響信号の分析方法 | |
Dittmar et al. | Real-time guitar string detection for music education software | |
Benetos et al. | Template adaptation for improving automatic music transcription | |
US20230186877A1 (en) | Musical piece structure analysis device and musical piece structure analysis method | |
Bahre et al. | Novel audio feature set for monophonie musical instrument classification | |
Tardieu et al. | An instrument timbre model for computer aided orchestration | |
CN116710998A (zh) | 信息处理系统、电子乐器、信息处理方法及程序 | |
Vatolkin et al. | Comparison of Audio Features for Recognition of Western and Ethnic Instruments in Polyphonic Mixtures. | |
Cheng | Exploiting Piano Acoustics in Automatic Transcription | |
CN111210841A (zh) | 一种乐器音位识别模型建立方法及乐器音位识别方法 | |
Benetos et al. | Multiple-F0 estimation and note tracking using a convolutive probabilistic model | |
Zhang et al. | Chord Recognition using Instrument Voicing Constraints. | |
Geib et al. | Automatic guitar string detection by string-inverse frequency estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201009 |