CN105304073A - 一种敲击弦乐器的音乐多音符估计方法及系统 - Google Patents
一种敲击弦乐器的音乐多音符估计方法及系统 Download PDFInfo
- Publication number
- CN105304073A CN105304073A CN201410325609.6A CN201410325609A CN105304073A CN 105304073 A CN105304073 A CN 105304073A CN 201410325609 A CN201410325609 A CN 201410325609A CN 105304073 A CN105304073 A CN 105304073A
- Authority
- CN
- China
- Prior art keywords
- energy spectrum
- multitone
- spectrum envelope
- matrix
- fragment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000009527 percussion Methods 0.000 title abstract 3
- 238000001228 spectrum Methods 0.000 claims abstract description 147
- 239000011159 matrix material Substances 0.000 claims abstract description 116
- 239000012634 fragment Substances 0.000 claims description 72
- 238000004458 analytical method Methods 0.000 claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 7
- UBKQRASXZMLQRJ-UHFFFAOYSA-N 2-phenylsulfanylethanamine Chemical compound NCCSC1=CC=CC=C1 UBKQRASXZMLQRJ-UHFFFAOYSA-N 0.000 claims description 5
- 238000001637 plasma atomic emission spectroscopy Methods 0.000 claims description 5
- 229920000110 poly(aryl ether sulfone) Polymers 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000010276 construction Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 229940035637 spectrum-4 Drugs 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Landscapes
- Auxiliary Devices For Music (AREA)
Abstract
本发明涉及一种基于非负矩阵分解的敲击弦乐器的音乐多音符估计方法,该方法利用敲击弦乐器的单音音频数据构建音符能量谱包络基矩阵,通过对多音能量谱包络的非负矩阵分解,求得各音符在多音片段中的能量权重系数,最后对音符权重大小进行阈值限定求得多音片段中的多音符分布。与传统方法比较,基于非负矩阵分解的音乐多音符估计方法只利用了音符起始点处的能量谱包络信息,同时结合了能量谱包络的线性叠加性来分解能量谱,符合局部构建整体的音符叠加机理,多音符估计性能得到明显提升,同时系统速度也有一定提升,具有很高的实用性。
Description
技术领域
本发明涉及钢琴音乐的多音符估计方法,更具体地说,本发明涉及基于非负矩阵分解的钢琴音乐多音符估计方法。
背景技术
随着计算机技术的快速发展,自动音乐记谱技术成为音乐信号处理领域的研究热点之一。其中,钢琴音乐等敲击弦的乐器的自动记谱技术研究是最为关键的一个分支。作为典型的多音乐器,钢琴音乐等敲击弦的乐器的自动记谱技术的难点和重点都在于同一时刻的多音符估计。
针对如何解决同一时刻的多音符估计问题,现有的技术手段包含:模式识别的方法,特征分析的方法和矩阵分解的方法。但是这些技术手段各自的缺陷为:其中,模式识别的方法由于未能考虑到多音符频谱重叠的问题,容易导致音符的漏检;特征分析的方法通常采用固定的筛选规则,不能自适应的对待测文件进行处理;矩阵分解的方法通常未利用单音符的能量信息,同时当待测多音片段较大时,系统的处理压力也较大。
发明内容
本发明的目的在于,为了克服上述问题,本发明提供一种敲击弦乐器的音乐多音符估计方法及系统,该方法利用钢琴单音片段构建能量谱包络基矩阵,通过非负矩阵分解来提高钢琴多音符估计的性能。
为了实现上述目的,本发明提供一种敲击弦乐器的音乐多音符估计方法,所述方法包含:
步骤101)利用单音片段构建单音符的能量谱包络基矩阵;
步骤102)根据得到的单音片段的能量谱包络基矩阵,将基于待识别的多音片段得到的归一化的平均能量谱包络通过非负矩阵分解算法进行音符结果估计,即判断待识别的多音片段中存在的单音符情况。
可选的,上述步骤101)进一步包含:
步骤101-1)通过RTFI时频分析方法,采用如下公式求得单音片段的平均能量谱包络:
其中,i表示帧索引,m表示频率分析点索引,AESk(i,m)表示第k个单音片段的平均能量谱在第i帧第m个频率分析点处的大小,Ncfm表示用于计算能量谱包络的总帧数,AEEk(m)表示第k个单音片段的平均能量谱包络在第m个频率分析点处的大小;
步骤101-2)对单音片段的平均能量谱包络进行能量归一化和排序处理进而得到构建的单音能量谱包络基矩阵,所述归一化处理公式为如下的公式(2),所述排序公式为如下的公式(3):
AEEB={AEE1,AEE2,...,AEEn}(3)
其中,n是音符个数,min(AEEk)代表第k个音符片段的平均能量谱包络中的最小值,max(AEEk)表示第k个音符片段的平均能量谱包络中的最大值,AEEB为单音谱包络基矩阵,音高从低到高顺序为:AEE1<AEE2,...,<AEEn。
可选的,上述步骤102)进一步包含:
步骤102-1)通过RTFI时频分析方法,采用如下公式(4)求得待识别的多音片段的平均能量谱包络,并对得到的多音片段的平均能量谱包络采用如下公式(5)进行能量归一化处理,得到归一化的多音片段的平均能量谱;
其中,i表示帧索引,m表示频率分析点索引,PAES(i,m)表示多音片段的平均能量谱在第i帧第m个频率分析点处的大小,Ncfm表示用于计算能量谱包络的总帧数,PAEE(m)表示多音片段的平均能量谱包络在第m个频率分析点处的大小;
步骤102-2)基于归一化的多音片段的平均能量谱和单音能量谱包络基矩阵,采用如下公式求解得到每个音符在多音片段中的鉴别性权重:
PAEE=AEEB×W(6)
其中,W为各单音符在多音片段中权重大小的序列,即W为单音符权重系数序列;
步骤102-3)对得到的单音符的权重系数序列W进行阈值限定;
当一个单音符的权重大小超过设定的阈值时,则判定在多音片段中存在该单音符。
进一步可选的,当敲击弦乐器为钢琴时,上述方法具体为:
步骤201)采集钢琴包含的88个音符的单音音频数据,并采用步骤101-1)的计算公式分别求得各音符的平均能量谱包络;
步骤202)根据步骤101-2)的公式对单音平均能量谱包络进行能量归一化后按照音高顺序构建单音谱包络基矩阵;
步骤203)根据步骤102-1)的公式求得多音平均能量谱包络,并进行能量归一化;
步骤204)基于非负矩阵分解的迭代算法将步骤203)得到的多音平均能量谱包络分解为单音谱包络基矩阵与一个单音权重系数序列的乘积;
步骤205)设定一个阈值,并将步骤204)得到的单音符权重系数序列中的各元素与设定的阈值进行大小判断,当一个单音符的权重大小大于设定的阈值时则判定多音片段中存在该音符,否则多音片段中不存在该音符。
可选的,步骤204)所采用的非负矩阵分解的迭代算法具体包含如下步骤:
204-1)采用单位矩阵初始化权重系数序列W;
204-2)根据平均能量谱包络基矩阵AEEB和权重系数序列W重构第一矩阵
204-3)计算多音能量谱包络PAEE同第一矩阵的距离,得到第一距离具体计算公式为:
其中,i表示频率分析点,M为频率分析点总数,Dist{,}表示多音能量谱包络PAEE同第一矩阵的距离;
204-4)启动迭代步骤,进而将得到的多音平均能量谱包络分解为单音谱包络基矩阵与一个单音权重系数序列的乘积;该步骤具体包含:
将迭代次数变量iter赋初值1,同时设定一个整数Mc且Mc为大于1的整数并设定迭代次数上限为Z;
步骤204-4-1)判定iter当前的值是否小于等于设定的上限次数Z,如果当前iter的值小于等于上限次数Z则进入步骤204-4-2),否则迭代停止;
步骤204-4-2)采用如下公式(8)更新权重系数序列:
其中,等号左边的权重系数序列为更新后的,等号右边的权重系数序列为更新前的;
步骤204-4-2-1)计算当前iter的值与Mc的商,如果能够整除,则采用如下公式(9)更新第二矩阵否则进入步骤204-4-2-7):
步骤204-4-2-2)根据公式(10)计算第一矩阵和第二矩阵的矩阵偏差和并将矩阵偏差和作为第一判决值:
步骤204-4-2-3)更新第一矩阵即将当前第二矩阵的值赋予第一矩阵
步骤204-4-2-4)计算多音能量谱包络PAEE同当前第二矩阵的矩阵距离将作为第二距离,计算公式如公式(11)所示:
步骤204-4-2-5))计算多音能量谱包络PAEE同第二矩阵的矩阵偏差比率并将矩阵偏差比率作为第二判决值,计算公式如公式(12)所示:
步骤204-4-2-6)计算第二距离与第一距离的差值,并计算该差值与整数Mc的商,将商作为第三判决值;
步骤204-4-2-7)基于第一判决值,第二判决值和第三判决值分别进行如下判决,当满足以下三个判决条件中的任意一个判决条件时,则迭代停止,否则执行步骤204-4-2-8):
其中,Rthres,Dthres和Ethres分别为设定的控制迭代停止的阈值;
步骤204-4-2-8)将第二距离的值赋予第一距离;
采用如下公式(13)更新迭代次数iter的值,然后返回步骤204-4-1),直至迭代结束;
iter=iter+1(13)
基于上述方法,本发明提供了一种基于非负矩阵分解的敲击弦乐器的多音符估计系统,所述系统包含:
能量谱包络基矩阵获取模块,用于根据RTFI时频分析方法,并采用单音片段构建能量谱包络基矩阵;
分析估计模块,用于根据得到的能量谱包络基矩阵,通过非负矩阵分解算法进行多音符估计。
可选的,上述能量谱包络基矩阵获取模块进一步包含:
单音的平均能量谱包络获取子模块,用于通过RTFI时频分析方法求得单音的平均能量谱包络;
单音能量谱包络基矩阵获取子模块,用于对单音平均能量谱包络进行能量归一化后按照音高顺序构建单音谱包络基矩阵。
可选的,上述分析估计模块进一步包含:
多音能量谱包络获取子模块,用于求解包含各个单音的多音片段的平均能量谱,进而求得多音平均能量谱包络;
多音符估计子模块,用于通过对多音能量谱包络进行非负矩阵分解求得每个音符在多音片段中的鉴别性权重大小,通过对音符的权重大小进行阈值限定,进而估计出多音片段中包含的各个单音符的情况。
与现有技术相比,本发明的优点在于:
通过单音音符的权重来估计各单音符在多音片段中的存在性;提出一种新型的基于非负矩阵分解的敲击弦乐器的多音符估计方法;在仅依靠钢琴单音片段的前提下,提高系统多音符估计的性能。总之与传统方法比较,基于非负矩阵分解的音乐多音符估计方法只利用了音符起始点处的能量谱包络信息,同时结合了能量谱包络的线性叠加性来分解能量谱,符合局部构建整体的音符叠加机理,多音符估计性能得到明显提升,同时系统速度也有一定提升,具有很高的实用性。
附图说明
图1是基于非负矩阵分解的钢琴音乐多音符估计算法的具体实施流程框图;
图2是本发明提供的迭代算法的流程图。
附图标记:
1单音片段2时频分析
3平均能量谱4频谱包络
5包络归一化6谱包络基矩阵
7多音片段8时频分析
9平均能量谱10频谱包络
11包络归一化12非负矩阵分解
13音符权重系数14权重阈值限定
15音符估计结果
具体实施方式
下面结合图1对本发明的具体实施方式做进一步详细描述:
本发明涉及的敲击弦乐器的音乐多音符估计方法的核心技术在于能量谱包络的获取以及利用非负矩阵分解规则进行能量谱包络分解。能量谱包络的获取通过利用RTFI时频分析方法获得音符起点后若干帧的平均能量谱,然后进行时间平均得到对应片段的平均能量谱包络。本发明的技术方案能够用于解决敲击弦的乐器的多音符识别问题。
实施例
本发明实施例利用非负矩阵分解将钢琴多音片段的平均能量谱包络分解成单音音符谱包络及其各自权重系数的乘积和的形式,根据各音符的权重在多音片段中的大小判断各个单音符是否存在。
本发明的具体计算流程如下:
第一步,采集钢琴88个单音音符的数据,通过RTFI时频分析、分帧平均求得单音片段的平均能量谱AES,之后将各音符起始点后的若干帧(这里选用15帧)平均能量谱进行平均,求得88个单音的平均能量谱包络AEE,如公式(1)所示。
其中,AESk为第k个音符片段的平均能量谱,AEEk为该音符对应的平均能量谱包络,Ncfm为用于计算平均能量谱包络的帧数,m为频率分析点索引。
总之,本发明中被用于对钢琴音频进行时频分析,求得对应的平均能量谱,进而得到单音片段和多音片段的平均能量谱包络。实现步骤1所基于的文献为“(R.Zhou,M.Mattavelli,etal.,“Featureextractionofmusicalcontentforautomaticmusictranscription,”EcolePolytechniqueFédéraledeLausanne,Swiss,October,2006)”,在该文献中提出了一种分辨率可变的时频分析方法即回声器时频分析(ResonatorTime-FrequencyImage,RTFI),该方法能够有效地对音乐音频进行时频分析,得到频率随时间变化的平均能量谱。
第二步,对单音平均能量谱包络AEE进行能量归一化后按照音高顺序构建单音谱包络基矩阵AEEB,如公式(2)(3)所示;
AEEB={AEE1,AEE2,...,AEEn}(3)
这里n为音符个数。
第三步,对需要进行音符估计的多音片段采用同第一步相同的处理过程,求得多音平均能量谱包络PAEE,并进行能量归一化,计算过程分别如公式(4)(5)所示:
第四步,利用非负矩阵分解的迭代规则将第三步中得到的多音平均能量谱包络PAEE分解成第二步得到的单音谱包络基矩阵AEEB与一个单音权重系数序列W的乘积,如公式(6)所示:
PAEE=AEEB×W(6)
其中,所采用的非负矩阵分解的迭代算法具体包含如下步骤,如图2所示:
1)将权重系数序列W初始化为
2)利用平均能量谱包络基矩阵AEEB和W重构得到第一矩阵
3)计算多音能量谱包络PAEE同第一矩阵的第一矩阵距离计算公式如(7)所示。
其中,M为频率分析点数,得到的为第一距离矩阵。
4)将迭代次数iter的取值范围设定为:1变化至Z,且在每次迭代过程中重复如下过程:
按照公式(8)更新权重系数序列W:
当迭代次数iter能被Mc整除时(其中Mc为定义的整数,采用该参数可以减少迭代次数),进行如下操作:
a)按照公式(9)计算重构的第二矩阵
b)根据公式(10)计算矩阵偏差和将第二距离偏差和作为第
一判决值:
c)将第二矩阵的值赋予第一矩阵
d)计算多音能量谱包络PAEE同第二矩阵的第二距离
计算公式如公式(11)所示:
e)计算多音能量谱包络PAEE同第二矩阵的矩阵偏差比率将矩阵偏差比率作为第二判决值,计算公式如公式(12)所示:
f)当满足时,迭代停止,否则进入步骤g);
其中,Rthres,Dthres和Ethres分别为控制迭代停止的阈值,其中,为第三判决值。
g)将第二距离的值赋予第一距离
总之,上述步骤四基于一种非负矩阵分解(NonnegativeMatrixFactorization,NMF)算法,用于将非负的原始矩阵分解成两个较小秩矩阵的乘积。在本发明中,首先通过对钢琴88个单音片段分别处理得到各自的平均能量谱包络,通过顺序拼接得到钢琴单音符的平均能量谱包络基矩阵,之后在将多音片段的平均能量谱包络分解成单音平均能量谱包络基矩阵同单音符能量权重系数序列的乘积时,只更新能量权重系数序列。
第五步,对第四步得到的单音权重系数序列W进行阈值限定,权重超过阈值的音符即为音符估计结果;
总之,本发明实施例首先录制钢琴88个音符的单音片段,分别通过RTFI时频分析得到各自的平均能量谱,之后对平均能量谱沿着时间轴进行平均得到88个音符片段的平均能量谱包络,按照音高顺序拼接成钢琴音符的平均能量谱包络基矩阵;之后对于待测的多音片段采用类似的处理过程得到多音片段的平均能量谱包络;之后在将多音片段的平均能量谱包络分解成单音平均能量谱包络基矩阵同单音能量权重系数序列的乘积时,采用非负矩阵分解的迭代规则只更新能量权重系数序列的大小。最后将能量权重系数序列与设定好的阈值进行大小比较,权重系数比阈值大的音符为多音片段中存在的音符。
本发明的系统实现了更具鉴别性的钢琴多音符估计算法,提高了音符估计性能。相比传统的钢琴多音符估计方法,基于非负矩阵分解的钢琴多音符估计方法仅需要钢琴的单音数据,具有更显著的物理意义。通过能量谱包络的非负矩阵分解,求得各个音符在多音片段中的权重大小,最后通过简单的阈值限定得到最终的音符估计结果。我们在国际通用钢琴数据集上进行了大量测试,结果显示在音符估计性能方面,由于该方法使用对应钢琴的单音能量谱包络构建基矩阵,更能反映钢琴多音能量谱包络是由单音能量谱包络线性叠加的实质。与未使用该方法的钢琴多音符估计算法相比,基于能量谱包络非负矩阵分解的钢琴音乐多音符估计的性能有相对25%-32%的提升。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种敲击弦乐器的音乐多音符估计方法,所述方法包含:
步骤101)利用单音片段构建单音符的能量谱包络基矩阵;
步骤102)根据得到的单音片段的能量谱包络基矩阵,将基于待识别的多音片段得到的归一化的平均能量谱包络通过非负矩阵分解算法进行音符结果估计,即判断待识别的多音片段中存在的单音符情况。
2.根据权利要求1所述的敲击弦乐器的音乐多音符估计方法,其特征在于,所述步骤101)进一步包含:
步骤101-1)通过RTFI时频分析方法,采用如下公式求得单音片段的平均能量谱包络:
其中,i表示帧索引,m表示频率分析点索引,AESk(i,m)表示第k个单音片段的平均能量谱在第i帧第m个频率分析点处的大小,Ncfm表示用于计算能量谱包络的总帧数,AEEk(m)表示第k个单音片段的平均能量谱包络在第m个频率分析点处的大小;
步骤101-2)对单音片段的平均能量谱包络进行能量归一化和排序处理进而得到构建的单音能量谱包络基矩阵,所述归一化处理公式为如下的公式(2),所述排序公式为如下的公式(3):
AEEB={AEE1,AEE2,...,AEEn}(3)
其中,n是音符个数,min(AEEk)代表第k个音符片段的平均能量谱包络中的最小值,max(AEEk)表示第k个音符片段的平均能量谱包络中的最大值,AEEB为单音谱包络基矩阵,音高从低到高顺序为:AEE1<AEE2,...,<AEEn。
3.根据权利要求2所述的敲击弦乐器的音乐多音符估计方法,其特征在于,所述步骤102)进一步包含:
步骤102-1)通过RTFI时频分析方法,采用如下公式(4)求得待识别的多音片段的平均能量谱包络,并对得到的多音片段的平均能量谱包络采用如下公式(5)进行能量归一化处理,得到归一化的多音片段的平均能量谱;
其中,i表示帧索引,m表示频率分析点索引,PAES(i,m)表示多音片段的平均能量谱在第i帧第m个频率分析点处的大小,Ncfm表示用于计算能量谱包络的总帧数,PAEE(m)表示多音片段的平均能量谱包络在第m个频率分析点处的大小;
步骤102-2)基于归一化的多音片段的平均能量谱和单音能量谱包络基矩阵,采用如下公式求解得到每个音符在多音片段中的鉴别性权重:
PAEE=AEEB×W(6)
其中,W为各单音符在多音片段中权重大小的序列,即W为单音符权重系数序列;
步骤102-3)对得到的单音符的权重系数序列W进行阈值限定;
当一个单音符的权重大小超过设定的阈值时,则判定在多音片段中存在该单音符。
4.根据权利要求2和3所述的敲击弦乐器的音乐多音符估计方法,其特征在于,当乐器为钢琴时,上述方法具体为:
步骤201)采集钢琴包含的88个音符的单音音频数据,并采用步骤101-1)的计算公式分别求得各音符的平均能量谱包络;
步骤202)根据步骤101-2)的公式对单音平均能量谱包络进行能量归一化后按照音高顺序构建单音谱包络基矩阵;
步骤203)根据步骤102-1)的公式求得多音平均能量谱包络,并进行能量归一化;
步骤204)基于非负矩阵分解的迭代算法将步骤203)得到的多音平均能量谱包络分解为单音谱包络基矩阵与一个单音权重系数序列的乘积;
步骤205)设定一个阈值,并将步骤204)得到的单音符权重系数序列中的各元素与设定的阈值进行大小判断,当一个单音符的权重大小大于设定的阈值时则判定多音片段中存在该音符,否则多音片段中不存在该音符。
5.根据权利要求4所述的敲击弦乐器的音乐多音符估计方法,其特征在于,步骤204)所采用的非负矩阵分解的迭代算法具体包含如下步骤:
204-1)采用单位矩阵初始化权重系数序列W;
204-2)根据平均能量谱包络基矩阵AEEB和权重系数序列W重构第一矩阵
204-3)计算多音能量谱包络PAEE同第一矩阵的距离,得到第一距离具体计算公式为:
其中,i表示频率分析点,M为频率分析点总数,Dist{,}表示多音能量谱包络PAEE同第一矩阵的距离;
204-4)启动迭代步骤,进而将得到的多音平均能量谱包络分解为单音谱包络基矩阵与一个单音权重系数序列的乘积;该步骤具体包含:
将迭代次数变量iter赋初值1,同时设定一个整数Mc且Mc为大于1的整数并设定迭代次数上限为Z;
步骤204-4-1)判定iter当前的值是否小于等于设定的上限次数Z,如果当前iter的值小于等于上限次数Z则进入步骤204-4-2),否则迭代停止;
步骤204-4-2)采用如下公式(8)更新权重系数序列:
其中,等号左边的权重系数序列为更新后的,等号右边的权重系数序列为更新前的;
步骤204-4-2-1)计算当前iter的值与Mc的商,如果能够整除,则采用如下公式(9)更新第二矩阵否则进入步骤204-4-2-7):
步骤204-4-2-2)根据公式(10)计算第一矩阵和第二矩阵的矩阵偏差和并将矩阵偏差和作为第一判决值:
步骤204-4-2-3)更新第一矩阵即将当前第二矩阵的值赋予第一矩阵
步骤204-4-2-4)计算多音能量谱包络PAEE同当前第二矩阵的矩阵距离将作为第二距离,计算公式如公式(11)所示:
步骤204-4-2-5))计算多音能量谱包络PAEE同第二矩阵的矩阵偏差比率并将矩阵偏差比率作为第二判决值,计算公式如公式(12)所示:
步骤204-4-2-6)计算第二距离与第一距离的差值,并计算该差值与整数Mc的商,将商作为第三判决值;
步骤204-4-2-7)基于第一判决值,第二判决值和第三判决值分别进行如下判决,当满足以下三个判决条件中的任意一个判决条件时,则迭代停止,否则执行步骤204-4-2-8):
其中,Rthres,Dthres和Ethres分别为设定的控制迭代停止的阈值;
步骤204-4-2-8)将第二距离的值赋予第一距离;
采用如下公式(13)更新迭代次数iter的值,然后返回步骤204-4-1),直至迭代结束;
iter=iter+1(13)。
6.一种敲击弦乐器的音乐多音符估计系统,其特征在于,所述系统包含:
能量谱包络基矩阵获取模块,用于根据RTFI时频分析方法,并采用单音片段构建能量谱包络基矩阵;
分析估计模块,用于根据得到的能量谱包络基矩阵,通过非负矩阵分解算法进行多音符估计。
7.根据权利要求6所述的敲击弦乐器的音乐多音符估计系统,其特征在于,所述能量谱包络基矩阵获取模块进一步包含:
单音的平均能量谱包络获取子模块,用于通过RTFI时频分析方法求得单音的平均能量谱包络;
单音能量谱包络基矩阵获取子模块,用于对单音平均能量谱包络进行能量归一化后按照音高顺序构建单音谱包络基矩阵。
8.根据权利要求6所述的敲击弦乐器的音乐多音符估计系统,其特征在于,所述分析估计模块进一步包含:
多音能量谱包络获取子模块,用于求解包含各个单音的多音片段的平均能量谱,进而求得多音平均能量谱包络;
多音符估计子模块,用于通过对多音能量谱包络进行非负矩阵分解求得每个音符在多音片段中的鉴别性权重大小,通过对音符的权重大小进行阈值限定,进而估计出多音片段中包含的各个单音符的情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410325609.6A CN105304073B (zh) | 2014-07-09 | 2014-07-09 | 一种敲击弦乐器的音乐多音符估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410325609.6A CN105304073B (zh) | 2014-07-09 | 2014-07-09 | 一种敲击弦乐器的音乐多音符估计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105304073A true CN105304073A (zh) | 2016-02-03 |
CN105304073B CN105304073B (zh) | 2019-03-12 |
Family
ID=55201246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410325609.6A Expired - Fee Related CN105304073B (zh) | 2014-07-09 | 2014-07-09 | 一种敲击弦乐器的音乐多音符估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105304073B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106340286A (zh) * | 2016-09-27 | 2017-01-18 | 华中科技大学 | 一种通用的实时乐器演奏评价系统 |
CN107146631A (zh) * | 2016-02-29 | 2017-09-08 | 北京搜狗科技发展有限公司 | 音乐识别方法、音符识别模型建立方法、装置及电子设备 |
CN110070884A (zh) * | 2019-02-28 | 2019-07-30 | 北京字节跳动网络技术有限公司 | 音频起始点检测方法和装置 |
CN112259063A (zh) * | 2020-09-08 | 2021-01-22 | 华南理工大学 | 一种基于音符瞬态字典和稳态字典的多音高估计方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050021333A1 (en) * | 2003-07-23 | 2005-01-27 | Paris Smaragdis | Method and system for detecting and temporally relating components in non-stationary signals |
CN1703734A (zh) * | 2002-10-11 | 2005-11-30 | 松下电器产业株式会社 | 从声音确定音符的方法和装置 |
CN103377647A (zh) * | 2012-04-24 | 2013-10-30 | 中国科学院声学研究所 | 一种基于音视频信息的自动音乐记谱方法及系统 |
CN103594075A (zh) * | 2012-08-14 | 2014-02-19 | 雅马哈株式会社 | 音乐信息显示控制方法和音乐信息显示控制设备 |
-
2014
- 2014-07-09 CN CN201410325609.6A patent/CN105304073B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1703734A (zh) * | 2002-10-11 | 2005-11-30 | 松下电器产业株式会社 | 从声音确定音符的方法和装置 |
US20050021333A1 (en) * | 2003-07-23 | 2005-01-27 | Paris Smaragdis | Method and system for detecting and temporally relating components in non-stationary signals |
CN103377647A (zh) * | 2012-04-24 | 2013-10-30 | 中国科学院声学研究所 | 一种基于音视频信息的自动音乐记谱方法及系统 |
CN103594075A (zh) * | 2012-08-14 | 2014-02-19 | 雅马哈株式会社 | 音乐信息显示控制方法和音乐信息显示控制设备 |
Non-Patent Citations (3)
Title |
---|
BERNHARD NIEDERMAYER ETC: "Non-negative Matrix Division for The Automatic Transcription of Polyphonic Music", 《ISMIR 2008-SESSION 4C-AUTOMATIC MUSIC ANALYSIS AND TRANSCRIPTION》 * |
KEN O"HANLON ETC: "Polyphonic Piano Transcription Using Non-negative Matrix Factorisation with Group Sparsity", 《2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
PARIS SMARAGDIS ETC: "Non-negative Matrix Factorization for Polyphonic Music Transcription", 《2003 IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS (IEEE CAT. NO.03TH8684)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146631A (zh) * | 2016-02-29 | 2017-09-08 | 北京搜狗科技发展有限公司 | 音乐识别方法、音符识别模型建立方法、装置及电子设备 |
CN107146631B (zh) * | 2016-02-29 | 2020-11-10 | 北京搜狗科技发展有限公司 | 音乐识别方法、音符识别模型建立方法、装置及电子设备 |
CN106340286A (zh) * | 2016-09-27 | 2017-01-18 | 华中科技大学 | 一种通用的实时乐器演奏评价系统 |
CN106340286B (zh) * | 2016-09-27 | 2020-05-19 | 华中科技大学 | 一种通用的实时乐器演奏评价系统 |
CN110070884A (zh) * | 2019-02-28 | 2019-07-30 | 北京字节跳动网络技术有限公司 | 音频起始点检测方法和装置 |
CN110070884B (zh) * | 2019-02-28 | 2022-03-15 | 北京字节跳动网络技术有限公司 | 音频起始点检测方法和装置 |
CN112259063A (zh) * | 2020-09-08 | 2021-01-22 | 华南理工大学 | 一种基于音符瞬态字典和稳态字典的多音高估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105304073B (zh) | 2019-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lostanlen et al. | Deep convolutional networks on the pitch spiral for musical instrument recognition | |
Yılmaz et al. | Generalised coupled tensor factorisation | |
WO2020173133A1 (zh) | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 | |
Ni et al. | An end-to-end machine learning system for harmonic analysis of music | |
CN101178896B (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
CN105304073A (zh) | 一种敲击弦乐器的音乐多音符估计方法及系统 | |
CN107705802A (zh) | 语音转换方法、装置、电子设备及可读存储介质 | |
CN109829162A (zh) | 一种文本分词方法及装置 | |
CN107507619A (zh) | 语音转换方法、装置、电子设备及可读存储介质 | |
CN105810191B (zh) | 融合韵律信息的汉语方言辨识方法 | |
CN104134444B (zh) | 一种基于mmse的歌曲去伴奏方法和装置 | |
CN102831895A (zh) | 一种用现场可编程门阵列实现mfcc参数提取的方法 | |
CN110349597A (zh) | 一种语音检测方法及装置 | |
CN112417028A (zh) | 一种风速时序特征挖掘方法及短期风电功率预测方法 | |
US20210241734A1 (en) | Systems, devices, and methods for computer-generated musical note sequences | |
CN111681631A (zh) | 搭配和声的方法、装置、电子设备及计算机可读介质 | |
CN102184335B (zh) | 一种基于集合经验模式分解和相空间重构的火灾时间序列预测方法 | |
CN106571146A (zh) | 噪音信号确定方法、语音去噪方法及装置 | |
CN104077765B (zh) | 图像分割装置、图像分割方法 | |
Şimşekli et al. | Score guided audio restoration via generalised coupled tensor factorisation | |
CN111583957A (zh) | 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法 | |
Zhang et al. | Complex ratio masking for singing voice separation | |
CN107039042A (zh) | 一种基于低一致性词典和稀疏表示的音频修复方法和系统 | |
Zhu et al. | Concept transfer learning for adaptive language understanding | |
Tjoa et al. | Multiplicative update rules for nonnegative matrix factorization with co-occurrence constraints |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190312 |