CN105304073A

CN105304073A - 一种敲击弦乐器的音乐多音符估计方法及系统

Info

Publication number: CN105304073A
Application number: CN201410325609.6A
Authority: CN
Inventors: 周若华; 万玉龙; 颜永红; 王宪亮
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2014-07-09
Filing date: 2014-07-09
Publication date: 2016-02-03
Anticipated expiration: 2034-07-09
Also published as: CN105304073B

Abstract

本发明涉及一种基于非负矩阵分解的敲击弦乐器的音乐多音符估计方法，该方法利用敲击弦乐器的单音音频数据构建音符能量谱包络基矩阵，通过对多音能量谱包络的非负矩阵分解，求得各音符在多音片段中的能量权重系数，最后对音符权重大小进行阈值限定求得多音片段中的多音符分布。与传统方法比较，基于非负矩阵分解的音乐多音符估计方法只利用了音符起始点处的能量谱包络信息，同时结合了能量谱包络的线性叠加性来分解能量谱，符合局部构建整体的音符叠加机理，多音符估计性能得到明显提升，同时系统速度也有一定提升，具有很高的实用性。

Description

一种敲击弦乐器的音乐多音符估计方法及系统

技术领域

本发明涉及钢琴音乐的多音符估计方法，更具体地说，本发明涉及基于非负矩阵分解的钢琴音乐多音符估计方法。

背景技术

随着计算机技术的快速发展，自动音乐记谱技术成为音乐信号处理领域的研究热点之一。其中，钢琴音乐等敲击弦的乐器的自动记谱技术研究是最为关键的一个分支。作为典型的多音乐器，钢琴音乐等敲击弦的乐器的自动记谱技术的难点和重点都在于同一时刻的多音符估计。

针对如何解决同一时刻的多音符估计问题，现有的技术手段包含：模式识别的方法，特征分析的方法和矩阵分解的方法。但是这些技术手段各自的缺陷为：其中，模式识别的方法由于未能考虑到多音符频谱重叠的问题，容易导致音符的漏检；特征分析的方法通常采用固定的筛选规则，不能自适应的对待测文件进行处理；矩阵分解的方法通常未利用单音符的能量信息，同时当待测多音片段较大时，系统的处理压力也较大。

发明内容

本发明的目的在于，为了克服上述问题，本发明提供一种敲击弦乐器的音乐多音符估计方法及系统，该方法利用钢琴单音片段构建能量谱包络基矩阵，通过非负矩阵分解来提高钢琴多音符估计的性能。

为了实现上述目的，本发明提供一种敲击弦乐器的音乐多音符估计方法，所述方法包含：

步骤101)利用单音片段构建单音符的能量谱包络基矩阵；

步骤102)根据得到的单音片段的能量谱包络基矩阵，将基于待识别的多音片段得到的归一化的平均能量谱包络通过非负矩阵分解算法进行音符结果估计，即判断待识别的多音片段中存在的单音符情况。

可选的，上述步骤101)进一步包含：

步骤101-1)通过RTFI时频分析方法，采用如下公式求得单音片段的平均能量谱包络：

{AEE}_{k} (m) = \frac{1}{N_{cfm}} Σ_{i = 1}^{N_{cfm}} {AES}_{k} (i, m) - - - (1)

其中，i表示帧索引，m表示频率分析点索引，AES_k(i,m)表示第k个单音片段的平均能量谱在第i帧第m个频率分析点处的大小，N_cfm表示用于计算能量谱包络的总帧数，AEE_k(m)表示第k个单音片段的平均能量谱包络在第m个频率分析点处的大小；

步骤101-2)对单音片段的平均能量谱包络进行能量归一化和排序处理进而得到构建的单音能量谱包络基矩阵，所述归一化处理公式为如下的公式(2)，所述排序公式为如下的公式(3)：

{AEE}_{k} (m) = \frac{{AEE}_{k} (m) - \min ({AEE}_{k})}{\max ({AEE}_{k}) - \min ({AEE}_{k})} - - - (2)

AEEB＝{AEE₁,AEE₂,...,AEE_n}(3)

其中，n是音符个数，min(AEE_k)代表第k个音符片段的平均能量谱包络中的最小值，max(AEE_k)表示第k个音符片段的平均能量谱包络中的最大值，AEEB为单音谱包络基矩阵，音高从低到高顺序为：AEE₁＜AEE₂,...,＜AEE_n。

可选的，上述步骤102)进一步包含：

步骤102-1)通过RTFI时频分析方法，采用如下公式(4)求得待识别的多音片段的平均能量谱包络，并对得到的多音片段的平均能量谱包络采用如下公式(5)进行能量归一化处理，得到归一化的多音片段的平均能量谱；

PAEE (m) = \frac{1}{N_{cfm}} Σ_{i = 1}^{N_{cfm}} PAES (i, m) - - - (4)

PAEE (m) = \frac{PAEE (m) - \min (PAEE)}{\max (PAEE) - \min (PAEE)} - - - (5)

其中，i表示帧索引，m表示频率分析点索引，PAES(i,m)表示多音片段的平均能量谱在第i帧第m个频率分析点处的大小，N_cfm表示用于计算能量谱包络的总帧数，PAEE(m)表示多音片段的平均能量谱包络在第m个频率分析点处的大小；

步骤102-2)基于归一化的多音片段的平均能量谱和单音能量谱包络基矩阵，采用如下公式求解得到每个音符在多音片段中的鉴别性权重：

PAEE＝AEEB×W(6)

其中，W为各单音符在多音片段中权重大小的序列，即W为单音符权重系数序列；

步骤102-3)对得到的单音符的权重系数序列W进行阈值限定；

当一个单音符的权重大小超过设定的阈值时，则判定在多音片段中存在该单音符。

进一步可选的，当敲击弦乐器为钢琴时，上述方法具体为：

步骤201)采集钢琴包含的88个音符的单音音频数据，并采用步骤101-1)的计算公式分别求得各音符的平均能量谱包络；

步骤202)根据步骤101-2)的公式对单音平均能量谱包络进行能量归一化后按照音高顺序构建单音谱包络基矩阵；

步骤203)根据步骤102-1)的公式求得多音平均能量谱包络，并进行能量归一化；

步骤204)基于非负矩阵分解的迭代算法将步骤203)得到的多音平均能量谱包络分解为单音谱包络基矩阵与一个单音权重系数序列的乘积；

步骤205)设定一个阈值，并将步骤204)得到的单音符权重系数序列中的各元素与设定的阈值进行大小判断，当一个单音符的权重大小大于设定的阈值时则判定多音片段中存在该音符，否则多音片段中不存在该音符。

可选的，步骤204)所采用的非负矩阵分解的迭代算法具体包含如下步骤：

204-1)采用单位矩阵初始化权重系数序列W；

204-2)根据平均能量谱包络基矩阵AEEB和权重系数序列W重构第一矩阵

204-3)计算多音能量谱包络PAEE同第一矩阵的距离，得到第一距离具体计算公式为:

其中，i表示频率分析点，M为频率分析点总数,Dist{,}表示多音能量谱包络PAEE同第一矩阵的距离；

204-4)启动迭代步骤，进而将得到的多音平均能量谱包络分解为单音谱包络基矩阵与一个单音权重系数序列的乘积；该步骤具体包含：

将迭代次数变量iter赋初值1，同时设定一个整数M_c且M_c为大于1的整数并设定迭代次数上限为Z；

步骤204-4-1)判定iter当前的值是否小于等于设定的上限次数Z，如果当前iter的值小于等于上限次数Z则进入步骤204-4-2)，否则迭代停止；

步骤204-4-2)采用如下公式(8)更新权重系数序列：

其中，等号左边的权重系数序列为更新后的，等号右边的权重系数序列为更新前的；

步骤204-4-2-1)计算当前iter的值与M_c的商，如果能够整除，则采用如下公式(9)更新第二矩阵否则进入步骤204-4-2-7)：

步骤204-4-2-2)根据公式(10)计算第一矩阵和第二矩阵的矩阵偏差和并将矩阵偏差和作为第一判决值：

步骤204-4-2-3)更新第一矩阵即将当前第二矩阵的值赋予第一矩阵

步骤204-4-2-4)计算多音能量谱包络PAEE同当前第二矩阵的矩阵距离将作为第二距离，计算公式如公式(11)所示：

步骤204-4-2-5))计算多音能量谱包络PAEE同第二矩阵的矩阵偏差比率并将矩阵偏差比率作为第二判决值，计算公式如公式(12)所示：

步骤204-4-2-6)计算第二距离与第一距离的差值，并计算该差值与整数M_c的商，将商作为第三判决值；

步骤204-4-2-7)基于第一判决值，第二判决值和第三判决值分别进行如下判决，当满足以下三个判决条件中的任意一个判决条件时，则迭代停止，否则执行步骤204-4-2-8)：

其中，R_thres，D_thres和E_thres分别为设定的控制迭代停止的阈值；

步骤204-4-2-8)将第二距离的值赋予第一距离；

采用如下公式(13)更新迭代次数iter的值，然后返回步骤204-4-1)，直至迭代结束；

iter＝iter+1(13)

基于上述方法，本发明提供了一种基于非负矩阵分解的敲击弦乐器的多音符估计系统，所述系统包含：

能量谱包络基矩阵获取模块，用于根据RTFI时频分析方法，并采用单音片段构建能量谱包络基矩阵；

分析估计模块，用于根据得到的能量谱包络基矩阵，通过非负矩阵分解算法进行多音符估计。

可选的，上述能量谱包络基矩阵获取模块进一步包含：

单音的平均能量谱包络获取子模块，用于通过RTFI时频分析方法求得单音的平均能量谱包络；

单音能量谱包络基矩阵获取子模块，用于对单音平均能量谱包络进行能量归一化后按照音高顺序构建单音谱包络基矩阵。

可选的，上述分析估计模块进一步包含：

多音能量谱包络获取子模块，用于求解包含各个单音的多音片段的平均能量谱，进而求得多音平均能量谱包络；

多音符估计子模块，用于通过对多音能量谱包络进行非负矩阵分解求得每个音符在多音片段中的鉴别性权重大小，通过对音符的权重大小进行阈值限定，进而估计出多音片段中包含的各个单音符的情况。

与现有技术相比，本发明的优点在于：

通过单音音符的权重来估计各单音符在多音片段中的存在性；提出一种新型的基于非负矩阵分解的敲击弦乐器的多音符估计方法；在仅依靠钢琴单音片段的前提下，提高系统多音符估计的性能。总之与传统方法比较，基于非负矩阵分解的音乐多音符估计方法只利用了音符起始点处的能量谱包络信息，同时结合了能量谱包络的线性叠加性来分解能量谱，符合局部构建整体的音符叠加机理，多音符估计性能得到明显提升，同时系统速度也有一定提升，具有很高的实用性。

附图说明

图1是基于非负矩阵分解的钢琴音乐多音符估计算法的具体实施流程框图；

图2是本发明提供的迭代算法的流程图。

附图标记：

1单音片段2时频分析

3平均能量谱4频谱包络

5包络归一化6谱包络基矩阵

7多音片段8时频分析

9平均能量谱10频谱包络

11包络归一化12非负矩阵分解

13音符权重系数14权重阈值限定

15音符估计结果

具体实施方式

下面结合图1对本发明的具体实施方式做进一步详细描述：

本发明涉及的敲击弦乐器的音乐多音符估计方法的核心技术在于能量谱包络的获取以及利用非负矩阵分解规则进行能量谱包络分解。能量谱包络的获取通过利用RTFI时频分析方法获得音符起点后若干帧的平均能量谱，然后进行时间平均得到对应片段的平均能量谱包络。本发明的技术方案能够用于解决敲击弦的乐器的多音符识别问题。

实施例

本发明实施例利用非负矩阵分解将钢琴多音片段的平均能量谱包络分解成单音音符谱包络及其各自权重系数的乘积和的形式，根据各音符的权重在多音片段中的大小判断各个单音符是否存在。

本发明的具体计算流程如下：

第一步，采集钢琴88个单音音符的数据，通过RTFI时频分析、分帧平均求得单音片段的平均能量谱AES，之后将各音符起始点后的若干帧(这里选用15帧)平均能量谱进行平均，求得88个单音的平均能量谱包络AEE，如公式(1)所示。

{AEE}_{k} (m) = \frac{1}{N_{cfm}} Σ_{i = 1}^{N_{cfm}} {AES}_{k} (i, m) - - - (1)

其中，AES_k为第k个音符片段的平均能量谱，AEE_k为该音符对应的平均能量谱包络，N_cfm为用于计算平均能量谱包络的帧数，m为频率分析点索引。

总之，本发明中被用于对钢琴音频进行时频分析，求得对应的平均能量谱，进而得到单音片段和多音片段的平均能量谱包络。实现步骤1所基于的文献为“(R.Zhou,M.Mattavelli,etal.,“Featureextractionofmusicalcontentforautomaticmusictranscription,”EcolePolytechniqueFédéraledeLausanne,Swiss,October,2006)”，在该文献中提出了一种分辨率可变的时频分析方法即回声器时频分析(ResonatorTime-FrequencyImage，RTFI)，该方法能够有效地对音乐音频进行时频分析，得到频率随时间变化的平均能量谱。

第二步，对单音平均能量谱包络AEE进行能量归一化后按照音高顺序构建单音谱包络基矩阵AEEB，如公式(2)(3)所示；

{AEE}_{k} (m) = \frac{{AEE}_{k} (m) - \min ({AEE}_{k})}{\max ({AEE}_{k}) - \min ({AEE}_{k})} - - - (2)

AEEB＝{AEE₁,AEE₂,...,AEE_n}(3)

这里n为音符个数。

第三步，对需要进行音符估计的多音片段采用同第一步相同的处理过程，求得多音平均能量谱包络PAEE，并进行能量归一化，计算过程分别如公式(4)(5)所示：

PAEE (m) = \frac{1}{N_{cfm}} Σ_{i = 1}^{N_{cfm}} PAES (i, m) - - - (4)

PAEE (m) = \frac{PAEE (m) - \min (PAEE)}{\max (PAEE) - \min (PAEE)} - - - (5)

第四步，利用非负矩阵分解的迭代规则将第三步中得到的多音平均能量谱包络PAEE分解成第二步得到的单音谱包络基矩阵AEEB与一个单音权重系数序列W的乘积，如公式(6)所示：

PAEE＝AEEB×W(6)

其中，所采用的非负矩阵分解的迭代算法具体包含如下步骤，如图2所示：

1)将权重系数序列W初始化为

2)利用平均能量谱包络基矩阵AEEB和W重构得到第一矩阵

3)计算多音能量谱包络PAEE同第一矩阵的第一矩阵距离计算公式如(7)所示。

其中，M为频率分析点数，得到的为第一距离矩阵。

4)将迭代次数iter的取值范围设定为：1变化至Z，且在每次迭代过程中重复如下过程：

按照公式(8)更新权重系数序列W：

当迭代次数iter能被M_c整除时(其中M_c为定义的整数，采用该参数可以减少迭代次数)，进行如下操作：

a)按照公式(9)计算重构的第二矩阵

b)根据公式(10)计算矩阵偏差和将第二距离偏差和作为第

一判决值：

c)将第二矩阵的值赋予第一矩阵

d)计算多音能量谱包络PAEE同第二矩阵的第二距离

计算公式如公式(11)所示：

e)计算多音能量谱包络PAEE同第二矩阵的矩阵偏差比率将矩阵偏差比率作为第二判决值，计算公式如公式(12)所示：

f)当满足时，迭代停止，否则进入步骤g)；

其中，R_thres，D_thres和E_thres分别为控制迭代停止的阈值，其中，为第三判决值。

g)将第二距离的值赋予第一距离

总之，上述步骤四基于一种非负矩阵分解(NonnegativeMatrixFactorization，NMF)算法，用于将非负的原始矩阵分解成两个较小秩矩阵的乘积。在本发明中，首先通过对钢琴88个单音片段分别处理得到各自的平均能量谱包络，通过顺序拼接得到钢琴单音符的平均能量谱包络基矩阵，之后在将多音片段的平均能量谱包络分解成单音平均能量谱包络基矩阵同单音符能量权重系数序列的乘积时，只更新能量权重系数序列。

第五步，对第四步得到的单音权重系数序列W进行阈值限定，权重超过阈值的音符即为音符估计结果；

总之，本发明实施例首先录制钢琴88个音符的单音片段，分别通过RTFI时频分析得到各自的平均能量谱，之后对平均能量谱沿着时间轴进行平均得到88个音符片段的平均能量谱包络，按照音高顺序拼接成钢琴音符的平均能量谱包络基矩阵；之后对于待测的多音片段采用类似的处理过程得到多音片段的平均能量谱包络；之后在将多音片段的平均能量谱包络分解成单音平均能量谱包络基矩阵同单音能量权重系数序列的乘积时，采用非负矩阵分解的迭代规则只更新能量权重系数序列的大小。最后将能量权重系数序列与设定好的阈值进行大小比较，权重系数比阈值大的音符为多音片段中存在的音符。

本发明的系统实现了更具鉴别性的钢琴多音符估计算法，提高了音符估计性能。相比传统的钢琴多音符估计方法，基于非负矩阵分解的钢琴多音符估计方法仅需要钢琴的单音数据，具有更显著的物理意义。通过能量谱包络的非负矩阵分解，求得各个音符在多音片段中的权重大小，最后通过简单的阈值限定得到最终的音符估计结果。我们在国际通用钢琴数据集上进行了大量测试，结果显示在音符估计性能方面，由于该方法使用对应钢琴的单音能量谱包络构建基矩阵，更能反映钢琴多音能量谱包络是由单音能量谱包络线性叠加的实质。与未使用该方法的钢琴多音符估计算法相比，基于能量谱包络非负矩阵分解的钢琴音乐多音符估计的性能有相对25％-32％的提升。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种敲击弦乐器的音乐多音符估计方法，所述方法包含：

步骤101)利用单音片段构建单音符的能量谱包络基矩阵；

2.根据权利要求1所述的敲击弦乐器的音乐多音符估计方法，其特征在于，所述步骤101)进一步包含：

{AEE}_{k} (m) = \frac{1}{N_{cfm}} Σ_{i = 1}^{N_{cfm}} {AES}_{k} (i, m) - - - (1)

{AEE}_{k} (m) = \frac{{AEE}_{k} (m) - \min ({AEE}_{k})}{\max ({AEE}_{k}) - \min ({AEE}_{k})} - - - (2)

AEEB＝{AEE₁,AEE₂,...,AEE_n}(3)

3.根据权利要求2所述的敲击弦乐器的音乐多音符估计方法，其特征在于，所述步骤102)进一步包含：

PAEE (m) = \frac{1}{N_{cfm}} Σ_{i = 1}^{N_{cfm}} PAES (i, m) - - - (4)

PAEE (m) = \frac{PAEE (m) - \min (PAEE)}{\max (PAEE) - \min (PAEE)} - - - (5)

PAEE＝AEEB×W(6)

步骤102-3)对得到的单音符的权重系数序列W进行阈值限定；

4.根据权利要求2和3所述的敲击弦乐器的音乐多音符估计方法，其特征在于，当乐器为钢琴时，上述方法具体为：

5.根据权利要求4所述的敲击弦乐器的音乐多音符估计方法，其特征在于，步骤204)所采用的非负矩阵分解的迭代算法具体包含如下步骤：

204-1)采用单位矩阵初始化权重系数序列W；

步骤204-4-2)采用如下公式(8)更新权重系数序列：

步骤204-4-2-8)将第二距离的值赋予第一距离；

iter＝iter+1(13)。

6.一种敲击弦乐器的音乐多音符估计系统，其特征在于，所述系统包含：

7.根据权利要求6所述的敲击弦乐器的音乐多音符估计系统，其特征在于，所述能量谱包络基矩阵获取模块进一步包含：

8.根据权利要求6所述的敲击弦乐器的音乐多音符估计系统，其特征在于，所述分析估计模块进一步包含：