CN111210841A

CN111210841A - 一种乐器音位识别模型建立方法及乐器音位识别方法

Info

Publication number: CN111210841A
Application number: CN202010031551.XA
Authority: CN
Inventors: 覃建博
Original assignee: Hangzhou Matrix Sound Technology Co Ltd
Current assignee: Hangzhou Matrix Sound Technology Co Ltd
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2020-05-29
Anticipated expiration: 2040-01-13
Also published as: CN111210841B

Abstract

本发明提供一种乐器音位识别模型建立方法及乐器音位识别方法，其中模型建立方法包括以下步骤：获取演奏者演奏的各个音位音频演奏数据；获取各个音位音频演奏数据的演奏点，以演奏点开始分割音位音频演奏数据，得到各个音位固定长度的音频片段，按照指定规则依次对各个音位的音频片段叠加数据增强，将目标片段最后叠加数据增强；截取具有目标音位的最终叠加片段的指定区域的音频片段，将截取结果作为训练样本；输入分类器中进行训练，得到准确识别目标音位类别的识别模型。利用建立好的模型可以根据演奏者演奏的乐曲直接输入后得到各个音位的类别，无需再根据较长的音频片段估计音高后确定音位，提高了模型训练样本的基数和音位识别的准确度。

Description

一种乐器音位识别模型建立方法及乐器音位识别方法

技术领域

本发明属于乐器音位识别方法技术领域，具体涉及一种乐器音位识别模型建立方法及乐器音位识别方法。

背景技术

任何乐器上都有一套能决定音高的机制,它可以位于乐器的发音部位,也可以位于乐器不发音的部位。它是为人的演奏运作所编排的音高信息的界面,是通过人的演奏来决定音高的操作系统。

音位作为乐器上的音高的信息界面，通常是看得见的。例如，琵琶、吉他上的“品”，弦是它们的发音体，除了空弦音，须在某弦上用手指按某个品才能获取所需音高。又如，钢琴键盘不是乐器的发音部位，而是音位的操作界面，需按下某个键,才能激发机械击弦发出所需音高，连续按动不同的键，才能造成旋律。我国琵琶谱和古琴谱都属音位谱，演奏者是依照乐谱指定的音位而弹奏发音的。

乐器上的音位无论多或少，都有自己的特有形态和位置，形成了特有的音高信息界面，音位是沟通人与乐器演奏运作的不可缺少的环节。演奏是人使乐器音位发生音高变换而实施的运行过程。

为了判断演奏者是否演奏正确，需要获取乐器发音的准确的音位，现有技术中获取音位的方法包括以下四个步骤：1)获取音频片段；2)使用节拍检测算法检测可能的演奏位置；3)使用基音检测算法检测此区域的音高；4)对照因为表，计算出最后可能的音位。现有技术中所使用的基音检测算法包括yin算法、yinfft算法、fcomb算法和schmitt算法，但是使用上述步骤进行音位的识别具有以下缺点：

1)检测可能的演奏位置所使用的基音检测算法为通用算法，并未对乐器每个音都具有固定特有的音高这一特性进行优化，不能突出识别这一音位；

2)上述检测方法需要获取较长的音频片段才可以较为准确的估计出这一音位的音高；

3)部分乐器具有同一种音高的也可能是不同的音位，使用上述基音检测方法确定出具有某一音高的音位可能不是正确的音位，导致音位识别错误。

发明内容

本发明针对上述缺陷，提供一种能够建立拥有任意多个音位不同组合的、经过按照指定规则叠加数据增强后得到的足够多的的训练样本数据的分类器的方法，以及基于此分类器可以不需要先估计出音高，然后对比音位表计算出音位位置，直接属于演奏者演奏的乐曲音频片段后直接输出音位类别的乐器识别方法。

本发明提供如下技术方案：一种乐器音位识别模型建立方法，包括以下步骤：

S1：获取演奏者演奏的各个音位音频演奏数据；

S2：获取所述S1步骤得到的各个音位音频演奏数据的演奏点，以演奏点为起始点分割所述音位音频演奏数据，得到各个音位固定长度的音频片段，所述音频片段中演奏点之外的其他部分为余音；

S3：确定目标音位；

S4：将除目标音位之外的各个音位的固定长度音频片段按照指定规则进行依次叠加数据增强，得到叠加片段；

S5：将所述目标音位的固定长度片段按照指定规则叠加至所述S4步骤得到的叠加片段上进行最终叠加数据增强，得到多个目标音位的最终叠加片段；

S6：截取所述S5步骤得到的具有目标音位的最终叠加片段的指定区域的音频片段，将截取结果作为训练样本；

S7：将生成的样本输入分类器中进行训练，得到准确识别目标音位类别的识别模型。

进一步地，所述指定规则为：进行叠加时，各个音位的演奏点距离不同，先叠加的音位的演奏点位于后叠加的音位的演奏点之前。

进一步地，所述叠加数据增强方法包括以下步骤：

1)将每个音位的音频片段按照固定子长度分割为多个子片段；

2)对多个音位的固定长度音频片段的子片段分别进行赋值，赋予每个音位的演奏点的子片段附近的数值为第一数值，余音部分的子片段数值为第二数值，所述第一数值大于所述第二数值；

3)按照指定规则依次叠加时，后叠加的音位的演奏点之前的子片段均补充数值零，所补充的片段长度为后叠加的音位的演奏点与前一叠加的音位的演奏点之间的固定子长度。

进一步地，所述S6步骤中的指定区域为经过叠加数据增强后数值最大的多个固定子片段组成的区域。

进一步地，所S2步骤中分割得到的各个音位的音频片段的固定长度为相同或不相同。

进一步地，所述各个音位的音频片段的固定子长度的长度相同。

进一步地，所述S1步骤中的各个音位音频演奏数据通过外部硬件设备获取。

本发明还提供一种基于上述方法所建立模型的分类器的乐器音位识别方法，包括以下步骤：

A1：获取演奏者演奏乐曲音频数据；

A2：获取所述S1步骤得到的音频演奏数据的演奏点，以演奏点为起始点分割所述音位音频数据，得到各个音位固定长度的音频片段；

A3：将所述S2步骤得到的音频片段输入所述分类器中，利用已经训练好的具有基于数据增强的乐器音位识别模型的分类器识别各个音位；

A4：分类器直接输出音位类别。

进一步地，所述S1步骤中的音频数据通过外部硬件设备获取。

本发明的有益效果为：

1)通过本发明的乐器因为识别模型建立方法，能够通过将乐器所拥有的各个音位的音频片段进行各种叠加前的排列组合，进行排列组合的叠加片段也可以选择任意数量，因此可以获得目标音位的最终叠加前的足够多的数量级的叠加片段，再将最终的目标音位的音频片段最终叠加至叠加片段上，进行最终的叠加；在每次叠加的过程中，通过数据增强步骤对各个叠加的片段进行赋值处理，最终得到数值最大的一部分子片段区域，此为目标音频的最终训练数据样本，将此样本输入分类器后对其进行各种模型的深度学习训练，得到具有足够多训练样本的分类器，提高了乐器音位识别时的准确度。

2)每一首曲子实际上是单独每个音位的组合，只是相邻两个音间隔的时间不同而已，本发明所采用的音位识别方法，只需记录单独的音位乐音，然后与任意其他音位片段任意进行组合，可以获得足够多的样品数据，再进行数据增强后，将其输入分类器中来训练模型，得到一个可以准确识别不同音位的模型，输入分类器中，根据具有这一模型的分类器，在需要的时候，可以生成任意曲子的任何一个片段。

3)通过建立足够训练样本的分类器后，利用此分类器进行乐器识别时，无需采集较长的音频片段，然后估计音高后对比音位表计算可能的音位；采用此分类器可以直接属于演奏者的音频片段后，针对每一个音直接输出类别，减少了根据音高而判断音位所产生错误的几率。

4)本发明提供的乐器因为识别模型及利用该模型进行乐器音位识别的方法无需复杂繁琐的信号处理调试，对音高相同但是因为不同的情况能够准确确定演奏的音位类别，在快速演奏场景中，各个音位的演奏间隔时间短暂情况下，可以取得良好的音位识别效果。

附图说明

在下文中将基于实施例并参考附图来对本发明进行更详细的描述。其中：

图1为本发明提供的乐器因为识别模型建立方法中采用的古琴的音位示意图；

图2为本发明提供的乐器音位识别模型建立方法的流程图；

图3为本发明提供的乐器音位识别模型建立方法中截取的三种音位的具有相同固定长度的音频片段示意图；

图4为本发明提供的乐器音位识别模型建立方法中两种音位的固定长度音频片段叠加方式示意图；

图5为本发明提供的乐器音位识别模型建立方法中三种音位的固定长度音频片段叠加方式示意图；

图6为本发明提供的基于乐器因为识别模型的分类器的乐器音位识别方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，在本申请中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

实施例1

如图1-5所示，为本实施例提供的一种乐器音位识别模型建立方法，如图1所示，以古琴为例，古琴有七根弦，十三个徽位，三种音分别为散音、泛音及按音，散音为弦位的音，泛音为徽位的音，则分类器的类别分别有：

1)散音：7个，分别以s1、s2……、s7表示；

2)泛音：古琴的泛音是关于七徽对称的，例如一弦六徽的泛音与一弦八徽的泛音实际上是同一个音，故泛音的数量为分别根据七根弦对称的7个徽位的音，为7×7＝49个，分别以f11、f12、……f17、f21、f22、…..f71、f72、……f77表示，其中，f11表示泛音1弦1徽，f12表示泛音1弦2徽；

3)按音：为简单起见，此实施例中忽略徽位与徽位的组合，以及徽位之外的按音，仅以13个徽位与7个弦位的组合得到的数量作为按音组合的数量，为13×7＝91个，分别以a101、a102、….、a113、a201、a202、….、a701、a702、…..a713表示，其中a101表示按音1弦1徽，a102表示1弦2徽，以此类推，a713表示按音7弦13徽。

综上，古琴的音位类别数为7+49+91＝147个。

如图2所示，该方法包括以下步骤：

S1：获取演奏者演奏的147个音位音频演奏数据；

S2：获取S1步骤得到的147个音位音频演奏数据的演奏点，以演奏点为起始点分割音位音频演奏数据，得到147个音位固定长度的音频片段，每个音频片段中演奏点之外的其他部分为余音，147个音位的音频片段的长度相同，如图3所示，以s1、f11和a101为例，分别为散音1弦,泛音1弦1徽,按音1弦1徽,其中黑色区域为演奏点,其余为余音；

S3：确定目标音位为s1；

S4：将除目标音位s1之外的各个音位的固定长度音频片段按照指定规则进行依次叠加数据增强，进行叠加时，各个音位的演奏点距离不同，先叠加的音位的演奏点位于后叠加的音位的演奏点之前，得到叠加片段；

S5：将目标音位的固定长度片段按照指定规则叠加至S4步骤得到的叠加片段上进行最终叠加数据增强，得到多个目标音位的最终叠加片段；

如图4所示，以s1和f11两个音位为例生成3个目标音位为s1的训练样本，如图5所示，以s1、f11和a101三个音位为例生成3个目标音位为s1的训练样本。图4和图5所示的以s1为目标音位的训练样本的获得过程中，均把s1最后叠加至之前已经依次叠加的音频片段上，且之前依次叠加的音频片段中依照叠加次序，演奏点以一定的间隔距离逐步向后推移，在叠加的过程中同时进行数据增强；

如图5所示，以s1、f11和a101三个音位获得训练样本的过程中，以a101为最底层的音频片段，然后叠加f11，叠加f11时f11的演奏点被设置在a101的演奏点之后，最后叠加目标音位片段s1，将s1的演奏点置于f11的演奏点之后；

在叠加的同时进行数据增强，将每个音位的音频片段按照固定子长度分割为多个子片段，各个音位的音频片段的固定子长度的长度相同。对每个音频片段的子片段均赋予数值，对每个片段的演奏点附近赋予第一数值，对余音部分赋予第二数值，第一数值大于第二数值。以图3所示的s1和f11两个音位进行叠加为例：

首先对f11的演奏点附近赋值2，对余音赋值1

2

1

对s1演奏点赋值4，余音赋值2

4

2

然后对f11片段和s1片段进行叠加之前，因为s1片段的演奏点位于f11的演奏点之后，因此，对f11片段演奏点和s1片段演奏点之间的片段长度补充零值

0

4

2

然后将补充零值之后的s1片段与f11片段进行叠加，得到叠加后的数据

2

1

5

3

2

S6：截取上述步骤得到的具有目标音位s1的最终叠加片段的指定区域的音频片段，将截取结果作为训练样本，其中的指定区域为经过叠加数据增强后数值最大的多个固定子片段组成的区域，及最终叠加后的片段中数值为5的4个子片段的集合，作为因为s1的训练样本数据；

S7：将生成的s1样本输入分类器中进行训练，得到准确识别目标音位s1类别的识别模型。

如图6所示，一种基于上述S1-S7步骤的模型建立方法所建立出的模型的分类器的乐器音位识别方法，包括以下步骤：

A1：获取演奏者演奏乐曲音频数据；

A2：获取S1步骤得到的音频演奏数据的演奏点，以演奏点为起始点分割音位音频数据，得到各个音位固定长度的音频片段；

A3：将S2步骤得到的音频片段输入分类器中，利用已经训练好的具有基于数据增强的乐器音位识别模型的分类器识别各个音位；

A4：分类器直接输出音位类别。

其中，A1步骤中的音频数据通过外部硬件设备获取。

实施例2

本实施例与实施例1的区别仅在于，147个音位的音频片段的长度相同。

尽管已经示出和描述了本申请的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本申请的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本申请的范围由所附权利要求及其等同物限定。

Claims

1.一种乐器音位识别模型建立方法，其特征在于，包括以下步骤：

S1：获取演奏者演奏的各个音位音频演奏数据；

S3：确定目标音位；

2.根据权利要求1所述的一种基于数据增强的乐器音位识别模型建立方法，其特征在于，所述指定规则为：进行叠加时，各个音位的演奏点距离不同，先叠加的音位的演奏点位于后叠加的音位的演奏点之前。

3.根据权利要求1所述的一种基于数据增强的乐器音位识别模型建立方法，其特征在于，所述叠加数据增强方法包括以下步骤：

4.根据权利要求3所述的一种基于数据增强的乐器音位识别模型建立方法，其特征在于，所述S6步骤中的指定区域为经过叠加数据增强后数值最大的多个固定子片段组成的区域。

5.根据权利要求1所述的一种基于数据增强的乐器因为识别模型建立方法，其特征在于，所S2步骤中分割得到的各个音位的音频片段的固定长度为相同或不相同。

6.根据权利要求3所述的一种基于数据增强的乐器音位识别模型建立方法，其特征在于，所述各个音位的音频片段的固定子长度的长度相同。

7.根据权利要求1所述的一种基于数据增强的乐器音位识别模型建立方法，其特征在于，所述S1步骤中的各个音位音频演奏数据通过外部硬件设备获取。

8.一种基于根据权利要求1-7所述模型建立方法所建立模型的分类器的乐器音位识别方法，包括以下步骤：

A1：获取演奏者演奏乐曲音频数据；

A4：分类器直接输出音位类别。

9.根据权利要求8所述的一种乐器音位识别方法，其特征在于，所述S1步骤中的音频数据通过外部硬件设备获取。