CN109801645B

CN109801645B - 一种乐音识别方法

Info

Publication number: CN109801645B
Application number: CN201910054390.3A
Authority: CN
Inventors: 钟毅; 陆建; 刘强; 李湘
Original assignee: Shenzhen Bee Cloud Technology Co ltd
Current assignee: Shenzhen Bee Cloud Technology Co ltd
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2021-11-26
Anticipated expiration: 2039-01-21
Also published as: CN109801645A

Abstract

本发明涉及乐音(器乐声音)识别领域，具体涉及一种乐音识别方法，所述乐音识别方法包括步骤：采集大量乐音样本；使用所采集的乐音样本，训练识别音符的音高及其持续时间的乐音自动识别模型；输入待识别乐音数据，调用所述乐音自动识别模型，生成音符结果集。通过采集大量乐音样本并使用所采集的乐音样本训练乐音自动识别模型，乐音自动识别模型可识别待识别乐音数据中音符的音高及其持续时间并生成音符结果集，实现对乐音的识别，且识别准确率高，稳定性高，不会受声音遮蔽的影响。

Description

一种乐音识别方法

技术领域

本发明涉及乐音(乐器声音)识别领域，具体涉及一种乐音识别方法。

背景技术

乐音(声音)识别最早在1977年被人提出，随着音频研究人员们对数字音频工程的了解，这些研究人员相信计算机可以通过一定的算法，来分析数字音乐数据，以此探测到旋律的音高与和弦模式，以及乐器的节奏。

传统的乐器识别领域，早期应用最广的是使用一种非负矩阵分解(Nonnegativematrix factorization,NMF)的算法进行识别。非负矩阵分解由Lee和Seung于1999年在自然杂志上提出，它使分解后的所有分量均为非负值(要求纯加性的描述)，并且同时实现非线性的维数约减。NMF的心理学和生理学构造依据是对整体的感知由对组成整体的部分的感知构成的(纯加性的)，这也符合直观的理解：整体是由部分组成的，因此它在某种意义上抓住了智能数据描述的本质.此外，这种非负性的限制导致了相应描述在一定程度上的稀疏性，稀疏性的表述已被证明是介于完全分布式的描述和单一活跃分量的描述之间的一种有效数据描述形式。

NMF目前已被应用到文本分析与聚类、数字水印、人脸检测与识别、图像检索、图像复原、语言建模、声源分类、音乐信号分析与乐器识别、盲信号分离、网络安全、基因及细胞分析等的研究中。但也有一定的局限性：

1)NMF假设重构误差服从高斯分布，但是音乐本身存在极端强音和声音阻断情况，并不满足此假设。这种情况下NMF获取的基底表示能力变差，这严重影响基底的表示能力。

2)NMF是用一个聚类的方式分解音乐，但是音乐如同自然语言一样，具有上下文之间的概率关系。NMF并没有很好的方法去获取音符上下文关联，并将这一关系应用在乐音(声音)识别上。

3)该算法不具备应对不同器乐，识别不同器乐数据的能力，识别能力单一

综上原因，NMF算法在的乐音(声音)识别上对音高和音长的准确率一般，在已知的复调音乐识别应用中，识别准确率维持在50％-70％之间，且波动较大，存在不稳定性，这极大的限制了乐音(声音)识别在音乐领域的应用空间。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种乐音识别方法，克服现有的使用NMF算法识别乐音的识别准确率不高，波动大，存在不稳定性的问题。

本发明解决其技术问题所采用的技术方案是：提供一种乐音识别方法，包括步骤：

采集大量乐音样本；

使用所采集的乐音样本，训练用于识别音符的音高及其持续时间的乐音自动识别模型；

输入待识别乐音数据，调用所述乐音自动识别模型，生成音符结果集

本发明的更进一步优选方案是：所述乐音识别方法还包括步骤：

对所采集的大量乐音样本进行统一格式化和转码处理。

本发明的更进一步优选方案是：所述训练的乐音自动识别模型包括用于预测音符的起止时间的音符事件预测模型，以及用于预测音符音高的音高预测模型。

本发明的更进一步优选方案是：所述训练音符事件预测模型包括步骤：

提取所述乐音样本的声音信号特征；

将提取的声音信号特征综合输出第一全连接层；

使用深度学习算法对第一全连接层的数据进行处理输出音符事件预测结果集。

本发明的更进一步优选方案是：所述训练音高预测模型包括步骤：

提取所述乐音样本的声音信号特征；

将提取的声音信号特征综合输出第二全连接层；

使用深度学习算法对第二全连接层的数据和第一全连接层中的音符事件位置信息进行处理输出音高结果集。

通过迁移学习训练适合不同器乐的乐音自动识别模型。

使用NMF算法对生成的音符结果集进行验证，过滤未验证通过的预测结果，并输出最终的音符结果集。

将音符结果集转换为音乐的结构化数据。

本发明的更进一步优选方案是：所述乐音样本包括数字音频数据集文件和与数字音频数据集文件对应的标签数据文件，所述标签数据文件包括音高、乐音强弱数据、音符开始时间和音符结束时间。

通过输入新的乐音样本对已训练的乐音自动识别模型进行优化。

本发明的有益效果在于，通过采集大量乐音样本并使用所采集的乐音样本训练乐音自动识别模型，乐音自动识别模型可识别待识别乐音数据中音符的音高及其持续时间并生成音符结果集，实现对乐音的识别，且识别准确率高，稳定性高，不会受声音遮蔽的影响；以及，通过迁移学习训练适合不同器乐的乐音自动识别模型，分别识别不同乐器的乐音，适应性强；以及，通过输入新的乐音样本对已训练的乐音自动识别模型进行优化，提高识别准确率。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明的乐音识别方法的流程框图；

图2是本发明的乐音识别方法的具体流程框图；

图3是本发明的训练音符事件预测模型的流程框图；

图4是本发明的训练音高预测模型的流程框图。

具体实施方式

现结合附图，对本发明的较佳实施例作详细说明。

如图1至图4所示，本发明提供一种乐音识别方法的优选实施例。

所述乐音识别方法包括步骤：

S10、采集大量乐音样本；

S20、使用所采集的乐音样本，训练用于识别音符的音高及其持续时间的乐音自动识别模型；

S30、输入待识别乐音数据，调用所述乐音自动识别模型，生成音符结果集。

通过采集大量乐音样本并使用所采集的乐音样本训练乐音自动识别模型，乐音自动识别模型可识别待识别乐音数据中音符的音高及其持续时间并生成音符结果集，实现对乐音的识别，且识别准确率高，稳定性高，不会受声音遮蔽的影响。

其中，所述乐音识别方法还包括步骤：

对所采集的大量乐音样本进行统一格式化和转码处理。

通常地，所采集到的乐音样本的采样频率较高，使用采样频率较高的乐音样本训练乐音自动识别模型，具有更高的识别准确率。但有数据量大，训练成本高且存在信息干扰的问题。

本实施例中采用统一乐音样本的数据格式标准，通过对采集的大量乐音样本进行统一格式化和转码处理，转换为较低采样频率的乐音样本，可降低数据量，大大降低后续训练乐音自动识别模型的成本，降低音频提升采样频率带来的信息干扰；以及，在乐音识别的实际业务场景中，较低采样频率的模型，对网络带宽，存储，运算算力的要求都会有所降低，适应性更强。

具体地，所采集的乐音文本的存储格式通常为wav格式，其采样频率为44100Hz或者48000Hz的数据。采集的乐音样本通过统一格式化和转码处理后输出为wav格式，采样频率为11025Hz的单通道数据，便于后续训练乐音自动识别模型。当然，采样频率也可以是22050Hz。

在输入待识别乐音数据后，需要对待识别乐音数据进行处理，对其进行格式化处理，转换为与所处理后的采集乐音样本数据格式标准相同的待识别乐音数据，再将其输入乐音自动识别模型进行处理。

本实施例中，所采集的乐音样本包括数字音频数据集文件和与数字音频数据集文件对应的标签数据文件。

其中，所述标签数据文件包括音高、乐音强弱数据、音符开始时间和音符结束时间。

本实施例中，所述训练的乐音自动识别模型包括用于预测音符的起止时间的音符事件预测模型，以及用于预测音符音高的音高预测模型。

通过采集大量乐音样本处理训练音符事件预测模型，可以预测在具体时间点上是否发生了一个音符事件，训练音高预测模型，在对应时间帧上预测音高。待识别乐音数据输入，经这两个模型处理后，转换为由音符组成的音符结果集，每一个节点包含的信息有音高、音符开始时间和音符结束时间，实现对待识别乐音数据的识别，这种识别方法识别准确率高，稳定性高。

本实施例中，参考图3，所述训练音符事件预测模型包括步骤：

S211、提取所述乐音样本的声音信号特征；

S212、将提取的声音信号特征综合输出第一全连接层；

S213、使用深度学习算法对第一全连接层的数据进行处理输出音符事件预测结果集。

具体地，通过卷积神经网络，对所述乐音样本的声音信号特征进行提取，输出第一连接层，第一全连接层中将提取的声音信号特征综合相互连接。以及，所述深度学习算法包括循环神经网络，具体采用双向的长短期记忆网络对输入的第一全连接层的数据进行处理，将数据具备上下文之间的逻辑关联的声音信号处理后输出音符事件预测结果集。

本实施例中，参考图4，所述训练音高预测模型包括步骤：

S221、提取所述乐音样本的声音信号特征；

S222、将提取的声音信号特征综合输出第二全连接层；

S223、使用深度学习算法对第二全连接层的数据和第一全连接层中的音符事件位置信息进行处理输出音高结果集。

具体地，通过卷积神经网络，对所述乐音样本的声音信号特征进行提取，输出第二连接层，第二全连接层中将提取的声音信号特征综合相互连接；以及，所述深度学习算法包括循环神经网络，具体采用双向的长短期记忆网络对输入的第二全连接层的数据和第一全连接层中的音符事件位置信息进行处理，输出音高结果集。

其中，卷积神经网络和长短期记忆网络可以代替成更深层次的神经网络或者大量神经网络的叠加，这将提高乐音自动识别模型的参量总数和训练所需要的运算算力需求，同时可使乐音自动识别模型的准确率得到进一步提升。

本实施例中，通过音符事件预测模型预测在具体时间点上是否发生了一个音符事件，音高预测模型配合音符事件预测模型，在对应时间帧上预测音高，待识别乐音数据经音符事件预测模型和音符事件预测模型处理过后，将转变生成音符结果集，实现对待识别乐音数据的识别。

以及，本实施例的乐音识别方法还包括步骤：S50、将音符结果集转换为音乐的结构化数据，如五线谱，用户可读取经传统音乐表示法表示的音符结果集。

本实施例中，所述音符事件预测模型所对应的损失函数为：

其中，GT代表正确标签值的返回结果，Pred(p,t)表示在t时刻的预测值，p表示对应的音高(pitch)，t表示数据在第几个时间帧(0表示第一个时间帧，1表示第二个时间帧，以此类推)。

其中，损失函数采用LogLoss，具体公式如下：

以及，所述音高预测模型所对应的损失函数为：

其中，GT_pitch代表正确标签值的返回结果，Pred(p,t)表示在t时刻的预测值,p表示对应的音高(pitch)，t表示数据在第几个时间帧(0表示第一个时间帧，1表示第二个时间帧，以此类推)。

音符事件预测模型与音高预测模型配合训练的乐音自动识别模型所对应的总损失函数为：

L_result＝L_event+β*L_pitch；

其中，L_result为最终输出损失函数，是音符事件预测模型和音高预测模型对应损失函数的加权值，音符事件的起始点判断决定了整个音符的所在位置，也影响在当前位置的音高判断，音符事件预测模型所对应的损失函数拥有相对更高的判断权重。设置系数β来设置音符事件预测模型和音高预测模型对应的损失函数的权重，系数β可根据不同的应用场景进行调整，提高识别准确率。

本实施例中，所述乐音识别方法还包括步骤：

S40、使用NMF算法对生成的音符结果集进行验证，过滤未验证通过的预测结果，并输出最终的音符结果集。

其中，输入待识别乐音数据，调用所述乐音自动识别模型，将生成预测的音符结果集，使用NMF算法，可基于音符模板，对上述音符结果集进行验证，过滤未验证通过的预测结果，输出最终的音符结果集，具有更高的识别准确率。

本实施例中，所述乐音识别方法还包括步骤：

通过迁移学习训练适合不同器乐的乐音自动识别模型。

具体地，通过保留原先训练的乐音自动识别模型的前n层参数，对原先训练的乐音自动识别模型重新训练，识别其他器乐的乐音，减少运算算力需求。

比如，可将一个可识别钢琴乐音的乐音自动识别模型通过迁移学习迁移到识别小提琴，这样可降低训练适合不同器乐的乐音自动识别模型的学习成本。

本实施例中，所述乐音识别方法还包括步骤：

本发明实施例的乐音自动识别模型具有不断学习的能力，通过输入新的乐音样本，不断完善数据，对乐音自动识别模型进行优化，可提升乐音自动识别模型的识别准确率。

应当理解的是，以上实施例仅用以说明本发明的技术方案，而非对其限制，对本领域技术人员来说，可以对上述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而所有这些修改和替换，都应属于本发明所附权利要求的保护范围。

Claims

1.一种乐音识别方法，其特征在于，包括步骤：

采集大量乐音样本；

使用所采集的乐音样本，训练用于识别音符的音高及其持续时间的乐音自动识别模型，所述训练的乐音自动识别模型包括用于预测音符的起止时间的音符事件预测模型，以及用于预测音符音高的音高预测模型；

所述音符事件预测模型提取所述乐音样本的声音信号特征，将提取的声音信号特征综合输出第一全连接层，使用深度学习算法对第一全连接层的数据进行处理，将数据具备上下文之间的逻辑关联的声音信号处理后输出音符事件预测结果集；

所述音高预测模型提取所述乐音样本的声音信号特征，将提取的声音信号特征综合输出第二全连接层，使用深度学习算法对第二全连接层的数据和第一全连接层中的音符事件位置信息进行处理，在对应时间帧上预测音高，输出音高结果集；

输入待识别乐音数据，调用所述乐音自动识别模型，生成音符结果集。

2.根据权利要求1所述的乐音识别方法，其特征在于，所述乐音识别方法还包括步骤：

对所采集的大量乐音样本进行统一格式化和转码处理。

3.根据权利要求1所述的乐音识别方法，其特征在于，所述乐音识别方法还包括步骤：

通过迁移学习训练适合不同器乐的乐音自动识别模型。

4.根据权利要求1-3任一所述的乐音识别方法，其特征在于，所述乐音识别方法还包括步骤：

5.根据权利要求4所述的乐音识别方法，其特征在于，所述乐音识别方法还包括步骤：

将音符结果集转换为音乐的结构化数据。

6.根据权利要求1所述的乐音识别方法，其特征在于，所述乐音样本包括数字音频数据集文件和与数字音频数据集文件对应的标签数据文件，所述标签数据文件包括音高、乐音强弱数据、音符开始时间和音符结束时间。

7.根据权利要求1所述的乐音识别方法，其特征在于，所述乐音识别方法还包括步骤：