CN114550675A

CN114550675A - 一种基于CNN--Bi-LSTM网络的钢琴转录方法

Info

Publication number: CN114550675A
Application number: CN202210194012.7A
Authority: CN
Inventors: 卢迪; 李梦园; 王月
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-05-27

Abstract

本发明公开了一种基于CNN‑‑Bi‑LSTM网络的钢琴转录方法，该方法一共分为三步：（1）数据预处理：对获取的钢琴音频信号进行降噪预处理，得到纯净音频；（2）特征提取:对音频特征提取分别采用CQT与MFCC，对比两者处理效果，使用一种CQT+MFCC特征融合方法对音频进行处理；（3）音符识别：设计基于CNN‑‑Bi‑LSTM网络引入注意力模型的钢琴转录算法。本发明在于针对钢琴转录提出了一个基于CNN‑‑Bi‑LSTM神经网络模型，并引入了注意力机制，成功提高了音符识别的准确率。

Description

一种基于CNN--Bi-LSTM网络的钢琴转录方法

技术领域

本发明属于多音调音符转录领域，是一种基于CNN--Bi-LSTM网络的钢琴转录方法，可应用于钢琴转录。

背景技术

音乐是日常生活中最常见的艺术表现形式，既能够作为一种载体，表达人们的思想感情，极大的满足人们的精神文化需求；同时，其作为人们休闲娱乐的主要方式，也充实了人们的业余生活。目前，大部分音乐主要是以音频的格式存在(如wav，mp3)，极少数以曲谱的形式呈现，这非常不利于音乐家们对音乐的进一步研究，如果能够实时的将音频转换为曲谱，这将极大的方便作曲家对音乐的进一步改善；同时，大多数音乐是以名字的形式存在，在不知到歌曲名的情况下，很难检索到需要的歌曲，如果能够将歌曲转换成曲谱，那么便可以通过片段的音乐去检索完整或相似的歌曲，从而极大的减少标注的成本。因此，音乐自动转录(AutomaticMusic Transcription，AMT)都有着巨大的经济需求和应用前景。

AMT，是音乐信息处理中一个具有挑战性的问题，相关研究可以追溯到1977年，几十年来，大批的学者在该领域做出了卓越的贡献。目前，可以根据音乐中同一时间存在的音调数量分为两大类：一种是单音调自动转录(Monophonic Music Transcription，MMT)，这种AMT的音乐中同一时间只会存在一个音符，由于该类型任务较简单，现在已经可以比较完美的解决了；另一种是多音调自动转录(Polyphonic Music Transcription，PMT)，这种AMT的音乐中会出现在同一时间存在多个音符，由于并行的音符在时间域上相互重叠，同时在频域上又会因为谐波而互相影响，造成多音调音乐信号十分复杂，难以分析，故多音调自动转录问题仍然具有严峻的挑战。基于AMT算法的研究的理论意义和应用价值，为了进一步提升AMT算法的多音调识别效果，也是为了完善AMT算法对于音符结束时间的检测，本发明针对最常用的乐器之一，也是多音调乐器的代表——钢琴，进行了钢琴的多音调转录算法研究。

发明内容

1、本发明的目的

本发明的目的在于针对钢琴音乐提出一种基于CNN--Bi-LSTM网络的钢琴转录研究模型。即输入一段钢琴音频信号，对其进行降噪预处理，得到纯净音频，提取特征并进行融合，使得特征参数能够完整精确的表示音频信息。将得到特征参数送入所构建的神经网络模块进行音符的起始与结束检测，最后输出结果。

2、本发明所采用的技术方案

为实现上述目的，本发明采用的技术方案为一种基于CNN--Bi-LSTM网络的钢琴转录方法，该方法一共分为三步：

(1)数据预处理：本发明选用纯净的钢琴音频(MAPS)数据集，将含噪声的琴音频进行降噪预处理，再将纯净的钢琴音频与噪音进行对比。

本发明采用DRNN神经网络对音频进行降噪处理，DRNN降噪模型有三层隐含层，可以通过增加隐含层数，提升每次迭代中带噪信号向纯净信号的逼近速度。只在中间一个隐含层上加入连接层，减少训练过程中，需要纯净信号Y^～以及输出信号Y。输出信号与纯净信号之间的损失函数L可以用两者矢量差平方的均值来衡量，其中L＝1/N(Y-Y^～)，若L大于预设值，则对权重等参数关于L求偏导，计算新的参数并进行正向传递，直到L小于预设值训练结束。

(2)特征提取：由于音符信号中含有丰富的谐波信息，单一特征很难准确、全面地表示原始信号特征，这会使部分重要的信息特征丢失，造成识别不准确。因此采用特征融合的方法来弥补这一不足。提出的改进特征融合是采用首尾相连，把提取的梅尔频率倒谱系数(MFCC)特征向量和常数Q变换(CQT)特征向量进行组合，形成融合特征矩阵。

MFCC是基于人类听觉的非线性特性提出的一种特征提取方法，它比线性预测倒谱系数更符合人耳的听觉特征，可以更好地表征音符信号特征。

梅尔频率提取特征参数:

第一步分帧，将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，时间为20--30ms左右。为了避免相邻两针的变化过大，会让相邻两针之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。

第二步加窗，将每一帧乘以汉明窗，以增加帧两端的连续性。假设分帧后的信号为S(n)，n＝0，1，......，N-1，N为帧的大小，乘以汉明窗后为S₁(n)＝S(n)*W(n)，W(n)公式如下：

第三步快速傅里叶变换，对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对音频信号的频谱取模平方得到音频信号的功率谱。假设音频信号的离散傅里叶变换为：

式中x(n)为输入的音频信号。

第四步，将能量谱通过一组梅尔尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组。三角带通滤波器有两个主要目的：对频谱进行平滑化，并消除谐波的作用。计算每个滤波器组输出的对数能量

第五步，将上述结果经过离散余弦变换得到MFCC系数：

CQT提取特征参数:

有限长序列x(n)的CQT变换为：

其中

是长度为N_k的窗函数，窗函数选用汉明窗；Q是常数因子，k是频谱图的频率序号，N_k的值与k值有关。

特征融合：假设得到的MFCC特征向量定义为：T₁＝[F_L1，F_L2，......，F_LM]，其中，F_LM为第L帧第M维的MFCC。得到的CQT特征向量定义为：T₂＝[Q_1N，Q_2N，......，Q_KN]，其中Q_KN为第N帧第K维的CQT。由于过大的数据量会降低神经网络的训练效率，且CQT中的帧长是变化的，导致上述两式L≠N。因此，须分别对MFCC特征向量和CQT特征向量进行平均降维处理，降维后的MFCC特征向量为：T₃＝[F₁₁，F₁₂，......，F_1M]，其中，T₃是第1行M列的矩阵；降维后的CQT特征向量为：T₄＝[Q₁₁，Q₂₁，......，Q_K1]，其中T₄是K行1列的矩阵；融合后的特征向量为：T＝[T₃,(T₄)^T]，其中，T是1行K+M列的矩阵。

(3)CNN--Bi-LSTM混合模型音符识别：

第一步，系统模型通过CQT+MFCC特征提取之后，由CNN中的卷积层分层训练，得到钢琴音频实际标签与预测钢琴音频标签的差值，求出了网络模型的损失函数，对损失函数进行梯度权重的训练。

第二步，CNN中的池化层用于减少每个特征映射的维度，它能够降低训练网络的计算成本，采用上采样的方式对卷积神经网络模型进行收敛。

第三步，将特征输入到Bi-LSTM，通过三个门函数(记忆门、遗忘门、输出门)进行循环训练，学习到充分有效的音频特性。

第四步，利用注意力机制(Attention)通过对音频向量的语义编码分配不同的注意力权重，以区分音频中信息的重要性大小，提高分类的准确率。

第五步，全连接层将卷积层学到的“分布式特征表示”映射到样本标记空间，以进行后续的分类任务。

第六步，通过soft-max分类器进行音符分类。

第七步，得到完整的音符信息(音符的起始时间、音调及音符结束时间)。

3、本发明的有益效果

解决了单一模型存在拟合和梯度问题，增加了网络的学习能力，从而提高了模型的分类性能。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的音频处理流程图；

图2为本发明的算法设计图；

图3为DRNN降噪模型图；

图4为MFCC提取参数的基本流程图；

图5为注意力机制的结构图；

图6为本发明的网络结构设计图；

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的部分，而省略了与本发明关系不大的其他细节。

具体实施方式一：

本实施方式的一种基于CNN--Bi-LSTM网络的钢琴转录方法，结合图1到图6，所述方法包括以下步骤：

梅尔频率提取特征参数:

式中x(n)为输入的音频信号。

第五步，将上述结果经过离散余弦变换得到MFCC系数：

CQT提取特征参数:

有限长序列x(n)的CQT变换为：

其中

(3)CNN--Bi-LSTM混合模型音符识别：

第六步，通过soft-max分类器进行音符分类。

Claims

1.一种基于CNN--Bi-LSTM网络的钢琴转录方法，其特征在于，包括以下步骤：

（1）数据预处理：对获取的一段钢琴音频信号进行预处理，本发明训练DRNN神经网络，对音频进行降噪处理，以达到消除音乐信号噪声的目的；

（2）特征提取：对得到的纯净音频采用CQT+MFCC提取特征并进行融合，使得特征参数能够完整精确的表示音频信息；

（3）音符识别：将得到的特征参数送入所构建的神经网络模块，进行音符的起始与结束检测，最后输出MIDI格式。

2.根据权利要求1所述一种基于CNN--Bi-LSTM网络的钢琴转录方法，其特征在于：所述的数据预处理将对获取的钢琴音频信号进行降噪预处理，以得到纯净的音频；DRNN降噪模型有三层隐含层，可以通过增加隐藏层数，提升每次迭代中带噪信号向纯净信号的逼近速度；只在中间一个隐含层上加入连接层，减少训练过程中的计算量；在训练过程中，需要纯净信号以及输出信号；输出信号与纯净信号之间的损失函数可以用两者矢量差平方的均值来衡量，其中，若大于预设值，则对权重等参数求关于的偏导，计算新的参数并进行正向传递，直到小于预设值，训练结束。

3.根据权利要求1所述一种基于CNN--Bi-LSTM网络的钢琴转录方法，其特征在于：所述的特征提取就是对得到的纯净音频进行特征提取，使得特征参数能够完整精确的表示音频信息；假设得到的MFCC特征向量定义为：，其中，为第帧第维的MFCC；得到的CQT特征向量定义为：，其中，为第帧第维的CQT；由于过大的数据量会降低神经网络的训练效率，且中的帧长是变化的，导致上述两式中；因此，须分别对MFCC特征向量和CQT特征向量进行平均降维处理，降维后的MFCC特征向量为：，其中，是第1行列的矩阵；降维后的CQT特征向量为：，其中，是行1列的矩阵；融合后的特征向量为：，其中，是1行列的矩阵。

4.根据权利要求1所述一种基于CNN--Bi-LSTM网络的钢琴转录方法，其特征在于：所述的音符识别是将得到的特征参数送入本发明所构建的神经网络模块，进行音符的起始与结束检测，最后输出MIDI格式；其主要包括两个部分：一是CNN--Bi-LSTM网络构建，二是引入注意力模型；主要流程为：首先获取大规模音频信号训练而成的特征向量矩阵，将其输出作为CNN--Bi-LSTM网络的输入，并引入注意力模型，再添加全连接层；通过混合算法模型可以学习到音频特征图中更多信息内容，既解决了单一模型存在拟合和梯度问题，又增加了学习能力，从而提高了模型的分类性能。