CN109711409A

CN109711409A - 一种结合U-net和ResNet的手写乐谱谱线删除方法

Info

Publication number: CN109711409A
Application number: CN201811361674.9A
Authority: CN
Inventors: 吴天龙; 李锵; 关欣
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2019-05-03

Abstract

本发明涉及一种结合U‑net和ResNet的手写乐谱谱线删除方法，包括下列步骤：将U‑net和ResNet进行结合，构建深度学习网络结构，建立适用于手写乐谱谱线删除的模型；深度学习网络的输入是原始的乐谱图像，真值标签是所对应的无谱线乐谱图像，输出是包含概率值的结果图像，根据具体的数据设置最后的阈值，可对结果图像完成二值化操作，得到最终的结果；数据增强；训练模型：利用训练集图像，对构建好的模型进行训练，再根据验证集数据进行参数微调，得到最优的模型参数。

Description

一种结合U-net和ResNet的手写乐谱谱线删除方法

技术领域

本发明涉及手写乐谱识别领域，通过图像处理和深度学习等技术完成手写乐谱的谱线删除任务。

背景技术

乐谱是将音乐的声音特性，如音高、间隔、节拍等通过用可视化的记号表示出来的音乐记录手段。乐谱的存在使得音乐可以在世界范围内进行传播交流，同时也是音乐爱好者学习的“教科书”。在印刷乐谱被广泛使用之前，大量的音乐作品都是以手写乐谱的形式进行保存着。然而，手写乐谱很容易受到损坏，并且存在丢失的风险。随着计算机的普及，信息的交流速度有了飞跃的提升。这时，手写乐谱的传播就变得十分缓慢。因此，需要将手写乐谱转换为数字化信息，存储在数据库中。由于存在着海量的手写乐谱，人工完成这项工作变得异常困难。所以需要一种自动乐谱识别系统——将手写乐谱转换为计算机可“读懂”的数字信息，因此产生了光学乐谱识别(OpticalMusicRecognition,OMR)系统。

由于谱线的存在给OMR系统后面的音符识别模块造成了很大的障碍，几乎所有研究OMR系统的人员都提出了一种谱线删除算法。标准形式的乐谱谱线表现为一组(一般为五条)水平的细线，但对于手写乐谱来说，谱线变得复杂多变，例如弯曲变形、线宽不固定以及间断缺失等。这样谱线删除的任务变得并不容易。因此，急需一种鲁棒性很强的谱线删除算法，能够适用于多种类型的手写乐谱。

我们提出了一种基于深度学习分割的手写乐谱谱线删除方法。将U-net和res-net相结合，成分利用了两种网络的优点，适合复杂多变的手写乐谱谱线删除任务，是一种端到端的模型，只需要对原始图像做简单的切割即可，不仅对二值图像有着很好的效果，而且对灰度图像也可以直接进行分割。

U-net是由Ronneberger等^[1]在2015年提出的，最初应用在生物学图像领域，如细胞分割等。U-net神经网络是卷积神经网络的一种，基本结构采用了全卷积神经网络的方法，网络结构不包括全连接层，由于整体网络结构形状类似U型，所以称为U-net，其基本网络结构如图1所示。整体结构和自编码器的结构一样，分别包括左侧的编码阶段和右侧的解码阶段。其中左侧的编码阶段又称为收缩路径，收缩路径结构就是基本的卷积神经网络结构，包括基本的卷积层、下采样层和激活函数层。由于每层的特征图像需要进行收缩，所以在进行卷积等操作时，不需要额外增加填充。卷积核通常采用2个重复的3×3卷积核，这样，在经过每层的卷积操作时，都会得到加倍的特征图。下采样层可以使用2×2并且步长为2的池化层，激活函数可选择线性激活单元RELU。在网络结构右侧的解码阶段又称为扩张路径，扩张路径的网络结构通常与收缩路径呈现镜像关系，与收缩路径不同的是，在每组卷积部分后，并不是下采样的网络结果，其采用了反卷积方法进行了上采样，这样增大了特征图，用于实现高分辨率的图像分割。同时在每次上采样后，又将下采样对应的特征图复制过来，与当前的特征图进行级联，最大限度保留了数据中的有效信息，能够实现高精细的分割任务。在网络结构的最后一层，使用了1×1的卷积核，可以得到每个最终的分类预测结果。U-net可以对任意大小的输入图像进行处理，具体的网络结构可根据实际任务进行调整，使其在完成分割任务的前提下，尽可能的减小模型的复杂性。

在近今年，深度学习领域不断发展，网络结构也更加的复杂，同时由于更深层的网络可以表达更复杂的函数，深度学习网络向着更深的层次发展，这样可以学习到更优的深层特征，最终带来更好网络准确性能。但是，随着网络结构的加深，也给训练学习增加了很大的困难。深层网络使得训练时间更久，在资源有限和数据集较大的情况下，很难做到快速的训练。同时，在进行梯度反向传播过程中，容易产生梯度消失或者梯度爆炸等问题，给训练带来了很大的阻碍。而且，随着网络的加深，网络的性能有可能不会继续提升，甚至可能变得更差。ResNet网络结构^[2]的提出，有效改善了这些问题，并且在图像识别和分割等领域取得了较好的结果。

ResNet网络的基本结构单元如图2所示。在基本的网络结构中，增加了可以跳过几个层的跳跃连接，这样可以将跳跃层输入数据直接传到网络的后面结构。增加了跳跃层结构并没有增大网络的复杂度，同样可以像其它深度学习模型一样，使用反向传播梯度的方法进行优化，进行端到端的训练。在这组结构中，输出y可以表示为：

y＝F(x)+x (1)

其中F(x)表示当前网络部分的残差，x表示当前网络结构的输入，y表示当前网络结构的输出。

如果输出和输入的维度不一致时，可以对输入x进行映射，将其与一个映射矩阵相乘，这样上面的公式就可以改写为

y＝F(x)+wx (2)

其中w为变换矩阵。

参考文献：

[1]Ronneberger O,FischerP,Brox T.U-net:ConvolutionalNetworksforBiomedical Image Segmentation[J].2015,9351:234-241.

[2]He K,Zhang X,Ren S,et al.Deep Residual Learning for ImageRecognition[J].2015:770-778.

发明内容

本发明的目的是提供一种可以提高音符识别准确率的手写乐谱谱线删除方法。本发明将图像处理技术和深度学习技术应用在手写乐谱的谱线删除任务中，作为OMR系统的前置处理模块，为后面的音符识别模块去除了谱线这一强噪声，从而提高了音符识别的准确率。技术方案如下：

一种结合U-net和ResNet的手写乐谱谱线删除方法，包括下列步骤：

1)将U-net和ResNet进行结合，构建深度学习网络结构，建立适用于手写乐谱谱线删除的模型：构建U-net网络结构，收缩路径经过4次下采样使图像尺寸由512*512缩小到32*32，扩张路径经过4次上采样使图像尺寸由32*32扩大到512*512，每次下采样和上采样都由5个卷积组，每个卷积组包括卷积层、RELU激活函数层和BN标准化层，下采样部分最后增加池化层，池化层为2*2卷积核并且步长为2，而上采样层最后增加反卷积层，反卷积层采用双线性内插进行填充。构建ResNet网络结构，扩张路径的每次上采样后都从对应尺寸的收缩路径进行ResNet跳跃连接，每次下采样和上采样的5个卷积组中，中间的3个卷积组增加了ResNet跳跃连接；

深度学习网络的输入是原始的乐谱图像，真值标签是所对应的无谱线乐谱图像，输出是包含概率值的结果图像，根据具体的数据设置最后的阈值，可对结果图像完成二值化操作，得到最终的结果；

2)数据增强；

3)训练模型：利用训练集图像，对构建好的模型进行训练，再根据验证集数据进行参数微调，得到最优的模型参数。

本发明采用监督学习的方法，将U-net和ResNet相结合，训练深度学习网络模型，通过验证集对网络超参数进行微调，进行手写乐谱的谱线删除，与一些经典的方法相比较，优势主要体现在：

新颖性：使用U-net和ResNet相结合的方法，用于手写乐谱谱线删除领域，相比传统方法，取得了较好的效果。

鲁棒性：使用本发明的算法可以适用各种复杂多变的手写乐谱，能够克服一些传统算法对某种非理想乐谱表现很差的缺点，具有很强的稳定性。同时，可以直接使用灰度图像进行训练，不需要进行二值化操作。

在手写乐谱图像测试中，可以很好的完成谱线删除工作。

附图说明

图1 U-net网络结构

图2 ResNet跳跃连接结构

图3 网络结构

图4 网络参数

图5 系统流程

图6 二值图像结果对比

图7 灰度图像结果对比

具体实施方式

下面结合附图与实例对本发明作进一步说明。

1)构建网络。

本发明采用的网络结构如图3所示。其中主要结构包括U-net收缩路径，图像尺寸由512*512收缩至32*32，用来检测感兴趣区域特征，与之相对的是U-net的扩张路径，图像尺寸由32*32扩张至512*512，用来产生最终的预测，扩张路径的每次上采样后都从对应的收缩路径复制级联特征图像进行加和，这样可以获得不同分辨率的上下文信息。基本的卷积模块组包括卷积层、RELU激活函数层和BN标准化层。在每组下采样和上采样部分中，包括5个基本卷积模块，在中间3个卷积模块增加了ResNet的跳跃连接，下采样部分最后增加了池化层，池化层为2*2卷积核并且步长为2，而上采样层最后增加了反卷积层，反卷积层采用双线性内插进行填充。具体的网络结构和具体的层数尺寸设置在图4做了详细介绍。

U-net扩张路径每次都从对应的收缩路径获取特征图像进行级联，而本发明将这种级联方式改为求和，这就和ResNet跳跃连接的处理方法一样。这样整个网络的跳跃连接都采用了ResNet的方法，可以采用深层次的网络结构，很好地防止了梯度反向传播时可能引起的梯度消失和梯度爆炸问题。在每组下采样和上采样部分，同样使用了ResNet的跳跃连接方法，可以将信息通过跳跃方式直接传到后面的网络中。

在收缩路径中，每次进行池化操作后，所得到的特征图都增加了两倍，在特征图尺寸为32×32之后的网络结构，将进行扩张路径的上采样层，这样每次操作后得到的特征图都降低了一半。这样可以保持扩张路径和收缩路径之间的镜像对称关系。在每组跳跃层前后都有一个卷积层，可以用来保证输入和输出之间尺寸的一致性，并且可以使整体网络具有对称关系。

网络的输入是原始的乐谱图像，真值标签是所对应的无谱线乐谱图像。输出是包含概率值的结果图像。根据具体的数据设置最后的阈值，可对结果图像完成二值化操作，得到最终的结果。

2)数据增强。

将原始图像进行旋转操作，每隔45度旋转一次，对于每一张原始图像，可以获得八张增强图像，同时对原始图像还进行了对称镜像的反转操作。另一种有效的操作是增加了不同程度的退化操作，包括水平和垂直方向的拉伸，拉伸幅度为5％。原始图像进行叠加噪声，对部分图像增加了信噪比为0.8的椒盐噪声。同时，在训练阶段，对输入数据加入随机排序。

3)训练模型。

首先对原始的乐谱图像进行数据增强操作，扩大训练数据集，真值标签也需要做相同的处理操作。然后将训练数据和对应的真值标签图像分割成大小为512*512的图像块，将分割后的原始图像和真值标签水平拼接在一起，构成训练数据的一个样本。然后进行模型的训练阶段，得到最优的模型参数，保存模型。最后利用测试集的乐谱图像对模型进行测试评估。具体的算法流程图如图5所示。

4)效果评估

根据上述的算法流程进行实验，并分别对GREC/ICDAR 2013手写乐谱谱线删除竞赛数据集中的二值图像和灰度图像进行模型训练，得到不同的网络模型。图6和图7分别为二值乐谱图像和灰度乐谱图像的处理结果片段。全部测试数据集上平均F-measure分别为98.88％和99.09％，说明本发明具有很好的性能。

Claims

1.一种结合U-net和ResNet的手写乐谱谱线删除方法，包括下列步骤：

2)数据增强；