CN110781897B

CN110781897B - 一种基于深度学习的语义边缘检测方法

Info

Publication number: CN110781897B
Application number: CN201911003801.2A
Authority: CN
Inventors: 马伟; 龚超凡
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2023-05-02
Anticipated expiration: 2039-10-22
Also published as: CN110781897A

Abstract

本发明公开了一种基于深度学习语义边缘检测方法，核心为一个基于多层次特征融合的语义边缘检测深度神经网络模型。包括多层次特征学习、多层次特征抽取和多层次特征融合。训练分为三个步骤：模型参数的初始化、目标数据集准备和整体模型的训练。本发明具有以下优点：1)自底向上把低层次特征逐渐融合到高层次特征中，融合之后的高层次特征不仅语义判别能力得到加强，而且其所缺失的底层细节信息也得到补充，有利于提高语义边缘的检测效果；2)预先在大数据集上训练多层次特征学习模块，使它在目标数据集上能够学习到更丰富的多层次特征；3)采用数据增强技术扩充数据集，并对真值标签做预处理，加强了整体模型的学习能力。

Description

一种基于深度学习的语义边缘检测方法

技术领域

本发明属于图像处理与计算机视觉技术领域，涉及一种基于深度学习的语义边缘检测方法。

背景技术

图像语义边缘提取即检测图像中物体轮廓，并确定轮廓所属的物体类型，是计算机视觉研究中的一个重要课题。图像语义边缘提取也可为其它视觉任务提供有利帮助，例如图像分割、深度推理、遮挡推理、物体检测、三维重建等。但是由于受光照、噪声等问题影响，图像语义边缘检测极具挑战性。

近年来随着卷积神经网络的出现，其强大的多层次特征表达能力有力地促进了众多计算机视觉任务的发展，如图像语义分割、人体姿态估计、物体检测、立体匹配等。同样也促进了语义边缘检测任务的发展。卷积神经网络中的低层次特征如梯度、亮度、纹理等特征有利于边缘定位，其高层次语义特征有利于边缘分类。如何融合卷积神经网络中的多层次特征，实现准确的边缘提取和分类是语义边缘检测的核心问题。Yu等人在2017年的CVPR上发表的“CASENet:Deep Category-Aware Semantic Edge Detection”中，提取三个低层次的单通道特征，把它们直接融合到高层次语义边缘结果中，相比传统方法，语义边缘效果得以提升。但是，该方法的不同层次特征融合不充分，特征表达能力有限，所提取的边缘存在不连续、不光滑现象，且边缘分类准确度有限。

发明内容

本发明针对现有语义边缘检测方法的不足加以改进，提出一种基于深度学习的语义边缘检测方法，该方法自底向上逐渐融合卷积神经网络中的多层次特征，加强了模型整体的特征表达能力，语义边缘的位置和分类准确率均得到有效提高，证明了本方法具有更好的鲁棒性。

为实现这个目标，本发明的技术方案是：构建一种基于深度学习的语义边缘检测卷积神经网络模型，在目标数据集上对该模型训练，再利用已训练完成的模型处理待测图片，模型输出的K个通道激活值作为对应K种分类边缘的概率值。

本方法中的网络模型由以下三大模块构成：

一、多层次特征学习模块。使用常见的图片分类网络作为该模块的主要结构，输入一幅图像，可由该模块学习到从底到高不同层次的特征。

二、多层次特征抽取模块。该模块从多层次特征学习模块中抽取出M种不同层次的特征，用于后续特征融合，这里的M及各层次特征中所包含的具体通道数由用户自己指定。

三、多层次特征融合模块。该模块利用自底向上逐渐融合策略，把低层次特征逐渐融合到高层次特征中，融合之后的最高层次特征用于检测语义边缘。

本方法中的模型训练过程包含以下三个阶段：

一、模型参数的初始化。从语义分割数据集MS COCO中挑选出包含目标数据集分类的图片，用来预训练多层次特征学习模块。

二、目标数据集的准备。选择SBD作为目标数据集，并进行数据增强和真值标签预处理。

三、整体模型的训练。利用预训练好的参数和正太分布函数对网络参数初始化，并对多分类叉熵损失函数的权重做调整，用来更好地监督整体网络参数的更新过程。

有益效果

1)模型自底向上把低层次特征逐渐融合到高层次特征中，融合之后的高层次特征不仅语义判别能力得到加强，而且其所缺失的底层细节信息也得到补充，有利于提高语义边缘的检测效果；2)预先在大数据集上训练多层次特征学习模块，使它在目标数据集上能够学习到更丰富的多层次特征；3)采用数据增强技术扩充数据集，并对真值标签做预处理，加强了整体模型的学习能力。实验证明：相比现有方法，本发明得到的语义边缘，其光滑性、连续性更好，同时分类准确率进一步提升，对不同条件下的鲁棒性更强。

附图说明

图1为本发明方法的网络框架示意图；

图2为本发明实例中修改前后的ResNet101结构示意图，浅灰色区域代表池化操作，黑色区域代表修改后发生的变化；

图3为本发明所用到的两个核心结构，(a)为图1中所示的融合层(b)为图1中所示的残差层；

图4为应用实例实验结果：(a)为输入图像，(b)是采用Yu等人在2017年的CVPR上发表的“CASENet:Deep Category-Aware Semantic Edge Detection”中的方法检测结果，(c)为本发明方法的边缘检测结果；

具体实施方式

本发明基于深度学习的开源工具Caffe实现，使用GPU处理器NVIDIA GTX1080ti训练网络模型。

下面结合附图和具体实施方式对本发明方法中各个模块构成，以及方法模型的训练和使用过程做进一步说明，应理解文中的具体实例说明仅用于说明本发明，而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明的模块组成和流程如图1所示，具体包括如下模块：

一、多层次特征学习模块。

在深度学习领域中用于图片分类的网络有很多，该模块使用常见的图片分类网络即可，比如ResNet101，该网络模型是何凯明团队在2015年ImageNet竞赛上提出的“DeepResidual Learning for Image Recognition”方法。通常依据图片分类网络中的池化操作，可把网络划分为五个阶段，越靠后的卷积层所学到的特征层次越高。我们知道较大膨胀率的卷积核能在不增加卷积核参数的情况下，增加其感受野，具有类似于池化操作所带来的较大感受野优点，又没有池化操作所带来的空间细节信息损失缺点。为了保留更多的空间细节信息用于语义边缘检测，进一步，本实施例还可以对ResNet101做一些修改，具体为：ResNet101中第一阶段和第五阶段的池化层步长从2改为1；相应的在第二到第四阶段卷积层中使用膨胀率为2的卷积核，第五阶段膨胀率则为4；并把用于图片分类任务的第五阶段池化层以及之后的全连接层全部去掉，具体可参考图2所示。

二、多层次特征抽取模块。

本实施例中，我们依据修改后的ResNet101中卷积核的感受野放大倍数，抽取五种不同层次的特征，即M＝5，第m种层次特征为x_m，m＝1、2、...、5，它们分别来自1、4、8、16、32感受野放大倍数的卷积核，除此也可以依据分辨率缩放倍数来抽取四种不同层次特征，可由用户自己选择合适的标准。因此该模块对应的由五个并列的残差层构成，每个残差层包括1个1x1 Conv和两个3x3 Conv，其中第m个残差层的输入为x_m，输入特征经过1x1 Conv降维后依次经过两个3x3 Conv，得到的特征与经过1x1 Conv降维后的特征再相加，第m个残差层最终的输出即为相加后的特征f_m，M个残差层的输出构成多层次特征抽取模块的整体输出{f₁、f₂、...、f_m}，其中，第m个残差层的输出特征可用公式(1)表示：

f_m＝F_m(x_m)＝{C_3×3C_3×3(X_m)+X_m}，X_m＝C_1×1(x_m) (1)

C_3×3C_3×3代表两个连续的3x3 Conv；C_1×1代表1x1 Conv。残差层具体结构如图3(b)所示，主要由3个深颜色框的卷积层Conv构成，浅颜色框中的BN、Relu和Sum都没有参数需要学习。通过设置第m个残差层的第一个3x3 Conv较大的膨胀率

来获得更多语义信息，第二个3x3 Conv设置较小的膨胀率

来保留更多细节信息，这样可以同时提升语义边缘位置和分类的准确率，具体膨胀率设置为：

考虑到设备性能和时间开销，从第1个到第5个残差层抽取的特征通道数分别为32、64、128、256、512。

三、多层次特征融合模块。

卷积神经网络中不同层次特征所包含的信息不一样，低层次特征中包含很多基于亮度、颜色、纹理的边、角之类细节信息，可以用来给边缘定位，但是缺乏语义特征给边缘分类，而高层次特征刚好相反，融合不同层次的特征有利于语义边缘检测效果的提升。该模块由四个相同的融合层以及四个残差层组成，融合层用于融合相邻层次特征，残差层用于加强融合之后特征的表达力。这里残差层的具体结构与多层次特征抽取模块中的残差层结构相同，融合层具体结构如图3(a)所示，其中浅颜色框中的操作同样都没有额外参数需要学习，该结构不仅可以融合不同层次特征，而且可以对高层次特征中不需要的低层次细节信息进行筛选，使得融合后的特征不仅保留了高层特征所包含的丰富语义信息，而且也具有底层特征的丰富细节信息。本实施例中，该模块由4个并列的单元组成，每个单元由一个融合层和一个残差层串联而成，其中第1个单元的融合层输入为f₁和f₂，二者Concat连接后经过两个1x1 Conv来学习融合权重α₁，把学习到的α₁与f₁相乘，相乘的结果与f₂相加，相加的结果经过第1个单元的残差层2得到特征f′₂。后续单元中，第m个单元，其融合层输入则为f′_m和f_m+1，m＝2、3、...、4，学习到的融合融合权重为α_m，融合层的输出结果再经过第m个单元的残差层m+1得到特征f′_m+1，f′_m+1可用公式(3)表示：

α_m可用公式(4)表示：

α_m＝σ(C_1×1C_1×1(f′_m||f_m+1)) (4)

其中C_1x1C_1x1为两个连续的1x1 Conv，f′_m||f_m+1表示对特征f′_m和f_m+1进行Concat连接操作，σ为Sigmoid激活函数。

经过该模块的最后一个残差层，即残差层5，得到最终用于语义边缘检测的特征f′₅，f′₅经过1x1卷积核降维得到特征F_side5、Sigmoid激活后会得到K个通道的响应结果A_side5，第k个通道上像素点的值代表此像素属于当前第k个分类边缘的概率。A_side5具体可表示为：

其中，

代表A_side5上的第k个通道响应结果；

代表F_side5上的第k个通道特征；σ为Sigmoid激活函数。

训练阶段。

步骤一，模型参数的初始化。

这一过程主要目的是为本方法模型中的多层次特征学习模块提供一个较好的参数初始值，因为在深度卷积神经网络中，参数基于BP算法(反向传播算法)更新，而BP算法的本质是随机梯度下降，所以参数初始值的不同将会导致网络收敛到不同位置，好的参数初始值可以避免让网络陷入到局部最优解，同时可以加速网络模型的收敛过程。在深度卷积神经网络模型中，不同任务所需要的低层次特征类似，大多是一些基于亮度、颜色、纹理的边、角之类信息，在高层语义特征中会进一步抽象为各自任务所需要的特征，所以不同任务下学习的底层次特征具有通用性，可以把另一个较大数据集中学习到的参数直接迁移到目标数据集上，只需要稍微训练目标集，让网络模型进行参数微调即可，这个过程称为fine-tuning。在本方法中使用语义分割数据集MS COCO来预训练多层次特征学习模块的参数，该数据集拥有超过30万张不同场景下的图片，包含80个分类，目标尺度范围广，有利于加强该模块的特征学习能力。首先我们从COCO数据集中挑选出包含目标数据集上已有分类的图片，从中只保留图片类别标签信息，用于训练分类网络的图片分类能力。完成预训练之后，需要把训练好的参数迁移到本方法的多层次特征学习模块中去，在深度学习开源框架Caffe中，参数迁移过程很简单，只需要保证目标网络的网络层名字与已训练好网络的网络层名字相同即可。

步骤二，目标数据集的准备。

本方法用于训练的目标数据集为SBD(Semantic Boundaries Dataset andBenchmark)，此数据集是PASCAL VOC 2012的扩展集，PASCAL主要用于语义分割和实例分割任务，包含室内、室外常见物体共20个目标分类，外加背景类。SBD主要用于语义边缘检测，同时也保留了PASCAL上的语义分割信息，整个SBD数据集有11355张图片，其中8498张用来训练，8498张用来验证，每张图片宽高都在352～512个像素之内。本方法只使用训练集来训练模型参数，验证集用来测试结果。我们使用图像随机水平翻转、裁剪、尺度缩放三种技术增强数据集，裁剪尺寸为352x352像素大小，5个尺度缩放因子为0.5、0.75、1、1.25、1.5。SBD数据集中的边缘处像素分别属于两种标签，各自代表交界处的两类物体，这种边缘标签在实际中并不利于网络模型的训练，因为人为标记边缘标签时，难免会出现边缘位置不准确的现象，此时边缘处的两种标签会导致误差更大。在本方法中，边缘处像素都属于同一种标签，但是一种标签可以代表多个类别信息，此时同一边缘处的像素可以避免类别竞争现象，对标签真值中存在的人为误差容忍性更高，有利于网络的学习。通过遍历SBD中语义分割的真值，基于合适的搜索域，搜索分类id不一致的像素区域，即可得到这种边缘真值。具体实现可以参考Yu等人在2017年的CVPR上发表的“CASENet:Deep Category-Aware SemanticEdge Detection”方法。

步骤三，整体模型的训练。

整体模型训练之前，需要给它的参数进行初始化，初始化参数的好坏将直接影响到最终语义边缘检测效果。在多层次特征学习模块中，我们使用分类网络中预训练得到参数来初始化，而在多层次特征抽取模块和融合模块中，使用标准的截断正太分布函数对参数进行随机初始化，其中期望和方差分别取0和0.01。不同模块的参数学习率也不一样，因为多层次特征学习模块中的参数只需要微调即可，所以其学习率为5e-8，其它两个模块学习率为5e-7。这样在整体网络端到端训练时，可以保证多层次特征抽取和融合模块可以快速地适应多层次特征学习模块，同时又让多层次特征学习模块以较小的步幅来微调参数适应新的数据集。

在语义边缘检测方法中，通常使用带权重的多分类交叉熵损失函数来监督整体网络参数的更新过程，具体函数为：

其中I代表输入图片；

代表I对应的语义边缘真值，其中

代表属于分类K的边缘真值，每个分类的边缘真值可以看成一个二分类问题，即属于当前类的边缘或者不属于；

代表第k个通道上位置i上的像素值；W代表模型的参数；P(·)代表标准的Sigmoid激活函数，因此激活之后的像素值取值范围为0～1，越接近1表示属于当前类的边缘概率越大。α代表输入图片I中不属于边缘像素的个数占总像素个数的百分比，β代表属于边缘的像素百分比。在SBD数据集中，不属于边缘的像素超过98％，如果没有α和β两个权重，网络模型将不会收敛，此时模型会陷入非常糟糕的局部最优解，默认把所有像素点检测为背景。本方法中对α的值做了如下修改：

iter_cur代表当前网络训练次数；iter_max代表网络最大训练次数；根据不属于边缘的像素所占的百分比，设置α_init为0.98，当网络没有开始训练时iter_cur＝0，得到α＝α_init＝0.98，随着网络模型的训练次数增加，iter_cur的值逐渐增大导致α逐渐减小，α变化过程中始终保持α+β＝1，所以β值会从0.02逐渐增大，最终训练完成时iter_cur＝iter_max，α＝β＝0.5。本方法训练时所采用的基本学习率变化策略为“ploy”：

其中，power为学习率衰减指数，base_lr为基本学习率，实验证明这种修改后的多分类交叉熵损失函数和学习率变化策略“ploy”能够相辅相成，让网络收敛到更优位置，语义边缘效果最好。

使用阶段。

按照前述方法构建网络结构，初始化模型参数，准备数据训练集。当训练完成后，将待检测的图片输入已训练好的整体网络中，输出为该图片的语义边缘检测结果。

方法测试。

本发明公开的方法在SBD的验证集上进行测试，并与上述文中所提到的已公开方法CASENet进行对比，以此验证本发明得到的语义边缘，其光滑性、连续性更好，同时分类准确率进一步提升。对比的可视化结果如图4所示，(a)为输入图像，(b)是采用Yu等人在2017年的CVPR上发表的“CASENet：Deep Category-Aware Semantic Edge Detection”中的方法检测结果，(c)为本发明的边缘检测结果。对比的量化评测结果如表1所示，第一列是Yu等人CASENet的评测结果，第二列为本发明的评测结果，所采用的评测标准和Yu等人一样，指标采用所有类的平均F-measure值。

表一

CASENet	我们的方法
		71.4	77.2

一、可视化结果对比。

在图4第一行中，深色线条代表奶牛的边缘，浅色线条代表马的边缘，结果表明CASENet将输入图片中左下部分属于奶牛的边缘给错误的标记成了马的边缘，而本方法检测结果中边缘分类都正确。在第二行中，我们方法中边缘的光滑性、连续性相比CASENet更好。表明本方法通过自底向上逐渐融合卷积神经网络中的多层次特征，加强了模型整体的特征表达能力，语义边缘的位置和分类准确率均得到有效提高，证明了本方法具有更好的鲁棒性。除此，我们方法中的边缘也更细，有利于应用到实际场景中去，因为修改后的损失函数最终得到的α和β权重一样。

二、量化评测结果对比。

在表1的量化评测结果中，本方法指标达到77.2％，远远超过CASENet结果，提高了5.8个百分点，表明本方法中整体网络模型的特征表达能力比CASENet更强。

总结。

综上所述本发明公开了一种基于深度学习的语义边缘检测方法，主要阐述了本方法中网络模型的框架构成及其训练过程。整体框架包含三个模块：多层次特征学习模块、多层次特征抽取模块、多层次特征融合模块。训练过程主要分为三个阶段：模型参数的初始化、目标数据集准备和整体模型的训练。通过测试对比CASENet结果，证明了本方法使用的自底向上逐渐融合多个层次特征策略，能提高模型整体特征表达能力，最终使检测出来的语义边缘，其光滑性、连续性更好，同时分类准确率得到大幅度提升。

Claims

1.一种基于深度学习语义边缘检测方法，其特征在于：自底向上把低层次特征逐渐融合到高层次特征中，融合后的最高层次特征用于检测语义边缘；构建卷积神经网络模型，它能自底向上逐渐融合多个尺度特征；该模型先在语义分割数据集上对多层次特征学习模块进行预训练，之后把训练好的参数进行迁移，再对卷积神经网络模型进行整体训练，整体训练时使用的数据集为目标数据集，所述的目标数据集指由所述模型能够识别出的所有种类构成的数据集合；利用整体训练完成的模型处理待测图片，模型输出的K个通道激活值作为对应K种分类边缘的概率值；

其中，所述的卷积神经网络模型由以下三大模块构成：

多层次特征学习模块：该模块采用图片分类网络，输入一幅图像，得到从低到高不同层次的特征，该模块依据图片分类网络中的池化操作数量划分为5个阶段；

多层次特征抽取模块：该模块从多层次特征学习模块中选取M种不同层次的特征，第m种层次特征为x_m，m＝1、2、...、M，其中，M及各层次特征中所包含的具体通道数由用户自己指定，该模块由M个并列的残差层构成，每个残差层包括1个1x1 Conv和两个3x3 Conv，其中第m个残差层的输入为x_m，输入特征经过1x1 Conv降维后依次经过两个3x3 Conv，得到的特征与经过1x1 Conv降维后的特征再相加，第m个残差层最终的输出为相加后的特征f_m，M个残差层的输出构成多层次特征抽取模块的整体输出{f₁、f₂、…、f_M}，其中，第m个残差层的输出特征用公式(1)表示：

f_m＝F_m(x_m)＝{C_3×3C_3×3(X_m)+X_m}，X_m＝C_1×1(x_m) (1)

其中，C_3×3C_3×3代表两个连续的3x3 Conv；C_1×1代表1x1 Conv；

多层次特征融合模块：该模块通过自底向上逐渐融合策略，把低层次特征逐渐融合到高层次特征中，该模块由M-1个并列的单元组成，每个单元由一个融合层和一个残差层串联而成，其中第1个单元的融合层输入为f₁和f₂，二者Concat连接后经过两个1x1 Conv来学习融合权重α₁，把学习到的α₁与f₁相乘，相乘的结果与f₂相加，相加的结果经过第1个单元的残差层2得到特征f′₂，后续单元中，第m个单元，其融合层输入则为f′_m和f_m+1，m＝2、3、...、M-1，学习到的融合权重为α_m，融合层的输出结果再经过第m个单元的残差层m+1得到特征f′_m+1，f′_m+1用公式(2)表示：

α_m用公式(3)表示：

α_m＝σ(C_1×1C_1×1(f′_m||f_m+1)) (3)

其中C_1x1C_1x1为两个连续的1x1 Conv，f′_m||f_m+1表示对特征f′_m和f_m+1进行Concat连接操作，σ为Sigmoid激活函数；

该模块中的残差层与多层次特征抽取模块中的残差层结构一致，残差层5输出的特征f′₅用于语义边缘检测。

2.根据权利要求1所述的一种基于深度学习语义边缘检测方法，其特征在于：

所述的模型训练过程包含以下三个阶段：

(1)模型参数的初始化：从语义分割数据集中挑选出包含目标数据集分类的图片，用来预训练多层次特征学习模块；

(2)目标数据集的准备；

(3)整体模型的训练：利用预训练好的参数和正太分布函数对多层次特征学习模块参数初始化，并对多分类交叉熵损失函数的权重做调整，根据公式(4)实时更新多分类交叉熵损失函数的权重α和β：

其中，iter_cur代表当前网络训练次数；iter_max代表网络最大训练次数，α_init为0.98。

3.根据权利要求1所述的一种基于深度学习语义边缘检测方法，其特征在于：所述的多层次特征融合模块包含4个单元。