CN114219811A

CN114219811A - 基于特征金字塔和神经网络的轨道钢表面缺陷分割方法

Info

Publication number: CN114219811A
Application number: CN202111427740.XA
Authority: CN
Inventors: 刘屿; 萧华希; 兰炜圣; 陈子维
Original assignee: South China University of Technology SCUT; Guangzhou Institute of Modern Industrial Technology
Current assignee: South China University of Technology SCUT; Guangzhou Institute of Modern Industrial Technology
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-22
Anticipated expiration: 2041-11-26
Also published as: CN114219811B

Abstract

本发明公开了一种基于特征金字塔和卷积神经网络的轨道钢表面缺陷分割方法，该方法首先构建一个5层的图像金字塔；然后对金字塔每一层的图像提取5个特征图并将特征图放大到原来的尺寸；再将所有特征图输入到一个轻量级的卷积神经网络进行训练以及预测。该卷积神经网络只包含12个卷积块，参数量相比于现有常见的网络显著减少，同时训练时间和测试时间都比现有常见的网络要缩短；该卷积神经网络采用二值交叉熵函数和IOU函数作为损失函数，二值交叉熵函数能够提升单个像素的分类能力，通过设计较高的正样本权重，能够解决正负像素数量不均衡的问题；而IOU函数能够提高预测缺陷形状的精确度。

Description

基于特征金字塔和神经网络的轨道钢表面缺陷分割方法

技术领域

本发明涉及机器视觉和深度学习技术领域，具体涉及一种基于特征金字塔和卷积神经网络的轨道钢表面缺陷分割方法。

背景技术

轨道交通的发展正面临着提高速度和负荷的挑战，这极大地增加了轨道交通的压力。长期运行会使钢轨表面发热、磨损。钢轨磨损等缺陷是安全隐患，亟待解决。过去，钢轨上的缺陷都是由有经验的检验员来检测的。人工检测不仅需要大量的人力资源，而且还存在耗时、精度低等缺点。因此，自动无损检测系统具有巨大的市场需求。

在过去的十年中，基于视觉的缺陷检测方法已应用于各种工业产品，如钢铁、织物、太阳能电池、锂离子电池电极、薄膜晶体管液晶。总体而言可以将缺陷检测方法分成两大类，一是传统的视觉方法，二是基于深度学习的方法。传统的视觉方法有针对性，人为地提取特征来识别缺陷，可以快速地完成一些简单的缺陷分割任务。但对于稍微复杂的场景，如何组合不同的特征以及自适应的得到各种参数非常的困难，无法获得足够满意的结果。而基于深度学习的方法，基于梯度下降的优化算法，能够自适应地获得局部最优的参数。但是深度学习需要良好地硬件条件来支持，大型的网络训练和测试的时间都非常长，无法用于实时检测。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于特征金字塔和卷积神经网络的轨道钢表面缺陷分割方法。本发明通过传统视觉方法来提取多尺度特征，作为卷积神经网络的输入，本发明中所提出的卷积神经网络是一种轻量级的神经网络，使得训练时间和测试时间能满足在线检测需求，并且可以提升轨道钢表面缺陷的分割精度。

本发明的目的可以通过采取如下技术方案达到：

一种基于特征金字塔和卷积神经网络的轨道钢表面缺陷分割方法，所述分割方法包括以下步骤：

S1、以轨道钢表面图像作为输入图像I₀，通过对输入图像I₀依次进行多次尺寸缩放得到不同尺寸的图像，构建图像金字塔；

S2、对不同尺寸的图像依次提取多尺度特征图；

S3、搭建卷积神经网络；

S4、训练所述卷积神经网络；

S5、使用经过训练的卷积神经网络对轨道钢进行表面缺陷检测，输出缺陷分割结果。

进一步地，所述步骤S1中构建图像金字塔的过程如下：

S1.1、以轨道钢表面图像作为输入图像I₀，将输入图像I₀的尺寸缩放到1024×160，得到图像I₁。神经网络需要统一的图像尺寸，同时图像的尺寸每次减半之后还是偶数，保证图像的尺寸都是整数；

S1.2、将图像I₁的长和宽通过图像缩放算法依次缩小一半，重复4次，分别得到图像I₂、I₃、I₄、I₅，对应的尺寸分别为512×80、256×40、128×20、64×10，其中，所述图像缩放算法为双线性插值法。不同的尺寸的图像包含着不同尺度的信息，这些信息有助于缺陷分割；

进一步地，所述步骤S2中提取多尺度特征图的过程如下：

S2.1、将图像I₁的灰度范围从0～255归一化到0～1，归一化公式如下：I₁(i,j)＝I₁(i,j)÷255，其中i,j表示图像I₁的索引，I₁(i,j)表示图像I₁的第i行第j列的像素灰度值，i∈[1,H]，j∈[1,W]，H、W分别表示图像I₁的长和宽；

S2.2、将图像I₁灰度翻转，得到特征图f₁，公式如下：f₁(i,j)＝1-I₁(i,j)，其中f₁(i,j)表示二维图像特征图f₁的第i行第j列的像素灰度值。将图像反转后能增强灰度较小的暗缺陷。

S2.3、计算特征图f₂过程如下：

先计算图像I₁每一列像素的灰度平均值I_avg(j)和最小值I_min(j)，计算公式如下：

其中min(*)表示最小值函数，I_avg是一个一维向量，I_avg(j)表示向量的第j个值，I_min是一个一维向量，I_min(j)表示向量的第j个值；

计算一个单边阈值I_th(j)，并计算其均值m_th，计算公式如下：I_th(j)＝(I_avg(j)+I_min(j))/2，

其中I_th(j)表示一维向量I_th的第j个值。缺陷的灰度在平均值和最小值之间，使用阈值I_th(j)可以分割缺陷的背景；

然后将I_th(j)中大于m_th的部分置为m_th：

计算I₁(i,j)与I_th(j)的正距离D_c(i,j)：D_c(i,j)＝Relu(I_th(j)-I₁(i,j))，其中D_c(i,j)表示二维矩阵D_c的第i行第j列的值，函数Relu的表达式为：

其中x表示Relu函数的自变量。通过Relu函数将小于0的结果置为0，从而忽略这些像素，因为它们被判断为背景像素；

最后计算特征图f₂：f₂(i,j)＝D_c(i,j)*(I_avg(j)-I₁(i,j))，其中f₂(i,j)表示二维矩阵f₂的第i行第j列的值。D_c(i,j)大于0的点表示缺陷像素，使用灰度值到平均值的差值，即(I_avg(j)-I₁(i,j))，作为缺陷的显著度。值越大则说明该点作为缺陷的可信度越高；

S2.4、计算图像I₁的梯度图I_g，然后计算I_g每一列的均值m_g(j)，再与I_g相减得到特征图f₃，计算公式如下：

f₃(i,j)＝I_g(i,j)-m_g(j)，其中I_g(i,j)表示二维矩阵I_g的第i行第j列的值，m_g(j)表示一维向量m_g的第j个值，f₃(i,j)表示二维矩阵f₃的第i行第j列的值。缺陷的边缘有着比较强的梯度强度且至少强于平均梯度，因此f₃(i,j)能增强梯度强度大的点；

S2.5、使用卷积核k₁与图像I₁进行卷积，卷积结果记为I_k1，再与I₁相减得到特征图f₄，计算公式如下：

其中

表示卷积操作，

f₄＝Relu(I₁-I_k1)；

这一步是计算图像水平方向上局部窗口的局部均值，窗口大小为1×7；

S2.6、使用卷积核k₂与图像I₁进行卷积，卷积结果记为I_k2，再与I₁相减得到特征图f₅，计算公式如下：

f₅＝Relu(I₁-I_k2)，其中k₂＝k₁ ^T，上标T表示转置运算。这一步是计算图像垂直方向上局部窗口的局部均值，窗口大小为7×1；；

S2.7、将图像I₂～I₅依次重复步骤S2.1～S2.6提取多尺度特征图，将得到的特征图缩放到I₁的尺寸，最终得到25个特征图，即为多尺度特征图。

进一步地，所述卷积神经网络包含11个卷积块、一个最大池化层、一个转置卷积层、一个输出卷积层，其中，每个卷积块包含三个单元，分别是卷积层、归一化层、Relu激活函数层，卷积层的步长都为1；各个组成单位的参数如下：

第一卷积块中，卷积核大小为3×3，输入和输出通道数分别为25，64；

第二卷积块，卷积核大小为3×3，输入和输出通道数分别为64，64；

第三卷积块，卷积核大小为1×7，输入和输出通道数分别为64，64；

第四卷积块，卷积核大小为7×1，输入和输出通道数分别为64，64；

第五卷积块，卷积核大小为3×3，输入和输出通道数分别为64，64；

第六卷积块，卷积核大小为3×3，输入和输出通道数分别为64，64；

最大池化层，池化核大小为2×2，步长为2×2；

第七卷积块，卷积核大小为3×3，输入和输出通道数分别为64，128；

第八卷积块，卷积核大小为3×3，输入和输出通道数分别为128，128；

转置卷积层，卷积核大小为3×3，步长为2×2，输入和输出通道数分别为128，64；

第九卷积块，卷积核大小为3×3，输入和输出通道数分别为128，64；

第十卷积块，卷积核大小为3×3，输入和输出通道数分别为64，64；

第十一卷积块，卷积核大小为3×3，输入和输出通道数分别为64，64；

输出卷积层，卷积核大小为3×3，输入和输出通道数分别为64，1。

进一步地，所述步骤S3中搭建卷积神经网络的具体过程如下：

S3.1、将第一卷积块到第六卷积块按顺序串联，每个卷积块的输出是下一个卷积块的输入。串联卷积块能不断加深特征的深度，融合不同尺度的信息。

S3.2、最大池化层将第六卷积块的输出进行下采样，下采样结果作为第七卷积块的输入。下采样能够获得更多尺度的信息，丰富特征。

S3.3、将第七卷积块、第八卷积块串联；

S3.4、转置卷积层对第八卷积块的输出进行上采样，保证输出结果与原图像尺寸相同；

S3.5、将转置卷积层的输出和第六卷积块的输出进行拼接，组成128通道的数据，并作为第九卷积块的输入。这里融合了两个卷积的输出，通道数增加。

S3.6、将第九卷积块、第十卷积块、第十一卷积块按顺序串联，第十一卷积块的输出作为输出卷积层的输入；

S3.7、输出卷积层输出二值分割图。

进一步地，所述步骤S4中训练卷积神经网络的过程如下：

S4.1、构建带有缺陷分割二值标签图的训练集；

S4.2、将输入图像经过步骤S1，S2处理，提取出多尺度特征图，输入卷积神经网络；

S4.3、采用二元交叉熵函数和IOU函数计算卷积神经网络的输出结果与训练集的标签图的损失，；

S4.4、使用Adam优化算法进行参数更新，Adam算法对每个参数使用相同的学习率，并随着学习的进行而独立地适应。此外，Adam是基于动量的算法，利用了梯度的历史信息。

S4.5、训练10个周期后，重置Adam优化算法参数，再训练10×U个周期，U为大于等于1的整数。在训练前期，参数的变化较大，导致Adam算法中的学习率和动量也有较大的变化，影响后面周期的迭代更新。因此重置Adam参数能消除前10个周期的影响。

进一步地，所述二元交叉熵函数的计算公式如下：

其中l_CE为二元交叉熵函数，y_k是第k个预测值，y′_k为第k个标签值，w_p是正样本权重，w_p越大，则缺陷像素误判为背景像素造成的损失就越大，log()是以2为底的对数函数，N为图像中像素数量，N＝H×W，H，W为图像的长度和宽度。交叉熵函数能引导网络学习缺陷像素的特征；

进一步地，所述IOU函数的计算公式如下：

其中l_IOU为IOU损失函数，y_k是第k个预测值，y′_k为第k个标签值，log()是以2为底的对数函数，N为图像中像素数量，N＝H×W，H，W为图像的长度和宽度。IOU损失函数表示预测结果和真实值的缺陷形状和面积的区别，使得预测结果的缺陷像素数量接近真实数量。

进一步地，所述步骤S5中使用经过训练的卷积神经网络对轨道钢进行表面缺陷检测，输出缺陷分割结果具体过程如下：

S5.1、构建带有缺陷分割二值标签图的测试集，测试集用来测试并使用数据指标来量化方法的性能；

S5.2、输入图像经过步骤S1和步骤S2处理，提取出多尺度特征图，输入经过训练的卷积神经网络。网络测试过程中，网络的参数不需要更新；

S5.3、卷积神经网络输出最终的预测结果。预测结果中白色像素表示缺陷，黑色像素表示背景。使用预测结果和真实值计算方法的性能指标，包括准确率、召回率。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明通过构建图像金字塔获得不同尺度的图像，对不同的尺度的图像提取了五个根据缺陷特点设计的特征。第一个特征利用缺陷的灰度特征，增强了暗缺陷的显著度，第二个特征利用了图像的列方向的全局特征，分离出与背景不同的可能的缺陷点，第三个特征利用了梯度特征，增强了梯度强度大的像素点，第四，第五个特征，分别是行方向和列方向上的局部均值，包含图像的局部灰度信息。这些特征组成多尺度特征图能够有效帮助卷积神经网络的训练。普通的网络，只使用源图像作为输入，没有充分利用输入信息，需要使用大量的卷积块进行学习。对图像提取多尺度特征增加了图像信息，有效地帮助网络学习，使得网络只需要少量的卷积块就能获得满意的结果。同时，网络学习能力的提升，使得用来训练的样本数量也能较少，从而使得训练时间减少。；

(2)本发明搭建的卷积神经网络只包含12个卷积块，参数量相比于现有常见的网络显著减少，同时训练时间和测试时间都比现有常见的网络要缩短。这些性能的提升是多尺度特征带来的，一方面，多尺度特征的增加了网络的输入信息，使得网络需要的参数显著减少，而网络参数的减少可以缩短网络的训练时间和测试时间；另一方面，多尺度信息提升了网络的学习能力，使得用来训练的样本数量显著减少，也缩短了网络的训练时间。网络的前六个卷积块依次串联，并使用不同形状的卷积核，有效地融合输入特征。然后对特征进行下采样卷积后再上采样，这里使用了多尺度特征融合的思想。最后利用网络的预测能力，输出每个像素的类别；

(3)本发明构建的卷积神经网络训练过程的损失函数包括二值交叉熵函数和IOU函数，损失函数对网络的学习起着指导作用。单一的损失函数往往不能得到满意的效果，需要组合不同的损失函数。二值交叉熵函数能够提升单个像素的分类能力，但容易受到样本不均衡的影响。当负样本像素数量远多于正样本像素数量，网络会倾向于将正像素误判为负像素，导致预测结果的召回率低。通过设计较高的正样本权重，能够解决正负像素数量不均衡的问题，提高召回率，但同时又会使得网络的准确率降低；而IOU函数能够提高预测缺陷面积和形状的精确度，使得预测结果更接近真实值，但单一的IOU函数只关注形状信息，会使得训练过程不稳定，结果不可预测。因此结合交叉熵函数和IOU函数，既能保证召回率，又能保持准确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明公开的一种基于特征金字塔和卷积神经网络的轨道钢表面缺陷分割方法的流程图；

图2是本发明实施例中图像金字塔和多尺度特征提取过程示意图；

图3是本发明实施例中卷积块结构图；

图4是本发明实施例中卷积神经网络的结构图；

图5是本发明实施例中不同方法的分割结果示意图，从第一列到最后一列依次是：测试图像，标签，分别来自方法Unet++，Deeplab，Segnet和PFCNN的结果，其中PFCNN是本发明提出的分割方法的英文缩写名称。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例主要针对轨道钢表面提出了一种结合传统特征提取技术和深度学习的图像分割技术，先构建图像金字塔，再提取多尺度特征，然后将多尺度特征作为卷积神经网络的输入，训练卷积神经网络。经过训练的卷积神经网络能够完成轨道钢表面的缺陷分割任务。

图1是本实施例公开的一种基于特征金字塔和卷积神经网络的轨道钢表面缺陷分割方法的流程图，下面通过具体实施例来进行说明。一种基于特征金字塔和卷积神经网络的轨道钢表面缺陷分割方法，具体步骤如下：

本实施例中，步骤S1中构建图像金字塔的具体过程如下：

S1.1、以轨道钢表面图像作为输入图像I₀，将输入图像I₀的尺寸缩放到1024×160，得到图像I₁；

S1.2、将图像I₁的长和宽通过图像缩放算法依次缩小一半，重复4次，分别得到图像I₂、I₃、I₄、I₅，对应的尺寸分别为512×80、256×40、128×20、64×10，其中，所述图像缩放算法为双线性插值法。

S2、对不同尺寸的图像依次提取多尺度特征图；

本实施例中，步骤S2中提取多尺度特征图的过程如下：

S2.2、将图像I₁灰度翻转，得到特征图f₁，公式如下：f₁(i,j)＝1-I₁(i,j)，其中f₁(i,j)表示二维图像特征图f₁的第i行第j列的像素灰度值；

S2.3、计算特征图f₂过程如下：

其中I_th(j)表示一维向量I_th的第j个值；

然后将I_th(j)中大于m_th的部分置为m_th：

其中x表示Relu函数的自变量；

最后计算特征图f₂：f₂(i,j)＝D_c(i,j)*(I_avg(j)-I₁(i,j))，其中f₂(i,j)表示二维矩阵f₂的第i行第j列的值；

f₃(i,j)＝I_g(i,j)-m_g(j)，其中I_g(i,j)表示二维矩阵I_g的第i行第j列的值，m_g(j)表示一维向量m_g的第j个值，f₃(i,j)表示二维矩阵f₃的第i行第j列的值；

其中

表示卷积操作，

f₄＝Relu(I₁-I_k1)；

f₅＝Relu(I₁-I_k2)，其中k₂＝k₁ ^T，上标T表示转置运算；

S3、搭建卷积神经网络；该卷积神经网络包含11个卷积块、一个最大池化层、一个转置卷积层、一个输出卷积层，其中，每个卷积块包含三个单元，分别是卷积层、归一化层、Relu激活函数层，卷积层的步长都为1；各个组成单位的参数如下：

最大池化层，池化核大小为2×2，步长为2×2；

上述卷积神经网络的搭建过程如下：

S3.1、将第一卷积块到第六卷积块按顺序串联，每个卷积块的输出是下一个卷积块的输入；

S3.2、最大池化层将第六卷积块的输出进行下采样，下采样结果作为第七卷积块的输入；

S3.3、将第七卷积块、第八卷积块串联；

S3.4、转置卷积层对第八卷积块的输出进行上采样；

S3.5、将转置卷积层的输出和第六卷积块的输出进行拼接，组成128通道的数据，并作为第九卷积块的输入；

S3.7、输出卷积层输出二值分割图。

S4、训练所述卷积神经网络；本实施例中训练卷积神经网络的过程如下：

S4.1、构建带有缺陷分割二值标签图的训练集；

S4.2、将输入图像经过步骤S1和步骤S2处理，提取出多尺度特征图，输入卷积神经网络；

S4.4、使用Adam优化算法进行参数更新；

S4.5、训练10个周期后，重置Adam优化算法参数，再训练10×U个周期，U为大于等于1的整数。

上述二元交叉熵函数的计算公式如下：

其中l_CE为二元交叉熵函数，y_k是第k个预测值，y′_k为第k个标签值，w_p是正样本权重，log()是以2为底的对数函数，N为图像中像素数量，N＝H×W，H，W为图像的长度和宽度。

上述IOU函数的计算公式如下：

其中l_IOU为IOU损失函数，y_k是第k个预测值，y′_k为第k个标签值，log()是以2为底的对数函数，N为图像中像素数量，N＝H×W，H，W为图像的长度和宽度。

本实施例中，该步骤过程如下：S5.1、构建带有缺陷分割二值标签图的训练集；

S5.2、输入图像经过步骤S1和步骤S2处理，提取出多尺度特征图，输入经过训练的卷积神经网络；

S5.3、卷积神经网络输出最终的预测结果。

实施例二

在本实施例中，数据集总共包含67个样本，随机选取40％即27个样本作为训练集，剩下40个样本作为测试集，每个样本均包含一个或多个缺陷。实施例中，将三种基于卷积神经网络的方法与本发明提出的方法进行了比较，所有方法都使用相同的训练集和测试集。用来对比的三种方法分别是Unet++，Deeplab，Segnet，本发明提出的方法记为PFCNN。不同方法测量结果如下表1所示：

表1.不同方法的评价指标表

其中PR，RC，FM定义如下：

PR＝TP/(TP+FP)；RC＝TP/(TP+FN)；FM＝2×PR×RC/(PR+RC)

其中，TP表示缺陷像素预测为缺陷像素的个数，FP表示非缺陷像素预测为缺陷像素的个数，FN表示非缺陷像素预测为缺陷像素的个数。这三个指标是像素级形式的指标，PR′，RC′，FM′则是缺陷级的指标，定义如下：PR′＝TP′/P；RC′＝TP″/N_f；FM′＝2×PR′×RC′/(PR′+RC′)；

其中TP′表示被正确检测的缺陷数目，TP″表示被召回的缺陷数目。当预测的缺陷块与真实的缺陷块的重叠面积大于预测缺陷面积的一半时，则缺陷被正确检测；当一个真实的缺陷，存在若干个预测的缺陷块与之重叠，重叠面积大于真实缺陷面积的一半时，则缺陷被召回。P表示预测缺陷的总数目，N_f表示真实缺陷的总数目。以上六个评价指标的数值越高，则说明分割的精度越高，对应的方法越优秀。表2展示了不同神经网络的参数规模以及网络的预测时间：

表2.不同网络的参数规模和预测时间表

方法	Unet++	Deeplab	Segnet	PFCNN
					参数规模(MB)	105	680	337	5
预测时间(ms)	56	107	55	31

从表1可以看出，总的来说，本发明提出的方法的性能比实验中所有的比较方法都要好。在像素级别的指标上，有着最高的召回率和FM，有着第二高的准确率。在缺陷级别的指标上，同样有着最高的召回率和FM’，有着第二高的准确率，因此提出的方法在分割性能上要优于其他方法。从表2可以看出，本文所提出的网络在参数规模上远小于其他对比的网络，同时预测时间也比其他网络要短，因此提出的方法在实时性能上要优于其他网络。综合两个尺度的评价，对于轨道钢表面缺陷，提出的方法的分割性能优越，实时性能突出。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。