CN106910185B

CN106910185B - 一种基于cnn深度学习的dbcc分类模型构建方法

Info

Publication number: CN106910185B
Application number: CN201710025117.9A
Authority: CN
Inventors: 李良福; 马卫飞; 李丽; 张玉霞
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2019-01-01
Anticipated expiration: 2037-01-13
Also published as: CN106910185A

Abstract

本发明公开了一种基于CNN深度学习的DBCC分类模型及构建方法,DBCC分类模型包括4层卷积层、3层池化层和2层全连接层,该DBCC分类模型采用softmax loss函数作为损失函数,第一卷积层、第四卷积层、第二池化层、第三池化层、第一全连接层后面各添加了一个激活函数(RELU),并且,在第一卷积层后面添加局部响应值归一化层LRN,在第一全连接层后面添加dropout层。本发明的DBCC分类模型是基于卷积神经网络CNN而构建的,通过在每个卷积层中使用更多的卷积核以及添加LRN、使用dropout、加深网络深度,使得该DBCC分类模型在识别16*16pixel分辨率的小图片时,识别精度更高。

Description

一种基于CNN深度学习的DBCC分类模型构建方法

技术领域

本发明属于图像处理与计算机视觉领域，具体涉及一种基于CNN深度学习的DBCC分类模型构建方法。

背景技术

桥梁作为道路，公路，铁路等交通系统的枢纽，需要定期的对其健康状况做出评估，而桥梁裂缝作为最主要的桥梁病害之一，严重影响着桥梁的安全运营，更为严重的会发生桥毁人亡的事故。因此，对桥梁裂缝进行有效的检测识别至关重要。

目前对桥梁裂缝检测的研究，大部分是基于图像处理算法进行的。图像处理算法的核心是窗口滑动算法、构建训练集以及利用训练集训练分类模型。具体地，利用窗口滑动算法和采集来的桥梁裂缝图片构建好训练集之后，需要利用训练集训练桥梁背景面元和桥梁裂缝面元的一个分类模型。

基于彩色的桥梁裂缝图片进行的桥梁裂缝检测定位中，该桥梁裂缝面元和背景面元均为16*16pixel分辨率的小图片，而在深度学习中，对于小图片的识别有一个经典的深度学习模型CIFAR10模型。但是，如果直接把CIFAR10模型用于对桥梁裂缝面元和背景面元的分类识别，其效果并不理想，并且由于CIFAR10模型针对的是32*32pixel分辨率的小图片识别，会导致最终在整幅桥梁裂缝图片上桥梁裂缝识别不准确，裂缝识别精度差等问题。

发明内容

本发明的目的是克服CIFAR10模型针对16*16pixel分辨率的小图片识别不准确，裂缝识别精度差的问题。为此，本发明提供了一种基于CNN深度学习的DBCC分类模型及构建方法。本发明要解决的技术问题通过以下技术方案实现:

一种基于CNN深度学习的DBCC分类模型构建方法，包括以下步骤:

步骤一、以卷积方式将输入的原始图片与第一卷积层中的所有卷积核进行卷积求和，得到第一卷积层的特征映射图；

步骤二、在第一卷积层后添加一Relu激活函数；

步骤三、在第一卷积层后添加一用于图片明亮度矫正的局部响应值归一化层，所述局部响应值归一化层提升了网络的识别效果；

步骤四、将第一卷积层的特征映射图在第一池化层中进行下采样，降低分辨率并选取优秀的特征，作为第一池化层的特征映射图；

步骤五、在第二卷积层上以卷积方式将第一池化层的特征映射图与第二卷积层中的所有卷积核进行卷积求和，得到第二卷积层的特征映射图，将第二卷积层的特征映射图在第二池化层中进行下采样，降低分辨率并选取优秀的特征，作为第二池化层的特征映射图；

步骤六、在第二池化层后添加一Relu激活函数后在第三卷积层上以卷积方式将第二池化层的特征映射图与第三卷积层中的所有卷积核进行卷积求和，得到第三卷积层的特征映射图，将第三卷积层的特征映射图在第三池化层中进行下采样，降低分辨率并选取优秀的特征，作为第三池化层的特征映射图；

步骤七、在第三池化层后添加一Relu激活函数后在第四卷积层上以卷积方式将第三池化层的特征映射图与第四卷积层中的所有卷积核进行卷积求和，得到第四卷积层的特征映射图；

步骤八、在第四卷积层后添加一Relu激活函数后将第四卷积层的特征映射图输出至第一全连接层，并且，在第一全连接层后添加用于防止过拟合的Dropout层；

步骤九、将步骤八中Dropout层得到的特征映射图输出至第二全连接层，在所述第二全连接层后采用一softmax loss函数作为损失函数，最后一层即输出桥梁背景面元和桥梁裂缝面元在本次识别过程中所属类别的概率；

上述步骤一至步骤九中，卷积层具体的计算过程如公式(1)所示:

其中，X^(l-1)为第层的特征映射图，W^(l)为当前卷积层的卷积核，b^(l)为偏置项，f为激活函数，X^(l)为第卷积层最终得到的特征映射图。

上述的一种基于CNN深度学习的DBCC分类模型构建方法，所述第一卷积层、第二卷积层、第三卷积层及第四卷积层的卷积核的数量分别为:32、64、128、256。

上述的一种基于CNN深度学习的DBCC分类模型构建方法，为防止桥梁裂缝面元和桥梁背景面元图片的尺寸减小过快，特征映射图均添加大小为2pixel的边距。

上述的一种基于CNN深度学习的DBCC分类模型构建方法，所述Dropout层的取值为0.55。

一种基于CNN深度学习的DBCC分类模型，卷积单元，采用卷积核将输入的特征映射图进行卷积求和，该卷积单元由4个卷积层构成；

池化单元，用于对卷积后的特征映射图进行下采样，降低特征映射图的分辨率并且选取优秀的特征；该池化单元由3个池化层构成，并且，3个池化层分别交叉设置在4个卷积层之间；

分类单元，通过全连接层将卷积单元输出的特征映射图输入至softmaxloss函数进行分类，并给出分类结果，该分类单元由2个全连接层构成；

其中，第一卷积层、第四卷积层、第二池化层、第三池化层、第一全连接层后面各添加了一个激活函数(RELU)，并且，在第一卷积层后面添加局部响应值归一化层LRN，在第一全连接层后面添加dropout层。

与现有技术相比，本发明的有益效果:

本发明的DBCC分类模型是一种基于卷积神经网络的深度学习模型，通过在每个卷积层中使用更多的卷积核以及添加LRN，使用dropout加深网络深度，使得该DBCC分类模型在识别16*16pixel分辨率的小图片时，识别精度高。和基于传统的深度学习模型直接进行的桥梁裂缝检测相比，基于DBCC分类模型进行的桥梁裂缝检测，检测出来的裂缝更加的完整，后期桥梁裂缝的定位和桥梁裂缝面积的计算，更加的准确，这些对于正确的评价桥梁的健康情况极其重要。

附图说明

图1是本发明的结构示意图。

图2是DBCC-A模型数据表。

图3是DBCC-B模型数据表。

图4是DBCC模型数据表。

图5是桥梁裂缝检测定位的流程图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例1:

参照图1-图4，一种基于CNN深度学习的DBCC分类模型构建方法，包括以下步骤:

(1)以卷积方式将输入的原始图片与第一卷积层中的所有卷积核进行卷积求和，得到第一卷积层的特征映射图；

(2)在第一卷积层后添加一Relu激活函数；

(3)在第一卷积层后添加一用于图片明亮度矫正的局部响应值归一化层，所述局部响应值归一化层提升了网络的识别效果；

(4)将第一卷积层的特征映射图在第一池化层中进行下采样，降低分辨率并选取优秀的特征，作为第一池化层的特征映射图；

(5)在第二卷积层上以卷积方式将第一池化层的特征映射图与第二卷积层中的所有卷积核进行卷积求和，得到第二卷积层的特征映射图，将第二卷积层的特征映射图在第二池化层中进行下采样，降低分辨率并选取优秀的特征，作为第二池化层的特征映射图；

(6)在第二池化层后添加一Relu激活函数后在第三卷积层上以卷积方式将第二池化层的特征映射图与第三卷积层中的所有卷积核进行卷积求和，得到第三卷积层的特征映射图，将第三卷积层的特征映射图在第三池化层中进行下采样，降低分辨率并选取优秀的特征，作为第三池化层的特征映射图；

(7)在第三池化层后添加一Relu激活函数后在第四卷积层上以卷积方式将第三池化层的特征映射图与第四卷积层中的所有卷积核进行卷积求和，得到第四卷积层的特征映射图；

(8)在第四卷积层后添加一Relu激活函数后将第四卷积层的特征映射图输出至第一全连接层，并且，在第一全连接层后添加用于防止过拟合的Dropout层；

(9)将步骤八中Dropout层得到的特征映射图输出至第二全连接层，在所述第二全连接层后采用一softmax loss函数作为损失函数，最后一层即输出桥梁背景面元和桥梁裂缝面元在本次识别过程中所属类别的概率；

上述(1)至(9)中，卷积层具体的计算过程如公式(1)所示:

其中，X^(l-1)为第层的特征映射图，W^(l)为当前卷积层的卷积核，b^(l)为偏置项，f为激活函数，X^(l)为第卷积层最终得到的特征映射图；

设当前层包含N个大小为的特征映射图，卷积核大小为(Kx，Ky)，卷积核在x和y方向上的滑动步长为Sx和Sy，为了最终结果除为整数，可以对当前层的特征映射图添加大小为pad的边界，使得特征映射图经过卷积之后，卷积的结果可以完全落在图片内部，则卷积后特征映射图的大小为具体计算过程如公式(2)所示:

其中，l表示当前层数，l-1表示前一层。

上述(1)至(9)中，池化层的主要作用是对特征映射图进行下采样，降低特征映射图的分辨率并且选取优秀的特征。池化层不仅可以显著减少神经元的个数，而且还使得模型具有更好的抗噪能力。

设子采样函数为down(X^l)，子采样函数通常有两种:最大池化(Maximum Pooling)和平均池化(Average Pooling)，具体计算如公式(3)所示:

其中，a_i为池化区域的神经元，R_k为池化区域神经元的集合，|R_k|为池化区域神经元的总个数，pool_max(R_k)为池化区域所有神经元的最大值，pool avg(R_k)为池化区域所有神经元的值的平均值。输出特征映射图大小的计算和卷积层的类似，具体计算公式可参考公式(2)。

为了增强网络的表达能力，本实施例引入了连续的非线性激活函数(ActivationFunction)。网络中一般采用的激活函数有sigmod函数和rectifier(Relu)函数。具体计算如公式(4)所示:

由于激活函数Relu一般被认为有生物上的解释，并且Relu已经被证明比sigmod函数的拟合效果更好。因此，DBCC模型中的激活函数选择使用Relu激活函数。

将第一卷积层的特征映射图作为输入，经过Relu激活函数的计算，得到增强网络表达能力的第一卷积层特征映射图，将增强网络表达能力的第一卷积层特征映射图作为输入，经过局部响应值归一化层，得到提升网络识别效果的第一卷积层特征映射图。

将第二池化层的特征映射图作为输入，经过Relu激活函数的计算，得到增强网络表达能力的第二池化层特征映射图；将第三池化层的特征映射图作为输入，经过Relu激活函数的计算，得到增强网络表达能力的第三池化层特征映射图；将第四卷积层的特征映射图作为输入，经过Relu激活函数的计算，得到增强网络表达能力的第四卷积层特征映射图；将第一全连接层的特征映射图作为输入，经过Relu激活函数的计算，得到增强网络表达能力的第一全连接层特征映射图。

将第二全连接层的特征映射图作为输入，经过softmax loss函数的计算，得到桥梁背景面元和桥梁裂缝面元在本次识别过程中所属类别的概率。

图1中，In表示输入的图片数据，C表示卷积层，P表示池化层，FC表示全连接层，S表示softmax函数，Out表示输出，Relu表示激活函数Relu，LRN表示局部响应值归一化，D表示Dropout层。

本实施例还公开了一种基于CNN深度学习的DBCC分类模型，包括4层卷积层、3层池化层和2层全连接层，该DBCC分类模型采用softmax loss函数作为损失函数，其特征在于，第一卷积层、第四卷积层、第二池化层、第三池化层、第一全连接层后面各添加了一个激活函数(RELU)，并且，在第一卷积层后面添加局部响应值归一化层LRN，在第一全连接层后面添加dropout层。

具体地，DBCC首先使用了4层卷积层(C1～C4)，3层池化层(P1～P3)，2层全连接层(FC1～FC2)，最后采用softmax loss函数(S)作为损失函数。在C1，C4，P2，P3，FC1后面各加一个激活函数(RELU)，同时，在第一卷积层后面添加LRN层，FC1后面添加dropout层。最后一层输出桥梁背景面元和裂缝面元这两类面元，每一类所对应的概率值。卷积核数目从32开始，每经过一次卷积层，卷积核的数目翻倍。直到256为止。偏置项值初始化为0.1。

在卷积层，每一个卷积核都可以被看成一个特征提取器，卷积层中每一幅输出的特征映射图(Feature Map)都可以被看成输入图像经过一个卷积核进行特征提取之后的结果，但是通过对各卷积层的输出结果进行可视化对比可知，并不是每一个卷积核都可以成功提取输入图像的特征，从而得到有效的特征表达(特征映射图)。因此，为了增强卷积层的表示能力，对输入图像的特征进行充分的提取，和CIFAR10模型相比，DBCC模型在各卷积层都使用了更多的卷积核。

LRN完成了一种“邻近抑制”操作，对局部输入区域进行了归一化操作.可以用于图片明亮度的矫正，而桥梁裂缝图片由于光照，阴影等因素，会出现图片亮度不均的问题，因此，和CIFAR10模型相比，DBCC模型添加了局部响应值归一化层LRN，添加LRN层会提升网络的识别效果。

Dropout是指在训练模型时，随机的让网络中某些隐含层的节点暂时不工作，不工作的那些节点可以暂时的认为不是网络结构的一部分，但是它们的权重保留下来(暂时不更新)，而下次样本输入的时候，随机的选择，它们可能又可以工作。所以，每一次的样本输入，都相当于随机选取了一个不同的网络结构进行训练，但是这些不同的网络却共同训练出了共享的权值。因此，Dropout可以看做是不同学习模型之间组合的一种替代方法，而使用不同的模型训练同一样本又是防止过拟合的一种方法，因此，Dropout可以有效的防止过拟合。由于训练DBCC模型的数据集较小，因此，采用更大概率的Dropout进行补偿，Dropout取值0.55。

实验结果表明，网络的深度在一定条件下，越深结果越好，因此，针对16*16pixel大小的桥梁裂缝面元和桥梁背景面元图片，为了尽可能的加深网络结构的深度，DBCC模型对特征映射图添加了大小为2的边距，以避免原本尺寸就小的桥梁裂缝面元和桥梁背景面元图片的尺寸减小过快。

本实施例中，优选DBCC分类模型的四层卷积层每一层所采用的卷积核的数量分别为:32、64、128、256。

参照图1-图4，本实施例的建模思路是:

1)根据桥梁裂缝面元图像和桥梁背景面元图像的特点、图像分辨率，并且在研究经典的深度学习模型的基础之上，依照卷积层->池化层->激活函数的基本思路，提出一种基本的DBCC_A模型。DBCC_A模型的具体模型参数如图2所示，其中，图2中卷积层的参数按照conv<卷积核的大小>-<步长>-<拓展边界>-<卷积核数量>来定义，类似的最大池化层的参数按照MP<池化层的大小>-<步长>-<拓展边界>-<特征映射图数量>来定义，平均池化层的参数按照AVE<池化层的大小>-<步长>-<拓展边界>-<特征映射图数量>来定义，并且在第一、第四卷积层，第二、第三池化层和第一全连接层后面各添加一个激活函数(RELU)。具体的模型数据如图2所示。

2)在卷积层，每一个卷积核都可以被看成一个特征提取器，卷积层中每一幅输出的特征映射图(Feature Map)都可以被看成输入图像经过一个卷积核进行特征提取之后的结果，但是，并不是每一个卷积核对可以成功的提取输入图像的特征，因此，合理的增加每一卷积层的卷积核的数量，可以对输入图像的特征进行充分的提取。因此，基于这一原理，本实施例在成功提出DBCC_A模型的基础之上，根据卷积核数量随着卷积层翻倍的思想对DBCC_A模型进行了改进，并且提出DBCC_B模型，具体的模型参数如图3所示。

3)局部响应值归一化层LRN完成了一种“邻近抑制”操作，对局部输入区域进行了归一化操作.可以用于图片明亮度的矫正，而桥梁裂缝图片由于光照，阴影等因素，会出现图片亮度不均的问题。针对这一问题，本实施例对已经提出的DBCC_B模型进行了改进，具体的做法是在第一层的池化层后面添加局部响应值归一化层LRN，并依此提出DBCC模型。

4)Dropout层可以看做是不同学习模型之间组合的一种替代方法，而使用不同的模型训练同一样本又是防止过拟合的一种方法，因此，本实施例在DBCC模型的基础之上，在第一全连接层的激活函数层后面添加Dropout层，并依此，最终提出DBCC分类模型。最终的DBCC分类模型的网络结构示意图如图1所示。DBCC分类模型的具体模型参数如图4所示。

本发明的DBCC分类模型采用全模型网络结构，通过在每个卷积层中使用更多的卷积核以及添加LRN，使用dropout加深网络深度，使得该DBCC分类模型在识别16*16pixel分辨率的小图片时，识别精度高。

实施例2:

参照图5，详细叙述桥梁裂缝检测定位的操作过程:

第一步，利用图像采集设备采集五种不同背景纹理、不同材质的桥梁裂缝图片，采集的图片总数为2000张，并将所有的图片归一化为1024*1024分辨率的图片，将这2000张图片分为2个数据集，人工扩增数据集和测试数据集，每个数据集1000张；

第二步，使用W*H固定大小的窗口在人工扩增数据集中的1000张图片上不重叠的进行滑动，同时，将滑动窗口覆盖下的桥梁裂缝图片的小切片作为一个ROI感兴趣区域。其中，包含桥梁背景的小切片图像称为桥梁背景面元，包含桥梁裂缝的小切片称为桥梁裂缝面元，具体过程如下面的公式所示:

imgRoiL_x＝i*W

imgRoiL_y＝j*H

imgRoiR_x＝i*W+W

imgRoiR_y＝j*H+H

其中，W和H为滑动窗口的宽和高，坐标(imgRoiL_x，imgRoiL_y)为ROI区域的左上角点坐标，坐标(imgRoiR_x，imgRoiR_y)为ROI区域的右下角点坐标，其中i和j的计算如下面的公式所示:

i＝srcImg_w/W

j＝srcImg_h/H

其中，srcImg_w，srcImg_h，分别为被窗口滑动的桥梁裂缝图片的宽和高，令srcImg_w＝srcImg_h＝1024pixel；

第三步，对基于窗口滑动算法扩增而来的数据集进行挑选，标记，分类构成一个有一定规模的用于训练深度学习模型的训练集和验证集；

第四步，利用第三步预处理好的数据集对DBCC分类模型进行训练；

第五步，采集一张桥梁裂缝图片，将图片归一化为1024*1024分辨率的图片，然后使用图像高斯金字塔对桥梁裂缝图像进行采样，得到一幅低分辨率的桥梁裂缝图片；

第六步，利用训练好的DBCC分类模型和窗口滑动算法在上一步求得的低分辨率的桥梁裂缝图片上进行检测，并将由DBCC分类模型识别出来的所有的桥梁裂缝面元的横纵坐标记录下来，其中窗口滑动算法如下面的公式所示:

其中，P_b(x)和P_c(x)为在本次识别过程中，所识别的小切片分别为桥梁背景面元和桥梁裂缝面元的概率；f(x)为0，表示当前的桥梁面元图像为桥梁背景面元，f(x)为1，表示当前的桥梁面元图像为桥梁裂缝面元，t为一个概率区分阈值，一般取值为0.90～0.99；

第七步，使用简单选择排序算法对第六步记录的所有桥梁裂缝面元的横纵坐标分别进行排序，将最小的横纵坐标组成一个坐标点，将最大的横纵坐标也组成一个坐标点，并将这两个坐标点代入下面的公式，求解出两个新的坐标点，具体的公式如下所示:

x_h＝(x_l)*2ⁿ

y_h＝(y_l)*2ⁿ

其中坐标(x_l，y_l)为低分辨率图片上确定的位置坐标，坐标(x_h，y_h)为高分辨率图片确定的位置坐标，n代表图像高斯金字塔向下采样的次数，通常n的值为2；

第八步，根据第七步求解出来的两个新的坐标点在高分辨率图片上确定一个矩形区域，并且将这个矩形区域设置为ROI感兴趣区域；

第九步，利用训练好的DBCC分类模型和窗口滑动算法在1024*1024分辨率的图片上进行桥梁裂缝的检测，在桥梁裂缝检测的过程中，记录所有的桥梁裂缝面元的横纵坐标，并且，在这一过程中，统计桥梁裂缝面元图像的个数，并且将这一统计数记为N；

第十步，使用简单选择排序算法对第九步记录的所有的桥梁裂缝面元的横纵坐标进行排序，并且挑选出最小的横纵坐标和最大的横纵坐标组成两个新的位置坐标点，然后根据这两个新的位置坐标点在高分辨率图片上画一个矩形区域，该矩形区域和这两个新的坐标点就标识出了桥梁裂缝在桥梁裂缝图片中的位置；

第十一步，将桥梁裂缝检测过程中统计出来的桥梁裂缝面元的数据N带入下面的公式就可以求解出桥梁裂缝的面积，具体的公式如下所示:

area_crack＝N*W*H

其中area_crack为最终求解出来的桥梁裂缝的面积，N代表桥梁裂缝面元的个数，W为桥梁裂缝面元的宽度，H为桥梁裂缝面元的高度。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于CNN深度学习的DBCC分类模型构建方法，包括以下步骤:

步骤二、在第一卷积层后添加一Relu激活函数；

步骤三、在第一卷积层后添加一用于图片明亮度矫正的局部响应值归一化层；

步骤四、将第一卷积层的特征映射图在第一池化层中进行下采样，并作为第一池化层的特征映射图；

步骤五、在第二卷积层上以卷积方式将第一池化层的特征映射图与第二卷积层中的所有卷积核进行卷积求和，得到第二卷积层的特征映射图，将第二卷积层的特征映射图在第二池化层中进行下采样并作为第二池化层的特征映射图；

步骤六、在第二池化层后添加一Relu激活函数后在第三卷积层上以卷积方式将第二池化层的特征映射图与第三卷积层中的所有卷积核进行卷积求和，得到第三卷积层的特征映射图，将第三卷积层的特征映射图在第三池化层中进行下采样并作为第三池化层的特征映射图；

步骤八、在第四卷积层后添加一Relu激活函数后将第四卷积层的特征映射图输出至第一全连接层，第一全连接层后面添加了一个RELU激活函数，并且，在第一全连接层后添加用于防止过拟合的Dropout层；

其中，X^(l-1)为第l-1层的特征映射图，W^(l)为当前卷积层的卷积核，b^(l)为偏置项，f为激活函数，X^(l)为第l卷积层最终得到的特征映射图。

2.根据权利要求1所述的一种基于CNN深度学习的DBCC分类模型构建方法，其特征在于，所述第一卷积层、第二卷积层、第三卷积层及第四卷积层的卷积核的数量分别为:32、64、128、256。

3.根据权利要求1所述的一种基于CNN深度学习的DBCC分类模型构建方法，其特征在于，为防止桥梁裂缝面元和桥梁背景面元图片的尺寸减小过快，特征映射图均添加大小为2pixel的边距。

4.根据权利要求1所述的一种基于CNN深度学习的DBCC分类模型构建方法，其特征在于，所述Dropout层的取值为0.55。