CN110378252A

CN110378252A - 一种基于深度迁移学习的混凝土裂缝识别方法

Info

Publication number: CN110378252A
Application number: CN201910574973.9A
Authority: CN
Inventors: 申永刚; 俞臻威; 温作林; 张仪萍
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-10-25

Abstract

本发明属于混凝土结构损伤检测技术领域，公开了一种基于深度迁移学习算法的混凝土裂缝识别方法，对裂缝图像进行预处理形成数据集；以裂缝数据集作为输入，将在ImageNet上已训练好的视觉几何组(Visual Geometry Group，简称VGG‑16)网络中的卷积层作为特征提取器进行输出，预训练出一个全连接层；将VGG‑16网络中全连接层以上的特征层进行迁移，与之前预训练的全连接层连接，得到基于深度迁移学习的神经网络模型，冻结部分参数，重新进行训练。本发明提出的基于深度迁移学习算法的混凝土裂缝检测模型，减少了模型对混凝土裂缝图像数量的依赖性，降低了运算成本，并保留了深度学习模型能够快速准确识别目标的优点，具有更强的鲁棒性和泛化能力。

Description

一种基于深度迁移学习的混凝土裂缝识别方法

技术领域

本发明属于混凝土结构损伤检测技术领域，尤其涉及一种基于深度迁移学习的混凝土裂缝识别方法。

背景技术

混凝土是目前用量最大的一种建筑材料，广泛应用于道路、桥梁、隧道及工民建等基础设施的建设中。由于混凝土抗拉强度低，受收缩徐变、外界温度变化、地基变形等内外因素的共同影响，在施工建设和运营使用的过程中经常出现不同程度和形式的裂缝病害。裂缝的扩展是结构破坏的初始阶段；随着裂缝的持续发展，裂缝的宽度一旦超出一定限制，不仅影响基础设施的外观，也可能引起渗漏、耐久性降低、保护层脱落、钢筋锈蚀、混凝土碳化等，甚至对行车及行人安全造成重要影响。因此定期检测混凝土结构表面的裂缝病害状况，并针对检测结果进行预先防治是必不可少的。

混凝土强度的细观研究及工程实践经验表明，混凝土结构开裂不可避免。如果对混凝土结构的裂缝评价要求过高，会导致繁杂且高成本的维护代价，科学的做法应该是设定一个限制。一般来说，同一条裂缝上的裂缝宽度是不均匀的，控制裂缝宽度是指较宽区段(该裂缝长度的10％～15％范围)的平均宽度，这样确定的平均裂缝宽度为该裂缝的最大宽度。同样，该裂缝宽度较窄区段(裂缝长度的10％～15％范围)的平均宽度为最小裂缝宽度。在最大与最小之间为平均裂缝宽度。一般肉眼可见的最小裂缝宽度是0.05mm，通常将小于0.05mm的裂缝称为微观裂缝，大于或者等于0.05mm的裂缝称为宏观裂缝，宏观裂缝是微观裂缝扩展的结果。一般的混凝土构筑物中宽度小于0.05mm的裂缝对使用并无危险，因此，可认为具有小于0.05mm微观裂缝的结构为无裂缝结构。所以，设计中所谓不允许开裂的结构也只能是无大于0.05mm裂缝的结构。混凝土最大裂缝宽度的控制标准大致如下：无侵蚀介质，无防水要求的，0.3～0.4mm；轻微侵蚀，无防水要求的，0.2～0.3mm；严重侵蚀，有防水要求的，0.1～0.2mm。中国《城市桥梁检测与评定技术规范》中规定桥梁裂缝宽度不得超过0.3mm。

混凝土裂缝按其形状分为表面的、贯穿的、纵向的、横向的、上宽下窄的、下宽上窄的、枣核形的、对角线的、斜向的、外宽内窄的和纵深的(深度达1/2厚度)等等。裂缝的形状与其受力状态有直接关系，大多数裂缝的方向同主拉应力方向垂直，而纯剪裂缝的方向则同剪应力方向平行。准确识别出混凝土结构中的裂缝长度、走向和宽度，对判断结构的病害程度和运营状况有重要意义，这同时也是混凝土结构健康检测所面临的一个巨大难题。

早期所采用的裂缝检测方法以人工检测为主，需要维护人员进行现场勘查、标记、测量，并记录检测结果。人工检测方式工作强度大、主观性强、效率低、精度低且不安全，需要借助检测辅助设备接近结构表面，对检测人员的专业知识和经验要求较高。较先进的无损检测方法如超声波法、热成像法、计算机断层扫描技术及电磁-声发射传感器检测法，存在着仪器昂贵、测量范围小、无法完全实现非接触测量等缺点。2000年左右，基于计算机视觉技术(IPTS)的图像处理方法开始用于混凝土表面裂缝的识别。IPTS可以识别几乎所有的表面缺陷(例如裂缝和腐蚀等)，但是图像的光照强度、明暗变化和图像扭曲等因素会严重影响检测结果，而且在处理过程中产生大量噪声，使得图像中的混凝土裂缝目标在传统的计算机视觉技术中难以被准确、高效地识别出来。与本发明的识别方法最接近的边缘检测法是图像处理技术中最常用的方法，其常用算子一般有一阶导数如sobel算子和canny算子，二阶导数如laplacian算子。边缘检测法的核心原理是检测出周围像素灰度发生急剧变化的像素点的集合。在灰度变化较为均匀的图像中，只利用一阶导数算子得到的边界比较粗，甚至找不到边界；而基于过零检测的二阶导数算子对噪声比较敏感，即便可以检测出边缘，获得的边缘点数也比较少。由于混凝土图像背景整体灰度差异小，裂缝边缘像素梯度低，通常属于弱边缘，边缘检测法应用于裂缝识别领域中效果较差。

伴随着人工智能的快速发展，深度学习算法被广泛应用在图像处理的各个方面。基于深度学习的图像处理技术的出现，为混凝土裂缝检测提供了一个很好的解决思路。深度学习与传统的机器学习方法相比，非常依赖训练数据的丰富性，因为它需要大量的数据来训练提取目标潜在的高级特征。但是现实生活中，大多数领域的数据是有限的，训练数据不足不可避免，而且数据收集耗时耗力。一般来说，制作一个海量数据集需要耗费大量的人力物力，并且是不现实的，因此构建大规模、高质量的带标注数据集非常困难。

迁移学习的出现为解决深度学习数据依赖性问题提供了新思路。迁移学习是机器学习中解决训练数据不足问题的重要工具，它通过将知识从已有的源领域迁移到目标领域的方式解决了目标领域中数据量不足的学习问题，放宽了传统机器学习中的两个基本假设：(1)训练集与测试集满足独立同分布的条件；(2)必须有足够可利用的训练集才能学习得到一个好的分类模型。深度迁移学习DTL是深度学习和迁移学习的结合体，利用迁移学习让深度神经网络可以有效地传递知识，解决了深度学习数据量依赖性的难题。

深度迁移学习最常用的技巧是微调，它是将源域上训练得到的权重参数迁移到目标域上作为初始化权重，重新训练该网络，从而达到非常好的效果，以此大大减少模型对数据量的需求。卷积神经网络前几层所提取的特征更多的为公共特征，比如目标的边缘、纹理、形状及色彩等特征，这在许多任务中是可以通用的，而卷积神经网络更深层次的特征学习注重高级特征，也就是语义特征，这是针对于具体的数据集而言的，不同的数据集深层次学习的语义特征完全不同。对深度迁移学习来说，微调卷积层的层数以及超参数的选择过程暂时没有可用的理论进行精确指导，模型的最佳微调层数及其超参数必须通过反复试验来探索，通过验证集误差来进行修正，最终由测试集来检验效果。

近年来，在视觉分类问题中，尤其是在深度CNN中，应用DTL进行了大量的研究。有学者采用了基于DTL的预分类方法，在同一框架下检测、区分普通裂缝和封闭裂缝，所提出的T-DCNN方法远优于CrackIT、CrackForest和传统的Canny边缘检测方法。有研究者进行基于VGGNet的迁移学习，对2000张结构图像的部件类型、剥落状态、损伤程度和损伤类型进行检测识别，揭示了DTL在基于图像的结构损伤识别中的应用。也有学者提出使用预训练的深度学习模型和迁移学习来检测民用基础设施的无人机图像中的裂缝损伤，所提的方法在无任何增强和预处理情况下，准确率高达90％。以上学者的研究成果表明将DTL应用在裂缝识别领域是有效的，具有足够的潜力。

综上所述，现有技术存在的问题是：建立一个效果良好的深度学习模型通常需要一个海量的制作精良的数据集，这将消耗大量的人力物力，并且困难重重，不现实。

解决上述技术问题的难度：利用迁移学习可以减少深度学习对数据量的依赖性，但是对网络进行微调时需要进行不断地调整、试算、训练等操作，直到找到最优解。

解决上述技术问题的意义：在数据集有限的情况下即可获得准确的识别结果，大大减少深度学习模型对数据的需求，降低运算成本。

发明内容

针对现有技术存在的问题，本发明提供了一种基于深度迁移学习的混凝土裂缝识别方法。

本发明是这样实现的，利用现有的已经经过海量数据集预训练的神经网络模型，将其迁移过来作为目标任务的神经网络模型的基础，冻结预训练模型的部分卷积层，其他未被冻结的卷积层以及全连接层在小数据集上重新进行训练以调整参数，使得训练得到的模型适用于目标任务。

一种基于深度迁移学习的混凝土裂缝识别方法，包括以下步骤：

S101：获取裂缝图像，将图像裁剪成统一大小，并统一为三通道，对图像中的目标手动添加矩形标签作为真实边界框；

S102：对裂缝图像进行预处理，形成裂缝数据库；

S103：将裂缝数据库导入VGG-16网络，利用在ImageNet上已训练好的VGG-16网络中的卷积层作为特征提取器进行输出，训练出一个针对裂缝数据库全连接层；

S104：将已在ImageNet上训练好的VGG-16网络中全连接层以上的特征层进行迁移，作为混凝土裂缝深度学习模型的预测基础；

S105：将迁移得到的特征层和与预训练的全连接网络进行连接，得到基于深度迁移学习的神经网络模型；

S106：将S102的裂缝数据库输入模型，进行模型训练，用训练后的模型进行混凝土裂缝识别。

进一步的，所述步骤S101中，使用LableImg对图像中的裂缝进行手动标注。

进一步的，所述步骤S102中，预处理包括裂缝数据增强和图像归一化操作。

进一步的，所述步骤S105中，基于深度迁移学习的神经网络模型主要由三部分构成：冻结层、微调层、分类器层(全连接层)。

进一步的，所述裂缝数据增强包括随机旋转、剪切、翻转。

进一步的，所述神经网络模型的冻结层，其参数随训练不可变化；微调层和分类器层，其参数随训练不断变化。

综上所述，本发明的优点及积极效果为：本发明采用将在ImageNet上已训练好的VGG-16网络中的卷积层作为特征提取器，利用现成网络提取的其他源目标特征，作为任务目标预测的特征提取基础进行训练预测，减少了深度学习模型对数据的依赖性，降低了运算成本，简化了网络训练的复杂性，复杂性，降低了运算成本，能够对裂缝目标进行快速准确识别，具有更强的鲁棒性和泛化能力。

一个效果良好的深度学习模型一般需求的数据量在几万到几十万，甚至几百万，而使用深度迁移学习技术后可以有效降低数据量的需求，本发明为了探究导入模型的数据量与模型识别准确率的关系，进一步对包括150×150像素分辨率的1K到16K图像的数据集进行参数研究，测试结果见图11，各组的训练和验证参数设置一致，除了不使用数据增强外，其余参数相同。从图像中可以看到，随着数据集的变大，训练精度在缓慢的下降，但仍在99.5％以上；而验证精度也随之震荡上升，在数据量达到9K后，验证精度趋于平缓。结果表明，当数据量小于9K时，数据量的增大对精度的提升有一定帮助，但数据量达到9K后，数据量大小对精度的影响随之减弱，也就是说，深度迁移学习可以将模型对图片数量的需求控制在一万张以内，是深度学习所需数量的十分之一，甚至百分之一。本发明解决了混凝土裂缝深度学习模型对数据量需求较大的问题；相比于深度学习技术，本发明的深度迁移学习模型基于已经过预训练的初始权重，网络收敛地更快，在有限数据集地情况下即可获得较强鲁棒性和泛化性。

附图说明

图1是本发明实施例提供的基于深度迁移学习的混凝土裂缝识别方法流程图。

图2是本发明实施例提供的基于深度迁移学习的混凝土裂缝识别方法可视化流程图。

图3是本发明实施例所采用的卷积神经网络模型与原始VGG-16模型的对比图。

图4是本发明实施例对比实验中在裂缝图像训练集上的精度曲线对比。

图5是本发明实施例对比实验中在裂缝图像验证集上的精度曲线对比。

图6是本发明实施例中其中一种方法DTL-6在测试集上所取得的混淆矩阵。

图7是本发明实施例对比实验中不同实验组的PRC曲线综合图。

图8是本发明实施例对比实验中不同实验组的PR-F1曲线和Max F1-score值综合图。

图9是本发明实施例对比实验中不同实验组的ROC曲线和AUC值综合图。

图10是本发明实施例不同实验组第三卷积块第一卷积层的特征图、第四卷积块第一卷积层和第五卷积块第一卷积层的特征图。

图11是本发明探究的导入模型的数据量与模型识别准确率的曲线图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合混凝土裂缝实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对目前常用的类似穷举式的深度学习方法，需要大量的数据，缺少针对性，运算成本高，且检测效率低的问题。本发明是一种可以大大降低混凝土裂缝深度学习模型对数据量需求的方法，具有很强的鲁棒性、很好的泛化能力以及较高的检测效率和准确率的裂缝检测技术，具有原创性，更适用于工程应用。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于深度迁移学习的混凝土裂缝识别方法包括以下步骤：

S102：对裂缝图像进行预处理，形成裂缝数据库；

S106：将S102的裂缝数据库输入模型，进行模型训练。

下面结合附图对本发明的应用原理作进一步的描述。

如图2所示，本发明实施例提供的基于深度迁移学习的混凝土裂缝识别方法包括以下步骤：

(1)获得图像大小统一的数据源；

以人眼精度为准，获取宽度约为0.05mm或以上的裂缝目标图像，其中为保证训练出的模型具有更好的鲁棒性和稳定性，目标的发展方向、清晰度各有不同，目标所在的结构背景表面还存在污点、模板痕迹或水迹等等干扰。本实例中，将原始图像统一裁剪成150×150像素分辨率的较小图像，统一为三通道，剔除非混凝土背景部分，使用LableImg对图像中的裂缝进行手动标注。

(2)获得数据库；

进行混凝土裂缝数据增强(随机旋转、剪切、翻转等)和图像归一化操作，获得训练、验证和测试图像总数分别为8K、2K、2K，共计12K张图像，以此作为总数据库，在数据库中随机生成训练集、验证集和测试集。

(3)预训练全连接层；

将裂缝数据库导入VGG-16网络，利用在ImageNet上已训练好的VGG-16网络中的卷积层作为特征提取器进行输出，训练出一个针对裂缝数据库全连接层。

(4)迁移特征层；

将已在ImageNet上训练好的VGG-16网络中全连接层以上的特征层进行迁移，作为混凝土裂缝深度学习模型的预测基础。

(5)构建神经网络：

将迁移得到的特征层和与预训练的全连接网络进行连接，得到基于深度迁移学习的混凝土裂缝神经网络模型。

由图3可见，本实例所采用模型共包含13个卷积层(其中包含5个下采样层)、1个丢失层以及2个全连接层。第1-2层中的卷积滤波器(大小为3×3)个数为64；第3-4层中的卷积滤波器(大小为3×3)个数为128；第5-7层中的卷积滤波器(大小为3×3)个数为256；第8～13层中的卷积滤波器(大小为3×3)个数为512；第15层为丢失层，对应的丢失率为：0.5；第14和16层为全连接层，对应的神经元个数分别为：256、1，整个模型参数共为16812353。

(6)训练模型

将裂缝数据库输入模型，进行模型训练，通过冻结不同个数的卷积层以设置对照实验组，比较各实验组的训练结果，确定最佳迁移层数。

本实例设置了六个对照实验，分别是基于深度迁移学习冻结1#卷积块，微调2-5#卷积块和全连接层的识别方法、基于深度迁移学习冻结1-2#卷积块，微调3-5#卷积块和全连接层的识别方法、基于深度迁移学习冻结1-3#卷积块，微调4-5#卷积块和全连接层的识别方法、基于深度迁移学习冻结1-4#卷积块，微调5#卷积块和全连接层的识别方法、基于深度迁移学习冻结1-5#卷积块，只微调全连接层的识别方法、基于裂缝数据集重新训练VGG-16模型的识别方法，为方便描述本文依次称之为DTL-3、DTL-6、DTL-10、DTL-14、TL(即迁移学习)以及VGG-16。

图4为DTL-3、DTL-6、DTL-10、DTL-14、TL和VGG-16在本实施例裂缝图像训练集上的精度曲线对比，横坐标表示迭代次数，纵坐标表示训练集识别准确率，所有DTL方法和VGG-16在前100次迭代中精度迅速上升之后逐渐趋于稳定，所有DTL方法都几乎稳定在100％，VGG-16方法稳定在98％左右，而TL方法在400轮迭代中，从开始80％逐渐上升到90％左右，仍具有一定的上升趋势。

图5为DTL-3、DTL-6、DTL-10、DTL-14、TL和VGG-16在本实施例裂缝图像验证集上的精度曲线对比，横坐标表示迭代次数，纵坐标表示验证机识别准确率，所有的DTL方法和TL方法在前20次迭代中精度迅速上升，之后基本趋于稳定，DTL-3和DTL-6方法精度稳定在95-96％，DTL-6方法稳定在96％-97％，DTL-14方法稳定在91-92％，TL方法近趋在87％-88％，而VGG-16方法在前50次迭代中精度迅速上升，之后基本趋于稳定，但仍有微弱的下降趋势，并且精度起伏较大，最终稳定在92％-93％。上述结果表明所有DTL方法在裂缝小数据集上的学习能力明显要优于VGG-16和TL方法，而在所有DTL方法中，DTL-6方法明显要优于其他DTL方法。这主要是由于VGG-16对数据有极大的依赖性，需要大量的数据来进行特征学习。然而本实例采用小量的裂缝数据集，使用VGG-16方法容易陷入过拟合，从而导致模型的泛化能力降低，导致验证集的精度较低。

为了对最终训练完的模型进行泛化能力的评估，本实例采用机器学习的性能度量，即通过衡量模型输出的预测值和真实值之间的误差得出。模型的性能好坏是相对的，不仅取决于算法和数据，还决定于任务的需求。最常见的分类任务中所用的度量是：accuracy(准确率)，error rate(错误率)：

其中，y_predict表示预测值，y_true表示预测真实值，m表示样本个数。

本实例利用混淆矩阵(confusion matrix)、查准率(precision)、查全率(recall)、F1-score、ROC(Receiver Operating Characteristic，接受者操作特性)曲线和AUC(Area Under the Curve，定义为ROC曲线下与坐标轴围成的面积)值对这6种识别方法进行测试。图6所示为DTL-6在测试集上所取得的混淆矩阵，其横坐标表示预测结果(裂缝或非裂缝)，纵坐标表示真实值(裂缝或非裂缝)。当预测结果为真、真实值为真时，为真正例(true positive，TP)；当预测结果为真、真实值为假时，为假正例(false positive，FP)；当预测结果为假、真实值为真时，为假反例(false negative，FN)；当预测值为假、真实值为假时，为真反例(true negative，TN)，由图6可知，DTL-6的真正例，假反例，假正例，真反例分别为0.94、0.06、0.99、0.01。

根据混淆矩阵的四个指标，可以计算以下四个度量：

真正率(TPR)：

假正率(FPR)：

查准率(Precision):

查全率(Recall)：

查准率是确定分类器中预测为正样本的部分其实际中属于正样本的比例，查准率越高则假的正例就越低，查全率则是被分类器正确预测的正样本的比例。两者是一对矛盾的度量，其可以合并成令一个度量，F1度量：

ROC曲线和AUC值常被用来评价一个二值分类器的优劣，显示的是分类器的真正率和假正率之间的关系。

从图7中的Precision-Recall曲线和AP比较结果和图8中的Precision-Recall-F1曲线和Max F1-score值比较结果来看，DTL-6获得了最高AP值和F1-score值，分为0.990和0.970，DTL-3获得了0.960的AP值和0.944的F1-score值，DTL-10获得了0.956的AP值和0.945的F1-score值，DTL-14获得了0.929的AP值和0.919的F1-score值，TL获得了0.882的AP值和0.890的F1-score值，VGG-16获得了0.926的AP值和0.934的F1-score值。从图9中的ROC曲线和AUC值的比较结果，DTL-6的AUC值最高，为0.992，DTL-3、DTL-10、DTL-14、TL和VGG-16的AUC值分别为0.973、0.970、0.954、0.928、0.957。

图7和图8表明在所有的方法中，DTL-6方法在裂缝小数据集上学习后的泛化能力是最强的；其次为DTL-3和DTL-10，二者的泛化能力比较接近，但DTL-3要优于DTL-10；再其次为DTL-14和VGG-16，最后为TL方法。这是因为在VGG网络中，底层卷积块所提取的特征主要为一些公共通用特征(边缘特征、纹理特征、局部抽象和颜色特征等)，而顶层卷积块所提取的特征为目标任务的高级特征。

图10分别表示不同实验组第三卷积块第一卷积层的特征图、第四卷积块第一卷积层和第五卷积块第一卷积层的特征图，其中，黑块表示该卷积层没有提取到特征，非黑块则表示该卷积层在该处提取到了特征。可以看出，DTL-6的3#卷积块经过微调之后，4#卷积块的第一层卷积层所提取到的特征明显要多于3#卷积块没有微调的DTL-10，而DTL-10的4#卷积块经过微调之后，5#卷积块的第一层卷积层所提取到的特征明显要多于4#卷积块没有微调的DTL-14。因此，DTL模型在本实例裂缝数据集上所取得的最佳冻结微调模型为DTL-2，即冻结1-2#卷积块，微调3-5#卷积块和全连接层的深度迁移模型。

本发明的深度迁移学习模型基于已经过预训练的初始权重，在有限数据集地情况下即可获得较强鲁棒性和泛化性，更适用于工程环境。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度迁移学习的混凝土裂缝识别方法，其特征在于，包括以下步骤：

S102：对裂缝图像进行预处理，形成裂缝数据库；

2.根据权利要求1所述的一种基于深度迁移学习的混凝土裂缝识别方法，其特征在于，所述步骤S101中，使用LableImg对图像中的裂缝进行手动标注。

3.根据权利要求1所述的一种基于深度迁移学习的混凝土裂缝识别方法，其特征在于，所述步骤S102中，预处理包括裂缝数据增强和图像归一化操作。

4.根据权利要求1所述的一种基于深度迁移学习的混凝土裂缝识别方法，其特征在于，所述步骤S105中，基于深度迁移学习的神经网络模型主要由三部分构成：冻结层、微调层、分类器层(全连接层)。

5.根据权利要求3所述的一种基于深度迁移学习的混凝土裂缝识别方法，其特征在于，所述裂缝数据增强包括随机旋转、剪切、翻转。

6.根据权利要求4所述的一种基于深度迁移学习的混凝土裂缝识别方法，其特征在于，所述神经网络模型的冻结层，其参数随训练不可变化；微调层和分类器层，其参数随训练不断变化。