CN111476781B

CN111476781B - 一种基于视频语义分割技术的混凝土裂缝识别方法和装置

Info

Publication number: CN111476781B
Application number: CN202010269508.7A
Authority: CN
Inventors: 申永刚; 俞臻威
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2023-04-07
Anticipated expiration: 2040-04-08
Also published as: CN111476781A; US11615519B2; US20210319547A1

Abstract

本发明公开了一种基于视频语义分割技术的混凝土裂缝识别方法和装置，属于混凝土结构损伤检测技术领域，包括：获取裂缝视频，在视频图片帧中手动标注标签；利用空间位移卷积块对已标注的帧预测未来帧和未来标签，并同时传播未来帧和未来标签，获得合成样本并进行预处理，形成裂缝数据库；修改Deeplabv3+的数据的输入、输出端口及参数，使其接受视频输入，并以视频输出，建立CVN模型；将已训练好的Deeplabv3+网络中的卷积层，作为CVN模型的初始权重进行迁移；将裂缝数据库输入迁移后的CVN模型，训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN。相比卷积神经分类网络减少了对数据量的需求，能够以视频输入、以视频输出，快速准确识别目标，具有实际工程意义。

Description

一种基于视频语义分割技术的混凝土裂缝识别方法和装置

技术领域

本发明属于混凝土结构损伤检测技术领域，尤其涉及一种基于视频语义分割技术的混凝土裂缝识别方法和装置。

背景技术

混凝土是目前用量最大的一种建筑材料，广泛应用于道路、桥梁、隧道及工民建等基础设施的建设中。混凝土结构表面的损伤，包括裂缝、风化、孔洞和剥落等，从视觉上反映了混凝土结构的耐久性和安全性。其中，裂缝是对结构损伤最大、引起关注最多的一种损伤类型，定期的裂缝检测在基础设施的维护和运营中具有非常重要的作用。根据裂缝的形态和位置等特征，可以推断出结构内部的破坏程度以及劣化原因，这为结构健康性评估提供了合理的指导。

早期所采用的裂缝检测方法以人工检测为主，需要维护人员配备一定的设备进行现场勘查、标记、测量，并记录检测结果。传统人工视觉检测方法效率低、成本高、漏查多，正逐渐被非接触式图像采集和计算机视觉分析相结合的机器学习方法取代。例如人工检测一座跨径100m的预应力混凝土箱梁桥，需要工程师借助钢卷尺、照相机、裂缝宽度、深度检测仪等工具并租用昂贵的桥检车，在临时封闭交通的条件下，至少花费6个小时进行现场原始记录，再借助CAD等画图工具才能将整个大桥的裂缝分布示意图绘制完成。机器学习方法借助无人机、爬壁机器人等先进设备携带高清摄像头对桥梁表面进行全覆盖拍照，再采用先进的算法对裂缝进行识别和定位，具有病害调查全面、信息真实可靠的优点，正在被学者关注和研究。为了保证裂缝图片的清晰度，一般每张图片的桥梁实际尺寸不超过4m²，按照100m跨径箱梁外表面4000m²和20％照片重叠率计算，无人机需要采集至少1500张图片，花费超过2个小时，虽然不需封闭交通，但采集图片的效率并不高。相对于摄像，摄影只需要用摄像头对物体表面进行一次扫描即可，省去了摄像的重复定焦过程，所以视频数据的获取比图像快捷，而且视频拍摄具有实时性，在匹配先进的计算机硬件设施后，可用于桥梁等基础设施的运营监测。

在裂缝图片的识别方面，基于计算机视觉的方法得到了广泛应用。机器学习理论通过设计一些算法，使计算机能够模拟人类的学习行为，获取新的知识或技能。其中机器学习的子类——深度学习方法不受外界干扰，能够处理大量图片数据来提高自身性能，在裂缝识别方面展现出了巨大潜力。但是这种基于深度卷积神经网络CNN的方法仅从图像层面和网格单元层面检测裂缝，以矩形分类框形式给出的结果包含部分冗余像素，不够精确。而裂缝属于小目标，在矩形框内占到的像素比例非常小，大部分都是冗余像素。而且一般的CNN模型都采样滑动窗口的方法进行预测，这种方法必然会产生大量的冗余窗口。因此，有学者提出了一种基于候选区域的卷积神经网络Faster-RCNN，避免了使用滑动窗口技术。但是Faster-RCNN仍然在网格单元层面检测裂缝，即图像在检测时会被分割为更小的图像块，使得目标的完整特征被破坏。

语义分割技术可以对每一个像素进行分类，从像素层面上识别图像中的不同目标和位置，在不丢失目标空间信息的基础上，用不同颜色的掩膜表示分类结果，使得裂缝与背景完全分离。从像素层面理解图像的特性也使得语义分割对训练样本的需求量更少。虽然人工添加的多边形标签是图像级的，但是标签内的每一个已标注的像素都可以作为语义分割模型的训练样本，使得训练样本成百上千倍的增加。实际上，语义分割的结果更接近于人眼对世界的观察，因为人眼中的世界的物体边界是清晰的，而不是物体被包含在一个更大的矩形框中。然而，语义分割的图像标注成本太高。例如，在Cityspaces数据集中，一幅1024×2048分辨率的图片标注所有像素平均需要1.5小时，即使是粗略的标记，平均每幅图片仍然需要7分钟。

由于很多语义分割数据集都是在连续的视频帧序列中，以一定的时间间隔选取图像进行标注得到的。如果采用一定的方法能够将标签从已标注帧传播到未标注帧，就可以获得大量的合成数据。很多学者使用光流法进行这种标签的传播，这种方法会准确捕捉物体的运动方式以及运动对周围物体的可见性和外观影响，可以从过去帧序列中预测未来帧。但是光流法无法对当前帧内新出现的物体进行光流矢量的正确估计，这会引起预测帧中的图像扭曲，存在一定的缺陷。虽然大量合成数据的获得可以有效降低语义分割的样本成本，并且使分割结果具备了静态图像中不存在的时间信息，但是无效的、错误的合成样本又会限制语义分割模型的预测精度，同时限制了视频预测的发展。

综上所述，现有技术存在的问题是：建立一个预测准确性优良的深度学习模型通常需要一个海量的数据集，成本过高；传统CNN模型的预测结果冗余信息过多；光流技术无法估计当前帧内新出现物体的光流矢量，所合成的样本有效性低。

解决上述技术问题的难度：语义分割的数据标注的时间成本过高；利用光流法可以增加样本数量，但是合成的样本精确性不高，需要修正图像扭曲；现存的语义分割模型只能接受图像输入。

解决上述技术问题的意义：降低语义分割的时间成本，在数据集有限的情况下可获得大量合成样本，且合成样本的准确性高，可以用于语义分割模型的训练，还使得模型可以接受视频输入，适用性更广。

发明内容

本发明的目的是提供一种基于视频语义分割技术的混凝土裂缝识别方法和装置，以解决目前常用的类似穷举式的深度学习CNN方法，需要大量的数据，运算成本高，检测效率低，且时效性差的问题。

为了达到上述目的，本发明的实施例提供一种基于视频语义分割技术的混凝土裂缝识别方法，包括以下步骤：

获取裂缝视频，将视频每一帧图像保存下来，以预定间隔选取帧进行手动标注，作为手动标注样本；

利用空间位移卷积块对已标注的帧预测未来帧和未来标签，并同时传播未来帧和未来标签，获得合成样本；

对所述合成样本以及手动标注样本进行预处理，形成裂缝数据库；

修改Deeplabv3+的数据的输入、输出端口以及参数，使其接受视频输入，并以视频输出，建立CVN(CrackVideoNet)模型；

将已训练好的Deeplabv3+网络中的卷积层，作为CVN模型的初始权重进行迁移；

将所述裂缝数据库输入迁移后的CVN模型，训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN，使用混凝土裂缝检测语义分割模型CVN进行混凝土裂缝的识别。

进一步地，所述手动标注时使用Labelme图像标注软件对图像中的裂缝进行。

进一步地，所述空间位移卷积块会根据视频当前帧以及过去帧来预测未来帧中的物体。

进一步地，传播未来帧和未来标签时，可由原始帧向前传播或向后传播。

进一步地，利用空间位移卷积块预测未来帧和未来标签，其中，未来帧、未来标签中任意一点的坐标F_t+1(x,y)、M_t+1(x,y)为：

(u，v)＝C(I_1：t)

式中，(x，y)是某一帧内任意像素点的坐标，C是一个用于预测基于输入帧F₁到F_t的运动矢量(u,v)的三维CNN，K(x,y)∈R^N×N是C在(x,y)处预测的N×N的二维权重核，

是F_t、M_t中以(x+u，y+v)为中心的N×N的二维核。

进一步地，所述预处理包括裂缝数据增强和图像归一化操作。

进一步地，修改Deeplabv3+的数据的输入、输出端口，包括将视频分割为图片、对图片进行预测、预测完毕后将图片拼接为视频的操作；修改参数包括训练类别数、训练裁剪尺寸、训练批次大小、学习率以及注册裂缝数据集。

进一步地，所述Deeplabv3+网络在大型数据集Cityscapes上进行预训练。

进一步地，所述裂缝数据增强包括随机旋转、剪切、翻转。

第二方面，本发明实施例还提供一种基于视频语义分割技术的混凝土裂缝识别装置，包括：

获取模块，用于获取裂缝视频，将视频每一帧图像保存下来，以预定间隔选取帧进行手动标注，作为手动标注样本；

合成模块，用于利用空间位移卷积块对已标注的帧预测未来帧和未来标签，并同时传播未来帧和未来标签，获得合成样本；

预处理模块，用于对所述合成样本以及手动标注样本进行预处理，形成裂缝数据库；

模型构建模块，用于修改Deeplabv3+的数据的输入、输出端口以及参数，使其接受视频输入，并以视频输出，建立CVN模型；

迁移模块，用于将已训练好的Deeplabv3+网络中的卷积层，作为CVN模型的初始权重进行迁移；

训练识别模块，用于将所述裂缝数据库输入迁移后的CVN模型，训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN，使用混凝土裂缝检测语义分割模型CVN进行混凝土裂缝的识别。

根据上述技术方案，本发明的实施例对裂缝视频数据按视频帧序列进行预处理，利用空间位移卷积块联合传播未来标签和未来帧获取大量合成样本，形成数据集；将已训练好的Deeplabv3+网络中的卷积层权重作为CVN模型的初始训练权重，进行训练预测，得到裂缝检测模型；修改Deeplabv3+模型的数据输入、输出端口及参数，使得模型以视频输入、以视频输出，形成端到端的形式。

一个效果良好的深度学习CNN模型一般需求的数据量在几万到几十万，甚至几百万，而使用语义分割技术后可以有效降低数据量的需求，数据量的增大对预测准确率的提升有一定的帮助，但即使是较小的数据集，语义分割模型也可以获得很高的mIoU值，相比于CNN来说，模型对数据集的依赖性大大下降，是CNN所需数量的十分之一，甚至百分之一。本发明解决了混凝土裂缝深度学习CNN模型对数据量需求较大的问题，本发明的语义分割模型基于已经过预训练的初始权重，网络收敛地更快，而且语义分割结果与CNN相比更精确直观，且在有限数据集地情况下即可获得较强鲁棒性和泛化性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例提供的一种基于视频语义分割技术的混凝土裂缝识别方法的流程图。

图2是本发明实施例提供的基于视频语义分割技术的混凝土裂缝识别方法可视化流程图。

图3是本发明实施例实验中在裂缝图像训练集上的损失曲线。

图4是本发明实施例实验中在裂缝图像验证集上的mIoU曲线。

图5是本发明所使用的空间位移卷积块对未来帧的预测过程。

图6是本发明所使用的空间位移卷积块对未来标签的预测过程。

图7是本发明探究的导入模型的数据量与模型mIoU值的曲线关系图。

图8是本发明实施例提供的一种基于视频语义分割技术的混凝土裂缝识别装置的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合混凝土裂缝实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对目前常用的类似穷举式的深度学习CNN方法，需要大量的数据，运算成本高，检测效率低，且时效性差的问题。本发明是一种可以大大降低混凝土裂缝深度学习模型对数据量需求的方法，并能极大地提高检测效率和时效性，具有很强的鲁棒性、很好的泛化能力以及较高的检测效率和准确率的裂缝检测技术，具有原创性，更适用于工程应用。

下面结合附图对本发明的应用原理作详细的描述。

图1是本发明实施例提供的一种基于视频语义分割技术的混凝土裂缝识别方法的流程图，图2是本发明实施例提供的一种基于视频语义分割技术的混凝土裂缝识别方法可视化流程图，本发明实施例提供一种基于视频语义分割技术的混凝土裂缝识别方法，包括以下步骤：

步骤S101，获取裂缝视频，将视频每一帧图像保存下来，以预定间隔选取帧进行手动标注，作为手动标注样本；

具体的，在混凝土梁破坏性实验中，对梁体表面逐渐出现的裂缝进行摄影，其中为保证训练出的模型具有更好的鲁棒性和稳定性，裂缝的发展方向、清晰度各有不同，裂缝所在的结构背景表面还存在污点、模板痕迹、仪器线路等等干扰。本实例中，摄影得到的两部视频规格为1920×1080，帧率为25，时长统一约为2分30秒。将视频每一帧均进行保存，共计获得7187张图像。使用Labelme对原始图像中的裂缝进行手动标注，以每秒的第20帧作为手工标注样本，每秒进行一次标注，共计获得286个标注帧。

步骤S102，利用空间位移卷积块对已标注的帧预测未来帧和未来标签，并同时传播未来帧和未来标签，获得合成样本；

具体的，利用空间位移卷积块预测未来帧和未来标签，其中，未来帧、未来标签中任意一点的坐标F_t+1(x,y)、M_t+1(x,y)为：

(u，v)＝C(I_1：t)

是F_t、M_t中以(x+u，y+v)为中心的N×N的二维核。

使用空间位移卷积块对已标注的帧进行未来标签和未来帧的预测和传播，设置了传播帧数为±3，即在1个真实样本上获取6个合成样本，共计获得2002个训练样本。

步骤S103，对所述合成样本以及手动标注样本进行预处理，形成裂缝数据库；

具体的，以这些样本作为裂缝数据库，进行混凝土裂缝数据增强(随机旋转、剪切、翻转等)和图像归一化操作，从中随机选择样本作为训练集、验证集和测试集。

步骤S104，修改Deeplabv3+的数据的输入、输出端口以及参数，使其接受视频输入，并以视频输出，建立CVN模型；

具体的，将Deeplabv3+网络的数据输入、输出接口进行修改，使其适配视频输入、输出，并将语义分割的结果附加到输出部分，得到端到端的预测结果。修改类别数、训练裁剪尺寸、训练批次大小、学习率，注册裂缝数据集，建立CVN模型

步骤S105，将已训练好的Deeplabv3+网络中的卷积层，作为CVN模型的初始权重进行迁移；

具体的，将已在Cityscapes上训练好的Deeplabv3+网络中的卷积层权重进行迁移，作为CVN模型的预测基础。

步骤S106，将所述裂缝数据库输入迁移后的CVN模型，训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN，使用混凝土裂缝检测语义分割模型CVN进行混凝土裂缝的识别。

具体的，在裂缝数据库上训练CVN模型，得到针对裂缝数据的视频语义分割模型。

本实例使用两部混凝土梁破坏性实验的摄影视频作为训练数据，另一部视频作为二次测试的数据。合成训练样本时的对未来帧的预测示意图如图5所示，F_t+1帧中的任一像素(x,y)，是F_t帧中以(x+u,y+v)为中心的N×N区域像素块

的加权采样，对未来标签的预测示意图如图6所示，M_t+1帧中的任一像素(x,y)，是M_t帧中以(x+u,y+v)为中心的N×N区域像素块

的加权采样。训练时的损失曲线如图3所示，训练中设置训练步数为100000步，记录了每10步的平均损失值。从图中可以看出，训练损失从初始的1.37在10000步内迅速降低至0.3以下，并一直震荡到训练结束，这是由于数据集中只含有一类物体，模型学习较为快速准确。

验证集的mIoU曲线如图4所示，由于进行了迁移学习，mIoU曲线在第0次迭代时并不是从0开始增长，而是有一个初始值，约为0.269。mIoU曲线的增长趋势与loss曲线相对应，在10000步内迅速上升到一个较高的水平，随后再缓慢增长，最后稳定在0.93。

一个效果良好的深度学习模型一般需求的数据量在几万到几十万，甚至几百万，而使用语义分割技术后可以有效降低数据量的需求。本发明为了探究导入模型的数据量与模型识别准确率的关系，进一步对包括1920×1080像素分辨率的150张到3000张图像的数据集进行研究，测试结果见图7，各组的训练和验证参数设置一致，除了不使用数据增强外，其余参数相同。从图像中可以看到，随着数据集的变大，验证集的平均交并比mIoU在缓慢的上升，最终稳定在0.93。结果表明，数据量的增大对预测准确率的提升有一定的帮助，但即使是较小的数据集，语义分割模型也可以获得很高的mIoU值，相比于CNN来说，模型对数据集的依赖性大大下降，是CNN所需数量的十分之一，甚至百分之一。本发明解决了混凝土裂缝深度学习CNN模型对数据量需求较大的问题，本发明的语义分割模型基于已经过预训练的初始权重，网络收敛地更快，而且语义分割结果与CNN相比更精确直观，且在有限数据集地情况下即可获得较强鲁棒性和泛化性。

本发明的视频语义分割模型基于已经过预训练的初始权重，在有限数据集地情况下即可获得较强鲁棒性和泛化性，更适用于工程环境。

图8为本发明实施例提供的一种基于视频语义分割技术的混凝土裂缝识别装置的结构示意图，该装置可以执行任意本发明任意实施例所提供的一种基于视频语义分割技术的混凝土裂缝识别方法，具备执行该方法相应的功能模块和有益效果。如图8所示，该装置包括：

获取模块91，用于获取裂缝视频，将视频每一帧图像保存下来，以预定间隔选取帧进行手动标注，作为手动标注样本；

合成模块92，用于利用空间位移卷积块对已标注的帧预测未来帧和未来标签，并同时传播未来帧和未来标签，获得合成样本；

预处理模块93，用于对所述合成样本以及手动标注样本进行预处理，形成裂缝数据库；

模型构建模块94，用于修改Deeplabv3+的数据的输入、输出端口以及参数，使其接受视频输入，并以视频输出，建立CVN模型；

迁移模块95，用于将已训练好的Deeplabv3+网络中的卷积层，作为CVN模型的初始权重进行迁移；

训练识别模块96，用于将所述裂缝数据库输入迁移后的CVN模型，训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN，使用混凝土裂缝检测语义分割模型CVN进行混凝土裂缝的识别。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的设备实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频语义分割技术的混凝土裂缝识别方法，其特征在于，包括以下步骤：

修改Deeplabv3+的数据的输入、输出端口以及参数，使其接受视频输入，并以视频输出，建立CVN模型；

2.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法，其特征在于，所述手动标注时使用Labelme图像标注软件对图像中的裂缝进行。

3.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法，其特征在于，所述空间位移卷积块会根据视频当前帧以及过去帧来预测未来帧中的物体。

4.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法，其特征在于，传播未来帧和未来标签时，可由原始帧向前传播或向后传播。

5.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法，其特征在于，利用空间位移卷积块预测未来帧和未来标签，其中，未来帧、未来标签中任意一点的坐标F_t+1(x,y)、M_t+1(x,y)为：

式中，是某一帧内任意像素点的坐标，C是一个用于预测基于输入帧F₁到F_t的运动矢量(u,v)的三维CNN，K(x,y)∈R^N×N是C在(x,y)处预测的N×N的二维权重核，、是F_t、M_t中以为中心的N×N的二维核。

6.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法，其特征在于，所述预处理包括裂缝数据增强和图像归一化操作。

7.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法，其特征在于，修改Deeplabv3+的数据的输入、输出端口，包括将视频分割为图片、对图片进行预测、预测完毕后将图片拼接为视频的操作，修改参数包括训练类别数、训练裁剪尺寸、训练批次大小、学习率以及注册裂缝数据集。

8.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法，其特征在于，所述Deeplabv3+网络在大型数据集Cityscapes上进行预训练。

9.根据权利要求6所述的一种基于视频语义分割技术的混凝土裂缝识别方法，其特征在于，所述裂缝数据增强包括随机旋转、剪切、翻转。

10.一种基于视频语义分割技术的混凝土裂缝识别装置，其特征在于，包括：