CN111476781A - 一种基于视频语义分割技术的混凝土裂缝识别方法和装置 - Google Patents

一种基于视频语义分割技术的混凝土裂缝识别方法和装置 Download PDF

Info

Publication number
CN111476781A
CN111476781A CN202010269508.7A CN202010269508A CN111476781A CN 111476781 A CN111476781 A CN 111476781A CN 202010269508 A CN202010269508 A CN 202010269508A CN 111476781 A CN111476781 A CN 111476781A
Authority
CN
China
Prior art keywords
video
crack
future
semantic segmentation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010269508.7A
Other languages
English (en)
Other versions
CN111476781B (zh
Inventor
申永刚
俞臻威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010269508.7A priority Critical patent/CN111476781B/zh
Publication of CN111476781A publication Critical patent/CN111476781A/zh
Priority to US17/142,701 priority patent/US11615519B2/en
Application granted granted Critical
Publication of CN111476781B publication Critical patent/CN111476781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/0008Industrial image inspection checking presence/absence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30132Masonry; Concrete

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视频语义分割技术的混凝土裂缝识别方法和装置,属于混凝土结构损伤检测技术领域,包括:获取裂缝视频,在视频图片帧中手动标注标签;利用空间位移卷积块对已标注的帧预测未来帧和未来标签,并同时传播未来帧和未来标签,获得合成样本并进行预处理,形成裂缝数据库;修改Deeplabv3+的数据的输入、输出端口及参数,使其接受视频输入,并以视频输出,建立CVN模型;将已训练好的Deeplabv3+网络中的卷积层,作为CVN模型的初始权重进行迁移;将裂缝数据库输入迁移后的CVN模型,训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN。相比卷积神经分类网络减少了对数据量的需求,能够以视频输入、以视频输出,快速准确识别目标,具有实际工程意义。

Description

一种基于视频语义分割技术的混凝土裂缝识别方法和装置
技术领域
本发明属于混凝土结构损伤检测技术领域,尤其涉及一种基于视频语义分割技术的混凝土裂缝识别方法和装置。
背景技术
混凝土是目前用量最大的一种建筑材料,广泛应用于道路、桥梁、隧道及工民建等基础设施的建设中。混凝土结构表面的损伤,包括裂缝、风化、孔洞和剥落等,从视觉上反映了混凝土结构的耐久性和安全性。其中,裂缝是对结构损伤最大、引起关注最多的一种损伤类型,定期的裂缝检测在基础设施的维护和运营中具有非常重要的作用。根据裂缝的形态和位置等特征,可以推断出结构内部的破坏程度以及劣化原因,这为结构健康性评估提供了合理的指导。
早期所采用的裂缝检测方法以人工检测为主,需要维护人员配备一定的设备进行现场勘查、标记、测量,并记录检测结果。传统人工视觉检测方法效率低、成本高、漏查多,正逐渐被非接触式图像采集和计算机视觉分析相结合的机器学习方法取代。例如人工检测一座跨径100m的预应力混凝土箱梁桥,需要工程师借助钢卷尺、照相机、裂缝宽度、深度检测仪等工具并租用昂贵的桥检车,在临时封闭交通的条件下,至少花费6个小时进行现场原始记录,再借助CAD等画图工具才能将整个大桥的裂缝分布示意图绘制完成。机器学习方法借助无人机、爬壁机器人等先进设备携带高清摄像头对桥梁表面进行全覆盖拍照,再采用先进的算法对裂缝进行识别和定位,具有病害调查全面、信息真实可靠的优点,正在被学者关注和研究。为了保证裂缝图片的清晰度,一般每张图片的桥梁实际尺寸不超过4m2,按照100m跨径箱梁外表面4000m2和20%照片重叠率计算,无人机需要采集至少1500张图片,花费超过2个小时,虽然不需封闭交通,但采集图片的效率并不高。相对于摄像,摄影只需要用摄像头对物体表面进行一次扫描即可,省去了摄像的重复定焦过程,所以视频数据的获取比图像快捷,而且视频拍摄具有实时性,在匹配先进的计算机硬件设施后,可用于桥梁等基础设施的运营监测。
在裂缝图片的识别方面,基于计算机视觉的方法得到了广泛应用。机器学习理论通过设计一些算法,使计算机能够模拟人类的学习行为,获取新的知识或技能。其中机器学习的子类——深度学习方法不受外界干扰,能够处理大量图片数据来提高自身性能,在裂缝识别方面展现出了巨大潜力。但是这种基于深度卷积神经网络CNN的方法仅从图像层面和网格单元层面检测裂缝,以矩形分类框形式给出的结果包含部分冗余像素,不够精确。而裂缝属于小目标,在矩形框内占到的像素比例非常小,大部分都是冗余像素。而且一般的CNN模型都采样滑动窗口的方法进行预测,这种方法必然会产生大量的冗余窗口。因此,有学者提出了一种基于候选区域的卷积神经网络Faster-RCNN,避免了使用滑动窗口技术。但是Faster-RCNN仍然在网格单元层面检测裂缝,即图像在检测时会被分割为更小的图像块,使得目标的完整特征被破坏。
语义分割技术可以对每一个像素进行分类,从像素层面上识别图像中的不同目标和位置,在不丢失目标空间信息的基础上,用不同颜色的掩膜表示分类结果,使得裂缝与背景完全分离。从像素层面理解图像的特性也使得语义分割对训练样本的需求量更少。虽然人工添加的多边形标签是图像级的,但是标签内的每一个已标注的像素都可以作为语义分割模型的训练样本,使得训练样本成百上千倍的增加。实际上,语义分割的结果更接近于人眼对世界的观察,因为人眼中的世界的物体边界是清晰的,而不是物体被包含在一个更大的矩形框中。然而,语义分割的图像标注成本太高。例如,在Cityspaces数据集中,一幅1024×2048分辨率的图片标注所有像素平均需要1.5小时,即使是粗略的标记,平均每幅图片仍然需要7分钟。
由于很多语义分割数据集都是在连续的视频帧序列中,以一定的时间间隔选取图像进行标注得到的。如果采用一定的方法能够将标签从已标注帧传播到未标注帧,就可以获得大量的合成数据。很多学者使用光流法进行这种标签的传播,这种方法会准确捕捉物体的运动方式以及运动对周围物体的可见性和外观影响,可以从过去帧序列中预测未来帧。但是光流法无法对当前帧内新出现的物体进行光流矢量的正确估计,这会引起预测帧中的图像扭曲,存在一定的缺陷。虽然大量合成数据的获得可以有效降低语义分割的样本成本,并且使分割结果具备了静态图像中不存在的时间信息,但是无效的、错误的合成样本又会限制语义分割模型的预测精度,同时限制了视频预测的发展。
综上所述,现有技术存在的问题是:建立一个预测准确性优良的深度学习模型通常需要一个海量的数据集,成本过高;传统CNN模型的预测结果冗余信息过多;光流技术无法估计当前帧内新出现物体的光流矢量,所合成的样本有效性低。
解决上述技术问题的难度:语义分割的数据标注的时间成本过高;利用光流法可以增加样本数量,但是合成的样本精确性不高,需要修正图像扭曲;现存的语义分割模型只能接受图像输入。
解决上述技术问题的意义:降低语义分割的时间成本,在数据集有限的情况下可获得大量合成样本,且合成样本的准确性高,可以用于语义分割模型的训练,还使得模型可以接受视频输入,适用性更广。
发明内容
本发明的目的是提供一种基于视频语义分割技术的混凝土裂缝识别方法和装置,以解决目前常用的类似穷举式的深度学习CNN方法,需要大量的数据,运算成本高,检测效率低,且时效性差的问题。
为了达到上述目的,本发明的实施例提供一种基于视频语义分割技术的混凝土裂缝识别方法,包括以下步骤:
获取裂缝视频,将视频每一帧图像保存下来,以预定间隔选取帧进行手动标注,作为手动标注样本;
利用空间位移卷积块对已标注的帧预测未来帧和未来标签,并同时传播未来帧和未来标签,获得合成样本;
对所述合成样本以及手动标注样本进行预处理,形成裂缝数据库;
修改Deeplabv3+的数据的输入、输出端口以及参数,使其接受视频输入,并以视频输出,建立CVN(CrackVideoNet)模型;
将已训练好的Deeplabv3+网络中的卷积层,作为CVN模型的初始权重进行迁移;
将所述裂缝数据库输入迁移后的CVN模型,训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN,使用混凝土裂缝检测语义分割模型CVN进行混凝土裂缝的识别。
进一步地,所述手动标注时使用Labelme图像标注软件对图像中的裂缝进行。
进一步地,所述空间位移卷积块会根据视频当前帧以及过去帧来预测未来帧中的物体。
进一步地,传播未来帧和未来标签时,可由原始帧向前传播或向后传播。
进一步地,利用空间位移卷积块预测未来帧和未来标签,其中,未来帧、未来标签中任意一点的坐标Ft+1(x,y)、Mt+1(x,y)为:
Figure BDA0002442590320000031
Figure BDA0002442590320000032
(u,v)=C(I1:t)
式中,(x,y)是某一帧内任意像素点的坐标,C是一个用于预测基于输入帧F1到Ft的运动矢量(u,v)的三维CNN,K(x,y)∈RN×N是C在(x,y)处预测的N×N的二维权重核,
Figure BDA0002442590320000033
是Ft、Mt中以(x+u,y+v)为中心的N×N的二维核。
进一步地,所述预处理包括裂缝数据增强和图像归一化操作。
进一步地,修改Deeplabv3+的数据的输入、输出端口,包括将视频分割为图片、对图片进行预测、预测完毕后将图片拼接为视频的操作;修改参数包括训练类别数、训练裁剪尺寸、训练批次大小、学习率以及注册裂缝数据集。
进一步地,所述Deeplabv3+网络在大型数据集Cityscapes上进行预训练。
进一步地,所述裂缝数据增强包括随机旋转、剪切、翻转。
第二方面,本发明实施例还提供一种基于视频语义分割技术的混凝土裂缝识别装置,包括:
获取模块,用于获取裂缝视频,将视频每一帧图像保存下来,以预定间隔选取帧进行手动标注,作为手动标注样本;
合成模块,用于利用空间位移卷积块对已标注的帧预测未来帧和未来标签,并同时传播未来帧和未来标签,获得合成样本;
预处理模块,用于对所述合成样本以及手动标注样本进行预处理,形成裂缝数据库;
模型构建模块,用于修改Deeplabv3+的数据的输入、输出端口以及参数,使其接受视频输入,并以视频输出,建立CVN模型;
迁移模块,用于将已训练好的Deeplabv3+网络中的卷积层,作为CVN模型的初始权重进行迁移;
训练识别模块,用于将所述裂缝数据库输入迁移后的CVN模型,训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN,使用混凝土裂缝检测语义分割模型CVN进行混凝土裂缝的识别。
根据上述技术方案,本发明的实施例对裂缝视频数据按视频帧序列进行预处理,利用空间位移卷积块联合传播未来标签和未来帧获取大量合成样本,形成数据集;将已训练好的Deeplabv3+网络中的卷积层权重作为CVN模型的初始训练权重,进行训练预测,得到裂缝检测模型;修改Deeplabv3+模型的数据输入、输出端口及参数,使得模型以视频输入、以视频输出,形成端到端的形式。
一个效果良好的深度学习CNN模型一般需求的数据量在几万到几十万,甚至几百万,而使用语义分割技术后可以有效降低数据量的需求,数据量的增大对预测准确率的提升有一定的帮助,但即使是较小的数据集,语义分割模型也可以获得很高的mIoU值,相比于CNN来说,模型对数据集的依赖性大大下降,是CNN所需数量的十分之一,甚至百分之一。本发明解决了混凝土裂缝深度学习CNN模型对数据量需求较大的问题,本发明的语义分割模型基于已经过预训练的初始权重,网络收敛地更快,而且语义分割结果与CNN相比更精确直观,且在有限数据集地情况下即可获得较强鲁棒性和泛化性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例提供的一种基于视频语义分割技术的混凝土裂缝识别方法的流程图。
图2是本发明实施例提供的基于视频语义分割技术的混凝土裂缝识别方法可视化流程图。
图3是本发明实施例实验中在裂缝图像训练集上的损失曲线。
图4是本发明实施例实验中在裂缝图像验证集上的mIoU曲线。
图5是本发明所使用的空间位移卷积块对未来帧的预测过程。
图6是本发明所使用的空间位移卷积块对未来标签的预测过程。
图7是本发明探究的导入模型的数据量与模型mIoU值的曲线关系图。
图8是本发明实施例提供的一种基于视频语义分割技术的混凝土裂缝识别装置的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合混凝土裂缝实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对目前常用的类似穷举式的深度学习CNN方法,需要大量的数据,运算成本高,检测效率低,且时效性差的问题。本发明是一种可以大大降低混凝土裂缝深度学习模型对数据量需求的方法,并能极大地提高检测效率和时效性,具有很强的鲁棒性、很好的泛化能力以及较高的检测效率和准确率的裂缝检测技术,具有原创性,更适用于工程应用。
下面结合附图对本发明的应用原理作详细的描述。
图1是本发明实施例提供的一种基于视频语义分割技术的混凝土裂缝识别方法的流程图,图2是本发明实施例提供的一种基于视频语义分割技术的混凝土裂缝识别方法可视化流程图,本发明实施例提供一种基于视频语义分割技术的混凝土裂缝识别方法,包括以下步骤:
步骤S101,获取裂缝视频,将视频每一帧图像保存下来,以预定间隔选取帧进行手动标注,作为手动标注样本;
具体的,在混凝土梁破坏性实验中,对梁体表面逐渐出现的裂缝进行摄影,其中为保证训练出的模型具有更好的鲁棒性和稳定性,裂缝的发展方向、清晰度各有不同,裂缝所在的结构背景表面还存在污点、模板痕迹、仪器线路等等干扰。本实例中,摄影得到的两部视频规格为1920×1080,帧率为25,时长统一约为2分30秒。将视频每一帧均进行保存,共计获得7187张图像。使用Labelme对原始图像中的裂缝进行手动标注,以每秒的第20帧作为手工标注样本,每秒进行一次标注,共计获得286个标注帧。
步骤S102,利用空间位移卷积块对已标注的帧预测未来帧和未来标签,并同时传播未来帧和未来标签,获得合成样本;
具体的,利用空间位移卷积块预测未来帧和未来标签,其中,未来帧、未来标签中任意一点的坐标Ft+1(x,y)、Mt+1(x,y)为:
Figure BDA0002442590320000061
Figure BDA0002442590320000062
(u,v)=C(I1:t)
式中,(x,y)是某一帧内任意像素点的坐标,C是一个用于预测基于输入帧F1到Ft的运动矢量(u,v)的三维CNN,K(x,y)∈RN×N是C在(x,y)处预测的N×N的二维权重核,
Figure BDA0002442590320000063
是Ft、Mt中以(x+u,y+v)为中心的N×N的二维核。
使用空间位移卷积块对已标注的帧进行未来标签和未来帧的预测和传播,设置了传播帧数为±3,即在1个真实样本上获取6个合成样本,共计获得2002个训练样本。
步骤S103,对所述合成样本以及手动标注样本进行预处理,形成裂缝数据库;
具体的,以这些样本作为裂缝数据库,进行混凝土裂缝数据增强(随机旋转、剪切、翻转等)和图像归一化操作,从中随机选择样本作为训练集、验证集和测试集。
步骤S104,修改Deeplabv3+的数据的输入、输出端口以及参数,使其接受视频输入,并以视频输出,建立CVN模型;
具体的,将Deeplabv3+网络的数据输入、输出接口进行修改,使其适配视频输入、输出,并将语义分割的结果附加到输出部分,得到端到端的预测结果。修改类别数、训练裁剪尺寸、训练批次大小、学习率,注册裂缝数据集,建立CVN模型
步骤S105,将已训练好的Deeplabv3+网络中的卷积层,作为CVN模型的初始权重进行迁移;
具体的,将已在Cityscapes上训练好的Deeplabv3+网络中的卷积层权重进行迁移,作为CVN模型的预测基础。
步骤S106,将所述裂缝数据库输入迁移后的CVN模型,训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN,使用混凝土裂缝检测语义分割模型CVN进行混凝土裂缝的识别。
具体的,在裂缝数据库上训练CVN模型,得到针对裂缝数据的视频语义分割模型。
本实例使用两部混凝土梁破坏性实验的摄影视频作为训练数据,另一部视频作为二次测试的数据。合成训练样本时的对未来帧的预测示意图如图5所示,Ft+1帧中的任一像素(x,y),是Ft帧中以(x+u,y+v)为中心的N×N区域像素块
Figure BDA0002442590320000064
的加权采样,对未来标签的预测示意图如图6所示,Mt+1帧中的任一像素(x,y),是Mt帧中以(x+u,y+v)为中心的N×N区域像素块
Figure BDA0002442590320000065
的加权采样。训练时的损失曲线如图3所示,训练中设置训练步数为100000步,记录了每10步的平均损失值。从图中可以看出,训练损失从初始的1.37在10000步内迅速降低至0.3以下,并一直震荡到训练结束,这是由于数据集中只含有一类物体,模型学习较为快速准确。
验证集的mIoU曲线如图4所示,由于进行了迁移学习,mIoU曲线在第0次迭代时并不是从0开始增长,而是有一个初始值,约为0.269。mIoU曲线的增长趋势与loss曲线相对应,在10000步内迅速上升到一个较高的水平,随后再缓慢增长,最后稳定在0.93。
一个效果良好的深度学习模型一般需求的数据量在几万到几十万,甚至几百万,而使用语义分割技术后可以有效降低数据量的需求。本发明为了探究导入模型的数据量与模型识别准确率的关系,进一步对包括1920×1080像素分辨率的150张到3000张图像的数据集进行研究,测试结果见图7,各组的训练和验证参数设置一致,除了不使用数据增强外,其余参数相同。从图像中可以看到,随着数据集的变大,验证集的平均交并比mIoU在缓慢的上升,最终稳定在0.93。结果表明,数据量的增大对预测准确率的提升有一定的帮助,但即使是较小的数据集,语义分割模型也可以获得很高的mIoU值,相比于CNN来说,模型对数据集的依赖性大大下降,是CNN所需数量的十分之一,甚至百分之一。本发明解决了混凝土裂缝深度学习CNN模型对数据量需求较大的问题,本发明的语义分割模型基于已经过预训练的初始权重,网络收敛地更快,而且语义分割结果与CNN相比更精确直观,且在有限数据集地情况下即可获得较强鲁棒性和泛化性。
本发明的视频语义分割模型基于已经过预训练的初始权重,在有限数据集地情况下即可获得较强鲁棒性和泛化性,更适用于工程环境。
图8为本发明实施例提供的一种基于视频语义分割技术的混凝土裂缝识别装置的结构示意图,该装置可以执行任意本发明任意实施例所提供的一种基于视频语义分割技术的混凝土裂缝识别方法,具备执行该方法相应的功能模块和有益效果。如图8所示,该装置包括:
获取模块91,用于获取裂缝视频,将视频每一帧图像保存下来,以预定间隔选取帧进行手动标注,作为手动标注样本;
合成模块92,用于利用空间位移卷积块对已标注的帧预测未来帧和未来标签,并同时传播未来帧和未来标签,获得合成样本;
预处理模块93,用于对所述合成样本以及手动标注样本进行预处理,形成裂缝数据库;
模型构建模块94,用于修改Deeplabv3+的数据的输入、输出端口以及参数,使其接受视频输入,并以视频输出,建立CVN模型;
迁移模块95,用于将已训练好的Deeplabv3+网络中的卷积层,作为CVN模型的初始权重进行迁移;
训练识别模块96,用于将所述裂缝数据库输入迁移后的CVN模型,训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN,使用混凝土裂缝检测语义分割模型CVN进行混凝土裂缝的识别。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的设备实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,包括以下步骤:
获取裂缝视频,将视频每一帧图像保存下来,以预定间隔选取帧进行手动标注,作为手动标注样本;
利用空间位移卷积块对已标注的帧预测未来帧和未来标签,并同时传播未来帧和未来标签,获得合成样本;
对所述合成样本以及手动标注样本进行预处理,形成裂缝数据库;
修改Deeplabv3+的数据的输入、输出端口以及参数,使其接受视频输入,并以视频输出,建立CVN模型;
将已训练好的Deeplabv3+网络中的卷积层,作为CVN模型的初始权重进行迁移;
将所述裂缝数据库输入迁移后的CVN模型,训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN,使用混凝土裂缝检测语义分割模型CVN进行混凝土裂缝的识别。
2.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,所述手动标注时使用Labelme图像标注软件对图像中的裂缝进行。
3.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,所述空间位移卷积块会根据视频当前帧以及过去帧来预测未来帧中的物体。
4.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,传播未来帧和未来标签时,可由原始帧向前传播或向后传播。
5.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,利用空间位移卷积块预测未来帧和未来标签,其中,未来帧、未来标签中任意一点的坐标Ft+1(x,y)、Mt+1(x,y)为:
Figure FDA0002442590310000011
Figure FDA0002442590310000012
(u,v)=C(I1:t)
式中,(x,y)是某一帧内任意像素点的坐标,C是一个用于预测基于输入帧F1到Ft的运动矢量(u,v)的三维CNN,K(x,y)∈RN×N是C在(x,y)处预测的N×N的二维权重核,
Figure FDA0002442590310000013
Figure FDA0002442590310000014
是Ft、Mt中以(x+u,y+v)为中心的N×N的二维核。
6.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,所述预处理包括裂缝数据增强和图像归一化操作。
7.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,修改Deeplabv3+的数据的输入、输出端口,包括将视频分割为图片、对图片进行预测、预测完毕后将图片拼接为视频的操作,修改参数包括训练类别数、训练裁剪尺寸、训练批次大小、学习率以及注册裂缝数据集。
8.根据权利要求1所述的一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,所述Deeplabv3+网络在大型数据集Cityscapes上进行预训练。
9.根据权利要求6所述的一种基于视频语义分割技术的混凝土裂缝识别方法,其特征在于,所述裂缝数据增强包括随机旋转、剪切、翻转。
10.一种基于视频语义分割技术的混凝土裂缝识别装置,其特征在于,包括:
获取模块,用于获取裂缝视频,将视频每一帧图像保存下来,以预定间隔选取帧进行手动标注,作为手动标注样本;
合成模块,用于利用空间位移卷积块对已标注的帧预测未来帧和未来标签,并同时传播未来帧和未来标签,获得合成样本;
预处理模块,用于对所述合成样本以及手动标注样本进行预处理,形成裂缝数据库;
模型构建模块,用于修改Deeplabv3+的数据的输入、输出端口以及参数,使其接受视频输入,并以视频输出,建立CVN模型;
迁移模块,用于将已训练好的Deeplabv3+网络中的卷积层,作为CVN模型的初始权重进行迁移;
训练识别模块,用于将所述裂缝数据库输入迁移后的CVN模型,训练针对裂缝数据的混凝土裂缝检测语义分割模型CVN,使用混凝土裂缝检测语义分割模型CVN进行混凝土裂缝的识别。
CN202010269508.7A 2020-04-08 2020-04-08 一种基于视频语义分割技术的混凝土裂缝识别方法和装置 Active CN111476781B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010269508.7A CN111476781B (zh) 2020-04-08 2020-04-08 一种基于视频语义分割技术的混凝土裂缝识别方法和装置
US17/142,701 US11615519B2 (en) 2020-04-08 2021-01-06 Method and apparatus for identifying concrete crack based on video semantic segmentation technology

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010269508.7A CN111476781B (zh) 2020-04-08 2020-04-08 一种基于视频语义分割技术的混凝土裂缝识别方法和装置

Publications (2)

Publication Number Publication Date
CN111476781A true CN111476781A (zh) 2020-07-31
CN111476781B CN111476781B (zh) 2023-04-07

Family

ID=71750009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010269508.7A Active CN111476781B (zh) 2020-04-08 2020-04-08 一种基于视频语义分割技术的混凝土裂缝识别方法和装置

Country Status (2)

Country Link
US (1) US11615519B2 (zh)
CN (1) CN111476781B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112419244A (zh) * 2020-11-11 2021-02-26 浙江大学 基于YOLOv4目标检测模型和管状流场算法的混凝土裂缝分割方法及装置
CN112634195A (zh) * 2020-11-23 2021-04-09 清华大学 混凝土结构裂缝预测方法、装置及系统
CN112906700A (zh) * 2021-01-15 2021-06-04 重庆交通大学 自密实混凝土图像语义分割方法、装置及数据集生成方法
CN113011427A (zh) * 2021-03-17 2021-06-22 中南大学 基于自监督对比学习的遥感图像语义分割方法
CN113421236A (zh) * 2021-06-17 2021-09-21 同济大学 基于深度学习的建筑墙面渗漏水表观发育状况预测方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113889237B (zh) * 2021-10-19 2024-04-16 福建工程学院 基于GA-Xnet的裸鼠皮窗血管分割图像断裂修复方法
CN114140390A (zh) * 2021-11-02 2022-03-04 广州大学 一种基于半监督语义分割的裂纹检测方法及装置
CN114066891B (zh) * 2022-01-17 2022-11-22 北京市建设工程质量第一检测所有限责任公司 基于深度学习的墙体裂缝识别评判方法、装置、设备及介质
CN114693934B (zh) * 2022-04-13 2023-09-01 北京百度网讯科技有限公司 语义分割模型的训练方法、视频语义分割方法及装置
CN114882452B (zh) * 2022-05-17 2022-12-30 张弛 轨道线路安全监测方法、列车运行控制方法及控制系统
CN115393725B (zh) * 2022-10-26 2023-03-07 西南科技大学 一种特征增强和语义分割的桥梁裂缝识别方法
CN116309447B (zh) * 2023-03-17 2024-01-05 水利部交通运输部国家能源局南京水利科学研究院 一种基于深度学习的水坝斜坡裂缝检测方法
CN116523888B (zh) * 2023-05-08 2023-11-03 北京天鼎殊同科技有限公司 路面裂缝的检测方法、装置、设备及介质
CN116343071B (zh) * 2023-05-31 2023-07-21 山东科技大学 基于深度学习算法的地表采动裂缝无人机影像识别方法
CN116363161B (zh) * 2023-06-02 2023-08-01 清华大学 一种水泥水化图像多类别分割方法和装置
CN116452613B (zh) * 2023-06-14 2023-08-29 山东省国土空间生态修复中心(山东省地质灾害防治技术指导中心、山东省土地储备中心) 一种地质调查中裂缝轮廓提取方法
CN118196552A (zh) * 2023-07-25 2024-06-14 长安大学 基于机器学习的裂隙岩体质量评价方法、电子设备及存储介质
CN116993739B (zh) * 2023-09-27 2023-12-12 中国计量大学 一种基于深度学习的混凝土裂缝深度预测模型、方法及应用
CN117649154B (zh) * 2024-01-29 2024-04-19 新疆三联工程建设有限责任公司 基于数字化的砼试块制作全过程管理系统及方法
CN117911249B (zh) * 2024-02-19 2024-10-18 自然资源部第三海洋研究所 一种基于视频影像的海滩冲流带、渗流面监测方法和装置以及设备
CN118053119B (zh) * 2024-02-23 2024-08-23 内江筑石混凝土有限公司 绿色混凝土的自动化生产方法及系统
CN117876381B (zh) * 2024-03-13 2024-05-10 江苏省建筑工程质量检测中心有限公司 用于混凝土结构裂缝识别和分析的ai视觉检测方法和系统
CN118379237A (zh) * 2024-03-14 2024-07-23 哈尔滨工业大学 基于视觉大模型sam的桥梁表观裂缝像素级辨识方法
CN117952977B (zh) * 2024-03-27 2024-06-04 山东泉海汽车科技有限公司 一种基于改进yolov5s的路面裂缝识别方法、装置和介质
CN118172346B (zh) * 2024-04-01 2024-10-11 渑池县坤基新型墙材有限公司 一种蒸压加气混凝土板材缺陷识别方法
CN118505690B (zh) * 2024-07-17 2024-10-11 华东交通大学 基于深度学习的隧道衬砌裂缝检测方法、系统及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190297326A1 (en) * 2018-03-21 2019-09-26 Nvidia Corporation Video prediction using spatially displaced convolution
JP2020027659A (ja) * 2018-08-10 2020-02-20 ネイバー コーポレーションNAVER Corporation 畳み込み回帰型ニューラルネットワークを訓練させる方法、および訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法
CN110910343A (zh) * 2019-09-29 2020-03-24 北京建筑大学 路面裂缝检测的方法、装置及计算机设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3275204B1 (en) * 2015-03-24 2020-07-22 Carrier Corporation System and method for capturing and analyzing multidimensional building information
CA3012049A1 (en) * 2016-01-20 2017-07-27 Ez3D, Llc System and method for structural inspection and construction estimation using an unmanned aerial vehicle
US11341410B1 (en) * 2017-12-07 2022-05-24 Triad National Security, Llc Subsurface stress criticality associated with fluid injection and determined using machine learning
US10460173B2 (en) * 2018-02-17 2019-10-29 Constru Ltd System and method for providing information based on construction site images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190297326A1 (en) * 2018-03-21 2019-09-26 Nvidia Corporation Video prediction using spatially displaced convolution
JP2020027659A (ja) * 2018-08-10 2020-02-20 ネイバー コーポレーションNAVER Corporation 畳み込み回帰型ニューラルネットワークを訓練させる方法、および訓練された畳み込み回帰型ニューラルネットワークを使用する、入力されたビデオのセマンティックセグメンテーション方法
CN110910343A (zh) * 2019-09-29 2020-03-24 北京建筑大学 路面裂缝检测的方法、装置及计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
REDA,ET AL: "《SDC-Net: Video prediction using spatially-displaced convolution》", 《LECTURE NOTES IN COMPUTER SCIENCE》 *
沈俊凯: "《基于计算机视觉的混凝土裂缝检测算法研究》", 《工程科技Ⅱ辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112419244A (zh) * 2020-11-11 2021-02-26 浙江大学 基于YOLOv4目标检测模型和管状流场算法的混凝土裂缝分割方法及装置
CN112419244B (zh) * 2020-11-11 2022-11-01 浙江大学 混凝土裂缝分割方法及装置
CN112634195A (zh) * 2020-11-23 2021-04-09 清华大学 混凝土结构裂缝预测方法、装置及系统
CN112634195B (zh) * 2020-11-23 2024-10-01 清华大学 混凝土结构裂缝预测方法、装置及系统
CN112906700A (zh) * 2021-01-15 2021-06-04 重庆交通大学 自密实混凝土图像语义分割方法、装置及数据集生成方法
CN113011427A (zh) * 2021-03-17 2021-06-22 中南大学 基于自监督对比学习的遥感图像语义分割方法
CN113011427B (zh) * 2021-03-17 2022-06-21 中南大学 基于自监督对比学习的遥感图像语义分割方法
CN113421236A (zh) * 2021-06-17 2021-09-21 同济大学 基于深度学习的建筑墙面渗漏水表观发育状况预测方法
CN113421236B (zh) * 2021-06-17 2024-02-09 同济大学 基于深度学习的建筑墙面渗漏水表观发育状况预测方法

Also Published As

Publication number Publication date
CN111476781B (zh) 2023-04-07
US11615519B2 (en) 2023-03-28
US20210319547A1 (en) 2021-10-14

Similar Documents

Publication Publication Date Title
CN111476781B (zh) 一种基于视频语义分割技术的混凝土裂缝识别方法和装置
Spencer Jr et al. Advances in computer vision-based civil infrastructure inspection and monitoring
Narazaki et al. Synthetic environments for vision-based structural condition assessment of Japanese high-speed railway viaducts
CN108428229B (zh) 一种基于深度神经网络提取表观和几何特征的肺部纹理识别方法
Xu et al. Pavement crack detection algorithm based on generative adversarial network and convolutional neural network under small samples
CN109919934B (zh) 一种基于多源域深度迁移学习的液晶面板缺陷检测方法
CN112800913B (zh) 一种基于多源特征融合的路面损伤数据时空分析方法
CN109711413A (zh) 基于深度学习的图像语义分割方法
CN108460760B (zh) 一种基于生成式对抗网络的桥梁裂缝图像判别修复方法
US20220092856A1 (en) Crack detection, assessment and visualization using deep learning with 3d mesh model
Liu et al. A night pavement crack detection method based on image‐to‐image translation
CN113962960A (zh) 基于深度学习的路面病害检测方法
CN117291902B (zh) 一种基于深度学习用于像素级混凝土裂缝的检测方法
CN114972177A (zh) 道路病害识别管理方法、装置及智能终端
Wang et al. Geometry-informed deep learning-based structural component segmentation of post-earthquake buildings
Xiao et al. Region of interest (ROI) extraction and crack detection for UAV-based bridge inspection using point cloud segmentation and 3D-to-2D projection
Shi et al. Development of large-scale synthetic 3D point cloud datasets for vision-based bridge structural condition assessment
CN113487738B (zh) 基于虚拟知识迁移的建筑物及其遮挡区域单体化提取方法
Agrafiotis et al. Orthoimage-to-2D Architectural Drawing with Conditional Adversarial Networks
Kee et al. Cracks identification using mask region-based denoised deformable convolutional network
Vanitha et al. A novel deep learning method for the identification and categorization of footpath defects based on thermography
Song et al. CCD image-based pixel-level identification model for pavement cracks under complex noises using artificial intelligence
Wu et al. Automatic curtain wall frame detection based on deep learning and cross-modal feature fusion
Xue et al. Post-hurricane building damage assessment using street-view imagery and structured data: A multi-modal deep learning approach
CN118314034B (zh) 一种斑马鱼求偶行为图像数据增强方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant