CN114913150A - 一种混凝土大坝缺陷时序图像智能识别方法 - Google Patents

一种混凝土大坝缺陷时序图像智能识别方法 Download PDF

Info

Publication number
CN114913150A
CN114913150A CN202210515193.9A CN202210515193A CN114913150A CN 114913150 A CN114913150 A CN 114913150A CN 202210515193 A CN202210515193 A CN 202210515193A CN 114913150 A CN114913150 A CN 114913150A
Authority
CN
China
Prior art keywords
defect
frame
image
sequence
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210515193.9A
Other languages
English (en)
Other versions
CN114913150B (zh
Inventor
马洪琪
周华
毛莺池
迟福东
周晓峰
曹学兴
戚荣志
陈豪
谭彬
聂兵兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Huaneng Lancang River Hydropower Co Ltd
Original Assignee
Hohai University HHU
Huaneng Lancang River Hydropower Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU, Huaneng Lancang River Hydropower Co Ltd filed Critical Hohai University HHU
Priority to CN202210515193.9A priority Critical patent/CN114913150B/zh
Publication of CN114913150A publication Critical patent/CN114913150A/zh
Priority to PCT/CN2023/082484 priority patent/WO2023216721A1/zh
Priority to US18/322,605 priority patent/US20230368371A1/en
Application granted granted Critical
Publication of CN114913150B publication Critical patent/CN114913150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/344Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30132Masonry; Concrete
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种混凝土大坝缺陷时序图像智能识别方法,使用双流网络提取包含混凝土大坝缺陷的时序图像的特征序列,并添加时间维度的自注意力机制获取全局上下文特征关系;在模型的训练过程中,使用基于距离交并比的目标函数匹配定位缺陷和真实缺陷,计算缺陷的时序位置关系加速模型收敛;在模型损失函数中添加基于紧密感知交并比的损失项,以关注缺陷序列的完整性提高准确率;在完成缺陷定位后,采用基于2D时序差分的卷积神经网络提取缺陷特征并识别缺陷类型。本发明对混凝土大坝缺陷时序图像进行了有效检测,不仅能够定位长图像序列中的缺陷位置,还能够准确识别缺陷类型。在大坝缺陷时序图像的识别任务中具有较高的识别精度与较好的收敛性能。

Description

一种混凝土大坝缺陷时序图像智能识别方法
技术领域
本发明属于混凝土大坝缺陷时序图像识别技术领域,特别涉及一种基于时序差分和自注意力机制的缺陷识别方法。
背景技术
在建筑工程领域,不符合工程施工质量要求规定的检验项目或检验点被定义为缺陷。随着水电站大坝的长期运行,材料老化、环境影响等因素都不同程度地导致了缺陷的形成。当缺陷程度较轻时,可采取相应措施及时处理,以满足结构的承载要求。一旦缺陷没有得到及时处理和修复,将对大坝的安全运行构成重大威胁。因此,利用自动巡检设备及时检测和排除缺陷,可以有效地维护大坝的结构安全。
在大坝水电站实际巡检场景中,通过无人机、移动摄像头等设备采集到的数据均由视频构成。在获取和传输的过程中,为节约成本会对视频进行压缩编码,从而导致模型无法直接处理视频数据,需要将视频转换为时间维度的图像序列,通过提取时序图像特征信息定位其中的缺陷并进行识别。实际采集到的时序图像,往往包含了大量与缺陷无关的背景帧,直接对整段图像序列识别难度较大。
发明内容
发明目的:经上述现有技术的分析可知,在时序图像缺陷识别任务中,模型需要能够关注图像序列的上下文特征关系以保证缺陷提取的完整性和识别准确率。为了对自动化设备采集到的大坝缺陷时序图像快速识别,本发明提供一种混凝土大坝缺陷时序图像智能识别方法。
技术方案:一种混凝土大坝缺陷时序图像智能识别方法,选用双流网络提取包含大坝缺陷的时序图像特征序列,并添加时间维度的自注意力机制获取全局特征关系;在模型的训练过程中,使用基于距离交并比的目标函数匹配定位缺陷和真实缺陷,计算缺陷的时序位置关系加速模型收敛;在模型损失函数中添加基于紧密感知交并比的损失项,以关注缺陷序列的完整性提高准确率;在完成缺陷定位后,采用基于2D时序差分的卷积神经网络提取缺陷特征并识别缺陷类型。
具体包括如下步骤:
(1)针对包含大坝缺陷的时序图像特点设计缺陷定位模型,该模型采用双流网络和Transformer网络进行时序特征提取,使用双流网络提取图像特征,通过Transformer网络给图像帧添加时间维度的自注意力机制,获取全局特征关系以定位缺陷;
(2)在缺陷定位模型训练过程中,使用基于距离交并比的目标函数匹配定位缺陷和真实缺陷,通过计算缺陷位置关系加快模型收敛速度,并在损失函数中添加基于紧密感知交并比的损失项,通过关注缺陷序列的完整性提高缺陷定位准确率;
(3)定位缺陷序列后,采用基于2D时序差分的卷积网络进行帧采样,提取缺陷图像帧的视觉和位移信息以识别缺陷类型。
所述采用双流网络和Transformer网络进行时序特征提取的具体步骤如下:
(1.1)输入原始时序图像,记作
Figure BDA0003639228520000021
该序列包含l个图像帧,其中xn表示该序列X的第n帧。
(1.2)将原始时序图像转换为
Figure BDA0003639228520000022
作为双流网络的输入,其中
Figure BDA0003639228520000023
为原始时序图像X的第tn帧RGB图像,由空间流卷积网络处理;
Figure BDA0003639228520000024
为第tn帧和tn+1帧RGB图像堆叠成的光流,由时间流卷积网络处理,
Figure BDA0003639228520000025
表示第tn+1帧在点(u,v)上的水平或垂直位移矢量。
Figure BDA0003639228520000026
Figure BDA0003639228520000027
分别表示第tn+1帧在点(u,v)上的水平和垂直位移矢量,可以看作卷积神经网络的两个输入通道。为了表示一系列时序图像的运动,将L个连续帧的光流叠加在一起,形成2L个输入通道,任意帧τ的输入由如下公式组成:
Figure BDA0003639228520000028
Figure BDA0003639228520000029
u=[1;w],v=[1;h],k=[1;L]
其中公式中w和h为输入图像的宽度和高度。
(1.3)将双流网络提取的时序图像特征序列记作
Figure BDA00036392285200000210
使用三层卷积组成边界评估网络,计算每一帧作为缺陷序列开始和结束帧的概率
Figure BDA00036392285200000211
Figure BDA00036392285200000212
并将时序图像的输入特征和每个时序位置对应的缺陷开始和结束的预测概率相乘并组合,得到特征序列:
Figure BDA00036392285200000213
(1.4)求得图像对应的特征序列
Figure BDA00036392285200000214
后,为每一帧添加位置编码标记时序位置,并使用Transformer网络计算每一帧的全局自注意力权重:
Figure BDA00036392285200000215
其中Wm和W′m为权重可学习的注意力矩阵,都是通过网络学习的权重,功能和维度大小一致,其权值是不同的,Amqk为多头自注意力权重,Ωk为图像序列的维度,得到包含注意力权重的缺陷图像特征序列;
(1.5)采用多层感知机,将包含注意力权重的缺陷图像特征序列的图像序列作为输入,预测并输出起开始和结束帧的位置。
所述在缺陷定位模型训练过程中,使用基于距离交并比的目标函数匹配定位缺陷和真实缺陷,通过计算缺陷位置关系加快模型收敛速度,并在损失函数中添加基于紧密感知交并比的损失项,通过关注缺陷序列的完整性提高缺陷定位准确率,具体步骤如下:
(2.1)在模型的训练过程中,首先需要将定位缺陷
Figure BDA0003639228520000031
与真实缺陷
Figure BDA0003639228520000032
两两匹配,计算模型定位的区间和真实缺陷区间之间的误差(简称区间误差)作为损失值优化模型。在匹配过程中通过最大化目标函数计算最优匹配,目标函数如下:
Figure BDA0003639228520000033
其中l1为严格匹配边界的L1目标函数,DIoU为距离交并比;
(2.2)为了加快模型训练速度,保证模型在定位的缺陷和真实缺陷不重叠时也能收敛,将基于距离交并比的目标函数定义为:
Figure BDA0003639228520000034
其中IoU为两缺陷交并比,b和bt分别代表定位缺陷和真实缺陷区间的中心点坐标,而ρ则表示计算两点(两个区间中心点)间的距离,c为能同时覆盖定位缺陷和真实缺陷区间的最小时间区间的长度。
(2.3)最后缺陷定位任务的损失函数定义为:
Figure BDA0003639228520000035
其中Lbou为边界损失,用以衡量缺陷区间的起止帧与真实缺陷区间的偏差:
Figure BDA0003639228520000036
其中ts和te为含有缺陷的区间开始和结束帧的位置,
Figure BDA0003639228520000037
Figure BDA0003639228520000038
表示预测出的缺陷区间的起止位置。Lpre为区间损失,使用紧密感知交并比衡量模型预测的缺陷区间准确性和完整性:
Figure BDA0003639228520000041
Figure BDA0003639228520000042
为定位的区间和真实的区间,IOU为两区间交并比。
所述基于2D时序差分的卷积网络进行帧采样,提取缺陷图像帧的视觉和位移信息以识别缺陷类型,具体步骤如下:
(3.1)将包含缺陷的图像序列
Figure BDA0003639228520000043
分割为没有重叠的T个等长片段,从每个片段中随机抽取一帧xt组成集合为X=[x′1,x′2,…,x′T]以增加训练的多样性,使得基于2D时序差分的卷积网络能够学习同一缺陷的不同实例变化。X中的采样帧均由2D卷积神经网络提取特征,得到特征集合F=[F1,F2,…,FT];
(3.2)采样帧所表示的运动信息为
Figure BDA0003639228520000044
在特征
Figure BDA0003639228520000045
中,采样帧Ft贡献视觉图像信息,特征堆叠H(xt)贡献局部运动信息,由平均池化层提取采样帧前后各帧的特征后堆叠得到。
(3.3)使用多层感知机和softmax函数对采样的特征图像序列
Figure BDA0003639228520000046
解码得到缺陷类别。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的混凝土大坝缺陷时序图像智能识别方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的混凝土大坝缺陷时序图像智能识别方法的计算机程序。
有益效果:本发明与现有技术相比具有以下优点:
(1)使用Transformer网络给图像序列添加时间维度的自注意力机制,使得模型能够关注全局特征关系,提高缺陷定位准确率。
(2)通过在模型训练过程中添加基于距离交并比的目标函数和基于紧密感知交并比的损失项,关注缺陷的位置信息和完整性以加快模型收敛速度,提高定位准确率。
(3)在识别缺陷的过程中,采用基于2D时序差分的卷积网络,使得采样帧能够同时包含缺陷的图像特征和位移信息,在节省计算资源的情况下提升了识别精确度。
附图说明
图1为具体实施例中大坝缺陷时序图像示意图;
图2为具体实施例中大坝缺陷时序图像识别方法总体框架图;
图3为具体实施例中双流网络框架示意图;
图4为具体实施例中2D时序差分卷积网络框架示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
已知有某电站大坝工程巡检缺陷时序图像,每段图像中可能包含4类缺陷,分别为裂缝、碱性物析出、渗水、混凝土剥落,如图1所示。
图2给出了面向大坝缺陷时序图像的缺陷识别方法的总体框架,面向大坝缺陷时序图像的缺陷识别方法,主要工作流程实施如下:
(1)针对大坝缺陷时序图像序列长、且包含大量与缺陷无关的背景帧的问题,设计缺陷定位模型,使用双流网络提取时序图像特征序列,并添加时间维度的自注意力机制获取全局特征关系以定位缺陷,如图3所示。
(1.1)输入原始时序图像,记作
Figure BDA0003639228520000051
该序列包含l个图像帧,其中xn表示该序列X的第n帧;
(1.2)将原始图像序列转换为
Figure BDA0003639228520000052
作为双流网络的输入,其中
Figure BDA0003639228520000053
为图像序列X的第tn帧RGB图像,由空间流卷积网络处理;
Figure BDA0003639228520000054
为第tn帧和tn+1帧堆叠成的光流,由时间流卷积网络处理。
Figure BDA0003639228520000055
Figure BDA0003639228520000056
分别表示第tn+1帧在点(u,v)上的水平和垂直位移矢量,可以看作卷积神经网络的两个输入通道。为了表示一系列时序图像的运动,将L个连续帧的光流叠加在一起,形成2L个输入通道,任意帧τ的输入由如下公式组成:
Figure BDA0003639228520000057
Figure BDA0003639228520000058
u=[1;w],v=[1;h],k=[1;L].
其中公式中w和h为输入图像的宽度和高度;
(1.3)将双流网络提取的时序图像特征序列记作
Figure BDA0003639228520000059
使用三层卷积组成边界评估网络,计算每一帧作为缺陷序列开始和结束帧的概率
Figure BDA00036392285200000510
Figure BDA00036392285200000511
卷积层被记作Conv(cf,ck,f),参数cf,ck和f分别为卷积核数、通道数和激活函数,则上述边界评估网络的结构可以简单概括表示为Conv(512,3,Relu)→Conv(512,3,Relu)→Conv(3,1,sigmoid),这三层卷积的步长相同均为1。最后将时序图像的输入特征和每个时序位置对应的缺陷开始和结束的预测概率相乘并组合,得到特征序列:
Figure BDA0003639228520000061
(1.4)为每一帧添加位置编码标记时序位置,并使用Transformer网络计算每一帧的全局自注意力权重:
Figure BDA0003639228520000062
其中Wm为权重可学习的注意力矩阵,Amqk为多头自注意力权重。该网络包含8个自注意力头和2048维的前馈神经网络,丢弃比例设置为0.1并使用ReLU作为激活函数,得到包含注意力权重的缺陷图像特征序列;
(1.5)将特征序列作为3层512维多层感知机的输入,预测并输出起开始和结束帧的位置。
(2)在缺陷定位模型的训练阶段,针对模型无法关注缺陷位置和完整性的问题,使用基于距离交并比的目标函数匹配定位缺陷和真实缺陷,计算缺陷的时序位置关系加速模型收敛,并在损失函数中添加基于紧密感知交并比的损失项提高模型准确率。
(2.1)在模型的训练过程中,首先需要将定位缺陷
Figure BDA0003639228520000063
与真实缺陷
Figure BDA0003639228520000064
两两匹配,计算区间误差作为损失值优化模型。在匹配过程中通过最大化目标函数计算最优匹配,目标函数如下:
Figure BDA0003639228520000065
其中l1为严格匹配边界的L1目标函数,DIoU为距离交并比。
(2.2)为了加快模型训练速度,保证模型在定位的缺陷和真实缺陷不重叠时也能收敛,将基于距离交并比的目标函数定义为:
Figure BDA0003639228520000066
其中b和bt分别代表定位缺陷区间和真实缺陷区间的中心点坐标,而ρ则表示计算两点间的距离,c为能同时覆盖两区间的最小时间区间的长度。
(2.3)最后缺陷定位任务的损失函数定义为:
Figure BDA0003639228520000071
其中Lbou为边界损失,用以衡量缺陷区间的起止帧与真实缺陷区间的偏差:
Figure BDA0003639228520000072
其中ts和te为含有缺陷的区间开始和结束帧的位置。Lpre为区间损失,使用紧密感知交并比衡量模型预测的缺陷区间准确性和完整性:
Figure BDA0003639228520000073
(3)定位缺陷序列后,采用基于2D时序差分的卷积网络进行帧采样,提取缺陷图像帧的视觉和位移信息以识别缺陷类型,在加快模型识别速度的同时保证识别准确率,如图4所示。
(3.1)将包含缺陷的图像序列
Figure BDA0003639228520000074
分割为没有重叠的T个等长片段,从每个片段中以1/32的采样帧率随机抽取一帧xt组成集合为X=[x′1,x′2,…,x′T]以增加训练的多样性,使得网络能够学习同一缺陷的不同实例变化。所有采样帧均由以Resnet50作为骨干网络的2D卷积神经网络提取特征,得到特征集合F=[F1,F2,…,FT]。
(3.2)该帧所表示的运动信息为
Figure BDA0003639228520000075
在特征
Figure BDA0003639228520000076
中,采样帧Ft贡献视觉图像信息,特征堆叠H(xt)贡献局部运动信息,由采样帧前后n帧的运动信息,由平均池化层提取采样帧前后各帧的特征后堆叠得到,网络结构如图4所示。
(3.2)使用3层512维多层感知机和softmax函数对采样的特征图像序列
Figure BDA0003639228520000077
解码得到缺陷类别。
显然,本领域的技术人员应该明白,上述的本发明实施例的面向大坝缺陷时序图像的缺陷识别方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (8)

1.一种混凝土大坝缺陷时序图像智能识别方法,其特征在于,包括如下步骤:
(1)针对包含大坝缺陷的时序图像特点设计缺陷定位模型,缺陷定位模型采用双流网络和Transformer网络进行时序特征提取,使用双流网络提取图像特征,通过Transformer网络给图像帧添加时间维度的自注意力机制,获取全局特征关系以定位缺陷;
(2)在缺陷定位模型训练过程中,使用基于距离交并比的目标函数匹配定位缺陷和真实缺陷,通过计算缺陷位置关系加快模型收敛速度,并在损失函数中添加基于紧密感知交并比的损失项,通过关注缺陷序列的完整性提高缺陷定位准确率;
(3)定位缺陷序列后,采用基于2D时序差分的卷积网络进行帧采样,提取缺陷图像帧的视觉和位移信息以识别缺陷类型。
2.根据权利要求1所述的混凝土大坝缺陷时序图像智能识别方法,其特征在于,所述采用双流网络和Transformer网络进行时序特征提取的具体步骤如下:
(1.1)输入原始时序图像,记作
Figure FDA0003639228510000011
该序列包含l个图像帧,其中xn表示该序列X的第n帧;
(1.2)将原始时序图像转换为
Figure FDA0003639228510000012
作为双流网络的输入,其中
Figure FDA0003639228510000013
为原始时序图像X的第tn帧RGB图像,由空间流卷积网络处理;
Figure FDA0003639228510000014
为第tn帧和tn+1帧RGB图像堆叠成的光流,由时间流卷积网络处理;
Figure FDA0003639228510000015
Figure FDA0003639228510000016
分别表示第tn+1帧在点(u,v)上的水平和垂直位移矢量,看作卷积神经网络的两个输入通道;
(1.3)将双流网络提取的时序图像特征序列记作
Figure FDA0003639228510000017
使用三层卷积组成边界评估网络,计算每一帧作为缺陷序列开始和结束帧的概率
Figure FDA0003639228510000018
Figure FDA0003639228510000019
并将时序图像的输入特征和每个时序位置对应的缺陷开始和结束的预测概率相乘并组合;
(1.4)为每一帧添加位置编码标记时序位置,并使用Transformer网络计算每一帧的全局自注意力权重;
(1.5)采用多层感知机预测包含缺陷的图像序列,输出起开始和结束帧的位置。
3.根据权利要求1所述的混凝土大坝缺陷时序图像智能识别方法,其特征在于,所述在缺陷定位模型训练过程中,使用基于距离交并比的目标函数匹配定位缺陷和真实缺陷,通过计算缺陷位置关系加快模型收敛速度,并在损失函数中添加基于紧密感知交并比的损失项,通过关注缺陷序列的完整性提高缺陷定位准确率,具体步骤如下:
(2.1)在模型的训练过程中,首先需要将定位缺陷
Figure FDA0003639228510000021
与真实缺陷
Figure FDA0003639228510000022
两两匹配,计算区间误差作为损失值优化模型;在匹配过程中通过最大化目标函数计算最优匹配,目标函数如下:
Figure FDA0003639228510000023
其中l1为严格匹配边界的L1目标函数,DIoU为距离交并比;
(2.2)将基于距离交并比的目标函数定义为:
Figure FDA0003639228510000024
其中IoU为两缺陷交并比,b和bt分别代表定位缺陷和真实缺陷区间的中心点坐标,而ρ则表示计算两点间的距离,c为能同时覆盖定位缺陷和真实缺陷区间的最小时间区间的长度;
(2.3)最后缺陷定位任务的损失函数定义为:
Figure FDA0003639228510000025
其中Lbou为边界损失,用以衡量缺陷区间的起止帧与真实缺陷区间的偏差;Lpre为区间损失,用以衡量模型预测的缺陷区间准确性和完整性。
4.根据权利要求1所述的混凝土大坝缺陷时序图像智能识别方法,其特征在于,所述基于2D时序差分的卷积网络进行帧采样,提取缺陷图像帧的视觉和位移信息以识别缺陷类型,具体步骤如下:
(3.1)将提取到的缺陷序列分割为没有重叠的若干个等长片段,从每个片段中随机抽取一帧组成采样帧的集合;
(3.2)以每一个采样帧为中心,抽取前后若干帧进行堆叠操作,通过残差连接与当前帧融合,捕捉短期位移特征,使单个采样帧能够感知局部变化;
(3.3)使用多层感知机和softmax函数对采样的特征图像序列解码得到缺陷类别。
5.根据权利要求4所述的混凝土大坝缺陷时序图像智能识别方法,其特征在于,所有采样帧均由2D卷积神经网络提取特征,得到特征集合F=[F1,F2,…,FT];采样帧所表示的运动信息为
Figure FDA0003639228510000026
在特征
Figure FDA0003639228510000027
中,采样帧Ft贡献视觉图像信息,特征堆叠H(xt)贡献局部运动信息。
6.根据权利要求2所述的混凝土大坝缺陷时序图像智能识别方法,其特征在于,为了表示一系列时序图像的运动,将L个连续帧的光流叠加在一起,形成2L个输入通道,任意帧τ的输入由如下公式组成:
Figure FDA0003639228510000031
Figure FDA0003639228510000032
其中公式中w和h为输入图像的宽度和高度。
7.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-6中任一项所述的混凝土大坝缺陷时序图像智能识别方法。
8.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-6中任一项所述的混凝土大坝缺陷时序图像智能识别方法的计算机程序。
CN202210515193.9A 2022-05-11 2022-05-11 一种混凝土大坝缺陷时序图像智能识别方法 Active CN114913150B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210515193.9A CN114913150B (zh) 2022-05-11 2022-05-11 一种混凝土大坝缺陷时序图像智能识别方法
PCT/CN2023/082484 WO2023216721A1 (zh) 2022-05-11 2023-03-20 一种混凝土大坝缺陷时序图像智能识别方法
US18/322,605 US20230368371A1 (en) 2022-05-11 2023-05-24 Intelligent recognition method for time sequence image of concrete dam defect

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210515193.9A CN114913150B (zh) 2022-05-11 2022-05-11 一种混凝土大坝缺陷时序图像智能识别方法

Publications (2)

Publication Number Publication Date
CN114913150A true CN114913150A (zh) 2022-08-16
CN114913150B CN114913150B (zh) 2023-08-22

Family

ID=82766049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210515193.9A Active CN114913150B (zh) 2022-05-11 2022-05-11 一种混凝土大坝缺陷时序图像智能识别方法

Country Status (2)

Country Link
CN (1) CN114913150B (zh)
WO (1) WO2023216721A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457006A (zh) * 2022-09-23 2022-12-09 华能澜沧江水电股份有限公司 基于相似一致性自蒸馏的无人机巡检缺陷分类方法及装置
CN115994891A (zh) * 2022-11-22 2023-04-21 河海大学 基于狼群算法的无人载具混凝土坝表面缺陷动态检测方法
CN116385794A (zh) * 2023-04-11 2023-07-04 河海大学 基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置
WO2023216721A1 (zh) * 2022-05-11 2023-11-16 河海大学 一种混凝土大坝缺陷时序图像智能识别方法
CN118628500A (zh) * 2024-08-14 2024-09-10 深圳西普尼精密科技股份有限公司 基于图像处理的手表表壳真空镀膜缺陷检测方法及系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117250208B (zh) * 2023-11-20 2024-02-06 青岛天仁微纳科技有限责任公司 基于机器视觉的纳米压印晶圆缺陷精准检测系统及方法
CN117544544B (zh) * 2023-12-13 2024-08-16 广州思林杰科技股份有限公司 一种多端口poe测试设备
CN117910517B (zh) * 2024-01-25 2024-06-14 河海大学 一种基于物理信息神经网络的堤坝空鼓隐患识别方法及系统
CN118172346B (zh) * 2024-04-01 2024-10-11 渑池县坤基新型墙材有限公司 一种蒸压加气混凝土板材缺陷识别方法
CN118351086A (zh) * 2024-04-24 2024-07-16 月明星(北京)科技有限公司 水坝形变信息预测模型训练方法、预测方法和电子设备
CN118606657B (zh) * 2024-08-07 2024-10-25 长江水利委员会长江科学院 一种大坝变形量的预测方法、系统、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989933A (zh) * 2021-10-29 2022-01-28 国网江苏省电力有限公司苏州供电分公司 一种在线行为识别模型训练、检测方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11640710B2 (en) * 2017-11-14 2023-05-02 Google Llc Weakly-supervised action localization by sparse temporal pooling network
CN108921201B (zh) * 2018-06-12 2019-06-28 河海大学 基于特征组合与cnn的大坝缺陷识别与分类方法
CN113239822A (zh) * 2020-12-28 2021-08-10 武汉纺织大学 基于时空双流卷积神经网络的危险行为检测方法及系统
CN112926396B (zh) * 2021-01-28 2022-05-13 杭州电子科技大学 一种基于双流卷积注意力的动作识别方法
CN113283298B (zh) * 2021-04-26 2023-01-03 西安交通大学 基于时间注意力机制和双流网络的实时行为识别方法
CN114913150B (zh) * 2022-05-11 2023-08-22 河海大学 一种混凝土大坝缺陷时序图像智能识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989933A (zh) * 2021-10-29 2022-01-28 国网江苏省电力有限公司苏州供电分公司 一种在线行为识别模型训练、检测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MAO YINGCHI,等: "Keywords-Based Dam Defect Image Caption Generation", 《 2021 IEEE SEVENTH INTERNATIONAL CONFERENCE ON BIG DATA COMPUTING SERVICE AND APPLICATIONS 》 *
何鑫;许娟;金莹莹;: "行为关联网络:完整的变化行为建模", 计算机科学, no. 09 *
毛莺池: "基于特征组合与CNN的大坝缺陷识别与分类方法", 《计算机科学》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023216721A1 (zh) * 2022-05-11 2023-11-16 河海大学 一种混凝土大坝缺陷时序图像智能识别方法
CN115457006A (zh) * 2022-09-23 2022-12-09 华能澜沧江水电股份有限公司 基于相似一致性自蒸馏的无人机巡检缺陷分类方法及装置
CN115457006B (zh) * 2022-09-23 2023-08-22 华能澜沧江水电股份有限公司 基于相似一致性自蒸馏的无人机巡检缺陷分类方法及装置
CN115994891A (zh) * 2022-11-22 2023-04-21 河海大学 基于狼群算法的无人载具混凝土坝表面缺陷动态检测方法
CN115994891B (zh) * 2022-11-22 2023-06-30 河海大学 基于狼群算法的无人载具混凝土坝表面缺陷动态检测方法
CN116385794A (zh) * 2023-04-11 2023-07-04 河海大学 基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置
CN116385794B (zh) * 2023-04-11 2024-04-05 河海大学 基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置
CN118628500A (zh) * 2024-08-14 2024-09-10 深圳西普尼精密科技股份有限公司 基于图像处理的手表表壳真空镀膜缺陷检测方法及系统

Also Published As

Publication number Publication date
CN114913150B (zh) 2023-08-22
WO2023216721A1 (zh) 2023-11-16

Similar Documents

Publication Publication Date Title
CN114913150A (zh) 一种混凝土大坝缺陷时序图像智能识别方法
CN114998673B (zh) 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
CN111368690B (zh) 基于深度学习的海浪影响下视频图像船只检测方法及系统
CN108711148B (zh) 一种基于深度学习的轮胎缺陷智能检测方法
Li et al. Automatic bridge crack identification from concrete surface using ResNeXt with postprocessing
US20230368371A1 (en) Intelligent recognition method for time sequence image of concrete dam defect
CN109800712B (zh) 一种基于深度卷积神经网络的车辆检测计数方法及设备
CN113034444A (zh) 一种基于MobileNet-PSPNet神经网络模型的路面裂缝检测方法
CN107341508B (zh) 一种快速美食图片识别方法及系统
CN116823800A (zh) 一种基于深度学习的复杂背景下桥梁混凝土裂缝检测方法
CN115880571A (zh) 一种基于语义分割的水位尺读数识别方法
CN114596273B (zh) 利用yolov4网络的陶瓷基板多种瑕疵智能检测方法
CN115019147A (zh) 一种适用于物体堆叠杂乱场景的基于Transformer机制的抓取检测模型
CN109657682B (zh) 一种基于深度神经网络和多阈值软切分的电能表示数识别方法
CN115115819A (zh) 面向装配顺序监测的图像多视角语义变化检测网络及方法
Li et al. An Improved YOLO-v4 Algorithm for Recognition and Detection of Underwater Small Targets
CN114241189A (zh) 一种基于深度学习的船舶黑烟识别方法
Wang et al. Improved glove defect detection algorithm based on YOLOv5 framework
Yao et al. Cascaded based Adaptive R-CNN Network for Insulator Defect Detection
Zhang et al. Overhead line insulator defect detection method based on improved YOLOv5s
Wang et al. Pointer-Type Meter Recognition Algorithm in Complex Substation Scenarios
CN118506217A (zh) 基于无人机采集图像的道路病害监测方法、系统及介质
CN114943452A (zh) 一种基于双流结构增强型检测器的工作流检测方法
Li et al. Towards Object Detection Algorithm Based on LCAS-YOLOX
Mosalam et al. Structural Damage Localization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant