CN117893934A - 一种改进的UNet3+网络无人机影像铁路轨道线检测方法与装置 - Google Patents
一种改进的UNet3+网络无人机影像铁路轨道线检测方法与装置 Download PDFInfo
- Publication number
- CN117893934A CN117893934A CN202410298358.0A CN202410298358A CN117893934A CN 117893934 A CN117893934 A CN 117893934A CN 202410298358 A CN202410298358 A CN 202410298358A CN 117893934 A CN117893934 A CN 117893934A
- Authority
- CN
- China
- Prior art keywords
- image
- aerial vehicle
- unmanned aerial
- unet3
- railway track
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000003062 neural network model Methods 0.000 claims abstract description 13
- 238000012795 verification Methods 0.000 claims abstract description 13
- 238000013434 data augmentation Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000003709 image segmentation Methods 0.000 claims abstract description 7
- 238000005516 engineering process Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 42
- 238000000605 extraction Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 12
- 230000000877 morphologic effect Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 8
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000011218 segmentation Effects 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000007797 corrosion Effects 0.000 description 4
- 238000005260 corrosion Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000005530 etching Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明公布了一种改进的UNet3+网络无人机影像铁路轨道线检测方法与装置,包括获取铁路轨道的高分辨率无人机图像数据,对所述无人机图像数据进行预处理;对所述无人机图像数据进行数据标记与图像分割得到图像数据集;将对所述图像数据集切分为训练集、验证集和测试集后通过数据增广技术增加数据集;通过所述图像数据集构建基于ECA注意力机制UNet3+神经网络模型;将待检测无人机图像输入基于ECA注意力机制UNet3+神经网络模型得到二值化轨道线图像,通过匹配所述铁路轨道线识别和检测铁路轨道线。本发明可应用于复杂铁路环境下无人机影像的全角度铁路轨道检测,为铁路的安全和维护提供科学、准确的数据支持。
Description
技术领域
本发明涉及的是无人机图像处理领域,一种改进的UNet3+网络无人机影像铁路轨道线检测方法与装置。
背景技术
铁路运输在中国经济发展中起着至关重要的作用,是中国交通运输系统的基本组成部分。提取铁路轨道线是制作铁路电子地图、保障铁路运行顺畅、保障人民生命财产安全的必要条件。基于无人机影像的铁路轨道区域自动数据采集广泛地应用于铁路轨道区域智能巡检,智能轨道线检测算法可为准确定位轨道区域提供非常精确的位置信息。传统铁路轨道线检测方法为计算机视觉领域的算法,仍然难以有效地适应无人机航拍图像中铁路轨道形态多样、倾角变化的需求。如阈值分割、模版匹配和边缘检测与霍夫变换等方法,这些方法往往依赖于研究人员拥有大量的先验知识,在区分具有相似特征的物体方面面临着挑战。例如河流和铁路可能表现出相似的几何特征,建筑物和铁路可能具有相似的光谱特征。因此传统的提取方法在面对背景信息复杂的无人机影像时容易出现不准确和缺乏鲁棒性的问题。
近年来,深度学习发展迅速,在车道检测、铁路异物检测、轨道缺陷检测、接触网检测、道路提取等领域得到了广泛的应用。基于深度学习的无人机高分辨率影像的轨道线检测方法展现出巨大优势。公开号为CN112907597A的发明专利,提供了一种基于深度卷积神经网络的铁路轨道线检测方法,其技术方案通过构建深度卷积神经网络进行提取铁路轨道线像素点,通过利用像素点代替局部区域的轨道线信息,最后采用聚类方法区分左右轨道线。
但是,上述研究还存在以下问题:(1)目前鲜有基于深度学习无人机影像的铁路轨道线检测任务的研究;(2)深度学习提取的像素级特性可能会导致最终提取结果出现斑点、漏洞或断点;(3)代表轨道的像素通常只占整个图像的一小部分,导致非轨道像素占主导地位,会出现类别不平衡,从而导致模型偏向于预测非轨道的类别,影响轨道线提取的准确性。因此,需要一种改进的UNet3+网络无人机影像铁路轨道线检测方法和装置。
发明内容
本发明的目的是要提供一种改进的UNet3+网络无人机影像铁路轨道线检测方法与装置。
为达到上述目的,本发明是按照以下技术方案实施的:
本发明包括以下步骤:S1、获取铁路轨道的高分辨率无人机图像数据,对所述无人机图像数据进行预处理;
S2、对所述无人机图像数据进行数据标记与图像分割得到图像数据集;
所述图像数据集的获取方法包括对收集的铁路轨道图像进行精准标记,识别并标注轨道线的位置,同时对标记的图像和对应的原始图像分割成较小的图像块,以适应神经网络的输入尺寸需求;
S3、将对所述图像数据集切分为训练集、验证集和测试集后通过数据增广技术增加数据集;
S4、通过所述图像数据集构建基于ECA注意力机制UNet3+神经网络模型;
S5、将待检测无人机图像输入训练好的基于ECA注意力机制UNet3+神经网络模型得到二值化轨道线图像,对所述二值化轨道线图像进行形态学处理后得到倾角变化的铁路轨道线,完成铁路轨道线的识别和检测。
进一步地,在步骤S1中,所述预处理包括过图像增强和去噪。
进一步地,利用训练集和验证集对基于ECA注意力机制UNet3+神经网络模型进行模型训练和验证。
进一步地,步骤S4具体方法如下:
所述基于ECA注意力机制UNet3+神经网络模型的UNet3+网络结构主要包括编码器、解码器和全尺寸跳跃连接,解码器包括着五个解码层 ,通过多个跳跃连接和上采样操作,将编码器的特征图上采样并融合到更高的空间尺寸;
进一步地,将编码器的特征图上采样并融合到更高的空间尺寸的具体方法包括
A通过全尺寸跳跃连接将编码器的各层特征图连接到对应的解码器层;
B通过卷积操作和双线性上采样操作将低空间尺寸的所述特征图上采样到高空间尺寸得到输出特征图;
C,将所有上采样后的所述输出特征图通过全连接层得到最终的输出特征图。
进一步地, 所述特征图来源于编码层中的Encoder1、Encoder2,和它同层的Encoder3,以及解码层中的Decoder4、Decoder5的特征图分别通过以下具体操作后构成:
Encoder1将特征图进行最大池化、3*3卷积、ReLU激活函数操作,进行卷积核kernel_size=4,步长stride=4最大池化操作,从而降低特征图分辨率,达到和Decoder3层同样的分辨率,方便后续的特征图拼接操作;然后进行3*3卷积,使特征通道变为64后激活函数;
Encoder2将特征图进行最大池化、3*3卷积、ReLU激活函数操作,具体的,首先进行kernel_size=2,stride=2最大池化操作,从而降低特征图分辨率,然后进行3*3卷积,以及ReLU激活函数;
Encoder3将特征图进行3*3卷积、ReLU激活函数操作;
Decoder4:首先进行双线性上采样操作率后进行3*3卷积操作,将特征通道变为64;最后进行ReLU激活函数操作;
Decoder5将特征图进行双线性上采样、3*3卷积、ReLU激活函数操作;
ECA注意力机制被应用于第五个解码器(Decoder5)层,以增强通道间的特征关系并优化特征的表示。
进一步地,步骤S5中无人机影像铁路轨道线Loss函数如下:
使用Focal+dice系数损失作为此次轨道线提取的损失函数L,公式如下:
式中,为Dice损失函数,/>为Focal损失函数,/>、/>和/>分别为预测概率计算的c类真阳性、假阴性和假阳性,/>为像素n为c类的预测概率,/>为像素n为c类的基本真值,/>为背景所有像素值加1,/>为Dice损失和Focal损失之间的权值,/>设置为0.5,/>和/>是对假阴性和假阳性的惩罚的权衡,/>和/>设置为0.5,N是图像中的像素总数。
进一步地,所述步骤S5提取的轨道线结果进行形态学处理,进行开运算操作,消除提取结果中轨道线区域的斑点和凸区,使用闭运算操作将提取结果中轨道线区域的碎片结构连接并填充任何剩余的孔或间隙,获得轨道线图像表示。
一种改进的UNet3+网络无人机影像铁路轨道线检测装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现所述的一种改进的UNet3+网络无人机影像铁路轨道线检测方法。
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的一种改进的UNet3+网络无人机影像铁路轨道线检测方法。
发明的有益效果是:
本发明可应用于多种倾角变化的铁路轨道线检测,实现了复杂铁路环境下无人机影像的全角度铁路轨道线检测。
本发明提供了铁路轨道线提取的完整算法方案,并建立了一个铁路轨道分割数据集。
本发明提供的无人机影像铁路轨道线检测方法具有检测精度高等优势,为铁路的安全和维护提供科学、准确的数据支持。
附图说明
图1 为本发明实施例一种改进的UNet3+网络无人机影像铁路轨道线检测方法;
图2 为本发明实施例的UNet3+网络结构示意图;
图3是本发明实施例改进的UNet3+网络结构示意图;
图4是本发明实施例制作的数据集中一张512*512大小的原始图像和对应标签图像;
图5 是本发明实施例ECA注意力机制示意图;
图6 是本发明实施例的无人机图像某铁路区域的轨道线检测结果图。
图7是本发明一种改进的UNet3+网络无人机影像铁路轨道线检测装置的结构示意图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步描述,在此发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
结合图1,本发明实施例提供了一种改进的UNet3+网络无人机影像铁路轨道线检测方法,包括S1到S6五个步骤:
S1:无人机图像获取与预处理,获取铁路轨道的高分辨率无人机图像数据,通过图像增强和去噪的预处理方法提升图像质量;
具体的,获取无人机采集的铁路轨道线的图像数据,然后进行图像的预处理过程,预处理包括图像增强和图像去噪两个步骤,图像增强的目标是提高图像的视觉效果和质量,以便更好地进行后续的图像分析和处理。本实施例采用自适应直方图均衡化(CLAHE,Contrast Limited Adaptive Histogram Equalization)方法来对每张拍摄的无人机图像进行图像增强,它是一种常用的图像增强技术,能显著地改善图像的对比度。先将图像分割为多个小块或“切片”,对每个小块应用传统的直方图均衡化,其中直方图均衡化的基本公式为:
式中,和/>分别是输出和输入像素值,/>是灰度级别的数量,/>为输入图像的直方图,CLAHE方法在每张图像上的每个局部区域应用上述公式,为了消除块之间的边界效应,使用双线性插值来合并块的结果。
如图2和3所示,然后对增强后的图像进行去噪处理,去噪是为了减少图像中的噪声,以便更好地检测铁路轨道线。具体采用高斯滤波进行滤波处理,高斯滤波就是对整幅图像进行加权平均的过程,每一个像素点的值,都由其本身和邻域内的其他像素值经过加权平均后得到。首先创建一个高斯滤波器(也称为高斯核)。将高斯滤波器应用于每张图像。高斯滤波器的公式为:
式中,为二维高斯函数,/>和/>是滤波器的坐标,/>是高斯滤波器的标准差。在二维空间中,上述公式生成的曲面的等高线是从中心开始呈正态分布的同心圆。分布不为零的像素组成的卷积矩阵与原始图像做变换。每个像素的值都是周围相邻像素值的加权平均。原始像素的值有最大的高斯分布值,所以有最大的权重,相邻像素随着距离原始像素越来越远,其权重也越来越小。这样进行模糊处理比其它的均衡模糊滤波器更高地保留了边缘效果。
上述的预处理过程采用python语言中opencv库编写程序来实现上述CLAHE方法和高斯滤波方法。通过上述的图像增强和去噪步骤,可为后续的铁路轨道线检测提供更好的输入。
S2、数据标记与图像分割,对收集的铁路轨道图像进行精准标记,识别并标注轨道线的位置,同时对标记的图像和对应的原始图像分割成较小的图像块,以适应神经网络的输入尺寸需求;
对经过预处理后的无人机图像进行数据标记,数据标记是指将图像中的特定区域(如铁路轨道线)标识出来的过程。首先,通过使用图像标记工具LabelImg,在含有铁路轨道线图像中识别并标注轨道线的位置,精确地标出轨道线的区域。对于铁路轨道线的标记,选择线条工具来沿着轨道线绘制标签。为了确保标记的准确性和一致性,采用训练有经验的标注人员或者采用半自动标记方法,利用已有的图像处理算法如Canny边缘检测算法加霍夫变换来生成一些含有轨道线标签图像,用来辅助标记过程。
标记完成后,每个图像将有与之对应的标记信息。此次实施例是生成二值化的标签图像(即轨道线区域是白色、其他背景信息是黑色),为后续的图像分割和神经网络训练提供准确的输入数据。
为了适应改进的UNet3+神经网络的输入尺寸需求,需要将标记的图像和对应的原始图像分割成较小的图像块。分割过程包括确定合适的图像块尺寸,以及选择分割的策略(如滑动窗口或者固定网格分割)来保证每个图像块都包含了足够的上下文信息,同时避免过多的重叠或遗漏。此次实施例在分割过程中,采用滑动窗口策略进行标记和原始图像的分割,滑动窗口的大小为512*512,重复率为50%,同时还需要保留图像块与原始图像以及标记信息的对应关系,以便在神经网络训练和验证过程中能正确匹配图像块和对应的标记。
分割完成后,将图像块及其对应的标记信息保存为新的文件,并组织成结构化的数据集。例如,创建一个目录结构,其中包含了分割后的图像文件、标记文件以及图像块与原始图像的对应关系文件。这种结构化的组织方式方便后续的数据管理和神经网络训练。图4是本发明实施例制作的数据集中一张512*512大小的原始图像和对应标签图像。
上述图像分割过程通过程序化的方法实现,使用python编写程序完成。
S3、数据集制作与增广,将数据集切分为训练集、验证集和测试集,并通过数据增广技术增加数据集的多样性,提高模型的泛化能力;
为了有效地训练和验证神经网络模型,将收集到的数据集分为训练集、验证集和测试集。此次实施例采用的划分比例是70/20/10,即70%的数据用于训练,20%用于验证,10%用于测试。上述数据划分过程通过程序化的方法实现的相关库或函数实现,如Python中的sklearn.model_selection.train_test_split函数。注意数据划分时应确保数据的代表性,即每个划分中的数据应在一定程度上反映整体数据的特点和分布。如果可能,还应考虑分层采样以保证在不同划分中类别的分布是均匀的。
数据增广是通过应用各种图像处理技术来人为地增加数据集大小和多样性的方法,以期提高模型的泛化能力。本次实施例采用的数据增广技术包括:
几何变换:旋转、缩放和裁剪;
颜色变换:亮度、对比度和饱和度调整;
像素级变换:添加随机噪声和模糊。
数据增广通常在训练阶段进行,而不在验证或测试阶段进行。此过程通过图像处理库深度学习框架中的数据增广模块实现,如PyTorch中的数据增广API。
S4、ECA-UNet3+神经网络模型的构建,构建基于ECA注意力机制UNet3+神经网络模型;
UNet3+是一种先进的深度学习模型,特别适用于图像分割任务,UNet3+网络结构简化图见图2。与UNet和UNet++相比,UNet3+结合了多尺度特征,通过重新设计跳跃连接进行特征融合,得到的特征图不仅包含了上采样得到的特征图,而且融合了来自编码层的特征图,充分利用了多尺度的特征,并利用全尺寸深度监督,提供更少的参数,但产生更准确的位置感知和边界增强分割图。使网络提高了网络的提取精度和提取效率。
UNet3+的全尺寸跳变连接实现了编码器和解码器之间的互连以及解码器子网络之间的内连接。具有普通连接的UNet和具有嵌套连接和密集连接的UNet都缺乏从全尺度上探索足够的信息,不能明确地学习轨道线的位置和边界。为了弥补UNet和UNet++的缺陷,UNet3+中的每个解码器层都结合了来自编码器的小尺度和相同尺度的特征映射和来自解码器的大尺度特征映射,从而在全尺度上捕获细粒度细节和粗粒度语义。
为了提高轨道线提取精度,UNet3+通过增加一个分类任务来预测输入图像是否有我们要分割的目标,最深层的二维张量通过dropout、convolution、maxpooling、sigmoid等一系列操作后,最后又两个值表示有/没有轨道线的概率。得益于最丰富的语义信息,分类结果可以进一步分两步指导各个侧边输出。首先,借助argmax函数,将二维张量转化为{0,1}的单一输出,表示有/没有分割目标。随后,将单个分类输出与侧面分割输出相乘。由于二值分类任务的简单性,该模块在二元交叉熵损失函数的优化下,可轻松获得准确的分类结果,实现了对轨道线图像过分割缺点的指导。
本实施例提出的改进的UNet3+网络结构如图 3 所示,该网络主要包括编码器、解码器和全尺寸跳跃连接。编码器包括五个编码层(Encoder),即五个卷积块和四个最大池化层。每个卷积块包括着3*3卷积层、批量归一化层(BatchNorm,BN)层和ReLU激活函数层。每个卷积块后接一个2*2卷积核的最大池化层,用于降低特征图的空间尺寸。
输入的图像经过两次3*3卷积,每次卷积都紧跟着BatchNorm2d、ReLU。然后进行最大池操作。
解码器包括着五个解码层(Decoder),通过多个跳跃连接和上采样操作,将编码器的特征图上采样并融合到更高的空间尺寸,具体如下:
首先,通过全尺寸跳跃连接将编码器的各层特征图连接到对应的解码器层。
然后,通过卷积操作和双线性上采样操作将低空间尺寸的特征图上采样到高空间尺寸。
以第三层的解码(Decoder3)来举例说明, Decoder3的特征图是由来源于编码层中的Encoder1、Encoder2,和它同层的Encoder3,以及解码层中的Decoder4、Decoder5的特征图分别通过以下具体操作后构成:
Encoder1:将特征图进行最大池化、3*3卷积、ReLU激活函数操作,具体的,首先进行卷积核(kernel_size)=4,步长(stride=4)最大池化操作,从而降低特征图分辨率,达到和Decoder3层同样的分辨率,方便后续的特征图拼接操作;然后进行3*3卷积,使特征通道变为64;以及ReLU激活函数。
Encoder2:将特征图进行最大池化、3*3卷积、ReLU激活函数操作,具体的,首先进行kernel_size=2,stride=2最大池化操作,从而降低特征图分辨率,然后进行3*3卷积,以及ReLU激活函数。
Encoder3:将特征图进行3*3卷积、ReLU激活函数操作,由于是同层,它们的特征图分辨率是相同的,不需要最大池化操作改变分辨率。
Decoder4:首先进行双线性上采样操作,此操作用来提高分辨率;然后进行3*3卷积操作,将特征通道变为64;最后进行ReLU激活函数操作。
Decoder5:将特征图进行双线性上采样、3*3卷积、ReLU激活函数操作。
其他Decoder层的特征图的形成与上述Decoder3的特征图形成类似。
ECA注意力机制被应用于第五个解码器(Decoder5)层,以增强通道间的特征关系并优化特征的表示。
最终,将所有上采样后的输出特征图通过全连接层得到最终的输出特征图。
UNet3+网络在UNet3+网络的解码层中引入ECA注意力机制使网络能够关注到重要的铁路轨道线特征,增加了网络轨道线的提取精度。ECA注意力机制是一种设计用于增强网络对通道间关系的理解的方法,它主要针对通道维度进行自适应的重标定。不同于传统的注意力机制,ECA通过一个较为简单和高效的设计,降低了计算和内存开销,在保持高效性的同时,有效地捕捉图像中的通道间关系,从而提升了特征表示的能力。图5显示了本发明实施例ECA注意力机制示意图。通道注意力模块是ECA的核心组成部分,它的目标是根据通道之间的关系,自适应地调整通道特征的权重。该模块的输入是一个特征图,通过将特征图进行压缩,该步骤是通过全局平均池化把特征图从大小为(N,C,H,W)转换为(N,C,1,1),这样就达到了全局上下文信息的融合。接着计算自适应卷积核的大小,,其中k为自适应的卷积核大小,H为输入特征图的高度,W为输入特征图的宽度, C为输入特征图的通道数,b=1,/>,并采用一维卷积计算通道的权重,最后采用Sigmoid激活函数将权重映射在(0-1)之间。最后将reshape过后的权重值与原有的特征图做乘法运算,得到不同权重下的特征图。
S5、模型训练与验证,利用训练集和验证集对ECA-UNet3+模型进行模型训练和验证,确保模型能准确高效地识别和检测铁路轨道线;
本次实施例基于ECA-UNet3+模型训练采用Intel Xeon Gold 6226R CPU、128GBRAM、 RTX 4090 GPU 及 CUDA 硬件环境下进行,操作系统为Windows11,运行环境为基于Python3.8的 Facebook 公司开源的Pytorch 深度学习框架,模型训练时的batch size大小设置为4,选择用Adam优化器迭代地更新神经网络权重,具体参数设置为,,学习率初始设置为2e-4。训练该网络在146个epoch达到收敛。此次试验设置早停机制。当验证集损失不再减小,再经过5轮训练后损失仍没有低于最小值,则终止训练。使用Focal+dice系数损失作为此次轨道线提取的损失函数L,公式如下:
式中,为Dice损失函数,/>为Focal损失函数,/>、/>和/>分别为预测概率计算的c类真阳性、假阴性和假阳性,/>为像素n为c类的预测概率,/>为像素n为c类的基本真值,/>为背景所有像素值加1,/>为Dice损失和Focal损失之间的权值,此次实验设置为0.5。/>和/>是对假阴性和假阳性的惩罚的权衡,这里设置为0.5,N是图像中的像素总数。当 loss 值趋于0.0825时,调整学习率为原来的十分之一,最终得到目标函数的最优值。
在模型验证阶段,使用验证集对模型进行验证,监控模型在未见过的数据上的性能。为评定模型提取结果的好坏,使用召回率(recall)、精度(precision)、交并比(IOU)、准确度(Accuracy )4 个指标对提取后的道路数据进行评定。其中精度(precision) 表示预模型能够正确预测的铁路轨道线与真实铁路轨道线的像素之比, Recall 代表真实铁路轨道线中预测正确的百分比。交并比(IOU)用来度量图像的预测结果与真实标签的重叠程度,准确度(Accuracy)是所有预测中预测正确的比例。
式中,TP 表示将铁路轨道线像素预测为真的数量,TN 表示将非铁路轨道线像素预测为假的数量,FP 表示将非铁路轨道线像素预测为铁路轨道线像素的数量;FN 表示将铁路轨道线像素预测为非铁路轨道线像素的数量。
本发明实施例所提方法与UNet网络的对比结果在测试集上的整体精度评价如表1 所示,各项指标相较于识别效果较好的UNet3+网络,Precision, Recall, IOU,Accuracy四个指标得到明显提升,表明本发明实施例提出的ECA-UNet3+网络相别于UNet3+网络而言,错误率更低,复杂铁路轨道线区域的提取适用性更强。
S6、铁路轨道线检测,应用训练好的模型对新采集的无人机图像进行铁路轨道线模型推理,获取模型提取的二值化轨道线图像,对提取的轨道线图像进行形态学处理,消除提取结果中的孔洞、斑点等缺陷,提高提取轨道线的整体质量,实现对多种倾角变化的铁路轨道线的自动识别和检测。
形态学算法是一种基于晶格理论和拓扑学的图像处理技术。它包括四种基本操作:腐蚀、膨胀、开运算和闭运算。为了进一步消除上述铁路轨道线提取结果中的孔洞、斑点等缺陷,提高轨道线的质量,采用形态学算法来对上述提取结果进一步处理,形态学算法中的腐蚀操作涉及在提取轨道线的二值图像的特定区域中寻找像素之间的最小值。在由值[0,1]组成的二值输入图像的情况下,形态学算法的“内核”遍历图像。如果在内核范围内只有像素0或像素1,则不会对该区域进行任何更改。但是,如果像素0和像素1都出现在内核的范围内,则将二值图像中以内核参考点为中心的相应区域赋值为0。
另一方面,形态膨胀算法执行局部极大值运算。它的操作类似于上面提到的腐蚀算法,像素值为0或像素值为1的区域不进行处理。但是,如果像素值0和1同时存在,则以“内核”中定义的参考点为中心的二值图像区域被复制为像素1。形态学算法中的开闭运算是腐蚀和膨胀相结合的复合运算。开运包括先腐蚀后膨胀。该操作有效地消除了指定区域内的小斑点和凸区域。另一方面,闭运算操作先进行膨胀,然后进行腐蚀。它对于填充图像中的孔洞和凹陷非常有用。在本发明实施例中,模型首先进行开运算,消除斑点和凸区。这一步有助于移除小的图斑和不规则性。然后,使用闭运算操作将碎片结构连接起来,并填充任何剩余的孔或间隙,从而获得更完整、更精细的轨道线图像表示。
图6为本发明实施例的无人机图像某铁路区域的轨道线检测结果图,可发现本发明提供的方法可有效检测出铁路轨道线区域,同时对于农田、建筑区等其他非轨道线区域也具有较好的检测效果。
本发明一种改进的UNet3+网络无人机影像铁路轨道线检测装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本发明一种改进的UNet3+网络无人机影像铁路轨道线检测装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种改进的UNet3+网络无人机影像铁路轨道线检测装置。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。
Claims (10)
1.一种改进的UNet3+网络无人机影像铁路轨道线检测方法,其特征在于,包括:
S1、获取铁路轨道的高分辨率无人机图像数据,对所述无人机图像数据进行预处理;
S2、对所述无人机图像数据进行数据标记与图像分割得到图像数据集;
所述图像数据集的获取方法包括对收集的铁路轨道图像进行精准标记,识别并标注轨道线的位置,同时对标记的图像和对应的原始图像分割成较小的图像块,以适应神经网络的输入尺寸需求;
S3、将对所述图像数据集切分为训练集、验证集和测试集后通过数据增广技术增加数据集;
S4、通过所述图像数据集构建基于ECA注意力机制UNet3+神经网络模型;
S5、将待检测无人机图像输入训练好的基于ECA注意力机制UNet3+神经网络模型得到二值化轨道线图像,对所述二值化轨道线图像进行形态学处理后得到倾角变化的铁路轨道线,完成铁路轨道线的识别和检测。
2.根据权利要求 1 所述的一种改进的UNet3+网络无人机影像铁路轨道线检测方法,其特征在于,在步骤S1中,所述预处理包括过图像增强和去噪。
3.根据权利要求 1 所述的一种改进的UNet3+网络无人机影像铁路轨道线检测方法,其特征在于,利用训练集和验证集对基于ECA注意力机制UNet3+神经网络模型进行模型训练和验证。
4.根据权利要求 1 所述的一种改进的UNet3+网络无人机影像铁路轨道线检测方法,其特征在于,步骤S4具体方法如下:
所述基于ECA注意力机制UNet3+神经网络模型的UNet3+网络结构主要包括编码器、解码器和全尺寸跳跃连接,解码器包括着五个解码层 ,通过多个跳跃连接和上采样操作,将编码器的特征图上采样并融合到更高的空间尺寸。
5.根据权利要求 4 所述的一种改进的UNet3+网络无人机影像铁路轨道线检测方法,其特征在于,将编码器的特征图上采样并融合到更高的空间尺寸的具体方法包括:
A通过全尺寸跳跃连接将编码器的各层特征图连接到对应的解码器层;
B通过卷积操作和双线性上采样操作将低空间尺寸的所述特征图上采样到高空间尺寸得到输出特征图;
C将所有上采样后的所述输出特征图通过全连接层得到最终的输出特征图。
6.根据权利要求 5 所述的一种改进的UNet3+网络无人机影像铁路轨道线检测方法,其特征在于, 所述特征图来源于编码层中的Encoder1、Encoder2,和它同层的Encoder3,以及解码层中的Decoder4、Decoder5的特征图分别通过以下具体操作后构成:
Encoder1将特征图进行最大池化、3*3卷积、ReLU激活函数操作,进行卷积核kernel_size=4,步长stride=4最大池化操作,从而降低特征图分辨率,达到和Decoder3层同样的分辨率,方便后续的特征图拼接操作;然后进行3*3卷积,使特征通道变为64后激活函数;
Encoder2将特征图进行最大池化、3*3卷积、ReLU激活函数操作,具体的,首先进行kernel_size=2,stride=2最大池化操作,从而降低特征图分辨率,然后进行3*3卷积,以及ReLU激活函数;
Encoder3将特征图进行3*3卷积、ReLU激活函数操作;
Decoder4首先进行双线性上采样操作率后进行3*3卷积操作,将特征通道变为64;最后进行ReLU激活函数操作;
Decoder5将特征图进行双线性上采样、3*3卷积、ReLU激活函数操作。
7.根据权利要求 1 所述的一种改进的UNet3+网络无人机影像铁路轨道线检测方法,其特征在于,步骤S5中无人机影像铁路轨道线Loss函数如下:
使用Focal+dice系数损失作为此次轨道线提取的损失函数L,公式如下:
式中,为Dice损失函数,/>为Focal损失函数,/>、/>和/>分别为预测概率计算的c类真阳性、假阴性和假阳性,/>为像素n为c类的预测概率,/>为像素n为c类的基本真值,/>为背景所有像素值加1,/>为Dice损失和Focal损失之间的权值,/>设置为0.5,/>和/>是对假阴性和假阳性的惩罚的权衡,/>和/>设置为0.5,N是图像中的像素总数。
8.根据权利要求 1 所述的一种改进的UNet3+网络无人机影像铁路轨道线检测方法,其特征在于,所述步骤S5提取的轨道线结果进行形态学处理,进行开运算操作,消除提取结果中轨道线区域的斑点和凸区,使用闭运算操作将提取结果中轨道线区域的碎片结构连接并填充任何剩余的孔或间隙,获得轨道线图像表示。
9.一种改进的UNet3+网络无人机影像铁路轨道线检测装置,其特征在于:包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-7任一项所述的一种改进的UNet3+网络无人机影像铁路轨道线检测方法。
10.一种计算机可读存储介质,其特征在于:其上存储有程序,该程序被处理器执行时,实现权利要求1-7任一项所述的一种改进的UNet3+网络无人机影像铁路轨道线检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410298358.0A CN117893934A (zh) | 2024-03-15 | 2024-03-15 | 一种改进的UNet3+网络无人机影像铁路轨道线检测方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410298358.0A CN117893934A (zh) | 2024-03-15 | 2024-03-15 | 一种改进的UNet3+网络无人机影像铁路轨道线检测方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117893934A true CN117893934A (zh) | 2024-04-16 |
Family
ID=90647674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410298358.0A Pending CN117893934A (zh) | 2024-03-15 | 2024-03-15 | 一种改进的UNet3+网络无人机影像铁路轨道线检测方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117893934A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899227A (zh) * | 2020-07-06 | 2020-11-06 | 北京交通大学 | 基于无人机作业的铁路扣件缺陷自动采集辨识方法 |
CN112488046A (zh) * | 2020-12-15 | 2021-03-12 | 中国科学院地理科学与资源研究所 | 一种基于无人机高分辨率影像的车道线提取方法 |
CN112907597A (zh) * | 2021-02-04 | 2021-06-04 | 西华师范大学 | 基于深度卷积神经网络的铁路轨道线检测方法 |
CN113159046A (zh) * | 2021-04-16 | 2021-07-23 | 中国铁道科学研究院集团有限公司 | 无砟道床异物检测方法及装置 |
CN113850825A (zh) * | 2021-09-27 | 2021-12-28 | 太原理工大学 | 基于上下文信息和多尺度特征融合的遥感图像道路分割方法 |
WO2022028383A1 (zh) * | 2020-08-06 | 2022-02-10 | 长沙智能驾驶研究院有限公司 | 车道线标注、检测模型确定、车道线检测方法及相关设备 |
CN117152435A (zh) * | 2023-09-05 | 2023-12-01 | 中林信达(北京)科技信息有限责任公司 | 一种基于U-Net3+的遥感语义分割方法 |
-
2024
- 2024-03-15 CN CN202410298358.0A patent/CN117893934A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899227A (zh) * | 2020-07-06 | 2020-11-06 | 北京交通大学 | 基于无人机作业的铁路扣件缺陷自动采集辨识方法 |
WO2022028383A1 (zh) * | 2020-08-06 | 2022-02-10 | 长沙智能驾驶研究院有限公司 | 车道线标注、检测模型确定、车道线检测方法及相关设备 |
CN112488046A (zh) * | 2020-12-15 | 2021-03-12 | 中国科学院地理科学与资源研究所 | 一种基于无人机高分辨率影像的车道线提取方法 |
CN112907597A (zh) * | 2021-02-04 | 2021-06-04 | 西华师范大学 | 基于深度卷积神经网络的铁路轨道线检测方法 |
CN113159046A (zh) * | 2021-04-16 | 2021-07-23 | 中国铁道科学研究院集团有限公司 | 无砟道床异物检测方法及装置 |
CN113850825A (zh) * | 2021-09-27 | 2021-12-28 | 太原理工大学 | 基于上下文信息和多尺度特征融合的遥感图像道路分割方法 |
CN117152435A (zh) * | 2023-09-05 | 2023-12-01 | 中林信达(北京)科技信息有限责任公司 | 一种基于U-Net3+的遥感语义分割方法 |
Non-Patent Citations (1)
Title |
---|
周家厚等: "改进的UNet3+网络高分辨率遥感影像道路提取", 激光杂志, vol. 45, no. 2, 29 February 2024 (2024-02-29), pages 161 - 168 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023077816A1 (zh) | 边界优化的遥感图像语义分割方法、装置、设备及介质 | |
CN107563372B (zh) | 一种基于深度学习ssd框架的车牌定位方法 | |
Deng et al. | Review on computer vision-based crack detection and quantification methodologies for civil structures | |
CN114266794B (zh) | 基于全卷积神经网络的病理切片图像癌症区域分割系统 | |
Du et al. | Modeling automatic pavement crack object detection and pixel-level segmentation | |
Tao et al. | Gap detection of switch machines in complex environment based on object detection and image processing | |
CN110991374B (zh) | 一种基于rcnn的指纹奇异点检测方法 | |
CN117217368A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN115995056A (zh) | 一种基于深度学习的桥梁病害自动识别方法 | |
Yu et al. | SignHRNet: Street-level traffic signs recognition with an attentive semi-anchoring guided high-resolution network | |
Gao et al. | Robust lane line segmentation based on group feature enhancement | |
CN113177554A (zh) | 甲状腺结节识别与分割方法、系统、存储介质及设备 | |
CN112488996A (zh) | 非齐次三维食管癌能谱ct弱监督自动标注方法与系统 | |
CN116862885A (zh) | 超声图像病变检测的分割引导去噪知识蒸馏方法及装置 | |
Li et al. | An unsupervised concrete crack detection method based on nnU-Net | |
CN115829942A (zh) | 基于非负性约束稀疏自编码器的电子电路缺陷检测方法 | |
CN117893934A (zh) | 一种改进的UNet3+网络无人机影像铁路轨道线检测方法与装置 | |
Kee et al. | Cracks identification using mask region-based denoised deformable convolutional network | |
Yang et al. | Residual shape adaptive dense-nested Unet: Redesign the long lateral skip connections for metal surface tiny defect inspection | |
CN111882560B (zh) | 一种基于加权全卷积神经网络的肺实质ct图像分割方法 | |
CN117392137B (zh) | 一种颅内动脉瘤图像检测方法、系统、设备及介质 | |
Zhang | Surface defect detection, segmentation and quantification for concrete bridge assessment using deep learning and 3D reconstruction | |
Li et al. | CNN-Transformer hybrid network for concrete dam crack patrol inspection | |
Ibitoye et al. | Real-Time Localization of Vehicle License Plate using Improved Faster Region-Based Convolutional Neural Network | |
CN117274355A (zh) | 一种基于加速引导区域卷积神经网络和并行多尺度统一网络的排水管道流量智能测量方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |