CN113255678A - 一种基于语义分割的道路裂缝自动识别方法 - Google Patents
一种基于语义分割的道路裂缝自动识别方法 Download PDFInfo
- Publication number
- CN113255678A CN113255678A CN202110673870.5A CN202110673870A CN113255678A CN 113255678 A CN113255678 A CN 113255678A CN 202110673870 A CN202110673870 A CN 202110673870A CN 113255678 A CN113255678 A CN 113255678A
- Authority
- CN
- China
- Prior art keywords
- rgb
- dep
- network
- semantic segmentation
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000010586 diagram Methods 0.000 claims description 37
- 238000011176 pooling Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 239000011800 void material Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 8
- 230000004927 fusion Effects 0.000 abstract description 5
- 238000013461 design Methods 0.000 abstract description 2
- 238000005259 measurement Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 17
- 230000007246 mechanism Effects 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Abstract
本发明提供一种基于语义分割的道路裂缝自动识别方法,包括以下步骤:步骤1:以Deeplab‑v3作为基础模型构建语义分割网络;其中,所述语义分割网络的输入为RGB‑D道路图像,输出为语义分类得分图;步骤2:训练步骤1构建的语义分割网络;步骤3:输入RGB‑D形式的待测试图像到步骤2训练的语义分割网络,以输出的语义分类得分图中最大得分类别作为各像素点类别,得到语义分割结果。本发明在网络结构并行设计的基础上,通过计算深度信息与RGB信息的区域性特征值与相似性程度的度量,辅助提升深度与RGB信息的融合效果。
Description
技术领域
本发明属于机器视觉人工智能技术领域,具体涉及一种基于语义分割的道路裂缝自动识别方法。
背景技术
道路,是最重要的基础设施之一,作为连接各地的纽带,道路在促进经济文化交流,团结人民群众,加快城市化、现代化进程等方面,都具有无可替代的作用。目前,我国各级道路在促进城乡一体化、提供就业、降低原材料成本,合理分配资源等方面都发挥了重要的作用。截至2020年,我国的公路总里程数已经超过500万公里,其中,高速公路总里程已经突破15万公里。
如此庞大的公路网带给我们无数便利的同时,也带给我们一个巨大的挑战——公路的养护与管理。由于道路的自然特性,无可避免地会损坏,因此需要进行养护。裂缝、坑槽等道路病害出现的频率高,对过往车辆会造成安全隐患,因此,对道路养护的首要任务是:及时发现道路病害。对海量的公路进行人工筛查是一种费事费力的行为,因此,需要利用机器视觉技术,实现图片自动识别裂缝的算法。
早期的识别裂缝的算法一般采用数字图像处理技术实现,如阈值分割、滤波算法、形态学操作、小波算法、分形理论等。因为道路路面的情况过于复杂,裂缝形态各异,采用传统的数字图像处理方法往往准确率不够,难以取得理想的裂缝识别水平。
发明内容
针对现有技术存在的缺陷,本发明提供一种基于语义分割的道路裂缝自动识别方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种基于语义分割的道路裂缝自动识别方法,包括以下步骤:
步骤1:以Deeplab-v3作为基础模型构建语义分割网络;其中,所述语义分割网络的输入为RGB-D道路图像,输出为语义分类得分图;
步骤1.1:将Resnet101作为特征提取模块的骨干网络,构建并行的RGB分支网络与深度分支网络;其中,RGB分支网络与深度分支网络的网络结构保持一致;
步骤1.2:构建空间相似度模块:
步骤1.2.1:分别提取RGB分支网络与深度分支网络中的b个子模块的输出特征图,构建b组成对关系fi:
fi={fi,rgb,fi,dep}
其中:i∈{1,2,...,b};
b表示选取的子模块数;
fi,rgb表示RGB分支网络中第i个子模块的输出特征图;
fi,dep表示深度分支网络中第i个子模块的输出特征图;
步骤1.2.2:对于每组成对关系fi,将其RGB分支网络的输出特征图fi,rgb转变为对应的特征区域Gi,rgb,将其深度分支网络的输出特征图fi,dep转变为对应的特征区域Gi,dep,从而将每组成对关系fi转变为对应的成对特征区域Gi,表达式如下:
Gi={Gi,rgb,Gi,dep}={p(fi,rgb),p(fi,dep)}
其中:
函数p(fi,rgb)表示基于原特征尺度下对fi,rgb采样的全局池化操作;
函数p(fi,dep)表示基于原特征尺度下对fi,dep采样的全局池化操作;
步骤1.2.3:计算成对特征区域Gi对应的自相关空间特征Di:
Di={Di,rgb,Di,dep}={d(Gi,rgb),d(Gi,dep)}
d(Gi,rgb)={dst(Gi,rgb,m,Gi,rgb,n)}
d(Gi,dep)={dst(Gi,dep,m,Gi,dep,n)}
其中:
Di,rgb等于d(Gi,rgb),表示Gi,rgb的自相关空间特征;d(Gi,rgb)为函数,表示计算Gi,rgb的自相关空间特征;
Di,dep等于d(Gi,dep),表示Gi,dep的自相关空间特征;d(Gi,dep)为函数,表示计算Gi,dep的自相关空间特征;
Gi,rgb,m和Gi,rgb,n表示Gi,rgb中任意两个区域m和n;
dst(Gi,rgb,m,Gi,rgb,n)表示计算区域Gi,rgb,m和区域Gi,rgb,n之间距离;
Gi,dep,m和Gi,dep,n表示Gi,dep中任意两个区域m和n;
dst(Gi,dep,m,Gi,dep,n)表示计算区域Gi,dep,m和Gi,dep,n之间距离;
步骤1.2.4:计算每对自相关空间特征Di={Di,rgb,Di,dep}之间的距离,并生成空间关系相似度损失Ls:
步骤1.3:构建解码器模块,RGB分支网络与深度分支网络输出的最后一组特征图fb={fb,rgb,fb,dep}经过特征加权模块进行特征拼接,得到特征图fout;拼接后的特征图fout再经过多尺度空洞卷积模块生成特征图faspp,faspp与特征图fout进行通道上的叠加,最终得到语义分类得分图;
具体方法为:
步骤1.3.1:对于第b组成对关系fb={fb,rgb,fb,dep},将fb,rgb,fb,dep分别输入全局平均池化层,然后经过两个通道同比压缩、扩展的全连接层,并经激活函数后输出特征f'b,rgb和特征f'b,dep;
步骤1.3.2:将步骤1.3.1输出的特征f'b,rgb和特征f'b,dep相加,得到特征拼接后的特征图fout;
步骤1.3.3:将步骤1.3.2拼接后的特征图fout输入多尺度空洞卷积模块,并行通过4个不同尺度的空洞卷积层和1个均值池化层,将这5类输出在通道上叠加并以1×1的卷积进行压缩,输出特征图faspp;
步骤1.3.4:将特征图fout和特征图faspp在通道上叠加后,输入3×3卷积层与1×1卷积层,最终输出语义分类得分图;
步骤1.4:构建损失函数模块,以交叉熵损失作为损失函数,拟合语义分类得分图与真实的标签,并以随机梯度下降法作为优化方法;从而构建得到语义分割网络;
步骤2:训练步骤1构建的语义分割网络;
步骤3:输入RGB-D形式的待测试图像到步骤2训练的语义分割网络,以输出的语义分类得分图中最大得分类别作为各像素点类别,得到语义分割结果。
优选的,步骤2具体为:
采用以下方法,对步骤1构建的语义分割网络进行训练:
使用随机翻转、剪裁、gamma值变换方法进行数据增强;模型中的RGB分支网络与深度分支网络对应的主干网络均加载ImageNet的预训练参数;并使用反向传播算法训练该模型,得到训练的语义分割网络。
本发明提供的一种基于语义分割的道路裂缝自动识别方法具有以下优点:
本发明是基于RGB-D传感器的图像融合描述子方法,针对室内场景的RGB-D图像进行语义分割,通过深度学习网络有效融合RGB信息与Depth信息,在骨干网络中引入空间关系相似度。本发明是在网络结构并行设计的基础上,通过计算深度信息与RGB信息的区域性特征值与相似性程度的度量,辅助提升深度与RGB信息的融合效果。本发明仅依赖于能够提供RGB数据和深度数据的传感器设备,方法简便,是基于Kinect、Xtion等体感设备应用中图像匹配的有效方法。
附图说明
图1为本发明提供的一种基于语义分割的道路裂缝自动识别方法的流程图;
图2为本发明提供的语义分割示意图;
图3为本发明提供的Deeplabv3+的主干网络结构图;
图4为本发明提供的空间注意力机制图;
图5为本发明提供的SE-Network压缩激活块示意图;
图6为本发明提供的通道注意力模块结构图;
图7为本发明提供的裂缝语义分割示例图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
随着计算机工艺的进步与人工智能技术的发展,机器学习和神经网络技术越来越多地被用在机器视觉领域。其中,卷积神经网络是图像识别领域最重要的神经网络技术。一般的神经网络每个神经元之间高度相关,而在图像识别领域,每个像素的相关性和像素之间的距离有很大的关系,一般是相近的像素之间的相似度更高,因此,普通的神经网络的处理方式不够精确。卷积神经网络通过模拟人脑皮层神经元识别图像的方式,通过卷积,消除大量类似的不重要的连接,让每一个神经元只接受来自前一层的一小部分输入,即每个神经元只处理图像中的一个特定部分,让图像识别取得更好的效果。本发明是使用基于卷积神经网络的语义分割技术,实现道路裂缝的自动识别。
参考图1,本发明提供一种基于语义分割的道路裂缝自动识别方法,包括以下步骤:
步骤1:以Deeplab-v3作为基础模型构建语义分割网络;其中,所述语义分割网络的输入为RGB-D道路图像,输出为语义分类得分图;
步骤1.1:将Resnet101作为特征提取模块的骨干网络,构建并行的RGB分支网络与深度分支网络;其中,RGB分支网络与深度分支网络的网络结构保持一致;
步骤1.2:构建空间相似度模块:
步骤1.2.1:分别提取RGB分支网络与深度分支网络中的b个子模块的输出特征图,构建b组成对关系fi:
fi={fi,rgb,fi,dep}
其中:i∈{1,2,...,b};
b表示选取的子模块数;
fi,rgb表示RGB分支网络中第i个子模块的输出特征图;
fi,dep表示深度分支网络中第i个子模块的输出特征图;
步骤1.2.2:对于每组成对关系fi,将其RGB分支网络的输出特征图fi,rgb转变为对应的特征区域Gi,rgb,将其深度分支网络的输出特征图fi,dep转变为对应的特征区域Gi,dep,从而将每组成对关系fi转变为对应的成对特征区域Gi,表达式如下:
Gi={Gi,rgb,Gi,dep}={p(fi,rgb),p(fi,dep)}
其中:
函数p(fi,rgb)表示基于原特征尺度下对fi,rgb采样的全局池化操作;
函数p(fi,dep)表示基于原特征尺度下对fi,dep采样的全局池化操作;
步骤1.2.3:计算成对特征区域Gi对应的自相关空间特征Di:
Di={Di,rgb,Di,dep}={d(Gi,rgb),d(Gi,dep)}
d(Gi,rgb)={dst(Gi,rgb,m,Gi,rgb,n)}
d(Gi,dep)={dst(Gi,dep,m,Gi,dep,n)}
其中:
Di,rgb等于d(Gi,rgb),表示Gi,rgb的自相关空间特征;d(Gi,rgb)为函数,表示计算Gi,rgb的自相关空间特征;
Di,dep等于d(Gi,dep),表示Gi,dep的自相关空间特征;d(Gi,dep)为函数,表示计算Gi,dep的自相关空间特征;
Gi,rgb,m和Gi,rgb,n表示Gi,rgb中任意两个区域m和n;
dst(Gi,rgb,m,Gi,rgb,n)表示计算区域Gi,rgb,m和区域Gi,rgb,n之间距离;
Gi,dep,m和Gi,dep,n表示Gi,dep中任意两个区域m和n;
dst(Gi,dep,m,Gi,dep,n)表示计算区域Gi,dep,m和Gi,dep,n之间距离;
步骤1.2.4:计算每对自相关空间特征Di={Di,rgb,Di,dep}之间的距离,并生成空间关系相似度损失Ls:
步骤1.3:构建解码器模块,RGB分支网络与深度分支网络输出的最后一组特征图fb={fb,rgb,fb,dep}经过特征加权模块进行特征拼接,得到特征图fout;拼接后的特征图fout再经过多尺度空洞卷积模块生成特征图faspp,faspp与特征图fout进行通道上的叠加,最终得到语义分类得分图;
具体方法为:
步骤1.3.1:对于第b组成对关系fb={fb,rgb,fb,dep},将fb,rgb,fb,dep分别输入全局平均池化层,然后经过两个通道同比压缩、扩展的全连接层,并经激活函数后输出特征f'b,rgb和特征f'b,dep;
步骤1.3.2:将步骤1.3.1输出的特征f'b,rgb和特征f'b,dep相加,得到特征拼接后的特征图fout;
步骤1.3.3:将步骤1.3.2拼接后的特征图fout输入多尺度空洞卷积模块,并行通过4个不同尺度的空洞卷积层和1个均值池化层,将这5类输出在通道上叠加并以1×1的卷积进行压缩,输出特征图faspp;
步骤1.3.4:将特征图fout和特征图faspp在通道上叠加后,输入3×3卷积层与1×1卷积层,最终输出语义分类得分图;
步骤1.4:构建损失函数模块,以交叉熵损失作为损失函数,拟合语义分类得分图与真实的标签,并以随机梯度下降法作为优化方法;从而构建得到语义分割网络;
步骤2:训练步骤1构建的语义分割网络;
步骤2具体为:
采用以下方法,对步骤1构建的语义分割网络进行训练:
使用随机翻转、剪裁、gamma值变换方法进行数据增强;模型中的RGB分支网络与深度分支网络对应的主干网络均加载ImageNet的预训练参数;并使用反向传播算法训练该模型,得到训练的语义分割网络。
步骤3:输入RGB-D形式的待测试图像到步骤2训练的语义分割网络,以输出的语义分类得分图中最大得分类别作为各像素点类别,得到语义分割结果。
本发明提出了一种新的用于语义分割基于空间注意力的CNN体系结构,该体系将信息显式地连接为一个单独的处理分支(即信息流),该分支并行处理与经典流的信息。这种架构的关键是连接两种流的中间层的新型结构,用户提取更深层更高纬度的空间特征。具体来说,本发明使用经典流中的较高级别的激活来控制形状流中的较低级别的激活,从而有效地消除噪声并帮助形状流仅专注于处理相关的边界相关信息。这使本发明能够为图像流使用非常浅的体系结构,以图像级分辨率运行。本发明的实验表明,这导致了一种高效的体系结构,该体系结构围绕对象边界产生了更清晰的预测,并显著提高了对较小对象的性能。
图像语义分割的目标是寻求一种模型,使其可以自动的将输入图像中的每一个像素点都预测标注出一个语义标签。也就是说,图像中所包含的每个类别都可以全部从原图中标注出来。如图2所示,原图是一张相机自动拍摄获取的道路裂缝图像,通过模型计算,可以得到语义分割效果图。其中,白色标签代表裂缝区域,黑色部分代表非裂缝区域。
语义分割实际是对像素进行分类,离不开卷积,池层等基本的特征提取操作,本发明采用深度卷积神经网络(CNN)提取图像特征。从大小为W×H×3的输入彩色图像开始,由C通道滤镜组成的卷积层扫描输入图像,并输出W′×H′×C特征图,它将作为下一个卷积的输入层1。3D特征图的每个2D切片都会对过滤器通道产生的空间视觉响应进行编码,其中过滤器充当模式检测器-低层过滤器检测诸如边缘和拐角的低级视觉提示,而高层过滤器检测高水平的视觉提示,诸如部分和对象之类的语义模式。通过堆叠图层,CNN通过视觉抽象层次提取图像特征。因此,CNN图像特征本质上是空间的,逐通道的和多层的。然而,大多数现有的基于注意力的图像字幕模型仅考虑了空间特征,即注意力模型仅通过空间注意权重将句子上下文调制为最后的卷积层特征图。
(1)DeepLabv3+网络结构
本发明采用DeepLabv3+模型实现语义分割。
整体结构是Deeplabv3+网络结构模型,下面主要从Encoder-Decoder两个角度进行分析:
(1)Encoder即是DeepLabv3网络结构,用于提取丰富的图像特征,由于空间金字塔池化模块的引入,能够很好的融合不同粗细多个尺度的图像特征;
(2)Decoder部分则是实现从图像特征到分割结果的映射,其原理是先把Encoder的结果上采样4倍,然后与ASSP输出的多层次融合特征拼接在一起,这样就实现了从细粒度到粗粒度分割结果的融合。
主干网络。图中DCNN部分即为本发明提供的主干网络Xception,在常规的Xception网络上进行了几处改进,如图3所示:
(2)引入混合注意力机制的Deeplabv3+改进算法
注意力机制的本质就是定位到感兴趣的信息,抑制无用信息,结果通常都是以概率图或者概率特征向量的形式展示。本发明将空间注意力机制和通道注意力机制混合,得到混合注意力机制,并将混合注意力机制应用在Deeplabv3+网络中。
空间注意力:使用“硬”池选择最可能的注意区域,或者使用“软”池对空间特征和注意权值进行平均。对于采用“软”注意合并图像区域特征。为了进一步完善空间注意力,应用了堆叠的空间注意力模型,其中第二个注意力是基于由第一个注意力模型调制的注意力特征图。与传统方案不同的是,本发明对CNN的多层应用了多层关注。上述空间模型的一个共同缺陷是,通常会在注意力特征图上求助于加权池。因此,空间信息将不可避免地丢失。更严重的是,注意力仅应用于最后一个转换层,在该层中感受野的大小会很大,并且每个感受野区域之间的差异会非常有限,从而导致空间上的注意力微不足道。
多层注意:根据CNN架构的性质,对应于不同特征图层的各个字段的大小是不同的。为了克服最后一个卷积层关注中较大的各自场大小的弱点。与传统方案相比,本发明中,SCA-CNN还结合了多层的通道注意即将两种注意力机制混合。
1)空间注意力机制
空间注意力机制的具体结构如图4所示。高层特征首先用1×1卷积操作进行降维,然后使用Sigmoid公式进行标准化,即将每个像素的值约束在0-1之间,得到各个类别的概率图。具体做法是,通过计算出熵概率图,然后再将低层特征与熵概率图逐像素相乘,以对低层特征进行权重标定。然后,高层特征与加权后的低层特征进行按深度连接操作以向前传递进行下一步的解码操作。空间注意力机制的工作过程可由式1所示。
其中,FSA代表空间注意力机制的输出,E[.]代表计算的熵概率图,fupper和flower分别代表输入空间注意力机制的高、低层特征。代表卷积操作,w1×1代表1×1的卷积核,⊙代表按像素相乘,Con代表按深度连接。通过该公式可以看出,空间注意力机制的功能在于:在高低层特征融合之前依据高层特征的熵概率图对低层特征进行选择性增强。
如上图所示,给定初始特征图V,本发明采用逐通道注意Φc获得逐通道注意权重β。通过β和V的线性组合,获得一个通道加权特征图。然后,将基于通道的加权特征图馈入空间关注模型Φs,获得空间关注权重α。在获得两个注意力权重α和β之后,输入V,β,α来调制函数f以计算调制特征图X。所有过程总结如下:
β=Φc(ht-1,V) (2)
α=Φs(ht-1,fc(V,β)) (3)
X=f(V,α,β) (4)
其中fc(·)是特征图通道和相应通道权重的通道方向乘法。
2)通道注意力机制
对于输入二维图像的CNN来说,一个维度是图像的尺度空间,即长宽,另一个维度就是通道。本发明网络模型从特征提取的角度考虑,为了区分不同通道特征图中特征的表达能力,引入了一个基于通道的注意力机制,通过建模各个特征通道的重要程度,然后针对不同的任务增强或者抑制不同的通道,其原理图如图5所示。其主要特点是:在正常的卷积操作后分出了一个旁路分支,首先进行Squeeze操作(即图中Fsq),将空间维度进行特征压缩,相当于具有全局感受野的池化操作,特征通道数依然不变,而每个通道的二维特征图则变为一个实数。接下来是Excitation操作(即图中的Fex),通过一个可学习的参数W显式地建模了特征通道间的相关性。本发明使用了一个2层bottleneck结构(先降维再升维)的全连接层后接Sigmoid函数实现。在获得了每一个特征通道的归一化权重之后,就将该权重应用于原来的每个特征通道。
对于SE类型,给定初始特征图V,首先利用空间注意力Φs来获得空间注意力权重α。基于α,线性函数fs(·)和基于信道的注意力模型Φc,根据CS类型的公式计算调制特征X:
α=Φs(ht-1,V) (5)
β=Φc(ht-1,fs(V,α)) (6)
X=f(V,α,β) (7)
其中:fs(·)是每个特征图通道的区域及其对应区域关注权重的逐元素乘法。
本发明中,通道注意力机制优点为:在增加少量计算量的情况下,能够获得较为明显的性能提升。
SE通道注意力模块则采用如图6所示的基本结构,Squeeze操作选取的是基本的全局池化操作。全局平均池化因为是当前通道特征的平均值,能够更好的衡量某一通道特征的重要性,而全局最大池化或者最小池化操作则容易受到通道特征中极值的影响,可能对数据噪声的鲁棒性更差,容易导致模型过拟合。本发明经验证,采用全局最大池化和全局最小池化后,模型分割准确率反而有所下降,因此,本发明采用全局平均池化。Excitation操作则采用FC(1024×256)-ReLU-FC(256×1024)-Sigmoid的基本结构,这种简单的先降维后升维的操作能够依靠两个全连接层之间的ReLU过滤掉部分数据噪声,有益于挖掘更准确的通道重要性。
(3)本发明的实验验证
在CRACK500、AEL、CFD等几个混合道路裂缝数据集的训练集上训练DeepLabv3+神经网络,并在验证集上进行验证分割的效果。
实验的仿真环境:系统为基于Linux4.15.0-112-generic内核的Ubuntu 16.04,构件神经网络所采用的软件为TensorFlow 1.12,硬件环境如下表所示
表1硬件环境
在实验数据集的训练集上进行训练后,使用验证集进行验证,运行的结果为:平均mIoU为0.7660,平均像素准确率为0.9819。
对图像进行裂缝语义分割的示例图,如图7所示。
本发明的有益效果:
1)采用神经网络用于道路裂缝的自动识别,使检测效率大大增加。
2)采用语义分割神经网络,较大程度地提高了裂缝识别的精度。
3)引入混合注意力机制的DeepLabv3+改进算法,在减少运算量的同时,使模型运行的效果得到了提升。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (2)
1.一种基于语义分割的道路裂缝自动识别方法,其特征在于,包括以下步骤:
步骤1:以Deeplab-v3作为基础模型构建语义分割网络;其中,所述语义分割网络的输入为RGB-D道路图像,输出为语义分类得分图;
步骤1.1:将Resnet101作为特征提取模块的骨干网络,构建并行的RGB分支网络与深度分支网络;其中,RGB分支网络与深度分支网络的网络结构保持一致;
步骤1.2:构建空间相似度模块:
步骤1.2.1:分别提取RGB分支网络与深度分支网络中的b个子模块的输出特征图,构建b组成对关系fi:
fi={fi,rgb,fi,dep}
其中:i∈{1,2,...,b};
b表示选取的子模块数;
fi,rgb表示RGB分支网络中第i个子模块的输出特征图;
fi,dep表示深度分支网络中第i个子模块的输出特征图;
步骤1.2.2:对于每组成对关系fi,将其RGB分支网络的输出特征图fi,rgb转变为对应的特征区域Gi,rgb,将其深度分支网络的输出特征图fi,dep转变为对应的特征区域Gi,dep,从而将每组成对关系fi转变为对应的成对特征区域Gi,表达式如下:
Gi={Gi,rgb,Gi,dep}={p(fi,rgb),p(fi,dep)}
其中:
函数p(fi,rgb)表示基于原特征尺度下对fi,rgb采样的全局池化操作;
函数p(fi,dep)表示基于原特征尺度下对fi,dep采样的全局池化操作;
步骤1.2.3:计算成对特征区域Gi对应的自相关空间特征Di:
Di={Di,rgb,Di,dep}={d(Gi,rgb),d(Gi,dep)}
d(Gi,rgb)={dst(Gi,rgb,m,Gi,rgb,n)}
d(Gi,dep)={dst(Gi,dep,m,Gi,dep,n)}
其中:
Di,rgb等于d(Gi,rgb),表示Gi,rgb的自相关空间特征;d(Gi,rgb)为函数,表示计算Gi,rgb的自相关空间特征;
Di,dep等于d(Gi,dep),表示Gi,dep的自相关空间特征;d(Gi,dep)为函数,表示计算Gi,dep的自相关空间特征;
Gi,rgb,m和Gi,rgb,n表示Gi,rgb中任意两个区域m和n;
dst(Gi,rgb,m,Gi,rgb,n)表示计算区域Gi,rgb,m和区域Gi,rgb,n之间距离;
Gi,dep,m和Gi,dep,n表示Gi,dep中任意两个区域m和n;
dst(Gi,dep,m,Gi,dep,n)表示计算区域Gi,dep,m和Gi,dep,n之间距离;
步骤1.2.4:计算每对自相关空间特征Di={Di,rgb,Di,dep}之间的距离,并生成空间关系相似度损失Ls:
步骤1.3:构建解码器模块,RGB分支网络与深度分支网络输出的最后一组特征图fb={fb,rgb,fb,dep}经过特征加权模块进行特征拼接,得到特征图fout;拼接后的特征图fout再经过多尺度空洞卷积模块生成特征图faspp,faspp与特征图fout进行通道上的叠加,最终得到语义分类得分图;
具体方法为:
步骤1.3.1:对于第b组成对关系fb={fb,rgb,fb,dep},将fb,rgb,fb,dep分别输入全局平均池化层,然后经过两个通道同比压缩、扩展的全连接层,并经激活函数后输出特征f′b,rgb和特征f′b,dep;
步骤1.3.2:将步骤1.3.1输出的特征f′b,rgb和特征f′b,dep相加,得到特征拼接后的特征图fout;
步骤1.3.3:将步骤1.3.2拼接后的特征图fout输入多尺度空洞卷积模块,并行通过4个不同尺度的空洞卷积层和1个均值池化层,将这5类输出在通道上叠加并以1×1的卷积进行压缩,输出特征图faspp;
步骤1.3.4:将特征图fout和特征图faspp在通道上叠加后,输入3×3卷积层与1×1卷积层,最终输出语义分类得分图;
步骤1.4:构建损失函数模块,以交叉熵损失作为损失函数,拟合语义分类得分图与真实的标签,并以随机梯度下降法作为优化方法;从而构建得到语义分割网络;
步骤2:训练步骤1构建的语义分割网络;
步骤3:输入RGB-D形式的待测试图像到步骤2训练的语义分割网络,以输出的语义分类得分图中最大得分类别作为各像素点类别,得到语义分割结果。
2.根据权利要求1所述的一种基于语义分割的道路裂缝自动识别方法,其特征在于,步骤2具体为:
采用以下方法,对步骤1构建的语义分割网络进行训练:
使用随机翻转、剪裁、gamma值变换方法进行数据增强;模型中的RGB分支网络与深度分支网络对应的主干网络均加载ImageNet的预训练参数;并使用反向传播算法训练该模型,得到训练的语义分割网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110673870.5A CN113255678A (zh) | 2021-06-17 | 2021-06-17 | 一种基于语义分割的道路裂缝自动识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110673870.5A CN113255678A (zh) | 2021-06-17 | 2021-06-17 | 一种基于语义分割的道路裂缝自动识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113255678A true CN113255678A (zh) | 2021-08-13 |
Family
ID=77188503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110673870.5A Pending CN113255678A (zh) | 2021-06-17 | 2021-06-17 | 一种基于语义分割的道路裂缝自动识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255678A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673531A (zh) * | 2021-08-23 | 2021-11-19 | 山东大学 | 基于形状感知卷积的rgb-d图像语义分割方法及系统 |
CN114119461A (zh) * | 2021-10-08 | 2022-03-01 | 厦门微亚智能科技有限公司 | 基于深度学习的锂电池模组侧面焊缝外观检测算法及系统 |
CN115035371A (zh) * | 2022-05-13 | 2022-09-09 | 西南石油大学 | 基于多尺度特征融合神经网络的井壁裂缝识别方法 |
CN115375707A (zh) * | 2022-08-18 | 2022-11-22 | 石河子大学 | 一种复杂背景下植物叶片精准分割方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734713A (zh) * | 2018-05-18 | 2018-11-02 | 大连理工大学 | 一种基于多特征图的交通图像语义分割方法 |
CN110781850A (zh) * | 2019-10-31 | 2020-02-11 | 深圳金信诺高新技术股份有限公司 | 道路识别的语义分割系统和方法、计算机存储介质 |
CN111563508A (zh) * | 2020-04-20 | 2020-08-21 | 华南理工大学 | 一种基于空间信息融合的语义分割方法 |
CN112115951A (zh) * | 2020-11-19 | 2020-12-22 | 之江实验室 | 一种基于空间关系的rgb-d图像语义分割方法 |
-
2021
- 2021-06-17 CN CN202110673870.5A patent/CN113255678A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734713A (zh) * | 2018-05-18 | 2018-11-02 | 大连理工大学 | 一种基于多特征图的交通图像语义分割方法 |
CN110781850A (zh) * | 2019-10-31 | 2020-02-11 | 深圳金信诺高新技术股份有限公司 | 道路识别的语义分割系统和方法、计算机存储介质 |
CN111563508A (zh) * | 2020-04-20 | 2020-08-21 | 华南理工大学 | 一种基于空间信息融合的语义分割方法 |
CN112115951A (zh) * | 2020-11-19 | 2020-12-22 | 之江实验室 | 一种基于空间关系的rgb-d图像语义分割方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673531A (zh) * | 2021-08-23 | 2021-11-19 | 山东大学 | 基于形状感知卷积的rgb-d图像语义分割方法及系统 |
CN113673531B (zh) * | 2021-08-23 | 2023-09-22 | 山东大学 | 基于形状感知卷积的rgb-d图像语义分割方法及系统 |
CN114119461A (zh) * | 2021-10-08 | 2022-03-01 | 厦门微亚智能科技有限公司 | 基于深度学习的锂电池模组侧面焊缝外观检测算法及系统 |
CN115035371A (zh) * | 2022-05-13 | 2022-09-09 | 西南石油大学 | 基于多尺度特征融合神经网络的井壁裂缝识别方法 |
CN115035371B (zh) * | 2022-05-13 | 2023-09-12 | 西南石油大学 | 基于多尺度特征融合神经网络的井壁裂缝识别方法 |
CN115375707A (zh) * | 2022-08-18 | 2022-11-22 | 石河子大学 | 一种复杂背景下植物叶片精准分割方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113255678A (zh) | 一种基于语义分割的道路裂缝自动识别方法 | |
CN112541501B (zh) | 一种基于视觉语言建模网络的场景文字识别方法 | |
CN110956094A (zh) | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 | |
CN113642390B (zh) | 一种基于局部注意力网络的街景图像语义分割方法 | |
Ma et al. | A crossmodal multiscale fusion network for semantic segmentation of remote sensing data | |
Wang et al. | Spatial–temporal pooling for action recognition in videos | |
CN111626116A (zh) | 基于融合多注意力机制和Graph的视频语义分析方法 | |
US20220315243A1 (en) | Method for identification and recognition of aircraft take-off and landing runway based on pspnet network | |
CN113963170A (zh) | 一种基于交互式特征融合的rgbd图像显著性检测方法 | |
CN112668638A (zh) | 一种图像美学质量评估和语义识别联合分类方法及系统 | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统 | |
CN115984537A (zh) | 图像处理方法、装置及相关设备 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
CN113793341B (zh) | 一种自动驾驶场景语义分割方法、电子设备及可读介质 | |
Yuan et al. | A lightweight network for smoke semantic segmentation | |
CN114596548A (zh) | 目标检测方法、装置、计算机设备及计算机可读存储介质 | |
CN112132839B (zh) | 一种基于深度卷积级联网络的多尺度快速人脸分割方法 | |
CN112364864A (zh) | 一种车牌识别方法、装置、电子设备及存储介质 | |
CN112308066A (zh) | 一种车牌识别系统 | |
Li et al. | Human perception evaluation system for urban streetscapes based on computer vision algorithms with attention mechanisms | |
CN117011883A (zh) | 一种基于金字塔卷积和Transformer双分支的行人重识别方法 | |
CN116092034A (zh) | 一种基于改进的DeeplabV3+模型的车道线检测方法 | |
CN114120076B (zh) | 基于步态运动估计的跨视角视频步态识别方法 | |
Wang et al. | Road extraction based on improved DeepLabv3 plus in remote sensing image | |
Xu et al. | MMT: Mixed-Mask Transformer for Remote Sensing Image Semantic Segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210813 |