CN113744205B - 一种端到端的道路裂缝检测系统 - Google Patents
一种端到端的道路裂缝检测系统 Download PDFInfo
- Publication number
- CN113744205B CN113744205B CN202110943144.0A CN202110943144A CN113744205B CN 113744205 B CN113744205 B CN 113744205B CN 202110943144 A CN202110943144 A CN 202110943144A CN 113744205 B CN113744205 B CN 113744205B
- Authority
- CN
- China
- Prior art keywords
- channel
- attention
- output
- attention module
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000011176 pooling Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 230000002146 bilateral effect Effects 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000005540 biological transmission Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000005284 excitation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 abstract description 24
- 238000012549 training Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 229910052719 titanium Inorganic materials 0.000 description 1
- 239000010936 titanium Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种端到端的道路裂缝检测系统,涉及计算机视觉中的语义分割领域。检测系统的检测过程包括以下步骤:视频传输;用户通过本地上传视频数据或者公网视频流输入视频数据,视频数据解码为单帧的RGB图像输入到模型中,进行下一步操作;加载双边注意力机制模型;读取图像数据帧;提取空间注意力信息;提取通道注意力信息,通过平均池化和最大池化保留了更加关注的通道特征;融合输出并可视化。系统通过设计一个大感受野的双边全局注意力网络,裂缝检测分割准确率得到提高,并且兼顾了识别速度。
Description
技术领域
本发明涉及计算机视觉中的语义分割领域,具体涉及一种端到端的道路裂缝检测系统。
背景技术
随着人工智能相关技术的加速落地,语义分割作为计算机视觉领域的关键分支,地位受到重视,应用到越来越多的实际场景之中,如工业质检,室内导航,虚拟现实,缺陷检测,自动驾驶等。以前的语义分割模型集中解决的是提高模型泛用性和速度上,能够在通用数据集上获得较高的准确度和FPS。当然这样能够有更广阔的应用场景。但是实际项目需求对专业性要求较强,分类数目也单一。这也导致在通用数据集表现出色的模型,在实际效果中差强人意。
Ping Hu等人在论文《Real-time Semantic Segmentation with FastAttention》中提出了依赖于快速的空间注意的体系结构,这是对流行的自我注意机制的简单而有效的修改,并且通过改变操作顺序,以很小的计算成本捕获相同的丰富空间上下文。此外,为了有效地处理高分辨率输入,对网络的中间特征级应用了额外的空间缩减,由于使用了快速注意力模块来融合特征,因此精度损失最小。在Cityscapes上,该网络在单个Titan X GPU上以72FPS的速度实现了74.4%的mIoU,以58FPS的速度实现了75.5%的mIoU。其虽然改进了注意力机制,但是改进的地方在整个网络中占比很小,因此模型速度提升有限。并且忽视了通道维度的影响。
Changqian Yu等人在论文《BiSeNet:Bilateral Segmentation Network forReal-time Semantic Segmentation》中提出了一个新的双边分割网络。该网络首先设计了一个小步长的空间路径来保存空间信息,并且生成高分辨率的特征。同时,采用具有快速下采样策略的上下文路径来获得足够的感受野。在这两条路径的基础上,引入了一个新的特征融合模块来有效地组合特征。所提出的架构在Cityscapes、等官方数据集上的速度和分割性能之间取得了适当的平衡。具体来说,对于2048×1024的输入,在Cityscapes测试数据集上以105FPS的速度在一个NVIDIA Titan XP卡上实现了68.4%的Mean IOU,这明显快于性能相当的现有方法。过高的识别速度是值得肯定的,但是这也导致其泛化性能较差,实际分割效果精度低等一系列问题。
专利号CN110120041A的中国专利,公开了一种路面裂缝图像检测方法,所述方法包括:获取待检测路面图像;获取训练数据,所述训练数据包括多个路面图像与每个所述路面图像对应的裂缝标记图像;获取预训练的深度模型,并基于所述深度模型构建初始路面裂缝检测模型;基于所述训练数据,训练所述初始路面裂缝检测模型;基于训练后得到的路面裂缝检测模型,获取所述待检测路面图像的裂缝标记图像,得到路面裂缝图像检测结果。本发明能够根据预训练的深度模型构建路面裂缝检测模型,提高了模型训练效率,还提高了所获取的裂缝标记图像的精度。但是该方法在速度和准确度上均有较高提升空间。
专利号CN111861978A的中国专利,具体涉及一种基于Faster R-CNN的桥梁裂缝实例分割方法,包括步骤一、构建桥梁裂缝数据集;步骤二、标注训练样本;步骤三、搭建改进Faster R-CNN的桥梁裂缝实例分割模型;步骤四、对步骤三搭建的实例分割模型进行训练;步骤五、对步骤四训练后的实例分割模型进行测试;步骤六:实际检测。本方法相较于现有技术鲁棒性更强,不仅可以获得准确的桥梁裂缝分类和定位结果,而且能够生成高质量的桥梁裂缝分割掩膜,用于评价桥梁的损伤程度,制定相对应的维护方案;另外本方法能够对图像中的多裂缝实现准确检测,因此结合图像拼接技术,不仅可以提高检测效率,且能够得到完整的裂缝形态。但是该方法技术选型陈旧,实时性不足。
专利号CN108520516A的中国专利,具体涉及一种基于语义分割的桥梁路面裂缝检测和分割方法,对数据集中的样本进行人工的语义分割,制作训练样本的标签;其次,通过数据增强对数据集中的图像数量进行扩充;然后,将准备好的训练集输入FC-DenseNet103网络模型进行训练,最后利用采集到的测试集的裂缝图像进行裂缝提取;传统的裂缝检测大多采用边缘检测、形态学或者阈值化等方法,需要人为设置和调整参数,目前已知的深度学习方法均建立在受噪声影响小,裂缝目标清晰的基础上,低估了桥梁路面图像的复杂程度,难以满足工程应用的需要;本发明结合语义分割算法提供了一种适用于复杂背景下的桥梁路面裂缝自动检测和分割方法。但是该方法同样面对实时性不足,分割信息不够完整的问题。
发明内容
本发明的目的是针对上述不足,提出了一种兼顾速度与准确率的基于融合空间注意力信息和通道注意力信息的道路裂缝检测系统。
本发明具体采用如下技术方案:
一种端到端的道路裂缝检测系统,包括空间注意力模块和通道注意力模块,检测过程包括以下步骤:
(1)视频传输;用户通过本地上传视频数据或者公网视频流输入视频数据,视频数据解码为单帧的RGB图像输入到模型中,进行下一步操作。
(2)加载双边注意力机制模型。
(3)读取图像数据帧。
(4)提取空间注意力信息。
(5)提取通道注意力信息,通过平均池化和最大池化保留了更加关注的通道特征。
(6)融合输出并可视化。
优选地,步骤(1)中,对输入视频数据进行如下操作:
(1)对拍摄的视频数据进行解析,得到每针的图像,每个图像的分辨率是2048×1024,
随后将图片转换成RC*H*W的特征图输入到模型中,C表示图像的通道数,H和W表示每张图像的宽度和高度;经过ResNet50提取特征后,输出的特征图依然是RC*H*W维度;将提取的特征图分别传入空间注意力模块和通道注意力模块,两个模块均将R3*2048*1024的特征图转化为R512*64*64维度,随后进行相关计算;计算结束后,将空间注意力模块和通道注意力模块的输出结果进行融合,得到RC*H*W的特征图,保证输入输出的一致性。
(2)对于空间注意力模块,假定输入为输出为/>通过空间注意力机制获取上下文信息操作定义为:
(3)对于通道注意力模块,假定输入为输出为/>fch代表(通道)维度,获取注意力信息,通过通道注意力机制获取上下文信息操作定义为:
(4)对于得到的两个模块输出的特征图F1和F2,对他们进行特征融合以得到最终结果:
F=F1+F2。
优选地,空间注意力模块的工作过程包括以下步骤:
对于一个输入图像,经过Resnet50的骨干网络之后,进入空间注意力机制的特征图尺寸设为C×H×W,然后过一个1×1的卷积为了改变通道数,将通道数改变为之前的一半C/2,然后进入全局注意力模块,在全局注意力模块中的具体操作如下:
(1)WQ,WK,WV代表了不同的操作,进入的特征图转换成不同的矩阵;表示位置偏移矩阵的张量,分别对应WQ,WK,WV在宽度h和高度w两个维度的位置偏移矩阵,计算WQ,WK,WV,然后两轴的位置/>直接乘以对应项WQx,WKx,WVx,然后加到WQx(WKx)T上,得到:
(2)合并了宽度轴和高度轴,将(1)得到的结果通过一个softmax,成为一个概率分布:
(3)然后乘以位置偏移和相应的对应项,最后得到输出,输出的尺寸为C×H×W,整体的公式如下:
优选地,通道注意力模块的工作过程包括以下步骤:
(1)对于RC*H*W的输入图像,首先经过ResNet50提取特征后得到RC*H*W的输入特征图,然后进入通道注意力模块,提取通道信息;
(2)通道信息提取模块主要是为了提取通道维度的上下文信息,通过对通道维度分配合适的权重,来关注有意义的特征,首先是进行一个双向池化操作,将输入的特征图R3 C*H*W分别进行最大池化和平均池化操作,AaxPool()代表最大池化操作,AvgPool()代表平均赤化操作:
F3=AaxPool(R3)
F4=AvgPool(R3)
经过池化操作后,特征图得到压缩,经过最大池化后F3的特征为同样的,经过平均池化后的特征为/>随后使用1×1卷积对特征进一步进行压缩激励:
F3=Conv(AaxPool(R3))
F4=Conv(AvgPool(R3))
其中,Conv代表1×1卷积操作,卷积操作后得到两个C×1×1的特征图;
(3)在对两个特征图进行压缩激励后,进行加和操作,加和操作后进行Sigmoid归一化操作:
F5=F3+F4
即
F5=Conv(AaxPool(R3))+Conv(AvgPool(R3)
进行Sigmoid归一化操作,其中σ代表Sigmoid函数:
F5=σ(Conv(AaxPool(R3))+Conv(AvgPool(R3))
(4)此时得到的特征图依然是C×1×1,通过升维操作,将C×1×1的权重特征与输入特征图RC*H*W进行加和操作,此时的加和操作为element-wise multiplication,最终得到输出结果RC*H*W,保证了输入输出的一致性:
本发明具有如下有益效果:
本申请记载的端到端的道路裂缝检测系统,为了进一步提高对裂缝的识别效果,设计了一个大感受野的双边全局注意力网络,裂缝检测分割准确率得到提高,并且兼顾了识别速度。
本申请记载的端到端的道路裂缝检测系统设计了基于宽度,高度,位置偏移的全局融合注意力模块,构建关注通道相关性,上下文关系的通道注意力模块,极具创新性的新型视觉注意力机制模块,可移植到其他计算机视觉检测分割模型中,即插即用的设计,使得其具有较强的泛化用途。
附图说明
图1为端到端的道路裂缝检测系统结构框图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
结合图1,一种端到端的道路裂缝检测系统,包括空间注意力模块和通道注意力模块,检测过程包括以下步骤:
(1)视频传输;用户通过本地上传视频数据或者公网视频流输入视频数据,视频数据解码为单帧的RGB图像输入到模型中,进行下一步操作。
对输入视频数据进行如下操作:
(1)对拍摄的视频数据进行解析,得到每针的图像,每个图像的分辨率是2048×1024,
随后将图片转换成RC*H*W的特征图输入到模型中,C表示图像的通道数,H和W表示每张图像的宽度和高度;经过ResNet50提取特征后,输出的特征图依然是RC*H*W维度;将提取的特征图分别传入空间注意力模块和通道注意力模块,两个模块均将R3*2048*1024的特征图转化为R512*64*64维度,随后进行相关计算;计算结束后,将空间注意力模块和通道注意力模块的输出结果进行融合,得到RC*H*W的特征图,保证输入输出的一致性。
(2)对于空间注意力模块,假定输入为输出为/>通过空间注意力机制获取上下文信息操作定义为:
(3)对于通道注意力模块,假定输入为输出为/>fch代表(通道)维度,获取注意力信息,通过通道注意力机制获取上下文信息操作定义为:
(4)对于得到的两个模块输出的特征图F1和F2,对他们进行特征融合以得到最终结果:
F=F1+F2。
(2)加载双边注意力机制模型。
(3)读取图像数据帧。
(4)提取空间注意力信息。空间注意力模块的工作过程包括以下步骤:
对于一个输入图像,经过Resnet50的骨干网络之后,进入空间注意力机制的特征图尺寸设为C×H×W,然后过一个1×1的卷积为了改变通道数,将通道数改变为之前的一半C/2,然后进入全局注意力模块,在全局注意力模块中的具体操作如下:
(1)WQ,WK,WV代表了不同的操作,进入的特征图转换成不同的矩阵;表示位置偏移矩阵的张量,分别对应WQ,WK,WV在宽度h和高度w两个维度的位置偏移矩阵,计算WQ,WK,WV,然后两轴的位置/>直接乘以对应项WQx,WKx,WVx,然后加到WQx(WKx)T上,得到:
(2)合并了宽度轴和高度轴,将(1)得到的结果通过一个softmax,成为一个概率分布:
(3)然后乘以位置偏移和相应的对应项,最后得到输出,输出的尺寸为C×H×W,整体的公式如下:
(5)提取通道注意力信息,通过平均池化和最大池化保留了更加关注的通道特征。
通道注意力模块的工作过程包括以下步骤:
(1)对于RC*H*W的输入图像,首先经过ResNet50提取特征后得到RC*H*W的输入特征图,然后进入通道注意力模块,提取通道信息;
(2)通道信息提取模块主要是为了提取通道维度的上下文信息,通过对通道维度分配合适的权重,来关注有意义的特征,首先是进行一个双向池化操作,将输入的特征图R3 C*H*W分别进行最大池化和平均池化操作,AaxPool()代表最大池化操作,AvgPool()代表平均赤化操作:
F3=AaxPool(R3)
F4=AvgPool(R3)
经过池化操作后,特征图得到压缩,经过最大池化后F3的特征为同样的,经过平均池化后的特征为/>随后使用1×1卷积对特征进一步进行压缩激励:
F3=Conv(AaxPool(R3))
F4=Conv(AvgPool(R3))
其中,Conv代表1×1卷积操作,卷积操作后得到两个C×1×1的特征图;
(3)在对两个特征图进行压缩激励后,进行加和操作,加和操作后进行Sigmoid归一化操作:
F5=F3+F4
即
F5=Conv(AaxPool(R3))+Conv(AvgPool(R3)
进行Sigmoid归一化操作,其中σ代表Sigmoid函数:
F5=σ(Conv(AaxPool(R3))+Conv(AvgPool(R3))
(4)此时得到的特征图依然是C×1×1,通过升维操作,将C×1×1的权重特征与输入特征图RC*H*W进行加和操作,此时的加和操作为element-wise multiplication,最终得到输出结果RC*H*W,保证了输入输出的一致性:
(6)融合输出并可视化。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (1)
1.一种端到端的道路裂缝检测系统,其特征在于,包括空间注意力模块和通道注意力模块,检测过程包括以下步骤:
(1)视频传输;用户通过本地上传视频数据或者公网视频流输入视频数据,视频数据解码为单帧的RGB图像输入到模型中,进行下一步操作;
(2)加载双边注意力机制模型;
(3)读取图像数据帧;
(4)提取空间注意力信息;
(5)提取通道注意力信息,通过平均池化和最大池化保留了更加关注的通道特征;
(6)融合输出并可视化;
步骤(1)中,对输入视频数据进行如下操作:
(1)对拍摄的视频数据进行解析,得到每针的图像,每个图像的分辨率是2048×1024,
随后将图片转换成RC*H*W的特征图输入到模型中,C表示图像的通道数,H和W表示每张图像的宽度和高度;经过ResNet50提取特征后,输出的特征图依然是RC*H*W维度;将提取的特征图分别传入空间注意力模块和通道注意力模块,两个模块均将R3*2048*1024的特征图转化为R512*64*64维度,随后进行相关计算;计算结束后,将空间注意力模块和通道注意力模块的输出结果进行融合,得到RC*H*W的特征图,保证输入输出的一致性;
(2)对于空间注意力模块,假定输入为输出为/>fsp代表在Spatical(空间)维度,获取注意力信息,通过空间注意力机制获取上下文信息操作定义为:
(3)对于通道注意力模块,假定输入为输出为/>fch代表(通道)维度,获取注意力信息,通过通道注意力机制获取上下文信息操作定义为:
(4)对于得到的两个模块输出的特征图F1和F2,对他们进行特征融合以得到最终结果:
F=F1+F2;
空间注意力模块的工作过程包括以下步骤:
对于一个输入图像,经过Resnet50的骨干网络之后,进入空间注意力机制的特征图尺寸设为C×H×W,然后过一个1×1的卷积为了改变通道数,将通道数改变为之前的一半C/2,然后进入全局注意力模块,在全局注意力模块中的具体操作如下:
(1)WQ,WK,WV经过1×1卷积后得到不同维度的特征图,进入的特征图转换成不同的矩阵;表示位置偏移矩阵的张量,分别对应WQ,WK,WV在宽度h和高度w两个维度的位置偏移矩阵,计算WQ,WK,WV,然后两轴的位置/>直接乘以对应项然后加到WQx(WKx)T上,得到:
(2)合并了宽度轴和高度轴,将(1)得到的结果通过一个softmax,成为一个概率分布:
(3)然后乘以位置偏移和相应的对应项,最后得到输出,输出的尺寸为C×H×W,整体的公式如下:
通道注意力模块的工作过程包括以下步骤:
(1)对于RC*H*W的输入图像,首先经过ResNet50提取特征后得到RC*H*W的输入特征图,然后进入通道注意力模块,提取通道信息;
(2)通道信息提取模块主要是为了提取通道维度的上下文信息,通过对通道维度分配合适的权重,来关注有意义的特征,首先是进行一个双向池化操作,将输入的特征图R3 C*H*W分别进行最大池化和平均池化操作,AaxPool()代表最大池化操作,AvgPool()代表平均赤化操作:
F3=AaxPool(R3)
F4=AvgPool(R3)
经过池化操作后,特征图得到压缩,经过最大池化后F3的特征为同样的,经过平均池化后的特征为/>随后使用1×1卷积对特征进一步进行压缩激励:
F3=Conv(AaxPool(R3))
F4=Conv(AvgPool(R3))
其中,Conv代表1×1卷积操作,卷积操作后得到两个C×1×1的特征图;
(3)在对两个特征图进行压缩激励后,进行加和操作,加和操作后进行Sigmoid归一化操作:
F5=F3+F4
即
F5=Conv(AaxPool(R3))+Conv(AvgPool(R3)
进行Sigmoid归一化操作,其中σ代表Sigmoid函数:
F5=σ(Conv(AaxPool(R3))+Conv(AvgPool(R3))
(4)此时得到的特征图依然是C×1×1,通过升维操作,将C×1×1的权重特征与输入特征图RC*H*W进行加和操作,此时的加和操作为element-wise multiplication,最终得到输出结果RC*H*W,保证了输入输出的一致性:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110943144.0A CN113744205B (zh) | 2021-08-17 | 2021-08-17 | 一种端到端的道路裂缝检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110943144.0A CN113744205B (zh) | 2021-08-17 | 2021-08-17 | 一种端到端的道路裂缝检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113744205A CN113744205A (zh) | 2021-12-03 |
CN113744205B true CN113744205B (zh) | 2024-02-06 |
Family
ID=78731398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110943144.0A Active CN113744205B (zh) | 2021-08-17 | 2021-08-17 | 一种端到端的道路裂缝检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113744205B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116523888B (zh) * | 2023-05-08 | 2023-11-03 | 北京天鼎殊同科技有限公司 | 路面裂缝的检测方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886286A (zh) * | 2019-01-03 | 2019-06-14 | 武汉精测电子集团股份有限公司 | 基于级联检测器的目标检测方法、目标检测模型及系统 |
CN111462126A (zh) * | 2020-04-08 | 2020-07-28 | 武汉大学 | 一种基于边缘增强的语义图像分割方法及系统 |
CN112734739A (zh) * | 2021-01-18 | 2021-04-30 | 福州大学 | 一种基于注意力机制与ResNet融合的建筑裂缝可视化识别方法 |
-
2021
- 2021-08-17 CN CN202110943144.0A patent/CN113744205B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886286A (zh) * | 2019-01-03 | 2019-06-14 | 武汉精测电子集团股份有限公司 | 基于级联检测器的目标检测方法、目标检测模型及系统 |
CN111462126A (zh) * | 2020-04-08 | 2020-07-28 | 武汉大学 | 一种基于边缘增强的语义图像分割方法及系统 |
CN112734739A (zh) * | 2021-01-18 | 2021-04-30 | 福州大学 | 一种基于注意力机制与ResNet融合的建筑裂缝可视化识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113744205A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647585B (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
CN113240691B (zh) | 一种基于u型网络的医学图像分割方法 | |
CN112950606B (zh) | 一种基于小样本的手机屏幕缺陷分割方法 | |
CN110276264B (zh) | 一种基于前景分割图的人群密度估计方法 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN111046917B (zh) | 基于深度神经网络的对象性增强目标检测方法 | |
CN117593304B (zh) | 基于交叉局部全局特征的半监督工业品表面缺陷检测方法 | |
CN112818969A (zh) | 一种基于知识蒸馏的人脸姿态估计方法及系统 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN111833261A (zh) | 一种基于注意力的生成对抗网络的图像超分辨率复原方法 | |
CN112927783B (zh) | 图像检索方法及装置 | |
CN111414954A (zh) | 一种岩石图像检索方法及其系统 | |
CN111382743A (zh) | 基于数据增强和数据生成的车牌字符识别方法 | |
CN116206133A (zh) | 一种rgb-d显著性目标检测方法 | |
CN111931857A (zh) | 一种基于mscff的低照度目标检测方法 | |
CN111310767A (zh) | 一种基于边界增强的显著性检测方法 | |
CN113744205B (zh) | 一种端到端的道路裂缝检测系统 | |
CN114821350B (zh) | 多阶段信息融合的高分辨率遥感图像建筑物变化检测方法 | |
CN114299305B (zh) | 聚合密集和注意力多尺度特征的显著性目标检测算法 | |
CN110222217B (zh) | 一种基于分段加权的鞋印图像检索方法 | |
CN116805360B (zh) | 一种基于双流门控渐进优化网络的显著目标检测方法 | |
CN116704526B (zh) | 工尺谱扫描机器人及其方法 | |
CN111881756A (zh) | 一种基于卷积神经网络的废旧手机型号识别方法 | |
CN116452965A (zh) | 一种基于声光融合的水下目标检测识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |