CN115565089A - 一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法 - Google Patents
一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法 Download PDFInfo
- Publication number
- CN115565089A CN115565089A CN202211310449.9A CN202211310449A CN115565089A CN 115565089 A CN115565089 A CN 115565089A CN 202211310449 A CN202211310449 A CN 202211310449A CN 115565089 A CN115565089 A CN 115565089A
- Authority
- CN
- China
- Prior art keywords
- network
- image
- loss
- target detection
- illumination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 238000011084 recovery Methods 0.000 title claims abstract description 14
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 7
- 238000005286 illumination Methods 0.000 claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000000694 effects Effects 0.000 claims abstract description 10
- 230000002708 enhancing effect Effects 0.000 claims abstract description 6
- 230000011514 reflex Effects 0.000 claims abstract description 5
- 238000013480 data collection Methods 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 23
- 230000007246 mechanism Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000000354 decomposition reaction Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000002310 reflectometry Methods 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 5
- 238000002679 ablation Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 claims 1
- 238000005065 mining Methods 0.000 description 17
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000016273 neuron death Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/94—Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,包括以下步骤;步骤1,运用无人机或者单反摄像机对同一露天矿区、同一矿场条件下不同时段的矿区场景进行记录,分别对光照充足时段以及凌晨或黄昏时段露天矿区的场景图像进行记录,完成正常光照下的图像以及暗光图像的数据收集;步骤2,将所收集到的暗光图像经过Retinex‑Net网络进行图像去噪以及亮度增强处理;步骤3,将Retinex‑Net网络与目标检测网络yolov5进行融合,将暗光图像经过Retinex‑Net网络增强后会提升目标检测网络的目标识别效果,进而解决暗光环境下目标识别不准的问题。本发明能够提高露天矿区恶劣环境下的目标检测精准度,从而达到有效检测避障效果。
Description
技术领域
本发明涉及深度学习中基于图像恢复下的目标检测技术领域,具体涉及一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法。
背景技术
近年来,随着智慧矿山的迅速发展,矿区无人驾驶车辆已经投入使用,在环境较好,光照均匀的情况下无人驾驶车辆在作业时能够准确并实时地检测到前方车辆及行人,顺利进行下一步的避障处理;但对于矿区的非结构化场景,目标检测的精准度往往会受到多方面的影响,例如矿区天气变化以及光照强弱等等;本发明主要是针对光照方面的影响因素进行研究的。在矿区黄昏或凌晨时段光照较弱的情况下识别目标图像时很容易导致目标识别不准,检测精度大幅降低,影响避障效果并引发一系列安全事故,因此需要对低光图像增强处理,避免事故发生。
现阶段矿区目标检测的相关研究只是对露天矿区正常光照场景下的障碍物检测,达到避障效果;但在矿区光照强度较弱或光照不均匀的情况下导致的图像中目标变得模糊不清、降低图像中目标的可见性、丢失相关细节信息、影响目标检测精准度方面的研究屈指可数,所以暗光环境下的目标检测仍是目前的研究难点。
目前针对露天矿区障碍物检测主要的是基于深度学习的相关算法,其检测流程直接是对输入图像进行切片操作,目的是进行下采样进而降低特征维度保留有效信息,然后再进行一系列的特征提取操作,以及最后的分类与回归定位,达到检测障碍物的效果;但是该网络对暗光图像也是同样的检测流程,无图像增强处理,以至于无法增加矿区暗光图像的识别率以及障碍物的可视度,因此该目标检测网络对于暗光图像的识别来说存在一定的不足之处。
发明内容
为了克服上述现有技术存在的不足,本发明的目的在于提供一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,运用相关理论合理地对图像进行光照增强处理,再将处理好的图像放入目标检测网络进行目标识别,提高露天矿区恶劣环境下的目标检测精准度,从而达到有效检测避障效果。
为了实现上述目的,本发明采用的技术方案是:
一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,包括以下步骤;
步骤1,运用无人机或者单反摄像机对同一露天矿区、同一矿场条件下不同时段的矿区场景进行记录,分别对光照充足时段以及凌晨或黄昏时段等光照不足时段露天矿区的场景图像进行记录,完成正常光照下的图像以及暗光图像的数据收集;
步骤2,将所收集到的暗光图像经过Retinex-Net网络进行图像去噪以及亮度增强处理;
步骤3,将Retinex-Net网络与目标检测网络yolov5进行融合,将暗光图像经过Retinex-Net网络增强后会提升目标检测网络的目标识别效果,进而解决暗光环境下目标识别不准的问题。
所述步骤1运用无人机或者单反摄像机在同一露天矿区、同一矿场条件下不同时段的矿区场景进行记录,露天矿区的正常光照图像以及凌晨或黄昏时间段的暗光场景图像进行记录,方便后期进行消融实验。
所述步骤1对收集到的数据依据时间段将图像分为凌晨或黄昏时间段的暗光图像以及其他时段的光照充足图像,即一类是受光照影响较大的暗光图像、另一类是正常光照情况下的图像。
所述步骤2运用Retinex-Net网络对矿区凌晨或黄昏时间段收集的暗光数据集进行Denoising Operation图像去噪以及Enhance-Net亮度增强处理;该网络集成了图像分解和连续增强操作,具体包括以下四部分:
1)Decom-Net子网络部分用于图像分解,该网络将一个暗光环境下的图像分解为反射率图像和照明图像,以低光图像Slow和正常光图像Snormal作为输入,然后分别将Slow经过卷积处理分解为反射分量Rlow和光照分量Ilow,以及Snormal的反射分量Rnormal和光照分量Inormal,由于噪声在黑暗区域通常更大,甚至会被增强过程放大,所以引入了反射去噪;该分解过程由卷积、激活和归一化函数组成,将输入的RGB图像映射为反射分量和光照分量,并使R和I都约束在[0,1]范围内;
2)Enhance-Net部分用于实现图像的光照调整,以保证大区域的一致性,同时通过多尺度连接来调整局部分布;
3)Adjustment调整包括Denoising Operation去噪操作和Enhance-Net亮度增强网络两部分;该网络运用编码-解码结构获取上下文信息,输入的图像被连续下采样到小尺度,该尺度有一个大尺度光照分布的透视图,给网络带来了自适应的调整能力;
4)Loss损失也包含三部分,分别为结构感知平滑度损失、反射不变损失和重构损失。
所述Retinex-Net网络总损失为结构感知平滑度损失、反射不变损失和重构损失之和,具体损失公式如下:
结构感知平滑度损失Structure-Aware Smoothness Loss:
反射不变损失Invariable Reflectance Loss:
重构损失Reconstruction Loss:
总损失为:
放宽了反射率梯度较陡处的平滑束,即图像结构较复杂的位置和光照应该不连续的位置;表示该网络中的结构感知平滑度损失,也就是光照分量平滑损失;表示反射不变损失;表示该网络的重构损失,即用于求解重构部分的损失值;λis表示结构感知平滑度损失的平衡系数;λir表示反射不变损失的平衡系数;
所述目标检测网络yolov5通过网络MobileNetV3进行特征提取,网络MobileNetV3为深度可分离卷积块(DSC),该卷积块分为DW(深度卷积)和PW(通道卷积);还有轻量级的注意力模型去调整每个通道的权重,利用了h-swish激活函数去减少运算量提高网络性能。理论上普通的卷积计算量是DW+PW的8到9倍,具体如下所示:
其中Dk代表卷积核的大小;M代表输入特征矩阵的channel;N代表输出特征矩阵的channel;DF代表的是输入特征矩阵的高和宽;
所述特征提取部分添加注意力机制,用于加强图像的特征提取,从众多信息中选出对当前检测的目标物体更重要的信息;
所述注意力机制的具体计算过程包括两部分,第一个过程是根据Query和Key计算权重系数,第二个过程根据权重系数对Value进行加权求和;
即注意力机制的具体计算过程如下:
第一阶段:引入不同的函数和计算机制,根据Query和某个Key_i,计算两者的相似性或者相关性,求两者的向量点积、求两者的向量Cosine相似性或者通过引入额外的神经网络来求值,即如下方式:
点积:Similarity(Query,Keyi)=Query*Keyi;
MLP网络::Similarity(Query,Keyi)=MLP(Query,Keyi);
第二阶段:引入类似SoftMax(归一化指数函数)的计算方式,对第一阶段的得分进行数值转换,一方面进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面通过SoftMax的内在机制更加突出重要元素的权重,采用如下公式计算:
第三阶段:利用第二阶段的计算结果,即value_i对应的权重系数进行加权求和即可得到Attention数值:
其中Query表示给定目标中的某个元素;Key表示的是该元素的地址信息,Value指的是该元素的具体数值;Similarity表示相似性;Cosine相似性表示余弦相似度,取值范围为[-1,1];MLP表示一种前向结构的人工神经网络;ai表示第i个元素的权重值;Simi表示第i个元素的Cosine相似性;Simj表示第j个元素的Cosine相似性;Lx表示所给目标集中元素的总个数;Source表示所有的Key和Value的集合。
所述Retinex-Net网络与目标检测网络yolov5进行融合得具体操作为:
将Retinex-Net的输出与yolov5网络的输入相连接,将Retinex-Net的输出脚本与yolov5输入脚本命名相同,接着实现目标检测骨干网络MobileNet V3以及PANet的特征提取,实现露天矿区暗环境下的图像恢复与目标检测技术的融合,实现露天矿区暗光环境下准确高效的目标检测,为下一步的避障处理提供保障。
本发明的有益效果:
本发明针对矿区暗光环境下的研究,首先对矿区暗光环境下的图片进行收集,再用一种有效的微光图像增强网络Retinex-Net对所收集的图像正常化处理,选用Retine-Net网络对矿区暗光图像进行增强处理,加强后续目标检测的识别率;该发明的目标检测方法运用的是yolov5网络,该网络与传统的目标检测方法来说,无论是在检测速度还是精确度方面都有非常大的提升;因此本发明针对露天矿区在受外界环境影响而导致的目标检测不精准的问题提出了很好的解决策略,即图像恢复网络与目标检测网络进行融合,进而实现暗光环境下的目标检测。
所述步骤2中,该增强网络采用的是编码器-解码器架构的整体框架,从分层的角度调整光照,并引入了多尺度连接,将暗光图像恢复为正常亮度的图像,从而方便网络的检测;目标检测网络为yolov5网络将没有经过Retinex-Net网络处理的暗光图像与经过Retinex-Net网络处理的暗光图像分别输入到yolov5检测网络中,进一步验证图像处理的必要性,即没有经过Retinex-Net网络处理的图像识别精准度不如经过Retinex-Net网络增强后的图像识别精度高;
所述步骤3中将Retinex-Net网络的输出结果作为yolov5网络结构的Input输入,接着对输入的图像进行相关处理,实现两个网络的融合,达到增强目标检测的效果。
附图说明
图1为本发明对暗光图像的分解处理流程示意图。
图2为本发明对暗光图像的调整处理流程示意图。
图3为本发明关于无人驾驶车辆目标检测的骨干网络参数变化示意图。
图4为特征注意力结构示意图。
图5为本发明流程示意图。
具体实施方式
下面结合实施例对本发明作进一步详细说明。
如图1-图5所示:
1、收集数据集:
运用无人机或者单反摄像机对同一露天矿区、同一矿场条件下不同时段的矿区场景进行记录,尤其是对矿区凌晨或黄昏时段光照强度较弱时的图像进行收集,与正常光照的图像做对比以及方便后期的消融实验;
2、数据集二分类及处理:
依据时间段将图像分为凌晨或黄昏时间段的暗光图像以及其他时段的光照充足图像,即一类是受光照影响较大的暗光图像、另一类是正常光照情况下的图像;
将凌晨或黄昏时段的暗光图像与正常光照图像分别输入至图像处理网络Retinex-Net中进行增强处理;
3、暗光环境下的图像恢复:
如步骤2所述,将收集的暗光图像放入到Retinex-Net网络中进行图像恢复,该网络的具体处理流程如下:
整个图像增强网络处理过程分为三个环节;先通过Decom-Net分解网络将所收集的图像分解为反射分量以及光照分量;接下来在分解的基础上进行参数调整,分别用去噪操作Denoising Operation和增强网络Enhance-Net对分解出的光照图像部分进行后续亮度增强,再利用带反向传播的随机梯度下降(SGD)端到端地对网络进行微调;在最后一部分结构重建reconstruction中,根据图像恢复公式S(x,y)=R(x,y)*I(x,y)对图像进行重组恢复。
具体步骤如下:
1)网络分解部分Decom-Net,具体操作是将所收集的正常光照图像与暗光图像分别输入Retinex-Net网络的分解模型中,该分解模型由五个带ReLU的卷积层构成,两类图像分别共享网络中的参数,即得到低光照图像的反射分量Rlow和光照分量Ilow和正常光照图像的反射分量Rnormal和光照分量Inormal,具体见图1所示;
对该网络进行改进,即将网络分解部分每一个卷积层后的激活函数ReLU换为Leaky ReLU激活函数,主要是为了改善ReLU激活函数导致的神经元死亡问题,当在负区域里具有较小的正斜率,即使是输入负值,Leaky ReLU也可以进行反向传播,避免单纯的线性组合,并在最后一层卷积结束后进行sigmoid归一化处理;
2)网络调整部分Adjustment,主要包括去噪操作Denoising Operation和亮度增强Enhance-Net部分;处理对象分别为低光照图像的反射分量Rlow以及光照分量Ilow;在反射分量Rlow上进行BM3D(三维块匹配算法)去噪操作,与LIME(局部可解释性模型算法)和JED(联合增强去噪)相比去噪效果明显增强,在光照分量Ilow上使用了多尺度的光照调整网络Enhance-Net,该网络整体上是一个encoder-decoder架构,同时引入了多尺度,目的是为了分层调整光照,保证全局光照的一致性,同时定制多样化的局部光照分布,引入多尺度连接进行调整,比如有M个逐步上采样的块,每个块都提取一个C通道特征图,通过最近邻插值将这些特征在不同尺度上调整到最终尺度,并将它们连接到C×M通道特征图。然后,通过一个1×1的卷积层,将连接的特征减少至C个通道,再接一个3×3的卷积层来重建光照图重建的目的是将调整后的低光照图像的反射分量Rlow以及光照分量Ilow相乘得到相应的正常光照图像;
上述操作能使网络能够捕获大范围内关于光照分布的上下文信息,有利于提高其自适应调整的能力;
3)Retinex-Net网络的Loss部分,主要分为三个部分,即结构感知平滑度损失(光照分量平滑损失)Structure-Aware Smoothness Loss、反射不变损失(反射分量一致性损失)Invariable Reflectance Loss、重构损失Reconstruction Loss,因此Retinex-Net网络总损失为这三部分损失之和,具体损失公式如下:
结构感知平滑度损失Structure-Aware Smoothness Loss:
反射不变损失Invariable Reflectance Loss:
重构损失Reconstruction Loss:
总损失为:
放宽了反射率梯度较陡处的平滑束,即图像结构较复杂的位置和光照应该不连续的位置;表示该网络中的结构感知平滑度损失,也就是光照分量平滑损失;表示反射不变损失;表示该网络的重构损失,即用于求解重构部分的损失值;λis表示结构感知平滑度损失的平衡系数;λir表示反射不变损失的平衡系数;
4、目标检测网络的改进;
本发明所使用的目标检测算法是yolov5网络,由于该算法的骨干特征提取网络CSPDarknet的参数量以及网络计算量较大,因此为了减少模型参数量让整个网络变得更加轻量化并能高效准确地检测出有效信息,本发明则对该目标检测算法进行改进优化,主要改进点如下:
1)本发明将该检测网络原始的骨干特征提取网络CSPDarknet改进为网络MobileNetV3进行特征提取。MobileNet模型是Google针对手机等嵌入式设备提出的一种轻量化级的深层神经网络,MobileNetV3是MobileNetV2、V1的升级版,因此本发明用MobileNetV3网络去替代原来的特征提取网络CSPDarknet,该轻量级神经网络的就是深度可分离卷积块(DSC),该卷积块分为DW(深度卷积)和PW(通道卷积);还有轻量级的注意力模型去调整每个通道的权重,利用了h-swish激活函数去减少运算量提高网络性能。理论上普通的卷积计算量是DW+PW的8到9倍,具体推理如下所示:
其中Dk代表卷积核的大小;M代表输入特征矩阵的channel;N代表输出特征矩阵的channel;DF代表的是输入特征矩阵的高和宽;
MobileNet V3网络的参数变化情况如表所示:
Input | Operator | exp size | #out | SE | NL | s |
224<sup>2</sup>*3 | Conv2d | - | 16 | - | HS | 2 |
112<sup>2</sup>*16 | bneck,3*3 | 16 | 16 | - | RE | 1 |
112<sup>2</sup>*16 | bneck,3*3 | 64 | 24 | - | RE | 2 |
56<sup>2</sup>*24 | bneck,3*3 | 72 | 24 | - | RE | 1 |
56<sup>2</sup>*24 | bneck,5*5 | 72 | 40 | √ | RE | 2 |
28<sup>2</sup>*40 | bneck,5*5 | 120 | 40 | √ | RE | 1 |
28<sup>2</sup>*40 | bneck,5*5 | 120 | 40 | √ | RE | 1 |
28<sup>2</sup>*40 | bneck,3*3 | 240 | 80 | - | HS | 2 |
14<sup>2</sup>*80 | bneck,3*3 | 200 | 80 | - | HS | 1 |
14<sup>2</sup>*80 | bneck,3*3 | 184 | 80 | - | HS | 1 |
14<sup>2</sup>*80 | bneck,3*3 | 184 | 80 | - | HS | 1 |
14<sup>2</sup>*80 | bneck,3*3 | 480 | 112 | √ | HS | 1 |
14<sup>2</sup>*112 | bneck,3*3 | 672 | 112 | √ | HS | 1 |
14<sup>2</sup>*112 | bneck,5*5 | 672 | 160 | √ | HS | 2 |
7<sup>2</sup>*160 | bneck,5*5 | 960 | 160 | √ | HS | 1 |
7<sup>2</sup>*160 | bneck,5*5 | 960 | 160 | √ | HS | 1 |
7<sup>2</sup>*160 | Conv2d,1*1 | - | 960 | - | HS | 1 |
7<sup>2</sup>*960 | Pool,7*7 | - | - | - | - | 1 |
1<sup>2</sup>*960 | Conv2d 1*1,NBN | - | 1280 | - | HS | 1 |
1<sup>2</sup>*1280 | Conv2d 1*1,NBN | - | k | - | - | 1 |
将骨干特征提取网络更换为MobileNet V3之后,将骨干网络输出的52*52*40、26*26*80、13*13*160三个有效特征层提取出来,作为neck层PANet网络的构建;
2)在yolov5网络中添加注意力机制,该注意力机制的本质就是定位到感兴趣的区域,提取到更精准的特征,抑制无用信息,提升后期预测效果;由于目标检测网络中neck层的作用是对骨干网络提取出的特征进行融合进一步加强特征提取的,最后的head模块(检测头)是对骨干网络提取到的特征进行分类预测与回归预测的;
因此为了加强图像的特征提取,将注意力机制添加在网络的特征提取部分,目的是为了从众多信息中选出对当前检测的目标物体更重要的信息;
关于注意力机制的具体计算过程,可以将其归纳为以下两个过程:第一个过程是根据Query和Key计算权重系数,第二个过程根据权重系数对Value进行加权求和;即注意力机制的具体计算过程如下:
第一阶段:可以引入不同的函数和计算机制,根据Query和某个Key_i,计算两者的相似性或者相关性,最常见的方法包括:求两者的向量点积、求两者的向量Cosine相似性或者通过引入额外的神经网络来求值,即如下方式:
点积:Similarity(Query,Keyi)=Query*Keyi
MLP网络::Similarity(Query,Keyi)=MLP(Query,Keyi)
第二阶段:引入类似SoftMax(归一化指数函数)的计算方式,对第一阶段的得分进行数值转换,一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面也可以通过SoftMax的内在机制更加突出重要元素的权重。即一般采用如下公式计算:
第三阶段:就是利用第二阶段的计算结果,即value_i对应的权重系数进行加权求和即可得到Attention数值:
其中Query表示给定目标中的某个元素;Key表示的是该元素的地址信息,Value指的是该元素的具体数值;Similarity表示相似性;Cosine相似性表示余弦相似度,取值范围为[-1,1];MLP表示一种前向结构的人工神经网络;ai表示第i个元素的权重值;Simi表示第i个元素的Cosine相似性;Simj表示第j个元素的Cosine相似性;Lx表示所给目标集中元素的总个数;Source表示所有的Key和Value的集合;
5、将步骤4所改进的部分添加到原有网络中;
将MobileNetV3和注意力机制添加至yolov5网络中,具体步骤如下:
1)将步骤4中的MobileNetV3网络里的Bneck结构所输出的有效特征层经过卷积与上下采样等处理,使最终输出的有效特征层和原检测网络yolov5的骨干网络输出有效特征层的长、宽以及通道数相同,便于neck部分加强特征提取网络PANet的构建;
2)关于注意力机制的添加,由于空间注意力只会将每个通道中的特征都做同等处理,而通道注意力则是将一个通道内的信息直接进行了全局处理;如果单纯使用空间注意力会忽略了通道间的信息交互,同理,如果单纯使用通道注意力容易忽略空间内的信息交互,导致目标区域每个通道间缺少交互;因此运用混合注意力机制CBAM,CBAM结合了通道域、空间域等注意力的形式来形成一种更加综合的特征注意力方法,具体结构如图4所示:
该结构使在原有通道注意力机制的基础上,衔接了一个空间注意力模块(SpatialAttention Modul,SAM),SAM是基于通道进行全局平均池化以及最大池化操作而产生两个代表不同信息的特征图;两个模块合并后再通过一个感受野较大的7×7卷积进行特征融合,最后再用Sigmoid归一化操作来生成权重图,叠加回起始的输入特征图,从而使得目标区域特征得以增强。
6、消融实验;
1)将凌晨或黄昏时段的暗光图像以及正常时段的光照充足图像分别经过Retinex-Net网络的处理,接着将处理后的图像输入目标检测yolov5网络中,根据检测结果验证图像增强对暗光图像目标检测的重要性;
2)将光照充足的图像输入改进后的目标检测网络yolov5中,该实验目的是为了验证yolov5网络,以确保改进后的网络在目标检测中不仅减少计算量,同时检测效率也有所提升;
7、图像增强网络与改进目标检测网络的融合;
在验证结束之后,将Retinex-Net网络与改进的目标检测网络yolov5进行融合,Retinex-Net网络与yolov5网络都是运用Python编写的,因此直接将Retinex-Net的输出与新的yolov5网络的输入相连接,将Retinex-Net的输出脚本与yolov5输入脚本命名相同,接着实现目标检测骨干网络MobileNet V3以及PANet的特征提取,即可实现露天矿区暗环境下的图像恢复与目标检测技术的融合,实现露天矿区暗光环境下准确高效的目标检测,为下一步的避障处理提供保障。
Claims (8)
1.一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,包括以下步骤;
步骤1,运用无人机或者单反摄像机对同一露天矿区、同一矿场条件下不同时段的矿区场景进行记录,分别对光照充足时段以及凌晨或黄昏时段露天矿区的场景图像进行记录,完成正常光照下的图像以及暗光图像的数据收集;
步骤2,将所收集到的暗光图像经过Retinex-Net网络进行图像去噪以及亮度增强处理;
步骤3,将Retinex-Net网络与目标检测网络yolov5进行融合,将暗光图像经过Retinex-Net网络增强后会提升目标检测网络的目标识别效果,进而解决暗光环境下目标识别不准的问题。
2.根据权利要求1所述的一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,所述步骤1运用无人机或者单反摄像机在同一露天矿区、同一矿场条件下不同时段的矿区场景进行记录,露天矿区的正常光照图像以及凌晨或黄昏时间段的暗光场景图像进行记录,方便后期进行消融实验。
3.根据权利要求1所述的一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,所述步骤1对收集到的数据依据时间段将图像分为凌晨或黄昏时间段的暗光图像以及其他时段的光照充足图像,即一类是受光照影响较大的暗光图像、另一类是正常光照情况下的图像。
4.根据权利要求1所述的一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,所述步骤2运用Retinex-Net网络对矿区凌晨或黄昏时间段收集的暗光数据集进行Denoising Operation图像去噪以及Enhance-Net亮度增强处理;该网络集成了图像分解和连续增强操作,具体包括以下四部分:
1)Decom-Net子网络部分用于图像分解,该网络将一个暗光环境下的图像分解为反射率图像和照明图像,以低光图像Slow和正常光图像Snormal作为输入,然后分别将Slow经过卷积处理分解为反射分量Rlow和光照分量Ilow,以及Snormal的反射分量Rnormal和光照分量Inormal,由于噪声在黑暗区域通常更大,甚至会被增强过程放大,所以引入了反射去噪;该分解过程由卷积、激活和归一化函数组成,将输入的RGB图像映射为反射分量和光照分量,并使R和I都约束在[0,1]范围内;
2)Enhance-Net部分用于实现图像的光照调整,以保证大区域的一致性,同时通过多尺度连接来调整局部分布;
3)Adjustment调整包括Denoising Operation去噪操作和Enhance-Net亮度增强网络两部分;该网络运用编码-解码结构获取上下文信息,输入的图像被连续下采样到小尺度,该尺度有一个大尺度光照分布的透视图,给网络带来了自适应的调整能力;
4)Loss损失也包含三部分,分别为结构感知平滑度损失、反射不变损失和重构损失。
5.根据权利要求4所述的一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,所述Retinex-Net网络总损失为结构感知平滑度损失、反射不变损失和重构损失之和,具体损失公式如下:
结构感知平滑度损失Structure-Aware Smoothness Loss:
反射不变损失Invariable Reflectance Loss:
重构损失Reconstruction Loss:
总损失为:
放宽了反射率梯度较陡处的平滑束,即图像结构较复杂的位置和光照应该不连续的位置;表示该网络中的结构感知平滑度损失,也就是光照分量平滑损失;表示反射不变损失;表示该网络的重构损失,即用于求解重构部分的损失值;λis表示结构感知平滑度损失的平衡系数;λir表示反射不变损失的平衡系数;
7.根据权利要求6所述的一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,所述特征提取部分添加注意力机制,用于加强图像的特征提取,从众多信息中选出对当前检测的目标物体更重要的信息;
所述注意力机制的具体计算过程包括两部分,第一个过程是根据Query和Key计算权重系数,第二个过程根据权重系数对Value进行加权求和;
即注意力机制的具体计算过程如下:
第一阶段:引入不同的函数和计算机制,根据Query和某个Key_i,计算两者的相似性或者相关性,求两者的向量点积、求两者的向量Cosine相似性或者通过引入额外的神经网络来求值,即如下方式:
点积:Similarity(Query,Keyi)=Query*Keyi;
MLP网络::Similarity(Query,Keyi)=MLP(Query,Keyi);
第二阶段:引入类似SoftMax(归一化指数函数)的计算方式,对第一阶段的得分进行数值转换,一方面进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面通过SoftMax的内在机制更加突出重要元素的权重,采用如下公式计算:
第三阶段:利用第二阶段的计算结果,即value_i对应的权重系数进行加权求和即可得到Attention数值:
其中Query表示给定目标中的某个元素;Key表示的是该元素的地址信息,Value指的是该元素的具体数值;Similarity表示相似性;Cosine相似性表示余弦相似度,取值范围为[-1,1];MLP表示一种前向结构的人工神经网络;ai表示第i个元素的权重值;Simi表示第i个元素的Cosine相似性;Simj表示第j个元素的Cosine相似性;Lx表示所给目标集中元素的总个数;Source表示所有的Key和Value的集合。
8.根据权利要求1所述的一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,所述Retinex-Net网络与目标检测网络yolov5进行融合得具体操作为:
将Retinex-Net的输出与yolov5网络的输入相连接,将Retinex-Net的输出脚本与yolov5输入脚本命名相同,接着实现目标检测骨干网络MobileNet V3以及PANet的特征提取,实现露天矿区暗环境下的图像恢复与目标检测技术的融合,实现露天矿区暗光环境下准确高效的目标检测,为下一步的避障处理提供保障。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211310449.9A CN115565089A (zh) | 2022-10-25 | 2022-10-25 | 一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211310449.9A CN115565089A (zh) | 2022-10-25 | 2022-10-25 | 一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115565089A true CN115565089A (zh) | 2023-01-03 |
Family
ID=84747119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211310449.9A Pending CN115565089A (zh) | 2022-10-25 | 2022-10-25 | 一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115565089A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116797490A (zh) * | 2023-07-12 | 2023-09-22 | 青岛理工大学 | 一种轻量级浑浊水体图像增强方法 |
CN116957988A (zh) * | 2023-08-28 | 2023-10-27 | 南京航空航天大学 | 一种目标检测驱动的潜望镜图像复原表征学习方法 |
US11881020B1 (en) * | 2022-11-24 | 2024-01-23 | Nanjing University Of Posts And Telecommunications | Method for small object detection in drone scene based on deep learning |
CN117893880A (zh) * | 2024-01-25 | 2024-04-16 | 西南科技大学 | 一种低光照图像自适应特征学习的目标检测方法 |
-
2022
- 2022-10-25 CN CN202211310449.9A patent/CN115565089A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11881020B1 (en) * | 2022-11-24 | 2024-01-23 | Nanjing University Of Posts And Telecommunications | Method for small object detection in drone scene based on deep learning |
CN116797490A (zh) * | 2023-07-12 | 2023-09-22 | 青岛理工大学 | 一种轻量级浑浊水体图像增强方法 |
CN116797490B (zh) * | 2023-07-12 | 2024-02-09 | 青岛理工大学 | 一种轻量级浑浊水体图像增强方法 |
CN116957988A (zh) * | 2023-08-28 | 2023-10-27 | 南京航空航天大学 | 一种目标检测驱动的潜望镜图像复原表征学习方法 |
CN116957988B (zh) * | 2023-08-28 | 2024-03-08 | 南京航空航天大学 | 一种目标检测驱动的潜望镜图像复原表征学习方法 |
CN117893880A (zh) * | 2024-01-25 | 2024-04-16 | 西南科技大学 | 一种低光照图像自适应特征学习的目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115565089A (zh) | 一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN108509978B (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
CN111882002B (zh) | 一种基于msf-am的低照度目标检测方法 | |
CN113554125B (zh) | 结合全局与局部特征的目标检测装置、方法和存储介质 | |
CN111310861A (zh) | 一种基于深度神经网络的车牌识别和定位方法 | |
CN113628249B (zh) | 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法 | |
CN110796009A (zh) | 基于多尺度卷积神经网络模型的海上船只检测方法及系统 | |
CN108256426A (zh) | 一种基于卷积神经网络的人脸表情识别方法 | |
CN111310773A (zh) | 一种高效的卷积神经网络的车牌定位方法 | |
CN111640136B (zh) | 一种复杂环境中的深度目标跟踪方法 | |
CN111652081B (zh) | 一种基于光流特征融合的视频语义分割方法 | |
CN110097028B (zh) | 基于三维金字塔图像生成网络的人群异常事件检测方法 | |
CN111723829B (zh) | 一种基于注意力掩模融合的全卷积目标检测方法 | |
CN114863097A (zh) | 一种基于注意力机制卷积神经网络的红外弱小目标检测方法 | |
CN113627228A (zh) | 一种基于关键点回归与多尺度特征融合的车道线检测方法 | |
CN115984323A (zh) | 基于空频域均衡的双级融合rgbt跟踪算法 | |
CN113869412B (zh) | 一种联合轻量级注意力机制和YOLOv3网络的图像目标检测方法 | |
CN113609904B (zh) | 一种基于动态全局信息建模和孪生网络的单目标跟踪算法 | |
CN114743126A (zh) | 一种基于图注意力机制网络的车道线标志分割方法 | |
CN110544216A (zh) | 基于深度学习的视频去雾系统 | |
CN117765404A (zh) | 一种基于特征相关性神经网络的复杂场景变化检测方法 | |
CN116935249A (zh) | 一种无人机场景下三维特征增强的小目标检测方法 | |
CN116895007A (zh) | 一种基于改进YOLOv8n的小目标检测方法 | |
CN116563343A (zh) | 一种基于孪生网络结构和锚框自适应思想的rgbt目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |