CN115565089A - 一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法 - Google Patents

一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法 Download PDF

Info

Publication number
CN115565089A
CN115565089A CN202211310449.9A CN202211310449A CN115565089A CN 115565089 A CN115565089 A CN 115565089A CN 202211310449 A CN202211310449 A CN 202211310449A CN 115565089 A CN115565089 A CN 115565089A
Authority
CN
China
Prior art keywords
network
image
loss
target detection
illumination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211310449.9A
Other languages
English (en)
Inventor
顾清华
苏存玲
江松
阮顺领
王倩
李学现
陈露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Architecture and Technology
Original Assignee
Xian University of Architecture and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Architecture and Technology filed Critical Xian University of Architecture and Technology
Priority to CN202211310449.9A priority Critical patent/CN115565089A/zh
Publication of CN115565089A publication Critical patent/CN115565089A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/94Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,包括以下步骤;步骤1,运用无人机或者单反摄像机对同一露天矿区、同一矿场条件下不同时段的矿区场景进行记录,分别对光照充足时段以及凌晨或黄昏时段露天矿区的场景图像进行记录,完成正常光照下的图像以及暗光图像的数据收集;步骤2,将所收集到的暗光图像经过Retinex‑Net网络进行图像去噪以及亮度增强处理;步骤3,将Retinex‑Net网络与目标检测网络yolov5进行融合,将暗光图像经过Retinex‑Net网络增强后会提升目标检测网络的目标识别效果,进而解决暗光环境下目标识别不准的问题。本发明能够提高露天矿区恶劣环境下的目标检测精准度,从而达到有效检测避障效果。

Description

一种基于露天矿区暗光环境下的图像恢复与目标检测融合 方法
技术领域
本发明涉及深度学习中基于图像恢复下的目标检测技术领域,具体涉及一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法。
背景技术
近年来,随着智慧矿山的迅速发展,矿区无人驾驶车辆已经投入使用,在环境较好,光照均匀的情况下无人驾驶车辆在作业时能够准确并实时地检测到前方车辆及行人,顺利进行下一步的避障处理;但对于矿区的非结构化场景,目标检测的精准度往往会受到多方面的影响,例如矿区天气变化以及光照强弱等等;本发明主要是针对光照方面的影响因素进行研究的。在矿区黄昏或凌晨时段光照较弱的情况下识别目标图像时很容易导致目标识别不准,检测精度大幅降低,影响避障效果并引发一系列安全事故,因此需要对低光图像增强处理,避免事故发生。
现阶段矿区目标检测的相关研究只是对露天矿区正常光照场景下的障碍物检测,达到避障效果;但在矿区光照强度较弱或光照不均匀的情况下导致的图像中目标变得模糊不清、降低图像中目标的可见性、丢失相关细节信息、影响目标检测精准度方面的研究屈指可数,所以暗光环境下的目标检测仍是目前的研究难点。
目前针对露天矿区障碍物检测主要的是基于深度学习的相关算法,其检测流程直接是对输入图像进行切片操作,目的是进行下采样进而降低特征维度保留有效信息,然后再进行一系列的特征提取操作,以及最后的分类与回归定位,达到检测障碍物的效果;但是该网络对暗光图像也是同样的检测流程,无图像增强处理,以至于无法增加矿区暗光图像的识别率以及障碍物的可视度,因此该目标检测网络对于暗光图像的识别来说存在一定的不足之处。
发明内容
为了克服上述现有技术存在的不足,本发明的目的在于提供一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,运用相关理论合理地对图像进行光照增强处理,再将处理好的图像放入目标检测网络进行目标识别,提高露天矿区恶劣环境下的目标检测精准度,从而达到有效检测避障效果。
为了实现上述目的,本发明采用的技术方案是:
一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,包括以下步骤;
步骤1,运用无人机或者单反摄像机对同一露天矿区、同一矿场条件下不同时段的矿区场景进行记录,分别对光照充足时段以及凌晨或黄昏时段等光照不足时段露天矿区的场景图像进行记录,完成正常光照下的图像以及暗光图像的数据收集;
步骤2,将所收集到的暗光图像经过Retinex-Net网络进行图像去噪以及亮度增强处理;
步骤3,将Retinex-Net网络与目标检测网络yolov5进行融合,将暗光图像经过Retinex-Net网络增强后会提升目标检测网络的目标识别效果,进而解决暗光环境下目标识别不准的问题。
所述步骤1运用无人机或者单反摄像机在同一露天矿区、同一矿场条件下不同时段的矿区场景进行记录,露天矿区的正常光照图像以及凌晨或黄昏时间段的暗光场景图像进行记录,方便后期进行消融实验。
所述步骤1对收集到的数据依据时间段将图像分为凌晨或黄昏时间段的暗光图像以及其他时段的光照充足图像,即一类是受光照影响较大的暗光图像、另一类是正常光照情况下的图像。
所述步骤2运用Retinex-Net网络对矿区凌晨或黄昏时间段收集的暗光数据集进行Denoising Operation图像去噪以及Enhance-Net亮度增强处理;该网络集成了图像分解和连续增强操作,具体包括以下四部分:
1)Decom-Net子网络部分用于图像分解,该网络将一个暗光环境下的图像分解为反射率图像和照明图像,以低光图像Slow和正常光图像Snormal作为输入,然后分别将Slow经过卷积处理分解为反射分量Rlow和光照分量Ilow,以及Snormal的反射分量Rnormal和光照分量Inormal,由于噪声在黑暗区域通常更大,甚至会被增强过程放大,所以引入了反射去噪;该分解过程由卷积、激活和归一化函数组成,将输入的RGB图像映射为反射分量和光照分量,并使R和I都约束在[0,1]范围内;
2)Enhance-Net部分用于实现图像的光照调整,以保证大区域的一致性,同时通过多尺度连接来调整局部分布;
3)Adjustment调整包括Denoising Operation去噪操作和Enhance-Net亮度增强网络两部分;该网络运用编码-解码结构获取上下文信息,输入的图像被连续下采样到小尺度,该尺度有一个大尺度光照分布的透视图,给网络带来了自适应的调整能力;
4)Loss损失也包含三部分,分别为结构感知平滑度损失、反射不变损失和重构损失。
所述Retinex-Net网络总损失为结构感知平滑度损失、反射不变损失和重构损失之和,具体损失公式如下:
结构感知平滑度损失Structure-Aware Smoothness Loss:
Figure BDA0003907856070000041
反射不变损失Invariable Reflectance Loss:
Figure BDA0003907856070000042
重构损失Reconstruction Loss:
Figure BDA0003907856070000043
总损失为:
Figure BDA0003907856070000044
Figure BDA0003907856070000045
表示梯度,
Figure BDA0003907856070000046
(水平),
Figure BDA0003907856070000047
(竖直),λg代表结构意识强度的平衡系数;
Figure BDA0003907856070000048
放宽了反射率梯度较陡处的平滑束,即图像结构较复杂的位置和光照应该不连续的位置;
Figure BDA0003907856070000051
表示该网络中的结构感知平滑度损失,也就是光照分量平滑损失;
Figure BDA0003907856070000052
表示反射不变损失;
Figure BDA0003907856070000053
表示该网络的重构损失,即用于求解重构部分的损失值;λis表示结构感知平滑度损失的平衡系数;λir表示反射不变损失的平衡系数;
Figure BDA0003907856070000054
放宽了反射率梯度较陡处的平滑束,即图像结构较复杂的位置和光照应该不连续的位置。
所述目标检测网络yolov5通过网络MobileNetV3进行特征提取,网络MobileNetV3为深度可分离卷积块(DSC),该卷积块分为DW(深度卷积)和PW(通道卷积);还有轻量级的注意力模型去调整每个通道的权重,利用了h-swish激活函数去减少运算量提高网络性能。理论上普通的卷积计算量是DW+PW的8到9倍,具体如下所示:
Figure BDA0003907856070000055
其中Dk代表卷积核的大小;M代表输入特征矩阵的channel;N代表输出特征矩阵的channel;DF代表的是输入特征矩阵的高和宽;
所述特征提取部分添加注意力机制,用于加强图像的特征提取,从众多信息中选出对当前检测的目标物体更重要的信息;
所述注意力机制的具体计算过程包括两部分,第一个过程是根据Query和Key计算权重系数,第二个过程根据权重系数对Value进行加权求和;
即注意力机制的具体计算过程如下:
第一阶段:引入不同的函数和计算机制,根据Query和某个Key_i,计算两者的相似性或者相关性,求两者的向量点积、求两者的向量Cosine相似性或者通过引入额外的神经网络来求值,即如下方式:
点积:Similarity(Query,Keyi)=Query*Keyi
Cosine相似性:
Figure BDA0003907856070000061
MLP网络::Similarity(Query,Keyi)=MLP(Query,Keyi);
第二阶段:引入类似SoftMax(归一化指数函数)的计算方式,对第一阶段的得分进行数值转换,一方面进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面通过SoftMax的内在机制更加突出重要元素的权重,采用如下公式计算:
Figure BDA0003907856070000062
第三阶段:利用第二阶段的计算结果,即value_i对应的权重系数进行加权求和即可得到Attention数值:
Figure BDA0003907856070000063
其中Query表示给定目标中的某个元素;Key表示的是该元素的地址信息,Value指的是该元素的具体数值;Similarity表示相似性;Cosine相似性表示余弦相似度,取值范围为[-1,1];MLP表示一种前向结构的人工神经网络;ai表示第i个元素的权重值;Simi表示第i个元素的Cosine相似性;Simj表示第j个元素的Cosine相似性;Lx表示所给目标集中元素的总个数;Source表示所有的Key和Value的集合。
所述Retinex-Net网络与目标检测网络yolov5进行融合得具体操作为:
将Retinex-Net的输出与yolov5网络的输入相连接,将Retinex-Net的输出脚本与yolov5输入脚本命名相同,接着实现目标检测骨干网络MobileNet V3以及PANet的特征提取,实现露天矿区暗环境下的图像恢复与目标检测技术的融合,实现露天矿区暗光环境下准确高效的目标检测,为下一步的避障处理提供保障。
本发明的有益效果:
本发明针对矿区暗光环境下的研究,首先对矿区暗光环境下的图片进行收集,再用一种有效的微光图像增强网络Retinex-Net对所收集的图像正常化处理,选用Retine-Net网络对矿区暗光图像进行增强处理,加强后续目标检测的识别率;该发明的目标检测方法运用的是yolov5网络,该网络与传统的目标检测方法来说,无论是在检测速度还是精确度方面都有非常大的提升;因此本发明针对露天矿区在受外界环境影响而导致的目标检测不精准的问题提出了很好的解决策略,即图像恢复网络与目标检测网络进行融合,进而实现暗光环境下的目标检测。
所述步骤2中,该增强网络采用的是编码器-解码器架构的整体框架,从分层的角度调整光照,并引入了多尺度连接,将暗光图像恢复为正常亮度的图像,从而方便网络的检测;目标检测网络为yolov5网络将没有经过Retinex-Net网络处理的暗光图像与经过Retinex-Net网络处理的暗光图像分别输入到yolov5检测网络中,进一步验证图像处理的必要性,即没有经过Retinex-Net网络处理的图像识别精准度不如经过Retinex-Net网络增强后的图像识别精度高;
所述步骤3中将Retinex-Net网络的输出结果作为yolov5网络结构的Input输入,接着对输入的图像进行相关处理,实现两个网络的融合,达到增强目标检测的效果。
附图说明
图1为本发明对暗光图像的分解处理流程示意图。
图2为本发明对暗光图像的调整处理流程示意图。
图3为本发明关于无人驾驶车辆目标检测的骨干网络参数变化示意图。
图4为特征注意力结构示意图。
图5为本发明流程示意图。
具体实施方式
下面结合实施例对本发明作进一步详细说明。
如图1-图5所示:
1、收集数据集:
运用无人机或者单反摄像机对同一露天矿区、同一矿场条件下不同时段的矿区场景进行记录,尤其是对矿区凌晨或黄昏时段光照强度较弱时的图像进行收集,与正常光照的图像做对比以及方便后期的消融实验;
2、数据集二分类及处理:
依据时间段将图像分为凌晨或黄昏时间段的暗光图像以及其他时段的光照充足图像,即一类是受光照影响较大的暗光图像、另一类是正常光照情况下的图像;
将凌晨或黄昏时段的暗光图像与正常光照图像分别输入至图像处理网络Retinex-Net中进行增强处理;
3、暗光环境下的图像恢复:
如步骤2所述,将收集的暗光图像放入到Retinex-Net网络中进行图像恢复,该网络的具体处理流程如下:
整个图像增强网络处理过程分为三个环节;先通过Decom-Net分解网络将所收集的图像分解为反射分量以及光照分量;接下来在分解的基础上进行参数调整,分别用去噪操作Denoising Operation和增强网络Enhance-Net对分解出的光照图像部分进行后续亮度增强,再利用带反向传播的随机梯度下降(SGD)端到端地对网络进行微调;在最后一部分结构重建reconstruction中,根据图像恢复公式S(x,y)=R(x,y)*I(x,y)对图像进行重组恢复。
具体步骤如下:
1)网络分解部分Decom-Net,具体操作是将所收集的正常光照图像与暗光图像分别输入Retinex-Net网络的分解模型中,该分解模型由五个带ReLU的卷积层构成,两类图像分别共享网络中的参数,即得到低光照图像的反射分量Rlow和光照分量Ilow和正常光照图像的反射分量Rnormal和光照分量Inormal,具体见图1所示;
对该网络进行改进,即将网络分解部分每一个卷积层后的激活函数ReLU换为Leaky ReLU激活函数,主要是为了改善ReLU激活函数导致的神经元死亡问题,当在负区域里具有较小的正斜率,即使是输入负值,Leaky ReLU也可以进行反向传播,避免单纯的线性组合,并在最后一层卷积结束后进行sigmoid归一化处理;
2)网络调整部分Adjustment,主要包括去噪操作Denoising Operation和亮度增强Enhance-Net部分;处理对象分别为低光照图像的反射分量Rlow以及光照分量Ilow;在反射分量Rlow上进行BM3D(三维块匹配算法)去噪操作,与LIME(局部可解释性模型算法)和JED(联合增强去噪)相比去噪效果明显增强,在光照分量Ilow上使用了多尺度的光照调整网络Enhance-Net,该网络整体上是一个encoder-decoder架构,同时引入了多尺度,目的是为了分层调整光照,保证全局光照的一致性,同时定制多样化的局部光照分布,引入多尺度连接进行调整,比如有M个逐步上采样的块,每个块都提取一个C通道特征图,通过最近邻插值将这些特征在不同尺度上调整到最终尺度,并将它们连接到C×M通道特征图。然后,通过一个1×1的卷积层,将连接的特征减少至C个通道,再接一个3×3的卷积层来重建光照图
Figure BDA0003907856070000101
重建的目的是将调整后的低光照图像的反射分量Rlow以及光照分量Ilow相乘得到相应的正常光照图像;
上述操作能使网络能够捕获大范围内关于光照分布的上下文信息,有利于提高其自适应调整的能力;
3)Retinex-Net网络的Loss部分,主要分为三个部分,即结构感知平滑度损失(光照分量平滑损失)Structure-Aware Smoothness Loss、反射不变损失(反射分量一致性损失)Invariable Reflectance Loss、重构损失Reconstruction Loss,因此Retinex-Net网络总损失为这三部分损失之和,具体损失公式如下:
结构感知平滑度损失Structure-Aware Smoothness Loss:
Figure BDA0003907856070000111
反射不变损失Invariable Reflectance Loss:
Figure BDA0003907856070000112
重构损失Reconstruction Loss:
Figure BDA0003907856070000113
总损失为:
Figure BDA0003907856070000114
Figure BDA0003907856070000115
表示梯度,
Figure BDA0003907856070000116
(水平),
Figure BDA0003907856070000117
(竖直),λg代表结构意识强度的平衡系数;
Figure BDA0003907856070000118
放宽了反射率梯度较陡处的平滑束,即图像结构较复杂的位置和光照应该不连续的位置;
Figure BDA0003907856070000119
表示该网络中的结构感知平滑度损失,也就是光照分量平滑损失;
Figure BDA00039078560700001110
表示反射不变损失;
Figure BDA00039078560700001111
表示该网络的重构损失,即用于求解重构部分的损失值;λis表示结构感知平滑度损失的平衡系数;λir表示反射不变损失的平衡系数;
Figure BDA00039078560700001112
放宽了反射率梯度较陡处的平滑束,即图像结构较复杂的位置和光照应该不连续的位置。
4、目标检测网络的改进;
本发明所使用的目标检测算法是yolov5网络,由于该算法的骨干特征提取网络CSPDarknet的参数量以及网络计算量较大,因此为了减少模型参数量让整个网络变得更加轻量化并能高效准确地检测出有效信息,本发明则对该目标检测算法进行改进优化,主要改进点如下:
1)本发明将该检测网络原始的骨干特征提取网络CSPDarknet改进为网络MobileNetV3进行特征提取。MobileNet模型是Google针对手机等嵌入式设备提出的一种轻量化级的深层神经网络,MobileNetV3是MobileNetV2、V1的升级版,因此本发明用MobileNetV3网络去替代原来的特征提取网络CSPDarknet,该轻量级神经网络的就是深度可分离卷积块(DSC),该卷积块分为DW(深度卷积)和PW(通道卷积);还有轻量级的注意力模型去调整每个通道的权重,利用了h-swish激活函数去减少运算量提高网络性能。理论上普通的卷积计算量是DW+PW的8到9倍,具体推理如下所示:
Figure BDA0003907856070000121
其中Dk代表卷积核的大小;M代表输入特征矩阵的channel;N代表输出特征矩阵的channel;DF代表的是输入特征矩阵的高和宽;
MobileNet V3网络的参数变化情况如表所示:
Input Operator exp size #out SE NL s
224<sup>2</sup>*3 Conv2d - 16 - HS 2
112<sup>2</sup>*16 bneck,3*3 16 16 - RE 1
112<sup>2</sup>*16 bneck,3*3 64 24 - RE 2
56<sup>2</sup>*24 bneck,3*3 72 24 - RE 1
56<sup>2</sup>*24 bneck,5*5 72 40 RE 2
28<sup>2</sup>*40 bneck,5*5 120 40 RE 1
28<sup>2</sup>*40 bneck,5*5 120 40 RE 1
28<sup>2</sup>*40 bneck,3*3 240 80 - HS 2
14<sup>2</sup>*80 bneck,3*3 200 80 - HS 1
14<sup>2</sup>*80 bneck,3*3 184 80 - HS 1
14<sup>2</sup>*80 bneck,3*3 184 80 - HS 1
14<sup>2</sup>*80 bneck,3*3 480 112 HS 1
14<sup>2</sup>*112 bneck,3*3 672 112 HS 1
14<sup>2</sup>*112 bneck,5*5 672 160 HS 2
7<sup>2</sup>*160 bneck,5*5 960 160 HS 1
7<sup>2</sup>*160 bneck,5*5 960 160 HS 1
7<sup>2</sup>*160 Conv2d,1*1 - 960 - HS 1
7<sup>2</sup>*960 Pool,7*7 - - - - 1
1<sup>2</sup>*960 Conv2d 1*1,NBN - 1280 - HS 1
1<sup>2</sup>*1280 Conv2d 1*1,NBN - k - - 1
将骨干特征提取网络更换为MobileNet V3之后,将骨干网络输出的52*52*40、26*26*80、13*13*160三个有效特征层提取出来,作为neck层PANet网络的构建;
2)在yolov5网络中添加注意力机制,该注意力机制的本质就是定位到感兴趣的区域,提取到更精准的特征,抑制无用信息,提升后期预测效果;由于目标检测网络中neck层的作用是对骨干网络提取出的特征进行融合进一步加强特征提取的,最后的head模块(检测头)是对骨干网络提取到的特征进行分类预测与回归预测的;
因此为了加强图像的特征提取,将注意力机制添加在网络的特征提取部分,目的是为了从众多信息中选出对当前检测的目标物体更重要的信息;
关于注意力机制的具体计算过程,可以将其归纳为以下两个过程:第一个过程是根据Query和Key计算权重系数,第二个过程根据权重系数对Value进行加权求和;即注意力机制的具体计算过程如下:
第一阶段:可以引入不同的函数和计算机制,根据Query和某个Key_i,计算两者的相似性或者相关性,最常见的方法包括:求两者的向量点积、求两者的向量Cosine相似性或者通过引入额外的神经网络来求值,即如下方式:
点积:Similarity(Query,Keyi)=Query*Keyi
Cosine相似性:
Figure BDA0003907856070000141
MLP网络::Similarity(Query,Keyi)=MLP(Query,Keyi)
第二阶段:引入类似SoftMax(归一化指数函数)的计算方式,对第一阶段的得分进行数值转换,一方面可以进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面也可以通过SoftMax的内在机制更加突出重要元素的权重。即一般采用如下公式计算:
Figure BDA0003907856070000142
第三阶段:就是利用第二阶段的计算结果,即value_i对应的权重系数进行加权求和即可得到Attention数值:
Figure BDA0003907856070000151
其中Query表示给定目标中的某个元素;Key表示的是该元素的地址信息,Value指的是该元素的具体数值;Similarity表示相似性;Cosine相似性表示余弦相似度,取值范围为[-1,1];MLP表示一种前向结构的人工神经网络;ai表示第i个元素的权重值;Simi表示第i个元素的Cosine相似性;Simj表示第j个元素的Cosine相似性;Lx表示所给目标集中元素的总个数;Source表示所有的Key和Value的集合;
5、将步骤4所改进的部分添加到原有网络中;
将MobileNetV3和注意力机制添加至yolov5网络中,具体步骤如下:
1)将步骤4中的MobileNetV3网络里的Bneck结构所输出的有效特征层经过卷积与上下采样等处理,使最终输出的有效特征层和原检测网络yolov5的骨干网络输出有效特征层的长、宽以及通道数相同,便于neck部分加强特征提取网络PANet的构建;
2)关于注意力机制的添加,由于空间注意力只会将每个通道中的特征都做同等处理,而通道注意力则是将一个通道内的信息直接进行了全局处理;如果单纯使用空间注意力会忽略了通道间的信息交互,同理,如果单纯使用通道注意力容易忽略空间内的信息交互,导致目标区域每个通道间缺少交互;因此运用混合注意力机制CBAM,CBAM结合了通道域、空间域等注意力的形式来形成一种更加综合的特征注意力方法,具体结构如图4所示:
该结构使在原有通道注意力机制的基础上,衔接了一个空间注意力模块(SpatialAttention Modul,SAM),SAM是基于通道进行全局平均池化以及最大池化操作而产生两个代表不同信息的特征图;两个模块合并后再通过一个感受野较大的7×7卷积进行特征融合,最后再用Sigmoid归一化操作来生成权重图,叠加回起始的输入特征图,从而使得目标区域特征得以增强。
6、消融实验;
1)将凌晨或黄昏时段的暗光图像以及正常时段的光照充足图像分别经过Retinex-Net网络的处理,接着将处理后的图像输入目标检测yolov5网络中,根据检测结果验证图像增强对暗光图像目标检测的重要性;
2)将光照充足的图像输入改进后的目标检测网络yolov5中,该实验目的是为了验证yolov5网络,以确保改进后的网络在目标检测中不仅减少计算量,同时检测效率也有所提升;
7、图像增强网络与改进目标检测网络的融合;
在验证结束之后,将Retinex-Net网络与改进的目标检测网络yolov5进行融合,Retinex-Net网络与yolov5网络都是运用Python编写的,因此直接将Retinex-Net的输出与新的yolov5网络的输入相连接,将Retinex-Net的输出脚本与yolov5输入脚本命名相同,接着实现目标检测骨干网络MobileNet V3以及PANet的特征提取,即可实现露天矿区暗环境下的图像恢复与目标检测技术的融合,实现露天矿区暗光环境下准确高效的目标检测,为下一步的避障处理提供保障。

Claims (8)

1.一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,包括以下步骤;
步骤1,运用无人机或者单反摄像机对同一露天矿区、同一矿场条件下不同时段的矿区场景进行记录,分别对光照充足时段以及凌晨或黄昏时段露天矿区的场景图像进行记录,完成正常光照下的图像以及暗光图像的数据收集;
步骤2,将所收集到的暗光图像经过Retinex-Net网络进行图像去噪以及亮度增强处理;
步骤3,将Retinex-Net网络与目标检测网络yolov5进行融合,将暗光图像经过Retinex-Net网络增强后会提升目标检测网络的目标识别效果,进而解决暗光环境下目标识别不准的问题。
2.根据权利要求1所述的一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,所述步骤1运用无人机或者单反摄像机在同一露天矿区、同一矿场条件下不同时段的矿区场景进行记录,露天矿区的正常光照图像以及凌晨或黄昏时间段的暗光场景图像进行记录,方便后期进行消融实验。
3.根据权利要求1所述的一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,所述步骤1对收集到的数据依据时间段将图像分为凌晨或黄昏时间段的暗光图像以及其他时段的光照充足图像,即一类是受光照影响较大的暗光图像、另一类是正常光照情况下的图像。
4.根据权利要求1所述的一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,所述步骤2运用Retinex-Net网络对矿区凌晨或黄昏时间段收集的暗光数据集进行Denoising Operation图像去噪以及Enhance-Net亮度增强处理;该网络集成了图像分解和连续增强操作,具体包括以下四部分:
1)Decom-Net子网络部分用于图像分解,该网络将一个暗光环境下的图像分解为反射率图像和照明图像,以低光图像Slow和正常光图像Snormal作为输入,然后分别将Slow经过卷积处理分解为反射分量Rlow和光照分量Ilow,以及Snormal的反射分量Rnormal和光照分量Inormal,由于噪声在黑暗区域通常更大,甚至会被增强过程放大,所以引入了反射去噪;该分解过程由卷积、激活和归一化函数组成,将输入的RGB图像映射为反射分量和光照分量,并使R和I都约束在[0,1]范围内;
2)Enhance-Net部分用于实现图像的光照调整,以保证大区域的一致性,同时通过多尺度连接来调整局部分布;
3)Adjustment调整包括Denoising Operation去噪操作和Enhance-Net亮度增强网络两部分;该网络运用编码-解码结构获取上下文信息,输入的图像被连续下采样到小尺度,该尺度有一个大尺度光照分布的透视图,给网络带来了自适应的调整能力;
4)Loss损失也包含三部分,分别为结构感知平滑度损失、反射不变损失和重构损失。
5.根据权利要求4所述的一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,所述Retinex-Net网络总损失为结构感知平滑度损失、反射不变损失和重构损失之和,具体损失公式如下:
结构感知平滑度损失Structure-Aware Smoothness Loss:
Figure FDA0003907856060000031
反射不变损失Invariable Reflectance Loss:
Figure FDA0003907856060000032
重构损失Reconstruction Loss:
Figure FDA0003907856060000033
总损失为:
Figure FDA0003907856060000034
Figure FDA0003907856060000035
表示梯度,
Figure FDA0003907856060000036
(水平),
Figure FDA0003907856060000037
(竖直),λg代表结构意识强度的平衡系数;
Figure FDA0003907856060000038
放宽了反射率梯度较陡处的平滑束,即图像结构较复杂的位置和光照应该不连续的位置;
Figure FDA0003907856060000039
表示该网络中的结构感知平滑度损失,也就是光照分量平滑损失;
Figure FDA00039078560600000310
表示反射不变损失;
Figure FDA00039078560600000311
表示该网络的重构损失,即用于求解重构部分的损失值;λis表示结构感知平滑度损失的平衡系数;λir表示反射不变损失的平衡系数;
Figure FDA00039078560600000312
放宽了反射率梯度较陡处的平滑束,即图像结构较复杂的位置和光照应该不连续的位置。
6.根据权利要求1所述的一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,所述目标检测网络yolov5通过网络MobileNetV3进行特征提取,网络MobileNetV3为深度可分离卷积块(DSC),该卷积块分为DW(深度卷积)和PW(通道卷积);还有轻量级的注意力模型去调整每个通道的权重,具体如下所示:
Figure FDA0003907856060000041
其中Dk代表卷积核的大小;M代表输入特征矩阵的channel;N代表输出特征矩阵的channel;DF代表的是输入特征矩阵的高和宽。
7.根据权利要求6所述的一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,所述特征提取部分添加注意力机制,用于加强图像的特征提取,从众多信息中选出对当前检测的目标物体更重要的信息;
所述注意力机制的具体计算过程包括两部分,第一个过程是根据Query和Key计算权重系数,第二个过程根据权重系数对Value进行加权求和;
即注意力机制的具体计算过程如下:
第一阶段:引入不同的函数和计算机制,根据Query和某个Key_i,计算两者的相似性或者相关性,求两者的向量点积、求两者的向量Cosine相似性或者通过引入额外的神经网络来求值,即如下方式:
点积:Similarity(Query,Keyi)=Query*Keyi
Cosine相似性:
Figure FDA0003907856060000042
MLP网络::Similarity(Query,Keyi)=MLP(Query,Keyi);
第二阶段:引入类似SoftMax(归一化指数函数)的计算方式,对第一阶段的得分进行数值转换,一方面进行归一化,将原始计算分值整理成所有元素权重之和为1的概率分布;另一方面通过SoftMax的内在机制更加突出重要元素的权重,采用如下公式计算:
Figure FDA0003907856060000051
第三阶段:利用第二阶段的计算结果,即value_i对应的权重系数进行加权求和即可得到Attention数值:
Figure FDA0003907856060000052
其中Query表示给定目标中的某个元素;Key表示的是该元素的地址信息,Value指的是该元素的具体数值;Similarity表示相似性;Cosine相似性表示余弦相似度,取值范围为[-1,1];MLP表示一种前向结构的人工神经网络;ai表示第i个元素的权重值;Simi表示第i个元素的Cosine相似性;Simj表示第j个元素的Cosine相似性;Lx表示所给目标集中元素的总个数;Source表示所有的Key和Value的集合。
8.根据权利要求1所述的一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法,其特征在于,所述Retinex-Net网络与目标检测网络yolov5进行融合得具体操作为:
将Retinex-Net的输出与yolov5网络的输入相连接,将Retinex-Net的输出脚本与yolov5输入脚本命名相同,接着实现目标检测骨干网络MobileNet V3以及PANet的特征提取,实现露天矿区暗环境下的图像恢复与目标检测技术的融合,实现露天矿区暗光环境下准确高效的目标检测,为下一步的避障处理提供保障。
CN202211310449.9A 2022-10-25 2022-10-25 一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法 Pending CN115565089A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211310449.9A CN115565089A (zh) 2022-10-25 2022-10-25 一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211310449.9A CN115565089A (zh) 2022-10-25 2022-10-25 一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法

Publications (1)

Publication Number Publication Date
CN115565089A true CN115565089A (zh) 2023-01-03

Family

ID=84747119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211310449.9A Pending CN115565089A (zh) 2022-10-25 2022-10-25 一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法

Country Status (1)

Country Link
CN (1) CN115565089A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116797490A (zh) * 2023-07-12 2023-09-22 青岛理工大学 一种轻量级浑浊水体图像增强方法
CN116957988A (zh) * 2023-08-28 2023-10-27 南京航空航天大学 一种目标检测驱动的潜望镜图像复原表征学习方法
US11881020B1 (en) * 2022-11-24 2024-01-23 Nanjing University Of Posts And Telecommunications Method for small object detection in drone scene based on deep learning

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11881020B1 (en) * 2022-11-24 2024-01-23 Nanjing University Of Posts And Telecommunications Method for small object detection in drone scene based on deep learning
CN116797490A (zh) * 2023-07-12 2023-09-22 青岛理工大学 一种轻量级浑浊水体图像增强方法
CN116797490B (zh) * 2023-07-12 2024-02-09 青岛理工大学 一种轻量级浑浊水体图像增强方法
CN116957988A (zh) * 2023-08-28 2023-10-27 南京航空航天大学 一种目标检测驱动的潜望镜图像复原表征学习方法
CN116957988B (zh) * 2023-08-28 2024-03-08 南京航空航天大学 一种目标检测驱动的潜望镜图像复原表征学习方法

Similar Documents

Publication Publication Date Title
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN110427839B (zh) 基于多层特征融合的视频目标检测方法
CN108509978B (zh) 基于cnn的多级特征融合的多类目标检测方法及模型
CN115565089A (zh) 一种基于露天矿区暗光环境下的图像恢复与目标检测融合方法
CN110929578B (zh) 一种基于注意力机制的抗遮挡行人检测方法
CN111882002B (zh) 一种基于msf-am的低照度目标检测方法
CN112560656B (zh) 一种联合注意力机制端到端训练的行人多目标跟踪方法
CN113628249B (zh) 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN111310861A (zh) 一种基于深度神经网络的车牌识别和定位方法
CN110796009A (zh) 基于多尺度卷积神经网络模型的海上船只检测方法及系统
CN114758383A (zh) 基于注意力调制上下文空间信息的表情识别方法
CN113554125B (zh) 结合全局与局部特征的目标检测装置、方法和存储介质
CN113627228B (zh) 一种基于关键点回归与多尺度特征融合的车道线检测方法
CN111640136B (zh) 一种复杂环境中的深度目标跟踪方法
CN111310773A (zh) 一种高效的卷积神经网络的车牌定位方法
CN112991350B (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN111723829B (zh) 一种基于注意力掩模融合的全卷积目标检测方法
CN112699727B (zh) 一种联合反射注意力和自注意力机制的道路水体检测方法
CN115393712B (zh) 基于动态混合池化策略的sar图像道路提取方法及系统
CN115984323A (zh) 基于空频域均衡的双级融合rgbt跟踪算法
CN116543433A (zh) 一种基于改进YOLOv7模型的口罩佩戴检测方法和装置
CN114743126A (zh) 一种基于图注意力机制网络的车道线标志分割方法
CN117557922A (zh) 改进YOLOv8的无人机航拍目标检测方法
CN116895007A (zh) 一种基于改进YOLOv8n的小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination