CN115311241A

CN115311241A - 一种基于图像融合和特征增强的煤矿井下行人检测方法

Info

Publication number: CN115311241A
Application number: CN202210980531.6A
Authority: CN
Inventors: 邹盛; 周李兵; 陈晓晶; 季亮; 于政乾; 王天宇; 赵叶鑫; 王国庆; 郝大彬; 黄小明; 杨华; 卢东贵
Original assignee: Tiandi Changzhou Automation Co Ltd; Changzhou Research Institute of China Coal Technology and Engineering Group Corp
Current assignee: Tiandi Changzhou Automation Co Ltd; Changzhou Research Institute of China Coal Technology and Engineering Group Corp
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-08
Anticipated expiration: 2042-08-16
Also published as: CN115311241B; WO2024037408A1

Abstract

本发明公开了一种基于图像融合和特征增强的煤矿井下行人检测方法，包括以下步骤：第1步骤、深度图像和红外图像的融合处理；第2步骤、构建目标边缘特征增强的CornerNet‑Squeeze行人目标检测网络；第3步骤、建立井下红外深度图像融合行人检测数据集，训练目标边缘特征增强的CornerNet‑Squeeze行人目标检测模型；第4步骤、本安型边缘计算设备部署目标边缘增强的CornerNet‑Squeeze行人检测模型，在测试集验证效果。该种基于图像融合和目标边缘特征增强的煤矿井下行人检测方法，用以提高井下低照度复杂环境的多尺度行人目标的检测能力。

Description

一种基于图像融合和特征增强的煤矿井下行人检测方法

技术领域

本发明涉及煤矿井下行人检测的技术领域，尤其是一种基于图像融合和特征增强的煤矿井下行人检测方法。

背景技术

基于机器视觉的行人检测方法采用摄像装置获取视频图像，通过图像处理算法对目标信息进行检测和分析，并用于后续跟踪任务，在视频监控、无人驾驶车辆、智能机器人等领域发挥了重要作用。在智能化矿井建设中，采用机器视觉技术对长距离胶带沿线、封闭巷道入口、斜巷等危险区域进行行人检测，对于提高煤矿安全生产管理水平、防范人身伤亡事故具有重要的意义。但井下的视频图像环境复杂，光线暗淡，噪声干扰大，且井下监控摄像头一般安装在高处，导致视频图像中的行人存在尺寸偏小、分辨率低、尺度变化、行人重叠等问题。因井下环境的特殊性，面临行人目标检测常见的多尺度、遮挡、低照度等多种因素的挑战，研究井下低照度等复杂环境多尺度目标行人鲁棒性识别是一个亟待解决的问题，对保障井下安全生产具有重要意义和应用价值。

传统的行人检测算法，如HOG+SVM、ICF+AdaBoost、DPM等，主要依赖于人工设计特征，特征单一且主观性强，泛化能力差，难以适用于井下低照度、粉尘等特殊工况环境下的多尺度行人目标检测。随着深度学习人工智能算法的不断更迭发展，通过大规模数据集训练学习，主动提取特征，解决了由于传统方法人工提取特征导致的模型鲁棒性差的问题。

深度学习行人目标检测算法主要分为two-stage和one-stage两类，前者 two-stage主要是基于区域生成目标候选框，再进行分类回归，以R-CNN、Fast R-CNN、Faster R-CNN等为代表，取得了比传统检测方法更好的结果，虽取得更高的检测精度，但检测效率较低；后者one-stage则直接采用端到端的训练网络，无需生成候选框，一个网络实现结果输出，主要包括SSD系列、YOLO系列、 CornerNet系列等；CornerNet系列具有可以与两阶段检测器相媲美的检测精度，同时可避免SSD系列、YOLO系列因采用的anchor-box机制引入太多超参数而增加计算量的问题，且目标的检测转换为对目标关键点的检测，使用沙漏特征提取网络(Hourglass)作为骨干网络，通过目标左上角点与右下角点确定边界框位置，省略生成锚框的步骤。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明提出一种基于图像融合和特征增强的煤矿井下行人检测方法，用以提高井下低照度复杂环境的多尺度行人目标的检测能力。

根据本发明实施例的一种基于图像融合和特征增强的煤矿井下行人检测方法，包括以下步骤：

第1步骤、深度图像和红外图像的融合处理：深度图像和红外图像两者的融合采用TIF算法，通过图像分解、图像融合、图像重构三个步骤实现；对融合后的图像进行形态学处理；

第2步骤、构建目标边缘特征增强的CornerNet-Squeeze行人目标检测网络：CornerNet-Squeeze行人目标检测网络在CornerNet网络基础上结合 SqueezeNet网络，使用SqueezeNet网络中的fire模块代替了CornerNet网络中的Res残差模块；在CornerNet-Squeeze行人目标检测网络中引入八度卷积 OctConv处理主干网络后高低频特征信息的特征增强模块，形成改进后的CornerNet-Squeeze行人目标检测网络；

第3步骤、建立井下红外深度图像融合行人检测数据集，训练目标边缘特征增强的CornerNet-Squeeze行人目标检测模型：将红外相机和深度相机安装在防爆无轨胶轮车车顶，充分采集煤矿井下行人数据，对采集的深度图像和红外图像进行配准对齐，采用第1步骤中的融合处理方法形成融合图像；对深度图像、红外图像及两者融合后的融合图像采用标注软件进行人工标注，得到三种数据集，三种数据集分别为深度图像训练数据集、红外图像训练数据集和融合图像训练数据集；将三种数据集划分为训练集和测试集，训练目标边缘特征增强的CornerNet-Squeeze行人目标检测模型；

第4步骤、本安型边缘计算设备部署目标边缘特征增强的 CornerNet-Squeeze行人目标检测模型，在测试集验证效果：将改进的目标边缘特征增强CornerNet-Squeeze算法和原始CornerNet-Squeeze算法分别在深度图像训练数据集、红外图像训练数据集和融合图像训练数据集上训练得到模型在本安型边缘计算设备进行部署测试和验证。

本发明的有益效果是，(1)针对井下低照度应用场景，采用红外图像和深度图像融合方式结合两者优势，再经过形态学处理，有效减少背景干扰，获得了边缘轮廓更加丰富的行人目标特征；(2)采用深度学习自主提取目标特征的方法，在CornerNet-Squeeze目标网络模型的基础上，将八度卷积OctConv连接引入沙漏主干网络之后，能够有效处理图像特征中高低频信息，增强图像边缘特征，提升了对小目标行人的检测能力。

根据本发明一个实施例，所述图像分解是将对齐后同样大小的红外图像和深度图像使用均值滤波器分别获得图像的基础层和细节层。

根据本发明一个实施例，在所述图像融合中，对于基础层图像的融合采用算术平均策略融合。

根据本发明一个实施例，在所述图像融合中，对于细节层图像的融合使用加权平均的策略进行融合。

根据本发明一个实施例，在所述图像重构中，将融合后的深度图像和红外图像的基础层、深度图像和红外图像的细节层直接相加得到最终深度图像和红外图像的融合图像。

根据本发明一个实施例，在融合图像形态学处理中，采用先腐蚀后膨胀形态学开运算处理融合后的图像。

根据本发明一个实施例，在CornerNet-Squeeze主干网络后引入八度卷积OctConv的特征增强模块，具体处理步骤如下：

第2.1步骤、对主干网络提取的特征图进行卷积操作降维处理；

第2.2步骤、降维后的特征图采用OctConv分离融合高低频特征信息；

第2.3步骤、对输出的高频信息经过反卷积操作，还原特征尺寸。

根据本发明一个实施例，在所述第1步骤中，对深度图像、红外图像及两者融合后的融合图像采用标注软件LabelImg进行人工标注。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的算法流程图；

图2是图像融合处理示意图；

图3是图像融合处理过程中的红外图像；

图4是图像融合处理过程中的深度图像；

图5是图像融合处理过程中的融合图像；

图6是图像融合处理过程中的形态学处理后的融合图像；

图7是沙漏型网络单个模块结构示意图；

图8是主干网络中的Res残差模块示意图；

图9是SqueezeNet网络中fire模块示意图；

图10是改进的CornerNet-Squeez-Oct网络结构示意图；

图11是OctConv操作过程示意图；

图12是数据集制作流程图；

图13是CornerNet-Squeeze检测结果示意图；

图14是目标边缘增强的CornerNet-Squeeze检测结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前基于深度学习的行人检测算法在地面/可见光场景取得较高的准确性和实时性，然而针对井下低照度等复杂环境，行人检测面临着行人姿态尺度多变、复杂环境导致行人特征丢失、对网络模型实时性要求较高等挑战，存在高检测率和低误判率难以同时兼容的问题。CornerNet-Squeeze是在CornerNet网络基础上结合SqueezeNet网络的思想，针对堆栈沙漏型主干网络的残差模块进行了轻量化的改进，大大减少网络参数，提高模型的推理速度。但 CornerNet-Squeeze网络只针对主干沙漏网络做了轻量化的处理，但在后期预测边框角点时，一旦由于在沙漏网络提取特征信息不完整，将直接影响热图对目标位置的判断，导致目标框定位错误，降低目标识别的准确性。

图像采集设备主要有可见光相机、红外相机和深度相机三种，其中，可见光相机用于采集可见光图像，红外相机用于采集红外图像，深度相机用于采集深度图像。可见光图像的优势在于其分辨率高，背景细节信息丰富，但其缺点是容易受到外界因素影响，在低照度等复杂环境下成像质量差，无法满足实际检测需求。而红外图像中行人目标区域突出，不受光照条件的影响，但其缺点是分辨率低，细节特征信息较少。深度图像中行人轮廓清晰，不易受环境影响，但成像距离短。考虑到井下低照度应用场景，井下低照度等复杂环境多尺度小目标行人鲁棒性识别是一个难点，仅仅利用可见光相机或红外相机或深度相机等采集到的单一图像来源难以满足井下行人目标精准检测的需求。

因此，本发明将提出一种基于图像融合和特征增强的煤矿井下行人检测方法，具体地，是一种基于图像融合和CornerNet-Squeeze的煤矿井下行人目标检测方法。首先，采用TIF算法将红外相机和深度相机采集的图像进行像素级融合，充分结合两者的优点，再进行形态学处理，减少背景干扰；然后，在 CornerNet-Squeeze目标网络模型的基础上,将八度卷积OctConv连接引入沙漏主干网络之后,处理图像特征中高低频信息，增强图像边缘特征，可有效提高井下低照度复杂环境的多尺度行人目标的检测能力。

下面参考附图具体描述本发明实施例的基于图像融合和特征增强的煤矿井下行人检测方法。

见图1，本发明的一种基于图像融合和特征增强的煤矿井下行人检测方法，包括以下步骤：

见图2，第1步骤、深度图像和红外图像的融合处理：深度图像和红外图像两者的融合采用TIF(Two-Scale Image Fusion)算法，通过图像分解、图像融合、图像重构三个步骤实现。同时，为了提高融合后图像的成像品质，突出行人的纹理细节和灰度特征，消除冗余的背景干扰，采用形态学方法对融合图像进行处理，即对融合后的图像进行形态学处理，具体处理步骤如下：

第1.1步骤、图像分解：图像分解是将对齐后同样大小的红外图像和深度图像使用均值滤波器分别获得图像的基础层和细节层。

图像分解首先将对齐后同样大小的原始红外图像f₁(x,y)和原始深度图像 f₂(x,y)使用均值滤波器μ(x,y)分别获得红外图像基础层

深度图像基础层

在得到基础层之后，通过原始红外和深度图像与基础层图像的差值得到细节层图像，红外图像细节层

和深度图像细节层

红外图像基础层

的计算公式如下所示：

深度图像基础层

的计算公式如下所示：

红外图像细节层

的计算公式如下所示：

深度图像细节层

的计算公式如下所示：

第1.2步骤、图像融合。

对于基础层图像的融合采用算术平均策略融合，具体计算如下所示：

其中，公式(5)中的各个符号所表示的含义具体如下所示：

f^b(x,y)表示将图像分解得到的深度图像和红外图像的基础层进行算术平均得到基础层的融合图像。

对于细节层图像，采用对原始红外和深度图像的RGB三通道数据分别经过均值滤波得到的图像

和中值滤波得到的图像

计算欧拉距离得到视觉显著图像ε(x,y)，具体计算如下所示：

其中，公式(6)中的各个符号所表示的含义具体如下所示：

表示对图像RGB的红色通道进行均值滤波处理后的结果；

表示对图像RGB的绿色通道进行均值滤波处理后的结果；

表示对图像RGB的蓝色通道进行均值滤波处理后的结果；

表示对图像RGB的红色通道进行中值滤波处理后的结果；

表示对图像RGB的绿色通道进行中值滤波处理后的结果；

表示对图像RGB的蓝色通道进行中值滤波处理后的结果。

即，原始红外图像的视觉显著图像ε₁(x,y)的计算如下所示：

其中，公式(7)中的各个符号所表示的含义具体如下所示：

表示对原始红外图像RGB的红色通道进行均值滤波处理后的结果；

表示对原始红外图像RGB的绿色通道进行均值滤波处理后的结果；

表示对原始红外图像RGB的蓝色通道进行均值滤波处理后的结果；

表示对原始红外图像RGB的红色通道进行中值滤波处理后的结果；

表示对原始红外图像RGB的绿色通道进行中值滤波处理后的结果；

表示对原始红外图像RGB的蓝色通道进行中值滤波处理后的结果。

即，原始深度图像的视觉显著图像ε₂(x,y)的计算如下所示：

其中，公式(8)中的各个符号所表示的含义具体如下所示：

表示对原始深度图像RGB的红色通道进行均值滤波处理后的结果；

表示对原始深度图像RGB的绿色通道进行均值滤波处理后的结果；

表示对原始深度图像RGB的蓝色通道进行均值滤波处理后的结果；

表示对原始深度图像RGB的红色通道进行中值滤波处理后的结果；

表示对原始深度图像RGB的绿色通道进行中值滤波处理后的结果；

表示对原始深度图像RGB的蓝色通道进行中值滤波处理后的结果。

对原始红外图像f₁(x,y)和原始深度图像f₂(x,y)，分别进行上述计算得到ε₁(x,y)和ε₂(x,y)，通过这两个视觉显著图像得到细节层的融合系数矩阵：

其中，公式(9)中的各个符号所表示的含义具体如下所示：

δ₁(x，y)表示红外图像细节层融合系数；

ε₁(x，y)表示原始红外图像的视觉显著图像；

ε₂(x，y)表示原始深度图像的视觉显著图像。

其中，公式(10)中的各个符号所表示的含义具体如下所示：

δ₂(x，y)表示深度图像细节层融合系数。

对于细节层图像的融合使用加权平均的策略进行融合，具体计算如下所示：

其中，公式(11)中的各个符号所表示的含义具体如下所示：

表示红外图像的细节层；

表示深度图像的细节层；

f^d(x，y)表示深度图像的细节层和深度图像的细节层的融合。

第1.3步骤、图像重构建。

在图像重构中，将融合后的深度图像和红外图像的基础层、深度图像和红外图像的细节层直接相加得到最终深度图像和红外图像的融合图像ρ(x，y)，融合图像ρ(x，y)的具体计算如下所示：

ρ(x，y)＝f^b(x，y)+f^d(x，y) (12)

第1.4步骤、形态学处理。

最基本的形态学操作包括膨胀(dilate)和腐蚀(erode)，是将一幅二维图像(或图像的一部分)与一个模板(也就是核)进行卷积运算的过程，具有消除亮度较高的细小区域，去除孤立的小点,毛刺,消除小物体,平滑较大物体边界的作用。

膨胀运算的数学表达式如下所示：

其中，膨胀就是求图像(x,y)与卷积核(x',y')的局部最大值的操作。

腐蚀运算的数学表达式如下所示：

其中，腐蚀就是求图像(x,y)与卷积核(x',y')的局部最小值的操作。

本发明采用先腐蚀后膨胀形态学开运算处理融合后的图像，减小背景干扰，突出行人轮廓特征。

原始深度图像和红外图像见图3、图4，经过上述第1.1步骤、第第1.2步骤、第1.3步骤这三个步骤处理后的融合图像结果如图5所示，从结果可以看出融合后图像结合了红外图像的行人灰度特征和深度图像的轮廓边缘；融合后图像经第1.4步骤形态学处理的结果如图6所示，减少了很多不必要的环境信息的干扰，突出了行人特征，有助于提高行人检测的准确率。

第2步骤、构建目标边缘特征增强的CornerNet-Squeeze行人目标检测网络：CornerNet-Squeeze行人目标检测网络在CornerNet网络基础上结合 SqueezeNet网络，使用SqueezeNet网络中的fire模块代替了CornerNet网络中的Res残差模块；在CornerNet-Squeeze行人目标检测网络中引入八度卷积 OctConv处理主干网络后高低频特征信息的特征增强模块，形成改进后的 CornerNet-Squeeze行人目标检测网络。

CornerNet网络的核心思想是通过沙漏型主干网络(Hourglass)中的卷积池化处理得到目标的左上角和右下角的两组角点的概率图，也称热图(Heatmap)。根据模型的类别数目，通过每组热图对预测角点进行聚合，形成目标的检测框 box。CornerNet-Squeeze是在CornerNet网络基础上结合SqueezeNet网络的思想，针对堆栈沙漏型主干网络的残差模块进行了轻量化的改进。沙漏型网络单个模块结构如图7所示，从图中可以看出该网络中使用了大量的残差Res模块，导致CornerNet主干部分在输入为256×256dpi图像时网络参数高达 18700万，其计算复杂度随输入图像尺寸增大而呈指数增加，主干网络中的Res 残差模块如图8所示。为追求更高的实时性，对网络模型进行了精简，使用 SqueezeNet网络中的fire模块(fire模块如图9所示)代替了沙漏网络中的 Res残差模块。每个原始残差模块包含2个3×3核卷积层，而fire模块则首先使用1个1×1核卷积层进行数据降维，然后用可分离的1个1×1核卷积层和1个3×3核卷积层进行组合扩展输出结果，大大减少网络参数，提高模型的推理速度。

改进CornerNet-Squeeze模型，CornerNet-Squeeze网络只针对主干沙漏网络做了轻量化的处理，但在后期预测边框角点时，一旦由于在沙漏网络提取特征信息不完整，将直接影响热图对目标位置的判断，导致目标框定位错误。本发明在CornerNet-Squeeze网络中引入八度卷积(Octave Convolution，OctConv) 处理主干网络后高低频特征信息，来增强图像边缘特征，有利于热图对角点位置的检测，便于对目标进行区分和定位，减少CornerNet-Squeeze网络由于角点检测漏检导致空间距离较小的同类目标以及小目标的误检情况，提高目标识别准确性。改进的CornerNet-Squeeze网络结构如图10所示。

在图像处理中，高频分量所代表的图像轮廓边缘等细节特征是需要关注的，有助于进行显著性检测和物体识别。相反，低频特征图包含的信息较少，如对图像中高频分量和低频分量同等处理，前者高频分量的效益是远大于后者低频分量。同理，在卷积神经网络中，卷积计算得到的特征图中也存在高频部分和低频部分，通过分离特征图，增加高频信息输出，可更多的提取图像中所关注目标的轮廓特征，有助于目标边缘增强，提高识别率。本发明在 CornerNet-Squeeze主干网络后引入八度卷积OctConv的特征增强模块，具体处理步骤如下：

第2.1步骤、对主干网络提取的特征图进行卷积操作降维处理：对主干网络提取的特征图采用1*1的Conv进行卷积操作降维处理；

第2.2步骤、降维后的特征图采用OctConv分离融合高低频特征信息：降维后的特征图通过OctConv过滤分离-融合高频和低频特征信息，OctConv操作过程如图11所示。首先将主干网络提取的Feature Map沿通道尺寸使用系数α将主干网络输出的特征图分解为高频分量XH∈M^{(1-α)·c×h×w}和低频分量

α∈[0，1]，X，Y∈M^c×h×w为卷积特征张量，其中h、w表示特征张量的空间维度，c表示通道数。XL进行卷积核上采样操作，XH进行平均池化和卷积操作，输出融合特征分量为YL和YH，最终得到融合的特征信息Y＝[YH，YL]。输出的融合特征高低频分量YL和YH求解如下：

YL的计算公式如下所示：

YL＝(XL×F)+(PXH×F) (15)

其中，公式(15)中的各个符号所表示的含义具体如下所示：

F∈M^c×k×k为k×k的卷积核；

×表示卷积运算；

P表示池化操作。

YH的计算公式如下所示：

YH＝(XH×F)+U(XL×F) (16)

其中，公式(16)中的各个符号所表示的含义具体如下所示：

F∈M^c×k×k为k×k的卷积核；

×表示卷积运算；

U表示上采样操作；

调节系数α可控制高低频融合分量的比例，得到最终的融合特征信息Y。

最终的融合特征信息Y的计算公式如下所示：

Y＝[αY_L+(1-α)Y_H]·ρ (17)

其中，公式(17)中的各个符号所表示的含义具体如下所示：

α表示调节系数；

ρ表示幅值系数，且ρ∈(0，1)。

由于高频处理能够突出特征的边缘信息，利于特征边缘信息的增强显示，通过OctConv模块增强高频信息，融合低频信息，在实现高低频分量特征有效通信的基础上输出更多的高频分量。得到损失函数L：

其中，公式(18)中的各个符号所表示的含义具体如下所示：

N表示图像中目标的数量；

C表示通道数；

H和W表示空间维度；

P_cij表示热图中第c个通道的(i，j)位置；

y_cij表示第c个通道对应目标的正确标记的数据ground truth；

α和β表示控制角点的超参数；

(1-y_cij)项增强了对目标ground truth的约束。

第3步骤、建立井下红外深度图像融合行人检测数据集，训练目标边缘特征增强的CornerNet-Squeeze行人目标检测模型：为同时结合深度图像和红外图像的特征及其优点与技术优势，将红外相机和深度相机安装在防爆无轨胶轮车车顶，充分采集煤矿井下行人数据，采集的原始数据以视频方式保存，通过对视频抽帧得到深度图像和红外图像，红外图像分辨率为1080×720dpi，深度图像分辨率为640×360dpi，基于尺度不变特征变换算法对采集的深度图像和红外图像进行配准对齐，配准后的深度图像、红外图像的分辨率均为640×360dpi，再对图像进行中心裁剪消除边缘部分的对齐误差，最终得到1000组分辨率为480×360dpi的红外图像和深度图像，包含遮挡、密集人群、小目标在井下低照度、水雾、粉尘等特殊场景样本，总计约2000个行人目标。采用第1步骤中的融合处理方法形成融合图像；对深度图像、红外图像及两者融合后的融合图像采用标注软件进行人工标注，得到三种数据集，三种数据集分别为深度图像训练数据集、红外图像训练数据集和融合图像训练数据集；将三种数据集划分为训练集和测试集，训练目标边缘特征增强的CornerNet-Squeeze行人目标检测模型。

将深度图像和红外图像融合成融合图像，对深度图像、红外图像及两者融合后的融合图像采用标注软件LabelImg进行人工标注，得到三种训练数据集，三种训练数据集分别为深度图像训练数据集、红外图像训练数据集和融合图像训练数据集。数据集制作流程如图12所示。

行人目标检测模型的训练平台为NVIDIA GeForce GTX 2080Ti，内存为32GB，操作系统为Ubuntu18.04LTS，采用Pytorch深度学习框架，模型训练时设置学习率为0.001，批尺寸为8，训练迭代次数为500。实验过程中训练集和验证集分别包含700和100张图像样本，测试集包含200张图像样本。

第4步骤、本安型边缘计算设备部署目标边缘特征增强的 CornerNet-Squeeze行人目标检测模型，在测试集验证效果：将改进的目标边缘特征增强CornerNet-Squeeze算法和原始CornerNet-Squeeze算法分别在深度图像训练数据集、红外图像训练数据集和融合图像训练数据集这三种数据集上上训练得到模型在本安型边缘计算设备进行部署测试和验证，具体地，将训练好的模型部署在型号为ZJB18-Z矿用本安型边缘计算设备进行测试验证，该设备具有14TOP算力，测试集上得到的性能指标如表1所示。

所采用的性能评价指标为平均精度均值(mAP,mean Average Precision)以及帧率(FPS,frames per second)。mAP为衡量算法检测精度的指标，是一种对准确率P(Precision)和召回率R(Recall)的综合处理指标，表示PR曲线下的面积。FPS是衡量算法速度的指标，其表示算法每秒内可以检测的图片数量，针对融合图像，时间计算包括图像融合和行人检测整个过程。

表1不同模型在不同数据集性能行人检测性能对比表

由上表可见，融合图像数据集在三种不同的模型上训练得到测试结果mAP 均有提升，表明深度图像和红外融合能充分结合两者的优势，提高模型的检测精度；在三种不同的数据集上，本发明改进后的目标边缘增强的 CornerNet-Squeeze模型在三种数据集上均显著提升了mAP，FPS速度指标方面，由于图像融合计算，改进后模型的FPS相比于改进前略有下降。由此可见，本发明在提升行人检测准确性的同时，基本保持了原算法的检测速度。

如图13和图14所示，给出了测试集中部分图像的行人目标检测结果。

如图13所示，从左到右分别为红外图像、深度图像和融合图像在 CornerNet-Squeeze上测试结果，目标框上的数字表示置信度。

见图13，按照从左到右的顺序，三张小图所对应的置信度分别为0.69、0.73、0.79。

如图14所示，从左到右分别为红外图像、深度图像和融合图像在本发明改进的CornerNet-Squeeze上测试结果，目标框上的数字表示置信度。

见图14，按照从左到右的顺序，三张小图所对应的置信度分别为0.42、0.69、0.75、0.45、0.82。

由图13和图14可见，采用融合图像数据在两种模型上进行行人检测的目标置信度较红外图像和深度图像均有提升；本发明改进后的CornerNet-Squeeze 能更好够检测出远处小目标，而CornerNet-Squeeze没有检测，检测效果更为理想。

本发明主要应用于井下无人驾驶和安防监控等领域，针对在煤矿井下受低照度、粉尘等特殊工况环境的影响，图像中行人存在边缘纹理细节少、信噪比低、受背景信息影响大的问题，难以有效识别多尺度下的行人目标，提出的一种基于图像融合和特征增强的煤矿井下行人检测方法，通过采用增加形态学处理的红外图像和深度图像融合的TIF方法，并将八度卷积OctConv连接引入 CornerNet-Squeeze沙漏主干网络之后增强图像边缘特征，克服上述问题，提高井下行人低照度多尺度行人的检测能力。

本发明的一种基于图像融合和特征增强的煤矿井下行人检测方法，针对井下低照度应用场景，采用红外图像和深度图像融合方式结合两者优势，再经过形态学处理，有效减少背景干扰，获得了边缘轮廓更加丰富的行人目标特征；采用深度学习自主提取目标特征的方法，在CornerNet-Squeeze目标网络模型的基础上，将八度卷积OctConv连接引入沙漏主干网络之后，能够有效处理图像特征中高低频信息，增强图像边缘特征，提升了对小目标行人的检测能力。

以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于图像融合和特征增强的煤矿井下行人检测方法，其特征在于，包括以下步骤：

第2步骤、构建目标边缘特征增强的CornerNet-Squeeze行人目标检测网络：CornerNet-Squeeze行人目标检测网络在CornerNet网络基础上结合SqueezeNet网络，使用SqueezeNet网络中的fire模块代替了CornerNet网络中的Res残差模块；在CornerNet-Squeeze行人目标检测网络中引入八度卷积OctConv处理主干网络后高低频特征信息的特征增强模块，形成改进后的CornerNet-Squeeze行人目标检测网络；

第4步骤、本安型边缘计算设备部署目标边缘特征增强的CornerNet-Squeeze行人目标检测模型，在测试集验证效果：将改进的目标边缘特征增强CornerNet-Squeeze算法和原始CornerNet-Squeeze算法分别在深度图像训练数据集、红外图像训练数据集和融合图像训练数据集上训练得到模型在本安型边缘计算设备进行部署测试和验证。

2.根据权利要求1所述的一种基于图像融合和特征增强的煤矿井下行人检测方法，其特征在于：所述图像分解是将对齐后同样大小的红外图像和深度图像使用均值滤波器分别获得图像的基础层和细节层。

3.根据权利要求1所述的一种基于图像融合和特征增强的煤矿井下行人检测方法，其特征在于：在所述图像融合中，对于基础层图像的融合采用算术平均策略融合。

4.根据权利要求1所述的一种基于图像融合和特征增强的煤矿井下行人检测方法，其特征在于：在所述图像融合中，对于细节层图像的融合使用加权平均的策略进行融合。

5.根据权利要求1所述的一种基于图像融合和特征增强的煤矿井下行人检测方法，其特征在于：在所述图像重构中，将融合后的深度图像和红外图像的基础层、深度图像和红外图像的细节层直接相加得到最终深度图像和红外图像的融合图像。

6.根据权利要求1所述的一种基于图像融合和特征增强的煤矿井下行人检测方法，其特征在于：在融合图像形态学处理中，采用先腐蚀后膨胀形态学开运算处理融合后的图像。

7.根据权利要求1所述的一种基于图像融合和特征增强的煤矿井下行人检测方法，其特征在于，在CornerNet-Squeeze主干网络后引入八度卷积OctConv的特征增强模块，具体处理步骤如下：