CN115331162A

CN115331162A - 一种跨尺度红外行人检测方法、系统、介质、设备及终端

Info

Publication number: CN115331162A
Application number: CN202210855690.3A
Authority: CN
Inventors: 郝帅; 何田; 马旭; 安倍逸; 张旭; 杨磊; 李嘉豪; 王海莹
Original assignee: Xian University of Science and Technology
Current assignee: Xian University of Science and Technology
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-11-11

Abstract

本发明属于行人检测技术领域，公开了一种跨尺度红外行人检测方法、系统、介质、设备及终端，构建亮度感知模块，通过结合四叉树‑贝塞尔插值算子及引导滤波器得到重构背景图像及亮度特征图像；设计EG‑Chimp优化模型并对构建的目标函数进行迭代寻优，得到动态特征优化图像；在YOLOv5算法框架下引入BiFPN特征金字塔结构；设计跨尺度特征融合模块以学习不同尺度特征间的权重参数；引入CIOU回归损失函数，实现跨尺度红外行人检测任务。本发明将传感器技术及目标检测算法进行交叉融合，提高检测网络对行人目标特征表达能力，改善多尺度及部分遮挡情况下红外行人检测性能，能够实现各种复杂环境下的跨尺度红外行人检测任务。

Description

一种跨尺度红外行人检测方法、系统、介质、设备及终端

技术领域

本发明属于行人检测技术领域，尤其涉及一种跨尺度红外行人检测方法、系统、介质、设备及终端。

背景技术

目前，行人检测技术旨在利用计算机视觉方法判断图像或者视频序列中是否存在行人目标并给予精确定位。由于行人兼具刚性和柔性物体的特性，外观易受穿着、尺度、遮挡、姿态和视角等影响，使得行人检测技术成为计算机视觉领域中一个既具有挑战性同时又极具研究价值的热门课题。目前，基于可见光/热红外图像的行人检测技术已广泛应用于事故预警、智能监控、车辆辅助驾驶、人体行为分析等领域。

可见光图像根据光学反射原理成像，具有丰富的细节纹理信息且符合人类视觉感知系统，但其极易受光照变化等各类环境因素影响，在夜间或大雨大雾等恶劣环境下难以精确识别行人目标。红外图像因其特有的热辐射成像特性，受光照变化及天气条件影响小，具有较强的抗干扰能力，能够满足全天候检测任务需求。因此，基于热红外图像的行人检测技术具有重要的研究意义，同时也是一个研究热点。

传统红外行人检测算法主要是利用滑窗技术实现人工特征提取并结合分类判别器完成行人检测任务，该类算法虽然在某些特定场景下能够实现目标的准确检测，但难以捕捉红外行人目标的高级语义信息且在人工特征提取阶段极大地依赖于专家经验，存在实时性欠佳、泛化能力弱、鲁棒性差等问题。

近些年，随着人工智能的飞速发展，计算机视觉技术通过将传感器、图像处理及模式识别等多学科交叉融合，从而利用计算机和摄像机代替人的大脑和眼睛来完成目标识别、跟踪和测量等任务，具有自动化程度高、成本低、易推广及实时监控能力强等优点，能够满足现阶段更高的行人检测要求。以计算机视觉为核心的红外行人检测系统通过设计基于深度学习的红外行人检测算法，利用卷积神经网络出色的特征提取和非线性拟合能力自动学习目标特征，无论在检测精度、速度以及泛化能力上都表现出优秀的检测效果。该类算法通常可分为两类：二阶段检测方法和单阶段检测方法。

二阶段检测方法首先寻找候选区域，然后在候选区域上对检测结果进行分类回归，代表算法如区域卷积神经网络(region-based convolutional neural network， R-CNN)、快速区域卷积神经网络faster region-based convolutional neural network，Faster R-CNN)等。该类算法能够达到较高检测精度，但因主干特征提取网络仅提取单层特征图，对红外行人目标特征表达能力不足，且在确定候选区域时需要一定时间，实时性普遍较差，从而导致红外行人目标检测性能受限。单阶段检测方法则基于回归思想，直接利用检测网络预测行人目标类别概率和定位坐标，进而大大提高了检测速率，代表算法如SSD(single shot multiBox detecton)， YOLO(You Only Look Once)系列等。该类算法能够较好地完成实时目标检测任务，但因红外传感器受其热灵敏性限制且红外行人目标存在多尺度及部分遮挡特性，易导致在复杂环境下红外行人目标难以有效表达，进而影响检测性能。虽然基于深度学习的红外行人检测算法相比于传统机器学习算法在检测精度和实时性方面均展现出明显优势，但该类算法检测性能通常与检测模型参数量及网络深度成正相关关系。当模型参数量越大，网络深度越深时，算法计算成本也相应越大，运行时间越长，从而出现检测网络实时效率及算法精度难以兼顾的问题。

因此，如何提高红外行人目标的特征表达能力，如何改善部分遮挡情况下红外行人目标检测性能以及如何兼顾检测网络实时效率及算法精度是现阶段亟需解决的技术问题。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有的基于可见光图像的行人检测技术极易受光照变化等各类环境因素影响，在夜间或大雨大雾等恶劣环境下难以精确识别所有行人目标，导致检测结果可靠性不足。

(2)传统红外行人检测算法难以捕捉红外行人目标的高级语义信息且在人工特征提取阶段极大地依赖于专家经验，存在实时性欠佳、泛化能力弱、鲁棒性差等问题，其检测效果往往难以保证。

(3)现有的二阶段检测方法因主干特征提取网络仅提取单层特征图，对红外行人目标特征表达能力不足，且在确定候选区域时需要一定时间，实时性普遍较差，从而导致红外行人目标检测性能受限。

(4)现有的单阶段检测方法中，红外传感器受热灵敏性限制，行人目标纹理特征较弱且存在边缘模糊现象，易淹没于冗余背景中，从而导致红外待检测目标特征难以有效表达，影响检测网络性能。

(5)在密集多目标场景下，红外行人目标存在多尺度及部分遮挡特性，进而出现红外行人特征形变甚至丢失问题，给红外行人检测带来一定挑战。

(6)算法检测性能通常与检测模型参数量及网络深度成正相关关系，但模型参数量越大，网络深度越深，则算法计算成本也相应越大，运行时间越长。因此，如何在不增加过多计算成本的基础上增强算法检测性能是目前红外行人检测技术的一大难题。

发明内容

针对现有技术存在的问题，本发明提供了一种跨尺度红外行人检测方法、系统、介质、设备及终端，尤其涉及一种动态特征优化机制下的跨尺度红外行人目标检测方法、系统、介质、设备及终端。

本发明是这样实现的，一种跨尺度红外行人检测方法，所述跨尺度红外行人检测方法包括：

构建亮度感知模块，通过结合四叉树-贝塞尔插值算子及引导滤波器得到重构背景图像及亮度特征图像；设计EG-Chimp优化模型并对构建的目标函数进行迭代寻优，得到动态特征优化图像；在YOLOv5算法框架下引入BiFPN特征金字塔结构以增强算法颈部网络的特征聚合能力；设计跨尺度特征融合模块以学习不同尺度特征间的权重参数；优化损失函数，通过引入CIOU回归损失函数加快算法收敛，进而实现跨尺度红外行人检测任务。

进一步，所述跨尺度红外行人检测方法包括以下步骤：

步骤一，结合四叉树-贝塞尔插值算子及引导滤波器构建亮度感知模块，从而获得重构背景图像及亮度特征图像，为后续图像自适应优化奠定良好基础；

步骤二，设计EG-Chimp优化模型，使其在增强输入图像局部对比度和细节表达能力的同时抑制背景信息干扰，并在YOLOv5检测算法框架下引入BiFPN 特征金字塔结构，通过尺度跳跃连接的方式，在不增加过多计算成本的基础上增强颈部网络特征聚合能力；

步骤三，构建跨尺度特征融合模块，利用可学习权重参数对多尺度特征进行权值分配，从而改善多尺度以及部分遮挡情况下的行人检测效果，进而实现密集多目标场景下红外行人检测任务。

进一步，所述亮度感知模块的构建包括：

(1)构建四叉树-贝塞尔插值算子，通过调节部分采样控制点来恢复大规模像素矩阵，进而得到初始背景图像；

(2)利用引导滤波的局部线性拟合特性平滑初始背景图像边缘信息，从而避免由于边缘控制点采样不均而造成的图像块效应问题；

(3)利用线性相减算子提取红外亮度特征图像。

进一步，所述EG-Chimp优化模型的设计包括：

(1)构建目标函数，旨在同时兼顾动态特征优化图像I_Oir的梯度变化和能量损失：

F＝min(L_SF+λL_CON)；

式中，L_SF表示空间频率函数，能够反映图像空间突变如边缘的变化情况，数值越高，则表明图像中人物目标越清晰；L_CON表示内容损失函数，能够避免在优化过程中由于行人目标亮度特征过度增强而导致其细节信息无法有效保留的问题；

(2)针对所构建的目标函数，引入人猿优化模型，通过模拟人猿捕食和混乱抢食2种状态，加快算法收敛，进而在保证动态特征优化图像空间频率的同时抑制其内容损失，最终得到动态特征优化图像。

进一步，所述BiFPN特征金字塔结构包括：

(1)在YOLOv5原始FPN-PAN金字塔结构基础上，删除仅有一条输入边的节点，减少网络参数量；

(2)颈部网络自顶向下传递强语义信息，自底向上传递强定位信息，进而对不同尺度信息进行特征聚合；

(3)采用尺度跳跃连接的方式，在不增加过多计算成本的基础上增强颈部网络特征聚合能力。

进一步，所述跨尺度特征融合模块的构建包括：

(1)对不同尺度特征进行尺度调整，在上采样过程中，利用1*1卷积调整通道数并引入最近邻插值提高分辨率；在下采样过程中，通过步长为2的3*3卷积完成1/2比例的下采样，并通过在2步卷积之前添加步长为2的最大池化层完成1/4比例的下采样；

(2)利用1*1的卷积预估计各输入特征的权重参数并通过soft-max归一化函数对其进行微调；

(3)对尺度调整后的输入特征进行权重分配得到融合后的输出特征。

所述CIOU损失函数通过计算两框重叠面积，中心点距离及宽高比提高预测框的回归速度：

式中，b和b^gt分别表示预测框和目标框的中心点，ρ(·)为两框中心点间的欧式距离，C表示覆盖预测框与目标框之间的最小矩形的斜距，

为限制预测框长宽比的权重参数，v表示衡量预测框与真实框宽高比的一致性参数。

本发明的另一目的在于提供一种应用所述的跨尺度红外行人检测方法的跨尺度红外行人检测系统，所述跨尺度红外行人检测系统包括：

亮度特征提取模块，用于构建亮度感知模块，通过结合四叉树-贝塞尔插值算子及引导滤波器得到重构背景图像及亮度特征图像；

动态特征优化模块，用于设计EG-Chimp优化模型并对构建的目标函数进行迭代寻优，得到动态特征优化图像；

跨尺度特征融合模块，用于在YOLOv5算法框架下引入BiFPN特征金字塔结构，设计跨尺度特征融合模块以学习不同尺度特征间的权重参数；

红外行人检测模块，用于优化损失函数，引入CIOU回归损失函数，利用可学习权重参数对多尺度特征进行权值分配实现红外行人检测。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的跨尺度红外行人检测方法。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述的跨尺度红外行人检测方法。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的跨尺度红外行人检测系统。

结合上述的技术方案和解决的技术问题，请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

行人检测是近年来计算机视觉领域的研究热点，其以深度学习算法为基础，图像视频的压缩、存储、传输、播放为核心占据了当今目标检测技术的制高点，已广泛应用于事故预警、智能监控、车辆辅助驾驶、人体行为分析等领域。但因行人目标姿态变化多样且存在多尺度及部分遮挡特性，使得行人检测技术成为计算机视觉领域中一个既具有挑战性同时又极具研究价值的热门课题。因此，在部分行人遮挡场景及多尺度密集多目标场景下实现红外行人目标精确检测任务具有重要的研究意义。在交通安全方面，能够避免交通事故的发生；在监控安防方面，能够防止可疑人员进出；在公共场所管理方面，能够优化人力资源分配。本发明旨在为复杂环境下行人检测任务提供一种新的思路。

本发明提供的动态特征优化机制下的跨尺度红外行人检测网络，针对复杂背景下热红外图像受自身成像机理影响导致目标特征难以有效表达进而影响检测精度的问题，提出一种动态特征优化机制。该机制利用亮度感知模块对输入图像进行亮度特征提取并设计EG-Chimp优化模型对构建的目标函数进行迭代寻优，从而在增强输入图像局部对比度和细节表达能力的同时抑制背景信息干扰；其次，为增强检测网络对多尺度及部分遮挡行人目标的检测性能，提出一种CSFF-BiFPN结构；其采用尺度跳跃连接方式有效增强了颈部网络对部分遮挡及多尺度行人目标的检测能力；并通过构建跨尺度特征融合模块，利用可学习权重参数对多尺度特征进行权值分配，有效解决了行人目标在多尺度密集多目标场景下由于特征表达能力不足而造成的漏检和误检问题；最后，为进一步精确定位行人目标，引入CIOU损失函数加速网络收敛，从而提升检测性能。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

本发明通过将传感器技术及目标检测算法进行交叉融合，提出了一种适用于部分行人遮挡场景及多尺度密集多目标场景的跨尺度红外行人检测网络，并取名为DOFM-CSNet，其从提高检测网络对行人目标特征表达能力出发，构建了融合亮度感知模块和EG-Chimp优化模型的动态特征优化算法，同时为进一步改善多尺度及部分遮挡情况下红外行人检测性能，设计了CSFF-BiFPN特征聚合结构。该网络有效解决了红外行人目标由于特征表达能力不足而造成的漏检和误检问题，能够实现各种复杂环境下的跨尺度红外行人检测任务。

第三，作为本发明的权利要求的创造性辅助证据，还体现在以下几个重要方面：

(1)本发明的技术方案转化后的预期收益和商业价值为：

本发明以深度学习算法为技术依托，融合模型及数据智能引擎，提出了一种动态特征优化机制下的红外行人检测算法，可拓展应用于智慧城市市场的各个细分领域中，如在交通安全领域，能够避免交通事故的发生；在监控安防领域，能够防止可疑人员进出；在公共场所管理领域，能够优化人力资源分配，具有重要的研究意义及商业价值。

(2)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题：

本发明针对现阶段行人检测领域存在的红外行人目标特征表达能力较弱，检测精度与模型轻量化难以兼顾以及多尺度及部分行人遮挡情况下检测性能较差3大技术难题，提出一种动态特征优化机制下的跨尺度红外行人检测算法，其通过结合亮度感知模块及动态特征优化模型在增强输入图像局部对比度和细节表达能力的同时抑制背景信息干扰，从而提高检测算法对红外行人目标的特征表达能力；同时，在YOLOv5检测网络基础上引入BiFPN特征金字塔结构，采用尺度跳跃连接的方式，在不增加过多计算成本的基础上增强颈部网络特征聚合能力，提升算法检测精度；最后，构建跨尺度特征融合模块来学习不同尺度特征之间的权重参数，使其能够在复杂环境中实现红外行人多尺度及部分遮挡目标的准确检测任务。综上所述，本发明能够解决现阶段亟需解决的技术问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的跨尺度红外行人检测方法流程图；

图2是本发明实施例提供的跨尺度红外行人检测方法原理图；

图3是本发明实施例提供的动态特征优化前后对比示意图；

图4是本发明实施例提供的改进前后特征金字塔对比示意图；其中，图(a) 是FPN+PAN特征金字塔示意图，图(b)是CSFF-BiFPN特征金字塔示意图；

图5是本发明实施例提供的跨尺度特征融合模块示意图；其中，图(a)是两尺度特征融合模块示意图，图(b)是三尺度特征融合模块示意图；

图6是本发明实施例提供的改进前后损失对比曲线示意图；

图7是本发明实施例提供的改进前后平均准确值对比曲线示意图；

图8是本发明实施例提供的不同算法检测结果对比示意图；其中，图(a)是部分行人遮挡场景下各算法检测结果示意图，图(b)是多尺度密集多目标场景下各算法检测结果示意图，图(c)是亮度过曝场景下各算法检测结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种跨尺度红外行人检测方法、系统、介质、设备及终端，下面结合附图对本发明作详细的描述。

一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

如图1所示，本发明实施例提供的跨尺度红外行人检测方法包括以下步骤：

S101，构建亮度感知模块，其通过结合四叉树-贝塞尔插值算子及引导滤波器得到重构背景图像及亮度特征图像；

S102，设计EG-Chimp优化模型对构建的目标函数进行迭代寻优，从而在增强输入图像局部对比度和细节表达能力的同时抑制背景信息干扰，得到动态特征优化图像，为后续的红外行人检测任务奠定基础；

S103，在YOLOv5算法框架下，引入BiFPN特征金字塔结构，增强颈部网络特征聚合能力；

S104，设计跨尺度特征融合模块以学习不同尺度特征之间的权重参数，改善多尺度以及部分遮挡情况下的行人检测效果；

S105，优化损失函数，通过引入CIOU(Complete intersection over union) 回归损失函数提高训练过程中预测框的回归速度和精度，实现跨尺度红外行人检测任务。

作为优选实施例，如图2所示，本发明实施例提供的跨尺度红外行人检测方法具体包括：

1、动态特征优化机制

受红外传感器热辐射成像机理影响，红外图像相较于可见光图像分辨率往往较低，细节分辨能力较弱，给后续行人目标准确检测带来一定挑战。为此，本发明提出一种DFOM(Dynamic feature optimization mechanism)机制以增强输入图像行人目标对比度和细节表达能力，该机制由亮度感知模块和EG-Chimp优化模型两部分组成。

1.1亮度感知模块

为解决因热红外图像分辨率、对比度低等缺陷导致红外行人目标特征难以准确表达问题，设计LPM(Luminance perception module)模块。首先，构建四叉树-贝塞尔插值算子，通过调节部分采样控制点来恢复大规模像素矩阵，进而得到初始背景图像。然后，为避免由于边缘控制点采样不均而造成图像块效应，利用引导滤波的局部线性拟合特性平滑图像边缘信息，最终得到重构背景图像和亮度特征图像。

1.1.1四叉树-贝塞尔插值

为准确重构红外背景图像，引入四叉树分解方法，通过尽可能多地采样除红外亮度区域外的控制点来估计背景轮廓信息。首先，将输入图像调整至 512×512尺寸大小，然后利用式(1)进行分解。

式中，QTD(·)表示四叉树分解算子；N为分解次数；I_N表示分解图像块；MIN 为允许分解的最小灰度值；threshold表示分解阈值，当图像块内最大灰度值

及最小灰度值

之差大于阈值时进行分解，否则分解结束。

通过四叉树分解算法可将输入图像分割为多个图像块，从各图像块中均匀采样16个控制点后，利用贝塞尔插值运算子重建红外背景图像，数学描述如下：

I_b(x，y)＝XMPM^TY^T (2)

式中，(x，y)表示插值采样点；P表示由16个采样控制点组成的4×4矩阵；X 和Y表示与插值采样点相关的可变插值系数；M表示常系数插值矩阵。各参数数学描述如式(3)～(4)所示。

1.1.2引导滤波

为解决采样过程中各图像块边缘区域控制点因选取不一导致重构背景图像出现块效应问题，本发明采用引导滤波对初始背景图像进行平滑处理，数学描述如下：

式中，I_Bir表示红外背景图像；w_k表示以像素k为中心的图像块；a_k和b_k为两线性参数，具体取值分别如式(6)和(7)所示。

式中，μ_k和

分别表示引导图像I_ir在w_k中的像素均值和方差；

代表

的像素均值；|w|为w_k图像块内包含的像素点个数；ε则表示正则化参数，以避免a_k取值过大。

最后，利用线性相减算子可提取红外亮度特征图像I_Lir，数学描述如下：

I_Lir＝I_ir-I_Bir (8)

1.2 EG-Chimp优化模型

为抑制复杂背景对行人目标准确检测的不利影响，本发明提出EG-Chimp优化模型，通过迭代寻优生成具有局部高对比度的动态特征优化图像I_Oir，数学描述如下：

I_Oir＝α×I_Lir+I_Bir (9)

式中，α为寻优参数。优化设计步骤如下。

1.2.1目标函数构建

本发明所构建的目标函数旨在同时兼顾动态特征优化图像的梯度变化和能量损失，分别用空间频率L_SF和内容损失L_CON表示。

(1)空间频率函数

空间频率(Spatial frequency，SF)反映图像空间突变如边缘的变化情况，用于度量图像的梯度分布，若图像SF值越高，则表明图像中人物目标越清晰，数学描述如下：

(2)内容损失函数

为避免在优化过程中由于行人目标亮度特征过度增强而导致其细节信息无法有效保留的问题，本发明利用l₂函数构建内容损失函数，数学描述如下：

综上所述，为了增强原始红外图像中行人亮度特征的同时使其能够兼顾细节信息，构造的目标函数数学描述如下：

F＝min(L_SF+λL_CON) (12)

式中，λ为保持两项平衡的正则化参数，本发明λ＝1/500。

1.2.2目标函数自适应优化

元启发式优化算法由于其简单、灵活、高效等特点，已成为解决全局优化问题的主要技术。然而随着问题复杂性的增加，该类算法易出现收敛速度较慢，陷入局部最优解等问题。为此，针对本发明所构建的目标函数即公式(12)，引入人猿优化算法，通过模拟人猿捕食和混乱抢食2种状态，加快算法收敛，进而在保证动态特征优化图像空间频率的同时抑制其内容损失。其将人猿划分为攻击型X_Attacker、驱赶型X_Chaser、拦截型X_Bamier和追逐型X_Driver四类。狩猎过程中，人猿可根据猎物的位置相应的改变各自位置，数学描述如下：

式中，t表示当前迭代的次数，X_prey为猎物的位置向量，X_chimp为人猿的位置向量，a、c和m为系数向量，数学描述如下：

式中，f在迭代过程中由2.5非线性递减至0，r₁和r₂是[0，1]范围内的随机向量，m表示为一个基于高斯混沌映射得到的混沌向量，代表了人猿在狩猎过程中混乱抢食的社会现象。

当将猎物包围后，由驱赶者、拦截者、追逐者辅助攻击者完成最终狩猎任务。为提高算法收敛速度，模型在迭代后期模拟了人猿混乱抢食过程，数学描述如下：

式中，χ为[0，1]内的随机参数。

狩猎过程中，一方面人猿根据攻击者、驱赶者、拦截者和追逐者位置更新位置，并攻击猎物；另一方面人猿通过分散活动寻找猎物完成全局搜索任务。最终，通过多次迭代，可得到动态特征优化图像，如图3所示。

2、基于CSFF-BiFPN的颈部网络

2.1 CSFF-BiFPN金字塔结构

原始Yolov5网络为提高不同尺度间特征聚合能力，利用FPN+PAN结构在自底向上传递强语义信息的同时，自顶向下传递强定位信息。然而，该结构将不同尺度特征图进行尺寸调整后直接相加聚合，无法充分利用输入端的跨尺度信息，进而影响最终检测精度。为解决此问题，本发明构建CSFF-BiFPN特征金字塔结构，通过尺度跳跃连接方式提高网络特征聚合的能力，步骤如下：

(1)删除仅有一条输入边的节点，减少网络参数量。

(2)借鉴FPN-PAN结构，从两个方向分别传递强语义和强定位信息。

(3)为进一步利用输入特征的跨尺度信息，通过尺度跳跃连接的方式提高网络特征聚合能力。

(4)跨尺度特征融合模块CSFF_2和CSFF_3对来自不同输入端的特征信息进行权重分配。

本发明实施例提供的特征金字塔结构对比图如图4所示。

2.2跨尺度特征融合模块

FPN-PAN结构对来自不同尺度的输入特征进行尺度调整后直接进行相加运算，易导致特征融合不足的问题。为此，本发明设计了跨尺度特征融合模块 CSFF_2和CSFF_3，自适应学习尺度不同的输入特征权重参数，模型结构见图5。

将level i的输入特征记作I_i，其中i∈[1，2，3]。首先，对不同尺度特征进行尺度调整，在上采样过程中，利用1*1的卷积调整通道数并引入最近邻插值提高分辨率，在下采样过程中，通过步长为2的3*3卷积完成1/2比例的下采样，并通过在2 步卷积之前添加步长为2的最大池化层完成1/4比例的下采样；接着，利用1*1的卷积预估计各输入特征的权重参数并通过soft-max归一化函数对其进行微调；最后，对尺度调整后的输入特征进行权重分配得到融合后的输出特征，数学描述如下：

式中，

表示level i调整到level l后的特征信息，

γ，ψ，δ和η表示各跨尺度特征融合通过soft-max函数归一化后得到的可学习权重参数，数学描述如下：

式中，

λ_γ，λ_ψ，λ_δ和λ_η表示利用1*1卷积得到的预估计权重参数。

本发明实施例提供的跨尺度红外行人检测系统包括：

二、应用实施例。为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

本发明以深度学习算法为基础，图像视频的压缩、存储、传输、播放为核心，在部分行人遮挡场景及多尺度密集多目标场景下均能实现红外行人目标的精确检测，已广泛应用于事故预警、智能监控、车辆辅助驾驶、人体行为分析等任务中，具有重要的研究意义，具体应用实例分析如下：

1.在交通安全方面，与物联网、大数据等科技融合，能够完成与城市交通指挥调度应用平台对接，减少交通事故的发生；

2.在监控安防方面，能够在保障城市应急指挥，监控调度及安全防护的同时加大信息化覆盖程度，从而实现安防布控与人物追踪等关键任务；

3.在公共场所管理方面，完善并优化人力资源分配水平，提高人员安全及疫情防控的管理效率。

三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合试验过程的数据、图表等进行描述。

本发明实施例提供的模型训练及结果分析如下：

1、网络模型训练

本发明实验中软硬件平台配置：操作系统：Microsoft Windows 10；GPU： NVIDIAGeForce GTX 1660 Ti；CPU：Intel Core i5-10400F@2.90GHz×6 CPUs； CUDA：11.1；深度学习框架：Pytorch。

为验证本发明所提出算法的优势，从KAIST数据集中随机选取1000张样本数据进行实验，行人目标共5384个。其中，训练样本为700张，剩余300张图片作为测试数据集。在网络模型训练过程中，将输入图像分辨率统一调整为640×640，并采用动量项为0.937的异步随机梯度下降法进行训练，在每一批训练的batch中包含32张图片，分29次送入训练网络。在前200轮将训练中的学习率设置为0.01，随着迭代轮数的增加，在后100轮迭代中将训练的学习率降到0.001。为了防止模型过拟合，将权重衰减正则项设置为5E-3，同时选用CIOU损失函数通过计算两框重叠面积，中心点距离及宽高比提高预测框的回归速度，数学描述如下：

2、图像对比度分析

为验证本发明所提出动态特征优化机制的有效性，选取熵(Entropy)， Brenner梯度函数，离散余弦变换函数(Discrete Cosine Transform，DCT)和 Vollaths函数作为客观评价指标。其中，Entropy表征了图像所含信息量的丰富程度，Brenner通过计算图像二阶梯度估计其清晰程度，DCT突出图像频率分布信息，Vollath则从空间两点的相似性考虑，评估图像的离焦程度。Entropy，Brenner， DCT和Vollath数值越大，则表示动态特征优化后图像对比度越高，具有越强的特征表达能力。对KAIST数据集中随机选取1000张样本数据进行测试验证，其定量分析结果如表1所示。

表1 1000张图片的评价指标平均值

由表1可知，本发明所提出的动态特征优化算法在以上4种评价指标中均为最优，从而证明原始图像经过动态特征优化后不仅包含更丰富的信息量，同时具有最强的对比度和最好的特征表达能力。

3、定量实验分析

为客观评估本发明算法的检测性能，将DFOM-CSNet检测网络与原始 YOLOv5检测框架进行对比，损失对比曲线如图6所示，平均准确值对比曲线如图7所示。

从图6可以看出，YOLOv5检测网络约在75轮后达到平衡且最终稳定于 0.018。而本发明提出的DFOM-CSNet检测算法仅训练20轮损失值即下降至0.02，并最终稳定于0.009左右，取得了较好的训练效果。从图7可以看出，YOLOv5 检测网络最终平均准确率大致为0.895左右，而本发明算法检测精度可达到0.913。

为定量评估本发明检测网络的优势，选取Faster-RCNN、SSD、Sparse R-CNN、NAS-FCOS、TOOD、VarifocalNet、Auto-assign、YOLOv3、YOLOv4 及YOLOv5 10种经典算法对KAIST数据测试集进行对比实验，所有目标检测算法均使用相同数据样本和参数设置，检测结果如表2所示。其中，结果最佳值以粗体表示。

表2不同检测算法对比结果

通过表2可以看出，本发明算法在检测精度上明显优于其它10种对比算法。虽然本发明算法在检测速度上略低于YOLOv5检测网络，但相比于其余对比算法仍具有明显优势。

4、定性实验分析

为进一步客观评价本发明算法的优势，分别对部分行人遮挡场景、多尺度密集多目标场景以及亮度过曝场景进行对比测试，对比结果如图8所示。为了便于观察和后续分析，各算法的漏检和误检区域已用虚线框进行标注。

从第1组实验可以看出，除DFOM-CSNet检测算法外其余几种对比算法在处理部分行人遮挡场景时均存在不同程度的漏检问题。从第2组实验可以看出，在复杂环境下Faster-RCNN、SSD、NAS-FCOS、TOOD以及YOLOv3算法存在较为严重的漏检问题，而SparseRCNN、VarifocalNet、Auto-assign、YOLOv4 和YOLOv5检测框架对不同尺度间特征信息的聚合能力不足，难以实现多尺度行人目标准确检测任务。本发明所提出的DFOM-CSNet检测算法通过设计 CSFF-BiFPN特征金字塔结构以增强网络特征聚合能力并构建跨尺度融合模块对不同尺度特征进行权重分配，从而有效提高了多尺度密集多目标场景下行人目标的检测性能。从第3组实验可以看出，在夜间模糊场景下，除Sparse RCNN 外，受日间过度光照影响，红外图像无法准确表达行人目标细节信息，进而导致各种算法在检测过程中均出现较多漏检现象。本发明所提出的DFOM-CSNet 检测算法通过通过设计动态特征优化机制可以有效增强红外图像局部对比度并提高网络特征聚合能力，进而提升算法检测精度。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种跨尺度红外行人检测方法，其特征在于，所述跨尺度红外行人检测方法包括：

2.如权利要求1所述的跨尺度红外行人检测方法，其特征在于，所述跨尺度红外行人检测方法包括以下步骤：

步骤一，结合四叉树-贝塞尔插值算子及引导滤波器构建亮度感知模块并对输入图像进行亮度特征提取；

步骤二，设计EG-Chimp优化模型，搭建YOLOv5检测算法框架并引入BiFPN特征金字塔结构，同时进行尺度跳跃连接；

步骤三，构建跨尺度特征融合模块，利用可学习权重参数对多尺度特征进行权值分配实现密集多目标场景下红外行人检测任务。

3.如权利要求1所述的跨尺度红外行人检测方法，其特征在于，所述亮度感知模块的构建包括：

(1)构建四叉树-贝塞尔插值算子，通过调节部分采样控制点恢复大规模像素矩阵，进而得到初始背景图像；

(2)利用引导滤波的局部线性拟合特性平滑初始背景图像边缘信息；

(3)利用线性相减算子提取红外亮度特征图像。

4.如权利要求1所述的跨尺度红外行人检测方法，其特征在于，所述EG-Chimp优化模型的设计包括：

(2)构建目标函数，同时兼顾动态特征优化图像I_Oir的梯度变化和能量损失：

F＝min(L_SF+λL_CON)；

式中，L_SF表示空间频率函数，能够反映图像空间突变如边缘的变化情况，数值越高，则表明图像中人物目标越清晰；L_CON表示内容损失函数；

(2)针对所构建的目标函数，引入人猿优化模型，通过模拟人猿捕食和混乱抢食2种状态，最终得到动态特征优化图像。

5.如权利要求1所述的跨尺度红外行人检测方法，其特征在于，所述BiFPN特征金字塔结构包括：

(3)在YOLOv5原始FPN-PAN金字塔结构基础上，删除仅有一条输入边的节点；

(4)颈部网络自顶向下传递强语义信息，自底向上传递强定位信息，进而对不同尺度信息进行特征聚合；

(3)采用尺度跳跃连接的方式增强颈部网络特征聚合能力。

6.如权利要求1所述的跨尺度红外行人检测方法，其特征在于，所述跨尺度特征融合模块的构建包括：

(1)对不同尺度特征进行尺度调整，在上采样过程中，利用1*1卷积调整通道数并引入最近邻插值；在下采样过程中，通过步长为2的3*3卷积完成1/2比例的下采样，并通过在2步卷积之前添加步长为2的最大池化层完成1/4比例的下采样；

(2)利用1*1的卷积预估计各输入特征的权重参数并通过soft-max归一化函数进行微调；

(3)对尺度调整后的输入特征进行权重分配得到融合后的输出特征；

所述CIOU损失函数通过计算两框重叠面积、中心点距离及宽高比提高预测框的回归速度：

7.一种应用如权利要求1～6任意一项所述的跨尺度红外行人检测方法的跨尺度红外行人检测系统，其特征在于，所述跨尺度红外行人检测系统包括：

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1～6任意一项所述的跨尺度红外行人检测方法。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1～6任意一项所述的跨尺度红外行人检测方法。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求7所述的跨尺度红外行人检测系统。