CN115331162A - 一种跨尺度红外行人检测方法、系统、介质、设备及终端 - Google Patents
一种跨尺度红外行人检测方法、系统、介质、设备及终端 Download PDFInfo
- Publication number
- CN115331162A CN115331162A CN202210855690.3A CN202210855690A CN115331162A CN 115331162 A CN115331162 A CN 115331162A CN 202210855690 A CN202210855690 A CN 202210855690A CN 115331162 A CN115331162 A CN 115331162A
- Authority
- CN
- China
- Prior art keywords
- scale
- cross
- pedestrian detection
- image
- infrared pedestrian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 161
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 73
- 238000005457 optimization Methods 0.000 claims abstract description 65
- 230000006870 function Effects 0.000 claims abstract description 49
- 230000004927 fusion Effects 0.000 claims abstract description 28
- 230000008447 perception Effects 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 18
- 230000002776 aggregation Effects 0.000 claims description 15
- 238000004220 aggregation Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 230000000739 chaotic effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 17
- 230000007246 mechanism Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 230000008901 benefit Effects 0.000 description 11
- 238000012549 training Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 241001272567 Hominoidea Species 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 230000004438 eyesight Effects 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 241001156002 Anthonomus pomorum Species 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000010410 layer Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 230000008542 thermal sensitivity Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4023—Scaling of whole images or parts thereof, e.g. expanding or contracting based on decimating pixels or lines of pixels; based on inserting pixels or lines of pixels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Traffic Control Systems (AREA)
- Geophysics And Detection Of Objects (AREA)
Abstract
本发明属于行人检测技术领域,公开了一种跨尺度红外行人检测方法、系统、介质、设备及终端,构建亮度感知模块,通过结合四叉树‑贝塞尔插值算子及引导滤波器得到重构背景图像及亮度特征图像;设计EG‑Chimp优化模型并对构建的目标函数进行迭代寻优,得到动态特征优化图像;在YOLOv5算法框架下引入BiFPN特征金字塔结构;设计跨尺度特征融合模块以学习不同尺度特征间的权重参数;引入CIOU回归损失函数,实现跨尺度红外行人检测任务。本发明将传感器技术及目标检测算法进行交叉融合,提高检测网络对行人目标特征表达能力,改善多尺度及部分遮挡情况下红外行人检测性能,能够实现各种复杂环境下的跨尺度红外行人检测任务。
Description
技术领域
本发明属于行人检测技术领域,尤其涉及一种跨尺度红外行人检测方法、 系统、介质、设备及终端。
背景技术
目前,行人检测技术旨在利用计算机视觉方法判断图像或者视频序列中是 否存在行人目标并给予精确定位。由于行人兼具刚性和柔性物体的特性,外观 易受穿着、尺度、遮挡、姿态和视角等影响,使得行人检测技术成为计算机视 觉领域中一个既具有挑战性同时又极具研究价值的热门课题。目前,基于可见 光/热红外图像的行人检测技术已广泛应用于事故预警、智能监控、车辆辅助驾 驶、人体行为分析等领域。
可见光图像根据光学反射原理成像,具有丰富的细节纹理信息且符合人类 视觉感知系统,但其极易受光照变化等各类环境因素影响,在夜间或大雨大雾 等恶劣环境下难以精确识别行人目标。红外图像因其特有的热辐射成像特性, 受光照变化及天气条件影响小,具有较强的抗干扰能力,能够满足全天候检测 任务需求。因此,基于热红外图像的行人检测技术具有重要的研究意义,同时 也是一个研究热点。
传统红外行人检测算法主要是利用滑窗技术实现人工特征提取并结合分类 判别器完成行人检测任务,该类算法虽然在某些特定场景下能够实现目标的准 确检测,但难以捕捉红外行人目标的高级语义信息且在人工特征提取阶段极大 地依赖于专家经验,存在实时性欠佳、泛化能力弱、鲁棒性差等问题。
近些年,随着人工智能的飞速发展,计算机视觉技术通过将传感器、图像 处理及模式识别等多学科交叉融合,从而利用计算机和摄像机代替人的大脑和 眼睛来完成目标识别、跟踪和测量等任务,具有自动化程度高、成本低、易推 广及实时监控能力强等优点,能够满足现阶段更高的行人检测要求。以计算机 视觉为核心的红外行人检测系统通过设计基于深度学习的红外行人检测算法, 利用卷积神经网络出色的特征提取和非线性拟合能力自动学习目标特征,无论 在检测精度、速度以及泛化能力上都表现出优秀的检测效果。该类算法通常可 分为两类:二阶段检测方法和单阶段检测方法。
二阶段检测方法首先寻找候选区域,然后在候选区域上对检测结果进行分 类回归,代表算法如区域卷积神经网络(region-based convolutional neural network, R-CNN)、快速区域卷积神经网络faster region-based convolutional neural network,Faster R-CNN)等。该类算法能够达到较高检测精度,但因主干特征提取网络仅 提取单层特征图,对红外行人目标特征表达能力不足,且在确定候选区域时需 要一定时间,实时性普遍较差,从而导致红外行人目标检测性能受限。单阶段 检测方法则基于回归思想,直接利用检测网络预测行人目标类别概率和定位坐 标,进而大大提高了检测速率,代表算法如SSD(single shot multiBox detecton), YOLO(You Only Look Once)系列等。该类算法能够较好地完成实时目标检测 任务,但因红外传感器受其热灵敏性限制且红外行人目标存在多尺度及部分遮 挡特性,易导致在复杂环境下红外行人目标难以有效表达,进而影响检测性能。 虽然基于深度学习的红外行人检测算法相比于传统机器学习算法在检测精度和实时性方面均展现出明显优势,但该类算法检测性能通常与检测模型参数量及 网络深度成正相关关系。当模型参数量越大,网络深度越深时,算法计算成本 也相应越大,运行时间越长,从而出现检测网络实时效率及算法精度难以兼顾 的问题。
因此,如何提高红外行人目标的特征表达能力,如何改善部分遮挡情况下 红外行人目标检测性能以及如何兼顾检测网络实时效率及算法精度是现阶段亟 需解决的技术问题。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有的基于可见光图像的行人检测技术极易受光照变化等各类环境因 素影响,在夜间或大雨大雾等恶劣环境下难以精确识别所有行人目标,导致检 测结果可靠性不足。
(2)传统红外行人检测算法难以捕捉红外行人目标的高级语义信息且在人 工特征提取阶段极大地依赖于专家经验,存在实时性欠佳、泛化能力弱、鲁棒 性差等问题,其检测效果往往难以保证。
(3)现有的二阶段检测方法因主干特征提取网络仅提取单层特征图,对红 外行人目标特征表达能力不足,且在确定候选区域时需要一定时间,实时性普 遍较差,从而导致红外行人目标检测性能受限。
(4)现有的单阶段检测方法中,红外传感器受热灵敏性限制,行人目标纹 理特征较弱且存在边缘模糊现象,易淹没于冗余背景中,从而导致红外待检测 目标特征难以有效表达,影响检测网络性能。
(5)在密集多目标场景下,红外行人目标存在多尺度及部分遮挡特性,进 而出现红外行人特征形变甚至丢失问题,给红外行人检测带来一定挑战。
(6)算法检测性能通常与检测模型参数量及网络深度成正相关关系,但模 型参数量越大,网络深度越深,则算法计算成本也相应越大,运行时间越长。 因此,如何在不增加过多计算成本的基础上增强算法检测性能是目前红外行人 检测技术的一大难题。
发明内容
针对现有技术存在的问题,本发明提供了一种跨尺度红外行人检测方法、 系统、介质、设备及终端,尤其涉及一种动态特征优化机制下的跨尺度红外行 人目标检测方法、系统、介质、设备及终端。
本发明是这样实现的,一种跨尺度红外行人检测方法,所述跨尺度红外行 人检测方法包括:
构建亮度感知模块,通过结合四叉树-贝塞尔插值算子及引导滤波器得到重 构背景图像及亮度特征图像;设计EG-Chimp优化模型并对构建的目标函数进行 迭代寻优,得到动态特征优化图像;在YOLOv5算法框架下引入BiFPN特征金 字塔结构以增强算法颈部网络的特征聚合能力;设计跨尺度特征融合模块以学 习不同尺度特征间的权重参数;优化损失函数,通过引入CIOU回归损失函数 加快算法收敛,进而实现跨尺度红外行人检测任务。
进一步,所述跨尺度红外行人检测方法包括以下步骤:
步骤一,结合四叉树-贝塞尔插值算子及引导滤波器构建亮度感知模块,从 而获得重构背景图像及亮度特征图像,为后续图像自适应优化奠定良好基础;
步骤二,设计EG-Chimp优化模型,使其在增强输入图像局部对比度和细节 表达能力的同时抑制背景信息干扰,并在YOLOv5检测算法框架下引入BiFPN 特征金字塔结构,通过尺度跳跃连接的方式,在不增加过多计算成本的基础上 增强颈部网络特征聚合能力;
步骤三,构建跨尺度特征融合模块,利用可学习权重参数对多尺度特征进 行权值分配,从而改善多尺度以及部分遮挡情况下的行人检测效果,进而实现 密集多目标场景下红外行人检测任务。
进一步,所述亮度感知模块的构建包括:
(1)构建四叉树-贝塞尔插值算子,通过调节部分采样控制点来恢复大规模 像素矩阵,进而得到初始背景图像;
(2)利用引导滤波的局部线性拟合特性平滑初始背景图像边缘信息,从而 避免由于边缘控制点采样不均而造成的图像块效应问题;
(3)利用线性相减算子提取红外亮度特征图像。
进一步,所述EG-Chimp优化模型的设计包括:
(1)构建目标函数,旨在同时兼顾动态特征优化图像IOir的梯度变化和能量 损失:
F=min(LSF+λLCON);
式中,LSF表示空间频率函数,能够反映图像空间突变如边缘的变化情况, 数值越高,则表明图像中人物目标越清晰;LCON表示内容损失函数,能够避免在 优化过程中由于行人目标亮度特征过度增强而导致其细节信息无法有效保留的 问题;
(2)针对所构建的目标函数,引入人猿优化模型,通过模拟人猿捕食和混 乱抢食2种状态,加快算法收敛,进而在保证动态特征优化图像空间频率的同 时抑制其内容损失,最终得到动态特征优化图像。
进一步,所述BiFPN特征金字塔结构包括:
(1)在YOLOv5原始FPN-PAN金字塔结构基础上,删除仅有一条输入边 的节点,减少网络参数量;
(2)颈部网络自顶向下传递强语义信息,自底向上传递强定位信息,进而 对不同尺度信息进行特征聚合;
(3)采用尺度跳跃连接的方式,在不增加过多计算成本的基础上增强颈部 网络特征聚合能力。
进一步,所述跨尺度特征融合模块的构建包括:
(1)对不同尺度特征进行尺度调整,在上采样过程中,利用1*1卷积调整 通道数并引入最近邻插值提高分辨率;在下采样过程中,通过步长为2的3*3卷 积完成1/2比例的下采样,并通过在2步卷积之前添加步长为2的最大池化层完 成1/4比例的下采样;
(2)利用1*1的卷积预估计各输入特征的权重参数并通过soft-max归一化 函数对其进行微调;
(3)对尺度调整后的输入特征进行权重分配得到融合后的输出特征。
所述CIOU损失函数通过计算两框重叠面积,中心点距离及宽高比提高预 测框的回归速度:
式中,b和bgt分别表示预测框和目标框的中心点,ρ(·)为两框中心点间的欧 式距离,C表示覆盖预测框与目标框之间的最小矩形的斜距,为限制预测框长 宽比的权重参数,v表示衡量预测框与真实框宽高比的一致性参数。
本发明的另一目的在于提供一种应用所述的跨尺度红外行人检测方法的跨 尺度红外行人检测系统,所述跨尺度红外行人检测系统包括:
亮度特征提取模块,用于构建亮度感知模块,通过结合四叉树-贝塞尔插值 算子及引导滤波器得到重构背景图像及亮度特征图像;
动态特征优化模块,用于设计EG-Chimp优化模型并对构建的目标函数进行 迭代寻优,得到动态特征优化图像;
跨尺度特征融合模块,用于在YOLOv5算法框架下引入BiFPN特征金字塔 结构,设计跨尺度特征融合模块以学习不同尺度特征间的权重参数;
红外行人检测模块,用于优化损失函数,引入CIOU回归损失函数,利用 可学习权重参数对多尺度特征进行权值分配实现红外行人检测。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器 和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行 时,使得所述处理器执行所述的跨尺度红外行人检测方法。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序, 所述计算机程序被处理器执行时,使得所述处理器执行所述的跨尺度红外行人 检测方法。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终 端用于实现所述的跨尺度红外行人检测系统。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要 保护的技术方案所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结 合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地 分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造 性的技术效果。具体描述如下:
行人检测是近年来计算机视觉领域的研究热点,其以深度学习算法为基础, 图像视频的压缩、存储、传输、播放为核心占据了当今目标检测技术的制高点, 已广泛应用于事故预警、智能监控、车辆辅助驾驶、人体行为分析等领域。但 因行人目标姿态变化多样且存在多尺度及部分遮挡特性,使得行人检测技术成 为计算机视觉领域中一个既具有挑战性同时又极具研究价值的热门课题。因此, 在部分行人遮挡场景及多尺度密集多目标场景下实现红外行人目标精确检测任 务具有重要的研究意义。在交通安全方面,能够避免交通事故的发生;在监控 安防方面,能够防止可疑人员进出;在公共场所管理方面,能够优化人力资源 分配。本发明旨在为复杂环境下行人检测任务提供一种新的思路。
本发明提供的动态特征优化机制下的跨尺度红外行人检测网络,针对复杂 背景下热红外图像受自身成像机理影响导致目标特征难以有效表达进而影响检 测精度的问题,提出一种动态特征优化机制。该机制利用亮度感知模块对输入 图像进行亮度特征提取并设计EG-Chimp优化模型对构建的目标函数进行迭代 寻优,从而在增强输入图像局部对比度和细节表达能力的同时抑制背景信息干 扰;其次,为增强检测网络对多尺度及部分遮挡行人目标的检测性能,提出一 种CSFF-BiFPN结构;其采用尺度跳跃连接方式有效增强了颈部网络对部分遮 挡及多尺度行人目标的检测能力;并通过构建跨尺度特征融合模块,利用可学 习权重参数对多尺度特征进行权值分配,有效解决了行人目标在多尺度密集多 目标场景下由于特征表达能力不足而造成的漏检和误检问题;最后,为进一步 精确定位行人目标,引入CIOU损失函数加速网络收敛,从而提升检测性能。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技 术方案具备的技术效果和优点,具体描述如下:
本发明通过将传感器技术及目标检测算法进行交叉融合,提出了一种适用 于部分行人遮挡场景及多尺度密集多目标场景的跨尺度红外行人检测网络,并 取名为DOFM-CSNet,其从提高检测网络对行人目标特征表达能力出发,构建 了融合亮度感知模块和EG-Chimp优化模型的动态特征优化算法,同时为进一步 改善多尺度及部分遮挡情况下红外行人检测性能,设计了CSFF-BiFPN特征聚 合结构。该网络有效解决了红外行人目标由于特征表达能力不足而造成的漏检 和误检问题,能够实现各种复杂环境下的跨尺度红外行人检测任务。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要 方面:
(1)本发明的技术方案转化后的预期收益和商业价值为:
本发明以深度学习算法为技术依托,融合模型及数据智能引擎,提出了一 种动态特征优化机制下的红外行人检测算法,可拓展应用于智慧城市市场的各 个细分领域中,如在交通安全领域,能够避免交通事故的发生;在监控安防领 域,能够防止可疑人员进出;在公共场所管理领域,能够优化人力资源分配, 具有重要的研究意义及商业价值。
(2)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的 技术难题:
本发明针对现阶段行人检测领域存在的红外行人目标特征表达能力较弱, 检测精度与模型轻量化难以兼顾以及多尺度及部分行人遮挡情况下检测性能较 差3大技术难题,提出一种动态特征优化机制下的跨尺度红外行人检测算法, 其通过结合亮度感知模块及动态特征优化模型在增强输入图像局部对比度和细 节表达能力的同时抑制背景信息干扰,从而提高检测算法对红外行人目标的特 征表达能力;同时,在YOLOv5检测网络基础上引入BiFPN特征金字塔结构, 采用尺度跳跃连接的方式,在不增加过多计算成本的基础上增强颈部网络特征 聚合能力,提升算法检测精度;最后,构建跨尺度特征融合模块来学习不同尺 度特征之间的权重参数,使其能够在复杂环境中实现红外行人多尺度及部分遮 挡目标的准确检测任务。综上所述,本发明能够解决现阶段亟需解决的技术问 题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所 需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下 还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的跨尺度红外行人检测方法流程图;
图2是本发明实施例提供的跨尺度红外行人检测方法原理图;
图3是本发明实施例提供的动态特征优化前后对比示意图;
图4是本发明实施例提供的改进前后特征金字塔对比示意图;其中,图(a) 是FPN+PAN特征金字塔示意图,图(b)是CSFF-BiFPN特征金字塔示意图;
图5是本发明实施例提供的跨尺度特征融合模块示意图;其中,图(a)是两 尺度特征融合模块示意图,图(b)是三尺度特征融合模块示意图;
图6是本发明实施例提供的改进前后损失对比曲线示意图;
图7是本发明实施例提供的改进前后平均准确值对比曲线示意图;
图8是本发明实施例提供的不同算法检测结果对比示意图;其中,图(a)是 部分行人遮挡场景下各算法检测结果示意图,图(b)是多尺度密集多目标场景下 各算法检测结果示意图,图(c)是亮度过曝场景下各算法检测结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例, 对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以 解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种跨尺度红外行人检测方法、 系统、介质、设备及终端,下面结合附图对本发明作详细的描述。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实 现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
如图1所示,本发明实施例提供的跨尺度红外行人检测方法包括以下步骤:
S101,构建亮度感知模块,其通过结合四叉树-贝塞尔插值算子及引导滤波 器得到重构背景图像及亮度特征图像;
S102,设计EG-Chimp优化模型对构建的目标函数进行迭代寻优,从而在 增强输入图像局部对比度和细节表达能力的同时抑制背景信息干扰,得到动态 特征优化图像,为后续的红外行人检测任务奠定基础;
S103,在YOLOv5算法框架下,引入BiFPN特征金字塔结构,增强颈部网 络特征聚合能力;
S104,设计跨尺度特征融合模块以学习不同尺度特征之间的权重参数,改 善多尺度以及部分遮挡情况下的行人检测效果;
S105,优化损失函数,通过引入CIOU(Complete intersection over union) 回归损失函数提高训练过程中预测框的回归速度和精度,实现跨尺度红外行人 检测任务。
作为优选实施例,如图2所示,本发明实施例提供的跨尺度红外行人检测 方法具体包括:
1、动态特征优化机制
受红外传感器热辐射成像机理影响,红外图像相较于可见光图像分辨率往 往较低,细节分辨能力较弱,给后续行人目标准确检测带来一定挑战。为此, 本发明提出一种DFOM(Dynamic feature optimization mechanism)机制以增强输 入图像行人目标对比度和细节表达能力,该机制由亮度感知模块和EG-Chimp优 化模型两部分组成。
1.1亮度感知模块
为解决因热红外图像分辨率、对比度低等缺陷导致红外行人目标特征难以 准确表达问题,设计LPM(Luminance perception module)模块。首先,构建四 叉树-贝塞尔插值算子,通过调节部分采样控制点来恢复大规模像素矩阵,进而 得到初始背景图像。然后,为避免由于边缘控制点采样不均而造成图像块效应, 利用引导滤波的局部线性拟合特性平滑图像边缘信息,最终得到重构背景图像 和亮度特征图像。
1.1.1四叉树-贝塞尔插值
为准确重构红外背景图像,引入四叉树分解方法,通过尽可能多地采样除 红外亮度区域外的控制点来估计背景轮廓信息。首先,将输入图像调整至 512×512尺寸大小,然后利用式(1)进行分解。
式中,QTD(·)表示四叉树分解算子;N为分解次数;IN表示分解图像块;MIN 为允许分解的最小灰度值;threshold表示分解阈值,当图像块内最大灰度值及 最小灰度值之差大于阈值时进行分解,否则分解结束。
通过四叉树分解算法可将输入图像分割为多个图像块,从各图像块中均匀 采样16个控制点后,利用贝塞尔插值运算子重建红外背景图像,数学描述如下:
Ib(x,y)=XMPMTYT (2)
式中,(x,y)表示插值采样点;P表示由16个采样控制点组成的4×4矩阵;X 和Y表示与插值采样点相关的可变插值系数;M表示常系数插值矩阵。各参数 数学描述如式(3)~(4)所示。
1.1.2引导滤波
为解决采样过程中各图像块边缘区域控制点因选取不一导致重构背景图像 出现块效应问题,本发明采用引导滤波对初始背景图像进行平滑处理,数学描 述如下:
式中,IBir表示红外背景图像;wk表示以像素k为中心的图像块;ak和bk为 两线性参数,具体取值分别如式(6)和(7)所示。
最后,利用线性相减算子可提取红外亮度特征图像ILir,数学描述如下:
ILir=Iir-IBir (8)
1.2 EG-Chimp优化模型
为抑制复杂背景对行人目标准确检测的不利影响,本发明提出EG-Chimp优 化模型,通过迭代寻优生成具有局部高对比度的动态特征优化图像IOir,数学描 述如下:
IOir=α×ILir+IBir (9)
式中,α为寻优参数。优化设计步骤如下。
1.2.1目标函数构建
本发明所构建的目标函数旨在同时兼顾动态特征优化图像的梯度变化和能 量损失,分别用空间频率LSF和内容损失LCON表示。
(1)空间频率函数
空间频率(Spatial frequency,SF)反映图像空间突变如边缘的变化情况, 用于度量图像的梯度分布,若图像SF值越高,则表明图像中人物目标越清晰, 数学描述如下:
(2)内容损失函数
为避免在优化过程中由于行人目标亮度特征过度增强而导致其细节信息无 法有效保留的问题,本发明利用l2函数构建内容损失函数,数学描述如下:
综上所述,为了增强原始红外图像中行人亮度特征的同时使其能够兼顾细 节信息,构造的目标函数数学描述如下:
F=min(LSF+λLCON) (12)
式中,λ为保持两项平衡的正则化参数,本发明λ=1/500。
1.2.2目标函数自适应优化
元启发式优化算法由于其简单、灵活、高效等特点,已成为解决全局优化 问题的主要技术。然而随着问题复杂性的增加,该类算法易出现收敛速度较慢, 陷入局部最优解等问题。为此,针对本发明所构建的目标函数即公式(12),引入 人猿优化算法,通过模拟人猿捕食和混乱抢食2种状态,加快算法收敛,进而在 保证动态特征优化图像空间频率的同时抑制其内容损失。其将人猿划分为攻击 型XAttacker、驱赶型XChaser、拦截型XBamier和追逐型XDriver四类。狩猎过程中,人猿可 根据猎物的位置相应的改变各自位置,数学描述如下:
式中,t表示当前迭代的次数,Xprey为猎物的位置向量,Xchimp为人猿的位置 向量,a、c和m为系数向量,数学描述如下:
式中,f在迭代过程中由2.5非线性递减至0,r1和r2是[0,1]范围内的随机向量,m表示为一个基于高斯混沌映射得到的混沌向量,代表了人猿在狩猎过程中混乱 抢食的社会现象。
当将猎物包围后,由驱赶者、拦截者、追逐者辅助攻击者完成最终狩猎任 务。为提高算法收敛速度,模型在迭代后期模拟了人猿混乱抢食过程,数学描 述如下:
式中,χ为[0,1]内的随机参数。
狩猎过程中,一方面人猿根据攻击者、驱赶者、拦截者和追逐者位置更新 位置,并攻击猎物;另一方面人猿通过分散活动寻找猎物完成全局搜索任务。 最终,通过多次迭代,可得到动态特征优化图像,如图3所示。
2、基于CSFF-BiFPN的颈部网络
2.1 CSFF-BiFPN金字塔结构
原始Yolov5网络为提高不同尺度间特征聚合能力,利用FPN+PAN结构在自 底向上传递强语义信息的同时,自顶向下传递强定位信息。然而,该结构将不 同尺度特征图进行尺寸调整后直接相加聚合,无法充分利用输入端的跨尺度信 息,进而影响最终检测精度。为解决此问题,本发明构建CSFF-BiFPN特征金字 塔结构,通过尺度跳跃连接方式提高网络特征聚合的能力,步骤如下:
(1)删除仅有一条输入边的节点,减少网络参数量。
(2)借鉴FPN-PAN结构,从两个方向分别传递强语义和强定位信息。
(3)为进一步利用输入特征的跨尺度信息,通过尺度跳跃连接的方式提高 网络特征聚合能力。
(4)跨尺度特征融合模块CSFF_2和CSFF_3对来自不同输入端的特征信息 进行权重分配。
本发明实施例提供的特征金字塔结构对比图如图4所示。
2.2跨尺度特征融合模块
FPN-PAN结构对来自不同尺度的输入特征进行尺度调整后直接进行相加运 算,易导致特征融合不足的问题。为此,本发明设计了跨尺度特征融合模块 CSFF_2和CSFF_3,自适应学习尺度不同的输入特征权重参数,模型结构见图5。
将level i的输入特征记作Ii,其中i∈[1,2,3]。首先,对不同尺度特征进行尺度调整,在上采样过程中,利用1*1的卷积调整通道数并引入最近邻插值提高分辨 率,在下采样过程中,通过步长为2的3*3卷积完成1/2比例的下采样,并通过在2 步卷积之前添加步长为2的最大池化层完成1/4比例的下采样;接着,利用1*1的 卷积预估计各输入特征的权重参数并通过soft-max归一化函数对其进行微调;最 后,对尺度调整后的输入特征进行权重分配得到融合后的输出特征,数学描述 如下:
本发明实施例提供的跨尺度红外行人检测系统包括:
亮度特征提取模块,用于构建亮度感知模块,通过结合四叉树-贝塞尔插值 算子及引导滤波器得到重构背景图像及亮度特征图像;
动态特征优化模块,用于设计EG-Chimp优化模型并对构建的目标函数进行 迭代寻优,得到动态特征优化图像;
跨尺度特征融合模块,用于在YOLOv5算法框架下引入BiFPN特征金字塔 结构,设计跨尺度特征融合模块以学习不同尺度特征间的权重参数;
红外行人检测模块,用于优化损失函数,引入CIOU回归损失函数,利用 可学习权重参数对多尺度特征进行权值分配实现红外行人检测。
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部 分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
本发明以深度学习算法为基础,图像视频的压缩、存储、传输、播放为核 心,在部分行人遮挡场景及多尺度密集多目标场景下均能实现红外行人目标的 精确检测,已广泛应用于事故预警、智能监控、车辆辅助驾驶、人体行为分析 等任务中,具有重要的研究意义,具体应用实例分析如下:
1.在交通安全方面,与物联网、大数据等科技融合,能够完成与城市交通 指挥调度应用平台对接,减少交通事故的发生;
2.在监控安防方面,能够在保障城市应急指挥,监控调度及安全防护的同 时加大信息化覆盖程度,从而实现安防布控与人物追踪等关键任务;
3.在公共场所管理方面,完善并优化人力资源分配水平,提高人员安全及 疫情防控的管理效率。
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了 一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程 的数据、图表等进行描述。
本发明实施例提供的模型训练及结果分析如下:
1、网络模型训练
本发明实验中软硬件平台配置:操作系统:Microsoft Windows 10;GPU: NVIDIAGeForce GTX 1660 Ti;CPU:Intel Core i5-10400F@2.90GHz×6 CPUs; CUDA:11.1;深度学习框架:Pytorch。
为验证本发明所提出算法的优势,从KAIST数据集中随机选取1000张样本 数据进行实验,行人目标共5384个。其中,训练样本为700张,剩余300张图片 作为测试数据集。在网络模型训练过程中,将输入图像分辨率统一调整为640×640, 并采用动量项为0.937的异步随机梯度下降法进行训练,在每一批训练的batch中 包含32张图片,分29次送入训练网络。在前200轮将训练中的学习率设置为0.01, 随着迭代轮数的增加,在后100轮迭代中将训练的学习率降到0.001。为了防止模 型过拟合,将权重衰减正则项设置为5E-3,同时选用CIOU损失函数通过计算两 框重叠面积,中心点距离及宽高比提高预测框的回归速度,数学描述如下:
式中,b和bgt分别表示预测框和目标框的中心点,ρ(·)为两框中心点间的欧 式距离,C表示覆盖预测框与目标框之间的最小矩形的斜距,为限制预测框长 宽比的权重参数,v表示衡量预测框与真实框宽高比的一致性参数。
2、图像对比度分析
为验证本发明所提出动态特征优化机制的有效性,选取熵(Entropy), Brenner梯度函数,离散余弦变换函数(Discrete Cosine Transform,DCT)和 Vollaths函数作为客观评价指标。其中,Entropy表征了图像所含信息量的丰富程 度,Brenner通过计算图像二阶梯度估计其清晰程度,DCT突出图像频率分布信 息,Vollath则从空间两点的相似性考虑,评估图像的离焦程度。Entropy,Brenner, DCT和Vollath数值越大,则表示动态特征优化后图像对比度越高,具有越强的特 征表达能力。对KAIST数据集中随机选取1000张样本数据进行测试验证,其定 量分析结果如表1所示。
表1 1000张图片的评价指标平均值
由表1可知,本发明所提出的动态特征优化算法在以上4种评价指标中均为 最优,从而证明原始图像经过动态特征优化后不仅包含更丰富的信息量,同时 具有最强的对比度和最好的特征表达能力。
3、定量实验分析
为客观评估本发明算法的检测性能,将DFOM-CSNet检测网络与原始 YOLOv5检测框架进行对比,损失对比曲线如图6所示,平均准确值对比曲线 如图7所示。
从图6可以看出,YOLOv5检测网络约在75轮后达到平衡且最终稳定于 0.018。而本发明提出的DFOM-CSNet检测算法仅训练20轮损失值即下降至0.02, 并最终稳定于0.009左右,取得了较好的训练效果。从图7可以看出,YOLOv5 检测网络最终平均准确率大致为0.895左右,而本发明算法检测精度可达到0.913。
为定量评估本发明检测网络的优势,选取Faster-RCNN、SSD、Sparse R-CNN、NAS-FCOS、TOOD、VarifocalNet、Auto-assign、YOLOv3、YOLOv4 及YOLOv5 10种经典算法对KAIST数据测试集进行对比实验,所有目标检测算 法均使用相同数据样本和参数设置,检测结果如表2所示。其中,结果最佳值以 粗体表示。
表2不同检测算法对比结果
通过表2可以看出,本发明算法在检测精度上明显优于其它10种对比算法。 虽然本发明算法在检测速度上略低于YOLOv5检测网络,但相比于其余对比算法 仍具有明显优势。
4、定性实验分析
为进一步客观评价本发明算法的优势,分别对部分行人遮挡场景、多尺度 密集多目标场景以及亮度过曝场景进行对比测试,对比结果如图8所示。为了便 于观察和后续分析,各算法的漏检和误检区域已用虚线框进行标注。
从第1组实验可以看出,除DFOM-CSNet检测算法外其余几种对比算法在 处理部分行人遮挡场景时均存在不同程度的漏检问题。从第2组实验可以看出, 在复杂环境下Faster-RCNN、SSD、NAS-FCOS、TOOD以及YOLOv3算法存在 较为严重的漏检问题,而SparseRCNN、VarifocalNet、Auto-assign、YOLOv4 和YOLOv5检测框架对不同尺度间特征信息的聚合能力不足,难以实现多尺度 行人目标准确检测任务。本发明所提出的DFOM-CSNet检测算法通过设计 CSFF-BiFPN特征金字塔结构以增强网络特征聚合能力并构建跨尺度融合模块对不同尺度特征进行权重分配,从而有效提高了多尺度密集多目标场景下行人 目标的检测性能。从第3组实验可以看出,在夜间模糊场景下,除Sparse RCNN 外,受日间过度光照影响,红外图像无法准确表达行人目标细节信息,进而导 致各种算法在检测过程中均出现较多漏检现象。本发明所提出的DFOM-CSNet 检测算法通过通过设计动态特征优化机制可以有效增强红外图像局部对比度并 提高网络特征聚合能力,进而提升算法检测精度。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合 来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中, 由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普 通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在 处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸 如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载 体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路 或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、 可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的 处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明 的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的 保护范围之内。
Claims (10)
1.一种跨尺度红外行人检测方法,其特征在于,所述跨尺度红外行人检测方法包括:
构建亮度感知模块,通过结合四叉树-贝塞尔插值算子及引导滤波器得到重构背景图像及亮度特征图像;设计EG-Chimp优化模型并对构建的目标函数进行迭代寻优,得到动态特征优化图像;在YOLOv5算法框架下引入BiFPN特征金字塔结构以增强算法颈部网络的特征聚合能力;设计跨尺度特征融合模块以学习不同尺度特征间的权重参数;优化损失函数,通过引入CIOU回归损失函数加快算法收敛,进而实现跨尺度红外行人检测任务。
2.如权利要求1所述的跨尺度红外行人检测方法,其特征在于,所述跨尺度红外行人检测方法包括以下步骤:
步骤一,结合四叉树-贝塞尔插值算子及引导滤波器构建亮度感知模块并对输入图像进行亮度特征提取;
步骤二,设计EG-Chimp优化模型,搭建YOLOv5检测算法框架并引入BiFPN特征金字塔结构,同时进行尺度跳跃连接;
步骤三,构建跨尺度特征融合模块,利用可学习权重参数对多尺度特征进行权值分配实现密集多目标场景下红外行人检测任务。
3.如权利要求1所述的跨尺度红外行人检测方法,其特征在于,所述亮度感知模块的构建包括:
(1)构建四叉树-贝塞尔插值算子,通过调节部分采样控制点恢复大规模像素矩阵,进而得到初始背景图像;
(2)利用引导滤波的局部线性拟合特性平滑初始背景图像边缘信息;
(3)利用线性相减算子提取红外亮度特征图像。
5.如权利要求1所述的跨尺度红外行人检测方法,其特征在于,所述BiFPN特征金字塔结构包括:
(3)在YOLOv5原始FPN-PAN金字塔结构基础上,删除仅有一条输入边的节点;
(4)颈部网络自顶向下传递强语义信息,自底向上传递强定位信息,进而对不同尺度信息进行特征聚合;
(3)采用尺度跳跃连接的方式增强颈部网络特征聚合能力。
6.如权利要求1所述的跨尺度红外行人检测方法,其特征在于,所述跨尺度特征融合模块的构建包括:
(1)对不同尺度特征进行尺度调整,在上采样过程中,利用1*1卷积调整通道数并引入最近邻插值;在下采样过程中,通过步长为2的3*3卷积完成1/2比例的下采样,并通过在2步卷积之前添加步长为2的最大池化层完成1/4比例的下采样;
(2)利用1*1的卷积预估计各输入特征的权重参数并通过soft-max归一化函数进行微调;
(3)对尺度调整后的输入特征进行权重分配得到融合后的输出特征;
所述CIOU损失函数通过计算两框重叠面积、中心点距离及宽高比提高预测框的回归速度:
7.一种应用如权利要求1~6任意一项所述的跨尺度红外行人检测方法的跨尺度红外行人检测系统,其特征在于,所述跨尺度红外行人检测系统包括:
亮度特征提取模块,用于构建亮度感知模块,通过结合四叉树-贝塞尔插值算子及引导滤波器得到重构背景图像及亮度特征图像;
动态特征优化模块,用于设计EG-Chimp优化模型并对构建的目标函数进行迭代寻优,得到动态特征优化图像;
跨尺度特征融合模块,用于在YOLOv5算法框架下引入BiFPN特征金字塔结构,设计跨尺度特征融合模块以学习不同尺度特征间的权重参数;
红外行人检测模块,用于优化损失函数,引入CIOU回归损失函数,利用可学习权重参数对多尺度特征进行权值分配实现红外行人检测。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1~6任意一项所述的跨尺度红外行人检测方法。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1~6任意一项所述的跨尺度红外行人检测方法。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述的跨尺度红外行人检测系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210855690.3A CN115331162A (zh) | 2022-07-14 | 2022-07-14 | 一种跨尺度红外行人检测方法、系统、介质、设备及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210855690.3A CN115331162A (zh) | 2022-07-14 | 2022-07-14 | 一种跨尺度红外行人检测方法、系统、介质、设备及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115331162A true CN115331162A (zh) | 2022-11-11 |
Family
ID=83917528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210855690.3A Pending CN115331162A (zh) | 2022-07-14 | 2022-07-14 | 一种跨尺度红外行人检测方法、系统、介质、设备及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115331162A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115761240A (zh) * | 2023-01-10 | 2023-03-07 | 国科大杭州高等研究院 | 一种混沌反向传播图神经网络的图像语义分割方法及装置 |
CN116665036A (zh) * | 2023-03-07 | 2023-08-29 | 西北工业大学 | 一种基于单模态辅助监督和YOLOv5的RGB-红外多源图像目标检测方法 |
-
2022
- 2022-07-14 CN CN202210855690.3A patent/CN115331162A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115761240A (zh) * | 2023-01-10 | 2023-03-07 | 国科大杭州高等研究院 | 一种混沌反向传播图神经网络的图像语义分割方法及装置 |
CN116665036A (zh) * | 2023-03-07 | 2023-08-29 | 西北工业大学 | 一种基于单模态辅助监督和YOLOv5的RGB-红外多源图像目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178183B (zh) | 人脸检测方法及相关装置 | |
CN110472627B (zh) | 一种端到端的sar图像识别方法、装置及存储介质 | |
CN109101897A (zh) | 水下机器人的目标检测方法、系统及相关设备 | |
JP2020527785A (ja) | シーンの多次元特徴に基づく船舶検出方法及びシステム | |
CN107818571A (zh) | 基于深度学习网络和均值漂移的船只自动跟踪方法及系统 | |
CN115331162A (zh) | 一种跨尺度红外行人检测方法、系统、介质、设备及终端 | |
CN103942557B (zh) | 一种煤矿井下图像预处理方法 | |
CN104484890B (zh) | 基于复合稀疏模型的视频目标跟踪方法 | |
CN114241511B (zh) | 一种弱监督行人检测方法、系统、介质、设备及处理终端 | |
CN107220603A (zh) | 基于深度学习的车辆检测方法及装置 | |
CN110826429A (zh) | 一种基于景区视频的旅游突发事件自动监测的方法及系统 | |
CN113326735B (zh) | 一种基于YOLOv5的多模态小目标检测方法 | |
CN117237740B (zh) | 一种基于CNN和Transformer的SAR图像分类方法 | |
CN116704273A (zh) | 一种自适应红外可见光双模融合检测方法 | |
CN113781519A (zh) | 目标跟踪方法和目标跟踪装置 | |
CN117496384B (zh) | 一种无人机图像物体检测方法 | |
CN115187786A (zh) | 一种基于旋转的CenterNet2目标检测方法 | |
CN112418149A (zh) | 一种基于深卷积神经网络的异常行为检测方法 | |
CN112101114B (zh) | 一种视频目标检测方法、装置、设备以及存储介质 | |
CN116645563A (zh) | 一种基于深度学习的典型交通事件检测系统 | |
CN112184767A (zh) | 对运动物体进行轨迹跟踪的方法、装置、设备及存储介质 | |
CN113284144A (zh) | 一种基于无人机的隧道检测方法及装置 | |
CN111783716A (zh) | 基于姿态信息的行人检测方法、系统、装置 | |
CN113378638B (zh) | 基于人体关节点检测和d-gru网络的轮机员异常行为识别方法 | |
CN112069997B (zh) | 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |