CN116543228A - 一种基于单阶段网络的红外图像车辆检测方法 - Google Patents
一种基于单阶段网络的红外图像车辆检测方法 Download PDFInfo
- Publication number
- CN116543228A CN116543228A CN202310578973.2A CN202310578973A CN116543228A CN 116543228 A CN116543228 A CN 116543228A CN 202310578973 A CN202310578973 A CN 202310578973A CN 116543228 A CN116543228 A CN 116543228A
- Authority
- CN
- China
- Prior art keywords
- network
- task
- feature
- classification
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 91
- 230000004927 fusion Effects 0.000 claims abstract description 52
- 230000000007 visual effect Effects 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 39
- 230000003993 interaction Effects 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 11
- 238000004220 aggregation Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000007500 overflow downdraw method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000007667 floating Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 23
- 238000005516 engineering process Methods 0.000 description 15
- 238000002474 experimental method Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 238000002679 ablation Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000003331 infrared imaging Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 108091028732 Concatemer Proteins 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于单阶段网络的红外图像车辆检测方法,包括下列步骤:图像获取红外摄像机进行视野扫描,获取视频流转换为图像格式;图像预处理;网络检测,将红外图像送入到已经训练好的车辆检测网络中进行车辆目标的检测,经过主干网络进行特征提取,利用优化后的融合网络进行特征融合,经过车辆检测网络的分类和回归两个分支进行车辆目标类别以及位置信息的预测;车辆检测网络为单阶段网络结构,以RetinaNet网络为基础网络,进行优化改进。
Description
技术领域
本发明属于红外图像处理技术中的车辆检测领域,具体涉及一种基于单阶段网络的红外图像车辆检测方法。
背景技术
车辆作为基础的交通运输工具,在居民出行、城市物流、工业生产以及国防军事等多个领域扮演着重要角色。随着社会生产能力和居民消费水平的提高,我国各行业的车辆使用量也呈高速增长态势。车辆数量的增长推动了城市交通规划、智能物流运输、军事跟踪任务等多方面的需求,尤其随着近年来“智慧交通”等概念的出现,针对车辆目标的检测技术逐渐走进人们视野,成为了科研领域的研究热点。
早期的车辆检测工作通常基于传感器以及雷达探测技术,检测系统通过车辆目标触发和反馈的声音、电磁等信号进行检测判断。以上技术原理简单,但是往往存在隐蔽性差、抗干扰能力弱、安装维护成本高等诸多问题,难以广泛应用到实际车辆检测任务中。近年来红外成像技术高速发展,逐渐受到各领域研究者重视,该技术利用物体本身的热辐射来成像,不易受风霜雨雪等恶劣环境影响,与早期的技术手段相比具有抗干扰性强、隐蔽性较好、覆盖区域广阔等优势。另外相比于可见光成像技术,红外成像技术无需借助外部环境光,不受昼夜影响,可以实现24小时全天候工作。基于以上优势,红外成像车辆检测技术开始被逐步应用到自动驾驶、城市管理、跟踪制导以及军事侦察等领域中。
传统的红外图像车辆检测技术主要基于车辆特征以及机器学习思想进行目标判断,该类技术通常依赖于人工提取的特征,泛化性较差、难以适应复杂的检测场景。近年来,随着智能化和信息化水平提升,深度学习领域发展迅速。基于深度学习的目标检测技术可以利用卷积神经网络自动提取目标特征,从而获得更丰富的特征信息,与传统方法相比检测效果更好,工作效率更高,因此备受研究者的青睐。虽然深度学习技术在视觉图像检测任务中体现出了强大的优势,但是对于红外场景下特征信息较为稀缺的车辆目标,其检测能力还需进一步提升。此外,当前优秀的目标检测模型大多存在着复杂度高、实时性差等问题。
发明内容
针对现有技术的局限和不足,本发明充分考虑到红外图像车辆目标特性以及实际检测需求,提供了一种基于单阶段网络结构的新型车辆检测方法,能够实现实时精准的车辆检测过程,充分满足实际红外场景下车辆检测任务的需要。本发明的技术方案为:一种基于单阶段网络的红外图像车辆检测方法,包括以下步骤:
一种基于单阶段网络的红外图像车辆检测方法,包括下列步骤:
步骤1,图像获取红外摄像机进行视野扫描,获取视频流转换为图像格式;
步骤2,图像处理:对获取到的红外图像进行预处理;
步骤3,网络检测,将红外图像送入到已经训练好的车辆检测网络中进行车辆目标的检测,经过主干网络进行特征提取,利用优化后的融合网络进行特征融合,经过车辆检测网络的分类和回归两个分支进行车辆目标类别以及位置信息的预测;车辆检测网络为单阶段网络结构,以RetinaNet网络为基础网络,进行优化改进,包括:
1)选用ShuffleNetV2轻量级网络作为主干网络,利用红外图像的局部信息相关性辅助目标识别,以提升网络对不变细粒度信息的提取效果,设计了中心差分卷积与卷积运算相结合的卷积方式,将此卷积方式嵌入到主干网络核心模块ShuffleBlock中,动态地调整两种卷积对特征提取所占权重比,卷积核在特征图上滑动扫描采样,在聚合前提取卷积核对应区域中的像素点,并取其中心点的像素值与其余像素点的值依次差分计算,得到更新后的像素值,再将像素值与卷积核权重进行点积聚合得到最终的输出值;
2)在车辆检测网络中构建了双分支自适应融合的通道注意力模块DBAM,通过全局平均池化和全局最大值池化两条分支并行的方式利用红外图像的全局信息和局部信息,采用动态一维卷积生成通道权值,以更好地完成跨通道间的信息交互;使用双分支自适应融合的方法,动态地调整两种池化分支在融合中所占权重比;DBAM具体实现过程为:首先对高、宽和通道数为H×W×C的输入特征在通道维度上分别进行全局平均池化和全局最大值池化操作,再通过k大小卷积核的快速一维卷积生成两条分支的通道权值矩阵Mavg和Mmax;两通道权值矩阵通过自适应融合结构得到汇总的通道权值矩阵,并与原输入特征经过逐元素乘积,将权值映射到H×W×C的特征图中;
3)以引入中心差分卷积后的ShuffleBlock模块为基本单元,同时嵌入双分支通道注意力模块,构建主干网络;由轻量级网络ShuffleNetV2的各个阶段提取到的具有不同深度层次的特征信息被输送到优化的融合网络中,优化的融合网络基于特征金字塔结构,采用双向交叉的融合网络结构,在部分特征层中额外增加自底向上聚合路径以提升融合效果,并在同一尺度特征层的原始输入与最终输出结点之间添加横向连接;采用快速归一化融合策略为不同输入节点添加额外权重,以区分不同节点的贡献程度;
4)设计基于任务对齐思想的检测头网络,称其为任务对齐头部TAHead:由一个特征提取器和两条优化过的任务分支组成,特征提取器用以对特征融合网络的输出特征进行多层次提取,每条任务分支中都包含了校准支路,用以对初步预测结果进行概率调整和空间调整;
5)设计基于任务对齐思想的网络训练学习策略;通过设置校准因子来明确度量分类和回归两任务的对齐程度;将校准因子引入到损失计算中,通过同步优化分类和回归损失来调整两任务对同一样本点的预测结果,用以改善空间错位问题。
进一步地,2)中,卷积核大小k代表着跨通道交互的范围,其与通道维数C之间存在非线性的映射关系,计算公式如下:
式中,|t|odd表示t的最邻近奇数,γ和b为两个可调节参数。
进一步地,2)中,汇总的通道权值矩阵为:
式中,δ为sigmoid激活函数,μ和ν为两个浮点类可学习参数,随网络模型动态学习,初始值设为1;和/>分别为矩阵逐元素相加和矩阵逐元素相乘。
进一步地,4)包括:
利用特征提取器对特征融合的输出进行N次卷积操作,得到多层的任务交互特征堆栈,以此作为两条任务分支的共同特征基础;改进后的两条任务分支分别为分类和回归分支,其中分类任务分支对任务交互特征堆栈先后进行concat拼接和卷积操作,并通过sigmoid激活函数得到H×W×1的密集分类分数,作为初步的分类预测结果;回归任务分支同样经过concat拼接和卷积操作得到H×W×4的回归边界框分数,作为初步的回归预测结果;
进一步地,4)还包括:在TAHead中为两任务各自构建了一条并联的校准支路,以明确调整两任务的初步预测结果;通过已获取的任务交互特征以及后续的任务对齐学习策略来同时调整两个任务分支的预测;两条校准支路利用任务交互特征生成空间概率图和空间偏移图,空间概率图通过反向传播过程在每个空间位置上学习两个任务间的预测一致性,进而对分类任务的初步预测结果进行调整,得到最终分类结果;空间偏移图通过反向传播过程学习当前锚框与周围最佳锚框的空间偏移量,进而对回归任务的初步预测结果进行调整,得到最终回归结果。
进一步地,5)中,校准因子是通过分类和回归任务得到的,其计算过程入下:
t=sα×uβ
式中,t为校准因子,s和u分别表示分类和回归任务针对每个锚框得到的分类得分和IOU值,通过设置α和β来控制两个任务对于校准因子的影响;选择t值最大的m个锚框作为正样本,其余为负样本。
进一步地,5)中,将Focal Loss作为分类损失函数以缓解正负样本不均衡的情况,在此基础上用校准因子替换原有的正样本锚框标签值,用以提高对齐程度较高锚框的分类分数。
本发明的主干网络部分使用兼顾精度和速度的轻量级网络ShuffleNetV2,对其核心模块进行基于中心差分卷积的优化以提升网络对于环境变化的抗干扰性,并在其各个阶段嵌入了双分支自适应融合注意力模块,在保持实时性效果的同时显著提升了主干网络对于红外图像中局部细节特征和整体特征信息的提取能力;融合网络部分在原FPN的基础上构建了双向交叉网络结构,并通过快速归一化融合策略丰富了多尺度特征信息,全面提升了网络对于多尺度车辆目标的检测能力;基于任务交互特征构建的检测头网络可以有效增强分类和回归任务在训练和检测过程中的信息交互,减轻两任务预测结果的空间错位现象;在网络的训练过程中,以两任务对齐程度为标准优化样本分配和损失计算,进一步对齐分类和回归预测结果,全面提升了网络的检测效果。优化改进后的车辆检测网络具有较好的检测性能,更适用于红外场景下的车辆检测任务。本发明不仅检测精度高,对于复杂环境背景下的各种尺度形态车辆目标均具有较好的检测效果,而且抗干扰能力强,同时模型复杂度较低,能够实现实时的检测过程,具有较好的综合性能和应用价值。
附图说明
图1为本发明整体细节示意图;
图2为本发明检测流程示意图;
图3为本发明中车辆检测网络的总体结构示意图;
图4为本发明中ShuffleBlock模块结构图;
图5为本发明中双分支自适应融合注意力模块结构图;
图6为本发明中优化特征融合网络结构图;
图7为本发明中基于任务交互特征的检测头网络结构图;
图8为本发明中基于任务对齐学习策略示意图;
具体实施方式
本发明的技术方案为:一种基于单阶段网络的红外图像车辆检测方法,包括以下步骤:
步骤1,图像获取:通过交互端自动或手动控制红外摄像机进行视野扫描,获取实时的视频流并在计算机中转换为图像格式。
步骤2,图像处理:对获取到的实时红外图像利用中值滤波技术进行预处理,以减弱无关噪声的影响。
步骤3,网络检测,将实时图像送入到已经训练好的车辆检测网络中进行车辆目标的检测,首先经过主干网络进行特征提取,再利用优化后的融合网络进行特征融合,最后经过检测网络的分类和回归两个分支进行车辆目标类别以及位置信息的预测。车辆检测网络整体为单阶段网络结构,以RetinaNet网络为基础网络,并根据红外图像中车辆目标的特点以及实际车辆检测需求对网络进行适应性的优化改进,其主要创新性包括:
6)选用ShuffleNetV2轻量级网络作为主干网络,并利用图像的局部信息相关性辅助目标识别,更好地提升网络对不变细粒度信息的提取效果,具体设计了中心差分卷积与传统卷积运算相结合的卷积方式,以3×3卷积核为例,卷积核在特征图上滑动扫描采样,在聚合前提取卷积核对应区域中的9个像素点,并取其中心点的像素值与其余像素点的值依次差分计算,得到更新后的像素值,再将像素值与卷积核权重进行点积聚合得到最终的输出值。其计算过程为:
其中,x为输入特征图,w为权重值,p0为卷积核中心在当前输入特征图上的位置,pn用来枚举R中的位置,例如3×3卷积核的局部区域R={(-1,-1),(-1,0),...(1,1)}。超参数θ∈(0,1),用以权衡标准卷积与差分卷积对网络的贡献。将新的卷积方式嵌入到主干网络核心模块ShuffleBlock中,并动态地调整两种卷积对特征提取所占权重比,从而更好地适应红外图像欠缺细节信息以及环境变化影响,在不带来额外计算量的同时增强了主干网络对细节信息的提取能力,提升网络检测效果;
7)为进一步提升主干网络的特征提取能力,在网络中构建了双分支自适应融合的通道注意力模块DBAM(Dual-Branch Attention Module),通过全局平均池化和全局最大值池化两条分支并行的策略,综合利用红外图像的全局信息和局部信息,为避免全连接层带来的大量参数,采用动态一维卷积生成通道权值,以更好地完成跨通道间的信息交互。最后使用双分支自适应融合的方法,动态地调整两种池化分支在融合中所占权重比。DBAM具体实现过程为:首先对高、宽和通道数为H×W×C的输入特征在通道维度上分别进行全局平均池化和全局最大值池化操作,再通过k大小卷积核的快速一维卷积生成两条分支的通道权值矩阵Mavg和Mmax。两通道权值矩阵通过自适应融合结构完成通道权值汇总,并与原输入特征经过逐元素乘积,将权值映射到H×W×C的特征图中。
其中卷积核大小k代表着跨通道交互的范围,其与通道维数C之间存在非线性的映射关系,无需通过交叉验证来手动调整,其计算过程公式如下:
|t|odd表示t的最邻近奇数,γ和b为两个可调节参数,用以保证卷积核大小k与通道C之间的最佳匹配关系,并遵循ECA原文思想将两参数值设置为2和1以保证网络最好的跨通道信息交互效果。
两条特征分支通过快速一维卷积生成通道注意力权值矩阵Mavg和Mmax,并采用自适应融合方法得到最终汇总的通道权值矩阵:
式中,MF为最终通道权值矩阵,δ为sigmoid激活函数,μ和ν为两个浮点类可学习参数,随网络模型动态学习,初始值设为1。为防止两参数衰减为0进而导致特征信息丢失,在融合中加入两支路各1/2的权重。和/>分别为矩阵逐元素相加和矩阵逐元素相乘。汇总后的通道权重与原输入特征F逐元素相乘,最终得到经过通道注意力模块校正后的新特征F':
相比于其他经典注意力机制,双池化分支更好地聚合了图像中全局和局部关键特征,丰富了图像信息。将该注意力模块嵌入到主干网络的各阶段输出中以弥补主干网络对于红外图像整体特征信息提取能力的不足。
8)构建主干网络,以引入中心差分卷积后的ShuffleBlock模块为基本单元,同时嵌入双分支通道注意力模块,构建出了主干网络,网络结构的具体参数如下表所示。其中步长1和2分别代表了ShuffleBlock的标准模块和下采样模块,在不同阶段模块的重复堆叠次数也体现在表中。
主干网络结构参数
9)由轻量级网络ShuffleNetV2的各个阶段提取到的具有不同深度层次的特征信息被输送到优化的融合网络中,优化的融合网络基于传统的特征金字塔结构,设计出了双向交叉的融合网络结构,在部分特征层中额外增加了自底向上聚合路径以提升融合效果,并在同一尺度特征层的原始输入与最终输出结点之间添加横向连接。另外采用快速归一化融合策略为不同输入节点添加额外权重,更细腻地区分了不同节点的贡献程度,提升网络对多尺度车辆目标特征的表达能力;其中以第四层特征输出为例,快速归一化融合公式为:
其中,w1、w2、w'1、w'2、w'3为各特征输入节点的额外权重,M4、M5为自顶向下路径第4、5层的中间特征,P3、P4为自底向上聚合路径上第3、4层的输出特征,其中自顶向下和自底向上路径中的Resize分别通过上采样和下采样操作来实现,同时设置参数ε=0.0001来保证数值稳定。
10)设计了基于任务对齐思想的检测头网络,改进后的网络称为任务对齐头部(Task Aligned Head,TAHead),其整体结构如图7所示,由一个特征提取器和两条优化过的任务分支组成,特征提取器用以对特征融合网络的输出特征进行多层次提取,而每条任务分支中都包含了校准支路,用以对初步预测结果进行概率调整和空间调整。
首先利用特征提取器对特征融合的输出进行N次卷积操作,得到多层的任务交互特征堆栈,以此作为两条任务分支的共同特征基础,这样的设计为两任务提供了多尺度有效接收域和多层次特征,促进了两任务间的信息交互。其中任务交互特征的计算过程如下公式所示:
式中,k∈{1,2,...,N},Xfpn为特征融合网络的输出特征,为任务交互特征的第k层,convk和δ分别表示第k个卷积层和一个ReLU函数,每个层次的特征都由前一层次的特征经过一次卷积和ReLU激活得来,最终从单一层次的特征中提取出更为丰富的多层次特征信息。随后网络以计算出的任务交互特征堆栈为基础分别对每个样本点进行初步的分类和定位。
改进后的两条任务分支分别为分类和回归分支,如图7中所示,其中分类任务分支对任务交互特征堆栈先后进行concat拼接和卷积操作,并通过sigmoid激活函数得到H×W×1的密集分类分数,作为初步的分类预测结果。回归任务分支同样经过concat拼接和卷积操作得到H×W×4的回归边界框分数,作为初步的回归预测结果。
为了进一步改善两任务预测结果的空间错位问题,在TAHead中为两任务各自构建了一条并联的校准支路,以明确调整两任务的初步预测结果。通过已获取的任务交互特征以及后续的任务对齐学习策略来同时调整两个任务分支的预测。具体操作过程为两条校准支路利用任务交互特征生成空间概率图和空间偏移图,其生成过程如以下公式表示:
其中为整个任务交互特征堆栈,Spm和Som分别为校准支路上的空间概率图和空间偏移图,conv1和conv3均为1×1降维卷积操作,δ为ReLU激活函数,σ为sigmoid激活函数,conv2和conv4为3×3卷积操作,用于进一步分化两支路的空间概率图和空间偏移图。空间概率图通过反向传播过程在每个空间位置上学习两个任务间的预测一致性,进而对分类任务的初步预测结果进行调整,得到最终分类结果。同时,空间偏移图通过反向传播过程学习当前锚框与周围最佳锚框的空间偏移量,进而对回归任务的初步预测结果进行调整,得到最终回归结果。两条校准支路对初步预测结果的调整过程如以下公式所示:
Ralign(i,j,c)=Rori(i+Som(i,j,2×c),j+Som(i,j,2×c+1),c)
式中,Calign和Ralign为分类和回归任务经校准支路调整过后的最终预测结果,Cori和Rori为分类分支和回归分支做出的初步预测结果,指数(i,j,c)表示特征张量中第c个信道的第(i,j)个空间位置,由于Ralign的特征尺寸很小,其计算开销可忽略不计。其中Ralign中每个信道都是独立学习的,当前锚框每个边界都有自己的学习偏移量,允许网络对四个空间值进行更准确的预测,使得TAHead不仅可以促进两个任务的预测对齐,还可以精确学习锚框的每个边界值,从而进一步提高回归精度。
11)设计了基于任务对齐思想的网络训练学习策略。通过设置校准因子来明确度量分类和回归两任务的对齐程度。将校准因子集成到车辆检测算法的样本分配策略和损失函数中,动态细化每个锚框上的预测,从而指导网络对预测结果进行调整。其中,校准因子是通过分类和回归任务得到的,其计算过程入下:
t=sα×uβ
式中,t为校准因子,s和u分别表示分类和回归任务针对每个锚框得到的分类得分和IOU值,通过设置α和β来控制两个任务对于校准因子的影响。选择t值最大的m个锚框作为正样本,其余为负样本。校准因子t作为分类和回归结果的高阶组合,代表了两任务预测结果的对齐程度,因此将其作为样本评判标准可以使网络更多地去关注对齐程度高的样本框,最终得到分类和回归质量俱佳的检测结果。
将校准因子引入到损失计算中,通过同步优化分类和回归损失来调整两任务对同一样本点的预测结果,以改善空间错位问题。具体为将Focal Loss作为分类损失函数以缓解正负样本不均衡的情况,并在此基础上用校准因子替换原有的正样本锚框标签值,从而将对齐程度较高锚框的分类分数提高,最终的分类损失和回归损失计算公式为:
以上分类损失由正样本和负样本的损失计算组合而成,其中BCE为二分类交叉熵损失函数,i表示每个实例对应的Npos个正样本中的第i个锚框,ti表示该锚框所对应的校准因子t值,j表示Nneg个负样本中的第j个锚框,si,sj为预测值,γ为Focal Loss中的聚焦参数。与分类损失类似,以GIOU Loss作为回归损失函数,并基于t对于每个锚框的回归损失进行重新加权,得到最终回归损失Lreg,式中ti同样表示当前锚框所对应的校准因子,bi和b'i分别表示第i个预测边界框和真实框。
步骤4:检测结果反馈。如果网络的预测结果为视野内存在车辆目标,则在显示设备中标识此车辆目标,并将车辆目标位置信息反馈给上位机,计算出相应的转台参数,控制端通过自动或用户手动控制摄像机转台角度,以进一步调整摄像机视野。其中系统中可公开编程接口参数信息如下表所示:
系统中部分接口参数信息
为进一步说明,下面结合附图的形式对本发明的具体实施细节进行详细地描述,但是不能将它们理解为本发明保护范围的限定。
如图1所示,一种基于单阶段网络的红外图像车辆检测方法,整体实施细节如下:
1)数据集的构建和网络模型的训练:由于红外场景车辆检测领域缺乏高质量的公开数据集,因此整合实验室现有资源自建了一个包含10807张红外图像的车辆数据集,数据涵盖了不同时间段和天气情况以保证外界环境的客观多样性,同时包含了不同角度和尺寸的车辆目标。基于此数据集,对设计优化后的单阶段车辆检测网络进行训练。为了便于区分目标尺度,将检测框面积占图像面积比小于1%的目标定为小目标,占比大于1%且小于4%的目标为中目标,大于4%的定位大目标,经统计整个数据集中小、中、大目标数量分别为20187、18663、13884。在训练过程中,通过基于任务对齐的学习策略,从联合优化的角度进行样本分配和损失计算,引导网络更多地关注分类和回归对齐程度较高的结果,动态地指导网络的训练过程。同时为防止过拟合的发生,采用随机翻转及亮度变换等数据增强方式对输入图片进行处理。
训练成功后,将会得到专属的车辆检测网络模型,即可应用于红外场景下车辆检测工作,其检测流程如图2所示。
2)实验验证:在网络训练后,针对网络中部分模块进行对比试验以及消融实验,验证网络针对红外场景下车辆检测任务的有效性。具体包括轻量化主干网络对比、注意力模块对比、以及校准因子的自对比实验,实验结果如下表所示:
各主干网络对比实验结果
注意力机制对比实验结果
校准因子参数对比实验结果
针对各模块改进的消融实验结果如下表所示,其中包括各项改进对于网络整体检测精度、参数量和计算量的影响,以及对于各尺度车辆目标检测精度的影响。
整体消融实验结果
多尺度检测精度消融实验结果
另外,针对不同经典检测网络算法设计对比实验,实验结果如下:
与经典网络对比实验结果
以上实验结果验证了针对网络各项优化改进的有效性,满足高精度实时性要求,可将网络应用于实际侦测系统中。
3)图像获取:首先通过交互端控制红外摄像机转台,可通过自动扫描或手动控制的方式,获取当前视野下的实时视频流,读取视频帧并进行归一化处理,将红外图像统一处理成640*512分辨率大小,保证图像的清晰度可以满足检测需求。
4)网络检测:对获取到的实时图像利用中值滤波技术进行预处理,减弱无关噪声影响,随后将该帧图像送入到已经训练好的车辆检测网络中进行预测,判断图像中是否存在车辆目标。本发明中的车辆检测网络整体结构如图3所示。当网络接收到输入图像后,首先需要经过添加双分支自适应融合注意力模块优化后的轻量级网络ShuffleNetV2的各个阶段,提取到具有不同深度层次的特征信息并输送到融合网络中。其中优化后的ShuffleBlock模块以及注意力模块如图4、5所示。优化后的特征融合网络如图6所示,其中C3、C4、C5为来自主干网络的输出特征,三层特征图全部经过1×1卷积进行通道变换,而后经过上采样和层间相加操作生成P3、M4和M5。从P3开始增加自底向上的聚合路径,并与同尺度层的输入进行横向连接,最终生成P4、P5。基于经细节信息补充的P5进行下采样操作生成P6、P7。通过双向交叉融合的网络结构对输入特征层进行深度融合,将五层不同尺度特征输出到检测头网络中进行分类和定位。检测头网络区别于传统检测网络结构,基于任务交互特征,更统一地对样本进行分类和定位,其网络结构如图7所示,首先利用特征提取器对于特征融合的输出进行N次卷积操作得到任务交互特征堆栈,并以此作为两条任务分支的共同特征基础,交互特征经过两条预测分支得到初步的分类和回归结果,同时通过空间概率图和空间偏移图在反向过程中的学习进一步调整预测结果。整体基于任务对齐的检测逻辑如图8所示。
5)检测反馈:如果车辆检测网络检测到了车辆目标信息,则将该目标在显示设备中显示出来,同时将当前视野内车辆目标位置信息反馈给控制平台,经计算得到相对应的转台参数,以进一步调整摄像机视野。
Claims (7)
1.一种基于单阶段网络的红外图像车辆检测方法,包括下列步骤:
步骤1,图像获取红外摄像机进行视野扫描,获取红外图像;
步骤2,图像处理:对获取到的红外图像进行预处理;
步骤3,网络检测,将预处理后的红外图像送入到已经训练好的车辆检测网络中进行车辆目标的检测,经过主干网络进行特征提取,利用优化后的融合网络进行特征融合,经过车辆检测网络的分类和回归两个分支进行车辆目标类别以及位置信息的预测;车辆检测网络为单阶段网络结构,以RetinaNet网络为基础网络,进行优化改进。包括:
1)选用ShuffleNetV2轻量级网络作为主干网络,利用红外图像的局部信息相关性辅助目标识别,以提升网络对不变细粒度信息的提取效果,设计了中心差分卷积与卷积运算相结合的卷积方式,将此卷积方式嵌入到主干网络核心模块ShuffleBlock中,动态地调整两种卷积对特征提取所占权重比,卷积核在特征图上滑动扫描采样,在聚合前提取卷积核对应区域中的像素点,并取其中心点的像素值与其余像素点的值依次差分计算,得到更新后的像素值,再将像素值与卷积核权重进行点积聚合得到最终的输出值;
2)在车辆检测网络中构建了双分支自适应融合的通道注意力模块DBAM,通过全局平均池化和全局最大值池化两条分支并行的方式利用红外图像的全局信息和局部信息,采用动态一维卷积生成通道权值,以更好地完成跨通道间的信息交互;使用双分支自适应融合的方法,动态地调整两种池化分支在融合中所占权重比;DBAM具体实现过程为:首先对高、宽和通道数为H×W×C的输入特征在通道维度上分别进行全局平均池化和全局最大值池化操作,再通过k大小卷积核的快速一维卷积生成两条分支的通道权值矩阵Mavg和Mmax;两通道权值矩阵通过自适应融合结构得到汇总的通道权值矩阵,并与原输入特征经过逐元素乘积,将权值映射到H×W×C的特征图中;
3)以引入中心差分卷积后的ShuffleBlock模块为基本单元,同时嵌入双分支通道注意力模块,构建主干网络;由轻量级网络ShuffleNetV2的各个阶段提取到的具有不同深度层次的特征信息被输送到优化的融合网络中,优化的融合网络基于特征金字塔结构,采用双向交叉的融合网络结构,在部分特征层中额外增加自底向上聚合路径以提升融合效果,并在同一尺度特征层的原始输入与最终输出结点之间添加横向连接;采用快速归一化融合策略为不同输入节点添加额外权重,以区分不同节点的贡献程度;
4)设计基于任务对齐思想的检测头网络,称其为任务对齐头部TAHead:由一个特征提取器和两条优化过的任务分支组成,特征提取器用以对特征融合网络的输出特征进行多层次提取,每条任务分支中都包含了校准支路,用以对初步预测结果进行概率调整和空间调整;
5)设计基于任务对齐思想的网络训练学习策略;通过设置校准因子来明确度量分类和回归两任务的对齐程度;将校准因子引入到损失计算中,通过同步优化分类和回归损失来调整两任务对同一样本点的预测结果,用以改善空间错位问题。
2.根据权利要求1所述的红外图像车辆检测方法,其特征在于,2)中,卷积核大小k代表着跨通道交互的范围,其与通道维数C之间存在非线性的映射关系,计算公式如下:
式中,|t|odd表示t的最邻近奇数,γ和b为两个可调节参数。
3.根据权利要求1至2任意一项所述的红外图像车辆检测方法,其特征在于,2)中,汇总的通道权值矩阵为:
式中,δ为sigmoid激活函数,μ和ν为两个浮点类可学习参数,随网络模型动态学习,初始值设为1;和/>分别为矩阵逐元素相加和矩阵逐元素相乘。
4.根据权利要求1至3任意一项所述的红外图像车辆检测方法,其特征在于,4)包括:
利用特征提取器对特征融合的输出进行N次卷积操作,得到多层的任务交互特征堆栈,以此作为两条任务分支的共同特征基础;改进后的两条任务分支分别为分类和回归分支,其中分类任务分支对任务交互特征堆栈先后进行concat拼接和卷积操作,并通过sigmoid激活函数得到H×W×1的密集分类分数,作为初步的分类预测结果;回归任务分支同样经过concat拼接和卷积操作得到H×W×4的回归边界框分数,作为初步的回归预测结果;
5.根据权利要求1至4任意一项所述的红外图像车辆检测方法,其特征在于,4)还包括:在TAHead中为两任务各自构建了一条并联的校准支路,以明确调整两任务的初步预测结果;通过已获取的任务交互特征以及后续的任务对齐学习策略来同时调整两个任务分支的预测;两条校准支路利用任务交互特征生成空间概率图和空间偏移图,空间概率图通过反向传播过程在每个空间位置上学习两个任务间的预测一致性,进而对分类任务的初步预测结果进行调整,得到最终分类结果;空间偏移图通过反向传播过程学习当前锚框与周围最佳锚框的空间偏移量,进而对回归任务的初步预测结果进行调整,得到最终回归结果。
6.根据权利要求1所述的红外图像车辆检测方法,其特征在于,5)中,校准因子是通过分类和回归任务得到的,其计算过程入下:
t=sα×uβ
式中,t为校准因子,s和u分别表示分类和回归任务针对每个锚框得到的分类得分和IOU值,通过设置α和β来控制两个任务对于校准因子的影响;选择t值最大的m个锚框作为正样本,其余为负样本。
7.根据权利要求6所述的红外图像车辆检测方法,其特征在于,5)中,将Focal Loss作为分类损失函数以缓解正负样本不均衡的情况,在此基础上用校准因子替换原有的正样本锚框标签值,用以提高对齐程度较高锚框的分类分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310578973.2A CN116543228A (zh) | 2023-05-22 | 2023-05-22 | 一种基于单阶段网络的红外图像车辆检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310578973.2A CN116543228A (zh) | 2023-05-22 | 2023-05-22 | 一种基于单阶段网络的红外图像车辆检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116543228A true CN116543228A (zh) | 2023-08-04 |
Family
ID=87452225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310578973.2A Pending CN116543228A (zh) | 2023-05-22 | 2023-05-22 | 一种基于单阶段网络的红外图像车辆检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543228A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805360A (zh) * | 2023-08-21 | 2023-09-26 | 江西师范大学 | 一种基于双流门控渐进优化网络的显著目标检测方法 |
CN117173568A (zh) * | 2023-09-05 | 2023-12-05 | 北京观微科技有限公司 | 目标检测模型训练方法和目标检测方法 |
-
2023
- 2023-05-22 CN CN202310578973.2A patent/CN116543228A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805360A (zh) * | 2023-08-21 | 2023-09-26 | 江西师范大学 | 一种基于双流门控渐进优化网络的显著目标检测方法 |
CN116805360B (zh) * | 2023-08-21 | 2023-12-05 | 江西师范大学 | 一种基于双流门控渐进优化网络的显著目标检测方法 |
CN117173568A (zh) * | 2023-09-05 | 2023-12-05 | 北京观微科技有限公司 | 目标检测模型训练方法和目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021244079A1 (zh) | 智能家居环境中图像目标检测方法 | |
CN116543228A (zh) | 一种基于单阶段网络的红外图像车辆检测方法 | |
CN110111335A (zh) | 一种自适应对抗学习的城市交通场景语义分割方法及系统 | |
CN111695448B (zh) | 一种基于视觉传感器的路侧车辆识别方法 | |
CN109684922B (zh) | 一种基于卷积神经网络的多模型对成品菜的识别方法 | |
CN112668648B (zh) | 基于对称融合网络的红外可见光融合识别方法 | |
CN110009095A (zh) | 基于深度特征压缩卷积网络的道路行驶区域高效分割方法 | |
CN112836713A (zh) | 基于图像无锚框检测的中尺度对流系统识别与追踪方法 | |
CN104517122A (zh) | 一种基于优化卷积架构的图像目标识别方法 | |
CN110210354A (zh) | 一种雾霾天气交通标识检测与识别的方法 | |
CN112464911A (zh) | 基于改进YOLOv3-tiny的交通标志检测与识别方法 | |
CN113313657A (zh) | 一种用于低光照图像增强的非监督学习方法和系统 | |
CN109034184A (zh) | 一种基于深度学习的均压环检测识别方法 | |
Xie et al. | A binocular vision application in IoT: Realtime trustworthy road condition detection system in passable area | |
CN102169631A (zh) | 基于流形学习的交通拥堵事件协同检测方法 | |
CN115049534A (zh) | 基于知识蒸馏的鱼眼图像实时语义分割方法 | |
CN114419413A (zh) | 感受野自适应的变电站绝缘子缺陷检测神经网络构建方法 | |
Han et al. | Research on multiple jellyfish classification and detection based on deep learning | |
CN114241307B (zh) | 基于自注意力网络的合成孔径雷达飞机目标识别方法 | |
CN114821341A (zh) | 基于fpn与pan网络的双重注意力的遥感小目标检测方法 | |
CN111126155A (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
Chen et al. | Ship Detection with Optical Image Based on Attention and Loss Improved YOLO | |
CN117079095A (zh) | 基于深度学习的高空抛物检测方法、系统、介质和设备 | |
CN110674845A (zh) | 一种结合多感受野注意与特征再校准的菜品识别方法 | |
CN113095207A (zh) | 一种轻量级且高效的单阶段夜间车辆检测算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |