CN116188999B - 一种基于可见光和红外图像数据融合的小目标检测方法 - Google Patents

一种基于可见光和红外图像数据融合的小目标检测方法 Download PDF

Info

Publication number
CN116188999B
CN116188999B CN202310460965.8A CN202310460965A CN116188999B CN 116188999 B CN116188999 B CN 116188999B CN 202310460965 A CN202310460965 A CN 202310460965A CN 116188999 B CN116188999 B CN 116188999B
Authority
CN
China
Prior art keywords
feature
images
visible light
data
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310460965.8A
Other languages
English (en)
Other versions
CN116188999A (zh
Inventor
高天聪
钱伟行
吴卓超
王瑞
柏雨辰
张群波
马菀滢
赵杰
方铭宇
贾睿妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN202310460965.8A priority Critical patent/CN116188999B/zh
Publication of CN116188999A publication Critical patent/CN116188999A/zh
Application granted granted Critical
Publication of CN116188999B publication Critical patent/CN116188999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于可见光和红外图像数据融合的小目标检测方法,包括:采集待检测目标在各种环境条件下的可见光图像、红外图像;搭建通道注意金字塔网络对输入两种图像进行特征提取,将预定义三维锚框投影到两种特征图上,搭建转置卷积优化上采样,设置用于检测小目标的检测层;搭建ELU激活函数的卷积层,使用
Figure ZY_1
匹配ELU激活函数,同时在主干网络引入GSA注意力模块,通过设置Buff域分类器允许模型从多个数据集中学习其特征提取能力,提高在数据较少的数据集的检测性能。本发明利用各种环境条件下的可见光、红外图像来弥补维度信息的缺失,解决如何在混乱的环境中提高对小目标的检测精度的问题。

Description

一种基于可见光和红外图像数据融合的小目标检测方法
技术领域
本发明涉及机器学习、深度学习、图像识别、目标检测技术领域,特别涉及了一种基于可见光和红外图像数据融合的小目标检测方法。
背景技术
无人机被结合到各个领域中去创造高价值越来越受欢迎,尤其是低成本的无人机摄影技术。在事故救援现场,也有很多使用无人机进行搜救的案例,但是在大雨、大雪和夜晚这些导致能见度不高的情况下,搜救工作将很难进行展开。
人类拥有一种近乎完美地感知图像或视频中物体地内在能力,基于深度学习的目标检测模型通过CNN的特征提取能力来模仿这种能力,这意味着每个模型都关注每个视觉元素的形状和视觉特征,并结合线索来检测目标物体的位置和类别。检测小目标和遮挡目标仍然是当前最具有挑战性的,并且对于物体内部目标的检测目前研究较少,融合其他数据源信息的目标检测也较少。因此,如果一个模型能够在复杂背景下从多个域(可见光、红外、彩色图像、灰色图像等)中提取相似的视觉特征,那么它对物体的检测能力可以很好地应用到其他领域中。
发明内容
本发明所要解决的技术问题:针对背景技术的缺陷,本发明旨在提供一种基于两种图像数据融合的小目标检测方法,通过融合多种数据源的图像信息,以解决在晴天、雨天、雪天、夜晚等不同环境和天气条件下的物体遮挡、小物体目标检测困难的问题。
为了解决以上技术问题,本发明采用以下技术方案:
本发明提出一种基于可见光和红外图像数据融合的小目标检测方法,包括:
步骤1、数据采集及预处理:采集待检测目标在各种环境和天气条件下的可见光图像、红外图像数据,对其进行类别和锚框标注,然后将标注后的图像数据集划分为训练集、验证集和测试集,同时进行数据增强;具体包括子步骤:
步骤1.1、将双目摄像头、红外传感器集成到一起,确保可见光图像、红外图像对齐,在各种天气环境和天气条件下采集不同类别的目标图像,去除其中不清晰的图像;
步骤1.2、将获得的数据集按一定比例划分为训练集、验证集和测试集,对训练集和验证集进行三维锚框标注,测试集用于评估目标检测网络训练的效果;
步骤1.3、将数据集按照数据增强方法进行处理。
步骤2、图像特征提取:搭建通道注意力金字塔网络模型对输入的可见光、红外图像分别进行特征提取得到可见光图像、红外图像特征图,采用转置卷积优化上采样,同时设置用于检测小目标的检测层;
所搭建的通道注意力金字塔网络模型,主干网络采用有效通道注意金字塔结构对两种输入图像进行特征提取,使用全局最大池化代替全局平均池化,内核大小与SPPF层相同,再拼接卷积层,采用转置卷积代替最近临插值上采样,用来减少特征图中目标上采样过程中的信息损失,同时在模型中的头部结构中,将用来检测32×32以上像素点的检测层替换为用来检测4×4以上像素点的检测层。
步骤3、在训练集上通过聚类预先设置三维锚框,将其分别投影到可见光图像、红外图像特征图上,裁剪并池化到相同大小进行融合,搭建使用ELU激活函数的卷积层,同时使用
Figure SMS_1
损失函数匹配ELU激活函数的关联,使用Wasserstein距离的修正损失假设边界框为高斯分布,然后在模型的主干网络中引入GSA注意力模块;具体包括:
步骤3.1、在训练集上采用聚类算法为每个类别生成大量的预定义锚框,并将其投影到整体模型的主干网络的两种输出特征图上,裁剪对应的部分并且通过池化操作调整为相同宽高的特征图;
步骤3.2、对于每个锚框,通过元素平均操作将两种特征图进行融合,然后将其输入全连接网络,最终输出锚框的回归参数以及为前景的分数;
步骤3.3、搭建使用ELU激活函数的卷积层;再使用
Figure SMS_2
损失函数匹配关联ELU激活函数,以降低损失函数再训练过程中的收敛速度;使用Wasserstein距离的修正损失假设边界框为高斯分布;
步骤3.4、在主干网络中引入GSA注意力模块,使用最大池化和平均池化沿着中间特征图和全局特征图的通道轴生成四个有效的特征图,其中两个平均池化特征图被加在一起,通过非线性激活函数ReLU来关注中间特征图相对于全局信息的信息区域;最大池化特征图重复相同的过程,最后将四个特征图全部加在一起生成2D空间图,添加到卷积层中并通过激活函数Sigmoid来生成一个全局空间注意图。
步骤4、通过Buff域分类器在混淆主分类器的方向上计算数据损失,然后将梯度反向传播,提取视觉形状的特征,使模型从多个数据集中学习其特征提取能力,生成最终的预测框,输出检测结果。
Buff域分类器由一个平均池化层和四个全连接层组成,特征图被向下采样并平展到256维向量;前三个256维全连接层之后是ELU激活,最后一个全连接层给出4通道的域置信度输出;具体处理流程为:
首先,域分类器从输入图像中提取基本特征,推断输入图像的域,域分类器的输出在混淆主分类器的方向上计算域损失;
然后,将梯度反向传播,允许模型提取面向视觉形状的特征,生成最终的预测框,输出检测结果。
本发明采用以上技术方案,与现有技术相比具有以下技术效果:
本发明结合多种数据源如可见光、红外等,弥补了单一数据的局限性,可以达到优势互补的效果,同时在雨天、雪天、夜晚等不同的恶劣混乱环境和天气条件下,通过红外和可见光相结合的方式解决信息获取的问题;另外,可以通过将网络集成到多模态物体检测器中来解决物体遮挡的问题。
附图说明
图1是本发明的总体架构示意图。
图2是本发明的主干特征提取网络结构图。
图3是本发明的GSA注意力模块结构图。
图4是本发明的Buff域模块结构图。
实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
实施例1
如图1所示,本发明提出了一种基于可见光和红外图像数据融合的小目标检测方法。包括如下步骤:
步骤1:采集待检测目标在各种环境和天气条件下的可见光图像、红外图像数据图像,对其进行类别和锚框标注,然后将标注后的数据集图像划分为训练集、验证集和测试集,同时进行数据增强,最后生成数据集;
本步骤具体实施如下:
将双目摄像头、红外传感器集成到一起,确保两种图像对齐,在各种如晴天、多云、雨天、雪天、夜晚等各种环境和天气条件下采集较多的目标图像,去除其中不清晰的图像;将获得的数据集按2:1:1比例划分为训练集、验证集和测试集,对训练集和验证集进行三维锚框标注,测试集用于评估目标检测网络训练的效果。将数据集按照例如,进行高斯模糊,调整HSV对比度、cutout、Random Erasing、GridMask等数据增强方法来提升模型鲁棒性,降低模型对图像的敏感度,提高模型泛化能力,避免过拟合。
步骤2:搭建通道注意金字塔网络对输入的可见光、红外图像分别进行特征提取得到两种特征图,采用转置卷积优化上采样,同时把用以检测大目标的检测层替换为用于检测小目标的检测层;
本步骤具体实施如下:
主干网络采用有效通道注意金字塔结构,使用全局最大池化代替全局平均池化,设置内核大小为5、9、13,再拼接卷积层,同时采用转置卷积代替最近临近值上采样,用来减少特征图中目标上采样过程中的信息损失,同时在模型中的头部结构中把用以检测大目标的检测层替换为用于检测小目标的检测层,这样既可以提高对于小目标的检测精度,又不会增加模型计算量;主干特征提取网络结构如图2所示。
步骤3:在训练集上通过聚类预先设置三维锚框,投影到两种特征图上,裁剪并池化到相同大小进行融合,搭建使用ELU激活函数的卷积层,同时使用
Figure SMS_3
损失函数匹配ELU激活函数的关联,使用Wasserstein距离的修正损失假设边界框为高斯分布,然后在模型的主干网络中引入GSA注意力模块;
本步骤具体实施如下:
在训练集上采用聚类算法为每个类别生成大量的预定义锚框,并将其投影到主干网络的两种输出特征图上,裁剪对应的部分并且通过池化操作调整为相同宽高的特征图;对于每个锚框,通过元素平均操作将两种特征图进行融合,然后将其输入全连接网络,最终输出锚框的回归参数以及为前景的分数;
搭建使用ELU激活函数的卷积层;再使用
Figure SMS_4
损失函数匹配关联ELU激活函数,以降低损失函数再训练过程中的收敛速度;使用Wasserstein距离的修正损失假设边界框为高斯分布。在主干网络中引入GSA注意力模块,使用最大池化和平均池化沿着中间特征图和全局特征图的通道轴生成四个有效的特征图,其中两个平均池化特征图被加在一起,通过非线性激活函数ReLU来关注中间特征图相对于全局信息的信息区域。最大池化特征图重复相同的过程,最后将四个特征图全部加在一起生成2D空间图,添加到卷积层中并通过激活函数Sigmoid来生成一个全局空间注意图。
ELU激活函数是ReLU激活函数的变体,它包含了ReLU的优点,解决了ReLU的垂死问题,减少了训练时间,提高神经网络的测试集的性能,当x<0时,微分函数使用指数函数连接,如果使用阶跃函数,则将损失函数定义为不均匀,从而导致局部最优,
Figure SMS_5
一般指定为1。输出值几乎以零为中心,exp函数的计算方法与一般的ReLU不同:
Figure SMS_6
Figure SMS_7
为了解决SiLU激活函数只能在深度神经网络的隐藏层中,只能在基于强化学习的系统中使用等问题,本发明使用ELU作为激活函数,替换Conv层中的SiLU激活函数。
IOU是由预测框和真实框相互作用产生的,它是一个表示物体检测领域中预测的边界框和真实框的大小,取值在0到1之间。
Figure SMS_8
具有一个幂次的IOU项和一个附加的幂次正则项,可以显著的超过现有的基于CIOU的损失,通过调节/>
Figure SMS_9
使探测器更灵活地实现不同水平的bbox回归精度。并且,假设边界盒为2D高斯分布,修改损失以便更好地优化模型用以检测较小的物体。
对于边界框R={cx,cy,w,h},其中cx,cy为包围框中心坐标,w,h为包围框的宽和高,假设包围框为二维高斯分布,其中中心像素值最大,从中心到边界值递减,盒子的内切椭圆可以表示为:
Figure SMS_10
二维高斯分布的概率密度函数公式为:
Figure SMS_11
其中z表示坐标位置,
Figure SMS_12
、/>
Figure SMS_13
分别表示高斯分布的平均向量和协方差矩阵:
Figure SMS_14
当:
Figure SMS_15
所示椭圆为高斯分布的密度轮廓,即表示边界框R可以通过二位高斯分布
Figure SMS_16
表示。
使用二阶Wasserstein距离计算两个高斯分布之间的损失,
Figure SMS_17
Figure SMS_18
之间的Wasserstein距离定义为:
Figure SMS_19
要使用Wasserstein距离作为损失度量,必须将其标准化。因此,将其归一化为指数形式,得到归一化Wasserstein损失(WL)为:
Figure SMS_20
利用上述公式,推算出基于CIOU的损失函数
Figure SMS_21
公式如下:
Figure SMS_22
Figure SMS_23
Figure SMS_24
其中,wh分别为包围框的宽和高,v代表的使两个盒子的纵横比的一致性,
Figure SMS_25
、/>
Figure SMS_26
分别表示预测框和真实框的中心点,/>
Figure SMS_27
、/>
Figure SMS_28
分别为真实框的宽和高,c为最小框的对角线长度,/>
Figure SMS_29
为欧几里得距离,/>
Figure SMS_30
是一个正权衡参数,用于调整不重叠情况和重叠情况之间的平衡,特别是在不重叠的情况下,重叠面积因子对回归损失的优先级更高。
在模型的骨干网络中引入GSA注意力模块,注意力模块如图3所示,使用最大池化和平均池化沿着中间特征图和全局特征图的通道轴生成四个有效的特征图,其中两个平均池化特征图被加在一起,通过非线性激活函数ReLU来关注中间特征图相对于全局信息的信息区域。最大池化特征图重复相同的过程,最后将四个特征图全部加在一起生成2D空间图,添加到卷积层中并通过激活函数Sigmoid来生成一个全局空间注意图。
完善特征图计算:
Figure SMS_31
其中
Figure SMS_32
为全局空间注意图,/>
Figure SMS_33
为中间特征图。
Figure SMS_34
其中
Figure SMS_37
是中间特征图,/>
Figure SMS_40
是全局特征图,/>
Figure SMS_43
,/>
Figure SMS_36
Figure SMS_39
,/>
Figure SMS_42
,/>
Figure SMS_44
、/>
Figure SMS_35
为归一化函数ReLU和Sigmoid运算使
Figure SMS_38
,/>
Figure SMS_41
为滤波器大小为1×1的卷积运算。
步骤4:通过设计的Buff域分类器,用以在混淆主分类器的方向上计算数据损失,然后将梯度反向传播,允许模型提取视觉形状的特征,使模型可以从多个数据集中学习其特征提取能力,从而提高在数据较少的数据集的检测性能,生成最终的预测框。Buff域模块结构如图4所示。
本步骤具体实施如下:
通过设计的Buff域分类器,用以在混淆主分类器的方向上计算域损失,然后将梯度反向传播,允许模型提取视觉形状的特征,从而允许模型从多个数据集中学习其特征提取能力,同时保持在数据较少的域的检测性能。
如图4所示,Buff域模块由一个平均池化层和四个全连接层组成。特征图被向下采样并平展到256维向量。前三个256维全连接层之后是ELU激活,最后一个全连接层给出4通道的域置信度输出。域分类器主要从输入图像中提取基本特征,域分类器的作用是推断输入图像的域。为了迫使基网络提取域不变特征,我们用域分类器的输出在混淆主分类器的方向上计算域损失。然后将梯度反向传播,允许模型提取面向视觉形状的特征,这些特征更具有域不变性。因此,域分类器允许模型从多个数据集中学习其特征提取能力,同时保持在数据较少的域的检测性能。
基于深度学习的目标检测模型通过CNN的特征提取能力来模仿人类近乎完美感知图像或视频中物体的内在能力,因此,每个模型都关注每个视觉元素的形状和视觉特征,并结合线索来检测目标物体的位置和类别。所以,如果一个模型能够从多个域(可见光、红外等)中提取相似的视觉特征,那么它对物体的检测能力可以很好地应用到其他物体具有相似视觉形状的域。基于这一概念,本发明提出了一个领域自适应框架来强制模型提取相似特征。本发明在目标检测模型的基础上,增加了一个Buff域分类器模块,通过将反向损失传播到特征提取器网络,迫使提取的特征具有域不变性。通过该方法,该框架可以使用来自不同分布的多个领域的数据集进行自适应训练,增强了模型的鲁棒性,允许深度学习模型在没有大规模数据集的情况下解决检测任务。
实施例2
本发明实施例还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。需要说明的是,处理器执行所述计算机程序的流程对应本发明实施例所提供的方法的具体步骤,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法,在此不再赘述。
实施例3
本发明实施例还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例所提供的方法的具体步骤。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法,在此不再赘述。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (10)

1.一种基于可见光和红外图像数据融合的小目标检测方法,其特征在于,包括以下步骤:
步骤1、数据采集及预处理:采集待检测目标在各种环境和天气条件下的可见光图像、红外图像数据,对其进行类别和锚框标注,然后将标注后的图像数据集划分为训练集、验证集和测试集,同时进行数据增强;
步骤2、图像特征提取:搭建通道注意力金字塔网络模型对输入的可见光、红外图像分别进行特征提取得到可见光图像、红外图像特征图,采用转置卷积优化上采样,同时设置用于检测小目标的检测层;
步骤3、在训练集上通过聚类预先设置三维锚框,将其分别投影到可见光图像、红外图像特征图上,裁剪并池化到相同大小进行融合,搭建使用ELU激活函数的卷积层,同时使用
Figure QLYQS_1
损失函数匹配ELU激活函数的关联,使用Wasserstein距离的修正损失假设边界框为高斯分布,然后在模型的主干网络中引入GSA注意力模块;
步骤4、通过Buff域分类器在混淆主分类器的方向上计算数据损失,然后将梯度反向传播,提取视觉形状的特征,使模型从多个数据集中学习其特征提取能力,生成最终的预测框,输出检测结果。
2.根据权利要求1所述的小目标检测方法,其特征在于,步骤1包括:
步骤1.1、将双目摄像头、红外传感器集成到一起,确保可见光图像、红外图像对齐,在各种天气环境和天气条件下采集不同类别的目标图像,去除其中不清晰的图像;
步骤1.2、将获得的数据集按一定比例划分为训练集、验证集和测试集,对训练集和验证集进行三维锚框标注,测试集用于评估目标检测网络训练的效果;
步骤1.3、将数据集按照数据增强方法进行处理。
3.根据权利要求1所述的小目标检测方法,其特征在于,步骤2中,所搭建的通道注意力金字塔网络模型,主干网络采用有效通道注意金字塔结构对两种输入图像进行特征提取,使用全局最大池化代替全局平均池化,内核大小与SPPF层相同,再拼接卷积层,采用转置卷积代替最近临插值上采样,用来减少特征图中目标上采样过程中的信息损失,同时在模型中的头部结构中,将用来检测32×32以上像素点的检测层替换为用来检测4×4以上像素点的检测层。
4.根据权利要求3所述的小目标检测方法,其特征在于,内核大小设置为5、9、13。
5.根据权利要求1所述的小目标检测方法,其特征在于,步骤3具体包括:
步骤3.1、在训练集上采用聚类算法为每个类别生成大量的预定义锚框,并将其投影到整体模型的主干网络的两种输出特征图上,裁剪对应的部分并且通过池化操作调整为相同宽高的特征图;
步骤3.2、对于每个锚框,通过元素平均操作将两种特征图进行融合,然后将其输入全连接网络,最终输出锚框的回归参数以及为前景的分数;
步骤3.3、搭建使用ELU激活函数的卷积层;再使用
Figure QLYQS_2
损失函数匹配关联ELU激活函数,以降低损失函数再训练过程中的收敛速度;使用Wasserstein距离的修正损失假设边界框为高斯分布;
步骤3.4、在主干网络中引入GSA注意力模块,使用最大池化和平均池化沿着中间特征图和全局特征图的通道轴生成四个有效的特征图,其中两个平均池化特征图被加在一起,通过非线性激活函数ReLU来关注中间特征图相对于全局信息的信息区域;最大池化特征图重复相同的过程,最后将四个特征图全部加在一起生成2D空间图,添加到卷积层中并通过激活函数Sigmoid来生成一个全局空间注意图。
6.根据权利要求5所述的小目标检测方法,其特征在于,基于CIOU的损失函数
Figure QLYQS_3
公式如下:
Figure QLYQS_4
Figure QLYQS_5
Figure QLYQS_6
其中,wh分别为包围框的宽和高,v代表的使两个盒子的纵横比的一致性,
Figure QLYQS_7
,/>
Figure QLYQS_8
分别表示预测框和真实框的中心点,/>
Figure QLYQS_9
、/>
Figure QLYQS_10
分别为真实框的宽和高,c为最小框的对角线长度,
Figure QLYQS_11
为欧几里得距离,/>
Figure QLYQS_12
是正权衡参数,用于调整不重叠情况和重叠情况之间的平衡,/>
Figure QLYQS_13
表示物体检测领域中预测的边界框和真实框的大小,取值在0到1之间。
7.根据权利要求1所述的小目标检测方法,其特征在于,步骤4中,Buff域分类器由一个平均池化层和四个全连接层组成,特征图被向下采样并平展到256维向量;前三个256维全连接层之后是ELU激活,最后一个全连接层给出4通道的域置信度输出;具体处理流程为:
首先,域分类器从输入图像中提取基本特征,推断输入图像的域,域分类器的输出在混淆主分类器的方向上计算域损失;
然后,将梯度反向传播,允许模型提取面向视觉形状的特征,生成最终的预测框,输出检测结果。
8.根据权利要求5所述的小目标检测方法,其特征在于,GSA注意力模块具体如下:
完善特征图计算:
Figure QLYQS_14
;其中,/>
Figure QLYQS_15
为全局空间注意图,/>
Figure QLYQS_16
为中间特征图;
Figure QLYQS_17
其中,
Figure QLYQS_18
是中间特征图,/>
Figure QLYQS_21
是全局特征图,/>
Figure QLYQS_23
,/>
Figure QLYQS_20
Figure QLYQS_25
,/>
Figure QLYQS_26
,/>
Figure QLYQS_27
、/>
Figure QLYQS_19
为归一化函数ReLU和Sigmoid运算,用以限制/>
Figure QLYQS_22
,/>
Figure QLYQS_24
为滤波器大小为1×1的卷积运算。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
CN202310460965.8A 2023-04-26 2023-04-26 一种基于可见光和红外图像数据融合的小目标检测方法 Active CN116188999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310460965.8A CN116188999B (zh) 2023-04-26 2023-04-26 一种基于可见光和红外图像数据融合的小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310460965.8A CN116188999B (zh) 2023-04-26 2023-04-26 一种基于可见光和红外图像数据融合的小目标检测方法

Publications (2)

Publication Number Publication Date
CN116188999A CN116188999A (zh) 2023-05-30
CN116188999B true CN116188999B (zh) 2023-07-11

Family

ID=86444637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310460965.8A Active CN116188999B (zh) 2023-04-26 2023-04-26 一种基于可见光和红外图像数据融合的小目标检测方法

Country Status (1)

Country Link
CN (1) CN116188999B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863286B (zh) * 2023-07-24 2024-02-02 中国海洋大学 一种双流目标检测方法及其模型搭建方法
CN117036985B (zh) * 2023-10-09 2024-02-06 武汉工程大学 一种面向视频卫星图像的小目标检测方法及装置
CN117541944B (zh) * 2023-11-07 2024-06-11 南京航空航天大学 一种多模态红外小目标检测方法
CN117690165B (zh) * 2024-02-02 2024-07-09 四川泓宝润业工程技术有限公司 一种钻杆与液压钳间人员穿行检测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113971801A (zh) * 2021-10-27 2022-01-25 南京师范大学 一种基于四类多模态数据融合的目标多维度检测方法
WO2022100470A1 (en) * 2020-11-13 2022-05-19 Zhejiang Dahua Technology Co., Ltd. Systems and methods for target detection

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10621725B2 (en) * 2017-04-12 2020-04-14 Here Global B.V. Small object detection from a large image
CN113111718B (zh) * 2021-03-16 2024-06-21 北京航科威视光电信息技术有限公司 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法
CN113420607A (zh) * 2021-05-31 2021-09-21 西南电子技术研究所(中国电子科技集团公司第十研究所) 无人机多尺度目标检测识别方法
CN114241003B (zh) * 2021-12-14 2022-08-19 成都阿普奇科技股份有限公司 一种全天候轻量化高实时性海面船只检测与跟踪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022100470A1 (en) * 2020-11-13 2022-05-19 Zhejiang Dahua Technology Co., Ltd. Systems and methods for target detection
CN113971801A (zh) * 2021-10-27 2022-01-25 南京师范大学 一种基于四类多模态数据融合的目标多维度检测方法

Also Published As

Publication number Publication date
CN116188999A (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
Rani LittleYOLO-SPP: A delicate real-time vehicle detection algorithm
CN110298262B (zh) 物体识别方法及装置
CN107274445B (zh) 一种图像深度估计方法和系统
Xu et al. Fast vehicle and pedestrian detection using improved Mask R‐CNN
CN107545263B (zh) 一种物体检测方法及装置
Lee et al. Accurate traffic light detection using deep neural network with focal regression loss
Biasutti et al. Lu-net: An efficient network for 3d lidar point cloud semantic segmentation based on end-to-end-learned 3d features and u-net
Yang et al. Real-time pedestrian and vehicle detection for autonomous driving
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
Haider et al. Human detection in aerial thermal imaging using a fully convolutional regression network
CN113095152A (zh) 一种基于回归的车道线检测方法及系统
CN112541460B (zh) 一种车辆再识别方法及系统
Hu et al. A video streaming vehicle detection algorithm based on YOLOv4
Manssor et al. Real-time human detection in thermal infrared imaging at night using enhanced Tiny-yolov3 network
Zang et al. Traffic lane detection using fully convolutional neural network
Cho et al. Modified perceptual cycle generative adversarial network-based image enhancement for improving accuracy of low light image segmentation
Huang et al. Small target detection model in aerial images based on TCA-YOLOv5m
CN117935088A (zh) 基于全尺度特征感知和特征重构的无人机图像目标检测方法、系统及存储介质
Li et al. Improved YOLOv5s algorithm for small target detection in UAV aerial photography
CN116953702A (zh) 基于演绎范式的旋转目标检测方法及装置
CN113673332B (zh) 对象识别方法、装置以及计算机可读存储介质
Feng et al. Improved YOLOv8 algorithms for small object detection in aerial imagery
Liu et al. UDP-YOLO: High Efficiency and Real-Time Performance of Autonomous Driving Technology
Choudhury et al. Human detection using orientation shape histogram and coocurrence textures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant