CN116188999B - 一种基于可见光和红外图像数据融合的小目标检测方法 - Google Patents
一种基于可见光和红外图像数据融合的小目标检测方法 Download PDFInfo
- Publication number
- CN116188999B CN116188999B CN202310460965.8A CN202310460965A CN116188999B CN 116188999 B CN116188999 B CN 116188999B CN 202310460965 A CN202310460965 A CN 202310460965A CN 116188999 B CN116188999 B CN 116188999B
- Authority
- CN
- China
- Prior art keywords
- feature
- images
- visible light
- data
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 230000004927 fusion Effects 0.000 title claims abstract description 11
- 230000004913 activation Effects 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 230000007613 environmental effect Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 44
- 238000000034 method Methods 0.000 claims description 34
- 238000011176 pooling Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 20
- 230000000007 visual effect Effects 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000000739 chaotic effect Effects 0.000 abstract description 2
- 230000007812 deficiency Effects 0.000 abstract 1
- 238000005457 optimization Methods 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明涉及机器学习、深度学习、图像识别、目标检测技术领域,特别涉及了一种基于可见光和红外图像数据融合的小目标检测方法。
背景技术
无人机被结合到各个领域中去创造高价值越来越受欢迎,尤其是低成本的无人机摄影技术。在事故救援现场,也有很多使用无人机进行搜救的案例,但是在大雨、大雪和夜晚这些导致能见度不高的情况下,搜救工作将很难进行展开。
人类拥有一种近乎完美地感知图像或视频中物体地内在能力,基于深度学习的目标检测模型通过CNN的特征提取能力来模仿这种能力,这意味着每个模型都关注每个视觉元素的形状和视觉特征,并结合线索来检测目标物体的位置和类别。检测小目标和遮挡目标仍然是当前最具有挑战性的,并且对于物体内部目标的检测目前研究较少,融合其他数据源信息的目标检测也较少。因此,如果一个模型能够在复杂背景下从多个域(可见光、红外、彩色图像、灰色图像等)中提取相似的视觉特征,那么它对物体的检测能力可以很好地应用到其他领域中。
发明内容
本发明所要解决的技术问题:针对背景技术的缺陷,本发明旨在提供一种基于两种图像数据融合的小目标检测方法,通过融合多种数据源的图像信息,以解决在晴天、雨天、雪天、夜晚等不同环境和天气条件下的物体遮挡、小物体目标检测困难的问题。
为了解决以上技术问题,本发明采用以下技术方案:
本发明提出一种基于可见光和红外图像数据融合的小目标检测方法,包括:
步骤1、数据采集及预处理:采集待检测目标在各种环境和天气条件下的可见光图像、红外图像数据,对其进行类别和锚框标注,然后将标注后的图像数据集划分为训练集、验证集和测试集,同时进行数据增强;具体包括子步骤:
步骤1.1、将双目摄像头、红外传感器集成到一起,确保可见光图像、红外图像对齐,在各种天气环境和天气条件下采集不同类别的目标图像,去除其中不清晰的图像;
步骤1.2、将获得的数据集按一定比例划分为训练集、验证集和测试集,对训练集和验证集进行三维锚框标注,测试集用于评估目标检测网络训练的效果;
步骤1.3、将数据集按照数据增强方法进行处理。
步骤2、图像特征提取:搭建通道注意力金字塔网络模型对输入的可见光、红外图像分别进行特征提取得到可见光图像、红外图像特征图,采用转置卷积优化上采样,同时设置用于检测小目标的检测层;
所搭建的通道注意力金字塔网络模型,主干网络采用有效通道注意金字塔结构对两种输入图像进行特征提取,使用全局最大池化代替全局平均池化,内核大小与SPPF层相同,再拼接卷积层,采用转置卷积代替最近临插值上采样,用来减少特征图中目标上采样过程中的信息损失,同时在模型中的头部结构中,将用来检测32×32以上像素点的检测层替换为用来检测4×4以上像素点的检测层。
步骤3、在训练集上通过聚类预先设置三维锚框,将其分别投影到可见光图像、红外图像特征图上,裁剪并池化到相同大小进行融合,搭建使用ELU激活函数的卷积层,同时使用损失函数匹配ELU激活函数的关联,使用Wasserstein距离的修正损失假设边界框为高斯分布,然后在模型的主干网络中引入GSA注意力模块;具体包括:
步骤3.1、在训练集上采用聚类算法为每个类别生成大量的预定义锚框,并将其投影到整体模型的主干网络的两种输出特征图上,裁剪对应的部分并且通过池化操作调整为相同宽高的特征图;
步骤3.2、对于每个锚框,通过元素平均操作将两种特征图进行融合,然后将其输入全连接网络,最终输出锚框的回归参数以及为前景的分数;
步骤3.4、在主干网络中引入GSA注意力模块,使用最大池化和平均池化沿着中间特征图和全局特征图的通道轴生成四个有效的特征图,其中两个平均池化特征图被加在一起,通过非线性激活函数ReLU来关注中间特征图相对于全局信息的信息区域;最大池化特征图重复相同的过程,最后将四个特征图全部加在一起生成2D空间图,添加到卷积层中并通过激活函数Sigmoid来生成一个全局空间注意图。
步骤4、通过Buff域分类器在混淆主分类器的方向上计算数据损失,然后将梯度反向传播,提取视觉形状的特征,使模型从多个数据集中学习其特征提取能力,生成最终的预测框,输出检测结果。
Buff域分类器由一个平均池化层和四个全连接层组成,特征图被向下采样并平展到256维向量;前三个256维全连接层之后是ELU激活,最后一个全连接层给出4通道的域置信度输出;具体处理流程为:
首先,域分类器从输入图像中提取基本特征,推断输入图像的域,域分类器的输出在混淆主分类器的方向上计算域损失;
然后,将梯度反向传播,允许模型提取面向视觉形状的特征,生成最终的预测框,输出检测结果。
本发明采用以上技术方案,与现有技术相比具有以下技术效果:
本发明结合多种数据源如可见光、红外等,弥补了单一数据的局限性,可以达到优势互补的效果,同时在雨天、雪天、夜晚等不同的恶劣混乱环境和天气条件下,通过红外和可见光相结合的方式解决信息获取的问题;另外,可以通过将网络集成到多模态物体检测器中来解决物体遮挡的问题。
附图说明
图1是本发明的总体架构示意图。
图2是本发明的主干特征提取网络结构图。
图3是本发明的GSA注意力模块结构图。
图4是本发明的Buff域模块结构图。
实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
实施例1
如图1所示,本发明提出了一种基于可见光和红外图像数据融合的小目标检测方法。包括如下步骤:
步骤1:采集待检测目标在各种环境和天气条件下的可见光图像、红外图像数据图像,对其进行类别和锚框标注,然后将标注后的数据集图像划分为训练集、验证集和测试集,同时进行数据增强,最后生成数据集;
本步骤具体实施如下:
将双目摄像头、红外传感器集成到一起,确保两种图像对齐,在各种如晴天、多云、雨天、雪天、夜晚等各种环境和天气条件下采集较多的目标图像,去除其中不清晰的图像;将获得的数据集按2:1:1比例划分为训练集、验证集和测试集,对训练集和验证集进行三维锚框标注,测试集用于评估目标检测网络训练的效果。将数据集按照例如,进行高斯模糊,调整HSV对比度、cutout、Random Erasing、GridMask等数据增强方法来提升模型鲁棒性,降低模型对图像的敏感度,提高模型泛化能力,避免过拟合。
步骤2:搭建通道注意金字塔网络对输入的可见光、红外图像分别进行特征提取得到两种特征图,采用转置卷积优化上采样,同时把用以检测大目标的检测层替换为用于检测小目标的检测层;
本步骤具体实施如下:
主干网络采用有效通道注意金字塔结构,使用全局最大池化代替全局平均池化,设置内核大小为5、9、13,再拼接卷积层,同时采用转置卷积代替最近临近值上采样,用来减少特征图中目标上采样过程中的信息损失,同时在模型中的头部结构中把用以检测大目标的检测层替换为用于检测小目标的检测层,这样既可以提高对于小目标的检测精度,又不会增加模型计算量;主干特征提取网络结构如图2所示。
步骤3:在训练集上通过聚类预先设置三维锚框,投影到两种特征图上,裁剪并池化到相同大小进行融合,搭建使用ELU激活函数的卷积层,同时使用损失函数匹配ELU激活函数的关联,使用Wasserstein距离的修正损失假设边界框为高斯分布,然后在模型的主干网络中引入GSA注意力模块;
本步骤具体实施如下:
在训练集上采用聚类算法为每个类别生成大量的预定义锚框,并将其投影到主干网络的两种输出特征图上,裁剪对应的部分并且通过池化操作调整为相同宽高的特征图;对于每个锚框,通过元素平均操作将两种特征图进行融合,然后将其输入全连接网络,最终输出锚框的回归参数以及为前景的分数;
搭建使用ELU激活函数的卷积层;再使用损失函数匹配关联ELU激活函数,以降低损失函数再训练过程中的收敛速度;使用Wasserstein距离的修正损失假设边界框为高斯分布。在主干网络中引入GSA注意力模块,使用最大池化和平均池化沿着中间特征图和全局特征图的通道轴生成四个有效的特征图,其中两个平均池化特征图被加在一起,通过非线性激活函数ReLU来关注中间特征图相对于全局信息的信息区域。最大池化特征图重复相同的过程,最后将四个特征图全部加在一起生成2D空间图,添加到卷积层中并通过激活函数Sigmoid来生成一个全局空间注意图。
ELU激活函数是ReLU激活函数的变体,它包含了ReLU的优点,解决了ReLU的垂死问题,减少了训练时间,提高神经网络的测试集的性能,当x<0时,微分函数使用指数函数连接,如果使用阶跃函数,则将损失函数定义为不均匀,从而导致局部最优,一般指定为1。输出值几乎以零为中心,exp函数的计算方法与一般的ReLU不同:
为了解决SiLU激活函数只能在深度神经网络的隐藏层中,只能在基于强化学习的系统中使用等问题,本发明使用ELU作为激活函数,替换Conv层中的SiLU激活函数。
IOU是由预测框和真实框相互作用产生的,它是一个表示物体检测领域中预测的边界框和真实框的大小,取值在0到1之间。具有一个幂次的IOU项和一个附加的幂次正则项,可以显著的超过现有的基于CIOU的损失,通过调节/>使探测器更灵活地实现不同水平的bbox回归精度。并且,假设边界盒为2D高斯分布,修改损失以便更好地优化模型用以检测较小的物体。
对于边界框R={cx,cy,w,h},其中cx,cy为包围框中心坐标,w,h为包围框的宽和高,假设包围框为二维高斯分布,其中中心像素值最大,从中心到边界值递减,盒子的内切椭圆可以表示为:
二维高斯分布的概率密度函数公式为:
要使用Wasserstein距离作为损失度量,必须将其标准化。因此,将其归一化为指数形式,得到归一化Wasserstein损失(WL)为:
其中,w、h分别为包围框的宽和高,v代表的使两个盒子的纵横比的一致性,、/>分别表示预测框和真实框的中心点,/>、/>分别为真实框的宽和高,c为最小框的对角线长度,/>为欧几里得距离,/>是一个正权衡参数,用于调整不重叠情况和重叠情况之间的平衡,特别是在不重叠的情况下,重叠面积因子对回归损失的优先级更高。
在模型的骨干网络中引入GSA注意力模块,注意力模块如图3所示,使用最大池化和平均池化沿着中间特征图和全局特征图的通道轴生成四个有效的特征图,其中两个平均池化特征图被加在一起,通过非线性激活函数ReLU来关注中间特征图相对于全局信息的信息区域。最大池化特征图重复相同的过程,最后将四个特征图全部加在一起生成2D空间图,添加到卷积层中并通过激活函数Sigmoid来生成一个全局空间注意图。
步骤4:通过设计的Buff域分类器,用以在混淆主分类器的方向上计算数据损失,然后将梯度反向传播,允许模型提取视觉形状的特征,使模型可以从多个数据集中学习其特征提取能力,从而提高在数据较少的数据集的检测性能,生成最终的预测框。Buff域模块结构如图4所示。
本步骤具体实施如下:
通过设计的Buff域分类器,用以在混淆主分类器的方向上计算域损失,然后将梯度反向传播,允许模型提取视觉形状的特征,从而允许模型从多个数据集中学习其特征提取能力,同时保持在数据较少的域的检测性能。
如图4所示,Buff域模块由一个平均池化层和四个全连接层组成。特征图被向下采样并平展到256维向量。前三个256维全连接层之后是ELU激活,最后一个全连接层给出4通道的域置信度输出。域分类器主要从输入图像中提取基本特征,域分类器的作用是推断输入图像的域。为了迫使基网络提取域不变特征,我们用域分类器的输出在混淆主分类器的方向上计算域损失。然后将梯度反向传播,允许模型提取面向视觉形状的特征,这些特征更具有域不变性。因此,域分类器允许模型从多个数据集中学习其特征提取能力,同时保持在数据较少的域的检测性能。
基于深度学习的目标检测模型通过CNN的特征提取能力来模仿人类近乎完美感知图像或视频中物体的内在能力,因此,每个模型都关注每个视觉元素的形状和视觉特征,并结合线索来检测目标物体的位置和类别。所以,如果一个模型能够从多个域(可见光、红外等)中提取相似的视觉特征,那么它对物体的检测能力可以很好地应用到其他物体具有相似视觉形状的域。基于这一概念,本发明提出了一个领域自适应框架来强制模型提取相似特征。本发明在目标检测模型的基础上,增加了一个Buff域分类器模块,通过将反向损失传播到特征提取器网络,迫使提取的特征具有域不变性。通过该方法,该框架可以使用来自不同分布的多个领域的数据集进行自适应训练,增强了模型的鲁棒性,允许深度学习模型在没有大规模数据集的情况下解决检测任务。
实施例2
本发明实施例还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。需要说明的是,处理器执行所述计算机程序的流程对应本发明实施例所提供的方法的具体步骤,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法,在此不再赘述。
实施例3
本发明实施例还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例所提供的方法的具体步骤。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法,在此不再赘述。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (10)
1.一种基于可见光和红外图像数据融合的小目标检测方法,其特征在于,包括以下步骤:
步骤1、数据采集及预处理:采集待检测目标在各种环境和天气条件下的可见光图像、红外图像数据,对其进行类别和锚框标注,然后将标注后的图像数据集划分为训练集、验证集和测试集,同时进行数据增强;
步骤2、图像特征提取:搭建通道注意力金字塔网络模型对输入的可见光、红外图像分别进行特征提取得到可见光图像、红外图像特征图,采用转置卷积优化上采样,同时设置用于检测小目标的检测层;
步骤3、在训练集上通过聚类预先设置三维锚框,将其分别投影到可见光图像、红外图像特征图上,裁剪并池化到相同大小进行融合,搭建使用ELU激活函数的卷积层,同时使用损失函数匹配ELU激活函数的关联,使用Wasserstein距离的修正损失假设边界框为高斯分布,然后在模型的主干网络中引入GSA注意力模块;
步骤4、通过Buff域分类器在混淆主分类器的方向上计算数据损失,然后将梯度反向传播,提取视觉形状的特征,使模型从多个数据集中学习其特征提取能力,生成最终的预测框,输出检测结果。
2.根据权利要求1所述的小目标检测方法,其特征在于,步骤1包括:
步骤1.1、将双目摄像头、红外传感器集成到一起,确保可见光图像、红外图像对齐,在各种天气环境和天气条件下采集不同类别的目标图像,去除其中不清晰的图像;
步骤1.2、将获得的数据集按一定比例划分为训练集、验证集和测试集,对训练集和验证集进行三维锚框标注,测试集用于评估目标检测网络训练的效果;
步骤1.3、将数据集按照数据增强方法进行处理。
3.根据权利要求1所述的小目标检测方法,其特征在于,步骤2中,所搭建的通道注意力金字塔网络模型,主干网络采用有效通道注意金字塔结构对两种输入图像进行特征提取,使用全局最大池化代替全局平均池化,内核大小与SPPF层相同,再拼接卷积层,采用转置卷积代替最近临插值上采样,用来减少特征图中目标上采样过程中的信息损失,同时在模型中的头部结构中,将用来检测32×32以上像素点的检测层替换为用来检测4×4以上像素点的检测层。
4.根据权利要求3所述的小目标检测方法,其特征在于,内核大小设置为5、9、13。
5.根据权利要求1所述的小目标检测方法,其特征在于,步骤3具体包括:
步骤3.1、在训练集上采用聚类算法为每个类别生成大量的预定义锚框,并将其投影到整体模型的主干网络的两种输出特征图上,裁剪对应的部分并且通过池化操作调整为相同宽高的特征图;
步骤3.2、对于每个锚框,通过元素平均操作将两种特征图进行融合,然后将其输入全连接网络,最终输出锚框的回归参数以及为前景的分数;
步骤3.4、在主干网络中引入GSA注意力模块,使用最大池化和平均池化沿着中间特征图和全局特征图的通道轴生成四个有效的特征图,其中两个平均池化特征图被加在一起,通过非线性激活函数ReLU来关注中间特征图相对于全局信息的信息区域;最大池化特征图重复相同的过程,最后将四个特征图全部加在一起生成2D空间图,添加到卷积层中并通过激活函数Sigmoid来生成一个全局空间注意图。
7.根据权利要求1所述的小目标检测方法,其特征在于,步骤4中,Buff域分类器由一个平均池化层和四个全连接层组成,特征图被向下采样并平展到256维向量;前三个256维全连接层之后是ELU激活,最后一个全连接层给出4通道的域置信度输出;具体处理流程为:
首先,域分类器从输入图像中提取基本特征,推断输入图像的域,域分类器的输出在混淆主分类器的方向上计算域损失;
然后,将梯度反向传播,允许模型提取面向视觉形状的特征,生成最终的预测框,输出检测结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310460965.8A CN116188999B (zh) | 2023-04-26 | 2023-04-26 | 一种基于可见光和红外图像数据融合的小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310460965.8A CN116188999B (zh) | 2023-04-26 | 2023-04-26 | 一种基于可见光和红外图像数据融合的小目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116188999A CN116188999A (zh) | 2023-05-30 |
CN116188999B true CN116188999B (zh) | 2023-07-11 |
Family
ID=86444637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310460965.8A Active CN116188999B (zh) | 2023-04-26 | 2023-04-26 | 一种基于可见光和红外图像数据融合的小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116188999B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116863286B (zh) * | 2023-07-24 | 2024-02-02 | 中国海洋大学 | 一种双流目标检测方法及其模型搭建方法 |
CN117036985B (zh) * | 2023-10-09 | 2024-02-06 | 武汉工程大学 | 一种面向视频卫星图像的小目标检测方法及装置 |
CN117541944B (zh) * | 2023-11-07 | 2024-06-11 | 南京航空航天大学 | 一种多模态红外小目标检测方法 |
CN117690165B (zh) * | 2024-02-02 | 2024-07-09 | 四川泓宝润业工程技术有限公司 | 一种钻杆与液压钳间人员穿行检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113971801A (zh) * | 2021-10-27 | 2022-01-25 | 南京师范大学 | 一种基于四类多模态数据融合的目标多维度检测方法 |
WO2022100470A1 (en) * | 2020-11-13 | 2022-05-19 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for target detection |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10621725B2 (en) * | 2017-04-12 | 2020-04-14 | Here Global B.V. | Small object detection from a large image |
CN113111718B (zh) * | 2021-03-16 | 2024-06-21 | 北京航科威视光电信息技术有限公司 | 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法 |
CN113420607A (zh) * | 2021-05-31 | 2021-09-21 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 无人机多尺度目标检测识别方法 |
CN114241003B (zh) * | 2021-12-14 | 2022-08-19 | 成都阿普奇科技股份有限公司 | 一种全天候轻量化高实时性海面船只检测与跟踪方法 |
-
2023
- 2023-04-26 CN CN202310460965.8A patent/CN116188999B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022100470A1 (en) * | 2020-11-13 | 2022-05-19 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for target detection |
CN113971801A (zh) * | 2021-10-27 | 2022-01-25 | 南京师范大学 | 一种基于四类多模态数据融合的目标多维度检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116188999A (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116188999B (zh) | 一种基于可见光和红外图像数据融合的小目标检测方法 | |
Rani | LittleYOLO-SPP: A delicate real-time vehicle detection algorithm | |
CN110298262B (zh) | 物体识别方法及装置 | |
CN107274445B (zh) | 一种图像深度估计方法和系统 | |
Xu et al. | Fast vehicle and pedestrian detection using improved Mask R‐CNN | |
CN107545263B (zh) | 一种物体检测方法及装置 | |
Lee et al. | Accurate traffic light detection using deep neural network with focal regression loss | |
Biasutti et al. | Lu-net: An efficient network for 3d lidar point cloud semantic segmentation based on end-to-end-learned 3d features and u-net | |
Yang et al. | Real-time pedestrian and vehicle detection for autonomous driving | |
Cho et al. | Semantic segmentation with low light images by modified CycleGAN-based image enhancement | |
Haider et al. | Human detection in aerial thermal imaging using a fully convolutional regression network | |
CN113095152A (zh) | 一种基于回归的车道线检测方法及系统 | |
CN112541460B (zh) | 一种车辆再识别方法及系统 | |
Hu et al. | A video streaming vehicle detection algorithm based on YOLOv4 | |
Manssor et al. | Real-time human detection in thermal infrared imaging at night using enhanced Tiny-yolov3 network | |
Zang et al. | Traffic lane detection using fully convolutional neural network | |
Cho et al. | Modified perceptual cycle generative adversarial network-based image enhancement for improving accuracy of low light image segmentation | |
Huang et al. | Small target detection model in aerial images based on TCA-YOLOv5m | |
CN117935088A (zh) | 基于全尺度特征感知和特征重构的无人机图像目标检测方法、系统及存储介质 | |
Li et al. | Improved YOLOv5s algorithm for small target detection in UAV aerial photography | |
CN116953702A (zh) | 基于演绎范式的旋转目标检测方法及装置 | |
CN113673332B (zh) | 对象识别方法、装置以及计算机可读存储介质 | |
Feng et al. | Improved YOLOv8 algorithms for small object detection in aerial imagery | |
Liu et al. | UDP-YOLO: High Efficiency and Real-Time Performance of Autonomous Driving Technology | |
Choudhury et al. | Human detection using orientation shape histogram and coocurrence textures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |