CN116524376A - 一种遥感目标检测方法、系统、介质、设备及终端 - Google Patents

一种遥感目标检测方法、系统、介质、设备及终端 Download PDF

Info

Publication number
CN116524376A
CN116524376A CN202310198988.6A CN202310198988A CN116524376A CN 116524376 A CN116524376 A CN 116524376A CN 202310198988 A CN202310198988 A CN 202310198988A CN 116524376 A CN116524376 A CN 116524376A
Authority
CN
China
Prior art keywords
target detection
fusion
image
remote sensing
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310198988.6A
Other languages
English (en)
Inventor
王建东
闫文成
李光夏
胡涵睿
赵双睿
蔡慧选
王靖渊
曹泽鹏
王超
姚福浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Institute Of Computing Technology Xi'an University Of Electronic Science And Technology
Original Assignee
Qingdao Institute Of Computing Technology Xi'an University Of Electronic Science And Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Institute Of Computing Technology Xi'an University Of Electronic Science And Technology filed Critical Qingdao Institute Of Computing Technology Xi'an University Of Electronic Science And Technology
Priority to CN202310198988.6A priority Critical patent/CN116524376A/zh
Publication of CN116524376A publication Critical patent/CN116524376A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉技术领域,公开了一种遥感目标检测方法、系统、介质、设备及终端,构建基于CNN的RGB‑红外图像融合网络,采用面向任务的融合方法、低层和高层联合自适应训练策略,利用由内容损失和语义损失组成的联合损失约束融合网络和显著性目标检测的融合方法;引入角度信息采用高斯循环编码和矩形循环编码预测角度,进行特征提取并利用BIFPN双向特征融合方法进行特征融合;利用实时采集的多模态视频流进行解码、算法推理以及边界框标定,将结果编码推流至流媒体服务器或客户端中。本发明利用图像融合算法和旋转目标检测算法相结合的方式,能够在强光和弱光条件下快速、准确检测到车辆位置和类别信息,应用于无人机交通管理和灾难救援场景等下的旋转目标检测。

Description

一种遥感目标检测方法、系统、介质、设备及终端
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种遥感目标检测方法、系统、介质、设备及终端。
背景技术
目前,航空图像通常包含被复杂周围场景淹没的小物体;杂乱且密集。检测对象通常密集排列,如车辆和船舶。航空图像中的物体可以以不同的方向出现。遥感中常见的大纵横比问题进一步挑战了这一点。如图2所示,SCRDet旋转目标检测算法的提出解决了以下问题:1)小目标:设计了一种采样融合网络(SF-Net),将特征融合和更精细的锚采样结合在一起;2)复杂背景:开发了一种有监督的多维注意力网络(MDA-Net),该网络由像素注意力网络和通道注意力网络组成,以抑制噪声并突出前景。3)任意方向的杂乱密集物体:通过引入角度相关参数进行估计,设计了一个角度敏感网络。
为了获得更精确的旋转估计,将IoU常数因子添加到smooth-L1损失中,以解决旋转边界框角度的边界问题,如图2所示。存在改进方案:小目标检测模块改为FPN或PANet更有效。角度回归可改为基于CLS的角度分类任务,角度预测更准确。
但是,现有遥感目标检测方法角度预测不准确,论文Arbitrary-Oriented ObjectDetectionwith Circular Smooth Label提出的角度预测不准确的根本原因是理想的角度预测超出了定义的范围,通过将角度预测从回归问题转换为分类任务来处理角度的周期性,并增加对相邻角度的容错性,并介绍了四个窗口函数和不同窗口半径对检测性能的影响。现有遥感目标检测方法存在弱光漏检问题,目前所有的算法都是面向RGB图像的检测,且都是正常白天所拍摄的图像,对夜间弱光环境的检测能力大大降低。现有遥感目标检测方法存在背景复杂问题,通常的解决方法有:语义分割结合目标检测、空洞卷积以增大感受野、通道注意力机制弱化背景信息等处理办法,不过前两种方法或多或少存在实时性不好、特征尺度稀疏易造成上下文信息联系减弱等问题。YOLOv4中应用了注意力机制ModifiedSAM可有效缓解此问题。现有遥感目标检测方法中的小目标采样易丢失,特征金字塔网络结构FPN的出现一定程度上缓解了这个问题。
R3Det算法提出,网络搭建在RetinaNet之上(见图4)。针对大纵横比、分布密集、类别极度不平衡的旋转物体检测困难的问题,提出一种端到端细化单极旋转检测器,包括一个特征细化模块(feature refinement module,FRM),这个模块通过特征插值将当前细化边界框的位置重新编码到对应的特征点上,实现特征重构和对齐。模型分解:针对大纵横比物体的问题,提出快速旋转单级检测器,采用锚组合策略,使检测器能够高效地应对密集场景。FRM是针对类别不平衡提出的,旨在使探测器的特征在细化阶段更加准确和可靠。最后,此算法提出了SkewIoU损失代替Smooth L1损失(见图5)。两个长方体集之间的角度差相同,但纵横比不同。因此,两组的Smooth L1损失值相同(主要是从角度差异来看),但SkewIoU差异很大。因此,Smooth L1损失函数不适用于旋转检测,尤其是对于具有大纵横比的对象,这些对象对歪斜非常敏感。
通过上述分析,现有技术存在的问题及缺陷为:(1)无人机影像中的复杂背景问题,无人机影像中目标密集区域往往存在着大量形似物体,从而导致检测结果出现漏检后者误检等问题。此外,无人机影像背景中存在大量噪声信息,还会使目标被弱化或遮挡,难以被连续和完整地检测。(2)无人机影像中的小目标问题,无人机影像中目标的尺度范围大,建筑与行人、山川与动物经常出现在同一图片中。小目标在图片中占比极小,提供的分辨率有限,从而造成检测困难。(3)无人机影像中的物体可能在任意位置和方向上出现,同一类物体的角度变化也不尽相同。无人机目标检测任务因此变得困难,旋转的物体使位置回归变得困难,因而大量的目标被漏检。文本检测也有着同样的特点,一些改进的目标检测的研究是在文本检测的启发下进行的,近年来有很多创新性的算法来解决目标的旋转问题。常见的检测方法按照候选区域和包边界框的形式,可分为水平检测和旋转检测。(4)弱光检测问题,现有的目标检测算法依然不能全场景检测。例如夜间场景、极弱光环境依然存在大量漏检或者无法检测的情况。
发明内容
针对现有技术存在的问题,本发明提供了一种遥感目标检测方法、系统、介质、设备及终端,尤其涉及一种基于多模态图像融合的遥感目标检测方法、系统、介质、设备及终端。
本发明是这样实现的,针对航拍图像中存在多目标聚集、尺度比例大、背景信息过多的问题,结合旋转目标检测思想,本发明提出一种基于YOLOv5的旋转目标检测算法YOLOv5-Rotate。该算法引入了角度信息来表示旋转目标,并采用了角度分类方法解决角度回归方法中存在的角度超出边界范围的问题,在角度的分类方法中采用循环高斯编码和矩形编码方法解决角度分类的距离问题;同时提出基于CBAM(Convolutional BlockAttention Module)注意力机制改进的特征提取网络。该算法通过在特征提取网络中引入多维注意力机制,提高网络对航拍目标的定位精度。针对弱光环境下检测能力受限的问题,本发明引入红外-可见光图像融合方法作为信息互补,提出一种基于检测任务驱动的图像融合算法DetFusion。首先该图像融合算法引入了YOLOv5旋转检测器中的检测损失来使得融合网络包含更多的语义信息,同时提出了一种自适应训练策略来实现图像融合算法于检测器同步训练,使得融合算法能更好的融合特定检测场景的图像;其次提出了一种显著性目标检测的图像融合方法,根据目标检测信息来构建显著性目标掩码和背景掩码,并设计目标显著性强度损失函数来增强图像中目标的像素强度,弱化背景像素强度。最后提出一种融合网络模型设计来完成特征提取、特征融合、图像重建等过程,其中引入Sobel算子进行纹理梯度提取。
根据上述的旋转目标检测算法,设计实现目标检测边缘计算系统。本系统采用无人机多模态摄像头提供数据来源,结合Jetson Nano嵌入式平台处理视频流和算法应用。同时结合硬件特性TensorRT和软件架构多线程进行实时性优化。
其所述的基于多模态图像容二虎旋转目标检测算法,其算法步骤如下:
步骤一,多模态图像融合:确定数据融合对象并构建融合网络,利用联合损失约束融合网络,利用目标检测的目标信息构建目标掩码和背景掩码提高目标显著性,并利用图像重建器实现特征聚合和图像重建;
步骤二,旋转目标检测:采用五参数法表示矩形,利用CSP-DarkNet53进行特征提取,并采用Bi-FPN双向特征融合方法进行特征融合,采用Guass编码处理旋转角度问题。
步骤三,视频流边缘计算:实时采集RGB红外视频流和红外视频流并依次进行三次异步处理,最后将视频编码并推流至流媒体或客户端中。
进一步,步骤一中所述多模态图像融合包括:
(1)采用多模态配准的红外-可见光数据集作为数据融合对象;
(2)融合网络由特征提取器和图像重建器组成,利用双流特征提取、梯度残差块和特征拼接以集成深度特征和细粒度细节特征;
(3)采用面向任务的融合方法,低层和高层联合自适应训练策略、由内容损失和检测损失组成的联合损失约束融合网络,使得网络包含更多语义信息;通过级联策略将红外图像和可见光图像的细粒度特征进行融合,并将结果反馈到图像重建器中,实现特征聚合和图像重建,融合图像的大小与源图像保持一致;
(4)引入目标掩码来指导网络模型检测显著区域,同时通过确保指定的目标区域的强度和梯度一致性来实现目标区域显著和背景纹理的融合.利用红外图像中目标标签中边界框的表示(x,y,w,h,θ)中心点坐标和宽高来构建一个目标对象掩码Im,背景掩码为掩码1-Im
(5)融合网络的损失函数设计,设计内容损失,内容损失由强度损失Lpixel
和纹理损失Ltexure两部分组成,其中强度损失由目标强度和背景强度组成。
进一步,步骤二中的旋转目标检测包括:
(1)采用五参数法(x,y,w,h,θ)表示任意方向矩形,范围在[-π/2,π/2,);
(2)采用Yolov5中的主干网络CSP-DarkNet53进行特征提取;
(3)采用Bi-FPN双向特征融合方法进行特征融合;
(4)采用高斯循环标签编码方法检测目标信息。
(5)采用CBAM注意力机制使得网络注意增强网络性能的通道域和空间域。
进一步,步骤三中的视频流边缘计算包括:
(1)在无人机高空视角下对RGB和红外视频进行实时采集;
(2)异步处理将RGB视频流和红外视频流进行解码,解码出RGB-红外图像对,并存入第一个缓冲队列;若是YUV格式则进行图像转码成为RGB;
(3)提取第一个缓冲队列额RGB-红外图像对,进行模型读取的算法推理,得到多层检测结果,并将RGB-红外图像和推理额结果对放入第二个缓冲队列;
(4)提取第二个缓冲队列的dRGB-红外图像对和推理结果,进行边界框标定,并将标定后的图像对放入第三个缓冲队列;
(5)提取第三个缓冲队列的RGB-红外图像对,得到已经推理过后的图像,最后进行视频编码并推流至流媒体或客户端中。
本发明的另一目的在于提供一种应用所述的遥感目标检测方法的遥感目标检测系统,遥感目标检测系统包括:
图像融合模块,用于设计一种基于目标检测任务的图像融合方法和基于显著性目标检测的图像融合方法,并低层和高层联合自适应训练策略,利用由内容损失和语义损失组成的联合损失约束融合网络;
旋转检测器模块,用于引入角度信息采用五参数法表示任意方向矩形,高斯编码来平滑角度分类标签和循环标签。采用CSP-DarkNet53提取特征并利用BIFPN双向特征融合方法进行特征融合;
视频流边缘计算模块,用于利用实时采集的多模态视频流进行解码、算法推理以及边界框标定任务,并将结果编码推流至流媒体服务器或客户端中。
本发明的另一目的在于提供一种计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行所述的遥感目标检测方法的步骤。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行所述的遥感目标检测方法的步骤。
本发明的另一目的在于提供一种信息数据处理终端,信息数据处理终端用于实现所述的遥感目标检测系统。
结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
第一,针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
本发明提供了一种基于多模态图像融合的遥感目标检测方法,包括多模态图像中红外与可见光的融合,改进Yolov5算法为旋转目标检测,使得目标检测可以在无人机航拍场景下依然具有良好的检测效果。针对夜间弱光场景可见光检测效率低问题和小目标以及高长宽比目标检测效率低问题,本发明提出了一种基于梯度残差块的轻型多模态图像融合网络与旋转目标检测器结合的算法,并采用低层和高层联合的自适应训练策略。同时,本发明还设计一种视频流边缘计算系统,利用无人机实时采集的多模态视频流和嵌入式边缘设备进行算法推理,并将结果推流到流媒体服务器或客户端中。本发明的算法和系统适合交通管理和道路救援等业务场景使用,同时适合个人和中小团队做其他旋转小目标检测业务使用;本系统将实现成为可快速移植,操作简单易上手的系统。
在遥感目标检测场景中引入多模态融合技术,(1)针对弱光条件下难以捕获车辆信息的问题,引入多模态图像融合算法,本发明提出了一种基于检测任务驱动的图像融合算法DetFusion和基于显著性目标检测的图像融合方法。该算法在传统基于CNN的端到端图像融合方法中联合了目标检测算法并引入了检测损失,使得融合算法中包含更多的高级视觉任务的语义信息,可以得到更加符合具体检测任务场景的融合图像。同时提出的显著性目标检测的图像融合方法,利用目标检测的目标信息生成目标显著掩码和背景掩码应用于损失函数中,使得模型更好的可以区分前景和背景,有利于高级视觉任务的性能提升。(2)针对高密集目标、大长宽比检测问题,本发明提出一种基于YOLOv5的旋转目标检测方法YOLOv5-Rotate,同时提出改进一种基于注意力机制的YOLOV5特征提取网络。该算法引入了角度信息用来检测带有旋转角度的目标,采用了分类思想和角度平滑编码方法解决角度预测偏差问题。旋转目标检测相对于水平目标检测背景信息更少,降低网络学习的难度。在特征提取网络中引入空间域注意力机制和通道于注意力机制,使得网络更加注重有效提升检测性能的特征。实验结果表明,基于YOLOv5的旋转目标检测在DroneVeihcle数据集上的性能优势相较于其他旋转目标检测算法有着显著的性能优势、该算法所提的出的注意力改进模块也有效提升了检测性能。同时提出的角度编码方法中,高斯编码的性能结果好于矩形编码结果。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
本发明提供的基于多模态图像融合的遥感目标检测方法,基于计算机视觉中的深度学习方法,通过结合图像融合算法和旋转目标检测算法相结合的方式,能够做到在强光和弱光条件下都能快速、准确检测到车辆位置和类别信息,可应用于无人机交通管理和灾难救援场景等下的旋转目标检测算法。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
本发明的技术方案填补了国内外业内技术空白:(1)面向任务的图像融合的初衷是为后续的应用提供更多有益的输入。然而,在许多图像融合任务中,现有的基于深度学习的方法在设计损失函数时没有考虑融合与后续应用之间的相关性,这往往导致融合结果非常主观。本发明考虑在融合阶段的损失函数设计中引入后续任务的准确性,从决策层面指导融合过程。(2)旋转目标检测算法引入角度分类方法进行角度预测和高斯平滑编码标签,相比传统基于Smooth L1损失等单参数角度回归。新的角度分类思想对角度的预测更加准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的遥感目标检测方法流程图;
图2是本发明实施例提供的基于检测任务驱动的图像融合方法总体结构;
图3是本发明实施例提供的基于Sobel梯度残差块;
图4是本发明提供的显著性目标检测图像融合方法示意图;
图5是本发明实施例提供的融合网络结构设计图;
图6是本发明实施例提供的高斯编码的示意图;
图7是本发明实施例提供的矩形编码的示意图;
图8是本发明实施例提供的边界循环编码的示意图;
图9是本发明实施例提供的引入角度分类后的YOLOv5预测方法;
图10是本发明实施例提供的CBAM注意力结构;
图11是本发明实施例提供的改进后的YOLOv5C3模块;
图12是本发明实施例提供的实时视频编解码系统结构图。
图13是本发明实施例提供的边缘计算硬件系统结构图。
图14是本发明实施例提供的边缘计算软件系统结构图。
图15是本发明实施例提供的图像融合效果图。
图16是本发明实施例提供的角度回归目标检测效果图。
图17是本发明实施例提供的角度分类目标检测效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种遥感目标检测方法、系统、介质、设备及终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的遥感目标检测方法包括以下步骤:
S101,构建基于CNN的RGB-红外图像融合网络;
S102,采用面向任务的融合方法、低层和高层联合自适应训练策略,利用由内容损失和语义损失组成的联合损失约束融合网络;
S103,引入角度信息采用五参数法表示任意方向矩形,进行特征提取并利用BIFPN双向特征融合方法进行特征融合;
S104,利用实时采集的多模态视频流进行解码、算法推理以及边界框标定,并将结果编码推流至流媒体服务器或客户端中。
作为优选实施例,本发明实施例提供的遥感目标检测系统包括图像融合模块、检测器模块和视频流边缘计算模块。
其中,图像融合模块,设计一种使用CNN方法的RGB-红外图像融合网络,采用面向任务的融合方法,低层和高层联合自适应训练策略,由内容损失和语义损失组成的联合损失来约束融合网络,并采用一种显著性目标检测的图像融合方法。
旋转检测器模块,引入了角度信息采用五参数法(x,y,w,h,θ)来表示任意方向矩形,范围在使用分类任务方法和循环标签编码方法解决基于回归角度的旋转检测器存在损失突增导致角度预测失准问题,利用BIFPN双向特征融合方法,解决小目标检测问题。
视频流边缘计算模块,利用实时采集的多模态视频流进行解码、算法推理、边界框标定等任务并将结果编码推流到流媒体服务器或者客户端中。
本发明实施例提供的多模态图像融合模块包括:
(1)采用多模态配准的红外-可见光数据集作为数据融合对象;
(2)融合网络由特征提取器和图像重建器组成,利用双流特征提取、梯度残差块和特征拼接以集成深度特征和细粒度细节特征;
(3)采用面向任务的融合方法,低层和高层联合自适应训练策略、由内容损失和检测损失组成的联合损失约束融合网络,使得网络包含更多语义信息;通过级联策略将红外图像和可见光图像的细粒度特征进行融合,并将结果反馈到图像重建器中,实现特征聚合和图像重建,融合图像的大小与源图像保持一致;
(4)引入目标掩码来指导网络模型检测显著区域,同时通过确保指定的目标区域的强度和梯度一致性来实现目标区域显著和背景纹理的融合.利用红外图像中目标标签中边界框的表示(x,y,w,h,θ)中心点坐标和宽高来构建一个目标对象掩码Im,背景掩码为掩码1-Im
(5)融合网络的损失函数设计,设计内容损失,内容损失由强度损失Lpixel
和纹理损失Ltexure两部分组成,其中强度损失由目标强度和背景强度组成。
本发明实施例提供的旋转目标检测器模块包括:
(1)采用五参数法(x,y,w,h,θ)表示任意方向矩形,范围在[-π/2,π/2,);
(2)采用Yolov5中的主干网络CSP-DarkNet53进行特征提取;
(3)采用Bi-FPN双向特征融合方法进行特征融合;
(4)采用高斯循环标签编码方法解决其他算法中基于角度的旋转检测器存在损失突增导致角度预测失准问题。
本发明实施例提供的视频流边缘计算模块包括:
(1)在无人机高空视角下对RGB,红外视频进行实时采集。
(2)异步处理将RGB视频流和红外视频流进行解码,解码出RGB-红外图像对,并存入第一个缓冲队列(若是YUV格式需先进行图像转码成为RGB)。
(3)异步处理提取第一个缓冲队列额RGB-红外图像对,进行模型读取的算法推理。得到多层检测结果。将推理过的RGB-红外图像和推理额结果对放入第二个缓冲队列。
(4)异步处理提取第二个缓冲队列的RGB-红外图像对和推理结果,进行边界框标定,并将标定后的图像对放入第三个缓冲队列。
(5)异步处理提取第三个缓冲队列的RGB-红外图像对,此时是已经推理过后的图像,进行视频编码并推流到流媒体或者客户端中。
为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
结合实际场景中的目标检测任务,设计实现航拍目标检测任务系统。针对水平检测在航拍场景下的背景信息过多,检测效率低下问题,设计一种基于YOLOv5的旋转目标检测方法,针对弱光漏检,遮挡漏检等问题,设计一种基于检测任务驱动的可见光红外图像融合算法,应用于算法多模态预处理阶段,另外,为了进一步提升检测器实用性方面,从基于航拍目标检测任务场景以及物联网系统的应用角度出发,设计实现具有航拍目标检测任务的边缘计算系统,
系统硬件平台设计以Jetson Nano设备作为边缘计算系统核心,以无人机多模态摄像头为场景辅助,以及显示器等设备作为结果输出可视化。通过无人机地面站与边缘计算设备通信,视频流从网络接收并输出,从而搭建了旋转目标检测边缘计算系统,其硬件流程设计搭建如图13所示。通过无人机采集多模态视频数据,通过地面站将采集到的视频数据经过JetsonNano进行边缘计算得到新的视频流,最后通过基站将网络视频流传输到云平台或流媒体服务器中,通过显示设备进行监控。
软件平台设计针对如何良好的运行本发明所提出的改进YOLOv5旋转目标检测算法,同时还需要从实际工程应用方面角度考虑,对目标检测系统流程和实时性进行改进优化。将依托嵌入式JetsonNano平台对视频流边缘计算系统进行了总体设计。如图14所示。根据总结结构设计可以分为6个子任务,分别包括:FFmpeg视频流解码处理、图像融合任务、目标检测任务、OpenCV目标绘制、FFmpeg视频流编码、云平台/流媒体服务器通信任务。FFmpeg视频流解码处理通常是对H264/H265编码的视频流解码为多帧原始YUV图像,同时转化为RGB图像供后续算法推理使用。多模态图像融合算法采用本发明提出的基于检测任务驱动的图像融合算法,作为全场景目标检测算法的预处理阶段,图像融合任务必须轻量且是实时融合的。旋转检测算法采用本发明所提出的基于YOLOv5的旋转目标检测算法,并且采用更轻量级的YOLOv5n网络使其在边缘设备的推理过程中延迟更小,以便满足整个系统的实时性。Opencv目标绘制任务根据检测器所检测的结果,将目标边界框和类别标签绘制在融合图像中。FFmpeg视频流编码任务,将一帧帧绘制结果后的图像编码为新的H264/H265视频流并推流到云平台或者流媒体服务器中,供其他系统拉流使用。Websocket数据通信任务是将检测结果所统计的数据信息传输到系统,供展示和其他计算任务使用。
本发明提供的图像融合和旋转目标检测总体设计见图2,由RGB-红外图像融合网络与旋转目标检测两部分构成,采用面向任务的融合方法,低层和高层联合自适应训练策略、由内容损失和语义损失组成的联合损失约束融合网络。
(1)设计基于梯度残差块的轻型融合网络,见图3~图5。融合网络由特征提取器和图像重建器组成,其中特征提取器包含两个GRDB以提取细粒度特征。特征提取器涉及两个平行的红外和可见光特征提取流,每个流包含一个公共卷积层和两个GRDB。采用核尺寸为3×3、激活函数为LeakRelu提取浅层特征。接下来是两个用于从浅层特征中提取细粒度特征的梯度残差块。梯度残差块是Resblock的变体,其中主流采用密集连接,剩余流集成梯度操作。主流部署了两个具有LReLU的3×3卷积层和一个内核大小为1×1的公共卷积层。将密集连接引入主流,以充分利用各个卷积层提取的特征。残差流采用梯度运算来计算特征的梯度幅度,并采用1×1规则卷积层来消除信道维数差异;通过元素加法添加到主密集流和剩余梯度流的输出,以集成深度特征和细粒度细节特征。
通过级联策略将红外图像和可见光图像的细粒度特征进行融合,并将结果反馈到图像重建器中,实现特征聚合和图像重建。图像重建器由三个串联的3×3卷积层和一个1×1卷积层组成。信息丢失是图像融合任务中的一个灾难性问题。因此,融合网络中的填充设置相同,步幅设置为1。且网络不引入任何下采样,融合图像的大小与源图像一致。
(2)损失函数设计,融合图像的质量在很大程度上取决于损失函数。主流的损失函数项包括强度损失、纹理损失、SSIM损失和感知损失,它们的权重比决定了信息融合的趋势。为了提高视觉质量和定量指标。设计一种内容损失,内容损失由两部分组成:强度损失Lint和纹理损失Lcontent。定义如下:
Lcontent=Lpixel+αLtexture
式中,Lint约束融合图像的整体视觉强度,Ltexture强制融合图像包含更多的纹理细节。α用来平衡强度损失和纹理损失。由于像素强度损失测量像素级别的融合图像和源图像之间的差异,因此希望目标区域与背景区域具有更显著的对比,在目标区域需要保留最大像素强度,且背景区域低于最大像素强度。为了找出目标对象和背景之间的差异,利用红外图像中目标标签中边界框的表示(x,y,w,h,θ)中心点坐标和宽高来构建一个目标对象掩码Im,背景掩码为掩码1-Im。由以上分析设计,红外图像和可见光图像的像素强度损失定义为:
式中,H和W分别是图像的高度和宽度,‖·‖代表l1-范数和最大值(·)表示元素最大选择。通过最大选择策略整合红外和可见光图像的像素强度分布。期望融合图像能够保持最佳的强度分布,同时保留源图像中丰富的纹理细节。然而,强度损失仅为模型学习提供粗粒度分布约束。因此,引入了纹理损失,以迫使融合图像包含更细粒度的纹理信息。纹理损失定义为:
式中,表示Sobel梯度算子,用于测量图像的细粒度纹理信息。这里假设融合图像的最佳纹理是红外和可见光图像纹理的最大聚集。
(3)针对旋转目标检测所存在的问题,基于YOLOv5目标检测算法,提出改进YOLOv5为旋转目标检测算法。采用五参数法(x,y,w,h,θ)来表示任意方向矩形,范围在利用BIFPN双向特征融合方法,解决小目标检测问题。加入循环平滑标签编码方法解决基于回归角度的旋转检测器存在损失突增导致角度预测失准问题。循环平滑标签编码,通过分类获得更稳健的角度预测,而不受边界条件(包括EoE和PoA)的影响。CSL涉及具有周期性的循环标签编码,并且指定的标签值是平滑的,具有一定的容差。CSL的表达式如下:
式中,g(x)是一个窗口函数。r是窗口函数的半径。θ表示当前边界框的角度。理想窗函数g(x)需要保持周期性,对称性,g(θ)max=1,单调性。一般采用高斯函数、脉冲函数、矩形函数、三角形函数即可。如图6、7、8.因此,引入CSL后的总损失为:
(4)通过在YOLOv5网络中引入多维注意力机制来减少在航拍视角下的背景噪声带来的不利影响并提高网络推理速度问题。采用CBAM多维度注意力机制对YOLOv5的主干网络New CSPDarkNet53进行改进。CBAM将通道域注意力机制和空间域注意力机制进行一个结合,相比于只关注通道域或只关注空间域的注意力机制可以取得更好的效果。其结构如图10所示,CBAM会对输入进来的特征层,分别进行通道注意力机制的处理和空间注意力机制的处理。具体改进细节在CSPDarkNet53网络结构中选择C3模块进行注意力的引入,主要原因是C3模块作为特征提取过程中最重要的一个模块,引入注意力可增强网络提取目标特征的关键信息,减少背景噪声信息。改进前后的C3模块结构如图11所示。其中原始C3模块通过两条路径和三个卷积层ConvBNSiLU提取特征,其中第一个卷积层通过BottleNeck残差结构后与第二个卷积层进行通道维拼接,拼接后再次进行最后一个卷积操作。在此C3模块后添加了注意力机制CMAM,将C3提取的特征层进行通道维度和空间维度的关键信息提取。
(5)原型系统设计。基于Jetson nano等嵌入式设备,利用ffmpeg技术对原始无人机多模态实时视频流解码成RGB-红外图像,通过Opencv进行算法读取和bounding box的标定,实时推流到流媒体服务器中。验证多模态图像融合检测器在弱光场景下的检测性能。通过在嵌入式设备的移植,在真实环境中加以验证。本发明实施例提供的实时视频编解码系统结构如图12所示。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
DroneVehicle数据集上不同算法的定性比较如图15所示。通过与IFCNN、STDFusionNet和本发明所提出的DetFusion对比,可以看出IFCNN融合后包含可见光图像的纹理信息相比DetFusion较少,这体现了Sobel梯度算子在特征提取过程中引入了更多的纹理信息,STDFusionNet融合后的图像中会将红外图像中的假目标鬼影放大,并且背景信息过多且目标显著性在一定程度上被削弱,而DetFusion可以充分区分突出目标和削弱背景,充分将红外图像的强度信息补充到可见光图像中。
DroneVehicle测试集中选取了一组存在目标角度垂直的图像进行定性分析,如图16、17所示,对同一组图像采用不同方法的检测效果。图16表示在DroneVehicle数据集采用Smooth L1损失进行角度回归的结果,图中存在垂直角度的目标检测效果不佳问题,根本原因如前文分析所述的边界问题,图17表示采用角度分类和高斯函数进行标签编码并进行边界处平滑的效果。从视觉效果来看,基于本发明的改进YOLOv5的旋转检测方法较回归方法在角度边界处有了较大的改善。

Claims (9)

1.一种遥感目标检测方法,其特征在于,遥感目标检测方法包括:首先该图像融合算法引入了YOLOv5旋转检测器中的检测损失来使得融合网络包含更多的语义信息,同时提出了一种自适应训练策略来实现图像融合算法于检测器同步训练,使得融合算法能更好的融合特定检测场景的图像;其次提出了一种显著性目标检测的图像融合方法,根据目标检测信息来构建显著性目标掩码和背景掩码,并设计目标显著性强度损失函数来增强图像中目标的像素强度,弱化背景像素强度。最后提出一种融合网络模型设计来完成特征提取、特征融合、图像重建等过程,其中引入Sobel算子进行纹理梯度提取。
2.如权利要求1所述的遥感目标检测方法,其特征在于,遥感目标检测方法包括以下步骤:
步骤一,多模态图像融合:确定数据融合对象并构建融合网络,利用联合损失约束融合网络,利用目标检测的目标信息构建目标掩码和背景掩码提高目标显著性,并利用图像重建器实现特征聚合和图像重建;
步骤二,旋转目标检测:采用五参数法表示矩形,利用CSP-DarkNet53进行特征提取,并采用Bi-FPN双向特征融合方法进行特征融合,采用Guass编码处理旋转角度问题。
步骤三,视频流边缘计算:实时采集RGB红外视频流和红外视频流并依次进行三次异步处理,最后将视频编码并推流至流媒体或客户端中。
3.如权利要求2所述的遥感目标检测方法,其特征在于,步骤一中的多模态图像融合包括:
(1)采用多模态配准的红外-可见光数据集作为数据融合对象;
(2)融合网络由特征提取器和图像重建器组成,利用双流特征提取、梯度残差块和特征拼接以集成深度特征和细粒度细节特征;
(3)采用面向任务的融合方法,低层和高层联合自适应训练策略、由内容损失和检测损失组成的联合损失约束融合网络,使得网络包含更多语义信息;通过级联策略将红外图像和可见光图像的细粒度特征进行融合,并将结果反馈到图像重建器中,实现特征聚合和图像重建,融合图像的大小与源图像保持一致;
(4)引入目标掩码来指导网络模型检测显著区域,同时通过确保指定的目标区域的强度和梯度一致性来实现目标区域显著和背景纹理的融合.利用红外图像中目标标签中边界框的表示(x,y,w,h,θ)中心点坐标和宽高来构建一个目标对象掩码Im,背景掩码为掩码1-Im
(5)融合网络的损失函数设计,设计内容损失,内容损失由强度损失Lpixel和纹理损失Ltexure两部分组成,其中强度损失由目标强度和背景强度组成。
4.如权利要求2所述的遥感目标检测方法,其特征在于,步骤二中的旋转目标检测包括:
(1)采用五参数法(x,y,w,h,θ)表示任意方向矩形,范围在[-π/2,π/2,);
(2)采用Yolov5中的主干网络CSP-DarkNet53进行特征提取;
(3)采用Bi-FPN双向特征融合方法进行特征融合;
(4)采用高斯循环标签编码方法检测目标信息。
(5)采用CBAM注意力机制使得网络注意增强网络性能的通道域和空间域。
5.如权利要求2所述的遥感目标检测方法,其特征在于,步骤三中的视频流边缘计算包括:
(1)在无人机高空视角下对RGB和红外视频进行实时采集;
(2)异步处理将RGB视频流和红外视频流进行解码,解码出RGB-红外图像对,并存入第一个缓冲队列;若是YUV格式则进行图像转码成为RGB;
(3)提取第一个缓冲队列额RGB-红外图像对,进行模型读取的算法推理,得到多层检测结果,并将RGB-红外图像和推理额结果对放入第二个缓冲队列;
(4)提取第二个缓冲队列的dRGB-红外图像对和推理结果,进行边界框标定,并将标定后的图像对放入第三个缓冲队列;
(5)提取第三个缓冲队列的RGB-红外图像对,得到已经推理过后的图像,最后进行视频编码并推流至流媒体或客户端中。
6.一种应用如权利要求1~5任意一项所述的遥感目标检测方法的遥感目标检测系统,其特征在于,遥感目标检测系统包括:
图像融合模块,用于设计使用CNN方法的RGB-红外图像融合网络,采用面向任务的融合方法、低层和高层联合自适应训练策略,利用由内容损失和语义损失组成的联合损失约束融合网络;
旋转检测器模块,用于引入角度信息采用五参数法表示任意方向矩形,采用CSP-DarkNet53提取特征并利用BIFPN双向特征融合方法进行特征融合;
视频流边缘计算模块,用于利用实时采集的多模态视频流进行解码、算法推理以及边界框标定任务,并将结果编码推流至流媒体服务器或客户端中。
7.一种计算机设备,其特征在于,计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如权利要求1~5任意一项所述的遥感目标检测方法的步骤。
8.一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如权利要求1~5任意一项所述的遥感目标检测方法的步骤。
9.一种信息数据处理终端,其特征在于,信息数据处理终端用于实现如权利要求6所述的遥感目标检测系统。
CN202310198988.6A 2023-03-03 2023-03-03 一种遥感目标检测方法、系统、介质、设备及终端 Pending CN116524376A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310198988.6A CN116524376A (zh) 2023-03-03 2023-03-03 一种遥感目标检测方法、系统、介质、设备及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310198988.6A CN116524376A (zh) 2023-03-03 2023-03-03 一种遥感目标检测方法、系统、介质、设备及终端

Publications (1)

Publication Number Publication Date
CN116524376A true CN116524376A (zh) 2023-08-01

Family

ID=87396566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310198988.6A Pending CN116524376A (zh) 2023-03-03 2023-03-03 一种遥感目标检测方法、系统、介质、设备及终端

Country Status (1)

Country Link
CN (1) CN116524376A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036893A (zh) * 2023-10-08 2023-11-10 南京航空航天大学 一种基于局部跨阶段和快速下采样的图像融合方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036893A (zh) * 2023-10-08 2023-11-10 南京航空航天大学 一种基于局部跨阶段和快速下采样的图像融合方法
CN117036893B (zh) * 2023-10-08 2023-12-15 南京航空航天大学 一种基于局部跨阶段和快速下采样的图像融合方法

Similar Documents

Publication Publication Date Title
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN111079739A (zh) 一种多尺度注意力特征检测方法
Wang et al. Improved YOLOX-X based UAV aerial photography object detection algorithm
Zhao et al. Accurate and efficient vehicle detection framework based on SSD algorithm
Papaioannidis et al. Autonomous UAV safety by visual human crowd detection using multi-task deep neural networks
Wang et al. NAS-YOLOX: a SAR ship detection using neural architecture search and multi-scale attention
CN116524376A (zh) 一种遥感目标检测方法、系统、介质、设备及终端
CN116129291A (zh) 一种面向无人机畜牧的图像目标识别方法及其装置
CN116452966A (zh) 一种水下图像的目标检测方法、装置、设备及存储介质
CN115457415A (zh) 基于yolo-x模型的目标检测方法、装置、电子设备和存储介质
Zeng et al. SCA-YOLO: A new small object detection model for UAV images
Patel et al. Application of image-to-image translation in improving pedestrian detection
Bai et al. Multi-branch fully convolutional network for face detection
Li et al. MCANet: multi-scale contextual feature fusion network based on Atrous convolution
Lu et al. Context-constrained accurate contour extraction for occlusion edge detection
Bahrami et al. An HRCR-CNN framework for automated security seal detection on the shipping container
CN115661188A (zh) 一种边缘计算平台下的道路全景目标检测跟踪方法
CN112446292B (zh) 一种2d图像显著目标检测方法及系统
Ding et al. Boosting one-stage license plate detector via self-constrained contrastive aggregation
CN113706636A (zh) 一种用于篡改图像识别的方法与装置
Shi et al. CPA-YOLOv7: Contextual and pyramid attention-based improvement of YOLOv7 for drones scene target detection
Tian et al. A decision support system for power components based on improved yolov4-tiny
Jain et al. Generating bird’s eye view from egocentric rgb videos
Paramanandam et al. A Review on Deep Learning Techniques for Saliency Detection
KR102527642B1 (ko) 딥러닝 기반 소형 표적 탐지 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination