CN114973031A - 一种无人机视角下的可见光-热红外图像目标检测方法 - Google Patents

一种无人机视角下的可见光-热红外图像目标检测方法 Download PDF

Info

Publication number
CN114973031A
CN114973031A CN202210577635.2A CN202210577635A CN114973031A CN 114973031 A CN114973031 A CN 114973031A CN 202210577635 A CN202210577635 A CN 202210577635A CN 114973031 A CN114973031 A CN 114973031A
Authority
CN
China
Prior art keywords
visible light
thermal infrared
fusion
layer
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210577635.2A
Other languages
English (en)
Other versions
CN114973031B (zh
Inventor
杨文�
张妍
贺钰洁
余淮
余磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202210577635.2A priority Critical patent/CN114973031B/zh
Publication of CN114973031A publication Critical patent/CN114973031A/zh
Application granted granted Critical
Publication of CN114973031B publication Critical patent/CN114973031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种无人机视角下的可见光‑热红外图像目标检测方法,基于Faster R‑CNN构建了三分支的动态对称特征提取融合网络,并在正负样本分配中引入归一化Wasserstein距离。特征提取融合网络结合信息聚合与分配模块,能够更好地融合得到可见光红外模态之间的互补信息。应用归一化Wasserstein距离提高了网络对小目标的检测效果,并提出新的归一化方法使其可以得到更好地应用。另外针对可见光‑热红外数据提出了一种数据增强方法,使动态对称特征提取融合网络更充分地融合跨模态信息。针对视角变化和目标姿态变化,在骨干网络中引入可形变卷积。本发明可以应用于无人机视角下的可见光‑热红外目标检测,且可取得现阶段较为优异的检测效果。

Description

一种无人机视角下的可见光-热红外图像目标检测方法
技术领域
本发明属于图像处理技术领域,特别涉及无人机视角下的可见光热红外图像目标检测方法。
背景技术
可见光与热红外图像融合是图像融合领域的一个分支,在很多计算机视觉的领域都有应用,如融合检测、跟踪、行人重识别、SLAM等。在这些领域,往往有全天候的应用需求,而以往一般使用的可见光图像在夜晚成像质量差,因此热红外图像的应用有着重要意义。在目标检测任务中,使用可见光与热红外图像融合的方法,能够在各种光照条件下得到更准确的检测结果,具有时间上的灵活性。得益于无人机造价低、机动性强等优点,无人机摄像越来越多地被应用于人群控制、公共安全和智能搜救等领域。借助无人机在空间上的灵活性,进行无人机视角下的可见光热红外图像目标检测,能够实现时间上和空间上的高度灵活。
现有可见光与热红外图像融合目标检测方法一般仅面向车辆视角的目标检测,而对无人机视角下目标尺寸小、目标几何变换多的问题检测效果很差。在可见光与热红外图像融合检测中,现有方法存在模态互补信息融合不充分问题、可见光-热红外数据增强方法缺少问题。
发明内容
针对以上问题,本发明提出一种无人机视角下的可见光热红外图像目标检测方法,充分利用可见光与红外图像中的信息、极大改善无人机视角下小目标的检测效果,达到较高精度的无人机视角下的可见光与红外图像融合目标检测。
为了达到上述目的,本发明提供的技术方案是:一种无人机视角的可见光-热红外图像目标检测方法,包括以下步骤:
步骤1,将可见光-热红外图像对进行数据前处理;
步骤2,将前处理后的可见光-热红外图像对输入至特征提取与融合网络中获取多尺度共享融合特征;
所述特征提取与融合网络包括三个分支,可见光和红外分支,以及共享融合分支;其中可见光和红外分支网络结构相同,由一个卷积层和4个残差层构成,共享融合分支的网络由4个残差层构成,分别记为残差层1、残差层2、残差层3、残差层4,每个分支的4个残差层后面增加一个信息聚合与分配模块,用于利用互补信息加强三个分支的特征,加强后的可见光、热红外特征和共享融合特征输入到下一层进行进一步的学习,另外将4个加强后的共享融合特征输入至特征金字塔网络中,特征金字塔网络融合多尺度信息,输出多尺度的共享融合特征;
步骤3,利用候选区域生成网络在多尺度共享融合特征上生成感兴趣区域,即目标区域;
步骤4,利用感兴趣区域池化层提取出感兴趣区域的特征,将感兴趣区域特征输入至回归和分类预测网络中,得到目标的预测结果;
进一步的,步骤1中所述前处理是指随机区域替换的数据增强方法,以0.5的概率随机确定是否进行替换,若替换则随机取可见光-热红外图像对上一块固定大小的区域,并将可见光图像和热红外图像对应区域的图像进行裁剪和交换。
进一步的,所述的特征提取与融合网络的具体处理过程包括以下步骤;
步骤21,将可见光图像输入至可见光分支,热红外图像输入至热红外分支,并生成一个维度与可见光图像和热红外图像相同的0张量输入至共享融合分支;
步骤22,可见光图像和热红外图像分别通过一个卷积层和残差层1得到可见光特征图和热红外特征图,0张量通过残差层得到共享融合特征图;
步骤23,将可见光特征图、热红外特征图、共享融合特征图输入到信息聚合与分配模块,得到加强后的可见光、热红外特征,以及共享融合特征1;
步骤24,加强后的可见光、热红外特征分别通过残差层2,然后再输入到信息聚合与分配模块,得到再次加强后的可见光、热红外特征,以及另一尺度的共享融合特征2;
步骤25,重复步骤24两遍;
步骤26,将4个加强后的共享融合特征输入至特征金字塔网络中,特征金字塔网络融合多尺度信息,输出多尺度的共享融合特征。
进一步的,4个残差层分别由3、4、6、3个bottleneck结构堆叠组成,一个bottleneck 结构中包含三个卷积层。
进一步的,在残差层2、残差层3、残差层4引入可形变卷积,即将残差层中bottleneck 结构的第二个卷积层更改为可形变卷积层,在可形变卷积层中,先使特征图过一个常规的卷积层,输出偏移量感受野,其空间分辨率与原特征图相同,通道数为2N,代表了N个位置的二维偏移,再将这N个位置的偏移量加到原卷积核对应位置上,就得到了可形变卷积。
进一步的,信息聚合与分配模块的具体处理过程如下;
该模块基于双分支信息传递机制,两个分支对称合作地传输上下文信息并同时增强模态特有和模态共有分支的特征表达,包括信息聚合传输过程和信息分配传输过程,在信息聚合和分配传输过程中,都是首先对输入特征提取上下文信息,采用一个L层的金字塔池化层来提取上下文信息;设输入特征图在第l层,首先通过一个2l-1×2l-1的最大池化层,得到尺寸为
Figure BDA0003660951350000031
的特征图,然后通过最邻近插值上采样到h×w;用Fi,l表示第l层输出的上采样特征,上下文特征Ii∈Rh×w×c提取过程可以表示为:
Figure BDA0003660951350000032
其中
Figure BDA0003660951350000033
表示特征通道级联的操作,Conv1*1表示一个1×1的卷积层,h、w、c分别表示特征图的高、宽、通道数,下面用
Figure BDA0003660951350000034
Figure BDA0003660951350000035
分别表示残差层i输出的可见光、热红外和共享融合特征,其中下标r标识可见光,t标识热红外,s标识共享融合,上标i标识第i个残差层;
在信息聚合传输中,两个模态的特有信息被聚合在一起得到共享融合特征;从模态特有特征
Figure BDA0003660951350000036
中提取出上下文信息
Figure BDA0003660951350000037
后,计算模态特有上下文信息和模态共享融合特征上下文信息的差值,得到可见光分支向共享融合分支输入的特征
Figure BDA0003660951350000038
和红外分支向共享融合分支输入的特征
Figure BDA0003660951350000039
最后通过两个门函数自适应地将两个模态互补信息融合进模态共享融合特征
Figure BDA00036609513500000310
这个门函数融合过程可以被表达为:
Figure BDA00036609513500000311
Figure BDA00036609513500000312
Figure BDA00036609513500000313
门函数是使用卷积层和门权重
Figure BDA00036609513500000314
实现的;⊙表示元素级乘法;
信息分配传输过程在聚合之后,将增强的共享融合信息分配给模态特有分支中,以增强模态特有信息的表达;对于增强的共享融合特征
Figure BDA00036609513500000315
首先提取它的上下文信息
Figure BDA00036609513500000316
将其与模态特有特征的上下文信息作差得到共享融合特征分支流入模态特有分支的信息
Figure BDA00036609513500000317
与聚合过程相似,再通过两个门函数得到增强的模态特有特征
Figure BDA00036609513500000318
这个过程可以被表示为:
Figure BDA00036609513500000319
Figure BDA00036609513500000320
最终增强的三分支特征输入到下一层进行进一步的表征学习。
进一步的,候选区域生成网络的具体处理过程如下;
步骤31,候选区域生成网络使用一个滑动窗口在共享融合特征上生成锚框;
步骤32,对候选区域进行基于改进的归一化Wasserstein距离的正负样本分配,在正负样本分配中通过计算候选区域与标注框的交并比并设置门限来判定该候选区域是正样本还是负样本;
步骤33,对正负样本进行采样得到感兴趣区域;
所述改进的归一化Wasserstein距离可表达为
Figure BDA0003660951350000041
其中INWD(Na,Nb)表示两个二维高斯分布建模的矩形框的改进后归一化Wasserstein距离,
Figure BDA0003660951350000042
表示两个二维高斯分布的Wasserstein距离。
与现有技术相比,本发明的优点和有益效果如下:
本发明公开了一种无人机视角的可见光-热红外目标检测方法,基于Faster R-CNN构建了三分支的动态对称特征提取融合网络,并在正负样本分配中引入改进的归一化Wasserstein 距离。特征提取融合网络结合信息聚合与分配模块,能够更好地融合得到可见光红外模态之间的互补信息。应用归一化Wasserstein距离提高了网络对小目标的检测效果,并提出新的归一化方法使其可以得到更好地应用。另外针对可见光-热红外数据提出了一种数据增强方法,使动态对称特征提取融合网络更充分地融合跨模态信息。针对视角变化和目标姿态变化,在骨干网络中引入可形变卷积。本发明可以应用于无人机视角下的可见光-热红外目标检测,且可取得现阶段较为优异的检测效果。
附图说明
图1为整体网络示意图。
图2为特征提取与融合网络示意图。
图3为信息聚合与分配模块示意图,其中(a)为信息聚合过程示意图;(b)为信息分配过程示意图。
图4为随机区域替换数据增强方法示意图。
具体实施方式
下面结合附图和实施例对本发明进行进一步说明。
本发明以无人机视角下的可见光-热红外图像人体检测任务为例,具体说明本发明的工作流程,按照本发明内容完整实施的实施例如下:
(1)用无人机采集具有行人目标的航拍图像作为数据集;
(2)如图1所示,构建无人机视角下的可见光-热红外图像人体检测网络,包括数据增强、特征提取与融合网络、候选区域生成网络、感兴趣区域池化层、回归预测网络和分类预测网络;
如图2所示,构建三分支的特征提取与融合网络,增加信息聚合与分配模块。可见光和红外分支网络结构相同,由一个卷积层和四个残差层构成;共享融合分支的网络由四个残差层构成。其中,残差层1、残差层2、残差层3和残差层4分别由3、4、6、3个bottleneck结构堆叠组成,一个bottleneck结构中包含三个卷积层。为表达方便,用
Figure BDA0003660951350000051
Figure BDA0003660951350000052
分别表示残差层i输出的可见光、热红外和共享融合特征。在四个残差层后分别插入一个信息聚合与分配模块,用于聚合模态独有分支的互补信息并利用互补信息加强原模态的信息,这个过程可以表示为:
Figure BDA0003660951350000053
其中,
Figure BDA0003660951350000054
分别表示加强后的可见光、热红外和共享融合特征,IADM表示信息聚合与分配模块,图2中的“融合特征图”即为加强后的共享融合特征。每通过一个信息聚合与分配模块后,加强的特征输入到下一层网络学习高级语意特征。最后将四个信息聚合与分配模块输出的加强后的共享融合特征输入至特征金字塔网络中,特征金字塔网络融合多尺度信息,输出多尺度的共享融合特征。
由于卷积单元和池化层等模块的核大小和对应特征图位置是固定的,传统的卷积神经网络对物体发生几何变换时的鲁棒性不够强。在无人机视角的图像中,由于视角变换、尺度变换、目标姿态改变等情况,目标常常会出现各种各样的几何变换。为了使得特征提取网络能够更好地学习到不同几何变换下目标的特征,在残差层2、残差层3、残差层4引入可形变卷积,即将残差层中bottleneck结构的第二个卷积层更改为可形变卷积层。在可形变卷积层中,先使特征图过一个常规的卷积层,输出偏移量感受野,其空间分辨率与原特征图相同,通道数为2N,代表了N个位置的二维偏移,再将这N个位置的偏移量加到原卷积核对应位置上,就得到了可形变卷积。
在三个分支之间,本发明加入了信息聚合与分配模块用于动态地融合可见光分支和热红外分支的特征,增强共享融合特征之后再用共享融合特征增强可见光特征和热红外特征。该模块能够充分利用可见光和热红外的互补性,学习到跨模态的特征表征。这个模块基于双分支信息传递机制,两个分支对称合作地传输上下文信息并同时增强模态特有和模态共有分支的特征表达。如图3所示,该模块主要分为两个过程:信息聚合传输过程和信息分配传输过程。在信息聚合和分配传输过程中,都首先对输入特征提取上下文信息。采用一个L层的金字塔池化层来提取上下文信息。设输入特征图在第l层,首先通过一个2l-1×2l-1的最大池化层,得到尺寸为
Figure BDA0003660951350000061
的特征图;然后通过最邻近插值上采样到h×w。用Fi,l表示第l层输出的上采样特征,上下文特征Ii∈Rh×w×c提取过程可以表示为:
Figure BDA0003660951350000062
其中
Figure BDA0003660951350000063
表示特征通道级联的操作;Conv1*1表示一个 1×1的卷积层。上下文特征提取的操作有两个优点,首先是提取出的特征有更大的感受野,特征包含更多的上下文信息。第二个是由于最大池化层的平移不变性,通过多次最大池化可以一定程度上减少RGB-T图像对的不对齐问题。在信息聚合传输中,两个模态的特有信息被聚合在一起得到共享融合特征。如图3(a)所示,从模态特有特征
Figure BDA0003660951350000064
中提取出上下文信息
Figure BDA0003660951350000065
后,计算模态特有上下文信息和模态共享融合特征上下文信息的差值,得到RGB分支向共享融合分支输入的特征
Figure BDA0003660951350000066
和红外分支向共享融合分支输入的特征
Figure BDA0003660951350000067
最后通过两个门函数自适应地将两个模态互补信息融合进模态共享特征
Figure BDA0003660951350000068
这个门函数融合过程可以被表达为:
Figure BDA0003660951350000069
Figure BDA00036609513500000610
门函数是使用卷积层和门权重
Figure BDA00036609513500000611
实现的;⊙表示元素级乘法。这样的算法使得互补信息能够更有效地融入模态共享特征中。信息分配传输过程在聚合之后,将增强的共享融合信息分配给模态特有分支中,以增强模态特有信息的表达。如图3(b)所示,对于增强的共享融合特征
Figure BDA00036609513500000612
首先提取它的上下文信息
Figure BDA00036609513500000613
将其与模态特有特征的上下文信息作差得到共享分支流入模态特有分支的信息
Figure BDA00036609513500000614
与聚合过程相似,再通过两个门函数得到增强的模态特有特征
Figure BDA00036609513500000615
这个过程可以被表示为:
Figure BDA00036609513500000616
Figure BDA00036609513500000617
Figure BDA00036609513500000618
最终增强的三分支特征输入到下一层进行进一步的表征学习。
在图2所示网络后本发明增加了一个特征金字塔网络,特征金字塔网络通过融合多尺度信息,在不同尺度下对不同大小的目标进行预测,从而很好地提升了模型的性能。
在候选区域生成网络中本发明使用了基于改进的归一化Wasserstein距离的正负样本分配。在一般的基于锚框的目标检测算法中,用IoU作为度量标注框与锚框、预测框之间的位置关系。但是在小目标检测中,由于目标很小,预测框相对于标注框出现很小偏移都会导致IoU急剧下降甚至将为0。特别当两框没有重叠时,IoU始终为零,无法衡量两框之间的距离。候选区域生成网络的正负样本分配中,将与标注框IoU大于一个阈值的认为是正样本,否则为负样本。小目标IoU这种特性使得在训练阶段正样本很少,导致网络学习效果差。归一化Wasserstein距离将矩形框建模为二维高斯分布,用Wasserstein距离计算两个二维高斯分布之间的距离,将Wasserstein距离归一化后得到归一化Wasserstein距离(NWD)。NWD很好地克服了IoU的上述缺点。原始NWD的归一化过程可表达为:
Figure BDA0003660951350000071
Figure BDA0003660951350000072
其中NWD(Na,Nb)表示两个二维高斯分布建模的矩形框的归一化Wasserstein距离,
Figure BDA0003660951350000073
表示两个二维高斯分布的Wasserstein距离,Na,Nb表示两个二维高斯分布。C为一个常数,需要根据数据集设定。本发明将原始的NWD归一化方法改进为
Figure BDA0003660951350000074
其中INWD(Na,Nb)表示本发明改进的NWD方法。本发明的改进方法不需要引入额外的超参数,并能使度量值合理分布。
(3)如图3所示,对输入可见光-热红外图像对进行数据前处理,即随机区域替换的数据增强方法,该方法首先以0.5的概率确定是否进行替换,若替换则随机取图像对上一块区域,将可见光与热红外图像上对应区域进行替换;
(4)将经过数据前处理的可见光-热红外图像输入特征提取与融合网络,具体地,将可见光图像输入网络的可见光分支,红外图像输入红外分支,另外生成一个维度尺寸均与可见光红外图像相同的0张量输入共享融合分支,特征提取与融合网络输出多尺度的共享融合特征;
(5)候选区域生成网络在多尺度的共享融合特征上生成多个候选区域,并通过正负样本分配和采样得到感兴趣区域,即人体目标区域;
(6)感兴趣区域池化层提取出感兴趣区域的特征;
(7)感兴趣区域特征输入至回归预测网络和分类预测网络得到预测结果,即矩形框表示的人体位置。
使用本发明中提出的算法进行训练后,在数据集上的性能与现有方法的对比如下:
表1数据集性能对比表
Figure BDA0003660951350000081
上表为本发明中提出的方法与现有的较为优异的方法在数据集上的实验结果。表中评价所使用的指标为平均准确度(AP),下标表示使用的IoU阈值,上标表示不同尺寸的目标。“+”号表示检测器采用了一种基准融合结构。由表可知,本发明中提出的方法能在该数据集上取得较好的准确度,特别是极小目标的检测效果。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (7)

1.一种无人机视角的可见光-热红外图像目标检测方法,其特征在于,包括以下步骤:
步骤1,将可见光-热红外图像对进行数据前处理;
步骤2,将前处理后的可见光-热红外图像对输入至特征提取与融合网络中获取多尺度共享融合特征;
所述特征提取与融合网络包括三个分支,可见光和红外分支,以及共享融合分支;其中可见光和红外分支网络结构相同,由一个卷积层和4个残差层构成,共享融合分支的网络由4个残差层构成,分别记为残差层1、残差层2、残差层3、残差层4,每个分支的4个残差层后面增加一个信息聚合与分配模块,用于利用互补信息加强三个分支的特征,加强后的可见光、热红外特征和共享融合特征输入到下一层进行进一步的学习,另外将4个加强后的共享融合特征输入至特征金字塔网络中,特征金字塔网络融合多尺度信息,输出多尺度的共享融合特征;
步骤3,利用候选区域生成网络在多尺度共享融合特征上生成感兴趣区域,即目标区域;
步骤4,利用感兴趣区域池化层提取出感兴趣区域的特征,将感兴趣区域特征输入至回归和分类预测网络中,得到目标的预测结果。
2.根据权利要求1所述的一种无人机视角的可见光-热红外图像目标检测方法,其特征在于:步骤1中所述前处理是指随机区域替换的数据增强方法,以0.5的概率随机确定是否进行替换,若替换则随机取可见光-热红外图像对上一块固定大小的区域,并将可见光图像和热红外图像对应区域的图像进行裁剪和交换。
3.根据权利要求1所述的一种无人机视角的可见光-热红外图像人体目标方法,其特征在于:所述的特征提取与融合网络的具体处理过程包括以下步骤;
步骤21,将可见光图像输入至可见光分支,热红外图像输入至热红外分支,并生成一个维度与可见光图像和热红外图像相同的0张量输入至共享融合分支;
步骤22,可见光图像和热红外图像分别通过一个卷积层和残差层1得到可见光特征图和热红外特征图,0张量通过残差层得到共享融合特征图;
步骤23,将可见光特征图、热红外特征图、共享融合特征图输入到信息聚合与分配模块,得到加强后的可见光、热红外特征,以及共享融合特征1;
步骤24,加强后的可见光、热红外特征分别通过残差层2,然后再输入到信息聚合与分配模块,得到再次加强后的可见光、热红外特征,以及另一尺度的共享融合特征2;
步骤25,重复步骤24两遍;
步骤26,将4个加强后的共享融合特征输入至特征金字塔网络中,特征金字塔网络融合多尺度信息,输出多尺度的共享融合特征。
4.根据权利要求1所述的一种无人机视角的可见光-热红外图像目标检测方法,其特征在于:4个残差层分别由3、4、6、3个bottleneck结构堆叠组成,一个bottleneck结构中包含三个卷积层。
5.根据权利要求1所述的一种无人机视角的可见光-热红外图像目标检测方法,其特征在于:在残差层2、残差层3、残差层4引入可形变卷积,即将残差层中bottleneck结构的第二个卷积层更改为可形变卷积层,在可形变卷积层中,先使特征图过一个常规的卷积层,输出偏移量感受野,其空间分辨率与原特征图相同,通道数为2N,代表了N个位置的二维偏移,再将这N个位置的偏移量加到原卷积核对应位置上,就得到了可形变卷积。
6.根据权利要求1所述的一种无人机视角的可见光-热红外图像目标检测方法,其特征在于:信息聚合与分配模块的具体处理过程如下;
该模块基于双分支信息传递机制,两个分支对称合作地传输上下文信息并同时增强模态特有和模态共有分支的特征表达,包括信息聚合传输过程和信息分配传输过程,在信息聚合和分配传输过程中,都是首先对输入特征提取上下文信息,采用一个L层的金字塔池化层来提取上下文信息;设输入特征图在第l层,首先通过一个2l-1×2l-1的最大池化层,得到尺寸为
Figure FDA0003660951340000021
的特征图,然后通过最邻近插值上采样到h×w;用Fi,l表示第l层输出的上采样特征,上下文特征Ii∈Rh×w×c提取过程可以表示为:
Figure FDA0003660951340000022
其中
Figure FDA0003660951340000023
表示特征通道级联的操作,Conv1*1表示一个1×1的卷积层,h、w、c分别表示特征图的高、宽、通道数,下面用
Figure FDA0003660951340000024
Figure FDA0003660951340000025
分别表示残差层i输出的可见光、热红外和共享融合特征,其中下标r标识可见光,t标识热红外,s标识共享融合,上标i标识第i个残差层;
在信息聚合传输中,两个模态的特有信息被聚合在一起得到共享融合特征;从模态特有特征
Figure FDA0003660951340000026
中提取出上下文信息
Figure FDA0003660951340000027
后,计算模态特有上下文信息和模态共享融合特征上下文信息的差值,得到可见光分支向共享融合分支输入的特征
Figure FDA0003660951340000031
和红外分支向共享融合分支输入的特征
Figure FDA0003660951340000032
最后通过两个门函数自适应地将两个模态互补信息融合进模态共享融合特征
Figure FDA0003660951340000033
这个门函数融合过程可以被表达为:
Figure FDA0003660951340000034
Figure FDA0003660951340000035
Figure FDA0003660951340000036
门函数是使用卷积层和门权重
Figure FDA0003660951340000037
实现的;⊙表示元素级乘法;
信息分配传输过程在聚合之后,将增强的共享融合信息分配给模态特有分支中,以增强模态特有信息的表达;对于增强的共享融合特征
Figure FDA0003660951340000038
首先提取它的上下文信息
Figure FDA0003660951340000039
将其与模态特有特征的上下文信息作差得到共享融合特征分支流入模态特有分支的信μ
Figure FDA00036609513400000310
与聚合过程相似,再通过两个门函数得到增强的模态特有特征
Figure FDA00036609513400000311
这个过程可以被表示为:
Figure FDA00036609513400000312
Figure FDA00036609513400000313
最终增强的三分支特征输入到下一层进行进一步的表征学习。
7.根据权利要求1所述的一种无人机视角的可见光-热红外图像目标检测方法,其特征在于:候选区域生成网络的具体处理过程如下;
步骤31,候选区域生成网络使用一个滑动窗口在共享融合特征上生成锚框;
步骤32,对候选区域进行基于改进的归一化Wasserstein距离的正负样本分配,在正负样本分配中通过计算候选区域与标注框的交并比并设置门限来判定该候选区域是正样本还是负样本;
步骤33,对正负样本进行采样得到感兴趣区域;
所述改进的归一化Wasserstein距离可表达为
Figure FDA00036609513400000314
其中INWD(Na,Nb)表示两个二维高斯分布建模的矩形框的改进后归一化Wasserstein距离,
Figure FDA00036609513400000315
表示两个二维高斯分布的Wasserstein距离,Na,Nb表示两个二维高斯分布。
CN202210577635.2A 2022-05-25 2022-05-25 一种无人机视角下的可见光-热红外图像目标检测方法 Active CN114973031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210577635.2A CN114973031B (zh) 2022-05-25 2022-05-25 一种无人机视角下的可见光-热红外图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210577635.2A CN114973031B (zh) 2022-05-25 2022-05-25 一种无人机视角下的可见光-热红外图像目标检测方法

Publications (2)

Publication Number Publication Date
CN114973031A true CN114973031A (zh) 2022-08-30
CN114973031B CN114973031B (zh) 2024-08-13

Family

ID=82955686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210577635.2A Active CN114973031B (zh) 2022-05-25 2022-05-25 一种无人机视角下的可见光-热红外图像目标检测方法

Country Status (1)

Country Link
CN (1) CN114973031B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273154A (zh) * 2022-09-26 2022-11-01 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于边缘重构的热红外行人检测方法、系统及存储介质
CN117528233A (zh) * 2023-09-28 2024-02-06 哈尔滨航天恒星数据系统科技有限公司 变焦倍数识别及目标重识别数据集制作方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378905A (zh) * 2021-06-04 2021-09-10 武汉大学 一种基于分布距离的小目标检测方法
WO2021178747A1 (en) * 2020-03-05 2021-09-10 Google Llc Domain generalization via batch normalization statistics
CN113627504A (zh) * 2021-08-02 2021-11-09 南京邮电大学 基于生成对抗网络的多模态多尺度特征融合目标检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021178747A1 (en) * 2020-03-05 2021-09-10 Google Llc Domain generalization via batch normalization statistics
CN113378905A (zh) * 2021-06-04 2021-09-10 武汉大学 一种基于分布距离的小目标检测方法
CN113627504A (zh) * 2021-08-02 2021-11-09 南京邮电大学 基于生成对抗网络的多模态多尺度特征融合目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
余淮;杨文: "一种无人机航拍影像快速特征提取与匹配算法", 《电子与信息学报》, 15 March 2016 (2016-03-15) *
郑昌金;章登义;苏科华;武小平;洪程;: "基于LBP特征和熵正则化Wasserstein距离的人脸表情识别", 计算机与数字工程, no. 02, 20 February 2017 (2017-02-20) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273154A (zh) * 2022-09-26 2022-11-01 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于边缘重构的热红外行人检测方法、系统及存储介质
CN115273154B (zh) * 2022-09-26 2023-01-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于边缘重构的热红外行人检测方法、系统及存储介质
CN117528233A (zh) * 2023-09-28 2024-02-06 哈尔滨航天恒星数据系统科技有限公司 变焦倍数识别及目标重识别数据集制作方法
CN117528233B (zh) * 2023-09-28 2024-05-17 哈尔滨航天恒星数据系统科技有限公司 变焦倍数识别及目标重识别数据集制作方法

Also Published As

Publication number Publication date
CN114973031B (zh) 2024-08-13

Similar Documents

Publication Publication Date Title
CN109886121A (zh) 一种遮挡鲁棒的人脸关键点定位方法
CN113657450B (zh) 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN113095152B (zh) 一种基于回归的车道线检测方法及系统
CN114973031A (zh) 一种无人机视角下的可见光-热红外图像目标检测方法
CN114398491A (zh) 一种基于知识图谱的语义分割图像实体关系推理方法
Xu et al. Automatic recognition algorithm of traffic signs based on convolution neural network
CN110689043A (zh) 一种基于多重注意力机制的车辆细粒度识别方法及装置
CN108427919B (zh) 一种基于形状引导显著性模型的无监督油罐目标检测方法
US11270425B2 (en) Coordinate estimation on n-spheres with spherical regression
CN113850189B (zh) 一种应用于机动平台的嵌入式孪生网络实时跟踪方法
CN109102015A (zh) 一种基于复数神经网络的sar图像变化检测方法
CN110704652A (zh) 基于多重注意力机制的车辆图像细粒度检索方法及装置
CN114926693A (zh) 基于加权距离的sar图像小样本识别方法及装置
CN115546525A (zh) 多视图聚类方法、装置、电子设备及存储介质
CN115424237A (zh) 一种基于深度学习的前向车辆识别与距离检测方法
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
Luo et al. Infrared and visible image fusion based on Multi-State contextual hidden Markov Model
CN108537342A (zh) 一种基于邻居信息的网络表示学习方法及系统
CN112668421A (zh) 一种基于注意力机制的无人机高光谱农作物快速分类方法
Oh et al. Local selective vision transformer for depth estimation using a compound eye camera
Li et al. Scene change detection: semantic and depth information
CN116934820A (zh) 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及系统
CN116051872A (zh) 一种跨光谱图像的特征点匹配方法
WO2023222643A1 (en) Method for image segmentation matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant