CN113723511A - 一种基于遥感电磁辐射和红外图像的目标检测方法 - Google Patents

一种基于遥感电磁辐射和红外图像的目标检测方法 Download PDF

Info

Publication number
CN113723511A
CN113723511A CN202111010490.XA CN202111010490A CN113723511A CN 113723511 A CN113723511 A CN 113723511A CN 202111010490 A CN202111010490 A CN 202111010490A CN 113723511 A CN113723511 A CN 113723511A
Authority
CN
China
Prior art keywords
electromagnetic radiation
detection result
infrared image
feature
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111010490.XA
Other languages
English (en)
Other versions
CN113723511B (zh
Inventor
王程
李嘉廉
藏彧
王强
陈修桥
车吉斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202111010490.XA priority Critical patent/CN113723511B/zh
Publication of CN113723511A publication Critical patent/CN113723511A/zh
Application granted granted Critical
Publication of CN113723511B publication Critical patent/CN113723511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)

Abstract

本发明公开了一种基于遥感电磁辐射和红外图像的目标检测方法,包括以下步骤:S1、获取区域内的电磁辐射信号和红外图像,并将电磁辐射信号二维化;S2、将二维结构的电磁辐射和红外图像作为输入,馈送到多模态特征融合Transformer中,通过注意力机制将两个输入源的特征向量进行整合,得到电磁辐射检测结果和红外图像检测结果;S3、将电磁辐射检测结果和红外图像检测结果经融合张量后,输入到检测融合网络中,输出得到目标检测结果;该发明通过给定一块目标区域在某一时刻的电磁辐射信号和红外图像数据作为输入,能够通过两个模态之间的信息交互和增强,提高目标检测的性能和置信度。

Description

一种基于遥感电磁辐射和红外图像的目标检测方法
技术领域
本发明涉及遥感目标检测技术领域,具体的说是一种基于遥感电磁辐射和红外图像的目标检测方法。
背景技术
随着我国卫星通信技术的发展,遥感技术在农业、气象、军事等领域发挥着越来越重要的任务。尤其在瞬息万变的军事领域,使用实时准确的目标检测技术分析遥感数据尤为重要。在现代信息战中,只有充分掌握敌我双方的态势,才能及时采取相应的应对措施,充分发挥我方武器和兵力的效能。
在基于遥感技术的目标检测中,传统的检测方法往往只依赖于电磁辐射或者只依赖于红外图像。然而这两个数据源各有其限制和不足。电磁辐射的定位具有较大的误差,而且在目标无线电静默阶段将丢失这部分的数据;红外图像作为目标检测的对象,更加直观,但是易受到区域、天气、光照等各方面的影响,而且遮挡将会大大影响基于图像检测算法的性能。
发明内容
本发明的目的在于提出了一种基于遥感电磁辐射和红外图像的目标检测方法,通过给定一块目标区域在某一时刻的电磁辐射信号和红外图像数据作为输入,能够通过两个模态之间的信息交互和增强,提高目标检测的性能和置信度。
为实现上述目的,本发明采用以下技术方案:
一种基于遥感电磁辐射和红外图像的目标检测方法,包括以下步骤:
S1、获取区域内的电磁辐射信号和红外图像,并将电磁辐射信号二维化;
S2、将二维结构的电磁辐射和红外图像作为输入,馈送到多模态特征融合Transformer中,通过注意力机制将两个输入源的特征向量进行整合,得到电磁辐射检测结果和红外图像检测结果;
S3、将电磁辐射检测结果和红外图像检测结果经融合张量后,输入到检测融合网络中,输出得到目标检测结果。
优选地,步骤S1中电磁辐射信号二维化的过程如下:
S11、将带经纬度坐标的电磁辐射数据投影到红外数据的图像坐标系上;
S12、根据红外图像,获得其投影参考系和地理参考系;
S13、将给定区域的经纬度坐标,由GDAL库内置函数将其转换为UTM坐标。
优选地,步骤S13的具体过程为:令(x,y)为图像坐标,(E,N)为UTM坐标,则两个坐标的转换关系如下:
Figure BDA0003238738150000021
其中,
Figure BDA0003238738150000022
是平移坐标,
Figure BDA0003238738150000023
是旋转和拉伸系数,给定图像,参数可通过GDAL的库函数直接获得,最后求解该二元一次方程组即可得到图像坐标。
优选地,步骤S2通过以下步骤实现:
S21、令输入特征为
Figure BDA0003238738150000024
其中N为当前特征图的大小,并且特征图上的每个位置都是一个长度为Df的特征向量;
S22、自注意力机制使用线性映射计算出三个矩阵,分别是Q,K和V,其具体计算公式如下:
Q=FinMq
K=FinMk
V=FinMv
其中,
Figure BDA0003238738150000025
Figure BDA0003238738150000026
为权重矩阵;
S23、计算value向量的加权作为输出,其中权重是矩阵Q和K的点乘,再除以一个尺度标度,通过softmax函数对权重向量进行归一化操作,计算公式为:
Figure BDA0003238738150000031
S24、对该特征矩阵施加非线性函数和残差连接得到当前尺度的输出特征:
Fout=MLP(A)+Fin
经过若干次降采样和卷积特征的抽取过后的特征图,将被馈送到无锚定框的检测器中,得到两个模态下的电磁辐射检测结果和红外图像检测结果。
优选地,步骤S3通过以下步骤实现:
S31、令电磁辐射检测结果为集合
Figure BDA0003238738150000032
Figure BDA0003238738150000033
其中,ri RAD=[xi1,yi1,xi2,yi2]为第i个检测框,xi1,yi1为检测框的左上角,xi2,yi2为检测框的右下角,
Figure BDA0003238738150000034
为电磁辐射检测结果的置信度;令红外图像检测结果为集合
Figure BDA0003238738150000035
Figure BDA0003238738150000036
其中,ri IR=[xi1,yi1,xi2,yi2]为第i个检测框,xi1,yi1为检测框的左上角,xi2,yi2为检测框的右下角,
Figure BDA0003238738150000037
为红外图像检测结果的置信度;
S32、根据步骤S31中的两个检测集合,构建一个k×n×3的张量T,其中
Figure BDA0003238738150000041
其中
Figure BDA0003238738150000042
S33、将张量T送入卷积神经网络中,经过二维卷积、最大池化、压缩操作,得到一个n维的得分向量,表示红外图像检测框更新后的置信度;
S34、设定阈值,保留置信度高于阈值的检测结果。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:首先通过坐标变换将电磁辐射信号根据其经纬度坐标投射到红外图像的坐标系上;接着将两个数据源馈入多模态特征融合Transformer中进行两个特征图的信息交互和增强,进行若干次下采样和卷积特征提取后,分别得到两个分支对应的检测结果;然后将两个模态数据的检测结果结合起来再次送入卷积神经网络中,更新红外图像检测结果的得分向量;最后使用阈值法筛选出最终的目标。
附图说明
图1为本发明的流程图;
图2为本发明的电磁辐射信号二维化的示意图;
图3为一个演示图,呈现了目标检测网络中从二维输入中提取特征图的网络结构;
图4为一个演示图,呈现了两个模态数据进行特征融合的网络结构;
图5为一个演示图,呈现了检测融合网络的结构;
图6为一个效果图,呈现了两个场景下只使用一个模态和多模态的检测结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1是本发明的流程图。如图1所示,本发明主要分为3个步骤:
步骤S1:给定若干一维电磁信号S=[s1,s2,...,sn],其中
Figure BDA0003238738150000051
即每个信号都由其发射位置的经纬度坐标和其信号参数组成。为了在步骤S2中和图像的二维特征图进行信息融合,因此,在这一步需要将电磁信号根据其经纬度坐标投射到红外图像坐标系上。图2所示为本步骤的示意图。
为了将经纬度坐标转到图像坐标,需要经过投影坐标这个中介。即先将经纬度坐标转到投影坐标,再从投影坐标转到图像坐标。本文中使用的投影坐标为UTM坐标,即通用横墨卡托格网系统坐标。该坐标系统将地球表面切成若干个区域,东西跨度为6°,南北跨度为8°,将椭球表面展平为二维平面。
其中将经纬度坐标
Figure BDA0003238738150000052
转为UTM坐标(E,N)的步骤如下:
[式1]
k0=0.9996
[式2]
E0=500km
[式3]
e=0.0818192
[式4]
a=6378.137km
[式5]
N0=0(Northern hemispher)or 10000km(Southern hemi spher)
Figure BDA0003238738150000053
Figure BDA0003238738150000054
Figure BDA0003238738150000061
[式8]
λ0=(zoneNumb er-1)*6-180+3
Figure BDA0003238738150000062
Figure BDA0003238738150000063
Figure BDA0003238738150000064
Figure BDA0003238738150000065
Figure BDA0003238738150000066
Figure BDA0003238738150000067
上述的转换步骤可以使用GDAL自带的库函数非常方便地转换,此处不再赘述。
UTM坐标(E,N)转换为图像坐标(x,y)之间存在如下等式:
Figure BDA0003238738150000071
其中
Figure BDA0003238738150000072
是平移坐标,
Figure BDA0003238738150000073
是旋转和拉伸系数。给定图像,这些参数都可以通过GDAL的库函数直接获得,最后求解该二元一次方程组即可得到图像坐标。
因此,可以通过一个转换函数Trans(lat,lon)=(x,y)将电磁辐射信号投射到二维的图像坐标系上。这样,就构建了关于电磁辐射信号的特征图
Figure BDA0003238738150000074
并且
Figure BDA0003238738150000075
不过因为信号的个数远远小于特征图的尺度,即n<<H×W,所以该输入特征是个稀疏的三维张量。
步骤S2:采用多模态特征融合Transformer对输入的电磁辐射信号和红外图像进行上下文信息的交互和增强。该网络包含两个卷积神经网络,由四个卷积池化层组成,辅有三个Transformer,实现不同尺度上多模态的特征融合。最后学到的高维特征图送入各自的检测器中回归出两个数据上的目标检测框。该检测器使用的是CenterNet中无锚定框的检测器,即直接检测目标的中心点和大小。
目标检测网络往往由两部分组成,分别是主干网络用来从图像中提取高维的图像特征,再将提取的图像特征送入检测器中预测目标检测框以及对应的置信度。
本文涉及到了两个分支(电磁辐射和红外图像)的目标检测。两个分支使用相同的网络结构(如图3所示)进行特征的提取,但是两个分支之间并不共享参数,因为两个网络要提取的对象分属于两个不同的模态。
在实际使用过程中,单输入、单模型很难取得理想的性能。一个非常直观有效的方法就是融合不同的输入和模型。典型的融合方法有早期融合、深度融合和晚期融合。早期融合是在原始传感器数据做特征提取之前就在特征通道进行拼接;深度融合是在特征层中进行一定的交互;晚期融合是在特征抽取结束后再在特征通道进行拼接。本文在步骤S2中使用了深度融合,步骤3中使用了晚期融合,至于早期融合,虽然在现实中存在一定的索引关系和更少的特征抽象,但是本文中使用的两个数据的数据表现相距甚远,不适合直接在特征抽取前就进行拼接,故不作考虑。
在特征层进行两种模态的特征融合,网络结构如图4所示。其中使用了最近在计算机视觉、自然语言处理都取得卓越效果的Transformer完成这一任务,Transformer一开始是为了解决自然语言处理中LSTM和GRU串行计算、信息遗忘等不足。但是Transformer使用注意力机制,建立起任意两个位置对应特征向量的连接,充分发掘全局上下文内部的交互关系,所以非常适用于其他任务中的特征提取过程。
一般地,我们令输入特征为
Figure BDA0003238738150000081
其中N为当前特征图的大小,并且特征图上的每个位置都是一个长度为Df的特征向量。自注意力机制使用线性映射计算出三个矩阵,分别是Q∈RN×Dq(query),
Figure BDA0003238738150000082
Figure BDA0003238738150000083
具体计算公式如下:
[式17]
Q=FinMq
[式18]
K=FinMk
[式19]
V=FinMv
其中,
Figure BDA0003238738150000084
Figure BDA0003238738150000085
为权重矩阵。通过矩阵Q和K的点乘计算出注意力权重(权重向量需要使用softmax函数进行归一化),并用该权重得到每个询问变量对应的加权向量。同时为了梯度的稳定,在送入softmax函数之前,还会除以一个尺度标度,如下式所示:
Figure BDA0003238738150000091
最后,再对该特征矩阵施加非线性函数和残差连接得到当前尺度的输出特征:
[式21]
Fout=MLP(A)+Fin
此处使用残差网络的short-cut结构,目的是为了解决深度学习中的退化问题。
与自然语言处理中一维的输入结构不同的是,本文使用的是二维的输入,但是可以展平成一维输入,即将二维图像中的每个空间网格都视为自然语言处理一维结构中的一个标记。特征提取卷积网络在每个分辨率上都用一个Transformer融合电磁辐射和红外图像在当前分辨率上的特征。当前分辨率的特征图的尺寸为H×W×C。现在具有两个模态,因此我们可以对两个模态的特征重排列成(2×H×W)×C。同时还需要增加一个可学习的位置矩阵,尺寸也是(2×H×W)×C,这样网络可以学习到不同位置之间的相关性,位置矩阵和特征图以逐元素相加的方式拼接起来。拼接后的张量送入Transformer,输出同样尺度的特征图,再分成两个模态,和原来两个模态的输入进行叠加,如式21所示。经过若干次深度特征融合和下采样之后,我们得到一个维度为32×32×512的张量。
根据这样一个抽象的高维特征图,可以使用检测器来回归出目标的检测框位置和大小。现有的目标检测通常被分为两类:一类是两阶段检测器,最具代表性的是RCNN系列;另一种是一阶段检测器,如YOLO、SSD等。其中两阶段检测器具有较高的定位和目标识别精度,而单阶段检测器具有较高的推理速度。本文使用了2019年提出的工作CenterNet,检测速度和精度相比于单阶段和两阶段都有不小的提高。其最大的不同就在于CenterNet属于anchor-free的目标检测,即没有anchor的概念,只负责预测物体的中心点,因此也不存在所谓的positiveanchor和negativeanchor,同样不需要区分anchor是物体还是背景。因为每个目标只对应一个中心点,这个中心点是通过热力图预测出来的,所以也不需要非极大值抑制来进行筛选。
具体检测步骤如下:
根据上一步提取出来的特征图,再经过卷积,得到关键点的热力图:
Figure BDA0003238738150000101
其中R为热力图相对于原图的步长,而C是目标检测中对应关键点类别的数量。这样,
Figure BDA0003238738150000102
表示在当前(x,y)坐标检测到了类别为c的物体,而
Figure BDA0003238738150000103
表示当前坐标不存在类别为c的物体。
在整个训练的过程中,对于每个真实数据中的某一类别c,我们要将真实关键点P∈R2计算出来用于训练。对于下采样的坐标,设为
Figure BDA0003238738150000104
其中R就是上文所述的热力图相对于原图的步长,即下采样因子。所以最终计算出来的中心点是对应低分辨率的中心点。
接下来利用高斯核
Figure BDA0003238738150000105
将真实的关键点分布在热力图上,其中σp是一个与目标大小相关的标准差。如果某一类的两个高斯分布发生了重叠,直接取较大的那个即可。
中心点预测的损失函数如下所示:
Figure BDA0003238738150000106
其中α和β是focal loss的超参数,N是图像的关键点数量,用于将所有点的positive focal loss标准化为1。
由于上文中对图像进行了下采样,这样的特征图重新映射到原始图像上的时候会带来精度误差,因此对于每一个关键点,额外采用了一个局部位移来进行补偿。所有类c的关键点共享同一个位移预测,这个位移用L1损失进行训练,如下式所示:
Figure BDA0003238738150000111
目标检测不仅要给出中心位置,还需要给出尺寸信息,因此也需要一个损失函数用来预测检测框的宽和高,利用特征图回归出所有种类的宽高信息,表现为
Figure BDA0003238738150000112
同样使用L1损失来监督宽和高的回归:
Figure BDA0003238738150000113
综上所述,整体损失函数为:
[式25]
Ldet=LksizeLsizeoffLoff
在进行推理时,首先得到给定图像的热力图,取出该热力图中若干个峰值点。令
Figure BDA0003238738150000114
为类c的n个中心点,即
Figure BDA0003238738150000115
每个关键点的坐标为(xi,yi)。
Figure BDA0003238738150000116
为检测置信度,检测框为:
Figure BDA0003238738150000117
其中,
Figure BDA0003238738150000121
是预测的偏移量,
Figure BDA0003238738150000122
是预测的大小。采用一个3x3的最大池化,类似于anchor-based检测中非极大值抑制的效果。
步骤3:根据电磁辐射和红外图像的检测结果融合成一个稀疏的二维特征图,再次送入卷积神经网络,如图5所示,最后得到红外图像分支更新后的置信度。具体步骤如下:
令电磁辐射检测结果为集合
Figure BDA0003238738150000123
Figure BDA0003238738150000124
其中ri RAD=[xi1,yi1,xi2,yi2]为第i个检测框,xi1,yi1为检测框的左上角,xi2,yi2为检测框的右下角,
Figure BDA0003238738150000125
为这个检测结果的置信度;类似地,令红外图像检测结果为集合
Figure BDA0003238738150000126
Figure BDA0003238738150000127
其中,ri IR=[xi1,yi1,xi2,yi2]为第i个检测框,xi1,yi1为检测框的左上角,xi2,yi2为检测框的右下角,
Figure BDA0003238738150000128
为红外图像检测结果的置信度。根据这两个检测集合,构建一个k×n×3的张量T,其中
Figure BDA0003238738150000129
其中
Figure BDA00032387381500001210
该张量为稀疏张量,因为大部分检测框互相之间都互相不交叠。而融合网络只需要其中相交,即非空的部分。假设共有P对IOU不为0,则我们将k×n×3的张量T改造成大小为1×P×3的张量,此时原先非空元素的坐标(i,j)也需要保存在缓存中。最后经过若干卷积层,得到1×P×1的张量,根据先前保存的非空元素的坐标还原成k×n×3的张量Tout。再沿电磁辐射的维度进行最大池化,得到红外图像中每个检测框更新过后的置信度。同样地,这里也使用focal loss进行难例挖掘,结合上交叉熵函数进行分类的训练。
在生成数据集上进行该框架的性能验证,该数据集涉及到了全球1000个不同的区域。结果如下,部分场景如图6所示。
红外图像 电磁辐射 Transformer 检测器 检测融合 AP↑(%)
C 65.3
C 59.8
C 70.8
C 75.6
T 77.9
O 73.2
C 81.2
注:其中检测器一列T表示两阶段,O表示一阶段,C表示CenterNet。
其中评价指标AP(average precision)为衡量目标检测性能的指标。对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四种情形,令TP、FP、TN、FN分别表示其对应的样例数,则显然有TP+FP+TN+FN=样例总数。本例中与真实检测框交并比大于阈值的为TP,小于的则为FP,保留置信度高于阈值的检测结果。
精度P和召回率R分别定义为:
Figure BDA0003238738150000131
Figure BDA0003238738150000132
Figure BDA0003238738150000141
一般来说精度高时,召回率往往偏低;而召回率高时,精度往往偏低。可以绘制PR曲线来表示两者之间的关系。要得到PR曲线,首先要对检测模型的预测结果按照目标置信度降序排列。然后给定一个rank值,召回率和精度仅在置信度高于该rank值的预测结果中计算,改变rank值会相应的改变召回率和精度。这里选择了11个不同的rank值,也就得到了11组召回率和精度,然后AP值即定义为在这11个召回率下精度的平均值,其可以表征整个PR曲线下方的面积。如下所示:
Figure BDA0003238738150000142
其中
Figure BDA0003238738150000143
为在召回率为
Figure BDA0003238738150000144
时的测量值。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种基于遥感电磁辐射和红外图像的目标检测方法,其特征在于,包括以下步骤:
S1、获取区域内的电磁辐射信号和红外图像,并将电磁辐射信号二维化;
S2、将二维结构的电磁辐射和红外图像作为输入,馈送到多模态特征融合Transformer中,通过注意力机制将两个输入源的特征向量进行整合,得到电磁辐射检测结果和红外图像检测结果;
S3、将电磁辐射检测结果和红外图像检测结果经融合张量后,输入到检测融合网络中,输出得到目标检测结果。
2.如权利要求1所述的一种基于遥感电磁辐射和红外图像的目标检测方法,其特征在于,步骤S1中电磁辐射信号二维化的过程如下:
S11、将带经纬度坐标的电磁辐射数据投影到红外数据的图像坐标系上;
S12、根据红外图像,获得其投影参考系和地理参考系;
S13、将给定区域的经纬度坐标,由GDAL库内置函数将其转换为UTM坐标。
3.如权利要求2所述的一种基于遥感电磁辐射和红外图像的目标检测方法,其特征在于,步骤S13的具体过程为:令(x,y)为图像坐标,(E,N)为UTM坐标,则两个坐标的转换关系如下:
Figure FDA0003238738140000011
其中,
Figure FDA0003238738140000012
是平移坐标,
Figure FDA0003238738140000013
是旋转和拉伸系数,给定图像,参数可通过GDAL的库函数直接获得,最后求解该二元一次方程组即可得到图像坐标。
4.如权利要求1所述的一种基于遥感电磁辐射和红外图像的目标检测方法,其特征在于,步骤S2通过以下步骤实现:
S21、令输入特征为
Figure FDA0003238738140000014
其中N为当前特征图的大小,并且特征图上的每个位置都是一个长度为Df的特征向量;
S22、自注意力机制使用线性映射计算出三个矩阵,分别是Q,K和V,其具体计算公式如下:
Q=FinMq
K=FinMk
V=FinMv
其中,
Figure FDA0003238738140000021
Figure FDA0003238738140000022
为权重矩阵;
S23、计算value向量的加权作为输出,其中权重是矩阵Q和K的点乘,再除以一个尺度标度,通过softmax函数对权重向量进行归一化操作,计算公式为:
Figure FDA0003238738140000023
S24、对该特征矩阵施加非线性函数和残差连接得到当前尺度的输出特征:
Fout=MLP(A)+Fin
经过若干次降采样和卷积特征的抽取过后的特征图,将被馈送到无锚定框的检测器中,得到两个模态下的电磁辐射检测结果和红外图像检测结果。
5.如权利要求1所述的一种基于遥感电磁辐射和红外图像的目标检测方法,其特征在于,步骤S3通过以下步骤实现:
S31、令电磁辐射检测结果为集合
Figure FDA0003238738140000024
Figure FDA0003238738140000025
其中,ri RAD=[xi1,yi1,xi2,yi2]为第i个检测框,xi1,yi1为检测框的左上角,xi2,yi2为检测框的右下角,
Figure FDA0003238738140000026
为电磁辐射检测结果的置信度;令红外图像检测结果为集合
Figure FDA0003238738140000027
其中,ri IR=[xi1,yi1,xi2,yi2]为第i个检测框,xi1,yi1为检测框的左上角,xi2,yi2为检测框的右下角,
Figure FDA0003238738140000031
为红外图像检测结果的置信度;
S32、根据步骤S31中的两个检测集合,构建一个k×n×3的张量T,其中
Figure FDA0003238738140000032
其中
Figure FDA0003238738140000033
S33、将张量T送入卷积神经网络中,经过二维卷积、最大池化、压缩操作,得到一个n维的得分向量,表示红外图像检测框更新后的置信度;
S34、设定阈值,保留置信度高于阈值的检测结果。
CN202111010490.XA 2021-08-31 2021-08-31 一种基于遥感电磁辐射和红外图像的目标检测方法 Active CN113723511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111010490.XA CN113723511B (zh) 2021-08-31 2021-08-31 一种基于遥感电磁辐射和红外图像的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111010490.XA CN113723511B (zh) 2021-08-31 2021-08-31 一种基于遥感电磁辐射和红外图像的目标检测方法

Publications (2)

Publication Number Publication Date
CN113723511A true CN113723511A (zh) 2021-11-30
CN113723511B CN113723511B (zh) 2023-12-22

Family

ID=78679532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111010490.XA Active CN113723511B (zh) 2021-08-31 2021-08-31 一种基于遥感电磁辐射和红外图像的目标检测方法

Country Status (1)

Country Link
CN (1) CN113723511B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723748A (zh) * 2020-06-22 2020-09-29 电子科技大学 一种红外遥感图像舰船检测方法
CN111797697A (zh) * 2020-06-10 2020-10-20 河海大学 基于改进CenterNet的有角度高分遥感图像目标检测方法
CN112446327A (zh) * 2020-11-27 2021-03-05 中国地质大学(武汉) 一种基于无锚框的遥感图像目标检测方法
CN112668648A (zh) * 2020-12-29 2021-04-16 西安电子科技大学 基于对称融合网络的红外可见光融合识别方法
CN112686903A (zh) * 2020-12-07 2021-04-20 嘉兴职业技术学院 一种改进的高分辨率遥感图像语义分割模型

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797697A (zh) * 2020-06-10 2020-10-20 河海大学 基于改进CenterNet的有角度高分遥感图像目标检测方法
CN111723748A (zh) * 2020-06-22 2020-09-29 电子科技大学 一种红外遥感图像舰船检测方法
CN112446327A (zh) * 2020-11-27 2021-03-05 中国地质大学(武汉) 一种基于无锚框的遥感图像目标检测方法
CN112686903A (zh) * 2020-12-07 2021-04-20 嘉兴职业技术学院 一种改进的高分辨率遥感图像语义分割模型
CN112668648A (zh) * 2020-12-29 2021-04-16 西安电子科技大学 基于对称融合网络的红外可见光融合识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ADITYA PRAKASH: "Multi-Modal Fusion Transformer for End-to-End Autonomous Driving", ARXIV:2104.09224V1 [CS.CV], pages 1 - 11 *
SU PANG: "CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection", 2020 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS), pages 10386 - 10393 *

Also Published As

Publication number Publication date
CN113723511B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN112766244B (zh) 目标对象检测方法、装置、计算机设备和存储介质
CN107506740B (zh) 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN111353076B (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN108960330B (zh) 基于快速区域卷积神经网络的遥感图像语义生成方法
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN110222717B (zh) 图像处理方法和装置
CN114255361A (zh) 神经网络模型的训练方法、图像处理方法及装置
CN105930812A (zh) 一种基于融合特征稀疏编码模型的车辆品牌类型识别方法
CN112560967B (zh) 一种多源遥感图像分类方法、存储介质及计算设备
CN113537462A (zh) 数据处理方法、神经网络的量化方法及相关装置
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN110704652A (zh) 基于多重注意力机制的车辆图像细粒度检索方法及装置
CN115222998B (zh) 一种图像分类方法
CN114419351A (zh) 图文预训练模型训练、图文预测模型训练方法和装置
CN115131313A (zh) 基于Transformer的高光谱图像变化检测方法及装置
CN113743417A (zh) 语义分割方法和语义分割装置
CN115995042A (zh) 一种视频sar运动目标检测方法及装置
Ataş Performance Evaluation of Jaccard-Dice Coefficient on Building Segmentation from High Resolution Satellite Images
CN117392488A (zh) 一种数据处理方法、神经网络及相关设备
CN113704276A (zh) 地图更新方法、装置、电子设备及计算机可读存储介质
CN116258931B (zh) 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统
CN113723511B (zh) 一种基于遥感电磁辐射和红外图像的目标检测方法
Yin et al. M2F2-RCNN: Multi-functional faster RCNN based on multi-scale feature fusion for region search in remote sensing images
CN113487374A (zh) 一种基于5g网络的区块电商平台交易系统
Li et al. Research on efficient detection network method for remote sensing images based on self attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Cheng

Inventor after: Li Jialian

Inventor after: Zang Yu

Inventor after: Wang Qiang

Inventor after: Chen Xiuqiao

Inventor after: Che Jibin

Inventor before: Wang Cheng

Inventor before: Li Jialian

Inventor before: Tibetan Medicine

Inventor before: Wang Qiang

Inventor before: Chen Xiuqiao

Inventor before: Che Jibin

GR01 Patent grant
GR01 Patent grant