CN114973031A - 一种无人机视角下的可见光-热红外图像目标检测方法 - Google Patents
一种无人机视角下的可见光-热红外图像目标检测方法 Download PDFInfo
- Publication number
- CN114973031A CN114973031A CN202210577635.2A CN202210577635A CN114973031A CN 114973031 A CN114973031 A CN 114973031A CN 202210577635 A CN202210577635 A CN 202210577635A CN 114973031 A CN114973031 A CN 114973031A
- Authority
- CN
- China
- Prior art keywords
- visible light
- thermal infrared
- fusion
- layer
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 230000004927 fusion Effects 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000009826 distribution Methods 0.000 claims abstract description 41
- 230000002776 aggregation Effects 0.000 claims abstract description 30
- 238000004220 aggregation Methods 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 230000000007 visual effect Effects 0.000 claims abstract description 17
- 230000000295 complement effect Effects 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims description 19
- 230000005540 biological transmission Effects 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 230000003014 reinforcing effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 230000008859 change Effects 0.000 abstract description 5
- 238000010606 normalization Methods 0.000 abstract description 4
- 230000009466 transformation Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000023004 detection of visible light Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种无人机视角下的可见光‑热红外图像目标检测方法,基于Faster R‑CNN构建了三分支的动态对称特征提取融合网络,并在正负样本分配中引入归一化Wasserstein距离。特征提取融合网络结合信息聚合与分配模块,能够更好地融合得到可见光红外模态之间的互补信息。应用归一化Wasserstein距离提高了网络对小目标的检测效果,并提出新的归一化方法使其可以得到更好地应用。另外针对可见光‑热红外数据提出了一种数据增强方法,使动态对称特征提取融合网络更充分地融合跨模态信息。针对视角变化和目标姿态变化,在骨干网络中引入可形变卷积。本发明可以应用于无人机视角下的可见光‑热红外目标检测,且可取得现阶段较为优异的检测效果。
Description
技术领域
本发明属于图像处理技术领域,特别涉及无人机视角下的可见光热红外图像目标检测方法。
背景技术
可见光与热红外图像融合是图像融合领域的一个分支,在很多计算机视觉的领域都有应用,如融合检测、跟踪、行人重识别、SLAM等。在这些领域,往往有全天候的应用需求,而以往一般使用的可见光图像在夜晚成像质量差,因此热红外图像的应用有着重要意义。在目标检测任务中,使用可见光与热红外图像融合的方法,能够在各种光照条件下得到更准确的检测结果,具有时间上的灵活性。得益于无人机造价低、机动性强等优点,无人机摄像越来越多地被应用于人群控制、公共安全和智能搜救等领域。借助无人机在空间上的灵活性,进行无人机视角下的可见光热红外图像目标检测,能够实现时间上和空间上的高度灵活。
现有可见光与热红外图像融合目标检测方法一般仅面向车辆视角的目标检测,而对无人机视角下目标尺寸小、目标几何变换多的问题检测效果很差。在可见光与热红外图像融合检测中,现有方法存在模态互补信息融合不充分问题、可见光-热红外数据增强方法缺少问题。
发明内容
针对以上问题,本发明提出一种无人机视角下的可见光热红外图像目标检测方法,充分利用可见光与红外图像中的信息、极大改善无人机视角下小目标的检测效果,达到较高精度的无人机视角下的可见光与红外图像融合目标检测。
为了达到上述目的,本发明提供的技术方案是:一种无人机视角的可见光-热红外图像目标检测方法,包括以下步骤:
步骤1,将可见光-热红外图像对进行数据前处理;
步骤2,将前处理后的可见光-热红外图像对输入至特征提取与融合网络中获取多尺度共享融合特征;
所述特征提取与融合网络包括三个分支,可见光和红外分支,以及共享融合分支;其中可见光和红外分支网络结构相同,由一个卷积层和4个残差层构成,共享融合分支的网络由4个残差层构成,分别记为残差层1、残差层2、残差层3、残差层4,每个分支的4个残差层后面增加一个信息聚合与分配模块,用于利用互补信息加强三个分支的特征,加强后的可见光、热红外特征和共享融合特征输入到下一层进行进一步的学习,另外将4个加强后的共享融合特征输入至特征金字塔网络中,特征金字塔网络融合多尺度信息,输出多尺度的共享融合特征;
步骤3,利用候选区域生成网络在多尺度共享融合特征上生成感兴趣区域,即目标区域;
步骤4,利用感兴趣区域池化层提取出感兴趣区域的特征,将感兴趣区域特征输入至回归和分类预测网络中,得到目标的预测结果;
进一步的,步骤1中所述前处理是指随机区域替换的数据增强方法,以0.5的概率随机确定是否进行替换,若替换则随机取可见光-热红外图像对上一块固定大小的区域,并将可见光图像和热红外图像对应区域的图像进行裁剪和交换。
进一步的,所述的特征提取与融合网络的具体处理过程包括以下步骤;
步骤21,将可见光图像输入至可见光分支,热红外图像输入至热红外分支,并生成一个维度与可见光图像和热红外图像相同的0张量输入至共享融合分支;
步骤22,可见光图像和热红外图像分别通过一个卷积层和残差层1得到可见光特征图和热红外特征图,0张量通过残差层得到共享融合特征图;
步骤23,将可见光特征图、热红外特征图、共享融合特征图输入到信息聚合与分配模块,得到加强后的可见光、热红外特征,以及共享融合特征1;
步骤24,加强后的可见光、热红外特征分别通过残差层2,然后再输入到信息聚合与分配模块,得到再次加强后的可见光、热红外特征,以及另一尺度的共享融合特征2;
步骤25,重复步骤24两遍;
步骤26,将4个加强后的共享融合特征输入至特征金字塔网络中,特征金字塔网络融合多尺度信息,输出多尺度的共享融合特征。
进一步的,4个残差层分别由3、4、6、3个bottleneck结构堆叠组成,一个bottleneck 结构中包含三个卷积层。
进一步的,在残差层2、残差层3、残差层4引入可形变卷积,即将残差层中bottleneck 结构的第二个卷积层更改为可形变卷积层,在可形变卷积层中,先使特征图过一个常规的卷积层,输出偏移量感受野,其空间分辨率与原特征图相同,通道数为2N,代表了N个位置的二维偏移,再将这N个位置的偏移量加到原卷积核对应位置上,就得到了可形变卷积。
进一步的,信息聚合与分配模块的具体处理过程如下;
该模块基于双分支信息传递机制,两个分支对称合作地传输上下文信息并同时增强模态特有和模态共有分支的特征表达,包括信息聚合传输过程和信息分配传输过程,在信息聚合和分配传输过程中,都是首先对输入特征提取上下文信息,采用一个L层的金字塔池化层来提取上下文信息;设输入特征图在第l层,首先通过一个2l-1×2l-1的最大池化层,得到尺寸为的特征图,然后通过最邻近插值上采样到h×w;用Fi,l表示第l层输出的上采样特征,上下文特征Ii∈Rh×w×c提取过程可以表示为:其中表示特征通道级联的操作,Conv1*1表示一个1×1的卷积层,h、w、c分别表示特征图的高、宽、通道数,下面用和分别表示残差层i输出的可见光、热红外和共享融合特征,其中下标r标识可见光,t标识热红外,s标识共享融合,上标i标识第i个残差层;
在信息聚合传输中,两个模态的特有信息被聚合在一起得到共享融合特征;从模态特有特征中提取出上下文信息后,计算模态特有上下文信息和模态共享融合特征上下文信息的差值,得到可见光分支向共享融合分支输入的特征和红外分支向共享融合分支输入的特征最后通过两个门函数自适应地将两个模态互补信息融合进模态共享融合特征这个门函数融合过程可以被表达为: 门函数是使用卷积层和门权重实现的;⊙表示元素级乘法;
信息分配传输过程在聚合之后,将增强的共享融合信息分配给模态特有分支中,以增强模态特有信息的表达;对于增强的共享融合特征首先提取它的上下文信息将其与模态特有特征的上下文信息作差得到共享融合特征分支流入模态特有分支的信息与聚合过程相似,再通过两个门函数得到增强的模态特有特征这个过程可以被表示为: 最终增强的三分支特征输入到下一层进行进一步的表征学习。
进一步的,候选区域生成网络的具体处理过程如下;
步骤31,候选区域生成网络使用一个滑动窗口在共享融合特征上生成锚框;
步骤32,对候选区域进行基于改进的归一化Wasserstein距离的正负样本分配,在正负样本分配中通过计算候选区域与标注框的交并比并设置门限来判定该候选区域是正样本还是负样本;
步骤33,对正负样本进行采样得到感兴趣区域;
所述改进的归一化Wasserstein距离可表达为其中INWD(Na,Nb)表示两个二维高斯分布建模的矩形框的改进后归一化Wasserstein距离,表示两个二维高斯分布的Wasserstein距离。
与现有技术相比,本发明的优点和有益效果如下:
本发明公开了一种无人机视角的可见光-热红外目标检测方法,基于Faster R-CNN构建了三分支的动态对称特征提取融合网络,并在正负样本分配中引入改进的归一化Wasserstein 距离。特征提取融合网络结合信息聚合与分配模块,能够更好地融合得到可见光红外模态之间的互补信息。应用归一化Wasserstein距离提高了网络对小目标的检测效果,并提出新的归一化方法使其可以得到更好地应用。另外针对可见光-热红外数据提出了一种数据增强方法,使动态对称特征提取融合网络更充分地融合跨模态信息。针对视角变化和目标姿态变化,在骨干网络中引入可形变卷积。本发明可以应用于无人机视角下的可见光-热红外目标检测,且可取得现阶段较为优异的检测效果。
附图说明
图1为整体网络示意图。
图2为特征提取与融合网络示意图。
图3为信息聚合与分配模块示意图,其中(a)为信息聚合过程示意图;(b)为信息分配过程示意图。
图4为随机区域替换数据增强方法示意图。
具体实施方式
下面结合附图和实施例对本发明进行进一步说明。
本发明以无人机视角下的可见光-热红外图像人体检测任务为例,具体说明本发明的工作流程,按照本发明内容完整实施的实施例如下:
(1)用无人机采集具有行人目标的航拍图像作为数据集;
(2)如图1所示,构建无人机视角下的可见光-热红外图像人体检测网络,包括数据增强、特征提取与融合网络、候选区域生成网络、感兴趣区域池化层、回归预测网络和分类预测网络;
如图2所示,构建三分支的特征提取与融合网络,增加信息聚合与分配模块。可见光和红外分支网络结构相同,由一个卷积层和四个残差层构成;共享融合分支的网络由四个残差层构成。其中,残差层1、残差层2、残差层3和残差层4分别由3、4、6、3个bottleneck结构堆叠组成,一个bottleneck结构中包含三个卷积层。为表达方便,用和分别表示残差层i输出的可见光、热红外和共享融合特征。在四个残差层后分别插入一个信息聚合与分配模块,用于聚合模态独有分支的互补信息并利用互补信息加强原模态的信息,这个过程可以表示为:其中,分别表示加强后的可见光、热红外和共享融合特征,IADM表示信息聚合与分配模块,图2中的“融合特征图”即为加强后的共享融合特征。每通过一个信息聚合与分配模块后,加强的特征输入到下一层网络学习高级语意特征。最后将四个信息聚合与分配模块输出的加强后的共享融合特征输入至特征金字塔网络中,特征金字塔网络融合多尺度信息,输出多尺度的共享融合特征。
由于卷积单元和池化层等模块的核大小和对应特征图位置是固定的,传统的卷积神经网络对物体发生几何变换时的鲁棒性不够强。在无人机视角的图像中,由于视角变换、尺度变换、目标姿态改变等情况,目标常常会出现各种各样的几何变换。为了使得特征提取网络能够更好地学习到不同几何变换下目标的特征,在残差层2、残差层3、残差层4引入可形变卷积,即将残差层中bottleneck结构的第二个卷积层更改为可形变卷积层。在可形变卷积层中,先使特征图过一个常规的卷积层,输出偏移量感受野,其空间分辨率与原特征图相同,通道数为2N,代表了N个位置的二维偏移,再将这N个位置的偏移量加到原卷积核对应位置上,就得到了可形变卷积。
在三个分支之间,本发明加入了信息聚合与分配模块用于动态地融合可见光分支和热红外分支的特征,增强共享融合特征之后再用共享融合特征增强可见光特征和热红外特征。该模块能够充分利用可见光和热红外的互补性,学习到跨模态的特征表征。这个模块基于双分支信息传递机制,两个分支对称合作地传输上下文信息并同时增强模态特有和模态共有分支的特征表达。如图3所示,该模块主要分为两个过程:信息聚合传输过程和信息分配传输过程。在信息聚合和分配传输过程中,都首先对输入特征提取上下文信息。采用一个L层的金字塔池化层来提取上下文信息。设输入特征图在第l层,首先通过一个2l-1×2l-1的最大池化层,得到尺寸为的特征图;然后通过最邻近插值上采样到h×w。用Fi,l表示第l层输出的上采样特征,上下文特征Ii∈Rh×w×c提取过程可以表示为:其中表示特征通道级联的操作;Conv1*1表示一个 1×1的卷积层。上下文特征提取的操作有两个优点,首先是提取出的特征有更大的感受野,特征包含更多的上下文信息。第二个是由于最大池化层的平移不变性,通过多次最大池化可以一定程度上减少RGB-T图像对的不对齐问题。在信息聚合传输中,两个模态的特有信息被聚合在一起得到共享融合特征。如图3(a)所示,从模态特有特征中提取出上下文信息后,计算模态特有上下文信息和模态共享融合特征上下文信息的差值,得到RGB分支向共享融合分支输入的特征和红外分支向共享融合分支输入的特征最后通过两个门函数自适应地将两个模态互补信息融合进模态共享特征这个门函数融合过程可以被表达为: 门函数是使用卷积层和门权重实现的;⊙表示元素级乘法。这样的算法使得互补信息能够更有效地融入模态共享特征中。信息分配传输过程在聚合之后,将增强的共享融合信息分配给模态特有分支中,以增强模态特有信息的表达。如图3(b)所示,对于增强的共享融合特征首先提取它的上下文信息将其与模态特有特征的上下文信息作差得到共享分支流入模态特有分支的信息与聚合过程相似,再通过两个门函数得到增强的模态特有特征这个过程可以被表示为: 最终增强的三分支特征输入到下一层进行进一步的表征学习。
在图2所示网络后本发明增加了一个特征金字塔网络,特征金字塔网络通过融合多尺度信息,在不同尺度下对不同大小的目标进行预测,从而很好地提升了模型的性能。
在候选区域生成网络中本发明使用了基于改进的归一化Wasserstein距离的正负样本分配。在一般的基于锚框的目标检测算法中,用IoU作为度量标注框与锚框、预测框之间的位置关系。但是在小目标检测中,由于目标很小,预测框相对于标注框出现很小偏移都会导致IoU急剧下降甚至将为0。特别当两框没有重叠时,IoU始终为零,无法衡量两框之间的距离。候选区域生成网络的正负样本分配中,将与标注框IoU大于一个阈值的认为是正样本,否则为负样本。小目标IoU这种特性使得在训练阶段正样本很少,导致网络学习效果差。归一化Wasserstein距离将矩形框建模为二维高斯分布,用Wasserstein距离计算两个二维高斯分布之间的距离,将Wasserstein距离归一化后得到归一化Wasserstein距离(NWD)。NWD很好地克服了IoU的上述缺点。原始NWD的归一化过程可表达为: 其中NWD(Na,Nb)表示两个二维高斯分布建模的矩形框的归一化Wasserstein距离,表示两个二维高斯分布的Wasserstein距离,Na,Nb表示两个二维高斯分布。C为一个常数,需要根据数据集设定。本发明将原始的NWD归一化方法改进为其中INWD(Na,Nb)表示本发明改进的NWD方法。本发明的改进方法不需要引入额外的超参数,并能使度量值合理分布。
(3)如图3所示,对输入可见光-热红外图像对进行数据前处理,即随机区域替换的数据增强方法,该方法首先以0.5的概率确定是否进行替换,若替换则随机取图像对上一块区域,将可见光与热红外图像上对应区域进行替换;
(4)将经过数据前处理的可见光-热红外图像输入特征提取与融合网络,具体地,将可见光图像输入网络的可见光分支,红外图像输入红外分支,另外生成一个维度尺寸均与可见光红外图像相同的0张量输入共享融合分支,特征提取与融合网络输出多尺度的共享融合特征;
(5)候选区域生成网络在多尺度的共享融合特征上生成多个候选区域,并通过正负样本分配和采样得到感兴趣区域,即人体目标区域;
(6)感兴趣区域池化层提取出感兴趣区域的特征;
(7)感兴趣区域特征输入至回归预测网络和分类预测网络得到预测结果,即矩形框表示的人体位置。
使用本发明中提出的算法进行训练后,在数据集上的性能与现有方法的对比如下:
表1数据集性能对比表
上表为本发明中提出的方法与现有的较为优异的方法在数据集上的实验结果。表中评价所使用的指标为平均准确度(AP),下标表示使用的IoU阈值,上标表示不同尺寸的目标。“+”号表示检测器采用了一种基准融合结构。由表可知,本发明中提出的方法能在该数据集上取得较好的准确度,特别是极小目标的检测效果。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (7)
1.一种无人机视角的可见光-热红外图像目标检测方法,其特征在于,包括以下步骤:
步骤1,将可见光-热红外图像对进行数据前处理;
步骤2,将前处理后的可见光-热红外图像对输入至特征提取与融合网络中获取多尺度共享融合特征;
所述特征提取与融合网络包括三个分支,可见光和红外分支,以及共享融合分支;其中可见光和红外分支网络结构相同,由一个卷积层和4个残差层构成,共享融合分支的网络由4个残差层构成,分别记为残差层1、残差层2、残差层3、残差层4,每个分支的4个残差层后面增加一个信息聚合与分配模块,用于利用互补信息加强三个分支的特征,加强后的可见光、热红外特征和共享融合特征输入到下一层进行进一步的学习,另外将4个加强后的共享融合特征输入至特征金字塔网络中,特征金字塔网络融合多尺度信息,输出多尺度的共享融合特征;
步骤3,利用候选区域生成网络在多尺度共享融合特征上生成感兴趣区域,即目标区域;
步骤4,利用感兴趣区域池化层提取出感兴趣区域的特征,将感兴趣区域特征输入至回归和分类预测网络中,得到目标的预测结果。
2.根据权利要求1所述的一种无人机视角的可见光-热红外图像目标检测方法,其特征在于:步骤1中所述前处理是指随机区域替换的数据增强方法,以0.5的概率随机确定是否进行替换,若替换则随机取可见光-热红外图像对上一块固定大小的区域,并将可见光图像和热红外图像对应区域的图像进行裁剪和交换。
3.根据权利要求1所述的一种无人机视角的可见光-热红外图像人体目标方法,其特征在于:所述的特征提取与融合网络的具体处理过程包括以下步骤;
步骤21,将可见光图像输入至可见光分支,热红外图像输入至热红外分支,并生成一个维度与可见光图像和热红外图像相同的0张量输入至共享融合分支;
步骤22,可见光图像和热红外图像分别通过一个卷积层和残差层1得到可见光特征图和热红外特征图,0张量通过残差层得到共享融合特征图;
步骤23,将可见光特征图、热红外特征图、共享融合特征图输入到信息聚合与分配模块,得到加强后的可见光、热红外特征,以及共享融合特征1;
步骤24,加强后的可见光、热红外特征分别通过残差层2,然后再输入到信息聚合与分配模块,得到再次加强后的可见光、热红外特征,以及另一尺度的共享融合特征2;
步骤25,重复步骤24两遍;
步骤26,将4个加强后的共享融合特征输入至特征金字塔网络中,特征金字塔网络融合多尺度信息,输出多尺度的共享融合特征。
4.根据权利要求1所述的一种无人机视角的可见光-热红外图像目标检测方法,其特征在于:4个残差层分别由3、4、6、3个bottleneck结构堆叠组成,一个bottleneck结构中包含三个卷积层。
5.根据权利要求1所述的一种无人机视角的可见光-热红外图像目标检测方法,其特征在于:在残差层2、残差层3、残差层4引入可形变卷积,即将残差层中bottleneck结构的第二个卷积层更改为可形变卷积层,在可形变卷积层中,先使特征图过一个常规的卷积层,输出偏移量感受野,其空间分辨率与原特征图相同,通道数为2N,代表了N个位置的二维偏移,再将这N个位置的偏移量加到原卷积核对应位置上,就得到了可形变卷积。
6.根据权利要求1所述的一种无人机视角的可见光-热红外图像目标检测方法,其特征在于:信息聚合与分配模块的具体处理过程如下;
该模块基于双分支信息传递机制,两个分支对称合作地传输上下文信息并同时增强模态特有和模态共有分支的特征表达,包括信息聚合传输过程和信息分配传输过程,在信息聚合和分配传输过程中,都是首先对输入特征提取上下文信息,采用一个L层的金字塔池化层来提取上下文信息;设输入特征图在第l层,首先通过一个2l-1×2l-1的最大池化层,得到尺寸为的特征图,然后通过最邻近插值上采样到h×w;用Fi,l表示第l层输出的上采样特征,上下文特征Ii∈Rh×w×c提取过程可以表示为:其中表示特征通道级联的操作,Conv1*1表示一个1×1的卷积层,h、w、c分别表示特征图的高、宽、通道数,下面用和分别表示残差层i输出的可见光、热红外和共享融合特征,其中下标r标识可见光,t标识热红外,s标识共享融合,上标i标识第i个残差层;
在信息聚合传输中,两个模态的特有信息被聚合在一起得到共享融合特征;从模态特有特征中提取出上下文信息后,计算模态特有上下文信息和模态共享融合特征上下文信息的差值,得到可见光分支向共享融合分支输入的特征和红外分支向共享融合分支输入的特征最后通过两个门函数自适应地将两个模态互补信息融合进模态共享融合特征这个门函数融合过程可以被表达为:
7.根据权利要求1所述的一种无人机视角的可见光-热红外图像目标检测方法,其特征在于:候选区域生成网络的具体处理过程如下;
步骤31,候选区域生成网络使用一个滑动窗口在共享融合特征上生成锚框;
步骤32,对候选区域进行基于改进的归一化Wasserstein距离的正负样本分配,在正负样本分配中通过计算候选区域与标注框的交并比并设置门限来判定该候选区域是正样本还是负样本;
步骤33,对正负样本进行采样得到感兴趣区域;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210577635.2A CN114973031B (zh) | 2022-05-25 | 2022-05-25 | 一种无人机视角下的可见光-热红外图像目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210577635.2A CN114973031B (zh) | 2022-05-25 | 2022-05-25 | 一种无人机视角下的可见光-热红外图像目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114973031A true CN114973031A (zh) | 2022-08-30 |
CN114973031B CN114973031B (zh) | 2024-08-13 |
Family
ID=82955686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210577635.2A Active CN114973031B (zh) | 2022-05-25 | 2022-05-25 | 一种无人机视角下的可见光-热红外图像目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114973031B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273154A (zh) * | 2022-09-26 | 2022-11-01 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于边缘重构的热红外行人检测方法、系统及存储介质 |
CN117528233A (zh) * | 2023-09-28 | 2024-02-06 | 哈尔滨航天恒星数据系统科技有限公司 | 变焦倍数识别及目标重识别数据集制作方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378905A (zh) * | 2021-06-04 | 2021-09-10 | 武汉大学 | 一种基于分布距离的小目标检测方法 |
WO2021178747A1 (en) * | 2020-03-05 | 2021-09-10 | Google Llc | Domain generalization via batch normalization statistics |
CN113627504A (zh) * | 2021-08-02 | 2021-11-09 | 南京邮电大学 | 基于生成对抗网络的多模态多尺度特征融合目标检测方法 |
-
2022
- 2022-05-25 CN CN202210577635.2A patent/CN114973031B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021178747A1 (en) * | 2020-03-05 | 2021-09-10 | Google Llc | Domain generalization via batch normalization statistics |
CN113378905A (zh) * | 2021-06-04 | 2021-09-10 | 武汉大学 | 一种基于分布距离的小目标检测方法 |
CN113627504A (zh) * | 2021-08-02 | 2021-11-09 | 南京邮电大学 | 基于生成对抗网络的多模态多尺度特征融合目标检测方法 |
Non-Patent Citations (2)
Title |
---|
余淮;杨文: "一种无人机航拍影像快速特征提取与匹配算法", 《电子与信息学报》, 15 March 2016 (2016-03-15) * |
郑昌金;章登义;苏科华;武小平;洪程;: "基于LBP特征和熵正则化Wasserstein距离的人脸表情识别", 计算机与数字工程, no. 02, 20 February 2017 (2017-02-20) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273154A (zh) * | 2022-09-26 | 2022-11-01 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于边缘重构的热红外行人检测方法、系统及存储介质 |
CN115273154B (zh) * | 2022-09-26 | 2023-01-17 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于边缘重构的热红外行人检测方法、系统及存储介质 |
CN117528233A (zh) * | 2023-09-28 | 2024-02-06 | 哈尔滨航天恒星数据系统科技有限公司 | 变焦倍数识别及目标重识别数据集制作方法 |
CN117528233B (zh) * | 2023-09-28 | 2024-05-17 | 哈尔滨航天恒星数据系统科技有限公司 | 变焦倍数识别及目标重识别数据集制作方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114973031B (zh) | 2024-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109886121A (zh) | 一种遮挡鲁棒的人脸关键点定位方法 | |
CN113657450B (zh) | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN113095152B (zh) | 一种基于回归的车道线检测方法及系统 | |
CN114973031A (zh) | 一种无人机视角下的可见光-热红外图像目标检测方法 | |
CN114398491A (zh) | 一种基于知识图谱的语义分割图像实体关系推理方法 | |
Xu et al. | Automatic recognition algorithm of traffic signs based on convolution neural network | |
CN110689043A (zh) | 一种基于多重注意力机制的车辆细粒度识别方法及装置 | |
CN108427919B (zh) | 一种基于形状引导显著性模型的无监督油罐目标检测方法 | |
US11270425B2 (en) | Coordinate estimation on n-spheres with spherical regression | |
CN113850189B (zh) | 一种应用于机动平台的嵌入式孪生网络实时跟踪方法 | |
CN109102015A (zh) | 一种基于复数神经网络的sar图像变化检测方法 | |
CN110704652A (zh) | 基于多重注意力机制的车辆图像细粒度检索方法及装置 | |
CN114926693A (zh) | 基于加权距离的sar图像小样本识别方法及装置 | |
CN115546525A (zh) | 多视图聚类方法、装置、电子设备及存储介质 | |
CN115424237A (zh) | 一种基于深度学习的前向车辆识别与距离检测方法 | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
Luo et al. | Infrared and visible image fusion based on Multi-State contextual hidden Markov Model | |
CN108537342A (zh) | 一种基于邻居信息的网络表示学习方法及系统 | |
CN112668421A (zh) | 一种基于注意力机制的无人机高光谱农作物快速分类方法 | |
Oh et al. | Local selective vision transformer for depth estimation using a compound eye camera | |
Li et al. | Scene change detection: semantic and depth information | |
CN116934820A (zh) | 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及系统 | |
CN116051872A (zh) | 一种跨光谱图像的特征点匹配方法 | |
WO2023222643A1 (en) | Method for image segmentation matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |