CN116434019A - 一种基于特征对齐的图像融合目标检测方法 - Google Patents

一种基于特征对齐的图像融合目标检测方法 Download PDF

Info

Publication number
CN116434019A
CN116434019A CN202211722638.7A CN202211722638A CN116434019A CN 116434019 A CN116434019 A CN 116434019A CN 202211722638 A CN202211722638 A CN 202211722638A CN 116434019 A CN116434019 A CN 116434019A
Authority
CN
China
Prior art keywords
offset
feature
mode
features
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211722638.7A
Other languages
English (en)
Inventor
邢佳璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN202211722638.7A priority Critical patent/CN116434019A/zh
Publication of CN116434019A publication Critical patent/CN116434019A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征对齐的图像融合目标检测方法,包括以下步骤:S1、模态特征偏移预测:网络首先通过特征网络提取两个模态的特征,随后将之进行通道级联并送入特征偏移预测模块来为特征图的每个位置预测x方向y方向的偏移;S2、级联候选框生成:将偏移反馈给偏移模态后得到初步修正的偏移模态特征图,采取由粗到细的特征对齐策略,在仅使用一个模态标注的情况下对两个模态的特征进行空间对齐,并直接使用两个模态的特征进行后续的检测,已有标注的模态,通常为热红外为参考模态,对另一个模态,即偏移模态的特征图进行处理使之在空间位置上靠近参考模态,来达到模态间特征对齐的效果,加快检测速度,同时可以快速回归检测框。

Description

一种基于特征对齐的图像融合目标检测方法
技术领域
本发明涉及图像处理技术领域,具体为一种基于特征对齐的图像融合目标检测方法。
背景技术
RGB-T图像的配准过程较为复杂,在采集数据前首先需要对相机进行标定,需要用到特定的硬件及特殊的标定板,在数据采集的过程中,除了要准备不同的传感器,如可见光相机、热红外相机等,还需要一些特殊的部件,如用于空间对齐的分光镜以及用于时间对齐的同步计时器,近年来,许多学者提出了RGB-T目标检测数据集,使用特别设计的硬件、预处理手段等将不同模态的图像进行了像素级对齐,并提供了模态间共享的标注,目前大多数的先进RGB-T图像目标检测器都在这种模态间对齐的基础上构建,然而现实世界中,像素级对齐的数据仅仅占少数,更多的是存在偏移和未经配准的数据。这是由于复杂的配准流程、传感器的物理特性差异(视差、相机分辨率不一致、视场不匹配等)、对齐算法不完善、外部干扰和硬件老化等导致。
如此的跨模态差异会降低检测器的性能,一方面,不同模态的输入图像在相应的位置不匹配,待融合的特征也存在空间位置的偏移,融合时特征图上的特征含义不明确,给网络推理造成困难,导致产生不稳定的目标分类及定位。另一方面,两个模态共享标注会引入标注偏差,网络不能分辨标注信息到底属于哪一个模态,使得检测框的位置回归变得困难,为此提出一种基于特征对齐的图像融合目标检测方法。
发明内容
本发明的目的在于提供一种基于特征对齐的图像融合目标检测方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于特征对齐的图像融合目标检测方法,包括以下步骤:
S1、模态特征偏移预测:网络首先通过特征网络提取两个模态的特征,随后将之进行通道级联并送入特征偏移预测模块来为特征图的每个位置预测x方向y方向的偏移;
S2、级联候选框生成:将偏移反馈给偏移模态后得到初步修正的偏移模态特征图,与初始的参考模态特征图进行级联后送入区域生成网络,得到一系列候选框;
S3、候选框二次回归:感兴趣区域对齐模块对候选框部分偏移的特征进行进一步对齐,通过为每个候选框预测x、y、w、h四个维度的调整参数,对热红外模态的候选框进行二次回归;
S4、特征加权并级联:在进行二次回归后将微调过的偏移模态感兴趣区域池化特征与原本的参考模态感兴趣区域池化特征进行重新加权并级联,送入最后的检测头来得到分类置信度和目标的包围框坐标。
优选的,在特征加权过程中,通过可见光图像中的不同光照值自适应地对两个模态的特征进行加权,使用一个光照感知子网络来对光照值进行预测,光照感知子网络由2个卷积层和3个全连接层组成,每个卷积层后接一个ReLU激活函数层以及一个2×2最大池化层来对特征进行激活和压缩,并在最后一层全连接层之后使用softmax激活函数。
优选的,在特征加权过程中,为了减小计算量,将可见光图像进行8倍下采样后再作为输入,网络会输出2个预测值,分别是图像为白天的概率Cd和图像为夜晚的概率Cn,由于该任务是一个较为简单的二分类任务,因此Cd、Cn会接近0或者1,若将其直接作为各个模态的权重则会对其中一个模态产生抑制效果;
模态权重合理性调整,通过门函数对两个模态的权重进行重新调整:
Figure BDA0004028800910000021
其中Cd和Cn代表全连接层的软最大值输出,WR和WT分别代表可见光模态和热红外模态特征的权重,α是可学习的参数,初始值设为1,式中的偏置
Figure BDA0004028800910000031
为输出值创造了一个基准,最终的输出值在/>
Figure BDA0004028800910000032
左右进行取值,(Cd-Cn)代表取值变化的方向,当白天的概率Cd大于夜晚的概率Cn时,代表可见光所占权重应该更大,此时WR应该在/>
Figure BDA0004028800910000033
的基础上增加,反之减小,而α则决定了增减的幅度,这两个权重会运用在特征金字塔之后,与两个模态的多尺度特征进行相乘以达到特征重加权。
优选的,特征偏移预测模块中是对特征图进行初步的偏移预测,使两个模态的特征图大体上对齐,首先将两个模态的特征图进行通道级联,然后通过多头自注意力模块提取跨模态特征,使用反向残差前馈网络增强模型的表达能力并减小计算量,最终利用偏移预测层为偏移模态特征图的每个元素预测x和y方向的偏移,由于特征金字塔p2阶段的特征最细节,尺度也最大,因此选取p2阶段的特征图对偏移值进行预测,其后每个阶段的偏移值通过对p2阶段的偏移下采样获得。
优选的,多头自注意力模块,其视作是多个自注意力模块的级联,对于偏移模态的特征
Figure BDA0004028800910000039
及参考模态的特征;
将其进行通道级联以获取多模态特征
Figure BDA00040288009100000310
而后将特征图拉伸来获取特征序列/>
Figure BDA00040288009100000311
通过将输入序列IM投影到三个权重矩阵上,网络可以计算出一系列的查询Q(query),键K(key)和值V(value),/>
Figure BDA0004028800910000034
其中,
Figure BDA0004028800910000035
及/>
Figure BDA0004028800910000036
为权重矩阵,且DQ=DK=DV=2HW。之后,自注意力层使用Q及K之间的缩放点乘来计算注意力权重,该权重与V相乘得到输出Z,/>
Figure BDA0004028800910000037
其中
Figure BDA0004028800910000038
是缩放因子,用于在点积的幅度变大时防止softmax函数收敛到具有极小梯度的区域,为了从不同的角度多样化地关注特征中的不同位置,网络采用多头自注意力机制来得到输出:
Z'=MultiHead(Q,K,V)=Concat(Z1,…,Zk)Wp
Figure BDA0004028800910000041
其中标h代表多头自注意力中头的个数,即使用了多少个自注意力,
Figure BDA0004028800910000042
Figure BDA0004028800910000043
代表着级联操作Concat(Z1,...,Zh)的投影矩阵。
优选的,反向残差前馈网络包含3个卷积层,每个卷积层之后使用批标准化对特征进行规范,且在前两个卷积层之后使用激活函数并进行残差连接:
Figure BDA0004028800910000044
优选的,偏移预测层是一个1×1卷积层和tanh激活函数,将输入特征图的通道映射为2,代表每个元素的x方向偏移和y方向偏移比例。
优选的,偏移修正,在原始特征图的基础上,对图像中每个元素的坐标X,Y加上预测的偏移值ΔX与ΔY得到新的坐标X′,Y′,将原先坐标对应的值映射到新的坐标得到初步对齐的特征图,
Figure BDA0004028800910000045
其中⊕代表逐元素相加。
优选的,预训练,使用FLIRADAS数据集的配准子集FLIR-aligned作为输入,为可见光图像随机添加一定范围内x,y方向的偏移,并将偏移值进行8倍下采样获取偏移的真实值,最终使用均方损失函数进行偏移预测的监督。
优选的,在感兴趣区域对齐模块中,在得到候选框后,为了应对模态间特征的空间偏移现象,首先将候选框进行扩展,以获取更多的上下文信息,之后对于每种模态,使用感兴趣区域池化将候选框区域对应的特征映射到具有H×W大小的特征图中,然后将两种模态的感兴趣区域上下文特征级联并送入候选框回归模块,候选框回归模块由一个卷积层和两个全连接层组成,最后的全连接层后使用tanh作为激活函数,网络为每个候选框预测cx,cy,cw,ch∈[-1,1]四个偏移因子,则对于每个候选框:
Figure BDA0004028800910000051
△y=cy·thry,yn=y+Δy
Δw=cw·thrw,wn=w+Δw
△h=ch·thrh,hn=h+Δh
其中x,y,w,h代表候选框的中心点坐标以及宽和高,thrx,thry,thrw,thrh代表候选框的最大偏移范围,实验中作为超参数,xr,yr,wr,hr代表修正后的候选框中心点坐标及宽和高。
与现有技术相比,本发明的有益效果是:
本发明中,采取由粗到细的特征对齐策略,在仅使用一个模态标注的情况下对两个模态的特征进行空间对齐,并直接使用两个模态的特征进行后续的检测,已有标注的模态,通常为热红外为参考模态,对另一个模态,即偏移模态的特征图进行处理使之在空间位置上靠近参考模态,来达到模态间特征对齐的效果,加快检测速度,同时可以快速回归检测框。
附图说明
图1为本发明基于特征对齐的图像融合目标检测方法的流程示意图;
图2为本发明基于特征对齐的图像融合目标检测方法中特征偏移预测模块的流程示意图;
图3为本发明基于特征对齐的图像融合目标检测方法中多头自注意力模块示意图;
图4为本发明基于特征对齐的图像融合目标检测方法中感兴趣区域对齐模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图4,本发明提供一种技术方案:
一种基于特征对齐的图像融合目标检测方法,包括以下步骤:
S1、模态特征偏移预测:网络首先通过特征网络提取两个模态的特征,随后将之进行通道级联并送入特征偏移预测模块来为特征图的每个位置预测x方向y方向的偏移;
S2、级联候选框生成:将偏移反馈给偏移模态后得到初步修正的偏移模态特征图,与初始的参考模态特征图进行级联后送入区域生成网络,得到一系列候选框;
S3、候选框二次回归:感兴趣区域对齐模块对候选框部分偏移的特征进行进一步对齐,通过为每个候选框预测x、y、w、h四个维度的调整参数,对热红外模态的候选框进行二次回归;
S4、特征加权并级联:在进行二次回归后将微调过的偏移模态感兴趣区域池化特征与原本的参考模态感兴趣区域池化特征进行重新加权并级联,送入最后的检测头来得到分类置信度和目标的包围框坐标。
具体的,在特征加权过程中,通过可见光图像中的不同光照值自适应地对两个模态的特征进行加权,使用一个光照感知子网络来对光照值进行预测,光照感知子网络由2个卷积层和3个全连接层组成,每个卷积层后接一个ReLU激活函数层以及一个2×2最大池化层来对特征进行激活和压缩,并在最后一层全连接层之后使用softmax激活函数。
具体的,在特征加权过程中,为了减小计算量,将可见光图像进行8倍下采样后再作为输入,网络会输出2个预测值,分别是图像为白天的概率Cd和图像为夜晚的概率Cn,由于该任务是一个较为简单的二分类任务,因此Cd、Cn会接近0或者1,若将其直接作为各个模态的权重则会对其中一个模态产生抑制效果;
模态权重合理性调整,通过门函数对两个模态的权重进行重新调整:
Figure BDA0004028800910000071
其中Cd和Cn代表全连接层的软最大值输出,WR和WT分别代表可见光模态和热红外模态特征的权重,α是可学习的参数,初始值设为1,式中的偏置
Figure BDA0004028800910000072
为输出值创造了一个基准,最终的输出值在/>
Figure BDA0004028800910000073
左右进行取值,(Cd-Cn)代表取值变化的方向,当白天的概率Cd大于夜晚的概率Cn时,代表可见光所占权重应该更大,此时WR应该在/>
Figure BDA0004028800910000074
的基础上增加,反之减小,而α则决定了增减的幅度,这两个权重会运用在特征金字塔之后,与两个模态的多尺度特征进行相乘以达到特征重加权。
具体的,特征偏移预测模块中是对特征图进行初步的偏移预测,使两个模态的特征图大体上对齐,首先将两个模态的特征图进行通道级联,然后通过多头自注意力模块提取跨模态特征,使用反向残差前馈网络增强模型的表达能力并减小计算量,最终利用偏移预测层为偏移模态特征图的每个元素预测x和y方向的偏移,由于特征金字塔p2阶段的特征最细节,尺度也最大,因此选取p2阶段的特征图对偏移值进行预测,其后每个阶段的偏移值通过对p2阶段的偏移下采样获得。
具体的,多头自注意力模块,其视作是多个自注意力模块的级联,对于偏移模态的特征
Figure BDA0004028800910000075
及参考模态的特征;
将其进行通道级联以获取多模态特征
Figure BDA0004028800910000076
而后将特征图拉伸来获取特征序列/>
Figure BDA0004028800910000077
通过将输入序列IM投影到三个权重矩阵上,网络可以计算出一系列的查询Q(query),键K(key)和值V(value),/>
Figure BDA0004028800910000078
其中,
Figure BDA0004028800910000079
及/>
Figure BDA00040288009100000710
为权重矩阵,且DQ=DK=DV=2HW。之后,自注意力层使用Q及K之间的缩放点乘来计算注意力权重,该权重与V相乘得到输出Z,
Figure BDA0004028800910000081
其中
Figure BDA0004028800910000082
是缩放因子,用于在点积的幅度变大时防止softmax函数收敛到具有极小梯度的区域,为了从不同的角度多样化地关注特征中的不同位置,网络采用多头自注意力机制来得到输出:
Z'=MultiHead(Q,K,V)=Concat(Z1,…,Zk)Wp
Figure BDA0004028800910000083
其中标h代表多头自注意力中头的个数,即使用了多少个自注意力,
Figure BDA0004028800910000084
Figure BDA0004028800910000085
代表着级联操作Concat(Z1,...,Zh)的投影矩阵,基于上述设计,每个头都会关注输入的不同部分,可以表示比简单加权平均值更复杂的函数,多头自注意力模块会输出与原输入序列尺寸相同的输出。
具体的,反向残差前馈网络包含3个卷积层,每个卷积层之后使用批标准化对特征进行规范,且在前两个卷积层之后使用激活函数并进行残差连接:
Figure BDA0004028800910000086
与常见的残差模块不同的是,反向残差前馈网络对特征的维度处理为先升维再降维的纺锤形结构,而ResNet则是先降维再升维的沙漏型结构,相比ResNet,反向残差前馈网络的参数更少,更有效率,可以减小网络的计算量。
具体的,偏移预测层是一个1×1卷积层和tanh激活函数,将输入特征图的通道映射为2,代表每个元素的x方向偏移和y方向偏移比例,假设对于其中一个元素的偏移预测比例为px,py,则最终每个元素的偏移ΔX,ΔY为:
Figure BDA0004028800910000087
具体的,偏移修正,在原始特征图的基础上,对图像中每个元素的坐标X,Y加上预测的偏移值ΔX与ΔY得到新的坐标X′,Y′,将原先坐标对应的值映射到新的坐标得到初步对齐的特征图,
Figure BDA0004028800910000088
其中⊕代表逐元素相加。
具体的,预训练,使用FLIRADAS数据集的配准子集FLIR-aligned作为输入,为可见光图像随机添加一定范围内x,y方向的偏移,并将偏移值进行8倍下采样获取偏移的真实值,最终使用均方损失函数(Mean Square Error Loss,MSELoss)进行偏移预测的监督。
具体的,在感兴趣区域对齐模块中,在得到候选框后,为了应对模态间特征的空间偏移现象,首先将候选框进行扩展,以获取更多的上下文信息,之后对于每种模态,使用感兴趣区域池化将候选框区域对应的特征映射到具有H×W大小的特征图中,然后将两种模态的感兴趣区域上下文特征级联并送入候选框回归模块,候选框回归模块由一个卷积层和两个全连接层组成,最后的全连接层后使用tanh作为激活函数,网络为每个候选框预测cx,cy,cw,ch∈[-1,1]四个偏移因子,则对于每个候选框:
Figure BDA0004028800910000091
△y=cy·thry,yn=y+Δy
Δw=cw·thrw,wn=w+Δw
△h=ch·thrh,hn=h+Δh
其中x,y,w,h代表候选框的中心点坐标以及宽和高,thrx,thry,thrw,thrh代表候选框的最大偏移范围,实验中作为超参数,xr,yr,wr,hr代表修正后的候选框中心点坐标及宽和高;
为了加速网络的训练,指导模块对候选框偏移的预测,使用欧氏距离计算两个模态特征中响应最大的点之间的距离作为损失函数。
经过上述两个模块的处理,网络可以得到经过对齐处理的两个模态的特征图,为了让网络自适应地偏重更受信赖的模态,使用对应的权重对特征进行重新加权,并将重加权后的特征通道级联后送入之后的检测头进行最终的分类和回归。
根据上述技术方案对本方案工作步骤进行总结梳理:本发明中,采用双流网络架构,骨干网络使用ResNet与特征金字塔,采取由粗到细的特征对齐策略,在仅使用一个模态标注的情况下对两个模态的特征进行空间对齐,并直接使用两个模态的特征进行后续的检测,已有标注的模态,通常为热红外为参考模态,对另一个模态,即偏移模态的特征图进行处理使之在空间位置上靠近参考模态,来达到模态间特征对齐的效果,加快检测速度,同时可以快速回归检测框。
本发明中未涉及部分均与现有技术相同或可采用现有技术加以实现。尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种基于特征对齐的图像融合目标检测方法,其特征在于,包括以下步骤:
S1、模态特征偏移预测:网络首先通过特征网络提取两个模态的特征,随后将之进行通道级联并送入特征偏移预测模块来为特征图的每个位置预测x方向y方向的偏移;
S2、级联候选框生成:将偏移反馈给偏移模态后得到初步修正的偏移模态特征图,与初始的参考模态特征图进行级联后送入区域生成网络,得到一系列候选框;
S3、候选框二次回归:感兴趣区域对齐模块对候选框部分偏移的特征进行进一步对齐,通过为每个候选框预测x、y、w、h四个维度的调整参数,对热红外模态的候选框进行二次回归;
S4、特征加权并级联:在进行二次回归后将微调过的偏移模态感兴趣区域池化特征与原本的参考模态感兴趣区域池化特征进行重新加权并级联,送入最后的检测头来得到分类置信度和目标的包围框坐标。
2.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法,其特征在于:在特征加权过程中,通过可见光图像中的不同光照值自适应地对两个模态的特征进行加权,使用一个光照感知子网络来对光照值进行预测,光照感知子网络由2个卷积层和3个全连接层组成,每个卷积层后接一个ReLU激活函数层以及一个2×2最大池化层来对特征进行激活和压缩,并在最后一层全连接层之后使用softmax激活函数。
3.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法,其特征在于:在特征加权过程中,为了减小计算量,将可见光图像进行8倍下采样后再作为输入,网络会输出2个预测值,分别是图像为白天的概率Cd和图像为夜晚的概率Cn,由于该任务是一个较为简单的二分类任务,因此Cd、Cn会接近0或者1,若将其直接作为各个模态的权重则会对其中一个模态产生抑制效果;
模态权重合理性调整,通过门函数对两个模态的权重进行重新调整:
Figure FDA0004028800900000021
其中Cd和Cn代表全连接层的软最大值输出,WR和WT分别代表可见光模态和热红外模态特征的权重,α是可学习的参数,初始值设为1,式中的偏置
Figure FDA0004028800900000022
为输出值创造了一个基准,最终的输出值在/>
Figure FDA0004028800900000023
左右进行取值,(Cd-Cn)代表取值变化的方向,当白天的概率Cd大于夜晚的概率Cn时,代表可见光所占权重应该更大,此时WR应该在/>
Figure FDA0004028800900000024
的基础上增加,反之减小,而α则决定了增减的幅度,这两个权重会运用在特征金字塔之后,与两个模态的多尺度特征进行相乘以达到特征重加权。
4.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法,其特征在于:特征偏移预测模块中是对特征图进行初步的偏移预测,使两个模态的特征图大体上对齐,首先将两个模态的特征图进行通道级联,然后通过多头自注意力模块提取跨模态特征,使用反向残差前馈网络增强模型的表达能力并减小计算量,最终利用偏移预测层为偏移模态特征图的每个元素预测x和y方向的偏移。
5.根据权利要求4所述的一种基于特征对齐的图像融合目标检测方法,其特征在于:多头自注意力模块,其视作是多个自注意力模块的级联,对于偏移模态的特征
Figure FDA0004028800900000025
及参考模态的特征;
将其进行通道级联以获取多模态特征
Figure FDA0004028800900000026
而后将特征图拉伸来获取特征序列/>
Figure FDA0004028800900000027
通过将输入序列IM投影到三个权重矩阵上,网络可以计算出一系列的查询Q(query),键K(key)和值V(value),/>
Figure FDA0004028800900000028
其中,
Figure FDA0004028800900000029
及/>
Figure FDA00040288009000000210
为权重矩阵,且DQ=DK=DV=2HW。之后,自注意力层使用Q及K之间的缩放点乘来计算注意力权重,该权重与V相乘得到输出Z,
Figure FDA0004028800900000031
其中
Figure FDA0004028800900000032
是缩放因子,用于在点积的幅度变大时防止softmax函数收敛到具有极小梯度的区域,为了从不同的角度多样化地关注特征中的不同位置,网络采用多头自注意力机制来得到输出:
Z′=MultiHead(Q,K,V)=Concat(Z1,…,Zk)Wp
Figure FDA0004028800900000033
其中标h代表多头自注意力中头的个数,即使用了多少个自注意力,
Figure FDA0004028800900000034
Figure FDA0004028800900000035
代表着级联操作Concat(Z1,...,Zh)的投影矩阵。
6.根据权利要求5所述的一种基于特征对齐的图像融合目标检测方法,其特征在于:反向残差前馈网络包含3个卷积层,每个卷积层之后使用批标准化对特征进行规范,且在前两个卷积层之后使用激活函数并进行残差连接:
Figure FDA0004028800900000036
7.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法,其特征在于:偏移预测层是一个1×1卷积层和tanh激活函数,将输入特征图的通道映射为2,代表每个元素的x方向偏移和y方向偏移比例。
8.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法,其特征在于:偏移修正,在原始特征图的基础上,对图像中每个元素的坐标X,Y加上预测的偏移值ΔX与ΔY得到新的坐标X′,Y′,将原先坐标对应的值映射到新的坐标得到初步对齐的特征图,
Figure FDA0004028800900000037
其中/>
Figure FDA0004028800900000038
代表逐元素相加。
9.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法,其特征在于:预训练,使用FLIRADAS数据集的配准子集FLIR-aligned作为输入,为可见光图像随机添加一定范围内x,y方向的偏移,并将偏移值进行8倍下采样获取偏移的真实值,最终使用均方损失函数进行偏移预测的监督。
10.根据权利要求1所述的一种基于特征对齐的图像融合目标检测方法,其特征在于:在感兴趣区域对齐模块中,在得到候选框后,为了应对模态间特征的空间偏移现象,首先将候选框进行扩展,以获取更多的上下文信息,之后对于每种模态,使用感兴趣区域池化将候选框区域对应的特征映射到具有H×W大小的特征图中,然后将两种模态的感兴趣区域上下文特征级联并送入候选框回归模块,候选框回归模块由一个卷积层和两个全连接层组成,最后的全连接层后使用tanh作为激活函数,网络为每个候选框预测cx,cy,cw,ch∈[-1,1]四个偏移因子,则对于每个候选框:
Figure FDA0004028800900000041
△y=cy·thry,yn=y+Δy
Δw=cw·thrw,wn=w+Δw
△h=ch·thrh,hn=h+Δh
其中x,y,w,h代表候选框的中心点坐标以及宽和高,thrx,thry,thrw,thrh代表候选框的最大偏移范围,实验中作为超参数,xr,yr,wr,hr代表修正后的候选框中心点坐标及宽和高。
CN202211722638.7A 2022-12-30 2022-12-30 一种基于特征对齐的图像融合目标检测方法 Pending CN116434019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211722638.7A CN116434019A (zh) 2022-12-30 2022-12-30 一种基于特征对齐的图像融合目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211722638.7A CN116434019A (zh) 2022-12-30 2022-12-30 一种基于特征对齐的图像融合目标检测方法

Publications (1)

Publication Number Publication Date
CN116434019A true CN116434019A (zh) 2023-07-14

Family

ID=87086122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211722638.7A Pending CN116434019A (zh) 2022-12-30 2022-12-30 一种基于特征对齐的图像融合目标检测方法

Country Status (1)

Country Link
CN (1) CN116434019A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117934309A (zh) * 2024-03-18 2024-04-26 昆明理工大学 基于模态字典和特征匹配的未配准红外可见图像融合方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117934309A (zh) * 2024-03-18 2024-04-26 昆明理工大学 基于模态字典和特征匹配的未配准红外可见图像融合方法
CN117934309B (zh) * 2024-03-18 2024-05-24 昆明理工大学 基于模态字典和特征匹配的未配准红外可见图像融合方法

Similar Documents

Publication Publication Date Title
WO2021244079A1 (zh) 智能家居环境中图像目标检测方法
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN112966659B (zh) 一种基于深度学习的视频图像小目标检测方法
CN112101113B (zh) 一种轻量化的无人机图像小目标检测方法
CN114419413A (zh) 感受野自适应的变电站绝缘子缺陷检测神经网络构建方法
CN116434019A (zh) 一种基于特征对齐的图像融合目标检测方法
CN116912804A (zh) 一种高效的无锚框3-d目标检测及跟踪方法及模型
CN115100136B (zh) 基于YOLOv4-tiny模型的工件类别与位姿估计方法
CN113901928A (zh) 一种基于动态超分辨率的目标检测方法、输电线路部件检测方法及系统
CN115171074A (zh) 一种基于多尺度yolo算法的车辆目标识别方法
CN110378407A (zh) 基于纹理参数和神经网络的电力设备图像识别方法和装置
CN116385401B (zh) 一种高精度纺织品缺陷可视化检测方法
CN113554036A (zh) 一种改进orb算法的特征点提取与匹配方法
CN117611963A (zh) 基于多尺度扩展残差网络的小目标检测方法及系统
CN116935178A (zh) 一种基于多尺度空洞注意力的跨模态图像融合方法
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
CN115641449A (zh) 一种用于机器人视觉的目标跟踪方法
CN115546594A (zh) 一种基于激光雷达和相机数据融合的实时目标检测方法
CN115294182A (zh) 一种基于双交叉注意力机制的高精度立体匹配方法
CN112232372B (zh) 一种基于opencl的单目立体匹配及加速的方法
Sun et al. Intelligent Site Detection Based on Improved YOLO Algorithm
Zhang et al. YOLOv5-GXT: A New PCB Surface Defect Detection Algorithm Based on YOLOv5
Xie et al. S2H-GNN: Learning Soft to Hard Feature Matching with Sparsified Graph Neural Network
CN117314906B (zh) 基于阵列分布信息引导的晶圆晶粒检测方法
Zhu et al. Rgb-d saliency detection based on cross-modal and multi-scale feature fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination