CN117528233A - 变焦倍数识别及目标重识别数据集制作方法 - Google Patents
变焦倍数识别及目标重识别数据集制作方法 Download PDFInfo
- Publication number
- CN117528233A CN117528233A CN202311279678.3A CN202311279678A CN117528233A CN 117528233 A CN117528233 A CN 117528233A CN 202311279678 A CN202311279678 A CN 202311279678A CN 117528233 A CN117528233 A CN 117528233A
- Authority
- CN
- China
- Prior art keywords
- zoom
- image
- target
- data
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 36
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 abstract description 11
- 230000011218 segmentation Effects 0.000 abstract description 3
- 238000003672 processing method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 101001116774 Homo sapiens Methionine-R-sulfoxide reductase B2, mitochondrial Proteins 0.000 description 1
- 102100024862 Methionine-R-sulfoxide reductase B2, mitochondrial Human genes 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/95—Computational photography systems, e.g. light-field imaging systems
Abstract
变焦倍数识别及目标重识别数据集制作方法,属于多模态遥感数据目标检测与识别技术领域。为了解决目前没有一种有效的基于机载同轴多模态光学传感器的数据处理方法能够快速且自动化地制作多模态目标重识别数据集的问题。本发明采用变焦倍数预测网络对对机载同轴多模态遥感数据进行处理,然后将不同尺寸切片框对应的变焦可见光图像和红外图像的特征向量分别与从单倍焦距的广角可见光图像中提取到的特征向量进行特征距离计算,距离最近的特征向量对应的框选尺寸与a的比值即为预测的变焦倍数;然后对多模态图像进行截取以实现焦距对齐和数据融合,在进行目标检测和目标分割,针对同一目标类的多模态目标图像进行标注,进而实现数据集的制作。
Description
技术领域
本发明属于多模态遥感数据目标检测与识别技术领域,具体涉及一种变焦倍数识别方法及一种目标重识别数据集制作方法。
背景技术
目标重识别技术旨在对不同传感器在不同时间、不同场景下拍摄到的同一目标进行身份识别。长期以来,基于机载遥感数据的地物信息提取和目标识别技术在民生和国防领域有着广泛的应用需求,例如天网工程中通过目标重识别技术可以对行人、车辆等重点目标进行跨摄像头的跟踪。然而在实际应用过程中,不同场景、不同光照等条件下获取到的目标数据质量存在较大差异。为了提高基于深度学习的目标重识别方法在不同应用条件下的有效性,通常需要通过针对性的训练,使深度学习模型适应特定场景的数据质量,保障其获得较高的重识别精度。因此如何快速、自动化得制作特定场景下的目标重识别数据集至关重要。
随着遥感技术的发展和应用需求的提高,多种类型传感器的集成技术逐渐成熟,多模态数据可以弥补单一模态数据的缺陷:例如,红外数据可以在光照不足的情况下获取环境信息;变焦可见光数据可以在远距离下清晰观察特定目标;广角可见光数据可以观察更广范围的场景。在实际应用过程中,根据场景条件、拍摄效果及任务需求,各种模态的数据都是有可能被单独使用的,那么目标重识别模型就需要具有单独处理任意模态数据的能力。因此需要制作多模态目标重识别数据集来对模型进行针对性训练。
综上,利用机载同轴多模态光学传感器快速得、自动化得制作多模态目标重识别数据集具有重要意义。
发明内容
本发明是为了解决目前没有一种有效的基于机载同轴多模态光学传感器的数据处理方法能够快速且自动化地制作多模态目标重识别数据集的问题,以及现有技术不能对没有变焦信息图像的变焦倍数进行有效识别的问题。
一种变焦倍数识别方法,包括以下步骤:
首先,获取机载同轴多模态遥感数据,所述多模态遥感数据对应的图像数据包括广角可见光图像Iwide、变焦可见光图像Izoom和红外图像数据Iinfrared;将广角可见光图像Iwide作为是单倍焦距图像;
然后采用变焦倍数预测网络ZPNet进行处理,变焦倍数预测网络ZPNet包括三分支编码器,即采用ZPNet的三分支编码器对输入数据进行特征提取,特征提取的过程包括以下步骤:
将广角可见光图像Iwide、变焦可见光图像Izoom分别输入各自对应的广角编码器和变焦编码器中,得到a×a×2048的特征F1 wide、F1 zoom,其中广角编码器和变焦编码器结构相同,编码器为基于ResNet50残差网络前四个阶段的改进网络,ResNet50残差网络前四个阶段即STAGE 0-STAGE 4,在STAGE 0-STAGE 4的每个STAGE之后插入MFA模块,即在ResNet50残差网络的前四个阶段间隔加入MFA模块;
MFA模块即多阶段特征聚合模块,MFA模块的处理过程如下:
MFA模块以与其前部相邻的ResNet50第n阶段块STAGE n的输入和输出共同作为其输入;第n个阶段块的输入为MFA模块提供低层次的特征映射第n个阶段块的输出为MFA模块提供高层次的特征映射/>其中C、W和H分别表示通道的个数、特征的宽度和高度;
首先,对特征fl和特征fh进行空间特征聚合:
利用三个1×1卷积层将特征转化为三个紧凑嵌入/> 然后,通过矩阵乘法运算及softmax来计算/>和/>在第一个数据维度的空间相似矩阵MC;再通过/>和MC的矩阵相乘恢复信道维数为Rm×n,然后应用一个BN层ωC对特征进行归一化;最后通过矩阵加法将fh与之相加得到输出/>
然后,对特征和特征fl进行通道特征聚合:
利用三个1×1卷积层将特征转化为三个紧凑嵌入/> 再通过矩阵乘法运算及softmax来计算/>和/>在第二个数据维度的通道相似矩阵:
再通过和MS的矩阵相乘来恢复信道维数为Rm×n,然后应用一个BN层ωS对特征进行归一化;最后通过矩阵加法将/>与之相加得到MFA的输出/>
基于广角编码器的结构,红外编码器在最后一个MFA模块之前额外添加一个DEE模块;红外图像数据Iinfrared输入其编码器分支后同样得到a×a×2048的特征所述DEE模块含有若干个并行的、结构相同的分支,DEE模块其中第i个分支的网络结构如下:
首先使用三个3×3的压缩卷积层将输入的特征f∈Rm×n的尺寸减少到自身大小的1/4,即f'1,f'2,f'3∈Rm/4×n,各自使用ReLU激活层FReLU进行处理,然后再使用三个1×1的扩展卷积层/>将特征f'1,f'2,f'3分别经过激活函数后的特征图的尺寸增加到其自身大小的四倍,即f"1,f"2,f"3∈Rm×n,再进行融合生成第i个分支的嵌入f"i;
最后将所有分支的输出f"i与DEE模块的输入特征f做平均池化mean-pooling,得到DEE模块的输出;
采用ZPNet的三分支编码器对输入数据进行特征提取后分别得到a×a×2048的特征;针对广角可见光图像的a×a×2048的特征,随机选择不同尺寸的切片框进行框选切片,将随机框选切片后的特征分别通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量;将变焦可见光图像对应的a×a×2048的特征通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量,同时将红外图像数据对应的a×a×2048的特征通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量;
最后将不同尺寸切片框对应的变焦可见光图像的特征向量和红外图像的特征向量分别与从单倍焦距的广角可见光图像中提取到的特征向量进行特征距离计算,距离最近的特征向量对应的框选尺寸与a的比值即为预测的变焦倍数。
进一步地,获取多模态遥感数据的过程中,针对视频数据进行预处理:
根据视频中重点关注目标的变化情况选取合适的抽帧间隔,对视频数据进行抽帧采样,得到图像数据。
进一步地,获取多模态遥感数据的过程中,所述的用变焦倍数预测网络ZPNet为预先训练好的网络,训练过程包括以下步骤:
步骤一:获取机载同轴多模态遥感数据并构建图像数据集,所述多模态遥感数据对应的图像数据集包括广角可见光图像、变焦可见光图像和红外图像数据;将广角可见光图像作为是单倍焦距图像;变焦可见光图像带有变焦倍数标签,红外图像数据带有变焦倍数标签;
基于图像数据集得到训练数据集;
步骤二:基于训练数据集M训练变焦倍数预测网络ZPNet:
首先,将训练数据集M中的广角可见光图像Iwide、变焦可见光图像Izoom和红外图像数据Iinfrared分别输入各自对应的广角编码器和变焦编码器中,得到a×a×2048的特征F1 wide、F1 zoom和F1 infrared;
根据训练数据集M中变焦可见光图像数据Izoom和红外图像数据Iinfrared的焦距标签信息,分别对特征F1 wide进行框选切片处理,得到N1×N1×2048的特征和N2×N2×2048的特征/>切片后的特征在信息层面与F1 zoom和/>所拍摄的范围保持一致;其中,a与N1的比值及a与N2的比值约等于变焦倍数;
然后,将特征F1 zoom以及/>分别通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量/>以及/>之后按对应关系组成特征对/>将特征对的两个特征分别输入分类器中,分类器输出独热向量,通过计算独热向量的特征相似性L1和分类结果的交叉熵L2作为损失函数约束网络参数更新;同时按对应关系组成特征对和/>将特征对的两个特征分别输入分类器中,分类器输出独热向量,也通过计算独热向量的特征相似性和分类结果的交叉熵作为损失函数约束网络参数更新;
将L1和L2的和作为网络总损失函数,并经过迭代最终完成训练得到训练好的ZPNet。
进一步地,特征的尺寸a×a×2048为32×32×2048。
基于机载同轴多模态传感器的目标重识别数据集制作方法,包括以下步骤:
S101、获取机载同轴多模态遥感数据;
S102、利用所述的一种变焦倍数识别方法预测变焦可见光图像和红外图像数据的变焦倍数;
S103、基于预测的变焦倍数对多模态图像进行截取以实现焦距对齐;
S104、针对焦距对齐后不同模态的图像,对多模态图像进行数据融合;
S105、对融合后的图像进行重识别任务中感兴趣目标检测;
S106、基于融合后的图像的检测结果,对融合图像目标检测结果中的感兴趣目标,在相同位置对融合前的多模态图像进行分割,每个目标获得广角可见光、变焦可见光、红外三种模态的目标图像;
S107、针对同一目标类的多模态目标图像进行标注,进而实现多模态目标重识别数据集制作。
进一步地,S107针对同一目标类的多模态目标图像进行标注的过程中,如果步骤S101中的输入为视频数据,那么对其进行抽帧,针对抽帧后的得到的图像在经过S102至S106的处理后得到的所有目标图像数据被视为一个图像簇,通过目标聚类技术,以图像簇为单位对多个感兴趣目标进行目标聚类,以区分各个目标,并将聚类结果中同一目标类的多模态目标图像标注为同一目标ID。
进一步地,S103所述基于预测的变焦倍数对多模态图像进行截取以实现焦距对齐的过程中通过图像裁剪工具包对不同模态图像的观察范围进行一致化,选择变焦倍数最高的模态数据作为锚点,将其他不同焦距的多模态数据向该锚点进行焦距对齐。
进一步地,所述的观察范围一致化是将不同变焦情况将图像调整到同一个视野范围内。
进一步地,S104所述对多模态图像进行数据融合的过程中,采用DDcGAN网络对变焦可见光图像Izoom与红外图像Iinfrared进行融合。
进一步地,S105中对融合后的图像进行重识别任务中感兴趣目标检测时采用YOLOv8网络。
有益效果:
本发明利用ZPNet网络对基于机载同轴多模态光学传感器的数据进行变焦倍数标定,从而为进行焦距对齐提供了基础,进而基于融合数据进行分割,从而有效的实现基于机载同轴多模态光学传感器的数据的分割和识别,因此本发明能够基于机载同轴多模态光学传感器的数据有效的对多模态目标重识别数据集进行自动化制作,不仅提高了效率,而且针对不同模态的光学传感器的数据具有标注一致的优点。
附图说明
图1为基于机载同轴多模态光学传感器的目标重识别数据集制作的流程图。
图2(a)为ZPNet网络训练过程的流程示意图;图2(b)为ZPNet网络测试过程(使用)的流程示意图。
图3为DDcGAN网络示意图。
图4为YOLOv8网络示意图。
图5为聚类流程示意图。
图6为整体流程结果示意图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,
本实施方式所述的基于机载同轴多模态光学传感器的目标重识别数据集制作方法,包括以下步骤:
步骤一:对多模态遥感数据进行预处理。
首先对获得的多模态遥感数据进行预处理,若输入为图像数据则不进行处理,若输入为视频数据,则根据视频中重点关注目标的变化情况选取合适的抽帧间隔,对视频数据进行抽帧采样,得到图像数据,将图像数据集分为训练数据集和测试数据集。
步骤二:训练变焦倍数预测网络ZPNet(Zoom Prediction Network),然后采用ZPNet方法对步骤一中得到的多模态图像数据实现变焦倍数预测。包括以下步骤:
(a)训练变焦倍数预测网络ZPNet:
将用于训练的数据集M中的图像输入ZPNet中,训练用于预测图像变焦倍数的深度学习网络ZPNet;
所述的训练数据集M包括广角可见光图像Iwide、变焦可见光图像Izoom和红外图像数据Iinfrared;其中,广角可见光图像Iwide认为是单倍焦距,变焦可见光图像Izoom的变焦范围为2~20倍,包含其变焦倍数标签,红外图像数据Iinfrared的变焦范围为2、4、8倍,包含其变焦倍数标签。
ZPNet的网络结构如图2(a)所示。ZPNet的处理过程如下:
首先,将训练数据集M中的广角可见光图像Iwide、变焦可见光图像Izoom分别输入各自对应的广角编码器和变焦编码器中,得到a×a×2048的特征F1 wide、F1 zoom,本实施方式中a×a×2048为32×32×2048;其中广角编码器和变焦编码器结构相同,编码器为基于ResNet50残差网络前四个阶段的改进网络,ResNet50残差网络前四个阶段即STAGE 0-STAGE 4,在STAGE 0-STAGE 4的每个STAGE之后插入MFA模块,即在ResNet50残差网络的前四个阶段间隔加入MFA模块;
MFA模块即多阶段特征聚合模块(multistage feature aggregation,MFA),其作用是聚合不同阶段的特征,以挖掘不同的通道和空间特征表示。MFA模块的网络结构如下:
MFA模块以与其前部相邻的ResNet50第n阶段块STAGE n的输入和输出共同作为其输入。具体来说,第n个阶段块的输入为MFA模块提供低层次的特征映射第n个阶段块的输出为MFA模块提供高层次的特征映射/>其中C、W和H分别表示通道的个数、特征的宽度和高度。
首先,对特征fl和特征fh进行空间特征聚合:
利用三个1×1卷积层将特征转化为三个紧凑嵌入/> 然后,通过矩阵乘法运算及softmax来计算/>和/>在第一个数据维度的空间相似矩阵MC∈Rmxm:
再通过和MC的矩阵相乘来恢复信道维数为Rm×n,实现了空间级的多阶段特征聚集;并应用一个BN层ωC将上述映射后的特征进行归一化;最后通过矩阵加法将fh与之相加得到输出,即:
然后,利用上述操作得到的特征和特征fl进行通道特征聚合:
利用三个1×1卷积层将特征转化为三个紧凑嵌入/> 然后,通过矩阵乘法运算及softmax来计算/>和/>在第二个数据维度的通道相似矩阵MS∈Rnxn:
再通过和MS的矩阵相乘来恢复信道维数为Rm×n,实现了通道级的多阶段特征聚集;并应用一个BN层ωS将上述映射后的特征进行归一化;最后通过矩阵加法将/>与之相加得到输出,最后得到MFA的输出如下:
值得注意的是,在上述基于ResNet50残差网络的编码器中,广角可见光分支与变焦可见光分支共享编码器网络结构,但不共享网络权重参数。
红外分支相较于其他两个分支,红外编码器在最后一个MFA模块之前额外添加一个DEE模块,通过生成虚拟嵌入的方法使网络更好的提取不同模态数据的特征以适应不同模态数据间的特征差异。红外图像数据Iinfrared输入其编码器分支后同样得到a×a×2048的特征F1 infrared。
所述DEE模块即多样嵌入扩展模块(diverse embedding expansion,DEE),含有若干个并行的、结构相同的分支,DEE模块其中第i个分支的网络结构如下:
首先使用三个3×3的压缩卷积层将特征f∈Rm×n的尺寸减少到其自身大小的1/4,即f'1,f'2,f'3∈Rm/4×n,各自使用ReLU激活层FReLU来提高DEE模块的非线性表示能力;然后再使用三个1×1的扩展卷积层/>将特征f'1,f'2,f'3分别经过激活函数后的特征图的尺寸增加到其自身大小的四倍,即f"1,f"2,f"3∈Rm×n,这样,生成的第i个分支的嵌入f"i可以写成:
最后将所有分支的输出f"i与DEE模块的原始输入f做平均池化mean-pooling,得到DEE模块的输出。
接下来,根据训练数据集M中变焦可见光图像数据Izoom和红外图像数据Iinfrared的焦距标签信息,分别对特征F1 wide进行框选切片处理,得到N1×N1×2048的特征和N2×N2×2048的特征/>切片后的特征在信息层面与F1 zoom和F1 infrared所拍摄的范围保持一致。其中,a与N1的比值及a与N2的比值约等于变焦倍数(这个约等是因为变焦倍数、a、N1、N2都是整数,无法保证a与N1以及a与N2做除后仍为整数);
结合图2中的广角和变焦图像进行说明,不同变焦倍数的图像观察范围是不同的。因此为了首先使其观测范围相同,需要对观测范围更广的图像(广角图像)进行框选切片,N1和N2对应图2(b)中所示的虚线回形框;
然后,将特征F1 zoom以及F1 infrared分别通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量/>以及/>然后按对应关系组成特征对/>(“-”表示对),将特征对的两个特征分别输入分类器中,分类器输出独热向量,通过计算独热向量的特征相似性L1和分类结果的交叉熵L2作为损失函数约束网络参数更新;同时按对应关系组成特征对和/>将特征对的两个特征分别输入分类器中,分类器输出独热向量,也通过计算独热向量的特征相似性和分类结果的交叉熵作为损失函数约束网络参数更新。
值得注意的是,在这里我们将同一时间拍摄的同轴多模态图像认为是同一类别,或者说,我们将拍摄相同场景、相同内容的多模态图像认为是同一类别。
网络总损失函数为L1和L2的和,并经过迭代最终完成训练得到训练好的ZPNet。
(b)在得到训练好的ZPNet之后,进行测试时,变焦预测与训练的过程有所不同,ZPNet的测试过程中,采用ZPNet方法对多模态图像数据实现变焦倍数预测:
首先,采用与训练过程相同结构的三分支编码器对输入数据进行特征提取,分别得到a×a×2048的特征。
然后针对广角可见光图像的a×a×2048的特征,随机选择不同尺寸的切片框进行框选切片,将随机框选切片后的特征分别通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量;将变焦可见光图像对应的a×a×2048的特征通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量,同时将红外图像数据对应的a×a×2048的特征通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量。
最后将不同尺寸切片框对应的变焦可见光图像的特征向量和红外图像的特征向量分别与从单倍焦距的广角可见光图像中提取到的特征向量进行特征距离计算,距离最近的特征向量对应的框选尺寸与a的比值即为预测的变焦倍数。
至此,使用ZPNet网络为多模态图像样本中的变焦可见光图像和红外图像数据确定变焦倍数。
步骤三:对多模态图像进行截取以实现焦距对齐。
通过图像裁剪工具包对不同模态图像的观察范围进行一致化,选择变焦倍数最高的模态数据作为锚点,将其他不同焦距的多模态数据向该锚点进行焦距对齐。观察范围一致化就是针对不同变焦情况将图像调整到同一个视野范围内,需要将视野范围较大的图像中多余的视野范围裁剪掉。因此,以变焦倍数最大(视野范围最小)的图像作为锚点,变焦倍数与之相差越大的图像被裁减掉的部分也越大,从而调整视野范围相同。
步骤四:对多模态图像进行数据融合。
焦距对齐后不同模态的数据仍然存在模态差异、分辨率差异、遮挡问题等,在特定场景下,基于单一模态的数据不能保证目标检测结果的准确性,因此进行基于自适应权重机制的多模态数据融合。由于焦距对齐后广角可见光图像Iwide和变焦可见光图像Izoom观察范围保持一致,因此只使用成像质量更高的变焦可见光图像Izoom与红外图像Iinfrared进行融合。
通过基于自适应权重机制的多模态数据融合方法根据不同模态数据质量自适应地调节不同模态数据在融合过程中所占权重,将变焦可见光图像Izoom和红外图像Iinfrared中所包含的信息进行融合。不同模态数据中的信息在最终融合后的图像中所占权重取决于图像的质量,例如在光线充足条件下,分辨率较高的变焦可见光图像Izoom可以提供较充分的信息,占有较高的权重;而当光线不足导致可见光图像无法准确捕捉目标信息时,红外图像Iinfrared可以有效弥补这一缺陷,则此时红外图像拥有较高的权重。
基于自适应权重机制的多模态数据融合的过程中采用DDcGAN网络方法对多模态数据进行融合。如图3所示,DDcGAN方法的最终目标是学习一个以v和i为条件的生成器网络G,然后由G生成融合图像f=G(v,i)。其开发了两个鉴别器网络Dv和Di。它们分别生成一个标量,该标量估计来自真实的数据而不是G的输入概率。不同之处在于Dv和Di的真实数据是有区别的,甚至是不同类型的。具体地,Dv的目的是区分生成图像f的梯度和可见光图像v的梯度,而Di被训练来区分原始低分辨率红外图像i和下采样的生成/融合图像ψf,其中是梯度算子,ψ是下采样算子。其中G的训练目标可以被公式化为最小化以下对抗目标:
通过生成器和两个判别器的对抗过程,两个分布之间的散度,即和/>之间的散度PψF和PI同时变小。/>是生成样本梯度的概率分布,PψF是下采样生成样本的概率分布。是可见光图像梯度的概率分布,PI是红外图像梯度的概率分布。
步骤五:对融合后的图像进行目标检测。
对融合后的图像进行重识别任务中感兴趣目标的检测。此过程中,采用YOLOv8方法对融合后的数据进行目标检测。如图4所示,YOLOv8依旧使用了PAN的思想,不过通过YOLOv8将YOLOv5中PAN-FPN上采样阶段中的CBS1*1的卷积结构删除,同时也将C3模块替换为了C2f模块。YOLOv8使用了Decoupled-Head,抛弃了以往的Anchor-Base,使用了Anchor-Free的思想。YOLOv8使用VFL Loss作为分类损失使用DFL Loss+CIOU Loss作为分类损失,抛弃了以往的IOU匹配或者单边比例的分配方式而是使用了Task-Aligned Assigner匹配方式。
步骤六:依据目标检测结果对多模态图像进行目标分割。
由于YOLOv8是大类分类,因此还需要更精细的身份识别。基于融合后的图像的检测结果,使用图像裁剪工具包对融合图像目标检测结果中的感兴趣目标,在相同位置对融合前的多模态图像进行分割,每个目标获得广角可见光、变焦可见光、红外三种模态的目标图像。
步骤七:通过目标聚类技术进行目标分类。
若步骤一中的输入为视频数据,那么对其进行抽帧后的得到的图像在经过步骤二至步骤六的操作后得到的所有目标图像数据被视为一个图像簇,例如抽帧后得到的图像为5帧,针对5帧中分割得到的所有那个得到的目标图像,作为一个图像簇。由于同一段视频中大概率会出现不止一个感兴趣目标,因此通过目标聚类技术,以图像簇为单位对多个感兴趣目标进行目标聚类,以区分各个目标,并将聚类结果中同一目标类的多模态目标图像标注为同一目标ID,多模态目标重识别数据集制作完成。
本实施方式中使用K-means聚类算法完成目标聚类,具体步骤如下:
首先确定一个k值,即我们希望将数据集经过聚类得到k个集合。然后从数据集中随机选择k个数据点作为质心。对数据集中每一个点,计算其与每一个质心的距离(如欧式距离),离哪个质心近,就划分到那个质心所属的集合。把所有数据归好集合后,一共有k个集合。然后重新计算每个集合的质心。如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛),我们可以认为聚类已经达到期望的结果,算法终止。而如果新质心和原质心距离变化很大,需要迭代3~5次。
同轴多模态机载光学传感器以大疆H20系列传感器为代表,其可以获取方向一致的变焦可见光数据、广角可见光数据以及红外数据等同轴多模态光学数据。重识别目标包含刚性目标和非刚性目标,刚性目标例如舰船、车辆;非刚性目标例如行人等等。整体流程结果示意图如图6所示。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (10)
1.一种变焦倍数识别方法,其特征在于,包括以下步骤:
首先,获取机载同轴多模态遥感数据,所述多模态遥感数据对应的图像数据包括广角可见光图像Iwide、变焦可见光图像Izoom和红外图像数据Iinfrared;将广角可见光图像Iwide作为是单倍焦距图像;
然后采用变焦倍数预测网络ZPNet进行处理,变焦倍数预测网络ZPNet包括三分支编码器,即采用ZPNet的三分支编码器对输入数据进行特征提取,特征提取的过程包括以下步骤:
将广角可见光图像Iwide、变焦可见光图像Izoom分别输入各自对应的广角编码器和变焦编码器中,得到a×a×2048的特征F1 wide、F1 zoom,其中广角编码器和变焦编码器结构相同,编码器为基于ResNet50残差网络前四个阶段的改进网络,ResNet50残差网络前四个阶段即STAGE 0-STAGE 4,在STAGE 0-STAGE 4的每个STAGE之后插入MFA模块,即在ResNet50残差网络的前四个阶段间隔加入MFA模块;
MFA模块即多阶段特征聚合模块,MFA模块的处理过程如下:
MFA模块以与其前部相邻的ResNet50第n阶段块STAGE n的输入和输出共同作为其输入;第n个阶段块的输入为MFA模块提供低层次的特征映射第n个阶段块的输出为MFA模块提供高层次的特征映射/>其中C、W和H分别表示通道的个数、特征的宽度和高度;
首先,对特征fl和特征fh进行空间特征聚合:
利用三个1×1卷积层将特征转化为三个紧凑嵌入/> 然后,通过矩阵乘法运算及softmax来计算/>和/>在第一个数据维度的空间相似矩阵MC;再通过/>和MC的矩阵相乘恢复信道维数为Rm×n,然后应用一个BN层ωC对特征进行归一化;最后通过矩阵加法将fh与之相加得到输出/>
然后,对特征和特征fl进行通道特征聚合:
利用三个1×1卷积层将特征转化为三个紧凑嵌入/> 再通过矩阵乘法运算及softmax来计算/>和/>在第二个数据维度的通道相似矩阵:
再通过和MS的矩阵相乘来恢复信道维数为Rm×n,然后应用一个BN层ωS对特征进行归一化;最后通过矩阵加法将/>与之相加得到MFA的输出/>
基于广角编码器的结构,红外编码器在最后一个MFA模块之前额外添加一个DEE模块;红外图像数据Iinfrared输入其编码器分支后同样得到a×a×2048的特征F1 infrared;所述DEE模块含有若干个并行的、结构相同的分支,DEE模块其中第i个分支的网络结构如下:
首先使用三个3×3的压缩卷积层将输入的特征f∈Rm×n的尺寸减少到自身大小的1/4,即f'1,f'2,f'3∈Rm/4×n,各自使用ReLU激活层FReLU进行处理,然后再使用三个1×1的扩展卷积层/>将特征f'1,f'2,f'3分别经过激活函数后的特征图的尺寸增加到其自身大小的四倍,即f"1,f"2,f"3∈Rm×n,再进行融合生成第i个分支的嵌入f"i;
最后将所有分支的输出f"i与DEE模块的输入特征f做平均池化mean-pooling,得到DEE模块的输出;
采用ZPNet的三分支编码器对输入数据进行特征提取后分别得到a×a×2048的特征;针对广角可见光图像的a×a×2048的特征,随机选择不同尺寸的切片框进行框选切片,将随机框选切片后的特征分别通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量;将变焦可见光图像对应的a×a×2048的特征通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量,同时将红外图像数据对应的a×a×2048的特征通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量;
最后将不同尺寸切片框对应的变焦可见光图像的特征向量和红外图像的特征向量分别与从单倍焦距的广角可见光图像中提取到的特征向量进行特征距离计算,距离最近的特征向量对应的框选尺寸与a的比值即为预测的变焦倍数。
2.根据权利要求1所述的一种变焦倍数识别方法,其特征在于,获取多模态遥感数据的过程中,针对视频数据进行预处理:
根据视频中重点关注目标的变化情况选取合适的抽帧间隔,对视频数据进行抽帧采样,得到图像数据。
3.根据权利要求1或2所述的一种变焦倍数识别方法,其特征在于,获取多模态遥感数据的过程中,所述的用变焦倍数预测网络ZPNet为预先训练好的网络,训练过程包括以下步骤:
步骤一:获取机载同轴多模态遥感数据并构建图像数据集,所述多模态遥感数据对应的图像数据集包括广角可见光图像、变焦可见光图像和红外图像数据;将广角可见光图像作为是单倍焦距图像;变焦可见光图像带有变焦倍数标签,红外图像数据带有变焦倍数标签;
基于图像数据集得到训练数据集;
步骤二:基于训练数据集M训练变焦倍数预测网络ZPNet:
首先,将训练数据集M中的广角可见光图像Iwide、变焦可见光图像Izoom和红外图像数据Iinfrared分别输入各自对应的广角编码器和变焦编码器中,得到a×a×2048的特征F1 wide、F1 zoom和F1 infrared;
根据训练数据集M中变焦可见光图像数据Izoom和红外图像数据Iinfrared的焦距标签信息,分别对特征F1 wide进行框选切片处理,得到N1×N1×2048的特征和N2×N2×2048的特征/>切片后的特征在信息层面与F1 zoom和F1 infrared所拍摄的范围保持一致;其中,a与N1的比值及a与N2的比值约等于变焦倍数;
然后,将特征F1 zoom以及F1 infrared分别通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量/>以及/>之后按对应关系组成特征对将特征对的两个特征分别输入分类器中,分类器输出独热向量,通过计算独热向量的特征相似性L1和分类结果的交叉熵L2作为损失函数约束网络参数更新;同时按对应关系组成特征对和/>将特征对的两个特征分别输入分类器中,分类器输出独热向量,也通过计算独热向量的特征相似性和分类结果的交叉熵作为损失函数约束网络参数更新;
将L1和L2的和作为网络总损失函数,并经过迭代最终完成训练得到训练好的ZPNet。
4.根据权利要求3所述的一种变焦倍数识别方法,其特征在于,特征的尺寸a×a×2048为32×32×2048。
5.基于机载同轴多模态传感器的目标重识别数据集制作方法,其特征在于,包括以下步骤:
S101、获取机载同轴多模态遥感数据;
S102、利用权利要求1至4任意一项所述的一种变焦倍数识别方法预测变焦可见光图像和红外图像数据的变焦倍数;
S103、基于预测的变焦倍数对多模态图像进行截取以实现焦距对齐;
S104、针对焦距对齐后不同模态的图像,对多模态图像进行数据融合;
S105、对融合后的图像进行重识别任务中感兴趣目标检测;
S106、基于融合后的图像的检测结果,对融合图像目标检测结果中的感兴趣目标,在相同位置对融合前的多模态图像进行分割,每个目标获得广角可见光、变焦可见光、红外三种模态的目标图像;
S107、针对同一目标类的多模态目标图像进行标注,进而实现多模态目标重识别数据集制作。
6.根据权利要求5所述的基于机载同轴多模态传感器的目标重识别数据集制作方法,其特征在于,S107针对同一目标类的多模态目标图像进行标注的过程中,如果步骤S101中的输入为视频数据,那么对其进行抽帧,针对抽帧后的得到的图像在经过S102至S106的处理后得到的所有目标图像数据被视为一个图像簇,通过目标聚类技术,以图像簇为单位对多个感兴趣目标进行目标聚类,以区分各个目标,并将聚类结果中同一目标类的多模态目标图像标注为同一目标ID。
7.根据权利要求5或6所述的基于机载同轴多模态传感器的目标重识别数据集制作方法,其特征在于,S103所述基于预测的变焦倍数对多模态图像进行截取以实现焦距对齐的过程中通过图像裁剪工具包对不同模态图像的观察范围进行一致化,选择变焦倍数最高的模态数据作为锚点,将其他不同焦距的多模态数据向该锚点进行焦距对齐。
8.根据权利要求7所述的基于机载同轴多模态传感器的目标重识别数据集制作方法,其特征在于,所述的观察范围一致化是将不同变焦情况将图像调整到同一个视野范围内。
9.根据权利要求8所述的基于机载同轴多模态传感器的目标重识别数据集制作方法,其特征在于,S104所述对多模态图像进行数据融合的过程中,采用DDcGAN网络对变焦可见光图像Izoom与红外图像Iinfrared进行融合。
10.根据权利要求9所述的基于机载同轴多模态传感器的目标重识别数据集制作方法,其特征在于,S105中对融合后的图像进行重识别任务中感兴趣目标检测时采用YOLOv8网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311279678.3A CN117528233B (zh) | 2023-09-28 | 变焦倍数识别及目标重识别数据集制作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311279678.3A CN117528233B (zh) | 2023-09-28 | 变焦倍数识别及目标重识别数据集制作方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117528233A true CN117528233A (zh) | 2024-02-06 |
CN117528233B CN117528233B (zh) | 2024-05-17 |
Family
ID=
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287962A (zh) * | 2019-05-20 | 2019-09-27 | 平安科技(深圳)有限公司 | 基于超对象信息的遥感图像目标提取方法、装置及介质 |
CN112651262A (zh) * | 2019-10-09 | 2021-04-13 | 四川大学 | 一种基于自适应行人对齐的跨模态行人重识别方法 |
WO2022001489A1 (zh) * | 2020-06-28 | 2022-01-06 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
CN114511878A (zh) * | 2022-01-05 | 2022-05-17 | 南京航空航天大学 | 一种基于多模态关系聚合的可见光红外行人重识别方法 |
CN114973031A (zh) * | 2022-05-25 | 2022-08-30 | 武汉大学 | 一种无人机视角下的可见光-热红外图像目标检测方法 |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
CN116452936A (zh) * | 2023-04-22 | 2023-07-18 | 安徽大学 | 融合光学和sar影像多模态信息的旋转目标检测方法 |
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287962A (zh) * | 2019-05-20 | 2019-09-27 | 平安科技(深圳)有限公司 | 基于超对象信息的遥感图像目标提取方法、装置及介质 |
CN112651262A (zh) * | 2019-10-09 | 2021-04-13 | 四川大学 | 一种基于自适应行人对齐的跨模态行人重识别方法 |
WO2022001489A1 (zh) * | 2020-06-28 | 2022-01-06 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
WO2023273290A1 (zh) * | 2021-06-29 | 2023-01-05 | 山东建筑大学 | 基于多特征信息捕捉和相关性分析的物品图像重识别方法 |
CN114511878A (zh) * | 2022-01-05 | 2022-05-17 | 南京航空航天大学 | 一种基于多模态关系聚合的可见光红外行人重识别方法 |
CN114973031A (zh) * | 2022-05-25 | 2022-08-30 | 武汉大学 | 一种无人机视角下的可见光-热红外图像目标检测方法 |
CN116452936A (zh) * | 2023-04-22 | 2023-07-18 | 安徽大学 | 融合光学和sar影像多模态信息的旋转目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107301383B (zh) | 一种基于Fast R-CNN的路面交通标志识别方法 | |
CN109840556B (zh) | 一种基于孪生网络的图像分类识别方法 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN110175615B (zh) | 模型训练方法、域自适应的视觉位置识别方法及装置 | |
CN109766873B (zh) | 一种混合可变形卷积的行人再识别方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
Mahmood et al. | Detection of vehicle with Infrared images in Road Traffic using YOLO computational mechanism | |
CN111310633A (zh) | 基于视频的并行时空注意力行人重识别方法 | |
CN115171165A (zh) | 全局特征与阶梯型局部特征融合的行人重识别方法及装置 | |
Wang et al. | MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
CN114332942A (zh) | 基于改进YOLOv3的夜间红外行人检测方法及系统 | |
Barroso-Laguna et al. | Scalenet: A shallow architecture for scale estimation | |
CN114170526A (zh) | 基于轻量化网络的遥感影像多尺度目标检测识别方法 | |
CN113111797A (zh) | 一种结合自编码器与视角变换模型的跨视角步态识别方法 | |
CN117528233B (zh) | 变焦倍数识别及目标重识别数据集制作方法 | |
CN109740405B (zh) | 一种非对齐相似车辆前窗差异信息检测方法 | |
CN117528233A (zh) | 变焦倍数识别及目标重识别数据集制作方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN114418003B (zh) | 基于注意力机制及多尺寸信息提取的双图像识别分类方法 | |
CN111144233B (zh) | 基于toim损失函数的行人重识别方法 | |
CN110826432B (zh) | 一种基于航空图片的输电线识别方法 | |
CN113537032A (zh) | 一种基于图片分块丢弃的分集多支路行人重识别方法 | |
CN112767427A (zh) | 一种补偿边缘信息的低分辨率图像识别算法 | |
CN110070110A (zh) | 一种自适应阈值图像匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |