CN117528233A

CN117528233A - 变焦倍数识别及目标重识别数据集制作方法

Info

Publication number: CN117528233A
Application number: CN202311279678.3A
Authority: CN
Inventors: 侯伟; 吴敌; 吴浩萌; 王文轩; 李慧子; 赵辉; 张斯元; 李宗鑫
Original assignee: Harbin Space Star Data System Technology Co ltd
Current assignee: Harbin Space Star Data System Technology Co ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-02-06
Anticipated expiration: 2043-09-28

Abstract

变焦倍数识别及目标重识别数据集制作方法，属于多模态遥感数据目标检测与识别技术领域。为了解决目前没有一种有效的基于机载同轴多模态光学传感器的数据处理方法能够快速且自动化地制作多模态目标重识别数据集的问题。本发明采用变焦倍数预测网络对对机载同轴多模态遥感数据进行处理，然后将不同尺寸切片框对应的变焦可见光图像和红外图像的特征向量分别与从单倍焦距的广角可见光图像中提取到的特征向量进行特征距离计算，距离最近的特征向量对应的框选尺寸与a的比值即为预测的变焦倍数；然后对多模态图像进行截取以实现焦距对齐和数据融合，在进行目标检测和目标分割，针对同一目标类的多模态目标图像进行标注，进而实现数据集的制作。

Description

变焦倍数识别及目标重识别数据集制作方法

技术领域

本发明属于多模态遥感数据目标检测与识别技术领域，具体涉及一种变焦倍数识别方法及一种目标重识别数据集制作方法。

背景技术

目标重识别技术旨在对不同传感器在不同时间、不同场景下拍摄到的同一目标进行身份识别。长期以来，基于机载遥感数据的地物信息提取和目标识别技术在民生和国防领域有着广泛的应用需求，例如天网工程中通过目标重识别技术可以对行人、车辆等重点目标进行跨摄像头的跟踪。然而在实际应用过程中，不同场景、不同光照等条件下获取到的目标数据质量存在较大差异。为了提高基于深度学习的目标重识别方法在不同应用条件下的有效性，通常需要通过针对性的训练，使深度学习模型适应特定场景的数据质量，保障其获得较高的重识别精度。因此如何快速、自动化得制作特定场景下的目标重识别数据集至关重要。

随着遥感技术的发展和应用需求的提高，多种类型传感器的集成技术逐渐成熟，多模态数据可以弥补单一模态数据的缺陷：例如，红外数据可以在光照不足的情况下获取环境信息；变焦可见光数据可以在远距离下清晰观察特定目标；广角可见光数据可以观察更广范围的场景。在实际应用过程中，根据场景条件、拍摄效果及任务需求，各种模态的数据都是有可能被单独使用的，那么目标重识别模型就需要具有单独处理任意模态数据的能力。因此需要制作多模态目标重识别数据集来对模型进行针对性训练。

综上，利用机载同轴多模态光学传感器快速得、自动化得制作多模态目标重识别数据集具有重要意义。

发明内容

本发明是为了解决目前没有一种有效的基于机载同轴多模态光学传感器的数据处理方法能够快速且自动化地制作多模态目标重识别数据集的问题，以及现有技术不能对没有变焦信息图像的变焦倍数进行有效识别的问题。

一种变焦倍数识别方法，包括以下步骤：

首先，获取机载同轴多模态遥感数据，所述多模态遥感数据对应的图像数据包括广角可见光图像I^wide、变焦可见光图像I^zoom和红外图像数据I^infrared；将广角可见光图像I^wide作为是单倍焦距图像；

然后采用变焦倍数预测网络ZPNet进行处理，变焦倍数预测网络ZPNet包括三分支编码器，即采用ZPNet的三分支编码器对输入数据进行特征提取，特征提取的过程包括以下步骤：

将广角可见光图像I^wide、变焦可见光图像I^zoom分别输入各自对应的广角编码器和变焦编码器中，得到a×a×2048的特征F₁ ^wide、F₁ ^zoom，其中广角编码器和变焦编码器结构相同，编码器为基于ResNet50残差网络前四个阶段的改进网络，ResNet50残差网络前四个阶段即STAGE 0-STAGE 4，在STAGE 0-STAGE 4的每个STAGE之后插入MFA模块，即在ResNet50残差网络的前四个阶段间隔加入MFA模块；

MFA模块即多阶段特征聚合模块，MFA模块的处理过程如下：

MFA模块以与其前部相邻的ResNet50第n阶段块STAGE n的输入和输出共同作为其输入；第n个阶段块的输入为MFA模块提供低层次的特征映射第n个阶段块的输出为MFA模块提供高层次的特征映射/>其中C、W和H分别表示通道的个数、特征的宽度和高度；

首先，对特征f_l和特征f_h进行空间特征聚合：

利用三个1×1卷积层将特征转化为三个紧凑嵌入/> 然后，通过矩阵乘法运算及softmax来计算/>和/>在第一个数据维度的空间相似矩阵M^C；再通过/>和M^C的矩阵相乘恢复信道维数为R^m×n，然后应用一个BN层ω^C对特征进行归一化；最后通过矩阵加法将f_h与之相加得到输出/>

然后，对特征和特征f_l进行通道特征聚合：

利用三个1×1卷积层将特征转化为三个紧凑嵌入/> 再通过矩阵乘法运算及softmax来计算/>和/>在第二个数据维度的通道相似矩阵：

再通过和M^S的矩阵相乘来恢复信道维数为R^m×n，然后应用一个BN层ω^S对特征进行归一化；最后通过矩阵加法将/>与之相加得到MFA的输出/>

基于广角编码器的结构，红外编码器在最后一个MFA模块之前额外添加一个DEE模块；红外图像数据I^infrared输入其编码器分支后同样得到a×a×2048的特征所述DEE模块含有若干个并行的、结构相同的分支，DEE模块其中第i个分支的网络结构如下：

首先使用三个3×3的压缩卷积层将输入的特征f∈R^m×n的尺寸减少到自身大小的1/4，即f'₁,f'₂,f'₃∈R^m/4×n，各自使用ReLU激活层F_ReLU进行处理，然后再使用三个1×1的扩展卷积层/>将特征f'₁,f'₂,f'₃分别经过激活函数后的特征图的尺寸增加到其自身大小的四倍，即f"₁,f"₂,f"₃∈R^m×n，再进行融合生成第i个分支的嵌入f"_i；

最后将所有分支的输出f"_i与DEE模块的输入特征f做平均池化mean-pooling，得到DEE模块的输出；

采用ZPNet的三分支编码器对输入数据进行特征提取后分别得到a×a×2048的特征；针对广角可见光图像的a×a×2048的特征，随机选择不同尺寸的切片框进行框选切片，将随机框选切片后的特征分别通过卷积块、BN块和平均池化块，得到1×1×2048的特征向量；将变焦可见光图像对应的a×a×2048的特征通过卷积块、BN块和平均池化块，得到1×1×2048的特征向量，同时将红外图像数据对应的a×a×2048的特征通过卷积块、BN块和平均池化块，得到1×1×2048的特征向量；

最后将不同尺寸切片框对应的变焦可见光图像的特征向量和红外图像的特征向量分别与从单倍焦距的广角可见光图像中提取到的特征向量进行特征距离计算，距离最近的特征向量对应的框选尺寸与a的比值即为预测的变焦倍数。

进一步地，获取多模态遥感数据的过程中，针对视频数据进行预处理：

根据视频中重点关注目标的变化情况选取合适的抽帧间隔，对视频数据进行抽帧采样，得到图像数据。

进一步地，获取多模态遥感数据的过程中，所述的用变焦倍数预测网络ZPNet为预先训练好的网络，训练过程包括以下步骤：

步骤一：获取机载同轴多模态遥感数据并构建图像数据集，所述多模态遥感数据对应的图像数据集包括广角可见光图像、变焦可见光图像和红外图像数据；将广角可见光图像作为是单倍焦距图像；变焦可见光图像带有变焦倍数标签，红外图像数据带有变焦倍数标签；

基于图像数据集得到训练数据集；

步骤二：基于训练数据集M训练变焦倍数预测网络ZPNet：

首先，将训练数据集M中的广角可见光图像I^wide、变焦可见光图像I^zoom和红外图像数据I^infrared分别输入各自对应的广角编码器和变焦编码器中，得到a×a×2048的特征F₁ ^wide、F₁ ^zoom和F₁ ^infrared；

根据训练数据集M中变焦可见光图像数据I^zoom和红外图像数据I^infrared的焦距标签信息，分别对特征F₁ ^wide进行框选切片处理，得到N₁×N₁×2048的特征和N₂×N₂×2048的特征/>切片后的特征在信息层面与F₁ ^zoom和/>所拍摄的范围保持一致；其中，a与N₁的比值及a与N2的比值约等于变焦倍数；

然后，将特征F₁ ^zoom以及/>分别通过卷积块、BN块和平均池化块，得到1×1×2048的特征向量/>以及/>之后按对应关系组成特征对/>将特征对的两个特征分别输入分类器中，分类器输出独热向量，通过计算独热向量的特征相似性L₁和分类结果的交叉熵L₂作为损失函数约束网络参数更新；同时按对应关系组成特征对和/>将特征对的两个特征分别输入分类器中，分类器输出独热向量，也通过计算独热向量的特征相似性和分类结果的交叉熵作为损失函数约束网络参数更新；

将L₁和L₂的和作为网络总损失函数，并经过迭代最终完成训练得到训练好的ZPNet。

进一步地，特征的尺寸a×a×2048为32×32×2048。

基于机载同轴多模态传感器的目标重识别数据集制作方法，包括以下步骤：

S101、获取机载同轴多模态遥感数据；

S102、利用所述的一种变焦倍数识别方法预测变焦可见光图像和红外图像数据的变焦倍数；

S103、基于预测的变焦倍数对多模态图像进行截取以实现焦距对齐；

S104、针对焦距对齐后不同模态的图像，对多模态图像进行数据融合；

S105、对融合后的图像进行重识别任务中感兴趣目标检测；

S106、基于融合后的图像的检测结果，对融合图像目标检测结果中的感兴趣目标，在相同位置对融合前的多模态图像进行分割，每个目标获得广角可见光、变焦可见光、红外三种模态的目标图像；

S107、针对同一目标类的多模态目标图像进行标注，进而实现多模态目标重识别数据集制作。

进一步地，S107针对同一目标类的多模态目标图像进行标注的过程中，如果步骤S101中的输入为视频数据，那么对其进行抽帧，针对抽帧后的得到的图像在经过S102至S106的处理后得到的所有目标图像数据被视为一个图像簇，通过目标聚类技术，以图像簇为单位对多个感兴趣目标进行目标聚类，以区分各个目标，并将聚类结果中同一目标类的多模态目标图像标注为同一目标ID。

进一步地，S103所述基于预测的变焦倍数对多模态图像进行截取以实现焦距对齐的过程中通过图像裁剪工具包对不同模态图像的观察范围进行一致化，选择变焦倍数最高的模态数据作为锚点，将其他不同焦距的多模态数据向该锚点进行焦距对齐。

进一步地，所述的观察范围一致化是将不同变焦情况将图像调整到同一个视野范围内。

进一步地，S104所述对多模态图像进行数据融合的过程中，采用DDcGAN网络对变焦可见光图像I^zoom与红外图像I^infrared进行融合。

进一步地，S105中对融合后的图像进行重识别任务中感兴趣目标检测时采用YOLOv8网络。

有益效果：

本发明利用ZPNet网络对基于机载同轴多模态光学传感器的数据进行变焦倍数标定，从而为进行焦距对齐提供了基础，进而基于融合数据进行分割，从而有效的实现基于机载同轴多模态光学传感器的数据的分割和识别，因此本发明能够基于机载同轴多模态光学传感器的数据有效的对多模态目标重识别数据集进行自动化制作，不仅提高了效率，而且针对不同模态的光学传感器的数据具有标注一致的优点。

附图说明

图1为基于机载同轴多模态光学传感器的目标重识别数据集制作的流程图。

图2(a)为ZPNet网络训练过程的流程示意图；图2(b)为ZPNet网络测试过程(使用)的流程示意图。

图3为DDcGAN网络示意图。

图4为YOLOv8网络示意图。

图5为聚类流程示意图。

图6为整体流程结果示意图。

具体实施方式

具体实施方式一：结合图1说明本实施方式，

本实施方式所述的基于机载同轴多模态光学传感器的目标重识别数据集制作方法，包括以下步骤：

步骤一：对多模态遥感数据进行预处理。

首先对获得的多模态遥感数据进行预处理，若输入为图像数据则不进行处理，若输入为视频数据，则根据视频中重点关注目标的变化情况选取合适的抽帧间隔，对视频数据进行抽帧采样，得到图像数据，将图像数据集分为训练数据集和测试数据集。

步骤二：训练变焦倍数预测网络ZPNet(Zoom Prediction Network)，然后采用ZPNet方法对步骤一中得到的多模态图像数据实现变焦倍数预测。包括以下步骤：

(a)训练变焦倍数预测网络ZPNet：

将用于训练的数据集M中的图像输入ZPNet中，训练用于预测图像变焦倍数的深度学习网络ZPNet；

所述的训练数据集M包括广角可见光图像I^wide、变焦可见光图像I^zoom和红外图像数据I^infrared；其中，广角可见光图像I^wide认为是单倍焦距，变焦可见光图像I^zoom的变焦范围为2～20倍，包含其变焦倍数标签，红外图像数据I^infrared的变焦范围为2、4、8倍，包含其变焦倍数标签。

ZPNet的网络结构如图2(a)所示。ZPNet的处理过程如下：

首先，将训练数据集M中的广角可见光图像I^wide、变焦可见光图像I^zoom分别输入各自对应的广角编码器和变焦编码器中，得到a×a×2048的特征F₁ ^wide、F₁ ^zoom，本实施方式中a×a×2048为32×32×2048；其中广角编码器和变焦编码器结构相同，编码器为基于ResNet50残差网络前四个阶段的改进网络，ResNet50残差网络前四个阶段即STAGE 0-STAGE 4，在STAGE 0-STAGE 4的每个STAGE之后插入MFA模块，即在ResNet50残差网络的前四个阶段间隔加入MFA模块；

MFA模块即多阶段特征聚合模块(multistage feature aggregation，MFA)，其作用是聚合不同阶段的特征，以挖掘不同的通道和空间特征表示。MFA模块的网络结构如下：

MFA模块以与其前部相邻的ResNet50第n阶段块STAGE n的输入和输出共同作为其输入。具体来说，第n个阶段块的输入为MFA模块提供低层次的特征映射第n个阶段块的输出为MFA模块提供高层次的特征映射/>其中C、W和H分别表示通道的个数、特征的宽度和高度。

首先，对特征f_l和特征f_h进行空间特征聚合：

利用三个1×1卷积层将特征转化为三个紧凑嵌入/> 然后，通过矩阵乘法运算及softmax来计算/>和/>在第一个数据维度的空间相似矩阵M^C∈R^mxm：

再通过和M^C的矩阵相乘来恢复信道维数为R^m×n，实现了空间级的多阶段特征聚集；并应用一个BN层ω^C将上述映射后的特征进行归一化；最后通过矩阵加法将f_h与之相加得到输出，即：

然后，利用上述操作得到的特征和特征f_l进行通道特征聚合：

利用三个1×1卷积层将特征转化为三个紧凑嵌入/> 然后，通过矩阵乘法运算及softmax来计算/>和/>在第二个数据维度的通道相似矩阵M^S∈R^nxn：

再通过和M^S的矩阵相乘来恢复信道维数为R^m×n，实现了通道级的多阶段特征聚集；并应用一个BN层ω^S将上述映射后的特征进行归一化；最后通过矩阵加法将/>与之相加得到输出，最后得到MFA的输出如下：

值得注意的是，在上述基于ResNet50残差网络的编码器中，广角可见光分支与变焦可见光分支共享编码器网络结构，但不共享网络权重参数。

红外分支相较于其他两个分支，红外编码器在最后一个MFA模块之前额外添加一个DEE模块，通过生成虚拟嵌入的方法使网络更好的提取不同模态数据的特征以适应不同模态数据间的特征差异。红外图像数据I^infrared输入其编码器分支后同样得到a×a×2048的特征F₁ ^infrared。

所述DEE模块即多样嵌入扩展模块(diverse embedding expansion,DEE)，含有若干个并行的、结构相同的分支，DEE模块其中第i个分支的网络结构如下：

首先使用三个3×3的压缩卷积层将特征f∈R^m×n的尺寸减少到其自身大小的1/4，即f'₁,f'₂,f'₃∈R^m/4×n，各自使用ReLU激活层F_ReLU来提高DEE模块的非线性表示能力；然后再使用三个1×1的扩展卷积层/>将特征f'₁,f'₂,f'₃分别经过激活函数后的特征图的尺寸增加到其自身大小的四倍，即f"₁,f"₂,f"₃∈R^m×n，这样，生成的第i个分支的嵌入f"_i可以写成：

最后将所有分支的输出f"_i与DEE模块的原始输入f做平均池化mean-pooling，得到DEE模块的输出。

接下来，根据训练数据集M中变焦可见光图像数据I^zoom和红外图像数据I^infrared的焦距标签信息，分别对特征F₁ ^wide进行框选切片处理，得到N₁×N₁×2048的特征和N₂×N₂×2048的特征/>切片后的特征在信息层面与F₁ ^zoom和F₁ ^infrared所拍摄的范围保持一致。其中，a与N₁的比值及a与N2的比值约等于变焦倍数(这个约等是因为变焦倍数、a、N₁、N₂都是整数，无法保证a与N₁以及a与N₂做除后仍为整数)；

结合图2中的广角和变焦图像进行说明，不同变焦倍数的图像观察范围是不同的。因此为了首先使其观测范围相同，需要对观测范围更广的图像(广角图像)进行框选切片，N₁和N₂对应图2(b)中所示的虚线回形框；

然后，将特征F₁ ^zoom以及F₁ ^infrared分别通过卷积块、BN块和平均池化块，得到1×1×2048的特征向量/>以及/>然后按对应关系组成特征对/>(“-”表示对)，将特征对的两个特征分别输入分类器中，分类器输出独热向量，通过计算独热向量的特征相似性L₁和分类结果的交叉熵L₂作为损失函数约束网络参数更新；同时按对应关系组成特征对和/>将特征对的两个特征分别输入分类器中，分类器输出独热向量，也通过计算独热向量的特征相似性和分类结果的交叉熵作为损失函数约束网络参数更新。

值得注意的是，在这里我们将同一时间拍摄的同轴多模态图像认为是同一类别，或者说，我们将拍摄相同场景、相同内容的多模态图像认为是同一类别。

网络总损失函数为L₁和L₂的和，并经过迭代最终完成训练得到训练好的ZPNet。

(b)在得到训练好的ZPNet之后，进行测试时，变焦预测与训练的过程有所不同，ZPNet的测试过程中，采用ZPNet方法对多模态图像数据实现变焦倍数预测：

首先，采用与训练过程相同结构的三分支编码器对输入数据进行特征提取，分别得到a×a×2048的特征。

然后针对广角可见光图像的a×a×2048的特征，随机选择不同尺寸的切片框进行框选切片，将随机框选切片后的特征分别通过卷积块、BN块和平均池化块，得到1×1×2048的特征向量；将变焦可见光图像对应的a×a×2048的特征通过卷积块、BN块和平均池化块，得到1×1×2048的特征向量，同时将红外图像数据对应的a×a×2048的特征通过卷积块、BN块和平均池化块，得到1×1×2048的特征向量。

至此，使用ZPNet网络为多模态图像样本中的变焦可见光图像和红外图像数据确定变焦倍数。

步骤三：对多模态图像进行截取以实现焦距对齐。

通过图像裁剪工具包对不同模态图像的观察范围进行一致化，选择变焦倍数最高的模态数据作为锚点，将其他不同焦距的多模态数据向该锚点进行焦距对齐。观察范围一致化就是针对不同变焦情况将图像调整到同一个视野范围内，需要将视野范围较大的图像中多余的视野范围裁剪掉。因此，以变焦倍数最大(视野范围最小)的图像作为锚点，变焦倍数与之相差越大的图像被裁减掉的部分也越大，从而调整视野范围相同。

步骤四：对多模态图像进行数据融合。

焦距对齐后不同模态的数据仍然存在模态差异、分辨率差异、遮挡问题等，在特定场景下，基于单一模态的数据不能保证目标检测结果的准确性，因此进行基于自适应权重机制的多模态数据融合。由于焦距对齐后广角可见光图像I^wide和变焦可见光图像I^zoom观察范围保持一致，因此只使用成像质量更高的变焦可见光图像I^zoom与红外图像I^infrared进行融合。

通过基于自适应权重机制的多模态数据融合方法根据不同模态数据质量自适应地调节不同模态数据在融合过程中所占权重，将变焦可见光图像I^zoom和红外图像I^infrared中所包含的信息进行融合。不同模态数据中的信息在最终融合后的图像中所占权重取决于图像的质量，例如在光线充足条件下，分辨率较高的变焦可见光图像I^zoom可以提供较充分的信息，占有较高的权重；而当光线不足导致可见光图像无法准确捕捉目标信息时，红外图像I^infrared可以有效弥补这一缺陷，则此时红外图像拥有较高的权重。

基于自适应权重机制的多模态数据融合的过程中采用DDcGAN网络方法对多模态数据进行融合。如图3所示，DDcGAN方法的最终目标是学习一个以v和i为条件的生成器网络G，然后由G生成融合图像f＝G(v,i)。其开发了两个鉴别器网络D_v和D_i。它们分别生成一个标量，该标量估计来自真实的数据而不是G的输入概率。不同之处在于D_v和D_i的真实数据是有区别的，甚至是不同类型的。具体地，D_v的目的是区分生成图像f的梯度和可见光图像v的梯度，而D_i被训练来区分原始低分辨率红外图像i和下采样的生成/融合图像ψf，其中是梯度算子，ψ是下采样算子。其中G的训练目标可以被公式化为最小化以下对抗目标：

通过生成器和两个判别器的对抗过程，两个分布之间的散度，即和/>之间的散度P_ψF和P_I同时变小。/>是生成样本梯度的概率分布，P_ψF是下采样生成样本的概率分布。是可见光图像梯度的概率分布，P_I是红外图像梯度的概率分布。

步骤五：对融合后的图像进行目标检测。

对融合后的图像进行重识别任务中感兴趣目标的检测。此过程中，采用YOLOv8方法对融合后的数据进行目标检测。如图4所示，YOLOv8依旧使用了PAN的思想，不过通过YOLOv8将YOLOv5中PAN-FPN上采样阶段中的CBS1*1的卷积结构删除，同时也将C3模块替换为了C2f模块。YOLOv8使用了Decoupled-Head，抛弃了以往的Anchor-Base，使用了Anchor-Free的思想。YOLOv8使用VFL Loss作为分类损失使用DFL Loss+CIOU Loss作为分类损失，抛弃了以往的IOU匹配或者单边比例的分配方式而是使用了Task-Aligned Assigner匹配方式。

步骤六：依据目标检测结果对多模态图像进行目标分割。

由于YOLOv8是大类分类，因此还需要更精细的身份识别。基于融合后的图像的检测结果，使用图像裁剪工具包对融合图像目标检测结果中的感兴趣目标，在相同位置对融合前的多模态图像进行分割，每个目标获得广角可见光、变焦可见光、红外三种模态的目标图像。

步骤七：通过目标聚类技术进行目标分类。

若步骤一中的输入为视频数据，那么对其进行抽帧后的得到的图像在经过步骤二至步骤六的操作后得到的所有目标图像数据被视为一个图像簇，例如抽帧后得到的图像为5帧，针对5帧中分割得到的所有那个得到的目标图像，作为一个图像簇。由于同一段视频中大概率会出现不止一个感兴趣目标，因此通过目标聚类技术，以图像簇为单位对多个感兴趣目标进行目标聚类，以区分各个目标，并将聚类结果中同一目标类的多模态目标图像标注为同一目标ID，多模态目标重识别数据集制作完成。

本实施方式中使用K-means聚类算法完成目标聚类，具体步骤如下：

首先确定一个k值，即我们希望将数据集经过聚类得到k个集合。然后从数据集中随机选择k个数据点作为质心。对数据集中每一个点，计算其与每一个质心的距离(如欧式距离)，离哪个质心近，就划分到那个质心所属的集合。把所有数据归好集合后，一共有k个集合。然后重新计算每个集合的质心。如果新计算出来的质心和原来的质心之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大，趋于稳定，或者说收敛)，我们可以认为聚类已经达到期望的结果，算法终止。而如果新质心和原质心距离变化很大，需要迭代3～5次。

同轴多模态机载光学传感器以大疆H20系列传感器为代表，其可以获取方向一致的变焦可见光数据、广角可见光数据以及红外数据等同轴多模态光学数据。重识别目标包含刚性目标和非刚性目标，刚性目标例如舰船、车辆；非刚性目标例如行人等等。整体流程结果示意图如图6所示。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种变焦倍数识别方法，其特征在于，包括以下步骤：

MFA模块即多阶段特征聚合模块，MFA模块的处理过程如下：

首先，对特征f_l和特征f_h进行空间特征聚合：

然后，对特征和特征f_l进行通道特征聚合：

基于广角编码器的结构，红外编码器在最后一个MFA模块之前额外添加一个DEE模块；红外图像数据I^infrared输入其编码器分支后同样得到a×a×2048的特征F₁ ^infrared；所述DEE模块含有若干个并行的、结构相同的分支，DEE模块其中第i个分支的网络结构如下：

2.根据权利要求1所述的一种变焦倍数识别方法，其特征在于，获取多模态遥感数据的过程中，针对视频数据进行预处理：

3.根据权利要求1或2所述的一种变焦倍数识别方法，其特征在于，获取多模态遥感数据的过程中，所述的用变焦倍数预测网络ZPNet为预先训练好的网络，训练过程包括以下步骤：

基于图像数据集得到训练数据集；

步骤二：基于训练数据集M训练变焦倍数预测网络ZPNet：

根据训练数据集M中变焦可见光图像数据I^zoom和红外图像数据I^infrared的焦距标签信息，分别对特征F₁ ^wide进行框选切片处理，得到N₁×N₁×2048的特征和N₂×N₂×2048的特征/>切片后的特征在信息层面与F₁ ^zoom和F₁ ^infrared所拍摄的范围保持一致；其中，a与N₁的比值及a与N2的比值约等于变焦倍数；

然后，将特征F₁ ^zoom以及F₁ ^infrared分别通过卷积块、BN块和平均池化块，得到1×1×2048的特征向量/>以及/>之后按对应关系组成特征对将特征对的两个特征分别输入分类器中，分类器输出独热向量，通过计算独热向量的特征相似性L₁和分类结果的交叉熵L₂作为损失函数约束网络参数更新；同时按对应关系组成特征对和/>将特征对的两个特征分别输入分类器中，分类器输出独热向量，也通过计算独热向量的特征相似性和分类结果的交叉熵作为损失函数约束网络参数更新；

4.根据权利要求3所述的一种变焦倍数识别方法，其特征在于，特征的尺寸a×a×2048为32×32×2048。

5.基于机载同轴多模态传感器的目标重识别数据集制作方法，其特征在于，包括以下步骤：

S101、获取机载同轴多模态遥感数据；

S102、利用权利要求1至4任意一项所述的一种变焦倍数识别方法预测变焦可见光图像和红外图像数据的变焦倍数；

S105、对融合后的图像进行重识别任务中感兴趣目标检测；

6.根据权利要求5所述的基于机载同轴多模态传感器的目标重识别数据集制作方法，其特征在于，S107针对同一目标类的多模态目标图像进行标注的过程中，如果步骤S101中的输入为视频数据，那么对其进行抽帧，针对抽帧后的得到的图像在经过S102至S106的处理后得到的所有目标图像数据被视为一个图像簇，通过目标聚类技术，以图像簇为单位对多个感兴趣目标进行目标聚类，以区分各个目标，并将聚类结果中同一目标类的多模态目标图像标注为同一目标ID。

7.根据权利要求5或6所述的基于机载同轴多模态传感器的目标重识别数据集制作方法，其特征在于，S103所述基于预测的变焦倍数对多模态图像进行截取以实现焦距对齐的过程中通过图像裁剪工具包对不同模态图像的观察范围进行一致化，选择变焦倍数最高的模态数据作为锚点，将其他不同焦距的多模态数据向该锚点进行焦距对齐。

8.根据权利要求7所述的基于机载同轴多模态传感器的目标重识别数据集制作方法，其特征在于，所述的观察范围一致化是将不同变焦情况将图像调整到同一个视野范围内。

9.根据权利要求8所述的基于机载同轴多模态传感器的目标重识别数据集制作方法，其特征在于，S104所述对多模态图像进行数据融合的过程中，采用DDcGAN网络对变焦可见光图像I^zoom与红外图像I^infrared进行融合。

10.根据权利要求9所述的基于机载同轴多模态传感器的目标重识别数据集制作方法，其特征在于，S105中对融合后的图像进行重识别任务中感兴趣目标检测时采用YOLOv8网络。