CN114220124A

CN114220124A - 一种近红外-可见光跨模态双流行人重识别方法及系统

Info

Publication number: CN114220124A
Application number: CN202111542006.8A
Authority: CN
Inventors: 郭玉彬; 刘攀; 李西明; 王红旗
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-22
Anticipated expiration: 2041-12-16
Also published as: CN114220124B

Abstract

本发明公开了一种近红外‑可见光跨模态双流行人重识别方法，以残差网络为基础，初始输入k对图片至神经网络模型中进行特征提取，分别提取可见光模态和红外模态的模态特有特征和模态共享特征；并采用跨模态三元组和Circle联合损失函数对网络模型在近红外‑可见光跨模态数据集上进行训练，将提取到的最终图像特征进行欧式距离度量得到特征匹配结果，实现跨模态行人重识别，本发明采用双流分支网络结构，提高网络特征提取能力，采用随机调换输入策略有概率的选择特定模态的图像输入，引入多头自注意力机制模块以及局部关系注意力方法将不同结构特征融合，有效解决传统可见光图像模式到红外图像模式模态差异大的问题，提高跨模态行人重识别匹配准确率。

Description

一种近红外-可见光跨模态双流行人重识别方法及系统

技术领域

本发明涉及计算机视觉的研究领域，特别涉及一种近红外-可见光跨模态双流行人重识别方法及系统。

背景技术

行人重识别是计算机视觉领域中的一项热门的研究课题，它将计算机图像处理技术和统计学技术融入到一起，广泛应用于安防领域和智能监控等领域。行人重识别的目的是从一台相机中拍摄的图片或视频给定一个查询行人，从另一台相机拍摄的图片或者视频中去识别出这个特定行人。通过开发卷积神经网络模型，可见光下行人重识别在学术研究上的性能已经达到了95％以上。

随着监控系统的普及，行人重识别技术也取得了很大的进展。为了实现全天候监控，使用可见光摄像头和红外摄像头分别采集白天的可见光图像和夜晚的红外图像。由于不同模态相机的波长范围不同，造成了较大的模态差异以及类内差异，导致两种模态之间存在显著的视觉差异，因此可见光-红外图像跨模态行人重识别受到了极大的关注。可见光-红外图像跨模态行人重识别是一种异质行人图像数据之间检索问题。其核心问题是构建跨模态图像数据间的统一共享特征表达，主要技术难点在于如何有效区分跨模态图像数据中的模态共享和模态特征相关的信息。在跨模态图像识别任务中，期望跨模态共享特征信息学习到更多与身份判别相关联的信息。因此，如果所学共享特征信息混有比较多的与模态特有特征相关的信息，则会降低统一特征表达下的身份判别能力。同时，跨模态图像数据之间的非线性映射比单一模态图像数据在低维空间上的非线性映射更加复杂，这将会对模型结构设计提出更高的要求，模型架构也会更加复杂。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种近红外-可见光跨模态双流行人重识别方法及系统，针对近红外模态与可见光模态图像之间的巨大差异，在双流卷积神经网络的基础上对网络模型进行了改进，主要包含三个组成部分：1、多头自注意力双流网络模块；2、局部关系分支模块；3、全局分支模块；本文提出的基于多头注意力机制的跨模态双流行人重识别网络可以充分提取近红外与可见光的跨模态行人不变特征信息，使网络可以学习到泛化能力更强的特征，从而提高近红外与可见光跨模态行人重识别任务的准确度和识别效果。

本发明的第一目的在于提供一种近红外-可见光跨模态双流行人重识别方法；

本发明的第二目的在于提供一种近红外-可见光跨模态双流行人重识别系统。

本发明的第一目的通过以下的技术方案实现：

一种近红外-可见光跨模态双流行人重识别方法，包括以下步骤：

通过数据获取模块获取跨模态行人图像数据集；

构建多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型，并进行参数初始化；

对所述跨模态行人图像数据集进行图像预处理，并通过固定目标样本策略使得每张图片的采用概率相等，预处理后行人图像数据集作为跨模态双流行人重识别网络模型的输入张量；

采用随机调换输入策略，将预处理后行人图像数据集输入跨模态双流行人重识别网络模型中进行训练，得到最优的跨模态双流行人重识别网络模型并保存；

使用最优的跨模态双流行人重识别网络模型分别提取近红外图像和可见光图像的特征向量，即分别提取近红外模态的特征向量和可见光模态的特征向量；

将两个模态的特征向量进行欧式距离计算并按照距离大小排序得到特征匹配结果，完成近红外-可见光跨模态双流行人重识别。

进一步地，所述多头自注意力机制的近红外-可见光的跨模态双流行人重识别网络模型包括多头自注意力双流网络模块、局部关系分支模块、全局分支模块。

进一步地，所述多头自注意力双流网络模块采用ResNet50作为主干网络，包含多个Stage，将Stage0作为特定模态图像的特征提取部分,Stage0的参数不共享，用于提取可见光模态图像和红外模态图像的模态特定信息，其余Stage2-Stagei作为混合模态图像的特征提取部分，Stage2-Stagei的参数共享，i取值范围为：0，1，2，3，4。

进一步地，所述局部关系分支模块将多头自注意力双流网络模块的输出特征图作为输入，对输出特征图进行切分得到水平特征图，将每个水平特征图依次输入到三核的卷积层结构，得到卷积后特征图，将第一核和第二核得到的卷积后特征图做乘法操作后得到一个p*p阶的相似性矩阵，将相似性矩阵和第三核得到的卷积后特征图做乘法操作得到p*2048个特征图，做一个全局平均池化层得到1*2048的特征向量，用来与全局分支模块特征融合以及做跨模态三元组损失计算。

进一步地，所述全局分支模块包含广义平均池化层、BN层、融合层；所述全局分支模块将多头自注意力双路网络模块的输出特征图作为输入，经过广义平均池化层得到特征向量，经过BN层做归一化处理，将归一化处理后的特征向量和局部关系分支模块池化后的特征向量做加法操作，得到最终多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型训练的输出特征，用于做Circle损失计算。

进一步地，所述对跨模态行人图像数据集进行图像预处理，具体为：通过采用固定目标样本策略使每个行人的采样概率相同后对行人图像数据集中进行数据增强，包括对样本图片进行设定概率为1/2的水平翻转、随机擦除原图像中的部分区域、随机裁剪或者旋转来增强训练数据，然后进行归一化处理得到三维张量，以得到合适网络模型处理的输入张量；达到增强训练样本的多样性目标，一定程度上可以提高模型的泛化能力和鲁棒性；

进一步地，所述采用固定目标样本策略，具体为：首先对训练数据集进行统计，包括所有行人类别的图片的总和、每个行人ID所对应的图片数量、每个行人ID的最大值、中位数、众数以及平均值，其中第i个行人拥有的图片数量记为n_i，行人中拥有最多的图片数量记为max(n_i)。然后，对每个行人图片设置一个相同采样值，即目标图片采样数，记为N，N的取值让其大于每个行人类别的最大值、中位数、众数以及平均值，建议取值设为平均值的K倍。当n_i>N时，随机去掉n_i-N张图片；当n_i<N时，利用后面的数据增强方法增强到N张图片。使用这种固定目标样本策略就能使每个行人Id对应的图片数相等，从而使样本均衡采样概率相等，避免个别样本过多或者过少而引起训练模型对不同样本识别效果差距大的问题。

进一步地，所述采用随机调换输入策略，具体为：在基于多头注意力机制的近红外-可见光跨模态双流行人重识别网络模型训练过程中，所述行人重识别网络模型的两个输入端输入图像会随着模型训练Epoch的增加而进行随机调换；刚开始进行第一概率的调换，即有第一概率将网络的一个输入端输入换成另外一个输入端的输入；然后在40epoch的时候进行第二概率的调换，在70epoch的时候进行第三概率的调换，总共训练120epoch；通过调换输入策略，一个特定模态的网络将有概率地接受另一个模态的图像作为输入。

进一步地，所述将预处理后行人图像数据集输入跨模态双流行人重识别网络模型中进行训练，具体为：

整个训练分为两个阶段，第一阶段使用预训练模型权重作为训练的超参数，对网络权重进行调整，第一阶段迭代次数设置为取PreEpoch次；第二阶段是为正式训练阶段，第二阶段迭代次数设置为ResEpoch；整个过程是将多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型输出的两个模态图像的特征向量通过跨模态三元组损失函数计算得到跨模态三元组损失值；

所述跨模态三元组损失函数表示为：

L_Cro-triplet＝max[D(F′_rgb,F′_ir-p)-D(F′_rgb,F′_rgb-n)+m]+max[D(F′_ir,F′_rgb-p)-D(F′_ir,F′_ir-n)+m]

其中F′_rgb表示可见光图像特征，F′_ir表示红外图像特征，F′_ir-p表示红外图像正样本特征，T′_rgb-n表示可见光图像负样本特征；D(:,:)表示行人图像对之间的相似性距离；m为手动设置的距离阈值，用于限制正负样本之间的距离；跨模态三元组数损失L'_Cro-triplet的目标就是拉近不同模态的正样本对之间的距离D(F′_rgb,F′_ir-p)和D(F′_ir,F′_rgb-p)同时推远相同模态负样本对之间的距离D(F′_rgb,F′_rgb-n)和D(F′_ir,F′_ir-n)，在样本图像的距离空间减小类内距离；本文距离度量D选择欧式距离。

将特征向量通过全连接神经网络计算和softmax函数归一化计算得到图像标签预测值；将图像标签预测值和图像标签真实值通过Circle损失函数计算得到Circle损失值；

所述Circle损失函数表示为：

其中，s_n和s_p分别为关于样本空间x的类间相似度和类内相似度，其采用余弦相似度来计算类内和类间相似度距离分数，Δ_n与Δ_p分别为类间间隔和类内间隔，实验过程中分别设置为0.25和0.75；

将跨模态三元组损失值和Circle损失值相加后得到总的损失值；对总的损失值进行反向传播梯度计算，利用梯度进行参数更新，依次迭代进行网络训练，保存每一次迭代的最佳模型，直到所有迭代结束得到最优的网络模型；

总的损失函数表示为：

L_total＝αL_Cro-triplet+βL_circle

其中α和β分别为损失函数的权重因子，实验过程中均设置为1。

进一步地，所述将两个模态的特征向量进行欧式距离计算并按照距离大小排序得到特征匹配结果，具体为：在行人重识别的测试阶段，在第一模态已有多个行人的特征向量的情况下，将第二模态中拍摄到的一张新的行人图像输入到基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型中，将网络模型输出的特征向量通过批标准化得到输出特征向量，在两个模态的特征向量之间进行余弦相似度距离计算并进行距离由小到大的排序，与新的特征向量余弦距离最近的特征向量所对应的行人图像ID即为匹配结果。

本发明的第二目的通过以下技术方案实现：

一种近红外-可见光跨模态双流行人重识别系统，包括图像预处理模块、网络构建模块、参数初始化模块、训练模块与识别模块；

所述图像预处理模块，用于采集两个不同模态下的图像，并基于固定目标样本策略进行图像预处理，作为基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络的输入张量；

所述网络构建模块，引入Transformer中的多头自注意力机制，构建基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型，并通过该跨模态双流行人重识别网络模型提取特征；

所述参数初始化模块，用于对基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型进行参数初始化；

所述训练模块，用于在跨模态数据集上基于随机调换输入策略进行训练；

所述识别模块，用于将提取到的近红外和可见光两个模态的特征向量进行欧氏距离计算并按照距离大小排序以得到特征匹配结果，完成跨模态双流行人重识别。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明在一般的卷积神经网络特征提取模块中引入Transformer中的多头自注意力模块，可以筛选取出行人重识别更加有用的特征，增加不同行人之间的区别和减少同一行人之间的区别，提高了网络特征提取能力；

2、本发明将两种模态的数据共享一个卷积网络的权重以学习两种模态的不变行人特征，减少了网络参数，提升了跨模态行人重识别的速度；

3、本发明实现了全局粗粒度特征与局部细粒度关系特征的结合，可以有效的利用不同层次的特征，减少信息的丢失，提高特征的利用率，从而达到提高跨模态行人重识别的准确率。

附图说明

图1是本发明所述一种近红外-可见光跨模态双流行人重识别方法的流程图；

图2是本发明所述一种近红外-可见光跨模态双流行人重识别方法的网络模型图；

图3是本发明所述一种近红外-可见光跨模态双流行人重识别系统的结构框图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1：

一种近红外-可见光跨模态双流行人重识别方法，如图1所示，该方法通过使用在大型图像识别数据集ImageNet上预训练好的卷积神经网络ResNet50为骨干网络，引入多头自注意力机制模块用来特征提取、并采用跨模态三元组损失函数、Circle损失函数和随机调换策略对网络在跨模态数据集上进行训练，分别提取两个模态图像的特征，再将两个模态的特征进行欧氏距离度量得到特征匹配结果，实现跨模态行人重识别，包括以下步骤：

通过数据获取模块获取跨模态行人图像数据集；

参考图1，为本发明一种近红外-可见光跨模态双流行人重识别方法的具体实施流程图，具体实施步骤如下：

获取跨模态行人重识别领域的公开数据集SYSU-MM01，数据集SYSU-MM01包含了491个行人身份，训练集包含19659幅可见图像和395人的12792幅红外图像，测试集包含96人。有两种测试模式，全搜索模式和室内搜索模式。

对数据集进行图像预处理，并采用固定目标样本策略使每个行人图片的采样概率相等后，再进行数据增强的具体实施步骤如下：

1)将所有训练和测试的图像大小调整为384x128；

2)这里的固定目标样本策略具体是指：首先对训练数据集进行统计，包括所有行人类别的图片的总和、每个行人ID所对应的图片数量、每个行人ID的最大值、中位数、众数以及平均值，其中第i个行人拥有的图片数量记为n_i，行人中拥有最多的图片数量记为max(n_i)。然后，对每个行人图片设置一个相同采样值，即目标图片采样数，记为N，N的取值让其大于每个行人类别的最大值、中位数、众数以及平均值，建议取值设为平均值的K倍。当n_i>N时，随机去掉n_i-N张图片；当n_i<N时，利用后面的数据增强方法增强到N张图片。使用这种固定目标样本策略就能使每个行人Id对应的图片数相等，从而使样本均衡采样概率相等，避免个别样本过多或者过少而引起训练模型对不同样本识别效果差距大的问题。

3)数据增强方法具体包括：对样本图片进行概率为1/2的水平翻转、随机擦除原图像中的部分区域、随机裁剪或者旋转来增强训练数据，然后进行归一化处理得到三维张量，以得到合适网络模型处理的输入张量；达到增强训练样本的多样性目标，一定程度上可以提高模型的泛化能力和鲁棒性。

构建多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型的具体实施例如下：

对残差网络ResNet50改造为基础网络，参照图2，为本发明设计的多头注意力机制的近红外-可见光跨模态双流行人重识别网络结构。输入图像经过Resnet50骨干网络的堆叠卷积层后，由全局分支(Global Branch)和局部关系分支(Local Relation Branch)共享特征图。对于全局粗粒度特征，本发明可以直接对特征图做全局平均池化(GMP)得到。对于局部细粒度特征，本发明首先对特征图做水平分区，然后将水平分区之间构成一个关系注意力矩阵，提取局部细粒度特征，并通过广义平均池化(GeM)得到局部特征向量，以进行跨模态三元组损失计算。最后，本发明将全局特征和局部特征进行组合作为最终的特征表示，并经过全连接层和Softmax层以实现图像的分类。

构建全局分支模块和局部关系分支模块的具体实施如下：

1)为了让神经网络学习到更多判别性的特征，本发明设计了一种基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络结构用于跨模态行人重识别任务，采用具有竞争性性能的Resnet50作为骨干网络，引入Transformer中的多头自注意力结构构成参照图3中的多头自注意力双流网络模块来提取行人的特征图。首先，将Resnet50中的Stage0作为特定模态图像的特征提取部分,Stage0的参数不共享，用于提取可见光模态图像和红外模态图像的模态特定信息，其余Stage2-Stagei作为混合模态图像的特征提取部分，Stage2-Stagei的参数共享，i为4。然后，将Stage4层的3x3卷积(convolution)操作用多头自注意力结构替换，并再将stride＝2改为stride＝1。接着，将多头自注意力双流网络模块后的部分划分成两个独立的分支，分别将其命名为全局分支(Global Branch)模块和局部关系分支(Local Relation Branch)模块。

2)对于全局分支模块，包括全局平均池化(GMP)层、BN层、融合层；使用全局平均池化(GMP)将P x 2048的特征图转换为1x2048的全局特征向量，

经过BN层做归一化处理，将归一化处理后的特征向量和局部关系分支模块池化后的特征向量做加法操作，得到最终多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型训练的输出特征，用于做Circle损失计算。

3)对于局部关系分支模块，将多头自注意力双流网络模块的输出特征图作为输入，对输出特征图水平方向上均匀p个条带；然后，将每个水平特征图依次输入到从上到下三个不同1x1Conv卷积层结构(依次用v(.)、u(.)、z(.)来表示)得到卷积后特征图，将第一核和第二核得到的卷积后特征图做乘法操作后得到一个p x p阶的相似性矩阵(AffinityMatrix)，将相似性矩阵和第三核得到的卷积后特征图做乘法操作得到p x 2048个特征图，然后做一个广义平均池化(GeM)得到1x2048的特征向量，用来与全局分支模块特征融合以及做跨模态三元组损失计算。

对多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型参数初始化的具体实施如下：

1)使用ImageNet上预先训练的权重进行ResNet50模型的初始化，因为预训练的网络有助于实现更好的性能；

2)设置批处理的大小为64，在每个批次中随机选取P个不同身份的样本进行采样，并从训练集中为每个身份随机选取K张图像，在本发明的实验中设置P＝16，K＝4；

3)将全局分支和局部关系分支上的跨模态三元组损失和Circle损失的权重均设置为1；

4)选择Adam作为模型的优化器。训练模型设置Epochs的大小为120,其中学习率在前40个Epochs由0.01递增到0.1，在40至80个Epochs之间学习率保持为0.1，在80个Epochs之后学习率为0.01；

5)最后模型采用深度学习框架PyTorch实现，服务器采用NVIDIA 1080Ti GPU对模型进行训练。

进行图像预处理：将数据集SYSU-MM01里的原始图像随机地裁剪成384x128的图像；

基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络训练方法具体实施如下：

对基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型进行参数初始化，对训练数据集中的图像进行预处理，将处理好的不同模态图像按照随机调换策略分别输入到双流网络模型中。模型最终输出图像提取后的特征和行人ID预测值，然后在Adam优化器的优化下，以梯度下降的方式对损失值求导，更新网络中的参数，在跨模态行人重识别数据集SYSU-MM01上进行网络训练。损失值通过对网络的损失函数进行计算得出。基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络训练的损失函数为跨模态三元组损失函数与Circle损失函数两个函数线性相加，将网络模型输出的两个模态图像的特征向量通过跨模态三元组损失函数计算得到跨模态三元组损失值，其中，图像的特征向量通过对网络模型输出的特征图使用通用平均池化(GeM Pooling)得到，将特征向量通过全连接神经网络计算和softmax函数归一化计算得到图像标签预测值，然后将图像标签预测值和图像标签真实值通过跨模态三元组损失函数和Circle损失函数计算得到跨模态三元组损失值和Circle损失值，把所有的损失值相加得到总的损失值，不断的进行参数更新迭代，最后得到最优的网络模型并保存；

网络训练中的随机调换策略具体为：在基于多头注意力机制的近红外-可见光跨模态双流行人重识别网络模型训练过程中，所述行人重识别网络模型的两个输入端输入图像会随着模型训练Epochs的增加而进行随机调换；刚开始进行第一概率的调换，即有第一概率将网络的一个输入端输入换成另外一个输入端的输入；然后在40epoch的时候进行第二概率的调换，在70epoch的时候进行第三概率的调换，总共训练120epoch；通过调换输入策略，一个特定模态的网络将有概率地接受另一个模态的图像作为输入。这里的第一概率为1/2，第二概率为1/4，第三概率为1/8。

行人识别：在跨模态的行人重识别测试阶段，在一个模态下已有多个行人图像的特征向量的情况下，将另一个模态中的一张新的行人图像输入到基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络中，然后将网络模型输出的特征向量通过批标准化得到特征向量，在两个模态的特征向量之间进行余弦相似度距离计算并按照距离由小到大排序，与新的行人图像特征向量余弦相似度距离最近的已知行人图像特征向量所对应的行人图像ID就是识别结果。

网络模型训练的损失函数表示如下：

所述跨模态三元组损失函数表示为：

其中F′_rgb表示可见光图像特征，F′_ir表示红外图像特征，F′_ir-p表示红外图像正样本特征，T′_rgb-n表示可见光图像负样本特征；D(:,:)表示行人图像对之间的相似性距离；m为手动设置的距离阈值，用于限制正负样本之间的距离；跨模态三元组数损失L'_Cro-triplet的目标就是拉近不同模态的正样本对之间的距离D(F′_rgb,F′_ir-p)和D(F′_ir,F′_rgb-p)同时推远相同模态负样本对之间的距离D(F′_rgb,F′_rgb-n)和D(F′_ir,F′_ir-n)，在样本图像的距离空间减小类内距离。本文距离度量D选择欧式距离。

所述Circle损失函数表示为：

其中s_n和s_p分别为关于样本空间x的类间相似度和类内相似度，其采用余弦相似度来计算类内和类间相似度距离分数，Δ_n与Δ_p分别为类间和类内间隔，实验过程中分别设置为0.25和0.75，γ为缩放因子，实验过程中设置为1，

和

为非负权重因子。

总的损失函数表示为：

L_total＝αL_Cro-triplet+βL_circle

实施例2

一种近红外-可见光跨模态双流行人重识别系统，如图3所示，包括图像预处理模块、网络构建模块、参数初始化模块、训练模块与识别模块；

所述网络构建模块，引入Transformer中的多头自注意力机制，构建基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型，并通过该行人重识别网络模型提取特征；

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种近红外-可见光跨模态双流行人重识别方法，其特征在于，包括以下步骤：

通过数据获取模块获取跨模态行人图像数据集；

2.根据权利要求1所述的一种近红外-可见光跨模态双流行人重识别方法，其特征在于，所述多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型包括多头自注意力双流网络模块、局部关系分支模块、全局分支模块。

3.根据权利要求2所述的一种近红外-可见光跨模态双流行人重识别方法，其特征在于，所述多头自注意力双流网络模块采用ResNet50作为主干网络，包含若干个Stage，将Stage0作为特定模态图像的特征提取部分,Stage0的参数不共享，用于提取可见光模态图像和红外模态图像的模态特定信息，其余Stage2-Stagei作为混合模态图像的特征提取部分，Stage2-Stagei的参数共享。

4.根据权利要求3所述的一种近红外-可见光跨模态双流行人重识别方法，其特征在于，所述局部关系分支模块将多头自注意力双路网络模块的输出特征图作为输入，对输出特征图进行切分得到水平特征图，将每个水平特征图依次输入到三核的卷积层结构，得到卷积后特征图，将第一核和第二核得到的卷积后特征图做乘法操作后得到一个p*p阶的相似性矩阵，将所述相似性矩阵和第三核得到的卷积后特征图做乘法操作得到p*2048个特征图，做一个全局平均池化层得到1*2048的特征向量，用来与全局分支模块特征融合以及做跨模态三元组损失计算。

5.根据权利要求4所述的一种近红外-可见光跨模态双流行人重识别方法，其特征在于，所述全局分支模块包含广义平均池化层、BN层、融合层；所述全局分支模块将多头自注意力双流网络模块的输出特征图作为输入，经过广义平均池化层得到特征向量，经过BN层做归一化处理，将归一化处理后的特征向量和局部关系分支模块池化后的特征向量做加法操作，得到最终多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型训练的输出特征，用于做Circle损失计算。

6.根据权利要求1所述的一种近红外-可见光跨模态双流行人重识别方法，其特征在于，所述对跨模态行人图像数据集进行图像预处理，具体为：对跨模态行人图像数据集中图像进行固定大小的随机裁剪，然后将裁剪好的图像按照设定概率进行水平翻转，接着将水平翻转后的图像进行归一化处理得到三维张量，随机将三维张量中的部分区域擦除，得到适合网络模型训练的输入张量。

7.根据权利要求1所述的一种近红外-可见光跨模态双流行人重识别方法，其特征在于，所述采用随机调换输入策略，具体为：在基于多头注意力机制的近红外-可见光跨模态双流行人重识别网络模型训练过程中，所述跨模态双流行人重识别网络模型的两个输入端输入图像会随着模型训练Epoch的增加而进行随机调换；刚开始进行第一概率的调换，即有第一概率将网络的一个输入端输入换成另外一个输入端的输入；然后在40epoch的时候进行第二概率的调换，在70epoch的时候进行第三概率的调换，总共训练120epoch；通过调换输入策略，一个特定模态的网络将有概率地接受另一个模态的图像作为输入。

8.根据权利要求7所述的一种近红外-可见光跨模态双流行人重识别方法，其特征在于，所述将预处理后行人图像数据集输入跨模态双流行人重识别网络模型中进行训练，具体为：

整个训练分为两个阶段，第一阶段使用预训练模型权重作为训练的超参数，对网络权重进行调整，第一阶段迭代次数设置为取PreEpoch次；第二阶段是为正式训练阶段，第二阶段迭代次数设置为ResEpoch；整个过程是将多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型输出的两个模态图像的特征向量通过跨模态三元组损失函数计算得到跨模态三元组值；

所述跨模态三元组损失函数表示为：

其中，F′_rgb表示可见光图像特征，F′_ir表示红外图像特征，F′_ir-p表示红外图像正样本特征，T′_rgb-n表示可见光图像负样本特征；D(:,:)表示行人图像对之间的相似性距离；m为手动设置的距离阈值，用于限制正负样本之间的距离；跨模态三元组数损失L′_Cro-triplet的目标就是拉近不同模态的正样本对之间的距离D(F′_rgb,F′_ir-p)和D(F′_ir,F′_rgb-p)同时推远相同模态负样本对之间的距离D(F′_rgb,F′_rgb-n)和D(F′_ir,F′_ir-n)，在样本图像的距离空间减小类内距离；距离度量D选择欧式距离；

所述Circle损失函数表示为：

其中，s_n和s_p分别为关于样本空间x的类间相似度和类内相似度，其采用余弦相似度来计算类内和类间相似度距离分数，Δ_n与Δ_p分别为类间间隔和类内间隔；

总的损失函数表示为：

L_total＝αL_Cro-triplet+βL_circle

其中α和β分别为损失函数的权重因子。

9.根据权利要求1所述的一种近红外-可见光跨模态双流行人重识别方法，其特征在于，所述将两个模态的特征向量进行欧式距离计算并按照距离大小排序得到特征匹配结果，具体为：在行人重识别的测试阶段，在第一模态已有多个行人的特征向量的情况下，将第二模态中拍摄到的一张新的行人图像输入到基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型中，将网络模型输出的特征向量通过批标准化得到输出特征向量，在两个模态的特征向量之间进行余弦相似度距离计算并进行距离由小到大的排序，与新的特征向量余弦距离最近的特征向量所对应的行人图像ID即为匹配结果。

10.一种近红外-可见光跨模态双流行人重识别系统，其特征在于，包括图像预处理模块、网络构建模块、参数初始化模块、训练模块与识别模块；

所述网络构建模块，引入Transformer中的多头自主意力模块，构建基于多头自注意力机制的近红外-可见光跨模态双流行人重识别网络模型，并通过该行人重识别网络模型提取特征；

所述识别模块，用于将提取到的近红外和可见光两个模态的特征向量进行欧氏距离计算并按照距离大小排序以得到特征匹配结果，完成跨模态行人重识别。