CN110598654B

CN110598654B - 多粒度交叉模态特征融合行人再识别方法和再识别系统

Info

Publication number: CN110598654B
Application number: CN201910880993.9A
Authority: CN
Inventors: 蒋建国; 金恺元; 齐美彬; 常传文; 杨艳芳; 李小红; 詹曙; 苏兆品; 张国富; 刘学亮
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2022-02-11
Anticipated expiration: 2039-09-18
Also published as: CN110598654A

Abstract

本发明公开了一种多粒度交叉模态特征融合行人再识别方法和再识别系统，其中行人再识别方法包括：1、构建训练样本集；2、构建细粒度特征提取网络和粗粒度特征提取网络；3、采用训练样本集对细粒度特征提取网络和粗粒度特征提取网络进行训练，得到训练好网络；4、将待识别的IR图像分别输入细粒度特征提取网络和粗粒度特征提取网络，提取其细粒度特征和粗粒度特征，并对提取出的特征进行融合得到融合特征F_test，得到待识别图像中的行人属于每个类别的概率，选择其中概率值最大的行人类别作为识别结果。该方法结合图像小区域的细粒度特征和具有全局性的粗粒度特征，得到更具有判别性的融合特征来进行行人的分类识别。

Description

多粒度交叉模态特征融合行人再识别方法和再识别系统

技术领域

本发明属于行人再识别技术领域，具体涉及一种对红外光模态下的图像中行人进行再识别的方法和系统。

背景技术

行人再识别旨在通过计算机视觉技术，判断无重叠视域下不同摄像机所拍摄的图像或者视频序列中是否存在指定探测行人。由于人们对公共安全需求的增加以及视频网络的普及，近几年来行人再识别问题的研究得到了广泛的关注。在近些年的研究中，研究人员大多把目光着眼于可见光(RGB)领域的识别问题，即在可见光范围图像内，给定一张图片或视频序列，去寻找图像库或视频库中是否存在与给定图像或视频序列中目标相同的图像或视频。但是这些研究在光线较暗(例如深夜)的情况下会受到很大干扰，这限制了研究成果在实际系统中的应用。针对这个问题，考虑到越来越多的摄像头具有红外摄像功能，目前在RGB-IR这一领域进行了跨模态条件下的行人再识别研究，即给定一张红外光模态(IR)下的行人图片，去寻找可见光模态(RGB)下的同一个人。值得注意的是，两种模态的图片中行人的姿势、角度并不相同。

到目前为止，实现RGB-IR行人再识别的深度学习方法有以下几类：1、一种deepzero-padding网络，用于训练单流网络，以便在网络中自动演化特定于域的节点，进行跨模态匹配。2、一种具有top-ranking损失的网络，它考虑了交叉模态和模态间的变化。3、一种具有交叉模态三元组损失的cmGAN方法来学习判断特征。上述方法在一定程度上提升了行人再识别的准确率，但是仍存在不足，导致这些不足的原因主要来自于“跨模态”，即RGB和IR两种模态之间具有模态间差异与模态内差异。模态间差异指的是RGB图像与IR图像是异质的，前者由三个颜色通道组成，而后者仅仅只有一个；模态内差异是指包括相机视图、分辨率、光照强度、人体姿态等在内的图像问题。模态间差异与模态内差异影响了行人再识别的准确率。

发明内容

发明目的：本发明旨在提供一种识别准确率较高的行人再识别方法，该方法结合图像小区域的细粒度特征和具有全局性的粗粒度特征，得到更具有判别性的融合特征来进行行人的分类识别。

技术方案：一方面，本发明公开的一种多粒度交叉模态特征融合行人再识别方法，包括训练阶段和识别阶段；所述训练阶段包括步骤：

(1)采集C个行人在可见光模态下和红外模态下的多幅图像，构成多个RGB-IR图像对，每个RGB-IR图像对为同一行人分别在可见光模态下和红外光模态下的图像；对每个RGB-IR图像对添加行人类别标签；训练样本集为S＝[S₁,S₂,…,S_N]，其中第i个样本

i＝1,2,…,N，

为可见光模态下的图像，

为与

同一行人在红外模态下的图像；L_i为类别标签，

N为样本数，C为行人类别数；

(2)构建细粒度特征提取网络；所述细粒度特征提取网络用于提取输入图像的细粒度特征；

构建粗粒度特征提取网络；所述粗粒度特征提取网络用于提取输入图像的粗粒度特征；

(3)将训练样本集中的RGB-IR图像对分别输入细粒度特征提取网络和粗粒度特征提取网络，提取细粒度特征F_f和粗粒度特征F_c；融合F_f和F_c得到融合特征F_m；

根据训练样本集中每个RGB-IR图像对得到的融合特征及样本的真实类别标签，通过最小化损失函数的值，得到训练好的细粒度特征提取网络和粗粒度特征提取网络；所述损失函数为softmax损失函数；

所述识别阶段包括步骤：

(4)将待识别的RGB-IR图像Image_test分别输入细粒度特征提取网络和粗粒度特征提取网络，提取Image_test的细粒度特征和粗粒度特征，并对提取出的特征进行融合得到融合特征F_test，F_test经过softmax层，得到Image_test属于每个行人类别的概率，选择其中概率值最大的行人类别作为识别结果。

所述细粒度特征提取网络包括多个级联的双输入双输出蝶形单元和一个第一特征融合单元；其中第一级蝶形单元的输入为RGB图像I_RGB和IR图像I_IR；最后一级蝶形单元的输出为RGB流特征F_RGB和IR流特征F_IR，第一特征融合单元将F_RGB和F_IR融合在一起，得到输入图像的细粒度特征。

所述蝶形单元包括RGB流输入单元、IR流输入单元、注意力单元、RGB流输出单元、IR流输出单元；

所述RGB流输入单元用于提取输入的RGB图像I_RGB或上一级蝶形单元输出的RGB注意力图AM_RGB的特征，并将提取到的RGB特征T_RGB输入注意力单元；

所述IR流输入单元用于提取输入的IR图像I_IR或上一级蝶形单元输出的IR注意力图AM_IR的特征，并将提取到的IR特征T_IR输入注意力单元；

所述注意力单元用于提取RGB特征和IR特征的注意力图；RGB流输出单元、IR流输出单元分别对RGB注意力图和IR注意力图进一步提取特征；

前一级蝶形单元的RGB流输出单元和IR流输出单元作为后一级蝶形单元的RGB流输入单元和IR流输入单元。

所述注意力单元包括掩膜分支和双流主干分支；所述双流主干分支包括RGB流主干分支和IR流主干分支；

RGB特征T_RGB经过RGB流主干分支得到RGB高层特征T′_RGB；IR特征T_IR经过IR流主干分支得到IR高层特征T′_IR；

掩膜分支包括依次连接的L_s个下采样模块和L_s个上采样模块；所述下采样模块包括依次连接的下采样卷积层和第一池化层；所述上采样模块包括依次连接的上采样卷积层和第二池化层；

RGB特征T_RGB和IR特征T_IR经过掩码分支后得到初始注意力图AM′_RGB和AM′_IR；与高层特征叠加后得到RGB注意力图AM_RGB和IR注意力图AM_IR：

AM_RGB＝(1+AM′_RGB)*T′_RGB

AM_IR＝(1+AM′_IR)*T′_IR。

所述粗粒度特征提取网络包括并行的RGB粗粒度特征提取支路、IR粗粒度特征提取支路，以及第二特征融合单元；所述RGB粗粒度特征提取支路的输入为RGB图像I_RGB，输出为RGB粗粒度特征

所述IR粗粒度特征提取支路的输入为IR图像I_IR，输出为IR粗粒度特征

第二特征融合单元将

和

融合在一起，得到输入图像的粗粒度特征；

所述RGB粗粒度特征提取支路和IR粗粒度特征提取支路均为Resnet网络。

所述第一特征融合单元采用特征拼接的方式进行特征融合。

所述第二特征融合单元采用特征拼接的方式进行特征融合。

所述步骤(3)和步骤(4)采用特征叠加的方式对细粒度特征和粗粒度特征进行特征融合。

本发明训练阶段采用共享参数和不共享参数交叉的训练策略，具体为：

在训练过程中，对蝶形单元中RGB流输入单元和RGB流输出单元的参数只根据输入的RGB图像进行更新；IR流输入单元和IR流输出单元的参数只根据输入的IR图像进行更新；

对蝶形单元中注意力单元的参数，根据输入的RGB图像和IR图像进行更新。

另一方面，本发明公开实现上述行人再识别方法的系统，包括：

细粒度特征提取网络1，用于提取图像的细粒度特征；

粗粒度特征提取网络2，用于提取图像的粗粒度特征；

跨模态融合特征生成模块3，用于根据细粒度特征和粗粒度特征，生成跨模态融合特征；

识别模块4，用于根据融合特征对输入图像中的行人进行再识别。

有益效果：本发明公开的行人再识别方法，同时使用不同粒度的特征作为特征提取的目标，在细粒度特征方面更加注重于两种模态的显著性特征区域，并通过“蝶形”结构保持其注意力始终聚焦在两种模态图片的共通特征部分，保证其具有模态的鲁棒性；同时将送入细粒度特征提取网络的两种模态的图片也送入粗粒度特征提取网络中，通过不共享参数的训练策略保证每个模态的独有的具有判别性的特征不被忽略。简言之，本发明在保证模态间共性被挖掘的情况下，最大限度维持了其特性不被忽略。

在本发明提出的网络中，在不同的融合阶段，根据不同方式的优点，使用了concatenate与add混合融合的方式，先将不同模态图片模态间融合保证特征的广泛性，再进行粒度间融合来增强特征包含的信息。通过这种方式使提取出的特征对于模态间的转变更具有鲁棒性，每个特征所包含的信息变得丰富且具有判别性，最终提高了网络识别能力。

附图说明

图1为本发明公开的多粒度交叉模态特征融合行人再识别方法的流程图；

图2为本发明公开的多粒度交叉模态特征融合行人再识别系统的框架图；

图3为细粒度特征提取网络的示意图；

图4为细粒度特征提取网络中RGB流处理单元和IR流处理单元与Resnet网络的对应关系图；

图5为注意力单元结构示意图；

图6为下采样模块结构示意图；

图7为粗粒度特征提取网络的结构示意图；

图8为特征融合方式的示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

如图1所示，本发明公开了一种多粒度交叉模态特征融合行人再识别方法，包括训练阶段和识别阶段；所述训练阶段建立并训练行人再识别系统，行人再识别系统的组成框图如图2所示。

训练阶段包括步骤：

步骤1、采集C个行人在可见光模态下和红外模态下的多幅图像，构成多个RGB-IR图像对，每个RGB-IR图像对为同一行人分别在可见光模态下和红外光模态下的图像；对每个RGB-IR图像对添加行人类别标签；训练样本集为S＝[S₁,S₂,…,S_N]，其中第i个样本

i＝1,2,…,N，

为可见光模态下的图像，

为与

同一行人在红外模态下的图像；L_i为类别标签，

N为样本数，C为行人类别数；

步骤2、构建细粒度特征提取网络1；所述细粒度特征提取网络用于提取输入图像的细粒度特征；

如图3所示，所述细粒度特征提取网络包括多个级联的双输入双输出蝶形单元1-1和一个第一特征融合单元1-2；其中第一级蝶形单元的输入为RGB图像I_RGB和IR图像I_IR；最后一级蝶形单元的输出为RGB流特征F_RGB和IR流特征F_IR，第一特征融合单元将F_RGB和F_IR融合在一起，得到融合了两种模态输入图像的细粒度特征。

本发明中，第一特征融合单元采用拼接(concatenate)的方式进行特征融合，

蝶形单元包括RGB流输入单元1-1A、IR流输入单元1-1B、注意力单元1-1C、RGB流输出单元1-1D、IR流输出单元1-1E；

RGB流输入单元用于提取输入的RGB图像I_RGB或上一级蝶形单元输出的RGB注意力图AM_RGB的特征，并将提取到的RGB特征T_RGB输入注意力单元；

本实施例中，采用3级级联的蝶形网络，如图3所示，其中的注意力单元为AttentionBlock1-3，RGB流的处理单元为Conv1_R、Conv2_R、Conv3_R、Conv4_R；IR流的处理单元为Conv1_I、Conv2_I、Conv3_I、Conv4_I。ConvX_R与ConvX_I的结构相同，但参数不同,X＝1,2,3,4；其中Conv1_R与Conv1_I由Resnet网络的stage1+stage2构成，Conv2_R与Conv2_I由Resnet网络的stage3构成，Conv3_R与Conv3_I由Resnet网络的stage4构成，Conv4_R与Conv4_I由Resnet网络的stage5构成，对应关系如图4。

本发明中注意力单元用于提取RGB特征和IR特征的注意力图；RGB流输出单元、IR流输出单元分别对RGB注意力图和IR注意力图进一步提取特征；

如图5所示，注意力单元包括bottom-up top-down结构的掩膜分支Soft MaskBranch和双流主干分支；所述双流主干分支包括RGB流主干分支RGB-Trunk Branch和IR流主干分支IR-Trunk Branch；

RGB特征T_RGB经过RGB流主干分支得到RGB高层特征T′_RGB；IR特征T_IR经过IR流主干分支得到IR高层特征T′_IR；本实施例中，主干分支采用Resnet101作为基础单元，两种模态的图片或特征图同时被输入对应模态分支，得到各自的高层特征。

掩膜分支Soft Mask Branch使用了bottom-up top-down的全卷积结构，包括依次连接的L_s个下采样模块和L_s个上采样模块；如图6所示，下采样模块包括依次连接的下采样卷积层和第一池化层；类似的，上采样模块包括依次连接的上采样卷积层和第二池化层。在down sample中通过卷积和池化层来逐渐提取高层特征，并增大模型的感受野，由此高层特征中所被激活的Pixel就能够反应注意力所在的区域，之后通过与down sample相同数量的卷积与池化达到up sample的目的，来使feature map的尺寸在输入Attention module前后保持不变，这样就将Attention的区域对应到输入的每一个pixel上并得到两种模态的注意力图Attention Map。

Soft Mask Branch与两支Trunk Branch的输出结合起来，Soft Mask Branch输出的Attention map中的每一个pixel值相当于对输入Attention module之前的原始featuremap上每一个pixel值的增加一个权重，它会增强有意义的特征，而抑制无意义的信息。换句话说，对于主干分支，掩膜分支的输出可以理解为一种控制闸门。

AM_RGB＝(1+AM′_RGB)*T′_RGB

AM_IR＝(1+AM′_IR)*T′_IR。

公式中加“1”的原因一是假设初始注意力图AM′_RGB和AM′_IR为0时，即注意力无效的情况，那么输出就等于T′_RGB和T′_IR，由此避免了在这种情况下，给网络的训练带来困难，二是在Soft Mask Branch中由于sigmoid激活函数将输出归一化到0到1区间，通过直接叠加会削弱特征。

最终，注意力单元通过上述两条Branch的叠加达到约束注意力区域的效果，使细粒度特征提取网络能够更专注于两种模态间的共同性，也使得所提取的细粒度特征在不同模态下更具有鲁棒性。

构建粗粒度特征提取网络2；所述粗粒度特征提取网络用于提取输入图像的粗粒度特征。

如图7所示，粗粒度特征提取网络包括并行的RGB粗粒度特征提取支路、IR粗粒度特征提取支路，以及第二特征融合单元；所述RGB粗粒度特征提取支路的输入为RGB图像I_RGB，输出为RGB粗粒度特征

第二特征融合单元将

和

融合在一起，得到输入图像的粗粒度特征；RGB粗粒度特征提取支路和IR粗粒度特征提取支路的基础单元均为Resnet网络，本实施例中采用Resnet-50，其后接池化层。

与细粒度特征提取网络中的第一特征融合单元类似，第二特征融合单元同样采用拼接(concatenate)的方式进行特征融合，得到最终的粗粒度特征。

粗粒度特征提取网络旨在提取出每个模态图片所独有且具有判别性的全局特征。这些特征在训练细粒度特征提取网络时往往会由于注意力单元的存在而被忽略。事实上，缺少这些特征，网络学习的特征范围会变小，网络缺少鲁棒性。因此，粗粒度特征能够提高网络的鲁棒性。

步骤3、将训练样本集中的RGB-IR图像对分别输入细粒度特征提取网络和粗粒度特征提取网络，提取细粒度特征F_f和粗粒度特征F_c；跨模态融合特征生成模块3融合F_f和F_c得到跨模态融合特征F_m；

跨模态融合特征生成模块3采用特征叠加的方式对细粒度特征和粗粒度特征进行特征融合

根据训练样本集中每个RGB-IR图像对得到的融合特征

及样本的真实类别标签L_i，通过最小化损失函数的值，来对整个网络进行训练，得到训练好的细粒度特征提取网络和粗粒度特征提取网络；本发明中损失函数为softmax损失函数，如下：

其中N为训练样本集中的样本数，C为行人类别数；

为根据第i个样本中行人类别标签的真实值L_i得到的softmax函数值；S_j为整个网络预测第i个样本中行人的类别为第j类的概率。

本发明对细粒度特征提取网络的训练采用共享参数和不共享参数交叉的训练策略，具体为：

在训练过程中，对蝶形单元中RGB流输入单元和RGB流输出单元的参数只根据输入的RGB图像进行更新；IR流输入单元和IR流输出单元的参数只根据输入的IR图像进行更新，即不共享参数；对蝶形单元中注意力单元的参数，根据输入的RGB图像和IR图像进行更新，即共享参数。这样的训练策略保证了在提取注意力前，类间差异不被过多忽略。

在得到训练好的网络后，可以进入识别阶段，包括步骤：

步骤4、将待识别的RGB-IR图像Image_test分别输入细粒度特征提取网络和粗粒度特征提取网络，提取Image_test的细粒度特征和粗粒度特征，并对提取出的特征利用跨模态融合特征生成模块3进行融合得到融合特征F_test，F_test经过softmax层，得到Image_test属于每个行人类别的概率，选择其中概率值最大的行人类别作为识别结果。由融合特征F_test得到识别结果的过程由识别模块4来完成。

本发明的行人再识别方法的执行过程中有3处特征融合，分别为：细粒度特征提取网络和粗粒度特征提取网络中的第一特征融合单元和第二特征融合单元，以及对细粒度特征和粗粒度特征进行跨模态融合的跨模态融合特征生成模块。这3处特征融合采用不同的融合方式，其中第一特征融合单元和第二特征融合单元采用拼接(Concatenate)的方式进行融合，跨模态融合特征生成模块采用叠加(Add)的方式进行特征融合。图8为两种特征融合方式的示意图。

上述两种融合方式都是用于整合特征图信息，而两者的不同点在于，concatenate方式是针对通道数进行操作，它可以使通道数增加，add方式则是特征图的相加，它不会改变图片通道数。

在本发明中，粗粒度与细粒度特征提取网络中均采用了concatenate的融合方式。在粗粒度特征提取网络或细粒度特征提取网络中，进入特征融合单元的特征图维度大小相同，采用拼接方式将特征级联起来，能够有效保证在同一特征提取网络中，不同模态最终提取的特征被保留，同时避免了使用add方式对特征叠加所产生的特征间干扰。之所以能够避免干扰，是因为Add融合相当于在concatenate之后对应通道共享一个卷积核。假设两路待融合特征的通道分别为X₁,X₂,…,X_I和Y₁,Y₂,…,Y_J，K_k为卷积核，k＝1,2,…,I+J，且u≠v时K_u≠K_v；则concatenate的第k个输出通道为：

假设I≥J，add的单个输出通道为：

可以看出，相较于concatenate操作，add融合更像是信息之间的叠加，显然如果不同模态间的信息相互叠加，那必然会因为巨大的模态间差异对训练产生影响，所以本发明在粗粒度与细粒度特征提取网络内部选择了concatenate融合。

另一方面，本发明在提取了细粒度特征和粗粒度特征之后，又选择了add的方式进行特征融合。因为在采用add融合，通过融合后的特征不再是简单的通道数的增长，而是对特征进行特征叠加，这样使得每个描述图像的特征下所对应的信息量增多，最终达到使融合后的特征更加适应不同模态的训练的效果。

本实施例采用公开的数据集SYSU-MM01来进行本发明公开的行人再识别方法有效性的评估。SYSU-MM01是在RGB-IR领域的第一个基准数据集，由6个摄像机采集的图像组成的大型数据集，其中包括4个可见光摄像头以及2个红外摄像头。数据集中共有287628个RGB图像和15792个红外图像。由于这个数据集是由很多的室内图片以及室外图片混合组成，所以对于跨模态行人再识别任务来说是非常具有挑战性的。这个数据集有491个行人，且每个行人都由至少两个摄像机进行拍摄。

在本实施例中，为了验证网络在跨模态re-id任务上的表现，运用了cumulativematching characteristics(CMC)的rank-1,rank-10,rank-20，以及平均精确度(mAP)来衡量结果的好坏。在图像选择上，选择single-shot模式，来验证网络的对于不同环境下图片的鲁棒性。结果如表1所示

表1

表1中HOG为采用文献：“Dalal,Navneet,and B.Triggs."Histograms oforiented gradients for human detection."IEEE Computer Society Conference onComputer Vision&Pattern Recognition 2005”中的方法的结果；LOMO为采用文献：“Liao,Shengcai,et al."Person re-identification by Local Maximal Occurrencerepresentation and metric learning."IEEE Conference on Computer Vision&Pattern Recognition 2015”中的方法的结果；One-stream、Two-stream、Zero-Paddin为采用文献：“Wu,Ancong,et al."RGB-Infrared Cross-Modality Person Re-identification."IEEE International Conference on Computer Vision 2017.”中的方法的结果；TONE+HCML为采用文献：“Ye,Mang,et al."Hierarchical discriminativelearning for visible thermal person re-identification."Thirty-Second AAAIConference on Artificial Intelligence.2018”中的方法的结果；BDTR为采用文献：“Ye,Mang,et al."Visible Thermal Person Re-Identification via Dual-ConstrainedTop-Ranking."IJCAI.2018.”中的方法的结果；IPVT-1and MSR为采用文献：“Kang,JinKyu,Toan Minh Hoang,and Kang Ryoung Park."Person Re-Identification BetweenVisible and Thermal Camera Images Based on Deep Residual CNN Using SingleInput."IEEE Access 7(2019):57972-57984.”中的方法的结果。

从表1可以看出，本发明公开的行人再识别方法在各个评判角度均有较好的表现。

Claims

1.多粒度交叉模态特征融合行人再识别方法，其特征在于，包括训练阶段和识别阶段；所述训练阶段包括步骤：

为可见光模态下的图像，

为与

同一行人在红外模态下的图像；L_i为类别标签，

N为样本数，C为行人类别数；

(2)构建细粒度特征提取网络；所述细粒度特征提取网络用于提取输入图像的细粒度特征；所述细粒度特征提取网络包括多个级联的双输入双输出蝶形单元和一个第一特征融合单元；其中第一级蝶形单元的输入为RGB图像I_RGB和IR图像I_IR；最后一级蝶形单元的输出为RGB流特征F_RGB和IR流特征F_IR，第一特征融合单元将F_RGB和F_IR融合在一起，得到输入图像的细粒度特征；所述第一特征融合单元采用特征拼接的方式进行特征融合；

前一级蝶形单元的RGB流输出单元和IR流输出单元作为后一级蝶形单元的RGB流输入单元和IR流输入单元；

构建粗粒度特征提取网络；所述粗粒度特征提取网络用于提取输入图像的粗粒度特征；所述粗粒度特征提取网络包括并行的RGB粗粒度特征提取支路、IR粗粒度特征提取支路，以及第二特征融合单元；所述RGB粗粒度特征提取支路的输入为RGB图像I_RGB，输出为RGB粗粒度特征

第二特征融合单元将

和

融合在一起，得到输入图像的粗粒度特征；所述第二特征融合单元采用特征拼接的方式进行特征融合；

所述RGB粗粒度特征提取支路和IR粗粒度特征提取支路均为Resnet网络；

所述识别阶段包括步骤：

(4)将待识别的RGB-IR图像Image_test分别输入细粒度特征提取网络和粗粒度特征提取网络，提取Image_test的细粒度特征和粗粒度特征，并对提取出的特征进行融合得到融合特征F_test，F_test经过softmax层，得到Image_test属于每个行人类别的概率，选择其中概率值最大的行人类别作为识别结果；

2.根据权利要求1所述的多粒度交叉模态特征融合行人再识别方法，其特征在于，所述注意力单元包括掩膜分支和双流主干分支；所述双流主干分支包括RGB流主干分支和IR流主干分支；

RGB特征T_RGB和IR特征T_IR经过掩码分支后得到初始注意力图AM′_RGB和AM_I′_R；与高层特征叠加后得到RGB注意力图AM_RGB和IR注意力图AM_IR：

AM_RGB＝(1+AM′_RGB)*T′_RGB

AM_IR＝(1+AM′_IR)*T′_IR。

3.根据权利要求1所述的多粒度交叉模态特征融合行人再识别方法，其特征在于，训练阶段采用共享参数和不共享参数交叉的训练策略，具体为：

4.多粒度交叉模态特征融合行人再识别系统，其特征在于，包括：

细粒度特征提取网络(1)，用于提取图像的细粒度特征；

粗粒度特征提取网络(2)，用于提取图像的粗粒度特征；

跨模态融合特征生成模块(3)，用于根据细粒度特征和粗粒度特征，生成跨模态融合特征；

识别模块(4)，用于根据融合特征对输入图像中的行人进行再识别；

所述细粒度特征提取网络(1)包括多个级联的双输入双输出蝶形单元(1-1)和一个第一特征融合单元(1-2)；其中第一级蝶形单元的输入为RGB图像I_RGB和IR图像I_IR；最后一级蝶形单元的输出为RGB流特征F_RGB和IR流特征F_IR，第一特征融合单元将F_RGB和F_IR融合在一起，得到融合了两种模态输入图像的细粒度特征；第一特征融合单元采用拼接的方式进行特征融合；

所述蝶形单元包括RGB流输入单元(1-1A)、IR流输入单元(1-1B)、注意力单元(1-1C)、RGB流输出单元(1-1D)、IR流输出单元(1-1E)；

所述粗粒度特征提取网络(2)包括并行的RGB粗粒度特征提取支路、IR粗粒度特征提取支路，以及第二特征融合单元；所述RGB粗粒度特征提取支路的输入为RGB图像I_RGB，输出为RGB粗粒度特征

第二特征融合单元将

和

融合在一起，得到输入图像的粗粒度特征；所述第二特征融合单元同样采用拼接的方式进行特征融合，得到最终的粗粒度特征；

所述跨模态融合特征生成模块(3)采用特征叠加的方式对细粒度特征和粗粒度特征进行特征融合；

所述识别模块(4)将融合特征经过softmax层，得到输入IR图像属于每个行人类别的概率，选择其中概率值最大的行人类别作为识别结果。