CN110598654B - 多粒度交叉模态特征融合行人再识别方法和再识别系统 - Google Patents
多粒度交叉模态特征融合行人再识别方法和再识别系统 Download PDFInfo
- Publication number
- CN110598654B CN110598654B CN201910880993.9A CN201910880993A CN110598654B CN 110598654 B CN110598654 B CN 110598654B CN 201910880993 A CN201910880993 A CN 201910880993A CN 110598654 B CN110598654 B CN 110598654B
- Authority
- CN
- China
- Prior art keywords
- rgb
- grained
- unit
- coarse
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多粒度交叉模态特征融合行人再识别方法和再识别系统,其中行人再识别方法包括:1、构建训练样本集;2、构建细粒度特征提取网络和粗粒度特征提取网络;3、采用训练样本集对细粒度特征提取网络和粗粒度特征提取网络进行训练,得到训练好网络;4、将待识别的IR图像分别输入细粒度特征提取网络和粗粒度特征提取网络,提取其细粒度特征和粗粒度特征,并对提取出的特征进行融合得到融合特征Ftest,得到待识别图像中的行人属于每个类别的概率,选择其中概率值最大的行人类别作为识别结果。该方法结合图像小区域的细粒度特征和具有全局性的粗粒度特征,得到更具有判别性的融合特征来进行行人的分类识别。
Description
技术领域
本发明属于行人再识别技术领域,具体涉及一种对红外光模态下的图像中行人进行再识别的方法和系统。
背景技术
行人再识别旨在通过计算机视觉技术,判断无重叠视域下不同摄像机所拍摄的图像或者视频序列中是否存在指定探测行人。由于人们对公共安全需求的增加以及视频网络的普及,近几年来行人再识别问题的研究得到了广泛的关注。在近些年的研究中,研究人员大多把目光着眼于可见光(RGB)领域的识别问题,即在可见光范围图像内,给定一张图片或视频序列,去寻找图像库或视频库中是否存在与给定图像或视频序列中目标相同的图像或视频。但是这些研究在光线较暗(例如深夜)的情况下会受到很大干扰,这限制了研究成果在实际系统中的应用。针对这个问题,考虑到越来越多的摄像头具有红外摄像功能,目前在RGB-IR这一领域进行了跨模态条件下的行人再识别研究,即给定一张红外光模态(IR)下的行人图片,去寻找可见光模态(RGB)下的同一个人。值得注意的是,两种模态的图片中行人的姿势、角度并不相同。
到目前为止,实现RGB-IR行人再识别的深度学习方法有以下几类:1、一种deepzero-padding网络,用于训练单流网络,以便在网络中自动演化特定于域的节点,进行跨模态匹配。2、一种具有top-ranking损失的网络,它考虑了交叉模态和模态间的变化。3、一种具有交叉模态三元组损失的cmGAN方法来学习判断特征。上述方法在一定程度上提升了行人再识别的准确率,但是仍存在不足,导致这些不足的原因主要来自于“跨模态”,即RGB和IR两种模态之间具有模态间差异与模态内差异。模态间差异指的是RGB图像与IR图像是异质的,前者由三个颜色通道组成,而后者仅仅只有一个;模态内差异是指包括相机视图、分辨率、光照强度、人体姿态等在内的图像问题。模态间差异与模态内差异影响了行人再识别的准确率。
发明内容
发明目的:本发明旨在提供一种识别准确率较高的行人再识别方法,该方法结合图像小区域的细粒度特征和具有全局性的粗粒度特征,得到更具有判别性的融合特征来进行行人的分类识别。
技术方案:一方面,本发明公开的一种多粒度交叉模态特征融合行人再识别方法,包括训练阶段和识别阶段;所述训练阶段包括步骤:
(1)采集C个行人在可见光模态下和红外模态下的多幅图像,构成多个RGB-IR图像对,每个RGB-IR图像对为同一行人分别在可见光模态下和红外光模态下的图像;对每个RGB-IR图像对添加行人类别标签;训练样本集为S=[S1,S2,…,SN],其中第i个样本i=1,2,…,N,为可见光模态下的图像,为与同一行人在红外模态下的图像;Li为类别标签,N为样本数,C为行人类别数;
(2)构建细粒度特征提取网络;所述细粒度特征提取网络用于提取输入图像的细粒度特征;
构建粗粒度特征提取网络;所述粗粒度特征提取网络用于提取输入图像的粗粒度特征;
(3)将训练样本集中的RGB-IR图像对分别输入细粒度特征提取网络和粗粒度特征提取网络,提取细粒度特征Ff和粗粒度特征Fc;融合Ff和Fc得到融合特征Fm;
根据训练样本集中每个RGB-IR图像对得到的融合特征及样本的真实类别标签,通过最小化损失函数的值,得到训练好的细粒度特征提取网络和粗粒度特征提取网络;所述损失函数为softmax损失函数;
所述识别阶段包括步骤:
(4)将待识别的RGB-IR图像Imagetest分别输入细粒度特征提取网络和粗粒度特征提取网络,提取Imagetest的细粒度特征和粗粒度特征,并对提取出的特征进行融合得到融合特征Ftest,Ftest经过softmax层,得到Imagetest属于每个行人类别的概率,选择其中概率值最大的行人类别作为识别结果。
所述细粒度特征提取网络包括多个级联的双输入双输出蝶形单元和一个第一特征融合单元;其中第一级蝶形单元的输入为RGB图像IRGB和IR图像IIR;最后一级蝶形单元的输出为RGB流特征FRGB和IR流特征FIR,第一特征融合单元将FRGB和FIR融合在一起,得到输入图像的细粒度特征。
所述蝶形单元包括RGB流输入单元、IR流输入单元、注意力单元、RGB流输出单元、IR流输出单元;
所述RGB流输入单元用于提取输入的RGB图像IRGB或上一级蝶形单元输出的RGB注意力图AMRGB的特征,并将提取到的RGB特征TRGB输入注意力单元;
所述IR流输入单元用于提取输入的IR图像IIR或上一级蝶形单元输出的IR注意力图AMIR的特征,并将提取到的IR特征TIR输入注意力单元;
所述注意力单元用于提取RGB特征和IR特征的注意力图;RGB流输出单元、IR流输出单元分别对RGB注意力图和IR注意力图进一步提取特征;
前一级蝶形单元的RGB流输出单元和IR流输出单元作为后一级蝶形单元的RGB流输入单元和IR流输入单元。
所述注意力单元包括掩膜分支和双流主干分支;所述双流主干分支包括RGB流主干分支和IR流主干分支;
RGB特征TRGB经过RGB流主干分支得到RGB高层特征T′RGB;IR特征TIR经过IR流主干分支得到IR高层特征T′IR;
掩膜分支包括依次连接的Ls个下采样模块和Ls个上采样模块;所述下采样模块包括依次连接的下采样卷积层和第一池化层;所述上采样模块包括依次连接的上采样卷积层和第二池化层;
RGB特征TRGB和IR特征TIR经过掩码分支后得到初始注意力图AM′RGB和AM′IR;与高层特征叠加后得到RGB注意力图AMRGB和IR注意力图AMIR:
AMRGB=(1+AM′RGB)*T′RGB
AMIR=(1+AM′IR)*T′IR。
所述粗粒度特征提取网络包括并行的RGB粗粒度特征提取支路、IR粗粒度特征提取支路,以及第二特征融合单元;所述RGB粗粒度特征提取支路的输入为RGB图像IRGB,输出为RGB粗粒度特征所述IR粗粒度特征提取支路的输入为IR图像IIR,输出为IR粗粒度特征第二特征融合单元将和融合在一起,得到输入图像的粗粒度特征;
所述RGB粗粒度特征提取支路和IR粗粒度特征提取支路均为Resnet网络。
所述第一特征融合单元采用特征拼接的方式进行特征融合。
所述第二特征融合单元采用特征拼接的方式进行特征融合。
所述步骤(3)和步骤(4)采用特征叠加的方式对细粒度特征和粗粒度特征进行特征融合。
本发明训练阶段采用共享参数和不共享参数交叉的训练策略,具体为:
在训练过程中,对蝶形单元中RGB流输入单元和RGB流输出单元的参数只根据输入的RGB图像进行更新;IR流输入单元和IR流输出单元的参数只根据输入的IR图像进行更新;
对蝶形单元中注意力单元的参数,根据输入的RGB图像和IR图像进行更新。
另一方面,本发明公开实现上述行人再识别方法的系统,包括:
细粒度特征提取网络1,用于提取图像的细粒度特征;
粗粒度特征提取网络2,用于提取图像的粗粒度特征;
跨模态融合特征生成模块3,用于根据细粒度特征和粗粒度特征,生成跨模态融合特征;
识别模块4,用于根据融合特征对输入图像中的行人进行再识别。
有益效果:本发明公开的行人再识别方法,同时使用不同粒度的特征作为特征提取的目标,在细粒度特征方面更加注重于两种模态的显著性特征区域,并通过“蝶形”结构保持其注意力始终聚焦在两种模态图片的共通特征部分,保证其具有模态的鲁棒性;同时将送入细粒度特征提取网络的两种模态的图片也送入粗粒度特征提取网络中,通过不共享参数的训练策略保证每个模态的独有的具有判别性的特征不被忽略。简言之,本发明在保证模态间共性被挖掘的情况下,最大限度维持了其特性不被忽略。
在本发明提出的网络中,在不同的融合阶段,根据不同方式的优点,使用了concatenate与add混合融合的方式,先将不同模态图片模态间融合保证特征的广泛性,再进行粒度间融合来增强特征包含的信息。通过这种方式使提取出的特征对于模态间的转变更具有鲁棒性,每个特征所包含的信息变得丰富且具有判别性,最终提高了网络识别能力。
附图说明
图1为本发明公开的多粒度交叉模态特征融合行人再识别方法的流程图;
图2为本发明公开的多粒度交叉模态特征融合行人再识别系统的框架图;
图3为细粒度特征提取网络的示意图;
图4为细粒度特征提取网络中RGB流处理单元和IR流处理单元与Resnet网络的对应关系图;
图5为注意力单元结构示意图;
图6为下采样模块结构示意图;
图7为粗粒度特征提取网络的结构示意图;
图8为特征融合方式的示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1所示,本发明公开了一种多粒度交叉模态特征融合行人再识别方法,包括训练阶段和识别阶段;所述训练阶段建立并训练行人再识别系统,行人再识别系统的组成框图如图2所示。
训练阶段包括步骤:
步骤1、采集C个行人在可见光模态下和红外模态下的多幅图像,构成多个RGB-IR图像对,每个RGB-IR图像对为同一行人分别在可见光模态下和红外光模态下的图像;对每个RGB-IR图像对添加行人类别标签;训练样本集为S=[S1,S2,…,SN],其中第i个样本i=1,2,…,N,为可见光模态下的图像,为与同一行人在红外模态下的图像;Li为类别标签,N为样本数,C为行人类别数;
步骤2、构建细粒度特征提取网络1;所述细粒度特征提取网络用于提取输入图像的细粒度特征;
如图3所示,所述细粒度特征提取网络包括多个级联的双输入双输出蝶形单元1-1和一个第一特征融合单元1-2;其中第一级蝶形单元的输入为RGB图像IRGB和IR图像IIR;最后一级蝶形单元的输出为RGB流特征FRGB和IR流特征FIR,第一特征融合单元将FRGB和FIR融合在一起,得到融合了两种模态输入图像的细粒度特征。
本发明中,第一特征融合单元采用拼接(concatenate)的方式进行特征融合,
蝶形单元包括RGB流输入单元1-1A、IR流输入单元1-1B、注意力单元1-1C、RGB流输出单元1-1D、IR流输出单元1-1E;
RGB流输入单元用于提取输入的RGB图像IRGB或上一级蝶形单元输出的RGB注意力图AMRGB的特征,并将提取到的RGB特征TRGB输入注意力单元;
所述IR流输入单元用于提取输入的IR图像IIR或上一级蝶形单元输出的IR注意力图AMIR的特征,并将提取到的IR特征TIR输入注意力单元;
本实施例中,采用3级级联的蝶形网络,如图3所示,其中的注意力单元为AttentionBlock1-3,RGB流的处理单元为Conv1_R、Conv2_R、Conv3_R、Conv4_R;IR流的处理单元为Conv1_I、Conv2_I、Conv3_I、Conv4_I。ConvX_R与ConvX_I的结构相同,但参数不同,X=1,2,3,4;其中Conv1_R与Conv1_I由Resnet网络的stage1+stage2构成,Conv2_R与Conv2_I由Resnet网络的stage3构成,Conv3_R与Conv3_I由Resnet网络的stage4构成,Conv4_R与Conv4_I由Resnet网络的stage5构成,对应关系如图4。
本发明中注意力单元用于提取RGB特征和IR特征的注意力图;RGB流输出单元、IR流输出单元分别对RGB注意力图和IR注意力图进一步提取特征;
前一级蝶形单元的RGB流输出单元和IR流输出单元作为后一级蝶形单元的RGB流输入单元和IR流输入单元。
如图5所示,注意力单元包括bottom-up top-down结构的掩膜分支Soft MaskBranch和双流主干分支;所述双流主干分支包括RGB流主干分支RGB-Trunk Branch和IR流主干分支IR-Trunk Branch;
RGB特征TRGB经过RGB流主干分支得到RGB高层特征T′RGB;IR特征TIR经过IR流主干分支得到IR高层特征T′IR;本实施例中,主干分支采用Resnet101作为基础单元,两种模态的图片或特征图同时被输入对应模态分支,得到各自的高层特征。
掩膜分支Soft Mask Branch使用了bottom-up top-down的全卷积结构,包括依次连接的Ls个下采样模块和Ls个上采样模块;如图6所示,下采样模块包括依次连接的下采样卷积层和第一池化层;类似的,上采样模块包括依次连接的上采样卷积层和第二池化层。在down sample中通过卷积和池化层来逐渐提取高层特征,并增大模型的感受野,由此高层特征中所被激活的Pixel就能够反应注意力所在的区域,之后通过与down sample相同数量的卷积与池化达到up sample的目的,来使feature map的尺寸在输入Attention module前后保持不变,这样就将Attention的区域对应到输入的每一个pixel上并得到两种模态的注意力图Attention Map。
Soft Mask Branch与两支Trunk Branch的输出结合起来,Soft Mask Branch输出的Attention map中的每一个pixel值相当于对输入Attention module之前的原始featuremap上每一个pixel值的增加一个权重,它会增强有意义的特征,而抑制无意义的信息。换句话说,对于主干分支,掩膜分支的输出可以理解为一种控制闸门。
RGB特征TRGB和IR特征TIR经过掩码分支后得到初始注意力图AM′RGB和AM′IR;与高层特征叠加后得到RGB注意力图AMRGB和IR注意力图AMIR:
AMRGB=(1+AM′RGB)*T′RGB
AMIR=(1+AM′IR)*T′IR。
公式中加“1”的原因一是假设初始注意力图AM′RGB和AM′IR为0时,即注意力无效的情况,那么输出就等于T′RGB和T′IR,由此避免了在这种情况下,给网络的训练带来困难,二是在Soft Mask Branch中由于sigmoid激活函数将输出归一化到0到1区间,通过直接叠加会削弱特征。
最终,注意力单元通过上述两条Branch的叠加达到约束注意力区域的效果,使细粒度特征提取网络能够更专注于两种模态间的共同性,也使得所提取的细粒度特征在不同模态下更具有鲁棒性。
构建粗粒度特征提取网络2;所述粗粒度特征提取网络用于提取输入图像的粗粒度特征。
如图7所示,粗粒度特征提取网络包括并行的RGB粗粒度特征提取支路、IR粗粒度特征提取支路,以及第二特征融合单元;所述RGB粗粒度特征提取支路的输入为RGB图像IRGB,输出为RGB粗粒度特征所述IR粗粒度特征提取支路的输入为IR图像IIR,输出为IR粗粒度特征第二特征融合单元将和融合在一起,得到输入图像的粗粒度特征;RGB粗粒度特征提取支路和IR粗粒度特征提取支路的基础单元均为Resnet网络,本实施例中采用Resnet-50,其后接池化层。
与细粒度特征提取网络中的第一特征融合单元类似,第二特征融合单元同样采用拼接(concatenate)的方式进行特征融合,得到最终的粗粒度特征。
粗粒度特征提取网络旨在提取出每个模态图片所独有且具有判别性的全局特征。这些特征在训练细粒度特征提取网络时往往会由于注意力单元的存在而被忽略。事实上,缺少这些特征,网络学习的特征范围会变小,网络缺少鲁棒性。因此,粗粒度特征能够提高网络的鲁棒性。
步骤3、将训练样本集中的RGB-IR图像对分别输入细粒度特征提取网络和粗粒度特征提取网络,提取细粒度特征Ff和粗粒度特征Fc;跨模态融合特征生成模块3融合Ff和Fc得到跨模态融合特征Fm;
跨模态融合特征生成模块3采用特征叠加的方式对细粒度特征和粗粒度特征进行特征融合
根据训练样本集中每个RGB-IR图像对得到的融合特征及样本的真实类别标签Li,通过最小化损失函数的值,来对整个网络进行训练,得到训练好的细粒度特征提取网络和粗粒度特征提取网络;本发明中损失函数为softmax损失函数,如下:
本发明对细粒度特征提取网络的训练采用共享参数和不共享参数交叉的训练策略,具体为:
在训练过程中,对蝶形单元中RGB流输入单元和RGB流输出单元的参数只根据输入的RGB图像进行更新;IR流输入单元和IR流输出单元的参数只根据输入的IR图像进行更新,即不共享参数;对蝶形单元中注意力单元的参数,根据输入的RGB图像和IR图像进行更新,即共享参数。这样的训练策略保证了在提取注意力前,类间差异不被过多忽略。
在得到训练好的网络后,可以进入识别阶段,包括步骤:
步骤4、将待识别的RGB-IR图像Imagetest分别输入细粒度特征提取网络和粗粒度特征提取网络,提取Imagetest的细粒度特征和粗粒度特征,并对提取出的特征利用跨模态融合特征生成模块3进行融合得到融合特征Ftest,Ftest经过softmax层,得到Imagetest属于每个行人类别的概率,选择其中概率值最大的行人类别作为识别结果。由融合特征Ftest得到识别结果的过程由识别模块4来完成。
本发明的行人再识别方法的执行过程中有3处特征融合,分别为:细粒度特征提取网络和粗粒度特征提取网络中的第一特征融合单元和第二特征融合单元,以及对细粒度特征和粗粒度特征进行跨模态融合的跨模态融合特征生成模块。这3处特征融合采用不同的融合方式,其中第一特征融合单元和第二特征融合单元采用拼接(Concatenate)的方式进行融合,跨模态融合特征生成模块采用叠加(Add)的方式进行特征融合。图8为两种特征融合方式的示意图。
上述两种融合方式都是用于整合特征图信息,而两者的不同点在于,concatenate方式是针对通道数进行操作,它可以使通道数增加,add方式则是特征图的相加,它不会改变图片通道数。
在本发明中,粗粒度与细粒度特征提取网络中均采用了concatenate的融合方式。在粗粒度特征提取网络或细粒度特征提取网络中,进入特征融合单元的特征图维度大小相同,采用拼接方式将特征级联起来,能够有效保证在同一特征提取网络中,不同模态最终提取的特征被保留,同时避免了使用add方式对特征叠加所产生的特征间干扰。之所以能够避免干扰,是因为Add融合相当于在concatenate之后对应通道共享一个卷积核。假设两路待融合特征的通道分别为X1,X2,…,XI和Y1,Y2,…,YJ,Kk为卷积核,k=1,2,…,I+J,且u≠v时Ku≠Kv;则concatenate的第k个输出通道为:
假设I≥J,add的单个输出通道为:
可以看出,相较于concatenate操作,add融合更像是信息之间的叠加,显然如果不同模态间的信息相互叠加,那必然会因为巨大的模态间差异对训练产生影响,所以本发明在粗粒度与细粒度特征提取网络内部选择了concatenate融合。
另一方面,本发明在提取了细粒度特征和粗粒度特征之后,又选择了add的方式进行特征融合。因为在采用add融合,通过融合后的特征不再是简单的通道数的增长,而是对特征进行特征叠加,这样使得每个描述图像的特征下所对应的信息量增多,最终达到使融合后的特征更加适应不同模态的训练的效果。
本实施例采用公开的数据集SYSU-MM01来进行本发明公开的行人再识别方法有效性的评估。SYSU-MM01是在RGB-IR领域的第一个基准数据集,由6个摄像机采集的图像组成的大型数据集,其中包括4个可见光摄像头以及2个红外摄像头。数据集中共有287628个RGB图像和15792个红外图像。由于这个数据集是由很多的室内图片以及室外图片混合组成,所以对于跨模态行人再识别任务来说是非常具有挑战性的。这个数据集有491个行人,且每个行人都由至少两个摄像机进行拍摄。
在本实施例中,为了验证网络在跨模态re-id任务上的表现,运用了cumulativematching characteristics(CMC)的rank-1,rank-10,rank-20,以及平均精确度(mAP)来衡量结果的好坏。在图像选择上,选择single-shot模式,来验证网络的对于不同环境下图片的鲁棒性。结果如表1所示
表1
表1中HOG为采用文献:“Dalal,Navneet,and B.Triggs."Histograms oforiented gradients for human detection."IEEE Computer Society Conference onComputer Vision&Pattern Recognition 2005”中的方法的结果;LOMO为采用文献:“Liao,Shengcai,et al."Person re-identification by Local Maximal Occurrencerepresentation and metric learning."IEEE Conference on Computer Vision&Pattern Recognition 2015”中的方法的结果;One-stream、Two-stream、Zero-Paddin为采用文献:“Wu,Ancong,et al."RGB-Infrared Cross-Modality Person Re-identification."IEEE International Conference on Computer Vision 2017.”中的方法的结果;TONE+HCML为采用文献:“Ye,Mang,et al."Hierarchical discriminativelearning for visible thermal person re-identification."Thirty-Second AAAIConference on Artificial Intelligence.2018”中的方法的结果;BDTR为采用文献:“Ye,Mang,et al."Visible Thermal Person Re-Identification via Dual-ConstrainedTop-Ranking."IJCAI.2018.”中的方法的结果;IPVT-1and MSR为采用文献:“Kang,JinKyu,Toan Minh Hoang,and Kang Ryoung Park."Person Re-Identification BetweenVisible and Thermal Camera Images Based on Deep Residual CNN Using SingleInput."IEEE Access 7(2019):57972-57984.”中的方法的结果。
从表1可以看出,本发明公开的行人再识别方法在各个评判角度均有较好的表现。
Claims (4)
1.多粒度交叉模态特征融合行人再识别方法,其特征在于,包括训练阶段和识别阶段;所述训练阶段包括步骤:
(1)采集C个行人在可见光模态下和红外模态下的多幅图像,构成多个RGB-IR图像对,每个RGB-IR图像对为同一行人分别在可见光模态下和红外光模态下的图像;对每个RGB-IR图像对添加行人类别标签;训练样本集为S=[S1,S2,…,SN],其中第i个样本 为可见光模态下的图像,为与同一行人在红外模态下的图像;Li为类别标签,N为样本数,C为行人类别数;
(2)构建细粒度特征提取网络;所述细粒度特征提取网络用于提取输入图像的细粒度特征;所述细粒度特征提取网络包括多个级联的双输入双输出蝶形单元和一个第一特征融合单元;其中第一级蝶形单元的输入为RGB图像IRGB和IR图像IIR;最后一级蝶形单元的输出为RGB流特征FRGB和IR流特征FIR,第一特征融合单元将FRGB和FIR融合在一起,得到输入图像的细粒度特征;所述第一特征融合单元采用特征拼接的方式进行特征融合;
所述蝶形单元包括RGB流输入单元、IR流输入单元、注意力单元、RGB流输出单元、IR流输出单元;
所述RGB流输入单元用于提取输入的RGB图像IRGB或上一级蝶形单元输出的RGB注意力图AMRGB的特征,并将提取到的RGB特征TRGB输入注意力单元;
所述IR流输入单元用于提取输入的IR图像IIR或上一级蝶形单元输出的IR注意力图AMIR的特征,并将提取到的IR特征TIR输入注意力单元;
所述注意力单元用于提取RGB特征和IR特征的注意力图;RGB流输出单元、IR流输出单元分别对RGB注意力图和IR注意力图进一步提取特征;
前一级蝶形单元的RGB流输出单元和IR流输出单元作为后一级蝶形单元的RGB流输入单元和IR流输入单元;
构建粗粒度特征提取网络;所述粗粒度特征提取网络用于提取输入图像的粗粒度特征;所述粗粒度特征提取网络包括并行的RGB粗粒度特征提取支路、IR粗粒度特征提取支路,以及第二特征融合单元;所述RGB粗粒度特征提取支路的输入为RGB图像IRGB,输出为RGB粗粒度特征所述IR粗粒度特征提取支路的输入为IR图像IIR,输出为IR粗粒度特征第二特征融合单元将和融合在一起,得到输入图像的粗粒度特征;所述第二特征融合单元采用特征拼接的方式进行特征融合;
所述RGB粗粒度特征提取支路和IR粗粒度特征提取支路均为Resnet网络;
(3)将训练样本集中的RGB-IR图像对分别输入细粒度特征提取网络和粗粒度特征提取网络,提取细粒度特征Ff和粗粒度特征Fc;融合Ff和Fc得到融合特征Fm;
根据训练样本集中每个RGB-IR图像对得到的融合特征及样本的真实类别标签,通过最小化损失函数的值,得到训练好的细粒度特征提取网络和粗粒度特征提取网络;所述损失函数为softmax损失函数;
所述识别阶段包括步骤:
(4)将待识别的RGB-IR图像Imagetest分别输入细粒度特征提取网络和粗粒度特征提取网络,提取Imagetest的细粒度特征和粗粒度特征,并对提取出的特征进行融合得到融合特征Ftest,Ftest经过softmax层,得到Imagetest属于每个行人类别的概率,选择其中概率值最大的行人类别作为识别结果;
所述步骤(3)和步骤(4)采用特征叠加的方式对细粒度特征和粗粒度特征进行特征融合。
2.根据权利要求1所述的多粒度交叉模态特征融合行人再识别方法,其特征在于,所述注意力单元包括掩膜分支和双流主干分支;所述双流主干分支包括RGB流主干分支和IR流主干分支;
RGB特征TRGB经过RGB流主干分支得到RGB高层特征T′RGB;IR特征TIR经过IR流主干分支得到IR高层特征T′IR;
掩膜分支包括依次连接的Ls个下采样模块和Ls个上采样模块;所述下采样模块包括依次连接的下采样卷积层和第一池化层;所述上采样模块包括依次连接的上采样卷积层和第二池化层;
RGB特征TRGB和IR特征TIR经过掩码分支后得到初始注意力图AM′RGB和AMI′R;与高层特征叠加后得到RGB注意力图AMRGB和IR注意力图AMIR:
AMRGB=(1+AM′RGB)*T′RGB
AMIR=(1+AM′IR)*T′IR。
3.根据权利要求1所述的多粒度交叉模态特征融合行人再识别方法,其特征在于,训练阶段采用共享参数和不共享参数交叉的训练策略,具体为:
在训练过程中,对蝶形单元中RGB流输入单元和RGB流输出单元的参数只根据输入的RGB图像进行更新;IR流输入单元和IR流输出单元的参数只根据输入的IR图像进行更新;
对蝶形单元中注意力单元的参数,根据输入的RGB图像和IR图像进行更新。
4.多粒度交叉模态特征融合行人再识别系统,其特征在于,包括:
细粒度特征提取网络(1),用于提取图像的细粒度特征;
粗粒度特征提取网络(2),用于提取图像的粗粒度特征;
跨模态融合特征生成模块(3),用于根据细粒度特征和粗粒度特征,生成跨模态融合特征;
识别模块(4),用于根据融合特征对输入图像中的行人进行再识别;
所述细粒度特征提取网络(1)包括多个级联的双输入双输出蝶形单元(1-1)和一个第一特征融合单元(1-2);其中第一级蝶形单元的输入为RGB图像IRGB和IR图像IIR;最后一级蝶形单元的输出为RGB流特征FRGB和IR流特征FIR,第一特征融合单元将FRGB和FIR融合在一起,得到融合了两种模态输入图像的细粒度特征;第一特征融合单元采用拼接的方式进行特征融合;
所述蝶形单元包括RGB流输入单元(1-1A)、IR流输入单元(1-1B)、注意力单元(1-1C)、RGB流输出单元(1-1D)、IR流输出单元(1-1E);
所述RGB流输入单元用于提取输入的RGB图像IRGB或上一级蝶形单元输出的RGB注意力图AMRGB的特征,并将提取到的RGB特征TRGB输入注意力单元;
所述IR流输入单元用于提取输入的IR图像IIR或上一级蝶形单元输出的IR注意力图AMIR的特征,并将提取到的IR特征TIR输入注意力单元;
所述注意力单元用于提取RGB特征和IR特征的注意力图;RGB流输出单元、IR流输出单元分别对RGB注意力图和IR注意力图进一步提取特征;
前一级蝶形单元的RGB流输出单元和IR流输出单元作为后一级蝶形单元的RGB流输入单元和IR流输入单元;
所述粗粒度特征提取网络(2)包括并行的RGB粗粒度特征提取支路、IR粗粒度特征提取支路,以及第二特征融合单元;所述RGB粗粒度特征提取支路的输入为RGB图像IRGB,输出为RGB粗粒度特征所述IR粗粒度特征提取支路的输入为IR图像IIR,输出为IR粗粒度特征第二特征融合单元将和融合在一起,得到输入图像的粗粒度特征;所述第二特征融合单元同样采用拼接的方式进行特征融合,得到最终的粗粒度特征;
所述RGB粗粒度特征提取支路和IR粗粒度特征提取支路均为Resnet网络;
所述跨模态融合特征生成模块(3)采用特征叠加的方式对细粒度特征和粗粒度特征进行特征融合;
所述识别模块(4)将融合特征经过softmax层,得到输入IR图像属于每个行人类别的概率,选择其中概率值最大的行人类别作为识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910880993.9A CN110598654B (zh) | 2019-09-18 | 2019-09-18 | 多粒度交叉模态特征融合行人再识别方法和再识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910880993.9A CN110598654B (zh) | 2019-09-18 | 2019-09-18 | 多粒度交叉模态特征融合行人再识别方法和再识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598654A CN110598654A (zh) | 2019-12-20 |
CN110598654B true CN110598654B (zh) | 2022-02-11 |
Family
ID=68860477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910880993.9A Active CN110598654B (zh) | 2019-09-18 | 2019-09-18 | 多粒度交叉模态特征融合行人再识别方法和再识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598654B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259850B (zh) * | 2020-01-23 | 2022-12-16 | 同济大学 | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 |
CN111738048B (zh) * | 2020-03-10 | 2023-08-22 | 重庆大学 | 一种行人再识别的方法 |
CN111666851B (zh) * | 2020-05-28 | 2022-02-15 | 大连理工大学 | 一种基于多粒度标签的交叉域自适应行人重识别方法 |
CN111695535A (zh) * | 2020-06-16 | 2020-09-22 | 浙江工业大学 | 一种基于多粒度特征与中层特征的分心驾驶检测方法 |
CN111814805B (zh) * | 2020-06-18 | 2023-07-11 | 浙江大华技术股份有限公司 | 特征提取网络训练方法以及相关方法和装置 |
CN112016401B (zh) * | 2020-08-04 | 2024-05-17 | 杰创智能科技股份有限公司 | 基于跨模态行人重识别方法及装置 |
CN112529878B (zh) * | 2020-12-15 | 2024-04-02 | 西安交通大学 | 一种基于多视图半监督的淋巴结的分类方法、系统及设备 |
CN112766217B (zh) * | 2021-01-30 | 2022-08-26 | 上海工程技术大学 | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 |
CN112949451B (zh) * | 2021-02-24 | 2022-09-09 | 安徽大学 | 通过模态感知特征学习的跨模态目标跟踪方法及系统 |
CN112926451B (zh) * | 2021-02-25 | 2022-05-03 | 厦门大学 | 基于自模仿互蒸馏的跨模态行人重识别方法 |
CN113221913A (zh) * | 2021-04-13 | 2021-08-06 | 北京工商大学 | 一种基于高斯概率决策级融合的农林病虫害细粒度识别方法及装置 |
CN113139467B (zh) * | 2021-04-23 | 2023-04-25 | 西安交通大学 | 基于分级式结构的细粒度视频动作识别方法 |
CN113688894B (zh) * | 2021-08-19 | 2023-08-01 | 匀熵科技(无锡)有限公司 | 一种融合多粒度特征的细粒度图像分类方法 |
CN113743544A (zh) * | 2021-11-05 | 2021-12-03 | 中科智为科技(天津)有限公司 | 一种跨模态神经网络构建方法、行人检索方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226597A (zh) * | 2007-01-18 | 2008-07-23 | 中国科学院自动化研究所 | 一种基于热红外步态的夜间行人识别方法及系统 |
CN103198332A (zh) * | 2012-12-14 | 2013-07-10 | 华南理工大学 | 一种实时鲁棒的远红外车载行人检测方法 |
CN106855944A (zh) * | 2016-12-22 | 2017-06-16 | 浙江宇视科技有限公司 | 行人标志物识别方法及装置 |
CN107330396A (zh) * | 2017-06-28 | 2017-11-07 | 华中科技大学 | 一种基于多属性和多策略融合学习的行人再识别方法 |
CN107766791A (zh) * | 2017-09-06 | 2018-03-06 | 北京大学 | 一种基于全局特征和粗粒度局部特征的行人再识别方法及装置 |
CN108960140A (zh) * | 2018-07-04 | 2018-12-07 | 国家新闻出版广电总局广播科学研究院 | 基于多区域特征提取和融合的行人再识别方法 |
CN109271895A (zh) * | 2018-08-31 | 2019-01-25 | 西安电子科技大学 | 基于多尺度特征学习和特征分割的行人重识别方法 |
CN109829430A (zh) * | 2019-01-31 | 2019-05-31 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于异构层次化注意机制的跨模态行人再识别方法及系统 |
-
2019
- 2019-09-18 CN CN201910880993.9A patent/CN110598654B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226597A (zh) * | 2007-01-18 | 2008-07-23 | 中国科学院自动化研究所 | 一种基于热红外步态的夜间行人识别方法及系统 |
CN103198332A (zh) * | 2012-12-14 | 2013-07-10 | 华南理工大学 | 一种实时鲁棒的远红外车载行人检测方法 |
CN106855944A (zh) * | 2016-12-22 | 2017-06-16 | 浙江宇视科技有限公司 | 行人标志物识别方法及装置 |
CN107330396A (zh) * | 2017-06-28 | 2017-11-07 | 华中科技大学 | 一种基于多属性和多策略融合学习的行人再识别方法 |
CN107766791A (zh) * | 2017-09-06 | 2018-03-06 | 北京大学 | 一种基于全局特征和粗粒度局部特征的行人再识别方法及装置 |
CN108960140A (zh) * | 2018-07-04 | 2018-12-07 | 国家新闻出版广电总局广播科学研究院 | 基于多区域特征提取和融合的行人再识别方法 |
CN109271895A (zh) * | 2018-08-31 | 2019-01-25 | 西安电子科技大学 | 基于多尺度特征学习和特征分割的行人重识别方法 |
CN109829430A (zh) * | 2019-01-31 | 2019-05-31 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于异构层次化注意机制的跨模态行人再识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
"Learning Discriminative Features with Multiple Granularities for Person Re-Identification";Guanshuo Wang et al.;《2018 ACM international Conference on Multimedia》;20181026;第274-282页 * |
"基于融合特征的行人再识别方法";袁立 等;《模式识别与人工智能》;20170331;第30卷(第3期);第269-278页 * |
"特征金字塔融合的多模态行人检测算法";童靖然 等;《计算机工程与应用》;20190418;第214-222页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110598654A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598654B (zh) | 多粒度交叉模态特征融合行人再识别方法和再识别系统 | |
Sun et al. | Drone-based RGB-infrared cross-modality vehicle detection via uncertainty-aware learning | |
Qingyun et al. | Cross-modality fusion transformer for multispectral object detection | |
CN108388888B (zh) | 一种车辆识别方法、装置和存储介质 | |
CN107832672B (zh) | 一种利用姿态信息设计多损失函数的行人重识别方法 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN110569779B (zh) | 基于行人局部和整体属性联合学习的行人属性识别方法 | |
Liu et al. | Action recognition based on 3d skeleton and rgb frame fusion | |
Lyu et al. | Small object recognition algorithm of grain pests based on SSD feature fusion | |
Gong et al. | Unified Chinese license plate detection and recognition with high efficiency | |
CN114120363A (zh) | 基于背景及姿态归一化的行人跨镜重识别方法及系统 | |
CN113538347B (zh) | 基于高效双向路径聚合注意力网络的图像检测方法及系统 | |
CN115035361A (zh) | 基于注意力机制和特征交叉融合的目标检测方法及系统 | |
CN113743544A (zh) | 一种跨模态神经网络构建方法、行人检索方法及系统 | |
Cao et al. | MCS-YOLO: A multiscale object detection method for autonomous driving road environment recognition | |
Wang et al. | Global perception-based robust parking space detection using a low-cost camera | |
CN113076891B (zh) | 基于改进高分辨率网络的人体姿态预测方法及系统 | |
CN116597267B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN113011359A (zh) | 一种基于图像的同时检测平面结构和生成平面描述的方法及应用 | |
CN112668493A (zh) | 基于gan和深度学习的换装行人再识别定位跟踪系统 | |
CN116485894A (zh) | 视频场景建图与定位方法、装置、电子设备及存储介质 | |
CN115171148A (zh) | 一种基于特定模态特征补偿的跨模态行人重识别方法 | |
Marnissi et al. | Bispectral pedestrian detection augmented with saliency maps using transformer | |
CN111539248A (zh) | 一种红外线人脸检测方法、装置及其电子设备 | |
Wang et al. | DFECF-DET: All-weather detector based on differential feature enhancement and cross-modal fusion with visible and infrared sensors. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |