CN115063832A - 一种基于全局与局部特征的对抗学习跨模态行人重识别方法 - Google Patents

一种基于全局与局部特征的对抗学习跨模态行人重识别方法 Download PDF

Info

Publication number
CN115063832A
CN115063832A CN202210493056.XA CN202210493056A CN115063832A CN 115063832 A CN115063832 A CN 115063832A CN 202210493056 A CN202210493056 A CN 202210493056A CN 115063832 A CN115063832 A CN 115063832A
Authority
CN
China
Prior art keywords
visible light
feature
infrared
characteristic
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210493056.XA
Other languages
English (en)
Inventor
吴飞
帅子珍
高广谓
马永恒
周宏�
季一木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210493056.XA priority Critical patent/CN115063832A/zh
Publication of CN115063832A publication Critical patent/CN115063832A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于全局与局部特征的对抗学习跨模态行人重识别方法,包括:将选定的可见光图像样本集Xv和红外图像样本集Xt作为训练数据;将可见光图像样本和红外图像样本输入所构建的具有注意力机制的特征提取网络获取特征;将从具有注意力机制的特征提取网络获得的可见光特征fi v、红外特征fi t输入局部特征学习模块进行操作;将从具有注意力机制的特征提取网络获得的可见光特征fi v、红外特征fi t输入预测一致性模块进行操作;将可见光拼接特征fi v′和红外拼接特征fi t′输入对抗学习模块进行处理。本发明可有效减小可见光和红外特征的模态差异,大大提高了跨模态行人重识别的检索率。

Description

一种基于全局与局部特征的对抗学习跨模态行人重识别方法
技术领域
本发明属于计算机视觉技术领域,涉及到特征提取与处理以及减小模态差异的方法,尤其涉及一种基于全局与局部特征的对抗学习跨模态行人重识别方法。
背景技术
行人重识别(Re-ID)是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,被认为是一个图像检索的子问题。由于行人重识别在计算机视觉领域和实际视频监控应用中具有广泛的应用前景,因此受到了学者们越来越多的关注。近年来,单模态行人重识别得到了快速发展,并取得了良好的识别性能。单模态行人重识别一般拍摄可见光图像,主要解决相机带来的视图变化,以及行人姿势和背景不同造成的模态内差异问题。单模态行人重识别所检索的图像大多为白天所拍摄的图像,但现实生活中往往很多场景都是在夜晚或者黑暗环境下发生,例如许多犯罪事件往往在晚上发生。单模态行人重识无法满足这部分场合的要求。
跨模态行人重识别由可见光相机和红外相机拍摄可见光图像和红外图像。由于可见光相机和红外相机光谱的波长不同会带来两种图像之间的模态差异。跨模态行人重识别既要解决单模态行人重识别的模态内差异问题,又要解决可见光图像和红外图像两种不同模态的异质数据模态间差异问题。为此,研究者们提出一系列的解决方案。如Zhu等人利用一种双通道局部特征网络学习局部特征,并提出异中心损失约束两种异构模态的中心,以此监督网络学习模态不变的信息表示(Neurocomputing,2020,386:97-109)。Wei等人使用一种自适应分割策略进行分块得到局部特征,同时将全局特征与局部特征结合学习判别特征和模态不变特征(IEEE Transactions on Neural Networks and Learning Systems,2021,pp.1-12)。但是,这些方法仍然存在下述缺陷:不能充分提取全局与局部特征,对特征的鉴别性差,无法有效消除模态差异。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种基于全局与局部特征的跨模态行人重识别方法,通过引入的注意力机制提取深层特征、局部特征与全局特征进行身份匹配以及生成对抗网络来减小模态差异。
为解决上述技术问题,本发明采用以下技术方案。
一种基于全局与局部特征的对抗学习模态行人重识别方法,包括以下步骤:
S1.将选定的可见光图像样本集Xv和红外图像样本集Xt作为训练数据。其中,可见光图像样本集为
Figure BDA0003631850580000011
红外图像的样本集为
Figure BDA0003631850580000012
每个样本集包含M个行人,标签集为Y={yi|i=1,2,…,N},N代表可见光图像或红外图像的数量;
S2.在卷积神经网络的基础上,加入注意力机制模块,以此构建具有注意力机制的特征提取网络;将可见光图像样本和红外图像样本输入具有注意力机制的特征提取网络获取特征;所述的具有注意力机制的特征提取网络,包括模态特定子模块和模态共享子模块
Figure BDA0003631850580000021
模态特定子模块包含可见光子模块
Figure BDA0003631850580000022
和红外子模块
Figure BDA0003631850580000023
模态共享子模块
Figure BDA0003631850580000024
包含
Figure BDA0003631850580000025
3个卷积块;
S3.将从具有注意力机制的特征提取网络获得的可见光特征fi v,红外特征fi t输入局部特征学习模块进行操作,得到可见光局部特征fi vp和红外局部特征fi tp、可见光局部降维特征fi vp′和红外局部降维特征fi tp′、可见光局部标签特征fi vp″和红外局部标签特征fi tp″、可见光拼接特征fi v′和红外拼接特征fi t′
S4.将从具有注意力机制的特征提取网络获得的可见光特征fi v、红外特征fi t输入预测一致性模块进行操作,得到可见光全局特征fi vg和红外全局特征fi tg、可见光全局标签特征fi vg′和红外全局标签特征fi tg′
S5.将可见光拼接特征fi v′和红外拼接特征fi t′输入对抗学习模块进行处理。
具体的,所述步骤S2的过程包括:
步骤S2.1.获取通道注意力模块的输出特征Fi v′:将可见光中层特征Fi v作为通道注意力模块的输入,对可见光中层特征Fi v在空间维度上进行最大池化和平均池化操作得到特征
Figure BDA0003631850580000026
Figure BDA0003631850580000027
然后将特征
Figure BDA0003631850580000028
Figure BDA0003631850580000029
输入到两层全连接神经网络中进行维度压缩,再将进行维度压缩后的特征
Figure BDA00036318505800000210
和特征
Figure BDA00036318505800000211
逐元素求和合并,最后得到1维的通道注意力特征Mc∈RC *1*1
Figure BDA00036318505800000212
式中,σ(·)表示Sigmoid激活函数,MLP表示两层全连接神经网络,AvgPool(·)表示平均池化,MaxPool(·)表示最大池化,W1,W0表示两层神经网络的权重参数;
最后将通道注意力特征Mc与可见光中层特征Fi v进行乘积得到通道注意力模块的输出特征Fi v′
Figure BDA00036318505800000213
式中
Figure BDA00036318505800000214
为两个矩阵对应位置元素进行乘积;
步骤S2.2.获取可见光特征fi v和红外特征fi t:将通道注意力模块的输出特征Fi v′作为空间注意力模块的输入特征,首先对空间注意力模块的输入特征Fi v′在通道维度上进行最大池化和平均池化操作得到特征
Figure BDA0003631850580000031
Figure BDA0003631850580000032
然后将得到的特征
Figure BDA0003631850580000033
和特征
Figure BDA0003631850580000034
在通道维度上进行拼接,再经过卷积核为7×7的卷积操作后通过Sigmoid激活层得到2维的空间注意力特征Ms∈R1*H*W
Figure BDA0003631850580000035
式中,F7×7表示卷积核为7×7的卷积操作,[;]表示对特征进行拼接;
最后将空间注意力特征Ms与特征Fi v′做乘法得到空间注意力模块的输出特征Fi v″
Figure BDA0003631850580000036
再将空间注意力模块的输出特征Fi v″输入卷积块
Figure BDA0003631850580000037
得到可见光特征fi v;对红外中层特征Fi t进行和可见光中层特征Fi v相同的操作,得到红外特征fi t
具体的,所述步骤S3包括:
S3.1.对可见光特征fi v在水平方向上进行均匀划分,得到P个大小相同的可见光局部特征fi vp,p=1,2,…,6;然后对可见光局部特征fi vp先采用广义平均池化;再采用1×1的卷积核进行卷积得到可见光局部降维特征fi vp′,对红外特征fi t进行对应的操作得到红外局部降维特征fi tp′
S3.2.对每部分可见光局部降维特征fi vp′、红外局部降维特征fi tp′采用基于异质中心的三元组损失以提高局部特征的鉴别性,损失如下:
Figure BDA0003631850580000038
式中,min||·||+函数表示难样本挖掘,[·]+=max(·,0),ρ为间隔参数,||·||2为两个特征中心之间的欧式距离,
Figure BDA0003631850580000039
表示从m=1到m=M之间的结果进行求和;
Figure BDA00036318505800000310
分别为当前训练批次中第m个行人的可见光图像局部特征中心和红外图像局部特征中心;
Figure BDA00036318505800000311
Figure BDA00036318505800000312
分别为当前训练批次中第m个行人的第k张可见光图像局部特征的第p部分和第k张红外图像局部特征的第p部分;共有M个可见光局部特征中心
Figure BDA00036318505800000313
和M个红外局部特征中心
Figure BDA00036318505800000314
S3.3.对局部可见光降维特征fi vp′进行分类得到可见光局部标签特征fi vp″,通过相同的操作得到红外局部标签特征fi tp″;基于可见光局部标签特征fi vp″和红外局部标签特征fi tp″的分类损失为:
Figure BDA00036318505800000315
式中,pi(fi vp″)表示可见光局部标签特征fi vp″生成的概率分布,pi(fi tp″)表示红外局部标签特征fi tp″生成的概率分布;yi为对应图像的真实标签,log为对数运算;
S3.4.可见光拼接特征fi v′由每部分可见光局部降维特征fi vp′进行拼接([fi v1′;fi v2′;fi v3′;fi v4′;fi v5′;fi v6′])得到,红外拼接特征fi t′由每部分红外局部降维特征fi tp′进行拼接得到,对可见光拼接特征fi v′、红外拼接特征fi t′采用基于异质中心的三元组损失:
Figure BDA0003631850580000041
式中,
Figure BDA0003631850580000042
基于可见光拼接特征fi v′得到,为第m个行人的P个可见光拼接特征的中心,
Figure BDA0003631850580000043
基于红外拼接特征fi t′得到,为第m个行人的P个红外拼接特征的中心。
具体的,所述步骤S4包括:
S4.1.将从具有注意力机制的特征提取网络得到的可见光特征fi v通过平均池化转换为可见光全局特征fi vg,然后将可见光全局特征fi vg通过由三层全连接神经网络和分类器构成的全局特征身份预测模块,得到第三层全连接层输出的可见光全局标签特征fi vg′、以及分类器输出的身份类别概率
Figure BDA0003631850580000044
Figure BDA0003631850580000045
为第i个可见光全局特征的身份类别概率;对红外特征fi t进行与可见光特征fi v相同的操作得到红外全局特征fi tg和红外全局标签特征fi tg′;其
Figure BDA0003631850580000046
如下:
Figure BDA0003631850580000047
式中,pg(fi vg′)表示可见光全局标签特征fi vg′生成的概率分布,exp()指以自然常数e为底的指数函数,
Figure BDA0003631850580000048
为全局特征身份预测模块中身份标签为yi的行人的分类器参数,
Figure BDA0003631850580000049
为全局特征身份预测模块中第m个行人的分类器参数;
同理可得到
Figure BDA00036318505800000410
局部特征挖掘模块中第i张可见光图像和红外图像对应的身份类别概率分别为
Figure BDA00036318505800000411
使用KL散度损失LKL来减少两个预测分布之间的距离:
Figure BDA00036318505800000412
式中,
Figure BDA00036318505800000413
测量分布
Figure BDA00036318505800000414
和分布
Figure BDA00036318505800000415
之间的相互关系散度;
S4.2.对可见光全局特征fi vg以及红外全局特征fi tg采用基于异质中心的三元组损失以提高全局特征的鉴别性,其损失为:
Figure BDA00036318505800000416
式中,
Figure BDA00036318505800000417
为第m个行人的可见光全局特征的中心,
Figure BDA00036318505800000418
为第m个行人的红外全局特征的中心;
Figure BDA00036318505800000419
Figure BDA00036318505800000420
分别基于可见光全局特征fi vg和红外全局特征fi tg得到;共有M个可见光特征中心
Figure BDA00036318505800000421
和M个红外特征中心
Figure BDA00036318505800000422
基于可见光全局标签特征fi vg′和红外全局标签特征fi tg′的分类损失为:
Figure BDA0003631850580000051
式中,pg(fi vg′)表示可见光全局标签特征fi vg′生成的概率分布,pg(fi tg′)表示红外全局标签特征fi tg′生成的概率分布。
具体的,所述步骤S5包括:
S5.1.模态判别器D包括两层全连接神经网络,其目标是区分输入图像的特征是可见光模态或红外模态;生成器G包括局部特征挖掘模块和预测一致性模块,其目标是在学习鉴别特征的同时让可见光特征和红外特征的模态差异最小化;模态判别器的分类损失为:
Figure BDA0003631850580000052
式中θD是判别器的参数;
生成器G的生成损失为:
Lgenidtrikl)=Lidid)+αLhc_tritri)+βLKDkl) (13)
式中,α、β为超参数,θid、θtri、θkl为生成器参数;
Figure BDA0003631850580000053
Figure BDA0003631850580000054
S5.2.生成器和模态判别器执行极大极小的博弈,判别器的参数在生成模型的阶段被固定,反之亦然;平衡生成模型和判别模型之间的训练过程,优化的总体目标为:
Figure BDA0003631850580000055
Figure BDA0003631850580000056
公式(14)中
Figure BDA0003631850580000057
表示函数取最小值时此时变量θid和θtri的取值;公式(15)中
Figure BDA0003631850580000058
表示函数取最大值时此时变量θD的取值。
与现有技术相比,本发明具有以下优点和有益效果:
1.本发明使用注意力模块加强深层特征的提取能力。该注意力模块包括通道注意力模块与空间注意力模块,是一种轻量级的通用模块,可以将其融入到各种卷积神经网络中进行端到端的训练。注意力模块使网络更加关注目标行人本身,能够把握重点信息。
2.本发明使用预测一致性模块使全局特征与局部特征进行身份匹配。预测一致性模块通过KL散度损失使全局特征的身份预测来监督局部特征的学习,从而保持全局特征和局部特征的可判别一致性。
3.本发明使用对抗学习模块减小可见光特征和红外特征的模态差异,通过对抗学习中的极大极小博弈策略将可见光特征和红外特征的模态差异最小化。
4.本发明通过采取上述有效措施,可使跨模态行人重识别检索率大大提高。
附图说明
图1为本发明的一种实施例方法的流程图。
图2为本发明的一种实施例的注意力模块整体图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
本发明的一种基于全局与局部特征的对抗学习模态行人重识别方法,如图1、图2所示,采用具有注意力机制的特征提取网络提取特征,该网络包括模态特定子模块、模态共享子模块以及注意力机制模块(包括通道注意力模块和空间注意力模块),然后通过局部特征学习模块、预测一致性模块和对抗学习模块共同处理特征。所述的通道注意力模块包含最大池化层、平均池化层、两层全连接神经网络以及Sigmoid激活函数。
其方法包括以下步骤:
S1.将选定的可见光图像样本集Xv和红外图像样本集Xt作为训练数据。其中,可见光图像样本集为
Figure BDA0003631850580000061
红外图像的样本集为
Figure BDA0003631850580000062
每个样本集包含M个行人,标签集为Y={yi|i=1,2,…,N},N代表可见光图像(红外图像)的数量。
S2.在卷积神经网络的基础上,加入注意力机制模块,以此构建具有注意力机制的特征提取网络,并将可见光图像样本和红外图像样本输入具有注意力机制的特征提取网络,从而获取特征。具有注意力机制的特征提取网络,包括模态特定子模块(包含可见光子模块
Figure BDA0003631850580000063
和红外子模块
Figure BDA0003631850580000064
)和模态共享子模块
Figure BDA0003631850580000065
(
Figure BDA0003631850580000066
包含
Figure BDA0003631850580000067
3个卷积块),将从训练数据集中选取的可见光图像样本
Figure BDA0003631850580000068
和红外图像样本
Figure BDA0003631850580000069
输入具有注意力机制的特征提取网络进行操作,将
Figure BDA00036318505800000610
输出的可见光中层特征Fi v输入注意力模块,得到注意力模块的可见光输出特征Fi v″,最后将特征Fi v″输入卷积块
Figure BDA00036318505800000611
得到可见光特征fi v,相同的,对红外中层特征Fi t进行和可见光中层特征Fi v相同的操作,能够得到红外特征fi t。在卷积块
Figure BDA00036318505800000612
Figure BDA00036318505800000613
之间加入通道注意力模块和空间注意力模块,加强深层特征的提取能力。
所述步骤S2的具体过程包括:
步骤S2.1.获取通道注意力模块的输出特征Fi v′。其中,所述步骤S2中对于
Figure BDA00036318505800000614
输出的可见光中层特征Fi v∈RC*H*W(C为通道数,H和W是空间维度),将可见光中层特征Fi v作为通道注意力模块的输入,首先对可见光中层特征Fi v在空间维度上进行最大池化和平均池化操作得到特征
Figure BDA0003631850580000071
Figure BDA0003631850580000072
然后将特征
Figure BDA0003631850580000073
Figure BDA0003631850580000074
输入到两层全连接神经网络中进行维度压缩,再将进行维度压缩后的特征
Figure BDA0003631850580000075
和特征
Figure BDA0003631850580000076
逐元素求和合并,最后得到1维的通道注意力特征Mc∈RC*1*1。如下所示:
Figure BDA0003631850580000077
式中,σ(·)表示Sigmoid激活函数,MLP表示两层全连接神经网络,AvgPool(·)表示平均池化,MaxPool(·)表示最大池化,W1,W0表示两层神经网络的权重参数。最后将通道注意力特征Mc与可见光中层特征Fi v进行乘积得到通道注意力模块的输出特征Fi v′,如下所示:
Figure BDA0003631850580000078
式中
Figure BDA0003631850580000079
为两个矩阵对应位置元素进行乘积。
步骤S2.2.获取可见光特征fi v和红外特征fi t。其中,所述步骤S2中将通道注意力模块的输出特征Fi v′作为空间注意力模块的输入特征,首先对空间注意力模块的输入特征Fi v′在通道维度上进行最大池化和平均池化操作得到特征
Figure BDA00036318505800000710
Figure BDA00036318505800000711
然后将得到的特征
Figure BDA00036318505800000712
和特征
Figure BDA00036318505800000713
在通道维度上进行拼接,再经过卷积核为7×7的卷积操作后通过Sigmoid激活层得到2维的空间注意力特征Ms∈R1*H*W,如下所示:
Figure BDA00036318505800000714
式中,F7×7表示卷积核为7×7的卷积操作,[;]表示对特征进行拼接。最后将空间注意力特征Ms与特征Fi v′做乘法得到空间注意力模块的输出特征Fi v″,如下所示:
Figure BDA00036318505800000715
再将空间注意力模块的输出特征Fi v″输入卷积块
Figure BDA00036318505800000716
得到可见光特征fi v。相同的,对红外中层特征Fi t进行和可见光中层特征Fi v相同的操作(先对红外中层特征Fi t在通道维度上进行最大池化和平均池化操作,并对最大池化和平均池化操作得到的特征进行拼接,后经过卷积核为7×7的卷积操作后通过Sigmoid激活层),能够得到红外特征fi t
S3.将从具有注意力机制的特征提取网络获得的可见光特征fi v,红外特征fi t输入局部特征学习模块进行操作,得到可见光局部特征fi vp和红外局部特征fi tp,可见光局部降维特征fi vp′和红外局部降维特征fi tp′,可见光局部标签特征fi vp″和红外局部标签特征fi tp″,可见光拼接特征fi v′和红外拼接特征fi t′
所述步骤S3的具体过程包括:
S3.1.对可见光特征fi v,红外特征fi t进行相应的操作。其中,所述步骤S3中对可见光特征fi v在水平方向上进行均匀划分,得到P个大小相同的可见光局部特征fi vp,p=1,2,…,6。然后对可见光局部特征fi vp先采用广义平均池化,再采用1×1的卷积核进行卷积得到可见光局部降维特征fi vp′。相同的,对红外特征fi t进行与可见光特征fi v相同的操作(先在水平方向进行均匀划分、再进行广义平均池化、最后采用1×1的卷积核进行卷积)得到红外局部降维特征fi tp′
S3.2.对可见光局部降维特征fi vp′,红外局部降维特征fi tp′求基于异质中心的三元组损失。其中,所述步骤S3中对每部分可见光局部降维特征fi vp′,红外局部降维特征fi tp′采用基于异质中心的三元组损失以提高局部特征的鉴别性,损失如下:
Figure BDA0003631850580000081
式中,min||·||+函数表示难样本挖掘,[·]+=max(·,0),ρ为间隔参数,||·||2为两个特征中心之间的欧式距离,
Figure BDA0003631850580000082
表示从m=1到m=M之间的结果进行求和。
Figure BDA0003631850580000083
分别为当前训练批次中第m个行人的可见光图像局部特征中心和红外图像局部特征中心。
Figure BDA0003631850580000084
分别为当前训练批次中第m个行人的第k张可见光图像局部特征的第p部分和第k张红外图像局部特征的第p部分。共有M个可见光局部特征中心
Figure BDA0003631850580000085
和M个红外局部特征中心
Figure BDA0003631850580000086
S3.3.对可见光局部标签特征fi vp″,红外局部标签特征fi tp″求分类损失。其中,所述步骤S3中对局部可见光降维特征fi vp′进行分类得到可见光局部标签特征fi vp″,对红外降维特征fi tp′进行分类得到红外局部标签特征fi tp″。基于可见光局部标签特征fi vp″和红外局部标签特征fi tp″的分类损失为:
Figure BDA0003631850580000087
pi(fi vp″)表示可见光局部标签特征fi vp″生成的概率分布,pi(fi tp″)表示红外局部标签特征fi tp″生成的概率分布。yi为对应图像的真实标签,log为对数运算。
S3.4.对可见光拼接特征fi v′,红外拼接特征fi t′求基于异质中心的三元组损失。其中,所述步骤S3中可见光拼接特征fi v′由每部分可见光局部降维特征fi vp′进行拼接([fi v1′;fi v2′;fi v3′;fi v4′;fi v5′;fi v6′])得到,红外拼接特征fi t′由每部分红外局部降维特征fi tp′进行拼接得到,对可见光拼接特征fi v′,红外拼接特征fi t′采用基于异质中心的三元组损失,损失如下:
Figure BDA0003631850580000088
式中,
Figure BDA0003631850580000089
基于可见光拼接特征fi v′得到,为第m个行人的P个可见光拼接特征的中心,
Figure BDA00036318505800000810
基于红外拼接特征fi t′得到,为第m个行人的P个红外拼接特征的中心。
S4.将从具有注意力机制的特征提取网络获得的可见光特征fi v,红外特征fi t输入预测一致性模块进行操作,得到可见光全局特征fi vg和红外全局特征fi tg,可见光全局标签特征fi vg′和红外全局标签特征fi tg′
所述步骤S4的具体过程包括:
S4.1.预测一致性操作。其中,所述步骤S4中将从具有注意力机制的特征提取网络得到的可见光特征fi v通过平均池化转换为可见光全局特征fi vg,然后将可见光全局特征fi vg通过由三层全连接神经网络和分类器构成的全局特征身份预测模块,得到第三层全连接层输出的可见光全局标签特征fi vg′,以及分类器输出的身份类别概率
Figure BDA0003631850580000091
对红外特征fi t进行与可见光特征fi v相同的操作得到红外全局特征fi tg和红外全局标签特征fi tg′
Figure BDA0003631850580000092
如下:
Figure BDA0003631850580000093
式中,pg(fi vg′)表示可见光全局标签特征fi vg′生成的概率分布,exp()指以自然常数e为底的指数函数,
Figure BDA0003631850580000094
为全局特征身份预测模块中身份标签为yi的行人的分类器参数,
Figure BDA0003631850580000095
为全局特征身份预测模块中第m个行人的分类器参数。同样的,可以得到
Figure BDA0003631850580000096
局部特征挖掘模块中第i张可见光图像和红外图像对应的身份类别概率分别为
Figure BDA0003631850580000097
其中,所述步骤S4中使用KL散度损失LKL来减少两个预测分布之间的距离,LKL损失为:
Figure BDA0003631850580000098
式中,
Figure BDA0003631850580000099
测量分布
Figure BDA00036318505800000910
和分布
Figure BDA00036318505800000911
之间的相互关系散度。
S4.2.对可见光全局特征fi vg,红外全局特征fi tg求基于异质中心的三元组损失。其中,所述步骤S4中对可见光全局特征fi vg以及红外全局特征fi tg采用基于异质中心的三元组损失以提高全局特征的鉴别性,损失如下:
Figure BDA00036318505800000912
式中,
Figure BDA00036318505800000913
为第m个行人的可见光全局特征的中心,
Figure BDA00036318505800000914
为第m个行人的红外全局特征的中心。
Figure BDA00036318505800000915
Figure BDA00036318505800000916
分别基于可见光全局特征fi vg和红外全局特征fi tg得到。共有M个可见光特征中心
Figure BDA00036318505800000917
和M个红外特征中心
Figure BDA00036318505800000918
基于可见光全局标签特征fi vg′和红外全局标签特征fi tg′的分类损失为:
Figure BDA00036318505800000919
式中,pg(fi vg′)表示可见光全局标签特征fi vg′生成的概率分布,pg(fi tg′)表示红外全局标签特征fi tg′生成的概率分布。
S5.将可见光拼接特征fi v′和红外拼接特征fi t′输入对抗学习模块进行处理。
所述步骤S5的具体过程包括:
S5.1.对生成器和判别器进行介绍。其中,所述步骤S5中,模态判别器D包括两层全连接神经网络,生成器G包括局部特征挖掘模块和预测一致性模块。判别器的目标是区分输入图像的特征是可见光模态或红外模态。生成器的目标是在学习鉴别特征的同时让可见光特征和红外特征的模态差异最小化。模态判别器的分类损失为:
Figure BDA0003631850580000101
式中θD是判别器的参数。生成器的生成损失为:
Lgenidtrikl)=Lidid)+αLhc_tritri)+βLKDkl) (13)
式中,α,β为超参数,θid,θtri,θkl为生成器参数。
Figure BDA0003631850580000102
Figure BDA0003631850580000103
S5.2.对生成器和判别器进行优化。其中,所述步骤S5中生成器和模态判别器执行极大极小的博弈,判别器的参数在生成模型的阶段被固定,反之亦然。平衡生成模型和判别模型之间的训练过程,优化的总体目标为:
Figure BDA0003631850580000104
Figure BDA0003631850580000105
公式(14)中
Figure BDA0003631850580000106
表示函数取最小值时此时变量θid和θtri的取值,公式(15)中
Figure BDA0003631850580000107
表示函数取最大值时此时变量θD的取值。
总之,本发明使用注意力模块加强深层特征的提取能力,通过预测一致性模块使全局特征与局部特征进行身份匹配,从而保持全局特征和局部特征的可判别一致性,并通过对抗学习模块减小可见光和红外特征的模态差异,大大提高了跨模态行人重识别的检索率。

Claims (5)

1.一种基于全局与局部特征的对抗学习模态行人重识别方法,其特征在于,包括以下步骤:
S1.将选定的可见光图像样本集Xv和红外图像样本集Xt作为训练数据;其中,可见光图像样本集为
Figure FDA0003631850570000011
红外图像的样本集为
Figure FDA0003631850570000012
每个样本集包含M个行人,标签集为Y={yi|i=1,2,…,N},N代表可见光图像或红外图像的数量;
S2.在卷积神经网络的基础上,加入注意力机制模块,构建具有注意力机制的特征提取网络;将可见光图像样本和红外图像样本输入具有注意力机制的特征提取网络获取特征;所述的具有注意力机制的特征提取网络,包括模态特定子模块和模态共享子模块
Figure FDA0003631850570000013
模态特定子模块包含可见光子模块
Figure FDA0003631850570000014
和红外子模块
Figure FDA0003631850570000015
模态共享子模块
Figure FDA0003631850570000016
包含
Figure FDA0003631850570000017
3个卷积块;
S3.将从具有注意力机制的特征提取网络获得的可见光特征fi v,红外特征fi t输入局部特征学习模块进行操作,得到可见光局部特征fi vp和红外局部特征fi tp、可见光局部降维特征fi vp′和红外局部降维特征fi tp′、可见光局部标签特征fi vp″和红外局部标签特征fi tp″、可见光拼接特征fi v′和红外拼接特征fi t′
S4.将从具有注意力机制的特征提取网络获得的可见光特征fi v、红外特征fi t输入预测一致性模块进行操作,得到可见光全局特征fi vg和红外全局特征fi tg、可见光全局标签特征fi vg′和红外全局标签特征fi tg′
S5.将可见光拼接特征fi v′和红外拼接特征fi t′输入对抗学习模块进行处理。
2.根据权利要求1所述的一种基于全局与局部特征的对抗学习模态行人重识别方法,其特征在于,所述步骤S2的具体过程包括:
步骤S2.1.获取通道注意力模块的输出特征Fi v′:将可见光中层特征Fi v作为通道注意力模块的输入,对可见光中层特征Fi v在空间维度上进行最大池化和平均池化操作得到特征
Figure FDA0003631850570000018
Figure FDA0003631850570000019
然后将特征
Figure FDA00036318505700000110
Figure FDA00036318505700000111
输入到两层全连接神经网络中进行维度压缩,再将进行维度压缩后的特征
Figure FDA00036318505700000112
和特征
Figure FDA00036318505700000113
逐元素求和合并,最后得到1维的通道注意力特征Mc∈RC*1*1
Figure FDA00036318505700000114
式中,σ(·)表示Sigmoid激活函数,MLP表示两层全连接神经网络,AvgPool(·)表示平均池化,MaxPool(·)表示最大池化,W1,W0表示两层神经网络的权重参数;
最后将通道注意力特征Mc与可见光中层特征Fi v进行乘积得到通道注意力模块的输出特征Fi v′
Figure FDA0003631850570000021
式中
Figure FDA0003631850570000022
为两个矩阵对应位置元素进行乘积;
步骤S2.2.获取可见光特征fi v和红外特征fi t:将通道注意力模块的输出特征Fi v′作为空间注意力模块的输入特征,首先对空间注意力模块的输入特征Fi v′在通道维度上进行最大池化和平均池化操作得到特征
Figure FDA0003631850570000023
Figure FDA0003631850570000024
然后将得到的特征
Figure FDA0003631850570000025
和特征
Figure FDA0003631850570000026
在通道维度上进行拼接,再经过卷积核为7×7的卷积操作后通过Sigmoid激活层得到2维的空间注意力特征Ms∈R1*H*W
Figure FDA0003631850570000027
式中,F7×7表示卷积核为7×7的卷积操作,[;]表示对特征进行拼接;
最后将空间注意力特征Ms与特征Fi v′做乘法得到空间注意力模块的输出特征Fi v″
Figure FDA0003631850570000028
再将空间注意力模块的输出特征Fi v″输入卷积块
Figure FDA0003631850570000029
得到可见光特征fi v;对红外中层特征Fi t进行和可见光中层特征Fi v相同的操作,得到红外特征fi t
3.根据权利要求1所述的一种基于全局与局部特征的对抗学习模态行人重识别方法,其特征在于,所述步骤S3具体包括:
S3.1.对可见光特征fi v在水平方向上进行均匀划分,得到P个大小相同的可见光局部特征fi vp,p=1,2,…,6;然后对可见光局部特征fi vp先采用广义平均池化;再采用1×1的卷积核进行卷积得到可见光局部降维特征fi vp′,对红外特征fi t进行相应的操作得到红外局部降维特征fi tp′
S3.2.对每部分可见光局部降维特征fi vp′、红外局部降维特征fi tp′采用基于异质中心的三元组损失以提高局部特征的鉴别性,损失如下:
Figure FDA00036318505700000210
式中,min||·||+函数表示难样本挖掘,[·]+=max(·,0),ρ为间隔参数,||·||2为两个特征中心之间的欧式距离,
Figure FDA00036318505700000211
表示从m=1到m=M之间的结果进行求和;
Figure FDA00036318505700000212
分别为当前训练批次中第m个行人的可见光图像局部特征中心和红外图像局部特征中心;
Figure FDA00036318505700000213
Figure FDA00036318505700000214
分别为当前训练批次中第m个行人的第k张可见光图像局部特征的第p部分和第k张红外图像局部特征的第p部分;共有M个可见光局部特征中心
Figure FDA00036318505700000215
和M个红外局部特征中心
Figure FDA00036318505700000216
S3.3.对局部可见光降维特征fi vp′进行分类得到可见光局部标签特征fi vp″,通过相同的操作得到红外局部标签特征fi tp″;基于可见光局部标签特征fi vp″和红外局部标签特征fi tp″的分类损失为:
Figure FDA0003631850570000031
式中,pi(fi vp″)表示可见光局部标签特征fi vp″生成的概率分布,pi(fi tp″)表示红外局部标签特征fi tp″生成的概率分布;yi为对应图像的真实标签,log为对数运算;
S3.4.可见光拼接特征fi v′由每部分可见光局部降维特征fi vp′进行拼接([fi v1′;fi v2′;fi v3′;fi v4′;fi v5′;fi v6′])得到,红外拼接特征fi t′由每部分红外局部降维特征fi tp′进行拼接得到,对可见光拼接特征fi v′、红外拼接特征fi t′采用基于异质中心的三元组损失:
Figure FDA0003631850570000032
式中,
Figure FDA0003631850570000033
基于可见光拼接特征fi v′得到,为第m个行人的P个可见光拼接特征的中心,
Figure FDA0003631850570000034
基于红外拼接特征fi t′得到,为第m个行人的P个红外拼接特征的中心。
4.根据权利要求1所述的一种基于全局与局部特征的对抗学习模态行人重识别方法,其特征在于,所述步骤S4具体包括:
S4.1.将从具有注意力机制的特征提取网络得到的可见光特征fi v通过平均池化转换为可见光全局特征fi vg,然后将可见光全局特征fi vg通过由三层全连接神经网络和分类器构成的全局特征身份预测模块,得到第三层全连接层输出的可见光全局标签特征fi vg′、以及分类器输出的身份类别概率
Figure FDA0003631850570000035
Figure FDA0003631850570000036
为第i个可见光全局特征的身份类别概率;对红外特征fi t进行与可见光特征fi v相同的操作得到红外全局特征fi tg和红外全局标签特征fi tg′;其中,
Figure FDA0003631850570000037
如下:
Figure FDA0003631850570000038
式中,pg(fi vg′)表示可见光全局标签特征fi vg′生成的概率分布,exp()指以自然常数e为底的指数函数,
Figure FDA0003631850570000039
为全局特征身份预测模块中身份标签为yi的行人的分类器参数,
Figure FDA00036318505700000310
为全局特征身份预测模块中第m个行人的分类器参数;
同理可得到
Figure FDA00036318505700000311
局部特征挖掘模块中第i张可见光图像和红外图像对应的身份类别概率分别为
Figure FDA00036318505700000312
使用KL散度损失LKL来减少两个预测分布之间的距离:
Figure FDA00036318505700000313
式中,
Figure FDA00036318505700000314
测量分布
Figure FDA00036318505700000315
和分布
Figure FDA00036318505700000316
之间的相互关系散度;
S4.2.对可见光全局特征fi vg以及红外全局特征fi tg采用基于异质中心的三元组损失以提高全局特征的鉴别性,其损失为:
Figure FDA0003631850570000041
式中,
Figure FDA0003631850570000042
为第m个行人的可见光全局特征的中心,
Figure FDA0003631850570000043
为第m个行人的红外全局特征的中心;
Figure FDA0003631850570000044
Figure FDA0003631850570000045
分别基于可见光全局特征fi vg和红外全局特征fi tg得到;共有M个可见光特征中心
Figure FDA0003631850570000046
和M个红外特征中心
Figure FDA0003631850570000047
基于可见光全局标签特征fi vg′和红外全局标签特征fi tg′的分类损失为:
Figure FDA0003631850570000048
式中,pg(fi vg′)表示可见光全局标签特征fi vg′生成的概率分布,pg(fi tg′)表示红外全局标签特征fi tg′生成的概率分布。
5.根据权利要求1所述的一种基于全局与局部特征的对抗学习模态行人重识别方法,其特征在于,所述步骤S5具体包括:
S5.1.模态判别器D包括两层全连接神经网络,其目标是区分输入图像的特征是可见光模态或红外模态;生成器G包括局部特征挖掘模块和预测一致性模块,其目标是在学习鉴别特征的同时让可见光特征和红外特征的模态差异最小化;模态判别器的分类损失为:
Figure FDA0003631850570000049
式中θD是判别器的参数;
生成器G的生成损失为:
Lgenidtrikl)=Lidid)+αLhc_tritri)+βLKDkl) (13)
式中,α、β为超参数,θid、θtri、θkl为生成器参数;
Figure FDA00036318505700000410
Figure FDA00036318505700000411
S5.2.生成器和模态判别器执行极大极小的博弈,判别器的参数在生成模型的阶段被固定,反之亦然;平衡生成模型和判别模型之间的训练过程,优化的总体目标为:
Figure FDA00036318505700000412
Figure FDA00036318505700000413
公式(14)中
Figure FDA00036318505700000414
表示函数取最小值时此时变量θid和θtri的取值;公式(15)中
Figure FDA00036318505700000415
表示函数取最大值时此时变量θD的取值。
CN202210493056.XA 2022-05-07 2022-05-07 一种基于全局与局部特征的对抗学习跨模态行人重识别方法 Pending CN115063832A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210493056.XA CN115063832A (zh) 2022-05-07 2022-05-07 一种基于全局与局部特征的对抗学习跨模态行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210493056.XA CN115063832A (zh) 2022-05-07 2022-05-07 一种基于全局与局部特征的对抗学习跨模态行人重识别方法

Publications (1)

Publication Number Publication Date
CN115063832A true CN115063832A (zh) 2022-09-16

Family

ID=83197038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210493056.XA Pending CN115063832A (zh) 2022-05-07 2022-05-07 一种基于全局与局部特征的对抗学习跨模态行人重识别方法

Country Status (1)

Country Link
CN (1) CN115063832A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524542A (zh) * 2023-05-08 2023-08-01 杭州像素元科技有限公司 一种基于细粒度特征的跨模态行人重识别方法及装置
CN116612439A (zh) * 2023-07-20 2023-08-18 华侨大学 模态域适应性和特征鉴别性平衡方法及行人再辨识方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524542A (zh) * 2023-05-08 2023-08-01 杭州像素元科技有限公司 一种基于细粒度特征的跨模态行人重识别方法及装置
CN116524542B (zh) * 2023-05-08 2023-10-31 杭州像素元科技有限公司 一种基于细粒度特征的跨模态行人重识别方法及装置
CN116612439A (zh) * 2023-07-20 2023-08-18 华侨大学 模态域适应性和特征鉴别性平衡方法及行人再辨识方法
CN116612439B (zh) * 2023-07-20 2023-10-31 华侨大学 模态域适应性和特征鉴别性平衡方法及行人再辨识方法

Similar Documents

Publication Publication Date Title
CN108960140B (zh) 基于多区域特征提取和融合的行人再识别方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN109241317B (zh) 基于深度学习网络中度量损失的行人哈希检索方法
CN111639544B (zh) 基于多分支跨连接卷积神经网络的表情识别方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN109241817B (zh) 一种无人机拍摄的农作物图像识别方法
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
Li et al. Adaptive deep convolutional neural networks for scene-specific object detection
CN110321830B (zh) 一种基于神经网络的中文字符串图片ocr识别方法
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
CN115063832A (zh) 一种基于全局与局部特征的对抗学习跨模态行人重识别方法
Zhao et al. SEV‐Net: Residual network embedded with attention mechanism for plant disease severity detection
CN108416270B (zh) 一种基于多属性联合特征的交通标志识别方法
CN111738143A (zh) 一种基于期望最大化的行人重识别方法
CN114241053A (zh) 基于改进的注意力机制FairMOT多类别跟踪方法
CN113177612A (zh) 一种基于cnn少样本的农业病虫害图像识别方法
Rehman et al. Deep learning for video classification: A review
CN116052212A (zh) 一种基于双重自监督学习的半监督跨模态行人重识别方法
CN112766378A (zh) 一种专注细粒度识别的跨域小样本图像分类模型方法
CN111898418A (zh) 一种基于t-tiny-yolo网络的人体异常行为检测方法
Symeonidis et al. Neural attention-driven non-maximum suppression for person detection
CN110516540B (zh) 基于多流架构与长短时记忆网络的组群行为识别方法
CN115050044B (zh) 一种基于MLP-Mixer的跨模态行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination