CN115063832A - 一种基于全局与局部特征的对抗学习跨模态行人重识别方法 - Google Patents
一种基于全局与局部特征的对抗学习跨模态行人重识别方法 Download PDFInfo
- Publication number
- CN115063832A CN115063832A CN202210493056.XA CN202210493056A CN115063832A CN 115063832 A CN115063832 A CN 115063832A CN 202210493056 A CN202210493056 A CN 202210493056A CN 115063832 A CN115063832 A CN 115063832A
- Authority
- CN
- China
- Prior art keywords
- visible light
- feature
- infrared
- characteristic
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于全局与局部特征的对抗学习跨模态行人重识别方法,包括:将选定的可见光图像样本集Xv和红外图像样本集Xt作为训练数据;将可见光图像样本和红外图像样本输入所构建的具有注意力机制的特征提取网络获取特征;将从具有注意力机制的特征提取网络获得的可见光特征fi v、红外特征fi t输入局部特征学习模块进行操作;将从具有注意力机制的特征提取网络获得的可见光特征fi v、红外特征fi t输入预测一致性模块进行操作;将可见光拼接特征fi v′和红外拼接特征fi t′输入对抗学习模块进行处理。本发明可有效减小可见光和红外特征的模态差异,大大提高了跨模态行人重识别的检索率。
Description
技术领域
本发明属于计算机视觉技术领域,涉及到特征提取与处理以及减小模态差异的方法,尤其涉及一种基于全局与局部特征的对抗学习跨模态行人重识别方法。
背景技术
行人重识别(Re-ID)是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,被认为是一个图像检索的子问题。由于行人重识别在计算机视觉领域和实际视频监控应用中具有广泛的应用前景,因此受到了学者们越来越多的关注。近年来,单模态行人重识别得到了快速发展,并取得了良好的识别性能。单模态行人重识别一般拍摄可见光图像,主要解决相机带来的视图变化,以及行人姿势和背景不同造成的模态内差异问题。单模态行人重识别所检索的图像大多为白天所拍摄的图像,但现实生活中往往很多场景都是在夜晚或者黑暗环境下发生,例如许多犯罪事件往往在晚上发生。单模态行人重识无法满足这部分场合的要求。
跨模态行人重识别由可见光相机和红外相机拍摄可见光图像和红外图像。由于可见光相机和红外相机光谱的波长不同会带来两种图像之间的模态差异。跨模态行人重识别既要解决单模态行人重识别的模态内差异问题,又要解决可见光图像和红外图像两种不同模态的异质数据模态间差异问题。为此,研究者们提出一系列的解决方案。如Zhu等人利用一种双通道局部特征网络学习局部特征,并提出异中心损失约束两种异构模态的中心,以此监督网络学习模态不变的信息表示(Neurocomputing,2020,386:97-109)。Wei等人使用一种自适应分割策略进行分块得到局部特征,同时将全局特征与局部特征结合学习判别特征和模态不变特征(IEEE Transactions on Neural Networks and Learning Systems,2021,pp.1-12)。但是,这些方法仍然存在下述缺陷:不能充分提取全局与局部特征,对特征的鉴别性差,无法有效消除模态差异。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种基于全局与局部特征的跨模态行人重识别方法,通过引入的注意力机制提取深层特征、局部特征与全局特征进行身份匹配以及生成对抗网络来减小模态差异。
为解决上述技术问题,本发明采用以下技术方案。
一种基于全局与局部特征的对抗学习模态行人重识别方法,包括以下步骤:
S1.将选定的可见光图像样本集Xv和红外图像样本集Xt作为训练数据。其中,可见光图像样本集为红外图像的样本集为每个样本集包含M个行人,标签集为Y={yi|i=1,2,…,N},N代表可见光图像或红外图像的数量;
S2.在卷积神经网络的基础上,加入注意力机制模块,以此构建具有注意力机制的特征提取网络;将可见光图像样本和红外图像样本输入具有注意力机制的特征提取网络获取特征;所述的具有注意力机制的特征提取网络,包括模态特定子模块和模态共享子模块模态特定子模块包含可见光子模块和红外子模块模态共享子模块包含3个卷积块;
S3.将从具有注意力机制的特征提取网络获得的可见光特征fi v,红外特征fi t输入局部特征学习模块进行操作,得到可见光局部特征fi vp和红外局部特征fi tp、可见光局部降维特征fi vp′和红外局部降维特征fi tp′、可见光局部标签特征fi vp″和红外局部标签特征fi tp″、可见光拼接特征fi v′和红外拼接特征fi t′;
S4.将从具有注意力机制的特征提取网络获得的可见光特征fi v、红外特征fi t输入预测一致性模块进行操作,得到可见光全局特征fi vg和红外全局特征fi tg、可见光全局标签特征fi vg′和红外全局标签特征fi tg′;
S5.将可见光拼接特征fi v′和红外拼接特征fi t′输入对抗学习模块进行处理。
具体的,所述步骤S2的过程包括:
步骤S2.1.获取通道注意力模块的输出特征Fi v′:将可见光中层特征Fi v作为通道注意力模块的输入,对可见光中层特征Fi v在空间维度上进行最大池化和平均池化操作得到特征和然后将特征和输入到两层全连接神经网络中进行维度压缩,再将进行维度压缩后的特征和特征逐元素求和合并,最后得到1维的通道注意力特征Mc∈RC *1*1:
式中,σ(·)表示Sigmoid激活函数,MLP表示两层全连接神经网络,AvgPool(·)表示平均池化,MaxPool(·)表示最大池化,W1,W0表示两层神经网络的权重参数;
最后将通道注意力特征Mc与可见光中层特征Fi v进行乘积得到通道注意力模块的输出特征Fi v′:
步骤S2.2.获取可见光特征fi v和红外特征fi t:将通道注意力模块的输出特征Fi v′作为空间注意力模块的输入特征,首先对空间注意力模块的输入特征Fi v′在通道维度上进行最大池化和平均池化操作得到特征和然后将得到的特征和特征在通道维度上进行拼接,再经过卷积核为7×7的卷积操作后通过Sigmoid激活层得到2维的空间注意力特征Ms∈R1*H*W:
式中,F7×7表示卷积核为7×7的卷积操作,[;]表示对特征进行拼接;
最后将空间注意力特征Ms与特征Fi v′做乘法得到空间注意力模块的输出特征Fi v″:
具体的,所述步骤S3包括:
S3.1.对可见光特征fi v在水平方向上进行均匀划分,得到P个大小相同的可见光局部特征fi vp,p=1,2,…,6;然后对可见光局部特征fi vp先采用广义平均池化;再采用1×1的卷积核进行卷积得到可见光局部降维特征fi vp′,对红外特征fi t进行对应的操作得到红外局部降维特征fi tp′;
S3.2.对每部分可见光局部降维特征fi vp′、红外局部降维特征fi tp′采用基于异质中心的三元组损失以提高局部特征的鉴别性,损失如下:
式中,min||·||+函数表示难样本挖掘,[·]+=max(·,0),ρ为间隔参数,||·||2为两个特征中心之间的欧式距离,表示从m=1到m=M之间的结果进行求和;分别为当前训练批次中第m个行人的可见光图像局部特征中心和红外图像局部特征中心; 分别为当前训练批次中第m个行人的第k张可见光图像局部特征的第p部分和第k张红外图像局部特征的第p部分;共有M个可见光局部特征中心和M个红外局部特征中心
S3.3.对局部可见光降维特征fi vp′进行分类得到可见光局部标签特征fi vp″,通过相同的操作得到红外局部标签特征fi tp″;基于可见光局部标签特征fi vp″和红外局部标签特征fi tp″的分类损失为:
式中,pi(fi vp″)表示可见光局部标签特征fi vp″生成的概率分布,pi(fi tp″)表示红外局部标签特征fi tp″生成的概率分布;yi为对应图像的真实标签,log为对数运算;
S3.4.可见光拼接特征fi v′由每部分可见光局部降维特征fi vp′进行拼接([fi v1′;fi v2′;fi v3′;fi v4′;fi v5′;fi v6′])得到,红外拼接特征fi t′由每部分红外局部降维特征fi tp′进行拼接得到,对可见光拼接特征fi v′、红外拼接特征fi t′采用基于异质中心的三元组损失:
具体的,所述步骤S4包括:
S4.1.将从具有注意力机制的特征提取网络得到的可见光特征fi v通过平均池化转换为可见光全局特征fi vg,然后将可见光全局特征fi vg通过由三层全连接神经网络和分类器构成的全局特征身份预测模块,得到第三层全连接层输出的可见光全局标签特征fi vg′、以及分类器输出的身份类别概率 为第i个可见光全局特征的身份类别概率;对红外特征fi t进行与可见光特征fi v相同的操作得到红外全局特征fi tg和红外全局标签特征fi tg′;其如下:
式中,pg(fi vg′)表示可见光全局标签特征fi vg′生成的概率分布,exp()指以自然常数e为底的指数函数,为全局特征身份预测模块中身份标签为yi的行人的分类器参数,为全局特征身份预测模块中第m个行人的分类器参数;
使用KL散度损失LKL来减少两个预测分布之间的距离:
S4.2.对可见光全局特征fi vg以及红外全局特征fi tg采用基于异质中心的三元组损失以提高全局特征的鉴别性,其损失为:
式中,为第m个行人的可见光全局特征的中心,为第m个行人的红外全局特征的中心;和分别基于可见光全局特征fi vg和红外全局特征fi tg得到;共有M个可见光特征中心和M个红外特征中心基于可见光全局标签特征fi vg′和红外全局标签特征fi tg′的分类损失为:
式中,pg(fi vg′)表示可见光全局标签特征fi vg′生成的概率分布,pg(fi tg′)表示红外全局标签特征fi tg′生成的概率分布。
具体的,所述步骤S5包括:
S5.1.模态判别器D包括两层全连接神经网络,其目标是区分输入图像的特征是可见光模态或红外模态;生成器G包括局部特征挖掘模块和预测一致性模块,其目标是在学习鉴别特征的同时让可见光特征和红外特征的模态差异最小化;模态判别器的分类损失为:
式中θD是判别器的参数;
生成器G的生成损失为:
Lgen(θid,θtri,θkl)=Lid(θid)+αLhc_tri(θtri)+βLKD(θkl) (13)
S5.2.生成器和模态判别器执行极大极小的博弈,判别器的参数在生成模型的阶段被固定,反之亦然;平衡生成模型和判别模型之间的训练过程,优化的总体目标为:
与现有技术相比,本发明具有以下优点和有益效果:
1.本发明使用注意力模块加强深层特征的提取能力。该注意力模块包括通道注意力模块与空间注意力模块,是一种轻量级的通用模块,可以将其融入到各种卷积神经网络中进行端到端的训练。注意力模块使网络更加关注目标行人本身,能够把握重点信息。
2.本发明使用预测一致性模块使全局特征与局部特征进行身份匹配。预测一致性模块通过KL散度损失使全局特征的身份预测来监督局部特征的学习,从而保持全局特征和局部特征的可判别一致性。
3.本发明使用对抗学习模块减小可见光特征和红外特征的模态差异,通过对抗学习中的极大极小博弈策略将可见光特征和红外特征的模态差异最小化。
4.本发明通过采取上述有效措施,可使跨模态行人重识别检索率大大提高。
附图说明
图1为本发明的一种实施例方法的流程图。
图2为本发明的一种实施例的注意力模块整体图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
本发明的一种基于全局与局部特征的对抗学习模态行人重识别方法,如图1、图2所示,采用具有注意力机制的特征提取网络提取特征,该网络包括模态特定子模块、模态共享子模块以及注意力机制模块(包括通道注意力模块和空间注意力模块),然后通过局部特征学习模块、预测一致性模块和对抗学习模块共同处理特征。所述的通道注意力模块包含最大池化层、平均池化层、两层全连接神经网络以及Sigmoid激活函数。
其方法包括以下步骤:
S1.将选定的可见光图像样本集Xv和红外图像样本集Xt作为训练数据。其中,可见光图像样本集为红外图像的样本集为每个样本集包含M个行人,标签集为Y={yi|i=1,2,…,N},N代表可见光图像(红外图像)的数量。
S2.在卷积神经网络的基础上,加入注意力机制模块,以此构建具有注意力机制的特征提取网络,并将可见光图像样本和红外图像样本输入具有注意力机制的特征提取网络,从而获取特征。具有注意力机制的特征提取网络,包括模态特定子模块(包含可见光子模块和红外子模块)和模态共享子模块(包含3个卷积块),将从训练数据集中选取的可见光图像样本和红外图像样本输入具有注意力机制的特征提取网络进行操作,将输出的可见光中层特征Fi v输入注意力模块,得到注意力模块的可见光输出特征Fi v″,最后将特征Fi v″输入卷积块得到可见光特征fi v,相同的,对红外中层特征Fi t进行和可见光中层特征Fi v相同的操作,能够得到红外特征fi t。在卷积块和之间加入通道注意力模块和空间注意力模块,加强深层特征的提取能力。
所述步骤S2的具体过程包括:
步骤S2.1.获取通道注意力模块的输出特征Fi v′。其中,所述步骤S2中对于输出的可见光中层特征Fi v∈RC*H*W(C为通道数,H和W是空间维度),将可见光中层特征Fi v作为通道注意力模块的输入,首先对可见光中层特征Fi v在空间维度上进行最大池化和平均池化操作得到特征和然后将特征和输入到两层全连接神经网络中进行维度压缩,再将进行维度压缩后的特征和特征逐元素求和合并,最后得到1维的通道注意力特征Mc∈RC*1*1。如下所示:
式中,σ(·)表示Sigmoid激活函数,MLP表示两层全连接神经网络,AvgPool(·)表示平均池化,MaxPool(·)表示最大池化,W1,W0表示两层神经网络的权重参数。最后将通道注意力特征Mc与可见光中层特征Fi v进行乘积得到通道注意力模块的输出特征Fi v′,如下所示:
步骤S2.2.获取可见光特征fi v和红外特征fi t。其中,所述步骤S2中将通道注意力模块的输出特征Fi v′作为空间注意力模块的输入特征,首先对空间注意力模块的输入特征Fi v′在通道维度上进行最大池化和平均池化操作得到特征和然后将得到的特征和特征在通道维度上进行拼接,再经过卷积核为7×7的卷积操作后通过Sigmoid激活层得到2维的空间注意力特征Ms∈R1*H*W,如下所示:
式中,F7×7表示卷积核为7×7的卷积操作,[;]表示对特征进行拼接。最后将空间注意力特征Ms与特征Fi v′做乘法得到空间注意力模块的输出特征Fi v″,如下所示:
再将空间注意力模块的输出特征Fi v″输入卷积块得到可见光特征fi v。相同的,对红外中层特征Fi t进行和可见光中层特征Fi v相同的操作(先对红外中层特征Fi t在通道维度上进行最大池化和平均池化操作,并对最大池化和平均池化操作得到的特征进行拼接,后经过卷积核为7×7的卷积操作后通过Sigmoid激活层),能够得到红外特征fi t。
S3.将从具有注意力机制的特征提取网络获得的可见光特征fi v,红外特征fi t输入局部特征学习模块进行操作,得到可见光局部特征fi vp和红外局部特征fi tp,可见光局部降维特征fi vp′和红外局部降维特征fi tp′,可见光局部标签特征fi vp″和红外局部标签特征fi tp″,可见光拼接特征fi v′和红外拼接特征fi t′。
所述步骤S3的具体过程包括:
S3.1.对可见光特征fi v,红外特征fi t进行相应的操作。其中,所述步骤S3中对可见光特征fi v在水平方向上进行均匀划分,得到P个大小相同的可见光局部特征fi vp,p=1,2,…,6。然后对可见光局部特征fi vp先采用广义平均池化,再采用1×1的卷积核进行卷积得到可见光局部降维特征fi vp′。相同的,对红外特征fi t进行与可见光特征fi v相同的操作(先在水平方向进行均匀划分、再进行广义平均池化、最后采用1×1的卷积核进行卷积)得到红外局部降维特征fi tp′。
S3.2.对可见光局部降维特征fi vp′,红外局部降维特征fi tp′求基于异质中心的三元组损失。其中,所述步骤S3中对每部分可见光局部降维特征fi vp′,红外局部降维特征fi tp′采用基于异质中心的三元组损失以提高局部特征的鉴别性,损失如下:
式中,min||·||+函数表示难样本挖掘,[·]+=max(·,0),ρ为间隔参数,||·||2为两个特征中心之间的欧式距离,表示从m=1到m=M之间的结果进行求和。分别为当前训练批次中第m个行人的可见光图像局部特征中心和红外图像局部特征中心。分别为当前训练批次中第m个行人的第k张可见光图像局部特征的第p部分和第k张红外图像局部特征的第p部分。共有M个可见光局部特征中心和M个红外局部特征中心
S3.3.对可见光局部标签特征fi vp″,红外局部标签特征fi tp″求分类损失。其中,所述步骤S3中对局部可见光降维特征fi vp′进行分类得到可见光局部标签特征fi vp″,对红外降维特征fi tp′进行分类得到红外局部标签特征fi tp″。基于可见光局部标签特征fi vp″和红外局部标签特征fi tp″的分类损失为:
pi(fi vp″)表示可见光局部标签特征fi vp″生成的概率分布,pi(fi tp″)表示红外局部标签特征fi tp″生成的概率分布。yi为对应图像的真实标签,log为对数运算。
S3.4.对可见光拼接特征fi v′,红外拼接特征fi t′求基于异质中心的三元组损失。其中,所述步骤S3中可见光拼接特征fi v′由每部分可见光局部降维特征fi vp′进行拼接([fi v1′;fi v2′;fi v3′;fi v4′;fi v5′;fi v6′])得到,红外拼接特征fi t′由每部分红外局部降维特征fi tp′进行拼接得到,对可见光拼接特征fi v′,红外拼接特征fi t′采用基于异质中心的三元组损失,损失如下:
S4.将从具有注意力机制的特征提取网络获得的可见光特征fi v,红外特征fi t输入预测一致性模块进行操作,得到可见光全局特征fi vg和红外全局特征fi tg,可见光全局标签特征fi vg′和红外全局标签特征fi tg′。
所述步骤S4的具体过程包括:
S4.1.预测一致性操作。其中,所述步骤S4中将从具有注意力机制的特征提取网络得到的可见光特征fi v通过平均池化转换为可见光全局特征fi vg,然后将可见光全局特征fi vg通过由三层全连接神经网络和分类器构成的全局特征身份预测模块,得到第三层全连接层输出的可见光全局标签特征fi vg′,以及分类器输出的身份类别概率对红外特征fi t进行与可见光特征fi v相同的操作得到红外全局特征fi tg和红外全局标签特征fi tg′。如下:
式中,pg(fi vg′)表示可见光全局标签特征fi vg′生成的概率分布,exp()指以自然常数e为底的指数函数,为全局特征身份预测模块中身份标签为yi的行人的分类器参数,为全局特征身份预测模块中第m个行人的分类器参数。同样的,可以得到局部特征挖掘模块中第i张可见光图像和红外图像对应的身份类别概率分别为
其中,所述步骤S4中使用KL散度损失LKL来减少两个预测分布之间的距离,LKL损失为:
S4.2.对可见光全局特征fi vg,红外全局特征fi tg求基于异质中心的三元组损失。其中,所述步骤S4中对可见光全局特征fi vg以及红外全局特征fi tg采用基于异质中心的三元组损失以提高全局特征的鉴别性,损失如下:
式中,为第m个行人的可见光全局特征的中心,为第m个行人的红外全局特征的中心。和分别基于可见光全局特征fi vg和红外全局特征fi tg得到。共有M个可见光特征中心和M个红外特征中心基于可见光全局标签特征fi vg′和红外全局标签特征fi tg′的分类损失为:
式中,pg(fi vg′)表示可见光全局标签特征fi vg′生成的概率分布,pg(fi tg′)表示红外全局标签特征fi tg′生成的概率分布。
S5.将可见光拼接特征fi v′和红外拼接特征fi t′输入对抗学习模块进行处理。
所述步骤S5的具体过程包括:
S5.1.对生成器和判别器进行介绍。其中,所述步骤S5中,模态判别器D包括两层全连接神经网络,生成器G包括局部特征挖掘模块和预测一致性模块。判别器的目标是区分输入图像的特征是可见光模态或红外模态。生成器的目标是在学习鉴别特征的同时让可见光特征和红外特征的模态差异最小化。模态判别器的分类损失为:
式中θD是判别器的参数。生成器的生成损失为:
Lgen(θid,θtri,θkl)=Lid(θid)+αLhc_tri(θtri)+βLKD(θkl) (13)
S5.2.对生成器和判别器进行优化。其中,所述步骤S5中生成器和模态判别器执行极大极小的博弈,判别器的参数在生成模型的阶段被固定,反之亦然。平衡生成模型和判别模型之间的训练过程,优化的总体目标为:
总之,本发明使用注意力模块加强深层特征的提取能力,通过预测一致性模块使全局特征与局部特征进行身份匹配,从而保持全局特征和局部特征的可判别一致性,并通过对抗学习模块减小可见光和红外特征的模态差异,大大提高了跨模态行人重识别的检索率。
Claims (5)
1.一种基于全局与局部特征的对抗学习模态行人重识别方法,其特征在于,包括以下步骤:
S1.将选定的可见光图像样本集Xv和红外图像样本集Xt作为训练数据;其中,可见光图像样本集为红外图像的样本集为每个样本集包含M个行人,标签集为Y={yi|i=1,2,…,N},N代表可见光图像或红外图像的数量;
S2.在卷积神经网络的基础上,加入注意力机制模块,构建具有注意力机制的特征提取网络;将可见光图像样本和红外图像样本输入具有注意力机制的特征提取网络获取特征;所述的具有注意力机制的特征提取网络,包括模态特定子模块和模态共享子模块模态特定子模块包含可见光子模块和红外子模块模态共享子模块包含3个卷积块;
S3.将从具有注意力机制的特征提取网络获得的可见光特征fi v,红外特征fi t输入局部特征学习模块进行操作,得到可见光局部特征fi vp和红外局部特征fi tp、可见光局部降维特征fi vp′和红外局部降维特征fi tp′、可见光局部标签特征fi vp″和红外局部标签特征fi tp″、可见光拼接特征fi v′和红外拼接特征fi t′;
S4.将从具有注意力机制的特征提取网络获得的可见光特征fi v、红外特征fi t输入预测一致性模块进行操作,得到可见光全局特征fi vg和红外全局特征fi tg、可见光全局标签特征fi vg′和红外全局标签特征fi tg′;
S5.将可见光拼接特征fi v′和红外拼接特征fi t′输入对抗学习模块进行处理。
2.根据权利要求1所述的一种基于全局与局部特征的对抗学习模态行人重识别方法,其特征在于,所述步骤S2的具体过程包括:
步骤S2.1.获取通道注意力模块的输出特征Fi v′:将可见光中层特征Fi v作为通道注意力模块的输入,对可见光中层特征Fi v在空间维度上进行最大池化和平均池化操作得到特征和然后将特征和输入到两层全连接神经网络中进行维度压缩,再将进行维度压缩后的特征和特征逐元素求和合并,最后得到1维的通道注意力特征Mc∈RC*1*1:
式中,σ(·)表示Sigmoid激活函数,MLP表示两层全连接神经网络,AvgPool(·)表示平均池化,MaxPool(·)表示最大池化,W1,W0表示两层神经网络的权重参数;
最后将通道注意力特征Mc与可见光中层特征Fi v进行乘积得到通道注意力模块的输出特征Fi v′:
步骤S2.2.获取可见光特征fi v和红外特征fi t:将通道注意力模块的输出特征Fi v′作为空间注意力模块的输入特征,首先对空间注意力模块的输入特征Fi v′在通道维度上进行最大池化和平均池化操作得到特征和然后将得到的特征和特征在通道维度上进行拼接,再经过卷积核为7×7的卷积操作后通过Sigmoid激活层得到2维的空间注意力特征Ms∈R1*H*W:
式中,F7×7表示卷积核为7×7的卷积操作,[;]表示对特征进行拼接;
最后将空间注意力特征Ms与特征Fi v′做乘法得到空间注意力模块的输出特征Fi v″:
3.根据权利要求1所述的一种基于全局与局部特征的对抗学习模态行人重识别方法,其特征在于,所述步骤S3具体包括:
S3.1.对可见光特征fi v在水平方向上进行均匀划分,得到P个大小相同的可见光局部特征fi vp,p=1,2,…,6;然后对可见光局部特征fi vp先采用广义平均池化;再采用1×1的卷积核进行卷积得到可见光局部降维特征fi vp′,对红外特征fi t进行相应的操作得到红外局部降维特征fi tp′;
S3.2.对每部分可见光局部降维特征fi vp′、红外局部降维特征fi tp′采用基于异质中心的三元组损失以提高局部特征的鉴别性,损失如下:
式中,min||·||+函数表示难样本挖掘,[·]+=max(·,0),ρ为间隔参数,||·||2为两个特征中心之间的欧式距离,表示从m=1到m=M之间的结果进行求和;分别为当前训练批次中第m个行人的可见光图像局部特征中心和红外图像局部特征中心; 分别为当前训练批次中第m个行人的第k张可见光图像局部特征的第p部分和第k张红外图像局部特征的第p部分;共有M个可见光局部特征中心和M个红外局部特征中心
S3.3.对局部可见光降维特征fi vp′进行分类得到可见光局部标签特征fi vp″,通过相同的操作得到红外局部标签特征fi tp″;基于可见光局部标签特征fi vp″和红外局部标签特征fi tp″的分类损失为:
式中,pi(fi vp″)表示可见光局部标签特征fi vp″生成的概率分布,pi(fi tp″)表示红外局部标签特征fi tp″生成的概率分布;yi为对应图像的真实标签,log为对数运算;
S3.4.可见光拼接特征fi v′由每部分可见光局部降维特征fi vp′进行拼接([fi v1′;fi v2′;fi v3′;fi v4′;fi v5′;fi v6′])得到,红外拼接特征fi t′由每部分红外局部降维特征fi tp′进行拼接得到,对可见光拼接特征fi v′、红外拼接特征fi t′采用基于异质中心的三元组损失:
4.根据权利要求1所述的一种基于全局与局部特征的对抗学习模态行人重识别方法,其特征在于,所述步骤S4具体包括:
S4.1.将从具有注意力机制的特征提取网络得到的可见光特征fi v通过平均池化转换为可见光全局特征fi vg,然后将可见光全局特征fi vg通过由三层全连接神经网络和分类器构成的全局特征身份预测模块,得到第三层全连接层输出的可见光全局标签特征fi vg′、以及分类器输出的身份类别概率 为第i个可见光全局特征的身份类别概率;对红外特征fi t进行与可见光特征fi v相同的操作得到红外全局特征fi tg和红外全局标签特征fi tg′;其中,如下:
式中,pg(fi vg′)表示可见光全局标签特征fi vg′生成的概率分布,exp()指以自然常数e为底的指数函数,为全局特征身份预测模块中身份标签为yi的行人的分类器参数,为全局特征身份预测模块中第m个行人的分类器参数;
使用KL散度损失LKL来减少两个预测分布之间的距离:
S4.2.对可见光全局特征fi vg以及红外全局特征fi tg采用基于异质中心的三元组损失以提高全局特征的鉴别性,其损失为:
式中,为第m个行人的可见光全局特征的中心,为第m个行人的红外全局特征的中心;和分别基于可见光全局特征fi vg和红外全局特征fi tg得到;共有M个可见光特征中心和M个红外特征中心基于可见光全局标签特征fi vg′和红外全局标签特征fi tg′的分类损失为:
式中,pg(fi vg′)表示可见光全局标签特征fi vg′生成的概率分布,pg(fi tg′)表示红外全局标签特征fi tg′生成的概率分布。
5.根据权利要求1所述的一种基于全局与局部特征的对抗学习模态行人重识别方法,其特征在于,所述步骤S5具体包括:
S5.1.模态判别器D包括两层全连接神经网络,其目标是区分输入图像的特征是可见光模态或红外模态;生成器G包括局部特征挖掘模块和预测一致性模块,其目标是在学习鉴别特征的同时让可见光特征和红外特征的模态差异最小化;模态判别器的分类损失为:
式中θD是判别器的参数;
生成器G的生成损失为:
Lgen(θid,θtri,θkl)=Lid(θid)+αLhc_tri(θtri)+βLKD(θkl) (13)
S5.2.生成器和模态判别器执行极大极小的博弈,判别器的参数在生成模型的阶段被固定,反之亦然;平衡生成模型和判别模型之间的训练过程,优化的总体目标为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210493056.XA CN115063832A (zh) | 2022-05-07 | 2022-05-07 | 一种基于全局与局部特征的对抗学习跨模态行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210493056.XA CN115063832A (zh) | 2022-05-07 | 2022-05-07 | 一种基于全局与局部特征的对抗学习跨模态行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115063832A true CN115063832A (zh) | 2022-09-16 |
Family
ID=83197038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210493056.XA Pending CN115063832A (zh) | 2022-05-07 | 2022-05-07 | 一种基于全局与局部特征的对抗学习跨模态行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115063832A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524542A (zh) * | 2023-05-08 | 2023-08-01 | 杭州像素元科技有限公司 | 一种基于细粒度特征的跨模态行人重识别方法及装置 |
CN116612439A (zh) * | 2023-07-20 | 2023-08-18 | 华侨大学 | 模态域适应性和特征鉴别性平衡方法及行人再辨识方法 |
-
2022
- 2022-05-07 CN CN202210493056.XA patent/CN115063832A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524542A (zh) * | 2023-05-08 | 2023-08-01 | 杭州像素元科技有限公司 | 一种基于细粒度特征的跨模态行人重识别方法及装置 |
CN116524542B (zh) * | 2023-05-08 | 2023-10-31 | 杭州像素元科技有限公司 | 一种基于细粒度特征的跨模态行人重识别方法及装置 |
CN116612439A (zh) * | 2023-07-20 | 2023-08-18 | 华侨大学 | 模态域适应性和特征鉴别性平衡方法及行人再辨识方法 |
CN116612439B (zh) * | 2023-07-20 | 2023-10-31 | 华侨大学 | 模态域适应性和特征鉴别性平衡方法及行人再辨识方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN109241317B (zh) | 基于深度学习网络中度量损失的行人哈希检索方法 | |
CN111639544B (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN109241817B (zh) | 一种无人机拍摄的农作物图像识别方法 | |
CN110084151B (zh) | 基于非局部网络深度学习的视频异常行为判别方法 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
Li et al. | Adaptive deep convolutional neural networks for scene-specific object detection | |
CN110321830B (zh) | 一种基于神经网络的中文字符串图片ocr识别方法 | |
CN111340123A (zh) | 一种基于深度卷积神经网络的图像分数标签预测方法 | |
CN115063832A (zh) | 一种基于全局与局部特征的对抗学习跨模态行人重识别方法 | |
Zhao et al. | SEV‐Net: Residual network embedded with attention mechanism for plant disease severity detection | |
CN108416270B (zh) | 一种基于多属性联合特征的交通标志识别方法 | |
CN111738143A (zh) | 一种基于期望最大化的行人重识别方法 | |
CN114241053A (zh) | 基于改进的注意力机制FairMOT多类别跟踪方法 | |
CN113177612A (zh) | 一种基于cnn少样本的农业病虫害图像识别方法 | |
Rehman et al. | Deep learning for video classification: A review | |
CN116052212A (zh) | 一种基于双重自监督学习的半监督跨模态行人重识别方法 | |
CN112766378A (zh) | 一种专注细粒度识别的跨域小样本图像分类模型方法 | |
CN111898418A (zh) | 一种基于t-tiny-yolo网络的人体异常行为检测方法 | |
Symeonidis et al. | Neural attention-driven non-maximum suppression for person detection | |
CN110516540B (zh) | 基于多流架构与长短时记忆网络的组群行为识别方法 | |
CN115050044B (zh) | 一种基于MLP-Mixer的跨模态行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |