CN114495163A - 基于类别激活映射的行人重识别生成学习方法 - Google Patents
基于类别激活映射的行人重识别生成学习方法 Download PDFInfo
- Publication number
- CN114495163A CN114495163A CN202210038244.3A CN202210038244A CN114495163A CN 114495163 A CN114495163 A CN 114495163A CN 202210038244 A CN202210038244 A CN 202210038244A CN 114495163 A CN114495163 A CN 114495163A
- Authority
- CN
- China
- Prior art keywords
- image
- appearance
- pedestrian
- input
- attitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004913 activation Effects 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013507 mapping Methods 0.000 title claims abstract description 36
- 230000006870 function Effects 0.000 claims abstract description 19
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 34
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 239000011717 all-trans-retinol Substances 0.000 claims description 3
- 238000011423 initialization method Methods 0.000 claims description 2
- 230000001902 propagating effect Effects 0.000 claims description 2
- 230000000644 propagated effect Effects 0.000 abstract description 2
- 238000004088 simulation Methods 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- FPIPGXGPPPQFEQ-OVSJKPMPSA-N all-trans-retinol Chemical compound OC\C=C(/C)\C=C\C=C(/C)\C=C\C1=C(C)CCCC1(C)C FPIPGXGPPPQFEQ-OVSJKPMPSA-N 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于类别激活映射的行人重识别生成学习方法,主要解决现有技术收集的数据集不平衡导致行人重识别模型性能差的问题。其方案为:建立行人重识别生成学习深度网络模型;1)从行人重识别基准数据集中读取行人图像;2)获取行人姿态特征信息;3)获取行人外观特征信息;4)通过3)进行行人重识别;5)通过2)和3)生成行人图像并计算类别激活映射损失;6)对生成图像在线进行行人重识别分类,并计算分类损失;7)对各损失进行反向传播;8)重复1)‑7)更新深度网络模型参数,直到损失函数值趋于稳定,完成行人重识别生成学习。本发明能生成高质量的行人图像,增强行人重识别网络的性能,可用于智能安保、智能行人追踪。
Description
技术领域
本发明属于网络应用技术领域,更进一步涉及一种行人重识别生成学习方法,可用于智能安保、智能行人追踪。
背景技术
行人重识别技术在智能安保、智能行人追踪等方面具有广泛的应用。行人重识别常常被认为是图像检索下的子问题,其目的是寻找同一ID下的行人在不同摄像头下的一致性信息。在给定一个行人图像输入后,要求在数据库中找到该行人不同摄像头下的图像。由于摄像角度,光照,复杂背景环境等问题,来自于不同摄像头下的行人数据往往具有很大的类内差异性,因此提取出鲁棒于这些类内差异的特征表示是行人重识别的挑战之一。
卷积神经网络具有很强的特征提取能力,能够学习到目标在不同摄像头下的深度不变特征。Kaiming He等人在其发表的“Deep Residual Learning for ImageRecognition”(2016IEEE Conference on Computer Vision and Pattern Recognition;770-778,2016)论文中提出了残差网络,作为一种通用的卷积神经网络,残差网络的快捷连接分支在线性转换和非线性转换之间寻求到一种平衡,使网络性能远远优于其他网络模型,因此被广泛应用在行人重识别分类中。该方法的实施步骤是:根据数据集包含的行人类别数量修改网络结构的全连接层;初始化网络参数,并对训练集数据进行预测;根据预测结果计算损失函数进行反向传播,更新网络参数,直到训练完毕;在测试阶段,将网络在分类层前所提取的特征作为行人数据的特征表示;根据某种距离度量方法在数据库中进行特征匹配,并返回前几个最相似的行人数据作为结果。该方法所使用模型是数据驱动模型,当训练集中不同类别下数据数量不平衡时,模型学到的特征会带有偏见,从而降低数据较少的类别分类性能,无法满足现实应用需求。
Yixiao Ge等人在其发表的“FD-GAN:Pose-guided Feature Distilling GAN forRobust Person Re-identification”(Proceedings of the 32nd InternationalConference on Neural Information Processing Systems;1230-1241,2018)论文中提出了一种基于姿态特征提取的行人重识别生成模型,该方法的实施步骤是:从输入图像中提取图像特征信息和姿态特征信息;生成新的行人数据;将生成数据和原始数据输入到判别器中计算损失函数;使用图像特征信息进行行人重识别。该方法由于对图像特征的提取是通过特征提取器直接从整张图像中提取图像特征,因而生成的效果比较模糊和真实图像有较大的差距。
Zhedong Zheng等人在其发表的“Joint Discriminative and GenerativeLearning for Person Re-identification”(2019IEEE/CVF Conference on ComputerVision and Pattern Recognition;2133-2142,2019)论文中提出了一种联合生成与判别模型的行人重识别方法,该方法的实施步骤是:从输入图像中提取服装特征信息和结构特诊信息;利用外观特征进行分类;生成新的行人数据;将新生成数据输入到分类器中进行分类。该方法提取的结构特征包含该人物的体态、发型、首饰等类别强相关特征,而服装特征则只包含服装信息本身。在生成新数据时,通过简单的组合不同行人的服装与结构特征,生成图像的视觉效果更倾向于同一个行人变成了其他人的体态,即保留了其他行人的发型,首饰,身材等不随服装变换的身份特征,而非保留同一个行人的身份特征的同时变换不同服装。这一生成效果是反直觉的,也不是实际期望的,且简单的使用服装特征进行分类也损失了很多类别强相关特征,使得其生成结果难以推广应用到其他行人重识别网络中。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种基于类别激活映射的行人重识别生成学习方法,以生成高质量的预期图像,增强行人重识别网络的性能。
本发明的技术思路是:在联合生成与判别学习的框架下,通过将行人特征信息解耦为姿态信息、局部外观信息和全局外观信息,进行行人重识别分类,生成行人在任意姿态下的新图像;通过将新数据在线输入到行人重识别分类网络中,使得行人重识别的数据集达到平衡;通过共享外观信息将生成网络与重识别分类网络联合在一起,保证生成数据更好的支持分类任务;根据分类结果计算类别激活映射图反映出行人图像的判别性信息分布,根据行人图像的判别性信息分布设计损失函数,保证生成数据具有类内多样性,且与其他类别下的行人数据存在类间差异性。
根据上述思路,本发明的实现方案包括如下:
(1)建立行人重识别生成学习深度网络模型:
1a)建立依次由3个卷积层和2个残差块级联组成的姿态编码器Ep,随机初始化姿态编码器的网络参数;
1b)对Resnet50神经网络进行改进,建立全局外观编码器Eag,即去掉Resnet50神经网络最后的池化层和Softmax层,构成全局外观编码器Eag,分别初始化全局外观编码器Eag
1c)对Resnet50神经网络进行改进,建立局部外观编码器Eal,即去掉Resnet50神经网络最后的池化层和Softmax层,并增加一个卷积层,构成局部外观编码器Eal,初始化局部外观编码器Eal的网络参数;
1d)建立依次由2个残差块和3个卷积层级联组成的解码器G,随机初始化网络参数;
1e)分别建立依次3个卷积层和3个残差块级联组成的姿态判别器Dp和外观判别器Dt,分别随机初始化姿态判别器Dp和外观判别器Dt的网络参数;
1f)建立由两层全连接层级联和一个softmax函数组成的行人重识别分类器,随机初始化网络参数;
(2)从行人重识别基准数据集中任意读取一张图像xi作为源图像,并在与xi同一类别下和不同类别下分别随机读取一张图像xj和xt作为两个目标图像;
(3)对行人姿态信息编码,获得姿态特征信息:
3a)对目标图像xj和xt的行姿态关键点进行提取,得到目标姿态关键点pj和pt;
(4)获取全局的外观特征信息和局部的外观特征信息:
(6)行人图像生成:
6d)将重建图像xi,j分别输入到姿态判别器Dp和外观判别器Dt中,得到姿态判别器Dp对重建图像xi,j姿态真实度的判别结果和外观判别器Dt对重建图像xi,j外观真实度的判别结果,分别计算这两个判别器对重建图像判别结果的生成对抗损失Lp和Lt;
6e)将生成图像xi,t分别输入到姿态判别器Dp和外观判别器Dt中,得到姿态判别器Dp对生成图像xi,t姿态真实度的判别结果和外观判别器Dt对生成图像xi,t外观真实度的判别结果,分别计算这两个判别器对生成图像判别结果的生成对抗损失Lp'和Lt';
6g)基于6f)的分类结果,通过Grad-CAM方法,分别计算出目标图像xj和xt对应的类别激活映射图的像素值,得到类别激活映射图hj和ht;
6h)利用与6f)和6g)相同的方式,计算重建图像xi,j和生成图像xi,t的类别激活映射图hi,j和hi,t,并计算类别激活映射损失Lg;
(7)将生成图像xi,t重新输入1b)的全局外观编码器Eag中,得到生成图像xi,t的全局外观特征信息再将该信息输入到1f)的行人重识别分类器中,得到生成图像xi,t的分类结果,计算该分类结果的交叉熵损失Li';
(8)对(5)、6d)、6e)、6h)和(7)中得到的损失进行反向传播,分别更新姿态编码器Ep、全局外观编码器Eag、局部外观编码器Eal、解码器G、姿态判别器Dp、外观判别器Dt中的参数,使得这些损失函数值尽量趋近于零;
(9)重复步骤(2)-(8)直到损失函数值趋于稳定,生成高质量的行人图像,完成行人重识别生成学习。
本发明与现有技术相比具有以下优点:
第一,本发明通过生成同一行人在任意姿态下的图像,大大增加了数据集的多样性,保证行人重识别网络能更好的提取鲁棒于行人的姿态、视角等信息的特征。克服了现有深度学习技术在应用到现实世界中不可避免的数据集不平衡问题,使得本发明能更好的支持行人重识别网络落地应用。
第二,本发明通过分别提取全局外观特征信息和局部外观特征信息,使得生成网络中目标行人图像对应的外观特征信息更加丰富,即使得生成器可以生成细节更加真实的行人图像,使得生成图像更容易增强分类网络的准确度,克服了现有技术中难以生成更为逼真的行人数据的问题,使得本发明能够更好的提升网络性能。
第二,由于本发明中在行人重识别分类时计算了类别激活特征图,很好的量化了分类网络对图像中行人不同部位的关注程度,因此在设计类别激活映射损失时,能够根据已有分类结果,利用类别激活映射图对生成图像和重建图像加权,即增加关注程度高的部位特征信息对应的权重,降低关注程度低的部分特征信息对应的权重,更具有合理性,克服了现有技术中只使用服装特征信息进行生成和分类,损失了部分类别强相关信息,难以生成预期效果的行人图像的问题,使得本发明具有更好的推广性。
附图说明
图1为本发明的实现流程图;
图2为本发明的整体网络框架图;
图3为用本发明方法进行重建图像的仿真实验效果图;
图4为用本发明方法进行生成图像的仿真实验效果图。
具体实施方式
下面结合附图对本发明的实施例和效果做进一步描述:
参照图1,本实例的实现步骤如下:
步骤1,建立行人重识别生成学习深度网络模型。
参照图2,本步骤的具体实现如下:
1.1)建立姿态编码器Ep:
该姿态编码器依次由3个卷积层和2个残差块级联组成的,随机初始化姿态编码器的网络参数,各层参数均从均值为0,方差为0.02的正态分布中随机采样得到,其中:
第一卷积层的输入维度18,输出维度64,卷积核尺寸为7*7;
第二卷积层的输入维度64,输出维度128,卷积核尺寸为4*4;
第三卷积层的输入维度128,输出维度256,卷积核尺寸为4*4;
第一残差块的输入维度均为256,输出维度均为256,卷积核尺寸均为3*3;
第二残差块输入维度均为256,输出维度均为256,卷积核尺寸均为3*3。
1.2)建立全局外观编码器Eag:
该全局外观编码器通过对现有Resnet50神经网络的改进得到,即去掉Resnet50神经网络最后的池化层和Softmax层,构成全局外观编码器,分别初始化全局外观编码器,其参数与在大规模自然图像数据集ImageNet上预训练的ResNet50模型除去掉池化层和全连接层以外的其它网络参数相同。
1.3)建立局部外观编码器Eal:
局部外观编码器Eal也是通过对现有Resnet50神经网络的改进得到,即去掉Resnet50神经网络最后的池化层和Softmax层,并在其后增加一个卷积层,构成局部外观编码器Eal,其参数与在大规模自然图像数据集ImageNet上预训练的ResNet50模型除去掉池化层和全连接层以外的其它网络参数相同,其所增加的卷积层参数从均值为0,方差为0.02的正态分布中随机采样得到,该卷积层输入维度为2048,输出维度为128,卷积核尺寸为1*1。
1.4)建立解码器G:
该解码器依次由2个残差块和3个卷积层级联组成,随机初始化网络参数,即各层参数均从均值为0,方差为0.02的正态分布中随机采样得到,其中:
第1残差块的输入维度256,输出维度256,卷积核尺寸为3*3;
第2残差块的参数与第一残差块相同;
第1卷积层的输入维度256,输出维度128,卷积核尺寸为5*5;
第2卷积层的输入维度128,输出维度64,卷积核尺寸为5*5;
第3卷积层的输入维度64,输出维度3,卷积核尺寸为7*7。
1.5)建立姿态判别器Dp和外观判别器Dt:
姿态判别器Dp的结构参数设置如下:
第一卷积层的输入维度为21,输出维度64,卷积核尺寸为7*7;
第二卷积层的输入维度为64,输出维度为128,卷积核尺寸为3*3;
第三卷积层的输入维度为128,输出维度为256,卷积核尺寸为3*3;
第一残差块的输入维度为256,输出维度为256,卷积核尺寸为3*3;
第二残差块的输入维度为256,输出维度为256,卷积核尺寸为3*3;
第三残差块的输入维度为256,输出维度为256,卷积核尺寸为3*3;
外观判别器Dt的结构参数设置如下:
第1卷积层的输入维度为6,输出维度为64,卷积核尺寸为7*7;
第2卷积层的输入维度为64,输出维度为128,卷积核尺寸为3*3;
第3卷积层的输入维度为128,输出维度为256,卷积核尺寸为3*3;
第1残差块的输入维度为256,输出维度为256,卷积核尺寸为3*3;
第2残差块的输入维度为256,输出维度为256,卷积核尺寸为3*3;
第3残差块的输入维度为256,输出维度为256,卷积核尺寸为3*3。
1.6)建立行人重识别分类器
该行人重识别分类器由两层全连接层级联和一个softmax函数组成,随机初始化网络参数从均值为0,方差为0.02的正态分布中随机采样得到,其中:
第一全连接层的输入均为2048维,输出为512维,
第二全连接层的输入为512维,输出为751维;
所述softmax函数,用于将分类器第二全连接层的输出映射为隶属于每一个类别的概率,所有类别的概率之和为1,其计算公式如下:
其中,z表示第二全连接层输出为751维的向量,zi为z的第i个元素,N代表总类别数量,Zc代表z中第c个元素,c∈[1,N]。
步骤2,获取目标图像
从行人重识别基准数据集中任意读取一张图像xi作为源图像,并在与xi同一类别下和不同类别下分别随机读取一张图像xj和xt作为两个目标图像。
步骤3,对行人姿态信息编码,获得姿态特征信息。
3.1)对两个目标图像xj和xt进行姿态关键点提取,得到两个目标姿态关键点pj和pt;
其中,Ep代表姿态编码器。
步骤4,获取全局的外观特征信息和局部的外观特征信息。
其中,Eag代表全局外观编码器。
步骤5,对行人重识别。
5.2)计算源图像xi的分类结果的交叉熵损失Li:
Li=-log(p(yi|xi))
其中yi表示源图像xi对应的类别,p(yi|xi)表示分类器对源图像xi的类别的预测结果,交叉熵损失值Li表示分类器预测结果与真实结果的差距。
步骤6,生成行人图像并计算类别激活映射损失。
其中G代表解码器;
6.4)将重建图像xi,j分别输入到1.5)建立的姿态判别器Dp和外观判别器Dt中,分别得到姿态判别器Dp对重建图像xi,j姿态真实度的判别结果,和外观判别器Dt对重建图像xi,j外观真实度的判别结果,计算这两个判别器分别对重建图像判别结果的生成对抗损失Lp和Lt:
Lp=logDp(pj,xj)+log(1-Dp(pj,xi,j))
Lt=logDt(xj,xi)+log(1-Dt(xi,j,xi))
其中:生成对抗损失Lp是将第一目标图像xj与目标姿态pj作为正样本对,将重建图像xi,j与目标姿态pj作为负样本对,输入到姿态编码器Dp计算得到;
生成对抗损失Lt是将第一目标图像xj与源图像xi作为正样本对,将重建图像xi,j与源图像xi作为负样本对,输入到外观编码器Dt计算得到;
6.5)将生成图像xi,t分别输入到姿态判别器Dp和外观判别器Dt中,得到姿态判别器Dp对生成图像xi,t姿态真实度的判别结果,及外观判别器Dt对生成图像xi,t外观真实度的判别结果,分别计算这两个判别器对生成图像判别结果的生成对抗损失Lp'和Lt':
Lp'=logDp(pt,xt)+log(1-Dp(pt,xi,t))
Lt'=logDt(xj,xi)+log(1-Dt(xi,t,xi))
其中:生成对抗损失Lp’是将第二目标图像xt与目标姿态pt作为正样本对,生成图像xi,t与目标姿态pt作为负样本对,输入到姿态编码器Dp计算得到;
生成对抗损失Lt’是将第一目标图像xj与源图像xi作为正样本对,将生成图像xi,t与源图像xi作为负样本对,输入到外观编码器Dt计算得到;
6.7)基于6.6)的分类结果,通过Grad-CAM方法,分别计算出目标图像xj和xt对应的类别激活映射图的像素值,得到类别激活映射图hj和ht:
其中,Aj代表输入第一目标图像xj时全局外观编码器Eag的最后一层残差块的输出,其为一个3D矩阵,代表通道k上的元素;At代表输入第二目标图像xt时全局外观编码器Eag的最后一层残差块的输出,其为一个3D矩阵,代表通道k上的元素;和计算公式如下:
式中,yj代表输入第一目标图像xj时分类器第二全连接层输出结果,是一个1D向量,yc j代表yj中第c个元素,代表Aj中索引为(k,m,n)的元素;yt代表输入第二目标图像xt时分类器第二全连接层输出结果,其是一个1D向量;yc t代表yt中第c个元素,代表At中索引为(k,m,n)的元素;
6.8),利用与6.6)和6.7)相同的方式,得到重建图像xi,j和生成图像xi,t的类别激活映射图hi,j和hi,t:
其中,Aj代表输入第一目标图像xj时全局外观编码器Eag的最后一层残差块的输出,其为一个3D矩阵,代表通道k上的元素;At代表输入第二目标图像xt时全局外观编码器Eag的最后一层残差块的输出,其为一个3D矩阵,代表通道k上的元素;和计算公式如下:
式中,yj代表输入第一目标图像xj时分类器第二全连接层输出结果,是一个1D向量,yc j代表yj中第c个元素,代表Aj中索引为(k,m,n)的元素;yt代表输入第二目标图像xt时分类器第二全连接层输出结果,其是一个1D向量;yc t代表yt中第c个元素,代表At中索引为(k,m,n)的元素;
上述类别激活映射图可以反映出输入图像中对于分类起到重要作用的区域,使用类别激活映射图进行损失函数设计,可以增加关注程度高的部位特征信息对应的权重,降低关注程度低的部分特征信息对应的权重;
6.9)计算类别激活映射损失Lg:
首先,计算类别激活映射图hj与hi,j之间的类别激活映射损失Lr:
Lr=||xj·hj-xi,j·hi,j||1;
其次,计算类别激活映射图ht与hi,t之间的类别激活映射损失Ld:
最后,根据上述计算的Lr和Ld得到类别激活映射损失Lg Lg:
Lg=Lr+Ld。
步骤7,对生成图像xi,t进行分类,并计算分类结果的交叉熵损失Li'。
7.2)计算7.1)分类结果的交叉熵损失Li':
Li'=-log(p(yi|xi,t))
其中,yi表示源图像xi对应的类别,p(yi|xi,t)表示分类器对生成图像xi,t的类别的预测结果,该交叉熵损失值Li’表示分类器预测结果与真实结果的差距。
步骤8,更新网络参数。
8.1)对步骤5得到源图像xi分类结果的交叉熵损失Li进行反向传播,使其损失函数值尽量趋近于零,以更新全局外观编码器Eag和行人重识别分类器中参数;
8.2)将步骤6.4)得到两个判别器分别对重建图像判别结果的生成对抗损失Lp和Lt进行反向传播,使其损失函数值尽量趋近于零,以更新局部外观编码器Eal,全局外观编码器Eag,姿态编码器Ep、解码器G、姿态判别器Dp及外观判别器Dt中的参数;
8.3)将步骤6.5)得到的两个判别器分别对生成图像判别结果的对抗损失Lp'和Lt'进行反向传播,使其损失函数值尽量趋近于零,以更新局部外观编码器Eal,全局外观编码器Eag,姿态编码器Ep,解码器G,姿态判别器Dp、外观判别器Dt中参数;
8.4)将步骤6.9)得到类别激活映射损失Lg进行反向传播,使其损失函数值尽量趋近于零,以更新全局外观编码器Eag中的参数;
8.5)将步骤7中得到的交叉损失进行反向传播,使其损失函数值尽量趋近于零,以更新局部外观编码器Eal、全局外观编码器Eag、姿态编码器Ep及解码器G中的参数。
步骤9,重复步骤2到步骤8,直到损失函数值趋于稳定,生成高质量的行人图像,完成行人重识别生成学习。
本发明的效果可通过以下仿真实验进一步说明:
一、仿真条件
本实验所使用的数据集为Market-1501行人重识别数据集,它包括由6个摄像头拍摄到的1501个行人,32668个检测到的行人矩形框,每个行人至少由2个摄像头捕获到,并且在一个摄像头中可能具有多张图像。训练集有751人,包含12,936张图像,平均每个人有17.2张训练数据;测试集有750人,包含19,732张图像,平均每个人有26.3张测试数据。
本实验通过深度学习库Pytorch进行仿真实现,输入的行人图像尺寸为256*128,通过OpenPose方法进行姿态关键点提取,使用HumanParser方法进行人体解析,使用随机梯度下降方法和Adam方法进行参数优化,设置迭代次数为70轮。
二、仿真实验内容与结果
仿真实验1,在上述条件下用本发明方法对行人图像外观特征与姿态特征解耦,利用同一类别下行人的外观特征信息和姿态特征信息,进行重建图像xi,j仿真,结果如图3。其中图3(a)、图3(b)、图3(c)、图3(d)是数据集中四个不同类别下行人重建图像仿真结果。每幅图有5列,以3(a)为例,其第一列代表源图像xi,第二列代表源图像xi的姿态关键点,第三列代表目标图像xj,第四列为目标姿态关键点,第五列为基于源图像xi的外观特征信息和目标图像xj的姿态特征信息得到的重建图像xi,j。
从图3可以看出,重建图像与目标图像xj在姿态和外观上都与目标图像保持一致。
仿真实验2,在上述条件下用本发明方法对行人图像外观特征与姿态特征解耦,利用不同类别下行人的外观特征信息和姿态特征信息,仿真生成图像xi,t,结果如图4。其中,图4(a)、4(b)、4(c)、4(d)是数据集中四个不同类别下行人生成图像仿真结果。每幅图有5列,以4(a)为例,其中第一列代表源图像xi,第二列代表源图像xi的姿态关键点,第三列代表目标图像xt,第四列为目标姿态关键点,第五列为基于源图像xi的外观特征信息和目标图像xj的姿态特征信息得到的生成图像xi,t。
由图4可以看出,生成图像xi,t与目标图像xj在姿态与目标图像保持一致,与源图像xi在外观上保持一致。
仿真实验3,在上述条件下,评估本发明方法中不同模块对于行人重识别分类性能的影响,结果如表1所示。
表1本发明方法中使用不同模块的行人重识别性能
从表1实验编号1和2可见,在不使用类别激活映射损失的前提下,本发明同时使用局部外观特征信息和全局外观特征信息的策略对行人重识别分类平均分类精度有所提升,此外,从表1实验编号2和3可见,在同时使用局部外观特征信息和全局外观特征信息的前提下,本发明方法所提出的类别激活映射损失同样对行人重识别分类精度有所提升。
综上,本发明基于类别激活映射的行人重识别生成学习方法,可以同时完成行人生成和行人重识别分类两个任务,即通过对行人图像的外观和姿态的解耦,可以基于源图像的外观特征信息和目标图像的姿态特征信息,重建数据集中的图像或者生成数据集中原本不存在的图像,且通过同时使用局部外观特征信息和全局外观特征信息的策略及类别激活映射损失,提升了对行人重识别分类的精度。
Claims (10)
1.一种基于类别激活映射的行人重识别生成学习方法,其特征在于,包括:
(1)建立行人重识别生成学习深度网络模型:
1a)建立依次由3个卷积层和2个残差块级联组成的姿态编码器Ep,随机初始化姿态编码器的网络参数;
1b)对Resnet50神经网络进行改进,建立全局外观编码器Eag,即去掉Resnet50神经网络最后的池化层和Softmax层,构成全局外观编码器Eag,初始化全局外观编码器Eag的网络参数;
1c)对Resnet50神经网络进行改进,建立局部外观编码器Eal,即去掉Resnet50神经网络最后的池化层和Softmax层,并增加一个卷积层,构成局部外观编码器Eal,初始化局部外观编码器Eal的网络参数;
1d)建立依次由2个残差块和3个卷积层级联组成的解码器G,随机初始化网络参数;
1e)分别建立依次3个卷积层和3个残差块级联组成的姿态判别器Dp和外观判别器Dt,分别随机初始化姿态判别器Dp和外观判别器Dt的网络参数;
1f)建立由两层全连接层级联和一个softmax函数组成的行人重识别分类器,随机初始化网络参数;
(2)从行人重识别基准数据集中任意读取一张图像xi作为源图像,并在与xi同一类别下和不同类别下分别随机读取一张图像xj和xt作为两个目标图像;
(3)对行人姿态信息编码,获得姿态特征信息:
3a)对目标图像xj和xt的行姿态关键点进行提取,得到目标姿态关键点pj和pt;
(4)获取全局的外观特征信息和局部的外观特征信息:
4a)将源图像xi输入到全局外观编码器Eag中进行行人图像编码,得到行人全局的外观特征信息fi g;
4c)将源图像xi的8个局部区域输入到局部外观编码器Eal中进行人体解析编码,输出源图像xi的8个局部区域的外观特征fi k,将该8个局部区域的外观特征级联,得到行人解析编码后的局部外观特征信息fi l;
(5)行人重识别:即将源图像xi的全局外观特征fi g输入到行人重识别分类器中,得到源图像xi的分类结果,并计算分类结果的交叉熵损失Li;
(6)行人图像生成并计算类别激活映射损失:
6a)将源图像xi的全局外观特征信息fi g和局部外观特征信息fi l进行级联,得到整体外观特征信息(fi l,fi g);
6c)将整体外观特征信息(fi l,fi g)和第二张目标图像的姿态特征信息ft p同时输入到解码器G中,得到具有目标姿态的生成图像xi,t;
6d)将重建图像xi,j分别输入到姿态判别器Dp和外观判别器Dt中,得到姿态判别器Dp对重建图像xi,j姿态真实度的判别结果和外观判别器Dt对重建图像xi,j外观真实度的判别结果,分别计算这两个判别器对重建图像判别结果的生成对抗损失Lp和Lt;
6e)将生成图像xi,t分别输入到姿态判别器Dp和外观判别器Dt中,得到姿态判别器Dp对生成图像xi,t姿态真实度的判别结果和外观判别器Dt对生成图像xi,t外观真实度的判别结果,分别计算这两个判别器对生成图像判别结果的生成对抗损失Lp'和Lt';
6g)基于6f)的分类结果,通过Grad-CAM方法,分别计算出目标图像xj和xt对应的类别激活映射图的像素值,得到类别激活映射图hj和ht;
6h)利用与6f)和6g)相同的方式,得到重建图像xi,j和生成图像xi,t的类别激活映射图hi,j和hi,t,并计算类别激活映射损失Lg;
(7)将生成图像xi,t重新输入1b)的全局外观编码器Eag中,得到生成图像xi,t的全局外观特征信息再将该信息输入到1f)的行人重识别分类器中,得到生成图像xi,t的分类结果,计算该分类结果的交叉熵损失Li';
(8)对(5)、6d)、6e)、6h)和(7)中得到的损失进行反向传播,分别更新姿态编码器Ep、全局外观编码器Eag、局部外观编码器Eal、解码器G、姿态判别器Dp、外观判别器Dt中的参数,使得这些损失函数值尽量趋近于零;
(9)重复步骤(2)-(8)直到损失函数值趋于稳定,生成高质量的行人图像,完成行人重识别生成学习。
2.根据权利要求1所述的方法,其中1a)中建立的姿态编码器Ep,其各层参数均从均值为0,方差为0.02的正态分布中随机采样得到,分别设置如下:
第一卷积层的输入维度18,输出维度64,卷积核尺寸为7*7;
第二卷积层的输入维度64,输出维度128,卷积核尺寸为4*4;
第三卷积层的输入维度128,输出维度256,卷积核尺寸为4*4;
第一残差块的输入维度均为256,输出维度均为256,卷积核尺寸均为3*3;
第二残差块参数与第一残差块相同。
3.根据权利要求1所述的方法,其中1b)构建的全局外观编码器Eag和局部外观编码器Eal,其参数分别如下:
所述全局外观编码器Eag,其参数与在大规模自然图像数据集ImageNet上预训练的ResNet50模型除去掉池化层和全连接层以外的其它网络参数相同;
所述局部外观编码器Eal,其参数与在大规模自然图像数据集ImageNet上预训练的ResNet50模型除去掉池化层和全连接层以外的其它网络参数相同;其所增加的卷积层输入维度为2048,输出维度为128,卷积核尺寸为1*1,这些参数从均值为0,方差为0.02的正态分布中随机采样得到。
4.根据权利要求1所述的方法,其中1d)建立的解码器G,其各层参数均从均值为0,方差为0.02的正态分布中随机采样得到,分别设置如下
第1残差块的输入维度256,输出维度256,卷积核尺寸为3*3;
第2残差块的参数与第一残差块相同;
第1卷积层的输入维度256,输出维度128,卷积核尺寸为5*5;
第2卷积层的输入维度128,输出维度64,卷积核尺寸为5*5;
第3卷积层的输入维度64,输出维度3,卷积核尺寸为7*7。
5.根据权利要求1所述的方法,其中1e)中建立的姿态判别器Dp和外观判别器Dt,其结构参数如下:
姿态判别器Dp的结构参数:
第一卷积层的输入维度为21,输出维度64,卷积核尺寸为7*7;
第二卷积层的输入维度为64,输出维度为128,卷积核尺寸为3*3;
第三卷积层的输入维度为128,输出维度为256,卷积核尺寸为3*3;
第一残差块的输入维度为256,输出维度为256,卷积核尺寸为3*3;
第二残差块的输入维度为256,输出维度为256,卷积核尺寸为3*3;
第三残差块的输入维度为256,输出维度为256,卷积核尺寸为3*3;
外观判别器Dt的结构参数:
第1卷积层的输入维度为6,输出维度为64,卷积核尺寸为7*7;
第2卷积层的输入维度为64,输出维度为128,卷积核尺寸为3*3;
第3卷积层的输入维度为128,输出维度为256,卷积核尺寸为3*3;
第1残差块的输入维度为256,输出维度为256,卷积核尺寸为3*3;
第2残差块的输入维度为256,输出维度为256,卷积核尺寸为3*3;
第3残差块的输入维度为256,输出维度为256,卷积核尺寸为3*3;
7.根据权利要求1所述的方法,其中,所述(5)中计算源图像xi分类结果的交叉熵损失Li,和所述(7)中计算生成图像xi,t分类结果的交叉熵损失Li',公式如下:
Li=-log(p(yi|xi))
Li'=-log(p(yi|xi,t))
其中,yi表示源图像xi对应的类别,p(yi|xi)表示分类器对源图像xi的类别的预测结果,p(yi|xi,t)表示分类器对生成图像xi,t的类别的预测结果,交叉熵损失值Li和Li’表示分类器预测结果与真实结果的差距。
8.根据权利要求1所述的方法,其中所述6d)和6e)中分别计算姿态判别器Dp和外观判别器Dt对重建图像xi,j判别结果的生成对抗损失Lp和Lt,及对生成图像xi,t判别结果的生成对抗损失Lp’和Lt’,实现如下:
对于重建图像xi,j,通过下式计算两判别器Dp和Dt对其判别结果的生成对抗损失Lp和Lt:
Lp=logDp(pj,xj)+log(1-Dp(pj,xi,j))
Lt=logDt(xj,xi)+log(1-Dt(xi,j,xi))
其中,生成对抗损失Lp是将第一目标图像xj与目标姿态pj作为正样本对,将重建图像xi,j与目标姿态pj作为负样本对,输入到姿态编码器Dp计算得到;生成对抗损失Lt是将第一目标图像xj与源图像xi作为正样本对,将重建图像xi,j与源图像xi作为负样本对,输入到外观编码器Dt计算得到;
对于生成图像xi,t,通过下式计算两个判别器对其判别结果的生成对抗损失Lp’和Lt’;
Lp'=logDp(pt,xt)+log(1-Dp(pt,xi,t))
Lt'=logDt(xj,xi)+log(1-Dt(xi,t,xi))
其中,生成对抗损失Lp’是将第二目标图像xt与目标姿态pt作为正样本对,生成图像xi,t与目标姿态pt作为负样本对,输入到姿态编码器Dp计算得到;生成对抗损失Lt’是将第一目标图像xj与源图像xi作为正样本对,将生成图像xi,t与源图像xi作为负样本对,输入到外观编码器Dt计算得到。
9.根据权利要求1所述的方法,其中,所述6g)分别计算出两个目标图像xj和xt对应的类别激活映射图的像素值,是将两个目标图像xj和xt分别输入带全局外观编码器Eag中,分别计算其类别激活映射图hj和ht:
其中,Aj代表输入第一目标图像xj时全局外观编码器Eag的最后一层残差块的输出,其为一个3D矩阵,Aj k代表通道k上的元素;At代表输入第二目标图像xt时全局外观编码器Eag的最后一层残差块的输出,其为一个3D矩阵,At k代表通道k上的元素;和计算公式如下:
10.根据权利要求1所述的方法,其中,所述6h)中计算重建图像xi,j和生成图像xi,t的类别激活映射图hi,j和hi,t,及计算类别激活映射损失Lg,实现如下:
6h1)将重建图像xi,j和生成图像xi,t分别输入带全局外观编码器Eag,分别计算重建图像xi,j的激活映射图hi,j和生成图像xi,t的激活映射图hi,t:
其中,Ai,j代表输入重建图像xi,j时全局外观编码器Eag的最后一层残差块的输出,其为一个3D矩阵,Ai,j k代表通道k上的元素;Ai,t代表输入生成图像xi,t时全局外观编码器Eag的最后一层残差块的输出,其为一个3D矩阵,Ai,t k代表通道k上的元素;和计算公式如下:
式中,yi,j代表输入重建图像xi,j时分类器第二全连接层输出结果,其是一个1D向量;yc i,j代表yi,j中第c个元素,代表Ai,j中索引为(k,m,n)的元素;yi,t代表输入生成图像xi,t时分类器第二全连接层输出结果,其是一个1D向量;yc i,t代表yi,t中第c个元素,代表Ai,t中索引为(k,m,n)的元素;
6h2),计算类别激活映射损失Lg:
计算类别激活映射图hj与hi,j之间的类别激活映射损失Lr:Lr=||xj·hj-xi,j·hi,j||1
计算类别激活映射图ht与hi,t之间的类别激活映射损失Ld:
根据Lr和Ld得到Lg:
Lg=Lr+Ld。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210038244.3A CN114495163B (zh) | 2022-01-13 | 2022-01-13 | 基于类别激活映射的行人重识别生成学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210038244.3A CN114495163B (zh) | 2022-01-13 | 2022-01-13 | 基于类别激活映射的行人重识别生成学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114495163A true CN114495163A (zh) | 2022-05-13 |
CN114495163B CN114495163B (zh) | 2024-08-20 |
Family
ID=81512325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210038244.3A Active CN114495163B (zh) | 2022-01-13 | 2022-01-13 | 基于类别激活映射的行人重识别生成学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114495163B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294655A (zh) * | 2022-08-18 | 2022-11-04 | 中科天网(广东)科技有限公司 | 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备 |
CN115423770A (zh) * | 2022-08-31 | 2022-12-02 | 南京视察者智能科技有限公司 | 一种基于图像质量判别模型的行人重识别数据判别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796080A (zh) * | 2019-10-29 | 2020-02-14 | 重庆大学 | 一种基于生成对抗网络的多姿态行人图像合成算法 |
WO2022001489A1 (zh) * | 2020-06-28 | 2022-01-06 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
-
2022
- 2022-01-13 CN CN202210038244.3A patent/CN114495163B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796080A (zh) * | 2019-10-29 | 2020-02-14 | 重庆大学 | 一种基于生成对抗网络的多姿态行人图像合成算法 |
WO2022001489A1 (zh) * | 2020-06-28 | 2022-01-06 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
Non-Patent Citations (2)
Title |
---|
ANGZE LI等: "A CAM-Enhancing Generative Person Re-ID Method Based Global and Local Features", 《2023 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》, 11 September 2023 (2023-09-11) * |
林通;陈新;唐晓;贺玲;李浩;: "基于双流卷积神经网络和生成式对抗网络的行人重识别算法", 信息技术与网络安全, no. 06, 10 June 2020 (2020-06-10) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115294655A (zh) * | 2022-08-18 | 2022-11-04 | 中科天网(广东)科技有限公司 | 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备 |
CN115423770A (zh) * | 2022-08-31 | 2022-12-02 | 南京视察者智能科技有限公司 | 一种基于图像质量判别模型的行人重识别数据判别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114495163B (zh) | 2024-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN108229444B (zh) | 一种基于整体和局部深度特征融合的行人再识别方法 | |
CN112101241A (zh) | 一种基于深度学习的轻量级表情识别方法 | |
CN112163498B (zh) | 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 | |
CN108446589B (zh) | 复杂环境下基于低秩分解和辅助字典的人脸识别方法 | |
CN105975931A (zh) | 一种基于多尺度池化的卷积神经网络人脸识别方法 | |
CN112818764B (zh) | 一种基于特征重建模型的低分辨率图像人脸表情识别方法 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN111414862A (zh) | 基于神经网络融合关键点角度变化的表情识别方法 | |
CN114299559A (zh) | 基于轻量级融合全局与局部特征网络的指静脉识别方法 | |
CN114495163A (zh) | 基于类别激活映射的行人重识别生成学习方法 | |
CN109993100A (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN110929558B (zh) | 一种基于深度学习的行人重识别方法 | |
CN111476249A (zh) | 多尺度大感受野卷积神经网络的构建方法 | |
CN112967210B (zh) | 一种基于全卷积孪生网络的无人机图像去噪方法 | |
CN112084895B (zh) | 一种基于深度学习的行人重识别方法 | |
CN113011396A (zh) | 基于深度学习级联特征融合的步态识别方法 | |
CN115294655A (zh) | 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备 | |
CN110598746A (zh) | 一种基于ode求解器自适应的场景分类方法 | |
CN116704596A (zh) | 一种基于骨骼序列的人体行为识别方法 | |
CN113420289B (zh) | 面向深度学习模型的隐蔽中毒攻击防御方法及其装置 | |
CN114972904A (zh) | 一种基于对抗三元组损失的零样本知识蒸馏方法及系统 | |
CN108805280A (zh) | 一种图像检索的方法和装置 | |
Obeso et al. | Introduction of explicit visual saliency in training of deep cnns: Application to architectural styles classification | |
CN112766134A (zh) | 一种强化类间区分的表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |