CN110135366B - 基于多尺度生成对抗网络的遮挡行人重识别方法 - Google Patents
基于多尺度生成对抗网络的遮挡行人重识别方法 Download PDFInfo
- Publication number
- CN110135366B CN110135366B CN201910418070.1A CN201910418070A CN110135366B CN 110135366 B CN110135366 B CN 110135366B CN 201910418070 A CN201910418070 A CN 201910418070A CN 110135366 B CN110135366 B CN 110135366B
- Authority
- CN
- China
- Prior art keywords
- image
- pedestrian
- training
- scale
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
基于多尺度生成对抗网络的遮挡行人重识别方法,涉及计算机视觉技术。准备行人图像训练集;设计和训练一个多尺度生成对抗网络,该网络包括多尺度生成器和判别器两部分,其中,多尺度生成器能够对随机遮挡区域进行去遮挡操作,生成高质量的重构图;而判别器能够区分输入图像是真实图像还是生成图像;利用训练好的多尺度生成器产生扩充的行人图像训练集;设计和训练一个分类识别网络,该网络用于对输入的行人图像进行身份分类;利用训练好的分类识别网络提取行人图像的特征并进行相似度匹配。
Description
技术领域
本发明涉及计算机视觉技术,尤其是涉及基于多尺度生成对抗网络的遮挡行人重识别方法。
背景技术
行人重识别(Person Re-identification),是指在多个非重叠摄像头拍摄的场景下,给定一幅查询行人图像,从大规模行人图像库中检索出具有相同身份的行人图像,是一类特殊的图像检索任务。行人重识别广泛应用于视频监控、智能安保等领域。遮挡问题是实际场景中影响行人重识别性能的一个重要因素,比如行人可能被其他的行人遮挡,或者被一些障碍物遮挡,比如车辆、交通标志、墙壁等。
针对遮挡场景下的行人重识别问题,一些研究学者提出使用随机遮挡样本作为训练样本,以增强深度神经网络对于遮挡行人图像的识别能力。例如,Zhuo等人(J.Zhuo,Z.Chen,J.Lai,G.Wang.Occluded person re-identification[C].IEEE InternationalConference on Multimedia and Expo,2018,1-6.)利用随机遮挡图像和非遮挡图像,并联合身份分类损失和遮挡/非遮挡的二分类损失训练一个深度神经网络。该网络不仅可以识别行人的身份,同时可以区分输入图像是属于遮挡图像数据分布还是非遮挡图像数据分布。这些方法利用随机遮挡样本增加了训练样本的多样性,提高了模型对于遮挡场景下行人重识别算法的性能。
上述方法学习到的行人特征表示,不可避免地会包含一些由于遮挡引入的噪音特征。因此,如何设计合适的特征选择和过滤策略对于遮挡行人重识别问题是非常重要的。通常的做法是在特征比对的过程中,降低遮挡区域特征的权重。例如,Xu等人(J.Xu,R.Zhao,F.Zhu,H.Wang,W.Ouyang.Attention-aware compositional network for person re-identification[C].Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2018,2119–2128)提出注意力引导复合网络(Attention-AwareCompositional Network,AACN),利用身体关键点学习各个身体部件的注意图,从而得到更精确的部件区域。同时,AACN利用部件的注意图计算该部件区域的可视性分数(visibilityscores),用于衡量部件的遮挡情况。基于该可视性分数,不断调整各个部件特征在特征融合过程中的权重。这些方法需要借助额外的姿态标注信息。当姿态估计不准确时,行人重识别的性能会严重下降。最近,为了有效处理遮挡场景下的行人重识别问题,Yang等人(Wanxiang Yang,Yan Yan,Si Chen.Adaptive deep metric embeddings for person re-identification under occlusions.Neurocomputing,2019,340:125-132.)提出了利用长短期记忆网络(Long Short-Term Memory,LSTM)学习行人图像不同部件区域之间的空间关系,从而自动过滤由于遮挡引入的噪音。
此外,受益于生成对抗网络(I.Goodfellow,J.Pouget-Abadie,M.Mirza,B.Xu,D.Warde-Farley,S.Ozair,A.Courville,Y.Bengio.Generative adversarial nets[C].Proceedings of the Advances in Neural Information Processing Systems,2014,2672–2680.)在不同计算机视觉任务上的成功,已经有很多研究者提出了基于生成对抗网络的行人重识别方法。代表性的工作有(Z.Zhong,L.Zheng,Z.Zheng,S.Li,Y.Yang.Camerastyle adaptation for person reidentification[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2018,5157–5166.;J.Liu,B.Ni,Y.Yan,P.Zhou,S.Cheng,J.Hu.Pose transferrable person reidentification[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2018,4099–4108.;X.Qian,Y.Fu,T.Xiang,W.Wang,J.Qiu,Y.Wu,Y.Jiang,X.Xue.Pose-normalized image generation for person re-identification[C].Proceedings of the European Conference on Computer Vision,2018,650–667.;W.Deng,L.Zheng,Q.Ye,G.Kang,Y.Yang,J.Jiao.Image-image domain adaptation withpreserved self-similarity and domain-dissimilarity for person re-identification[C].Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2018,994–1003)。这些方法借助生成对抗网络强大的图像生成能力,可以生成多样的新的图像数据,从而增加有标签数据,有效提高模型在测试集上的泛化能力。例如,Zhong等人(Z.Zhong,L.Zheng,Z.Zheng,S.Li,Y.Yang.Camera styleadaptation for person reidentification[C].Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition,2018,5157–5166)提出摄像机风格自适应方法,可以作为一种数据增强方法来减少不同摄像机风格之间的差异。具体来说,摄像机风格自适应方法使用CycleGAN(J.-Y.Zhu,T.Park,P.Isola,A.A.Efros.Unpaired image-to-image translation using cycle-consistent adversarial networks[C].Proceedings of the IEEE International Conference on Computer Vision,2017,2223–2232),在保持行人身份不变的情况下,学习不同摄像机视角的图像对之间的迁移关系。从而可以将有标记的行人图像风格迁移到其他的摄像机视角,添加到原始训练集中起到数据增强的作用。Qian等人(X.Qian,Y.Fu,T.Xiang,W.Wang,J.Qiu,Y.Wu,Y.Jiang,X.Xue.Pose-normalized image generation for person re-identification[C].Proceedings of the European Conference on Computer Vision,2018,650–667.)提出姿态规范化生成对抗网络,可以基于不同姿态图生成相应的姿态迁移行人图像,从而学习姿态不变的行人特征表示。
发明内容
本发明的目的在于提供基于多尺度生成对抗网络的遮挡行人重识别方法。
本发明包括以下步骤:
1)准备行人图像训练集;
2)设计和训练一个多尺度生成对抗网络,该网络包括多尺度生成器和判别器两部分,其中,多尺度生成器能够对随机遮挡区域进行去遮挡操作,生成高质量的重构图;而判别器能够区分输入图像是真实图像还是生成图像;
3)利用训练好的多尺度生成器产生扩充的行人图像训练集;
4)设计和训练一个分类识别网络,该网络用于对输入的行人图像进行身份分类;
5)利用训练好的分类识别网络提取行人图像的特征并进行相似度匹配。
在步骤1)中,所述准备行人图像训练集的具体步骤可为:
1.1原始行人图像训练集表示为相应的身份标签为其中,m为训练样本数量且为自然数;xi和yi(1≤yi≤C)表示第i个训练样本对应的行人图像和身份标签,C表示训练样本集包含的身份类别数且为自然数;非遮挡图像训练集表示为相应的身份标签为其中,n为非遮挡的行人图像训练样本数量且为自然数,这些非遮挡行人图像是从原始行人图像训练集中,人工筛选的不包含遮挡场景的行人图像;
1.2遮挡图像训练集表示为zi表示第i个训练样本对应的遮挡行人图像,具体地,在每一张非遮挡行人图像xi中,随机选择一个与xi面积比例s为0.3的矩形框,将xi在该矩形框内的像素值替换为(0,255)内的随机值,从而得到遮挡行人图像zi;并且,该遮挡行人图像训练集的身份标签与非遮挡行人图像训练集的身份标签保持一致,即为Y。
在步骤2)中,所述设计和训练一个多尺度生成对抗网络的具体步骤可为:
2.1设计一个多尺度生成对抗网络,包括设计一个多尺度生成器和一个判别器;
2.1.1构建多尺度生成器,多尺度生成器包括两个阶段的生成器,第一个阶段是低分辨率生成器E,输入的是小尺度的遮挡图像,该低分辨率生成器的主要目的是用于粗略地重构去遮挡的行人图像,第二个阶段是高分辨率生成器G,输入的是大尺度的遮挡图像(由小尺度遮挡图像插值得到),该高分辨率生成器的主要目的是重构高分辨率的去遮挡行人图像;在G的网络结构中,融合E输出去遮挡的行人图像之前的特征,从而生成高分辨率图像,该做法类似密集连接(dense connection),下一层融合上一层的特征输出,从而有效克服生成对抗网络训练过程中的过拟合问题;小尺度采用的图像大小为128×64×3,大尺度采用的图像大于为256×128×3;第一个阶段的生成器E,包括两个卷积层、三个残差层、两个反卷积层和最后卷积层;所述两个卷积层的卷积核大小分别为7×7、3×3,特征图数量分别为64、128;所述三个残差层中的每个残差层包括两个卷积层和残差连接,卷积核大小均为3×3,特征图数量均为128;所述两个反卷积层的卷积核大小均为3×3,特征图数量分别为128、64;所述最后卷积层的卷积核大小为3×3,特征图数量均为3;第一阶段中的所有卷积层随后都包含一个实例规范化层和激活层,除了最后卷积层使用Tanh激活函数,其他卷积层均使用ReLU激活函数;第二个阶段的生成器G,包括三个卷积层、九个残差层、三个反卷积层和最后卷积层;所述三个卷积层的卷积核大小分别为7×7、3×3、3×3,特征图数量分别为64、128、256;所述九个残差层中的每个残差层包括两个卷积层和残差连接,卷积核大小均为3×3,特征图数量均为256;所述三个反卷积层的卷积核大小均为3×3,特征图数量分别为256、128、64;所述最后卷积层的卷积核大小为3×3,特征图数量均为3;类似第一个阶段的生成器E,第二个阶段的生成器G的每个卷积层随后也包含一个实例规范化层和激活层;
2.1.2构建判别器,判别器的输入图像大小为256×128×3,输出是一个大小为30×14×1的特征图,用于表示输入图像是属于真实的训练图像的概率值,所述判别器包括五个卷积层,所述五个卷积层的卷积核大小分别为5×5、3×3、3×3、3×3、3×3,特征图数量分别为64、128、256、512、1;每个卷积层随后包含一个批量规范化层和激活层,除了最后一个卷积层使用Tanh激活函数,其他卷积层均使用LReLU激活函数;
2.2训练多尺度生成对抗网络
为了使得多尺度生成器输出的生成图像逼近真实图像,联合内容损失和对抗损失函数,所述联合内容损失包括像素损失和特征损失;对低分辨率生成器E使用l1像素损失,用来计算真实图像和生成图像在像素空间上的差异,保证可以粗略重构出去遮挡行人图像,l1像素损失用来保持底层像素特征的一致性;而对高分辨率生成器G使用VGG-19特征损失,计算真实图像和生成图像在预训练模型VGG-19(K.Simonyan,A.Zisserman.Very DeepConvolutional Networks for Large-Scale Image Recognition[J].InternationalConference on Learning Representations,2015)上的卷积特征(本发明采用的是预训练模型VGG-19在第14层的输出特征)之间的差异,尽可能保持行人图像高层语义特征的一致性;
所述l1像素损失表示为:
Lp=||X-E(Z)||1
其中,Z表示遮挡图像,X表示对应的非遮挡图像;||·||1表示l1范数;E(·)表示低分辨率生成器E的重构映射变化函数。
所述VGG特征损失表示为:
Lf=||f(X)-f(G(Z))||2
其中,f(·)表示VGG-19模型的卷积特征映射函数;||·||2表示l2范数;G(·)表示高分辨率生成器G的重构映射变化函数。
采用WGAN-GP(I.Gulrajani,F.Ahmed,M.Arjovsky,V.Dumoulin,A.C.Courville.Improved training of wasserstein gans[C].Proceedings of theAdvances in Neural Information Processing Systems,2017,5767–5777.)作为对抗损失,可以表示为:
其中,Pc,Po分别表示非遮挡图像X和遮挡图像Z的数据分布,mG(·)表示多尺度生成器的重构映射变化函数;λ表示权重参数;(0≤t≤1)表示的是从Pc和Po采样的图像;表示D关于图像的梯度,具体解释可以参考WGAN-GP;
因此,提出的多尺度生成对抗网络的整体损失函数表示为,
L=Ladv+λ1*Lp+λ2*Lf
其中,λ1和λ2控制l1像素损失和特征损失的权重,根据实验经验,均设置为10。
基于上述整体损失函数,交替训练多尺度生成器mG和判别器D,从而生成纹理清晰、视觉效果逼真的行人图像。
在步骤3)中,所述利用训练好的多尺度生成器产生扩充的行人图像训练集的具体步骤可为:
对于原始行人图像训练集O中的每一张行人图像,生成一张随机遮挡图像,并输入到多尺度生成器中,得到去除遮挡的生成图像,将该生成图像添加到原始行人图像训练集O,从而得到扩充的行人图像训练集。
在步骤4)中,所述设计和训练一个分类识别网络的具体步骤可为:
4.1设计一个分类识别网络:采用在大规模数据集ImageNet上预训练的ResNet-50(K.He,X.Zhang,S.Ren,J.Sun.Deep Residual Learning for Image Recognition[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2016,770–778)模型为基础,将ResNet-50最后三个卷积层的输出特征进行拼接,并添加一个全连接层将特征维度降至2048维,用于作为分类识别网络;同时按照训练数据集中的行人身份类别,修改最后的全连接层(分类层)的神经元个数,保证和训练集中行人身份个数一致;
4.2训练该分类识别网络:使用Softmax损失和反向传播算法训练该分类识别网络,其中Softmax损失表示为:
在步骤5)中,所述利用训练好的分类识别网络提取行人图像的特征并进行相似度匹配的具体步骤可为:
5.1利用训练好的分类识别网络提取行人图像的特征:将分类识别网络的分类层之前的全连接层输出作为行人图像的深度特征,对于图库中的每张图像,利用分类识别网络,提取深度特征,而对于输入的每张查询图像,首先人工判断输入图像是否发生遮挡,若发生遮挡,则先利用多尺度生成器得到去遮挡图像,再利用分类识别网络提取深度特征;否则,直接利用分类识别网络提取深度特征;
5.2进行相似度匹配:利用查询图像与图库图像特征之间的欧式距离作为相似度计算方法,按照相似度从大到小进行排序,获得匹配结果。
本发明提出一种基于多尺度生成对抗网络的遮挡行人重识别方法。首先,利用成对的遮挡图像和非遮挡图像训练一个多尺度生成器和一个判别器。多尺度生成器能够对随机遮挡区域进行去遮挡操作,生成高质量的重构图;而判别器能够区分输入图像是真实图像还是生成图像。其次,利用训练好的多尺度生成器,生成去除随机遮挡的训练图像,添加到原始训练图像集,用于增加训练样本的多样性。最后,基于此扩充训练图像集,训练分类识别模型,有效地提高模型在测试图像集上的泛化性。
本发明提出的方法与上述基于生成对抗网络的方法存在较大差异,包括以下三点不同:首先,本发明提出的多尺度生成对抗网络在训练阶段是基于非遮挡与随机遮挡图像对用来自动重构部分遮挡区域,并不需要额外的关键点标注信息或者摄像机视角信息。其次,本发明采用多尺度生成器(具有网络结构简单的特点)进行重构,可以充分利用多尺度图像的细节信息,重构出高质量的行人图像;而上述基于生成对抗网络的方法一般采用单尺度生成器对行人图像进行重构,为了生成高质量的行人图像,采用的网络结构相对复杂。最后,本发明提出的多尺度生成器可以在识别场景的测试阶段,用于对真实遮挡行人图像进行去遮挡,从而提高遮挡行人重识别性能。而上述基于生成对抗网络的方法一般只是通过生成对抗网络生成新的训练样本增强分类识别模型的泛化性能,而并不能用于提升遮挡场景的识别性能(上述方法无法适于遮挡场景下的行人重识别问题)。
本发明借助多尺度生成对抗网络,可以生成去遮挡的行人图像,从而有效减少遮挡在行人特征表示学习过程中的干扰。具体来说,该方法在多尺度生成对抗网络训练阶段,首先将非遮挡图像和遮挡图像,输入到多尺度生成对抗网络(包含一个多尺度生成器和一个判别器)中。在该网络中,多尺度生成器的任务是,对输入的遮挡图像尽可能恢复遮挡区域的信息,能够生成高质量的虚假图像,可以欺骗判别器;而判别器的任务是,判别输入图像是真实的原始图像还是虚假的生成图像。多尺度生成器和判别器相互对抗并不断调整各自的参数,最终目的是使判别器无法判断多尺度生成器的输出结果是否真实。其次将随机添加遮挡后的训练图像输入到训练好的多尺度生成器中,生成类似的但不完全一样的去除遮挡的图像(并保持原始身份标签),添加到原始训练图像集中,从而扩充了行人的图像数目。最后基于此扩充训练图像集,训练一个分类识别模型。在识别场景的测试阶段,对于包含真实遮挡的查询图像,首先定位遮挡区域,然后输入到多尺度生成器中,得到去除遮挡的查询图像,最后进行识别。受益于遮挡行人图像中遮挡干扰的去除和有用信息的恢复,包含真实遮挡的查询图像的识别性能明显提高。
附图说明
图1为本发明实施例的框架图。在图1中,mG表示多尺度生成器。
图2为本发明提出多尺度生成器的框架图。
图3为本发明的方法在DukeMTMC-reID数据集上的去遮挡图像示意图。
具体实施方式
下面结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了实施方案和具体操作过程,但本发明的保护范围不限于下述的实施例。
参见图1和2,本发明实施例包括以下步骤:
1.准备行人图像训练集。
A1.原始行人图像训练集表示为相应的身份标签为其中,m为训练样本数量且为自然数;xi和yi(1≤yi≤C)表示第i个训练样本对应的行人图像和身份标签,C表示训练样本集包含的身份类别数且为自然数;非遮挡图像训练集表示为相应的身份标签为其中,n为非遮挡的行人图像训练样本数量且为自然数,这些非遮挡行人图像是从原始行人图像训练集中,人工筛选的不包含遮挡场景的行人图像;
A2.遮挡图像训练集表示为zi表示第i个训练样本对应的遮挡行人图像。具体地,在每一张非遮挡行人图像xi中,随机选择一个与xi面积比例s为0.3的矩形框,将xi在该矩形框内的像素值替换为(0,255)内的随机值,从而得到遮挡行人图像zi。并且,该遮挡行人图像训练集的身份标签与非遮挡行人图像训练集的身份标签保持一致,即为Y。
2.设计和训练一个多尺度生成对抗网络。
B1.设计一个多尺度生成对抗网络,包括设计一个多尺度生成器和一个判别器。首先,构建多尺度生成器,多尺度生成器包括两个阶段的生成器,第一个阶段是低分辨率生成器E,输入的是小尺度的遮挡图像,该低分辨率生成器的主要目的是用于粗略地重构去遮挡的行人图像,第二个阶段是高分辨率生成器G,输入的是大尺度的遮挡图像(由小尺度遮挡图像插值得到),该高分辨率生成器的主要目的是重构高分辨率的去遮挡行人图像;在G的网络结构中,融合E输出去遮挡的行人图像之前的特征,从而生成高分辨率图像,该做法类似密集连接(dense connection),下一层融合上一层的特征输出,从而有效克服生成对抗网络训练过程中的过拟合问题;小尺度采用的图像大小为128×64×3,大尺度采用的图像大于为256×128×3;第一个阶段的生成器E,包括两个卷积层、三个残差层、两个反卷积层和最后卷积层;所述两个卷积层的卷积核大小分别为7×7、3×3,特征图数量分别为64、128;所述三个残差层中的每个残差层包括两个卷积层和残差连接,卷积核大小均为3×3,特征图数量均为128;所述两个反卷积层的卷积核大小均为3×3,特征图数量分别为128、64;所述最后卷积层的卷积核大小为3×3,特征图数量均为3;第一阶段中的所有卷积层随后都包含一个实例规范化层和激活层,除了最后卷积层使用Tanh激活函数,其他卷积层均使用ReLU激活函数;第二个阶段的生成器G,包括三个卷积层、九个残差层、三个反卷积层和最后卷积层;所述三个卷积层的卷积核大小分别为7×7、3×3、3×3,特征图数量分别为64、128、256;所述九个残差层中的每个残差层包括两个卷积层和残差连接,卷积核大小均为3×3,特征图数量均为256;所述三个反卷积层的卷积核大小均为3×3,特征图数量分别为256、128、64;所述最后卷积层的卷积核大小为3×3,特征图数量均为3;类似第一个阶段的生成器E,第二个阶段的生成器G的每个卷积层随后也包含一个实例规范化层和激活层。其次,构建判别器。判别器的输入图像大小为256×128×3,输出是一个大小为30×14×1的特征图,用于表示输入图像是属于真实的训练图像的概率值。判别器包括五个卷积层(卷积核大小分别为5×5、3×3、3×3、3×3、3×3,特征图数量分别为64、128、256、512、1)。每个卷积层随后包含一个批量规范化层和激活层,除了最后一个卷积层使用Tanh激活函数,其他卷积层均使用LReLU激活函数。
B2.训练多尺度生成对抗网络。为了使得多尺度生成器输出的生成图像逼近真实图像,联合内容损失和对抗损失函数,所述联合内容损失包括像素损失和特征损失;对低分辨率生成器E使用l1像素损失,用来计算真实图像和生成图像在像素空间上的差异,保证可以粗略重构出去遮挡行人图像,l1像素损失用来保持底层像素特征的一致性;而对高分辨率生成器G使用VGG-19特征损失,计算真实图像和生成图像在预训练模型VGG-19(K.Simonyan,A.Zisserman.Very Deep Convolutional Networks for Large-ScaleImage Recognition[J].International Conference on Learning Representations,2015)上的卷积特征(本发明采用的是预训练模型VGG-19在第14层的输出特征)之间的差异,尽可能保持行人图像高层语义特征的一致性;
所述l1像素损失表示为:
Lp=||X-E(Z)||1
其中,Z表示遮挡图像,X表示对应的非遮挡图像;||·||1表示l1范数;E(·)表示低分辨率生成器E的重构映射变化函数。
所述VGG特征损失表示为:
Lf=||f(X)-f(G(Z))||2
其中,f(·)表示VGG-19模型的卷积特征映射函数;·2表示l2范数;G(·)表示高分辨率生成器G的重构映射变化函数。
采用WGAN-GP(I.Gulrajani,F.Ahmed,M.Arjovsky,V.Dumoulin,A.C.Courville.Improved training of wasserstein gans[C].Proceedings of theAdvances in Neural Information Processing Systems,2017,5767–5777.)作为对抗损失,可以表示为:
其中,Pc,Po分别表示非遮挡图像X和遮挡图像Z的数据分布,mG(·)表示多尺度生成器的重构映射变化函数;λ表示权重参数;(0≤t≤1)表示的是从Pc和Po采样的图像;表示D关于图像的梯度,具体解释可以参考WGAN-GP;
因此,提出的多尺度生成对抗网络的整体损失函数表示为,
L=Ladv+λ1*Lp+λ2*Lf
其中,λ1和λ2控制l1像素损失和特征损失的权重,根据实验经验,均设置为10。
基于上述整体损失函数,交替训练多尺度生成器mG和判别器D,从而生成纹理清晰、视觉效果逼真的行人图像。
3.利用训练好的多尺度生成器产生扩充的行人图像训练集。对于原始行人图像训练集O中的每一张行人图像,生成一张随机遮挡图像,并输入到多尺度生成器中,得到去除遮挡的生成图像,将该生成图像添加到原始行人图像训练集O,从而得到扩充的行人图像训练集。
4.设计和训练一个分类识别网络。
D1.采用在大规模数据集ImageNet上预训练的ResNet-50(K.He,X.Zhang,S.Ren,J.Sun.Deep Residual Learning for Image Recognition[C].Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2016,770–778.)模型为基础,将ResNet-50最后三个卷积层的输出特征进行拼接,并添加一个全连接层将特征维度降至2048维,用来作为的分类识别网络。同时按照训练数据集中的行人身份类别,修改最后的全连接层(分类层)的神经元个数,保证和训练集中行人身份个数一致。
D2.训练该分类识别网络。使用Softmax损失和反向传播算法训练该分类识别网络。其中Softmax损失表示为:
5.利用训练好的分类识别网络提取行人图像的特征并进行相似度匹配。
E1.利用训练好的分类识别网络提取行人图像的特征。将分类识别网络的分类层之前的全连接层输出作为行人图像的深度特征。对于图库中的每张图像,利用分类识别网络,提取深度特征。而对于输入的每张查询图像,首先人工判断输入图像是否发生遮挡,若发生遮挡则先利用多尺度生成器得到去遮挡图像,再利用分类识别网络提取深度特征;否则,直接利用分类识别网络提取深度特征。
E2.进行相似度匹配。利用查询图像与图库图像特征之间的欧式距离作为相似度计算方法,按照相似度从大到小进行排序,获得匹配结果。
在DukeMTMC-reID训练集中对随机遮挡图上的去遮挡结果示例图,如图3所示。每个矩形框内的3张图像分别对应了同一个人的原始图像、随机遮挡图像、去遮挡生成图像。
表1
表2
表3
表1~3分别为在Market1501、DukeMTMC-reID、CUHK03数据集上,本发明提出的方法与其他方法在不同遮挡比例下的行人重识别结果对比。其中:
XQDA对应S.Liao等人提出的方法(S.Liao,Y.Hu,X.Zhu,S.Z.Li.Person re-identification by local maximal occurrence representation and metric learning[C].Proceedings of the IEEConference on Computer Vision and PatternRecognition,2015,2197–2206.);
NPD对应L.Zhang等人提出的方法(L.Zhang,T.Xiang,S.Gong.Learning adiscriminative null space for person reidentification[C].Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,2016,1239–1248.);
IDE对应L.Zhang等人提出的方法(L.Zheng,Y.Yang,A.G.Hauptmann.Person re-identification:Past,present and future[J].arXiv preprint arXiv:1610.02984,2016.);
TriNet对应A.Hermans等人提出的方法(A.Hermans,L.Beyer,B.Leibe.Indefense of the triplet loss for person reidentification[J].arXiv preprintarXiv:1703.07737,2017.);
Quad对应W.Chen等人提出的方法(W.Chen,X.Chen,J.Zhang,K.Huang.Beyondtriplet loss:a deep quadruplet network for person re-identification[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2017,403–412.);
P2S对应S.Zhou等人提出的方法(S.Zhou,J.Wang,J.Wang,Y.Gong,N.Zheng.Pointto set similarity based deep feature learning for person re-identification[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2017,3741–3750.);
RandEra对应Z.Zhong等人提出的方法(Z.Zhong,L.Zheng,G.Kang,S.Li,Y.Yang.Random erasing data augmentation[J].arXiv preprint arXiv:1708.04896,2017.);
GLAD对应L.Wei等人提出的方法(L.Wei,S.Zhang,H.Yao,W.Gao,Q.Tian.Glad:global-local-alignment descriptor for pedestrian retrieval[C].Proceedings ofthe 25th ACM International Conference on Multimedia,2017,420–428.);
PAN对应L.Zhao等人提出的方法(L.Zhao,X.Li,Y.Zhuang,J.Wang.Deeply-learned part-aligned representations for person re-identification[C].Proceedings of the IEEE International Conference on Computer Vision,2017,3219–3228.);
SVDNet对应Y.Sun等人提出的方法(Y.Sun,L.Zheng,W.Deng,S.Wang.Svdnet forpedestrian retrieval[C].Proceedings of the IEEE International Conference onComputer Vision,2017,3800–3808.);
DPFL对应Y.Chen等人提出的方法(Y.Chen,X.Zhu,S.Gong.Person re-identification by deep learning multi-scale representations[C].Proceedings ofthe IEEE International Conference on Computer Vision,2017,2590–2600.);
AACN对应J.Xu等人提出的方法(J.Xu,R.Zhao,F.Zhu,H.Wang,W.Ouyang.Attention-aware compositional network for person re-identification[C].Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,2018,2119–2128.);
RNLSTMA对应Wanxiang Yang等人提出的方法(Wanxiang Yang,Yan Yan,SiChen.Adaptive deep metric embeddings for person re-identification underocclusions.Neurocomputing,2019.340:125-132)。
Claims (5)
1.基于多尺度生成对抗网络的遮挡行人重识别方法,其特征在于包括以下步骤:
1)准备行人图像训练集;
2)设计和训练一个多尺度生成对抗网络,该网络包括多尺度生成器和判别器两部分,其中,多尺度生成器能够对随机遮挡区域进行去遮挡操作,生成高质量的重构图;而判别器能够区分输入图像是真实图像还是生成图像;
所述设计和训练一个多尺度生成对抗网络的具体步骤为:
2.1设计一个多尺度生成对抗网络,包括设计一个多尺度生成器和一个判别器;
2.1.1构建多尺度生成器,多尺度生成器包括两个阶段的生成器,第一个阶段是低分辨率生成器E,输入的是小尺度的遮挡图像,该低分辨率生成器的目的是用于粗略地重构去遮挡的行人图像,第二个阶段是高分辨率生成器G,输入的是大尺度的遮挡图像,该高分辨率生成器的目的是重构高分辨率的去遮挡行人图像;在G的网络结构中,融合E输出去遮挡的行人图像之前的特征,从而生成高分辨率图像,下一层融合上一层的特征输出,从而有效克服生成对抗网络训练过程中的过拟合问题;小尺度采用的图像大小为128×64×3,大尺度采用的图像大于为256×128×3;第一个阶段的生成器E,包括两个卷积层、三个残差层、两个反卷积层和最后卷积层;所述两个卷积层的卷积核大小分别为7×7、3×3,特征图数量分别为64、128;所述三个残差层中的每个残差层包括两个卷积层和残差连接,卷积核大小均为3×3,特征图数量均为128;所述两个反卷积层的卷积核大小均为3×3,特征图数量分别为128、64;所述最后卷积层的卷积核大小为3×3,特征图数量均为3;第一阶段中的所有卷积层随后都包含一个实例规范化层和激活层,除了最后卷积层使用Tanh激活函数,其他卷积层均使用ReLU激活函数;第二个阶段的生成器G,包括三个卷积层、九个残差层、三个反卷积层和最后卷积层;所述三个卷积层的卷积核大小分别为7×7、3×3、3×3,特征图数量分别为64、128、256;所述九个残差层中的每个残差层包括两个卷积层和残差连接,卷积核大小均为3×3,特征图数量均为256;所述三个反卷积层的卷积核大小均为3×3,特征图数量分别为256、128、64;所述最后卷积层的卷积核大小为3×3,特征图数量均为3;类似第一个阶段的生成器E,第二个阶段的生成器G的每个卷积层随后也包含一个实例规范化层和激活层;
2.1.2构建判别器,判别器的输入图像大小为256×128×3,输出是一个大小为30×14×1的特征图,用于表示输入图像是属于真实的训练图像的概率值,所述判别器包括五个卷积层,所述五个卷积层的卷积核大小分别为5×5、3×3、3×3、3×3、3×3,特征图数量分别为64、128、256、512、1;每个卷积层随后包含一个批量规范化层和激活层,除了最后一个卷积层使用Tanh激活函数,其他卷积层均使用LReLU激活函数;
2.2训练多尺度生成对抗网络
为了使得多尺度生成器输出的生成图像逼近真实图像,联合内容损失和对抗损失函数,所述联合内容损失包括像素损失和特征损失;对低分辨率生成器E使用l1像素损失,用于计算真实图像和生成图像在像素空间上的差异,重构出去遮挡行人图像,l1像素损失用来保持底层像素特征的一致性;而对高分辨率生成器G使用VGG-19特征损失,计算真实图像和生成图像在预训练模型VGG-19上的卷积特征之间的差异,保持行人图像高层语义特征的一致性;
所述l1像素损失表示为:
Lp=||X-E(Z)||1
其中,Z表示遮挡图像,X表示对应的非遮挡图像;||·||1表示l1范数;E(·)表示低分辨率生成器E的重构映射变化函数;
所述VGG-19特征损失表示为:
Lf=||f(X)-f(G(Z))||2
其中,f(·)表示VGG-19模型的卷积特征映射函数;||·||2表示l2范数;G(·)表示高分辨率生成器G的重构映射变化函数;
采用WGAN-GP作为对抗损失,表示为:
因此,提出的多尺度生成对抗网络的整体损失函数表示为,
L=Ladv+λ1*Lp+λ2*Lf
其中,λ1和λ2控制l1像素损失和特征损失的权重,根据实验经验,均设置为10;
基于所述整体损失函数,交替训练多尺度生成器mG和判别器D,从而生成纹理清晰、视觉效果逼真的行人图像;
3)利用训练好的多尺度生成器产生扩充的行人图像训练集;
4)设计和训练一个分类识别网络,该网络用于对输入的行人图像进行身份分类;
5)利用训练好的分类识别网络提取行人图像的特征并进行相似度匹配。
2.如权利要求1所述基于多尺度生成对抗网络的遮挡行人重识别方法,其特征在于在步骤1)中,所述准备行人图像训练集的具体步骤为:
1.1原始行人图像训练集表示为相应的身份标签为其中,m为训练样本数量且为自然数;xi和yi(1≤yi≤C)表示第i个训练样本对应的行人图像和身份标签,C表示训练样本集包含的身份类别数且为自然数;非遮挡图像训练集表示为:相应的身份标签为其中,n为非遮挡的行人图像训练样本数量且为自然数,这些非遮挡行人图像是从原始行人图像训练集中,人工筛选的不包含遮挡场景的行人图像;
3.如权利要求1所述基于多尺度生成对抗网络的遮挡行人重识别方法,其特征在于在步骤3)中,所述利用训练好的多尺度生成器产生扩充的行人图像训练集的具体步骤为:
对于原始行人图像训练集O中的每一张行人图像,生成一张随机遮挡图像,并输入到多尺度生成器中,得到去除遮挡的生成图像,将该生成图像添加到原始行人图像训练集O,从而得到扩充的行人图像训练集。
4.如权利要求1所述基于多尺度生成对抗网络的遮挡行人重识别方法,其特征在于在步骤4)中,所述设计和训练一个分类识别网络的具体步骤为:
4.1设计一个分类识别网络:采用在大规模数据集ImageNet上预训练的ResNet-50模型为基础,将ResNet-50最后三个卷积层的输出特征进行拼接,并添加一个全连接层将特征维度降至2048维,用于作为分类识别网络;同时按照训练数据集中的行人身份类别,修改最后的全连接层的神经元个数,保证和训练集中行人身份个数一致;
4.2训练该分类识别网络:使用Softmax损失和反向传播算法训练该分类识别网络,其中Softmax损失表示为:
5.如权利要求1所述基于多尺度生成对抗网络的遮挡行人重识别方法,其特征在于在步骤5)中,所述利用训练好的分类识别网络提取行人图像的特征并进行相似度匹配的具体步骤为:
5.1利用训练好的分类识别网络提取行人图像的特征:将分类识别网络的分类层之前的全连接层输出作为行人图像的深度特征,对于图库中的每张图像,利用分类识别网络,提取深度特征,而对于输入的每张查询图像,首先人工判断输入图像是否发生遮挡,若发生遮挡,则先利用多尺度生成器得到去遮挡图像,再利用分类识别网络提取深度特征;否则,直接利用分类识别网络提取深度特征;
5.2进行相似度匹配:利用查询图像与图库图像特征之间的欧式距离作为相似度计算方法,按照相似度从大到小进行排序,获得匹配结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910418070.1A CN110135366B (zh) | 2019-05-20 | 2019-05-20 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910418070.1A CN110135366B (zh) | 2019-05-20 | 2019-05-20 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110135366A CN110135366A (zh) | 2019-08-16 |
CN110135366B true CN110135366B (zh) | 2021-04-13 |
Family
ID=67571358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910418070.1A Active CN110135366B (zh) | 2019-05-20 | 2019-05-20 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135366B (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610207B (zh) * | 2019-09-10 | 2022-11-25 | 重庆邮电大学 | 一种基于迁移学习的小样本sar图像舰船分类方法 |
CN110688966B (zh) * | 2019-09-30 | 2024-01-09 | 华东师范大学 | 语义指导的行人重识别方法 |
CN110866472A (zh) * | 2019-11-04 | 2020-03-06 | 西北工业大学 | 一种无人机地面运动目标识别与图像增强系统及方法 |
CN110825900A (zh) * | 2019-11-07 | 2020-02-21 | 重庆紫光华山智安科技有限公司 | 特征重构层的训练方法、图像特征的重构方法及相关装置 |
CN111178178B (zh) * | 2019-12-16 | 2023-10-10 | 汇纳科技股份有限公司 | 结合区域分布的多尺度行人重识别方法、系统、介质及终端 |
CN111160217B (zh) * | 2019-12-25 | 2023-06-23 | 中山大学 | 一种行人重识别系统对抗样本生成方法及系统 |
CN111210007A (zh) * | 2020-01-02 | 2020-05-29 | 国家电网有限公司 | 基于改进srgan模型的超分辨率螺栓图像生成方法 |
CN111292262B (zh) * | 2020-01-19 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备以及存储介质 |
CN111339857B (zh) * | 2020-02-17 | 2022-08-30 | 昆明理工大学 | 基于身份一致性和不相关约束的跨视角行人重识别方法 |
CN111461295B (zh) * | 2020-03-20 | 2022-08-16 | 南京理工大学 | 基于多尺度生成对抗神经网络的单帧条纹分析方法 |
CN111476200B (zh) * | 2020-04-27 | 2022-04-19 | 华东师范大学 | 基于生成对抗网络的人脸去识别化生成方法 |
CN111738092B (zh) * | 2020-05-28 | 2024-03-29 | 华南理工大学 | 一种基于深度学习的恢复被遮挡人体姿态序列方法 |
CN111814705B (zh) * | 2020-07-14 | 2022-08-02 | 广西师范大学 | 一种基于批次分块遮挡网络的行人再辨识方法 |
CN111738213B (zh) * | 2020-07-20 | 2021-02-09 | 平安国际智慧城市科技股份有限公司 | 人物属性识别方法、装置、计算机设备及存储介质 |
CN111860431B (zh) * | 2020-07-30 | 2023-12-12 | 浙江大华技术股份有限公司 | 图像中对象的识别方法和装置、存储介质及电子装置 |
CN111862294B (zh) * | 2020-07-31 | 2024-03-01 | 天津大学 | 基于ArcGAN网络的手绘3D建筑自动上色网络装置及方法 |
CN112270651B (zh) * | 2020-10-15 | 2023-12-15 | 西安工程大学 | 一种基于多尺度判别生成对抗网络的图像修复方法 |
CN112200102B (zh) * | 2020-10-15 | 2023-02-14 | 华中科技大学 | 一种自适应数据增强的二维人体姿态估计方法和系统 |
CN112365464B (zh) * | 2020-11-09 | 2021-08-10 | 成都信息工程大学 | 一种基于gan的医学图像病变区域弱监督定位方法 |
CN112434599B (zh) * | 2020-11-23 | 2022-11-18 | 同济大学 | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 |
CN112396036B (zh) * | 2020-12-09 | 2023-08-08 | 中山大学 | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 |
CN112232325B (zh) * | 2020-12-15 | 2021-03-30 | 浙江大华技术股份有限公司 | 样本数据处理方法和装置、存储介质及电子设备 |
CN112883774A (zh) * | 2020-12-31 | 2021-06-01 | 厦门易仕特仪器有限公司 | 行人重识别数据增强方法、装置、设备及可读存储介质 |
CN112966736B (zh) * | 2021-03-03 | 2022-11-11 | 北京航空航天大学 | 一种基于多视角匹配与局部特征融合的车辆再识别方法 |
CN112861785B (zh) * | 2021-03-09 | 2023-09-29 | 中山大学 | 一种基于实例分割和图像修复的带遮挡行人重识别方法 |
CN113221641B (zh) * | 2021-04-01 | 2023-07-07 | 哈尔滨工业大学(深圳) | 基于生成对抗网络和注意力机制的视频行人重识别方法 |
CN113095263B (zh) * | 2021-04-21 | 2024-02-20 | 中国矿业大学 | 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置 |
CN113222114B (zh) * | 2021-04-22 | 2023-08-15 | 北京科技大学 | 一种图像数据增广方法及装置 |
CN113255492B (zh) * | 2021-05-17 | 2022-08-05 | 南京甄视智能科技有限公司 | 行人重识别的方法及系统 |
CN113408351B (zh) * | 2021-05-18 | 2022-11-29 | 河南大学 | 一种基于姿态引导生成对抗网络的行人重识别方法 |
CN113313169B (zh) * | 2021-05-28 | 2022-10-11 | 中国人民解放军战略支援部队航天工程大学 | 基于深度学习的训练素材智能识别方法、装置和设备 |
CN113657448B (zh) * | 2021-07-14 | 2023-11-24 | 浙江大学 | 一种基于生成对抗网络和梯度解释的对抗样本防御方法 |
CN113627272B (zh) * | 2021-07-19 | 2023-11-28 | 上海交通大学 | 基于归一网络的严重不对齐行人重识别方法及系统 |
CN113505845A (zh) * | 2021-07-23 | 2021-10-15 | 黑龙江省博雅智睿科技发展有限责任公司 | 一种基于语言的深度学习训练集图像生成方法 |
CN113591864B (zh) * | 2021-07-28 | 2023-04-07 | 北京百度网讯科技有限公司 | 文本识别模型框架的训练方法、装置及系统 |
CN114418130B (zh) * | 2022-03-30 | 2022-07-15 | 中国科学技术大学 | 一种模型训练方法、数据处理方法及相关设备 |
CN117612266B (zh) * | 2024-01-24 | 2024-04-19 | 南京信息工程大学 | 基于多尺度图像及特征层对齐的跨分辨率行人重识别方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9396412B2 (en) * | 2012-06-21 | 2016-07-19 | Siemens Aktiengesellschaft | Machine-learnt person re-identification |
CN104616324B (zh) * | 2015-03-06 | 2017-07-28 | 厦门大学 | 基于自适应表观模型和点‑集距离度量学习的目标跟踪方法 |
CN107133601B (zh) * | 2017-05-13 | 2021-03-23 | 五邑大学 | 一种基于生成式对抗网络图像超分辨率技术的行人再识别方法 |
CN107679465B (zh) * | 2017-09-20 | 2019-11-15 | 上海交通大学 | 一种基于生成网络的行人重识别数据生成和扩充方法 |
CN108875510B (zh) * | 2017-11-28 | 2020-12-01 | 北京旷视科技有限公司 | 图像处理的方法、装置、系统及计算机存储介质 |
CN108960127B (zh) * | 2018-06-29 | 2021-11-05 | 厦门大学 | 基于自适应深度度量学习的遮挡行人重识别方法 |
CN109145992B (zh) * | 2018-08-27 | 2021-07-20 | 西安电子科技大学 | 协作生成对抗网络和空谱联合的高光谱图像分类方法 |
CN109359559B (zh) * | 2018-09-27 | 2021-11-12 | 天津师范大学 | 一种基于动态遮挡样本的行人再识别方法 |
CN109583379A (zh) * | 2018-11-30 | 2019-04-05 | 常州大学 | 一种基于随机擦除行人对齐网络的行人重识别方法 |
-
2019
- 2019-05-20 CN CN201910418070.1A patent/CN110135366B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110135366A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135366B (zh) | 基于多尺度生成对抗网络的遮挡行人重识别方法 | |
Jiao et al. | A survey on the new generation of deep learning in image processing | |
Jiang et al. | Edge-enhanced GAN for remote sensing image superresolution | |
CN112507997B (zh) | 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统 | |
Zhu et al. | Deep learning meets SAR: Concepts, models, pitfalls, and perspectives | |
CN110378381B (zh) | 物体检测方法、装置和计算机存储介质 | |
Zhao et al. | Semantic segmentation with attention mechanism for remote sensing images | |
Wang et al. | Ultra-dense GAN for satellite imagery super-resolution | |
Wang et al. | A unified multiscale learning framework for hyperspectral image classification | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
Wang et al. | Small-object detection based on yolo and dense block via image super-resolution | |
Geng et al. | Using deep learning in infrared images to enable human gesture recognition for autonomous vehicles | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN112163498B (zh) | 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 | |
CN109743642B (zh) | 基于分层循环神经网络的视频摘要生成方法 | |
Alajaji et al. | Few shot scene classification in remote sensing using meta-agnostic machine | |
Zhang et al. | CNN cloud detection algorithm based on channel and spatial attention and probabilistic upsampling for remote sensing image | |
Ji et al. | Few-shot scene classification of optical remote sensing images leveraging calibrated pretext tasks | |
CN115359372A (zh) | 一种基于光流网络的无人机视频运动目标检测方法 | |
CN115908772A (zh) | 一种基于Transformer和融合注意力机制的目标检测方法及系统 | |
CN115439442A (zh) | 基于共性和差异的工业品表面缺陷检测与定位方法及系统 | |
CN115222998A (zh) | 一种图像分类方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN112668662A (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
Ataş | Performance Evaluation of Jaccard-Dice Coefficient on Building Segmentation from High Resolution Satellite Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |