CN112784768A - 一种基于视角引导多重对抗注意力的行人重识别方法 - Google Patents

一种基于视角引导多重对抗注意力的行人重识别方法 Download PDF

Info

Publication number
CN112784768A
CN112784768A CN202110108895.0A CN202110108895A CN112784768A CN 112784768 A CN112784768 A CN 112784768A CN 202110108895 A CN202110108895 A CN 202110108895A CN 112784768 A CN112784768 A CN 112784768A
Authority
CN
China
Prior art keywords
attention
pedestrian
network
visual angle
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110108895.0A
Other languages
English (en)
Inventor
杜博
刘方驿
叶茫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110108895.0A priority Critical patent/CN112784768A/zh
Publication of CN112784768A publication Critical patent/CN112784768A/zh
Priority to PCT/CN2021/122342 priority patent/WO2022160772A1/zh
Priority to US18/311,858 priority patent/US11804036B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视角引导多重对抗注意的行人重识别方法,属于监控视频检索技术领域。本发明通过引入视角引导的注意力机制和多重对抗学习实现跨视角行人重识别效果的提升。首先,以对抗的方式使用视角信息对注意力机制的学习进行监督,在进行直接监督的同时使生成的注意力图能够抗视角变化。其次,在基础特征学习模型中引入多重对抗约束,进一步增强特征的视角不变性,从而使最终学习到的特征更强健。本发明提出的模型的有效性在Market1501和DukeMTMC‑ReID数据集上都得到了证明。同时本发明提出的模型易于集成到现有的行人重识别模型,并进一步有效的提升性能。

Description

一种基于视角引导多重对抗注意力的行人重识别方法
技术领域
本发明属于监控视频检索技术领域,具体地涉及一种基于视角引导多重对抗注意力的行人重识别方法。
背景技术
近些年,行人重识别广泛应用于行人追踪和刑侦搜索等方面。行人重识别技术就是在跨摄像头的条件下,将不同地点,不同时间出现的相同的行人联系起来。行人重识别方法主要结合计算机视觉技术对行人进行特征学习,并设计合适的度量进行特征匹配。
学习鲁棒的特征对提升行人重识别算法的性能十分重要,而行人的姿态变化,摄像头视角变化,背景遮挡,光照变化以及图像分辨率变化等都会造成特征失真。因此,如何学习强健的能够抗各种变化的特征是目前行人重识别问题的研究热点。
目前主流的行人重识别算法都基于深度学习网络框架,深度学习将行人特征学习与度量结合形成端到端的网络,大幅提升了行人重识别算法的性能。深度卷积神经网络的基本训练和测试步骤如下:
1、准备数据,将数据集分为训练集和测试集。
2、将训练集的数据放入深度卷积神经网络进行训练,其中包括,基础网络的构建,三元组的构建,损失优化等。
3、使用训练好的模型对query集和测试集的图片进行特征提取和特征匹配。
对抗学习使用生成器和判别器来形成对抗的模型,生成器希望尽可能生成逼真的样本从而不能被判别器区分,而判别器希望尽可能将生成的样本和真实样本区分开,从而通过对抗的方式使生成样本尽可能接近真实样本。
注意力机制能突出信息区域,抑制噪声模式。按照注意力机制的作用域,可以分为三类:1)空间域注意力通过空间转换来提取关键信息。2)通道域注意力考虑通道间的依赖性并相应的调整通道权重。3)混合域注意力是空间域和通道域注意力的结合,它同时关注特征的空间信息和通道信息。
目前注意力机制也逐渐在行人重识别领域变得火热,基于注意力机制的方法也取得了不错的性能。但是目前的方法存在两点局限性:1)现有的注意力机制只在与特征进行结合后的最终阶段被监督。注意力图的学习缺少直接的监督,因而难以判别学习到的注意力图对最后的表达是否是有益的。2)现存的注意力策略关注设计复杂的结构同时忽略了重要的摄像头ID信息,使学习到的特征表达对视角变化敏感。
发明内容
针对现有技术存在的问题,本发明所要解决的技术问题就是对现有的基于注意力机制的行人重识别方法进行改进。提出了一种基于视角引导多重对抗注意力的行人重识别方法,借用对抗学习的思想,将视角信息引入注意力机制,对注意力机制的学习进行直接监督并考虑其是否能抓取有信息量且视角无关的部位。
本发明所要解决的技术问题是通过这样的技术方案实现的,它包括:
步骤1、构建深度神经网络
深度卷积神经网络主要包括特征学习模块,多重对抗模块,视角引导注意力机制模块,所述的特征学习模块采用多种基于ResNet50网络的基础模型,输入行人图片进行特征学习得到特征;所述的多重对抗模块在基础ResNet50的每个残差块后接一个全局池化层和视角鉴别器;所述的视角引导注意力机制模块主要为注意力图生成器和视角鉴别器;
步骤2、深度卷积神经网络的训练
1)、数据的准备:准备行人图片,输入行人图片和对应的id标签,将其划分为两部分作为训练图片和测试图片;
2)、将训练图片送入深度卷积神经网络进行训练
本步骤包括特征学习,多重对抗模块学习,视角引导注意力机制学习。
所述特征学习为:将训练图片输入搭建好的深度卷积神经网络,输出为特征的深度特征表达。该部分使用三元组损失以及分类损失进行监督。
所述多重对抗模块学习为:在原始特征学习网络的每一个残差块上加入全局池化得到每一个低层,中层,高层特征,使用视角鉴别器对这些特征进行监督,使最后得到的深度特征表达更强健。该部分使用视角分类损失对特征进行监督。
所述视角引导注意力机制为:在原有深度特征学习网络的基础上加入注意力机制,并对注意力机制的学习进行监督,使生成的注意力图更能抓取语义信息丰富且能对抗视角变化的区域。该部分使用视角分类损失对注意力图进行监督。
3)、网络优化及参数更新
更新包括前向传播和反向传播两部分,前向传播通过网络计算输出与损失大小,然后再反向传播过程中反传损失的梯度,从而对网络进行更新。
步骤3、深度卷积神经网络的测试
使用训练好的网络对测试图片进行特征提取,使用欧式距离对query与gallery中的图片进行特征匹配。
本发明的技术效果是:
1.将对抗学习用于行人重识别网络,对各个阶段的特征进行监督,增强了特征的视角不变性,使最终学习到的全局特征更加强健。
2.提出的视角注意力机制对传统的注意力机制进行改进,对注意力机制学习进行直接的监督同时关注注意力图抓取的区域是否能抵抗视角变化,提升了注意力机制的性能。
本发明的优点是:1)对注意力机制的学习进行直接监督,提高了注意力机制的性能。2)易于集成到各种基础模型且能对这些模型进行性能优化。
附图说明
图1为本发明提出的深度卷积神经网络的模型图;
图2为本发明使用的特征图生成器的模型图;
图3为本发明提出的视角引导的注意力机制的模型图;
具体实施方式
下面结合附图和实施例对本发明作进一步说明:
术语解释:query集:待搜索目标行人图片集
Gallery集:所有行人图片集
Softmax:一种归一化指数函数
Rank1和mAP:行人重识别领域的两种评价指标
本发明以对抗的方式构建一个与视角信息监督的注意力机制结合的网络。针对当前注意力机制存在的局限性,采用摄像头ID信息对注意力机制的学习进行引导,筛选具有显著性和视角不变性的区域(显著性是指:行人图片中最具有信息量,可以用于区分的区域);还采用对抗的方式在网络各层对学习到的特征进行监督,借此特征的视角不变性能够进一步的加强。
本发明的视角引导多重对抗注意力机制的行人重识别方法包括以下步骤:
步骤1、构建深度卷积神经网络
本发明的网络结构搭建主要基于pytorch平台,基础网络搭建采用最基本的ResNet50结构。层的添加与定义遵从pytorch内部的各种操作。构建的模型如图1所示,主要包括特征学习,多重对抗模块与视角引导注意力机制模块:
特征学习模块使用三个基础模型进行特征生成。(1)IDE/PCB模型“Beyond partmodels:Person retrieval with refined part pooling(and a strong convolutionalbaseline),Sun,Y.,Zheng,L.,Yang,Y.,Tian,Q.,Wang,S.Proceedings of the EuropeanConference on Computer Vision(ECCV).2018:480-496.”(超越局部模型:使用精细局部池化的行人搜索。郑良等,欧洲计算机视觉会议,2018,480-496)。该模型对特征图进行精细局部池化,生成兼顾局部特性和全局特性的行人特征。(2)AGW模型“Deep learning forperson re-identification:A survey and outlook,M.Ye,J.Shen,G.Lin,T.Xiang,L.Shao,and S.C.Hoi,arXiv preprint arXiv:2001.04193,2020.”(用于行人重识别的深度学习:总结与展望。叶芒等,arXiv preprint arXiv:2001.04193,2020)。该模型结合非局部注意力模块,泛化平均池化以及加权正则三元组提出新的行人重识别基础网络。
(3)Fast-reid模型“Fastreid:Apytorch toolbox for general instance re-identification,L.He,X.Liao,W.Liu,X.Liu,P.Cheng,and T.Mei,arXiv preprintarXiv:2006.02631,2020.”(Fastreid:一个用于通常实例再识别的pytorch工具箱,何凌霄等,arXiv preprintarXiv:2006.02631,2020)。京东AI研究院将现有行人重识别基础模型进行整理,对常用的技巧也进行整合形成一个重识别工具箱。这三个基础模型都使用原模型中常用的三元组损失和分类损失进行身份监督。
如图1所示,多重对抗模块(MAM)和视角引导注意力机制模块(VGA)作用在基础模型上,对特征的学习进行加强,希望学习更加强健且更具有判别性的特征。
多重对抗模块作用在各个阶段的残差块,对各个阶段的特征进行监督,使用视角信息对池化后的特征进行分类,希望学习到的池化特征不能被区分到具体的视角。其中主要包括各个阶段的分类损失监督,分类器希望将特征区分到具体的视角,而特征生成器希望生成的特征不能被区分到具体的视角。
视角引导注意力机制模块以对抗的思路对注意力图的学习进行引导,注意图与最后一个阶段的特征图进行点乘加权,然后池化得到全局特征。注意力图的生成器如图2所示,其中包括三种类型的注意力机制:(1)空间注意力机制(SA)对注意图的空间位置进行变换。(2)通道注意力机制(CA)参考SE-Net“Squeeze-and-excitationnetworks,J.Hu,L.Shen,S.Albanie,G.Sun,and E.Wu,IEEE TPAMI,2019pp.1–1.”(挤压与激励网络,胡杰等,IEEETPAMI,2019)对通道间的相关性进行建模。(3)混合注意力机制(MA)将两种进行以一种串行的方式进行结合,同时进行空间域和通道域的变换。这三种注意力机制分别使用的,无先后顺序。
图3给出了视角引导注意力机制模块的示意图,其中主要包括对注意力图的分类损失监督,分类器希望将注意力图区分到具体的视角,而注意力图生成器希望生成的特征不能被区分到具体的视角。
步骤2、深度卷积神经网络的训练
1)数据的准备:准备行人图片和标签(包括行人身份标签以及摄像头标签),作为训练和测试图片。训练过程中,按批输入图片数据,图片的像素大小都设置为(384,192),批的大小设置为32。
2)把训练图片送入深度卷积神经网络进行训练
本步骤主要包括基础模型,多重对抗模块和视角引导注意力机制模块的学习。
基础模型特征学习:参考IDE/PCB模型,AGW模型与Fastreid模型搭建基础网络模型,使用与对应模型相同的损失(行人身份分类损失Lcls)进行监督,网络的输出为2048维的特征向量(一个批次N张图片输出N*2048的矩阵)。
多重对抗模块:对于多个阶段的特征提取器,本发明通过视角分类器衡量生成特征的视角不变性,输入行人样本x,特征求解器的参数为θf,视角分类器的参数为θd,视角分类器的损失可以表示为式(1):
Figure BDA0002918582770000051
其中yi表示第i个行人的视角标签,
Figure BDA0002918582770000052
是第i个行人在l阶段的softmax概率向量,N是行人图片数目,L是阶段数。我们希望生成的特征不能被判定为具体的视角,也就是判定为每个视角的概率相当,于是此模块的对抗损失可以写为,在实际实施过程中,本发明根据采集行人数据的摄像头数设定C,例如数据由4个摄像头采集,则C=4:
Figure BDA0002918582770000061
视角引导注意力模块:注意力图生成器如图2所示,视角引导注意力模块(VGA)的示意图如图3所示。视角分类器希望将注意力图分到不同的视角,输入注意力图x,注意力图生成器的参数为θg,注意力图分类器的参数为θad分类损失可以表示为式(3)
Figure BDA0002918582770000062
其中yi和pi分别表示第i个注意力图的视角标签和softmax概率向量。N是注意力图的数目。我们同样希望生成的注意力图不能被判定为具体的视角,也就是判定为每个视角的概率相当,C的选取与式(2)中相同,于是此模块的对抗损失可以写为:
Figure BDA0002918582770000063
整个模型:整个模型由基础模型的特征学习,多重对抗模块以及视角引导注意力模块组成,整个模型的损失求解可以表示为式(5)。
Figure BDA0002918582770000064
3)网络优化及参数更新
网络的更新主要包括前向传播和反向更新两部分,搭建的网络模型主要通过前向传播过程计算各项损失,然后反向传播损失的梯度来更新网络。值得注意的是在求解对抗网络是加入了梯度反转操作。在对抗学习中,生成器参数和判别器参数的更新可以定义为式(6)
Figure BDA0002918582770000065
步骤3、深度卷积神经网络的测试
在测试阶段,不进行网络的训练以及参数更新,主要是使用训练好的模型对测试图片进行特征提取和特征匹配。行人图片通过模型得到基础模型的特征图输出,经过设计的注意力机制得到注意力图,使用注意力图对特征图进行加权,池化得到最终的全局特征。之后按欧式距离进行特征匹配,在gallery中寻找与query距离最近的图片,如果query图片的行人身份与在gallery中找到的图片行人身份一致,则认为匹配成功。
实施例:
1.数据集
本发明使用Market1501和DukeMTMC-ReID数据集。Market1501数据集采集于校园场景并于2015年发布,包含1501个行人身份,由6个摄像机拍摄。其中,751个行人身份的12936张图片作为训练集,750个行人身份的19732张图片作为测试集。DukeMTMC-ReID数据集是DukeMTMC数据集的一个子集。其中,702个行人身份的16522张图片作为训练集,702个行人身份的17661张图片作为测试集。
2.实验设置
网络的学习率,学习策略等都与3个对应的基础模型设置相同。这里主要介绍损失函数的权重设置,在实验中,设置λma=0.1,λvga=0.1。
3.训练和测试方法
训练阶段:按批输入行人图像,前向传播计算各项损失,反向传播更新网络参数,经过多次迭代得到最终的网络模型。
测试阶段:使用训练好的网络模型对测试图片进行特征提取,进行特征匹配,并计算Rank1和mAP指标。
4.识别准确率比较
为了验证本发明的有效性,将本发明与现有的行人重识别方法进行对比,现有的行人重识别方法主要有:
(1)MNH-6:B.Chen,W.Deng,and J.Hu,“Mixed high-order attention networkforperson re-identification,”in ICCV,2019,pp.371–381.
(2)ABD-Net:T.Chen,S.Ding,J.Xie,Y.Yuan,W.Chen,Y.Yang,Z.Ren,andZ.Wang,“Abd-net:Attentive but diverse person re-identification,”inICCV,2019,pp.8351–8361.
(3)BFE:Z.Dai,M.Chen,X.Gu,S.Zhu,and P.Tan,“Batch dropblock networkforperson re-identification and beyond,”in ICCV,2019,pp.3691–3701.
(4)SCSN:X.Chen,C.Fu,Y.Zhao,F.Zheng,J.Song,R.Ji,and Y.Yang,
“Salience-guided cascaded suppression network for personreidentification,”in CVPR,2020,pp.3300–3310.
(5)AGW:M.Ye,J.Shen,G.Lin,T.Xiang,L.Shao,and S.C.Hoi,“Deep learningfor person re-identification:A survey and outlook,”arXiv preprint arXiv:2001.04193,2020.
(6)ISP:K.Zhu,H.Guo,Z.Liu,M.Tang,and J.Wang,“Identity-guidedhumansemantic parsing for person re-identification,”ECCV,pp.0–0,2020.
(7)Fastreid:L.He,X.Liao,W.Liu,X.Liu,P.Cheng,and T.Mei,“Fastreid:Apytorch toolbox for general instance re-identification,”arXiv preprintarXiv:2006.02631,2020.测试结果见表1:
表1
Figure BDA0002918582770000081
从表1可以看出:本发明非常容易集成到现有的模型对其进行改进并取得更优的效果,同时本发明取得的指标比现有方法都高,识别率明显提高。主要因为两点原因:1.本发明使用的多重对抗模块对各阶段的特征都进行优化,从而最终取得更好的特征表达。2.本发明使用的视角引导注意力机制对注意力进改进,从而优化了整个模型的性能。

Claims (8)

1.一种基于视角引导多重对抗注意的行人重识别方法,其特征在于,包括以下步骤:
步骤1、构建深度卷积神经网络
深度卷积神经网络主要包括特征学习模块,多重对抗模块,视角引导注意力机制模块;所述的多重对抗模块在特征学习模块的基础网络每个阶段后接一个全局池化层和视角鉴别器;视角引导注意力机制模块主要为注意力图生成器和视角鉴别器;
步骤2、深度卷积神经网络的训练
1)、数据的准备:准备行人图片,输入行人图片和对应的id标签,将其划分为两部分作为训练图片和测试图片;
2)、将训练图片送入深度卷积神经网络进行训练,包括特征学习,多重对抗模块学习,视角引导注意力机制学;
3)、网络优化及参数更新
步骤3、深度卷积神经网络的测试
使用训练好的网络对测试图片进行特征提取,使用欧式距离对query与gallery中的图片进行特征匹配。
2.根据权利要求1所述的方法,其特征在于:所述特征学习模块采用ResNet50结构,包括IDE/PCB模型、AGW模型和Fast-reid模型,该三种模型均使用其自身的三元组损失和分类损失进行身份监督。
3.根据权利要求2所述的方法,其特征在于:特征学习模块网络输出为2048维的特征向量。
4.根据权利要求2所述的方法,其特征在于:
步骤2中多重对抗模块学习为:在原始特征学习网络的每一个残差块上加入全局池化得到每一个低层,中层,高层特征,使用视角鉴别器对这些特征进行监督,使最后得到的深度特征表达更强健,该部分使用视角分类损失对特征进行监督。
5.根据权利要求4所述的方法,其特征在于:
所述视角分类器的损失为:
Figure FDA0002918582760000021
其中,输入行人样本x,特征求解器的参数为θf,视角分类器的参数为θd,yi表示第i个行人的视角标签,pl i是第i个行人在l阶段的softmax概率向量,N是行人图片数目,L是阶段数。
6.根据权利要求2所述的方法,其特征在于:
所述步骤2中的视角引导注意力机制为:在原有深度特征学习网络的基础上加入注意力机制,并对注意力机制的学习进行监督,使生成的注意力图更能抓取语义信息丰富且能对抗视角变化的区域,该部分使用视角分类损失对注意力图进行监督。
7.根据权利要求6所述的方法,其特征在于:
输入注意力图x,注意力图生成器的参数为θg,注意力图分类器的参数为θad分类损失可以表示为:
Figure FDA0002918582760000022
其中yi和pi分别表示第i个注意力图的视角标签和softmax概率向量,N是注意力图的数目。
8.根据权利要求2所述的方法,其特征在于:
所述步骤2中,网络的更新主要包括前向传播和反向更新两部分,搭建的网络模型主要通过前向传播过程计算各项损失,然后反向传播损失的梯度来更新网络。
CN202110108895.0A 2021-01-27 2021-01-27 一种基于视角引导多重对抗注意力的行人重识别方法 Pending CN112784768A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110108895.0A CN112784768A (zh) 2021-01-27 2021-01-27 一种基于视角引导多重对抗注意力的行人重识别方法
PCT/CN2021/122342 WO2022160772A1 (zh) 2021-01-27 2021-09-30 一种基于视角引导多重对抗注意力的行人重识别方法
US18/311,858 US11804036B2 (en) 2021-01-27 2023-05-03 Person re-identification method based on perspective-guided multi-adversarial attention

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110108895.0A CN112784768A (zh) 2021-01-27 2021-01-27 一种基于视角引导多重对抗注意力的行人重识别方法

Publications (1)

Publication Number Publication Date
CN112784768A true CN112784768A (zh) 2021-05-11

Family

ID=75757737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110108895.0A Pending CN112784768A (zh) 2021-01-27 2021-01-27 一种基于视角引导多重对抗注意力的行人重识别方法

Country Status (3)

Country Link
US (1) US11804036B2 (zh)
CN (1) CN112784768A (zh)
WO (1) WO2022160772A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022160772A1 (zh) * 2021-01-27 2022-08-04 武汉大学 一种基于视角引导多重对抗注意力的行人重识别方法
CN115841681A (zh) * 2022-11-01 2023-03-24 南通大学 一种基于通道注意力的行人再识别对抗攻击方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457420B (zh) * 2022-11-10 2023-03-17 松立控股集团股份有限公司 一种基于无人机拍摄夜间低对比度的车辆重检测方法
CN116110076B (zh) * 2023-02-09 2023-11-07 国网江苏省电力有限公司苏州供电分公司 基于混合粒度网络的输电高空作业人员身份重识别方法和系统
CN115880650B (zh) * 2023-02-16 2023-05-16 城云科技(中国)有限公司 跨视域车辆重识别模型及其构建方法、装置及应用
CN116311387B (zh) * 2023-05-25 2023-09-01 浙江工业大学 一种基于特征交集的跨模态行人重识别方法
CN117079142B (zh) * 2023-10-13 2024-01-26 昆明理工大学 无人机自动巡检的反注意生成对抗道路中心线提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325111A (zh) * 2020-01-23 2020-06-23 同济大学 一种融合逆注意力和多尺度深度监督的行人重识别方法
US20200226421A1 (en) * 2019-01-15 2020-07-16 Naver Corporation Training and using a convolutional neural network for person re-identification
CN111881716A (zh) * 2020-06-05 2020-11-03 东北林业大学 一种基于多视角生成对抗网络的行人重识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538143B2 (en) * 2018-10-26 2022-12-27 Nec Corporation Fully convolutional transformer based generative adversarial networks
CN110659589B (zh) * 2019-09-06 2022-02-08 中国科学院自动化研究所 基于姿态和注意力机制的行人再识别方法、系统、装置
CN110706793A (zh) * 2019-09-25 2020-01-17 天津大学 一种基于注意力机制的甲状腺结节半监督分割方法
CN112784768A (zh) * 2021-01-27 2021-05-11 武汉大学 一种基于视角引导多重对抗注意力的行人重识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200226421A1 (en) * 2019-01-15 2020-07-16 Naver Corporation Training and using a convolutional neural network for person re-identification
CN111325111A (zh) * 2020-01-23 2020-06-23 同济大学 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN111881716A (zh) * 2020-06-05 2020-11-03 东北林业大学 一种基于多视角生成对抗网络的行人重识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘方驿: "基于视角混淆及紧凑特征学习的行人再识别算法研究", 《万方学位论文数据库》 *
熊炜等: "基于CNN的改进行人重识别技术", 《计算机工程与科学》 *
祁磊等: "弱监督场景下的行人重识别研究综述", 《软件学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022160772A1 (zh) * 2021-01-27 2022-08-04 武汉大学 一种基于视角引导多重对抗注意力的行人重识别方法
CN115841681A (zh) * 2022-11-01 2023-03-24 南通大学 一种基于通道注意力的行人再识别对抗攻击方法

Also Published As

Publication number Publication date
US20230267725A1 (en) 2023-08-24
US11804036B2 (en) 2023-10-31
WO2022160772A1 (zh) 2022-08-04

Similar Documents

Publication Publication Date Title
CN112784768A (zh) 一种基于视角引导多重对抗注意力的行人重识别方法
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN111539370A (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
CN111260594A (zh) 一种无监督的多模态图像融合方法
CN112085055A (zh) 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
CN112434654B (zh) 一种基于对称卷积神经网络的跨模态行人重识别方法
Cai et al. Multi-target pan-class intrinsic relevance driven model for improving semantic segmentation in autonomous driving
CN112818790A (zh) 一种基于注意力机制与空间几何约束的行人重识别方法
Wang et al. Occluded person re-identification via defending against attacks from obstacles
CN114299542A (zh) 一种基于多尺度特征融合的视频行人重识别方法
CN112766378A (zh) 一种专注细粒度识别的跨域小样本图像分类模型方法
CN115063832A (zh) 一种基于全局与局部特征的对抗学习跨模态行人重识别方法
CN115375948A (zh) 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络
CN110569761B (zh) 一种基于对抗学习的手绘草图检索遥感图像的方法
CN112070010A (zh) 一种联合多损失动态训练策略增强局部特征学习的行人重识别方法
Tian et al. Self-regulation feature network for person reidentification
CN115830643B (zh) 一种姿势引导对齐的轻量行人重识别方法
Luo et al. Spatial constraint multiple granularity attention network for clothesretrieval
CN117333908A (zh) 基于姿态特征对齐的跨模态行人重识别方法
CN112446305A (zh) 一种基于分类权重等距分布损失模型的行人重识别方法
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN113032612B (zh) 一种多目标图像检索模型的构建方法及检索方法和装置
CN115098646A (zh) 一种图文数据的多级关系分析与挖掘方法
CN114821632A (zh) 一种遮挡行人重识别方法
Sun et al. Information enhanced graph convolutional networks for skeleton-based action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210511

RJ01 Rejection of invention patent application after publication