CN113095263B - 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置 - Google Patents
遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置 Download PDFInfo
- Publication number
- CN113095263B CN113095263B CN202110429894.6A CN202110429894A CN113095263B CN 113095263 B CN113095263 B CN 113095263B CN 202110429894 A CN202110429894 A CN 202110429894A CN 113095263 B CN113095263 B CN 113095263B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- images
- feature
- difference
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 title claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000011176 pooling Methods 0.000 claims abstract description 15
- 208000006440 Open Bite Diseases 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 102100040160 Rabankyrin-5 Human genes 0.000 description 2
- 101710086049 Rabankyrin-5 Proteins 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置。在进行模型训练时,通过结构相同、参数共享的特征提取网络分别提取一对输入图像的特征图像。由于只有输入图像对之间存在遮挡区域的不同,其余参数保持一致,因此通过对两个特征图做差,即可得到遮挡区域所对应的差异特征。再通过注意力生成器为差异特征进行不等价的权重分配,对模型精度影响较大的特征分配更高的权重,之后再从原特征图中把分配好的特征给减去,保留较多的非遮挡区域。最后得到的两个特征图像送入池化层池化后再经全连接层进行基于损失函数的递归训练。本发明不依赖第三方监督信息,模型具备更高的准确度,能够实现更准确的遮挡下行人重识别。
Description
技术领域
本发明涉及行人重识别技术领域,具体涉及一种遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置。
背景技术
目前遮挡下的行人重识别方案主要利用额外的监督信息,主要是姿态估计和语义分割,通过联合训练来提升模型精度。例如Wang等人[1]利用卷积神经网络和姿态估计模型来提取行人图像的局部特征作为图的节点,并提出自适应方向图卷积层来建模节点之间的关系信息和跨图嵌入对齐层共同学习嵌入局部特征的拓扑信息,最后通过图匹配直接预测两幅特征图之间的相似度得分。Miao等人[2]利用额外训练的姿态估计模型来指示行人的哪些区域被遮挡,以便更好地利用未被遮挡区域的特征。Zhang等人[3]利用了语义分割的方法,利用了语义分割和行人重识别之间的内在联系,提出了语义感知遮挡鲁邦网络,包含三个分支:全局分支、局部分支和语义分支。其中全局分支和局部分支对应全局特征和局部特征,语义分支用来指示行人未被遮挡的区域,最后三个分支在同一个框架中联合进行训练。
而在行人重识别方案中引入监督信息通常会造成一个问题:模型精度极大地依赖于姿态估计和语义分割的性能好坏。当生成的人体关键点或者语义信息由于遮挡而不准确时,这些方法就不能基于这些标志提取有效特征,从而导致模型性能下降。
[1]Wang,Guan'an,et al."High-order information matters:Learningrelation and topology for occluded person re-identification."Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020.
[2]Miao,Jiaxu,et al."Pose-guided feature alignment for occludedperson re-identification."Proceedings ofthe IEEE/CVF International Conferenceon ComputerVision.2019.
[3]Zhang,Xiaokang,et al."Semantic-Aware Occlusion-Robust Network forOccluded Person Re-Identification."IEEE Transactions on Circuits and Systemsfor Video Technology(2020).
发明内容
发明目的:为克服现有技术的缺陷,本发明提出一种不依赖监督信息的遮挡下行人重识别技术方案。本发明对图像中遮挡区域与图像深层特征之间的关系进行分析,通过训练模型来减小由于遮挡区域的存在而偏离真实值的特征所带来的影响,从而提升模型的精度,使之在遮挡情况下匹配到正确的行人。
技术方案:为实现上述目的,本发明提出以下技术方案:
一种遮挡下行人重识别模型训练方法,包括以下步骤:
(1)搭建遮挡下行人重识别模型,包括依次连接的特征提取网络、自注意力生成器、池化层、全连接层;
(2)将同一行人的无遮挡图像和有遮挡图像作为一对图像对,收集多个图像对构成训练样本集;
(3)对每一对图像对,通过所述特征提取网络分别提取两幅图像的特征图像,对两个特征图像求差,得到差异特征图像;
(4)通过所述自注意力生成器对所述差异特征图像进行以下处理:
其中,x为输入自注意力生成器的差异特征图像,y为自注意力生成器输出的差异特征图像,i和j表示图像中的位置索引,g(·)为一个实现卷积功能的转换函数,C(x)为归一化因子,f(·)为相似度函数;
(5)用所述两个特征图像分别与自注意力生成器输出的差异特征图像做差,得到两个新的特征图;
(6)将所述两个新的特征图依次送入池化层、全连接层,最后将所述两个新的特征图的相似度计算函数作为损失函数,通过损失函数进行模型的训练,直至损失函数的值满足预设的阈值要求。
针对所述遮挡下行人重识别模型训练方法,以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
可选的,所述特征提取网络包括第一特征提取网络和第二特征提取网络,第一、第二特征提取网络的结构相同且参数共享;其中,第一特征提取网络用于提取无遮挡图像的特征图像,第二特征提取网络用于提取有遮挡图像的特征图像。
可选的,所述第一、第二特征提取网络采用ResNet网络结构。
可选的,所述池化层和所述全连接层之间还设置有BN层。
可选的,所述损失函数的表达式为:
Loss=αLtriplet+βLcls+λLdiff
其中,α、β、λ为平衡参数,用于使Ltriplet、Lcls和Ldiff处于同一个数量级,Ldiff为所述两个新的特征图之差,Ltriplet表示经过池化层池化后所述两个新的特征图之差,Lcls表示经过全连接层处理后所述两个新的特征图之差。
可选的,所述f(·)为以下任意一种函数:点积函数、拼接函数、高斯函数、嵌入高斯函数。
相应地,本发明还提出一种装置,该装置包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时,实现所述的遮挡下行人重识别模型训练方法。
另外,本发明还提出一种遮挡下行人重识别方法,包括步骤:
(1)采用所述遮挡下行人重识别模型训练方法,训练出遮挡下行人重识别模型;
(2)采集任意两幅行人图像,对采集的图像进行预处理,将采集的图像处理成所述遮挡下行人重识别模型输入层所规定的格式;
(3)将经过预处理的两幅行人图像输入至所述遮挡下行人重识别模型,所述遮挡下行人重识别模型的全连接层输出所述两幅行人图像中的行人是否为同一人的判决结果。
针对所述遮挡下行人重识别方法,本发明还提出一种装置,所述装置包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时,实现所述的遮挡下行人重识别方法。
有益效果:与现有技术相比,本发明具有以下优势:
本发明没有引入额外的第三方监督信息,如姿态估计和语义分割,而是从图像的遮挡区域与其他区域深层特征之间的关系出发,通过训练神经网络模型来减小由于存在遮挡区域而偏离真实值的特征所带来的影响,从而提升模型的精度,使之在遮挡情况下匹配到正确的行人。相较于姿态估计和语义分割的方法,本发明实施步骤更为简单,且行人重识别的准确度更高。
附图说明
图1为实施例1所述遮挡下行人重识别模型训练方法的流程图;
图2为实施例1涉及的遮挡下行人重识别模型的结构图。
具体实施方式
本发明旨在摆脱对第三方监督信息的依赖,从对图像中遮挡区域与图像深层特征之间的关系出发,通过训练模型来减小由于遮挡区域的存在而偏离真实值的特征所带来的影响,从而提升模型的精度,使之在遮挡情况下匹配到正确的行人。
有鉴于此,本发明提出了一种遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置。
下面将结合附图和具体实施例对本发明作更进一步的说明。但应当理解的是,本发明可以以各种形式实施,以下在附图中出示并且在下文中描述的一些示例性和非限制性实施例,并不意图将本发明限制于所说明的具体实施例。
实施例1:
本实施例提出一种遮挡下行人重识别模型训练方法,其流程如图1所示,包括以下步骤:
S1:搭建遮挡下行人重识别模型。
S2:将同一行人的无遮挡图像和有遮挡图像作为一对图像对,收集多个图像对构成训练样本集;
S3:对每一对图像对,通过所述特征提取网络分别提取两幅图像的特征图像,对两个特征图像求差,得到差异特征图像;
S4:通过所述自注意力生成器对所述差异特征图像进行权重分配;
S5:用所述两个特征图像分别与自注意力生成器输出的差异特征图像做差,得到两个新的特征图;
S6:将所述两个新的特征图依次送入池化层、全连接层,通过损失函数进行模型的训练,直至损失函数的值满足预设的阈值要求。
所述步骤S1中,遮挡下行人重识别模型如图2所示,本实施例中提出了一种新的框架-差分定位孪生网络,主要用于挖掘遮挡区域与其深层特征之间的关系,差分定位孪生网络后连接的则是现有的池化层、BN层、全连接层。
差分定位孪生网络包括第一特征提取网络、第二特征提取网络、自注意力生成器;第一、第二特征提取网络的结构相同且参数共享,其中,第一特征提取网络用于提取无遮挡图像的特征图像,第二特征提取网络用于提取有遮挡图像的特征图像。第一、第二特征提取网络采用卷积神经网络实现,本实施例中优选采用ResNet50网络结构。
本实施例中采用上述设计的原理是:
网络输入一对同一个行人经过随机遮挡与未遮挡的图片,之后通过骨干网(第一、第二特征提取网络)提取特征,由于两幅图片唯一的区别在于有无遮挡区域,而我们骨干网采用孪生网络的设计思想,其网络结构参数是共享的,因此经过骨干网提取特征后,两幅特征图的差异必然是因为遮挡区域而造成的。那么我们对两幅特征图做差,就可定位到遮挡区域所对应的深层特征。
自注意力模块-由于经过许多的卷积操作,遮挡区域的深层特征不仅仅只包含了遮挡区域的特征,也包含有遮挡区域附近未遮挡区域的特征,贸然将其置为0,反而会丢失掉许多信息。因此在差分定位机制后设计了自注意力模块,用来为差异特征进行合适的权重分配,对模型精度影响较大的特征分配更高的权重。之后再从原特征图中把分配好的特征给减去,保留较多的非遮挡区域,这样就能减小原特征图中差异特征所带来的影响,使得网络能够更好地学到视觉线索。
所述步骤S2中,构建训练样本集的具体方法为:利用随机擦除构建输入图像对,得到遮挡与未遮挡的行人图片,计算过程如下:随机选择一张行人图像A,随机选择一个矩形区域Ie,用随机值代替Ie里面的像素值。假设输入图片的大小为W×H,则图片的面积大小为S=W×H,随机初始化擦除区域的面积大小为Se,并且Se和S的比值满足:
sl和sh均为预设的小于1的常数。擦除区域的纵横比为re。所以,我们可以得到擦除矩形区域的高和擦除区域的宽:
之后随机在图像A中选择一个点p(xe,ye),如果xe+We≤W,ye+He≤H,则随机选择的矩形区域为Ae=(xe,ye,xe+We,ye+He),区域内的像素值我们用0值去代替。
所述步骤S3中,得到差异特征图像的具体步骤为:将图像对送入骨干网ResNet50(特征提取网络)中提取特征,得到两幅特征图f1∈RB×C×H×W,f2∈RB×C×H×W,其中f1∈RB×C×H×W为数据集中的行人特征图,f2∈RB×C×H×W为经过随机擦除后的行人特征图,B为输入批次数量,C为通道维度大小,H为特征图的高,W为特征图的宽。特征图得到之后,将其送入差分定位模块,对两幅特征图做差得到差异特征:
f_=|f1-f2| (3)
所述步骤S4中,通过所述自注意力生成器对所述差异特征图像进行权重分配。具体来说,得到差异特征之后,我们需要将其送入自注意力生成器,自注意力生成器的运算表达式如下所示:
其中,x为输入自注意力生成器的差异特征图像,y为自注意力生成器输出的差异特征图像,大小与x保持一致;i和j表示图像中的位置索引;g(·)为一个实现卷积功能的转换函数;C(x)为归一化因子;f(·)为相似度函数,用于计算任意两个位置之间的相似度,可以使用点积、拼接、高斯函数、嵌入高斯函数来实现。
在本实施中,我们采用嵌入高斯函数作为相似度函数f(·),表达式为:
其中,θ(xi)=Wθxi、φ(xj)=Wφxj,g(xj)=Wgxj,Wθ、Wφ和Wg采用1x1的卷积去实现,此外设置归一化因子:
所以最后得到的注意力模块的运算表达式为:
用εθ(·)来表示自注意力生成器的作用,则经过注意力模块后的差异特征为:
f- 1=εθ(f-) (8)
所述步骤S5中,进行以下处理:我们再从原特征图f1和f2中把分配好权重的差异特征给减掉,保留下来的为尽可能多的非遮挡区域特征,则两个分支新的特征图为:
f1 1=f1-f- 1 (9)
f2 1=f2-f- 1 (10)
f1 1和f2 1即为我们最终得到的特征图。
所述步骤S6中,具体来说,在得到f1 1和f2 1之后,我们对这部分特征进行广义池化后,还要在全连接层进行回归和分类判决。
在本步骤中,我们提出了一种新的差异损失,主要是为了最小化行人特征图与遮挡行人特征图之间的像素差异,拉近其距离,具体的差异损失函数如下所示:
Ldiff=||f1 1-f2 1||1 (11)
其中||·||1代表L1距离,差异损失和标签平滑正则化的交叉熵损失可以帮助掩码生成器识别由于遮挡而偏离真实值的特征元素。
其次还使用了难样本三元组损失函数和标签平滑正则化交叉熵损失函数。
难样本三元组损失函数相对于三元组损失引入了硬样本挖掘策略:将距离最大的正样本对定义为硬正样本对;具有最小距离的负样本对定义为硬负样本对。在一个batch里面,随机采样n个身份,每个身份有k个样本,总共有n×k个样本,之后随机挑选出一个anchor并找出其硬正样本对和硬负样本对,构成硬样本三元组,损失函数为:
Ltriplet=[dp-dn+m]+ (12)
其中,dp硬正样本对特征距离,dn为硬负样本对特征距离,m为阈值参数。
原始的交叉熵损失函数为:
其中p为行人的真实ID,q为行人预测的ID。采用标签平滑正则化来减轻过拟合。
其中γ为平滑因子,c为类别数。
所以总的损失函数为:
Loss=αLtriplet+βLcls+λLdiff (15)
其中α、β和λ为平衡参数,用于使Ltriplet、Lcls和Ldiff处于同一个数量级。
为了验证所述遮挡下行人重识别模型的精度,下面通过具体实验数据加以说明。
首先,我们将本实施例提出的遮挡下行人重识别模型训练方法在Market1501、DukeMTMC-reID和Occluded_DukeMTMC数据集上进行训练和测试。其中Market1501从6个摄像机收集了1501个行人的32668幅图像。数据集被划分为训练集和测试集,训练集包含751个行人的12936幅图像。测试集包括750个行人ID的19732幅图像,在测视阶段,来自750个行人ID的3368幅图像构成查询集,测试集剩下的图像作为图库。DukeMTMC-reID从8个摄像头视角收集了1404个行人ID的36411幅图像,训练集由702个行人ID的16522幅图像构成。query由702个行人ID的2228幅图像,gallery由702个行人ID的17661幅图像构成。Occluded_DukeMTMC在DukeMTMC的数据集上进行调整得到的,训练集有15618幅图片,查询集有2210幅遮挡图片,测试集有17661幅行人图片。评价准则:我们采用了大多数行人重识别使用的两个标准指标,即累积匹配曲线(CMC)和平均精度(mAP)。CMC-k:在排名前k的检索结果中出现正确匹配的概率。mAP:AP衡量的是对给定的测试数据集,分类器正确分类的样本数与总样本之比的值。而mAP则是对所有类别的AP求平均值。两个指标都是越高代表效果越好。
实验结果如表1和表2所示。
表1不同算法在Market1501和DukeMTMC-reID数据集的效果对比
表2不同算法在Occluded-DukeMTMC数据集的效果对比
将实施例1所述方法与目前主流的行人重识别方法在Market1501和DukeMTMC-reID数据集上进行比较,主要比较mAP和Rank-1,具体结果如表1所示。我们可以得到我们的方法在Market1501数据集上取得了mAP=87.7%,Rank-1=95.0%,在DukeMTMC-reID数据集上取得了mAP=78.6%,Rank-1=88.0%。与CVPR2020年的HOReID相比,我们的框架在Market1501比其mAP高出2个点,Rank-1高出0.8个点,在DukeMTMC-reID数据集上,比其mAP高出3个点,Rank-1高出1个点,优于目前大多数现有的算法。
接下来我们将实施例1所述方法与目前主流的行人重识别方法在遮挡数据集上进行训练和测试,Occlude_Duke数据集是目前来说相对较大的一个遮挡数据集,其训练和测试都是在同一个数据集中进行。我们将实施例1所述方法与目前主流的遮挡行人重识别方法进行对比,主要比较mAP、Rank-1、Rank-5、Rank-10,具体结果如表2所示。我们所提出的方法在Occlude_Duke数据集上取得了mAP=52.7%,Rank-1=61.4%,Rank-5=77.8,Rank-10=83.7%。与CVPR2020年的HOReID相比,我们的mAP提高了9个点,Rank-1提高了6个点,与2020年的SORN相比mAP提升了6个点,Rank-1提升了4个点,优于目前大多数遮挡行人重识别方法。
对比表1和表2的数据,可以明显得到实施例1所述方法不论是针对于无遮挡的数据集还是遮挡数据集都能取得好的效果,并且优于目前大多数的算法。
实施例2:
针对实施例1所提出的方法,本实施例提出一种装置,该装置包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时,实现实施例1所述的遮挡下行人重识别模型训练方法。
实施例3:
本实施例提出一种遮挡下行人重识别方法,包括步骤:
(1)采用实施例1所述遮挡下行人重识别模型训练方法,训练出遮挡下行人重识别模型;
(2)采集任意两幅行人图像,对采集的图像进行预处理,将采集的图像处理成所述遮挡下行人重识别模型输入层所规定的格式;
(3)将经过预处理的两幅行人图像输入至所述遮挡下行人重识别模型,所述遮挡下行人重识别模型的全连接层输出所述两幅行人图像中的行人是否为同一人的判决结果。
实施例4:
针对实施例3提出的遮挡下行人重识别方法,本实施例提出一种装置,所述装置包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时,实现实施例3所述的遮挡下行人重识别方法。
应当理解的是,在技术上可行的情况下,以上针对不同实施例所列举的技术特征可以相互组合,从而形成本发明范围内的另外的实施例。此外,本发明所述的特定示例和实施例是非限制性的,并且可以对以上所阐述的结构、步骤、顺序做出相应修改而不脱离本发明的保护范围。
Claims (8)
1.一种遮挡下行人重识别模型训练方法,其特征在于,包括以下步骤:
(1)搭建遮挡下行人重识别模型,包括依次连接的特征提取网络、自注意力生成器、池化层、全连接层;
(2)将同一行人的无遮挡图像和有遮挡图像作为一对图像对,收集多个图像对构成训练样本集;
(3)对每一对图像对,通过所述特征提取网络分别提取两幅图像的特征图像f1和f2,对两个特征图像求差,得到差异特征图像f-=|f1-f2|;
(4)通过所述自注意力生成器对所述差异特征图像进行以下处理:
其中,x为输入自注意力生成器的差异特征图像,y为自注意力生成器输出的差异特征图像,i和j表示图像中的位置索引,g(·)为一个实现卷积功能的转换函数,c(x)为归一化因子,f(·)为相似度函数;
用εθ(·)来表示自注意力生成器的作用,则经过注意力模块后的差异特征为:f_ 1=εθ(f-);
(5)从原特征图f1和f2中把分配好权重的差异特征图像给减掉,保留下来的为非遮挡区域特征,则两个分支新的特征图为:f1 1=f1-f- 1,f2 1=f2-f- 1;
(6)将所述两个新的特征图依次送入池化层、全连接层,最后将所述两个新的特征图的相似度计算函数作为损失函数,通过损失函数进行模型的训练,直至损失函数的值满足预设的阈值要求;
所述损失函数的表达式为:
Loss=αLtriplet+βLcls+λLdiff
其中,α、β、λ为平衡参数,用于使Ltiplet、Lcls和Ldiff处于同一个数量级,Ldiff为所述两个新的特征图之差,Ltriplet表示经过池化层池化后所述两个新的特征图之差,Lcls表示经过全连接层处理后所述两个新的特征图之差。
2.根据权利要求1所述的遮挡下行人重识别模型训练方法,其特征在于,所述特征提取网络包括第一特征提取网络和第二特征提取网络,第一、第二特征提取网络的结构相同且参数共享;其中,第一特征提取网络用于提取无遮挡图像的特征图像,第二特征提取网络用于提取有遮挡图像的特征图像。
3.根据权利要求2所述的遮挡下行人重识别模型训练方法,其特征在于,所述第一、第二特征提取网络采用ResNet网络结构。
4.根据权利要求1所述的遮挡下行人重识别模型训练方法,其特征在于,所述池化层和所述全连接层之间还设置有BN层。
5.根据权利要求1所述的遮挡下行人重识别模型训练方法,其特征在于,所述f(·)为以下任意一种函数:点积函数、拼接函数、高斯函数、嵌入高斯函数。
6.一种遮挡下行人重识别方法,其特征在于,包括步骤:
(1)采用权利要求1至5任意一项所述方法训练出遮挡下行人重识别模型;
(2)采集任意两幅行人图像,对采集的图像进行预处理,将采集的图像处理成所述遮挡下行人重识别模型输入层所规定的格式;
(3)将经过预处理的两幅行人图像输入至所述遮挡下行人重识别模型,所述遮挡下行人重识别模型的全连接层输出所述两幅行人图像中的行人是否为同一人的判决结果。
7.一种装置,其特征在于,所述装置包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至5任意一项所述的遮挡下行人重识别模型训练方法。
8.一种装置,其特征在于,所述装置包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求6所述的遮挡下行人重识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110429894.6A CN113095263B (zh) | 2021-04-21 | 2021-04-21 | 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110429894.6A CN113095263B (zh) | 2021-04-21 | 2021-04-21 | 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113095263A CN113095263A (zh) | 2021-07-09 |
CN113095263B true CN113095263B (zh) | 2024-02-20 |
Family
ID=76679442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110429894.6A Active CN113095263B (zh) | 2021-04-21 | 2021-04-21 | 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095263B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837048B (zh) * | 2021-09-17 | 2023-08-01 | 南京信息工程大学 | 基于少样本注意力的车辆重识别方法 |
CN113780243B (zh) * | 2021-09-29 | 2023-10-17 | 平安科技(深圳)有限公司 | 行人图像识别模型的训练方法、装置、设备以及存储介质 |
CN113947802B (zh) * | 2021-12-21 | 2022-04-01 | 武汉天喻信息产业股份有限公司 | 有遮挡人脸识别方法、装置、设备及可读存储介质 |
CN114332955B (zh) * | 2022-03-11 | 2022-06-10 | 浪潮云信息技术股份公司 | 一种行人重识别的方法、装置及计算机可读存储介质 |
CN115620098B (zh) * | 2022-12-20 | 2023-03-10 | 中电信数字城市科技有限公司 | 跨摄像头行人跟踪算法的评价方法、系统和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670528A (zh) * | 2018-11-14 | 2019-04-23 | 中国矿业大学 | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 |
CN109740541A (zh) * | 2019-01-04 | 2019-05-10 | 重庆大学 | 一种行人重识别系统与方法 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
CN111126360A (zh) * | 2019-11-15 | 2020-05-08 | 西安电子科技大学 | 基于无监督联合多损失模型的跨域行人重识别方法 |
CN111814854A (zh) * | 2020-06-28 | 2020-10-23 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
CN112101150A (zh) * | 2020-09-01 | 2020-12-18 | 北京航空航天大学 | 一种基于朝向约束的多特征融合行人重识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108604292B (zh) * | 2015-11-26 | 2023-10-13 | 御眼视觉技术有限公司 | 对切入车道的车辆的自动预测和利他响应 |
-
2021
- 2021-04-21 CN CN202110429894.6A patent/CN113095263B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670528A (zh) * | 2018-11-14 | 2019-04-23 | 中国矿业大学 | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 |
CN109740541A (zh) * | 2019-01-04 | 2019-05-10 | 重庆大学 | 一种行人重识别系统与方法 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
CN111126360A (zh) * | 2019-11-15 | 2020-05-08 | 西安电子科技大学 | 基于无监督联合多损失模型的跨域行人重识别方法 |
CN111814854A (zh) * | 2020-06-28 | 2020-10-23 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
CN112101150A (zh) * | 2020-09-01 | 2020-12-18 | 北京航空航天大学 | 一种基于朝向约束的多特征融合行人重识别方法 |
Non-Patent Citations (1)
Title |
---|
基于多尺度生成对抗网络的遮挡行人重识别方法;杨婉香等;《软件学报》;第31卷(第7期);第1943-1958页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113095263A (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113095263B (zh) | 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置 | |
CN108229509B (zh) | 用于识别物体类别的方法及装置、电子设备 | |
CN111783576B (zh) | 基于改进型YOLOv3网络和特征融合的行人重识别方法 | |
US7324693B2 (en) | Method of human figure contour outlining in images | |
CN103035013B (zh) | 一种基于多特征融合的精确运动阴影检测方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN104978567B (zh) | 基于场景分类的车辆检测方法 | |
CN107491720A (zh) | 一种基于改进型卷积神经网络的车型识别方法 | |
WO2018076392A1 (zh) | 一种基于人体头顶部识别的行人统计方法及装置 | |
CN109446922B (zh) | 一种实时鲁棒的人脸检测方法 | |
CN113536972B (zh) | 一种基于目标域伪标签的自监督跨域人群计数方法 | |
CN108804992B (zh) | 一种基于深度学习的人群统计方法 | |
CN108734145B (zh) | 一种基于密度自适应人脸表征模型的人脸识别方法 | |
CN112801008A (zh) | 行人重识别方法、装置、电子设备及可读存储介质 | |
CN107886507B (zh) | 一种基于图像背景和空间位置的显著区域检测方法 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN107944437B (zh) | 一种基于神经网络和积分图像的人脸定位方法 | |
CN109635726B (zh) | 一种基于对称式深度网络结合多尺度池化的滑坡识别方法 | |
CN108537816A (zh) | 一种基于超像素和背景连接先验的显著物体分割方法 | |
CN108108760A (zh) | 一种快速人脸识别方法 | |
CN107369158A (zh) | 基于rgb‑d图像的室内场景布局估计及目标区域提取方法 | |
CN112396036B (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
CN109800756A (zh) | 一种用于中文历史文献密集文本的文字检测识别方法 | |
CN111985332A (zh) | 一种基于深度学习的改进损失函数的步态识别方法 | |
CN111241943B (zh) | 基于背景目标与三元组损失的场景识别与回环检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |