CN114067356B - 基于联合局部引导与属性聚类的行人重识别方法 - Google Patents
基于联合局部引导与属性聚类的行人重识别方法 Download PDFInfo
- Publication number
- CN114067356B CN114067356B CN202111227017.7A CN202111227017A CN114067356B CN 114067356 B CN114067356 B CN 114067356B CN 202111227017 A CN202111227017 A CN 202111227017A CN 114067356 B CN114067356 B CN 114067356B
- Authority
- CN
- China
- Prior art keywords
- attribute
- pedestrian
- reid
- data set
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 52
- HVVWZTWDBSEWIH-UHFFFAOYSA-N [2-(hydroxymethyl)-3-prop-2-enoyloxy-2-(prop-2-enoyloxymethyl)propyl] prop-2-enoate Chemical compound C=CC(=O)OCC(CO)(COC(=O)C=C)COC(=O)C=C HVVWZTWDBSEWIH-UHFFFAOYSA-N 0.000 claims abstract description 39
- 239000013598 vector Substances 0.000 claims description 95
- 230000006870 function Effects 0.000 claims description 28
- 238000003062 neural network model Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 16
- 230000000007 visual effect Effects 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000002360 preparation method Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于机器视觉识别技术领域,具体涉及一种基于联合局部引导与属性聚类的行人重识别方法,包括属性识别模型预训练步骤和Reid模型训练步骤,是一种采用了多分支网络结构、在属性数据集PETA上预训练了一个行人属性识别模型、引入一个用于对行人不同区域施加注意力以提升对该区域属性的识别的局部引导模块、然后通过无监督聚类产生Reid分支的额外监督信息辅助Reid任务学习的行人重识别方法。
Description
技术领域
本发明涉及机器视觉识别技术领域,确切地说涉及一种基于联合局部引导与属性聚类的行人重识别方法。
背景技术
行人重识别是利用计算机视觉技术判断视频或图像中是否存在特定行人的技术。在监控视频中,由于相机分辨率和拍摄角度的缘故,通常无法得到质量非常高的人脸图片,而当人脸识别失效的情况下,行人重识别就成为了一个非常重要的替代品技术,其在安防、刑侦和智慧城市等许多领域得到了广泛应用。
现有行人重识别(Reid)的方法大多基于深度学习,利用卷积神经网络提取行人的特征,通过表征学习或度量学习的方式对行人身份进行识别。如现有技术中,公开号为CN112364791A,公开时间为2021年2月21日,名称为“一种基于生成对抗网络的行人重识别方法和系统”的中国发明专利申请文献,开了一种基于生成对抗网络的行人重识别方法,包括:获取第一摄像头采集的、在第二摄像头中也出现的所有行人的第一行人视频图像序列集、以及在第二摄像头中出现的所有行人的第二行人视频图像序列集,将所有行人对应的第一行人视频图像序列集输入到训练好的卷积神经网络中,以提取每个行人对应的行人视频图像序列中每张行人视频图像的特征,并将所有行人对应的第二行人视频图像序列集输入到训练好的卷积神经网络中,以提取每个行人对应的第二行人视频图像序列中每张行人视频图像的特征,本发明能够解决现有基于视频的行人重识别方法在数据不足时,容易导致模型在训练过程中出现过拟合的情况,最终降低行人重识别的精度的技术问题。
但是,在实际应用场景中,由于视角、姿态等因素随时可能发生的变化将对行人重识别模型的性能产生巨大影响。随着行人重识别数据集越来越复杂,视角、姿态等多种因素的变化越来越频繁,由卷积神经网络提取的行人全局特征已经难以具有强辨别性,因此对复杂的局部特征的提取越来越受到关注。行人属性作为描述行人外观特性的额外信息,在一定时间内不会发生改变。因此,如果能够利用行人局部属性作为额外信息辅助行人重识别有助于提升行人的辨别性特征表示,可以提高行人重识别的准确性。
行人属性是一种可以高效关联行人的额外信息,可以用来辅助Reid任务。然而,现有的Reid数据集例如Market1501、DukeMTMC-reID、CUHK03等往往只有行人的ID信息而不具备行人的属性信息,因此现有的提取局部特征的方法不易得到行人的不变特征。若给这些Reid数据集打上属性标签,那将会产生巨大的人力和时间开销。
此外,现有的行人属性辅助行人重识别方法,只是简单的利用行人属性进行监督,而忽略了行人属性的局部区域性。不同的行人属性往往存在于行人的不同区域,即这些属性具有一定的区域性,因此对不同属性进行定位将有效的提升行人属性的识别准确性。
发明内容
本发明的目的在于,针对现有技术的不足,提出一种采用了多分支网络结构、在属性数据集PETA上预训练了一个行人属性识别模型、引入一个用于对行人不同区域施加注意力以提升对该区域属性的识别的局部引导模块、然后通过无监督聚类产生Reid分支的额外监督信息辅助Reid任务学习的行人重识别方法。
本发明提供的基于联合局部引导与属性聚类的行人重识别方法,包括以下步骤:
属性识别模型预训练步骤,属性识别模型预训练步骤的目的旨在学习行人属性的特征表达,使模型具有一定的行人属性识别能力,包括数据集准备、局部引导模块引入和多分支网络建立的过程;
所述数据集准备选择PETA数据集作为属性识别的数集并输入至ResNet50 视觉神经网络模型中,所述PETA数据集具有35个二值属性,PETA数据集中包含若干不同行人的多张图片;
所述数据集准备,是将PETA数据集按照6:4的比例划分训练集和测试集,常用的行人属性识别数据集有PETA、RAP、PA-100k等,并且,本发明技术方案中采用的PETA数据集具有35个二值属性、包含了8705个不同行人的共计 19000张图片,即,在整个训练过程中,按照6:4的比例划分训练集和测试集,即训练集具有11400张图片而测试集具有7600张图片。
进一步的,所述局部引导模块引入是将输入到所述ResNet50视觉神经网络模型中的PETA数据集所有二值属性划分为N个区域,PETA数据集中的图片经所述ResNet50视觉神经网络模型输出为具有长、宽、通道数这三个维度的多维矩阵向量(8,6,2048)作为对应图片的Feature Map,即此时长、宽、通道数三个维度的向量为(8,6,2048),并在Feature Map的通道数维度上分别进行最大池化和平均池化处理,经过两个池化处理后,Feature Map的通道数维度变为2,即此时长、宽、通道数三个维度的向量由(8,6,2048)变为(8,6,2),然后通过N个1x1的卷积将Feature Map的通道数维度从2升至N,且通道数维度与PETA数据集的所有二值属性所划分为的区域对应,即此时长、宽、通道数三个维度的向量由(8,6,2)变为(8,6,N),并按照通道数维度将Feature Map 切片得到N个区域上不同的Attention Map,即,Feature Map进行通道数维度上的切割后每个切片为一个二维的Attention Map,共有N个,最后,将每一个 Attention Map分别在Feature Map上进行广播,得到每个通道数维度所对应区域的局部引导Feature Map,实现对Feature Map添加三个维度的注意力,增强不同区域属性特征的表达能力;
更进一步的,所述将每一个Attention Map分别在Feature Map上进行广播,具体的,是将对Feature Map切片后得到的所有二维的Attention Map与原始的三维的FeatureMap进行Hadamard乘法计算,在计算过程中,每一个二维的 Attention Map将沿通道维度进行扩散,变为一个三维的Attention Map,即得到每个通道数维度所对应区域的局部引导的Feature Map,从而实现对Feature Map上三个维度的注意力添加。而每个二维AttentionMap将代表不同的属性区域,因此为每个区域添加对应的属性注意力可以增强该区域的属性特征表达。
优选地,所述局部引导模块引入,是将PETA数据集上的35个二值属性分为6个区域,具体的划分如表1所示,引入的局部引导模块结构如图2所示,对应的,在Feature Map的通道数维度上分别采用最大池化和平均池化处理后是通过6个1x1的卷积将通道维度从2升至6,并按通道切片后得到6个区域上不同的Attention Map。
所述多分支网络建立如图3所示,是采用多分支网络结构提取N个区域上的每个二值属性的特征,在所述局部引导模块引入中得到的每个通道数维度所对应区域的局部引导Feature Map上进行全局平均池化处理,并对每个区域应用若干个四层全连接结构,第三层全连接结构负责输出N个维度的属性特征向量,而第四层的输出维度为1、用于单个二值属性的预测,由于属性数据集中不同属性的样本分布不均衡,采用一般的交叉熵损失难以学习正样本占比少的属性,因此采用加权二进制交叉熵损失来训练所述ResNet50视觉神经网络模型。
更为具体的,所述加权二进制交叉熵损失
代表的是二进制交叉损失的权重,式中,Pij代表的是分类器的预测输出,rj代表的是属性正样本占总样本的比例,N代表样本总数量,M 代表属性数量,yij为符号函数,即当前属性的真实值,yij为0代表不具有当前属性,yij为1代表具有当前属性。
Reid模型训练步骤,是将联合Reid数据集上已经存在的ID标签以及通过行人属性聚类得到的属性伪标签,在Reid数据集上实现对属性识别模型的优化,具体的,包括Reid分支的添加、属性特征的聚类和损失函数的构建的过程,Reid 分支的添加过程中在经过所述属性识别模型预训练步骤训练的ResNet50视觉神经网络模型输出位置添加一个Reid分支,并从Reid数据集中挑选出样本图像、提取特征向量构造一个三元组损失(Triplet Loss)作为训练Reid分支的损失函数、提取行人特征;所述属性特征的聚类过程是对PETA数据集二值属性进行聚类以得到属性空间;所述损失函数的构建过程是构造一个五元组损失(Quintuple Loss)作为ID标签对属性识别的辅助,将得到的属性伪标签与Reid分支提取的行人特征进行拼接,并用一个Triplet Loss训练Reid模型的性能。
优选地,所述Reid数据集为常用的行人重识别数据集,是用于训练该行人重识别的数据集,包括Market1501、DukeMTMC-reID、CUHK03中的一种,常用的行人重识别数据集中已经具有了行人的ID标签,而没有对应的行人属性标签,因此为了利用行人属性信息而省去复杂的数据集属性标注过程,而对属性信息进行特征提取并聚类以此获得属性伪标签,因为这并不是数据集上人工标记的真实标签,即,ID标签是在原本行人重识别数据集上已经拥有的,用于训练重识别模型的已知信息。
进一步的,所述Reid分支的添加,经过所述属性识别模型预训练步骤,属性识别模型对输入的行人图像已经具备了一定的属性识别能力,因此在经过所述属性识别模型预训练步骤训练的ResNet50视觉神经网络模型输出位置添加一个Reid分支,该分支的目的是提取辨别性行人特征,用于Reid任务的训练,具体的,是用一个两层的全连接网络代替原本ResNet50网络模型的最后一个全连接层,用来作为Reid分支;通过PK采样从Reid数据集中随机采用P个不同的行人的图片,并在每个行人的图片中随机选取K张,在每个行人的图片中随机选取一张图片作为anchor,并将PK采样后的所有行人图像通过骨干网路和两层全连接网络处理后得到512维的Reid特征向量;利用欧式距离选取每个anchor特征向量对应的最难正样本和最难负样本,这里的最难正样本指的是与该anchor 特征向量的欧式距离最远的同一个行人的特征向量,而最难负样本指的是与该 anchor特征向量的欧氏距离最近的不同行人的特征向量,由此,构造一个Triplet Loss作为训练Reid分支的损失函数。
更具体的,所述属性特征的聚类,预训练的行人属性识别模型随具有一定的属性识别能力,但不一定能很好的适应Reid数据集,由于在Reid数据集上已经没有了属性的标签,因此利用属性的预测值将无法进行属性模型的更新,提取所述第三层全连接结构输出的N维属性特征作为属性伪标签,采用层次聚类的方式对PETA数据集的二值属性特征进行聚类,聚类簇的数量是二值属性数量的两倍,得到两倍二值属性数量的属性空间,比如,在PETA数据集上,对应35个二值属性我们将得到70个属性聚类簇、产生70个不同的属性空间,即35个具有二值属性的空间以及另外35个不具有对应二值属性的空间,通过对提取的属性特征进行聚类,可以有效的解决训练过程中Reid数据集上缺少属性标签导致的属性识别模型不适配的问题,而因为预先知道属性识别模型输出二值属性的类别,所以这里采用层次聚类的方式对属性特征进行聚类;
更进一步的,所述损失函数的构建,是构造一个Quintuple Loss作为ID标签对属性识别的辅助,所述属性特征的聚类已经通过层次聚类产生了不同的属性空间,属性模型提取出的属性特征是具有较大差异的,在单一属性空间下,某个行人的该属性特征与具有相同ID标签的属性特征之间的相似性要大于与不同ID 标签的属性特征之间的相似性,具体的,在属性空间之间以及属性空间内部的ID 空间之间分别构造两个Triplet Loss;在Reid分支中,为了充分利用属性信息来辅助行人特征的学习,将所述Reid分支的添加中提取得到的512维特征与属性分支提取得到的对应PETA数据集二值属性的35个N维特征进行拼接,作为最终的行人特征表示,并在这个特征表示的基础上构建一个Triplet Loss,实现对Reid任务的约束,整个框架的总体损失函数为L=LQuintuple+LTriplet,
其中,LQuintuple=Linter+Lintra,而为属性空间之间的Triplet Loss,为属性空间内部的ID空间之间的Triplet Loss,式中,代表从70个不同属性空间中选取的anchor特征向量;代表与anchor特征向量之间的欧氏距离最远、且与 anchor特征向量位于同一属性空间下的特征向量,即作为属性空间之间Triplet Loss的最难正样本;代表与anchor特征向量之间的欧氏距离最近、且与anchor 特征向量不在同一属性空间下的特征向量,即作为属性空间之间Triplet Loss的最难负样本;a1、a2表示为不同Triplet Loss函数下的间隙超参数。
具体的,所述损失函数的构建,一般来说,位于同一属性空间下的特征之间的相似性将大于位于不同属性空间下的特征之间的相似性,而在单一属性空间下,某个行人的该属性特征与具有相同ID标签的属性特征之间的相似性要大于与不同ID标签的属性特征之间的相似性。鉴于此,可在每个属性空间下选取一个anchor,并分别选取属性空间之间的最难正负样本以及属性空间内部的ID空间之间的最难正负样本,以此构造出两个TripletLoss,anchor的选取发生在对属性分支的特征进行层次聚类之后,除了所述Reid分支的添加过程中选取一个 anchor以外,还需要在属性空间中一共选出4个特征样本(P1、P2、P3、N), 4个特征样本分别选取自属性空间之间的最难正负样本以及属性空间内部的ID 空间之间的最难正负样本,距离度量方式为欧氏距离,即,属性空间之间以及属性空间内部的ID空间之间的两个Triplet Loss共同组成了一个Quintuple Loss;它们与anchor之间的距离满足以下大小关系
d(a,P1)<d(a,P2)<d(a,P3)<d(a,N),
其中,
a代表每个属性空间下选取的anchor特征向量;
N代表与anchor特征向量之间的欧氏距离最近、且与anchor特征向量不在同一属性空间下的特征向量,这将作为属性空间之间Triplet Loss的最难负样本;
P1代表与anchor特征向量之间的欧式距离最远、且与anchor特征向量位于同一属性空间以及同一ID空间下的特征向量,这将作为同一属性空间内部的ID 空间上TripletLoss的最难正样本;
P2代表与anchor特征向量之间的欧式距离最近、且与anchor特征向量位于同一属性空间下不同ID空间下的特征向量,这将作为同一属性空间内部的ID 空间上TripletLoss的最难负样本;
P3代表与anchor特征向量之间的欧氏距离最远、且与anchor特征向量位于同一属性空间下的特征向量,这将作为属性空间之间Triplet Loss的最难正样本。
即,a、P1、P2、P3、N一共五种特征样本,模仿Triplet Loss中的三元组以构成五元组,五元组的选取如图4所示,这五个样本构建了一个由两个Triplet Loss组成的Quintuple Loss。
与现有技术相比,本发明所达到的有益效果如下:
本发明这种技术方案,通过在PETA属性数据集上预训练的行人属性识别模型,在行人重识别任务训练初期就能够产生较好的行人属性信息;通过对行人属性特征的聚类,并联合行人ID信息,可以有效的适配属性识别模型到Reid数据集上。此外,通过联合Reid分支提取的特征与属性模型提取的属性特征,可以增强行人的特征表达,利用一个TripletLoss可有效的训练模型产生辨别性特征。在整个过程中,这两个分支任务相辅相成,共同实现了对行人特征及其属性特征的学习,可有效的提升对行人识别的准确性。
首先我们将ImageNet上预训练的ResNet50作为骨干网络,并删除最后的一个全连接层,我们将ResNet50的输出特征图输入到一个局部引导模块中,为不同区域的属性添加注意力机制,并对不同区域属性进行分块,在每一区域属性中,我们分别采用不同数量的多分支网络,以对该区域的所有属性进行单独的特征提取,每个分支网络由三个全连接层组成,并将所有分支网络最后的一维输出进行拼接,作为多属性识别的预测值。训练该模型的目的旨在学习行人属性的特征表达,使具有一定的行人属性识别能力,由于该模型训练采用的数据集与Reid任务训练所需数据集不同,这会引入一定的域间差异。因此,我们将在训练Reid 模型的同时对该属性识别模型进行更新,以适应Reid数据集上,并达到两个模型相互促进学习的目的。
附图说明
本发明的前述和下文具体描述在结合以下附图阅读时变得更清楚,附图中:
图1是本发明技术方案的流程架构示意图;
图2是本发明中局部引导模块引入的流程示意图;
图3是本发明中多分支网络建立示意图;
图4是本发明中损失函数的构建过程中样本选择示意图。
具体实施方式
下面通过具体的实施例来进一步说明实现本发明目的技术方案,需要说明的是,本发明要求保护的技术方案包括但不限于以下实施例。
本实施例公开了一种基于联合局部引导与属性聚类的行人重识别方法,包括属性识别模型预训练步骤和Reid模型训练步骤,
所述属性识别模型预训练步骤,属性识别模型预训练步骤的目的旨在学习行人属性的特征表达,使模型具有一定的行人属性识别能力,包括数据集准备、局部引导模块引入和多分支网络建立的过程,如图1所示,具体的:
所述数据集准备是选择PETA数据集作为属性识别的数集并输入至 ResNet50视觉神经网络模型中,将PETA数据集按照6:4的比例划分训练集和测试集,常用的行人属性识别数据集有PETA、RAP、PA-100k等,并且,本发明技术方案中采用的PETA数据集具有35个二值属性、包含了8705个不同行人的共计19000张图片,即,在整个训练过程中,按照6:4的比例划分训练集和测试集,即训练集具有11400张图片而测试集具有7600张图片;所述PETA数据集具有35个二值属性,PETA数据集中包含若干不同行人的多张图片。
如图2,所述局部引导模块引入是将输入到所述ResNet50视觉神经网络模型中的PETA数据集所有二值属性划分为6个区域,PETA数据集中的图片经所述ResNet50视觉神经网络模型输出为具有长、宽、通道数这三个维度的多维矩阵向量(8,6,2048)作为对应图片的Feature Map,即此时长、宽、通道数三个维度的向量为(8,6,2048),并在Feature Map的通道数维度上分别进行最大池化和平均池化处理,经过两个池化处理后,Feature Map的通道数维度变为2,即此时长、宽、通道数三个维度的向量由(8,6,2048)变为(8,6,2),然后通过6个1x1的卷积将Feature Map的通道数维度从2升至6,通道数维度与 PETA数据集的所有二值属性所划分为的区域对应,即此时长、宽、通道数三个维度的向量由(8,6,2)变为(8,6,6),并按照通道数维度将Feature Map 切片得到6个区域上不同的Attention Map,即,Feature Map进行通道数维度上的切割后每个切片为一个二维的Attention Map,共有6个,最后,将每一个Attention Map分别在Feature Map上进行广播,将对Feature Map切片后得到的所有二维的Attention Map与原始的三维的Feature Map进行Hadamard乘法计算,在计算过程中,每一个二维的Attention Map将沿通道维度进行扩散,变为一个三维的Attention Map,即得到每个通道数维度所对应区域的局部引导的Feature Map,从而实现对Feature Map上三个维度的注意力添加,而每个二维Attention Map将代表不同的属性区域,因此为每个区域添加对应的属性注意力可以增强该区域的属性特征表达。
所述多分支网络建立,如图3所示,是采用多分支网络结构提取N个区域上的每个二值属性的特征,在所述局部引导模块引入中得到的每个通道数维度所对应区域的局部引导Feature Map上进行全局平均池化处理,并对每个区域应用若干个四层全连接结构,第三层全连接结构负责输出N个维度的属性特征向量,而第四层的输出维度为1、用于单个二值属性的预测,由于属性数据集中不同属性的样本分布不均衡,采用一般的交叉熵损失难以学习正样本占比少的属性,因此采用加权二进制交叉熵损失
来训练所述 ResNet50视觉神经网络模型,代表的是二进制交叉损失的权重,式中,Pij代表的是分类器的预测输出,rj代表的是属性正样本占总样本的比例,N代表样本总数量,M代表属性数量,yij为符号函数,即当前属性的真实值,yij为0代表不具有当前属性,yij为1代表具有当前属性。
所述Reid模型训练步骤,是将联合Reid数据集上已经存在的ID标签以及通过行人属性聚类得到的属性伪标签,在Reid数据集上实现对属性识别模型的优化,具体的,包括Reid分支的添加、属性特征的聚类和损失函数的构建的过程,Reid分支的添加过程中在经过所述属性识别模型预训练步骤训练的ResNet50 视觉神经网络模型输出位置添加一个Reid分支,并从Reid数据集中挑选出样本图像、提取特征向量构造一个三元组损失(Triplet Loss)作为训练Reid分支的损失函数、提取行人特征;所述属性特征的聚类过程是对PETA数据集二值属性进行聚类得到属性空间;所述损失函数的构建过程是构造一个五元组损失 (Quintuple Loss)作为ID标签对属性识别的辅助,将得到的属性伪标签与Reid分支提取的行人特征进行拼接,并用一个Triplet Loss训练Reid模型的性能,具体的:
所述Reid数据集为常用的行人重识别数据集,是用于训练该行人重识别的数据集,包括Market1501、DukeMTMC-reID、CUHK03中的一种,常用的行人重识别数据集中已经具有了行人的ID标签,而没有对应的行人属性标签,因此为了利用行人属性信息而省去复杂的数据集属性标注过程,而对属性信息进行特征提取并聚类以此获得属性伪标签,因为这并不是数据集上人工标记的真实标签,即,ID标签是在原本行人重识别数据集上已经拥有的,用于训练重识别模型的已知信息。
所述Reid分支的添加,经过所述属性识别模型预训练步骤,属性识别模型对输入的行人图像已经具备了一定的属性识别能力,因此在经过所述属性识别模型预训练步骤训练的ResNet50视觉神经网络模型输出位置添加一个Reid分支,该分支的目的是提取辨别性行人特征,用于Reid任务的训练,具体的,是用一个两层的全连接网络代替原本ResNet50网络模型的最后一个全连接层,用来作为Reid分支;通过PK采样从Reid数据集中随机采用P个不同的行人的图片,并在每个行人的图片中随机选取K张,在每个行人的图片中随机选取一张图片作为anchor,并将PK采样后的所有行人图像通过骨干网路和两层全连接网络处理后得到512维的Reid特征向量;利用欧式距离选取每个anchor特征向量对应的最难正样本和最难负样本,这里的最难正样本指的是与该anchor特征向量的欧式距离最远的同一个行人的特征向量,而最难负样本指的是与该anchor特征向量的欧氏距离最近的不同行人的特征向量,由此,构造一个Triplet Loss作为训练Reid分支的损失函数。
所述属性特征的聚类,预训练的行人属性识别模型随具有一定的属性识别能力,但不一定能很好的适应Reid数据集,由于在Reid数据集上已经没有了属性的标签,因此利用属性的预测值将无法进行属性模型的更新,提取所述第三层全连接结构输出的6维属性特征作为属性伪标签,采用层次聚类的方式对PETA数据集的二值属性进行聚类,聚类簇的数量是二值属性数量的两倍,得到两倍二值属性数量的属性空间,比如,在PETA数据集上,对应35个二值属性我们将得到70个属性聚类簇、产生70个不同的属性空间,即35个具有二值属性的空间以及另外35个不具有对应二值属性的空间,通过对提取的属性特征进行聚类,可以有效的解决训练过程中Reid数据集上缺少属性标签导致的属性识别模型不适配的问题,而因为预先知道属性识别模型输出二值属性的类别,所以这里采用层次聚类的方式对属性特征进行聚类;
所述损失函数的构建,是构造一个Quintuple Loss作为ID标签对属性识别的辅助,所述属性特征的聚类已经通过层次聚类产生了不同的属性空间,属性模型提取出的属性特征是具有较大差异的,在单一属性空间下,某个行人的该属性特征与具有相同ID标签的属性特征之间的相似性要大于与不同ID标签的属性特征之间的相似性,具体的,在属性空间之间以及属性空间内部的ID空间之间分别构造两个TripletLoss;在Reid分支中,为了充分利用属性信息来辅助行人特征的学习,将所述Reid分支的添加中提取得到的512维特征与属性分支提取得到的对应PETA数据集二值属性的35个N维特征进行拼接,作为最终的行人特征表示,并在这个特征表示的基础上构建一个TripletLoss,实现对Reid任务的约束,整个框架的总体损失函数为L=LQuintuple+LTriplet,
其中,LQuintuple=Linter+Lintra,而为属性空间之间的Triplet Loss,为属性空间内部的ID空间之间的Triplet Loss,式中,代表从70个不同属性空间中选取的anchor特征向量;代表与anchor特征向量之间的欧氏距离最远、且与 anchor特征向量位于同一属性空间下的特征向量,即作为属性空间之间Triplet Loss的最难正样本;代表与anchor特征向量之间的欧氏距离最近、且与anchor 特征向量不在同一属性空间下的特征向量,即作为属性空间之间Triplet Loss的最难负样本;a1、a2表示为不同Triplet Loss函数下的间隙超参数。
更具体的,所述损失函数的构建,一般来说,位于同一属性空间下的特征之间的相似性将大于位于不同属性空间下的特征之间的相似性,而在单一属性空间下,某个行人的该属性特征与具有相同ID标签的属性特征之间的相似性要大于与不同ID标签的属性特征之间的相似性。鉴于此,可在每个属性空间下选取一个anchor,并分别选取属性空间之间的最难正负样本以及属性空间内部的ID空间之间的最难正负样本,以此构造出两个TripletLoss,anchor的选取发生在对属性分支的特征进行层次聚类之后,除了所述Reid分支的添加过程中选取一个 anchor以外,还需要在属性空间中一共选出4个特征样本(P1、P2、P3、N), 4个特征样本分别选取自属性空间之间的最难正负样本以及属性空间内部的ID 空间之间的最难正负样本,距离度量方式为欧氏距离,即,属性空间之间以及属性空间内部的ID空间之间的两个Triplet Loss共同组成了一个Quintuple Loss;它们与anchor之间的距离满足以下大小关系
d(a,P1)<d(a,P2)<d(a,P3)<d(a,N),
其中,
a代表每个属性空间下选取的anchor特征向量;
N代表与anchor特征向量之间的欧氏距离最近、且与anchor特征向量不在同一属性空间下的特征向量,这将作为属性空间之间Triplet Loss的最难负样本;
P1代表与anchor特征向量之间的欧式距离最远、且与anchor特征向量位于同一属性空间以及同一ID空间下的特征向量,这将作为同一属性空间内部的ID 空间上TripletLoss的最难正样本;
P2代表与anchor特征向量之间的欧式距离最近、且与anchor特征向量位于同一属性空间下不同ID空间下的特征向量,这将作为同一属性空间内部的ID 空间上TripletLoss的最难负样本;
P3代表与anchor特征向量之间的欧氏距离最远、且与anchor特征向量位于同一属性空间下的特征向量,这将作为属性空间之间Triplet Loss的最难正样本。
即,a、P1、P2、P3、N一共五种特征样本,模仿Triplet Loss中的三元组以构成五元组,五元组的选取如图4所示,这五个样本构建了一个由两个Triplet Loss组成的Quintuple Loss。
Claims (8)
1.基于联合局部引导与属性聚类的行人重识别方法,其特征在于,包括以下步骤:
属性识别模型预训练步骤,包括数据集准备、局部引导模块引入和多分支网络建立的过程;所述数据集准备选择PETA数据集作为属性识别的数集并输入至ResNet50视觉神经网络模型中,所述PETA数据集具有35个二值属性,PETA数据集中包含若干不同行人的多张图片;所述局部引导模块引入是将输入到所述ResNet50视觉神经网络模型中的PETA数据集所有二值属性划分为N个区域,PETA数据集中的图片经所述ResNet50视觉神经网络模型输出为具有长、宽、通道数这三个维度的多维矩阵向量(8,6,2048)作为对应图片的FeatureMap,并在Feature Map的通道数维度上分别进行最大池化和平均池化处理,经过两个池化处理后,Feature Map的通道数维度变为2,然后通过N个1x1的卷积将Feature Map的通道数维度从2升至N,与通道数维度与PETA数据集的所有二值属性所划分为的区域对应,并按照通道数维度将Feature Map切片得到N个区域上不同的Attention Map,最后,将每一个Attention Map分别在Feature Map上进行广播,得到每个通道数维度所对应区域的局部引导Feature Map,实现对Feature Map添加三个维度的注意力;所述多分支网络,是采用多分支网络结构提取N个区域上的每个二值属性的特征,在所述局部引导模块引入中得到的每个通道数维度所对应区域的局部引导Feature Map上进行全局平均池化处理,并对每个区域应用若干个四层全连接结构,第三层全连接结构负责输出N个维度的属性特征向量,而第四层的输出维度为1、用于单个二值属性的预测,采用加权二进制交叉熵损失来训练所述ResNet50视觉神经网络模型;
Reid模型训练步骤,是将联合Reid数据集上已经存在的ID标签以及通过行人属性聚类得到的属性伪标签,在Reid数据集上实现对属性识别模型的优化,具体的,包括Reid分支的添加、属性特征的聚类和损失函数的构建的过程,Reid分支的添加过程中在经过所述属性识别模型预训练步骤训练的ResNet50视觉神经网络模型输出位置添加一个Reid分支,并从Reid数据集中挑选出样本图像、提取特征向量构造一个三元组损失作为训练Reid分支的损失函数、提取行人特征;所述属性特征的聚类过程是对PETA数据集二值属性进行聚类得到属性空间;所述损失函数的构建过程是构造一个五元组损失作为ID标签对属性识别的辅助,将得到的属性伪标签与Reid分支提取的行人特征进行拼接,并用一个Triplet Loss训练Reid模型的性能;
所述损失函数的构建,是构造一个Quintuple Loss作为ID标签对属性识别的辅助,具体的,在属性空间之间以及属性空间内部的ID空间之间分别构造两个Triplet Loss;在Reid分支中,将所述Reid分支的添加中提取得到的512维特征与属性分支提取得到的对应PETA数据集二值属性的35个N维特征进行拼接,作为最终的行人特征表示,并在这个特征表示的基础上构建一个Triplet Loss,实现对Reid任务的约束,整个框架的总体损失函数为L=LQuintuple+LTriplet,其中,LQuintuple=Linter+Lintra,而为属性空间之间的TripletLoss,为属性空间内部的ID空间之间的Triplet Loss,式中,代表从70个不同属性空间中选取的anchor特征向量;代表与anchor特征向量之间的欧氏距离最远、且与anchor特征向量位于同一属性空间下的特征向量,即作为属性空间之间Triplet Loss的最难正样本;)代表与anchor特征向量之间的欧氏距离最近、且与anchor特征向量不在同一属性空间下的特征向量,即作为属性空间之间Triplet Loss的最难负样本;a1]、a2表示为不同Triplet Loss函数下的间隙超参数。
2.如权利要求1所述的基于联合局部引导与属性聚类的行人重识别方法,其特征在于:所述数据集准备,是将PETA数据集按照6:4的比例划分训练集和测试集,所述PETA数据集具有35个二值属性、包含了8705个不同行人的共计19000张图片,即,在整个训练过程中,按照6:4的比例划分训练集和测试集,即训练集具有11400张图片而测试集具有7600张图片。
3.如权利要求1所述的基于联合局部引导与属性聚类的行人重识别方法,其特征在于:所述将每一个Attention Map分别在Feature Map上进行广播,具体的,是将对Feature Map切片后得到的所有二维的Attention Map与原始的三维的Feature Map进行Hadamard乘法计算,在计算过程中,每一个二维的Attention Map将沿通道维度进行扩散,变为一个三维的Attention Map,即得到每个通道数维度所对应区域的局部引导的Feature Map,从而实现对Feature Map上三个维度的注意力添加。
4.如权利要求1所述的基于联合局部引导与属性聚类的行人重识别方法,其特征在于:所述加权二进制交叉熵损失
代表的是二进制交叉损失的权重,式中,Pij代表的是分类器的预测输出,rj代表的是属性正样本占总样本的比例,N代表样本总数量,M代表属性数量,yij为符号函数,即当前属性的真实值,yij为0代表不具有当前属性,yij为1代表具有当前属性。
5.如权利要求1所述的基于联合局部引导与属性聚类的行人重识别方法,其特征在于:所述Reid数据集为常用的行人重识别数据集,是用于训练该行人重识别的数据集,包括Market1501、DukeMTMC-reID、CUHK03中的一种,常用的行人重识别数据集中已经具有了行人的ID标签,而没有对应的行人属性标签,因此为了利用行人属性信息而省去复杂的数据集属性标注过程,而对属性信息进行特征提取并聚类以此获得属性伪标签,因为这并不是数据集上人工标记的真实标签,即,ID标签是在原本行人重识别数据集上已经拥有的,用于训练重识别模型的已知信息。
6.如权利要求1所述的基于联合局部引导与属性聚类的行人重识别方法,其特征在于:所述Reid分支的添加,具体的,是用一个两层的全连接网络代替原本ResNet50网络模型的最后一个全连接层,用来作为Reid分支;通过PK采样从Reid数据集中随机采用P个不同的行人的图片,并在每个行人的图片中随机选取K张,在每个行人的图片中随机选取一张图片作为anchor,并将PK采样后的所有行人图像通过骨干网路和两层全连接网络处理后得到512维的Reid特征向量;利用欧式距离选取每个anchor特征向量对应的最难正样本和最难负样本,这里的最难正样本指的是与该anchor特征向量的欧式距离最远的同一个行人的特征向量,而最难负样本指的是与该anchor特征向量的欧氏距离最近的不同行人的特征向量,由此,构造一个Triplet Loss作为训练Reid分支的损失函数。
7.如权利要求6所述的基于联合局部引导与属性聚类的行人重识别方法,其特征在于:所述属性特征的聚类,提取所述第三层全连接结构输出的N维属性特征作为属性伪标签,采用层次聚类的方式对PETA数据集的二值属性进行聚类,聚类簇的数量是二值属性数量的两倍,得到两倍二值属性数量的属性空间。
8.如权利要求7所述的基于联合局部引导与属性聚类的行人重识别方法,其特征在于:所述损失函数的构建,在每个属性空间下选取一个anchor,并分别选取属性空间之间的最难正负样本以及属性空间内部的ID空间之间的最难正负样本,以此构造出两个TripletLoss,在属性空间中一共选出4个特征样本(P1、P2、P3、N),4个特征样本分别选取自属性空间之间的最难正负样本以及属性空间内部的ID空间之间的最难正负样本,距离度量方式为欧氏距离,即,属性空间之间以及属性空间内部的ID空间之间的两个Triplet Loss共同组成了一个Quintuple Loss;它们与anchor之间的距离满足以下大小关系d(a,P1)<d(a,P2)<d(a,P3)<d(a,N),
其中,
a代表每个属性空间下选取的anchor特征向量;
N代表与anchor特征向量之间的欧氏距离最近、且与anchor特征向量不在同一属性空间下的特征向量,这将作为属性空间之间Triplet Loss的最难负样本;
P1代表与anchor特征向量之间的欧式距离最远、且与anchor特征向量位于同一属性空间以及同一ID空间下的特征向量,这将作为同一属性空间内部的ID空间上Triplet Loss的最难正样本;
P2代表与anchor特征向量之间的欧式距离最近、且与anchor特征向量位于同一属性空间下不同ID空间下的特征向量,这将作为同一属性空间内部的ID空间上Triplet Loss的最难负样本;
P3代表与anchor特征向量之间的欧氏距离最远、且与anchor特征向量位于同一属性空间下的特征向量,这将作为属性空间之间Triplet Loss的最难正样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111227017.7A CN114067356B (zh) | 2021-10-21 | 2021-10-21 | 基于联合局部引导与属性聚类的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111227017.7A CN114067356B (zh) | 2021-10-21 | 2021-10-21 | 基于联合局部引导与属性聚类的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114067356A CN114067356A (zh) | 2022-02-18 |
CN114067356B true CN114067356B (zh) | 2023-05-09 |
Family
ID=80235121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111227017.7A Active CN114067356B (zh) | 2021-10-21 | 2021-10-21 | 基于联合局部引导与属性聚类的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114067356B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836675B (zh) * | 2021-03-01 | 2023-06-23 | 中山大学 | 一种基于聚类生成伪标签的无监督行人重识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017279676A1 (en) * | 2017-12-20 | 2019-07-04 | Canon Kabushiki Kaisha | Method, system and apparatus for comparing objects in images |
CN110942025A (zh) * | 2019-11-26 | 2020-03-31 | 河海大学 | 一种基于聚类的无监督跨域行人重识别方法 |
CN111597876A (zh) * | 2020-04-01 | 2020-08-28 | 浙江工业大学 | 一种基于困难五元组的跨模态行人重识别方法 |
CN113283362A (zh) * | 2021-06-04 | 2021-08-20 | 中国矿业大学 | 一种跨模态的行人重识别方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273836A (zh) * | 2017-06-07 | 2017-10-20 | 深圳市深网视界科技有限公司 | 一种行人检测识别方法、装置、模型和介质 |
CN108875487B (zh) * | 2017-09-29 | 2021-06-15 | 北京旷视科技有限公司 | 行人重识别网络的训练及基于其的行人重识别 |
CN107832672B (zh) * | 2017-10-12 | 2020-07-07 | 北京航空航天大学 | 一种利用姿态信息设计多损失函数的行人重识别方法 |
KR101941994B1 (ko) * | 2018-08-24 | 2019-01-24 | 전북대학교산학협력단 | 결합심층네트워크에 기반한 보행자 인식 및 속성 추출 시스템 |
CN111723645B (zh) * | 2020-04-24 | 2023-04-18 | 浙江大学 | 用于同相机内有监督场景的多相机高精度行人重识别方法 |
CN111582383B (zh) * | 2020-05-09 | 2023-05-12 | 浙江商汤科技开发有限公司 | 属性识别方法及装置、电子设备和存储介质 |
CN112069920B (zh) * | 2020-08-18 | 2022-03-15 | 武汉大学 | 基于属性特征驱动聚类的跨域行人重识别方法 |
CN112036322B (zh) * | 2020-09-01 | 2022-12-06 | 清华大学 | 多任务网络跨域行人重识别模型构建方法、系统及装置 |
CN113313156A (zh) * | 2021-05-21 | 2021-08-27 | 北京工业大学 | 一种基于时序负载流量指纹的物联网设备识别方法及系统 |
-
2021
- 2021-10-21 CN CN202111227017.7A patent/CN114067356B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017279676A1 (en) * | 2017-12-20 | 2019-07-04 | Canon Kabushiki Kaisha | Method, system and apparatus for comparing objects in images |
CN110942025A (zh) * | 2019-11-26 | 2020-03-31 | 河海大学 | 一种基于聚类的无监督跨域行人重识别方法 |
CN111597876A (zh) * | 2020-04-01 | 2020-08-28 | 浙江工业大学 | 一种基于困难五元组的跨模态行人重识别方法 |
CN113283362A (zh) * | 2021-06-04 | 2021-08-20 | 中国矿业大学 | 一种跨模态的行人重识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114067356A (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111539370B (zh) | 一种基于多注意力联合学习的图像行人重识别方法和系统 | |
CN110414368B (zh) | 一种基于知识蒸馏的无监督行人重识别方法 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
Khalel et al. | Automatic pixelwise object labeling for aerial imagery using stacked u-nets | |
CN106257496B (zh) | 海量网络文本与非文本图像分类方法 | |
CN115171165A (zh) | 全局特征与阶梯型局部特征融合的行人重识别方法及装置 | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN111368943A (zh) | 图像中对象的识别方法和装置、存储介质及电子装置 | |
CN111027377A (zh) | 一种双流神经网络时序动作定位方法 | |
CN111582178A (zh) | 基于多方位信息和多分支神经网络车辆重识别方法及系统 | |
CN111126401A (zh) | 一种基于上下文信息的车牌字符识别方法 | |
CN109684511A (zh) | 一种视频剪辑方法、视频聚合方法、装置以及系统 | |
CN113762039A (zh) | 一种交通标志牌的信息匹配方法及相关装置 | |
CN114067356B (zh) | 基于联合局部引导与属性聚类的行人重识别方法 | |
CN112101154B (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
US11908222B1 (en) | Occluded pedestrian re-identification method based on pose estimation and background suppression | |
CN113411550B (zh) | 视频上色方法、装置、设备及存储介质 | |
CN116597267B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
Saleem et al. | Stateful human-centered visual captioning system to aid video surveillance | |
Tran-Anh et al. | Integrative few-shot classification and segmentation for landslide detection | |
CN115115981A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113722528A (zh) | 一种面向素描图进行照片快速检索的方法及系统 | |
Chen et al. | Building extraction from high-resolution remote sensing imagery based on multi-scale feature fusion and enhancement | |
CN116740601B (zh) | 一种两阶段的学术视频关键帧提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |