CN111723645B - 用于同相机内有监督场景的多相机高精度行人重识别方法 - Google Patents

用于同相机内有监督场景的多相机高精度行人重识别方法 Download PDF

Info

Publication number
CN111723645B
CN111723645B CN202010332673.2A CN202010332673A CN111723645B CN 111723645 B CN111723645 B CN 111723645B CN 202010332673 A CN202010332673 A CN 202010332673A CN 111723645 B CN111723645 B CN 111723645B
Authority
CN
China
Prior art keywords
pedestrian
camera
picture
training
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010332673.2A
Other languages
English (en)
Other versions
CN111723645A (zh
Inventor
王梦琳
龚小谨
赖百胜
陈浩锟
黄健强
华先胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010332673.2A priority Critical patent/CN111723645B/zh
Publication of CN111723645A publication Critical patent/CN111723645A/zh
Application granted granted Critical
Publication of CN111723645B publication Critical patent/CN111723645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于同相机内有监督场景的多相机高精度行人重识别方法。在同一行人场景下采用多相机进行拍摄,选择基础网络模型并预训练后修改,采集获得待训练的行人图片集,建立针对各相机的行人记忆特征并初始化;基于已有的待训练的行人图片集,对基础网络模型进行同相机阶段的训练优化和监督;以训练后的行人记忆特征并结合采用聚类方法得到行人伪标签,用行人伪标签再对基础网络模型进行微调训练;对训练所得的基础网络模型进行跨相机行人重识别应用。本发明只需同个相机内图片标注场景下有效提高识别性能,达到与全监督场景下相当的重识别准确度,达到与全监督场景相当的行人重识别准确率。

Description

用于同相机内有监督场景的多相机高精度行人重识别方法
技术领域
本发明属于计算机视觉技术领域,尤其是涉及一种用于同相机内有监督场景的多相机高精度行人重识别方法。
背景技术
行人重识别要解决的问题是在不同的相机之间对同一个行人进行匹配;由于行人重识别在安防、监控、刑侦等方面的众多应用,这一任务在近几年吸引了工业界和学术界的广泛研究与关注。
虽然行人重识别任务取得了较大的发展,但目前行人重识别模型和方法的高性能依赖于大量的标注数据;在实际应用场景中,由于行人繁多复杂,数据量大,对数据集进行完全标注十分昂贵,代价较高,限制了行人重识别技术在实际生产生活中的应用。
在行人图片的标注过程中,最费时费力的往往是对跨相机行人的标注。而在同相机中,由于行人的轨迹大多在时间上具有连续性,对同一个相机下的行人进行行人标注是相对更为容易的。
这一场景最早被提出是在Zhu Xiangping等人发表在《Proceedings of the IEEEInternational Conference on Computer Vision Workshops》的《Intra-camerasupervised person re-行人entification:A new benchmark》文章中,这一场景假设行人编码标签是在每个相机内被独立标注的,而跨相机之间的行人关系未知。
由于只有同相机的行人标注信息,没有跨相机的行人关联信息,这一场景下的模型设计面临着一定的挑战,之前在这一场景下被提出的模型,如Zhu Xiangping等人发表在《Proceedings of the IEEE International Conference on Computer VisionWorkshops》的《Intra-camera supervised person re-行人entification:A newbenchmark》,以及Qi Lei等人发表在《arXiv:1908.05669》的《Progressive Cross-cameraSoft-label Learning for Semi-supervised Person Re-行人entification》,虽然取得了较好的模型性能,但与全监督相比仍存在较大的差距。
现有针对同相机内有监督场景的行人重识别方法,主要存在的问题是没有充分利用已知的同相机内标注信息,来设计高效的重识别模型,以及促进跨相机行人关联信息的有效挖掘,因而有待改进。
发明内容
为了解决背景技术中存在的问题,本发明提供了一种用于同相机内有监督场景的多相机高精度行人重识别方法,利用现有在全监督场景下性能较优的模型作为基础网络模型,在此基础上挖掘同相机内有监督场景的数据特点来设计方法,可有效提高模型在同相机内有监督场景下的性能,达到与全监督场景相当的行人重识别准确率。
本发明是针对只有同相机内标注信息的场景进行多相机(跨相机)图像行人识别处理。
本发明的技术方案如下:
(1)在同一行人场景下采用多相机进行拍摄,选择基础网络模型并预训练后修改,采集获得待训练的行人图片集,建立针对各相机的行人记忆特征并初始化;
(2)基于已有的待训练的行人图片集,对步骤(1)获得的基础网络模型进行同相机阶段的训练,训练过程使用ADAM优化算法,使用针对每个相机的交叉熵损失函数和所提出的五元组混合损失函数进行监督;
(3)以训练后的行人记忆特征并结合采用聚类方法得到行人伪标签,用行人伪标签再对基础网络模型进行微调训练,训练过程使用交叉熵损失函数和三元组损失函数进行监督;
(4)训练结束后,对训练所得的基础网络模型进行跨相机行人重识别应用,即采用这一个相机训练所得的基础网络模型结果对另一个相机所拍摄的图片进行行人重识别。
所述步骤(1)中,所述的基础网络模型采用ResNet50神经网络,通过标准图片集进行预训练获得训练后的基础网络模型,对训练后的基础网络模型保留除最后用于分类的全连接层之外的其余网络结构及参数,然后在最后增加一层用于特征映射的d维的全连接层,全连接层随机初始化;
多相机拍摄采集并同相机标注后获得具有同相机标注信息的行人图片集作为待训练的行人图片集,同相机标注信息是通过独立地对每个相机所拍摄的图片分别进行行人编码标注获得;
建立行人记忆特征为d×N大小的矩阵,初始化为全零矩阵,其中,N为待训练的行人图片集中单个相机所拍摄的所有图片中累积具有行人数量总和,d为用于特征映射的全连接层的维度,具体实施中d值选择2048。
所述的步骤(2)中,
(2.1)训练过程以小批次(mini-batch)的方式进行训练,每个小批次(mini-batch)中从待训练的行人图片集随机采样B张图片,B值选择64,B张图片中随机采样到P个行人,每个行人再对应随机采用有K张图片作为锚图片,每次训练获得图片特征f,以mini-batch内图片特征f来更新行人记忆特征;行人记忆特征更新公式为:
K[j]←μK[j]+(1-μ)f(xi)
其中,K[j]是行人记忆特征的第j列,μ是更新速率,选择0.5;xi是第i张图片,j表示行人的序数,f(xi)是图片xi的特征,←表示赋值;
f(*)代表基础网络模型的最后一层全连接层输出。
(2.2)建立以下针对每个相机的交叉熵损失函数LIntra_ID为:
Figure GDA0004083405010000031
其中,C是多相机的总个数,Dc是第c个相机下所拍摄的图片总数,p(j|xi)表示图片xi中具有第j个行人的概率;
图片xi中具有第j个行人的概率p(j|xi)为:
Figure GDA0004083405010000032
其中,τ是尺度变换系数,具体实施选择0.067,exp(*)是指数函数,A是从第1个相机到第ci–1个相机所拍摄的所有图片中累积具有的总行人数量,ci是图片xi所在的相机,Nci是第ci个相机下所拍摄的所有图片中累积具有的行人数量;T表示矩阵转置,
Figure GDA00040834050100000315
表示行人记忆特征;
(2.3)建立以下五元组混合损失函数LIntra_Quint:
Figure GDA0004083405010000033
其中,
Figure GDA0004083405010000034
是锚图片
Figure GDA0004083405010000035
的同相机标注值,
Figure GDA0004083405010000036
是锚图片
Figure GDA0004083405010000037
所在相机,
Figure GDA0004083405010000038
是锚图片
Figure GDA0004083405010000039
所在相机下的行人总数,A的表示意义同上文(2.2),A+j是第
Figure GDA00040834050100000310
个相机下的第j个行人的累积标注值;P是每个mini-batch中随机采样的行人个数,K是每个mini-batch中每个行人随机采样的图片个数,m1和m2是第一、第二间隔参数值,选择m1=m2=0.3,max(*)是取最大值函数,min(*)是取最小值函数,[*]+代表Hinge铰链函数max(0,*),||*||代表欧氏距离,g(*)代表基础网络模型中的GAP层输出,GAP层即全局平均池化层,xa、xp和xn分别是锚图片、锚图片的正样本、锚图片的负样本,f(*)代表基础网络模型的最后一层全连接层输出;
Figure GDA00040834050100000311
是每个mini-batch中任一张图片,称为锚图片,
Figure GDA00040834050100000312
是锚图片的正样本图片,是指在同一个mini-batch中,和
Figure GDA00040834050100000313
具有相同行人的图片。
Figure GDA00040834050100000314
是锚图片的负样本图片,是指同一个mini-batch中,和
Figure GDA0004083405010000041
具有不同行人的图片。
(2.4)根据交叉熵损失函数Lintra_ID为和五元组混合损失函数LIntra_Quint相加获得第一总体损失函数为:
LIntra=Lintra_ID+LIntra_Quint
在第一总体损失函数监督下使用ADAM优化算法训练并更新行人记忆特征。
所述的步骤(3)中具体为:
(3.1)根据步骤(2)训练所得的行人记忆特征,计算两两行人之间的距离dist(i,j),公式为:
Figure GDA0004083405010000042
其中,K[i]和K[j]分别代表第i个行人的行人记忆特征和第j个行人的行人记忆特征,||*||代表欧氏距离;
(3.2)构建行人之间的无向图,其中无向图中每个结点代表一个行人,结点之间的边代表行人之间的距离,然后对无向图中的边进行筛选,仅保留前N个最短边中互为跨相机距离最近邻的边,舍弃其余边;
(3.3)再采用基于密度应用于有噪声场景的空间聚类算法(DBSCAN)对无向图中的结点进行聚类处理,一类中只有一个结点作为单元素类,其余的类均为非单元素类,找出无向图中的所有非单元素类,将每个非单元素类中结点对应的行人看作同一个行人,每个非单元素类赋予一个唯一编号作为伪标签;
(3.4)对经过步骤(2)训练后的基础网络模型再次进行修改,保留除最后用于特征映射的全连接层之外的其余网络结构及参数,然后在基础网络模型最后增加用于分类的C1维的全连接层并随机初始化,其中C1是行人伪标签的类别总数;
(3.5)以行人伪标签值作为真值监督模型代替同相机标注信息的行人编码后再对基础网络模型进行微调训练,训练过程使用交叉熵损失函数和三元组损失函数进行监督,第二总体损失函数LInter为:
LInter=Linter_ID+LInter_Triplet
其中,Linter_ID表示交叉熵损失函数,此交叉熵损失函数Linter_ID和步骤(2.2)中的相同,LInter_Triplet表示三元组损失函数。
所述(3.5)中的三元组损失函数具体为:
Figure GDA0004083405010000043
其中,P是每个mini-batch中随机采样的行人个数,K是每个mini-batch中每个行人随机采样的图片个数,m3是第三间隔参数值,选择m3=0.3,max(*)是取最大值函数,min(*)是取最小值函数,[*]+代表铰链(Hinge)函数max(0,*),||*||代表欧氏距离,g(*)代表基础网络模型的全局平均池化层(GAP)层输出,
Figure GDA0004083405010000051
是每个mini-batch中任一张图片,称为锚图片;
Figure GDA0004083405010000052
是锚图片的正样本图片,是指在同一个mini-batch中,和
Figure GDA0004083405010000053
具有相同行人的图片;
Figure GDA0004083405010000054
是锚图片的负样本图片,是指同一个mini-batch中,和
Figure GDA0004083405010000055
具有不同行人的图片。
与现有方法相比,本发明具有以下优点:
1、本发明在模型的同相机训练阶段提出了针对每个相机的非参数化分类器,以及一个五元组混合损失函数;这一设计充分挖掘同相机内有监督场景的数据特点,同时有效利用了行人记忆特征的全局性;这些设计使得所提出的模型在经过同相机阶段训练之后,跨相机训练之前,即可超过现有其他在同相机有监督场景下所提出的方法性能。
2、本发明在模型的跨相机训练阶段提出了基于行人无向图的关联方式,在同相机训练阶段的基础上,该所提出关联策略可产生较为可信的伪标签结果,使得模型经过微调训练之后,进一步提升性能,从而达到与现有全监督方法相当的性能准确率;
3、本发明在三个公开的标准行人重识别数据集,包括Market-1501、DukeMTMC-re行人和MSMT17上,取得了较好的性能,验证了所提出方法的有效性。
本发明在只需要同个相机内图片标注的场景下,可有效提高模型的图像识别性能,达到与全监督场景下相当的重识别准确度。
附图说明
图1为本发明方法的流程示意图。
图2为本发明实施例中同相机&跨相机学习网络模型的结构示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而不对其起任何限定作用。
如图1所示,本发明的实施例及其实施过程如下:
S01,选择经预训练的基础网络模型,初始化各相机内行人记忆特征。
本实施例中,基础网络模型选择在行人重识别任务上常用的ResNet-50网络,且网络预先在大规模图像分类数据集(如ImageNet)上进行预训练。
具有同相机标注信息的行人图片集获得方式为:独立地在每个相机下进行标注,对于同个相机下的图片:具有相同行人的图片给予相同的行人标签,不同行人的图片给予不同的标签;在具体实施中,由于每个相机独立标注,实际同个行人在不同相机下的图片可能会标注为不同的标签;不同相机下的图片行人标签不具有直接的关联性。
S02,基于已知同相机内图片标签,对基础网络进行同相机阶段的训练。
如图2所示,同相机阶段的训练由输入图片集、特征提取基础网络和同相机学习这三个部分所构成。
如图2所示,特征提取基础网络是基础网络模型进行修改所得,由若干个顺序连接的由多个卷积层组成的卷积块(Conv-block)所构成;具体修改方式为:保留基础网络模型中,除最后全连接分类层之外的其余网络层及参数,作为特征提取基础网络。
如图2所示,同相机学习部分包括一个d维的全连接层和各相机内行人记忆特征;d维的全连接层连接在特征提取基础网络的最后一层之后,用于特征再映射,其输出特征用于更新各相机内行人记忆特征;各相机内行人记忆特征作为针对每个相机的非参数化分类器,标记为K,初始化为一个d x N大小的全零矩阵;其中,N为待训练行人图片集中每个相机内累积行人编码数量总和;d为用于特征映射的全连接层维度,本实施例中d值选择2048。
训练过程以mini-batch方式进行训练,mini-batch方式是指图片集所有图片分批次进行训练,每次随机选择B张采样的图片作为一个mini-batch,其中B值在本实施例中选择64。
训练过程使用ADAM优化算法对网络模型进行参数更新;ADAM优化算法是随机梯度下降算法的变式,使用自适应学习率来更新网络参数;与随机梯度下降算法相似,ADAM优化算法也通过计算网络模型预测值与实际真值之间的误差,以链式法则来更新网络参数的梯度,进而更新网络参数值。
在训练过程中,每个mini-batch的图片首先经过特征提取基础网络以提取图片特征,然后经过增加的全连接层FC#2048进行特征再映射,再映射的特征一方面更新行人记忆特征,另一方面经过非参数化的分类器进行分类,并计算针对图片在对应相机下的交叉熵损失函数和五元组混合损失函数;损失函数作为网络误差值,用来作为ADAM优化算法的输入,更新网络参数值。
以mini-batch的图片特征更新各相机内行人记忆特征,并建立交叉熵损失函数和五元组混合损失函数构成总体损失函数进行优化监督。
S03,以训练后的行人记忆特征作为行人特征,基于所提出聚类方法得到行人伪标签;基于所得到行人伪标签,对基础网络进行微调训练。
如图1所示,S03由输入图片集、特征提取基础网络和跨相机学习这三个部分所构成。
跨相机学习部分,包括跨相机行人的关联与聚类、网络模型微调训练两个步骤。
所述跨相机行人的关联与聚类,步骤如下:
首先,根据S02训练所得行人记忆特征,计算两两行人之间的距离,计算公式为:
dist(i,j)=||K[i]-K[j]||,
其中K[i]和K[j]分别代表第i个行人的记忆特征和第j个行人的记忆特征。||*||代表欧氏距离。
之后,构建行人之间的无向图,其中无向图中每个结点代表一个行人,结点之间的边代表行人之间的距离;对边进行筛选,保留前S个最短边中互为跨相机最近邻的边,其中S设为图片集中的同相机下标注行人数量N;之后基于DBSCAN聚类算法找出所构建无向图中的所有非单元素的连通分量,将每个非单元素连通分量中的行人看作同一个类别,给予相同伪标签;不同连通分量中的行人具有不同的伪标签。
所述跨相机行人的关联与聚类步骤可以获得行人伪标签,基于行人伪标签对网络模型进行微调训练过程为:
首先在特征提取网络最后一层后面增加随机初始化的C1维的全连接层用于分类,其中C1是行人伪标签的类别总数。
之后以行人伪标签值作为真值监督模型进行微调训练;在训练过程中,每个mini-batch的图片首先经过特征提取基础网络以提取图片特征,然后经过增加的C1维用于分类的全连接层FC#行人,对mini-batch图片进行分类;最后计算交叉熵损失函数和三元组损失函数;损失函数作为网络误差值,用来作为ADAM优化算法的输入,更新网络参数值。
微调训练的总体损失函数为:
LInter=Linter_行人+LInter_Triplet
S04,训练结束,对训练所得基础网络模型进行行人重识别应用。
为验证本发明方法的有效性,本发明在三个公开的标准行人重识别数据集Market-1501,DukeMTMC-re行人和MSMT17上进行验证,与目前最前沿的行人重识别方法进行对比:
Market-1501数据集总共有来自1501个行人的32668张带有标注的图片,数据集总共有6个相机视角。
DukeMTMC-re行人总共有来自1404个行人的36411张带有标注的图片,数据集总共有8个相机视角。
MSMT17数据集总共有来自4101个行人的126441张带有标注的图片,数据集总共有15个相机视角;相比Market-1501和DukeMTMC-re行人数据集,MSMT17数据集行人数量更多,涵盖跨天的图片数据,因此在行人重识别难度上相对更大。
本发明主要以行人重识别中常用的两个评价指标:CMC和mAP来评估重识别准确度;实验主要包括两部分,第一部分是本发明中各个模块的控制变量实验,第二部分是本发明方法与目前最前沿的行人重识别方法进行对比实验。
第一部分:本发明中各个模块的控制变量实验,是为了说明本发明中各个模块的有效性;在Market-1501,DukeMTMC-re行人和MSMT17三个数据集上,不同的模型变式的评测结果如表1所示:
表1
Figure GDA0004083405010000081
表1中,M1-M5是不同形式的同相机学习模型,其中M1是一个多分支参数化分类网络模型,M2是一个忽略相机来源的非参数化分类器,M3是本发明所提出的针对每个相机的非参数化分类器,M4是在M3的基础上增加一个常见的三元组损失函数;M5是在M3的基础上增加本发明所提出的五元组混合损失函数,即本发明所提出的完整的同相机训练模型;M6是本发明所提出的完整模型,包括了同相机训练和跨相机微调训练;M7是全监督情况下的模型;
通过比较表1中M1-M3,可以体现本发明中所提出的针对每个相机的非参数化分类器的有效性;通过进一步比较表1中M4与M5,可以体现本发明中所提出的五元组混合损失函数的有效性;通过比较M5与M6,可以看出在同相机模型训练的基础上,跨相机的微调训练对于模型性能的有效提升作用;此外,对比M6和M7,可看到本发明的完整模型M6相比全监督的模型,在Market-1501,DukeMTMC-re行人两个数据集上是较为接近全监督时的模型性能的,说明本发明所提出方法在有限标注场景下的实用性。
第二部分:本发明方法与目前最前沿的行人重识别方法进行对比实验,以说明本发明相比目前最前沿行人重识别方法的有利性;评测结果如表2所示;这一部分实验中,主要与全监督(supervised)方法代表OSNet,DGNet,BoT,PCB、无监督(unsupervised)方法代表ECN,AE,BUC,UGA以及同相机内有监督场景(Intra-camera supervised)方法代表MTML,PCSL,ACAN进行了对比;所选择对比方法是在不同场景下目前最前沿的方法;Precise-ICS:M5(ours)是本发明提出方法经过同相机训练的模型,Precise-ICS:M6(ours)是本发明提出方法经过同相机训练和跨相机微调训练的模型。
表2
Figure GDA0004083405010000091
表2中,首先通过与无监督方法和同相机内有监督场景方法进行对比,可以看出本发明所提出方法在三个数据集上的性能均领先于当前性能最好方法;通过进一步与全监督方法进行对比,可以看出本发明所提出方法与全监督方法PCB的性能相当,同时接近其他全监督方法性能;在只有同相机内标注信息的情况下,本发明所提出方法达到了与全标注场景下的方法接近的性能,体现了本发明的实用性和有益性。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,但并不是用来限制本发明,任何在本发明的原则范围内所进行的变动和修改,都应当包含在本发明的保护范围内。

Claims (4)

1.一种用于同相机内有监督场景的多相机高精度行人重识别方法,其特征在于,方法包括:
(1)在同一行人场景下采用多相机进行拍摄,选择基础网络模型并预训练后修改,采集获得待训练的行人图片集,建立针对各相机的行人记忆特征并初始化;
(2)基于已有的待训练的行人图片集,对步骤(1)获得的基础网络模型进行同相机阶段的训练,训练过程使用ADAM优化算法,使用针对每个相机的交叉熵损失函数和所提出的五元组混合损失函数进行监督;
所述的步骤(2)中,
(2.1)训练过程以小批次的方式进行训练,每个小批次中从待训练的行人图片集随机采样B张图片,B张图片中随机采样到P个行人,每个行人再对应随机采用有K张图片作为锚图片,每次训练获得图片特征f,以mini-batch内图片特征f来更新行人记忆特征;行人记忆特征更新公式为:
K[j]←μK[j]+(1-μ)f(xi)
其中,K[j]是行人记忆特征的第j列,μ是更新速率,xi是第i张图片,j表示行人的序数,f(xi)是图片xi的特征,←表示赋值;
(2.2)建立以下针对每个相机的交叉熵损失函数LIntra_ID为:
其中,C是多相机的总个数,Dc是第c个相机下所拍摄的图片总数,p(j|xi)表示图片xi中具有第j个行人的概率;
图片xi中具有第j个行人的概率p(j|xi)为:
其中,τ是尺度变换系数,exp(*)是指数函数,A是从第1个相机到第ci–1个相机所拍摄的所有图片中累积具有的总行人数量,ci是图片xi所在的相机,Nci是第ci个相机下所拍摄的所有图片中累积具有的行人数量;T表示矩阵转置,表示行人记忆特征;
(2.3)建立以下五元组混合损失函数LIntra_Quint:
其中,是锚图片的同相机标注值,是锚图片所在相机,是锚图片所在相机下的行人总数,A+j是第个相机下的第j个行人的累积标注值;m1和m2是第一、第二间隔参数值,max(*)是取最大值函数,min(*)是取最小值函数,[*]+代表Hinge铰链函数max(0,*),||*||代表欧氏距离,g(*)代表基础网络模型中的GAP层输出,xa、xp和xn分别是锚图片、锚图片的正样本、锚图片的负样本,f(*)代表基础网络模型的最后一层全连接层输出;
(2.4)根据交叉熵损失函数Lintra_ID为和五元组混合损失函数LIntra_Quint相加获得第一总体损失函数为:
LIntra=Lintra_ID+LIntra_Quint
在第一总体损失函数监督下使用ADAM优化算法训练并更新行人记忆特征;
(3)以训练后的行人记忆特征并结合采用聚类方法得到行人伪标签,用行人伪标签再对基础网络模型进行微调训练,训练过程使用交叉熵损失函数和三元组损失函数进行监督;
(4)训练结束后,对训练所得的基础网络模型进行跨相机行人重识别应用。
2.根据权利要求1所述的一种用于同相机内有监督场景的多相机高精度行人重识别方法,其特征在于:所述步骤(1)中,所述的基础网络模型采用ResNet50神经网络,通过标准图片集进行预训练获得训练后的基础网络模型,对训练后的基础网络模型保留除最后用于分类的全连接层之外的其余网络结构及参数,然后在最后增加一层用于特征映射的d维的全连接层,全连接层随机初始化;多相机拍摄采集并同相机标注后获得具有同相机标注信息的行人图片集作为待训练的行人图片集,同相机标注信息是通过独立地对每个相机所拍摄的图片分别进行行人编码标注获得;建立行人记忆特征为d×N大小的矩阵,初始化为全零矩阵,其中,N为待训练的行人图片集中单个相机所拍摄的所有图片中累积具有行人数量总和,d为用于特征映射的全连接层的维度。
3.根据权利要求1所述的一种用于同相机内有监督场景的多相机高精度行人重识别方法,其特征在于:
所述的步骤(3)中具体为:
(3.1)根据步骤(2)训练所得的行人记忆特征,计算两两行人之间的距离dist(i,j),公式为:
其中,K[i]和K[j]分别代表第i个行人的行人记忆特征和第j个行人的行人记忆特征,||*||代表欧氏距离;
(3.2)构建行人之间的无向图,其中无向图中每个结点代表一个行人,结点之间的边代表行人之间的距离,然后对无向图中的边进行筛选,仅保留前N个最短边中距离最近邻的边,舍弃其余边;
(3.3)再采用基于密度应用于有噪声场景的空间聚类算法DBSCAN对无向图中的结点进行聚类处理,一类中只有一个结点作为单元素类,其余的类均为非单元素类,找出无向图中的所有非单元素类,将每个非单元素类中结点对应的行人看作同一个行人,每个非单元素类赋予一个唯一编号作为伪标签;
(3.4)对经过步骤(2)训练后的基础网络模型再次进行修改,保留除最后用于特征映射的全连接层之外的其余网络结构及参数,然后在基础网络模型最后增加用于分类的C1维的全连接层并随机初始化,其中C1是行人伪标签的类别总数;
(3.5)以行人伪标签值代替同相机标注信息的行人编码后再对基础网络模型进行微调训练,训练过程使用交叉熵损失函数和三元组损失函数进行监督,第二总体损失函数LInter为:
LInter=Linter_ID+LInter_Triplet
其中,Linter_ID表示交叉熵损失函数,LInter_Triplet表示三元组损失函数。
4.根据权利要求1所述的一种用于同相机内有监督场景的多相机高精度行人重识别方法,其特征在于:所述步骤(3)中的三元组损失函数具体为:
其中,P是每个mini-batch中随机采样的行人个数,K是每个mini-batch中每个行人随机采样的图片个数,m3是第三间隔参数值,max(*)是取最大值函数,min(*)是取最小值函数,[*]+代表铰链Hinge函数max(0,*),||*||代表欧氏距离,g(*)代表基础网络模型的全局平均池化层GAP层输出,是每个mini-batch中任一张图片,称为锚图片;是锚图片的正样本图片,是指在同一个mini-batch中,和具有相同行人的图片;是锚图片的负样本图片,是指同一个mini-batch中,和具有不同行人的图片。
CN202010332673.2A 2020-04-24 2020-04-24 用于同相机内有监督场景的多相机高精度行人重识别方法 Active CN111723645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010332673.2A CN111723645B (zh) 2020-04-24 2020-04-24 用于同相机内有监督场景的多相机高精度行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010332673.2A CN111723645B (zh) 2020-04-24 2020-04-24 用于同相机内有监督场景的多相机高精度行人重识别方法

Publications (2)

Publication Number Publication Date
CN111723645A CN111723645A (zh) 2020-09-29
CN111723645B true CN111723645B (zh) 2023-04-18

Family

ID=72564183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010332673.2A Active CN111723645B (zh) 2020-04-24 2020-04-24 用于同相机内有监督场景的多相机高精度行人重识别方法

Country Status (1)

Country Link
CN (1) CN111723645B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395997B (zh) * 2020-11-19 2023-11-24 中山大学 一种基于可微图学习的行人重识别模型的弱监督训练方法
CN112784772B (zh) * 2021-01-27 2022-05-27 浙江大学 一种基于对比学习的相机内有监督跨相机行人重识别方法
CN112966647A (zh) * 2021-03-25 2021-06-15 东北林业大学 一种基于逐层聚类及增强判别的行人重识别方法
CN113095174A (zh) * 2021-03-29 2021-07-09 深圳力维智联技术有限公司 重识别模型训练方法、装置、设备及可读存储介质
CN113128410A (zh) * 2021-04-21 2021-07-16 湖南大学 一种基于轨迹关联学习的弱监督行人重识别方法
CN113536946B (zh) * 2021-06-21 2024-04-19 清华大学 一种基于摄像头关系的自监督行人重识别方法
CN113642547B (zh) * 2021-10-18 2022-02-11 中国海洋大学 一种基于密度聚类的无监督域适应人物重识别方法及系统
CN114067356B (zh) * 2021-10-21 2023-05-09 电子科技大学 基于联合局部引导与属性聚类的行人重识别方法
CN114419670B (zh) * 2022-01-17 2024-04-02 中国科学技术大学 基于去相机偏差和动态更新记忆模型的无监督行人重识别方法
CN115601791B (zh) * 2022-11-10 2023-05-02 江南大学 基于Multiformer及离群样本重分配的无监督行人重识别方法
CN117095241B (zh) * 2023-10-17 2024-01-12 四川大学 一种耐药性肺结核类别的筛查方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268583A (zh) * 2014-09-16 2015-01-07 上海交通大学 基于颜色区域特征的行人重识别方法及系统
CA2986320A1 (en) * 2017-11-21 2019-05-21 Phemi Systems Corporation Methods and systems for context-specific data set derivation from unstructured data in data storage devices
WO2019153830A1 (zh) * 2018-02-12 2019-08-15 北京市商汤科技开发有限公司 行人再识别方法、装置、电子设备和存储介质
CN110135295A (zh) * 2019-04-29 2019-08-16 华南理工大学 一种基于迁移学习的无监督行人重识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268583A (zh) * 2014-09-16 2015-01-07 上海交通大学 基于颜色区域特征的行人重识别方法及系统
CA2986320A1 (en) * 2017-11-21 2019-05-21 Phemi Systems Corporation Methods and systems for context-specific data set derivation from unstructured data in data storage devices
WO2019153830A1 (zh) * 2018-02-12 2019-08-15 北京市商汤科技开发有限公司 行人再识别方法、装置、电子设备和存储介质
CN110135295A (zh) * 2019-04-29 2019-08-16 华南理工大学 一种基于迁移学习的无监督行人重识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Bottom-Up Clustering Approach to Unsupervised Person Re-Identification;Yutian Lin et al.;《The Thirty-Third AAAI Conference on Artificial Intelligence (AAAI-19)》;20191231;全文 *
基于注意力机制的行人重识别特征提取方法;刘紫燕等;《计算机应用》;20200310;全文 *

Also Published As

Publication number Publication date
CN111723645A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111723645B (zh) 用于同相机内有监督场景的多相机高精度行人重识别方法
US11823050B2 (en) Semi-supervised person re-identification using multi-view clustering
CN108960080B (zh) 基于主动防御图像对抗攻击的人脸识别方法
CN108197326B (zh) 一种车辆检索方法及装置、电子设备、存储介质
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN109858390A (zh) 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN110705344B (zh) 一种基于深度学习的人群计数模型及其实现方法
CN112819065B (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和系统
CN110147707B (zh) 一种高精度车辆识别方法及系统
CN111898461B (zh) 一种时序行为片段生成方法
CN112906623A (zh) 一种基于多尺度深度监督的反向注意力模型
CN112115780A (zh) 一种基于深度多模型协同的半监督行人重识别方法
CN111695531A (zh) 一种基于异构卷积网络的跨域行人再识别方法
CN114782752A (zh) 基于自训练的小样本图像集成分类方法及装置
CN112784772B (zh) 一种基于对比学习的相机内有监督跨相机行人重识别方法
Odetola et al. A scalable multilabel classification to deploy deep learning architectures for edge devices
Casagrande et al. Abnormal motion analysis for tracking-based approaches using region-based method with mobile grid
CN117373062A (zh) 一种基于联合学习的实时端到端跨分辨率行人重识别方法
CN110110670A (zh) 基于Wasserstein度量的行人跟踪中的数据关联方法
AU2021105870A4 (en) A system and method for identifying pedestrians using a novel 3d inception-based person re-identification model
CN115049894A (zh) 一种基于图学习的全局结构信息嵌入网络的目标重识别方法
KR20190134380A (ko) 합성곱 신경망에 대한 도메인 불변 사람 분류기를 위한 연관성 학습 시스템 및 방법
CN115100690A (zh) 一种基于联合学习的图像特征提取方法
Lin et al. Realtime Vehicle Tracking Method Based on YOLOv5+ DeepSORT
Xi et al. Online unsupervised video object segmentation via contrastive motion clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant