CN112232241B - 一种行人重识别方法、装置、电子设备和可读存储介质 - Google Patents
一种行人重识别方法、装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN112232241B CN112232241B CN202011130120.5A CN202011130120A CN112232241B CN 112232241 B CN112232241 B CN 112232241B CN 202011130120 A CN202011130120 A CN 202011130120A CN 112232241 B CN112232241 B CN 112232241B
- Authority
- CN
- China
- Prior art keywords
- network model
- loss
- module
- training
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 75
- 238000012937 correction Methods 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 239000004576 sand Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种行人重识别方法、装置、电子设备和可读存储介质,属于图像处理领域,所述方法包括:初始化原始网络模型的网络参数得到的更新网络模型包括特征分布对齐模块、聚类模块和噪声标签校正模块;利用源域样本和目标域样本对特征分布对齐模块进行训练得到对齐网络模型;基于对齐网络模型、目标域样本对聚类模块进行训练得到聚类结果及各个聚类结果对应的噪声标签;基于更新网络模型、目标域样本和各个噪声标签对噪声标签校正模块进行训练得到目标网络模型;利用目标网络模型对待查询图像进行行人重识别。经过特征层次对齐、迭代聚类提升噪声标签的准确性,并通过噪声校正过程提升噪声标签的精度,从而提高目标网络模型的识别准确性。
Description
技术领域
本发明属于图像处理领域,更具体地,涉及一种行人重识别方法、装置、电子设备和可读存储介质。
背景技术
行人重识别是自动视频监控中的一项基本任务,其目的是完成不同摄像机下,同一个行人表观结果的匹配。通过获取一个行人在一个摄像机中的图像,模型生成对应的特征向量,用于与另一个摄像机视图或者不同时间点观察到的图像的特征向量进行比较。目的在于通过匹配图像,确定一个人过去或现在的位置。
实际的行人重识别研究工作中主要有两部分组成:特征提取(行人的外观特征表示)和距离度量(行人间的相似性比较)。在学习行人表观特征的过程中,需要带标注的数据集。但是因为场景的复杂性,如遮挡,光线和相机的差异,如视角,分辨率等的差异。在数据集上学习的表观特征,会因待部署的现实场景的差异而失效。这一现象被称为领域差异问题。获取大量的监控视频是轻而易举的,但是繁琐的数据标注工作限制了行人重识别模型在新场景的运用。
基于领域适应的方法能够将源域(带标签的数据集)的知识拓展到目标域(待部署场景)。虽然现有方法也从减小领域差异的角度着手,但普遍都过于重视源域知识而忽视了目标域的信息。即便有的方法考虑到目标域信息,但是对该信息的挖掘不够深入,或者引入大量的噪声,从而无法取得良好的识别效果。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种行人重识别方法、装置、电子设备和可读存储介质,其目的在于,不仅能够省去了繁琐的数据标注工作,而且能够提取更加鲁棒和更具判别性的特征,提高识别的准确率。
为实现上述目的,按照本发明的一个方面,提供了一种行人重识别方法,包括:
S1:初始化原始网络模型的网络参数得到更新网络模型,所述更新网络模型包括特征分布对齐模块、聚类模块和噪声标签校正模块;
S2:利用源域样本和目标域样本对所述特征分布对齐模块进行训练得到对齐网络模型,所述特征分布对齐模块包含存储单元、感知器网络、交叉熵损失Lce、对比损失Lcl、领域混淆损失Lg和Ld;
S3:基于所述对齐网络模型,利用所述目标域样本对所述聚类模块进行训练,得到聚类结果及各个所述聚类结果对应的噪声标签;
S4:基于所述更新网络模型,利用所述目标域样本和各个所述噪声标签对所述噪声标签校正模块进行训练,得到目标网络模型,所述目标网络模型携带所述噪声标签校正后对应的校正标签;
S5:利用所述目标网络模型对待查询图像进行行人重识别。
在其中一个实施例中,所述步骤S2包括:
S201:将源域数据集中的图片和目标域数据集中的图片进行格式调整分别得到所述源域样本和所述目标域样本;
S202:利用所述源域样本和所述目标域样本对所述特征分布对齐模块进行训练,所述特征分布对齐模块包含存储单元和感知器网络;所述存储单元为尺寸为NT×d的内存空间,用于存储所述目标域样本的特征;NT为所述目标域样本个数,d为所述目标域样本对应的特征向量的维度;所述感知器网络为多层全连接层的神经网络;
S203:在训练过程中,分别计算所述交叉熵损失Lce、所述对比损失Lcl、所述领域混淆损失Lg和Ld,训练完成后得到所述对齐网络模型。
在其中一个实施例中,所述步骤S203包括:
S2031:提取所述源域样本的特征并计算所述分类交叉熵损失Lce,
fi s∈Rd表示第i个源域样本的特征向量,d为fi的维度,xi属于第个类别的行人,表示分类层第j列的权重,表示xi样本对应的权重,bj表示第j列的偏执参数,表示xi样本对应的偏执参数,NS和MS分别表示源域的样本个数和类别数目;
S2032:提取所述目标域样本中的特征并计算所述对比损失Lcl;
fi t表示第i个目标域样本的特征向量,d为fi的维度,表示第j个目标域样本的数据增强变体图像的特征向量,τ表示温度因子,用来平衡分布规模;sij表示余弦相似度,用于衡量样本和的相似程度,NT表示目标域样本的个数;
S2033:控制所述感知器网络的参数固定,使用所述领域混淆损失训练所述更新网络模型;控制所述更新网络模型对应的主干网络参数固定,使用领域混淆损失训练所述感知器判别网络,训练完成后得到所述对齐网络模型;其中,Lg=Ex~T[(D(fs)-1)2],Ld=Ex~S[(D(fs)-1)2]+Ex~T[(D(ft))2],fs和ft分别表示所述源域样本的特征和所述目标域样本的特征,D表示感知器网络,E表示计算期望。
在其中一个实施例中,所述步骤S3包括:
S301:提取所述目标域样本对应的均值池化层的特征,利用聚类算法将所述目标域样本分成若干个集群,每个集群的样本分配相同的初始伪标签;
S302:利用基于所述初始伪标签的三元组损失Ltrip对所述噪声标签校正模块进行训练,得到所述聚类结果和各个所述聚类结果对应的噪声标签;
其中,fi a,fi p,fi n分别为固定样本、正样本、负样本的特征,P×K个样本中,P表示每个批量中随机选取的类别数,K表示每个类别随机选择的样本数,||·||2表示欧几里得距离,m为距离阈值。
在其中一个实施例中,所述样本噪声校正模块包含交叉熵损失Lcen、KL散度损失Lkl、正则化损失Lc、熵损失Le、交叉熵损失Lcec和三元组损失Ltripc,所述步骤S4包括:
S401:基于所述更新网络模型通过噪声标签训练分类所述交叉熵损失Lcen;
S402:利用所述KL散度损失Lkl、所述正则化损失Lc和所述熵损失Le获取所述目标域样本的校正伪标签;
S403:利用所述校正伪标签、所述交叉熵损失Lcec和所述三元组损失Ltripc训练所述更新网络模型得到所述目标网络模型,并获取所述噪声标签校正后对应的校正标签。
在其中一个实施例中,所述步骤S402包括:
S4021、利用KL散度损失Lkl使所述更新网络模型输出所述校正伪标签;
S4023、利用所述熵损失Le维持所述更新网络模型的判别能力;其中,
在其中一个实施例中,所述步骤S1包括:
S101:获取初始时刻的动量v0和所述初始时刻的网络参数θ0;
S102:利用公式vt=γvt-1+ηgt和θt=θt-1-vt-1获取当前时刻对应的网络更新参数θt;其中,vt表示所述当前时刻的动量,由上一时刻的动量vt-1和所述当前时刻的损失函数梯度gt共同决定,γ表示上一时刻的动量vt-1对当前时刻的动量vt的影响程度,η表示学习率;
S103:利用所述当前时刻的网络更新参数初始化所述原始网络模型得到所述更新网络模型。
按照本发明的另一方面,提供了一种行人重识别装置,包括:
更新模块,用于初始化原始网络模型的网络参数得到更新网络模型,所述更新网络模型包括特征分布对齐模块、聚类模块和噪声标签校正模块;
第一训练模块,用于利用源域样本和目标域样本对所述特征分布对齐模块进行训练得到对齐网络模型,所述特征分布对齐模块包含存储单元、感知器网络、交叉熵损失Lce、对比损失Lcl、领域混淆损失Lg和Ld;
第二训练模块,用于基于所述对齐网络模型,利用所述目标域样本对所述聚类模块进行训练,得到聚类结果及各个所述聚类结果对应的噪声标签;
第三训练模块,用于基于所述更新网络模型,利用所述目标域样本和各个所述噪声标签对所述噪声标签校正模块进行训练,得到目标网络模型,所述目标网络模型携带所述噪声标签校正后对应的校正标签;
识别模块,用于利用所述目标网络模型对待查询图像进行行人重识别。
按照本发明的另一方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
按照本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列如下有益效果:
(1)本发明在更新网络模型中引入了特征分布对齐模块,聚类模块和标签噪声校正模块。经过特征层次对齐、迭代聚类的步骤能够提升噪声标签的准确性,进一步地通过噪声校正过程提升噪声标签的精度,能够解决行人重识别系统在部署到新场景时,因为领域差异问题和缺乏有指导力的标签进行指导而性能急剧下降的问题。另外,本申请避免了人为的对数据集进行标记的冗余操作,降低人力成本。
(2)为了获得识别准确性较好的目标网络模型。本申请提出的特征分布对齐模块,通过领域适应兼顾源域样本和目标域样本,在学习源域知识,减小领域差异。特征分布对齐后,同一个行人的特征分布会更加集中,不同行人的特征分布会更加分散,训练得到的目标网络模型够提取出区分目标域样本的判别力更强的特征。
(3)本发明提出的聚类模块,采用基于密度的聚类算法对目标域样本特征进行聚类。利用聚类获得的伪标签指导模型训练。不断重复这个过程,聚类过程能够不断获得更加准确的聚类结果。而伪标签的训练指导能够维持模型的判别力,防止目标网络模型崩溃。
(4)为了更进一步的提高聚类模块获得的伪标签的准确度,本发明提出的标签噪声校正模块,将网络参数训练和噪声标签校正过程在同一个框架中完成,当其中一个在训练时,另一个固定不变。最终噪声标签能够得到校正。以一种自动的方式而不是人为手动标注的方式获得了较为准确的校正标签。
附图说明
图1为本发明一实施例提供的行人重识别方法的流程图;
图2为本发明一实施例提供的行人重识别方法的流程示意图;
图3为本发明一实施例提供的更新网络模型的结构图;
图4为本发明一实施例提供的感知器网络的结构图;
图5为本发明一实施例提供的行人重识别装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本申请提供了一种行人重识别方法,如图1所示,行人重识别方法包括:步骤S1至步骤S5。
S1:初始化原始网络模型的网络参数得到更新网络模型,如图2所示,更新网络模型包括特征分布对齐模块、聚类模块和噪声标签校正模块;
具体的,本申请的原始网络模型可以是ResNet50网络,用预训练的ResNet50网络参数初始化,以Market1501数据集对应的图片作为源域样本,待部署场景下的行人图片作为源域样本。预训练完成后的更新网络模型携带特征分布对齐模块、聚类模块和标签噪声校正模块。依次训练特征分布对齐模块、聚类模块和标签噪声校正模块,完成训练后得到的目标网络模型能够提取出有效的行人表征特征,用于行人重识别。
在其中一个实施例中,步骤S1包括:S101:获取初始时刻的动量v0和初始时刻的网络参数θ0;S102:利用公式vt=γvt-1+ηgt和θt=θt-1-vt-1获取当前时刻对应的网络更新参数θt;其中,vt表示当前时刻的动量,由上一时刻的动量vt-1和当前时刻的损失函数梯度gt共同决定,γ表示上一时刻的动量vt-1对当前时刻的动量vt的影响程度,η表示学习率;S103:利用当前时刻的网络更新参数初始化原始网络模型得到更新网络模型。
具体的,使用ImageNet预训练模型初始化原始网络模型的网络参数。训练过程采用带动量的SGD算法,并更新原始网络模型的网络参数,动量SGD算法公式为:vt=γvt-1+ηgt和θt=θt-1-vt-1。预训练得到的更新网络模型具有较好的特征提取能力。
S2:利用源域样本和目标域样本对特征分布对齐模块进行训练得到对齐网络模型,特征分布对齐模块包含存储单元、感知器网络、交叉熵损失Lce、对比损失Lcl、领域混淆损失Lg和Ld。
在其中一个实施例中,步骤S2包括:S201:将源域数据集中的图片和目标域数据集中的图片进行格式调整分别得到源域样本和目标域样本;S202:利用源域样本和目标域样本对特征分布对齐模块进行训练,特征分布对齐模块包含存储单元和感知器网络;存储单元为尺寸为NT×d的内存空间,用于存储目标域样本的特征;NT为目标域样本个数,d为目标域样本对应的特征向量的维度;感知器网络为多层全连接层的神经网络;S203:在训练过程中,分别计算交叉熵损失Lce、对比损失Lcl、领域混淆损失Lg和Ld,训练完成后得到对齐网络模型。
具体的,将源域样本和目标域样本转换成预设尺寸的图片,如256*128;然后采用水平翻转,随机裁剪和随机擦除等方法扩充增强数据。扩充增强数据的方法可以是:产生一个0~1之间的随机数,如果该随机数大于设置的概率,则对图片进行翻转、裁剪和擦除操作。水平翻转是将图像以中轴线翻转、裁剪操作首先将图像放大,然后在扩展的图像中裁剪出一个和原图大小相同的图像,新生成的图像数据和原始图像数据具有相同的标签(身份)。最终能够分别得到源域样本的变体图像和目标域样本的变体图像。
如图3所示,对于源域样本对应的变体图像,提取全连接层2的特征。通过Softmax分类器计算分类交叉熵损失。对于目标域样本对应的变体图像,提取均值池化的特征,并存储在存储单元中,后续计算均从存储单元中提取,能够减少训练时冗余的特征计算过程。在训练过程中,存储单元中存储的特征通过滑动平均的方式进行更新,并计算对比损失。进一步地,提取源域样本和目标域样本的均值池化层的特征,输入到图4所示的感知器网络中,交替的训练更新网络模型的主干网络和感知器网络。在训练更新网络模型的主干网络时,感知器网络的参数固定,使用领域混淆损失Lg进行训练;在训练感知器网络时,更新网络模型的主干网络参数固定,使用领域混淆损失Ld进行训练。
在其中一个实施例中,步骤S203包括:S2031:提取源域样本的特征并计算分类交叉熵损失Lee,fi s∈Rd表示第i个源域样本的特征向量,d为fi的维度,xi属于第个类别的行人,表示分类层第j列的权重,表示xi样本对应的权重,bj表示第j列的偏执参数,表示xi样本对应的偏执参数,NS和MS分别表示源域的样本个数和类别数目。S2032:提取目标域样本中的特征并计算对比损失Lcl;fi t表示第i个目标域样本的特征向量,d为fi的维度,表示第j个目标域样本的数据增强变体图伤的特征向量,τ表示温度因子,用来平衡分布规模;sij表示余弦相似度,用于衡量样本和的相似程度,NT表示目标域样本的个数。S2033:在训练更新网络模型的主干网络时,感知器网络的参数固定,使用领域混淆损失Lg进行训练;在训练感知器网络时,更新网络模型的主干网络参数固定,使用领域混淆损失Ld进行训练。Lg和Ld的计算公式Lg=Ex~T[(D(fs)-1)2],Ld=Ex~S[(D(fs)-1)2]+Ex~T[(D(ft))2],fs和ft分别表示源域样本的特征和目标域样本的特征,D表示感知器网络,E表示计算期望。
S3:基于对齐网络模型,利用目标域样本对聚类模块进行训练,得到聚类结果及各个聚类结果对应的噪声标签。
具体的,提取目标样本的均值池化层的特征,通过DBSCAN聚类算法将样本分成若干个集群,每个集群的样本被视为身份相同,被分配相同的标签。此标签称为初始伪标签。获得初始伪标签后,使用三元组损失Ltrip训练聚类模块,不断充分上述的聚类获得初始伪标签和基于初始伪标签的三元组损失训练步骤,最终获得较为准确的校正伪标签。
在其中一个实施例中,步骤S3包括:S301:提取目标域样本对应的均值池化层的特征,利用聚类算法将目标域样本分成若干个集群,每个集群的样本分配相同的初始伪标签;S302:利用基于初始伪标签的三元组损失Ltrip对噪声标签校正模块进行训练,得到聚类结果和各个聚类结果对应的噪声标签;
其中,fi a,fi p,fi n分别为固定样本、正样本、负样本的特征,正样本为聚类算法判别的和固定样本属于同一类的样本。负样本为聚算法判别的和固定样本不属于同一类的样本。P×K个样本中,P表示每个批量中随机选取的类别数,K表示每个类别随机选择的样本数,||·||2表示欧几里得距离,m为距离阈值,用于约束正样本对距离比负样本对距离小一个距离阈值的量。
S4:基于更新网络模型,利用目标域样本和各个噪声标签对噪声标签校正模块进行训练,得到目标网络模型,目标网络模型携带噪声标签校正后对应的校正标签。
在其中一个实施例中,样本噪声校正模块包含交叉熵损失Lcen、KL散度损失Lkl、正则化损失Lc、熵损失Le、交叉熵损失Lcec和三元组损失Ltripc,步骤S4包括:S401:基于更新网络模型通过噪声标签训练分类交叉熵损失Lcen;S402:利用KL散度损失Lkl、正则化损失Lc和熵损失Le获取目标域样本的校正伪标签;S403:利用校正伪标签、交叉熵损失Lcec和三元组损失Ltripc训练更新网络模型得到目标网络模型,并获取噪声标签校正后对应的校正标签。
具体的,重新使用ImageNet预训练模型初始化原始网络模型得到的更新网络模型进行训练。训练标签噪声校正模块,进一步的提高校正伪标签准确度得到校正标签。在校正后标签的指导下学习行人重识别网络。该步骤可细分为3个阶段。
在第一阶段,更新网络模型通过获得的噪声伪标签训练分类交叉熵损失Lcen:
在第二阶段,更新网络模型自身输出校正标签,具体涉及,KL散度损失Lkl、正则化损失Lc和熵损失Le,KL散度损失通过网络输出校正标签,正则化损失Lc用于减少将原本正确标签校正错误的可能性;熵损失Lc用于维持网络的判别能力。
在第三阶段,通过第二阶段校正后的更加干净的校正标签训练得到用于行人重识别的目标网络模型,涉及交叉熵损失Lcec和三元组损失Ltripc。三元组损失Ltripc将原始的噪声标签替换校正标签。其中,校正标签和概率标签一样,为概率分布,但是峰值的位置和峰值的值可能不一致。校正标签是带有噪声的概率标签优化后的标签。
在其中一个实施例中,步骤S402包括:S4021、利用KL散度损失Lkl使更新网络模型输出校正伪标签;S4022、利用正则化损失Lc降低校正伪标签的错误概率,为概率标签;S4023、利用熵损失Le维持更新网络模型的判别能力;其中,
S5:利用目标网络模型对待查询图像进行行人重识别。
具体的,利用训练得到的目标网络模型,提取待查询图像的特征和图库图像的特征,计算图库中图像与待查询图像的距离,距离最近的即为与待查询图像相同的目标。距离计算采用欧式距离计算公式:
distance=||q-p||2
其中,q和p表示两个图像的特征。
如图5所示,本发明还提供了一种行人重识别装置,包括:更新模块、第一训练模块、第二训练模块、第三训练模块和识别模块。
更新模块,用于初始化原始网络模型的网络参数得到更新网络模型,更新网络模型包括特征分布对齐模块、聚类模块和噪声标签校正模块;
第一训练模块,用于利用源域样本和目标域样本对特征分布对齐模块进行训练得到对齐网络模型,特征分布对齐模块包含存储单元、感知器网络、交叉熵损失Lce、对比损失Lcl、领域混淆损失Lg和Ld;
第二训练模块,用于基于对齐网络模型,利用目标域样本对聚类模块进行训练,得到聚类结果及各个聚类结果对应的噪声标签;
第三训练模块,用于基于更新网络模型,利用目标域样本和各个噪声标签对噪声标签校正模块进行训练,得到目标网络模型,目标网络模型携带噪声标签校正后对应的校正标签;
识别模块,用于利用目标网络模型对待查询图像进行行人重识别。
按照本发明的另一方面,提供了一种电子设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述的方法的步骤。
按照本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种行人重识别方法,其特征在于,包括:
S1:初始化原始网络模型的网络参数得到更新网络模型,所述更新网络模型包括特征分布对齐模块、聚类模块和噪声标签校正模块;
S2:利用源域样本和目标域样本对所述特征分布对齐模块进行训练得到对齐网络模型,所述特征分布对齐模块包含存储单元、感知器网络、交叉熵损失Lce、对比损失Lcl、领域混淆损失Lg和Ld;所述交叉熵损失Lce为源域样本的损失,Ld=Ex~S[(D(fS)-1)2]+Ex~T[(D(fT)2],Lg=Ex~T[(D(fT)-1)2],fS和fT分别表示所述源域样本的特征和所述目标域样本的特征,D表示感知器网络,所述感知器网络为多层全连接层的神经网络,E表示计算期望;其中,
fi T表示第i个目标域样本的特征向量,d为的维度,表示第j个目标域样本的数据增强变体图像的特征向量,τ表示温度因子,用来平衡分布规模;sij表示余弦相似度,用于衡量样本和的相似程度,NT表示目标域样本的个数;
S3:基于所述对齐网络模型,利用所述目标域样本对所述聚类模块进行训练,得到聚类结果及各个所述聚类结果对应的噪声标签;
S4:基于所述更新网络模型,利用所述目标域样本和各个所述噪声标签对所述噪声标签校正模块进行训练,得到目标网络模型,所述目标网络模型携带所述噪声标签校正后对应的校正标签;
S5:利用所述目标网络模型对待查询图像进行行人重识别。
2.如权利要求1所述的方法,其特征在于,所述步骤S2包括:
S201:将源域数据集中的图片和目标域数据集中的图片进行格式调整分别得到所述源域样本和所述目标域样本;
S202:利用所述源域样本和所述目标域样本对所述特征分布对齐模块进行训练,所述特征分布对齐模块包含存储单元和感知器网络;所述存储单元为尺寸为NT×d的内存空间,用于存储所述目标域样本的特征;NT为所述目标域样本个数,d为所述目标域样本对应的特征向量的维度;
S203:在训练过程成,分别计算所述交叉熵损失Lce、所述对比损失Lcl、所述领域混淆损失Lg和Ld,训练完成后得到所述对齐网络模型。
3.如权利要求2所述的方法,其特征在于,所述步骤S203包括:
S2031:提取所述源域样本的特征并计算所述分类交叉熵损失Lce,
fi s∈Rd表示第i个源域样本的特征向量,d为fi S的维度,xi属于第个类别的行人,为第i个源域样本的标签;表示分类层第j列的权重,表示xi样本对应的权重,和Wj的上标T标识转置,bj表示第j列的偏执参数,表示xi样本对应的偏执参数,NS和MS分别表示源域的样本个数和类别数目;
S2032:提取所述目标域样本中的特征并计算所述对比损失Lcl;
S2033:控制所述感知器网络的参数固定,使用所述领域混淆损失训练所述更新网络模型;控制所述更新网络模型对应的主干网络参数固定,使用领域混淆损失训练所述感知器判别网络,训练完成后得到所述对齐网络模型。
5.如权利要求1所述的方法,其特征在于,所述样本噪声校正模块包含交叉熵损失Lcen、KL散度损失Lkl、正则化损失Lc、熵损失Le、交叉熵损失Lcec和三元组损失Ltripc,所述步骤S4包括:
S401:基于所述更新网络模型利用所述噪声标签训练分类所述交叉熵损失Lcen;
S402:利用所述KL散度损失Lkl、所述正则化损失Lc和所述熵损失Le获取所述目标域样本的校正伪标签;
S403:利用所述校正伪标签、所述交叉熵损失Lcec和所述三元组损失Ltripc训练所述更新网络模型得到所述目标网络模型,并获取所述噪声标签校正后对应的校正标签。
7.如权利要求1-6任一项所述的方法,其特征在于,所述步骤S1包括:
S101:获取初始时刻的动量v0和所述初始时刻的网络参数θ0;
S102:利用公式vt=γvt-1+ηgt和θt=θt-1-vt-1获取当前时刻对应的网络更新参数θt;其中,vt表示所述当前时刻的动量,由上一时刻的动量vt-1和所述当前时刻的损失函数梯度gt共同决定,γ表示上一时刻的动量vt-1对当前时刻的动量vt的影响程度,η表示学习率;
S103:利用所述当前时刻的网络更新参数初始化所述原始网络模型得到所述更新网络模型。
8.一种行人重识别装置,其特征在于,包括:
更新模块,用于初始化原始网络模型的网络参数得到更新网络模型,所述更新网络模型包括特征分布对齐模块、聚类模块和噪声标签校正模块;
第一训练模块,用于利用源域样本和目标域样本对所述特征分布对齐模块进行训练得到对齐网络模型,所述特征分布对齐模块包含存储单元、感知器网络、交叉熵损失Lce、对比损失Lcl、领域混淆损失Lg和Ld;所述交叉熵损失Lce为源域样本的损失,Ld=Ex~S[(D(fS)-1)2]+Ex~T[(D(fT)2],Lg=Ex~T[(D(fT)-1)2],fS和fT分别表示所述源域样本的特征和所述目标域样本的特征,D表示感知器网络,所述感知器网络为多层全连接层的神经网络,E表示计算期望;其中,
fi T表示第i个目标域样本的特征向量,d为fi T的维度,表示第j个目标域样本的数据增强变体图像的特征向量,τ表示温度因子,用来平衡分布规模;sij表示余弦相似度,用于衡量样本和的相似程度,NT表示目标域样本的个数;
第二训练模块,用于基于所述对齐网络模型,利用所述目标域样本对所述聚类模块进行训练,得到聚类结果及各个所述聚类结果对应的噪声标签;
第三训练模块,基于所述更新网络模型,利用所述目标域样本和各个所述噪声标签对所述噪声标签校正模块进行训练,得到目标网络模型,所述目标网络模型携带所述噪声标签校正后对应的校正标签;
识别模块,利用所述目标网络模型对待查询图像进行行人重识别。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011130120.5A CN112232241B (zh) | 2020-10-22 | 2020-10-22 | 一种行人重识别方法、装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011130120.5A CN112232241B (zh) | 2020-10-22 | 2020-10-22 | 一种行人重识别方法、装置、电子设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112232241A CN112232241A (zh) | 2021-01-15 |
CN112232241B true CN112232241B (zh) | 2022-03-25 |
Family
ID=74118726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011130120.5A Expired - Fee Related CN112232241B (zh) | 2020-10-22 | 2020-10-22 | 一种行人重识别方法、装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232241B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836739B (zh) * | 2021-01-29 | 2024-02-09 | 华中科技大学 | 基于动态联合分布对齐的分类模型建立方法及其应用 |
CN112765358B (zh) * | 2021-02-23 | 2023-04-07 | 西安交通大学 | 一种基于噪声标签学习的纳税人行业分类方法 |
CN112989971B (zh) * | 2021-03-01 | 2024-03-22 | 武汉中旗生物医疗电子有限公司 | 一种不同数据源的心电数据融合方法及装置 |
CN112966647A (zh) * | 2021-03-25 | 2021-06-15 | 东北林业大学 | 一种基于逐层聚类及增强判别的行人重识别方法 |
CN113033679B (zh) * | 2021-03-31 | 2022-05-31 | 清华大学深圳国际研究生院 | 一种用于监控视频车辆检测的半监督带噪声学习方法 |
CN113326731B (zh) * | 2021-04-22 | 2024-04-19 | 南京大学 | 一种基于动量网络指导的跨域行人重识别方法 |
CN113505642B (zh) * | 2021-06-04 | 2023-10-24 | 北京大学 | 提升目标重识别泛化性的方法、装置、设备及存储介质 |
CN113283396A (zh) * | 2021-06-29 | 2021-08-20 | 艾礼富电子(深圳)有限公司 | 目标对象的类别检测方法、装置、计算机设备和存储介质 |
CN113642547B (zh) * | 2021-10-18 | 2022-02-11 | 中国海洋大学 | 一种基于密度聚类的无监督域适应人物重识别方法及系统 |
CN114022904B (zh) * | 2021-11-05 | 2023-01-24 | 湖南大学 | 一种基于两阶段的噪声鲁棒行人重识别方法 |
CN114329003B (zh) * | 2021-12-27 | 2024-08-13 | 北京达佳互联信息技术有限公司 | 媒体资源数据处理方法、装置、电子设备及存储介质 |
CN114283287B (zh) * | 2022-03-09 | 2022-05-06 | 南京航空航天大学 | 基于自训练噪声标签纠正的鲁棒领域自适应图像学习方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414462A (zh) * | 2019-08-02 | 2019-11-05 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种无监督的跨域行人重识别方法及系统 |
CN111027442A (zh) * | 2019-12-03 | 2020-04-17 | 腾讯科技(深圳)有限公司 | 用于行人重识别的模型训练方法、识别方法、装置及介质 |
CN111160217A (zh) * | 2019-12-25 | 2020-05-15 | 中山大学 | 一种行人重识别系统对抗样本生成方法及系统 |
CN111414952A (zh) * | 2020-03-17 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 行人重识别的噪声样本识别方法、装置、设备和存储介质 |
CN111444765A (zh) * | 2020-02-24 | 2020-07-24 | 北京市商汤科技开发有限公司 | 图像重识别方法及相关模型的训练方法及相关装置、设备 |
CN111476168A (zh) * | 2020-04-08 | 2020-07-31 | 山东师范大学 | 一种基于三阶段的跨域行人重识别方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330396B (zh) * | 2017-06-28 | 2020-05-19 | 华中科技大学 | 一种基于多属性和多策略融合学习的行人再识别方法 |
CN113056743B (zh) * | 2018-09-20 | 2024-06-28 | 辉达公司 | 训练神经网络以用于车辆重新识别 |
CN110490245B (zh) * | 2019-08-14 | 2024-08-27 | 腾讯科技(深圳)有限公司 | 身份验证模型训练方法及装置、存储介质、电子设备 |
-
2020
- 2020-10-22 CN CN202011130120.5A patent/CN112232241B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414462A (zh) * | 2019-08-02 | 2019-11-05 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种无监督的跨域行人重识别方法及系统 |
CN111027442A (zh) * | 2019-12-03 | 2020-04-17 | 腾讯科技(深圳)有限公司 | 用于行人重识别的模型训练方法、识别方法、装置及介质 |
CN111160217A (zh) * | 2019-12-25 | 2020-05-15 | 中山大学 | 一种行人重识别系统对抗样本生成方法及系统 |
CN111444765A (zh) * | 2020-02-24 | 2020-07-24 | 北京市商汤科技开发有限公司 | 图像重识别方法及相关模型的训练方法及相关装置、设备 |
CN111414952A (zh) * | 2020-03-17 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 行人重识别的噪声样本识别方法、装置、设备和存储介质 |
CN111476168A (zh) * | 2020-04-08 | 2020-07-31 | 山东师范大学 | 一种基于三阶段的跨域行人重识别方法和系统 |
Non-Patent Citations (4)
Title |
---|
Identity preserving generative adversarial network for cross-domain person re-identification;jialun liu et al.;《IEEE access》;20190808;第7卷;第114021-114032页 * |
Probabilistic end-to-end noise correction for learning with noisy labels;yi k.et al.;《2019IEEE/CVF computer vision and pattern recognition》;20200109;第7017-7025页 * |
Self-similarity grouping:a simple unsupervised cross domain adaptation approach for person re-identification;y.yu et al.;《proc.int.conf.comput.vis.》;20191102;第6111-6120页 * |
跨模态行人重识别研究与展望;陈丹等;《计算机系统应用》;20200930;第29卷(第10期);第1-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112232241A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232241B (zh) | 一种行人重识别方法、装置、电子设备和可读存储介质 | |
CN111814584B (zh) | 基于多中心度量损失的多视角环境下车辆重识别方法 | |
CN112837315B (zh) | 一种基于深度学习的输电线路绝缘子缺陷检测方法 | |
WO2012132418A1 (ja) | 属性推定装置 | |
CN108564102A (zh) | 图像聚类结果评价方法和装置 | |
CN111046858B (zh) | 一种基于图像的动物物种细分类方法、系统及介质 | |
CN111368772A (zh) | 身份识别方法、装置、设备及存储介质 | |
CN114842343A (zh) | 一种基于ViT的航空图像识别方法 | |
CN110610230A (zh) | 一种台标检测方法、装置及可读存储介质 | |
JP2022548187A (ja) | 対象再識別方法および装置、端末並びに記憶媒体 | |
CN113065409A (zh) | 一种基于摄像分头布差异对齐约束的无监督行人重识别方法 | |
CN114972952A (zh) | 一种基于模型轻量化的工业零部件缺陷识别方法 | |
CN113378706A (zh) | 一种辅助儿童观察植物和学习生物多样性的绘画系统 | |
CN113569650A (zh) | 一种基于电力杆塔标牌识别的无人机自主巡检定位方法 | |
CN112347957A (zh) | 行人重识别方法、装置、计算机设备及存储介质 | |
CN112084895A (zh) | 一种基于深度学习的行人重识别方法 | |
JP2012048624A (ja) | 学習装置、方法及びプログラム | |
CN111444816A (zh) | 一种基于Faster RCNN的多尺度密集行人检测方法 | |
CN113743251B (zh) | 一种基于弱监督场景的目标搜索方法及装置 | |
CN114882204A (zh) | 船名自动识别方法 | |
CN109635647A (zh) | 一种基于约束条件下的多图片多人脸的聚类方法 | |
CN113553975A (zh) | 基于样本对关系蒸馏的行人重识别方法、系统、设备及介质 | |
CN115984646B (zh) | 面向遥感跨卫星观测的分布式目标检测方法、装置和卫星 | |
CN116612382A (zh) | 一种城市遥感图像目标检测方法和装置 | |
CN115861595A (zh) | 一种基于深度学习的多尺度域自适应异源图像匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220325 |