CN116229512A - 基于跨摄像头自蒸馏的行人重识别模型建立方法及其应用 - Google Patents
基于跨摄像头自蒸馏的行人重识别模型建立方法及其应用 Download PDFInfo
- Publication number
- CN116229512A CN116229512A CN202310176476.XA CN202310176476A CN116229512A CN 116229512 A CN116229512 A CN 116229512A CN 202310176476 A CN202310176476 A CN 202310176476A CN 116229512 A CN116229512 A CN 116229512A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- camera
- cross
- cluster
- distillation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004821 distillation Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000000605 extraction Methods 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 abstract description 15
- 230000006870 function Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000015556 catabolic process Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于跨摄像头自蒸馏的行人重识别模型建立方法及其应用,属于行人重识别领域,包括:利用特征提取网络提取行人图片的特征后聚类,标注全局伪标签,按摄像头将聚类类别划分为多个子聚类,标注局部伪标签;标注完成后得到训练集;构建包含特征提取网络以及与摄像头一一对应的多个分类器的监督网络,各分类器分别根据特征进行分类,得到分类概率分布;利用训练集对监督网络进行训练;训练损失包括分类损失和蒸馏损失,分别表示同摄像头分类概率分布与局部伪标签之间的差异,以及跨摄像头分类概率分布与同摄像头分类概率分布之间的差异;重复以上步骤,直至特征提取网络收敛,输出该网络。本发明能够提高无监督行人重识别的准确度。
Description
技术领域
本发明属于行人重识别领域,更具体地,涉及基于跨摄像头自蒸馏的行人重识别模型建立方法及其应用。
背景技术
面对监控系统产生的大量数据,人力已无法胜任,运用计算机视觉技术构建智能安防系统可提供良好的解决方案。行人重识别是计算机视觉领域的一个重要的研究方向,其目的在于检索出由多个视野非交叉的摄像头捕获的同一行人的图片。行人重识别技术能有效并准确地分析人员轨迹,发挥着重要作用。
现有的行人重识别方案广泛采用有监督深度学习的方法。有监督行人重识别方法通过大量的有标签的训练数据训练出具有良好性能的深度神经网络提取行人图片特征,再进行特征比对完成行人重识别。尽管这类方法在现有的数据集上已达到相当高的性能,但在实际应用中仍存在许多缺陷。基于有监督的行人重识别方法需要大量的人工标注标签的训练数据集,训练数据的标注耗费大量的人力物力。同时,由于训练数据与实际部署场景之间存在差异,训练好的网络会在实际场景中性能下降。为了解决这些问题,无需标签只需行人图片的无监督行人重识别方法的研究兴起了。
现有的无监督行人重识别方法往往对图片进行特征提取后进行聚类,将图片所属类别标注为伪标签,再基于标注了伪标签的行人图片训练深度神经网络以提取行人图片特征。无监督行人重识别方法能够有效解决有监督深度学习方法所存在的问题,但是,在实际应用场景中,需要识别的行人图片往往由不同的摄像头捕获,而不同摄像头捕获的行人图片存在较大差异,并且不同摄像头下的数据分布存在间隔,这使得无监督行人重识别所依赖的聚类产生的伪标签质量不佳,进而影响无监督行人重识别的准确度。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了基于跨摄像头自蒸馏的行人重识别模型建立方法及其应用,其目的在于,提高无监督行人重识别的准确度。
为实现上述目的,按照本发明的一个方面,提供了一种基于跨摄像头自蒸馏的行人重识别模型建立方法,包括如下步骤:
(S1)利用特征提取网络提取行人图片的特征后,对所提取的特征进行聚类,将聚类所得的每一个类别划分为多个子聚类,将所属类别和所属子聚类分别标注为行人图片的全局伪标签和局部伪标签,得到训练集;每个子聚类中的特征提取自同一摄像头捕获的行人图片;
(S2)构建包含特征提取网络以及与摄像头一一对应的多个分类器的监督网络,其中的特征提取网络用于提取行人图片的特征,各分类器分别根据该特征进行分类,得到行人图片属于各子聚类的概率;若行人图片与分类器对应的摄像头相同,则分类器的输出记为同摄像头分类概率分布,否则,记为跨摄像头分类概率分布;
(S3)利用训练集对监督网络进行训练,以优化特征提取网络的参数;训练损失函数包括分类损失Lcross_entropy和蒸馏损失Ldistill,分别表示同摄像头分类概率分布与局部伪标签之间的差异,以及跨摄像头分类概率分布与同摄像头分类概率分布之间的差异;
(S4)重复步骤(S1)~(S3),直至特征提取网络收敛,输出特征提取网络作为行人重识别模型。
进一步地,步骤(S1)中,将聚类所得的每一个类别划分为多个子聚类,包括:
(S11)对于每一个类别,将提取自同一个摄像头的行人图片的特征划分至一个小聚类中,得到多个小聚类;
(S12)分别计算各小聚类的紧密度,并将紧密度小于阈值λ的小聚类进一步划分为多个新的小聚类,使各个小聚类的紧密度均不小于阈值λ;
(S13)将最终所得的各个小聚类作为子聚类。
进一步地,小聚类的紧密度为该小聚类中所有特征的Silhouette分数的平均值。
进一步地,阈值λ的计算式为:
λ=mean(mSil)-0.5std(mSil)
其中,mean(mSil)表示步骤(S11)中所有小聚类的紧密度的平均值,std(mSil)表示步骤(S11)中所有小聚类的紧密度的标准差。
进一步地,对于任意第k个分类器,其根据特征提取网络提取的特征进行分类后,得到的行人图片属于各子聚类的概率为:
其中,表示全局伪标签为i、局部伪标签为j且由第k*个摄像头捕获的行人图片的特征;Ck由第k个摄像头对应的子聚类的类中心向量拼接而成;τ为预设参数,且τ>0;表示第k个分类器根据特征/>进行分类后,得到的行人图片/>属于各子聚类的概率。
进一步地,本发明提供的基于跨摄像头自蒸馏的行人重识别模型建立方法,还包括:
进一步地,蒸馏损失Ldistill的计算表达式为:
其中,N表示总样本对数;表示全局伪标签为i、局部伪标签为j1且由第k1个摄像头捕获的行人图片/>的特征;/>表示第k1个分类器根据特征/>进行分类后,得到的行人图片/>属于各子聚类的概率;/>表示全局伪标签为i、局部伪标签为j2且由第k2个摄像头捕获的行人图片/>的特征;/>表示第k1个分类器根据特征/>进行分类后,得到的行人图片/>属于各子聚类的概率;k1≠k2。
进一步地,分类损失Lcross_entropy的计算表达式为:
其中,M表示总样本数;表示行人图片的局部伪标签;/>表示全局伪标签为i、局部伪标签为j且由第k个摄像头捕获的行人图片/>的特征;/>表示第k个分类器根据特征/>进行分类后,得到的行人图片/>属于各子聚类的概率。
按照本发明的另一个方面,提供了一种行人重识别方法,包括:
将待识别的多张目标行人图片输入至行人重识别模型,得到各目标行人图片的特征,通过特征比对识别出同一行人对应的目标行人图片,完成行人重识别;
其中,行人重识别模型由本发明提供的上述基于跨摄像头自蒸馏的行人重识别模型建立方法建立得到。
按照本发明的又一个方面,提供了一种计算机可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行本发明提供的基于跨摄像头自蒸馏的行人重识别模型建立方法,和/或,本发明提供的行人重识别方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明所提供的基于跨摄像头自蒸馏的行人重识别模型建立方法,在聚类的基础上,进一步基于摄像头对行人图片标注局部伪标签,并针对每个摄像头建立独立的分类器,由此能够通过各分类器得到同摄像头分类概率分布和跨摄像头分类概率分布;本发明在进行网络训练时,所设计的损失函数同时包含分类损失和蒸馏损失,通过引入分类损失保证同摄像头场景下提取的行人图片特征可准确实现行人重识别,同时,通过引入蒸馏损失实现了同摄像头分类概率分布蒸馏跨摄像头分类概率分布,对齐了不同摄像头下的数据分布,使得在跨摄像头场景下,所提取的行人图片特征也可准确实现行人重识别。总体而言,本发明建立的行人重识别模型在同摄像头和跨摄像头场景下所提取的行人图片特征均可准确实现行人重识别,有效解决了无监督行人重识别中摄像头差异带来的性能下降问题。
(2)本发明所提供的基于跨摄像头自蒸馏的行人重识别模型建立方法,在其优选方案中,在对行人图片进行伪标签标注时,在基于摄像头将各聚类类别划分为小聚类的基础上,进一步结合各小聚类的紧密度将较为松散的小聚类分裂为更多的小聚类,保证了最终得到的每个子聚类都具有较高的紧密度,由此能够有效提高局部伪标签的准确度,从而进一步提高行人重识别的准确度。
(3)本发明所提供的基于跨摄像头自蒸馏的行人重识别模型建立方法,在其优选方案中,利用特征的Silhouette分数的平均值作为小聚类的紧密度,由于Silhouette分数可以有效反映在相同类中的点与不同类中的点相比的紧密程度,因此,本发明所计算的紧密度可以较为准确地反映该聚类中特征之间的紧密程度,进一步保证局部伪标签的准确度。
(4)本发明所提供的基于跨摄像头自蒸馏的行人重识别模型建立方法,在其优选方案中,在按照摄像头将聚类类别划分为小聚类之后,基于各小聚类的紧密度的平均值和标准差确定用于判别小聚类紧密程度的阈值λ,通过这种方式确定的阈值,与实际应用场景下摄像头捕获的图片特征相适应,能够较为准确地识别出松散的小聚类。
(5)本发明所提供的基于跨摄像头自蒸馏的行人重识别模型建立方法,在其优选方案中,在通过子聚类划分完成伪标签标注的基础上,将同一摄像头对应的子聚类的类中心向量拼接得到该摄像头对应的分类器中的参数Ck,能够准确完成同摄像头分类概率分布和跨摄像头分类概率分布的预测。
(6)在训练过程中,特征提取网络将中的参数将逐步优化,其所提取的特征相较于伪标签标注阶段也会有所变化,本发明所提供的基于跨摄像头自蒸馏的行人重识别模型建立方法,在其优选方案中,在训练过程中会依据特征提取网络提取的特征对对应的子聚类的类中心向量进行更新,并进一步对对应分类器中的参数进行更新,能够提高分类器与特征提取网络的匹配度,加速模型的训练过程。
(7)本发明所提供的基于跨摄像头自蒸馏的行人重识别模型建立方法,在其优选方案中,具体通过计算蒸馏损失,其中的/>为同摄像头分类概率分布,/>为跨摄像头分类概率分布,通过该计算表达式,能够有效保证在模型训练的过程中,跨摄像头分类概率分布将逐渐与同摄像头分类概率分布对齐,提高跨摄像头场景下的行人重识别准确度。
(8)本发明所提供的行人重识别方法,利用本发明建立的行人重识别模型进行特征提取后,通过特征比对实现行人重识别,由于本发明所建立的行人重识别模型所提取的行人图片特征在同摄像头和跨摄像头场景下均可用于准确实现行人重识别,因此,本发明提供的行人重识别方法,能够有效提高行人重识别的准确度。
附图说明
图1为本发明实施例提供的基于跨摄像头自蒸馏的行人重识别模型建立方法流程图;
图2为本发明实施例提供的伪标签标注示意图;
图3为本发明实施例提供的监督网络及其训练过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
为了解决现有的无监督行人重识别方法由于摄像头间数据分布差异过大造成的行人重识别准确度下降问题,本发明提供了基于跨摄像头自蒸馏的行人重识别模型建立方法及其应用,其整体思路在于:对行人图片伪标签标注的过程进行改进,使得标注的伪标签能够反映摄像头的信息,同时,对利用标注了伪标签的行人图片进行网络训练的对损失函数进行改进,使跨摄像头下的分类概率分布对齐到同摄像头下的分类概率分布,从而所建立的行人重识别网络在同摄像头和跨摄像头场景下所提取的行人图片特征均可准确实现行人重识别。
以下对本发明中使用到的关键技术术语以及符号表示方式进行简要介绍如下:
行人重识别:检索出由多个视野非交叉的摄像头捕获的同一行人的图片。
知识蒸馏:一般地,大模型往往是单个复杂网络或者是若干网络的集合,拥有良好的性能和泛化能力,而小模型因为网络规模较小,表达能力有限。因此,可以利用大模型学习到的知识去指导小模型训练,使得小模型具有与大模型相当的性能,但是参数数量大幅降低,从而实现模型压缩与加速,这一利用复杂模型学习到的知识去知道简单模型的过程,即为知识蒸馏的过程。在本发明中,蒸馏具体是指利用分类器学习到的同摄像头分类概率分布去指导跨摄像头分类概率分布。
全局伪标签为i、局部伪标签为j且由第k个摄像头捕获的行人图片/>的特征;在特征和行人图片的符号表示中,其中的下标分别表示全局伪标签和局部伪标签,即行人图片所属的聚类类别和子聚类,上标表示对应的摄像头编号;容易理解的是,该符号表示具有通用性,当全局伪标签、局部伪标签或摄像头发生变化时,上、下标会相应发生变化;
全局伪标签为i、局部伪标签为j且与第k个摄像头对应的子聚类的类中心向量,同样地,符号下标分别表示全局伪标签和局部伪标签,上标表示对应的摄像头;容易理解的是,该符号表示具有通用性,当全局伪标签、局部伪标签或摄像头发生变化时,上、下标会相应发生变化;
Ck:第k个摄像头对应的分类器进行分类时所依据的参数,在本发明中,由该摄像头对应的子聚类的类中心向量拼接而成。
以下为实施例。
实施例1:
一种基于跨摄像头自蒸馏的行人重识别模型建立方法,如图1所示,包括如下步骤:
(S1)利用特征提取网络提取行人图片的特征后,对所提取的特征进行聚类,将聚类所得的每一个类别划分为多个子聚类,将所属类别和所属子聚类分别标注为行人图片的全局伪标签和局部伪标签,得到训练集;每个子聚类中的特征提取自同一摄像头捕获的行人图片。
可选地,本实施例所选取的特征提取网络ResNet50,该网络为为卷积神经网络(Convolutional Neural Networks,CNN)的一种;需要说明的是,卷积神经网络仅为可选的特征提取网络,不因理解为对本发明的唯一限定,VGG、OSNet、Transformer等其他可实现特征提取的网络模型,也可用于本发明。
本实施例的步骤(S1)所选用的行人图片大小归一化为256*128大小,且仅包含单个行人,经过ResNet50网络后生成2048维的特征向量;需要说明的是,此处图片尺寸及特征维度仅为示例性的描述,不应理解为对本发明的唯一限定,在实际应用中,可根据实际需要相应设定。
在每轮网络训练前,会利用特征提取网络提取所有行人图片的特征,并完成伪标签的标注。相比于传统的无监督行人重识别方法仅仅利用聚类结果给行人图片标注全局伪标签,本实施例进一步基于行人图片所属摄像头对聚类类别进一步划分为子聚类,并基于划分结果给行人图片标注局部伪标签,能够使得网络在训练过程中辨别出同摄像头和跨摄像头的场景。
作为一种可选的实施方式,本实施例的步骤(S1)中,对行人图片的特征进行聚类时,具体采用DBSCAN聚类算法完成。DBSCAN聚类算法是一种密度聚类算法,可将一个数据点判定为噪声点,并将判定为噪声点的样本抛弃不计入本轮网络训练,基于该聚类算法,可以有效保证全局伪标签的准确性。应当说明的是,DBSCAN聚类算法仅为优选的实施方式,不应理解为对本发明的唯一限定,K-means、谱聚类等其他聚类算法也可用于本发明。
为了进一步提高局部伪标签的准确度,作为一种优选的实施方式,本实施在划分子聚类时,还会考虑聚类的紧密度,相应地,本实施例的步骤(S1)中,将聚类所得的每一个类别划分为多个子聚类,具体包括:
(S11)对于每一个类别,将提取自同一个摄像头的行人图片的特征划分至一个小聚类中,得到多个小聚类;
(S12)分别计算各小聚类的紧密度,并将紧密度小于阈值λ的小聚类进一步划分为多个新的小聚类,使各个小聚类的紧密度均不小于阈值λ;
可选地,本实施例中,采用小聚类中所有特征的Silhouette分数的平均值度量小聚类的紧密度;由于Silhouette分数可以有效反映在相同类中的点与不同类中的点相比的紧密程度,因此,本实施例所计算的紧密度可以较为准确地反映该聚类中特征之间的紧密程度;
在本发明其他的一些实施例中,也可采用戴维森堡丁指数、邓恩指数等其他方式来度量小聚类的紧密度;
(S13)将最终所得的各个小聚类作为子聚类;
本实施例将较为松散(紧密度小于阈值λ)的小聚类进一步划分为新的多个小聚类,确保每个小聚类的紧密度较高,保证了最终得到的每个子聚类都具有较高的紧密度,由此能够有效提高局部伪标签的准确度,从而进一步提高行人重识别的准确度;
为了保证准确判别小聚类的紧密度是否足够大,本实施例中,阈值λ的计算式为:
λ=mean(mSil)-0.5std(mSil)
其中,mean(mSil)表示步骤(S11)中所有小聚类的紧密度的平均值,std(mSil)表示步骤(S11)中所有小聚类的紧密度的标准差;通过这种方式确定的阈值,与实际应用场景下摄像头捕获的图片特征相适应,能够较为准确地识别出松散的小聚类;应当说明的是,此处阈值的计算,仅为优选的实施方式,不应理解为对本发明的唯一限定,在本发明其他的实施例中,也可采用其他方式进行确定,例如,将该阈值设定为一个固定的经验值。
图2所示,为本实施例进行伪标签标注的一个示例,其中的每一个形状代表1个特征;最左侧的特征簇为聚类后的结果;按照上述步骤(S11)进行划分后,每个聚类类别进一步被划分为2个小聚类,共得到8个小聚类,其中实心特征提取自同一个摄像头捕获的行人图片,非实心的特征提取自另一个摄像头捕获的行人图片;进一步结合紧密度进行划分后,其中的一个小聚类分裂为了两个新的小聚类,最终共得到9个子聚类。
应当说明的是,在按照摄像头对聚类类别进行划分后,进一步依据紧密度进行划分,仅为优选的实施方式,在行人重识别准确度满足要求的情况下,也可以不依据紧密度做进一步的划分,也即是说,直接将上述步骤(S11)所得的小聚类作为子聚类,完成局部伪标签的标注。
如图1所示,本实施例还包括:
(S2)构建包含特征提取网络以及与摄像头一一对应的多个分类器的监督网络,其中的特征提取网络用于提取行人图片的特征,各分类器分别根据该特征进行分类,得到行人图片属于各子聚类的概率。
本实施例所建立的监督网络如图3所示,为便于描述,图3仅示出了特征提取网络和一个分类器,无论输入监督网络的行人图片是否由该分类器对应的摄像头捕获,特征提取网络对该行人图片提取的特征都将输入至该分类器进行分类。
为便于描述,若行人图片与分类器对应的摄像头相同,则分类器的输出记为同摄像头分类概率分布,否则,记为跨摄像头分类概率分布。
本实施例的步骤(S2)所建立的监督网络中,对于任意第k个分类器,其根据特征提取网络提取的特征进行分类后,得到的行人图片属于各子聚类的概率为:
其中,表示全局伪标签为i、局部伪标签为j且由第k*个摄像头捕获的行人图片的特征;Ck由第k个摄像头对应的子聚类的类中心向量拼接而成,可选地,本实施例中,将子聚类中特征进行平均后,即得到该子聚类的类中心向量;
为预设参数,且τ>0,预设参数τ用于调节训练速度,通常情况下,为了加快训练速度,会设置一个较小的值,可选地,本实施例中,τ=0.05;
表示第k个分类器根据特征/>进行分类后,得到的行人图片/>属于各子聚类的概率;容易理解的是,当k=k*时,分类器输出为同摄像头分类概率分布,当k=k*时,分类器输出为跨摄像头分类概率分布,也即是说,本实施例针对每个摄像头建立独立的分类器,能够通过各分类器得到同摄像头分类概率分布和跨摄像头分类概率分布。
(S3)利用训练集对监督网络进行训练,以优化特征提取网络的参数;训练损失函数包括分类损失Lcross_entropy和蒸馏损失Ldistill,分别表示同摄像头分类概率分布与局部伪标签之间的差异,以及跨摄像头分类概率分布与同摄像头分类概率分布之间的差异;
可选地,本实施例中,蒸馏损失Ldistill采用交叉熵的方式进行计算,其计算表达式具体为:
其中,表示全局伪标签为i、局部伪标签为j1且由第k1个摄像头捕获的行人图片/>的特征;/>表示第k1个分类器根据特征/>进行分类后,得到的行人图片/>属于各子聚类的概率;/>表示全局伪标签为i、局部伪标签为j2且由第k2个摄像头捕获的行人图片/>的特征;N表示总样本对数,如/>这样具有相同全局标签但提取自不同摄像头捕获的行人图片的特征即为一个样本对;/>表示第k1个分类器根据特征/>进行分类后,得到的行人图片/>属于各子聚类的概率;k1≠k2;
容易理解的是,在上述蒸馏损失Ldistill的表达式中,为同摄像头分类概率分布,/>为跨摄像头分类概率分布,通过该计算表达式,能够有效保证在模型训练的过程中,跨摄像头分类概率分布将逐渐与同摄像头分类概率分布对齐,提高跨摄像头场景下的行人重识别准确度;
可选地,分类损失Lcross_entropy也通过交叉熵进行计算,其计算表达式具体为:
其中,M表示总样本数;表示行人图片的局部伪标签;/>表示全局伪标签为i、局部伪标签为j且由第k个摄像头捕获的行人图片/>的特征;/>表示第k个分类器根据特征/>进行分类后,得到的行人图片/>属于各子聚类的概率;容易理解的是,/>为同摄像头分类概率分布;
最终,本实施例进行网络训练时,损失函数表达式如下:
L=Lcross_entropy+βLdistill
β为平衡损失函数的参数,可选地,本实施例中,β=0.5;本实施例在进行网络训练时,所设计的损失函数同时包含分类损失和蒸馏损失,通过引入分类损失保证同摄像头场景下提取的行人图片特征可准确实现行人重识别,同时,通过引入蒸馏损失实现了同摄像头分类概率分布蒸馏跨摄像头分类概率分布,对齐了不同摄像头下的数据分布,使得在跨摄像头场景下,所提取的行人图片特征也可准确实现行人重识别。
(S4)重复步骤(S1)~(S3),直至特征提取网络收敛,输出特征提取网络作为行人重识别模型;
通过重复步骤(S1)~(S3),网络训练和聚类标注伪标签的过程会交替进行,在此过程中,特征提取网络的性能会不断提升,最终得到的行人重识别模型在同摄像头和跨摄像头场景下所提取的行人图片特征均可准确实现行人重识别,有效解决了无监督行人重识别中摄像头差异带来的性能下降问题。
考虑到在训练过程中,特征提取网络将中的参数将逐步优化,其所提取的特征相较于伪标签标注阶段也会有所变化,为了进一步加速模型的训练过程,本实施例还包括:
本实施例依据特征提取网络提取的特征对对应的子聚类的类中心向量进行更新,并进一步对对应分类器中的参数进行更新,能够提高分类器与特征提取网络的匹配度,加速模型的训练过程。
总体而言,本实施例通过在全局聚类的基础上,根据行人图片所属摄像头和聚类的紧密度进一步划分得到子聚类,提升了聚类的紧致密度,产生的局部伪标签更准确;在每个摄像头下设置独立的分类器进行分摄像头的分类训练,然后通过同摄像头下的分类概率分布蒸馏跨摄像头下的分类概率分布,对齐了不同摄像头下的数据分布,解决了无监督行人重识别中摄像头差异带来的性能下降问题;使用的同摄像头下的分类概率分布相比聚类产生的伪标签,为网络提供了更软化平滑的监督信号,缓解了聚类错误造成的性能下降问题,提高了网络的行人重识别性能和泛化性。
实施例2:
一种行人重识别方法,包括:
将待识别的多张目标行人图片输入至行人重识别模型,得到各目标行人图片的特征,通过特征比对识别出同一行人对应的目标行人图片,完成行人重识别;
其中,行人重识别模型由上述实施例1提供的基于跨摄像头自蒸馏的行人重识别模型建立方法建立得到。
容易理解的是,本实施例中,待识别的目标行人图片为经过预处理的行人图片,其中仅包含单个行人,且尺寸符合特征提取模型的输入要求。
由于上述实施例1所建立的行人重识别模型所提取的行人图片特征在同摄像头和跨摄像头场景下均可用于准确实现行人重识别,因此,本实施例提供的行人重识别方法,能够有效提高行人重识别的准确度。
实施例3:
一种计算机可读存储介质,包括存储的计算机程序;计算机程序被处理器执行时,控制计算机可读存储介质所在设备执行上述实施例1提供的基于跨摄像头自蒸馏的行人重识别模型建立方法,和/或,上述实施例2提供的行人重识别方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于跨摄像头自蒸馏的行人重识别模型建立方法,其特征在于,包括如下步骤:
(S1)利用特征提取网络提取行人图片的特征后,对所提取的特征进行聚类,将聚类所得的每一个类别划分为多个子聚类,将所属类别和所属子聚类分别标注为行人图片的全局伪标签和局部伪标签,得到训练集;每个子聚类中的特征提取自同一摄像头捕获的行人图片;
(S2)构建包含所述特征提取网络以及与摄像头一一对应的多个分类器的监督网络,其中的特征提取网络用于提取行人图片的特征,各分类器分别根据该特征进行分类,得到行人图片属于各子聚类的概率;若行人图片与分类器对应的摄像头相同,则分类器的输出记为同摄像头分类概率分布,否则,记为跨摄像头分类概率分布;
(S3)利用所述训练集对所述监督网络进行训练,以优化所述特征提取网络的参数;训练损失函数包括分类损失Lcross_entropy和蒸馏损失Ldistill,分别表示同摄像头分类概率分布与局部伪标签之间的差异,以及跨摄像头分类概率分布与同摄像头分类概率分布之间的差异;
(S4)重复步骤(S1)~(S3),直至所述特征提取网络收敛,输出所述特征提取网络作为行人重识别模型。
2.如权利要求1所述的基于跨摄像头自蒸馏的行人重识别模型建立方法,其特征在于,所述步骤(S1)中,将聚类所得的每一个类别划分为多个子聚类,包括:
(S11)对于每一个类别,将提取自同一个摄像头的行人图片的特征划分至一个小聚类中,得到多个小聚类;
(S12)分别计算各小聚类的紧密度,并将紧密度小于阈值λ的小聚类进一步划分为多个新的小聚类,使各个小聚类的紧密度均不小于所述阈值λ;
(S13)将最终所得的各个小聚类作为所述子聚类。
3.如权利要求2所述的基于跨摄像头自蒸馏的行人重识别模型建立方法,其特征在于,小聚类的紧密度为该小聚类中所有特征的Silhouette分数的平均值。
4.如权利要求2所述的基于跨摄像头自蒸馏的行人重识别模型建立方法,其特征在于,所述阈值λ的计算式为:
λ=mean(mSil)-0.5(mSil)
其中,mean(mSil)表示步骤(S11)中所有小聚类的紧密度的平均值,std(mSil)表示步骤(S11)中所有小聚类的紧密度的标准差。
9.一种行人重识别方法,其特征在于,包括:
将待识别的多张目标行人图片输入至行人重识别模型,得到各目标行人图片的特征,通过特征比对识别出同一行人对应的目标行人图片,完成行人重识别;
其中,所述行人重识别模型由权利要求1~8任一项所述的基于跨摄像头自蒸馏的行人重识别模型建立方法建立得到。
10.一种计算机可读存储介质,其特征在于,包括存储的计算机程序;所述计算机程序被处理器执行时,控制所述计算机可读存储介质所在设备执行权利要求1~8任一项所述的基于跨摄像头自蒸馏的行人重识别模型建立方法,和/或,权利要求9所述的行人重识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310176476.XA CN116229512A (zh) | 2023-02-27 | 2023-02-27 | 基于跨摄像头自蒸馏的行人重识别模型建立方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310176476.XA CN116229512A (zh) | 2023-02-27 | 2023-02-27 | 基于跨摄像头自蒸馏的行人重识别模型建立方法及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116229512A true CN116229512A (zh) | 2023-06-06 |
Family
ID=86580173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310176476.XA Pending CN116229512A (zh) | 2023-02-27 | 2023-02-27 | 基于跨摄像头自蒸馏的行人重识别模型建立方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116229512A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935447A (zh) * | 2023-09-19 | 2023-10-24 | 华中科技大学 | 基于自适应师生结构的无监督域行人重识别方法及系统 |
-
2023
- 2023-02-27 CN CN202310176476.XA patent/CN116229512A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935447A (zh) * | 2023-09-19 | 2023-10-24 | 华中科技大学 | 基于自适应师生结构的无监督域行人重识别方法及系统 |
CN116935447B (zh) * | 2023-09-19 | 2023-12-26 | 华中科技大学 | 基于自适应师生结构的无监督域行人重识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414368B (zh) | 一种基于知识蒸馏的无监督行人重识别方法 | |
CN112418117B (zh) | 一种基于无人机图像的小目标检测方法 | |
CN107247956B (zh) | 一种基于网格判断的快速目标检测方法 | |
CN107145862B (zh) | 一种基于霍夫森林的多特征匹配多目标跟踪方法 | |
CN110414462A (zh) | 一种无监督的跨域行人重识别方法及系统 | |
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN109871885A (zh) | 一种基于深度学习和植物分类学的植物识别方法 | |
CN111506773A (zh) | 一种基于无监督深度孪生网络的视频去重方法 | |
TWI780567B (zh) | 對象再識別方法、儲存介質及電腦設備 | |
CN106682681A (zh) | 一种基于相关反馈的识别算法自动改进方法 | |
CN110580499B (zh) | 基于众包重复标签的深度学习目标检测方法及系统 | |
CN110728216A (zh) | 一种基于行人属性自适应学习的无监督行人再识别方法 | |
CN109815920A (zh) | 基于卷积神经网络和对抗卷积神经网络的手势识别方法 | |
CN105930792A (zh) | 一种基于视频局部特征字典的人体动作分类方法 | |
CN108073940B (zh) | 一种非结构化环境中的3d目标实例物体检测的方法 | |
CN104680193A (zh) | 基于快速相似性网络融合算法的在线目标分类方法与系统 | |
CN113177612A (zh) | 一种基于cnn少样本的农业病虫害图像识别方法 | |
CN105654054A (zh) | 基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法 | |
CN111209935A (zh) | 基于自适应域转移的无监督目标检测方法及系统 | |
CN116229512A (zh) | 基于跨摄像头自蒸馏的行人重识别模型建立方法及其应用 | |
CN115953630A (zh) | 一种基于全局-局部知识蒸馏的跨域小样本图像分类方法 | |
CN115862055A (zh) | 基于对比学习和对抗训练的行人重识别方法及装置 | |
CN111444816A (zh) | 一种基于Faster RCNN的多尺度密集行人检测方法 | |
CN114417975A (zh) | 基于深度pu学习与类别先验估计的数据分类方法及系统 | |
CN113989556A (zh) | 一种小样本医学影像分类方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |