CN112507901A - 一种基于伪标签自纠正的无监督行人重识别方法 - Google Patents
一种基于伪标签自纠正的无监督行人重识别方法 Download PDFInfo
- Publication number
- CN112507901A CN112507901A CN202011472231.4A CN202011472231A CN112507901A CN 112507901 A CN112507901 A CN 112507901A CN 202011472231 A CN202011472231 A CN 202011472231A CN 112507901 A CN112507901 A CN 112507901A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- picture
- cluster
- target
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于伪标签自纠正的无监督行人重识别方法,该方法包括:构建源域数据集、目标域数据集和目标域测试集,构建算法模型M,使用源域数据集对算法模型M进行预训练,使用算法模型M对目标域数据集提取第一目标特征,融合第一目标特征得到第二目标特征,使用第二目标特征进行聚类得到伪标签,对伪标签的质量进行评估并对质量差的聚簇进行纠正,将得到的结果作为伪标签重复训练算法模型M,使用算法模型M对目标域测试集提取第二目标特征并进行图像匹配,得到行人重识别结果。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于伪标签自纠正的无监督行人重识别方法。
背景技术
一般而言,行人重识别的任务是给定特定行人的一张图片或一段视频,检索出该行人在不同摄像头下的图片或者视频的过程。行人重识别技术可以为自动化监控及监控视频分析提供有效帮助,极大提高监控视频信息检索的效率。然而,同一行人在不同摄像头下的图片有着衣着、光线强弱、遮挡、姿态变换、图片画质等等差异。这给行人重识别算法带来了很大的挑战。同时,公共场所中,大量行人的穿着较为类似,视觉效果很接近,这又大大增加了行人重识别任务的难度。
目前,主要的行人重识别方法主要分为有监督学习、半监督或无监督学习等几类。有监督学习使用已有类别标签的行人数据集进行监督式训练,训练得到的模型能够较为准确的匹配出一个行人的图片。这类方法的匹配准确率较高,但依赖于标签,而对海量视频里面的行人进行标记需要消耗大量的资源。另外,有监督学习的方法也难以直接迁移到大量无标签的数据上使用。无监督学习的方法使用无标签的数据进行训练,不需要对行人图片进行标记,可以节省大量人力资源,但是这类方法的效果相比有监督的方法有较大差距,也难以在实际中应用。因此,无监督学习中更为常见的做法是跨域无监督学习。跨域无监督学习即使用一个有标签的数据(源域)以及无标签的数据(目标域)进行训练,使得算法在无监督的数据上表现良好。由于不同数据域之间的风格差异较大,在源域上经过训练好的模型直接迁移到目标域上的表现并不好。因而对于跨域无监督行人重识别任务来说,主要的挑战在于如何使用无监督的方法将源域的标签信息有效的迁移到目标域上,使模型在目标域的表现良好。
大部分跨域无监督行人重识别方法都基于伪标签估计来进行训练。但是这种方法严重依赖于伪标签的质量,算法的性能对于伪标签的噪声较为敏感。
发明内容
本发明的目的是为了解决现有技术中基于伪标签估计的无监督行人重识别算法的上述缺陷,提供一种基于伪标签自纠正的无监督行人重识别方法。
本发明的目的可以通过采取如下技术方案达到:
一种基于伪标签自纠正的无监督行人重识别方法,基于分而治之的思想,分别处理伪标签估计带来的两种常见的噪声,从而提高行人重识别算法在无标签的目标域数据集上的效果。本发明使用源域数据集预训练算法模型M,随后使用算法模型M对目标域数据集的行人图片提取特征,通过计算跨摄像头行人图片对的特征距离作为聚类等方法获取目标域数据集的伪标签,随后对聚类得到的结果使用质量评估公式进行质量评估,对含有大量噪声的聚簇进行重聚类,降低噪声规模,生成更高质量的伪标签供算法模型M进行训练。在特征学习方面,本发明使用融合网络融合不同尺度的特征以学习一个更为鲁棒的特征来表征每个行人的图片。
一种基于伪标签自纠正的无监督行人重识别方法,所述的无监督行人重识别方法包括以下步骤:
S1、构建源域数据集、目标域数据集和目标域测试集,构建算法模型M,使用源域数据集的标签数据对算法模型M进行预训练,其中,目标域测试集包括查询库和图像库;
S2、使用算法模型M对目标域数据集的图片提取特征图,将特征图进行分割,得到多个特征块,对每个特征块进行全局平均池化,将得到的所有特征拼接起来,得到第一目标特征;
S3、对步骤S2中得到的第一目标特征输入到融合网络中,得到第二目标特征;
S4、使用步骤S3中获得的所有行人图片的第二目标特征作为聚类算法的输入,计算所有行人图片的第二目标特征的欧氏距离,根据不同摄像头的图片对的第二目标特征的欧氏距离,通过公式计算得到聚类参数进行聚类得到伪标签;
S5、根据当前训练轮次判断是否需要对步骤S4中获得的伪标签进行自纠正,如需要进行自纠正,则评估步骤S4得到的聚簇的质量,通过对质量分数较低的聚簇再聚类,将最终获得的聚类结果作为伪标签;
S6、使用步骤S4或S5得到的伪标签对算法模型M继续训练;
S7、计算softmax交叉熵损失函数的值并判断该值是否收敛至Ls以下,若是,则执行步骤S8,否则重复进行步骤S2-S6,直至softmax交叉熵损失函数的值收敛至Ls以下;
S8、将目标域测试集的图像输入到经过训练的算法模型M中,提取得到第二目标特征,将目标域测试集的查询库中所有行人图片的第二目标特征与目标域测试集的图像库中的所有行人图片的第二目标特征计算欧氏距离,根据欧氏距离的大小对目标域测试集的图像库中所有图片进行排序,输出对应顺序的图片作为重识别结果。
进一步地,所述的步骤S1过程如下:
S11、构建源域数据集:采集源域场景中不同监控摄像头的所有行人图片,通过人工或机器标记的方式,为每张行人图片标记一个特定的行人身份ID,每张行人图片对应的行人身份ID就是该行人图片的标签,标记结束后,得到的源域数据集以{Xs,Ys,Ps}表示,其中Xs表示源域中的所有行人图片,Ys表示行人图片的标签,Ps表示源域数据集的行人个数;
S12、构建目标域数据集:目标域数据集以{Xt}表示,其中Xt为从目标域场景中采集得到的所有行人图片;
S13、构建目标域测试集:采集目标域场景中不同监控摄像头的行人图片,通过人工或机器标记的方式,为每张行人图片标记一个特定的行人身份ID,每张行人图片对应的行人身份ID就是该行人图片的标签。对每个行人身份ID分别采样Nq张行人图片,构成目标域测试集的查询库Q,而剩余的行人图片则构成目标域测试集的图像库G;
S13、构建算法模型M,算法模型M的基本网络结构采用常见的分类网络模型的基本结构,包括但不限于ResNet、ResNet-IBN等通用分类网络模型,算法模型M将删除通用分类网络模型的最后一层全连接分类层,以源域数据集的行人个数Ps作为输出的类别数,构建新的全连接分类层。
S14、使用构建的源域数据集{Xs,Ys,Ps}对算法模型M进行预训练。
所述的步骤S14过程如下:
将行人图片作为算法模型M的输入,输出该行人图片分别属于源域数据集中不同行人的概率,根据行人图片对应的标签,使用softmax交叉熵损失函数以及三元组损失函数作为训练过程的约束条件,训练算法模型M直至两个损失函数的和收敛至0.1以下,使算法模型M拟合于源域数据集,其中,所述的softmax交叉熵损失函数表示为:
上式中,P表示一批数据中行人的个数,K表示对每个行人采样的图片数量,表示第i个行人的第a张图片,表示全连接分类层对第i个行人所属的行人ID的分类权重,Ps表示源域数据集中的行人个数,c表示行人ID,表示全连接分类层对行人ID为c的分类权重;
所述的三元组损失函数表示为:
进一步地,所述的步骤S2的过程如下:
S21、将目标域数据集的行人图片输入算法模型M,通过计算得到大小为C x H x W的特征图;
S22、循环I*次,每次将该特征图依次切割为I个尺寸为C x H/I*x W的特征块,其I*为特征块颗粒度,切割后得到的特征块个数为:FN=(1^2+2^2+...+I*^2);
S23、将所有特征图进行全局平均池化得到FN个尺寸为C x 1x 1的特征向量;
S24、将得到的FN个特征向量拼接起来得到第一目标特征f1,其尺寸为(FN x C)x1x 1。
进一步地,所述的步骤S3的过程如下:
将前述步骤S2得到的第一目标特征f1,输入到一个融合网络中,输出得到第二目标特征f2,融合网络由多层全连接网络或卷积神经网络组成,其输入维度为FN x C,输出维度为F。
进一步地,所述的步骤S4的过程如下:
S41、计算所有行人图片两两之间的第二目标特征f2的欧氏距离,得到距离矩阵,作为包括k-means和DBSCAN在内的聚类方法的输入参数,第二目标特征之间的欧氏距离的计算公式如下:
d(xi,xj)=||f2i-f2j||2
上式中,f2i、f2j是将行人图片xi、xj输入算法模型M提取得到的第二目标特征;
S42、从得到的距离矩阵中,提取不同摄像头的行人图片对之间的距离,并对所有的跨摄像头行人图片对的距离大小进行排序,取最小的前δN个距离的均值作为聚类算法的聚类参数Te,Te的计算公式如下:
S43、将距离矩阵和Te作为聚类参数输入到聚类算法中,得到聚类结果,聚类结果将目标域数据集中的所有行人图片划分为Ct个聚簇;
S44、为得到的聚类结果中的每个聚簇分配一个聚簇id,其中,聚簇id从0开始递增至Ct-1,将每个图片所属的聚簇id作为该图片的伪标签以进行后续训练。
进一步地,所述的步骤S5的过程如下
S51、根据训练策略决定当前是否需要对步骤S4中获得的伪标签进行自纠正,其中,训练策略包括以下其中一种:在训练的前If轮进行自纠正、在训练的后Ib轮进行自纠正、轮流进行自纠正或不纠正、超过Cε以上的聚簇质量分数低于Sε则进行自纠正,对步骤S4中得到的聚类结果进行质量评估,质量评估的计算公式如下:
其中,Nc表示第c个聚簇的行人图片数,xia、xja表示第c个聚簇中的第ia、ja张图片,且满足ia≠ja,aia表示行人图片xia的类内距离均值;Nt表示目标域数据集的总行人图片数,xie表示不属于第c个聚簇的剩余行人图片,bia表示行人图片xia的类间距离均值;通过对聚簇c的所有行人图片都计算类内距离均值以及类间距离均值,进而得以计算对应图片的轮廓系数;通过对第c个聚簇的所有行人图片的轮廓系数求均值,得到该聚簇的质量评估分数Sc;
S52、通过对每个聚簇计算Sc,得到每个聚簇的自评估质量分数;
S53、选取自评估质量分数低于Sε的Ck个聚簇,在这Ck个聚簇内部进行再聚类,从而将Ck个聚簇重新切割为Cm个小聚簇,其中,Cm>=Ck;
S54、将得到的Cm+Ct-Ck个聚簇作为最终的聚类结果,为每个聚簇分配一个聚簇id,聚簇id从0开始递增至Cm+Ct-Ck-1,将每个行人图片所在的聚簇id作为该行人图片的伪标签,用于进行后续的训练。
进一步地,所述的步骤S6的过程如下
S61、获取每个聚簇的中心特征,对每个聚簇求中心特征的具体方式为:将一个聚簇中的所有行人图片输入到算法模型M中,提取对应的第二目标特征,对该聚簇中所有行人图片的第二目标特征按维度求均值;
S62、将每个行人图片输入到算法模型M中,提取对应的第二目标特征f2,然后将其第二特征向量与所有聚簇的中心特征作为softmax交叉熵损失函数的输入,计算相应的softmax交叉熵损失函数的值,在当前步骤中,softmax交叉熵损失函数的计算公式如下:
上式中,Pc表示一批图片中共采样了Pc个聚簇的行人图片,Kc表示对每个聚簇采样的行人图片数,表示第c个聚簇的中心特征的转置,表示聚簇id为t的聚簇的中心特征的转置,xac表示将第c个聚簇采样的第ac张行人图片输入算法模型M所得到的第二目标特征,表示将每个聚簇的中心特征与行人图片的第二目标特征按维度相乘并相加,得到行人图片分别属于每个聚簇的概率,该softmax交叉熵损失函数可以约束算法模型M提取的行人图片的第二目标特征属于其对应的聚簇的概率最大化;
S63、计算softmax交叉熵损失函数的值作为损失值,然后通过反向传播,更新算法模型M的参数;
S64、在训练算法模型M的过程中,每个行人图片的第二目标特征f2将被用于更新该行人图片所属的聚簇的中心特征,更新的计算公式如下:
进一步地,所述的步骤S8的过程如下:
将目标域测试集的查询库Q和图像库G中所有行人图片输入到经过步骤S7训练得到的算法模型M中提取第二目标特征,计算查询库Q的每张行人图片的第二目标特征与图像库G中的所有行人图片的第二目标特征的欧氏距离,按欧氏距离从小到大的顺序将图像库G中的所有行人图片排序,得到最终的行人重识别结果。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明在聚类时采用了跨摄像头行人图片对的特征距离作为聚类参数,使得同一行人在不同摄像头的图片得以被聚为一类,在训练的初始阶段,提供相对准确的伪标签供算法模型M学习;
(2)本发明在训练过程中,采用自评估的方式,可挑选出质量较差的聚簇,通过对质量较差的聚簇进行重新聚类,可以提供更为准确的伪标签供算法模型M学习;
(3)在特征学习方面,本发明通过使用融合网络融合不同尺度的特征信息,使算法模型M得以提取出一个更为鲁棒的特征来表征每一个行人的图片。
附图说明
图1是本发明实施例公开的一种基于伪标签自纠正的无监督行人重识别方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例通过如图1所示的流程进行实现,如图所示,一种基于伪标签自纠正的无监督行人重识别方法包括以下步骤:
步骤S1的具体实施过程如下:
构建源域数据集、目标域数据集、目标域测试集以及算法模型M,使用源域数据集预训练算法模型M。其中,该步骤S1
构建源域数据集:采集源域场景中不同监控摄像头的所有行人图片,通过人工或机器标记的方式,为每张行人图片标记一个特定的行人身份ID,每张行人图片对应的行人身份ID就是该行人图片的标签,标记结束后,得到的源域数据集以{Xs,Ys,Ps}表示,其中Xs表示源域中的所有行人图片,Ys表示行人图片的标签,Ps表示源域数据集的行人个数。
构建目标域数据集:目标域数据集以{Xt}表示,其中Xt为从目标域场景中采集得到的所有行人图片。构建目标域测试集:采集目标域场景中不同监控摄像头的行人图片,通过人工或机器标记的方式,为每张行人图片标记一个特定的行人身份ID,每张行人图片对应的行人身份ID就是该行人图片的标签。对每个行人身份ID分别采样Nq张行人图片,构成目标域测试集的查询库Q,而剩余的行人图片则构成目标域测试集的图像库G。
构建算法模型M:算法模型M的基本网络结构采用常见的分类网络模型的基本结构,包括但不限于ResNet、ResNet-IBN等通用分类网络模型,算法模型M将删除通用分类网络模型的最后一层全连接分类层,以源域数据集的行人个数Ps作为输出的类别数,构建新的全连接分类层。
使用源域数据集{Xs,Ys,Ps}对算法模型M进行预训练。预训练过程中,算法模型M将行人图片作为输入,输出该行人图片分别属于源域数据集中不同行人的概率,根据行人图片对应的标签,使用softmax交叉熵损失函数以及三元组损失函数作为训练过程的约束条件,训练算法模型M直至两个损失函数的和收敛至0.1以下,使算法模型M拟合于源域数据集,其中,所述的softmax交叉熵损失函数表示为:
上式中,P表示一批数据中行人的个数,K表示对每个行人采样的图片数量,表示第i个行人的第a张图片,表示全连接分类层对第i个行人所属的行人ID的分类权重,Ps表示源域数据集中的行人个数,c表示行人ID,表示全连接分类层对行人ID为c行人图片的分类权重。
所述的三元组损失函数表示为:
步骤S2的具体实施过程如下:
使用算法模型M对目标域数据集的行人图片提取第一目标特征。将目标域数据集的行人图片输入算法模型M,通过计算得到大小为C x H x W的特征图。随后循环I*次,每次将该特征图依次切割为I*个尺寸为C x H/I*x W的特征块,其I*为特征块颗粒度,切割后得到的特征块个数为:FN=(1^2+2^2+...+I*^2)。将所有特征图进行全局平均池化得到FN个尺寸为C x 1x 1的特征向量。最后,将得到的FN个特征向量拼接起来得到第一目标特征f1,其尺寸为(FN x C)x 1x 1。
步骤S3的具体实施过程如下:
将第一目标特征f1,输入到一个融合网络中,输出得到第二目标特征f2。融合网络可由多层全连接网络或卷积神经网络组成,其输入维度为FN x C,输出维度为F。
步骤S4的具体实施过程如下:
计算目标域数据集中所有行人图片两两之间的第二目标特征f2的欧氏距离,得到距离矩阵,作为包括k-means和DBSCAN在内的聚类方法的输入参数,第二目标特征之间的欧氏距离的计算公式如下:
d(xi,xj)=||f2i-f2j||2
其中f2i、f2j是将行人图片xi、xj输入算法模型M提取得到的第二目标特征。
从得到的距离矩阵中,提取不同摄像头的行人图片对之间的距离,并对所有的跨摄像头行人图片对的距离大小进行排序,取最小的前δN个距离的均值作为聚类算法的聚类参数Te,Te的计算公式如下:
将距离矩阵和Te作为聚类参数输入到聚类算法中,得到聚类结果,聚类结果将目标域数据集中的所有行人图片划分为Ct个聚簇。为得到的聚类结果中的每个聚簇分配一个聚簇id(id从0开始递增至Ct-1),将每个图片所属的聚簇的id作为该图片的伪标签以进行后续训练。
将跨摄像头行人图片对的距离作为聚类阈值的参考因素时,可以将属于同一标签的跨摄像头行人图片尽可能的归为一类,从而提高聚类结果的召回率。
步骤S5的具体实施过程如下:
根据训练策略决定当前是否需要对步骤S4中获得的伪标签进行自纠正。当前训练策略为:轮流进行自纠正或不纠正,即若训练轮次为奇数,则进行自纠正,若为偶数,则不进行自纠正,直接执行步骤S6。若进行自纠正,则对步骤S4中得到的聚类结果进行质量评估,质量评估的相关计算公式如下:
其中,Nc表示第c个聚簇的行人图片数,xia、xja表示第c个聚簇中的第ia、ja张图片,且满足ia≠ja,aia表示行人图片xia的类内距离均值;Nt表示目标域数据集的总行人图片数,xie表示不属于第c个聚簇的剩余行人图片,bia表示行人图片xia的类间距离均值;通过对聚簇c的所有行人图片都计算类内距离均值以及类间距离均值,进而得以计算对应行人图片的轮廓系数;通过对第c个聚簇的所有行人图片的轮廓系数求均值,得到该聚簇的质量评估分数Sc。通过对每个聚簇计算Sc,得到每个聚簇的自评估质量分数。选取自评估质量分数低于Sε的Ck个聚簇,在这Ck个聚簇内部进行再聚类,从而将Ck个聚簇重新切割为Cm个小聚簇,其中,Cm>=Ck。将得到的Cm+Ct-Ck个聚簇作为最终的聚类结果,为每个聚簇分配一个聚簇id(id从0开始递增至Cm+Ct-Ck-1),将每个行人图片所在的聚簇id作为该行人图片的伪标签,用于进行后续的训练。
通过计算所有行人图片的类内距离均值aia和类间距离均值bia,可以得到每张行人图片与其所属类簇的其他行人图片的紧凑度。通过计算所有聚簇的质量评估分数Sc,可以筛选出质量不好的聚簇,通过对质量不好的聚簇进行再聚类,可以得到准确率较高的聚类结果,从而得到更为准确的伪标签。
步骤S6的具体实施过程如下:
计算每个聚簇的中心特征,对每个聚簇计算中心特征的具体方式为:将一个聚簇中的所有行人图片输入到算法模型M中,提取对应的第二目标特征,对该聚簇中所有行人图片的第二目标特征按维度求均值。随后,将每个行人图片输入到算法模型M中,提取对应的第二目标特征f2,然后将其第二特征向量与所有聚簇的中心特征作为softmax交叉熵损失函数的输入,计算相应的softmax交叉熵损失函数的值。在当前步骤中,softmax交叉熵损失函数的计算公式如下:
其中Pc表示一批图片中共采样了Pc个聚簇的行人图片,Kc表示对每个聚簇采样的行人图片数,Kc表示第c个聚簇的中心特征,而表示第c个聚簇的中心特征的转置。同样的,Vt表示聚簇id为t的聚簇的中心特征,而表示聚簇id为t的聚簇的中心特征的转置,xac表示将第c个聚簇采样的第ac张行人图片输入算法模型M所得到的第二目标特征。表示将每个聚簇的中心特征与行人图片的第二目标特征按维度相乘并相加,得到行人图片分别属于每个聚簇的概率。而整个softmax交叉熵损失函数的可以约束算法模型M提取的行人图片的第二目标特征属于其对应的聚簇的概率最大化。通过计算softmax交叉熵损失函数的值作为损失值,然后使用反向传播的方式将算法模型M的参数的梯度回传,更新算法模型M的参数。同时,在训练算法模型M的过程中,每个行人图片的第二目标特征f2将被用于更新该行人图片所属的聚簇的中心特征,更新的计算公式如下:
步骤S7的具体实施过程如下:
使用目标域数据集对算法模型M进行多轮训练,直到前述步骤S6中所述的softmax交叉熵损失函数的值收敛至Ls以下。每一轮训练过程包含以下几个步骤:
(1)执行前述步骤S2,为目标域数据集的行人图片提取第一目标特征;
(2)执行前述步骤S3,得到目标数据集每张行人图片的第二目标特征;
(3)执行前述步骤S4,对于目标域数据集每张行人图片,计算其第二目标特征与目标域数据集所有其他行人图片的第二目标特征的欧氏距离,获得距离矩阵,并根据跨摄像头行人图片对的欧氏距离计算聚类参数,通过聚类,获得聚类结果;
(4)执行前述步骤S5,根据当前训练策略,判断是否要进行伪标签自纠正,若当前训练轮次为奇数,则进行自纠正;
(5)执行前述步骤S6,使用获得的聚类结果作为伪标签训练算法模型M,计算softmax交叉熵损失函数的值。若该值收敛至Ls以下,则结束训练,当前步骤S7结束;若该值未满足收敛条件,则从(1)开始新一轮次的训练。
步骤S8的具体实施过程如下:
使用算法模型M,前述步骤S1中得到的目标域数据集的查询库Q和图像库G的所有行人图片提取第二目标特征,计算查询库Q的每张行人图片的第二目标特征与图像库G中的所有行人图片的第二目标特征的欧氏距离,按欧氏距离从小到大的顺序将图像库G中的所有行人图片排序,得到最终的行人重识别结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种基于伪标签自纠正的无监督行人重识别方法,其特征在于,所述的无监督行人重识别方法包括以下步骤:
S1、构建源域数据集、目标域数据集和目标域测试集,构建算法模型M,使用源域数据集的标签数据对算法模型M进行预训练,其中,目标域测试集包括查询库和图像库;
S2、使用算法模型M对目标域数据集的图片提取特征图,将特征图进行分割,得到多个特征块,对每个特征块进行全局平均池化,将得到的所有特征拼接起来,得到第一目标特征;
S3、对步骤S2中得到的第一目标特征输入到融合网络中,得到第二目标特征;
S4、使用步骤S3中获得的所有行人图片的第二目标特征作为聚类算法的输入,计算所有行人图片的第二目标特征的欧氏距离,根据不同摄像头的图片对的第二目标特征的欧氏距离,通过公式计算得到聚类参数进行聚类得到伪标签;
S5、根据当前训练轮次判断是否需要对步骤S4中获得的伪标签进行自纠正,如需要进行自纠正,则评估步骤S4得到的聚簇的质量,通过对质量分数较低的聚簇再聚类,将最终获得的聚类结果作为伪标签;
S6、使用步骤S4或S5得到的伪标签对算法模型M继续训练;
S7、计算softmax交叉熵损失函数的值并判断该值是否收敛至Ls以下,若是,则执行步骤S8,否则重复进行步骤S2-S6,直至softmax交叉熵损失函数的值收敛至Ls以下;
S8、将目标域测试集的图像输入到经过训练的算法模型M中,提取得到第二目标特征,将目标域测试集的查询库中所有行人图片的第二目标特征与目标域测试集的图像库中的所有行人图片的第二目标特征计算欧氏距离,根据欧氏距离的大小对目标域测试集的图像库中所有图片进行排序,输出对应顺序的图片作为重识别结果。
2.根据权利要求1所述的一种基于伪标签自纠正的无监督行人重识别方法,其特征在于,所述的步骤S1过程如下:
S11、构建源域数据集:采集源域场景中不同监控摄像头的所有行人图片,通过人工或机器标记的方式,为每张行人图片标记一个特定的行人身份ID,每张行人图片对应的行人身份ID就是该行人图片的标签,标记结束后,得到的源域数据集以{Xs,Ys,Ps}表示,其中Xs表示源域中的所有行人图片,Ys表示行人图片的标签,Ps表示源域数据集的行人个数;
S12、构建目标域数据集:目标域数据集以{Xt}表示,其中Xt为从目标域场景中采集得到的所有行人图片;
S13、构建目标域测试集:采集目标域场景中不同监控摄像头的行人图片,通过人工或机器标记的方式,为每张行人图片标记一个特定的行人身份ID,每张行人图片对应的行人身份ID就是该行人图片的标签。对每个行人身份ID分别采样Nq张行人图片,构成目标域测试集的查询库Q,而剩余的行人图片则构成目标域测试集的图像库G;
S13、构建算法模型M,算法模型M的基本网络结构采用ResNet或ResNet-IBN,其中,ResNet或ResNet-IBN的网络结构中删除最后一层全连接分类层,并以源域数据集的行人个数Ps作为输出的类别数,构建新的全连接分类层;
S14、使用构建的源域数据集{Xs,Ys,Ps}对算法模型M进行预训练。
3.根据权利要求2所述的一种基于伪标签自纠正的无监督行人重识别方法,其特征在于,所述的步骤S14过程如下:
将行人图片作为算法模型M的输入,输出该行人图片分别属于源域数据集中不同行人的概率,根据行人图片对应的标签,使用softmax交叉熵损失函数以及三元组损失函数作为训练过程的约束条件,训练算法模型M直至两个损失函数的和收敛至0.1以下,使算法模型M拟合于源域数据集,其中,所述的softmax交叉熵损失函数表示为:
上式中,P表示一批数据中行人的个数,K表示对每个行人采样的图片数量,表示第i个行人的第a张图片,Wi T表示全连接分类层对第i个行人所属的行人ID的分类权重,Ps表示源域数据集中的行人个数,c表示行人ID,表示全连接分类层对行人ID为c的分类权重;
所述的三元组损失函数表示为:
4.根据权利要求1所述的一种基于伪标签自纠正的无监督行人重识别方法,其特征在于,所述的步骤S2的过程如下:
S21、将目标域数据集的行人图片输入算法模型M,通过计算得到大小为CxHxW的特征图;
S22、循环I*次,每次将该特征图依次切割为I个尺寸为CxH/I*xW的特征块,其I*为特征块颗粒度,切割后得到的特征块个数为:FN=(1^2+2^2+...+I*^2);
S23、将所有特征图进行全局平均池化得到FN个尺寸为Cx1x1的特征向量;
S24、将得到的FN个特征向量拼接起来得到第一目标特征f1,其尺寸为(FNxC)x1x1。
5.根据权利要求1所述的一种基于伪标签自纠正的无监督行人重识别方法,其特征在于,所述的步骤S3的过程如下:
将前述步骤S2得到的第一目标特征f1,输入到一个融合网络中,输出得到第二目标特征f2,融合网络由多层全连接网络或卷积神经网络组成,其输入维度为FNxC,输出维度为F。
6.根据权利要求1所述的一种基于伪标签自纠正的无监督行人重识别方法,其特征在于,所述的步骤S4的过程如下:
S41、计算所有行人图片两两之间的第二目标特征f2的欧氏距离,得到距离矩阵,作为包括k-means和DBSCAN在内的聚类方法的输入参数,第二目标特征之间的欧氏距离的计算公式如下:
d(xi,xj)=||f2i-f2j||2
上式中,f2i、f2j是将行人图片xi、xj输入算法模型M提取得到的第二目标特征;
S42、从得到的距离矩阵中,提取不同摄像头的行人图片对之间的距离,并对所有的跨摄像头行人图片对的距离大小进行排序,取最小的前δN个距离的均值作为聚类算法的聚类参数Te,Te的计算公式如下:
S43、将距离矩阵和Te作为聚类参数输入到聚类算法中,得到聚类结果,聚类结果将目标域数据集中的所有行人图片划分为Ct个聚簇;
S44、为得到的聚类结果中的每个聚簇分配一个聚簇id,其中,聚簇id从0开始递增至Ct-1,将每个图片所属的聚簇id作为该图片的伪标签以进行后续训练。
7.根据权利要求6所述的一种基于伪标签自纠正的无监督行人重识别方法,其特征在于,所述的步骤S5的过程如下
S51、根据训练策略决定当前是否需要对步骤S4中获得的伪标签进行自纠正,其中,训练策略包括以下其中一种:在训练的前If轮进行自纠正、在训练的后Ib轮进行自纠正、轮流进行自纠正或不纠正、超过Cε以上的聚簇质量分数低于Sε则进行自纠正,对步骤S4中得到的聚类结果进行质量评估,质量评估的计算公式如下:
其中,Nc表示第c个聚簇的行人图片数,xia、xja表示第c个聚簇中的第ia、ja张图片,且满足ia≠ja,aia表示行人图片xia的类内距离均值;Nt表示目标域数据集的总行人图片数,xie表示不属于第c个聚簇的剩余行人图片,bia表示行人图片xia的类间距离均值;通过对聚簇c的所有行人图片都计算类内距离均值以及类间距离均值,进而得以计算对应图片的轮廓系数;通过对第c个聚簇的所有行人图片的轮廓系数求均值,得到该聚簇的质量评估分数Sc;
S52、通过对每个聚簇计算Sc,得到每个聚簇的自评估质量分数;
S53、选取自评估质量分数低于Sε的Ck个聚簇,在这Ck个聚簇内部进行再聚类,从而将Ck个聚簇重新切割为Cm个小聚簇,其中,Cm>=Ck;
S54、将得到的Cm+Ct-Ck个聚簇作为最终的聚类结果,为每个聚簇分配一个聚簇id,聚簇id从0开始递增至Cm+Ct-Ck-1,将每个行人图片所在的聚簇id作为该行人图片的伪标签,用于进行后续的训练。
8.根据权利要求7所述的一种基于伪标签自纠正的无监督行人重识别方法,其特征在于,所述的步骤S6的过程如下
S61、获取每个聚簇的中心特征,对每个聚簇求中心特征的具体方式为:将一个聚簇中的所有行人图片输入到算法模型M中,提取对应的第二目标特征,对该聚簇中所有行人图片的第二目标特征按维度求均值;
S62、将每个行人图片输入到算法模型M中,提取对应的第二目标特征f2,然后将其第二特征向量与所有聚簇的中心特征作为softmax交叉熵损失函数的输入,计算相应的softmax交叉熵损失函数的值,在当前步骤中,softmax交叉熵损失函数的计算公式如下:
上式中,Pc表示一批图片中共采样了Pc个聚簇的行人图片,Kc表示对每个聚簇采样的行人图片数,表示第c个聚簇的中心特征的转置,表示聚簇id为t的聚簇的中心特征的转置,xac表示将第c个聚簇采样的第ac张行人图片输入算法模型M所得到的第二目标特征,表示将每个聚簇的中心特征与行人图片的第二目标特征按维度相乘并相加,得到行人图片分别属于每个聚簇的概率;
S63、计算softmax交叉熵损失函数的值作为损失值,然后通过反向传播,更新算法模型M的参数;
S64、在训练算法模型M的过程中,每个行人图片的第二目标特征f2将被用于更新该行人图片所属的聚簇的中心特征,更新的计算公式如下:
9.根据权利要求8所述的一种基于伪标签自纠正的无监督行人重识别方法,其特征在于,所述的步骤S8的过程如下:
将目标域测试集的查询库Q和图像库G中所有行人图片输入到经过步骤S7训练得到的算法模型M中提取第二目标特征,计算查询库Q的每张行人图片的第二目标特征与图像库G中的所有行人图片的第二目标特征的欧氏距离,按欧氏距离从小到大的顺序将图像库G中的所有行人图片排序,得到最终的行人重识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011472231.4A CN112507901B (zh) | 2020-12-14 | 2020-12-14 | 一种基于伪标签自纠正的无监督行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011472231.4A CN112507901B (zh) | 2020-12-14 | 2020-12-14 | 一种基于伪标签自纠正的无监督行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507901A true CN112507901A (zh) | 2021-03-16 |
CN112507901B CN112507901B (zh) | 2022-05-24 |
Family
ID=74973250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011472231.4A Active CN112507901B (zh) | 2020-12-14 | 2020-12-14 | 一种基于伪标签自纠正的无监督行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507901B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966647A (zh) * | 2021-03-25 | 2021-06-15 | 东北林业大学 | 一种基于逐层聚类及增强判别的行人重识别方法 |
CN113378632A (zh) * | 2021-04-28 | 2021-09-10 | 南京大学 | 一种基于伪标签优化的无监督域适应行人重识别算法 |
CN113642547A (zh) * | 2021-10-18 | 2021-11-12 | 中国海洋大学 | 一种基于密度聚类的无监督域适应人物重识别方法及系统 |
CN113780578A (zh) * | 2021-09-08 | 2021-12-10 | 北京百度网讯科技有限公司 | 模型训练方法、装置、电子设备及可读存储介质 |
CN113822262A (zh) * | 2021-11-25 | 2021-12-21 | 之江实验室 | 一种基于无监督学习的行人重识别方法 |
CN113989596A (zh) * | 2021-12-23 | 2022-01-28 | 深圳佑驾创新科技有限公司 | 图像分类模型的训练方法及计算机可读存储介质 |
CN114550215A (zh) * | 2022-02-25 | 2022-05-27 | 北京拙河科技有限公司 | 一种基于迁移学习的目标检测方法及系统 |
CN114913372A (zh) * | 2022-05-10 | 2022-08-16 | 电子科技大学 | 一种基于多模态数据集成决策的目标识别算法 |
CN115273148A (zh) * | 2022-08-03 | 2022-11-01 | 北京百度网讯科技有限公司 | 行人重识别模型训练方法、装置、电子设备及存储介质 |
CN116540204A (zh) * | 2023-07-05 | 2023-08-04 | 中南大学 | 一种行为识别方法、装置、终端设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135295A (zh) * | 2019-04-29 | 2019-08-16 | 华南理工大学 | 一种基于迁移学习的无监督行人重识别方法 |
US20200125897A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Semi-Supervised Person Re-Identification Using Multi-View Clustering |
CN111274958A (zh) * | 2020-01-20 | 2020-06-12 | 福州大学 | 一种网络参数自纠正的行人重识别方法及系统 |
CN111898665A (zh) * | 2020-07-23 | 2020-11-06 | 武汉大学 | 基于邻居样本信息引导的跨域行人再识别方法 |
CN111967294A (zh) * | 2020-06-23 | 2020-11-20 | 南昌大学 | 一种无监督域自适应的行人重识别方法 |
CN112069929A (zh) * | 2020-08-20 | 2020-12-11 | 之江实验室 | 一种无监督行人重识别方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-14 CN CN202011472231.4A patent/CN112507901B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200125897A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Semi-Supervised Person Re-Identification Using Multi-View Clustering |
CN110135295A (zh) * | 2019-04-29 | 2019-08-16 | 华南理工大学 | 一种基于迁移学习的无监督行人重识别方法 |
CN111274958A (zh) * | 2020-01-20 | 2020-06-12 | 福州大学 | 一种网络参数自纠正的行人重识别方法及系统 |
CN111967294A (zh) * | 2020-06-23 | 2020-11-20 | 南昌大学 | 一种无监督域自适应的行人重识别方法 |
CN111898665A (zh) * | 2020-07-23 | 2020-11-06 | 武汉大学 | 基于邻居样本信息引导的跨域行人再识别方法 |
CN112069929A (zh) * | 2020-08-20 | 2020-12-11 | 之江实验室 | 一种无监督行人重识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
JIANMING LV ET AL.: "Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
YIXIAO GE ET AL.: "MUTUAL MEAN-TEACHING:PSEUDO LABEL REFINERY FOR UNSUPERVISED DOMAIN ADAPTATION ON PERSON RE-IDENTIFICATION", 《ARXIV》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966647A (zh) * | 2021-03-25 | 2021-06-15 | 东北林业大学 | 一种基于逐层聚类及增强判别的行人重识别方法 |
CN113378632A (zh) * | 2021-04-28 | 2021-09-10 | 南京大学 | 一种基于伪标签优化的无监督域适应行人重识别算法 |
CN113378632B (zh) * | 2021-04-28 | 2024-04-12 | 南京大学 | 一种基于伪标签优化的无监督域适应行人重识别方法 |
CN113780578B (zh) * | 2021-09-08 | 2023-12-12 | 北京百度网讯科技有限公司 | 模型训练方法、装置、电子设备及可读存储介质 |
CN113780578A (zh) * | 2021-09-08 | 2021-12-10 | 北京百度网讯科技有限公司 | 模型训练方法、装置、电子设备及可读存储介质 |
CN113642547A (zh) * | 2021-10-18 | 2021-11-12 | 中国海洋大学 | 一种基于密度聚类的无监督域适应人物重识别方法及系统 |
CN113822262A (zh) * | 2021-11-25 | 2021-12-21 | 之江实验室 | 一种基于无监督学习的行人重识别方法 |
CN113822262B (zh) * | 2021-11-25 | 2022-04-15 | 之江实验室 | 一种基于无监督学习的行人重识别方法 |
CN113989596A (zh) * | 2021-12-23 | 2022-01-28 | 深圳佑驾创新科技有限公司 | 图像分类模型的训练方法及计算机可读存储介质 |
CN113989596B (zh) * | 2021-12-23 | 2022-03-22 | 深圳佑驾创新科技有限公司 | 图像分类模型的训练方法及计算机可读存储介质 |
CN114550215A (zh) * | 2022-02-25 | 2022-05-27 | 北京拙河科技有限公司 | 一种基于迁移学习的目标检测方法及系统 |
CN114550215B (zh) * | 2022-02-25 | 2022-10-18 | 北京拙河科技有限公司 | 一种基于迁移学习的目标检测方法及系统 |
CN114913372B (zh) * | 2022-05-10 | 2023-05-26 | 电子科技大学 | 一种基于多模态数据集成决策的目标识别方法 |
CN114913372A (zh) * | 2022-05-10 | 2022-08-16 | 电子科技大学 | 一种基于多模态数据集成决策的目标识别算法 |
CN115273148A (zh) * | 2022-08-03 | 2022-11-01 | 北京百度网讯科技有限公司 | 行人重识别模型训练方法、装置、电子设备及存储介质 |
CN115273148B (zh) * | 2022-08-03 | 2023-09-05 | 北京百度网讯科技有限公司 | 行人重识别模型训练方法、装置、电子设备及存储介质 |
CN116540204A (zh) * | 2023-07-05 | 2023-08-04 | 中南大学 | 一种行为识别方法、装置、终端设备及介质 |
CN116540204B (zh) * | 2023-07-05 | 2023-09-05 | 中南大学 | 一种行为识别方法、装置、终端设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112507901B (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507901B (zh) | 一种基于伪标签自纠正的无监督行人重识别方法 | |
CN111967294B (zh) | 一种无监督域自适应的行人重识别方法 | |
CN110110642B (zh) | 一种基于多通道注意力特征的行人重识别方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN108491766B (zh) | 一种端到端的基于深度决策森林的人群计数方法 | |
CN112819065B (zh) | 基于多重聚类信息的无监督行人难样本挖掘方法和系统 | |
CN109033107A (zh) | 图像检索方法和装置、计算机设备和存储介质 | |
CN109299707A (zh) | 一种基于模糊深度聚类的无监督行人再识别方法 | |
CN110866134B (zh) | 一种面向图像检索的分布一致性保持度量学习方法 | |
CN111967325A (zh) | 一种基于增量优化的无监督跨域行人重识别方法 | |
CN111797814A (zh) | 基于通道融合和分类器对抗的无监督跨域动作识别方法 | |
CN112070010B (zh) | 一种联合多损失动态训练策略增强局部特征学习的行人重识别方法 | |
CN111860823A (zh) | 神经网络训练、图像处理方法及装置、设备及存储介质 | |
CN114692732A (zh) | 一种在线标签更新的方法、系统、装置及存储介质 | |
CN115346149A (zh) | 基于时空图卷积网络的跳绳计数方法和系统 | |
CN110874576A (zh) | 一种基于典型相关分析融合特征的行人再识别方法 | |
CN111144462A (zh) | 一种雷达信号的未知个体识别方法及装置 | |
CN112541010B (zh) | 一种基于逻辑回归的用户性别预测方法 | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 | |
CN113076963B (zh) | 一种图像识别方法、装置和计算机可读存储介质 | |
CN111681748B (zh) | 基于智能视觉感知的医疗行为动作规范性评价方法 | |
CN110941994B (zh) | 一种基于元类基学习器的行人重识别集成方法 | |
CN116012903A (zh) | 一种人脸表情自动标注的方法及系统 | |
CN113313210A (zh) | 用于数据处理的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |