CN112307995B - 一种基于特征解耦学习的半监督行人重识别方法 - Google Patents
一种基于特征解耦学习的半监督行人重识别方法 Download PDFInfo
- Publication number
- CN112307995B CN112307995B CN202011222281.7A CN202011222281A CN112307995B CN 112307995 B CN112307995 B CN 112307995B CN 202011222281 A CN202011222281 A CN 202011222281A CN 112307995 B CN112307995 B CN 112307995B
- Authority
- CN
- China
- Prior art keywords
- identity
- pedestrian
- image
- loss
- supervised
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于特征解耦学习的半监督行人重识别方法,没有遵循伪标签和聚类等方法,而是构建了一个不依赖标签的变分自编码器的特征解耦行人重识别模型,具体首先设计一个具有共享模块和参数的双流自编码器的结构。对于编码器模块,本发明将行人图像及其水平翻转图像作为一对输入,并对深度特征进行编码,正确识别身份和结构信息。然后,对于解耦特征即身份特征、结构特征不同组合级联后的特征用于在解码器中重构图像。本发明提升了半监督的精度。此外,通过与其他的方法的训练收敛性对比实验,证明本发明提出的方法的有效性,可以在更少的迭代次数就收敛到更好的效果。
Description
技术领域
本发明属于计算机视觉、机器学习等技术领域,更为具体地讲,涉及一种基于特征解耦学习的半监督行人重识别方法。
背景技术
行人重识别问题是计算机视觉领域一个重要的研究问题。行人重识别技术结合了模式识别、机器学习、计算机视觉、图像处理以及计算机应用等多个学科,构成了一种在连续视频帧中获取目标位置的手段,为后续的高层识别应用比如行人行为分析奠定了基础。
目前,行人重识别技术广泛应用于智能监控、智能交通、行为分析、人机交互、智能驾驶系统等领域中,有着广泛的应用前景及巨大的潜在经济价值。行人重识别技术还被广泛应用在刑侦、人流分析、人流预测等多个领域,并且随着智慧城市建设的推进,行人重识别技术会解决更多贴近我们生活的实际问题。所以,对行人重识别问题的研究并对其在实际环境下性能改进具有巨大的现实意义和长远的价值。
在行人重识别技术领域,学者已经提出了很多方法。这些方法主要重点关注了三个部分:手工描述符设计、度量学习和深度行人重识别模型。手工描述符目的是对不同视角、姿势和光照度等提取鲁棒性的特征。度量学习的目的是学习一个特征投影空间,其中同一行人的相似度会大于不同人。随着深度卷积神经网络(CNN)成功应用,深度行人重识别模型能够在一个端到端的网络框架中直接学习强大和有辨别力的特征,这种方式也得到了越来越多的关注。
根据是否使用行人身份标注,深度行人重识别模型大致可以分为有监督学习和无监督学习两种。前者借助标注信息,采用监督损失训练模型,如分类损失和三联损失。后者用跨数据集的域适应性学习、轨迹信息或基于聚类的伪标签学习来解决无监督的行人重识别。虽然以上两种行人重识别方法都取得了很大进展,但它们仍然存在固有的弱点。有监督的行人重识别方法需要大量的跨摄像机行人身份标注数据,以避免对训练数据集的过拟合。然而获取这样大量的行人数据非常耗时和耗力。在无监督的行人重识别方法中,域适应性学习也需要源标签数据。基于轨迹信息的方法依赖于跟踪结果的精确度,而基于伪标签的方法则是对初始参数敏感。此外,现有的无监督的行人重识别方法在准确率上与有监督的仍有很大差距。
所以,同时利用有标签数据和无标签数据的半监督方法可以有效避免全监督和无监督方法的缺点。
早期的半监督行人重识别方法有:Figueira等人提出了一种结合多种半监督特征学习的方法框架,同时处理基于外观和基于度量距离的行人重识别问题。Liu等人提出了一种半监督耦合字典学习方法,该方法在训练阶段联合学习两个耦合词典,并同时使用了有标签和无标签的数据。
然而,这些非深度学习方法只能在小规模的数据集上取得良好的效果。近年来,随着深度卷积神经网络的发展,一些基于深度学习的半监督行人重识别方法已被提出。
第一个半监督行人重识别方法由Ding等人提出,他们采用生成式对抗网络来生成额外的人工样本数据作为未标记数据。Huang等人引入了多种伪正则化标签并保证他们的分布和真实数据类似。Liu等人设计了一种简单而有效的学习机制,他们提出的Transductive Centroid Projection(TCP)模块替代最后一个全连接层便可以达到不错的效果。Fan等人提出一个简单并且渐进的无监督深度学习框架,其目的在于是使用k-means聚类方法来估计未标记的训练样本的标签。并将其扩展到半监督的行人重识别方法。Xin等人提出了一种半监督的方法,该方法通过结合多视图聚类和深度度量学习来反复更新未标记的训练样本的伪标签。
近年来,基于特征解耦学习(DFL)的行人重识别技术也获得了越来越多的关注。特征解耦学习通过将数据的分离为不相关但是有具体含义的隐变量,这有助于之后对于隐变量的更进一步的处理。
目前基于特征解耦学习的行人重识别方法通常采用生成对抗网络或自编码器结构,将行人图像中分离出不同的属性(即外观或姿势等)。其中,姿势是考虑最多的属性。Ma等人采用复杂的多分支模型来将行人分解为前景、背景和姿势特征,通过组合从而生成特定的样本图像,但缺点是无法端到端训练。Qian等人设计网络生成了每个人的标准化姿势图像,但只有8个预定义姿势。Ge等人引导网络学习姿势不变的特征,但利用了人体关键点来描述姿势特征,这加大了计算量并且耗时。Li等人在前期的工作基础上不仅提取了姿势的关键点特征,还利用额外的人体的关键特征。
因此,目前基于特征解耦学习的行人重识别工作总结如下:1)、使用其他标注,例如人类姿态关键点。这些方法利用人体姿势信息特征引导网络学习行人的身份特征。2)、需要不同姿势的同一行人样本来学习身份不变特征。但是,这两种方法都有其缺点。首先,需要引入其他标注,这会增加网络的复杂性。由于很难找到满足第二种条件的行人样本,所以只能挑选具有不同姿势的样本,或者使用对抗生成网络生成这不同姿态的样本。然而即使找到这些样本,由不同视角引起的不同姿势图像也会带来属性上的混乱,从而导致特征混淆。例如,由于摄像机视野的变化而导致书包短时间的隐藏,或者由于人转身而导致的长发在短时间的隐藏。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于特征解耦学习的半监督行人重识别方法,以提升半监督识别的精度,同时,利用更少的有标注数据,提升模型的泛化性,在更少的迭代次数下就收敛到更好。
为实现上述发明目的,本发明基于特征解耦学习的半监督行人重识别方法,其特征在于,包括以下步骤:
(1)、构建一个半监督的行人重识别模型
基于一个身份编码器Eid、一个结构编码器Estruct以及一个解码器D构建一个特征解耦网络,并作为半监督的行人重识别模型;
(2)、训练半监督的行人重识别模型
2.1)、计算监督训练损失LS:
2.1.1)、将有标签Y的行人图像IO输入到监督的行人重识别模型中,一方面直接分别通过身份编码器Eid、结构编码器Estruct进行编码,得到身份特征结构特征另一方面将行人图像IO水平翻转,生成水平翻转图像IT,然后,水平翻转图像IT,分别通过身份编码器Eid、结构编码器Estruct进行编码,得到身份特征结构特征
2.1.2)、身份特征通过GAP&FC操作得到身份特征向量身份特征通过另一GAP&FC操作得到身份特征向量(GAP,Global Average Pooling,即全局平均池化,FC,Fully connecting,即全连接);将身份特征向量进行分类操作,得到属于标签Y的预测概率,进而根据预测概率计算出标签一致性损失将身份特征向量进行另一分类操作,得到属于标签Y的预测概率,进而根据预测概率计算出标签一致性损失
2.1.3)、将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像
这样得到图像重构损失Lrec:
2.1.4)、计算身份不变性约束损失Linv以及结构等变性约束损失Lequ:
其中,DKL(*||*)是表示计算两个特征的Kullback-Leibler散度距离,T(*)表示对特征进行水平翻转变换
这样得到解耦特征的一致性损失Lct:
Lct=Linv+Lequ
2.1.5)、根据步骤2.1.2)-2.1.4),得到监督训练损失LS:
其中,权重系数α、权重系数β可以根据经验进行设定;
2.2)、计算无监督训练损失LU:
2.2.1)、将无标签的行人图像I′O输入到监督的行人重识别模型中,一方面直接分别通过身份编码器Eid、结构编码器Estruct进行编码,得到身份特征结构特征另一方面将行人图像I′O水平翻转,生成水平翻转图像I′T,然后,水平翻转图像I′T,分别通过身份编码器Eid、结构编码器Estruct进行编码,得到身份特征结构特征
2.2.2)、将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像
这样得到图像重构损失Lrec:
2.2.3)、计算恒等不变变换损失L′inv以及结构等方变换损失L′equ:
其中,DKL(*||*)是表示计算两个特征的Kullback-Leibler散度距离,T(*)表示对特征进行水平翻转变换;
这样得到解耦特征的一致性损失L′ct:
L′ct=L′inv+L′equ
2.2.4)、根据步骤2.2.2)-2.2.3),得到无监督训练损失LU:
LU=α′L′ct+β′L′rec
其中,权重系数α′、权重系数β′可以根据经验进行设定;
2.3)、计算总损失Ltotal:
Ltotal=LS+γLU
其中,权重系数γ可以根据经验进行设定;
2.4)、将总损失Ltotal用于优化整个半监督的行人重识别模型,不断输入有标签Y的行人图像IO以及无标签的行人图像I′O进行训练过程,总损失Ltotal不断下降直到趋于平稳,此时半监督的行人重识别模型训练结束;
(3)、构造一个查询数据集
在查询数据集中每个行人有一张图像,将每个行人的图像及其水平翻转图像分别输入到训练好的半监督的行人重识别模型中的身份编码器Eid,得到身份特征身份特征再分别经过GAP&FC操作,得到身份特征向量身份特征向量将身份特征向量身份特征向量的平均值作为最终的身份特征向量vid,特征向量vid作为查询数据集中该行人的查询索引;
(4)、行人重识别
本发明的目的是这样实现的。
与现有方法不同,本发明基于特征解耦学习的半监督行人重识别方法并没有遵循伪标签和聚类等方法,而是构建了一个不依赖标签的变分自编码器的特征解耦行人重识别模型,即提出了一种使用较少的标记数据以及大量未标记的数据(即半监督的行人重识别)来学习更具有泛化性的行人重识别模型。通过这种学习,行人重识别模型可以更通用和更具有落地的可能。具体来说,本发明设计了一个具有共享模块和参数的双流自编码器的结构。对于编码器模块,本发明将行人图像及其水平翻转图像作为一对输入,并对深度特征进行编码,正确识别身份和结构信息。然后,对于解耦特征即身份特征、结构特征不同组合级联后的特征用于在解码器中重构图像。除了常见的对于身份信息的交叉熵损失函数和图像重构损失之外,本发明针对解缠结的特征一致性的变换约束特点设计了一种新颖的损失函数。本发明不受数据标签的约束,可以同时应用于模型中的有监督和无监督学习分支。本发明在四个行人重识别数据集上的大量测试结果表明,如果减少5/6的有标注数据,本发明在Market-1501和CUHK03上实现了最佳性能,在DukeMTMC-reID和MSMT17上也具有不错的准确性。
本发明利用更少的有标注数据,提升模型的泛化性。为了方便比较结果,本发明与其他的行人重识别方法采用同样的数据训练,即选用Market-1501、DukeMTMC-ReID、CUHK03和MSMT17每一个数据集抽取部分有标签的数据训练。训练完成之后,将对于每一个方法在该数据集下对应的测试集上进行测试,通过对比发现,本发明提升了半监督的精度。此外,通过与其他的方法的训练收敛性对比实验,证明本发明提出的方法的有效性,可以在更少的迭代次数就收敛到更好的效果。
附图说明
图1是本发明基于特征解耦学习的半监督行人重识别方法一种具体实施方式流程图;
图2是本发明中构建的半监督的行人重识别模型一种具体实施方式示意图;
图3是本发明中有监督分支一种具体实施方式示意图;
图4是本发明中无监督分支一种具体实施方式示意图;
图5是本发明中半监督的行人重识别模型训练流程图;
图6是解耦特征的一致性变换约束的示意图;
图7是不同比例标注数据占比的半监督实验结果,其中,上一行Rank-1针对不同数据库(Market-1501、Duke-MTMC、CUHK03、MSMT17)的不同行人重识别方法的半监督实验结果,下一行mAP针对不同行人重识别方法不同数据库(Market-1501、Duke-MTMC、CUHK03、MSMT17)的半监督实验结果。
图8是无监督训练损失的权重系数γ分析实验图;
图9是有监督训练损失内的权重系数α、权重系数β分析实验图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
本发明的主要特点在于:(1)我们提出了一种新颖的半监督行人重识别模型,该框架由两个具有共享特征解缠结模型的分支组成,一个分支用于监督任务,另一个分支用于非监督任务。它通过利用大量未标记的数据来减轻对于标记数据的限制。(2)通过以自监督的方式将图像及其水平翻转的图像解耦,从而利用非监督数据将其分解为结构特征和身份特征。设计了一致的变换约束损失函数:包括结构特征的同变性和身份特征的不同变性。(3)在四个常见行人重识别数据集上的大量结果表明,通过减少5/6标签数据,我们的方法在Market-1501和CUHK03上获得了最佳性能,在DukeMTMC-reID和MSMT17上具有不错的性能。
下面就本发明所涉及的各个细节问题的详细说明。
图1是本发明基于特征解耦学习的半监督行人重识别方法一种具体实施方式流程图。
在本实施例中,如图1所示,本发明基于特征解耦学习的半监督行人重识别方法包括以下步骤:
步骤S1:构建一个半监督的行人重识别模型
如图2所示,本发明基于一个身份编码器Eid、一个结构编码器Estruct以及一个解码器D构建一个特征解耦网络,并作为半监督的行人重识别模型。
在具体训练过程中,特征解耦网络在有监督分支(图2上半部分所示)以及无监督分支(图2下半部分所示)进行训练。在有监督分支进行训练时,其结构如图3所示,在无监督分支进行训练时,其结构如图4所示。需要说明的时,图3、4展示的训练过程中的处理和计算过程,为了便于理解和处理过程,将身份编码器Eid、一个结构编码器Estruct均画成了两个图标,解码器D化成了四个图标。
编码器Eid、Estruct用于特征的分解,解码器D用于特征的重构。本发明将一对行人图像IO及其水平翻转图像IT与标签Y的共同作为有监督分支的三个输入,对于无监督分支则省略了标签。
如图2所示,最终的总损失Ltotal等于有监督分支的监督训练损失LS和无监督分支的无监督训练损失LU的加权和。在设计监督训练损失LS时,考虑了标签一致性损失标签一致性损失图像重构损失Lrec和解耦特征的一致性损失Lct。无监督损失中仅考虑图像重构损失Lrec和解耦特征的一致性损失Lct。由于参数共享和整体训练,在有监督分支的强大标签指导学习下,无监督分支可以有效地利用大量无标签数据。
对于行人重识别任务,在不同视图下挖掘具有不同结构信息的行人身份信息非常重要。本发明希望引导网络学习如何将混合的全局特征分解为独立的结构特征和身份特征。以前,一些方法构建具有相同身份但结构不同的图像对,从而通过孪生网络将身份特征和结构特征有效地解开。但是,对于未标记的数据,我们找不到具有相同身份但结构不同的样本。因此,本发明受到数据扩充的启发,可以通过水平翻转操作获得新的水平镜像结构样本即水平翻转图像IT。水平翻转图像IT满足我们对图像对的要求:1)相同的身份、2)不同的结构。因此,本发明设计了一个基于自编码器的特征解耦网络,该特征解耦网络需要一对输入,在本实施例中,选择在ImageNet上经过预训练的并去除了最后的池化层和全连接层的DenseNet-121作为编码器的主干网络。尽管大多数现有的行人重识别方法都将ResNet-50用作编码器的主干网络,但与ResNet-50相比,本实施例选择了较小的DenseNet-121(8M参数与25.5M参数)作为主干网络。以行人图像IO为例,分别使用结构相同但参数不同的两个编码器(身份编码器Eid、结构编码器Estruct)分别对行人图像IO进行编码,得到身份特征结构特征本发明定义了水平翻转变换T(*),用于生成水平翻转图像IT=T(IO)。同理,身份特征结构特征也可以从水平翻转图像IT解耦得到。上标O和T分别表示行人图像IO及水平翻转图像IT。本发明将具有不同语义的两个解耦特征在通道维度上合并得到四种不同的组合,然后输入至解码器D。在本实施例中,解码器由5个转置的卷积层组成,其中包含batch normalization、leaky-ReLU和dropout等结构。
步骤S2:训练半监督的行人重识别模型
半监督的行人重识别模型训练步骤如图5所示,包括以下步骤:
步骤S2.1:计算监督训练损失LS
步骤S2.1.1:如图3所示,将有标签Y的行人图像IO输入到有监督分支中,一方面直接分别通过身份编码器Eid、结构编码器Estruct进行编码,得到身份特征结构特征另一方面将行人图像IO水平翻转,生成水平翻转图像IT,然后,水平翻转图像IT分别通过身份编码器Eid、结构编码器Estruct进行编码,得到身份特征结构特征
步骤S2.1.2:身份特征通过GAP&FC操作得到身份特征向量身份特征通过另一GAP&FC操作得到身份特征向量(GAP,Global Average Pooling,即全局平均池化,FC,Fully connecting,即全连接);将身份特征向量进行分类操作,得到属于标签Y的预测概率,进而根据预测概率计算出标签一致性损失将身份特征向量进行另一分类操作,得到属于标签Y的预测概率,进而根据预测概率计算出标签一致性损失
步骤S2.1.3:将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像
这样得到图像重构损失Lrec:
为了保证解耦特征的编码语义信息无误,重构的图像应满足以下条件:1)自我重构,如果身份特征和结构特征都从同一图像(即(身份特征结构特征)或(身份特征结构特征))分解,则重构图像肯定与它们自身对应的输入图像(即行人图像IO或水平翻转图像IT)一致;2)交换重构。如果分解后的身份特征和结构特征来自不同的输入图像,即(身份特征结构特征)或(身份特征结构特征),则重构图像应该与结构特征来自的图像一致,即IT或IO。因此,通过遵循上述标准,本发明定义了由两种重构组成的图像重构损失Lrec:
第二项交换图像重构损失遵循第二个标准,即重构图像应该与结构特征来自的图像一致。我们希望分解开的身份特征和结构特征彼此独立。显然,身份特征在水平翻转图像后不会改变,而重构图像由结构特征确定。因此,可以定义交换图像重构损失如下:计算交换图像重构损失
步骤S2.1.4:计算身份不变性约束损失Linv以及结构等变性约束损失Lequ:
其中,DKL(*||*)是表示计算两个特征的Kullback-Leibler散度距离,T(*)表示对特征进行水平翻转变换;
这样得到解耦特征的一致性损失Lct:
Lct=Linv+Lequ。
针对解耦特征的特点,本发明设计一种有效的约束损失函数。
传统的行人重识别方法,往往将样本编码为全局特征。与这些方法不同的是,本发明采用了一个特征解耦的学习框架,将混合的全局特征解耦为具有独立语义信息的独立特征。这样,对于一组输入的行人图像IO及其水平翻转图像IT,可以获得了四个解耦特征。其中,两个是身份特征,另外两个是结构特征。由于水平翻转图像并不会改变图像的标签(身份信息),因此这两个解耦的身份特征应满足不变的属性。同时,两个结构特征对应呈现了两个图像的等变变换,即,水平翻转图像的输出特征也被翻转以确保结构特征的一致性。
图6是解耦特征的一致性变换约束的示意图。
因此,根据上述思想,我们分别将身份不变性约束损失Linv以及结构等变性约束损失Lequ设计为:
其中,DKL(*||*)是表示计算两个特征的Kullback-Leibler散度距离,T(*)表示对特征进行水平翻转变换。
在这两个变换约束下总体损失函数即解耦特征的一致性损失Lct可以定义为:
Lct=Linv+Lequ
这两个约束反映了解耦特征之间的内在联系,这保证了特征解耦的良好进行。该解耦特征的一致性损失Lct并不需要标签数据,所以可以在监督学习和无监督学习中使用。
步骤S2.1.5:根据步骤S2.1.2)-S2.1.4),得到监督训练损失LS:
其中,权重系数α、权重系数β可以根据经验进行设定。
步骤S2.2:计算无监督训练损失LU:
步骤S2.2.1:在本实施例中,如图4所示,将无标签的行人图像I′O输入到无监督分支中,一方面直接分别通过身份编码器Eid、结构编码器Estruct进行编码,得到身份特征结构特征另一方面将行人图像I′O水平翻转,生成水平翻转图像I′T,然后,水平翻转图像I′T,分别通过身份编码器Eid、结构编码器Estruct进行编码,得到身份特征结构特征
步骤S2.2.2:将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像
这样得到图像重构损失Lrec:
步骤S2.2.3:计算恒等不变变换损失L′inv以及结构等方变换损失L′equ:
其中,DKL(*||*)是表示计算两个特征的Kullback-Leibler散度距离,
这样得到解耦特征的一致性损失L′ct:
L′ct=L′inv+L′equ
步骤S2.2.4:、根据步骤S2.2.2-S2.2.3,得到无监督训练损失LU:
LU=α′L′ct+β′L′rec
其中,权重系数α′、权重系数β′可以根据经验进行设定。
步骤S2.3:计算总损失Ltotal:
Ltotal=LS+γLU
其中,权重系数γ可以根据经验进行设定;
步骤S2.4:依据总损失Ltotal训练
将总损失Ltotal用于优化整个半监督的行人重识别模型,不断输入有标签Y的行人图像IO以及无标签的行人图像I′O进行训练过程,总损失Ltotal不断下降直到趋于平稳,此时半监督的行人重识别模型训练结束;
步骤S3:构造一个查询数据集
在查询数据集中每个行人有一张图像,将每个行人的图像及其水平翻转图像分别输入到训练好的半监督的行人重识别模型中的身份编码器Eid,得到身份特征身份特征再分别经过GAP&FC操作,得到身份特征向量身份特征向量将身份特征向量身份特征向量的平均值作为最终的身份特征向量vid,特征向量vid作为查询数据集中该行人的查询索引;
步骤S4:行人重识别
实例对比
以下是本发明实验结果。在实验结果之前,先介绍实验设定。在本实例中,将标记数据在训练集中的比例表示为比率,其余部分用作未标记的数据。在本实例中,用不同的比率设置评估本发明的有效性。
图7为在半监督实验设置下,本发明(Ours)与5种最新的行人重识别方法进行了比较,包括IDE,MGN,PCB,BOT和ABD-Net。通过将比率设置为1/3、1/6和1/12,可以对不同的数据集(Market-1501、Duke-MTMC、CUHK03、MSMT17)进行多次实验。通过实验,发现标记数据的占比越低,本发明效果越好。在数据集Market-1501上,当标记数据的比例为1/12时,本发明对比IDE,BOT,MGN,PCB和ABD-Net五种方法分别在Rank-1高出了51.9%,16.7%,6.0%,3.7%和1.8%,在mAP高出了31.9%,12.9%,5.2%,4.8%和5.1%。其中,MGN和PCB方法提取了条带级特征,IDE和BoT直接使用全局特征,而ABD-Net通过基于通道维度和空间维度的注意力机制提取特征。当标记数据的比例为1/6时,在Market-1501上,基于全局特征的IDE和BoT效果不佳。他们的Rank-1分别为30.4%和65.6%。可见在行人重识别任务中,全局特征效果一般。基于条带的方法在数据集Market-1501和DukeMTMC上表现良好。例如,MGN在Market-1501和DukeMTMC数据集上Rank-1为75.4%和69.1%,mAP为52.0%和50.1%。这表明在小型数据集上,局部特征有助于提高性能。基于注意力的ABD-Net在CUHK03中表现出色,mAP为26.0%,Rank-1为25.2%。这也表明基于注意力的方法可以有效地挖掘更深层次的特征。通过特征解耦和一致性的变换约束,本发明在仅考虑全局特征的情况下即可在Market-1501和CUHK03测试效果最好,在DukeMTMC和MSMT17上也具有不错的精度,这表明本发明能够有效地提取更鲁棒的特征。
表1为在监督情况下与11种最新行人重识别模型的性能比较,其中包括手工描述符的方法、基于注意力的方法、基于条纹的方法、全局特征方法和基于GAN的方法。
表1
可以从表1看出,手工描述符特征在所有四个数据集上的准确性都最差。例如,在Market-1501上,其Rank-1为44.4%,远低于深度行人重识别方法的90%。在深度行人重识别方法中,基于GAN的方法不能令人满意。原因可能是GAN会在生成的图像中引入一些噪声。例如,Cam-GAN和Pose-Normalized在Market-1501上的表现不到90%。与上述两种方法相比,基于全局特征的方法具有很好的性能。例如,在Market-1501和DukeMTMC-reID上,BoT分别获得94.5%和86.4%的Rank-1得分,以及85.9%和76.4%的mAP得分。基于上述实验,基于条带的方法比基于全局特征的方法具有更高的准确性。以MGN为例,它在Market-1501和DukeMTMC-reID上分别获得95.7%和88.7%的Rank-1得分,以及mAP得分分别为86.9%和78.4%。然而本发明仅使用全局特征,在行人重识别的数据集上达到了不错的效果。
图8为无监督损失部分权重系数γ分析实验。可以看出,当权重参数γ=0.01时,模型的性能最佳。特别是,当时,此时框架仅有监管分支有效。从实验快眼看出,将标记的数据与未标记的数据一起训练会为行人重识别性精度带来提升。
图9显示了有监督部分内的权重系数α、权重系数β的性能分析。通过实验效果分析,从图9可以看出,选择权重系数α=5、权重系数β=0.3效果比较好。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种基于特征解耦学习的半监督行人重识别方法,其特征在于,包括以下步骤:
(1)、构建一个半监督的行人重识别模型
基于一个身份编码器Eid、一个结构编码器Estruct以及一个解码器D构建一个特征解耦网络,并作为半监督的行人重识别模型;
(2)、训练半监督的行人重识别模型
2.1)、计算监督训练损失LS:
2.1.1)、将有标签Y的行人图像IO输入到半监督的行人重识别模型中,一方面直接分别通过身份编码器Eid、结构编码器Estruct进行编码,得到身份特征结构特征另一方面将行人图像IO水平翻转,生成水平翻转图像IT,然后,水平翻转图像IT,分别通过身份编码器Eid、结构编码器Estruct进行编码,得到身份特征结构特征
2.1.2)、身份特征通过GAP&FC操作得到身份特征向量身份特征通过另一GAP&FC操作得到身份特征向量(GAP,Global Average Pooling,即全局平均池化,FC,Fully connecting,即全连接);将身份特征向量进行分类操作,得到属于标签Y的预测概率,进而根据预测概率计算出标签一致性损失将身份特征向量进行另一分类操作,得到属于标签Y的预测概率,进而根据预测概率计算出标签一致性损失
2.1.3)、将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像
这样得到图像重构损失Lrec:
2.1.4)、计算身份不变性约束损失Linv以及结构等变性约束损失Lequ:
其中,DKL(*||*)是表示计算两个特征的Kullback-Leibler散度距离,T(*)表示对特征进行水平翻转变换
这样得到解耦特征的一致性损失Lct:
Lct=Linv+Lequ
2.1.5)、根据步骤2.1.2)-2.1.4),得到监督训练损失LS:
其中,权重系数α、权重系数β可以根据经验进行设定;
2.2)、计算无监督训练损失LU:
2.2.1)、将无标签的行人图像I′O输入到半监督的行人重识别模型中,一方面直接分别通过身份编码器Eid、结构编码器Estruct进行编码,得到身份特征结构特征另一方面将行人图像I′O水平翻转,生成水平翻转图像I′T,然后,水平翻转图像I′T,分别通过身份编码器Eid、结构编码器Estruct进行编码,得到身份特征结构特征
2.2.2)、将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像将身份特征结构特征级联,然后通过解码器D解码,得到重构图像
2.2.3)、计算恒等不变变换损失L′inv以及结构等方变换损失L′equ:
其中,DKL(*||*)是表示计算两个特征的Kullback-Leibler散度距离,T(*)表示对特征进行水平翻转变换;
这样得到解耦特征的一致性损失L′ct:
L′ct=L′inv+L′equ
2.2.4)、根据步骤2.2.2)-2.2.3),得到无监督训练损失LU:
LU=α′L′ct+β′L′rec
其中,权重系数α′、权重系数β′可以根据经验进行设定;
2.3)、计算总损失Ltotal:
Ltotal=LS+γLU
其中,权重系数γ可以根据经验进行设定;
2.4)、将总损失Ltotal用于优化整个半监督的行人重识别模型,不断输入有标签Y的行人图像IO以及无标签的行人图像I′O进行训练过程,总损失Ltotal不断下降直到趋于平稳,此时半监督的行人重识别模型训练结束;
(3)、构造一个查询数据集
在查询数据集中每个行人有一张图像,将每个行人的图像及其水平翻转图像分别输入到训练好的半监督的行人重识别模型中的身份编码器Eid,得到身份特征身份特征再分别经过GAP&FC操作,得到身份特征向量身份特征向量将身份特征向量身份特征向量的平均值作为最终的身份特征向量vid,特征向量vid作为查询数据集中该行人的查询索引;
(4)、行人重识别
2.根据权利要求1所述的基于特征解耦学习的半监督行人重识别方法,其特征在于,权重系数α=5、权重系数β=0.3、权重参数γ=0.01。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011222281.7A CN112307995B (zh) | 2020-11-05 | 2020-11-05 | 一种基于特征解耦学习的半监督行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011222281.7A CN112307995B (zh) | 2020-11-05 | 2020-11-05 | 一种基于特征解耦学习的半监督行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307995A CN112307995A (zh) | 2021-02-02 |
CN112307995B true CN112307995B (zh) | 2022-03-25 |
Family
ID=74325022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011222281.7A Active CN112307995B (zh) | 2020-11-05 | 2020-11-05 | 一种基于特征解耦学习的半监督行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307995B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129309B (zh) * | 2021-03-04 | 2023-04-07 | 同济大学 | 基于对象上下文一致性约束的医学图像半监督分割系统 |
CN113111706B (zh) * | 2021-03-04 | 2024-02-02 | 西北工业大学 | 一种面向方位角连续缺失的sar目标特征解缠与识别方法 |
CN114120412B (zh) * | 2021-11-29 | 2022-12-09 | 北京百度网讯科技有限公司 | 图像处理方法和装置 |
CN114694171B (zh) * | 2022-02-22 | 2023-10-10 | 电子科技大学 | 一种基于自监督模式特征增强的行人属性识别方法 |
CN115205739B (zh) * | 2022-07-06 | 2023-11-28 | 中山大学·深圳 | 一种基于半监督学习的低光照视频行为识别方法及系统 |
CN115471875B (zh) * | 2022-10-31 | 2023-03-03 | 之江实验室 | 一种多码率的行人识别视觉特征编码压缩方法和装置 |
CN116664624B (zh) * | 2023-06-01 | 2023-10-27 | 中国石油大学(华东) | 基于解耦分类与回归特征的目标跟踪方法及跟踪器 |
CN116778233B (zh) * | 2023-06-07 | 2024-02-06 | 中国人民解放军国防科技大学 | 一种基于图神经网络的不完全深度多视图半监督分类方法 |
CN116776228B (zh) * | 2023-08-17 | 2023-10-20 | 合肥工业大学 | 一种电网时序数据解耦自监督预训练方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793702A (zh) * | 2014-02-28 | 2014-05-14 | 武汉大学 | 基于协同尺度学习的行人重识别方法 |
CN107273872A (zh) * | 2017-07-13 | 2017-10-20 | 北京大学深圳研究生院 | 用于图像或视频中行人重识别的深度判别网络模型方法 |
CN108830236A (zh) * | 2018-06-21 | 2018-11-16 | 电子科技大学 | 一种基于深度特征的行人重识别方法 |
CN110443174A (zh) * | 2019-07-26 | 2019-11-12 | 浙江大学 | 一种基于解耦自适应判别性特征学习的行人重识别方法 |
CN111274873A (zh) * | 2020-01-09 | 2020-06-12 | 济南浪潮高新科技投资发展有限公司 | 一种基于人工特征与深度特征融合的行人重识别方法 |
-
2020
- 2020-11-05 CN CN202011222281.7A patent/CN112307995B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793702A (zh) * | 2014-02-28 | 2014-05-14 | 武汉大学 | 基于协同尺度学习的行人重识别方法 |
CN107273872A (zh) * | 2017-07-13 | 2017-10-20 | 北京大学深圳研究生院 | 用于图像或视频中行人重识别的深度判别网络模型方法 |
CN108830236A (zh) * | 2018-06-21 | 2018-11-16 | 电子科技大学 | 一种基于深度特征的行人重识别方法 |
CN110443174A (zh) * | 2019-07-26 | 2019-11-12 | 浙江大学 | 一种基于解耦自适应判别性特征学习的行人重识别方法 |
CN111274873A (zh) * | 2020-01-09 | 2020-06-12 | 济南浪潮高新科技投资发展有限公司 | 一种基于人工特征与深度特征融合的行人重识别方法 |
Non-Patent Citations (3)
Title |
---|
Semi-supervised person re-identification using multi-view clustering;Xiaomeng Xin 等;《Pattern Recognition》;20190430;全文 * |
Zhedong Zheng.Joint discriminative and generative learning for person re-identification.《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》.2020,第2133-2142页. * |
基于深度学习的行人重识别研究综述;冯霞 等;《计算机应用研究》;20200311;第37卷(第11期);第3220-3240页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112307995A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112307995B (zh) | 一种基于特征解耦学习的半监督行人重识别方法 | |
Jia et al. | A semisupervised Siamese network for hyperspectral image classification | |
Vu et al. | Context-aware CNNs for person head detection | |
CN107273800B (zh) | 一种基于注意机制的卷积递归神经网络的动作识别方法 | |
Zhuang et al. | Constructing a nonnegative low-rank and sparse graph with data-adaptive features | |
Ge et al. | An attention mechanism based convolutional LSTM network for video action recognition | |
Wu et al. | Feedback weight convolutional neural network for gait recognition | |
Bera et al. | Sr-gnn: Spatial relation-aware graph neural network for fine-grained image categorization | |
Liu et al. | Facial attractiveness computation by label distribution learning with deep CNN and geometric features | |
Song et al. | Discriminative feature extraction for video person re-identification via multi-task network | |
Prabhu et al. | Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism. | |
Xu et al. | Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning | |
Daihong et al. | Facial expression recognition based on attention mechanism | |
Rani et al. | An effectual classical dance pose estimation and classification system employing convolution neural network–long shortterm memory (CNN-LSTM) network for video sequences | |
Li et al. | Image decomposition with multilabel context: Algorithms and applications | |
Gao et al. | Context-patch representation learning with adaptive neighbor embedding for robust face image super-resolution | |
Liu et al. | Bilaterally normalized scale-consistent sinkhorn distance for few-shot image classification | |
Qin et al. | Structure-aware feature disentanglement with knowledge transfer for appearance-changing place recognition | |
Robert | The Role of Deep Learning in Computer Vision | |
Gori et al. | Semantic video labeling by developmental visual agents | |
Bie et al. | Facial expression recognition from a single face image based on deep learning and broad learning | |
Wang et al. | Deep metric learning on the SPD manifold for image set classification | |
Hao | Deep learning review and discussion of its future development | |
Gong et al. | Autonomous learning of foreign language based on facial emotion recognition and cloud computing | |
Hu et al. | Bagging deep convolutional autoencoders trained with a mixture of real data and GAN-generated data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |