CN111597887A - 一种行人再识别方法及系统 - Google Patents
一种行人再识别方法及系统 Download PDFInfo
- Publication number
- CN111597887A CN111597887A CN202010269718.6A CN202010269718A CN111597887A CN 111597887 A CN111597887 A CN 111597887A CN 202010269718 A CN202010269718 A CN 202010269718A CN 111597887 A CN111597887 A CN 111597887A
- Authority
- CN
- China
- Prior art keywords
- label
- classification
- loss
- image data
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 82
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000007717 exclusion Effects 0.000 claims description 6
- 238000013526 transfer learning Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010380 label transfer Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种行人再识别方法及系统,包括:输入训练集至待训练模型,确定训练集中的每个图像数据的单分类标签和记忆特征;根据单分类标签和记忆特征集合,通过正标签预测,确定多分类标签;根据训练集中的每个图像数据的图像特征和记忆特征集合,确定分类分数;根据多分类标签和分类分数确定多标签分类损失;根据多标签分类损失,更新和训练待训练模型,得到识别模型。通过根据训练集中的每个图像数据的图像特征和记忆特征集合确定分类分数,不受数据集领域影响;根据单分类标签和记忆特征集合,通过正标签预测确定多分类标签,再根据多分类标签和分类分数确定多标签分类损失,更新和训练待训练模型,识别模型的性能高,鲁棒性强,成本低。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种行人再识别方法及系统。
背景技术
近年来,利用深卷积神经网络从标记的人图像中学习识别特征的行人再识别(Person Re-identification)技术取得了巨大的成功。然而由于在多个摄像机上标注人物图像的成本很高,最近的研究工作开始集中在无监督的行人再识别上。无监督的行人再识别旨在从无标签的人的图像中学习辨别特征。与有监督学习相比,无监督学习减轻了昂贵的对数据标注的需求,从而显示出更好的潜力,推动行人再识别走向实际应用。
行人再识别的挑战在于要在没有真实标签的情况下学习辨别特征。为了克服这一挑战,现有的行人再识别的方法通常使用三种方式:手工设计特征(Hand-CraftFeatures)、采用聚类估计伪标签来训练深卷积神经网络和利用转移学习来改善无监督的行人再识别。
然而,手工设计的方式在鲁棒性、区别特征设计上具有很大难度。采用聚类估计伪标签来训深卷积神经网络的方法需要良好的预训练模型,成本高。
最近的大多数工作是将行人再识别作为一个转移学习(Transfer Learning)任务,它利用其他领域上的标记数据进行模型初始化或标记转移。然而,有监督和无监督的行人再识别之间仍然存在着相当大的差距。同时,迁移学习的设置导致了灵活性到受到限制。由于迁移学习的性能与领域的区别密切相关,较大的领域区别会降低性能,因此,在行人再识别中,估计领域间的差别和选择合适的源数据集进行迁移学习是非常重要的,而这就会影响识别性能。
综上所述,需要提供一种不受数据集领域影响,识别性能高,鲁棒性强,成本低的行人再识别方法及系统。
发明内容
为解决以上问题,本申请提出了一种行人再识别方法及系统。
一方面,本申请提出一种行人再识别方法,包括:
输入训练集至待训练模型,确定训练集中的每个图像数据的单分类标签和记忆特征;
根据所述单分类标签和记忆特征集合,通过正标签预测,确定多分类标签;
根据训练集中的每个图像数据的图像特征和所述记忆特征集合,确定分类分数;
根据所述多分类标签和分类分数确定多标签分类损失;
根据所述多标签分类损失,更新和训练待训练模型,得到识别模型。
优选地,所述确定训练集中的每个图像数据的单分类标签和记忆特征,包括:
对计算未标记的所述训练集中的每个图像数据进行单分类标签标记,得到多个单分类标签;
对未标记的训练集进行特征提取,得到图像特征,使用记忆特征更新公式,计算记忆特征,得到包括所有记忆特征的记忆特征集合。
优选地,所述记忆特征更新公式为:M[i]t=a·fi+(1-a)·M[i]t-1,其中,上标t表示第t个训练周期,a为更新率,M[i]为记忆特征集合,fi为图像特征。
优选地,在所述得到包括所有记忆特征的记忆特征集合之前,还包括:
对得到的所述记忆特征进行归一化。
优选地,所述通过正标签预测,确定多分类标签,包括:
计算记忆特征集合中的各记忆特征之间的相似度得分;
根据单分类标签,相似度得分和候选阈值,确定每个图像数据的第一候选标签;
对第一候选标签进行硬负标签排除,得到每个图像数据对应的第二候选标签集合;
将每个第二候选标签集合中的第二候选标签设为1,得到对应第二候选标签集合的正标签集;
根据正标签集,确定每个图像数据对应的多分类标签。
优选地,所述根据所述多分类标签和分类分数确定多标签分类损失,包括:
使用多标签分类损失公式,据所述多分类标签和分类分数确定多标签分类损失,其中,多标签分类损失公式为:其中,分类分数为MT×fi,为多分类标签,D(.)为通过比较分类分数和多分类标签计算多标签分类损失LMMCL。
优选地,在所述根据所述多标签分类损失,更新和训练待训练模型,得到识别模型之后,还包括:
使用得到的所述识别模型对行人进行再识别。
优选地,在所述根据所述多标签分类损失,更新和训练待训练模型,得到识别模型之前,还包括:
若存在有标签数据集,则使用交叉熵损失、三元组损失和多标签分类损失之和作为更新和训练待训练模型的损失。
优选地,所述训练集中的每个图像数据均为无标签数据,且每个图像数据只包括一个人。
第二方面,本申请提出一种行人再识别系统,包括:
特征提取模块,用于确定输入至待训练模型的训练集中的每个图像数据的单分类标签和记忆特征;根据训练集中的每个图像数据的图像特征和所述记忆特征集合,确定分类分数;
标签预测模块,用于根据所述单分类标签和记忆特征集合,通过正标签预测,确定多分类标签;
损失计算与更新模块,用于根据所述多分类标签和分类分数确定多标签分类损失;根据所述多标签分类损失,更新和训练待训练模型,得到识别模型。
本申请的优点在于:通过根据训练集中的每个图像数据的图像特征和所述记忆特征集合,确定分类分数,不受数据集领域影响;根据所述单分类标签和记忆特征集合,通过正标签预测,确定多分类标签,再根据所述多分类标签和分类分数确定多标签分类损失,更新和训练待训练模型,使得最终得到的识别模型识别性能高,鲁棒性强,成本低。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的,而并不认为是对本申请的限制。而且在整个附图中,用同样的参考符号表示相同的部件。在附图中:
图1是本申请提供的一种行人再识别方法的步骤示意图;
图2是本申请提供的一种行人再识别方法的示意图;
图3是本申请提供的一种行人再识别方法的正标签预测的精确性和召回的示意图;
图4是本申请提供的一种行人再识别方法的标签预测结果的示意图;
图5是本申请提供的一种行人再识别方法的梯度示意图;
图6是本申请提供的一种行人再识别系统的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本申请的实施方式,提出一种行人再识别方法,如图1所示,包括:
S101,输入训练集至待训练模型,确定训练集中的每个图像数据的单分类标签和记忆特征;
S102,根据单分类标签和记忆特征集合,通过正标签预测,确定多分类标签;
S103,根据训练集中的每个图像数据的图像特征和记忆特征集合,确定分类分数;
S104,根据多分类标签和分类分数确定多标签分类损失;
S105,根据多标签分类损失,更新和训练待训练模型,得到识别模型。
确定训练集中的每个图像数据的单分类标签和记忆特征,包括:
对计算未标记的训练集中的每个图像数据进行单分类标签标记,得到多个单分类标签;
对未标记的训练集进行特征提取,得到图像特征,使用记忆特征更新公式,计算记忆特征,得到包括所有记忆特征的记忆特征集合。
记忆特征更新公式为:M[i]t=a·fi+(1-a)·M[i]t-1,其中,上标t表示第t个训练周期,a为更新率,M[i]为记忆特征集合,fi为图像特征。
在得到包括所有记忆特征的记忆特征集合之前,还包括:
对得到的记忆特征进行归一化。
通过正标签预测,确定多分类标签,包括:
计算记忆特征集合中的各记忆特征之间的相似度得分;
根据单分类标签,相似度得分和候选阈值,确定每个图像数据的第一候选标签;
对第一候选标签进行硬负标签(Hard Negative Label)排除,得到每个图像数据对应的第二候选标签集合;
将每个第二候选标签集合中的第二候选标签设为1,得到对应第二候选标签集合的正标签集;
根据正标签集,确定每个图像数据对应的多分类标签。
根据多分类标签和分类分数确定多标签分类损失,包括:
使用多标签分类损失公式,据多分类标签和分类分数确定多标签分类损失,其中,多标签分类损失公式为:其中,分类分数为MT×fi,为多分类标签,D(.)为通过比较分类分数和多分类标签计算多标签分类损失LMMCL。
在根据多标签分类损失,更新和训练待训练模型,得到识别模型之后,还包括:
使用得到的识别模型对行人进行再识别。
在根据多标签分类损失,更新和训练待训练模型,得到识别模型之前,还包括:
若存在有标签数据集,则使用交叉熵损失、三元组损失和多标签分类损失之和作为更新和训练待训练模型的损失。
训练集中的每个图像数据均为无标签数据,且每个图像数据只包括一个人。
单分类标签的数量与训练集中的图像数据的数量对应,每个图像数据对应一个单分类标签。
如图2所示,假设一个数据集中有6张图片,从上向下分别为第一张、第二张、第三张、第四张、第五张和第六张。其中第一张和第四张为同一个人甲,第二张和第六张为同一个人乙,第三张和第五张为同一个人丁,则需要最终将这这六张图片分为三类,其中每一类对应一个人。
首先,对每张图数据进行单分类标签标记,单分类标签为一个数组或矩阵,其中数字的数量对应图片数据的数量,则第一张图片数据的单分类标签为[1,0,0,0,0,0],第二张图片数据的单标分类签为[0,1,0,0,0,0],以此类推,对6张图片数据进行单分类标签标记。输入图片数据至卷积神经网络,进行图像特征提取,得到每张图片数据的图像特征,根据图像特征,计算记忆特征,记忆特征的计算使用记忆更新公式,对得到的记忆特征进行归一化后,得到包括所有记忆特征的记忆特征集合。
再根据每张图像数据的单分类标签和记忆特征集合,通过基于记忆的正标签预测(Memory-based Positive Label Prediction,MPLP),即正标签预测,确定多分类标签。
其中,正标签预测包括:计算记忆特征集合中的各记忆特征之间的相似度得分。根据单分类标签,相似度得分和候选阈值,确定每个图像数据的第一候选标签。对第一候选标签进行硬负标签排除,得到每个图像数据对应的第二候选标签集合。将每个第二候选标签集合中的第二候选标签设为1,得到对应第二候选标签集合的正标签集。
其中,根据相似度得分,从高到底排序,再根据候选阈值,确定每个图像数据对应的一个或多个相似度分数超过候选阈值的第一候选标签。
其中,硬负标签排除为,对每个图像数据的第一候选标签进行对比,确定相似度高的图片数据的第一候选标签是否相对应。若第一图像数据的第一候选标签中包括第二图像数据和第三图像数据,第二图像数据的第一候选标签中包括第三图像数据,而第三图像数据的第一候选标签中,包括第一图像数据,但是不包括第二图像数据,则第一图像数据和第三图像数据为相同的人的图像,第一图像数据的第一候选标签中虽然包括第二图像数据,但是第二图像数据的第一候选标签中并未包括第一图像数据,所以第一图像数据与第二图像数据为不同的人,同理,第二图像数据与第三图像数据也为不同的人。
第一图像数据的第二候选标签集合为[0,0,1,0,0,0],第三图像数据的第二候选标签集合为[1,0,0,0,0,0]。得到的表示第一图像数据与第三图像数据为相同的人的多分类标签为[1,0,1,0,0,0]。
根据训练集中的每个图像数据的图像特征和记忆特征集合,使用基于记忆的多标签分类损失(Memory-based Multi-label Classification Loss,MMCL)公式即多标签损失公式,据多分类标签和分类分数确定多标签分类损失LMMCL。
根据得到的多标签分类损失,更新和训练待训练模型,当损失小于设定的训练损失阈值,或训练次数或训练周期达到设定的次数阈值或周期阈值后,得到识别模型。其中,使用多标签分类损失对基于卷积神经网络的特征提取部分进行更新和训练。使用得到的识别模型对行人进行再识别。
若还存在有标签数据集,则可以使用有标签数据集,使用现有的方式,或输入至现有的模型,获取交叉熵损失、三元组损失。再使用交叉熵损失、三元组损失和本申请的实施方式得到的多标签分类损失之和作为更新和训练本申请实施方式中的待训练模型的损失。
下面,对本申请实施例进行进一步说明。
给定一个未标记的人的图像数据集X={x1,x2,…xn}作为训练集,目标是通过训练集X训练待训练的行人再识别模型。对于数据集X中的任何一个待查询图像数据q,都需要生成一个特征向量,以便从库集G检索包含同一个人的图像数据g。即最终得到的识别模型应该保证,在库集G中,相较于其他图像数据,图像数据q与图像数据g具有更多的相似特征,因此,可以在概念上把行人再识别的目标g*表示为,
为了使在X上的训练成为可能,首先将训练集中的每个图像数据xi作为一个单独的类来处理,并给xi分配一个标签yi,这个伪标签将X变成一个标签数据集,并允许进行ReID(行人再识别)模型训练。标签yi为图像数据xi的单分类标签。yi初始化为一个二值向量,其中只有索引i处的值设置为1,其他值设置为-1,公式(2)中的j表示类别ID。
由于每个人在X中都有多个图像数据,因此初始标签向量在表示人的身份线索时无效。标签预测需要为每个图像数据分配多类别的标签,这可以通过多标签分类损失(Multi-Label Classification Loss)对行人再识别模型进行训练。xi的标签可以通过将其图像特征fi引用到其他图像的图像特征来预测,并找到一致的特征组。另一方面,由于X中存在大量的图像类,训练多标签分类器比较困难。因此,可以使用fi作为第i类的分类器。下述公式用于计算任何图像数据xj的分类分数cj[i],
其中cj表示xj的多标签分类分数,上角标T为转置符号,fj表示第j个图像数据的图像特征。
由于标签预测和多标签分类都需要X中各图像数据的图像特征,因此需要引入一个n×d大小的存储库M来存储这些特征,其中M[i]=fi。在M中,分别提出了基于记忆的正标签预测(MPLP),即正标签预测,和基于记忆的多标签分类损失(MMCL),即多标签损失,用于待训练模型的训练。
其中MT×fi用于计算分类分数(score),D(.)表示通过比较分类分数和多分类标签计算损失。
M在每次训练迭代后更新为:
M[i]t=a·fi+(1-a)·M[i]t-1 (6)
其中,上标t表示第t个训练周期,a是更新率。然后用M[i]t←||M[i]t||2对M[i]t进行L2归一化。MPLP和MMCL都需要M中的稳健特征来分别寻找可靠的多分类标签和分类分数,因此,使用多种数据处理技术来增强M,每一个记忆特征M[i]结合了xi中不同增强样本的特征,因此具有更好的鲁棒性。
MPLP同时考虑相似性和循环一致性来预测使其比分类分数更准确,这使得用公式(5)计算的损失在增强行待训练模型时有效,进而产生对M[i]和对分类标签预测的正反馈。这个循环使得在未标记的数据集上训练有区别的行人再识别模型成为可能。
如公式(4)所示,给定图像数据xi的初始二值标记(单分类标签)yi,MPLP旨在寻找xi可能属于的其他类。对于xi,MPLP首先根据xi与其他记忆特征的相似性计算一个等级列表Ri,即
si,j=M[i]T×M[j] (8)
其中si,j表示xi和xj的相似性得分。
Ri为xi找到的可靠标签的候选排名表,即第一候选标签,例如排名靠前的多个标签。然而,光照、视点、背景等的变化会降低排名表的稳健性。例如,噪音标签(NoisyLabels)可能出现在排行榜的顶端。为了保证预测得到的多分类标签的质量,MPLP是指多分类标签预测的相似度得分和循环一致性。
根据相似度得分过滤标签:根据xi的候选排名表选出正标签的候选。使用候选阈值来选择与相xi关的第一候选标签。根据预设置的候选阈值t,通过去除相似度小于t的标签,可以生成ki个标签候选。
Pi=Ri[1:ki] (9)
其中Ri[ki]是相似度得分高于t的最后一个标签,Pi是xi的第一候选标签,为一个集合。t在很大程度上决定了候选标签的数量。公式(9)针对不同的图像数据自适应地寻找不同数量的第一候选标签,这比选择固定数量的标签,即图3中的K最近邻(k-NearestNeighbor,kNN)分类算法要好。如图3所示,为MPLP在寻找真正的阳性标签方面的精确性和召回率,其中MPLP在不同的训练阶段始终优于KNN。图4显示由MPLP选择的正标签(真标签)和负标签,其中MPLP有效地拒绝了硬负标签。
接下来,继续引入循环一致性来从Pi中找到正标签集。
基于循环一致性的标签过滤,即对第一候选标签进行硬负标签排除。如果两个图像属于同一类,它们的相邻图像集也应该是相似的。换言之,如果两个图像可以被赋予相似的标签,那么它们应该是相互相邻的。基于此,提出了一个循环一致性方案来过滤第一候选标签Pi中的硬负标签。
MPLP从头到尾遍历Pi中的标签。对于Pi中的标签j,在MPLP中使用公式(7)计算其相似度得分最高的ki个标签。如果标签i也是j的相似度得分最高的ki个标签之一,则j被视为xi的正标签。否则,将被视为硬负面标签。当找到第一个硬负面标签时,遍历停止。这能够确定图像xi的正标签集Pi *和硬负标签。正标签集表示为,
Pi *=Pi[1:l] (10)
其中l满足Pi *包含l个标签,xi将被分配一个带有l个正类的多类标签(多分类标签)。表示,对Pi[l]进行一次依据相似度得分来排序的操作,即,按照相似度得分,从高往低检查每一个标签Pi[l],对于标签Pi[l],将它作为图像xi,然后对其他标签进行排序,检查标签xi在Pi[l]的排序列表里面的位置,如果是前ki个,那么Pi[l]就认为是正确的,反之就是错的,当找到第一个错的Pi[l]时,停止。
预测到的多分类标签可以配合多标签分类损失函数用于对行人再识别模型进行训练。在传统的多标签分类方法中,sigmoid和logistic回归损失是一种常见的选择。对于n个类的任务,采用n个独立的二分类器进行分类。分类图像xi到j类的损失可以计算为,
其中n是数据集X中的图像数,它等于设定中的的类别数目。
因为M[j]T和fi是经过L2归一的,所以分类分数限制在[-1;1]之间。这限制了公式(12)中sigmoid功能的范围,使得即使正确分类,损失也不为零。此可以通过在分类分数上引入标量τ来解决。这将公式(12)更新为,
将相应的MCL损失表示为LMCL-τ。LMCL-τ的梯度可以通过公式(15)进行计算,
如图5所示,MCL-τ存在消失梯度问题,但是MMCL不存在消失梯度问题。
MCL损失的另一个问题是,由于任务涉及大量的类,使得正类和负类不平衡。在公式(14)中平等地对待这些负的类别可能会导致模型崩溃。因此,建议使用MMCL解决这些问题。
基于内存的多标签分类损失MMCL是针对传统MCL存在的两个问题而提出的。对于第一个问题,由于分数是以[-1;1]为界的,因此可以放弃sigmoid函数,直接通过将分类分数回归到1和-1来计算损失。这简化了损失计算,提高了训练效率。分类图像xi的损失到类j可以更新为,
其中fi是图像xi的特征。
第二个问题是正类别和负类别之间的不平衡。MMCL引入了硬负类挖掘来解决这个问题。由于在深度度量学习中,硬负样本对训练的信息量更大,因此,在多标签分类中,训练应该更多地关注硬负类(Hard Negative Classes)而不是简单负类(Easy NegativeClasses)。
对于xi,它的负类可以表示为Ri\Pi *。根据它们的分类分数对它们进行排名,并选择最高r%的级作为硬负类。xi的硬负类集合可以表示为Ni,|Ni|=(n-|Pi *|)·r%。
MMCL是在正类和采样的硬负类上计算的,如公式(17)所示,
其中δ是测量正类损失和负类损失重要性的系数,将在实验中进行测试。
图5中MCL和MMCL的比较清楚地表明,MMCL有效地解决了消失梯度问题。由于梯度消失,LMMCL-τ不会强制分类器对分数较大的正标签进行分类。这对降低类内方差(Intra-Class Variance)是有害的。因此,MMCL比MCL更能有效地优化行人再识别模型。图5还示出,δ控制MMCL的梯度的大小。当分类分数接近决策边界时,均方损失低于基于对数的损失(例如交叉熵)。δ通过调整MMCL的梯度大小有效地解决了这个问题。
通过采用硬负类挖掘策略,MMCL不仅适用于多标签分类,而且还可以在单标签分类中仍然存在不平衡类问题时,应用于单标签分类。与交叉熵损失和MCL相比,由于大量的类降低了softmax计算的速度,而MMCL放弃了softmax和sigmoid等激活函数,从而提高了计算效率。
本申请的方式也适用于转移学习环境。在给定一个包含标记的人图像的数据集时,可以对标记数据采用常用的交叉熵损失和三元组损失函数来训练模型。转移学习的总体训练损失Ltransfer可以表示为标记数据集上的MMCL和训练损失之和,即,
Ltransfer=Llabeled+LMMCL (19)
其中,Llabeled为训练损失,为交叉熵损失和三元组损失之和。
根据本申请的实施方式,还提出一种行人再识别系统,如图6所示,包括:
特征提取模块101,用于确定输入至待训练模型的训练集中的每个图像数据的单分类标签和记忆特征;根据训练集中的每个图像数据的图像特征和记忆特征集合,确定分类分数;
标签预测模块102,用于根据单分类标签和记忆特征集合,通过正标签预测,确定多分类标签;
损失计算与更新模块103,用于根据多分类标签和分类分数确定多标签分类损失;根据多标签分类损失,更新和训练待训练模型,得到识别模型。
识别模型包括训练好的特征提取模块和标签预测模块。
本申请的实施方式优选地,使用ResNet-50作为主干提取特征,并使用ImageNet上预先训练的参数对其进行初始化。在pooling-5层之后,移除后续层并添加一个批处理规范化层,这将生成2048dim特征。在测试过程中,还提取了pooling-5特征来计算距离。对于多标签分类,我们分配一个存储库M来存储L2归一化图像特征。存储库被初始化为全零,当存储库完全更新5次(5次之后)时,开始使用MPLP进行标签预测。利用CamStyle作为未标记图像数据的数据增强策略。为了提高特征的鲁棒性,还引入了随机裁剪、随机旋转、颜色抖动和随机删除等策略。
本申请的方法中,通过使用多种数据处理技术来增强记忆特征集合,能够增强鲁棒性,根据训练集中的每个图像数据的图像特征和所述记忆特征集合,确定分类分数,不受数据集领域影响;根据所述单分类标签和记忆特征集合,通过正标签预测,确定多分类标签,再根据所述多分类标签和分类分数确定多标签分类损失,更新和训练待训练模型,其中,使用硬负标签排除能够增强模型识别的准确率,使得最终得到的识别模型识别性能高,鲁棒性强,成本低。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种行人再识别方法,其特征在于,包括:
输入训练集至待训练模型,确定训练集中的每个图像数据的单分类标签和记忆特征;
根据所述单分类标签和记忆特征集合,通过正标签预测,确定多分类标签;
根据训练集中的每个图像数据的图像特征和所述记忆特征集合,确定分类分数;
根据所述多分类标签和分类分数确定多标签分类损失;
根据所述多标签分类损失,更新和训练待训练模型,得到识别模型。
2.根据权利要求1所述的行人再识别方法,其特征在于,所述确定训练集中的每个图像数据的单分类标签和记忆特征,包括:
对计算未标记的所述训练集中的每个图像数据进行单分类标签标记,得到多个单分类标签;
对未标记的训练集进行特征提取,得到图像特征,使用记忆特征更新公式,计算记忆特征,得到包括所有记忆特征的记忆特征集合。
3.根据权利要求2所述的行人再识别方法,其特征在于,所述记忆特征更新公式为:M[i]t=a·fi+(1-a)·M[i]t-1,其中,上标t表示第t个训练周期,a为更新率,M[i]为记忆特征集合,fi为图像特征。
4.根据权利要求3所述的行人再识别方法,其特征在于,在所述得到包括所有记忆特征的记忆特征集合之前,还包括:
对得到的所述记忆特征进行归一化。
5.根据权利要求1所述的行人再识别方法,其特征在于,所述通过正标签预测,确定多分类标签,包括:
计算记忆特征集合中的各记忆特征之间的相似度得分;
根据单分类标签,相似度得分和候选阈值,确定每个图像数据的第一候选标签;
对第一候选标签进行硬负标签排除,得到每个图像数据对应的第二候选标签集合;
将每个第二候选标签集合中的第二候选标签设为1,得到对应第二候选标签集合的正标签集;
根据正标签集,确定每个图像数据对应的多分类标签。
7.如权利要求1所述的行人再识别方法,其特征在于,在所述根据所述多标签分类损失,更新和训练待训练模型,得到识别模型之后,还包括:
使用得到的所述识别模型对行人进行再识别。
8.如权利要求1所述的行人再识别方法,其特征在于,在所述根据所述多标签分类损失,更新和训练待训练模型,得到识别模型之前,还包括:
若存在有标签数据集,则使用交叉熵损失、三元组损失和多标签分类损失之和作为更新和训练待训练模型的损失。
9.如权利要求1所述的行人再识别方法,其特征在于,所述训练集中的每个图像数据均为无标签数据,且每个图像数据只包括一个人。
10.一种行人再识别系统,其特征在于,包括:
特征提取模块,用于确定输入至待训练模型的训练集中的每个图像数据的单分类标签和记忆特征;根据训练集中的每个图像数据的图像特征和所述记忆特征集合,确定分类分数;
标签预测模块,用于根据所述单分类标签和记忆特征集合,通过正标签预测,确定多分类标签;
损失计算与更新模块,用于根据所述多分类标签和分类分数确定多标签分类损失;根据所述多标签分类损失,更新和训练待训练模型,得到识别模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010269718.6A CN111597887B (zh) | 2020-04-08 | 2020-04-08 | 一种行人再识别方法及系统 |
US17/021,102 US11182602B2 (en) | 2020-04-08 | 2020-09-15 | Method and system for person re-identification |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010269718.6A CN111597887B (zh) | 2020-04-08 | 2020-04-08 | 一种行人再识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597887A true CN111597887A (zh) | 2020-08-28 |
CN111597887B CN111597887B (zh) | 2023-02-03 |
Family
ID=72181888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010269718.6A Active CN111597887B (zh) | 2020-04-08 | 2020-04-08 | 一种行人再识别方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11182602B2 (zh) |
CN (1) | CN111597887B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661550A (zh) * | 2022-11-17 | 2023-01-31 | 之江实验室 | 基于生成对抗网络的图数据类别不平衡分类方法及装置 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191338B (zh) * | 2021-06-29 | 2021-09-17 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、装置、设备及可读存储介质 |
CN114022904B (zh) * | 2021-11-05 | 2023-01-24 | 湖南大学 | 一种基于两阶段的噪声鲁棒行人重识别方法 |
CN113822262B (zh) * | 2021-11-25 | 2022-04-15 | 之江实验室 | 一种基于无监督学习的行人重识别方法 |
CN114491024B (zh) * | 2021-12-31 | 2024-04-26 | 长城信息股份有限公司 | 一种基于小样本的特定领域多标签文本分类方法 |
CN116612500B (zh) * | 2023-07-20 | 2023-09-29 | 深圳须弥云图空间科技有限公司 | 行人重识别模型训练方法及装置 |
CN117058489B (zh) * | 2023-10-09 | 2023-12-29 | 腾讯科技(深圳)有限公司 | 多标签识别模型的训练方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299707A (zh) * | 2018-10-30 | 2019-02-01 | 天津师范大学 | 一种基于模糊深度聚类的无监督行人再识别方法 |
CN110135295A (zh) * | 2019-04-29 | 2019-08-16 | 华南理工大学 | 一种基于迁移学习的无监督行人重识别方法 |
WO2020042419A1 (zh) * | 2018-08-29 | 2020-03-05 | 汉王科技股份有限公司 | 基于步态的身份识别方法、装置、电子设备 |
CN110942025A (zh) * | 2019-11-26 | 2020-03-31 | 河海大学 | 一种基于聚类的无监督跨域行人重识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6908628B2 (ja) * | 2016-02-01 | 2021-07-28 | シー−アウト プロプライアタリー リミティド | 画像分類及びラベリング |
CN110163234B (zh) * | 2018-10-10 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置和存储介质 |
US11468298B2 (en) * | 2019-09-17 | 2022-10-11 | Adobe Inc. | Neural networks for multi-label classification of sequential data |
US11176417B2 (en) * | 2019-10-06 | 2021-11-16 | International Business Machines Corporation | Method and system for producing digital image features |
-
2020
- 2020-04-08 CN CN202010269718.6A patent/CN111597887B/zh active Active
- 2020-09-15 US US17/021,102 patent/US11182602B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020042419A1 (zh) * | 2018-08-29 | 2020-03-05 | 汉王科技股份有限公司 | 基于步态的身份识别方法、装置、电子设备 |
CN109299707A (zh) * | 2018-10-30 | 2019-02-01 | 天津师范大学 | 一种基于模糊深度聚类的无监督行人再识别方法 |
CN110135295A (zh) * | 2019-04-29 | 2019-08-16 | 华南理工大学 | 一种基于迁移学习的无监督行人重识别方法 |
CN110942025A (zh) * | 2019-11-26 | 2020-03-31 | 河海大学 | 一种基于聚类的无监督跨域行人重识别方法 |
Non-Patent Citations (2)
Title |
---|
袁配配 等: "基于深度学习的行人属性识别", 《激光与光电子学进展》 * |
陈巧媛 等: "基于困难样本三元组损失的多任务行人再识别", 《计算机辅助设计与图形学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661550A (zh) * | 2022-11-17 | 2023-01-31 | 之江实验室 | 基于生成对抗网络的图数据类别不平衡分类方法及装置 |
CN115661550B (zh) * | 2022-11-17 | 2023-05-30 | 之江实验室 | 基于生成对抗网络的图数据类别不平衡分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US20210319215A1 (en) | 2021-10-14 |
US11182602B2 (en) | 2021-11-23 |
CN111597887B (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597887B (zh) | 一种行人再识别方法及系统 | |
Verma et al. | Learning hierarchical similarity metrics | |
Wu et al. | Cluster boosted tree classifier for multi-view, multi-pose object detection | |
US8842883B2 (en) | Global classifier with local adaption for objection detection | |
Gando et al. | Fine-tuning deep convolutional neural networks for distinguishing illustrations from photographs | |
CN110942025A (zh) | 一种基于聚类的无监督跨域行人重识别方法 | |
Yaakob et al. | An insect classification analysis based on shape features using quality threshold ARTMAP and moment invariant | |
CN103136504A (zh) | 人脸识别方法及装置 | |
Ju et al. | Fish species recognition using an improved AlexNet model | |
Shrein | Fingerprint classification using convolutional neural networks and ridge orientation images | |
Perrotton et al. | Implicit hierarchical boosting for multi-view object detection | |
James et al. | Nearest neighbor classifier based on nearest feature decisions | |
CN114882534B (zh) | 基于反事实注意力学习的行人再识别方法、系统、介质 | |
Jiang et al. | Efficient scale space auto-context for image segmentation and labeling | |
Sadeghi et al. | Deep multirepresentation learning for data clustering | |
CN116910571B (zh) | 一种基于原型对比学习的开集域适应方法及系统 | |
Zhang et al. | A Face Detection Method Based on Image Processing and Improved Adaptive Boosting Algorithm. | |
Turtinen et al. | Contextual analysis of textured scene images. | |
Wijesinghe et al. | Deep supervised hashing through ensemble cnn feature extraction and low-rank matrix factorization for retinal image retrieval of diabetic retinopathy | |
Hattori et al. | Patch-Based Convolutional Neural Network for the Writer Classification Problem in Music Score Images | |
Pan et al. | A two-stage shape retrieval (TSR) method with global and local features | |
Yu et al. | Bag of contour fragments for improvement of object segmentation | |
Sîrbu | Dynamic machine learning for supervised and unsupervised classification | |
Ulaş et al. | Hybrid generative-discriminative nucleus classification of renal cell carcinoma | |
TINANI et al. | LITERATURE REVIEW ON METHODS OF CLASSIFICATIONIN PATTERN RECOGNITION |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |