CN113569814A - 一种基于特征一致性的无监督行人重识别方法 - Google Patents
一种基于特征一致性的无监督行人重识别方法 Download PDFInfo
- Publication number
- CN113569814A CN113569814A CN202111038158.4A CN202111038158A CN113569814A CN 113569814 A CN113569814 A CN 113569814A CN 202111038158 A CN202111038158 A CN 202111038158A CN 113569814 A CN113569814 A CN 113569814A
- Authority
- CN
- China
- Prior art keywords
- model
- feature
- features
- image
- consistency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于特征一致性的无监督行人重识别方法。包括如下步骤:1:基于随机特征掩码设计具有鲁棒性的特征提取模型,之后基于特征提取模型计算时间平均模型;2:将行人图像分别馈送到特征提取模型和时间平均模型两次,得到四个特征,通过一致性损失使四个特征相互逼近;3:对特征提取模型所提取的特征进行聚类,之后依据独立性和紧凑型对聚类结果进行调整,最终基于聚类结果对模型进行微调。本发明设计的基于特征一致性的方法旨在通过随机掩盖图像的部分信息使特征提取模型更加关注图像的高级语义信息,从而提升特征提取模型的鲁棒性。
Description
技术领域:
本发明涉及行人重识别领域,尤其涉及一种基于特征一致性的无监督行人重识别方法。
背景技术:
近年来,卷积神经网络在计算机视觉任务中取得了前所未有的成功。这种成功往往基于现有的大规模的标记数据集,然而大规模数据标注成本高且费力,尤其是对于复杂数据(如图像检索)。与依赖大量监督的方法相比,自监督学习是一种可以容易地从数据本身获得监督信号,并利用它来促进自身学习的方式,该方式不需要大量的人工注释监督。
行人重识别的要求是将感兴趣的人与来自非重叠摄像机的具有相同身份的图像进行匹配。现有的无监督行人重识别方法首先从网络模型中提取未标记数据集的嵌入特征,然后应用无监督聚类将图像分成不同的聚类用于训练模型。这些方法通过简单地使用聚类算法生成伪标签作为指导,因此没有充分挖掘数据本身存在的语义信息,该类方法往往限制了学习模型的表示能力。此外,目前基于聚类的方法往往专注于捕捉局部信息和低层特征(如颜色、对比度、纹理等),这些信息具有较低的鲁棒性。
为了解决上述问题,本发明通过学习特征一致性,使得聚类网络可以将图像分成语义聚类,而不是集中在低级特征上。类似于无监督表示学习,特征一致性的目的是学习支持视觉和时间一致性推理的特征表示。本发明将重点放在构建静态人物图像的一致性上,以便在行人重识别框架下进行无监督表示学习。为了从单个图像中构造一致的信息,并将其转化为优化网络的学习信号,本发明将同一张图像分别馈送到当前模型和平均模型两次,以产生图像的四个编码视图(即特征表示)。最后,通过潜在空间中的一致性损失最大化以上四个编码特征之间的一致性来确保视图间的一致性。
发明内容:
本发明的目的是克服现有方法的不足,基于无监督行人重识别方法,特别是涉及一种基于特征一致性的无监督行人重识别方法,以解决无监督行人重识别中特征提取模型鲁棒性较低的问题。
一种基于特征一致性的无监督行人重识别方法,其特征在于,包括如下步骤:
步骤1:基于随机特征掩码设计具有鲁棒性的特征提取模型,之后基于特征提取模型计算时间平均模型;
步骤2:将行人图像分别馈送到特征提取模型和时间平均模型两次,得到四个特征,通过一致性损失使四个特征相互逼近;
步骤3:对特征提取模型所提取的特征进行聚类,之后依据独立性和紧凑型对聚类结果进行调整,最终基于聚类结果对模型进行微调。
步骤1的实现包括:
步骤1.1:在基于ResNet-50的特征提取模型前加入随机掩码层,对输入到模型的行人图像进行预处理:使用随机特征掩码对行人图像的部分信息进行掩盖;
其中θt为模型在t次迭代时的参数,α∈[0,1)为时间动量。
步骤2的实现包括:
步骤2.1:将同一图像x输入到模型两次,得到两个图像特征:
fi=F(xi),i=1,2
其中x1为每次输入到模型的图像,fi为图像特征,F为参数化的特征提取模型。由于特征提取模型中包含随机掩码层,同一图像在两次输入中被掩盖了不同的区域,故得到的特征向量往往不同;
步骤2.2:将同一图像xi输入到平均模型两次,得到两个图像特征:
fi m=Fm(xi),i=1,2
其中fi m为图像特征,Fm为参数化的特征提取模型。由于平均模型中同样包含随机掩码层,同一图像在两次输入中被掩盖了不同的区域,故得到的特征向量往往也不同;
步骤2.3:使用一致性损失减小以上四个特征的距离,例如f1和f2之间的一致性损失被定义为:
L1=||f1-f2||2
步骤3的实现包括:
步骤3.1:使用特征存储器对特征提取模型所提取的特征进行存储,之后对所有特征进行自下而上的层次聚类;
步骤3.2:依次判断聚类结果是否同时满足独立性和紧凑性,即簇之间是否相互独立,簇内样本是否足够紧凑。若满足要求则保留结果,否则进行拆分;
步骤3.3:基于聚类结果,使用困难三元组损失对模型进行微调:
其中dist(·,·)为用于测量两个特征距离的函数。基于KP采样(首先选取K个身份,之后在每个身份中选取P个样本),最小化最困难的正样本对的距离,最大化最困难的负样本对的距离。
本发明的有益效果:考虑到目前特征提取模型的鲁棒性较低,易受图像的局部信息和低层特征的影响,本发明对图像实施随机掩码,通过使具有不同掩码的图像特征彼此靠近,并使模型和平均模型的特征相互考前,企图使模型能够通过未被掩盖区域预测被掩盖区域,从而使模型对局部信息和底层特征具有较高的鲁棒性。
附图说明:
图1是一种基于特征一致性的无监督行人重识别方法的流程图。
图2是一种基于特征一致性的无监督行人重识别方法的整体框架图。
图3是随机掩码示意图。
具体实施方式:
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施的具体流程图,图2是本发明的整体框架图,如图1和图2所示,该方法包括:
步骤1:基于随机特征掩码设计具有鲁棒性的特征提取模型,之后基于特征提取模型计算时间平均模型;
步骤2:将行人图像分别馈送到特征提取模型和时间平均模型两次,得到四个特征,通过一致性损失使四个特征相互逼近;
步骤3:对特征提取模型所提取的特征进行聚类,之后依据独立性和紧凑型对聚类结果进行调整,最终基于聚类结果对模型进行微调。
步骤1的实现包括:
步骤1.1:在基于ResNet-50的特征提取模型前加入随机掩码层,对输入到模型的行人图像进行预处理:如图3所示,使用随机特征掩码对行人图像的部分信息进行掩盖;
其中θt为模型在t次迭代时的参数,α∈[0,1)为时间动量。
步骤2的实现包括:
步骤2.1:将同一图像x输入到模型两次,得到两个图像特征:
fi=F(xi),i=1,2
其中x1为每次输入到模型的图像,fi为图像特征,F为参数化的特征提取模型。由于特征提取模型中包含随机掩码层,同一图像在两次输入中被掩盖了不同的区域,故得到的特征向量往往不同;
步骤2.2:将同一图像xi输入到平均模型两次,得到两个图像特征:
fi m=Fm(xi),i=1,2
其中fi m为图像特征,Fm为参数化的特征提取模型。由于平均模型中同样包含随机掩码层,同一图像在两次输入中被掩盖了不同的区域,故得到的特征向量往往也不同;
步骤2.3:如图2所示,使用一致性损失减小以上四个特征的距离,例如f1和f2之间的一致性损失被定义为:
L1=||f1-f2||2
步骤3的实现包括:
步骤3.1:使用特征存储器对特征提取模型所提取的特征进行存储,之后对所有特征进行自下而上的层次聚类;
步骤3.2:依次判断聚类结果是否同时满足独立性和紧凑性,即簇之间是否相互独立,簇内样本是否足够紧凑。若满足要求则保留结果,否则进行拆分;
步骤3.3:基于聚类结果,使用困难三元组损失对模型进行微调:
其中dist(·,·)为用于测量两个特征距离的函数。基于KP采样(首先选取K个身份,之后在每个身份中选取P个样本),最小化最困难的正样本对的距离,最大化最困难的负样本对的距离。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
以上结合附图所述,仅为本发明的具体实施方式及流程,但本发明的保护范围并不局限于此,任何熟悉本领域的技术人员应当理解,此仅为举例说明,可以对此实施方式做出多种变化和替换,而不背离本发明的实质内容。本发明的范围仅由所附权利要求书限定。
本发明通过参考附图描述的实施方式是示例性的,仅用于对本发明进行解释,不能理解为对本发明的限制,本发明的实施例具体范围不受此限制,相反,本发明的所有实施例包括落入所附权利要求书的精神和内涵范围内的所有变化和修改。
Claims (4)
1.一种基于特征一致性的无监督行人重识别方法,其特征在于:包括如下步骤:
步骤1:基于随机特征掩码设计具有鲁棒性的特征提取模型,之后基于特征提取模型计算时间平均模型;
步骤2:将行人图像分别馈送到特征提取模型和时间平均模型两次,得到四个特征,通过一致性损失使四个特征相互逼近;
步骤3:对特征提取模型所提取的特征进行聚类,之后依据独立性和紧凑型对聚类结果进行调整,最终基于聚类结果对模型进行微调。
2.根据权利要求1所述的基于特征一致性的无监督行人重识别方法,其特征在于:步骤1具体包括以下步骤:
步骤1.1:在基于ResNet-50的特征提取模型前加入随机掩码层,对输入到模型的行人图像进行预处理:使用随机特征掩码对行人图像的部分信息进行掩盖;
步骤1.2:首先在ImageNet上对模型进行预训练,并基于现有模型计算平均模型,平均模型在t次迭代时的参数θt m被计算为:
θt m=αθt+(1-α)θt-1
其中θt为模型在t次迭代时的参数,α∈[0,1)为时间动量。
3.根据权利要求1所述的基于特征一致性的无监督行人重识别方法,其特征在于:步骤2具体包括以下步骤:
步骤2.1:将同一图像x输入到模型两次,得到两个图像特征:
fi=F(xi),i=1,2
其中x1为每次输入到模型的图像,fi为图像特征,F为参数化的特征提取模型。由于特征提取模型中包含随机掩码层,同一图像在两次输入中被掩盖了不同的区域,故得到的特征向量往往不同;
步骤2.2:将同一图像xi输入到平均模型两次,得到两个图像特征:
fi m=Fm(xi),i=1,2
其中fi m为图像特征,Fm为参数化的特征提取模型。由于平均模型中同样包含随机掩码层,同一图像在两次输入中被掩盖了不同的区域,故得到的特征向量往往也不同;
步骤2.3:使用一致性损失减小以上四个特征的距离,例如f1和f2之间的一致性损失被定义为:
L1=||f1-f2||2
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111038158.4A CN113569814A (zh) | 2021-09-06 | 2021-09-06 | 一种基于特征一致性的无监督行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111038158.4A CN113569814A (zh) | 2021-09-06 | 2021-09-06 | 一种基于特征一致性的无监督行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113569814A true CN113569814A (zh) | 2021-10-29 |
Family
ID=78173563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111038158.4A Pending CN113569814A (zh) | 2021-09-06 | 2021-09-06 | 一种基于特征一致性的无监督行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569814A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677565A (zh) * | 2022-04-08 | 2022-06-28 | 北京百度网讯科技有限公司 | 特征提取网络的训练方法和图像处理方法、装置 |
CN115082758A (zh) * | 2022-08-19 | 2022-09-20 | 深圳比特微电子科技有限公司 | 目标检测模型的训练方法、目标检测方法、装置和介质 |
-
2021
- 2021-09-06 CN CN202111038158.4A patent/CN113569814A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677565A (zh) * | 2022-04-08 | 2022-06-28 | 北京百度网讯科技有限公司 | 特征提取网络的训练方法和图像处理方法、装置 |
CN115082758A (zh) * | 2022-08-19 | 2022-09-20 | 深圳比特微电子科技有限公司 | 目标检测模型的训练方法、目标检测方法、装置和介质 |
CN115082758B (zh) * | 2022-08-19 | 2022-11-11 | 深圳比特微电子科技有限公司 | 目标检测模型的训练方法、目标检测方法、装置和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN108829677B (zh) | 一种基于多模态注意力的图像标题自动生成方法 | |
CN114022432B (zh) | 基于改进的yolov5的绝缘子缺陷检测方法 | |
Zhang et al. | Efficient inductive vision transformer for oriented object detection in remote sensing imagery | |
CN112132197B (zh) | 模型训练、图像处理方法、装置、计算机设备和存储介质 | |
CN114926469B (zh) | 语义分割模型训练方法、语义分割方法、存储介质及终端 | |
CN113569814A (zh) | 一种基于特征一致性的无监督行人重识别方法 | |
CN114092742B (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
CN115439857A (zh) | 一种基于复杂背景图像的倾斜字符识别方法 | |
CN111680702A (zh) | 一种使用检测框实现弱监督图像显著性检测的方法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN115512103A (zh) | 多尺度融合遥感图像语义分割方法及系统 | |
CN113487618A (zh) | 人像分割方法、装置、电子设备及存储介质 | |
CN112884758A (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN117079163A (zh) | 一种基于改进yolox-s的航拍图像小目标检测方法 | |
CN111008979A (zh) | 一种鲁棒的夜晚图像语义分割方法 | |
CN115311598A (zh) | 基于关系感知的视频描述生成系统 | |
CN114333062B (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
Liao et al. | VLM2Scene: Self-Supervised Image-Text-LiDAR Learning with Foundation Models for Autonomous Driving Scene Understanding | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN117132997B (zh) | 一种基于多头注意力机制和知识图谱的手写表格识别方法 | |
CN114168773A (zh) | 一种基于伪标签和重排序的半监督草图图像检索方法 | |
Shen et al. | BSH-Det3D: improving 3D object detection with BEV shape heatmap | |
Zhang | [Retracted] Sports Action Recognition Based on Particle Swarm Optimization Neural Networks | |
CN116304691A (zh) | 一种基于平均教师的多视图对比学习的网络分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |