CN112861691B - 基于部位感知建模的遮挡场景下的行人重识别方法 - Google Patents
基于部位感知建模的遮挡场景下的行人重识别方法 Download PDFInfo
- Publication number
- CN112861691B CN112861691B CN202110139873.0A CN202110139873A CN112861691B CN 112861691 B CN112861691 B CN 112861691B CN 202110139873 A CN202110139873 A CN 202110139873A CN 112861691 B CN112861691 B CN 112861691B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- features
- image
- att
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于部位感知建模的行人重识别方法,包括以下步骤:获取行人图像;对所述行人图像进行特征提取和降维;将处理后的图像特征输入到基于图片上下文信息的Transformer编码器,经过第一处理后得到图像全局特征的行人特征;将非全局特征的行人特征输入基于行人部位原型的Transformer解码器,经过第二处理后得到行人部位特征;将所述行人部位特征与所述全局特征的行人特征连接在一起作为最终的行人特征表示,进行行人图像的检索与匹配,实现行人重识别。通过这样的设计,该方法可以鲁棒的实现行人可见部位的定位,并且在遮挡的场景下具有较好的性能表现。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于部位感知建模的遮挡场景下的行人重识别方法。
背景技术
行人重识别是一项跨摄像头跨场景下搜寻与匹配目标行人的技术。行人重识别技术可以与行人检测、行人跟踪技术相结合,在视频监控、智能安防、刑事侦查等方面有着广泛应用。
传统的行人重识别方法大多假设行人图像包含了目标行人的整个身体。然而在现实场景中(例如商场、地铁站)进行行人重识别时,行人的遮挡问题是不可避免的。因此,设计有效的模型去解决遮挡场景下的行人重识别问题是十分必要的。
目前的遮挡场景下的行人重识别方法可以归为三类。基于手工分块的方法直接将行人特征进行水平分块,将每一块的特征作为行人某个部位的特征。但是这样的手工分块比较粗略,容易受到背景遮挡的影响。基于额外语义模型的方法,往往会使用一个预训练好的人体分割模型或者姿态估计模型去得到行人部位的信息。然而,由于不同任务的训练集之间存在差别,这些模型在行人重识别数据集中的表现不够稳定,很容易引入背景噪声。基于注意力机制的方法通常会设计注意力机制去使得模型注意到行人的部位。
在实现本发明构思的过程中,发明人发现相关技术中至少存在如下问题:现有的方法由于没有具体的行人部位的位置信息,这些方法很容易只关注到最具有判别力的区域,而忽视了其它对行人重识别问题有意义的信息,因此,现有技术的方法存在着遮挡场景下行人部位不对齐的问题。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于部位感知建模的遮挡场景下的行人重识别方法,以期部分地解决上述技术问题中的至少之一。
为了实现上述目的,本发明提供了一种基于部位感知建模的遮挡场景下的行人重识别方法,包括以下步骤:
包括以下步骤:
获取行人图像;
对所述行人图像进行特征提取和降维;
将处理后的图像特征输入到基于图片上下文信息的Transformer编码器,经过第一处理后得到图像全局特征的行人特征;
将非全局特征的行人特征输入基于行人部位原型的Transformer解码器,经过第二处理后得到行人部位特征;
将所述行人部位特征与所述全局特征的行人特征连接在一起作为最终的行人特征表示,进行行人图像的检索与匹配,实现行人重识别。
其中,所述获取行人图像是在遮挡场景下进行的。
其中,所述特征提取是通过ResNet-50网络实现的。
其中,所述降维是通过1×1的卷积实现的。
其中,所述第一处理包括:
根据降维后的图像特征F=[f1;f2;…;fhw],使用全连接层将空间特征fi、fj映射到不同嵌入空间,得到Qi、Kj、Vj;
计算Qi、Kj之间的相似度βi,j,对βi,j进行归一化得到归一化的自注意力权重si,j;
其中,所述第一处理过程用公式表示如下:
Qi=fiWQ,Kj=fjWK,Vj=fjWV
fg=GAP(Fatt)。
其中,所述第二处理包括:
计算Qi、Kj之间的相似度βi,j,对βi,j进行归一化得到归一化的注意力权重mi,j;
其中,所述第二处理过程用公式表示如下:
其中,所述基于图片上下文信息的Transformer编码器在学习的过程中使用分类损失与三元组损失进行约束。
其中,所述基于行人部位原型的Transformer解码器在学习的过程中使用分类损失、三元组损失及多样性损失进行约束。
基于上述技术方案可知,本发明的行人重识别方法相对于现有技术至少具有如下有益效果的一部分:
与现有方法相比,该方法不依赖于额外的语义模型,整个网络可以被端到端(编码器-解码器)训练;该方法能够更好的捕获图片的上下文信息,因此对现实场景中的背景杂乱、摄像机的视角变化等挑战具有更好的鲁棒性;该方法通过设计多个行人部位原型关注于行人不同的部位,并通过多样性损失约束部位原型的学习。通过这样的设计,该方法可以鲁棒的实现行人可见部位的定位,并且在遮挡的场景下具有较好的性能表现。
附图说明
图1是本发明实施例提供的基于部位感知建模的遮挡场景下的行人重识别方法的流程图;
图2是本发明实施例提供的部位感知的Transformer模型框架。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明提出一个可以端到端训练的模型,并且可以根据行人身份信息自适应的关注到行人不同部位,从而解决遮挡场景下行人部位不对齐的问题。本发明的目的在于根据输入的目标行人图像,判断不同监控摄像头下出现的行人图像是否属于同一行人。
如图1所示,为基于部位感知建模的遮挡场景下的行人重识别方法的流程图,具体包括:
获取行人图像;
对所述行人图像进行特征提取和降维;
将处理后的图像特征输入到基于图片上下文信息的Transformer编码器,经过第一处理后得到图像全局特征的行人特征;
将非全局特征的行人特征输入基于行人部位原型的Transformer解码器,经过第二处理后得到行人部位特征;
将所述行人部位特征与所述全局特征的行人特征连接在一起作为最终的行人特征表示,进行行人图像的检索与匹配,实现行人重识别。
在进一步的实施例中,所述获取行人图像是在遮挡场景下进行的。
在进一步的实施例中,所述特征提取是通过ResNet-50网络实现的。
在进一步的实施例中,所述降维是通过1×1的卷积实现的。
在进一步的实施例中,基于图片上下文信息的Transformer编码器进行的第一处理包括:
(1)根据降维后的图像特征F=[f1;f2;…;fhw],使用全连接层将空间特征fi、fj映射到不同嵌入空间,得到Qi、Kj、Vj;
(2)计算Qi、Kj之间的相似度βi,j,对βi,j进行归一化得到归一化的自注意力权重si,j;
在进一步的实施例中,基于行人部位原型的Transformer解码器进行的第二处理包括:
(2)计算Qi、Kj之间的相似度βi,j,对βi,j进行归一化得到归一化的注意力权重mi,j;
在进一步的实施例中,基于图片上下文信息的Transformer编码器在学习的过程中使用分类损失与三元组损失进行约束。
在进一步的实施例中,基于行人部位原型的Transformer解码器在学习的过程中使用分类损失、三元组损失及多样性损失进行约束。
如图2所示,为部位感知的Transformer模型框架,该模型由两部分构成:(1)基于图片上下文信息的Transformer编码器模块;(2)基于行人部位原型的Transformer解码器模块。
(1)基于图像上下文信息的Transformer编码器模块。对于输入的行人图像,首先经过通过ResNet-50主干网络提取图像的特征,再经过1×1的卷积降低特征的维度。输入transformer编码器的图像特征为:
F=[f1;f2;…;fhw]
在自注意力层中,使用自注意力机制,使得图像中的每个像素都可以捕获图像的上下文信息。整个自注意力层的操作可以公式表达为:
Qi=fiWQ,Kj=fjWK,Vj=fjWV
最后,针对得到的特征Fatt,使用全局平均池化得到图像的全局特征:
fg=GAP(Fatt)
(2)基于行人部位原型的Transformer解码器模块。首先,为了学习行人不同部位的特征,引入了K个可学习的行人部位原型 每个原型关注于行人一个区域,如头部、身体、腿部等。这些部位原型通过一个自注意力层,使得每个原型都能捕获其余行人部位的上下文信息,得到更新的行人部位原型之后,将行人特征Fatt和行人部位原型输入到跨注意力层中,可以得到K个代表行人部位的mask。最后,通过加权池化可以得到K个部位感知的行人特征。整个过程可以公式表示为:
此外,还包括编码器和解码器在训练过程中涉及到的损失函数。根据行人的身份信息,使用分类损失与三元组损失分别约束编码器与解码器的学习。此外,为了使得学习到的行人部位原型关注于不同的行人部位,还设计了一个多样性损失:
最终模型的损失函数定义为:
本发明通过Transformer模型学习行人部位感知的特征,广泛应用于广泛应用于安防系统、智慧城市、自动驾驶等场景。在实施上,可以以软件的方式安装于前端设备上,提供实时行人图像匹配;也可以安装于公司的后台服务器,提供大批量行人图像检索与匹配结果。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于部位感知建模的行人重识别方法,其特征在于,包括以下步骤:
获取行人图像,其中,所述获取行人图像是在遮挡场景下进行的;
对所述行人图像进行特征提取和降维;
将处理后的图像特征输入到基于图片上下文信息的Transformer编码器,经过第一处理后得到图像全局特征的行人特征;
将非全局特征的行人特征输入基于行人部位原型的Transformer解码器,经过第二处理后得到行人部位特征;
将所述行人部位特征与所述全局特征的行人特征连接在一起作为最终的行人特征表示,进行行人图像的检索与匹配,实现行人重识别;
其中,所述第一处理包括:
(1)根据降维后的图像特征F=[f1;f2;...;fhw],使用全连接层将空间特征fi、fj映射到不同嵌入空间,得到Qi、Kj、Vj;
(2)计算Qi、Kj之间的相似度βi,j,对βi,j进行归一化得到归一化的自注意力权重si,j;
所述第一处理过程用公式表示如下:
Qi=fiWQ,Kj=fjWK,Vj=fjWV
fg=GAP(Fatt);
所述第二处理包括:
计算Qi、Kj之间的相似度βi,j,对βi,j进行归一化得到归一化的注意力权重mi,j;
所述第二处理过程用公式表示如下:
2.根据权利要求1所述的行人重识别方法,其特征在于,所述特征提取是通过ResNet-50网络实现的。
3.根据权利要求1所述的行人重识别方法,其特征在于,所述降维是通过1×1的卷积实现的。
4.根据权利要求1所述的行人重识别方法,其特征在于,所述基于图片上下文信息的Transformer编码器在学习的过程中使用分类损失与三元组损失进行约束。
5.根据权利要求1所述的行人重识别方法,其特征在于,所述基于行人部位原型的Transformer解码器在学习的过程中使用分类损失、三元组损失及多样性损失进行约束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110139873.0A CN112861691B (zh) | 2021-01-29 | 2021-01-29 | 基于部位感知建模的遮挡场景下的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110139873.0A CN112861691B (zh) | 2021-01-29 | 2021-01-29 | 基于部位感知建模的遮挡场景下的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861691A CN112861691A (zh) | 2021-05-28 |
CN112861691B true CN112861691B (zh) | 2022-09-09 |
Family
ID=75987547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110139873.0A Active CN112861691B (zh) | 2021-01-29 | 2021-01-29 | 基于部位感知建模的遮挡场景下的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861691B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627266B (zh) * | 2021-07-15 | 2023-08-18 | 武汉大学 | 基于Transformer时空建模的视频行人重识别方法 |
CN113673420B (zh) * | 2021-08-19 | 2022-02-15 | 清华大学 | 一种基于全局特征感知的目标检测方法及系统 |
CN114091548B (zh) * | 2021-09-23 | 2024-08-09 | 昆明理工大学 | 一种基于关键点和图匹配的车辆跨域重识别方法 |
CN113673489B (zh) * | 2021-10-21 | 2022-04-08 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
CN113688271B (zh) * | 2021-10-25 | 2023-05-16 | 浙江大华技术股份有限公司 | 一种目标对象的档案搜索方法及相关装置 |
CN114494609B (zh) * | 2022-04-02 | 2022-09-06 | 中国科学技术大学 | 一种3d目标检测模型的构建方法、装置和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316031A (zh) * | 2017-07-04 | 2017-11-03 | 北京大学深圳研究生院 | 用于行人重识别的图像特征提取方法 |
CN110414368A (zh) * | 2019-07-04 | 2019-11-05 | 华中科技大学 | 一种基于知识蒸馏的无监督行人重识别方法 |
CN111340738A (zh) * | 2020-03-24 | 2020-06-26 | 武汉大学 | 一种基于多尺度渐进融合的图像去雨方法 |
CN111488474A (zh) * | 2020-03-21 | 2020-08-04 | 复旦大学 | 基于增强注意力的细粒度手绘草图图像检索方法 |
CN112036250A (zh) * | 2020-08-04 | 2020-12-04 | 汇纳科技股份有限公司 | 基于邻域协同注意力的行人重识别方法、系统、介质及终端 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10395385B2 (en) * | 2017-06-27 | 2019-08-27 | Qualcomm Incorporated | Using object re-identification in video surveillance |
-
2021
- 2021-01-29 CN CN202110139873.0A patent/CN112861691B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316031A (zh) * | 2017-07-04 | 2017-11-03 | 北京大学深圳研究生院 | 用于行人重识别的图像特征提取方法 |
CN110414368A (zh) * | 2019-07-04 | 2019-11-05 | 华中科技大学 | 一种基于知识蒸馏的无监督行人重识别方法 |
CN111488474A (zh) * | 2020-03-21 | 2020-08-04 | 复旦大学 | 基于增强注意力的细粒度手绘草图图像检索方法 |
CN111340738A (zh) * | 2020-03-24 | 2020-06-26 | 武汉大学 | 一种基于多尺度渐进融合的图像去雨方法 |
CN112036250A (zh) * | 2020-08-04 | 2020-12-04 | 汇纳科技股份有限公司 | 基于邻域协同注意力的行人重识别方法、系统、介质及终端 |
Non-Patent Citations (2)
Title |
---|
Part-based Structured Representation Learning for Person Re-identification:ACM,Person and Re-identification and Transformer;YAOYU LI 等;《2020 Association for Computing Machinery》;20201231;全文 * |
基于特征融合的行人重识别算法;钱华明 等;《应用科技》;20191107;第29-34,43页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112861691A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112861691B (zh) | 基于部位感知建模的遮挡场景下的行人重识别方法 | |
Wan et al. | Region-aware reflection removal with unified content and gradient priors | |
CN111539370A (zh) | 一种基于多注意力联合学习的图像行人重识别方法和系统 | |
CN115063573B (zh) | 一种基于注意力机制的多尺度目标检测方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN112581409B (zh) | 一种基于端到端的多重信息蒸馏网络的图像去雾方法 | |
CN110751018A (zh) | 一种基于混合注意力机制的群组行人重识别方法 | |
CN113822246B (zh) | 一种基于全局参考注意力机制的车辆重识别方法 | |
CN110765841A (zh) | 基于混合注意力机制的群组行人重识别系统及终端 | |
Zhao et al. | Semantic segmentation of remote sensing image based on regional self-attention mechanism | |
CN116385707A (zh) | 基于多尺度特征与特征增强的深度学习场景识别方法 | |
CN115497122A (zh) | 遮挡行人重识别方法、装置、设备和计算机可存储介质 | |
CN114494297A (zh) | 处理多种先验知识的自适应视频目标分割方法 | |
CN114898080A (zh) | 一种基于ViT网络的图像成像设备识别方法 | |
CN114926734A (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
CN114926796A (zh) | 一种基于新式混合注意力模块的弯道检测方法 | |
CN114529842A (zh) | 一种基于知识引导下双向注意力机制的人物交互检测方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN118196405A (zh) | 基于可见光和红外图像特征融合的电力设备语义分割方法 | |
Luo et al. | An efficient multi-scale channel attention network for person re-identification | |
CN117079305A (zh) | 姿态估计方法、姿态估计装置以及计算机可读存储介质 | |
WO2022252519A1 (zh) | 图像处理方法、装置、终端、介质和程序 | |
CN115988260A (zh) | 一种图像处理方法、装置及电子设备 | |
CN113920317A (zh) | 基于可见光图像和低分辨率深度图像的语义分割方法 | |
Nan et al. | Multi-scale attention and structural relation graph for local feature matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |