CN114973317B - 一种基于多尺度邻接交互特征的行人重识别方法 - Google Patents
一种基于多尺度邻接交互特征的行人重识别方法 Download PDFInfo
- Publication number
- CN114973317B CN114973317B CN202210526758.3A CN202210526758A CN114973317B CN 114973317 B CN114973317 B CN 114973317B CN 202210526758 A CN202210526758 A CN 202210526758A CN 114973317 B CN114973317 B CN 114973317B
- Authority
- CN
- China
- Prior art keywords
- feature
- scale
- features
- interaction
- pedestrian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 230000009133 cooperative interaction Effects 0.000 claims description 6
- 239000012633 leachable Substances 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000006116 polymerization reaction Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000364483 Lipeurus epsilon Species 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003828 downregulation Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度邻接交互特征的行人重识别方法,它涉及图像识别技术领域。获取采集的视频文件,裁剪目标图像,配对同一目标,将ResNet50作为主干网络,获取初始多尺度特征;将目标特征从第三层开始依次使用SOA;将各层的目标特征输入到Bottleneck提取局部信息,对齐空间大小;将特征图输入到Transformer网络,得到全局特征;将局部特征和全局特征按照特征维度联合,并将联合特征切片,经同尺度特征交互和跨尺度特征交互操作得目标的多尺度邻接特征表示,最后通过损失函数训练得到行人重识别模型。本发明提高行人重识别的鲁棒性,有效抑制目标被密集地划分而导致得语义信息模糊和背景干扰问题。
Description
技术领域
本发明涉及的是图像识别技术领域,具体涉及一种基于多尺度邻接交互特征的行人重识别方法。
背景技术
行人重识别(Personre-identification,简称Re-ID)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,被广泛认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限,并可与行人检测和行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。在监控视频中,由于相机分辨率和拍摄角度的缘故,通常无法得到质量非常高的人脸图片。当人脸识别失效的情况下,Re-ID就成为了一个非常重要的替代品技术。在尺度变换、遮挡和换装等复杂情况下,重识别精度会大幅降低。如何提高行人重识别的鲁棒性,仍存在一些挑战。
深度学习方法中,根据训练损失函数的不同可以分为基于表征学习的方法和基于度量学习的方法。根据方法原理不同,可以将近几年行人重识别的研究分为区域、注意力、姿势和生成对抗性网络四类方法。当前效果最为先进的当选基于切片的行人重识别,能够提取细粒度信息。为了符合人体结构特征,切片方式通常将图片或特征图水平等分割。考虑到切片会产生信息损失,部分研究将部分特征和全局特征整合,同时学习局部切片特征和全局特征,动态对齐局部信息。然而过度的切片会造成目标被密集的划分,从而引发目标语义信息模糊以及抗背景干扰能力下降。
为了解决上述的目标语义信息模糊以及抗背景干扰能力下降的问题,开发一种基于多尺度邻接交互特征的行人重识别方法尤为必要。
发明内容
针对现有技术上存在的不足,本发明目的是在于提供一种基于多尺度邻接交互特征的行人重识别方法,能够有效抑制目标被密集地划分而导致得语义信息模糊和背景干扰问题,提高行人重识别的鲁棒性,易于推广使用。
为了实现上述目的,本发明是通过如下的技术方案来实现:一种基于多尺度邻接交互特征的行人重识别方法,其步骤为:
(1)获取采集的视频文件,将其中包含人的目标图像裁剪出来,将不同摄像头的同一目标配对;考虑到ResNet50的强大特征表示,将ResNet50作为主干网络,同一目标的多张图片输入主干网络来获取初始多尺度特征;
(2)将主干网络生成的第三层、第四层和第五层目标特征提取作为多尺度特征的基础,从第三层开始依次使用SOA,利用上下文信息来提高感受野的同时达到同一尺度内特征聚合的效果;
(3)将第三层、第四层和第五层的目标特征分别输入到Bottleneck提取局部信息同时增强特征表示能力,利用最大池化方式对齐空间大小;
(4)将得到空间对齐后的特征沿着空间通道进行连接到的聚合后的特征图输入到Transformer网络,得到全局特征;
(5)将步骤(2)中得到的基于CNN的局部特征和步骤(4)得到基于Transformer的全局特征按照特征维度联合起来;
(6)将上述步骤得到的联合特征进行切片,然后经过同尺度特征交互和跨尺度特征交互这两种特征交互操作,得到目标的多尺度邻接特征表示;
(7)最后通过损失函数训练得到基于多尺度邻接交互特征的行人重识别模型。
作为优选,所述的步骤(1)的具体方法为:涉及网络的主干由ResNet50构建,其中ResNet50最后一层的stride设置为1;在输入ResNet50之前,将重新定义所有图像尺寸为256×128,同时进行数据增强操作(随机裁剪、水平翻转和随机删除);设定batchsize为64,其中共16个不同的人,每个人4张不同的照片。
作为优选,所述的步骤(2)对于Resnet50的第l层,提取到特征图其中Cl、Hl、Wl分别表示通道数、特征图高度、特征图宽度;首先,介绍同一尺度内特征聚合方案,启发于SOA能够利用上下文信息提高感受野,对于ResNet50中的第l层,利用SOA模块对第l层特征对齐:Xl=SOA(Xl)。
作为优选,所述的步骤(3)考虑到不同尺度下的特征图空间大小不同、CNN注重局部特征而Transformer更注重全局特征这两个因素,综合两者的优势,利用Bottleneck提取局部信息同时增强特征学习能力,利用最大池化的方式对齐空间大小:
Xj=MaxPooling(Bottleneck(Xj))
其中,Bottleneck是ResNet中的模块;
然后,利用堆叠的方式融合不同尺度的特征:
F=Concat(X1,X2,...Xn)
作为优选,所述的步骤(4)中通过步骤(3)中得到空间对齐特征F后,输入到Transformer中进行全局特征的提取;根据Vision Transformer中的设计方式,聚合不同尺度的特征信息;给定一个上述特征图F,将其切成(R,R)大小的图像块,得到N=(h×w)/R2个图像块;将每个块通过线性投影到D维向量上,同时将可学习参数class token嵌入以提取全局特征信息;得到向量序列Z∈RL×D,其中L=N+1,也将可学习位置参数加入向量序列Z中;标准的Transformer层包含堆叠的多头自注意力模块(MSA)和多层感知机模块(MLP);一共设计d个Transformer层,对于第l层的输入:
F(l)=Transformer(Fl-1)
其中Transformer模块中,F0由公式F=Concat(X1,X2,…Xn)得到,Fd∈Rc’×N;根据公式F(l)=Transformer(Fl-1),由class token得到全局特征信息fgl∈Rc’×1,同时获得全局特征图Xgl∈Rc’×h×w;然后,利用堆叠的方式合并CNN提取的特征X5(由公式Xl=SOA(Xl)得出)和Transformer得到的特征Xgl,得到其中cf=C5+c’。
作为优选,所述的步骤(6)中涉及基于切片的联合交互特征提取:该联合特征提取模块共分为同尺度特征交互子模块和跨尺度特征相关子模块,两者均建立在切片的基础上;切片方案DIVISION(1,2,...N)={D1,D2,...DN},其中Di表示将特征图片Xf水平切成同等大小的i块,分别用{Di,1,Di,2,...Di,j}表示。
基于切片的联合交互特征提取针对同尺度特征交互,定义一种切片方案Dd,可以获得到d块大小相同的特征图,分别用{Dd,1,Dd,2,...Dd,d}表示;首先,对于每个小块Dd,j进行最大池化操作,得到考虑到人体身体结构中,相邻块特征能够提取到更好的肢体信息:对于相邻两块特征{D′d,j-1,D′d,j},采取最大池化的方式将其合并,被表示为MaxPooling(D′d,j-1,D′d,j);对所有相邻两块都进行上述操作,通过张量形状变换后得到对于每一种切片方案,使用全连接层提取同尺度特征其中d表示切片的数量。
基于切片的联合交互特征提取针对跨尺度特征交互,考虑到不同身体部位的大小比例不同,关联不同尺度的肢体信息,设计一种基于建图的交叉注意力模块:首先,建立一张图G=(V,E),将所有切片方案DIVISION(1,2...N)得到的块vij作为节点集合V,点权定义为 对于边集合E,如果两个节点(Vi1j1,Vi2j2)的边界框(Bi1j1,Bi2j2)交集不为空则建边,即在softmax的基础上,引用一种基于图的节点特征聚合方式:
其中,Nei(Vi)表示节点Vi的相邻节点集合,W表示权重矩阵;综上,基于建图的交叉注意力被描述为:
其中,表示正则化项,Query,Key和Value都从向量序列D′使用不同的线性变换矩阵得到:Q=D′WQ,K=D′WK,V=D′WV;为了网络捕捉到更丰富的特征,同样采取多头的方式,与同尺度交互模块相似,同样使用全连接层提取跨尺度特征其中d表示切片数量。
作为优选,所述的步骤(7)中行人Re-ID常用损失函数是将Cross-entropy Loss和Hard Triplet Loss的组合,交叉熵损失函数能够提高模型分类效果。为了提高模型的泛化能力,设计基于label smooth的分类损失。
其中k表示行人类别数量,p表示预测值,q表示为真实值,label smooth中的参数ξ设定为0.1;难样采样三元组损失函数能够更好提取区分特征,拉近相同类距离,拉远不同类距离:
Lreid=LCE+LTri
本发明的有益效果:本方法提高行人重识别的鲁棒性,能够有效抑制目标被密集地划分而导致得语义信息模糊和背景干扰问题,应用前景广阔。
附图说明
下面结合附图和具体实施方式来详细说明本发明;
图1为本发明的流程图;
图2为本发明的整体框架图;
图3为本发明的同尺度特征相关模块示意图;
图4为本发明的跨尺度特征相关模块示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
参照图1-4,本具体实施方式采用以下技术方案:一种基于多尺度邻接交互特征的行人重识别方法,其步骤为:
(1)获取采集的视频文件,将其中包含人的目标图像裁剪出来,将不同摄像头的同一目标配对。
考虑到ResNet50的强大特征表示,将ResNet50作为主干网络,涉及网络的主干由ResNet50构建,其中ResNet50最后一层的stride设置为1;在输入ResNet50之前,将重新定义所有图像尺寸为256×128,同时进行数据增强操作(随机裁剪、水平翻转和随机删除);设定batchsize为64,其中共16个不同的人,每个人4张不同的照片。同一目标的多张图片输入主干网络来获取初始多尺度特征。
(2)将主干网络生成的第三层、第四层和第五层目标特征提取作为多尺度特征的基础(X3,X4,X5),从第三层开始依次使用SOA,利用上下文信息来提高感受野的同时达到同一尺度内特征聚合的效果。
对于Resnet50的第l层,提取到特征图其中Cl、Hl、Wl分别表示通道数、特征图高度、特征图宽度;首先,介绍同一尺度内特征聚合方案,启发于SOA能够利用上下文信息提高感受野,对于ResNet50中的第l层,利用SOA模块对第l层特征对齐:Xl=SOA(Xl),(l∈{3,4,5}),最后获得原始特征X3:512*32*16,X4:1024*16*8,X5:2048*16*8。
(3)将第三层、第四层和第五层的目标特征分别输入到Bottleneck提取局部信息同时增强特征表示能力,利用最大池化方式对齐空间大小。考虑到不同尺度下的特征图空间大小不同、CNN注重局部特征而Transformer更注重全局特征这两个因素,综合两者的优势,利用Bottleneck提取局部信息同时增强特征学习能力,利用最大池化的方式对齐空间大小:
Xj=MaxPooling(Bottleneck(Xj))
其中,Bottleneck是ResNet中的模块;X4,X5维度不变,X3:512*16*8。
然后,利用堆叠的方式融合不同尺度的特征:
F=Concat(X1,X2,...Xn)
(4)将得到空间对齐后的特征沿着空间通道进行连接到的聚合后的特征图输入到Transformer网络,得到全局特征;
本步骤通过步骤(3)中得到空间对齐特征F后,输入到Transformer中进行全局特征的提取;根据Vision Transformer中的设计方式,聚合不同尺度的特征信息;给定一个上述特征图F,将其切成(R,R)大小的图像块,得到N=(h×w)/R2个图像块,将R设置为1;将每个块通过线性投影到D:2048维向量上,同时将可学习参数class token嵌入以提取全局特征信息;得到向量序列其中L=N+1,N为16*8;也将可学习位置参数加入向量序列Z中;标准的Transformer层包含堆叠的多头自注意力模块(MSA)和多层感知机模块(MLP);一共设计d个Transformer层,对于第l层的输入:
F(l)=Transformer(Fl-1)
其中Transformer模块中,F0由公式F=Concat(X1,X2,...Xn)得到,根据公式F(l)=Transformer(Fl-1),由class token得到全局特征信息同时获得全局特征图然后,利用堆叠的方式合并CNN提取的特征X5:2048*16*8(由公式Xl=SOA(Xl)得出)和Transformer得到的特征Xgl:2048*16*8,得到 4096*16*8,其中cf=C5+c′。
(5)将步骤(2)中得到的基于CNN的局部特征和步骤(4)得到基于Transformer的全局特征按照特征维度联合起来;
(6)将上述步骤得到的联合特征进行切片,然后经过同尺度特征交互和跨尺度特征交互这两种特征交互操作,得到目标的多尺度邻接特征表示。
涉及基于切片的联合交互特征提取:该联合特征提取模块共分为同尺度特征交互子模块(图3)和跨尺度特征相关子模块(图4),两者均建立在切片的基础上;切片方案DIVISION(1,2,...N)={D1,D2,...DN},其中Di表示将特征图片Xf水平切成同等大小的i块,分别用{Di,1,Di,2,...Di,j}表示,若提供四种切成方式,则对应切片数量1、3、5、7片。
①针对同尺度特征交互,定义一种切片方案Dd,可以获得到d块大小相同的特征图,分别用{Dd,1,Dd,2,...Dd,d}表示;首先,对于每个小块Dd,j进行最大池化操作,得到考虑到人体身体结构中,相邻块特征能够提取到更好的肢体信息:例如,对于相邻两块特征{D′d,j-1,D′d,j},采取最大池化的方式将其合并,可以被表示为MaxPooling(D′d,j-1,D′d,j);对所有相邻两块都进行上述操作,通过张量形状变换后得到对于每一种切片方案,使用全连接层提取同尺度特征其中d表示切片的数量。
②针对跨尺度特征交互,考虑到不同身体部位的大小比例不同,有必要关联不同尺度的肢体信息,设计一种基于建图的交叉注意力模块:首先,建立一张图G=(V,E),将所有切片方案DIVISION(1,2...N)得到的块vij作为节点集合V,点权定义为对于边集合E,如果两个节点(Vi1j1,Vi2j2)的边界框(Bi1j1,Bi2j2)交集不为空则建边,即在softmax的基础上,引用一种基于图的节点特征聚合方式:
其中,Nei(Vi)表示节点Vi的相邻节点集合,W表示权重矩阵;综上,基于建图的交叉注意力被描述为:
其中,表示正则化项,Query,Key和Value都从向量序列D′使用不同的线性变换矩阵得到:Q=D′WQ,K=D′WK,V=D′WV;为了网络捕捉到更丰富的特征,同样采取多头的方式,与同尺度交互模块相似,同样使用全连接层提取跨尺度特征其中d表示切片数量。
(7)最后通过损失函数训练得到基于多尺度邻接交互特征的行人重识别模型。
行人Re-ID常用损失函数是将Cross-entropy Loss和Hard Triplet Loss的组合,交叉熵损失函数能够提高模型分类效果。为了提高模型的泛化能力,设计基于labelsmooth的分类损失。
其中k表示行人类别数量,p表示预测值,q表示为真实值,label smooth中的参数ξ设定为0.1;难样采样三元组损失函数能够更好提取区分特征,拉近相同类距离,拉远不同类距离:
Lreid=LCE+LTri
在训练阶段,利用Adam优化器训练MGF模型共300轮。利用10个epoch将学习率线性增加到4×10-4作为warmup策略。从第50个epoch开始,每隔30轮下调学习率,下调因子为0.4。对于超参,设定切片方案DIVISION={1,3,5,7}。
本具体实施方式将多尺度交互设计为特征提取阶段和特征聚合阶段两个阶段。首先,将CNN和Transformer结构相结合,设计了多尺度特征提取MFE模块,以获得具有鉴别能力的特定特征,作为邻接特征聚合阶段的基础;其次,提出了一种基于部件的联合特征聚合JPFA机制来实现不同尺度的相邻特征聚合,联合特征聚合JPFA包含相同尺度特征相关SFC和交叉尺度特征相关CFC子模块。该方法提取更加鲁棒的行人特征来有效抑制目标被密集的划分而导致得语义信息模糊和背景干扰问题,具有广阔的市场应用前景。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.一种基于多尺度邻接交互特征的行人重识别方法,其特征在于,其步骤为:
(1)获取采集的视频文件,将其中包含人的目标图像裁剪出来,将不同摄像头的同一目标配对;将ResNet50作为主干网络,同一目标的多张图片输入主干网络来获取初始多尺度特征;
(2)将主干网络生成的第三层、第四层和第五层目标特征提取作为多尺度特征的基础,从第三层开始依次使用SOA,利用上下文信息来提高感受野的同时达到同一尺度内特征聚合的效果;
(3)将第三层、第四层和第五层的目标特征分别输入到Bottleneck提取局部信息同时增强特征表示能力,利用最大池化方式对齐空间大小;
(4)将得到空间对齐后的特征沿着空间通道进行连接到的聚合后的特征图输入到Transformer网络,得到全局特征;
(5)将步骤(2)中得到的基于CNN的局部特征和步骤(4)得到基于Transformer的全局特征按照特征维度联合起来;
(6)将上述步骤(1)-(5)得到的联合特征进行切片,然后经过同尺度特征交互和跨尺度特征交互这两种特征交互操作,得到目标的多尺度邻接特征表示;
(7)最后通过损失函数训练得到基于多尺度邻接交互特征的行人重识别模型;
所述的步骤(1)的具体方法为:涉及网络的主干由ResNet50构建,其中ResNet50最后一层的stride设置为1;在输入ResNet50之前,将重新定义所有图像尺寸为256×128,同时进行数据增强操作;设定batchsize为64,其中共16个不同的人,每个人4张不同的照片;
3.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法,其特征在于,所述的步骤(4)中通过步骤(3)中得到空间对齐特征F后,输入到Transformer中进行全局特征的提取;根据Vision Transformer中的设计方式,聚合不同尺度的特征信息;给定一个特征图F,将其切成(R,R)大小的图像块,得到N=(h×w)/R2个图像块;将每个块通过线性投影到D维向量上,同时将可学习参数class token嵌入以提取全局特征信息;得到向量序列其中L=N+1,也将可学习位置参数加入向量序列Z中;标准的Transformer层包含堆叠的多头自注意力模块(MSA)和多层感知机模块(MLP);一共设计d个Transformer层,对于第l层的输入:
F(l)=Transformer(Fl-1)
4.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法,其特征在于,所述的步骤(6)中涉及基于切片的联合交互特征提取:该联合特征提取模块共分为同尺度特征交互子模块和跨尺度特征相关子模块,两者均建立在切片的基础上;切片方案GIVISION(1,2,...N)={G1,G2,...GA},其中Gi表示将特征图片XD水平切成同等大小的i块,分别用{Gi,1,Gi,2,...Gi,J}表示。
5.根据权利要求4所述的一种基于多尺度邻接交互特征的行人重识别方法,其特征在于,所述的基于切片的联合交互特征提取针对同尺度特征交互,定义一种切片方案Gd,获得到d块大小相同的特征图,分别用{Gd,1,Gd,2,...Gd,d}表示;首先,对于每个小块Gd,J进行最大池化操作,得到考虑到人体身体结构中,相邻块特征能够提取到更好的肢体信息:对于相邻两块特征{Gd ′ ,j-1,Gd ′ ,j},采取最大池化的方式将其合并,被表示为MaxPooling(Gd ′ ,j-1,Gd ′ ,j);对所有相邻两块都进行上述操作,通过张量形状变换后得到对于每一种切片方案,使用全连接层提取同尺度特征其中d表示切片的数量。
6.根据权利要求4所述的一种基于多尺度邻接交互特征的行人重识别方法,其特征在于,所述的基于切片的联合交互特征提取针对跨尺度特征交互,考虑到不同身体部位的大小比例不同,关联不同尺度的肢体信息,设计一种基于建图的交叉注意力模块:首先,建立一张图G=(V,E),将所有切片方案GIVISION(1,2...N)得到的块vij作为节点集合V,点权定义为对于边集合E,如果两个节点(Vi1j1,Vi2j2)的边界框(Bi1j1,Bi2j2)交集不为空则建边,即在softmax的基础上,引用一种基于图的节点特征聚合方式:
其中,Nei(Vi)表示节点Vi的相邻节点集合,W表示权重矩阵;综上,基于建图的交叉注意力被描述为:
7.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法,其特征在于,所述的步骤(7)中行人Re-ID常用损失函数是将Cross-entropy Loss和Hard TripletLoss的组合,提高模型分类效果;为了提高模型的泛化能力,设计基于label smooth的分类损失:
其中k表示行人类别数量,p表示预测值,q表示为真实值,label smooth中的参数ξ设定为0.1;难样采样三元组损失函数提取区分特征,拉近相同类距离,拉远不同类距离:
Lreid=LCE+LTri
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210526758.3A CN114973317B (zh) | 2022-05-13 | 2022-05-13 | 一种基于多尺度邻接交互特征的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210526758.3A CN114973317B (zh) | 2022-05-13 | 2022-05-13 | 一种基于多尺度邻接交互特征的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114973317A CN114973317A (zh) | 2022-08-30 |
CN114973317B true CN114973317B (zh) | 2023-04-28 |
Family
ID=82982383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210526758.3A Active CN114973317B (zh) | 2022-05-13 | 2022-05-13 | 一种基于多尺度邻接交互特征的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114973317B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115497120B (zh) * | 2022-09-23 | 2023-12-15 | 清华大学 | 基于Transformer的两步式领域自适应行人再识别方法 |
CN115631513B (zh) * | 2022-11-10 | 2023-07-11 | 杭州电子科技大学 | 基于Transformer的多尺度行人重识别方法 |
CN116052218B (zh) * | 2023-02-13 | 2023-07-18 | 中国矿业大学 | 一种行人重识别方法 |
CN115830643B (zh) * | 2023-02-17 | 2023-05-09 | 石家庄铁道大学 | 一种姿势引导对齐的轻量行人重识别方法 |
CN116524542B (zh) * | 2023-05-08 | 2023-10-31 | 杭州像素元科技有限公司 | 一种基于细粒度特征的跨模态行人重识别方法及装置 |
CN116311387B (zh) * | 2023-05-25 | 2023-09-01 | 浙江工业大学 | 一种基于特征交集的跨模态行人重识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784258A (zh) * | 2019-01-08 | 2019-05-21 | 华南理工大学 | 一种基于多尺度特征切割与融合的行人重识别方法 |
WO2022001489A1 (zh) * | 2020-06-28 | 2022-01-06 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259850B (zh) * | 2020-01-23 | 2022-12-16 | 同济大学 | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 |
CN114092964A (zh) * | 2021-10-19 | 2022-02-25 | 杭州电子科技大学 | 基于注意力引导和多尺度标签生成的跨域行人重识别方法 |
CN114067143A (zh) * | 2021-11-24 | 2022-02-18 | 西安烽火软件科技有限公司 | 一种基于双子网络的车辆重识别方法 |
-
2022
- 2022-05-13 CN CN202210526758.3A patent/CN114973317B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784258A (zh) * | 2019-01-08 | 2019-05-21 | 华南理工大学 | 一种基于多尺度特征切割与融合的行人重识别方法 |
WO2022001489A1 (zh) * | 2020-06-28 | 2022-01-06 | 北京交通大学 | 一种无监督域适应的目标重识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114973317A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114973317B (zh) | 一种基于多尺度邻接交互特征的行人重识别方法 | |
CN108460356B (zh) | 一种基于监控系统的人脸图像自动处理系统 | |
CN106096561B (zh) | 基于图像块深度学习特征的红外行人检测方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
Li et al. | Dbcface: Towards pure convolutional neural network face detection | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN111460968B (zh) | 基于视频的无人机识别与跟踪方法及装置 | |
CN111723693B (zh) | 一种基于小样本学习的人群计数方法 | |
CN111639692A (zh) | 一种基于注意力机制的阴影检测方法 | |
CN110929679B (zh) | 一种基于gan的无监督自适应行人重识别方法 | |
CN111539370A (zh) | 一种基于多注意力联合学习的图像行人重识别方法和系统 | |
WO2020206850A1 (zh) | 基于高维图像的图像标注方法和装置 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN108564052A (zh) | 基于mtcnn的多摄像头动态人脸识别系统与方法 | |
CN112967341B (zh) | 基于实景图像的室内视觉定位方法、系统、设备及存储介质 | |
CN112836640B (zh) | 一种单摄像头多目标行人跟踪方法 | |
CN111027377B (zh) | 一种双流神经网络时序动作定位方法 | |
CN109886141A (zh) | 一种基于不确定性优化的行人再辨识方法 | |
CN108491856B (zh) | 一种基于多尺度特征卷积神经网络的图像场景分类方法 | |
CN113221641A (zh) | 基于生成对抗网络和注意力机制的视频行人重识别方法 | |
CN112651262B (zh) | 一种基于自适应行人对齐的跨模态行人重识别方法 | |
CN112862849B (zh) | 一种基于图像分割和全卷积神经网络的田间稻穗计数方法 | |
CN110852152B (zh) | 一种基于数据增强的深度哈希行人重识别方法 | |
CN110309810B (zh) | 一种基于批次中心相似度的行人重识别方法 | |
CN114330529A (zh) | 一种基于改进YOLOv4的遮挡行人实时检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |