CN114973317B - 一种基于多尺度邻接交互特征的行人重识别方法 - Google Patents

一种基于多尺度邻接交互特征的行人重识别方法 Download PDF

Info

Publication number
CN114973317B
CN114973317B CN202210526758.3A CN202210526758A CN114973317B CN 114973317 B CN114973317 B CN 114973317B CN 202210526758 A CN202210526758 A CN 202210526758A CN 114973317 B CN114973317 B CN 114973317B
Authority
CN
China
Prior art keywords
feature
scale
features
interaction
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210526758.3A
Other languages
English (en)
Other versions
CN114973317A (zh
Inventor
产思贤
戚梦赞
吴周检
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Pixel Technology Co ltd
Original Assignee
Hangzhou Pixel Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Pixel Technology Co ltd filed Critical Hangzhou Pixel Technology Co ltd
Priority to CN202210526758.3A priority Critical patent/CN114973317B/zh
Publication of CN114973317A publication Critical patent/CN114973317A/zh
Application granted granted Critical
Publication of CN114973317B publication Critical patent/CN114973317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度邻接交互特征的行人重识别方法,它涉及图像识别技术领域。获取采集的视频文件,裁剪目标图像,配对同一目标,将ResNet50作为主干网络,获取初始多尺度特征;将目标特征从第三层开始依次使用SOA;将各层的目标特征输入到Bottleneck提取局部信息,对齐空间大小;将特征图输入到Transformer网络,得到全局特征;将局部特征和全局特征按照特征维度联合,并将联合特征切片,经同尺度特征交互和跨尺度特征交互操作得目标的多尺度邻接特征表示,最后通过损失函数训练得到行人重识别模型。本发明提高行人重识别的鲁棒性,有效抑制目标被密集地划分而导致得语义信息模糊和背景干扰问题。

Description

一种基于多尺度邻接交互特征的行人重识别方法
技术领域
本发明涉及的是图像识别技术领域,具体涉及一种基于多尺度邻接交互特征的行人重识别方法。
背景技术
行人重识别(Personre-identification,简称Re-ID)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,被广泛认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限,并可与行人检测和行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。在监控视频中,由于相机分辨率和拍摄角度的缘故,通常无法得到质量非常高的人脸图片。当人脸识别失效的情况下,Re-ID就成为了一个非常重要的替代品技术。在尺度变换、遮挡和换装等复杂情况下,重识别精度会大幅降低。如何提高行人重识别的鲁棒性,仍存在一些挑战。
深度学习方法中,根据训练损失函数的不同可以分为基于表征学习的方法和基于度量学习的方法。根据方法原理不同,可以将近几年行人重识别的研究分为区域、注意力、姿势和生成对抗性网络四类方法。当前效果最为先进的当选基于切片的行人重识别,能够提取细粒度信息。为了符合人体结构特征,切片方式通常将图片或特征图水平等分割。考虑到切片会产生信息损失,部分研究将部分特征和全局特征整合,同时学习局部切片特征和全局特征,动态对齐局部信息。然而过度的切片会造成目标被密集的划分,从而引发目标语义信息模糊以及抗背景干扰能力下降。
为了解决上述的目标语义信息模糊以及抗背景干扰能力下降的问题,开发一种基于多尺度邻接交互特征的行人重识别方法尤为必要。
发明内容
针对现有技术上存在的不足,本发明目的是在于提供一种基于多尺度邻接交互特征的行人重识别方法,能够有效抑制目标被密集地划分而导致得语义信息模糊和背景干扰问题,提高行人重识别的鲁棒性,易于推广使用。
为了实现上述目的,本发明是通过如下的技术方案来实现:一种基于多尺度邻接交互特征的行人重识别方法,其步骤为:
(1)获取采集的视频文件,将其中包含人的目标图像裁剪出来,将不同摄像头的同一目标配对;考虑到ResNet50的强大特征表示,将ResNet50作为主干网络,同一目标的多张图片输入主干网络来获取初始多尺度特征;
(2)将主干网络生成的第三层、第四层和第五层目标特征提取作为多尺度特征的基础,从第三层开始依次使用SOA,利用上下文信息来提高感受野的同时达到同一尺度内特征聚合的效果;
(3)将第三层、第四层和第五层的目标特征分别输入到Bottleneck提取局部信息同时增强特征表示能力,利用最大池化方式对齐空间大小;
(4)将得到空间对齐后的特征沿着空间通道进行连接到的聚合后的特征图输入到Transformer网络,得到全局特征;
(5)将步骤(2)中得到的基于CNN的局部特征和步骤(4)得到基于Transformer的全局特征按照特征维度联合起来;
(6)将上述步骤得到的联合特征进行切片,然后经过同尺度特征交互和跨尺度特征交互这两种特征交互操作,得到目标的多尺度邻接特征表示;
(7)最后通过损失函数训练得到基于多尺度邻接交互特征的行人重识别模型。
作为优选,所述的步骤(1)的具体方法为:涉及网络的主干由ResNet50构建,其中ResNet50最后一层的stride设置为1;在输入ResNet50之前,将重新定义所有图像尺寸为256×128,同时进行数据增强操作(随机裁剪、水平翻转和随机删除);设定batchsize为64,其中共16个不同的人,每个人4张不同的照片。
作为优选,所述的步骤(2)对于Resnet50的第l层,提取到特征图
Figure BDA0003643539280000032
其中Cl、Hl、Wl分别表示通道数、特征图高度、特征图宽度;首先,介绍同一尺度内特征聚合方案,启发于SOA能够利用上下文信息提高感受野,对于ResNet50中的第l层,利用SOA模块对第l层特征对齐:Xl=SOA(Xl)。
作为优选,所述的步骤(3)考虑到不同尺度下的特征图空间大小不同、CNN注重局部特征而Transformer更注重全局特征这两个因素,综合两者的优势,利用Bottleneck提取局部信息同时增强特征学习能力,利用最大池化的方式对齐空间大小:
Xj=MaxPooling(Bottleneck(Xj))
其中,Bottleneck是ResNet中的模块;
然后,利用堆叠的方式融合不同尺度的特征:
F=Concat(X1,X2,...Xn)
其中,
Figure BDA0003643539280000031
作为优选,所述的步骤(4)中通过步骤(3)中得到空间对齐特征F后,输入到Transformer中进行全局特征的提取;根据Vision Transformer中的设计方式,聚合不同尺度的特征信息;给定一个上述特征图F,将其切成(R,R)大小的图像块,得到N=(h×w)/R2个图像块;将每个块通过线性投影到D维向量上,同时将可学习参数class token嵌入以提取全局特征信息;得到向量序列Z∈RL×D,其中L=N+1,也将可学习位置参数加入向量序列Z中;标准的Transformer层包含堆叠的多头自注意力模块(MSA)和多层感知机模块(MLP);一共设计d个Transformer层,对于第l层的输入:
F(l)=Transformer(Fl-1)
其中Transformer模块中,F0由公式F=Concat(X1,X2,…Xn)得到,Fd∈Rc’×N;根据公式F(l)=Transformer(Fl-1),由class token得到全局特征信息fgl∈Rc’×1,同时获得全局特征图Xgl∈Rc’×h×w;然后,利用堆叠的方式合并CNN提取的特征X5(由公式Xl=SOA(Xl)得出)和Transformer得到的特征Xgl,得到
Figure BDA0003643539280000041
其中cf=C5+c’。
作为优选,所述的步骤(6)中涉及基于切片的联合交互特征提取:该联合特征提取模块共分为同尺度特征交互子模块和跨尺度特征相关子模块,两者均建立在切片的基础上;切片方案DIVISION(1,2,...N)={D1,D2,...DN},其中Di表示将特征图片Xf水平切成同等大小的i块,分别用{Di,1,Di,2,...Di,j}表示。
基于切片的联合交互特征提取针对同尺度特征交互,定义一种切片方案Dd,可以获得到d块大小相同的特征图,分别用{Dd,1,Dd,2,...Dd,d}表示;首先,对于每个小块Dd,j进行最大池化操作,得到
Figure BDA0003643539280000042
考虑到人体身体结构中,相邻块特征能够提取到更好的肢体信息:对于相邻两块特征{D′d,j-1,D′d,j},采取最大池化的方式将其合并,被表示为MaxPooling(D′d,j-1,D′d,j);对所有相邻两块都进行上述操作,通过张量形状变换后得到
Figure BDA0003643539280000043
对于每一种切片方案,使用全连接层提取同尺度特征
Figure BDA0003643539280000044
其中d表示切片的数量。
基于切片的联合交互特征提取针对跨尺度特征交互,考虑到不同身体部位的大小比例不同,关联不同尺度的肢体信息,设计一种基于建图的交叉注意力模块:首先,建立一张图G=(V,E),将所有切片方案DIVISION(1,2...N)得到的块vij作为节点集合V,点权定义为
Figure BDA0003643539280000051
Figure BDA0003643539280000052
对于边集合E,如果两个节点(Vi1j1,Vi2j2)的边界框(Bi1j1,Bi2j2)交集不为空则建边,即
Figure BDA0003643539280000053
在softmax的基础上,引用一种基于图的节点特征聚合方式:
Figure BDA0003643539280000054
其中,Nei(Vi)表示节点Vi的相邻节点集合,W表示权重矩阵;综上,基于建图的交叉注意力被描述为:
Figure BDA0003643539280000055
其中,
Figure BDA0003643539280000056
表示正则化项,Query,Key和Value都从向量序列D′使用不同的线性变换矩阵得到:Q=D′WQ,K=D′WK,V=D′WV;为了网络捕捉到更丰富的特征,同样采取多头的方式,与同尺度交互模块相似,同样使用全连接层提取跨尺度特征
Figure BDA0003643539280000057
其中d表示切片数量。
作为优选,所述的步骤(7)中行人Re-ID常用损失函数是将Cross-entropy Loss和Hard Triplet Loss的组合,交叉熵损失函数能够提高模型分类效果。为了提高模型的泛化能力,设计基于label smooth的分类损失。
Figure BDA0003643539280000058
其中k表示行人类别数量,p表示预测值,q表示为真实值,label smooth中的参数ξ设定为0.1;难样采样三元组损失函数能够更好提取区分特征,拉近相同类距离,拉远不同类距离:
Figure BDA0003643539280000061
其中
Figure BDA0003643539280000062
Figure BDA0003643539280000063
分别表示正样本和负样本,[·]+=max(·,0),α为设定的阈值距离,结合label smooth和难样采样三元组损失函数,得到损失函数Lreid
Lreid=LCE+LTri
利用行人特征fgl
Figure BDA0003643539280000064
Figure BDA0003643539280000065
得到总损失函数:
Figure BDA0003643539280000066
本发明的有益效果:本方法提高行人重识别的鲁棒性,能够有效抑制目标被密集地划分而导致得语义信息模糊和背景干扰问题,应用前景广阔。
附图说明
下面结合附图和具体实施方式来详细说明本发明;
图1为本发明的流程图;
图2为本发明的整体框架图;
图3为本发明的同尺度特征相关模块示意图;
图4为本发明的跨尺度特征相关模块示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
参照图1-4,本具体实施方式采用以下技术方案:一种基于多尺度邻接交互特征的行人重识别方法,其步骤为:
(1)获取采集的视频文件,将其中包含人的目标图像裁剪出来,将不同摄像头的同一目标配对。
考虑到ResNet50的强大特征表示,将ResNet50作为主干网络,涉及网络的主干由ResNet50构建,其中ResNet50最后一层的stride设置为1;在输入ResNet50之前,将重新定义所有图像尺寸为256×128,同时进行数据增强操作(随机裁剪、水平翻转和随机删除);设定batchsize为64,其中共16个不同的人,每个人4张不同的照片。同一目标的多张图片输入主干网络来获取初始多尺度特征。
(2)将主干网络生成的第三层、第四层和第五层目标特征提取作为多尺度特征的基础(X3,X4,X5),从第三层开始依次使用SOA,利用上下文信息来提高感受野的同时达到同一尺度内特征聚合的效果。
对于Resnet50的第l层,提取到特征图
Figure BDA0003643539280000071
其中Cl、Hl、Wl分别表示通道数、特征图高度、特征图宽度;首先,介绍同一尺度内特征聚合方案,启发于SOA能够利用上下文信息提高感受野,对于ResNet50中的第l层,利用SOA模块对第l层特征对齐:Xl=SOA(Xl),(l∈{3,4,5}),最后获得原始特征X3:512*32*16,X4:1024*16*8,X5:2048*16*8。
(3)将第三层、第四层和第五层的目标特征分别输入到Bottleneck提取局部信息同时增强特征表示能力,利用最大池化方式对齐空间大小。考虑到不同尺度下的特征图空间大小不同、CNN注重局部特征而Transformer更注重全局特征这两个因素,综合两者的优势,利用Bottleneck提取局部信息同时增强特征学习能力,利用最大池化的方式对齐空间大小:
Xj=MaxPooling(Bottleneck(Xj))
其中,Bottleneck是ResNet中的模块;X4,X5维度不变,X3:512*16*8。
然后,利用堆叠的方式融合不同尺度的特征:
F=Concat(X1,X2,...Xn)
其中,
Figure BDA0003643539280000081
F的维度:3584*16*8。
(4)将得到空间对齐后的特征沿着空间通道进行连接到的聚合后的特征图输入到Transformer网络,得到全局特征;
本步骤通过步骤(3)中得到空间对齐特征F后,输入到Transformer中进行全局特征的提取;根据Vision Transformer中的设计方式,聚合不同尺度的特征信息;给定一个上述特征图F,将其切成(R,R)大小的图像块,得到N=(h×w)/R2个图像块,将R设置为1;将每个块通过线性投影到D:2048维向量上,同时将可学习参数class token嵌入以提取全局特征信息;得到向量序列
Figure BDA0003643539280000082
其中L=N+1,N为16*8;也将可学习位置参数加入向量序列Z中;标准的Transformer层包含堆叠的多头自注意力模块(MSA)和多层感知机模块(MLP);一共设计d个Transformer层,对于第l层的输入:
F(l)=Transformer(Fl-1)
其中Transformer模块中,F0由公式F=Concat(X1,X2,...Xn)得到,
Figure BDA0003643539280000083
根据公式F(l)=Transformer(Fl-1),由class token得到全局特征信息
Figure BDA0003643539280000084
同时获得全局特征图
Figure BDA0003643539280000085
然后,利用堆叠的方式合并CNN提取的特征X5:2048*16*8(由公式Xl=SOA(Xl)得出)和Transformer得到的特征Xgl:2048*16*8,得到
Figure BDA0003643539280000086
Figure BDA0003643539280000087
4096*16*8,其中cf=C5+c′。
(5)将步骤(2)中得到的基于CNN的局部特征和步骤(4)得到基于Transformer的全局特征按照特征维度联合起来;
(6)将上述步骤得到的联合特征进行切片,然后经过同尺度特征交互和跨尺度特征交互这两种特征交互操作,得到目标的多尺度邻接特征表示。
涉及基于切片的联合交互特征提取:该联合特征提取模块共分为同尺度特征交互子模块(图3)和跨尺度特征相关子模块(图4),两者均建立在切片的基础上;切片方案DIVISION(1,2,...N)={D1,D2,...DN},其中Di表示将特征图片Xf水平切成同等大小的i块,分别用{Di,1,Di,2,...Di,j}表示,若提供四种切成方式,则对应切片数量1、3、5、7片。
①针对同尺度特征交互,定义一种切片方案Dd,可以获得到d块大小相同的特征图,分别用{Dd,1,Dd,2,...Dd,d}表示;首先,对于每个小块Dd,j进行最大池化操作,得到
Figure BDA0003643539280000091
考虑到人体身体结构中,相邻块特征能够提取到更好的肢体信息:例如,对于相邻两块特征{D′d,j-1,D′d,j},采取最大池化的方式将其合并,可以被表示为MaxPooling(D′d,j-1,D′d,j);对所有相邻两块都进行上述操作,通过张量形状变换后得到
Figure BDA0003643539280000092
对于每一种切片方案,使用全连接层提取同尺度特征
Figure BDA0003643539280000093
其中d表示切片的数量。
②针对跨尺度特征交互,考虑到不同身体部位的大小比例不同,有必要关联不同尺度的肢体信息,设计一种基于建图的交叉注意力模块:首先,建立一张图G=(V,E),将所有切片方案DIVISION(1,2...N)得到的块vij作为节点集合V,点权定义为
Figure BDA0003643539280000094
对于边集合E,如果两个节点(Vi1j1,Vi2j2)的边界框(Bi1j1,Bi2j2)交集不为空则建边,即
Figure BDA0003643539280000095
在softmax的基础上,引用一种基于图的节点特征聚合方式:
Figure BDA0003643539280000096
其中,Nei(Vi)表示节点Vi的相邻节点集合,W表示权重矩阵;综上,基于建图的交叉注意力被描述为:
Figure BDA0003643539280000097
其中,
Figure BDA0003643539280000098
表示正则化项,Query,Key和Value都从向量序列D′使用不同的线性变换矩阵得到:Q=D′WQ,K=D′WK,V=D′WV;为了网络捕捉到更丰富的特征,同样采取多头的方式,与同尺度交互模块相似,同样使用全连接层提取跨尺度特征
Figure BDA0003643539280000101
其中d表示切片数量。
(7)最后通过损失函数训练得到基于多尺度邻接交互特征的行人重识别模型。
行人Re-ID常用损失函数是将Cross-entropy Loss和Hard Triplet Loss的组合,交叉熵损失函数能够提高模型分类效果。为了提高模型的泛化能力,设计基于labelsmooth的分类损失。
Figure BDA0003643539280000102
其中k表示行人类别数量,p表示预测值,q表示为真实值,label smooth中的参数ξ设定为0.1;难样采样三元组损失函数能够更好提取区分特征,拉近相同类距离,拉远不同类距离:
Figure BDA0003643539280000103
其中
Figure BDA0003643539280000104
Figure BDA0003643539280000105
分别表示正样本和负样本,[·]+=max(·,0),α为设定的阈值距离,结合label smooth和难样采样三元组损失函数,得到损失函数Lreid
Lreid=LCE+LTri
利用行人特征fgl
Figure BDA0003643539280000106
Figure BDA0003643539280000107
得到总损失函数:
Figure BDA0003643539280000108
在训练阶段,利用Adam优化器训练MGF模型共300轮。利用10个epoch将学习率线性增加到4×10-4作为warmup策略。从第50个epoch开始,每隔30轮下调学习率,下调因子为0.4。对于超参,设定切片方案DIVISION={1,3,5,7}。
本具体实施方式将多尺度交互设计为特征提取阶段和特征聚合阶段两个阶段。首先,将CNN和Transformer结构相结合,设计了多尺度特征提取MFE模块,以获得具有鉴别能力的特定特征,作为邻接特征聚合阶段的基础;其次,提出了一种基于部件的联合特征聚合JPFA机制来实现不同尺度的相邻特征聚合,联合特征聚合JPFA包含相同尺度特征相关SFC和交叉尺度特征相关CFC子模块。该方法提取更加鲁棒的行人特征来有效抑制目标被密集的划分而导致得语义信息模糊和背景干扰问题,具有广阔的市场应用前景。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种基于多尺度邻接交互特征的行人重识别方法,其特征在于,其步骤为:
(1)获取采集的视频文件,将其中包含人的目标图像裁剪出来,将不同摄像头的同一目标配对;将ResNet50作为主干网络,同一目标的多张图片输入主干网络来获取初始多尺度特征;
(2)将主干网络生成的第三层、第四层和第五层目标特征提取作为多尺度特征的基础,从第三层开始依次使用SOA,利用上下文信息来提高感受野的同时达到同一尺度内特征聚合的效果;
(3)将第三层、第四层和第五层的目标特征分别输入到Bottleneck提取局部信息同时增强特征表示能力,利用最大池化方式对齐空间大小;
(4)将得到空间对齐后的特征沿着空间通道进行连接到的聚合后的特征图输入到Transformer网络,得到全局特征;
(5)将步骤(2)中得到的基于CNN的局部特征和步骤(4)得到基于Transformer的全局特征按照特征维度联合起来;
(6)将上述步骤(1)-(5)得到的联合特征进行切片,然后经过同尺度特征交互和跨尺度特征交互这两种特征交互操作,得到目标的多尺度邻接特征表示;
(7)最后通过损失函数训练得到基于多尺度邻接交互特征的行人重识别模型;
所述的步骤(1)的具体方法为:涉及网络的主干由ResNet50构建,其中ResNet50最后一层的stride设置为1;在输入ResNet50之前,将重新定义所有图像尺寸为256×128,同时进行数据增强操作;设定batchsize为64,其中共16个不同的人,每个人4张不同的照片;
所述的步骤(2)对于Resnet50的第l层,提取到特征图
Figure FDA0004143789330000021
其中C1、H1、W1分别表示通道数、特征图高度、特征图宽度;对于ResNet50中的第l层,利用SOA模块对第l层特征对齐:Xl=SOA(Xl)。
2.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法,其特征在于,所述的步骤(3)利用Bottleneck提取局部信息,利用最大池化的方式对齐空间大小:
Xj=MaxPooling(Bottleneck(Xj))
其中,Bottleneck是ResNet中的模块;
然后,利用堆叠的方式融合不同尺度的特征:
F=Concat(X1,X2,…Xn)
其中,
Figure FDA0004143789330000022
3.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法,其特征在于,所述的步骤(4)中通过步骤(3)中得到空间对齐特征F后,输入到Transformer中进行全局特征的提取;根据Vision Transformer中的设计方式,聚合不同尺度的特征信息;给定一个特征图F,将其切成(R,R)大小的图像块,得到N=(h×w)/R2个图像块;将每个块通过线性投影到D维向量上,同时将可学习参数class token嵌入以提取全局特征信息;得到向量序列
Figure FDA0004143789330000023
其中L=N+1,也将可学习位置参数加入向量序列Z中;标准的Transformer层包含堆叠的多头自注意力模块(MSA)和多层感知机模块(MLP);一共设计d个Transformer层,对于第l层的输入:
F(l)=Transformer(Fl-1)
其中Transformer模块中,F0由公式F=Concat((1,X2,…Xn)得到,
Figure FDA0004143789330000024
根据公式F(l)=Transformer(Fl-1),由class token得到全局特征信息
Figure FDA0004143789330000031
同时获得全局特征图
Figure FDA0004143789330000032
然后,利用堆叠的方式合并CNN提取的特征X5和Transformer得到的特征Xgl,得到
Figure FDA0004143789330000033
其中cf=C5+c′。
4.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法,其特征在于,所述的步骤(6)中涉及基于切片的联合交互特征提取:该联合特征提取模块共分为同尺度特征交互子模块和跨尺度特征相关子模块,两者均建立在切片的基础上;切片方案GIVISION(1,2,...N)={G1,G2,...GA},其中Gi表示将特征图片XD水平切成同等大小的i块,分别用{Gi,1,Gi,2,...Gi,J}表示。
5.根据权利要求4所述的一种基于多尺度邻接交互特征的行人重识别方法,其特征在于,所述的基于切片的联合交互特征提取针对同尺度特征交互,定义一种切片方案Gd,获得到d块大小相同的特征图,分别用{Gd,1,Gd,2,...Gd,d}表示;首先,对于每个小块Gd,J进行最大池化操作,得到
Figure FDA0004143789330000034
考虑到人体身体结构中,相邻块特征能够提取到更好的肢体信息:对于相邻两块特征{Gd ,j-1,Gd ,j},采取最大池化的方式将其合并,被表示为MaxPooling(Gd ,j-1,Gd ,j);对所有相邻两块都进行上述操作,通过张量形状变换后得到
Figure FDA0004143789330000035
对于每一种切片方案,使用全连接层提取同尺度特征
Figure FDA0004143789330000036
其中d表示切片的数量。
6.根据权利要求4所述的一种基于多尺度邻接交互特征的行人重识别方法,其特征在于,所述的基于切片的联合交互特征提取针对跨尺度特征交互,考虑到不同身体部位的大小比例不同,关联不同尺度的肢体信息,设计一种基于建图的交叉注意力模块:首先,建立一张图G=(V,E),将所有切片方案GIVISION(1,2...N)得到的块vij作为节点集合V,点权定义为
Figure FDA0004143789330000041
对于边集合E,如果两个节点(Vi1j1,Vi2j2)的边界框(Bi1j1,Bi2j2)交集不为空则建边,即
Figure FDA0004143789330000042
在softmax的基础上,引用一种基于图的节点特征聚合方式:
Figure FDA0004143789330000043
其中,Nei(Vi)表示节点Vi的相邻节点集合,W表示权重矩阵;综上,基于建图的交叉注意力被描述为:
Figure FDA0004143789330000044
其中,
Figure FDA0004143789330000045
表示正则化项,Query,Key和Value都从向量序列G′使用不同的线性变换矩阵得到:Q=D′WQ,K=D′Wk,V=D′WV;为了网络捕捉到更丰富的特征,同样采取多头的方式,与同尺度交互模块相似,同样使用全连接层提取跨尺度特征
Figure FDA0004143789330000046
其中d表示切片数量。
7.根据权利要求1所述的一种基于多尺度邻接交互特征的行人重识别方法,其特征在于,所述的步骤(7)中行人Re-ID常用损失函数是将Cross-entropy Loss和Hard TripletLoss的组合,提高模型分类效果;为了提高模型的泛化能力,设计基于label smooth的分类损失:
Figure FDA0004143789330000051
其中k表示行人类别数量,p表示预测值,q表示为真实值,label smooth中的参数ξ设定为0.1;难样采样三元组损失函数提取区分特征,拉近相同类距离,拉远不同类距离:
Figure FDA0004143789330000052
其中
Figure FDA0004143789330000053
Figure FDA0004143789330000054
分别表示正样本和负样本,[·]+=max(·,0),α为设定的阈值距离,结合label smooth和难样采样三元组损失函数,得到损失函数Lreid
Lreid=LCE+LTri
利用行人特征fgl
Figure FDA0004143789330000055
Figure FDA0004143789330000056
得到总损失函数:
Figure FDA0004143789330000057
CN202210526758.3A 2022-05-13 2022-05-13 一种基于多尺度邻接交互特征的行人重识别方法 Active CN114973317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210526758.3A CN114973317B (zh) 2022-05-13 2022-05-13 一种基于多尺度邻接交互特征的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210526758.3A CN114973317B (zh) 2022-05-13 2022-05-13 一种基于多尺度邻接交互特征的行人重识别方法

Publications (2)

Publication Number Publication Date
CN114973317A CN114973317A (zh) 2022-08-30
CN114973317B true CN114973317B (zh) 2023-04-28

Family

ID=82982383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210526758.3A Active CN114973317B (zh) 2022-05-13 2022-05-13 一种基于多尺度邻接交互特征的行人重识别方法

Country Status (1)

Country Link
CN (1) CN114973317B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497120B (zh) * 2022-09-23 2023-12-15 清华大学 基于Transformer的两步式领域自适应行人再识别方法
CN115631513B (zh) * 2022-11-10 2023-07-11 杭州电子科技大学 基于Transformer的多尺度行人重识别方法
CN116052218B (zh) * 2023-02-13 2023-07-18 中国矿业大学 一种行人重识别方法
CN115830643B (zh) * 2023-02-17 2023-05-09 石家庄铁道大学 一种姿势引导对齐的轻量行人重识别方法
CN116524542B (zh) * 2023-05-08 2023-10-31 杭州像素元科技有限公司 一种基于细粒度特征的跨模态行人重识别方法及装置
CN116311387B (zh) * 2023-05-25 2023-09-01 浙江工业大学 一种基于特征交集的跨模态行人重识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784258A (zh) * 2019-01-08 2019-05-21 华南理工大学 一种基于多尺度特征切割与融合的行人重识别方法
WO2022001489A1 (zh) * 2020-06-28 2022-01-06 北京交通大学 一种无监督域适应的目标重识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259850B (zh) * 2020-01-23 2022-12-16 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN114092964A (zh) * 2021-10-19 2022-02-25 杭州电子科技大学 基于注意力引导和多尺度标签生成的跨域行人重识别方法
CN114067143A (zh) * 2021-11-24 2022-02-18 西安烽火软件科技有限公司 一种基于双子网络的车辆重识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784258A (zh) * 2019-01-08 2019-05-21 华南理工大学 一种基于多尺度特征切割与融合的行人重识别方法
WO2022001489A1 (zh) * 2020-06-28 2022-01-06 北京交通大学 一种无监督域适应的目标重识别方法

Also Published As

Publication number Publication date
CN114973317A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN114973317B (zh) 一种基于多尺度邻接交互特征的行人重识别方法
CN108460356B (zh) 一种基于监控系统的人脸图像自动处理系统
CN106096561B (zh) 基于图像块深度学习特征的红外行人检测方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
Li et al. Dbcface: Towards pure convolutional neural network face detection
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN111460968B (zh) 基于视频的无人机识别与跟踪方法及装置
CN111723693B (zh) 一种基于小样本学习的人群计数方法
CN111639692A (zh) 一种基于注意力机制的阴影检测方法
CN110929679B (zh) 一种基于gan的无监督自适应行人重识别方法
CN111539370A (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
WO2020206850A1 (zh) 基于高维图像的图像标注方法和装置
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN108564052A (zh) 基于mtcnn的多摄像头动态人脸识别系统与方法
CN112967341B (zh) 基于实景图像的室内视觉定位方法、系统、设备及存储介质
CN112836640B (zh) 一种单摄像头多目标行人跟踪方法
CN111027377B (zh) 一种双流神经网络时序动作定位方法
CN109886141A (zh) 一种基于不确定性优化的行人再辨识方法
CN108491856B (zh) 一种基于多尺度特征卷积神经网络的图像场景分类方法
CN113221641A (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN112651262B (zh) 一种基于自适应行人对齐的跨模态行人重识别方法
CN112862849B (zh) 一种基于图像分割和全卷积神经网络的田间稻穗计数方法
CN110852152B (zh) 一种基于数据增强的深度哈希行人重识别方法
CN110309810B (zh) 一种基于批次中心相似度的行人重识别方法
CN114330529A (zh) 一种基于改进YOLOv4的遮挡行人实时检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant