CN116311368A - 行人重识别方法 - Google Patents
行人重识别方法 Download PDFInfo
- Publication number
- CN116311368A CN116311368A CN202310279257.4A CN202310279257A CN116311368A CN 116311368 A CN116311368 A CN 116311368A CN 202310279257 A CN202310279257 A CN 202310279257A CN 116311368 A CN116311368 A CN 116311368A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- loss
- data set
- sample
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000006870 function Effects 0.000 claims abstract description 22
- 239000000654 additive Substances 0.000 claims abstract description 19
- 230000000996 additive effect Effects 0.000 claims abstract description 19
- 238000005065 mining Methods 0.000 claims abstract description 13
- 238000011176 pooling Methods 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000009412 basement excavation Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000006872 improvement Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种行人重识别方法,应用于无人机场景中,以增强特征辨识度。所述行人重识别方法包括:下载无人机场景下的数据集PRAI‑1581;搭建通用的行人重识别网络框架,在残差网络ResNet50中插入卷积块注意力模块CBAM,将预处理过的图像通过CBAM‑ResNet50模块提取特征,学习特征之间的关系,获取行人的关键特征信息;利用难样本挖掘三元组损失TriHard loss和加性角度间隔损失ArcFace loss作为损失函数对网络进行训练,反向传播更新网络参数,得到训练好的行人重识别网络模型;进行行人重识别匹配。相较于传统方法,本发明增强了特征辨识度,对于无人机场景下的行人重识别任务具有较佳的效果和鲁棒性,显著地提高了行人重识别的性能。
Description
技术领域
本发明涉及行人重识别方法,应用于无人机场景中。
背景技术
行人重识别是指从不同摄像头采集的大量行人图像中检索出特定的人,是继人脸识别之后计算机视觉领域的一个重要子课题。近年来,随着监控设备的完善和人们安全意识的提升,更多的公共场所,尤其是人流量大的场地,已经开始关注行人重识别应用。行人重识别任务在固定位置的普通摄像头中得到了广泛研究并取得了很大的成绩,但是,传统固定的摄像头因无法移动导致视野局限性,而无人机可以根据人为的规定对一定区域进行自动巡航拍照,不受环境的限制,具有极大的便利性,所以无人机场景中的行人重识别技术具有明显的优点,近年来,在学术界和工业界都得到广泛的重视,并展开了探索性研究。
但是,无人机视角下的行人重识别方法仍然存在很多挑战性,限制了其进一步发展,表现为:1)无人机在室外可拍摄20到60米不等高度的照片,拍摄到的行人图像清晰度必然受到影响,因此分辨率低是影响无人机视角下行人重识别性能的重要因素;2)在户外条件下,无人机拍摄的行人图像难免会受到不同程度的遮挡,通常被雨伞、树木、阴影和其他人等遮挡,遮挡问题也是无人机场景下行人重识别任务有待解决的问题之一;3)由于无人机视角下拍摄的图像中,人的头顶所占的面积更大,使得其它有效信息很难有效捕捉,比如裤子、鞋子、衣服等纹理信息,增加了行人重识别应用的难度。总而言之,无人机视角下的行人重识别难度要大于传统地面行人重识别。
现有的基于卷积神经网络的行人重识别方法都是基于残差网络ResNet,而ResNet由残差块堆叠而成,这就导致一些卷积层可能包含无效信息,造成了结构上的冗余。受限于卷积神经网络对于特征提取的局限性和不充分性,基于残差网络ResNet的方法无法取得理想的效果,因此,基于传统卷积神经网络的行人重识别技术,提取有辨识度特征方面能力不强,特别是在无人机场景中,行人重识别的性能更是无法保证。
近年来,身份损失ID loss和三元组损失Triplet loss结合对行人重识别网络进行训练,虽然在传统的行人重识别任务上取得了较好的成绩,但是在无人机场景下结果却不尽人意。Softmax和三元组损失都存在一些缺陷,其中,Softmax存在以下缺点:首先,随着行人类型的增多,运行时间会变慢甚至函数无法收敛;其次,Softmax的目标是尽可能最大化正确分类的概率,同时会忽略一些比较难分辨的图片,而优先拟合高质量的图片;然后,Softmax只保证类别是可分的,并不要求类内紧凑和类间分离。三元组损失存在以下缺点:首先,对于大规模数据集,图像三组的数量出现了组合爆炸,导致迭代步骤的数量显著增加;其次,三元组的选取导致数据的分布并不一定均匀,所以在模型训练过程中表现很不稳定;然后,三元组损失收敛慢,需要根据结果不断调节参数,而且三元组比分类损失更容易过拟合。因此,在分辨率更低、角度更丰富和遮挡更复杂的无人机场景中,身份损失ID loss和三元组损失Triplet loss相结合进行训练的方法很难满足应用的精度需求,非常不适合数据集大的无人机场景下的行人重识别。
发明内容
本发明的目的在于提供一种行人重识别方法,主要用于解决无人机场景中数据集清晰度低而导致提取特征辨识度低的问题。
为实现上述目的,本发明提供了一种行人重识别方法,应用于无人机场景中,所述行人重识别方法包括以下步骤:
步骤1:下载无人机场景下的数据集PRAI-1581,并将数据集PRAI-1581按照1:1的比例划分为训练集和测试集;
步骤2:搭建适用于无人机场景的行人重识别网络框架,主要包括三部分:数据集预处理、特征提取和计算损失,具体步骤如下:
步骤2.1:在训练之前,对输入图像进行数据增强,数据增强包括水平翻转、缩放和剪裁;
步骤2.2:在残差网络ResNet50中插入卷积块注意力模块CBAM,将预处理过的图像通过CBAM-ResNet50模块提取特征,学习特征之间的关系,获取行人的关键特征信息;
步骤2.3:损失函数由难样本挖掘三元组损失TriHard loss和加性角度间隔损失ArcFace loss组成,计算损失函数,训练网络,反向传播更新网络参数,得到训练好的行人重识别网络模型;
步骤3:进行行人重识别匹配,分别对待查询数据集Query和待匹配图像数据集Gallery提行人特征,将待查询数据集Query中的图像与待匹配图像数据集Gallery中的每一幅图像采用特征向量间的欧式距离计算相似度,将待匹配图像数据集Gallery中的图像按相似度排序得到首位命中率Rank-1与平均精确度mAP,最终实现对行人样本的重识别。
作为本发明的进一步改进,所述步骤1中的训练集和测试集中的行人身份ID不重复。
作为本发明的进一步改进,所述步骤2.1具体为:每个批次随机采样P个ID的K张预处理后的图像输入模型,先将输入图像的尺寸扩大为256×128,然后将这些图像填充10个像素,填充值为0,最后随机裁剪得到256×128的图像,并且以0.5的概率对图像做水平翻转进行数据增强。
作为本发明的进一步改进,所述步骤2.2具体包括:
步骤2.2.1:采用在ImageNet数据集上预训练过的ResNet50作为骨干网络,保留layer1、layer2、layer3、layer4和layer5,去除全局平均池化层和全连接层;
步骤2.2.2:将P×K张256×128大小的图片先传输到ResNet50的layer1中,经过一个7×7且步长为2的卷积,然后经过批归一化BN和线性整流函数Relu,再经过3×3且步长为2的最大池化层;
步骤2.2.3:将步骤2.2.2处理后的特征图传输到ResNet50的layer2、layer3、layer4和layer5中,以输出大小为8×4的特征图;
步骤2.2.4:将步骤2.2.3输出的特征图输入全局平均池化层,并展成2048维的矩阵。
作为本发明的进一步改进,步骤2.2.3中,layer2、layer3、layer4和layer5这四层结构大致一样,分别由3、4、6和3个瓶颈层构成,每层各包含一个下采样。
作为本发明的进一步改进,所述瓶颈层主要由三层组成:1×1、3×3和1×1卷积,在每个瓶颈层的第二个1×1卷积后插入卷积块注意力模块CBAM,使用卷积块注意力模块CBAM实行的具体步骤如下:
步骤Ⅰ:将瓶颈层的第二个1×1卷积后输出的特征图记为F∈RC×H×W,其中,C表示通道数,H表示图片长度,W表示图片宽度;
步骤Ⅱ:对输入F∈RC×H×W按通道进行全局最大池化和均值池化,将池化后的两个一维向量送入全连接层运算后相加,生成一维通道注意力Mc∈RC×1×1,再将通道注意力与输入元素相乘,得到通道注意力修正后的特征图F′;
步骤Ⅲ:将F′按空间进行全局最大池化和均匀池化,池化后生成的两个二维向量拼接后进行卷积操作,最后生成二维空间注意力MS∈R1×H×W,再将空间注意力与F′按元素相乘。
作为本发明的进一步改进,卷积块注意力模块CBAM生成注意力的具体描述如下:
MC(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (0-8)
MS(F)=σ(f7×7(Concat(AvgPool(F),MaxPool(F)))) (0-9)
其中,F表示输入的图像;MC表示通道注意力CAM的权值;F′表示通道注意力CAM调整后的特征图;MS表示空间注意力PAM的权值;F″表示空间注意力PAM调整后的特征图;σ表示激活函数sigmoid;f表示卷积核的大小;MLP表示共享全连接层转化;均匀池化AvgPool表示为平均值池化;最大池化MaxPool表示为最大值池化;Concat代表拼接;表示对应数组元素依次相乘,在相乘操作前,通道注意力CAM与空间注意力PAM分别需要按照空间维度与通道维度进行广播。
作为本发明的进一步改进,所述步骤2.3具体包括:
步骤2.3.1:将步骤2.2输出的特征记作ft,并输入到难样本挖掘三元组损失TriHard loss,难样本挖掘三元组损失TriHard loss用于优化欧式距离,通过随机选择P类,即P个行人ID,每类随机选择K个图像,形成包含P×K个图像的batch,在batch中找到锚样本与正样本之间最大的距离,锚样本与负样本之间最小的距离,成为batch hard,其表达式如下:
其中,P×K表示batch-size;表示锚样本和正样本之间的最大距离;/>表示锚样本和负样本之间的最小距离;m表示最小间隔的阈值;对于每一个锚样本,选择距离最大的/>和距离最小的/>当/>时,LTri取值大于0,当/>时,LTri取值为0;
步骤2.3.2:在特征层ft之后添加一个批归一化BN;在训练时,用BN层之前的特征训练难样本挖掘三元组损失TriHard loss,用BN层之后的特征训练加性角度间隔损失ArcFace loss;
步骤2.3.3:将经过BN层之后得到特征记为fa,用fa计算加性角度间隔损失ArcFaceloss;
步骤2.3.4:行人重识别方法的目标损失函数如下:
L=λ1LTri+λ2Larc (0-13)
其中,λ1和λ2分别是难样本挖掘三元组损失TriHard loss和加性角度间隔损失ArcFace loss的占比;
步骤2.3.5:反向传播更新网络参数,最后得到训练好的行人重识别网络模型。
作为本发明的进一步改进,步骤2.3.3中,加性角度间隔损失ArcFace loss通过引入角度间隔最大化分类界限,其表达式如下:
其中,N为最小批量的大小,s为特征向量归一化后的固定值,i为某一训练样本,yi为训练样本i所属的类别,j为某一类别,n为最小批量的类别数,θj为其他数据的特征向量与对应的类别权重向量之间的夹角,m为所设置的间隔大小。
作为本发明的进一步改进,步骤3中,首先分别将待查询数据集Query和待匹配图像数据集Gallery中的行人图像输入到训练好的模型中,提取特征并且识别得到行人的ID,将这些特征与行人ID信息保存下来;接着,计算待匹配图像数据集Gallery与待查询数据集Query各个样本特征的欧氏距离;最后,按相似度对待匹配图像数据集Gallery中的图像做排序,并计算首位命中率Rank-1和平均精确度mAP指标。
与现有技术相比,本发明具有以下有益技术效果:
1、本发明引入了注意力机制,以残差网络ResNet50为主干,在ResNet50的每个瓶颈层中引入卷积块注意力模块CBAM,使得更加关注图像的感兴趣区域,可以有效提取出需要的关注区域,提高了检索的准确性,避免了无用区域的特征提取,提高了检索的效率。
2、具有很好的创新性。本发明提出由难样本挖掘三元组损失TriHard loss和加性角度间隔损失ArcFace loss组成的目标函数进行训练,使用加性角度间隔损失ArcFaceloss可以使特征向量类内尽可能紧凑,类间尽可能分离,同时加快了目标函数的收敛速度,从而提高学习效率和准确率。
3、具有较好的适用性。本发明在无人机场景下,有效提高了行人重识别的检索能力,同时极大提高了模型的泛化能力。
4、具有简单性的特点。模型构造简单,物理意义直观,计算复杂度较小。
附图说明
图1为本发明行人重识别方法的流程图。
图2为本发明行人重识别方法的模型训练框图。
图3为瓶颈层模块的结构图。
图4为CBAM瓶颈层模块的结构图。
图5为注意力增强模块CBAM的结构图。
图6为本发明行人重识别方法的模型测试框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1至图6所示,本发明提供了一种行人重识别方法,应用于无人机场景中,采用残差网络ResNet50,结合卷积块注意力模块CBAM,提出了一种基于CBAM-ResNet50特征提取以及由难样本挖掘三元组损失TriHard loss和加性角度间隔损失ArcFace loss同时进行训练的行人重识别方法。
所述行人重识别方法包括以下步骤:
步骤1:下载无人机场景下的数据集PRAI-1581,并将数据集PRAI-1581按照1:1的比例划分为训练集和测试集;
步骤2:搭建适用于无人机场景的行人重识别网络框架,如图2所示,主要包括三部分:数据集预处理、特征提取和计算损失,具体步骤如下:
步骤2.1:在训练之前,对输入图像进行数据增强,数据增强包括水平翻转、缩放和剪裁,让数据集尽可能的多样化,可以使训练得到的重识别模型具有更优秀的泛化能力;
步骤2.2:在残差网络ResNet50中插入卷积块注意力模块CBAM,将预处理过的图像通过CBAM-ResNet50模块提取特征,学习特征之间的关系,增强了网络的稳健性,获取行人的关键特征信息,提升了检索精度;
步骤2.3:损失函数由难样本挖掘三元组损失TriHard loss和加性角度间隔损失ArcFace loss组成,计算损失函数,训练网络,反向传播更新网络参数,得到训练好的行人重识别网络模型;
步骤3:进行行人重识别匹配,分别对待查询数据集Query和待匹配图像数据集Gallery提行人特征,将待查询数据集Query中的图像与待匹配图像数据集Gallery中的每一幅图像采用特征向量间的欧式距离计算相似度,将待匹配图像数据集Gallery中的图像按相似度排序得到首位命中率Rank-1与平均精确度mAP,最终实现对行人样本的重识别。
以下结合说明书附图对发明做进一步的详细说明。
整个行人重识别方法过程可以分为行人重识别模型训练过程与测试过程,训练的具体流程如图2所示,测试的具体流程如图6所示。
步骤1中:数据集PRAI-1581是第一个基于无人机监控采集的面对现实应用环境的行人重识别数据集,是通过两架无人机在不同的高度和不同的地点对1581个行人进行拍摄得到了39461张图片,且训练集和测试集未经划分。所有照片均随机拍摄于20至60米的低空范围内的随机高度上,采集图像所使用的无人机监控设备设置有不同的飞行姿势、飞行角度和分辨率。我们将数据集PRAI-1581按照1:1的比例随机分成训练集和测试集两部分,训练集和测试集中的行人身份ID不重复。测试集由待匹配图像数据集Gallery和待查询数据集Query组成,且两者具有相同的ID。其中,训练集包含791个ID,共19817张图片;待匹配图像数据集Gallery包含790个ID,共17061张图片;待查询数据集Query包含790个ID,共2583张图片。
所述步骤2.1具体为:每个批次随机采样P个ID的K张预处理后的图像输入模型,先将输入图像的尺寸扩大为256×128,然后将这些图像填充10个像素,填充值为0,最后随机裁剪得到256×128的图像,并且以0.5的概率对图像做水平翻转进行数据增强。
也就是说,步骤2.1具体包括以下步骤:
步骤2.1.1:每个批次随机采样P个ID的K张图片进行训练,batch size为P×K,本发明设置P=32,K=4;
步骤2.1.2:将每个图像的大小调整为256×128像素,并将调整后的图像填充10个像素,填充值为0,然后随机裁剪成256×128的矩形图片,每幅图像水平翻转的概率为0.5,每个图像在[0,1]中被解码成32位浮点原始像素值,分别减去0.406、0.456、0.485,并除以0.224、0.225、0.229,以实现RGB通道归一化。
步骤2.2中,随着网络层数的增加,会迎来梯度爆炸和梯度消失等问题,将阻碍网络的收敛性,这种现象称为退化问题,而残差网络ResNet通过残次学习构建恒等映射的方法解决了这问题。残差网络ResNet由不同深度分为了152、10、50、34和18的结构,其中,ResNet50在行人重识别中最常见。ResNet50由瓶颈层Bottleneck构建而成,主要在图像分类任务中使用,Bottleneck用1×1、3×3和1×1卷积核组合实现3×3卷积核的功能:先利用1×1卷积、BN和线性整流函数Relu进行特征压缩,然后利用3×3卷积、BN和Relu进行特征提取,再利用1×1卷积和BN进行特征扩张,最后与输入特征相加,经过Relu输出。对比直接对输入进行3×3卷积,Bottleneck一方面通过减少参数量避免过拟合,另一方面通过级联(隐含层)增加了非线性。瓶颈层Bottleneck模块的结构如图3所示。
为了提高卷积神经网络(Convolutional Neural Networks,CNN)的性能,一般主要研究了网络的三个重要因素:深度、宽度和基数。注意力在人类感知中起着重要的作用,人类视觉系统的一个重要特性是人们不会试图一次性处理整个场景。相反,为了更好地捕捉视觉结构,人类会利用一系列局部的一瞥,选择性地关注突出的部分,因此注意力机制也成为了提高CNN的性能的另一个重要因素。而卷积块注意力模块CBAM是一种简单而有效的前馈卷积神经网络注意力模块,给定一个输入图像,两个注意力模块,通道和空间,计算互补,分别聚焦“what”和“where”。因此,CBAM结合ResNet50提取行人特征,通过学习强调感兴趣信息或抑制无用的信息,可以有效地帮助网络中的信息流动,从而提升特征辨识度。如图2其提取特征的具体步骤如下:
步骤2.2.1:采用在ImageNet数据集上预训练过的ResNet50作为骨干网络,保留layer1、layer2、layer3、layer4和layer5,去除全局平均池化层和全连接层;
步骤2.2.2:将P×K张256×128大小的图片先传输到ResNet50的layer1中,经过一个7×7且步长为2的卷积,然后经过批归一化BN和线性整流函数Relu,再经过3×3且步长为2的最大池化层;
步骤2.2.3:将步骤2.2.2处理后的特征图传输到ResNet50的layer2、layer3、layer4和layer5中,以输出大小为8×4的特征图;
步骤2.2.4:将步骤2.2.3输出的特征图输入全局平均池化层,并展成2048维的矩阵。
步骤2.2.3中,layer2、layer3、layer4和layer5这四层结构大致一样,分别由3、4、6和3个瓶颈层构成,每层各包含一个下采样。
如图4与图5所示,所述瓶颈层主要由三层组成:1×1、3×3和1×1卷积,在每个瓶颈层的第二个1×1卷积后插入卷积块注意力模块CBAM,使用卷积块注意力模块CBAM实行的具体步骤如下:
步骤Ⅰ:将瓶颈层的第二个1×1卷积后输出的特征图记为F∈RC×H×W,其中,C表示通道数,H表示图片长度,W表示图片宽度;
步骤Ⅱ:对输入F∈RC×H×W按通道进行全局最大池化和均值池化,将池化后的两个一维向量送入全连接层运算后相加,生成一维通道注意力Mc∈RC×1×1,再将通道注意力与输入元素相乘,得到通道注意力修正后的特征图F′;
步骤Ⅲ:将F′按空间进行全局最大池化和均匀池化,池化后生成的两个二维向量拼接后进行卷积操作,最后生成二维空间注意力MS∈R1×H×W,再将空间注意力与F′按元素相乘。
卷积块注意力模块CBAM生成注意力的具体描述如下:
MC(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (0-15)
MS(F)=σ(f7×7(Concat(AvgPool(F),MaxPool(F)))) (0-16)
其中,F表示输入的图像;MC表示通道注意力CAM的权值;F′表示通道注意力CAM调整后的特征图;MS表示空间注意力PAM的权值;F″表示空间注意力PAM调整后的特征图;σ表示激活函数sigmoid;f表示卷积核的大小;MLP表示共享全连接层转化;均匀池化AvgPool表示为平均值池化;最大池化MaxPool表示为最大值池化;Concat代表拼接;表示对应数组元素依次相乘,在相乘操作前,通道注意力CAM与空间注意力PAM分别需要按照空间维度与通道维度进行广播。
因此,将卷积块注意力模块CBAM附加在layer2、layer3、layer4和layer5的每个瓶颈层Bottleneck中,提取了行人图像的整体特征与局部细节,增强了网络的稳健性,获取行人图像的关键特征信息,使图像检索系统在识别图像时,可以对检索特征分配注意力权重,提高了模型的识别率,缩短了检索时间,提升了检索精
所述步骤2.3具体包括:
步骤2.3.1:将步骤2.2输出的特征记作ft,并输入到难样本挖掘三元组损失TriHard loss,难样本挖掘三元组损失TriHard loss用于优化欧式距离,可以增强类内紧凑型和类间可分性,通过随机选择P类,即P个行人ID,每类随机选择K个图像,形成包含P×K个图像的batch,在batch中找到锚样本与正样本之间最大的距离,锚样本与负样本之间最小的距离,成为batch hard,其表达式如下:
其中,P×K表示batch-size;表示锚样本和正样本之间的最大距离;/>表示锚样本和负样本之间的最小距离;m表示最小间隔的阈值,本发明取0.3;对于每一个锚样本,选择距离最大的/>和距离最小的/>当/>时,LTri取值大于0,当时,LTri取值为0;通过学习使负样本的特征距离尽可能大,正样本的特征距离尽可能小。虽然难样本挖掘三元组损失TriHard loss很有效,但也有缺点:三元组的选取导致数据的分布并不一定均匀,所以在模型训练过程中表现很不稳定,而且收敛慢,需要根据结果不断调节参数,而且难样本挖掘三元组损失TriHard loss比分类损失更容易过拟合,和加性角度间隔损失ArcFace loss结合使用会更好。
步骤2.3.2:在特征层ft之后添加一个批归一化BN;在训练时,用BN层之前的特征训练难样本挖掘三元组损失TriHard loss,用BN层之后的特征训练加性角度间隔损失ArcFace loss;这是因为:同时使用难样本挖掘三元组损失TriHard loss和加性角度间隔损失ArcFace loss这两个损失函数对特征向量进行优化时,可能会出现一种损失减少而另一种损失震荡或者增加的情况。
步骤2.3.3:将经过BN层之后得到的特征记为fa,用fa计算加性角度间隔损失ArcFace loss;
步骤2.3.4:行人重识别方法的目标损失函数如下:
L=λ1LTri+λ2Larc (0-20)
其中,λ1和λ2分别是难样本挖掘三元组损失TriHard loss和加性角度间隔损失ArcFace loss的占比,本发明中λ1取值为0.3,λ2取值为1;
步骤2.3.5:反向传播更新网络参数,最后得到训练好的行人重识别网络模型。
步骤2.3.3中,加性角度间隔损失ArcFace loss通过引入角度间隔最大化分类界限,在保证类间可分性的同时具有更小的类内距离,其表达式如下:
其中,N为最小批量的大小,s为特征向量归一化后的固定值,i为某一训练样本,yi为训练样本i所属的类别,j为某一类别,n为最小批量的类别数,θj为其他数据的特征向量与对应的类别权重向量之间的夹角,m为所设置的间隔大小,本发明中m取0.5。
如图6所示,步骤3中,首先分别将待查询数据集Query和待匹配图像数据集Gallery中的行人图像输入到训练好的模型中,提取特征并且识别得到行人的ID,将这些特征与行人ID信息保存下来;接着,计算待匹配图像数据集Gallery与待查询数据集Query各个样本特征的欧氏距离;最后,按相似度对待匹配图像数据集Gallery中的图像做排序,并计算首位命中率Rank-1和平均精确度mAP指标。
综上所述,本发明使用卷积块注意力模块CBAM结合残差网络ResNet50的方法提取特征能够增强表现力,专注于重要的特征,抑制不必要的特征;同时,使用难样本挖掘三元组损失TriHard loss和加性角度间隔损失ArcFace loss联合训练,使特征向量类内尽可能紧凑,类间尽可能分离,加快收敛速度,从而提高了学习效率和准确率。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种行人重识别方法,应用于无人机场景中,其特征在于,所述行人重识别方法包括以下步骤:
步骤1:下载无人机场景下的数据集PRAI-1581,并将数据集PRAI-1581按照1:1的比例划分为训练集和测试集;
步骤2:搭建适用于无人机场景的行人重识别网络框架,主要包括三部分:数据集预处理、特征提取和计算损失,具体步骤如下:
步骤2.1:在训练之前,对输入图像进行数据增强,数据增强包括水平翻转、缩放和剪裁;
步骤2.2:在残差网络ResNet50中插入卷积块注意力模块CBAM,将预处理过的图像通过CBAM-ResNet50模块提取特征,学习特征之间的关系,获取行人的关键特征信息;
步骤2.3:损失函数由难样本挖掘三元组损失TriHardloss和加性角度间隔损失ArcFaceloss组成,计算损失函数,训练网络,反向传播更新网络参数,得到训练好的行人重识别网络模型;
步骤3:进行行人重识别匹配,分别对待查询数据集Query和待匹配图像数据集Gallery提行人特征,将待查询数据集Query中的图像与待匹配图像数据集Gallery中的每一幅图像采用特征向量间的欧式距离计算相似度,将待匹配图像数据集Gallery中的图像按相似度排序得到首位命中率Rank-1与平均精确度mAP,最终实现对行人样本的重识别。
2.根据权利要求1所述的行人重识别方法,其特征在于:所述步骤1中的训练集和测试集中的行人身份ID不重复。
3.根据权利要求1所述的行人重识别方法,其特征在于,所述步骤2.1具体为:每个批次随机采样P个ID的K张预处理后的图像输入模型,先将输入图像的尺寸扩大为256×128,然后将这些图像填充10个像素,填充值为0,最后随机裁剪得到256×128的图像,并且以0.5的概率对图像做水平翻转进行数据增强。
4.根据权利要求3所述的行人重识别方法,其特征在于,所述步骤2.2具体包括:
步骤2.2.1:采用在ImageNet数据集上预训练过的ResNet50作为骨干网络,保留layer1、layer2、layer3、layer4和layer5,去除全局平均池化层和全连接层;
步骤2.2.2:将P×K张256×128大小的图片先传输到ResNet50的layer1中,经过一个7×7且步长为2的卷积,然后经过批归一化BN和线性整流函数Relu,再经过3×3且步长为2的最大池化层;
步骤2.2.3:将步骤2.2.2处理后的特征图传输到ResNet50的layer2、layer3、layer4和layer5中,以输出大小为8×4的特征图;
步骤2.2.4:将步骤2.2.3输出的特征图输入全局平均池化层,并展成2048维的矩阵。
5.根据权利要求4所述的行人重识别方法,其特征在于:步骤2.2.3中,layer2、layer3、layer4和layer5这四层结构大致一样,分别由3、4、6和3个瓶颈层构成,每层各包含一个下采样。
6.根据权利要求5所述的行人重识别方法,其特征在于:所述瓶颈层主要由三层组成:1×1、3×3和1×1卷积,在每个瓶颈层的第二个1×1卷积后插入卷积块注意力模块CBAM,使用卷积块注意力模块CBAM实行的具体步骤如下:
步骤Ⅰ:将瓶颈层的第二个1×1卷积后输出的特征图记为F∈RC×H×W,其中,C表示通道数,H表示图片长度,W表示图片宽度;
步骤Ⅱ:对输入F∈RC×H×W按通道进行全局最大池化和均值池化,将池化后的两个一维向量送入全连接层运算后相加,生成一维通道注意力Mc∈RC×1×1,再将通道注意力与输入元素相乘,得到通道注意力修正后的特征图F′;
步骤Ⅲ:将F′按空间进行全局最大池化和均匀池化,池化后生成的两个二维向量拼接后进行卷积操作,最后生成二维空间注意力MS∈R1×H×W,再将空间注意力与F′按元素相乘。
7.根据权利要求6所述的行人重识别方法,其特征在于:卷积块注意力模块CBAM生成注意力的具体描述如下:
MC(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (0-1)
MS(F)=σ(f7×7(Concat(AvgPool(F),MaxPool(F)))) (0-2)
8.根据权利要求1所述的行人重识别方法,其特征在于,所述步骤2.3具体包括:
步骤2.3.1:将步骤2.2输出的特征记作ft,并输入到难样本挖掘三元组损失TriHardloss,难样本挖掘三元组损失TriHard loss用于优化欧式距离,通过随机选择P类,即P个行人ID,每类随机选择K个图像,形成包含P×K个图像的batch,在batch中找到锚样本与正样本之间最大的距离,锚样本与负样本之间最小的距离,成为batch hard,其表达式如下:
其中,P×K表示batch-size;表示锚样本和正样本之间的最大距离;/>表示锚样本和负样本之间的最小距离;m表示最小间隔的阈值;对于每一个锚样本,选择距离最大的和距离最小的/>当/>时,LTri取值大于0,当/>时,LTri取值为0;
步骤2.3.2:在特征层ft之后添加一个批归一化BN;在训练时,用BN层之前的特征训练难样本挖掘三元组损失TriHard loss,用BN层之后的特征训练加性角度间隔损失ArcFaceloss;
步骤2.3.3:将经过BN层之后得到特征记为fa,用fa计算加性角度间隔损失ArcFaceloss;
步骤2.3.4:行人重识别方法的目标损失函数如下:
L=λ1LTri+λ2Larc (0-6)
其中,λ1和λ2分别是难样本挖掘三元组损失TriHard loss和加性角度间隔损失ArcFaceloss的占比;
步骤2.3.5:反向传播更新网络参数,最后得到训练好的行人重识别网络模型。
10.根据权利要求1所述的行人重识别方法,其特征在于:步骤3中,首先分别将待查询数据集Query和待匹配图像数据集Gallery中的行人图像输入到训练好的模型中,提取特征并且识别得到行人的ID,将这些特征与行人ID信息保存下来;接着,计算待匹配图像数据集Gallery与待查询数据集Query各个样本特征的欧氏距离;最后,按相似度对待匹配图像数据集Gallery中的图像做排序,并计算首位命中率Rank-1和平均精确度mAP指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310279257.4A CN116311368A (zh) | 2023-03-21 | 2023-03-21 | 行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310279257.4A CN116311368A (zh) | 2023-03-21 | 2023-03-21 | 行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116311368A true CN116311368A (zh) | 2023-06-23 |
Family
ID=86818357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310279257.4A Pending CN116311368A (zh) | 2023-03-21 | 2023-03-21 | 行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311368A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116503914A (zh) * | 2023-06-27 | 2023-07-28 | 华东交通大学 | 行人重识别方法、系统、可读存储介质及计算机设备 |
CN116959077A (zh) * | 2023-09-12 | 2023-10-27 | 深圳须弥云图空间科技有限公司 | 图像识别方法、装置、电子设备及可读存储介质 |
-
2023
- 2023-03-21 CN CN202310279257.4A patent/CN116311368A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116503914A (zh) * | 2023-06-27 | 2023-07-28 | 华东交通大学 | 行人重识别方法、系统、可读存储介质及计算机设备 |
CN116503914B (zh) * | 2023-06-27 | 2023-09-01 | 华东交通大学 | 行人重识别方法、系统、可读存储介质及计算机设备 |
CN116959077A (zh) * | 2023-09-12 | 2023-10-27 | 深圳须弥云图空间科技有限公司 | 图像识别方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112750140B (zh) | 基于信息挖掘的伪装目标图像分割方法 | |
CN116311368A (zh) | 行人重识别方法 | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN112150493B (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
Li et al. | Deep matting for cloud detection in remote sensing images | |
CN112541468B (zh) | 一种基于双模板响应融合的目标跟踪方法 | |
CN113920581B (zh) | 一种时空卷积注意力网络用于视频中动作识别的方法 | |
CN111506759B (zh) | 一种基于深度特征的影像匹配方法及装置 | |
CN112766186B (zh) | 一种基于多任务学习的实时人脸检测及头部姿态估计方法 | |
CN116758130A (zh) | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 | |
US11881020B1 (en) | Method for small object detection in drone scene based on deep learning | |
CN114067444A (zh) | 基于元伪标签和光照不变特征的人脸欺骗检测方法和系统 | |
CN114549567A (zh) | 基于全方位感知的伪装目标图像分割方法 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN112084952B (zh) | 一种基于自监督训练的视频点位跟踪方法 | |
CN109165698A (zh) | 一种面向智慧交通的图像分类识别方法及其存储介质 | |
CN111507416B (zh) | 一种基于深度学习的吸烟行为实时检测方法 | |
CN112434654A (zh) | 一种基于对称卷积神经网络的跨模态行人重识别方法 | |
CN115661754A (zh) | 一种基于维度融合注意力的行人重识别方法 | |
CN116704188A (zh) | 一种基于改进U-Net网络的不同容重小麦籽粒图像分割算法 | |
CN115393788A (zh) | 一种基于增强全局信息注意力的多尺度监控行人重识别方法 | |
CN115719457A (zh) | 一种基于深度学习的无人机场景下小目标检测的方法 | |
CN117727069A (zh) | 基于多尺度信息交互网络的文本-图像行人重识别方法 | |
Zhang et al. | Learning nonlocal quadrature contrast for detection and recognition of infrared rotary-wing UAV targets in complex background | |
Huang et al. | Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |