CN114022906A - 基于多层次特征与注意力机制的行人再识别方法 - Google Patents
基于多层次特征与注意力机制的行人再识别方法 Download PDFInfo
- Publication number
- CN114022906A CN114022906A CN202111504859.2A CN202111504859A CN114022906A CN 114022906 A CN114022906 A CN 114022906A CN 202111504859 A CN202111504859 A CN 202111504859A CN 114022906 A CN114022906 A CN 114022906A
- Authority
- CN
- China
- Prior art keywords
- attention mechanism
- pedestrian
- local
- global
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于多层次特征与注意力机制的行人再识别方法及模型,涉及计算机视觉行人再识别技术领域,其中行人再识别方法包含以下步骤:S1:准备图像样本集;S2:进行数据预处理:所述数据预处理包括随机擦除和随机加噪的数据增强方法;S3:采用Resnet50框架,并添加注意力机制;S4:分别进行多层次特征提取;S5:训练模型;S6:测试训练后的模型。通过采用随机擦除和随机加噪的数据增强方法,有效地解决了由于物体遮挡或周围环境较复杂等因素造成的识别率较低的问题,使得训练后的模型具有更高的鲁棒性。
Description
技术领域
本发明涉及计算机视觉行人再识别技术领域,尤其涉及一种基于多层次特征与注意力机制的行人再识别方法。
背景技术
随着深度学习的发展,深度模型在行人再识别领域也已经得到了广泛的应用。行人再识别的任务是在非重叠的摄像机中识别匹配出感兴趣的行人。行人再识别在智能安防中的应用至关重要,然而由于姿态、遮挡、背景、光照、相机分辨率等外在因素的影响,行人再识别至今仍然是一个非常具有挑战性的问题。
先前大多数研究集中在利用卷积神经网络提取行人的全局特征,然而这些基于全局特征的方法很难解决由于遮挡、光照不均匀等造成的错误匹配问题。很多研究人员也注意到了该问题,引入了局部特征。例如一些研究引入了人体姿态信息和行人属性特征来增强特征表示能力,如图1所示,通过捕捉人体姿态的变化以及外部附属品等信息来学习局部特征。也有一些研究者提出切分行人图像,在不同图像之间的各个部位匹配中学习局部特征。然而,这些学习局部特征的方法,忽略了由于图像背景复杂度高以及拍摄距离远近不同,而导致局部特征提取存在偏差的问题,因此融合后的特征并不能很好地表示行人特征。
研究发现,注意力机制可以极大地提高行人再识别结果。注意力机制模块最早是在2018年被提出,通过提出卷积注意模块,验证了注意力机制可以有效提高特征表示能力。注意力机制是指捕捉图像的特定区域,通过关注图像特定的区域来提高识别精度。然而,这些注意力机制都是放在局部特征提取中,更注重特定的小区域,往往会忽略大的全局信息,因此在利用注意力机制时,往往也会遇到由于弱化了全局特征导致的识别精度不高的问题。
发明内容
本发明的目的是为了解决现有技术中在行人再识别提取特征的过程中,仅采用全局特征时,提取到的特征容易受到姿态、背景和光照等外部因素的影响,从而导致识别率急剧下降。然而,仅采用局部特征时,容易使得提取到的特征存在偏差,导致识别率较低的技术问题。
为了实现上述目的,本发明采用了如下技术方案:
一种基于多层次特征与注意力机制的行人再识别方法,其包含数据预处理、注意力机制方法及多特征提取,其中所述数据预处理包括随机擦除和随机加噪的数据增强方法;所述注意力机制方法包括通道注意力机制和空间注意力机制两种注意力机制方法,所述多特征提取包括全局特征提取和局部特征提取两个分支特征提取方法。
优选的,在进行随机擦除和随机加噪处理时,对输入的数据集中50%的数据进行处理。
优选的,在数据预处理前准备图像样本集,所述图像样本集为采集的行人图像样本集及Market1501、CUHK03和DukeMTMC-ReID。
优选的,数据预处理完成后,将Resnet50网络作为骨干网络,并且在网络的第四层后添加空间注意力机制和通道注意力机制;所述空间注意力机制的作用是为了寻找网络中最重要的部位进行处理,所述通道注意力机制的作用是通过利用不同通道的重要程度从而有针对性地增强或抑制不同的通道。
优选的,对于全局分支,使用全局平局池化将特征映射转化为全局特征向量,用全局距离计算得到两幅图像的相似度。
优选的,对于局部分支,先采用水平池化将S3中得到的特征映射进行水平池化,得到池化后的特征映射,从而得到局部特征,对得到的局部特征进行局部距离测量,计算局部距离时采用最短距离的方法,得到两张图像的相似度。
优选的,还包括训练模型,所述训练模型使用传统的三元组损失函数计算损失,具体的,采用softmax损失函数和TriHard损失函数训练模型,总的损失函数为:
L=LID+Llocal+Lglobal
其中LID表示全局分支的softmax损失,Lglobal表示全局分支的TriHard损失,Llocal表示局部分支的TriHard损失;采用总的损失函数训练模型,从而得到训练后的行人再识别模型。
本申请还提供了一种基于多层次特征与注意力机制的行人再识别的模型,使用上述所述的基于多层次特征与注意力机制的行人再识别方法构建得到。
本申请所提供的一种基于多层次特征与注意力机制的行人再识别方法,与现有技术相比,具有以下有益效果:
1、通过采用随机擦除和随机加噪的数据增强方法,有效地解决了由于物体遮挡或周围环境较复杂等因素造成的识别率较低的问题,使得训练后的模型具有更高的鲁棒性。
2、通过添加通道注意力机制和空间注意力机制时可以使得模型能更好的提取行人特征,从而解决提取特征存在偏差的问题。
3、通过采用两个分支网络结构分别进行全局特征提取和局部特征提取,局部特征阶段采用最短距离的方法,使得提取的特征能更好表示行人特征,提高了模型的识别结果。
附图说明
图1为人体姿态信息图;
图2为本发明一实施方式中一种基于多层次特征与注意力机制的行人再识别方法的整体框架示意图;
图3为本申请一实施方式中空间注意力机制的步骤示意图;
图4为本申请一实施方式中通道注意力机制的步骤示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合具体实施例,对本发明作进一步地详细说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开说明书的具体实施例的限制。
一种基于多层次特征与注意力机制的行人再识别方法,请参阅图2,包含以下步骤:
S1:准备图像样本集;
具体的,使用公开的数据集作为图像样本集进行训练。
在一实施方式中,使用Market1501、CUHK03和DukeMTMC-ReID三个数据集。
S2:进行数据预处理
具体的,在一实施方式中,采用随机擦除和随机加噪的数据增强方法进行数据预处理。
传统的行人再识别方法中,为增强数据,几乎都是采用随机裁剪和随机翻转,这无法解决由于物体遮挡或者周围环境复杂导致的识别率下降的问题。本申请中通过采用随机擦除和随机加噪的数据处理方法,模拟了类似场景,可以有效解决此类情况造成的识别率下降的问题。
在一实施方式中,在进行随机擦除和随机加噪处理时,对输入的数据集中50%的数据进行处理。
S3:采用Resnet50框架,并添加注意力机制;
将Resnet50网络作为骨干网络,并且在网络的第四层后添加空间注意力机制和通道注意力机制。
其中空间注意力机制的作用是为了寻找网络中最重要的部位进行处理,请参阅图3,首先对输入的特征分别进行最大池化操作和平均池化操作,分别得到不同的特征;其次对两种不同的特征进行拼接形成一个特征描述符;最后对该特征描述符沿着通道的方向进行池化操作,得到空间特征。
在一实施方式中,所述空间注意力机制具体过程为:对于输入特征x分别进行最大池化和平均池化操作,得到不同的特征xs max和xs avg,将得到的特征拼接起来形成一个特征描述符,最后对该特征描述符沿着通道的方向进行池化操作,得到空间特征Fs(x)。具体计算过程如下所示:
上述公式中,M表示sigmoid函数,V表示卷积核大小为7×7的卷积层,T表示拼接函数。
所述通道注意力机制的作用是通过利用不同通道的重要程度从而有针对性地增强或者抑制不同的通道,在一实施方式中,请参阅图4,首先对输入的特征分别进行平均池化和最大池化操作,得到两个不同的特征;其次对得到的特征分别经过卷积层和ReLU激活层进行卷积和拼接;最后通过特征映射得到通道特征。
具体的,在一实施方式中,通道注意力机制的具体过程为:对输入特征x分别进行最大池化和平均池化操作,得到不同的特征xc max和xc avg,将得到的特征分别经过卷积层和ReLU激活函数层进行卷积和拼接,从而得到通道特征Fc(x)。具体计算过程如下所示:
其中,上述公式中,M表示sigmoid函数,f1和f2分别表示不同卷积核大小的卷积层,R表示ReLU激活函数。
S4:分别进行多层次特征提取;
具体的,在一实施方式中,采用两个分支网络分别进行全局特征提取和局部特征提取。
其中,对于全局分支,使用全局平局池化将特征映射转化为全局特征向量,用全局距离计算得到两幅图像的相似度;
具体的,在一实施方式中,假设Fga和Fgb分别是图像a和图像b的全局特征,那么图像a和b的全局距离的计算过程为:
Dg(a,b)=||Fga-Fgb||2
在得到图像a和图像b的全局距离和局部距离后,那么两幅图像总的距离为:
D(a,b)=Dl(a,b)+Dg(a,b)
对于局部分支,先采用水平池化将S3中得到的特征映射进行水平池化,得到池化后的特征映射,从而得到局部特征,对得到的局部特征进行局部距离测量,计算局部距离时采用最短距离的方法,得到两张图像的相似度。
具体的,在一实施方式中,对于局部特征分支,将Resnet50得到的特征映射进行水平池化后得到C×H×1的特征映射,从而得到局部特征。对得到的局部特征进行局部距离测量得到两张图像的相似度。这里的局部测量采用的是最短距离的方法,将图像a和图像b的局部特征分别表示为Fla={F1 la,F2 la,F3 la,…,FH la}和Flb={F1 lb,F2 lb,F3 lb,…,FH lb},其中FH la表示图a被切分的第H部分的局部特征,FH lb表示图b被切分的第H部分的局部特征。那么图像a和图像b中每一部分之间的距为:
这里的i表示图像a的第i部分,j表示图像b的第j部分。那么图像a和图像b每部分之间的最短距离Sl(i,j)计算过程为:
S5:训练模型:
将S4中得到的全局距离结果和局部距离结果使用传统的三元组损失函数计算损失,经过多次训练后得到训练模型。
具体的,在一实施方式中,采用softmax损失函数和TriHard损失函数训练模型,那么总的损失函数为:
L=LID+Llocal+Lglobal
其中LID表示全局分支的softmax损失,Lglobal表示全局分支的TriHard损失,Llocal表示局部分支的TriHard损失。
采用总的损失函数训练模型,从而得到训练后的行人再识别模型。
S6:测试训练后的模型,比较识别效果
在一实施方式中,分别采用Market1501、CUHK03和DukeMTMC-ReID三个数据集对训练后的模型进行测试,并与其他模型识别结果进行比较。
在一实施方式中,评价指标可使用rank-k、mAP。
rank-k:算法返回的排序列表中,前k位为存在检索目标则称为rank-k命中。例:rank1:首位为检索目标则rank-1命中。
mAP(mean average precision):反应检索的人在数据库中所有正确的图片排在排序列表前面的程度,能更加全面的衡量Re-ID算法的性能。例:假设检索行人在图库中有4张图片,在检索的列表中位置分别为1、2、5、7,则ap为(1/1+2/2+3/5+4/7)/4=0.793;ap较大时,该行人的检索结果都相对靠前,对所有查询的ap取平均值得到mAP。
表1数据集测试结果
请参阅表1,在表中可以看到,与近几年的结果较好的几种行人再识别方法相比,本发明的实验结果更好,mAP和Rank-1的识别精度更高。在Market1501数据集上,本发明比AlignedReID++的mAP识别精度高2.7%,Rank-1识别精度高1.5%。在CUHK03数据集上,本发明比AlignedReID++的mAP识别精度高8.5%,Rank-1识别精度高9.7%。在DukeMTMC-ReID数据集上,本发明比AlignedReID++的mAP识别精度高4.8%,Rank-1识别精度高2.8%。实验结果表明了本发明涉及的结合多特征提取与注意力机制的行人再识别方法的有效性。
本申请还提供了一种基于多层次特征与注意力机制的行人再识别的模型,通过上述基于多层次特征与注意力机制的行人再识别方法构建得出。
本申请所提供的一种基于多层次特征与注意力机制的行人再识别方法,通过S2中在数据预处理部分采用随机擦除和随机加噪的数据增强方法,模拟了现实拍摄场景中存在的物体遮挡及周围环境复杂等情况,有效解决了此类情况造成的识别率较低的问题;
且通过在Resnet50框架的第四层后添加了空间注意力机制及通道注意力机制,不仅可以寻找到网络中重要的部位,而且通过不同通道的重要程度增强或者抑制不同通道,有效地解决了提取特征存在偏差的问题;
同时在特征提取部分采用两个分支网络结构,首先通过注意力机制,然后再经过两个分支网络分别进行全局特征和局部特征提取,这个过程不仅解决了仅用全局特征导致特征提取不全面的问题,而且解决了多分枝网络结构较复杂,网络训练难度较高的问题,使得提取到的特征能更好地表示行人特征,提高了模型的识别结果。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围。
Claims (8)
1.一种基于多层次特征与注意力机制的行人再识别方法,其特征在于:包含数据预处理、注意力机制方法及多特征提取,其中所述数据预处理包括随机擦除和随机加噪的数据增强方法;所述注意力机制方法包括通道注意力机制和空间注意力机制两种注意力机制方法,所述多特征提取包括全局特征提取和局部特征提取两个分支特征提取方法。
2.根据权利要求1所述的基于多层次特征与注意力机制的行人再识别方法,其特征在于:在进行随机擦除和随机加噪处理时,对输入的数据集中50%的数据进行处理。
3.根据权利要求1所述的基于多层次特征与注意力机制的行人再识别方法,其特征在于:在数据预处理前准备图像样本集,所述图像样本集为采集的行人图像样本集及Market1501、CUHK03和DukeMTMC-ReID。
4.根据权利要求1所述的基于多层次特征与注意力机制的行人再识别方法,其特征在于:数据预处理完成后,将Resnet50网络作为骨干网络,并且在网络的第四层后添加空间注意力机制和通道注意力机制;所述空间注意力机制的作用是为了寻找网络中最重要的部位进行处理,所述通道注意力机制的作用是通过利用不同通道的重要程度从而有针对性地增强或抑制不同的通道。
5.根据权利要求1所述的基于多层次特征与注意力机制的行人再识别方法,其特征在于:对于全局分支,使用全局平局池化将特征映射转化为全局特征向量,用全局距离计算得到两幅图像的相似度。
6.根据权利要求1所述的基于多层次特征与注意力机制的行人再识别方法,其特征在于:对于局部分支,先采用水平池化将S3中得到的特征映射进行水平池化,得到池化后的特征映射,从而得到局部特征,对得到的局部特征进行局部距离测量,计算局部距离时采用最短距离的方法,得到两张图像的相似度。
7.根据权利要求5所述的基于多层次特征与注意力机制的行人再识别方法,其特征在于:还包括训练模型,所述训练模型使用传统的三元组损失函数计算损失,具体的,采用softmax损失函数和TriHard损失函数训练模型,总的损失函数为:
L=LID+Llocal+Lglobal
其中LID表示全局分支的softmax损失,Lglobal表示全局分支的TriHard损失,Llocal表示局部分支的TriHard损失;采用总的损失函数训练模型,从而得到训练后的行人再识别模型。
8.一种基于多层次特征与注意力机制的行人再识别的模型,其特征在于:使用权利要求1-7任意一项所述的基于多层次特征与注意力机制的行人再识别方法构建得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111504859.2A CN114022906A (zh) | 2021-12-10 | 2021-12-10 | 基于多层次特征与注意力机制的行人再识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111504859.2A CN114022906A (zh) | 2021-12-10 | 2021-12-10 | 基于多层次特征与注意力机制的行人再识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114022906A true CN114022906A (zh) | 2022-02-08 |
Family
ID=80068620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111504859.2A Pending CN114022906A (zh) | 2021-12-10 | 2021-12-10 | 基于多层次特征与注意力机制的行人再识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022906A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114463312A (zh) * | 2022-02-10 | 2022-05-10 | 华中科技大学同济医学院附属协和医院 | 基于交叉注意力机制的骨折影像精细识别网络构建方法 |
-
2021
- 2021-12-10 CN CN202111504859.2A patent/CN114022906A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114463312A (zh) * | 2022-02-10 | 2022-05-10 | 华中科技大学同济医学院附属协和医院 | 基于交叉注意力机制的骨折影像精细识别网络构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
CN110533722B (zh) | 一种基于视觉词典的机器人快速重定位方法及系统 | |
US11763485B1 (en) | Deep learning based robot target recognition and motion detection method, storage medium and apparatus | |
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
CN108960211B (zh) | 一种多目标人体姿态检测方法以及系统 | |
CN111325111A (zh) | 一种融合逆注意力和多尺度深度监督的行人重识别方法 | |
CN106897673B (zh) | 一种基于retinex算法和卷积神经网络的行人再识别方法 | |
Komorowski et al. | Minkloc++: lidar and monocular image fusion for place recognition | |
CN109784197B (zh) | 基于孔洞卷积与注意力学习机制的行人再识别方法 | |
CN107424161B (zh) | 一种由粗至精的室内场景图像布局估计方法 | |
CN109829353B (zh) | 一种基于空间约束的人脸图像风格化方法 | |
CN111814845B (zh) | 一种基于多支流融合模型的行人重识别方法 | |
CN111914642A (zh) | 一种行人重识别方法、装置、设备及介质 | |
CN109325407B (zh) | 基于f-ssd网络滤波的光学遥感视频目标检测方法 | |
CN112329771B (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN113408584A (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
CN111402331B (zh) | 基于视觉词袋和激光匹配的机器人重定位方法 | |
Sun et al. | Noise-tolerant RGB-D feature fusion network for outdoor fruit detection | |
CN116883588A (zh) | 一种大场景下的三维点云快速稠密重建方法及系统 | |
Barroso-Laguna et al. | Scalenet: A shallow architecture for scale estimation | |
CN113076891B (zh) | 基于改进高分辨率网络的人体姿态预测方法及系统 | |
CN114022906A (zh) | 基于多层次特征与注意力机制的行人再识别方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN115830631B (zh) | 基于姿态辅助遮挡人体再识别的一人一档系统构建方法 | |
CN113888603A (zh) | 基于光流跟踪和特征匹配的回环检测及视觉slam方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |