CN109784197B - 基于孔洞卷积与注意力学习机制的行人再识别方法 - Google Patents

基于孔洞卷积与注意力学习机制的行人再识别方法 Download PDF

Info

Publication number
CN109784197B
CN109784197B CN201811569608.0A CN201811569608A CN109784197B CN 109784197 B CN109784197 B CN 109784197B CN 201811569608 A CN201811569608 A CN 201811569608A CN 109784197 B CN109784197 B CN 109784197B
Authority
CN
China
Prior art keywords
pedestrian
attention
loss function
network
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811569608.0A
Other languages
English (en)
Other versions
CN109784197A (zh
Inventor
袁媛
王�琦
蒋旻悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201811569608.0A priority Critical patent/CN109784197B/zh
Publication of CN109784197A publication Critical patent/CN109784197A/zh
Application granted granted Critical
Publication of CN109784197B publication Critical patent/CN109784197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于孔洞卷积与注意力学习机制的行人再识别方法,用于解决现有行人再识别方法实用性差的技术问题。技术方案是首先设计基于孔洞卷积的瓶颈模块,并将多个瓶颈模块串联组成主干网络;对主干网络进行预训练,得到预训练模型;在主干网络的不同层次提取注意力特征图,并限制多层注意力特征图一致,自主学习不同层次注意力特征;采用交叉熵损失函数、三元组损失函数以及注意力特征图约束损失函数对网络进行训练;利用主干网络直接提取最终的特征,并在行人检索库中搜索与待搜索行人特征距离最小的行人图片,将身份赋予待搜索行人,完成再识别过程。本发明将卷积神经网络与注意力学习机制相结合,能够精确进行行人再识别,实用性好。

Description

基于孔洞卷积与注意力学习机制的行人再识别方法
技术领域
本发明涉及一种行人再识别方法,特别涉及一种基于孔洞卷积与注意力学习机制的行人再识别方法。
背景技术
行人再识别是指在不同摄像头场景下识别出行人身份的技术,是视频监控分析技术中非常重要的一部分。然而由于监控视频比较复杂,受到剧烈变化的光照、天气、视角变换、行人姿态、遮挡等因素的影响,以及成像设备分辨率差的影响,使得在不同摄像头下识别出同一行人比较困难。随着深度学习在图像分类、目标识别等多个计算机视觉领域取得重大突破。
将深度学习应用在行人再识别上能够很好地处理上述问题。一般来说,深度学习的行人再识别算法主要包含以下几个步骤:
步骤一、对行人图片进行预处理;
步骤二、利用交叉熵损失函数将行人再识别对深度卷积神经网络进行训练;
步骤三、使用训练好的网络提取待搜索行人与查询库中的行人特征;
步骤四、计算待搜索行人特征与检索库行人特征间的距离,并排序;
步骤五、将距离最小的检索库行人的身份赋予待查询行人,再识别完成。
当前基于深度学习的行人再识别方法主要是通过利用深度卷积神经网络与设计损失函数进行行人再识别。深度卷积神经网络通过不断堆叠卷积层、激活函数层、池化层、全连接层等提取行人图片特征,卷积层中的卷积核根据场景进行调整,以适应复杂环境。通过反向传播,损失函数能够指导网络学习在复杂场景下更加鲁棒、更加具有辨别力的特征。利用上述训练的网络对待查找图片和检索库中所有图片提取特征,并计算特征之间的距离,并认为距离最小的检索图片中行人的身份为待查找图片中行人的身份。
Li等人在文献“D.Li,X.Chen,Z.Zhang,K.Huang,Learning Deep Context-awareFeatures over Body and Latent Parts for Person Re-identification.IEEEInternational Conference on Computer Vision and Pattern Recognition,384-393,2017.”中提出了一种深度学习的行人再识别的方法,该方法利用卷积神经网络首先将行人图片分成头、躯干、腿三部分,然后再输入到网络中提取3个部分的深层特征,并串联起来,该网络使用交叉熵损失函数进行训练。基于深度学习的方法能够在复杂场景下提取鲁棒并且具有辨别力的特征,目前逐渐成为行人再识别领域的主流算法。虽然该方法中使用了行人的多个部分的深层特征进行匹配,但直接忽略了浅层特征,很多的细节信息只在浅层特征中存在,在深层特征中已经丢失,因此不能直接丢弃浅层特征,深浅层特征应有选择的进行融合。同时,该网络深浅层特征之间的大小不同,不添加额外的上采样或下采样操作无法直接使用。
发明内容
为了克服现有行人再识别方法实用性差的不足,本发明提供一种基于孔洞卷积与注意力学习机制的行人再识别方法。该方法首先设计基于孔洞卷积的瓶颈模块,并将多个瓶颈模块串联组成主干网络;对主干网络进行预训练,得到预训练模型;在主干网络的不同层次提取注意力特征图,并限制多层注意力特征图一致,自主学习不同层次注意力特征;采用交叉熵损失函数、三元组损失函数以及注意力特征图约束损失函数对网络进行训练;利用主干网络直接提取最终的特征,并在行人检索库中搜索与待搜索行人特征距离最小的行人图片,将身份赋予待搜索行人,完成再识别过程。本发明将卷积神经网络与注意力学习机制相结合,能够精确识别出不同摄像头下的行人身份,实用性好。
本发明解决其技术问题所采用的技术方案:一种基于孔洞卷积与注意力学习机制的行人再识别方法,其特点是包括以下步骤:
步骤一、设计基于孔洞卷积的瓶颈模块,将多个瓶颈模块串联组成主干网络。
步骤二、使用注意力特征图提取模块,根据注意力特征图公式:
Figure GDA0003543324670000021
提取注意力特征图;其中,input为输入特征,atti,j代表注意力特征图上的(i,j)点的数值,i,j为特征(i,j)点的数值,1≤i≤H,1≤j≤W,H,W分别为输入特征的高和宽,k为特征的一个通道,1≤k≤C,C为特征的通道数。将特征在通道上进行平均,得到注意力特征图。
步骤三、对主干网络进行训练。
训练采用随机梯度下降法,对分类损失函数、三元组损失函数以及注意力特征图约束损失函数进行优化。
分类损失函数公式如下:
Lcls=-logpu
其中,
Figure GDA0003543324670000031
u是真实类别标签,N为类别数目。
三元组损失函数公式如下:
Ltrip=max(0,d(f(xi),f(xj))-d(f(xi),f(xk))+α),
其中,xi,xj,xk为输入的三张行人图片,xi,xj行人身份一致,xi,xk行人身份不一致,α为间隔,f(.)为通过卷积神经网络提取的特征,d(.)为欧氏距离。
注意力特征图约束损失函数公式如下:
Lsac=|att(l5)-att(l3)|+|att(l5)-att(l4)|,
其中,att(.)为不同层次的注意力特征图,lg为各层次中最后一个卷积层输出的特征。
通过随机梯度下降训练网络直至收敛,并保存网络权重。
步骤四、利用步骤三训练完成的网络提取对应测试行人特征,以及行人检索库的行人特征。
步骤五、将步骤四提取的测试行人特征与检索库中行人特征计算距离,并进行排序,将排序中距离最小的检索库行人图片的行人身份赋予待搜索行人,完成行人再识别。
本发明的有益效果是:该方法首先设计基于孔洞卷积的瓶颈模块,并将多个瓶颈模块串联组成主干网络;对主干网络进行预训练,得到预训练模型;在主干网络的不同层次提取注意力特征图,并限制多层注意力特征图一致,自主学习不同层次注意力特征;采用交叉熵损失函数、三元组损失函数以及注意力特征图约束损失函数对网络进行训练;利用主干网络直接提取最终的特征,并在行人检索库中搜索与待搜索行人特征距离最小的行人图片,将身份赋予待搜索行人,完成再识别过程。本发明将卷积神经网络与注意力学习机制相结合,能够精确识别出不同摄像头下的行人身份,实用性好。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明基于孔洞卷积与注意力学习机制的行人再识别方法的流程图。
图2是本发明方法实施例中孔洞卷积示意图。
图3是本发明方法实施例中基于孔洞卷积的瓶颈模块示意图。
图4是本发明方法实施例搜索出的行人结果照片。
具体实施方式
参照图1-4。本发明基于孔洞卷积与注意力学习机制的行人再识别方法具体步骤如下:
步骤一、设计基于孔洞卷积的瓶颈模块,并将多个瓶颈模块串联起来组成最终的主干网络;
参照图2中的孔洞卷积模块,将图3中的瓶颈模块中的3x3卷积替换为孔洞卷积。孔洞卷积包含了三层卷积层,分别使用1x1、3x3和1x1大小的卷积核。第一个1x1卷积操作将输入特征的通道数减少为四分之一,极大地减少了参数数量,提升模型运行速度。第二个3x3卷积,维持通道数不变,学习图像局部结构信息。第三个1x1的卷积将通道数还原为输入特征的通道数,提高特征的表达能力。基于孔洞卷积的瓶颈模块保持网络感受野不变的同时保持特征图空间分辨率不变。
步骤二、提取注意力特征图;
在resnet50网络的层次3、4、5的最后一个特征图上使用注意力特征图提取模块,提取不同层次的注意力显著区域。
注意力特征图的公式为:
Figure GDA0003543324670000041
其中,input为输入特征,atti,j代表注意力特征图上的(i,j)点的数值,i,j为特征(i,j)点的数值,1≤i≤H,1≤j≤W,H,W分别为输入特征的高和宽,k为特征的一个通道,1≤k≤C,C为特征的通道数。将特征在通道上进行平均,得到注意力特征图。
步骤三、对主干网络进行训练。
训练采用随机梯度下降法,对分类损失函数、三元组损失函数以及注意力特征图约束损失函数进行优化。
分类损失函数公式如下:
Lcls=-logpu
其中
Figure GDA0003543324670000051
u是真实类别标签,N为类别数目。通过优化该损失函数,卷积神经网络能够有效分类行人身份。
三元组损失函数公式如下:
Ltrip=max(0,d(f(xi),f(xj))-d(f(xi),f(xk))+α),
其中xi,xj,xk为输入的三张行人图片,xi,xj行人身份一致,xi,xk行人身份不一致,α为间隔,f(.)为通过卷积神经网络提取的特征,d(.)为欧氏距离,通过优化该损失函数,卷积神经网络能够拉近同一行人特征间距离,推远不同行人特征间的距离,有效提高网络的泛化性能。
注意力特征图约束损失函数公式如下:
Lsac=|att(l5)-att(l3)|+|att(l5)-att(l4)|,
其中att(.)为不同层次的注意力特征图,lg为各层次中最后一个卷积层输出的特征。通过优化该损失函数,卷积神经网络能够融合不同层次的注意力特征图,将细节信息和语意信息结合。
通过随机梯度下降训练网络直至收敛,并保存网络权重。
步骤四、将训练完成的网络用于特征提取。
利用上述训练好的模型提取对应测试的行人图片特征,以及行人检索库的行人特征。
步骤五、进行行人身份的再识别。
将上述计算好的测试行人特征与检索库中行人特征计算距离,并进行排序,将排序中距离最小的检索库行人图片的行人身份赋予待搜索行人,完成行人再识别。
本发明的效果通过以下实验做进一步的说明。
1.实验条件。
本发明是在显存12G的GTX 1080Ti、Ubuntu操作系统中运行,使用Python进行仿真实验。
实验中使用的训练和测试数据均来自于Market-1501数据集,包括了来自于6个摄像头共36036张图片,其中训练集包含12936张图片行人身份751人,测试集包含测试行人图片3368张图片,检索数据库包括19732张图片750人。选取的图片包含了各种复杂光照条件,如低光照,逆光,眩光等。
2.实验内容。
用于训练和测试的详细数据参见表1,然后按照具体实施方式中给出的步骤,通过平均精度均值来作为衡量识别效果的指标。
表1
镜头号 1 2 3 4 5 6
训练集 2017 1709 2707 920 2338 3245
测试集 3843 3465 4169 1556 2978 3721
不同部分所起的作用见表2,其中有代表模型中包含这一部分,空白代表不包含该部分,多损失函数包含交叉熵损失函数,三元组损失函数以及注意力特征图约束损失函数三个部分。其中,编号为1的网络为基础网络,仅使用交叉熵损失函数以及resnet50网络进行训练,其平均精度均值为72.3%。
表2
Figure GDA0003543324670000061
经过多次试验,对于测试集上的3368位行人,使用5号模型综合多种方法,模型的平均精度均值约为82.6%,表明本方法能够有效的从行人库中迅速检索出行人身份,同时将相关行人图片也一并检索。通过孔洞卷积、约束不同层次之间的注意力特征图、以及多损失函数共同训练,行人显著部位的特征能够有效提取,模型性能得到大幅提升。

Claims (1)

1.一种基于孔洞卷积与注意力学习机制的行人再识别方法,其特征在于包括以下步骤:
步骤一、设计基于孔洞卷积的瓶颈模块,将多个瓶颈模块串联组成主干网络;
步骤二、使用注意力特征图提取模块,根据注意力特征图公式:
Figure FDA0003543324660000011
提取注意力特征图;其中,input为输入特征,atti,j代表注意力特征图上的(i,j)点的数值,i,j为特征(i,j)点的数值,1≤i≤H,1≤j≤W,H,W分别为输入特征的高和宽,k为特征的一个通道,1≤k≤C,C为特征的通道数;将特征在通道上进行平均,得到注意力特征图;
步骤三、对主干网络进行训练;
训练采用随机梯度下降法,对分类损失函数、三元组损失函数以及注意力特征图约束损失函数进行优化;
分类损失函数公式如下:
Lcls=-log pu
其中,
Figure FDA0003543324660000012
u是真实类别标签,N为类别数目;
三元组损失函数公式如下:
Ltrip=max(0,d(f(xi),f(xj))-d(f(xi),f(xk))+α),
其中,xi,xj,xk为输入的三张行人图片,xi,xj行人身份一致,xi,xk行人身份不一致,α为间隔,f(.)为通过卷积神经网络提取的特征,d(.)为欧氏距离;
注意力特征图约束损失函数公式如下:
Lsac=|att(l5)-att(l3)|+|att(l5)-att(l4)|,
其中,att(.)为不同层次的注意力特征图,lg为各层次中最后一个卷积层输出的特征;
通过随机梯度下降训练网络直至收敛,并保存网络权重;
步骤四、利用步骤三训练完成的网络提取对应测试行人特征,以及行人检索库的行人特征;
步骤五、将步骤四提取的测试行人特征与检索库中行人特征计算距离,并进行排序,将排序中距离最小的检索库行人图片的行人身份赋予待搜索行人,完成行人再识别。
CN201811569608.0A 2018-12-21 2018-12-21 基于孔洞卷积与注意力学习机制的行人再识别方法 Active CN109784197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811569608.0A CN109784197B (zh) 2018-12-21 2018-12-21 基于孔洞卷积与注意力学习机制的行人再识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811569608.0A CN109784197B (zh) 2018-12-21 2018-12-21 基于孔洞卷积与注意力学习机制的行人再识别方法

Publications (2)

Publication Number Publication Date
CN109784197A CN109784197A (zh) 2019-05-21
CN109784197B true CN109784197B (zh) 2022-06-07

Family

ID=66497477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811569608.0A Active CN109784197B (zh) 2018-12-21 2018-12-21 基于孔洞卷积与注意力学习机制的行人再识别方法

Country Status (1)

Country Link
CN (1) CN109784197B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457572B (zh) * 2019-05-23 2022-05-24 北京邮电大学 基于图网络的商品信息推荐方法及电子设备
CN110852168A (zh) * 2019-10-11 2020-02-28 西北大学 基于神经架构搜索的行人重识别模型构建方法及装置
CN111008618B (zh) * 2019-10-29 2023-03-31 黄山学院 一种自注意力深度学习端到端的行人再识别方法
CN110909673B (zh) * 2019-11-21 2022-09-16 河北工业大学 一种基于自然语言描述的行人再识别方法
CN111126198B (zh) * 2019-12-11 2023-05-09 中山大学 一种基于深度表示学习跟动态匹配的行人再识别方法
CN111401132B (zh) * 2020-02-14 2022-11-08 北京航空航天大学 监控场景下高层语义指导的行人属性识别方法
CN112183468A (zh) * 2020-10-27 2021-01-05 南京信息工程大学 一种基于多注意力联合多级特征的行人再识别方法
CN113920470B (zh) * 2021-10-12 2023-01-31 中国电子科技集团公司第二十八研究所 一种基于自注意力机制的行人检索方法
CN114708612A (zh) * 2022-03-21 2022-07-05 合肥工业大学 跨模态细粒度属性对齐的行人智能查找方法、存储介质
CN115147871B (zh) * 2022-07-19 2024-06-11 北京龙智数科科技服务有限公司 遮挡环境下行人再识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10108850B1 (en) * 2017-04-24 2018-10-23 Intel Corporation Recognition, reidentification and security enhancements using autonomous machines
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN109034044A (zh) * 2018-06-14 2018-12-18 天津师范大学 一种基于融合卷积神经网络的行人再识别方法
CN109033095A (zh) * 2018-08-01 2018-12-18 苏州科技大学 基于注意力机制的目标变换方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934346B (zh) * 2017-01-24 2019-03-15 北京大学 一种目标检测性能优化的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10108850B1 (en) * 2017-04-24 2018-10-23 Intel Corporation Recognition, reidentification and security enhancements using autonomous machines
CN108734300A (zh) * 2017-04-24 2018-11-02 英特尔公司 使用自主机器的识别、再标识和安全性增强
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN109034044A (zh) * 2018-06-14 2018-12-18 天津师范大学 一种基于融合卷积神经网络的行人再识别方法
CN109033095A (zh) * 2018-08-01 2018-12-18 苏州科技大学 基于注意力机制的目标变换方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ASYMMETRIC CROSS-VIEW DICTIONARY LEARNING FOR PERSON RE-IDENTIFICATION;Minyue Jiang et al.;《2017 IEEE International Conference on Acoustics,Speech and Signal Processing》;20170619;第1-5页 *
Harmonious Attention Network for Person Re-Identification;Wei Li et al.;《arXiv》;20180222;第1-10页 *
Human Semantic Parsing for Person Re-identification;Mahdi M. Kalayeh et al.;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181217;第1062-1071页 *
Learning Deep Context-aware Features over Body and Latent Parts for Person Re-identification;Dangwei Li et al.;《arXiv》;20171018;第1-10页 *
Person Re-Identification by Deep Joint Learning of Multi-Loss Classification;Wei Li et al.;《arXiv》;20170523;第1-10页 *
Revisiting Temporal Modeling for Video-based Person ReID;Jiyang Gao et al.;《arXiv》;20180508;第1-11页 *
Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns;Jianming Lv et al.;《arXiv》;20180320;第1-12页 *
基于多辅助分支深度网络的行人再识别;夏开国 等;《通信技术》;20181130;第51卷(第11期);第2601-2605页 *

Also Published As

Publication number Publication date
CN109784197A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109784197B (zh) 基于孔洞卷积与注意力学习机制的行人再识别方法
CN108615010B (zh) 基于平行卷积神经网络特征图融合的人脸表情识别方法
CN109685115B (zh) 一种双线性特征融合的细粒度概念模型及学习方法
CN110414368B (zh) 一种基于知识蒸馏的无监督行人重识别方法
CN107066559B (zh) 一种基于深度学习的三维模型检索方法
CN108764065B (zh) 一种行人重识别特征融合辅助学习的方法
CN110825899B (zh) 融合颜色特征和残差网络深度特征的服装图像检索方法
CN109784258A (zh) 一种基于多尺度特征切割与融合的行人重识别方法
CN111259850A (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN108154133B (zh) 基于非对称联合学习的人脸画像-照片识别方法
CN111582178B (zh) 基于多方位信息和多分支神经网络车辆重识别方法及系统
CN110211127B (zh) 基于双相关性网络的图像分割方法
CN108921850B (zh) 一种基于图像分割技术的图像局部特征的提取方法
CN111353487A (zh) 用于变电站的设备信息提取方法
CN111914642A (zh) 一种行人重识别方法、装置、设备及介质
CN107818299A (zh) 基于融合hog特征和深度信念网络的人脸识别算法
CN111881716A (zh) 一种基于多视角生成对抗网络的行人重识别方法
CN109344720B (zh) 一种基于自适应特征选择的情感状态检测方法
CN111598155A (zh) 一种基于深度学习的细粒度图像弱监督目标定位方法
CN109325407B (zh) 基于f-ssd网络滤波的光学遥感视频目标检测方法
CN110443174A (zh) 一种基于解耦自适应判别性特征学习的行人重识别方法
CN112528879A (zh) 基于改进GhostNet的多分支行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant