CN114639120A - 一种基于注意力机制的行人重识别方法 - Google Patents
一种基于注意力机制的行人重识别方法 Download PDFInfo
- Publication number
- CN114639120A CN114639120A CN202210263940.4A CN202210263940A CN114639120A CN 114639120 A CN114639120 A CN 114639120A CN 202210263940 A CN202210263940 A CN 202210263940A CN 114639120 A CN114639120 A CN 114639120A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- attention
- network
- information
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种基于注意力机制的行人重识别方法,包括:空间注意力与通道注意力相结合的全局注意力模块,学习特征之间的关系从而获取更加全面的行人特征;金字塔卷积模块将网络中每层学习到的特征进行融合,充分提高浅层信息的利用率,浅层信息与深层信息的结合能够更加丰富行人信息,从而提高网络的鲁棒性;局部分割模块将行人特征平均分成若干块,使网络更加关注行人局部信息,更加有效的学习行人部分区域的某些局部特征。本方法与其它行人重识别方法相比,将注意力机制与金字塔卷积相结合,充分利用行人的浅层信息和深层信息,提高行人的判别性特征,从而提高网络的泛化能力。
Description
技术领域
本申请实施例涉及计算机视觉图像处理技术领域,具体涉及一种基于注意力机制的行人重识别方法。
背景技术
行人重识别是计算机视觉中的一个领域,近几年被研究人员广泛关注而成为重要研究内容。它是对跨摄像头中的图像进行学习并提取特征,然后匹配相同行人身份的一项技术。具体来说,给定一张行人图片,要求在数据集中计算出与其身份相同的概率值并排序,概率越大表示身份与其越相似。目前行人重识别被应用在一些大型公共场所中,例如车站、机场、医院等。随着行人重识别技术逐渐应用在实际场所中,因此对其的识别性能要求也越来越高,随之而来的问题也逐渐增加:摄像头分辨率的不同会直接影响到最终的识别效果;另外摄像头的安装位置在一定程度上也会导致出现不同的结果;当行人的姿态出现变化时,系统可能不能正确识别出行人的真实身份;行人被车辆、标志或者其他行人遮挡时,由于缺少行人的上下文信息,也可能会导致系统的识别错误。从上述问题来看,目前行人重识别仍然是一项极具挑战的任务。
为了解决行人重识别出现的问题,我们可以通过引入全局注意力模块来重新调整行人特征的权重,增强重要特征权重,抑制非重要特征权重,同时通过金字塔卷积提取浅层和深层融合后更加全面、丰富的信息,得到行人更具判别性的特征。
发明内容
为此,本申请实施例公开了一种基于注意力机制的行人重识别方法,本方法包括空间注意力与通道注意力相结合的全局注意力模块、金字塔卷积模块和局部分割模块。空间注意力与通道注意力相结合的全局注意力模块,学习特征之间的关系从而获取更加全面的行人特征;金字塔卷积模块将网络中每层学习到的特征进行融合,充分提高浅层信息的利用率,浅层信息与深层信息的结合能够更加丰富行人信息,从而提高网络的鲁棒性;局部分割模块将行人特征平均分成若干块,使网络更加关注行人局部信息,更加有效的学习行人部分区域的某些局部特征。损失函数采用三元组损失与ID损失相结合的方法对网络参数进行更新,利用训练集得到最终的网络模型。将gallery中的行人图片输入到训练好的模型中,通过网络的学习得到行人特征,并且得到行人的身份信息,将这些特征与身份信息保存。把query中的行人图像输入到模型中,网络对其学习得到相应的行人特征,在gallery中进行检索,分别计算query和gallery图像之间的相似度,gallery中相似度最高的图片最有可能与query中的图片ID相同。
为了实现上述目的,本申请实施例提供如下技术方案:
根据本申请实施例,提供了一种基于注意力机制的行人重识别方法,包括:
一个空间注意力与通道注意力相结合的全局注意力模块,学习特征之间的关系从而获取更加全面的行人特征;
一个金字塔卷积模块将网络中每层学习到的特征进行融合,充分提高浅层信息的利用率,浅层信息与深层信息的结合能够更加丰富行人信息,从而提高网络的鲁棒性;
局部分割模块将行人特征平均分成若干块,使网络更加关注行人局部信息,更加有效的学习行人部分区域的某些局部特征;
损失函数采用三元组损失与ID损失相结合的方法对网络参数进行更新,利用训练集得到最终的网络模型;
将gallery中的行人图片输入到训练好的模型中,通过网络的学习得到行人特征,并且得到行人的身份信息,将这些特征与身份信息保存;
把query中的行人图像输入到模型中,网络对其学习,并且得到相应的行人特征,在gallery中进行检索,分别计算query和gallery图像之间的相似度,gallery中相似度最高的图片最有可能与query中的图片ID相同;
采用平均精度均值mAP和累积匹配特征曲线CMC curve来评估模型效果。
综上所述,本申请实施例提供了一种基于注意力机制的行人重识别方法,其中包括空间注意力与通道注意力相结合的全局注意力模块、金字塔卷积模块和局部分割模块;空间注意力与通道注意力相结合的全局注意力模块,学习特征之间的关系从而获取更加全面的行人特征;金字塔卷积模块将网络中每层学习到的特征进行融合,充分提高浅层信息的利用率,浅层信息与深层信息的结合能够更加丰富行人信息,从而提高网络的鲁棒性;局部分割模块将行人特征平均分成若干块,使网络更加关注行人局部信息,更加有效的学习行人部分区域的某些局部特征;损失函数采用三元组损失与ID损失相结合的方法对网络参数进行更新,利用训练集得到最终的网络模型;将gallery中的行人图片输入到训练好的模型中,通过网络的学习得到行人特征,并且得到行人的身份信息,将这些特征与身份信息保存;把query中的行人图像输入到模型中,网络对其学习,并且得到相应的行人特征,在gallery中进行检索,分别计算query和gallery图像之间的相似度,gallery中相似度最高的图片最有可能与query中的图片ID相同;采用平均精度均值mAP和累积匹配特征曲线CMCcurve来评估模型效果。
附图说明
图1为本申请实施例提供的一种基于注意力机制的行人重识别方法流程图。
图2为本申请实施例提供的一种基于注意力机制的行人重识别网络结构图。
图3为本申请实施例提供的全局注意力模块的结构。
具体实施方式
下面由特定的具体实施例说明本发明的实现方式,而以下的描述,是为了说明而不是为了限定,还可以以其它方式实现本申请,而不应被这里阐述的实施例所限制,说明是为了让相关人员轻易了解本发明所展现的内容。
图1为本申请实施例提供的一种基于注意力机制的行人重识别方法流程图,所述方法包括如下步骤:
步骤101,一个空间注意力与通道注意力相结合的全局注意力模块,学习特征之间的关系从,获取更加全面的行人特征;
步骤102,一个金字塔卷积模块,融合特征,结合浅层信息与深层信息丰富行人特征,从而提高网络的鲁棒性;
步骤103,局部分割模块将行人特征平均分成若干块,更加有效的学习行人部分区域的局部特征;
步骤104,采用三元组损失与ID损失相结合的方法对网络参数进行更新,利用训练集得到最终的网络模型;
步骤105,将gallery中的行人图片输入到训练好的模型中,通过网络的学习得到行人特征,并且得到行人的身份信息;
步骤106,把query中的行人图像输入到模型中,网络对其学习,并且得到相应的行人特征,在gallery中进行检索,分别计算query和gallery图像之间的相似度,gallery中相似度最高的图片最有可能与query中的图片ID相同;
步骤107,采用平均精度均值mAP和累积匹配特征曲线CMC curve来评估模型效果。
在一种可能的实施方式中,所述步骤101中构建一个全局注意力模块的方法,具体步骤如下:
将一张行人图片输入到Resnet50网络中可以得到行人的特征向量X∈RC×H×W,其中C表示通道数,H表示高度,W表示宽度;
首先从空间角度考虑来设计空间注意力,每张特征图中包括H×W个特征点,用N表示,则每张图共N个特征点,记为xi∈RC,i=1,2,...N;
变形之后就可以用得到的两个矩阵相乘得到每个特征点之间的关系矩阵,大小为N×N,具体公式为:
之后将得到的关系矩阵变形成(H×W)×H×W的特征向量;
为了得到更加全面的行人特征,考虑特征关系与原始特征相结合的方式,对原始特征X进行一个池化操作,然后与上述特征向量拼接;
对拼接后的结果进行卷积操作,然后用Sigmoid函数得到空间注意力权重系数;
空间注意力类似,通道注意力从通道角度考虑,得到C×C的关系矩阵;
再对矩阵进行变形并与处理后的原特征相结合;
之后同样进行卷积操作,再用Sigmoid函数得到通道注意力权重系数;
最后对空间注意力与通道注意力并联起来,得到全局注意力模块。
所述步骤102中构建一个全局注意力模块的方法,具体步骤如下:
设置三个不同大小的卷积核,分别为3×3、5×5和7×7;
对layer1层输出的特征使用三个卷积核3×3、5×5和7×7、对layer2层的输出特征使用3×3、5×5两个卷积核、对layer3层特征使用3×3卷积核;
将三个层的特征与被全局注意力机制处理后的layer4特征融合,得到更加完整的行人信息。
图2为本申请实施例所使用的网络整体结构,本方法包括三个模块,分别为空间注意力与通道注意力相结合的全局注意力模块、金字塔卷积模块和局部分割模块。首先用全局注意力模块对行人特征进行权重的重新分配,使网络更加关注重要的行人信息;利用局部分割模块融合网络提取的行人浅层特征和深层特征,使得网络学习到更加全面的行人特征,从而提高网络的泛化性;网络的损失函数采用三元组损失与ID损失相结合的方法对网络参数更新,利用训练集得到最终的网络模型;将gallery中的行人图片输入到训练好的模型中,通过网络的学习得到行人特征,并且得到行人的身份信息;把query中的行人图像输入到模型中,网络对其学习,并且得到相应的行人特征,在gallery中进行检索,分别计算query和gallery图像之间的相似度,gallery中相似度最高的图片最有可能与query中的图片ID相同;采用平均精度均值mAP和累积匹配特征曲线CMC curve来评估模型效果。
图3为本申请实施例提供的全局注意力模块的结构示意图,计算流程如下:
将一张行人图片输入到Resnet50网络中可以得到行人的特征向量X∈RC×H×W,其中C表示通道数,H表示高度,W表示宽度;
首先从空间角度考虑来设计空间注意力,每张特征图中包括H×W个特征点,用N表示,则每张图共N个特征点,记为xi∈RC,i=1,2,...N;
变形之后就可以用得到的两个矩阵相乘得到每个特征点之间的关系矩阵,大小为N×N,具体公式为:
之后将得到的关系矩阵变形成(H×W)×H×W的特征向量;
为了得到更加全面的行人特征,考虑特征关系与原始特征相结合的方式,对原始特征X进行一个池化操作,然后与上述特征向量拼接;
对拼接后的结果进行卷积操作,然后用Sigmoid函数得到空间注意力权重系数;
空间注意力类似,通道注意力从通道角度考虑,得到C×C的关系矩阵;
再对矩阵进行变形并与处理后的原特征相结合;
之后同样进行卷积操作,再用Sigmoid函数得到通道注意力权重系数;
最后对空间注意力与通道注意力并联起来,得到全局注意力模块。
综上所述,本申请实施例提供了一种基于注意力机制的行人重识别方法,其中包括空间注意力与通道注意力相结合的全局注意力模块、金字塔卷积模块和局部分割模块;空间注意力与通道注意力相结合的全局注意力模块,学习特征之间的关系从而获取更加全面的行人特征;金字塔卷积模块将网络中每层学习到的特征进行融合,充分提高浅层信息的利用率,浅层信息与深层信息的结合能够更加丰富行人信息,从而提高网络的鲁棒性;局部分割模块将行人特征平均分成若干块,使网络更加关注行人局部信息,更加有效的学习行人部分区域的某些局部特征;损失函数采用三元组损失与ID损失相结合的方法对网络参数进行更新,利用训练集得到最终的网络模型;将gallery中的行人图片输入到训练好的模型中,通过网络的学习得到行人特征,并且得到行人的身份信息,将这些特征与身份信息保存;把query中的行人图像输入到模型中,网络对其学习,并且得到相应的行人特征,在gallery中进行检索,分别计算query和gallery图像之间的相似度,gallery中相似度最高的图片最有可能与query中的图片ID相同;采用平均精度均值mAP和累积匹配特征曲线CMCcurve来评估模型效果。
需要说明的是,虽然本申请提供了方法和实验流程图,但并非要求必须按照本申请提出的特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果,在实现过程中可根据实际情况增加或减少一些操作步骤。
所应理解的是,以上所述仅为本申请的具体实施例,在不脱离本发明设计精神的前提下,对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (3)
1.一种基于注意力机制的行人重识别方法,其特征在于,包括以下步骤:
一个空间注意力与通道注意力相结合的全局注意力模块,学习特征之间的关系从而获取更加全面的行人特征;
金字塔卷积模块,将网络中每层学习到的特征进行融合,充分提高浅层信息的利用率,浅层信息与深层信息的结合能够更加丰富行人信息,从而提高网络的鲁棒性;
局部分割模块,将行人特征平均分成若干块,使网络更加关注行人局部信息,更加有效地学习行人部分区域的某些局部特征;
损失函数采用三元组损失与ID损失相结合的方法对网络参数进行更新,利用训练集得到最终的网络模型;
将gallery中的行人图片输入到训练好的模型中,通过网络的学习得到行人特征,并且得到行人的身份信息,将这些特征与身份信息保存;
把query中的行人图像输入到模型中,网络对其学习,并且得到相应的行人特征,在gallery中进行检索,分别计算query和gallery图像之间的相似度,gallery中相似度最高的图片最有可能与query中的图片ID相同;
采用平均精度均值mAP和累积匹配特征曲线CMC curve来评估模型效果。
2.如权利要求1所述的方法,其特征在于,所述的空间注意力与通道注意力相结合的全局注意力模块,具体步骤如下:
行人图片经过ResNet50处理后得到特征向量X∈RC×H×W;
从空间角度考虑,分别计算每个特征点之间的关系,并将结果用矩阵形式表示,然后与原特征相结合,再经过Sigmoid函数处理得到特征权重;
从通道角度考虑,分别计算每个特征点之间的关系,并将结果用矩阵形式表示,然后与原特征相结合,再经过Sigmoid函数处理得到特征权重;
将空间注意力与通道注意力并行放入网络,两者结合得到全局注意力模块。
3.如权利要求1所述的方法,其特征在于,所述的金字塔卷积模块,具体步骤如下:
将ResNet50网络中的layer1、layer2、layer3处理得到的行人特征输入到金字塔卷积模块中;
同样将对layer4的行人特征进行重新分配的特征,即全局注意力模块处理后的结果输入到金字塔卷积模块中;
将四个不同层处理得到的行人特征分别放入金字塔卷积模块之后,利用不同尺度卷积核得到行人不同尺度的信息;
将行人特征进行融合,将金字塔卷积模块输出的结果传送到主干网络中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210263940.4A CN114639120A (zh) | 2022-03-16 | 2022-03-16 | 一种基于注意力机制的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210263940.4A CN114639120A (zh) | 2022-03-16 | 2022-03-16 | 一种基于注意力机制的行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114639120A true CN114639120A (zh) | 2022-06-17 |
Family
ID=81949509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210263940.4A Pending CN114639120A (zh) | 2022-03-16 | 2022-03-16 | 一种基于注意力机制的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114639120A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912635A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 目标追踪方法及装置 |
-
2022
- 2022-03-16 CN CN202210263940.4A patent/CN114639120A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912635A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 目标追踪方法及装置 |
CN116912635B (zh) * | 2023-09-12 | 2024-06-07 | 深圳须弥云图空间科技有限公司 | 目标追踪方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3254238B1 (en) | Method for re-identification of objects | |
CN111582044B (zh) | 基于卷积神经网络和注意力模型的人脸识别方法 | |
CN108229519B (zh) | 图像分类的方法、装置及系统 | |
CN111563508A (zh) | 一种基于空间信息融合的语义分割方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN112070044B (zh) | 一种视频物体分类方法及装置 | |
CN111340123A (zh) | 一种基于深度卷积神经网络的图像分数标签预测方法 | |
WO2023206944A1 (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN116051953A (zh) | 基于可选择卷积核网络及加权双向特征金字塔的小目标检测方法 | |
CN112614110B (zh) | 评估图像质量的方法、装置及终端设备 | |
JP2010157118A (ja) | パターン識別装置及びパターン識別装置の学習方法ならびにコンピュータプログラム | |
CN113269054A (zh) | 一种基于时空2d卷积神经网络的航拍视频分析方法 | |
CN112380978A (zh) | 基于关键点定位的多人脸检测方法、系统及存储介质 | |
CN112785636A (zh) | 一种多尺度增强式的单目深度估计方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN113297959A (zh) | 一种基于角点注意力孪生网络的目标跟踪方法及系统 | |
CN113393434A (zh) | 一种基于非对称双流网络架构的rgb-d显著性检测方法 | |
CN115497122A (zh) | 遮挡行人重识别方法、装置、设备和计算机可存储介质 | |
CN116612288A (zh) | 一种多尺度轻量级实时语义分割方法、系统 | |
CN114639120A (zh) | 一种基于注意力机制的行人重识别方法 | |
CN115713546A (zh) | 移动终端设备用的轻量化目标跟踪算法 | |
US20230072445A1 (en) | Self-supervised video representation learning by exploring spatiotemporal continuity | |
CN114463552A (zh) | 迁移学习、行人重识别方法及相关设备 | |
CN114663974A (zh) | 一种融入位置感知注意力的行人重识别方法 | |
CN111626298B (zh) | 一种实时图像语义分割装置及分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |