CN114663974A - 一种融入位置感知注意力的行人重识别方法 - Google Patents

一种融入位置感知注意力的行人重识别方法 Download PDF

Info

Publication number
CN114663974A
CN114663974A CN202210247905.3A CN202210247905A CN114663974A CN 114663974 A CN114663974 A CN 114663974A CN 202210247905 A CN202210247905 A CN 202210247905A CN 114663974 A CN114663974 A CN 114663974A
Authority
CN
China
Prior art keywords
matrix
dimensional
characteristic
feature
attention module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210247905.3A
Other languages
English (en)
Inventor
吴晓富
陈江萍
张索非
颜俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210247905.3A priority Critical patent/CN114663974A/zh
Publication of CN114663974A publication Critical patent/CN114663974A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种融入位置感知注意力的行人重识别方法:在ResNet50网络中引入一种位置感知注意力模块,该模块是非局部注意力模块的一种有效改进,通过将位置信息嵌入捕获长范围特征依赖关系的非局部注意力模块,有效提升了所提取特征的表达能力。本发明提出的位置感知注意力模块属于轻量级结构,该模块融入ResNet50网络能有效抽取行人的可区分特征,同时抑制了与行人识别任务关联度小的特征,在多个流行行人重识别标准数据集上取得了比传统网络模型和其他相关方法更好的识别效果。

Description

一种融入位置感知注意力的行人重识别方法
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种融入位置感知注意力的行人重识别方法。
背景技术
行人重识别(Person Re-identification)是指在多个非重叠摄像头的场景下,在行人图像数据库中检索出与给定的查询图像身份相同的行人图像。行人重识别可以广泛应用于智能安防以及视频监控等领域。
行人重识别可以被认为是一个特征嵌入(feature-embedding)问题,理想情况下类内距离(同一个人的不同图片)应小于类间距离(不同人的图片),不幸的是大多数现有的特征嵌入解决方案要求以成对的方式对样本进行分组,这通常是计算密集型的。在实践中,由于分类任务在训练的实现复杂性上具有明显的优势,因此经常使用分类方法作为特征嵌入解决方案。如今,大多数用于行人重识别的最新方法已从单一的度量学习问题或单一的分类问题演变为多任务问题,即同时采用分类损失和三元组损失。由于每个样本图像仅用人员ID进行标记,因此,如果不对底层神经网络进行精心设计并进一步使用某些正则化技术,则端到端训练方法通常很难学习多样且丰富的特征。
近年来,许多基于注意力机制以及位置编码的算法被应用于计算机视觉。Wang等人(Wang,Xiaolong,et al.Non-local neural networks.//Proceedings of the IEEEconference on computer vision and pattern recognition.2018.)提出将非局部注意力模块插入网络模型中,通过注意力机制使模型聚焦于任务相关的特征,忽略大量无用信息;Dosovitskiy等人(Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image isworth16×16words:Transformers for image recognition at sacle[J].arXiv:2010.11929,2020.)提出的算法(Vision Transformer,ViT),通过加入位置编码,充分利用特征出现的位置作为先验知识提升特征的代表性,能够高效地完成图像分类任务;作为一种典型的应用位置编码的方法,ViT算法已被证明对计算机视觉任务有显著效果,但是ViT中的位置编码是直接加在输入图片上,参数量过多,网络在学习相应特征时可能会遇到困难。减少参数量的一种方法是在图片尺寸较小时加入位置编码,同时为了充分利用注意力提取关键特征的能力,本方法提出了位置感知注意力模块。
本方法通过非局部注意力模块获得长范围的特征依赖关系,有效提高了ResNet50网络的行人识别准确度。为解决图像特征间缺乏位置关系问题,本发明提出了位置感知注意力模块,将其融入到ResNet50网络中进行训练和测试,通过距离度量获得相似性排序,得到更为精准的行人重识别结果。
发明内容
本发明的实施例提供了一种融入位置感知注意力的行人重识别方法,用于解决现有技术中的如下问题:
在ResNet50网络行人重识别方法中,模型认为特征图中每个子特征的重要性都是相同的,需要考虑所有特征,从而导致训练速度慢且无法高效地提取出对任务有帮助的关键特征;
在训练过程中,注意力模块只能帮助模型提取出与任务相关的关键特征,没有特征间位置关系的概念,可能会使得特征间关系错乱问题。
为了解决上述问题,本发明采取了如下技术方案:
一种融入位置感知注意力的行人重识别方法,包括将原始输入经过ResNet50网络前两层得到的输出特征图输入到位置感知注意力模块中进行处理和将位置感知注意力模块融入到ResNet50网络中进行训练和测试;
所述的将原始图片经过ResNet50网络前两层得到的输出特征图输入到位置感知注意力模块中进行处理包括:
S1:获取输入特征图,通过卷积滤波器提取出三个不同的特征图,对其中两个特征图进行池化操作得到特征图φ和特征图g,特征图θ保持不变;然后将上述三维特征图θ、φ、g分别按通道维度展平拉直为二维特征矩阵,对三维特征图θ和g对应的二维特征矩阵进行转置得到二维特征矩阵θ和g,二维特征矩阵φ保持不变;
S2:基于位置感知编码特征图中不同位置的特征,构建二维位置编码矩阵PE;将所述二维特征矩阵θ与二维特征矩阵φ相乘,获得特征和特征之间的关系矩阵Rθ,φ;将二维位置编码矩阵PE与所述二维特征矩阵θ相乘,获得特征与位置之间关系矩阵Rθ,PE
S3:将S2中所述两个关系矩阵Rθ,φ和Rθ,PE相加实现位置信息嵌入,归一化指数函数(Softmax函数),得到含位置信息的归一化自相关权重系数矩阵fc=Softmax(Rθ,PE+Rθ,φ);
S4:将所述含位置信息的归一化自相关权重系数矩阵fc与代表特征图的二维特征矩阵g相乘,获得二维空间位置关键信息矩阵,再将其按通道还原为三维空间位置关键信息特征图,并使用卷积滤波器升维,最后使用类似残差结构,将输入和升维后的三维空间位置关键信息特征图相加得到位置感知注意力模块的输出;
所述的将位置感知注意力模块融入到ResNet50网络中进行训练和测试包括:
S5:将位置感知注意力模块插入到ResNet50网络第二层的输出位置,采用交叉熵和三元组损失函数加权形式作为总损失函数随着网络一起训练,输入测试图片获得行人匹配识别结果。
优选地,步骤S1具体包括:
S1.1将输入特征图X∈Rb×c×h×w分别通过三个具有不同权重系数且输出通道数为输入通道数
Figure BDA0003545828300000041
的1×1卷积滤波器,获得三个不同的特征图,分别记为θ、φ、g,其中b、c、h、w、r分别为每批次图片的张数、通道数、高、宽、通道数降维因子;
S1.2从三个不同特征图中选取特征图φ和g进行池化操作,得到特征图
Figure BDA0003545828300000042
Figure BDA0003545828300000043
无池化操作的特征图记为
Figure BDA0003545828300000044
S1.3将上述三个特征图按通道维度展平拉直为二维特征矩阵,并对三维特征图θ和g对应的二维特征矩阵进行转置得到二维特征矩阵
Figure BDA0003545828300000045
和二维特征矩阵
Figure BDA0003545828300000046
二维特征矩阵
Figure BDA0003545828300000047
保持不变;
优选地,步骤S2包括:
S2.1对不同的位置随机初始化不同的位置嵌入向量
Figure BDA0003545828300000048
Figure BDA0003545828300000049
每个位置嵌入向量的初始化值从均值为0,方差为1的正态分布中随机取值,所有的位置嵌入向量按行排开构成二维位置编码矩阵
Figure BDA00035458283000000410
PE中所有参数随着训练过程更新;
S2.2将代表两张不同特征图的二维特征矩阵
Figure BDA00035458283000000411
Figure BDA00035458283000000412
Figure BDA00035458283000000413
相乘得到特征间的关系矩阵Rθ,φ=θ×φ,其中
Figure BDA00035458283000000414
S2.3将所述的二维特征矩阵
Figure BDA00035458283000000415
与代表特征位置关系的矩阵
Figure BDA00035458283000000416
相乘得到特征与位置间的关系矩阵Rθ,PE=θ×PE,其中
Figure BDA00035458283000000417
优选地,步骤S3具体包括:
S3.1将特征间的关系矩阵Rθ,φ和特征与位置间的关系矩阵Rθ,PE相加,实现位置信息的嵌入,得到含位置信息的自相关权重系数矩阵
Figure BDA00035458283000000418
此时
Figure BDA00035458283000000419
中包含了特征图中子特征间的位置关系;
S3.2将含位置信息的自相关权重系数矩阵f经过归一化指数函数(Softmax函数),得到含位置信息的归一化自相关权重系数矩阵fc=Softmax(Rθ,PE+Rθ,φ),其中
Figure BDA0003545828300000051
优选地,步骤S4具体包括:
S4.1将所述含位置信息的归一化自相关权重系数矩阵fc与代表特征图的二维特征矩阵
Figure BDA0003545828300000052
相乘,得到二维空间位置关键信息矩阵gf=fc×g,其中
Figure BDA0003545828300000053
S4.2将二维空间位置关键信息矩阵转置后按通道还原为三维空间位置关键信息特征图
Figure BDA0003545828300000054
使用1×1卷积滤波器升维,使之与输入特征图的通道数维度相同,输出记为gfc∈Rb×c×h×w
S4.3将输入特征图X∈Rb×c×h×w和升维后的三维空间位置关键信息特征图gfc∈Rb ×c×h×w相加,得到位置感知注意力模块的输出Y=X+gfc,其中Y∈Rb×c×h×w
与现有技术相比,本发明的技术方案具有以下有益效果:
1.本发明提供的一种融入位置感知注意力的行人重识别方法,在ResNet50网络中引入一种位置感知注意力模块,该模块是非局部注意力模块的一种有效改进,通过将位置信息嵌入捕获长范围特征依赖关系的非局部注意力模块,有效提升了所提取特征的表达能力。
2.本发明提出的位置感知注意力模块属于轻量级结构,该模块融入ResNet50网络能有效抽取行人的可区分特征,同时了抑制了与行人识别任务关联度小的特征,在多个流行行人重识别标准数据集上取得了比传统网络模型和其他相关方法更好的识别效果。
附图说明
图1为本发明提供的一种融入位置感知注意力的行人重识别方法的处理流程图;
图2为非局部注意力模块的基本架构图;
图3为本发明提供的一种融入位置感知注意力的行人重识别方法中提出的位置感知注意力模块基本架构图;
图4为本发明提供的一种融入位置感知注意力的行人重识别方法中ResNet50网络的总体架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下实施例将结合附图对本发明进行作进一步的说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,以下对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
实施例1
参见图1,本发明提供的一种融入位置感知注意力的行人重识别方法,主要包括将原始图片经过ResNet50网络前两层得到的输出特征图输入到位置感知注意力模块中进行处理和将位置感知注意力模块融入到ResNet50网络中进行训练和测试两个过程。
其中的将原始图片经过ResNet50网络前两层得到的输出特征图输入到位置感知注意力模块中进行处理包括:
S1:获取输入特征图,通过卷积滤波器提取出三个不同的特征图,对其中两个特征图进行池化操作得到特征图φ和g,特征图θ保持不变;然后将上述三维特征图θ、φ、g分别按通道维度展平拉直为二维特征矩阵,对三维特征图θ和g对应的二维特征矩阵进行转置得到二维特征矩阵θ和二维特征矩阵g,二维特征矩阵φ保持不变;
S2:基于位置感知编码特征图中不同位置的特征,构建二维位置编码矩阵PE,将其与所述二维特征矩阵θ相乘,获得特征与位置之间关系矩阵Rθ,PE;将所述二维特征矩阵θ与二维特征矩阵φ相乘,获得特征和特征之间的关系矩阵Rθ,φ
S3:将S2中所述两个关系矩阵相加实现位置信息嵌入,经过Softmax,得到含位置信息的归一化自相关权重系数矩阵fc=Softmax(Rθ,PE+Rθ,φ);
S4:将所述含位置信息的归一化自相关权重系数矩阵fc与代表特征图的二维特征矩阵g相乘,获得二维空间位置关键信息矩阵,再将其按通道还原为三维空间位置关键信息特征图,并使用卷积滤波器升维,最后使用类似残差结构,将输入和升维后的三维空间位置关键信息特征图相加得到位置感知注意力模块的输出。
在本发明提供的实施例中,采用了一种位置感知注意力模块。位置感知注意力模块主要由非局部注意力模块和位置编码机制融合而成,其中非局部注意力模块基本架构如图2所示,位置感知注意力模块基本架构如图3所示。位置编码会编码不同特征的位置信息,基于此,再利用注意力模块不仅可以学习到特征图中哪部分区域是关键特征,还可以学习到关键特征之间的位置关系,加强图像判别性特征的获取,并对特征进行自适应性的细化功效。
卷积神经网络深层特征图中的子特征可以看作是对不同语义特征的响应,并且之间相互关联,非局部注意力可以挖掘特征图中各个子特征之间的依赖关系。事实上,特种图中各个子特征重要性是不一样的,通过赋予权值的方式提取每个子特征对关键信息的重要程度,有选择性的去关注权重值大的信息,增强判别性语义的特征表示,提升特征分类性能。
实施例2
发明人发现,在ResNet50网络行人重识别方法中,模型认为特征图中每个子特征的重要性都是相同的,需要考虑所有特征,从而导致训练速度慢且无法高效地提取出对任务有帮助的关键性特征。为了解决上述问题,在本发明的优选实施例中,提供了非局部注意力模块,其基本架构如图2所示,具体步骤如下:
S1.1将输入特征图X∈Rb×c×h×w分别通过三个具有不同权重系数且输出通道数为输入通道数
Figure BDA0003545828300000081
的1×1卷积滤波器,获得三个不同的特征图,分别记为θ、φ、g,其中b、c、h、w、r分别为每批次图片张数、通道数、高、宽、通道数降维因子;
S1.2从三个不同特征图中选取特征图φ和g进行池化操作,得到特征图
Figure BDA0003545828300000082
Figure BDA0003545828300000083
无池化操作的特征图记为
Figure BDA0003545828300000084
S1.3将上述三个特征图按通道维度展平拉直为二维特征矩阵,并对三维特征图θ和g对应的二维特征矩阵进行转置得到二维特征矩阵
Figure BDA0003545828300000085
和二维特征矩阵
Figure BDA0003545828300000086
二维特征矩阵
Figure BDA0003545828300000087
保持不变。
S2将代表两张不同特征图的二维特征矩阵
Figure BDA0003545828300000088
Figure BDA0003545828300000089
相乘得到特征间的关系矩阵Rθ,φ=θ×φ,其中
Figure BDA00035458283000000810
S3将特征间的关系矩阵Rθ,φ经过Softmax,得到归一化自相关权重系数矩阵R′θ,φ=Softmax(Rθ,φ),其中
Figure BDA00035458283000000811
S4.1将归一化自相关权重系数矩阵R′θ,φ和代表特征图的二维特征矩阵g相乘,得到二维空间关键信息矩阵gR=R′θ,φ×g,其中
Figure BDA00035458283000000812
S4.2将二维空间关键信息矩阵转置后按通道还原为三维空间关键信息特征图
Figure BDA00035458283000000813
使用1×1卷积滤波器升维,使之与输入特征图的通道数维度相同,输出记为gRc∈Rb×c×h×w
S4.3将输入特征图X∈Rb×c×h×w和升维后的三维空间关键信息特征图gRc∈Rb×c×h×w相加,得到非局部注意力模块的输出Y=X+gRc,其中Y∈Rb×c×h×w
在本发明提供的实施例中,采用的非局部注意力基本架构如图2所示,在训练过程中,注意力模块只能帮助模型提取出与任务相关的关键特征,没有特征间位置关系的概念,可能会使得特征间关系错乱问题。针对此弊端,本发明将位置编码机制融入到非局部注意力模块当中,在上述S2中加入步骤:将代表特征图的二维特征矩阵
Figure BDA0003545828300000091
与二维位置编码矩阵
Figure BDA0003545828300000092
相乘,得到特征与位置间的关系矩阵
Figure BDA0003545828300000093
然后在上述S3中加入步骤:将特征间的关系矩阵
Figure BDA0003545828300000094
与特征与位置间的关系矩阵
Figure BDA0003545828300000095
相加,实现位置信息嵌入,从而解决了模型缺乏特征间位置关系的概念。
本发明的具体实施步骤如下:
S1:获取输入特征图,通过卷积滤波器提取出三个不同的特征图,对其中两个特征图进行池化操作得到特征图φ和g,特征图θ保持不变;然后将上述三维特征图θ、φ、g分别按通道维度展平拉直为二维特征矩阵,对三维特征图θ和g对应的二维特征矩阵进行转置得到二维特征矩阵θ和二维特征矩阵g,二维特征矩阵φ保持不变;
S1.1将输入特征图X∈Rb×c×h×w分别通过三个具有不同权重系数且输出通道数为输入通道数
Figure BDA0003545828300000096
的1×1卷积滤波器,获得三个不同的特征图,分别记为θ、φ、g,其中b、c、h、w、r分别为每批次图片的张数、通道数、高、宽、通道数降维因子;
S1.2从三个不同特征图中选取特征图φ和g进行池化操作,得到特征图
Figure BDA0003545828300000097
和特征图
Figure BDA0003545828300000098
无池化操作的特征图记为
Figure BDA0003545828300000099
S1.3将上述三个特征图按通道维度展平拉直为二维特征矩阵,并对三维特征图θ和g对应的二维特征矩阵进行转置得到二维特征矩阵
Figure BDA0003545828300000101
和二维特征矩阵
Figure BDA0003545828300000102
二维特征矩阵
Figure BDA0003545828300000103
保持不变。
S2:基于位置感知编码特征图中不同位置的特征,构建二维位置编码矩阵PE;将所述二维特征矩阵θ与二维特征矩阵φ相乘,获得特征和特征之间的关系矩阵Rθ,φ;将二维位置编码矩阵PE与所述二维特征矩阵θ相乘,获得特征与位置之间关系矩阵Rθ,PE
S2.1对不同的位置随机初始化不同的位置嵌入向量
Figure BDA0003545828300000104
Figure BDA0003545828300000105
每个位置嵌入向量的初始化值从均值为0,方差为1的正态分布中随机取值,所有的位置嵌入向量按行排开构成二维位置编码矩阵
Figure BDA0003545828300000106
PE中所有参数随着训练过程更新;
S2.2将代表两张不同特征图的二维特征矩阵
Figure BDA0003545828300000107
Figure BDA0003545828300000108
Figure BDA0003545828300000109
相乘得到特征间的关系矩阵Rθ,φ=θ×φ,其中
Figure BDA00035458283000001010
S2.3将所述的二维特征矩阵
Figure BDA00035458283000001011
与二维位置编码矩阵
Figure BDA00035458283000001012
Figure BDA00035458283000001013
相乘得到特征与位置间的关系矩阵Rθ,PE=θ×PE,其中
Figure BDA00035458283000001014
Figure BDA00035458283000001015
S3:将S2中所述两个关系矩阵Rθ,PE和Rθ,φ相加实现位置信息嵌入,经过Softmax,得到含位置信息的归一化自相关权重系数矩阵fc=Softmax(Rθ,PE+Rθ,φ);
S3.1将特征间的关系矩阵Rθ,φ和特征与位置间的关系矩阵Rθ,PE相加,实现位置信息的嵌入,得到含位置信息的自相关权重系数矩阵
Figure BDA00035458283000001016
此时
Figure BDA00035458283000001017
中包含了特征图中子特征间的位置关系;
S3.2将含位置信息的自相关权重系数矩阵f经过Softmax,得到含位置信息的归一化自相关权重系数矩阵fc=Softmax(Rθ,PE+Rθ,φ),其中
Figure BDA00035458283000001018
Figure BDA00035458283000001019
S4:将所述含位置信息的归一化自相关权重系数矩阵fc与代表特征图的二维特征矩阵g相乘,获得二维空间位置关键信息矩阵,再将其按通道还原为三维空间位置关键信息特征图,并使用卷积滤波器升维,最后使用类似残差结构,将输入和升维后的三维空间位置关键信息特征图相加得到位置感知注意力模块的输出;
S4.1将所述含位置信息的归一化自相关权重系数矩阵fc与代表特征图的二维特征矩阵
Figure BDA0003545828300000111
相乘,得到二维空间位置关键信息矩阵gf=fc×g,其中
Figure BDA0003545828300000112
S4.2将二维空间位置关键信息矩阵转置后按通道还原为三维空间位置关键信息特征图
Figure BDA0003545828300000113
使用1×1卷积滤波器升维,使之与输入特征图的通道数维度相同,输出记为gfc∈Rb×c×h×w
S4.3将输入特征图X∈Rb×c×h×w和升维后的三维空间位置关键信息特征图gfc∈Rb ×c×h×w相加,得到位置感知注意力模块的输出Y=X+gfc,其中Y∈Rb×c×h×w
S5将位置感知注意力模块插入到ResNet50网络第二层的输出位置,采用交叉熵和三元组损失函数加权形式作为总损失函数随着网络一起训练,输入测试图片获得行人匹配识别结果。
实施例3
本发明还提供一个实施例,用于显示本发明提供的方法的一个具体实验过程。
在本实施例中,采用Market1501、DukeMTMC-ReID、CUHK03三种数据集来进行训练和测试。Market1501于2015年夏采集自清华大学校园内,包含1501个行人ID,通过6个摄像头采集共32668张图片,其中训练集包含751个行人ID共12936张图片,测试集包含余下750个ID,3368个检索图片,15913张待检图片;DukeMTMC-reID于2015年冬采集自杜克大学校园内,包含1812个行人ID,共有36411张图片,其中训练集包含702个行人ID共16522张图片,测试集包含余下的702个行人ID图片。CUHK03数据集包含人工标记的14096张图像,和检测标记的14097张图像,这些图像由两个相机视图捕获,总共具有1467个ID,其中767个ID的图片用于训练,其余用于测试。
在训练阶段,采用数据增强的方法将图片切割为384×128大小的行人图像,并将图片进行随机镜像和正则化,然后送入网络模型训练。在测试阶段,将全局分支特征和局部分支特征拼接起来,通过距离度量获得相似性排序结果。
在训练参数设置上,根据GPU显存将训练过程中批量大小设置为64(包含16个行人ID,每个ID4张图片),训练周期设置为160,选用Adam优化器,初始学习率为3.5×10-5,采用WarmUp策略经过10个epoch将学习率提升到3.5×10-4,分别再经过30个epoch和60个epoch时学习率降至3.5×10-5和3.5×10-6。训练过程中每个Epoch结束后会通过测试集对模型进行评估和保存,完成所有轮次训练后,把识别效果最好的权值保存成最后的模型文件。通过保存的模型测试对每批次行人图片的识别效果,最后观察并记录实验数据。
综上所述,本发明提供一种融入位置感知注意力的行人重识别方法:在ResNet50网络中引入一种位置感知注意力模块,该模块是非局部注意力模块的一种有效改进,通过将位置信息嵌入捕获长范围特征依赖关系的非局部注意力模块,有效提升了所提取特征的表达能力。本发明提出的位置感知注意力模块属于轻量级结构,该模块融入ResNet50网络能有效抽取行人的可区分特征,同时了抑制了与行人识别任务关联度小的特征,在多个流行行人重识别标准数据集上取得了比传统网络模型和其他相关方法更好的识别效果。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种融入位置感知注意力的行人重识别方法,其特征在于,包括将原始图片经过ResNet50网络前两层得到的输出特征图输入到位置感知注意力模块中进行处理和将位置感知注意力模块融入到ResNet50网络中进行训练和测试;
所述的将原始图片经过ResNet50网络前两层得到的输出特征图输入到位置感知注意力模块中进行处理包括:
S1:获取输入特征图,通过卷积滤波器提取出三个不同的特征图,对其中两个特征图进行池化操作得到特征图φ和特征图g,特征图θ保持不变;然后将上述三维特征图θ、φ、g分别按通道维度展平拉直为二维特征矩阵,对三维特征图θ和g对应的二维特征矩阵进行转置得到二维特征矩阵θ和g,二维特征矩阵φ保持不变;
S2:基于位置感知编码特征图中不同位置的特征,构建二维位置编码矩阵PE;将所述二维特征矩阵θ与二维特征矩阵φ相乘,获得特征和特征之间的关系矩阵Rθ,φ;将二维位置编码矩阵PE与所述二维特征矩阵θ相乘,获得特征与位置之间关系矩阵Rθ,PE
S3:将S2中所述两个关系矩阵Rθ,φ和Rθ,PE相加实现位置信息嵌入,经过归一化指数函数,得到含位置信息的归一化自相关权重系数矩阵fc=Softmax(Rθ,PE+Rθ,φ);
S4:将所述含位置信息的归一化自相关权重系数矩阵fc与代表特征图的二维特征矩阵g相乘,获得二维空间位置关键信息矩阵,再将其按通道还原为三维空间位置关键信息特征图,并使用卷积滤波器升维,最后使用类似残差结构,将输入和升维后的三维空间位置关键信息特征图相加得到位置感知注意力模块的输出;
所述的将位置感知注意力模块融入到ResNet50网络中进行训练和测试包括:
S5:将位置感知注意力模块插入到ResNet50网络第二层的输出位置,采用交叉熵和三元组损失函数加权形式作为总损失函数随着网络一起训练,输入测试图片获得行人匹配识别结果。
2.根据权利要求1所述的方法,其特征在于,步骤S1具体包括:
S1.1将输入特征图X∈Rb×c×h×w分别通过三个具有不同权重系数且输出通道数为输入通道数
Figure FDA0003545828290000021
的1×1卷积滤波器,获得三个不同的特征图,分别记为θ、φ、g,其中b、c、h、w、r分别为每批次图片的张数、通道数、高、宽、通道数降维因子;
S1.2从三个不同特征图中选取特征图φ和g进行池化操作,得到特征图
Figure FDA0003545828290000022
和特征图
Figure FDA0003545828290000023
无池化操作的特征图记为
Figure FDA0003545828290000024
S1.3将上述三个特征图按通道维度展平拉直为二维特征矩阵,并对三维特征图θ和g对应的二维特征矩阵进行转置得到二维特征矩阵
Figure FDA0003545828290000025
和二维特征矩阵
Figure FDA0003545828290000026
二维特征矩阵
Figure FDA0003545828290000027
保持不变。
3.根据权利要求1所述的方法,其特征在于,步骤S2包括:
S2.1对不同的位置随机初始化不同的位置嵌入向量
Figure FDA0003545828290000028
Figure FDA0003545828290000029
每个位置嵌入向量的初始化值从均值为0,方差为1的正态分布中随机取值,所有的位置嵌入向量按行排开构成二维位置编码矩阵
Figure FDA00035458282900000210
PE中所有参数随着训练过程更新;
S2.2将代表两张不同特征图的二维特征矩阵
Figure FDA00035458282900000211
Figure FDA00035458282900000212
相乘得到特征间的关系矩阵Rθ,φ=θ×φ,其中
Figure FDA00035458282900000213
S2.3将所述的二维特征矩阵
Figure FDA00035458282900000214
与二维位置编码矩阵
Figure FDA00035458282900000215
相乘得到特征与位置间的关系矩阵Rθ,PE=θ×PE,其中
Figure FDA00035458282900000216
4.根据权利要求1所述的方法,其特征在于,步骤S3包括:
S3.1将特征间的关系矩阵Rθ,φ和特征与位置间的关系矩阵Rθ,PE相加,实现位置信息的嵌入,得到含位置信息的自相关权重系数矩阵
Figure FDA00035458282900000217
此时
Figure FDA00035458282900000218
中包含了特征图中子特征间的位置关系;
S3.2将含位置信息的自相关权重系数矩阵f经过归一化指数函数,得到含位置信息的归一化自相关权重系数矩阵fc=Softmax(Rθ,PE+Rθ,φ),其中
Figure FDA0003545828290000031
5.根据权利要求1所述的方法,其特征在于,步骤S4具体包括:
S4.1将所述含位置信息的归一化自相关权重系数矩阵fc与代表特征图的二维特征矩阵
Figure FDA0003545828290000032
相乘,得到二维空间位置关键信息矩阵gf=fc×g,其中
Figure FDA0003545828290000033
S4.2将二维空间位置关键信息矩阵转置后按通道还原为三维空间位置关键信息特征图
Figure FDA0003545828290000034
使用1×1卷积滤波器升维,使之与输入特征图的通道数维度相同,输出记为gfc∈Rb×c×h×w
S4.3将输入特征图X∈Rb×c×h×w和升维后的三维空间位置关键信息特征图gfc∈Rb×c×h×w相加,得到位置感知注意力模块的输出Y=X+gfc,其中Y∈Rb×c×h×w
CN202210247905.3A 2022-03-14 2022-03-14 一种融入位置感知注意力的行人重识别方法 Pending CN114663974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210247905.3A CN114663974A (zh) 2022-03-14 2022-03-14 一种融入位置感知注意力的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210247905.3A CN114663974A (zh) 2022-03-14 2022-03-14 一种融入位置感知注意力的行人重识别方法

Publications (1)

Publication Number Publication Date
CN114663974A true CN114663974A (zh) 2022-06-24

Family

ID=82028953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210247905.3A Pending CN114663974A (zh) 2022-03-14 2022-03-14 一种融入位置感知注意力的行人重识别方法

Country Status (1)

Country Link
CN (1) CN114663974A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294655A (zh) * 2022-08-18 2022-11-04 中科天网(广东)科技有限公司 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368815A (zh) * 2020-05-28 2020-07-03 之江实验室 一种基于多部件自注意力机制的行人重识别方法
CN112541409A (zh) * 2020-11-30 2021-03-23 北京建筑大学 一种融入注意力的残差网络表情识别方法
CN113158905A (zh) * 2021-04-23 2021-07-23 佛山市南海区广工大数控装备协同创新研究院 一种基于注意力机制的行人重识别方法
CN114005078A (zh) * 2021-12-31 2022-02-01 山东交通学院 一种基于双关系注意力机制的车辆重识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368815A (zh) * 2020-05-28 2020-07-03 之江实验室 一种基于多部件自注意力机制的行人重识别方法
CN112541409A (zh) * 2020-11-30 2021-03-23 北京建筑大学 一种融入注意力的残差网络表情识别方法
CN113158905A (zh) * 2021-04-23 2021-07-23 佛山市南海区广工大数控装备协同创新研究院 一种基于注意力机制的行人重识别方法
CN114005078A (zh) * 2021-12-31 2022-02-01 山东交通学院 一种基于双关系注意力机制的车辆重识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张子昊;周千里;王蓉;: "基于空间注意力机制的行人再识别方法", 北京航空航天大学学报, no. 09, 31 December 2020 (2020-12-31) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294655A (zh) * 2022-08-18 2022-11-04 中科天网(广东)科技有限公司 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备

Similar Documents

Publication Publication Date Title
CN107066559B (zh) 一种基于深度学习的三维模型检索方法
CN110738146B (zh) 一种目标重识别神经网络及其构建方法和应用
CN115171165A (zh) 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN112818931A (zh) 基于多粒度深度特征融合的多尺度行人重识别方法
CN110659665B (zh) 一种异维特征的模型构建方法及图像识别方法、装置
CN112507853B (zh) 一种基于互注意力机制的跨模态行人重识别方法
CN108154133B (zh) 基于非对称联合学习的人脸画像-照片识别方法
CN111582178B (zh) 基于多方位信息和多分支神经网络车辆重识别方法及系统
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN112347995A (zh) 基于像素和特征转移相融合的无监督行人再识别方法
CN109165698A (zh) 一种面向智慧交通的图像分类识别方法及其存储介质
CN115830637B (zh) 一种基于姿态估计和背景抑制的遮挡行人重识别方法
CN114782977A (zh) 一种基于拓扑信息和亲和度信息引导行人重识别方法
CN112580480A (zh) 一种高光谱遥感影像分类方法及装置
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN115661754A (zh) 一种基于维度融合注意力的行人重识别方法
CN114663974A (zh) 一种融入位置感知注意力的行人重识别方法
CN113283320B (zh) 一种基于通道特征聚合的行人重识别方法
CN117078967B (zh) 一种有效且轻量的多尺度行人重识别方法
CN112860936B (zh) 一种基于稀疏图相似度迁移的视觉行人重识别方法
CN114494809A (zh) 特征提取模型优化方法、装置及电子设备
CN115690669A (zh) 一种基于特征分离与因果比较损失的跨模态重识别方法
CN111860368A (zh) 一种行人重识别方法、装置、设备及存储介质
CN116894943A (zh) 一种双约束的伪装目标检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination