CN113239784B - 一种基于空间序列特征学习的行人重识别系统及方法 - Google Patents

一种基于空间序列特征学习的行人重识别系统及方法 Download PDF

Info

Publication number
CN113239784B
CN113239784B CN202110509285.1A CN202110509285A CN113239784B CN 113239784 B CN113239784 B CN 113239784B CN 202110509285 A CN202110509285 A CN 202110509285A CN 113239784 B CN113239784 B CN 113239784B
Authority
CN
China
Prior art keywords
module
feature
pedestrian
learning
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110509285.1A
Other languages
English (en)
Other versions
CN113239784A (zh
Inventor
黄德双
张焜
伍永
元昌安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Academy of Sciences
Original Assignee
Guangxi Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Academy of Sciences filed Critical Guangxi Academy of Sciences
Priority to CN202110509285.1A priority Critical patent/CN113239784B/zh
Publication of CN113239784A publication Critical patent/CN113239784A/zh
Priority to JP2021136885A priority patent/JP2022174707A/ja
Application granted granted Critical
Publication of CN113239784B publication Critical patent/CN113239784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于空间序列特征学习的行人重识别系统及方法,包括:Res2Net网络、全局特征模块、空间序列特征学习模块;全局特征模块包括平局池化模块和全连接层模块;Res2Net网络分别与全局特征模块和空间序列特征学习模块连接;所述空间序列特征学习模块包括卷积层、随机掩膜模块、最大池化模块和自注意力模块。本发明提出基于自注意机制的空间序列特征学习模块,构造水平和垂直两个方向的空间序列特征,学习其空间语义联系,提取有效的局部特征;提出随机批次特征擦除训练策略,通过随机掩膜块对特征图谱的局部区域进行遮挡,以此迫使模型学习被抑制的低频局部特征。

Description

一种基于空间序列特征学习的行人重识别系统及方法
技术领域
本发明涉及行人重识别领域,特别是涉及一种基于空间序列特征学习的行人重识别系统及方法。
背景技术
行人重识别是计算机视觉领域中一个重要的研究方向,随着民众对公共安全的需求日益增长和公开摄像头的普及,行人重识别技术在智能安防领域中的作用也越来越重要。传统的行人重识别研究主要是基于手工方式构造行人特征,随着深度学习技术的发展,行人重识别模型的性能有了显著的提高,但是行人分辨率低,图像存在遮挡,数据集规模小等因素都制约着模型性能的提升。现阶段,许多研究在学习局部特征时,忽略了局部特征间的空间语义关系。
早期的行人重识别研究都是基于全局特征进行,然而行人图像获取困难,常常无法获得行人正面图像,或是行人部分躯体被障碍物遮挡。当行人的服饰相似且关键部位被遮挡时,不同行人图像会十分相似,仅仅依靠全局特征无法分辨,因此近年来许多研究都基于局部特征进行改进。常用的获取局部特征的方式有两种,一种是通过多尺度特征提取模型,提取模型局部的、细粒度的特征,这种方法也被广泛应用于图像识别的多个领域中,研究较为成熟。第二种方式是通过人工或者自动化的方式将行人图像划分为多个区域,分别提取空间特征然后融合,Varior等人就将图像按水平方向划分为六个区域分别提取特征,由于行人在各个图像中的位置和姿态不一致,按空间进行分割会产生局部区域不对齐的问题,有研究者通过目标检测的方式引入姿态信息辅助局部特征进行对齐,也取得了一定的提升。
但是现有技术中基于空间区域特征学习的方法存在着两个弊端:
(1)大部分研究者基于生物学上的观点,将人按照头部、四肢和躯干的方式进行分类,然后按照水平方向对图像进行分割。但是神经网络并非按生物学的方式进行特征提取,按照垂直方向分割也能获得有效的特征,特别是当行人被墙壁、电线杆等垂直障碍物遮挡时,按照垂直方向分割能够更好地将遮挡区域分离。
(2)通过目标检测的方法引入姿态等信息虽然有助于提升模型效果,但是流程较为繁琐,增加了算法复杂度。而且在行人图像上进行高精度的姿态检测本身就是一个较为困难的任务,如果引入错误的姿态信息,反而会对模型进行干扰。
故现实社会中亟需一种能够解决现有技术中存在的问题的方法。
发明内容
本发明的目的是提供一种基于空间序列特征学习的行人重识别系统及方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了如下方案:
本发明提供一种基于空间序列特征学习的行人重识别系统,包括:Res2Net网络、全局特征模块、空间序列特征学习模块;
其中所述Res2Net网络用于对输入的图像进行特征提取,并输出特征图谱;
所述全局特征模块包括平局池化模块和全连接层模块,以用于对所述特征图谱提取全局特征;
所述空间序列特征学习模块包括卷积层、随机掩膜模块、最大池化模块和自注意力模块;
所述Res2Net网络分别与所述全局特征模块和所述空间序列特征学习模块连接;
所述平局池化模块与全连接层模块连接;
所述卷积层和所述随机掩膜模块分别与所述最大池化模块连接,所述最大池化模块与所述自注意力模块连接。
优选地,所述Res2Net网络包括多组卷积核分层为3*3的卷积,其中每组卷积均为残差连接结构。
优选地,所述Res2Net网络还包括:SE模块,以用于计算通道注意力。
优选地,所述全连接层模块包括第一全连接层和第二全连接层,所述第一全连接层用于减少通道数,激活函数为ReLU;所述第二全连接层用于恢复通道数,激活函数为sigmoid。
优选地,所述随机掩膜模块用于通过大小、位置均随机的掩膜对特征图谱进行遮挡,以抑制高频特征的出现概率。
优选地,所述最大池化模块用于对所述特征图谱在水平和垂直两个方向进行池化。
优选地,所述自注意力模块包括:多头自注意力子模块和融合了残差结构的前馈神经网络,其中所述多头自注意力子模块用于在多个子空间计算多方面注意力。
一种基于空间序列特征学习的行人重识别方法,包括以下步骤:
构建行人重识别模型并采集图像数据,所述行人重识别模型包括:Res2Net网络、全连接层、随机掩膜和自注意力模块,采集行人原始图像,将三张所述行人原始图像作为一组输入图像;
获得特征图谱,将一组输入图像输入所述Res2Net网络,所述Res2Net网络提取所述行人原始图像的特征,以获得所述特征图谱,
全局特征提取,将所述特征图谱通过平均池化进行降维,以获得第一特征图谱,将所述第一特征图谱输入到所述全连接层,并映射到分类空间中,以计算损失函数;
空间序列特征提取,将所述特征图谱先通过卷积层降维,获得第二特征图谱,通过所述随机掩膜对所述第二特征图谱部分区域进行抑制,在水平方向和垂直方向进行最大池化,获取不同空间维度上的特征向量,再分别输入到所述自注意力模块中学习空间序列特征,并计算损失函数。
优选地,所述损失函数包括:排序损失函数和AM-Softmax损失函数。
本发明公开了以下技术效果:
本发明针对模型难以提取有效的局部特征的问题,提出了基于空间序列特征学习的行人重识别模型,基于多尺度特征网络学习全局特征,使用自注意力机制和随机批次特征擦除策略来学习序列特征间的空间语义关系,进行局部特征提取,并结合数据增强技术进行训练;
提出基于自注意机制的空间序列特征学习模块,构造水平和垂直两个方向的空间序列特征,学习其空间语义联系,提取有效的局部特征;
提出随机批次特征擦除训练策略,通过随机掩膜块对特征图谱的局部区域进行遮挡,以此迫使模型学习被抑制的低频局部特征。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中的Res2Net网络结构示意图;
图2为本实施例中的Res2Net Block结构示意图;
图3为本实施例中的自注意力模块(左)和多头自注意力模块(右)的对比示意图。
具体实施方式
现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。
应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为还具体公开了该范围的上限和下限之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。
除非另有说明,否则本发明使用的所有技术和科学术语具有本发明所属领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本发明所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。
在不背离本发明的范围或精神的情况下,可对本发明说明书的具体实施方式做多种改进和变化,这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见的。本申请说明书和实施例仅是示例性的。
关于本发明中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
本发明中所述的“份”如无特别说明,均按质量份计。
实施例1
本发明使用的网络框架如图1所示,采用三元组图像作为输入,使用Res2Net-50网络进行特征提取,将stage4提取得到的特征图谱分别经输入全局特征分支和空间序列特征学习分支。在全局特征分支中,特征向量先经过平均池化操作降维,再输入到全连接层映射到分类空间中,计算Ranked List Loss和AM-Softmax Loss。而在空间序列特征学习分支中,先通过1*1卷积层降维到1024,再通过随机掩膜对特征图谱部分区域进行抑制,然后在行和列方向分别进行最大池化,得到不同空间维度上的特征向量。再分别输入到自注意力模块中学习空间序列特征,并计算损失。
多尺度特征提取:
本发明采用Res2Net网络作为主干网络结构,Res2Net对ResNet中的瓶颈模块进行了重构,在保留残差连接的基础上,使用多组3*3的卷积核分层进行多尺度特征提取,其中每组卷积仍然保持了残差连接结构。并且在模块的最后增加了SE模块,计算通道注意力。相比于原始的ResNet结构通过不同的模块逐渐提取细粒度特征的方式,Res2Net在模块内部引入分层卷积在多个尺度上提取特征,增大感受野,并且加入了注意力机制,有效提高了模型对特征的提取能力。
图2展示了Res2Net的模块结构,首先将输入的特征x经过一组1*1卷积后,按照通道将x划分为s个不同的子特征图xi,i∈{1,2,...,s}。每个子特征图xi都拥有相同的空间尺度,但是通道数量都只有x的1/s。本发明定义使用卷积核大小为3*3的卷积操作为K(·)。除了x1外,所有的xi都要经过对应的卷积层Ki(·),得到输出特征yi,并且将yi和xi+1进行拼接,输入到Ki+1(·)中,将所有的yi按空间方向进行拼接再通过一组1*1卷积核作用,就得到了多尺度特征y。
Figure BDA0003059686880000071
对于Ki(·)来说,其输入包含了之前几层的xj(j≤i)的信息,因此其输出也拥有比xj更大的感受野,随着s增大,感受野也将增大,特征包含的信息也更加丰富。
而SE模块通过两个步骤计算通道注意力,分别是压缩和激活。压缩的方法有很多种,本发明采用全局平均池化的方式,用yc表示特征y在第c个通道上的特征图,z表示压缩后的向量。由于需要计算通道注意力,因此需要对每个特征图上的特征都进行压缩。
Figure BDA0003059686880000081
而之后的激活操作是通过两个全连接层实现的。第一个全连接层减少通道数,使用ReLU作为激活函数。而第二个全连接层恢复通道数,并使用sigmoid激活函数,将输出限制在[0,1]区间内,表示各个通道的权重。所以,最后输出权重α的计算公式为:
α=Fex(z,W)=σ(W2δ(W1z)) (3)
其中σ和δ分别表示Sigmoid激活函数和ReLU激活函数。使用全连接层的目的是为了通过全连接层的参数保留整个数据集上所有数据的信息,从而计算每个通道的重要性,而不是仅仅根据某个批次的数据。
空间序列特征学习:
本发明主要介绍空间序列特征学习模块。如同上文提到,不同于与将原始图像按照水平方向进行切割来获取空间序列的方式,本发明使用Res2Net输出的特征图谱在水平和垂直方向进行池化来获取序列输入,对于原始图像在水平和垂直方向上的特征。相比于对原始图像进行切割,这样能使得序列输入的感受野更大,而且缓解了由于切割导致的重要信息丢失的现象,并将能够有效地学习空间序列特征间的语义关系。
对于池化后得到的序列输入,本发明通过多头自注意力机制提取序列特征。多头自注意力机制出自Google提出的Transformer模型,其最大创新点是使用使用注意力机制替代RNN结构来处理序列输入数据,并且能在提高参数量的同时保证计算速度和网络的收敛性。本发明首先介绍自注意力机制,以垂直方向上的空间序列输入X=(x1,x2,...,xn)为例,自注意力机制是利用键值匹配的思想,将输入映射到索引(query)、(键)key和(值)value三个空间中,根据索引和键计算值的权重,然后对值进行加权相加。具体计算过程如下:
Figure BDA0003059686880000091
其中WQ,WK和WV分别表示全连接矩阵的权重,d表示xi的维度。需要注意的是,使用softmax函数归一化权重之前,先通过d对其输入进行了缩放,这样做是为了避免在高维情况下数值过大导致softmax函数的输出过于平缓,使得各个位置问的注意力权重过于相近。
相比于RNN,自注意力结构可以并行地处理序列输入,降低了计算复杂度,大大提高了网络的计算效率,并且还能保留长距离依赖。本发明所使用的多头注意力模块如图3所示,使用了多个自注意力机制合并,并且加入前馈神经网络和残差结构。
多头注意力同时计算多组自注意力,通过线性层将输入序列映射到多个子空间上分别计算自注意力,然后再拼接。使用多组注意力通过不同的初始化参数,可以将输入映射到多个不同的子空间上,让模型去关注不同方面的特征信息,从而发掘那些已被忽略的细节特征。使用多头注意力提取特征后,本发明再通过残差模块,将特征和输入拼接,使用层标准化(layer normalization)对其进行标准化操作,再输入到前馈神经网络中。
Figure BDA0003059686880000092
需要注意的,本发明中使用的前馈神经网络也融合了残差结构,并且是逐元素计算的,即对于其输入序列X′=(x1′,x2′,...,xn′)中的每个xi都单独进行如下计算:
FFN(x)=max(0,xW1+b1)W2+b2 (6)
以上就是Transformer模块的基本结构,本发明使用N个Transformer模块组合成特征提取器,分别对水平和垂直方向的空间序列进行特征学习,得到特征向量fv和fh并计算损失。
随机批次特征擦除策略:
深度网络学习特征往往容易聚焦于高频重复出现的特征,而使用注意力机制更容易加重这种现象。当本发明使用注意力机制对空间序列特征进行提取时,模型容易对高频特征赋予更高的权重,一旦由于遮挡或是角度问题无法获得这些特征,模型的识别能力就会明显下降。为了缓解这种现象,本发明使用随机批次特征擦除策略,在通过大小位置随机的掩膜对特征图谱进行遮挡,减少高频特征,让模型关注于那些被抑制的、低频的局部信息。随机批次特征擦除算法的具体流程如算法1所示,本发明通过随机批次特征擦除算法为Res2Net输出的特征F添加位置随机的掩膜,并抑制被掩膜遮挡区域的特征,即将被掩膜遮挡区域的值设置为0,得到输出特征F′。
随机批次特征擦除策略有如下几个优点:
(1)不引入额外的参数,可以轻便地与各种结构融合,在不提高计算成本的情况下提升网络效果。
(2)对于批次内的每个样本都随机抑制部分区域,避免模型过度依赖高频特征。
(3)一定程度上模拟了特征被遮挡场景,通过对抗训练的方式提升模型的鲁棒性。
Figure BDA0003059686880000111
损失函数:
本发明使用排序损失函数(Ranked List Loss)和AM-Softmax损失函数融合作为分支的损失函数,即:
L=λ1LAMS2LRRL (7)
Figure BDA0003059686880000112
其中
Figure BDA0003059686880000113
表示查询样本,f为特征表示函数,W为网络最后一层全连接层的参数。
而排序列表损失的作用与三元组损失函数类似,也是为了拉近同类样本,拉开异类样本的距离。列表中任意两个样本间xi、xj间距离函数如公式(7)所示,其中Yij表示xi、xj是否为同类样本,dij表示f(xi)、f(xj)间的距离。
Lm(xi,xj;f)=(1-Yij)[α-dij]++Yij[dij-(α-mRLL)]+ (9)
可以看到,公式(7)希望使得负样本间的距离大于α,正样本间的距离小于α-mRLL。本发明在训练时可以在线构建样本
Figure BDA0003059686880000126
对应的困难正样本集台
Figure BDA0003059686880000121
和困难负样本集合
Figure BDA0003059686880000122
为了拉近同类样本间的距离,本发明需要最小化公式(7),同理,为了拉开异类样本间的距离,需要最小化式(8),其中wij=exp(T·(α-dij)),表示样本的权重系数。
Figure BDA0003059686880000123
Figure BDA0003059686880000124
排序损失函数的最终表达式为:
Figure BDA0003059686880000125
实施例2
实验设置:
实验环境:代码使用Pytorch框架编写,在配置两块Nvidia TITAN Xp显卡的服务器上运行。
Res2Net:主干网络使用在ImageNet上预训练的Res2Net-50网络,其结构与Res2Net-50类似,仅对残差模块进行替换,子特征图数量s=4。最后输出特征图的尺寸为16*8*2048。
空间序列特征学习模块:自注意力模块部分,模块个数N=4,单个模块内模块维度d=1024,多头注意力头数h=8。而随机掩膜部分,Rh在集合{0,0.1,0.2,0.3}内随机选择,Rw=1。
GAN网络:
由于GAN网络仅仅生成图像,需要在行人识别模型才能进行数据增强。本发明使用Densenet-121网络作为识别模型的基线,网络后接全连接层进行分类。基于多尺度条件生成对抗网络,使用改进后的MPRL方法进行标签分配。
损失函数:AM Softmax损失对应的权重λ1=1,缩放系数s=10,间隔mAMS=0.35。而排序列表损失的权重λ2=1,温度系数T=10,负样本距离α=1.2,间隔mRLL=0.4。
训练策略:网络训练时,输入图像尺寸缩放为224*224,BatchSize设为64,包含16个行人,每个行人4张图像。优化器为Adam,,初始化学习率为0.001,共训练150个轮次,在前50个轮次使用线性Warm up策略,第100轮后每隔10轮次学习率衰减0.5。
实验结果:
本发明将展示本发明提出的方法在多个数据集上的实验结果,并与以下先进的方法进行比较:PNGAN、KPM、FDGAN、DaRe、PSE、G2G、DeepCRF、SPReID、PABR、PCB+RPP、SGGNN、Mancs、MGN、AANet、CAMA、IANet、DGNet、CASN、BNNeck、MMGA、MuDee、OSNet、ABDNet、Auto-ReID、BDB+Cut、P2-Net、MHN-6。
Market-1501数据集上的实验结果如表1所示,可以看到,在mAP和Rank-1,Rank-5分别达到了89.7%、95.2%和98.4%,相比于之前方法的最高指标,mAP和Rank-1分别提升了0.9%(MMGA,87.2%)和0.2%(ABDNet,95.6%)。
表1
Figure BDA0003059686880000141
Figure BDA0003059686880000151
DukeMTMC-reID数据集上的实验结果如表2所示,mAP和Rank-1,Rank-5分别达到了79.2%、89.1%和94.9%,相比于之前方法的最高指标,mAP提升了0.6%(ABDNet,78.6%),Rank-1基本持平(MMGA,89.5%)。
表2
Figure BDA0003059686880000152
Figure BDA0003059686880000161
Figure BDA0003059686880000171
CUHK03数据集上的实验结果如表3和表4所示,在CUHK03(Labeled)和CUHK03(Detected)上都达到了先进水平。其中在CUHK03(Labeled)数据集上,mAP和Rank-1分别达到了78.3%、81.2%,相比于之前方法的最高指标,mAP提升了1.6%(BDB+Cut,76.7%),Rank-1提升了2.8%(BDB+Cut,79.4%)。
而在CUHK03(Detected)数据集上,mAP和Rank-1分别达到了74.8%、76.9%,相比于之前方法的最高指标,mAP提升了1.3%(BDB+Cut,73.5%),Rank-1提升了0.5%(BDB+Cut,76.4%)。
表3
Figure BDA0003059686880000172
Figure BDA0003059686880000181
表4
方法 mAP Rank-1
DaRe 59.0 63.3
MLFN 47.8 52.8
HA-CNN 38.6 41.7
MGN 66.0 66.8
Mancs 60.5 65.5
CAMA 57.5 63.7
CASN 64.2 66.6
Auto-ReID 64.4 71.5
BDB+Cut 67.8 72.3
MHN-6 69.3 73.3
P<sup>2</sup>-Net 73.5 76.4
DaRe 65.4 71.7
MLFN 68.9 74.9
Ours 74.8 76.9
消融分析:
为了验证本发明提出的结构的有效性,本发明还在Market-1501数据集进行了消融分析。
(1)自注意力模块:
为了验证基于自注意力的空间序列特征学习模块对于模型识别性能的影响,本发明删去空间序列特征学习分支进行实验,实验结果如表5所示,其中Ours/V,Ours/H和Ours/(V+H)分别表示只去除水平序列特征分支、只去除垂直序列分支和去除整个空间序列特征学习分支。
表5
方法 mAP Rank-1
Ours/V 88.4 94.7
Ours/H 89.0 95.2
Ours/(V+H) 85.1 93.7
Ours 89.7 95.8
可以看到,删除了自注意力模块后,模型的识别能力有明显下降,其中删除整个空间序列特征学习分支的效果下降最明显,mAP和Rank-1分别下降了4.6%和2.1%。而相比于删除垂直空间序列特征分支,删除水平空间序列特征分支的效果下降更明显,说明在模型层面上,水平空间序列特征包含了更多的信息。
(2)随机批次特征擦除策略:
为了验证随机批次特征擦除策略的有效性,本发明不采用该策略进行了实验,实验结果如表6所示。
表6
Figure BDA0003059686880000191
Figure BDA0003059686880000201
不使用随机批次特征擦除策略后,模型的识别性能有所下降,其中mAP指标下降明显。说明该方法可以帮助模型学习低频信息,提升模型的整体鲁棒性。
本发明首先对现有的基于空间特征学习的方法进行分析,并将本发明所提出的方法和传统方法进行对比。接着,从多尺度特征提取、空间序列特征学习、随机批次特征擦除策略和损失函数四个方面对本发明提出的基于空间序列特征学习的行人重识别方法进行详细介绍。之后在多个公开数据集上进行实验并进行消融分析,最后证明了本发明所提出的方法的有效性。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (9)

1.一种基于空间序列特征学习的行人重识别系统,其特征在于:包括:Res2Net网络、全局特征模块、空间序列特征学习模块;
其中所述Res2Net网络用于对输入的图像进行特征提取,并输出特征图谱;
所述全局特征模块包括平均池化模块和全连接层模块,用于对所述特征图谱提取全局特征;
所述空间序列特征学习模块包括卷积层、随机掩膜模块、最大池化模块和自注意力模块;
所述Res2Net网络分别与所述全局特征模块和所述空间序列特征学习模块连接;
所述平均池化模块与全连接层模块连接;
所述卷积层和所述随机掩膜模块分别与所述最大池化模块连接,所述最大池化模块与所述自注意力模块连接。
2.根据权利要求1所述的基于空间序列特征学习的行人重识别系统,其特征在于:所述Res2Net网络包括多组卷积核分层为3*3的卷积,其中每组卷积均为残差连接结构。
3.根据权利要求1所述的基于空间序列特征学习的行人重识别系统,其特征在于:所述Res2Net网络还包括:SE模块,用于计算通道注意力。
4.根据权利要求1所述的基于空间序列特征学习的行人重识别系统,其特征在于:所述全连接层模块包括第一全连接层和第二全连接层,所述第一全连接层用于减少通道数,激活函数为ReLU;所述第二全连接层用于恢复通道数,激活函数为sigmoid。
5.根据权利要求1所述的基于空间序列特征学习的行人重识别系统,其特征在于:所述随机掩膜模块用于通过大小、位置均随机的掩膜对特征图谱进行遮挡,抑制高频特征的出现概率。
6.根据权利要求1所述的基于空间序列特征学习的行人重识别系统,其特征在于:所述最大池化模块用于对所述特征图谱在水平和垂直两个方向进行池化。
7.根据权利要求1所述的基于空间序列特征学习的行人重识别系统,其特征在于:所述自注意力模块包括:多头自注意力子模块和融合了残差结构的前馈神经网络,其中所述多头自注意力子模块用于在多个子空间计算多方面注意力。
8.一种基于空间序列特征学习的行人重识别方法,其特征在于:包括以下步骤:
构建行人重识别模型并采集图像数据,所述行人重识别模型包括:Res2Net网络、全连接层、随机掩膜和自注意力模块,采集行人原始图像,将三张所述行人原始图像作为一组输入图像;
获得特征图谱,将一组输入图像输入所述Res2Net网络,所述Res2Net网络提取所述行人原始图像的特征,以获得所述特征图谱;
全局特征提取,将所述特征图谱通过平均池化进行降维,以获得第一特征图谱,将所述第一特征图谱输入到所述全连接层,并映射到分类空间中,以计算损失函数;
空间序列特征提取,将所述特征图谱先通过卷积层降维,获得第二特征图谱,通过所述随机掩膜对所述第二特征图谱部分区域进行抑制,在水平方向和垂直方向进行最大池化,获取不同空间维度上的特征向量,再分别输入到所述自注意力模块中学习空间序列特征,并计算损失函数。
9.根据权利要求8所述的基于空间序列特征学习的行人重识别方法,其特征在于:所述损失函数包括:排序损失函数和AM-Softmax损失函数。
CN202110509285.1A 2021-05-11 2021-05-11 一种基于空间序列特征学习的行人重识别系统及方法 Active CN113239784B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110509285.1A CN113239784B (zh) 2021-05-11 2021-05-11 一种基于空间序列特征学习的行人重识别系统及方法
JP2021136885A JP2022174707A (ja) 2021-05-11 2021-08-25 スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110509285.1A CN113239784B (zh) 2021-05-11 2021-05-11 一种基于空间序列特征学习的行人重识别系统及方法

Publications (2)

Publication Number Publication Date
CN113239784A CN113239784A (zh) 2021-08-10
CN113239784B true CN113239784B (zh) 2022-09-30

Family

ID=77133268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110509285.1A Active CN113239784B (zh) 2021-05-11 2021-05-11 一种基于空间序列特征学习的行人重识别系统及方法

Country Status (2)

Country Link
JP (1) JP2022174707A (zh)
CN (1) CN113239784B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092364B (zh) * 2021-08-12 2023-10-03 荣耀终端有限公司 图像处理方法及其相关设备
CN113792686B (zh) * 2021-09-17 2023-12-08 中南大学 基于视觉表征跨传感器不变性的车辆重识别方法
CN113723366B (zh) * 2021-10-25 2022-03-25 山东力聚机器人科技股份有限公司 一种行人重识别方法、装置及计算机设备
CN114140825A (zh) * 2021-12-01 2022-03-04 深圳集智数字科技有限公司 行人匹配方法、装置、电子设备及计算机可读存储介质
CN114429524B (zh) * 2022-04-07 2022-09-23 深圳市城市交通规划设计研究中心股份有限公司 单目视觉下的三维目标检测模型的构建方法及检测方法
CN115661828B (zh) * 2022-12-08 2023-10-20 中化现代农业有限公司 一种基于动态分层嵌套残差网络的文字方向识别方法
CN115830637B (zh) * 2022-12-13 2023-06-23 杭州电子科技大学 一种基于姿态估计和背景抑制的遮挡行人重识别方法
CN116229178B (zh) * 2023-03-14 2023-11-24 安徽大学 一种基于Transformer针对少量训练样本的图像分类方法
CN116758621B (zh) * 2023-08-21 2023-12-05 宁波沃尔斯软件有限公司 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN112016489A (zh) * 2020-09-02 2020-12-01 重庆邮电大学 一种保留全局信息并增强局部特征的行人再识别方法

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009134482A2 (en) * 2008-01-31 2009-11-05 The Board Of Trustees Of The University Of Illinois Recognition via high-dimensional data classification
CN108228703B (zh) * 2017-10-31 2020-05-08 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
JP7372017B2 (ja) * 2018-07-03 2023-10-31 株式会社神戸製鋼所 鋼材成分学習装置、鋼材成分推定装置、鋼種判定装置、鋼材成分学習方法、鋼材成分推定方法、鋼種判定方法、及びプログラム
CN109376576A (zh) * 2018-08-21 2019-02-22 中国海洋大学 基于交替更新密集连通从零训练网络的目标检测方法
CN109977798B (zh) * 2019-03-06 2021-06-04 中山大学 用于行人重识别的掩膜池化模型训练和行人重识别方法
CN110110642B (zh) * 2019-04-29 2020-12-22 华南理工大学 一种基于多通道注意力特征的行人重识别方法
CN110399799B (zh) * 2019-06-26 2022-07-26 北京迈格威科技有限公司 图像识别和神经网络模型的训练方法、装置和系统
CN110533084B (zh) * 2019-08-12 2022-09-30 长安大学 一种基于自注意力机制的多尺度目标检测方法
CN110751018A (zh) * 2019-09-03 2020-02-04 上海交通大学 一种基于混合注意力机制的群组行人重识别方法
KR102305575B1 (ko) * 2019-09-03 2021-09-27 네이버 주식회사 이미지 간 유사도를 이용한 유사 영역 강조 방법 및 시스템
CN110765841A (zh) * 2019-09-03 2020-02-07 上海交通大学 基于混合注意力机制的群组行人重识别系统及终端
CN110717411A (zh) * 2019-09-23 2020-01-21 湖北工业大学 一种基于深层特征融合的行人重识别方法
CN110688938A (zh) * 2019-09-25 2020-01-14 江苏省未来网络创新研究院 一种集成注意力机制的行人重识别方法
CN110969087B (zh) * 2019-10-31 2023-11-21 杭州未名信科科技有限公司 一种步态识别方法及系统
CN111160295B (zh) * 2019-12-31 2023-05-12 广州视声智能科技有限公司 基于区域引导和时空注意力的视频行人重识别方法
CN111161195B (zh) * 2020-01-02 2023-10-13 重庆特斯联智慧科技股份有限公司 一种特征图处理方法、装置、存储介质及终端
CN111242127B (zh) * 2020-01-15 2023-02-24 上海应用技术大学 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法
CN111259850B (zh) * 2020-01-23 2022-12-16 同济大学 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN111325111A (zh) * 2020-01-23 2020-06-23 同济大学 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN111414815B (zh) * 2020-03-04 2023-11-14 清华大学深圳国际研究生院 行人重识别网络搜索方法及行人重识别方法
CN111539370B (zh) * 2020-04-30 2022-03-15 华中科技大学 一种基于多注意力联合学习的图像行人重识别方法和系统
CN111639564B (zh) * 2020-05-18 2022-05-27 华中科技大学 一种基于多注意力异构网络的视频行人重识别方法
CN111860186B (zh) * 2020-06-23 2022-04-12 华北电力大学(保定) 一种基于多注意力机制的人脸属性编辑网络
CN111898736B (zh) * 2020-07-23 2022-07-05 武汉大学 基于属性感知的高效行人重识别方法
CN111860678B (zh) * 2020-07-29 2024-02-27 中国矿业大学 一种基于聚类的无监督跨域行人重识别方法
CN112307886A (zh) * 2020-08-25 2021-02-02 北京京东尚科信息技术有限公司 行人重识别方法和装置
CN112163498B (zh) * 2020-09-23 2022-05-27 华中科技大学 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN112232300B (zh) * 2020-11-11 2024-01-19 汇纳科技股份有限公司 全局遮挡自适应的行人训练/识别方法、系统、设备及介质
CN112541409B (zh) * 2020-11-30 2021-09-14 北京建筑大学 一种融入注意力的残差网络表情识别方法
CN112330696B (zh) * 2020-12-02 2022-08-09 青岛大学 人脸分割方法、装置及计算机可读存储介质
CN112712117B (zh) * 2020-12-30 2024-03-26 银江技术股份有限公司 一种基于全卷积注意力的多元时间序列分类方法及系统
CN112818931A (zh) * 2021-02-26 2021-05-18 中国矿业大学 基于多粒度深度特征融合的多尺度行人重识别方法
CN112560831B (zh) * 2021-03-01 2021-05-04 四川大学 一种基于多尺度空间校正的行人属性识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN112016489A (zh) * 2020-09-02 2020-12-01 重庆邮电大学 一种保留全局信息并增强局部特征的行人再识别方法

Also Published As

Publication number Publication date
JP2022174707A (ja) 2022-11-24
CN113239784A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN113239784B (zh) 一种基于空间序列特征学习的行人重识别系统及方法
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN114005096B (zh) 基于特征增强的车辆重识别方法
Xiao et al. Enhancing multiscale representations with transformer for remote sensing image semantic segmentation
CN105069434B (zh) 一种视频中人体动作行为识别方法
CN109635744A (zh) 一种基于深度分割网络的车道线检测方法
CN108629288A (zh) 一种手势识别模型训练方法、手势识别方法及系统
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN113505719B (zh) 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法
CN114782977B (zh) 一种基于拓扑信息和亲和度信息引导行人重识别方法
CN111814705B (zh) 一种基于批次分块遮挡网络的行人再辨识方法
CN114299542A (zh) 一种基于多尺度特征融合的视频行人重识别方法
CN113763417B (zh) 一种基于孪生网络和残差结构的目标跟踪方法
CN109165698A (zh) 一种面向智慧交通的图像分类识别方法及其存储介质
CN114241564A (zh) 一种基于类间差异强化网络的人脸表情识别方法
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
CN114429646A (zh) 基于深度自注意力变换网络的步态识别方法
CN117671666A (zh) 一种基于自适应图卷积神经网络的目标识别方法
CN117710888A (zh) 一种遮挡行人再识别方法及系统
CN110020688B (zh) 基于深度学习的遮挡行人检测方法
CN112668652A (zh) 无人装备对抗中集群阵型和运动趋势的识别方法及系统
CN115100107B (zh) 一种皮肤镜图像分割方法及系统
CN116246305A (zh) 一种基于混合部件变换网络的行人检索方法
CN116311345A (zh) 一种基于Transformer的遮挡行人重识别方法
CN108875552A (zh) 基于约减字典低秩表示的异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant