CN116403237A - 一种基于关联信息与注意力机制的遮挡行人重识别方法 - Google Patents

一种基于关联信息与注意力机制的遮挡行人重识别方法 Download PDF

Info

Publication number
CN116403237A
CN116403237A CN202310205016.5A CN202310205016A CN116403237A CN 116403237 A CN116403237 A CN 116403237A CN 202310205016 A CN202310205016 A CN 202310205016A CN 116403237 A CN116403237 A CN 116403237A
Authority
CN
China
Prior art keywords
attention
layer
channel
pedestrian
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310205016.5A
Other languages
English (en)
Inventor
周书仁
资帅
张萍萍
雷南方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202310205016.5A priority Critical patent/CN116403237A/zh
Publication of CN116403237A publication Critical patent/CN116403237A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于关联信息与注意力机制的遮挡行人重识别方法,结合关联信息与注意力机制设计了一种用于遮挡行人重识别的网络模型,通过对图像通道间的关系进行建模,获取通道间关联信息,再结合通道注意力与空间注意力,使模型关注非遮挡的区域获取显著性的特征。最后结合三元组损失与交叉熵损失优化模型,提升模型准确度。同时,本发明用实验验证了该模型在遮挡行人重识别上的效果,与多种他人所提方法相比,该模型实现了最好的效果,有效的利用了关联信息与注意力机制获取了更具鲁棒性与关联性的特征,解决了遮挡行人重识别准确率不高的问题,为遮挡行人重识别在实际的落地应用中提供了一种更具优势的框架。

Description

一种基于关联信息与注意力机制的遮挡行人重识别方法
本发明涉及计算机视觉技术领域,尤其是一种基于关联信息与注意力机制的遮挡行人重识别方法。
背景技术
行人重识别是计算机视觉方向的一个重要领域,行人重识别即跨摄像头识别图片或者视频中行人是否为同一人。随着科技的发展,监控摄像头数量不断开始增加,人们对于公共安全的需求也不断增加,行人重识别在智能安防,智能商业等方面发挥着极大的作用,具有不可忽视的研究意义与现实意义。然而由于现实条件下摄像头拍摄的图片或者视频中行人经常被遮挡,易导致行人重识别的准确率下降。为了解决遮挡这一问题对行人重识别造成的影响,本发明通过获取通道间关联信息结合注意力机制提取鲁棒性特征。
在深度学习领域,研究者通常在空间维度上对网络进行改进从而获取更具鲁棒性的特征。本发明不是在空间维度改进,而是在在通道上进行改进,发掘通道间的关联信息,通过设计关联信息获取模块对通道之间的关系进行建模,获取通道之间的关联信息。并且通过深度学习网络自动学习通道间的关联信息,赋予重点信息更高的权重,提取更具显著性的特征。
注意力机制起源于对人类视觉的研究,现如今,计算机也能实现注意力机制,一种常用的方法就是对图像的重点关注部分赋予较高的权重,使得计算机提取该重点区域的特征。注意力机制极大的提升了大部分计算机视觉任务的性能水平。注意力机制一般分为通道注意力、空间注意力、时间注意力、分支注意力等等。本发明使用通道注意力与空间注意力结合的混合注意力机制使得模型更加关注行人未被遮挡的区域,提取更具显著性的特征。
发明内容
针对上述现有技术的不足,本发明提供了一种基于关联信息与注意力机制的遮挡行人重识别方法。其目的在于解决由于遮挡问题所导致的行人特征提取鲁棒性与显著性较弱的问题。
为了实现上述目的,本发明提供了一种基于关联信息与注意力机制的遮挡行人重识别方法,包括以下步骤;
S1、构建网络框架,该网络的主干网络由Vision Transformer组成,主要分为关联信息获取模块与注意力机制两部分;
S2、给定行人图像X作为输入,经过关联信息获取模块获得通道关联性特征;
S3、给定行人图像X作为输入,经过通道注意力模块与空间注意力模块获取注意力特征;
S4、融合步骤S2的得到的关联性特征与步骤S3得到的注意力特征形成具有关联性与显著性的特征,称之为融合特征,使用Vision Transformer网络架构用于加强特征间的相互关联性,并将融合特征作为输入送入投影层与多层深度自注意力网络层;
S5、最后依据步骤S4输出的特征计算交叉熵损失与三元组损失,取两种损失之和作为总损失,并据总损失持续优化迭代模型。
本发明提供了一种基于关联信息与注意力机制的遮挡行人重识别方法。与现有技术相比,具备以下有益效果:
本发明对遮挡导致提取的行人特征具有噪声以及显著性较差这一问题进行研究,不仅利用关联信息模块获取图片内各通道之间的关联信息,而且利用通道注意力与空间注意力使得模型更加关注于行人未被遮挡的部分,在行人被遮挡的情况下提取更具鲁棒性与显著性的特征,从而有效解决遮挡导致提取的行人特征具有噪声以及显著性较差这一问题,进一步提升了遮挡行人重识别的识别准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明专利中一种基于关联信息与注意力机制的遮挡行人重识别方法总的网络结构图。
图2是本发明专利中关联信息获取模块的结构图。
图3是本发明专利中通道注意力模块的结构图。
图4是本发明专利中空间注意力模块的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
下面结合说明书附图以及具体的实施方式对本发明作详细说明。一种基于关联信息与注意力机制的遮挡行人重识别方法包含步骤S1~S5:
S1、构建网络框架,该网络的主干网络由Vision Transformer组成,主要分为关联信息获取模块与注意力机制两部分;
S2、给定行人图像X作为输入,经过关联信息获取模块获得通道关联性特征;
S3、给定行人图像X作为输入,经过通道注意力模块与空间注意力模块获取注意力特征;
S4、融合步骤S2的得到的关联性特征与步骤S3得到的注意力特征形成具有关联性与显著性的特征,称之为融合特征,使用Vision Transformer网络架构用于加强特征间的相互关联性,并将融合特征作为输入送入投影层与多层深度自注意力网络层;
S5、最后依据步骤S4输出的特征计算交叉熵损失与三元组损失,取两种损失之和作为总损失,并据总损失持续优化迭代模型。
下面对各个步骤进行详细描述。
在步骤S1中,构建网络架构,如图1所示,该网络主要由关联信息获取模块与注意力机制两部分组成。其步骤具体为:
S101、构建一个基于Vision Transformer的框架,主要由关联信息模块与注意力机制两个分支组成。
S102、将行人图像进行预处理,并将其转换为数字信息。
在步骤S2中,给定行人图像X作为输入。如图2所示,经过关联信息获取模块获得通道关联性特征。其步骤具体为:
S201、关联信息获取模块的特征提取使用了多层的卷积神经网络,主要包括全局平均池化层与全连接层。首先图片经过全局平均池化层压缩,随后再重塑得到一个通道描述符Dc
Dc(X)=View(Avgpool(X)) (1)
其中X表示行人图像,
Figure SMS_1
B表示一次输入的图片数量,C表示图片的通道数,H表示图片的高度,W表示图片的宽度。Avgpool代表一个全局平均池化层,View表示将通道描述符重塑为B×C的二维特征,经过全局平均池化以及重塑后的通道描述符
Figure SMS_2
S202、将通道描述符送入两个全连接层以构建通道间关联信息,得到通道相关性权重Y:
Y(Dc)=View(σ(FC2(ReLU(FC1(Dc))))) (2)
其中FC1表示输入通道为C且输出通道为C/3的全连接层,FC2表示输入通道为C/3且输出通道为C的全连接层,ReLU表示ReLU激活函数,σ表示Sigmoid激活函数,View函数的作用是将通道相关性权重
Figure SMS_3
重塑为/>
Figure SMS_4
S203、将通道相关性权重Y扩展后,以便于与原始图片相乘,输出通道关联性特征Tc
Figure SMS_5
其中Expand函数表示将Y扩展至与X相同维度,*表示两矩阵各对应元素相乘。
在步骤S3中,需要给定行人图像X作为输入,经过通道注意力模块与空间注意力模块获取注意力特征。
S301、首先,经过通道注意力模块的得到通道注意力特征Tchanel,如图3所示,通道注意力模块包括平均池化层,最大池化层以及多层感知机等,首先将行人图片通过平均池化层再通过多层感知机得到TA,同时通过最大池化层再通过多层感知机得到TM,随后将得到的TA与TM相加,之后通过激活函数再乘行人图片X得到通道注意力特征Tchanel
Figure SMS_6
其中MLP(Multilayer Perceptron)表示多层感知机,Avgpool表示平均池化,Maxpool表示最大池化,σ表示Sigmoid激活函数,
Figure SMS_7
S302、其次,将S301得到的通道注意力特征送入空间注意力模块得到通道空间混合注意力Tcas,如图4所示,空间注意力模块包括平均池化层、最大池化层以及卷积层等,首先将行人图片通过平均池化层与最大池化层,将得到的特征连接起来后送入一个卷积核为7的卷积层,随后经过Sigmoid激活函数,再与行人图像X相乘得到通道空间混合注意力特征Tcas
Figure SMS_8
其中,
Figure SMS_9
表示拼接操作,作用是将两个矩阵连接起来,*、σ、Maxpool以及Avgpool与上文相同,不再赘述,Conv表示卷积层,/>
Figure SMS_10
在步骤S4中,融合步骤S2的得到的关联性特征与步骤S3得到的注意力特征形成具有关联性与显著性的特征,称之为融合特征,使用Vision Transformer网络架构用于加强特征间的相互关联性,并将融合特征作为输入送入投影层与多层深度自注意力网络层。
S401、将步骤S2获取的通道关联性特征Tc再加上步骤S3获取的通道空间混合注意力特征Tcas得到融合特征Tfuse
Tfuse=Tc+Tcas (6)
其中Tfuse表示融合了与关联信息与注意力机制的融合特征,
Figure SMS_11
S402、将融合特征Tfuse送入自注意力层得到特征映射,再经过投影层投影获得第一层深度自注意力网络的输出
Figure SMS_12
Figure SMS_13
其中,Attention表示自注意力模块,用于发掘融合特征之间的关联信息,Projection表示投影模块,用于将特征重塑为Vision Trasnformer需要的输入维度。
S403、随后将步骤S402得到的输出送入Vision Transformer的L层深度自注意力网络层得到具有鲁棒性与显著性的最终特征
Figure SMS_14
Figure SMS_15
其中,
Figure SMS_16
表示第一层深度自注意力网络的输出,/>
Figure SMS_17
Figure SMS_18
表示上一层深度自注意力网络的输出,LN表示LayerNomal层,用于保留不同特征之间的大小关系以及特征之间的时序关系,MSA(Multi-head Self-Attention)表示多头自注意力,用于获取特征之间的上下文信息。
S5、其具体步骤为:根据输出的特征计算交叉熵损失以及三元组损失,并根据损失持续优化模型
S501、该网络结构模型的损失函数包括交叉熵损失以及三元组损失。交叉熵损失是一种常用的机器学习损失函数,对于一个批次(batch)的n类行人图片,用于行人分类的交叉熵函数LCrossEntropy定义如下:
Figure SMS_19
其中,batch表示一次输入多少张行人图片,n表示有多少位(类)行人,log表示数学上的取对数操作,yji表示是该批次该行人的真实概率,y′ji表示是该批次该行人的预测概率。总的来说,交叉熵损失函数的作用是使模型获得的预测值与真实值无限的趋近,能够评估模型的准确性,迭代多次之后使预测更加的准确且更加接近真实值。
除交叉熵损失函数之外,还使用了三元组损失函数,用于训练集中的三元组,即三个实体或实体对计算损失,以改进机器学习模型的准确性。它主要用于推理和关系建模的任务,其中需要预测三元组之间的关系。三元组损失函数可以帮助模型训练,从而提高模型的准确性。三元组损失Ltriplet其定义如下:
Figure SMS_20
其中,
Figure SMS_21
表示样本的特征表达,/>
Figure SMS_22
表示正样本的特征表达,/>
Figure SMS_23
表示负样本的特征表达,/>
Figure SMS_24
表示负样本对(样本与负样本)的欧式距离,即目标图像与最不相似的图像这一样本对的距离,/>
Figure SMS_25
表示正样本对(样本与负样本)的距离。即目标图像与最相似的图像这一样本对的距离。λ是一个必须的参数,表示负样本对与正样本对之间的距离要有一个最小的间隔。
最终模型总损失为部分三元组损失与交叉熵损失之和:
Loss=LCrossEntropy+αLtriplet (11)
其中,α表示一个参数。
S502、机器学习中的网络模型损失优化是一种用于调整模型参数以最小化损失函数的方法。是一个通过减少损失不断优化迭代的过程,它有助于模型更有效地拟合数据,以获得更好的预测结果。具体过程是在训练一轮后,将这一轮获得的损失反馈至模型之中,随后进行下一轮的训练,在进行多次反复迭代之后达到降低损失的效果,使得预测结果越来越接近真实值,即行人重识别效果越来越好。
为了验证本发明方法的有效性,实验在Market1501这个常用于行人识别的数据集与DukeMTMC这个常用于遮挡行人重识别的数据集上进行。
(1)Market1501数据集是由清华大学校园内的六个不同摄像头采集总计1501人的32668张的图像。该数据集使用DPM和手动注释对行人图片进行标注。有两种评价模式:单人查询和多人查询。单人查询是指用一张行人图片进行查询,本发明使用单人查询进行实验。
(2)DukeMTMC数据集是由杜克大学的八个不同摄像头采集总计1812人的36411张图像。与Market1501不同的是,该数据集行人标记采用手动标记的方法。该数据集对于行人重识别来说是一个具有挑战性的数据集,因为该数据集不仅在不同行人之间存在高度的相似性,而且即使是同一行人的不同图片也存在较大的差异。
本发明进行实验所使用的操作系统为Ubuntu 20.04.1LTS,使用两张显存为12G的GPU(型号为GeForce GTX TITAN X)。此外,实现一种基于关联信息与注意力机制的遮挡行人重识别方法采用的开源深度学习框架是Pytorch。
本发明对公式(11)中α进行实验,将其设置为0.6-1.4之间,经过了一系列实验,最终发现在α=1.0时效果最好。
表1总损失α参数设置对行人重识别效果的影响
α的值 mAP(%) Rank-1(%)
0.6 86.57 93.82
0.7 87.01 94.66
0.8 86.93 94.15
0.9 87.09 94.21
1.0 87.57 94.80
1.1 87.26 94.60
1.2 87.25 94.66
1.3 87.38 94.69
1.4 87.49 94.54
α参数设置的实验结果如表1所示,该实验在行人重识别通用数据集Market1501上进行,mAP是平均准确度均值,Rank-1是第一命中率,表示模型返回排序图片列表中第一个结果正确匹配的概率,两者都是行人重识别的评价指标(越高越好)。在α设置为1.0时,评价指标mAP与Rank-1皆比将α设置为其他值要高,故本发明将α参数设置为1.0。
本发明方法与一些主流的行人重识别方法进行了性能比较:CBN+Bot、DG-Net、IS-GAN、CAP、SPReID、SGGNN、GPS、APDR、SONA2+3、P2-Net、ISP。为了对比本发明方法与其它基于深度学习的行人重识别方法的检索性能,本发明采用了平均准确度均值(mAP)、第一命中率(Rank-1)、第五命中率(Rank-5)与第十命中率(Rank-10)来作为评估标准,在Market1501上的实验效果表现如表2所示:
表2本发明方法与其他方法在数据集Market1501上实验效果比较
方法 mAP(%) Rank-1(%) Rank-5(%) Rank-10(%)
CBN+Bot 83.6 94.3 97.9 98.7
DG-Net 86.7 90.9 - -
IS-GAN 87.1 95.2 - -
CAP 85.1 93.3 97.5 98.4
SPReID 81.3 92.5 97.2 81.3
SGGNN 82.8 92.3 96.1 97.4
Ours 87.31 94.77 98.28 98.87
本发明在DukeMTMC上的实验效果表现如表3所示:
表3本方法与其他方法在数据集DukeMTMC上实验效果比较
方法 mAP(%) Rank-1(%) Rank-5(%) Rank-10(%)
CAP 67.3 81.1 89.3 91.8
GPS 78.7 88.2 95.2 96.7
APDR 69.7 84.3 92.4 94.7
SONA2+3 78.3 89.4 95.4 96.6
P2-Net 73.1 86.5 931 95.0
ISP 80.0 89.6 95.5 -
Ours 80.09 89.77 95.83 97.4
表中加粗的结果表示在一众行人重识别方法中表现最好的结果,从表2可以看出,在Market1501数据集上本发明方法的效果达到了较好的水平,四个评价指标中有三个(mAP,Rank-5,Rank-10)都是第一。
从表3可见,本发明方法在DukeMTMC数据集上本发明的效果达到了极好的水平,DukeMTMC数据集是常用于遮挡行人重识别的数据集,在此数据集上实验,本发明的四个评估指标与其他行人重识别方法相比都达到了最好的效果。
显然,本方法与其他方法相比具有较大优势,不论是在行人重识别数据集上还是遮挡行人重识别数据集上,都具有不俗的表现。
本发明方法利用关联信息与注意力机制解决遮挡下的行人重识别问题,并通过实验验证了其较好的效果,得到的实验结果相比其它行人重识别的深度学习方法都要更好。
本发明还提出一种计算机设备,包括存储器和处理器,所述存储器有存储计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (6)

1.一种基于关联信息与注意力机制的遮挡行人重识别方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、构建网络框架,该网络的主干网络由Vision Transformer组成,主要分为关联信息获取模块与注意力机制两部分;
S2、给定行人图像X作为输入,经过关联信息获取模块获得通道关联性特征;
S3、给定行人图像X作为输入,经过通道注意力模块与空间注意力模块获取注意力特征;
S4、融合步骤S2的得到的关联性特征与步骤S3得到的注意力特征形成具有关联性与显著性的特征,称之为融合特征,使用Vision Transformer网络架构用于加强特征间的相互关联性,并将融合特征作为输入送入投影层与多层深度自注意力网络层;
S5、最后依据步骤S4输出的特征计算交叉熵损失与三元组损失,取两种损失之和作为总损失,并据总损失持续优化迭代模型。
2.如权利要求1所述的基于关联信息与注意力机制的遮挡行人重识别方法,其特征在于,S1的具体实现过程如下:
S101、构建一个基于Vision Transformer的框架,主要由关联信息模块与注意力机制两个分支组成;
S102、将行人图像进行预处理,并将其转换为数字信息。
3.如权利要求1所述的基于关联信息与注意力机制的遮挡行人重识别方法,其特征在于,S2的具体实现过程如下:
S201、关联信息获取模块的特征提取使用了多层的卷积神经网络,主要包括全局平均池化层与全连接层,首先图片经过全局平均池化层压缩,随后再重塑得到一个通道描述符Dc
Dc(X)=View(Avgpool(X)) (1)
其中X表示行人图像,
Figure FDA0004110515610000021
B表示一次输入的图片数量,C表示图片的通道数,H表示图片的高度,W表示图片的宽度,Avgpool代表一个全局平均池化层,View表示将通道描述符重塑为B×C的二维特征,经过全局平均池化以及重塑后的通道描述符/>
Figure FDA0004110515610000022
S202、将通道描述符送入两个全连接层以构建通道间关联信息,得到通道相关性权重Y:
Y(Dc)=View(σ(FC2(ReLU(FC1(Dc))))) (2)
其中FC1表示输入通道为C且输出通道为C/3的全连接层,FC2表示输入通道为C/3且输出通道为C的全连接层,ReLU表示ReLU激活函数,σ表示Sigmoid激活函数,View函数的作用是将通道相关性权重
Figure FDA0004110515610000023
重塑为/>
Figure FDA0004110515610000024
S203、将通道相关性权重Y扩展后,以便于与原始图片相乘,输出通道关联性特征Tc
Figure FDA0004110515610000025
其中Expand函数表示将Y扩展至与X相同维度,*表示两矩阵各对应元素相乘。
4.如权利要求1所述的基于关联信息与注意力机制的遮挡行人重识别方法,其特征在于,S3的具体实现过程如下:
S301、首先,经过通道注意力模块的得到通道注意力特征Tchanel,通道注意力模块包括平均池化层,最大池化层以及多层感知机等,首先将行人图片通过平均池化层再通过多层感知机得到TA,同时通过最大池化层再通过多层感知机得到TM,随后将得到的TA与TM相加,之后通过激活函数再乘行人图片X得到通道注意力特征Tchanel
Tchanel(X)=X*σ(TA+TM)
=X*σ(MLP(Avgpool(X))+MLP(Maxpool(X))) (4)
其中MLP(Multilayer Perceptron)表示多层感知机,Avgpool表示平均池化,Maxpool表示最大池化,σ表示Sigmoid激活函数,
Figure FDA0004110515610000031
S302、其次,将S301得到的通道注意力特征送入空间注意力模块得到通道空间混合注意力Tcas,空间注意力模块包括平均池化层、最大池化层以及卷积层等,首先将行人图片通过平均池化层与最大池化层,将得到的特征连接起来后送入一个卷积核为7的卷积层,随后经过Sigmoid激活函数,再与行人图像X相乘得到通道空间混合注意力特征Tcas
Tcas(Tchanel)=X*σ(Conv(Maxpool(Tchanel)⊕Avgpool(Tchanel))) (5)
其中,⊕表示拼接操作,作用是将两个矩阵连接起来,*、σ、Maxpool以及Avgpool与上文相同,不再赘述,Conv表示卷积层,
Figure FDA0004110515610000032
5.如权利要求1所述的基于关联信息与注意力机制的遮挡行人重识别方法,其特征在于,S4的具体实现过程如下:
S401、将步骤S2获取的通道关联性特征Tc再加上步骤S3获取的通道空间混合注意力特征Tcas得到融合特征Tfuse
Tfuse=Tc+Tcas (6)
其中Tfuse表示融合了与关联信息与注意力机制的融合特征,
Figure FDA0004110515610000041
S402、将融合特征Tfuse送入自注意力层得到特征映射,再经过投影层投影获得第一层深度自注意力网络的输出
Figure FDA0004110515610000042
Figure FDA0004110515610000043
其中,Attention表示自注意力模块,用于发掘融合特征之间的关联信息,Projection表示投影模块,用于将特征重塑为Vision Trasnformer需要的输入维度;
S403、随后将步骤S402得到的输出送入Vision Transformer的L层深度自注意力网络层得到具有鲁棒性与显著性的最终特征
Figure FDA0004110515610000044
Figure FDA0004110515610000045
其中,
Figure FDA0004110515610000046
表示第一层深度自注意力网络的输出,/>
Figure FDA0004110515610000047
Figure FDA0004110515610000048
表示上一层深度自注意力网络的输出,LN表示LayerNomal层,用于保留不同特征之间的大小关系以及特征之间的时序关系,MSA(Multi-head Self-Attention)表示多头自注意力,用于获取特征之间的上下文信息。
6.如权利要求1所述的基于关联信息与注意力机制的遮挡行人重识别方法,其特征在于,S5的具体实现过程如下:
S501、该网络结构模型的损失函数包括交叉熵损失以及三元组损失,交叉熵损失是一种常用的机器学习损失函数,对于一个批次(batch)的n类行人图片,用于行人分类的交叉熵函数LCrossEntropy定义如下:
Figure FDA0004110515610000051
其中,batch表示一次输入多少张行人图片,n表示有多少位(类)行人,log表示数学上的取对数操作,yji表示是该批次该行人的真实概率,y′ji表示是该批次该行人的预测概率,除交叉熵损失函数之外,还使用了三元组损失函数,用于训练集中的三元组,即三个实体或实体对计算损失,以改进机器学习模型的准确性,三元组损失主要用于推理和关系建模的任务,三元组损失函数可以帮助模型训练,从而提高模型的准确性,三元组损失Ltriplet其定义如下:
Figure FDA0004110515610000052
其中,
Figure FDA0004110515610000053
表示样本的特征表达,/>
Figure FDA0004110515610000054
表示正样本的特征表达,/>
Figure FDA0004110515610000055
表示负样本的特征表达,/>
Figure FDA0004110515610000056
表示负样本对(样本与负样本)的欧式距离,即目标图像与最不相似的图像这一样本对的距离,/>
Figure FDA0004110515610000057
表示正样本对(样本与负样本)的距离,即目标图像与最相似的图像这一样本对的距离,λ是一个必须的参数,表示负样本对与正样本对之间的距离要有一个最小的间隔,最终模型总损失为部分三元组损失与交叉熵损失之和:
Loss=LCrossEntropy+αLtriplet (11)
其中,α表示一个参数;
S502、机器学习中的网络模型损失优化是一种用于调整模型参数以最小化损失函数的方法,是一个通过减少损失不断优化迭代的过程,它有助于模型更有效地拟合数据,以获得更好的预测结果,具体过程是在训练一轮后,将这一轮获得的损失反馈至模型之中,随后进行下一轮的训练,在进行多次反复迭代之后达到降低损失的效果,使得预测结果越来越接近真实值,即行人重识别效果越来越好。
CN202310205016.5A 2023-03-06 2023-03-06 一种基于关联信息与注意力机制的遮挡行人重识别方法 Pending CN116403237A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310205016.5A CN116403237A (zh) 2023-03-06 2023-03-06 一种基于关联信息与注意力机制的遮挡行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310205016.5A CN116403237A (zh) 2023-03-06 2023-03-06 一种基于关联信息与注意力机制的遮挡行人重识别方法

Publications (1)

Publication Number Publication Date
CN116403237A true CN116403237A (zh) 2023-07-07

Family

ID=87009301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310205016.5A Pending CN116403237A (zh) 2023-03-06 2023-03-06 一种基于关联信息与注意力机制的遮挡行人重识别方法

Country Status (1)

Country Link
CN (1) CN116403237A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912632A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 基于遮挡的目标追踪方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912632A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 基于遮挡的目标追踪方法及装置
CN116912632B (zh) * 2023-09-12 2024-04-12 深圳须弥云图空间科技有限公司 基于遮挡的目标追踪方法及装置

Similar Documents

Publication Publication Date Title
CN108960141B (zh) 基于增强型深度卷积神经网络的行人再识别方法
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN111325165B (zh) 考虑空间关系信息的城市遥感影像场景分类方法
EP4099220A1 (en) Processing apparatus, method and storage medium
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN110516536A (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN112949673A (zh) 一种基于全局注意力的特征融合目标检测与识别方法
CN111488805B (zh) 一种基于显著性特征提取的视频行为识别方法
Wang et al. Aspect-ratio-preserving multi-patch image aesthetics score prediction
CN106780639A (zh) 基于显著性特征稀疏嵌入和极限学习机的哈希编码方法
CN111368850A (zh) 图像的特征提取、目标检测方法及装置、卷积装置、cnn网络装置、终端
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN111639230B (zh) 一种相似视频的筛选方法、装置、设备和存储介质
CN116403237A (zh) 一种基于关联信息与注意力机制的遮挡行人重识别方法
CN111898614B (zh) 神经网络系统以及图像信号、数据处理的方法
CN117542045B (zh) 一种基于空间引导自注意力的食品识别方法及系统
Zhang et al. Visual Object Tracking via Cascaded RPN Fusion and Coordinate Attention.
Xiang et al. Double-branch fusion network with a parallel attention selection mechanism for camouflaged object detection
CN113837230A (zh) 基于自适应注意力机制的图像描述生成方法
CN116597267B (zh) 图像识别方法、装置、计算机设备和存储介质
CN117292324A (zh) 一种人群密度估计方法及系统
CN117011655A (zh) 基于自适应区域选择特征融合方法、目标跟踪方法及系统
Li et al. Optimized Deep Learning Model for Fire Semantic Segmentation.
CN112487927B (zh) 一种基于物体关联注意力的室内场景识别实现方法及系统
CN115273202A (zh) 一种人脸比对方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination