CN113920470B - 一种基于自注意力机制的行人检索方法 - Google Patents

一种基于自注意力机制的行人检索方法 Download PDF

Info

Publication number
CN113920470B
CN113920470B CN202111185768.7A CN202111185768A CN113920470B CN 113920470 B CN113920470 B CN 113920470B CN 202111185768 A CN202111185768 A CN 202111185768A CN 113920470 B CN113920470 B CN 113920470B
Authority
CN
China
Prior art keywords
pedestrian
self
feature
attention mechanism
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111185768.7A
Other languages
English (en)
Other versions
CN113920470A (zh
Inventor
韩岑
刘晶晶
刘凯
肖德岐
苏京勋
朱伟
朱华巍
郭星华
王海青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN202111185768.7A priority Critical patent/CN113920470B/zh
Publication of CN113920470A publication Critical patent/CN113920470A/zh
Application granted granted Critical
Publication of CN113920470B publication Critical patent/CN113920470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于自注意力机制的行人检索方法,针对输入的行人图片集,该方法先利用Faster R‑CNN检测行人框,并提取卷积特征图以及计算损失;基于自注意力的行人特征精细化,在对行人卷积特征图进行水平分割后,针对每个分割区域提取行人关键点,计算空间自注意力和通道自注意力,基于这两种自注意力对卷积特征图进行优化调整,计算分割块损失函数;基于随机标签平滑策略的行人特征差异化,在利用L‑Softmax函数生成分类置信度向量的基础上,通过降采样进行随机标签选择,并计算随机标签平滑损失;网络训练,以上述三种损失函数之和最小化为目标训练网络中的参数,生成更具区分性的行人特征,使得最终产生的行人检索结果更精确。

Description

一种基于自注意力机制的行人检索方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于自注意力机制的行人检索方法。
背景技术
随着社会的逐渐发展,人们的安保意识不断提高,现代高科技手段在维护社会、军事等领域安全扮演着越来越重要的作用,如在城市交通道路、商业中心、军事区域等重要位置部署摄像头进行场景监控。在智慧城市建设、军事区域防护等应用背景下,如何有效利用图像或视频分析技术进行监控视频信息挖掘越来越受到关注,如在监控场景中寻找犯罪嫌疑人、人员行迹追踪等。其中,行人检索旨在根据查询目标行人,在给定图片集或视频中找出同一行人,即只需给出查询目标行人图片和待匹配监控视频(或图片集),就能有效找出海量视频中的目标人物,实用价值非常明显。
最初,行人检索是以按照行人重识别开展研究的,如在1.Ma B P,Su Y,JurieF.Local descriptors encoded by Fisher vectors for person re-identification[C]//Proceedings of the 12th European Conference on ComputerVision.Heidelberg:Springer,2012:413-422.2.Farenzena M,Bazzani L,Perina A,etal.Person re-identification by symmetry-driven accumulation of local features[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.Los Alamitos:IEEE Computer Society Press,2010:2360-2367中所提出的,虽然在相关数据集上取得了较高的结果,但它们必须使用经过裁剪处理后的行人图片,这与真实的行人检索应用场景不一致。Wang等人通过行人检测和行人重识别两个独立子任务来实现行人检索。如在3.一种基于区域匹配网络的行人检索方法,申请号:CN01910999236.3;4.一种基于部件权重生成网络的行人检索方法,申请号:CN2020102114996中所提出的,即通过行人检测算法提取输入图片中的所有行人,并额外训练一个模型或网络专门用于行人重识别。虽然此方法能够直接以原始图片作为输入,但是两个子任务各自使用独立的模型,即非端到端学习,造成计算资源的浪费。为了解决此类问题,Xiao等人首次将行人检测与重识别一体化的端到端方法,如4.Xiao T,Li S,Wang B C,et al.End-to-end deep learning for person search[OL].[2017-12-31].http://www.ee.cuhk.edu.hk/~xgwang/PS/paper.pdf;以及5.Xiao T,Li S,Wang B C,etal.Joint detection and identification feature learning for person search[C]//Proceedings of the 30th IEEE Conference on Computer Vision and PatternRecognition.Los Alamitos:IEEE Computer Society Press,2017:3376-3385中所提出的,利用Faster R-CNN算法,如6.S.Ren,K.He,R.Girshick,and J.Sun,“Faster r-cnn:Towards realtime object detection with region proposal networks,”in Advancesin neural information processing systems,2015,pp.91–99中所提出的、随机采样损失函数(random sampling softmax,RSS)和在线匹配损失函数(online instance matching,OIM),实现了端到端的学习。
但是,上述现有的行人检索方法仍存在一些不足:首先,现有方法在提取行人特征时忽略了行人姿态的影响,可能因行人关键部位不对齐导致匹配程度低的问题,影响行人检索结果的准确性;其次,目前大多数的现有方法只使用分类损失进行网络参数训练,而行人检索属于检索任务,故需要生成更大的分类超平面区分不同个体。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于自注意力机制的行人检索方法,用于在真实监控场景下完成行人检索。
实现本发明的技术方案为:一种基于自注意力机制的行人检索方法,包括以下步骤:
步骤1,以包含行人的监控视频图像作为输入,通过卷积神经网络检测所述监控视频图像中的所有行人,得到行人检测框和每个所述行人对应的卷积特征图,并计算行人检索任务中的子任务,即计算行人检测损失;
步骤2,根据所述卷积特征图,通过基于自注意力机制的行人特征精细化模块,将所述卷积特征图水平分割,在获得的每一个分割块中提取行人关键点,并将所述行人关键点所对应的区域转化为空间自注意力,结合通道自注意力,在所述每一个分割块上,得到行人辨识度更加突出的特征向量,针对所述每一个分割块计算空间自注意力损失;具体的,本发明中,所述更加突出的特征向量指的是相较于仅使用卷积特征图所得到的特征向量。通过所述步骤2,能够保证每个分割块都能提取出更加精细的特征。
步骤3,以所述卷积特征图作为输入,生成分类置信度向量,进行随机标签选择,根据随机选择后的标签进行标签平滑,计算随机标签平滑损失;
步骤4,对所述步骤1至步骤3计算获得的所有损失函数求和,将求和结果作为基于自注意力机制的行人检索框架的总损失,以最小化所述总损失为目标,更新所述基于自注意力机制的行人检索框架中的所有参数;
步骤5,基于所述自注意力机制的行人检索框架,在确定目标行人图片后,以待检索的监控视频图像作为输入,判断所述待检索的监控视频图像中是否存在目标行人,若存在则输出行人检索结果,即通过所述行人检测框标记出目标行人在待检索的监控视频画面中的位置。
进一步地,在一种实现方式中,所述步骤1,包括:
针对输入的行人图像集,即所述包含行人的监控视频图像,采用Faster R-CNN算法检测所述监控视频图像中的所有行人,得到所述行人检测框、整张所述监控视频图像的卷积特征图以及每个行人对应的卷积特征图,所述每个行人对应的卷积特征图即:
Fi∈RW*H*C,i=1…n
其中,Fi表示每个行人对应的卷积特征图,i表示行人序号,R表示行人卷积特征图集,W,H,C分别代表每个行人对应的卷积特征图的宽度、高度和通道数,n表示检测到的监控视频图像中的行人个数;
以Faster R-CNN算法中描述的Softmax损失函数和Smooth L1损失函数计算行人检索任务中的子任务,即计算所述行人检测损失。
进一步地,在一种实现方式中,所述步骤2,包括:
步骤2-1,得到所述每个行人对应的卷积特征图Fi∈RW*H*C后,通过水平分割的方式将所述每个行人对应的卷积特征图分成N块,其中1<N<H;分割后的卷积特征块的尺寸为
Figure BDA0003299143590000031
所述分割后的卷积特征块即分割块;
步骤2-2,所述基于自注意力机制的行人特征精细化模块包括通过基于行人关键点的空间自注意力机制:
针对所述分割后的卷积特征块,使用弱监督学习的方式提取K个行人关键点,并使用一个卷积层将输入的所述分割后的卷积特征块Fij转化为
Figure BDA0003299143590000032
i表示行人序号,j=1…N;
提取每一个通道中的最大值进行降采样,获得空间自注意力
Figure BDA0003299143590000033
所述空间自注意力S所有像素点的和在[1,K)区间中;
在所述基于自注意力机制的行人特征精细化模块的训练阶段,通过如下损失函数进行约束:
Figure BDA0003299143590000041
其中,lS为空间自注意力损失,用于提取不同行人的代表性空间特征;
步骤2-3,所述基于自注意力机制的行人特征精细化模块包括基于自编码的通道自注意力机制:
利用如下公式生成一个特征向量z:
Figure BDA0003299143590000042
再使用一个自编码层,保留所述特征向量z中关键特征信息C(z):
C(z)=σ(W2σ(W1z))
其中,W1是自编码层中编码层的可训练参数,W2是自编码层中解码层的可训练参数,σ表示深度学习中通用的sigmoid非线性激活函数;
步骤2-4,在确定输入所述分割块
Figure BDA0003299143590000043
的情况下,所述基于自注意力机制的行人特征精细化模块的输出为:
H(x)=C(x)×(S(x)×Fij)
其中,S(x)以及C(x)分别对应步骤2-3以及步骤2-4中的空间自注意力以及通道自注意力;通过均值池化,将每一个行人基于自注意力机制的特征精细化的输出H(x)转化为特征向量,得到特征向量组VG
在训练过程中,对于所述基于自注意力机制的行人特征精细化模块中的每一个分割块,通过如下公式预测所述分割块属于某一个行人的概率pi
Figure BDA0003299143590000044
其中,M表示存储无标记行人的队列长度,Q表示存储有标记行人特征矩阵的行数,T表示转置,u表示队列中存在的一个行人特征向量,v表示矩阵存在的一个行人特征向量,H′(x)表示使用输出H(x)进行全局平均池化操作之后得到的结果,τ为平滑因子,用于控制函数的平滑程度,使卷积神经网络中的参数能够更加快速地收敛,τ的取值范围为(0,+∞];
所述基于自注意力机制的行人特征精细化模块中的损失函数,即K个分割块函数之和表示为:
Figure BDA0003299143590000051
其中,E为数学期望。
进一步地,在一种实现方式中,所述步骤3,包括:
步骤3-1,对于所述每个行人的卷积特征图Fi∈RW*H*C,经过均值池化后,使用L-Softmax函数将所述每个行人的卷积特征图Fi∈RW*H*C转化为预测向量P∈R1*1*(L+1),其中,L为训练数据集中行人个体数;
步骤3-2,通过随机标签平滑损失函数进行误差计算并进行参数更新;
所述随机标签平滑损失函数的输入为一个L+1维的预测向量x,每一维对应属于当前标签c0,c1,…,cL的概率,其中,cL代表背景标签;
随机降采样损失函数随机选择R个标签,且R<<N;
在随机选择标签的过程中,无论真实的标签是什么,所述背景标签必须被选择;如果确定当前所述行人检测框中是行人,则正确的行人标记也必须被选择,所述行人标记即真实id。
进一步地,在一种实现方式中,所述步骤3-2,包括:
在给定随机选择的索引i0,i1,…,iR-1时,被选择的标签表示为
Figure BDA0003299143590000052
则被随机选择后的预测向量表示为
Figure BDA0003299143590000053
若真实的标签为cj,则标签平滑表示为:
Figure BDA0003299143590000054
其中,∈表示标签平滑的程度,∈的取值范围为[0,1],当∈=0时,则表示不采用标签平滑;
所述随机标签平滑损失函数表示为:
Figure BDA0003299143590000061
其中:
Figure BDA0003299143590000062
Figure BDA0003299143590000063
进一步地,在一种实现方式中,所述步骤4,包括:
在每一次的训练迭代过程中,对所述基于自注意力机制的行人检索框架中的所有损失函数进行求和,计算出本次迭代框架针对当前输入的总误差,包括所述步骤1中用于保证行人检测框生成质量的损失函数,即Faster R-CNN算法中的损失函数、所述步骤2中的分割块损失函数以及步骤3中的随机标签平滑损失函数;
以最小化总误差为目标,通过梯度下降法的方式,更新所述基于自注意力机制的行人检索框架中的所有参数。
进一步地,在一种实现方式中,所述步骤5,包括:
步骤5-1,针对所述待检索的监控视频图像中的每一个行人对应的卷积特征图Fi∈RW*H*C,通过均值池化卷积特征图的方式,提取基于随机标签平滑的特征差异化的N维特征向量,将两个特征向量进行合并,从而得到(K+N)维的待匹配行人特征向量组VG
步骤5-2,针对目标行人,抽取(K+N)维的目标行人特征向量vq
步骤5-3,根据以下公式,将所述目标行人特征向量vq与待匹配行人特征向量组VG进行度量计算,得到度量计算结果,即距离d:
Figure BDA0003299143590000071
其中,vgi表示VG中的一个待匹配行人特征向量,d的取值范围为[-1,1];
步骤5-4,根据所述度量计算结果进行排序,保留置信度较高的特征向量,并找出所述置信度较高的特征向量对应的行人检测框和所在的监控场景画面;具体的,本发明中,通过设定阈值的方式保留置信度较高的特征向量,具体的阈值可根据需要进行设定。
步骤5-5,根据所述步骤5-4得到的行人检测框和所在的监控场景画面,对每一个进入目标区域的人员进行信息记录,包括首次被抓拍到的时间和场景以及最后一次被抓拍到的时间和场景,实现对逗留时间的计算和对行迹的追踪。
本发明以端到端的学习方式,实现一种基于自注意力机制的行人检索方法,与现有技术相比,其显著优点在于:1)本发明以弱监督方式提取行人关键点,利用关键点作为自注意力生成的特征能更好的表示不同姿态的同一行人,可有效提升检索准确率;2)本发明利用随机标签平滑函数生成更大的分类超平面,增加行人特征的区分度,能够适应监控场景中行人变化的多样性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例部分提供的一种基于自注意力机制的行人检索方法中训练状态的工作流程示意图;
图2是本发明实施例部分提供的一种基于自注意力机制的行人检索方法中测试状态的工作流程示意图;
图3是本发明实施例部分提供的一种基于自注意力机制的行人检索方法中输入监控场景画面以及输出预测结果示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例公开一种基于自注意力机制的行人检索方法,本方法可以应用于商场、街道、军事区域等人流量大或安防级别较高的场景中,自动监控过往的行人。与传统的人工调取监控视频不同的是,本文所提出的方法可以智能化分析摄像头实时传输回来的监控画面,往往可以在节省了人力成本的条件下,更加快速高效地从监控视频中获取重要信息,例如判断监控画面中是否存在犯罪嫌疑人等。除此以外,在本文所提出方法的基础上,可以拓展出更多的功能,例如计算相关人员在某个区域或某个场景的逗留时间以及人流统计等。
具体来说,当确定某个区域的进出入口并在此处布设相应的监控摄像头,根据本实施例所提出的基于自注意力机制的行人检索方法,可以在t1时刻抓拍到p1号行人出现在入口处,同理可以在在t2时刻抓拍到p1号行人出现在出口处,则可以定义p1号行人在本区域的逗留时间为t2-t1。而对于人流统计,根据本实施例所提出的基于自注意力机制的行人检索方法,由于可以判别出多个摄像头中拍摄到的下相同行人,避免了只是简单将多个摄像头抓拍场景中的行人进行直接相加计算导致的重复计算问题,能够得到更加精确的统计和计算结果。
如图1和图2所示,在真实使用环境的状态下,本发明实施例提供的一种基于自注意力机制的行人检索方法,包括以下步骤:
步骤1,以包含行人的监控视频图像作为输入,通过卷积神经网络检测所述监控视频图像中的所有行人,得到行人检测框和每个所述行人对应的卷积特征图,并计算行人检索任务中的子任务,即计算行人检测损失;
步骤2,根据所述卷积特征图,通过基于自注意力机制的行人特征精细化模块,将所述卷积特征图水平分割,在获得的每一个分割块中提取行人关键点,并将所述行人关键点所对应的区域转化为空间自注意力,结合通道自注意力,在所述每一个分割块上,得到行人辨识度更加突出的特征向量,针对所述每一个分割块计算空间自注意力损失;具体的,本发明中,所述更加突出的特征向量指的是相较于仅使用卷积特征图所得到的特征向量。通过所述步骤2,能够保证每个分割块都能提取出更加精细的特征。本步骤中,通过本发明中图像行人卷积特征提取模块包含的行人检测算法,可以自动检测当前监控画面中的行人并生成相应的卷积特征图。
步骤3,以所述卷积特征图作为输入,生成分类置信度向量,进行随机标签选择,根据随机选择后的标签进行标签平滑,计算随机标签平滑损失;
步骤4,对所述步骤1至步骤3计算获得的所有损失函数求和,将求和结果作为基于自注意力机制的行人检索框架的总损失,以最小化所述总损失为目标,更新所述基于自注意力机制的行人检索框架中的所有参数;
步骤5,基于所述自注意力机制的行人检索框架,在确定目标行人图片后,以待检索的监控视频图像作为输入,判断所述待检索的监控视频图像中是否存在目标行人,若存在则输出行人检索结果,即通过所述行人检测框标记出目标行人在待检索的监控视频画面中的位置。
本发明实施例提供的一种基于自注意力机制的行人检索方法中,所述步骤1,包括:
需要安保部相关工作人员给定一张目标行人照片,可以直接给定已经预处理完成的图片;也可以给定完整的包含此行人的监控画面以及此行人在画面中的位置信息。
针对输入的行人图像集,即所述包含行人的监控视频图像,采用Faster R-CNN算法检测所述监控视频图像中的所有行人,得到所述行人检测框、整张所述监控视频图像的卷积特征图以及每个行人对应的卷积特征图,所述每个行人对应的卷积特征图即:
Fi∈RW*H*C,i=1…n
其中,Fi表示每个行人对应的卷积特征图,i表示行人序号,R表示行人卷积特征图集,W,H,C分别代表每个行人对应的卷积特征图的宽度、高度和通道数,n表示检测到的监控视频图像中的行人个数;
以Faster R-CNN算法中描述的Softmax损失函数和Smooth L1损失函数计算行人检索任务中的子任务,即计算所述行人检测损失。
本发明实施例提供的一种基于自注意力机制的行人检索方法中,所述步骤2,包括:
步骤2-1,得到所述每个行人对应的卷积特征图Fi∈RW*H*C后,通过水平分割的方式将所述每个行人对应的卷积特征图分成N块,其中1<N<H;分割后的卷积特征块的尺寸为
Figure BDA0003299143590000091
所述分割后的卷积特征块即分割块;
步骤2-2,所述基于自注意力机制的行人特征精细化模块包括通过基于行人关键点的空间自注意力机制:
针对所述分割后的卷积特征块,使用弱监督学习的方式提取K个行人关键点,并使用一个卷积层将输入的所述分割后的卷积特征块Fij转化为
Figure BDA0003299143590000101
i表示行人序号,j=1…N;
提取每一个通道中的最大值进行降采样,获得空间自注意力
Figure BDA0003299143590000102
所述空间自注意力S所有像素点的和在[1,K)区间中;
在所述基于自注意力机制的行人特征精细化模块的训练阶段,通过如下损失函数进行约束:
Figure BDA0003299143590000103
其中,lS为空间自注意力损失,用于提取不同行人的代表性空间特征;
步骤2-3,所述基于自注意力机制的行人特征精细化模块包括基于自编码的通道自注意力机制:
利用如下公式生成一个特征向量z:
Figure BDA0003299143590000104
再使用一个自编码层,保留所述特征向量z中关键特征信息C(z):
C(z)=σ(W2σ(W1z))
其中,W1是自编码层中编码层的可训练参数,W2是自编码层中解码层的可训练参数,σ表示深度学习中通用的sigmoid非线性激活函数;
步骤2-4,在确定输入所述分割块
Figure BDA0003299143590000105
的情况下,所述基于自注意力机制的行人特征精细化模块的输出为:
H(x)=C(x)×(S(x)×Fij)
其中,S(x)以及C(x)分别对应步骤2-3以及步骤2-4中的空间自注意力以及通道自注意力;通过均值池化,将每一个行人基于自注意力机制的特征精细化的输出H(x)转化为特征向量,得到特征向量组VG
在训练过程中,对于所述基于自注意力机制的行人特征精细化模块中的每一个分割块,通过如下公式预测所述分割块属于某一个行人的概率pi
Figure BDA0003299143590000111
其中,M表示存储无标记行人的队列长度,Q表示存储有标记行人特征矩阵的行数,T表示转置,u表示队列中存在的一个行人特征向量,v表示矩阵存在的一个行人特征向量,H′(x)表示使用输出H(x)进行全局平均池化操作之后得到的结果,τ为平滑因子,用于控制函数的平滑程度,使卷积神经网络中的参数能够更加快速地收敛,τ的取值范围为(0,+∞];
所述基于自注意力机制的行人特征精细化模块中的损失函数,即K个分割块函数之和表示为:
Figure BDA0003299143590000112
其中,E为数学期望。
本发明实施例提供的一种基于自注意力机制的行人检索方法中,所述步骤3,包括:
步骤3-1,对于所述每个行人的卷积特征图Fi∈RW*H*C,经过均值池化后,使用L-Softmax函数将所述每个行人的卷积特征图Fi∈RW*H*C转化为预测向量P∈R1*1*(L+1),其中,L为训练数据集中行人个体数;
步骤3-2,通过随机标签平滑损失函数进行误差计算并进行参数更新;
所述随机标签平滑损失函数的输入为一个L+1维的预测向量x,每一维对应属于当前标签c0,c1,…,cL的概率,其中,cL代表背景标签;
随机降采样损失函数随机选择R个标签,且R<<N;
在随机选择标签的过程中,无论真实的标签是什么,所述背景标签必须被选择;如果确定当前所述行人检测框中是行人,则正确的行人标记也必须被选择,所述行人标记即真实id。
本发明实施例提供的一种基于自注意力机制的行人检索方法中,所述步骤3-2,包括:
在给定随机选择的索引i0,i1,…,iR-1时,被选择的标签表示为
Figure BDA0003299143590000121
则被随机选择后的预测向量表示为
Figure BDA0003299143590000122
若真实的标签为cj,则标签平滑表示为:
Figure BDA0003299143590000123
其中,∈表示标签平滑的程度,∈的取值范围为[0,1],当∈=0时,则表示不采用标签平滑;
所述随机标签平滑损失函数表示为:
Figure BDA0003299143590000124
其中:
Figure BDA0003299143590000125
Figure BDA0003299143590000126
本发明实施例提供的一种基于自注意力机制的行人检索方法中,所述步骤4,包括:
在每一次的训练迭代过程中,对所述基于自注意力机制的行人检索框架中的所有损失函数进行求和,计算出本次迭代框架针对当前输入的总误差,包括所述步骤1中用于保证行人检测框生成质量的损失函数,即Faster R-CNN算法中的损失函数、所述步骤2中的分割块损失函数以及步骤3中的随机标签平滑损失函数;
以最小化总误差为目标,通过梯度下降法的方式,更新所述基于自注意力机制的行人检索框架中的所有参数。
本发明实施例提供的一种基于自注意力机制的行人检索方法中,所述步骤5,包括:
步骤5-1,针对所述待检索的监控视频图像中的每一个行人对应的卷积特征图Fi∈RW*H*C,通过均值池化卷积特征图的方式,提取基于随机标签平滑的特征差异化的N维特征向量,将两个特征向量进行合并,从而得到(K+N)维的待匹配行人特征向量组VG
步骤5-2,针对目标行人,抽取(K+N)维的目标行人特征向量vq
步骤5-3,根据以下公式,将所述目标行人特征向量vq与待匹配行人特征向量组VG进行度量计算,得到度量计算结果,即距离d:
Figure BDA0003299143590000131
其中,vgi表示VG中的一个待匹配行人特征向量,d的取值范围为[-1,1];本实施例中,预测结果d的数值越接近于-1或1时,表明vgi所对应的行人越不像目标行人或越像目标行人;根据度量计算的结果进行排序,可通过设定阈值的方式保留置信度较高的特征向量,例如阈值为0.9时,只会保留和目标行人特征向量vq极其相似的行人,从而找出其对应的行人检测框和所在的监控场景画面。
步骤5-4,根据所述度量计算结果进行排序,保留置信度较高的特征向量,并找出所述置信度较高的特征向量对应的行人检测框和所在的监控场景画面;具体的,本发明中,通过设定阈值的方式保留置信度较高的特征向量,具体的阈值可根据需要进行设定。
步骤5-5,根据所述步骤5-4得到的行人检测框和所在的监控场景画面,对每一个进入目标区域的人员进行信息记录,包括首次被抓拍到的时间和场景以及最后一次被抓拍到的时间和场景,实现对逗留时间的计算和对行迹的追踪。
实施例
在本实施例中,图3第一列为包含目标行人的输入图片,其他列为待检测目标行人的不同真实场景下的监控视频图片集。从整体上看,监控视频存在摄像头拍摄视角不同、行人的姿态不一致、目标行人尺度变化巨大等特点,例如:图3第一行是同一场景不同拍摄角度情况下的监控视频图片;第二行的监控视频图片中行人姿态明显不同;第三行是不同场景下的监控视频图片,行人尺度变化较大;第四行是室内俯视拍摄、行人密集的监控视频图片。通过本发明所述的基于自注意力机制的行人检索方法,可在给定的监控视频图片中检索匹配到目标行人。具体实施过程如下:
步骤1中,给定包含目标行人的图片,如图3中的第一列所示,给定一幅监控画面,并在监控画面以矩形框标出目标行人。
步骤2中,针对不同环境下采集的监控视频图片集,利用本发明提出的基于自注意力机制的行人检索方法可检索出监控画面包含的目标行人,检索效果如图3所示。其中,标记为“√”的图片为检索成功的案例,标记为“×”的图片为检索失败的案例。图3第一行展示在不同拍摄角度情况下的行人检索结果;第二行检索结果表明在行人姿态存在明显变化的情况下仍能正确检索出目标行人;第三行显示不同场景的行人检索结果;第四行展示俯视拍摄和行人较多场景的行人检索结果。从本实施例所展示的检索效果可以看出本发明提出的基于自注意力机制的行人检索方法的有效性。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的一种基于自注意力机制的行人检索方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (7)

1.一种基于自注意力机制的行人检索方法,其特征在于,包括以下步骤:
步骤1,以包含行人的监控视频图像作为输入,通过卷积神经网络检测所述监控视频图像中的所有行人,得到行人检测框和每个所述行人对应的卷积特征图,并计算行人检索任务中的子任务,即计算行人检测损失;
步骤2,根据所述卷积特征图,通过基于自注意力机制的行人特征精细化模块,将所述卷积特征图水平分割,在获得的每一个分割块中提取行人关键点,并将所述行人关键点所对应的区域转化为空间自注意力,结合通道自注意力,在所述每一个分割块上,得到行人辨识度更加突出的特征向量,针对所述每一个分割块计算空间自注意力损失;
步骤3,以所述卷积特征图作为输入,生成分类置信度向量,进行随机标签选择,根据随机选择后的标签进行标签平滑,计算随机标签平滑损失;
步骤4,对所述步骤1至步骤3计算获得的所有损失函数求和,将求和结果作为基于自注意力机制的行人检索框架的总损失,以最小化所述总损失为目标,更新所述基于自注意力机制的行人检索框架中的所有参数;
步骤5,基于所述自注意力机制的行人检索框架,在确定目标行人图H后,以待检索的监控视频图像作为输入,判断所述待检索的监控视频图像中是否存在目标行人,若存在则输出行人检索结果,即通过所述行人检测框标记出目标行人在待检索的监控视频画面中的位置。
2.根据权利要求1所述的一种基于自注意力机制的行人检索方法,其特征在于,所述步骤1,包括:
针对输入的行人图像集,即所述包含行人的监控视频图像,采用Faster R-CNN算法检测所述监控视频图像中的所有行人,得到所述行人检测框、整张所述监控视频图像的卷积特征图以及每个行人对应的卷积特征图,所述每个行人对应的卷积特征图即:
Fi∈RW*H*C,i=1…n
其中,Fi表示每个行人对应的卷积特征图,i表示行人序号,R表示行人卷积特征图集,W,H,C分别代表每个行人对应的卷积特征图的宽度、高度和通道数,n表示检测到的监控视频图像中的行人个数;
以Faster R-CNN算法中描述的Softmax损失函数和Smooth L1损失函数计算行人检索任务中的子任务,即计算所述行人检测损失。
3.根据权利要求1所述的一种基于自注意力机制的行人检索方法,其特征在于,所述步骤2,包括:
步骤2-1,得到所述每个行人对应的卷积特征图Fi∈RW*H*C后,通过水平分割的方式将所述每个行人对应的卷积特征图分成N块,其中1<N<H;分割后的卷积特征块的尺寸为
Figure FDA0003299143580000021
所述分割后的卷积特征块即分割块;
步骤2-2,所述基于自注意力机制的行人特征精细化模块包括通过基于行人关键点的空间自注意力机制:
针对所述分割后的卷积特征块,使用弱监督学习的方式提取K个行人关键点,并使用一个卷积层将输入的所述分割后的卷积特征块Fij转化为
Figure FDA0003299143580000022
i表示行人序号,
Figure FDA0003299143580000023
提取每一个通道中的最大值进行降采样,获得空间自注意力
Figure FDA0003299143580000024
所述空间自注意力S所有像素点的和在[1,K)区间中;
在所述基于自注意力机制的行人特征精细化模块的训练阶段,通过如下损失函数进行约束:
Figure FDA0003299143580000025
其中,lS为空间自注意力损失,用于提取不同行人的代表性空间特征;
步骤2-3,所述基于自注意力机制的行人特征精细化模块包括基于自编码的通道自注意力机制:
利用如下公式生成一个特征向量z:
Figure FDA0003299143580000026
再使用一个自编码层,保留所述特征向量z中关键特征信息C(z):
C(z)=σ(W2σ(W1z))
其中,W1是自编码层中编码层的可训练参数,W2是自编码层中解码层的可训练参数,σ表示深度学习中通用的sigmoid非线性激活函数;
步骤2-4,在确定输入所述分割块
Figure FDA0003299143580000031
的情况下,所述基于自注意力机制的行人特征精细化模块的输出为:
H(x)=C(x)×(S(x)×Fij)
其中,S(x)以及C(x)分别对应步骤2-3以及步骤2-4中的空间自注意力以及通道自注意力;通过均值池化,将每一个行人基于自注意力机制的特征精细化的输出H(x)转化为特征向量,得到特征向量组VG
在训练过程中,对于所述基于自注意力机制的行人特征精细化模块中的每一个分割块,通过如下公式预测所述分割块属于某一个行人的概率pi
Figure FDA0003299143580000032
其中,M表示存储无标记行人的队列长度,Q表示存储有标记行人特征矩阵的行数,T表示转置,u表示队列中存在的一个行人特征向量,v表示矩阵存在的一个行人特征向量,H′(x)表示使用输出H(x)进行全局平均池化操作之后得到的结果,τ为平滑因子,用于控制函数的平滑程度,使卷积神经网络中的参数能够更加快速地收敛,τ的取值范围为(0,+∞];
所述基于自注意力机制的行人特征精细化模块中的损失函数,即K个分割块函数之和表示为:
Figure FDA0003299143580000033
其中,E为数学期望。
4.根据权利要求1所述的一种基于自注意力机制的行人检索方法,其特征在于,所述步骤3,包括:
步骤3-1,对于所述每个行人的卷积特征图Fi∈RW*H*C,经过均值池化后,使用L-Softmax函数将所述每个行人的卷积特征图Fi∈RW*H*C转化为预测向量P∈R1*1*(L+1),其中,L为训练数据集中行人个体数;
步骤3-2,通过随机标签平滑损失函数进行误差计算并进行参数更新;
所述随机标签平滑损失函数的输入为一个L+1维的预测向量x,每一维对应属于当前标签c0,c1,...,cL的概率,其中,cL代表背景标签;
随机降采样损失函数随机选择R个标签,且R<<N;
在随机选择标签的过程中,无论真实的标签是什么,所述背景标签必须被选择;如果确定当前所述行人检测框中是行人,则正确的行人标记也必须被选择,所述行人标记即真实id。
5.根据权利要求4所述的基于自注意力机制的行人检索方法,其特征在于,所述步骤3-2,包括:
在给定随机选择的索引i0,i1,...,iR-1时,被选择的标签表示为
Figure FDA0003299143580000044
则被随机选择后的预测向量表示为
Figure FDA0003299143580000045
若真实的标签为cj,则标签平滑表示为:
Figure FDA0003299143580000041
其中,∈表示标签平滑的程度,∈的取值范围为[0,1],当∈=0时,则表示不采用标签平滑;
所述随机标签平滑损失函数表示为:
Figure FDA0003299143580000042
其中:
Figure FDA0003299143580000043
Figure FDA0003299143580000051
6.根据权利要求1所述的基于自注意力机制的行人检索方法,其特征在于,所述步骤4,包括:
在每一次的训练迭代过程中,对所述基于自注意力机制的行人检索框架中的所有损失函数进行求和,计算出本次迭代框架针对当前输入的总误差,包括所述步骤1中用于保证行人检测框生成质量的损失函数,即Faster R-CNN算法中的损失函数、所述步骤2中的分割块损失函数以及步骤3中的随机标签平滑损失函数;
以最小化总误差为目标,通过梯度下降法的方式,更新所述基于自注意力机制的行人检索框架中的所有参数。
7.根据权利要求1所述的基于自注意力机制的行人检索方法,其特征在于,所述步骤5,包括:
步骤5-1,针对所述待检索的监控视频图像中的每一个行人对应的卷积特征图Fi∈RW *H*C,通过均值池化卷积特征图的方式,提取基于随机标签平滑的特征差异化的N维特征向量,将两个特征向量进行合并,从而得到(K+N)维的待匹配行人特征向量组VG
步骤5-2,针对目标行人,抽取(K+N)维的目标行人特征向量vq
步骤5-3,根据以下公式,将所述目标行人特征向量vq与待匹配行人特征向量组VG进行度量计算,得到度量计算结果,即距离d:
Figure FDA0003299143580000052
其中,vgi表示VG中的一个待匹配行人特征向量,d的取值范围为[-1,1];
步骤5-4,根据所述度量计算结果进行排序,保留置信度较高的特征向量,并找出所述置信度较高的特征向量对应的行人检测框和所在的监控场景画面;
步骤5-5,根据所述步骤5-4得到的行人检测框和所在的监控场景画面,对每一个进入目标区域的人员进行信息记录,包括首次被抓拍到的时间和场景以及最后一次被抓拍到的时间和场景,实现对逗留时间的计算和对行迹的追踪。
CN202111185768.7A 2021-10-12 2021-10-12 一种基于自注意力机制的行人检索方法 Active CN113920470B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111185768.7A CN113920470B (zh) 2021-10-12 2021-10-12 一种基于自注意力机制的行人检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111185768.7A CN113920470B (zh) 2021-10-12 2021-10-12 一种基于自注意力机制的行人检索方法

Publications (2)

Publication Number Publication Date
CN113920470A CN113920470A (zh) 2022-01-11
CN113920470B true CN113920470B (zh) 2023-01-31

Family

ID=79239431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111185768.7A Active CN113920470B (zh) 2021-10-12 2021-10-12 一种基于自注意力机制的行人检索方法

Country Status (1)

Country Link
CN (1) CN113920470B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078564B (zh) * 2023-10-16 2024-01-12 北京网动网络科技股份有限公司 视频会议画面的智能生成方法及其系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784197B (zh) * 2018-12-21 2022-06-07 西北工业大学 基于孔洞卷积与注意力学习机制的行人再识别方法
CN109948425B (zh) * 2019-01-22 2023-06-09 中国矿业大学 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置
CN111368815B (zh) * 2020-05-28 2020-09-04 之江实验室 一种基于多部件自注意力机制的行人重识别方法

Also Published As

Publication number Publication date
CN113920470A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN112801018B (zh) 一种跨场景目标自动识别与追踪方法及应用
CN111783576B (zh) 基于改进型YOLOv3网络和特征融合的行人重识别方法
Yuen et al. A data-driven approach for event prediction
CN112396027A (zh) 基于图卷积神经网络的车辆重识别方法
CN112183468A (zh) 一种基于多注意力联合多级特征的行人再识别方法
CN110807434A (zh) 一种基于人体解析粗细粒度结合的行人重识别系统及方法
US10824935B2 (en) System and method for detecting anomalies in video using a similarity function trained by machine learning
CN110555420B (zh) 一种基于行人区域特征提取和重识别融合模型网络及方法
CN113065460B (zh) 基于多任务级联的猪脸面部表情识别框架的建立方法
CN111652035B (zh) 一种基于ST-SSCA-Net的行人重识别方法及系统
CN110728216A (zh) 一种基于行人属性自适应学习的无监督行人再识别方法
CN114155474A (zh) 基于视频语义分割算法的损伤识别技术
Cao et al. Learning spatial-temporal representation for smoke vehicle detection
Khan et al. Tcm: Temporal consistency model for head detection in complex videos
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
CN113920470B (zh) 一种基于自注意力机制的行人检索方法
Ji et al. A hybrid model of convolutional neural networks and deep regression forests for crowd counting
CN111898418A (zh) 一种基于t-tiny-yolo网络的人体异常行为检测方法
CN115410222A (zh) 一种姿态感知的视频行人再识别网络
CN114898158A (zh) 基于多尺度注意力耦合机制的小样本交通异常图像采集方法及系统
CN113538513A (zh) 监控对象的进出控制方法、装置、设备及存储介质
Kumar Crowd behavior monitoring and analysis in surveillance applications: a survey
CN110516540B (zh) 基于多流架构与长短时记忆网络的组群行为识别方法
CN112052722A (zh) 行人身份再识别方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant