CN113920470B

CN113920470B - 一种基于自注意力机制的行人检索方法

Info

Publication number: CN113920470B
Application number: CN202111185768.7A
Authority: CN
Inventors: 韩岑; 刘晶晶; 刘凯; 肖德岐; 苏京勋; 朱伟; 朱华巍; 郭星华; 王海青
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2023-01-31
Anticipated expiration: 2041-10-12
Also published as: CN113920470A

Abstract

本发明提供了一种基于自注意力机制的行人检索方法，针对输入的行人图片集，该方法先利用Faster R‑CNN检测行人框，并提取卷积特征图以及计算损失；基于自注意力的行人特征精细化，在对行人卷积特征图进行水平分割后，针对每个分割区域提取行人关键点，计算空间自注意力和通道自注意力，基于这两种自注意力对卷积特征图进行优化调整，计算分割块损失函数；基于随机标签平滑策略的行人特征差异化，在利用L‑Softmax函数生成分类置信度向量的基础上，通过降采样进行随机标签选择，并计算随机标签平滑损失；网络训练，以上述三种损失函数之和最小化为目标训练网络中的参数，生成更具区分性的行人特征，使得最终产生的行人检索结果更精确。

Description

一种基于自注意力机制的行人检索方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于自注意力机制的行人检索方法。

背景技术

随着社会的逐渐发展，人们的安保意识不断提高，现代高科技手段在维护社会、军事等领域安全扮演着越来越重要的作用，如在城市交通道路、商业中心、军事区域等重要位置部署摄像头进行场景监控。在智慧城市建设、军事区域防护等应用背景下，如何有效利用图像或视频分析技术进行监控视频信息挖掘越来越受到关注，如在监控场景中寻找犯罪嫌疑人、人员行迹追踪等。其中，行人检索旨在根据查询目标行人，在给定图片集或视频中找出同一行人，即只需给出查询目标行人图片和待匹配监控视频(或图片集)，就能有效找出海量视频中的目标人物，实用价值非常明显。

最初，行人检索是以按照行人重识别开展研究的，如在1.Ma B P,Su Y,JurieF.Local descriptors encoded by Fisher vectors for person re-identification[C]//Proceedings of the 12th European Conference on ComputerVision.Heidelberg:Springer,2012:413-422.2.Farenzena M,Bazzani L,Perina A,etal.Person re-identification by symmetry-driven accumulation of local features[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.Los Alamitos:IEEE Computer Society Press,2010:2360-2367中所提出的，虽然在相关数据集上取得了较高的结果，但它们必须使用经过裁剪处理后的行人图片，这与真实的行人检索应用场景不一致。Wang等人通过行人检测和行人重识别两个独立子任务来实现行人检索。如在3.一种基于区域匹配网络的行人检索方法，申请号：CN01910999236.3；4.一种基于部件权重生成网络的行人检索方法，申请号：CN2020102114996中所提出的，即通过行人检测算法提取输入图片中的所有行人，并额外训练一个模型或网络专门用于行人重识别。虽然此方法能够直接以原始图片作为输入，但是两个子任务各自使用独立的模型，即非端到端学习，造成计算资源的浪费。为了解决此类问题，Xiao等人首次将行人检测与重识别一体化的端到端方法，如4.Xiao T,Li S,Wang B C,et al.End-to-end deep learning for person search[OL].[2017-12-31].http://www.ee.cuhk.edu.hk/～xgwang/PS/paper.pdf；以及5.Xiao T,Li S,Wang B C,etal.Joint detection and identification feature learning for person search[C]//Proceedings of the 30th IEEE Conference on Computer Vision and PatternRecognition.Los Alamitos:IEEE Computer Society Press,2017:3376-3385中所提出的，利用Faster R-CNN算法，如6.S.Ren,K.He,R.Girshick,and J.Sun,“Faster r-cnn:Towards realtime object detection with region proposal networks,”in Advancesin neural information processing systems,2015,pp.91–99中所提出的、随机采样损失函数(random sampling softmax,RSS)和在线匹配损失函数(online instance matching，OIM)，实现了端到端的学习。

但是，上述现有的行人检索方法仍存在一些不足：首先，现有方法在提取行人特征时忽略了行人姿态的影响，可能因行人关键部位不对齐导致匹配程度低的问题，影响行人检索结果的准确性；其次，目前大多数的现有方法只使用分类损失进行网络参数训练，而行人检索属于检索任务，故需要生成更大的分类超平面区分不同个体。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于自注意力机制的行人检索方法，用于在真实监控场景下完成行人检索。

实现本发明的技术方案为：一种基于自注意力机制的行人检索方法，包括以下步骤：

步骤1，以包含行人的监控视频图像作为输入，通过卷积神经网络检测所述监控视频图像中的所有行人，得到行人检测框和每个所述行人对应的卷积特征图，并计算行人检索任务中的子任务，即计算行人检测损失；

步骤2，根据所述卷积特征图，通过基于自注意力机制的行人特征精细化模块，将所述卷积特征图水平分割，在获得的每一个分割块中提取行人关键点，并将所述行人关键点所对应的区域转化为空间自注意力，结合通道自注意力，在所述每一个分割块上，得到行人辨识度更加突出的特征向量，针对所述每一个分割块计算空间自注意力损失；具体的，本发明中，所述更加突出的特征向量指的是相较于仅使用卷积特征图所得到的特征向量。通过所述步骤2，能够保证每个分割块都能提取出更加精细的特征。

步骤3，以所述卷积特征图作为输入，生成分类置信度向量，进行随机标签选择，根据随机选择后的标签进行标签平滑，计算随机标签平滑损失；

步骤4，对所述步骤1至步骤3计算获得的所有损失函数求和，将求和结果作为基于自注意力机制的行人检索框架的总损失，以最小化所述总损失为目标，更新所述基于自注意力机制的行人检索框架中的所有参数；

步骤5，基于所述自注意力机制的行人检索框架，在确定目标行人图片后，以待检索的监控视频图像作为输入，判断所述待检索的监控视频图像中是否存在目标行人，若存在则输出行人检索结果，即通过所述行人检测框标记出目标行人在待检索的监控视频画面中的位置。

进一步地，在一种实现方式中，所述步骤1，包括：

针对输入的行人图像集，即所述包含行人的监控视频图像，采用Faster R-CNN算法检测所述监控视频图像中的所有行人，得到所述行人检测框、整张所述监控视频图像的卷积特征图以及每个行人对应的卷积特征图，所述每个行人对应的卷积特征图即：

F_i∈R^W*H*C,i＝1…n

其中，F_i表示每个行人对应的卷积特征图，i表示行人序号，R表示行人卷积特征图集，W,H,C分别代表每个行人对应的卷积特征图的宽度、高度和通道数，n表示检测到的监控视频图像中的行人个数；

以Faster R-CNN算法中描述的Softmax损失函数和Smooth L1损失函数计算行人检索任务中的子任务，即计算所述行人检测损失。

进一步地，在一种实现方式中，所述步骤2，包括：

步骤2-1，得到所述每个行人对应的卷积特征图F_i∈R^W*H*C后，通过水平分割的方式将所述每个行人对应的卷积特征图分成N块，其中1<N<H；分割后的卷积特征块的尺寸为

所述分割后的卷积特征块即分割块；

步骤2-2，所述基于自注意力机制的行人特征精细化模块包括通过基于行人关键点的空间自注意力机制：

针对所述分割后的卷积特征块，使用弱监督学习的方式提取K个行人关键点，并使用一个卷积层将输入的所述分割后的卷积特征块F_ij转化为

i表示行人序号，j＝1…N；

提取每一个通道中的最大值进行降采样，获得空间自注意力

所述空间自注意力S所有像素点的和在[1,K)区间中；

在所述基于自注意力机制的行人特征精细化模块的训练阶段，通过如下损失函数进行约束：

其中，l^S为空间自注意力损失，用于提取不同行人的代表性空间特征；

步骤2-3，所述基于自注意力机制的行人特征精细化模块包括基于自编码的通道自注意力机制：

利用如下公式生成一个特征向量z：

再使用一个自编码层，保留所述特征向量z中关键特征信息C(z)：

C(z)＝σ(W₂σ(W₁z))

其中，W₁是自编码层中编码层的可训练参数，W₂是自编码层中解码层的可训练参数，σ表示深度学习中通用的sigmoid非线性激活函数；

步骤2-4，在确定输入所述分割块

的情况下，所述基于自注意力机制的行人特征精细化模块的输出为：

H(x)＝C(x)×(S(x)×F_ij)

其中，S(x)以及C(x)分别对应步骤2-3以及步骤2-4中的空间自注意力以及通道自注意力；通过均值池化，将每一个行人基于自注意力机制的特征精细化的输出H(x)转化为特征向量，得到特征向量组V_G；

在训练过程中，对于所述基于自注意力机制的行人特征精细化模块中的每一个分割块，通过如下公式预测所述分割块属于某一个行人的概率p_i：

其中，M表示存储无标记行人的队列长度，Q表示存储有标记行人特征矩阵的行数，T表示转置，u表示队列中存在的一个行人特征向量，v表示矩阵存在的一个行人特征向量，H′(x)表示使用输出H(x)进行全局平均池化操作之后得到的结果，τ为平滑因子，用于控制函数的平滑程度，使卷积神经网络中的参数能够更加快速地收敛，τ的取值范围为(0,+∞]；

所述基于自注意力机制的行人特征精细化模块中的损失函数，即K个分割块函数之和表示为：

其中，E为数学期望。

进一步地，在一种实现方式中，所述步骤3，包括：

步骤3-1，对于所述每个行人的卷积特征图F_i∈R^W*H*C，经过均值池化后，使用L-Softmax函数将所述每个行人的卷积特征图F_i∈R^W*H*C转化为预测向量P∈R^1*1*(L+1)，其中，L为训练数据集中行人个体数；

步骤3-2，通过随机标签平滑损失函数进行误差计算并进行参数更新；

所述随机标签平滑损失函数的输入为一个L+1维的预测向量x，每一维对应属于当前标签c₀,c₁,…,c_L的概率，其中，c_L代表背景标签；

随机降采样损失函数随机选择R个标签，且R＜＜N；

在随机选择标签的过程中，无论真实的标签是什么，所述背景标签必须被选择；如果确定当前所述行人检测框中是行人，则正确的行人标记也必须被选择，所述行人标记即真实id。

进一步地，在一种实现方式中，所述步骤3-2，包括：

在给定随机选择的索引i₀,i₁,…,i_R-1时，被选择的标签表示为

则被随机选择后的预测向量表示为

若真实的标签为c_j，则标签平滑表示为：

其中，∈表示标签平滑的程度，∈的取值范围为[0,1]，当∈＝0时，则表示不采用标签平滑；

所述随机标签平滑损失函数表示为：

其中：

进一步地，在一种实现方式中，所述步骤4，包括：

在每一次的训练迭代过程中，对所述基于自注意力机制的行人检索框架中的所有损失函数进行求和，计算出本次迭代框架针对当前输入的总误差，包括所述步骤1中用于保证行人检测框生成质量的损失函数，即Faster R-CNN算法中的损失函数、所述步骤2中的分割块损失函数以及步骤3中的随机标签平滑损失函数；

以最小化总误差为目标，通过梯度下降法的方式，更新所述基于自注意力机制的行人检索框架中的所有参数。

进一步地，在一种实现方式中，所述步骤5，包括：

步骤5-1，针对所述待检索的监控视频图像中的每一个行人对应的卷积特征图F_i∈R^W*H*C，通过均值池化卷积特征图的方式，提取基于随机标签平滑的特征差异化的N维特征向量，将两个特征向量进行合并，从而得到(K+N)维的待匹配行人特征向量组V_G；

步骤5-2，针对目标行人，抽取(K+N)维的目标行人特征向量v_q；

步骤5-3，根据以下公式，将所述目标行人特征向量v_q与待匹配行人特征向量组V_G进行度量计算，得到度量计算结果，即距离d：

其中，v_gi表示V_G中的一个待匹配行人特征向量，d的取值范围为[-1,1]；

步骤5-4，根据所述度量计算结果进行排序，保留置信度较高的特征向量，并找出所述置信度较高的特征向量对应的行人检测框和所在的监控场景画面；具体的，本发明中，通过设定阈值的方式保留置信度较高的特征向量，具体的阈值可根据需要进行设定。

步骤5-5，根据所述步骤5-4得到的行人检测框和所在的监控场景画面，对每一个进入目标区域的人员进行信息记录，包括首次被抓拍到的时间和场景以及最后一次被抓拍到的时间和场景，实现对逗留时间的计算和对行迹的追踪。

本发明以端到端的学习方式，实现一种基于自注意力机制的行人检索方法，与现有技术相比，其显著优点在于：1)本发明以弱监督方式提取行人关键点，利用关键点作为自注意力生成的特征能更好的表示不同姿态的同一行人，可有效提升检索准确率；2)本发明利用随机标签平滑函数生成更大的分类超平面，增加行人特征的区分度，能够适应监控场景中行人变化的多样性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例部分提供的一种基于自注意力机制的行人检索方法中训练状态的工作流程示意图；

图2是本发明实施例部分提供的一种基于自注意力机制的行人检索方法中测试状态的工作流程示意图；

图3是本发明实施例部分提供的一种基于自注意力机制的行人检索方法中输入监控场景画面以及输出预测结果示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例公开一种基于自注意力机制的行人检索方法，本方法可以应用于商场、街道、军事区域等人流量大或安防级别较高的场景中，自动监控过往的行人。与传统的人工调取监控视频不同的是，本文所提出的方法可以智能化分析摄像头实时传输回来的监控画面，往往可以在节省了人力成本的条件下，更加快速高效地从监控视频中获取重要信息，例如判断监控画面中是否存在犯罪嫌疑人等。除此以外，在本文所提出方法的基础上，可以拓展出更多的功能，例如计算相关人员在某个区域或某个场景的逗留时间以及人流统计等。

具体来说，当确定某个区域的进出入口并在此处布设相应的监控摄像头，根据本实施例所提出的基于自注意力机制的行人检索方法，可以在t1时刻抓拍到p1号行人出现在入口处，同理可以在在t2时刻抓拍到p1号行人出现在出口处，则可以定义p1号行人在本区域的逗留时间为t2-t1。而对于人流统计，根据本实施例所提出的基于自注意力机制的行人检索方法，由于可以判别出多个摄像头中拍摄到的下相同行人，避免了只是简单将多个摄像头抓拍场景中的行人进行直接相加计算导致的重复计算问题，能够得到更加精确的统计和计算结果。

如图1和图2所示，在真实使用环境的状态下，本发明实施例提供的一种基于自注意力机制的行人检索方法，包括以下步骤：

步骤2，根据所述卷积特征图，通过基于自注意力机制的行人特征精细化模块，将所述卷积特征图水平分割，在获得的每一个分割块中提取行人关键点，并将所述行人关键点所对应的区域转化为空间自注意力，结合通道自注意力，在所述每一个分割块上，得到行人辨识度更加突出的特征向量，针对所述每一个分割块计算空间自注意力损失；具体的，本发明中，所述更加突出的特征向量指的是相较于仅使用卷积特征图所得到的特征向量。通过所述步骤2，能够保证每个分割块都能提取出更加精细的特征。本步骤中，通过本发明中图像行人卷积特征提取模块包含的行人检测算法，可以自动检测当前监控画面中的行人并生成相应的卷积特征图。

本发明实施例提供的一种基于自注意力机制的行人检索方法中，所述步骤1，包括：

需要安保部相关工作人员给定一张目标行人照片，可以直接给定已经预处理完成的图片；也可以给定完整的包含此行人的监控画面以及此行人在画面中的位置信息。

F_i∈R^W*H*C,i＝1…n

本发明实施例提供的一种基于自注意力机制的行人检索方法中，所述步骤2，包括：

所述分割后的卷积特征块即分割块；

i表示行人序号，j＝1…N；

提取每一个通道中的最大值进行降采样，获得空间自注意力

所述空间自注意力S所有像素点的和在[1,K)区间中；

利用如下公式生成一个特征向量z：

C(z)＝σ(W₂σ(W₁z))

步骤2-4，在确定输入所述分割块

H(x)＝C(x)×(S(x)×F_ij)

其中，E为数学期望。

本发明实施例提供的一种基于自注意力机制的行人检索方法中，所述步骤3，包括：

随机降采样损失函数随机选择R个标签，且R＜＜N；

本发明实施例提供的一种基于自注意力机制的行人检索方法中，所述步骤3-2，包括：

则被随机选择后的预测向量表示为

若真实的标签为c_j，则标签平滑表示为：

所述随机标签平滑损失函数表示为：

其中：

本发明实施例提供的一种基于自注意力机制的行人检索方法中，所述步骤4，包括：

本发明实施例提供的一种基于自注意力机制的行人检索方法中，所述步骤5，包括：

其中，v_gi表示V_G中的一个待匹配行人特征向量，d的取值范围为[-1,1]；本实施例中，预测结果d的数值越接近于-1或1时，表明v_gi所对应的行人越不像目标行人或越像目标行人；根据度量计算的结果进行排序，可通过设定阈值的方式保留置信度较高的特征向量，例如阈值为0.9时，只会保留和目标行人特征向量v_q极其相似的行人，从而找出其对应的行人检测框和所在的监控场景画面。

实施例

在本实施例中，图3第一列为包含目标行人的输入图片，其他列为待检测目标行人的不同真实场景下的监控视频图片集。从整体上看，监控视频存在摄像头拍摄视角不同、行人的姿态不一致、目标行人尺度变化巨大等特点，例如：图3第一行是同一场景不同拍摄角度情况下的监控视频图片；第二行的监控视频图片中行人姿态明显不同；第三行是不同场景下的监控视频图片，行人尺度变化较大；第四行是室内俯视拍摄、行人密集的监控视频图片。通过本发明所述的基于自注意力机制的行人检索方法，可在给定的监控视频图片中检索匹配到目标行人。具体实施过程如下：

步骤1中，给定包含目标行人的图片，如图3中的第一列所示，给定一幅监控画面，并在监控画面以矩形框标出目标行人。

步骤2中，针对不同环境下采集的监控视频图片集，利用本发明提出的基于自注意力机制的行人检索方法可检索出监控画面包含的目标行人，检索效果如图3所示。其中，标记为“√”的图片为检索成功的案例，标记为“×”的图片为检索失败的案例。图3第一行展示在不同拍摄角度情况下的行人检索结果；第二行检索结果表明在行人姿态存在明显变化的情况下仍能正确检索出目标行人；第三行显示不同场景的行人检索结果；第四行展示俯视拍摄和行人较多场景的行人检索结果。从本实施例所展示的检索效果可以看出本发明提出的基于自注意力机制的行人检索方法的有效性。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的一种基于自注意力机制的行人检索方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，ROM)或随机存储记忆体(random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种基于自注意力机制的行人检索方法，其特征在于，包括以下步骤：

步骤2，根据所述卷积特征图，通过基于自注意力机制的行人特征精细化模块，将所述卷积特征图水平分割，在获得的每一个分割块中提取行人关键点，并将所述行人关键点所对应的区域转化为空间自注意力，结合通道自注意力，在所述每一个分割块上，得到行人辨识度更加突出的特征向量，针对所述每一个分割块计算空间自注意力损失；

步骤5，基于所述自注意力机制的行人检索框架，在确定目标行人图H后，以待检索的监控视频图像作为输入，判断所述待检索的监控视频图像中是否存在目标行人，若存在则输出行人检索结果，即通过所述行人检测框标记出目标行人在待检索的监控视频画面中的位置。

2.根据权利要求1所述的一种基于自注意力机制的行人检索方法，其特征在于，所述步骤1，包括：

F_i∈R^W*H*C，i＝1…n

其中，F_i表示每个行人对应的卷积特征图，i表示行人序号，R表示行人卷积特征图集，W，H，C分别代表每个行人对应的卷积特征图的宽度、高度和通道数，n表示检测到的监控视频图像中的行人个数；

3.根据权利要求1所述的一种基于自注意力机制的行人检索方法，其特征在于，所述步骤2，包括：

步骤2-1，得到所述每个行人对应的卷积特征图F_i∈R^W*H*C后，通过水平分割的方式将所述每个行人对应的卷积特征图分成N块，其中1＜N＜H；分割后的卷积特征块的尺寸为

所述分割后的卷积特征块即分割块；

i表示行人序号，

提取每一个通道中的最大值进行降采样，获得空间自注意力

所述空间自注意力S所有像素点的和在[1，K)区间中；

利用如下公式生成一个特征向量z：

C(z)＝σ(W₂σ(W₁z))

步骤2-4，在确定输入所述分割块

H(x)＝C(x)×(S(x)×F_ij)

其中，M表示存储无标记行人的队列长度，Q表示存储有标记行人特征矩阵的行数，T表示转置，u表示队列中存在的一个行人特征向量，v表示矩阵存在的一个行人特征向量，H′(x)表示使用输出H(x)进行全局平均池化操作之后得到的结果，τ为平滑因子，用于控制函数的平滑程度，使卷积神经网络中的参数能够更加快速地收敛，τ的取值范围为(0，+∞]；