CN113361336B

CN113361336B - 基于注意力机制的视频监控场景下行人视图属性的定位与识别方法

Info

Publication number: CN113361336B
Application number: CN202110543394.5A
Authority: CN
Inventors: 禹鑫燚; 陈唯琛; 金燕芳; 欧林林
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2024-03-29
Anticipated expiration: 2041-05-19
Also published as: CN113361336A

Abstract

本发明提供一种基于注意力机制的视频监控场景下行人视图属性的定位与识别方法。包括如下步骤：步骤一：设计Inception‑v4主干网络；步骤二：通过视角预测器分支预测出四个置信度作为视角先验信息贡献给最后输出单元作为视角权重；步骤三：将视角置信度反馈至浅层网络组成视角性特征来监督深层网络特征提取；步骤四：通过注意力分支来定位视角性特征属性，且为最后的输出单元贡献注意力权重；步骤五：设计最后属性识别单元的输出方式及损失函数；步骤六：整个网络模型在公开数据集上训练；步骤七：将模型应用到实际视频监控中进行行人属性识别；步骤八：制作Qt前端系统界面。本发明用于实际监控视频中进行行人属性识别，在排除复杂背景和遮挡问题同时，对行人在不同视角中的同一特定属性进行定位和识别。未来的应用场景可涉及商场、公安、交通等地的人员跟踪、检索、定位、重识别。

Description

基于注意力机制的视频监控场景下行人视图属性的定位与识别方法

技术领域

本发明属于基于深度学习的行人属性识别领域，涉及先验信息、注意力机制等技术，具体涉及基于注意力机制的视频监控场景下行人视图属性的定位与识别方法。此外，本发明涉及在实际监控视频上实现属性识别的应用。

背景技术

行人属性识别技术已经成为计算机视觉领域的一个研究热点，属性识别可以为高级人类相关任务提供重要信息，包括行人重识别，行人检测，行人跟踪，行人检索，场景理解等。同时随着监控技术的发展，将行人属性识别技术应用到视频监控当中，获取视频监控中的图像序列，联合图像的空间和时间信息，实现对图像中行人属性的识别，未来将在安防、刑侦、交通等领域具有潜在的实力和应用。

然而，视频监控下的行人属性识别仍然存在困难和挑战，如多视角变化、分辨率低、光照低、复杂背景下的遮挡等。为了缓解这些问题，(Bourdev L,Maji S,MalikJ.Describing people:A poselet-based approach to attribute classification[C].International Conference on ComputerVision.IEEE,2011:1543-1550.)首先提出以人体部位作为先验知识来指导属性识别网络，但是这些方法高度依赖于身体部位的位置，且会带来额外的推断时间和计算成本，不能满足快速、实时应用的需求。由于多视角变化是移动设备记录视频中所存在的最主要的问题，考虑利用视角信息作为先验知识来达到解决最主要的问题的目的。

在行人属性识别过程中，还需要判断某个属性是否存在。鉴于在人类视觉识别中，往往只关注相关区域而忽视背景干扰的行为，注意力机制被引入来定位属性的相关区域从而排除复杂背景的干扰。基于注意力机制的方法(Yaghoubi E,Borza D,Neves J,et al.Anattention-based deep learning model for multiple pedestrian attributesrecognition[J].Image and Vision Computing.2020,102:103981.)通常使用注意力掩膜与特征图相乘来给出属性的位置，但是由于没有处理好视频监控图像中的空间信息和时间信息，注意掩膜会产生一个不准确的大范围区域，并将不同属性的区域混合在一起，从而不能定位某个特定属性。如何正确处理视频监控图像中的空间信息和时间信息成为是否能准确定位特定属性的重要问题。

发明内容

本发明克服现有技术的缺点，提出一种实现速度快、应用范围广的，以视角信息作为先验知识的在视频监控下的基于注意力机制的行人属性定位和识别方法。

本发明以视频监控图像作为输入，首先利用Inception-v4作为获取所有相关任务通用特征的共享主干网络，网络模型结构图见附图1。充分利用视频监控图像多视角变化与相关属性之间的关系，将视图作为先验知识，在浅层网络中设置视角预测分支预测出前、后、左和右四个视角置信度，视角预测分支结构见附图2。由于属性特征提取需要经过较深的网络，为了联系浅层网络和深层网络，将视角置信度反馈回浅层网络组成特定的视角性特征属性来参与后续的深层网络特征提取过程，从而监督深层网络，视角性特征属性组成过程见附图3。为了判断特定属性是否存在，区域注意力机制获取视频监控图像的空间属性信息和通道时间依赖性将特定属性的相关区域定位出来，并产生相关区域在整张图像中的注意力权重，注意力分支架构见附图4。将视角置信度作为视角预测分支的贡献，注意力权重作为注意力分支的贡献，将两者贡献组合相乘，实现最后对视频监控图像中行人的属性识别。

本发明所采用的技术方案为：基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，其特征在于：包括如下步骤：

步骤1：设计Inception-v4主干网络；

步骤2：设置视角预测分支；

步骤3：将视角置信度与浅层特征融合组成视角性特征属性；

步骤4：通过区域注意力定位视角性特征属性的位置；

步骤5：设计最终属性识别单元计算方式及损失函数；

步骤6：在公开的行人属性识别数据集上训练模型；

步骤7：应用于实际的视频监控图像来进行行人属性识别；

步骤8：制作Qt前端界面具体展现识别结果。

所述步骤1具体包括：

步骤1-1：选用Inception-v4作为主干网络。Inception-v4主要由Stem、Inception-A、Reduction-A、Inception-B、Reduction-B和Inception-C模块组成，将Inception-A模块的输出作为视角预测器分支的输入，Inception-C模块的输出作为区域注意力分支的输入；

步骤1-2：深层网络训练中不可避免会产生大量的参数，为了减少参数，加快训练的速度，将重构的Inception网络去除最后的平均池化层、dropout层和Softmax函数激活，改为直接使用BatchNormalization层来归一化最终的属性识别单元；

所述步骤2具体包括：

步骤2-1：把Inception-v4主干网络中的浅层网络模块Inception-A的输出值作为视角预测器的输入。设计最大池化层，卷积层，自适应平均池化层和全连接层组成视角预测器；

步骤2-2：将最后的全连接层的输出通道数设为4，从而输出前、后、左和右四个不同的视角置信度；视角置信度Y_vp1，由公式(1)表示：

Y_vp1＝Softmax(W_fc2·(W_fc1·F')) (1)

·表示两个矩阵的点积，W_fc1,W_fc2表示第一、二个全连接层的权重矩阵，F'表示经过最大池化层，卷积层，自适应平均池化层后输出的中间变量；

所述步骤3具体包括：

步骤3-1：修改视角预测器用于预测4个视角置信度值的全连接层的激活函数为Sigmoid函数，通过上采样，重新反馈到输入的浅层网络模块Inception-A。修改过的视角置信度Y_vp2，由公式(2)表示：

Y_vp2＝σ(W_fc2·(W_fc1·F')) (2)

步骤3-2：将输入的浅层网络模块Inception-A提取的低级全局特征与修改后视角置信度相乘，组成特定的视角性特征属性；

所述步骤4具体包括：

步骤4-1：把Inception-v4主干网络中的深层网络模块Inception-C的输出值作为区域注意力的输入。区域注意力机制分为三个分支，分别为高度分支、宽度分支和比例调节分支；

步骤4-2：通过在高度分支应用自适应最大池化核，在高度方向上定位视频监控图像中的行人位置。高度分支输出由公式(3)表示：

GMP(x)＝max_w(x(h,i)) (3)

步骤4-3：通过在宽度分支应用自适应平均池化核，通过宽度分支在宽度方向上定位行人的某个特定属性的位置。高度分支输出由公式(4)表示：

步骤4-4：沿着与空间相关的维度拼接高度分支和宽度分支的输出，进行信息互补，拼接结果通过卷积后由h-swish函数激活得到中间结果，中间结构由公式(5)表示：

F'＝h-swish(f(concat(GMP(x),GAP(x))) (5)

f表示卷积操作，F'表示中间结果；

步骤4-5：将中间向量重新分割为高度分支和宽度分支，各添加一个卷积到两个分支，并用Sigmoid函数激活，生成两个注意力权重。通过比例调节分支来平衡上述两个空间注意权重所占最终权重的比例，得到整体注意力权重，优化对某个特定属性的定位区域。整体注意力权重Y_a由公式(6)表示：

Y_a＝σ(f₃(F))×σ(f₁(F₁))×σ(f₂(F₂)) (6)

F₁,F₂表示分离F′后得到的高度分支和宽度分支，F表示Inception-C模块的输出，f₁,f₂,f₃表示添加在高度分支、宽度分支和比例调节分支的卷积；

所述步骤5具体包括：

步骤5-1：设计最终属性识别单元计算方式；

步骤5-1.1：获取视角预测分支输出的视角置信度值；

步骤5-1.2：获取注意力分支输出的注意力权重值；

步骤5-1.3：将视角置信度值与注意力权重值相乘，使用BN层将相乘结果归一化，得到最后的属性识别结果；

步骤5-2：设计方法损失函数；

步骤5-2.1：设计视角置信度值损失函数如公式(7)所示：

Loss_vp＝-log(Y_vp1) (7)

步骤5-2.2：设计属性识别类别损失函数如公式(8)、(9)所示：

N,M表示图像个数和属性个数，y_ij表示第i张图像的第j个属性，表示属性预测。w_j表示第j个属性的权重，r_j表示存在第j个属性的正样本比例。

步骤5-2.3：通过权重系数调节两种损失函数的比例后，将两种损失相加得到最终的损失函数。最终损失函数如公式(10)所示：

Loss＝αLoss_vp+βLoss_a (10)

所述步骤6具体包括：

在公开的行人属性识别数据集上训练模型，调整图像大小，设置超参数批次数量、迭代次数，优化方法、权重衰减系数和学习率；

所述步骤7具体包括：

把实际的视频监控图像作为数据集，将训练好的模型应用于实际的视频监控图像来进行行人属性识别，得到属性识别结果；

所述步骤8具体包括：

制作Qt前端界面，加载实际的监控视频，输入训练好的模型，创建行人属性识别系统，具体展现识别结果。

综上所述，本发明的优点在于，运用较深的卷积神经网络同时提取全局性的属性特征和局部性的属性特征；再利用视角信息作为先验知识，辅助网络提取属性特征，排除复杂背景模糊的干扰；同时将视角信息与浅层全局特征进行融合组成特定的视角性属性，将技术的目标从识别属性转移到识别特定的属性；引入注意力机制获取特定视角性属性的位置，而不是手动区分特定属性在不同视角下的位置。本发明将在原有静态数据集上训练好的方法针对动态的视频监控图像，进行实景的行人属性识别，并制作Qt前端视频监控界面，进一步证明本发明的潜力和应用价值。

附图说明

图1是本发明中Inception网络的架构图；

图2是本发明中视角预测器的设计图；

图3是本发明中视角性属性的组成图；

图4是本发明中区域注意力机制的设计图；

图5是本发明中实际视频监控下的行人属性识别结果示意图。

图6是本发明中Qt界面图。

具体实施方式

下面结合附图进一步说明本发明。

本发明的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，具体过程如下：

步骤1：设计Inception-v4主干网络，如图1所示；

步骤1-1：在行人属性识别过程中，一些全局属性依赖于较大的卷积核，而另一些局部属性依赖于较小的卷积核。因此采用Inception-v4作为主网络，在同一卷积层内对不同尺度的特征具有不同大小的卷积核，以同时获得全局特征和局部特征。此外，Inception-v4足够深，可以提取语义更强的特性，具有比Inception-v1-3更统一、更简化的体系结构和更多的模块。Inception-v4主要由Stem、Inception-A、Reduction-A、Inception-B、Reduction-B和Inception-C模块组成。受Google-Net(Inception-v1)的启发，它有两个辅助分类器，将两个辅助分支分别转换为视角预测器分支和区域注意力分支(不对应于Google-Net中的原始位置)。具体来说，把Inception-A模块的输出作为视角预测器分支的输入，使视角预测器可以预测浅层全局性的视角信息，把Inception-C模块的输出作为区域注意力分支的输入，使区域注意力可以定位深层局部性的特定视角性属性；

步骤1-2：采用Inception-v4作为主干网络的设计，不可避免的是Inception-v4结构和其他分支可能产生的巨大参数。当在设备上部署复杂的参数时，可能会降低训练过程的速度，从而增加推理时间。且网络的深度和复杂性，难以进行参数最优化以获得最佳效果。为了减少参数的数量，进行重构Inception-v4网络，去掉了原始的平均池化层、dropout层和最终的Softmax函数激活，改为直接使用BatchNormalization层来归一化最终的属性识别单元；

步骤2：设计视角预测分支，如图2所示；

步骤2-1：监控摄像机记录的图像中同一行人的同一特征在不同的视图上是不同的。因此，行人视角与行人属性之间的关系是明确的，视角信息在一定程度上对行人属性的识别有很强的帮助作用。基于Inception-A模块输出的共享特征图作为视角预测器的输入，构建视图预测分支，对浅层全局属性的视图置信度值进行预测。

步骤2-2：对于输入特征图F₁，添加最大池化层和卷积层来排除冗余信息同时将F₁压缩至变量F₂，添加自适应平均池化层将F₂压缩至中间变量F'，方便将F'传递至全连接层。应用卷积和自适应平均池化层将特征图大小调整为1×1，而不是用一个卷积直接调整特征图的大小，这有利于为精细的特征图探索更大的感受野，捕捉更多的有用信息。添加两个全连接层，最后一个全连接层是一个四维输出，用于获得行人图像的前、后、左和右四个视觉置信度值。设Y_vp1为视角预测器输出，其数学表示式为：

Y_vp1＝Softmax(W_fc2·(W_fc1·F')) (1)

·表示两个矩阵的点积，W_fc1表示第一个全连接层的权重矩阵，W_fc2表示第二个全连接层的权重矩阵，Softmax表示激活函数。

步骤3：将视角置信度与浅层特征融合组成视角性特征属性，如图3所示；

步骤3-1：将视角预测器用于预测视角置信度的第二个全连接层的激活函数改为Sigmoid后，进行上采样，重新将视角置信度值反馈回Inception-A模块。设Y_vp2为修改过的视角预测器输出，其数学表示式为：

Y_vp2＝σ(W_fc2·(W_fc1·F')) (2)

步骤3-2：将新的视角预测器输出的视角置信度值与Inception-A模块输出的浅层特征属性相乘，组成特定的视角性特征属性。

步骤4：通过区域注意力定位视角性特征属性的位置，如图4所示；

步骤4-1：输入特征的空间属性信息和通道间相关性对空间通道整合和属性相关区域定位的精度有影响，引入区域注意力分支获取视频监控图像的空间和通道时间信息。将Inception-C模块的输出作为区域注意力分支的输入，区域注意力分为三个小分支，分别为：高度分支、宽度分支和比例调节分支。

步骤4-2：由于输入的图像没有翻转，所以行人以站立的姿势显示，所以行人的整个位置在图像的高度方向上占据了最大的像素。高度分支应用空间范围的自适应最大池化核沿高度维度嵌入局部空间属性信息，并消除冗余数据，获取行人的位置。高度分支的数学表达式为：

GMP(x)＝max_w(x(h,i)) (3)

步骤4-3：不同属性的对应区域分布在行人身体的不同部位，通过建立宽度分支来查找相应属性在宽度维度上的相关部分的空间信息。对于宽度分支，在不进行任何通道缩减的情况下，采用自适应平均池化和来保留宽度维度上的局部空间属性信息，以尽可能多地保留空间信息。宽度分支的数学表达式为：

步骤4-4：沿着与空间相关的维度拼接高度分支和宽度分支的输出。将嵌入的空间属性信息进行互补，拼接结果通过卷积后由h-swish函数激活得到中间结果，其数学表达式为：

F'＝h-swish(f(concat(GMP(x),GAP(x))) (5)

f表示卷积操作，F'表示中间结果。

步骤4-5：将中间向量重新分割为高度分支和宽度分支。为了调整每个属性的通道时间的相关性，各添加一个卷积到两个分支，并用Sigmoid函数激活，从而生成两个不同的空间位置的特定属性的注意权重。通过比例调节分支来平衡上述两个空间分支的比例，即调节两个注意权重所占最终权重的比率。将三个分支通过乘法聚合在一起，输出作为特定视图性属性在相应区域中的整体注意力权重。设Y_a为整体注意力权重，其数学表达式为：

Y_a＝σ(f₃(F))×σ(f₁(F₁))×σ(f₂(F₂)) (6)

F₁表示分离F′后得到的高度分支，F₂表示分离F′后得到的宽度分支，F表示输入整个区域注意力的初始特征属性，f₁表示添加在高度分支的卷积，f₂表示添加在宽度分支的卷积，f₃表示添加在比例调节分支的卷积。

步骤5：设计最终属性识别单元计算方式及损失函数，具体包括：

步骤5-1：设计最终属性识别单元计算方式；

步骤5-1.1：整个模型包括两个分支，以两个分支输出值作为两个分支对最后属性识别单元的贡献。获取视角预测分支输出的视角置信度值。

步骤5-1.2：获取注意力分支输出的注意力权重值；

步骤5-1.3：将视角置信度值与注意力权重值按元素相乘，添加的BatchNormalization层进行归一化后输出最终属性识别结果。

步骤5-2：设计损失函数；

步骤5-2.1：视角置信度值损失采用负对数似然损失损失函数，负对数似然损失函数如下所示：

Loss_vp＝-log(Y_vp1) (7)

步骤5-2.2：属性识别类别损失采用加权交叉熵损失损失函数，负对数似然损失函数如下所示：

N,M表示训练集中图像个数和属性个数，y_ij表示第i张图像存在的第j个属性，表示属性识别预测。w_j表示第j个属性的权重，用于缓解属性类别的正负样本分布不平衡问题，r_j表示存在第j个属性的正样本比率。

步骤5-2.3：用权重调节两种损失函数的比例，将加权后两种损失相加得到最终的损失函数，最终损失函数如下所示：

Loss＝αLoss_vp+βLoss_a (10)

步骤6：在公开的行人属性识别数据集上训练模型，具体包括：

为了避免数据的不平衡和过拟合，采用随机裁剪策略对数据进行扩充。在训练过程中，图像被调整大小及归一化为256×192，每次迭代的批次数量选取为64，一共迭代60～80个epoch，优化方法选择带0.90～0.99动量的随机梯度下降，权重衰减为5×10^-5。当处理浅层视角性特征属性时，学习率设为0.1，而在处理更深层次的属性识别中，学习率设为0.01。

步骤7：应用于实际的视频监控图像来进行行人属性识别，识别结果如图5所示；

把实际的视频监控图像作为数据集，将已经在公开数据集上训练好的模型应用于实际视频监控，进行行人属性识别，得到属性识别结果，实践证明本发明具备潜力和实际应用价值。

步骤8：制作Qt前端界面具体展现识别结果，如图6所示；

加载实际的监控视频，输入训练好的模型的代码，建立完整的行人属性识别系统，展现具体的属性识别结果。

本说明书实施例所述的内容仅仅是对发明构思实现形式的例举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，其特征在于：包括如下步骤：

步骤1：设计Inception-v4主干网络；

步骤2：设置视角预测分支；

步骤3：将视角置信度与浅层特征融合组成视角性特征属性；

步骤4：通过区域注意力定位视角性特征属性的位置；

步骤5：设计最终属性识别单元计算方式及损失函数；

步骤6：在公开的行人属性识别数据集上训练模型；

步骤7：应用于实际的视频监控图像来进行行人属性识别；

步骤8：制作Qt前端界面具体展现识别结果。

2.根据权利要求1所述的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，其特征在于：所述步骤1具体包括：

1.1)：选用Inception-v4作为主干网络；Inception-v4由Stem、Inception-A、Reduction-A、Inception-B、Reduction-B和Inception-C模块组成，将Inception-A模块的输出作为视角预测器分支的输入，Inception-C模块的输出作为区域注意力分支的输入；

1.2)：深层网络训练中不可避免会产生大量的参数，为了减少参数，加快训练的速度，将重构的Inception网络去除最后的平均池化层、dropout层和Softmax函数激活，改为直接使用Batch Normalization层来归一化最终的属性识别单元。

3.根据权利要求1所述的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，其特征在于：所述步骤2具体包括：

2.1)：把Inception-v4主干网络中的浅层网络模块Inception-A的输出值作为视角预测器的输入；设计最大池化层，卷积层，自适应平均池化层和全连接层组成视角预测器；

2.2)：将最后的全连接层的输出通道数设为4，从而输出前、后、左和右四个不同的视角置信度；视角置信度Y_vp1，由公式(1)表示：

Y_vp1＝Softmax(W_fc2·(W_fc1·F′)) (1)

·表示两个矩阵的点积，W_fc1,W_fc2表示第一、二个全连接层的权重矩阵，F′表示经过最大池化层，卷积层，自适应平均池化层后输出的中间变量。

4.根据权利要求1所述的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，其特征在于：所述步骤3具体包括：

3.1)：修改视角预测器用于预测4个视角置信度值的全连接层的激活函数为Sigmoid函数，通过上采样，重新反馈到输入的浅层网络模块Inception-A；修改过的视角置信度Y_vp2，由公式(2)表示：

Y_vp2＝σ(W_fc2·(W_fc1·F′)) (2)

3.2)：将输入的浅层网络模块Inception-A提取的低级全局特征与修改后视角置信度相乘，组成特定的视角性特征属性。

5.根据权利要求1所述的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，其特征在于：所述步骤4具体包括：

4.1)：把Inception-v4主干网络中的深层网络模块Inception-C的输出值作为区域注意力的输入；区域注意力机制分为三个分支，分别为高度分支、宽度分支和比例调节分支；

4.2)：通过在高度分支应用自适应最大池化核，在高度方向上定位视频监控图像中的行人位置；高度分支输出由公式(3)表示：

GMP(x)＝max_w(x(h,i)) (3)

4.3)：通过在宽度分支应用自适应平均池化核，通过宽度分支在宽度方向上定位行人的某个特定属性的位置；高度分支输出由公式(4)表示：

4.4)：沿着与空间相关的维度拼接高度分支和宽度分支的输出，进行信息互补，拼接结果通过卷积后由h-swish函数激活得到中间结果，中间结构由公式(5)表示：

F′＝h-swish(f(concat(GMP(x),GAP(x))) (5)

f表示卷积操作，F′表示中间结果；

4.5)：将中间向量重新分割为高度分支和宽度分支，各添加一个卷积到两个分支，并用Sigmoid函数激活，生成两个注意力权重；通过比例调节分支来平衡上述两个空间注意权重所占最终权重的比例，得到整体注意力权重，优化对某个特定属性的定位区域；整体注意力权重Y_a由公式(6)表示：

Y_a＝σ(f₃(F))×σ(f₁(F₁))×σ(f₂(F₂)) (6)

F₁,F₂表示分离F’后得到的高度分支和宽度分支，F表示Inception-C模块的输出，f₁,f₂,f₃表示添加在高度分支、宽度分支和比例调节分支的卷积。

6.根据权利要求1所述的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，其特征在于：所述步骤5具体包括：

5.1)：设计最终属性识别单元计算方式；

5.1.1)：获取视角预测分支输出的视角置信度值；

5.1.2)：获取注意力分支输出的注意力权重值；

5.1.3)：将视角置信度值与注意力权重值相乘，使用BN层将相乘结果归一化，得到最后的属性识别结果；

5.2)：设计方法损失函数；

5.2.1)：设计视角置信度值损失函数如公式(7)所示：

Loss_vp＝-log(Y_vp1) (7)

5.2.2)：设计属性识别类别损失函数如公式(8)、(9)所示：

N,M表示图像个数和属性个数，y_ij表示第i张图像的第j个属性，表示属性预测；w_j表示第j个属性的权重，r_j表示存在第j个属性的正样本比例；

5.2.3)：通过权重系数调节两种损失函数的比例后，将两种损失相加得到最终的损失函数；最终损失函数如公式(10)所示：

Loss＝αLoss_vp+βLoss_a (10)。

7.根据权利要求1所述的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，其特征在于：所述步骤6具体包括：

在公开的行人属性识别数据集上训练模型，调整图像大小，设置超参数批次数量、迭代次数，优化方法、权重衰减系数和学习率。

8.根据权利要求1所述的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，其特征在于：所述步骤7具体包括：

把实际的视频监控图像作为数据集，将训练好的模型应用于实际的视频监控图像来进行行人属性识别，得到属性识别结果。

9.根据权利要求1所述的基于注意力机制的视频监控场景下行人视图属性的定位与识别方法，其特征在于：所述步骤8具体包括：