CN115439884A

CN115439884A - 一种基于双分支自注意力网络的行人属性识别方法

Info

Publication number: CN115439884A
Application number: CN202210978456.XA
Authority: CN
Inventors: 单彩峰; 刘振宇; 张彰; 张鹏; 陈宇
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-12-06

Abstract

本发明公开了一种基于双分支自注意力网络的行人属性识别方法，属于模式识别技术领域，包括如下步骤：图像数据采集及处理，构建并划分数据集；图像特征提取；构建双分支自注意力行人属性识别网络模型获取图像属性相关信息和上下文区域信息；训练输出性能良好的双分支自注意力网络模型；通过监控视频实时采集行人图像，利用训练完成的两分支自注意力网络模型进行行人属性的自动识别。本发明采用双分支自注意力网络获取属性相关信息和上下文关系，并结合约束损失等对属性特征分类进行限制，提升了属性分类性能，能够在大规模监控场景下稳定实现行人属性识别。

Description

一种基于双分支自注意力网络的行人属性识别方法

技术领域

本发明属于模式识别技术领域，具体涉及一种基于双分支自注意力网络的行人属性识别方法。

背景技术

行人属性是一系列人类高级的视觉语义特征，包含人口统计信息(性别、年龄等)以及外观属性(如发型、发色、衣服类型及颜色)等广泛的抽象特征。行人属性识别任务主要内容是给定一幅人的图像，从一个预定义的属性列表中描述这个人的特征，对行人分析、检测具有重要意义。行人属性识别可以在很多领域应用，例如，在城市安全和安防方面，可以快速从海量监控视频中寻找关键目标，对性别、年龄、衣着、步行姿态等属性进行解析；在商业方面的应用，现代城市服务提供商依靠大数据等信息技术，正逐渐为每个人提供智能化、个性化服务，从每个人外观、衣服风格中为其匹配更为精准的适用商品等；在图像检索方面，由于现代城市摄像头数量的日渐增多，每天都会产生大量图片视频数据，如何从这些数据中实现分类存储、图像检索面临巨大挑战，因此可以利用相关属性信息对其进行自动标注和分类，为缓解数据存储压力、高效检索图像提供重要依据。

行人属性识别在真实监控场景中仍然是一项具有挑战性的任务，在这些场景中，诸如遮挡、复杂背景和各种视图等噪声会降低识别精度。基于图片的行人属性识别分类算法的一般流程如下：1)数据划分，将图片裁剪成统一像素的图片集并进行数据集划分，2)输入图片，利用ResNet等骨干网络模型算法进行行人图像特征提取，使用分类器进行属性特征分类，3) 进行迭代训练，寻找最优值，并保存模型参数。目前属性识别技术大多是基于标准卷积神经网络设计的，通过采集监控场景下得到的行人样本并人工赋予标签，对识别模型进行训练，使模型从样本中学习到有用的外观表达和动作特征，并能够依据这些特征进行识别。

以往的工作主要从以下几个方面解决行人属性识别的任务：

1)在行人属性识别领域，通常需要同时分析几十个属性。在这些属性中，有些属性密切相关。比如，当“裙子”“长发”属性出现时往往会联系到“性别为女性”这一属性，服装类型的属性可以为判断年龄提供一定的信息。通过探索不同属性之间的相关性可以有效提升属性识别性能，先前方法大都忽略了这一点。

2)另外一方面，探索不同图像区域中的空间上下文关系也有助于属性识别。一个可以想象的例子是，当识别行人的性别时，人们倾向于关注多个区域，如头部周围、着装和携带物品的区域等，即需要考虑图片中存在的区域上下文关系。虽然深度卷积网络在行人属性识别方面取得了巨大成功，但上下文关系尚未得到充分利用。这是因为深度卷积网络中单元的感受野受到严重限制，可能无法了解全局背景并捕捉不同区域的长距离依赖性。

发明内容

为了解决上述问题，本发明提出了一种基于双分支自注意力网络的行人属性识别方法，首先挖掘属性之间的高阶信息，结合一阶信息并利用属性自注意力模块和约束函数获取属性相关性信息，然后利用聚合上下文信息和上下文自注意模块实现捕捉不同区域长期依赖性，从获取属性相关性特征、属性上下文关系两方面高性能地实现行人属性识别，在提高检测准确性同时，拓宽属性识别应用场景，预期创造可观的经济价值。

本发明的技术方案如下：

一种基于双分支自注意力网络的行人属性识别方法，包括如下步骤：

步骤1、图像数据采集及处理，构建并划分数据集；

步骤2、图像特征提取；

步骤3、构建双分支自注意力行人属性识别网络模型获取图像属性相关信息和上下文区域信息，双分支包括属性分支和上下文分支，属性分支包括二阶自注意力模块和属性自注意力模块，上下文分支包括区域特征映射模块和上下文自注意力模块；

步骤4.训练输出性能良好的双分支自注意力网络模型；

步骤5、通过监控视频实时采集行人图像，利用训练完成的两分支自注意力网络模型进行行人属性的自动识别。

进一步地，步骤1的具体过程为：从监控视频中提取行人图像，并进行属性标注和裁剪；将图像统一裁剪成大小为256×128像素的图片，构成图片数据集D，并将数据集D划分为训练集D_train和测试集D_test。

进一步地，步骤2的具体过程为：使用ResNet50作为骨干网络，利用批处理方法批量输入图片，得到特征图X∈R^C×H×W，其中H、W和C分别代表特征图的长度、宽度和维度。

进一步地，步骤3的具体过程为：

步骤3.1、基于二阶自注意力模块和属性自注意力模块计算属性分支的预测值

；

步骤3.2、基于上下文自注意力模块计算上下文分支的预测值

；

步骤3.3、最终分类预测结果表示为

和

的平均值，利用Sigmoid进行加权处理，获取最终属性分类结果，为了与实例标签值对应，将最终属性分类结果大于0.5的取1，小于等于0.5的取0。

进一步地，步骤3.1的具体过程为：

二阶自注意力模块的计算过程如下：

步骤3.1.1、特征图X通过1×1卷积得到维度为

的三维张量，再改变该张量的维度变换成二维矩阵

Q＝H×W，相同操作重复三次生成特征图X的三个投影，分别为K_S、 Q_S和V_S，维度均为

其中，输入通道为C维，输出通道为

维，r表示采样降低倍率；

步骤3.1.2、使用投影K_S和投影Q_S计算协方差矩阵

如式(1)所示，

其中，I和1分别是Q维单位矩阵和全一矩阵；

步骤3.1.3、采用Softmax函数处理协方差矩阵Σ并采用Q作为协方差矩阵的缩放因子；

步骤3.1.4、将步骤3.1.3得到的结果与V_S点乘得到

如式(2)所示，并将

展开为形状为

的三维张量；

步骤3.1.5、最后将

和特征图X通过1×1卷积得到的维度为

一阶特征拼接起来，共同作为后续属性自注意力模块的输入；

属性自注意力模块的计算过程如下：

步骤3.1.6、输入形状为

的特征图通过不同的1×1卷积并将最后两维数据维度变换成一维以获得K_A、Q_A和V_A，K_A、Q_A和V_A分别表示属性自注意力模块的三个输入投影，其中Q_A,

N_H和M分别是注意力头数和属性个数，D_A表示属性特征映射的维度；

步骤3.1.7、根据式(3)，将矩阵K_A和矩阵Q_A的转置相乘，在通过Sigmoid操作得到各属性的注意力分数

该分数代表了输入中包含某种属性的概率，式中M表示属性个数；

步骤3.1.8、将上述注意力分数

与V_A相乘得到各注意力头数对应的预测值

步骤3.1.9、然后沿N_H维度对

进行求和，将其拉伸成一个维度为M的属性自注意力模块初步预测结果

步骤3.1.10、设计约束损失函数

来限制预测分数，如式(4)所示，

其中，ω_j表示训练数据集中第j个属性所占的权重，M代表属性个数；p_ij、y_ij分别表示第i个样本的第j个属性的预测值和标签值；

步骤3.1.11、最后，对初步预测结果

进行线性化处理，并且与K_A相加，得到属性分支最终预测结果

表示为式(5)，

其中，W^A∈R^M×M表示线性化处理分类器参数。

进一步地，步骤3.2的具体过程为：

步骤3.2.1、首先采用标记化方案将特征图聚合成K个紧凑视觉标记，其中K＜＜H×W；对于输入特征图X∈R^H×W×C，通过局部聚合描述符向量计算核进行标记软分配，并计算第k 个视觉标记T_k∈R^K×C，如式(6)所示，

其中，α_k(x_l)表示将第l个局部特征x_l分配给第k个视觉标记的加权值，c_k是第k个可学习的锚点；

步骤3.2.2、利用自注意模块来捕获不同视觉标记之间的上下文关系；采用多头自注意力层和前馈神经网络在所有视觉标记之间传播消息，它们的状态通过等式(7)更新，

其中，d₁表示调节因子；Q_c,

是通过对输出全局特征T_k进行线性变换得到，Q_c,K_c,V_c表示上下文自注意力的三个输入投影；W^T∈R^M×M代表线性化处理中分类器参数；

步骤3.2.3、然后，将Q_c,K_c进行矩阵相乘，再通过Softmax操作和Dropout操作，随机裁剪50％参数得到上下文注意力分数，通过与V_c相加引入残差结构来加速收敛；最后，通过线性层和批标准化操作获得上下文分支预测值

如式(8)所示，

其中，BN代表批标准化操作，W^C∈R^M×C代表线性化处理中分类器参数。

进一步地，步骤4的具体过程为：

首先采用训练集D_train训练模型，学习率设置为0.0001，迭代次数为30次，优化器采用 Adam优化器，每迭代一次输入64幅图像；

然后计算两个分支损失函数和约束损失，得到的总损失

，最小化损失值；其中，两个分支损失函数

和

均采用如式(9)所示的加权交叉熵损失函数，

其中，ω_j表示训练数据集中第j个属性所占的权重；M代表属性个数；p_ij、y_ij表示第i 个样本的第j个属性的预测值和标签值；

整个双分支自注意力网络模型总的损失函数

表示为下式(10)，根据得到的总损失

最小化损失值，

其中，λ₁,λ₂,λ₃分别为两个分支损失函数和约束损失函数的权重；

最后利用D_test测试模型，每次训练之后都在测试集D_test上进行测试，比较各测试结果，并保存测试集结果最好的网络模型参数。

本发明所带来的有益技术效果：

本发明采用两分支自注意力网络获取属性相关信息和上下文关系，并结合约束损失等对属性特征分类进行限制，提升了属性分类性能。本发明能够在大规模监控场景下稳定实现行人属性识别，可以应用于人员图像检索、安全安防检测、商业广告投放等领域，提高属性识别技术的性能和实用性，对加快科技发展，提高人民生活水平，促进社会生产力提高具有重要意义。

附图说明

图1为本发明基于双分支自注意力网络的行人属性识别方法的流程图；

图2为本发明双分支自注意力网络模型的整体结构示意图；

图3为本发明二阶自注意力模块模型的计算过程示意图；

图4为本发明属性自注意力模块的计算过程示意图；

图5为本发明上下文自注意力模块的计算过程示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

在行人属性识别领域中，常常需要将性别、年龄、太阳镜、服装类型、发型等数个属性集中分析。在这些属性中，有些密切相关，例如，“裙子”属性通常与“女性”属性相关联，服装类型属性可以提供一定的信息来判断年龄，因此探索属性间关系有助于提升属性识别性能。探索不同图像区域的上下文关系同样有助于属性识别。例如，当识别一个行人的性别时，人们倾向于关注多个区域，如头部周围区域、身体穿着等，并考虑它们的上下文关系，因此本发明阐述一种基于双分支自注意力网络的行人属性识别方法，综合获取输入图片属性相关信息和上下文区域信息，高性能实现行人属性识别所必需的“图片特征提取”、“属性特征分类”等关键算法。

本发明为行人属性识别提出一种新颖的双分支网络(即属性分支和上下文分支)，属性分支提出二阶自注意力模块来充分利用有限特征维度信息，进一步提高特征表示能力；上下文分支使用标记化方案来聚合特征图，并提出上下文自注意模块来探索基于多个视觉标记的上下文关系。

如图1所示，一种基于双分支自注意力网络的行人属性识别方法，包括如下步骤：

步骤1、图像数据采集及处理，构建并划分数据集。从监控视频中提取行人图像，并进行属性标注和裁剪；将图像统一裁剪成大小为256×128像素的图片，构成图片数据集D，并将数据集D划分为训练集D_train和测试集D_test。

步骤2、图像特征提取。使用ResNet50作为骨干网络，利用批处理方法批量输入图片，得到特征图X∈R^C×H×W，其中H、W和C分别代表特征图的长度、宽度和维度，在本发明实施例中分别设为8、4和2048。或者，使用层数更深、参数更多的ResNet101网络模型进行图像特征提取，从而达到更好的识别精度。

步骤3、构建如图2所示的双分支自注意力行人属性识别网络模型获取图像属性相关信息和上下文区域信息；双分支包括属性分支和上下文分支，属性分支包括二阶自注意力模块和属性自注意力模块，上下文分支包括区域特征映射模块和上下文自注意力模块。模型总损失包含三部分，其中属性分支损失、上下文分支损失分别用

表示，属性分支中约束损失则用

表示。

步骤3.1、基于二阶自注意力模块和属性自注意力模块计算属性分支的预测值；具体过程如下：

二阶自注意力模块的计算过程如图3所示，

步骤3.1.1、特征图X通过1×1卷积(输入通道为C维，输出通道为

维，其中r表示采样降低倍率，在本发明实施例中r设为8)得到维度为

的张量，再改变该张量的维度变换成二维张量

Q＝H×W，相同操作重复三次便生成了特征图X的三个投影，表示为K_S、Q_S和V_S，维度均为

步骤3.1.2、使用投影K_S和投影Q_S计算协方差矩阵

如式(1)所示，

其中，I和1分别是Q维单位矩阵和全一矩阵；

步骤3.1.3、采用Softmax函数处理协方差矩阵Σ并采用Q作为协方差矩阵的缩放因子，此步骤可以起到调节的作用；

步骤3.1.4、将步骤3.1.3得到的结果与V_S点乘得到二阶自注意力值

如式(2)所示，并将

展开为形状为

的张量；

步骤3.1.5、最后将

和特征图X通过1×1卷积得到的维度为

一阶特征拼接起来，共同作为后续属性自注意力模块的输入。

上述二阶自注意力模块输出将作为下面介绍的属性自注意力模块的输入，属性自注意力模块的计算过程如图4所示，

步骤3.1.6、将步骤3.1.5的输出特征图(形状为

)通过不同的1×1卷积并将最后两维数据维度变换(Reshape)成一维以获得K_A、Q_A和V_A三个矩阵，K_A、Q_A和V_A分别表示属性自注意力模块的三个输入投影，其中Q_A,

N_H和M分别是注意力头数和属性个数，D_A表示属性特征映射的维度，本发明实施例中设为256；

步骤3.1.8、将上述注意力分数

与V_A相乘得到各注意力头数对应的预测值

步骤3.1.9、然后沿N_H维度对

进行求和，将其拉伸成一个维度为M的属性分支初步预测结果

步骤3.1.10、为了确保属性特定特征的学习，设计了约束损失函数

来限制预测分数，如式(4)所示，

其中，ω_j表示训练数据集中第j个属性所占的权重，M代表属性个数；p_ij、y_i _j分别表示第i个样本的第j个属性的预测值和标签值；

步骤3.1.11、最后，对初步预测结果

进行线性化处理，用于提升模型鲁棒性，并且与K_A相加，得到属性分支最终预测结果

可以表示为式(5)，

其中W^A∈R^M×M表示线性化处理分类器参数。

步骤3.2、基于上下文自注意力模块计算上下文分支的预测值；

由于现实场景中监控相机视角的影响，图像经常会发生变形，但身体部位的位置和附带物品的位置往往有一定的关系，因此有必要探索上下文区域关系。在上下文分支中，从特征图中提取视觉标记，并进一步用于探索不同区域之间的上下文关系。具体过程如下，

步骤3.2.1、首先采用标记化方案将特征图聚合成K个紧凑视觉标记，其中K＜＜H×W。对于输入特征图X∈R^H×W×C，通过局部聚合描述符向量(Vector of LocallyAggregated Descriptors，VLAD)计算核(VLAD core)进行标记软分配，并计算第k个视觉标记T_k∈R^K×C，如式(6)所示。

其中，α_k(x_l)表示将第l个局部特征x_l分配给第k个视觉标记的加权值，c_k是第k个可学习的锚点。

步骤3.2.2、如附图5所示，利用自注意模块来捕获不同视觉标记之间的上下文关系。采用多头自注意力层和前馈神经网络(FFN)在所有视觉标记之间传播消息，它们的状态通过等式(7)更新，

其中，d₁表示调节因子，指输入维度除以多头注意力头数，本发明实施例中为256；Q_c,

是通过对输出全局特征T_k进行线性变换得到，本发明实施示例中的中间特征维度n_c1＝256，n_c2＝64，Q_c,K_c,V_c表示上下文自注意力的三个输入投影；W^T∈R^M×M代表线性化处理中分类器参数。

步骤3.2.3、然后，利用Q_c,K_c矩阵相乘以及Softmax操作并通过Dropout随机裁剪50％参数得到上下文注意力分数，通过与V_c相加引入残差结构来加速收敛。最后，通过使用线性层(FC)和批标准化操作(BN)获得上下文分支预测值

如式(8)所示，

步骤3.3、最终分类预测结果表示为

和

步骤4.训练输出性能良好的双分支自注意力网络模型。本发明通过迭代训练，寻找模型最优值，具体过程为：

然后计算两个分支损失函数和约束损失，得到的总损失

，最小化损失值；其中，两个分支损失函数

和

均采用如式(9)所示的加权交叉熵损失函数，

整个双分支自注意力网络模型总的损失函数

可以表示为下式(10)，根据得到的总损失

最小化损失值，

其中，λ₁,λ₂,λ₃分别为两个分支损失函数和约束损失函数的权重，本发明实施例中设λ₁＝1,λ₂＝1,λ₃＝0.1。

或者，也可以使用AdamW优化器算法进一步加速迭代过程。

为了证明本发明的可行性与优越性，采用三个常用属性识别数据集(PETA、PA00K、RAP) 上进行对比实验，基准模型采用ResNet50和线性分类器，本模型测试结果在上述数据集上的识别准确率分别达到了87.70％、82.27％、83.68％，相较于基准模型的准确率分别提升了2.59％、 2.89％、5.20％，充分说明了本发明能够有效改善行现有人属性识别方法的应用效果。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。