CN116434010A

CN116434010A - 一种多视图的行人属性识别方法

Info

Publication number: CN116434010A
Application number: CN202310423403.6A
Authority: CN
Inventors: 于洋; 刘龙龙; 朱叶; 郝小可; 郭迎春; 师硕; 阎刚; 吕华
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-07-14

Abstract

本发明为一种多视图的行人属性识别方法，从语义相关性、区域相关性以及语义区域之间的相关性三个视图识别属性，使用语义图卷积学习语义相关性，使用视觉图卷积学习区域相关性，联合语义关联图和视觉关联图构建合成图，通过合成图图卷积来学习语义与区域相关性，利用融合两图特征信息的嵌入图间边预测属性。对于损失函数而言，传统的方法都对所有数据集采用相同的加权策略，导致在某个数据集上的权重过重和过轻，本方法对不同的数据集采用不同的损失函数加权方式，对不同的数据集有效地缓解属性不平衡问题。

Description

一种多视图的行人属性识别方法

技术领域

本发明涉及用于识别图形的记录载体的行人属性识别技术领域，具体地说是一种多视图的行人属性识别方法。

背景技术

行人属性识别指的是给定一张行人图片和每个数据集预定的属性列表，行人属性识别算法的目的是从这张图片中识别出行人具有哪些预定的属性，属性信息一般为大致年龄、性别、穿着和行为动作等。属性信息不仅包含长发、裙子等低级语义，还包含年龄、性别等高级语义，这些信息与低级语义不同，对视角变换和成像条件的变化比较鲁棒。由于行人属性识别在公共安全和智慧安防等领域的广泛应用，已经成为了计算机视觉领域的热点。

行人属性识别的方法一般分为两种方法，一种方法比较直观，直接对属性进行定位，根据人体先验知识或者借助其他模型来提取局部特征，使用局部特征来辅助全局特征识别属性，例如使用注意力机制可以提取特定的属性特征以预测相应属性，但这类方法容易受光照、遮挡、人体姿态变化等外部因素的影响，同时一些高级语义属性对应的视觉信息又比较抽象，以及一些细粒度属性对应区域较小，使得网络更加地难以定位属性。另一种方法则是学习属性间的相关性。行人的属性类别较多，如性别、年龄、太阳镜、服装类型和发型。在这些属性中，有些属性是密切相关的。例如，属性“裙子”经常与属性“女性”相关联，服装类型的属性可以为判断年龄提供一定的信息。因此，属性相关性可以提高行人属性识别的性能。面对不同外观、部位遮挡以及分辨率低等挑战时，需要根据上下文信息来推理该区域的信息，例如在识别人的性别时，人们往往会关注多个区域，比如头部、人体和携带物品的区域，并考虑它们的上下文关系。CN108921051A对行人的属性按照区域进行分组，使用注意力机制学习每个组对应的特征，结合循环神经网络学习属性组间特征的关联，但属性组内特征关系只能通过全连接层学习，无法有效地学习到所有属性之间的关系。CN109190472A将视觉特征和属性特征送入长短期记忆网络中，以学习属性与视觉特征的关系，但长短期网络只能学习到属性之间单向的关系，行人属性之间的关联往往是双向的，例如‘裙子’属性往往可以推断出‘女性’属性，‘女性’属性会增大‘裙子’属性出现的概率。CN115482584A公布了一种基于GCN的行人属性识别方法，它使用行人的轨迹数据转化为图形式表达，这样可以学习空间之间的联系，但是它无法学习属性之间的关联。同时行人属性不平衡的问题也是难点之一，对损失函数进行加权、分类前使用批归一化是缓解行人属性不平衡的常用手段，但不同行人属性数据集的不平衡性严重程度不同，对不同的数据集训练时采用一致的损失函数加权方式很难起到良好的效果。此外，低分辨率、部分身体遮挡、复杂的外观变化均为行人属性识别需要解决的重要问题。

发明内容：

针对现有技术的不足，本发明所要解决的技术问题是：提供一种多视图的行人属性识别方法，使用图卷积学习语义关联、区域关联以及语义与区域之间的关联。使用属性特定的特征向量构建语义图，利用图卷积学习语义相关性；根据视觉图特征构建视觉图，利用图卷积学习区域相关性；联合视觉图与语义图构建合成图，结合图卷积构建语义与区域相关性。本发明方法还针对数据集的特性对损失函数使用不同的加权策略。本发明方法克服了低分辨率、部分身体遮挡、复杂的外观变化以及不同数据集的属性的不平衡性导致的行人属性识别率较低的问题。

本发明解决该技术问题所采用的技术方案是：

一种多视图的行人属性识别方法，该识别方法包括以下内容：

对公开数据集进行属性分组，利用公开数据集行人图片通过ResNet-101网络的前三层处理后进入第四层分成两个分支，两个分支分别获得语义特征图

和视觉特征图/>

前三层共享权重，第四层单独训练权重不共享；/>

经过池化后得到特征向量/>

经过分类器进行语义分类预测，并使用语义约束损失/>

约束；

同时

经过多个全连接层得到属性特定的特征向量/>

每个属性特定的特征向量为语义图的一个节点，所有的属性特定的特征向量/>

构成语义图，语义图邻接矩阵根据公开数据集的先验知识被构建，语义图和语义图邻接矩阵输入语义图卷积GCN中，学习语义的相关性，并得到语义关联图/>

语义关联图/>

经过分类器进行语义图预测，并使用语义图约束损失/>

约束；

通过软分配策略得到多个视觉聚类特征/>

每个视觉聚类特征对应每个属性组的区域特征，多个视觉聚类特征/>

构成视觉图，根据聚类之间的相似度和拓扑距离得到视觉图邻接矩阵，视觉图和视觉图邻接矩阵输入视觉图卷积GCN中，学习属性组对应的区域之间的相关性，得到视觉关联图/>

视觉关联图/>

经过分类器进行视觉图预测，并用视觉图约束损失/>

约束；

联合语义关联图与视觉关联图构建合成图，合成图中通过语义关联图和视觉关联图之间的图间边相互嵌入，指导对方的学习，构建语义与区域相关性；

利用公开数据集进行训练后用于行人属性识别。

在合成图的构建过程中，利用语义关联图

与视觉关联图/>

经过融合操作、全连接层获得图间边/>

语义关联图/>

的更新分为图内更新和图间更新，其中图间更新由图间边引导；语义关联图/>

经过一个语义图卷积进行图内更新；

视觉关联图

的更新分为图内更新和图间更新，视觉关联图/>

经过一个视觉图卷积进行图内更新；

图间更新过程是：语义关联图

或视觉关联图/>

分别与语义关联图映射矩阵/>

或视觉关联图映射矩阵/>

相乘，再与图间边/>

进行融合操作，给定语义关联图权重矩阵W^A,V和视觉关联图权重矩阵W^V,A，将与图间边融合后的结果分别与语义关联图权重矩阵W^A,V或视觉关联图权重矩阵W^V,A各自进行矩阵相乘操作，完成视觉关联图和语义关联图的图间更新；

语义关联图和视觉关联图的图间更新结果

再分别与语义关联图的图内更新结果、视觉关联图的图内更新结果进行融合操作，最后对融合后的结果分别经过一个全连接层后获得视觉嵌入图/>

和语义嵌入图/>

视觉嵌入图/>

图间边/>

和语义嵌入图/>

再经过融合操作、一个全连接层后获得更新后的嵌入图间边/>

更新后的嵌入图间边

再经过嵌入图间边分类器进行嵌入图间边预测，并用合成图约束损失/>

约束。

多视图的行人属性识别方法的具体步骤是：

第一步，对行人图像进行预处理和特征提取：

将行人图片调整为256×128后，使用随机水平翻转、色调和饱和度、旋转、平移、裁剪、擦除和添加随机高斯模糊来增强训练图像，通过ResNet-101以获得第i张图片的语义特征图

和视觉特征图/>

ResNet-101的前三层共享权重，第四层分成两个分支并单独训练不共享权重；其中视觉图分支中去除ResNet-101第四层中的下采样和该部分的通道增加操作；

第二步，语义图学习语义相关性：

根据上述第一步得到的语义特征图

通过语义约束损失约束得到每个属性特定的特征向量，使用属性特定的特征向量构建语义图，使用训练集中属性的条件概率构建邻接矩阵，以进行图卷积，然后每个节点得到相应的属性概率，使用损失函数约束语义图的训练；

第2.1步，使用语义约束损失约束得到的属性特定特征向量：

将从ResNet-101提取到的语义特征图

经过全局平均池化得到特征向量/>

其中c为/>

的通道数；/>

经过由输出维度为属性个数的全连接层、批归一化和激活函数构成的语义分类器得到语义分类预测结果/>

语义分类器在数学上表示为：

其中W^A,1表示全连接层的参数，σ是sigmoid函数，BN表示批量归一化层。利用语义分类预测使用语义约束损失函数约束。

将

经过不同的输出维度为d的全连接层得到不同属性特定的特征向量/>

此时全连接层的数量与属性的个数一致，在数学上表示为：

是全连接层中第j个属性的参数，得到的/>

d为特征向量/>

的长度；

第2.2步，语义图卷积：

使用所有属性特定的特征向量

融合为/>

作为语义图的输入，对语义图进行语义图卷积，以挖掘行人属性之间的语义关系，这部分为图内更新，在面对低分辨率等困难导致一些细粒度属性难以识别时，借助其他属性的预测和属性之间的语义关系来预测这部分细粒度属性，用以下公式表示：

其中A^A是可学习的邻接矩阵，

为语义图卷积的输出，即语义关联图，/>

为邻接矩阵A^A取倒数和平方根后的对角线组成的矩阵，I为单位矩阵。邻接矩阵A^A是根据行人属性的训练集的先验知识得到的。训练集中一种属性出现时另一种属性的条件概率P可以通过以下公式得到：

P_ab＝M_ab/N_b (4)，

其中P_ab表示b属性出现时a属性出现的概率，M_ab表示训练集中a属性和b属性同时出现的次数，N_b表示b属性出现的次数，将训练集中某个属性出现的频率作为该属性的概率。A^A由P_ab根据阈值归一化得到。

语义图

先与权重矩阵W^A相乘，然后与归一化后相邻矩阵/>

相乘，实现图卷积。将W^A设置为d×d的大小，d为特征向量的长度，语义关联图/>

的大小与/>

相同。

经过由全局平均池化GAP、批归一化BN和sigmoid激活函数构成的语义图分类器得到语义图预测结果/>

并用语义图约束损失约束，语义图分类器公式如下：

第三步，视觉图学习区域相关性：

根据从ResNet-101提取到的视觉特征图

构建视觉图，使用拓扑关系和相似度构建邻接矩阵，进行视觉图卷积，具体步骤是：

第3.1步，对视觉特征图

使用软分配策略构建视觉图：

为了学习图片中的区域关系，将从ResNet-101提取到的视觉特征图

经过软分配策略映射到各个聚类上，每个聚类表示一组属性，这组属性对应着相同的视觉聚类特征；在软分配策略中，/>

的每个局部特征都对每个聚类有着权重，所有局部特征对同一个聚类的贡献和为1，得到的视觉聚类特征是通过分配权重对变换的局部特征进行加权求和来计算的；这样网络自己学习聚类可以应对人类姿势和相机视角的变化，得到的视觉聚类特征为

多个视觉聚类特征/>

构成视觉图，其中m表示视觉图的节点数量，不同的数据集有着不同数量的视觉图节点，l表示每个节点特征向量的长度，计算公式如下：

其中，A^VS为映射矩阵，表示在每个位置使用softmax进行规范化；W^vs为权重矩阵；a_t,s∈A^VS的计算公式如下：

a_t,s∈A^VS表示视觉特征图

第s个点/>

赋给视觉图/>

节点t的置信度，/>

为计算赋值权重的可训练权重矩阵；

第3.2步，根据聚类之间的拓扑距离和相似度构建邻接矩阵进行图卷积：

视觉图就会根据这些属性组对应区域之间的距离和相似程度来更新，从而学习上下文的关系，在遇到外观变化和部分身体被遮挡时，可以通过其他区域来识别难以识别的区域对应属性，这部分图卷积为图内更新，公式如下:

其中

为视觉图卷积得到的结果，即视觉关联图，W^V1∈R^l×l和W^V2∈R^l×l为可训练的权重矩阵。A^V1∈R^m×m和A^V2∈R^m×m为邻接矩阵，A^V1由聚类之间相似度的归一化结果得到的。首先计算k节点和p节点两个局部区域的成对相似度：

其中

和/>

分别为视觉特征的变换，对/>

进行归一化得到A^V1，公式如下：

其中m为视觉图节点的数量。

A^V1由聚类之间拓扑距离的归一化结果得到的。公式如下：

其中d(·)表示计算拓扑距离操作，视觉关联图

利用视觉图分类器进行预测，对于/>

的每个节点/>

都经过视觉图分类器得到视觉图节点预测结果/>

所有节点的输出构成了视觉图预测/>

所述视觉图分类器也包括全连接层、批量归一化层和sigmoid函数，视觉图分类器中的全连接层输出维度为该节点对应属性组所包含的属性个数，视觉图分类器的公式如下：

其中，

表示视觉图分类器的全连接层的参数；

使用视觉图约束损失对视觉图分类器进行约束，以使每个视觉聚类特征能学习到对应属性组的区域特征；

第四步，合成图图卷积：

为了能更好地学习属性之间的视觉语义关系，将语义关联图与视觉关联图合成为合成图，具体是：

第4.1步，联合语义关联图和视觉关联图构建合成图：

语义关联图的所有节点与视觉关联图的所有节点相连，形成图间边

图间边的特征由两端节点生成，图间边/>

的公式如下：

其中

为视觉关联图映射矩阵，/>

为全连接层，c(·)为融合操作，图间边/>

R^K×m×d，K为语义关联图节点的个数，即属性的个数，m为视觉关联图节点的个数，d为语义关联图节点向量的长度，图间边/>

的个数为语义图节点的个数与视觉图节点的个数乘积；合成图/>

由视觉关联图/>

语义关联图/>

和图间边/>

组成；

第4.2步，构建合成图图卷积策略：

在合成图

中，语义关联图和视觉关联图的分为图内更新和图间更新，其中图间更新由图间边引导。语义关联图的图内更新为语义图卷积，另一部分则是由图间边结合视觉关联图引导生成，视觉关联图经过映射矩阵映射到d维，然后与图间边融合，再与权重矩阵计算加权和，这部分是为了将视觉信息嵌入到语义关联图中，利用区域关系指导语义关系的学习，语义关联图的图间更新用如下的公式表示：

其中

为语义关联图图间更新得到的结果，/>

为图间边，c(·)为融合操作，/>

为视觉关联图映射矩阵，将视觉关联图的维度映射到与语义关联图相同的维度，W^V,A为视觉关联图权重矩阵，从图间边和视觉关联图得到的信息要分配给每个语义关联图的节点，连接语义关联图节点的所有图间边和视觉关联图节点对该节点更新的贡献和为1；

语义关联图的更新公式如下：

其中

为更新后得到的语义嵌入图，/>

为输入维度为2d、输出维度为d的全连接层，c(·)为融合操作，W^A为语义图卷积的权重矩阵，视觉关联图与语义关联图的更新类似，其中视觉关联图的图间更新公式如下：

其中

为视觉关联图图间更新得到的结果，/>

为图间边，c(·)为融合操作，/>

为语义关联图映射矩阵，W^A,V是语义关联图权重矩阵；

视觉关联图的更新公式如下：

其中

为更新后得到的视觉嵌入图，/>

为输入维度为2l、输出维度为l的全连接层，c(·)为融合操作，W^V1和W^V2为视觉图卷积的权重矩阵；

在语义关联图和视觉关联图完成图间更新操作后，图间边进行更新，它由图间边

视觉嵌入图/>

以及语义嵌入图/>

经过输入维度为3l、输出维度为l的全连接层得到，公式如下：

其中

为输入维度为3l、输出维度为l的全连接层，c(·)为融合操作，/>

为映射矩阵，得到的嵌入图间边/>

和/>

大小相同。

第4.2步，嵌入图间边预测属性：

嵌入图间边经过嵌入图间边分类器得到嵌入图间边预测结果

所述嵌入图间边分类器包括全局最大池化、全局平均池化、批量归一化层以及激活函数，嵌入图间边分类器的公式如下：

其中GMP为全局最大池化，GAP为全局平均池化，BN为批归一化，σ为激活函数，使用

作为最终预测，并用合成图约束损失/>

约束。

第五步，加权损失函数：

所用损失函数为基于二分类聚损失函数(polyloss)的适应二分类聚损失函数。用于指导整个网络训练的损失有四个，一个是语义约束损失，两个是语义图约束损失和视觉图约束损失，一个是合成图约束损失。二分类聚损失函数损失由许多个多项式组成，将二分类交叉熵损失函数和二分类焦点损失函数统一起来，根据行人属性数据集的不平衡性使用了更好的损失加权方式，在二分类聚损失函数的基础上提出了适应二分类聚损失函数并将它应用于这四个损失(参见公式(20))，以语义图中属性特征的损失为例，可以写成：

其中

为二分类交叉熵损失函数，∈为超参数，n为样本数量，i、j分别表示第i张图片第j个属性，p_t表示属性对于目标类别的预测值，可以由如下公式表示：

ρ_ij是用于缓解行人属性识别中的不平衡数据问题的惩罚系数。在网络中使用了两种策略。我们用一个数据集中属性正样本率来衡量属性不平衡性，每个属性都有一个正样本率，其中j属性的正样本率的公式如下：

r_j＝N_j/N (23)，

其中N_j表示训练集中j属性出现的次数，N表示训练集的所有样本数量。

我们认为一个数据集中所有属性正样本率的最大值与最小值的比值大于100为不平衡性严重，小于100则不平衡性不严重。该比值如下：

r＝Max(r₁,r₂,...,r_j)/Min(r₁,r₂,...,r_j)

(24)，

在行人属性识别的三个公开数据集中，PETA数据集的该比值为48，RAP数据集和PA-100K数据集的该比值为230和1880。对于PETA数据集(数据集量小，属性的不平衡不严重)采用指数策略，它采用了相对比较平滑的属性权重：

其中r_j是属性j的正样本比率。而对于RAP数据集和PA-100K数据集(属性的不平衡性严重，正样本少)采用了平方根策略，强调了更罕见正样本的属性：

语义图、视觉图以及合成图的损失也以类似的方式计算，分别为

以及/>

训练网络的总损失如下：

为了减少容易负样本的影响，在计算损失之前，令p＝max(p-0.15,0)。这些损失被联合和同时优化，以充分学习行人属性识别的属性和上下文关系。为了能够在合成图中有效地学习到语义和视觉的关系，需要使汇入到合成图的语义图和视觉图能够具有良好的语义、视觉特征，因此，在训练的前15个迭代只训练视觉关联图和语义关联图获取部分，视觉关联图和语义关联图获取部分的预测结果为语义图预测和视觉图预测的平均结果

为：

用于评估获取部分的精度；前15个迭代之后训练整个网络，网络的预测结果为嵌入图间边预测结果/>

用嵌入图间边预测结果/>

评估整个网络的精度。

本发明还保护一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序适用于被计算机加载时执行所述的多视图的行人属性识别方法。

与现有技术相比，本发明的有益效果是：

本发明的显著进步如下：

本发明从语义相关性、区域相关性以及语义区域之间的相关性三个视图识别属性，使用语义图卷积学习语义相关性，使用视觉图卷积学习区域相关性，联合语义关联图和视觉关联图构建合成图，通过新颖的合成图图卷积来学习语义与区域相关性，利用融合两图特征信息的嵌入图间边预测属性。对于损失函数而言，传统的方法都对所有数据集采用相同的加权策略，导致在某个数据集上的权重过重和过轻，本方法对不同的数据集采用不同的损失函数加权方式，且与主流的加权有所区别，对不同的数据集有效地缓解属性不平衡问题。

本发明突出的实质性特点是：

(1)本发明方法采用了多视图的方式来识别行人的属性，利用图卷积分别学习三种视图：语义关联、区域关联以及语义与区域的关联，将学习语义关联的语义图卷积得到的语义关联图和学习区域关联的视觉图卷积得到的视觉关联图联合构建合成图，将视觉关联图和语义关联图的信息结合起来得到图间边，合成图图卷积分为图内更新和图间更新。图内更新保证了区域关系和语义关系的稳定学习，图间更新则将包含两图信息的图间边和另一个图的信息结合起来，这样，最终的更新可以将两种关系有效地结合，最后嵌入图间边再将两图信息结合，经过对两种关系地多次结合，区域关系和语义关系都有效地指导了对方的学习。

(2)本发明方法对高级特征分别使用语义约束和软分配映射得到属性特定的特征向量和视觉聚类特征，使用属性特定的特征向量构建语义图，使用训练集属性间条件概率构建邻接矩阵，对语义图进行图卷积，学习语义相关性，使用视觉聚类特征构建视觉图，利用每个属性组对应区域接近的特点，每个聚类对应每个属性组的特征，使用聚类间相似性和拓扑距离构建邻接矩阵，对视觉图进行图卷积，学习区域相关性，两者都被损失约束，网络聚合学习。

(3)本发明针对行人属性公开数据集属性不平衡性问题严重程度不同的问题，对损失函数加权采用了不同的方式，与主流的两种加权方式相比，更有效地在多个数据集缓解相应的属性不平衡。在训练过程中，首先对语义图和视觉图进行训练，保证语义图和视觉图可以良好地学习到两种关系后，再对合成图训练。

(4)本发明与CN115346237A相比：CN115346237A中使用inception网络提取特征，使用SeNet注意力机制使网络更多地关注到行人属性的空间位置。注意力是有选择地集中在信息的一个离散方面的行为和认知过程，忽略其他可感知的信息。但是行人图像受光照影响和低分辨率等影响，导致行人属性难以定位。而且其在注意力后直接采用全连接层和激活函数用于分类，这很难学习到区域相关性和语义相关性，而本方法通过图卷积的方式可以良好地学习到两种相关性，利用其他属性或者区域来学习难以学习到的属性。

(5)本方法与CN114663908A相比：CN114663908A是一种基于多尺度特征融合的行人属性识别方法，它以VGG19为主干网络，将Conv4_3和Conv5_3卷积层后的特征输入特征融合模块，融合后的特征经过Resize和分类器后预测属性，融合多尺度的特征可以将低级语义特征和高级语义特征结合起来，但这种方法难以明确地学习区域相关性，也无法学习语义相关性，该方法针对数据集的不平衡性，对损失函数采用了指数加权方式，但不同数据集的不平衡性问题情况不同，采用统一的加权方式难以在每个数据集都起到良好的效果，本方法对不同的数据集采用不同的加权方式，且加权与主流的加权有所区别，在每个数据集上都起到了不错的效果。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明行人属性识别方法的流程示意图。

图2是本发明方法中语义关联图获取部分的网络结构示意图。

图3是本发明方法中视觉关联图获取部分的网络结构示意图。

图4是本发明方法中合成图构建和合成图图卷积过程的示意图。

具体实施方式

图1所示实施例表明，本发明方法的流程为：行人属性识别预处理和特征提取→语义图构建语义相关性→视觉图构建区域相关性→合成图构建和图卷积→加权损失函数。对公开数据集进行属性分组，每组中为一类属性，如年龄、性别为一组，采用ResNet-101为主干网络，对于第i个图像I_i，它首先利用公开数据集行人图片通过ResNet-101的前三层处理后进入第四层分成两个分支包括语义分支和视觉分支，分别获得语义特征图

和视觉特征图/>

前三层共享权重，第四层单独训练权重不共享。/>

经过池化后得到特征向量/>

经过分类器进行预测，并使用语义约束损失/>

约束。/>

经过多个全连接层得到语义图，进行语义图卷积，学习语义相关性，并使用语义图约束损失/>

约束。

经过软分配策略得到多个视觉聚类特征/>

多个视觉聚类特征/>

构成视觉图，进行视觉图卷积，学习区域相关性，并使用视觉图约束损失/>

约束。

然后将语义图卷积得到的语义关联图

和视觉图卷积得到的视觉关联图/>

构建合成图，利用合成图图卷积学习语义与区域之间的相关性，最后由合成图图卷积后的嵌入图间边/>

经过分类器得到每个属性的预测概率，并使用合成图约束损失/>

约束。使用语义约束损失/>

语义图约束损失/>

视觉图约束损失/>

和合成图约束损失/>

联合监督网络，损失函数为suit_polyloss，可以有效地缓解不同数据集的属性不平衡问题。

图2所示实施例表明，行人图像经过ResNet101提取到语义特征图

经过全局平均池化GAP得到特征向量/>

经过分类器得到属性预测向量，并被语义约束损失/>

约束，/>

也就成为语义约束的特征向量。/>

经过多个全连接层得到属性特定的特征向量

使用语义图约束损失/>

约束。

图3所示实施例表明，行人图像经过ResNet101提取到视觉特征图

通过软分配策略得到多个视觉聚类特征/>

构成视觉图，根据聚类之间的相似度和拓扑距离得到视觉图邻接矩阵，视觉图和视觉图邻接矩阵输入视觉图卷积GCN，学习区域相关性即属性组对应的区域之间的关系，并得到视觉关联图/>

并用视觉图约束损失/>

约束。

图4所示实施例表明，在合成图的构建过程中，以语义关联图

与视觉关联图/>

的节点为基础经过融合操作以及全连接层得到图间边/>

在合成图图卷积过程中，语义关联图/>

的更新分为图内更新和图间更新，其中图间更新由图间边引导。语义关联图/>

经过一个语义图卷积进行图内更新；

视觉关联图

的更新分为图内更新和图间更新，视觉关联图/>

经过一个视觉图卷积进行图内更新；

图间更新过程是：语义关联图

或视觉关联图/>

分别与语义关联图映射矩阵/>

或视觉关联图映射矩阵/>

相乘，再与图间边/>

进行融合操作，给定语义关联图权重矩阵W^A,V和视觉关联图权重矩阵W^V,A，将与图间边融合后的结果分别与语义关联图权重矩阵W^A,V或视觉关联图权重矩阵W^V,A各自进行矩阵相乘操作，完成视觉关联图和语义关联图的图间更新。

语义关联图和视觉关联图的图间更新结果再分别与语义关联图的图内更新结果、视觉关联图的图内更新结果进行融合操作，最后对融合后的结果分别经过一个全连接层后获得视觉嵌入图

和语义嵌入图/>

视觉嵌入图/>

图间边/>

和语义嵌入图/>

实施例1

本实施例多视图的行人属性识别方法，是一种使用图卷积学习语义和区域两种视图相关性并结合优化损失加权的行人属性识别方法，具体步骤如下：

第一步，对行人图像进行预处理和特征提取：

将行人图片调整为256×128后，使用随机水平翻转、色调和饱和度、旋转、平移、裁剪、擦除和添加随机高斯模糊等操作来增强训练图像，通过ResNet-101以获得第i张图片的语义特征图

和视觉特征图/>

ResNet-101的前三层共享权重，第四层分成两个分支并单独训练不共享权重；其中视觉图分支中去除ResNet-101第四层中的下采样和该部分的通道增加操作；/>

第二步，语义图学习语义相关性：

根据上述第一步得到的语义特征图

第2.1步，使用语义约束损失约束得到的属性特定特征向量：

将从ResNet-101提取到的语义特征图

经过全局平均池化得到特征向量/>

其中c为/>

的通道数；/>

语义分类器在数学上表示为：

将

此时全连接层的数量与属性的个数一致，在数学上表示为：

是全连接层中第j个属性的参数，得到的/>

d为特征向量/>

的长度；

第2.2步，语义图卷积：

使用所有属性特定的特征向量

融合为/>

其中A^A是可学习的邻接矩阵，

为语义图卷积的输出，即语义关联图，/>

为邻接矩阵A^A取倒数和平方根后的对角线组成的矩阵，I为单位矩阵。邻接矩阵A^A是根据行人属性的训练集的先验知识得到的。训练集中一种属性出现时另一种属性出现的条件概率P可以通过以下公式得到：

P_ab＝M_ab/N_b (4)，

语义图

先与权重矩阵W^A相乘，然后与归一化后相邻矩阵/>

的大小与/>

相同。

并用语义图约束损失约束，语义图分类器公式如下：

第三步，视觉图学习区域相关性：

根据从ResNet-101提取到的视觉特征图

第3.1步，对视觉特征图

使用软分配策略构建视觉图：

多个视觉聚类特征/>

a_t,s∈A^VS表示视觉特征图

第s个点/>

赋给视觉图/>

节点t的置信度，/>

为计算赋值权重的可训练权重矩阵；

其中

其中

和/>

分别为视觉特征的变换，对/>

进行归一化得到A^V1，公式如下：

其中m为视觉图节点的数量。

A^V1由聚类之间拓扑距离的归一化结果得到的。公式如下：

其中d(·)表示计算拓扑距离操作，视觉关联图

利用视觉图分类器进行预测，对于/>的每个节点/>

都经过视觉图分类器得到视觉图节点预测结果/>

所有节点的输出构成了视觉图预测/>

其中，

表示视觉图分类器的全连接层的参数；

第四步，合成图图卷积：

第4.1步，联合语义关联图和视觉关联图构建合成图：

图间边的特征由两端节点生成，图间边/>

的公式如下：

其中

为视觉关联图映射矩阵，/>

为全连接层，c(·)为融合操作，图间边/>

K为语义关联图节点的个数，即属性的个数，m为视觉关联图节点的个数，d为语义关联图节点向量的长度，图间边/>

由视觉关联图/>

语义关联图/>

和图间边/>

组成；

第4.2步，构建合成图图卷积策略：

在合成图

其中

为语义关联图图间更新得到的结果，/>

为图间边，c(·)为融合操作，/>

语义关联图的更新公式如下：

其中

为更新后得到的语义嵌入图，/>

其中

为视觉关联图图间更新得到的结果，/>

为图间边，c(·)为融合操作，/>

为语义关联图映射矩阵，W^A,V是语义关联图权重矩阵；

视觉关联图的更新公式如下：

其中

为更新后得到的视觉嵌入图，/>

视觉嵌入图/>

以及语义嵌入图/>

其中

为映射矩阵，得到的嵌入图间边/>

和/>

大小相同。

第4.2步，嵌入图间边预测属性：

嵌入图间边经过嵌入图间边分类器得到嵌入图间边预测结果

作为最终预测，并用合成图约束损失/>

约束。

第五步，加权损失函数：

其中

r_j＝N_j/N (23)，

其中N_j表示数据集中j属性出现的次数，N表示数据集的所有样本数量。

认为一个数据集中所有属性正样本率的最大值与最小值的比值大于100为不平衡性严重，小于100则不平衡性不严重。该比值如下：

r＝Max(r₁,r₂,...,r_j)/Min(r₁,r₂,...,r_j) (24)，

在行人属性识别的三个公开数据集中，PETA数据集的该比值为48，RAP数据集和PA-100K数据集的该比值为230和1880。对于PETA数据集采用指数策略，它采用了相对比较平滑的属性权重：

以及/>

训练网络的总损失如下：

为了减少容易负样本的影响，在计算损失之前，令p＝max(p-0.15,0)。这些损失被联合和同时优化，以充分学习行人属性识别的属性和上下文关系。为了能够在合成图中有效地学习到语义和视觉的关系，需要使汇入到合成图的语义图和视觉图能够具有良好的语义、视觉特征，因此，设置最大迭代次数，在训练的前15个迭代只训练视觉关联图和语义关联图获取部分，视觉关联图和语义关联图获取部分的预测结果为语义图预测和视觉图预测的平均结果

为：/>

用于评估获取部分的精度；前15个迭代之后训练整个网络，整个网络的预测结果为嵌入图间边预测结果/>

用嵌入图间边预测结果/>

评估整个网络的精度。

本实施实例分别在PETA、PA100K和RAP数据库上进行了实验。PETA数据集是由几个小的公开数据集组成的。该数据集由19000幅图像组成，分辨率从17×39到169×365像素不等。这19000幅图像包括8705个人，每个人都标注了61个二值属性和4个多类属性，并被随机划分为9500个用于训练、1900个用于验证和7600个用于测试。其中35个二分类属性用于行人属性识别实验。

RAP数据集来自真实的室内监控场景，选择26个摄像头进行图像采集，包含41585个样本，分辨率从36×92到344×554，具体有33268张用于训练的图像和33268张用于测试的图像。将72个细粒度属性(69个二值属性和3个多类属性)分配给该数据集的每一幅图像。明确注解了视点、遮挡方式和身体部位三个环境和语境因素。属性标注考虑了六个部分(时空信息、全身属性、附件、姿势和动作、遮挡和部位属性)。其中51个二分类属性用于行人属性识别实验。

PA-100K数据集是由598个真实的室外监控摄像头采集的图像构建的，它包括100000幅行人图像，分辨率从50×100到758×454，是迄今为止用于行人属性识别的最大数据集。整个数据集按8：1：1的比例随机分为训练集、验证集和测试集，该数据集中的每一幅图像都被26个属性标注，标签不是0就是1，分别表示相应属性的存在或不存在。

五个标准被用来评估PA-100K、PETA和RAP数据集上的网络的性能，包括基于标签的标准平均精度(mA)和四个基于实例的标准精度(Accu)、精度(Prec)、召回率和F1。

将提出的合成图方法与比较经典的几种方法进行对比，包括HP-Net，VeSPA，VAA，RA，LG-Net，JLPLS-PAA，CoCNN，ALM，MT-CAS，DA-HAR，SEMC，MCFL和SO-C-SAM。表1、表2和表3分别列出了在PETA、PA100K和RAP数据集上本发明方法与其他方法精度的对比，其中ours为本发明的方法。

表1 PETA数据集的比较结果

表2 PA100K数据集的比较结果

表3 RAP数据集的比较结果

从表1、表2以及表3可以看出，本发明方法在是三个数据库中的mA都高于其他几种方法，F1也与其他方法有着可比性。本发明方法在基于标签的度量比在基于实例的度量上表现更好地原因在于本申请采用损失函数加权方式进行约束，它可以针对不同的数据集更好地缓解属性分布的不平衡。

其中HP-Net，VeSPA，VAA，RA，LG-Net，JLPLS-PAA，CoCNN，ALM，MT-CAS，DA-HAR，SEMC，MCFL和SO-C-SAM都是本领域公知的。

对于三个公开数据集的属性分组如表4、表5以及表6所示。

表4PETA数据集的属性分组

表5RAP数据集的属性分组

表6PA100K数据集的属性分组

本发明多视图的行人属性识别方法，行人图像进行预处理和特征提取后，使用语义约束损失函数约束得到的属性特定的特征向量，构建语义图卷积得到语义关联图，学习语义相关性；对视觉特征图使用软分配策略得到多个聚类以构建视觉图，根据聚类之间的拓扑距离和相似度构建邻接矩阵进行图卷积得到视觉关联图，学习区域相关性；联合语义关联图与视觉关联图构建合成图，通过合成图图卷积构建语义与区域相关性，利用嵌入图间边预测属性。最后利用加权损失函数进行训练。本申请构建的合成图能够将区域关系和语义关系联合学习，使两种关系能够更好地指导对方的学习，采用分段训练的方法使网络先较好地学习到两种关系，再利用合成图互相指导对方的学习，根据行人属性数据集的不平衡性使用了更好的损失加权方式，在聚损失的基础上提出了适应聚损失，良好地解决了行人属性数据集不平衡性严重程度不同的问题。

本发明未述及之处适用于现有技术。

Claims

1.一种多视图的行人属性识别方法，该识别方法包括以下内容：

和视觉特征图/>

前三层共享权重，第四层单独训练权重不共享；/>

经过池化后得到特征向量/>

经过分类器进行语义分类预测，并使用语义约束损失/>

约束；

同时

经过多个全连接层得到属性特定的特征向量/>

语义关联图/>

经过分类器进行语义图预测，并使用语义图约束损失/>

约束；

通过软分配策略得到多个视觉聚类特征/>

视觉关联图/>

经过分类器进行视觉图预测，并用视觉图约束损失/>

约束；

利用公开数据集进行训练后用于行人属性识别。

2.根据权利要求1所述的多视图的行人属性识别方法，其特征在于，所述图间边为语义关联图

与视觉关联图/>

经过融合操作、全连接层获得的。

3.根据权利要求1所述的多视图的行人属性识别方法，其特征在于，在合成图的构建过程中，利用语义关联图

与视觉关联图/>

经过融合操作、全连接层获得图间边/>

语义关联图/>

经过一个语义图卷积进行图内更新；

视觉关联图

的更新分为图内更新和图间更新，视觉关联图/>

经过一个视觉图卷积进行图内更新；

图间更新过程是：语义关联图

或视觉关联图/>

分别与语义关联图映射矩阵/>

或视觉关联图映射矩阵/>

相乘，再与图间边/>

语义关联图和视觉关联图的图间更新结果

和语义嵌入图/>

视觉嵌入图/>

图间边/>

和语义嵌入图/>

更新后的嵌入图间边

约束。

4.根据权利要求1所述的多视图的行人属性识别方法，其特征在于，所有的约束损失均采用suit_polyloss函数，在suit_polyloss函数中引入用于缓解行人属性识别中的不平衡数据问题的惩罚系数ρ_ij；数据集中每个属性有一个正样本率，若数据集中所有属性正样本率的最大值与最小值的比值大于100则采用平方根策略，小于100则采用指数策略；

所述指数策略时：

所述平方根策略时：

其中r_j是属性j的正样本比率；y_ij为第i张图片第j个属性的标签值。

5.一种多视图的行人属性识别方法，其特征在于，所述方法的具体步骤是：

第一步，对行人图像进行预处理和特征提取：

和视觉特征图/>

第二步，语义图学习语义相关性：

根据上述第一步得到的语义特征图

第2.1步，使用语义约束损失约束得到的属性特定特征向量：

将从ResNet-101提取到的语义特征图

经过全局平均池化得到特征向量/>

其中c为/>

的通道数；/>

语义分类器在数学上表示为：

其中W^A,1表示全连接层的参数，σ是sigmoid函数，BN表示批量归一化层；

利用语义分类器对语义分类预测，并使用语义约束损失函数约束；

将

此时全连接层的数量与属性的个数一致，在数学上表示为：

是全连接层中第j个属性的参数，得到的/>

d为属性特定的特征向量/>

的长度；

第2.2步，语义图卷积：

使用所有的属性特定的特征向量

融合为/>

作为语义图的输入，对语义图进行语义图卷积，以挖掘行人属性之间的语义关系，用以下公式表示：

其中，A^A是可学习的邻接矩阵，

为语义图卷积的输出，即语义关联图，/>

为邻接矩阵A^A取倒数和平方根后的对角线组成的矩阵，I为单位矩阵；邻接矩阵A^A是根据行人属性的训练集的先验知识得到；

并用语义图约束损失约束，语义图分类器公式如下：

第三步，视觉图学习区域相关性：

根据从ResNet-101提取到的视觉特征图

第3.1步，对视觉特征图

使用软分配策略构建视觉图：

的每个局部特征都对每个聚类有着权重，所有局部特征对同一个聚类的贡献和为1，得到的视觉聚类特征是通过分配权重对变换的局部特征进行加权求和来计算的；这样网络自己学习聚类可以应对人类姿势和相机视角的变化，得到的视觉聚类特征为/>

多个视觉聚类特征/>

构成视觉图，其中m表示视觉图的节点数量，不同的数据集有着不同数量的视觉图节点，l表示视觉图中每个节点特征向量的长度，计算公式如下：

a_t,s∈A^VS表示视觉特征图

第s个点/>

赋给视觉图/>

节点t的置信度，/>

为计算赋值权重的可训练权重矩阵；

视觉图就会根据这些属性组对应区域之间的距离和相似程度来更新，从而学习上下文的关系，在遇到外观变化和部分身体被遮挡时，通过其他区域来识别难以识别的区域对应的属性，视觉图卷积为图内更新，公式如下:

其中

为视觉图卷积得到的结果，即视觉关联图，W^V1∈R^l×l和W^V2∈R^l×l为可训练的权重矩阵；A^V1∈R^m×m和A^V2∈R^m×m为邻接矩阵，A^V1由聚类之间相似度的归一化结果得到，A^V2由聚类之间拓扑距离的归一化结果得到；

视觉关联图

利用视觉图分类器进行预测，对于/>

的每个节点/>

都经过视觉图分类器得到视觉图节点预测结果/>

视觉关联图/>

的所有节点的输出构成了视觉图预测结果

所述视觉图分类器也包括全连接层、批量归一化层和sigmoid函数，视觉图分类器中的全连接层输出维度为节点对应属性组所包含的属性个数，视觉图分类器的公式如下：

其中，

表示视觉图分类器的全连接层的参数；

第四步，合成图图卷积：

将语义关联图与视觉关联图构建为合成图，能更好地学习属性之间的视觉语义关系，具体是：

第4.1步，联合语义关联图和视觉关联图构建合成图：

图间边的特征由两端节点生成，图间边/>

的公式如下：

其中

为视觉关联图映射矩阵，/>

为全连接层，c(·)为融合操作，图间边/>

由视觉关联图/>

语义关联图/>

和图间边/>

组成；

第4.2步，构建合成图图卷积策略：

在合成图

中，语义关联图和视觉关联图的分为图内更新和图间更新，其中图间更新由图间边引导；语义关联图的图内更新为语义图卷积，另一部分则是由图间边结合视觉关联图引导生成，视觉关联图经过映射矩阵映射到d维，然后与图间边融合，再与权重矩阵计算加权和，这部分是为了将视觉信息嵌入到语义关联图中，利用区域关系指导语义关系的学习，语义关联图的图间更新用如下的公式表示：