CN113239820B

CN113239820B - 基于属性定位与关联的行人属性识别方法及系统

Info

Publication number: CN113239820B
Application number: CN202110540829.0A
Authority: CN
Inventors: 雷震; 杨阳; 翁敦芳
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2023-06-27
Anticipated expiration: 2041-05-18
Also published as: CN113239820A

Abstract

本发明属于模式识别领域，具体涉及了一种基于属性定位与关联的行人属性识别方法及系统，旨在解决现有技术无法有效结合属性的局部定位特征和全局关联特征，从而行人属性识别模型的性能尚达不到预期的问题。本发明包括：通过特征提取网络获取输入行人图像的特征图；通过多分枝的属性定位网络对属性解藕，每个属性分枝单独对属性特征在高度、宽度和通道三个维度方面，进行属性定位特征的增强；通过属性关联网络学习不同属性之间的全局关联性特征；最终通过分类器获取行人的属性类别。本发明更好地提取到关于行人属性的局部定位特征，并有效地结合属性的局部定位特征和全局关联特征，行人属性识别的准确性与精度以及效率高。

Description

基于属性定位与关联的行人属性识别方法及系统

技术领域

本发明属于模式识别领域，具体涉及了一种基于属性定位与关联的行人属性识别方法及系统。

背景技术

行人属性识别，如性别，衣服类型，长发短发等，是一个具有挑战性的任务，也是目前视频监控领域非常火热的任务之一。传统的行人属性识别方法以手工特征来处理图片的特征。随着深度学习的发展，行人属性识别已经取得了巨大的突破。

目前行人属性识别的方法，主要分为三大类：一是，基于局部的行人属性识别方法，主要是从行人的局部区域提取判别性的特征，可以利用姿态估计出行人的骨骼关键点，再通过关键点来提取人体局部区域，提取的局部区域和整体图像的特征用于属性识别，也可以通过检测人体的部位(头部，上半身和下半身区域)来辅助属性的识别。有研究人员提出了定位引导网络，通过弱监督的方式探索属性的区域，利用多尺度的特征，结合通道注意力机制，空间转换网络提供弱监督的属性定位方法。然而，这些方法要么依赖于先验的，固定的弱监督零件，要么依赖于复杂的定位机制。二是，基于全局的行人属性识别方法，包括：(1)利用一个整体的CNN模型来共同学习行人不同的属性；(2)通过改进的交叉熵损失函数，将属性识别看成一个多标签分类问题。然而，这些方法都是整体性看待属性识别，没有解藕不同的属性，只有整体不考虑局部。三是，基于序列的行人属性识别方法，主要是考虑行人属性之间的关联性。有研究将属性进行分组，如头部区域组，上半身区域组以及下半身区域组，通过循环神经网络提取每一个区域的特征。有些研究认为属性识别存在的问题是图像质量差，外观变化等原因，因此，通过探索属性和视觉上下文之间的相互依赖和相关性，作为辅助属性识别的额外信息源。然而，这些方法都是采用序列估计过程，存在的缺点也是明显的，那就是考虑的关联性缺失了属性的局部定位能力。

此外，上述行人属性识别的三类方法中，使用到的属性特征定位的方法均是一种硬注意力机制或者是弱监督的软注意力机制，当关注属性定位特征的时候无法关联全局特征，对属性特征进行定位时更无法解耦不同属性。同时，上述方法对于提取属性的全局关联特征粒度十分粗糙，只是简单将学到的局部特征进行融合或者使用注意力机制对特征进行增强，这些特征很难去表达属性的全局关联性特征。

由于更强的特征提取能力，目前基于卷积神经网络的方法在行人属性识别领域已经占据主导性的地位。现今存在的方法本质上是从特征提取的角度去解决行人属性问题，包含了提取行人的全局特征以及属性的局部特征。属性能够被定位到行人图片中的某一个区域，来提取局部的判别性特征，如行人的属性中的头发长短，自然而然该属性所在的区域是头部。一种简单而低效的方式，如应用人体分块的方法，结合姿态估计将人体切分成头部，上半身，下半身三个区域。利用人体解析的方法对人体的属性特征进行辅助定位。与此同时，探索行人属性的全局关联性特征自然对属性识别有非常大的帮助。如性别属性往往和头发长短属性紧密相关。

总的来说，如何有效结合属性的局部定位特征和全局关联特征来提升行人属性识别模型的性能以及提高识别结果的准确性、精度与效率，还是本领域有待解决的问题。

发明内容

为了解决现有技术中的上述问题，即现有技术无法有效结合属性的局部定位特征和全局关联特征，从而行人属性识别模型的性能尚达不到预期的问题，本发明提供了一种基于属性定位与关联的行人属性识别方法，该行人属性识别方法包括：

步骤S10，获取待属性识别的行人图像，并通过特征提取网络进行所述行人图像的特征提取，获得待属性识别的行人特征图；

步骤S20，通过设定的一组不同属性分类的多分枝的属性定位网络，分别获取所述待属性识别的行人特征图对应的一组不同属性的特征向量；

步骤S30，基于所述一组不同属性的特征向量，采用属性关联网络通过transformer学习行人属性之间的关联性，获得关联属性特征图；

步骤S40，基于所述关联属性特征图，通过分类器获取行人的属性类别。

在一些优选的实施例中，所述属性定位网络，其提取特征向量的方法包括：

步骤S21，通过并行的一个提取高度维度的位置注意力机制和一个提取宽度维度的位置注意力机制分别获取第一特征图和第二特征图；

步骤S22，基于所述行人特征图对所述第一特征图与进行高度维度编码增强，获得第三特征图；基于所述行人特征图对所述第二特征图进行宽度维度编码增强，获得第四特征图；

步骤S23，融合所述第三特征图和所述第四特征图后，通过r个并行的信道切分注意力机制获取r个特征向量；其中，r为信道维度切分数量；

步骤S24，将所述r个特征向量依次通过连接层、softmax分类层后，基于所述行人特征图进行高度和宽度维度编码，并通过全连接层后，获得所述属性定位网络对应的特征向量。

在一些优选的实施例中，所述提取高度维度的位置注意力机制，其结构为：

顺次连接的一个池化核为1×W的平均池化层、一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数。

在一些优选的实施例中，所述提取宽度维度的位置注意力机制，其结构为：

顺次连接的一个池化核为H×1的平均池化层、一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数。

在一些优选的实施例中，所述信道切分注意力机制，其结构为：

顺次连接的一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数。

在一些优选的实施例中，所述属性关联网络包括交替的多头注意力机制和MLP块；

所述多头注意力机制和所述MLP块之前分别设置一个layer正则化层；

所述多头注意力机制和所述MLP多层感知机之后通过残差连接。

在一些优选的实施例中，所述MLP块为包含了两个非线性函数Relu的层。

本发明的另一方面，提出了一种基于属性定位与关联的行人属性识别系统，该行人属性识别系统包括以下模块：

输入模块，配置为获取待属性识别的行人图像并输入；

特征提取模块，配置为通过特征提取网络进行所述行人图像的特征提取，获得待属性识别的行人特征图；

多分枝属性定位模块，配置为通过设定的一组不同属性分类的多分枝的属性定位网络，分别获取所述待属性识别的行人特征图对应的一组不同属性的特征向量；

属性关联模块，配置为基于所述一组不同属性的特征向量，采用属性关联网络通过transformer学习行人属性之间的关联性，获得关联属性特征图；

分类模块，配置为基于所述关联属性特征图，通过分类器获取行人的属性类别。

本发明的有益效果：

(1)本发明基于属性定位与关联的行人属性识别方法，通过多分枝的结构对属性解藕，每个属性分枝单独对属性特征进行处理，从高度、宽度、通道三个维度来增强属性的定位特征，高度维度和宽度维度的注意力机制关注于属性在特征空间上的位置，通道维度上显示建模通道之间的信息，更好地提取到关于行人属性的局部定位特征，从而提升了后续行人属性识别的准确性与精度。

(2)本发明基于属性定位与关联的行人属性识别方法，将不同属性分枝定位到的特征向量作为transformer encoder的输入向量，通过属性关联网络有效地学习到了不同属性之间的全局关联性特征，更有效地结合属性的局部定位特征和全局关联特征，从而有效提升了后续行人属性识别的准确性与精度以及效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于属性定位与关联的行人属性识别方法的框架示意图；

图2是本发明基于属性定位与关联的行人属性识别方法的属性定位网络的框架示意图；

图3是本发明基于属性定位与关联的行人属性识别方法的属性关联网络的框架示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于属性定位与关联的行人属性识别方法，主要关注于如何提取属性的定位特征以及属性之间的关联性，提出了多分枝的属性定位网络和属性关联网络，通过多分枝的属性定位识别方式，每个模块处理单独的一个属性的分类，强监督方式提取属性定位特征，使得属性之间能够解耦开，同时，考虑到属性之间有着很强的关联性，采用基于编码架构的序列预测架构Transformers，更好地模拟了解藕后的属性特征的全局关联性特征，更有效地结合属性的局部定位特征和全局关联特征，提升了模型的行人属性识别性能。

本发明的一种基于属性定位与关联的行人属性识别方法，该行人属性识别方法包括：

为了更清晰地对本发明基于属性定位与关联的行人属性识别方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明第一实施例的基于属性定位与关联的行人属性识别方法，包括步骤S10-步骤S40，各步骤详细描述如下：

如图1所示，为本发明基于属性定位与关联的行人属性识别方法的框架示意图，由一个骨干网络-特征提取网络和一组应用于不同属性分类的多分枝的属性定位网络以及属性关联网络组成。首先将输入的行人图像送入骨干网络，不需要根据人体关键点画框或行人图像区域的切分，更不需要行人语义信息的辅助，即可在自下而上的路径末端得到预测向量。

步骤S10，获取待属性识别的行人图像，并通过特征提取网络进行所述行人图像的特征提取，获得待属性识别的行人特征图。

由特征提取网络提取的特征张量(即待属性识别的行人特征图)，其表示如式(1)：

X＝x₁，x₂，...，x_m∈R^C×H×W (1)

其中，X代表提取的特征张量，x₁，x₂，...，x_m分别代表特征张量X的每一个元素，R代表特征张量X的张量空间，C，H，W代表特征张量X的信道维度、高度维度和宽度维度。

步骤S20，通过设定的一组不同属性分类的多分枝的属性定位网络，分别获取所述待属性识别的行人特征图对应的一组不同属性的特征向量。

在通道注意力机制中，将全局平均池化应用到全局的编码空间信息，将特征图的空间信息挤压到信道描述符中，其出发点是要提取属性所在的空间位置信息，但是，这样无法保留位置信息，只是进行通道的特征增强。因此本发明将全局平均池化改为对一维的特征编码，分别采用两个分支对特征张量X沿着H维度和W维度进行编码。

每一个属性定位网络只对一种属性在单独的特征上进行属性定位的特征学习，每个属性都有单独的强监督信息。此外，通过多分枝的方法学习到属性区域更具有可解释性，因为属性的识别主要来源于单独的分枝，提取判别性特征的能力是可以直观的察觉出来。当属性识别按照多分枝的结构来解藕不同的属性后，每个分枝提取单独属性判别性特征的能力有了更高的要求。

属性定位网络，其提取特征向量的方法包括：

提取高度维度的位置注意力机制，其结构为：

对于特征张量X而言，经过H维度编码可以表述为式(2)：

其中，

代表特征张量X中每一个元素x_m的H维度编码结果，W为特征张量X的宽度维度，x_m(h，i)代表元素x_m的特征张量，h表示H维度，i表示W维度。

经过一维的全局平均池化后，需要对提取到的编码进行增强。提取高度维度的位置注意力机制，首先是一个卷积核为1的卷积层，批归一化和非线形激活函数Relu组成的，转换函数f₁描述为式(3)：

f₁(x)＝Relu(bn(conv(x))) (3)

其中，conv代表卷积操作，bn代表批归一化操作，Relu代表Relu非线性激活函数。

其次，再次使用一个卷积核为1的卷积层进行增强，并使用sigmoid非线形函数，转换函数f₂描述为式(4)：

f₂(x)＝Sigmoid(conv(x)) (4)

其中，Sigmoid代表sigmoid非线形函数。

提取宽度维度的位置注意力机制，其结构为：

对于特征张量X而言，经过W维度编码可以表述为式(5)：

其中，

代表特征张量X中每一个元素x_m的W维度编码结果，H为特征张量X的高度维度，x_m(w，i)代表元素x_m的特征张量，i表示H维度，w表示W维度。

同样地，经过一维的全局平均池化后，需要对提取到的编码进行增强。提取宽度维度的位置注意力机制，首先是一个卷积核为1的卷积层，批归一化和非线形激活函数Relu组成的，转换函数f₁与式(3)相同。

同样地，再次使用一个卷积核为1的卷积层进行增强，并使用sigmoid非线形函数，转换函数f₂与式(4)相同。

步骤S22，基于所述行人特征图对所述第一特征图与进行高度维度编码增强，获得第三特征图，如式(6)所示：

基于所述行人特征图对所述第二特征图进行宽度维度编码增强，获得第四特征图，如式(7)所示：

通过对H维度和W维度的空间方向聚合特征，能定位出一个方向的感知特征图。这两个分枝的注意力机制能够捕捉到行人属性在空间上的精确位置信息。

得到H维度和W维度的激励张量要进行融合，两个维度才能定位出属性所在特征图上显著性区域，融合值x^hw表述为式(8)：

其中，Sum代表融合操作。

属性定位网络后半部分是从信道维度上出发，属性定位网络前半部分没有显式建模通道之间的信息，通道之间的信息对于特征的提取和增强是非常重要的，将x^hw的通道维度切分成r份x_r∈R^C/r×H×W。

分别对r份x_r进行通道信息增强，第r份的通道信息增强特征表述为式(9)：

将通道进行切分成r个分枝，每个分枝进行通道维度的增强后，将增强后的特征在通道维度进行融合，表述为式(10)：

其中，concat代表连接操作，softmax代表softmax分类函数。

x^mask是对输入特征张量X沿着H维度和W维度进行编码，同时在C维度上显示建模产生的特征mask，因此，添加上一个激励的过程，表述为式(11)：

其中，x_i代表特征张量X的元素。

是属性定位网络产生的特征。

如图2所示，为本发明基于属性定位与关联的行人属性识别方法的属性定位网络的框架示意图，每一个属性定位网络主要分成两个部分，前半部分是一个提取高度维度和宽度维度的位置注意力机制，通过高与宽来增强属性所在区域的特征，后半部分是从信道维度来考虑，信道的切分注意力机制将会从信道维度上提取更强的判别性特征。

准确来说，依据上述描述，属性定位网络分成两个部分，前半部分是一个提取位置的注意力机制，通过对H维度和W维度进行特征编码，得到特征x^h和x^w，分别反应了感兴趣的H和W所在的位置，将两个特征进行融合得到一个增强后含有属性位置的特征x^hw。后半部分是一个从C维度上进行增强的注意力机制，在通道维度上切分位置特征x^hw为r份，每一份单独进行增强，然后将增强后的特征

进行融合，最后利用注意力机制中常用的激励的方法。

本发明提出的属性定位网络从通道维度，H维度，W维度来增强属性的定位判别特征。H维度和W维度的注意力机制关注与属性在特征空间上的位置，C维度上显示建模通道之间的信息。如上所述，沿着H方向和W方向的注意力同时应用于输入的张量，两个注意力图中的每个元素都反映了感兴趣的对象是否存在于相应的维度中。这个编码过程使得本发明能够定位到属性所在的准确位置。在信道维度上通过切分不同通道，通道之间保持分离各自建模，从而帮助整个模型更好地识别。

步骤S30，基于所述一组不同属性的特征向量，采用属性关联网络通过transformer学习行人属性之间的关联性，获得关联属性特征图。

在属性定位网络中，采用多分枝的结构对属性之间关系进行解藕，而现实生活中，属性之间有着很强的关联性，如头发长短属性和性别相对有更多关联性，因此，本发明针对多分个分枝的属性特征向量，采用了一个transformer的结构的属性关联网络学习行人属性之间的关联性。原始的Transformer是将图像重塑为一个扁平化的二维补丁序列作为token embeddings输入。本发明与之不同，以多分枝属性定位网络学习到的特征向量作为token embeddings，将一个可训练的线形投影及将每一个矢量化的特征向量映射到模型维度D，这个过程称为特征嵌入。

本发明将一个可学习的分类嵌入(classification embedding)预置到嵌入的特征中，其在transformer编码器输出处的状态作为行人属性的分类。同时将一个可学习的位置嵌入式添加到特征嵌入和分类嵌入中以保留各自的位置信息。

属性关联网络包括交替的多头注意力机制和MLP块，在多头注意力机制和MLP块之前应用layer正则化，每一个多头注意力机制和MLP块之后应用残差连接。MLP是包含了两个非线性函数Relu的层。

上述过程可表述为式(12)-式(14)：

步骤S40，基于所述关联属性特征图，通过分类器获取行人的属性类别，如式(15)所示：

其中，

表示属性的类别。

如图3所示，为本发明基于属性定位与关联的行人属性识别方法的属性关联网络的框架示意图，属性关联网络包括交替的多头注意力机制和MLP块，多头注意力机制和MLP块之前分别设置一个layer正则化层，提后通过残差连接获取最终的输出。

本发明一个实施例中，采用Pytorch框架实现所提出的方法，使用2个NVIDIATITANXP GPU(12GB/个)进行训练，基于SGD算法，以动量为0.9和权重衰减0.00005作为优化器，并将其学习率设置为相对较小的值0.05，其他部分均设置为0.5。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

本发明第二实施例的基于属性定位与关联的行人属性识别系统，该行人属性识别系统包括以下模块：

输入模块，配置为获取待属性识别的行人图像并输入；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于属性定位与关联的行人属性识别系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于属性定位与关联的行人属性识别方法，其特征在于，该行人属性识别方法包括：

步骤S20，通过设定的一组不同属性分类的多分枝的属性定位网络，分别获取所述待属性识别的行人特征图对应的一组不同属性的特征向量，包括：

所述提取高度维度的位置注意力机制，其结构为：

顺次连接的一个池化核为1×W的平均池化层、一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数；

所述提取宽度维度的位置注意力机制，其结构为：

顺次连接的一个池化核为H×1的平均池化层、一个卷积核为1的卷积层、一个批归一化与线性激活层、一个卷积核为1的卷积层和一个sigmoid激活函数；

步骤S24，将所述r个特征向量依次通过连接层、softmax分类层后，基于所述行人特征图进行高度和宽度维度编码，并通过全连接层后，获得所述属性定位网络对应的特征向量；

2.根据权利要求1所述的基于属性定位与关联的行人属性识别方法，其特征在于，所述信道切分注意力机制，其结构为：

3.根据权利要求1所述的基于属性定位与关联的行人属性识别方法，其特征在于，所述属性关联网络包括交替的多头注意力机制和MLP块；

4.根据权利要求3所述的基于属性定位与关联的行人属性识别方法，其特征在于，所述MLP块为包含了两个非线性函数GELU的层。

5.一种基于属性定位与关联的行人属性识别系统，其特征在于，该行人属性识别系统包括以下模块：

输入模块，配置为获取待属性识别的行人图像并输入；

多分枝属性定位模块，配置为通过设定的一组不同属性分类的多分枝的属性定位网络，分别获取所述待属性识别的行人特征图对应的一组不同属性的特征向量，包括：

通过并行的一个提取高度维度的位置注意力机制和一个提取宽度维度的位置注意力机制分别获取第一特征图和第二特征图；

所述提取高度维度的位置注意力机制，其结构为：

所述提取宽度维度的位置注意力机制，其结构为：

基于所述行人特征图对所述第一特征图与进行高度维度编码增强，获得第三特征图；基于所述行人特征图对所述第二特征图进行宽度维度编码增强，获得第四特征图；

融合所述第三特征图和所述第四特征图后，通过r个并行的信道切分注意力机制获取r个特征向量；其中，r为信道维度切分数量；

将所述r个特征向量依次通过连接层、softmax分类层后，基于所述行人特征图进行高度和宽度维度编码，并通过全连接层后，获得所述属性定位网络对应的特征向量；