CN112883880B

CN112883880B - 基于人体结构多尺度分割的行人属性识别方法、存储介质和终端

Info

Publication number: CN112883880B
Application number: CN202110211944.3A
Authority: CN
Inventors: 匡平; 付蓉
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2022-08-19
Anticipated expiration: 2041-02-25
Also published as: CN112883880A

Abstract

本发明公开了基于人体结构多尺度分割的行人属性识别方法、存储介质和终端，方法包括以下步骤：得到输入的行人图像；获取行人图像的细节关键点和抽象人体区域；对行人图像的特征进行逐层提取；将提取的细节关键点与浅层特征进行结合，并将提取的抽象人体区域与深层特征进行结合，将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量；将多个预测向量进行融合，得到最终预测结果。本发明由于网络的深浅‑人体结构的粗细划分‑属性的高低级之间存在着对应的关系，因此在更浅的特征层上对更细的行人局部做特征学习，在更高的特征层上对划分更粗的行人局部进行特征学习，利用身体结构去指导行人属性识别，从而得到强大的行人属性表示。

Description

基于人体结构多尺度分割的行人属性识别方法、存储介质和终端

技术领域

本发明涉及行人属性识别领域，尤其涉及基于人体结构多尺度分割的行人属性识别方法、存储介质和终端。

背景技术

行人属性识别(Pedestrian Attribute Recognition，PAR)从本质上而言，是属于目标检测范畴，即从图像或视频序列中提取描述场景中个体的人类可理解特征的语义特征。由于它们提供了关于人类的重要信息，这些系统已经被集成到许多现实世界的应用中，并与世界各地的许多技术相结合。

由于不同的行人属性往往对应人体不同的位置，导致对应的特征提取比困难。例如发型和颜色，帽子等属性被看作是特定的低级属性，往往对应于图像的不同小区域；而一些属性是抽象的概念，如性别、取向和年龄，它们不对应于某些区域，这些属性被认为是高级属性。为了解决上述问题，现有的方法一部分倾向与寻找人体局部与属性之间的关联，这便导致PAR的准确率往往和人体部件分割的准确性有着较大关联。还有一部分倾向于寻找不同的语义层次与不同属性之间的关联，但很难找到一个更准确具体的描述各个属性与语义之间关系的模型。由于低级属性对应更小的人体局部区域，更小区域也更适合使用低层次的网络来寻找，高级属性反之，先前的方法都没有考虑到这种有关“属性等级-人体区域”之间的共同联系。

发明内容

本发明的目的在于克服现有技术的不足，提供基于人体结构多尺度分割的行人属性识别方法、存储介质和终端。

本发明的目的是通过以下技术方案来实现的：

本发明的第一方面，提供基于人体结构多尺度分割的行人属性识别方法，包括以下步骤：

得到输入的行人图像；

获取行人图像的细节关键点和抽象人体区域；

对行人图像的特征进行逐层提取；

将提取的细节关键点与浅层特征进行结合，并将提取的抽象人体区域与深层特征进行结合，将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量；

将多个预测向量进行融合，得到最终预测结果。

进一步地，所述获取行人图像的细节关键点和抽象人体区域包括：

利用行人姿态估计模型分别获得所述行人图像的先验人体姿态关键点P1、多个人体部位区域P2、行人区域P3。

进一步地，所述行人姿态估计模型得到人体姿态关键点坐标K＝[k¹，k²，…，k^M]，M为关键点总数；所述先验人体姿态关键点P₁＝[K₁，K₂，…，K_M]，其中K₁＝[k₁]、K₂＝[k²]，以此类推；多个人体部位区域P₂＝[K_head，K_upper，K_lower]，其中K_head、K_upper、K_lower分别包含表示人体头、上身、下身的关键点坐标；行人区域P₃＝[K_body]，其中K_body包含框出整个人体的四个关键点。

进一步地，所述对行人图像的特征进行逐层提取包括：

利用层次特征提取模块，至少三层对行人图像的特征进行逐层提取，得到特征F1、特征F2、特征F3。

进一步地，所述层次特征提取模块为以Resnet50为基础的主干网，包括顺次连接的五个卷积层conv1、conv2、conv3、conv4和conv5，其中特征F1由卷积层conv2输出，特征F2由conv3输出，特征F3由conv4输出。

进一步地，所述将提取的细节关键点与浅层特征进行结合，并将提取的抽象人体区域与深层特征进行结合，将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量，包括：

将先验人体姿态关键点P1和特征F1进行对应，将多个人体部位区域P2和特征F2进行对应，将行人区域P3和特征F3进行对应，对应后分别输入区域引导模块后得到预测向量

同时将特征F3输入至输入区域引导模块后得到预测向量

进一步地，所述区域引导模块具体为：

将F_i和P_i(i＝1，2，3)输入区域引导模块，F_i的尺寸为W_i×H_i×D_i；

对P_i中每一个K_j，利用空间变换器网络在F_i上进行区域提取，得到尺寸为W′_i×H′_i×D_i的区域特征；

对于三层的每层区域，使用独立的神经网络进行特征学习，使用D_i维度的全连接层FC来学习每个区域的特征；

将每个P_i对应的区域学习到的特征融合得到集成特征表示，得到基于M个区域的尺度为M×D_i的集成表示；

基于上述集成特征表示，分别使用具有L输出量的FC作为分类器对属性进行分类，预测结果记为

L为需要分类的属性个数，

对于特征F3也使用具有L输出量的FC作为分类器对属性进行分类，预测结果记为

进一步地，所述将多个预测向量进行融合，得到最终预测结果，包括：

利用结果对比模块将预测向量

进行融合得到预测结果

其中通过选择每一属性的预测结果最大值而得到。

本发明的第二方面，提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述的基于人体结构多尺度分割的行人属性识别方法的步骤。

本发明的第三方面，提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述的基于人体结构多尺度分割的行人属性识别方法的步骤。

本发明的有益效果是：

(1)在本发明的一示例性实施例中，由于网络的深浅-人体结构的粗细划分-属性的高低级之间存在着对应的关系(例如更浅层的网络(对于“对行人图像的特征进行逐层提取”的网络)更容易学习细节的特征，比如更细的人体结构，更低级的属性；更深层的网络更能够学习的抽象的特征，比如整个人体、更高级的属性)，因此在该示例性实施例中考虑到这种对应关系，在更浅的特征层上对更细的行人局部做特征学习，在更高的特征层上对划分更粗的行人局部进行特征学习，利用身体结构去指导行人属性识别，从而得到强大的行人属性表示。

(2)在本发明的又一示例性实施例中，考虑到模型已经利用了很多的人体信息来指导神经网络的学习，因此加上conv5得到的特征图过小对准确率的提高并不明显，反而会较多的增加训练的时长；而conv1的时候，网络提取到的特征信息还不够多。因此，经过综合考虑，选择conv2-conv4进行提取。

(3)在本发明的又一示例性实施例中，除了三部分结合的内容进行引导，还包括把特征F3的部分进行引导，得到预测向量

即在主干网络的最后直接输出一个预测结果，是对整幅图像进行预测，可以将背景信息也考虑到。

附图说明

图1为本发明一示例性实施例提供的方法流程图；

图2为本发明一示例性实施例提供的结构示意图；

图3为本发明一示例性实施例提供的P1～P3示意图；

图4为本发明一实例性实施例提供的区域引导模块结构示意图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，属于“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，属于“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

参见图1，图1示出了本发明的一示例性实施例提供的基于人体结构多尺度分割的行人属性识别方法的流程图，包括以下步骤：

得到输入的行人图像；

获取行人图像的细节关键点和抽象人体区域；

对行人图像的特征进行逐层提取；

将多个预测向量进行融合，得到最终预测结果。

具体地，在该示例性实施例中，由于网络的深浅-人体结构的粗细划分-属性的高低级之间存在着对应的关系(例如更浅层的网络(对于“对行人图像的特征进行逐层提取”的网络)更容易学习细节的特征，比如更细的人体结构，更低级的属性；更深层的网络更能够学习的抽象的特征，比如整个人体、更高级的属性)，因此在该示例性实施例中考虑到这种对应关系，在更浅的特征层上对更细的行人局部做特征学习，在更高的特征层上对划分更粗的行人局部进行特征学习，利用身体结构去指导行人属性识别，从而得到强大的行人属性表示。

另外需要说明的是，对于步骤“获取行人图像的细节关键点和抽象人体区域”和步骤“对行人图像的特征进行逐层提取”，两个步骤可同时进行。

更优地，在一示例性实施例中，所述获取行人图像的细节关键点和抽象人体区域包括：

如图2和图3所示，利用行人姿态估计模型分别获得所述行人图像的先验人体姿态关键点P1、多个人体部位区域P2、行人区域P3。

具体地，在该示例性实施例中，所述抽象人体区域分为两级，其中一级为多个人体部位区域P2，而另外一级为行人区域P3(行人区域P3为行人图像中具有行人的一部分)。

另外，图3中P4为整幅图像。

更优地，在一示例性实施例中，所述行人姿态估计模型得到人体姿态关键点坐标K＝[k¹，k²，…，k^M]，M为关键点总数(在该示例性实施例中，M为14)；所述先验人体姿态关键点P₁＝[K₁，K₂，…，K_M]，其中K₁＝[k¹]、K₂＝[k²]，以此类推；多个人体部位区域P₂＝[K_head，K_upper，K_lower]，其中K_head、K_upper、K_lower分别包含表示人体头、上身、下身的关键点坐标；行人区域P₃＝[K_body]，其中K_body包含框出整个人体的四个关键点。

更优地，在一示例性实施例中，所述对行人图像的特征进行逐层提取包括：

如图2所示，利用层次特征提取模块，至少三层对行人图像的特征进行逐层提取，得到特征F1、特征F2、特征F3。

具体地，在该示例性实施例中，与行人姿态估计模型得到P1、P2和P3对应的，层次特征提取模块分别提取F1、F2和F3的三个特征。

更优地，在一示例性实施例中，所述层次特征提取模块为以Resnet50为基础的主干网，包括顺次连接的五个卷积层conv1、conv2、conv3、conv4和conv5，其中特征F1由卷积层conv2输出，特征F2由conv3输出，特征F3由conv4输出。

具体地，在该示例性实施例中，选择Resnet50为基础的主干网，它一共有5个尺度的卷积块，但是考虑到在实验的时候，输入的图像尺寸较小，是256*128*3，conv1时特征图尺寸为128*64*64，conv2为64*32*128，conv3为32*16*125，conv4为16*8*512到，conv5的时候尺寸为8*4*1024。

考虑到我们的模型已经利用了很多的人体信息来指导神经网络的学习，因此加上conv5得到的特征图过小对准确率的提高并不明显，反而会较多的增加训练的时长；而conv1的时候，网络提取到的特征信息还不够多。因此，经过综合考虑，我们选择了conv2-conv4进行提取。

更优地，在一示例性实施例中，所述将提取的细节关键点与浅层特征进行结合，并将提取的抽象人体区域与深层特征进行结合，将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量，包括：

同时将特征F3输入至输入区域引导模块后得到预测向量

具体地，在该示例性实施例中，除了三部分结合的内容进行引导，还包括把特征F3的部分作为图3中P4的全图部分进行引导，得到预测向量

更优地，在一示例性实施例中，所述区域引导模块具体为：

如图4所示，将F_i和P_i(i＝1，2，3)输入区域引导模块，F_i的尺寸为W_i×H_i×D_i；在其中一示例性实施例中，F₁到F₃的尺寸分别为32*64*128、16*32*256、8*16*512；

对P_i中每一个K_j，利用空间变换器网络(Spatial Transformer Networks，STN)在F_i上进行区域提取，得到尺寸为W′_i×H′_i×D_i的区域特征；在其中一示例性实施例中，所有W′_i和H′_i均为5；

L为需要分类的属性个数，

更优地，在一示例性实施例中，所述将多个预测向量进行融合，得到最终预测结果，包括：

利用结果对比模块将预测向量

进行融合得到预测结果

其中通过选择每一属性的预测结果最大值而得到。

具体地，令y＝[y₁，y₂，y₃，…，y_L]表示行人属性的真实标签，L为需要分类的属性个数。y_k＝0(k＝0,1，…，L)表示第k个属性为假，即不存在，y_k＝1表示第k个属性为真。

分别表示主网络和三个区域引导模块的预测结果；通过比较4个预测值，选择每一属性的最大值，形成最终结果

更优地，基于上述任意一示例性实施例，在本发明的又一示例性实施例中，提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述的基于人体结构多尺度分割的行人属性识别方法的步骤。

更优地，基于上述任意一示例性实施例，在本发明的又一示例性实施例中，提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述的基于人体结构多尺度分割的行人属性识别方法的步骤。

基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.基于人体结构多尺度分割的行人属性识别方法，其特征在于：包括以下步骤：

得到输入的行人图像；

获取行人图像的细节关键点和抽象人体区域，包括利用行人姿态估计模型分别获得所述行人图像的先验人体姿态关键点P1、多个人体部位区域P2、行人区域P3；

对行人图像的特征进行逐层提取，包括利用层次特征提取模块，至少三层对行人图像的特征进行逐层提取，得到特征F1、特征F2、特征F3；所述层次特征提取模块为以Resnet50为基础的主干网，包括顺次连接的五个卷积层conv1、conv2、conv3、conv4和conv5，其中特征F1由卷积层conv2输出，特征F2由conv3输出，特征F3由conv4输出；

将提取的细节关键点与浅层特征进行结合，并将提取的抽象人体区域与深层特征进行结合，将结合后的数据和深层特征分别输入到区域引导模块得到多个预测向量，包括：将先验人体姿态关键点P1和特征F1进行对应，将多个人体部位区域P2和特征F2进行对应，将行人区域P3和特征F3进行对应，对应后分别输入区域引导模块后得到预测向量

同时将特征F3输入至输入区域引导模块后得到预测向量

将多个预测向量进行融合，得到最终预测结果。

2.根据权利要求1所述的基于人体结构多尺度分割的行人属性识别方法，其特征在于：所述行人姿态估计模型得到人体姿态关键点坐标K＝[k¹，k²，…，k^M]，M为关键点总数；所述先验人体姿态关键点P₁＝[K₁，K₂，…，K_M]，其中K₁＝[k¹]、K₂＝[k²]，以此类推；多个人体部位区域P₂＝[K_head，K_upper，K_lower]，其中K_head、K_upper、K_lower分别包含表示人体头、上身、下身的关键点坐标；行人区域P₃＝[K_body]，其中K_body包含框出整个人体的四个关键点。

3.根据权利要求1所述的基于人体结构多尺度分割的行人属性识别方法，其特征在于：所述区域引导模块具体为：

L为需要分类的属性个数，

4.根据权利要求1所述的基于人体结构多尺度分割的行人属性识别方法，其特征在于：所述将多个预测向量进行融合，得到最终预测结果，包括：

利用结果对比模块将预测向量

进行融合得到预测结果

其中通过选择每一属性的预测结果最大值而得到。

5.一种存储介质，其上存储有计算机指令，其特征在于：所述计算机指令运行时执行权利要求1至4中任一项所述的基于人体结构多尺度分割的行人属性识别方法的步骤。

6.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至4中任一项所述的基于人体结构多尺度分割的行人属性识别方法的步骤。