CN111178251A

CN111178251A - 一种行人属性识别方法及系统、存储介质及终端

Info

Publication number: CN111178251A
Application number: CN201911381803.5A
Authority: CN
Inventors: 王海涛; 成西锋; 袁德胜; 姚磊; 张宏俊; 王作辉; 游浩泉; 刘耀文; 吴贺丰
Original assignee: Winner Technology Co ltd
Current assignee: Winner Technology Co ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-19
Anticipated expiration: 2039-12-27
Also published as: CN111178251B

Abstract

本发明提供一种行人属性识别方法及系统、存储介质及终端，包括自监督学习阶段和推理阶段；自监督学习阶段包括提取训练图片的人体骨骼关键点；根据人体骨骼关键点提取人体分块的候选框；获取各个候选框与自然语义对应的二值属性掩码；提取训练图片的三维特征图；基于自监督学习算法训练从三维特征图提取人体分块的热力图；根据三维特征图和热力图生成人体分块的分块特征图；根据每个分块特征图生成对应的标签概率集合；根据标签概率集合和所述二值属性掩码生成行人属性识别结果；所述推理阶段根据所述自监督学习阶段获取的模型进行行人属性识别。本发明的行人属性识别方法及系统、存储介质及终端能够准确识别行人属性且有效降低网络计算复杂度。

Description

一种行人属性识别方法及系统、存储介质及终端

技术领域

本发明涉及属性识别的技术领域，特别是涉及一种行人属性识别方法及系统、存储介质及终端。

背景技术

行人属性是对行人外观特征、生理特征以及隐藏特征的可搜索的自然语言描述，例如衣着、肤色、年龄、性别等等。行人属性识别旨在识别图像中目标人物的各种属性，其核心思路可表述为：给定行人图像I，从预定义的属性标签集T＝{t1，t2，t3……tn}中提取一个子集来描述图像中人物具有的各种属性特征。行人属性识别是计算机视觉的一个重要方向，广泛应用于视频监控、行人重识别、人脸识别、身份验证等领域。

行人属性识别属于多标签分类问题，但属性的多样性以及图像由于光线、角度、镜头分辨率等造成的模糊、遮挡、数据分布不均衡等客观因素，对行人属性识别的效果产生了巨大的影响。具体地，行人属性识别主要存在以下几个问题：

(1)行人的各种属性大小、形状存在巨大的差异，因此有的属性需要浅层特征，而有的属性需要高层特征，有的属性需要局部特征，有的属性需要全局特征才能识别。因此，如何提取一个能够包括所有不同属性的特征是非常重要的问题。

(2)同一个属性往往在不同的位置出现，如背包在人体上具有多个位置。因此，如何消除不同样本间属性位置不同带来的影响就非常重要。

现有技术中，行人属性识别通过人工提取特征，并针对每个不同的属性分别训练分类器。典型的例子有方向梯度直方图(Histogram of Oriented Gradient，HOG)、尺度不变特征变换(Scale-invariant feature transform，SIFT)、支持向量机(Support VectorMachine，SVM)或条件随机场(conditional random field，CRF)模型。但上述算法远远不够满足实际应用的需求。

随着卷积神经网络的发展，开始尝试把所有属性置于同一个网络进行多任务训练，并发现多任务训练能够带来更好的效果。目前，基于深度学习行人属性识别方法的基本思路是将样本输入同一个卷积神经网络(Convolutional Neural Networks，CNN)，并输出多个行人属性的标签进行分类。根据不同的具体实现方式，这些方法大致可分为基于全局的、基于局部的、基于视觉注意力的、基于图像序列预测的、基于新的损失函数的、基于图形模型的等等。但上述方法计算复杂度较高，导致系统消耗较大。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种行人属性识别方法及系统、存储介质及终端，通过采用基于自监督注意力机制的行人属性识别技术能够快速准确有效地对行人外观特征、生理特征以及隐藏特征匹配可搜索的自然语言描述，且能够有效降低网络计算复杂度，减少网络计算的消耗。

为实现上述目的及其他相关目的，本发明提供一种行人属性识别方法，包括自监督学习阶段和推理阶段；所述自监督学习阶段包括：提取训练图片的人体骨骼关键点；根据所述人体骨骼关键点提取人体分块的候选框；获取各个候选框与自然语义对应的二值属性掩码；提取所述训练图片的三维特征图；基于自监督学习算法训练从所述三维特征图提取人体分块的热力图，所述热力图与所述候选框一一对应；根据所述三维特征图和所述热力图生成人体分块的分块特征图；根据每个分块特征图生成对应的标签概率集合；根据所述标签概率集合和所述二值属性掩码生成行人属性识别结果；所述推理阶段包括：提取输入图片的三维特征图；基于训练好的自监督学习算法根据三维特征图提取人体分块的热力图；根据所述三维特征图和所述热力图生成人体分块的分块特征图；根据每个分块特征图生成对应的标签概率集合；获取所述输入图片的各个人体分块的与自然语义对应的二值属性掩码；根据所述标签概率集合和二值属性掩码生成行人属性识别结果。

于本发明一实施例中，在所述自监督学习阶段，基于深度学习的DeepPose网络、DensePose网络或Openpose网络提取所述人体骨骼关键点；在所述自监督学习阶段和所述推理阶段，基于卷积神经网络、ResNet网络或Mobile Net网络提取所述三维特征图；在所述自监督学习阶段，基于RPN网络提权所述候选框。

于本发明一实施例中，设定C＝{c0，c1，......，c_N-1}为行人属性标签，所述二值属性掩码为R＝{r0，r1，......，r_M-1}，其中r_i＝{r_(i，0)，r_(i，1)，r_(i，2)……r_(i，N-1)}，0≤i≤M-1；

0≤j≤N-1；M和N均为自然数。

于本发明一实施例中，基于自监督学习算法训练从所述三维特征图提取人体分块的热力图包括以下步骤：

基于每个候选框生成一张二值热力标签图，所述二值热力标签图中坐标在所述候选框内的像素值设为1，在所述候选框外的像素值设为0；

将所述三维特征图输入一层卷积核大小为1*1的卷积层得到一个通道数为候选框个数的特征图；将所述特征图输入Sigmoid激活层得到所述候选框个数张热力图；

将所述热力标签图缩放到所述热力图的大小，以实现所述热力图和所述热力标签图上点的一一对应，将所述热力图和所述热力标签图逐像素计算logistic回归损失，求和得出所述训练照片的损失值，再反向传播所述损失值，更新提取所述热力图和所述三维特征图的神经网络参数；

重复进行数据训练，以使所述热力图与所述候选框相拟合。

于本发明一实施例中，根据所述三维特征图和所述热力图生成人体分块的分块特征图时，将所述热力图与所述三维特征图在空间上逐像素相乘，即可得到所述分块特征图。

于本发明一实施例中，基于一系列卷积层和全连接层生成所述标签概率P_i＝{P_(i，0)，P_(i，1)，P_(i，j)......P_(i，N-1)}，其中P_(i，j)表示第i个分块特征图中存在行人属性标签中第j个属性的概率，N表示标签个数，0≤i≤M-1。

于本发明一实施例中，所述行人属性识别结果为T＝{t0，t1，......，t_N-1}，

其中，M为候选框的数量，N为标签个数，p_(i，j)为第i个分块特征图中存在行人属性标签中第j个属性的概率，r_(i，j)为标签c_j能否被候选框i推理的二值属性掩码，0≤i≤M-1，0≤j≤N-1；M和N均为自然数。

对应地，本发明提供一种行人属性识别系统，包括自监督学习模块和推理模块；所述自监督学习模块包括关键点提取模块、注意力分割模块、推理模块、特征提取模块、注意力提取模块、合并模块、标签计算模块和推理融合模块；

所述自监督学习阶段包括：

所述关键点提取模块用于提取训练图片的人体骨骼关键点；

所述注意力分割模块用于根据所述人体骨骼关键点提取人体分块的候选框；

所述推理模块用于获取各个候选框与自然语义对应的二值属性掩码；

所述特征提取模块用于提取所述训练图片的三维特征图；

所述注意力提取模块用于基于自监督学习算法训练从所述三维特征图提取人体分块的热力图，所述热力图与所述候选框一一对应；

所述合并模块用于根据所述三维特征图和所述热力图生成人体分块的分块特征图；

所述标签计算模块用于根据每个分块特征图生成对应的标签概率集合；

所述推理融合模块用于根据所述标签概率集合和所述二值属性掩码生成行人属性识别结果；

所述推理阶段包括所述特征提取模块、所述注意力提取模块、所述合并模块、所述标签计算模块、所述推理模块和所述推理融合模块；

所述特征提取模块用于提取输入图片的三维特征图；

所述注意力提取模块用于基于训练好的自监督学习算法根据三维特征图提取人体分块的热力图；

所述推理模块用于获取所述输入图片的各个人体分块的与自然语义对应的二值属性掩码；

所述推理融合模块用于根据所述标签概率集合和二值属性掩码生成行人属性识别结果。

本发明提供一种存储介质，其上存储有计算机程序，该所述计算机程序被处理器执行时实现上述的行人属性识别方法。

最后，本发明提供一种终端，包括：处理器及存储器；

所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上述的行人属性识别方法。

如上所述，本发明的行人属性识别方法及系统、存储介质及终端，具有以下有益效果：

(1)采用基于自监督注意力机制的行人属性识别技术，能够快速准确有效地对行人外观特征，生理特征以及隐藏特征匹配可搜索的自然语言描述，并且不需要任何手动裁剪操作，效率更高；

(2)检测到的关键点信息能够明确地指导模型关注非遮挡人的区域，并在特征构建和匹配阶段过滤遮挡区域的信息；

(3)能够应用于各种各样的情景，例如行人重识别、视频监控、刑事侦查、人脸识别、身份验证等等，实用性强；

(4)通过提取人体关键点和提取候选框，突出了行人属性特征的信息，能够有效降低网络计算复杂度，减少网络计算的消耗。

附图说明

图1(a)显示为本发明的行人属性识别方法的自监督学习阶段于一实施例中的流程图；

图1(b)显示为本发明的行人属性识别方法的推理阶段于一实施例中的流程图；

图2显示为本发明的行人属性识别方法于一实施例中的架构图；

图3显示为本发明的人体骨骼关键点于一实施例中的示意图；

图4显示为本发明的候选框于一实施例中的示意图；

图5显示为本发明的行人属性识别系统于一实施例中的结构示意图；

图6显示为本发明的终端于一实施例中的结构示意图。

元件标号说明

51 关键点提取模块

52 注意力分割模块

53 推理模块

54 特征提取模块

55 注意力提取模块

56 合并模块

57 标签计算模块

58 推理融合模块

61 处理器

62 存储器

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的行人属性识别方法及系统、存储介质及终端通过采用通过提前候选框和三维特征图以及自监督注意力机制，能够快速准确有效地对行人外观特征、生理特征以及隐藏特征匹配可搜索的自然语言描述，能够应用于各种各样的情景行人属性识别场景，例如行人重识别、视频监控、刑事侦查、人脸识别、身份验证等等，实用性强。

如图1和图2所示，于一实施例中，本发明的行人属性识别方法包括自监督学习阶段和推理阶段。

所述自监督学习阶段针对训练图片，包括以下步骤：

步骤S11、提取训练图片的人体骨骼关键点。

人体骨骼关键点对于描述人体姿态、预测人体行为、识别行人属性等任务至关重要。针对所采集的照片进行行人属性识别时，首先对训练图片进行人体骨骼关键点检测，提取骨骼关键点的数量和坐标信息，从而获得如图3所示的人体骨骼关键点图。

于本发明一实施例中，基于深度学习的DeepPose网络、DensePose网络或Openpose网络提取所述人体骨骼关键点。其中，深度学习的DeepPose网络具有良好的人体关键点定位和分类的能力。DensePose用深度学习把2D图像坐标映射到3D人体表面上，再加上以每秒多帧的速度处理密集坐标，最后实现动态人物的精确定位和姿态估计。OpenPose是基于卷积神经网络和监督学习并以caffe为框架开发的开源库，可以实现人体动作、面部表情、手指运动等姿态估计。

步骤S12、根据所述人体骨骼关键点提取人体分块的候选框。

根据所述人体骨骼关键点提供的关键点位置信息能够提取人体分块的候选框。具体地，利用所述输入照片中人体包含的纹理、颜色、形状和大小等信息，以及人体骨骼关键点信息生成如图4所示的M个候选框，以在尽可能选取较少窗口的同时全面的覆盖所述输入照片中人体的区域。

于本发明一实施例中，基于RPN(Region Proposal Network)网络提权所述候选框。

步骤S13、获取各个候选框与自然语义对应的二值属性掩码。

具体地，对于每个候选框，都生成一个与自然语义对应的二值属性掩码，掩码的长度与属性标签的数量相同。所述二值属性掩码表示属性与候选框的关联与否。

0≤j≤N-1；M和N均为自然数。也就是说，对于第i个候选框，如果与行人属性标签C中的某个标签c_j关联(如上半身与衣服样式标签关联)，那么该候选框的属性掩码r_i对应的掩码值r_(i，j)为1；如果不能被推理出，则设r_(i，j)为0。对所有候选框和标签都重复这一过程，得到M条二值属性掩码。

步骤S14、提取所述训练图片的三维特征图。

于本发明一实施例中，基于卷积神经网络、ResNet网络或Mobile Net网络提取所述三维特征图。

卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。采用卷积神经网络时，卷积神经网络的结构如下：

Conv-3-64-1
	Conv-3-64-1
Conv-3-64-1
	Max_Pooling
Conv-3-128-1
	Conv-3-128-1
Conv-3-128-1
	Max_Pooling
Conv-3-256-1
	Conv-3-256-1
Conv-3-256-1
	Max_Pooling
Conv-3-512-1
	Conv-3-512-1
Conv-3-512-1

其中，以Conv-3-256-1为例，Conv表示卷积核，3表示卷积核大小，256是通道数，1表示膨胀率。

步骤S15、基于自监督学习算法训练从所述三维特征图提取人体分块的热力图，所述热力图与所述候选框一一对应。

具体地，根据人体分块的候选框的位置信息在三维特征图的基础上生成对应的热力图，即所述热力图与所述候选框一一对应。所述自监督学习算法是一种训练方法，是以所述热力图作为预测值，所述候选框作为标签，让前者不断逐渐拟合后者，从而实现自动提取分块热力图的目的。自监督学习算法的核心在于利用启发式算法从输入数据中自动生成标签来监督学习过程；其优点在于能够从无标签的数据中自行学习，无需对数据进行标注。这种根据数据自动生成标签的方法代替了手动标注，减少了人力成本。

51)基于每个候选框生成一张二值热力标签图，所述二值热力标签图中坐标在所述候选框内的像素值设为1，在所述候选框外的像素值设为0。

52)将所述三维特征图输入一层卷积核大小为1*1的卷积层得到一个通道数为M的特征图；将所述特征图输入Sigmoid激活层得到M张热力图。

53)将所述热力标签图缩放到所述热力图的大小，以实现所述热力图和所述热力标签图上点的一一对应，将所述热力图和所述热力标签图逐像素计算logistic回归损失，求和得出所述训练照片的损失值，再反向传播所述损失值，更新提取所述热力图和所述三维特征图的所述注意力提取模块和特征提取模块神经网络参数。

54)重复进行数据训练，以使所述热力图与所述候选框相拟合，从而完成所述自监督学习算法的训练。

步骤S16、根据所述三维特征图和所述热力图生成人体分块的分块特征图。

具体地，结合所述三维特征图和所述热力图生成M个分块特征图，其中每个候选框对应一个分块特征图。于本发明一实施例中，根据所述三维特征图和所述热力图生成人体分块的分块特征图时，将所述热力图与所述三维特征图在空间上逐像素相乘，即可得到所述分块特征图。

步骤S17、根据每个分块特征图生成对应的标签概率集合。

具体地，针对每个分块特征图，计算对应二值标签的概率集合P。于本发明一实施例中，基于卷积神经网络的一系列卷积层和全连接层生成所述标签概率。所述卷积神经网络如下：

Conv-3-256-1
	Conv-3-256-1
Conv-3-256-1
	Max_Pooling
Conv-3-128-1
	Conv-3-128-1
Conv-3-128-1
	Global Average_Pooling
FN-N
	Sigmoid

其中，以Conv-3-256-1为例，Conv表示卷积核，3表示卷积核大小，256是通道数，1表示膨胀率。Global Average Pooling为全图平均池化层，FN为全连接层，N为标签长度，Sigmoid为Sigmoid激活函数层。

所述二值标签的概率集合中，P_i＝{P_(i，0)，P_(i，1)，P_(i，j)…...P_(i，N-1)}，其中P_(i，j)表示第i个分块特征图中存在行人属性标签中第j个属性的概率，N表示标签个数，，0≤i≤M-1。其中，若有M个分块特征图，就有M个一维特征图，即概率集合P的一维特征数为M。每一条一维特征的特征长度为N，对应N个属性的概率。

步骤S18、根据所述标签概率集合和所述二值属性掩码生成行人属性识别结果。

具体地，将所述标签概率集合和所述二值属性掩码进行结合，获取行人属性识别结果，从而提高预测结果的准确性和可靠性。

所述推理阶段针对输入图片，包括以下步骤：

步骤S21、提取输入图片的三维特征图。

具体地，针对输入图片进行行人属性识别时，首先于本发明一实施例中，基于卷积神经网络、ResNet网络或Mobile Net网络提取所述三维特征图。

步骤S22、基于训练好的自监督学习算法根据三维特征图提取人体分块的热力图。

具体地，针对所述自监督学习阶段训练好的自监督学习算法，对所述输入图片的三维特征图进行处理，以提取人体分块的热力图。

步骤S23、根据所述三维特征图和所述热力图生成人体分块的分块特征图。

具体地，具体地，结合所述三维特征图和所述热力图生成M个分块特征图，其中每个候选框对应一个分块特征图。于本发明一实施例中，根据所述三维特征图和所述热力图生成人体分块的分块特征图时，将所述热力图与所述三维特征图在空间上逐像素相乘，即可得到所述分块特征图。

步骤S24、根据每个分块特征图生成对应的标签概率集合。

具体地，针对每个分块特征图，计算对应二值标签的概率集合P。于本发明一实施例中，基于卷积神经网络的一系列卷积层和全连接层生成所述标签概率。

步骤S25、获取所述输入图片的各个人体分块的与自然语义对应的二值属性掩码。

步骤S26、根据所述标签概率集合和二值属性掩码生成行人属性识别结果。

于本发明一实施例中，所述行人属性识别结果为T＝{t0，t1，……，t_N-1}，

下面通过具体实施例来进一步阐述本发明的行人属性识别方法的具体实现。

在该实施例中，行人属性识别方法通过以下步骤实现：

步骤1:收集行人图像；将数据集划分为训练集和测试集。

步骤2:搭建网络并随机进行初始化。载入VGG-16网络，初始权值为VGG-16在ImageNet上的预训练权重；对于网络结构里的其他部分的参数，采用均值为0，均方差为0.01的正态分布进行初始化，偏差采用0进行初始化。

步骤3:图片输入行人属性识别网络，进行行人属性识别和分类。

步骤4:定义损失函数为交叉熵函数来测量行人属性识别结果和真实属性之间的差异，计算最终的损失。

步骤5:重复步骤4，直到损失不再明显下降，训练结束，得到最终属性识别结果。

步骤6:利用测试集评估模型，挑选最优模型作为最终模型。

如图5所示，于一实施例中，本发明的行人属性识别系统包括自监督学习模块和推理模块。

所述自监督学习模块包括关键点提取模块51、注意力分割模块52、推理模块53、特征提取模块54、注意力提取模块55、合并模块56、标签计算模块57和推理融合模块58。

所述关键点提取模块51用于提取训练图片的人体骨骼关键点。

所述注意力分割模块52与所述关键点提取模块51相连，用于根据所述人体骨骼关键点提取人体分块的候选框。

所述推理模块53与所述注意力分割模块52相连，用于获取各个候选框与自然语义对应的二值属性掩码。

所述特征提取模块54用于提取所述训练图片的三维特征图。

所述注意力提取模块55与所述特征提取模块54和所述注意力分割模块52相连，用于基于自监督学习算法训练从所述三维特征图提取人体分块的热力图，所述热力图与所述候选框一一对应。

所述合并模块56与所述特征提取模块54和所述注意力提取模块55相连，用于根据所述三维特征图和所述热力图生成人体分块的分块特征图。

所述标签计算模块57与所述合并模块56相连，用于根据每个分块特征图生成对应的标签概率集合。

所述推理融合模块58与所述标签计算模块57和所述推理模块53相连，用于根据所述标签概率集合和所述二值属性掩码生成行人属性识别结果。

所述推理阶段包括所述特征提取模块54、所述注意力提取模块55、所述合并模块56、所述标签计算模块57、所述推理模块53和所述推理融合模块58。

所述特征提取模块54用于提取输入图片的三维特征图。

所述注意力提取模块55与所述特征提取模块54和所述注意力分割模块52相连，用于基于训练好的自监督学习算法根据三维特征图提取人体分块的热力图。

所述推理模块53用于获取所述输入图片的各个人体分块的与自然语义对应的二值属性掩码。

所述推理融合模块58与所述标签计算模块57和所述推理模块53相连，用于根据所述标签概率集合和二值属性掩码生成行人属性识别结果。

其中，关键点提取模块51、注意力分割模块52、推理模块53、特征提取模块54、注意力提取模块55、合并模块56、标签计算模块57和推理融合模块58的结构和原理与上述行人属性识别方法中的步骤一一对应，故在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，该所述计算机程序被处理器执行时实现上述的行人属性识别方法。优选地，所述存储介质包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

如图6所示，于一实施例中，本发明的终端包括：处理器61及存储器62。

所述存储器62用于存储计算机程序。

所述存储器62包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器61与所述存储器62相连，用于执行所述存储器62存储的计算机程序，以使所述终端执行上述的行人属性识别方法。

优选地，所述处理器61可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明的行人属性识别方法及系统、存储介质及终端采用基于自监督注意力机制的行人属性识别技术，能够快速准确有效地对行人外观特征，生理特征以及隐藏特征匹配可搜索的自然语言描述，并且不需要任何手动裁剪操作，效率更高；检测到的关键点信息能够明确地指导模型关注非遮挡人的区域，并在特征构建和匹配阶段过滤遮挡区域的信息；能够应用于各种各样的情景，例如行人重识别、视频监控、刑事侦查、人脸识别、身份验证等等，实用性强；通过提取人体关键点和提取候选框，突出了行人属性特征的信息，能够有效降低网络计算复杂度，减少网络计算的消耗。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种行人属性识别方法，其特征在于：包括自监督学习阶段和推理阶段；

所述自监督学习阶段包括：

提取训练图片的人体骨骼关键点；

根据所述人体骨骼关键点提取人体分块的候选框；

获取各个候选框与自然语义对应的二值属性掩码；

提取所述训练图片的三维特征图；

基于自监督学习算法训练从所述三维特征图提取人体分块的热力图，所述热力图与所述候选框一一对应；

根据所述三维特征图和所述热力图生成人体分块的分块特征图；

根据每个分块特征图生成对应的标签概率集合；

根据所述标签概率集合和所述二值属性掩码生成行人属性识别结果；

所述推理阶段包括：

提取输入图片的三维特征图；

基于训练好的自监督学习算法根据三维特征图提取人体分块的热力图；

根据每个分块特征图生成对应的标签概率集合；

获取所述输入图片的各个人体分块的与自然语义对应的二值属性掩码；

根据所述标签概率集合和二值属性掩码生成行人属性识别结果。

2.根据权利要求1所述的行人属性识别方法，其特征在于：在所述自监督学习阶段，基于深度学习的DeepPose网络、DensePose网络或Openpose网络提取所述人体骨骼关键点；在所述自监督学习阶段和所述推理阶段，基于卷积神经网络、ResNet网络或Mobile Net网络提取所述三维特征图；在所述自监督学习阶段，基于RPN网络提权所述候选框。

3.根据权利要求1所述的行人属性识别方法，其特征在于：设定C＝{c0，c1，......，c_N-1}为行人属性标签，所述二值属性掩码为R＝{r0，r1，......，r_M-1}，其中r_i＝{r_(i，0)，r_(i，1)，r_(i，2)……r_(i，N-1)}，0≤i≤M-1；

0≤j≤N-1；M和N均为自然数。

4.根据权利要求1所述的行人属性识别方法，其特征在于：基于自监督学习算法训练从所述三维特征图提取人体分块的热力图包括以下步骤：

重复进行数据训练，以使所述热力图与所述候选框相拟合。

5.根据权利要求1所述的行人属性识别方法，其特征在于：根据所述三维特征图和所述热力图生成人体分块的分块特征图时，将所述热力图与所述三维特征图在空间上逐像素相乘，即可得到所述分块特征图。

6.根据权利要求1所述的行人属性识别方法，其特征在于：基于一系列卷积层和全连接层生成所述标签概率P_i＝{P_(i，0)，P_(i，1)，P_(i，j)……P_(i，N-1)}，其中P_(i，j)表示第i个分块特征图中存在行人属性标签中第j个属性的概率，N表示标签个数，0≤i≤M-1。

7.根据权利要求1所述的行人属性识别方法，其特征在于：所述行人属性识别结果为

T＝{t0，t1，……，t_N-1}，

8.一种行人属性识别系统，其特征在于：包括自监督学习模块和推理模块；所述自监督学习模块包括关键点提取模块、注意力分割模块、推理模块、特征提取模块、注意力提取模块、合并模块、标签计算模块和推理融合模块；

所述自监督学习阶段包括：

所述关键点提取模块用于提取训练图片的人体骨骼关键点；

所述特征提取模块用于提取所述训练图片的三维特征图；

所述特征提取模块用于提取输入图片的三维特征图；

9.一种存储介质，其上存储有计算机程序，其特征在于，该所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的行人属性识别方法。

10.一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至7中任一项所述的行人属性识别方法。