CN110175595B

CN110175595B - 人体属性识别方法、识别模型训练方法及装置

Info

Publication number: CN110175595B
Application number: CN201910473033.0A
Authority: CN
Inventors: 苏驰; 李凯; 刘弘也; 袁宝煜; 邓梦玲
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd; Beijing Kingsoft Cloud Technology Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2021-03-02
Anticipated expiration: 2039-05-31
Also published as: CN110175595A

Abstract

本发明实施例提供了一种人体属性识别方法、识别模型训练方法及装置，其中识别方法包括：获取目标图像，所述目标图像为包含人体的图像；将所述目标图像输入预先训练的人体属性识别模型，得到识别结果；所述识别结果包括多个元素，每个元素对应于一个预设的人体属性，每个元素表示所述目标图像属于对应的人体属性的概率。本发明实施例能够利用更丰富的特征信息对目标图像进行人体属性识别，进一步提高人体属性的识别准确性。

Description

人体属性识别方法、识别模型训练方法及装置

技术领域

本发明涉及人体属性识别技术领域，特别是涉及一种人体属性识别方法、识别模型训练方法及装置。

背景技术

人体属性识别，是指通过人体属性识别系统识别出人的各种属性，例如，人的性别、年龄段、上身服饰、下身服饰、是否戴帽子、是否戴眼镜、是否挎包、身体朝向、头发长短、头发颜色等。人体属性识别方法经常应用于监控场景中，例如，对摄像设备所采集视频的截图中的行人进行属性识别。

相关技术的人体属性识别方法通常为基于深度学习的人体属性识别方法，即，通过将人体图像输入用于对人体属性进行识别的神经网络，输出针对该人体图像中的人物进行人体属性识别的结果。

但是，相关技术的人体属性识别方法，通常只是将人体图像作为一个整体进行属性识别，由于所能得到的特征信息有限，因此在对人体的各属性进行识别的过程中，人体属性识别神经网络只能通过有限的特征信息进行人体属性识别，导致人体属性的识别准确性不高。

发明内容

本发明实施例的目的在于提供一种人体属性识别方法、识别模型训练方法及装置，以进一步提高人体属性的识别准确性。具体技术方案如下：

第一方面，本发明实施例提供了一种人体属性识别方法，包括：

获取目标图像，所述目标图像为包含人体的图像；

将所述目标图像输入预先训练的人体属性识别模型，得到识别结果；所述识别结果包括多个元素，每个元素对应于一个预设的人体属性，每个元素表示所述目标图像属于对应的人体属性的概率；

所述人体属性识别模型包括：语义分割模型和卷积神经网络模型，其中，所述语义分割模型基于预设的分割区域生成与每个所述分割区域对应的区域属性信息；所述卷积神经网络模型提取所述目标图像的特征信息，并基于所述特征信息和所述区域属性信息对所述目标图像进行识别。

可选的，所述语义分割模型基于预设的分割区域生成与每个所述分割区域对应的区域属性信息，包括：

将所述目标图像输入预先训练的语义分割模型，得到多个区域属性概率图；其中，每个所述区域属性概率图对应一个所述分割区域；每个所述区域属性概率图包括多个元素，每个元素对应所述目标图像中的一个像素，每个元素用于表示与该元素对应的像素属于预定分割区域的概率。

可选的，所述预设的分割区域包括以下至少一项：人体整体区域、背景区域和人体局部区域；所述人体局部区域包括以下至少一项：头部、上身、下身、手部、脚部。

可选的，所述基于所述特征信息和所述区域属性信息对所述目标图像进行识别，包括：

将所述特征信息分别与各个所述区域属性信息进行融合，得到与每个所述分割区域对应的区域特征信息；

基于所述特征信息和所述区域特征信息对所述目标图像进行识别。

可选的，所述卷积神经网络模型包括第一特征提取模块，所述卷积神经网络模型提取所述目标图像的特征信息，包括：

将所述目标图像输入所述第一特征提取模块，得到第一特征图，其中，所述第一特征图包括多个元素，每个元素对应所述目标图像的一个像素，每个元素表示与其对应的像素的特征信息。

可选的，所述第一特征提取模块包括多个特征提取单元，用于依次对所述目标图像进行特征提取，其中，在先的特征提取单元的输出为在后的特征提取单元的输入；每个所述特征提取单元包括：卷积层、批归一化层和激活函数；在后的特征提取单元的通道数依次大于在先的特征提取单元的通道数。

可选的，所述将所述特征信息分别与各个所述区域属性信息进行融合处理，得到与每个所述分割区域对应的区域特征信息，包括：

将所述第一特征图分别与多个所述区域属性概率图进行逐像素相乘，得到多个聚焦区域特征图；其中，每个所述聚焦区域特征图对应一个分割区域；每个所述聚焦区域特征图表示对其对应的分割区域的特征信息。

可选的，所述卷积神经网络模型还包括第二特征提取模块，所述基于所述特征信息和所述区域特征信息对所述目标图像进行识别，包括：

基于所述多个聚焦区域特征图合并后形成的特征图，以及所述第一特征图，生成针对所述样本图像的预测向量。

第二方面，本发明实施例提供了一种人体属性识别模型的训练方法，应用于上述第一方面所述的人体属性识别模型，包括：

构建初始人体属性识别模型，所述初始人体属性识别模型包括：语义分割模型和初始卷积神经网络模型；

获取样本图像以及各样本图像对应的人体属性标注信息，所述样本图像为经标注人体属性信息后得到的图像；

基于所述样本图像，各样本图像对应的人体属性标注信息，以及所述语义分割模型所生成的区域属性信息，对所述初始人体属性识别模型进行训练，得到所述人体属性识别模型。

可选的，所述基于所述样本图像，各样本图像对应的人体属性标注信息，以及所述语义分割模型基于预设的分割区域所生成的与每个所述分割区域对应的区域属性信息，对所述初始人体属性识别模型进行训练，包括：

将所述样本图像分别输入所述语义分割模型和所述初始卷积神经网络模型，通过所述语义分割模型得到与各预设分割区域对应的区域属性信息，通过所述初始卷积神经网络模型得到所述样本图像的特征信息；

基于所述特征信息和所述区域特征信息，生成针对所述样本图像的预测向量，所述预测概率向量用于表示各个人体属性的预测概率；

基于所述预测概率向量，所述样本图像对应的人体属性标注信息，以及不同人体属性标注信息的权重值，计算所述初始人体属性识别模型的损失函数；

通过所述损失函数，更新所述初始人体属性识别模型中的参数。

可选的，所述初始卷积神经网络模型包括第一特征提取模块和第一特征提取模块；

所述将所述样本图像分别输入所述语义分割模型和所述初始卷积神经网络模型，通过所述语义分割模型得到与各预设分割区域对应的区域属性信息，通过所述初始卷积神经网络模型得到所述样本图像的特征信息的步骤，包括：

将所述样本图像输入所述第一特征提取模块，得到第一特征图，其中，所述第一特征图包括多个元素，每个元素对应所述目标图像的一个像素，每个元素表示与其对应的像素的特征信息；

以及，将所述目标图像输入预先训练的语义分割模型，得到多个区域属性概率图；其中，每个所述区域属性概率图对应一个所述分割区域；每个所述区域属性概率图包括多个元素，每个元素对应所述目标图像中的一个像素，每个元素用于表示与该元素对应的像素属于预定分割区域的概率；

所述将所述特征信息分别与各个所述区域属性信息进行融合，得到与每个所述分割区域对应的区域特征信息的步骤，包括：

将所述第一特征图分别与多个所述区域属性概率图进行逐像素相乘，得到多个聚焦区域特征图；其中，每个所述聚焦区域特征图对应一个分割区域；每个所述聚焦区域特征图表示对其对应的分割区域的特征信息；

所述基于所述特征信息和所述区域特征信息，生成针对所述样本图像的预测向量的步骤，包括：

将所述多个聚焦区域特征图进行合并，得到第二特征图；

对所述第二特征图进行降维处理，得到第三特征图；

将所述第一特征图和第三特征图进行合并，得到第四特征图；

将所述第四特征图输入所述第二特征提取模块，得到第五特征图；

对所述第五特征图依次输入池化层、全连接层和激活函数层，生成针对所述样本图像的预测向量。

第三方面，本发明实施例提供了一种人体属性识别装置，包括：

第一获取模块，用于获取目标图像，所述目标图像为包含人体的图像；

处理模块，用于将所述目标图像输入预先训练的人体属性识别模型，得到识别结果；所述识别结果包括多个元素，每个元素对应于一个预设的人体属性，每个元素表示所述目标图像属于对应的人体属性的概率；

可选的，所述处理模块，具体用于：

可选的，所述处理模块，包括：

第一融合子模块，用于将所述特征信息分别与各个所述区域属性信息进行融合，得到与每个所述分割区域对应的区域特征信息。

识别子模块，用于基于所述特征信息和所述区域特征信息对所述目标图像进行识别。

可选的，所述卷积神经网络模型包括第一特征提取模块，具体用于：

其中，所述第一特征提取模块包括多个特征提取单元，用于依次对所述目标图像进行特征提取，其中，在先的特征提取单元的输出为在后的特征提取单元的输入；每个所述特征提取单元包括：卷积层、批归一化层和激活函数；在后的特征提取单元的通道数依次大于在先的特征提取单元的通道数。

可选的，所述融合子模块，具体用于：

可选的，所述卷积神经网络模型还包括第二特征提取模块，如图9所示，所述识别子模块，包括：

第一合并单元，用于将所述多个聚焦区域特征图进行合并，得到第二特征图。

第一处理单元，用于对所述第二特征图进行降维处理，得到第三特征图。

第二合并单元，用于将所述第一特征图和第三特征图进行合并，得到第四特征图。

特征提取单元，用于将所述第四特征图输入所述第二特征提取模块，得到第五特征图。

第二处理单元，用于对所述第五特征图依次输入池化层、全连接层和激活函数层，得到所述识别结果。

第四方面，本发明实施例提供了一种人体属性识别模型的训练装置，包括：

构建模块，用于构建初始人体属性识别模型，所述初始人体属性识别模型包括：语义分割模型和初始卷积神经网络模型；

第二获取模块，用于获取样本图像以及各样本图像对应的人体属性标注信息，所述样本图像为经标注人体属性信息后得到的图像；

训练模块，用于基于所述样本图像，各样本图像对应的人体属性标注信息，以及所述语义分割模型所生成的区域属性信息，对所述初始人体属性识别模型进行训练，得到所述人体属性识别模型。

可选的，所述训练模块，包括：

处理子模块，用于将所述样本图像分别输入所述语义分割模型和所述初始卷积神经网络模型，通过所述语义分割模型得到与各预设分割区域对应的区域属性信息，通过所述初始卷积神经网络模型得到所述样本图像的特征信息。

第二融合子模块，用于将所述特征信息分别与各个所述区域属性信息进行融合，得到与每个所述分割区域对应的区域特征信息。

生成子模块，用于基于所述特征信息和所述区域特征信息，生成针对所述样本图像的预测向量，所述预测概率向量用于表示各个人体属性的预测概率。

计算子模块，用于基于所述预测概率向量，所述样本图像对应的人体属性标注信息，以及不同人体属性标注信息的权重值，计算所述初始人体属性识别模型的损失函数。

更新子模块，用于通过所述损失函数，更新所述初始人体属性识别模型中的参数。

可选的，所述初始卷积神经网络模型包括第一特征提取模块和第一特征提取模块，所述处理子模块具体用于：

将所述样本图像输入所述第一特征提取模块，得到第一特征图，其中，所述第一特征图包括多个元素，每个元素对应所述目标图像的一个像素，每个元素表示与其对应的像素的特征信息。

以及，将所述目标图像输入预先训练的语义分割模型，得到多个区域属性概率图；其中，每个所述区域属性概率图对应一个所述分割区域；每个所述区域属性概率图包括多个元素，每个元素对应所述目标图像中的一个像素，每个元素用于表示与该元素对应的像素属于预定分割区域的概率。

所述第二融合子模块，具体用于：

所述生成子模块，具体用于：

将所述多个聚焦区域特征图进行合并，得到第二特征图；对所述第二特征图进行降维处理，得到第三特征图；将所述第一特征图和第三特征图进行合并，得到第四特征图；将所述第四特征图输入所述第二特征提取模块，得到第五特征图；对所述第五特征图依次输入池化层、全连接层和激活函数层，生成针对所述样本图像的预测向量。

第五方面，本发明实施例提供了一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现上述第一方面提供的人体属性识别方法的方法步骤。

第六方面，本发明实施例提供了一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现上述第二方面提供的人体属性识别模型的训练的方法步骤。

第七方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上述第一方面提供的人体属性识别方法的方法步骤。

第八方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上述第二方面提供的人体属性识别模型的训练方法的方法步骤。

第九方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面提供的人体属性识别方法的方法步骤。

第十方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第二方面提供的人体属性识别模型的训练方法的方法步骤。

第十一方面，本发明实施例还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面提供的人体属性识别方法的方法步骤。

第十二方面，本发明实施例还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述第二方面提供的人体属性识别模型的训练方法的方法步骤。

本发明实施例提供的一种人体属性识别方法及装置，在获取目标图像后，通过将待进行人体属性识别的目标图像输入预先训练的人体属性识别模型，从而得到目标图像的人体属性的识别结果，由于本发明实施例能够通过语义分割模型生成与预设分割区域对应的区域属性信息，通过卷积神经网络模型能够提取目标图像的特征信息，并基于特征信息和区域属性信息对目标图像进行识别，从而利用更丰富的特征信息对目标图像进行人体属性识别，因此能进一步提高人体属性的识别准确性。

本发明实施例提供的一种人体属性识别模型训练方法及装置，能够利用语义分割模型生成与预设分割区域对应的区域属性信息，利用初始卷积神经网络模型提取样本图像的特征信息，对初始人体属性识别模型共同进行训练，由于初始人体属性识别模型是通过样本图像，各样本图像对应的人体属性标注信息，以及语义分割模型所生成的区域属性信息等参数共同训练得到的，因此训练后的模型能够利用更丰富的特征信息对目标图像进行人体属性识别，从而提高人体属性的识别准确性。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的人体属性识别方法的第一种流程示意图；

图2为本发明实施例的人体属性识别模型的框架示意图；

图3为本发明实施例提供的人体属性识别方法中特征信息融合的一种流程示意图；

图4为本发明实施例提供的人体属性识别方法中对图像进行预处理的一种流程示意图；

图5为本发明实施例提供的人体属性识别模型训练方法的第一种流程示意图；

图6为本发明实施例提供的人体属性识别模型训练方法中训练过程的一种流程示意图；

图7为本发明实施例提供的人体属性识别装置的一种结构示意图；

图8为本发明实施例提供的人体属性识别装置中处理模块的一种结构示意图；

图9为本发明实施例的人体属性识别装置中识别子模块的一种结构示意图；

图10为本发明实施例提供的人体属性识别模型训练装置的一种结构示意图；

图11为本发明实施例的人体属性识别模型训练装置中训练模块的一种结构示意图；

图12为本发明实施例提供的一种电子设备的结构示意图；

图13为本发明实施例提供的另一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术的人体属性识别方法，通常只是将目标图像作为一个整体进行属性识别，而未对不同属性与目标图像中不同区域之间的关系进行分析处理，例如，头发颜色这一属性通常与人体的头部更加相关，而相关技术中由于未对头发颜色与人体头部之间的关系进行分析处理，因此无法提取出头发颜色与人体头部之间的特征信息，也即，相关技术在进行人体属性识别时可利用的特征信息量有限，导致人体属性的识别准确性不高。

有鉴如此，如图1所示，本发明实施例提供了一种人体属性识别方法，该方法可以包括以下步骤：

S101，获取目标图像。

本发明实施例提供的方法可以应用于电子设备。具体地，该电子设备可以为台式计算机、便携式计算机、智能移动终端等。

本发明实施例中，目标图像可以是指待进行人体属性识别的图像，可以理解的是，目标图像中包含人体，例如，天桥上的行人，并且该行人可以具有一系列的属性信息，例如，一名戴着眼镜，身穿西服西裤，手中握有公文包的短发中年男性，这些属性信息共同构成了该行人的人体属性。当然，在对该行人进行人体属性识别前，上述属性信息实际已经存在，本发明实施例的目的正是识别这些属性信息。

本发明实施例中，一幅目标图像中通常对应一个人体，从而在进行人体属性识别时，可以对该幅目标图像中的该行人进行细粒度的识别。

S102，将目标图像输入预先训练的人体属性识别模型，得到识别结果。

在本发明实施例中，为了提高人体属性识别的准确性，可以预先根据一定数量的样本图像，例如，1000张、5000张、10000张等，以及各样本图像对应的人体属性标注信息训练得到人体属性识别模型。使用该人体属性识别模型，当输入目标图像时，该人体属性识别模型可以输出目标图像的人体属性的识别结果，识别结果可以包括多个元素，每个元素对应于一个预设的人体属性，例如可以为：性别，年龄段，上身服饰类型，下身服饰类型，是否戴帽子，是否戴眼镜，是否挎包，身体朝向，头发长短，头发颜色等属性。并且，每个元素可以表示目标图像属于对应的人体属性的概率。

图2为本发明实施例的人体属性识别模型的框架示意图，如图2所示，本发明实施例的人体属性识别模型，主要包括语义分割模型和卷积神经网络模型两个部分。

其中，语义分割模型可以基于预设的分割区域，生成与每个分割区域对应的区域属性信息，上述区域属性信息可以认为是一种特征信息；卷积神经网络模型可以提取目标图像的特征信息，并可以利用特征信息，以及语义分割模型得到的区域属性信息，对目标图像进行识别。

作为本发明实施例一种可选的实施方式，上述区域属性信息具体可以为区域属性概率图。

示例性地，可以将目标图像输入预先训练的语义分割模型，从而得到多个区域属性概率图，这些区域属性概率图中，每个区域属性概率图对应一个分割区域，并且，每个区域属性概率图可以包括多个元素，每个元素对应目标图像中的一个像素，每个元素可以用于表示与该元素对应的像素属于预定分割区域的概率。

具体地，目标图像可以是一幅尺寸为299x299像素的人体图像，目标图像首先经过语义分割模型，得到五幅区域属性概率图，分别是整体概率图、背景概率图、头部概率图、上身概率图、以及下身概率图，这五幅区域属性概率图的尺寸相同，记为h×w(h表示高，w表示宽)。

本发明实施例的语义分割模型可以通过已有的人体语义分割模型得到，例如，基于全卷积神经网络的人体语义分割模型，并且，人体语义分割模型也是可以预先训练好的。语义分割模型的具体架构可以通过已有的人体语义分割模型得到，本发明实施例不再赘述。

作为本发明实施例一种可选的实施方式，预设的分割区域可以包括以下至少一项：人体整体区域、背景区域和人体局部区域；人体局部区域包括以下至少一项：头部、上身、下身、手部、脚部，当然，本发明实施例的区域属性概率图可以包括以下至少一项：头部概率图、上身概率图、下身概率图、手部概率图、脚部概率图、头发概率图、面部概率图。可见，上述头部概率图对应人体的头部区域，上身概率图对应人体的上身区域，下身概率图对应人体的下身区域，等等。

示例性的，对于头部概率图而言，头部概率图中每个像素表示该像素为头部的概率，所说的分割区域即为人体的头部区域。

在实际应用中，通常是将人体整体区域、背景区域、以及人体局部部位的区域所对应的区域属性概率图进行合并，当然，这些分割区域可以是技术人员预先设定的，例如，还可以为人体背部区域，因此除所举的例子所示的实现方式以外，实现该特征的方式均属于本发明实施例的保护范围。

作为本发明实施例一种可选的实施方式，如图3所示，上述基于特征信息和区域属性信息对目标图像进行识别的步骤包括：

S1021，将特征信息分别与各个区域属性信息进行融合，得到与每个分割区域对应的区域特征信息。

通过卷积神经网络模型得到针对目标图像的特征信息，以及，通过语义分割模型得到多个区域属性信息后，可以将目标图像的特征信息与多个区域属性信息进行融合，得到与每个分割区域对应的区域特征信息，从而使所提取的特征相对于不同分隔区域更有针对性。

S1022，基于特征信息和区域特征信息对目标图像进行识别。

本发明实施例中，可以利用卷积神经网络模型得到的特征信息，以及融合后得到的各分割区域对应的区域特征信息，由于这些特征信息中携带有目标图像整体特征和局部特征，因此可以利用这些特征信息对目标图像进行识别。

如图2所示，本发明实施例的卷积神经网络模型可以包括第一特征提取模块和第二特征提取模块，特征提取模块可以用于进行批归一化(Batch Normalization)操作；并且，该卷积神经网络模型还包括一个卷积层，用于对合并后的概率图进行降维处理，以提取出特征信息，并结合通过第一特征模块得到的第一特征图，共同进行人体属性识别。当然，该卷积神经网络模型还可以包括一个全局平均池化层，一个全连接层，以及一个激活函数层，用于输出包含人体属性识别结果的预测概率向量。

作为本发明实施例一种可选的实施方式，可以将目标图像输入第一特征提取模块，得到第一特征图，其中，第一特征图包括多个元素，每个元素对应目标图像的一个像素，每个元素表示与其对应的像素的特征信息。

作为本发明实施例一种可选的实施方式，如图2所示，上述第一特征提取模块可以包括多个特征提取单元，这些特征提取单元用于依次对目标图像进行特征提取，其中，如图中箭头方向所示，在先的特征提取单元的输出为在后的特征提取单元的输入，并且，每个特征提取单元可以包括：卷积层、批归一化层和激活函数，其中，在后的特征提取单元的通道数依次大于在先的特征提取单元的通道数。

示例性地，将目标图像输入第一特征提取模块后，依次通过四个特征提取单元，得到一幅尺寸为h×w×c的第一特征图，其中，h是特征图的高，w是特征图的宽，c是特征图通道的个数(也即卷积核的个数)。

作为本发明实施例一种可选的实施方式，上述步骤S1021具体可以为：

将第一特征图分别与多个区域属性概率图进行逐像素相乘，得到多个聚焦区域特征。

本发明实施例中，在得到第一特征图和多个区域属性概率图后，可以将第一特征图分别与多个区域属性概率图进行逐像素相乘(即element-wise multiply)，从而得到多个聚焦区域特征图。可以理解，每个聚焦区域特征图对应一个分割区域，且每个聚焦区域特征图表示对该所述聚焦区域特征图对应的分割区域的特征信息，这是由于第一特征图和每个区域属性概率图相乘之后，概率较大的地方特征得到保留，概率小的地方特征得到抑制，因此每一个聚焦特征图可以代表对应的分割区域的特征。

作为本发明实施例一种可选的实施方式，上述基于特征信息和区域特征信息对目标图像进行识别的步骤，包括：

基于多个聚焦区域特征图合并后形成的特征图，以及第一特征图，生成针对样本图像的预测向量，该过程具体包括：

步骤A：将多个聚焦区域特征图进行合并，得到第二特征图。

可以将多个聚焦区域特征图按照通道的个数进行合并，得到第二特征图，则第二特征图的尺寸为h×w×5c。

步骤B：对第二特征图进行降维处理，得到第三特征图。

可以将第二特征图经过一个卷积核大小为1x1的卷积层进行降维处理，得到第三特征图，大小为h×w×c。

步骤C：将第一特征图和第三特征图进行合并，得到第四特征图。

然后，将第一特征图和第三特征图相加后，得到第四特征图，第四特征图的大小为h×w×c。

步骤D：将第四特征图输入第二特征提取模块，得到第五特征图。

将第五特征图作为第二特征提取模块的输入，第五特征提取模块的输出为第五特征图，大小为h×w×c。

步骤E：对第五特征图依次输入池化层、全连接层和激活函数层，得到识别结果。

第五特征图再经过一个全局平均池化层，得到目标图像的整体特征向量，记为f；然后将f输入一个大小为k的全连接层，得到新的特征向量，记为z；然后将z输入激活函数层，得到预测概率向量，记为p，该向量可以用于表示各个人体属性的预测概率，也即识别结果。

作为本发明实施例一种可选的实施方式，在对目标图像识别前，可以对一幅含有人体的图像进行预处理操作，得到目标图像。上述含有人体的图像，可以包括：视频截图，照片等图像，这些图像由于是通过不同的成像设备得到的，其分辨率可能不同，因此，为了便于本发明实施例的人体属性识别模型进行识别，可以对这些图像进行预处理操作，从而处理得到符合人体属性识别模型要求的图像，例如，将上述含有人体的图像的分辨率调整至统一的预设分辨率，或者将上述含有人体的图像的色彩空间调整至统一的预设色彩空间。

当然，上述预设分辨率和预设色彩空间，本领域技术人员均可以根据实际的处理需求进行设定，例如，将分辨率(图像尺寸)设定为299×299，将色彩空间设定为RGB(red，green，blue，红绿蓝)色彩空间，本发明实施例在此不再赘述。

作为本发明实施例一种可选的实施方式，如图4所示，上述预处理过程具体可以包括：

S201，获取包含多个人物的监控场景图像。

本发明实施例可以用于监控场景下的人体属性识别。监控场景通常是指通过监控设备对目标对象进行监控的场景，例如，通过摄像设备拍摄人行天桥上的行人，从而对行人进行监控；或者，通过探头拍摄经过卡口的车辆，从而对过往卡口的各车辆中的司乘人员进行监控。

可以理解，监控设备在对目标监控人物进行监控过程中，可以生成视频或者照片，因此，本发明实施例可以获取上述视频的截图，或者获取所拍摄的照片，这些截图和照片即可作为监控场景图像。

S202，识别监控场景图像中各人物所在的区域。

对于一幅监控场景图像而言，其中可以包含多个人物，所说的人物，可以指监控场景图像中的各个人物，例如，人行天桥场景下，监控场景图像中的多个人物，包括：老人，小孩，年轻人等；车辆经过收费站场景下，监控场景图像中的司乘人员。

可以理解，每一名人物在监控场景图像中都占有一定的区域，因此，本发明实施例可以针对监控场景图像，识别各人物所在的区域。示例性地，可以采用覆盖各人物的矩形框表示各人物所在的区域。当然，除所举的例子所示的实现方式以外，实现该特征的方式均属于本发明实施例的保护范围。

S203，将各人物所在区域对应的图像调整至预设分辨率，生成多张目标图像。

为了便于本发明实施例的人体属性识别模型进行识别，本发明实施例可以将各人物所在区域对应的图像调整至预设分辨率，即，调整为相同的尺寸，从而生成多张目标图像。本领域技术人员均可以根据实际的处理需求设定上述预设分辨率，本发明实施例在此不再赘述。

作为本发明实施例一种可选的实施方式，确定各目标人物所在的区域后，即可将该区域对应的图像进行保存。例如，得到多个覆盖各目标人物的矩形框后，即可将各矩形框对应的图像进行保存。如果这些矩形框对应的图像的尺寸相同，则可以直接作为目标图像使用。

本发明实施例提供的一种人体属性识别方法，在获取目标图像后，通过将待进行人体属性识别的目标图像输入预先训练的人体属性识别模型，从而得到目标图像的人体属性的识别结果，由于本发明实施例能够通过语义分割模型生成与预设分割区域对应的区域属性信息，通过卷积神经网络模型能够提取目标图像的特征信息，并基于特征信息和区域属性信息对目标图像进行识别，从而利用更丰富的特征信息对目标图像进行人体属性识别，因此能进一步提高人体属性的识别准确性。

本发明实施例还提供了一种人体属性识别模型的训练方法，可以应用于上述实施例中的人体属性识别模型，如图5所示，训练过程包括以下步骤：

S301，构建初始人体属性识别模型。

在本发明实施例中，可以首先构建初始人体属性识别模型，其网络架构如图2所示，主要包括语义分割模型和初始卷积神经网络模型两个部分，其中，初始卷积神经网络模型可以是指图2中除语义分割模型外的其他神经网络部分。初始卷积神经网络模型可以包括：第一特征提取模块，第二特征提取模块，至少一个卷积层，至少一个全局平均池化层，至少一个全连接层，以及一个激活函数层。

上述第一特征提取模块中包括多个特征提取单元，用于依次对图像进行特征提取，在先的特征提取单元的输出为在后的特征提取单元的输入，每个特征提取单元中又可以包括：卷积层、批归一化层和激活函数。本发明实施例中的特征提取单元及批归一化方法，可以采用现有的特征提取单元及批归一化方法，其实现原理在此不再赘述。

S302，获取样本图像以及各样本图像对应的人体属性标注信息。

样本图像可以是在大量监控场景下得到的包含人体的图像，并且，这些样本图像可以通过人工标注的方式，得到各样本图像对应的人体属性标注信息，从而构成人体属性数据集。

对于相对的两个人体属性，可以以正负加以区分，例如，长发属性为正，可以以1表示，短发属性则为负，可以以0表示；戴眼镜属性为正，可以以1表示，未戴眼镜属性则为负，可以以0表示。当然，本领域技术人员可以根据实际情况合理地划分各属性的正负，本发明实施例在此不对各属性的正负进行具体限定。

可以理解，每个样本图像的人体属性标注信息可以包括：正例人体属性标注信息和负例人体属性标注信息，其中，正例人体属性标注信息表示该人体属性标注信息的人体属性为正，负例人体属性标注信息表示该人体属性标注信息的人体属性为负。例如，对于一幅样本图像，其人体属性标注信息可以为：长发，戴眼镜，未戴帽子，则长发和戴眼镜即为正例人体属性标注信息，未戴帽子即为负例人体属性标注信息。

示例性地，本发明实施例中的人体属性标注信息，可以包括以下至少一项：性别，年龄段，上身服饰类型，下身服饰类型，是否戴帽子，是否戴眼镜，是否挎包，身体朝向，头发长短，头发颜色等。当然，除所举的例子所示的实现方式以外，实现该特征的方式均属于本发明实施例的保护范围。

S303，基于样本图像，各样本图像对应的人体属性标注信息，以及语义分割模型所生成的区域属性信息，对初始人体属性识别模型进行训练，得到人体属性识别模型。

本发明实施例中，可以将样本图像输入语义分割模型，得到与预设的分割区域对应的区域属性信息，可以将样本图像输入初始卷积神经网络模型，得到样本图像的特征信息，从而得到识别结果，通过将识别结果与该样本图像对应的人体属性标注信息进行比较，根据比较结果计算损失函数，以更新模型中的参数，从而对初始人体属性识别模型进行训练。

作为本发明实施例一种可选的实施方式，如图6所示，上述步骤S303具体可以包括：

S3031，将样本图像分别输入语义分割模型和初始卷积神经网络模型，通过语义分割模型得到与各预设分割区域对应的区域属性信息，通过初始卷积神经网络模型得到样本图像的特征信息。

上述预设分割区域可以包括以下至少一项：人体整体区域、背景区域和人体局部区域。

S3032，将特征信息分别与各个区域属性信息进行融合，得到与每个分割区域对应的区域特征信息。

可以将样本图像的特征信息与多个区域属性信息进行融合，得到与每个分割区域对应的区域特征信息，从而使所提取的特征相对于不同分隔区域更有针对性。

S3033，基于特征信息和区域特征信息，生成针对样本图像的预测向量。

可以对所得到的特征信息和区域特征信息进行进一步融合处理，并利用融合结果，经全连接层处理得到输出向量，表示为z，其中，输出向量z的大小表示为k，k表示不同人体属性的个数，然后经激活函数层处理得到预测概率向量，表示为p，该预测概率向量用于表示各个人体属性的预测概率，则p中的第i个元素可以表示为：

其中，z_i表示z的第i个元素，e为自然常数。

作为本发明实施例一种可选的实施方式，还可以利用人体属性数据集中的样本图像对人体属性识别模型进行测试，如果p_i大于预设阈值，表明测试样本图像第i个属性的预测结果(人体属性)为正，否则预测结果为负。

作为本发明实施例一种可选的实施方式，上述经激活函数层可以采用Sigmoid激活函数(激活函数的一种)对z进行处理。

参见图6，S3034，基于预测概率向量，样本图像对应的人体属性标注信息，以及不同人体属性标注信息的权重值，计算初始人体属性识别模型的损失函数。

针对上述样本图像，可以将初始人体属性识别模型输出的预测概率向量，与该样本图像对应的标签向量进行比较，并根据比较结果计算初始人体属性识别模型的损失函数。

作为本发明实施例一种可选的实施方式，上述损失函数可以表示为：

式中，L表示损失函数；exp表示以自然常数e为底的指数函数；w_j表示第j个正例人体属性标注信息的权重值；y表示样本图像的标签向量，标签向量中携带有样本图像的人体属性标注信息；log表示对数；p_j表示第j个人体属性的预测概率向量；y_j＝1表示样本图像的第j个人体属性为正；y_j＝0表示样本图像的第j个人体属性为负。

本发明实施例可以为不同的人体属性标注信息设定不同的权重值，这是由于发明人发现，相关技术未考虑人体属性分布不均衡的问题，即，有些人体属性在数据集中出现的次数非常少，例如，在数据集中年龄段为老人的这一人体属性相对较少，因此增加了模型的训练难度。本发明实施例正是基于相关技术存在的问题，才考虑为不同的人体属性分配不同的权重，例如，对数据集中出现次数少的人体属性增加权重，具体地，可以为该人体属性的人体属性标注信息设定更大的权重值，从而使模型更有针对性地对该人体属性进行训练，以达到更好的训练效果。

当然，本领域技术人员可以根据实际需求，合理地为各人体属性标注信息设定不同的权重值，各人体属性标注信息的具体权重值本发明实施例在此不做具体限定。

S3035，通过损失函数，更新初始人体属性识别模型中的参数。

本发明实施例中，可以通过反向传播算法求损失函数L对初始人体属性识别模型中所有参数的导数，其中，人体属性识别模型中的参数表示为W，则W的导数可以表示为

然后可以通过随机梯度下降算法，更新初始人体属性识别模型的权重，该权重记为W，W可以通过以下表达式表示为：

式中，W表示人体属性识别模型中的所有参数；α表示预设系数。

通过不断迭代地对初始人体属性识别模型中的参数进行更新，直到模型收敛，训练完成，得到人体属性识别模型。

本发明实施例中的反向传播算法和随机梯度下降算法，其实现原理与现有的反向传播算法和随机梯度下降算法相同，因此本发明实施例在此不再赘述。

作为本发明实施例一种可选的实施方式，上述基于特征信息和区域特征信息，生成针对样本图像的预测向量的步骤，可以包括：

将多个聚焦区域特征图进行合并，得到第二特征图；

对第二特征图进行降维处理，得到第三特征图；

将第一特征图和第三特征图进行合并，得到第四特征图；

将第四特征图输入所述第二特征提取模块，得到第五特征图；

对第五特征图依次输入池化层、全连接层和激活函数层，生成针对样本图像的预测向量。

该过程与前述实施例中生成目标图像的预测向量的过程相同，在此不再赘述。

本发明实施例提供的一种人体属性识别模型训练方法，能够利用语义分割模型生成与预设分割区域对应的区域属性信息，利用初始卷积神经网络模型提取样本图像的特征信息，对初始人体属性识别模型共同进行训练，由于初始人体属性识别模型是通过样本图像，各样本图像对应的人体属性标注信息，以及语义分割模型所生成的区域属性信息等参数共同训练得到的，因此训练后的模型能够利用更丰富的特征信息对目标图像进行人体属性识别，从而提高人体属性的识别准确性。

相应于上面的方法实施例，本发明实施例还提供了相应的装置实施例。

如图7所示，本发明实施例提供了一种人体属性识别装置，包括：

第一获取模块401，用于获取目标图像，目标图像为包含人体的图像。

处理模块402，用于将目标图像输入预先训练的人体属性识别模型，得到识别结果；识别结果包括多个元素，每个元素对应于一个预设的人体属性，每个元素表示目标图像属于对应的人体属性的概率。

人体属性识别模型包括：语义分割模型和卷积神经网络模型，其中，语义分割模型基于预设的分割区域生成与每个分割区域对应的区域属性信息；卷积神经网络模型提取目标图像的特征信息，并基于特征信息和区域属性信息对目标图像进行识别。

其中，上述处理模块，具体用于：

将目标图像输入预先训练的语义分割模型，得到多个区域属性概率图；其中，每个区域属性概率图对应一个分割区域；每个区域属性概率图包括多个元素，每个元素对应目标图像中的一个像素，每个元素用于表示与该元素对应的像素属于预定分割区域的概率。

其中，上述预设的分割区域包括以下至少一项：人体整体区域、背景区域和人体局部区域；人体局部区域包括以下至少一项：头部、上身、下身、手部、脚部。

其中，如图8所示，上述处理模块，包括：

第一融合子模块4021，用于将特征信息分别与各个区域属性信息进行融合，得到与每个分割区域对应的区域特征信息。

识别子模块4022，用于基于特征信息和区域特征信息对目标图像进行识别。

其中，卷积神经网络模型包括第一特征提取模块，具体用于：

将目标图像输入第一特征提取模块，得到第一特征图，其中，第一特征图包括多个元素，每个元素对应目标图像的一个像素，每个元素表示与其对应的像素的特征信息。

其中，第一特征提取模块包括多个特征提取单元，用于依次对目标图像进行特征提取，其中，在先的特征提取单元的输出为在后的特征提取单元的输入；每个特征提取单元包括：卷积层、批归一化层和激活函数；在后的特征提取单元的通道数依次大于在先的特征提取单元的通道数。

其中，上述融合子模块，具体用于：

将第一特征图分别与多个区域属性概率图进行逐像素相乘，得到多个聚焦区域特征图；其中，每个聚焦区域特征图对应一个分割区域；每个聚焦区域特征图表示对其对应的分割区域的特征信息。

其中，卷积神经网络模型还包括第二特征提取模块，如图9所示，上述识别子模块，包括：

第一合并单元40221，用于将多个聚焦区域特征图进行合并，得到第二特征图。

第一处理单元40222，用于对第二特征图进行降维处理，得到第三特征图。

第二合并单元40223，用于将第一特征图和第三特征图进行合并，得到第四特征图。

特征提取单元40224，用于将第四特征图输入第二特征提取模块，得到第五特征图。

第二处理单元40225，用于对第五特征图依次输入池化层、全连接层和激活函数层，得到识别结果。

本发明实施例提供的一种人体属性识别装置，在获取目标图像后，通过将待进行人体属性识别的目标图像输入预先训练的人体属性识别模型，从而得到目标图像的人体属性的识别结果，由于本发明实施例能够通过语义分割模型生成与预设分割区域对应的区域属性信息，通过卷积神经网络模型能够提取目标图像的特征信息，并基于特征信息和区域属性信息对目标图像进行识别，从而利用更丰富的特征信息对目标图像进行人体属性识别，因此能进一步提高人体属性的识别准确性。

如图10所示，本发明实施例提供了一种人体属性识别模型的训练装置，包括：

构建模块501，用于构建初始人体属性识别模型，初始人体属性识别模型包括：语义分割模型和初始卷积神经网络模型。

第二获取模块502，用于获取样本图像以及各样本图像对应的人体属性标注信息，样本图像为经标注人体属性信息后得到的图像。

训练模块503，用于基于样本图像，各样本图像对应的人体属性标注信息，以及语义分割模型所生成的区域属性信息，对初始人体属性识别模型进行训练，得到人体属性识别模型。

其中，如图11所示，上述训练模块，包括：

处理子模块5031，用于将样本图像分别输入语义分割模型和初始卷积神经网络模型，通过语义分割模型得到与各预设分割区域对应的区域属性信息，通过初始卷积神经网络模型得到样本图像的特征信息。

第二融合子模块5032，用于将特征信息分别与各个区域属性信息进行融合，得到与每个分割区域对应的区域特征信息。

生成子模块5033，用于基于特征信息和区域特征信息，生成针对样本图像的预测向量，预测概率向量用于表示各个人体属性的预测概率。

计算子模块5034，用于基于预测概率向量，样本图像对应的人体属性标注信息，以及不同人体属性标注信息的权重值，计算初始人体属性识别模型的损失函数。

更新子模块5035，用于通过损失函数，更新初始人体属性识别模型中的参数。

其中，初始卷积神经网络模型包括第一特征提取模块和第一特征提取模块，上述处理子模块具体用于：

将样本图像输入第一特征提取模块，得到第一特征图，其中，第一特征图包括多个元素，每个元素对应目标图像的一个像素，每个元素表示与其对应的像素的特征信息。

以及，将目标图像输入预先训练的语义分割模型，得到多个区域属性概率图；其中，每个区域属性概率图对应一个分割区域；每个区域属性概率图包括多个元素，每个元素对应目标图像中的一个像素，每个元素用于表示与该元素对应的像素属于预定分割区域的概率。

上述第二融合子模块，具体用于：

上述生成子模块，具体用于：

将多个聚焦区域特征图进行合并，得到第二特征图；对第二特征图进行降维处理，得到第三特征图；将第一特征图和第三特征图进行合并，得到第四特征图；将第四特征图输入第二特征提取模块，得到第五特征图；对第五特征图依次输入池化层、全连接层和激活函数层，生成针对样本图像的预测向量。

本发明实施例提供的一种人体属性识别模型训练装置，能够利用语义分割模型生成与预设分割区域对应的区域属性信息，利用初始卷积神经网络模型提取样本图像的特征信息，对初始人体属性识别模型共同进行训练，由于初始人体属性识别模型是通过样本图像，各样本图像对应的人体属性标注信息，以及语义分割模型所生成的区域属性信息等参数共同训练得到的，因此训练后的模型能够利用更丰富的特征信息对目标图像进行人体属性识别，从而提高人体属性的识别准确性。

本发明实施例还提供了一种电子设备，具体可以为电子设备，如图12所示，该设备600包括处理器601和机器可读存储介质602，机器可读存储介质存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令实现以下步骤：

获取目标图像，目标图像为包含人体的图像；

将目标图像输入预先训练的人体属性识别模型，得到识别结果；识别结果包括多个元素，每个元素对应于一个预设的人体属性，每个元素表示目标图像属于对应的人体属性的概率；

本发明实施例提供的电子设备，在获取目标图像后，通过将待进行人体属性识别的目标图像输入预先训练的人体属性识别模型，从而得到目标图像的人体属性的识别结果，由于本发明实施例能够通过语义分割模型生成与预设分割区域对应的区域属性信息，通过卷积神经网络模型能够提取目标图像的特征信息，并基于特征信息和区域属性信息对目标图像进行识别，从而利用更丰富的特征信息对目标图像进行人体属性识别，因此能进一步提高人体属性的识别准确性。

本发明实施例还提供了另一种电子设备，具体可以为电子设备，如图13所示，该设备700包括处理器701和机器可读存储介质702，机器可读存储介质存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令实现以下步骤：

构建初始人体属性识别模型，初始人体属性识别模型包括：语义分割模型和初始卷积神经网络模型；

获取样本图像以及各样本图像对应的人体属性标注信息，样本图像为经标注人体属性信息后得到的图像；

基于样本图像，各样本图像对应的人体属性标注信息，以及语义分割模型所生成的区域属性信息，对初始人体属性识别模型进行训练，得到人体属性识别模型。

本发明实施例提供的电子设备，能够利用语义分割模型生成与预设分割区域对应的区域属性信息，利用初始卷积神经网络模型提取样本图像的特征信息，对初始人体属性识别模型共同进行训练，由于初始人体属性识别模型是通过样本图像，各样本图像对应的人体属性标注信息，以及语义分割模型所生成的区域属性信息等参数共同训练得到的，因此训练后的模型能够利用更丰富的特征信息对目标图像进行人体属性识别，从而提高人体属性的识别准确性。

机器可读存储介质可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时，用以执行如下步骤：

获取目标图像，目标图像为包含人体的图像；

本发明实施例提供的计算机可读存储介质，在获取目标图像后，通过将待进行人体属性识别的目标图像输入预先训练的人体属性识别模型，从而得到目标图像的人体属性的识别结果，由于本发明实施例能够通过语义分割模型生成与预设分割区域对应的区域属性信息，通过卷积神经网络模型能够提取目标图像的特征信息，并基于特征信息和区域属性信息对目标图像进行识别，从而利用更丰富的特征信息对目标图像进行人体属性识别，因此能进一步提高人体属性的识别准确性。

本发明实施例提供的计算机可读存储介质，本发明实施例提供的电子设备，能够利用语义分割模型生成与预设分割区域对应的区域属性信息，利用初始卷积神经网络模型提取样本图像的特征信息，对初始人体属性识别模型共同进行训练，由于初始人体属性识别模型是通过样本图像，各样本图像对应的人体属性标注信息，以及语义分割模型所生成的区域属性信息等参数共同训练得到的，因此训练后的模型能够利用更丰富的特征信息对目标图像进行人体属性识别，从而提高人体属性的识别准确性。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行以下步骤：

获取目标图像，目标图像为包含人体的图像；

本发明实施例提供的包含指令的计算机程序产品，在获取目标图像后，通过将待进行人体属性识别的目标图像输入预先训练的人体属性识别模型，从而得到目标图像的人体属性的识别结果，由于本发明实施例能够通过语义分割模型生成与预设分割区域对应的区域属性信息，通过卷积神经网络模型能够提取目标图像的特征信息，并基于特征信息和区域属性信息对目标图像进行识别，从而利用更丰富的特征信息对目标图像进行人体属性识别，因此能进一步提高人体属性的识别准确性。

本发明实施例提供的包含指令的计算机程序产品，本发明实施例提供的电子设备，能够利用语义分割模型生成与预设分割区域对应的区域属性信息，利用初始卷积神经网络模型提取样本图像的特征信息，对初始人体属性识别模型共同进行训练，由于初始人体属性识别模型是通过样本图像，各样本图像对应的人体属性标注信息，以及语义分割模型所生成的区域属性信息等参数共同训练得到的，因此训练后的模型能够利用更丰富的特征信息对目标图像进行人体属性识别，从而提高人体属性的识别准确性。

本发明实施例还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行以下步骤：

获取目标图像，目标图像为包含人体的图像；

本发明实施例提供的包含指令的计算机程序，在获取目标图像后，通过将待进行人体属性识别的目标图像输入预先训练的人体属性识别模型，从而得到目标图像的人体属性的识别结果，由于本发明实施例能够通过语义分割模型生成与预设分割区域对应的区域属性信息，通过卷积神经网络模型能够提取目标图像的特征信息，并基于特征信息和区域属性信息对目标图像进行识别，从而利用更丰富的特征信息对目标图像进行人体属性识别，因此能进一步提高人体属性的识别准确性。

本发明实施例提供的包含指令的计算机程序，本发明实施例提供的电子设备，能够利用语义分割模型生成与预设分割区域对应的区域属性信息，利用初始卷积神经网络模型提取样本图像的特征信息，对初始人体属性识别模型共同进行训练，由于初始人体属性识别模型是通过样本图像，各样本图像对应的人体属性标注信息，以及语义分割模型所生成的区域属性信息等参数共同训练得到的，因此训练后的模型能够利用更丰富的特征信息对目标图像进行人体属性识别，从而提高人体属性的识别准确性。

对于装置/电子设备/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种人体属性识别方法，其特征在于，所述方法包括：

获取目标图像，所述目标图像为包含人体的图像；

2.根据权利要求1所述的方法，其特征在于，所述语义分割模型基于预设的分割区域生成与每个所述分割区域对应的区域属性信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述预设的分割区域包括以下至少一项：人体整体区域、背景区域和人体局部区域；所述人体局部区域包括以下至少一项：头部、上身、下身、手部、脚部。

4.根据权利要求2所述的方法，其特征在于，所述基于所述特征信息和所述区域属性信息对所述目标图像进行识别，包括：

5.根据权利要求4所述的方法，其特征在于，所述卷积神经网络模型包括第一特征提取模块，所述卷积神经网络模型提取所述目标图像的特征信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述第一特征提取模块包括多个特征提取单元，用于依次对所述目标图像进行特征提取，其中，在先的特征提取单元的输出为在后的特征提取单元的输入；每个所述特征提取单元包括：卷积层、批归一化层和激活函数；在后的特征提取单元的通道数依次大于在先的特征提取单元的通道数。

7.根据权利要求6所述的方法，其特征在于，所述将所述特征信息分别与各个所述区域属性信息进行融合处理，得到与每个所述分割区域对应的区域特征信息，包括：

将所述第一特征图分别与多个所述区域属性概率图进行逐像素相乘，得到多个聚焦区域特征图；其中，每个所述聚焦区域特征图对应一个分割区域；每个所述聚焦区域特征图表示对该所述聚焦区域特征图对应的分割区域的特征信息。

8.根据权利要求7所述的方法，其特征在于，所述卷积神经网络模型还包括第二特征提取模块，所述基于所述特征信息和所述区域特征信息对所述目标图像进行识别，包括：

将所述多个聚焦区域特征图进行合并，得到第二特征图；

对所述第二特征图进行降维处理，得到第三特征图；

对所述第五特征图依次输入池化层、全连接层和激活函数层，得到所述识别结果。

9.一种人体属性识别模型的训练方法，其特征在于，应用于如权利要求1-8任一项所述的人体属性识别方法中人体属性识别模型，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述基于所述样本图像，各样本图像对应的人体属性标注信息，以及所述语义分割模型基于预设的分割区域所生成的与每个所述分割区域对应的区域属性信息，对所述初始人体属性识别模型进行训练，包括：

基于所述特征信息和所述区域特征信息，生成针对所述样本图像的预测概率向量，所述预测概率向量用于表示各个人体属性的预测概率；

11.根据权利要求10所述的方法，其特征在于，所述初始卷积神经网络模型包括第一特征提取模块和第一特征提取模块；

将所述第一特征图分别与多个所述区域属性概率图进行逐像素相乘，得到多个聚焦区域特征图；其中，每个所述聚焦区域特征图对应一个分割区域；每个所述聚焦区域特征图表示对该所述聚焦区域特征图对应的分割区域的特征信息；

所述基于所述特征信息和所述区域特征信息，生成针对所述样本图像的预测概率向量的步骤，包括：

基于所述多个聚焦区域特征图合并后形成的特征图，以及所述第一特征图，生成针对所述样本图像的预测概率向量。

12.一种人体属性识别装置，其特征在于，所述装置包括：

13.一种人体属性识别模型的训练装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-8任一项所述的方法步骤。

15.一种电子设备，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求9-11任一项所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一项所述的方法步骤。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求9-11任一项所述的方法步骤。