CN114067277A

CN114067277A - 行人图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN114067277A
Application number: CN202111449400.7A
Authority: CN
Inventors: 邓泳; 张锦元; 林晓锐; 刘唱
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-02-18

Abstract

本发明公开了一种行人图像识别方法、装置、电子设备及存储介质，涉及人工智能领域，该方法包括：获取待检测行人图像，并对待检测行人图像进行预处理，该待检测行人图像包括：带遮罩的人脸图像；将预处理后的图像输入至预先训练的人脸检测模型，以输出人脸图像，人脸检测模型基于历史行人图像和经过数据增强处理的历史行人图像进行训练，数据增加处理为对历史行人图像进行模板遮罩添加处理，该历史行人的人脸图像未带遮罩；将输出的人脸图像输入至预先训练的多属性识别模型，以输出与该人脸图像相应的多个属性，多属性识别模型基于人脸图像的多粒度特征识别人脸图像的属性。通过本发明，可以有效提高行人、包括带口罩行人的多属性识别的准确率。

Description

行人图像识别方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能领域，具体涉及一种行人图像识别方法、装置、电子设备及存储介质。

背景技术

行人属性识别是通过监控场景识别行人的一组属性，在身份识别、安防领域有着重要的应用和研究价值。目前，行人属性识别可以根据特征提取方式的不同分为两种：传统的行人多属性识别方法和基于深度学习的属性识别方法。

传统的行人多属性识别方法使用支持向量机、Boosting算法、决策树等方法作为分类器用于多标签学习。这些方法大都基于手工特征，不能准确提取出行人图像中隐含的属性特征。

基于深度学习的方法通过卷积神经网络对监控场景中的行人图像进行深度特征提取，能够更好地分析行人的属性。现在对于行人属性识别网络的学习，为了保证属性识别的准确率，对每个属性都需要大量带有标注的样本图像进行学习训练网络模型。然而，在现实场景中以多对象多标签居多，这就导致了行人属性识别网络在小样本属性上(例如，带口罩行人)识别表现效果不佳的问题。

发明内容

有鉴于此，本发明提供一种行人图像识别方法、装置、电子设备及存储介质，以解决上述提及的至少一个问题。

根据本发明的第一方面，提供一种行人图像识别方法，所述方法包括：

获取待检测行人图像，并对所述待检测行人图像进行预处理，该待检测行人图像包括：带遮罩的人脸图像；

将预处理后的图像输入至预先训练的人脸检测模型，以输出人脸图像，所述人脸检测模型基于历史行人图像和经过数据增强处理的历史行人图像进行训练，所述数据增加处理为对所述历史行人图像进行模板遮罩添加处理，该历史行人的人脸图像未带遮罩；

将输出的人脸图像输入至预先训练的多属性识别模型，以输出与该人脸图像相应的多个属性，所述多属性识别模型基于人脸图像的多粒度特征识别人脸图像的属性。

进一步地，通过如下方式训练所述人脸检测模型：获取历史行人图像，并根据预定算法确定所述历史行人图像中的历史人脸图像中的关键点；根据所述历史人脸图像中的关键点和预先构建的模板遮罩库对所述历史人脸图像进行数据增强处理，以生成历史模板遮罩人脸图像；根据所述历史行人图像和所述历史模板遮罩人脸图像训练所述人脸检测模型。

其中，根据所述历史人脸图像中的关键点和预先构建的模板遮罩库对所述历史人脸图像进行数据增强处理，以生成历史模板遮罩人脸图像包括：根据所述历史人脸图像中的关键点位置和关键点之间的距离确定该历史人脸的倾斜角度；根据所述历史人脸图像中的关键点和该历史人脸的倾斜角度从所述模板遮罩库选择模板遮罩；将选择的模板遮罩添加到所述历史人脸图像上，以生成所述历史模板遮罩人脸图像。

进一步地，通过如下方式构建所述模板遮罩库：获取初始遮罩图像；根据预先确定的人脸图像中的关键点位置对所述初始遮罩图像进行标定处理，以生成透明背景遮罩；对所述透明背景遮罩进行几何变换和色彩调整处理，以生成不同类别、色彩和角度的模板遮罩；根据生成的不同类别、色彩和角度的模板遮罩构建模板遮罩库。

优选地，所述多属性识别模型包括多粒度网络，通过如下方式训练所述多属性识别模型：获取已标注属性的历史行人图像和已标注人脸区域的历史行人图像；基于图神经网络技术，并根据所述已标注属性的历史行人图像、已标注人脸区域的历史行人图像和所述历史模板遮罩人脸图像训练所述多属性识别模型。

具体地，将输出的人脸图像输入至预先训练的多属性识别模型，以输出与该人脸图像相应的多个属性包括：将输出的人脸图像输入至所述预先训练的多属性识别模型中的多粒度网络，以提取该人脸图像的多粒度特征；基于图神经网络技术，对所述多粒度特征之间进行关联建模操作，以输出该人脸图像相应的多个属性。

根据本发明的第二方面，提供一种行人图像识别装置，所述装置包括：

待检测图像获取单元，用于获取待检测行人图像，并对所述待检测行人图像进行预处理，该待检测行人图像包括：带遮罩的人脸图像；

人脸图像输出单元，用于将预处理后的图像输入至预先训练的人脸检测模型，以输出人脸图像，所述人脸检测模型基于历史行人图像和经过数据增强处理的历史行人图像进行训练，所述数据增加处理为对所述历史行人图像进行模板遮罩添加处理，该历史行人的人脸图像未带遮罩；

属性识别单元，用于将输出的人脸图像输入至预先训练的多属性识别模型，以输出与该人脸图像相应的多个属性，所述多属性识别模型基于人脸图像的多粒度特征识别人脸图像的属性。

进一步地，所述装置还包括：人脸检测模型训练单元，用于训练所述人脸检测模型，所述人脸检测模型训练单元包括：关键点确定模块，用于获取历史行人图像，并根据预定算法确定所述历史行人图像中的历史人脸图像中的关键点，该历史人脸图像为未带遮罩的人脸图像；增强处理模块，用于根据所述历史人脸图像中的关键点和预先构建的模板遮罩库对所述历史人脸图像进行数据增强处理，以生成历史模板遮罩人脸图像；人脸检测模型训练模块，用于根据所述历史行人图像和所述历史模板遮罩人脸图像训练所述人脸检测模型。

其中，所述增强处理模块包括：倾斜角度确定子模块，用于根据所述历史人脸图像中的关键点位置和关键点之间的距离确定该历史人脸的倾斜角度；模板遮罩选择子模块，用于根据所述历史人脸图像中的关键点和该历史人脸的倾斜角度从所述模板遮罩库选择模板遮罩；模板遮罩添加子模块，用于将选择的模板遮罩添加到所述历史人脸图像上，以生成所述历史模板遮罩人脸图像。

进一步地，所述装置还包括：模板遮罩库构建单元，用于构建所述模板遮罩库，所述模板遮罩库构建单元包括：初始遮罩图像获取模块，用于获取初始遮罩图像；透明背景遮罩生成模块，用于根据预先确定的人脸图像中的关键点位置对所述初始遮罩图像进行标定处理，以生成透明背景遮罩；模板遮罩生成模块，用于对所述透明背景遮罩进行几何变换和色彩调整处理，以生成不同类别、色彩和角度的模板遮罩；模板遮罩库构建模块，用于根据生成的不同类别、色彩和角度的模板遮罩构建模板遮罩库。

优选地，所述装置还包括：多属性识别模型训练单元，用于训练所述多属性识别模型，所述多属性识别模型包括多粒度网络，所述多属性识别模型训练单元包括：历史数据获取模块，用于获取已标注属性的历史行人图像和已标注人脸区域的历史行人图像；多属性识别模型训练模块，用于基于图神经网络技术，并根据所述已标注属性的历史行人图像、已标注人脸区域的历史行人图像和所述历史模板遮罩人脸图像训练所述多属性识别模型。

优选地，所述属性识别单元包括：多粒度特征提取模块，用于将输出的人脸图像输入至所述预先训练的多属性识别模型中的多粒度网络，以提取该人脸图像的多粒度特征；属性识别模块，用于基于图神经网络技术，对所述多粒度特征之间进行关联建模操作，以输出该人脸图像相应的多个属性。

根据本发明的第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

根据本发明的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

由上述技术方案可知，通过对获取的待检测行人图像进行预处理，随后将预处理后的图像输入至预先训练的人脸检测模型，输出人脸图像，之后将输出的人脸图像输入至预先训练的多属性识别模型，输出与该人脸图像相应的多个属性，由于人脸检测模型基于经过数据增强处理的历史行人图像进行训练，同时多属性识别模型基于人脸图像的多粒度特征识别人脸图像的属性，因此可以有效提高行人、包括带口罩行人的多属性识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的行人图像识别方法的流程图；

图2是根据本发明实施例的行人多属性识别相关模型的训练流程图；

图3是根据本发明实施例的数据增强处理流程图；

图4是根据本发明实施例的遮罩模板库的构建流程图；

图5是根据本发明实施例的行人图像识别装置的结构框图；

图6是根据本发明实施例的人脸检测模型训练单元的结构框图；

图7是根据本发明实施例的模板遮罩库构建单元的结构框图；

图8是根据本发明实施例的多属性识别模型训练单元的结构框图；

图9是根据本发明实施例的行人图像多属性识别方法的详细流程图；

图10是根据本发明实施例的人脸检测模型的工作示意图；

图11是根据本发明实施例的多属性识别模型的工作示意图；

图12是根据本发明实施例的行人多属性识别系统的工作原理示例图；

图13为本发明实施例的电子设备600的系统构成的示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在实现本申请的过程中，申请人发现如下相关技术：

目前，基于深度学习的属性识别方法主要包括：1)基于单一属性识别模型识别，可以独立识别每个属性，通过对损失函数进行以解决数据不平衡的问题，如加入正样本比例因子改进损失函数，提高网络在小样本数据上的性能；2)采用多标签学习的联合属性识别模型，将所有样本的属性通过加权交叉熵损失函数联合识别；3)基于注意力机制的属性识别方法，通过注意力模块，提取多尺度的注意力特征，可以得到更全面的行人属性特征表示；4)基于局部特征的行人属性识别方法，根据人体结构的先验知识，通过结合全局和细粒度特征部件的特征，得到多尺度部件检测特征。

然而，单一属性识别模型独立的识别每个属性，忽略了行人属性之前的依赖关系，导致了识别准确率不高。采用多标签的联合属性识别模型，难以通过加权函数的方式学习到不同属性之间隐藏的特征表示。基于注意力机制和基于局部特征的行人属性识别方法均能够较好地提取行人不同部件的特征表示，但是对每个部件一视同仁，忽略了区域之间的关联性，不仅实现起来比较复杂，而且识别准确率也较低。

鉴于目前的行人多属性识别方法存在识别准确率较低、尤其在小样本属性上(例如，带口罩行人)识别表现效果不佳的问题，本发明实施例提供了一种行人图像识别方案，该方案能够有效提升行人、包括带口罩行人的多属性(属性包括：性别、年龄等)识别的准确率。

需要说明的是，本发明技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。以下结合附图来详细描述本发明实施例。

图1是根据本发明实施例的行人图像识别方法的流程图，如图1所示，该方法包括：

步骤101，获取待检测行人图像，并对所述待检测行人图像进行预处理，该待检测行人图像包括：带遮罩(例如，口罩)的人脸图像。

步骤102，将预处理后的图像输入至预先训练的人脸检测模型，以输出人脸图像，其中，所述人脸检测模型基于历史行人图像和经过数据增强处理的历史行人图像进行训练，所述数据增加处理为对所述历史行人图像进行模板遮罩添加处理，该历史行人的人脸图像未带遮罩。

通过数据增强处理，可以生成样本比例均衡的样本数据集，其使得模型的训练样本图像得到了扩充，从而提升了模型在小样本数据集上的拟合能力。

步骤103，将输出的人脸图像输入至预先训练的多属性识别模型，以输出与该人脸图像相应的多个属性，所述多属性识别模型基于人脸图像的多粒度特征识别人脸图像的属性。

这里的多属性识别模型包括多粒度网络。

在实际操作中，训练所述多属性识别模型的过程包括：先获取已标注属性的历史行人图像和已标注人脸区域的历史行人图像；之后基于图神经网络技术，并根据所述已标注属性的历史行人图像、已标注人脸区域的历史行人图像和所述历史模板遮罩人脸图像训练所述多属性识别模型。

在步骤103的行人图像多属性识别中，先将步骤102输出的人脸图像输入至训练好的多属性识别模型中的多粒度网络，以提取该人脸图像的多粒度特征；之后基于图神经网络技术，对所述多粒度特征之间进行关联建模操作，输出该人脸图像相应的多个属性。

通过对获取的待检测行人图像进行预处理，随后将预处理后的图像输入至预先训练的人脸检测模型，输出人脸图像，之后将输出的人脸图像输入至预先训练的多属性识别模型，输出与该人脸图像相应的多个属性，由于人脸检测模型基于经过数据增强处理(即，添加遮罩)的历史行人图像进行训练，同时多属性识别模型基于人脸图像的多粒度特征识别人脸图像的属性，因此可以有效提高行人、包括带口罩行人的多属性识别的准确率。

在具体实施过程中，人脸检测模型训练过程包括如下(1)-(3)：

(1)获取历史行人图像，该历史人脸图像未带遮罩，并根据预定算法确定所述历史行人图像中的历史人脸图像中的关键点(包括眉毛、眼睛、鼻子、嘴巴)。

这里的预定算法可以采用相关技术中的确定人脸关键点算法，本发明对此不作限制。

(2)根据所述历史人脸图像中的关键点和预先构建的模板遮罩库对所述历史人脸图像进行数据增强处理，以生成历史模板遮罩人脸图像。

具体地，先根据所述历史人脸图像中的关键点位置和关键点之间的距离确定该历史人脸的倾斜角度；随后根据所述历史人脸图像中的关键点和该历史人脸的倾斜角度从所述模板遮罩库选择模板遮罩；之后，再将选择的模板遮罩添加到所述历史人脸图像上，以生成所述历史模板遮罩人脸图像。

这里的模板遮罩库构建过程包括：获取初始遮罩图像(例如，眼镜、口罩等)；随后根据上述预先确定的人脸图像中的关键点位置对所述初始遮罩图像进行标定处理，以生成透明背景遮罩；再对所述透明背景遮罩进行几何变换和色彩调整处理，以生成不同类别、色彩和角度的模板遮罩；之后根据生成的不同类别、色彩和角度的模板遮罩构建模板遮罩库。

(3)根据所述历史行人图像和所述历史模板遮罩人脸图像训练所述人脸检测模型。

在实际操作中，人脸检测模型和多属性识别模型可以结合进行训练，具体流程包括如下(1)-(7)：

(1)获得行人样本图像(即，历史行人图像)，构建第一样本图像数据集并进行预处理，该第一样本图像数据集包括已标注属性的行人图像和已标注人脸所在区域的行人图像。

(2)获取初始遮罩图像，根据人脸关键点位置对所述初始遮罩图像进行对齐标注，并对图像进行几何变换，生成不同方向、角度、色彩的遮罩模版，构建遮罩模版库。

(3)根据基于人脸关键点检测技术构建用于数据增强处理中的关键点检测层，检测行人样本图像中的人脸关键点位置，并根据关键点的距离和位置计算人脸倾斜角度。

(4)根据人脸关键点位置和人脸倾斜角度，选择合适的模板遮罩并添加到图像上，根据样本图像光照调整模板亮度，并对图像进行几何变换，得到第二样本图像数据集。

(5)将上述第一样本图像数据集和第二样本图像数据集随机组合，得到最终输入人脸检测模型的第三样本图像数据集。

通过模板遮罩添加处理，可以生成更加均衡的样本数据，其使得模型的训练样本图像得到了扩充，从而提升了模型在小样本数据集上的拟合能力。

(6)将所述第三样本图像数据集输入至人脸检测模型进行学习(即，训练)，经过卷积神经网络得到每个图像的特征矩阵，对输出进行解码处理生成人脸候选区域并获取候选区域的特征表示，对候选区域进一步解码生成对应检测框并根据对应损失值对模型进行优化，最后通过输出层对人脸区域进行裁剪输出人脸图像。

(7)将裁剪的行人人脸图像输入多属性识别模型，采用基于三元组损失的对比算法，对所述多属性识别模型进行训练。

具体地，将人脸图像输入到多粒度网络提取不同粒度下的属性特征，其中网络包括一个全局特征共享层和两个细粒度提取层，根据所述细粒度特征计算三元损失学习优化模型参数。

将所述多粒度网络提取到的属性标签转换为词嵌入，通过图神经网络模块，将所述输入的多粒度特征信息和全局特征信息进行关联建模，使不同特征之间相互关联，最终得到多属性识别的结果。

图2是根据本发明实施例的行人多属性识别相关模型(包括人脸检测模型和多属性识别模型)的训练流程图，如图2所示，该流程包括：

(1)对原始数据集(即，原始样本图像，第一样本数据集)进行处理，其中的人脸图像未带遮罩，定位出人脸面部的关键点，包括眉毛、眼睛、鼻子、嘴巴、脸部等轮廓区域的重要特征点。将预先标注人脸位置信息的样本图像输入至数据增强模块进行数据增强处理，即，对预先标注人脸位置信息的样本图像进行添加遮罩处理，得到原始数据的增强数据集(第二样本数据集)，将原始数据集和增强数据集随机组合构建第三样本数据集。

在实际操作中，对于原始样本图像数据集，在输入模型训练之前，需要对图像进行预处理，所述预处理包括缩放处理、翻转操作、均值处理以及数据增强处理。通过数据增强处理，可以生成样本比例更加均衡的第三样本数据集。

第三样本数据集包括原始图像和增强图像，由于在构建人脸检测模型和人体属性识别模型的过程中利用了数据增强的样本图像，其使得模型的训练样本图像得到了扩充，从而提升了模型在小样本数据集上的拟合能力。

(2)将所述第三样本数据集输入至人脸检测模型进行学习，最终模型的输出是人脸的坐标位置，也会有一些中间输出，如表示图像某区域的特征向量、概率值等，这一部分用于辅助人脸的识别。在学习过程中，会得到每个图像的特征矩阵，该特征矩阵是人脸的特征信息以及坐标偏移量。在深度学习中，可以根据特征向量判断该区域是否有人脸、以及人脸的具体位置，坐标偏移量是中间输出，最后根据该点的像素位置转换为整张图的坐标。对模型输出进行解码处理，生成人脸候选区域坐标信息并获取候选区域的特征表示，该特征表示可以是人脸检测网络输出的512维矩阵向量。对所述候选区域进一步解码，计算目标框之间的IOU(Intersection-over-Union，交并比，即，重复区域)，对冗余的坐标框进行去除。对冗余的坐标框去除，是目标检测中较为常见的一种做法，具体去重步骤为计算不同检测框之间的重复度，对重复超过一定阈值的进行去除。最终，生成对应检测框并根据对应损失值对模型进行优化，通过输出层对人脸区域进行裁剪输出人脸图像，即，输出层根据上述输出的坐标对原图进行裁剪。

(3)将裁剪的行人人脸图像输入多属性识别模型，识别图像中人脸的年龄、性别、是否带有配饰等属性信息。该模型通过输入的人脸图像信息输出n维向量(n代表要预测的属性个数)。模型采用基于三元组损失的对比算法，对所述多属性识别模型进行训练。

具体地，网络输出的n维特征向量代表对应的属性概率，学习得到所述每个图像的各个属性的第一预测值，该第一预测值可以用矩阵(即，特征向量)表示。将特征向量输入到图神经网络获得每个图像属性的第二预测值，将所述第二预测值通过连接层进行加权求和，得到多属性识别结果并转换成符合人类表达方式的结果。

在训练完上述模型后，在行人多属性识别过程中，可以将行人图像(包括带口罩行人图像)输入至人脸检测模型中，得到裁剪完毕的人脸图像，并将人脸图像输入到多属性识别模型中，得到最终的属性识别结果。在实际操作中，如果是戴口罩的行人，则裁剪的行人图像仍然是整个人脸部分，包含口罩。

在一个实施例中，在人脸图像输入到多属性识别模型后，输出的是n维特征向量，代表对应属性的预测概率。在处理阶段，可以设置如下规定：超过设定阈值的被视为拥有该属性。例如，当属性预测值为[0.1,0.9,0.3，…]，阈值为0.5时，那么该人脸拥有第二个属性(例如，性别为女)。对于年龄的预测，预测是100维，分别代表1～100岁，由于损失函数的限制，不会出现同时有两个位置超过阈值，出现两个年龄的情况。

关于特征维度的计算，例如要预测年龄、性别、是否佩戴口罩，那么输出的特征向量就是100(岁)+2(男/女)+1(是否戴口罩)＝103。实际上，维度到底是多少，取决于数据集标注了哪些属性。

为了更好地理解本发明，以下结合图3描述模型训练过程中的数据增强处理，该数据增强处理是对原始行人图像添加模板遮罩并进行几何变换，构建第三样本数据集，所述第三样本数据集包括原始图像行人图像和经过数据增强变换后的行人图像。

如图3所示，该数据增强处理包括如下(1)-(5)：

(1)构建形状模型，该模型输入是人脸图像、模版遮罩(口罩、眼镜等)，输出是增加模版的图像，即，将模版遮罩添加到人脸图像上。对人脸关键点进行手动标注得到相对于原图中的坐标位置，得到脸部关键点的训练样本，所述训练样本为已标记脸部关键点的人脸图像及关键点坐标构成的特征向量。

(2)对形状特征(即，上一步生成的特征向量)进行归一化和对齐处理，采用梯度特征为每个关键点构建局部特征，以便在迭代搜索过程中每个关键点可以寻找新的位置。

(3)计算脸部各部位的位置，进行简单的尺度和旋转变化对齐人脸(原始图像中检测到的人脸关键点和形状模型的人脸关键点意义对齐)，具体地，可以先匹配每个关键点位置得到初步形状，通过人脸形状模型修正匹配结果直至模型收敛，得到最终的人脸关键点位置。这里的关键点位置确定可以使用相关技术中的计算机视觉开源算法，本发明对此不作限制。

(4)根据人脸关键点位置，利用预定算法检测旋转角度，得到人脸倾斜角度。根据人脸倾斜度和关键点位置，从模版遮罩库选择方向一致的、合适的遮罩模板，该模版遮罩库中包括去除背景的口罩、眼镜图像等。

图4是遮罩模板库的构建流程图，如图4所示，该流程包括：对原始遮罩图像(例如，眼镜、口罩等图像)去除背景，并根据人脸关键点位置对遮罩对应位置进行标定，例如，口罩对应鼻子、嘴巴等关键点进行标注，眼镜则针对眼睛、眉毛等关键点标注，生成透明背景遮罩模板。之后，对透明背景遮罩模板进行几何变换和色彩调整，生成不同类别、色彩、角度的模板。这里的几何变换包括旋转、平移等变换；色彩调整为对原有像素值进行调整，使得模版图像如口罩呈现不同的颜色。最终，模版库拥有不同颜色、不同方向、各种款式的模版图像，如此，就构建了遮罩模板库。

(5)将原始图像转换为灰度图，并计算灰度均值预估图像光照亮度，根据亮度对遮罩模板进行亮度调节，具体地，可以计算原始图像的灰度均值和模版的灰度值，之后根据两个灰度值的差值对模版的像素值进行增减来调节亮度。随后，将亮度调节后的遮罩模板覆盖到原始图像上，形成增强样本数据集。之后，将原始图像数据集和增强数据集随机组合，得到第三样本数据集。

本发明实施例通过对原始数据集进行数据增强并结合原始数据构建第三样本数据集，基于增强后的数据训练人脸检测模型和多属性识别模型，能够有效提升模型对戴口罩的人脸的检测和多属性识别的准确率。

基于相似的发明构思，本发明实施例还提供一种行人图像识别装置，该装置优选地可用于实现上述的行人图像识别方法的流程。

图5是该行人图像识别装置的结构框图，如图5所示，该装置包括：待检测图像获取单元51、人脸图像输出单元52和属性识别单元53，其中：

待检测图像获取单元51，用于获取待检测行人图像，并对所述待检测行人图像进行预处理，该待检测行人图像包括：带遮罩的人脸图像；

人脸图像输出单元52，用于将预处理后的图像输入至预先训练的人脸检测模型，以输出人脸图像，所述人脸检测模型基于历史行人图像和经过数据增强处理的历史行人图像进行训练，所述数据增加处理为对所述历史行人图像进行模板遮罩添加处理，该历史行人的人脸图像未带遮罩；

属性识别单元53，用于将输出的人脸图像输入至预先训练的多属性识别模型，以输出与该人脸图像相应的多个属性，所述多属性识别模型包括多粒度网络，所述多属性识别模型基于人脸图像的多粒度特征识别人脸图像的属性。

具体地，所述属性识别单元包括：多粒度特征提取模块和属性识别模块，其中：多粒度特征提取模块，用于将输出的人脸图像输入至所述预先训练的多属性识别模型中的多粒度网络，以提取该人脸图像的多粒度特征；属性识别模块，用于基于图神经网络技术，对所述多粒度特征之间进行关联建模操作，以输出该人脸图像相应的多个属性。

通过待检测图像获取单元51对获取的待检测行人图像进行预处理，随后人脸图像输出单元52将预处理后的图像输入至预先训练的人脸检测模型，输出人脸图像，之后属性识别单元53将输出的人脸图像输入至预先训练的多属性识别模型，输出与该人脸图像相应的多个属性，由于人脸检测模型基于经过数据增强处理(即，添加遮罩)的历史行人图像进行训练，同时多属性识别模型基于人脸图像的多粒度特征识别人脸图像的属性，因此可以有效提高行人、包括带口罩行人的多属性识别的准确率。

在一个实施例中，上述装置还包括：人脸检测模型训练单元，用于训练所述人脸检测模型，如图6所示，该人脸检测模型训练单元包括：关键点确定模块61、增强处理模块62和人脸检测模型训练模块63，其中：

关键点确定模块61，用于获取历史行人图像，并根据预定算法确定所述历史行人图像中的历史人脸图像中的关键点，该历史人脸图像为未带遮罩的人脸图像；

增强处理模块62，用于根据所述历史人脸图像中的关键点和预先构建的模板遮罩库对所述历史人脸图像进行数据增强处理，以生成历史模板遮罩人脸图像；

人脸检测模型训练模块63，用于根据所述历史行人图像和所述历史模板遮罩人脸图像训练所述人脸检测模型。

其中，增强处理模块62具体包括：倾斜角度确定子模块、模板遮罩选择子模块和模板遮罩添加子模块，其中：

倾斜角度确定子模块，用于根据所述历史人脸图像中的关键点位置和关键点之间的距离确定该历史人脸的倾斜角度；

模板遮罩选择子模块，用于根据所述历史人脸图像中的关键点和该历史人脸的倾斜角度从所述模板遮罩库选择模板遮罩；

模板遮罩添加子模块，用于将选择的模板遮罩添加到所述历史人脸图像上，以生成所述历史模板遮罩人脸图像。

在具体实施时，上述装置还包括：模板遮罩库构建单元，用于构建所述模板遮罩库。如图7所示，所述模板遮罩库构建单元包括：初始遮罩图像获取模块71、透明背景遮罩生成模块72、模板遮罩生成模块73和模板遮罩库构建模块74，其中：

初始遮罩图像获取模块71，用于获取初始遮罩图像；

透明背景遮罩生成模块72，用于根据预先确定的人脸图像中的关键点位置对所述初始遮罩图像进行标定处理，以生成透明背景遮罩；

模板遮罩生成模块73，用于对所述透明背景遮罩进行几何变换和色彩调整处理，以生成不同类别、色彩和角度的模板遮罩；

模板遮罩库构建模块74，用于根据生成的不同类别、色彩和角度的模板遮罩构建模板遮罩库。

在实际操作中，上述装置还包括：多属性识别模型训练单元，用于训练所述多属性识别模型。如图8所示，所述多属性识别模型训练单元包括：历史数据获取模块81和多属性识别模型训练模块82，其中：

历史数据获取模块81，用于获取已标注属性的历史行人图像和已标注人脸区域的历史行人图像；

多属性识别模型训练模块82，用于基于图神经网络技术，并根据所述已标注属性的历史行人图像、已标注人脸区域的历史行人图像和所述历史模板遮罩人脸图像训练所述多属性识别模型。

上述各单元、各模块、各子模块的具体执行过程，可以参见上述方法实施例中的描述，此处不再赘述。

在实际操作中，上述各单元、各模块、各子模块可以组合设置、也可以单一设置，本发明不限于此。

为了更好地理解本发明，以下结合图9所示的行人图像多属性识别流程、图10所示的人脸检测模型和图11所示的多属性识别模型来详细描述本发明实施例。

参见图9所示，行人图像多属性识别流程包括：

步骤(1)，系统加载完训练完毕的人脸检测模型和多属性识别模型后，即可从提供的图像接口中接收待检测图像，将待检测图像进行缩放处理成模型要求的输入大小，并对待检测图像进行降噪、平滑等预处理操作。

在本发明实施例中，由于人脸检测模型和多属性识别模型皆是在第三样本数据集上进行训练得到的，待检测图像中既可包含佩戴口罩的行人图像，也可包含没有佩戴口罩的行人图像。

步骤(2)，将预处理的图像输入人脸检测模型，通过当前人脸检测模型检测出输入图像中包含的所有人脸位置，经过裁剪后得到人脸图像。

参见图10，人脸检测模型包括：(基础)特征提取模块、特征增强模块和注意力模块，以下描述各模块的工作流程。

人脸检测模型检测图像中的人脸位置时，先通过特征提取模块从输入图像中提取图像特征。特征提取模块通过堆叠卷积层来实现，该模块可以采用计算机视觉技术中的相关特征提取网络(例如，深度残差网络)来实现，本发明对此不作限制。

例如，将待检测图像输入深度残差网络，深度残差网络中的恒等映射能够解决梯度消失的问题，通过残差网络中的卷积层和正则化层，最后经由激活函数输出，得到特征提取模块输出的图像特征。

随后，将特征提取模块输出的图像特征输入至特征增强模块。首先，通过1*1卷积以进行归一化。然后，归一化后的特征与原特征进行点乘操作，进行特征的融合。之后，将图像特征分成三部分，分别接入三个不同层次的空洞卷积(Dilated Convolution)。最后，将空洞卷积得到的结果进行连接得到经过特征增强后的图像特征。

将增强后的图像特征输入注意力模块，在注意力模块中，通过注意力矩阵对输入的图像特征进行自加权处理，得到注意力模块自加权处理后的图像特征。例如，输入的图像特征为上一步网络的输出，例如该特征有n层，那么注意力模块主要学习一个特征向量，每个向量代表该层的权重。通过相乘，更小的权重可以抑制无用层，更大的权重使得有用层对结果影响的占比更大。

最后，将自加权处理后的图像特征输入输出部分的全连接层，得到需要的人脸位置和大小信息，并根据人脸位置和大小信息从输入图像中裁剪出人脸图像。在使用人脸检测模型时，还可以通过调整人脸检测的置信度来设定检测人脸的阈值，例如，设置阈值0.5，则输出是人脸的概率为0.5以上才会认为是人脸。

继续参见图9，步骤(3)，将裁剪的人脸图像输入多属性识别模型(也可以称为属性识别模型)，通过当前多属性识别模型对人脸图像进行处理，得到行人多属性识别的结果并输出。

参见图11，多属性识别模型包括：多粒度网络模块、图神经网络模块和输出模块，以下描述各模块的工作流程。

首先，将人脸检测模型输出的人脸图像输入多粒度网络中，展开三个分支单元分别获取人脸图像的全局特征、局部特征1和局部特征2，其中：全局特征是将人脸图像特征经过下采样、池化、卷积等操作得到的(下采样、池化、卷积是网络不同类型层)，局部特征1是将人脸图像特征分为上、下两部分并经过池化、卷积等操作得到的(这里的图像特征是一个特征矩阵，进行横向切分，就变成上下两部分)，局部特征2则是将人脸图像特征分为上、中、下三个部分并经过池化、卷积等操作得到的，在得到人脸图像的全局特征以及更细粒度的局部特征1和局部特征2之后，将三种特征连接起来，作为新的图像特征。例如，可以将这三种特征直接拼接，如输出特征大小分别为1*10、1*5、1*3，那么拼接后的结果就是1*(10+5+3)。

随后，将特征标签转换为词嵌入输入图神经网络(或称为图卷积神经网络)，通过图卷积神经网络对得到的特征标签嵌入进行关联建模，构建关联矩阵协助图卷积网络中节点之间的传播信息，最终得到包含所有特征标签的关联矩阵。关联矩阵为输入词嵌入矩阵得到的一个输出，其值代表各个属性的关联程度，根据这个关联程度，可以对输出属性进行微调，也就是后面所说的加权相加。例如，输出属性概率较高的几个是男生、球鞋、裙子，那么根据男生、球鞋等属性可以预测裙子是一个错误输出。那么在关联矩阵的后续计算过程中，会使得裙子的属性被抑制(即，将其概率值变低)，将学习到的关联矩阵与多粒度网络产生的特征矩阵进行点积后，得到特征之间相关联的特征矩阵，将该特征矩阵和输入图卷积神经网络的特征矩阵分配不同的权重后相加，得到最终的特征矩阵。

之后，将最终的特征矩阵输入全连接层，经由激活函数输出后，获得多属性识别结果的表示向量，最终经过输出层处理，将多属性识别结果向量转换为符合人类表达形式的多属性识别结果并输出。

图12是根据本发明实施例的行人多属性识别系统的工作原理示例图，如图12所示，该系统包括：图片获取模块1、人脸检测模块2、多属性识别模块3和信息统计模块4，其中：

图片获取模块1，用于将原始视频流处理成视频流消息队列，再从视频流消息队列中获取待检测图像。

人脸检测模块2，用于从待检测图像截取人脸图像。首先，从待检测图像中提取图像特征，通过全连接层得到人脸信息，输出层根据人脸信息截取得到人脸图像。

多属性识别模块3，用于根据截取到的人脸图像估计行人属性信息。首先，将截取到的人脸图像输入多粒度网络，获得其全局特征和在更细粒度上的特征信息，将得到的特征矩阵输入图神经网络，学习每个特征之间的关联矩阵，最终通过全连接层和输出层得到多属性识别结果。

信息统计模块4，用于储存、管理和查询多属性识别的结果。该模块包含数据库，用来储存统计信息，提供接口以供管理员操作和按条件查询统计信息。

本发明实施例提出的行人多属性识别方案，在人脸检测和行人属性识别上具有较高的精度。针对现有的属性识别方法在小样本上识别准确率低等问题，本发明实施例提出了通过对原始数据集进行数据增强并结合原始数据构建样本数据集，基于增强后的数据训练人脸检测模型和多属性识别模型，通过在多属性识别中使用图神经网络方法使不同特征之间关联起来，考虑了不同属性和人脸识别属性的相关性，能够有效提升模型对戴口罩人脸的检测和多属性识别的准确率。

本实施例还提供一种电子设备，该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照上述方法实施例进行实施及行人图像识别装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图13为本发明实施例的电子设备600的系统构成的示意框图。如图13所示，该电子设备600可以包括中央处理器100和存储器140；存储器140耦合到中央处理器100。值得注意的是，该图是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

一实施例中，行人图像识别功能可以被集成到中央处理器100中。其中，中央处理器100可以被配置为进行如下控制：

从上述描述可知，本申请实施例提供的电子设备，通过对获取的待检测行人图像进行预处理，随后将预处理后的图像输入至预先训练的人脸检测模型，输出人脸图像，之后将输出的人脸图像输入至预先训练的多属性识别模型，输出与该人脸图像相应的多个属性，由于人脸检测模型基于经过数据增强处理(即，添加遮罩)的历史行人图像进行训练，同时多属性识别模型基于人脸图像的多粒度特征识别人脸图像的属性，因此可以有效提高行人、包括带口罩行人的多属性识别的准确率。

在另一个实施方式中，行人图像识别装置可以与中央处理器100分开配置，例如可以将行人图像识别装置配置为与中央处理器100连接的芯片，通过中央处理器的控制来实现行人图像识别功能。

如图13所示，该电子设备600还可以包括：通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是，电子设备600也并不是必须要包括图13中所示的所有部件；此外，电子设备600还可以包括图13中没有示出的部件，可以参考现有技术。

如图13所示，中央处理器100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中，存储器140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序，以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142，该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143，该数据存储部143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132，以经由扬声器131提供音频输出，并接收来自麦克风132的音频输入，从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器130还耦合到中央处理器100，从而使得可以通过麦克风132能够在本机上录音，且使得可以通过扬声器131来播放本机上存储的声音。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现上述行人图像识别方法的步骤。

综上所述，本发明实施例通过对原始行人数据进行数据增强，并基于增强后的数据训练人脸检测模型和多属性识别模型，能够有效提升模型对戴口罩人脸的检测和多属性识别的准确率，同时在多属性识别中使用图神经网络方法使不同特征之间关联起来，进一步提升了多属性识别的准确率。本发明实施例提供的技术方案，能够有效解决现有技术对戴口罩人脸检测和属性识别不准确的问题。

以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的，因此权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外，由于本领域的技术人员容易想到很多修改和改变，因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作，而是可以涵盖落入其范围内的所有合适修改和等同物。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种行人图像识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，通过如下方式训练所述人脸检测模型：

获取历史行人图像，并根据预定算法确定所述历史行人图像中的历史人脸图像中的关键点；

根据所述历史人脸图像中的关键点和预先构建的模板遮罩库对所述历史人脸图像进行数据增强处理，以生成历史模板遮罩人脸图像；

根据所述历史行人图像和所述历史模板遮罩人脸图像训练所述人脸检测模型。

3.根据权利要求2所述的方法，其特征在于，根据所述历史人脸图像中的关键点和预先构建的模板遮罩库对所述历史人脸图像进行数据增强处理，以生成历史模板遮罩人脸图像包括：

根据所述历史人脸图像中的关键点位置和关键点之间的距离确定该历史人脸的倾斜角度；

根据所述历史人脸图像中的关键点和该历史人脸的倾斜角度从所述模板遮罩库选择模板遮罩；

将选择的模板遮罩添加到所述历史人脸图像上，以生成所述历史模板遮罩人脸图像。

4.根据权利要求2所述的方法，其特征在于，通过如下方式构建所述模板遮罩库：

获取初始遮罩图像；

根据预先确定的人脸图像中的关键点位置对所述初始遮罩图像进行标定处理，以生成透明背景遮罩；

对所述透明背景遮罩进行几何变换和色彩调整处理，以生成不同类别、色彩和角度的模板遮罩；

根据生成的不同类别、色彩和角度的模板遮罩构建模板遮罩库。

5.根据权利要求2所述的方法，其特征在于，所述多属性识别模型包括多粒度网络，通过如下方式训练所述多属性识别模型：

获取已标注属性的历史行人图像和已标注人脸区域的历史行人图像；

基于图神经网络技术，并根据所述已标注属性的历史行人图像、已标注人脸区域的历史行人图像和所述历史模板遮罩人脸图像训练所述多属性识别模型。

6.根据权利要求5所述的方法，其特征在于，将输出的人脸图像输入至预先训练的多属性识别模型，以输出与该人脸图像相应的多个属性包括：

将输出的人脸图像输入至所述预先训练的多属性识别模型中的多粒度网络，以提取该人脸图像的多粒度特征；

基于图神经网络技术，对所述多粒度特征之间进行关联建模操作，以输出该人脸图像相应的多个属性。

7.一种行人图像识别装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：人脸检测模型训练单元，用于训练所述人脸检测模型，

所述人脸检测模型训练单元包括：

关键点确定模块，用于获取历史行人图像，并根据预定算法确定所述历史行人图像中的历史人脸图像中的关键点，该历史人脸图像为未带遮罩的人脸图像；

增强处理模块，用于根据所述历史人脸图像中的关键点和预先构建的模板遮罩库对所述历史人脸图像进行数据增强处理，以生成历史模板遮罩人脸图像；

人脸检测模型训练模块，用于根据所述历史行人图像和所述历史模板遮罩人脸图像训练所述人脸检测模型。

9.根据权利要求8所述的装置，其特征在于，所述增强处理模块包括：

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：模板遮罩库构建单元，用于构建所述模板遮罩库，

所述模板遮罩库构建单元包括：

初始遮罩图像获取模块，用于获取初始遮罩图像；

透明背景遮罩生成模块，用于根据预先确定的人脸图像中的关键点位置对所述初始遮罩图像进行标定处理，以生成透明背景遮罩；

模板遮罩生成模块，用于对所述透明背景遮罩进行几何变换和色彩调整处理，以生成不同类别、色彩和角度的模板遮罩；

模板遮罩库构建模块，用于根据生成的不同类别、色彩和角度的模板遮罩构建模板遮罩库。

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：多属性识别模型训练单元，用于训练所述多属性识别模型，所述多属性识别模型包括多粒度网络，

所述多属性识别模型训练单元包括：

历史数据获取模块，用于获取已标注属性的历史行人图像和已标注人脸区域的历史行人图像；

多属性识别模型训练模块，用于基于图神经网络技术，并根据所述已标注属性的历史行人图像、已标注人脸区域的历史行人图像和所述历史模板遮罩人脸图像训练所述多属性识别模型。

12.根据权利要求11所述的装置，其特征在于，所述属性识别单元包括：

多粒度特征提取模块，用于将输出的人脸图像输入至所述预先训练的多属性识别模型中的多粒度网络，以提取该人脸图像的多粒度特征；

属性识别模块，用于基于图神经网络技术，对所述多粒度特征之间进行关联建模操作，以输出该人脸图像相应的多个属性。

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6中任一项所述方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。