CN112084953B

CN112084953B - 一种人脸属性识别的方法、系统、设备及可读存储介质

Info

Publication number: CN112084953B
Application number: CN202010947589.1A
Authority: CN
Inventors: 张达敏; 武亮; 谢会斌; 李聪廷
Original assignee: Jinan Boguan Intelligent Technology Co Ltd
Current assignee: Jinan Boguan Intelligent Technology Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2024-05-10
Anticipated expiration: 2040-09-10
Also published as: CN112084953A

Abstract

本申请公开了一种人脸属性识别的方法，包括：获取识别模型及待识别图像，并确定识别模型中每类属性对应的感兴趣区域；根据感兴趣区域对待识别图像进行图像像素加权与位置重构处理，得到对应的区域表征图；将区域表征图中每个子区域的特征向量进行串联与降维，得到联合特征向量；根据联合特征向量对第一识别结果进行调整，得到第二识别结果。本申请使得到的联合特征向量具有更好的特征信息，可以有效反映出图像的像素关联信息和人脸信息分布，依据联合特征向量对识别模型得到的第一识别结果进行调整，极大的提高了识别模型在人脸属性识别任务中的准确率。本申请同时还提供了一种人脸属性识别的系统、设备及可读存储介质，具有上述有益效果。

Description

一种人脸属性识别的方法、系统、设备及可读存储介质

技术领域

本申请涉及人脸属性识别领域，特别涉及一种人脸属性识别的方法、系统、设备及可读存储介质。

背景技术

人脸属性识别是计算机视觉领域的一个热门方向，主要应用在视频监控，人脸门禁等领域。利用人脸属性识别，通常可以完成对性别、年龄、表情、是否戴眼镜等信息的判断，因此在人脸属性识别相关应用中，有很重要的研究意义。

在深度学习技术普及的今天，人脸属性识别获得了很多落地的案例，也取得了巨大的突破，目前主流的做法普遍是目标分类，将预先人工分类的人脸图片，进行训练，获得深度卷积网络。应用中，基于该网络完成分类即人脸属性识别。这一类做法，在图像质量好，人脸遮挡情况不严重的情况下，有较好的准确率，然而，实际应用中经常会出现光照不佳、角度过大、遮挡等情况，导致人脸属性识别的准确率较低。

因此，如何提高人脸属性识别的准确率是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种人脸属性识别的方法、系统、设备及可读存储介质，用于提高人脸属性识别的准确率。

为解决上述技术问题，本申请提供一种人脸属性识别的方法，该方法包括：

获取识别模型及待识别图像，并确定所述识别模型中每类属性对应的感兴趣区域；

根据所述感兴趣区域对所述待识别图像进行图像像素加权与位置重构处理，得到对应的区域表征图；

将所述区域表征图中每个子区域的特征向量进行串联与降维，得到预设维度的联合特征向量；

利用所述识别模型对所述待识别图像进行人脸属性识别，得到第一识别结果，并根据所述联合特征向量对所述第一识别结果进行调整，得到第二识别结果。

可选的，在确定所述识别模型中每类属性对应的感兴趣区域之后，还包括：

根据所述感兴趣区域对所述识别模型进行训练，以提高所述识别模型的识别精度。

可选的，根据所述感兴趣区域对所述识别模型进行训练，包括：

对训练图像进行图像像素加权与位置重构处理，得到对应的训练区域表征图；

根据所述训练区域表征图对所述识别模型进行训练。

将训练图像分割为预设数量的网格，并将所述感兴趣区域的网格输出，以使用户将所述感兴趣区域的网格标定为对应的类别；

根据所述感兴趣区域的网格的类别对所述识别模型进行训练。

可选的，确定所述识别模型中每类属性对应的感兴趣区域，包括：

利用属性训练集对所述识别模型中的对应属性进行迭代训练，以确定所述属性训练集中对当前属性响应最高的区域；

确定所述当前属性响应最高的区域为所述当前属性对应的感兴趣区域。

可选的，所述属性包括眼镜属性、口罩属性、发型属性、性别属性、年龄属性、表情属性中的至少一项。

本申请还提供一种人脸属性识别的系统，该系统包括：

获取模块，用于获取识别模型及待识别图像，并确定所述识别模型中每类属性对应的感兴趣区域；

处理模块，用于根据所述感兴趣区域对所述待识别图像进行图像像素加权与位置重构处理，得到对应的区域表征图；

特征联合模块，用于将所述区域表征图中每个子区域的特征向量进行串联与降维，得到预设维度的联合特征向量；

人脸属性识别模块，用于利用所述识别模型对所述待识别图像进行人脸属性识别，得到第一识别结果，并根据所述联合特征向量对所述第一识别结果进行调整，得到第二识别结果。

可选的，还包括：

训练模块，用于在确定所述识别模型中每类属性对应的感兴趣区域之后，根据所述感兴趣区域对所述识别模型进行训练，以提高所述识别模型的识别精度。

本申请还提供一种人脸属性识别设备，该人脸属性识别设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述任一项所述人脸属性识别的方法的步骤。

本申请还提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述人脸属性识别的方法的步骤。

本申请所提供人脸属性识别的方法，包括：获取识别模型及待识别图像，并确定识别模型中每类属性对应的感兴趣区域；根据感兴趣区域对待识别图像进行图像像素加权与位置重构处理，得到对应的区域表征图；将区域表征图中每个子区域的特征向量进行串联与降维，得到预设维度的联合特征向量；利用识别模型对待识别图像进行人脸属性识别，得到第一识别结果，并根据联合特征向量对第一识别结果进行调整，得到第二识别结果。

本申请所提供的技术方案，通过确定识别模型中每类属性对应的感兴趣区域，然后根据感兴趣区域对待识别图像进行图像像素加权与位置重构处理，得到对应的区域表征图，并将区域表征图中每个子区域的特征向量进行串联与降维，得到预设维度的联合特征向量，以使得到的联合特征向量具有更好的特征信息，可以有效反映出图像的像素关联信息和人脸信息分布，依据联合特征向量对识别模型得到的第一识别结果进行调整，极大的提高了识别模型在人脸属性识别任务中的准确率。本申请同时还提供了一种人脸属性识别的系统、设备及可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种人脸属性识别的方法的流程图；

图2为本申请实施例所提供的一种人脸属性识别的系统的结构图；

图3为本申请实施例所提供的一种人脸属性识别设备的结构图。

具体实施方式

本申请的核心是提供一种人脸属性识别的方法、系统、设备及可读存储介质，用于提高人脸属性识别的准确率。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

基于现有技术中，人脸属性识别的主流做法普遍是目标分类，将预先人工分类的人脸图片，进行训练，获得深度卷积网络，而此方法在实际应用中经常会因为人脸图片存在光照不佳、角度过大、遮挡的情况，导致人脸属性识别的准确率较低。

请参考图1，图1为本申请实施例所提供的一种人脸属性识别的方法的流程图。

其具体包括如下步骤：

S101：获取识别模型及待识别图像，并确定识别模型中每类属性对应的感兴趣区域；

这里提到的识别模型即为对用于对人脸图像进行属性识别的卷积神经网络模型，其中，这里的属性可以包括但不限于眼镜属性、口罩属性、发型属性、性别属性、年龄属性、表情属性中的至少一项；

利用计算机技术对于给定的人脸图片自动进行相关人脸属性识别在现实生活中有着重要的使用价值，比如监管系统以及刑事案件侦查等诸多领域，例如，针对于疫情发生后对用户是否戴口罩的判断，能够基于人脸属性识别开发可靠的AI防疫系统来实现，这对于疫情防控有着很重要的参考价值和实际意义。

可选的，在一个具体实施例中，为进一步提高人脸属性识别的准确率，识别模型的获取方式可以为通过对初始模型进行特征自主学习训练得到，初始模型的输入端为固定尺寸(一般为224*224)的图片，输出端为N个分支output-1至output-n，其中每一个输出分支均含有对应子类类别个数的输出神经元数，在完成训练后，得到的识别模型满足对属性分类的初步判断要求。

可选的，这里提到的确定识别模型中每类属性对应的感兴趣区域，其具体可以通过执行如下步骤实现：

利用属性训练集对识别模型中的对应属性进行迭代训练，以确定属性训练集中对当前属性响应最高的区域；

确定当前属性响应最高的区域为当前属性对应的感兴趣区域。

由于在人脸属性任务中，每一类属性关注的特征区域均有所差别，一般的人脸属性算法，将整张人脸作为输入，这样做的缺点在于不能对每一个子类分别提取对应的特征，因此效果欠佳；而本申请实施例利用属性训练集对识别模型中的对应属性进行迭代训练的目的在于，将自主学习得到的区域信息结合起来，可以对每一类属性分别提取对应特征，在保证准确性的同时，可以节约总的计算量(针对多类属性)，其具体过程为根据输出层和标签的引导，使模型对于属性训练集的输入图像产生不同的区域响应，这些区域会对不同属性的输出产生关键影响，这一步类似于深度学习的注意力机制，也就是输入图像的不同区域有不同的输出响应，本申请实施例的目的在于通过对识别模型的迭代训练实现特征自主学习，找到每类属性响应最高的区域，以达到提高识别模型的准确率的目的。

可选的，在确定识别模型中每类属性对应的感兴趣区域之后，还可以利用每类属性对应的感兴趣区域对识别模型进行针对训练，以提高识别模型的识别精度，即还可以执行如下步骤：

根据感兴趣区域对识别模型进行训练，以提高识别模型的识别精度。

进一步的，这里提到的，根据感兴趣区域对识别模型进行训练，其具体可以为：

根据训练区域表征图对识别模型进行训练。

例如，在一个具体实施例中，可以选择VGGNet深度卷积神经网络作为模型骨干，随后在输出的部分，针对每一个属性类别，分别连接短分支，完成从特征到类别的映射；在每一个分支的开端，为15*15的卷积层，这一层对于整个模型非常关键，本申请的特征自学习将该层的卷积效应与输入图像进行结合，反馈每一类属性所关注的感兴趣区域，并对训练图像进行图像像素加权与位置重构处理，得到反映关键位置的训练区域表征图，然后根据训练区域表征图对识别模型进行训练，以使训练后的识别模型对于多类别的属性分类有更好的适应能力，并且对于遮挡、小像素、姿态差异等情况，有更好的鲁棒性。

可选的，这里提到的根据感兴趣区域对识别模型进行训练，其具体也可以为：

将训练图像分割为预设数量的网格，并将感兴趣区域的网格输出，以使用户将感兴趣区域的网格标定为对应的类别；

根据感兴趣区域的网格的类别对识别模型进行训练。

例如，在一个具体实施例中，可以将图片分割为大小均匀的8*8的网格，即64个元胞(cell)，每一个cell代表一块图像子区域。本申请实施例的目的在于借助子区域预测图像的内容，因此cell可以理解为一种超像素，超像素最直观的作用，是将一些具有相似性的一些像素“聚合”起来，形成一个更具有代表性的大“元素”。每一个cell在训练之前会被人工标定为相应的类别，比如口罩的所在的cell标记为1，而非口罩区域的cell标记为0，边界区域标记为2。除了cell标记，整张图片也会被标记类别戴与不戴口罩分别标记为1与0，进而实现对人脸图像进行多种属性的识别。

S102：根据感兴趣区域对待识别图像进行图像像素加权与位置重构处理，得到对应的区域表征图；

本申请实施例根据感兴趣区域对待识别图像进行图像像素加权与位置重构处理，得到每类属性对应的区域表征图，这样在对待识别图像进行某类属性的识别时，能够着重识别待识别图像中该类属性的感兴趣区域，进而能够提高该类属性识别的准确率。

在一个具体实施例中，在确定感兴趣区域之后，可以将反映图像热度信息的感兴趣区域进行联合，通过每个子区域所对应的权值进行计算，再映射回128*128大小的图像中，得到整个图像的子区域表征图。

S103：将区域表征图中每个子区域的特征向量进行串联与降维，得到预设维度的联合特征向量；

这里提到的将区域表征图中每个子区域的特征向量进行串联与降维的目的在于，将得到的联合特征向量作为一种辅助信息，在人脸属性识别过程中提升分类的准确率。

可选的，可以对预设维度的值进行调整，以使得到的预设维度的特征向量满足不同应用要求。

S104：利用识别模型对待识别图像进行人脸属性识别，得到第一识别结果，并根据联合特征向量对第一识别结果进行调整，得到第二识别结果。

在一个具体实施例中，在得到联合特征向量之后，这时输入图像每一个像素位置，都会得到一个对应的0-1的权值，即一个128*128的矩阵，矩阵的值即为全部的权值。为了过滤一些低频信息(即不需要的图像内容)，这里将小于某一阈值(这里选择阈值＝0.45)的权值置为0，其余位置的权值保留，此时的权值矩阵，仅剩下有限个区域仍有数值。为了进一步减少干扰信息保留高响应信息，将区域大小7*7的子区域同样置为0。这样操作的目的在于保留一个信息更具代表性的权值矩阵，用来提取图像子区域，并进行下一部的串联与降维。此时的128*128的权值矩阵，仅剩下几个有数值的子区域，代表图像中的高响应区域。该过程，称之为联合区域编码。下一步将权值矩阵与原图像进行相乘，得到新的输入特征图。该输入特征图，经过模型的前向传递，最终生成64维或32维的特征向量(根据应用的要求，进行调整维数，满足不同应用要求)。联合编码的意义在于，作为一种辅助信息，在多任务模型训练中，提升分类的准确率。

可选的，在一个具体实施例中，可以通过构建多任务模型实现整个人脸属性识别流程，即多任务模型的输入端为128*128大小的三通道图片，输出端为N个分支的卷积与全连接层，其作用分别为预测不同类别的人脸属性。同时，在输入端融合一个提取固定位置信息并融合的分支，该分支用于提供对应的联合特征向量。

可选的，这里提到的根据联合特征向量对第一识别结果进行调整，得到第二识别结果，其具体可以为：

根据公式f(x)＝α₀f(x₀)+α₁f(x₁)计算第二识别结果；

其中，α₀与α₁为最终融合的权值，f(x₀)为识别模型的输出结果，为softmax预测值，f(x₁)为联合特征向量的余弦距离值，在模型训练时，两部分相对独立。

在涵盖人脸发型、性别等多个属性的数据集上对模型精度进行测试时，多任务模型的表现明显优于普通分类模型的表现。

基于上述技术方案，本申请所提供的一种人脸属性识别的方法，通过确定识别模型中每类属性对应的感兴趣区域，然后根据感兴趣区域对待识别图像进行图像像素加权与位置重构处理，得到对应的区域表征图，并将区域表征图中每个子区域的特征向量进行串联与降维，得到预设维度的联合特征向量，以使得到的联合特征向量具有更好的特征信息，可以有效反映出图像的像素关联信息和人脸信息分布，依据联合特征向量对识别模型得到的第一识别结果进行调整，极大的提高了识别模型在人脸属性识别任务中的准确率。

请参考图2，图2为本申请实施例所提供的一种人脸属性识别的系统的结构图。

该系统可以包括：

获取模块100，用于获取识别模型及待识别图像，并确定识别模型中每类属性对应的感兴趣区域；

处理模块200，用于根据感兴趣区域对待识别图像进行图像像素加权与位置重构处理，得到对应的区域表征图；

特征联合模块300，用于将区域表征图中每个子区域的特征向量进行串联与降维，得到预设维度的联合特征向量；

人脸属性识别模块400，用于利用识别模型对待识别图像进行人脸属性识别，得到第一识别结果，并根据联合特征向量对第一识别结果进行调整，得到第二识别结果。

在上述实施例的基础上，在一个具体实施例中，该系统还可以包括：

训练模块，用于在确定识别模型中每类属性对应的感兴趣区域之后，根据感兴趣区域对识别模型进行训练，以提高识别模型的识别精度。

在上述实施例的基础上，在一个具体实施例中，该训练模块可以包括：

处理子模块，用于对训练图像进行图像像素加权与位置重构处理，得到对应的训练区域表征图；

第一训练子模块，用于根据训练区域表征图对识别模型进行训练。

分割子模块，用于将训练图像分割为预设数量的网格，并将感兴趣区域的网格输出，以使用户将感兴趣区域的网格标定为对应的类别；

第二训练子模块，用于根据感兴趣区域的网格的类别对识别模型进行训练。

在上述实施例的基础上，在一个具体实施例中，该获取模块100可以包括：

第三训练子模块，用于利用属性训练集对识别模型中的对应属性进行迭代训练，以确定属性训练集中对当前属性响应最高的区域；

确定子模块，用于确定当前属性响应最高的区域为当前属性对应的感兴趣区域。

由于系统部分的实施例与方法部分的实施例相互对应，因此系统部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

请参考图3，图3为本申请实施例所提供的一种人脸属性识别设备的结构图。

该人脸属性识别设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对装置中的一系列指令操作。更进一步地，处理器522可以设置为与存储介质530通信，在人脸属性识别设备500上执行存储介质530中的一系列指令操作。

人脸属性识别设备500还可以包括一个或一个以上电源525，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述图1所描述的人脸属性识别的方法中的步骤由人脸属性识别设备基于该图3所示的结构实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，功能调用装置，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本申请所提供的一种人脸属性识别的方法、系统、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种人脸属性识别的方法，其特征在于，包括：

利用所述识别模型对所述待识别图像进行人脸属性识别，得到第一识别结果，并根据所述联合特征向量对所述第一识别结果进行调整，得到第二识别结果；

其中，根据公式f(x)＝α₀f(x₀)+α₁f(x₁)计算第二识别结果；α₀与α₁为最终融合的权值，f(x₀)为所述识别模型输出的第一识别结果，f(x₁)为所述联合特征向量的余弦距离值，在模型训练时，两部分相对独立。

2.根据权利要求1所述的方法，其特征在于，在确定所述识别模型中每类属性对应的感兴趣区域之后，还包括：

3.根据权利要求2所述的方法，其特征在于，根据所述感兴趣区域对所述识别模型进行训练，包括：

根据所述训练区域表征图对所述识别模型进行训练。

4.根据权利要求2所述的方法，其特征在于，根据所述感兴趣区域对所述识别模型进行训练，包括：

5.根据权利要求1所述的方法，其特征在于，确定所述识别模型中每类属性对应的感兴趣区域，包括：

6.根据权利要求1所述的方法，其特征在于，所述属性包括眼镜属性、口罩属性、发型属性、性别属性、年龄属性、表情属性中的至少一项。

7.一种人脸属性识别的系统，其特征在于，包括：

人脸属性识别模块，用于利用所述识别模型对所述待识别图像进行人脸属性识别，得到第一识别结果，并根据所述联合特征向量对所述第一识别结果进行调整，得到第二识别结果；

8.根据权利要求7所述的系统，其特征在于，还包括：

9.一种人脸属性识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述人脸属性识别的方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述人脸属性识别的方法的步骤。