CN110427795A

CN110427795A - 一种基于头部照片的属性分析方法、系统和计算机设备

Info

Publication number: CN110427795A
Application number: CN201910080896.1A
Authority: CN
Inventors: 张帅; 贾宝芝
Original assignee: Xiamen Reconova Information Technology Co Ltd
Current assignee: Xiamen Reconova Information Technology Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-11-08

Abstract

本发明公开了一种基于头部照片的属性分析方法、系统和计算机设备，方法包括：获取商场内图片或/和视频数据，从中提取单张图片；通过训练好的第一神经网络模型对所述单张图片进行人脸检测，获取人脸框位置和面部特征点位置；根据所述人脸框位置和面部特征点位置进行图片矫正和截取，获得人物人脸框图片；通过训练好的第二神经网络模型对所述人物人脸框图片进行人物头部属性分析，获得人物头部属性的置信度；根据人物头部属性选择策略确定人物头部属性，输出对应的属性及置信度。本发明能有效快速准确的检测视频内人物头部属性，进而统计分析各种场景下摄像头内的人物的头部属性信息，有助于帮助店家分析数据，制定销售策略，促进销售量。

Description

一种基于头部照片的属性分析方法、系统和计算机设备

技术领域

本发明涉及大数据处理技术领域，具体涉及一种基于头部照片的属性分析方法、系统和计算机设备。

背景技术

在计算机视觉领域，人脸作为一个重要的分析指标，无论在检测还是分析方面，都能通过数据的挖掘和利用起到重要的作用。目前，在日常生活中，在各种大型商场、商品专卖店和超市等里面，经常可以看到各式各样的摄像头在进行视频数据的摄取，但是目前这些摄像头的主要作用是做记录，防止一些犯罪的发生，可以做事后查证，产生的大量数据并没有得到充分的挖掘利用，从而导致即使商家有视频数据，但是并没有进行高效利用，从顾客身上挖掘有价值的信息，造成的一种资源浪费状况。

发明内容

本发明的主要目的在于提出一种基于头部照片的属性分析方法、系统和计算机设备，能有效快速准确的检测视频内人物头部属性，进而统计分析各种场景下摄像头内的人物的情绪、发型、发色、头部穿戴、胡子、脸型和化妆等信息，有助于帮助店家分析数据，制定销售策略，促进销售量。

本发明采用如下技术方案：

一方面，本发明一种基于头部照片的属性分析方法，包括：

获取商场内图片或/和视频数据，从中提取单张图片；

通过训练好的第一神经网络模型对所述单张图片进行人脸检测，获取人脸框位置和面部特征点位置；根据所述人脸框位置和面部特征点位置进行图片矫正和截取，获得人物人脸框图片；

通过训练好的第二神经网络模型对所述人物人脸框图片进行人物头部属性分析，获得人物头部属性的置信度；

根据人物头部属性选择策略确定人物头部属性，输出对应的属性及置信度。

优选的，所述通过训练好的第一神经网络模型对所述单张图片进行人脸检测，获取人脸框位置和面部特征点位置；根据所述人脸框位置和面部特征点位置进行图片矫正和截取，获得人物人脸框图片，具体包括：

步骤a1，通过训练好的第一神经网络模型对所述单张图片进行人物人脸框检测，获取人物人脸框位置和面部特征点位置；其中，所述人物人脸框位置包括人物人脸框的左上角的坐标和人物人脸框右下角的坐标；面部特征点包括左眼瞳孔、右眼瞳孔、鼻尖、嘴巴最左点和嘴巴最右点；所述面部特征点位置包括上述五个面部特征点的坐标；

步骤a2，根据所述左眼瞳孔和右眼瞳孔的位置，计算双瞳孔的连线与水平线的夹角；将双瞳孔连线的中点，与嘴巴最左点和嘴巴最右点两点连线的中点进行连接作为纵线，对所述纵线从上到下去线段的预设值作为图像的中心点；以所述中心点为中心，逆向旋转所述夹角的度数，得到双瞳水平的照片；

步骤a3，根据所述人脸框位置进行预设比例的扩增，截取扩增后的人脸框中的图片，获得人物人脸框图片。

优选的，所述第一神经网络模型采用MTCNN模型，所述MTCNN模型包括P-Net网络、R-Net网络和O-Net网络。

优选的，所述第一神经网络模型的损失函数表示如下：

其中，N是预设人物人脸框的正样本数量；α_det、α_box和α_landmark表示分别表示人脸分类损失、人脸框和面部特征点损失的权重；表示是否人脸输入；和分别表示人脸分类损失函数、人脸框损失函数和面部特征点损失函数。

优选的，所述第二神经网络模型使用LightCNN作为特征抽取层，使用预设大小的彩色图片作为输入，经过LightCNN抽取特征后，对接全连接层最终输出若干个[0，1]的概率值来标志对若干种属性的置信度。

优选的，所述根据人物头部属性选择策略确定人物头部属性，输出对应的属性及置信度，包括：

将人物头部属性归类为互斥类或平行类；所述互斥类包括表情、发型、发色、胡子和脸型属性；所述平行类包括穿戴和化妆属性；

输出互斥类中置信度最大的属性及对应的置信度，同时输出平行类中的所有属性及对应的置信度。

优选的，对于互斥类，采用交叉熵作为损失函数，如下：

对于平行类，采用均方差作为损失函数，如下：

其中，均表示所有预测的属性的概率值，y均表示所有预测属性的真实值， y∈{0，1}，0代表本张图片没有这个属性，1代表本张图片有这个属性；均表示第i个属性的预测概率值；y_i均表示第i个属性的真实值；n代表全部属性的种类数。

优选的，所述基于头部照片的属性分析方法，还包括：

逐一分析从商场录像数据中提取的多张图片，基于每张图片输出的人物头部属性及其置信度，分析商场内顾客的头部属性分布以进行商品策略调整。

第二方面，本发明一种基于头部照片的属性分析系统，包括：

图片提取模块，用于获取商场内图片或/和视频数据，从中提取单张图片；

人物人脸框图片提取模块，用于通过训练好的第一神经网络模型对所述单张图片进行人脸检测，获取人脸框位置和面部特征点位置；根据所述人脸框位置和面部特征点位置进行图片矫正和截取，获得人物人脸框图片；

头部属性置信度获取模块，用于通过训练好的第二神经网络模型对所述人物人脸框图片进行人物头部属性分析，获得人物头部属性的置信度；

头部属性输出模块，用于根据人物头部属性选择策略确定人物头部属性，输出对应的属性及置信度。

第三方面，本发明一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述基于头部照片的属性分析方法。

与现有技术相比，本发明的有益效果如下：

(1)本发明一种基于头部照片的属性分析方法、系统和计算机设备，能快速准确的检测商场内顾客头部属性，让店家知道店内顾客头部属性，进而统计分析店内顾客的情绪、发型、发色、头部穿戴、胡子、脸型和化妆等信息，有助于帮助店家分析数据，制定销售策略，促进销售量；

(2)本发明一种基于头部照片的属性分析方法、系统和计算机设备，通过第一神经网络模型能够快速检测到图片中的人物人脸框和面部特征点，并输出人物人脸框位置和面部特征点位置；对人物人脸框进行校正和扩增后截取人物人脸框图片；

(3)本发明一种基于头部照片的属性分析方法、系统和计算机设备，通过第二神经网络模型对截取的人物人脸框图片进行基于头部照片的属性分析，获得顾客头部属性的置信度，进而让店家统计分析店内顾客的情绪、发型、发色、头部穿戴、胡子、脸型和化妆等信息。

上述说明仅是本发明技术方案的概述，为了能够更清楚地了解本发明的技术手段，从而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下列举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述及其他目的、优点和特征。

附图说明

图1为本发明实施例的基于头部照片的属性分析方法的流程图；

图2为本发明实施例的第一神经网络模型结构图；其中2(a)为P-Net网络结构图；2(b)为R-Net网络结构图；2(c)为O-Net网络结构图；

图3为本发明实施例预测的头部属性分析图，附图中包括属性及置信度；

图4为本发明实施例的基于头部照片的属性分析系统的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步的详细描述。

本发明公开了一种能快速准确的检测图片内的人物头部属性的方法，其通过使用深度学习的人脸检测算法、属性分析算法及大数据分析算法对视频进行分析，能够让商场和店家知道各种场景下摄像头内的人物头部属性分布，统计分析各种场景下摄像头内的人物的情绪、发型、发色、头部穿戴、胡子、脸型和化妆等信息，为商场及店家等使用者制定销售策略提供数据支持。

参见图1所示，一方面，本发明一种基于头部照片的属性分析方法，包括：

获取商场内图片或/和视频数据，从中提取单张图片；

本实施例中，一种基于头部照片的属性分析方法，具体包括如下步骤：

步骤1，神经网络模型训练

步骤1.1，第一神经网络模型(人脸检测的神经网络模型)训练

具体的，通过采集各种人物在各种场景下摄像头内的图片和视频，然后采用外接矩形框人工标定出人脸区域及面部五个特征点(分别是左眼瞳孔、右眼瞳孔、鼻尖、左边嘴角和右边嘴角)，将标定好的数据及相对应的标签送入第一神经网络中进行训练。本实施例中，第一神经网络模型采用MTCNN(Multi-task Cascaded Convolutional Networks，多任务级联卷积网络)模型，MTCNN是由3个网络结构组成(P-Net、R-Net和O-Net)，如下分别介绍一下这三个网络。

Proposal Network(P-Net)：网络结构如图2(a)所示，网络采用12pixel×12pixel×3channel 作为网络输入，经过3×3的卷积网络->MaxPooling层->3×3的卷积网络->3×3的卷积网络 ->3×3的卷积网络后得到1×1×32的输出结果，该网络结构主要获得了人脸区域的候选窗口和边界框的回归向量，并用该边界框做回归，对候选窗口进行校准，然后通过非极大值抑制 (NMS)来合并高度重叠的候选框。

Refine Network(R-Net)：网络结构如图2(b)所示，该网络结构主要是通过边界框回归和NMS来去掉那些false-positive(网络预测为人脸区域但是事实上并不是)的区域。只是由于该网络结构和P-Net网络结构有差异，输入改成24pixel×24pixel×3channel，并且多了一个全连接层，所以会取得更好的抑制false-positive的作用。

Output Network(O-Net)：网络结构如图2(c)所示，输入进一步扩大到 48pixel×48pixel×3channel所以输入的信息会更加精细，并且该层比R-Net层又多了一层卷基层，作用和R-Net层作用一样。但是该层对人脸区域进行了更多的监督，作为整个模型的最后阶段，输出的五个面部特征点(landmark，包括左眼瞳孔、右眼瞳孔、鼻尖、嘴巴最左点和嘴巴最右点)相比于前两个阶段要精准很多，三个小网络结构都输出了面部五个特征点坐标，但是由于R-Net和P-Net网络输入太小，面部特征点的信息很少，所以在前两个阶段的人脸面部特征点回归所产生的损失函数的权重系数设置为比较小的0.5，而在最后阶段的O-Net网络产生的人脸面部特征点损失函数采用的权重比较大为1.0，因为面部特征点的预测在O-Net阶段输出的结果最为准确，所以实践中选择在最后阶段O-Net网络输出的时候作为面部特征点预测结果，O-Net的网络输入也是这三个小网络里面最大，有利于更准确提取面部特征。

进一步的，MTCNN特征描述的损失函数主要包含3个部分：人脸/非人脸分类器、边界框回归和特征点定位。

人脸分类损失函数表示如下：

上述为人脸分类的交叉熵损失函数，其中，p_i为是人脸的概率，为背景的真实标签。

人脸框损失函数表示如下：

上式是通过欧氏距离计算的回归损失。其中，为通过网络预测得到，为实际的真实的背景坐标。其中，y为一个(左上角x、左上角y、长和宽)组成的四元组。

面部特征点损失函数表示如下：

和边界框回归一样，上式还是计算网络预测的面部特征点位置和实际真实面部特征点的欧式距离，并最小化该距离。其中，为通过网络预测得到，为实际的真实的面部特征点坐标。由于一共5个点，每个点2个坐标，所以，y属于十元组。

综上，整个模型训练过程的整体损失函数可以表示为如下：

P-Net R-Net(α_det＝1,α_box＝0.5,α_landmark＝0.5)

O-Net(α_det＝1,α_box＝0.5,α_landmark＝1)

由上可知，在训练的时候虽然都会计算上述的3个损失函数但是并不是对每个输入这些损失都有意义，因此定义了上述公式用来控制对不同的输入采用不同的损失以及分配不同的权重。可以看出，在P-Net和R-Net中，面部特征点回归的损失权重α_landmark要小于O-Net 部分，这是因为前面2个stage重点在于过滤掉非人脸的bbox。β存在的意义是比如非人脸输入，就只需要计算有意义的人脸分类损失，而不需要计算无意义的边界框和面部特征点的回归损失，因为针对非人脸区域。

经过训练，得到一个可以精准检测人脸框以及面部特征点的深度学习神经网络模型，用于预测商店视频中的人物人脸框及面部特征点的位置，进而提取出人物人脸为下一步提取人物头部属性分析所用。

步骤1.2：第二神经网络模型(人物头部属性分析的神经网络模型)训练

在训练时使用前面训练好的人脸检测的第一神经网络模型来进行人脸框的数据的预测和面部特征点的预测这样训练的模型在实际使用的时候是更为精准，具体在在线使用的时候是利用第一神经网络模型进行图片和视频检测，得到图片和视频中人脸位置及面部五个特征点的预测，此时的数据是没有人工标注人脸框位置的。在得到人脸框的位置后，使用处理工具将图片和视频中的人脸根据人脸框进行人脸的矫正和剪切。矫正的过程采用的方案是首先通过第一神经网络模型预测出的两个眼睛瞳孔的位置，计算双瞳孔的连线与水平线的夹角，进行逆向旋转，得到一张双瞳水平的照片。具体的，旋转的中心点的获取为再根据双瞳连线的中点，与嘴上的两点连线中点进行链接作为纵线，从上到下取线段的0.406作为图像的中心点，其中中心点系数0.406是根据大量真实场景人脸标定得到的系数。剪切的过程为首先对获取的人脸框的位置进行预设比例的放大，然后进行剪切。最后经过定中心点进行逆向旋转得到大量校正后的人脸照片，然后给到数据标注人员进行头部属性标注(共6大类，包含 29个细分属性)，得到大量具有头部属性标签的数据，将标注好的数据及相对应的头部属性标签送入第二神经网络模型中进行训练。人物头部属性分析的神经网络模型(第二神经网络模型)采用LightCNN模型作为特征抽取层，输入为224pixel×224pixel×3channel,输出为512 维向量作为抽取的特征，本实施例中，在抽取的特征后面接着并行的六个分支，分别是表情互斥类、发型互斥类、发色互斥类、胡子互斥类、脸型互斥类和(穿戴+化妆)平行类，每个分支都使用512×256×n×(Sigmoid/Softmax)的全连接层(n代表每个大类内对应的小类数，例如表情大类内分为5个小类，该分支就是512×256×5×(Sigmoid/Softmax)的结构)，如果是平行类，则最后采用Sigmoid层将最终输出转化成概率值，如果是互斥类，则将最后采用 Softmax层使得将输出转化成概率值并且大类内各个分支的概率和为1。

对于互斥类，采用交叉熵CELoss(CrossEntropyLoss)作为损失函数，如下：

对于平行类，采用均方差MSELoss(MeanSquaredErrorLoss)作为损失函数，如下：

其中，在以上两个损失函数中，均表示所有预测的属性的概率值，y均表示所有预测属性的真实值,y∈{0，1}，0代表本张图片没有这个属性，1代表本张图片有这个属性；均表示第i个属性的预测概率值；y_i均表示第i个属性的真实值；n代表全部属性的种类数。

经过大量训练调参，得到一个能够较为精确预测人物头部属性的模型，用于分析头部各项属性。

步骤2，商场内各种场景下摄像头内的人物数据采集

步骤2.1，通过各种场景下摄像头内的摄像头获取各种场景下摄像头内的录像数据，目前各种商场上的摄像头内的摄像头都有存档功能，可以在电脑上很方便的找到存储的各种场景下摄像头内的摄像头记录的视频。

步骤2.2，使用第一神经网络模型对各种场景下摄像头内的录像数据进行人物人脸检测，得到人物人脸框位置(x1，y1，x2，y2)及面部特征点位置，其中，x1和y1为人物人脸框的左上角的坐标；x2和y2为人物人脸框右下角的坐标；然后使用OpenCV库作为工具先读取图片，然后再读取对应这张照片中人物人脸框的位置及面部特征点位置，根据人物人脸框位置和面部特征点位置来矫正和截取对应矩形中的图片，得到大量校正后的人脸的照片，用于后面的人物头部属性分析。

步骤3，人物头部属性分析

步骤3.1：使用头部属性分析(第二神经网络模型)模型对人物人脸图片进行分析，得到按照预设好的属性顺序对应的各项属性置信度，进而用于下一步的属性选择；

步骤3.2：参见图3所示，根据常见的头部属性，将人物的头部属性分为五大互斥类(分别为表情类、发型类、发色类、胡子类和脸型类)和一个平行类(穿戴+化妆)，每一个互斥类都是指将某些具有同类性质的属性放到一组，在这一组中的属性互相排斥(例如表情这个互斥类，包含开怀大笑，愉快，正常，难过和愤怒这五个属性，预测的时候五选一，得到表情这个互斥类的最终结果)，在进行属性选择的时候会选择这个组内置信度最大的属性作为该组的最终选择结果输出，以代表该类别的属性；平行类指的是将那些非互斥的属性放入平行类。这些属性之间相互独立，互不影响，在平行类里面进行属性选择的时候是按照阈值进行过滤，阈值设定为0.5，置信度分布在[0，1]，当平行类里面的属性的置信度p≥0.5，则认为该属性为显性，当平行类里面的属性的置信度p<0.5，则认为该属性为隐性，所以按照以上规则进行预测属性的选取。

步骤4，大数据分析

基于对人物头部属性的预测，利用大数据进行统计，可分析各种场景下摄像头内的人物的头部属性分布，进而依照统计数据得出目前属性分布情况，后续商家可实行相应的商品策略调整，从而提高商场收益。

第二方面，参见图4所示，本发明一种基于头部照片的属性分析系统，包括：

图片提取模块401，用于获取商场内图片或/和视频数据，从中提取单张图片；

人物人脸框图片提取模块402，用于通过训练好的第一神经网络模型对所述单张图片进行人脸检测，获取人脸框位置和面部特征点位置；根据所述人脸框位置和面部特征点位置进行图片矫正和截取，获得人物人脸框图片；

头部属性置信度获取模块403，用于通过训练好的第二神经网络模型对所述人物人脸框图片进行人物头部属性分析，获得人物头部属性的置信度；

头部属性输出模块404，用于根据人物头部属性选择策略确定人物头部属性，输出对应的属性及置信度。

第三方面，本发明一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的基于头部照片的属性分析方法。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种基于头部照片的属性分析方法，其特征在于，包括：

获取商场内图片或/和视频数据，从中提取单张图片；

2.根据权利要求1所述的基于头部照片的属性分析方法，其特征在于，所述通过训练好的第一神经网络模型对所述单张图片进行人脸检测，获取人脸框位置和面部特征点位置；根据所述人脸框位置和面部特征点位置进行图片矫正和截取，获得人物人脸框图片，具体包括：

3.根据权利要求2所述的基于头部照片的属性分析方法，其特征在于，所述第一神经网络模型采用MTCNN模型，所述MTCNN模型包括P-Net网络、R-Net网络和O-Net网络。

4.根据权利要求3所述的基于头部照片的属性分析方法，其特征在于，所述第一神经网络模型的损失函数表示如下：

5.根据权利要求1所述的基于头部照片的属性分析方法，其特征在于，所述第二神经网络模型使用LightCNN作为特征抽取层，使用预设大小的彩色图片作为输入，经过LightCNN抽取特征后，对接全连接层最终输出若干个[0，1]的概率值来标志对若干种属性的置信度。

6.根据权利要求1所述的基于头部照片的属性分析方法，其特征在于，所述根据人物头部属性选择策略确定人物头部属性，输出对应的属性及置信度，包括：

7.根据权利要求6所述的基于头部照片的属性分析方法，其特征在于，对于互斥类，采用交叉熵作为损失函数，如下：

对于平行类，采用均方差作为损失函数，如下：

其中，均表示所有预测的属性的概率值，y均表示所有预测属性的真实值，y∈{0，1}，0代表本张图片没有这个属性，1代表本张图片有这个属性；均表示第i个属性的预测概率值；y_i均表示第i个属性的真实值；n代表全部属性的种类数。

8.根据权利要求1所述的基于头部照片的属性分析方法，其特征在于，所述基于头部照片的属性分析方法，还包括：

9.一种基于头部照片的属性分析系统，其特征在于，包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法。