CN110633669A

CN110633669A - 家居环境中基于深度学习的移动端人脸属性识别方法

Info

Publication number: CN110633669A
Application number: CN201910867087.5A
Authority: CN
Inventors: 孔英会; 郄天丛; 张帅桐; 刘旭; 张珂; 戚银城; 车辚辚
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2019-12-31
Anticipated expiration: 2039-09-12
Also published as: CN110633669B

Abstract

一种家居环境中基于深度学习的移动端人脸属性识别方法，所述方法由数据采集端、以路由器和互联网云端为核心的传输装置和以安卓手机和人脸属性识别APP为核心的识别终端组成识别系统，安卓手机APP获取数据采集端采集的远程视频数据，利用OpenCV 3.4.1库里的LBP人脸检测器对远程视频进行人脸检测，利用人脸属性识别终端提供的轻量级mini_Xception深度学习识别模型对检测到的人脸进行人脸属性识别，并对异常表情和陌生人的出现给与及时告警提醒。本发明将轻量级识别模型移植到移动端设备上，由移动端设备完成人脸属性的识别，可避免多用户访问服务器造成信道拥塞，降低服务器运行成本。该方法识别准确率高，速率快，能满足智能家居的发展对人脸属性识别的要求。

Description

家居环境中基于深度学习的移动端人脸属性识别方法

技术领域

本发明涉及一种移动端人脸属性识别方法，属于模式识别技术领域。

背景技术

随着信息时代的到来，智能家居已经走入了生活，并已经有了相当的发展规模，目前家电控制、照明控制、电话远程控制、室内外遥控、环境监测、暖通控制以及红外转发等多种技术已经运用到智能家居系统中，这使得智能家居系统变得越来越完善。而智能家居系统中，针对人脸属性的分析相对少，实际家居环境对于人脸识别、表情识别、性别识别、年龄识别等人脸属性的识别有一定的需求，如家庭成员中，需要识别老人和小孩的面部表情，以便用户通过面部表情来掌握老人和小孩的身体状况；对于非家庭成员，需要识别他的性别和年龄并让系统做出相应的决策处理，这样能够让家居环境变得更安全。所以在智能手机普及的今天，研究移动终端家居环境人脸属性识别具有重要意义。

基于传统机器学习的人脸属性识别方法中需要人工提取脸部特征，但是人工特征提取方法存在诸多局限性，比如不同类别的图像之间具有很大的相似度，而同一类别的图像之间又有很大的差异性等，识别精度受到局限。近些年卷积神经网络(ConvolutionalNeural Networks,CNN)在图像分类和识别等领域取得了重大进展，涌现出VGG-Face、ResNet、Xception等经典网络，这些网络在人脸识别、表情识别实验中识别准确率都达到了90％以上。但是这些网络模型的参数量均达到了上亿，这样得到的识别模型也就非常大，给移动端的部署带来了巨大的挑战。

目前很多移动端应用场景中，大的深度学习网络需要部署在服务器端来完成识别功能，再将识别的结果实时传回到移动端，文献“Li H,Zhu X.Face recognitiontechnology research and implementation based on mobile phone system[C].International Conference on Natural Computation.Changsha:IEEE, 2016:972-976.”设计了一个四层的CNN架构，将CNN训练好的人脸识别模型部署在服务器端，用户可以将手机拍摄的人脸图像传到服务器端，然后服务器再将人脸识别结果实时返回给用户；文献“赵彬宇,周慧玲,等.储粮害虫智能图鉴及图像识别APP软件设计[J].粮食储藏,2019(3):42-46.”将VGG16网络训练好的模型部署在服务器端，用户可以通过手机拍摄昆虫图片，并将图片传到服务器端，最后服务器再将昆虫识别的结果实时传回到手机上，实现了害虫识别功能。上述方法实现了移动端图像识别功能且降低了移动端设备的硬件需求，但是访问服务器的往往是成千上万的用户，当多用户访问时对传输带宽要求就非常高，而且多用户访问服务器时，服务器处理的工作量会非常大，这样对服务器的要求会非常高，并且不同用户识别需求众多，服务器需要经常进行维护工作，增加运行成本。如果根据用户需求将识别模型部署在移动端设备上，这样可以避免多用户访问服务器容易出现信道拥塞以及服务器运行成本高的缺陷。但是，由于移动端的处理能力有限，需要选择识别率高且轻量级的模型。针对轻量级识别模型的研究也取得了一些成果，比如谷歌公司推出的MobileNet 网络，根据网络超参数的不同，训练好的模型在2MB～17MB左右，将其部署在Android手机上可以实现垃圾分类、城管案件目标识别等功能，虽然MobileNet 网络在一定程度上降低了参数量，最小的模型也仅有2MB，但是对于人脸属性识别中的表情识别不是非常理想，因为人脸表情时刻在变化，并且变化细微，需要准确判断视频每一帧的表情，所以还需要寻找更为轻量级且识别率高的模型。

发明内容

本发明的目的在于针对现有技术之弊端，提供一种家居环境中基于深度学习的移动端人脸属性识别方法，以避免多用户访问服务器造成信道拥塞，降低服务器运行成本，满足智能家居的发展对人脸属性识别的要求。

本发明所述问题是以下述技术方案解决的：

一种家居环境中基于深度学习的移动端人脸属性识别方法，所述方法由数据采集端、传输装置、以安卓手机和人脸属性识别APP为核心的识别终端组成识别系统，安卓手机通过Vitamio框架获取图像采集端采集和远程传输来的视频数据，利用OpenCV 3.4.1库里自带的LBP人脸检测器对获取到的远程视频进行人脸检测，利用人脸属性识别终端提供的轻量级mini_Xception深度学习识别模型对检测到的人脸进行人脸属性识别，并对异常表情和陌生人的出现给与及时告警提醒。

上述家居环境中基于深度学习的移动端人脸属性识别方法，所述方法包括以下步骤：

a.数据集准备

收集家人的人脸数据制作人脸数据集，并进一步通过谷歌、百度搜索引擎以及利用公共数据集等方式制作表情数据集、性别数据集和年龄数据集；

b.人脸属性识别网络训练与模型建立

用人脸数据集、表情数据集、性别数据集和年龄数据集对人脸属性识别终端中的mini_Xception网络进行训练，得到四个训练好的.hdf5格式的模型文件；

c.识别模型移植

将四个训练好的.hdf5格式的模型文件转换为安卓手机支持的.pb文件，将生成的四个.pb模型文件以及对应的标签文件放到安卓手机中工程的asset文件夹下，完成人脸属性识别模型的移植；

d.移动端人脸属性识别

①安卓手机通过Vitamio框架获取图像采集端采集的远程视频数据；

②视频数据预处理

将三通道的彩色图像转化为单通道的灰度图像，以降低移动设备的计算量；

③人脸检测

采用LBP人脸检测算法判断一幅图像中是不是有人脸的出现，一旦发现有人脸的出现，则将人脸区域给标记出来；

④人脸属性识别

定义人脸、表情、性别、年龄四个classifier分类器，分类器中包含步骤c中导入的四个.pb模型文件以及对应的标签文件，首先将检测到的人脸送入人脸分类器进行人脸识别，若人脸分类器判断该人脸为家人，则将该人脸送入表情分类器进行表情识别；若人脸分类器判断该人脸为陌生人，则将该人脸送入性别、年龄分类器进行性别、年龄识别；

⑤多人脸属性决策处理

若人脸属性识别的结果为陌生人，则播放预先存储的报警音乐并显示陌生人的年龄和性别；若人脸属性识别的结果为家人且表情为悲伤，则播放报警音乐。

上述家居环境中基于深度学习的移动端人脸属性识别方法，所述表情分类器只完成三类表情的识别，分别为悲伤、平静、高兴。

上述家居环境中基于深度学习的移动端人脸属性识别方法，所述年龄分类器将年龄分为8类，分别为0～2岁、4～6岁、8～13岁、15～20岁、25～32岁、 38～43岁、48～53岁和60岁以上。

上述家居环境中基于深度学习的移动端人脸属性识别方法，所述数据采集端设备为高清网络摄像机。

本发明将轻量级识别模型移植到移动端设备上，由移动端设备及软件完成人脸属性的识别，识别过程中不需要连接服务器上的数据库及处理软件，可避免多用户访问服务器造成信道拥塞，降低服务器运行成本。该方法识别准确率高，识别速率快，成本低，能够满足智能家居的发展对人脸属性识别的要求。

附图说明

下面结合附图对本发明作进一步详述。

图1是系统结构图；

图2是识别流程图；

图3是mini_Xception网络结构图。

具体实施方式

本发明针对智能家居环境提出，用户可以通过智能手机远程实时掌握家人的状态，但本发明应用广泛，还可以将本发明扩展到其它的场景之中，比如养老院，医院病房、看守所等环境中。

本发明从客户端出发，对于任何一个能连上网的客户端，利用本发明都能通过人脸属性识别实现对家人状态的实时监测。

设计的移动端家居环境人脸属性识别系统由数据采集端、传输装置(包括路由器和互联网云端)和人脸属性识别终端三部分组成，系统结构如图1所示，其中人脸属性识别终端是系统的核心部分，通过手机APP实现远程视频获取、人脸检测和人脸属性识别功能，人脸属性识别是基于深度学习的方法，识别模型是轻量级识别模型mini_Xception，人脸检测采用OpenCV 3.4.1库中自带的 LBP人脸检测器；数据采集使用高清网络摄像机来完成，可以采用当前主流的网络摄像机比如海康摄像机、大华摄像机、360智能摄像机等；数据传输通过路由器、互联网云端完成，最终将视频数据送到手机之中。

主要工作过程主要包括模型准备和移动端人脸属性识别两部分，如图2所示。首先，将家庭成员人脸数据集、表情数据集、年龄数据集、性别数据集分别输入mini_Xception网络进行训练，得到四个.hdf5人脸属性识别模型文件，由于安卓手机不支持.hdf5模型，所以还需要将.hdf5模型文件转换为安卓手机支持的.pb模型文件，通过编写python程序即可完成模型的转换，这样生成了最终的识别模型文件，此模型可往安卓手机上进行移植；然后从选用的网络摄像机的官网上获取摄像机的网络播放链接，并将vitamio库导入到安卓手机中实现远程取流播放，把提取到的每一帧图像做灰度化处理，随后将处理后的图像送入LBP检测器进行人脸检测，再将检测到的人脸送入人脸识别模型进行人脸识别，若识别为家人则对家人则显示家人的姓名、同时进行表情识别工作并显示此人的表情类别，且检测到“悲伤”表情之后发出告警音提示，若识别为陌生人则显示“陌生人”，并识别人员的性别和年龄，同时发出告警音提示；最终将项目编译成APK，导入安卓手机生成APP，通过APP实现移动端人脸属性识别。

按照图2流程，各部分实现方法如下：

1)数据集准备

关于人脸属性识别数据集的选取如下：人脸识别数据集采用自制数据集，需要收集家人的人脸图像，每个家人收集100张左右的照片；在表情数据集上，由于是在家居环境中，所以本发明只完成三类表情的识别，分别为悲伤、平静、高兴，通过公共数据集图片选取、Google与Baidu搜索获取、实地拍摄等方式制作了表情数据集，共包含21264张表情图片；性别数据集采用文献“Rothe R, Timofte R,Van Gool L.Deep Expectation of Realand Apparent Age from a Single Image Without Facial Landmarks[J].International Journal of Computer Vision,2016:1-6.”提出的IMDB数据集，共包含460723张图片；年龄数据集采用文献“Eidinger E,EnbarR,Hassner T.Age and Gender Estimation of Unfiltered Faces[J].IEEE Transactions on Information Forensics and Security,2014,9(12):2170-2179.”里提出的Adience数据集，包括2284个人的 26580张图片。上述所有数据集中的图片均为灰度图片，并将所有的人脸图像经过眼睛定位、校准、剪切，最后归一化到64*64像素。

2)人脸属性识别网络训练与模型建立

mini_Xception模型的网络架构是Xception网络的改进版，主要是对 Xception网络进行了压缩，使之变得更为轻量级。Xception网络是Google公司在2016年提出的一种网络结构，也是继Inception后提出的对Inception v3的另一种改进，主要是采用深度可分离卷积操作来替换原来Inception v3中的卷积操作。而mini_Xception网络正是引入了深度可分离卷积的思想，这样不仅提升了分类的正确率，也增强了网络对人脸属性这类细微特征的学习能力。

mini_Xception是一个全卷积神经网络，模型网络架构如图3所示，它包含4 个深度可分离卷积模块，在每个卷积层之后采用了批量归一化层，批量归一化层可以加速网络训练和收敛，此外采用ReLU作为激活函数；每个卷积层之后连接最大池化层，最后一层卷积层之后没有采用全连接层，而是采用了全局平均池化层，这样可以防止网络出现过拟合并降低了参数；之后再接softmax层来进行分类。

该模型网络架构不仅引入了深度可分离模块实现了降低参数，还对Xception网络进行压缩，由原先的36个卷积层变成了7个卷积层，使得模型参数进一步降低到60000个，参数量比Xception网络降低了391倍。此外，该模型架构在FER-2013表情数据集上进行了测试，在表情识别任务中获得了66％的准确率；而且还在IMDB性别数据集中进行了测试，达到了96％的准确率，表情识别模型的权重可以存储在855KB的文件中，性别识别模型权重保存在 257KB的文件之中。在I5-4210M CPU上识别耗时仅仅在0.22ms左右，可以看出此模型在空间需求和运行速度方面比较适合移动端设备应用场景。

人脸、表情、年龄与性别模型网络的前几层皆可以共用，这几个模型不同的是softmax层，在建立模型的时候需要对softmax层根据不同的人脸属性分别进行定义。在本发明的人脸识别模型中，需要引入开集人脸识别，这样才能够对未知身份(陌生人)和已知身份(家人)进行有效的区分，若想引入开集人脸识别，需要对softmax分类器的分类结果设立多级阈值判决，还需要设置一个合适的阈值来进行判断，比如将最大值的阈值设置为0.4，即各类别之中最大值低于0.4则判别为未知身份。在此基础上，为了充分利用样本与其他已知类别之间的相似度信息，进行了第二级判决，即对最大值与第二大值的差值小于0.2的人同样判别为未知身份。以ORL人脸数据库为例，共40个类别，因此，当有测试样本输入的时候会相应得到40个置信概率值，即当最大概率值大于0.4，且与次大的概率值之间的差小于0.2时，才会判决此样本为最大概率值所对应的类别。在本发明中定义人脸识别的输出层时，需要根据家里的人口来定义，比如家里是3口人，那么输出层就是3个类别；表情是三类(悲伤、高兴、平静)，所以输出层是3个类别；年龄分为8类(0～2，4～6，8～13，15～20， 25～32，38～43，48～53，60～)，所以模型的输出层为8个类别；性别分为两类 (男、女)，故模型的输出层为2个类别。

3)识别模型移植

训练好的是四个模型文件均为.hdf5格式的，还需要将.hdf5模型文件转换为安卓手机支持的.pb文件，转换完成后人脸、表情、性别、年龄模型文件名分别为modelface.pb(图2中对应人脸.pb)、modelemotion.pb(图2中对应表情.pb)、modelsexual.pb(图2中对应性别.pb)、modelage.pb(图2中对应年龄.pb)。将生成的四个.pb模型文件以及对应的标签文件放到工程的asset 文件夹下，即可完成模型的移植工作，模型和标签文件对于接下来定义各个分类器有至关重要的作用。导入模型和标签文件的代码如下所示：

4)移动端人脸属性识别

移动端识别功能由APP程序完成，具体工作包括网络视频获取、视频预处理、人脸检测、人脸属性识别、多属性决策处理几个部分，描述如下：

①远程视频获取框架Vitamio

Vitamio是一种运行于Android与IOS平台上的全能多媒体开发框架，支持 RTMP传输协议，采用H.264视频压缩标准，能够流畅播放720P甚至1080P高清MKV、FLV、MP4、MOV、TS、RMVB等常见格式的视频，还可以在Android 与IOS上跨平台支持MMS，RTSP、RTMP、HLS(m3u8)等常见的多种视频流媒体协议，包括点播与直播。Vitmaio在Android应用层上通过API接口提供了视频播放的相关类，其中videoview类负责视频的解码与播放，MediaController 类负责视频的控制页面，包括开始、暂停、进度条等。本发明需要采用以MMS， RTSP、RTMP、HLS作为传输协议的网络摄像机，通过Vitamio库里的VideoView 类实现远程视频获取，主要工作包括设置网络URL地址、获取RTMP视频流并播放、设置控件监听，以进一步完成人脸属性识别的工作。以RTMP传输协议为例，主要代码如下所示：

②预处理

预处理是人脸检测之前对图像进行灰度化处理的过程，由于移动端平台 CPU运算能力较弱，为了保证人脸图像中人脸大小、位置以及人脸图像质量的一致性，需要在人脸检测之前对摄像头获取的图像进行预处理，这样能够降低移动设备的计算量。预处理过程主要是进行图像灰度化操作，主要作用把三通道的彩色图像，转化为单通道的灰度图像，将彩色图像转换为灰度图可以更加简单具体地表现出图像中的信息，主要代码如下所示：

MatOfRect matOfRect＝new MatOfRect()；

Mat mGray＝new Mat()；

Mat mColor＝new Mat()；

Utils.bitmapToMat(mBitmap,mColor)；

Imgproc.cvtColor(mColor,mGray,Imgproc.COLOR_RGBA2GRAY)；

③人脸检测

人脸检测是通过一定的算法判断一幅图像中是不是有人脸的出现，一旦发现，需要将人脸区域给标记出来。在本发明中采用LBP人脸检测算法。

LBP是一种用来描述图像局部纹理特征的算子，它具有计算简单、对线性光照变化不敏感以及较强的鲁棒性等特性，适用于实时人脸检测。人脸检测是表情识别最为关键一步，检测的结果对接下来的表情识别过程具有重要意义。

OpenCV库中提供了基于LBP特征的级联检测器，通过detectMultiScale方法即可完成检测。下载好OpenCV4Android SDK之后，可以在它的sdk/etc目录下找到lbpcascades文件夹，里面存有lbpcascade_frontalface.xml文件，导入LBP 检测器代码如下所示：

String modelName＝MyUtils.copyFile(this,"lbpcascade_frontalface.xml","model")；

cascadeClassifier＝new CascadeClassifier(modelName)；

初始化加载之后，就可以调用detectMultiScale方法设置好的相关参数以实现人脸检测，代码如下所示：

cascadeClassifier.detectMultiScale(mGray,matOfRect,1.1,5,0

,new org.opencv.core.Size(100,100)

,new org.opencv.core.Size(1000,1000))；

定义一个faces集合用于存储检测到的人脸图像，并将人脸图像保存为 faceMat2对象，然后将人脸图像存储为bitmap类，如下所示：

Mat faceMat2＝new Mat()；

Imgproc.resize(face,faceMat2,new Size(INPUT_SIZE,INPUT_SIZE))；

Bitmap bitmap＝Bitmap.createBitmap(INPUT_SIZE,INPUT_SIZE,Bitmap.Config.ARGB_8888)；

Utils.matToBitmap(faceMat2,bitmap)；

④人脸属性识别

定义人脸、表情、性别、年龄四个classifier分类器，分类器中包含上面 3)导入的4个pb模型和txt标签文件。首先将上面③中人脸检测保存的bitmap 类送入人脸识别分类器进行人脸识别，并将识别结果保存到results1中，若results1为家人，则将bitmap类送入表情分类器进行表情识别，表情识别结果保存为results2；若results1为陌生人，则把bitmap类分别送入性别、年龄分类器进行性别、年龄识别。把识别结果以及存到results3、results4中，最后将各个results结果呈现在APP的结果区域resultsView中。

⑤多人脸属性决策处理

首先准备一段报警音乐，文件名为ALARM.mp3，将其放在深度学习模型所在的文件下，方便对其进行调用和封装，即assets文件夹。接下来对主程序文件中加入下面这段代码：

SoundUtils soundUtils；//声音播放

目的是调用声音播放的子程序文件SoundUtils.java，在这个子程序文件主要是定义了音乐播放的频率、时间、音量等参数。接下来初始化声音播放，并且定义声音文件的路径：

soundUtils.openFile(this,"sound/ALARM.mp3",null)；//初始化声音播放

接下来需要对声音文件添加权限，让手机设备允许访问声音文件，代码如下：

接下来需要定义检测到“悲伤”和“陌生人”报警的关键程序，需要在表情识别和人脸识别的程序段中进行添加，主要代码如下所示：

添加完以上主要的代码后，运行程序，只要检测到有“悲伤”表情或者“陌生人”出现，系统便播放告警提示音，为及时防范和处理可能的安全隐患提供支持。

本发明从客户端出发，在智能手机普及的今天，智能手机用户通过本发明都能实现实时的家居环境人脸属性识别功能，为用户提供了极大的便利条件；

本发明不需要访问服务器，改变了传统智能家居的服务器识别并将识别结果返回给用户的识别方式，变为将轻量级识别模型移植到移动端设备上，在移动端设备完成识别功能，实时性好，同时本发明也不需要连接服务器上的数据库，因此可扩展性很好；

本发明采用了轻量级识别模型mini_Xception，占用空间少，识别准确率高，且识别速率快。

本发明可以对人脸的多种属性进行识别，能够对识别到的不同人脸属性做出相应的决策，使得系统更加的灵活。

Claims

1.一种家居环境中基于深度学习的移动端人脸属性识别方法，其特征是，所述方法由数据采集端、以WIFI路由器和互联网云端为核心的传输装置、以安卓手机和人脸属性识别APP为核心的识别终端组成识别系统，安卓手机人脸属性识别APP通过Vitamio框架获取图像采集端采集的远程视频数据，利用OpenCV3.4.1库里自带的LBP人脸检测器对获取到的远程视频进行人脸检测，利用人脸属性识别终端提供的轻量级mini_Xception深度学习识别模型对检测到的人脸进行人脸属性识别，并对异常表情和陌生人的出现给与及时告警提醒。

2.根据权利要求1所述的一种家居环境中基于深度学习的移动端人脸属性识别方法，其特征是，所述方法包括以下步骤：

a.数据集准备

收集家人的人脸数据制作人脸数据集，并进一步通过搜索引擎以及利用公共数据集方式制作表情数据集、性别数据集和年龄数据集；

b.人脸属性识别网络训练与模型建立

用人脸识别数据集、表情数据集、性别数据集和年龄数据集对mini_Xception网络进行训练，得到四个训练好的.hdf5格式的模型文件；

c.识别模型移植

将四个训练好的.hdf5格式的模型文件转换为安卓手机支持的.pb文件，然后将生成的四个.pb模型文件以及对应的标签文件放到安卓手机中工程的asset文件夹下，完成模型的移植；

d.移动端人脸属性识别

②视频数据预处理

③人脸检测

④人脸属性识别

定义人脸、表情、性别、年龄四个classifier分类器，分类器中包含步骤c中导入的四个.pb模型文件以及对应的标签文件，首先将检测到的人脸送入人脸识别分类器进行人脸识别，若人脸识别分类器判断该人脸为家人，则将该人脸送入表情分类器进行表情识别；若人脸分类器判断该人脸为陌生人，则将该人脸送入性别、年龄分类器进行性别、年龄识别；

⑤多人脸属性决策处理

3.根据权利要求2所述的一种家居环境中基于深度学习的移动端人脸属性识别方法，其特征是，所述表情分类器只完成三类表情的识别，分别为悲伤、平静、高兴。

4.根据权利要求3所述的一种家居环境中基于深度学习的移动端人脸属性识别方法，其特征是，所述年龄分类器将年龄分为8类，分别为0～2岁、4～6岁、8～13岁、15～20岁、25～32岁、38～43岁、48～53岁和60岁以上。

5.根据权利要求4所述的一种家居环境中基于深度学习的移动端人脸属性识别方法，其特征是，所述数据采集端为高清网络摄像机。