CN111639577A

CN111639577A - 一种监控视频多人人脸检测和表情识别方法

Info

Publication number: CN111639577A
Application number: CN202010450226.7A
Authority: CN
Inventors: 钱学明; 文天成; 侯兴松; 邹屹洋
Original assignee: Taizhou Zhibi'an Technology Co ltd
Current assignee: Taizhou Zhibi'an Technology Co ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-09-08

Abstract

本发明公开一种监控视频多人人脸检测和表情识别方法：通过监控摄像头获取监控视频数据，标注形成样本集；基于公开标准数据集和采集得到的数据集训练得到人脸检测模型和表情识别模型；从摄像头实时读取监控视频，对每帧图像进行放缩处理后送入人脸检测模型；对检测模型的输出进行解码处理，找到每个人脸在视频帧中的具体位置；从视频帧裁剪出人脸，进行尺度变换并变换到灰度空间；通过面部关键点的位置变化对人脸图像进行仿射变换，以达到姿态矫正的效果；处理后的人脸以组为单位送入表情识别模型进行分类。本发明显著降低了错检、漏检概率，提升了算法运行速度，通过检测与识别相结合的方式，实时地对监控视频中的多人进行面部表情分析。

Description

一种监控视频多人人脸检测和表情识别方法

技术领域

本发明属于计算机数字图像处理与模式识别技术领域，特别涉及一种针对监控视频数据的多人人脸检测和表情识别方法。

背景技术

随着技术发展和社会进步，监控摄像头在日常生活中越来越常见，绝大多数公共场所都存在着大量监控场景，对维持日常秩序和社会公共安全有着重要作用。对人脸信息的分析是监控数据中基础且关键的内容。通过对监控视频进行人脸检测并做表情分析，在很多场景下都有重要的现实意义。比如，教室内的监控视频的人脸检测和表情识别可以辅助评估学生学习状态；演艺场所、球场的监控视频中的人脸表情可以辅助评估演出或比赛质量；地铁站、大型购物商场等场所的监控视频，其中的人脸表情信息可以辅助监测异常事件。

公开号为CN110533004A的中国专利申请提出了一种基于深度学习的复杂场景人脸识别系统，公开号为CN109858388A的中国专利申请公开了一种智慧旅游管理系统，这两份专利申请中，人脸检测部分基于Faster-RCNN网络实现，通过候选区域滑窗来检测人脸位置，公开号为CN110569809A的中国专利申请提出了一种基于深度学习的煤矿动态人脸识别考勤方法及系统，其人脸检测功能通过遍历8种尺度的锚点窗口生成和确定人脸候选区域，再进行人脸和背景的二分类，上述人脸检测方法都属于滑窗生成候选区域的检测方法，该方法在密集场景下的多人脸检测任务中存在帧率较低、易漏检的问题。

公开号为CN110580461A的中国专利申请公开了一种结合多级卷积特征金字塔的人脸表情识别算法，通过多级神经网络和区域注意力机制实现表情识别；公开号为CN110532940A的中国专利申请公开了一种人脸表情识别方法，通过卷积神经网络提取特征，进行降维处理后进行分类。

使用深度卷积神经网络进行人脸检测和表情识别具有优越的性能。其主要思路是建立图像的高级特征与人脸位置、表情类别之间的联系，这个过程是神经网络训练过程中自动进行的，保证了所使用的高级特征是最适合对应任务的。

当前主要的人脸检测和表情识别技术的主要缺陷在于：一是复杂密集场景下，人脸的尺度在监控数据中占比很小，且存在遮挡、角度等现象，影响了人脸检测和表情识别的准确性；二是神经网络大量的计算和有限的计算资源之间的矛盾，尤其在人脸目标较多的情况下，实时地处理监控视频数据成为严峻的挑战。

发明内容

本发明的目的在于提供一种监控视频多人人脸检测和表情识别方法，能够实时地从监控视频中检测人脸，获得每个人脸的位置，并进一步对表情进行实时识别，判断每帧图像每个人脸的表情类别。

为了实现上述目的，本发明采用如下技术方案：

一种监控视频多人人脸检测和表情识别方法，包括以下步骤：

步骤1、采集监控视频数据，标注人脸位置和对应表情，形成检测样本集和表情分类样本集；

步骤2、构建用于进行人脸检测的卷积神经网络，先后使用公开标准数据集ILSVRC-2012和WIDER FACE进行预训练，然后使用检测样本集微调训练，保存模型结构和参数，获得训练好的人脸检测模型；

步骤3、构建用于进行表情识别的卷积神经网络，采用的神经网络为VGGNet或ResNet；先后使用公开标准数据集ILSVRC-2012和FER+2013进行预训练，然后使用表情分类样本集微调训练，保存模型结构和参数，获得训练好的表情识别模型；

步骤4、从摄像头设备读入视频流，逐帧地按比例缩放；

步骤5、使用步骤2训练好的人脸检测模型对步骤4缩放的视频帧进行检测，得到视频中的人脸区域；

步骤6、将检测到的人脸数据从视频中裁切出来，按比例缩放并转换为灰度数据，根据面部关键点坐标进行仿射变换；

步骤7、使用步骤3训练好的表情识别模型对灰度人脸图像进行分类，得到同一帧每个人脸的表情信息。

进一步的，步骤1在适配监控摄像头的数据上进行人工标注，人脸位置信息为边界框的坐标，人脸表情信息为灰度图像数据，包括：正常、高兴、惊讶、伤心、轻蔑五种表情。

进一步的，步骤2使用深度卷积神经网络为基本框架，构建无候选区域的检测算法。

进一步的，步骤3中使用FER+2013数据剔除愤怒、恐惧、恶心表情。

进一步的，步骤4对读入视频帧进行等比例缩放，将长、宽尺寸处理为32像素的整数倍，其步骤包括：

4.1)、确定读入视频帧的尺寸(w_i，h_i)和缩放后的视频帧尺寸(w_o，h_o)，w_i表示读入视频帧的宽度，h_i表示读入视频的高度，w_o表示缩放视频帧的宽度，h_o表示缩放视频的高度，单位均为像素；

4.2)、使用公式1，将(w_o，h_o)约束到32像素的整数倍；

4.3)、将读入视频帧下采样到(w′_o，h′_o)的尺寸。

进一步的，步骤5中将步骤4预处理后的三通道的图像数据按照红色通道、绿色通道、蓝色通道的顺序存储在一片连续的内存中，再作为人脸检测模型的输入。

进一步的，步骤5的人脸检测模型输出四项数据：人脸位置的热力图、尺度、偏置、面部关键点的坐标，从这四项数据计算得到人脸区域的步骤如下：

5.1)、找到热力图中最大值所在的坐标(c_x，c_y)、对应的尺度(s_x，s_y)、对应的偏置(o_x，o_y)；

5.2)、使用公式2和公式3计算人脸框的左上角点坐标(x₁，y₁)，使用公式4和公式5计算人脸框右下角点坐标(x₂，y₂)；

x₁＝(c_x+o_x+0.5)×4-s_x/2 公式2

y₁＝(c_y+o_y+0.5)×4-s_y/2 公式3

x₂＝x₁+s_x 公式4

y₂＝y₁+s_y 公式5。

进一步的，步骤6对切割出的人脸区域缩放至64×64像素大小，并通过仿射变换进行姿态矫正，步骤如下：

6.1)、定义64×64像素大小下一般人脸的关键点坐标信息n，n是5行2列的矩阵；

6.2)、根据人脸检测模型输出的面部关键点坐标和n计算得到仿射变换矩阵A，A是2行3列的矩阵；

6.3)、对切割出的人脸缩放至64×64像素大小，并做仿射变换，变换矩阵为A，记变换前的像素坐标为(x，y)，变换后的坐标为(x′，y′)，(x′，y′)通过公式6计算：

进一步的，步骤7每一次表情识别模型预测接收多个人脸输入数据，指定输入数量N，对人脸检测结果以N为大小分组，不足N的组使用同样大小的空白图像补足；N为正整数。

相比较现有技术，本发明具有以下有益效果：

本发明是一种面向监控视频的多人人脸检测和表情识别方法：通过监控摄像头获取监控视频数据，标注形成数据集；基于公开标准数据集和采集得到的数据集训练得到人脸检测模型和表情识别模型；从摄像头实时读取监控视频，对每帧图像进行放缩处理；将处理后的图像送入人脸检测模型；对检测模型的输出进行解码处理，找到每个人脸在视频帧中的具体位置；从视频帧裁剪出人脸，进行尺度变换并变换到灰度空间；通过面部关键点的位置变化对人脸图像进行仿射变换，以达到姿态矫正的效果。处理后的人脸以组为单位送入表情识别模型进行分类。

本发明显著降低了错检、漏检概率，提升了算法运行速度，通过检测与识别相结合的方式，实时地对监控视频中的多人进行面部表情分析，可以应用于课堂学生学习状态评估；比赛、演出的观众反响评估；地铁站、大型购物商场等场所的异常事件监测等应用场景中。

附图说明

图1是本发明的总体步骤示意图；

图2是监控视频数据实例图片；

图3是监控视频数据集标注实例图片；

图4是对输入图像数据结构进行处理的示意图；

图5是人脸姿态矫正的示意图；

图6是绘制人脸检测和表情识别结果的监控视频示例。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施用于说明本发明，但不用来限制本发明的范围。

请参阅图1所示，本发明所提出的一种监控视频多人人脸检测和表情识别方法，包括如下步骤：

步骤1：采集监控视频数据，标注人脸位置和对应表情，形成样本集：

从监控摄像头采集图像数据，图像如图2所示。对图2中出现的人脸，人工标注其人脸框和5个面部关键点(左眼、右眼、鼻子、左嘴角、右嘴角)形成检测样本集，如图3所示。对头部角度、姿势过大，缺乏3个以上面部关键点的人脸不进行标注，比如图3中右侧第一排的两人。另一方面，按照标注人脸框将人脸裁剪出来并处理为灰度图，作为表情识别模型的训练数据，手动为每个人脸标注其表情，表情类别共分：正常、高兴、惊讶、伤心、轻蔑五种；形成表情分类样本集。

步骤2：构建和训练人脸检测模型

使用深度卷积神经网络为基本框架，构建无候选区域的检测算法。

2.1、先使用公开数据集ILSVRC-2012训练MobileNetV2的主干框架；

2.2、再使用WIDERFACE数据集训练整个检测网络；

2.3、最后，利用步骤1得到的人脸检测数据集进行训练，获得训练好的人脸检测模型。

具体地，人脸检测模型使用/训练时，使用MobileNetV2提取图像特征，并将8倍、16倍、32倍下采样得到的特征图进行融合，在融合特征图上进一步预测人脸中心位置、人脸框的长和宽、面部的关键点坐标。

训练依据的损失函数包括判断是否为人脸的交叉熵损失、对人脸中心点坐标的回归损失、对人脸框长和宽的回归损失、对5个面部关键点坐标的回归损失。

步骤3：构建和训练表情识别模型：

使用深度卷积神经网络实现表情识别模型，可选模型结构有VGG Net、ResNet。

具体地，先使用公开数据集ILSVRC-2012训练识别网络，再使用FER+2013数据集训练识别网络，FER+2013数据剔除愤怒、恐惧、恶心表情类别，使之更符合我国人群的表情分布，减少结果的跳变。

最后，使用步骤1得到的表情分类样本集训练识别模型的全连接层，获得训练好的表情识别模型。

损失函数始终为分类交叉熵损失函数。

步骤4：从摄像头设备读入视频帧并做预处理：

对读入视频帧进行等比例缩放，将长、宽尺寸处理为32像素的整数倍，其步骤包括：

(1)确定读入视频帧的尺寸(w_i，h_i)和缩放后的视频帧尺寸(w_o，h_o)，w_i表示读入视频帧的宽度，h_i表示读入视频的高度，w_o表示缩放视频帧的宽度，h_o表示缩放视频的高度，单位均为像素；

(2)使用公式1，将(w_o，h_o)约束到32像素的整数倍；

(3)将读入视频帧下采样到(w′_o，h′_o)的尺寸。

步骤5：对预处理的图像做人脸检测：

将步骤4预处理后的三通道的图像数据按照红色通道、绿色通道、蓝色通道的顺序存储在一片连续的内存中，再作为步骤2训练好的人脸检测模型的输入。如图4所示。人脸检测模型输出四项数据：人脸位置的热力图、尺度、偏置、面部关键点的坐标，从这四项数据计算得到人脸区域的步骤如下：

(1)找到热力图中最大值所在的坐标(c_x，c_y)、对应的尺度(s_x，s_y)、对应的偏置(o_x，o_y)；

(2)使用公式2和公式3计算人脸框的左上角点坐标(x₁，y₁)，使用公式4和公式5计算人脸框右下角点坐标(x₂，y₂)；

x₁＝(c_x+o_x+0.5)×4-s_x/2 公式2

y₁＝(c_y+o_y+0.5)×4-s_y/2 公式3

x₂＝x₁+s_x 公式4

y₂＝y₁+s_y 公式5

步骤6：根据检测结果切割人脸图像：

将步骤4预处理后的原图处理成灰度图像，再根据步骤5的人脸检测结果从灰度图像切割出人脸。对切割出的人脸区域缩放至64×64像素大小，并通过仿射变换进行姿态矫正，如图5所示，其步骤如下：

定义64×64像素大小下一般人脸的关键点坐标信息n，n是5行2列的矩阵；

根据人脸检测模型输出的面部关键点坐标和n计算得到仿射变换矩阵A，A是2行3列的矩阵；

对切割出的人脸缩放至64×64像素大小，并做仿射变换，变换矩阵为A，记变换前的像素坐标为(x，y)，变换后的坐标为(x′，y′)，(x′，y′)通过公式6计算。

步骤7：对人脸图像做表情识别：

每一次识别模型预测接收多个人脸输入数据，指定输入数量N，对人脸检测结果以N为大小分组，不足N的组使用同样大小的空白图像补足。多个人脸图像输入步骤3训练好的表情识别模型，输出每个人脸图像的表情类别。

步骤8：对每一帧视频图像，识别完表情类别后，绘制其人脸框和表情类别，如图6所示。

本发明可以实时处理监控视频，对每一帧图像进行人脸检测和表情识别；人脸检测网络在标准数据集WIDERFACE的均值平均精度达到了92％(Easy)、91％(Medium)、87％(Hard)的性能，且在采集的监控视频数据中取得低于1％的误检、漏检概率；表情识别网络在FER+2013数据集上的准确率达到了81％，在采集的监控视频数据中达到了85％的准确率；通过网络结构的轻量化设计和C++框架部署的处理方式，在分辨率为1920×1080，平均包含20-30人的监控视频中达到每秒25帧以上的帧率。相比现有方法，本发明显著降低了误检、漏检情况，提升了处理高分辨率监控视频的效率，且可以实时并行地处理多个人脸的表情识别。

本发明跳出传统卷积神经网络的多候选窗口监测方案，使用先进的无候选区域的检测方式，且将人脸检测和表情识别贯通部署，并行处理表情识别任务，提出了一种面向监控视频的多人人脸检测与表情识别方法，可以应用于课堂学生学习状态评估；比赛、演出的观众反响评估；地铁站、大型购物商场等场所的异常事件监测等应用场景中。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以提出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种监控视频多人人脸检测和表情识别方法，其特征在于，包括以下步骤：

步骤4、从摄像头设备读入视频流，逐帧地按比例缩放；

2.根据权利要求1所述的一种监控视频多人人脸检测和表情识别方法，其特征在于，步骤1在适配监控摄像头的数据上进行人工标注，人脸位置信息为边界框的坐标，人脸表情信息为灰度图像数据，包括：正常、高兴、惊讶、伤心、轻蔑五种表情。

3.根据权利要求1所述的一种监控视频多人人脸检测和表情识别方法，其特征在于，步骤2使用深度卷积神经网络为基本框架，构建无候选区域的检测算法。

4.根据权利要求1所述的一种监控视频多人人脸检测和表情识别方法，其特征在于，步骤3中使用FER+2013数据剔除愤怒、恐惧、恶心表情。

5.根据权利要求1所述的一种监控视频多人人脸检测和表情识别方法，其特征在于，步骤4对读入视频帧进行等比例缩放，将长、宽尺寸处理为32像素的整数倍，其步骤包括：

4.2)、使用公式1，将(w_o，h_o)约束到32像素的整数倍；

4.3)、将读入视频帧下采样到(w′_o，h′_o)的尺寸。

6.根据权利要求1所述的一种监控视频多人人脸检测和表情识别方法，其特征在于，步骤5中将步骤4预处理后的三通道的图像数据按照红色通道、绿色通道、蓝色通道的顺序存储在一片连续的内存中，再作为人脸检测模型的输入。

7.根据权利要求1所述的一种监控视频多人人脸检测和表情识别方法，其特征在于，步骤5的人脸检测模型输出四项数据：人脸位置的热力图、尺度、偏置、面部关键点的坐标，从这四项数据计算得到人脸区域的步骤如下：

x₁＝(c_x+o_x+0.5)×4-s_x/2 公式2

y₁＝(c_y+o_y+0.5)×4-s_y/2 公式3

x₂＝x₁+s_x 公式4

y₂＝y₁+s_y 公式5。

8.根据权利要求1所述的一种监控视频多人人脸检测和表情识别方法，其特征在于，步骤6对切割出的人脸区域缩放至64×64像素大小，并通过仿射变换进行姿态矫正，步骤如下：

6.1)、定义64×64像素大小下一般人脸的关键点坐标信息n,n是5行2列的矩阵；

9.根据权利要求1所述的一种监控视频多人人脸检测和表情识别方法，其特征在于，步骤7每一次表情识别模型预测接收多个人脸输入数据，指定输入数量N，对人脸检测结果以N为大小分组，不足N的组使用同样大小的空白图像补足；N为正整数。