CN109670429A

CN109670429A - 一种基于实例分割的监控视频多目标人脸检测方法及系统

Info

Publication number: CN109670429A
Application number: CN201811504897.6A
Authority: CN
Inventors: 林凯瀚; 赵慧民; 吕巨建; 詹瑾; 陈荣军
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2019-04-23
Anticipated expiration: 2038-12-10
Also published as: CN109670429B

Abstract

本发明公开了一种基于实例分割的监控视频多目标人脸检测方法及系统，其中，所述方法包括：采集待训练的人脸图像数据集，基于标注工具对人脸图像数据集进行标注，获取训练数据集；基于监控设备条件设置用于训练人脸检测系统的模型参数；基于标记后的人脸图像数据集和模型参数对所述人脸检测系统进行训练，获取训练后的人脸检测系统；将监控视频中的每一帧图像输入训练后的人脸检测系统中，对输入的每一帧图像进行多目标人脸检测，获取检测结果。在本发明实施例中，提高了对人脸目标图像的识别准确率。

Description

一种基于实例分割的监控视频多目标人脸检测方法及系统

技术领域

本发明涉及多目标人脸检测技术领域，尤其涉及一种基于实例分割的监控视频多目标人脸检测方法及系统。

背景技术

随着科技的迅速发展，生物特征(人脸、指纹、虹膜等)检测识别技术被广泛应用于安防监控、身份认证、信息安全等领域，其中多目标人脸检测技术是生物特征检测识别技术领域的一个主流研究方向；在安防监控领域，有文献表明，专业人员在监视两个监视画面的情况下，22分钟后将会错过95％的监控画面中的行为；而多目标人脸检测技术在安防监控的应用可以达到解放人力、提高检测准确率的效果；此外，通过多目标人脸检测技术检测到的人脸图像，可通过图像处理技术(如：跟踪、重构、识别等)，从监控视频中获得更为重要的信息；因此，多目标人脸检测技术在安防监控领域有很好的应用价值。

现阶段的多目标人脸检测技术主要包括基于传统机器学习算法的人脸检测方法和基于深度学习的人脸检测方法；基于传统机器学习的人脸检测算法多是基于滑动窗口的框架或是根据特征点进行匹配，具有明显的速度优势；而基于深度学习的人脸检测方法主要是利用卷积神经网络进行特征提取，在准确率及多目标检测方面具有很好的实现效果，并且相对于传统的机器学习算法能够以较少的时间花费换取大幅度的准确率提升，因此基于深度学习的人脸检测算法已成为多目标人脸检测的主流研究方向。

现有的多目标人脸检测算法主要实现了人脸的检测及人脸目标框的定位，其提取的人脸目标特征维度大，空间量化较为粗糙，无法准确定位，具有一定的背景噪声，不利于进一步的图像处理，导致部分高效、实用的图像处理技术(如：人脸图像超分辨率重构、人脸图像矫正等)在监控视频上的应用难以实现。因此，急需一种面向监控视频的多目标人脸检测分割方法。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于实例分割的监控视频多目标人脸检测方法及系统，减少训练时间，提高了对人脸目标图像的识别准确率，能够在复杂的监控画面上获取精确的人脸信息，将为监控视频的人脸图像超分辨率重构、人脸图像矫正等技术提供了一种新思路。

为了解决上述技术问题，本发明实施例提供了一种基于实例分割的监控视频多目标人脸检测方法，所述方法包括：

采集待训练的人脸图像数据集，基于标注工具对人脸图像数据集进行标注，获取训练数据集；

基于监控设备条件设置用于训练人脸检测系统的模型参数；

基于标记后的人脸图像数据集和模型参数对所述人脸检测系统进行训练，获取训练后的人脸检测系统；

将监控视频中的每一帧图像输入训练后的人脸检测系统中，对输入的每一帧图像进行多目标人脸检测，获取检测结果。

可选的，所述基于标注工具对人脸图像数据集进行标注，包括：

基于最近邻域差值算法将所述人脸图像数据集中的图像放缩至统一的尺寸；

基于所述标注工具对尺寸统一的人脸图像数据集中绘出人脸图像的二值掩码和目标的类别进行标注，获取标注人脸图像数据集；

将所述人脸图像数据集保存至Image文件，将所述标注人脸图像数据集保存至JSON文件中；所述JSON文件为标注文件信息的存储格式文件，所述JSON文件包括图像的尺寸信息、各点的位置信息和标签信息。

可选的，所述基于监控设备条件设置用于训练人脸检测系统的模型参数，包括：

设置模型图像规格大小，使所述模型图像与所述人脸图像数据集中的图像大小相同；

基于监控设备条件设置GPU数目，所述人脸检测系统的训练类别标签、迭代次数和学习率；

设置训练数据集的路径，将训练数据集导入待训练的人脸检测系统。

可选的，所述基于标记后的人脸图像数据集和模型参数对所述人脸检测系统进行训练，获取训练后的人脸检测系统，包括：

基于COCO物体检测数据集预训练所述人脸检测系统，对所述人脸检测系统进行泛化，初始化所述人脸检测系统的系统参数；

将所述训练数据集输入所述泛化的人脸检测系统；

基于卷积神经网络对输入的训练数据集中的每一张图像进行特征提取，获取特征图像；

基于区域建议网络对所述特征图像生成候选区域，获取候选区域特征图像；

对候选区域特征图像进行候选区域匹配，获得固定尺寸的特征图像；

将所述固定尺寸的特征图像输入分类分支和二值掩码分支，进行人脸图像的目标框定位、分类并描绘出对应的二值掩码，获得特征图像中人脸图像的目标框和二值掩码；

根据所述特征图像中人脸图像的目标框和二值掩码进行掩码占比计算，获取占比结果；

对每个候选区域设置损失函数；

基于所述模型参数对所述人脸检测系统进行迭代训练，并根据训练过程调整学习率和迭代次数，获取训练后的人脸检测系统。

可选的，所述对候选区域特征图像进行候选区域匹配，获得固定尺寸的特征图像，包括：

基于双线差值算法对候选区域特征图像进行候选区域匹配，获得固定尺寸的特征图像。

可选的，所述对每个候选区域设置损失函数的损失函数公式为：

L＝L_cls+L_box+L_mask；

其中，L_cls表示分类的损失值，L_box表示定位框的损失值，L_mask表示二值掩码的损失值。

可选的，所述将监控视频中的每一帧图像输入训练后的人脸检测系统中，对输入的每一帧图像进行多目标人脸检测，获取检测结果，包括：

将监控视频中的每一帧图像输入训练后的人脸检测系统中；

基于卷积神经网络对输入的监控视频中的每一帧图像进行特征提取，获取监控特征图像；

基于区域建议网络对所述监控特征图像生成候选区域，获取候选区域监控特征图像；

对候选区域监控特征图像进行候选区域匹配，从所述候选区域监控特征图像中提取固定尺寸的监控特征图像；

将所述固定尺寸的监控特征图像输入分类分支和二值掩码分支，进行人脸图像的目标框定位、分类并描绘出对应的二值掩码，获得监控图像特征中人脸图像的目标框和二值掩码；

基于所述监控图像特征中人脸图像的目标框和二值掩码进行多目标人脸检测，获取检测结果。

可选的，所述基于所述监控图像特征中人脸图像的目标框和二值掩码进行多目标人脸检测，获取检测结果，包括：

根据所述监控图像特征中人脸图像的目标框和二值掩码进行掩码占比计算，获取计算结果；

判断所述计算结果是否大于或等于预设阈值，若是，则检测到的监控图像为人脸目标图像；若否，则检测到的监控图像为非人脸目标图像；

输出检测结果。

另外，本发明实施例还提供了一种基于实例分割的监控视频多目标人脸检测系统，所述系统包括：

训练数据获取模块：用于采集待训练的人脸图像数据集，基于标注工具对人脸图像数据集进行标注，获取训练数据集；

参数设置模块：用于基于监控设备条件设置用于训练人脸检测系统的模型参数；

训练模块：用于基于标记后的人脸图像数据集和模型参数对所述人脸检测系统进行训练，获取训练后的人脸检测系统；

检测模块：用于将监控视频中的每一帧图像输入训练后的人脸检测系统中，对输入的每一帧图像进行多目标人脸检测，获取检测结果。

在本发明实施例中，提高了识别精度，并使多目标人脸检测后图像像素点定位精准度达到像素级，从而满足了实例分割技术对像素点精准度的要求；可以对监控视频的多目标人脸图像进行实例分割，画出人脸二值掩码，将人脸图像与背景图像分割开，从而减少背景噪声的干扰，能够在复杂的监控画面上获取精确的人脸信息；通过MOB(Mask ofbounding box,掩码占比)算法，进行了预测结果的筛选，提高了识别准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于实例分割的监控视频多目标人脸检测方法的流程示意图；

图2是本发明实施例中的检测算法流程图；

图3是本发明实施例中的区域建议网络的流程示意图；

图4是本发明实施例中的候选区域匹配的流程示意图；

图5是本发明实施例中的双线性插值的流程示意图；

图6是本发明实施例中的基于实例分割的监控视频多目标人脸检测系统的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例

请参阅图1，图1是本发明实施例中的基于实例分割的监控视频多目标人脸检测方法的流程示意图。

如图1所示，一种基于实例分割的监控视频多目标人脸检测方法，所述方法包括：

S11：采集待训练的人脸图像数据集，基于标注工具对人脸图像数据集进行标注，获取训练数据集；

在本发明具体实施过程中，所述基于标注工具对人脸图像数据集进行标注，包括：基于最近邻域差值算法将所述人脸图像数据集中的图像放缩至统一的尺寸；基于所述标注工具对尺寸统一的人脸图像数据集中绘出人脸图像的二值掩码和目标的类别进行标注，获取标注人脸图像数据集；将所述人脸图像数据集保存至Image文件，将所述标注人脸图像数据集保存至JSON文件中；所述JSON文件为标注文件信息的存储格式文件，所述JSON文件包括图像的尺寸信息、各点的位置信息和标签信息。

具体的，在多目标人脸数据库中采集待训练的人脸图像数据集，采用最近邻域插值算法将人脸图像数据集中的图像放缩至统一的尺寸，其中公式如下：

其中，缩放前的像素点坐标分别用x_old和y_old表示，图像的高度用h_old表示，宽度用w_old表示，缩放后的像素点坐标分别用x_new和y_new表示，图像的高度用h_new表示，宽度用w_new表示；f(x_old,y_old),f(x_new,y_new)分别表示缩放前后该点的像素值。

基于所述标注工具对尺寸统一的人脸图像数据集中绘出人脸图像的二值掩码和目标的类别进行标注，获取标注人脸图像数据集；利用标注工具对多目标人脸数据集进行标注，绘出人脸图像的二值掩码，对目标的类别进行标注，并最终保存到JSON文件中，JSON文件为标注文件信息存储格式文件，其中包含了图像的尺寸信息、各点的位置信息、标签信息等；将所有的图像存放到文件夹中，并将文件夹名字修改为Image，同理，将所有标注文件存放在新建立的JSON文件夹中，并保证图像命名与标注文件命名相同。

S12：基于监控设备条件设置用于训练人脸检测系统的模型参数；

在本发明具体实施过程中，所述基于监控设备条件设置用于训练人脸检测系统的模型参数，包括：设置模型图像规格大小，使所述模型图像与所述人脸图像数据集中的图像大小相同；基于监控设备条件设置GPU数目，所述人脸检测系统的训练类别标签、迭代次数和学习率；设置训练数据集的路径，将训练数据集导入待训练的人脸检测系统。

具体的，设置图像规格大小，使其与数据集的图像相同；根据监控设备条件，设置GPU数目，训练类别标签、迭代次数及学习率；设置训练数据集的路径，将训练数据集导入待训练的人脸检测系统。

S13：基于标记后的人脸图像数据集和模型参数对所述人脸检测系统进行训练，获取训练后的人脸检测系统；

在本发明具体实施过程中，所述基于标记后的人脸图像数据集和模型参数对所述人脸检测系统进行训练，获取训练后的人脸检测系统，包括：基于COCO物体检测数据集预训练所述人脸检测系统，对所述人脸检测系统进行泛化，初始化所述人脸检测系统的系统参数；将所述训练数据集输入所述泛化的人脸检测系统；基于卷积神经网络对输入的训练数据集中的每一张图像进行特征提取，获取特征图像；基于区域建议网络对所述特征图像生成候选区域，获取候选区域特征图像；对候选区域特征图像进行候选区域匹配，获得固定尺寸的特征图像；将所述固定尺寸的特征图像输入分类分支和二值掩码分支，进行人脸图像的目标框定位、分类并描绘出对应的二值掩码，获得特征图像中人脸图像的目标框和二值掩码；根据所述特征图像中人脸图像的目标框和二值掩码进行掩码占比计算，获取占比结果；对每个候选区域设置损失函数；基于所述模型参数对所述人脸检测系统进行迭代训练，并根据训练过程调整学习率和迭代次数，获取训练后的人脸检测系统。

具体的，利用微软公司发布的COCO物体检测数据集预训练人脸检测系统，对人脸检测系统进行泛化，初始化人脸检测系统，这样子可有有效的减少训练时长，即可实现人脸检测系统的收敛；将训练数据集输入泛化的人脸检测系统；利用卷积神经网络对输入的训练数据集中的每一张图像进行特征提取，获取特征图像；利用RPN(Region ProposalNetwork，区域建议网络)在特征图像上迅速生成候选区域，每张图片生成300个建议候选区域。RPN是通过倍数和长宽比例不同的窗口在特征图上进行滑窗从而提取特征；算法流程如附图3所示，图中背景图像表示经卷积神经网络提取特征后的特征图，虚线表示窗口为基准窗口，基准窗口大小为16个像素点，其包含的三个窗口分别表示长宽比例为0.5、1、2的三种窗口；点划线及实线分别表示8和32像素点大小的窗口，同理，其各有三个长宽比例为0.5、1、2的窗口；RPN利用上述三种倍数和三种比例的共九种尺度的对特征图进行滑窗，当IOU0.5时，认为其为候选框；IOU(Intersection over Union,检测评价函数)计算公式如下：

其中，A,B分别为RPN网络生成的候选框及训练集中正确的目标框，S_A∩B为A、B的相重叠处面积，S_A∪B为A、B并集面积。

进一步的，所述对候选区域特征图像进行候选区域匹配，获得固定尺寸的特征图像，包括：基于双线差值算法对候选区域特征图像进行候选区域匹配，获得固定尺寸的特征图像。

具体的，将卷积神经网络及RPN网络生成的特征图，通过ROIAlign(Region ofInterest Align,候选区域匹配)，得到固定尺寸的特征图输出。ROIAlign算法的流程如附图4所示。其在生成的ROI(Region of Interest，候选区域)特征图上使用双线性插值算法，避免了量化误差，可以使原图像像素与特征图像素相匹配。双线性插值算法公式如下：

对x方向进行线性插值：

当R₁＝(x,y₁)；

当R₂＝(x,y₂)；

再对y方向进行线性插值：

如附图5所示，其中，f(x,y)为待求解点P的像素值，f(Q₁₁)、f(Q₁₂)、f(Q₂₁)、f(Q₂₂)分别为已知四点Q₁₁＝(x₁,y₁),Q₁₂＝(x₁,y₂),Q₂₁＝(x₂,y₁)及Q₂₂＝(x₂,y₂)的像素值，f(R₁)、f(R₂)为x的插值得到的像素值。

将ROIAlign生成的特征图输入分类分支和二值掩码分支，进行人脸的图像的目标框定位、分类并绘出对应的二值掩码；其中，二值掩码是指在图像上对感兴趣区域绘出单一颜色的半透明掩盖膜；而实例分割是指通过二值掩码将感兴趣区域与背景分割开来，并且同类别区域可由不同颜色标记出的一项操作；在分类分支，利用全连接层和Softmax分类器，用于回归更精确的目标检测框并预测每个目标框的所属类别；在二值掩码分支，利用FCN(Fully Convolutional Networks,全卷积网络)，针对每个ROI(候选框)做出了像素级的实例分割；由ROIAlign生成的ROI(候选框)特征图经四层连续卷积运算后进行反卷积操作，然后通过上采样，得到28x28x80的二值掩码，其中28x28为图像规格，80为图像通道数。

进一步的，所述对每个候选区域设置损失函数的损失函数公式为：

L＝L_cls+L_box+L_mask；

具体的，进行预测结果的筛选，通过生成的二值掩码及目标框，计算MOB(Mask ofbounding box,掩码占比)，MOB算法公式如下：

其中，S_mask为预测的二值掩码面积，S_box为预测的候选区域框面积，当MOB≥0.6时认为预测的结果为人脸目标。

对于每个采样的ROI(候选框)设置其损失函数L如下：

L＝L_cls+L_box+L_mask；

根据设置的参数值进行迭代训练，并由训练结果调整学习率和迭代次数，得到较优的训练后的人脸检测系统，保存训练后的人脸检测系统。

S14：将监控视频中的每一帧图像输入训练后的人脸检测系统中，对输入的每一帧图像进行多目标人脸检测，获取检测结果。

在本发明具体实施过程中，所述将监控视频中的每一帧图像输入训练后的人脸检测系统中，对输入的每一帧图像进行多目标人脸检测，获取检测结果，包括：将监控视频中的每一帧图像输入训练后的人脸检测系统中；基于卷积神经网络对输入的监控视频中的每一帧图像进行特征提取，获取监控特征图像；基于区域建议网络对所述监控特征图像生成候选区域，获取候选区域监控特征图像；对候选区域监控特征图像进行候选区域匹配，从所述候选区域监控特征图像中提取固定尺寸的监控特征图像；将所述固定尺寸的监控特征图像输入分类分支和二值掩码分支，进行人脸图像的目标框定位、分类并描绘出对应的二值掩码，获得监控图像特征中人脸图像的目标框和二值掩码；基于所述监控图像特征中人脸图像的目标框和二值掩码进行多目标人脸检测，获取检测结果。

具体的，算法整体流程如附图2所示；首先将监控视频每帧图像传入已训练的检测系统，通过卷积神经网络对整张图像进行特征的提取，得到对应的特征图，利用RPN(RegionProposal Network，区域建议网络)在特征图上迅速生成候选区域，再通过ROIAlign(Region of Interest Align,候选区域匹配)，得到固定尺寸的特征图输出，然后在分类分支做出目标框的定位及分类，在掩码分支通过全卷积网络对人脸图像绘出相应的二值掩码，最后输出系统预测的图像。

具体的，输入监控视频每帧图像；利用卷积神经网络对整张图像进行特征的提取；利用RPN(区域建议网络)在特征图上生成候选区域；通过ROIAlign(候选区域匹配)从每个ROI提取小特征图；将ROIAlign生成的特征图输入分类分支和二值掩码分支，进行人脸的图像的目标框定位和分类，并在掩码分支通过全卷积网络对人脸图像绘出相应的二值掩码；进行预测结果的筛选，通过生成的二值掩码及目标框，计算MOB，当MOB≥0.6时，认为预测的结果为人脸目标，最后输出系统预测的图像。

进一步的，所述基于所述监控图像特征中人脸图像的目标框和二值掩码进行多目标人脸检测，获取检测结果，包括：根据所述监控图像特征中人脸图像的目标框和二值掩码进行掩码占比计算，获取计算结果；判断所述计算结果是否大于或等于预设阈值，若是，则检测到的监控图像为人脸目标图像；若否，则检测到的监控图像为非人脸目标图像；输出检测结果。

具体的，本发明在公开数据集ChokePoint监控人脸数据集做了测试实验(ChokePoint是为研究人脸检测、识别任务所开发的公开数据集，该数据集利用监控摄像头采集了29个人通过门口时的视频数据)，实验准确率可达98.57％，其中预设阈值为0.6，可以看出本发明实现了精准的多目标人脸的检测及实例分割效果。

实施例

请参阅图6，图6是本发明实施例中的基于实例分割的监控视频多目标人脸检测系统的结构组成示意图。

如图6所示，一种基于实例分割的监控视频多目标人脸检测系统，所述系统包括：

训练数据获取模块11：用于采集待训练的人脸图像数据集，基于标注工具对人脸图像数据集进行标注，获取训练数据集；

参数设置模块12：用于基于监控设备条件设置用于训练人脸检测系统的模型参数；

训练模块13：用于基于标记后的人脸图像数据集和模型参数对所述人脸检测系统进行训练，获取训练后的人脸检测系统；

对x方向进行线性插值：

当R₁＝(x,y₁)；

当R₂＝(x,y₂)；

再对y方向进行线性插值：

L＝L_cls+L_box+L_mask；

对于每个采样的ROI(候选框)设置其损失函数L如下：

L＝L_cls+L_box+L_mask；

检测模块14：用于将监控视频中的每一帧图像输入训练后的人脸检测系统中，对输入的每一帧图像进行多目标人脸检测，获取检测结果。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于实例分割的监控视频多目标人脸检测方法及系统进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于实例分割的监控视频多目标人脸检测方法，其特征在于，所述方法包括：

基于监控设备条件设置用于训练人脸检测系统的模型参数；

2.根据权利要求1所述的监控视频多目标人脸检测方法，其特征在于，所述基于标注工具对人脸图像数据集进行标注，包括：

3.根据权利要求1所述的监控视频多目标人脸检测方法，其特征在于，所述基于监控设备条件设置用于训练人脸检测系统的模型参数，包括：

4.根据权利要求1所述的监控视频多目标人脸检测方法，其特征在于，所述基于标记后的人脸图像数据集和模型参数对所述人脸检测系统进行训练，获取训练后的人脸检测系统，包括：

将所述训练数据集输入所述泛化的人脸检测系统；

对每个候选区域设置损失函数；

5.根据权利要求4所述的监控视频多目标人脸检测方法，其特征在于，所述对候选区域特征图像进行候选区域匹配，获得固定尺寸的特征图像，包括：

6.根据权利要求4所述的监控视频多目标人脸检测方法，其特征在于，所述对每个候选区域设置损失函数的损失函数公式为：

L＝L_cls+L_box+L_mask；

7.根据权利要求1所述的监控视频多目标人脸检测方法，其特征在于，所述将监控视频中的每一帧图像输入训练后的人脸检测系统中，对输入的每一帧图像进行多目标人脸检测，获取检测结果，包括：

将监控视频中的每一帧图像输入训练后的人脸检测系统中；

8.根据权利要求7所述的监控视频多目标人脸检测方法，其特征在于，所述基于所述监控图像特征中人脸图像的目标框和二值掩码进行多目标人脸检测，获取检测结果，包括：

输出检测结果。

9.一种基于实例分割的监控视频多目标人脸检测系统，其特征在于，所述系统包括：