CN111738099B

CN111738099B - 基于视频图像场景理解的人脸自动检测方法

Info

Publication number: CN111738099B
Application number: CN202010481014.5A
Authority: CN
Inventors: 黄翰; 阮子琦; 李刚; 杨忠明; 郝志峰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-05-30
Filing date: 2020-05-30
Publication date: 2023-11-07
Anticipated expiration: 2040-05-30
Also published as: CN111738099A

Abstract

本发明提供基于视频图像场景理解的人脸自动检测方法，包括：收集人脸图片数据，进行数据标定，整理为远景人脸数据集和近景人脸数据集；基于Resnet和特征金字塔网络，搭建基于注意力机制的人脸检测神经网络；使用远景人脸数据集和近景人脸数据集分别在所述人脸检测神经网络中训练模型，得到远景人脸检测模型和近景人脸检测模型；基于对特定场景的理解，采用远景人脸检测模型和近景人脸检测模型，实现根据场景进行人脸检测。本发明通过在深度卷积神经网络中嵌入注意力机制，可以有效适应远近景条件下人脸的光照、角度、表情等变化。其次，本发明通过结合远景和近景特征不同的特性，分别训练两个模型进行检测，可以有效提高人脸检测的效果。

Description

基于视频图像场景理解的人脸自动检测方法

技术领域

本发明属于人脸检测领域，具体涉及基于视频图像场景理解的人脸自动检测方法。

背景技术

人脸检测是物体检测的一个重要的分支，是人脸识别、表情识别等技术流程的前提保证。近年来，人脸识别等技术越来越广泛地用在实际生活中，由于实际场景复杂多变，人脸检测的技术要求也越来越高。如何快速准确地检测出人脸，成为了大家共同关注的问题。对于检测领域，主要有两类的解决方案。一种是单阶段的检测，直接对目标的位置进行回归预测，该方法速度快，但是准确率相对偏低；另一种是双阶段的检测，首先对目标的候选区域进行预测，然后再对候选区域进行分类判定，这种方法准确率高，但是速度相对偏低。

目前市面上的人脸检测算法，在面对检测任务时受像素大小、模糊、侧脸等因素的限制，往往无法同时兼顾远景人脸和近景人脸的检测。

发明内容

本发明针对目前人脸检测方法的不足，提供了基于视频图像场景理解的人脸自动检测方法。本发明的目的在于检测出图片中存在的人脸。实现该方案需要两个部分，一是使用大量数据集训练远景人脸检测模型和近景人脸检测模型，二是综合使用两个模型进行人脸检测。

本发明目的通过至少如下方案之一实现。

基于视频图像场景理解的人脸自动检测方法，包括以下步骤：

收集人脸图片数据，进行数据标定，划分为远景人脸数据集和近景人脸数据集；

基于Resnet和特征金字塔网络，搭建基于注意力机制的人脸检测神经网络；

使用远景人脸数据集和近景人脸数据集分别在所述人脸检测神经网络中训练模型，得到远景人脸检测模型和近景人脸检测模型；

根据不同的测试场景设置不同的阈值，采用远景人脸检测模型和近景人脸检测模型，实现根据场景进行人脸检测。

上述方案中，所述进行数据标定，划分为远景人脸数据集和近景人脸数据集，具体包括：使用矩形框对人脸进行标定，同时记录每个矩形框的左上角和右下角坐标为(x₁，y₁)、(x₂，y₂)，计算出人脸框的宽高值分别为w、h,其中w＝|x₁-x₂|，h＝|y₁-y₂|，统计测试场景中的人脸的宽高范围，分别取宽高范围的中间值为W、H，将矩形框宽高值满足w<W且h<H的图片归为远景人脸数据集，其余的归为近景人脸数据集。

上述方案中，在搭建所述基于注意力机制的人脸检测神经网络前分别对远景人脸数据集和近景人脸数据集进行数据增广，所述数据增广包括随机镜像翻转以及对经过随机镜像翻转的图片进行随机遮挡。

上述方案中，所述随机镜像翻转，随机选择图片以水平中心线或者竖直中心线为轴，进行镜像翻转；所述随机遮挡具体是针对完成了随机镜像翻转的数据集，随机在图片中生成宽高是图片短边的0.3至0.7倍的黑色遮挡区域，如果目标人脸框的中心点不在遮挡区域中，则保留该人脸的标注信息，否则删除该人脸标注信息。

上述方案中，所述基于Resnet和特征金字塔网络，搭建基于注意力机制的人脸检测神经网络，具体包括：在Resnet的基础上构建特征金字塔网络，将特征金字塔网络的P3-P7层输出通道数设定为256；

将特征金字塔网络的P3-P7层输出矩阵分别输入到注意力机制模块，得到与输入相同大小的特征权重矩阵，将特征权重与对应输出矩阵点乘，得到注意力机制模块的输出；

将所述注意力机制模块的输出分别输入到分类模块和回归模块，其中分类模块得到人脸的置信度，回归模块得到人脸框的左上角坐标(X₁，Y₁)和右下角坐标(X₂，Y₂)；

构造损失函数作为网络的总损失函数，其中k表示特征金字塔的输出层；/>表示在第k层中对象的检测框的个数；A_k表示在第k层中对象检测框的集合；/>表示该检测框的真实值，否则/>为0；a_i是类别权重参数；p是网络预测的人脸置信度值，p_i是基于p的函数；β₁、β₂是用于平衡损失函数L各项之间权重的参数；/>是指示函数；/>表示真实值是人脸的检测框的个数；/>其中t_i是预测的人脸框的坐标值矩阵[X₁,Y₁,X₂,Y₂]，/>是人脸框的真实坐标值矩阵，R(x)是Smooth L1函数；/>是注意力机制模块的损失函数，m_k是注意力机制模块中最后一个卷积层的输出，/>是一个二维向量，大小和m_k相同，标记了输入图片中实际有人脸的区域。

上述方案中，所述注意力机制模块包括五个卷积层和一个Sigmod层，卷积层卷积核的大小为(M,N)，前四层卷积层卷积核的个数为256，最后一层卷积层的卷积核个数为1。

上述方案中，所述分类模块包括五层卷积层，卷积层卷积核的大小为(M,N)，前四层卷积层卷积核的个数为256，最后一层卷积层的卷积核个数为6。

上述方案中，所述回归模块包括五层卷积层，卷积层卷积核的大小为(M,N)，前四层卷积层卷积核的个数为256，最后一层卷积层的卷积核个数为24。

上述方案中，所述损失函数中，

其中M′，N′分别是二维向量m_k的宽、高大小。

上述方案中，所述根据不同的测试场景设置不同的阈值，采用远景人脸检测模型和近景人脸检测模型，实现根据场景进行人脸检测，具体包括：

对于待检测的图片，将图片分别输入近景人脸模型和远景人脸模型，分别得到近景人脸模型的预测结果和远景人脸模型的预测结果，包括人脸框的左上角坐标、右下角坐标和置信度值，分别记为集合R_近和R_远，根据场景设定阈值t，其中t∈(0，1)，沿纵向在图片t值位置划分界线，将图片分为两部分，分别为上边框到分界线Area_上和分界线到下边框Area_下，使得Area_下中的人脸宽度都大于W、人脸高度都大于H,其中W、H为测试场景中的人脸宽高范围的中间值；根据集合R_近和R_远和Area_上和Area_下，构造最终的检测结果R_总，若存在预测人脸r,r∈R_近且r完全在Area_下中，则r∈R_总；若存在预测人脸r,r∈R_远且r完全在Area_上中，则r∈R_总；若存在预测人脸r₁∈R_近,r₂∈R_远，且r₁、r₂同时在Area_上、Area_下中，r₁、r₂的交并比大于0.5，则根据r₁、r₂的人脸框面积来决定：设w₁、h₁为r₁人脸框的宽高值，w₂、h₂为r₂人脸框的宽高值，则r₁人脸框面基s₁＝w₁*h₁，r₂人脸框面基s₂＝w₂*h₂。若s₁>W*H且s₂>W*H，则r₁∈R_总，否则r₂∈R_总。

本发明提供的基于视频图像场景理解的人脸自动检测方法，首先收集实际生活中的人脸图片，进行标定处理和数据增广后，分为远景人脸和近景人脸两个数据集。然后将两个数据集分别投入构建的神经网络中训练，利用注意力机制提取不同场景中人脸的特征，得到远景人脸检测模型和近景人脸检测模型。最后，根据实际场景，综合使用两个模型来完成人脸检测。

与现有技术相比，本发明具有如下有益效果：

本发明依据远景人脸和近景人脸的特征不同的特点，在神经网络中引入注意力机制，对不同场景下的人脸进行针对性的学习，再综合使用两个模型来共同完成人脸检测。与其他深度学习方法相比，该方法使用特征金字塔网络，适应了不同大小对象的检测场景，同时将每个模型的作用专一化，提高模型的检测效果。本检测方法属于单阶段的检测方法，保证了较快的检测速度。

附图说明

图1为实施方式中基于视频图像场景理解的人脸自动检测方法的流程图。

具体实施方式

以下结合附图对本发明的实施方式作进一步说明，但本发明的实施不限于此。

本发明思路是，通过将人脸检测分为远景人脸检测和近景人脸检测两个独立的任务，利用注意力机制分别针对远景和近景两种不同场景的人脸特征进行针对性学习，训练两个人脸检测模型，综合两个模型进行检测。本发明既提高了人脸检测准确率，又保持了较快的检测速度，可以有效用于实际应用中。

如图1，基于视频图像场景理解的人脸自动检测方法的主要流程包括以下步骤：

第一步，数据收集及预处理阶段，收集现实生活中的人脸图片，对图片中的人脸进行标定，并根据人脸的像素宽高进行划分，划分为远景人脸数据集和近景人脸数据集。

使用矩形框对图片中的人脸进行标定，要求矩形框要恰好包含人脸，同时记录每个矩形框的左上角和右下角坐标为(x₁，y₁)、(x₂，y₂)，计算出人脸框(即矩形框)的宽高值分别为w、h，其中w＝|x₁-x₂|,h＝|y₁-y₂|。统计测试场景中的人脸的宽高范围，分别取宽高范围的中间值为W、H，将人脸框宽高值满足w<W且h<H的图片归为远景人脸数据集，其余的归为近景人脸数据集。每个数据集的人脸数不少于10万。

第二步，分别对远景人脸数据集和近景人脸数据集进行数据增广操作，获得最终用于训练人脸检测神经网络的两个数据集。

数据增广操作包括随机镜像翻转和随机遮挡。其中随机镜像翻转具体是针对第一步中收集的数据集，以水平中心线或者竖直中心线为轴，随机对图片进行镜像翻转，加入原数据集中。随机遮挡具体是针对完成了随机镜像翻转的数据集，随机在图片中生成宽高是图片短边的0.3至0.7倍的黑色遮挡区域。如果目标人脸框的中心点不在遮挡区域中，则保留该人脸的标注信息，否则删除该人脸标注信息。

第三步，网络构建阶段，基于Resnet和特征金字塔网络，搭建基于注意力机制的人脸检测神经网络。

在Resnet的基础上构建特征金字塔网络，将特征金字塔网络的P3-P7层输出通道数设定为256。将特征金字塔网络的P3-P7层输出矩阵分别输入到注意力机制模块，得到与输入相同大小的特征权重矩阵，将特征权重与对应输出矩阵点乘，得到注意力机制模块的输出。

注意力机制模块包括五个卷积层和一个Sigmod层。卷积层卷积核的大小为(3,3)，前四层卷积层卷积核的个数为256，最后一层卷积层的卷积核个数为1。将注意力机制模块的输出分别输入到分类模块和回归模块，其中分类模块得到人脸的置信度，回归模块得到人脸框的左上角坐标(X₁，Y₁)和右下角坐标(X₂，Y₂)。

分类模块和回归模块都分别由五个卷积层组成，卷积层卷积核的大小都为(3，3)，前四层卷积层卷积核的个数都是256。分类模块最后一层卷积层卷积核个数为6，回归模块最后一层卷积核个数为24。

构造损失函数作为网络的总损失函数。其中，k表示特征金字塔的输出层，k∈[3,7]；/>表示在第k层中对象的检测框的个数；A_k表示在第k层中对象检测框的集合；/>表示该检测框的真实值，如果第i检测框是人脸则/>为1，否则/>为0；α_i是类别权重参数，随/>变化，如果/>则α_i＝0.25，否则α_i＝0.75；p_i是基于p的函数，其中p是网络预测的人脸置信度值，如果/>p_i＝，否则p_i＝1-p；β₁、β₂是用于平衡损失函数L各项之间权重的参数，推荐设置/>是指示函数，当/>为1，否则为0；/>表示真实值是人脸的检测框的个数；/>其中t_i是预测的人脸框的坐标值矩阵[X₁,Y₁,X₂,Y₂]，是人脸框的真实坐标值矩阵，R(x)是Smooth L1函数，x是Smooth L1函数的输入。当|x|<1时，R(x)＝0.5*x²，否则R(x)＝|x|-0.5；/>是注意力机制模块的损失函数，本实施例中具体是sigmoid交叉熵损失，其中m_k是注意力机制模块中最后一个卷积层的输出，/>是一个二维向量，大小和m_k相同，标记了输入图片中实际有人脸的区域，有人脸的区域为1，其余为0。γ是一个预设的固定整形参数，在本方法中γ＝2。

损失函数公式中，的计算公式如下：

其中M′，N′分别是二维向量m_k的宽、高大小，m_k,ij和/>分别是二维向量m_k和/>第i行第j列的数值；(sigmoid(m_k,ij))表示对/>输入到sigmoid函数得到输出。

第四步，网络训练阶段。

使用第二步中最终得到的远景人脸数据集和近景人脸数据集，分别输入人脸检测神经网络中进行训练，分别获得远景人脸检测模型和近景人脸检测模型。

本实施例中使用Adam算法对网络参数进行优化。

第五步，结合两个检测模型进行人脸检测。

对于待检测的图片，将图片分别输入近景人脸模型和远景人脸模型，得到近景人脸模型的预测结果和远景人脸模型的预测结果，包括人脸框的左上角坐标、右下角坐标和置信度值，分别记为集合R_近和集合R_远；

根据场景设定阈值t，其中t∈(0,1)，沿纵向在图片t值位置划分界线，将图片分为两部分，分别为上边框到分界线Area_上和分界线到下边框Area_下，使得Area_下中的人脸宽度都大于W、人脸高度都大于H,其中W、H为第二步中获得的宽高范围的中间值W、H；

根据集合R_近和R_远和Area_上和Area_下，构造最终的检测结果R_总，R_总中每个人脸信息包括人脸框的左上角坐标、右下角坐标和置信度值。若存在预测人脸r,r∈R_近且r完全在Area_下中，则r∈R_总；若存在预测人脸r,r∈R_远且r完全在Area_上中，则r∈R_总；若存在预测人脸r₁∈R_近,r₂∈R_远，且r₁、r₂同时在Area_上、Area_下中，r₁、r₂的交并比大于0.5，则根据r₁、r₂的人脸框面积来决定：设w₁、h₁为r₁人脸框的宽高值，w₂、h₂为r₂人脸框的宽高值，则r₁人脸框面基s₁＝w₁*h₁，r₂人脸框面基s₂＝w₂*h₂。若s₁>W*H且s₂>W*H，则r₁∈R_总，否则r₂∈R_总。

本实施例通过在深度卷积神经网络中嵌入注意力机制，可以有效适应远近景条件下人脸的光照、角度、表情等变化，明通过结合远景和近景特征不同的特性，分别训练两个模型进行检测，可以有效提高人脸检测的效果，适合于实际应用。

Claims

1.基于视频图像场景理解的人脸自动检测方法，其特征在于，包括以下步骤：

根据不同的测试场景设置不同的阈值，采用远景人脸检测模型和近景人脸检测模型，实现根据场景进行人脸检测；

所述基于Resnet和特征金字塔网络，搭建基于注意力机制的人脸检测神经网络，具体包括：

在Resnet的基础上构建特征金字塔网络，将特征金字塔网络的P3-P7层输出通道数设定为256；

将特征金字塔网络的P3-P7层的输出矩阵分别输入到注意力机制模块，得到与输入相同大小的特征权重矩阵，将特征权重矩阵与对应输出矩阵点乘，得到注意力机制模块的输出；

构造损失函数作为网络的总损失函数，上式中，k表示特征金字塔的输出层，/>表示在第k层中对象的检测框的个数；A_k表示在第k层中对象检测框的集合；/>表示该检测框的真实值，α_i是类别权重参数，p是网络预测的人脸置信度值，β₁、β₂是用于平衡损失函数L各项之间权重的参数，是指示函数；/>表示真实值是人脸的检测框的个数；/>其中t_i是预测的人脸框的坐标值矩阵，/>是人脸框的真实坐标值矩阵，R(x)是Smooth L1函数，是注意力机制模块的损失函数，m_k是注意力机制模块中最后一个卷积层的输出，是一个二维向量，大小和m_k相同，标记了输入图片中实际有人脸的区域；

所述根据不同的测试场景设置不同的阈值，采用远景人脸检测模型和近景人脸检测模型，实现根据场景进行人脸检测，具体包括：

对于待检测的图片，将图片分别输入近景人脸模型和远景人脸模型，分别得到近景人脸模型的预测结果和远景人脸模型的预测结果，包括人脸框的左上角坐标、右下角坐标和置信度值，分别记为集合R_近和集合R_远；

根据场景设定阈值t，其中t∈(0，1)，沿纵向在图片t值位置划分界线，将图片分为两部分，分别为上边框到分界线Area_上和分界线到下边框Area_下，使得Area_下中的人脸宽度都大于W、人脸高度都大于H，其中W、H为测试场景中的人脸宽高范围的中间值；

根据所述集合R_近、集合R_远、Area_上和Area_下，构造最终的检测结果R_总，若存在预测人脸r，r∈R_近且r完全在Area_下中，则r∈R_总；若存在预测人脸r，r∈R_远且r完全在Area_上中，则r∈R_总；若存在预测人脸r₁∈R_近，r₂∈R_远，且r₁、r₂同时在Area_上、Area_下中，r₁、r₂的交并比大于0.5，则根据r₁、r₂的人脸框面积来决定：设w₁、h₁为r₁人脸框的宽高值，w₂、h₂为r₂人脸框的宽高值，则r₁人脸框面基s₁＝w₁*h₁，r₂人脸框面基s₂＝w₂*h₂，若s₁＞W*H且s₂＞W*H，则r₁∈R_总，否则r₂∈R_总。

2.根据权利要求1所述的基于视频图像场景理解的人脸自动检测方法，其特征在于，所述进行数据标定，划分为远景人脸数据集和近景人脸数据集，具体包括：

使用矩形框对人脸进行标定，同时记录每个矩形框的左上角和右下角坐标为(x₁，y₁)、(x₂，y₂)；

计算出矩形框的宽高值分别为w、h，其中w＝|x₁-x₂|，h＝|y₁-y₂|；

统计测试场景中的人脸的宽高范围，分别取宽高范围的中间值为W、H，将矩形框宽高值满足w＜W且h＜H的图片归为远景人脸数据集，其余的归为近景人脸数据集。

3.根据权利要求1所述的基于视频图像场景理解的人脸自动检测方法，其特征在于，在搭建所述基于注意力机制的人脸检测神经网络前分别对远景人脸数据集和近景人脸数据集进行数据增广，所述数据增广包括随机镜像翻转以及对经过随机镜像翻转的图片进行随机遮挡。

4.根据权利要求3所述的基于视频图像场景理解的人脸自动检测方法，其特征在于，

所述随机镜像翻转，随机选择图片以水平中心线或者竖直中心线为轴，进行镜像翻转；

所述随机遮挡，随机在图片中生成宽高是图片短边的0.3至0.7倍的黑色遮挡区域，如果目标人脸框的中心点不在遮挡区域中，则保留该人脸的标注信息，否则删除该人脸标注信息。

5.根据权利要求4所述的基于视频图像场景理解的人脸自动检测方法，其特征在于：所述注意力机制模块包括五个卷积层和一个Sigmod层，卷积层卷积核的大小为(M,N)，前四层卷积层卷积核的个数为256，最后一层卷积层的卷积核个数为1。

6.根据权利要求5所述的基于视频图像场景理解的人脸自动检测方法，其特征在于：所述分类模块包括五层卷积层，卷积层卷积核的大小为(M,N)，前四层卷积层卷积核的个数为256，最后一层卷积层的卷积核个数为6。

7.根据权利要求5所述的基于视频图像场景理解的人脸自动检测方法，其特征在于：所述回归模块包括五层卷积层，卷积层卷积核的大小为(M,N)，前四层卷积层卷积核的个数为256，最后一层卷积层的卷积核个数为24。

8.根据权利要求5所述的基于视频图像场景理解的人脸自动检测方法，其特征在于:所述损失函数中，，其中M′、N′分别是二维向量m_k的宽、高大小。