CN111860393A

CN111860393A - 一种安防系统上的人脸检测识别方法

Info

Publication number: CN111860393A
Application number: CN202010736090.6A
Authority: CN
Inventors: 陈勇; 王丙佳; 胡家瑞; 裴植; 王成; 易文超; 吴光华
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-10-30

Abstract

本申请公开了一种安防系统上的人脸检测识别方法，属于图像识别中的人脸识别领域，该方法主要包括以下步骤：1、图像采集；2、人脸检测；3、人脸特征提取；4、人脸特征对比，输出检测结果。本发明基于MTCNN和改进后的Resnet的网络结构来分别实现人脸检测和识别，加入注意力机制、Group Normalization以及Swish激活函数等方法，从而构建出一种能够快速识别复杂场景下的人脸检测和识别系统，通过本算法先提取出图片中的人脸特征，检测出人脸区域，然后根据人脸区域的特征计算和数据库中的人脸数据特征进行对比，从而识别出相应人脸的身份信息。

Description

一种安防系统上的人脸检测识别方法

技术领域

本发明是属于图像识别领域，具体涉及一种安防系统上的人脸检测识别方法。

背景技术

当前人脸识别是图像识别领域中应用最为广泛的领域，由于人脸识别是需要识别一些细小的特征来进行计算，但是细小的特征往往是需要在高维度中进行提取，因而这种细小的特征网络需要在更宽和更深的网络中进行提取，但往往更宽和更深的网络会带来梯度弥散和梯度消失的问题，造成模型在训练的过程中无法获得好的效果。本发明采用的改进型的Resnet网络，此网络加入残差块避免网络因出现梯度弥散和消失问题导致误差增大的问题，本发明在此网络基础上通过加入了注意力机制等方式训练模型获得更高的检测精度。

在现代安防工作中，一些已知的可疑人员混杂在人群中的时候，警务人员只能通过人工持身份证识别器来进行盘查，但是这种方法不仅效率低下，需要投入大量的警力，而且极易出现漏掉的可能，不仅如此还会提前惊动可疑人员，不利于抓捕。

随着近几年图像识别尤其是人脸识别技术的成熟以及图像采集硬件设备的不断更新换代，基于人脸识别技术的安防技术广泛应用于各种场合。

发明内容

针对现有技术存在的上述技术问题，本发明的目的在于提供一种安防系统上的人脸检测识别方法，通过本发明的方法能够更加精准和快速地识别人脸，并且采集的图像是视野更加宽阔的全景图像，进一步提升检测效率。

所述的一种安防系统上的人脸检测识别方法，其特征在于包括如下步骤：

S1：利用摄像头直接获取一张含有多个人脸的图像，进行图像采集；

S2：将步骤S1获取的图像输入到MTCNN网络中，MTCNN网络检测并截取图像中的所有人脸，并将这些人脸图进行旋转、对齐后一并放置于截取后图像的正中央，以方便后续的人脸特征提取；

S3：使用改进的Resnet50对步骤S2所得图像进行人脸特征提取；

S4：将提取出来的人脸特征和数据库中的人脸特征进行对比，实现人脸识别，输出识别结果。在现代安防工作中，数据库中已经保存了充分的人脸特征数据，因此将提取出来的人脸特征和数据库中的人脸特征进行对比即可。

所述的一种安防系统上的人脸检测识别方法，其特征在于步骤S2中，将MTCNN网络中的损失函数加以改进为Arcface中的Loss函数，以便利用MTCNN网络精准地截取图像中的所有人脸；其中改进的Arcface中的Loss函数的表达式为：

其中：m表示角度常量，θ_j，i表示向量W_j和样本x_i之间的角度，x_i表示第i个样本，y_i表示第i个样本的ground truth标签，s表示超球面的半径；由此，将m以加法的方式惩罚深度特征与其相应权重之间的角度，从而同时增强了类内紧度和类间差异，提升训练效果。

所述的一种安防系统上的人脸检测识别方法，其特征在于所述改进的Resnet50，是在Resnet50的基础上加入了注意力机制、将原函数的Batch Normalization替换成GroupNormalization和将原网络中的Relu函数替换为激活性能更好的Swish函数。将原网络中的Relu函数替换为激活性能更好的Swish激活函数，提供了平滑、非单调等特性从而提升了整个神经网络的性能。

其中替换后的Swish激活函数的公式为：

f(x)＝x*sigmoid(x)

f(x)表示激活后的输出特征值，x表示输入值；

在每个残差块之间都加入通道和空间注意力机制，提升模型对于感兴趣目标区域的集中程度，以便更好的提取高维度中的特征；其中通道注意力机制的表达公式为：

其中F表示输入的特征，AvgPool表示全局平均池化，MaxPool表示最大池化；分别对F进行全局平均池化和最大池化层，再将它们分别送入一个两层的神经网络得到两个特征W₀和W₁，再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数M_s(F)；最后，将权重系数M_s(F)和原来的输入特征F相乘即可得到缩放后的新特征；

空间注意力机制的表达公式为：

其中，F表示输入的特征，AvgPool表示全局平均池化，MaxPool表示最大池化；将F分别进行一个通道维度的平均池化和最大池化得到两个通道描述

和

，并将这两个描述按照通道拼接在一起；最后将拼接在一起的通道送入一个7×7的卷积层，激活函数为Sigmoid，得到权重系数M_s(F)；最后，拿权重系数M_s(F)和特征F相乘即可得到缩放后的新特征。

本发明取得的有益效果是：

本发明基于MTCNN和改进后的Resnet的网络结构来分别实现人脸检测和识别，加入注意力机制、Group Normalization以及Swish激活函数等方法，从而构建出一种能够快速识别复杂场景下的人脸检测和识别系统，通过本算法先提取出图片中的人脸特征，检测出人脸区域，然后根据人脸区域的特征计算和数据库中的人脸数据特征进行对比，从而识别出相应人脸的身份信息。

附图说明

图1为本发明人脸检测识别方法的工作流程图；

图2为本发明改进型Resnet的block结构；

图3为本发明改进型Resnet的注意力机制结构。

具体实施方式

下面结合具体实施例对本发明作进一步说明，但本发明的保护范围并不限于此。

实施例：

本发明提出了一种基于安防系统的人脸检测识别方法，主要包括：

(1)基于改进型的MTCNN的人脸检测方法；

(2)基于改进型的Resnet算法的人脸识别方法。

具体内容如下：

(1)基于改进型MTCNN的人脸检测方法：

图片获取：图片分辨率采用1200*2400*3的RGB全景图像，确保输入的图像能够获得较为开阔的视野。在如火车站环境的安防工作中，利用摄像头直接拍摄的一张图像往往含有多个人脸，将含有多个人脸的图像作为输入图像，使用改进型MTCNN网络对图像进行训练，得到卷积神经网络模型。为了提高人脸检测精度，本发明构建不再采用原有的MTCNN网络中的欧式距离作为模型的损失函数，采用Arcface的Loss函数，其表达式为：

其中：m表示角度常量，θ_j，i表示向量W_j和样本x_i之间的角度，x_i表示第i个样本，y_i表示第i个样本的ground truth标签，s表示超球面的半径。将m以加法的方式惩罚深度特征与其相应权重之间的角度，从而同时增强了类内紧度和类间差异，提升训练效果。

(2)基于改进型的Resnet算法的人脸检测识别方法：

网络结构：本发明采用Resnet50为原型进行改进，输入图像分辨率为224*224，在每个Resblock之间加入注意力机制，确保能在高维度中也能提取到足够的特征；将原函数的Batch Normalization替换成Group Normalization，解决因batchsize过小导致归一化效果下降的问题；另外将原网络中的Relu函数替换为激活性能更好的Swish激活函数，提供了平滑、非单调等特性从而提升了整个神经网络的性能，其Resblock的结构如图2所示，其公式为：

f(x)＝x*sigmoid(x)

f(x)表示激活后的输出特征值，x表示输入值；

注意力机制：在每个残差块之间都加入通道和空间注意力机制，提升模型对于感兴趣目标区域的集中程度，更好的提取高维度中的特征。其中通道注意力机制的表达公式为：

空间注意力机制的表达公式为：

和

，并将这两个描述按照通道拼接在一起；最后将拼接在一起的通道送入一个7×7的卷积层，激活函数为Sigmoid，得到权重系数M_s(F)；最后，拿权重系数M_s(F)和特征F相乘即可得到缩放后的新特征。加入注意力机制的两个Resblock之间的结构如图3所示。

实施例1：

参见图1，一种安防系统上的人脸检测识别方式，包括以下具体步骤：

S1：全景图像采集，采集的图像分辨率为1200*2400；

S：使用改进型MTCNN模型进行人脸检测：获取检测到的所有人脸图像，并将人脸图像旋转、对齐，方便后续特征提取，截取出来的人脸图像尺寸为224*224；

S3：使用改进后的Resnet50模型进行人脸特征提取；

S4：将提取出来的人脸特征和数据库中的人脸特征进行对比，实现人脸识别，输出识别结果；

本说明书所述的内容仅仅是对发明构思实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式。

Claims

1.一种安防系统上的人脸检测识别方法，其特征在于包括如下步骤：

S3：使用改进的Resnet50对步骤S2所得图像进行人脸特征提取；

S4：将提取出来的人脸特征和数据库中的人脸特征进行对比，实现人脸识别，输出识别结果。

2.如权利要求1所述的一种安防系统上的人脸检测识别方法，其特征在于步骤S2中，将MTCNN网络中的损失函数加以改进为Arcface中的Loss函数，以便利用MTCNN网络精准地截取图像中的所有人脸；其中改进的Arcface中的Loss函数的表达式为：

3.如权利要求1所述的一种安防系统上的人脸检测识别方法，其特征在于所述改进的Resnet50，是在Resnet50的基础上加入了注意力机制、将原函数的Batch Normalization替换成Group Normalization和将原网络中的Relu函数替换为激活性能更好的Swish激活函数；

其中替换后的Swish激活函数的公式为：

f(x)＝x*sigmoid(x)

f(x)表示激活后的输出特征值，x表示输入值；

其中F表不输入的特征，AvgPool表不全局平均池化，MaxPool表不最大池化；分别对F进行全局平均池化和最大池化层，再将它们分别送入一个两层的神经网络得到两个特征W₀和W₁，再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数M_s(F)；最后，将权重系数M_s(F)和原来的输入特征F相乘即可得到缩放后的新特征；

空间注意力机制的表达公式为：

和

并将这两个描述按照通道拼接在一起；最后将拼接在一起的通道送入一个7×7的卷积层，激活函数为Sigmoid，得到权重系数M_s(F)；最后，拿权重系数M_s(F)和特征F相乘即可得到缩放后的新特征。