CN113205002A

CN113205002A - 非受限视频监控的低清人脸识别方法、装置、设备及介质

Info

Publication number: CN113205002A
Application number: CN202110377777.XA
Authority: CN
Inventors: 邵文泽; 胡洪明
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-08-03
Anticipated expiration: 2041-04-08
Also published as: CN113205002B

Abstract

本发明公开了一种非受限视频监控的低清人脸识别方法，包含S1.准备训练集，S2.利用高清人脸图像数据对教师网络进行第一训练得到训练好的教师网络模型，第一训练包含利用第一特征提取网络提取高清人脸图像数据的第一特征；S3.将训练好的教师网络模型中的预权重赋予学生网络形成初始学生网络模型，将人工下采样低清人脸图像数据及真实场景下低清人脸图像数据联合输入到初始学生网络模型进行第二训练，得到训练好的低清人脸识别模型；S4.将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果；在学生网络中引入了域鉴别器，学习具有域不变特性的特征表示，解决了现有模型对于非受限视频监控场景下低清人脸图片识别精度不高的问题。

Description

非受限视频监控的低清人脸识别方法、装置、设备及介质

技术领域

本发明涉及人工智能领域，尤其是涉及一种非受限视频监控的低清人脸识别方法、装置、设备及介质。

背景技术

在如今信息化普及的时代，如何在保证信息安全的前提下精确鉴别个人身份，已成为当前重点研究问题。人脸特征由于其具有特殊的优势，因而在生物识别中有着重要的地位。相比于其他生物特征，人脸特征在身份鉴别上更加直观便捷，采集时全程无需接触，且在公共安全场景下可以做到无需配合隐蔽采集。正是因为人脸特征具备这些良好特性，人脸识别技术被广泛应用，如在交通监管中使用人脸识别技术，能够对交通违规、酒驾、超员、闯红灯等交通违法现象进行全面、及时、有效管控；在视频监控中使用人脸识别技术，可对犯罪嫌疑人进行快速识别和实时布控。相比于传统人工巡查监管，自动人脸识别都能带来效率、安全、成本和质量等方面的提升，吸引了学术界和商业界越来越多的关注。

现有人脸识别算法所针对对象主要是高清人脸图像，在被识别者主动配合的约束场景下取得了很高的识别精度。然而在视频监控等真实场景下，由于环境、设备等因素的制约，监控摄像头采集到的人脸图像往往分辨率不高，这给后续的人脸检测和人脸识别工作带来了极大的挑战。相比于高清人脸图像，低清人脸图像往往背景模糊、光照不均，包含更多噪声，且低清人脸特征中丢失了很多对人脸识别起关键作用的鉴别性信息，直接使用常规人脸检测与识别算法得到的结果往往不佳，这极大影响了人脸识别系统的性能。因此非受限场景下的低清人脸识别工作变得非常具有挑战性。

一般来说，解决低分辨率人脸识别问题的方案可以分为两类。一种是超分辨方法，该方法利用超分辨率从真实低清图像中合成高清人脸图像，另一种是分辨率鲁棒方法，将待识别低清人脸图像和图库的高清人脸图像转换到公共域不变子空间，在此空间内提取特征再进行匹配识别，上述两种方法在长、宽只有三十个像素甚至更低的真实低清人脸图像的情况下，由于缺少面部细节，导致模型无法提取鉴别特征，因此目前该类方法取得的结果仍不是很理想。

发明内容

为了解决目前低清人脸识别方法对于处理非受视频监控下的低清人脸识别精度不高的问题，本发明提供一种非受限视频监控的低清人脸识别方法、装置、设备及介质，通过在学生网络中引入域鉴别器，利用人工下采样低清人脸图像数据及真实场景下低清人脸图像数据联合训练学生网络，提升了训练好后的学生网络对高清人脸图像数据、人工下采样的低清人脸图片及非受限视频监控的低清人脸的识别精度。

根据本申请实施例的第一方面，一种非受限视频监控的低清人脸识别方法，包括以下步骤：

S1.准备训练集，所述训练集包含教师网络训练集和学生网络训练集，其中所述教师网络训练集包含多个含有标签的高清人脸图像数据，所述学生网络训练集包含多个含有标签的人工下采样低清人脸图像数据及多个含有标签的真实场景下低清人脸图像数据，所述教师网络训练集中的多个含有标签的高清人脸图像数据经过下采样后形成学生网络训练集中的多个含有标签的人工下采样低清人脸图像数据；

S2.利用高清人脸图像数据对教师网络进行第一训练得到训练好的教师网络模型，所述第一训练包含利用第一特征提取网络提取所述高清人脸图像数据的第一特征；

S3.将训练好的教师网络模型中的预权重赋予学生网络形成初始学生网络模型，将人工下采样低清人脸图像数据及真实场景下低清人脸图像数据联合输入到初始学生网络模型进行第二训练，得到训练好的低清人脸识别模型；

所述学生网络模型包含第二特征提取网络及特征分类网络，所述第二训练包括：利用初始学生网络模型的第二特征提取网络提取人工下采样低清人脸图像数据及真实场景下低清人脸图像数据对应的第二特征及第三特征，将第二特征和第一特征的均方差误差作为第一损失函数，并利用第一损失函数反向更新第二特征提取网络参数得到临时第二特征提取网络；将第二特征及第三特征在再生希尔伯特空间上的最大均值误差作为第二损失函数，并利用第二损失函数反向更新初始域鉴别器模型参数及临时第二特征提取网络参数得到更新后的域鉴别器模型及更新后的第二特征提取网络；将第二特征的交叉熵损失作为第三损失函数，并利用第三损失函数反向更新特征分类网络得到更新后的特征分类网络，从而得到第一学生网络模型及第一域鉴别器模型；再以第一学生网络模型作为初始学生网络模型、第一域鉴别器模型作为初始域鉴别器模型，返回根据初始学生网络模型中第二特征提取网络提取人工下采样低清人脸图像数据及真实场景下低清人脸图像数据对应的第二特征及第三特征，再根据第一特征、第二特征及第三特征分别获得更新后的第二特征提取网络、更新后的域鉴别器模型及更新后的特征分类网络，直至满足预设的迭代停止条件；

将满足预设的迭代停止条件的第一学生网络模型作为训练好的低清人脸识别模型；

S4.将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果。

在蒸馏知识网络中教师网络的第一特征提取网络、学生网络的第二特征提取网络中，利用第一特征和第二特征均方差误差作为第一损失函数，并利用第一损失函数反向更新第二特征提取网络参数，保证了对高清人脸图像数据及人工下采样的低清人脸图像数据即不同分辨率的图片都有较好的鲁棒性；由于人工下采样并不能模拟真实场景下低清图片退化机制，受迁移学习中领域自适应技术启发，本发明在学生网络中引入了域鉴别器，学习具有域不变特性的特征表示，提升模型对于非受限视频监控场景下低清人脸图片的验证和识别性能。

进一步地，所述学生网络中的第二特征提取网络及教师网络中的第一特征提取网络按各层分别提取人工下采样低清人脸图像数据的阶段特征

及高清人脸图像数据的阶段特征

k∈[1,...,K],K为第一特征提取网络及第二特征提取网络的层数；

所述第一训练包含利用第一特征提取网络按照各层提取所述高清人脸图像数据的阶段特征

所述第二训练包括：利用初始学生网络模型的第二特征提取网络按照各层分别提取人工下采样低清人脸图像数据的阶段特征

以及根据初始学生网络模型中的第二特征提取网络提取真实场景下低清人脸图像数据的第三特征，将每一层对应的阶段特征

和阶段特征

的均方差误差相加作为第一损失函数，并利用第一损失函数反向更新第二特征提取网络参数得到临时第二特征提取网络；将初始学生网络模型的第二特征提取网络提取的最后一层阶段特征

及第三特征在再生希尔伯特空间上的最大均值误差作为第二损失函数，并利用第二损失函数反向更新初始域鉴别器模型参数及临时第二特征提取网络参数得到更新后的域鉴别器模型及更新后的第二特征提取网络；将初始学生网络模型的第二特征提取网络提取的最后一层阶段特征

的交叉熵损失作为第三损失函数，并利用第三损失函数反向更新特征分类网络得到更新后的特征分类网络，从而得到第一学生网络模型及第一域鉴别器模型；再以第一学生网络模型作为初始学生网络模型、第一域鉴别器模型作为初始域鉴别器模型参数，返回根据初始学生网络模型中的第二特征提取网络按照各层分别提取人工下采样低清人脸图像数据的阶段特征

以及根据初始学生网络模型中的第二特征提取网络提取真实场景下低清人脸图像数据的第三特征，再根据阶段特征

阶段特征

及第三特征分别获得更新后的第二特征提取网络、更新后的域鉴别器模型及更新后的特征分类网络，直至满足预设的迭代停止条件；

将满足预设的迭代停止条件的第一学生网络模型作为训练好的低清人脸识别模型。

第一特征提取网络和第二特征提取网络的骨干网络可以采用现有的深度卷积网络，如VGGNet(Visual Geometry Group Network)、ResNet(Residual Neural Network)等经典网络结构，上述深度卷积网络低层特征分辨率更高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性更低，噪声更多，高层特征具有更强的语义信息，但是分辨率很低，对细节的感知能力较差，通过在第一特征提取网络和第二特征提取网不同层计算，即在所述学生网络中的第二特征提取网络及教师网络中的第一特征提取网络按各层分别提取人工下采样低清人脸图像数据的阶段特征

及高清人脸图像数据的阶段特征

k∈[1,...,K],K为第一特征提取网络及第二特征提取网络的层数；将每一层对应的阶段特征

和阶段特征

的均方差误差相加作为第一损失函数，并利用第一损失函数反向更新第二特征提取网络参数，有效将不同尺度特征融合，有助于进一步地提升非受限视频监控的低清人脸识别模型识别和验证精度。

进一步地，所述学生网络的第二特征提取网络和教师网络的第一特征提取网络中的骨干网络均采用Res2Net模块作为残差块的ResNet50，所述第一损失函数具体为：

骨干网络使用Res2Net模块，增强第二特征模块对于低清人脸多尺度特征提取，有助于进一步地提升非受限视频监控的低清人脸识别模型识别和验证精度。

进一步地，所述第二损失函数具体为：

公式(2)中，

和

分别表示人工下采样低清人脸图像数据及真实场景下低清人脸图像数据经过第二特征提取网络提取到的第二特征及第三特征，N₁和N₂分别表示输入学生网络的采样低清人脸图像数据及真实场景下低清人脸图像数量；

表示再生希尔伯特空间，φ是一个映射函数，用于将数据样本映射到希尔伯特空间；在希尔伯特空间中，由于范数运算和内积运算相同，故

所以等式(2)可以通过核技巧改写为：

公式(4)中k是由多个凸核{k_u}组合而成的特征核，与特征图相关联的内核可以定义为：

公式(5)中内核k_u是高斯内核，可以定义为：

进一步地，所述第三损失函数具体为：

公式(7)中x_i表示输入特征分类网络中的经过第二特征提取网络提取的第二特征，y_i∈{1,2,…,M}为x_i的真实标签，

是Softmax层对应第i个类的权重。

进一步地，步骤S4中将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果包含以下步骤：

人脸验证时，对带有标签的非受限高清人脸图像数据进行下采样形成各分辨率低清人脸图像数据，将非受限高清人脸图像数据及各分辨率低清人脸图像数据作为测试集联合输入至训练好的低清人脸识别模型得到各分辨率低清人脸图像数据的分类概率，采用准确率ACC指标评价训练好的低清人脸识别模型的验证性能，具体过程如下：将各分辨率低清人脸图像数据和非受限高清人脸图像数据两两配对形成正负测试样本，其中正测试样本为各分辨率低清人脸图像数据和标签相同的非受限高清人脸图像数据配对形成的样本，负样本为各分辨率低清人脸图像数据和标签不相同的非受限高清人脸图像数据配对形成的样本，因此准确率ACC指标可表示为：

公式(8)中，TP指特征分类网络根据分类概率将正测试样本判定为正测试样本，TN指特征分类网络根据分类概率将负测试样本判定为负测试样本，FP指特征分类网络根据分类概率将负测试样本判定为正测试样本，FN指征分类网络根据分类概率将正测试样本判定为负测试样本；

人脸识别时，获取带有标签的非受限视频监控的高清人脸图像数据gallery及对应不同距离的低清人脸图像数据probe(查询)，将低清人脸图像数据probe作为测试集输入至训练好的低清人脸识别模型，得到低清人脸图像数据probe相对于所有非受限视频监控的高清人脸图像数据gallery(图库)的分类概率，采用Rank-1准确率指标评价训练好的低清人脸识别模型的识别性能，具体如下：选择分类概率最大的gallery标签作为低清人脸图像数据probe的分类标签并对比分类标签和真值标签，如果分类标签和真值标签相同则认为probe识别成功，因此Rank-1准确率指标可表示为：

Rank-1＝probe识别成功数/probe总数 (9)

进一步地，步骤S4中预设的迭代停止条件包含训练达到预设的训练次数，或者总损失函数达到预设的阈值，其中所述总损失函数如下所示：

L_tot＝λ₁L_distill+λ₂L_domain+L_cls (10)

公式(10)中，λ₁、λ₂为比例因子。

根据本申请实施例的第二方面，一种非受限视频监控的低清人脸识别装置，包括：

获取模块，用于获取训练集，所述训练集包含教师网络训练集和学生网络训练集，其中所述教师网络训练集包含多个含有标签的高清人脸图像数据，所述学生网络训练集包含多个含有标签的人工下采样低清人脸图像数据及多个含有标签的真实场景下低清人脸图像数据，所述教师网络训练集中的多个含有标签的高清人脸图像数据经过下采样后形成学生网络训练集中的多个含有标签的人工下采样低清人脸图像数据；

第一训练模块，用于将高清人脸图像数据对教师网络进行第一训练得到训练好的教师网络模型，所述第一训练包含利用第一特征提取网络提取所述高清人脸图像数据的第一特征；

第二训练模块，用于将训练好的教师网络模型中的预权重赋予学生网络形成初始学生网络模型，将人工下采样低清人脸图像数据及真实场景下低清人脸图像数据联合输入到初始学生网络模型进行第二训练，得到训练好的低清人脸识别模型；

验证及识别模块，用于将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果。

根据本申请实施例的第三方面，一种计算机设备，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被至少一个处理器执行时，使得至少一个处理器实现第一方面所述非受限视频监控的低清人脸识别方法。

根据本申请实施例的第四方面，一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序由处理器执行时用于实现第一方面的非受限视频监控的低清人脸识别方法。

本发明的有益效果在于：

1、在蒸馏知识网络中教师网络的第一特征提取网络、学生网络的第二特征提取网络中，利用第一特征和第二特征均方差误差作为第一损失函数，并利用第一损失函数反向更新第二特征提取网络参数，保证了对高清人脸图像数据及不同人工下采样的低清人脸图像数据即不同分辨率的图片都有较好的鲁棒性；由于人工下采样并不能模拟真实场景下低清图片退化机制，受迁移学习中领域自适应技术启发，本发明在学生网络中引入了域鉴别器，学习具有域不变特性的特征表示，提升模型对于非受限视频监控场景下低清人脸图片的验证和识别性能；

2、在所述学生网络中的第二特征提取网络及教师网络中的第一特征提取网络按各层分别提取人工下采样低清人脸图像数据的阶段特征

及高清人脸图像数据的阶段特征

和阶段特征

3、骨干网络使用Res2Net模块，通过在单个残差块内构造分层的残差类连接，增加每层网络的感受野，以更细粒度的方式表示多尺度特征，且网络计算量相比常规残差块连接并没有增加，利用Res2Net模块增强第二特征模块对于低清人脸多尺度特征提取，有助于进一步地提升非受限视频监控的低清人脸识别模型识别和验证精度。

附图说明

图1为本申请实施例中提供的一种非受限视频监控的低清人脸识别方法的实施环境示意图；

图2为本申请实施例中提供的一种非受限视频监控的低清人脸识别方法的算法流程图；

图3为本申请实施例中提供的一种非受限视频监控的低清人脸识别方法对应算法模型的架构图；

图4为本申请实施例中提供的Res2Net模块示意图；

图5为本申请实施例中提供的域鉴别器模块结构示意图；

图6为本申请实施例中提供的域鉴别器模块中ResBlock模块的结构示意图；

图7为本申请实施例中提供的一种非受限视频监控的低清人脸识别装置的结构示意图；

图8为本申请实施例中提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，本发明中的临时、第一均是为了说明算法训练中的不同阶段，没有限定意义。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的一种非受限视频监控的低清人脸识别方法，可以应用于如图1所示的应用环境图中。该应用环境包括终端120及服务器140、终端120，第一种应用环境为终端120与服务器140之间通过网络进行连接，这里对终端120及服务器140的数量不做限制，网络包含但不限于：广域网、城域网或局域网，此时终端120可以采集图片并发送至服务器进行非受限视频监控的人脸识别或者验证，第二种应用环境终端120包含手机、平板等，该终端120具备图像采集及对非受限视频监控的低清人脸进行识别或者验证的功能，因此本发明提供的非受限视频监控的人脸识别方法对应用环境不做限制。

如图2及图3所示，根据本申请实施例的第一方面，一种非受限视频监控的低清人脸识别方法，包括以下步骤：

第一特征提取网络和第二特征提取网络的骨干网络可以采用现有的深度卷积网络，如VGGNet(Visual Geometry Group Network)、ResNet(Residual Neural Network)等经典网络结构；特征分类网络可以采用全连接层和softmax分类器实现；如图5所示，域鉴别器模块结构为首先经过一个3×3卷积增加局部上下文信息，再经过PReLU降低参数以及过拟合风险，接着经过两层ResBlock，如图6所示，在ResBlock结构里，本发明使用了IN(Instance Normalization)，因为在图片风格迁移等注重每个像素的任务中，每个图像实例的每个像素点信息都十分重要，而使用BN(Bach Normalization)对每批样本归一化就不太合适。使用IN不仅可以加快模型收敛，并且可以保证每个图像实例相互独立，具体可以参考文章“Instance Normalization:The Missing Ingredient for Fast Stylization”。

在一些实施例中，如图3所示，所述学生网络中的第二特征提取网络及教师网络中的第一特征提取网络按各层分别提取人工下采样低清人脸图像数据的阶段特征

及高清人脸图像数据的阶段特征

和阶段特征

阶段特征

一般来说，步骤S4中预设的迭代停止条件包含训练达到预设的训练次数，或者总损失函数达到预设的阈值，其中所述总损失函数如下所示：

L_tot＝λ₁L_distill+λ₂L_domain+L_cls (1)

公式(1)中，λ₁、λ₂为比例因子。

第一特征提取网络和第二特征提取网络的骨干网络可以采用现有的深度卷积网络，如VGGNet(Visual Geometry Group Network)、ResNet(Residual Neural Network)、GoogleNet(Google Network)等经典网络结构，上述深度卷积网络低层特征分辨率更高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性更低，噪声更多，高层特征具有更强的语义信息，但是分辨率很低，对细节的感知能力较差，通过在第一特征提取网络和第二特征提取网不同层计算，即在所述学生网络中的第二特征提取网络及教师网络中的第一特征提取网络按各层分别提取人工下采样低清人脸图像数据的阶段特征

及高清人脸图像数据的阶段特征

和阶段特征

如图3所示，通过在ResNet50网络中的单个残差块内构造分层的残差类连接，增加每层网络的感受野，以更细粒度的方式表示多尺度特征，且网络计算量相比常规残差块连接并没有增加，骨干网络使用Res2Net模块，其中Res2Net模块的内部结构如图4所示，增强第二特征模块对于低清人脸多尺度特征提取，有助于进一步地提升非受限视频监控的低清人脸识别模型识别和验证精度。

进一步地，所述第二损失函数具体为：

公式(3)中，

和

所以等式(3)可以通过核技巧改写为：

公式(5)中k是由多个凸核{k_u}组合而成的特征核，与特征图相关联的内核可以定义为：

公式(6)中内核k_u是高斯内核，可以定义为：

进一步地，所述第三损失函数具体为：

公式(8)中x_i表示输入特征分类网络中的经过第二特征提取网络提取的第二特征，y_i∈{1,2,...,M}为x_i的真实标签，

是Softmax层对应第i个类的权重。

在一些实施例中，步骤S4中将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果包含以下步骤：

公式(9)中，TP指特征分类网络根据分类概率将正测试样本判定为正测试样本，TN指特征分类网络根据分类概率将负测试样本判定为负测试样本，FP指特征分类网络根据分类概率将负测试样本判定为正测试样本，FN指征分类网络根据分类概率将正测试样本判定为负测试样本；

人脸识别时，获取带有标签的非受限视频监控的高清人脸图像数据gallery及对应不同距离的低清人脸图像数据probe，将低清人脸图像数据probe作为测试集输入至训练好的低清人脸识别模型，得到低清人脸图像数据probe相对于所有非受限视频监控的高清人脸图像数据gallery的分类概率，采用Rank-1准确率指标评价训练好的低清人脸识别模型的识别性能，具体如下：选择分类概率最大的gallery标签作为低清人脸图像数据probe的分类标签并对比分类标签和真值标签，如果分类标签和真值标签相同则认为probe识别成功，因此Rank-1准确率指标可表示为：

Rank-1＝probe识别成功数/probe总数 (10)

根据本申请实施例的第二方面，如图7所示，一种非受限视频监控的低清人脸识别装置，包括：

获取模块201，用于获取训练集，所述训练集包含教师网络训练集和学生网络训练集，其中所述教师网络训练集包含多个含有标签的高清人脸图像数据，所述学生网络训练集包含多个含有标签的人工下采样低清人脸图像数据及多个含有标签的真实场景下低清人脸图像数据，所述教师网络训练集中的多个含有标签的高清人脸图像数据经过下采样后形成学生网络训练集中的多个含有标签的人工下采样低清人脸图像数据；

第一训练模块202，用于将高清人脸图像数据对教师网络进行第一训练得到训练好的教师网络模型，所述第一训练包含利用第一特征提取网络提取所述高清人脸图像数据的第一特征；

第二训练模块203，用于将训练好的教师网络模型中的预权重赋予学生网络形成初始学生网络模型，将人工下采样低清人脸图像数据及真实场景下低清人脸图像数据联合输入到初始学生网络模型进行第二训练，得到训练好的低清人脸识别模型；

验证及识别模块204，用于将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果。

根据本申请实施例的第三方面，如图8所示，一种计算机设备，包括：

至少一个处理器301；

至少一个存储器302，用于存储至少一个程序；

该处理器301用于提供计算和控制能力，支撑整个服务器的运行。存储器302可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，当所述至少一个程序被至少一个处理器执行时，使得至少一个处理器实现第一方面所述非受限视频监控的低清人脸识别方法，上述计算机设备包含是手机、平板电脑或者个人数字助理或穿戴式设备或者服务器等，本实施例对计算机不做具体限制。

为了对本发明提供的一种非受限视频监控的低清人脸识别方法进行说明，本实施例中利用CASIA-WebFace作为教师网络训练集，CASIA-WebFace-S作为学生网络训练集的人工下采样低清人脸图像数据，TinyFace作为作为学生网络训练集的真实场景下低清人脸图像数据；CASIA-WebFace数据集含有9067人的434793张图片，每人至少包含14幅图像。CASIA-WebFace在输入教师网络之前，使用MTCNN人脸检测对齐网络对CASIA-WebFace的人脸区域进行检测对齐，根据面部五个特征点，即两个眼睛中心、鼻尖和两个嘴角的坐标，通过仿射变换将教师网络训练集的高清人脸图像分辨率归一化为112×112；CASIA-WebFace-S获取过程如下：经过上述检测好的人脸图像使用Bicubic(双立方插值)分别进行降采样形成分辨率为16×16、36×36、64×64、96×96的低清人脸图像，接着16×16、36×36、64×64、96×96的图片分辨率归一化为112×112，将上述数据增广后的数据集表示为CASIA-WebFace-S。TinyFace数据集是从网络数据集中提取低清人脸创建的原生低清数据集，由169400张低清人脸图像组成，用于甚低清人脸识别任务。本实施例中主要使用数据集的训练集部分，其包含2570人的7804幅图像。人脸图像高度为6-32像素，平均高度为20像素。由于TinyFace图像已经过人脸检测，因此使用Bicubic上采样为112×112分辨率用作学生网络的输入，即保证了学生网络和教师网络输入训练集的图片分辨率均为112×112。

在本实施例中，在教师网络和学生网络的特征提取网络那块，骨干网络均采用Res2Net模块作为残差块的ResNet50，考虑到低分辨率人脸鉴别特征较少，我们改变了常见ResNet50网络起始结构，将第一层7×7、步长为2的卷积替换为3×3、步长为1的卷积，使得提取的特征更全面，不会遗漏太多信息。输入图像x的高和宽均为3通道，112像素(记为(112，112，3))，x经过3×3卷积层和一个maxpooling层后，输出尺寸为原来的一半，通道数为64；接下来x经过Res2Net50的四个阶段，每个阶段的残差块Res2Net个数依次为3，4，6，3，分别得到4个特征图。一阶段后得到的特征图尺寸为(56，56，256)，二阶段后得到的特征图尺寸为(28，28，512)，三阶段后得到的特征图尺寸为(14，14，1024)，四阶段后得到的特征图尺寸为(7，7，2048)，最后经过全连接输出为512维特征向量，记作(1，1，512)；因此域鉴别器模块输入为(7，7，2048)的源域样本特征(人工下采样低清人脸图像数据对应的第二特征)和目标域样本特征(真实场景下低清人脸图像数据的第三特征)，具体过程如下：如图5所示，首先经过一个3×3卷积增加局部上下文信息，再经过PReLU降低参数以及过拟合风险，接着经过两层ResBlock；如图6所示，在ResBlock结构里，本实施例使用了IN(InstanceNormalization)，因为在图片风格迁移等注重每个像素的任务中，每个图像实例的每个像素点信息都十分重要，而使用BN(Bach Normalization)对每批样本归一化就不太合适。使用IN不仅可以加快模型收敛，并且可以保证每个图像实例相互独立，之后经过倒数第二层全连接层后，输出均为(1，1，512)的特征向量，再经过批量归一化保证样本特征值在0～1之间。

本实施例在PyTorch深度学习框架对上述模型进行训练。使用随机梯度下降优化器，初始学习率设置为0.1，动量设置为0.9，权重衰减设置为1e^-5，设置的迭代停止条件经过60epoch训练结束，将总损失函数L_tot＝λ₁L_distill+λ₂L_domain+L_cls的λ₁和λ₂均设置为0.1，此时总损失函数在0.1左右；

测试集采用SCFace和LFW数据集。SCFace数据集包含130名受试者在不受控制的室内环境中使用5台不同质量的视频监控摄像机拍摄的图像。对于每个受试者，每个监控摄像机在4.20m(d1)、2.60m(d2)和1.00m(d3)三个不同的距离(每个距离五张照片)共拍摄了15张照片，还有一张正面人脸照片由高清数字相机拍摄。本发明将正面人脸照片作为gallery图像，不同距离的监控摄像头拍摄的图像作为probe图像，此时不需要对probe图像进行下采样了，直接将gallery和probe进行检测与对齐，上述检测与对齐的设置与CASIA-WebFace数据处理相同；人脸识别任务可以分为两大类，开集(Open Set)和闭集(Close Set)识别。首先给定人脸集合probe和gallery，对于闭集识别，probe集合里所有人身份肯定包含在gallery集合中；而开集识别会增加一个impostor(欺骗)集合，该集合的人既不在probe中，也不在gallery中，本发明测试属于闭集识别。为了和其他算法做公平对比，本发明在SCFace数据集里的130人中选取50人对学生网络进行微调，剩下的80人用于测试。将由高清数字像机拍摄的人脸作为gallery，不同质量相机在不同距离拍摄的真实低清人脸作为probe，测试模型对于真实场景下低清人脸识别问题的鲁棒性，评价指标采用的是Rank-1准确率。

LFW数据集包含了5749名受试者的13233张图像。首先对LFW中的人脸使用MTCNN进行检测，并对齐到112×112分辨率形成非受限高清人脸图像数据，为了模拟视频监控环境下低清人脸的设置，将上述检测好的非受限高清人脸图像数据使用Bicubic(双立方插值)分别进行降采样形成分辨率为8×8,12×12,16×16,20×20的低清人脸图像，接着将8×8,12×12,16×16,20×20的图片分辨率归一化为112×112形成各分辨率低清人脸图像数据，将各分辨率低清人脸图像数据和非受限高清人脸图像数据两两配对形成正负测试样本，进行人脸验证，所述LFW测试集用于人脸验证测试，评价指标采用的是准确率ACC。

为了验证该低清人脸识别模型的性能，本发明与Jiankang Deng，Jia Guo等人发表的文章“ArcFace:Additive Angular Margin Loss for Deep Face Recognition”，以及Ze Lu，Xudong Jiang等人发表的文章“Deep Coupled ResNet for Low-Resolution FaceRecognition”进行了对比。具体实验结果如下表所示。其中，在SCFace数据集上的Rank-1精度如表1所示，在LFW数据集上的人脸验证准确率ACC如表2所示。

Distance	d1	d2	d3
				ArcFace(resnet50)	67.3	93.5	98.0
DCR	73.3	93.5	98.0
				Ours	75.1	94.8	98.0

表1

Probe Size	8×8	12×12	16×16	20×20	112×112
						ArcFace(resnet50)	88.9	93.8	95.9	96.8	98.8
DCR	93.6	95.3	96.6	97.3	98.7
						Ours	94.2	95.4	96.9	97.5	99.1

表2

表2中的112×112组即表示对高清图片的验证精度，本发明相比于Jiankang Deng以及Ze Lu等人提出的人脸识别模型，无论是在非受限视频监控的低清数据集以及人工下采样的低清数据集上性能指标均有明显提升，说明本发明能够有效提升模型对于监控场景下低清人脸识别及验证精度。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细但并不能因此而理解为对本申请专利范围的限制。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种非受限视频监控的低清人脸识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的非受限视频监控的低清人脸识别方法，其特征在于，所述学生网络中的第二特征提取网络及教师网络中的第一特征提取网络按各层分别提取人工下采样低清人脸图像数据的阶段特征

及高清人脸图像数据的阶段特征

和阶段特征

的交叉熵损失作为第三损失函数，并利用第三损失函数反向更新特征分类网络得到更新后的特征分类网络，从而得到第一学生网络模型及第一域鉴别器模型；再以第一学生网络模型作为初始学生网络模型、第一域鉴别器模型作为初始域鉴别器模型，返回根据初始学生网络模型中的第二特征提取网络按照各层分别提取人工下采样低清人脸图像数据的阶段特征