CN116452424B

CN116452424B - 一种基于双重广义蒸馏的人脸超分辨率重构方法及系统

Info

Publication number: CN116452424B
Application number: CN202310582939.2A
Authority: CN
Inventors: 刘成云; 张玉娇; 陈振学; 曹佳倩; 孙露娜
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-10-10
Anticipated expiration: 2043-05-19
Also published as: CN116452424A

Abstract

本发明属于计算机视觉领域，提供了一种基于双重广义蒸馏的人脸超分辨率重构方法及系统，利用基于双重广义蒸馏的人脸超分辨重构网络解决监控视频中的人脸超分辨率重构问题，获得一个部署在移动设备上的小模型，并且能有效为人脸识别等提供帮助；教师网络和学生网络都分别使用广义蒸馏的方法来辅助生成效果更好的人脸图像，对高分辨率人脸图像特权信息的利用可以将高频信息输入进网络，补充了退化图像所不具有的信息。使用特权信息指导学习时，选用注意力图用于蒸馏可以让网络更关注需要重建的面部细节。

Description

一种基于双重广义蒸馏的人脸超分辨率重构方法及系统

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于双重广义蒸馏的人脸超分辨率重构方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

超分辨率，是将输入的低分辨率的图像，也即小尺寸、像素数量相对较少因而视觉效果较差的图像，重新构建成像素数量相对较多，有着良好的视觉效果的清晰的图片。人脸超分辨率重构是图像超分辨率重构的子任务，它与普通的图像超分辨率任务有所相似却又侧重不同，顾名思义，人脸超分辨率的重点在于人脸的五官以及人脸轮廓的重建，因而全局与局部细节有着不同程度的重建。人脸超分辨率重构应用广泛，由于公共监控平台设备性能受限，采集到的人脸往往是退化严重的低分辨率的人脸图像，因此需要对其进行预处理操作，也就是进行人脸超分辨率重构，经过重构的人脸图片分辨率大幅提高，五官清晰可辨，这对后续的人脸解析，人脸对齐以及人脸识别等任务都起到了极大的作用。早期的人脸超分辨率重建的传统方法主要有两种：基于图像插值的方法，例如双三次插值、最邻近插值法等，但是此种方法重建出的图像会有细节丢失的问题；基于图像重建的方法，例如迭代反投影和最大后验法，算法模型小且计算速度快，但是重建性能有所限制。随着深度学习时代的到来，在卷积神经网络在超分辨率重构上的应用取得突破性进展后，图像超分辨率重构领域掀起了神经网络的热潮。

在过去的数十年中，卷积神经网络在超分辨率研究方向上取得了显著的进展，展示了优于传统方法的卓越性能。但是神经网络的方法通常需要大量的内存与计算单元，这给在计算有限的设备上实施部署超分辨率模型带来了挑战。研究者们开始把研究方向转向神经网络的压缩和加速以降低计算成本，提出了模型剪枝、低秩分解、轻量化模型构建与知识蒸馏等几种方法，其中，知识蒸馏是一种基于“教师-学生网络”训练模式的压缩模型的方法，可以在不改变模型结构的情况下提升模型的性能，以再现更大网络的输出。大多数知识蒸馏方法关注于高级任务，比如在分类方面已经证明其是一种有效的方法，近年来，一些学者试着将知识蒸馏的方法应用在图像回归任务，在超分辨率领域也取得了不错的效果。

发明人发现，人脸超分辨率网络模型效果的提升除了设计优越的网络框架，也依赖于网络深度的加深，然而，随着非常深的卷积神经网络模型的使用，计算时间和内存消耗也在增加，这给在计算量有限的设备上实时部署超分辨率模型带来了挑战。虽然知识蒸馏的方法可以在无需使用特殊硬件的情况下显著提高效率，但是这是以生成图像质量的轻微下降为代价的，并且学生网络的表现很依赖于教师网络的指导精度。

发明内容

为了解决上述问题，本发明提出了一种基于双重广义蒸馏的人脸超分辨率重构方法及系统，本发明其目的是获得一个性能优越且可以部署在移动设备上的小模型。教师网络与学生网络都使用了广义蒸馏的方法来获取人脸原图的特权信息以辅助训练，提取两个网络的中间特征图，旨在减小二者之间的余弦距离来训练学生网络的参数权重，并通过像素损失来监督训练。

根据一些实施例，本发明的第一方案提供了一种基于双重广义蒸馏的人脸超分辨率重构方法，采用如下技术方案：

一种基于双重广义蒸馏的人脸超分辨率重构方法，包括：

获取监控视频中行人的低分辨率人脸图像并进行预处理；

基于预处理后的低分辨率人脸图像，利用预先训练好的人脸超分辨率重构网络模型中的第二网络模型进行超分辨率重构；

其中，所述人脸超分辨率重构网络模型的训练过程，具体为：

获取高清人脸图像进行预处理，得到高分辨率图像和低分辨率图像；

利用高分辨率图像和低分辨率图像，分别训练人脸超分辨率重构网络模型中的第一网络模型，得到第一特权信息注意力图和第一中间注意力图；

利用高分辨率图像和低分辨率图像，分别训练人脸超分辨率重构网络模型中的第二网络模型，得到第二特权信息注意力图和第二中间注意力图；

通过减小第一特权信息注意力图和第一中间注意力图的余弦距离作为第一网络模型的蒸馏损失进行辅助训练；

通过减小第二特权信息注意力图和第二中间注意力图的余弦距离作为第二网络模型的第一蒸馏损失以及减少第一中间注意力图和第二中间注意力图的余弦距离作为第二网络模型的第二蒸馏损失共同进行辅助训练；

得到训练好的人脸超分辨率重构网络模型。

进一步地，所述获取监控视频中行人的低分辨率人脸图像并进行预处理，包括：

基于监控视频，提取行人的低分辨率人脸图像；

对低分辨率人脸图像进行随机旋转和水平翻转以进行数据增强；

得到预处理后的低分辨率人脸图像。

进一步地，所述获取高清人脸图像进行预处理，得到高分辨率图像和低分辨率图像，包括：

获取高清人脸图像；

基于高清人脸图像进行裁剪，得到高分辨率图像；

对高分辨率图像进行双三次插值下采样，得到低分辨率图像。

进一步地，所述第一网络模型为教师网络模型，所述教师网络模型包括提取高分辨率图像特权信息特征图的第一教师分支网络，和使用像素损失和蒸馏损失进行监督训练的并生成超分辨率图像的第二教师分支网络；

所述第二网络模型为学生网络模型，所述学生网络模型包括提取高分辨率图像特权信息特征图的第一学生分支网络，和使用像素损失和蒸馏损失进行监督训练的并生成超分辨率图像的第二学生分支网络。

进一步地，利用高分辨率图像和低分辨率图像，分别训练人脸超分辨率重构网络模型中的第一网络模型，得到第一特权信息注意力图和第一中间注意力图，包括：

基于高分辨率图像，利用人脸超分辨重构网络模型中的第一网络模型中的第一教师分支网络提取特权信息特征图，信息特权特征图经过注意力加权后得到第一特权信息注意力图；

基于低分辨率图像，利用人脸超分辨重构网络模型中的第一网络模型中的第二教师分支网络提取中间网络层输出的中间特征图，中间特征图经过注意力加权后得到第一中间注意力图；

基于低分辨率图像，利用基于低分辨图像训练的第一网络模型中的第二教师分支网络生成第一重建图像。

进一步地，利用高分辨率图像和低分辨率图像，分别训练人脸超分辨率重构网络模型中的第二网络模型，得到第二特权信息注意力图和第二中间注意力图，具体为：

基于高分辨率图像，利用人脸超分辨重构网络模型中的第二网络模型中的第一学生分支网络提取特权信息特征图，信息特权特征图经过注意力加权后得到第二特权信息注意力图；

基于低分辨率图像，利用人脸超分辨重构网络模型中的第二网络模型中的第二学生分支网络提取中间网络层输出的中间特征图，中间特征图经过注意力加权后得到第二中间注意力图；

基于低分辨率图像，利用基于低分辨率图像训练的第二网络模型中的第二学生分支网络生成第二重建图像。

进一步地，所述人脸超分辨率重构网络模型的第一网络模型还利用生成的第一重建图像和高分辨率图像之间的像素损失进行监督训练；

所述人脸超分辨率重构网络模型的第二网络模型还利用生成的第二重建图像和高分辨率图像之间的像素损失进行监督训练。

根据一些实施例，本发明的第二方案提供了一种基于双重广义蒸馏的人脸超分辨率重构系统，采用如下技术方案：

一种基于双重广义蒸馏的人脸超分辨率重构系统，包括：

图像获取模块，被配置为获取监控视频中行人的低分辨率人脸图像并进行预处理；

图像重构模块，被配置为基于预处理后的低分辨率人脸图像，利用预先训练好的人脸超分辨率重构网络模型中的第二网络模型进行超分辨率重构；

得到训练好的人脸超分辨率重构网络模型。

根据一些实施例，本发明的第三方案提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的一种基于双重广义蒸馏的人脸超分辨率重构方法中的步骤。

根据一些实施例，本发明的第四方案提供了一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的一种基于双重广义蒸馏的人脸超分辨率重构方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明提出了教师网络和学生网络都分别使用广义蒸馏的方法来辅助生成效果更好的人脸图像，对高分辨率图像特权信息的利用可以将高频信息输入进网络，补充了退化图像所不具有的信息；提出使用特权信息指导学习时，选用注意力图用于蒸馏可以让网络更关注需要重建的面部细节，可以使网络所生成的重建图像有着良好的视觉效果。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例中基于双重广义蒸馏的人脸超分辨率重构方法流程图；

图2是本发明实施例中基于双重广义蒸馏的人脸超分辨率重构方法示意图；

图3是本发明实施例中教师网络框架示意图；

图4是本发明实施例中学生网络框架示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

术语解释：

特征图：具有宽度、高度、通道数三维信息的特征图，(W×H×C)。

注意力图：特征图经过注意力机制后得到的张量，同样具有，宽度、高度、通道数三维信息，(W×H×C)。

广义蒸馏：使用特权信息进行学习是一种机器学习方法，它在训练时使用额外的信息，这需要额外的成本，但在测试时无法访问。广义蒸馏涵盖了特征提取和使用特权信息的学习，广义蒸馏能够将教师网络的特权知识传授给学生网络。

实施例一

如图1所示，本实施例提供了一种基于双重广义蒸馏的人脸超分辨率重构方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

获取监控视频中行人的低分辨率人脸图像并进行预处理；

基于预处理后的低分辨率人脸图像，利用预先训练好的人脸超分辨率重构网络模型中的第二网络模型进行超分辨率重构。

本公开的一种实施例中提供了一种基于双重广义蒸馏的人脸超分辨率重构方法，应用于人脸识别、人脸解析等实际领域，如图1所示，包括：

步骤1：获取用于训练的数据集以及采集待检测的监控视频，并从所述监控视频中提取行人的低分辨率人脸图像；

步骤2：对所述数据集进行处理获取高分辨率图像集和低分辨率图像集，并同时对监控录像中所获取的低分辨率人脸图像进行预处理；

步骤3：将高低分辨率图像集输入至基于双重广义蒸馏的人脸超分辨率重构网络中的教师网络，训练并获取训练完成的教师网络模型；

步骤4：将高低分辨率图像集输入至基于双重广义蒸馏的人脸超分辨率重构网络中的学生网络，训练并获取训练完成的学生网络模型；

步骤5：将预处理过的低分辨率人脸图像输入至训练好的基于双重广义蒸馏的人脸超分辨率重构网络中的学生网络模型中，输出超分辨率图像。

作为一种实施例，获取待检测的视频，从视频中提取行人的低分辨率人脸图像；

利用基于双重广义蒸馏的人脸超分辨重构方法对监控视频中的低分辨率人脸图像进行超分辨率重构，为下一阶段人脸识别、人脸解析等操作做准备；

其中，人脸超分辨率重构时所述基于双重广义蒸馏的超分辨率网络被配置为：将数据集中的图像进行处理得到高分辨率图像集与低分辨率图像集，高低分辨率图像集进入教师网络进行训练，然后训练好的教师网络模型用于指导学生网络训练，学生网络使用的数据集同样是高低分辨率图像集，训练好的学生网络用于在测试阶段对输入的低分辨率人脸图像进行重建生成超分辨率图像。

其中，基于双重广义蒸馏的人脸超分辨重构网络模型的训练过程为：

对数据集中的图片首先进行裁剪操作获取人脸高分辨率图像，随后再对高分辨率图像进行双三次插值下采样得到人脸低分辨率图像，并随机旋转90°、180°、270°和水平翻转以进行数据增强，输入到训练网络中。

该网络由两部分构成，第一部分为教师网络，第二部分为学生网络。

教师网络与学生网络都使用了广义蒸馏的方法来获取人脸原图的特权信息以辅助训练，通过减小两个网络的中间特征图的余弦距离来训练学生网络的参数权重，并通过像素损失来监督训练。

通过监督教师网络与学生网络中间特征图之间的余弦距离以及超分辨率图像与高分辨率图像之间的像素损失值，优化网络中各个卷积层的参数。

下面以监控视频场景为例来详细说明，基于双重广义蒸馏的人脸超分辨重构网络的训练过程为：

具体地，S1：获取用于训练的数据集，并依此获得高低分辨率数据集；同时收集监控视频，从视频中提取行人低分辨率人脸图像，图像大小为任意尺度，对图像进行命名，进而形成低分辨率图像的测试集。

步骤S1的具体过程为：

S1.1：用于训练的数据集中包含了海量高清人脸图像，为减小训练难度对其进行裁剪获得只包含人脸的128×128的高分辨率人脸数据集，并对高分辨率人脸数据集中的图像进行双三次插值下采样获得16×16的低分辨率人脸数据集。

S1.2：视频由一系列快速变化的帧形成，同一行人可能出现在数十帧，采用过线采集的办法，当行人经过视频中划定的线时采集其低分辨率图像；利用双三次插值方法将低分辨率图像统一大小：16×16，形成低分辨率图像的测试集。

S2：将上述步骤得到的高低分辨率图像训练集输入到如图2所示的基于双重广义蒸馏的人脸超分辨率重构网络中进行训练。退化的低分辨率人脸图像与提供特权信息的高分辨率人脸图像均在教师网络与学生网络中传播，教师模型是一个强大而笨重的模型，学生网络则是一个轻量级的小网络。在本实施例提出的网络框架中，教师网络与学生网络都共享具有不同超参数(例如网络深度)的相同架构，设置教师网络有nt个网络层级，学生网络有ns个网络层级，nt>ns。而每个网络层具体的结构是根据实际应用场景和处理对象进行适应性选择的，此处不再赘述；为将教师网络的参数权重等知识有效地从教师模型传递到学生模型，使用蒸馏损失函数迫使学生网络的中间特征图去靠近教师网络的中间特征图，此外，学生网络输出的重建图像与HR图像之间的像素损失也用来优化学生网络的参数。其中中间特征图指的是教师网络或者学生网络中的每个网络层输出的中间特征图。

另外，需要说明的是，教师网络中的两个分支网络的结构是相同的，作用不同，在训练阶段，一个用于提取高分辨率图像的特权信息特征图，一个用于提取低分辨率图像的中间特征图；同理，学生网络中的两个分支网络的结构也是相同的，作用不同，在训练阶段，一个用于提取高分辨率图像的特权信息特征图，一个用于提取低分辨率图像的中间特征图；而在测试阶段，只使用训练好的学生网络中的④分支网络模型进行测试。

步骤S2的具体过程为：

S2.1：如图2中左边标号①和式(1)和(2)所示，首先将HR(高分辨率)图像I^HR送进教师网络中标号为①的分支网络来提取特权信息特征f₁ ⁱ(i＝1,2,...,nt)，该分支记为net_T_HR，即第一教师分支网络，一共提取nt个第一特权信息特征图，随后这些第一特权信息特征图经过注意力A(*)加权后得到特权信息注意力图

[f₁ ¹,f₁ ²,...,f₁ ^nt]＝net_T_HR(I^HR) (1)

S2.2：如式(3)和(4)所示，接着将退化的低分辨率图像I^LR送进教师网络中标号为②的分支网络来生成第一重建图像I^SR_T，该分支网络记为net_T_LR，即第二教师分支网络。与net_T_HR一样，同样需要提取nt个第一中间特征图并经过注意力A(*)加权后得到第一中间注意力图/> net_T_LR需要从net_T_HR中提取出的第一特权信息注意力图通过蒸馏损失辅助训练，同时通过I^SR_T与I^HR之间的像素损失来监督训练，关于损失函数的具体介绍见S3步骤。

[f₂ ¹，f₂ ²，...，f₂ ^nt]，I^SR_T＝net_T_LR(I^LR) (3)

需要说明的是，第一重建图像是第二教师分支网络所需要生成重建的超分辨率图像，尺寸为128*128*3，第一中间特征图是从第二教师分支网络的中间网络层提取出的特征图，尺寸为128*128*48，第一中间注意力图是对第一中间特征图进行注意力加权操作，具体地来说是使用通道注意力和空间注意力对第一中间特征图的通道维度与H*W维度进行加权，然后得到第一中间注意力图，尺寸仍为128*128*48，此处的第一中间注意力图包含两部分，一个是通道注意力加权后得到的第一通道注意力图，一个是空间注意力加权后得到的第一空间注意力图。

S2.3：教师网络训练完毕后，开始学生网络的训练。与教师网络类似，如图2中左边标号③和式(5)、(6)所示，先将高分辨率人脸图像I^HR送进学生网络中标号为③的分支网络来提取第二特权信息特征该分支记为net_S_HR，即第一学生分支网络，一共提取ns个第二特权信息特征图，随后这些第二特权信息特征图经过注意力A(*)加权后得到第二特权信息注意力图/>

S2.4：最后是需要部署到移动设备上的网络模型的训练，在图2中标号为④，记为net_S_LR，即第二学生分支网络。如式(7)和(8)所示，退化的低分辨率图像I^LR送进net_S_LR分支生成第二重建图像I^SR_S，同时提取出ns个第二中间特征图并经过注意力A(*)加权后得到第二中间注意力图/> net_S_LR不仅使用由net_S_HR提取出的第二特权信息注意力图来蒸馏，还使用net_T_LR的第一中间特征图进行特征蒸馏，也即net_S_LR分支使用了两个蒸馏损失，同时通过I^SR_S与I^HR之间的像素损失来监督训练。

[f₁ ⁴，f₂ ⁴，...，f₄ ^ns]，I^SR_S＝net_S_LR(I^LR) (7)

第二重建图像是第二学生分支网络所需要生成重建的超分辨率图像，尺寸为128*128*3，第二中间特征图是从第二学生分支网络的中间网络层提取出的特征图，尺寸为128*128*48，第二中间注意力图是对第二中间特征图进行注意力加权操作，具体地来说是使用通道注意力和空间注意力对中间特征图的通道维度与H*W维度进行加权，然后得到第二中间注意力图，尺寸仍为128*128*48，此处的第二中间注意力图包含两部分，一个是通道注意力加权后得到的第二通道注意力图，一个是空间注意力加权后得到的第二空间注意力图。

S3：如在S2步骤中介绍的一样，net_T_LR分支与net_S_LR分支均使用了蒸馏损失函数与像素损失函数。

net_T_LR的蒸馏损失选取减小net_T_HR的第一特权信息注意力图与net_T_LR的第一中间注意力图的余弦距离的方法。而net_S_LR分支使用了两个蒸馏损失，其中一个蒸馏损失与net_T_LR的选取类似；另一个蒸馏损失则是通过减少net_S_LR的第二中间特征图与net_T_LR的第一中间特征图的余弦距离来监督学习的。

在式(9)中，T和S分别代表传递知识的网络和需要接收知识的网络，ρ^k表示网络T与网络S第k层提取的用于蒸馏的特征图之间的余弦距离，<*,*>表示余弦相似性，||*||₂表示L₂范数，f^k表示的是第k层提取的用于蒸馏的特征图。因此，和/>分别是从传递知识的网络和接受知识的网络的第k层提取用于蒸馏的特征图，减少二者之间的余弦距离可以增加它们的相似性。

具体地，在本实施例提出的模型中用来蒸馏的特征图与注意力图的蒸馏损失分别如式(10)和(11)所示：

其中，和/>分别表示两个网络中间的特征图、通道注意力图与空间注意力图的余弦距离，式(11)所描述的蒸馏损失是对二者进行平均，并在主干网络的层(k＝1,2,...,n)上将它们相加，n是用于蒸馏的层数。

使用L1损失函数来计算网络生成的重建图像与原图之间的像素损失，如式(12)所示，I^HR与I^SR分别表示高分辨率图像与生成重建图像。

式(10)、(11)与(12)分别描述了蒸馏损失函数与像素损失函数如何计算的。net_T_LR网络分支与net_S_LR网络分支都使用了损失函数，更具体地描述分别如式(13)与(14)所示：

其中，和/>分别表示蒸馏损失和像素损失的超参数。/>和/>的上标TT代表是教师网络的两个分支之间的蒸馏，TS代表是net_T_LR和net_S_LR两个分支之间的蒸馏，SS代表是学生网络的两个分支之间的蒸馏。同样，/> 和/>分别表示教师网络两个分支第k层注意力图之间的余弦距离、net_T_LR和net_S_LR两个分支第k层中间特征图之间的余弦距离和学生网络两个分支第k层注意力图之间的余弦距离，F表示特征图，C表示通道注意力图，S表示空间注意力图；/>和/>的上标T表示是教师网络net_T_LR分支，S是学生网络net_S_LR分支。

本实施例所述的方法包括采集待检测的监控视频，从所述监控视频中提取行人的低分辨率人脸图像；对所述低分辨率人脸图像进行预处理；对处理后的低分辨率图像输入至训练好的基于双重广义蒸馏的人脸超分辨率重构网络中进行重构。训练阶段，将数据集中的图像进行处理得到高分辨率图像集与低分辨率图像集，高低分辨率图像集进入教师网络进行训练，然后训练好的教师网络模型用于指导学生网络训练，学生网络使用的数据集同样是高低分辨率图像集，训练好的学生网络用于在测试阶段对输入的低分辨率人脸图像进行重建生成超分辨率图像。

本实施例利用基于双重广义蒸馏的人脸超分辨重构网络解决监控视频中的人脸超分辨率重构问题，可以获得一个部署在移动设备上的小模型，并且能有效为人脸识别等提供帮助。教师网络和学生网络都分别使用广义蒸馏的方法来辅助生成效果更好的人脸图像，对高分辨率人脸图像特权信息的利用可以将高频信息输入进网络，补充了退化图像所不具有的信息。使用特权信息指导学习时，选用注意力图用于蒸馏可以让网络更关注需要重建的面部细节。

实施例二

本实施例提供了一种基于双重广义蒸馏的人脸超分辨率重构系统

得到训练好的人脸超分辨率重构网络模型。

上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种基于双重广义蒸馏的人脸超分辨率重构方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种基于双重广义蒸馏的人脸超分辨率重构方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于双重广义蒸馏的人脸超分辨率重构方法，其特征在于，包括：

获取监控视频中行人的低分辨率人脸图像并进行预处理；

将第一特权信息注意力图和第一中间注意力图的余弦距离作为第一网络模型的蒸馏损失函数，通过减小蒸馏损失函数来进行辅助训练；

将第二特权信息注意力图和第二中间注意力图的余弦距离作为第二网络模型的第一蒸馏损失函数，并将第一中间注意力图和第二中间注意力图的余弦距离作为第二网络模型的第二蒸馏损失函数，通过减小第一蒸馏损失函数与第二蒸馏损失函数来进行辅助训练；

得到训练好的人脸超分辨率重构网络模型；

所述第一网络模型为教师网络模型，所述教师网络模型包括提取高分辨率图像特权信息特征图的第一教师分支网络，和使用像素损失和蒸馏损失进行监督训练的并生成超分辨率图像的第二教师分支网络；

所述第二网络模型为学生网络模型，所述学生网络模型包括提取高分辨率图像特权信息特征图的第一学生分支网络，和使用像素损失和蒸馏损失进行监督训练的并生成超分辨率图像的第二学生分支网络；

基于低分辨率图像，利用人脸超分辨重构网络模型中的第二网络模型中的第二学生分支网络提取中间网络层输出的中间特征图，中间特征图经过注意力加权后得到第二中间注意力图。

2.如权利要求1所述的一种基于双重广义蒸馏的人脸超分辨率重构方法，其特征在于，所述获取监控视频中行人的低分辨率人脸图像并进行预处理，包括：

基于监控视频，提取行人的低分辨率人脸图像；

得到预处理后的低分辨率人脸图像。

3.如权利要求1所述的一种基于双重广义蒸馏的人脸超分辨率重构方法，其特征在于，所述获取高清人脸图像进行预处理，得到高分辨率图像和低分辨率图像，包括：

获取高清人脸图像；

基于高清人脸图像进行裁剪，得到高分辨率图像；

4.如权利要求1所述的一种基于双重广义蒸馏的人脸超分辨率重构方法，其特征在于，基于低分辨率图像，利用基于低分辨图像训练的第一网络模型中的第二教师分支网络生成第一重建图像。

5.如权利要求4所述的一种基于双重广义蒸馏的人脸超分辨率重构方法，其特征在于，基于低分辨率图像，利用基于低分辨率图像训练的第二网络模型中的第二学生分支网络生成第二重建图像。

6.如权利要求5所述的一种基于双重广义蒸馏的人脸超分辨率重构方法，其特征在于，所述人脸超分辨率重构网络模型的第一网络模型还利用生成的第一重建图像和高分辨率图像之间的像素损失进行监督训练；所述人脸超分辨率重构网络模型的第二网络模型还利用生成的第二重建图像和高分辨率图像之间的像素损失进行监督训练。

7.一种基于双重广义蒸馏的人脸超分辨率重构系统，其特征在于，包括：

得到训练好的人脸超分辨率重构网络模型；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的一种基于双重广义蒸馏的人脸超分辨率重构方法中的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的一种基于双重广义蒸馏的人脸超分辨率重构方法中的步骤。