CN115147277A

CN115147277A - 一种基于自蒸馏对比学习的超分辨率模型加速方法

Info

Publication number: CN115147277A
Application number: CN202210782436.5A
Authority: CN
Inventors: 谢源; 王烟波; 张志忠; 马利庄
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-10-04

Abstract

本发明公开了一种基于自蒸馏对比学习的超分辨率模型加速方法，采用自蒸馏框架引入基于对比学习的损失函数，在一个参数量较大的教师模型中选取每一层的前1/r的通道构成多个学生模型，并采用渐进式方式进行训练。测试阶段，利用输入图像的特征，估计图像复原难度为其选择最合适的分支，进行动态推理。本发明具有即插即用性，对目前现有的所有超分辨率模型同时进行压缩和加速；通过使用对比损失，对解空间的上下界进行约束，在减少模型参数量的同时保证模型的性能，使复原得到的图片有更强的真实性。采用渐进式训练，可以保证多个模型的一致性和训练稳定性。通过动态推理策略，“简单”输入可以使用“简单”分支，实现复原效果和计算量更优的平衡。

Description

一种基于自蒸馏对比学习的超分辨率模型加速方法

技术领域

本发明涉及数字图像的超分辨率技术领域，尤其是一种基于自蒸馏对比学习的超分辨率模型加速方法。

背景技术

随着数字图像成像设备技术的进步，通过相机、平板、手机、监控等设备获取的图像的数量呈指数级增长。得益于深度学习的快速发展，人们利用这些图像进行图像分类、语义分割、行人重识别等任务，极大便利了人们的日常生活。这些计算机视觉系统的性能通常受所获取图像质量的影响，然而由于成像系统、大气环境和处理方法的不完善，数字图像在形成、传输、存储过程中会受到一定程度的丢失或损坏。因此，使用超分辨率技术恢复图像丢失的细节，提升后续任务的准确性具有重要的价值。

近年来随着深度学习的不断发展，基于深度学习的超分辨率算法取得了长足的进步，这些算法在客观评价指标和主观评价指标上都超过了基于先验的传统方法。有越来越多的学者开始研究构建更精巧的神经网络结构以更充分利用图像中的信息，这也导致基于深度学习的超分辨率算法所需的内存和计算量也显著增加。

现有技术存在着超分辨率模型参数量和计算量过大，对超分辨率模型的部署造成了一定的困难。

发明内容

本发明的目的是针对现有技术的不足而提出的一种基于自蒸馏对比学习的超分辨率模型加速方法，采用自蒸馏框架引入基于对比学习的损失函数的方法，通过训练一个参数量较大的教师模型，从中选取每一层的前1/r的通道构成多个学生模型，其参数与教师模型共享，并利用教师模型的预测输出、负样本和高分辨率图像计算重建损失和对比损失。在实际部署中，可以在资源受限的设备上单独部署学生模型，或是在资源较为充裕的设备上部署教师模型，根据运行时资源配置实现动态调整。同时本发明提供了一种动态推理策略，对于“简单”输入可以使用“简单”(参数量小)的分支，实现复原效果和计算量更优的平衡。该方法保证了超分辨率算法的性能以及图片复原质量，同时又大大减少了模型的参数量和计算量可以对目前现有的所有超分辨率模型同时进行压缩和加速，具有即插即用性，在压缩和加速的同时仍能保证生成图像的真实性。

本发明的目的是这样实现的：

一种基于自蒸馏对比学习的超分辨率模型加速方法，特点是采用自蒸馏的框架，构建多个参数共享分支。引入基于对比学习的损失函数及渐进式训练方式，确保各个分支达到最佳性能，在测试阶段可根据计算量需要选择特定分支或实施动态推理策略，实现模型压缩和加速，具体包括下述步骤：

步骤1：数据集准备与预处理

1-1：收集内容一致的低分辨率图和高分辨率图作为图像对，将其以8:2比例划分为训练集和测试集，所述低分辨率图的分辨率为高分辨率图的1/s；所述图像对的文件格式为PNG；

1-2：将所述训练集的图片采用随机翻转或随机裁剪进行数据增广；

步骤2：超分辨率模型的构建

2-1：构建由浅层特征提取模块、深层特征提取模块、上采样模块和重建模块组成的超分辨率模型，即教师超分辨率模型，所述上采样模块的输出大小为其输入大小的s倍，s∈{2,3,4}，而浅层特征提取模块、深层特征提取模块和重建模块的输出大小与输入大小一致；

2-2：将教师超分辨率模型划分出n个子模型，即压缩比率分别为1>r₂>…>r_n>0的学生超分辨率模型；其中r₁＝1，为教师超分辨率模型；子模型每一层所使用的通道数为教师超分辨率模型的r_i倍，r_i为预先设定的压缩比率，实际参数量压缩比为1/r_i ²；

步骤3：训练教师超分辨率模型

3-1：将步骤1处理好的低分辨率图片输入教师超分辨率模型进行特征提取与复原，得到三通道预测复原图，其分辨率为输入图片分辨率的s倍；

3-2：将步骤3-1获得的预测复原图和步骤1处理好的高分辨率图计算重建损失函数值；

3-3：当网络迭代次数达到设置的阈值时，停止训练；

步骤4：训练学生超分辨率模型

4-1：将步骤1处理好的低分辨率图片输入压缩比率为r_i的学生超分辨率模型进行特征提取与复原，1<i≤n，得到三通道预测复原图O_i，其分辨率为输入图片分辨率的s倍；

4-2：将步骤1处理好的低分辨率图片输入压缩比率为r_j的学生超分辨率模型进行特征提取与复原，1≤j<i，得到i-1张三通道预测复原图{O₁,…,O_j,…,O_i-1}，其分辨率均为输入图片分辨率的s倍；

4-3：将步骤4-1及步骤4-2得到的每张复原图分别和高分辨率图计算重建损失，加权求和得到总重建损失函数值，所述权重为1；

4-4：将复原图O_i-1作为正样本，将低分辨率图利用双三次插值的方法得到对应的上采样图像作为负样本，将复原图O_i作为锚点分别输入到预训练的VGGNet19模型中，提取其第1层、第3层、第5层、第9层和第13层的高维特征，加权求和得到对比损失函数值；

4-5：将步骤4-3得到的总重建损失函数值与步骤4-4得到的对比损失函数值加权求和得到总损失函数值，所述对比损失函数的权重为200；

4-6：当网络迭代次数达到设置的阈值时，停止训练；

4-7：以i＝2至i＝n的顺序重复步骤4-1至步骤4-6训练学生超分辨率模型；

步骤5：输入图像复原难度估计

5-1：设定复原难度阈值{0<Γ₁<…<Γ_n-1<∞}

5-2：将步骤1划分出的测试集中的低分辨率图作为输入图像，将输入图像下采样，得到大小为输入图像1/s的参考图像；

5-3：对步骤5-2得到的参考图像，使用双三次插值方式上采样s倍，得到与输入图像相同大小的参考复原图像；

5-4：将步骤5-3得到的参考复原图像与输入图像计算PSNR值作为输入图像的复原难度估计值γ；γ越高表明该输入图像复原难度越低，使用步骤2中压缩比率r较小的学生模型即可；

步骤6：超分模型的测试

6-1：根据测试时规定计算量选择学生超分辨率模型；

6-2：使用步骤6-1选择的超分辨率模型分支复原测试集中的图像，得到结果并计算平均测试精度，所述测试精度为PSNR和SSIM；

6-3：使用步骤5对测试集中每张低分辨率图估计复原难度，并将步骤5-4得到的复原难度估计值γ分别与步骤5-1预设定阈值比较，为每张图像选择最佳效率-性能权衡的学生超分模型分支；

6-4：使用步骤6-3选择的超分辨率模型分支分别复原测试集中的图像，得到结果并计算平均测试精度，所述测试精度为PSNR和SSIM。

所述步骤4-3中同时进行步骤4-4，以加权求和的方式进行计算，其中重建损失的权重为1，对比损失的权重为200。

所述步骤4-7中学生超分辨率模型的训练顺序为i＝2至i＝n，即以从宽到窄的顺序渐进训练，每一步使用上一级宽度网络复原结果作为正样本。每一步训练时均需计算对比损失，以及所有前序宽度网络的重建损失。

所述步骤4中的对比损失函数的计算方式具体包括：

A1：计算锚点与负样本第i层高维特征的L1距离函数作为距离d1；

A2：计算锚点与正样本第i层高维特征的L1距离函数作为距离d2；

A3：计算d1与d2的比值作为第i层的对比损失函数值；

A4：计算每层高维特征的对比损失函数值的加权和，其中，第1层、第3层、第5层、第9层和第13层的高维特征的权重分别为：1/32；1/16；1/8；1/4；1。

所述步骤5利用了输入图像自身特性，估计复原难度，作为选取最佳效率-性能权衡模型的依据。

本发明与现有技术相比具有即插即用性，在压缩和加速的同时仍能保证生成图像的真实性，大大减少了模型的参数量和计算量，可以对目前现有的所有超分辨率模型同时进行压缩和加速，通过使用对比损失，对解空间的上下界进行约束，在减少模型参数量的同时保证模型的性能，使复原得到的图片有更强的真实性。

附图说明

图1为本发明流程图；

图2为模型构建与训练框架图；

图3为复原难度估计框架图；

图4为复原效果比较图；

图5为不同损失函数复原效果比较图；

图6为压缩-性能比较图；

图7为加速-性能比较图；

图8为性能提升比较图；

图9为不同大小模型性能-计算量比较图；

图10为动态推理下性能-计算量比较图。

具体实施方式

下面以放大倍数s＝4、网络个数n＝4、压缩率1/r＝[1.0,0.75,0.5,0.25]、主干网络结构为EDSR的实施例对本发明作进一步的详细说明。

实施例1

参阅附图1，本发明在训练阶段中，主要分为数据集预处理、教师网络(教师超分模型)预训练和学生网络(学生超分模型)训练三部分。

A1：使用的数据集为公开数据集DIV2K、Set5和Urban100.DIV2K包含1000张分辨率为2K的图片，从中选取800张作为训练集，剩余200张构成测试集，验证集由DIV2K、Set5和Urban100构成。所有图片使用双三次插值的方式生成对应的低分辨率图片，原分辨率为2K的图片为高分辨率图片；

A2：在训练过程中，对所有训练集图片进行预处理以增加模型的泛化能力，主要包括随机裁剪大小为192的子图，水平垂直翻转等技术。

参阅附图2，本发明采用渐进式训练方式训练具有4个分支的模型，目的是避免分支个数增多时子模型之间所学特征产生冲突，降低学习难度，在保证前序模型性能同时训练当前模型。第2个学生超分辨率模型的训练及损失函数计算过程如下：

B1：使用教师超分辨率模型和第1个学生超分辨率模型对输入的低分辨率图像进行特征提取与复原。输出2张复原预测图，与步骤A1中的高分辨率图像计算重建损失。

B2：第2个学生超分辨率模型的网络结构同教师超分辨率模型相同，不同处在于学生超分辨率模型每一层所使用的通道数为教师超分辨率模型通道数的0.5倍。选取教师超分辨率模型每一层的前1/2的通道，使用这部分参数构成学生超分辨率模型。第1个学生超分辨率模型的网络每一层所使用的通道数为教师超分辨率模型通道数的0.75倍，在第2个学生超分辨率模型之前进行训练，训练过程类似。

B3：使用第2个学生超分辨率模型对输入的低分辨率图像进行特征提取与复原，输出复原预测图，与高分辨率图像计算重建损失。

C1：对步骤B1和步骤B3得到的复原预测图均采用L1损失作为重建损失，且由下述(1)式计算：

L₁(φ(I,r),J)＝min|J-φ(I,r)|₁ (1)

该公式定义了模型的重建损失函数，目的是衡量模型输出结果与原始标签值的误差。式中：φ(I,w)表示超分网络的输出，I为输入的低分辨率图像，r为模型的压缩比率；J表示与输入低分辨率图对应的高分辨率图。

C2：仅使用重建损失约束教师网络和学生网络，两个网络在训练中会出现困难，难以找到共同的优化方向并出现伪影和失真。针对这个问题，本发明引入了对比损失函数，显式迁移教师网络的知识到学生网络中，并为学生网络提供解空间下界的约束。对比学习是指给定一个样本(或称为锚点)，使其靠近正样本，远离负样本。本实施例中第1个学生超分辨率模型的复原结果为锚点，教师超分辨率模型的复原结果为正样本，将输入的低分辨率图插值得到的结果作为负样本，构成三元组。使用一个预训练的特征提取器获得锚点、正样本和负样本的高维空间特征，在高维空间中计算损失函数。同时考虑到仅希望锚点向正样本靠近，而不希望正样本退化，向锚点靠近，因此不回传正样本在对比损失中产生的梯度值。

所述对比损失函数由下述(2)式计算：

该公式定义了对比损失，目的是利用正样本约束学生超分辨率模型，将知识显式地迁移到学生网络，同时提供解空间的下界。式中：G_k(·),bic(·),sg(·)分别表示预训练的特征提取器、双三次插值操作和停止计算梯度操作；φ(I,r₃),φ(I,r₂),bic(I)分别表示第2个学生超分辨率模型预测结果(锚点)、第1个学生超分辨率模型预测结果(正样本)和双三次插值图(负样本)；I为输入的低分辨率图像，r₃为第2个学生超分辨率模型的压缩比率，r₂为第1个学生超分辨率模型的压缩比率；ω_k表示特征提取器选定层特征的权重；D为距离函数。

所述教师超分辨率模型的结构可以采用任意现有超分辨率模型结构。训练期间，总体损失函数由下述(3)式计算：

该公式定义了训练使用的总损失函数，式中：α为损失权重，在本实施例中设置为200；使用1张NVIDIA TITAN RTX GPU；使用Adam作为优化器(β₁＝0.9，β₂＝0.999)，学习率初始化为0.0001。

本发明在测试阶段可采用人工选定分支和动态推理两种策略。人工选定分支策略下，动态推理策略根据输入图像的复原难度，为输入图像分配最合适的模型分支，可实现性能-效率的最佳均衡效果。参阅附图3，使用动态推理策略进行测试需首先估计输入低分辨率图像复原难度，过程如下：

D1：将测试图像进行下采样，得到大小为原始输入图像1/s的参考图像。对该参考图像，使用双三次插值方式上采样s倍，得到与测试输入图像相同大小的参考复原图像。测试图像的复原难度可由下式(4)计算得到：

γ(I)＝PSNR(I_LSR,I)＝PSNR(I_LLR↑_s,I)＝PSNR((I↓_s)↑_s,I)(4)

该公式定义了测试图像的复原难度，计算了参考复原图像与原始测试输入图像的PSNR值，γ(I)越大表示复原难度越小，只需宽度较小的学生超分辨率模型，式中：I为输入图像，↓_s表示下采样s倍操作，↑_s表示双三次插值s倍操作。

D2：使用步骤D1计算得到γ(I)与预设定阈值比较，选择特定超分模型分支。若γ(I)∈[Γ₁,Γ₂],则选择第l个学生超分辨率模型作为预测分支。

D3：使用步骤D2选择的超分模型分支复原输入图像，得到结果。

参阅附图4，本发明可以在较好复原图像的高频细节(如物体的边界)，在视觉效果上具有优越性，在仅使用重建损失时，这些高频细节往往过于模糊。其中，图(a)为高分辨率图；图(b)为双三次插值上采样得到的图像；图(c)为仅使用重建损失的学生网络预测图；图(d)为仅使用重建损失与教师网络联合训练的学生网络预测图；图(e)为使用本发明方法训练的学生网络预测图；图(f)为教师网络预测图，其图像下方为对应的PSNR和SSIM值。通过采用本发明复原的图片与对应高分辨率图片的PSNR和SSIM来衡量本发明的性能。

参阅附图5，其中，图(a)为高分辨率图；图(b)为仅使用重建损失的预测；图(c)为使用重建损失和感知损失的预测图；图(d)为本发明所使用的重建损失和对比损失的预测图。

本实施例在3个公开数据集上选用r＝0.25及r＝1.0分支进行测试，分别为DIV2K、Set5、Urban100，同时对EDSR模型进行压缩，其测试结果见如下表1：

表1数据集上的性能提升对比

图像复原质量的评价指标通常使用峰值信噪比(PSNR)和结构相似度(SSIM)来衡量。数值越高，表示复原的图片越接近真实的图片，复原质量越好。采用本发明对EDSR模型进行压缩，模型参数量减小约16倍，且在DIV2K、Set5、Urban100上都取得了性能的提升。

本发明还可以应用于其他超分辨率模型中，对应的压缩-性能比较图和加速-性能比较图及加速-性能比较图参阅附图6和附图7。本发明采用渐进式训练方式训练多个网络，可以保证各个网络之间所学特征具有一定的一致性，相比于直接训练多个网络取得了性能提升(参阅附图8，Pro-CSD为本发明所使用的渐进式训练方式)。此外，采用本发明得到的模型，还可以用于动态装载场景中，用户可以在端侧设备中存储完整模型，在运行时根据当前分配资源情况选择实际装载的模型(学生超分模型或教师超分模型)。

参阅附图9，不同的图像具有不同的难易程度，使用大模型复原简单图像计算量提升巨大但性能提升较小。因此，应对不同图像选取不同分支进行复原。使用本发明提出的动态推理策略，可以获得更为精细的性能-计算量曲线(参阅附图10)。

本发明采用自蒸馏的框架，在实际应用中可以在一个模型中进行教师网络和不同学生网络的切换，而不需使用多个独立的网络以满足不同计算资源的需要。为了更好地将教师网络中的知识引入到学生网络中，引入了基于对比学习的对比损失，以对教师网络的知识进行显式的蒸馏，同时引入负样本为解空间提供下界。为降低网络分支数增多时的学习难度，保证分支之间学习特征的一致性，采用了渐进式的训练方式。考虑到测试样本具有不同的复原难度，本发明利用图像自身的特性，设计了测试阶段使用的动态推理策略。实验证明，本发明可以对现有的超分辨率算法进行有效压缩和加速，同时兼顾性能。

以上只是对本发明作进一步的说明，并非用以限制本发明，凡为本发明等效实施，均应包含于本发明的权利要求范围之内。

Claims

1.一种基于自蒸馏对比学习的超分辨率模型加速方法，其特征在于，采用自蒸馏的框架，构建多个参数共享分支；引入基于对比学习的损失函数及渐进式训练方式，确保各个分支达到最佳性能，在测试阶段通过人工选择分支或实施动态推理策略实现模型地压缩和加速，具体包括下述步骤：

步骤1：数据集准备与预处理

步骤2：超分辨率模型的构建

步骤3：训练教师超分辨率模型

3-3：当网络迭代次数达到设置的阈值时，停止训练；

步骤4：训练学生超分辨率模型

4-6：当网络迭代次数达到设置的阈值时，停止训练；

步骤5：输入图像复原难度估计

5-1：设定复原难度阈值{0<Γ₁<…<Γ_n-1<∞}

步骤6：超分模型的测试

6-1：根据测试时规定计算量选择学生超分辨率模型；

2.根据权利要求1所述基于自蒸馏对比学习的超分辨率模型加速方法，其特征在于，所述学生超分辨率模型与教师超分辨率模型为共享参数的任意网络结构。

3.根据权利要求1所述基于自蒸馏对比学习的超分辨率模型加速方法，其特征在于，步骤4-3所述的加权求和与步骤4-4所述的加权求和同时进行，其对比损失函数的计算过程具体包括：

A1：计算锚点与正样本第i层高维特征的L1距离函数值作为距离d1；

A2：计算锚点与负样本第i层高维特征的L1距离函数值作为距离d2；

A3：计算距离d2与距离d1的比值作为第i层的对比损失函数值；

A4：求每层高维特征的对比损失函数值的加权求和，其中第1层、第3层、第5层、第9层和第13层的高维特征的权重分别为1/32、1/16、1/8、1/4和1。

4.根据权利要求1所述基于自蒸馏对比学习的超分辨率模型加速方法，其特征在于，所述步骤4-7中学生超分辨率模型的训练顺序为i＝2至i＝n，即以从宽到窄的顺序渐进训练，每一步使用上一级宽度网络复原结果作为正样本。

5.根据权利要求1所述基于自蒸馏对比学习的超分辨率模型加速方法，其特征在于，所述步骤5利用了输入图像自身特性，估计复原难度，作为选取最佳效率-性能权衡模型的依据。