CN108629736A

CN108629736A - 用于设计超分辨率深度卷积神经网络的系统和方法

Info

Publication number: CN108629736A
Application number: CN201810213560.3A
Authority: CN
Inventors: 任昊宇; 李正元; 穆斯塔法·坎依
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-03-15
Filing date: 2018-03-15
Publication date: 2018-10-09
Also published as: KR20180105556A; US10803378B2; US20180268284A1; US11900234B2; TWI748041B; KR102420465B1; US20200401870A1; TW201835817A

Abstract

描述了用于产生卷积神经网络的设备和用于制造该设备的方法、系统和方法。在一个方面，例如，训练具有三层或更多层的极小卷积神经网络。可对经训练的卷积神经网络执行级联训练，以插入一个或多个中间层，直至训练错误小于阈为止。当完成级联训练时，可执行从级联训练输出的卷积神经网络的级联网络修剪，以提高计算效率。为了进一步减小网络参数，卷积滤波器可由具有相同感受野的空洞卷积滤波器替代，然后进行额外训练/精调。

Description

用于设计超分辨率深度卷积神经网络的系统和方法

相关申请的交叉引用

本申请要求于2017年3月15日提交的序列号为No.62/471,816的美国临时专利申请以及于2017年7月20日提交的序列号为No.15/655,557的美国非临时专利申请的优先权，所述申请的全部内容以引用方式并入本文中。

技术领域

本公开整体涉及图像超分辨率，并且更具体地说，涉及用于通过级联网络训练、级联网络修剪和空洞卷积来设计有效的超分辨率深度卷积神经网络的系统和方法。

背景技术

超分辨率成像从低分辨率(LR)图像中产生高分辨率(HR)图像。超分辨率(SR)成像具有广泛的适用性，从监视和脸部/虹膜识别至医学图像处理，以及直接提高图像和视频的分辨率。已经在以下方面提出了用于执行SR的许多算法/系统，所述方面从插值(Li,Xin和Orchard,Michael的New edge-directed interpolation，IEEE图像处理(TIP)，第10卷，第10期，第1521-1527页(2001年10月)，全文以引用方式并入本文中)、轮廓特征(Tai,Yu-Wing、Liu,Shuaicheng、Brown,Michael和Lin,Stephen的Super resolution using edgeprior and single image detail synthesis，2010年的IEEE计算机视觉与模式识别国际会议(CVPR)，第2400-2407页，全文以引用方式并入本文中)和统计图像先验知识(Kim,Kwang In和Kwon,Younghee的Single-image super-resolution using sparseregression and natural image prior，IEEE模式分析与机器智能(TPAMI)，第32卷，第6号，第1127-1133页(2010年1月)，全文以引用方式并入本文中)至从补片词典(dictionaryof patches)中学习到的基于示例的方法，诸如邻域嵌入法(Chang,Hong、Yeung,Dit-Yan和Xiong,Yimin的Super-resolution through neighbor embedding，2004年的CVPR，第275-282页，全文以引用方式并入本文中)和稀疏编码(Yang,Jianchao、Wright,John、Huang,Thomas和Ma,Yi的image super-resolution via sparse representation，IEEE TIP，第19卷，第11号，第2861-2873页(2010年11月)，全文以引用方式并入本文中)。

近来，卷积神经网络(CNN)对SR精度提供了明显改进。例如，参见全文以引用方式并入本文中的Dong,Chao、Loy,Chen Change、He,Kaiming和Tang,Xiaoou的Learning adeep convolutional network for image super-resolution，2014年欧洲计算机视觉会议(ECCV)，第184-199页(下文中称作，“2014年Dong等人的论文”)。有时将其称作“SRCNN”(即，超分辨率卷积神经网络)，它们的精度可受到小结构(例如，3层)和/或小上下文感受野的限制。作为响应，研究人员已经提出了增大SRCNN的大小，但是许多提案使用极其大量的参数，并且正在讨论的许多SRCNN不能实时地执行。由于提出了大型网络大小，因此在合适的训练设置(即，学习率、权重初始化和权重衰减)进行猜测会非常困难。结果，训练可能完全不收敛或者落入局部最小值。

发明内容

因此，提出本公开以至少解决本文所述的问题和/或缺点，以及至少提供下面描述的优点。

根据本公开的一方面，提供了一种产生卷积神经网络(CNN)的方法，包括步骤：训练具有三层或更多层的CNN；以及对经训练的CNN执行级联训练，以将一个或多个中间层插入CNN中直至训练错误小于阈为止，其中，级联训练包括一个或多个阶段的迭代处理，其中，级联训练迭代处理的各阶段包括：训练当前CNN；确定训练错误是否收敛；以及如果训练错误收敛，则将预设数量的中间层插入当前CNN中，各个新层的权重设为预定设置，并且开始新的阶段。

根据本公开的一方面，提供了一种产生卷积神经网络(CNN)的方法，包括步骤：训练具有三层或更多层的CNN；以及执行经训练的CNN的级联网络修剪，其中，级联网络修剪包括一个或多个阶段的迭代处理，其中，各阶段包括：通过在一个或多个中间层减小滤波器的维度来修剪当前CNN的设定数量的层；确定训练错误是否收敛；以及如果训练错误收敛，则确定是否修剪了当前CNN的所有层；如果修剪了当前CNN的所有层，则输出网络修剪的CNN；并且如果未修剪当前CNN的所有层，则开始新的阶段。

根据本公开的一方面，提供了一种用于产生卷积神经网络(CNN)的设备，其包括：一个或多个非暂时性计算机可读介质；以及至少一个处理器，当执行存储在所述一个或多个非暂时性计算机可读介质上的指令时，所述至少一个处理器执行步骤：训练具有三层或更多层的CNN；对经训练的CNN执行级联训练，以添加一个或多个中间层直至训练错误小于阈为止；以及执行从级联训练输出的CNN的级联网络修剪。

根据本公开的一方面，提供了一种方法，包括：制造芯片集，该芯片集包括：存储指令的一个或多个非暂时性计算机可读介质；以及至少一个处理器，当执行存储在所述一个或多个非暂时性计算机可读介质上的指令时，所述至少一个处理器执行步骤：训练具有三层或更多层的CNN；对经训练的CNN执行级联训练，以添加一个或多个中间层直至训练错误小于阈为止；以及执行从级联训练输出的CNN的级联网络修剪。

根据本公开的一方面，提供了一种测试设备的方法，包括步骤：测试所述设备是否具有存储指令的一个或多个非暂时性计算机可读介；以及测试所述设备是否具有至少一个处理器，所述至少一个处理器当执行存储在所述一个或多个非暂时性计算机可读介质上的指令时执行步骤：训练具有三层或更多层的CNN；对经训练的CNN执行级联训练，以添加一个或多个中间层直至训练错误小于阈为止；以及执行从级联训练输出的CNN的级联网络修剪。

附图说明

本公开的特定实施例的以上和其它方面、特征和优点将通过下面结合附图的具体实施方式变得清楚，其中：

图1示出了根据一个实施例的用于构建级联训练的超分辨率卷积神经网络(CT-SRCNN)的方法的示例性框图；

图2示出了根据一个实施例的级联训练的示例性示图；

图3A和图3B示出了根据现有训练方法与根据实施例的级联训练之间的一些差异；

图4示出了在根据本公开的实施例的级联训练之后的开始CNN和结束CNN；

图5示出了根据本公开的实施例的级联网络修剪的示例性示图；

图6A和图6B示出了现有网络修剪方法与根据本公开的实施例的级联网络修剪方法之间的一些差异；

图7示出了根据本公开的实施例的用于执行滤波器修剪的示例性示图；

图8A和图8B分别示出了根据本公开的实施例的空洞卷积与常规卷积之间的一些差异；

图9示出了根据一个实施例的当前设备的示例性示图；

图10示出了根据一个实施例的用于制造和测试当前设备的示例性流程图；以及

图11是示出根据本公开的实施例的级联训练的CNN的收敛速度与本文附录中讨论的实验中的非级联训练的CNN的示例性对比示图。

具体实施方式

下文中，将参照附图详细描述本公开的实施例。应该注意，相同元件即使示于不同附图中也由相同标号指代。在下面的描述中，仅提供诸如详细构造和组件的特定细节来帮助全面理解本公开的实施例。因此，本领域技术人员应该清楚，在不脱离本公开的范围的情况下，可对本文所述的实施例作出各种改变和修改。另外，为了清楚和简明起见，省略了对公知的功能和构造的描述。下面描述的术语是以本公开中的功能为考虑限定的术语，并且可根据用户、用户的意图或者习惯而有所不同。因此，术语的限定应该根据说明书中的内容进行确定。

本公开可具有各种修改形式和各种实施例，在下面参照附图详细描述了其中的实施例。然而，应该理解，本公开不限于这些实施例，而是包括在本公开的范围内的所有修改形式、等同形式和替代形式。

虽然包括诸如第一和第二的序数的术语可用于描述各种元件，但是结构元件不受这些术语的限制。这些术语仅用于将一个元件与另一元件区分开。例如，在不脱离本公开的范围的情况下，可将第一结构元件称作第二结构元件。类似地，也可将第二结构元件称作第一结构元件。如本文所用，术语“和/或”包括一个或多个相关项的任何和所有组合。

本文的术语仅用于描述本公开的各种实施例，但不旨在限制本公开。除非上下文中清楚地另作说明，否则单数形式旨在包括复数形式。在本公开中，应该理解，术语“包括”或“具有”指示存在特征、数、步骤、操作、结构元件、部件或者它们的组合，而不排除存在或者可能增加一个或多个其它特征、数、步骤、操作、结构元件、部件或者它们的组合。

除非不同地限定，否则本文使用的所有术语与本公开所属领域的技术人员理解的术语具有相同的含义。除非本公开中清楚地限定，否则诸如在通用词典中定义的那些的术语应该被解释为具有与它们在相关技术的上下文中的含义一致的含义，而不应该被解释为具有理想化的或过于正式的含义。

各个实施例可包括一个或多个元件。元件可包括布置为执行特定操作的任何结构。虽然可通过示例的方式通过特定排列方式的有限数量的元件描述实施例，但是实施例在针对特定实施所需的替代性排列方式中可包括更多或更少的元件。值得注意的是，对“一个实施例”或“实施例”的任何说明意指在至少一个实施例中包括结合实施例描述的特定特征、结构或特性。本说明书中的任何位置出现的短语“一个实施例”(或“实施例”)不一定是指相同的实施例。

本公开提供了新的方法，或者更准确地说，几种用于创建SRCNN的新的技术。这里，术语“级联训练的超分辨率卷积神经网络”(CT-SRCNN)可指本文讨论的新技术的总和，或者指所述新技术中的一个或多个，这一点，通过使用了术语的上下文会变得更清楚。与通过无监督(unsupervised)权重初始化从一开始训练所有层的现有方法不同，CT-SRCNN利用小网络(例如，3层)开始训练。在当前网络不能有效减少训练错误时，将新层逐步插入网络中。

通过这种“级联训练”策略，收敛更加容易，并且精度随着使用更多的层而持续增加。但是在深度增加的同时，由于新层的本质，网络的相对复杂度却不增加。更具体地说，CT-SRCNN中的新层的所有权重被随机地初始化，并且学习率固定。与需要花费大量时间和资源来调整参数的方法相比，这种方法极为有利。在13层的CT-SRCNN的一个特定示例(下面将进一步示出和讨论)中，精度相对于现有技术的图像SR网络具有竞争力，同时执行速度为5倍以上，并且仅使用1/5的参数。

在本公开中，描述了“级联网络修剪”，其通过降低存储和计算复杂度进一步改进了CT-SRCNN模型，还描述了通过施展一种“空洞卷积”而不是执行完整的常规卷积计算来进一步提高超分辨率深度卷积神经网络的效率的另一方法，所述空洞卷积可进一步降低CT-SRCNN模型复杂度。

本公开的其余部分按次序讨论了CT-SRCNN的这三种不同的方案/特征：

I、级联训练；

II、级联网络修剪；以及

III、空洞卷积。

虽然在CT-SRCNN的上下文中讨论了这三种方法/技术，但是各个方法/技术可单独或各自应用于其它SR方案或者CNN网络，本领域普通技术人员之一应该理解。

图1示出了根据一个实施例的用于构建级联训练的超分辨率卷积神经网络(CT-SRCNN)的方法的示例性框图。

在110，预备好训练集合，意指一组低分辨率(LR)图像和对应的高分辨率(HR)图像，CT-SRCNN从中“学习”在尝试从低分辨率图像中创建高分辨率图像时使用的模型。在该实施例中，在120，对各个LR图像进行双三次升采样，并且剪裁LR/HR补片(patch)以准备训练。例如，参见2014年Dong等人的论文和Dong,Chao、Loy,Chen Change、He,Kaiming和Tang,Xiaoou的Image super-resolution using deep convolutional networks，IEEE模式分析与机器智能(TPAMI)，第38卷，第2号，第295-307页(2016年2月)(下文中，“2016年Dong等人的论文a”)，全文以引用方式并入本文中，以便于参考关于这一步骤的更多细节。本领域普通技术人员之一应该理解，存在多种预训练准备技术，并且本公开不限于采用这种双三次升采样和LR/HR修补作为预训练准备技术。

在130，根据本公开执行级联训练。下面将描述根据本公开的特定实施例的级联训练的实施例。在140，根据本公开执行级联网络修剪。下面将进一步描述根据本公开的特定实施例的网络修剪的实施例。在150，完成处理，并且CT-SRCNN系统准备投入实际运用。

虽然在图1中，这些不同的处理(即，级联训练和级联网络修剪)被描述和示为分离和有区别的阶段/步骤，但是根据本公开的实际实施方式中的这些功能之间可存在重叠。

I、级联训练

图2示出了根据本公开的一个实施例的级联训练的示例性示图。在205，训练的处理开始。

在210，在阶段i＝1开始训练。未经训练的网络开始具有b层，并且在训练错误收敛(220)的各个阶段增加c层或者保持高于阈(250)。因此，在各个训练阶段i，训练c*(i-1)+b层的CNN。当阶段i＝1时，训练第一个b层的CNN。在阶段i＝1之后，级联训练开始向b层添加中间层，具体地说根据需要一次加c层。

在220，确定网络是否开始收敛，例如，(从前一阶段开始的)训练错误是否已停止减少特定量。如果是(即，CNN收敛)，则在230增加c个中间层，并且下一迭代始于240(i＝i+1)。在该迭代处理期间，可将新层设为任何任意权重，因为中间层将对其它层的权重矩阵大小无影响。实际上，所有现有的层继承它们先前的权重矩阵。这种级联训练迭代处理继续，使得CNN越来越深，直至训练错误在250小于阈，然后在255输出CNN模型。

图3A和图3B示出了级联训练与现有训练方法之间的一些差异。

在图3A中，示出了图2中的流程图的示例。在图3A中，层数b等于3，示于顶部(310)，这代表待训练的第一CNN，并且在各个阶段增加的层数c为1。各个新层的权重随机设置，同时各个预先存在的层从先前阶段继承权重。由于在每个阶段新插入的中间层，CNN变深。在各个阶段，再次训练更深的CNN。由于大多数权重是从先前阶段继承的，因此即使学习率固定，连续的再训练也相对容易。

然而，如图3B所示，现有方法从需要同时被调整的“完整的”一组层开始。如图3B所示同时训练所有的层比图3A所示的方案复杂得多，导致慢收敛。级联训练对较浅的网络进行训练，直至收敛，然后，通过在保持先前训练的层完好的同时逐渐插入具有随机权重的层，使得CNN变深，并且对整个网络进行再训练，直至较深的网络收敛。而且，级联训练可简单地固定学习率，并且产生权重随机的新层。

图4示出了在根据本公开的实施例的级联训练之后的开始CNN和结束CNN。

x表示插值的LR图像并且y表示其匹配HR图像。提供N个样本的训练集合{(x_i,y_i),i＝1,…,N}，CT-SRCNN的目标是学习一种预测HR输出的模型g。在训练期间，在整个训练集合将均方差最小化。

在图4的上部中，级联训练从3层模型(b＝3)开始。第一层(410)由64个9×9滤波器构成，并且第二层(413)和第三层(415)由32个5×5滤波器构成。(新层的)所有的权重通过σ＝0.001的高斯函数进行随机初始化，并且所有的卷积的步长为1。“步长”是卷积层的超参数之一，并且控制如何分配空间维度(宽度和高度)周围的深度列，换句话说，步长指示的是滤波器如何在输入图像(input volume)周围卷积，即，“步长1”指示滤波器在输入图像周围一次一个像素地卷积，“步长2”指示滤波器一次两个像素地卷积等。例如，参见于2017年6月5日在https://en.wikipedia.org/wiki/Convolutional_neural_network从维基百科下载的“卷积神经网络”的定义；于2017年6月5日从https://adeshpande3.github.io/A-Beginner％27s-Guide-To-Under standing-Convolutional-Neural-Networks-Part-2/下载的“A Beginner's Guide to Understanding Convolutional Networks–Part 2”；这两个内容以引用方式全文并入本文。

在当前阶段的MSE停止大幅减小时，例如，在一个迭代周期中错误的减小小于3％，训练进行到下一阶段。例如，参见图2的步骤220。在该实施例中为了加速训练，对于各个阶段将两个新层插入网络中(即，图2中的步骤230中的c＝2)。因此，训练从3层开始，并且随后前进至5层、7层、…并且在五(5)个阶段之后最终至13层。各个新层由32个3×3滤波器构成。即使CNN逐渐加深，这个大小也确保了较小的网络。就在最后一个32个5×5滤波器层415之前插入新中间层。先前阶段中存在的任何层的权重从先前阶段继承权重，并且两个新层的权重总是被随机地初始化(σ＝0.001的高斯分布)。由于新的卷积层将减小特征图的大小，因此2个像素在各个新的中间3×3层中进行零填充。结果，级联训练中的所有阶段具有相同的输出大小，从而可共享训练样本。

随着网络变深，用现有方法进行训练以收敛通常变得更加困难。例如，2016年Dong等人的论文a中的SRCNN在超过三层的情况下未能示出优越性。在Kim,Jiwon；Lee,JungKwon和Lee,Kyoung Mu的Accurate image super-resolution using very deepconvolutional networks(2016年的CVPR，第1646-1654页，全文以引用方式并入本文中)中(下文中称作“VDSR”)，高的初始学习率得到调整并且逐渐减小。但是当利用大的多样性训练集合(例如，来自160,000个图像的超过3千万补片)时，高的学习率不会很有效。这一点的潜在原因是高的学习率导致梯度消失/爆炸。

在CT-SRCNN中，在各个阶段中仅随机初始化几个权重，从而收敛相对容易。CT-SRCNN中的所有层固定学习率0.0001而不衰减也是可行的。为了加速训练，仅需改变第一阶段，例如，第一阶段的学习率可设为0.001。在实验/仿真中，与图4的下部中的相同的13层CT-SRCNN已达到了现有技术的精度，同时与诸如VDSR或者Kim,Jiwon；Lee,Jung Kwon和Lee,Kyoung Mu的Deeply-recursive convolutional network for image super-resolution(2016年的CVPR，第1637-1645页，全文以引用方式并入本文中)(下文中称作“DRCN”)的其它网络相比使用少得多的参数。相反，随机初始化的较深网络的直接训练需要在参数调整方面作出许多努力，以确保在这些其它网络中的最佳收敛，即使实验示出这些网络在可接受程度的错误前提下可能不会收敛。

如下表1所示，当测量两个图像质量量度、峰值信噪比(PSNR)和结构相似度量度(SSIM)时，可以看出CT-SRCNN实现了更好的质量和更快的速度。此外，与VDSR和DRCN相比，CT-SRCNN找回了更多细节。

给定CNN中的L层，假设第i层具有n_i-1个输入通道、k_i×k_i个卷积核以及n_i个滤波器。第i层中的参数数量为n_i-1×n_i×k_i×k_i。在该计算中忽略偏项(bias term)。则参数总量为因此，例如，在各个层中具有64-32-1滤波器的3层CT-SRCNN中，n₀＝1,n₁＝64,n₂＝32,n₃＝1,k₁＝9,k₂＝5,k₃＝5，从而参数总量为1×64×9×9+64×5×5×32+1×32×5×5×1＝57,184。

利用PSNR/SSIM来测量图像重构质量。PSNR是图像像素的最大可能功率与影响保真度的腐蚀噪声(corrupting noise)的功率之间的比率。将其计算为其中在地面真值与重构的图像(SR输出)之间计算MSE。PSNR越大，图像质量越好。PSNR的最大值为无穷大。例如，参见于2017年7月27日在https://en.wikipedia.org/wiki/Peak_signal-to-noise_ratio从维基百科下载的“Peak signal-to-noise ratio(峰值信噪比)”的定义，全文以引用方式并入本文中。

SSIM是将图像劣化看作结构信息的感知变化的基于感受的模型，同时还包括亮度掩蔽和对比度掩蔽。相对于PSNR而言，其与人的视觉更加一致。将SSIM计算为其中x是重构的图像，y是参考图像(地面真值)，μ是均值，σ是方差，σ_xy是x与y之间的协方差，c₁＝6.5025，并且c₂＝58.5225。SSIM在[0，1]之间。如果x是y的完美拷贝，则SSIM将为1。例如，参见2017年6月27日在https://en.wikipedia.org/wiki/Structural_similarity从维基百科下载的“StructuralSimilarity”(结构相似度)的定义，全文以引用方式并入本文中。

表1 CT-SRCNN与现有方法的比较

II、级联网络修剪

多数神经网络具有冗余。去除这种冗余明显提高效率。在本公开的实施例中，可从特定层中去除大量滤波器和/或权重，但精度的下降却很小。

该技术/方法(级联网络修剪)可与上述级联训练一起使用，或者可独立于级联训练使用。对于具有可接受的精度或性能的深度卷积神经网络，总是需要用于减小网络大小、降低计算复杂度和/或减少处理时间同时保持网络深度不变并且不降低精度的技术/方法。

与级联训练相似，级联网络修剪还包括迭代处理。在各个阶段中，仅修剪d层滤波器，这意味着，对于L层网络，在阶段i修剪第(L-(i-1)d-1)层至第(L-id)层。例如，当修剪13层CT-SRCNN的d＝2层时，在第一阶段i＝1修剪第12层和第11层，随后精调网络。当收敛时，第二阶段i＝2从修剪第9层和第10层开始。将该处理反复地重复直至所有的层被修剪为止。虽然在以上处理中忽略了第13层，但是也可认为该处理在第一阶段修剪第12层和第13层，并且在第二阶段修剪第10层和第11层等。

图5示出了根据本公开的一个实施例的级联网络修剪的示例性示图。在505，修剪的处理始于具有L层的经训练的CNN。

在510，修剪始于阶段i＝1。如上所述，在一个阶段仅修剪总共L层CNN的d层。因此，在510，在阶段i修剪第(L-(i-1)d-1)层至第(L-id)层。在520，执行精调。在530，确定训练错误是否停止以(先前阶段的)特定量减少。如果是，则在540(“(id＞＝L)？”)确定总阶段数乘以每阶段修剪的层是否大于或等于层的总数。如果在530训练错误未停止减少，则方法返回至520处精调。

如果在540(“(id＞＝L)？”)确定总阶段数乘以每阶段修剪的层大于或等于层的总数，则处理结束，并且在565输出修剪的CNN模型。如果在540(“(id＞＝L)？”)确定总阶段数乘以每阶段修剪的层小于层的总数，则方法在550开始下一阶段(“i＝i+1”)。

图6A和图6B示出了现有网络修剪方法与根据本公开的实施例的级联网络修剪方法之间的一些差异。

在图6A中，根据本公开的实施例，每阶段修剪CNN的一层，并且在各个阶段之间执行精调。相反，图6B中的CNN的所有层同时被精调和修剪。如图6B所示同时调整和修剪所有层比图6A所示的方案复杂得多。

通过从各层修剪整个滤波器完成级联网络修剪。为了恢复任何损失的精度，逐层完成修剪，在各个修剪的层或者一组修剪的层之后进行精调以收敛。

图7示出了根据本公开的实施例的用于执行滤波器修剪的示例性示图。

如图7所示，一旦修剪滤波器，就将也影响邻层。在图7中，从第i层修剪滤波器710(虚线框)。当n_i＝n_i-1-1时，也将修剪第(i+1)层中的一些权重720(由滤波器中的虚线指示)。因此，修剪第i层中的滤波器将减少第i层和第(i+1)层二者的计算成本。在CNN中，第(i+1)层的输入通道的数量等于第i层的滤波器(输出通道)的数量。

在图7中，假设在修剪之前，在第i层中存在n_i＝4个滤波器和n_i-1＝5个输入通道，以及在第(i+1)层中存在n_i+1＝10个滤波器和n_i＝4个输入通道。如果从第i层修剪滤波器710，修剪后的n_i将减少至3，并且n_i+1仍为10。第(i+1)层中的切片720是修剪后的权重，其对应于乘法运算。如在上一部分中述及的，在第i层中将具有乘法运算n_i-1×k_i×k_i×n_i×w_i×h_i，并且在第(i+1)层中将具有乘法运算n_i×k_i+1×k_i+1×n_i+1×w_i+1×h_i+1。由于n_i减小，因此在第i层和第(i+1)层二者中的乘法运算的数量也减少。

使用合适的标准来确定将修剪哪些滤波器。在该实施例中，使用相对重要性程度。更具体地说，通过第j滤波器中的所有权重的平方和限定第i层中的第j滤波器的相对重要性R_i,j，其中W_i,j是第i层中的第j滤波器的权重矩阵，如等式(1)所示：

因此，将R_i,j最小的滤波器去除。如上面的讨论，当从第i层修剪滤波器710时，也将修剪第(i+1)层中的一些权重720，得到W′_i+1,j。因此，当计算R_i+1,j时，将未修剪的权重W_i+1,j(还称作“独立修剪”)用于等式(3)中，或者将修剪的权重W′_i+1,j用于等式(2)中：

下面的算法提供了用于从所述层修剪滤波器的迭代处理的示例性高阶描述。

用于修剪滤波器的算法

根据不同的率/阈∈_weights和∈_filters,i，可生成不同的修剪模型。由于滤波器修剪影响了邻层，因此在使用了滤波器修剪的多数情况下将需要精调来恢复精度。相反，权重剪枝具有相对更小的影响。在修剪率合适的情况下(例如，小于0.2)，不进行精调的话精度也不会减小太多。

III、空洞卷积

空洞卷积，也称作àtrous卷积，是一种一开始针对小波分解研发的卷积(参见Holschneider,M.；Kronland-Martinet,R.；Morlet,J.和Tchamitchian,Ph.的A Real-TimeAlgorithm for Signal Analysis with the Help of the Wavelet Transform inWavelets:Time-Frequency Methods and Phase Space，J.M.Combes et al.,eds.，第286-297页(1987)，全文以引用方式并入本文中)，但是已应用于语义分割，尤其是为了获得密集特征(例如，见Yu,Fisher和Koltun,Vladlen的Multi-scale context aggregation bydilated convolutions，2016年的国际表征学习会议(ICLR)(下文中称作，“2016年Yu等人的论文”)，全文以引用方式并入本文中)。

在由卷积层构成而没有池化的纯卷积网络中，因为从输入中基于卷积邻近像素产生特征图，所以单元的感受野(receptive field)仅可逐层线性生长。增大感受野的一种可行方法是从更大的区对输入像素卷积。这类似于在空洞卷积中使用‘空洞核’而不是使用用于常规卷积的常规密集核。

假设F是离散函数，K是卷积核，并且空洞卷积*_d是普通卷积的一般化版本，如下面的等式(3)的定义，其中d是空洞因数。常规卷积是简单的1-空洞卷积(即，当d＝1时)。

将空洞卷积应用于CNN中的一个好处是空洞版本具有更大的感受野，如图8A和图8B所示。通过对原始滤波器进行升采样(即，通过在其元素之间插入零)获得空洞卷积滤波器。因此，设计具有零元素的结构化图案的空洞滤波器。与其中零元素具有随机图案和位置的权重剪枝相比，空洞滤波器具有用于零权重的结构化图案，并且在减小硬件和软件中的计算复杂度方面非常有用。因此，对于超分辨率，本公开的实施例按照与普通用途不同的方式部署空洞滤波器，即与感受野相同的非空洞滤波器相比，保持感受野相同并且将其用于减小计算复杂度。

图8A和图8B分别示出了根据本公开的实施例的空洞卷积与常规卷积之间的一些差异。在图8B中，按照步长2执行常规卷积，而在图8A中，根据本公开的实施例按照步长1执行2-空洞卷积(意指每2个像素而不是逐像素应用卷积中的乘法运算和累加操作)。虽然图8A和图8B具有相同的特征图大小(空洞版本进行补零)，与卷积的特征图相比，2-空洞特征图的感受野更大。在CNN中，输入和输出是2D特征图，因此图8A或图8B仅在x方向或y方向上。

图8B示出了具有大小为3的核和步长2的常规卷积的示例，其中输入是7像素信号(由7个圆圈表示)。在图8B中，利用所述核对每3个邻近像素进行卷积(如连线所示)，随后产生特征图的输出(方块)，从第1像素至第3像素(阴影线圆圈)和特征图的第一输出(阴影线方块)开始。因为步长为2，所以图8B中的下一卷积为从第3像素至第5像素，并且特征图的下一输出(黑色方块)包括3个元素，感受野为3。

相反，图8A示出了具有大小为3的核和步长1的2-空洞卷积的示例。在d-空洞卷积中，每d个像素进行卷积。例如，在2-空洞卷积中，每2个像素进行卷积。从而通过利用3×3核对第1像素、第3像素和第5像素(阴影线圆圈)进行卷积产生特征图的第一输出(阴影线方块)。然后通过对第2像素、第4像素和第6像素进行卷积产生下一输出(黑色方块)。

在利用步长1对CNN中的所有层进行卷积的实施例中，可按照不同方式进行空洞卷积。如果使用1-空洞卷积，提供步长为1的k×k卷积核，则所得特征图的感受野为k×k。如果使用2-空洞卷积，提供步长为1的k×k卷积核，则所得特征图的感受野为(2k-1)×(2k-1)。例如，图4中的CT-SRCNN的9×9卷积核的1-空洞层410和5×5卷积核的1-空洞层413可分别由卷积核5×5的2-空洞层和卷积核3×3的2-空洞层替代。所得网络将具有相同大小的感受野，但是由于核大小更小，因此参数更少。

因此，在一个实施例中，一旦训练具有9×9 1-空洞层和两个5×51-空洞层的CT-SRCNN，这些层在执行精调之前可由5×5 2-空洞层和两个3×3 2-空洞层替代。与2016年Yu等人的论文不同，根据本公开的实施例的空洞CT-SRCNN在空洞层中不需要任何补零操作。

如上所述，许多研究人员尝试例如通过利用更多层(例如，VDSR)或深度递归结构(例如，DRCN)增大SRCNN的精度和效率。其它研究人员相似地提出使用更复杂的网络。Wang,Zhaowen、Liu,Ding、Yang,Jianchao、Han,Wei和Huang,Thomas的Deep networks for imagesuper-resolution with sparse prior(2015年的IEEE计算机视觉国际会议(ICCV)，第370–378页，其以引用方式并入本文中)在基于学习的迭代收缩和阈值算法的前馈网络之前集成稀疏表示。VDSR将层数增至20，并且使用小滤波器和梯度裁剪可调整的高学习率；这组人员还设计了在DRCN中具有递归监督和跳跃连接的深递归CNN。Dahl,Ryan、Norouzi,Mohammad和Shlens,Jonathon的Pixel Recursive Super Resolution(arXiv 1702.00783，2017年5月22日，其以引用方式并入本文中)将ResNet与像素递归超分辨率组合，其在将超分辨率应用于床图像(bed image)的面部和床(face and bed)SR方面显示出了满意效果。

其他人针对训练错误优选使用感知损失而不是均方差(MSE)，其更接近自然纹理和人的视觉。Casper、Caballero,Jose、Theis,Lucas、Shi,Wenzhe和Huszár,Ferenc的Amortised MAP Inference for Image Super-resolution(arXiv 1610.04490，2017年2月21日，其以引用方式并入本文中)介绍了一种用于摊销的MAP推论的方法，其直接用CNN计算了MAP估计。Johnson,Justin、Alahi,Alexandre和Fei-Fei,Li的Perceptuallosses for real-time style transfer andsuper-resolution(2016年ECCV，第694–711页，其以引用方式并入本文中)提出了针对图像转变任务使用用于训练前馈网络的感知损失函数。Ledig,Christian等人的Photo-realistic single image super-resolutionusing a generative adversarial network(arXiv 1609.04802，2017年4月13日，其以引用方式并入本文中)采用了非常深的残差网络(ResNet)，并且进一步提出了超分辨率生成对抗网络(SRGAN)，以获得类似于自然纹理的图像。

然而，虽然上面列出的工作提高了SR系统的精度，但是精度的提高是以更多的层/参数和/或更困难的超参数调整工序为代价的。换句话说，精度的任何改进都伴随着复杂度的极大增加。

其它研究人员着力于通过提取LR空间中的特征图和利用提升滤波器进行训练来提高效率。Shi,Wenzhe等人的Real-time Single Image and Video Super-ResolutionUsing an Efficient sub-pixel convolutional neural network(2016年CVPR，第1874–1883页，其以引用方式并入本文中)提出了一种学习提升滤波器阵列以将LR特征图提升为HR输出的有效的子像素卷积层。Dong,Chao、Loy,Chen Change和Tang,Xiaoou的Accelerating the super-resolution convolutional neural network(2016年ECCV，第391–407页，其全文并入本文中)(下文中称作，“2016年Dong等人的论文b”)通过增加更小的滤波器、反卷积层和特征空间收缩再设计了SRCNN，以加快速度而不损失精度。

然而，由于使用了提升层，这些网络的补片大小和上下文感受野将相对小。结果，与从升采样的LR空间中提取特征图相比，精度相对较低。

相反，本文所述的CT-SRCNN可更深入，从而实现高精度，而无需参数的重调整。CT-SRCNN的网络大小与现有技术的方案(诸如上面列举的这些)相比小得多。CT-SRCNN也可在单个GPU中以720×480的分辨率处理视频的20-25帧/秒。通过网络修剪和空洞卷积可进一步提高该效率。

在本公开中，描述了一种训练具有高精度和高效率二者的用于超分辨率的深CNN的级联训练方法。这种级联训练确保了网络以相对小的大小持续深入。本文所述的级联网络修剪和空洞卷积进一步降低了网络复杂度。与其它现有技术的解决方案相比，在基准图像和视频数据集上的实验结果显示了本文公开的方法实现了有竞争力的性能，但其速度快得多。

虽然在图像超分辨率架构中进行了描述，但是可将本文所述的技术概括为用于诸如去噪或图像复原的任何类型的目的的任何类型的CNN。

图9示出了根据一个实施例的当前设备的示例性示图。设备900包括至少一个处理器910以及一个或多个非暂时性计算机可读介质920。所述至少一个处理器910当执行存储在一个或多个非暂时性计算机可读介质920上的指令时执行以下步骤：训练具有三层或更多层的CNN；对经训练的CNN执行级联训练，以添加一个或多个中间层直至训练错误小于阈为止；以及执行从级联训练输出的CNN的级联网络修剪。而且，所述一个或多个非暂时性计算机可读介质920存储用于使所述至少一个处理器910执行以下步骤的指令：训练具有三层或更多层的CNN；对经训练的CNN执行级联训练，以添加一个或多个中间层直至训练错误小于阈为止；以及执行从级联训练输出的CNN的级联网络修剪。

图10示出了根据一个实施例的用于制造和测试当前设备的示例性流程图。

在1050，制造了包括至少一个处理器和一个或多个非暂时性计算机可读介质的设备(在该示例中，上述芯片集)。当执行存储在所述一个或多个非暂时性计算机可读介质上的指令时，所述至少一个处理器执行以下步骤：训练具有三层或更多层的CNN；对经训练的CNN执行级联训练，以添加一个或多个中间层直至训练错误小于阈为止；以及执行从级联训练输出的CNN的级联网络修剪。所述一个或多个非暂时性计算机可读介质存储用于使至少一个处理器执行以下步骤的指令：训练具有三层或更多层的CNN；对经训练的CNN执行级联训练，以添加一个或多个中间层直至训练错误小于阈为止；以及执行从级联训练输出的CNN的级联网络修剪。

在1060，测试所述设备(在该示例中，芯片集)。测试步骤1060包括：测试所述设备是否具有至少一个处理器，所述至少一个处理器当执行存储在一个或多个非暂时性计算机可读介质上的指令时，执行以下步骤：训练具有三层或更多层的CNN；对经训练的CNN执行级联训练，以添加一个或多个中间层直至训练错误小于阈为止；以及执行从级联训练输出的CNN的级联网络修剪；以及测试所述设备是否具有一个或多个非暂时性计算机可读介质，其存储用于使所述至少一个处理器执行以下步骤的指令：训练具有三层或更多层的CNN；对经训练的CNN执行级联训练，以添加一个或多个中间层直至训练错误小于阈为止；以及执行从级联训练输出的CNN的级联网络修剪。

本领域普通技术人员之一应该理解，根据特定实施例和/或实施方式，以上关于本公开的实施例描述的步骤和/或操作可按照不同次序或者并行地发生，或者针对不同迭代周期同时发生等。不同的实施例可按照不同次序或者不同方式或方法执行行为。本领域普通技术人员之一应该理解，一些附图是执行的行为的简化表达，本文中它们的描述整体简化，但是实际的实施方式可复杂得多，需要更多的步骤和/或部件，并且应该非常依赖于特定实施方式的需求。为了简化表达，这些附图未示出其它需要的步骤，因为这些步骤是本领域普通技术人员之一将知晓和理解的并且对于当前描述可不相关和/或没有帮助。

相似地，本领域普通技术人员之一应该理解，一些附图是仅示出了相关组件的简化框图，并且这些组件中的一些仅表示本领域中公知的功能和/或操作，而不是实际的硬件。在这种情况下，组件/模块中的一些或全部可按照多种方式和/或方式的组合实施或提供，诸如至少部分地在固件和/或硬件中实施或提供，包括(但不限于)一个或多个专用集成电路(“ASIC”)、标准集成电路、执行合适的指令的控制器，以及包括微控制器和/或内置控制器、现场可编程门阵列(“FPGA”)、复杂可编程逻辑装置(“CPLD”)等。系统组件和/或数据结构中的一些或全部也可作为内容(例如，作为可执行的或者其它及其可读的软件指令或者结构化数据)存储在非暂时性计算机可读介质(例如，硬盘；存储器；计算机网络或蜂窝无线网络或其它数据传输介质；或者诸如DVD或闪速存储器装置的将通过合适的驱动器或者经合适的连接读取的便携式介质)上，以能够使或将计算机可读介质和/或一个或多个关联的计算系统或装置构造为执行或以其他方式使用或提供所述内容，以执行所述技术中的至少一些。

一个或多个处理器、简单微控制器、控制器等可单独地或者按照多处理布置方式被采用以执行存储在非暂时性计算机可读介质上的指令序列，以实施本公开的实施例。在一些实施例中，可使用硬连线电路来替代软件指令或与软件指令组合。因此，本公开的实施例不限于硬件电路、固件和/或软件的任何特定组合。

本文使用的术语“计算机可读介质”是指存储可被提供至处理器以供执行的指令的任何介质。这种介质可采用许多形式，包括(但不限于)非易失性和易失性介质。例如，普通形式的非暂时性计算机可读介质包括软盘、柔性盘、硬盘、磁带或任何其它磁介质、CD-ROM、任何其它光学介质、穿孔卡片、纸带、任何具有孔图案的其它物理介质、RAM、PROM和EPROM、FLASH-EPROM、任何其它存储器芯片或带盒或者其上存储有可通过处理器执行的指令的任何其它介质。

本公开的一些实施例可至少部分地在便携式装置上实施。本文所用的“便携式装置”和/或“移动装置”是指具有接收无线信号的能力的任何便携式或可移动电子装置，包括(但不限于)多媒体播放器、通信装置、计算装置、导航装置等。因此，移动装置包括(但不限于)用户设备(UE)、笔记本计算机、平板计算机、便携式数字助理(PDA)、mp3播放器、手持式PC、即时通讯装置(IMD)、蜂窝电话、全球导航卫星系统(GNSS)接收器、手表或可由人佩戴和/或携带的任何这种装置。

鉴于本公开，本领域普通技术人员之一应该理解，本公开的各种实施例可在集成电路(IC)(还称作微芯片、硅芯片、计算机芯片或者仅“芯片”)中实施。例如，这种IC可为宽带和/或基带调制解调器芯片。

虽然已描述了几个实施例，但是应该理解，在不脱离本公开的范围的情况下可作出各种修改。因此，本领域普通技术人员应该清楚，本公开不限于本文所述的任何实施例，而是具有仅由权利要求及其等同物限定的覆盖范围。

附录：实验验证

A、级联训练

表A-II、集合为14，层次为3时级联训练与常规训练的比较

	PSNR	SSIM
			5层CT-SRCNN	29.44	0.8232
5层非CT-SRCNN	29.56	0.8258
			7层CT-SRCNN	29.50	0.8245
7层非CT-SRCN	29.71	0.8287
			9层CT-SRCN	29.52	0.8250
9层非CT-SRCNN	29.75	0.8299
			13层CT-SRCNN	29.56	0.8265
13层非CT-SRCNN	29.91	0.8324

在表A-II中，将根据本公开的级联训练的CNN的PSNR/SSIM与具有来自VDSR的无监督权重初始化的非级联训练的CNN进行比较。可以看出，在相同的网络架构下，CT-SRCNN的PSNR/SSIM明显好于非级联训练。

图11是示出根据本公开的实施例的级联训练的CNN的收敛速度与非级联训练的CNN的收敛速度的示例性示图。发现CT-SRCNN比非CT-SRCNN收敛得更快。当使用更多的层时，CT-SRCNN的精度持续增加。这表示级联网络训练还越来越深地训练SRCNN。级联网络训练与常规训练相比在精度和收敛速度两个方面的表现更好。

在表A-III中，在层次为3时将根据本公开的CT-SRCNN-13的参数个数、PSNR、SSIM和每图像的时间与已知SR网络进行比较。

表A-III、集合为14，层次为3时级联训练与现有网络的比较

B、级联网络修剪

表A-IV示出了级联修剪的CT-SRCNN(其中13层中的4层被修剪)实现了与非级联修剪的CT-SRCNN相似的性能，但是网络大小减小20％。根据本公开的级联网络修剪也应用于另一网络，即，FSRCNN(见2016年Dong等人的论文b)。该网络由7个卷积层和一个反卷积层构成。与以上根据本公开的实施例的修剪CT-SRCNN相似，在各个阶段中也修剪2层FSRCNN。表A-IV示出了根据本公开的网络级联修剪对于FSRCNN也是有效的。

表A-IV、集合为14，层次为3时级联修剪的网络的评价

在修剪率与精度之间进行权衡。如果仅修剪2层(第7层和第8层)，则精度几乎不损失，同时去除了30％的参数。如果修剪全部8层(8层级联修剪的FSRCNN，修剪8层)，在网络大小较小(3,400参数与3,900参数的比较)的情况下，与官方模型(FSRCNN官方精简版)相比，精度仍然较高。

C、空洞卷积

表A-V示出了空洞13层CT-SRCNN的实验结果。将空洞应用于第一9×9层、第二5×5层和最后的5×5层。作为替代，利用5×5、3×3和3×3 2-空洞卷积层。可以看出，CT-SRCNN的空洞版本可与非空洞版本实现相似的PSNR/SSIM，但是网络大小明显减小。

表A-V、集合为14，层次为3时的空洞CT-SRCNN的评价

Claims

1.一种产生卷积神经网络的方法，包括步骤：

训练具有三层或更多层的卷积神经网络；以及

对经训练的卷积神经网络执行级联训练，以将一个或多个中间层插入卷积神经网络中直至训练错误小于阈为止，

其中，级联训练包括一个或多个阶段的迭代处理，其中，级联训练迭代处理的各阶段包括：

训练当前卷积神经网络；

确定训练错误是否收敛；以及

如果训练错误收敛，则

将预设数量的中间层插入当前卷积神经网络中，各个中间层的权重设为预定设置，以及

开始新阶段的级联训练迭代处理。

2.根据权利要求1所述的方法，其中，级联训练迭代处理的各阶段还包括：

如果训练错误不收敛，则确定训练错误是否小于阈；

如果训练错误小于阈，则输出当前卷积神经网络作为级联训练的卷积神经网络；以及

如果训练错误不小于阈，则开始新阶段的级联训练迭代处理。

3.根据权利要求2所述的方法，其中，利用均值为零和标准差为σ的高斯分布将各个中间层的权重随机初始化。

4.根据权利要求1所述的方法，其中，卷积神经网络是用于处理图像或视频中的至少一个的超分辨率卷积神经网络。

5.根据权利要求1所述的方法，还包括：

在执行级联训练之后执行级联网络修剪。

6.根据权利要求5所述的方法，其中，级联网络修剪包括一个或多个阶段的迭代处理，其中，级联网络修剪迭代处理的各阶段包括：

通过在一个或多个中间层减小滤波器的维度来修剪当前卷积神经网络的设定数量的层；

确定训练错误是否收敛；以及

如果训练错误收敛，则确定是否修剪了当前卷积神经网络的所有层；

如果修剪了当前卷积神经网络的所有层，则输出当前卷积神经网络作为经网络修剪的卷积神经网络；并且

如果未修剪当前卷积神经网络的所有层，则开始新阶段的级联网络修剪迭代处理。

7.根据权利要求6所述的方法，其中，级联网络修剪迭代处理还包括：

如果训练错误不收敛，则在训练错误最终收敛的级联修剪迭代处理阶段输出卷积神经网络。

8.根据权利要求1所述的方法，其中，利用空洞卷积滤波器执行级联训练。

9.一种产生卷积神经网络的方法，包括步骤：

训练具有三层或更多层的卷积神经网络；以及

执行经训练的卷积神经网络的级联网络修剪，

其中，级联网络修剪包括一个或多个阶段的迭代处理，其中，级联网络修剪迭代处理的各阶段包括：

确定训练错误是否收敛；以及

10.根据权利要求9所述的方法，其中，级联网络修剪迭代处理还包括：

11.根据权利要求9所述的方法，其中，级联网络修剪迭代处理的各阶段还包括：

在确定训练错误是否收敛之前精调。

12.根据权利要求9所述的方法，其中，修剪当前卷积神经网络的设定数量的层的步骤包括：

针对各层，修剪不符合特定标准的滤波器。

13.根据权利要求12所述的方法，其中，特定标准包括相对重要性的量度。

14.根据权利要求9所述的方法，其中，卷积神经网络是用于处理图像或视频中的至少一个的超分辨率卷积神经网络。

15.根据权利要求9所述的方法，还包括：

在级联网络修剪之前执行级联训练。

16.根据权利要求15所述的方法，其中，级联训练包括一个或多个阶段的迭代处理，其中，训练迭代处理的各阶段包括：

训练当前卷积神经网络；

确定训练错误是否收敛；以及

如果训练错误收敛，则

开始新阶段的级联训练迭代处理。

17.根据权利要求16所述的方法，其中，级联训练迭代处理的各阶段还包括：

如果训练错误不收敛，则确定训练错误是否小于阈；

18.根据权利要求16所述的方法，其中，利用均值为零和标准差为σ的高斯分布将各个中间层的权重随机初始化。

19.根据权利要求16所述的方法，其中，利用空洞卷积滤波器执行级联训练。

20.一种用于产生卷积神经网络的设备，包括：

一个或多个非暂时性计算机可读介质；以及

至少一个处理器，当执行存储在所述一个或多个非暂时性计算机可读介质上的指令时，所述至少一个处理器执行步骤：

训练具有三层或更多层的卷积神经网络；

对经训练的卷积神经网络执行级联训练，以添加一个或多个中间层直至训练错误小于阈为止；以及

执行从级联训练输出的卷积神经网络的级联网络修剪。

21.根据权利要求20所述的设备，其中，级联训练包括一个或多个阶段的迭代处理，其中，级联训练迭代处理的各阶段包括：

训练当前卷积神经网络；

确定训练错误是否收敛；以及

如果训练错误收敛，则

开始新阶段的级联训练迭代处理。

22.根据权利要求20所述的设备，其中，利用空洞卷积滤波器执行级联训练。

23.根据权利要求20所述的设备，其中，级联网络修剪包括一个或多个阶段的迭代处理，其中，级联网络修剪迭代处理的各阶段包括：

确定训练错误是否收敛；以及

24.根据权利要求21所述的设备，其中，卷积神经网络是用于处理图像或视频中的至少一个的超分辨率卷积神经网络。

25.一种方法，包括：

制造芯片集，该芯片集包括：

存储指令的一个或多个非暂时性计算机可读介质；以及

训练具有三层或更多层的卷积神经网络；

执行从级联训练输出的卷积神经网络的级联网络修剪。

26.一种测试设备的方法，包括步骤：

测试用于产生卷积神经网络的设备是否具有存储指令的一个或多个非暂时性计算机可读介质；以及

测试用于产生卷积神经网络的设备是否具有至少一个处理器，所述至少一个处理器当执行存储在所述一个或多个非暂时性计算机可读介质上的指令时执行以下步骤：

训练具有三层或更多层的卷积神经网络；

执行从级联训练输出的卷积神经网络的级联网络修剪。