CN108053027A

CN108053027A - 一种加速深度神经网络的方法及装置

Info

Publication number: CN108053027A
Application number: CN201711366074.7A
Authority: CN
Inventors: 林倞; 陈添水; 成慧; 罗笑南; 许琳; 余伟浩
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-05-18
Anticipated expiration: 2037-12-18
Also published as: CN108053027B

Abstract

本发明公开了一种加速深度神经网络的方法及装置，所述方法包括如下步骤：步骤S1，定义类小波自动编码器，进行类小波自动编码器的学习以得到所述类小波自动编码器的网络参数；步骤S2，基于所述类小波自动编码器进行图像分类，本发明可在对网络本身不进行显式的修改基础上实现加速深度神经网络的目的，以便可以泛化到多种不同的网络结构。

Description

一种加速深度神经网络的方法及装置

技术领域

本发明涉及一种加速深度神经网络的方法及装置，特别是涉及一种学习类小波的自动编码器(WAE)来加速深度神经网络的方法及装置。

背景技术

深度卷积神经网络在很多视觉领域的任务取得了非常有意义的成就，但是也同时很大程度上增加了计算复杂度。例如，VGG6-Net在很多识别任务中取得了非凡的结果，但是其分类一个224*224的图像需要大约153.6亿次浮点数计算，这在一个普通的资源有限的PC或者移动设备上是不可能达到的。所以深度卷积神经网路的加速是一个亟待解决的问题。

目前针对深度神经网络的加速问题有很多的研究，大部分都是应用张量分解的方法来计算卷积操作。典型的两个步骤是：用低阶的分解来近似一个预训练的CNN的卷积滤波器，然后对修改的网络进行微调。这样会引起在加速速率和识别效果之间平衡的难度，两个部分没有联合学习从而最大化两者。另外一部分针对深度神经网络的加速问题的研究是对于权重和激活的量化来进行参数的压缩从而加速，但是这些方法在加速的同时往往会造成明显的识别准确度的下降。例如XNOR-Net实现了Resnet-18在ImageNet数据集分类上的58倍的速度提升但是也因此在top-5的识别准确度下降了16％。

图像的分辨率直接决定了浮点计算次数，所以下采样原始图片是一个相对合理的加速深度卷积神经网络计算的方法，但是下采样的信息丢失不可避免地会造成识别准确度的下降。

发明内容

为克服上述现有技术存在的不足，本发明之一目的在于提供一种加速深度神经网络的方法及装置，以在对网络本身不进行显式的修改基础上实现加速深度神经网络的目的，以便可以泛化到多种不同的网络结构。

本发明之另一目的在于提供一种加速深度神经网络的方法及装置，以在计算速度的提升同时将准确度控制在可接受范围内。

为达上述及其它目的，本发明提出一种加速深度神经网络的方法，包括如下步骤：

步骤S1，定义类小波自动编码器，进行类小波自动编码器的学习以得到所述类小波自动编码器的网络参数；

步骤S2，基于所述类小波自动编码器进行图像分类。

优选地，步骤S1进一步包括：

定义所述类小波自动编码器的结构；

定义所述类小波自动编码器学习过程的损失函数；

输入图片训练样本，按照前向算法，后向算法和定义的损失函数进行所述类小波自动编码器网络参数的学习。

优选地，所述类小波自动编码器包括一个用来分解图像的编码层和一个用来融合图像的解码层组成，其中原始图像I在编码过程中会通过卷积核较小并且通道数较小的卷积网络，并在最后一层进行下采样生成包含高频信息I_H和包含低频信息I_L的两个只有原图一半长宽的通道，解码层对生成的两个通道进行上采样，并分别通过卷积核较小并且通道数较小卷积网络最后融合得到还原的图像I′。

优选地，所述损失函数包括两个部分，其中第一部分为自动编码器分解后得到的高频通道和低频通道要求保留了所有的原始图像的信息，将误差函数定义为另一部分为要求高频通道信息中尽量少地保留信息，定义误差函数为所述类小波自动编码器的损失函数为

优选地，使用损失函数对所述类小波自编码器进行训练得到模型的网络参数。

优选地，步骤S2进一步包括：

定义分类所用的网络；

输入图片训练样本，使用所述类小波自动编码器生成低频和高频通道，采用前向算法和后向算法及损失函数，训练得到类小波自动编码器的网络参数；

输入图片预测样本，载入训练好的类小波自动编码器，使用所述类小波自动编码器生成低频和高频通道，将两个通道输入训练好的类小波自动编码器得到预测结果。

优选地，所述定义分类所用的网络的步骤中定义了两个分类网络，第一个是对于低频信息通道使用一个标准的分类网络，以提取低频信息通道的特征f_L，另外一个网络是用于融合低频信息和高频信息的融合网络，它包括一个轻量级网络的子模块，以提取高频信息通道特征f_L，所述融合网络还包含一个分类器用于最后的图像分类。

优选地，所述输入图片训练样本，使用所述类小波自动编码器生成低频和高频通道，采用前向算法和后向算法及损失函数，训练得到类小波自动编码器的网络参数步骤包括三个阶段：第一阶段，去除分类的网络，利用损失函数训练类小波的自编码器；第二阶段，合并分类网络和类小波自编码器，使用损失函数来训练分类网络，所述类小波自动编码器的参数由第一阶段的结果进行的初始化；第三阶段，对类小波自编码器和分类器进行了联合训练，此阶段的损失函数为和的融合。

优选地，在预测过程中，将原始的图像输入所述类小波自编码器，得到I_L和I_H，然后分别输入分类网络进行各自提取特征并融合得到最终的分类结果。

为达到上述目的，本发明还提供一种加速深度神经网络的装置，包括：

类小波自动编码器的学习单元，用于定义类小波自动编码器，进行类小波自动编码器的学习以得到所述类小波自动编码器的网络参数；

图像分类单元，用于基于所述类小波自动编码器进行图像分类。

与现有技术相比，本发明一种加速深度神经网络的方法及装置通过定义类小波的自动编码器的结构以及通过类小波自动编码器的学习过程、基于类小波的自动编码器的分类过程，类小波自动编码器的学习过程将输入图片通过类小波的编码网络分解成为两个低分辨率的通道，在编码过程中这两个通道分别保留了图像的低频和高频信息，同时在解码时这两个通道可以重构原始的图片，这样大部分的原始图片的信息都可以保留从而保证了识别的效果，另外要求高频的通道保留尽量少的信息，这样可以只对它使用轻量级的网络从而减少计算负担，基于类小波的自动编码器的图像分类过程将类小波的自动编码器编码的低频的通道输入标准的分类网络，高频通道输入一个轻量的网络，然后融合两者得到分类结果，本发明利用自动编码器拆分图片本身的来加速图像识别过程，能够兼容任何当前的卷积神经网络，避免了修改网络结构。

附图说明

图1为本发明一种加速深度神经网络的方法的步骤流程图；

图2为本发明一种加速深度神经网络的装置的系统架构图；

图3为本发明具体实施例中类小波自动编码器的学习单元20的细部架构图；

图4为本发明具体实施例中图像分类单元21的细部架构图；

图5为本发明具体实施例中学习类小波的自动编码器来加速深度神经网络的方法的过程示意图；

图6为本发明具体实施例中类小波的自动编码器的详细结构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种加速深度神经网络的方法的步骤流程图。如图1所示，本发明一种加速深度神经网络的方法，包括如下步骤：

步骤S1，进行类小波自动编码器的学习。

具体地，步骤S1进一步包括：

步骤S100，定义类小波自动编码器的结构；在本发明具体实施例中，类小波自动编码器包括一个用来分解图像的编码层和一个用来融合图像的解码层，其中，编码层用于将输入的原始图像分解成两个低分辨率的通道，解码层将该两个通道融合并得到原始的图像。类小波自动编码器使用卷积神经网络将原始图像拆分一个高频信息和一个低频信息通道，并要求高频信息通道尽量保留较少的信息，具体地，原始图像I在编码过程中会通过卷积核较小并且通道数较小的卷积网络，并在最后一层进行下采样生成包含高频信息和包含低频信息的两个只有原图一半长宽的通道，解码层对生成的两个通道进行上采样，并分别通过卷积核较小并且通道数较小卷积网络最后融合得到还原的图像I′。

步骤S 101，定义类小波自动编码器学习过程的损失函数。

具体地，损失函数由两个部分组成，其中第一部分是自动编码器分解后得到的高频通道和低频通道要求保留了所有的原始图像的信息，即要求在最后的解码过程中根据高频和低频两个通道的信息可以还原原始的图像，所以将误差函数定义为另外一部分是要求高频通道信息中尽量少地保留信息，这样可以对其应用一个轻量级的网络从而减少计算开销，所以定义误差函数为如图5所示，为了融合这两部分误差，自动编码器的损失函数为

步骤S102，输入图片训练样本，按照前向算法，后向算法和定义的损失函数进行类小波自动编码器网络参数的学习。具体地，于步骤S102中，使用损失函数对于自编码器进行训练得到类小波自动编码器的网络参数。

步骤S2，基于类小波自动编码器进行图像分类。

具体地，步骤S2进一步包括：

步骤S200，定义分类所用的网络。具体地，分类所用的网络包括两个分类网络，第一个是对于低频信息通道使用一个标准的分类网络，可以是当前的常用来分类的效果很好的网络，作用是提取低频信息通道的特征f_L；另外一个网络是用于融合低频信息和高频信息的融合网络，它包括一个轻量级网络的子模块，这个模块用于提取高频信息通道特征f_L，融合网络还包含一个分类器用于最后的图像分类。

步骤S201，输入图片训练样本，使用所述类小波自动编码器(即步骤S1训练后的类小波自动编码器)生成低频和高频通道，采用前向算法和后向算法及损失函数，训练得到类小波自动编码器的网络参数，用于分类，即对于整个分类网络进行端到端的学习。具体地，训练过程包括如下三个阶段：第一阶段，首先去除分类的网络，然后用损失函数训练类小波的自编码器；第二阶段，合并分类网络和类小波自编码器，使用损失函数来训练分类网络，WAE的参数是由第一阶段的结果进行的初始化；第三阶段，为了使自编码器更好的适应分类器，对类小波自编码器和分类器进行了联合训练，此阶段的损失函数为和的融合。

步骤S202，输入图片预测样本，载入经步骤S201训练好的类小波自动编码器，使用类小波自动编码器生成低频和高频通道，将两个通道输入训练好的类小波自动编码器得到预测结果。具体地，于步骤S202中，将原始的图像输入自编码器，得到I_L和I_H，然后分别输入分类网络进行各自提取特征并融合得到最终的分类结果。

图2为本发明一种加速深度神经网络的装置的系统架构图。如图2所示，本发明一种加速深度神经网络的装置，包括：

类小波自动编码器的学习单元20，用于进行类小波自动编码器的学习。

具体地，如图3所示，类小波自动编码器的学习单元20进一步包括：

结构定义单元201，用于定义类小波自动编码器的结构；在本发明具体实施例中，类小波自动编码器包括一个用来分解图像的编码层和一个用来融合图像的解码层，其中，编码层用于将输入的原始图像分解成两个低分辨率的通道，解码层将该两个通道融合并得到原始的图像。类小波自动编码器使用卷积神经网络将原始图像拆分一个高频信息和一个低频信息通道，并要求高频信息通道尽量保留较少的信息，具体地，原始图像I在编码过程中会通过卷积核较小并且通道数较小的卷积网络，并在最后一层进行下采样生成包含高频信息和包含低频信息的两个只有原图一半长宽的通道，解码层对生成的两个通道进行上采样，并分别通过卷积核较小并且通道数较小卷积网络最后融合得到还原的图像I′。

损失函数定义单元202，用于定义类小波自动编码器学习过程的损失函数。

具体地，损失函数由两个部分组成，其中第一部分是自动编码器分解后得到的高频通道和低频通道要求保留了所有的原始图像的信息，即要求在最后的解码过程中根据高频和低频两个通道的信息可以还原原始的图像，所以将误差函数定义为另外一部分是要求高频通道信息中尽量少地保留信息，这样可以对其应用一个轻量级的网络从而减少计算开销，所以定义误差函数为为了融合这两部分误差，自动编码器的损失函数为其中，λ为用来加权两部分误差的参数，较佳地，λ一般为1。

训练学习单元203，用于输入图片训练样本，按照前向算法，后向算法和定义的损失函数进行类小波自动编码器网络参数的学习。具体地，训练学习单元203中，使用损失函数对于自编码器进行训练得到类小波自动编码器的网络参数。

图像分类单元21，用于基于类小波自动编码器进行图像分类。

具体地，如图4所示，图像分类单元21进一步包括：

分类网络定义单元210，用于定义分类所用的网络。具体地，分类所用的网络包括两个分类网络，第一个是对于低频信息通道使用一个标准的分类网络，可以是当前的常用来分类的效果很好的网络，作用是提取低频信息通道的特征f_L；另外一个网络是用于融合低频信息和高频信息的融合网络，它包括一个轻量级网络的子模块，这个模块用于提取高频信息通道特征f_L，融合网络还包含一个分类器用于最后的图像分类。

分类训练单元211，用于输入图片训练样本，使用所述类小波自动编码器生成低频和高频通道，采用前向算法和后向算法及损失函数，训练得到类小波自动编码器的网络参数，用于分类。具体地，训练过程包括如下三个阶段：第一阶段，首先去除分类的网络，然后用损失函数训练类小波的自编码器；第二阶段，合并分类网络和类小波自编码器，使用损失函数来训练分类网络，WAE的参数是由第一阶段的结果进行的初始化；第三阶段，为了使自编码器更好的适应分类器，对类小波自编码器和分类器进行了联合训练，此阶段的损失函数为和的融合。

预测单元212，用于输入图片预测样本，载入经分类训练好的类小波自动编码器，使用类小波自动编码器生成低频和高频通道，将两个通道输入训练好的类小波自动编码器得到预测结果。具体地，于步骤S202中，将原始的图像输入自编码器，得到I_L和I_H，然后分别输入分类网络进行各自提取特征并融合得到最终的分类结果。

以下将通过一具体实施例进一步说明本发明：图5为本发明具体实施例中学习类小波的自动编码器来加速深度神经网络的方法的过程示意图，该方法包括类小波的自动编码器学习过程以及基于类小波的自动编码器的分类过程，具体地，

1、定义类小波自动编码器的结构；

在本发明具体实施例中，定义了一个用于分解和合并图像的自编码器，详细结构如图6所示。图像的分解过程：给定一个输入图像I，大小为W*H，将其通过编码层分解成为两个半分辨率的通道，I_L和I_H，其中：

描述了编码的过程，W_E是这个过程的参数。编码的层包含三个堆叠起来的3*3的卷积层，步长为1，后面接着两个步长为2的分支的卷积层分别来生成高频和低频的通道。如果编码的过程产生的计算开销较大会违背最初加速神经网络的初衷，因此卷积使用的是3*3的核并且通道数设为16。

图像的合成过程：解码的过程是基于I_L和I_H合成原始的输入图像，它对I_L和I_H进行了上采样得到I′_L和I′_H，然后将它们相加得到I′，这个过程被描述为：

和分别是对于I_L和I_H的转换，W_DL和W_DH是参数。解码的层由两个相同结构的分支构成，分别用于两个通道信息的转换。每个分支包含一个步长为2的用于上采样的4*4的解卷积层和三个步长为1的堆积起的3*3的卷积层，所有的通道也为16，解卷积层按两倍上采样输入通道信息，卷积层进一步完善上采样了的特征向量,最后融合两个通道的信息。

2、类小波的自编码器的训练。

在本发明具体实施例中，去除分类器进行自编码器的训练，具体地，给定一个图像，将其大小调整为256*256，并随机的截取224*224大小的图像作为输入。自编码器的参数由Xavier算法进行初始化，并将SGD(stochastic gradient descent，随机梯度下降)作为优化器，其mini-batch为4，momentum为0.9，weight decay为0.0005。学习率定为0.000001,每10个回合除以10。

3、基于类小波自编码器的图像分类：

图像分类的网络由一个用来从低频信息通道中获取特征f_L的标准网络和一个用来融合高频信息通道的融合网络组成。

标准网络是当前常于图像分类的一些网络，例如VGG16-Net和Resnet，本发明使用其最后一层卷积的输出作为特征f_L。

融合网络包括一个子模块用来提取高频信息通道的特征f_H，它是一个标准网络除了所有的通道数都是原来的1/4，融合网络还包含一个分类器用于最后的图像分类。

f_L被输入一个简单的分类器来预测得到一个分数s_L，然后将f_L和f_H拼接再通过一个相似的分类器得到分数s_c。这两个分数平均之后得到分数s。

使用交叉熵损失作为目标函数来训练分类网络，假设有N个训练样本，每个样本I_i的标签为y_i。给定预测的概率向量为：

C是需要分的类的个数，则分类的损失函数为：

其中，如果括号中表达式值为真为1，如果括号中表达式值为假则为0。对于s_c和s_L使用相同的损失函数，并且相加得到最终的分类损失

4、基于类小波自编码器的图像分类训练

将分类网络模块和类小波自编码器合并进行训练。

第一步，类小波自编码器的参数由其第一步的训练结果初始化，并且保持固定，然后训练分类网络结构的参数，损失函数为分类网络由Xavier算法初始化。图像大小首先被调整为256*256，然后随机地截取224*224大小的图像最为输入。分类网络同样适用SGD算法进行优化，其参数与2的相同。但是mini-batch设为256，学习率首先是0.01(如果是resnet-50则为0.1)，然后除以10如果错误逐渐平稳。

第二步，联合微调WAE和分类网络更好地用分解的通道进行分类。具体地，需要联合分类损失函数：

γ被设为0.001，同样使用SGD和第一步中的相关参数，除了学习率需要稍小一点，定位0.0001。

综上所述，本发明一种加速深度神经网络的方法及装置通过定义类小波的自动编码器的结构以及通过类小波自动编码器的学习过程、基于类小波的自动编码器的分类过程，类小波自动编码器的学习过程将输入图片通过类小波的编码网络分解成为两个低分辨率的通道，分解的限制包括，在编码过程中这两个通道分别保留了图像的低频和高频信息，同时在解码时这两个通道可以重构原始的图片，这样大部分的原始图片的信息都可以保留从而保证了识别的效果。另外要求高频的通道保留尽量少的信息，这样可以只对它使用轻量级的网络从而减少计算负担，基于类小波的自动编码器的图像分类过程将类小波的自动编码器编码的低频的通道输入标准的分类网络，高频通道输入一个轻量的网络，然后融合两者得到分类结果，本发明利用自动编码器拆分图片本身的来加速图像识别过程，能够兼容任何当前的卷积神经网络，避免了修改网络结构。实验证明本发明的确在识别准确度的保持和加速效率上都取得非常高的成果。

本发明的有益效果如下：

第一，本发明利用类小波的自动编码器的编码过程有效的获得了原始图像的两个低分辨率的子图，同时通过解码过程能够很好的还原原始的图像，尽可能少的减少了原始图像信息的丢失，保证了分类的准确度。

第二，给定一个CNN，整个卷积层的计算复杂度可以这样来表示：

d是卷积的层数，l是卷积层的索引，n_l是第l层的通道数,s_l是卷积核的空间大小，m_l是该卷积层的输出的特征向量的空间大小。原始图像经过分解，所有的m_l都减半，因此计算复杂度是原始的1/4。对于融合网络中对于I_H的处理计算复杂度约为标准网络处理原始数据的1/64，所以最后的处理速度相对标准网络处理原始数据的倍。所以本发明能够很明显的提升深度神经网络的处理速度。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种加速深度神经网络的方法，包括如下步骤：

步骤S2，基于所述类小波自动编码器进行图像分类。

2.如权利要求1所述的一种加速深度神经网络的方法，其特征在于，步骤S1进一步包括：

定义所述类小波自动编码器的结构；

定义所述类小波自动编码器学习过程的损失函数；

3.如权利要求2所述的一种加速深度神经网络的方法，其特征在于：所述类小波自动编码器包括一个用来分解图像的编码层和一个用来融合图像的解码层组成，其中原始图像I在编码过程中会通过卷积核较小并且通道数较小的卷积网络，并在最后一层进行下采样生成包含高频信息I_H和包含低频信息I_L的两个只有原图一半长宽的通道，解码层对生成的两个通道进行上采样，并分别通过卷积核较小并且通道数较小卷积网络最后融合得到还原的图像I′。

4.如权利要求2所述的一种加速深度神经网络的方法，其特征在于：所述损失函数包括两个部分，其中第一部分为自动编码器分解后得到的高频通道和低频通道要求保留了所有的原始图像的信息，将误差函数定义为另一部分为要求高频通道信息中尽量少地保留信息，定义误差函数为所述类小波自动编码器的损失函数为

5.如权利要求4所述的一种加速深度神经网络的方法，其特征在于：使用损失函数对所述类小波自编码器进行训练得到模型的网络参数。

6.如权利要求5所述的一种加速深度神经网络的方法，其特征在于，步骤S2进一步包括：

定义分类所用的网络；

7.如权利要求6所述的一种加速深度神经网络的方法，其特征在于：所述定义分类所用的网络的步骤中定义了两个分类网络，第一个是对于低频信息通道使用一个标准的分类网络，以提取低频信息通道的特征f_L，另外一个网络是用于融合低频信息和高频信息的融合网络，它包括一个轻量级网络的子模块，以提取高频信息通道特征f_L，所述融合网络还包含一个分类器用于最后的图像分类。

8.如权利要求6所述的一种加速深度神经网络的方法，其特征在于，所述输入图片训练样本，使用所述类小波自动编码器生成低频和高频通道，采用前向算法和后向算法及损失函数，训练得到类小波自动编码器的网络参数步骤包括三个阶段：第一阶段，去除分类的网络，利用损失函数训练类小波的自编码器；第二阶段，合并分类网络和类小波自编码器，使用损失函数来训练分类网络，所述类小波自动编码器的参数由第一阶段的结果进行的初始化；第三阶段，对类小波自编码器和分类器进行了联合训练，此阶段的损失函数为和的融合。

9.如权利要求6所述的一种加速深度神经网络的方法，其特征在于：在预测过程中，将原始的图像输入所述类小波自编码器，得到I_L和I_H，然后分别输入分类网络进行各自提取特征并融合得到最终的分类结果。

10.一种加速深度神经网络的装置，包括：