CN107944555B

CN107944555B - 神经网络压缩和加速的方法、存储设备和终端

Info

Publication number: CN107944555B
Application number: CN201711282087.6A
Authority: CN
Inventors: 杨达坤; 曾葆明
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2021-09-17
Anticipated expiration: 2037-12-07
Also published as: CN107944555A

Abstract

本发明提供一种神经网络压缩和加速的方法、存储设备和终端，该方法包括步骤：对原始神经网络进行剪枝；对剪枝后的原始神经网络的网络权值进行聚类量化，并对聚类量化后的原始神经网络进行训练，得到目标神经网络；采用稀疏矩阵存储所述目标神经网络；将输入特征图转换成输入矩阵；将所述稀疏矩阵与所述输入矩阵相乘，获得所述输入特征图对应的输出特征图。该实施例降低了神经网络计算资源和存储空间，从而减少了计算成本。

Description

神经网络压缩和加速的方法、存储设备和终端

技术领域

本发明涉及计算机技术领域，具体而言，本发明涉及一种神经网络压缩和加速的方法、存储设备和终端。

背景技术

随着神经网络模型的发展，为了解决越来越难的分类识别检测等问题，越来越深和越来越庞大的神经网络模型开始应用到这类问题上。例如，对于目前广泛用于人工智能的深度学习算法，深度网络结构较深，其计算量和模型较大，那么就需要更多的计算资源和存储空间。然而在生产应用上服务器计算资源变得越来越紧缺，速度要求越来越高，向移动端移植的需求也变得越来越紧迫，因此，在保证精度损失小的情况下，对神经网络的压缩及测试加速显得非常有必要。

传统技术中，网络压缩主要是对卷积层权值张量分解，得到多个低秩子张量，只需存储固定个数的低秩子张量达到压缩，计算时将多个低秩子张量的卷积累加得到最终的输出特征图，达到加速效果。

然而，上述低秩分解的方法模型压缩率并不高，无法有效降低计算资源和存储空间，计算成本较高。

发明内容

本发明针对现有方式的缺点，提出一种神经网络压缩和加速的方法、存储设备和终端，用以解决现有技术中存在的无法有效降低神经网络计算资源和存储空间，计算成本较高的问题，以降低神经网络计算资源和存储空间，从而减少计算成本。

本发明的实施例根据第一个方面，提供了一种神经网络压缩和加速的方法，包括步骤：

对原始神经网络进行剪枝；

对剪枝后的原始神经网络的网络权值进行聚类量化，并对聚类量化后的原始神经网络进行训练，得到目标神经网络；

采用稀疏矩阵存储所述目标神经网络；

将输入特征图转换成输入矩阵；

将所述稀疏矩阵与所述输入矩阵相乘，获得所述输入特征图对应的输出特征图。

在一个实施例中，所述对原始神经网络进行剪枝，包括：通过L1/2正则化算法对原始神经网络进行剪枝。

在一个实施例中，若采用图形处理器GPU计算输出特征图，所述将输入特征图转换成输入矩阵，包括：

统计所述稀疏矩阵中非零元素所在的列标；

根据统计的列标得到输入矩阵的行数；

将输入特征图转换成所述行数的输入矩阵。

在一个实施例中，若采用图像处理器GPU计算输出特征图，所述将所述稀疏矩阵与所述输入矩阵相乘，获得所述输入特征图对应的输出特征图，包括：

将所述稀疏矩阵与所述输入矩阵相乘，获得输出矩阵，其中，所述输出矩阵的每一行若干列的矩阵元素由块BLOCK中的单个线程计算；

将所述输出矩阵转换成输出特征图。

在一个实施例中，所述稀疏矩阵与所述输入矩阵相乘过程中产生的累加数存入寄存器中，在相乘计算完毕后所述累加数存入所述输出矩阵的全局内存中。

统计所述稀疏矩阵中每行非零元素的个数；

按照个数从大到小的顺序，获得用于指示所述稀疏矩阵各行执行顺序的排序数组；

按照所述排序数组，将每行非零元素分别与所述输入矩阵中对应列的矩阵元素相乘，获得所述输入特征图对应的输出特征图。

在一个实施例中，所述排序数组预先绑定在纹理内存中。

将所述稀疏矩阵中每行非零元素存入对应的共享内存中；

将从所述共享内存中读取的每行非零元素分别与所述输入矩阵中对应列的矩阵元素相乘，获得所述输入特征图对应的输出特征图。

本发明的实施例根据第二个方面，还提供了一种存储设备，其上存储有计算机程序，该程序被处理器执行时实现前述任意一项所述方法的步骤。

本发明的实施例根据第三个方面，还提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述任意一项所述方法的步骤。

上述的神经网络压缩和加速的方法、存储设备和终端，与现有技术相互比较时，具备以下优点：

1、通过对原始神经网络进行剪枝、聚类量化以及训练，将目标神经网络通过稀疏矩阵进行存储，对原有神经网络可以达到50到几百倍的压缩率，压缩率较高，在进行计算时，利用稀疏矩阵乘法将稀疏矩阵和输入矩阵相乘，得到最终的输出特征图，加速效果好，有效降低了计算资源和存储空间，从而减少了计算成本；

2、通用性强，几乎所有线上跑的模型都可以通过本发明压缩和加速，从而使得同样的模型可以在同样的时间里处理更多的图片，可以节省计算资源，达到降低成本的目的；

3、进一步的，通过L1/2正则化算法进行神经网络剪枝，可以一次性训练达到剪枝的目的而不需要多次反复训练来剪枝神经网络，从而可以节省训练时间；

4、进一步的，若采用GPU计算，则只需将输入特征图转换成较小的矩阵，不仅可以减小GPU的内存占用，同时也能加速。

5、进一步的，若采用GPU计算，通过单个线程处理输出矩阵某一行的若干列，将中间数据存入寄存器，按照非零元素个数进行排序计算，以及将排序数组存入纹理内存等操作，进一步实现了神经网络的加速。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明一个实施例的神经网络压缩和加速的方法的流程示意图；

图2为本发明一个具体实施例的lenet网络第一层卷积层未使用L1/2正则化的部分权值的示意图；

图3为本发明一个具体实施例的lenet网络第一层卷积层使用L1/2正则化的相应的部分权值的示意图；

图4为本发明一个具体实施例的选取阈值进行剪枝之后的部分权值的示意图；

图5为本发明一个具体实施例的lenet网络第一层卷积层的聚类量化前的部分权值的示意图；

图6为本发明一个具体实施例的lenet网络第一层卷积层的聚类量化训练之后的部分权值的示意图；

图7为本发明一个具体实施实例的采用稀疏矩阵存储图6的部分权值的示意图；

图8为现有技术中由稠密矩阵和输入矩阵获得输出矩阵的示意图；

图9为本发明一个具体实施例的由稀疏矩阵和输入矩阵获得输出矩阵的示意图；

图10为本发明一个具体实施例的输入矩阵行数确定方式的示意图；

图11为本发明一个具体实施例的输入矩阵的示意图；

图12为本发明一个具体实施例的目标神经网络训练阶段的示意图；

图13为本发明一个具体实施例的目标神经网络测试阶段的示意图；

图14为本发明一个实施例的终端的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

传统技术中，在对神经网络进行压缩和加速时，除了低秩分解的方法，还有通过权值量化，预先计算内积查找表来进行加速，以及一些其它的压缩和加速方法。但是，如前所述，低秩分解的方法模型压缩率并不高，通过参数量化计算的查找表，生成查找表的计算非常冗余，产生了很多不必要的计算，而且随着输入的不同需要更新查找表，额外计算开销较大，其他方法虽然能对模型进行压缩存储，但在计算过程中加速效果一般。因此针对以上各种缺陷，本发明提供一种神经网络压缩和加速的方法、存储设备和终端，能够对神经网络进行很好的压缩，且不会产生冗余计算，额外计算开销较小，并且得到的神经网络能够实现很好的加速效果，从而有效降低了计算成本。

为了更好的理解本发明，下面结合附图对本发明的具体实施方式进行详细介绍。

如图1所示，在一个实施例中，一种神经网络压缩和加速的方法，包括步骤：

S110、对原始神经网络进行剪枝。

S120、对剪枝后的原始神经网络的网络权值进行聚类量化，并对聚类量化后的原始神经网络进行训练，得到目标神经网络。

S130、采用稀疏矩阵存储所述目标神经网络。

S140、将输入特征图转换成输入矩阵。

S150、将所述稀疏矩阵与所述输入矩阵相乘，获得所述输入特征图对应的输出特征图。

上述实施例有效降低了计算资源和存储空间，从而减少了计算成本。下面对各个步骤进行详细介绍。

在步骤S110中，神经网络包括卷积神经网络和深度神经网络等。本发明的压缩和加速方法通用性强，几乎所有的线上跑的模型通过本发明实施例都可以压缩和加速。例如，目前上线的caffe(Convolutional Architecture for Fast Feature Embedding，卷积神经网络框架)模型都可以根据本发明实施例进行压缩加速，即在模型使用中只需用本发明生成的caffe库文件就可以加速。因此，本发明并不对原始神经网络的具体形式进行限定，原始神经网络可以是通过本发明实施例实现压缩和加速的任何神经网络。

对原始神经网络进行剪枝有多种实现方式，例如，在一个实施例中，所述对原始神经网络进行剪枝，包括：通过L1/2正则化算法对原始神经网络进行剪枝。

本发明的发明人经研究发现，对比L2和L1正则化算法，将L1/2正则化算法应用在网络模型加速上，具有更强的稀疏性，具有更好的剪枝效果，其算法公式如下：

其中，E(W)是网络的总误差函数，

是网络的预测误差函数，

是网络权值的L1/2正则化项。

利用L1/2正则化算法对原始神经网络进行训练，使得网络权值更加具有稀疏性，对训练结束之后的模型取一定的阈值进行剪枝，即通过一定的阈值来去掉小于阈值的网络权值，从而达到网络结构剪枝的目的。由于L1/2正则化算法的优越性，可以一次性训练达到剪枝的目的而不需要多次反复训练来剪枝网络，从而可以节省训练时间，使得卷积层和全连接层权值便于稀疏剪枝。

以一个具体实例为例，根据其算法在caffe平台上修改源代码添加L1/2正则化算法对深度网络进行训练，对训练结束之后的模型取一定的阈值进行剪枝。其结果如图所示，图2为lenet网络第一层卷积层未使用L1/2正则化的部分权值，图3为lenet网络第一层卷积层使用L1/2正则化的相应的部分权值，图4为选取阈值进行剪枝之后的部分权值。从该图2至图4可以看出，通过L1/2正则化算法，整个网络的权值的90％都变为0，在卷积和全连接的权值中有很大一部分的零元素，所以后续只需存储少量的非零元素。

在步骤S120中，对剪枝后的神经网络利用聚类量化算法进一步压缩，即对于剪枝后的神经网络结构的网络权值先进行聚类，然后再把每个网络权值分配到各个聚类中心进行量化，最后利用优化算法进行训练，以得到压缩网络，即目标神经网络。

对网络权值进行聚类有多种实现方式，例如，在一个实施例中，利用k-means聚类算法对剪枝后的神经网络的每层网络权值进行聚类，对于网络权值W＝{w₁,w₂,…,w_n}，将其聚类成K类C＝{c₁,c₂,…,c_k}，k-means聚类算法公式如下：

K可以根据实际需要进行确定，例如，网络结构中的每层卷积层和全连接层的权值都聚类成128类，即K＝128。

应当理解，本发明并不对聚类算法进行限定，用户还可以根据实际需要选择其它聚类算法。

进行聚类后，针对神经网络的每层网络，将每个网络权值分配到各个聚类中心进行量化。然后采用优化算法进行训练，以得到压缩后的神经网络，即目标神经网络。优化算法可以根据实际需要进行选择，例如，利用误差反向传播算法对聚类量化后的神经网络进行训练，其中对聚类中心的梯度计算公式如下：

其中，E是网络的误差函数，c_k是第k个聚类中心。

聚类量化训练的压缩比率可以由以下公式计算得到：

其中，n是非零的网络权值个数，b是用来表示网络权值的位数，k是聚类中心的个数。

以一个具体实例进行说明，根据其算法公式对caffe源代码进行修改，其结果如图所示，图5为lenet网络第一层卷积层的聚类量化前的部分权值，图6为lenet网络第一层卷积层的聚类量化训练之后的部分权值。从图5和图6可以看出，网络权值经过聚类量化训练之后，少量的非零元素由更少的聚类中心来代替，后续仅需要存储更少的聚类中心，进一步压缩了模型(神经网络)。

在步骤S130中，经过前述步骤，神经网络仅剩数量很少的聚类中心，因此可以将聚类量化训练后的模型，即目标神经网络，利用稀疏矩阵的存储方式进行存储，从而达到压缩模型的目的。稀疏矩阵的具体格式可以根据实际需要进行选择，本发明并不对此作出限定。例如，利用稀疏矩阵的存储方式CSR(Compressed Sparse Row，行压缩)来存储聚类量化训练之后的神经网络。

网络权值经过聚类量化训练之后，少量的非零元素由更少的聚类中心来代替，所以稀疏矩阵只需存储聚类中心以及索引。对于神经网络中每层的网络权值，具体存储：聚类中心码表，每个非零权值在码表的索引，每一行首个非零权值在非零权值的位置，以及每个非零权值的列索引。这样的存储方式对原有模型可以达到50到几百倍的压缩率。

如图7所示，为采用稀疏矩阵存储图6的部分权值的示意图，相较于图2原始神经网络中的72个数值，现在仅需要存储12个聚类中心，以及索引：每个非零权值在码表的索引，每一行首个非零权值在非零权值的位置，以及每个非零权值的列索引，大大提高了压缩率。

在步骤S140和S150中，目标神经网络通过稀疏矩阵存储，将稀疏矩阵和输入特征图转换成的输入矩阵通过稀疏矩阵乘法相乘，相较于传统技术中的稠密矩阵乘法，大大提高了加速效果。下面结合CPU(Central Processing Unit，中央处理器)和GPU(GraphicsProcessing Unit，图形处理器)两种计算平台进行介绍。

1、对于CPU测试模块，利用CPU稀疏矩阵乘法进行加速

传统技术中在进行计算时，卷积是将其转化为卷积权值组成的矩阵A(M*K),与展开的输入矩阵B(K*N)的矩阵乘法运算来得到卷积结果矩阵C(M*N)，即如图8所示，计算输出矩阵p行q列的值为，A的p行与B的q列做内积。

现转化为稀疏矩阵乘法计算，由图9可知，矩阵A(目标神经网络的稀疏矩阵)p行黑色为非零元素，则变成了在A的p行与B的q列只需计算非零元素的内积。采用本发明，将卷积层和全连接层原有的稠密矩阵乘法计算，转为稀疏矩阵乘法计算，可以达到比用cblas计算稠密矩阵快4倍的加速。

2、对于GPU测试模块，利用GPU并行稀疏矩阵乘法进行加速

通过前述步骤得到的目标神经网络的权值稀疏度比较高，不需要将输入特征图通过im2col展成K*N的大矩阵。因此，在一个实施例中，若采用图形处理器GPU计算输出特征图，所述将输入特征图转换成输入矩阵，包括：统计所述稀疏矩阵中非零元素所在的列标；根据统计的列标得到输入矩阵的行数；将输入特征图转换成所述行数的输入矩阵。其中，采用图形处理器GPU计算输出特征图，指采用图形处理器GPU将输入特征图转换成输入矩阵；将所述稀疏矩阵与所述输入矩阵相乘，获得所述输入特征图对应的输出特征图。

统计矩阵A中非零元素的列标r，得到B矩阵的部分行，只需生成r*N的较小矩阵，其中r小于K，且小于nnz(非零元素的个数)，从而一方面减小了GPU的内存占用，同时也能加速。如图10所示，矩阵A中非零元素的列标为1、2、3、5、6，那么只需要将输入特征图展成5*N的矩阵即可。

图10中矩阵A带颜色标记的表示非零元素，矩阵B左侧为矩阵列标，将非零元素展成一个列向量，同时对应需要计算的输入特征图，如图11，右侧的数字为它需要计算原B矩阵的行号，其中全为零的行则无需计算，输出直接初始化为0即可。采用本发明，将卷积层和全连接层原有的稠密矩阵乘法计算，转为稀疏矩阵乘法计算，那么整个稀疏矩阵乘法的计算量变成了nnz*N次乘法，(nnz-M)*N次加法，而原本的稠密矩阵乘法的计算量为M*N*K次乘法，M*N*(K-1)次加法，假设稀疏度为0.9，即nnz/(M*K)为0.1，则理论上稀疏矩阵乘法应该比稠密矩阵乘法的加速接近10倍。

本发明还针对GPU的特性对计算方法做了改动以进行进一步加速，下面结合几个实施例进行介绍。

1、设定一个BLOCK(块)处理输出矩阵的某一行的若干列

在一个实施例中，若采用图像处理器GPU计算输出特征图，所述将所述稀疏矩阵与所述输入矩阵相乘，获得所述输入特征图对应的输出特征图，包括：将所述稀疏矩阵与所述输入矩阵相乘，获得输出矩阵，其中，所述输出矩阵的每一行若干列的矩阵元素由块BLOCK中的单个线程计算；将所述输出矩阵转换成输出特征图。

1个BLOCK处理的是A矩阵某一行与B矩阵相应列相乘，得到C矩阵对应行的输出，传统技术中BLOCK里的每个线程只负责计算C矩阵该行某一列输出的计算，本发明的发明人通过测试发现，单个线程处理多列速度会更快，并且能够实现访存合并。

2、对稀疏矩阵中每行非零元素的个数做降序排列，优先执行非零元素个数多的行

在一个实施例中，若采用图像处理器GPU计算输出特征图，所述将所述稀疏矩阵与所述输入矩阵相乘，获得所述输入特征图对应的输出特征图，包括：统计所述稀疏矩阵中每行非零元素的个数；按照个数从大到小的顺序，获得用于指示所述稀疏矩阵各行执行顺序的排序数组；按照所述排序数组，将每行非零元素分别与所述输入矩阵中对应列的矩阵元素相乘，获得所述输入特征图对应的输出特征图。

对矩阵A中每行非零元素的个数做降排序，将非零元素个数多的排在前面优先执行，进一步提高计算效率。

3、充分利用GPU纹理内存、共享内存、以及寄存器高速读写的特点

由于纹理内存、共享内存和寄存器的读写速度远远快于全局内存，因此由以下几点进行加速访存：

在一个实施例中，若采用图像处理器GPU计算输出特征图，所述将所述稀疏矩阵与所述输入矩阵相乘，获得所述输入特征图对应的输出特征图，包括：将所述稀疏矩阵中每行非零元素存入对应的共享内存中；将从所述共享内存中读取的每行非零元素分别与所述输入矩阵中对应列的矩阵元素相乘，获得所述输入特征图对应的输出特征图。GPU同一个BLOCK的线程有共享内存，可将A矩阵该行所有的非零元素存入共享内存，以减少同一个BLOCK的不同线程对全局内存的访问。

在一个实施例中，所述排序数组预先绑定在纹理内存中。将排序数组预先绑定到纹理内存中，可以加快读写。

在一个实施例中，所述稀疏矩阵与所述输入矩阵相乘过程中产生的累加数存入寄存器中，在相乘计算完毕后所述累加数存入所述输出矩阵的全局内存中。将中间暂存的累加数存入寄存器，到计算完毕后再存入输出矩阵的全局内存中，可以加快读写。

通过上述改进，实现了线程内存读取写入的合并，使用了texture内存，寄存器访问速度非常快，采用了并行化，共享内存以及优先计算排名策略，可以使得GPU上测试时间对nvidia提供的cudnn的加速比是2倍，对nvidia提供的cusparse库的加速比为5倍。

为了更好的理解本发明，下面通过目标神经网络生成(训练阶段)以及测试目标神经网络的性能(测试阶段)两个方面来进行介绍。

如图12所示，训练阶段可以分为三个阶段：网络剪枝阶段、聚类量化阶段和存储阶段。网络剪枝阶段：将训练样本数据输入原始模型，并利用L1/2正则化算法对原始模型进行训练，得到L1/2模型，通过阈值对该L1/2模型进行过滤剪枝。聚类量化阶段：对剪枝后的网络权值进行聚类量化，然后输入训练样本数据进行finetune训练，得到压缩模型(目标神经网络)。存储阶段：对训练结束后的压缩模型利用稀疏矩阵存储方法进行存储(图12中未示意)。对于训练阶段，由于L1/2正则化算法的优越性，可以一次性训练达到剪枝的目的而不需要多次反复训练来剪枝网络，从而可以节省训练时间，训练流程明了，易finetune训练，使用方便。

如图13所示，针对CPU计算平台，载入压缩模型，使用稀疏矩阵乘法对输入矩阵和压缩模型的稀疏矩阵进行运算，实现卷积层和全连接层的加速。针对GPU计算平台，载入压缩模型，使用稀疏矩阵乘法对输入矩阵和压缩模型的稀疏矩阵进行运算，实现卷积层和全连接层的加速。对于测试模块，CPU计算平台上的测试有4倍加速，GPU计算平台上的测试对比caffe的cudnn6.0有2倍加速。以在直播业务中用于内容审核的18+和暴恐类旗帜检测的SSD(Single Shot MultiBox Detector)模型为例，通过本发明实施例，加速效果由原来的平均10.4ms(毫秒)处理一张图，变成加速后的5.18ms处理一张图。

本发明实施例还提供一种存储设备，其上存储有计算机程序，该程序被处理器执行时实现前述任意一项所述方法的步骤。其中，所述存储设备包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random AcceSS Memory，随即存储器)、EPROM(EraSable Programmable Read-OnlyMemory，可擦写可编程只读存储器)、EEPROM(Electrically EraSable ProgrammableRead-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，存储设备包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器，磁盘或光盘等。

本发明实施例还提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述任意一项所述方法的步骤。

如图14所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图14示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图14，手机包括：射频(Radio Frequency，RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity，Wi-Fi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图14中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图14对手机的各个构成部件进行具体的介绍：

RF电路1510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1580处理；另外，将设计上行的数据发送给基站。通常，RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如神经网络压缩和加速功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如神经网络数据等)等。此外，存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1580，并能接收处理器1580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531，输入单元1530还可以包括其他输入设备1532。具体地，其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541，可选的，可以采用液晶显示器(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1541。进一步的，触控面板1531可覆盖显示面板1541，当触控面板1531检测到在其上或附近的触摸操作后，传送给处理器1580以确定触摸事件的类型，随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图14中，触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1531与显示面板1541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1560、扬声器1561，传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号，传输到扬声器1561，由扬声器1561转换为声纹信号输出；另一方面，传声器1562将收集的声纹信号转换为电信号，由音频电路1560接收后转换为音频数据，再将音频数据输出处理器1580处理后，经RF电路1510以发送给比如另一手机，或者将音频数据输出至存储器1520以便进一步处理。

Wi-Fi属于短距离无线传输技术，手机通过Wi-Fi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图14示出了Wi-Fi模块1570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1580可包括一个或多个处理单元；优选的，处理器1580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1580中。

手机还包括给各个部件供电的电源1590(比如电池)，优选的，电源可以通过电源管理系统与处理器1580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种神经网络压缩和加速的方法，其特征在于，包括步骤：

对原始神经网络进行剪枝；

采用稀疏矩阵存储所述目标神经网络；

将输入特征图转换成输入矩阵；

采用图像处理器GPU计算输出特征图，将所述稀疏矩阵与所述输入矩阵相乘，获得所述输入特征图对应的输出特征图，包括：对稀疏矩阵中每行非零元素的个数做降序排列，优先执行非零元素个数多的行。

2.根据权利要求1所述的神经网络压缩和加速的方法，其特征在于，所述对原始神经网络进行剪枝，包括：

通过L1/2正则化算法对原始神经网络进行剪枝。

3.根据权利要求1所述的神经网络压缩和加速的方法，其特征在于，若采用图形处理器GPU计算输出特征图，所述将输入特征图转换成输入矩阵，包括：

统计所述稀疏矩阵中非零元素所在的列标；

根据统计的列标得到输入矩阵的行数；

将输入特征图转换成所述行数的输入矩阵。

4.根据权利要求1所述的神经网络压缩和加速的方法，其特征在于，若采用图像处理器GPU计算输出特征图，所述将所述稀疏矩阵与所述输入矩阵相乘，获得所述输入特征图对应的输出特征图，包括：

将所述输出矩阵转换成输出特征图。

5.根据权利要求4所述的神经网络压缩和加速的方法，其特征在于，所述稀疏矩阵与所述输入矩阵相乘过程中产生的累加数存入寄存器中，在相乘计算完毕后所述累加数存入所述输出矩阵的全局内存中。

6.根据权利要求1所述的神经网络压缩和加速的方法，其特征在于，若采用图像处理器GPU计算输出特征图，所述将所述稀疏矩阵与所述输入矩阵相乘，获得所述输入特征图对应的输出特征图，包括：

统计所述稀疏矩阵中每行非零元素的个数；

7.根据权利要求6所述的神经网络压缩和加速的方法，其特征在于，所述排序数组预先绑定在纹理内存中。

8.根据权利要求1所述的神经网络压缩和加速的方法，其特征在于，若采用图像处理器GPU计算输出特征图，所述将所述稀疏矩阵与所述输入矩阵相乘，获得所述输入特征图对应的输出特征图，包括：

将所述稀疏矩阵中每行非零元素存入对应的共享内存中；

9.一种存储设备，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8中任意一项所述方法的步骤。

10.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-8中任意一项所述方法的步骤。