CN110929837A

CN110929837A - 神经网络模型压缩方法及装置

Info

Publication number: CN110929837A
Application number: CN201811091717.6A
Authority: CN
Inventors: 王丹; 张扬
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2020-03-27
Anticipated expiration: 2038-09-19
Also published as: CN110929837B

Abstract

本发明公开了一种神经网络模型压缩方法及装置，该方法包括：训练神经网络模型参数；获取所述神经网络模型各层的模型参数集合，所述模型参数集合包含多个模型参数；确定所述神经网络模型各层的量化参数；对每层的模型参数，利用该层的量化参数对所述模型参数进行量化，得到量化后的模型参数；根据所述量化后的模型参数对所述神经网络模型进行压缩存储。利用本发明，可以大大减小神经网络模型存储占用的空间。

Description

神经网络模型压缩方法及装置

技术领域

本发明涉及人工智能领域，具体涉及一种神经网络模型压缩方法及装置。

背景技术

深度学习技术是人工智能技术的一种重要手段，比如经典的RNN(RecurrentNeural Network，循环神经网络)模型在自然语言处理领域有着重要的应用，对一些应用如输入法、语音识别等，有较好的效果提升，比如，输入拼音串“feijizhengzaihuaxing”，在系统词库规模和N-gram语言模型有限的情况下，当前主流输入法给出的候选是“飞机正在花型”，引入LSTM(Long Short-Term Memory，长短期记忆网络)循环神经网络模型后，输入法给出的候选是“飞机正在滑行”。

在RNN模型应用中，一方面模型存储需要较大的空间，另一方面模型前向推理计算需要较大的计算量，比如用几万词表训练LSTM语言模型，得到的普通模型占用空间可能在100MB左右，即使利用共享嵌入层(embedding)技术，模型存储所需的空间也有30MB左右。可见，这样的存储及运算需求，在智能设备尤其是稍微低端的智能设备上，模型存储空间以及前向推理计算速度都不能满足线上要求。

发明内容

本发明实施例提供一种神经网络模型压缩方法及装置，以减小神经网络模型存储占用的空间。

为此，本发明提供如下技术方案：

一种神经网络模型压缩方法，所述方法包括：

训练神经网络模型参数；

获取所述神经网络模型各层的模型参数集合，所述模型参数集合包含多个模型参数；

确定所述神经网络模型各层的量化参数；

对每层的模型参数，利用该层的量化参数对所述模型参数进行量化，得到量化后的模型参数；

根据所述量化后的模型参数对所述神经网络模型进行压缩存储。

可选地，所述确定所述神经网络模型各层的量化参数包括：

获取所述神经网络模型各层的模型参数集合中的最大值和最小值；

根据该层的所述最大值、最小值、以及预设的量化位数，确定该层的量化参数。

可选地，所述量化参数包括第一量化参数S_i和第二量化参数Z_i：

S_i＝(γ_imax-γ_imin)/(2ⁿ-1)；

Z_i＝(2ⁿ-1)-γ_imin/S_i；

其中，γ_imax表示第i层模型参数的最大值，γ_imin表示第i层模型参数的最小值；n表示量化位数。

可选地，所述量化位数为8比特。

可选地，所述对于每层的模型参数，利用该层的量化参数对所述模型参数进行量化，得到量化后的模型参数包括：

对于每层的模型参数γ_i，按照以下公式对其进行量化，得到量化后的模型参数γ_i'：

γ_i'＝Z_i+γ_i/S。

可选地，所述方法还包括：

将量化处理后的模型参数γ_i'的范围限定在[0,2ⁿ-1]内。

可选地，所述获取神经网络模型各层的模型参数集合包括：

在所述神经网络模型训练达到收敛要求后，获取神经网络模型各层的模型参数集合。

可选地，所述获取神经网络模型各层的模型参数集合包括：

在所述神经网络模型训练达到一定代数后，获取神经网络模型各层的模型参数集合；

所述方法还包括：

判断所述压缩存储的神经网络模型是否达到收敛要求；

如果是，则结束训练过程；

否则，对所述量化压缩后的神经网络模型各层的模型参数进行解码，得到浮点型模型参数；利用所述浮点型模型参数对所述神经网络模型继续训练，直至所述量化压缩后的神经网络模型是否达到收敛要求。

一种神经网络模型压缩装置，所述装置包括：

训练模块，用于训练神经网络模型参数；

参数集合获取模块，用于获取所述神经网络模型各层的模型参数集合，所述模型参数集合包含多个模型参数；

量化参数确定模块，用于确定所述神经网络模型各层的量化参数；

量化处理模块，用于对每层的模型参数，利用该层的量化参数对所述模型参数进行量化，得到量化后的模型参数；

存储模块，用于根据所述量化后的模型参数对所述神经网络模型进行压缩存储。

可选地，所述量化参数确定模块包括：

获取单元，用于获取所述神经网络模型各层的模型参数集合中的最大值和最小值；

计算单元，根据该层的所述最大值、最小值、以及预设的量化的比特数，确定该层的量化参数。

S_i＝(γ_imax-γ_imin)/(2ⁿ-1)；

Z_i＝(2ⁿ-1)-γ_imin/S；

其中，γ_imax表示第i层模型参数的最大值，γ_imin表示第i层模型参数的最小值；S表示量化比特数。

可选地，所述量化比特数为8。

可选地，所述量化处理模块，具体用于对于每层的模型参数γ_i，按照以下公式对其进行量化，得到量化后的模型参数γ_i'：γ_i'＝Z_i+γ_i/S。

可选地，所述量化处理模块，还用于将所述量化处理模块量化处理后的模型参数γ_i'的范围限定在[0,2ⁿ-1]内。

可选地，所述参数集合获取模块，具体用于在所述神经网络模型训练达到收敛要求后，获取神经网络模型各层的模型参数集合。

可选地，所述参数集合获取模块，具体用于在所述神经网络模型训练达到一定代数后，获取神经网络模型各层的模型参数集合；

所述装置还包括：判断模块、解码模块；

所述判断模块，用于判断压缩后的神经网络模型是否达到收敛要求；如果否，则触发所述解码模块对所述压缩后的神经网络模型各层的模型参数进行解码，得到浮点型模型参数；

所述训练模块，还用于利用所述浮点型模型参数对所述神经网络模型继续训练，直至所述量化压缩后的神经网络模型达到收敛要求。

一种计算机设备，包括：一个或多个处理器、存储器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现前面所述的方法。

一种可读存储介质，其上存储有指令，所述指令被执行以实现前面所述的方法。

本发明实施例提供的神经网络模型压缩方法及装置，对神经网络模型每一层的模型参数，单独确定该层的量化参数，利用该量化参数对该层的模型参数进行量化，从而可以得到更好的量化压缩效果，大大降低模型载入内存所需的空间。

进一步地，在神经网络模型训练达到一定代数后，对模型参数进行量化，可以对模型各层的权重、激活值和梯度等参数均进行量化处理，从而可以获得体积相对更小且计算更简洁的神经网络模型。

基于量化压缩后的神经网络模型，在进行前向推理计算时，可以结合用户终端产品的ARM架构进行NEON指令级的计算，相比于利用float32进行矩阵乘法，可以大大提高计算速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例神经网络模型压缩方法的一种流程图；

图2是本发明实施例神经网络模型压缩方法的另一种流程图；

图3是本发明实施例神经网络模型压缩装置的一种结构示意图；

图4是本发明实施例神经网络模型压缩装置的另一种结构示意图；

图5是根据一示例性实施例示出的一种用于神经网络模型压缩方法的装置的框图；

图6是本发明实施例中服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

通常在构建神经网络模型中，参与计算的所有数据采用32位全精度浮点型格式即float32进行计算和存储。在网络模型规模较大的时候，需要的内存资源就会非常巨大，而浮点数是由一位符号位、八位指数位和尾数位三个部分构成的。完成浮点加减运算的操作过程大体分为四步：

1.0操作数的检查，即若至少有一个参与运算的数为零直接可得到结果；

2.比较阶码大小并完成对阶；

3.尾数进行加或减运算；

4.结果规格化并进行舍入处理。

因此，利用float32的模型参数，带来的问题是网络在运行过程中不仅需要大量的内存还需要大量的计算资源。为此，本发明实施例提供一种神经网络模型压缩方法及装置，基于参数量化的方式对神经网络进行量化压缩，大大减小神经网络模型载入内存占用的空间。

如图1所示，是本发明实施例神经网络模型压缩方法的一种流程图，包括以下步骤：

步骤101，训练神经网络模型参数。

针对不同的应用，神经网络可以有各种不同的网络结构，比如DNN(深度神经网络)、CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短期记忆)等，不论何种网络结构，其训练过程是将一组训练集送入网络，根据网络的实际输出与期望输出间的差别来调整权值。

训练模型的步骤大致如下：

选择样本集合的一个样本(Ai，Bi)送入网络，计算网络的实际输出Y(此时网络中的权重都是随机的)，计算预测值与实际值的差D＝Bi-Y，根据误差D调整权值矩阵W。

对每个样本重复上述过程，直到对整个样本集来说，误差不超过规定范围。

上述训练过程可以分为两个阶段：前向传播阶段和后向传播阶段。在前向传播阶段，信息从输入层经过逐级的变换，传送到输出层。这个过程也是神经网络模型在完成训练后正常运行时执行的过程。在此过程中，执行的计算是输入与每层的权值矩阵相点乘，得到最后的输出结果。在后向传播阶段，需要计算实际输出与相应的理想输出的差，按极小化误差的方法反向传播调整权重矩阵。

针对不同的网络结构，具体的训练方式及过程可采用现有技术，对此本发明实施例不做限定。

步骤102，获取所述神经网络模型各层的模型参数集合，所述模型参数集合包含多个模型参数。

所述模型参数主要是指各层的权重，在模型训练过程中，所述模型参数进一步还可包括：激活值和梯度等。

步骤103，确定所述神经网络模型各层的量化参数。

本发明实施例中，针对每一层，单独确定该层的量化参数，具体地，可以根据该层中模型参数的取值情况及预设的量化位数计算该层的量化参数。即，首先获取所述神经网络模型各层的模型参数集合中的最大值和最小值；然后根据该层的所述最大值、最小值、以及预设的量化位数，确定该层的量化参数。

所述量化参数有两个，分别为：第一量化参数S_i和第二量化参数Z_i，其计算公式如下：

S_i＝(γ_imax-γ_imin)/(2ⁿ-1)；

Z_i＝(2ⁿ-1)-γ_imin/S；

其中，γ_imax表示第i层模型参数的最大值，γ_imin表示第i层模型参数的最小值；S表示量化位数。

在本发明实施例中，所述量化位数S可以是8比特。

步骤104，对每层的模型参数，利用该层的量化参数对所述模型参数进行量化，得到量化后的模型参数。

对于每层的模型参数，基于上述公式得到的对应该层的量化参数，对该层的模型参数进行量化。

具体地，对于模型参数γ_i，按照以下公式对其进行量化，得到量化后的模型参数γ_i'：

γ_i'＝Z_i+γ_i/S。

在实际应用中，可以将上述量化后的模型参数γ_i'的范围限定在[0,2ⁿ-1]内。具体地，如果量化后的模型参数小于0，则将其调整为0；如果量化后的模型参数大于2ⁿ-1，则将其调整为2ⁿ-1。

通过上述量化处理，将所述神经网络模型各层的模型参数由32bit长度的浮点型数表示，转换为低比特整型数表示，大大节省了每个参数所需占用的空间。

步骤105，根据所述量化后的模型参数对所述神经网络模型进行压缩存储。

可以理解的是，所述神经网络模型的具体存储位置在本发明实施例中不做限定，例如可以存储在电子设备(比如手机、PAD等)本地，或者存储在服务器上，在使用时，再从服务器上加载到电子设备本地。

需要说明的是，在实际应用中，上述步骤102可以是在模型训练完成后进行，即所述神经网络模型已达到收敛要求；也可以是在模型训练过程中进行，比如在所述神经网络模型训练达到一定代数后，对模型参数进行量化。在这种情况下，前向传播阶段可以利用量化后的模型参数进行计算，而在后向传播阶段中的计算，需要利用对模型参数解码得到的浮点型模型参数调整权重矩阵。下面结合图2对这种情况进行详细说明。

如图2所示，是本发明实施例神经网络模型压缩方法的另一种流程图，包括以下步骤：

步骤201，训练神经网络模型参数。

步骤202，在所述神经网络模型训练达到一定代数后，获取神经网络模型各层的模型参数集合。

步骤203，确定所述神经网络模型各层的量化参数。

步骤204，对每层的模型参数，利用该层的量化参数对所述模型参数进行量化，得到量化后的模型参数。

量化参数的确定及模型参数的量化处理具体可以参见前面的说明，在此不再赘述。

步骤205，根据所述量化后的模型参数对所述神经网络模型进行压缩，得到量化压缩后的神经网络模型。

步骤206，判断所述量化压缩后的神经网络模型是否达到收敛要求；如果是，结束训练过程；否则，执行步骤207。

是否达到收敛要求具体是指前面提到的预测值与实际值的差D是否满足要求，比如小于设定误差。对应不同的应用及精度要求可以有不同的设定误差，对此本发明实施例不做限定。

步骤207，对所述压缩后的神经网络模型各层的模型参数进行解码，得到浮点型模型参数。然后返回步骤201，对所述神经网络模型继续训练，直至所述压缩后的神经网络模型达到收敛要求。

本发明实施例提供的神经网络模型压缩方法，对神经网络模型每一层的模型参数，单独确定该层的量化参数，利用该量化参数对该层的模型参数进行量化，从而可以得到更好的量化压缩效果，大大降低模型载入内存所需的空间。

基于量化压缩后的神经网络模型，在所述神经网络模型应用时，需要执行前向推理计算。

在应用本发明的一个实施例中，可以将对所述量化压缩后的神经网络模型各层的模型参数进行解码，得到浮点型模型参数，然后利用所述浮点型模型参数进行相应的计算。

目前随着处理器技术的发展，从智能手机和移动计算设备到HDTV(高清晰度电视)，大都支持ARM NEON技术，Neon是适用于ARM Cortex-A系列处理器的一种128位SIMD(Single Instruction，Multiple Data，单指令、多数据)扩展结构。因此，在应用本发明的另一个实施例中，不仅可以将利用本发明压缩后的神经网络模型的软件在不同平台之间进行自由移植，还可以结合用户终端产品的ARM架构进行NEON指令级的计算，相比于利用float32进行矩阵乘法，可以大大提高计算速度。

相应地，本发明实施例还提供一种神经网络模型压缩装置，如图3所示，是该装置的一种结构示意图。

在该实施例中，所述装置包括：

训练模块301，用于训练神经网络模型参数，具体训练过程可以采用现有技术，对此本发明实施例不做限定；

参数集合获取模块302，用于获取所述神经网络模型各层的模型参数集合，所述模型参数集合包含多个模型参数；所述模型参数主要是指各层的权重；

量化参数确定模块303，用于确定所述神经网络模型各层的量化参数；

量化处理模块304，用于对每层的模型参数，利用该层的量化参数对所述模型参数进行量化，得到量化后的模型参数；

存储模块305，用于根据所述量化后的模型参数对所述神经网络模型进行压缩存储。

本发明实施例中，量化参数确定模块303需要针对每一层，单独确定该层的量化参数，具体地，可以根据该层中模型参数的取值情况及预设的量化位数计算该层的量化参数。

所述量化参数确定模块303的一种具体结构可以包括以下各单元：

计算单元，根据该层的所述最大值、最小值、以及预设的量化的比特数，确定该层的量化参数，具体计算方式参见前面本发明方法实施例中的描述，在此不再赘述。

基于所述量化参数确定模块303确定的量化参数，所述量化处理模块304对每层的模型参数，利用该层的量化参数对所述模型参数进行量化，得到量化后的模型参数。

为了避免量化后的参数在存储时溢出，所述量化参数确定模块303还可进一步将所述量化处理模块量化处理后的模型参数γ_i'的范围限定在[0,2ⁿ-1]内，具体地，如果量化后的模型参数小于0，则将其调整为0；如果量化后的模型参数大于2ⁿ-1，则将其调整为2ⁿ-1。

需要说明的是，在实际应用中，所述参数集合获取模块302具体可以是在模型训练完成后获取所述神经网络模型各层的模型参数集合，进而由其它模块完成对模型参数的量化处理；或者所述参数集合获取模块302在所述神经网络模型训练达到一定代数后，获取神经网络模型各层的模型参数集合。

如图4所示，是本发明实施例神经网络模型压缩装置的另一种结构示意图。

与图3所示实施例不同的是，在该实施例中，所述装置还进一步包括：判断模块401、解码模块402。

在该实施例中，所述参数集合获取模块302在所述神经网络模型训练达到一定代数后，获取神经网络模型各层的模型参数集合；所述量化参数确定模块303和量化处理模块304完成对各参数的量化处理，存储模块305根据所述量化后的模型参数对所述神经网络模型进行压缩存储；所述判断模块401判断压缩后的神经网络模型是否达到收敛要求；如果否，则触发所述解码模块402对所述压缩后的神经网络模型各层的模型参数进行解码，得到浮点型模型参数；然后由所述训练模块301利用所述浮点型模型参数对所述神经网络模型继续训练，直至所述量化压缩后的神经网络模型是否达到收敛要求。

本发明实施例提供的神经网络模型压缩装置，对神经网络模型每一层的模型参数，单独确定该层的量化参数，利用该量化参数对该层的模型参数进行量化，从而可以得到更好的量化压缩效果，大大降低模型载入内存所需的空间。

本发明实施例提供的方法及装置，可以应用于各种客户端，比如输入法客户端(包括但不限于PC、手机、平板等输入法客户端)以及其它领域使用深度学习模型的各种应用。

本发明实施例的方案，可以应用于多种不同结构的神经网络，根据领域及解决问题的不同，选用具体结构的网络，比如LSTM是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，基于LSTM的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等任务。

下面以循环神经网络为例，举例说明本发明方案的一种具体应用。

在输入法对联想词的预测中，需要利用循环神经网络的前向推理计算最终得到某些词的概率分布。利用本发明实施例提供的模型量化压缩方法，对循环神经网络进行训练及参数量化，得到低比特的模型参数，最终得到压缩的循环神经网络模型。利用该循环神经网络，在对词的概率进行预测时，可以对前向推理所用矩阵乘法计算所得到的n比特结果进行解码，得到float32的输出，最后利用softmax函数对float32的输出进行归一化处理，得到每个候选词的概率；根据预测得到的各候选词的概率，可以得到相应的候选词。

可见，利用本发明方案，不仅能够很大程度上缩小神经网络模型所占用空间，而且使得神经网络模型的前向计算速度也有较大的提升。

图5是根据一示例性实施例示出的一种神经网络模型压缩方法的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述按键误触纠错方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述本发明方法实施例中的全部或部分步骤。

图6是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种神经网络模型压缩方法，其特征在于，所述方法包括：

训练神经网络模型参数；

确定所述神经网络模型各层的量化参数；

2.根据权利要求1所述的方法，其特征在于，所述确定所述神经网络模型各层的量化参数包括：

3.根据权利要求2所述的方法，其特征在于，所述量化参数包括第一量化参数S_i和第二量化参数Z_i：

S_i＝(γ_imax-γ_imin)/(2ⁿ-1)；

Z_i＝(2ⁿ-1)-γ_imin/S_i；

4.根据权利要求3所述的方法，其特征在于，所述对于每层的模型参数，利用该层的量化参数对所述模型参数进行量化，得到量化后的模型参数包括：

γ_i'＝Z_i+γ_i/S。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将量化处理后的模型参数γ_i'的范围限定在[0,2ⁿ-1]内。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述获取神经网络模型各层的模型参数集合包括：

7.根据权利要求1至5任一项所述的方法，其特征在于，所述获取神经网络模型各层的模型参数集合包括：

所述方法还包括：

判断所述压缩存储的神经网络模型是否达到收敛要求；

如果是，则结束训练过程；

8.一种神经网络模型压缩装置，其特征在于，所述装置包括：

训练模块，用于训练神经网络模型参数；

9.一种计算机设备，其特征在于，包括：一个或多个处理器、存储器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现如权利要求1至7任一项所述的方法。

10.一种可读存储介质，其上存储有指令，所述指令被执行以实现如权利要求1至7任一项所述的方法。