CN115329952B

CN115329952B - 一种模型压缩方法、装置和可读存储介质

Info

Publication number: CN115329952B
Application number: CN202211247708.8A
Authority: CN
Inventors: 钟雨崎; 艾国; 杨作兴
Original assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Current assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2023-01-20
Anticipated expiration: 2042-10-12
Also published as: CN115329952A

Abstract

本发明实施例提供了一种模型压缩方法、装置和可读存储介质。其中的方法包括：获取待压缩的神经网络模型和所述神经网络模型的神经元参数；根据所述神经网络模型的模型结构构建压缩模型；根据所述神经网络模型的神经元参数对所述压缩模型进行迭代训练，直至满足预设终止条件得到目标压缩模型；利用所述目标压缩模型对所述神经网络模型进行压缩处理，得到目标神经网络模型。本发明实施例能够在保持神经网络模型的精度的同时，减小神经网络模型所需的存储空间，使得目标神经网络模型能够部署于各个硬件设备中实现与压缩前的神经网络模型相同的功能。

Description

一种模型压缩方法、装置和可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种模型压缩方法、装置和可读存储介质。

背景技术

深度学习在计算机技术等领域被大量应用，往往大型的神经网络模型具有更高的准确率和更强的泛化能力。但是，大型的神经网络模型所需要的存储空间往往较大，对设备的性能要求也更高，这就导致大型的神经网络模型无法部署在小型服务器和边缘设备上。

模型压缩技术可以显著地减小神经网络模型的复杂度和数据量，使得压缩后的神经网络模型能够部署在各个硬件设备中。目前业内通常采用裁剪模型、量化模型等方法对神经网络模型进行压缩处理。其中，裁剪模型的方法是指在训练好的神经网络模型中去除一些通道参数；量化模型的方法是将模型的权重按照一定的比例从浮点型转换为整型。

无论是裁剪模型还是量化模型，都是以损失神经网络模型的精度为代价，导致压缩后的神经网络模型的准确度降低。

发明内容

本发明实施例提供一种模型压缩方法、装置和可读存储介质，可以在保持神经网络模型的精度的同时，减小神经网络模型所需的存储空间。

第一方面，本发明实施例公开了一种模型压缩方法，所述方法包括：

获取待压缩的神经网络模型和所述神经网络模型的神经元参数；

根据所述神经网络模型的模型结构构建压缩模型；

根据所述神经网络模型的神经元参数对所述压缩模型进行迭代训练，直至满足预设终止条件得到目标压缩模型；

利用所述目标压缩模型对所述神经网络模型进行压缩处理，得到目标神经网络模型。

第二方面，本发明实施例公开了一种模型压缩装置，所述装置包括：

数据获取模块，用于获取待压缩的神经网络模型和所述神经网络模型的神经元参数；

模型构建模块，用于根据所述神经网络模型的模型结构构建压缩模型；

模型训练模块，用于根据所述神经网络模型的神经元参数对所述压缩模型进行迭代训练，直至满足预设终止条件得到目标压缩模型；

压缩处理模块，用于利用所述目标压缩模型对所述神经网络模型进行压缩处理，得到目标神经网络模型。

第三方面，本发明实施例公开了一种机器可读存储介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如前述一个或多个所述的模型压缩方法。

本发明实施例包括以下优点：

本发明实施例提供的模型压缩方法，可以根据待压缩的神经网络模型的模型结构构建压缩模型，并根据神经网络模型的神经元参数对压缩模型进行迭代训练得到目标压缩模型，提高了目标压缩模型与神经网络模型的适配度，有利于提高模型压缩效果；然后，利用目标压缩模型对神经网络模型进行压缩处理，得到目标神经网络模型。本发明实施例能够在保持神经网络模型的精度的同时，减小神经网络模型所需的存储空间，使得目标神经网络模型能够部署于各个硬件设备中实现与压缩前的神经网络模型相同的功能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种模型压缩方法实施例的步骤流程图；

图2是本发明的一种模型压缩系统的结构示意图；

图3是本发明的一种压缩前的神经网络模型的工作流程示意图；

图4是本发明的一种目标神经网络模型的工作流程示意图；

图5是本发明的一种模型压缩装置实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中的术语“和/或”用于描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本发明实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

参照图1，示出了本发明的一种模型压缩方法实施例的步骤流程图，所述方法可以包括如下步骤：

步骤101、获取待压缩的神经网络模型和所述神经网络模型的神经元参数。

步骤102、根据所述神经网络模型的模型结构构建压缩模型。

步骤103、根据所述神经网络模型的神经元参数对所述压缩模型进行迭代训练，直至满足预设终止条件得到目标压缩模型。

步骤104、利用所述目标压缩模型对所述神经网络模型进行压缩处理，得到目标神经网络模型。

本发明实施例提供的模型压缩方法，通过压缩模型对待压缩的神经网络模型进行压缩处理，得到目标神经网络模型，能够在保持神经网络模型的精度的同时，减小神经网络模型所需的存储空间。

其中，所述神经网络模型的输入数据包括文本数据、语音数据、图像数据中的任意一项。示例性地，所述神经网络模型可用于执行图像数据处理领域中的图像分类任务、人脸识别任务、人体姿态检测任务等；或者，所述神经网络模型可用于执行语音数据处理领域中的语音识别任务、语音合成任务、意图识别任务等；或者，所述神经网络模型可用于执行自然语言处理领域中的命名实体识别任务、语义分析任务、文本生成任务、文本分类任务等。

参照图2，示出了本发明实施例提供的一种模型压缩系统的结构示意图。如图2所示，模型压缩系统可以包括终端设备201和服务器202。其中，终端设备201与服务器202之间通过无线或有线网络连接。用户可以使用终端设备201与服务器202进行交互，以接收或发送消息等。终端设备201上可以安装有各种通讯客户端应用，例如搜索类应用、网络浏览器应用、购物应用、即时通讯应用等。

终端设备201可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、蜂窝电话、无绳电话、个人数字助理（Personal Digital Assistant，PDA）、手持设备、计算设备、车载设备、可穿戴设备等移动终端，以及诸如数字TV、台式计算机等固定终端。

服务器202可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、云通信、网络服务、中间件服务、内容分发网络（Content Delivery Network，CDN），以及大数据和人工智能平台等基础云计算服务的云服务器。

可以理解的是，服务器202可以为终端设备201提供模型压缩服务、模型训练服务等。例如，服务器202对终端设备上使用的神经网络模型提供模型训练服务，具体可以包括：对获得的样本集合进行预处理、利用预处理后的样本集合对神经网络模型进行迭代训练，得到训练完成的神经网络模型。或者，服务器202针对训练完成的神经网络模型构建压缩模型，并对压缩模型进行迭代训练，得到目标压缩模型，然后利用目标压缩模型对训练完成的神经网络模型进行压缩处理，得到目标神经网络模型，并将目标神经网络模型发送至终端设备201，使得原本无法运行神经网络模型以执行数据处理任务的终端设备201能够通过运行目标神经网络模型，执行数据处理任务。

本发明实施例提供的模型压缩方法可以由终端设备201或服务器202执行，相应地，模型压缩装置可以设置于终端设备201或服务器202中。

在本发明的一种可能的应用场景中，终端设备201基于待执行的数据处理任务向服务器202提交针对神经网络模型的应用请求。服务器202在接收到应用请求后，对神经网络模型进行训练，并在神经网络模型训练完成之后，采用本发明提供的模型压缩方法，对训练完成的神经网络模型进行压缩处理，得到目标神经网络模型，然后将压缩后的目标神经网络模型发送至终端设备201。终端设备201接收目标神经网络模型，并通过目标神经网络模型执行数据处理任务。

在本发明的另一种可能的应用场景中，终端设备201基于待执行的数据处理任务从其他设备，如服务器202、其他终端设备、网络设备等获取基础神经网络模型，并基于数据处理任务对神经网络模型进行训练。然后，终端设备201采用本发明提供的模型压缩方法，对训练完成的神经网络模型进行压缩处理，得到目标神经网络模型。最后，终端设备201通过目标神经网络模型执行数据处理任务。

需要说明的是，终端设备201或服务器202通常包括处理模块、内部存储器（以下简称“内存”）和外部存储器。其中，外部存储器可以包括软盘存储器、硬盘存储器和光盘存储器等。

作为一种示例，服务器202可以将训练完成的神经网络模型存储在内存中，然后通过处理模块对训练完成的神经网络模型进行压缩处理，得到目标神经网络模型，并将目标神经网络模型存储至外部存储器中，以供终端设备201读取。

作为另一种示例，终端设备201可以将基础神经网络模型从外部存储器中读取到内存中，然后通过处理模块对神经网络模型进行训练，并对训练后的神经网络模型进行压缩处理得到目标神经网络模型。

应当理解，图2中的终端设备和服务器的数目仅仅是示意性的。根据实现需求，可以具有任意数目的终端设备和服务器。

在本发明实施例中，目标压缩模型处理的神经网络模型是训练好的神经网络模型。如果待压缩的神经网络模型是未经训练的基础模型，则获取神经网络模型的神经元参数之前，需要先基于该神经网络模型待执行的数据处理任务，如图像分类任务、语音识别任务、语义分析任务等，获取相应的训练数据，并基于训练数据对神经网络模型进行迭代训练，直至满足预设条件得到训练完成的神经网络模型。其中，所述预设条件可以包括但不限于：训练次数大于预设次数阈值、损失值小于预设损失阈值、连续多轮训练中神经网络模型的输出值之间的误差小于预设误差阈值，等等。可以理解的是，训练数据中包括目标样本，在每一轮训练中，根据神经网络模型的输出结果、所述目标样本以及预设的损失函数，就可以计算得到损失值。

对神经网络模型训练完成之后，获取训练完成的神经网络模型以及神经网络模型的神经元参数。需要说明的是，神经网络模型由若干网络层构成，例如全连接层、卷积层、循环网络层等等，每个网络层由若干神经元构成。神经元参数主要指神经元的权重和偏置。每一个神经元可以表示为：y=kx+b，其中，k表示神经元y的权重，b表示神经元y的偏置。例如，假设神经网络模型的中的一个全连接层，包含512个神经元，那么该全连接层对应的神经元参数为这512个神经元的权重和偏置。本发明实施例中，对神经网络模型进行压缩，主要是指对神经网络模型的神经元参数进行压缩。

本发明实施例对神经网络模型的种类不做具体限定。所述神经网络模型可以包括但不限于前馈式神经网络模型和后馈式神经网络模型。其中，前馈式神经网络模型具体可以包括卷积神经网络模型、自适应线性神经网络模型（AdaptiveLinear，Adaline）、单层感知器模型、多层感知器模型、BP（Back Propagation）神经网络模型和径向基函数（RBF-Radial Basis Function）神经网络模型等。后馈式神经网络模型可以包括双向联想记忆网络模型和Hopfield神经网络模型等。

可以理解的是，不同种类的神经网络模型的模型结构不同，神经元参数也不同。在本发明实施例中，为了提高压缩模型与待压缩的神经网络模型的适配度，提升模型压缩效果，可以根据神经网络模型的模型结构构建相应的压缩模型。其中，所述模型结构可以包括卷积网络层、全连接层、循环神经网络层、池化层、激活层中的至少一项。需要说明的是，本发明实施例对神经网络模型的模型结构包含的网络层以及各个网络层的数目不做具体限定。在本申请实施例中，可以针对神经网络模型中的各个网络层构建对应的压缩模型。例如，对于擅长执行分类任务的神经网络模型，如AlexNet神经网络模型，模型结构包含5层卷积网络层（CNN）和2层全连接层（Dense），因此可以分别针对卷积网络层和全连接层构建对应的压缩模型。

在本发明的一种可选实施例中，步骤102所述根据所述神经网络模型的模型结构构建压缩模型，包括：

步骤S11、根据所述神经网络模型中各个网络层的维度确定所述神经网络模型对应的维度数目；

步骤S12、若所述神经网络模型对应N个不同的维度，则构建N个压缩模型，每一个压缩模型对应一个维度。

在本发明实施例中，为了进一步提升压缩效果，可以基于每个网络层的维度，构建相应的压缩模型。示例性地，在AlexNet神经网络模型中，CNN1的维度为96，CNN2的维度为256，CNN3的维度为384，CNN4的维度为384，CNN5的维度为256，Dense1的维度为4096，Dense2的维度为4096，由此可见，其内部存在4个维度的神经元参数，因此可以建立4个压缩模型，分别对应96、256、384、4096这4个维度的神经元参数。在擅长执行连续识别任务的神经网络模型中，如DeepSpeech模型，包含3层卷积网络层（CNN）和5层循环神经网络层（RNN），各个网络层的维度都为512，因此可以只构建一个压缩模型。

此外，在本发明实施例中，还可以进一步根据各个维度的神经元参数的数目来评估是否需要建立对应的压缩模型。上述例子中，在AlexNet神经网络模型中维度96的神经元参数占全部维度的神经元参数比例为：96/（96+256+256+384+384+4096+4096）≈0.0107，其占比非常小，因此可以不针对该维度的神经元参数建立相应的压缩模型，只需要针对维度256、384、4096建立3个压缩模型，每个压缩模型对应一个维度。

进一步地，构建压缩模型之后，根据神经网络模型的神经元参数对压缩模型进行迭代训练，直至满足预设终止条件得到目标压缩模型。其中，所述预设终止条件可以根据实际训练需求进行设置。例如，在对压缩模型的每一轮训练中，根据压缩模型的输入参数，也即神经网络模型的神经元参数，和压缩模型的输出参数计算损失值，若损失值小于损失值阈值，则可以确定满足预设终止条件。其中，损失值的计算方式可以根据实际需求进行设置。

在本发明的一种可选实施例中，步骤103所述根据所述神经网络模型的神经元参数对所述压缩模型进行迭代训练，直至满足预设终止条件得到目标压缩模型，包括：

步骤S21、提取所述神经网络模型中目标维度对应的神经元参数，所述目标维度为所述神经网络模型对应的任一维度；

步骤S22、根据所述目标维度对应的神经元参数，对所述目标维度对应的压缩模型进行迭代训练，直至满足预设终止条件得到目标压缩模型。

其中，所述目标维度指的是神经网络模型中网络层的通道（channel）数，通道数相同的网络层对应同一维度。可以理解的是，神经网络模型的维度是在建立模型时根据实际需求设置的。

在本发明实施例中，如果神经网络模型对应N个不同的维度，构建了N个压缩模型，且每一个压缩模型对应一个维度，则在对压缩模型进行训练时，针对每一个压缩模型，可以利用该压缩模型对应的目标维度的神经元参数，对该压缩模型进行迭代训练，以提升压缩模型与神经元参数之间的适配度，提高模型压缩效果。

可选地，步骤S22所述根据所述目标维度对应的神经元参数，对所述目标维度对应的压缩模型进行迭代训练，直至满足预设终止条件得到目标压缩模型，包括：

子步骤S221、在每一轮训练中，将所述目标维度对应的神经元参数输入所述目标维度对应的压缩模型，得到输出参数；

子步骤S222、计算所述神经元参数与所述输出参数之间的绝对误差；

子步骤S223、根据所述绝对误差更新所述压缩模型的模型参数，直至所述绝对误差满足预设终止条件，得到目标压缩模型。

其中，目标维度为神经网络模型对应的任一维度。

可以理解的是，神经元是组成模型的最小单元，若干神经元组成了一个网络层；若干网络层组成了一个模型。一个神经元有1个权重和1个偏置。模型参数是指模型所含的若干网络层，每层网络层中所含的若干神经元的权重和偏置。例如，一个网络层由512个神经元构成，那么这个网络层就有512个权重和512个偏置；一个模型由上述10个网络层构成，那么这个模型的参数就是5120个权重和5120个偏置。

在本发明实施例中，为了不损失神经网络模型的精度，保证压缩后的目标神经网络模型的准确度，可以将压缩模型对应的目标维度的神经元参数输入至压缩模型中，并以输入的神经元参数与压缩模型的输出参数的绝对误差作为压缩模型的损失函数，对压缩模型进行迭代训练。示例性地，针对AlexNet神经网络模型构建了3个压缩模型，记作压缩模型Y1、压缩模型Y2、压缩模型Y3，分别对应维度256、384、4096，则提取AlexNet神经网络模型中维度256对应的神经元参数，对压缩模型Y1进行迭代训练；同理，提取维度384对应的神经元参数对压缩模型Y2进行迭代训练、提取维度4096对应的神经元参数对压缩模型Y3进行迭代训练。如果绝对误差满足预设终止条件，则可以停止训练，得到目标压缩模型。其中，所述预设终止条件可以为：神经元参数与输出参数的绝对误差小于预设的误差阈值。

可以理解的是，所述绝对误差为神经元参数与压缩模型的输出参数的差值的绝对值。根据神经网络模型待执行的数据处理任务，可以设置不同的误差阈值。例如，神经网络模型待执行的数据处理任务为分类任务，则误差阈值可以为第一阈值，如0.001、0.0009等等；神经网络模型待执行的数据处理任务为连续识别任务，则误差阈值可以为第二阈值，如0.00001、0.000095等等。

本发明实施例中对神经网络模型进行压缩，主要是指对神经网络模型的神经元参数进行压缩。对神经网络模型的神经元参数进行压缩的过程主要是指：通过压缩模型将神经网络模型的神经元参数的实际值转换成其他数值，也即神经元参数的压缩值，然后存储神经元参数的压缩值而不是存储神经元参数的实际值。通常情况下，神经元参数的压缩值比实际值占用的存储空间更小，可以节省存储空间。对于包含大量神经元参数的神经网络模型来说，压缩神经元参数可以节省较大的存储空间。从而可以大幅度降低寄存器的功耗，增加电池类电子设备的一次使用时长。

本发明实施例在训练压缩模型时，将输入压缩模型的神经元参数与压缩模型的输出参数的绝对误差作为损失函数，可以保证压缩模型的输出参数与神经元参数的实际值尽可能相同，从而避免压缩后的神经元网络模型的精度损失，有利于提高模型压缩效果。

最后，利用训练好的目标压缩模型对训练完成的神经网络模型进行压缩处理，得到目标神经网络模型。示例性地，可以将神经网络模型整体作为输入数据输入至目标压缩模型中进行压缩处理，得到目标神经网络模型；也可以将神经网络模型的神经元参数作为输入数据输入至目标压缩模型中进行压缩处理，得到输出参数，然后根据输出参数调整神经网络模型的神经元参数，得到目标神经网络模型。

需要说明的是，在本发明实施例中，如果神经网络模型对应N个不同的维度，构建了N个压缩模型，且每一个压缩模型对应一个维度，则在对神经网络模型进行压缩处理时，可以选择目标维度对应的压缩模型对该目标维度的神经元参数进行压缩处理，所述目标维度为神经网络模型对应的任一维度。

作为一种示例，将神经网络模型整体作为压缩模型的输入数据时，可以将神经网络模型分别输入至N个压缩模型中，得到N个第一模型，每个第一模型对应一个维度；然后，针对神经网络模型的各个网络层，根据每个网络层的维度，分别从对应的第一模型中提取所述网络层的第一神经元参数；最后，根据提取的各个网络层的第一神经元参数修改神经网络模型中相应的网络层的神经元参数，得到目标神经网络模型。

作为另一种示例，将神经网络模型的神经元参数作为压缩模型的输入数据时，可以将各个维度的神经元参数分别输入至对应压缩模型中进行压缩处理，得到N个压缩模型的输出参数，也即N个维度的第二神经元参数；然后，根据N个维度的第二神经元参数修改神经网络模型中相应的网络层的神经元参数，得到目标神经网络模型。

本发明中的目标神经网络模型可以部署在电子设备中执行数据处理任务，实现与压缩前的神经网络模型相同的功能。所述电子设备可以包括但不限于终端设备和服务器。

在本发明的一种可选实施例中，所述压缩模型包括编码器和解码器，步骤104所述利用所述目标压缩模型对所述神经网络模型进行压缩处理，得到目标神经网络模型，包括：

步骤S31、将所述神经网络模型的神经元参数输入至所述编码器中进行编码处理，得到压缩参数；

步骤S32、根据所述压缩参数修改所述神经网络模型的神经元参数，得到中间模型；

步骤S33、将所述中间模型输入至所述解码器中进行解码处理，得到目标神经网络模型。

在本发明实施例中，压缩模型可以包括编码器（encoder）和解码器（decoder）。在利用训练好的目标压缩模型对神经网络模型进行压缩处理时，可以先将神经网络模型的神经元参数输入至encoder中进行编码处理，得到压缩参数。然后，根据压缩参数修改神经网络模型的神经元参数，得到中间模型。最后，将中间模型输入至目标压缩模型的decoder中进行解码处理，得到目标神经网络模型，其中，解码得到目标神经网络模型的神经元参数为压缩前的神经网络模型的神经元参数。

需要说明的是，在本发明实施例中，如果神经网络模型对应N个不同的维度，构建了N个压缩模型，且每一个压缩模型对应一个维度，则在对神经网络模型的神经元参数进行编码处理时，可以选择目标维度的神经元参数输入至目标维度对应的压缩模型的encoder中进行编码处理，得到该目标维度中神经元参数的压缩参数，所述目标维度为神经网络模型对应的任一维度。然后，根据各个维度的压缩参数分别修改神经网络模型中相应的网络层的神经元参数，得到N个中间模型，每个中间模型对应一个维度，且该维度的网络层的参数为压缩参数。接下来，将中间模型分别输入至对应同一个维度的压缩模型的decoder中进行解码处理，得到N个第三神经网络模型，每个第三神经网络模型对应一个维度，且该维度的网络层的参数为解码后的压缩参数。最后，提取N个第三神经网络模型在各自维度的网络层进行组合，得到目标神经网络模型。

例如，在AlexNet神经网络模型中，CNN1的维度为96，CNN2的维度为256，CNN3的维度为384，CNN4的维度为384，CNN5的维度为256，Dense1的维度为4096，Dense2的维度为4096，建立了4个压缩模型Y1至Y4，分别对应96、256、384、4096这4个维度的神经元参数。在AlexNet神经网络模型进行压缩处理时，可以将CNN1的神经元参数输入至压缩模型Y1的encoder中进行编码处理，得到96维度的压缩参数；将CNN2、CNN5的神经元参数输入至压缩模型Y2的encoder中进行编码处理，得到256维度的压缩参数；将CNN3、CNN4的神经元参数输入至压缩模型Y3的encoder中进行编码处理，得到384维度的压缩参数；将Dense1、Dense2的神经元参数输入至压缩模型Y4的encoder中进行编码处理，得到4096维度的压缩参数。然后，根据96维度的压缩参数修改CNN1的神经元参数得到中间模型A1，根据256维度的压缩参数修改CNN2、CNN5的神经元参数得到中间模型A2，根据384维度的压缩参数修改CNN3、CNN4的神经元参数得到中间模型A3，根据4096维度的压缩参数修改Dense1、Dense2的神经元参数得到中间模型A4。

可以理解的是，网络层的参数被压缩器压缩后，其维度大小发生了改变，需要重新建立一个模型来加载压缩后的参数，也即本发明中的中间模型，进行将压缩后的参数，也即压缩参数保存在寄存器里。例如，一个全是由channel数（维度）为96的CNN组成的模型（model-1）。经过压缩，CNN的channel从96维度变成了16维度，所以之前的model-1就装不了这个channel为16参数了（因为model-1里的CNN维度为96），因此需要建立一个全是由channel数（维度）为16的CNN组成的模型来加载这个参数，用以保存压缩后的参数，最终我们会得到一个全新的模型，model-2。由于model-2保存的是压缩后的参数，所以model-2所需的存储资源更小，是model-1的1/6。

接下来，将中间模型A1输入至压缩模型Y1的decoder中进行解码处理，得到第三神经网络模型B1；将中间模型A2输入至压缩模型Y2的decoder中进行解码处理，得到第三神经网络模型B2；将中间模型A3输入至压缩模型Y3的decoder中进行解码处理，得到第三神经网络模型B3；将中间模型A4输入至压缩模型Y4的decoder中进行解码处理，得到第三神经网络模型B4。最后，提取模型B1中的CNN1、模型B2中的CNN2和CNN5、模型B3中的CNN3和CNN4，以及模型B4中的Dense1和Dense2进行组合，得到目标神经网络模型。

可以理解的是，利用decoder对中间模型进行解码处理，相当于在中间模型的每个神经元参数之前增加了一个decoder。

参照图3，示出了压缩前的神经网络模型的工作流程示意图。如图3所示，神经网络模型包含多个神经元，每个神经元均包含一对神经元参数：权重k和偏置b。神经网络模型中的多个神经元对输入数据进行处理，得到数据处理任务的任务结果。参照图4，示出了目标神经网络模型的工作流程示意图。如图4所示，相比于图3所示的神经网络模型，目标神经网络模型的各个神经元的神经元参数为经过encoder的编码处理的压缩参数：k_和b_，且每个压缩参数均连接一个decoder。压缩参数经过decoder的解压处理后，再作用于目标神经网络模型的输入数据。需要说明的是，如果构建了N个压缩模型，且每一个压缩模型对应一个维度，则图4中的每个压缩参数连接的decoder，是与该压缩参数对应于同一个维度的压缩模型中的decoder。

步骤S41、根据所述神经网络模型的模型功能确定压缩比例；

步骤S42、根据所述压缩比例和所述神经网络模型的模型结构构建压缩模型。

在本发明实施例中，为了进一步保证压缩效果，还可以根据神经网络模型的模型功能，也即待执行的数据处理任务，确定压缩比例；然后，根据压缩比例和神经网络模型的模型结构构建压缩模型。

在实际应用中，可以根据神经网络模型执行的数据处理任务的任务难度确定压缩比例，对于任务难度较大、精度要求较高的，压缩比例可以适当降低，例如压缩4倍。反之，如果任务难度较小、精度要求较低，则可以压缩8倍，最大不超过10倍。例如，当神经网络模型的模型功能是图像分类时，由于最终的任务结果只需要得到一个类别值，任务处理过程相对简单，因此可以将压缩比例设置为第一比例，第一比例的取值范围可以为4至8倍。或者，当神经网络模型的模型功能是连续识别时，由于连续识别任务较为复杂，为了保证压缩后的目标神经网络模型的模型性能，可以将压缩比例设置为第二比例，第二比例的取值范围可以为2至4倍。

进一步地，也可以根据最终部署模型的终端存储资源限制确定压缩比例。示例性地，如果能满足神经网络模型执行的数据处理任务对压缩比例的要求，可以适当调节压缩比例，以满足存储资源的限制。例如：神经网络模型大小为10M，寄存器可利用空间只有2M大小，在满足条件数据处理任务对压缩比例的要求的情况下，可以将神经网络模型压缩8~10倍。可以理解的是，以上仅为一种示例性说明，本发明实施例对压缩比例的具体取值范围不做具体限定。

确定压缩比例之后，根据神经网络模型的模型结构确定神经网络模型包含各个网络层对应的维度，并针对每个维度，构建符合压缩比例的压缩模型。

在本发明的一种可选实施例中，所述目标神经网络模型用于部署至电子设备中执行数据处理任务，实现与压缩前的神经网络模型相同的功能，步骤102所述根据所述神经网络模型的模型结构构建压缩模型，包括：

步骤S51、根据待部署的电子设备的设备参数确定所述神经网络模型的压缩比例；

步骤S52、根据所述压缩比例和所述神经网络模型的模型结构构建压缩模型；

在本发明实施例中，还可以考虑电子设备的性能差异，根据待部署的电子设备的设备参数确定神经网络模型的压缩比例。其中，所述设备参数用于反映电子设备的设备性能，具体可以包括以下至少一项：存储器的存储容量、处理器的性能指标。处理器（CentralProcessing Unit，CPU）的性能指标用于反映CPU的处理性能，具体可以包括CPU的主频、CPU的位数、CPU核心数、CPU算力等。

通常情况下，用于部署目标神经网络的电子设备的设备性能越好，功耗指标越宽松的情况下，其压缩比例可以越小。示例性地，常电类电子设备如智能电视机，它的存储器的存储容量一般较大，其可被使用的存储空间也较大，同时由于其不存在电池功耗问题，因此目标神经网络模型的数据量可以越大，神经网络模型的压缩比例可以越小。或者，电池类设备如智能手表它的存储器的存储容量有限，其可被使用的存储空间也较小，同时其电池的功耗决定了设备的一次使用时长，所以应当尽可能地减小寄存器容量从而降低功耗，增加设备的一次使用时长，模型压缩比例可以越大。例如，压缩前的神经网络模型的大小为10M，电子设备用以存储模型参数的存储器的存储容量为3M，则可以将压缩比例设置为4倍，压缩后的目标神经网络模型的大小为2.5M。如果用以存储模型参数的存储器的存储容量为2M，则可以将压缩比例设置为8倍，压缩后的目标神经网络模型的大小为1.25M，等等。

当然，在本发明实施例中，也可以综合考虑部署目标神经网络的电子设备的设备性能和神经网络模型的模型功能，根据电子设备的设备参数和模型功能共同确定压缩比例，从而使得压缩后的目标神经网络模型不仅能够适配于电子设备，还能实现与压缩前的神经网络模型相同的功能并取得相同的处理效果。

综上，本发明实施例提供的模型压缩方法，可以根据待压缩的神经网络模型的模型结构构建压缩模型，并根据神经网络模型的神经元参数对压缩模型进行迭代训练得到目标压缩模型，提高了目标压缩模型与神经网络模型的适配度，有利于提高模型压缩效果；然后，利用目标压缩模型对神经网络模型进行压缩处理，得到目标神经网络模型。本发明实施例能够保持神经网络模型的精度的同时，减小神经网络模型所需的存储空间，使得目标神经网络模型能够部署于各个硬件设备中实现与压缩前的神经网络模型相同的功能，增加硬件设备的一次使用时长。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明的一种模型压缩装置实施例的结构框图，所述装置可以包括：

数据获取模块501，用于获取待压缩的神经网络模型和所述神经网络模型的神经元参数；

模型构建模块502，用于根据所述神经网络模型的模型结构构建压缩模型；

模型训练模块503，用于根据所述神经网络模型的神经元参数对所述压缩模型进行迭代训练，直至满足预设终止条件得到目标压缩模型；

压缩处理模块504，用于利用所述目标压缩模型对所述神经网络模型进行压缩处理，得到目标神经网络模型。

可选地，所述模型构建模块，包括：

第一确定子模块，用于根据所述神经网络模型中各个网络层的维度确定所述神经网络模型对应的维度数目；

第一构建子模块，用于若所述神经网络模型对应N个不同的维度，则构建N个压缩模型，每一个压缩模型对应一个维度。

可选地，所述模型训练模块，包括：

参数提取子模块，用于提取所述神经网络模型中目标维度对应的神经元参数，所述目标维度为所述神经网络模型对应的任一维度；

模型训练子模块，用于根据所述目标维度对应的神经元参数，对所述目标维度对应的压缩模型进行迭代训练，直至满足预设终止条件得到目标压缩模型。

可选地，所述模型训练子模块，包括：

输入单元，用于在每一轮训练中，将所述目标维度对应的神经元参数输入所述目标维度对应的压缩模型，得到输出参数；

计算单元，用于计算所述神经元参数与所述输出参数之间的绝对误差；

更新单元，用于根据所述绝对误差更新所述压缩模型的模型参数，直至所述绝对误差满足预设终止条件，得到目标压缩模型。

可选地，所述压缩模型包括编码器和解码器，所述压缩处理模块，包括：

编码处理子模块，用于将所述神经网络模型的神经元参数输入至所述编码器中进行编码处理，得到压缩参数；

参数修改子模块，用于根据所述压缩参数修改所述神经网络模型的神经元参数，得到中间模型；

解码处理子模块，用于将所述中间模型输入至所述解码器中进行解码处理，得到目标神经网络模型。

可选地，所述模型构建模块，包括：

第二确定子模块，用于根据所述神经网络模型的模型功能确定压缩比例；

第二构建子模块，用于根据所述压缩比例和所述神经网络模型的模型结构构建压缩模型。

可选地，所述目标神经网络模型用于部署至电子设备中执行数据处理任务，实现与压缩前的神经网络模型相同的功能，所述模型构建模块，包括：

第三确定子模块，用于根据待部署的电子设备的设备参数确定所述神经网络模型的压缩比例；

第三构建子模块，用于根据所述压缩比例和所述神经网络模型的模型结构构建压缩模型；

其中，所述设备参数包括以下至少一项：存储器的存储容量、处理器的性能指标。

可选地，所述神经网络模型的输入数据包括文本数据、语音数据、图像数据中的任意一项。

综上，本发明实施例提供的模型压缩装置，可以根据待压缩的神经网络模型的模型结构构建压缩模型，并根据神经网络模型的神经元参数对压缩模型进行迭代训练得到目标压缩模型，提高了目标压缩模型与神经网络模型的适配度，有利于提高模型压缩效果；然后，利用目标压缩模型对神经网络模型进行压缩处理，得到目标神经网络模型。本发明实施例能够保持神经网络模型的精度的同时，减小神经网络模型所需的存储空间，使得目标神经网络模型能够部署于各个硬件设备中实现与压缩前的神经网络模型相同的功能。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置（服务器或者终端）的处理器执行时，使得装置能够执行前文图1所对应实施例中模型压缩方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种模型压缩方法、装置和可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种模型压缩方法，其特征在于，所述方法包括：

根据所述神经网络模型的模型结构构建压缩模型；

利用所述目标压缩模型对所述神经网络模型进行压缩处理，得到目标神经网络模型；

所述根据所述神经网络模型的模型结构构建压缩模型，包括：

根据所述神经网络模型中各个网络层的维度确定所述神经网络模型对应的维度数目；

若所述神经网络模型对应N个不同的维度，则构建N个压缩模型，每一个压缩模型对应一个维度。

2.根据权利要求1所述的方法，其特征在于，所述根据所述神经网络模型的神经元参数对所述压缩模型进行迭代训练，直至满足预设终止条件得到目标压缩模型，包括：

提取所述神经网络模型中目标维度对应的神经元参数，所述目标维度为所述神经网络模型对应的任一维度；

根据所述目标维度对应的神经元参数，对所述目标维度对应的压缩模型进行迭代训练，直至满足预设终止条件得到目标压缩模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标维度对应的神经元参数，对所述目标维度对应的压缩模型进行迭代训练，直至满足预设终止条件得到目标压缩模型，包括：

在每一轮训练中，将所述目标维度对应的神经元参数输入所述目标维度对应的压缩模型，得到输出参数；

计算所述神经元参数与所述输出参数之间的绝对误差；

根据所述绝对误差更新所述压缩模型的模型参数，直至所述绝对误差满足预设终止条件，得到目标压缩模型。

4.根据权利要求1所述的方法，其特征在于，所述压缩模型包括编码器和解码器，所述利用所述目标压缩模型对所述神经网络模型进行压缩处理，得到目标神经网络模型，包括：

将所述神经网络模型的神经元参数输入至所述编码器中进行编码处理，得到压缩参数；

根据所述压缩参数修改所述神经网络模型的神经元参数，得到中间模型；

将所述中间模型输入至所述解码器中进行解码处理，得到目标神经网络模型。

5.根据权利要求1所述的方法，其特征在于，所述根据所述神经网络模型的模型结构构建压缩模型，包括：

根据所述神经网络模型的模型功能确定压缩比例；

根据所述压缩比例和所述神经网络模型的模型结构构建压缩模型。

6.根据权利要求1所述的方法，其特征在于，所述目标神经网络模型用于部署至电子设备中执行数据处理任务，实现与压缩前的神经网络模型相同的功能，所述根据所述神经网络模型的模型结构构建压缩模型，包括：

根据待部署的电子设备的设备参数确定所述神经网络模型的压缩比例；

根据所述压缩比例和所述神经网络模型的模型结构构建压缩模型；

7.根据权利要求1至6任一项所述的方法，其特征在于，所述神经网络模型的输入数据包括文本数据、语音数据、图像数据中的任意一项。

8.一种模型压缩装置，其特征在于，所述装置包括：

压缩处理模块，用于利用所述目标压缩模型对所述神经网络模型进行压缩处理，得到目标神经网络模型；

所述模型构建模块还用于：

9.一种机器可读存储介质，其上存储有指令，当所述指令由装置的一个或多个处理器执行时，使得装置执行如权利要求1至7中任一所述的模型压缩方法。