CN111325354A

CN111325354A - 机器学习模型压缩方法、装置、计算机设备和存储介质

Info

Publication number: CN111325354A
Application number: CN202010174061.5A
Authority: CN
Inventors: 沈力; 沈钰聪; 黄浩智; 王璇; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-06-23
Anticipated expiration: 2040-03-13
Also published as: CN111325354B

Abstract

本申请涉及一种机器学习模型压缩方法、装置、计算机设备和存储介质。所述方法包括：获取机器学习模型；所述机器学习模型是预训练模型；确定所述机器学习模型的每一层中模型参数的概率分布的集合；确定所述集合中的概率分布的重心；分别确定每一层中的模型参数的概率分布与同层的所述重心之间的距离；从每一层的模型参数中，剪除所述距离满足预设接近条件的模型参数。采用本方法能够提高模型压缩的准确性。

Description

机器学习模型压缩方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域和机器学习技术领域，特别是涉及一种机器学习模型压缩方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的飞速发展，机器学习技术应运而生。通过机器学习技术训练得到的各种机器学习模型，解决了很多问题，为各行各业的开展都提供了很大的帮助。机器学习模型中具有很多模型参数(即模型参数)，对计算资源的占用就会比较大。因此，对模型进行合理的压缩剪枝非常必要。

传统方法中，是通过几何平均来进行剪枝，从而砍除模型中多余的模型参数。然而，几何平均很难找到模型中的冗余信息，所以，导致模型压缩的效果比较差，准确率比较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高压缩准确率的机器学习模型压缩方法、装置、计算机设备和存储介质。

一种机器学习模型压缩方法，所述方法包括：

获取机器学习模型；所述机器学习模型是预训练模型；

确定所述机器学习模型的每一层中模型参数的概率分布的集合；

确定所述集合中的概率分布的重心；

分别确定每一层中的模型参数的概率分布与同层的所述重心之间的距离；

从每一层的模型参数中，剪除所述距离满足预设接近条件的模型参数。

一种机器学习模型压缩装置，所述装置包括：

模型确定模块，用于获取机器学习模型；所述机器学习模型是预训练模型；

分布集合确定模块，用于确定所述机器学习模型的每一层中模型参数的概率分布的集合；

重心确定模块，用于确定所述集合中的概率分布的重心；

剪枝模块，用于分别确定每一层中的模型参数的概率分布与同层的所述重心之间的距离；从每一层的模型参数中，剪除所述距离满足预设接近条件的模型参数。

在一个实施例中，分布集合确定模块包括：

矩阵构造模块，用于获取所述机器学习模型的每一层所对应的模型参数矩阵；根据每一层的所述模型参数矩阵，构造相应的代价矩阵；

概率分布确定模块，用于根据每一层的所述代价矩阵中的每一列元素，确定每一层中各模型参数的概率分布。

在一个实施例中，重心确定模块还用于分别根据所述集合中各概率分布，确定传输矩阵；根据所述代价矩阵和所述传输矩阵，确定重心函数；通过所述重心函数，迭代地求取最优传输矩阵，并根据所述最优传输矩阵，确定所述集合中的概率分布的重心；所述重心到各所述概率分布之间的距离之和最小。

在一个实施例中，重心确定模块还用于按照以下公式确定重心函数：

其中，q^*为最优解的重心；P＝{p₁,p₂,…，p_k}为同层模型参数的K个概率分布的集合；p_k为第k个概率分布；λ为距离权重；λ_k为第k个概率分布对应的距离权重，Q是概率分布所在的概率空间；C为代价矩阵；Γ为传输矩阵；s.t.表示约束条件；Γ^T表示传输矩阵的转置矩阵；1表示单位向量；q为待求解的重心；argmin即为argmin()函数。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取机器学习模型；所述机器学习模型是预训练模型；

确定所述集合中的概率分布的重心；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取机器学习模型；所述机器学习模型是预训练模型；

确定所述集合中的概率分布的重心；

上述机器学习模型压缩方法、装置、计算机设备和存储介质，从概率分布角度，确定所述机器学习模型的每一层中模型参数的概率分布的集合；然后确定集合中的概率分布的重心。相当于找到了每一层中最具有代表性的概率分布，即每一层中概率分布的关键信息。进而，根据每一层中的模型参数的概率分布与同层的所述重心之间的距离；从每一层的模型参数中，剪除所述距离满足预设接近条件的模型参数。相当于基于概率分布的关键信息，能够更为准确地找到容易被替代的冗余信息进行剪枝，从而在对模型进行剪枝的同时保持模型较高的预测准确率，因此能够更加准确地对机器学习模型进行压缩。

附图说明

图1为一个实施例中机器学习模型压缩方法的应用环境图；

图2为一个实施例中机器学习模型压缩方法的流程示意图；

图3为一个实施例中生成概率分布的集合的原理示意图；

图4为一个实施例中机器学习模型压缩方法的流程简示图；

图5为另一个实施例中机器学习模型压缩方法的流程示意图；

图6为一个实施例中机器学习模型压缩装置的结构框图；

图7为另一个实施例中机器学习模型压缩装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的机器学习模型压缩方法，可以应用于如图1所示的应用环境中。其中，服务器102通过网络与终端104进行通信。其中，服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端104可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

服务器102通过执行本申请各实施例中的机器学习模型压缩方法，对机器学习模型进行压缩。这样一来，压缩后的机器学习模型对硬件的要求就得以降低，降低了机器学习模型在实际应用中的门槛，从而能够部署到终端104中。

服务器102获取机器学习模型；机器学习模型是预训练模型。服务器102可以确定机器学习模型的每一层中模型参数的概率分布的集合；确定集合中的概率分布的重心。服务器102可以分别确定每一层中的模型参数的概率分布与同层的重心之间的距离；从每一层的模型参数中，剪除距离满足预设接近条件的模型参数。这样一来，就可以对机器学习模型进行压缩。服务器102可以将通过剪除模型参数进行压缩的机器学习模型，下发到移动终端104中进行部署。

可以理解，本申请各实施例中的机器学习模型压缩方法，相当于使用人工智能技术对机器学习模型进行剪枝压缩。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

可以理解，本申请各实施例中的机器学习模型压缩方法相当于使用了机器学习技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在一个实施例中，如图2所示，提供了一种机器学习模型压缩方法，以该方法应用于计算机设备为例进行说明，计算机设备可以是图1中的服务器。该方法具体包括以下步骤：

S202，获取机器学习模型。

其中，机器学习模型是预训练模型。预训练模型，就是预先用大量的数据集训练好的具有较高精度的机器学习模型。后续可以根据自身的模型需求，使用训练集，对预训练模型进行模型微调，得到实现自身任务的模型。

可以理解，服务器可以根据训练样本训练出一个精度较高的机器学习模型，基于该机器学习模型进行模型压缩处理，相当于为模型压缩处理提供了一个很好的初始点，具有参考意义，能够找到真正有用的信息，从而能够更加准确地去除冗余信息。

机器学习模型，是通过机器学习训练得到的模型。

在一个实施例中，机器学习模型可以为深度学习模型。

深度学习(DL,Deep Learning)是机器学习(ML,Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI,ArtificialIntelligence)。

S204，确定机器学习模型的每一层中模型参数的概率分布的集合。

可以理解，机器学习模型中包含了多层结构，每层中都有对应的模型参数。需要说明的是，模型参数，即为每一层的权重(即每一层的模型权重)。可以理解，在机器学习训练过程中，每一层输入的数据都会乘以相应的权重，这个权重即为模型参数。

具体地，针对机器学习模型中的每一层，计算机设备可以获取该层所对应的模型参数矩阵。计算机设备可以对该模型参数矩阵进行改写，并根据改写后的矩阵，计算该层各模型参数对应的概率分布。概率分布，相当于概率向量。

在一个实施例中，步骤S204包括：获取机器学习模型的每一层所对应的模型参数矩阵；根据每一层的模型参数矩阵，构造相应的代价矩阵；根据每一层的代价矩阵中的每一列元素，确定每一层中各模型参数的概率分布。

其中，代价矩阵，是对模型参数矩阵进行维度改写得到的二维矩阵。其中，代价矩阵的每一列元素，用于确定各模型参数的概率分布。

在一个实施例中，模型参数矩阵的维度，是输入通道(Input channel)的数量、输出通道(Output channel)的数量、滤波器(filter)的高以及滤波器的宽之间的乘积。

可以理解，代价矩阵是对模型参数矩阵进行维度改写得到的。具体地，当需要对输入通道这一模型参数进行剪枝时，则可以通过将模型参数矩阵中的输出通道(Outputchannel)的数量、滤波器(filter)的高以及滤波器的宽进行合并改写，从而根据合并改写结果和输入通道数量，构建代价矩阵。

比如，每一层的模型参数矩阵为theta，theta的维度是k*n*h*w，其中，k为输入通道(Input channel)的数量，n为输出通道(Output channel)的数量、h(height)和w(width)分别为滤波器的高和宽。那么，通过对模型参数矩阵theta进行改写，可以构造代价矩阵(cost matrix)C，其中，代价矩阵C的维度是N*k，N＝n*h*w。可以理解，k依然为输入通道(Input channel)的数量，N即为对模型参数矩阵中的输出通道的数量、滤波器的高以及宽进行合并改写，得到的合并改写结果。

进一步地，计算机设备可以根据每一层的代价矩阵中的每一列元素，确定每一层中各模型参数的概率分布。

具体地，代价矩阵中每一列元素对应于同一模型参数，计算每一列元素的概率分布，则可以得到模型参数的概率分布。可以理解，当需要对输入通道进行剪枝时，则每一列元素对应于同一输入通道。

可以理解，每一列元素形成一个向量，所以可以对这个向量进行单位化处理，得到这列元素的概率分布。具体地，针对每一列元素，可以用该列元素所形成的向量，除以该向量中的元素(即该列元素)之和，从而对该向量进行单位化处理，得到该列元素的概率分布。

为了便于理解，现结合例子说明。假如C_i＝(1,2,3,4,5)，那么C_i的概率分布＝(1,2,3,4,5)/(1+2+3+4+5)。

同样以上述例子为例进行说明。假设代价矩阵(costmatrix)的每一列记做C_i，计算C_i的概率分布，得到模型参数的概率分布p_i，从而得到代价矩阵的概率表示，记做P＝【p₁，p₂，……，p_k】。可以理解，P即为模型参数的概率分布的集合，k个输入通道则对应k个概率分布，分别为p₁，p₂，……，p_k。

图3为一个实施例中生成概率分布的集合的原理示意图。需要说明的是，图3是以机器学习模型中的其中一层为例进行举例说明，并未示出全部层的处理，每层处理的原理相同。参照图3，将k*n*h*w(k为输入通道的数量，n为输出通道的数量、h和w分别为滤波器的高和宽)维度的模型参数矩阵进行改写，生成维度是N*k的代价矩阵C，其中，k即为代价矩阵C中的列数，即，代价矩阵C中一共有k列。然后，将每一列记为C_i(i＝1,2，…，k)。那么，则计算每列C_i中的元素的概率分布，即可以得到k个概率分布，分别为p₁，p₂，……，p_k。可以理解，p_i＝C_i/sum{C_i}。即，可以用向量C_i除以该向量中的元素之和，从而对向量C_i进行单位化处理，得到p_i(i＝1,2，…，k)。可以理解，假设k为输入通道的数量，那么，则可以根据本申请各实施例中的方法，对k个输入通道进行剪枝处理，从而减少输入通道的数量。

S206，确定所述集合中的概率分布的重心。

可以理解，概率分布的集合，是指一组概率分布。概率分布的集合中包括至少一个概率分布。

其中，重心，用于表征模型参数的概率分布的关键信息。

在一个实施例中，步骤S206包括：针对每一层的模型参数，根据所述集合中各概率分布，确定重心；该重心为概率向量；其中，所述重心到各所述模型参数的概率分布之间的距离之和最小。

可以理解，由于是概率分布的集合的重心，所以，重心是概率向量，相当于一个概率分布。

具体地，计算机设备可以迭代地寻找模型参数的重心，直至使得最终的重心到各模型参数的概率分布之间的距离之和最小。

在一个实施例中，在迭代过程中，会计算各轮迭代的重心到各模型参数的概率分布之间的距离之和，然后将使距离之和达到最小值时的重心，作为最终的重心。

在一个实施例中，距离可以为瓦瑟斯坦距离(Wasserstein Distance)。瓦瑟斯坦距离，又称推土机距离，用来表示两个分布的相似程度。

重心，则为瓦瑟斯坦重心(Wasserstein barycenter)，即为在满足最优传输条件下的各距离之和的均值。其中，各距离，是重心到各模型参数的概率分布之间的距离。

可以理解，还可以通过其他算法计算重心和模型参数的概率分布之间的距离，并不限定于瓦瑟斯坦距离或瓦瑟斯坦重心。

S208，分别确定每一层中的模型参数的概率分布与同层的重心之间的距离。

具体地，在求解得到每一层的重心之后，对于机器学习模型的每一层，计算机设备可以求取该层的所有模型参数的概率分布与同层的重心之间的距离。相当于计算概率分布(或者概率向量)之间的距离。

在一个实施例中，计算机设备可以求取每一层中所有模型参数的概率分布与同层的瓦瑟斯坦重心之间的瓦瑟斯坦距离。

可以理解，还可以通过其他算法计算重心和模型参数的概率分布之间的距离，并不限定于瓦瑟斯坦距离，只要是能够计算概率分布(或概率向量)之间的距离的算法皆可。

S210，从每一层的模型参数中，剪除距离满足预设接近条件的模型参数。

其中，预设接近条件，是预先设置的距离接近的条件。可以理解，距离满足预设接近条件，说明模型参数的概率分布距离重心很近，即在重心附近。

在一个实施例中，预设接近条件可以是距离小于或等于预设距离阈值。

在另一个实施例中，预设接近条件，可以是按照距离由小到大的顺序排名在前预设数量。

在又一个实施例中，预设接近条件，还可以是按照距离由小到大的顺序排名在前预设的剪枝比例内。

具体地，针对机器学习模型的每一层，计算机设备可以根据各模型参数的概率分布与重心的距离，选取在重心附近(即距离满足预设接近条件)的模型参数。进一步地，计算机设备可以将选取的模型参数进行剪枝处理，即，从机器学习的该层模型参数中，剪除所选取的模型参数，从而实现对机器学习模型的压缩处理。

可以理解，由于重心能够表征同一层的模型参数的概率分布的关键信息，那么，在重心附近的模型参数则是机器学习模型中的冗余信息，并且很容易的被其他模型参数的信息所替代，所以，即使将在重心附近的模型参数进行剪除，这些被剪除的模型参数所表达的特征仍然能够被周围未被剪除的模型参数表达，因此，对重心附近的模型参数进行一定比例的剪除，不会影响机器学习模型的预测准确率，且能够减小机器学习模型的规模，从而提高机器学习模型的运行性能。

上述机器学习模型压缩方法，从概率分布角度，确定所述机器学习模型的每一层中模型参数的概率分布的集合；然后确定集合中的概率分布的重心。相当于找到了每一层中最具有代表性的概率分布，即每一层中概率分布的关键信息。进而，根据每一层中的模型参数的概率分布与同层的所述重心之间的距离；从每一层的模型参数中，剪除所述距离满足预设接近条件的模型参数。相当于基于概率分布的关键信息，能够更为准确地找到容易被替代的冗余信息进行剪枝，从而在对模型进行剪枝的同时保持模型较高的预测准确率，因此能够更加准确地对机器学习模型进行压缩。

此外，通过有效压缩机器学习模型，能够降低模型的规模，使得运行模型的硬件成本大大降低，也提高了模型的处理速度和运行性能。而且，降低了机器学习模型在实际应用中的门槛，从而能够部署到更多的设备(比如终端)中。

在一个实施例中，步骤S202获取机器学习模型包括：获取当前轮训练前的初始机器学习模型；根据训练样本，基于所述初始机器学习模型进行当前轮的机器学习训练，得到当前轮训练后的机器学习模型。

其中，初始机器学习模型，是指在当前轮训练前的基础的机器学习模型。即，基于该初始机器学习模型，进行当前轮的机器学习训练。可以理解，初始机器学习模型，也是预训练模型。当前轮训练后的机器学习模型，是指经过当前轮的机器学习训练所得到的机器学习模型。

具体地，计算机设备可以获取当前轮训练前的初始机器学习模型。计算机设备可以根据训练样本，基于所述初始机器学习模型进行当前轮的机器学习训练，得到当前轮训练后的机器学习模型。

在一个实施例中，该方法还包括：将剪除模型参数后的机器学习模型作为所述当前轮训练前的初始机器学习模型，返回根据训练样本，基于所述初始机器学习模型进行当前轮的机器学习训练的步骤以继续执行，直至达到迭代停止条件。

在一个实施例中，若当前轮为非首轮(即不是第一轮)，那么，初始机器学习模型，则是在上一轮训练后得到的机器学习模型的基础上，进行模型参数剪枝处理后的机器学习模型。

具体地，计算机设备可以将模型训练和剪枝处理结合起来进行迭代训练。计算机设备可以针对当前轮训练后的机器学习模型，执行本申请实施例中的步骤S204～S210，从而对当前轮训练后的机器学习模型中的模型参数进行剪除处理。进一步地，计算机设备可以将下一轮作为当前轮，并将剪除模型参数后的机器学习模型作为所述当前轮训练前的初始机器学习模型，返回根据训练样本，基于所述初始机器学习模型进行当前轮的机器学习训练的步骤以继续执行。即，进入下一轮的机器学习训练和模型参数剪除处理，直至达到迭代停止条件。

其中，迭代停止条件，是指停止机器学习训练的条件。

在一个实施例中，迭代停止条件可以为迭代次数达到预设次数阈值。在另一个实施例中，迭代停止条件也可以为机器学习模型收敛。

上述实施例中，通过迭代训练和模型剪枝相结合，能够提高模型压缩的准确性，且能够模型具有较高的预测准确率。

在一个实施例中，步骤S210从每一层的模型参数中，剪除所述距离满足预设接近条件的模型参数包括：获取预设的剪枝比例；针对每一层的模型参数，按照所述距离，对所述模型参数进行排序；按照排序，从同一层的模型参数中，选取满足所述剪枝比例的模型参数；将选取的所述模型参数剪除。

其中，剪枝比例，是剪除模型参数的比例。

在一个实施例中，计算机设备可以计算每一层的模型参数的概率分布与同层的重心之间的距离，然后，针对每一层的模型参数，按照与同层的重心之间的距离按照由小到大的顺序，对每一层的模型参数进行排序。然后，按照排序由前到后的顺序，从同一层的模型参数中，选取满足所述剪枝比例的模型参数。即，选取与同层的重心的距离排在前剪枝比例之内的模型参数。进一步地，计算机设备可以将选取的模型参数进行剪除。

比如，对于预设的剪枝比例Pi，则选取与重心的距离最近的前Pi的模型参数。假设Pi为10％，那么，就选取与重心的距离排序在前10％的模型参数进行剪除。

在一个实施例中，将选取的所述模型参数剪除包括：将选取的所述模型参数对应的调整系数置为零；将每一层的模型参数分别与对应的调整系数相乘，得到剪除模型参数后的机器学习模型。

其中，调整系数，是对模型参数进行调整的系数。可以理解，调整系数相当于一个mask(掩膜)，用于确定模型参数是否被剪除。

可以理解，调整系数可以为0或1，每一个模型参数皆有对应的调整系数。计算机设备可以将每一层的模型参数分别与对应的调整系数相乘，当模型参数对应的调整系数为0时，则该模型参数与调整系数的乘积也为0，则该模型参数对机器学习模型起不到作用，说明该模型参数被剪除。当模型参数对应的调整系数为1时，则该模型参数与调整系数的乘积为该模型参数本身，说明该模型参数未被剪除，而是被保留了。

因此，针对与重心的距离满足预设接近条件的模型参数，计算机设备可以将该模型参数对应的调整系数置为零，然后将每一层的模型参数分别与对应的调整系数相乘，这样一来，与重心的距离满足预设接近条件的模型参数与零的乘积就为零，相当于将与重心的距离满足预设接近条件的模型参数归为零，从而将这些模型参数进行剪除。可以理解，计算机设备可以将其余的模型参数进行保留，进而得到剪除模型参数后的机器学习模型。

上述实施例中，通过调整系数，即掩膜的方式来进行剪枝，提高了剪枝效率。

图4为一个实施例中机器学习模型压缩方法的流程简示图。参照图4，L为机器学习模型的层数(Layer)。在迭代训练前，初始化模型参数W，然后输入数据X以进行迭代训练，并在每轮训练后更新模型参数W。接着，针对更新模型参数W后的机器学习模型(即当前轮训练后的机器学习模型)中的每一层模型参数，按照本申请各实施例中的机器学习模型压缩方法，计算每一层模型参数的重心(Wasserstein barycenter)，然后将距离重心(Wasserstein barycenter)最近的前Pi(剪枝比例)的模型参数归为0，从而输入当前轮剪枝(即剪除模型参数)后的机器学习模型，并将剪枝后的机器学习模型作为下一轮机器学习训练前的机器学习模型，进行下一轮的迭代处理，直至满足迭代停止条件(比如，达到预设迭代次数)。最终得到压缩后的机器学习模型。可以理解，图4中的epoch表示迭代次数。

上述实施例中，根据剪枝比例和距重心的距离，能够更加准确地确定重心附近的模型参数，进而能够提高剪枝的准确性。

在一个实施例中，确定集合中的概率分布的重心包括：分别根据集合中各概率分布，确定传输矩阵；根据代价矩阵和传输矩阵，确定重心函数；通过重心函数，迭代地求取最优传输矩阵，并根据最优传输矩阵，确定集合中的概率分布的重心。

其中，重心函数，是用于求取重心的函数。最优传输矩阵，用于表征最佳传输计划。可以理解，在满足最佳传输计划的前提下的重心，即为重心函数最终要求取的最优解，即为最终的重心。

具体地，计算机设备可以根据集合中各概率分布，确定传输矩阵。其中，传输矩阵与预设单位向量的乘积等于模型参数的概率分布，传输矩阵的转置距阵与预设单位向量的乘积，等于重心。

在一个实施例中，传输矩阵满足如下约束条件：

s.t.Γ1＝p_k,Γ^T1＝q；

其中，s.t.表示约束条件；Γ为传输矩阵；Γ^T表示传输矩阵的转置矩阵；p_k为第k个概率分布；q即为待求取的未知重心；1表示单位向量。

可以理解，计算机设备可以通过求取代价矩阵和传输矩阵之间的点积的最小值，得到用于表征重心和模型参数的概率分布之间距离的函数，然后，根据该函数构建重心函数。进一步地，计算机设备可以通过重心函数，迭代地求取最优传输矩阵，并根据最优传输矩阵，确定集合中的概率分布的重心。

可以理解，对于一个离散集的最优传输问题，可以按照以下公式(1)求取两个概率向量之间的Wassersteindistance：

W(μ,ν)＝min_{Γ∈Σ(μ,ν)}<C,Γ>；公式(1)

其中，μ,ν是两个概率向量，W(μ,ν)是μ和v之间的Wasserstein distance。矩阵

是实数集上的代价矩阵(cost matrix)。Γ为传输矩阵，<·,·>表示Frobenius点乘，<C,Γ>则表示代价矩阵和传输矩阵之间的点乘，最优解Γ^*是最佳运输计划(optimal transportplan)，

其中1_n代表n维度的单位向量，1_m代表m维度的单位向量。

然后，可以按照以下公式(2)进行近端点迭代计算：

Γ^(t+1)＝argmin_{Γ∈Σ(μ,ν)}＜C,Γ>+β^(t)D_h(Γ,Γ^(t))；公式(2)

其中，β^(t)D_h(Γ,Γ^(t))为正则项；β^(t)为超参数，D_h(Γ,Γ^(t))为散度，t为迭代次数。

当t—>∞时，Γ^(t)将会收敛为一个最佳运输计划(optimal transport plan)，即为最优传输矩阵，从而可以求出概率向量μ和v之间的Wasserstein distance。

因此，基于离散集的最优传输问题的原理，可以用来求解每一层的模型参数的重心(即，Wasserstein barycenter)。具体如下：

假设每一层中模型参数的概率分布的集合P＝{p₁,p₂,…，p_k}，那么，可以将集合中的每个概率分布当作一个概率向量，将待求解的未知的重心作为一个概率向量，那么，集合中这些概率分布的重心函数可以定义为：

其中，q为瓦瑟斯坦重心(Wassersteinbarycenter)，p_k为第k个概率分布；λ为距离权重；λ_k为第k个概率分布对应的距离权重；Q是概率分布所在的概率空间，

k即为模型参数的数量(可以理解，当对输入通道进行剪枝时，则K为输入通道的数量)；W(q,p_k)是瓦瑟斯坦重心q和概率分布p_k之间的瓦瑟斯坦距离，argmin即为argmin()函数，q*即为使公式(3)取最小值时的重心，即最优解。

基于公式(1)，将μ和v分别替换为q和p_k，则可以得到公式(4)如下：

W(q,p_k)＝min_Γ<C,Γ>，s.t.Γ1＝p_k,Γ^T1＝q；公式(4)

在一个实施例中，根据代价矩阵和传输矩阵，确定重心函数包括：

按照以下公式确定重心函数：

进而，将公式(3)和公式(4)组合，得到公式(5)。公式(5)即为根据代价矩阵和传输矩阵构建的重心函数。通过迭代的求取最优传输矩阵，即可以根据公式(5)计算出最终的重心。

在一个实施例中，参照公式(2)中寻找最优传输矩阵的方式，可以通过以下公式(6)对重心进行近端点迭代计算：

其中，s.t.Γ1＝p_k,Γ^T1＝q。

可以理解，当t—>∞时，Γ_k ^(t)将会收敛为一个最佳运输计划(optimaltransportplan)，即为最优传输矩阵，从而可以求出概率向量p_k和q之间的瓦瑟斯坦距离，进而可以根据公式(5)计算出最终的重心。

在一个实施例中，β^(t)D_h(Γ_k,Γ_k ^(t))为基于熵的正则项；β^(t)为超参数，D_h(Γ_k,Γ_k ^(t))为散度，t为迭代次数。

在一个实施例中，正则项中的散度可以按照公式(7)确定：

上述实施例中，通过最优传输计算，确定概率分布的重心，能够快速、准确地确定出重心。

图5为另一个实施例中机器学习模型压缩方法的流程示意图。参照图5，该方法具体包括以下步骤：

S502，获取当前轮训练前的初始机器学习模型；根据训练样本，基于初始机器学习模型进行当前轮的机器学习训练，得到当前轮训练后的机器学习模型。

S504，获取机器学习模型的每一层所对应的模型参数矩阵；根据每一层的模型参数矩阵，构造相应的代价矩阵；根据每一层的代价矩阵中的每一列元素，确定每一层中各模型参数的概率分布。

S506，分别根据集合中各概率分布，确定传输矩阵；根据代价矩阵和传输矩阵，确定重心函数。

在一个实施例中，可以按照以下公式确定重心函数：

其中，q^*为最优解的重心；P＝{p₁,p₂,…，p_k}为同层模型参数的K个概率分布的集合；p_k为第k个概率分布；λ为距离权重；λ_k为第k个概率分布对应的距离权重，Q是概率分布所在的概率空间；C为代价矩阵；Γ为传输矩阵；s.t.表示约束条件；Γ^T表示传输矩阵的转置矩阵；1表示单位向量；argmin即为argmin()函数。

S508，通过重心函数，迭代地求取最优传输矩阵，并根据最优传输矩阵，确定集合中的概率分布的重心。

S510，分别确定每一层中的模型参数的概率分布与同层的重心之间的距离。

S512，获取预设的剪枝比例；针对每一层的模型参数，按照距离由小到大的顺序，对模型参数进行排序；按照排序由前到后的顺序，从同一层的模型参数中，选取满足剪枝比例的模型参数。

S514，将选取的模型参数对应的调整系数置为零；将每一层的模型参数分别与对应的调整系数相乘，得到剪除模型参数后的机器学习模型。

可以理解，计算机设备可以将下一轮作为当前轮，并将剪除模型参数后的机器学习模型作为当前轮训练前的初始机器学习模型，返回步骤S502以继续执行，直至达到迭代停止条件，进入步骤S516。

S516，输出最终的机器学习模型。

可以理解，该机器学习模型可以应用于图像识别技术领域，即可以为图像识别模型。将经过本申请实施例中的机器学习模型压缩方法剪除图像识别模型中的冗余的模型参数，从而得到最终的图像识别模型。进而，将待识别的图像输入该压缩后的图像识别模型中，能够快速且准确地输出图像识别结果。此外，机器学习模型还可以是其他技术领域的处理模型，通过压缩能够使得去除冗余信息后的处理模型，将待处理数据输入该处理模型中，能够更为快速、准确地输出处理结果。

应该理解的是，虽然各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种机器学习模型压缩装置600，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：模型确定模块602、分布集合确定模块604、重心确定模块606以及剪枝模块608，其中：

模型确定模块602，用于获取机器学习模型；所述机器学习模型是预训练模型。

分布集合确定模块604，用于确定所述机器学习模型的每一层中模型参数的概率分布的集合。

重心确定模块606，用于确定所述集合中的概率分布的重心。

剪枝模块608，用于分别确定每一层中的模型参数的概率分布与同层的所述重心之间的距离；从每一层的模型参数中，剪除所述距离满足预设接近条件的模型参数。

在一个实施例中，模型确定模块602还用于获取当前轮训练前的初始机器学习模型；根据训练样本，基于所述初始机器学习模型进行当前轮的机器学习训练，得到当前轮训练后的机器学习模型。

在一个实施例中，模型确定模块602还用于将所述剪枝模块608剪除模型参数后的机器学习模型作为所述当前轮训练前的初始机器学习模型，返回根据训练样本，基于所述初始机器学习模型进行当前轮的机器学习训练的步骤以继续执行，直至达到迭代停止条件。

在一个实施例中，所述剪枝模块608还用于获取预设的剪枝比例；针对每一层的模型参数，按照所述距离，对所述模型参数进行排序；按照排序，从同一层的模型参数中，选取满足所述剪枝比例的模型参数；将选取的所述模型参数剪除。

在一个实施例中，所述剪枝模块608还用于将选取的所述模型参数对应的调整系数置为零；将每一层的模型参数分别与对应的调整系数相乘，得到剪除模型参数后的机器学习模型。

在一个实施例中，重心确定模块606还用于针对每一层的模型参数，根据所述集合中各概率分布，确定重心；所述重心为概率向量；其中，所述重心到各所述模型参数的概率分布之间的距离之和最小。

如图7所示，在一个实施例中，分布集合确定模块604包括：

矩阵构造模块604a，用于获取所述机器学习模型的每一层所对应的模型参数矩阵；根据每一层的所述模型参数矩阵，构造相应的代价矩阵。

概率分布确定模块604b，用于根据每一层的所述代价矩阵中的每一列元素，确定每一层中各模型参数的概率分布。

在一个实施例中，重心确定模块606还用于分别根据所述集合中各概率分布，确定传输矩阵；根据所述代价矩阵和所述传输矩阵，确定重心函数；通过所述重心函数，迭代地求取最优传输矩阵，并根据所述最优传输矩阵，确定所述集合中的概率分布的重心；所述重心到各所述模型参数的概率分布之间的距离之和最小。

在一个实施例中，重心确定模块606还用于按照以下公式确定重心函数：

其中，q^*为最优解的重心；P＝{p₁,p₂,…，p_k}为同层模型参数的K个概率分布的集合；p_k为第k个概率分布；λ为距离权重；λ_k为第k个概率分布对应的距离权重，Q是概率分布所在的概率空间；C为代价矩阵；Γ为传输矩阵；s.t.表示约束条件；Γ^T表示传输矩阵的转置矩阵；q为待求解的重心；1表示单位向量；argmin即为argmin()函数。

关于机器学习模型压缩装置的具体限定可以参见上文中对于机器学习模型压缩方法的限定，在此不再赘述。上述机器学习模型压缩装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储机器学习模型压缩数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种机器学习模型压缩方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种机器学习模型压缩方法，其特征在于，所述方法包括：

获取机器学习模型；所述机器学习模型是预训练模型；

确定所述集合中的概率分布的重心；

2.根据权利要求1所述的方法，其特征在于，所述获取机器学习模型包括：

获取当前轮训练前的初始机器学习模型；

根据训练样本，基于所述初始机器学习模型进行当前轮的机器学习训练，得到当前轮训练后的机器学习模型。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将剪除模型参数后的机器学习模型作为当前轮训练前的初始机器学习模型，返回根据训练样本，基于所述初始机器学习模型进行当前轮的机器学习训练的步骤以继续执行，直至达到迭代停止条件。

4.根据权利要求1所述的方法，其特征在于，所述从每一层的模型参数中，剪除所述距离满足预设接近条件的模型参数包括：

获取预设的剪枝比例；

针对每一层的模型参数，按照所述距离对所述模型参数进行排序；

按照排序，从同一层的模型参数中，选取满足所述剪枝比例的模型参数；

将选取的所述模型参数剪除。

5.根据权利要求4所述的方法，其特征在于，所述将选取的所述模型参数剪除包括：

将选取的所述模型参数对应的调整系数置为零；

将每一层的模型参数分别与对应的调整系数相乘，得到剪除模型参数后的机器学习模型。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述确定所述机器学习模型的每一层中模型参数的概率分布的集合包括：

获取所述机器学习模型的每一层所对应的模型参数矩阵；

根据每一层的所述模型参数矩阵，构造相应的代价矩阵；

根据每一层的所述代价矩阵中的每一列元素，确定每一层中各模型参数的概率分布。

7.根据权利要求6所述的方法，其特征在于，所述确定所述集合中的概率分布的重心包括：

分别根据所述集合中各概率分布，确定传输矩阵；

根据所述代价矩阵和所述传输矩阵，确定重心函数；

通过所述重心函数，迭代地求取最优传输矩阵，并根据所述最优传输矩阵，确定所述集合中的概率分布的重心；所述重心到各所述概率分布之间的距离之和最小。

8.根据权利要求7所述的方法，其特征在于，所述根据所述代价矩阵和所述传输矩阵，确定重心函数包括：

按照以下公式确定重心函数：

其中，q*为最优解的重心；P＝{p₁,p₂,…，p_k}为同层模型参数的k个概率分布的集合；k即为模型参数的数量；p_k为第k个概率分布；λ为距离权重；λ_k为第k个概率分布对应的距离权重，Q是概率分布所在的概率空间；C为代价矩阵；Γ为传输矩阵；s.t.表示约束条件；Γ^T表示传输矩阵的转置矩阵；1表示单位向量；q为待求解的重心；argmin为argmin()函数。

9.一种机器学习模型压缩装置，其特征在于，所述装置包括：

重心确定模块，用于确定所述集合中的概率分布的重心；

10.根据权利要求9所述的装置，其特征在于，所述模型确定模块还用于获取当前轮训练前的初始机器学习模型；根据训练样本，基于所述初始机器学习模型进行当前轮的机器学习训练，得到当前轮训练后的机器学习模型。

11.根据权利要求10所述的装置，其特征在于，所述模型确定模块还用于将所述剪枝模块剪除模型参数后的机器学习模型作为当前轮训练前的初始机器学习模型，返回根据训练样本，基于所述初始机器学习模型进行当前轮的机器学习训练的步骤以继续执行，直至达到迭代停止条件。

12.根据权利要求9至11中任一项所述的装置，其特征在于，所述剪枝模块还用于获取预设的剪枝比例；针对每一层的模型参数，按照所述距离，对所述模型参数进行排序；按照排序，从同一层的模型参数中，选取满足所述剪枝比例的模型参数；将选取的所述模型参数剪除。

13.根据权利要求12所述的装置，其特征在于，所述剪枝模块还用于将选取的所述模型参数对应的调整系数置为零；将每一层的模型参数分别与对应的调整系数相乘，得到剪除模型参数后的机器学习模型。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。