CN110008880B

CN110008880B - 一种模型压缩方法及装置

Info

Publication number: CN110008880B
Application number: CN201910239985.6A
Authority: CN
Inventors: 吴泽衡; 徐倩; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2023-09-29
Anticipated expiration: 2039-03-27
Also published as: CN110008880A

Abstract

本发明实施例公开了一种模型压缩方法及装置，其中方法包括：使用第一模型对预测数据进行预测，得到第一模型在N个网络层中的输出以及预测数据对应的预测结果，使用预测数据和预测数据对应的预测结果训练第二模型，得到第二模型在N个网络层中的输出，根据i个网络层中第二模型相对于第一模型的输出损失调整第二模型的参数，得到对第一模型进行压缩之后的目标模型。本发明实施例中，通过采用第一模型的预测结果训练第二模型，并基于预设网络层中第二模型相对于第一模型的输出损失调整第二模型的参数，可以使得压缩之后的目标模型更好地复现第一模型的内容，从而可以提高目标模型的预测效果。

Description

一种模型压缩方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种模型压缩方法及装置。

背景技术

在深度学习技术领域中，用户可以通过训练模型得到预测效果较好的深度学习网络模型，然而，预测效果较好的深度学习网络模型通常具有较为复杂的网络结构，从而占据较大的存储空间。相应地，在使用深度学习网络模型对待预测数据进行预测时，由于深度学习网络模型的结构较为复杂，可能会造成计算资源的浪费，使得预测的效率较差。

为了解决这个问题，通常可以对结构较为复杂的深度网络模型进行压缩，得到网络结构相对简单、预测性能较好的深度学习网络模型。知识萃取为一种常用的模型压缩方式，在该方式中，用户可以分别设计多个教师模型和一个学生模型，教师模型的网络结构较为复杂，学生模型的网络结构较为简单，通过使用多个教师模型的输出结果训练学生模型，可以使得学生模型萃取到多个教师模型的知识，提高学生模型的预测效果。然而，在该方式中，多个教师模型对学生模型的指导过程局限于训练数据(即教师模型的输出结果)，而多个教师模型本身的结构特征并未被学生模型所萃取。因此，采用该种方式压缩得到的学生模型的预测效果无法满足要求。

综上，目前亟需一种模型压缩方法，用以提高压缩得到的模型(比如学生模型)的预测效果。

发明内容

本发明实施例提供一种模型压缩方法及装置，用以提高压缩得到的模型(比如学生模型)的预测效果。

第一方面，本发明实施例提供的一种模型压缩方法，所述方法包括：

使用第一模型对预测数据进行预测，得到所述第一模型分别在所述第一模型的N个网络层中的输出以及所述预测数据对应的预测结果，并使用所述预测数据和预测数据对应的预测结果训练第二模型，得到所述第二模型分别在所述第二模型的N个网络层中的输出；所述第二模型是通过对所述第一模型进行剪枝得到的，所述第二模型的N个网络层与所述第一模型的N个网络层一一对应；进一步地，根据所述第二模型在第二模型的i个网络层中的输出和所述第一模型在所述第一模型的i个网络层中的输出调整所述第二模型的参数，得到对所述第一模型进行压缩之后的目标模型。

上述技术方案中，一方面，通过采用第一模型的预测结果训练第二模型，可以使得第二模型更好地学习到第一模型的输出数据特征，提高第二模型对预测数据的预测能力；另一方面，通过基于预设网络层中第二模型相对于第一模型的输出损失调整第二模型的参数，可以使得第二模型更好地学习到第一模型的预设网络层上的特征，从而使得第二模型在预设网络层上复现第一模型的能力。也就是说，上述技术方案可以使得压缩之后的目标模型更好地复现第一模型的内容，相对于现有技术的方式来说，可以提高目标模型的预测效果。

可选地，所述第一模型的N个网络层包括第x网络层和第y网络层，所述第x网络层的N个节点与所述第y网络层的M个节点连接；所述第二模型是通过对所述第一模型进行剪枝得到的，包括：对所述第x网络层的T个节点与所述第y网络层的R个节点的连接关系进行剪枝，得到第二模型；所述第二模型的第x网络层中包括N个节点，所述第二模型的第y网络层中包括M个节点。

上述技术方案中，通过对第一模型所包括的节点的连接关系进行剪枝得到第二模型，可以使得第二模型的网络层中所包括的节点与第一模型的对应网络层中所包括的节点相同，即可以保证第二模型在每一个网络层的特征表示维度与第一模型的每一个网络层的特征表示维度相同，使得第二模型更好地萃取到第一模型的知识。

可选地，所述根据所述第二模型在第二模型的i个网络层中的输出和所述第一模型在所述第一模型的i个网络层中的输出调整所述第二模型的参数，包括：根据所述第二模型在第二模型的i个网络层中的输出和所述第一模型在所述第一模型的i个网络层中的输出，确定i个网络层中所述第二模型相对于所述第一模型的输出损失；所述i个网络层中包括第t网络层，若所述t小于所述N，则根据所述第t网络层中所述第二模型相对于所述第一模型的输出损失调整所述第二模型的第1～第t网络层的参数；若所述t等于所述N，则根据第1～第N网络层中所述第二模型相对于所述第一模型的总输出损失调整所述第二模型的第1～第N网络层的参数。

上述技术方案中，通过使用第t网络层中的第二模型相对于第一模型的输出损失调整第二模型的第1～第t网络层的参数，可以使得第二模型可以根据第一模型的预测过程逐步调整第二模型的参数，使得第二模型更好地萃取第一模型的内容；也就是说，采用上述技术方案，可以使得第二模型中每个网络层的特征表示和输出信息与第一模型中每个网络层的特征表示和输出信息实现一致，从而可以提高第二模型的预测效果。

可选地，所述第t网络层中所述第二模型相对于所述第一模型的输出损失满足如下条件：L为所述第t网络层中所述第二模型相对于所述第一模型的输出损失，u为所述第t网络层中的节点的数量，h_i为所述第一模型在所述第一模型的第t网络层中包括的第i节点的输出，p_i为所述第二模型在所述第二模型的第t网络层中包括的第i节点的输出；所述第1～第N网络层中所述第二模型相对于所述第一模型的总输出损失满足如下条件：/>其中，L为所述第1～第N网络层中所述第二模型相对于所述第一模型的总输出损失，α为第一校正值，β为第二校正值，L_N为所述第N网络层中所述第二模型相对于所述第一模型的输出损失，L_j为所述第j网络层中所述第二模型相对于所述第一模型的输出损失。

第二方面，本发明实施例提供的一种模型压缩装置，所述装置包括：

预测模块，用于使用第一模型对预测数据进行预测，得到所述第一模型分别在所述第一模型的N个网络层中的输出以及所述预测数据对应的预测结果；

训练模块，用于使用所述预测数据和预测数据对应的预测结果训练第二模型，得到所述第二模型分别在所述第二模型的N个网络层中的输出；所述第二模型是通过对所述第一模型进行剪枝得到的，所述第二模型的N个网络层与所述第一模型的N个网络层一一对应；

处理模块，用于根据所述第二模型在第二模型的i个网络层中的输出和所述第一模型在所述第一模型的i个网络层中的输出调整所述第二模型的参数，得到对所述第一模型进行压缩之后的目标模型。

可选地，所述第一模型的N个网络层包括第x网络层和第y网络层，所述第x网络层的N个节点与所述第y网络层的M个节点连接；所述训练模块用于：对所述第x网络层的T个节点与所述第y网络层的R个节点的连接关系进行剪枝，得到第二模型；所述第二模型的第x网络层中包括N个节点，所述第二模型的第y网络层中包括M个节点。

可选地，所述处理模块用于：根据所述第二模型在第二模型的i个网络层中的输出和所述第一模型在所述第一模型的i个网络层中的输出，确定i个网络层中所述第二模型相对于所述第一模型的输出损失；所述i个网络层中包括第t网络层，若所述t小于所述N，则根据所述第t网络层中所述第二模型相对于所述第一模型的输出损失调整所述第二模型的第1～第t网络层的参数；若所述t等于所述N，则根据第1～第N网络层中所述第二模型相对于所述第一模型的总输出损失调整所述第二模型的第1～第N网络层的参数。

第三方面，本发明实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述第一方面或第二方面所述的模型压缩方法。

第四方面，本发明实施例还提供了一种计算机程序产品，当其在计算机上运行时，使得计算机执行如上述第一方面或第二方面所述的模型压缩方法。

本申请的这些方面(即第一～第四方面)或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种模型压缩方法对应的流程示意图；

图2为本发明实施例提供的一种对第一模型进行压缩的示意图；

图3为本发明实施例提供的一种模型压缩装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种模型压缩方法对应的流程示意图，该方法包括：

步骤101，使用第一模型对预测数据进行预测，得到第一模型分别在第一模型的N个网络层中的输出以及预测数据对应的预测结果。

具体实施中，可以预先获取训练数据，并使用训练数据对模型进行训练，得到第一模型。其中，训练数据可以为图像数据，或者也可以为文字数据，或者还可以为日志数据，具体不作限定。

以图像数据为例，训练数据可以包括多个图像和多个图像分别对应的标签，在具体实施中，可以将多个图像和多个图像分别对应的标签同时输入模型训练系统，通过对每个标签所包括的一个或多个图像进行分析，可以确定每个标签对应的图像的特征，从而可以基于多个标签对应的图像的特征确定第一模型的参数。

在一个示例中，训练数据可以存储在预设表格中，表1为一种预设表格存储的训练数据的示意表。

表1：一种预设表格存储的训练数据的示意

如表1所示，预设表格中可以存储有5条训练数据，每条训练数据均可以包括一幅图像和该幅图像对应的标签。第一条训练数据可以包括图像a₁，图像a₁对应的标签(即类别)可以为羊；第二条训练数据可以包括图像a₂，图像a₂对应的标签(即类别)可以为猪；第三条训练数据可以包括图像a₃，图像a₃对应的标签(即类别)可以为猪；第四条训练数据可以包括图像a₄，图像a₄对应的标签(即类别)可以为羊；第五条训练数据可以包括图像a₅，图像a₅对应的标签(即类别)可以为羊。

需要说明的是，表1仅是一种示例性的简单说明，其所列举的5条训练数据仅是为了便于说明方案，并不构成对方案的限定。在具体实施中，预设表格中的训练数据也可以包括其它类型，比如可以同时包括图像数据和文字数据，或者可以同时包括文字数据和日志数据，或者还可以同时包括图像数据、文字数据和日志数据，具体不作限定。

具体实施中，在将5个图像和5个图像分别对应的标签输入模型训练系统后，可以根据5个图像分别对应的标签将5个图像划分为两类训练数据，第一类训练数据可以包括图像a₁、图像a₃和图像a₅，第二类训练数据可以包括图像a₂和图像a₄。通过对第一类训练数据进行训练，可以得到标签羊对应的特征，通过对第二类训练数据进行训练，可以得到标签猪对应的特征，通过对第一类训练数据和第二类训练数据进行训练，可以得到标签羊和标签猪的区别特征。

相应地，使用训练数据训练得到的第一模型中可以包括标签羊的特征对应的参数和标签猪的特征对应的参数，若使用第一模型对待预测图像进行预测，则可以得到待预测图像分别对应为标签羊和标签猪的概率，即第一模型的输出可以包括两个子部分，第一个子部分可以为待预测图像对应的标签为羊的预测分值，第二个子部分可以为待预测图像对应的标签为猪的预测分值。其中，预测分值可以由本领域技术人员根据实际需要进行设置，比如可以为概率，具体不作限定。

本发明实施例中，预测数据可以为训练数据，或者也可以为待预测数据，若预测数据为训练数据，则可以根据训练数据的预测结果对第一模型进行压缩，若预测数据为待预测数据，则可以根据待预测数据的预测结果对第一模型进行压缩。本发明的下列实施例中以预测数据为训练数据为例进行描述。

具体实施中，在使用训练数据(比如表1所示的图像a₁～图像a₅)训练得到第一模型后，可以使用第一模型对图像a₁～图像a₅进行预测，分别得到图像a₁～图像a₅对应为标签羊和标签猪的预测分值。在一个示例中，表2为使用第一模型对图像a₁～图像a₅进行预测得到的预测结果示意表。

表2：一种使用第一模型预测训练数据得到的预测结果示意

如表2所示，每个训练数据的预测结果可以包括每个训练数据对应为每个标签的预测分值，此处，预测分值可以为概率。举例来说，第一条训练数据为图像a₁，图像a₁对应的标签为羊的概率可以为60％，图像a₁对应的标签为猪的概率可以为40％；第三条训练数据为图像a₂，图像a₂对应的标签为羊的概率可以为20％，图像a₂对应的标签为猪的概率可以为80％。

本发明实施例中，使用第一模型对训练数据进行预测时，还可以得到第一模型分别在第一模型的N个网络层中的输出。具体地说，第一模型的模型结构中可以包括N个网络层，N个网络层的结构可以相同，或者也可以不同；若N个网络层的结构相同，则N个网络层可以均为卷积层，或者也可以均为池化层，或者还可以均为激活层；若N个网络层的结构不同，则N个网络层可以包括卷积层和池化层，或者也可以包括池化层和激活层，或者还可以包括卷积层、层和激活层，具体不作限定。

举例说明，图2为本发明实施例提供的一种对第一模型进行压缩的示意图。如图2所示，第一模型100中可以包括第一网络层、第二网络层和第三网络层(图2中未进行示意)，第一网络层中可以包括节点111、节点112、节点113和节点114，第二网络层中可以包括节点121、节点122、节点123、节点124和节点125，第三网络层中可以包括节点131、节点132、节点133和节点134。基于图2所示意的第一模型的结构，在使用第一模型100对训练数据进行预测时，可以分别得到第一模型100在第一网络层中的输出、第一模型100在第二网络层中的输出、第一模型100在第三网络层中的输出；其中，第一模型100在网络层中的输出可以包括网络层中的各个节点的输出。以第一网络层为例，第一模型100在第一网络层中的输出可以包括节点111的输出、节点112的输出、节点113的输出和节点114的输出。

步骤102，使用预测数据和预测数据对应的预测结果训练第二模型，得到第二模型分别在第二模型的N个网络层中的输出。

在一种可能的实现方式中，第二模型可以为通过对第一模型进行剪枝得到的模型，第二模型的N个网络层与第一模型的N个网络层可以一一对应，其中，剪枝可以是指对第一模型包括的N个网络层的节点连接关系进行剪枝。节点连接关系可以是指不同网络层的节点之间的连接关系，如图2所示，第一模型100的第一网络层与第二网络层之间可以包括如下多条节点连接关系：节点111与节点121可以通过连接关系v₁₁连接，节点111与节点122可以通过连接关系v₁₂连接，节点111与节点123可以通过连接关系v₁₃连接，节点111与节点125可以通过连接关系v₁₄连接，节点112与节点122可以通过连接关系v₁₅连接，节点112与节点124可以通过连接关系v₁₆连接，节点113与节点123可以通过连接关系v₁₇连接，节点113与节点124可以通过连接关系v₁₈连接，节点114与节点125可以通过连接关系v₁₉连接。相应地，第一模型100的第二网络层与第三网络层之间可以包括如下多条节点连接关系：节点121与节点132可以通过连接关系v₂₁连接，节点122与节点131可以通过连接关系v₂₂连接，节点122与节点132可以通过连接关系v₂₃连接，节点123与节点132可以通过连接关系v₂₄连接，节点123与节点133可以通过连接关系v₂₅连接，节点123与节点134可以通过连接关系v₂₆连接，节点124与节点133可以通过连接关系v₂₇连接，节点125与节点134可以通过连接关系v₂₈连接。

如图2所示，具体实施中，针对于第一网络层和第二网络层之间的节点，可以对节点111与节点122之间的连接关系v₁₂、节点111与节点123之间的连接关系v₁₃和节点112与节点124之间的连接关系v₁₆进行剪枝；针对于第二网络层和第三网络层之间的节点，可以将节点123与节点132之间的连接关系v₂₄和节点123与节点133之间的连接关系v₂₅进行剪枝，得到第二模型200。其中，第二模型200中可以包括第一网络层、第二网络层和第三网络层，第一网络层可以包括节点111、节点112、节点113和节点114，第二网络层中可以包括节点121、节点122、节点123、节点124和节点125，第三网络层中可以包括节点131、节点132、节点133和节点134。第二模型200的第一网络层与第二网络层之间可以包括如下多条节点连接关系：节点111与节点121可以通过连接关系v₁₁连接，节点111与节点125可以通过连接关系v₁₄连接，节点112与节点122可以通过连接关系v₁₅连接，节点113与节点123可以通过连接关系v₁₇连接，节点113与节点124可以通过连接关系v₁₈连接，节点114与节点125可以通过连接关系v₁₉连接；相应地，第二模型100的第二网络层与第三网络层之间可以包括如下多条节点连接关系：节点121与节点132可以通过连接关系v₂₁连接，节点122与节点131可以通过连接关系v₂₂连接，节点122与节点132可以通过连接关系v₂₃连接，节点123与节点134可以通过连接关系v₂₆连接，节点124与节点133可以通过连接关系v₂₇连接，节点125与节点134可以通过连接关系v₂₈连接。

本发明实施例中，通过对第一模型所包括的节点的连接关系进行剪枝得到第二模型，可以使得第二模型的网络层中所包括的节点与第一模型的对应网络层中所包括的节点相同，即可以保证第二模型在每一个网络层的特征表示维度与第一模型的每一个网络层的特征表示维度相同，使得第二模型更好地萃取到第一模型的知识。

进一步地，可以使用训练数据和第一模型预测训练数据得到的预测结果训练第二模型，比如，可以将表2所包括的图像a₁～图像a₅、图像a₁～图像a₅分别对应为标签羊和标签猪的预测分值作为第二模型的输入，对第二模型中的参数进行训练。同时，在对第二模型训练的过程中，还可以获取第二模型所包括的多个应用层的输出。基于图2所示意的第二模型的结构，在对第二模型200进行训练时，可以分别得到第二模型200在第一网络层中的输出、第二模型200在第二网络层中的输出、第二模型200在第三网络层中的输出；其中，第二模型100在网络层中的输出可以包括网络层中的各个节点的输出。以第一网络层为例，第一模型100在第一网络层中的输出可以包括节点111的输出、节点112的输出、节点113的输出和节点114的输出。由于第二模型200中每个网络层的节点与第一模型100中每个网络层的节点相同，因此，第二模型200得到的每个网络层的输出数量与第一模型100中每个网络层的输出数量相同。

步骤103，根据第一模型中至少一个网络层的输出与第二模型中至少一个网络层的输出调整第二模型的参数，得到对第一模型进行压缩之后的目标模型。

具体实施中，可以根据第一模型中至少一个网络层的输出与第二模型中至少一个网络层的输出确定至少一个网络层中第二模型相对于第一模型的输出损失，并可以根据该输出损失调整第二模型的参数。其中，至少一个网络层可以为一个网络层，比如第一网络层，或者也可以为多个网络层，比如第一网络层和第二网络层，具体不作限定。

每个网络层中第二模型相对于第一模型的输出损失可以为：

其中，L可以为第t网络层中第二模型相对于第一模型的输出损失，u可以为第t网络层中的节点的数量，h_i可以为第一模型在第t网络层中包括的第i节点的输出，p_i可以为第二模型在第t网络层中包括的第i节点的输出。

在一种可能的实现方式中，可以采用逐层指导的方式调整第二模型的每一个网络层的参数。具体地说，若t小于N，则可以根据第t网络层中第二模型相对于第一模型的输出损失调整第二模型的第1～第t网络层的参数；若t等于N，则可以根据第1～第N网络层中第二模型相对于第一模型的总输出损失调整第二模型的第1～第N网络层的参数。

本发明实施例中，通过使用第二模型相对于第一模型的输出损失调整第二模型的第1～第N网络层的参数，可以使得第二模型可以根据第一模型的预测过程逐步调整第二模型的参数，使得第二模型更好地萃取第一模型的内容；也就是说，采用本发明实施例中的方案，可以使得第二模型中每个网络层的特征表示和输出信息与第一模型中每个网络层的特征表示和输出信息实现一致，从而可以提高第二模型的预测效果。

举例说明，基于图2所示意的第一模型100和第二模型200，第一模型100在第一网络层中的输出可以包括节点111在第一模型100的第一网络层中的输出h₁₁₁、节点112在第一模型100的第一网络层中的输出h₁₁₂、节点113在第一模型100的第一网络层中的输出h₁₁₃和节点114在第一模型100的第一网络层中的输出h₁₁₄，第二模型200在第一网络层中的输出可以包括节点111在第二模型200的第一网络层中的输出p₁₁₁、节点112在第二模型200的第一网络层中的输出p₁₁₂、节点113在第二模型200的第一网络层中的输出p₁₁₃和节点114在第二模型200的第一网络层中的输出p₁₁₄；因此，第一网络层中第二模型相对于第一模型的输出损失L₁可以为：

L₁＝(h₁₁₁-p₁₁₁)²+(h₁₁₂-p₁₁₂)²+(h₁₁₃-p₁₁₃)²+(h₁₁₄-p₁₁₄)²

在确定第一网络层中第二模型200相对于第一模型100的输出损失L₁后，可以根据输出损失L₁调整第二模型200的第一网络层的参数。

相应地，第二网络层中第二模型200相对于第一模型100的输出损失L₂可以为：

L₁＝(h₁₂₁-p₁₂₁)²+(h₁₂₂-p₁₂₂)²+(h₁₂₃-p₁₂₃)²+(h₁₂₄-p₁₂₄)²+(h₁₂₅-p₁₂₅)²

在确定第二网络层中第二模型200相对于第一模型100的输出损失L₂后，可以根据输出损失L₂调整第二模型200的第二网络层的参数。

相应地，第三网络层中第二模型200相对于第一模型100的输出损失L₃可以为：

L₁＝(h₁₃₁-p₁₃₁)²+(h₁₃₂-p₁₃₂)²+(h₁₃₃-p₁₃₃)²+(h₁₃₄-p₁₃₄)²

在一个示例中，在确定第三网络层中第二模型200相对于第一模型100的输出损失L₃后，可以根据输出损失L₃调整第二模型的第一网络层、第二网络层和第三网络层的参数。

在另一个示例中，可以在确定第一网络层、第二网络层和第三网络层中第二模型200分别相对于第一模型100的输出损失L₁、输出损失L₂和输出损失L₃后，确定第二模型相对于第一模型的总输出损失L，并可以根据总输出损失L调整第二模型200的第一网络层、第二网络层和第三网络层的参数。其中，总输出损失L可以满足如下条件：

其中，α可以为第一校正值，β可以为第二校正值。第一校正值和第二校正值可以由本领域技术人员根据经验进行设置，或者也可以由实验确定，具体不作限定。

本发明的上述实施例中，使用第一模型对预测数据进行预测，得到第一模型分别在第一模型的N个网络层中的输出以及预测数据对应的预测结果，并使用预测数据和预测数据对应的预测结果训练第二模型，得到第二模型分别在第二模型的N个网络层中的输出；进一步地，根据第二模型在第二模型的i个网络层中的输出和第一模型在第一模型的i个网络层中的输出，确定第二模型的i个网络层中第二模型相对于第一模型的输出损失，并根据第二模型的i个网络层中第二模型在相对于第一模型的输出损失调整第二模型的参数，得到对第一模型进行压缩之后的目标模型。本发明实施例中，通过采用第一模型的预测结果训练第二模型，可以使得第二模型更好地学习到第一模型的输出数据特征，提高第二模型对预测数据的预测能力；且，通过基于预设网络层中第二模型相对于第一模型的输出损失调整第二模型的参数，可以使得第二模型更好地学习到第一模型的预设网络层上的特征，使得第二模型在预设网络层上复现第一模型的能力；也就是说，本发明实施例可以使得压缩之后的目标模型更好地复现第一模型的内容，相对于现有技术的方式来说，可以提高目标模型的预测效果。

针对上述方法流程，本发明实施例还提供一种模型压缩装置，该装置的具体内容可以参照上述方法实施。

图3为本发明实施例提供的一种模型压缩装置的结构示意图，包括：

预测模块301，用于使用第一模型对预测数据进行预测，得到所述第一模型分别在所述第一模型的N个网络层中的输出以及所述预测数据对应的预测结果；

训练模块302，用于使用所述预测数据和预测数据对应的预测结果训练第二模型，得到所述第二模型分别在所述第二模型的N个网络层中的输出；所述第二模型是通过对所述第一模型进行剪枝得到的，所述第二模型的N个网络层与所述第一模型的N个网络层一一对应；

处理模块303，用于根据所述第二模型在第二模型的i个网络层中的输出和所述第一模型在所述第一模型的i个网络层中的输出调整所述第二模型的参数，得到对所述第一模型进行压缩之后的目标模型。

可选地，所述第一模型的N个网络层包括第x网络层和第y网络层，所述第x网络层的N个节点与所述第y网络层的M个节点连接；

所述训练模块302用于：

对所述第x网络层的T个节点与所述第y网络层的R个节点的连接关系进行剪枝，得到第二模型；所述第二模型的第x网络层中包括N个节点，所述第二模型的第y网络层中包括M个节点。

可选地，所述处理模块303用于：

根据所述第二模型在第二模型的i个网络层中的输出和所述第一模型在所述第一模型的i个网络层中的输出，确定i个网络层中所述第二模型相对于所述第一模型的输出损失；

所述i个网络层中包括第t网络层，若所述t小于所述N，则根据所述第t网络层中所述第二模型相对于所述第一模型的输出损失调整所述第二模型的第1～第t网络层的参数；若所述t等于所述N，则根据第1～第N网络层中所述第二模型相对于所述第一模型的总输出损失调整所述第二模型的第1～第N网络层的参数。

可选地，所述第t网络层中所述第二模型相对于所述第一模型的输出损失满足如下条件：

L为所述第t网络层中所述第二模型相对于所述第一模型的输出损失，u为所述第t网络层中的节点的数量，h_i为所述第一模型在所述第一模型的第t网络层中包括的第i节点的输出，p_i为所述第二模型在所述第二模型的第t网络层中包括的第i节点的输出；

所述第1～第N网络层中所述第二模型相对于所述第一模型的总输出损失满足如下条件：

其中，L为所述第1～第N网络层中所述第二模型相对于所述第一模型的总输出损失，α为第一校正值，β为第二校正值，L_N为所述第N网络层中所述第二模型相对于所述第一模型的输出损失，L_j为所述第j网络层中所述第二模型相对于所述第一模型的输出损失。

从上述内容可以看出：本发明的上述实施例中，使用第一模型对预测数据进行预测，得到第一模型分别在第一模型的N个网络层中的输出以及预测数据对应的预测结果，并使用预测数据和预测数据对应的预测结果训练第二模型，得到第二模型分别在第二模型的N个网络层中的输出；进一步地，根据第二模型在第二模型的i个网络层中的输出和第一模型在第一模型的i个网络层中的输出，确定第二模型的i个网络层中第二模型相对于第一模型的输出损失，并根据第二模型的i个网络层中第二模型在相对于第一模型的输出损失调整第二模型的参数，得到对第一模型进行压缩之后的目标模型。本发明实施例中，通过采用第一模型的预测结果训练第二模型，可以使得第二模型更好地学习到第一模型的输出数据特征，提高第二模型对预测数据的预测能力；且，通过基于预设网络层中第二模型相对于第一模型的输出损失调整第二模型的参数，可以使得第二模型更好地学习到第一模型的预设网络层上的特征，使得第二模型在预设网络层上复现第一模型的能力；也就是说，本发明实施例可以使得压缩之后的目标模型更好地复现第一模型的内容，相对于现有技术的方式来说，可以提高目标模型的预测效果。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如图1所述的模型压缩方法。

基于同一发明构思，本发明实施例还提供了一种计算机程序产品，其特征在于，当其在计算机上运行时，使得计算机执行如图1所述的模型压缩方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种模型压缩方法，其特征在于，所述方法包括：

使用训练数据训练第一模型，所述训练数据包括图像数据、文字数据或日志数据；

使用所述第一模型对预测数据进行预测，得到所述第一模型分别在所述第一模型的N个网络层中的输出以及所述预测数据对应的预测结果；

通过对所述第一模型包括的N个网络层的节点连接关系进行剪枝得到第二模型，使得所述第二模型的N个网络层与所述第一模型的N个网络层一一对应，并使用所述预测数据和所述预测数据对应的预测结果训练所述第二模型，得到所述第二模型分别在所述第二模型的N个网络层中的输出；

根据所述第二模型在第二模型的i个网络层中的输出和所述第一模型在所述第一模型的i个网络层中的输出，确定所述i个网络层中所述第二模型相对于所述第一模型的输出损失；

所述i个网络层中包括第t网络层，若所述t小于所述N，则根据所述第t网络层中所述第二模型相对于所述第一模型的输出损失调整所述第二模型的第1～第t网络层的参数；若所述t等于所述N，则根据第1～第N网络层中所述第二模型相对于所述第一模型的总输出损失调整所述第二模型的第1～第N网络层的参数；

将调整参数后的第二模型确定为对所述第一模型进行压缩之后的目标模型。

2.根据权利要求1所述的方法，其特征在于，所述第一模型的N个网络层包括第x网络层和第y网络层，所述第x网络层的N个节点与所述第y网络层的M个节点连接；

所述通过对所述第一模型包括的N个网络层的节点连接关系进行剪枝得到第二模型，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述第t网络层中所述第二模型相对于所述第一模型的输出损失满足如下条件：

其中，L为所述第1～第N网络层中所述第二模型相对于所述第一模型的总输出损失，α为第一校正值，β为第二校正值，L_N为所述第N网络层中所述第二模型相对于所述第一模型的输出损失，L_j为第j网络层中所述第二模型相对于所述第一模型的输出损失。

4.一种模型压缩装置，其特征在于，所述装置包括：

训练模块，用于使用训练数据训练第一模型，所述训练数据包括图像数据、文字数据或日志数据；

预测模块，用于使用所述第一模型对预测数据进行预测，得到所述第一模型分别在所述第一模型的N个网络层中的输出以及所述预测数据对应的预测结果；

训练模块，还用于通过对所述第一模型的节点连接关系进行剪枝得到第二模型，使得所述第二模型的N个网络层与所述第一模型的N个网络层一一对应，并使用所述预测数据和所述预测数据对应的预测结果训练所述第二模型，得到所述第二模型分别在所述第二模型的N个网络层中的输出；

处理模块，用于根据所述第二模型在第二模型的i个网络层中的输出和所述第一模型在所述第一模型的i个网络层中的输出，确定所述i个网络层中所述第二模型相对于所述第一模型的输出损失，所述i个网络层中包括第t网络层，若所述t小于所述N，则根据所述第t网络层中所述第二模型相对于所述第一模型的输出损失调整所述第二模型的第1～第t网络层的参数；若所述t等于所述N，则根据第1～第N网络层中所述第二模型相对于所述第一模型的总输出损失调整所述第二模型的第1～第N网络层的参数；将调整参数后的第二模型确定为对所述第一模型进行压缩之后的目标模型。

5.根据权利要求4所述的装置，其特征在于，所述第一模型的N个网络层包括第x网络层和第y网络层，所述第x网络层的N个节点与所述第y网络层的M个节点连接；

所述训练模块用于：

6.根据权利要求4或5所述的装置，其特征在于，所述第t网络层中所述第二模型相对于所述第一模型的输出损失满足如下条件：

7.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至3任一项所述的方法。