CN114881227A

CN114881227A - 模型压缩方法、图像处理方法、装置和电子设备

Info

Publication number: CN114881227A
Application number: CN202210520999.7A
Authority: CN
Inventors: 陈毅; 徐杨柳; 谢群义; 钦夏孟; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-08-09
Anticipated expiration: 2042-05-13
Also published as: CN114881227B

Abstract

本公开提供了一种模型压缩方法、图像处理方法、装置和电子设备，涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为：基于第一训练样本对初始模型进行训练，得到训练后的第一目标模型，第一目标模型包括N个第一网络层和M个第二网络层；对N个第一网络层进行剪枝，得到N个第三网络层；将第i个第三网络层对应的第i个第一网络层作为老师层，基于第一目标模型对应的第二训练样本，对第i个第三网络层进行蒸馏学习，得到第i个第四网络层；根据N个第四网络层和M个第二网络层，生成第二目标模型。由此，可对第一网络层分别进行剪枝，并对第三网络层分别进行蒸馏学习，提升了模型压缩的性能。

Description

模型压缩方法、图像处理方法、装置和电子设备

技术领域

本公开涉及计算机技术领域，尤其涉及一种模型压缩方法、图像处理方法、装置、电子设备、存储介质和计算机程序产品。

背景技术

目前，随着人工智能技术的不断发展，模型在图像、文本、语音等领域得到了广泛应用，具有自动化程度高、人工成本低等优点。为了满足模型预测需求，模型体积往往较大，可通过压缩模型减小模型体积。然而，相关技术中的模型压缩方法，存在模型压缩性能低的问题。

发明内容

本公开提供了一种模型压缩方法、图像处理方法、装置、电子设备、存储介质和计算机程序产品。

根据本公开的一方面，提供了一种模型压缩方法，包括：基于第一训练样本对初始模型进行训练，得到训练后的第一目标模型，所述第一目标模型包括N个第一网络层和M个第二网络层，其中，N、M为正整数；对N个所述第一网络层进行剪枝，得到N个第三网络层；将第i个第三网络层对应的第i个第一网络层作为老师层，基于所述第一目标模型对应的第二训练样本，对所述第i个第三网络层进行蒸馏学习，得到第i个第四网络层，其中，1≤i≤N，i为正整数；根据N个所述第四网络层和M个所述第二网络层，生成所述第一目标模型压缩后的第二目标模型。

根据本公开的另一方面，提供了一种图像处理方法，包括：获取待处理图像；将所述待处理图像输入第一目标图像模型压缩后的第二目标图像模型中，由所述第二目标图像模型输出所述待处理图像的处理结果，其中，所述第二目标图像模型采用模型压缩方法得到。

根据本公开的另一方面，提供了一种模型压缩装置，包括：训练模块，用于基于第一训练样本对初始模型进行训练，得到训练后的第一目标模型，所述第一目标模型包括N个第一网络层和M个第二网络层，其中，N、M为正整数；剪枝模块，用于对N个所述第一网络层进行剪枝，得到N个第三网络层；蒸馏模块，用于将第i个第三网络层对应的第i个第一网络层作为老师层，基于所述第一目标模型对应的第二训练样本，对所述第i个第三网络层进行蒸馏学习，得到第i个第四网络层，其中，1≤i≤N，i为正整数；生成模块，用于根据N个所述第四网络层和M个所述第二网络层，生成所述第一目标模型压缩后的第二目标模型。

根据本公开的另一方面，提供了一种图像处理装置，包括：获取模块，用于获取待处理图像；处理模块，用于将所述待处理图像输入第一目标图像模型压缩后的第二目标图像模型中，由所述第二目标图像模型输出所述待处理图像的处理结果，其中，所述第二目标图像模型采用模型压缩方法得到。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行模型压缩方法或者执行图像处理方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行模型压缩方法或者执行图像处理方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现模型压缩方法的步骤，或者实现图像处理方法的步骤。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的模型压缩方法的流程示意图；

图2是根据本公开第二实施例的模型压缩方法的流程示意图；

图3是根据本公开第三实施例的模型压缩方法的流程示意图；

图4是根据本公开第四实施例的模型压缩方法的流程示意图；

图5是根据本公开第一实施例的图像处理方法的流程示意图；

图6是根据本公开第一实施例的模型压缩装置的框图；

图7是根据本公开第一实施例的图像处理装置的框图；

图8是用来实现本公开实施例的模型压缩方法或者图像处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

AI(Artificial Intelligence，人工智能)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。目前，AI技术具有自动化程度高、精确度高、成本低的优点，得到了广泛的应用。

DL(Deep Learning，深度学习)是ML(Machine Learning，机器学习)领域中一个新的研究方向，是学习样本数据的内在规律和表示层次，使得机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据的一门科学，广泛应用于语音和图像识别。

图像处理(Image Processing)是指用计算机对图像进行分析，以达到所需结果的技术。图像处理一般指数字图像处理，数字图像是指用工业相机、摄像机、扫描仪等设备经过拍摄得到的一个大的二维数组，该数组的元素称为像素，其值称为灰度值。图像处理技术一般包括图像压缩，增强和复原，匹配、描述和识别3个部分。

计算机视觉(Computer Vision)是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉是一门综合性的学科，包括计算机科学和工程、信号处理、物理学、应用数学和统计学，神经生理学和认知科学等。

图1是根据本公开第一实施例的模型压缩方法的流程示意图。

如图1所示，本公开第一实施例的模型压缩方法，包括：

S101，基于第一训练样本对初始模型进行训练，得到训练后的第一目标模型，第一目标模型包括N个第一网络层和M个第二网络层，其中，N、M为正整数。

需要说明的是，本公开实施例的模型压缩方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地，执行主体可包括工作站、服务器，计算机、用户终端及其他智能设备。其中，用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

需要说明的是，N个第一网络层指的是需要进行剪枝的网络层，M个第二网络层指的是不需要进行剪枝的网络层。对N、M均不做过多限定，比如，N＝4，M＝2。

需要说明的是，对第一训练样本、初始模型、第一目标模型的类别均不做过多限定。比如，初始模型、第一目标模型均可包括深度学习模型，比如，DNN(Deep NeuralNetwork，深度神经网络)模型。

比如，模型为语音模型，语音模型包括但不限于语音识别模型、语音合成模型等。

比如，在模型为语音识别模型时，其中，模型包括初始模型、第一目标模型，第一训练样本包括第一样本语音和第一样本语音的参考识别文本。

比如，在模型为语音合成模型时，第一训练样本包括第一样本文本和第一样本文本的参考合成语音。

比如，模型为图像模型，图像模型包括但不限于动作识别模型、人脸识别模型、文本识别模型等。

比如，在模型为动作识别模型时，第一训练样本包括第一样本图像和第一样本图像的参考识别动作。

比如，在模型为人脸识别模型时，第一训练样本包括第一样本图像和第一样本图像的参考识别人脸结果。其中，参考识别人脸结果包括但不限于人脸位置、人脸宽度、人脸高度、人脸数量等。

比如，在模型为文本识别模型时，第一训练样本包括第一样本图像和第一样本图像的参考识别文本。

比如，模型为语言模型，语言模型包括但不限于文本分类模型、文本切分模型等。

比如，在模型为文本分类模型时，第一训练样本包括第一样本文本和第一样本文本的参考分类结果。其中，参考分类结果包括但不限于情感分类、主题分类等。

比如，在模型为文本切分模型时，第一训练样本包括第一样本文本和第一样本文本的参考切分结果。

S102，对N个第一网络层进行剪枝，得到N个第三网络层。

本公开的实施例中，第三网络层指的是对第一网络层进行剪枝得到的网络层。比如，对第i个第一网络层进行剪枝，得到第i个第三网络层，其中，1≤i≤N，i为正整数。可以理解的是，第一网络层和第三网络层一一对应。

需要说明的是，对第一网络层进行剪枝的具体方式不做过多限定。比如，可获取第i个第一网络层的每个网络参数对应的用于表征网络参数重要性的指标，基于指标从第i个第一网络层的网络参数中筛选出目标网络参数，并从第i个第一网络层中删除目标网络参数。可以理解的是，目标网络参数指的是重要性较低的网络参数。

S103，将第i个第三网络层对应的第i个第一网络层作为老师层，基于第一目标模型对应的第二训练样本，对第i个第三网络层进行蒸馏学习，得到第i个第四网络层，其中，1≤i≤N，i为正整数。

本公开的实施例中，第i个第四网络层指的是对第i个第三网络层进行蒸馏学习得到的网络层，且第i个第三网络层的老师层为第i个第一网络层。应说明的是，第i个第三网络层指的是对第i个第一网络层进行剪枝得到的网络层。第二训练样本的相关内容可参见上述实施例，这里不再赘述。可以理解的是，第一网络层、第三网络层、第四网络层之间一一对应。

需要说明的是，对第三网络层进行蒸馏学习的具体方式不做过多限定。比如，可基于第二训练样本，获取第i个第一网络层的参考输出和第i个第三网络层的实际输出，根据参考输出和实际输出，对第i个第三网络层进行训练，得到第i个第四网络层。

S104，根据N个第四网络层和M个第二网络层，生成第一目标模型压缩后的第二目标模型。

在一种实施方式中，根据N个第四网络层和M个第二网络层，生成第一目标模型压缩后的第二目标模型，可包括将N个第四网络层和M个第二网络层进行组合，生成第二目标模型。比如，可获取第一目标模型的N个第一网络层和M个第二网络层之间的组合方式，按照组合方式将N个第四网络层和M个第二网络层进行组合，生成第二目标模型。

比如，第一目标模型包括第一网络层A、第一网络层B、第二网络层C和第二网络层D，第一网络层A为第一目标模型的输入网络层，第一网络层B为第一网络层A的下一网络层，第二网络层C为第一网络层B的下一网络层，第二网络层D为第二网络层C的下一网络层。

第一网络层A、第一网络层B分别对应第四网络层E、第四网络层F，可将第四网络层E、第四网络层F、第二网络层C和第二网络层D进行组合，生成第二目标模型，第四网络层E为第二目标模型的输入网络层，第四网络层F为第四网络层E的下一网络层，第二网络层C为第四网络层F的下一网络层，第二网络层D为第二网络层C的下一网络层。

在一种实施方式中，根据N个第四网络层和M个第二网络层，生成第一目标模型压缩后的第二目标模型，可包括将第一目标模型中的第i个第一网络层替换为第i个第四网络层，将替换后的第一目标模型作为第二目标模型。其中，1≤i≤N，i为正整数。

第一网络层A、第一网络层B分别对应第四网络层E、第四网络层F，可将第一目标模型中的第一网络层A替换为第四网络层E，将第一目标模型中的第一网络层B替换为第四网络层F，将替换后的第一目标模型作为第二目标模型。

例如，用户终端上部署有第一目标图像模型，第一目标图像模型用于对图像进行图像处理，输出图像的处理结果。比如，第一目标图像模型用于对图像进行动作识别，输出动作识别结果，和/或，第一目标图像模型用于对图像进行人脸识别，输出人脸识别结果，和/或，第一目标图像模型用于对图像进行文本识别，输出文本识别结果。

第一目标图像模型包括N个第一网络层和M个第二网络层。可对N个第一网络层进行剪枝，得到N个第三网络层，对第i个第三网络层进行蒸馏学习，得到第i个第四网络层，根据N个第四网络层和M个第二网络层，生成第一目标图像模型压缩后的第二目标图像模型。由此，可对第一网络层分别进行剪枝，以及对第三网络层分别进行蒸馏学习，使得第四网络层体积小、精度高，提升了图像模型压缩的性能。

将用户终端上部署的第一目标图像模型替换为第二目标图像模型。可以理解的是，第二目标图像模型的体积、所需的计算资源均小于第一目标图像模型。由此，可减小图像模型在用户终端上占用的存储空间和计算资源，节省了用户终端的存储空间和计算资源。

综上，根据本公开实施例的模型压缩方法，可对第一网络层进行剪枝，得到第三网络层，并将第一网络层作为老师层，对第三网络层进行蒸馏学习，得到第四网络层，根据第四网络层和第二网络层，生成第二目标模型。由此，可对第一网络层分别进行剪枝，以及对第三网络层分别进行蒸馏学习，使得第四网络层体积小、精度高，提升了模型压缩的性能。

图2是根据本公开第二实施例的模型压缩方法的流程示意图。

如图2所示，本公开第二实施例的模型压缩方法，包括：

S201，基于第一训练样本对初始模型进行训练，得到训练后的第一目标模型。

步骤S201的相关内容可参见上述实施例，这里不再赘述。

S202，获取第一目标模型的总精度损失阈值。

需要说明的是，第一目标模型的总精度损失阈值可包括第一目标模型所允许的总精度损失最大值。对总精度损失阈值不做过多限定，比如，总精度损失阈值包括但不限于5％、1％等。

在一种实施方式中，可预先建立模型和总精度损失阈值之间的映射关系或者映射表，在获取到第一目标模型之后，查询上述映射关系或者映射表，可获取到第一目标模型映射的总精度损失阈值，作为第一目标模型的总精度损失阈值。应说明的是，对上述映射关系或者映射表均不做过多限定。

S203，根据总精度损失阈值，从第一目标模型的网络层中确定N个第一网络层和M个第二网络层，其中，N、M为正整数。

本公开的实施例中，根据总精度损失阈值，从第一目标模型的网络层中确定N个第一网络层和M个第二网络层，可包括如下两种可能的实施方式：

方式1、根据总精度损失阈值，获取第一目标模型的每个网络层的剪枝属性，其中，剪枝属性用于指示网络层为第一网络层或者第二网络层，根据每个网络层的剪枝属性，从第一目标模型的网络层中确定N个第一网络层和M个第二网络层。

在一种实施方式中，根据总精度损失阈值，获取第一目标模型的每个网络层的剪枝属性，可包括获取第一目标模型的每个网络层的候选剪枝属性，按照每个网络层的候选剪枝属性，对第一目标模型进行剪枝，获取第一目标模型的候选总精度损失，根据候选总精度损失和总精度损失阈值，更新至少一个网络层的候选剪枝属性，并返回执行按照每个网络层的候选剪枝属性，对第一目标模型进行剪枝及其后续步骤，直至达到更新结束条件，将最后一次更新得到的网络层的候选剪枝属性作为网络层的剪枝属性。

需要说明的是，对更新结束条件不做过多限定，比如，更新结束条件可包括候选总精度损失小于总精度损失阈值，且候选总精度阈值和总精度损失阈值之间的差值大于设定阈值。应说明的是，对设定阈值不做过多限定。

在一种实施方式中，根据实际总精度损失和总精度损失阈值，更新至少一个网络层的当前剪枝属性，可包括根据实际总精度损失和总精度损失阈值之间的差值，更新至少一个网络层的当前剪枝属性。

方式2、根据总精度损失阈值，获取每个网络层对应的目标剪枝比例，将N个目标剪枝比例非零的网络层确定为N个第一网络层，以及将M个目标剪枝比例为零的网络层确定为M个第二网络层。可以理解的是，网络层对应的目标剪枝比例非零表示网络层需要进行剪枝，网络层对应的目标剪枝比例为零表示网络层不需要进行剪枝。

由此，该方法中可根据总精度损失阈值，获取每个网络层对应的目标剪枝比例，并根据目标剪枝比例是否为零来确定第一网络层和第二网络层。

在一种实施方式中，根据总精度损失阈值，获取每个网络层对应的目标剪枝比例，可包括获取每个网络层按照多个候选剪枝比例进行剪枝时第一目标模型对应的候选精度损失，根据总精度损失阈值、候选精度损失和候选剪枝比例，获取目标剪枝比例。由此，该方法中可综合考虑到总精度损失阈值、候选精度损失和候选剪枝比例，来获取目标剪枝比例，使得目标剪枝比例更加准确。

需要说明的是，不同的网络层可对应不同的候选剪枝比例、目标剪枝比例。比如，网络层A对应的候选剪枝比例可包括1％、2％、4％，网络层B对应的候选剪枝比例可包括2％、5％、10％，网络层C对应的候选剪枝比例可包括1％、5％、10％，网络层A、B、C对应的目标剪枝比例分别为1％、0％、5％。

在一种实施方式中，根据总精度损失阈值、候选精度损失和候选剪枝比例，获取目标剪枝比例，可包括根据每个网络层按照候选剪枝比例进行剪枝时第一目标模型对应的候选精度损失，获取第一目标模型的候选总精度损失，根据候选总精度损失和总精度损失阈值，更新至少一个网络层的候选剪枝比例，并返回执行获取每个网络层按照候选剪枝比例进行剪枝时第一目标模型对应的候选精度损失及其后续步骤，直至达到更新结束条件，将最后一次更新得到的网络层的候选剪枝比例作为网络层的目标剪枝比例。应说明的是，更新结束条件的相关内容，可参见上述实施例，这里不再赘述。

S204，按照第j个第一网络层对应的目标剪枝比例，对第j个第一网络层进行剪枝，得到第j个第三网络层，其中，1≤j≤N，j为正整数。

本公开的实施例中，第j个第三网络层指的是对第j个第一网络层进行剪枝得到的网络层。应说明的是，目标剪枝比例、对第一网络层进行剪枝的相关内容，均可参见上述实施例，这里不再赘述。由此，该方法中可按照目标剪枝比例，对第一网络层分别进行剪枝，提高了模型剪枝的灵活性。

S205，将第i个第三网络层对应的第i个第一网络层作为老师层，基于第一目标模型对应的第二训练样本，对第i个第三网络层进行蒸馏学习，得到第i个第四网络层，其中，1≤i≤N，i为正整数。

S206，根据N个第四网络层和M个第二网络层，生成第一目标模型压缩后的第二目标模型。

步骤S205-S206的相关内容可参见上述实施例，这里不再赘述。

例如，用户终端上部署有第一目标图像模型。应说明的是，第一目标图像模型的相关内容可参见上述实施例，这里不再赘述。

可获取第一目标图像模型的总精度损失阈值，根据总精度损失阈值，从第一目标图像模型的网络层中确定N个第一网络层和M个第二网络层，按照第j个第一网络层对应的目标剪枝比例，对第j个第一网络层进行剪枝，得到第j个第三网络层，对第i个第三网络层进行蒸馏学习，得到第i个第四网络层，根据N个第四网络层和M个第二网络层，生成第一目标图像模型压缩后的第二目标图像模型。由此，可根据第一目标图像模型的总精度损失阈值，从第一目标图像模型的网络层中确定第一网络层和第二网络层，提高了确定第一网络层和第二网络层的准确性，且可按照目标剪枝比例，对第一网络层分别进行剪枝，提升了图像模型压缩的性能。

综上，根据本公开实施例的模型压缩方法，可根据第一目标模型的总精度损失阈值，从第一目标模型的网络层中确定第一网络层和第二网络层，提高了确定第一网络层和第二网络层的准确性，进而提高了模型压缩的性能。

图3是根据本公开第三实施例的模型压缩方法的流程示意图。

如图3所示，本公开第三实施例的模型压缩方法，包括：

S301，基于第一训练样本对初始模型进行训练，得到训练后的第一目标模型，第一目标模型包括N个第一网络层和M个第二网络层，其中，N、M为正整数。

S302，对N个第一网络层进行剪枝，得到N个第三网络层。

步骤S301-S302的相关内容可参见上述实施例，这里不再赘述。

S303，将第i个第三网络层对应的第i个第一网络层作为老师层，将第二训练样本分别输入至第一目标模型和第三目标模型，其中，第三目标模型包括N个第三网络层和M个第二网络层，在第i个第三网络层非第三目标模型的输入网络层的情况下，第i个第三网络层的输入为第i个第一网络层的上一网络层的输出。

本公开的实施例中，得到N个第三网络层之后，可根据N个第三网络层和M个第二网络层，得到第三目标模型。应说明的是，根据N个第三网络层和M个第二网络层，得到第三目标模型的相关内容，可参见上述实施例，这里不再赘述。

需要说明的是，在第i个第一网络层为第一目标模型的输入网络层的情况下，第i个第一网络层的输入为第二训练样本，在第i个第一网络层非第一目标模型的输入网络层的情况下，第i个第一网络层的输入为第i个第一网络层的上一网络层的输出。在第i个第三网络层为第三目标模型的输入网络层的情况下，第i个第三网络层的输入为第二训练样本。即第i个第一网络层的输入和第i个第三网络层的输入相同。

S304，获取第i个第一网络层的参考输出和第i个第三网络层的实际输出，根据参考输出和实际输出，对第i个第三网络层进行训练，得到第i个第四网络层。

第一网络层A、第一网络层B分别对应第三网络层E、第三网络层F，第三目标模型包括第三网络层E、第三网络层F、第二网络层C和第二网络层D，第三网络层E为第三目标模型的输入网络层，第三网络层F为第三网络层E的下一网络层，第二网络层C为第三网络层F的下一网络层，第二网络层D为第二网络层C的下一网络层。

可将第二训练样本分别输入至第一目标模型和第二目标模型，第一网络层A、第三网络层E的输入为第二训练样本，第一网络层B、第三网络层F的输入为第一网络层A的输出。

可获取第一网络层A的参考输出和第三网络层E的实际输出，根据上述参考输出和上述实际输出，对第三网络层E进行训练，得到第四网络层G。

可获取第一网络层B的参考输出和第三网络层F的实际输出，根据上述参考输出和上述实际输出，对第三网络层F进行训练，得到第四网络层H。

在一种实施方式中，根据参考输出和实际输出，对第i个第三网络层进行训练，得到第i个第四网络层，可包括根据参考输出和实际输出，获取第i个第三网络层的损失函数，根据第i个第三网络层的损失函数，对第i个第三网络层的模型参数进行更新，得到第i个第四网络层。

第一目标图像模型包括N个第一网络层和M个第二网络层，可对N个网络层进行剪枝，得到N个第三网络层，将第i个第三网络层对应的第i个第一网络层作为老师层，将第二训练样本分别输入至第一目标图像模型和第三目标图像模型，其中，第三目标图像模型包括N个第三网络层和M个第二网络层，在第i个第三网络层非第三目标图像模型的输入网络层的情况下，第i个第三网络层的输入为第i个第一网络层的上一网络层的输出。获取第i个第一网络层的参考输出和第i个第三网络层的实际输出，根据参考输出和实际输出，对第i个第三网络层进行训练，得到第i个第四网络层，根据N个第四网络层和M个第二网络层，生成第一目标图像模型压缩后的第二目标图像模型。

由此，可将第二训练样本分别输入至第一目标图像模型和第三目标图像模型，获取第一网络层的参考输出和第三网络层的实际输出，根据参考输出和实际输出，对第三网络层进行训练，得到第四网络层，以实现第三网络层的蒸馏学习。

S305，根据N个第四网络层和M个第二网络层，生成第一目标模型压缩后的第二目标模型。

步骤S305的相关内容可参见上述实施例，这里不再赘述。

综上，根据本公开实施例的模型压缩方法，可将第二训练样本分别输入至第一目标模型和第三目标模型，获取第一网络层的参考输出和第三网络层的实际输出，根据参考输出和实际输出，对第三网络层进行训练，得到第四网络层，以实现第三网络层的蒸馏学习。

图4是根据本公开第四实施例的模型压缩方法的流程示意图。

如图4所示，本公开第四实施例的模型压缩方法，包括：

S401，基于第一训练样本对初始模型进行训练，得到训练后的第一目标模型，第一目标模型包括N个第一网络层和M个第二网络层，其中，N、M为正整数。

S402，对N个第一网络层进行剪枝，得到N个第三网络层。

S403，将第i个第三网络层对应的第i个第一网络层作为老师层，基于第一目标模型对应的第二训练样本，对第i个第三网络层进行蒸馏学习，得到第i个第四网络层，其中，1≤i≤N，i为正整数。

S404，将N个第四网络层和M个第二网络层进行组合，得到第四目标模型。

步骤S401-S404的相关内容可参见上述实施例，这里不再赘述。

S405，对第四目标模型进行量化，得到第二目标模型。

需要说明的是，对第四目标模型进行量化的具体方式不做过多限定。比如，可将32bit(比特)的权重压缩到8bit。

在一种实施方式中，对第四目标模型进行量化，得到第二目标模型，可包括对第四目标模型进行量化，得到第五目标模型，将第一目标模型作为老师模型，基于第一目标模型对应的第三训练样本，对第五目标模型进行蒸馏学习，得到第二目标模型。应说明的是，第三训练样本的相关内容可参见上述实施例，这里不再赘述。由此，该方法中可对第四目标模型进行量化，以及对第五目标模型进行蒸馏学习，使得第二目标模型体积小、精度高，提升了模型压缩的性能。

需要说明的是，对第五目标模型进行蒸馏学习的具体方式不做过多限定。比如，可将第三训练样本分别输入至第一目标模型和第五目标模型，获取第一目标模型的参考输出和第五目标模型的实际输出，根据参考输出和实际输出，对第五目标模型进行训练，得到第二目标模型。

第一目标图像模型包括N个第一网络层和M个第二网络层。可对N个第一网络层进行剪枝，得到N个第三网络层，对第i个第三网络层进行蒸馏学习，得到第i个第四网络层，将N个第四网络层和M个第二网络层进行组合，得到第四目标图像模型，对第四目标图像模型进行量化，得到第二目标图像模型。由此，可将第四网络层和第二网络层进行组合，得到第四目标图像模型，并对第四目标图像模型进行量化，得到第二目标图像模型，有助于减小第二目标图像模型的体积，提升了图像模型压缩的性能。

综上，根据本公开实施例的模型压缩方法，可将第四网络层和第二网络层进行组合，得到第四目标模型，并对第四目标模型进行量化，得到第二目标模型。由此，可对第四目标模型进行量化，有助于减小第二目标模型的体积，提升了模型压缩的性能。

根据本公开的实施例，本公开还提供了一种图像处理方法。

图5是根据本公开第一实施例的图像处理方法的流程示意图。

如图5所示，本公开第一实施例的图像处理方法，包括：

S501，获取待处理图像。

需要说明的是，本公开实施例的图像处理方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地，执行主体可包括工作站、服务器，计算机、用户终端及其他智能设备。其中，用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

需要说明的是，对待处理图像不做过多限定。比如，待处理图像包括但不限于二维图像、三维图像等。

在一种实施方式中，以执行主体为用户终端为例，用户终端可从自身的存储空间中获取待处理图像，和/或，可通过相机进行拍摄，来获取待处理图像，和/或，从网页、APP(Application，应用程序)上获取待处理图像。

S502，将待处理图像输入第一目标图像模型压缩后的第二目标图像模型中，由第二目标图像模型输出待处理图像的处理结果，其中，第二目标图像模型采用模型压缩方法得到。

需要说明的是，第二目标图像模型可采用图1至图4所述的模型压缩方法得到，这里不再赘述。

需要说明的是，对处理结果不做过多限定。比如，处理结果包括但不限于动作识别结果，人脸识别结果，文本识别结果等。

例如，用户终端上部署有第一目标图像模型，可将用户终端上部署的第一目标图像模型替换为第二目标图像模型。可以理解的是，第二目标图像模型的体积、所需的计算资源均小于第一目标图像模型。由此，可减小图像模型在用户终端上占用的存储空间和计算资源，节省了用户终端的存储空间和计算资源。

综上，根据本公开实施例的图像处理方法，可将待处理图像输入第一目标图像模型压缩后的第二目标图像模型，由第二目标图像模型输出待处理图像的处理结果，第二目标图像模型采用模型压缩方法得到，有助于提升图像处理性能。

需要说明的是，本公开实施例的模型压缩方法还可应用于语音模型、语言模型等。

比如，可获取待处理语音，将待处理语音输入第一目标语音模型压缩后的第二目标语音模型，由第二目标语音模型输出待处理语音的语音处理结果。第二目标语音模型采用模型压缩方法得到，有助于提升语音处理性能。

比如，可获取待处理文本，将待处理文本输入第一目标语言模型压缩后的第二目标语言模型，由第二目标语言模型输出待处理文本的文本处理结果。第二目标语言模型采用模型压缩方法得到，有助于提升文本处理性能。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种模型压缩装置，用于实现上述的模型压缩方法。

图6是根据本公开第一实施例的模型压缩装置的框图。

如图6所示，本公开实施例的模型压缩装置600，包括：训练模块601、剪枝模块602、蒸馏模块603和生成模块604。

训练模块601用于基于第一训练样本对初始模型进行训练，得到训练后的第一目标模型，所述第一目标模型包括N个第一网络层和M个第二网络层，其中，N、M为正整数；

剪枝模块602用于对N个所述第一网络层进行剪枝，得到N个第三网络层；

蒸馏模块603用于将第i个第三网络层对应的第i个第一网络层作为老师层，基于所述第一目标模型对应的第二训练样本，对所述第i个第三网络层进行蒸馏学习，得到第i个第四网络层，其中，1≤i≤N，i为正整数；

生成模块604用于根据N个所述第四网络层和M个所述第二网络层，生成所述第一目标模型压缩后的第二目标模型。

在本公开的一个实施例中，所述模型压缩装置600还包括：确定模块，所述确定模块，包括：获取单元，用于获取所述第一目标模型的总精度损失阈值；确定单元，用于根据所述总精度损失阈值，从所述第一目标模型的网络层中确定N个所述第一网络层和M个所述第二网络层。

在本公开的一个实施例中，所述确定单元，还用于：根据所述总精度损失阈值，获取每个所述网络层对应的目标剪枝比例；将N个所述目标剪枝比例非零的网络层确定为N个所述第一网络层，以及将M个所述目标剪枝比例为零的网络层确定为M个所述第二网络层。

在本公开的一个实施例中，所述确定单元，还用于：获取每个所述网络层按照多个候选剪枝比例进行剪枝时所述第一目标模型对应的候选精度损失；根据所述总精度损失阈值、所述候选精度损失和所述候选剪枝比例，获取所述目标剪枝比例。

在本公开的一个实施例中，所述剪枝模块602还用于：按照第j个第一网络层对应的目标剪枝比例，对所述第j个第一网络层进行剪枝，得到第j个第三网络层，其中，1≤j≤N，j为正整数。

在本公开的一个实施例中，所述蒸馏模块603还用于：将所述第二训练样本分别输入至所述第一目标模型和第三目标模型，其中，所述第三目标模型包括N个所述第三网络层和M个所述第二网络层，在所述第i个第三网络层非所述第三目标模型的输入网络层的情况下，所述第i个第三网络层的输入为所述第i个第一网络层的上一网络层的输出；获取所述第i个第一网络层的参考输出和所述第i个第三网络层的实际输出，根据所述参考输出和所述实际输出，对所述第i个第三网络层进行训练，得到所述第i个第四网络层。

在本公开的一个实施例中，所述生成模块604包括：组合单元，用于将N个所述第四网络层和M个所述第二网络层进行组合，得到第四目标模型；量化单元，用于对所述第四目标模型进行量化，得到所述第二目标模型。

在本公开的一个实施例中，所述量化单元，还用于：对所述第四目标模型进行量化，得到第五目标模型；将所述第一目标模型作为老师模型，基于所述第一目标模型对应的第三训练样本，对所述第五目标模型进行蒸馏学习，得到所述第二目标模型。

综上，本公开实施例的模型压缩装置，可对第一网络层进行剪枝，得到第三网络层，并将第一网络层作为老师层，对第三网络层进行蒸馏学习，得到第四网络层，根据第四网络层和第二网络层，生成第二目标模型。由此，可对第一网络层分别进行剪枝，以及对第三网络层分别进行蒸馏学习，使得第四网络层体积小、精度高，提升了模型压缩的性能。

根据本公开的实施例，本公开还提供了一种图像处理装置，用于实现上述的图像处理方法。

图7是根据本公开第一实施例的图像处理装置的框图。

如图7所示，本公开实施例的图像处理装置700，包括：获取模块701和处理模块702。

获取模块701用于获取待处理图像；

处理模块702用于将所述待处理图像输入第一目标图像模型压缩后的第二目标图像模型中，由所述第二目标图像模型输出所述待处理图像的处理结果，其中，所述第二目标图像模型采用模型压缩方法得到。

综上，本公开实施例的图像处理装置，可将待处理图像输入第一目标图像模型压缩后的第二目标图像模型，由第二目标图像模型输出待处理图像的处理结果，第二目标图像模型采用模型压缩方法得到，有助于提升图像处理性能。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如图1至图4所述的模型压缩方法，例如图5所述的图像处理方法。例如，在一些实施例中，模型压缩方法或者图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的模型压缩方法的一个或多个步骤，或者执行上文描述的图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型压缩方法，或者被配置为执行图像处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本公开的实施例，本公开还提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现本公开上述实施例所述的模型压缩方法的步骤，或者实现本公开上述实施例所述的图像处理方法的步骤。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型压缩方法，包括：

基于第一训练样本对初始模型进行训练，得到训练后的第一目标模型，所述第一目标模型包括N个第一网络层和M个第二网络层，其中，N、M为正整数；

对N个所述第一网络层进行剪枝，得到N个第三网络层；

将第i个第三网络层对应的第i个第一网络层作为老师层，基于所述第一目标模型对应的第二训练样本，对所述第i个第三网络层进行蒸馏学习，得到第i个第四网络层，其中，1≤i≤N，i为正整数；

根据N个所述第四网络层和M个所述第二网络层，生成所述第一目标模型压缩后的第二目标模型。

2.根据权利要求1所述的方法，其中，还包括：

获取所述第一目标模型的总精度损失阈值；

根据所述总精度损失阈值，从所述第一目标模型的网络层中确定N个所述第一网络层和M个所述第二网络层。

3.根据权利要求2所述的方法，其中，所述根据所述总精度损失阈值，从所述第一目标模型的网络层中确定N个所述第一网络层和M个所述第二网络层，包括：

根据所述总精度损失阈值，获取每个所述网络层对应的目标剪枝比例；

将N个所述目标剪枝比例非零的网络层确定为N个所述第一网络层，以及将M个所述目标剪枝比例为零的网络层确定为M个所述第二网络层。

4.根据权利要求3所述的方法，其中，所述根据所述总精度损失阈值，获取每个所述网络层对应的目标剪枝比例，包括：

获取每个所述网络层按照多个候选剪枝比例进行剪枝时所述第一目标模型对应的候选精度损失；

根据所述总精度损失阈值、所述候选精度损失和所述候选剪枝比例，获取所述目标剪枝比例。

5.根据权利要求3所述的方法，其中，所述对N个所述第一网络层进行剪枝，得到N个第三网络层，包括：

按照第j个第一网络层对应的目标剪枝比例，对所述第j个第一网络层进行剪枝，得到第j个第三网络层，其中，1≤j≤N，j为正整数。

6.根据权利要求1所述的方法，其中，所述基于所述第一目标模型对应的第二训练样本，对所述第i个第三网络层进行蒸馏学习，得到第i个第四网络层，包括：

将所述第二训练样本分别输入至所述第一目标模型和第三目标模型，其中，所述第三目标模型包括N个所述第三网络层和M个所述第二网络层，在所述第i个第三网络层非所述第三目标模型的输入网络层的情况下，所述第i个第三网络层的输入为所述第i个第一网络层的上一网络层的输出；

获取所述第i个第一网络层的参考输出和所述第i个第三网络层的实际输出，根据所述参考输出和所述实际输出，对所述第i个第三网络层进行训练，得到所述第i个第四网络层。

7.根据权利要求1-6任一项所述的方法，其中，所述根据N个所述第四网络层和M个所述第二网络层，生成所述第一目标模型压缩后的第二目标模型，包括：

将N个所述第四网络层和M个所述第二网络层进行组合，得到第四目标模型；

对所述第四目标模型进行量化，得到所述第二目标模型。

8.根据权利要求7所述的方法，其中，所述对所述第四目标模型进行量化，得到所述第二目标模型，包括：

对所述第四目标模型进行量化，得到第五目标模型；

将所述第一目标模型作为老师模型，基于所述第一目标模型对应的第三训练样本，对所述第五目标模型进行蒸馏学习，得到所述第二目标模型。

9.一种图像处理方法，包括：

获取待处理图像；

将所述待处理图像输入第一目标图像模型压缩后的第二目标图像模型中，由所述第二目标图像模型输出所述待处理图像的处理结果，其中，所述第二目标图像模型采用如权利要求1-8中任一项所述的模型压缩方法得到。

10.一种模型压缩装置，包括：

训练模块，用于基于第一训练样本对初始模型进行训练，得到训练后的第一目标模型，所述第一目标模型包括N个第一网络层和M个第二网络层，其中，N、M为正整数；

剪枝模块，用于对N个所述第一网络层进行剪枝，得到N个第三网络层；

蒸馏模块，用于将第i个第三网络层对应的第i个第一网络层作为老师层，基于所述第一目标模型对应的第二训练样本，对所述第i个第三网络层进行蒸馏学习，得到第i个第四网络层，其中，1≤i≤N，i为正整数；

生成模块，用于根据N个所述第四网络层和M个所述第二网络层，生成所述第一目标模型压缩后的第二目标模型。

11.根据权利要求10所述的装置，其中，还包括：确定模块，所述确定模块，包括：

获取单元，用于获取所述第一目标模型的总精度损失阈值；

确定单元，用于根据所述总精度损失阈值，从所述第一目标模型的网络层中确定N个所述第一网络层和M个所述第二网络层。

12.根据权利要求11所述的装置，其中，所述确定单元，还用于：

13.根据权利要求12所述的装置，其中，所述确定单元，还用于：

14.根据权利要求12所述的装置，其中，所述剪枝模块，还用于：

15.根据权利要求10所述的装置，其中，所述蒸馏模块，还用于：

16.根据权利要求10-15任一项所述的装置，其中，所述生成模块，包括：

组合单元，用于将N个所述第四网络层和M个所述第二网络层进行组合，得到第四目标模型；

量化单元，用于对所述第四目标模型进行量化，得到所述第二目标模型。

17.根据权利要求16所述的装置，其中，所述量化单元，还用于：

对所述第四目标模型进行量化，得到第五目标模型；

18.一种图像处理装置，包括：

获取模块，用于获取待处理图像；

处理模块，用于将所述待处理图像输入第一目标图像模型压缩后的第二目标图像模型中，由所述第二目标图像模型输出所述待处理图像的处理结果，其中，所述第二目标图像模型采用如权利要求1-8中任一项所述的模型压缩方法得到。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-8中任一项所述的模型压缩方法，或者执行如权利要求9所述的图像处理方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如权利要求1-8中任一项所述的模型压缩方法，或者执行如权利要求9所述的图像处理方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如权利要求1-8中任一项所述的模型压缩方法的步骤，或者实现如权利要求9所述的图像处理方法。