CN117370798A

CN117370798A - 模型压缩方法、训练方法、多媒体数据处理方法及装置

Info

Publication number: CN117370798A
Application number: CN202311235188.3A
Authority: CN
Inventors: 于广华; 张翰迪; 周兆京; 王豪爽; 党青青; 沙燕霖; 于佃海; 马艳军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2024-01-09

Abstract

本公开提供了模型压缩方法、训练方法、多媒体数据处理方法及装置，涉及人工智能技术领域，尤其涉及深度学习、自然语言处理、计算机视觉等技术领域。该模型压缩方法的具体实现方案为：将多媒体数据输入待压缩模型，得到待压缩模型中级联的N个处理层中每个处理层的激活值矩阵，其中，第n个处理层的激活值矩阵表征由位于第n个处理层之前的n‑1个处理层对多媒体数据处理后得到的输出特征；根据激活值矩阵中的激活值的分布信息，生成每个处理层的权重缩放因子；根据每个处理层的权重缩放因子，对每个处理层的权重参数进行缩放处理，得到每个处理层的待量化参数；以及基于预定量化精度，依次对每个处理层的待量化参数进行量化，得到压缩模型。

Description

模型压缩方法、训练方法、多媒体数据处理方法及装置

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、自然语言处理、计算机视觉等技术领域。尤其涉及一种模型压缩方法、训练方法、多媒体数据处理方法及装置。

背景技术

以GPT(GenerativePre-trainedTransformer，生成式预训练变换器)为基础的语言生成大模型被广泛应用于自然语言处理领域，但是，由于语言生成大模型中的参数量较大，例如：GPT-3模型的参数量可以达到1700亿。因此，在部署语言生成大模型时需要占用较大的内存和计算资源。

发明内容

本公开提供了一种模型压缩方法、训练方法、多媒体数据处理方法。

根据本公开的一方面，提供了一种模型压缩方法，包括：将多媒体数据输入待压缩模型，得到待压缩模型中级联的N个处理层中每个处理层的激活值矩阵，其中，第n个处理层的激活值矩阵表征由n-1个处理层对多媒体数据处理后得到的输出特征，N为大于1的整数，n＝2，…N；根据激活值矩阵中的激活值的分布信息，生成每个处理层的权重缩放因子；根据每个处理层的权重缩放因子，对每个处理层的权重参数进行缩放处理，得到每个处理层的待量化参数；以及基于预定量化精度，依次对每个处理层的待量化参数进行量化，得到压缩模型。

根据本公开的另一方面，提供了一种压缩模型的训练方法，包括：将作为样本数据的第一多媒体数据输入压缩模型，得到针对多个预定类别的第一概率向量；第一多媒体数据标注有第一类别信息；根据第一类别信息和第一概率向量，确定压缩模型的损失值；以及根据损失值，调整压缩模型的模型参数，得到经训练的压缩模型，其中，压缩模型是采用前文描述的模型压缩方法得到的压缩后的深度学习模型。

根据本公开的另一方面，提供了一种多媒体数据的处理方法，包括：将待处理的多媒体数据输入压缩模型，得到表示多媒体数据所属类别的概率向量；概率向量包括多媒体数据属于多个预定类别中每个预定类别的概率值；以及根据概率向量，确定多个预定类别中多媒体数据所属的目标类别，其中，压缩模型包括采用前文描述的模型压缩方法得到的压缩后的深度学习模型。

根据本公开的另一方面，提供了一种模型压缩装置，包括：第一获得模块、生成模块、缩放模块和量化模块。第一获得模块，用于将多媒体数据输入待压缩模型，得到待压缩模型中级联的N个处理层中每个处理层的激活值矩阵，其中，第n个处理层的激活值矩阵表征由n-1个处理层对多媒体数据处理后得到的输出特征，N为大于1的整数，n＝2，…N；生成模块，用于根据激活值矩阵中的激活值的分布信息，生成每个处理层的权重缩放因子；缩放模块，用于根据每个处理层的权重缩放因子，对每个处理层的权重参数进行缩放处理，得到每个处理层的待量化参数；以及量化模块，用于基于预定量化精度，依次对每个处理层的待量化参数进行量化，得到压缩模型。

根据本公开的另一方面，提供了一种压缩模型的训练装置，包括：第二获得模块、第一确定模块和调整模块。第二获得模块，用于将作为样本数据的第一多媒体数据输入压缩模型，得到针对多个预定类别的第一概率向量；第一多媒体数据标注有第一类别信息；第一确定模块，用于根据第一类别信息和第一概率向量，确定压缩模型的损失值；以及调整模块，用于根据损失值，调整压缩模型的模型参数，得到经训练的压缩模型，其中，压缩模型是采用前文描述的模型压缩方法得到的压缩后的深度学习模型。

根据本公开的另一方面，提供了一种多媒体数据的处理装置，包括：第三获得模块和第二确定模块。第三获得模块，用于将待处理的多媒体数据输入压缩模型，得到表示多媒体数据所属类别的概率向量；概率向量包括多媒体数据属于多个预定类别中每个预定类别的概率值；以及第二确定模块，用于根据概率向量，确定多个预定类别中多媒体数据所属的目标类别，其中，压缩模型包括采用前文描述的模型压缩方法得到的压缩后的深度学习模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用模型压缩方法、训练方法或多媒体数据处理方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的模型压缩方法的流程图；

图3示意性示出了根据本公开实施例的处理层P₃330中的权重缩放的示意图；

图4A示意性示出了根据本公开一些实施例的确定待量化参数示意图；

图4B示意性示出了根据本公开另一些实施例的确定待量化参数示意图；

图4C示意性示出了根据本公开又一些实施例的确定待量化参数的示意图；

图5示意性示出了根据本公开实施例的待压缩模型的示例性架构图；

图6示意性示出了根据本公开实施例的压缩模型训练方法的流程图；

图7示意性示出了根据本公开实施例的多媒体数据处理方法的流程图；

图8示意性示出了根据本公开实施例的模型压缩装置的框图；

图9示意性示出了根据本公开实施例的压缩模型训练装置的框图；

图10示意性示出了根据本公开实施例的多媒体数据处理装置的框图；以及

图11示意性示出了根据本公开实施例的适于实现模型压缩方法、压缩模型训练方法或多媒体数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在语言生成大模型中，一般会引入Cache Key-Value(键值缓存，以下简称CacheKV)技术提高模型的推理性能。Cache KV的原理是缓存第i轮可重复利用的计算结果，当进行第i+1轮的计算时，直接读取该缓存的第i轮计算结果，并将缓存的第i轮计算结果和第i+1轮的计算结果进行拼接，得到最终第i+1轮的计算结果。

将Cache KV的引入语言生成大模型，在提升模型推理速度的同时，也增大了模型的参数量。可以通过对模型参数的量化，减小模型的尺寸大小，以降低对硬件的要求。

但是，由于Cache KV中缓存的计算结果的离散程度较大，当对语言生成大模型进行量化时，造成较为严重的语言生成大模型的精度损失。

有鉴于此，本公开实施例提供了一种模型压缩方法，根据激活值矩阵中的激活值的分布信息，生成每个处理层的权重缩放因子；根据每个处理层的权重缩放因子，对每个处理层的权重参数进行缩放处理，使得每个处理层的计算结果均分布较为集中，降低了量化过程对模型精度的损失，节约了数据存储量，使得压缩模型所需的数据存储空间小于预设值，从而降低了模型部署对硬件环境的存储空间和计算资源需求。

图1示意性示出了根据本公开实施例的可以应用模型压缩方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用模型压缩方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的模型压缩方法及装置。

如图1所示，根据该实施例的系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103，网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用第一终端设备101、第二终端设备102、第三终端设备103通过网络104与服务器105交互，以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的模型压缩方法一般可以由第一终端设备101、第二终端设备102、第三终端设备103执行。相应地，本公开实施例所提供的模型压缩装置也可以设置于第一终端设备101、第二终端设备102、第三终端设备103中。

或者，本公开实施例所提供的模型压缩方法一般也可以由服务器105执行。相应地，本公开实施例所提供的模型压缩装置一般可以设置于服务器105中。本公开实施例所提供的模型压缩方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的模型压缩装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图2示意性示出了根据本公开实施例的模型压缩方法的流程图。

如图2所示，该方法200包括操作S210～S240。

在操作S210，将多媒体数据输入待压缩模型，得到待压缩模型中级联的N个处理层中每个处理层的激活值矩阵。

在操作S220，根据激活值矩阵中的激活值的分布信息，生成每个处理层的权重缩放因子。

在操作S230，根据每个处理层的权重缩放因子，对每个处理层的权重参数进行缩放处理，得到每个处理层的待量化参数。

在操作S240，基于预定量化精度，依次对每个处理层的待量化参数进行量化，得到压缩模型。

根据本公开的实施例，多媒体数据可以包括以下至少之一：图像、文本、音频、视频等。待压缩模型可以是与多媒体数据的类型相对应的模型。

例如：若多媒体数据为文本，则待压缩模型可以为文心模型(ERNIE)或者生成式预训练Transformer模型(Generative Pre-trained Transformer，GPT)等。

例如：若多媒体数据为图像，则待压缩模型可以为残差网络(Residual Network，ResNet)系列模型(例如ResNet-50)、视觉Transformer模型(Vision Transformer，ViT)、基于Transformer的端到端目标检测模型(End-to-End Object Detection withTransformers，DERT)等。

例如：若多媒体数据为视频，则待压缩模型可以为Swin-Transformer模型等

根据本公开的实施例，待压缩模型中级联的N个处理层可以与待压缩模型的类型相对应。例如：待压缩模型可以是生成式预训练Transformer模型，N个处理层可以包括归一化层、多头注意力层、全连接层、叠加层、前馈神经网络层等。

根据本公开的实施例，第n个处理层的激活值矩阵表征由位于第n个处理层之前的n-1个处理层对多媒体数据处理后得到的输出特征，N为大于1的整数，n＝2，...N。例如：多头注意力层的激活值矩阵是由归一化层对多媒体数据处理后得到的输出特征；全连接层的激活值矩阵是由归一化层对多媒体数据处理后得到的输出特征，再输入多头注意力层，基于多头注意力机制处理后得到的输出特征。

根据本公开的实施例，激活值的分布信息可以表征激活值矩阵中的激活值的离散程度。在激活值矩阵中元素相同的情况下，激活值的取值范围越大，则激活值的离散程度越高。例如：激活值的取值范围为1～100的激活值矩阵的离散程度高于激活值的取值范围为1～10的离散程度。离散程度越高，在量化过程中被截断的参数越多，则对模型精度损失越大。

例如：针对某个处理层，激活值矩阵可以是3x4维的矩阵，在该3x4维的矩阵最小的激活值可以是1，最大的激活值可以是100。基于该激活值矩阵与该处理层中的权重参数进行矩阵乘计算，得到的输出结果矩阵(即下一个处理层的激活值)的离散程度较大。

根据本公开的实施例，权重缩放因子可以表征用于缩放每个处理层中的权重参数的值。例如：针对某个处理层，将权重参数按照权重缩放因子进行缩放之后，可以使得权重参数的分布相对集中，因此，将3x4维的矩阵与该处理层缩放后的权重矩阵进行矩阵乘计算时，可以得到数据分布相对集中的输出结果矩阵。

根据本公开的实施例，基于数据分布相对集中的激活值矩阵，由于激活值矩阵中离散点较少，因此，对激活值矩阵进行截断得到的待量化参数中损失的特征信息较少，从而可以有效降低量化过程对模型精度的损失。

根据本公开的实施例，根据激活值矩阵中的激活值的分布信息，生成每个处理层的权重缩放因子；根据每个处理层的权重缩放因子，对每个处理层的权重参数进行缩放处理，使得每个处理层的计算结果均分布较为集中，降低了量化过程对模型精度的损失，节约了数据存储量，使得压缩模型所需的数据存储空间小于预设值，从而降低了模型部署对硬件环境的存储空间和计算资源需求。

下面参考图3～图5，结合具体实施例对图2所示的方法做进一步说明。

图3示意性示出了根据本公开实施例的处理层P₃330中的权重缩放的示意图。

如图3所示，在实施例300中待压缩模型可以包括级联的处理层P₁310、处理层P₂320、处理层P₃330和处理层P₄340。

根据本公开的实施例，将多媒体数据输入处理层P₁310，输出的特征再输入处理层P₂320输出特征，即处理层P₃330的激活值矩阵321。在处理层P₃330中，将激活值矩阵321与权重矩阵331进行矩阵乘，得到第一输出结果332。在第一输出结果332中，色块颜色可以表征第一输出结果值的大小，颜色越深表示输出结果值越大。可以看出，在第一输出结果332中，色块颜色分布差异较大，表示第一输出结果332中的输出结果值分布较为分散。

根据本公开的实施例，可以根据每个处理层的激活值的分布信息，确定每个处理层的权重缩放阈值；以及根据每个处理层的激活值和每个处理层的权重缩放阈值，生成每个处理层的权重缩放因子。

例如：可以根据激活值矩阵321中的全部激活值X11～X34，确定激活值的取值范围，将最大激活值确定为权重缩放阈值X_max，可以按式(1)根据激活值矩阵321中的激活值和该处理层的权重缩放阈值X_max，生成该处理层的权重缩放因子S_ij。

S_ij＝X_ij/X_max (1)

其中，X_ij表示在激活值矩阵中位于第i行第j列的元素值；X_max表示激活值矩阵中最大激活值；S_ij表示与X_ij对应的权重缩放因子。

根据本公开的实施例，可以根据式(1)得到的与激活值矩阵321中每一个激活值对应的权重缩放因子S_ij，得到权重缩放因子矩阵322。

由于每个处理层的激活值的分布信息与处理的多媒体数据有一定的关系，因此，可以基于M个轮次，M为大于1的整数，将不同批次的多媒体数据输入待压缩模型，以得到每个处理层针对不同批次的多媒体数据得到的不同激活值分布信息。

根据本公开的实施例，根据每个处理层的激活值的分布信息，确定每个处理层的权重缩放阈值，可以包括如下操作：针对每个处理层，根据与第m-1个轮次输入的多媒体数据对应的激活值的分布信息，确定第一缩放阈值，其中，m为大于1小于等于M的整数；根据与第m个轮次输入的多媒体数据对应的激活值的分布信息，确定第二缩放阈值；以及响应于第二缩放阈值大于第一缩放阈值，确定第二缩放阈值为权重缩放阈值。

例如：针对某个处理层，对于第1轮次输入的多媒体数据对应的激活值的分布信息，可以将该第1轮次得到的该处理层中的激活值的最大值确定为第一缩放阈值abs-max1。对于第2轮次输入的多媒体数据对应的激活值的分布信息，可以将该第2轮次得到的该处理层中的激活值的最大值确定为第二缩放阈值abs-max2。在abs-max1小于abs-max2的情况下，将abs-max2确定为权重缩放阈值。以此类推，直至完成第M轮次的多媒体数据处理过程，可以将与M轮次对应的M个缩放阈值中的最大值作为权重缩放阈值。

根据本公开的实施例，与第m-1个轮次输入的多媒体数据对应的激活值的分布信息可以表征激活值的数值范围，例如：1～100；则可以将最大激活值100确定为第一缩放阈值。

同理：与第m个轮次输入的多媒体数据对应的激活值的分布信息可以表征激活值的数值范围，例如：1～50；则可以将最大激活值50确定为第二缩放阈值。由于第二缩放阈值50小于第一缩放阈值100，因此确定权重缩放阈值为100。

根据本公开的实施例，基于激活值矩阵中的每个元素值与该激活值矩阵中的最大元素值相除，得到元素取值范围在0～1之间的权重缩放因子矩阵，以便缩小权重参数矩阵的取值范围，使得权重参数分布集中，便于量化。

根据本公开的实施例，根据每个处理层的权重缩放因子，对每个处理层的权重参数进行缩放处理，得到每个处理层的待量化参数，可以包括如下操作：

根据每个处理层的权重缩放因子，对每个处理层的权重参数进行缩放处理，得到权重缩放后的目标模型；将多媒体输入权重缩放后的目标模型，得到每个处理层的激活值；以及根据每个处理层的激活值的分布信息，得到每个处理层的待量化参数。

如图3所示，可以将权重缩放因子矩阵322中的每一个元素与初始权重参数矩阵331中的每一个元素，按照元素位置进行对位相乘，得到更新后的权重参数矩阵333中的每一个元素。

例如：将权重缩放因子矩阵322中第1行第1列的元素S₁₁与初始权重参数矩阵331中第1行第1列的元素W₁₁相乘，可以得到更新后的权重参数矩阵333中第1行第1列的元素W_11’。

根据本公开的实施例，在处理层P₃330的权重参数矩阵变更之后，可以得到权重缩放后的目标模型。此时，将多媒体输入权重缩放后的目标模型，在处理层P₃330的激活值矩阵321不变的情况下，将激活值矩阵321与更新后的权重参数矩阵333进行矩阵乘，得到第二输出结果334。在第二输出结果334中，色块颜色可以表征第二输出结果值的大小，颜色越深表示输出结果值越大。可以看出，在第二输出结果334中，色块颜色分布均匀，表示第二输出结果334中的输出结果值分布较为集中。

根据本公开的实施例，通过对比第一输出结果332和第二输出结果334，可以理解的是，对于同一处理层，在激活值矩阵相同的情况下，权重参数矩阵缩放之后，输出结果值分布的离散度明显下降，从而可以有效降低模型压缩过程对精度的损失，实现在模型预测精度损失较低的情况下，节约数据存储空间和对硬件资源的占用率。

根据本公开的实施例，根据每个处理层的激活值的分布信息，得到每个处理层的待量化参数，可以包括如下操作：根据每个处理层的激活值的分布信息，得到每个处理层的截断阈值；以及基于截断阈值，对每个处理层的参数进行截断处理，得到每个处理层的待量化参数。

根据本公开的实施例，激活值的分布信息可以表征激活值的取值范围，例如：在对某个处理层的缓存单元(Cache)中的激活值进行量化时，可以将该缓存单元中当前缓存的全部激活值中的最大激活值确定为参数截断阈值。基于该最大激活值，对该处理层当前缓存的全部激活值进行截断，以得到该处理层的待量化参数。待量化参数可以是该处理层的最大激活值。

根据本公开的实施例，以全部激活值中的最大激活值作为截断阈值，那么，每个处理层仅具有一个量化因子，可以有效提升量化过程的数据处理速度。

但是，每一个处理层仅具有一个量化因子，这种量化方式的粒度较粗，在某些应用场景中，可能存在量化精度较低的问题。

有鉴于此，本公开实施例可以基于根据每个处理层的激活值的分布信息，构建分布矩阵；对分布矩阵进行分割，得到与每个分割区域对应的激活值的子分布信息；以及根据子分布信息，确定与每个分割区域对应的参数截断阈值，以提高量化精度。

根据本公开的实施例，以多头注意力层为例，对于该处理层的缓存单元中的激活值一般包括两个维度：head(头部)数量和每个head中的隐藏通道数量。

例如：可以按每个处理层的处理通道数量，对分布矩阵进行分割，得到与每个分割区域对应的激活值的子分布信息。

图4A示意性示出了根据本公开一些实施例的确定待量化参数示意图.

如图4A所示，在实施例400A中，第二输出结果334可以作为下一个处理层的激活值矩阵。可以根据第二输出结果334的激活值的分布信息，构建得到第一分布矩阵410。按通道数量对第一分布矩阵410进行分割，在分布矩阵410中每一列的元素表征同一处理通道的激活值，因此，可以按列对分布矩阵410进行分割，得到第一分割区域411、第二分割区域412、第三分割区域413和第四分割区域414。

根据本公开的实施例，根据子分布信息，确定与每个分割区域对应的参数截断阈值，可以包括如下操作：根据子分布信息，确定与每个分割区域对应的最大激活值；以及将与每个分割区域对应的最大激活值确定为与每个分割区域对应的参数截断阈值。

例如：针对第一分割区域411对应的激活值X_11’、激活值X_21’、激活值X_31’，将激活值X_11’、激活值X_21’、激活值X_31’中的最大激活值X_11’确定为X_maxl。对第一分割区域411对应的激活值进行截断处理，得到的第一待量化参数421可以是激活值X_11’。以此类推，可以得到其他三个分割区域各自对应的第二待量化参数422、第三待量化参数423和第四待量化参数424。并将第一待量化参数421、第二待量化参数422、第三待量化参数423和第四待量化参数424进行拼接，得到最终的待量化参数430。

根据本公开的实施例，按每个处理层的通道数量对激活值矩阵进行分割，针对每一个分割区域均可以得到一个待量化参数，可以实现对激活值的细粒度量化，提升量化精度。

实施例400A确定的待量化参数的维度与通道数量成正比，虽然可以提高量化精度，但是随着通道数量的增加，计算耗时也在不断增加。为了平衡计算耗时与量化精度，可以对每个处理层的激活值进行聚类，得到聚类结果；以及基于聚类结果，对分布矩阵进行分割，得到与每个分割区域对应的激活值的子分布信息。

图4B示意性示出了根据本公开另一些实施例的确定待量化参数示意图。

如图4B所示，在实施例400B中，可以根据第二输出结果334的激活值的分布信息，构建第二分布矩阵440。按照任意聚类算法对第二分布矩阵440中的激活值进行聚类，得到聚类结果。聚类结果可以包括将激活值聚类之后得到的簇的数量和与每一个簇对应的激活值。

根据本公开的实施例，按照聚类结果可以得到3个簇，根据每个簇对应的激活值可以对第二分布矩阵440进行分割，得到第五分割区域441、第六分割区域442和第七分割区域443。

针对第五分割区域441对应的激活值X_11’～激活值X_32’，将激活值X_11’～激活值X_32’中的最大激活值X_32’确定为X_max5。对第五分割区域441对应的激活值进行截断处理，得到的第五待量化参数451可以是激活值X_32’。以此类推，可以得到其他量个分割区域各自对应的第六待量化参数452和第七待量化参数453。并将第五待量化参数451、第六待量化参数452和第七待量化参数453进行拼接，得到最终的待量化参数460。

根据本公开的实施例，通过对激活值聚类的方式，可以使得数值范围较为集中的激活值被分割到同一区域，可以基于较少的计算耗时，实现对模型较高精度的量化。

根据本公开的实施例，对分布矩阵进行分割，得到与每个分割区域对应的激活值的子分布信息，可以包括如下操作：按照预定区域数量，对分布矩阵进行平均分割，得到与每个分割区域对应的激活值的子分布信息。

图4C示意性示出了根据本公开又一些实施例的确定待量化参数的示意图。

如图4C所示，在实施例400C中，可以根据第二输出结果334的激活值的分布信息，构建第三分布矩阵470。可以按照预定区域划分数量对第三分布矩阵470进行平均分割，得到第八分割区域471和第九分割区域472，每个分割区域内的激活值数量相同。

针对第八分割区域471对应的激活值X_11’～激活值X_32’，将激活值X_11’～激活值X_32’中的最大激活值X_32’确定为X_max8。对第八分割区域471对应的激活值进行截断处理，得到的第八待量化参数481可以是激活值X_32’。以此类推，可以得到其他量个分割区域各自对应的第九待量化参数482。并将第八待量化参数481、第九待量化参数482进行拼接，得到最终的待量化参数490。

根据本公开的实施例，预定区域数量可以基于实际应用场景的需要进行预先设定。可以实现基于实际应用场景的需求，例如：对计算耗时的需求，实现对模型进行较高精度的量化。

根据本公开的实施例，基于预定量化精度，依次对每个处理层的待量化参数进行量化，得到压缩模型，可以包括如下操作：针对每个处理层，根据预定量化精度和每个处理层的待量化参数的分布信息，确定量化因子；以及根据量化因子，对每个处理层的待量化参数进行量化，得到压缩模型。

根据本公开的实施例，针对每个处理层，根据预定量化精度和每个处理层的待量化参数的分布信息，确定量化因子，可以包括如下操作：每个处理层的待量化参数的分布信息，确定每个处理层的最大参数值；以及根据预定量化精度和最大参数值，得到量化因子。

例如：针对某个处理层，待量化参数可以包括激活值X_32’和激活值X_14’，在激活值X_32'大于激活值X_14'的情况下，可以确定最大参数值为激活值X_32'。

根据本公开的实施例，可以按照式(2)和(3)对待量化参数进行量化，得到压缩模型。

x_q＝clip(round(s·x)，-2^b-1，2^b-1) (3)

其中，s表示量化因子，b表示预定量化精度，α表示待量化参数中绝对值最大的参数；x_q表示量化后的参数，x表示待量化的参数；round()表示取整操作，clip表示用最大值最小值去截断。

根据本公开的实施例，由于对每个处理层的权重参数进行缩放，使得每个处理层的激活值的分布相对集中，再对激活值进行量化时，可以有效降低量化过程的精度损失，实现了在精度损失较小的情况下对模型的压缩，节约了模型参数的数据存储量和对部署环境的硬件资源的需求。

在应用本公开实施例提供的模型压缩方法对语言生成大模型进行压缩时，为了不改变语言生成大模型的预测精度，因此，对存在数据交互的两个处理层之间的权重缩放过程应该是数学等价的。例如：在transformer网络中，查询权重参数矩阵(Q)与键权重参数矩阵(K)需要进行矩阵乘的运算，因此，在对查询权重参数矩阵中的权重参数基于权重缩放因子进行缩小之后，对于键权重参数矩阵需要按照同样的权重缩放因子的倒数进行放大处理，以使得矩阵乘的结果与权重缩放之前的矩阵乘的结果是数学等价的。

图5示意性示出了根据本公开实施例的待压缩模型的示例性架构图。

如图5所示，该待压缩模型500可以包括归一化层(LayerNorm)510、值特征处理层(V)520_1、查询特征处理层(Q)520_2、键特征处理层(K)520_3、第一缓存单元(Cache)530_1、第二缓存单元(Cache)530_2、第一矩阵乘处理层(BatchedMatMul，BMM)540_1、第二矩阵乘处理层(BatchedMatMul，BMM)540_2、Softmax层550、输出层(Out proj)560。

针对查询特征处理层(Q)520_2和键特征处理层(K)520_3，键特征处理层(K)520_3中的更新后的权重参数是基于初始权重参数矩阵W_k与第一权重缩放因子矩阵S_k进行元素对应相乘得到的。查询特征处理层(Q)520_2中更新后的权重参数是基于初始权重参数矩阵W_q与第一权重缩放因子矩阵的倒数1/S_k进行元素对应相乘得到的。其中，第一权重缩放因子矩阵是根据第一缓存单元530_1中缓存的激活值按照前文描述的权重因子的计算方法得到的。

在第二矩阵乘处理层540_2对查询特征与键特征进行矩阵乘运算时，运算结果并没有改变，从而实现了在查询特征处理层(Q)520_2和键特征处理层(K)520_3插入缩放因子对权重参数矩阵进行缩放时，可以得到与权重参数矩阵缩放之前数学等价的运算结果，从而确保模型预测结果的准确性。

同理：针对值特征处理层(V)520_1中的更新后的权重参数是基于初始权重参数矩阵W_v与第二权重缩放因子矩阵S_v进行元素对应相乘得到的。输出层(Out proj)560中更新后的权重参数是基于初始权重参数矩阵W_o与第二权重缩放因子矩阵S_v的倒数进行元素对应相乘得到的。其中，第二权重缩放因子矩阵S_v是根据第二缓存单元530_2中缓存的激活值按照前文描述的权重因子的计算方法得到的。

在第一矩阵乘处理层540_2对值特征与Softmax层550的输出结果进行矩阵乘运算，再将运算结果输入输出层560进行运算时，输出层560的运算结果并没有改变，从而实现了在值特征处理层(V)520_1和输出层(Out proj)560插入缩放因子对权重参数矩阵进行缩放时，可以得到与权重参数矩阵缩放之前数学等价的运算结果，从而确保模型预测结果的准确性。

根据本公开的实施例，由于将权重缩放因子矩阵融入每个处理层的权重参数中，因此，在每个轮次缓存至第一缓存单元530_1或第二缓存单元530_2中的激活值分布都是相对集中的，从而降低了量化过程对模型的损失。

图6示意性示出了根据本公开实施例的压缩模型训练方法的流程图。

如图6所示，该训练方法600可以包括操作S610～S630。

在操作S610，将作为样本数据的第一多媒体数据输入压缩模型，得到针对多个预定类别的第一概率向量。

在操作S620，根据第一类别信息和第一概率向量，确定压缩模型的损失值。

在操作S630，基于损失值，调整压缩模型的模型参数，得到经训练的压缩模型。

根据本公开的实施例，压缩模型可以是按照前文描述的方法对待压缩模型进行压缩得到的。样本数据可以为对压缩模型进行预训练的训练集中的部分样本数据。例如，可以从训练集中随机抽取5％、10％或其他任意比例的数据，得到样本数据。作为样本数据的第一多媒体数据例如可以包括类别信息，例如可以包括第一类别信息。该第一类别信息表示多个预定类别中的某个类别。

根据本公开的实施例，样本数据可以与前文描述的多媒体数据的定义范围相同。压缩模型可以在对第一多媒体数据处理后，输出第一概率向量。该第一概率向量中包括压缩模型预测的针对多个预定类别中每个类别的概率值。例如：第一多媒体数据的类型可以是图像，预定类别可以是图像中的目标对象的属性，例如：人、动物、建筑物等。第一多媒体数据的类型可以是文本，预定类别可以是文本的语义属性词。

根据本公开的实施例，可以根据第一概率向量中与第一类别信息表示的类别对应的概率值，采用预定损失函数来计算压缩模型的损失值。其中，预定损失函数例如可以为交叉熵损失函数、均方误差损失函数(即L2损失函数)或铰链损失(Hinge Loss)函数等，本公开对此不做限定。

根据本公开的实施例，可以以最小化损失值为目标，采用梯度下降算法来对压缩模型中的权重参数等网络参数进行调整，实现对压缩模型的训练。

图7示意性示出了根据本公开实施例的多媒体数据处理方法的流程图。

如图7所示，该多媒体数据处理方法700可以包括操作S710～S720。

在操作S710，将待处理的多媒体数据输入压缩模型，得到表示多媒体数据所属类别的概率向量。

在操作S720，根据概率向量，确定多个预定类别中多媒体数据所属的目标类别。

根据本公开的实施例，压缩模型可以是按照前文描述的模型压缩方法对待压缩模型进行压缩后得到的深度学习模型。也可以是再对压缩后的深度学习模型按照前文描述的压缩模型的训练方法训练得到的。

根据本公开的实施例，该操作S710的实现原理与上文描述的操作S610的实现原理类似。概率向量可以包括多媒体数据属于多个预定类别中每个预定类别的概率值，在此不再赘述。

根据本公开的实施例，可以将概率向量中最大概率值所对应的预定类别作为多媒体数据所属的目标类别。在多媒体数据为文本时，压缩模型例如可以是通过对文心模型等进行压缩并训练而得到的模型。在多媒体数据为图像时，压缩模型例如可以是通过对ResNet-50等进行压缩并训练而得到的模型。

基于本公开实施例提供的模型压缩方法，本公开实施例还提供了一种模型压缩装置，以下将结合图8对模型压缩装置进行详细描述。

图8示意性示出了根据本公开实施例的模型压缩装置的框图。

如图8所示，该模型压缩装置800可以包括：第一获得模块810、生成模块820、缩放模块830和量化模块840。

第一获得模块810，用于将多媒体数据输入待压缩模型，得到待压缩模型中级联的N个处理层中每个处理层的激活值矩阵，其中，第n个处理层的激活值矩阵表征由n-1个处理层对多媒体数据处理后得到的输出特征，N为大于1的整数，n＝2，…N。

生成模块820，用于根据激活值矩阵中的激活值的分布信息，生成每个处理层的权重缩放因子。

缩放模块830，用于根据每个处理层的权重缩放因子，对每个处理层的权重参数进行缩放处理，得到每个处理层的待量化参数。

量化模块840，用于基于预定量化精度，依次对每个处理层的待量化参数进行量化，得到压缩模型。

根据本公开的实施例，缩放模块可以包括：缩放子模块、第一获得子模块和第二获得子模块。缩放子模块，用于根据每个处理层的权重缩放因子，对每个处理层的权重参数进行缩放处理，得到权重缩放后的目标模型。第一获得子模块，用于将多媒体输入权重缩放后的目标模型，得到每个处理层的激活值。第二获得子模块，用于根据每个处理层的激活值的分布信息，得到每个处理层的待量化参数。

根据本公开的实施例，第二获得子模块可以包括：第一获得单元和第一处理单元。第一获得单元，用于根据每个处理层的激活值的分布信息，得到每个处理层的参数截断阈值。第一处理单元，用于基于参数截断阈值，对每个处理层的参数进行截断处理，得到每个处理层的待量化参数。

根据本公开的实施例，第一获得单元可以包括：构建子单元、分割子单元和第一确定子单元。构建子单元，用于根据每个处理层的激活值的分布信息，构建分布矩阵。分割子单元，用于对分布矩阵进行分割，得到与每个分割区域对应的激活值的子分布信息。第一确定子单元，用于根据子分布信息，确定与每个分割区域对应的参数截断阈值。

根据本公开的实施例，分割子单元用于：按每个处理层的处理通道数量，对分布矩阵进行分割，得到与每个分割区域对应的激活值的子分布信息。

根据本公开的实施例，分割子单元用于：对每个处理层的激活值进行聚类，得到聚类结果；以及基于聚类结果，对分布矩阵进行分割，得到与每个分割区域对应的激活值的子分布信息。

根据本公开的实施例，分割子单元用于：按照预定区域数量，对分布矩阵进行平均分割，得到与每个分割区域对应的激活值的子分布信息。

根据本公开的实施例，第一确定子单元用于：根据子分布信息，确定与每个分割区域对应的最大激活值；以及将与每个分割区域对应的最大激活值确定为与每个分割区域对应的参数截断阈值。

根据本公开的实施例，生成模块可以包括：第一确定子模块和生成子模块。第一确定子模块，用于根据每个处理层的激活值的分布信息，确定每个处理层的权重缩放阈值。生成子模块，用于根据每个处理层的激活值和每个处理层的权重缩放阈值，生成每个处理层的权重缩放因子。

根据本公开的实施例，第一确定子模块可以包括：第一确定单元、第二确定单元和第三确定单元。第一确定单元，用于针对每个处理层，根据与第m-1个轮次输入的多媒体数据对应的激活值的分布信息，确定第一缩放阈值，其中，m为大于1小于等于M的整数。第二确定单元，用于根据与第m个轮次输入的多媒体数据对应的激活值的分布信息，确定第二缩放阈值。第三确定单元，用于响应于第二缩放阈值大于第一缩放阈值，确定第二缩放阈值为权重缩放阈值。

根据本公开的实施例，第一确定单元可以包括：第二确定子单元和第三确定子单元。第二确定子单元，用于根据与第m-1个轮次输入的多媒体数据对应的激活值的分布信息，确定与第m-1个轮次对应的每个处理层的最大激活值。第三确定子单元，用于将与第m-1个轮次对应的每个处理层的最大激活值确定为第一缩放阈值。

根据本公开的实施例，第二确定单元可以包括：第四确定子单元和第五确定子单元。第四确定子单元，用于根据与第m个轮次输入的多媒体数据对应的激活值的分布信息，确定与第m个轮次对应的每个处理层的最大激活值。第五确定子单元，用于将与第m个轮次对应的每个处理层的最大激活值确定为第二缩放阈值。

根据本公开的实施例，量化模块可以包括：第二确定子模块和量化子模块。第二确定子模块，用于针对每个处理层，根据预定量化精度和每个处理层的待量化参数的分布信息，确定量化因子。量化子模块，用于根据量化因子，对每个处理层的待量化参数进行量化，得到压缩模型。

根据本公开的实施例，第二确定子模块可以包括：第四确定单元和第二获得单元。第四确定单元，用于每个处理层的待量化参数的分布信息，确定每个处理层的最大参数值。第二获得单元，用于根据预定量化精度和最大参数值，得到量化因子。

基于本公开实施例提供的压缩模型的训练方法，本公开实施例还提供了一种压缩模型的训练装置，以下将结合图9对压缩模型的训练装置进行详细描述。

图9示意性示出了根据本公开实施例的压缩模型的训练装置的框图。

如图9所示，该训练装置900可以包括：第二获得模块910、第一确定模块920和调整模块930。

第二获得模块910，用于将作为样本数据的第一多媒体数据输入压缩模型，得到针对多个预定类别的第一概率向量；第一多媒体数据标注有第一类别信息。

第一确定模块920，用于根据第一类别信息和第一概率向量，确定压缩模型的损失值。

调整模块930，用于根据损失值，调整压缩模型的模型参数，得到经训练的压缩模型。压缩模型是采用前文描述的模型压缩方法得到的压缩后的深度学习模型。

基于本公开实施例提供的多媒体数据的处理方法，本公开实施例还提供了一种多媒体数据的处理装置，以下将结合图10对多媒体数据的处理装置进行详细描述。

图10示意性示出了根据本公开实施例的多媒体数据的处理装置的框图。

如图10所示，该处理装置1000可以包括第三获得模块1010和第二确定模块1020。

第三获得模块1010，用于将待处理的多媒体数据输入压缩模型，得到表示多媒体数据所属类别的概率向量；概率向量包括多媒体数据属于多个预定类别中每个预定类别的概率值。

第二确定模块1020，用于根据概率向量，确定多个预定类别中多媒体数据所属的目标类别。压缩模型是采用前文描述的模型压缩方法得到的压缩后的深度学习模型。也可以是对压缩后的模型采用前文描述的压缩模型训练方法训练得到的模型。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行前文描述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现前文描述的方法。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如模型压缩方法、压缩模型的训练方法或多媒体数据的处理方法。例如，在一些实施例中，模型压缩方法、压缩模型的训练方法或多媒体数据的处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的模型压缩方法、压缩模型的训练方法或多媒体数据的处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型压缩方法、压缩模型的训练方法或多媒体数据的处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，阼为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型压缩方法，包括：

将多媒体数据输入待压缩模型，得到所述待压缩模型中级联的N个处理层中每个处理层的激活值矩阵，其中，第n个处理层的激活值矩阵表征由位于第n个处理层之前的n-1个处理层对所述多媒体数据处理后得到的输出特征，N为大于1的整数，n＝2，…N；

根据所述激活值矩阵中的激活值的分布信息，生成所述每个处理层的权重缩放因子；

根据所述每个处理层的权重缩放因子，对所述每个处理层的权重参数进行缩放处理，得到所述每个处理层的待量化参数；以及

基于预定量化精度，依次对所述每个处理层的待量化参数进行量化，得到压缩模型。

2.根据权利要求1所述的方法，其中，所述根据所述每个处理层的权重缩放因子，对所述每个处理层的权重参数进行缩放处理，得到所述每个处理层的待量化参数，包括：

根据所述每个处理层的权重缩放因子，对所述每个处理层的权重参数进行缩放处理，得到权重缩放后的目标模型；

将所述多媒体输入所述权重缩放后的目标模型，得到所述每个处理层的激活值；以及

根据所述每个处理层的激活值的分布信息，得到所述每个处理层的待量化参数。

3.根据权利要求2所述的方法，其中，所述根据所述每个处理层的激活值的分布信息，得到所述每个处理层的待量化参数，包括：

根据所述每个处理层的激活值的分布信息，得到所述每个处理层的截断阈值；以及

基于所述截断阈值，对所述每个处理层的参数进行截断处理，得到所述每个处理层的待量化参数。

4.根据权利要求3所述的方法，其中，所述根据所述每个处理层的激活值的分布信息，得到所述每个处理层的截断阈值，包括：

根据所述每个处理层的激活值的分布信息，构建分布矩阵；

对所述分布矩阵进行分割，得到与每个分割区域对应的激活值的子分布信息；以及

根据所述子分布信息，确定与每个分割区域对应的截断阈值。

5.根据权利要求4所述的方法，其中，所述对所述分布矩阵进行分割，得到与每个分割区域对应的激活值的子分布信息，包括：

按所述待压缩模型的处理通道标识，对所述分布矩阵进行分割，得到所述与每个分割区域对应的激活值的子分布信息。

6.根据权利要求4所述的方法，其中，所述对所述分布矩阵进行分割，得到与每个分割区域对应的激活值的子分布信息，包括：

对所述每个处理层的激活值进行聚类，得到聚类结果；以及

基于所述聚类结果，对所述分布矩阵进行分割，得到与每个分割区域对应的激活值的子分布信息。

7.根据权利要求4所述的方法，其中，所述对所述分布矩阵进行分割，得到与每个分割区域对应的激活值的子分布信息，包括：

按照预定区域数量，对所述分布矩阵进行平均分割，得到与每个分割区域对应的激活值的子分布信息。

8.根据权利要求5所述的方法，其中，所述根据所述子分布信息，确定与每个分割区域对应的截断阈值，包括：

根据所述子分布信息，确定与每个分割区域对应的最大激活值；以及

将所述与每个分割区域对应的最大激活值确定为所述与每个分割区域对应的截断阈值。

9.根据权利要求1所述的方法，其中，所述根据所述每个处理层的激活值的分布信息，生成所述每个处理层的权重缩放因子，包括：

根据所述每个处理层的激活值的分布信息，确定所述每个处理层的权重缩放阈值；以及

根据所述每个处理层的激活值和所述每个处理层的权重缩放阈值，生成所述每个处理层的权重缩放因子。

10.根据权利要求9所述的方法，其中，所述每个处理层的激活值的分布信息包括与M个轮次输入的所述多媒体数据对应的激活值的分布信息，M为大于1的整数；

所述根据所述每个处理层的激活值的分布信息，确定所述每个处理层的权重缩放阈值，包括：

针对所述每个处理层，根据与第m-1个轮次输入的所述多媒体数据对应的激活值的分布信息，确定第一缩放阈值，其中，m为大于1小于等于M的整数；

根据所述与第m个轮次输入的所述多媒体数据对应的激活值的分布信息，确定第二缩放阈值；以及

响应于所述第二缩放阈值大于所述第一缩放阈值，确定所述第二缩放阈值为所述权重缩放阈值。

11.根据权利要求10所述的方法，其中，所述根据与第m-1个轮次输入的所述多媒体数据对应的激活值的分布信息，确定第一缩放阈值，包括：

根据所述与第m-1个轮次输入的所述多媒体数据对应的激活值的分布信息，确定与所述第m-1个轮次对应的所述每个处理层的最大激活值；以及

将所述与所述第m-1个轮次对应的每个处理层的最大激活值确定为所述第一缩放阈值。

12.根据权利要求10所述的方法，其中，所述根据所述与第m个轮次输入的所述多媒体数据对应的激活值的分布信息，确定第二缩放阈值，包括：

根据所述与第m个轮次输入的所述多媒体数据对应的激活值的分布信息，确定与所述第m个轮次对应的所述每个处理层的最大激活值；以及

将所述与所述第m个轮次对应的每个处理层的最大激活值确定为所述第二缩放阈值。

13.根据权利要求1所述的方法，其中，基于预定量化精度，依次对所述每个处理层的待量化参数进行量化，得到压缩模型，包括：

针对所述每个处理层，根据所述预定量化精度和所述每个处理层的待量化参数的分布信息，确定量化因子；

根据所述量化因子，对所述每个处理层的待量化参数进行量化，得到所述压缩模型。

14.根据权利要求13所述的方法，其中，所述针对所述每个处理层，根据所述预定量化精度和所述每个处理层的待量化参数的分布信息，确定量化因子，包括：

所述每个处理层的待量化参数的分布信息，确定所述每个处理层的最大参数值；以及

根据所述预定量化精度和所述最大参数值，得到所述量化因子。

15.一种压缩模型的训练方法，包括：

将作为样本数据的第一多媒体数据输入压缩模型，得到针对多个预定类别的第一概率向量；所述第一多媒体数据标注有第一类别信息；

根据所述第一类别信息和所述第一概率向量，确定所述压缩模型的损失值；以及

根据所述损失值，调整所述压缩模型的模型参数，得到经训练的压缩模型，其中，所述压缩模型是采用权利要求1～14中任一项所述的方法得到的压缩后的深度学习模型。

16.一种多媒体数据的处理方法，包括：

将待处理的多媒体数据输入压缩模型，得到表示所述多媒体数据所属类别的概率向量；所述概率向量包括所述多媒体数据属于多个预定类别中每个预定类别的概率值；以及

根据所述概率向量，确定所述多个预定类别中所述多媒体数据所属的目标类别，其中，所述压缩模型包括采用权利要求1～14中任一项所述的方法得到的压缩后的深度学习模型。

17.一种模型压缩装置，包括：

第一获得模块，用于将多媒体数据输入待压缩模型，得到所述待压缩模型中级联的N个处理层中每个处理层的激活值矩阵，其中，第n个处理层的激活值矩阵表征由位于第n个处理层之前的n-1个处理层对所述多媒体数据处理后得到的输出特征，N为大于1的整数，n＝2，…N；

生成模块，用于根据所述激活值矩阵中的激活值的分布信息，生成所述每个处理层的权重缩放因子；

缩放模块，用于根据所述每个处理层的权重缩放因子，对所述每个处理层的权重参数进行缩放处理，得到所述每个处理层的待量化参数；以及

量化模块，用于基于预定量化精度，依次对所述每个处理层的待量化参数进行量化，得到压缩模型。

18.根据权利要求17所述的装置，其中，所述缩放模块，包括：

缩放子模块，用于根据所述每个处理层的权重缩放因子，对所述每个处理层的权重参数进行缩放处理，得到权重缩放后的目标模型；

第一获得子模块，用于将所述多媒体输入所述权重缩放后的目标模型，得到所述每个处理层的激活值；以及

第二获得子模块，用于根据所述每个处理层的激活值的分布信息，得到所述每个处理层的待量化参数。

19.根据权利要求18所述的装置，其中，所述第二获得子模块，包括：

第一获得单元，用于根据所述每个处理层的激活值的分布信息，得到所述每个处理层的截断阈值；以及

第一处理单元，用于基于所述截断阈值，对所述每个处理层的参数进行截断处理，得到所述每个处理层的待量化参数。

20.根据权利要求19所述的装置，其中，所述第一获得单元，包括：

构建子单元，用于根据所述每个处理层的激活值的分布信息，构建分布矩阵；

分割子单元，用于对所述分布矩阵进行分割，得到与每个分割区域对应的激活值的子分布信息；以及

第一确定子单元，用于根据所述子分布信息，确定与每个分割区域对应的截断阈值。

21.根据权利要求20所述的装置，其中，所述分割子单元，用于：

按所述待压缩模型的处理通道数量，对所述分布矩阵进行分割，得到所述与每个分割区域对应的激活值的子分布信息。

22.根据权利要求20所述的装置，其中，所述分割子单元，用于：

对所述每个处理层的激活值进行聚类，得到聚类结果；以及

23.根据权利要求20所述的装置，其中，所述分割子单元，用于：

24.根据权利要求20所述的装置，其中，所述第一确定子单元，用于：

25.根据权利要求17所述的装置，其中，所述生成模块，包括：

第一确定子模块，用于根据所述每个处理层的激活值的分布信息，确定所述每个处理层的权重缩放阈值；以及

生成子模块，用于根据所述每个处理层的激活值和所述每个处理层的权重缩放阈值，生成所述每个处理层的权重缩放因子。

26.根据权利要求25所述的装置，其中，所述每个处理层的激活值的分布信息包括与M个轮次输入的所述多媒体数据对应的激活值的分布信息，M为大于1的整数；

所述第一确定子模块，包括：

第一确定单元，用于针对所述每个处理层，根据与第m-1个轮次输入的所述多媒体数据对应的激活值的分布信息，确定第一缩放阈值，其中，m为大于1小于等于M的整数；

第二确定单元，用于根据所述与第m个轮次输入的所述多媒体数据对应的激活值的分布信息，确定第二缩放阈值；以及

第三确定单元，用于响应于所述第二缩放阈值大于所述第一缩放阈值，确定所述第二缩放阈值为所述权重缩放阈值。

27.根据权利要求26所述的装置，其中，所述第一确定单元，包括：

第二确定子单元，用于根据所述与第m-1个轮次输入的所述多媒体数据对应的激活值的分布信息，确定与所述第m-1个轮次对应的所述每个处理层的最大激活值；以及

第三确定子单元，用于将所述与所述第m-1个轮次对应的每个处理层的最大激活值确定为所述第一缩放阈值。

28.根据权利要求26所述的装置，其中，所述第二确定单元，包括：

第四确定子单元，用于根据所述与第m个轮次输入的所述多媒体数据对应的激活值的分布信息，确定与所述第m个轮次对应的所述每个处理层的最大激活值；以及

第五确定子单元，用于将所述与所述第m个轮次对应的每个处理层的最大激活值确定为所述第二缩放阈值。

29.根据权利要求17所述的装置，其中，所述量化模块，包括：

第二确定子模块，用于针对所述每个处理层，根据所述预定量化精度和所述每个处理层的待量化参数的分布信息，确定量化因子；

量化子模块，用于根据所述量化因子，对所述每个处理层的待量化参数进行量化，得到所述压缩模型。

30.根据权利要求29所述的装置，其中，所述第二确定子模块，包括：

第四确定单元，用于所述每个处理层的待量化参数的分布信息，确定所述每个处理层的最大参数值；以及

第二获得单元，用于根据所述预定量化精度和所述最大参数值，得到所述量化因子。

31.一种压缩模型的训练装置，包括：

第二获得模块，用于将作为样本数据的第一多媒体数据输入压缩模型，得到针对多个预定类别的第一概率向量；所述第一多媒体数据标注有第一类别信息；

第一确定模块，用于根据所述第一类别信息和所述第一概率向量，确定所述压缩模型的损失值；以及

调整模块，用于根据所述损失值，调整所述压缩模型的模型参数，得到经训练的压缩模型，其中，所述压缩模型是采用权利要求1～14中任一项所述的方法得到的压缩后的深度学习模型。

32.一种多媒体数据的处理装置，包括：

第三获得模块，用于将待处理的多媒体数据输入压缩模型，得到表示所述多媒体数据所属类别的概率向量；所述概率向量包括所述多媒体数据属于多个预定类别中每个预定类别的概率值；以及

第二确定模块，用于根据所述概率向量，确定所述多个预定类别中所述多媒体数据所属的目标类别，其中，所述压缩模型包括采用权利要求1～14中任一项所述的方法得到的压缩后的深度学习模型。

33.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-16中任一项所述的方法。

34.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-16中任一项所述的方法。

35.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-16中任一项所述的方法。