CN116579407B

CN116579407B - 神经网络模型的压缩方法、训练方法、处理方法和装置

Info

Publication number: CN116579407B
Application number: CN202310573835.5A
Authority: CN
Inventors: 徐畅; 李明昊; 于广华; 王豪爽; 沙燕霖; 于佃海; 马艳军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2024-02-13
Anticipated expiration: 2043-05-19
Also published as: CN116579407A

Abstract

本公开提供了一种神经网络模型的压缩方法、训练方法、处理方法、装置、设备、存储介质以及程序产品，涉及人工智能领域，尤其涉及深度学习、自然语言处理、计算机视觉和语音处理领域。具体实现方案为：神经网络模型的压缩方法包括：通过将多媒体数据输入神经网络模型，从神经网络模型中获取多个初始参数；根据多个初始参数的数值范围，将多个初始参数划分为多个初始参数组，多个初始参数组的每个初始参数组包括多个初始参数中的至少一个初始参数；通过处理器基于多个平滑系数，分别对多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数；通过处理器对多个平滑参数进行量化，得到压缩后的神经网络模型。

Description

神经网络模型的压缩方法、训练方法、处理方法和装置

技术领域

本公开涉及人工智能领域，尤其涉及深度学习和自然语言处理(NaturalLanguage Processing，NLP)、计算机视觉和语音处理等技术领域。

背景技术

随着计算机技术和电子技术的发展，深度学习技术在计算机视觉、自然语言处理和智能语音等多个领域得到了广泛应用。预训练模型从大规模数据学习普适性的表征，可以在应用于不同下游应用时仅进行微调，而无需大量训练，提高了深度学习技术的应用便利性。

预训练模型的尺寸通常较大，应用时需要占用大量内容，且具有庞大的计算开销。因此，限制了预训练模型在计算能力有限的设备上的应用。

发明内容

本公开提供了一种神经网络模型的压缩方法、压缩模型的训练方法、多媒体数据的处理方法、装置、设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种神经网络模型的压缩方法，包括：通过将多媒体数据输入神经网络模型，从神经网络模型中获取多个初始参数；根据多个初始参数的数值范围，将多个初始参数划分为多个初始参数组，多个初始参数组的每个初始参数组包括多个初始参数中的至少一个初始参数；通过处理器基于多个平滑系数，分别对多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数，多个平滑参数分别与多个初始参数一一对应；以及通过处理器对多个平滑参数进行量化，得到压缩后的神经网络模型。

根据本公开的另一方面，提供了一种压缩模型的训练方法，包括：将作为样本数据的多媒体数据输入压缩模型，得到针对多个预定类别的概率向量，多媒体数据标注有类别信息；根据类别信息和概率向量，确定压缩模型的损失值；以及根据损失值，对压缩模型进行训练；其中，压缩模型是采用本公开提供的神经网络模型的压缩方法得到的压缩后的神经网络模型。

根据本公开的另一方面，提供了一种多媒体数据的处理方法，包括：将待处理的多媒体数据输入压缩模型，得到表示多媒体数据所属类别的概率向量，概率向量包括多媒体数据属于多个预定类别中每个预定类别的概率值；以及根据概率向量，确定多个预定类别中多媒体数据所属的目标类别；其中，压缩模型包括采用本公开提供的训练方法训练得到的模型。

根据本公开的另一方面，提供了一种神经网络模型的压缩装置，包括：获取模块，用于通过将多媒体数据输入神经网络模型，从神经网络模型中获取多个初始参数；划分模块，用于根据多个初始参数的数值范围，将多个初始参数划分为多个初始参数组，多个初始参数组的每个初始参数组包括多个初始参数中的至少一个初始参数；平滑模块，用于通过处理器基于多个平滑系数，分别对多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数，多个平滑参数分别与多个初始参数一一对应；以及量化模块，用于通过处理器对多个平滑参数进行量化，得到压缩后的神经网络模型。

根据本公开的另一方面，提供了一种压缩模型的训练装置，包括：第一输入模块，用于将作为样本数据的多媒体数据输入压缩模型，得到针对多个预定类别的概率向量，所述多媒体数据标注有类别信息；第一确定模块，用于根据所述类别信息和所述概率向量，确定所述压缩模型的损失值；以及训练模块，用于根据所述损失值，对所述压缩模型进行训练；其中，所述压缩模型是采用本公开提供的压缩装置得到的压缩后的神经网络模型。

根据本公开的另一方面，提供了一种多媒体数据的处理装置，包括：第二输入模块，用于将待处理的多媒体数据输入压缩模型，得到表示所述多媒体数据所属类别的概率向量，所述概率向量包括所述多媒体数据属于多个预定类别中每个预定类别的概率值；以及第二确定模块，用于根据所述概率向量，确定所述多个预定类别中所述多媒体数据所属的目标类别；其中，所述压缩模型包括采用本公开提供的训练装置训练得到的模型。

本公开的另一个方面提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的以下方法中的至少之一：神经网络模型的压缩方法、压缩模型的训练方法和多媒体数据的处理方法。

根据本公开实施例的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的以下方法中的至少之一：神经网络模型的压缩方法、压缩模型的训练方法和多媒体数据的处理方法。

根据本公开实施例的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现本公开提供的以下方法中的至少之一：神经网络模型的压缩方法、压缩模型的训练方法和多媒体数据的处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的神经网络模型的压缩方法、压缩模型的训练方法和多媒体数据的处理方法和装置的应用场景示意图；

图2是根据本公开实施例的神经网络模型的压缩方法的流程示意图；

图3是根据本公开实施例的划分初始参数组的原理示意图；

图4是根据本公开实施例的确定平滑系数的原理示意图；

图5是根据本公开实施例的压缩模型的训练方法的流程示意图；

图6是根据本公开提供的多媒体数据的处理方法的流程示意图；

图7是根据本公开实施例的神经网络模型的压缩装置的结构框图；

图8是根据本公开实施例的压缩模型的训练装置的结构框图；

图9是根据本公开实施例的多媒体数据的处理装置的结构框图；以及

图10是用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在自然语言处理领域，几乎每项任务中都能看见预训练语言模型成功的身影。预训练语言模型例如可以包括基于Transformer等构建的模型，例如，生成式预训练Transformer(Generative Pre-Trained Transformer，GPT)模型和开放式预训练Transformer(Open Pre-trained Transformer，OPT)模型。该预训练语言模型可以使用自监督学习的方法来从大规模文本数据中学习普适性的语言表征。然后将学习到的知识迁移到下游任务中，为下游任务提供优质的背景知识。另外，在计算机视觉领域、语音处理领域和多模态领域中，预训练模型也具有巨大潜力，并已经研发出了一系列的用于对图像和视频等进行精确处理的模型。

预训练模型的计算成本和存储成本是提高预训练模型可用性的主要障碍。例如，性能较好的模型变体GPT3-175B包括大约1750亿个参数。需要数十到数百个GPU来训练GPT3-175B，这使得执行简单的预训练模型推理任务也存在挑战性。例如，将GPT3-175B的参数存储在紧凑型文件中时将会占用326GB内存，内存占用量超过了最高端的单个GPU的容量，这导致需要使用更复杂和昂贵的设备(例如多GPU部署)来执行模型训练的推理任务。

为了使得预训练模型可以应用于计算能力弱的设备中或时延要求较高的应用中，可以对预训练模型进行压缩，以减小模型的尺寸大小和模型推理时间。模型量化方法为压缩模型的方法之一。模型量化方法主要是通过对模型内的权重参数和/或激活值进行类型转换(例如将部分或全部的浮点型数据转化为低位整型数据)，来加快模型推理速度，降低对硬件的要求。但由于量化过程是将模型的权值、激活值等从高精度转化成低精度的操作过程，例如将float32类型的数据转化成int8类型的数据，因此该种方法会影响模型的精度。

例如，通过模型量化方法压缩模型后模型精度下降明显的原因包括有：因信息容量减少导致信息嵌入同质化(例如词嵌入同质化，Homogeneous word embeddings)、不同层的权重分布差异较大、较大的异常值等。为了避免模型量化方法对模型精度的影响，可以对模型量化算法进行优化。现有的优化方法大部分依赖蒸馏算法和优化量化算法。其中，蒸馏算法要求采用教师模型和学生模型同时进行计算，这无疑会增加模型训练过程中对资源的需求量。优化量化算法通常采用按层量化、按行量化或非对称量化等方法来对模型的参数进行量化，这在工程推理上不易实施推广。

为了解决该问题，本公开提供了一种神经网络模型的压缩方法、压缩模型的训练方法和多媒体数据的处理方法、装置、设备、介质。以下先结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的神经网络模型的压缩方法、压缩模型的训练方法和多媒体数据的处理方法和装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括终端设备110，该终端设备110可以为具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和智能可穿戴设备等等。

终端设备110例如可以对获取的多媒体数据120进行处理，以得到多媒体数据的类别130。例如多媒体数据120可以为文本数据、图像或视频等任一模态或多模态的数据。在一实施例中，终端设备110中可以安装有各种客户端应用，例如即时通信类应用、多媒体数据处理类应用、浏览器类应用等。在该实施例中，可以采用多媒体数据处理类应用对多媒体数据120进行处理。

在一实施例中，终端设备110可以加载有压缩模型140，以根据加载的压缩模型140对多媒体数据120进行处理。该压缩模型140可以是采用模型量化方法对预训练模型进行压缩后得到的模型。

如图1所示，在一实施例中，该应用场景100中还可以包括服务器150，该服务器150可以为向终端设备中安装的多媒体数据处理类应用的运行提供支持的后台管理服务器，也可以为云服务器或者区块链服务器等，本公开对此不做限定。终端设备110可以通过网络与服务器150通信连接。网络可以包括有线或无线通信链路。

例如，该服务器150可以采用模型量化方法对预训练得到的神经网络模型进行压缩，得到压缩后的模型。该服务器150例如还可以对压缩后的模型进行训练，具体可以是对压缩后的模型中的权重参数等进行微调，得到训练好的压缩模型140，以供终端设备110加载。

需要说明的是，本公开提供的神经网络模型的压缩方法和/或压缩模型的训练方法可以由服务器150执行，也可以由与服务器150通信连接的其他服务器执行。相应地，本公开提供的神经网络模型的压缩装置和/或压缩模型的训练装置可以设置在服务器150中，也可以设置在与服务器150通信连接的其他服务器中。本公开提供的多媒体数据的处理方法可以由终端设备110执行。相应地，本公开提供的多媒体数据的处理装置可以设置在终端设备110中。

应该理解，图1中的终端设备110和服务器150的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的终端设备110和服务器150。

以下将结合图2～图4对本公开提供的神经网络模型的压缩方法进行详细描述。

图2是根据本公开实施例的神经网络模型的压缩方法的流程示意图。

如图2所示，该实施例的神经网络模型的压缩方法200可以包括操作S210～操作S240。

在操作S210，通过将多媒体数据输入神经网络模型，从神经网络模型中获取多个初始参数。

在本公开实施例中，多媒体数据可以包括图片数据、音频数据、视频数据和文本数据等。神经网络模型可以包括依次连接的多个处理层。例如神经网络模型可以包括依次连接的嵌入层、编码层、解码层、全连接层和逻辑回归层等。

例如，神经网络模型可以运行在中央处理器(central processing unit，CPU)和图像处理器(graphics processing unit，GPU)中。例如，神经网络模型可以包括上亿个初始参数，可以通过上百或上千个GPU运行神经网络模型。例如，通过GPU运行神经网络模型，将音频数据输入神经网络模型，可以对音频数据进行语义识别。

例如，神经网络模型包括的多个处理层可以与神经网络模型的类型相对应。例如，神经网络模型为文心模型，则依次连接的多个处理层可以包括Transformer编码器中第一个编码器包括的多头自注意力层、叠加&归一化层、前向反馈神经网络层、叠加&归一化层；第二个编码器包括的多头自注意力层、叠加&归一化层、前向反馈神经网络层、叠加&归一化层；...；第六个编码器包括的多头自注意力层、叠加&归一化层、前向反馈神经网络层、叠加&归一化层和逻辑回归层等。

例如，通过将多媒体数据输入神经网络模型中，可以从神经网络模型的处理层的算子中获取初始参数。例如，处理层包括全连接层，全连接层的算子为a*b，从算子a*b中获取初始参数a和初始参数b。

在操作S220，根据多个初始参数的数值范围，将多个初始参数划分为多个初始参数组。

在本公开实施例中，多个初始参数组的每个初始参数组包括多个初始参数中的至少一个初始参数。

例如，可以根据多个初始参数的数值范围划分为多个子范围，数值位于每个子范围内的至少一个初始参数形成一个初始参数组。每个初始参数组内的初始参数的数值相近。

例如，多个初始参数的数值范围可以为1-100，将数值范围1-100划分为10个子范围，10个子范围分别为1-10、11-20、......、91-100。在划分过程中，如果多个初始参数全部集中在子范围1-10和子范围91-100中，认为将多个初始参数划分为两个初始参数组。

在操作S230，通过处理器基于多个平滑系数，分别对多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数。

在本公开实施例中，处理器可以为CPU和GPU。多个平滑参数分别与多个初始参数一一对应。利用多个平滑系数分别对每个初始参数组内的每个初始参数进行平滑操作，得到多个平滑参数。平滑参数为经过平滑操作后的初始参数。

在本公开实施例中，多个平滑系数分别与多个初始参数组一一对应。对于多个初始参数组，每个初始参数组对应的平滑系数可以相同，也可以不相同。对于每个初始参数组，基于相同的平滑系数对初始参数组内的每个初始参数进行平滑操作。

每个初始参数组对应的平滑系数与每个初始参数组内的初始参数的数值相关。例如，对于数值范围较大的初始参数组，可以基于较大的平滑系数进行平滑操作。对于数值范围较小的初始参数组，可以基于较小的平滑系数进行平滑操作。

在本公开实施例中，通过对初始参数进行平滑操作，可以缩小多个初始参数中存在的异常参数的数值，从而减少异常值对模型量化的影响。

例如，异常参数可以为与多个初始参数的平均值的差值大于差值阈值的参数。或者，可以计算多个初始参数的平均值，将每个初始参数中与该平均值的差值大于差值阈值的初始参数，作为异常参数。

在操作S240，通过处理器对多个平滑参数进行量化，得到压缩后的神经网络模型。

在本公开实施例中，量化方式可以为离线量化，处理器可以为CPU和GPU。例如，可以通过GPU对多个平滑参进行离线量化。平滑后初始参数的量化过程对GPU资源的需求降低，可以在较低的GPU资源的支持下，实现较高精度的量化和确保量化速度。

例如，平滑参数可以均为float32类型的数据，该实施例可以通过将平滑参数转化为int8等类型的数据，实现对平滑参数的量化。即，可以将表示平滑参数的32位浮点数转换位8位整型数。如此，压缩得到的神经网络模型的参数量可以变为原来的1/4，从而可以使得压缩后的神经网络模型可以在计算资源有限的终端上运行，并提高模型的推理速度。

本公开实施例通过根据多个初始参数的数值范围，对具有数值的初始参数进行划分，并对具有不同数值的初始参数分别采用相应的平滑系数进行平滑操作，从而可以解决因对所有初始参数采用统一平滑系数进行平滑操作而导致模型压缩后精度下降的技术问题，并因此可以提高压缩后模型的精度，保证压缩后模型可以部署在终端，以用于对线上数据进行处理。再者，通过对平滑后的参数进行量化，可以在运行压缩后模型时减低对硬件终端数量和运行性能的需求，并提高终端部署的压缩后模型的推理效率，降低对终端资源的占用量。

图3是根据本公开实施例的划分初始参数组的原理示意图。

如图3所示，在一实施例300中，多个初始参数310可以包括多个激活值311和与多个激活值分别对应的多个权重值312。

在本公开实施例中，根据多个初始参数310的数值范围，将多个初始参数310划分为多个初始参数330可以根据多个激活值311的数值，对多个激活值311进行聚类，得到多个激活值组320，多个激活值组320的每个激活值组包括至少一个激活值。从多个权重值312分别获取每个激活值组中至少一个激活值对应的至少一个权重值，根据多个激活值组320中每个激活值组中至少一个激活值和至少一个激活值对应的至少一个权重值，生成多个初始参数组330。

在本公开实施例中，由于相比于权重值，激活值中的异常值对量化操作的影响更大。权重值具有量化友好的特性，在神经网络模型的量化过程中权重值引入的损失较少。因此，根据多个激活值的数值范围，对多个激活值进行划分，从而可以以激活值的数值为参考，为每个初始参数组配置相应的平滑系数。

例如，在神经网络模型中采样多个初始激活值，多个初始激活值与一个权重值对应。可以以多个初始激活值的绝对值的最大值作为最终的激活值。此时，一个激活值与一个权重值对应，因此多个初始参数可以包括多个激活值和分别与多个激活值对应的多个权重值。在得到多个激活值组320的情况下，将一个激活值组的至少一个激活值与对应的至少一个权重值合并，可以得到一个初始参数组。

在一些实施例中，基于多个平滑系数，分别对多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数包括：对于每个初始参数组，根据至少一个初始参数和多个平滑系数中对应的平滑系数，确定至少一个缩放值；以及对于每个初始参数组，根据至少一个缩放值，对至少一个初始参数进行缩放，得到至少一个平滑参数；其中，多个平滑参数包括多个初始参数组中每个初始参数组对应的至少一个平滑参数。

例如，可以采用以下公式(1)来确定缩放值s。

s为缩放值，a为激活值，w为权重值，α为平滑系数。α为一个超参数，当α越大时，缩放值s也越大，对初始参数的缩放程度越大，即平滑程度越大。例如，α的数值范围为0.1-0.9，例如，α可以默认为0.5。

在本公开实施例中，在一个初始参数组包括多个激活值和多个权重值的情况下，一个初始参数组对应多个缩放值，多个激活值、多个权重值和多个缩放值之间形成一一对应的关系。

在一些实施例中，可以分别根据多个平滑系数，确定多个初始参数组中每个初始参数组的至少一个激活值对应的至少一个缩放值，分别利用至少一个缩放值，缩小对应的初始参数组中的至少一个激活值，得到至少一个平滑激活值；以及分别利用至少一个缩放值，放大对应的初始参数组中的至少一个权重值，得到至少一个平滑权重值。

例如，可以采用以下公式(2)来对激活值进行缩小。

a’为平滑激活值。当缩放值s越大时，经过平滑处理后激活值会越小，激活值中的异常值会越小。

例如，可以采用以下公式(3)来对权重值进行放大。

w’＝w*s 公式(3)

w’为平滑激活值。当缩放值s越大时，经过平滑处理后权重值会越大，权重值中的异常值会越大。

在一些实施例中，通过处理器对至少一个平滑激活值和至少一个平滑权重值进行量化，得到压缩后的神经网络模型。

在本公开实施例中，对于多个初始参数组，每个初始参数组采用的平滑系数α可能不同，因此，对每个初始参数组中激活值和权重值的缩放程度也相应的不同。对经过不同程度的缩放后的多个激活值和多个权重值分别进行量化，可以得到压缩后的神经网络模型。

例如，可以利用GPU对平滑激活值和平滑权重值进行量化。对初始参数进行平滑操作可以降低量化过程对硬件中显卡和内存资源的需求。此外，对不同的初始参数组中的初始参数分别采用更加适配的平滑系数进行平滑操作，可以提高量化精度，确保压缩后神经网络模型的精度。

通过本公开实施例，以初始参数中的激活值的数值范围为划分初始参数组，这使得可以以激活值的数值为参考，采取不同的平滑系数对激活值和权重值进行平滑操作，从而确保最大程度地优化不同的激活值，可以在达到压缩模型的基础上，降低由于激活值中的异常值而造成的模型精度损失。

图4是根据本公开实施例的确定平滑系数的原理示意图。

如图4所示，在一实施例400中，多个初始参数组410包括K个初始参数组，K为正整数。例如，多个初始参数组410包括初始参数组1、......、初始参数组K。

在本公开实施例中，确定N组平滑系数420，N组平滑系数420包括平滑系数组420_1、......、平滑系数组420_N，每组平滑系数包括K个平滑系数。例如，平滑系数组420_1包括平滑系数1_1、......、平滑系数1_K，平滑系数组420_N包括平滑系数N_1、......、平滑系数N_K。每组平滑系数的K个平滑系数与K个初始参数组一一对应，N为正整数。

分别基于N组平滑系数420中每组平滑系数的K个平滑系数对K个初始参数组410进行平滑，得到N个平滑参数组430，每个平滑参数组包括平滑后的K个初始参数组。例如，N个平滑参数组430包括平滑参数组430_1、......、平滑参数组430_N。例如，平滑参数组430_1包括平滑参数1_1、......、平滑参数1_K，平滑参数组430_N包括平滑参数N_1、......、平滑参数N_K。

分别对N个平滑参数组430进行量化，得到N个压缩后的神经网络模型440。例如，N个压缩后的神经网络模型440可以包括压缩后的神经网络模型1、......、压缩后的神经网络模型N。通过将多媒体数据作为待处理数据输入N个压缩后的神经网络模型440，可以分别计算N个压缩后的神经网络模型440的N个量化损失450，并从N个量化损失450中确定最小量化损失460。最小量化损失460对应的平滑参数组为目标平滑参数组470。目标平滑参数组包括用于对K个初始化参数组410进行平滑操作的K个最佳平滑参数。

在本公开实施例中，在每组平滑系数中，K个平滑系数可以全部彼此不相同，也可以部分彼此不相同。在N组平滑系数420中，N组平滑系数之间不相同。通过K个平滑系数的N种组合，可以利用N组平滑系数420对K个初始参数组410分别进行N种平滑操作，并计算经历N种平滑操作后的神经网络模型的量化损失。通过最小量化损失可以确定N个平滑参数组430中的最优平滑参数组，即最优平滑参数组可以由N组平滑系数420中的最优平滑系数组合对K个初始参数组进行平滑操作而得到的。

在一些实施例中，确定N组平滑系数420可以包括：根据K个初始参数组410中初始参数的数值和硬件参数，分别确定与K个初始参数组410对应的K个平滑系数范围；以及根据K个平滑系数范围，生成N组平滑系数420，每组平滑系数包括的K个平滑系数分别位于K个平滑系数范围内。

例如，硬件参数为运行神经网络模型的硬件的运行参数。例如，运行参数可以为硬件内存的容量大小、GPU的线程数量和显卡的显存速度等。在硬件的运行资源有限的情况下，可以采用较大的平滑系数对初始参数进行平滑操作，较大程度的缩小异常参数和正常参数之间的差距。这使得在资源有限的条件下也可以确保量化效率。

例如，在确定初始参数组的数值较大时，可以选择数值较大的平滑系数。在确定初始参数组的数值较小时，可以选择数值较小的平滑系数。

例如，在确定初始参数组的数值范围为91-100时，可以确定平滑系数的数值范围为0.5-0.9，从而可以得到较大的缩放值，并对初始参数进行较大程度的缩放。在确定初始参数组的数值范围为0-10时，可以确定平滑系数的数值范围为0.1-0.5，从而可以得到较小的缩放值，并对初始参数进行较小程度的缩放。这使得通过不同的平滑系数对不同的初始参数实现不同程度的缩放，从而实现对初始参数细粒度的平滑操作。

在一些实施例中，通过将多媒体数据作为待处理数据输入N个压缩后的神经网络模型，计算N个压缩后的神经网络模型的N个量化损失450可以包括：通过将多媒体数据作为待处理数据输入N个压缩后的神经网络模型，利用N个压缩后的神经网络模型对待处理数据进行数据运算，得到N个量化输出结果；通过将待处理数据输入神经网络模型，利用神经网络模型对待处理数据进行数据运算，得到初始输出结果；以及根据N个量化输出结果和初始输出结果，确定N个量化损失。

例如，在对K个初始参数组410进行平滑操作和量化操作的情况下，利用压缩后的神经网络模型对输入的待识别音频数据进行数据运算，可以输出压缩模型的识别结果。在对K个初始参数组410不进行平滑操作和量化操作的情况下，利用原始的神经网络模型对相同的待识别音频数据进行数据运算，可以输出初始识别结果。通过比较量化输出结果和初始输出结果，可以确定压缩后的神经网络模型的数据运算过程产生的量化损失。例如，通过比较初始识别结果和压缩模型的识别结果的差值，确定量化损失。

例如，数据运算可以为神经网络模型中处理成的数据运算过程。数据运算对象可以为输入神经网络模型或输入压缩后的神经网络模型的多媒体数据。处理层可以为卷积层和全连接层等。

例如，多媒体数据可以为文本、图像、视频或多模态数据等多种类型的数据。神经网络模型为与多媒体数据的类型相对应。例如，在多媒体数据为文本时，神经网络模型可以为文心模型(ERNIE)或者GPT模等。在多媒体数据为图像时，神经网络模型可以为残差网络(Residual Network，ResNet)系列模型(例如ResNet-50)、视觉Transformer模型(VisionTransformer，ViT)、基于Transformer的端到端目标检测模型(End-to-End ObjectDetection with Transformers，DERT)等。在多媒体数据为视频时，神经网络模型可以为Swin-Transformer模型等。

通过计算压缩后神经网络模型的量化损失，可以评估平滑操作和量化操作的质量。在确定量化损失最小的情况下，可以表明在压缩神经网络模型时，最大程度地保证神经网络模型的精度。

在一些实施例中，根据多个初始参数的数值范围，将多个初始参数划分为多个初始参数组可以包括：根据多个初始参数的数值范围，确定多个初始参数中的多个异常值和多个正常值；以及根据多个异常值和多个正常值，将多个初始参数划分为异常参数组和正常参数组。基于多个平滑系数，分别对多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数可以包括：基于多个平滑参数，分别对异常参数组的多个异常值进行平滑，得到多个平滑异常值；以及根据多个平滑异常值和正常参数组的多个正常值，生成多个平滑参数。

例如，在多个初始参数中，99％的初始参数的数值集中在数值范围0-10之间，1％的初始参数的数值集中在数值范围91-100之间。因此可以认为数值集中在数值范围0-10之间的初始参数为正常值，数值集中在数值范围91-100之间的初始参数为异常值。

在本公开实施例中，可以根据多个平滑系数分别对多个异常值进行平滑操作。例如，异常值可以为激活值中的异常激活值，基于平滑系数、异常激活值和异常激活值对应的权重值，计算缩放系数，并基于该缩放系数对异常激活值和权重值进行缩放，得到平滑激活值和平滑权重值。

经过缩小的异常激活值，可以降低量化损失。经过放大的权重值，可能会产生较大的量化损失。通过计算经过多种平滑系数处理后的神经网络模型的量化损失，可以确定最优的平滑系数。通过最优的平滑系数处理异常激活值和权重值，可以使得激活值和权重值之间实现量化损失平衡。

在本公开实施例中，可以对正常值不进行平滑操作，直接将平滑后的异常值与正常值合并，得到多个平滑参数，从而可以避免由于放大权重值而为神经网络模型引入额外的量化损失。

在一些实施例中，根据多个初始参数的数值范围，将多个初始参数划分为多个初始参数组可以包括：根据多个初始参数的数值范围，确定多个初始参数中的多个异常值；以及根据多个异常值的数值范围，将多个异常值划分为多个异常参数组，多个异常参数组的每个异常参数组包括至少一个异常值。基于多个平滑系数，分别对多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数可以包括：基于多个平滑参数，分别对多个异常参数组的每个异常参数组的至少一个异常值进行平滑，得到多个平滑异常值；以及根据多个平滑异常值和多个初始参数中的多个正常值，生成多个平滑参数。

例如，比如90％为正常值(均值为1)，9％为较小异常值(均值为10)，1％为较大异常值(均值为100)，在这种情况下，正常值不需要缩放，较小异常值和较大异常值需要不同的缩放比例。

在多个初始参数中，90％的初始参数的数值集中在数值范围0-10之间，9％的初始参数的数值集中在数值范围10-20之间，1％的初始参数的数值集中在数值范围91-100之间，可以认为数值集中在数值范围0-10之间的初始参数为正常值，数值集中在数值范围10-20和数值范围91-100之间的初始参数为异常值。

由于异常值的数值差值较大，可以对多个异常值进行聚类，得到多个异常参数组。例如，可以得到数值集中在数值范围10-20之间的第一异常参数组和数值集中在数值范围91-100之间的第二异常参数组。根据两个异常参数组中异常值的数值范围，可以分别基于不同的平滑系数进行平滑操作。

例如，第一异常参数组的异常值的数值较小，可以采用较小的平滑系数，对异常值进行较小程度的缩放。例如，异常值可以为异常激活值。采用较小的平滑系数可以缩小异常激活值，并对控制对权重值的放大程度，减少量化损失的引入。

例如，第二异常参数组的异常值的数值较大，可以采用较大的平滑系数，对异常值进行较大程度的缩放。例如，异常值可以为异常激活值。采用较大的平滑系数可以对数值较大的异常激活值进行较大程度的缩小，以减少异常激活值产生的量化损失。

通过本公开实施例，针对大模型离线量化效果损失大的现象，对初始参数进行的细粒度的缩放平滑，实现激活值和对应权重值之间的平衡量化负担，达到量化精度无损。此外，本公开提供压缩方法可以高效地执行并在真实硬件上享有可行性。通过对初始参数的细粒度平滑，在资源有限的硬件终端上，也可以在几分钟内生成更适合量化的模型，不需要额外推理负担。再者，由于该实施例对所有处理层的异常激活值和对应的权重值进行量化处理，可以有效减小压缩模型的尺寸大小，降低部署压缩模型所需的计算能力，利于压缩模型在计算能力有限的终端上的部署。

在完成对模型的压缩后，还可以对得到的压缩模型进行进一步地训练，以进一步提高压缩模型的精度。基于此，本公开还提供了一种压缩模型的训练方法，以下将结合图5对该方法进行详细描述。

图5是根据本公开实施例的压缩模型的训练方法的流程示意图。

如图5所示，该实施例的压缩模型的训练方法500可以包括操作S510～操作S530。

在操作S510，将作为样本数据的多媒体数据输入压缩模型，得到针对多个预定类别的概率向量，多媒体数据标注有类别信息。

根据本公开的实施例，操作S510中的压缩模型可以通过加载上文描述的神经网络模型的压缩方法得到的压缩后的神经网络模型而得到。样本数据可以为对神经网络模型进行预训练的训练集中的部分样本数据。例如，可以从训练集中随机抽取5％、10％或其他任意比例的数据，得到样本数据。作为样本数据的多媒体数据例如可以包括类别信息，该类别信息表示多个预定类别中的某个类别。

该实施例中，压缩模型可以在对多媒体数据处理后，输出概率向量。该概率向量中包括压缩模型预测的针对多个预定类别中每个类别的概率值。

可以理解的是，压缩得到压缩模型的神经网络模型例如可以为用于执行分类任务的模型，以对多媒体数据进行分类。相应地，概率向量可以包括压缩模型预测得到的多媒体数据属于多个预定类别中每个类别的概率值，多媒体数据标注的类别信息可以为多媒体数据的真实类别，该真实类别为多个预定类别中的任一类别。或者，压缩得到压缩模型的神经网络模型例如可以为用于执行文本生成任务的模型，以生成多媒体数据的答复文本。相应地，概率向量可以包括压缩模型预测得到的答复文本中某个字符为多个预定类别字符中每个字符的概率值，多媒体数据标注的类别信息可以为第一多媒体数据的答复文本中的各个字符。可以理解的是，概率向量所表示的信息可以与压缩模型执行的任务相对应，本公开对此不做限定。

在操作S520，根据类别信息和概率向量，确定压缩模型的损失值。

该实施例可以根据概率向量中与类别信息表示的类别对应的概率值，采用预定损失函数来计算压缩模型的损失值。其中，预定损失函数例如可以为交叉熵损失函数、均方误差损失函数(即L2损失函数)或铰链损失(Hinge Loss)函数等，本公开对此不做限定。

在操作S530，根据损失值，对压缩模型进行训练。

该实施例可以以最小化损失值为目标，采用梯度下降算法来对压缩模型中的权重参数等网络参数进行调整，实现对压缩模型的训练。

在本公开实施例中，可以在GPU上对压缩模型进行训练。通过本公开压缩方法压缩神经网络模型，可以有效的减小神经网络模型的尺寸大小和减少执行训练过程中推理任务的时间，从而可以与资源有限的硬件终端更加适配，并提高训练效率。

基于本公开提供的压缩模型的训练方法，本公开还提供了一种多媒体数据的处理方法，以下将结合图6对该方法进行详细描述。

图6是根据本公开提供的多媒体数据的处理方法的流程示意图。

如图6所示，以压缩模型用于执行对多媒体数据进行分类的任务为例，该实施例的多媒体数据的处理方法600可以包括操作S610～操作S620。

在操作S610，将待处理的多媒体数据输入压缩模型，得到表示多媒体数据所属类别的概率向量。

根据本公开的实施例，该操作S610的实现原理与上文描述的操作S510的实现原理类似。概率向量可以包括多媒体数据属于多个预定类别中每个预定类别的概率值，在此不再赘述。可以理解的是，压缩模型例如可以是采用上文描述的压缩模型的训练方法得到的训练完成的压缩模型。

在操作S620，根据概率向量，确定多个预定类别中多媒体数据所属的目标类别。该实施例中，可以将概率向量中最大概率值所对应的预定类别作为多媒体数据所属的目标类别。

可以理解的是，在多媒体数据为文本时，压缩模型例如可以是通过对文心模型等进行压缩并训练而得到的模型。在多媒体数据为图像时，压缩模型例如可以是通过对ResNet-50等进行压缩并训练而得到的模型。

在本公开实施例中，通过本公开提供的训练方法得到的神经网络模型，可以在资源有限的硬件终端上高校运行，减少资源开销。

基于本公开提供的神经网络模型的压缩方法，本公开还提供了一种神经网络模型的压缩装置，以下将结合图7对该装置进行详细描述。

图7是根据本公开实施例的神经网络模型的压缩装置的结构框图。

如图7所示，该实施例的神经网络模型的压缩装置700可以包括获取模块710、划分模块720、平滑模块730和量化模块740。

获取模块710用于通过将多媒体数据输入神经网络模型，从神经网络模型中获取多个初始参数。在一实施例中，获取模块710可以用于执行上文描述的操作S210，在此不再赘述。

划分模块720用于根据多个初始参数的数值范围，将多个初始参数划分为多个初始参数组，多个初始参数组的每个初始参数组包括多个初始参数中的至少一个初始参数。在一实施例中，划分模块720以用于执行上文描述的操作S220，在此不再赘述。

平滑模块730用于通过处理器基于多个平滑系数，分别对多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数，多个平滑参数分别与多个初始参数一一对应。在一实施例中，平滑模块730可以用于执行上文描述的操作S230，在此不再赘述。

量化模块740用于通过处理器对多个平滑参数进行量化，得到压缩后的神经网络模型。在一实施例中，量化模块740可以用于执行上文描述的操作S240，在此不再赘述。

根据本公开的实施例，多个初始参数组包括K个初始参数组，K为正整数.上平滑模块730还用于：分别基于N组平滑系数中每组平滑系数的K个平滑系数对K个初始参数组进行平滑，得到N个平滑参数组，N组平滑系数的每组平滑系数包括K个平滑系数，K个平滑系数与K个初始参数组一一对应，N为正整数；每个平滑参数组包括平滑后的K个初始参数组；分别对N个平滑参数组进行量化，得到N个压缩后的神经网络模型；计算N个压缩后的神经网络模型的N个量化损失；以及从N个平滑参数组中确定目标平滑参数组，目标平滑参数组包括多个平滑参数，目标平滑参数组对应的量化损失为损失N个量化损失中的最小量化损失。

根据本公开的实施例，上述平滑模块730还用于：根据K个初始参数组中初始参数的数值，分别确定与K个初始参数组对应的K个平滑系数范围；以及根据K个平滑系数范围，生成N组平滑系数，每组平滑系数包括的K个平滑系数分别位于K个平滑系数范围内。

根据本公开的实施例，上述平滑模块730还用于：利用N个压缩后的神经网络模型进行数据运算，得到N个量化输出结果；利用神经网络模型进行数据，得到初始输出结果；以及根据N个量化输出结果和初始输出结果，确定N个量化损失。

根据本公开的实施例，上述平滑模块730还用于：对于每个初始参数组，根据至少一个初始参数和多个平滑系数中对应的平滑系数，确定至少一个缩放值；以及对于每个初始参数组，根据至少一个缩放值，对至少一个初始参数进行缩放，得到至少一个平滑参数；其中，多个平滑参数包括多个初始参数组中每个初始参数组对应的至少一个平滑参数。

根据本公开的实施例，上述划分模块720还用于：根据多个初始参数的数值范围，确定多个初始参数中的多个异常值和多个正常值；以及根据多个异常值和多个正常值，将多个初始参数划分为异常参数组和正常参数组。

根据本公开的实施例，上述平滑模块730还用于：基于多个平滑参数，分别对异常参数组的多个异常值进行平滑，得到多个平滑异常值；以及根据多个平滑异常值和正常参数组的多个正常值，生成多个平滑参数。

根据本公开的实施例，上述划分模块720还用于：根据多个初始参数的数值范围，确定多个初始参数中的多个异常值；以及根据多个异常值的数值范围，将多个异常值划分为多个异常参数组，多个异常参数组的每个异常参数组包括至少一个异常值。

根据本公开的实施例，上述平滑模块730还用于：基于多个平滑参数，分别对多个异常参数组的每个异常参数组的至少一个异常值进行平滑，得到多个平滑异常值；以及根据多个平滑异常值和多个初始参数中的多个正常值，生成多个平滑参数。

根据本公开的实施例，多个初始参数包括多个激活值和与多个激活值分别对应的多个权重值。上述划分模块720还用于：根据多个激活值的数值，对多个激活值进行聚类，得到多个激活值组，多个激活值组的每个激活值组包括至少一个激活值；以及根据每个激活值组中至少一个激活值和至少一个激活值对应的至少一个权重值，生成多个初始参数组。

根据本公开的实施例，上述平滑模块730还用于：分别根据多个平滑系数，确定多个初始参数组中每个初始参数组的至少一个激活值对应的至少一个缩放值；分别利用至少一个缩放值，缩小对应的初始参数组中的至少一个激活值，得到至少一个平滑激活值；以及分别利用至少一个缩放值，放大对应的初始参数组中的至少一个权重值，得到至少一个平滑权重值。

根据本公开的实施例，上述量化模块740还用于：对至少一个平滑激活值和至少一个平滑权重值进行量化，得到压缩后的神经网络模型。

基于本公开提供的压缩模型的训练方法，本公开还提供了一种压缩模型的训练装置，以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的压缩模型的训练装置的结构框图。

如图8所示，该实施例的压缩模型的训练装置800可以包括第一输入模块810、第一确定模块820和训练模块830。其中，压缩模型是采用本公开提供的神经网络模型的压缩装置得到的压缩后的神经网络模型。

第一输入模块810用于将作为样本数据的多媒体数据输入压缩模型，得到针对多个预定类别的概率向量；多媒体数据标注有类别信息。在一实施例中，第一输入模块810可以用于执行上文描述的操作S510，在此不再赘述。

第一确定模块820用于根据类别信息和概率向量，确定压缩模型的损失值。在一实施例中，第一确定模块820可以用于执行上文描述的操作S520，在此不再赘述。

训练模块830用于根据损失值，对压缩模型进行训练。在一实施例中，训练模块830可以用于执行上文描述的操作S530，在此不再赘述。

基于本公开提供的多媒体数据的处理方法，本公开还提供了一种多媒体数据的处理装置，以下将结合图9对该装置进行详细描述。

图9是根据本公开实施例的多媒体数据的处理装置的结构框图。

如图9所示，该实施例的多媒体数据的处理装置900可以包括第二模块910和第二确定模块920。

第二输入模块910用于将待处理的多媒体数据输入压缩模型，得到表示多媒体数据所属类别的概率向量。其中，概率向量包括多媒体数据属于多个预定类别中每个预定类别的概率值，压缩模型包括采用本公开提供的压缩模型的训练方法训练得到的模型。在一实施例中，第二输入模块910可以用于执行上文描述的操作S610，在此不再赘述。

第二确定模块920用于根据概率向量，确定多个预定类别中多媒体数据所属的目标类别。在一实施例中，第二确定模块920可以用于执行上文描述的操作S620，在此不再赘述。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开实施例的方法的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1 003中，还可存储设备1 000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如以下方法中的至少之一：神经网络模型的压缩方法、压缩模型的训练方法和多媒体数据的处理方法。例如，在一些实施例中，以下方法中的至少之一：神经网络模型的压缩方法、压缩模型的训练方法和多媒体数据的处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM1003并由计算单元1001执行时，可以执行上文描述的以下方法中的至少之一：神经网络模型的压缩方法、压缩模型的训练方法和多媒体数据的处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行以下方法中的至少之一：神经网络模型的压缩方法、压缩模型的训练方法和多媒体数据的处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种神经网络模型的压缩方法，包括：

通过将多媒体数据输入神经网络模型，从神经网络模型中获取多个初始参数；

根据所述多个初始参数的数值范围，将所述多个初始参数划分为多个初始参数组，所述多个初始参数组的每个初始参数组包括所述多个初始参数中的至少一个初始参数；

通过处理器基于多个平滑系数，分别对所述多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数，所述多个平滑参数分别与所述多个初始参数一一对应；以及

通过处理器对所述多个平滑参数进行量化，得到压缩后的神经网络模型；

其中，所述根据所述多个初始参数的数值范围，将所述多个初始参数划分为多个初始参数组包括：

根据所述多个初始参数的数值范围，确定所述多个初始参数中的多个异常值和多个正常值；以及

根据所述多个异常值和所述多个正常值，将所述多个初始参数划分为异常参数组和正常参数组；

其中，所述基于多个平滑系数，分别对所述多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数包括：

基于所述多个平滑参数，分别对所述异常参数组的多个异常值进行平滑，得到多个平滑异常值；以及

根据所述多个平滑异常值和所述正常参数组的多个正常值，生成所述多个平滑参数。

2.根据权利要求1所述的方法，其中，所述多个初始参数组包括K个初始参数组，K为正整数；所述基于多个平滑系数，分别对所述多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数包括：

分别基于N组平滑系数对所述K个初始参数组进行平滑，得到N个平滑参数组，所述N组平滑系数的每组平滑系数包括K个平滑系数，K个平滑系数与所述K个初始参数组一一对应，所述每个平滑参数组包括平滑后的K个初始参数组，N为正整数；

分别对所述N个平滑参数组进行量化，得到N个压缩后的神经网络模型；

通过将多媒体数据作为待处理数据输入所述N个压缩后的神经网络模型，计算所述N个压缩后的神经网络模型的N个量化损失；以及

从所述N个平滑参数组中确定目标平滑参数组，所述目标平滑参数组包括所述多个平滑参数，所述目标平滑参数组对应的量化损失为损失N个量化损失中的最小量化损失。

3.根据权利要求2所述的方法，其中，所述基于多个平滑系数分别对所述多个初始参数组进行平滑，得到多个平滑参数还包括：

根据所述K个初始参数组中初始参数的数值和硬件参数，分别确定与所述K个初始参数组对应的K个平滑系数范围，所述硬件参数为运行所述神经网络模型的硬件的运行参数；以及

根据所述K个平滑系数范围，生成所述N组平滑系数，所述每组平滑系数包括的K个平滑系数分别位于所述K个平滑系数范围内。

4.根据权利要求2所述的方法，其中，所述通过将多媒体数据作为待处理数据输入所述N个压缩后的神经网络模型，计算所述N个压缩后的神经网络模型的N个量化损失包括：

通过将多媒体数据作为待处理数据输入所述N个压缩后的神经网络模型，利用所述N个压缩后的神经网络模型对所述待处理数据进行数据运算，得到N个量化输出结果；

通过将所述待处理数据输入所述神经网络模型，利用所述神经网络模型进行对所述待处理数据进行数据运算，得到初始输出结果；以及

根据所述N个量化输出结果和所述初始输出结果，确定所述N个量化损失。

5.根据权利要求1所述的方法，其中，所述基于多个平滑系数，分别对所述多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数包括：

对于每个初始参数组，根据所述至少一个初始参数和多个平滑系数中对应的平滑系数，确定至少一个缩放值；以及

对于每个初始参数组，根据所述至少一个缩放值，对所述至少一个初始参数进行缩放，得到至少一个平滑参数；

其中，所述多个平滑参数包括所述多个初始参数组中每个初始参数组对应的至少一个平滑参数。

6.根据权利要求1所述的方法，其中，所述根据所述多个初始参数的数值范围，将所述多个初始参数划分为多个初始参数组包括：

根据所述多个初始参数的数值范围，确定所述多个初始参数中的多个异常值；以及

根据所述多个异常值的数值范围，将所述多个异常值划分为多个异常参数组，所述多个异常参数组的每个异常参数组包括至少一个异常值。

7.根据权利要求6所述的方法，其中，所述基于多个平滑系数，分别对所述多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数包括：

基于所述多个平滑参数，分别对多个异常参数组的每个异常参数组的至少一个异常值进行平滑，得到多个平滑异常值；以及

根据所述多个平滑异常值和所述多个初始参数中的多个正常值，生成所述多个平滑参数。

8.根据权利要求1所述的方法，其中，所述多个初始参数包括多个激活值和与所述多个激活值分别对应的多个权重值；所述根据所述多个初始参数的数值范围，将所述多个初始参数划分为多个初始参数组包括：

根据所述多个激活值的数值，对所述多个激活值进行聚类，得到多个激活值组，所述多个激活值组的每个激活值组包括至少一个激活值；以及

根据所述每个激活值组中至少一个激活值和所述至少一个激活值对应的至少一个权重值，生成所述多个初始参数组。

9.根据权利要求8所述的方法，其中，所述基于多个平滑系数，分别对所述多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数包括：

分别根据所述多个平滑系数，确定所述多个初始参数组中每个初始参数组的至少一个激活值对应的至少一个缩放值；

分别利用所述至少一个缩放值，缩小对应的初始参数组中的至少一个激活值，得到至少一个平滑激活值；以及

分别利用所述至少一个缩放值，放大对应的初始参数组中的至少一个权重值，得到至少一个平滑权重值。

10.根据权利要求9所述的方法，其中，所述通过处理器对所述多个平滑参数进行量化，得到压缩后的神经网络模型包括：

通过处理器对所述至少一个平滑激活值和所述至少一个平滑权重值进行量化，得到压缩后的神经网络模型。

11.一种压缩模型的训练方法，包括：

将作为样本数据的多媒体数据输入压缩模型，得到针对多个预定类别的概率向量，所述多媒体数据标注有类别信息；

根据所述类别信息和所述概率向量，确定所述压缩模型的损失值；以及

根据所述损失值，对所述压缩模型进行训练；

其中，所述压缩模型是采用权利要求1～10中任一项所述的方法得到的压缩后的神经网络模型。

12.一种多媒体数据的处理方法，包括：

将待处理的多媒体数据输入压缩模型，得到表示所述多媒体数据所属类别的概率向量，所述概率向量包括所述多媒体数据属于多个预定类别中每个预定类别的概率值；以及

根据所述概率向量，确定所述多个预定类别中所述多媒体数据所属的目标类别；

其中，所述压缩模型包括采用权利要求11所述的方法训练得到的模型。

13.一种神经网络模型的压缩装置，包括：

获取模块，用于通过将多媒体数据输入神经网络模型，从神经网络模型中获取多个初始参数；

划分模块，用于根据所述多个初始参数的数值范围，将所述多个初始参数划分为多个初始参数组，所述多个初始参数组的每个初始参数组包括所述多个初始参数中的至少一个初始参数；

平滑模块，用于通过处理器基于多个平滑系数，分别对所述多个初始参数组的每个初始参数组的至少一个初始参数进行平滑，得到多个平滑参数，所述多个平滑参数分别与所述多个初始参数一一对应；以及

量化模块，用于通过处理器对所述多个平滑参数进行量化，得到压缩后的神经网络模型；

其中，所述划分模块还用于：

其中，所述平滑模块还用于：

14.根据权利要求13所述的装置，其中，所述多个初始参数组包括K个初始参数组，K为正整数；所述平滑模块还用于：

分别基于N组平滑系数中每组平滑系数的K个平滑系数对所述K个初始参数组进行平滑，得到N个平滑参数组，所述N组平滑系数的每组平滑系数包括K个平滑系数，K个平滑系数与所述K个初始参数组一一对应，N为正整数，所述每个平滑参数组包括平滑后的K个初始参数组；

15.根据权利要求14所述的装置，其中，所述平滑模块还用于：

根据所述K个平滑系数范围，生成N组平滑系数，所述每组平滑系数包括的K个平滑系数分别位于所述K个平滑系数范围内。

16.根据权利要求14所述的装置，其中，所述平滑模块还用于：

通过将所述待处理数据输入所述神经网络模型，利用所述神经网络模型对所述待处理数据进行数据运算，得到初始输出结果；以及

17.根据权利要求13所述的装置，其中，所述平滑模块还用于：

18.根据权利要求13所述的装置，其中，所述划分模块还用于：

19.根据权利要求18所述的装置，其中，所述平滑模块还用于：

20.根据权利要求13所述的装置，其中，所述多个初始参数包括多个激活值和与所述多个激活值分别对应的多个权重值；所述划分模块还用于：

21.根据权利要求20所述的装置，其中，所述平滑模块还用于：

22.一种压缩模型的训练装置，包括：

第一输入模块，用于将作为样本数据的多媒体数据输入压缩模型，得到针对多个预定类别的概率向量，所述多媒体数据标注有类别信息；

第一确定模块，用于根据所述类别信息和所述概率向量，确定所述压缩模型的损失值；以及

训练模块，用于根据所述损失值，对所述压缩模型进行训练；

其中，所述压缩模型是采用权利要求13-21中任一项所述的装置得到的压缩后的神经网络模型。

23.一种多媒体数据的处理装置，包括：

第二输入模块，用于将待处理的多媒体数据输入压缩模型，得到表示所述多媒体数据所属类别的概率向量，所述概率向量包括所述多媒体数据属于多个预定类别中每个预定类别的概率值；以及

第二确定模块，用于根据所述概率向量，确定所述多个预定类别中所述多媒体数据所属的目标类别；

其中，所述压缩模型包括采用权利要求22所述的装置训练得到的模型。

24.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。

25.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。