CN116611495B

CN116611495B - 深度学习模型的压缩方法、训练方法、处理方法及装置

Info

Publication number: CN116611495B
Application number: CN202310730276.4A
Authority: CN
Inventors: 于广华; 王豪爽; 党青青; 沙燕霖; 于佃海
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2024-03-01
Anticipated expiration: 2043-06-19
Also published as: CN116611495A

Abstract

本公开提供了深度学习模型的压缩方法、训练方法、处理方法及装置，涉及人工智能技术领域，具体涉及深度学习、自然语言处理技术领域。该压缩方法的具体实现方案为：将文本数据输入初始模型，得到初始模型包括的依次连接的多个处理层中每个处理层的目标参数；其中，目标参数包括：每个处理层的权重参数和每个处理层的输入激活值；输入激活值是由位于每个处理层之前的处理层对文本数据处理后得到；根据多个处理层的目标参数的分布信息，调整初始模型的每个处理层之前的处理层的特征参数，得到第一中间模型；将文本数据输入第一中间模型，得到多个处理层的待量化参数；以及对待量化参数进行量化，得到与初始模型对应的压缩模型。

Description

深度学习模型的压缩方法、训练方法、处理方法及装置

技术领域

本公开涉及人工智能技术领域，具体涉及深度学习、自然语言处理技术领域。尤其涉及一种深度学习模型的压缩方法、训练方法、处理方法及装置。

背景技术

对模型参数的量化是实现模型压缩的一种有效方式。模型量化方法主要是通过对模型内的权重参数和/或激活值进行类型转换(例如将部分或全部的浮点型数据转化为低位整型数据)，来加快模型推理速度，降低对硬件的要求。

发明内容

本公开提供了一种深度学习模型的压缩方法、训练方法、处理方法及装置。以便在对自然语言处理技术领域中的深度学习模型进行压缩时，降低对深度学习模型预测精度的损失。

根据本公开的一方面，提供了一种深度学习模型的压缩方法，包括：将文本数据输入初始模型，得到初始模型包括的依次连接的多个处理层中每个处理层的目标参数；其中，目标参数包括：每个处理层的权重参数和每个处理层的输入激活值；输入激活值是由位于每个处理层之前的处理层对文本数据处理后得到；根据多个处理层的目标参数的分布信息，调整初始模型的每个处理层之前的处理层的特征参数，得到第一中间模型；其中，第一中间模型的每个处理层的目标参数的分布满足预定函数；特征参数包括特征偏移参数和特征缩放参数；将文本数据输入第一中间模型，得到多个处理层的待量化参数；以及对待量化参数进行量化，得到与初始模型对应的压缩模型。

根据本公开的另一方面，提供了一种压缩模型的训练方法，包括：将样本文本数据输入压缩模型，得到针对多个预定类别的第一匹配概率；样本文本数据标注有样本类别信息；根据样本类别信息和第一匹配概率，确定压缩模型的损失值；以及根据损失值，调整压缩模型的模型参数，得到经训练的压缩模型；其中，压缩模型是采用上述深度学习模型的压缩方法得到的压缩后的深度学习模型。

根据本公开的另一方面，提供了一种文本数据处理方法，包括：将待处理的文本数据输入压缩模型，得到表示文本数据所属类别的匹配概率；匹配概率包括文本数据属于多个预定类别中每个预定类别的概率值；以及根据匹配概率，确定文本数据所属的目标类别；其中，压缩模型是采用上述深度学习模型的压缩方法得到的压缩后的深度学习模型。

根据本公开的另一方面，提供了一种深度学习模型的压缩装置，包括：第一处理模块、调整模块、第二处理模块和量化模块。第一处理模块，用于将文本数据输入初始模型，得到初始模型包括的依次连接的多个处理层中每个处理层的目标参数；其中，目标参数包括：每个处理层的权重参数和每个处理层的输入激活值；输入激活值是由位于每个处理层之前的处理层对文本数据处理后得到。调整模块，用于根据多个处理层的目标参数的分布信息，调整初始模型的每个处理层之前的处理层的特征参数，得到第一中间模型；其中，第一中间模型的每个处理层的目标参数的分布满足预定函数；特征参数包括特征偏移参数和特征缩放参数。第二处理模块，用于将文本数据输入第一中间模型，得到多个处理层的待量化参数。量化模块，用于对待量化参数进行量化，得到与初始模型对应的压缩模型。

根据本公开的另一方面，提供了一种压缩模型的训练装置，包括：第一获得模块、第一确定模块和训练模块。第一获得模块，用于将样本文本数据输入压缩模型，得到针对多个预定类别的第一匹配概率；样本文本数据标注有样本类别信息。第一确定模块，用于根据样本类别信息和第一匹配概率，确定压缩模型的损失值。训练模块，用于根据损失值，调整压缩模型的模型参数，得到经训练的压缩模型；其中，压缩模型是采用上述深度学习模型的压缩方法得到的压缩后的深度学习模型。

根据本公开的另一方面，提供了一种文本数据处理装置，包括：第二获得模块和第二确定模块。第二获得模块，用于将待处理的文本数据输入压缩模型，得到表示文本数据所属类别的匹配概率；匹配概率包括文本数据属于多个预定类别中每个预定类别的概率值。第二确定模块，用于根据匹配概率，确定文本数据所属的目标类别；其中，压缩模型是采用上述深度学习模型的压缩方法得到的压缩后的深度学习模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如上的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使所述计算机执行如上的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如上的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用深度学习模型的压缩方法、训练方法、处理方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的深度学习模型的压缩方法的流程图；

图3示意性示出了根据本公开实施例的深度学习模型的压缩方法的原理示意图；

图4示意性示出了根据本公开实施例的对输入激活值进行偏移校正的示意图；

图5示意性示出了根据本公开实施例的对权重参数进行偏移校正的示意图；

图6示意性示出了根据本公开实施例的对输入激活值进行缩放校正的示意图；

图7示意性示出了根据本公开实施例的压缩模型训练方法的流程图；

图8示意性示出了根据本公开实施例的文本数据处理方法的流程图；

图9示意性示出了根据本公开实施例的深度学习模型的压缩装置的框图；

图10示意性示出了根据本公开实施例的压缩模型训练装置的框图；

图11示意性示出了根据本公开实施例的文本数据处理装置的框图；以及

图12示意性示出了根据本公开实施例的适于实现深度学习模型的压缩方法或训练方法或处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

由于深度学习模型的参数量较大，限制了深度学习模型在计算资源有限的硬件设备上的部署和应用。因此，可以通过对深度学习模型的参数进行压缩，以减小模型体积和推理时间。

模型量化是一种有效的模型压缩方式。常用的模型量化方法可以包括量化训练(Quantization Aware Training)和离线量化(Post Training Quantization)两种方式。其中，量化训练方法需要对全精度模型进行微调训练，耗时和周期比较长。而离线量化方法只需要少量数据对模型进行校准，快速且实用，因而得到广泛应用。

但是，由于深度学习模型，例如：语言生成模型的模型参数分布较为分散，尤其是输入激活值，该输入激活值随着样本数据的特征变化较大，因此，输入激活值的分散程度也更大。在对这些分散的模型参数进行量化之后，对深度学习模型的精度损失较大。

有鉴于此，本公开实施例提供了一种深度学习模型的压缩方法，通过调整深度学习模型的每个处理层之前的处理层的特征参数，对输入激活值和权重参数分别进行偏移校正之后，再对输入激活值进行缩放校正，使得输入激活值和权重参数的分布均相对于原点对称且集中，降低量化过程对深度学习模型精度的损失。

图1示意性示出了根据本公开实施例的可以应用深度学习模型的压缩方法、训练方法、处理方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用深度学习模型的压缩方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的深度学习模型的压缩方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备102。终端设备102可以加载有压缩模型104，以根据加载的压缩模型103对文本数据101进行处理，得到与文本数据对应的类别103。该压缩模型104可以是采用深度学习模型的压缩方法对预训练的深度学习模型进行压缩后得到的模型。

终端设备102可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

根据本公开的实施例，该实施例的系统架构100还可以包括服务器105。该服务器105可以采用深度学习模型的压缩方法对预训练得到的深度学习模型进行压缩，得到压缩后的模型。该服务器105例如还可以对压缩后的模型进行训练，具体可以是对压缩后的模型中的权重参数等进行微调，得到训练好的压缩模型104，以供终端设备101加载。

需要说明的是，本公开提供的深度学习模型的压缩方法和/或压缩模型的训练方法可以由服务器105执行，也可以由与服务器105通信连接的其他服务器执行。相应地，本公开提供的深度学习模型的压缩装置和/或压缩模型的训练装置可以设置在服务器105中，也可以设置在与服务器105通信连接的其他服务器中。本公开提供的文本数据的处理方法可以由终端设备102执行。相应地，本公开提供的文本数据的处理装置可以设置在终端设备102中。

应该理解，图1中的终端设备102和服务器105的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备和服务器。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

以下将结合图2～图6对本公开提供的深度学习模型的压缩方法进行详细描述。

图2示意性示出了根据本公开实施例的深度学习模型的压缩方法的流程图。

如图2所示，该实施例200的深度学习模型的压缩方法可以包括操作S210～S240。

在操作S210，将文本数据输入初始模型，得到初始模型包括的依次连接的多个处理层中每个处理层的目标参数。

在操作S220，根据多个处理层的目标参数的分布信息，调整初始模型的每个处理层之前的处理层的特征参数，得到第一中间模型；其中，第一中间模型的每个处理层的目标参数的分布满足预定函数；特征参数包括特征偏移参数和特征缩放参数。

在操作S230，将文本数据输入第一中间模型，得到多个处理层的待量化参数。

在操作S240，对待量化参数进行量化，得到与初始模型对应的压缩模型。

根据本公开的实施例，初始模型可以是预训练得到的深度学习模型。例如：文心模型(ERNIE)或者生成式预训练Transformer模型(Generative Pre-trained Transformer，GPT)等。

根据本公开的实施例，初始模型的每个处理层可以依次包括：嵌入层、编码层、解码层、全连接层和逻辑回归层等。初始模型的每个处理层可以与初始模型的类型相对应。

根据本公开的实施例，目标参数的分布信息可以表征每个处理层的输入激活值的取值范围和权重参数的取值范围。

需要说明的是，输入激活值的取值范围是根据样本数据的不同动态变化的。因此，为了较为准确地确定输入激活值的取值范围，可以将初始模型的训练集中的全部文本数据输入初始模型，得到每个处理层的输入激活值，进而确定每个处理层的输入激活值的取值范围。

例如：文本数据可以分批输入初始模型，得到每一批次的每个处理层的输入激活值的最小值和输入激活值的最大值。针对某处理层，例如：全连接层，可以将全部批次的全连接层的输入激活值进行排序，并根据全部批次的全连接层的输入激活值的最小值X₁和最小值X₂，确定该全连接层的输入激活值的取值范围[X₁，X₂]。

根据本公开的实施例，权重参数的取值范围与样本数据的变化无关，对于预训练的初始模型，权重参数的取值范围是固定的。

例如：在预训练的初始模型中，某处理层的权重参数的最小值可以是w₁，最大值可以是w₂，因此，可以确定该处理层的权重参数的取值范围是[w₁，w₂]。

根据本公开的实施例，目标参数包括：每个处理层的权重参数和每个处理层的输入激活值；输入激活值是由位于每个处理层之前的处理层对文本数据处理后得到。

根据本公开的实施例，每个处理层之前的处理层可以是特征归一化层。特征参数可以包括特征偏移参数scale和特征缩放参数bias。

根据本公开的实施例，通过调整初始模型的特征归一化层的特征偏移参数和特征缩放参数，得到第一中间模型。使得第一中间模型的每个处理层的输入激活值的分布和权重参数的分布满足预定函数。预定函数可以能够拟合出权重参数分布的高斯分布函数和拟合出输入激活值分布的高斯分布函数。该预定函数表征第一中间模型的每个处理层的权重参数的分布是相对于原点对称且分布集中的，每个处理层的输入激活值的分布也是相对于原点对称且分布集中的。

例如：初始模型的全连接层的输入激活值的取值范围[X₁，X₂]，权重参数的取值范围是[w₁，w₂]。通过调整初始模型的特征归一化层的特征偏移参数和特征缩放参数，得到的第一中间模型的全连接层的输入激活值的取值范围[-X₃，X₃]，权重参数的取值范围是[-w₃，w₃]。且各输入激活值在输入激活值的取值范围内分布集中，各权重参数在权重参数的取值范围内分布集中。

根据本公开的实施例，根据本公开的实施例，输入激活值可以为文本数据的嵌入特征值。对于深度学习模型的多个处理层中除排在最前位置的处理层之外的任一处理层，输入激活值为该任一处理层的前一处理层输出的特征数据。例如：Layer-Norm层。

根据本公开的实施例，将文本数据输入第一中间模型，得到多个处理层的待量化参数。待量化参数可以包括输入激活值和权重参数。

根据本公开的实施例，可以按照式(1-1)和(1-2)对待量化参数进行量化，得到与初始模型对应的压缩模型。

x_q＝clip(round(m·×)，-2^b-1，2^b-1) (1-2)

其中，m表示量化系数，b表示量化精度(在本公开实施例中b可以为int8)，α表示待量化参数中绝对值最大的参数；x_q表示量化后的参数，x表示待量化的参数；round()表示取整操作，clip表示用最大值最小值去截断。

需要说明的是，由于输入激活值随文本数据的特征动态变化，因此对与输入激活值的量化过程也是动态量化的。

根据本公开的实施例，通过调整深度学习模型的每个处理层之前的处理层的特征参数，对输入激活值和权重参数分别进行偏移校正之后，再对输入激活值进行缩放校正，使得输入激活值和权重参数的分布均相对于原点对称且集中，降低量化过程对深度学习模型精度的损失。

图3示意性示出了根据本公开实施例的深度学习模型的压缩方法的原理示意图。

如图3所示，该实施例300中，深度学习模型中可以包括处理层TL₁301和处理层TL₂302。可以理解的是，深度学习模型中可以包括多个处理层，对于每一个待压缩权重参数的处理层，可以视为处理层TL₂。对于每一个带压缩权重参数的处理层之前的处理层，可以视为处理层TL₁。

在初始模型中，处理层TL₁的特征参数3011可以包括特征偏移参数scale0和特征缩放参数bias0。相应地，处理层TL₂的目标参数的取值范围3021可以包括权重参数的取值范围[w1,w2]、输入激活值的取值范围[X1，X2]。

通过对处理层TL₁的特征参数3011，基于偏移校正参数，进行偏移校正之后，得到的处理层TL₁的特征参数3012可以包括特征偏移参数scale1和特征缩放参数bias1。相应地，处理层TL₂的目标参数的取值范围3022变更为权重参数的取值范围[-w3,w3]、输入激活值的取值范围[-X3,X3]。此时，处理层TL₂的目标参数的取值范围相对于原点对称。

经过对输入激活值和权重参数进行偏移校正之后，由于输入激活值分布的分散程度大于权重参数分布的分散程度，即：输入激活值的离群点数量大于权重参数的离群点数量。可以理解的是，可以基于输入激活值的分布，通过调整目标处理层之前的处理层的缩放校正参数，使得输入激活值分布集中，与此同时，该目标层的权重参数的分布也会集中。

针对目标处理层，基于缩放校正参数，将目标处理层之前的处理层(例如：可以是处理层TL1301)进行缩放校正之后，得到的处理层TL₁301的特征参数3013可以包括特征偏移参数scale2和特征缩放参数bias2。相应地，处理层TL₂的目标参数的取值范围3023变更为权重参数的取值范围[-w4，w4]、输入激活值的取值范围[-X4,X4]。此时，处理层TL₂的目标参数不仅相对于原点对称，且分布集中。

将文本数据输入经过偏移校正和缩放校正的第一中间模型，得到待量化的权重参数3024。并通过对待量化的权重参数3024进行量化，得到压缩模型3025。

根据本公开的实施例，上述操作S220可以包括如下操作：根据每个处理层的输入激活值的分布信息，调整初始模型的每个处理层之前的处理层的特征参数，得到第二中间模型；将文本数据输入第二中间模型，得到第二中间模型的每个处理层的权重参数的分布信息；根据第二中间模型的每个处理层的权重参数的分布信息，调整第二中间模型的每个处理层之前的处理层的特征参数，得到第三中间模型；将文本数据输入第三中间模型，得到第三中间模型的每个处理层的输入激活值的分布信息和每个处理层的权重参数的分布信息；以及根据第三中间模型的每个处理层的输入激活值的分布信息和每个处理层的权重参数的分布信息，调整第三中间模型的每个处理层之前的处理层的特征参数，得到第一中间模型。

由于输入激活值的分布的分散程度大于权重参数的分布的分散程度，在进行偏移校正时，可以先基于输入激活值的分布信息，调整初始模型的每个处理层之前的处理层的特征参数，以使得第二中间模型的每个处理层的输入激活值的分布相对于原点对称。

根据本公开的实施例，可以针对每个处理层，根据输入激活值的分布信息，得到输入激活值的第一取值范围；根据第一取值范围，得到输入激活值的偏移校正参数；以及根据输入激活值的偏移校正参数，调整初始模型的每个处理层之前的处理层的特征参数，得到第二中间模型。

例如：根据初始模型的某一处理层的输入激活值的分布信息，可以得到该处理层的输入激活值的最大值和输入激活值的最小值。例如：输入激活值的最大值可以是3，输入激活值的最小值可以是-7。此时，输入激活值的取值范围相对于原点是不对称的。

根据本公开的实施例，第二中间模型的输入激活值的取值范围是相对于原点对称的。在不改变输入激活值的数值值域宽度的情况下，可以对输入激活值进行偏移校正，以将输入激活值的取值范围变更为[-5，5]。

在深度学习模型中，对特征数据的处理是基于矩阵乘进行的，在输入激活值的偏移校正过程中，如式(2)所示：

Y＝(X+z₁)*W^T+β (2)

其中，Y表示处理层的输出数据，X表示该处理层的输入激活值，W^T表示权重参数，β表示矩阵乘系数，z₁表示输入激活值的偏移校正参数。

根据本公开的实施例，输入激活值X是该处理层之前的处理层的输出数据。输入激活值X是该处理层之前的处理层基于特征偏移参数scale和特征缩放参数bias对特征数据进行归一化处理得到的。为了确保在对输入激活值的偏移校正过程中，该处理层的输出数据不变，可以对特征缩放参数bias按照式(3)进行调整。

bias_shift＝z₁W^T+β (3)

其中，bias_shift表示校正后的特征缩放参数，z₁表示输入激活值的偏移校正参数，W^T表示权重参数。

图4示意性示出了根据本公开实施例的对输入激活值进行偏移校正的示意图。

如图4所示，在实施例400中，在对权重参数进行偏移校正的过程中，Layer-Norm层411的特征缩放参数bias变更为bias为z₁W^T+β。FFN(Feed Forward Network)层412的输入激活值由X变更为X+z。相应地，FFN层412的输出值在偏移校正前后保持不变。

根据本公开的实施例，基于偏移校正参数调整初始模型的每个处理层之前的处理层的特征参数，实现了在对输入激活值偏移校正过程中，被校正的输入激活值对应的处理层的输出数据不变，从而确保深度学习模型的精度。

在完成输入激活值的偏移校正之后，需要将文本数据输入第二中间模型，进行前向预测，得到第二中间模型的权重参数的分布信息。以便基于第二中间模型的权重参数的分布信息，对权重参数进行偏移校正。

根据第二中间模型的每个处理层的权重参数的分布信息，调整第二中间模型的每个处理层之前的处理层的特征参数，得到第三中间模型，可以包括如下操作：针对每个处理层，根据权重参数的分布信息，得到权重参数的第二取值范围；根据第二取值范围，得到权重参数的偏移校正参数；以及根据权重参数的偏移校正参数，调整第二中间模型的每个处理层之前的处理层的特征参数，得到第三中间模型。

例如：根据第二中间模型的某一处理层的权重参数的分布信息，可以得到该处理层的权重参数的最大值和输入激活值的最小值。例如：权重参数的最大值可以是6，权重参数的最小值可以是2。此时，权重参数的取值范围相对于原点是不对称的。

根据本公开的实施例，第三中间模型的权重参数的取值范围是相对于原点对称的。在不改变权重参数的数值值域宽度的情况下，可以对权重参数进行偏移校正，以将权重参数的取值范围变更为[-4，4]。

在深度学习模型中，对特征数据的处理是基于矩阵乘进行的，在权重参数的偏移校正过程中，如式(4)所示：

Y＝X*(W^T-z₂)+β (4)

其中，Y表示处理层的输出数据，X表示该处理层的输入激活值，W^T表示权重参数，β表示矩阵乘系数，z₂表示权重参数的偏移校正参数。

为了确保在对权重参数的偏移校正过程中，该处理层的输出数据不变，可以对特征偏移参数scale和特征缩放参数bias按照式(5)和式(6)进行调整。

scale_ln1＝scale*(1+z₂) (5)

bias_ln1＝bias_shift*(1+z₂) (6)

其中，scale_ln1表示第三中间模型的特征偏移参数；bias_ln1表示第三中间模型的特征缩放参数；scale表示第二中间模型的特征偏移参数；bias表示第二中间模型的特征缩放参数；z₂表示偏移校正参数。

需要说明的是，由于在对输入激活值进行偏移校正的过程中，没有对特征偏移参数进行调整，因此，第二中间模型的特征偏移参数与初始模型的特征偏移参数相同。

图5示意性示出了根据本公开实施例的对权重参数进行偏移校正的示意图。

如图5所示，在实施例500中，在对权重参数进行偏移校正的过程中，Layer-Norm层511的特征偏移参数scale变更为scale(1+z)，特征缩放参数bias变更为bias(1+z)。FFN(Feed Forward Network)层512的输入激活值由X变更为X(1+z)。相应地，FFN层412的输出值在偏移校正前后保持不变。

根据本公开的实施例，基于偏移校正参数调整初始模型的每个处理层之前的处理层的特征参数，实现了在对权重参数偏移校正过程中，被校正的权重参数对应的处理层的输出数据不变，从而确保深度学习模型的精度。

在完成对输入激活值和权重参数的联合偏移校正之后，将文本数据输入第三中间模型，可以得到第三中间模型的每个处理层的输入激活值的分布信息和每个处理层的权重参数的分布信息。

由于第三中间模型的每个处理层的输入激活值的分散程度大于每个处理层的权重参数的分散程度，因此，可以针对性地对输入激活值的分散程度较大的处理层进行缩放校正，以减少缩放校正过程中的数据处理量。

根据第三中间模型的每个处理层的输入激活值的分布信息和每个处理层的权重参数的分布信息，调整第三中间模型的每个处理层之前的处理层的特征参数，得到第一中间模型，可以包括如下操作：根据第三中间模型的每个处理层的输入激活值的分布信息，得到输入激活值的缩放阈值；根据输入激活值的缩放阈值，从第三中间模型中确定待调整的目标处理层；根据目标处理层的输入激活值的分布信息和目标处理层的权重参数的分布信息，调整目标处理层之前的处理层的特征参数，得到第一中间模型。

根据本公开的实施例，根据第三中间模型的每个处理层的输入激活值的分布信息，可以得到输入激活值的缩放阈值。输入激活值的缩放阈值可以如式(7)所示：

其中，表示输入激活值的均值，/>表示输入激活值的方差；threshold表示缩放阈值。

根据本公开的实施例，可以基于缩放阈值，从第三中间模型中确定待调整的目标处理层。

例如：可以按照式(7)对第三中间模型的全部处理层的输入激活值进行处理，得到第三中间模型的输入激活值的平均缩放阈值。在某处理层的缩放阈值大于平均缩放阈值的情况下，可以将该处理层确定为目标处理层。

根据本公开的实施例，基于输入激活值的缩放阈值确定目标处理层，可以针对性地消除输入激活值的离群点，提高输入激活值的分布集中度，减小缩放校正的处理量。

根据本公开的实施例，根据目标处理层的输入激活值的分布信息和目标处理层的权重参数的分布信息，调整目标处理层之前的处理层的特征参数，得到第一中间模型，可以包括如下操作：根据目标处理层的输入激活值的分布信息和目标处理层的权重参数的分布信息，得到缩放校正参数；以及基于缩放校正参数，调整目标处理层之前的处理层的特征参数，得到第一中间模型。

根据本公开的实施例，根据目标处理层的输入激活值的分布信息和目标处理层的权重参数的分布信息，得到缩放校正参数，可以包括如下操作：根据目标处理层的输入激活值的分布信息，得到目标处理层的输入激活值的阈值；根据目标处理层的权重参数的分布信息，得到目标处理层的权重参数的阈值；以及根据输入激活值的阈值、权重参数的阈值和预定缩放参数，得到缩放校正参数。

在输入激活值的缩放校正过程中，如式(8)所示：

Y1＝W1^T*(X1/s)+β (8)

其中，Y1表示处理层的输出数据，X1表示该处理层的输入激活值，W1^T表示权重参数，β表示矩阵乘系数，s表示缩放校正参数。

根据本公开的实施例，为了确保在对输入激活值的缩放校正过程中，该处理层的输出数据不变，可以对第三中间模型的特征偏移参数scale_ln1和第三中间模型的特征缩放参数bias_ln1按照式(9)和式(10)进行调整。

scale_ln2＝scale_ln1*s (9)

bias_ln2＝bias_ln1*s (10)

其中，scale_ln2表示第一中间模型的特征偏移参数；bias_ln2表示第一中间模型的征缩放参数。

图6示意性示出了根据本公开实施例的对输入激活值进行缩放校正的示意图。

如图6所示，在实施例600中，在对输入激活值进行缩放校正的过程中，Layer-Norm层611的特征偏移参数scale变更为scale×s，特征缩放参数bias变更为bias×s。FFN(FeedForward Network)层612的输入激活值由X变更为X×s。相应地，FFN层612的输出值在偏移校正前后保持不变。

根据本公开的实施例，通过对目标处理层之间的处理层的特征参数进行缩放，实现对目标处理的权重参数的缩放校正，每个处理层的输出数据不变，降低输入激活值的缩放校正的过程对深度学习模型精度的影响。

根据本公开的实施例，将文本数据输入第一中间模型，得到多个处理层的待量化参数，可以包括如下操作：将文本数据输入第一中间模型，得到多个处理层的输入激活值的和权重参数；根据多个处理层的输入激活值和权重参数，得到待量化参数。

例如：以多个处理层中任一处理层为例，将文本数据输入第一中间模型，可以得到该处理层的全部输入激活值，即可以确定该处理层的输入激活值的绝对值的最大值。即前文所述的公式(1-1)中的α，在确定量化精度的情况下，例如：int8，量化系数m可以确定。则可以按照式(1-2)对输入激活值进行动态量化。

根据本公开的实施例，对于权重参数，将文本数据输入第一中间模型，得到的多个处理层的权重参数，可以直接确定为待量化参数，即，对权重参数的量化过程是静态的。

图7示意性示出了根据本公开实施例的压缩模型的训练方法流程图。

如图7所示，该训练方法700可以包括操作S710～S730。

在操作S710，将样本文本数据输入压缩模型，得到针对多个预定类别的第一匹配概率。

在操作S720，根据样本类别信息和第一匹配概率，确定压缩模型的损失值。

在操作S730，根据损失值，调整压缩模型的模型参数，得到经训练的压缩模型。

根据本公开的实施例，压缩模型可以通过加载上文描述的深度学习模型的压缩方法得到的压缩后的深度学习模型而得到。

根据本公开的实施例，样本文本数据可以是对初始模型(即压缩之前的深度学习模型)进行训练时所用的训练集中的部分或全部样本文本数据。例如：可以按照实际需求，随机从训练集中抽取10％、15％或其他比例的样本文本数据。

根据本公开的实施例，第一匹配概率可以表征压缩模型对样本文本数据进行预测得到的该样本文本数据属于多个预定类别中的某一类别的匹配概率值。样本文本数据可以标注有该样本文本数据的真实样本类别信息。

根据本公开的实施例，可以基于损失函数，根据样本类别信息和第一匹配概率，得到压缩模型的损失值。例如：损失函数可以是交叉熵损失函数、均方误差损失函数(即L2损失函数)或铰链损失(Hinge Loss)函数等，本公开对此不做限定。

根据本公开的实施例，可以以最小化损失值为目标，采用梯度下降算法来对压缩模型中的权重参数等网络参数进行调整，实现对压缩模型的训练，直至损失值最小，得到经训练的压缩模型。

根据本公开的实施例，通过利用样本文本数据对压缩模型进行训练，可以进一步提高压缩模型的预测精度。

图8示意性示出了根据本公开实施例的文本数据处理方法流程图。

如图8所示，该文本数据处理方法800可以包括操作S810～操作S820。

在操作S810，将待处理的文本数据输入压缩模型，得到表示文本数据所属类别的匹配概率。

在操作S820，根据匹配概率，确定文本数据所属的目标类别。

根据本公开的实施例，该操作S810的实现原理与上文描述的操作S710的实现原理类似。匹配概率可以包括文本数据属于多个预定类别中每个预定类别的概率值，在此不再赘述。可以理解的是，压缩模型例如可以是采用上文描述的压缩模型的训练方法得到的训练完成的压缩模型。

根据本公开的实施例，可以将匹配概率最大值对应的类别确定为文本数据的目标类别。

根据本公开的实施例，利用压缩模型对文本数据进行处理，可以实现在计算资源有限的硬件内完成对较为复杂的文本数据的处理过程，减小了计算资源占用空间对深度学习模型应用范围的限制。

图9示意性示出了根据本公开实施例的深度学习模型的压缩装置的框图。

如图9所示，该深度学习模型的压缩装置900可以包括第一处理模块910、调整模块920、第二处理模块930和量化模块940。

第一处理模块910，用于将文本数据输入初始模型，得到初始模型包括的依次连接的多个处理层中每个处理层的目标参数；其中，目标参数包括：每个处理层的权重参数和每个处理层的输入激活值；输入激活值是由位于每个处理层之前的处理层对文本数据处理后得到。

调整模块920，用于根据多个处理层的目标参数的分布信息，调整初始模型的每个处理层之前的处理层的特征参数，得到第一中间模型；其中，第一中间模型的每个处理层的目标参数的分布满足预定函数；特征参数包括特征偏移参数和特征缩放参数。

第二处理模块930，用于将文本数据输入第一中间模型，得到多个处理层的待量化参数。

量化模块940，用于对待量化参数进行量化，得到与初始模型对应的压缩模型。

根据本公开的实施例，调整模块可以包括：第一调整子模块、第一处理子模块、第二调整子模块、第二处理子模块和第三调整子模块。

第一调整子模块，用于根据每个处理层的输入激活值的分布信息，调整初始模型的每个处理层之前的处理层的特征参数，得到第二中间模型。

第一处理子模块，用于将文本数据输入第二中间模型，得到第二中间模型的每个处理层的权重参数的分布信息。

第二调整子模块，用于根据第二中间模型的每个处理层的权重参数的分布信息，调整第二中间模型的每个处理层之前的处理层的特征参数，得到第三中间模型。

第二处理子模块，用于将文本数据输入第三中间模型，得到第三中间模型的每个处理层的输入激活值的分布信息和每个处理层的权重参数的分布信息。

第三调整子模块，用于根据第三中间模型的每个处理层的输入激活值的分布信息和每个处理层的权重参数的分布信息，调整第三中间模型的每个处理层之前的处理层的特征参数，得到第一中间模型。

根据本公开的实施例，第一调整子模块可以包括：第一获得单元、第二获得单元和第一调整单元。第一获得单元，用于针对每个处理层，根据输入激活值的分布信息，得到输入激活值的第一取值范围。第二获得单元，用于根据第一取值范围，得到输入激活值的偏移校正参数。第一调整单元，用于根据输入激活值的偏移校正参数，调整初始模型的每个处理层之前的处理层的特征参数，得到第二中间模型。

根据本公开的实施例，第二调整子模块可以包括：第三获得单元、第四获得单元和第二调整单元。第三获得单元，用于针对每个处理层，根据权重参数的分布信息，得到权重参数的第二取值范围。第四获得单元，用于根据第二取值范围，得到权重参数的偏移校正参数。第二调整单元，用于根据权重参数的偏移校正参数，调整第二中间模型的每个处理层之前的处理层的特征参数，得到第三中间模型。

根据本公开的实施例，第三调整子模块可以包括：第五获得单元、确定单元和第三调整单元。第五获得单元，用于根据第三中间模型的每个处理层的输入激活值的分布信息，得到输入激活值的缩放阈值。确定单元，用于根据输入激活值的缩放阈值，从第三中间模型中确定待调整的目标处理层。第三调整单元，用于根据目标处理层的输入激活值的分布信息和目标处理层的权重参数的分布信息，调整目标处理层之前的处理层的特征参数，得到第一中间模型。

根据本公开的实施例，第三调整单元可以包括：第一获得子单元和第一调整子单元。第一获得子单元，用于根据目标处理层的输入激活值的分布信息和目标处理层的权重参数的分布信息，得到缩放校正参数。第一调整子单元，用于基于缩放校正参数，调整目标处理层之前的处理层的特征参数，得到第一中间模型。

根据本公开的实施例，第一获得子单元用于：根据目标处理层的输入激活值的分布信息，得到目标处理层的输入激活值的阈值；根据目标处理层的权重参数的分布信息，得到目标处理层的权重参数的阈值；以及根据输入激活值的阈值、权重参数的阈值和预定缩放参数，得到缩放校正参数。

根据本公开的实施例，第二处理模块可以包括：第三处理子模块和获得子模块。第三处理子模块，用于将文本数据输入第一中间模型，得到多个处理层的输入激活值的和权重参数。获得子模块，用于根据多个处理层的输入激活值和权重参数，得到待量化参数。

图10示意性示出了根据本公开实施例的压缩模型训练装置的框图。

如图10所示，该训练装置1000可以包括第一获得模块1010、第一确定模块1020和训练模块1030。

第一获得模块1010，用于将样本文本数据输入压缩模型，得到针对多个预定类别的第一匹配概率；样本文本数据标注有样本类别信息。

第一确定模块1020，用于根据样本类别信息和第一匹配概率，确定压缩模型的损失值。

训练模块1030，用于根据损失值，调整压缩模型的模型参数，得到经训练的压缩模型；其中，压缩模型是采用前文描述的深度学习模型的压缩方法得到的压缩后的深度学习模型。

图11示意性示出了根据本公开实施例的文本数据处理装置的框图。

如图11所示，该文本数据处理装置1100可以包括第二获得模块1110和第二确定模块1120。

第二获得模块1110，用于将待处理的文本数据输入压缩模型，得到表示文本数据所属类别的匹配概率；匹配概率包括文本数据属于多个预定类别中每个预定类别的概率值。

第二确定模块1120，用于根据匹配概率，确定文本数据所属的目标类别；其中，压缩模型是采用前文描述的深度学习模型的压缩方法得到的压缩后的深度学习模型。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如深度学习模型的压缩方法或压缩模型的训练方法或文本数据的处理方法。例如，在一些实施例中，深度学习模型的压缩方法或压缩模型的训练方法或文本数据的处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的深度学习模型的压缩方法或压缩模型的训练方法或文本数据的处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行深度学习模型的压缩方法或压缩模型的训练方法或文本数据的处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种深度学习模型的压缩方法，包括：

将文本数据输入初始模型，得到初始模型包括的依次连接的多个处理层中每个处理层的目标参数；其中，所述目标参数包括：所述每个处理层的权重参数和所述每个处理层的输入激活值；所述输入激活值是由位于所述每个处理层之前的处理层对所述文本数据处理后得到，其中，所述每个处理层之前的处理层表征特征归一化层；

根据所述多个处理层的目标参数的分布信息，调整所述初始模型的每个处理层之前的处理层的特征参数，得到第一中间模型；其中，所述第一中间模型的每个处理层的目标参数的分布满足预定函数；所述特征参数包括特征偏移参数和特征缩放参数；

将所述文本数据输入所述第一中间模型，得到所述多个处理层的待量化参数；以及

对所述待量化参数进行量化，得到与所述初始模型对应的压缩模型。

2.根据权利要求1所述的方法，其中，所述根据所述多个处理层的目标参数的分布信息，调整所述初始模型的每个处理层之前的处理层的特征参数，得到第一中间模型，包括：

根据所述每个处理层的输入激活值的分布信息，调整所述初始模型的每个处理层之前的处理层的特征参数，得到第二中间模型；

将所述文本数据输入所述第二中间模型，得到所述第二中间模型的每个处理层的权重参数的分布信息；

根据所述第二中间模型的每个处理层的权重参数的分布信息，调整所述第二中间模型的每个处理层之前的处理层的特征参数，得到第三中间模型；

将所述文本数据输入所述第三中间模型，得到所述第三中间模型的每个处理层的输入激活值的分布信息和每个处理层的权重参数的分布信息；以及

根据所述第三中间模型的每个处理层的输入激活值的分布信息和每个处理层的权重参数的分布信息，调整所述第三中间模型的每个处理层之前的处理层的特征参数，得到所述第一中间模型。

3.根据权利要求2所述的方法，其中，所述根据所述每个处理层的输入激活值的分布信息，调整所述初始模型的每个处理层之前的处理层的特征参数，得到第二中间模型，包括：

针对所述每个处理层，根据所述输入激活值的分布信息，得到输入激活值的第一取值范围；

根据所述第一取值范围，得到输入激活值的偏移校正参数；以及

根据所述输入激活值的偏移校正参数，调整所述初始模型的每个处理层之前的处理层的特征参数，得到所述第二中间模型。

4.根据权利要求2所述的方法，其中，所述根据所述第二中间模型的每个处理层的权重参数的分布信息，调整所述第二中间模型的每个处理层之前的处理层的特征参数，得到所述第三中间模型，包括：

针对所述每个处理层，根据所述权重参数的分布信息，得到权重参数的第二取值范围；

根据所述第二取值范围，得到权重参数的偏移校正参数；以及

根据所述权重参数的偏移校正参数，调整所述第二中间模型的每个处理层之前的处理层的特征参数，得到所述第三中间模型。

5.根据权利要求2所述的方法，其中，所述根据第三中间模型的每个处理层的输入激活值的分布信息和每个处理层的权重参数的分布信息，调整所述第三中间模型的每个处理层之前的处理层的特征参数，得到所述第一中间模型，包括：

根据所述第三中间模型的每个处理层的输入激活值的分布信息，得到输入激活值的缩放阈值；

根据所述输入激活值的缩放阈值，从所述第三中间模型中确定待调整的目标处理层；

根据所述目标处理层的输入激活值的分布信息和所述目标处理层的权重参数的分布信息，调整所述目标处理层之前的处理层的特征参数，得到所述第一中间模型。

6.根据权利要求5所述的方法，其中，所述根据所述目标处理层的输入激活值的分布信息和所述目标处理层的权重参数的分布信息，调整所述目标处理层之前的处理层的特征参数，得到所述第一中间模型，包括：

根据所述目标处理层的输入激活值的分布信息和所述目标处理层的权重参数的分布信息，得到缩放校正参数；以及

基于所述缩放校正参数，调整所述目标处理层之前的处理层的特征参数，得到所述第一中间模型。

7.根据权利要求6所述的方法，其中，所述根据所述目标处理层的输入激活值的分布信息和所述目标处理层的权重参数的分布信息，得到缩放校正参数，包括：

根据所述目标处理层的输入激活值的分布信息，得到所述目标处理层的输入激活值的阈值；

根据所述目标处理层的权重参数的分布信息，得到所述目标处理层的权重参数的阈值；以及

根据所述输入激活值的阈值、所述权重参数的阈值和预定缩放参数，得到缩放校正参数。

8.根据权利要求1所述的方法，其中，所述将所述文本数据输入所述第一中间模型，得到所述多个处理层的待量化参数，包括：

将所述文本数据输入所述第一中间模型，得到所述多个处理层的输入激活值的和权重参数；

根据所述多个处理层的输入激活值和权重参数，得到所述待量化参数。

9.一种压缩模型的训练方法，包括：

将样本文本数据输入压缩模型，得到针对多个预定类别的第一匹配概率；所述样本文本数据标注有样本类别信息；

根据所述样本类别信息和所述第一匹配概率，确定所述压缩模型的损失值；以及

根据所述损失值，调整所述压缩模型的模型参数，得到经训练的压缩模型；其中，所述压缩模型是采用权利要求1～8中任一项所述的方法得到的压缩后的深度学习模型。

10.一种文本数据处理方法，包括：

将待处理的文本数据输入压缩模型，得到表示所述文本数据所属类别的匹配概率；所述匹配概率包括所述文本数据属于多个预定类别中每个预定类别的概率值；以及

根据所述匹配概率，确定所述文本数据所属的目标类别；其中，压缩模型是采用权利要求1～8中任一项所述的方法得到的压缩后的深度学习模型。

11.一种深度学习模型的压缩装置，包括：

第一处理模块，用于将文本数据输入初始模型，得到初始模型包括的依次连接的多个处理层中每个处理层的目标参数；其中，所述目标参数包括：所述每个处理层的权重参数和所述每个处理层的输入激活值；所述输入激活值是由位于所述每个处理层之前的处理层对所述文本数据处理后得到，其中，所述每个处理层之前的处理层表征特征归一化层；

调整模块，用于根据所述多个处理层的目标参数的分布信息，调整所述初始模型的每个处理层之前的处理层的特征参数，得到第一中间模型；其中，所述第一中间模型的每个处理层的目标参数的分布满足预定函数；所述特征参数包括特征偏移参数和特征缩放参数；

第二处理模块，用于将所述文本数据输入所述第一中间模型，得到所述多个处理层的待量化参数；以及

量化模块，用于对所述待量化参数进行量化，得到与所述初始模型对应的压缩模型。

12.根据权利要求11所述的装置，其中，所述调整模块包括：

第一调整子模块，用于根据所述每个处理层的输入激活值的分布信息，调整所述初始模型的每个处理层之前的处理层的特征参数，得到第二中间模型；

第一处理子模块，用于将所述文本数据输入所述第二中间模型，得到所述第二中间模型的每个处理层的权重参数的分布信息；

第二调整子模块，用于根据所述第二中间模型的每个处理层的权重参数的分布信息，调整所述第二中间模型的每个处理层之前的处理层的特征参数，得到第三中间模型；

第二处理子模块，用于将所述文本数据输入所述第三中间模型，得到所述第三中间模型的每个处理层的输入激活值的分布信息和每个处理层的权重参数的分布信息；以及

第三调整子模块，用于根据所述第三中间模型的每个处理层的输入激活值的分布信息和每个处理层的权重参数的分布信息，调整所述第三中间模型的每个处理层之前的处理层的特征参数，得到所述第一中间模型。

13.根据权利要求12所述的装置，其中，所述第一调整子模块包括：

第一获得单元，用于针对所述每个处理层，根据所述输入激活值的分布信息，得到输入激活值的第一取值范围；

第二获得单元，用于根据所述第一取值范围，得到输入激活值的偏移校正参数；以及

第一调整单元，用于根据所述输入激活值的偏移校正参数，调整所述初始模型的每个处理层之前的处理层的特征参数，得到所述第二中间模型。

14.根据权利要求12所述的装置，其中，所述第二调整子模块包括：

第三获得单元，用于针对所述每个处理层，根据所述权重参数的分布信息，得到权重参数的第二取值范围；

第四获得单元，用于根据所述第二取值范围，得到权重参数的偏移校正参数；以及

第二调整单元，用于根据所述权重参数的偏移校正参数，调整所述第二中间模型的每个处理层之前的处理层的特征参数，得到所述第三中间模型。

15.根据权利要求12所述的装置，其中，所述第三调整子模块包括：

第五获得单元，用于根据所述第三中间模型的每个处理层的输入激活值的分布信息，得到输入激活值的缩放阈值；

确定单元，用于根据所述输入激活值的缩放阈值，从所述第三中间模型中确定待调整的目标处理层；以及

第三调整单元，用于根据所述目标处理层的输入激活值的分布信息和所述目标处理层的权重参数的分布信息，调整所述目标处理层之前的处理层的特征参数，得到所述第一中间模型。

16.根据权利要求15所述的装置，其中，所述第三调整单元包括：

第一获得子单元，用于根据所述目标处理层的输入激活值的分布信息和所述目标处理层的权重参数的分布信息，得到缩放校正参数；以及

第一调整子单元，用于基于所述缩放校正参数，调整所述目标处理层之前的处理层的特征参数，得到所述第一中间模型。

17.根据权利要求16所述的装置，其中，所述第一获得子单元，用于：

18.根据权利要求11所述的装置，其中，所述第二处理模块包括：

第三处理子模块，用于将所述文本数据输入所述第一中间模型，得到所述多个处理层的输入激活值的和权重参数；以及

获得子模块，用于根据所述多个处理层的输入激活值和权重参数，得到所述待量化参数。

19.一种压缩模型的训练装置，包括：

第一获得模块，用于将样本文本数据输入压缩模型，得到针对多个预定类别的第一匹配概率；所述样本文本数据标注有样本类别信息；

第一确定模块，用于根据所述样本类别信息和所述第一匹配概率，确定所述压缩模型的损失值；以及

训练模块，用于根据所述损失值，调整所述压缩模型的模型参数，得到经训练的压缩模型；其中，所述压缩模型是采用权利要求1～8中任一项所述的方法得到的压缩后的深度学习模型。

20.一种文本数据处理装置，包括：

第二获得模块，用于将待处理的文本数据输入压缩模型，得到表示所述文本数据所属类别的匹配概率；所述匹配概率包括所述文本数据属于多个预定类别中每个预定类别的概率值；以及

第二确定模块，用于根据所述匹配概率，确定所述文本数据所属的目标类别；其中，压缩模型是采用权利要求1～8中任一项所述的方法得到的压缩后的深度学习模型。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。