CN117195978A

CN117195978A - 模型压缩方法、训练方法、文本数据处理方法及装置

Info

Publication number: CN117195978A
Application number: CN202311212565.1A
Authority: CN
Inventors: 于广华; 沙燕霖; 王豪爽; 党青青; 于佃海; 马艳军; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-08

Abstract

本公开提供了模型压缩方法、训练方法、文本数据处理方法及装置，涉及人工智能技术领域，尤其涉及深度学习、自然语言处理等技术领域。该模型压缩方法的具体实现方案为：按照并行部署的计算单元的数量，对待压缩模型的初始模型参数进行划分，得到与多个计算单元对应的初始局部模型参数，其中，计算单元用于处理与待压缩模型相关联的同一任务；按照初始输入激活值，将初始权重参数与计算单元的对应关系进行重新匹配，得到与多个计算单元对应的目标局部模型参数，其中，目标局部模型参数中的目标输入激活值沿着数据处理的方向逐渐增大；以及对目标局部模型参数进行量化，得到压缩模型。

Description

模型压缩方法、训练方法、文本数据处理方法及装置

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、自然语言处理等技术领域。尤其涉及一种模型压缩方法、训练方法、文本数据处理方法及装置。

背景技术

随着人工智能技术在自然语言处理技术地深入应用，语言生成大模型中的参数规模逐渐增大，尤其是语言生成大模型中的Transformer的权重参数，参数分布的离散程度较大。因此，在部署语言生成大模型时需要占用较大的内存和计算资源。

发明内容

本公开提供了一种模型压缩方法、压缩模型的训练方法、文本数据处理方法及装置。

根据本公开的一方面，提供了一种模型压缩方法，包括：按照并行部署的计算单元的数量，对待压缩模型的初始模型参数进行划分，得到与多个计算单元对应的初始局部模型参数，其中，计算单元用于处理与待压缩模型相关联的同一任务，初始局部模型参数包括与计算单元对应的局部处理通道上的初始权重参数和基于初始权重参数确定的初始输入激活值；按照初始输入激活值，将初始权重参数与计算单元的对应关系进行重新匹配，得到与多个计算单元对应的目标局部模型参数，其中，目标局部模型参数中的目标输入激活值沿着数据处理的方向逐渐增大；以及对目标局部模型参数进行量化，得到压缩模型。

根据本公开的另一方面，提供了一种压缩模型的训练方法，包括：将样本文本数据输入压缩模型，得到针对多个预定类别的第一匹配概率；样本文本数据标注有样本类别信息；根据样本类别信息和第一匹配概率，确定压缩模型的损失值；以及根据损失值，调整压缩模型的模型参数，得到经训练的压缩模型；其中，压缩模型是采用上述模型压缩方法得到的压缩后的深度学习模型。

根据本公开的另一方面，提供了文本数据处理方法，包括：将待处理的文本数据输入压缩模型，得到表示文本数据所属类别的匹配概率；匹配概率包括文本数据属于多个预定类别中每个预定类别的概率值；以及根据匹配概率，确定文本数据所属的目标类别；其中，压缩模型是采用上述模型压缩方法得到的压缩后的深度学习模型。

根据本公开的另一方面，提供了一种模型压缩装置，包括：参数划分模块、参数重排模块、量化模块。参数划分模块，用于按照并行部署的计算单元的数量，对待压缩模型的初始模型参数进行划分，得到与多个计算单元对应的初始局部模型参数，其中，计算单元用于处理与待压缩模型相关联的同一任务，初始局部模型参数包括与计算单元对应的局部处理通道上的初始权重参数和基于初始权重参数确定的初始输入激活值；参数重排模块，用于按照初始输入激活值，将初始权重参数与计算单元的对应关系进行重新匹配，得到与多个计算单元对应的目标局部模型参数，其中，目标局部模型参数中的目标输入激活值沿着数据处理的方向逐渐增大；以及量化模块，用于对目标局部模型参数进行量化，得到压缩模型。

根据本公开的另一方面，提供了一种压缩模型的训练装置，包括：第一获得模块、第一确定模块和调整模块。第一获得模块，用于将样本文本数据输入压缩模型，得到针对多个预定类别的第一匹配概率；样本文本数据标注有样本类别信息。第一确定模块，用于根据样本类别信息和第一匹配概率，确定压缩模型的损失值。调整模块，用于根据损失值，调整压缩模型的模型参数，得到经训练的压缩模型。压缩模型是是采用上述模型压缩方法得到的压缩后的深度学习模型。

根据本公开的另一方面，提供了一种文本数据处理装置，包括：第二获得模块和第二确定模块。第二获得模块，用于将待处理的文本数据输入压缩模型，得到表示文本数据所属类别的匹配概率；匹配概率包括文本数据属于多个预定类别中每个预定类别的概率值。第二确定模块，用于根据匹配概率，确定文本数据所属的目标类别；其中，压缩模型是采用上述模型压缩方法得到的压缩后的深度学习模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如上描述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使所述计算机执行如上描述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如上描述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用模型压缩方法、训练方法或文本数据处理方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的模型压缩方法的流程图；

图3A示意性示出了根据本公开实施例的与按列并行部署的计算单元进行矩阵乘计算的示意图；

图3B示意性示出了根据本公开实施例的与按行并行部署的计算单元进行矩阵乘计算的示意图；

图4示意性示出了根据本公开实施例的待压缩模型的架构图；

图5示意性示出了根据本公开实施例的待压缩模型的前馈神经网络的权重重排示意图；

图6示意性示出了根据本公开实施例的压缩模型的训练方法流程图；

图7示意性示出了根据本公开实施例的文本数据处理方法的流程图；

图8示意性示出了根据本公开实施例的模型压缩装置的框图；

图9示意性示出了根据本公开实施例的压缩模型的训练装置的框图；

图10示意性示出了根据本公开实施例的文本数据处理装置的框图；以及

图11示意性示出了根据本公开实施例的适于实现模型压缩方法、压缩模型的训练方法或文本数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在自然语言处理技术领域，随着对语言生成大模型的精度要求的提高，语言生成大模型的参数量也越来越大。为了使得预训练的语言生成大模型可以应用于计算能力弱的设备中或时延要求较高的应用中，可以对预训练模型进行压缩，以减小模型的尺寸大小和模型推理时间。

对模型参数的量化是实现模型压缩的一种有效方式。模型量化方法主要是通过对模型内的权重参数和/或激活值进行类型转换(例如将部分或全部的浮点型数据转化为低位整型数据)，来加快模型推理速度，降低对硬件的要求。例如：将float32(32位浮点数)类型的数据转化成int8(8比特定点数)类型或int4(4比特定点数)的数据。

但是，目前的语言生成大模型中Transformer的矩阵乘的权重参数分布较为分散，存在大量的离群点。当对语言生成大模型进行量化时，这些离散点的存在，造成较为严重的语言生成大模型的精度损失。

有鉴于此，本公开实施例提供了一种模型压缩方法，包括：按照并行部署的计算单元的数量，对待压缩模型的初始模型参数进行划分，得到与多个计算单元对应的初始局部模型参数，其中，计算单元用于处理与待压缩模型相关联的同一任务，初始局部模型参数包括与计算单元对应的局部处理通道上的初始权重参数和基于初始权重参数确定的初始输入激活值；按照初始输入激活值，将初始权重参数与计算单元的对应关系进行重新匹配，得到与多个计算单元对应的目标局部模型参数，其中，目标局部模型参数中的目标输入激活值沿着数据处理的方向逐渐增大；以及对目标局部模型参数进行量化，得到压缩模型。

图1示意性示出了根据本公开实施例的可以应用模型压缩方法、压缩模型训练方法或文本数据处理方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用模型压缩方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的模型压缩方法及装置。

如图1所示，根据该实施例的系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103，网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用第一终端设备l 01、第二终端设备102、第三终端设备103通过网络104与服务器105交互，以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的模型压缩方法、压缩模型的训练方法或文本数据处理方法一般可以由第一终端设备101、第二终端设备102或第三终端设备103执行。相应地，本公开实施例所提供的模型压缩装置、压缩模型的训练装置或文本数据处理装置也可以设置于第一终端设备101、第二终端设备102或第三终端设备103中。

或者，本公开实施例所提供的模型压缩方法、压缩模型的训练方法或文本数据处理方法一般也可以由服务器105执行。相应地，本公开实施例所提供的模型压缩装置、压缩模型的训练装置或文本数据处理装置一般可以设置于服务器105中。本公开实施例所提供的模型压缩方法、压缩模型的训练方法或文本数据处理方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102或第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的模型压缩装置、压缩模型的训练装置或文本数据处理装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102或第三终端设备103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

在本公开的技术方案中，所涉及的用户个人的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人之前，均获取了用户的授权或同意。

图2示意性示出了根据本公开实施例的模型压缩方法的流程图。

如图2所示，该方法包括操作S210～S230。

在操作S210，按照并行部署的计算单元的数量，对待压缩模型的初始模型参数进行划分，得到与多个计算单元对应的初始局部模型参数。

在操作S220，按照初始输入激活值，将初始权重参数与计算单元的对应关系进行重新匹配，得到与多个计算单元对应的目标局部模型参数。

在操作S230，对目标局部模型参数进行量化，得到压缩模型。

根据本公开的实施例，待压缩模型可以是语言生成大模型。用于处理与待压缩模型相关联的同一任务的计算单元可以并行部署在待压缩模型的同一隐藏层的通道上，例如：Transformer网络架构中用于计算注意力权重的查询特征矩阵(Q矩阵)的隐藏层、键特征矩阵(K矩阵)的隐藏层以及值特征矩阵(V矩阵)的隐藏层。计算单元可以是GPU(GraphicsProcessing Unit，图形处理器)。

根据本公开的实施例，在分布式部署的场景中，计算单元的并行部署方式可以是行并行，也可以是列并行。以权重参数矩阵为例，行并行指的是以权重参数矩阵中同一行的元素为单位，与每个计算单元对应的隐藏层的通道上包括权重参数矩阵中某一行或相邻的某几行的权重参数。列并行指的是以权重参数矩阵中同一列的元素为单位，与每个计算单元对应的隐藏层的通道上包括权重参数矩阵中某一列或相邻的某几列的权重参数。

例如：对于Transformer中的隐藏层，通常采用的是列并行的方式。对于Transformer中的输出层，通常采用的是行并行的方式。

根据本公开的实施例，初始局部模型参数包括与计算单元对应的局部处理通道上的初始权重参数和基于初始权重参数确定的初始输入激活值。例如：可以通过运行待压缩模型，执行多轮采样，采集到待压缩模型中与每一个计算单元对应的局部处理通道上的初始权重参数和基于初始权重参数确定的初始输入激活值。初始输入激活值

例如：对于某一隐藏层，以列并行的方式部署了8个计算单元，可以分别是n₁～n₈。通过运行待压缩模型，可以从初始模型参数中采集到与n₁对应的隐藏层的通道上的初始输入激活值X₁、与n₂对应的隐藏层的通道上的初始输入激活值X₂、...、与n₈对应的隐藏层的通道上的初始输入激活值X₈。此时，初始权重参数与计算单元的对应关系为：与计算单元n₁对应的是权重参数矩阵中第1列的权重参数、与计算单元n₂对应的是权重参数矩阵中第2列的权重参数、...、与计算单元n₃对应的是权重参数矩阵中第8列的权重参数。

按照初始输入激活值从小到大的顺序，将每一个计算单元对应的权重参数进行重新排布。例如：初始输入激活值X₁＞初始输入激活值X₂，则重新排布后的与计算单元n₁对应的是权重参数矩阵中第2列的权重参数，与计算单元n₂对应的是权重参数矩阵中第1列的权重参数。以此类推，重新排布与每一个计算单元对应的权重参数之后，可以再次运行模型，以采集到目标局部模型参数。

此时，由于对于每一个隐藏层的通道内的权重参数均按照初始输入激活值由小到大的顺序进行重排匹配，使得与计算单元n₁对应的通道内的权重参数确定的目标输入激活值X₁’均小于同一隐藏层中与其他计算单元n₂～n₈对应的通道内的权重参数确定的目标输入激活值X₂’～X₈’。即目标局部模型参数中的目标输入激活值沿着数据处理的方向逐渐增大。

因此，与计算单元n₁对应的权重参数确定的目标输入激活值的分布相对于初始输入激活值的分布更为集中，例如：初始输入激活值X₁的分布范围可以是1～100，目标输入激活值的分布范围可以是1～10。在对目标局部模型参数进行量化时，可以有效降低模型量化过程对精度的损失。

根据本公开的实施例，按照并行部署的计算单元的数量对待压缩模型的初始模型参数进行划分，实现了在分布式部署的场景中对初始模型参数的物理划分，降低模型压缩过程中的计算耗时。按照初始输入激活值，将初始权重参数与计算单元的对应关系进行重新匹配，使得每一个计算单元对应的输入激活值的分布更为集中，从而降低在对目标局部模型参数进行量化时，对模型精度的损失。

在分布式部署的场景中，同一隐藏层的通道分别部署在不同的计算单元中，同样的，针对每一个计算单元，也相应地需要用于处理不同隐藏层的数据处理任务。对于同一隐藏层，不同计算单元对应的通道内的权重参数的数量不同，计算单元处理的速度也不同。

例如：在某一隐藏层中，以列并行的方式部署了计算单元n₁和计算单元n₂。计算单元n₁的通道内包含权重参数矩阵(3x4维)中的第1列和第2列的权重参数；计算单元n₂的通道内包含权重参数矩阵中的第3列的权重参数。对于同一数据特征矩阵，在该隐藏层中的矩阵乘结果是数据特征矩阵分别与两个计算单元中的权重参数进行矩阵乘，再拼接得到的。因此，当两个计算单元中的参数量不相等时，会造成两个计算单元的矩阵乘计算速度不同，需要等待n₁的矩阵乘结果才能执行拼接过程，降低了模型的数据处理速度。

有鉴于此，根据本公开的实施例，可以根据计算单元的数量和初始模型参数的数量，得到与每一个计算单元对应的初始局部模型参数的第一目标数量；以及按照第一目标数量，对待压缩模型的初始模型参数进行平均划分，得到与计算单元对应的初始局部模型参数。

例如：并行部署的计算单元的数量为N，初始模型参数的数量为M，可以根据M/N得到第一目标数量，使得初始模型参数平均分配至每一个计算单元中，从而确保每一个计算单元的处理速度相同。

例如：初始模型参数可以是一个10列的权重参数矩阵，计算单元的数量为5，则可以确定第一目标数量为2，即与计算单元n₁对应的初始局部模型参数为第1-2列权重参数、与计算单元n₂对应的初始局部模型参数为将第3-4列权重参数，以此类推。

根据本公开的实施例，按照计算单元的数量，对初始模型参数进行平均划分，使得每一个计算单元对应的初始局部模型参数的数量相同，同一隐藏层中并行部署的多个计算单元的数据处理速度同步。

对于应用于不同场景的语言生成大模型，权重参数分布的情况也各不相同。为了提高权重参数重排后的目标输入激活值的分布集中度，可以基于计算单元的数量，对初始模型参数中的初始输入激活值进行聚类，得到聚类结果；以及基于聚类结果，对待压缩模型的初始模型参数进行划分，得到与计算单元对应的初始局部模型参数。

根据本公开的实施例，可以按照计算单元的数量，利用聚类算法对待压缩模型的初始输入激活值进行聚类，得到与计算单元数量相对应的簇。可以基于每一个簇中初始输入激活值的数据分布情况，确定划分至该簇所对应的计算单元的初始局部模型参数的数量。

根据本公开的实施例，可以根据每一个簇中初始输入激活值中的数据分布范围，确定划分至该簇所对应的计算单元的初始局部模型参数的数量。

例如：某个簇中初始输入激活值的数据范围为1～100，通过配置输入激活值阈值与模型参数百分比的映射关系，确定划分至该簇所对应的计算单元的初始局部模型参数的百分比，再根据初始局部模型参数的总数与该百分比，得到划分至该计算单元的初始局部模型参数的数量。

根据本公开的实施例，可以基于聚类结果，确定每一个簇中的初始输入激活值的数量；基于初始输入激活值的数量和计算单元的数量，确定与每一个计算单元对应的初始局部模型参数的第二目标数量；以及照第二目标数量，对待压缩模型的初始模型参数进行划分，得到与计算单元对应的初始局部模型参数。

例如：可以利用聚类算法对待压缩模型的初始输入激活值进行聚类，得到多个簇的初始输入激活值。可以通过统计每一个簇的输入激活值的数量，确定每一个簇对应的权重参数的分配数量。

根据本公开的实施例，每一个簇的输入激活值的数量与每一个簇对应的权重参数的分配数量可以成正比。

例如：簇P₁中初始输入激活值的输入激活值的数量为100，簇P₂中初始输入激活值的输入激活值的数量为1000，初始权重参数的数量可以是220，则可以确定与簇P₁对应的计算单元中的初始局部模型参数的数量为20，与簇P₂对应的计算单元中的初始局部模型参数的数量为200。

根据本公开的实施例，将初始权重参数先聚类，再进行划分。虽然每一个计算单元分配的权重参数数量有所差异，但是这种方式可以将用于确定输入激活值相近的权重参数分配到一个计算单元中，从而提高了权重参数重排后的目标输入激活值的分布集中度。

在模型量化的场景中，通常是基于同一量化精度对模型进行压缩，例如：INT4或INT8。但是，实际应用场景中还存在混合量化精度的压缩场景。

根据本公开的实施例，可以根据初始模型参数中的初始输入激活值，确定每一个计算单元的量化精度；以及根据每一个计算单元的量化精度和计算单元的数量，对初始模型参数进行划分，得到与多个计算单元对应的初始局部模型参数。

例如：对于并行部署3个计算单元，分别采集每一个计算单元对应的初始输入激活值，其中，第3个计算单元的初始输入激活值最大，因此，可以确定第1个计算单元和第2个计算单元的量化精度为4比特，第3个计算单元的量化精度为8比特。由于量化精度低的计算单元，执行速度较快，可以对量化精度低的计算单元分配较多的初始模型参数。量化精度高的计算单元，执行速度较慢，可以对量化精度高的计算单元分配较少的初始模型参数，从而使得同一隐藏层的计算单元的推理速度趋于平衡。

根据本公开的实施例，根据每一个计算单元的量化精度和计算单元的数量，对初始模型参数进行划分，得到与多个计算单元对应的初始局部模型参数，可以包括如下操作：根据每一个计算单元的量化精度和计算单元的数量，确定与每一个计算单元对应的初始局部模型参数的第三目标数量；以及按照第三目标数量，对待压缩模型的初始模型参数进行划分，得到与计算单元对应的初始局部模型参数。

根据本公开的实施例，可以先按照计算单元的数量对初始模型参数进行平均划分，得到初始划分的局部模型参数数量。再按照高比特量化精度的计算单元的占比对初始划分的局部模型参数数量进行修正，得到不同量化精度的计算单元的局部模型参数数量。

例如：并行部署的计算单元可以是5个，前4个计算单元的量化精度可以是4比特，第5个计算单元的量化精度可以是8比特。可以按照计算单元的数量5对初始模型参数的数量1000进行划分，得到每一个计算单元的初始划分的局部模型参数数量为200。在按照8比特的量化精度的计算单元数量占计算单元总数量的比例1/5，对初始划分的局部模型参数数量进行修正。

例如：局部模型参数修正量＝初始划分的局部模型参数数量×高量化精度的计算单元的占比/低量化精度的计算单元的数量＝10。可以根据局部模型参数修正量10和初始划分的局部模型参数数量200之和，得到4比特的量化精度的计算单元的局部模型参数数量为210，剩余的模型参数数量则为8比特的量化精度的计算单元的局部模型参数数量：1000-210×4＝160。

根据本公开的实施例，按照量化精度和计算单元的数量对初始模型参数进行划分，可以利用不同量化精度的计算单元权重参数的数量差异平衡不同量化精度的计算单元的执行速度的差异，以使得混合比特压缩场景下的模型量化速度趋于平衡。

对于Transformer模型，涉及大量的矩阵乘的计算过程，权重参数的重排过程不能改变本身的计算结果，即权重参数重排前后的计算结果应该是数学等价的。

图3A示意性示出了根据本公开实施例的与按列并行部署的计算单元进行矩阵乘计算的示意图。

如图3A所示，在实施例300A中，输入特征矩阵与权重参数矩阵的矩阵乘301，按列并行的方式可以分配给计算单元302a和计算单元302b执行。输入特征矩阵与权重参数矩阵的第一列的矩阵乘由计算单元302a执行。输入特征矩阵与权重参数矩阵的第二列的矩阵乘由计算单元302b执行，计算单元302a和计算单元302b的计算结果拼接之后可以得到与301等价的矩阵乘结果。

图3B示意性示出了根据本公开实施例的与按行并行部署的计算单元进行矩阵乘计算的示意图。

如图3B所示，在实施例300B中，输入特征矩阵与权重参数矩阵的矩阵乘301，按行并行的方式可以分配给计算单元302c和计算单元302d执行。输入特征矩阵与权重参数矩阵的第一子矩阵的矩阵乘由计算单元302c执行。输入特征矩阵与权重参数矩阵的第二子矩阵的矩阵乘由计算单元302d执行，计算单元302c和计算单元302d的计算结果相加可以得到与301等价的矩阵乘结果。

基于上述的矩阵乘切分的基本原理，可以按照初始输入激活值，对初始权重参数进行排序，得到初始权重参数的排列次序；以及按照排列次序，将初始权重参数依次分配至与计算单元对应的局部处理通道上，得到目标局部模型参数。

根据本公开的实施例，按照排列次序，将初始权重参数依次分配至与计算单元对应的局部处理通道上，得到目标局部模型参数，可以包括如下操作：根据排列次序和计算单元的排列位置，生成初始权重参数与计算单元的目标对应关系；以及按照目标对应关系，将初始权重参数依次分配至与计算单元对应的局部处理通道上，得到目标局部模型参数。

例如：与计算单元n₁对应的通道可以是C₁，与计算单元n₂对应的通道可以是C₂，与计算单元n₃对应的通道可以是C₃，与计算单元n₄对应的通道可以是C₄。初始输入激活值的排列次序可以是通道C₁的次序是第3位、通道C₂的次序是第2位、通道C₃的次序是第4位、通道C₄的次序是第1位。

根据本公开的实施例，可以通过对通道的重新排序，将初始权重参数与计算单元的重新对应，生成的目标对应关系可以是：与计算单元n₁对应的是原通道C₄中的权重参数，与计算单元n₂对应的是原通道C₂中的权重参数，与计算单元n_s对应的原通道C₁中的权重参数，与计算单元n₄对应的通道C₃中的权重参数。

根据本公开的实施例，基于矩阵乘的切分原理，对权重参数矩阵按计算单元进行划分之后，基于输入激活值顺序进行重排，可以有效降低每一个计算单元的输入激活值的数据分布范围，从而降低量化过程对模型精度的损失。

基于上述矩阵乘的切分原理可以看出，列并行的计算单元与行并行的计算单元的计算结果的处理方式是不同的，在Transformer模型中，用于计算注意力的隐藏层的计算单元采用的是列并行的方式，但是注意力的输出层的计算单元采用的是行并行的方式。为了保持模型预测结果的准确性。需要将每一个隐藏层的计算单元重排后的权重参数在计算矩阵乘之前回复原来的排列顺序。因此，可以引入索引数组，以便基于索引数组快速恢复初始的权重参数矩阵。

根据本公开的实施例，根据排列次序和计算单元的排列位置，生成初始权重参数与计算单元的目标对应关系，可以包括如下操作：根据排列次序和计算单元的排列位置，生成索引数组，其中，索引数组中包括排列次序与排列位置的对应关系；以及根据索引数组，确定初始权重参数与计算单元的目标对应关系。

例如：初始输入激活值的排列次序可以是通道C₁的次序是第3位、通道C₂的次序是第2位、通道C₃的次序是第4位、通道C₄的次序是第1位。生成的索引数组可以包括：计算单元n₁与通道C₄的映射关系、计算单元n₂与通道C₂的映射关系等。

根据本公开的实施例，基于索引数组，可以得到重排之后的计算单元n1与权重参数的目标对应关系，同时，由于通道数的标识与原计算单元的排列位置是一一对应的，因此，可以基于该索引数据快速恢复初始的权重参数矩阵。以确保权重重排前后是数据等价的，保持模型预测结果的准确性。

图4示意性示出了根据本公开实施例的待压缩模型的架构图。

如图4所示，该待压缩模型的架构400可以包括：注意力网络410和前馈神经网络420。

注意力网络410包括第一归一化层(LayerNorm)411、值特征处理层(V proj)412_1、查询特征处理层(Q proj)412_2、键特征处理层(K proj)412_3、第一重排恢复算子(Reorder)413_1、第二重排恢复算子(Reorder)413_2、第三重排恢复算子(Reorder)413_3、第一矩阵乘处理层(BatchedMatMul)414_1、第二矩阵乘处理层(BatchedMatMul)414_2、Softmax层415、输出层(Out proi)416、第一特征融合层(add)417。

在注意力网络410中，值特征处理层(V proj)412_1、查询特征处理层(Q proj)412_2、键特征处理层(K proj)412_3均是列并行的线性层，在离线量化过程中，每个列并行的线性层中的权重参数按照前文描述的模型压缩方法进行量化，每个列并行的线性层中的权重参数已是被重排后的权重参数。因此，在值特征处理层(V proj)412_1、查询特征处理层(Q proj)4122、键特征处理层(K prooj)412_3的输出端均部署一个重排恢复算子，用于将离线量化过程中重排后的权重参数，按照基于初始输入激活值得到的索引数组(R_index)重排回来，再输入矩阵乘处理层进行矩阵乘的计算，以确保模型计算结果的准确性。

前馈神经网络420包括第二归一化层(LayerNorm)421、第一全连接层(FFNl，FeedForward Networks)422、第二全连接层(FFN2，Feed Forward Networks)423和第二特征融合层(add)424。

在前馈神经网络420中，由于全连接层的计算不涉及到复杂的矩阵乘的计算过程，因此，可以将第一全连接层421的权重的输入维度进行重排，然后将第二全连接层422的权重的输出维度按照相同的索引数组(R_index)进行重排，无需部署任何算子，即可完成权重重排的过程。

图5示意性示出了根据本公开实施例的待压缩模型的前馈神经网络的权重重排示意图。

如图5所示，在实施例500中，将注意力模块510输出的特征经过LayerNorm层521归一化后的输入特征501进行复制(Copy)输入FFNl层522。在FFNl层522并行部署了4个计算单元，分别是Cardl～Card4。按列并行的方式分配至计算单元Cardl～Card4的权重参数矩阵A5221、权重参数矩阵B5222、权重参数矩阵C5223和权重参数矩阵D5224。由于权重参数矩阵权重参数矩阵A5221、权重参数矩阵B5222、权重参数矩阵C5223和权重参数矩阵D5224是基于初始输入激活值进行权重重排后的权重参数矩阵，因此，对于相同的输入特征501，输出的特征维度是不同的。。

根据本公开的实施例，色块灰度可以表征输入激活值的大小，色块灰度越深表示输入激活值越大，可以看出，对于输入FFN1层522的输入特征501，其输入激活值的分布较为分散(色块颜色分布不均匀)。经过重排权重参数后的计算单元的处理之后，输出特征502的输入激活值分布较为集中，且输出特征502中的色块的颜色较浅，表示输出特征502的输入激活值较小。输出特征505的输入激活值分布较为集中，且输出特征505中的色块的颜色较深，表示输出特征505的输入激活值较大。自计算单元Cardl至计算单元Card4输出的特征中，输出特征502～输出特征505中的深色块的面积逐渐增大，表示输出特征502～输出特征505对应的输入激活值逐渐增大。

根据本公开的实施例，在FFN2层523中，以按行并行的方式分配至计算单元Cardl～Card4的权重参数矩阵a5231、权重参数矩阵b5232、权重参数矩阵c5233和权重参数矩阵d5234。权重参数矩阵a5231、权重参数矩阵b5232、权重参数矩阵c5233和权重参数矩阵d5234是基于与FFNl相同的索引数组(R_index)对FFN2层的权重参数矩阵进行重排得到的。基于前文描述的矩阵乘切分的基本原理，以行并行部署的计算单元的输出特征5231～5234需要相加，得到输出特征506。

根据本公开的实施例，add层524用于特征融合以得到预测结果。是Transformer模型中的常规处理层，在此不作赘述。

离线量化过程是通过采集待量化层的输入激活值，以确定输入激活的截断值，基于该截断值将待量化层转换为低比特运算，实现对模型的压缩。

在分布式部署场景中，本公开实施例采用的是每一个计算单元并行处理的策略，即针对每一个计算单元在每一个隐藏层的目标局部模型参数进行单独采集和统计输入激活值，以执行对该隐藏层的量化。

根据本公开的实施例，对目标局部模型参数进行量化，得到压缩模型可以包括如下操作：针对与每一个计算单元对应的目标局部模型参数，确定量化因子；以及按照量化因子，对与每一个计算单元对应的目标局部模型参数进行量化，得到压缩模型。

根据本公开的实施例，针对每一个计算单元在每一个隐藏层的目标输入激活值的范围，确定截断阈值。例如：目标输入激活值的范围可以是1～100，可以将目标输入激活值的最大值确定为截断阈值，即截断阈值为100。

根据本公开的实施例，针对每一个计算单元在每一个隐藏层的目标输入激活值的范围，可以通过多次运行模型，采集每一轮次该计算单元在该隐藏层的目标输入激活值的范围，将多个轮次采集到的目标输入激活值的多个最大值的平均值确定为截断阈值。

例如：第1轮次采集的目标输入激活值的最大值为100，第2轮次采集的目标输入激活值的最大值为90，可以确定截断阈值为95。

根据本公开的实施例，基于并行处理的策略，对每一个计算单元的目标输入激活值进行单独统计，以确定每一个计算单元在对应的量化层的量化因子，可以有效提高量化速度。

根据本公开的实施例，针对每一个计算单元在每一个隐藏层的目标输入激活值的范围，还可以通过获取与目标权重参数对应的多个目标输入激活值的分布信息，根据分布信息，确定截断阈值。

例如：可以基于聚类算法，对多个目标输入激活值进行聚类，得到离群点。可以与离群点距离最近的点对应的输入激活值作为截断阈值，也可以将与聚类中心距离最近的离群点对应的输入激活值作为截断阈值。

由于经过权重重排，目标输入激活值的分布相对集中，个别的离群点对于模型精度的损失影响较小，也可以根据分布信息，对多个目标输入激活值进行过滤，得到集中分布的目标输入激活值，以及从集中分布的目标输入激活值中确定截断阈值。

例如：从目标输入激活值中过滤离群点，将剩余的集中分布的目标输入激活值中的最大输入激活值确定为截断阈值。

根据本公开的实施例，基于目标输入激活值的分布情况确定截断阈值，可以在不增加模型量化过程精度损失的情况下，提高量化速度。

图6示意性示出了根据本公开实施例的压缩模型的训练方法流程图。

如图6所示，该训练方法600可以包括操作S610～S630。

在操作S610，将样本文本数据输入压缩模型，得到针对多个预定类别的第一匹配概率。

在操作S620，根据样本类别信息和第一匹配概率，确定压缩模型的损失值。

在操作S630，根据损失值，调整压缩模型的模型参数，得到经训练的压缩模型。

根据本公开的实施例，压缩模型可以通过加载上文描述的深度学习模型的压缩方法得到的压缩后的深度学习模型而得到。

根据本公开的实施例，样本文本数据可以是对初始模型(即压缩之前的深度学习模型)进行训练时所用的训练集中的部分或全部样本文本数据。例如：可以按照实际需求，随机从训练集中抽取10％、15％或其他比例的样本文本数据。

根据本公开的实施例，第一匹配概率可以表征压缩模型对样本文本数据进行预测得到的该样本文本数据属于多个预定类别中的某一类别的匹配概率值。样本文本数据可以标注有该样本文本数据的真实样本类别信息。

根据本公开的实施例，可以基于损失函数，根据样本类别信息和第一匹配概率，得到压缩模型的损失值。例如：损失函数可以是交叉熵损失函数、均方误差损失函数(即L2损失函数)或铰链损失(Hinge Loss)函数等，本公开对此不做限定。

根据本公开的实施例，可以以最小化损失值为目标，采用梯度下降算法来对压缩模型中的权重参数等网络参数进行调整，实现对压缩模型的训练，直至损失值最小，得到经训练的压缩模型。

根据本公开的实施例，通过利用样本文本数据对压缩模型进行训练，可以进一步提高压缩模型的预测精度。

图7示意性示出了根据本公开实施例的文本数据处理方法流程图。

如图7所示，该文本数据处理方法700可以包括操作S710～操作S720。

在操作S710，将待处理的文本数据输入压缩模型，得到表示文本数据所属类别的匹配概率。

在操作S720，根据匹配概率，确定文本数据所属的目标类别。

根据本公开的实施例，该操作S710的实现原理与上文描述的操作S610的实现原理类似。匹配概率可以包括文本数据属于多个预定类别中每个预定类别的概率值，在此不再赘述。可以理解的是，压缩模型例如可以是采用上文描述的压缩模型的训练方法得到的训练完成的压缩模型。

根据本公开的实施例，可以将匹配概率最大值对应的类别确定为文本数据的目标类别。

根据本公开的实施例，利用压缩模型对文本数据进行处理，可以实现在计算资源有限的硬件内完成对较为复杂的文本数据的处理过程，减小了计算资源占用空间对深度学习模型应用范围的限制。

图8示意性示出了根据本公开实施例的模型压缩装置的框图。

如图8所示，该模型压缩装置800可以包括：参数划分模块810、参数重排模块820和量化模块830。

参数划分模块810，用于按照并行部署的计算单元的数量，对待压缩模型的初始模型参数进行划分，得到与多个计算单元对应的初始局部模型参数，其中，计算单元用于处理与待压缩模型相关联的同一任务，初始局部模型参数包括与计算单元对应的局部处理通道上的初始权重参数和基于初始权重参数确定的初始输入激活值。

参数重排模块820，用于按照初始输入激活值，将初始权重参数与计算单元的对应关系进行重新匹配，得到与多个计算单元对应的目标局部模型参数，其中，目标局部模型参数中的目标输入激活值沿着数据处理的方向逐渐增大。

量化模块830，用于对目标局部模型参数进行量化，得到压缩模型。

根据本公开的实施例，参数划分模块可以包括：第一获得子模块和第一划分子模块。第一获得子模块，用于根据计算单元的数量和初始模型参数的数量，得到与每一个计算单元对应的初始局部模型参数的第一目标数量。第一划分子模块，用于按照第一目标数量，对待压缩模型的初始模型参数进行平均划分，得到与计算单元对应的初始局部模型参数。

根据本公开的实施例，参数划分模块可以包括：聚类子模块和第二划分子模块。聚类子模块，用于基于计算单元的数量，对初始模型参数中的初始输入激活值进行聚类，得到聚类结果。第二划分子模块，用于基于聚类结果，对待压缩模型的初始模型参数进行划分，得到与计算单元对应的初始局部模型参数。

根据本公开的实施例，聚类子模块可以包括：第一确定单元、第二确定单元和第一划分单元。第一确定单元，用于基于聚类结果，确定每一个簇中的初始输入激活值的数量。第二确定单元，用于基于初始输入激活值的数量和计算单元的数量，确定与每一个计算单元对应的初始局部模型参数的第二目标数量。第一划分单元，用于按照第二目标数量，对待压缩模型的初始模型参数进行划分，得到与计算单元对应的初始局部模型参数。

根据本公开的实施例，参数划分模块可以包括：第一确定子模块和第三划分子模块。第一确定子模块，用于根据初始模型参数中的初始输入激活值，确定每一个计算单元的量化精度。第三划分子模块，用于根据每一个计算单元的量化精度和计算单元的数量，对初始模型参数进行划分，得到与多个计算单元对应的初始局部模型参数。

根据本公开的实施例，第三划分子模块可以包括：第三确定单元和第二划分单元。第三确定单元，用于根据每一个计算单元的量化精度和计算单元的数量，确定与每一个计算单元对应的初始局部模型参数的第三目标数量。第二划分单元，用于按照第三目标数量，对待压缩模型的初始模型参数进行划分，得到与计算单元对应的初始局部模型参数。

根据本公开的实施例，参数重排模块可以包括：排序子模块和分配子模块。排序子模块，用于按照初始输入激活值，对初始权重参数进行排序，得到初始权重参数的排列次序。分配子模块，用于按照排列次序，将初始权重参数依次分配至与计算单元对应的局部处理通道上，得到目标局部模型参数。

根据本公开的实施例，分配子模块可以包括：生成单元和分配单元。生成单元，用于根据排列次序和计算单元的排列位置，生成初始权重参数与计算单元的目标对应关系。分配单元，用于按照目标对应关系，将初始权重参数依次分配至与计算单元对应的局部处理通道上，得到目标局部模型参数。

根据本公开的实施例，生成单元可以包括：生成子单元和第一确定子单元。生成子单元，用于根据排列次序和计算单元的排列位置，生成索引数组，其中，索引数组中包括排列次序与排列位置的对应关系。第一确定子单元，用于根据索引数组，确定初始权重参数与计算单元的目标对应关系。

根据本公开的实施例，量化模块可以包括：第二确定子模块和量化子模块。第二确定子模块，用于针对与每一个计算单元对应的目标局部模型参数，确定量化因子。量化子模块，用于按照量化因子，对与每一个计算单元对应的目标局部模型参数进行量化，得到压缩模型。

根据本公开的实施例，第二确定子模块可以包括：第四确定单元和第五确定单元。第四确定单元，用于针对与每一个计算单元对应的目标局部模型参数，确定与目标权重参数对应的截断阈值。第五确定单元，用于基于截断阈值，确定量化因子。

根据本公开的实施例，第四确定单元可以包括：获取子单元和第二确定子单元。获取子单元，用于针对与每一个计算单元对应的目标局部模型参数，获取与目标权重参数对应的多个目标输入激活值的分布信息。第二确定子单元，用于根据分布信息，确定截断阈值。

根据本公开的实施例，第二确定子单元用于：根据分布信息，对多个目标输入激活值进行过滤，得到集中分布的目标输入激活值；以及从集中分布的目标输入激活值中确定截断阈值。

图9示意性示出了根据本公开实施例的压缩模型的训练装置的框图。

如图9所示，该训练装置900可以包括：第一获得模块910、第一确定模块920和调整模块930。第一获得模块，用于将样本文本数据输入压缩模型，得到针对多个预定类别的第一匹配概率；样本文本数据标注有样本类别信息。第一确定模块，用于根据样本类别信息和第一匹配概率，确定压缩模型的损失值。调整模块，用于根据损失值，调整压缩模型的模型参数，得到经训练的压缩模型。其中，压缩模型是采用前文描述的模型压缩方法得到的压缩后的深度学习模型。

图10示意性示出了根据本公开实施例的文本数据处理装置的框图。

如图10所示，该文本数据处理装置1000可以包括：第二获得模块1010和第二确定模块1020。第二获得模块1010，用于将待处理的文本数据输入压缩模型，得到表示文本数据所属类别的匹配概率；匹配概率包括文本数据属于多个预定类别中每个预定类别的概率值。第二确定模块1020，用于根据匹配概率，确定文本数据所属的目标类别；其中，压缩模型是采用前文描述的模型压缩方法得到的压缩后的深度学习模型。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上描述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上描述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上描述的方法。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如模型压缩方法、压缩模型的训练方法或文本数据处理方法。例如，在一些实施例中，模型压缩方法、压缩模型的训练方法或文本数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的模型压缩方法、压缩模型的训练方法或文本数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型压缩方法、压缩模型的训练方法或文本数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型压缩方法，包括：

按照并行部署的计算单元的数量，对待压缩模型的初始模型参数进行划分，得到与多个所述计算单元对应的初始局部模型参数，其中，所述计算单元用于处理与所述待压缩模型相关联的同一任务，所述初始局部模型参数包括与所述计算单元对应的局部处理通道上的初始权重参数和基于所述初始权重参数确定的初始输入激活值；

按照所述初始输入激活值，将所述初始权重参数与所述计算单元的对应关系进行重新匹配，得到与多个所述计算单元对应的目标局部模型参数，其中，所述目标局部模型参数中的目标输入激活值沿着数据处理的方向逐渐增大；以及

对所述目标局部模型参数进行量化，得到压缩模型。

2.根据权利要求1所述的方法，其中，所述按照并行部署的计算单元的数量，对待压缩模型的初始模型参数进行划分，得到与多个所述计算单元对应的初始局部模型参数，包括：

根据所述计算单元的数量和所述初始模型参数的数量，得到与每一个计算单元对应的初始局部模型参数的第一目标数量；以及

按照所述第一目标数量，对所述待压缩模型的初始模型参数进行平均划分，得到与所述计算单元对应的初始局部模型参数。

3.根据权利要求1所述的方法，其中，所述按照并行部署的计算单元的数量，对待压缩模型的初始模型参数进行划分，得到与多个所述计算单元对应的初始局部模型参数，包括：

基于所述计算单元的数量，对所述初始模型参数中的初始输入激活值进行聚类，得到聚类结果；以及

基于所述聚类结果，对所述待压缩模型的初始模型参数进行划分，得到与所述计算单元对应的初始局部模型参数。

4.根据权利要求3所述的方法，其中，所述基于所述聚类结果，对所述待压缩模型的初始模型参数进行划分，得到与所述计算单元对应的初始局部模型参数，包括：

基于所述聚类结果，确定每一个簇中的初始输入激活值的数量；

基于所述初始输入激活值的数量和所述计算单元的数量，确定与每一个计算单元对应的初始局部模型参数的第二目标数量；以及

按照所述第二目标数量，对所述待压缩模型的初始模型参数进行划分，得到与所述计算单元对应的初始局部模型参数。

5.根据权利要求1所述的方法，其中，所述按照并行部署的计算单元的数量，对待压缩模型的初始模型参数进行划分，得到与多个所述计算单元对应的初始局部模型参数，包括：

根据所述初始模型参数中的初始输入激活值，确定每一个计算单元的量化精度；以及

根据所述每一个计算单元的量化精度和所述计算单元的数量，对所述初始模型参数进行划分，得到与所述多个计算单元对应的初始局部模型参数。

6.根据权利要求5所述的方法，其中，所述根据所述每一个计算单元的量化精度和所述计算单元的数量，对所述初始模型参数进行划分，得到与所述多个计算单元对应的初始局部模型参数，包括：

根据所述每一个计算单元的量化精度和所述计算单元的数量，确定与所述每一个计算单元对应的初始局部模型参数的第三目标数量；以及

按照所述第三目标数量，对所述待压缩模型的初始模型参数进行划分，得到与所述计算单元对应的初始局部模型参数。

7.根据权利要求1所述的方法，其中，所述按照所述初始输入激活值，将所述初始权重参数与所述计算单元的对应关系进行重新匹配，得到与所述多个计算单元对应的目标局部模型参数，包括：

按照所述初始输入激活值，对所述初始权重参数进行排序，得到所述初始权重参数的排列次序；以及

按照所述排列次序，将所述初始权重参数依次分配至与所述计算单元对应的局部处理通道上，得到所述目标局部模型参数。

8.根据权利要求7所述的方法，其中，所述按照所述排列次序，将所述初始权重参数依次分配至与所述计算单元对应的局部处理通道上，得到所述目标局部模型参数，包括：

根据所述排列次序和所述计算单元的排列位置，生成所述初始权重参数与所述计算单元的目标对应关系；以及

按照所述目标对应关系，将所述初始权重参数依次分配至与所述计算单元对应的局部处理通道上，得到所述目标局部模型参数。

9.根据权利要求8所述的方法，其中，所述根据所述排列次序和所述计算单元的排列位置，生成所述初始权重参数与所述计算单元的目标对应关系，包括：

根据所述排列次序和所述计算单元的排列位置，生成索引数组，其中，所述索引数组中包括所述排列次序与所述排列位置的对应关系；以及

根据所述索引数组，确定所述初始权重参数与所述计算单元的目标对应关系。

10.根据权利要求1所述的方法，其中，所述对所述目标局部模型参数进行量化，得到压缩模型，包括：

针对与每一个计算单元对应的目标局部模型参数，确定量化因子；以及

按照所述量化因子，对所述与每一个计算单元对应的目标局部模型参数进行量化，得到所述压缩模型。

11.根据权利要求10所述的方法，其中，所述针对与每一个计算单元对应的目标局部模型参数，确定量化因子，包括：

针对与每一个计算单元对应的目标局部模型参数，确定与所述目标权重参数对应的截断阈值；以及

基于所述截断阈值，确定所述量化因子。

12.根据权利要求11所述的方法，其中，所述针对与每一个计算单元对应的目标局部模型参数，确定与目标处理层的权重参数对应的截断阈值，包括：

针对与每一个计算单元对应的目标局部模型参数，获取与所述目标权重参数对应的多个目标输入激活值的分布信息；以及

根据所述分布信息，确定所述截断阈值。

13.根据权利要求12所述的方法，其中，所述根据所述分布信息，确定所述截断阈值，包括：

根据所述分布信息，对所述多个目标输入激活值进行过滤，得到集中分布的目标输入激活值；以及

从所述集中分布的目标输入激活值中确定所述截断阈值。

14.一种压缩模型的训练方法，包括：

将样本文本数据输入压缩模型，得到针对多个预定类别的第一匹配概率；所述样本文本数据标注有样本类别信息；

根据所述样本类别信息和所述第一匹配概率，确定所述压缩模型的损失值；以及

根据所述损失值，调整所述压缩模型的模型参数，得到经训练的压缩模型；其中，所述压缩模型是采用权利要求1～13中任一项所述的方法得到的压缩后的深度学习模型。

15.一种文本数据处理方法，包括：

将待处理的文本数据输入压缩模型，得到表示所述文本数据所属类别的匹配概率；所述匹配概率包括所述文本数据属于多个预定类别中每个预定类别的概率值；以及

根据所述匹配概率，确定所述文本数据所属的目标类别；其中，压缩模型是采用权利要求1～13中任一项所述的方法得到的压缩后的深度学习模型。

16.一种模型压缩装置，包括：

参数划分模块，用于按照并行部署的计算单元的数量，对待压缩模型的初始模型参数进行划分，得到与多个所述计算单元对应的初始局部模型参数，其中，所述计算单元用于处理与所述待压缩模型相关联的同一任务，所述初始局部模型参数包括与所述计算单元对应的局部处理通道上的初始权重参数和基于所述初始权重参数确定的初始输入激活值；

参数重排模块，用于按照所述初始输入激活值，将所述初始权重参数与所述计算单元的对应关系进行重新匹配，得到与多个所述计算单元对应的目标局部模型参数，其中，所述目标局部模型参数中的目标输入激活值沿着数据处理的方向逐渐增大；以及

量化模块，用于对所述目标局部模型参数进行量化，得到压缩模型。

17.根据权利要求16所述的装置，其中，所述参数划分模块包括：

第一获得子模块，用于根据所述计算单元的数量和所述初始模型参数的数量，得到与每一个计算单元对应的初始局部模型参数的第一目标数量；以及

第一划分子模块，用于按照所述第一目标数量，对所述待压缩模型的初始模型参数进行平均划分，得到与所述计算单元对应的初始局部模型参数。

18.根据权利要求16所述的装置，其中，所述参数划分模块包括：

聚类子模块，用于基于所述计算单元的数量，对所述初始模型参数中的初始输入激活值进行聚类，得到聚类结果；以及

第二划分子模块，用于基于所述聚类结果，对所述待压缩模型的初始模型参数进行划分，得到与所述计算单元对应的初始局部模型参数。

19.根据权利要求18所述的装置，其中，所述聚类子模块包括：

第一确定单元，用于基于所述聚类结果，确定每一个簇中的初始输入激活值的数量；

第二确定单元，用于基于所述初始输入激活值的数量和所述计算单元的数量，确定与每一个计算单元对应的初始局部模型参数的第二目标数量；以及

第一划分单元，用于按照所述第二目标数量，对所述待压缩模型的初始模型参数进行划分，得到与所述计算单元对应的初始局部模型参数。

20.根据权利要求16所述的装置，其中，所述参数划分模块包括：

第一确定子模块，用于根据所述初始模型参数中的初始输入激活值，确定每一个计算单元的量化精度；以及

第三划分子模块，用于根据所述每一个计算单元的量化精度和所述计算单元的数量，对所述初始模型参数进行划分，得到与所述多个计算单元对应的初始局部模型参数。

21.根据权利要求20所述的装置，其中，所述第三划分子模块包括：

第三确定单元，用于根据所述每一个计算单元的量化精度和所述计算单元的数量，确定与所述每一个计算单元对应的初始局部模型参数的第三目标数量；以及

第二划分单元，用于按照所述第三目标数量，对所述待压缩模型的初始模型参数进行划分，得到与所述计算单元对应的初始局部模型参数。

22.根据权利要求16所述的装置，其中，所述参数重排模块包括：

排序子模块，用于按照所述初始输入激活值，对所述初始权重参数进行排序，得到所述初始权重参数的排列次序；以及

分配子模块，用于按照所述排列次序，将所述初始权重参数依次分配至与所述计算单元对应的局部处理通道上，得到所述目标局部模型参数。

23.根据权利要求22所述的装置，其中，所述分配子模块包括：

生成单元，用于根据所述排列次序和所述计算单元的排列位置，生成所述初始权重参数与所述计算单元的目标对应关系；以及

分配单元，用于按照所述目标对应关系，将所述初始权重参数依次分配至与所述计算单元对应的局部处理通道上，得到所述目标局部模型参数。

24.根据权利要求23所述的装置，其中，所述生成单元包括：

生成子单元，用于根据所述排列次序和所述计算单元的排列位置，生成索引数组，其中，所述索引数组中包括所述排列次序与所述排列位置的对应关系；以及

第一确定子单元，用于根据所述索引数组，确定所述初始权重参数与所述计算单元的目标对应关系。

25.根据权利要求16所述的装置，其中，所述量化模块包括：

第二确定子模块，用于针对与每一个计算单元对应的目标局部模型参数，确定量化因子；以及

量化子模块，用于按照所述量化因子，对所述与每一个计算单元对应的目标局部模型参数进行量化，得到所述压缩模型。

26.根据权利要求25所述的装置，其中，所述第二确定子模块包括：

第四确定单元，用于针对与每一个计算单元对应的目标局部模型参数，确定与所述目标权重参数对应的截断阈值；以及

第五确定单元，用于基于所述截断阈值，确定所述量化因子。

27.根据权利要求26所述的装置，其中，所述第四确定单元包括：

获取子单元，用于针对与每一个计算单元对应的目标局部模型参数，获取与所述目标权重参数对应的多个目标输入激活值的分布信息；以及

第二确定子单元，用于根据所述分布信息，确定所述截断阈值。

28.根据权利要求27所述的装置，其中，所述第二确定子单元用于：

从所述集中分布的目标输入激活值中确定所述截断阈值。

29.一种压缩模型的训练装置，包括：

第一获得模块，用于将样本文本数据输入压缩模型，得到针对多个预定类别的第一匹配概率；所述样本文本数据标注有样本类别信息；

第一确定模块，用于根据所述样本类别信息和所述第一匹配概率，确定所述压缩模型的损失值；以及

调整模块，用于根据所述损失值，调整所述压缩模型的模型参数，得到经训练的压缩模型；其中，所述压缩模型是采用权利要求1～13中任一项所述的方法得到的压缩后的深度学习模型。

30.一种文本数据处理装置，包括：

第二获得模块，用于将待处理的文本数据输入压缩模型，得到表示所述文本数据所属类别的匹配概率；所述匹配概率包括所述文本数据属于多个预定类别中每个预定类别的概率值；以及

第二确定模块，用于根据所述匹配概率，确定所述文本数据所属的目标类别；其中，压缩模型是采用权利要求1～13中任一项所述的方法得到的压缩后的深度学习模型。

31.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-15中任一项所述的方法。

32.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-15中任一项所述的方法。

33.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-15中任一项所述的方法。