CN114494791B

CN114494791B - 一种基于注意力选择的transformer运算精简方法及装置

Info

Publication number: CN114494791B
Application number: CN202210353591.5A
Authority: CN
Inventors: 苏慧; 程乐超; 王聪; 卢修生; 宋明黎
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-08
Anticipated expiration: 2042-04-06
Also published as: CN114494791A

Abstract

本发明提出了一种基于注意力选择的transformer运算精简方法，在transformer网络的每层用注意力机制获取关联矩阵，对关联矩阵的每一行计算信息熵，获得各个局部标识对于网络任务的重要性程度，将局部标识划分为重要标识和不重要标识，每间隔一定网络层，计算不重要标识的特征参数和，将不重要标识的特征参数值加到重要标识上，删除不重要标识，仅重要标识进入网络下一层。网络训练过程中，构建交叉熵损失函数和重要性损失函数，重要性损失函数用于降低重要标识与不重要标识的关联。本发明方法从影响网络任务的判别性区域的选择角度出发，实现方法简单，有效减少网络计算量的同时，对模型精度影响很小，且可以与已知网络压缩方法同时使用，共同实现计算量压缩。

Description

一种基于注意力选择的transformer运算精简方法及装置

技术领域

本发明涉及模型压缩技术领域，特别涉及一种基于注意力选择的transformer运算精简方法及装置。

背景技术

深度神经网络作为机器学习的主流分支，网络结构获得了不断的创新。近年来提出的transformer网络结构在自然语言处理任务上展示了强大的表现能力，并扩展到计算机视觉任务中。然而，transformer较大的计算复杂度导致了其效率低下，如何有效压缩transformer网络结构的计算量，实现模型的高效、高性能实现，成为新的研究方向。

在transformer网络计算量压缩领域，除了常规的用复杂网络蒸馏简单网络、网络结构剪枝、模型参数精度量化等压缩方法外，研究者们还针对自注意力机制二次复杂度方面展开各方面优化，试图用更高效、线性复杂度的注意力机制替代，比如fastformer用加性注意替代乘性注意建模全局上下文，实现每个局部标识（token）与全局上下文表示的交互；lite transformer分析自注意力计算的冗余问题，仅保留部分自注意力用于长距离依赖，用卷积方法替代自注意力获取短距离关系，从而减少计算量；Linformer方法构建低秩矩阵近似表示自注意力机制，实现时间和空间的压缩。然而，多数方法在自然语言处理任务上实现了有效应用，但是在计算机视觉方面上却效果受限。

发明内容

本发明的目的在于提供一种基于注意力选择的transformer运算精简方法及装置，以克服现有技术中transformer模型计算复杂度高，效率低下的问题。

为实现上述目的，本发明提供如下技术方案：

本申请公开了一种基于注意力选择的transformer运算精简方法，包括以下步骤：

S1、构建分类数据集；所述分类数据集由若干个分类数据图像构成；

S2、调整分类数据图像的宽、高，将分类数据图像不交叠地切分若干个图像块，将各个图像块进行编码作为局部标识；所有局部标识构成图像标识；

S3、将图像标识送入transformer网络获得各个图像块特征信息；所述transformer网络由若干个transformer层构成；每隔n个transformer层，结合自注意力机制和局部标识的信息熵计算判断局部标识对于图像分类的重要性程度，将局部标识分为不重要标识和重要标识；对于不重要标识，计算其特征参数值的和，将特征参数值均匀加到重要标识上，删除不重要标识，重要标识送入下一个transformer层；

S4、构建重要性损失函数和交叉熵损失函数，训练模型。

作为优选，步骤S2中调整分类数据图像的宽、高都为448，将分类数据图像不交叠地切分为784个宽、高都为16的图像块。

作为优选，步骤S2中，对所有图像块做卷积操作，加上可训练位置嵌入，生成图像标识。

作为优选，步骤S3中具体包括如下子步骤：

S31、将图像标识送入transformer层中进行特征提取，并利用transformer层中的自注意力机制获取各个局部标识与所有局部标识之间的关联，生成关联矩阵；

S32、对关联矩阵逐行计算信息熵，获得各个局部标识对于图像分类的重要性程度；对信息熵结果进行排序，值最小的top-n个局部标识作为不重要标识，其他局部标识作为重要标识；

S33、对于不重要标识，计算其特征参数值的和，将特征参数值均匀加到重要标识上，删除不重要标识，仅重要标识进入下一个transformer层。

作为优选，所述步骤S4中的具体操作如下：对transformer网络的每一层构建重要性损失函数引导transformer网络仅保留重要标识的特征信息；对最后分类结果构建交叉熵损失函数；训练模型。

作为优选，步骤S3中n的取值为3。

本申请还公开了一种基于注意力选择的transformer运算精简装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述的一种基于注意力选择的transformer运算精简方法。

本申请还公开了一种计算机可读存储介质，，其上存储有程序，该程序被处理器执行时，实现上述的一种基于注意力选择的transformer运算精简方法。

本发明的有益效果：

本发明公开了一种基于注意力选择的transformer运算精简方法，该方法在transformer网络的每层用注意力机制获取关联矩阵，对关联矩阵的每一行计算信息熵，获得各个局部标识（image token）对于网络任务的重要性程度，将局部标识划分为重要标识和不重要标识。计算不重要标识的特征参数和，将不重要标识的特征参数值加到重要标识上，删除不重要标识，仅重要标识进入网络下一层。网络训练过程中，构建交叉熵损失函数和重要性损失函数，交叉熵损失函数用于图像分类，重要性损失函数用于降低重要标识与不重要标识的关联。

本发明的特征及优点将通过实施例结合附图进行详细说明。

附图说明

图1为本发明一种基于注意力选择的transformer运算精简方法的流程示意图图；

图2为利用关联矩阵信息熵获得的图像注意力热度图；

图3是本发明的网络计算量压缩前后测试结果；

图4是本发明一种基于注意力选择的transformer运算精简装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

参阅图1，本发明一种基于注意力选择的transformer运算精简方法，包括以下步骤：

S4、构建重要性损失函数和交叉熵损失函数，训练模型。

在一种可行的实施例中，步骤S2中调整分类数据图像的宽、高都为448，将分类数据图像不交叠地切分为784个宽、高都为16的图像块。

在一种可行的实施例中，步骤S2中，对所有图像块做卷积操作，加上可训练位置嵌入，生成图像标识。

在一种可行的实施例中，步骤S3中具体包括如下子步骤：

在一种可行的实施例中，所述步骤S4中的具体操作如下：对transformer网络的每一层构建重要性损失函数引导transformer网络仅保留重要标识的特征信息；对最后分类结果构建交叉熵损失函数；训练模型。

在一种可行的实施例中，步骤S3中n的取值为3。

实施例：

步骤S1：构建汽车分类数据集共16,185张，其中8144张为训练集，8041张为测试集。汽车数据集共196类，主要基于汽车品牌、车型、年份实现类别划分；

步骤S2：调整汽车分类数据的宽、高都为448，将图像不交叠地切分784（28*28）个为宽、高都为16的图像块，这些图像块进行编码作为局部标识（part token）。将局部标识送入transformer网络获得各个图像块特征信息；

步骤S3：针对transformer结构，每隔3层，结合自注意力机制和局部标识的信息熵计算判断局部标识对于图像分类的重要性程度，删除不重要的局部标识，剩余局部标识送入下一层；对于被删除的局部标识，计算其特征参数和。将参数值均匀赋予送入下一层的局部标识；

步骤S4：构建重要性损失函数和交叉熵损失函数，训练模型。

所述步骤S1中，给定

个样本和

个类别的汽车数据

，

为样本，

为属性分类标签。

所述步骤S2中，将宽、高都为448的图像切分为784（28*28）个宽、高都为16的不重叠图像块。对所有图像块做卷积操作，再加上可训练位置嵌入（position embedding），生成图像标识。

；

其中，

表示卷积映射操作，

表示第

个图像块，

表示图像块数目，

表示位置嵌入。

表示送入第1层transformer层的图像标识，

个序列（

个局部标识，本发明中

=784），特征维度为C（本发明中C=768）。

所述步骤S3中，将图像标识送入transformer层中进行特征提取，并利用transformer层中的自注意力机制获取各个局部标识与所有局部标识之间的关联，生成关联矩阵。

，

，

其中，

表示自注意力机制的公式，

表示送入第

层的图像标识，

分别表示三个结构一致，参数初始化不同的全连接结构，

分别表示自注意力计算的三个矩阵元素，长、宽分别为

。

标识单头特征长度。

为关联矩阵，其宽、高分别为

，关联矩阵的每一行表示单个局部标识和所有局部标识的关联程度。

表示

经历自注意力机制后的标识。

表示

经历多层感知机操作后的标识，一个transformer层包含一个自注意力机制和一个多层感知机操作，因此

同时也是

经历一个transformer层后得到的标识。

表示多层感知机操作。

所述步骤S3中，对关联矩阵逐行计算信息熵，获得各个局部标识对于图像分类的重要性程度。对信息熵结果进行排序，值最小的topn（topn=200）部标识作为不重要标识，其他局部标识作为重要标识。

其中，

表示对关联矩阵的信息熵简化公式，

表示关联矩阵，

表示特征的维度系数。

表示对关联矩阵的第

维逐个计算当前维度下的最大值，

表示对关联矩阵的第

维逐个计算当前维度下的平均值。本发明中，

，表示对关联矩阵的每一行，计算当前行中所有列的最大值与当前行所有列的平均值的比值，比值结果尺寸为

,表示

个局部标识的重要性程度。

针对不重要标识，计算其特征参数值的和，将特征参数值均匀加到重要标识上，删除不重要标识，仅重要标识进入网络下一层。该步骤保证进入下一层网络的参数值的和与当前层一致，防止网络训练过程中因为删减标识导致层间参数总和变化过大，训练不稳定。

；

；

；

；

其中，

表示

经历第

层transformer层后得到的标识，利用步骤3的信息熵简化公式将

分为重要标识

和不重要标识

。

表示统计特征的元素个数，

表示重要标识

的元素个数，即

各个维度大小的乘积；

表示计算特征的所有元素和，

表示不重要标识

的所有元素值的和。

表示第

层transformer层的输入。

所述步骤S4中，对网络的每一层构建重要性损失函数引导网络仅保留重要标识的特征信息；对最后分类结果构建交叉熵损失函数。训练模型。

其中，

表示重要性损失函数，用于控制重要标识中不引入不重要标识，维护重要标识特征信息的质量，

表示第

层transformer层的关联矩阵，

表示第

层transformer层中重要标识所在的位置系数，

表示第

层transformer层中不重要标识所在的位置系数，

表示从关联矩阵提取

行

列的信息，

表示L1操作。

表示交叉熵损失函数，用于分类任务，

表示输入数据，

表示数据类别标签。

定义与数学符号

本发明主要解决transformer模型计算复杂度高，效率低下的问题。这里正式定义

个样本和

个类别的汽车数据

，

为样本，

为属性分类标签。网络测试结果为

，其中

为网络参数，

为模型网络映射函数。

实验实施细节

本发明的方法使用Pytorch框架进行实验，在Stanford Cars汽车数据上使用初始学习率为0.03的SGD优化器，训练过程中，图像尺寸调整至600*600，在随机裁剪至448*448大小，同时将图像随机左右翻转，亮度、对比度、饱和度均在原有基础上随机波动40%，最后再进行自动数据增强操作。数据训练统一四个gpu分布式训练，每个gpu的batch size为16，训练15000步数。使用的transformer网络共12个transformer层，图像先使用卷积操作下采样生成28*28的局部标识后再送入transformer网络中，因此transformer网络的局部标识为784（28*28=784）个。计算量压缩后的网络，每间隔n=3个transformer层删除topn=200个局部标识，最后输出网络的局部标识仅185个，计算量压缩为原来的0.62倍。

参阅图2，图2为利用关联矩阵信息熵获得的图像注意力热度图；可以看到，使用关联矩阵信息熵的方法，网络的注意力会关注到车轮、车灯、车体轮廓等有利于识别车辆类别的判别性区域。对车的窗面、车面等无法识别车辆类别的区域，网络关注度很低。

参阅图3，图3分别展示了使用本发明方法进行计算量压缩和不进行压缩的网络分别在汽车数据上测试的准确率结果，以及本发明方法的计算量压缩比例情况。可以看到，使用本发明方法对网络的计算量实现了较大的压缩，而精度损失却很小。

本发明一种基于注意力选择的transformer运算精简装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明一种基于注意力选择的transformer运算精简装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于注意力选择的transformer运算精简装置。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力选择的transformer运算精简方法，其特征在于，包括以下步骤：

S3、将图像标识送入transformer网络获得各个图像块特征信息；所述transformer网络由若干个transformer层构成；每隔n个transformer层，结合自注意力机制和局部标识的信息熵计算判断局部标识对于图像分类的重要性程度，将局部标识分为不重要标识和重要标识；对于不重要标识，计算其特征参数值的和，将特征参数值均匀加到重要标识上，删除不重要标识，重要标识送入下一个transformer层；具体包括如下子步骤：

S33、对于不重要标识，计算其特征参数值的和，将特征参数值均匀加到重要标识上，删除不重要标识，仅重要标识进入下一个transformer层；

S4、构建重要性损失函数和交叉熵损失函数，训练模型；所述重要性损失函数如下：