CN115879119B

CN115879119B - 针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法及装置

Info

Publication number: CN115879119B
Application number: CN202310190344.2A
Authority: CN
Inventors: 陈健生; 余宏伟; 马惠敏; 丁鑫龙; 唐挺; 秦怡宁
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-05-16
Anticipated expiration: 2043-03-02
Also published as: CN115879119A

Abstract

本发明公开了一种针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法及装置，涉及计算机视觉技术领域。包括：获取待分类的图像数据；将图像数据输入到构建好的视觉Transformer感知模型；其中，视觉Transformer感知模型包括限制令牌注意层；根据图像数据以及视觉Transformer感知模型，得到待分类的图像数据的分类结果。本发明所提出的视觉感知模型，通过对异常注意力的限制，结合高性能的视觉Transformer模型，构造了更鲁棒更高性能的视觉感知模型，在对抗精度方面明显优于以往的补丁防御方法，对干净样本的精度影响较小。

Description

针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法及装置。

背景技术

随着深度学习技术的发展，基于神经网络的智能模型在诸多计算机视觉任务中展现出了远超传统方法的优秀的性能，例如图像识别、目标检测、语义分割等。然而，复杂的深度学习模型往往存在着本征的脆弱性。研究表明深度学习模型在人为设计的对抗攻击下很容易被刻意设计出的对抗样本所误导，从而出现性能严重下降甚至完全失效的情况。这种在对抗条件下的脆弱性给深度学习模型的应用带来了巨大的风险。因此近年来针对深度学习模型对抗鲁棒性的研究由于其重要性而广受关注。

人为构造的“对抗样本”旨在使模型混淆，而对抗鲁棒性就是衡量机器学习模型抗干扰的能力。机器学习的许多现实应用，如图像识别或自然语言处理，都需要高水平的鲁棒性，以确保准确可靠的结果。因此对抗性鲁棒性的研究非常重要，它可以帮助我们理解当前机器学习模型的局限性，并且可以帮助确定提高这些模型鲁棒性的新方法。通过对对抗性鲁棒性进行研究，我们可以帮助确保机器学习模型能够更好地处理现实世界的挑战，并产生更可靠的结果。

早些年鲁棒性的工作，主要集中在CNN（Convolutional Neural Network，卷积神经网络）上，在过去的两年中，视觉Transformer模型在多个计算机视觉任务中都取得了接近乃至超越卷积神经网络的性能，然而国内外对于视觉Transformer的对抗鲁棒性研究却甚少。考虑到模型对抗鲁棒性在实际应用中的重要性，物理世界的攻击受到越来越多的关注，其中的对抗扰动被添加到物体对象本身而不是数字图像。然而采用传统的范数约束对抗攻击需要精确处理整个图像中的每个像素，这样的操作十分困难且昂贵。相比之下通过产生一个像素值可以自由改变的补丁状的扰动，在物理世界更容易实现，这样的补丁在空间上是局部的，通常不受其放置位置和背景图像的影响，从而提高了在现实世界攻击的鲁棒性，这种方法被称为通用对抗性补丁攻击，它仍然是攻击现实世界视觉系统最有效和最广泛采用的方法。

先前针对通用对抗补丁攻击的防御工作主要集中于CNN上，目前适用于视觉Transformer的防御工作很少，大部分集中在Certified工作上，但由于Certified工作在干净样本上的准确率相比于原模型会有着灾难性的降低，所以离应用于现实世界仍存在较大的距离。

虽然通用对抗性补丁攻击对现实应用程序是一个明显的威胁，但对它的防御仍然有限，以往的方法主要集中在CNN上。DW (Digital Watermarking，数字水印)和LGS(Local Gradient Smoothing，局部梯度平滑)这两种方法是基于经验的补丁检测，由于缺乏理论基础，在考虑防御策略的自适应白盒攻击下，补丁检测的有效性严重下降。除了纯经验性的方法，也有人进行了理论性的分析，为防御策略提供了数学指导，通过对通用补丁在特征层上的数学分析，FNC (Feature Norm Clip，特征范数剪切层方法)被用于抑制控制池化结果方向的大范数特征向量，然而由于视觉Transformer与CNN的架构有本质上的不同，例如FNC方法就严重依赖于CNN中广泛应用的平均池化策略，这种策略在视觉Transformer中并不常用，导致了FNC在视觉Transformer上的效果极为有限。

近年来，针对视觉Transformer也提出了多种防御方法，Smoothed Vit（SmoothedVision Transformer，平滑视觉转换器）使用投票机制来实现对于补丁攻击的被认证的防御机制，然而被认证的鲁棒性方法精度仍然很低，对于干净样本的精度大幅度降低是不可避免的，导致这类方法离实际应用仍有一定距离。RSA（Robust Self-Attention, 鲁棒性自注意力）方法通过提出一种鲁棒的Token聚合方式，有效提高了视觉Transformer针对通用对抗补丁攻击的鲁棒性，然而这种聚合机制也严重降低了视觉Transformer在干净样本上的精度。

发明内容

本发明针对现有针对通用对抗补丁攻击的防御工作主要集中于CNN（Convolutional Neural Networks，卷积神经网络）上，目前适用于视觉Transformer的防御工作很少，大部分集中在Certified工作上，但由于Certified工作在干净样本上的准确率相比于原模型会有着灾难性的降低，所以离应用于现实世界仍存在较大的距离的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供了一种针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法，该方法由电子设备实现，该方法包括：

S1、获取待分类的图像数据。

S2、将图像数据输入到构建好的视觉Transformer感知模型；其中，视觉Transformer感知模型包括限制令牌注意层。

S3、根据图像数据以及视觉Transformer感知模型，得到待分类的图像数据的分类结果。

可选地，S1中的待分类的图像数据包括带有通用补丁的图像数据以及不带有通用补丁的图像数据。

可选地，S2中的视觉Transformer感知模型包括限制令牌注意层，包括：

视觉Transformer感知模型包括编码器以及解码器，编码器包括多个块，多个块中的每个块包括限制令牌注意层。

限制令牌注意层，用于对每个块的输出进行限制令牌注意，输入到当前块的下一个块中。

可选地，对每个块的输出进行限制令牌注意，如下式（1）所示：

其中，RTA表示限制令牌注意，表示所述Transformer视觉感知模型中第块的个注意力头的注意力矩阵，矩阵大小为，表示第行，表示第列，表示第个注意力头，，表示对应令牌的贡献值，表示限制参数。可选地，多个块中的浅层块，如下式（2）所示：

其中，表示输入，表示一个常数矩阵，表示一个线性映射矩阵，表示对求偏导，表示与形状相同的矩阵，，表示单头注意力层的输出，，表示矩阵维度为。

可选地，多个块中的深层块，如下式（3）所示：

其中，表示输入得到的注意力矩阵，表示输入，，表示与大小相同的单位矩阵，，表示矩阵维度为，表示矩阵维度为。

可选地，视觉Transformer感知模型中用于分类的令牌，如下式（4）所示：

其中，表示共有个令牌，表示矩阵维度为，表示输入，表示一个线性映射矩阵，表示对抗补丁区域的注意力权重，表示浅层块令牌。

另一方面，本发明提供了一种针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知装置，该装置应用于实现针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法，该装置包括：

获取模块，用于获取待分类的图像数据。

输入模块，用于将图像数据输入到构建好的视觉Transformer感知模型；其中，视觉Transformer感知模型包括限制令牌注意层。

输出模块，用于根据图像数据以及视觉Transformer感知模型，得到待分类的图像数据的分类结果。

可选地，待分类的图像数据包括带有通用补丁的图像数据以及不带有通用补丁的图像数据。

可选地，视觉Transformer感知模型包括限制令牌注意层，包括：

其中，RTA表示限制令牌注意，表示所述Transformer视觉感知模型中第块的个注意力头的注意力矩阵，矩阵大小为，表示第行，表示第列，表示第个注意力头，，表示对应令牌的贡献值，表示限制参数。

可选地，多个块中的浅层块，如下式（2）所示：

可选地，多个块中的深层块，如下式（3）所示：

其中，，表示共有个令牌，表示矩阵维度为，表示输入，表示一个线性映射矩阵，表示对抗补丁区域的注意力权重，表示浅层块令牌。

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法。

上述技术方案，与现有技术相比至少具有如下有益效果：

上述方案，提升了视觉感知系统对于对抗补丁攻击的对抗鲁棒性：结合目前性能顶尖的视觉Transformer模型，并针对其现象进行分析，提出了RTA层，有效提升了其对抗鲁棒性，构成了一个鲁棒的高性能视觉感知系统，解决了视觉感知系统面对通用对抗补丁时，有效缓解了容易被其误导的问题。

弥补了视觉Transformer对抗鲁棒性研究的空缺：之前的工作大都集中在卷积神经网络上，尽管有针对视觉Transformer的方法，但也存在着干净性能急剧下降等问题，我们方法的提出有效地弥补了当前视觉Transformer领域的空缺。

有效利用了视觉Transformer的特点，提出了更符合Transformer特性的方法：利用了视觉Transformer独特的注意力机制，从理论上进行了分析，解释了为何补丁能有效影响最终的分类，并根据其分析提出更符合视觉Transformer特性的自适应限制异常注意的防御方法——RTA，实验结果验证了RTA对几种视觉变压器的白盒补丁攻击是有效的。RTA在对抗精度方面明显优于以往的补丁防御方法，对干净样本的精度影响较小。此外，RTA可以很容易地与对抗训练等其他防御方法相结合。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法流程示意图；

图2是本发明实施例提供的全图攻击与补丁攻击图；

图3是本发明实施例提供的针对视觉Transformer最后4层的CKA分析图；

图4是本发明实施例提供的对抗样本注意力的可视化图；

图5是本发明实施例提供的基于限制令牌注意(RTA)层示意图；

图6是本发明实施例提供的针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知装置框图；

图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

通用对抗补丁是一种对抗性攻击，通过对输入图片的局部进行覆盖，导致视觉感知系统对于输入出现大量错误。本发明的方法研究了视觉Transformer上针对通用补丁的有效防御方法，并基于该方法实现了针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知系统，旨在解决以下技术问题：

（1）容易受到通用补丁攻击的干扰。

随着深度学习技术的发展，基于神经网络的视觉感知系统在诸多计算机视觉任务中展现出了远超传统方法的优秀的性能，例如图像识别、目标检测、语义分割等。然而，复杂的视觉感知系统往往存在着本征的脆弱性，本发明针对此现象提出了更为鲁棒的视觉感知系统有效防御了实际应用中最为常见的通用补丁攻击。

（2）目前大部分的工作集中在CNN上，对于Transformer的研究较少。

近两年，视觉Transformer模型在多个计算机视觉任务中都取得了接近乃至超越卷积神经网络的性能，然而之前的对抗鲁棒性防御工作大都集中在卷积神经网络上，对于视觉Transformer的对抗鲁棒性研究甚少，考虑到对于Transformer的研究的缺乏性与重要性，本发明拟对视觉Transformer的对抗鲁棒性进行了研究，并提出了与之适配的防御方法进一步增强了视觉Transformer的对抗鲁棒性。

（3）对抗训练代价过高，泛化性弱。

对抗训练是提升模型对抗鲁棒性常用的策略与方法，然而基于对抗训练的方法计算效率极低，因此目前还没有工作来验证其对大规模数据集的实用性。基于对抗训练的另一个问题是，它们通常是专门为CNN分类器设计的，这使得它们很难拓展到视觉检测等其他任务。此外，通用对抗补丁攻击下的深度特征表示与规范约束攻击下的深度特征表示存在较大差异，导致拓展这些方法防御通用攻击时性能会存在差异。

（4）目前的防御方法没有有效利用视觉Transformer的特性。

之前的工作大部分都集中在CNN上，但由于CNN与视觉Transformer在结构上存在本质的差别，因此，针对CNN设计的防护方法通常不能有效地应用于变压器。同时，近年来针对视觉Transformer的方法存在多种问题，针对利用视觉Transformer局部识别能力而设计的可认证防御的精度很低，并且明显牺牲了干净样本情况下的精度，导致此类方法无法应用，其他针对视觉Transformer结构的方法，没有对攻击为何起效进行分析，没有有效利用视觉Transformer特性，导致防御效果欠佳。

如图1所示，本发明实施例提供了一种针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法，该方法可以由电子设备实现。如图1所示的针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法流程图，该方法的处理流程可以包括如下的步骤：

S1、获取待分类的图像数据。

如图2所示，采用传统的范数约束对抗攻击需要精确处理整个图像中的每个像素(图2a)，这样的操作十分困难且昂贵。相比之下通过产生一个像素值可以自由改变的补丁状的扰动(图2b)，在物理世界更容易实现，这样的补丁在空间上是局部的，通常不受其放置位置和背景图像的影响，从而提高了在现实世界攻击的鲁棒性，这种方法被称为通用对抗性补丁攻击，它仍然是攻击现实世界视觉系统最有效和最广泛采用的方法。

视觉Transformer感知模型包括编码器以及解码器，编码器包括多个块，多个块中的每个块包括限制令牌注意层，多个块包括多个浅层块以及多个深层块。

一种可行的实施方式中，首先，对补丁区域产生的影响进行数学分析，如上述（1）（2）点问题所说，当前基于神经网络的视觉感知系统容易受到通用补丁攻击的干扰，并且目前大部分的工作集中在CNN上，对于Transformer的研究较少。为了解决上述问题，本发明针对视觉Transformer的对抗鲁棒性进行了研究，并通过对通用对抗补丁对最终分类的影响进行数学分析，对补丁区域如何影响到最终的分类进行数学建模，揭示了基于Transformer的视觉感知系统受到对抗补丁的本质原因：

视觉Transformer模型通常使用CLSToken（CLS令牌）进行分类，它是一个集成其他所有Token信息的操作，不同的Token所贡献的信息量是不同的。本发明从自注意力计算入手进行数学分析，证明了浅层令牌的范数和网络的注意区域在很大程度上影响了最终用于分类的CLSToken。经验性地观察同样指出，对抗补丁区域能有效地吸引视觉Transformer的注意，从而导致错误的分类，详细分析如下：

本发明使用自我注意的梯度信息和CKA（Centered Kernel Alignment，中心核对齐）分析，提出了对抗补丁区域如何影响最终CLS令牌的数学解释。视觉Transformer模型中的Encoder（编码器）由多个Block（块）组成，为简单起见，本发明的数学分析只考虑单头注意设置，主要关注变压器块中的自注意层和MLP（Multi-layer Perceptron，多层感知机）层，考虑残差结构一个Block的输出可以表示为公式（1）：

其中，表示输入，，表示矩阵维度为，表示矩阵维度为。

进一步地，单头注意力层的输出可以表示为公式（2）：

其中，表示输入得到的注意力矩阵，，，两个矩阵的乘积定义为研究中发现浅层和深层的Block存在不同性质，因此本发明分别分析浅层的块和深层的块。对于浅块，从它们的梯度信息开始，公式（3）通过乘积公式推导出自注意层(Self Attention)的梯度信息：

其中，表示对求偏导，是与形状相同的矩阵，，表示单头注意力层的输出。

进一步地，Giulio等人曾发现，远小于，因此，这说明在计算梯度时可以看为常数，在这个近似下可以表示为公式(4)，不难发现公式（4）中的每一项都是独立与的常数，因此：

其中，表示一个常数矩阵，表示一个线性映射矩阵。

对于深层的块，如图3所示，本发明计算每个Block的Token表示之间的CKA系数。可以观察到，深层的Block的Token表示之间高度相似的，同时我们计算了深层中的值发现约等于1，这表明在深层中只对Token表示提供了很小的更新，因此在计算中可以忽略，深层块的输出可以表示为公式（5）：

其中，，，表示与大小相同的单位矩阵。

为了方便推导，本发明假设一共有M个Block，前一半为浅层块，其余的是深块，有了深浅层块的表示之后，视觉Transformer的输出可以表示为公式（6）：

其中，是由决定的注意力矩阵，决定了网络关注的区域，为线性映射矩阵。

进一步地，本发明将最终用于分类的CLSToken定义为，可以由公式（7）计算得到：

其中，，表示共有个令牌，表示矩阵维度为，表示一个线性映射矩阵，表示对抗补丁区域的注意力权重，表示浅层块令牌。可以发现可以被表示为所有Token加权和的形式，其中权重表明了网络对不同Token的关注程度，本发明用和表示对抗补丁区域的注意力权重与浅层Token，如图4所示，本发明发现网络非常的关注patch区域并且patch区域的浅层Token的模长异常大，这导致了在加权求和的时候，对抗补丁区域通常会贡献一个异常大的值，从而主导，导致了后续任务的错误。

进一步地，抑制Token注意方法：如上一段中(3)(4)的问题所说，目前基于对抗训练的防御方法代价过高且泛化性弱，并且目前的防御方法没有有效利用视觉Transformer的特性，为了解决上述问题，本发明决定从模型本身出发提升其对抗鲁棒性，而不依赖于对抗训练，当然本发明的方法也能与对抗训练相结合得到更好的结果，本发明依据数学与经验性结合的分析，进一步根据Transformer特性提出了RTA(Restricting TokenAttention，限制令牌注意)来提高视觉Transformer针对对抗补丁攻击的对抗鲁棒性。

从上述的数学分析中可以发现，网络对补丁区域会产生异常的关注，基于上述分析，本发明提出了RTA层来限制不同区块的异常注意。定义为具有个注意力头的视觉Transformer第个Block的注意力矩阵。的第列和表示对应Token的贡献值。对应用RTA的输出，可以由公式（8）计算得到：

整体应用流程如图5所示，补丁区域的Token在进行注意力计算后会出现异常的值，使网络对补丁区域极为关注，在通过RTA之后能有效地降低网络的异常注意力，使网络恢复正常，从图中可以看出，在应用RTA之后，网络对小鸟的注意区域从补丁区域变到了头部区域，很好的纠正了网络异常的注意力。

本发明实施例中，提升了视觉感知系统对于对抗补丁攻击的对抗鲁棒性：结合目前性能顶尖的视觉Transformer模型，并针对其现象进行分析，提出了RTA层，有效提升了其对抗鲁棒性，构成了一个鲁棒的高性能视觉感知系统，解决了视觉感知系统面对通用对抗补丁时，有效缓解了容易被其误导的问题。

如图6所示，本发明实施例提供了一种针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知装置600，该装置600应用于实现针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法，该装置600包括：

获取模块610，用于获取待分类的图像数据。

输入模块620，用于将图像数据输入到构建好的视觉Transformer感知模型；其中，视觉Transformer感知模型包括限制令牌注意层。

输出模块630，用于根据图像数据以及视觉Transformer感知模型，得到待分类的图像数据的分类结果。

可选地，多个块中的浅层块，如下式（2）所示：

可选地，多个块中的深层块，如下式（3）所示：

图7是本发明实施例提供的一种电子设备700的结构示意图，该电子设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）701和一个或一个以上的存储器702，其中，存储器702中存储有至少一条指令，至少一条指令由处理器701加载并执行以实现下述针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法：

S1、获取待分类的图像数据。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法。例如，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知方法，其特征在于，所述方法包括：

S1、获取待分类的图像数据；

S2、将所述图像数据输入到构建好的视觉Transformer感知模型；其中，所述视觉Transformer感知模型包括限制令牌注意层；

S3、根据图像数据以及视觉Transformer感知模型，得到待分类的图像数据的分类结果；

所述S2中的所述视觉Transformer感知模型包括限制令牌注意层，包括：

所述视觉Transformer感知模型包括编码器以及解码器，所述编码器包括多个块，所述多个块中的每个块包括限制令牌注意层；

所述限制令牌注意层，用于对每个块的输出进行限制令牌注意，输入到当前块的下一个块中；

所述对每个块的输出进行限制令牌注意，如下式（1）所示：

其中，RTA表示限制令牌注意，表示所述Transformer视觉感知模型中第块的个注意力头的注意力矩阵，矩阵大小为，表示第行，表示第列，表示第个注意力头，，表示对应令牌的贡献值，示限制参数。

2.根据权利要求1所述的方法，其特征在于，所述S1中的待分类的图像数据包括带有通用补丁的图像数据以及不带有通用补丁的图像数据。

3.根据权利要求1所述的方法，其特征在于，多个块中的浅层块，如下式（2）所示：

4.根据权利要求1所述的方法，其特征在于，多个块中的深层块，如下式（3）所示：

5.根据权利要求1所述的方法，其特征在于，所述视觉Transformer感知模型中用于分类的令牌，如下式（4）所示：

其中，表示共有个令牌，表示矩阵维度为，示输入，表示一个线性映射矩阵，表示对抗补丁区域的注意力权重，表示浅层块令牌。

6.一种针对对抗通用补丁攻击的鲁棒视觉Transformer视觉感知装置，其特征在于，所述装置包括：

获取模块，用于获取待分类的图像数据；

输入模块，用于将所述图像数据输入到构建好的视觉Transformer感知模型；其中，所述视觉Transformer感知模型包括限制令牌注意层；

输出模块，用于根据图像数据以及视觉Transformer感知模型，得到待分类的图像数据的分类结果；

所述视觉Transformer感知模型包括限制令牌注意层，包括：

所述对每个块的输出进行限制令牌注意，如下式（1）所示：

其中，RTA表示限制令牌注意，表示所述Transformer视觉感知模型中第块的个注意力头的注意力矩阵，矩阵大小为，表示第行，表示第列，表示第个注意力头，表示对应令牌的贡献值，表示限制参数。