CN116894977A

CN116894977A - 一种基于轻量型Transformer的遥感目标检测方法

Info

Publication number: CN116894977A
Application number: CN202310865372.XA
Authority: CN
Inventors: 宋铁成; 毛磊; 徐光明; 酒英豪; 彭逸
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-10-17

Abstract

本发明属于遥感目标检测领域，具体涉及一种基于轻量型Transformer的遥感目标检测方法，包括：将一个阈值可学习的token剪枝策略应用于视觉Transformer，以自适应地在不同编码器层级上减少冗余的token；通过一种注意力传播策略来重用前一层多头自注意力模块中的自注意力矩阵，进而绕过大量的自注意力计算；通过建立分类损失、回归损失以及剪枝损失，对整个网络进行优化，利用优化后的网络进行目标检测。本发明采用全自动的token剪枝策略与高效的注意力传播策略，能够有效地降低固定数量的token和各层自注意力矩阵之间的高相似性所带来的冗余，提升了模型的计算效率和推理速度。

Description

一种基于轻量型Transformer的遥感目标检测方法

技术领域

本发明属于遥感目标检测领域，具体涉及一种基于轻量型Transformer的遥感目标检测方法。

背景技术

视觉Transformer的多头自注意力机制需要计算所有token之间的相互关注程度，以便计算新的序列表示。因此，其计算复杂度与输入序列的长度呈二次关系。当处理大规模序列数据时，例如遥感领域中的高分辨率图像，计算成本将变得非常高，有效地部署这些模型变得越来越具有挑战性。为了解决这个问题，轻量型Transformer的模型设计吸引了研究者的广泛关注。这些轻量型Transformer模型采用了一系列优化方法，包括剪枝、量化、知识蒸馏和低秩分解等技术，以降低Transformer模型的计算复杂度和内存占用量，从而更好地应用于大规模序列数据的处理，包括遥感图像的分析和目标检测任务。

目前，在大多数视觉Transformer模型中存在两种形式的冗余计算。第一种形式的冗余体现在固定数量的token在空间层级上会产生一定程度的冗余计算。基于CNN的网络通常在浅层编码低级信息(如纹理和颜色)，在深层编码高级信息(如语义特征)。第二种形式的冗余存在于相邻层之间的自注意力矩阵的相似性中。在Transformer模型中，输入特征的嵌入通过多头自注意力模块来编码所有token之间的相互依赖关系。然而，由于相邻层之间的特征嵌入是平滑变化的，因此相邻层的自注意力矩阵之间存在高度的相似性。这意味着计算相邻层之间的自注意力矩阵可能存在冗余。

GOYAL等人提出了一种基于重要性分数直接对所有token进行倒序排序，然后使用top-K选择策略进行剪枝的方法，这种方法固定保留前K个重要的token，这种固定的剪枝比例不适用于不同层级或不同任务的序列数据。PAN等人提出了一个可解释性感知冗余消除框架(Interpretability-Aware Redundancy Reduction，IA-RED2)，通过一个可解释的模块来动态地抛弃冗余的token，然后将其扩展到一个分层结构中，不同阶段的不相关token被逐步抛弃，这种方法引入预测模块来估计每个token的重要性分数增加了计算成本，并且预测模块需要额外的计算和参数，并且在每个层级上进行预测，这可能会导致整体模型的计算复杂度增加，尤其是当处理大规模序列数据时。RAO等人提出了动态token稀疏化ViT框架(ViT with Dynamic Token Sparsification，DynamicViT)，该框架通过一个轻量级预测模块来估计当前特征中，每个token的重要性分数，并动态地修剪冗余的token，这种方法只关注token的数量优化，没有考虑降低自注意力矩阵中存在的冗余。

综上所述，现有技术在处理Transformer模型中存在的冗余计算导致计算效率和推理速度不高的问题时，没有考虑不同层级或不同任务的序列数据、计算成本的模型复杂度以及自身冗余。

发明内容

为解决上述技术问题，本发明提出一种基于轻量型Transformer的遥感目标检测方法，包括以下步骤：

S1：获取带有目标类别标签的遥感图像；

S2：构建遥感目标检测模型；所述模型包括主干网络模块、位置编码器、Transformer编码器模块、Transformer解码器模块和预测头模块；

S3：设计适用于Transformer模型压缩策略；所述策略包括token剪枝策略和注意力传播策略；

S4：将带有目标类别标签的遥感图像输入遥感目标检测模型进行模型的训练；

S41：将遥感图像输入主干网络模块中进行特征提取，得到一系列特征图；将这些特征图通过全局平均池化层来降低空间维度，形成一个固定大小的特征向量，得到序列化表示的特征向量序列；

S42：将特征向量序列送入位置编码器进行位置信息的编码，得到带有位置信息的特征向量序列；

S43：将带有位置信息的特征向量序列送入一系列的Transformer编码器模块，捕获全局语义信息；每层Transformer编码器模块由多头自注意力机制模块和前馈神经网络组成，通过多头自注意力机制模块捕获每个位置的特征向量的全局上下文信息，通过前反馈神经网络对多头自注意力机制捕获的每个位置的特征向量的全局上下文信息进行非线性变换和映射后聚合，得到带有位置信息的特征向量序列全局语义信息；同时，在全局语义信息捕获过程中，对于这一系列Transformer编码器模块，采用token剪枝策略和注意力传播策略以降低多头自注意力计算的成本；

S44：Transformer解码器模块将目标查询与Transformer编码器模块所捕获全局语义信息进行注意力操作，获取与查询相关的特征表示；

S45：在预测头模块中，将Transformer解码器输出的与查询相关的特征表示经过全连接层，预测目标的边界框位置和类别；

S46：将分类的类别损失、边界框的回归损失以及L2损失建立遥感目标检测模型的损失函数，在模型训练过程中，通过最小化损失函数来完成模型的训练；

S5：将待检测的遥感图像输入已经训练好的遥感目标检测模型，得到目标检测的结果，包括目标的边界框位置和类别标签。

本发明基于Transformer网络架构来设计Transformer模型压缩策略；首先，通过引入阈值可学习的token剪枝策略，能够灵活地减少Transformer中固定数量的token带来的冗余计算，这种策略使得模型能够根据不同层级的需要自适应地剪枝，去除在目标识别中不起作用的token，从而提高计算效率；同时，引入注意力传播策略的重用机制有效地解决了相邻层之间自注意力矩阵的高相似性问题，通过重复使用先前层级的自注意力矩阵，避免了当前层级的冗余计算，提升了模型的计算效率和推理速度。

附图说明

图1为本发明的一种基于轻量型Transformer的遥感目标检测方法的框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于轻量型Transformer的遥感目标检测方法，如图1所示，包括：

S1：获取带有目标类别标签的遥感图像；

在本实施例中，主干网络CNN采用预训练好的ResNet。

在本实施例中，采用token剪枝策略和注意力传播策略以降低多头自注意力计算的成本，包括：

在Transformer编码器模块，将输入的带有位置信息的特征向量序列中每个位置的特征向量作为一个token，通过阈值可学习的token剪枝策略解决Transformer编码器模块中固定数量的token所产生的冗余问题，采用注意力传播策略以利用多头自注意力机制模块之间的依赖关系，并通过重用先前多头自注意力模块中的自注意力矩阵来避免冗余的自注意力计算。

通过一个阈值可学习的token剪枝策略解决Transformer编码器模块中固定数量的token所产生的冗余，包括：

对于token x_i，计算其重要性分数，定义token x_i在第l层Transformer编码器的阈值为θ_l∈R，通过对比重要性分数和阈值的大小来施加二值掩码M∈{0,1}，指示Transformer编码器模块是否保留当前token x_i，如果掩码为1就代表保留当前token，如果掩码为0就代表修剪掉当前token；同时，通过对掩码算子M施加L2损失来监督token剪枝策略中阈值的学习。

对于给定的输入序列，使用Transformer模型计算自注意力矩阵A，为了剔除不重要的token，必须划分出对目标识别贡献较小的token，因此需要定义一个可靠的度量指标，一个自然的方案是根据自注意力矩阵A寻找阈值。由于注意力得分A(x_i,x_j)表示其他所有token x_j对token x_i的归一化注意程度，因此如果token x_i从所有自注意力head的所有token中得到更多的注意力，就可以认为x_i是重要的，进而剔除剔除不重要的token，如果token未被合理剪枝，模型会受到惩罚。

对于token x_i，其重要性分数为：

其中，IS(x_i)_l表示第i个token在第l层Transformer编码器的重要性分数，φ(·)表示Softmax运算；W_q和W_k分别表示自注意力层中查询矩阵Query和键矩阵Key的变换矩阵；d表示键矩阵Key的维度；i、j表示分别不同token的索引；H表示自注意力头的数量；h表示Transformer编码器中注意力机制模块的索引；N表示token的数量。

通过对比重要性分数和阈值的大小来施加二值掩码M∈{0,1}，包括：

M(x_i)＝I[IS(x_i)_l＞θ_l]

其中，M(x_i)表示当前层的Transformer编码器处理第i个token的掩码算子；I[·]表示指示函数；IS(x_i)_l表示第i个token在第l层Transformer编码器的重要性分数；θ_l表示第l层的阈值。

通过对掩码算子M施加L2损失来监督token剪枝策略中阈值的学习中的L2损失，包括：

其中，L_tp表示掩码过程中的L2损失，N表示token的数量，M_l（x）表示第l层Transformer编码器处理token x的掩码算子。

在本实施例中，采用注意力传播策略以利用多头自注意力模块之间的依赖关系，并通过重用先前多头自注意力模块中的自注意力矩阵来绕过大量的自注意力计算，包括：

对输入序列进行线性映射，得到查询矩阵Query、键矩阵Key和值矩阵Value，接着计算查询矩阵Query和键矩阵Key的点积，然后进行归一化，得到自注意力矩阵；将自注意力矩阵与值矩阵Value进行矩阵乘法，得到加权的值矩阵，进而得到该层的输出。在传统的视觉Transformer中，每一层都会独立地计算自注意力矩阵；在本方法中Transformer不再对每一层独立地计算自注意力矩阵，当处理第l+1层时，该层不再独立地计算自注意力矩阵，而是通过将第l层的自注意力矩阵传播到第l+1层，实现自注意力计算的复用；通过重复使用前一层的自注意力矩阵，视觉Transformer的多头自注意力模块无需再次计算自注意力矩阵和查询矩阵Query和键矩阵Key，而是直接将值矩阵Value与传播来的前一层的自注意力矩阵进行特征加权，得到该层的输出序列。

在本实施例中，所述模型的分类损失，包括：

其中，N表示token的数量；M表示类别数量；y_ij表示符号函数，如果样本i的真实类别就是类别j即取1，否则取0；p_ij表示观测样本i属于类别j的概率。

在本实施例中，所述模型的定位损失，包括：

其中，D表示维度数量，对于水平边界框，通常为4；y_i表示预测坐标值；表示真实坐标值；A和B分别表示预测边界框和真实边界框；C表示A与B之间的最小闭合矩形；Area(X)表示检测框X的面积。

在本实施例中，所述模型的总体损失函数，包括：

L＝L_cls+λL_loc+γL_tp

其中，λ和λ表示超参数，用于平衡不同损失之间的权重。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于轻量型Transformer的遥感目标检测方法，其特征在于，包括：

S1：获取带有目标类别标签的遥感图像；

2.根据权利要求1所述的一种基于轻量型Transformer的遥感目标检测方法，其特征在于，采用token剪枝策略和注意力传播策略以降低多头自注意力计算的成本，包括：

3.根据权利要求2所述的一种基于轻量型Transformer的遥感目标检测方法，其特征在于，通过阈值可学习的token剪枝策略解决Transformer编码器模块中固定数量的token所产生的冗余问题，包括：

4.根据权利要求3所述的一种基于轻量型Transformer的遥感目标检测方法，其特征在于，计算token的重要性分数，包括：

5.根据权利要求3所述的一种基于轻量型Transformer的遥感目标检测方法，其特征在于，通过对比重要性分数和阈值的大小来施加二值掩码M∈{0,1}，包括：

M(x_i)＝I[IS(x_i）_l＞θ_l]

其中，M（x_i)表示当前层的Transformer编码器处理第i个token的掩码算子；I[·]表示指示函数；IS（x_i）_l表示第i个token在第l层Transformer编码器的重要性分数；θ_l表示第l层的阈值。

6.根据权利要求2所述的一种基于轻量型Transformer的遥感目标检测方法，其特征在于，所述L2损失，包括：

7.根据权利要求2所述的一种基于轻量型Transformer的遥感目标检测方法，其特征在于，采用注意力传播策略以利用多头自注意力模块之间的依赖关系，并通过重用先前多头自注意力模块中的自注意力矩阵来避免冗余的自注意力计算，包括：

每一层Transformer编码器不再独立地计算自注意力矩阵，当处理第l+1层时，该层不再独立地计算自注意力矩阵，通过将第l层的自注意力矩阵传播到第l+1层，实现自注意力计算的复用；通过重复使用前一层的自注意力矩阵，从而Transformer编码器的多头自注意力模块无需再次计算自注意力矩阵和查询矩阵Query和键矩阵Key，而是直接将值矩阵Value与传播来的前一层的自注意力矩阵进行特征加权，得到该层的输出序列。

8.根据权利要求1所述的一种基于轻量型Transformer的遥感目标检测方法，其特征在于，所述分类的类别损失，包括：

其中，L_cls表示分类的类别损失；N表示token的数量；M表示类别数量；y_ij表示符号函数，如果样本i的真实类别就是类别j即取1，否则取0；p_ij表示观测样本i属于类别j的概率。

9.根据权利要求1所述的一种基于轻量型Transformer的遥感目标检测方法，其特征在于，所述边界框的回归损失，包括：

其中，L_loc表示边界框的回归损失；L₁表示Smooth L1损失；L_giou表示GIoU损失；D表示维度数量，对于水平边界框，维度通常为4；y_i表示预测坐标值；表示真实坐标值；A和B分别表示预测边界框和真实边界框；C表示A与B之间的最小闭合矩形；Area（）表示求面积操作；IoU表示预测框与真实框之间的交并比。

10.根据权利要求1所述的一种基于轻量型Transformer的遥感目标检测方法，其特征在于，所述遥感目标检测模型的损失函数，包括：

L＝L_cls+γL_loc+γL_tp

其中，L_cls表示分类的类别损失；L_loc表示边界框的回归损失；L_tp表示L2损失；λ和γ分别表示平衡边界框的回归损失与L2损失之间权重的超参数。