CN116894977A - 一种基于轻量型Transformer的遥感目标检测方法 - Google Patents
一种基于轻量型Transformer的遥感目标检测方法 Download PDFInfo
- Publication number
- CN116894977A CN116894977A CN202310865372.XA CN202310865372A CN116894977A CN 116894977 A CN116894977 A CN 116894977A CN 202310865372 A CN202310865372 A CN 202310865372A CN 116894977 A CN116894977 A CN 116894977A
- Authority
- CN
- China
- Prior art keywords
- attention
- self
- transducer
- token
- remote sensing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims abstract description 47
- 238000013138 pruning Methods 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims description 22
- 230000007246 mechanism Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 3
- 244000141353 Prunus domestica Species 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于遥感目标检测领域,具体涉及一种基于轻量型Transformer的遥感目标检测方法,包括:将一个阈值可学习的token剪枝策略应用于视觉Transformer,以自适应地在不同编码器层级上减少冗余的token;通过一种注意力传播策略来重用前一层多头自注意力模块中的自注意力矩阵,进而绕过大量的自注意力计算;通过建立分类损失、回归损失以及剪枝损失,对整个网络进行优化,利用优化后的网络进行目标检测。本发明采用全自动的token剪枝策略与高效的注意力传播策略,能够有效地降低固定数量的token和各层自注意力矩阵之间的高相似性所带来的冗余,提升了模型的计算效率和推理速度。
Description
技术领域
本发明属于遥感目标检测领域,具体涉及一种基于轻量型Transformer的遥感目标检测方法。
背景技术
视觉Transformer的多头自注意力机制需要计算所有token之间的相互关注程度,以便计算新的序列表示。因此,其计算复杂度与输入序列的长度呈二次关系。当处理大规模序列数据时,例如遥感领域中的高分辨率图像,计算成本将变得非常高,有效地部署这些模型变得越来越具有挑战性。为了解决这个问题,轻量型Transformer的模型设计吸引了研究者的广泛关注。这些轻量型Transformer模型采用了一系列优化方法,包括剪枝、量化、知识蒸馏和低秩分解等技术,以降低Transformer模型的计算复杂度和内存占用量,从而更好地应用于大规模序列数据的处理,包括遥感图像的分析和目标检测任务。
目前,在大多数视觉Transformer模型中存在两种形式的冗余计算。第一种形式的冗余体现在固定数量的token在空间层级上会产生一定程度的冗余计算。基于CNN的网络通常在浅层编码低级信息(如纹理和颜色),在深层编码高级信息(如语义特征)。第二种形式的冗余存在于相邻层之间的自注意力矩阵的相似性中。在Transformer模型中,输入特征的嵌入通过多头自注意力模块来编码所有token之间的相互依赖关系。然而,由于相邻层之间的特征嵌入是平滑变化的,因此相邻层的自注意力矩阵之间存在高度的相似性。这意味着计算相邻层之间的自注意力矩阵可能存在冗余。
GOYAL等人提出了一种基于重要性分数直接对所有token进行倒序排序,然后使用top-K选择策略进行剪枝的方法,这种方法固定保留前K个重要的token,这种固定的剪枝比例不适用于不同层级或不同任务的序列数据。PAN等人提出了一个可解释性感知冗余消除框架(Interpretability-Aware Redundancy Reduction,IA-RED2),通过一个可解释的模块来动态地抛弃冗余的token,然后将其扩展到一个分层结构中,不同阶段的不相关token被逐步抛弃,这种方法引入预测模块来估计每个token的重要性分数增加了计算成本,并且预测模块需要额外的计算和参数,并且在每个层级上进行预测,这可能会导致整体模型的计算复杂度增加,尤其是当处理大规模序列数据时。RAO等人提出了动态token稀疏化ViT框架(ViT with Dynamic Token Sparsification,DynamicViT),该框架通过一个轻量级预测模块来估计当前特征中,每个token的重要性分数,并动态地修剪冗余的token,这种方法只关注token的数量优化,没有考虑降低自注意力矩阵中存在的冗余。
综上所述,现有技术在处理Transformer模型中存在的冗余计算导致计算效率和推理速度不高的问题时,没有考虑不同层级或不同任务的序列数据、计算成本的模型复杂度以及自身冗余。
发明内容
为解决上述技术问题,本发明提出一种基于轻量型Transformer的遥感目标检测方法,包括以下步骤:
S1:获取带有目标类别标签的遥感图像;
S2:构建遥感目标检测模型;所述模型包括主干网络模块、位置编码器、Transformer编码器模块、Transformer解码器模块和预测头模块;
S3:设计适用于Transformer模型压缩策略;所述策略包括token剪枝策略和注意力传播策略;
S4:将带有目标类别标签的遥感图像输入遥感目标检测模型进行模型的训练;
S41:将遥感图像输入主干网络模块中进行特征提取,得到一系列特征图;将这些特征图通过全局平均池化层来降低空间维度,形成一个固定大小的特征向量,得到序列化表示的特征向量序列;
S42:将特征向量序列送入位置编码器进行位置信息的编码,得到带有位置信息的特征向量序列;
S43:将带有位置信息的特征向量序列送入一系列的Transformer编码器模块,捕获全局语义信息;每层Transformer编码器模块由多头自注意力机制模块和前馈神经网络组成,通过多头自注意力机制模块捕获每个位置的特征向量的全局上下文信息,通过前反馈神经网络对多头自注意力机制捕获的每个位置的特征向量的全局上下文信息进行非线性变换和映射后聚合,得到带有位置信息的特征向量序列全局语义信息;同时,在全局语义信息捕获过程中,对于这一系列Transformer编码器模块,采用token剪枝策略和注意力传播策略以降低多头自注意力计算的成本;
S44:Transformer解码器模块将目标查询与Transformer编码器模块所捕获全局语义信息进行注意力操作,获取与查询相关的特征表示;
S45:在预测头模块中,将Transformer解码器输出的与查询相关的特征表示经过全连接层,预测目标的边界框位置和类别;
S46:将分类的类别损失、边界框的回归损失以及L2损失建立遥感目标检测模型的损失函数,在模型训练过程中,通过最小化损失函数来完成模型的训练;
S5:将待检测的遥感图像输入已经训练好的遥感目标检测模型,得到目标检测的结果,包括目标的边界框位置和类别标签。
本发明基于Transformer网络架构来设计Transformer模型压缩策略;首先,通过引入阈值可学习的token剪枝策略,能够灵活地减少Transformer中固定数量的token带来的冗余计算,这种策略使得模型能够根据不同层级的需要自适应地剪枝,去除在目标识别中不起作用的token,从而提高计算效率;同时,引入注意力传播策略的重用机制有效地解决了相邻层之间自注意力矩阵的高相似性问题,通过重复使用先前层级的自注意力矩阵,避免了当前层级的冗余计算,提升了模型的计算效率和推理速度。
附图说明
图1为本发明的一种基于轻量型Transformer的遥感目标检测方法的框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于轻量型Transformer的遥感目标检测方法,如图1所示,包括:
S1:获取带有目标类别标签的遥感图像;
S2:构建遥感目标检测模型;所述模型包括主干网络模块、位置编码器、Transformer编码器模块、Transformer解码器模块和预测头模块;
S3:设计适用于Transformer模型压缩策略;所述策略包括token剪枝策略和注意力传播策略;
S4:将带有目标类别标签的遥感图像输入遥感目标检测模型进行模型的训练;
S41:将遥感图像输入主干网络模块中进行特征提取,得到一系列特征图;将这些特征图通过全局平均池化层来降低空间维度,形成一个固定大小的特征向量,得到序列化表示的特征向量序列;
S42:将特征向量序列送入位置编码器进行位置信息的编码,得到带有位置信息的特征向量序列;
S43:将带有位置信息的特征向量序列送入一系列的Transformer编码器模块,捕获全局语义信息;每层Transformer编码器模块由多头自注意力机制模块和前馈神经网络组成,通过多头自注意力机制模块捕获每个位置的特征向量的全局上下文信息,通过前反馈神经网络对多头自注意力机制捕获的每个位置的特征向量的全局上下文信息进行非线性变换和映射后聚合,得到带有位置信息的特征向量序列全局语义信息;同时,在全局语义信息捕获过程中,对于这一系列Transformer编码器模块,采用token剪枝策略和注意力传播策略以降低多头自注意力计算的成本;
S44:Transformer解码器模块将目标查询与Transformer编码器模块所捕获全局语义信息进行注意力操作,获取与查询相关的特征表示;
S45:在预测头模块中,将Transformer解码器输出的与查询相关的特征表示经过全连接层,预测目标的边界框位置和类别;
S46:将分类的类别损失、边界框的回归损失以及L2损失建立遥感目标检测模型的损失函数,在模型训练过程中,通过最小化损失函数来完成模型的训练;
S5:将待检测的遥感图像输入已经训练好的遥感目标检测模型,得到目标检测的结果,包括目标的边界框位置和类别标签。
在本实施例中,主干网络CNN采用预训练好的ResNet。
在本实施例中,采用token剪枝策略和注意力传播策略以降低多头自注意力计算的成本,包括:
在Transformer编码器模块,将输入的带有位置信息的特征向量序列中每个位置的特征向量作为一个token,通过阈值可学习的token剪枝策略解决Transformer编码器模块中固定数量的token所产生的冗余问题,采用注意力传播策略以利用多头自注意力机制模块之间的依赖关系,并通过重用先前多头自注意力模块中的自注意力矩阵来避免冗余的自注意力计算。
通过一个阈值可学习的token剪枝策略解决Transformer编码器模块中固定数量的token所产生的冗余,包括:
对于token xi,计算其重要性分数,定义token xi在第l层Transformer编码器的阈值为θl∈R,通过对比重要性分数和阈值的大小来施加二值掩码M∈{0,1},指示Transformer编码器模块是否保留当前token xi,如果掩码为1就代表保留当前token,如果掩码为0就代表修剪掉当前token;同时,通过对掩码算子M施加L2损失来监督token剪枝策略中阈值的学习。
对于给定的输入序列,使用Transformer模型计算自注意力矩阵A,为了剔除不重要的token,必须划分出对目标识别贡献较小的token,因此需要定义一个可靠的度量指标,一个自然的方案是根据自注意力矩阵A寻找阈值。由于注意力得分A(xi,xj)表示其他所有token xj对token xi的归一化注意程度,因此如果token xi从所有自注意力head的所有token中得到更多的注意力,就可以认为xi是重要的,进而剔除剔除不重要的token,如果token未被合理剪枝,模型会受到惩罚。
对于token xi,其重要性分数为:
其中,IS(xi)l表示第i个token在第l层Transformer编码器的重要性分数,φ(·)表示Softmax运算;Wq和Wk分别表示自注意力层中查询矩阵Query和键矩阵Key的变换矩阵;d表示键矩阵Key的维度;i、j表示分别不同token的索引;H表示自注意力头的数量;h表示Transformer编码器中注意力机制模块的索引;N表示token的数量。
通过对比重要性分数和阈值的大小来施加二值掩码M∈{0,1},包括:
M(xi)=I[IS(xi)l>θl]
其中,M(xi)表示当前层的Transformer编码器处理第i个token的掩码算子;I[·]表示指示函数;IS(xi)l表示第i个token在第l层Transformer编码器的重要性分数;θl表示第l层的阈值。
通过对掩码算子M施加L2损失来监督token剪枝策略中阈值的学习中的L2损失,包括:
其中,Ltp表示掩码过程中的L2损失,N表示token的数量,Ml(x)表示第l层Transformer编码器处理token x的掩码算子。
在本实施例中,采用注意力传播策略以利用多头自注意力模块之间的依赖关系,并通过重用先前多头自注意力模块中的自注意力矩阵来绕过大量的自注意力计算,包括:
对输入序列进行线性映射,得到查询矩阵Query、键矩阵Key和值矩阵Value,接着计算查询矩阵Query和键矩阵Key的点积,然后进行归一化,得到自注意力矩阵;将自注意力矩阵与值矩阵Value进行矩阵乘法,得到加权的值矩阵,进而得到该层的输出。在传统的视觉Transformer中,每一层都会独立地计算自注意力矩阵;在本方法中Transformer不再对每一层独立地计算自注意力矩阵,当处理第l+1层时,该层不再独立地计算自注意力矩阵,而是通过将第l层的自注意力矩阵传播到第l+1层,实现自注意力计算的复用;通过重复使用前一层的自注意力矩阵,视觉Transformer的多头自注意力模块无需再次计算自注意力矩阵和查询矩阵Query和键矩阵Key,而是直接将值矩阵Value与传播来的前一层的自注意力矩阵进行特征加权,得到该层的输出序列。
在本实施例中,所述模型的分类损失,包括:
其中,N表示token的数量;M表示类别数量;yij表示符号函数,如果样本i的真实类别就是类别j即取1,否则取0;pij表示观测样本i属于类别j的概率。
在本实施例中,所述模型的定位损失,包括:
其中,D表示维度数量,对于水平边界框,通常为4;yi表示预测坐标值;表示真实坐标值;A和B分别表示预测边界框和真实边界框;C表示A与B之间的最小闭合矩形;Area(X)表示检测框X的面积。
在本实施例中,所述模型的总体损失函数,包括:
L=Lcls+λLloc+γLtp
其中,λ和λ表示超参数,用于平衡不同损失之间的权重。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于轻量型Transformer的遥感目标检测方法,其特征在于,包括:
S1:获取带有目标类别标签的遥感图像;
S2:构建遥感目标检测模型;所述模型包括主干网络模块、位置编码器、Transformer编码器模块、Transformer解码器模块和预测头模块;
S3:设计适用于Transformer模型压缩策略;所述策略包括token剪枝策略和注意力传播策略;
S4:将带有目标类别标签的遥感图像输入遥感目标检测模型进行模型的训练;
S41:将遥感图像输入主干网络模块中进行特征提取,得到一系列特征图;将这些特征图通过全局平均池化层来降低空间维度,形成一个固定大小的特征向量,得到序列化表示的特征向量序列;
S42:将特征向量序列送入位置编码器进行位置信息的编码,得到带有位置信息的特征向量序列;
S43:将带有位置信息的特征向量序列送入一系列的Transformer编码器模块,捕获全局语义信息;每层Transformer编码器模块由多头自注意力机制模块和前馈神经网络组成,通过多头自注意力机制模块捕获每个位置的特征向量的全局上下文信息,通过前反馈神经网络对多头自注意力机制捕获的每个位置的特征向量的全局上下文信息进行非线性变换和映射后聚合,得到带有位置信息的特征向量序列全局语义信息;同时,在全局语义信息捕获过程中,对于这一系列Transformer编码器模块,采用token剪枝策略和注意力传播策略以降低多头自注意力计算的成本;
S44:Transformer解码器模块将目标查询与Transformer编码器模块所捕获全局语义信息进行注意力操作,获取与查询相关的特征表示;
S45:在预测头模块中,将Transformer解码器输出的与查询相关的特征表示经过全连接层,预测目标的边界框位置和类别;
S46:将分类的类别损失、边界框的回归损失以及L2损失建立遥感目标检测模型的损失函数,在模型训练过程中,通过最小化损失函数来完成模型的训练;
S5:将待检测的遥感图像输入已经训练好的遥感目标检测模型,得到目标检测的结果,包括目标的边界框位置和类别标签。
2.根据权利要求1所述的一种基于轻量型Transformer的遥感目标检测方法,其特征在于,采用token剪枝策略和注意力传播策略以降低多头自注意力计算的成本,包括:
在Transformer编码器模块,将输入的带有位置信息的特征向量序列中每个位置的特征向量作为一个token,通过阈值可学习的token剪枝策略解决Transformer编码器模块中固定数量的token所产生的冗余问题,采用注意力传播策略以利用多头自注意力机制模块之间的依赖关系,并通过重用先前多头自注意力模块中的自注意力矩阵来避免冗余的自注意力计算。
3.根据权利要求2所述的一种基于轻量型Transformer的遥感目标检测方法,其特征在于,通过阈值可学习的token剪枝策略解决Transformer编码器模块中固定数量的token所产生的冗余问题,包括:
对于token xi,计算其重要性分数,定义token xi在第l层Transformer编码器的阈值为θl∈R,通过对比重要性分数和阈值的大小来施加二值掩码M∈{0,1},指示Transformer编码器模块是否保留当前token xi,如果掩码为1就代表保留当前token,如果掩码为0就代表修剪掉当前token;同时,通过对掩码算子M施加L2损失来监督token剪枝策略中阈值的学习。
4.根据权利要求3所述的一种基于轻量型Transformer的遥感目标检测方法,其特征在于,计算token的重要性分数,包括:
其中,IS(xi)l表示第i个token在第l层Transformer编码器的重要性分数,φ(·)表示Softmax运算;Wq和Wk分别表示自注意力层中查询矩阵Query和键矩阵Key的变换矩阵;d表示键矩阵Key的维度;i、j表示分别不同token的索引;H表示自注意力头的数量;h表示Transformer编码器中注意力机制模块的索引;N表示token的数量。
5.根据权利要求3所述的一种基于轻量型Transformer的遥感目标检测方法,其特征在于,通过对比重要性分数和阈值的大小来施加二值掩码M∈{0,1},包括:
M(xi)=I[IS(xi)l>θl]
其中,M(xi)表示当前层的Transformer编码器处理第i个token的掩码算子;I[·]表示指示函数;IS(xi)l表示第i个token在第l层Transformer编码器的重要性分数;θl表示第l层的阈值。
6.根据权利要求2所述的一种基于轻量型Transformer的遥感目标检测方法,其特征在于,所述L2损失,包括:
其中,Ltp表示掩码过程中的L2损失,N表示token的数量,Ml(x)表示第l层Transformer编码器处理token x的掩码算子。
7.根据权利要求2所述的一种基于轻量型Transformer的遥感目标检测方法,其特征在于,采用注意力传播策略以利用多头自注意力模块之间的依赖关系,并通过重用先前多头自注意力模块中的自注意力矩阵来避免冗余的自注意力计算,包括:
每一层Transformer编码器不再独立地计算自注意力矩阵,当处理第l+1层时,该层不再独立地计算自注意力矩阵,通过将第l层的自注意力矩阵传播到第l+1层,实现自注意力计算的复用;通过重复使用前一层的自注意力矩阵,从而Transformer编码器的多头自注意力模块无需再次计算自注意力矩阵和查询矩阵Query和键矩阵Key,而是直接将值矩阵Value与传播来的前一层的自注意力矩阵进行特征加权,得到该层的输出序列。
8.根据权利要求1所述的一种基于轻量型Transformer的遥感目标检测方法,其特征在于,所述分类的类别损失,包括:
其中,Lcls表示分类的类别损失;N表示token的数量;M表示类别数量;yij表示符号函数,如果样本i的真实类别就是类别j即取1,否则取0;pij表示观测样本i属于类别j的概率。
9.根据权利要求1所述的一种基于轻量型Transformer的遥感目标检测方法,其特征在于,所述边界框的回归损失,包括:
其中,Lloc表示边界框的回归损失;L1表示Smooth L1损失;Lgiou表示GIoU损失;D表示维度数量,对于水平边界框,维度通常为4;yi表示预测坐标值;表示真实坐标值;A和B分别表示预测边界框和真实边界框;C表示A与B之间的最小闭合矩形;Area()表示求面积操作;IoU表示预测框与真实框之间的交并比。
10.根据权利要求1所述的一种基于轻量型Transformer的遥感目标检测方法,其特征在于,所述遥感目标检测模型的损失函数,包括:
L=Lcls+γLloc+γLtp
其中,Lcls表示分类的类别损失;Lloc表示边界框的回归损失;Ltp表示L2损失;λ和γ分别表示平衡边界框的回归损失与L2损失之间权重的超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310865372.XA CN116894977A (zh) | 2023-07-14 | 2023-07-14 | 一种基于轻量型Transformer的遥感目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310865372.XA CN116894977A (zh) | 2023-07-14 | 2023-07-14 | 一种基于轻量型Transformer的遥感目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116894977A true CN116894977A (zh) | 2023-10-17 |
Family
ID=88313233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310865372.XA Pending CN116894977A (zh) | 2023-07-14 | 2023-07-14 | 一种基于轻量型Transformer的遥感目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116894977A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893731A (zh) * | 2023-12-20 | 2024-04-16 | 大湾区大学(筹) | 伪装目标检测网络优化方法、检测方法、电子设备及介质 |
CN117952969A (zh) * | 2024-03-26 | 2024-04-30 | 济南大学 | 一种基于选择注意力的子宫内膜癌分析方法及系统 |
CN118314354A (zh) * | 2024-06-11 | 2024-07-09 | 四川大学 | 一种基于动态核和高斯核融合策略的语义分割方法 |
CN118397476A (zh) * | 2024-06-25 | 2024-07-26 | 南京大学 | 一种遥感图像目标检测模型的改进方法 |
-
2023
- 2023-07-14 CN CN202310865372.XA patent/CN116894977A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893731A (zh) * | 2023-12-20 | 2024-04-16 | 大湾区大学(筹) | 伪装目标检测网络优化方法、检测方法、电子设备及介质 |
CN117952969A (zh) * | 2024-03-26 | 2024-04-30 | 济南大学 | 一种基于选择注意力的子宫内膜癌分析方法及系统 |
CN117952969B (zh) * | 2024-03-26 | 2024-06-21 | 济南大学 | 一种基于选择注意力的子宫内膜癌分析方法及系统 |
CN118314354A (zh) * | 2024-06-11 | 2024-07-09 | 四川大学 | 一种基于动态核和高斯核融合策略的语义分割方法 |
CN118397476A (zh) * | 2024-06-25 | 2024-07-26 | 南京大学 | 一种遥感图像目标检测模型的改进方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116894977A (zh) | 一种基于轻量型Transformer的遥感目标检测方法 | |
Theis et al. | Faster gaze prediction with dense networks and fisher pruning | |
WO2021218517A1 (zh) | 获取神经网络模型的方法、图像处理方法及装置 | |
CN109993100B (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN114519469B (zh) | 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法 | |
CN114972213A (zh) | 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法 | |
CN113033276A (zh) | 一种基于转换模块的行为识别方法 | |
CN116258914B (zh) | 基于机器学习及局部和全局特征融合的遥感图像分类方法 | |
CN113239897A (zh) | 基于时空特征组合回归的人体动作评价方法 | |
CN116704431A (zh) | 水污染的在线监测系统及其方法 | |
Cai et al. | Estimating the number of hidden nodes of the single-hidden-layer feedforward neural networks | |
CN113239949A (zh) | 一种基于1d分组卷积神经网络的数据重构方法 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN115035386A (zh) | 一种基于定位蒸馏的yolox目标检测模型压缩方法 | |
CN117975565A (zh) | 一种基于时空扩散和并行Transformer的动作识别系统及方法 | |
CN117829576A (zh) | 一种基于大模型的制造流程智能化管理系统 | |
CN115953902A (zh) | 一种基于多视图时空图卷积网络的交通流预测方法 | |
CN114998681A (zh) | 一种基于亲和系数的网络训练方法 | |
CN114741532A (zh) | 基于多尺度分散动态路由的知识图谱补全方法及系统 | |
Chen et al. | Traffic-condition-awareness ensemble learning for traffic flow prediction | |
CN115063832B (zh) | 一种基于全局与局部特征的对抗学习跨模态行人重识别方法 | |
CN117593698B (zh) | 区域目标入侵检测方法、装置及系统和存储介质 | |
CN116758010B (zh) | 一种飞机蒙皮表面缺陷识别方法、系统、设备及介质 | |
CN118312636B (zh) | 一种基于自注意力哈希的海洋遥感船舶图像检索方法 | |
Jiang et al. | Machine learning: Training model with the case study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |