CN117576513B

CN117576513B - 端到端航天器组件检测方法、装置及介质

Info

Publication number: CN117576513B
Application number: CN202311599715.9A
Authority: CN
Inventors: 陈明; 牛燕菲; 张志锋; 齐平; 张秋闻; 段莉; 高铁梁; 王福成; 薛化建; 楚杨阳; 曹洁
Original assignee: Tongling University
Current assignee: Tongling University
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-05-14
Anticipated expiration: 2043-11-24
Also published as: CN117576513A

Abstract

本发明公开了一种端到端航天器组件检测方法、装置及介质，所述方法构建了一种空间在轨服务中基于残差自注意力和分离集合匹配的高效端到端航天器组件检测模型，该模型在Sparse DETR模型基础上，通过引入残差自注意力机制来解决Sparse DETR模型中稀疏tokens导致的收敛速度降低并影响模型预测精度的问题，通过引入分离集合匹配来解决二分匹配过程中可能出现不稳定性现象。实验结果表明，在SDDSP数据集上，相比于基线DETR模型，本文模型在平均准确率上提升了12.7％且收敛速度提升10倍。与原始的Sparse DETR模型相比，本文模型的平均检索精度增加3.1％，模型收敛速度提高20％。

Description

端到端航天器组件检测方法、装置及介质

技术领域

本发明属于航天组件识别技术领域，更具体地，涉及一种端到端航天器组件检测方法、装置及介质。

背景技术

随着科技进步，人类探索太空的能力得到突飞猛进发展，各种卫星以及载人航天器相继发射，空间活动日益频繁。作为空间活动的重要环节，航天器的空间在轨服务旨在保障太空环境的安全与可持续性发展，其内容包括空间装配(如航天器、空间系统或空间结构的在轨连接、构建或组装)、空间维护(如航天器的表面修补、部件替换)、空间服务(如失效航天器的回收、空间碎片的捕获)。其中在实现航天器的空间装配过程中，精准的目标航天器检测与识别是保障装配效率和成功的关键，它为自动化装配提供了可靠的前提。而在航天器的空间维护中，通过目标航天器的快速识别与定位能够及时发现并解决表面损伤、部件老化等问题从而保障航天器的长期运行。此外，随着越来越多的航天器投入使用，失效航天器和空间碎片也逐渐成为威胁，因此对于失效航天器的回收与空间碎片的捕获也需要高效的目标航天器检测与识别技术来支持，以保持太空环境的清洁与安全。因此，空间在轨服务领域的发展需要不断提升目标航天器检测与识别技术的精度和可靠性，以适应不同的应用场景和任务需求，为人类探索太空和开展空间活动提供更加强大的支持。然而传统目标航天器的检测与识别技术存在对遮挡和变形敏感，以及难以应对复杂背景和噪声等问题。因此现代目标航天器检测与识别技术正逐渐与深度学习相结合，通过大量数据的训练和学习来提高航天器检测与识别在不同场景下的适应性和准确性。

特别是近些年Transformer在自然语言处理领域取得了显著成果，这引起了研究者们的兴趣并将其逐渐应用于目标检测领域。作为Transformer在目标检测领域的开山之作，2020年Facebook团队首次提出了将Transformer与CNN(Convolutional NeuralNetwork)相结合的DETR(DEtection TRansformer)模型。这种结合使得DETR拥有了Transformer的强大建模能力和CNN优秀的特征提取能力。相比于one-stage(单阶段)目标检测模型如YOLO(You Only Look Once)V1、YOLO V2、YOLO V3、SSD(Single Shot MultiBoxDetector)等或two-stage(两阶段)目标检测模型如RCNN、Fast RCNN、Faster RCNN、MaskRCNN等，DETR不需要使用非极大抑制算法或选择性搜索算法以及其他启发式先验知识，而是直接通过二分集合匹配和Transformer编码器-解码器架构来预测图像中物体的类别和位置，这不但简化了检测流程而且使得DETR成为一个端到端的检测模型。然而，DETR在计算注意力时需要先计算全局像素点，然后从中筛选出稀疏的目标像素点，这导致解码器端在查询时需要付出高昂的计算代价，同时使用二分集合匹配会使模型在分配正负样本策略上将正样本数量降低，从而导致训练过程变慢。为了解决这个问题，Zhu等人提出了Deformable DETR模型，其通过使用稀疏注意力机制来降低解码器的计算复杂度，并使得其训练速度比DETR提升了10倍。但Deformable DETR使用了多尺度特征来提高检测性能，这导致编码器端的tokens数量比DETR增加了20倍，进而增加了编码器的计算复杂度。随后的研究表明，当进一步对Deformable DETR中编码器端的tokens进行稀疏化时，可以显著降低编码器端的计算复杂度。因此，Sparse DETR模型应运而生。Sparse DETR通过对密集tokens进行稀疏采样并保留与显著特征相关的tokens，从而减少计算量。但由于编码器端的稀疏tokens，使得模型在二分匹配过程中可能出现不稳定性现象，从而导致模型收敛速度降低并影响模型的预测精度。同时，在解码器端进行查询预测时，较少的tokens会减少解码器获取的输入信息，进而影响模型性能及降低模型预测精度。

发明内容

提供了本发明以解决现有技术中存在的上述问题。因此，需要一种端到端航天器组件检测方法、装置及介质。

根据本发明的第一方案，提供了一种端到端航天器组件检测方法，所述方法包括：

构建RSSSM-DETR模型，所述RSSSM-DETR模型包括：

Sparse-DETR模块，用于根据输入图像，将含有大量语义信息的标记进行稀疏选择，实现目标检测；

残差自注意力模块，用于通过找出与原查询Q₁的预测框最接近的查询Q₂来增加编码器端输出的有效标记，同时使用残差连接的方式在解码器端将两个查询Q₁和(Q₁,Q₂)的自注意力机制输出值进行融合输出，以提高被遮挡目标的检测效果；

分离集合匹配模块，用于利用一对一集合匹配和一对多集合匹配的优点进行并行操作得到输出值，并将输出值相加得到最终损失值；

获取数据集，所述数据集包括多张卫星和空间站的图像，利用所述数据集对所述RSSSM-DETR模型进行训练得到训练好的RSSSM-DETR模型；

利用所述训练好的RSSSM-DETR模型，基于输入图像，实现航天器组件的检测识别。

进一步地，所述根据输入图像，将含有大量语义信息的标记进行稀疏选择，实现目标检测，具体包括：

将输入图像通过骨干网络得到特征图，并将特征图转化为标记；

使用评分网络对所有的输入标记进行评分并筛选；

将评分网络输出的标记加上位置编码后传递至编码器进行编码。

进一步地，所述使用评分网络对所有的输入标记进行评分并筛选，具体包括：

通过累加解码器中每一层的交叉注意力输出值得到第一输出值，对所述进行二值化，将二值化的第一输出值作用于评分网络以筛选出对应标记，二值化的过程中利用二元交叉熵损失函数进行监督。

进一步地，所述用于通过找出与原查询Q₁的预测框最接近的查询Q₂来增加编码器端输出的有效标记，同时使用残差连接的方式在解码器端将两个查询Q₁和(Q₁,Q₂)的自注意力机制输出值进行融合输出，具体包括：

自定义可学习权重矩阵{W^q,W^k,W^v}，W、q、k、v均为随机参数，将Sparse DETR模块的输出序列X投影到所述可学习权重矩阵上得到三元组Q₁＝X*W^q，K₁＝X*W^k，V₁＝X*W^v，Q₁即为原查询；

通过如下公式(1)计算原查询Q₁的自注意力值A₁：

其中d_k是Q₁，K₁矩阵的列数；

基于Q₁的所有预测框集合，选取概率最大预测框a，并根据与a预测框IOU最接近的b预测框，通过索引确定b对应的查询Q₂；

将Q₁、Q₂，K₁、K₂，V₁、V₂进行拼接操作后传入自注意力机制中得到输出A₂：

通过残差连接的方式将A₁、A₂进行相加后并通过交叉注意力机制得到输出A₃。

进一步地，所述利用一对一集合匹配和一对多集合匹配的优点进行并行操作得到输出值，并将输出值相加得到最终损失值，具体包括：

将编码器端的输出分离为U₁、U₂；

对U₁、U₂分别进行一对一集合匹配和一对多集合匹配后得到输出Loss_one-to-one、Loss_one-to-many；

将Loss_one-to-one与Loss_one-to-many进行相加，得到最终损失值。

进一步地，一对一集合匹配具体如公式(3)所示：

其中代表由U₁在第i层编码器所预测的输出，GT代表只有唯一的一组标注信息集合{GT}，I为编码器总层数。

进一步地，一对多集合匹配如公式(4)所示：

其中代表由U₂在第i层编码器所预测的结果，/>代表多组标注信息集合，即为{GT₁,GT₂,...,GT_n}，GT₁,GT₂,...,GT_n是由GT复制得到，n为查询数量。

进一步地，获取数据集并对所述数据集进行预处理，利用预处理后的数据对所述RSSSM-DETR模型进行训练，通过如下方法对所述数据集进行预处理：

对SDDSP航天器数据集进行标注得到若干个航天器主体、若干个太阳帆板作为检测目标，

将整个数据集以设定比例随机划分为若干张训练集图像和若干张验证集图像。

根据本发明的第二技术方案，提供一种端到端航天器组件检测装置，所述装置包括：

模型构建模块，被配置为构建RSSSM-DETR模型，所述RSSSM-DETR模型包括：

模型训练模块，被配置为获取数据集，所述数据集包括多张卫星和空间站的图像，利用所述数据集对所述RSSSM-DETR模型进行训练得到训练好的RSSSM-DETR模型；

目标检测模块，被配置为利用所述训练好的RSSSM-DETR模型，基于输入图像，实现航天器组件的检测识别。

根据本发明的第三技术方案，提供一种可读存储介质，所述可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的方法。

本发明至少具有以下有益效果：

本发明提出了空间在轨服务中基于残差自注意力和分离集合匹配的高效端到端航天器组件检测模型(Efficient End-to-End Spacecraft Component Detection basedon Residual Self-attention and Separation Sets Matching,RSSSM-DETR)。该模型具有以下两个优点：

(1)在Sparse DETR框架基础上，通过引入残差注意力机制来增加编码器端输出的有效tokens数量，以解决Sparse DETR模型中稀疏tokens导致的收敛速度降低并影响模型预测精度的问题。

(2)在Sparse DETR模型后处理阶段，利用分离集合匹配代替传统的二分集合匹配，通过将一对一集合匹配和一对多集合匹配的优点进行并行操作来解决二分集合匹配会使正样本数量降低从而导致的训练过程缓慢问题。

实验结果表明，与基线DETR模型相比，RSSSM-DETR在平均准确率上提升了12.7％且收敛速度提升10倍。与其他主流模型相比，RSSSM-DETR的各项指标也获得较大提升，特别是与最新的Sparse DETR模型相比，本文模型的平均检索精度增加3.1％，模型收敛速度提高20％。

附图说明

图1为根据本发明实施例的RSSSM-DETR模型的结构图；

图2为根据本发明实施例的lr_start对比结果图；

图3为根据本发明实施例的Epoch对比结果图；

图4为根据本发明实施例的Dropout对比结果图；

图5为根据本发明实施例的Top-K％对比结果图；

图6为根据本发明实施例的航天器组件遮挡对比结果图；

图7为根据本发明实施例的AP变化对比曲线图；

图8为根据本发明实施例的Loss变化对比曲线图；

图9为根据本发明实施例的一种端到端航天器组件检测装置的结构图。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合附图和具体实施方式对本发明作详细说明。下面结合附图和具体实施例对本发明的实施例作进一步详细描述，但不作为对本发明的限定。本文中所描述的各个步骤，如果彼此之间没有前后关系的必要性，则本文中作为示例对其进行描述的次序不应视为限制，本领域技术人员应知道可以对其进行顺序调整，只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。

本发明实施例提供一种端到端航天器组件检测方法，该方法通过构建空间在轨服务中基于残差自注意力和分离集合匹配的高效端到端航天器组件检测模型(RSSSM-DETR模型)，并利用数据集对该模型进行训练后，将训练后的模型应用于航天器组件的检测当中。

如图1所示，本实施例所提出的RSSSM-DETR模型主要包括3个模块：

1)Sparse-DETR模块，这是目标检测的基础模块，本文选用Sparse DETR的原因是希望通过稀疏操作来降低计算复杂度以提高模型收敛效率。

2)残差自注意力模块，在Sparse-DETR的基础上引入残差自注意力机制，目的是解决编码器稀疏化后模型精度降低的问题，通过增加编码器端输出的有效tokens来提高模型收敛的效率以及模型的泛化能力，使其更适用于大规模的目标检测任务。

3)分离集合匹配模块，目的是解决由于在稀疏环境中，二分匹配出现不稳定从而导致的精度降低以及模型收敛速度变慢等问题。

下面本发明实施例将详细介绍如上所提出的三个模块。

1)Sparse-DETR模块

传统的目标检测模型往往存在计算量大，运算速度慢等问题，因此本文选用Sparse DETR作为基础框架用于目标检测，Sparse DETR通过使用评分网络(Scoringnetwork)将含有大量语义信息的tokens进行稀疏选择，可以有效减少编码器端的计算复杂度，提高模型的正向推理速度。具体计算步骤如下：

(1)将输入图像通过骨干网络得到特征图，然后将特征图转化为tokens。

(2)使用Scoring network对所有的输入tokens进行评分，即通过累加解码器中每一层的交叉注意力输出值得到DAM(Decoder cross-Attention Map)，然后对DAM使用Binarize(二值化)，将二值化的DAM作用于Scoring network从而筛选出显著性较高的tokens，二值化的过程中用BCE Loss(Binary Cross-Entropy Loss)进行监督。

(3)将评分网络输出的Top-K％tokens加上Positional encoding(位置编码)后传递至编码器进行编码。

2)残差自注意力模块

Sparse DETR模型经过稀疏化操作后，由于稀疏化减少了tokens数量会使得编码器在对tokens进行特征提取、编码和捕捉相关信息时出现因信息不足而导致的内容缺失及信息不准确等问题。针对这一情况，本文在原有Sparse DETR模块的基础上添加了残差自注意力模块。残差自注意力模块中包含Get-IOU_max-Objects方法，该方法可以找出与原查询Q₁的预测框IOU(Intersection over Union)最接近的查询Q₂，通过将Q₁、Q₂融合为(Q₁,Q₂)来变相提高编码器端得到的tokens质量，同时也增加了tokens数量(即原查询Q₁对应的tokens和(Q₁,Q₂)对应的tokens)。

在解码器端，当输入的低质量稀疏化tokens进行预测时，会因上下文信息缺失导致预测准确率下降和模型性能下降等问题。此外，目标不同程度的遮挡也会导致模型预测精度下降。针对这一问题，本文使用残差连接的方式在解码器端将两个查询Q1和(Q1,Q2)的自注意力机制输出值进行融合，并输出得到最终的交叉注意力机制输出值A₃，此机制不仅使模型获得更好的学习输入细节和原始表示，减轻了梯度消失的问题，而且提高了被遮挡目标的检测效果。其计算过程如下：

(1)Queries：首先自定义可学习权重矩阵{W^q,W^k,W^v}，W、q、k、v均为随机参数。然后将Sparse DETR模块的输出序列X投影到该权重矩阵上得到三元组Q₁＝X*W^q，K₁＝X*W^k，V₁＝X*W^v，Q₁即为原查询。

(2)Multi-Head Self-Attention1：计算Q₁，K₁的关联性并进行归一化处理，然后乘以V₁权重系数得到原查询Q₁的自注意力值A₁。具体如公式(1)所示：

其中d_k是Q₁，K₁矩阵的列数，即向量的维度。

(3)Get-IOU_max-Objects：首先找出Q₁的所有预测框集合，然后从中选取概率最大预测框a，接着找到与a预测框IOU最接近的b预测框，最后通过索引找到b对应的查询Q₂，Q₂即为与原查询Q₁的预测框IOU(Intersection over Union)最接近的查询。

(4)Multi-Head Self-Attention2：将Q₁、Q₂，K₁、K₂，V₁、V₂进行拼接操作后将其传入自注意力机制中得到输出A₂，具体如公式(2)所示：

(5)Multi-Head Deformable Cross-Attention：通过残差连接的方式将A₁、A₂进行相加，然后其通过交叉注意力机制得到输出A₃。

3)分离集合匹配模块

Sparse DETR模型将数据从解码器端输出后采用一对一集合匹配计算总损失值，一对一集合匹配是成功消除后处理操作如非极大值抑制(NMS)的关键设计，正是因为这种设计使得Sparse DETR成为真正意义上端到端的检测，但由于一对一集合匹配中被判定为正样本的查询数量太少，因此正样本的训练效率降低且模型收敛速度变得缓慢。一对多集合匹配能提高了模型的性能以及快速的训练收敛，但一对多集合匹配的一个不良影响是，它产生了重复的预测，需要手工添加后处理操作将重复的预测去除，如非极大值抑制(NMS)，因此会产生较大的计算开销。基于上述原因，本文提出一种分离集合匹配机制，该机制利用一对一集合匹配和一对多集合匹配的优点进行并行操作，然后将输出值相加得到最终损失值。通过结合这两种匹配算法的输出融合操作，可以充分发挥它们各自的优势，从而提高匹配的准确性、鲁棒性。此外结合一对一集合匹配和一对多集合匹配可以减少不必要的计算和匹配的搜索空间，从而提高匹配的效率，加速模型的收敛速度。具体步骤如下：

(1)将编码器端的输出分离为U₁、U₂；

(2)对U₁、U₂分别使用Hungarian(匈牙利)算法进行一对一集合匹配和一对多集合匹配后得到输出Loss_one-to-one、Loss_one-to-many，Hungarian(匈牙利)算法为预测框与真实框之间建立最优的一对一匹配关系，避免了非极大值抑制(NMS)的操作，使得模型可以准确学习检测任务并提高性能。

一对一集合匹配具体如公式(3)所示：

其中代表由U₁在第i层编码器所预测的输出，GT代表只有唯一的一组标注信息集合{GT}，I为编码器总层数。由于GT的数量唯一，因此可以进行一对一集合匹配。

一对多集合匹配具体如公式(4)所示：

其中这里/>代表由U₂在第i层编码器所预测的结果，/>代表多组标注信息集合，即为{GT₁,GT₂,...,GTn}，GT₁,GT₂,...,GT_n是由GT复制得到，n为查询数量。由于GT数量与当前查询数量相同，因此可以进行一对多集合匹配。

(3)将Loss_one-to-one与Loss_one-to-many进行相加，得到最终损失值。

下面本发明实施例将利用本申请所构建的模型与现有模型进行对比，以充分说明本申请的可行性和进步性。

实验平台及数据说明：

本实验的硬件环境配置为CPU：14vCPU Intel(R)Xeon(R)Gold 6330CPU@2.00GHz，GPU：NVDIAGeForce RTX 3090 24GB，内存：80GB。软件环境配置为：操作系统：Ubuntu5.4.0，IDE：Pycharm 2020.1专业版。

本实验数据集使用SDDSP数据集，该数据集共有3117张卫星和空间站的图像，分辨率统一为1280*720。本文通过标注工具Labellmg进行手动标注得到3667个航天器主体、7334个太阳帆板，共11001个检测目标并且将整个数据集以接近6:4的比例随机划分为2516张训练集图像和600张验证集图像。

实验结果及分析：

本文实验的评价指标使用AP(平均精确率)、AP₅₀、AP₇₅、AP_L、AR(平均召回率)，其中AP即AP[.50:.05:.95]指预测框和标注框之间IOU从0.5开始，每间隔0.05求一次AP值，一直取值至0.95，然后求均值，AP是本文实验对比中主要的评价指标。AP在图像中的具体表示是Precision-Recall曲线下的面积，其中Precision(查准率)计算公式如下：

其中TP指预测框和标注框之间IOU>0.5时的预测框数量，FP指预测框和标注框之间IOU<0.5时的预测框数量。Recall(查全率)的计算公式如下：

其中FN指的是模型没有检测到标注框，即预测框和标注框之间IOU＝0时的预测框数量。

AP₅₀、AP₇₅指预测框和标注框之间IOU阈值为0.5、0.75时的AP值。AP_L指当area大于96²时的AP值，area表示面积，具体是指分割掩码(segmentation mask)中的像素数量。AR指的是每个图像中检测到固定数量的最大召回(Recall)，在类别和IOU上取平均值。

下面将详细介绍本实验所采用的实验参数及其选择依据，并且通过此过程来验证我们的实验假设并推动研究的可重复性。

(1)初始学习率

本模型采用学习率衰减(Learning Rate Decay)策略，公式如下：

其中lr为当前学习率，lr_start为初始学习率，rate为学习衰减率，epoch_now为当前迭代次数，epoch_threshold为学习率衰减阈值。

图2是初始学习率分别为0.001、0.0001、0.00001的精度对比图。学习率参数设置过程中将学习率衰减阈值设置为40，学习衰减率保持为0.1，其余实验参数不变。

由图2可知，当lr_start为0.001时，参数更新步长较大，这将导致模型在训练过程中可能会跳过最优解所在区域，从而使得模型的性能无法达到最佳水平。当lr_start为0.00001时，参数更新步长较小，从而导致模型训练速度缓慢，需要更多的迭代轮次才能收敛到最优解，因此模型无法在有限的时间内达到较高的准确率。而当lr_start为0.0001时，AP指标明显优于lr_start为0.001或lr_start为0.00001，且模型收敛速度更快。因此，0.0001为lr_start的最佳实验数值。

(2)迭代次数

图3显示了不同Epoch参数下的精度曲线，对Epoch参数调整时首先将Epoch参数分别设置为50、75、100，然后初始学习率设置为0.001，学习率衰减阈值分别设置为40、65、90，其余原始实验参数不变。

由图3可知，当Epoch参数选取为50，模型预测准确率最高，且收敛迅速。当Epoch参数选取为75、100时，分别出现了过拟合现象，导致预测精确率降低。因此，50为Epoch的最佳实验数值。

(3)Dropout参数

图4是Dropout参数分别为0.1、0.2、0.3、0.4时的精度对比图。Dropout参数设置过程中，将Dropout参数进行改变，分别设置为0.1、0.2、0.3、0.4，其余原始实验参数不变。

由图4可知，Dropout为0.2、0.3、0.4时，导致模型在训练过程中丢失过多的神经元，造成信息丢失和模型的不稳定性。这使得模型过拟合训练数据，从而导致较低的准确率。当Dropout为0.1时，AP指标均优于其余实验参数。因此，0.1为Dropout的最佳实验数值。

(4)稀疏化Top-K％参数

图5是稀疏化Top-K％参数分别为0.3、0.4、0.5、0.6时的精度对比图。Top-K％参数设置过程中，分别将K设置为0.3、0.4、0.5、0.6，其余原始实验参数不变。

由图5中曲线可知，当K值选择为0.3、0.4时，由于编码器端经过稀疏化操作后的tokens大幅降低，导致了准确率直接下降，因此与图中的其他曲线对比之下准确率整体降低。当K值选择0.6时，tokens数目增多，但由于含有无用信息的tokens也随之增多，故会导致性能不稳定及准确率下降。当K为0.5时编码器端tokens数目适中，且准确率保持稳定，，故K为0.5时为Top-K％的最佳实验数值。

通过以上对比实验可得，本文实验参数设置为：学习衰减率为0.1，初始学习率为0.0001，在0-39Epoch时当前学习率为0.0001，40-49Epoch后当前学习率为0.00001，Dropout为0.1，Top-K％中K值选择0..5，Epoch为50。每迭代一个Epoch保存一次模型，最终选取精度最高的模型。

消融分析：

本文通过引入残差自注意力机制(Residual Self-attention,RS)和分离集合匹配(Separation Sets Matching,SSM)来提高RSSSM-DETR模型的性能。对于改进点RS和SSM的不同效果，本实施例将通过消融实验来验证。由表1可知，当Epoch为50时，由于RS的加入使得编码器中含有大量目标信息的tokens增多，因此解码器端可以进行有效查询，因此加入RS的Sparse DETR中AP较Sparse DETR增加1.2％，AR增加0.4％。本文在RS后引入SSM，能够将由解码器输出的含有丰富目标语义的查询输入到集合匹配中，从而进一步输出高精度的预测，即通过一对一集合匹配和一对多集合匹配的使用，可以将输入的查询分离开后分别进行匹配，从而达到提高精度的作用。由下表可知，当Sparse DETR+RS模型中加入SSM时，模型整体性能提升，AP同比Sparse DETR+RS增加1.9％，AP_L增加2.0％，AP₇₅增加0.9％，AR增加0.5％。

表1.消融实验对比

整体模型对比实验：

本模型通过引入稀疏化结构的残差自注意力机制模块使得编码器端中输出的有效tokens增加，进而使得解码器端在查询耦合时可以提取更多有效的检测目标信息，并提高遮挡物体的检测精度。同时本模型提出的分离集合匹配模块作用在稀疏化结构的残差自注意力机制模块的输出上，可以将分离后的输出同时进行一对一集合匹配和一对多集合匹配，使得模型在保留端到端检测的同时又能分配到更多的有效查询。为了检验本模型的性能，本文将RSSSM-DETR模型与基线模型DETR以及其他主流模型C-DETR、SMCA-DETR^[20]、UP-DETR^[21]、Deformable-DETR、Sparse-DETR等在相同的实验环境下分别进行训练，这里需要注意的是因为DETR结构在注意力机制的计算中带来了庞大的计算量导致收敛缓慢，使得DETR训练在50轮时无法收敛，只有当训练轮次达到500时才完全收敛，UP-DETR在训练50轮时也并未完全收敛，但其精确度均已超过DETR，当训练轮次达到300时，UP-DETR才完全收敛。实验结果对比见表2。

表2.整体模型实验对比

由表2可知，当模型的训练Epoch为50时，RSSSM-DETR在对航天器部件进行目标检测时效果明显优于DETR、C-DETR、SMCA-DETR、UP-DETR、Deformable-DETR、Sparse-DETR，其AP对比原始Sparse-DETR提升3.1％；AP₇₅提升3.3％；AP_L提升3.3％，AR提升0.9％。当对比基线模型DETR时，由于DETR中在编码器端对输入的tokens并未做稀疏化操作，故在编码时需要付出高昂的计算代价，且会将大量输出后的低质量tokens也一并传入解码器端，导致模型训练收敛速度降低及预测准确度降低。RSSSM-DETR中使用稀疏化tokens作为编码器的输入，并使用残差自注意力结构来确保编码器中输出的高质量tokens，解码器端使用分离集合匹配结构使得模型在样本分配的过程中保持稳定。因此，RSSSM-DETR同比训练500轮才收敛的DETR在各项指标上大幅提升，且收敛速度增加了10倍。RSSSM-DETR对比基于无监督预训练的UP-DETR时，本文模型的收敛速度是UP-DETR的6倍，AP值同比UP-DETR增长5.3％，AP₅₀增长1.1％，AP₇₅增长4％，AR增长了1.2％。本文模型在各方面均优于其他模型，因此验证了本文提出模型的可行性。

目标遮挡实验对比：

航空器处于特定角度时，将会导致太阳板被遮挡，本实施例主要是对遮挡的太阳板进行检测来验证RSSSM-DETR模型。首先，我们从数据集的验证集中随机选择5张图片作为本实施例实验的样本。然后，将其分别经过已训练好的Sparse DETR模型和RSSSM-DETR模型，通过输出结果的类别概率和定位信息可以看出RSSSM-DETR在目标定位效果上优于Sparse DETR，预测框坐标定位更加精确且类别概率也得到提高。具体的实验结果对比如图6所示。由图6可知，当出现太阳板被遮挡时，Sparse DETR模型预测的类别判断基本正确且类别概率相对较高，但tokens在编码器端经过稀疏化操作后，其中含有有效语义信息的tokens数量减少，因此导致了预测框的坐标定位并不精确。对于上述问题，RSSSM-DETR模型中通过加入残差自注意力机制使得编码器端的输出的有效tokens数量增多，因此解码器端可以获得更多的上下文信息，增强被遮挡物体的坐标定位能力同时也使得类别判断概率得到提升。

训练过程分析：

本实施例基于SDDSP数据集进行训练，总共训练50轮，图7是RSSSM-DETR模型与原始Sparse DETR模型的AP变化对比曲线图，横轴为训练轮数(Epoch),纵轴为训练时的精确度(AP)。由图7可知，在AP变化曲线中，当Epoch为40时，RSSSM-DETR收敛并达到全局峰值，且AP曲线变化平稳。然而此时原始Sparse DETR的AP值仍在提高直至本次训练结束。因此证明了本模型成功的加快模型收敛速度。

图8是Loss变化对比曲线图，横轴为训练轮数(Epoch),纵轴为总损失值(Loss)。从图8可以看出，RSSSM-DETR模型在前40个Epoch时，总损失值稳定下降，模型迅速收敛，且总体损失值低于原始Sparse DETR。当40个Epoch后，模型总损失值趋于稳定,模型完成收敛，而此时原始Sparse DETR的Loss仍然在下降，因此可以看出RSSSM-DETR整体收敛过程稳定并且无过拟合或欠拟合现象，本模型的训练结果较理想。

本发明实施例提供一种端到端航天器组件检测装置，如图9所示，该装置900包括：

模型构建模块901，被配置为构建RSSSM-DETR模型，所述RSSSM-DETR模型包括：

模型训练模块902，被配置为获取数据集，所述数据集包括多张卫星和空间站的图像，利用所述数据集对所述RSSSM-DETR模型进行训练得到训练好的RSSSM-DETR模型；

目标检测模块903，被配置为利用所述训练好的RSSSM-DETR模型，基于输入图像，实现航天器组件的检测识别。

在一些实施例中，所述模型构建模块被进一步配置为：

使用评分网络对所有的输入标记进行评分并筛选；

在一些实施例中，所述模型构建模块被进一步配置为：

自定义可学习权重矩阵{W^q,W^k,W^v}，W、q、k、v均为随机参数，将Sparse DETR模块的输出序列X投影到所述可学习权重矩阵上得到三元组Q1＝X*W^q，K₁＝X*W^k，V₁＝X*W^v，Q₁即为原查询；

通过如下公式(1)计算原查询Q₁的自注意力值A₁：

其中d_k是Q₁，K₁矩阵的列数；

在一些实施例中，所述模型构建模块被进一步配置为：

将编码器端的输出分离为U₁、U₂；

将Loss_one-to-one与Loss_one-to-many进行相加，得到最终损失值。

在一些实施例中，所述模型构建模块被进一步配置为：

一对一集合匹配具体如公式(3)所示：

在一些实施例中，所述模型构建模块被进一步配置为：

一对多集合匹配如公式(4)所示：

在一些实施例中，所述模型训练模块被进一步配置为：

需要说明的是，本实施例所述的装置与在先阐述的方法属于同一技术思路，能够起到的同样的技术效果，此处不赘述。

本发明实施例提供一种可读存储介质，所述可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上各个实施例所述的方法。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本发明。这不应解释为一种不要求保护的发明的特征对于任一权利要求是必要的意图。相反，本发明的主题可以少于特定的发明的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

Claims

1.一种端到端航天器组件检测方法，其特征在于，所述方法包括：

构建RSSSM-DETR模型，所述RSSSM-DETR模型包括：

利用所述训练好的RSSSM-DETR模型，基于输入图像，实现航天器组件的检测识别；

所述用于通过找出与原查询Q₁的预测框最接近的查询Q₂来增加编码器端输出的有效标记，同时使用残差连接的方式在解码器端将两个查询Q₁和(Q₁,Q₂)的自注意力机制输出值进行融合输出，具体包括：

通过如下公式(1)计算原查询Q₁的自注意力值A₁：

其中d_k是Q₁，K₁矩阵的列数；

2.根据权利要求1所述的方法，其特征在于，所述根据输入图像，将含有大量语义信息的标记进行稀疏选择，实现目标检测，具体包括：

使用评分网络对所有的输入标记进行评分并筛选；

3.根据权利要求2所述的方法，其特征在于，所述使用评分网络对所有的输入标记进行评分并筛选，具体包括：

通过累加解码器中每一层的交叉注意力输出值得到第一输出值，进行二值化，将二值化的第一输出值作用于评分网络以筛选出对应标记，二值化的过程中利用二元交叉熵损失函数进行监督。

4.根据权利要求1所述的方法，其特征在于，所述利用一对一集合匹配和一对多集合匹配的优点进行并行操作得到输出值，并将输出值相加得到最终损失值，具体包括：

将编码器端的输出分离为U₁、U₂；

将Loss_one-to-one与Loss_one-to-many进行相加，得到最终损失值。

5.根据权利要求4所述的方法，其特征在于，一对一集合匹配具体如公式(3)所示：

6.根据权利要求4所述的方法，其特征在于，一对多集合匹配如公式(4)所示：

7.根据权利要求1所述的方法，其特征在于，获取数据集并对所述数据集进行预处理，利用预处理后的数据对所述RSSSM-DETR模型进行训练，通过如下方法对所述数据集进行预处理：

8.一种端到端航天器组件检测装置，其特征在于，所述装置包括：

目标检测模块，被配置为利用所述训练好的RSSSM-DETR模型，基于输入图像，实现航天器组件的检测识别；

所述模型构建模块被进一步配置为：

通过如下公式(1)计算原查询Q₁的自注意力值A₁：

其中d_k是Q₁，K₁矩阵的列数；

9.一种可读存储介质，其特征在于，所述可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至7中任一项所述的方法。