CN117576513A - 端到端航天器组件检测方法、装置及介质 - Google Patents
端到端航天器组件检测方法、装置及介质 Download PDFInfo
- Publication number
- CN117576513A CN117576513A CN202311599715.9A CN202311599715A CN117576513A CN 117576513 A CN117576513 A CN 117576513A CN 202311599715 A CN202311599715 A CN 202311599715A CN 117576513 A CN117576513 A CN 117576513A
- Authority
- CN
- China
- Prior art keywords
- model
- detr
- output
- rsssm
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000001514 detection method Methods 0.000 claims abstract description 62
- 230000007246 mechanism Effects 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000000926 separation method Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 34
- 230000000694 effects Effects 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 230000009467 reduction Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种端到端航天器组件检测方法、装置及介质,所述方法构建了一种空间在轨服务中基于残差自注意力和分离集合匹配的高效端到端航天器组件检测模型,该模型在Sparse DETR模型基础上,通过引入残差自注意力机制来解决Sparse DETR模型中稀疏tokens导致的收敛速度降低并影响模型预测精度的问题,通过引入分离集合匹配来解决二分匹配过程中可能出现不稳定性现象。实验结果表明,在SDDSP数据集上,相比于基线DETR模型,本文模型在平均准确率上提升了12.7%且收敛速度提升10倍。与原始的Sparse DETR模型相比,本文模型的平均检索精度增加3.1%,模型收敛速度提高20%。
Description
技术领域
本发明属于航天组件识别技术领域,更具体地,涉及一种端到端航天器组件检测方法、装置及介质。
背景技术
随着科技进步,人类探索太空的能力得到突飞猛进发展,各种卫星以及载人航天器相继发射,空间活动日益频繁。作为空间活动的重要环节,航天器的空间在轨服务旨在保障太空环境的安全与可持续性发展,其内容包括空间装配(如航天器、空间系统或空间结构的在轨连接、构建或组装)、空间维护(如航天器的表面修补、部件替换)、空间服务(如失效航天器的回收、空间碎片的捕获)。其中在实现航天器的空间装配过程中,精准的目标航天器检测与识别是保障装配效率和成功的关键,它为自动化装配提供了可靠的前提。而在航天器的空间维护中,通过目标航天器的快速识别与定位能够及时发现并解决表面损伤、部件老化等问题从而保障航天器的长期运行。此外,随着越来越多的航天器投入使用,失效航天器和空间碎片也逐渐成为威胁,因此对于失效航天器的回收与空间碎片的捕获也需要高效的目标航天器检测与识别技术来支持,以保持太空环境的清洁与安全。因此,空间在轨服务领域的发展需要不断提升目标航天器检测与识别技术的精度和可靠性,以适应不同的应用场景和任务需求,为人类探索太空和开展空间活动提供更加强大的支持。然而传统目标航天器的检测与识别技术存在对遮挡和变形敏感,以及难以应对复杂背景和噪声等问题。因此现代目标航天器检测与识别技术正逐渐与深度学习相结合,通过大量数据的训练和学习来提高航天器检测与识别在不同场景下的适应性和准确性。
特别是近些年Transformer在自然语言处理领域取得了显著成果,这引起了研究者们的兴趣并将其逐渐应用于目标检测领域。作为Transformer在目标检测领域的开山之作,2020年Facebook团队首次提出了将Transformer与CNN(Convolutional NeuralNetwork)相结合的DETR(DEtection TRansformer)模型。这种结合使得DETR拥有了Transformer的强大建模能力和CNN优秀的特征提取能力。相比于one-stage(单阶段)目标检测模型如YOLO(You Only Look Once)V1、YOLO V2、YOLO V3、SSD(Single Shot MultiBoxDetector)等或two-stage(两阶段)目标检测模型如RCNN、Fast RCNN、Faster RCNN、MaskRCNN等,DETR不需要使用非极大抑制算法或选择性搜索算法以及其他启发式先验知识,而是直接通过二分集合匹配和Transformer编码器-解码器架构来预测图像中物体的类别和位置,这不但简化了检测流程而且使得DETR成为一个端到端的检测模型。然而,DETR在计算注意力时需要先计算全局像素点,然后从中筛选出稀疏的目标像素点,这导致解码器端在查询时需要付出高昂的计算代价,同时使用二分集合匹配会使模型在分配正负样本策略上将正样本数量降低,从而导致训练过程变慢。为了解决这个问题,Zhu等人提出了Deformable DETR模型,其通过使用稀疏注意力机制来降低解码器的计算复杂度,并使得其训练速度比DETR提升了10倍。但Deformable DETR使用了多尺度特征来提高检测性能,这导致编码器端的tokens数量比DETR增加了20倍,进而增加了编码器的计算复杂度。随后的研究表明,当进一步对Deformable DETR中编码器端的tokens进行稀疏化时,可以显著降低编码器端的计算复杂度。因此,Sparse DETR模型应运而生。Sparse DETR通过对密集tokens进行稀疏采样并保留与显著特征相关的tokens,从而减少计算量。但由于编码器端的稀疏tokens,使得模型在二分匹配过程中可能出现不稳定性现象,从而导致模型收敛速度降低并影响模型的预测精度。同时,在解码器端进行查询预测时,较少的tokens会减少解码器获取的输入信息,进而影响模型性能及降低模型预测精度。
发明内容
提供了本发明以解决现有技术中存在的上述问题。因此,需要一种端到端航天器组件检测方法、装置及介质。
根据本发明的第一方案,提供了一种端到端航天器组件检测方法,所述方法包括:
构建RSSSM-DETR模型,所述RSSSM-DETR模型包括:
Sparse-DETR模块,用于根据输入图像,将含有大量语义信息的标记进行稀疏选择,实现目标检测;
残差自注意力模块,用于通过找出与原查询Q1的预测框最接近的查询Q2来增加编码器端输出的有效标记,同时使用残差连接的方式在解码器端将两个查询Q1和(Q1,Q2)的自注意力机制输出值进行融合输出,以提高被遮挡目标的检测效果;
分离集合匹配模块,用于利用一对一集合匹配和一对多集合匹配的优点进行并行操作得到输出值,并将输出值相加得到最终损失值;
获取数据集,所述数据集包括多张卫星和空间站的图像,利用所述数据集对所述RSSSM-DETR模型进行训练得到训练好的RSSSM-DETR模型;
利用所述训练好的RSSSM-DETR模型,基于输入图像,实现航天器组件的检测识别。
进一步地,所述根据输入图像,将含有大量语义信息的标记进行稀疏选择,实现目标检测,具体包括:
将输入图像通过骨干网络得到特征图,并将特征图转化为标记;
使用评分网络对所有的输入标记进行评分并筛选;
将评分网络输出的标记加上位置编码后传递至编码器进行编码。
进一步地,所述使用评分网络对所有的输入标记进行评分并筛选,具体包括:
通过累加解码器中每一层的交叉注意力输出值得到第一输出值,对所述进行二值化,将二值化的第一输出值作用于评分网络以筛选出对应标记,二值化的过程中利用二元交叉熵损失函数进行监督。
进一步地,所述用于通过找出与原查询Q1的预测框最接近的查询Q2来增加编码器端输出的有效标记,同时使用残差连接的方式在解码器端将两个查询Q1和(Q1,Q2)的自注意力机制输出值进行融合输出,具体包括:
自定义可学习权重矩阵{Wq,Wk,Wv},W、q、k、v均为随机参数,将Sparse DETR模块的输出序列X投影到所述可学习权重矩阵上得到三元组Q1=X*Wq,K1=X*Wk,V1=X*Wv,Q1即为原查询;
通过如下公式(1)计算原查询Q1的自注意力值A1:
其中dk是Q1,K1矩阵的列数;
基于Q1的所有预测框集合,选取概率最大预测框a,并根据与a预测框IOU最接近的b预测框,通过索引确定b对应的查询Q2;
将Q1、Q2,K1、K2,V1、V2进行拼接操作后传入自注意力机制中得到输出A2:
通过残差连接的方式将A1、A2进行相加后并通过交叉注意力机制得到输出A3。
进一步地,所述利用一对一集合匹配和一对多集合匹配的优点进行并行操作得到输出值,并将输出值相加得到最终损失值,具体包括:
将编码器端的输出分离为U1、U2;
对U1、U2分别进行一对一集合匹配和一对多集合匹配后得到输出Lossone-to-one、Lossone-to-many;
将Lossone-to-one与Lossone-to-many进行相加,得到最终损失值。
进一步地,一对一集合匹配具体如公式(3)所示:
其中 代表由U1在第i层编码器所预测的输出,GT代表只有唯一的一组标注信息集合{GT},I为编码器总层数。
进一步地,一对多集合匹配如公式(4)所示:
其中 代表由U2在第i层编码器所预测的结果,/>代表多组标注信息集合,即为{GT1,GT2,...,GTn},GT1,GT2,...,GTn是由GT复制得到,n为查询数量。
进一步地,获取数据集并对所述数据集进行预处理,利用预处理后的数据对所述RSSSM-DETR模型进行训练,通过如下方法对所述数据集进行预处理:
对SDDSP航天器数据集进行标注得到若干个航天器主体、若干个太阳帆板作为检测目标,
将整个数据集以设定比例随机划分为若干张训练集图像和若干张验证集图像。
根据本发明的第二技术方案,提供一种端到端航天器组件检测装置,所述装置包括:
模型构建模块,被配置为构建RSSSM-DETR模型,所述RSSSM-DETR模型包括:
Sparse-DETR模块,用于根据输入图像,将含有大量语义信息的标记进行稀疏选择,实现目标检测;
残差自注意力模块,用于通过找出与原查询Q1的预测框最接近的查询Q2来增加编码器端输出的有效标记,同时使用残差连接的方式在解码器端将两个查询Q1和(Q1,Q2)的自注意力机制输出值进行融合输出,以提高被遮挡目标的检测效果;
分离集合匹配模块,用于利用一对一集合匹配和一对多集合匹配的优点进行并行操作得到输出值,并将输出值相加得到最终损失值;
模型训练模块,被配置为获取数据集,所述数据集包括多张卫星和空间站的图像,利用所述数据集对所述RSSSM-DETR模型进行训练得到训练好的RSSSM-DETR模型;
目标检测模块,被配置为利用所述训练好的RSSSM-DETR模型,基于输入图像,实现航天器组件的检测识别。
根据本发明的第三技术方案,提供一种可读存储介质,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的方法。
本发明至少具有以下有益效果:
本发明提出了空间在轨服务中基于残差自注意力和分离集合匹配的高效端到端航天器组件检测模型(Efficient End-to-End Spacecraft Component Detection basedon Residual Self-attention and Separation Sets Matching,RSSSM-DETR)。该模型具有以下两个优点:
(1)在Sparse DETR框架基础上,通过引入残差注意力机制来增加编码器端输出的有效tokens数量,以解决Sparse DETR模型中稀疏tokens导致的收敛速度降低并影响模型预测精度的问题。
(2)在Sparse DETR模型后处理阶段,利用分离集合匹配代替传统的二分集合匹配,通过将一对一集合匹配和一对多集合匹配的优点进行并行操作来解决二分集合匹配会使正样本数量降低从而导致的训练过程缓慢问题。
实验结果表明,与基线DETR模型相比,RSSSM-DETR在平均准确率上提升了12.7%且收敛速度提升10倍。与其他主流模型相比,RSSSM-DETR的各项指标也获得较大提升,特别是与最新的Sparse DETR模型相比,本文模型的平均检索精度增加3.1%,模型收敛速度提高20%。
附图说明
图1为根据本发明实施例的RSSSM-DETR模型的结构图;
图2为根据本发明实施例的lrstart对比结果图;
图3为根据本发明实施例的Epoch对比结果图;
图4为根据本发明实施例的Dropout对比结果图;
图5为根据本发明实施例的Top-K%对比结果图;
图6为根据本发明实施例的航天器组件遮挡对比结果图;
图7为根据本发明实施例的AP变化对比曲线图;
图8为根据本发明实施例的Loss变化对比曲线图;
图9为根据本发明实施例的一种端到端航天器组件检测装置的结构图。
具体实施方式
为使本领域技术人员更好的理解本发明的技术方案,下面结合附图和具体实施方式对本发明作详细说明。下面结合附图和具体实施例对本发明的实施例作进一步详细描述,但不作为对本发明的限定。本文中所描述的各个步骤,如果彼此之间没有前后关系的必要性,则本文中作为示例对其进行描述的次序不应视为限制,本领域技术人员应知道可以对其进行顺序调整,只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。
本发明实施例提供一种端到端航天器组件检测方法,该方法通过构建空间在轨服务中基于残差自注意力和分离集合匹配的高效端到端航天器组件检测模型(RSSSM-DETR模型),并利用数据集对该模型进行训练后,将训练后的模型应用于航天器组件的检测当中。
如图1所示,本实施例所提出的RSSSM-DETR模型主要包括3个模块:
1)Sparse-DETR模块,这是目标检测的基础模块,本文选用Sparse DETR的原因是希望通过稀疏操作来降低计算复杂度以提高模型收敛效率。
2)残差自注意力模块,在Sparse-DETR的基础上引入残差自注意力机制,目的是解决编码器稀疏化后模型精度降低的问题,通过增加编码器端输出的有效tokens来提高模型收敛的效率以及模型的泛化能力,使其更适用于大规模的目标检测任务。
3)分离集合匹配模块,目的是解决由于在稀疏环境中,二分匹配出现不稳定从而导致的精度降低以及模型收敛速度变慢等问题。
下面本发明实施例将详细介绍如上所提出的三个模块。
1)Sparse-DETR模块
传统的目标检测模型往往存在计算量大,运算速度慢等问题,因此本文选用Sparse DETR作为基础框架用于目标检测,Sparse DETR通过使用评分网络(Scoringnetwork)将含有大量语义信息的tokens进行稀疏选择,可以有效减少编码器端的计算复杂度,提高模型的正向推理速度。具体计算步骤如下:
(1)将输入图像通过骨干网络得到特征图,然后将特征图转化为tokens。
(2)使用Scoring network对所有的输入tokens进行评分,即通过累加解码器中每一层的交叉注意力输出值得到DAM(Decoder cross-Attention Map),然后对DAM使用Binarize(二值化),将二值化的DAM作用于Scoring network从而筛选出显著性较高的tokens,二值化的过程中用BCE Loss(Binary Cross-Entropy Loss)进行监督。
(3)将评分网络输出的Top-K%tokens加上Positional encoding(位置编码)后传递至编码器进行编码。
2)残差自注意力模块
Sparse DETR模型经过稀疏化操作后,由于稀疏化减少了tokens数量会使得编码器在对tokens进行特征提取、编码和捕捉相关信息时出现因信息不足而导致的内容缺失及信息不准确等问题。针对这一情况,本文在原有Sparse DETR模块的基础上添加了残差自注意力模块。残差自注意力模块中包含Get-IOUmax-Objects方法,该方法可以找出与原查询Q1的预测框IOU(Intersection over Union)最接近的查询Q2,通过将Q1、Q2融合为(Q1,Q2)来变相提高编码器端得到的tokens质量,同时也增加了tokens数量(即原查询Q1对应的tokens和(Q1,Q2)对应的tokens)。
在解码器端,当输入的低质量稀疏化tokens进行预测时,会因上下文信息缺失导致预测准确率下降和模型性能下降等问题。此外,目标不同程度的遮挡也会导致模型预测精度下降。针对这一问题,本文使用残差连接的方式在解码器端将两个查询Q1和(Q1,Q2)的自注意力机制输出值进行融合,并输出得到最终的交叉注意力机制输出值A3,此机制不仅使模型获得更好的学习输入细节和原始表示,减轻了梯度消失的问题,而且提高了被遮挡目标的检测效果。其计算过程如下:
(1)Queries:首先自定义可学习权重矩阵{Wq,Wk,Wv},W、q、k、v均为随机参数。然后将Sparse DETR模块的输出序列X投影到该权重矩阵上得到三元组Q1=X*Wq,K1=X*Wk,V1=X*Wv,Q1即为原查询。
(2)Multi-Head Self-Attention1:计算Q1,K1的关联性并进行归一化处理,然后乘以V1权重系数得到原查询Q1的自注意力值A1。具体如公式(1)所示:
其中dk是Q1,K1矩阵的列数,即向量的维度。
(3)Get-IOUmax-Objects:首先找出Q1的所有预测框集合,然后从中选取概率最大预测框a,接着找到与a预测框IOU最接近的b预测框,最后通过索引找到b对应的查询Q2,Q2即为与原查询Q1的预测框IOU(Intersection over Union)最接近的查询。
(4)Multi-Head Self-Attention2:将Q1、Q2,K1、K2,V1、V2进行拼接操作后将其传入自注意力机制中得到输出A2,具体如公式(2)所示:
(5)Multi-Head Deformable Cross-Attention:通过残差连接的方式将A1、A2进行相加,然后其通过交叉注意力机制得到输出A3。
3)分离集合匹配模块
Sparse DETR模型将数据从解码器端输出后采用一对一集合匹配计算总损失值,一对一集合匹配是成功消除后处理操作如非极大值抑制(NMS)的关键设计,正是因为这种设计使得Sparse DETR成为真正意义上端到端的检测,但由于一对一集合匹配中被判定为正样本的查询数量太少,因此正样本的训练效率降低且模型收敛速度变得缓慢。一对多集合匹配能提高了模型的性能以及快速的训练收敛,但一对多集合匹配的一个不良影响是,它产生了重复的预测,需要手工添加后处理操作将重复的预测去除,如非极大值抑制(NMS),因此会产生较大的计算开销。基于上述原因,本文提出一种分离集合匹配机制,该机制利用一对一集合匹配和一对多集合匹配的优点进行并行操作,然后将输出值相加得到最终损失值。通过结合这两种匹配算法的输出融合操作,可以充分发挥它们各自的优势,从而提高匹配的准确性、鲁棒性。此外结合一对一集合匹配和一对多集合匹配可以减少不必要的计算和匹配的搜索空间,从而提高匹配的效率,加速模型的收敛速度。具体步骤如下:
(1)将编码器端的输出分离为U1、U2;
(2)对U1、U2分别使用Hungarian(匈牙利)算法进行一对一集合匹配和一对多集合匹配后得到输出Lossone-to-one、Lossone-to-many,Hungarian(匈牙利)算法为预测框与真实框之间建立最优的一对一匹配关系,避免了非极大值抑制(NMS)的操作,使得模型可以准确学习检测任务并提高性能。
一对一集合匹配具体如公式(3)所示:
其中 代表由U1在第i层编码器所预测的输出,GT代表只有唯一的一组标注信息集合{GT},I为编码器总层数。由于GT的数量唯一,因此可以进行一对一集合匹配。
一对多集合匹配具体如公式(4)所示:
其中这里/>代表由U2在第i层编码器所预测的结果,/>代表多组标注信息集合,即为{GT1,GT2,...,GTn},GT1,GT2,...,GTn是由GT复制得到,n为查询数量。由于GT数量与当前查询数量相同,因此可以进行一对多集合匹配。
(3)将Lossone-to-one与Lossone-to-many进行相加,得到最终损失值。
下面本发明实施例将利用本申请所构建的模型与现有模型进行对比,以充分说明本申请的可行性和进步性。
实验平台及数据说明:
本实验的硬件环境配置为CPU:14vCPU Intel(R)Xeon(R)Gold 6330CPU@2.00GHz,GPU:NVDIAGeForce RTX 3090 24GB,内存:80GB。软件环境配置为:操作系统:Ubuntu5.4.0,IDE:Pycharm 2020.1专业版。
本实验数据集使用SDDSP数据集,该数据集共有3117张卫星和空间站的图像,分辨率统一为1280*720。本文通过标注工具Labellmg进行手动标注得到3667个航天器主体、7334个太阳帆板,共11001个检测目标并且将整个数据集以接近6:4的比例随机划分为2516张训练集图像和600张验证集图像。
实验结果及分析:
本文实验的评价指标使用AP(平均精确率)、AP50、AP75、APL、AR(平均召回率),其中AP即AP[.50:.05:.95]指预测框和标注框之间IOU从0.5开始,每间隔0.05求一次AP值,一直取值至0.95,然后求均值,AP是本文实验对比中主要的评价指标。AP在图像中的具体表示是Precision-Recall曲线下的面积,其中Precision(查准率)计算公式如下:
其中TP指预测框和标注框之间IOU>0.5时的预测框数量,FP指预测框和标注框之间IOU<0.5时的预测框数量。Recall(查全率)的计算公式如下:
其中FN指的是模型没有检测到标注框,即预测框和标注框之间IOU=0时的预测框数量。
AP50、AP75指预测框和标注框之间IOU阈值为0.5、0.75时的AP值。APL指当area大于962时的AP值,area表示面积,具体是指分割掩码(segmentation mask)中的像素数量。AR指的是每个图像中检测到固定数量的最大召回(Recall),在类别和IOU上取平均值。
下面将详细介绍本实验所采用的实验参数及其选择依据,并且通过此过程来验证我们的实验假设并推动研究的可重复性。
(1)初始学习率
本模型采用学习率衰减(Learning Rate Decay)策略,公式如下:
其中lr为当前学习率,lrstart为初始学习率,rate为学习衰减率,epoch_now为当前迭代次数,epoch_threshold为学习率衰减阈值。
图2是初始学习率分别为0.001、0.0001、0.00001的精度对比图。学习率参数设置过程中将学习率衰减阈值设置为40,学习衰减率保持为0.1,其余实验参数不变。
由图2可知,当lrstart为0.001时,参数更新步长较大,这将导致模型在训练过程中可能会跳过最优解所在区域,从而使得模型的性能无法达到最佳水平。当lrstart为0.00001时,参数更新步长较小,从而导致模型训练速度缓慢,需要更多的迭代轮次才能收敛到最优解,因此模型无法在有限的时间内达到较高的准确率。而当lrstart为0.0001时,AP指标明显优于lrstart为0.001或lrstart为0.00001,且模型收敛速度更快。因此,0.0001为lrstart的最佳实验数值。
(2)迭代次数
图3显示了不同Epoch参数下的精度曲线,对Epoch参数调整时首先将Epoch参数分别设置为50、75、100,然后初始学习率设置为0.001,学习率衰减阈值分别设置为40、65、90,其余原始实验参数不变。
由图3可知,当Epoch参数选取为50,模型预测准确率最高,且收敛迅速。当Epoch参数选取为75、100时,分别出现了过拟合现象,导致预测精确率降低。因此,50为Epoch的最佳实验数值。
(3)Dropout参数
图4是Dropout参数分别为0.1、0.2、0.3、0.4时的精度对比图。Dropout参数设置过程中,将Dropout参数进行改变,分别设置为0.1、0.2、0.3、0.4,其余原始实验参数不变。
由图4可知,Dropout为0.2、0.3、0.4时,导致模型在训练过程中丢失过多的神经元,造成信息丢失和模型的不稳定性。这使得模型过拟合训练数据,从而导致较低的准确率。当Dropout为0.1时,AP指标均优于其余实验参数。因此,0.1为Dropout的最佳实验数值。
(4)稀疏化Top-K%参数
图5是稀疏化Top-K%参数分别为0.3、0.4、0.5、0.6时的精度对比图。Top-K%参数设置过程中,分别将K设置为0.3、0.4、0.5、0.6,其余原始实验参数不变。
由图5中曲线可知,当K值选择为0.3、0.4时,由于编码器端经过稀疏化操作后的tokens大幅降低,导致了准确率直接下降,因此与图中的其他曲线对比之下准确率整体降低。当K值选择0.6时,tokens数目增多,但由于含有无用信息的tokens也随之增多,故会导致性能不稳定及准确率下降。当K为0.5时编码器端tokens数目适中,且准确率保持稳定,,故K为0.5时为Top-K%的最佳实验数值。
通过以上对比实验可得,本文实验参数设置为:学习衰减率为0.1,初始学习率为0.0001,在0-39Epoch时当前学习率为0.0001,40-49Epoch后当前学习率为0.00001,Dropout为0.1,Top-K%中K值选择0..5,Epoch为50。每迭代一个Epoch保存一次模型,最终选取精度最高的模型。
消融分析:
本文通过引入残差自注意力机制(Residual Self-attention,RS)和分离集合匹配(Separation Sets Matching,SSM)来提高RSSSM-DETR模型的性能。对于改进点RS和SSM的不同效果,本实施例将通过消融实验来验证。由表1可知,当Epoch为50时,由于RS的加入使得编码器中含有大量目标信息的tokens增多,因此解码器端可以进行有效查询,因此加入RS的Sparse DETR中AP较Sparse DETR增加1.2%,AR增加0.4%。本文在RS后引入SSM,能够将由解码器输出的含有丰富目标语义的查询输入到集合匹配中,从而进一步输出高精度的预测,即通过一对一集合匹配和一对多集合匹配的使用,可以将输入的查询分离开后分别进行匹配,从而达到提高精度的作用。由下表可知,当Sparse DETR+RS模型中加入SSM时,模型整体性能提升,AP同比Sparse DETR+RS增加1.9%,APL增加2.0%,AP75增加0.9%,AR增加0.5%。
表1.消融实验对比
整体模型对比实验:
本模型通过引入稀疏化结构的残差自注意力机制模块使得编码器端中输出的有效tokens增加,进而使得解码器端在查询耦合时可以提取更多有效的检测目标信息,并提高遮挡物体的检测精度。同时本模型提出的分离集合匹配模块作用在稀疏化结构的残差自注意力机制模块的输出上,可以将分离后的输出同时进行一对一集合匹配和一对多集合匹配,使得模型在保留端到端检测的同时又能分配到更多的有效查询。为了检验本模型的性能,本文将RSSSM-DETR模型与基线模型DETR以及其他主流模型C-DETR、SMCA-DETR[20]、UP-DETR[21]、Deformable-DETR、Sparse-DETR等在相同的实验环境下分别进行训练,这里需要注意的是因为DETR结构在注意力机制的计算中带来了庞大的计算量导致收敛缓慢,使得DETR训练在50轮时无法收敛,只有当训练轮次达到500时才完全收敛,UP-DETR在训练50轮时也并未完全收敛,但其精确度均已超过DETR,当训练轮次达到300时,UP-DETR才完全收敛。实验结果对比见表2。
表2.整体模型实验对比
由表2可知,当模型的训练Epoch为50时,RSSSM-DETR在对航天器部件进行目标检测时效果明显优于DETR、C-DETR、SMCA-DETR、UP-DETR、Deformable-DETR、Sparse-DETR,其AP对比原始Sparse-DETR提升3.1%;AP75提升3.3%;APL提升3.3%,AR提升0.9%。当对比基线模型DETR时,由于DETR中在编码器端对输入的tokens并未做稀疏化操作,故在编码时需要付出高昂的计算代价,且会将大量输出后的低质量tokens也一并传入解码器端,导致模型训练收敛速度降低及预测准确度降低。RSSSM-DETR中使用稀疏化tokens作为编码器的输入,并使用残差自注意力结构来确保编码器中输出的高质量tokens,解码器端使用分离集合匹配结构使得模型在样本分配的过程中保持稳定。因此,RSSSM-DETR同比训练500轮才收敛的DETR在各项指标上大幅提升,且收敛速度增加了10倍。RSSSM-DETR对比基于无监督预训练的UP-DETR时,本文模型的收敛速度是UP-DETR的6倍,AP值同比UP-DETR增长5.3%,AP50增长1.1%,AP75增长4%,AR增长了1.2%。本文模型在各方面均优于其他模型,因此验证了本文提出模型的可行性。
目标遮挡实验对比:
航空器处于特定角度时,将会导致太阳板被遮挡,本实施例主要是对遮挡的太阳板进行检测来验证RSSSM-DETR模型。首先,我们从数据集的验证集中随机选择5张图片作为本实施例实验的样本。然后,将其分别经过已训练好的Sparse DETR模型和RSSSM-DETR模型,通过输出结果的类别概率和定位信息可以看出RSSSM-DETR在目标定位效果上优于Sparse DETR,预测框坐标定位更加精确且类别概率也得到提高。具体的实验结果对比如图6所示。由图6可知,当出现太阳板被遮挡时,Sparse DETR模型预测的类别判断基本正确且类别概率相对较高,但tokens在编码器端经过稀疏化操作后,其中含有有效语义信息的tokens数量减少,因此导致了预测框的坐标定位并不精确。对于上述问题,RSSSM-DETR模型中通过加入残差自注意力机制使得编码器端的输出的有效tokens数量增多,因此解码器端可以获得更多的上下文信息,增强被遮挡物体的坐标定位能力同时也使得类别判断概率得到提升。
训练过程分析:
本实施例基于SDDSP数据集进行训练,总共训练50轮,图7是RSSSM-DETR模型与原始Sparse DETR模型的AP变化对比曲线图,横轴为训练轮数(Epoch),纵轴为训练时的精确度(AP)。由图7可知,在AP变化曲线中,当Epoch为40时,RSSSM-DETR收敛并达到全局峰值,且AP曲线变化平稳。然而此时原始Sparse DETR的AP值仍在提高直至本次训练结束。因此证明了本模型成功的加快模型收敛速度。
图8是Loss变化对比曲线图,横轴为训练轮数(Epoch),纵轴为总损失值(Loss)。从图8可以看出,RSSSM-DETR模型在前40个Epoch时,总损失值稳定下降,模型迅速收敛,且总体损失值低于原始Sparse DETR。当40个Epoch后,模型总损失值趋于稳定,模型完成收敛,而此时原始Sparse DETR的Loss仍然在下降,因此可以看出RSSSM-DETR整体收敛过程稳定并且无过拟合或欠拟合现象,本模型的训练结果较理想。
本发明实施例提供一种端到端航天器组件检测装置,如图9所示,该装置900包括:
模型构建模块901,被配置为构建RSSSM-DETR模型,所述RSSSM-DETR模型包括:
Sparse-DETR模块,用于根据输入图像,将含有大量语义信息的标记进行稀疏选择,实现目标检测;
残差自注意力模块,用于通过找出与原查询Q1的预测框最接近的查询Q2来增加编码器端输出的有效标记,同时使用残差连接的方式在解码器端将两个查询Q1和(Q1,Q2)的自注意力机制输出值进行融合输出,以提高被遮挡目标的检测效果;
分离集合匹配模块,用于利用一对一集合匹配和一对多集合匹配的优点进行并行操作得到输出值,并将输出值相加得到最终损失值;
模型训练模块902,被配置为获取数据集,所述数据集包括多张卫星和空间站的图像,利用所述数据集对所述RSSSM-DETR模型进行训练得到训练好的RSSSM-DETR模型;
目标检测模块903,被配置为利用所述训练好的RSSSM-DETR模型,基于输入图像,实现航天器组件的检测识别。
在一些实施例中,所述模型构建模块被进一步配置为:
将输入图像通过骨干网络得到特征图,并将特征图转化为标记;
使用评分网络对所有的输入标记进行评分并筛选;
将评分网络输出的标记加上位置编码后传递至编码器进行编码。
在一些实施例中,所述模型构建模块被进一步配置为:
通过累加解码器中每一层的交叉注意力输出值得到第一输出值,对所述进行二值化,将二值化的第一输出值作用于评分网络以筛选出对应标记,二值化的过程中利用二元交叉熵损失函数进行监督。
在一些实施例中,所述模型构建模块被进一步配置为:
自定义可学习权重矩阵{Wq,Wk,Wv},W、q、k、v均为随机参数,将Sparse DETR模块的输出序列X投影到所述可学习权重矩阵上得到三元组Q1=X*Wq,K1=X*Wk,V1=X*Wv,Q1即为原查询;
通过如下公式(1)计算原查询Q1的自注意力值A1:
其中dk是Q1,K1矩阵的列数;
基于Q1的所有预测框集合,选取概率最大预测框a,并根据与a预测框IOU最接近的b预测框,通过索引确定b对应的查询Q2;
将Q1、Q2,K1、K2,V1、V2进行拼接操作后传入自注意力机制中得到输出A2:
通过残差连接的方式将A1、A2进行相加后并通过交叉注意力机制得到输出A3。
在一些实施例中,所述模型构建模块被进一步配置为:
将编码器端的输出分离为U1、U2;
对U1、U2分别进行一对一集合匹配和一对多集合匹配后得到输出Lossone-to-one、Lossone-to-many;
将Lossone-to-one与Lossone-to-many进行相加,得到最终损失值。
在一些实施例中,所述模型构建模块被进一步配置为:
一对一集合匹配具体如公式(3)所示:
其中 代表由U1在第i层编码器所预测的输出,GT代表只有唯一的一组标注信息集合{GT},I为编码器总层数。
在一些实施例中,所述模型构建模块被进一步配置为:
一对多集合匹配如公式(4)所示:
其中 代表由U2在第i层编码器所预测的结果,/>代表多组标注信息集合,即为{GT1,GT2,...,GTn},GT1,GT2,...,GTn是由GT复制得到,n为查询数量。
在一些实施例中,所述模型训练模块被进一步配置为:
对SDDSP航天器数据集进行标注得到若干个航天器主体、若干个太阳帆板作为检测目标,
将整个数据集以设定比例随机划分为若干张训练集图像和若干张验证集图像。
需要说明的是,本实施例所述的装置与在先阐述的方法属于同一技术思路,能够起到的同样的技术效果,此处不赘述。
本发明实施例提供一种可读存储介质,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上各个实施例所述的方法。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本发明。这不应解释为一种不要求保护的发明的特征对于任一权利要求是必要的意图。相反,本发明的主题可以少于特定的发明的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
Claims (10)
1.一种端到端航天器组件检测方法,其特征在于,所述方法包括:
构建RSSSM-DETR模型,所述RSSSM-DETR模型包括:
Sparse-DETR模块,用于根据输入图像,将含有大量语义信息的标记进行稀疏选择,实现目标检测;
残差自注意力模块,用于通过找出与原查询Q1的预测框最接近的查询Q2来增加编码器端输出的有效标记,同时使用残差连接的方式在解码器端将两个查询Q1和(Q1,Q2)的自注意力机制输出值进行融合输出,以提高被遮挡目标的检测效果;
分离集合匹配模块,用于利用一对一集合匹配和一对多集合匹配的优点进行并行操作得到输出值,并将输出值相加得到最终损失值;
获取数据集,所述数据集包括多张卫星和空间站的图像,利用所述数据集对所述RSSSM-DETR模型进行训练得到训练好的RSSSM-DETR模型;
利用所述训练好的RSSSM-DETR模型,基于输入图像,实现航天器组件的检测识别。
2.根据权利要求1所述的方法,其特征在于,所述根据输入图像,将含有大量语义信息的标记进行稀疏选择,实现目标检测,具体包括:
将输入图像通过骨干网络得到特征图,并将特征图转化为标记;
使用评分网络对所有的输入标记进行评分并筛选;
将评分网络输出的标记加上位置编码后传递至编码器进行编码。
3.根据权利要求2所述的方法,其特征在于,所述使用评分网络对所有的输入标记进行评分并筛选,具体包括:
通过累加解码器中每一层的交叉注意力输出值得到第一输出值,对所述进行二值化,将二值化的第一输出值作用于评分网络以筛选出对应标记,二值化的过程中利用二元交叉熵损失函数进行监督。
4.根据权利要求1所述的方法,其特征在于,所述用于通过找出与原查询Q1的预测框最接近的查询Q2来增加编码器端输出的有效标记,同时使用残差连接的方式在解码器端将两个查询Q1和(Q1,Q2)的自注意力机制输出值进行融合输出,具体包括:
自定义可学习权重矩阵{Wq,Wk,Wv},W、q、k、v均为随机参数,将Sparse DETR模块的输出序列X投影到所述可学习权重矩阵上得到三元组Q1=X*Wq,K1=X*Wk,V1=X*Wv,Q1即为原查询;
通过如下公式(1)计算原查询Q1的自注意力值A1:
其中dk是Q1,K1矩阵的列数;
基于Q1的所有预测框集合,选取概率最大预测框a,并根据与a预测框IOU最接近的b预测框,通过索引确定b对应的查询Q2;
将Q1、Q2,K1、K2,V1、V2进行拼接操作后传入自注意力机制中得到输出A2:
通过残差连接的方式将A1、A2进行相加后并通过交叉注意力机制得到输出A3。
5.根据权利要求1所述的方法,其特征在于,所述利用一对一集合匹配和一对多集合匹配的优点进行并行操作得到输出值,并将输出值相加得到最终损失值,具体包括:
将编码器端的输出分离为U1、U2;
对U1、U2分别进行一对一集合匹配和一对多集合匹配后得到输出Lossone-to-one、Lossone-to-many;
将Lossone-to-one与Lossone-to-many进行相加,得到最终损失值。
6.根据权利要求5所述的方法,其特征在于,一对一集合匹配具体如公式(3)所示:
其中 代表由U1在第i层编码器所预测的输出,GT代表只有唯一的一组标注信息集合{GT},I为编码器总层数。
7.根据权利要求5所述的方法,其特征在于,一对多集合匹配如公式(4)所示:
其中 代表由U2在第i层编码器所预测的结果,/>代表多组标注信息集合,即为{GT1,GT2,...,GTn},GT1,GT2,...,GTn是由GT复制得到,n为查询数量。
8.根据权利要求1所述的方法,其特征在于,获取数据集并对所述数据集进行预处理,利用预处理后的数据对所述RSSSM-DETR模型进行训练,通过如下方法对所述数据集进行预处理:
对SDDSP航天器数据集进行标注得到若干个航天器主体、若干个太阳帆板作为检测目标,
将整个数据集以设定比例随机划分为若干张训练集图像和若干张验证集图像。
9.一种端到端航天器组件检测方法装置,其特征在于,所述装置包括:
模型构建模块,被配置为构建RSSSM-DETR模型,所述RSSSM-DETR模型包括:
Sparse-DETR模块,用于根据输入图像,将含有大量语义信息的标记进行稀疏选择,实现目标检测;
残差自注意力模块,用于通过找出与原查询Q1的预测框最接近的查询Q2来增加编码器端输出的有效标记,同时使用残差连接的方式在解码器端将两个查询Q1和(Q1,Q2)的自注意力机制输出值进行融合输出,以提高被遮挡目标的检测效果;
分离集合匹配模块,用于利用一对一集合匹配和一对多集合匹配的优点进行并行操作得到输出值,并将输出值相加得到最终损失值;
模型训练模块,被配置为获取数据集,所述数据集包括多张卫星和空间站的图像,利用所述数据集对所述RSSSM-DETR模型进行训练得到训练好的RSSSM-DETR模型;
目标检测模块,被配置为利用所述训练好的RSSSM-DETR模型,基于输入图像,实现航天器组件的检测识别。
10.一种可读存储介质,其特征在于,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311599715.9A CN117576513B (zh) | 2023-11-24 | 2023-11-24 | 端到端航天器组件检测方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311599715.9A CN117576513B (zh) | 2023-11-24 | 2023-11-24 | 端到端航天器组件检测方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117576513A true CN117576513A (zh) | 2024-02-20 |
CN117576513B CN117576513B (zh) | 2024-05-14 |
Family
ID=89893494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311599715.9A Active CN117576513B (zh) | 2023-11-24 | 2023-11-24 | 端到端航天器组件检测方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576513B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387508A (zh) * | 2021-12-15 | 2022-04-22 | 江苏电力信息技术有限公司 | 基于Transformer的安全帽识别方法 |
CN114510594A (zh) * | 2022-01-28 | 2022-05-17 | 北京邮电大学 | 一种基于自注意力机制的传统纹样子图检索方法 |
CN114708424A (zh) * | 2022-03-09 | 2022-07-05 | 上海人工智能创新中心 | 输入为具有去重预处理的密集查询的端到端检测器 |
CN116229295A (zh) * | 2023-02-28 | 2023-06-06 | 西安电子科技大学 | 基于融合卷积注意力机制的遥感图像目标检测方法 |
CN116311493A (zh) * | 2022-12-16 | 2023-06-23 | 大连理工大学 | 一种基于编码解码架构的两阶段人-物交互检测方法 |
CN116524357A (zh) * | 2023-04-23 | 2023-08-01 | 深圳供电局有限公司 | 高压线路鸟巢检测方法、模型训练方法、装置及设备 |
CN116580333A (zh) * | 2023-04-13 | 2023-08-11 | 浙江大学 | 基于YOLOv5和改进StrongSORT的粮库车辆追踪方法 |
CN116935196A (zh) * | 2023-08-02 | 2023-10-24 | 重庆大学 | 面向复杂环境下被遮挡目标的新型脑启发目标检测方法 |
-
2023
- 2023-11-24 CN CN202311599715.9A patent/CN117576513B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387508A (zh) * | 2021-12-15 | 2022-04-22 | 江苏电力信息技术有限公司 | 基于Transformer的安全帽识别方法 |
CN114510594A (zh) * | 2022-01-28 | 2022-05-17 | 北京邮电大学 | 一种基于自注意力机制的传统纹样子图检索方法 |
CN114708424A (zh) * | 2022-03-09 | 2022-07-05 | 上海人工智能创新中心 | 输入为具有去重预处理的密集查询的端到端检测器 |
CN116311493A (zh) * | 2022-12-16 | 2023-06-23 | 大连理工大学 | 一种基于编码解码架构的两阶段人-物交互检测方法 |
CN116229295A (zh) * | 2023-02-28 | 2023-06-06 | 西安电子科技大学 | 基于融合卷积注意力机制的遥感图像目标检测方法 |
CN116580333A (zh) * | 2023-04-13 | 2023-08-11 | 浙江大学 | 基于YOLOv5和改进StrongSORT的粮库车辆追踪方法 |
CN116524357A (zh) * | 2023-04-23 | 2023-08-01 | 深圳供电局有限公司 | 高压线路鸟巢检测方法、模型训练方法、装置及设备 |
CN116935196A (zh) * | 2023-08-02 | 2023-10-24 | 重庆大学 | 面向复杂环境下被遮挡目标的新型脑启发目标检测方法 |
Non-Patent Citations (3)
Title |
---|
BYUNGSEOK ROH ET AL.: "Sparse DETR: Efficient End-to-End Object Detection with Learnable Sparsity", 《ARXIV》, 4 March 2022 (2022-03-04), pages 1 - 23 * |
DING JIA: "DETRs with Hybrid Matching", 《ARXIV》, 16 May 2023 (2023-05-16), pages 1 - 14 * |
XIZHOU ZHU: "Deformable DETR: Deformable Transformers for End-to-End Object Detection", 《ARXIV》, 18 March 2021 (2021-03-18), pages 1 - 16 * |
Also Published As
Publication number | Publication date |
---|---|
CN117576513B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pu et al. | Iterative alignment network for continuous sign language recognition | |
US10740593B1 (en) | Method for recognizing face using multiple patch combination based on deep neural network with fault tolerance and fluctuation robustness in extreme situation | |
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
WO2016197303A1 (en) | Image semantic segmentation | |
CN116229295A (zh) | 基于融合卷积注意力机制的遥感图像目标检测方法 | |
CN112085678B (zh) | 一种适用于电力设备机巡图像去雨滴的方法及系统 | |
CN114092742B (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
KR20210097931A (ko) | 다중 객체 검출 방법 및 그 장치 | |
CN112200096B (zh) | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 | |
CN114283137A (zh) | 基于多尺度特征图推理网络的光伏组件热斑缺陷检测方法 | |
CN115578574B (zh) | 一种基于深度学习和拓扑感知的三维点云补全方法 | |
CN112861840A (zh) | 基于多特征融合卷积网络的复杂场景字符识别方法及系统 | |
CN111008608A (zh) | 一种基于深度学习的夜间车辆检测方法 | |
Li et al. | Finding action tubes with a sparse-to-dense framework | |
CN117079095A (zh) | 基于深度学习的高空抛物检测方法、系统、介质和设备 | |
CN117830118A (zh) | 红外与可见光图像融合方法及装置 | |
CN114140446A (zh) | 基于语义分割和目标检测的绝缘子缺陷检测方法 | |
CN117576513B (zh) | 端到端航天器组件检测方法、装置及介质 | |
CN112395952A (zh) | 一种用于铁轨缺陷检测的无人机 | |
Li | Research on methods of english text detection and recognition based on neural network detection model | |
CN116363469A (zh) | 一种少样本红外目标检测方法、装置和系统 | |
CN115937161A (zh) | 基于自适应阈值半监督的矿石分选方法和计算机存储介质 | |
CN113449601B (zh) | 基于渐进性平滑损失的行人重识别模型训练和识别方法与装置 | |
CN112396126B (zh) | 一种基于检测主干与局部特征优化的目标检测方法及系统 | |
CN115937567A (zh) | 一种基于小波散射网络和ViT的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |