CN113837190A - 一种基于Transformer的端到端实例分割方法 - Google Patents

一种基于Transformer的端到端实例分割方法 Download PDF

Info

Publication number
CN113837190A
CN113837190A CN202111005862.XA CN202111005862A CN113837190A CN 113837190 A CN113837190 A CN 113837190A CN 202111005862 A CN202111005862 A CN 202111005862A CN 113837190 A CN113837190 A CN 113837190A
Authority
CN
China
Prior art keywords
mask
prediction
feature
instance
header
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111005862.XA
Other languages
English (en)
Inventor
曹刘娟
胡杰
陆瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202111005862.XA priority Critical patent/CN113837190A/zh
Publication of CN113837190A publication Critical patent/CN113837190A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于Transformer的端到端实例分割方法,涉及计算机视觉中的图像检测和分割领域。1)利用卷积网络和具有特征金字塔网络将图像生成特征金字塔;2)利用RoIAlign裁剪并对齐来自金字塔的特征图,提取RoI感兴趣特征区域;3)通过具有动态注意力的Transformers编码器将图像特征和RoI特征图融合到预测头中;4)由预测头输出实例的边界框,低维掩码特征,目标类别;5)反复迭代查询框,并更新预测头输出。在端到端实例分割中使用Transformers,可预测低维掩码特征而不是高维掩码,这不仅简化训练并激发掩码二分匹配代价的设计。可并行检测并分割实例,准确性和运行性能优。

Description

一种基于Transformer的端到端实例分割方法
技术领域
本发明涉及计算机视觉中的图像检测和分割领域,尤其是涉及一种基于Transformer的端到端实例分割方法。
背景技术
实例分割是一项对图像中每个实例进行检测和分割的任务。近年来计算机视觉发展的一个明显趋势是删除手工制作的组件以实现端到端的训练和推理测试,这在多项任务上得到显着改善。但是,在实例分割上仍然缺乏这种端到端范式的应用。现有方法一般是需要手动设计的称为非最大抑制(NMS)的后处理步骤来删除重复的预测(Kaiming He,Georgia Gkioxari,Piotr Dollar,and Ross Gir-′shick.Mask r-cnn.In Proceedingsof the IEEE International Conference on Computer Vision,2017;Shu Liu,Lu Qi,Haifang Qin,Jianping Shi,and Jiaya Jia.Path aggregation network for instancesegmentation.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,2018),或者是在小型数据集上进行早期试验但缺乏针对现代基准的评估(Mengye Ren and Richard S Zemel.End-to-end instance segmentation withrecurrent attention.In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,2017.;Bernardino Romera-Paredes and Philip HilaireSean Torr.Recurrent instance segmentation.In European conference on computervision,2016)。最近的实例分割方法一般都依赖于自上而下或自下而上的框架,该框架将实例分割分解为几个相关的任务,从而导致这种实例分割方法是非端到端的。
除实例分割外,目标检测也面临着类似的挑战。近年来的研究通过引入集合预测损失(Peize Sun,Rufeng Zhang,Yi Jiang,Tao Kong,Chenfeng Xu,Wei Zhan,MasayoshiTomizuka,Lei Li,Zehuan Yuan,Changhu Wang,et al.Sparse r-cnn:End-to-end objectdetection with learnable proposals.ArXiv preprint arXiv:2011.12450,2020)以及可选使用Transformers(Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N Gomez,Lukasz Kaiser,and Illia Polosukhin.Attention is allyou need.2017)结构,实现端到端的目标检测。集合预测损失会强制对实际标签和预测之间进行双向匹配,并惩罚冗余的预测,从而可以消除NMS的推断。但是,启用端到端实例分割并非与直接添加一个掩码分支、更改损失那样简单,一方面,掩码的维度远高于类标签(80维)和框(4维)的维度。另一方面,通过二分匹配得到的提议框通常规模很小,这也带来训练样本稀疏的问题。
发明内容
本发明的目的是针对传统的实例分割模型通常是利用高维(28*28)掩码进行冗余回归等缺点,提供可有效进行回归训练,突破自上而下和自下而上实例分割框架的限制,能够同时进行检测和分割的一种基于Transformer的端到端实例分割方法。
本发明包括以下步骤:
1)将输入的图像通过特征金字塔网络(FPN)和卷积神经网络(CNN)生成金字塔特征图;
2)通过带有RoIAlign的可查询查询框裁剪并对齐金字塔特征图,从而获取RoI感兴趣特征区域,通过对特征图求和并求平均值获得图像特征;
3)通过具有动态注意力的Transformers编码器将图像特征和RoI特征图融合到预测头中;
4)由预测头输出实例的边界框、低维掩码特征、目标类别;
5)反复迭代查询框,在N个阶段中不断细化预测的框、类标签和掩码。
本发明设计一种基于Transformer的端到端实例分割模型(称为ISTR),端到端的范式可以显着提高机器学习系统的性能。本发明利用二分匹配的集合损失训练模型,从而消除实例分割中,非极大值抑制(Non-Maximum Suppression,NMS)的后处理,实现端到端的实例分割。本发明针对传统的实例分割模型通常是利用高维(28*28)掩码进行冗余回归的缺点,考虑通过将预测的低维掩码特征与实际的掩码特征进行匹配,从而获得集合损失。本发明突破自上而下和自下而上实例分割框架的限制,提供一种循环精炼策略进行的端到端实例分割模型,能够同时进行检测和分割。
与现有技术相比,本发明具有以下突出优点:
1)本发明提出一个新颖的基于Transformer的实例分割模型,首次在端到端实例分割中使用Transformers。
2)本发明模型框架的关键是预测低维掩码特征而不是高维掩码,这不仅简化训练并激发掩码二分匹配代价的设计。
3)通过反复提炼策略,ISTR可以并行检测并分割实例,与自下而上和自上而下的框架相比,ISTR为实例分割提供新的视角。
4)ISTR展示其准确性和运行性能,优于具有挑战性的COCO数据集上的最新方法。
附图说明
图1为ISTR模型的总体框架图;
图2为掩码成分分析图,按贡献度对Top100成分进行排名;
图3为ISTR在COCO val2017数据集的检测分割可视化图;阈值设置为0.4;
图4为ISTR在不同阶段的APm表现;b1使用ResNet50-FPN,b2使用ResNet101-FPN;
图5为ISTR和Mask R-CNN的可视化对比图;
图6为ISTR(使用ResNet101-FPN)在COCOtest-dev split数据集的检测分割可视化(阈值设置为0.4)。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下实施例将结合附图对本发明进行作进一步的说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
本发明的目的是针对每个实例直接预测一组低维特征,类标签和预测框。本发明通过回归低维特征而不是原始高纬度(28*28)的掩码来实现端到端的实例分割,从而简化少量样本的训练,并利用其与掩码匹配并促进回归。本发明基于掩码特征将二分匹配代价的定义扩展到掩码上,因此可以有效地进行回归训练。以探索端到端的实例分割机制,这不仅激发掩码匹配代价的设计并简化回归。此外,本发明ISTR通过循环精炼策略并行执行检测和分割,打破自上而下和自下而上的实例分割框架的限制,并提高检测和分割这两项任务的性能。ISTR模型框架的总体预览如图1所示,表1展示ISTR的具体算法步骤。
表1.ISTR的算法步骤
Figure BDA0003237194790000031
Figure BDA0003237194790000041
方法中每个模块的内容详解如下:
1、掩码特征
为定义有效提取掩码特征的公式,限制原始真实掩码和重构掩码之间的相互信息。
Figure BDA0003237194790000046
其中,
Figure BDA0003237194790000047
表示两个随机变量之间的互信息,M表示一组掩码
Figure BDA0003237194790000042
s2是掩码的维度大小,g(·)表示用于提取掩码特征的编码器,而f(·)表示用于重建掩码的掩码解码器。公式(1)保证编码和解码阶段具有最小的信息丢失。推导之后,掩码特征有一个广义目标函数:
Figure BDA0003237194790000043
其中,ri=g(mi)表示掩码特征,||·||2是L2范数。通过矩阵
Figure BDA0003237194790000044
将编码器和解码器的功能表示为简单的线性变换,即f(g(mi))=DDTmi和DDT=Il,目标函数为:
Figure BDA0003237194790000045
其中,l是掩码特征的维度大小,Il表示l×l单位矩阵。公式(3)具有与PCA的目标函数相同的公式,后者提供一种用于学习转换的封闭式解决方案。注意方程式中(2)的目标函数。也可以通过其他模型(例如自动编码器)进行优化。
2、匹配代价和预测损失
上述得到用于掩码特征的编码器和解码器后,定义二分匹配代价和端到端实例分割的设置预测损失。将实际边界框,类标签和掩码表示为Y={bi,ci,mi|i=1,...,n}。预测的边界框,类标签和掩码特征表示为
Figure BDA0003237194790000051
其中,k>n。
1)二分匹配代价
对于二分匹配,搜索n个非重复整数σ∈{1,2,...,k}置换,最低代价为:
Figure BDA0003237194790000052
将边界框的匹配代价定义为:
Figure BDA0003237194790000053
类标签的匹配代价为:
Figure BDA0003237194790000054
其中,λ表示用于平衡代价的超参数,cL1(·,·)表示L1代价,
Figure BDA0003237194790000057
表示广义IoU代价(Tsung-Yi Lin,Piotr Dollar,Ross Girshick,Kaiming He,′BharathHariharan,and Serge Belongie.Feature pyramid networks for object detection.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition,2017),而
Figure BDA0003237194790000055
是分类的概率
Figure BDA0003237194790000058
使用掩码特征之间的相似性度量来匹配它们。掩码的匹配代价定义为:
Figure BDA0003237194790000056
其中,将掩码特征进行L2归一化,并使用两个归一化向量之间的点积来计算余弦相似度。将结果加1,然后整体除以2,以确保值在[0;1]的范围内。
2)集合预测损失
对于集合预测损失,使用匹配的预测来回归实际目标。集合预测损失定义为:
Figure BDA0003237194790000061
其中,
Figure BDA0003237194790000067
的定义与
Figure BDA00032371947900000611
相同,而
Figure BDA0003237194790000068
是分类的焦点损失(Tsung-YiLin,Priya Goyal,Ross Girshick,Kaiming He,and Piotr Dollar.Focal loss fordense object detection.In′Proceedings of the IEEE International Conference onComputer Vision,2017)。对于掩码,增加dice损失(Fausto Milletari,Nassir Navab,andSeyed-Ahmad Ahmadi.V-net:Fully convolutional neural networks for volumetricmedical image segmentation.In International Conference on 3D Vision,2016),以使学习的特征更好地用于重构掩码。掩码损失定义为:
Figure BDA0003237194790000062
其中,
Figure BDA0003237194790000069
是L2损失,
Figure BDA00032371947900000610
是dice损失。
3、基于Transformer的实例分割
ISTR的框架体系结构如图1所示,其中包含四个主要组件:带有FPN的CNN骨干(Hamid Rezatofighi,Nathan Tsoi,JunYoung Gwak,Amir Sadeghian,Ian Reid,andSilvio Savarese.Generalized intersection over union:A metric and a loss forbounding box regression.In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,2019),用于提取每个实例的特征;具有动态注意力的Transformer编码器,用于学习目标之间的关系;一组预测头进行检测和分割,然后进行N步递归更新,从而完善预测集。
1)骨干网络
使用带有FPN的CNN骨干网络来提取特征金字塔的从P2到P5级别的特征。然后,k个可查询的查询框为
Figure BDA0003237194790000063
初始化为覆盖整个图像,用于通过RoIAlign(Kaiming He,Georgia Gkioxari,Piotr Dollar,and Ross Gir-′shick.Mask r-cnn.InProceedings of the IEEE International Conference on Computer Vision,2017)提取k个RoI特征
Figure BDA0003237194790000064
通过对P2到P5的特征进行平均和求和来提取图像特征
Figure BDA0003237194790000065
然后为每个RoI特征重复k个副本。随机初始化可学习位置特征
Figure BDA0003237194790000066
2)变压器编码器和动态注意力机制
首先通过三个可学习的权重矩阵对图像特征P和位置特征E的总和进行变换,得到的输入Q=(P+E)WQ;K=(P+E)WK;V=(P+E)WV用于自注意力模块,定义为:
Figure BDA0003237194790000071
多头注意力包括多个自我注意力模块,从而封装不同特征之间的多个复杂关系,例如,原始Transformer中的8个块(Ashish Vaswani,Noam Shazeer,Niki Parmar,JakobUszkoreit,Llion Jones,Aidan N Gomez,Lukasz Kaiser,and IlliaPolosukhin.Attention is all you need.2017)。本发明添加动态注意力机制以更好地融合RoI和图像特征,该模块定义为在第i步中以RoI特征Ui为条件的注意力:
Oi=Ui·fc(Z) (11)
其中,fc(·)表示生成动态参数的全连接层。然后将获得的特征Oi用在预测头中。
3)预测头
预测集是由预测头计算的,包括类标签头,预测框头,掩码头和固定的掩码解码器。框头预测第i步中用于更新查询框
Figure BDA0003237194790000072
的归一化中心坐标,高度和宽度的残差值,类标签头使用softmax函数预测类标签。掩码头输出掩码特征,然后通过预学习的掩码解码器重建特征来预测掩码。
4)循环精炼策略
查询框
Figure BDA0003237194790000073
由预测框周期性地更新,从而优化预测并使其可以并行处理检测和分割。整个过程总结在表1算法步骤中。
具体实验结果如下:
实例分割是计算机视觉领域发展的一个重要方向,例如自动驾驶和机器人导航。实例分割的任务不是将目标单独检测或为像素分配类别标签,而是将这些任务统一在一起,因此成为计算机视觉中最具挑战性的任务之一。
本发明在COCO数据集(Tsung-Yi Lin,Michael Maire,Serge Belongie,JamesHays,Pietro Perona,Deva Ramanan,Piotr Dollar,and C Lawrence′Zitnick.Microsoftcoco:Common objects in context.In European Conference on Computer Vision,2014)上进行实验,该数据集包含具有80类实例标签的123K图像。本发明的模型在train2017分割(115K图像)上进行训练,最终结果在test-dev split中报告,该测试集没有真实的公共标签,通过线上服务器进行评估。展示标准COCO度量标准,包括框和掩码的AP值(在IoU阈值上取平均),AP50,AP75和APS,APM,APL(不同比例的AP),分别表示为APb和APm。ISTR模型在COCO test-dev split上与其他目标检测和实例分割的对比的结果如表2所示。
表2
Figure BDA0003237194790000081
定量分析:通过表2可以看到,ISTR表现出色,尤其是在小物体上。例如,基于ResNet101-FPN的ISTR的APmS优于基于ResNet101-FPN的SOLOv25.5点。这是因为二分匹配代价不会过滤小的目标进行训练。对应的方法MEInst在实例分割中也使用掩码特征。但是,由于掩码特征的冗余预测,MEInst的性能受到很大影响。例如,基于ResNet101-FPN的ISTRAPm优于基于ResNet101-FPN的MEInst。通过将结果与最新的端到端目标检测方法进行比较,实验还发现ISTR在检测中的性能提升。结果表明,基于ResNet101-FPN的ISTRAPb分别优于DETR和SparseR-CNN,分别达到4.1和2.0点。这证明端到端机制的优势以及与Transformer并联进行检测和分割的潜力。令人意外的是,通过PCA的次优掩码特征,ISTR可以获得如此好的结果,从图2中的PCA成分能量分布图看出贡献度在前的成分已经能很好的表示大部分掩码的信息。
定性分析:图3展示了ISTR在COCO验证数据集上的定性分析结果(使用ResNet101-FPN骨干网络),可以看出ISTR的预测框和掩码的结果表现鲁棒。从图4的不同阶段的性能分析可以表明在第6个阶段的性能结果趋于饱和。通过将ISTR与图5中的MaskR-CNN进行比较来显示一些示例。从结果来看,当NMS不删除重复的预测时,MaskR-CNN的性能将下降。图6中的更多可视化结果表明,尽管ISTR获得最优的APm,但是通过学习更精细的掩码,仍有进一步改进的空间。
公式说明在具体实施方案中均有详细的对应描述。
英文专有名词定义如下:
NMS定义为非最大抑制。

Claims (2)

1.一种基于Transformer的端到端实例分割方法,其特征在于其框架体系包括带有FPN的CNN骨干、具有动态注意力的Transformer编码器和一组预测头,所述带有FPN的CNN骨干,用于提取每个实例的特征;所述具有动态注意力的Transformer编码器,用于学习目标之间的关系;所述预测头用于进行检测和分割,然后进行N步递归更新,从而完善预测集;
所述方法,包括以下步骤:
1)将输入的图像通过特征金字塔网络和卷积神经网络生成金字塔特征图;
2)通过带有RoIAlign的可查询查询框裁剪并对齐金字塔特征图,从而获取RoI感兴趣特征区域,通过对特征图求和并求平均值获得图像特征;
3)通过具有动态注意力的Transformers编码器将图像特征和RoI特征图融合到预测头中;
4)由预测头输出实例的边界框、低维掩码特征、目标类别;
5)反复迭代查询框,在N个阶段中不断细化预测的框、类标签和掩码。
2.如权利要求1所述一种基于Transformer的端到端实例分割方法,其特征在于所述预测集是由预测头计算获得,包括类标签头、预测框头、掩码头和固定的掩码解码器;预测框头第i步中用于更新查询框的归一化中心坐标,高度和宽度的残差值,类标签头使用softmax函数预测类标签;掩码头输出掩码特征,然后通过预学习的掩码解码器重建特征来预测掩码。
CN202111005862.XA 2021-08-30 2021-08-30 一种基于Transformer的端到端实例分割方法 Pending CN113837190A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111005862.XA CN113837190A (zh) 2021-08-30 2021-08-30 一种基于Transformer的端到端实例分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111005862.XA CN113837190A (zh) 2021-08-30 2021-08-30 一种基于Transformer的端到端实例分割方法

Publications (1)

Publication Number Publication Date
CN113837190A true CN113837190A (zh) 2021-12-24

Family

ID=78961583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111005862.XA Pending CN113837190A (zh) 2021-08-30 2021-08-30 一种基于Transformer的端到端实例分割方法

Country Status (1)

Country Link
CN (1) CN113837190A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511850A (zh) * 2021-12-30 2022-05-17 广西慧云信息技术有限公司 一种阳光玫瑰葡萄果实大小粒图像识别方法
CN115619709A (zh) * 2022-08-30 2023-01-17 哈尔滨工业大学(深圳) 一种3d平面检测与重建方法、装置及存储介质
CN117893838A (zh) * 2024-03-14 2024-04-16 厦门大学 应用扩散检测模型的目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180053297A1 (en) * 2016-08-18 2018-02-22 Ohio University Methods and Apparatuses for Detection of Abnormalities in Low-Contrast Images
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN110390324A (zh) * 2019-07-27 2019-10-29 苏州过来人科技有限公司 一种融合视觉与文本特征的简历版面分析算法
CN112489050A (zh) * 2020-12-13 2021-03-12 成都易书桥科技有限公司 一种基于特征迁移的半监督实例分割算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180053297A1 (en) * 2016-08-18 2018-02-22 Ohio University Methods and Apparatuses for Detection of Abnormalities in Low-Contrast Images
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN110390324A (zh) * 2019-07-27 2019-10-29 苏州过来人科技有限公司 一种融合视觉与文本特征的简历版面分析算法
CN112489050A (zh) * 2020-12-13 2021-03-12 成都易书桥科技有限公司 一种基于特征迁移的半监督实例分割算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIE HU, LIUJUAN CAO, YAO LU, SHENGCHUAN ZHANG, YAN WANG, KE LI, FEIYUE HUANG, LING SHAO, RONGRONG JI: "ISTR: End-to-End Instance Segmentation with Transformers", pages 1 - 11, Retrieved from the Internet <URL:https://arxiv.org/abs/2105.00637> *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511850A (zh) * 2021-12-30 2022-05-17 广西慧云信息技术有限公司 一种阳光玫瑰葡萄果实大小粒图像识别方法
CN114511850B (zh) * 2021-12-30 2024-05-14 广西慧云信息技术有限公司 一种阳光玫瑰葡萄果实大小粒图像识别方法
CN115619709A (zh) * 2022-08-30 2023-01-17 哈尔滨工业大学(深圳) 一种3d平面检测与重建方法、装置及存储介质
CN115619709B (zh) * 2022-08-30 2023-07-04 哈尔滨工业大学(深圳) 一种3d平面检测与重建方法、装置及存储介质
CN117893838A (zh) * 2024-03-14 2024-04-16 厦门大学 应用扩散检测模型的目标检测方法

Similar Documents

Publication Publication Date Title
Djolonga et al. On robustness and transferability of convolutional neural networks
Xu et al. Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark
CN113837190A (zh) 一种基于Transformer的端到端实例分割方法
Dong et al. Head-free lightweight semantic segmentation with linear transformer
Liu et al. Unsupervised change detection in multispectral remote sensing images via spectral-spatial band expansion
Qin et al. Understanding and improving robustness of vision transformers through patch-based negative augmentation
Zhuang et al. Normal endmember spectral unmixing method for hyperspectral imagery
Mussina et al. Multi-modal data fusion using deep neural network for condition monitoring of high voltage insulator
CN116503399B (zh) 基于yolo-afps的绝缘子污闪检测方法
Fauvel et al. A lightweight, efficient and explainable-by-design convolutional neural network for internet traffic classification
Zhu et al. Spatial–spectral joint reconstruction with interband correlation for hyperspectral anomaly detection
Shafique et al. SSViT-HCD: A spatial–spectral convolutional vision transformer for hyperspectral change detection
Wang et al. Mpanet: Multi-patch attention for infrared small target object detection
Cai et al. Semantic-enhanced image clustering
Zhang et al. Attentional transfer is all you need: Technology-aware layout pattern generation
Zeng et al. Masanet: Multi-angle self-attention network for semantic segmentation of remote sensing images
Li et al. Towards real-time segmentation on the edge
Qiao et al. A dual frequency transformer network for hyperspectral image classification
Pi et al. Searching for trionet: Combining convolution with local and global self-attention
Chen et al. Data-Efficient Operator Learning via Unsupervised Pretraining and In-Context Learning
Yang et al. A lightweight defect detection algorithm of insulators for power inspection
Chen et al. TSDet: End-to-End Method with Transformer for SAR Ship Detection
Zhang et al. A Spectrum-Aware Transformer Network for Change Detection in Hyperspectral Imagery
Alonso et al. A Hierarchical PSF Reconstruction Method
Shen et al. Graph-Represented Distribution Similarity Index for Full-Reference Image Quality Assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination