CN114998653B - 一种基于ViT网络的小样本遥感图像分类方法、介质及设备 - Google Patents

一种基于ViT网络的小样本遥感图像分类方法、介质及设备 Download PDF

Info

Publication number
CN114998653B
CN114998653B CN202210587274.XA CN202210587274A CN114998653B CN 114998653 B CN114998653 B CN 114998653B CN 202210587274 A CN202210587274 A CN 202210587274A CN 114998653 B CN114998653 B CN 114998653B
Authority
CN
China
Prior art keywords
image data
layer
image
feature fusion
vit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210587274.XA
Other languages
English (en)
Other versions
CN114998653A (zh
Inventor
陈波
邓媛丹
陈圩钦
曾俊涛
朱舜文
王庆先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210587274.XA priority Critical patent/CN114998653B/zh
Publication of CN114998653A publication Critical patent/CN114998653A/zh
Application granted granted Critical
Publication of CN114998653B publication Critical patent/CN114998653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像分类技术领域,具体涉及一种基于ViT网络的小样本遥感图像分类方法。本发明基于ViT的小样本SAR图像分类方法将多模态特征融合机制引入到Transformers编码器中,通过将图像特征进行融合,解决了因为数据集量小而导致模型获取信息量变少的情况。此外,由于序列模型难以对层次信息进行有效表达,因此将多头自注意力机制引入到Transformers编码器中,在可以并行计算的同时,还提高了对长距离依赖关系的捕捉能力。采用本发明技术方案后,利用多模态特征融合技术以及多头自注意力机制解决ViT网络模型参数冗杂且训练时间过长难以落地的问题。

Description

一种基于ViT网络的小样本遥感图像分类方法、介质及设备
技术领域
本发明涉及图像分类技术领域,尤其涉及一种基于ViT网络的小样本遥感图像分类方法、介质及设备。
背景技术
传统的卷积神经网络具有空间感知偏差,因此卷积神经网络在计算机视觉任务上优势明显,其在少量参数的情况下依旧保持较好效果,但是卷积神经网络的空间感知偏差是局部的,以往的结构中通常使用注意力(Attention)机制实现全局感知。例如通过增加用于图像分类的特征图或通过使用自注意力来进一步处理CNN的输出,例如用于对象检测、视频处理、图像分类。
而Transformers编码器一般是用于自然语言处理领域,Transformers之类的工作采用可扩展的近似值来吸引全局的自注意力,以适用于图像。
此外,Transformers编码器缺乏上述提及的空间感知,例如平移不变性和局部性。故而在数据量较少的情况下难以概括训练集的所有特征信息。而ViT将图像分割为非重叠序列进行特征学习,取得了较好的效果。
但囿于极大的参数量,导致其在实际训练中举步维艰。因此,一种用于图像分类领域的面向小样本数据的基于ViT网络构建的发明就显得很有必要。
发明内容
针对背景技术中存在的问题,本发明提供一种基于ViT(Vision Transformers)网络的小样本遥感图像分类方法,目的在于利用多模态特征融合技术以及多头自注意力机制解决ViT网络模型参数冗杂且训练时间过长难以落地的问题。
一种基于ViT网络的小样本遥感图像分类方法,包括以下步骤:
步骤1:采用用于地标识别和图像恢复实验的数据集作为训练集,并对训练集中的图像数据进行预处理;
步骤2:将经过预处理的图像数据输入到Transformers编码器中的多模态特征融合机制,并在多模态特征融合中将步骤1中经过预处理的图像数据通过多层感知机进行处理,再将多层感知机处理后的图像数据进行concat操作,concat操作完成后,对图像数据进行一次PCA(主成分分析法)降维处理,使所有的图像数据的维度保持一致;
步骤3:将经过步骤2处理的图像数据送入多头自注意机制处理,得到特征信息;
步骤4:基于步骤3中的特征信息得到图像数据的分类结果,输出图像数据的分类结果。
本发明基于ViT的小样本SAR(Synthetic Aperture Radar)图像分类方法将多模态特征融合机制引入到Transformers编码器中,通过将图像特征进行融合,解决了因为数据集小而导致模型获取信息量变少的情况。此外,由于序列模型难以对层次信息进行有效表达,因此将多头注意力机制引入到Transformers编码器中,在可以并行计算的同时,还提高了对长距离依赖关系的捕捉能力。
优选的,步骤1中所述的图像数据的预处理包括以下步骤:
对图像数据的维度进行变换操作,并将进行变换操作后的图像数据进行线性映射,将位置嵌入添加到图像块嵌入中,保留位置信息;嵌入向量的结果序列作为所述Transformers编码器的输入。
优选的,所述Transformers编码器由多头自注意机制、多模态特征融合机制以及多层感知机模块的层组成;在每个多模态特征融合机制以及多层感知机模块之前应用Layernorm,之后应用残差连接;其中多层感知机模块包含具有GELU非线性的两全连接层。
优选的,所述多模态特征融合机制将图像嵌入图像块嵌入分别输入到不同的多层感知机中,再对图像块嵌入进行特征融合操作;所述特征融合操作为将下层输入的三个向量特征进行concat操作,再将三个向量通过多层感知机映射成同一个维度相加再还原,得到还原后的三个向量维度。
优选的,所述步骤3中将还原后的三个向量维度包含在并行的自注意力层中,每个向量经过多层感知机模块输入到自注意力层,再通过concat操作将三个向量连接在一起,经过最后一层多层感知机模块的网络得到特征信息。
优选的,所述分类结果通过在预训练时具有一个隐含层的MLP(多层感知机)以及在微调时通过一个线性层的MLP来实现。
一种存储介质,用于存储计算机指令,其中计算机指令用于使所述计算机执行上述任意一种所述的方法。
一种电子设备,包括至少一个处理器,以及与至少一个处理器通信连接的存储器;其中,所述存储器中存储有能被至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一种所述的方法。
本发明的有益效果包括:
1.本发明基于ViT的小样本SAR图像分类方法将多模态特征融合机制引入到Transformers编码器中,通过将图像特征进行融合,解决了因为数据集小而导致模型获取信息量变少的情况。此外,由于序列模型难以对层次信息进行有效表达,因此将多头注意力机制引入到Transformers编码器中,在可以并行计算的同时,还提高了对长距离依赖关系的捕捉能力。
2.本发明在图像分类效果以及相关指标方面差强人意的前提下,其训练时长和模型规模均小于现有的基于ViT的SAR图像分类方法。
3.本发明与基线算法相比,在不过于降低图像分类精度的前提下,保证分类结果可接受的同时,将模型训练时间缩短至基线算法的一半。
附图说明
图1为本发明的流程示意图。
图2为本发明的整体网络结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图1和附图2对本发明的实施例作进一步的详细说明:
一种基于ViT网络的小样本遥感图像分类方法,包括以下步骤:
步骤1:采用用于地标识别和图像恢复实验的数据集(Google Landmarks Datasetv2)作为训练集,并对训练集中的图像数据进行预处理;
步骤1中所述的图像数据的预处理包括以下步骤:
对图像数据的维度进行变换操作,并将进行变换操作后的图像数据进行线性映射,将位置嵌入添加到图像块嵌入中,保留位置信息;嵌入向量的结果序列作为所述Transformers编码器的输入。
具体如下所述:
表1 Google Landmarks Dataset v2数据集划分情况表
训练集 验证集 测试集 总计
图像数目(张) 448,695 124,261 206,209 779,165
将一张尺寸为H×W×C的图像经过reshape操作变换为二维图块,其中H代表图像高度,W代表图像宽度,C代表图像通道数;尺寸为(N×(P2·C)),其中,N代表样本数量(即输入图像数量),P2作为图块大小,一共得到数量为的图块。本发明为提高模型对图像的分类精度,将一张输入图像分为9个图像块,此时,需要将得到的9个图像块进行一维化操作。由于Transformers在所有图层上的恒定隐矢量大小固定,我们需要将这些一维化后的图像块进行线性映射,映射结果与恒定隐矢量相匹配,且将此映射的输出结果称为图像块嵌入。将位置嵌入添加至图像块嵌入中,即将每一个图像块位置信息进行保留。嵌入向量的结果序列用作编码器的输入。
步骤2:将经过预处理的图像数据输入到Transformers编码器中的多模态特征融合机制,并在多模态特征融合中将步骤1中经过预处理的图像数据通过多层感知机进行处理,再将多层感知机处理后的图像数据进行concat操作,concat操作完成后,对图像数据进行一次PCA降维处理,使所有的图像数据的维度保持一致;
所述Transformers编码器由多头自注意机制、多模态特征融合机制以及多层感知机模块的层组成;在每个块之前应用Layernorm,每个块之后应用残差连接;其中多层感知机模块包含具有GELU非线性的两全连接层。
所述多模态特征融合机制将图像嵌入图像块嵌入分别输入到不同的多层感知机中,再对图像块嵌入进行特征融合操作;所述特征融合操作为将下层输入的三个向量特征进行concat操作,再将三个向量通过多层感知机映射成同一个维度相加再还原,得到还原后的三个向量维度。
步骤3:将经过步骤2处理的图像数据送入多头自注意机制处理,得到特征信息;
所述步骤3中将还原后的三个向量维度包含在并行的自注意力层中,每个向量经过多层感知机模块输入到自注意力层,再通过concat操作将三个向量连接在一起,经过最后一层多层感知机模块的网络得到特征信息。
步骤4:基于步骤3中的特征信息得到图像数据的分类结果,输出图像数据的分类结果。
所述分类结果通过在预训练时具有一个隐含层的MLP以及在微调时通过一个线性层的MLP来实现。
本发明基于ViT的小样本SAR图像分类方法将多模态特征融合机制引入到Transformers编码器中,通过将图像特征进行融合,解决了因为数据集小而导致模型获取信息量变少的情况。此外,由于序列模型难以对层次信息进行有效表达,因此将多头注意力机制引入到Transformers编码器中,在可以并行计算的同时,还提高了对长距离依赖关系的捕捉能力。
一种存储介质,用于存储计算机指令,其中计算机指令用于使所述计算机执行上述任意一种所述的方法。
一种电子设备,包括至少一个处理器,以及与至少一个处理器通信连接的存储器;其中,所述存储器中存储有能被至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一种所述的方法。
为帮助本领域的技术人员理解本发明,本实施例的做进一步的说明:
本发明将ViT作为基线模型,首先针对图中的整体网络结构进行说明:
由于传统的Transformers编码器的输入是一维的嵌入,而图像是二维的,因此将输入图像进行reshape操作,具体操作如下:
将图像表示为[n,C,H,W],其中H代表图像高度,W代表图像宽度,C代表图像通道数,n代表样本数量。其经过维度变换后被表示为:
[N×(P2·C)]
其中P2作为图块大小,故而一共得到图块数量为:
经过线性神经网络构造保留一个序列的输入,每一个patch都需要保持与原图对应的编号,保留空间与未知的信息。如下所示,其中,xclass代表可嵌入的补丁序列,E代表在之前设定的图块的二维空间大小[D×(P2·C)],Epos代表有N+1个样本下的恒定隐矢量D相同的维度,代表每一个被有编号的嵌入:
接下来这些被编号的图像块嵌入将输入到Transformers编码器的多模态特征融合机制中,该部分的核心公式表示如下:
Xf=vf{Ti(Xi)} i∈C
其中,Xi是需要进行融合的特征分布,Ti是进行下采样或者上采样操作的方法,使得scale保持一致,φf是对scale一致的特征图进行concat操作或者element-wise sum(按位加)操作,使得特征图scale相同。
之后,需要对其进行多模态特征融合:
inputl-1=MLP(concat(MLP(LayerNorm(i1))+…MLP(LayerNorm(i9))))
经过特征融合处理后,需要利用多头自注意力机制弥补Transformers编码器缺乏全局感知的缺点,公式可以被表示为:
input′l=MSA(LayerNorm(inputl-1))+inputl-1
其中,MSA代表多头自注意,LN代表LayerNorm,即层正则化,inputl-1表示多模态特征融合机制的输出。
经过一层MLP,其中MLP包含了具有GELU非线性的两全连接层:
inputl=MLP(LayerNorm(input′l))+input′l
input′l表示图像块嵌入在处理后的输出,本发明与基线模型的实验结果数据对比如下表2所示:
模型 准确率 模型参数量 训练时长(h)
ViT 96.40% 22855952 106
本发明 92.07% 2617100 56
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (6)

1.一种基于ViT网络的小样本遥感图像分类方法 ,其特征在于,包括以下步骤:
步骤1:采用用于地标识别和图像恢复实验的数据集作为训练集,并对训练集中的图像数据进行预处理;
步骤2:将经过预处理的图像数据输入到Transformers编码器中的多模态特征融合机制,并在多模态特征融合中将步骤1中经过预处理的图像数据通过多层感知机进行处理,再将多层感知机处理后的图像数据进行concat操作,concat操作完成后,对图像数据进行一次PCA降维处理,使所有的图像数据的维度保持一致;
步骤3:将经过步骤2处理的图像数据送入多头自注意机制处理,得到特征信息;
步骤4:基于步骤3中的特征信息得到图像数据的分类结果,输出图像数据的分类结果;
所述多模态特征融合机制将图像嵌入图像块嵌入分别输入到不同的多层感知机中,再对图像块嵌入进行特征融合操作;所述特征融合操作为将下层输入的三个向量特征进行concat操作,再将三个向量通过多层感知机映射成同一个维度相加再还原,得到还原后的三个向量维度;
所述步骤3中将还原后的三个向量维度包含在并行的自注意力层中,每个向量经过多层感知机模块输入到自注意力层,再通过concat操作将三个向量连接在一起,经过最后一层多层感知机模块的网络得到特征信息。
2.根据权利要求1所述的一种基于ViT网络的小样本遥感图像分类方法 ,其特征在于,步骤1中所述的图像数据的预处理包括以下步骤:
对图像数据的维度进行变换操作,并将进行变换操作后的图像数据进行线性映射,将位置嵌入添加到图像块嵌入中,保留位置信息;嵌入向量的结果序列作为所述Transformers编码器的输入。
3.根据权利要求1所述的一种基于ViT网络的小样本遥感图像分类方法,其特征在于,所述Transformers编码器由多头自注意机制、多模态特征融合机制以及多层感知机模块的层组成;在每个多模态特征融合机制和多层感知机模块之前应用Layernorm,之后应用残差连接;其中多层感知机模块包含具有GELU非线性的两全连接层。
4.根据权利要求1所述的一种基于ViT网络的小样本遥感图像分类方法,其特征在于,所述分类结果通过在预训练时具有一个隐含层的MLP以及在微调时通过一个线性层的MLP来实现。
5.一种存储介质,其特征在于,用于存储计算机指令,其中计算机指令用于使所述计算机执行权利要求1到权利要求4任意一项所述的方法。
6.一种电子设备,其特征在于,包括至少一个处理器,以及与至少一个处理器通信连接的存储器;其中,所述存储器中存储有能被至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1到4任意一项所述的方法。
CN202210587274.XA 2022-05-24 2022-05-24 一种基于ViT网络的小样本遥感图像分类方法、介质及设备 Active CN114998653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210587274.XA CN114998653B (zh) 2022-05-24 2022-05-24 一种基于ViT网络的小样本遥感图像分类方法、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210587274.XA CN114998653B (zh) 2022-05-24 2022-05-24 一种基于ViT网络的小样本遥感图像分类方法、介质及设备

Publications (2)

Publication Number Publication Date
CN114998653A CN114998653A (zh) 2022-09-02
CN114998653B true CN114998653B (zh) 2024-04-26

Family

ID=83028942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210587274.XA Active CN114998653B (zh) 2022-05-24 2022-05-24 一种基于ViT网络的小样本遥感图像分类方法、介质及设备

Country Status (1)

Country Link
CN (1) CN114998653B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118506107B (zh) * 2024-07-17 2024-09-27 烟台大学 一种基于多模态多任务学习的机器人分类检测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006011891A1 (en) * 2004-06-25 2006-02-02 The Trustees Of Columbia University In The City Of New York System and methods of automatic view recognition of echocardiogram videos using parts-based representation
CN113344070A (zh) * 2021-06-01 2021-09-03 南京林业大学 一种基于多头自注意力模块的遥感图像分类系统及方法
CN113537243A (zh) * 2021-07-23 2021-10-22 广东工业大学 一种基于se模块和自注意力机制网络的图像分类方法
CN113591692A (zh) * 2021-07-29 2021-11-02 赢识科技(杭州)有限公司 一种多视图身份识别方法
CN113688813A (zh) * 2021-10-27 2021-11-23 长沙理工大学 多尺度特征融合遥感影像分割方法、装置、设备和存储器
CN113780149A (zh) * 2021-09-07 2021-12-10 北京航空航天大学 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN114037899A (zh) * 2021-12-01 2022-02-11 福州大学 基于vit的面向高光谱遥感图像分类径向累加位置编码系统
CN114202696A (zh) * 2021-12-15 2022-03-18 安徽大学 基于上下文视觉的sar目标检测方法、装置和存储介质
CN114240004A (zh) * 2022-02-23 2022-03-25 武汉纺织大学 一种多源信息融合的服装流行趋势预测方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006011891A1 (en) * 2004-06-25 2006-02-02 The Trustees Of Columbia University In The City Of New York System and methods of automatic view recognition of echocardiogram videos using parts-based representation
CN113344070A (zh) * 2021-06-01 2021-09-03 南京林业大学 一种基于多头自注意力模块的遥感图像分类系统及方法
CN113537243A (zh) * 2021-07-23 2021-10-22 广东工业大学 一种基于se模块和自注意力机制网络的图像分类方法
CN113591692A (zh) * 2021-07-29 2021-11-02 赢识科技(杭州)有限公司 一种多视图身份识别方法
CN113780149A (zh) * 2021-09-07 2021-12-10 北京航空航天大学 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN113688813A (zh) * 2021-10-27 2021-11-23 长沙理工大学 多尺度特征融合遥感影像分割方法、装置、设备和存储器
CN114037899A (zh) * 2021-12-01 2022-02-11 福州大学 基于vit的面向高光谱遥感图像分类径向累加位置编码系统
CN114202696A (zh) * 2021-12-15 2022-03-18 安徽大学 基于上下文视觉的sar目标检测方法、装置和存储介质
CN114240004A (zh) * 2022-02-23 2022-03-25 武汉纺织大学 一种多源信息融合的服装流行趋势预测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale;Alexey Dosovitskiy等;《Computer Vision and Pattern Recognition》;20210603;全文 *
Deep Hierarchical Vision Transformer for Hyperspectral and LiDAR Data Classification;Zhixiang Xue等;《IEEE Transactions on Image Processing 》;20220411;全文 *
基于投影寻踪的高光谱图像异常检测并行算法;王维;赵慧洁;董超;;北京航空航天大学学报;20090315(03);全文 *
汪航 ; 陈晓 ; 田晟兆 ; 陈端兵 ; .基于小样本学习的SAR图像识别.计算机科学.2019,(05),全文. *

Also Published As

Publication number Publication date
CN114998653A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
US10963632B2 (en) Method, apparatus, device for table extraction based on a richly formatted document and medium
Komorowski et al. Minkloc++: lidar and monocular image fusion for place recognition
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
CN110263644B (zh) 基于三胞胎网络的遥感图像分类方法、系统、设备及介质
CN112686830B (zh) 基于图像分解的单一深度图的超分辨率方法
CN112651316A (zh) 二维和三维多人姿态估计系统及方法
CN115019182A (zh) 遥感图像目标细粒度识别方法、系统、设备及存储介质
CN115393690A (zh) 一种轻量化神经网络的空对地观测多目标识别方法
CN110245683A (zh) 一种少样本目标识别的残差关系网络构建方法及应用
CN111445388A (zh) 一种图像超分辨重建模型训练方法、船只跟踪方法及装置
CN117496347A (zh) 遥感影像建筑物提取方法、装置及介质
CN114998653B (zh) 一种基于ViT网络的小样本遥感图像分类方法、介质及设备
CN115841596B (zh) 多标签图像分类方法及其模型的训练方法、装置
CN113343981A (zh) 一种视觉特征增强的字符识别方法、装置和设备
CN116740527A (zh) U型网络与自注意力机制结合的遥感图像变化检测方法
CN117315244A (zh) 融合多尺度特征的医学图像分割方法、设备、存储介质
CN113344110A (zh) 一种基于超分辨率重建的模糊图像分类方法
CN111368733A (zh) 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端
CN117935088A (zh) 基于全尺度特征感知和特征重构的无人机图像目标检测方法、系统及存储介质
CN115131803A (zh) 文档字号的识别方法、装置、计算机设备和存储介质
CN114066959A (zh) 基于Transformer的单幅条纹图深度估计方法
CN117892059A (zh) 一种基于多模态图像融合与ResNetXt-50的电能质量扰动识别方法
CN112232102A (zh) 一种基于深度神经网络和多任务学习的建筑物目标识别方法和系统
Zhang et al. Structural similarity preserving GAN for infrared and visible image fusion
CN118552738B (zh) 基于多关系基特征协同和投影融合的多模态语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant