CN116189139A - 一种基于Transformer的交通标志检测方法 - Google Patents

一种基于Transformer的交通标志检测方法 Download PDF

Info

Publication number
CN116189139A
CN116189139A CN202211637313.9A CN202211637313A CN116189139A CN 116189139 A CN116189139 A CN 116189139A CN 202211637313 A CN202211637313 A CN 202211637313A CN 116189139 A CN116189139 A CN 116189139A
Authority
CN
China
Prior art keywords
feature
traffic sign
transformer
scale
sign detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211637313.9A
Other languages
English (en)
Inventor
易智
张学旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211637313.9A priority Critical patent/CN116189139A/zh
Publication of CN116189139A publication Critical patent/CN116189139A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

本发明涉及一种基于Transformer的交通标志检测方法,属于图像处理领域,S1:准备预训练数据集,划分为训练集和测试集;S2:构建基于Transformer的交通标志检测模型,包括信息增强模块:对输入图像进行信息增强,输出特征图A1,A2,A3,A4;Muti‑Scale Transformer模块:对特征图A1,A2,A3,A4进行特征提取与多尺度特征融合,输出特征图B;目标检测模块:融合特征图B,生成特征图F,并对特征图F中交通标志的类别和位置进行检测;S3:训练并测试模型,利用收敛的模型对待检测图像进行目标检测,本发明提升了交通标志中小目标检测的性能。

Description

一种基于Transformer的交通标志检测方法
技术领域
本发明属于图像处理领域,涉及一种基于Transformer的交通标志检测方法。
背景技术
目标检测是计算机视觉领域最基础且最重要的任务之一,其通常利用深度神经网络对视觉数据进行特征提取和建模,并预测目标物体的对应位置和类别。当前的深度学习方法试图解决作为分类问题或回归问题或综合两者的目标检测任务。
Transformer网络最早被提出并用于自然语言处理(NLP,Natural LanguageProcessing)的各个场景和任务,并取得了极大的成功。近年来,Transformer也开始被广泛用于图像分类、语义分割、目标检测等各个视觉任务中,并取得了很好的效果,一定程度上超越了卷积神经网络(CNN,Convolutional Neural Networks)。其中,自注意力(self-attention)机制是Transformer网络的核心组件,其通过度量特征与特征之间的响应并根据响应值重组特征,从而自动化建立特征间的关系。现有基于传统FPN技术的检测方法通常直接通过对特征进行插值并相加来实现跨尺度特征的融合,其对具有不同尺度物体的建模能力仍然有限。
发明内容
有鉴于此,本发明的目的在于提供一种基于Transformer的交通标志检测方法,能够提高小目标检测的性能。
为达到上述目的,本发明提供如下技术方案:
一种基于Transformer的交通标志检测方法,包括以下步骤:
S1:准备预训练数据集,划分为训练集和测试集;
S2:构建基于Transformer的交通标志检测模型,包括信息增强模块、Muti-ScaleTransformer模块、目标检测模块;所述信息增强模块用于对输入图像进行信息增强,输出特征图A1,A2,A3,A4;所述Muti-Scale Transformer模块用于对特征图A1,A2,A3,A4进行特征提取与多尺度特征融合,输出特征图B;所述目标检测模块用于融合特征图B,生成特征图F,并对特征图F中交通标志的类别和位置进行检测;
S3:利用训练集和测试集对所述基于Transformer的交通标志检测模型进行训练和测试,利用收敛的基于Transformer的交通标志检测模型对待检测图像进行目标检测。
进一步,所述步骤S1中,获取公开的交通标志图像数据集TT-100K;再选择TT-100K数据集中的N张图像,100<N<1000,经归一化处理,得到大小统一的图像,作为训练样本集S。
进一步,所述信息增强模块包含三个分支,具体包括:
分支一:通过全局平均池化操作将原有特征转化为一维特征,从而获得单个通道的全局信息,再使用1×1的卷积调整通道数并融合全局信息;
分支二:使用3×3的卷积融合特征图的局部信息;
分支三:使用特征金字塔网络,融合三种不同尺度特征;
最后将三个分支输出的特征相加融合得到增强特征。
进一步,所述分支三中所述特征金字塔网络,分别使用5×5,3×3,1×1的卷积融合三种特征。
进一步,所述Muti-Scale Transformer模块用于对特征图A1,A2,A3,A4进行特征提取与多尺度特征融合,输出特征图B,其实现步骤如下:
首先,对于输入的4个特征图F1,F2,F3,F4,使用位置编码(Position Embeding)与层级位置编码(Level Position Embeding)进行处理,位置编码与Transformer中使用的位置编码相同,用于学习参考点在单个特征图中的位置信息;层级位置编码使用于不同尺度的特征图中,在不同特征图中找到单个参考点的相对位置,实现不同尺度参考点的对齐;对层级位置编码进行归一化,将层级位置编码在特征图的位置进行限制,其公式如下:
lvl_pos_embed=pos_embed+level_embed
其中,pos_embed表示单层位置嵌入,level_embed表示层间相对嵌入,lvl_pos_embed表示层级位置嵌入;
然后,对于第n个层次的特征fn,经过线性层将其映射到查询Query,键Key和值Value三个空间,得到三个空间的权值矩阵Q,K,V,将得到的三个权值矩阵进行自注意力计算,得到每个尺度的attention向量,最后将不同尺度计算得到的attention向量求和平均,得到跨尺度的attention向量,其公式如下:
Figure BDA0004002718360000021
其中,Wm表示每个注意力头的权重,a表示利用Q和K计算的相似度,L代表多尺度特征的层级数,I表示序列长度,i和j分别代表不同Q和K的下标值,MSAttn表示参考点x的attention向量。
进一步,所述目标检测模块将Muti-Scale Transformer模块输出的特征图输入RPN网络进行处理,RPN网络通过锚框和边界回归生成候选框,并得到初步的候选区域;然后通过ROIPooling层归一化候选区域,并使用全连接层和softmax分类器,确定候选特征图是否为交通信号标志,并给出相应的概率,实现交通标志检测。
本发明的有益效果在于:
本发明充分利用分支网络建立全局信息和局部信息之间的信息流动来学习子区域间的相关性并突出包含目标的区域。本发明充分利用了多尺度特征图与Transformer之间的联系,针对Transformer对小目标检测能力不高的缺陷,通过融合不同尺度特征图并且使用高效的自注意力机制,改善了小目标检测的能力。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述的一种基于Transformer的交通标志检测网络模型的结构简化图;
图2为本发明所述的信息增强模块的结构图;
图3为本发明所述的Muti-Scale Transformer模块结构图;
图4为本发明所述的目标检测模块的结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图4,本实施例提供一种基于Transformer的交通标志检测方法,该方法的具体流程如图1所示,该方法包括:
步骤S1、获取数据集,再划分为训练集和测试集;
具体的说,在该步骤S1中,获取的交通标志图像数据集是公开的数据集TT-100K;
再选择TT-100K数据集中的N张图像,100<N<1000,经行归一化处理,将图像大小统一,即高×宽为h×w,作为训练样本集S;
步骤S2、构建一个基于Transformer的交通标志检测模型,该网络模型包括:信息增强模块、Muti-Scale Transformer模块、目标检测模块;该网络模型的训练过程包括以下步骤:
S2-1:所述信息增强模块对输入图像进行信息增强,输出特征图A1,A2,A3,A4;
S2-2:所述Muti-Scale Transformer模块对特征图A1,A2,A3,A4进行特征提取与多尺度特征融合,输出特征图B;
S2-3:所述目标检测模块融合特征图B,生成特征图F,并对特征图F中交通标志的类别和位置进行检测。
具体的说,在本实施例中,该步骤S2包括:
上述的Transformer目标检测模型,其网络结构如图1,其包括:信息增强模块、Muti-Scale Transformer模块、目标检测模块。
上述的信息增强模块,其网络结构如图2,包含三个分支,分支一先进行全局平均池化操作将原有特征转化为一维特征,从而获得单个通道的全局信息,在使用1×1的卷积调整通道数并融合全局信息;分支二使用3×3的卷积融合特征图的局部信息;分支三使用了一个特征金字塔网络,融合三种不同尺度特征,分别使用5×5,3×3,1×1的卷积。将三个分支输出的特征相加融合得到增强特征。
上述的所述Muti-Scale Transformer模块,其网络结构如图3,通过以下步骤实现:
对于输入的4个特征图F1,F2,F3,F4,使用位置编码(Position Embeding)与层级位置编码(Level Position Embeding),位置编码与Transformer中使用的位置编码相同,用于学习参考点在单个特征图中的位置信息;层级位置编码使用于不同尺度的特征图中,在不同特征图中找到单个参考点的相对位置,实现不同尺度参考点的对齐。同时,对层级位置编码进行归一化,将层级位置编码在特征图的位置进行限制。其公式如下:
lvl_pos_embed=pos_embed+level_embed
第n个层次的特征fn,经过线性层将其映射到查询Query,键Key和值Value三个空间,得到三个空间的权值矩阵Q,K,V,将得到的三个权值矩阵进行自注意力计算,得到每个尺度的attention向量,最后将不同尺度计算得到的attention向量求和平均,得到跨尺度的attention向量。其公式如下:
Figure BDA0004002718360000051
其中,Wm表示每个注意力头的权重,a表示利用Q和K计算的相似度,L代表多尺度特征的层级数,I表示序列长度,i和j分别代表不同Q和K的下标值,MSAttn表示参考点x的attention向量。
具体的说,在本实施例中,上述的目标检测模块,其网络结构如图4,将Muti-ScaleTransformer模块输出的特征图输入RPN网络进行处理,RPN网络通过锚框和边界回归生成候选框,并得到初步的候选区域。然后通过ROIPooling层归一化候选区域,并使用全连接层和softmax分类器,确定候选特征图是否为交通信号标志,并给出相应的概率,实现精准的交通标志检测。
步骤S3、通过步骤S1中得到的训练集对步骤S2中构建的交通标志检测模型进行训练,进而得到收敛的网络模型,将步骤S1所述待检测图像输入到网络模型中,得到目标检测的结果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于Transformer的交通标志检测方法,其特征在于:包括以下步骤:
S1:准备预训练数据集,划分为训练集和测试集;
S2:构建基于Transformer的交通标志检测模型,包括信息增强模块、Muti-ScaleTransformer模块、目标检测模块;所述信息增强模块用于对输入图像进行信息增强,输出特征图A1,A2,A3,A4;所述Muti-Scale Transformer模块用于对特征图A1,A2,A3,A4进行特征提取与多尺度特征融合,输出特征图B;所述目标检测模块用于融合特征图B,生成特征图F,并对特征图F中交通标志的类别和位置进行检测;
S3:利用训练集和测试集对所述基于Transformer的交通标志检测模型进行训练和测试,利用收敛的基于Transformer的交通标志检测模型对待检测图像进行目标检测。
2.根据权利要求1所述的基于Transformer的交通标志检测方法,其特征在于:所述步骤S1中,获取公开的交通标志图像数据集TT-100K;再选择TT-100K数据集中的N张图像,100<N<1000,经归一化处理,得到大小统一的图像,作为训练样本集S。
3.根据权利要求1所述的基于Transformer的交通标志检测方法,其特征在于:所述信息增强模块包含三个分支,具体包括:
分支一:通过全局平均池化操作将原有特征转化为一维特征,从而获得单个通道的全局信息,再使用1×1的卷积调整通道数并融合全局信息;
分支二:使用3×3的卷积融合特征图的局部信息;
分支三:使用特征金字塔网络,融合三种不同尺度特征;
最后将三个分支输出的特征相加融合得到增强特征。
4.根据权利要求3所述的基于Transformer的交通标志检测方法,其特征在于:所述分支三中所述特征金字塔网络,分别使用5×5,3×3,1×1的卷积融合三种特征。
5.根据权利要求1所述的基于Transformer的交通标志检测方法,其特征在于:所述Muti-Scale Transformer模块用于对特征图A1,A2,A3,A4进行特征提取与多尺度特征融合,输出特征图B,其实现步骤如下:
首先,对于输入的4个特征图F1,F2,F3,F4,使用位置编码与层级位置编码进行处理,位置编码与Transformer中使用的位置编码相同,用于学习参考点在单个特征图中的位置信息;层级位置编码使用于不同尺度的特征图中,在不同特征图中找到单个参考点的相对位置,实现不同尺度参考点的对齐;对层级位置编码进行归一化,将层级位置编码在特征图的位置进行限制,其公式如下:
lvl_pos_embed=pos_embed+level_embed
其中,pos_embed表示单层位置嵌入,level_embed表示层间相对嵌入,lvl_pos_embed表示层级位置嵌入;
然后,对于第n个层次的特征fn,经过线性层将其映射到查询Query,键Key和值Value三个空间,得到三个空间的权值矩阵Q,K,V,将得到的三个权值矩阵进行自注意力计算,得到每个尺度的attention向量,最后将不同尺度计算得到的attention向量求和平均,得到跨尺度的attention向量,其公式如下:
Figure FDA0004002718350000021
其中,Wm表示每个注意力头的权重,a表示利用Q和K计算的相似度,L代表多尺度特征的层级数,I表示序列长度,i和j分别代表不同Q和K的下标值,MSAttn表示参考点x的attention向量。
6.根据权利要求1所述的基于Transformer的交通标志检测方法,其特征在于:所述目标检测模块将Muti-Scale Transformer模块输出的特征图输入RPN网络进行处理,RPN网络通过锚框和边界回归生成候选框,并得到初步的候选区域;然后通过ROIPooling层归一化候选区域,并使用全连接层和softmax分类器,确定候选特征图是否为交通信号标志,并给出相应的概率,实现交通标志检测。
CN202211637313.9A 2022-12-16 2022-12-16 一种基于Transformer的交通标志检测方法 Pending CN116189139A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211637313.9A CN116189139A (zh) 2022-12-16 2022-12-16 一种基于Transformer的交通标志检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211637313.9A CN116189139A (zh) 2022-12-16 2022-12-16 一种基于Transformer的交通标志检测方法

Publications (1)

Publication Number Publication Date
CN116189139A true CN116189139A (zh) 2023-05-30

Family

ID=86431754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211637313.9A Pending CN116189139A (zh) 2022-12-16 2022-12-16 一种基于Transformer的交通标志检测方法

Country Status (1)

Country Link
CN (1) CN116189139A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958739A (zh) * 2023-06-25 2023-10-27 南京矩视科技有限公司 一种基于注意力机制的碳纤维丝道实时动态编号方法
CN117274957A (zh) * 2023-11-23 2023-12-22 西南交通大学 一种基于深度学习的道路交通标志检测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958739A (zh) * 2023-06-25 2023-10-27 南京矩视科技有限公司 一种基于注意力机制的碳纤维丝道实时动态编号方法
CN117274957A (zh) * 2023-11-23 2023-12-22 西南交通大学 一种基于深度学习的道路交通标志检测方法及系统
CN117274957B (zh) * 2023-11-23 2024-03-01 西南交通大学 一种基于深度学习的道路交通标志检测方法及系统

Similar Documents

Publication Publication Date Title
Yang et al. Pipeline magnetic flux leakage image detection algorithm based on multiscale SSD network
CN116189139A (zh) 一种基于Transformer的交通标志检测方法
CN110853057B (zh) 基于全局和多尺度全卷积网络的航拍图像分割方法
CN112634369A (zh) 空间与或图模型生成方法、装置、电子设备和存储介质
CN103714148B (zh) 基于稀疏编码分类的sar图像检索方法
CN114998566B (zh) 一种可解释的多尺度红外弱小目标检测网络设计方法
CN111428511B (zh) 一种事件检测方法和装置
CN111310770A (zh) 目标检测方法和装置
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN112634368A (zh) 场景目标的空间与或图模型生成方法、装置及电子设备
CN114266881A (zh) 一种基于改进型语义分割网络的指针式仪表自动读数方法
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
CN114926693A (zh) 基于加权距离的sar图像小样本识别方法及装置
CN118314353B (zh) 一种基于双分支多尺度特征融合的遥感图像分割方法
CN114549909A (zh) 一种基于自适应阈值的伪标签遥感图像场景分类方法
CN115631397A (zh) 一种基于双模态图像的目标检测方法及装置
CN116452805A (zh) 一种基于Transformer的跨模态融合网络的RGB-D语义分割方法
CN111539456A (zh) 一种目标识别方法及设备
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
CN114529552A (zh) 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法
CN114332288A (zh) 基于短语驱动生成对抗网络的文本生成图像的方法及网络
CN112418207B (zh) 一种基于自注意力蒸馏的弱监督文字检测方法
CN111488927B (zh) 分类阈值确定方法、装置、电子设备及存储介质
CN117058716A (zh) 基于图像预融合的跨域行为识别方法及装置
CN114998749B (zh) 用于目标检测的sar数据扩增方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination