CN116434039A - 一种基于多尺度拆分注意力机制的目标检测方法 - Google Patents

一种基于多尺度拆分注意力机制的目标检测方法 Download PDF

Info

Publication number
CN116434039A
CN116434039A CN202310685594.3A CN202310685594A CN116434039A CN 116434039 A CN116434039 A CN 116434039A CN 202310685594 A CN202310685594 A CN 202310685594A CN 116434039 A CN116434039 A CN 116434039A
Authority
CN
China
Prior art keywords
feature map
channel
information
original
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310685594.3A
Other languages
English (en)
Other versions
CN116434039B (zh
Inventor
李忠涛
刘圣勇
李涛
杨贵霞
赵光龙
郭庆北
张玉璘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN202310685594.3A priority Critical patent/CN116434039B/zh
Publication of CN116434039A publication Critical patent/CN116434039A/zh
Application granted granted Critical
Publication of CN116434039B publication Critical patent/CN116434039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种基于多尺度拆分注意力机制的目标检测方法,涉及视觉技术领域。用于实现多尺度注意力融合和增强,提升目标检测的准确性。所述方法包括:获取多个通道数相同的输入尺度,对每个尺度进行拆分注意力操作,进行特征增强,同时获取每个尺度单独的通道特征信息,融合得到全局通道特征信息,然后经过注意力提取获取全局通道注意力,然后分别增强单个尺度输出的增强特征信息,使得单个输出尺度不仅包含自身的增强特征信息,更包含其他相关联特征尺度的特征信息,从而达到多尺度信息融和增强的效果。

Description

一种基于多尺度拆分注意力机制的目标检测方法
技术领域
本发明涉及视觉技术领域,尤其涉及一种基于多尺度拆分注意力机制的目标检测方法。
背景技术
近年来,注意力机制在深度卷积神经网络中的应用获得了广泛关注,并展示出巨大的潜力来增强网络性能。针对视觉任务,目前存在多种注意力机制,包括通道注意力和空间注意力,以及它们的组合形式。其中一些代表性的方法包括压缩激励网络(SENet)及其变体、通道空间注意力模块(CBAM)、拆分注意力模块(SA)、有效的通道注意力网络(ECANet)等。SENet主要关注学习通道注意力,但在仅基于通道注意力进行目标检测时,准确性较低。SA虽然在学习通道注意力时采用了拆分思想,但在多尺度应用场景中无法有效地交互多个尺度的语义信息,导致目标检测的准确性不高。因此,当前的研究对于进一步提升目标检测准确性,需要探索更有效的注意力机制,以便在多尺度场景下能够更好地捕捉关键的语义信息。
发明内容
本申请实施例提供了一种基于多尺度拆分注意力机制的目标检测方法,用于提升目标检测的准确性。
第一方面,提供一种基于多尺度拆分注意力机制的目标检测方法,所述方法包括:
S1、获取第一原始特征图、第二原始特征图和第三原始特征图,三个原始特征图通道数相同;
S2、设置翻倍系数,将第一原始特征图进行卷积,得到通道数量为第一原始特征图通道数乘翻倍系数的第一扩张特征图,将第一扩张特征图按通道分组,得到第一扩张特征图分组,分组数为翻倍系数,分组内所有特征图维度和第一原始特征图相同,将分组内所有特征图进行相加,得到第一中间特征图,第一中间特征图维度和第一原始特征图相同,将第一中间特征图进行平均池化得到第一通道特征信息,构建第一权重生成层,结构从前往后依次为全连接层、激活函数、全连接层、激活函数,将第一通道特征信息输入第一权重生成层,得到第一通道注意力信息,其通道数量为第一原始特征图通道数乘翻倍系数,将第一通道注意力信息按通道分组,得到第一通道注意力信息分组,分组数为翻倍系数,分组内所有通道注意力信息的通道数和第一原始特征图相同,将第一扩张特征图分组和第一通道注意力信息分组按先后顺序相乘,得到第一扩张特征图优化分组,将第一扩张特征图优化分组内所有特征图相加,得到第一输出特征图,其维度和第一原始特征图相同;
S3、根据S2所述相同的输入输出操作方式,输入第二原始特征图和第三原始特征图,得到第二通道特征信息、第三通道特征信息、第二输出特征图、第三输出特征图;
S4、将第一通道特征信息、第二通道特征信息和第三通道特征信息相加,得到全局通道特征信息,其通道数和单个原始特征图通道数相同,构建全局权重生成层,结构从前往后依次为全连接层、激活函数一、全连接层、激活函数二,将全局通道特征信息输入全局权重生成层,得到全局通道注意力信息,通道数为原始特征图通道数乘以原始特征图数量,将全局通道注意力信息按原始特征图数量进行分组,即分成三组,依次和第一输出特征图、第二输出特征图、第三输出特征图相乘,得到第一最终输出特征图、第二最终输出特征图、第三最终输出特征图;
S5基于所述输出特征图进行目标检测。
可选的,S2和S4所述激活函数,其特征在于,激活函数一和激活函数二为非线性函数,用于增强输出特征信息的非线性表达能力。
在本申请实施例中,输入的多个尺度的特征图一般来源于几个途径,例如特征金字塔(FPN)的输出、对单个特征图进行不同大小卷积核的卷积,这些输入特征图带有相同的通道数,不同的高度和宽度,先将多尺度的特征图进行拆分注意力的增强,然后将每个尺度内的通道语义信息进行相加得到全局通道语义信息,通过利用全局通道语义信息增强每个尺度的通道语义信息,使得输出特征图不仅利用了自身特征图的通道语义信息,也利用了其他输入特征图的通道语义信息,实现多个尺度注意力的融合和增强,从而有效提升目标检测的准确性。
附图说明
图1为本申请实施例提供的一种SE模块结构图;
图2为本申请实施例提供的ResNeSt中一种Split-Attention模块结构图;
图3为本申请实施例提供的一种基于多尺度拆分注意力机制的目标检测方法的流程图;
图4为本申请实施例提供的一种基于多尺度拆分注意力模块结构图;
图5为本申请实施例提供的一种基于多尺度拆分注意力模块维度变换示例图。
具体实施方式
在介绍本申请实施例之前,首先对目前应用在视觉任务的注意力机制的学习过程进行简单的介绍,以SENet和Split-Attention为例:
请参见图1所示,SENet(Squeeze-and-Excitation Networks)是一种用于增强深度卷积神经网络性能的注意力机制模型。SENet的核心思想是通过学习通道间的相互关系,自适应地调整每个通道的重要性,从而提升模型在特征表示方面的表达能力。其过程主要为,将输入特征X进行平均池化,把每个通道的特征图转换为一个数值,然后将各个通道数值信息作为输入,首先通过一个全连接层1将输入进行降维,然后经过ReLU激活函数进行非线性变换,再经过一个全连接层2和Sigmod激活函数将通道数恢复到原始维度,最后和输入特征X相乘得到输出特征X。这个过程可以看作是一种通道间的自适应权重学习,用于调整每个通道的激活值。
请参见图2所示,Split-Attention是ResNeSt(Residual Networks with Split-Attention)中的注意力机制,它旨在改善深度卷积神经网络的特征表示能力。Split-Attention通过将通道特征分成若干组,并在每组内进行注意力计算,来增强特征的表达能力。首先将输入特征X进行卷积,并按翻倍系数2在通道方向分成2个子特征组,每个子特征组包含一部分通道特征。然后在每个子特征组内计算注意力权重。每个组内的计算注意力权重和SENet计算通道注意力权重相似,都是将特征进行平均池化,通过一个全连接层1将输入进行降维,然后经过ReLU激活函数进行非线性变换,再经过一个全连接层2和Sigmod激活函数将通道数恢复到原始维度,得到每个子特征组通道的注意力权重,最后和每个子特征组相乘再相加得到输出特征X。
下面结合说明书附图对本申请实施例提供的基于多尺度拆分注意力机制的目标检测方法进行介绍。图2、图4、图5中出现的
Figure SMS_1
和/>
Figure SMS_2
依次表示矩阵相加和相乘操作。
请参见图3所示,本申请实施例中的基于多尺度拆分注意力机制的目标检测方法的流程描述如下:
步骤301:取第一原始特征图、第二原始特征图和第三原始特征图;
在本申请实施例中,获取经过卷积网络和FPN结构输出的第一原始特征图
Figure SMS_3
、第二原始特征图/>
Figure SMS_4
和第三原始特征图
Figure SMS_5
,三个原始特征图有相同的通道数和成比例的宽高。
步骤302:将第一原始特征图进行卷积,进行分组并相加,得到第一中间特征图;
按照
Figure SMS_7
的计算过程,/>
Figure SMS_8
表示标准卷积操纵,将输入
Figure SMS_9
转换为/>
Figure SMS_10
,其中/>
Figure SMS_11
,N为翻倍系数,本实例N均设置为2,用来将特征图进行扩张,并进行分组得到第—扩张特征图分组
Figure SMS_12
、/>
Figure SMS_13
,然后将分组内特征相加,得到第一中间特征图
Figure SMS_6
步骤303:将第一中间特征图进行平均池化得到第一通道特征信息;
平均池化公式为
Figure SMS_14
,其中
Figure SMS_15
是特征图X1通过维度H×W挤压获得的第一通道特征信息,AV指的是平均池化。
步骤304:将第一通道特征信息通过全连接层和激活函数,得到第一通道注意力信息;
输入第一通道特征信息Z1,使用公式
Figure SMS_16
,/>
Figure SMS_17
指Sigmod函数,/>
Figure SMS_18
指的是ReLU函数,/>
Figure SMS_19
,/>
Figure SMS_20
,由于设置的翻倍系数N为2,因此/>
Figure SMS_21
步骤305:将第一通道注意力信息按通道分组;
按通道分组,分组数为翻倍系数N,即分2组,得到
Figure SMS_22
Figure SMS_23
步骤306:将第—扩张特征图分组和第一通道注意力信息分组按先后顺序相乘并相加;
按照先后顺序相乘并相加得到
Figure SMS_24
,其中
Figure SMS_25
步骤307:得到第一输出特征图;
得到第一输出特征图为
Figure SMS_26
步骤308:按照上述方式分别得到第二通道特征信息、第三通道特征信息、第二输出特征图、第三输出特征图;
按照上述方式得到第二通道特征信息
Figure SMS_27
、第三通道特征信息
Figure SMS_28
、第二输出特征图/>
Figure SMS_29
、第三输出特征图
Figure SMS_30
步骤309:将第一通道特征信息、第二通道特征信息和第三通道特征信息相加,得到全局通道特征信息
相加得到的全局通道特征信息为
Figure SMS_31
,其中
Figure SMS_32
步骤310:将全局通道特征信息通过全连接层和激活函数,得到全局通道注意力信息;
输入全局通道特征信息
Figure SMS_33
,使用公式/>
Figure SMS_34
Figure SMS_35
指Sigmod函数,/>
Figure SMS_36
指的是ReLU函数,/>
Figure SMS_37
Figure SMS_38
,由于输入的原始特征图数量为3,因此
Figure SMS_39
步骤311:将全局通道注意力信息按原始特征图数量进行分组,依次和第一输出特征
图、第二输出特征图、第三输出特征图相乘;
分组得到
Figure SMS_40
、/>
Figure SMS_41
、/>
Figure SMS_42
,分别和/>
Figure SMS_43
、/>
Figure SMS_44
、/>
Figure SMS_45
相乘。
步骤312:得到第一最终输出特征图、第二最终输出特征图、第三最终输出特征图;
最终得到第一最终输出特征图
Figure SMS_46
、第二最终输出特征图/>
Figure SMS_47
、第三最终输出特征图/>
Figure SMS_48
,其中/>
Figure SMS_49
、/>
Figure SMS_50
、/>
Figure SMS_51
步骤313:基于所述输出特征图进行目标检测。
请参见图4所示,本申请实施例中的基于改进注意力机制的目标检测模块结构为:输入特征X1、输入特征X2、输入特征X3会经过卷积、特征分组、平均池化、全连接层1、ReLu激活函数、全连接层2、Sigmod激活函数,得到输出特征X1、输出特征X2、输出特征X3,同时输入特征X1、输入特征X2、输入特征X3的通道特征信息通过平均池化提取出来并相加,然后经过全连接层1、ReLu激活函数、全连接层2、Sigmod激活函数,得到全局通道注意力信息,分成三组后分别和输出特征X1、输出特征X2、输出特征X3相乘,最终得到最终输出特征图X1、最终输出特征图X2、最终输出特征图X3。
请参见图5所示,展示了本申请实施例中的基于改进注意力机制的目标检测模块的特征输入维度变化:输入原始特征图个数为3,翻倍系数设置为2,三个原始特征图输入通道数相同,宽高依次按比例下降。以输入特征图1000×500×256为例,特征图高度1000,宽度500,经过卷积后,特征图通道数按照翻倍系数2变为512,然后分为2组并相加,得到1000×500×256,然后经过平均池化获得通道特征信息1×1×256,并通过一个全连接层1将输入进行降维,然后经过ReLU激活函数进行非线性变换,最后再经过一个全连接层2和Sigmod激活函数恢复到1×1×512,然后按照翻倍系数分为2组,每组维度为1×1×256,然后和上述分为2组的的1000×500×256进行相乘并相加,得到输出特征图1000×500×256;输入特征图500×250×256、250×125×256的进行的操作和输入特征图1000×500×256进行的操作相同,然后分别得到输出特征图500×250×256和输出特征图250×125×256;然后将三个输入特征图得到的通道特征信息相加得到全局通道特征信息,并通过一个全连接层1将输入进行降维得到1×1×16,然后经过ReLU激活函数进行非线性变换,最后再经过一个全连接层2和Sigmod激活函数恢复到1×1×768,并分为三组,按顺序和三个输出特征图相乘,得到三个最终输出特征图1000×500×256、500×250×256、250×125×256。
在具体的实施过程中,如图4所示,通过对通道注意力模块和拆分注意力模块进行改进,将原本输入单个尺度特征图变为输入多个尺度特征图,从而实现多尺度特征的融合和增强,使得目标检测网络基于目标特征图能够更加准确高效的学习到重要特征信息,抑制冗余信息,这种模块结构不改变输入特征图的维度,从而能够轻易的插入网络中去,尤其是特征金字塔的后面,也能够灵活的集成在主网络的各卷积块之间。

Claims (3)

1.一种基于多尺度拆分注意力机制的目标检测方法,其特征在于,所述方法包括:
S1、获取第一原始特征图、第二原始特征图和第三原始特征图;
S2、输入第一原始特征图,设置翻倍系数,将第一原始特征图进行卷积,得到第一扩张特征图,将第一扩张特征图按通道分组,得到第一扩张特征图分组,分组数为翻倍系数,将分组内所有特征图进行相加,得到第一中间特征图,将第一中间特征图进行平均池化得到第一通道特征信息,构建第一权重生成层,结构从前往后依次为全连接层、激活函数、全连接层、激活函数,将第一通道特征信息输入第一权重生成层,得到第一通道注意力信息,将第一通道注意力信息按通道分组,得到第一通道注意力信息分组,分组数为翻倍系数,将第一扩张特征图分组和第一通道注意力信息分组按先后顺序相乘,得到第一扩张特征图优化分组,将第一扩张特征图优化分组内所有特征图相加,输出第一输出特征图;
S3、按照S2输入输出操作方式,输入第二原始特征图和第三原始特征图,得到第二通道特征信息、第三通道特征信息、第二输出特征图、第三输出特征图;
S4、将第一通道特征信息、第二通道特征信息和第三通道特征信息相加,得到全局通道特征信息,构建全局权重生成层,结构从前往后依次为全连接层、激活函数一、全连接层、激活函数二,将全局通道特征信息输入全局权重生成层,得到全局通道注意力信息,将全局通道注意力信息按原始特征图数量进行分组,即分成三组,依次和第一输出特征图、第二输出特征图、第三输出特征图相乘,得到第一最终输出特征图、第二最终输出特征图、第三最终输出特征图;
S5、基于所有的最终输出特征图进行目标检测。
2.如权利要求1所述的方法,其特征在于,S2和S4中的激活函数一和激活函数二为非线性函数,用于增强输出特征信息的非线性表达能力。
3.如权利要求1所述的方法,其特征在于,S1中三个原始特征图通道数相同,S2中第一扩张特征图通道数量为第一原始特征图通道数乘翻倍系数,S2中第一扩张特征图分组内所有特征图维度和第一原始特征图相同,S2中第一中间特征图维度和第一原始特征图相同,S2中第一通道注意力信息的通道数量为第一原始特征图通道数乘翻倍系数,S2中第一通道注意力信息分组内所有通道注意力信息的通道数和第一原始特征图相同,S2中第一输出特征图的维度和第一原始特征图相同,S4中全局通道特征信息的通道数和单个原始特征图通道数相同,S4中全局通道注意力信息的通道数为原始特征图通道数乘以原始特征图数量。
CN202310685594.3A 2023-06-12 2023-06-12 一种基于多尺度拆分注意力机制的目标检测方法 Active CN116434039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310685594.3A CN116434039B (zh) 2023-06-12 2023-06-12 一种基于多尺度拆分注意力机制的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310685594.3A CN116434039B (zh) 2023-06-12 2023-06-12 一种基于多尺度拆分注意力机制的目标检测方法

Publications (2)

Publication Number Publication Date
CN116434039A true CN116434039A (zh) 2023-07-14
CN116434039B CN116434039B (zh) 2023-10-13

Family

ID=87081817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310685594.3A Active CN116434039B (zh) 2023-06-12 2023-06-12 一种基于多尺度拆分注意力机制的目标检测方法

Country Status (1)

Country Link
CN (1) CN116434039B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935167A (zh) * 2023-09-12 2023-10-24 深圳须弥云图空间科技有限公司 目标追踪模型的训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612017A (zh) * 2020-07-07 2020-09-01 中国人民解放军国防科技大学 一种基于信息增强的目标检测方法
US20210390338A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Deep network lung texture recogniton method combined with multi-scale attention
CN114612791A (zh) * 2022-05-11 2022-06-10 西南民族大学 一种基于改进注意力机制的目标检测方法及装置
CN115713632A (zh) * 2022-12-06 2023-02-24 航天科工深圳(集团)有限公司 一种基于多尺度注意力机制的特征提取方法及装置
WO2023098000A1 (zh) * 2021-11-30 2023-06-08 上海商汤智能科技有限公司 图像处理、缺陷检测方法及装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210390338A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Deep network lung texture recogniton method combined with multi-scale attention
CN111612017A (zh) * 2020-07-07 2020-09-01 中国人民解放军国防科技大学 一种基于信息增强的目标检测方法
WO2023098000A1 (zh) * 2021-11-30 2023-06-08 上海商汤智能科技有限公司 图像处理、缺陷检测方法及装置、电子设备和存储介质
CN114612791A (zh) * 2022-05-11 2022-06-10 西南民族大学 一种基于改进注意力机制的目标检测方法及装置
CN115713632A (zh) * 2022-12-06 2023-02-24 航天科工深圳(集团)有限公司 一种基于多尺度注意力机制的特征提取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张海涛;张梦;: "引入通道注意力机制的SSD目标检测算法", 计算机工程, no. 08 *
麻森权;周克;: "基于注意力机制和特征融合改进的小目标检测算法", 计算机应用与软件, no. 05 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935167A (zh) * 2023-09-12 2023-10-24 深圳须弥云图空间科技有限公司 目标追踪模型的训练方法及装置
CN116935167B (zh) * 2023-09-12 2024-05-10 深圳须弥云图空间科技有限公司 目标追踪模型的训练方法及装置

Also Published As

Publication number Publication date
CN116434039B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN110232394B (zh) 一种多尺度图像语义分割方法
CN108376387B (zh) 基于聚合膨胀卷积网络的图像去模糊方法
CN112750082B (zh) 基于融合注意力机制的人脸超分辨率方法及系统
CN111161150A (zh) 一种基于多尺度注意级联网络的图像超分辨率重建方法
CN112634276A (zh) 一种基于多尺度视觉特征提取的轻量级语义分割方法
CN111340814A (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN108764317A (zh) 一种基于多路特征加权的残差卷积神经网络图像分类方法
CN112132844A (zh) 基于轻量级的递归式非局部自注意力的图像分割方法
CN116434039B (zh) 一种基于多尺度拆分注意力机制的目标检测方法
CN109034198B (zh) 基于特征图恢复的场景分割方法和系统
CN112435191A (zh) 一种基于多个神经网络结构融合的低照度图像增强方法
CN110930306A (zh) 一种基于非局部感知的深度图超分辨率重建网络构建方法
CN113240683A (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN115545166A (zh) 一种改进的ConvNeXt卷积神经网络及其遥感图像的分类方法
CN113449612A (zh) 一种基于子流型稀疏卷积的三维目标点云识别的方法
CN116486074A (zh) 一种基于局部和全局上下文信息编码的医学图像分割方法
CN113538402B (zh) 一种基于密度估计的人群计数方法及系统
CN110264483B (zh) 一种基于深度学习的语义图像分割方法
CN111882053B (zh) 一种基于拼接卷积的神经网络模型压缩方法
CN116612288B (zh) 一种多尺度轻量级实时语义分割方法、系统
CN112102388A (zh) 基于巡检机器人单目图像获取深度图像的方法及装置
CN111402140A (zh) 单张图像超分辨率重建系统及方法
CN115660984A (zh) 一种图像高清还原方法、装置及存储介质
CN113240589A (zh) 一种多尺度特征融合的图像去雾方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant