CN111259930B - 自适应注意力指导机制的一般性目标检测方法 - Google Patents

自适应注意力指导机制的一般性目标检测方法 Download PDF

Info

Publication number
CN111259930B
CN111259930B CN202010020371.1A CN202010020371A CN111259930B CN 111259930 B CN111259930 B CN 111259930B CN 202010020371 A CN202010020371 A CN 202010020371A CN 111259930 B CN111259930 B CN 111259930B
Authority
CN
China
Prior art keywords
target
sample
attention
loss function
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010020371.1A
Other languages
English (en)
Other versions
CN111259930A (zh
Inventor
陈苏婷
张良臣
邹戈晨
成泽华
张闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202010020371.1A priority Critical patent/CN111259930B/zh
Priority to PCT/CN2020/092198 priority patent/WO2021139069A1/zh
Publication of CN111259930A publication Critical patent/CN111259930A/zh
Application granted granted Critical
Publication of CN111259930B publication Critical patent/CN111259930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开了一种自适应注意力指导机制的一般性目标检测方法,属于计算机视觉目标检测领域。包括交叉下采样、目标区域识别(SORR)、注意力指导机制的金字塔预测卷积(APPK)和并交比(IoU)自适应损失优化。交叉下采样可保留多尺度特征图中的整体细纹理特征,减少了在图像下采样过程中空间信息的丢失;SORR模块将特征图划分为n×n网格,并得到注意力得分图,提高了目标检测效率;APPK模块可以选择推荐区域来处理预测模块和多尺度目标之间的不匹配问题;IoU自适应损失函数用于处理训练中难样本(Hard example)的问题。该目标检测方法在准确度和检测速度方面都优于现有的一般性目标检测方法。

Description

自适应注意力指导机制的一般性目标检测方法
技术领域
本发明属于计算机视觉目标检测领域,尤其涉及一种自适应注意力指导机制的一般性目标检测方法。
背景技术
随着深度学习的广泛应用,计算机视觉技术得到了迅猛发展。计算机视觉是一门研究如何让机器替代人眼对目标进行识别、跟踪和检测的科学。它是一种对生物视觉的模拟,由计算机代替人类的大脑对图像数据进行相应的分析处理,最终希望计算机可以像人类一样通过“视觉”来观察和认识世界。
目标检测是计算机视觉的主要任务之一,其模型中的预测模块对目标的检测起到了非常重要的作用。现阶段的目标检测器分为两类:一种是二级检测器,需要先提取到感兴趣区域,然后对该区域进行分类;另一种是一级检测器,它将提取感兴趣区域和分类这两个任务融合到一个网络。在检测速度方面,一级检测器通常比二级检测器快,但在精度方面往往会稍逊一筹。
在检测原理方面,这两类检测器都是利用RoI池或3×3预测核从最后的特征图中提取特征进行检测。例如,基于卷积神经网络的主要目标检测器R-CNN是第一个成功将深度学习应用与目标检测上的算法,它是将区域建议的整体特征传输到全连接的预测层。但预测层需要固定输入端,这使得R-CNN特征向量空间的维度数无法改变。为了解决这个问题,提出了生成不依赖于输入图像大小的定长特征向量的空间金字塔池化(SPP)。但提取到的激活量远小于全连接层输入特征向量中元素的原始数量,从而导致SPP对小物体进行目标检测结果是次优的,而且存在权重值无法有效更新的问题。基于R-CNN改进而来的Fast R-CNN虽然采用RoI池化层提高了训练效率,但RoI池化层亦属于SPP的范畴,同样存在R-CNN类似的问题。为了快速检测检测,一级检测器建立在一个具有3×3预测核的全卷积网络上,但预测核的最终特征图的覆盖区域没有与小尺度或大尺度物相匹配,其可能的原因如下:(1)预测核对小物体提取特征时,将相邻对象的特征也提取了出来,从而导致错误的预测结果;(2)预测核对大物体提取特征时,3×3卷积核可能不足以捕获其主要部分,因此可能忽略检测所需的关键特征。
特征金字塔可以起到与图像金字塔相似的作用,具有尺度不变的特点。它将高度的语义特征与带有横向连接沙漏网络的低等级特征图相融合。但因为低分辨率的深度特征被融合到高分辨率的特征图中,特征金字塔并不总能够改善对小目标检测的结果。
发明内容
发明目的:针对以上问题,本发明提出一种自适应注意力指导机制的一般性目标检测方法,解决了在图像含有大目标物体和小目标物体的情况下,如何快速和准确地将它们区分并检测出来的问题,提出了SnipeDet算法。该算法可以更加准确高效地检测出图片中不同尺寸的物体,是全新的一般性目标检测算法。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种自适应注意力指导机制的一般性目标检测方法,即本发明提出的SnipeDet算法,其包括四个部分:交叉下采样、目标区域识别(SORR)、注意力指导机制的金字塔预测卷积(APPK)和并交比(IoU)自适应损失优化;具体实现步骤如下:
步骤一,使用ResNet-101特征提取器作为目标检测模型的基本架构,对其卷积块进行修改,即对其中第N个卷积层的第M个模块的输出端进行交叉下采样操作,基于输入的待检测图像生成k个特征图,将提取出的特征图输入到第N个卷积层之后的网络进行降维和特征精细化;所述交叉下采样是一种特征增强的方法,保留图像整体细节纹理特征,并将它们融合到高语义的特征图中,加强具有代表性的特征;
步骤二,修改特征提取网络ResNet-101的最后一个卷积层作为目标检测模型的目标区域识别(SORR)模块,即从该卷积层输入端的特征图中选取正样本和负样本,根据样本所在特征图,通过卷积神经网络预测得到注意力得分图;
步骤三,将注意力得分图输入目标检测模型的注意力指导金字塔预测模块(APPK),所述预测模块包括T种不同尺寸的卷积核,呈金字塔结构;选择注意力得分图中得分值大于设定阈值的单元所对应的区域作为检测的推荐区域;利用金字塔结构的卷积核对推荐区域进行卷积,并将T种卷积核所得到的预测结果并置,采用非极大值抑制的方法,得到最终的预测结果;
步骤四,使用并交比(IoU)自适应损失函数对目标检测模型进行训练,模型的输入是原始图像,模型的输出是目标所属类别和相应的位置;通过优化所述IoU自适应损失函数可以减小负样本分类错误导致的损失值;使用训练后的目标检测模型检测出输入图像中的各目标所属类别和相应位置。
进一步,所述步骤一,交叉下采样方法具体如下:
首先分别定义两个步长为2的2×2采样器S1、S2及其初始矩阵S0
Figure BDA0002360525870000021
其中Ax,y表示位于(x,y)的采样值,初始位置(x,y)为(0,0);
使用两个采样器分别沿着横向和纵向对输入图像经过第N个卷积层之前的网络提取后的特征图进行迭代采样,交叉下采样中每进行一次滑动采样即生成四个特征图,并且这四个特征图的大小是原特征图的1/4,将采样得到的特征图依次输入到一个1×1和3×3卷积神经网络中进行降维和特征精细化,并通过ReLU的激活函数,输出新的特征图。
进一步,所述步骤二,所述卷积层的输入端为n×n的特征图,即n×n的注意力网格区域,每个单元包含一个激活特征向量,参数n由输入图片的尺寸和卷积层步长数决定,计算注意力网格区域的每个子单元的并交比(IoU)值,将其分类为正样本和负样本,其中正样本为目标物体的IoU值大于或者等于d的单元,负样本为目标物体的IoU值小于d的单元。
进一步,所述注意力网格区域的每个子单元样本分类表示如下:
Figure BDA0002360525870000031
其中
Figure BDA0002360525870000032
为样本分类函数,
Figure BDA0002360525870000033
表示注意力网格区域的第i行j列子单元网格(B表示目标的边界框,g表示网格单元),
Figure BDA0002360525870000034
表示训练过程中数据集中图片的第k个标签(gt为网格单元的真值标签),area()是面积计算函数,d是IoU阈值。
进一步,所述步骤二,使用由两个连续1×1卷积层组成的卷积神经网络预测得到n×n的注意力得分图。
进一步,所述步骤三,预测模块采用1×1、3×3和5×5这三种不同尺寸的卷积核,分别检测图像中的不同尺度目标物体;
三种不同尺寸卷积核分别对应三种基本推荐区域(anchor box)形状,所述基本推荐区域形状包含五种长宽比(aspect ratio):
Figure BDA0002360525870000035
不同尺寸目标的捕获需要使用不同尺寸的卷积核,1×1卷积核用于检测~322像素的目标,3×3卷积核用于检测~962像素的目标,5×5卷积核用于检测~1602像素的目标,不同形状目标的捕获需要使用不同长宽比例的卷积核(根据目标形状使用合适的长宽比)。
在预测模块中,正负样本分类方法定义为:
Figure BDA0002360525870000036
其中
Figure BDA0002360525870000037
为样本分类函数,
Figure BDA0002360525870000038
是以注意力网格为中心的推荐区域,其中(i,j)表示网格区域的坐标,m、n分别表示第m个推荐区域的形状和第n个长宽比,
Figure BDA0002360525870000039
为真值标签,e表示用于样本分类的IoU阈值。
进一步,所述步骤四,使用IoU自适应损失函数训练目标检测模型,所述自适应损失函数定义如下:
Figure BDA00023605258700000310
其中{Pn}为训练样本集合,pos为正样本,neg为负样本,
Figure BDA0002360525870000041
是对多类别的预测,
Figure BDA0002360525870000042
是对背景的预测,当一个注意力网格区域的得分高于预先设定的阈值,则[u≥1]为1,否则[u≥1]为0;权重因子e-IoU用于平衡介于负样本和正样本之间的训练损失函数。
进一步,所述步骤四,对目标检测模型进行训练,方法如下:
训练开始前,采用均值为0、标准差为0.01的高斯分布对目标检测模型的权重进行初始化;
训练的第一阶段,使用MS-COCO数据集对改进的ResNet-101网络进行训练,迭代次数设置为t1次,自动调节改进的ResNet-101网络权重以识别目标区域,并将目标损失函数添加到预测的注意力得分图中;所述目标损失函数定义为:
Figure BDA0002360525870000043
其中{pi,j}是注意力网格区域的预测置信度,
Figure BDA0002360525870000044
是其相对应的标签,λ是一个类平衡超参数,Lobj是一个二分类损失函数,用于预测目标区域和背景;
训练的第二阶段,固定ResNet-101网络的权重,对预测模块的权重进行训练,迭代次数设置为t2次,使用一般性的损失函数:
Figure BDA0002360525870000045
其中[u≥1]是指示函数,训练样本为正样本时其输出为1,否则为0;
Figure BDA0002360525870000046
为softmax分类损失函数,pn为样本类别预测值,
Figure BDA0002360525870000047
为样本类别标签;t0为样本位置预测值,
Figure BDA0002360525870000048
为样本位置标签,
Figure BDA0002360525870000049
为鲁棒的L1位置回归损失函数,其定义为:
Figure BDA00023605258700000410
其中(x,y)表示推荐区域的中心位置,t和w表示边界框的宽度和高度;
使用IoU自适应损失函数来进一步训练预测模块,所述自适应损失函数定义如下:
Figure BDA00023605258700000411
其中
Figure BDA00023605258700000412
是多类预测得分,
Figure BDA00023605258700000413
是关于背景的置信度,当一个注意力网格区域的得分高于预先设定的阈值,则[u≥1]为1,否则[u≥1]就为0;在背景分类前引入权重因子e-IoU来平衡介于负样本和正样本之间的训练损失函数;
在训练的第二阶段迭代完成后,在一般性的损失函数表达式中使用IoU自适应损失函数
Figure BDA00023605258700000414
替代
Figure BDA00023605258700000415
并在一般性的损失函数后面加上目标损失函数Lobj({pi,j}),对目标检测模型进行第三次调参,迭代次数设置为t3次;
目标检测模型最后的损失函数为:
Figure BDA0002360525870000051
有益效果:与现有技术相比,本发明的技术方案具有以下有益的技术效果:
本发明在一般性目标检测领域中,提出了名为“SnipeDet”的金字塔预测卷积核算法,其中包含交叉下采样、SORR、APPK和IoU自适应损失;使用交叉下采样取代了传统下采样方法,保留了特征信息,增强了代表性的特征。SORR模块通过指导性地放弃一些只包含背景信息或包含可忽略目标信息的区域,只筛选出其中的正样本,提高了目标检测器的效率。APPK模块比起其他单尺度预测模块,能够更好地检测出不同大小的物体。若检测器含有大量潜在负样本(0.4<IoU<0.6,这些IoU值容易被误判为正样本),IoU自适应损失函数可以一定程度上改善该检测器的检测准确性。本发明的SnipeDet算法结合了这四方面的优点,在检测效率和速度方面,超越了多目标检测领域的多数算法。
附图说明
图1是自适应注意力指导机制的一般性目标检测方法的流程示意图;
图2是交叉下采样模块的框架示意图;
图3是ResNet-101的conv3_4层输出端进行交叉下采样的细节示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
图1为本发明所提出的自适应注意力指导机制的一般性目标检测方法的流程示意图,其具体可分为交叉下采样、目标区域识别(SORR)、注意力指导机制的金字塔预测卷积(APPK)、IoU自适应损失优化。其具体流程步骤如下:
步骤一,使用ResNet-101特征提取器作为目标检测模型的基本架构,对其卷积块进行修改,即对其中第N个卷积层的第M个模块的输出端进行交叉下采样操作,基于输入的待检测图像生成k个特征图,将提取出的特征图输入到第N个卷积层之后的网络进行降维和特征精细化;所述交叉下采样是一种特征增强的方法,保留图像整体细节纹理特征,并将它们融合到高语义的特征图中,加强具有代表性的特征。
本实施例中,将ResNet-101中第三个卷积层的第四个模块(即conv3_4)的输出端进行交叉下采样操作生成特征图,再把提取出的特征图输入到后面卷积神经网络(即第四个和第五个卷积层)中进行降维和特征精细化。
针对选择区域最大值会丢失大量空间信息和采用3×3卷积层无法传输整体特征的问题,提出了交叉下采样的方法。所述交叉下采样方法的框架如图2所示,具体如下:
首先将用于下采样的特征图表示为
Figure BDA0002360525870000052
分别定义两个步长为2的2×2采样器S1、S2及其初始矩阵S0
Figure BDA0002360525870000053
其中Ax,y表示位于(x,y)的采样值,初始位置(x,y)为(0,0);
使用两个采样器分别沿着横向和纵向对输入图像经过第N个卷积层之前的网络提取后的特征图进行迭代采样,不同于选取区域最大值,交叉下采样中每进行一次滑动采样即生成四个特征图,如图2中的四个级联小方块所示,它们是组成四个不同下采样特征图的重要部分,在图2中这四个不同下采样特征图用不同的灰度进行表示,并且这四个特征图的大小是原特征图的1/4,但并没有丢失任何空间信息,将采样得到的特征图依次输入到一个1×1和3×3卷积神经网络中进行降维和特征精细化,并通过ReLU的激活函数,输出新的特征图。
输出的新特征图定义为
Figure BDA0002360525870000061
图3为改进的ResNet-101的conv3_4层输出端进行交叉下采样的细节示意图。对改进的ResNet-101的conv3_4层输出端进行第一次交叉下采样的操作,然后对下采样后的特征图再进行第二次交叉下采样的操作。经过两次下采样后,生成了两组特征图,第一组是第一次下采样得到的特征图,第二组是第二次下采样得到的特征图。将第一组下采样得到的特征图通过1×1和3×3卷积层加以改善后作为conv4_1;而第二组下采样特征图也同样先通过1×1和3×3卷积层加以改善后,再与conv5_3相级联。交叉下采样保留了多尺度特征图的整体细节纹理特征,并将它们融合到高语义的特征图来增强用于进行准确目标分类和定位的代表性特征。
步骤二,修改特征提取网络ResNet-101的最后一个卷积层(即对第五个卷积层的修改)作为目标检测模型的目标区域识别(SORR)模块,即从该卷积层输入端的特征图中选取正样本和负样本,根据样本所在特征图,通过卷积神经网络预测得到注意力得分图。本实施例中,使用由两个连续1×1卷积层组成的卷积神经网络预测得到n×n的注意力得分图。
所述卷积层的输入端为n×n的特征图,即n×n的注意力网格区域,每个单元包含一个激活特征向量,计算注意力网格区域的每个子单元的并交比(IoU)值,将其分类为正样本和负样本,其中正样本为目标物体的IoU值大于或者等于d的单元,负样本为目标物体的IoU值小于d的单元。本实施例中,d=0.6。
参数n由输入图片的尺寸和卷积层步长数决定,如图1中的SORR模块有7×7的注意力网格区域(即输入图片为224×224的尺寸,卷积网络步长为32)。每个注意力网格区域包含小目标的编码特征或大目标的部分特征,也可能包含一些背景信息,因此SORR模块需要学习明确地将具有目标的正样本选择为推荐区域。
所述注意力网格区域的每个子单元样本分类表示如下:
Figure BDA0002360525870000071
其中
Figure BDA0002360525870000072
为样本分类函数,
Figure BDA0002360525870000073
表示注意力网格区域的第i行j列子单元网格(B表示目标的边界框,g表示网格单元),
Figure BDA0002360525870000074
表示训练过程中数据集中图片的第k个标签(gt为网格单元的真值标签),area()是面积计算函数,d是IoU阈值。
步骤三,将注意力得分图输入目标检测模型的注意力指导金字塔预测模块(APPK),所述预测模块包括T种不同尺寸的卷积核,呈金字塔结构;选择注意力得分图中得分值大于设定阈值的单元所对应的区域作为检测的推荐区域;利用金字塔结构的卷积核对推荐区域进行卷积,并将T种卷积核所得到的预测结果并置,采用非极大值抑制的方法,得到最终的预测结果;
本实施例中,预测模块采用1×1、3×3和5×5这三种不同尺寸的卷积核,分别检测图像中的不同尺度目标物体;
三种不同尺寸卷积核分别对应三种基本推荐区域(anchor box)形状,所述基本推荐区域形状包含五种长宽比(aspect ratio):
Figure BDA0002360525870000075
不同尺寸目标的捕获需要使用不同尺寸的卷积核,1×1卷积核用于检测~322像素的目标,3×3卷积核用于检测~962像素的目标,5×5卷积核用于检测~1602像素的目标,不同形状目标的捕获需要使用不同长宽比例的卷积核(根据目标形状使用合适的长宽比)。
在预测模块中,正负样本分类方法定义为:
Figure BDA0002360525870000076
其中
Figure BDA0002360525870000077
为样本分类函数,
Figure BDA0002360525870000078
是以注意力网格为中心的推荐区域,其中(i,j)表示网格区域的坐标,m、n分别表示第m个推荐区域的形状和第n个长宽比,
Figure BDA0002360525870000079
为真值标签,e表示用于样本分类的IoU阈值。本实施例中,e=0.6。
步骤四,使用并交比(IoU)自适应损失函数对目标检测模型进行训练,模型的输入是原始图像,模型的输出是目标所属类别和相应的位置;通过优化所述IoU自适应损失函数可以减小负样本分类错误导致的损失值;使用训练后的目标检测模型检测出输入图像中的各目标所属类别和相应位置。
所述自适应损失函数定义如下:
Figure BDA00023605258700000710
其中{Pn}为训练样本集合,pos为正样本,neg为负样本,
Figure BDA00023605258700000711
是对多类别的预测,
Figure BDA0002360525870000081
是对背景的预测,当一个注意力网格区域的得分高于预先设定的阈值,则[u≥1]为1,否则[u≥1]为0;权重因子e-IoU用于平衡介于负样本和正样本之间的训练损失函数。
对目标检测模型进行训练,方法如下:
训练开始前,采用均值为0、标准差为0.01的高斯分布对目标检测模型的权重进行初始化;
训练的第一阶段,使用MS-COCO数据集对改进的ResNet-101网络进行训练,迭代次数设置为120k次,自动调节改进的ResNet-101网络权重以识别目标区域,并将目标损失函数添加到预测的注意力得分图中。其目标损失函数定义为:
Figure BDA0002360525870000082
其中{pi,j}是注意力网格区域的预测置信度,
Figure BDA0002360525870000083
是其相对应的标签,λ是一个类平衡超参数(设定为0.5),Lobj是一个二分类损失函数(用于预测目标区域和背景)。
训练的第二阶段,固定ResNet-101网络的权重,对预测模块的权重进行训练,迭代次数设置为60k次,使用一般性的损失函数:
Figure BDA0002360525870000084
其中[u≥1]是指示函数,训练样本为正样本时其输出为1,否则为0;
Figure BDA0002360525870000085
为softmax分类损失函数,pn为样本类别预测值,
Figure BDA0002360525870000086
为样本类别标签;
Figure BDA0002360525870000087
为鲁棒的L1位置回归损失函数,t0为样本位置预测值,
Figure BDA0002360525870000088
为样本位置标签,其定义为:
Figure BDA0002360525870000089
其中(x,y)表示推荐区域的中心位置,t和w表示边界框的宽度和高度。
负样本(0.4<IoU<0.6)的特征和与之对应的正样本有较强的相关性,因此对负样本的检测很容易出错,导致softmax分类损失函数偏大。SORR模块的预处理和预测模块卷积核的金字塔结构使得模型存在很多潜在的负样本。为了减小负样本检测出错对softmax分类损失函数的影响,提出了IoU自适应损失函数来进一步训练预测模块,其自适应损失函数如下所示:
Figure BDA00023605258700000810
其中
Figure BDA00023605258700000811
是多类预测得分,
Figure BDA00023605258700000812
是关于背景的置信度,当一个注意力网格区域的得分高于预先设定的阈值,则[u≥1]为1,否则[u≥1]就为0;在背景分类前引入权重因子e-IoU来平衡介于负样本和正样本之间的训练损失函数。
在训练的第二阶段迭代60k次后,使用IoU自适应损失函数
Figure BDA00023605258700000813
替代
Figure BDA0002360525870000091
并在一般性的损失函数后面加上Lobj({pi,j}),对目标检测模型进行第三次调参,迭代次数为180k次。其最后的损失函数为:
Figure BDA0002360525870000092
本发明的SORR模块忽略了没有目标存在的区域,通过在训练中放置推荐区域来指导APPK模块,求取注意力得分图的均值来指导多尺度卷积核的检测,提高了模型的检测速度。在接下来的多尺度预测卷积核中,SORR模块建立了一种注意机制,在它得到预测置信度后,将推荐区域放置在那些预测置信度大于阈值0.6的注意力网格区域中。如图1所示,在SORR模块的注意力得分图中,灰度值越深的单元代表着其单元的预测置信度越大。

Claims (3)

1.一种自适应注意力指导机制的一般性目标检测方法,其特征在于:该方法包括以下步骤:
步骤一,使用ResNet-101特征提取器作为目标检测模型的基本架构,对其卷积块进行修改,即对其中第N个卷积层的第M个模块的输出端进行交叉下采样操作,基于输入的待检测图像生成k个特征图,将提取出的特征图输入到第N个卷积层之后的网络进行降维和特征精细化;
步骤二,修改特征提取网络ResNet-101的最后一个卷积层作为目标检测模型的目标区域识别模块,即从该卷积层输入端的特征图中选取正样本和负样本,根据样本所在特征图,通过卷积神经网络预测得到注意力得分图;
所述卷积层的输入端为n×n的特征图,即n×n的注意力网格区域,每个单元包含一个激活特征向量,参数n由输入图片的尺寸和卷积层步长数决定,计算注意力网格区域的每个子单元的并交比值,将其分类为正样本和负样本,其中正样本为目标物体的并交比值大于或者等于d的单元,负样本为目标物体的并交比值小于d的单元;
所述注意力网格区域的每个子单元样本分类表示如下:
Figure FDA0004074097680000011
其中
Figure FDA0004074097680000012
为样本分类函数,
Figure FDA0004074097680000013
表示注意力网格区域的第i行j列子单元网格,
Figure FDA0004074097680000014
表示样本图片的第k个真值标签,area()是面积计算函数,d是并交比阈值;
使用由两个连续1×1卷积层组成的卷积神经网络预测得到n×n的注意力得分图;
步骤三,将注意力得分图输入目标检测模型的注意力指导金字塔预测模块,所述预测模块包括T种不同尺寸的卷积核,呈金字塔结构;选择注意力得分图中得分值大于设定阈值的单元所对应的区域作为检测的推荐区域;利用金字塔结构的卷积核对推荐区域进行卷积,并将T种卷积核所得到的预测结果并置,采用非极大值抑制的方法,得到最终的预测结果;
步骤四,使用并交比自适应损失函数对目标检测模型进行训练,模型的输入是原始图像,模型的输出是目标所属类别和相应的位置;使用训练后的目标检测模型检测出输入图像中的各目标所属类别和相应位置;
所述自适应损失函数定义如下:
Figure FDA0004074097680000015
其中{Pn}为训练样本集合,pos为正样本,neg为负样本,
Figure FDA0004074097680000016
是对多类别的预测,
Figure FDA0004074097680000017
是对背景的预测,当一个注意力网格区域的得分高于预先设定的阈值,则[u≥1]为1,否则[u≥1]为0;权重因子e-IoU用于平衡介于负样本和正样本之间的训练损失函数;
对目标检测模型进行训练,方法如下:
训练开始前,采用均值为0、标准差为0.01的高斯分布对目标检测模型的权重进行初始化;
训练的第一阶段,使用MS-COCO数据集对改进的ResNet-101网络进行训练,迭代次数设置为t1次,自动调节改进的ResNet-101网络权重以识别目标区域,并将目标损失函数添加到预测的注意力得分图中;所述目标损失函数定义为:
Figure FDA0004074097680000021
其中{pi,j}是注意力网格区域的预测置信度,
Figure FDA0004074097680000022
是其相对应的标签,λ是一个类平衡超参数,Lobj是一个二分类损失函数,用于预测目标区域和背景;
训练的第二阶段,固定ResNet-101网络的权重,对预测模块的权重进行训练,迭代次数设置为t2次,使用一般性的损失函数:
Figure FDA0004074097680000023
其中[u≥1]是指示函数,训练样本为正样本时其输出为1,否则为0;
Figure FDA0004074097680000024
为softmax分类损失函数,pn为样本类别预测值,
Figure FDA0004074097680000025
为样本类别标签;t0为样本位置预测值,
Figure FDA0004074097680000026
为样本位置标签,
Figure FDA0004074097680000027
为鲁棒的L1位置回归损失函数,其定义为:
Figure FDA0004074097680000028
其中(x,y)表示推荐区域的中心位置,t和w表示边界框的宽度和高度;
使用并交比自适应损失函数来进一步训练预测模块,所述自适应损失函数定义如下:
Figure FDA0004074097680000029
其中
Figure FDA00040740976800000210
是多类预测得分,
Figure FDA00040740976800000211
是关于背景的置信度,当一个注意力网格区域的得分高于预先设定的阈值,则[u≥1]为1,否则[u≥1]就为0;在背景分类前引入权重因子e-IoU来平衡介于负样本和正样本之间的训练损失函数;
在训练的第二阶段迭代完成后,在一般性的损失函数表达式中使用并交比自适应损失函数
Figure FDA00040740976800000212
替代
Figure FDA00040740976800000213
并在一般性的损失函数后面加上目标损失函数Lobj({pi,j}),对目标检测模型进行第三次调参,迭代次数设置为t3次;
目标检测模型最后的损失函数为:
Figure FDA00040740976800000214
2.根据权利要求1所述的一种自适应注意力指导机制的一般性目标检测方法,其特征在于:所述步骤一,交叉下采样方法具体如下:
首先分别定义两个步长为2的2×2采样器S1、S2及其初始矩阵S0
Figure FDA0004074097680000031
其中Ax,y表示位于(x,y)的采样值,初始位置(x,y)为(0,0);
使用两个采样器分别沿着横向和纵向对输入图像经过第N个卷积层之前的网络提取后的特征图进行迭代采样,交叉下采样中每进行一次滑动采样即生成四个特征图,并且这四个特征图的大小是原特征图的1/4,将采样得到的特征图依次输入到一个1×1和3×3卷积神经网络中进行降维和特征精细化,并通过ReLU的激活函数,输出新的特征图。
3.根据权利要求1或2所述的一种自适应注意力指导机制的一般性目标检测方法,其特征在于:所述步骤三,预测模块采用1×1、3×3和5×5这三种不同尺寸的卷积核,分别检测图像中的不同尺度目标物体;三种不同尺寸卷积核分别对应三种基本推荐区域形状,所述基本推荐区域形状包含五种长宽比:
Figure FDA0004074097680000032
不同尺寸目标的捕获使用不同尺寸的卷积核,1×1卷积核用于检测~322像素的目标,3×3卷积核用于检测~962像素的目标,5×5卷积核用于检测~1602像素的目标;不同形状目标的捕获使用不同长宽比例的卷积核;
在注意力指导金字塔预测模块中,正负样本分类方法定义为:
Figure FDA0004074097680000033
其中
Figure FDA0004074097680000034
为样本分类函数,
Figure FDA0004074097680000035
是以注意力网格为中心的推荐区域,其中(i,j)表示网格区域的坐标,m、n分别表示第m个推荐区域的形状和第n个长宽比,
Figure FDA0004074097680000036
为样本图片的第k个真值标签,e表示用于样本分类的IoU阈值。
CN202010020371.1A 2020-01-09 2020-01-09 自适应注意力指导机制的一般性目标检测方法 Active CN111259930B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010020371.1A CN111259930B (zh) 2020-01-09 2020-01-09 自适应注意力指导机制的一般性目标检测方法
PCT/CN2020/092198 WO2021139069A1 (zh) 2020-01-09 2020-05-26 自适应注意力指导机制的一般性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010020371.1A CN111259930B (zh) 2020-01-09 2020-01-09 自适应注意力指导机制的一般性目标检测方法

Publications (2)

Publication Number Publication Date
CN111259930A CN111259930A (zh) 2020-06-09
CN111259930B true CN111259930B (zh) 2023-04-25

Family

ID=70945144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010020371.1A Active CN111259930B (zh) 2020-01-09 2020-01-09 自适应注意力指导机制的一般性目标检测方法

Country Status (2)

Country Link
CN (1) CN111259930B (zh)
WO (1) WO2021139069A1 (zh)

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814726B (zh) * 2020-07-20 2023-09-22 南京工程学院 一种探测机器人视觉目标检测方法
CN112215271B (zh) * 2020-09-27 2023-12-12 武汉理工大学 一种基于多头注意力机制的抗遮挡目标检测方法及设备
CN112085126B (zh) * 2020-09-30 2023-12-12 浙江大学 一种侧重于分类任务的单样本目标检测方法
CN112308150B (zh) * 2020-11-02 2022-04-15 平安科技(深圳)有限公司 目标检测模型训练方法、装置、计算机设备和存储介质
CN112329658B (zh) * 2020-11-10 2024-04-02 江苏科技大学 一种对于yolov3网络的检测算法改进方法
CN112446378B (zh) * 2020-11-30 2022-09-16 展讯通信(上海)有限公司 目标检测方法及装置、存储介质、终端
CN112820320B (zh) * 2020-12-31 2023-10-20 中国科学技术大学 跨模态注意力一致性网络自监督学习方法
CN112863672A (zh) * 2021-03-09 2021-05-28 中电健康云科技有限公司 一种基于pso算法优化的患者身份匹配方法
CN113505651A (zh) * 2021-06-15 2021-10-15 杭州电子科技大学 一种基于卷积神经网络的蚊虫识别方法
CN113450366B (zh) * 2021-07-16 2022-08-30 桂林电子科技大学 基于AdaptGAN的低照度语义分割方法
CN113537105A (zh) * 2021-07-23 2021-10-22 北京经纬恒润科技股份有限公司 一种车位检测方法及装置
CN113569720B (zh) * 2021-07-26 2024-03-08 南京航空航天大学 一种舰船检测方法、系统及装置
CN113592927B (zh) * 2021-07-26 2023-12-15 国网安徽省电力有限公司电力科学研究院 一种结构信息引导的跨域图像几何配准方法
CN113591748A (zh) * 2021-08-06 2021-11-02 广东电网有限责任公司 一种航拍绝缘子目标检测方法及装置
CN113763327B (zh) * 2021-08-10 2023-11-24 上海电力大学 一种基于CBAM-Res_Unet的电厂管道高压蒸汽泄露检测方法
CN113822153A (zh) * 2021-08-11 2021-12-21 桂林电子科技大学 一种基于改进DeepSORT算法的无人机跟踪方法
CN113569981A (zh) * 2021-08-13 2021-10-29 桂林电子科技大学 一种基于单阶段目标检测网络的电力巡检鸟窝检测方法
CN113705583B (zh) * 2021-08-16 2024-03-22 南京莱斯电子设备有限公司 一种基于卷积神经网络模型的目标检测识别方法
CN113658131A (zh) * 2021-08-16 2021-11-16 东华大学 一种基于机器视觉巡游式环锭纺断纱检测方法
CN113805151A (zh) * 2021-08-17 2021-12-17 青岛本原微电子有限公司 基于注意力机制的中重频雷达目标检测方法
CN113792757B (zh) * 2021-08-18 2023-12-08 吉林大学 一种基于多尺度注意力残差网络的波形图分类方法
CN113706544B (zh) * 2021-08-19 2023-08-29 天津师范大学 一种基于完备注意力卷积神经网络的医学图像分割方法
CN113610045B (zh) * 2021-08-20 2023-01-06 大连理工大学 深度特征集成学习的遥感图像目标识别泛化性方法
CN113723482B (zh) * 2021-08-20 2024-04-02 西安电子科技大学 基于多示例孪生网络的高光谱目标检测方法
CN113705654B (zh) * 2021-08-23 2024-04-05 西安交通大学 一种基于ffpn模型的微地震初至智能拾取方法、系统、设备及存储介质
CN114565941A (zh) * 2021-08-24 2022-05-31 商汤国际私人有限公司 纹理生成方法、装置、设备及计算机可读存储介质
CN113808174B (zh) * 2021-08-27 2024-03-26 杭州电子科技大学 基于全卷积网络和卡尔曼滤波的雷达小目标跟踪方法
CN113705478B (zh) * 2021-08-31 2024-02-27 中国林业科学研究院资源信息研究所 一种基于改进YOLOv5的红树林单木目标检测方法
CN113723536B (zh) * 2021-09-02 2024-01-26 国网智能科技股份有限公司 一种电力巡检目标识别方法及系统
CN113822933B (zh) * 2021-09-09 2023-09-29 中北大学 一种基于ResNeXt的智能机器人抓取方法
CN113837039B (zh) * 2021-09-13 2023-10-24 常州大学 一种基于卷积神经网络的果实生长形态视觉辨识方法
CN113780187A (zh) * 2021-09-13 2021-12-10 南京邮电大学 交通标志识别模型训练方法、交通标志识别方法和装置
CN114267082B (zh) * 2021-09-16 2023-08-11 南京邮电大学 基于深度理解的桥侧坠落行为识别方法
CN113762200B (zh) * 2021-09-16 2023-06-30 深圳大学 基于lffd的口罩检测方法
CN113837275B (zh) * 2021-09-24 2023-10-17 南京邮电大学 基于扩张坐标注意力的改进YOLOv3目标检测方法
CN113763381A (zh) * 2021-09-28 2021-12-07 北京工业大学 一种融合图像全局信息的对象检测方法及系统
CN113688800B (zh) * 2021-09-30 2023-07-18 北京航空航天大学 一种显性状态引导的视频行人属性识别方法
CN113688946B (zh) * 2021-10-08 2023-10-24 北京航空航天大学 基于空间关联的多标签图像识别方法
CN113822226A (zh) * 2021-10-15 2021-12-21 江西锦路科技开发有限公司 一种特殊环境下基于深度学习的车道线检测方法
CN113947618B (zh) * 2021-10-20 2023-08-29 哈尔滨工业大学 基于调制器的自适应回归跟踪方法
CN113988164B (zh) * 2021-10-21 2023-08-08 电子科技大学 一种面向代表点自注意力机制的轻量级点云目标检测方法
CN114022705B (zh) * 2021-10-29 2023-08-04 电子科技大学 一种基于场景复杂度预分类的自适应目标检测方法
CN114067359A (zh) * 2021-11-03 2022-02-18 天津理工大学 融合人体关键点与可见部位注意力特征的行人检测方法
CN114005001B (zh) * 2021-11-05 2024-04-09 西安交通大学 一种基于深度学习的x射线图像检测方法及系统
CN114120019B (zh) * 2021-11-08 2024-02-20 贵州大学 一种轻量化的目标检测方法
CN114170150B (zh) * 2021-11-17 2023-12-19 西安交通大学 基于曲率损失函数的视网膜渗出液全自动分割方法
CN114078230B (zh) * 2021-11-19 2023-08-25 西南交通大学 一种自适应特征融合冗余优化的小目标检测方法
CN113822383B (zh) * 2021-11-23 2022-03-15 北京中超伟业信息安全技术股份有限公司 一种基于多域注意力机制的无人机检测方法及系统
CN114140826A (zh) * 2021-12-03 2022-03-04 北京交通大学 一种基于相机特征分离的目标重识别方法
CN114332452B (zh) * 2021-12-13 2023-05-02 南京行者易智能交通科技有限公司 一种针对目标检测或目标分割的图像标注结果的自动检测方法
CN114241191A (zh) * 2021-12-19 2022-03-25 西北工业大学 一种基于跨模态自注意力的无候选框指代表达理解方法
CN114220015A (zh) * 2021-12-21 2022-03-22 一拓通信集团股份有限公司 一种基于改进YOLOv5的卫星图像小目标检测方法
CN114359355B (zh) * 2021-12-24 2023-08-01 上海应用技术大学 遥感图像配准方法
CN114266953A (zh) * 2021-12-24 2022-04-01 福州大学 一种基于深度学习的目标检测流程自优化方法
CN114332839A (zh) * 2021-12-30 2022-04-12 福州大学 一种基于多空间联合感知的街景文本检测方法
CN114332841A (zh) * 2021-12-31 2022-04-12 福州大学 一种基于选择性特征融合金字塔的场景文本检测方法
CN114020881B (zh) * 2022-01-10 2022-05-27 珠海金智维信息科技有限公司 话题定位的方法及系统
CN114581796B (zh) * 2022-01-19 2024-04-02 上海土蜂科技有限公司 目标物跟踪系统、方法及其计算机装置
CN114549413B (zh) * 2022-01-19 2023-02-03 华东师范大学 基于ct图像的多尺度融合全卷积网络淋巴结转移检测方法
CN114429577B (zh) * 2022-01-27 2024-03-08 西安交通大学 一种基于高置信标注策略的旗帜检测方法及系统及设备
CN114120069B (zh) * 2022-01-27 2022-04-12 四川博创汇前沿科技有限公司 基于方向自注意力的车道线检测系统、方法和存储介质
CN114445689A (zh) * 2022-01-29 2022-05-06 福州大学 目标先验信息指导的多尺度加权融合目标检测方法及系统
CN114445482A (zh) * 2022-01-29 2022-05-06 福州大学 基于Libra-RCNN和椭圆形状特征的图像中目标检测方法及系统
CN114612681A (zh) * 2022-01-30 2022-06-10 西北大学 基于gcn的多标签图像分类方法、模型构建方法及装置
CN114549958B (zh) * 2022-02-24 2023-08-04 四川大学 基于上下文信息感知机理的夜间和伪装目标检测方法
CN114240946B (zh) * 2022-02-28 2022-12-02 南京智莲森信息技术有限公司 一种定位器异常检测方法、系统、存储介质及计算设备
CN114898105B (zh) * 2022-03-04 2024-04-19 武汉理工大学 一种复杂场景下的红外目标检测方法
CN114612769B (zh) * 2022-03-14 2023-05-26 电子科技大学 一种融入局部结构信息的集成感知红外成像舰船检测方法
CN114610933B (zh) * 2022-03-17 2024-02-13 西安理工大学 基于零样本域适应的图像分类方法
CN114821519A (zh) * 2022-03-21 2022-07-29 上海应用技术大学 一种基于坐标注意力的交通标志识别方法及系统
CN114677362B (zh) * 2022-04-08 2023-09-12 四川大学 基于改进YOLOv5的表面缺陷检测方法
CN114998195B (zh) * 2022-04-21 2023-06-16 重庆理工大学 基于深度回归网络的猪b超图像脂肪含量检测方法
CN114821318B (zh) * 2022-04-26 2024-03-19 桂林电子科技大学 一种基于Darkdet-Net的低照度小样本目标检测方法
CN114862952B (zh) * 2022-04-27 2024-03-19 江西理工大学 无人机检测与防御方法及系统
CN114743119B (zh) * 2022-04-28 2024-04-09 石家庄铁道大学 基于无人机的高铁接触网吊弦螺母缺陷检测方法
CN114842353B (zh) * 2022-05-06 2024-04-02 自然资源部第一海洋研究所 基于自适应目标方向的神经网络遥感影像目标检测方法
CN114821121B (zh) * 2022-05-09 2023-02-03 盐城工学院 一种基于rgb三分量分组注意力加权融合的图像分类方法
CN114820712B (zh) * 2022-05-16 2024-04-02 太原科技大学 一种自适应目标框优化的无人机跟踪方法
CN115063833A (zh) * 2022-05-16 2022-09-16 国网冀北电力有限公司信息通信分公司 一种基于图像分层视觉的机房人员检测方法
CN114898405B (zh) * 2022-05-27 2023-08-25 南京农业大学 基于边缘计算的便携式肉鸡异常监测系统
CN114998759A (zh) * 2022-05-27 2022-09-02 电子科技大学 一种基于视觉Transformer的高精度SAR舰船检测方法
CN114937021A (zh) * 2022-05-31 2022-08-23 哈尔滨工业大学 一种基于Swin-Transformer的农作物病害细粒度分类方法
CN115049604B (zh) * 2022-06-09 2023-04-07 佛山科学技术学院 一种大幅面板材超高分辨率图像的微小缺陷快速检测方法
CN114972975B (zh) * 2022-06-21 2024-03-08 合肥工业大学 一种基于双输入网络的偏振图像伪装目标检测方法
CN115082698B (zh) * 2022-06-28 2024-04-16 华南理工大学 一种基于多尺度注意力模块的分心驾驶行为检测方法
CN115239946B (zh) * 2022-06-30 2023-04-07 锋睿领创(珠海)科技有限公司 小样本迁移学习训练、目标检测方法、装置、设备和介质
CN115063691B (zh) * 2022-07-04 2024-04-12 西安邮电大学 一种基于特征增强的复杂场景下小目标检测方法
CN115131760B (zh) * 2022-07-17 2024-04-19 西北工业大学 一种基于改进特征匹配策略的轻量级车辆追踪方法
CN115330754B (zh) * 2022-10-10 2022-12-23 楚大智能(武汉)技术研究院有限公司 玻璃瓶口缺陷检测方法、装置、设备及存储介质
CN115497028B (zh) * 2022-10-10 2023-11-07 中国电子科技集团公司信息科学研究院 基于事件驱动的动态隐匿目标检测与识别方法及装置
CN115761453B (zh) * 2022-10-20 2023-08-04 浙江大学 基于特征匹配的轻量化单样本目标检测方法
CN115661692A (zh) * 2022-11-01 2023-01-31 广东兆邦智能科技股份有限公司 一种基于改进CenterNet检测网络的无人机检测方法及系统
CN115690451B (zh) * 2022-11-14 2023-07-21 南京航空航天大学 一种伪装物体和显著物体联合检测方法和系统
CN115496808B (zh) * 2022-11-21 2023-03-24 中山大学中山眼科中心 一种角膜缘定位方法及其系统
CN115797970B (zh) * 2022-11-29 2023-08-18 杭州电子科技大学 基于YOLOv5模型的密集行人目标检测方法及系统
CN115972198B (zh) * 2022-12-05 2023-10-10 无锡宇辉信息技术有限公司 一种非完全信息条件下的机械臂视觉抓取方法与装置
CN115953622B (zh) * 2022-12-07 2024-01-30 广东省新黄埔中医药联合创新研究院 一种结合注意力互斥正则的图像分类方法
CN115578392B (zh) * 2022-12-09 2023-03-03 深圳智能思创科技有限公司 线条检测方法、装置及存储介质
CN115601605B (zh) * 2022-12-13 2023-04-07 齐鲁空天信息研究院 地物分类方法、装置、设备、介质及计算机程序产品
CN116188774B (zh) * 2022-12-13 2024-03-22 湖南大学 高光谱图像实例分割方法及建筑实例分割方法
CN116051943B (zh) * 2022-12-20 2023-06-23 中国科学院空天信息创新研究院 跨模态知识引导的小样本神经网络目标检测方法
CN116012879A (zh) * 2022-12-27 2023-04-25 武汉科技大学 改进YOLOv4网络的行人检测方法、系统、设备及介质
CN115661673A (zh) * 2022-12-28 2023-01-31 中国电子科技集团公司第十四研究所 一种基于YOLOv4和注意力机制的图像目标检测方法
CN116205895B (zh) * 2023-03-16 2024-04-02 四川轻化工大学 一种基于改进YOLOv5的变压器漏油检测方法
CN116052026B (zh) * 2023-03-28 2023-06-09 石家庄铁道大学 一种无人机航拍图像目标检测方法、系统及存储介质
CN116563615B (zh) * 2023-04-21 2023-11-07 南京讯思雅信息科技有限公司 基于改进多尺度注意力机制的不良图片分类方法
CN116665095B (zh) * 2023-05-18 2023-12-22 中国科学院空间应用工程与技术中心 一种运动舰船检测方法、系统、存储介质和电子设备
CN116778300B (zh) * 2023-06-25 2023-12-05 北京数美时代科技有限公司 一种基于知识蒸馏的小目标检测方法、系统和存储介质
CN116503957B (zh) * 2023-06-26 2023-09-15 成都千嘉科技股份有限公司 一种燃气入户作业行为识别方法
CN116524420B (zh) * 2023-07-03 2023-09-12 武汉大学 一种交通场景下的关键目标检测方法及系统
CN116543146B (zh) * 2023-07-06 2023-09-26 贵州大学 一种基于窗口自注意与多尺度机制的图像密集描述方法
CN116883862B (zh) * 2023-07-19 2024-02-23 北京理工大学 一种光学遥感图像多尺度目标检测方法及装置
CN116935221B (zh) * 2023-07-21 2024-02-13 山东省计算中心(国家超级计算济南中心) 一种基于物联网的植保无人机杂草深度学习检测方法
CN116884015A (zh) * 2023-07-24 2023-10-13 人民网股份有限公司 标志检测方法、装置、计算设备及存储介质
CN116645523B (zh) * 2023-07-24 2023-12-01 江西蓝瑞存储科技有限公司 一种基于改进RetinaNet的快速目标检测方法
CN116681885B (zh) * 2023-08-03 2024-01-02 国网安徽省电力有限公司超高压分公司 输变电设备红外图像目标识别方法及系统
CN116824272B (zh) * 2023-08-10 2024-02-13 湖北工业大学 基于旋转特征的特征增强目标检测方法
CN116778293B (zh) * 2023-08-24 2023-12-22 齐鲁工业大学(山东省科学院) 一种基于掩膜的图像融合方法
CN117349512B (zh) * 2023-09-04 2024-03-12 广州兴趣岛信息科技有限公司 一种基于大数据的用户标签分类方法及系统
CN116935069B (zh) * 2023-09-15 2023-11-21 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 基于改进注意力机制的人机不同步检测方法、装置和介质
CN116958774B (zh) * 2023-09-21 2023-12-01 北京航空航天大学合肥创新研究院 一种基于自适应空间特征融合的目标检测方法
CN117237830B (zh) * 2023-11-10 2024-02-20 湖南工程学院 基于动态自适应通道注意力的无人机小目标检测方法
CN117556147B (zh) * 2024-01-11 2024-04-12 中国传媒大学 电商数据分类推荐系统、方法
CN117593516B (zh) * 2024-01-18 2024-03-22 苏州元脑智能科技有限公司 一种目标检测方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651915B (zh) * 2016-12-23 2019-08-09 大连理工大学 基于卷积神经网络的多尺度表达的目标跟踪方法
CN109102502B (zh) * 2018-08-03 2021-07-23 西北工业大学 基于三维卷积神经网络的肺结节检测方法
CN109360206B (zh) * 2018-09-08 2021-11-12 华中农业大学 基于深度学习的大田稻穗分割方法
CN110287806A (zh) * 2019-05-30 2019-09-27 华南师范大学 一种基于改进ssd网络的交通标志识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《中国图象图形学报》2019年第24卷总目次;《中国图象图形学报》(第12期);全文 *
Study Of Object Detection Based On Faster R-CNN;BIN LIU et al.;《IEEE》;全文 *
一种基于注意力机制RetinaNet的小目标检测方法;庞立新等;《制导与引信》(第04期);全文 *
结合注意力机制的深度学习图像目标检测;孙萍等;《计算机工程与应用》;全文 *

Also Published As

Publication number Publication date
WO2021139069A1 (zh) 2021-07-15
CN111259930A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111259930B (zh) 自适应注意力指导机制的一般性目标检测方法
CN110276316B (zh) 一种基于深度学习的人体关键点检测方法
CN110135267B (zh) 一种大场景sar图像细微目标检测方法
CN110414377B (zh) 一种基于尺度注意力网络的遥感图像场景分类方法
CN107506761B (zh) 基于显著性学习卷积神经网络的脑部图像分割方法及系统
CN107609525B (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN110033473B (zh) 基于模板匹配和深度分类网络的运动目标跟踪方法
CN113705526B (zh) 一种高光谱遥感影像分类方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN106980858A (zh) 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN112232371B (zh) 一种基于YOLOv3与文本识别的美式车牌识别方法
CN112541532B (zh) 基于密集连接结构的目标检测方法
CN110647802A (zh) 基于深度学习的遥感影像舰船目标检测方法
CN113034495B (zh) 一种脊柱影像分割方法、介质及电子设备
CN108932455B (zh) 遥感图像场景识别方法及装置
CN113344045B (zh) 一种结合hog特征提高sar船只分类精度的方法
CN114241422A (zh) 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法
CN115222946B (zh) 一种单阶段实例图像分割方法、装置以及计算机设备
CN116206185A (zh) 一种基于改进YOLOv7的轻量级小目标检测方法
CN112926652A (zh) 一种基于深度学习的鱼类细粒度图像识别方法
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质
CN117079132A (zh) 基于高斯距离损失的遥感图像目标检测方法
CN116342894B (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN111967399A (zh) 一种基于改进的Faster RCNN行为识别方法
CN110490049A (zh) 基于多特征和svm区分人体平衡障碍的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant