CN114202672A - 一种基于注意力机制的小目标检测方法 - Google Patents

一种基于注意力机制的小目标检测方法 Download PDF

Info

Publication number
CN114202672A
CN114202672A CN202111504006.9A CN202111504006A CN114202672A CN 114202672 A CN114202672 A CN 114202672A CN 202111504006 A CN202111504006 A CN 202111504006A CN 114202672 A CN114202672 A CN 114202672A
Authority
CN
China
Prior art keywords
network
feature
module
small target
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111504006.9A
Other languages
English (en)
Inventor
李军
刘杰强
李臣岳
张书恒
张礼轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202111504006.9A priority Critical patent/CN114202672A/zh
Publication of CN114202672A publication Critical patent/CN114202672A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明公开了一种基于注意力机制的小目标检测方法,该方法使用改进型Resnet网络作为特征提取网络,将Resnet网络的Bottle Net网络架构分解成多个均匀的分支结构,从而降低超参数的量并得到更好的效果;并引入空间、通道注意力并对多层间的信息进行融合,使用改进的FPN进行多尺度预测,使得模型不仅能检测出小目标,还能对中、大型目标进行检测;每个检测输出对每个类别预测一个条件概率值,直接从图片获得预测结果,从而获得目标信息;并将三个尺度的特征图传递至检测头中进行联合训练。本发明使用深度神经网络进行检测,根据不同的应用场景获取不同数据集用于训练,能够使用多种不同的领域,并保持较高的检测准确率。

Description

一种基于注意力机制的小目标检测方法
技术领域
本发明属于生物特征认证技术领域,涉及一种基于注意力机制的小目标检测方法。
背景技术
目标检测也是计算机视觉四大基本任务中的一个,有着十分广阔的应用前景。目标检测技术在军事和民用领域都有着的极大的应用价值,如在机场、火车站、港口、无人机对地侦测等重要场合下,以及视频监控、人脸识别、智能交通等方面都有应用,并且取得了不错的效果,同时也为图像分析、理解和行为识别等任务提供技术基础。但是该技术还不是完美的,存在着一些难以解决的问题,如小目标难以检测的问题。这个问题在日常生活中普遍存在,如监控视频中的比较小的车辆和行人、自动驾驶中需要远距离识别行人和车辆、卫星图中的众多小目标等。小目标通常是由于场景中待检测目标距离摄像头较远或者实际物理尺寸较小从而导致目标在图片中的像素占比少。因此,在目标检测过程中,由于不同尺寸目标其特征表征能力的不同,从而导致多尺度特征学习困难,最终造成小尺寸目标检测精度较低甚至产生大量漏检的现象。目前对于这些小目标的检测效果完全不能应用到日常生活和工业生产中,还需要极大的提升才能够得到应用。正是基于这样的发展背景,对于小尺寸目标的检测一直是目标检测任务中一个极具挑战且重要的分支。
小目标检测技术是在给定的图像上判断是否有小目标,并且要标注出小目标的位置,一般使用矩形框进行标注,小目标的检测在自动驾驶、医学检测、工业生产、卫星遥感以及刑侦等领域中都有着广泛且重要的应用。在自动驾驶领域,汽车常常通过摄像头等装置采集到的高分辨率场景照片,但是由于距离等原因,照片中的行人目标或交通标志不可能会很大。但这些小目标的准确检测却深刻影响着安全自动驾驶的实现;而在医学领域,医学图像中微小肿块的成功检测是早期准确诊断肿瘤的重要前提;工业生产中的缺陷检测能够检测以及定位材料表面上的小缺陷从而尽快发现问题,这也体现了小目标检测的优点;卫星遥感图像中需要有效地注释诸如汽车,船和房屋之类的目标,但是由于距离的原因这些目标常常表现为小目标,这也急需小目标检测的方法来检测这种目标;而在刑侦图像中,异常的小包裹、小行人、车里面的小挂件、衣服上的小标志、室内的一些小摆设等都是破案的关键线索。此外还有很多的应用场景,因此小目标检测有很大的价值。
由于小目标对象在图像中所占像素很少,可用的信息不多。小目标检测的难点在于以下三方面:一是小目标所占像素少,在深度神经网络中经过多次卷积、池化操作后,检测器提取的特征较少,甚至小目标对象可能就成为一个像素点,无法进行检测。二是小目标因为小在检测过程中,会被附近其他目标遮挡、或者重叠,以至于难以与其他的目标进行分割,并实现小目标的定位和分类。三是现有的基于锚框的目标检测方法中的锚框的大小和宽高比都是基于中、大型目标进行设置,使得小目标在整个学习过程被忽视,以及一般目标检测中的感受野对小目标不是很友好,小目标特征的感受野映射回原图将可能大于小目标在原图的尺寸,造成检测效果差。
传统的目标检测方法主要由区域选择、特征提取和分类器设计组成。首先是在图像上选择候选区域,可以有多个且大小不一的候选框,然后对每一个候选区域做特征提取,将提取到的特征放入分类器中进行类别判断和回归处理,得到最终的检测结果。该方法常常使用人工选择的特征,如Haar特征、HOG特征以及积分图特征等,但是在不同的检测任务中需要选择不同的特征,使其在通用性、鲁棒性以及可移植性等方面难以满足要求。
随着深度学习技术的发展,深度学习方法被应用于目标检测,2014年Girshick、Donahue等人首次将深度学习引入到目标检测并提出R-CNN网络,只有又出现的Fast R-CNN、Faster R-CNN等被称为二阶段法的技术,这些技术大大提高了目标检测的精度,但是由于使用二阶段法,其速度不是很好,因而有了如YOLO v1、YOLO v2、YOLO v3、YOLO v4、SSD、DSSD等单阶段的技术,虽然这些技术在检测精度上可能略逊于两阶段法,但是其在检测速度上是优于两阶段法。然而,这些方法局限于都是为了中、大型的目标进行设计的,虽然能检测小目标,但是检测效果不是很理想。有学者提出FPN网络,在不同的尺度上对目标进行检测,从而实现对小目标的检测,小目标的检测性能得到了很大的提升。但是FPN网络仅仅简单的将骨干网络得到的特征图与去自顶向下上采样得到特征图进行简单的叠加得到新的特征图,特征图中的空间信息和通道信息并没有完全得到利用。
发明内容
本发明的目的在于提供一种检测精度较高、鲁棒性好的基于注意力机制的小目标检测方法。
本发明的原理为:通过COCO、PASCAL VOC等数据集以及自己标注的图像来构建数据集,然后将些数据集划分出训练集、测试集和验证集;然后构建预处理网络,对其输入的图像进行预处理,然后构建特征提取网络、特征融合网络以及小目标回归网络,并对网络进行初始化处理,然后利用训练集、测试集以及验证集的数据对网络进行训练,获得最优的网络参数;然后使用训练好的网络来处理输入的图像,回归得到小目标的位置边框。
实现本发明目的的技术解决方案为:一种基于注意力机制的小目标检测方法,该方法具体包括以下步骤:
步骤1、使用目标检测数据集以及自己标注图像数据相结合的方法,构建小目标检测数据集,对数据集中的图像进行预处理,然后按照设定比例划分为训练集、测试集以及验证集;
步骤2、构建卷积神经网络的网络结构,包括特征提取网络、特征融合网络以及小目标预测网络,并对参数进行初始化;使用改进型Resnet网络作为特征提取网络,将Resnet网络的Bottle Net网络架构分解成多个均匀的分支结构;特征融合网络采用一种基于通道和空间注意力的模块即CBAM模块,将CBAM模块嵌入到特征金字塔网络FPN中进行多尺度预测,对多层间的信息进行融合;
步骤3、将训练集中的训练样本输入到初始化的卷积神经网络中,根据网络传播流程计算出各部分损失,并根据损失来调整各个参数,从而得到最佳的网络参数;然后在测试集合中进行测试,以及在验证集合中进行验证,最终得到训练好的神经网络模型;
步骤4、利用训练好的深度卷积神经网络模型检测图像中的小目标,得到小目标检测框、分类以及置信度信息并在图像中标注出来。
本发明与现有技术相比,其显著优点为:(1)利用深度学习构建的小目标检测方法的检测精度较高,对实际检测环境的变化不敏感,鲁棒性较好,能够应用在实际的生产环境中;(2)由于在网络使用多尺度的检测方法,整个网络不仅能对小目标进行检测,还能对中、大型目标进行检测,而且检测速度以及检测精度都能够很好的满足工程中的检测要求。
附图说明
图1为本发明具体实施流程图。
图2为ResNet残差模块和改进的ResNet模块示意图。
图3为双线性插值示意图。
图4为通道、空间注意力模块示意图。
图5为通道注意力模块示意图。
图6为空间注意力模块示意图。
图7为添加注意力机制的FPN模块示意图。
图8为训练流程图。
具体实施方式
本发明一种基于注意力机制的小目标检测方法,该方法具体包括以下步骤:
步骤1、使用目标检测数据集以及自己标注图像数据相结合的方法,构建小目标检测数据集,对数据集中的图像进行预处理,然后按照设定比例划分为训练集、测试集以及验证集;
步骤2、构建卷积神经网络的网络结构,包括特征提取网络、特征融合网络以及小目标预测网络,并对参数进行初始化;使用改进型Resnet网络作为特征提取网络,将Resnet网络的Bottle Net网络架构分解成多个均匀的分支结构;特征融合网络采用一种基于通道和空间注意力的模块即CBAM模块,将CBAM模块嵌入到特征金字塔网络FPN中进行多尺度预测,对多层间的信息进行融合;
步骤3、将训练集中的训练样本输入到初始化的卷积神经网络中,根据网络传播流程计算出各部分损失,并根据损失来调整各个参数,从而得到最佳的网络参数;然后在测试集合中进行测试,以及在验证集合中进行验证,最终得到训练好的神经网络模型;
步骤4、利用训练好的深度卷积神经网络模型检测图像中的小目标,得到小目标检测框、分类以及置信度信息并在图像中标注出来。
进一步地,所述步骤1,具体包括以下步骤:
(1.1)获取目标检测图像,构建小目标检测数据集。虽然现今没有专门用于通用小目标检测的数据集,但是COCO数据集中有大量的小目标对象,可以收集这些图像数据来构建小目标检测数据集。
(1.2)对小目标数据集进行预处理。由于采集到的自然场景下的图像数据和数据集中的图像数据与预期样本存在很大差别,存在宽高不满足输入要求,所以对步骤一中采集获取的数据进行处理,主要包括放缩、填充处理和归一化等;小目标检测训练中,网络需要的输入图像的为512*512,我们的数据集尺寸大部分图像都不是符合网络输入的,因而需要对尺寸进行修改这种方法就是简单的对图片尺寸进行等比例缩放,然后使用0进行填充,从而得到512*512的输入图像。
预处理方法中的归一化处理就是将图像数据格式转换为统一的图像数据格式,以及采用归一化公式
Figure BDA0003402700980000051
对图像样本中的每一个像素点进行归一化。
(1.3)在划分训练集、测试集和验证集的时候需要根据数据集的大小来通过不同的方式来进行划分,如果当数据量不是很大的时候(万级别以下)的时候将训练集、验证集以及测试集划分为3:1:1;若是数据很大,可以将训练集、验证集、测试集的比例调整为98:1:1;但是当可用的数据很少的情况下可以使用一些例如K折交叉验证的方法来进行训练和验证等。
进一步地,所述步骤2,构建特征提取网络、特征融合网络以及小目标回归网络;具体包括以下子步骤:
(2.1)构建特征提取网络,该特征提取网络可以对输入图像的深、浅层语义特征低进行提取。
(2.2)构建特征融合网络,将特征提取网络获得的深层语义信息进行上采样然后和浅层的细节信息进行融合,获得最终的特征图。
(2.3)构建小目标预测网络,小目标预测网络分为两部分,一是回归任务模块,该回归任务模块用于对目标框进行定位,另一个是分类模块,用于对目标框的进行目标分类。根据特征融合网络得到的特征图作为输入,小目标检测网络通过这些特征来获得最终的结果。
进一步地,所述子步骤(2.1),具体包括:
构建特征提取网络:特征提取网络使用的改进的Resnet网络,整个特征提取网络由多个残差模块构成,普通残差模块的前向传播公式如下:
y=F(x,w)+x (1)
其中x,y分别为输入和输出,F(x,w)为一般神经网络前向传播公式,w为传播相关参数。
将Resnet网络的BottleNet网络架构分解成多个均匀的分支结构,参考深度可分离卷积,并利用分组卷积,通过变量基数来控制组的数量,即每个分支产生的特征图的通道数为n,n>1。
则其前向传播公式为:
Figure BDA0003402700980000052
其中x,y分别为输入和输出,F(x,wi)为各个分支的神经网络前向传播公式,wi为各个分支传播相关参数,也就是网络中需要训练的参数。
方法中涉及到卷积和池化操作。卷积操作的目的是提取图像的特征。根据不同的卷积核、不同的计算方式,会得到不同的特征提取图。而池化层夹在连续的卷积层中间,用于压缩数据和参数的量,减小过拟合。简而言之,如果输入是图像的话,那么池化层的最主要作用就是压缩图像。具有特征不变性以及特征降维,从而将冗余信息去除,把最重要的特征抽取出来,此外池化操作能在一定程度上防止过拟合,更方便优化。
特征提取网络还包括卷积模块和池化模块:卷积模块的目的是提取图像的特征,根据不同的卷积核、不同的计算方式,得到不同的特征提取图;池化模块夹在连续的卷积模块中间,用于压缩数据和参数的量;
将上述的卷积模块、池化模块以及改进残差模块,按照表1格式构建特征提取网络,其中conv1、conv2_x、conv3_x、conv4_x、conv5_x分别表示五个由多个卷积层组成的模块,max pooling表示最大值池化,stride为池化步长;
表1
Figure BDA0003402700980000061
如表1所示,特征提取网络共有49层卷积神经网络层,还有一层最大池化层。
进一步地,所述子步骤(2.2),包括:
构建特征融合网络:在深度卷积网络中浅层网络提取的特征具有较深层网络提取的特征的分辨率高、表征能力强,但是其包含的语义信息却很少,而深层网络的特征虽然分辨率低,但是其特征图包含丰富的语义信息。单独使用浅层网络特征图或者深层网络特征图都无法得到满意的结果,因此需要一种特征融合的方法融合浅层网络以及深层网络的特征,从而结合两类网络的优点来得到满意的小目标检测效果。
①在特征融合的过程中需要使用上采样的方法来实现,发明中使用的上采样方法是双线性插值的方法。其示意图如附图3所示。双线性插值就是做两次线性变换,先在X轴上做一次线性变换,求出每一行的R点:
Figure BDA0003402700980000071
再通过一次线性变换求出在该区域中的P点:
Figure BDA0003402700980000072
其中(x,y)表示待插入位置,P11,P12,P21,P22分别是双线性插值法中待插入位置4个角点,其坐标分别为(x1,y1),(x1,y2),(x2,y1),(x2,y2),f(·)表示·处的像素值,T1为P11与P21的中点,T2为P11与P22的中点。
②在进行特征图融合时,为了充分利用到不同的通道和空间的信息,发明中采用一种基于通道和空间注意力的模块(CBAM),CBAM模块结构如图4所示,其包含2个独立的子模块,通道注意力模块(CAM)(其结构如图5所示)和空间注意力模块(SAM)(其结构如图6所示),分别进行通道与空间上的信息聚合。这样不仅仅节约参数和计算力,并且保证了其能够集成到现有的网络架构中去。
通道注意力模块的公式为:
Figure BDA0003402700980000073
其中σ表示sigmoid函数,W1,W0为MLP网络的权重,并且W1,W0共享W0后的ReLU激活函数。
而空间注意力模块的公式为:
Figure BDA0003402700980000074
其中σ表示sigmoid函数,f7×7为卷积操作,其卷积核为7*7,
Figure BDA0003402700980000075
表示通过平均池化后获得的特征图,
Figure BDA0003402700980000081
表示通过最大池化后获得的特征图;
③CBAM的具体流程分为两阶段:首先是进行通道注意力模块,然后再是经过空间注意力模块。
将输入的特征图F(H×W×C)分别经过全局最大池化和全局平均池化,得到两个1×1×C的特征图,接着,再将它们分别送入一个两层的神经网络,这个神经网络的两层的神经网络是共享。第一层神经元个数为C/rate(rate为减少率),使用ReLU作为激活函数,第二层神经元个数为C。而后,将两层的神经网络输出的特征进行基于element-wise的加和操作,再经过sigmoid激活操作,生成最终的通道注意力特征图。最后,将注意力特征图和输入特征图F做element-wise乘法操作,生成Spatial attention模块需要的输入特征。
将通道attention模块输出的特征图作为本模块的输入特征图。首先做一个基于通道的全局最大值池化和全局平均值池化,得到两个H×W×1的特征图,然后将这2个特征图基于通道做拼接操作。然后经过一个7×7卷积操作,降维为1个通道。再经过sigmoid生成空间注意力特征图。最后将空间注意力特征图和该模块的输入feature做乘法,得到最终生成的特征。
经过注意力模块后,在进行特征融合的过程中只需要对其进行拼接,就能实现特征融合。而且该特征融合模块不仅降低了模型复杂度,还提高了模型的检测性能。
④将注意力模块CBAM嵌入到特征金字塔网络(FPN)中,FPN网络中包含自底向上和自顶向下的连部分组成。在每个进行特征融合的地址前加入注意力模块。FPN中特征融合由两部分构成,前馈Backbone的一部分,每一级往上使用步长为2的下采样。选择每一级的最后一层特征图,作为自下而上路径的对应相应层数,先经过注意力模块,然后经过1x 1卷积过后获得特征图。自顶向下的过程通过上采样的方式将顶层的小特征图。放大到上一个stage的特征图一样的大小。将1x1卷积后获得的特征图和自顶向下上采样获得的特征图进行拼接操作从而得到最终的用于预测的特征图。然后在三个尺度上进行预测与回归获得结果。
进一步地,子步骤(2.3)包括:
构建小目标预测网络:因为整个模型会在三个尺度上输出预测结果,因此不仅仅会构建小目标预测网络,还会构建中、大型目标的预测网络。但是这三个网络具有相同的网络结构。
以小目标预测网络为例,利用卷阶层以及池化层构建小目标预测网络,构建的预测网络由两部分组成,一个是判断该锚框anchor产生的候选框是否为目标的二分类任务网络,另一个是对该候选框进行边框回归的回归任务网络。预测网络的两个子网络都是由卷积层组成,其卷积核为3×3,最终都具有两个输出通道,但代表的含义不同,分别代表所检测小目标的回归框,以及目标的分类信息及置信度。
进一步地,所述步骤3中进行以下的输入训练集数据进入网络中进行训练,最终得到训练好的神经网络模型,具体包括:
将训练集中的图像送入到步骤二设计好的网络中,图像的具体训练过程为:将512×512大小的图像经过一个卷积层,其卷积核如表1所示为7×7,然后依次经过表中所示的卷积层,通过整个网络模型从,从而预测出多个预测框,然后通过这些预测框以及真实标注出来的框一起计算损失,从而指导各项参数是变化,最终得到最佳的模型参数。
将分类与回归做到了一个网络里面,因此损失函数必定是多任务的:
Figure BDA0003402700980000091
其中pi为anchor预测为目标的概率,
Figure BDA0003402700980000092
为GT框的概率,ti为一个向量,表示预测框的四个参数化坐标,
Figure BDA0003402700980000093
为正样本框对应的参数化坐标,Ncls为mini-batch的大小,λ
为回归损失的权重;
损失函数可以分成两部分,左边为分类的损失值,右边为回归的损失值。
先考虑分类损失其中
Figure BDA0003402700980000094
为:
Figure BDA0003402700980000095
而分类损失为交叉熵,其公式为:
Figure BDA0003402700980000096
Figure BDA0003402700980000097
为0时:
Figure BDA0003402700980000098
Figure BDA0003402700980000099
为1时:
Figure BDA00034027009800000910
鉴于普通的交叉熵对于正样本而言,输出概率越大损失越小;对于负样本而言,输出概率越小则损失越小。此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优。引入焦点损失Focal Loss来解决这个问题,焦点损失Focal Loss的公式为:
Figure BDA0003402700980000101
并在此基础上引入平衡因子α,用于平衡正负样本不均衡的问题,其公式为:
Figure BDA0003402700980000102
其中α取0.25,γ取2。
第二部分的损失为回归损失:当
Figure BDA0003402700980000103
为0时,回归损失为0,当
Figure BDA0003402700980000104
为1是才需要考虑回归损失,回归损失公式为:
Figure BDA0003402700980000105
其中R为:
Figure BDA0003402700980000106
使用Faster RCNN的RPN网络用于获取候选框。具体的训练流程为:首先初始化化模型参数,先独立训练RPN网络。然后利用训练好的RPN网络来训练特征提取网络、特征融合网络。然后冻结训练好的特征提取网络和特征融合网络,并重新训练RPN网络。最后需要将训练好RPN网络参数冻结,然后重新训练特征提取和特征融合网络。
在上述卷积网络的训练过程中,一次迭代的过程(如附图8所示)包括:通过反向传播和梯度下降算法来拟合目标检测,通过降低检测目标位置,偏置以及类别的误差来达到降低整个卷积神经网络误差的目的,再通过前向传播更新模型中的权重,每次达到10000次迭代或者神经网络的输出与真实目标的误差小于设定值后,终止本轮次的训练。
进一步地,所述回归预测小目标的位置、类别以及置信度,包括:
根据以上步骤得到的训练好的神经网络输入待测测图像后,可以通过回归,得到小目标的位置,同时与能够回归获得其他中、大型目标的位置。
下面结合说明书附图进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
实施例
如图1所示,本发明的实施主要包含四个步骤:
步骤一:首先对输入的图像数据集中的图像进行预处理,并将其按照一定比例划分为训练集、测试集以及验证集;
步骤二:构建卷积神经网络的网络结构,包括特征提取网络、特征融合网络以及小目标回归网络;
步骤三:输入训练集数据进入网络中进行训练,最终得到训练好的神经网络模型;
步骤四:利用训练好的深度卷积神经网络模型检测图像中的小目标,得到准确位置的小目标检测框。
在步骤一中,可以细致划分为以下几个子步骤:
(1.1)获取图像数据构建小目标数据集。
虽然现在还没有一个专门用于小目标检测的数据集,但是可以通过收集公开的目标检测图像数据集(例如COCO数据集、Pascal VOC数据集等)以及自己标注的图像信息来构建小目标检测数据集。
(1.2)对小目标数据集进行预处理。
由于采集到的自然场景下的图像数据和数据集中的图像数据与预期样本存在很大差别,存在宽高不满足输入要求,所以对步骤一中采集获取的数据进行处理,主要包括放缩、填充处理和归一化等;小目标检测训练中,网络需要的输入图像的为512*512,我们的数据集尺寸大部分图像都不是符合网络输入的,因而需要对尺寸进行修改这种方法就是简单的对图片尺寸进行等比例缩放,然后使用0进行填充,从而得到512*512的输入图像。具体的操作是将输入的宽为iw、高为ih的图像进行放缩,其公式如下:
scale=min(w/iw,h/ih) (1)
nw=iw×scale (2)
nh=ih×scale (3)
其中w和h期望的宽高即发明中为的512,scale为放缩比例,nw和nh分别是放缩后的宽高,之后便是将放缩后的图像至于中央,然后边界以0进行填充。
预处理方法中的归一化处理就是将图像数据格式转换为统一的图像数据格式,以及采用归一化公式
Figure BDA0003402700980000111
对待图像样本中的每一个像素点进行归一化,其中xij表示在(i,j)位置上点的像素值,xmin,xmax表示图像样本中所有像素的最小值与最大值。
(1.3)在划分训练集、测试集和验证集的时候需要根据数据集的大小来通过不同的方式来进行划分,如果当数据量不是很大的时候(万级别以下)的时候将训练集、验证集以及测试集划分为3:1:1;若是数据很大,可以将训练集、验证集、测试集的比例调整为98:1:1;但是当可用的数据很少的情况下可以使用一些例如K折交叉验证的方法来进行训练和验证等。
在步骤二中,可以细致划分为以下三个子步骤:构建特征提取网络、特征融合网络以及小目标回归网络;具体包括以下步骤:
(2.1)构建特征提取网络。
特征提取网络使用的改进的Resnet网络,如图2所示,整个特征提取网络由多个残差模块构成,每个残差模块的前向传播公式如下:
y=F(x,w)+x (4)
其中x,y分别为输入和输出,F(x,w)为一般神经网络前向传播公式,w为传播相关参数。
而改进的Resnet网络模块参考深度可分离卷积,并利用分组卷积,通过变量基数来控制组的数量。即每个分支产生的特征图的通道数为n(n>1)。
则其前向传播公式为:
Figure BDA0003402700980000121
其中x,y分别为输入和输出,F(x,wi)为各个分支的神经网络前向传播公式,wi为各个分支传播相关参数,也就是网络中需要训练的参数。
方法中涉及到卷积和池化操作。卷积操作的目的是提取图像的特征。根据不同的卷积核、不同的计算方式,会得到不同的特征提取图。而池化层夹在连续的卷积层中间,用于压缩数据和参数的量,减小过拟合。简而言之,如果输入是图像的话,那么池化层的最主要作用就是压缩图像。具有特征不变性以及特征降维,从而将冗余信息去除,把最重要的特征抽取出来,此外池化操作能在一定程度上防止过拟合,更方便优化。
将上述的卷积模块、池化模块以及改进残差模块,按照下表的格式就能够构建特征提取网络,具体采用的每一层的卷积核如表1所示。
表1特征提取网络结构
Figure BDA0003402700980000131
如上表所示,特征提取网络共有49层卷积神经网络层,还具有一层最大池化层,对于此网络的参数初始化,在具体实施中可以将此网络的网络层数适当的增加或减少。
(2.2)构建特征融合块
在深度卷积网络中浅层网络提取的特征具有较深层网络提取的特征的分辨率高、表征能力强,但是其包含的语义信息却很少,而深层网络的特征虽然分辨率低,但是其特征图包含丰富的语义信息。单独使用浅层网络特征图或者深层网络特征图都无法得到满意的结果,因此需要一种特征融合的方法融合浅层网络以及深层网络的特征,从而结合两类网络的优点来得到满意的小目标检测效果。
在特征融合的过程中需要使用上采样的方法来实现,发明中使用的上采样方法是双线性插值的方法。其示意图如附图3所示。双线性插值就是做两次线性变换,先在X轴上做一次线性变换,求出每一行的R点:
Figure BDA0003402700980000132
再通过一次线性变换求出在该区域中的P点:
Figure BDA0003402700980000141
在进行特征图融合时,为了充分利用到不同的通道和空间的信息,发明中采用一种基于通道和空间注意力的模块(CBAM),CBAM模块结构如图4所示,其包含2个独立的子模块,通道注意力模块(CAM)(其结构如图5所示)和空间注意力模块(SAM)(其结构如图6所示),分别进行通道与空间上的注意力。这样不仅仅节约参数和计算力,并且保证了其能够集成到现有的网络架构中去。
通道注意力模块的公式为:
Figure BDA0003402700980000142
其中σ(·)为特征融合函数,使用的是sigmoid函数,W1,W0为MLP网络的权重,并且W1,W0共享W0后使用ReLU函数作为激活函数,F表示特征图,AvgPool(·)为平均池化函数,MaxPool(·)为最大池化函数;
而空间注意力模块的公式为:
Figure BDA0003402700980000143
其中σ表示sigmoid函数,f7×7为卷积操作,其卷积核为7*7,
Figure BDA0003402700980000144
表示通过平均池化后获得的特征图,
Figure BDA0003402700980000145
表示通过最大池化后获得的特征图;
CBAM的具体流程分为两阶段:首先是进行通道注意力模块,然后再是经过空间注意力模块。
将输入的特征图F(H×W×C)分别经过全局最大池化和全局平均池化,得到两个1×1×C的特征图,接着,再将它们分别送入一个两层的神经网络,这个神经网络的两层的神经网络是共享。第一层神经元个数为C/rate(rate为减少率),使用ReLU作为激活函数,第二层神经元个数为C。而后,将两层的神经网络输出的特征进行基于element-wise的加和操作,再经过sigmoid激活操作,生成最终的通道注意力特征图。最后,将注意力特征图和输入特征图F做element-wise乘法操作,生成Spatial attention模块需要的输入特征。
将通道注意力模块输出的特征图作为本模块的输入特征图。首先做一个基于通道的全局最大值池化和全局平均值池化,得到两个H×W×1的特征图,然后将这2个特征图基于通道做拼接操作。然后经过一个7×7卷积操作,降维为1个通道。再经过sigmoid生成空间注意力特征图。最后将空间注意力特征图和该模块的输入feature做乘法,得到最终生成的特征。
经过注意力模块后,在进行特征融合的过程中只需要对其进行拼接,就能实现特征融合。而且该特征融合模块不仅降低了模型复杂度,还提高了模型的检测性能。
如图7所示,将注意力模块CBAM嵌入到特征金字塔网络(FPN)中,FPN网络中包含从骨干网络中获得的原始特征图和自顶向下过程中得到的新生成的特征图。在每个特征融合之前加入注意力模块。原始特征图的每一层都先经过一个注意力模块,然后经过1×1卷积对特征图进行调整,从而得到一个融合注意力的改进的原始特征图。而与之进行融合的是新生成特征图中与原始特征图相对应的特征层更深的一层的特征图,该特征图首先使用双线性插值的丰富将该特征图放大到与改进后的原始特征图相同的尺寸。最后使用1x1卷积将两个相同尺寸的特征图进行融合从而获得最终改进后的特征金字塔。
(2.3)构建小目标预测网络。因为整个模型会在三个尺度上输出预测结果,因此不仅仅会构建小目标预测网络,还会构建中、大型目标的预测网络。但是这三个网络具有相同的网络结构。
以小目标预测网络为例,利用卷阶层以及池化层构建小目标预测网络,构建的预测网络由两部分组成,一个是判断该anchor产生的候选框是否为目标的二分类任务网络,另一个是对该候选框进行边框回归的回归任务网络。预测网络的两个子网络都是由卷积层组成,其卷积核为3×3,最终都具有两个输出通道,但代表的含义不同,分别代表所检测小目标的回归框,以及目标的分类信息及置信度。
在步骤三中主要进行以下的输入训练集数据进入网络中进行训练,最终得到训练好的神经网络模型;
将训练集中的图像送入到步骤B设计好的网络中,图像的具体训练过程为:将512×512大小的图像经过一个卷积层,其卷积核如表1所示为7×7,然后依次经过表中所示的卷积层,通过整个网络模型从,从而预测出多个预测框,然后通过这些预测框以及真实标注出来的框一起计算损失,从而指导各项参数是变化,最终得到最佳的模型参数。
将分类与回归做到了一个网络里面,因此损失函数必定是多任务的:
Figure BDA0003402700980000161
其中pi为anchor预测为目标的概率,
Figure BDA0003402700980000162
为GT框的概率,ti为一个向量,表示预测框的四个参数化坐标,
Figure BDA0003402700980000163
为正样本框对应的参数化坐标。Ncls为mini-batch的大小。λ为回归损失的权重。
损失函数可以分成两部分,左边为分类的损失值,右边为回归的损失值。
先考虑分类损失其中
Figure BDA0003402700980000164
为:
Figure BDA0003402700980000165
而分类损失为交叉熵,其公式为:
Figure BDA0003402700980000166
Figure BDA0003402700980000167
为0时:
Figure BDA0003402700980000168
Figure BDA0003402700980000169
为1时:
Figure BDA00034027009800001610
普通的交叉熵对于正样本而言,输出概率越大损失越小。对于负样本而言,输出概率越小则损失越小。此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优。
因此引入Focal Loss来解决这个问题,Focal Loss的公式为:
Figure BDA00034027009800001611
并在此基础上引入平衡因子α,用于平衡正负样本不均衡的问题,其公式为:
Figure BDA00034027009800001612
其中α取0.25,γ取2。
第二部分的损失为回归损失:当
Figure BDA0003402700980000171
为0时,回归损失为0,当
Figure BDA0003402700980000172
为1是才需要考虑回归损失,回归损失公式为:
Figure BDA0003402700980000173
其中R为:
Figure BDA0003402700980000174
使用了Faster RCNN的RPN网络用于获取候选框。具体的训练流程为:首先初始化化模型参数,先独立训练RPN网络。然后利用训练好的RPN网络来训练特征提取网络、特征融合网络。然后冻结训练好的特征提取网络和特征融合网络,并重新训练RPN网络。最后需要将训练好RPN网络参数冻结,然后重新训练特征提取和特征融合网络。
在上述卷积网络的训练过程中,一次迭代的过程(如附图8所示)包括:通过反向传播和梯度下降算法来拟合目标检测,通过降低检测目标位置,偏置以及类别的误差来达到降低整个卷积神经网络误差的目的,再通过前向传播更新模型中的权重,每次达到10000次迭代或者神经网络的输出与真实目标的误差小于设定值后,终止本轮次的训练。
步骤四:根据以上步骤得到的训练好的神经网络输入待测测图像后,可以通过回归,得到小目标的位置,同时与能够回归获得其他中、大型目标的位置。

Claims (8)

1.一种基于注意力机制的小目标检测方法,其特征在于:该方法具体包括以下步骤:
步骤1、使用目标检测数据集以及自己标注图像数据相结合的方法,构建小目标检测数据集,对数据集中的图像进行预处理,然后按照设定比例划分为训练集、测试集以及验证集;
步骤2、构建卷积神经网络的网络结构,包括特征提取网络、特征融合网络以及小目标预测网络,并对参数进行初始化;使用改进型Resnet网络作为特征提取网络,将Resnet网络的Bottle Net网络架构分解成多个均匀的分支结构;特征融合网络采用一种基于通道和空间注意力的模块即CBAM模块,将CBAM模块嵌入到特征金字塔网络FPN中进行多尺度预测,对多层间的信息进行融合;
步骤3、将训练集中的训练样本输入到初始化的卷积神经网络中,根据网络传播流程计算出各部分损失,并根据损失来调整各个参数,从而得到最佳的网络参数;然后在测试集合中进行测试,以及在验证集合中进行验证,最终得到训练好的神经网络模型;
步骤4、利用训练好的深度卷积神经网络模型检测图像中的小目标,得到小目标检测框、分类以及置信度信息并在图像中标注出来。
2.根据权利要求1所述的基于注意力机制的小目标检测方法,其特征在于,所述步骤1,具体包括以下步骤:
(1.1)获取目标检测图像,构建小目标检测数据集:收集COCO数据集中的小目标对象的图像数据来构建小目标检测数据集;
(1.2)对小目标检测数据集进行预处理:对采集获取的图像数据进行处理,包括放缩、填充处理和归一化;归一化是指将图像数据格式转换为统一的图像数据格式,以及采用归一化公式
Figure FDA0003402700970000011
对图像样本中的每一个像素点进行归一化;
(1.3)划分训练集、测试集和验证集:根据数据集的大小通过不同的方式进行划分,如果当数据量不大于一万的时候将训练集、验证集以及测试集划分为3:1:1;若是数据量大于一万,将训练集、验证集、测试集的比例调整为98:1:1。
3.根据权利要求1所述的基于注意力机制的小目标检测方法,其特征在于,所述步骤2,具体包括以下步骤:
(2.1)构建特征提取网络,该特征提取网络对输入图像的深、浅层语义特征低进行提取;
(2.2)构建特征融合网络,将特征提取网络获得的深层语义信息进行上采样,然后和浅层的细节信息进行融合,获得最终的特征图;
(2.3)构建小目标预测网络,小目标预测网络分为两部分,一是回归任务模块,用于对目标框进行定位,另一个是分类模块,用于对目标框进行目标分类;特征融合网络得到的特征图作为输入,小目标检测网络通过这些特征获得最终的检测结果。
4.根据权利要求3所述的基于注意力机制的小目标检测方法,其特征在于,步骤(2.1)所述构建特征提取网络,具体如下:
特征提取网络使用改进的Resnet网络,整个特征提取网络由多个残差模块构成,传统残差模块的前向传播公式如下:
y=F(x,w)+x (1)
其中x,y分别为输入和输出,F(x,w)为一般神经网络前向传播公式,w为传播相关参数;
将Resnet网络的BottleNet网络架构分解成多个均匀的分支结构,参考深度可分离卷积,并利用分组卷积,通过变量基数来控制组的数量,即每个分支产生的特征图的通道数为n,n>1;
则残差模块的前向传播公式为:
Figure FDA0003402700970000021
其中x,y分别为输入和输出,F(x,wi)为各个分支的神经网络前向传播公式,wi为各个分支传播相关参数,也就是网络中需要训练的参数;
特征提取网络还包括卷积模块和池化模块:卷积模块的目的是提取图像的特征,根据不同的卷积核、不同的计算方式,得到不同的特征提取图;池化模块夹在连续的卷积模块中间,用于压缩数据和参数的量;
将上述的卷积模块、池化模块以及改进残差模块,按照表1格式构建特征提取网络,其中conv1、conv2_x、conv3_x、conv4_x、conv5_x分别表示五个由多个卷积层组成的模块,maxpooling表示最大值池化,stride为池化步长;
表1
Figure FDA0003402700970000031
如表1所示,特征提取网络共有49层卷积神经网络层,还有一层最大池化层。
5.根据权利要求3所述的基于注意力机制的小目标检测方法,其特征在于,步骤(2.2)所述构建特征融合网络,具体如下:
①在特征融合的过程中使用双线性插值的上采样方法,双线性插值就是做两次线性变换,先在X轴上做一次线性变换,求出每一行的R点:
Figure FDA0003402700970000032
再通过一次线性变换求出在该区域中的P点:
Figure FDA0003402700970000033
其中(x,y)表示待插入位置,P11,P12,P21,P22分别是双线性插值法中待插入位置4个角点,其坐标分别为(x1,y1),(x1,y2),(x2,y1),(x2,y2),f(·)表示·处的像素值,T1为P11与P21的中点,T2为P11与P22的中点;
②在进行特征图融合时,采用一种基于通道和空间注意力的模块,称为CBAM模块,CBAM模块包含2个独立的子模块,通道注意力模块即CAM和空间注意力模块即SAM;
通道注意力模块的公式为:
Figure FDA0003402700970000041
其中σ(·)为特征融合函数,使用的是sigmoid函数,W1,W0为MLP网络的权重,并且W1,W0共享W0后使用ReLU函数作为激活函数,F表示特征图,AvgPool(·)为平均池化函数,MaxPool(·)为最大池化函数;
而空间注意力模块的公式为:
Figure FDA0003402700970000042
其中σ表示sigmoid函数,f7×7为卷积操作,其卷积核为7*7,
Figure FDA0003402700970000043
表示通过平均池化后获得的特征图,
Figure FDA0003402700970000044
表示通过最大池化后获得的特征图;
③CBAM模块的处理流程分为两阶段:首先是进行通道注意力模块,然后再是经过空间注意力模块;
将输入的特征图F,H×W×C分别经过全局最大池化和全局平均池化,得到两个1×1×C的特征图,分别送入一个两层的神经网络,共享这个两层的神经网络;第一层神经元个数为C/rate,rate为减少率,使用ReLU作为激活函数;第二层神经元个数为C;而后,将两层的神经网络输出的特征进行基于对应元素逐个相乘的加和操作,再经过sigmoid激活操作,生成最终的通道注意力特征图;最后,将通道注意力特征图和输入特征图F做element-wise乘法操作,生成空间注意力模块需要的输入特征图;
将通道注意力模块输出的特征图作为空间注意力模块的输入特征图;首先做一个基于通道的全局最大值池化和全局平均值池化,得到2个H×W×1的特征图,然后将这2个特征图基于通道做拼接操作;然后经过一个7×7卷积操作,降维为1个通道;再经过sigmoid激活操作,生成空间注意力特征图;最后将空间注意力特征图和空间注意力模块的输入特征图做乘法,得到最终生成的特征;
④经过CBAM模块后,对特征进行拼接实现特征融合:将CBAM模块嵌入到特征金字塔网络FPN中。
6.根据权利要求2所述的基于注意力机制的小目标检测方法,其特征在于,步骤(2.3)所述构建小目标预测网络,具体如下:
利用卷阶层以及池化层构建小目标预测网络,构建的预测网络由两部分组成,一个是判断锚框anchor产生的候选框是否为目标的二分类任务网络,另一个是对该候选框进行边框回归的回归任务网络;预测网络的两个子网络都是由卷积层组成,其卷积核为3×3,最终都具有两个输出通道,一个输出通道用于输出小目标的回归框位置,另一个输出通道用于输出对应回归框的分类信息以及置信度信息。
7.根据权利要求1所述的基于注意力机制的小目标检测方法,其特征在于,所述步骤3,具体过程如下:
将训练集中的图像送入步骤2构建的卷积神经网络中,图像的具体训练过程为:将512×512大小的图像经过一个卷积层,卷积核为7×7,然后依次经过卷积层,通过整个网络模型预测出多个预测框,然后通过这些预测框以及真实标注出来的框计算损失,从而指导各项参数变化,最终得到最佳的模型参数;
将分类与回归做到了一个网络里面,因此损失函数是多任务的:
Figure FDA0003402700970000051
其中pi为anchor预测为目标的概率,
Figure FDA0003402700970000052
为GT框的概率,ti为一个向量,表示预测框的四个参数化坐标,
Figure FDA0003402700970000053
为正样本框对应的参数化坐标,Ncls为mini-batch的大小,λ为回归损失的权重;
损失函数分成两部分,左边为分类的损失值,右边为回归的损失值;
先考虑分类损失其中
Figure FDA0003402700970000054
为:
Figure FDA0003402700970000055
而分类损失为交叉熵损失,公式为:
Figure FDA0003402700970000056
Figure FDA0003402700970000057
为0时:
Figure FDA0003402700970000058
Figure FDA0003402700970000061
为1时:
Figure FDA0003402700970000062
鉴于交叉熵对于正样本而言,输出概率越大损失越小;对于负样本而言,输出概率越小则损失越小;引入焦点损失FocalLoss来解决这个问题,其数学表达式如下所示:
Figure FDA0003402700970000063
并在此基础上引入平衡因子α,用于平衡正负样本不均衡的问题,公式为:
Figure FDA0003402700970000064
其中α取0.25,γ取2;
第二部分的损失为回归损失:当
Figure FDA0003402700970000065
为0时,回归损失为0,当
Figure FDA0003402700970000066
为1是才需要考虑回归损失,回归损失公式为:
Figure FDA0003402700970000067
其中R为:
Figure FDA0003402700970000068
使用Faster R-CNN模型中的RPN网络获取候选框,具体的训练流程为:首先初始化化模型参数,先独立训练RPN网络;然后利用训练好的RPN网络来训练特征提取网络、特征融合网络;然后冻结训练好的特征提取网络和特征融合网络,并重新训练RPN网络;最后将训练好RPN网络参数冻结,然后重新训练特征提取和特征融合网络;
在上述卷积网络的训练过程中,一次迭代的过程包括:通过反向传播和梯度下降算法来拟合目标检测,再通过前向传播更新模型中的权重,每次达到10000次迭代或者神经网络的输出与真实目标的误差小于设定值后,终止本轮次的训练。
8.根据权利要求1所述的基于注意力机制的小目标检测方法,其特征在于,回归预测小目标候选框的位置、类别以及置信度,包括:
根据得到的训练好的神经网络输入待测测图像后,通过回归,得到小目标的位置,同时与能够回归获得其他中、大型目标的位置。
CN202111504006.9A 2021-12-09 2021-12-09 一种基于注意力机制的小目标检测方法 Pending CN114202672A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111504006.9A CN114202672A (zh) 2021-12-09 2021-12-09 一种基于注意力机制的小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111504006.9A CN114202672A (zh) 2021-12-09 2021-12-09 一种基于注意力机制的小目标检测方法

Publications (1)

Publication Number Publication Date
CN114202672A true CN114202672A (zh) 2022-03-18

Family

ID=80651916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111504006.9A Pending CN114202672A (zh) 2021-12-09 2021-12-09 一种基于注意力机制的小目标检测方法

Country Status (1)

Country Link
CN (1) CN114202672A (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663707A (zh) * 2022-03-28 2022-06-24 中国科学院光电技术研究所 基于Faster RCNN改进的少样本目标检测方法
CN114677596A (zh) * 2022-05-26 2022-06-28 之江实验室 一种基于注意力模型的遥感图像船舶检测方法和装置
CN114821246A (zh) * 2022-06-28 2022-07-29 山东省人工智能研究院 基于多层次残差网络感知和注意力机制的小目标检测方法
CN114842315A (zh) * 2022-05-07 2022-08-02 无锡雪浪数制科技有限公司 轻量化高铁轮毂垫片防松识别方法及装置
CN114842012A (zh) * 2022-07-04 2022-08-02 武汉科技大学 基于位置意识u型网络的医学图像小目标检测方法及装置
CN114863426A (zh) * 2022-05-05 2022-08-05 北京科技大学 一种目标特征注意力与金字塔相耦合的微小目标检测方法
CN114863097A (zh) * 2022-04-06 2022-08-05 北京航空航天大学 一种基于注意力机制卷积神经网络的红外弱小目标检测方法
CN114943903A (zh) * 2022-05-25 2022-08-26 广西财经学院 一种针对无人机航空图像的自适应分簇目标检测方法
CN114998195A (zh) * 2022-04-21 2022-09-02 重庆理工大学 基于深度回归网络的猪b超图像脂肪含量检测方法
CN115035372A (zh) * 2022-05-18 2022-09-09 杭州电子科技大学 一种基于目标检测的钢筋检测方法
CN115050021A (zh) * 2022-05-05 2022-09-13 江苏大学 基于改进YOLOv4的非结构环境下葡萄识别方法
CN115082869A (zh) * 2022-07-07 2022-09-20 燕山大学 一种服务于特种车辆的车路协同多目标检测方法及系统
CN115115863A (zh) * 2022-06-28 2022-09-27 成都信息工程大学 水面多尺度目标检测方法、装置及系统和存储介质
CN115205292A (zh) * 2022-09-15 2022-10-18 合肥中科类脑智能技术有限公司 一种配电线路树障检测方法
CN115620076A (zh) * 2022-09-08 2023-01-17 东南大学 一种智能变电站二次装置面板识别方法、设备及存储介质
CN115690675A (zh) * 2022-10-12 2023-02-03 大连海洋大学 基于通道非降维注意力机制与改进YOLOv5的ESB-YOLO模型养殖鱼群检测方法
CN115690522A (zh) * 2022-12-29 2023-02-03 湖北工业大学 一种基于多池化融合通道注意力的目标检测方法及其应用
CN115908298A (zh) * 2022-11-10 2023-04-04 苏州慧维智能医疗科技有限公司 内窥镜图像中息肉的目标预测方法、模型及存储介质
CN116503800A (zh) * 2023-04-20 2023-07-28 南京航空航天大学 一种军事敏感区域迭代反馈红外目标检测模型建立方法
CN116721403A (zh) * 2023-06-19 2023-09-08 山东高速集团有限公司 一种道路交通标志检测方法
CN116935477A (zh) * 2023-09-13 2023-10-24 中南民族大学 一种基于联合注意力的多分支级联的人脸检测方法及装置
CN116958906A (zh) * 2023-08-25 2023-10-27 江苏秦郡环保科技有限公司 一种垃圾焚烧炉渣智能分类系统
WO2023221013A1 (zh) * 2022-05-19 2023-11-23 中国科学院深圳先进技术研究院 基于特征融合的小目标检测方法、装置、设备及存储介质
CN117132767A (zh) * 2023-10-23 2023-11-28 中国铁塔股份有限公司湖北省分公司 一种小目标检测方法、装置、设备及可读存储介质
CN117173550A (zh) * 2023-08-22 2023-12-05 中国科学院声学研究所 合成孔径声纳图像水下小目标检测方法及系统
CN117237741A (zh) * 2023-11-08 2023-12-15 烟台持久钟表有限公司 一种校园危险行为检测方法、系统、装置和存储介质
CN117351381A (zh) * 2023-12-05 2024-01-05 国网山东省电力公司淄博供电公司 基于gcn的巡视图像异物识别方法、系统、终端及存储介质
CN117671473A (zh) * 2024-02-01 2024-03-08 中国海洋大学 基于注意力和多尺度特征融合的水下目标检测模型及方法

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663707A (zh) * 2022-03-28 2022-06-24 中国科学院光电技术研究所 基于Faster RCNN改进的少样本目标检测方法
CN114863097A (zh) * 2022-04-06 2022-08-05 北京航空航天大学 一种基于注意力机制卷积神经网络的红外弱小目标检测方法
CN114998195B (zh) * 2022-04-21 2023-06-16 重庆理工大学 基于深度回归网络的猪b超图像脂肪含量检测方法
CN114998195A (zh) * 2022-04-21 2022-09-02 重庆理工大学 基于深度回归网络的猪b超图像脂肪含量检测方法
CN115050021A (zh) * 2022-05-05 2022-09-13 江苏大学 基于改进YOLOv4的非结构环境下葡萄识别方法
CN114863426A (zh) * 2022-05-05 2022-08-05 北京科技大学 一种目标特征注意力与金字塔相耦合的微小目标检测方法
CN114863426B (zh) * 2022-05-05 2022-12-13 北京科技大学 一种目标特征注意力与金字塔相耦合的微小目标检测方法
CN114842315B (zh) * 2022-05-07 2024-02-02 无锡雪浪数制科技有限公司 轻量化高铁轮毂垫片防松识别方法及装置
CN114842315A (zh) * 2022-05-07 2022-08-02 无锡雪浪数制科技有限公司 轻量化高铁轮毂垫片防松识别方法及装置
CN115035372A (zh) * 2022-05-18 2022-09-09 杭州电子科技大学 一种基于目标检测的钢筋检测方法
WO2023221013A1 (zh) * 2022-05-19 2023-11-23 中国科学院深圳先进技术研究院 基于特征融合的小目标检测方法、装置、设备及存储介质
CN114943903A (zh) * 2022-05-25 2022-08-26 广西财经学院 一种针对无人机航空图像的自适应分簇目标检测方法
CN114677596A (zh) * 2022-05-26 2022-06-28 之江实验室 一种基于注意力模型的遥感图像船舶检测方法和装置
CN114821246A (zh) * 2022-06-28 2022-07-29 山东省人工智能研究院 基于多层次残差网络感知和注意力机制的小目标检测方法
CN115115863A (zh) * 2022-06-28 2022-09-27 成都信息工程大学 水面多尺度目标检测方法、装置及系统和存储介质
CN114821246B (zh) * 2022-06-28 2022-10-14 山东省人工智能研究院 基于多层次残差网络感知和注意力机制的小目标检测方法
CN114842012A (zh) * 2022-07-04 2022-08-02 武汉科技大学 基于位置意识u型网络的医学图像小目标检测方法及装置
CN115082869A (zh) * 2022-07-07 2022-09-20 燕山大学 一种服务于特种车辆的车路协同多目标检测方法及系统
CN115082869B (zh) * 2022-07-07 2023-09-15 燕山大学 一种服务于特种车辆的车路协同多目标检测方法及系统
CN115620076B (zh) * 2022-09-08 2023-12-15 东南大学 一种智能变电站二次装置面板识别方法、设备及存储介质
CN115620076A (zh) * 2022-09-08 2023-01-17 东南大学 一种智能变电站二次装置面板识别方法、设备及存储介质
CN115205292A (zh) * 2022-09-15 2022-10-18 合肥中科类脑智能技术有限公司 一种配电线路树障检测方法
CN115690675A (zh) * 2022-10-12 2023-02-03 大连海洋大学 基于通道非降维注意力机制与改进YOLOv5的ESB-YOLO模型养殖鱼群检测方法
CN115690675B (zh) * 2022-10-12 2024-02-23 大连海洋大学 基于通道非降维注意力机制与改进YOLOv5的ESB-YOLO模型养殖鱼群检测方法
CN115908298A (zh) * 2022-11-10 2023-04-04 苏州慧维智能医疗科技有限公司 内窥镜图像中息肉的目标预测方法、模型及存储介质
CN115908298B (zh) * 2022-11-10 2023-10-10 苏州慧维智能医疗科技有限公司 内窥镜图像中息肉的目标预测方法、模型及存储介质
CN115690522A (zh) * 2022-12-29 2023-02-03 湖北工业大学 一种基于多池化融合通道注意力的目标检测方法及其应用
CN116503800A (zh) * 2023-04-20 2023-07-28 南京航空航天大学 一种军事敏感区域迭代反馈红外目标检测模型建立方法
CN116503800B (zh) * 2023-04-20 2024-01-23 南京航空航天大学 一种军事敏感区域迭代反馈红外目标检测模型建立方法
CN116721403A (zh) * 2023-06-19 2023-09-08 山东高速集团有限公司 一种道路交通标志检测方法
CN117173550A (zh) * 2023-08-22 2023-12-05 中国科学院声学研究所 合成孔径声纳图像水下小目标检测方法及系统
CN116958906B (zh) * 2023-08-25 2024-03-15 江苏秦郡环保科技有限公司 一种垃圾焚烧炉渣智能分类系统
CN116958906A (zh) * 2023-08-25 2023-10-27 江苏秦郡环保科技有限公司 一种垃圾焚烧炉渣智能分类系统
CN116935477B (zh) * 2023-09-13 2023-12-26 中南民族大学 一种基于联合注意力的多分支级联的人脸检测方法及装置
CN116935477A (zh) * 2023-09-13 2023-10-24 中南民族大学 一种基于联合注意力的多分支级联的人脸检测方法及装置
CN117132767A (zh) * 2023-10-23 2023-11-28 中国铁塔股份有限公司湖北省分公司 一种小目标检测方法、装置、设备及可读存储介质
CN117132767B (zh) * 2023-10-23 2024-03-19 中国铁塔股份有限公司湖北省分公司 一种小目标检测方法、装置、设备及可读存储介质
CN117237741A (zh) * 2023-11-08 2023-12-15 烟台持久钟表有限公司 一种校园危险行为检测方法、系统、装置和存储介质
CN117237741B (zh) * 2023-11-08 2024-02-13 烟台持久钟表有限公司 一种校园危险行为检测方法、系统、装置和存储介质
CN117351381A (zh) * 2023-12-05 2024-01-05 国网山东省电力公司淄博供电公司 基于gcn的巡视图像异物识别方法、系统、终端及存储介质
CN117671473A (zh) * 2024-02-01 2024-03-08 中国海洋大学 基于注意力和多尺度特征融合的水下目标检测模型及方法

Similar Documents

Publication Publication Date Title
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN110135267B (zh) 一种大场景sar图像细微目标检测方法
CN110298262B (zh) 物体识别方法及装置
US20200250436A1 (en) Video object segmentation by reference-guided mask propagation
Dewi et al. Weight analysis for various prohibitory sign detection and recognition using deep learning
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN109960742B (zh) 局部信息的搜索方法及装置
CN112396002A (zh) 一种基于SE-YOLOv3的轻量级遥感目标检测方法
CN111598030A (zh) 一种航拍图像中车辆检测和分割的方法及系统
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN110222718B (zh) 图像处理的方法及装置
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
Li et al. ComNet: Combinational neural network for object detection in UAV-borne thermal images
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN113591795A (zh) 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统
Gao et al. Counting dense objects in remote sensing images
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
CN111723660A (zh) 一种用于长形地面目标检测网络的检测方法
CN112597920A (zh) 基于YOLOv3剪枝网络的实时物体检测系统
CN111353544A (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN115311502A (zh) 基于多尺度双流架构的遥感图像小样本场景分类方法
CN114782798A (zh) 一种基于注意力融合的水下目标检测方法
Li et al. Enhanced bird detection from low-resolution aerial image using deep neural networks
Khellal et al. Pedestrian classification and detection in far infrared images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination