CN110533084B - 一种基于自注意力机制的多尺度目标检测方法 - Google Patents
一种基于自注意力机制的多尺度目标检测方法 Download PDFInfo
- Publication number
- CN110533084B CN110533084B CN201910738932.9A CN201910738932A CN110533084B CN 110533084 B CN110533084 B CN 110533084B CN 201910738932 A CN201910738932 A CN 201910738932A CN 110533084 B CN110533084 B CN 110533084B
- Authority
- CN
- China
- Prior art keywords
- feature
- scale
- self
- attention
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 110
- 230000007246 mechanism Effects 0.000 title claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 55
- 238000000034 method Methods 0.000 claims description 39
- 238000000605 extraction Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010008 shearing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自注意力机制的多尺度目标检测方法,采用基于自注意力特征选择模块的自下而上和自上而下两种多尺度特征融合方式能够结合目标的低层特征和高层特征,增强特征图的表示能力和捕捉上下文信息的能力,提高目标检测阶段的稳定性与鲁棒性;而且本发明利用自注意力模块进行特征的重标定,计算量更小,兼顾了检测精度和速度,对解决目标检测中密集物体、小目标和遮挡目标等的检测问题具有重要意义。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于自注意力机制的多尺度目标检测方法。
背景技术
目标检测是计算机视觉领域的基础问题,目的是找出图像或视频中感兴趣的物体,并确定它们的类别、位置和大小,在行人检测、安全检查以及无人驾驶等领域都有重要的研究和应用价值。随着深度卷积网络的快速发展,目标检测算法的精度不断提高。目前主流的目标检测算法主要分为两类:基于候选区域(Region Proposal)的检测算法和基于包围边框回归的检测算法。
基于候选区域的目标检测算法的思路是首先使用某种区域推荐方法提取所有兴趣区域(Region of Interest,RoI),然后对这些区域逐个地进行目标的分类和定位。早在期工作中,R-CNN使用选择性搜索或者Edge Boxes算法从图像中获取候选区域,然后对每一个候选区域进行分类和边框调整。SPP-net、Fast-RCNN和Faster-RCNN等算法都是对R-CNN模型进行改进,SPP-net使用空间金字塔池化(Spatial Pyramid Pooling,SPP)代替了R-CNN中对原始图像进行的剪裁、拉伸和缩放等归一化操作,支持数据的多尺度输入。Fast-RCNN使用ROI Pooling代替R-CNN中比较耗时的区域推荐算法,而Faster-RCNN则在此基础上提出了一个区域推荐网络(Region Proposal Network,RPN),提高了提取候选区域的效率。虽然基于候选区域的目标检测算法检测精度和速度逐渐提高,但由于这些模型都是分阶段检测的,所以这种方法的检测速度还是很慢,不能达到实时性的要求。
为了弥补基于候选区域目标检测算法在速度方面的缺陷,Redmon等人提出了YOLO(You Only Look Once)模型,YOLO模型是一个端到端的深度卷积网络,该模型的思想是使用单个端到端的网络直接对整幅图像进行特征提取,而不是在每一个候选区域上单独进行。YOLO模型将图像划分成多个网格,然后在每一个网格上进行目标的分类和定位回归,这种方法只对图像特征图进行一次检测,因而大大提高了检测速度,从根本上解决了目标检测的实时性问题,但该方法检测精度不高,而且密集小目标的漏检问题较为严重。
发明内容
针对上述缺陷,本发明提供了一种基于自注意力机制的多尺度目标检测方法,本发明基于自注意力机制的多尺度特征融合,能够充分利用多尺度特征中的上下文信息,提高特征图的表示能力和捕捉上下文信息的能力,具有更高的检测精度,解决了密集小目标场景下的漏检率高和检测精度低的问题。
为了达到上述目的,本发明采用以下技术方案予以解决。
一种基于自注意力机制的多尺度目标检测方法,包括以下步骤:
步骤1,获取训练样本集,选取基础网络,构造多尺度特征金字塔,作为特征提取网络,提取待检测图像的卷积特征图;
步骤2,基于自注意力机制,构建自注意力特征选择模块;并将自注意力特征选择模块设置在多尺度特征金字塔的相邻卷积层之间,结合设置于所述多尺度特征金字塔输出端的检测模块,形成多尺度目标检测网络;自注意力特征选择模块用于将多尺度卷积特征图进行融合;
其中,所述自注意力特征选择模块为并列的通道注意力模块和空间注意力模块、依次设置的通道注意力模块和空间注意力模块或依次设置的空间注意力模块和通道注意力模块中的一种;
步骤3,将训练样本集中的样本作为多尺度目标检测网络的输入,采用动量梯度下降法对多尺度目标检测网络进行优化,得到优化后的多尺度目标检测网络;
步骤4,将待检测图像输入优化后的多尺度目标检测网络进行目标检测,得到目标的类别及其对应的置信度。
进一步地,所述训练样本集包含原始训练样本和将原始训练样本进行翻转、剪切、压缩或拉伸操作后得到的变换样本,还包含将原始训练样本和所述变换样本进行一定比例放大后得到的放大样本。
进一步地,所述构造多尺度特征金字塔具体为:
首先,获取覆盖训练样本集中目标样本的所有分辨率;
其次,根据所述目标样本的所有分辨率确定多尺度特征金字塔的层数及每层对应的分辨率;
最后,将基础网络的最后两层卷积层作为多尺度特征金字塔的最底端两层,并在其后依次添加对应分辨率的额外的卷积层,得到特征提取网络,即为多尺度特征金字塔;
其中,每个分辨率对应多尺度特征金字塔中的一层,每层对应的特征图的大小为待检测图像的大小除以该层对应的分辨率,并对结果进行向上取整操作。
进一步地,所述获取覆盖训练样本集中目标样本的所有分辨率为:对训练样本集中的目标样本进行统计,根据统计结果将目标样本按照大小进行分类,得到n个目标尺度类别;选取每个目标尺度类别分辨率的中间值作为该目标尺度的大小。
进一步地,采用动量梯度下降法对多尺度目标检测网络进行优化,按照以下步骤实施:
步骤3.1,初始化多尺度目标检测网络;
步骤3.2,将训练样本集中的训练样本图像作为多尺度目标检测网络的输入,每次输入一个训练样本图像,训练样本图像经过特征提取金字塔进行卷积特征图的提取和融合,并将特征融合后的图像输入检测模块进行检测,输出检测结果;
步骤3.3,将检测结果与当前训练样本图像的真实目标标注结果进行比较,采用反向传播算法调整多尺度目标检测网络的参数,并基于调整后的目标检测网络迭代处理后续的训练样本图像。
进一步地,所述初始化多尺度目标检测网络为:采用基础网络的预训练参数初始化多尺度目标检测网络中保持不变的基础网络的各层,其余层采用随机初始化。
进一步地,所述训练样本图像经过特征提取金字塔进行卷积特征图的提取和融合,其具体为:
训练样本图像经过每个卷积层进行对应尺度的特征提取,得到卷积特征图;卷积特征图经过特征提取金字塔进行自下而上和自上而下的特征融合,输出融合后的特征图像;
进一步地,所述自下而上和自上而下的特征融合,其具体步骤为:
步骤3.2a,从特征提取金字塔的最底层开始至顶层,依次进行自下而上的特征融合,即采用步长为4的最大池化将第i(i=1,2,3,...,n-2)层特征图的分辨率降低为第i+2层特征图的分辨率,再通过自注意力特征选择模块进行特征的选择和过滤,然后将处理后的第i层特征图加到第i+2层特征图上;
步骤3.2b,从特征提取金字塔的顶层开始,对经过自下而上特征融合后的特征图进行自上而下的特征融合,即使用步长为2的双线性插值或反卷积将第i+1层特征图的分辨率升高到第i层特征图的分辨率,再通过自注意力特征选择模块进行特征的选择和过滤,然后将过滤后的第i+1层特征图加到经过3×3卷积处理后的第i层特征图上。
其中,所述特征提取金字塔的各卷积层自下而上依次编号。
进一步地,所述通过自注意力特征选择模块进行特征的选择和过滤,其具体为:
首先,设定输入特征图的大小为w×h×c,h、w和c分别表示特征图的长、宽和通道数;
然后,对于通道注意力模块,其处理过程为:先通过全局平均池化将特征图的尺寸挤压为1×1×c,再通过全连接层fc1将通道数降为c/16,然后通过全连接层fc2将通道数升到原通道数c,以拟合通道之间复杂的非线性关系,之后利用Sigmoid函数将各个通道的权重归一化至区间[0,1],最后将权重通过广播乘法加权到输入特征图上,完成特征在通道位置上的重标定;
对于空间注意力模块,其处理过程为:通过1×1的卷积将输入特征图的通道数挤压为1,得到大小为w×h的分数图,然后将每个分数图对应的权重通过广播乘法加权到输入特征图上,完成特征在空间位置上的重标定。
与现有技术相比,本发明的有益效果为:
本发明采用基于自注意力特征选择模块的自下而上和自上而下两种多尺度特征融合方式能够结合目标的低层特征和高层特征,增强特征图的表示能力和捕捉上下文信息的能力,提高目标检测阶段的稳定性与鲁棒性;而且本发明利用自注意力模块进行特征的重标定,计算量更小,兼顾了检测精度和速度,对解决目标检测中密集物体、小目标和遮挡目标等的检测问题具有重要意义。
附图说明
下面结合附图和具体实施例对本发明做进一步详细说明。
图1为传统的多尺度目标检测网络SSD模型的结构示意图;
图2为本发明实施例中的通道注意力模块的结构示意图;
图3为本发明实施例中的自注意力特征选择模块的结构示意图;
图4为本发明实施例中的多尺度特征融合结构的示意图;
图5为采用本发明方法和传统SSD模型对密集小目标场景的检测结果图;
图6为采用本发明方法和传统SSD模型对上下文目标场景的检测结果图。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域的技术人员将会理解,以下实施例仅用于说明本发明,而不应视为限制本发明的范围。
本发明实施例提供一种基于自注意力机制的多尺度目标检测方法,其网络结构与传统的SSD类似,结构如图1所示,该方法包括如下步骤:
步骤1,获取训练样本集,选取基础网络,构造多尺度特征金字塔,作为特征提取网络,用于提取待检测图像的卷积特征图;
其具体按照以下步骤实施:
步骤1.1,获取原始训练样本,将原始训练样本进行翻转、剪切、压缩或拉伸操作后得到变换样本,将原始训练样本和变换样本分别进行一定比例放大后得到的放大样本;由原始训练样本、变换样本和放大样本共同组成训练样本集;
步骤1.2,选取ResNet网络或VGGNet网络为基础网络,构造多尺度特征金字塔;其具体步骤如下:
首先,获取覆盖训练样本集中目标样本的所有分辨率;即对训练样本集中的目标样本进行统计,根据统计结果将目标样本按照大小进行分类,得到n个目标尺度类别;选取每个目标尺度类别分辨率的中间值作为该目标尺度的大小。
其次,根据所述目标样本的所有分辨率确定多尺度特征金字塔的层数及每层对应的分辨率;
最后,将基础网络的最后两层卷积层作为多尺度特征金字塔的最底端两层,并在其后依次添加对应分辨率的额外的卷积层,得到特征提取网络,即为多尺度特征金字塔;
其中,每个分辨率对应多尺度特征金字塔中的一层,每层对应的特征图的大小为待检测图像的大小除以该层对应的分辨率,并对结果进行向上取整操作。
本实施例中基础网络为ResNet网络时,获得的多尺度特征金字塔的尺度信息为40*40,20*20,10*10,5*5,3*3,1*1;其中,ResNet最后两层卷积层的尺度大小分别为40*40和20*20,然后根据尺度信息额外增加相应的卷积层,即大小分别为10*10,5*5,3*3,1*1的卷积层;将ResNet最后两层和新增加的四层卷积层组合得到多尺度特征金字塔。
步骤2,基于自注意力机制,构建自注意力特征选择模块;并将自注意力特征选择模块设置在多尺度特征金字塔的相邻卷积层之间,结合设置于所述多尺度特征金字塔输出端的检测模块,形成多尺度目标检测网络;自注意力特征选择模块用于将多尺度卷积特征图进行融合;
其中,自注意力特征选择模块为并列的通道注意力模块和空间注意力模块、依次设置的通道注意力模块和空间注意力模块或依次设置的空间注意力模块和通道注意力模块中的一种。
本实施例中,自注意力特征选择模块为并列的通道注意力模块和空间注意力模块,其中,通道注意力模块的处理过程如图2所示。
步骤3,将训练样本集中的样本作为多尺度目标检测网络的输入,采用动量梯度下降法对多尺度目标检测网络进行优化,得到优化后的多尺度目标检测网络;按照以下子步骤实施:
步骤3.1,初始化多尺度目标检测网络;即采用基础网络的预训练参数初始化多尺度目标检测网络中保持不变的基础网络的各层,其余层采用随机初始化。
步骤3.2,将训练样本集中的训练样本图像作为多尺度目标检测网络的输入,每次输入一个训练样本图像,训练样本图像经过特征提取金字塔进行卷积特征图的提取和融合,并将融合后的特征图像输入检测模块进行检测,输出检测结果;
其具体为:训练样本图像经过每个卷积层进行对应尺度的特征提取,得到卷积特征图;卷积特征图经过特征提取金字塔进行自下而上和自上而下的特征融合,输出融合后的特征图像;具体处理过程如图4所示。其具体的提取和融合的子步骤为:
步骤3.2a,从特征提取金字塔的最底层开始至顶层,依次进行自下而上的特征融合,即采用步长为4的最大池化将第i(i=1,2,3,...,n-2)层特征图的分辨率降低为第i+2层特征图的分辨率,再通过自注意力特征选择模块进行特征的选择和过滤,然后将处理后的第i层特征图加到第i+2层特征图上,其结构如图2所示。
步骤3.2b,从特征提取金字塔的顶层开始,对经过自下而上特征融合后的特征图进行自上而下的特征融合,即使用步长为2的双线性插值或反卷积将第i+1层特征图的分辨率升高到第i层特征图的分辨率,再通过自注意力特征选择模块进行特征的选择和过滤,然后将过滤后的第i+1层特征图加到经过3×3卷积处理后的第i层特征图上。
其中,所述特征提取金字塔的各卷积层自下而上依次编号。
步骤3.3,将检测结果与当前训练样本图像的真实目标标注结果进行比较,采用反向传播算法调整多尺度目标检测网络的参数,并基于调整后的目标检测网络迭代处理后续的训练样本图像。
本实施例中,通过自注意力特征选择模块进行特征的选择和过滤,如图3所示,其具体过程为:
首先,设定输入特征图的大小为w×h×c,h、w和c分别表示特征图的长、宽和通道数;
然后,对于通道注意力模块,其处理过程为:先通过全局平均池化将特征图的尺寸挤压为1×1×c,再通过全连接层fc1将通道数降为c/16,然后通过全连接层fc2将通道数升到原通道数c,以拟合通道之间复杂的非线性关系,之后利用Sigmoid函数将各个通道的权重归一化至区间[0,1],最后将权重通过广播乘法加权到输入特征图上,完成特征在通道位置上的重标定;
对于空间注意力模块,其处理过程为:通过1×1的卷积将输入特征图的通道数挤压为1,得到大小为w×h的分数图,然后将每个分数图对应的权重通过广播乘法加权到输入特征图上,完成特征在空间位置上的重标定。
步骤4,将待检测图像输入优化后的多尺度目标检测网络进行目标检测,得到目标的类别及其对应的置信度。
待检测图像即为测试集,将测试集输入优化后的多尺度目标检测网络,输出目标的类别及其对应的置信度。
为了验证本发明所述基于自注意力机制的多尺度目标检测方法的合理性和有效性,选取PASCAL VOC 2007和PASCAL VOC 2012两个标准数据集进行实验,并采用mAP(meanaverage precision)作为检测精度的客观评价指标,fps(frames per second)作为检测速度的客观评价指标。训练开始前,首先为每一个真实框(ground truth box)匹配一个交并比(Intersection over Union,IoU)最大的默认框(default boxes),然后对剩余的默认框,选择一个与其IoU最大的真实框,若该IoU大于设定的阈值(如0.5),则将其匹配到这个真实框,将所有匹配成功的真实框和默认框组成正样本集。为了保证正负样本的平衡,在未匹配成功的默认框中,SSD使用hard negative mining方法,根据置信度误差选取一定量的负样本,以保证正负样本比例接近1∶3。
本实施例选取VGGNet为基础网络,设置输入图像的分辨率为300×300,使用动量梯度下降法进行优化,动量因子(momentum)为0.9。初始学习率为0.001,迭代70000次后将学习率调整为0.0001,迭代90000次后学习率调整为0.00001,循环110000次后终止训练。批大小(mini-batch)为32,权重衰减(weight decay)为0.0005。分别采用本发明方法和传统的YOLO、YOLOv2、RON、SSD(网络结构如图1所示)、DSSD和R-SSD网络进行PASCAL VOC2007test测试集测试,结果如表1所示,可以看出,本发明提出的检测方法检测精度最高,说明经本发明方法具有更强的特征提取能力和捕捉上下文信息的能力,而且在目标的检测阶段具有更强的稳定性与鲁棒性。
表1各目标检测网络的检测精度和速度
采用本发明方法和传统SSD模型分别对密集小目标场景和上下文目标场景的检测结果图如图5和图6所示,其中,每组结果对比图中,左边为传统方法,右边为本发明方法,图中检测框上面的文字信息为目标的类别及其置信概率。从图5和图6结果可以看出,这些测试图像的背景比较复杂,目标的尺度较小,物体间的遮挡也比较严重,传统方法只能检测出部分明显的大目标,而对小目标或有遮挡的目标存在漏检现象;而本发明方法能够准确的检测出各个类别的目标,解决了复杂背景下的物体检测问题。说明本发明方法不但可以有效降低密集小目标场景下的漏检率,而且在上下文目标场景中,也可以根据目标的上下文信息提高检测精度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些改动和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种基于自注意力机制的多尺度目标检测方法,其特征在于,包括以下步骤:
步骤1,获取训练样本集,选取基础网络,构造多尺度特征金字塔,作为特征提取网络,其用于提取待检测图像的卷积特征图;
步骤2,基于自注意力机制,构建自注意力特征选择模块;并将自注意力特征选择模块设置在多尺度特征金字塔的相邻卷积层之间,结合设置于所述多尺度特征金字塔输出端的检测模块,形成多尺度目标检测网络;自注意力特征选择模块用于将多尺度卷积特征图进行融合;
其中,所述自注意力特征选择模块为并列的通道注意力模块和空间注意力模块、依次设置的通道注意力模块和空间注意力模块或依次设置的空间注意力模块和通道注意力模块中的一种;
步骤3,将训练样本集中的样本作为多尺度目标检测网络的输入,采用动量梯度下降法对多尺度目标检测网络进行优化,得到优化后的多尺度目标检测网络;
步骤4,将待检测图像输入优化后的多尺度目标检测网络进行目标检测,得到目标的类别及其对应的置信度。
2.根据权利要求1所述的基于自注意力机制的多尺度目标检测方法,其特征在于,步骤1中,所述训练样本集包含原始训练样本和将原始训练样本进行翻转、剪切、压缩或拉伸操作后得到的变换样本,还包含将原始训练样本和所述变换样本进行一定比例放大后得到的放大样本。
3.根据权利要求2所述的基于自注意力机制的多尺度目标检测方法,其特征在于,步骤1中,所述构造多尺度特征金字塔具体为:
首先,获取覆盖训练样本集中目标样本的所有分辨率;
其次,根据所述目标样本的所有分辨率确定多尺度特征金字塔的层数及每层对应的分辨率;
最后,将基础网络的最后两层卷积层作为多尺度特征金字塔的最底端两层,并在其后依次添加对应分辨率的额外的卷积层,得到特征提取网络,即为多尺度特征金字塔;
其中,每个分辨率对应多尺度特征金字塔中的一层,每层对应的特征图的大小为待检测图像的大小除以该层对应的分辨率,并对结果进行向上取整操作。
4.根据权利要求3所述的基于自注意力机制的多尺度目标检测方法,其特征在于,所述获取覆盖训练样本集中目标样本的所有分辨率为:对训练样本集中的目标样本进行统计,根据统计结果将目标样本按照大小进行分类,得到n个目标尺度类别;选取每个目标尺度类别分辨率的中间值作为该目标尺度的大小。
5.根据权利要求1所述的基于自注意力机制的多尺度目标检测方法,其特征在于,步骤3中,采用动量梯度下降法对多尺度目标检测网络进行优化,按照以下步骤实施:
步骤3.1,初始化多尺度目标检测网络;
步骤3.2,将训练样本集中的训练样本图像作为多尺度目标检测网络的输入,每次输入一个训练样本图像,训练样本图像经过特征提取金字塔进行卷积特征图的提取和融合,并将特征融合后的图像输入检测模块进行检测,输出检测结果;
步骤3.3,将检测结果与当前训练样本图像的真实目标标注结果进行比较,采用反向传播算法调整多尺度目标检测网络的参数,并基于调整后的目标检测网络迭代处理后续的训练样本图像。
6.根据权利要求5所述的基于自注意力机制的多尺度目标检测方法,其特征在于,所述初始化多尺度目标检测网络为:采用基础网络的预训练参数初始化多尺度目标检测网络中保持不变的基础网络的各层,其余层采用随机初始化。
7.根据权利要求5所述的基于自注意力机制的多尺度目标检测方法,其特征在于,所述训练样本图像经过特征提取金字塔进行卷积特征图的提取和融合,其具体为:
训练样本图像经过每个卷积层进行对应尺度的特征提取,得到卷积特征图;卷积特征图经过特征提取金字塔进行自下而上和自上而下的特征融合,输出融合后的特征图像。
8.根据权利要求7所述的基于自注意力机制的多尺度目标检测方法,其特征在于,所述自下而上和自上而下的特征融合,其具体步骤为:
步骤3.2a,从特征提取金字塔的最底层开始至顶层,依次进行自下而上的特征融合,即采用步长为4的最大池化将第i(i=1,2,3,...,n-2)层特征图的分辨率降低为第i+2层特征图的分辨率,再通过自注意力特征选择模块进行特征的选择和过滤,然后将处理后的第i层特征图加到第i+2层特征图上;
步骤3.2b,从特征提取金字塔的顶层开始,对经过自下而上特征融合后的特征图进行自上而下的特征融合,即使用步长为2的双线性插值或反卷积将第i+1层特征图的分辨率升高到第i层特征图的分辨率,再通过自注意力特征选择模块进行特征的选择和过滤,然后将过滤后的第i+1层特征图加到经过3×3卷积处理后的第i层特征图上;
其中,所述特征提取金字塔的各卷积层自下而上依次编号。
9.根据权利要求8所述的基于自注意力机制的多尺度目标检测方法,其特征在于,所述通过自注意力特征选择模块进行特征的选择和过滤,其具体为:
首先,设定输入特征图的大小为w×h×c,h、w和c分别表示特征图的长、宽和通道数;
然后,对于通道注意力模块,其处理过程为:先通过全局平均池化将特征图的尺寸挤压为1×1×c,再通过全连接层fc1将通道数降为c/16,然后通过全连接层fc2将通道数升到原通道数c,以拟合通道之间复杂的非线性关系,之后利用Sigmoid函数将各个通道的权重归一化至区间[0,1],最后将权重通过广播乘法加权到输入特征图上,完成特征在通道位置上的重标定;
对于空间注意力模块,其处理过程为:通过1×1的卷积将输入特征图的通道数挤压为1,得到大小为w×h的分数图,然后将每个分数图对应的权重通过广播乘法加权到输入特征图上,完成特征在空间位置上的重标定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910738932.9A CN110533084B (zh) | 2019-08-12 | 2019-08-12 | 一种基于自注意力机制的多尺度目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910738932.9A CN110533084B (zh) | 2019-08-12 | 2019-08-12 | 一种基于自注意力机制的多尺度目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110533084A CN110533084A (zh) | 2019-12-03 |
CN110533084B true CN110533084B (zh) | 2022-09-30 |
Family
ID=68662889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910738932.9A Active CN110533084B (zh) | 2019-08-12 | 2019-08-12 | 一种基于自注意力机制的多尺度目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110533084B (zh) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126258B (zh) * | 2019-12-23 | 2023-06-23 | 深圳市华尊科技股份有限公司 | 图像识别方法及相关装置 |
CN111222562B (zh) * | 2020-01-02 | 2022-04-08 | 南京邮电大学 | 基于空间自注意力机制的目标检测方法 |
CN111191737B (zh) * | 2020-01-05 | 2023-07-25 | 天津大学 | 基于多尺度反复注意力机制的细粒度图像分类方法 |
CN111259930B (zh) * | 2020-01-09 | 2023-04-25 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN111241996B (zh) * | 2020-01-09 | 2023-06-02 | 桂林电子科技大学 | 一种用于识别视频中人物动作的方法 |
CN111191739B (zh) * | 2020-01-09 | 2022-09-27 | 电子科技大学 | 一种基于注意力机制的墙面缺陷检测方法 |
CN111274892B (zh) * | 2020-01-14 | 2020-12-18 | 北京科技大学 | 一种鲁棒的遥感影像变化检测方法及系统 |
CN111340844B (zh) * | 2020-02-24 | 2023-05-02 | 南昌航空大学 | 基于自注意力机制的多尺度特征光流学习计算方法 |
CN111369543B (zh) * | 2020-03-07 | 2024-06-04 | 北京工业大学 | 一种基于双重自注意力模块的快速花粉颗粒检测算法 |
CN111401201B (zh) * | 2020-03-10 | 2023-06-20 | 南京信息工程大学 | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 |
CN111415342B (zh) * | 2020-03-18 | 2023-12-26 | 北京工业大学 | 一种融合注意力机制的三维卷积神经网络肺部结节图像自动检测方法 |
CN111598108A (zh) * | 2020-04-22 | 2020-08-28 | 南开大学 | 基于立体注意力控制的多尺度神经网络的快速显著性物体检测方法 |
CN111652846B (zh) * | 2020-04-30 | 2022-08-16 | 成都数之联科技股份有限公司 | 一种基于特征金字塔卷积神经网络的半导体缺陷识别方法 |
CN111783685A (zh) * | 2020-05-08 | 2020-10-16 | 西安建筑科技大学 | 一种基于单阶段网络模型的目标检测改进算法 |
CN111612751B (zh) * | 2020-05-13 | 2022-11-15 | 河北工业大学 | 基于嵌入分组注意力模块的Tiny-yolov3网络的锂电池缺陷检测方法 |
CN111626176B (zh) * | 2020-05-22 | 2021-08-06 | 中国科学院空天信息创新研究院 | 一种基于动态注意力机制的遥感目标快速检测方法及系统 |
CN111738110A (zh) * | 2020-06-10 | 2020-10-02 | 杭州电子科技大学 | 基于多尺度注意力机制的遥感图像车辆目标检测方法 |
CN111814562A (zh) * | 2020-06-11 | 2020-10-23 | 浙江大华技术股份有限公司 | 车辆的识别方法、车辆识别模型的训练方法及相关装置 |
CN111723748B (zh) * | 2020-06-22 | 2022-04-29 | 电子科技大学 | 一种红外遥感图像舰船检测方法 |
CN111862034B (zh) * | 2020-07-15 | 2023-06-30 | 平安科技(深圳)有限公司 | 图像检测方法、装置、电子设备及介质 |
CN111914917A (zh) * | 2020-07-22 | 2020-11-10 | 西安建筑科技大学 | 一种基于特征金字塔网络和注意力机制的目标检测改进算法 |
CN111881803B (zh) * | 2020-07-22 | 2023-10-31 | 安徽农业大学 | 一种基于改进YOLOv3的畜脸识别方法 |
CN112149591B (zh) * | 2020-09-28 | 2022-09-09 | 长沙理工大学 | 用于sar图像的ssd-aeff自动桥梁检测方法及系统 |
CN112163580B (zh) * | 2020-10-12 | 2022-05-03 | 中国石油大学(华东) | 一种基于注意力机制的小目标检测算法 |
CN112232258B (zh) * | 2020-10-27 | 2024-07-09 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及计算机可读存储介质 |
CN112418108B (zh) * | 2020-11-25 | 2022-04-26 | 西北工业大学深圳研究院 | 一种基于样本重加权的遥感图像多类目标检测方法 |
CN112418345B (zh) * | 2020-12-07 | 2024-02-23 | 深圳小阳软件有限公司 | 细粒度小目标快速识别的方法和装置 |
CN112418165B (zh) * | 2020-12-07 | 2023-04-07 | 武汉工程大学 | 基于改进型级联神经网络的小尺寸目标检测方法与装置 |
CN112446372B (zh) * | 2020-12-08 | 2022-11-08 | 电子科技大学 | 基于通道分组注意力机制的文本检测方法 |
CN112733691A (zh) * | 2021-01-04 | 2021-04-30 | 北京工业大学 | 一种基于注意力机制的多方向的无人机航拍的车辆检测方法 |
CN112766087A (zh) * | 2021-01-04 | 2021-05-07 | 武汉大学 | 一种基于知识蒸馏的光学遥感图像舰船检测方法 |
CN112819073B (zh) * | 2021-02-01 | 2024-08-20 | 上海明略人工智能(集团)有限公司 | 分类网络训练、图像分类方法、装置和电子设备 |
CN113343755A (zh) * | 2021-04-22 | 2021-09-03 | 山东师范大学 | 红细胞图像中的红细胞分类系统及方法 |
CN113239784B (zh) * | 2021-05-11 | 2022-09-30 | 广西科学院 | 一种基于空间序列特征学习的行人重识别系统及方法 |
CN113361521B (zh) * | 2021-06-10 | 2024-04-09 | 京东科技信息技术有限公司 | 场景图像的检测方法及其装置 |
CN113537013A (zh) * | 2021-07-06 | 2021-10-22 | 哈尔滨理工大学 | 一种多尺度自注意力特征融合的行人检测方法 |
CN113378791B (zh) * | 2021-07-09 | 2022-08-05 | 合肥工业大学 | 基于双注意力机制和多尺度特征融合的宫颈细胞分类方法 |
CN113688822A (zh) * | 2021-09-07 | 2021-11-23 | 河南工业大学 | 一种时序注意力机制场景图像识别方法 |
CN113807291B (zh) * | 2021-09-24 | 2024-04-26 | 南京莱斯电子设备有限公司 | 基于特征融合注意力网络的机场跑道异物检测识别方法 |
CN114022682A (zh) * | 2021-11-05 | 2022-02-08 | 天津大学 | 一种基于注意力的二次特征融合机制的弱小目标检测方法 |
CN116206099B (zh) * | 2023-05-06 | 2023-08-15 | 四川轻化工大学 | 一种基于sar图像的船舶位置检测方法及存储介质 |
CN116758631B (zh) * | 2023-06-13 | 2023-12-22 | 杭州追形视频科技有限公司 | 大数据驱动的行为智能分析方法及系统 |
CN116958952B (zh) * | 2023-07-11 | 2024-04-30 | 重庆大学 | 一种适用于高速公路监控视频下的车牌目标检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344821A (zh) * | 2018-08-30 | 2019-02-15 | 西安电子科技大学 | 基于特征融合和深度学习的小目标检测方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN110084210A (zh) * | 2019-04-30 | 2019-08-02 | 电子科技大学 | 基于注意力金字塔网络的sar图像多尺度舰船检测方法 |
-
2019
- 2019-08-12 CN CN201910738932.9A patent/CN110533084B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN109344821A (zh) * | 2018-08-30 | 2019-02-15 | 西安电子科技大学 | 基于特征融合和深度学习的小目标检测方法 |
CN110084210A (zh) * | 2019-04-30 | 2019-08-02 | 电子科技大学 | 基于注意力金字塔网络的sar图像多尺度舰船检测方法 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的MSSD目标检测方法;赵庆北等;《企业科技与发展》;20180510(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110533084A (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110533084B (zh) | 一种基于自注意力机制的多尺度目标检测方法 | |
CN110084292B (zh) | 基于DenseNet和多尺度特征融合的目标检测方法 | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN110163213B (zh) | 基于视差图和多尺度深度网络模型的遥感图像分割方法 | |
CN110991311A (zh) | 一种基于密集连接深度网络的目标检测方法 | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN111738344A (zh) | 一种基于多尺度融合的快速目标检测方法 | |
CN111738114B (zh) | 基于无锚点精确采样遥感图像车辆目标检测方法 | |
CN113313706B (zh) | 基于检测参考点偏移分析的电力设备缺陷图像检测方法 | |
CN111860587B (zh) | 一种用于图片小目标的检测方法 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN111753682A (zh) | 一种基于目标检测算法的吊装区域动态监控方法 | |
CN113610024B (zh) | 一种多策略的深度学习遥感影像小目标检测方法 | |
CN114781514A (zh) | 一种融合注意力机制的漂浮物目标检测方法及系统 | |
CN113780423A (zh) | 一种基于多尺度融合的单阶段目标检测神经网络及工业品表面缺陷检测模型 | |
CN113537211A (zh) | 一种基于非对称iou的深度学习车牌框定位方法 | |
CN109543498B (zh) | 一种基于多任务网络的车道线检测方法 | |
CN115984543A (zh) | 一种基于红外与可见光图像的目标检测算法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN117746077A (zh) | 一种芯片缺陷的检测方法、装置、设备和存储介质 | |
CN115937736A (zh) | 基于注意力和上下文感知的小目标检测方法 | |
CN114926826A (zh) | 场景文本检测系统 | |
CN117557557A (zh) | 一种基于细胞核分割模型的甲状腺病理切片细胞检测方法 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 | |
CN111612803B (zh) | 一种基于图像清晰度的车辆图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231225 Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province Patentee after: Dragon totem Technology (Hefei) Co.,Ltd. Address before: 710061 No. 33, South Second Ring Road, Shaanxi, Xi'an Patentee before: CHANG'AN University |
|
TR01 | Transfer of patent right |