CN111368775A - 一种基于局部上下文感知的复杂场景密集目标检测方法 - Google Patents
一种基于局部上下文感知的复杂场景密集目标检测方法 Download PDFInfo
- Publication number
- CN111368775A CN111368775A CN202010173018.7A CN202010173018A CN111368775A CN 111368775 A CN111368775 A CN 111368775A CN 202010173018 A CN202010173018 A CN 202010173018A CN 111368775 A CN111368775 A CN 111368775A
- Authority
- CN
- China
- Prior art keywords
- feature
- local context
- anchor
- features
- pooling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于局部上下文感知的复杂场景密集目标检测方法,使用深度残差网络Res101提取图像的特征,利用特征金字塔网络FPN进一步提取特征并生成感兴趣区域,生成候选区域后,提取候选区域的局部上下文信息,使用特征池化对齐特征,利用全连接层对特征进行分类,生成目标类别及边框。
Description
技术领域
本发明涉及一种基于局部上下文感知的复杂场景密集目标检测方法,属于图像处理技术领域。
背景技术
视觉为我们提供了关于周围环境的大量信息,目标检测是计算机视觉最主要的研究方向之一,目前已经广泛应用于智能安防、智能制造、自动驾驶等各个领域。复杂 场景目前没有明确的定义,本发明中复杂场景指图像背景多变,存在大量的不需要检 测的冗余目标,待检测目标种类多,目标数量变化大,目标与部分背景之间没有明显 分界线,目标特性不明显等。密集目标目前也没有统一的定义,本发明中以单一图像 为例,将目标数量超过20个,且目标之间距离小于单一目标宽度的称为密集目标。复 杂场景密集目标检测主要是将背景多变、目标数量及尺度变化多样、目标特征不明显 等复杂场景中的目标与背景分离。近年来,由于遥感目标检测、工业生产线密集目标 质量检测、农作物幼苗技术等需求的不断增加,复杂场景密集目标检测的研究也越来 越受到重视。
周建新(《适用于密集人群检测的多尺度检测方法》,系统仿真学报,2016,28-10,2503-2509)针对密集人群场景下的目标检测问题,提出了一种多尺度的目标检测方法, 粗尺度下使用可变形部件模型(DPM,Deformable Part Model)检测方法,检测人体全 身;细尺度下将头部作为检测对象,使用Faster RCNN(Faster Region with ConvolutionalNeural Network)算法检测人体中的头部,实现了对密集人群的检测。但是该方法仅仅 将DPM与Faster RCNN算法相结合,需要分步完成检测流程,密集目标检测率较低, 仅为53.8%左右。
发明内容
要解决的技术问题
目前已有的目标检测算法大都是检测非密集目标,针对背景复杂、目标类别和数量众多且尺度和方向变化都比较大的复杂场景密集目标检测方法较少,针对这一问题, 本发明设计一种基于局部上下文感知的密集目标检测深度神经网络,充分利用密集目 标之间空间距离短的特点,通过对目标及周围的局部上下文目标的感知,提高对密集 目标识别的准确性。
技术方案
一种基于局部上下文感知的复杂场景密集目标检测方法,其特征在于步骤如下:
步骤1:对于每一张输入神经网络的尺寸为1024*1024的图像,经过Res101残差 网络提取特征后,生成6种不同大小的特征图feature map,记为C1~C6,尺度分别 为512*512,256*256,128*128,64*64,32*32,16*16,选择C2、C3、C4和C5建立特征 金字塔;
步骤2:根据C2、C3、C4和C5生成特征金字塔,结果记为P2、P3、P4和P5; 其中P2、P3、P4是将高层特征下采样,并与经过1*1卷积的同层C2、C3、C4特征 相加;
步骤3:特征金字塔中的每张特征图使用区域生成网络生成锚点anchor的时候只使用一种尺寸,P2、P3、P4、P5和P6分别对应322、642、1282、2562和5122,每个 anchor对应的宽高比为1:2,1:1和2:1;
使用锚点anchor生成候选区域proposals时,采取的计算公式为:
生成局部上下文的候选区域lc_proposals时,采取的计算公式为:
其中,(xc,yc)分别为预测的anchor点坐标,(w,h)分别为预测proposals的宽度和高度;(x1,y1)和(x2,y2)为proposals的左上角和右下角坐标;(x′1,y′1)和(x′2,y′2)为 lc_proposals的左上角和右下角坐标;
步骤4:因为4种尺度的特征图上都有从原图上的anchor映射过来的proposals,所以使用特征池化的时候,也必须对应4种不同的特征层,采用如下公式计算特征池 化对应的特征层:
其中,w和h为对应的proposals的尺寸,1024为原图尺寸,k0为基准值,设置 为4;
由于P2、P3、P4和P5为特征金字塔的特征图,因此对应特征层的取值规则为:
特征金字塔中的每张特征图中的proposals经过对应的特征池化层,分别输出7*7的结果,也就是这4张特征图上的proposals经过特征池化之后,提取出了49个特征;
局部上下文操作的流程与对应的proposals完全相同;
步骤5:把局部上下文和对应的proposals的7*7结果分布连接两个全连接层,两个全连接层输出结果为目标类别和目标边界框。
步骤3中区域生成网络生成锚点anchor3,训练候选区域所采用的标签用交并比IoU来确定,如果IoU>0.7,则为正样本;如果IoU<0.3,则为负样本。
有益效果
本发明的深度神经网络结构针对密集目标检测识别进行优化,原有的FPN检测算法对于复杂场景中的密集目标检测效果较差,对于处在复杂背景中的目标,误检率较 高,容易将非目标认为是目标,对于密集目标的检测,由于目标之间的空间距离较短, 漏检率较高,容易将目标遗漏。
本发明中加入的局部上下文感知模块,充分提取密集目标的局部上下文信息,通过局部上下文,在复杂背景中可以降低目标被错误检测的可能,在,密集目标也因为 有了周围的目标信息,降低了目标的漏检率,从而显著增加了对复杂场景中密集目标 识别分类的准确性。
附图说明
图1是深度神经网络结构图
图2是方法流程图
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本发明提出的深度神经网络以Faster RCNN和FPN为基础框架,神经网络结构共包含四部分,Res101网络提取输入图像的底层特征,通过FPN网络进一步提取特征, 生成候选区域,根据候选区域生成局部上下文,并分别进行池化操作,最后通过全连 接层输出结果。神经网络的输入为1024*1024的彩色RGB(Red,Green and Blue)图 像,输出为类别数和边界框的预测值。
(1)输入图像的尺寸为1024*1024,先通过深度残差网络Res101自下而上提取 特征,Res101输入为7*7*64的卷积,依次经过3个、4个、23个和3个结构组件(buildingblock),一个全连接层用于分类。
(2)FPN的特征金字塔分别连接Res101的特征层,而且处理FPN的每一层时会 参照其对应的更高一层信息,因为高层信息与低层信息相比含有更多的语义特征,有 利于后续的目标检测及分类。
(3)通过FPN的特征层,区域生成网络在每个尺度上根据预测中心点坐标和宽、 高生成候选区域(x,y,w,h),将此候选区域根据中心点扩大2倍生成局部上下文区域 (x,y,2w,2h),感知目标周围信息。将候选区域与上下文区域分别进行池化操作,进 一步提取特征,作为全连接层分类判断的标准。
(4)通过全连接层将候选区域与局部上下文区域连接起来,输出目标类别和边 界框。
以遥感图像检测为实例说明本发明的具体实施方式,但本发明的技术内容不限于所述的范围,具体实施方式包括以下步骤:
步骤一、构建符合条件的密集目标检测数据库。首先搜索符合条件的通用数据集,DOTA数据集为遥感目标数据集,采取高空俯拍视角,地面目标汽车、轮船、油罐等 密集程度符合要求。由于DOTA数据集原始数据图像尺寸不定,且测试集的标注数据 未公开,因此为了方便神经网络训练,将有标注的1869幅图像裁剪为1024*1024的图 像,裁剪时宽度和高度分别保留10%像素的重合率,以扩充数据集,最后得到19219 幅图像及其标注信息,随机划分为训练集11531幅图像,验证集3844幅图像,测试集 3844幅图像,保证训练集、验证集和测试集在图像样本空间上没有交集。
步骤二、搭建深度神经网络,并采用梯度下降和反向传播算法训练深度神经网络模型,具体过程如下:
(1)根据图1构建深度神经网络模型,模型主要包括Res101提取特征,FPN生 成候选区域,对候选区域进行局部上下文感知,最后经过特征池化和全连接层得到目 标类别和边界框。
(2)由于神经网络参数繁多且比较难训练,因此本发明在训练模型之前,使用预训练模型初始化Res101模型参数,以提高训练效率。
(3)在密集数据集上对神经网络进行训练,对于每一张输入神经网络的尺寸为1024*1024的图像,经过Res101残差网络提取特征后,生成6种不同大小的特征图 featuremap,记为C1~C6,尺度分别为512*512,256*256,128*128,64*64,32*32,16*16, 选择C2、C3、C4和C5建立金字塔。不使用是因为C6为最高层特征,经过特征提取 后包含的信息少;而使用C1则会占用过多内存,因此也不用C1建立金字塔。
(4)根据C2、C3、C4和C5生成特征金字塔,结果记为P2、P3、P4和P5。P2、 P3、P4是将高层特征下采样,并与经过1*1卷积的同层C2、C3、C4特征相加,1*1 卷积是为了保证相加的特征图通道数相同。
(5)特征金字塔中的每张特征图使用区域生成网络生成锚点anchor的时候只使用一种尺寸,P2、P3、P4、P5和P6分别对应322、642、1282、2562和5122,每个anchor 对应的宽高比为1:2,1:1和2:1。这样,在整个特征金字塔中有15种不同的anchor。 注意,后续阶段不使用P6。
使用锚点anchor生成候选区域proposals时,采取的计算公式为:
生成局部上下文的候选区域lc_proposals时,采取的计算公式为:
其中,(xc,yc)分别为预测的anchor点坐标,(w,h)分别为预测proposals的宽度和高度。(x1,y1)和(x2,y2)为proposals的左上角和右下角坐标。(x′1,y′1)和(x′2,y′2)为 lc_proposals的左上角和右下角坐标。
训练候选区域所采用的标签(对应于每个anchor)用交并比IoU(Intersectionover Union)来确定,如果IoU>0.7,则为正样本,如果IoU<0.3则为负样本。
(6)因为4种尺度的特征图上都有从原图上的anchor映射过来的proposals,所 以使用特征池化的时候,也必须对应4种不同的特征层,采用如下公式计算特征池化 对应的特征层:
其中,w和h为对应的proposals的尺寸,1024为原图尺寸,k0为基准值,设置 为4。
由于P2、P3、P4和P5为特征金字塔的特征图,因此对应特征层的取值规则为:
特征金字塔中的每张特征图中的proposals经过对应的特征池化层,分别输出7*7的结果,也就是这4张特征图上的proposals经过特征池化之后,提取出了49个特征。
局部上下文操作的流程与对应的proposals完全相同。
(8)把局部上下文和对应的proposals的7*7结果分布连接两个全连接层,两个 全连接层输出结果为目标类别和目标边界框。
与已有的深度神经网络相比,本发明的神经网络加入了局部上下文感知部分,通过对候选区域周围的空间信息进行操作,增加了目标区域的特征表示,从而提高了密 集目标识别的准确率。
Claims (2)
1.一种基于局部上下文感知的复杂场景密集目标检测方法,其特征在于步骤如下:
步骤1:对于每一张输入神经网络的尺寸为1024*1024的图像,经过Res101残差网络提取特征后,生成6种不同大小的特征图feature map,记为C1~C6,尺度分别为512*512,256*256,128*128,64*64,32*32,16*16,选择C2、C3、C4和C5建立特征金字塔;
步骤2:根据C2、C3、C4和C5生成特征金字塔,结果记为P2、P3、P4和P5;其中P2、P3、P4是将高层特征下采样,并与经过1*1卷积的同层C2、C3、C4特征相加;
步骤3:特征金字塔中的每张特征图使用区域生成网络生成锚点anchor的时候只使用一种尺寸,P2、P3、P4、P5和P6分别对应322、642、1282、2562和5122,每个anchor对应的宽高比为1:2,1:1和2:1;
使用锚点anchor生成候选区域proposals时,采取的计算公式为:
生成局部上下文的候选区域lc_proposals时,采取的计算公式为:
其中,(xc,yc)分别为预测的anchor点坐标,(w,h)分别为预测proposals的宽度和高度;(x1,y1)和(x2,y2)为proposals的左上角和右下角坐标;(x1′,y1′)和(x2′,y2′)为lc_proposals的左上角和右下角坐标;
步骤4:因为4种尺度的特征图上都有从原图上的anchor映射过来的proposals,所以使用特征池化的时候,也必须对应4种不同的特征层,采用如下公式计算特征池化对应的特征层:
其中,w和h为对应的proposals的尺寸,1024为原图尺寸,k0为基准值,设置为4;
由于P2、P3、P4和P5为特征金字塔的特征图,因此对应特征层的取值规则为:
特征金字塔中的每张特征图中的proposals经过对应的特征池化层,分别输出7*7的结果,也就是这4张特征图上的proposals经过特征池化之后,提取出了49个特征;
局部上下文操作的流程与对应的proposals完全相同;
步骤5:把局部上下文和对应的proposals的7*7结果分布连接两个全连接层,两个全连接层输出结果为目标类别和目标边界框。
2.根据权利要求1所述的一种基于局部上下文感知的复杂场景密集目标检测方法,其特征在于步骤3中区域生成网络生成锚点anchor训练候选区域所采用的标签用交并比IoU来确定,如果IoU>0.7,则为正样本;如果IoU<0.3,则为负样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010173018.7A CN111368775A (zh) | 2020-03-13 | 2020-03-13 | 一种基于局部上下文感知的复杂场景密集目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010173018.7A CN111368775A (zh) | 2020-03-13 | 2020-03-13 | 一种基于局部上下文感知的复杂场景密集目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111368775A true CN111368775A (zh) | 2020-07-03 |
Family
ID=71206797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010173018.7A Pending CN111368775A (zh) | 2020-03-13 | 2020-03-13 | 一种基于局部上下文感知的复杂场景密集目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368775A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766409A (zh) * | 2021-02-01 | 2021-05-07 | 西北工业大学 | 一种遥感图像目标检测的特征融合方法 |
CN113848825A (zh) * | 2021-08-31 | 2021-12-28 | 国电南瑞南京控制系统有限公司 | 柔性生产车间agv状态监控系统及方法 |
CN114519819A (zh) * | 2022-02-10 | 2022-05-20 | 西北工业大学 | 一种基于全局上下文感知的遥感图像目标检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117876A (zh) * | 2018-07-26 | 2019-01-01 | 成都快眼科技有限公司 | 一种稠密小目标检测模型构建方法、模型及检测方法 |
CN109711474A (zh) * | 2018-12-24 | 2019-05-03 | 中山大学 | 一种基于深度学习的铝材表面缺陷检测算法 |
CN109816012A (zh) * | 2019-01-22 | 2019-05-28 | 南京邮电大学 | 一种融合上下文信息的多尺度目标检测方法 |
CN110348437A (zh) * | 2019-06-27 | 2019-10-18 | 电子科技大学 | 一种基于弱监督学习与遮挡感知的目标检测方法 |
CN110729045A (zh) * | 2019-10-12 | 2020-01-24 | 闽江学院 | 一种基于上下文感知残差网络的舌图像分割方法 |
CN110807496A (zh) * | 2019-11-12 | 2020-02-18 | 智慧视通(杭州)科技发展有限公司 | 一种密集目标检测方法 |
-
2020
- 2020-03-13 CN CN202010173018.7A patent/CN111368775A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117876A (zh) * | 2018-07-26 | 2019-01-01 | 成都快眼科技有限公司 | 一种稠密小目标检测模型构建方法、模型及检测方法 |
CN109711474A (zh) * | 2018-12-24 | 2019-05-03 | 中山大学 | 一种基于深度学习的铝材表面缺陷检测算法 |
CN109816012A (zh) * | 2019-01-22 | 2019-05-28 | 南京邮电大学 | 一种融合上下文信息的多尺度目标检测方法 |
CN110348437A (zh) * | 2019-06-27 | 2019-10-18 | 电子科技大学 | 一种基于弱监督学习与遮挡感知的目标检测方法 |
CN110729045A (zh) * | 2019-10-12 | 2020-01-24 | 闽江学院 | 一种基于上下文感知残差网络的舌图像分割方法 |
CN110807496A (zh) * | 2019-11-12 | 2020-02-18 | 智慧视通(杭州)科技发展有限公司 | 一种密集目标检测方法 |
Non-Patent Citations (3)
Title |
---|
BO LI 等: "Auto-Context R-CNN", 《ARXIV:1807.02842V1》 * |
TSUNG-YI LIN 等: "Feature Pyramid Networks for Object Detection", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
王海涛 等: "两级上下文卷积网络宽视场图像小目标检测方法", 《计算机测量与控制》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766409A (zh) * | 2021-02-01 | 2021-05-07 | 西北工业大学 | 一种遥感图像目标检测的特征融合方法 |
CN113848825A (zh) * | 2021-08-31 | 2021-12-28 | 国电南瑞南京控制系统有限公司 | 柔性生产车间agv状态监控系统及方法 |
CN114519819A (zh) * | 2022-02-10 | 2022-05-20 | 西北工业大学 | 一种基于全局上下文感知的遥感图像目标检测方法 |
CN114519819B (zh) * | 2022-02-10 | 2024-04-02 | 西北工业大学 | 一种基于全局上下文感知的遥感图像目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334830B (zh) | 一种基于目标语义和深度外观特征融合的场景识别方法 | |
CN108830285B (zh) | 一种基于Faster-RCNN的加强学习的目标检测方法 | |
Yin et al. | FD-SSD: An improved SSD object detection algorithm based on feature fusion and dilated convolution | |
CN109102024B (zh) | 一种用于物体精细识别的层次语义嵌入模型及其实现方法 | |
CN111753677B (zh) | 基于特征金字塔结构的多角度遥感船舶图像目标检测方法 | |
CN105574550A (zh) | 一种车辆识别方法及装置 | |
CN105528575B (zh) | 基于上下文推理的天空检测方法 | |
CN111368775A (zh) | 一种基于局部上下文感知的复杂场景密集目标检测方法 | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN112270331A (zh) | 一种基于yolov5改进的广告牌检测方法 | |
CN110222604A (zh) | 基于共享卷积神经网络的目标识别方法和装置 | |
CN111611861B (zh) | 一种基于多尺度特征关联的图像变化检测方法 | |
CN112819837B (zh) | 一种基于多源异构遥感影像的语义分割方法 | |
CN111985367A (zh) | 一种基于多尺度特征融合的行人重识别特征提取方法 | |
CN109657082B (zh) | 基于全卷积神经网络的遥感图像多标签检索方法及系统 | |
CN111400572A (zh) | 一种基于卷积神经网络实现图像特征识别的内容安全监测系统及其方法 | |
CN114926747A (zh) | 一种基于多特征聚合与交互的遥感图像定向目标检测方法 | |
CN114330529A (zh) | 一种基于改进YOLOv4的遮挡行人实时检测方法 | |
CN112766409A (zh) | 一种遥感图像目标检测的特征融合方法 | |
CN114519819B (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN112784756A (zh) | 人体识别跟踪方法 | |
Lauziere et al. | A model-based road sign identification system | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
CN113111740A (zh) | 一种遥感图像目标检测的特征编织方法 | |
CN112053407A (zh) | 一种交通执法影像中基于ai技术的车道线自动检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200703 |