CN111368775A

CN111368775A - 一种基于局部上下文感知的复杂场景密集目标检测方法

Info

Publication number: CN111368775A
Application number: CN202010173018.7A
Authority: CN
Inventors: 王靖宇; 吴虞霖; 张科; 王红梅; 王叶子; 马振宇; 王林
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-07-03

Abstract

本发明涉及一种基于局部上下文感知的复杂场景密集目标检测方法，使用深度残差网络Res101提取图像的特征，利用特征金字塔网络FPN进一步提取特征并生成感兴趣区域，生成候选区域后，提取候选区域的局部上下文信息，使用特征池化对齐特征，利用全连接层对特征进行分类，生成目标类别及边框。

Description

一种基于局部上下文感知的复杂场景密集目标检测方法

技术领域

本发明涉及一种基于局部上下文感知的复杂场景密集目标检测方法，属于图像处理技术领域。

背景技术

视觉为我们提供了关于周围环境的大量信息，目标检测是计算机视觉最主要的研究方向之一，目前已经广泛应用于智能安防、智能制造、自动驾驶等各个领域。复杂场景目前没有明确的定义，本发明中复杂场景指图像背景多变，存在大量的不需要检测的冗余目标，待检测目标种类多，目标数量变化大，目标与部分背景之间没有明显分界线，目标特性不明显等。密集目标目前也没有统一的定义，本发明中以单一图像为例，将目标数量超过20个，且目标之间距离小于单一目标宽度的称为密集目标。复杂场景密集目标检测主要是将背景多变、目标数量及尺度变化多样、目标特征不明显等复杂场景中的目标与背景分离。近年来，由于遥感目标检测、工业生产线密集目标质量检测、农作物幼苗技术等需求的不断增加，复杂场景密集目标检测的研究也越来越受到重视。

周建新(《适用于密集人群检测的多尺度检测方法》，系统仿真学报，2016,28-10,2503-2509)针对密集人群场景下的目标检测问题，提出了一种多尺度的目标检测方法，粗尺度下使用可变形部件模型(DPM,Deformable Part Model)检测方法，检测人体全身；细尺度下将头部作为检测对象，使用Faster RCNN(Faster Region with ConvolutionalNeural Network)算法检测人体中的头部，实现了对密集人群的检测。但是该方法仅仅将DPM与Faster RCNN算法相结合，需要分步完成检测流程，密集目标检测率较低，仅为53.8％左右。

发明内容

要解决的技术问题

目前已有的目标检测算法大都是检测非密集目标，针对背景复杂、目标类别和数量众多且尺度和方向变化都比较大的复杂场景密集目标检测方法较少，针对这一问题，本发明设计一种基于局部上下文感知的密集目标检测深度神经网络，充分利用密集目标之间空间距离短的特点，通过对目标及周围的局部上下文目标的感知，提高对密集目标识别的准确性。

技术方案

一种基于局部上下文感知的复杂场景密集目标检测方法，其特征在于步骤如下：

步骤1：对于每一张输入神经网络的尺寸为1024*1024的图像，经过Res101残差网络提取特征后，生成6种不同大小的特征图feature map，记为C1～C6，尺度分别为512*512,256*256,128*128,64*64,32*32,16*16，选择C2、C3、C4和C5建立特征金字塔；

步骤2：根据C2、C3、C4和C5生成特征金字塔，结果记为P2、P3、P4和P5；其中P2、P3、P4是将高层特征下采样，并与经过1*1卷积的同层C2、C3、C4特征相加；

步骤3：特征金字塔中的每张特征图使用区域生成网络生成锚点anchor的时候只使用一种尺寸，P2、P3、P4、P5和P6分别对应32²、64²、128²、256²和512²，每个 anchor对应的宽高比为1:2，1:1和2:1；

使用锚点anchor生成候选区域proposals时，采取的计算公式为：

生成局部上下文的候选区域lc_proposals时，采取的计算公式为：

其中，(x_c,y_c)分别为预测的anchor点坐标，(w,h)分别为预测proposals的宽度和高度；(x₁,y₁)和(x₂,y₂)为proposals的左上角和右下角坐标；(x′₁,y′₁)和(x′₂,y′₂)为 lc_proposals的左上角和右下角坐标；

步骤4：因为4种尺度的特征图上都有从原图上的anchor映射过来的proposals，所以使用特征池化的时候，也必须对应4种不同的特征层，采用如下公式计算特征池化对应的特征层：

其中，w和h为对应的proposals的尺寸，1024为原图尺寸，k₀为基准值，设置为4；

由于P2、P3、P4和P5为特征金字塔的特征图，因此对应特征层的取值规则为：

特征金字塔中的每张特征图中的proposals经过对应的特征池化层，分别输出7*7的结果，也就是这4张特征图上的proposals经过特征池化之后，提取出了49个特征；

局部上下文操作的流程与对应的proposals完全相同；

步骤5：把局部上下文和对应的proposals的7*7结果分布连接两个全连接层，两个全连接层输出结果为目标类别和目标边界框。

步骤3中区域生成网络生成锚点anchor3，训练候选区域所采用的标签用交并比IoU来确定，如果IoU>0.7，则为正样本；如果IoU<0.3，则为负样本。

有益效果

本发明的深度神经网络结构针对密集目标检测识别进行优化，原有的FPN检测算法对于复杂场景中的密集目标检测效果较差，对于处在复杂背景中的目标，误检率较高，容易将非目标认为是目标，对于密集目标的检测，由于目标之间的空间距离较短，漏检率较高，容易将目标遗漏。

本发明中加入的局部上下文感知模块，充分提取密集目标的局部上下文信息，通过局部上下文，在复杂背景中可以降低目标被错误检测的可能，在，密集目标也因为有了周围的目标信息，降低了目标的漏检率，从而显著增加了对复杂场景中密集目标识别分类的准确性。

附图说明

图1是深度神经网络结构图

图2是方法流程图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明提出的深度神经网络以Faster RCNN和FPN为基础框架，神经网络结构共包含四部分，Res101网络提取输入图像的底层特征，通过FPN网络进一步提取特征，生成候选区域，根据候选区域生成局部上下文，并分别进行池化操作，最后通过全连接层输出结果。神经网络的输入为1024*1024的彩色RGB(Red，Green and Blue)图像，输出为类别数和边界框的预测值。

(1)输入图像的尺寸为1024*1024，先通过深度残差网络Res101自下而上提取特征，Res101输入为7*7*64的卷积，依次经过3个、4个、23个和3个结构组件(buildingblock)，一个全连接层用于分类。

(2)FPN的特征金字塔分别连接Res101的特征层，而且处理FPN的每一层时会参照其对应的更高一层信息，因为高层信息与低层信息相比含有更多的语义特征，有利于后续的目标检测及分类。

(3)通过FPN的特征层，区域生成网络在每个尺度上根据预测中心点坐标和宽、高生成候选区域(x,y,w,h)，将此候选区域根据中心点扩大2倍生成局部上下文区域 (x,y,2w,2h),感知目标周围信息。将候选区域与上下文区域分别进行池化操作，进一步提取特征，作为全连接层分类判断的标准。

(4)通过全连接层将候选区域与局部上下文区域连接起来，输出目标类别和边界框。

以遥感图像检测为实例说明本发明的具体实施方式，但本发明的技术内容不限于所述的范围，具体实施方式包括以下步骤：

步骤一、构建符合条件的密集目标检测数据库。首先搜索符合条件的通用数据集，DOTA数据集为遥感目标数据集，采取高空俯拍视角，地面目标汽车、轮船、油罐等密集程度符合要求。由于DOTA数据集原始数据图像尺寸不定，且测试集的标注数据未公开，因此为了方便神经网络训练，将有标注的1869幅图像裁剪为1024*1024的图像，裁剪时宽度和高度分别保留10％像素的重合率，以扩充数据集，最后得到19219 幅图像及其标注信息，随机划分为训练集11531幅图像，验证集3844幅图像，测试集 3844幅图像，保证训练集、验证集和测试集在图像样本空间上没有交集。

步骤二、搭建深度神经网络，并采用梯度下降和反向传播算法训练深度神经网络模型，具体过程如下：

(1)根据图1构建深度神经网络模型，模型主要包括Res101提取特征，FPN生成候选区域，对候选区域进行局部上下文感知，最后经过特征池化和全连接层得到目标类别和边界框。

(2)由于神经网络参数繁多且比较难训练，因此本发明在训练模型之前，使用预训练模型初始化Res101模型参数，以提高训练效率。

(3)在密集数据集上对神经网络进行训练，对于每一张输入神经网络的尺寸为1024*1024的图像，经过Res101残差网络提取特征后，生成6种不同大小的特征图 featuremap，记为C1～C6，尺度分别为512*512,256*256,128*128,64*64,32*32,16*16，选择C2、C3、C4和C5建立金字塔。不使用是因为C6为最高层特征，经过特征提取后包含的信息少；而使用C1则会占用过多内存，因此也不用C1建立金字塔。

(4)根据C2、C3、C4和C5生成特征金字塔，结果记为P2、P3、P4和P5。P2、 P3、P4是将高层特征下采样，并与经过1*1卷积的同层C2、C3、C4特征相加，1*1 卷积是为了保证相加的特征图通道数相同。

(5)特征金字塔中的每张特征图使用区域生成网络生成锚点anchor的时候只使用一种尺寸，P2、P3、P4、P5和P6分别对应32²、64²、128²、256²和512²，每个anchor 对应的宽高比为1:2，1:1和2:1。这样，在整个特征金字塔中有15种不同的anchor。注意，后续阶段不使用P6。

使用锚点anchor生成候选区域proposals时，采取的计算公式为：

其中，(x_c,y_c)分别为预测的anchor点坐标，(w,h)分别为预测proposals的宽度和高度。(x₁,y₁)和(x₂,y₂)为proposals的左上角和右下角坐标。(x′₁,y′₁)和(x′₂,y′₂)为 lc_proposals的左上角和右下角坐标。

训练候选区域所采用的标签(对应于每个anchor)用交并比IoU(Intersectionover Union)来确定，如果IoU>0.7，则为正样本，如果IoU<0.3则为负样本。

(6)因为4种尺度的特征图上都有从原图上的anchor映射过来的proposals，所以使用特征池化的时候，也必须对应4种不同的特征层，采用如下公式计算特征池化对应的特征层：

其中，w和h为对应的proposals的尺寸，1024为原图尺寸，k₀为基准值，设置为4。

特征金字塔中的每张特征图中的proposals经过对应的特征池化层，分别输出7*7的结果，也就是这4张特征图上的proposals经过特征池化之后，提取出了49个特征。

局部上下文操作的流程与对应的proposals完全相同。

(8)把局部上下文和对应的proposals的7*7结果分布连接两个全连接层，两个全连接层输出结果为目标类别和目标边界框。

与已有的深度神经网络相比，本发明的神经网络加入了局部上下文感知部分，通过对候选区域周围的空间信息进行操作，增加了目标区域的特征表示，从而提高了密集目标识别的准确率。

Claims

1.一种基于局部上下文感知的复杂场景密集目标检测方法，其特征在于步骤如下：

步骤3：特征金字塔中的每张特征图使用区域生成网络生成锚点anchor的时候只使用一种尺寸，P2、P3、P4、P5和P6分别对应32²、64²、128²、256²和512²，每个anchor对应的宽高比为1:2，1:1和2:1；

使用锚点anchor生成候选区域proposals时，采取的计算公式为：

其中，(x_c,y_c)分别为预测的anchor点坐标，(w,h)分别为预测proposals的宽度和高度；(x₁,y₁)和(x₂,y₂)为proposals的左上角和右下角坐标；(x₁′,y₁′)和(x₂′,y₂′)为lc_proposals的左上角和右下角坐标；

局部上下文操作的流程与对应的proposals完全相同；

2.根据权利要求1所述的一种基于局部上下文感知的复杂场景密集目标检测方法，其特征在于步骤3中区域生成网络生成锚点anchor训练候选区域所采用的标签用交并比IoU来确定，如果IoU>0.7，则为正样本；如果IoU<0.3，则为负样本。