CN110807496A

CN110807496A - 一种密集目标检测方法

Info

Publication number: CN110807496A
Application number: CN201911101643.4A
Authority: CN
Inventors: 毕海; 徐晓刚; 门光文; 焦振秋
Original assignee: Smart Vision Hangzhou Technology Development Co Ltd
Current assignee: Hangzhou Yunqi Smart Vision Technology Co ltd
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-02-18
Anticipated expiration: 2039-11-12
Also published as: CN110807496B

Abstract

一种密集目标检测方法，属于图像捕获技术领域，其基于卷积神经网络YOLO v3目标检测网络，包括以下步骤：步骤S1，收集目标检测图像数据集，并生成密集目标数据集；步骤S2，构建模型；步骤S3，训练网络模型并保存参数权重。本发明基于YOLO v3网络模型及算法，对算法进行改进，通过扩增密集目标样本数据集、增加边缘信息通道和更改锚点框中心点坐标等方法，增强YOLO v3网络模型密集目标检测精度及召回率并获得有益效果。

Description

一种密集目标检测方法

技术领域

本发明属于图像捕获技术领域，具体涉及为一种密集目标检测方法。

背景技术

随着科技进步和深度学习算法的普及，深度学习目标检测算法也逐步应用于安防及工业检测各个领域，比如：行人识别、车辆识别、工业缺陷检测、自动驾驶等各种应用场景。目标检测方法作为模式识别领域的基础算法，然而在密集目标场景下现有目标检测方法常常存在一些问题，如密集目标的误检和漏检常常出现，其原因主要是密集目标相互遮挡和重合常常使算法在准确率和精度上产生严重损失。

对于密集目标检测精度低的问题，传统的解决方案，常常从两方面对些问题进行一定程度上的修正，一方面，从数据集收集上，从现实场景收集更多密集场景数据集进行人工标注并进行训练，这种方法效率比较低，需要付出更多人力成本和时间成本；另一个方面，有些方案增加新的损失函数用来约束检测目标之间的距离，使得检测目标之间尽量保持更远的距离，这种方案虽然对可分离密集目标产生较好的效果，但对于待检测目标本身就相邻的情况效果还有一定的限制。

因此，针对上述问题，有必要研发一种密集目标检测的方法。

发明内容

本发明的目的在于克服上述提到的缺陷和不足，而提供一种密集目标检测方法。

为了解决上述技术问题，采用如下技术方案：

一种密集目标检测方法，其基于卷积神经网络YOLO v3目标检测网络，包括以下步骤：

步骤S1，收集目标检测图像数据集，并生成密集目标数据集：

按照所需检测目标类别，通过收集与人工采集方法收集目标检测图像数据集，并根据需要进行目标标注，得到现有数据集，并使用图像处理算法基于现有数据集生成密集目标样本训练网络，得到密集目标数据集；

步骤S2，构建模型：

训练数据准备加载过程中，对原图像数据进行增加边缘信息通道数据并存储，并将密集目标数据集进行划分，分为训练集和验证集，构建YOLO v3网络网络模型；

步骤S3，训练网络模型并保存参数权重；

使用上一步划分的训练集对YOLO v3网络模型参数进行训练，修改中等尺度下锚点框中心位置及锚点框个数，训练中同时使用验证集对精度和召回率指标进行测试，当验证集指标开始下降时，对网络模型停止训练并保存参数权重。

所述步骤S1中，使用图像处理算法生成一定比率密集样本数据的密集目标样本训练网络，具体比率数值可视具体检测目标而定，一般在30% ∼ 60% 之间，生成方法如下：

S1.1，读取标注样本图像和标注数据，得到每个图片样本的标注信息的统计情况，包含标注类别，需要建立密集目标类别的标注目标面积及长宽比；

S1.2，根据 S1.1步统计情况，提取出目标面积在最大目标面积为 30%∼65%(比率区间根据实际情况修改)之间的样本，根据目标标注框从原图像上剪切出目标小图片并保存，同时保存目标掩码信息，建立侯选目标集合S保存文件信息，和该目标图像对应的宽高信息；

S1.3，以图像标注信息为单位遍历现有数据集，找出预生成密集目标群的中心目标对象，即该目标对象周围3倍自己宽高范围内不存在其它已经标注的目标，即在该目标周围生成密集目标，这里定义该目标对象为T；

S1.4，现建立两个记录集合，一个集合G负责保存生成密集目标 T信息和插入添加的目标信息，主要包括坐标位置与宽高，另一个集合O用以保存该图像中除T之外的所有目标信息；

S1.5，在密集目标 T 周围一定范围L内生成要添加的目标坐标位置，随着生成目标的增多，L数值标量不断增长且小于某最大值，如L为初始一倍宽高均值，最大值为3倍宽高均值。再从第S1.2步的目标集合S中抽取待插入样本I，根据目标集合S中保存的样本信息和刚刚生成目标位置构成新生成目标的坐标和宽高信息，计算待插入样本I与集合G中目标的面积交并比IOU和与集合O中的目标 IOU，如果与集合G中的IOU至少有一个 IOU 值位于 0.1∼0.35之间且均小于0.35, 与集合 O 中 IOU 均小于0.2, 则认为该待插入样本 I符合插入条件，即对样本 I 进行图像掩码插入粘贴，将样本 I 信息加入集合 G，重复S1.5，直至超过最大尝试次数阀值；

两个目标面积交并比 IOU, 目标检测中一个概念，是产生候选框与原标记框的交叠率，即它们的交集与并集的比值；

S1.6，重复进行 S1.3,S1.4和S1.5 步，直至密集目标数据集建立完成。

所述步骤S1.5中，产生候选框（Candidate bound）与原标记框（Ground truthbound）的交叠率 IOU，用公式1来表示：

其中，式中 area(C) 表示侯选框 (candidate bound) 的面积，(cx1, cy1) 和(cx2,cy2) 分别表示侯选框 (candidate bound) 的左上角坐标与右下角坐标，area(G) 表示真实目标框 (ground-truth bound) 的面积，(gx1, gy1) 和(gx2, gy2) 分别表示真实目标框 (ground-truth bound) 的左上角坐标与右下角坐标。

步骤S2中，使用图像处理边缘检测算法对输入原图像进行边缘信息检测提取，得到边缘信息通道 E(Edge)，将该边缘信息通道加在原图像数据 RGB 信息通道之后，得到4通道图像信息 (RGBE) 输入数据；边缘检测提取算法优选使用Sobel边缘检测算法或者Laplace算法。

步骤S3中，YOLO v3 网络使用基于先验锚点框的方法对检测目标位置及宽高进行校正回归检测，首先，YOLO v3 网络对原图像划分为三种不同尺度的 SxS 的网格，同时，这三个尺度的网格分别由三个与之对应的 SxS 大小的特征图来负责检测，分别为 13x1326x26 52x52 个网格 CELL；

将YOLO v3 中锚点框中心点位于同一点修改调整为分离中心点位置，在中等尺度特征图 (feature map 大小为 26x26 像素) 上，原版 YOLO v3 在 26x26 像素大小的特征图上的锚点框集合表示如公式 2所示：

其中，式中 i, j 表示 26x26 像素中等尺度特征图的 X 方向和 Y 方向上位置坐标索引，Anchor_coordinate 表示锚点框的坐标，由 X_anchor, Y_anchor, W_anchor, H_anchor四部分组成，分别代表锚点框中心点 X 方向上坐标，Y 方向上坐标，锚点框的宽，锚点框的高信息；在此，中等尺度特征图锚点框坐标修改如公式3所示，并对 26x26 每个预测网格增加一个锚点框：

其中，式中 i, j 表示 26x26 像素中等尺度特征图的 X 方向和 Y 方向上位置坐标索引，Anchor_coordinate 表示锚点框的坐标，由 X_anchor, Y_anchor, W_anchor, H_anchor四部分组成，分别代表锚点框中心点 X 方向上坐标，Y 方向上坐标，锚点框的宽，锚点框的高信息。

本发明上涉及的专业名词进行如下解释说明：

YOLO：一个开源的深度学习目标检测项目，特点是检测速度快且准确率较高。最新版本为2018年3月推出的V3版本，与老版本相比，准确率有较大提升。

本发明基于 YOLO v3 网络模型及算法，对算法进行改进，通过扩增密集目标样本数据集、增加边缘信息通道和更改锚点框中心点坐标等方法，增强 YOLO v3 网络模型密集目标检测精度及召回率并获得有益效果。

附图说明

图1是目标面积交并IOU示意图；

图2是SxS 检测网格示意图；

图3是锚点框与预测示意图；

图4是锚点框中心点分离示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

按照所需检测目标类别，通过收集与人工采集方法收集目标检测图像数据集，并根据需要进行目标标注，得到现有数据集，并使用图像处理算法基于现有数据集生成密集目标样本训练网络，得到密集目标数据集。

想要提高密集目标检测效果，首先，要有相当比例密集目标样本对网络进行训练，然而，通常情况下，密集目标场景数据比较易受到安全等因素的管控难以获取，因此，除了人工尽可能采集标记更多密集样本数据，本实施例中重点使用图像处理算法生成一定比率密集样本数据，具体比率数值可视具体检测目标而定，一般可以在 30% ∼ 60% 之间，生成方法如下：

S1.1，读取标注样本图像和标注数据，得到每个图片样本的标注信息的统计情况，包含标注类别，需要建立密集目标类别的标注目标面积及长宽比。

S1.2，根据 S1.1步统计情况，提取出目标面积在最大目标面积为 30%∼65%(比率区间根据实际情况修改) 之间的样本，根据目标标注框从原图像上剪切出目标小图片并保存，同时保存目标掩码信息，建立侯选目标集合S保存文件信息，和该目标图像对应的宽高信息。

S1.3，以图像标注信息为单位遍历现有数据集，找出预生成密集目标群的中心目标对象，即该目标对象周围3倍自己宽高范围内不存在其它已经标注的目标，即在该目标周围生成密集目标，这里定义该目标对象为 T。

S1.4，现建立两个记录集合，一个集合G负责保存生成密集目标 T信息和插入添加的目标信息，主要包括坐标位置与宽高，另一个集合O用以保存该图像中除T之外的所有目标信息。

S1.5，在密集目标 T 周围一定范围L内生成要添加的目标坐标位置，随着生成目标的增多，L数值标量不断增长且小于某最大值，如L为初始一倍宽高均值，最大值为3倍宽高均值。再从第S1.2步的目标集合S中抽取待插入样本I，根据目标集合S中保存的样本信息和刚刚生成目标位置构成新生成目标的坐标和宽高信息，计算待插入样本I与集合G中目标的面积交并比IOU和与集合O中的目标 IOU，如果与集合G中的IOU至少有一个 IOU 值位于0.1∼0.35之间且均小于0.35, 与集合 O 中 IOU 均小于0.2, 则认为该待插入样本 I符合插入条件，即对样本 I 进行图像掩码插入粘贴，将样本 I 信息加入集合 G，重复S1.5，直至超过最大尝试次数阀值。

两个目标面积交并比 IOU( Intersection-over-Union, IOU), 目标检测中一个概念，是产生候选框（Candidate bound）与原标记框（Ground truth bound）的交叠率，如图1 所示，即它们的交集与并集的比值。例如图 1位置关系可用计算公式 1 来表示：

步骤S2，构建模型：

训练数据准备加载过程中，对原图像数据进行增加边缘信息通道数据并存储，并将密集目标数据集进行划分，分为训练集和验证集，构建YOLO v3网络网络模型。

输入网络模型中图像数据增加边界通道用于增强网络中检测目标边界特征，使用网络更有效利用边累特征对待检测目标进行分离。

YOLO v3 网络网络模型以标准化大小后的待检测图像作为网络输入，即 RGB 三通道彩色图像做为输入，密集目标场景中，由于各个待检测目标间存在大量的遮挡现象，网络虽然可以根据目标信息提取相应特征，但学习到同一类目标不同实例间特征边界比较困难，因此，本发明从加强检测目标不同实例间特征边界信息出发，使用图像处理边缘检测算法对输入原图像进行边缘信息检测提取，得到边缘信息通道 E(Edge)，将该边缘信息通道加在原图像数据 RGB 信息通道之后，得到4通道图像信息 (RGBE) 输入数据。因此，网络模型参数更新过程更能充分利用和学习不同目标之间的边界信息，从而利于检测密集目标检测。边缘检测提取算法优选使用 Sobel 边缘检测算法，也可以选用其它边缘检测算法，如Laplace 算法等。

步骤S3，训练网络模型并保存参数权重；

修改先验锚点框中心点位置，使得待学习先验目标框本身就相互分离，减小网络学习目标框偏移量难度，提高检测准确性。

YOLO v3 网络使用基于先验锚点框的方法对检测目标位置及宽高进行校正回归检测，首先，YOLO v3 网络对原图像划分为三种不同尺度的 SxS 的网格，同时，这三个尺度的网格分别由三个与之对应的 SxS 大小的特征图来负责检测，分别为 13x13、26x26、52x52 个网格 CELL, 以 7x7 为例如图2所示：

当某一目标中心点位于某一网格 CELL 里时，该网格 CELL 负责检测该目标，并且根据目标宽高尺度大小来确定检测出的该目标的特征图，然而，在中等尺度特征图下，往往出现中小目标相互挨的比较紧密，当一个网络 CELL 的中心点也就是锚点框 anchor 中心点位于两个目标之间附近时，如图 3 子图 A 所示，外部边框为某网个网格 CELL，内部两个矩形框为锚点框且中心点位于同一点 (在网格 CELL 的中心)，当两个目标邻接处位于锚点框中心附近时，可能会产生如图 3 子图 B 所示预测结果情况，两个目标预测出一个检测目标的情况，如果将网格中锚点框中心相互分开如图 3子图 C 所示，则可能产生子图 D所示结果。

基于上述情况，本发明出发点在于提升密集目标检测精度，因此，将YOLO v3 中锚点框中心点位于同一点修改调整为分离中心点位置如图4所示，同时在本例中，将中等尺度下每个网络框锚点个数也由 3 个变为 4 个，

即在中等尺度特征图 (feature map 大小为 26x26 像素) 上，原版 YOLO v3 在26x26 像素大小的特征图上的锚点框集合表示如公式 2所示：

其中，式中 i, j 表示 26x26 像素中等尺度特征图的 X 方向和 Y 方向上位置坐标索引，Anchor_coordinate 表示锚点框的坐标，由 X_anchor, Y_anchor, W_anchor, H_anchor四部分组成，分别代表锚点框中心点 X 方向上坐标，Y 方向上坐标，锚点框的宽，锚点框的高信息。在此，中等尺度特征图锚点框坐标修改如公式3所示，并对 26x26 每个预测网格增加一个锚点框，经过上述更改后，检测模型对于密集中小目标检测在召回率与检测精度上均有所提升，产生有益效果。

步骤S4，加载权重，部署应用；

加载网络模型并读取加载步骤3训练得到的模型权重文件，按照步骤S2所述方法对原图像进行数据处理生成4通道图像数据，将得到的 4通道图像数据输入给网络模型，网络会预测输出多组检测目标信息，其中检测目标数据包括：目标所在图像中的左上角和右下角像素位置坐标、该目标所属目标的检测类别和该目标为真实目标的至信度，进而得到检测目标。

本发明基于YOLO v3目标检测网络,对密集目标检测方法进行优化改进，其具有以下创新之处：

一、使用图像处理算法基于现有数据集生成更多密集目标样本训练网络；

二、输入网络模型中图像数据增加边界通道用于增强网络中检测目标边界特征，使用网络更有效利用边累特征对待检测目标进行分离；

三、修改先验锚点框中心点位置，使得待学习先验目标框本身就相互分离，减小网络学习目标框偏移量难度，提高检测准确性。

本发明按照实施例进行了说明，在不脱离本原理的前提下，本装置还可以作出若干变形和改进。应当指出，凡采用等同替换或等效变换等方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种密集目标检测方法，其特征在于，其基于卷积神经网络YOLO v3目标检测网络，包括以下步骤：

步骤S2，构建模型：

步骤S3，训练网络模型并保存参数权重；

2.如权利要求1所述的一种密集目标检测方法，其特征在于，所述步骤S1中，使用图像处理算法生成一定比率密集样本数据的密集目标样本训练网络，具体比率数值可视具体检测目标而定，一般在30% ∼ 60% 之间，生成方法如下：

S1.2，根据 S1.1步统计情况，提取出目标面积在最大目标面积为 30%∼65%之间的样本，根据目标标注框从原图像上剪切出目标小图片并保存，同时保存目标掩码信息，建立侯选目标集合S保存文件信息，和该目标图像对应的宽高信息；

S1.3，以图像标注信息为单位遍历现有数据集，找出预生成密集目标群的中心目标对象，即该目标对象周围3倍自己宽高范围内不存在其它已经标注的目标，即在该目标周围生成密集目标，这里定义该目标对象为 T；

S1.5，在密集目标 T 周围一定范围L内生成要添加的目标坐标位置，随着生成目标的增多，L数值标量不断增长且小于某最大值，如L为初始一倍宽高均值，最大值为3倍宽高均值；再从第S1.2步的目标集合S中抽取待插入样本I，根据目标集合S中保存的样本信息和刚刚生成目标位置构成新生成目标的坐标和宽高信息，计算待插入样本I与集合G中目标的面积交并比IOU和与集合O中的目标 IOU，如果与集合G中的IOU至少有一个 IOU 值位于 0.1∼0.35之间且均小于0.35, 与集合 O 中 IOU 均小于0.2, 则认为该待插入样本 I符合插入条件，即对样本 I 进行图像掩码插入粘贴，将样本 I 信息加入集合 G，重复S1.5，直至超过最大尝试次数阀值；

3.如权利要求1所述的一种密集目标检测方法，其特征在于，步骤S2中，使用图像处理边缘检测算法对输入原图像进行边缘信息检测提取，得到边缘信息通道 E(Edge)，将该边缘信息通道加在原图像数据 RGB 信息通道之后，得到4通道图像信息 (RGBE) 输入数据；边缘检测提取算法优选使用Sobel边缘检测算法或者Laplace算法。

4.如权利要求1所述的一种密集目标检测方法，其特征在于，步骤S3中，YOLO v3 网络使用基于先验锚点框的方法对检测目标位置及宽高进行校正回归检测，首先，YOLO v3 网络对原图像划分为三种不同尺度的 SxS 的网格，同时，这三个尺度的网格分别由三个与之对应的 SxS 大小的特征图来负责检测，分别为 13x13 26x26 52x52 个网格 CELL；