CN108154199B

CN108154199B - 一种基于深度学习的高精度快速单类目标检测方法

Info

Publication number: CN108154199B
Application number: CN201711404571.1A
Authority: CN
Inventors: 任俊芬
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2022-03-15
Anticipated expiration: 2037-12-22
Also published as: CN108154199A

Abstract

一种基于深度学习的高精度快速单类目标检测方法，包括如下步骤：步骤一）设计神经网络：确定目标物的特性，所述特性包括：目标物是刚体或非刚体，目标物自成一体或作某个更大物体的一部分;确定在应用场景中该目标物的尺寸变化范围，根据目标物的特性和目标物的尺寸变化范围确定不同尺寸下神经元感受野需要覆盖的范围，再设计出特定深度的神经网络结构。步骤二）神经网络的训练：搜集目标场景中包含有目标物体的图像数据并对每幅图像中的目标物进行标注，将标记后的图像数据作为网络学习的目标；执行标准的神经网络训练流程；步骤三）神经网络训练完毕后，将测试的场景图像输入给神经网络，根据神经网络的输出即可定位目标。

Description

一种基于深度学习的高精度快速单类目标检测方法

技术领域

本发明涉及人工神经网络、计算机视觉等技术领域，具体涉及一种基于深度学习的高精度快速单类目标检测方法。

背景技术

目标检测是计算机视觉领域的基本问题之一，其需要完成的任务是在静态图像中定位多个特定类别的目标（比如人、车、树等）并且使用记号（通常使用紧包目标的矩形框）标明。具体来说，本发明涉及的是单一类别目标检测，即需要定位和标明的目标只有一类。多类别目标检测包含了单类的情况。

在深度学习之前的时代，解决目标检测问题的经典框架是滑动窗口结合人工图像特征分类。例如，人脸检测通常使用LBP（Local Binary Pattern）特征加Adaboost分类器；行人检测通常使用HOG（Histogram of Oriented Gradient）特征加Adaboost分类器。这类传统方法的弊端在于两方面：1）LBP和HOG特征均为人工设计的特征，因此它们在表达能力上都有各自的局限性，从而使得分类准确性难以进一步提高；2）由于采用了滑动窗口的方式，这类方法在检测不同尺寸目标时，需要对原图像进行多次缩放来提高尺寸的覆盖范围，同时针对目标的长宽比需要人为设计窗口大小，从而使得检测步骤繁琐且提速困难。

在深度学习的时代，目标检测问题得到极大的关注，众多有效的方法被提出。按照方法框架的差异可以将这些方法分为两类：1）候选区域选择结合人工神经网络分类；2）直接使用人工神经网络同时完成目标的定位和分类。第一类方法相较于传统的检测，大大减少了需要分类的窗口数量，同时使用了深度神经网络作为分类器，检测精度有了大幅提升。然而，作为两阶段的方法，候选区域选择的好坏会严重影响到检测的精度，而且耗时严重。对于检测任务来说，这样的框架并不是一个端到端的学习。第二类方法利用神经网络同时完成定位和识别的功能，是一种端到端的学习方式。在检测速度上，第二类方法要平均优于第一类方法。然而，现在的第二类方法通过为神经网络高层的神经元预定义若干的锚框作为目标候选区域，同时要矫正锚框的位置，计算量仍然较大，还有进一步提速的空间。

发明内容

为了进一步提升现有目标检测算法的精度和速度，本发明提出了一种基于深度学习的高精度快速单类目标检测方法。该方法根据待检目标的特性和尺寸范围，定制化地设计深度人工神经网络，接着使用包含有该类目标的图像数据训练神经网络，训练完毕后，即可使用该网络对这类目标进行检测。

本发明是通过如下技术方案实现的：

一种基于深度学习的高精度快速单类目标检测方法，包括如下步骤：

步骤一）设计神经网络：确定目标物的特性，所述特性包括：目标物是刚体或非刚体，目标物自成一体或作某个更大物体的一部分;确定在应用场景中该目标物的尺寸变化范围，根据目标物的特性和目标物的尺寸变化范围确定不同尺寸下神经元感受野需要覆盖的范围，再设计出特定深度的神经网络结构。

步骤二）神经网络的训练：搜集目标场景中包含有目标物体的图像数据并对每幅图像中的目标物进行标注，将标记后的图像数据作为网络学习的目标；执行标准的神经网络训练流程；

步骤三）神经网络训练完毕后，将测试的场景图像输入给神经网络，根据神经网络的输出即可定位目标。

进一步地，所述步骤一）中，根据目标物在应用场景中出现的方式和距离，统计得到其尺寸变化的范围，以像素来记。

进一步地，所述步骤一）中，根据目标物的特性和目标物的尺寸变化范围确定神经网络的深度，同时选择网络的输出层，每个输出层将负责一个小范围尺度的目标，每个神经元的感受野将大于这个小范围尺度的上限；负责偏小范围的输出层偏浅层，负责大范围的输出层偏高层，使所有输出层的尺度组合后满足实际场景所需；采用残差网络结构作为神经网络的主干结构，对每一层的网络参数设置根据任务的复杂程度进行设定。

进一步地，其特征在于，所述步骤二）中还搜集不包含目标物的纯场景图像。

进一步地，其特征在于，所述步骤二）中采用人工的方式对每幅图像数据中的目标物进行标注；标注的方式为使用矩形框将目标物紧包，记录下矩形框在图像中的位置信息。

进一步地，所述步骤二）中将所有的标注后的图像数据划分成两个部分：训练数据集和验证数据集；采用随机梯度下降算法使用训练数据集对神经网络进行训练；使用验证数据集在训练中阶段性地测试网络，查验网络是否已经训练完成。

进一步地，所述步骤三）中，使用步骤二）中得到训练好的神经网络，以待检图像作为网络的输入，得到多个尺度下多个目标候选区域；使用非极大抑制的方法过滤多余的目标候选区域，最终得到确定的目标候选区域，即完成目标检测任务。

与现有技术相比，本发明具有以下优点：

本发明涉及了一种基于深度学习的高精度快速单类目标检测方法，与现有方法相比较，其着重考虑了神经网络不同层节点感受野的大小对检测的影响。由此优化了网络的设计，包括尽可能减少神经网络层数及其每一层的参数量，加速了检测过程。同时，本方法使用了较新的网络主干结构ResNet，保证了网络具有较强的学习能力，从而获得较高的检测精度。综上描述，本方法具有速度快，精度高的优点。

附图说明

图1为实施例1流程示意图。

具体实施方式

实施例1

如图1所示的一种基于深度学习的高精度快速单类目标检测方法，包括如下步骤：

神经网络的设计过程S1为：确定目标物的特性，确定在应用场景中该目标物的尺寸变化范围，根据以上两点确定不同尺寸下神经元感受野需要覆盖的范围，由此设计出特定深度的神经网络结构。

神经网络的训练过程S2为：首先搜集目标场景中包含有目标物体的图像数据，然后标记数据用做网络学习的目标。最后执行标准的神经网络训练流程。

检测器的使用过程S3为：待神经网络训练完毕后，将测试的场景图像输入给神经网络，分析网络的输出即可定位目标。

具体的，过程S1包括以下步骤：

S101. 确定目标物的特性，这里主要是考察两方面：1）待检目标是刚体或非刚体；2）待检目标物自成一体或作某个更大物体的一部分。这两方面的特性将对深度神经网络的层数选择和响应神经元感受野的大小选择产生影响。

S102. 根据目标物在应用场景中出现的方式和距离，统计得到其尺寸变化的范围，以像素来记。以人脸为例，需要检测距离摄像头2米至10米之间的人脸。在2米的距离时，人脸的像素大小约为200（长和宽相等，视为正方形），10米距离时约为40个像素。那么这时候需要检测的人脸大小范围为40像素至200像素之间。

S103. 根据步骤S101和S102确认神经网络的深度，同时选择网络的输出层。每个输出层将负责一个小范围尺度的目标，其每个神经元的感受野将大于这个小范围尺度的上限，即可以包括这个尺度范围内的最大目标物。负责偏小范围的输出层均偏浅层，反之，负责大范围的输出层偏高层。最后，确保所有输出层的尺度组合起来能够满足实际场景所需。

S104. 步骤S103中确认网络层数和输出层后，进一步选择网络主干结构，这里将采用残差网络（ResNet）结构。每一层的网络参数设置根据任务的复杂程度进行设定。

具体的，过程S2包括以下步骤：

S201. 搜集实际场景中包含目标物的图像。搜集的图像需做到以下几点：1）尽可能包含不同姿态，不同光照，不同位置下该目标物的图像，且每种情况图像数越多越好；2）除了搜集带有目标物的图像以外，还需要搜集一定量纯场景图像，即不包含目标物的图像，此举为的是降低检测器的误检率。

S202. 通过步骤S201，获得大量场景数据后，将带有目标物的数据提取出来。使用人工的方式对每幅图像中的目标物进行标注。标注的方式为使用矩形框将目标物紧包，记录下矩形框在图像中的位置信息。人工标注的信息将被神经网络用于训练和学习。未带有目标物的图像不做处理。

S203. 将标注后的所有数据划分成两个部分：训练数据集和验证数据集。训练数据集提供给网络训练使用，而验证数据集用于在训练中阶段性地测试网络，以查验网络是否已经训练完成。

S204. 使用随机梯度下降算法对神经网络进行训练，由于使用了自主设计的网络结构，因此不能够使用预训练好的经典网络（例如AlexNet，GoogleNet等），直接从原始的数据开始训练。训练过程中阶段性地使用验证集数据对网络表现的性能进行测试，如某次验证结果已经达到了预设的条件，即可停止训练，目标的检测器训练完毕。

具体的，过程S3包括以下步骤：

S301. 使用过程S2得到训练好的检测器，以待检图像作为网络的输入，得到多个尺度下多个目标候选区域。

S302. 使用非极大抑制的方法过滤多余的目标候选区域，最终得到确定的目标候选区域，即完成目标检测任务。

以上实施例仅用于说明本发明，但不用来限制本发明的范围，凡是依据本发明的技术实质对以下实例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于深度学习的高精度快速单类目标检测方法，其特征在于，包括如下步骤：步骤一）设计神经网络：确定目标物的特性，所述特性包括：目标物是刚体或非刚体，目标物自成一体或作某个更大物体的一部分;确定在应用场景中该目标物的尺寸变化范围，根据目标物的特性和目标物的尺寸变化范围确定不同尺寸下神经元感受野需要覆盖的范围，再设计出特定深度的神经网络结构;所述步骤一）中，根据目标物在应用场景中出现的方式和距离，统计得到其尺寸变化的范围，以像素来记；

2.如权利要求1所述的一种基于深度学习的高精度快速单类目标检测方法，其特征在于，所述步骤一）中，根据目标物的特性和目标物的尺寸变化范围确定神经网络的深度，同时选择网络的输出层，每个输出层将负责一个小范围尺度的目标，每个神经元的感受野将大于这个小范围尺度的上限；负责偏小范围的输出层偏浅层，负责大范围的输出层偏高层，使所有输出层的尺度组合后满足实际场景所需；采用残差网络结构作为神经网络的主干结构，对每一层的网络参数设置根据任务的复杂程度进行设定。

3.如权利要求1所述的一种基于深度学习的高精度快速单类目标检测方法，其特征在于，所述步骤二）中还搜集不包含目标物的纯场景图像。

4.如权利要求1所述的一种基于深度学习的高精度快速单类目标检测方法，其特征在于，所述步骤二）中采用人工的方式对每幅图像数据中的目标物进行标注；标注的方式为使用矩形框将目标物紧包，记录下矩形框在图像中的位置信息。

5.如权利要求1所述的一种基于深度学习的高精度快速单类目标检测方法，其特征在于，所述步骤二）中将所有的标注后的图像数据划分成两个部分：训练数据集和验证数据集；采用随机梯度下降算法使用训练数据集对神经网络进行训练；使用验证数据集在训练中阶段性地测试网络，查验网络是否已经训练完成。

6.如权利要求1所述的一种基于深度学习的高精度快速单类目标检测方法，其特征在于，所述步骤三）中，使用步骤二）中得到训练好的神经网络，以待检图像作为网络的输入，得到多个尺度下多个目标候选区域；使用非极大抑制的方法过滤多余的目标候选区域，最终得到确定的目标候选区域，即完成目标检测任务。