CN105956608A

CN105956608A - 一种基于深度学习的目标定位、分类算法

Info

Publication number: CN105956608A
Application number: CN201610258047.7A
Authority: CN
Inventors: 王曦; 宋健明; 谢晓靓; 周冕; 李皓
Original assignee: Enbotai (tianjin) Technology Co Ltd
Current assignee: Enbotai (tianjin) Technology Co Ltd
Priority date: 2016-04-21
Filing date: 2016-04-21
Publication date: 2016-09-21

Abstract

本发明公开了一种基于深度学习的目标定位、分类算法，包括以下步骤：S1：对第一网络输入图片，输出一系列的目标定位框和得分；S2：对第二网络输入图片和一系列子窗口；S3：对网络进行前向传播到最后一个卷积层，生成特征图；S4：使用缩放系数对子窗口进行坐标变换，使坐标映射到特征图上；S5：使用缩放后的子窗口在特征图上获取特征，并pooling到固定的大小；S6：对pooling后的数据进行分类，得到区域的分类结果和得分；S7：将目标定位框和区域的分类结果输入进分类器进行分类，输出为目标的类别和坐标。本发明可以进行有效的特征提取，并且进行有效的目标分类，同时使用统一的网络进行定位和识别，大大加速了计算的速度。

Description

一种基于深度学习的目标定位、分类算法

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于深度学习的目标定位、分类算法。

背景技术

深度学习算法，将语义分割、目标检测与跟踪、场景理解与分析等在车载视觉上的处理有效地组织在卷积神经网络的框架下，形成整体的端对端的处理方案，并优化车载视觉的神经网络模型，使其能够快速、准确及有效地在车载嵌入式系统下完成视觉处理的任务。

传统的方法只能进行单目标检测，如果需要多目标检测需要使用不同的特征和不同的分类器，这样增加了真个系统的设计难度，并且不同的特征在不同的分类器中无法共享，导致了计算的重复性，无法提高检测的效率，并且传统的算法在复杂场景下的泛化能力较弱，无法达到实用的价值。

发明内容

基于背景技术存在的技术问题，本发明提出了一种基于深度学习的目标定位、分类算法。

本发明提出的一种基于深度学习的目标定位、分类算法，包括以下步骤：

S1：对第一网络输入图片，输出一系列的目标定位框和得分；

S2：对第二网络输入图片和一系列子窗口；

S3：对网络进行前向传播到最后一个卷积层，生成特征图；

S4：使用缩放系数对子窗口进行坐标变换，使坐标映射到特征图上；

S5：使用缩放后的子窗口在特征图上获取特征，并pooling到固定的大小；

S6：对pooling后的数据进行分类，得到区域的分类结果和得分；

S7：将目标定位框和区域的分类结果输入进分类器进行分类，输出为目标的类别和坐标。

优选地，所述第一网络为区域目标定位网络，且第一网络为全卷积网络。

优选地，所述区域目标定位网络分为特征提取层和目标定位层，且目标定位层包括区域定位层和区域分类层。

优选地，所述第二网络为特征提取网络。

本发明中，该基于深度学习的目标定位、分类算法能够进行多目标检测，有效地提高了检测的效率，在复杂场景下的泛化能力较强，可以进行有效的特征提取，并且进行有效的目标分类，同时本发明使用统一的网络进行定位和识别，大大加速了计算的速度，本发明提升了我国汽车工业在车辆辅助驾驶、无人驾驶等高科技领域的技术水平，打破国外公司在该领域的技术垄断，提高国产汽车的安全性，且让车联网能够更加真实、准确的感知车辆与车辆周边路况的信息，将提升车联网的信息处理、整合、分析与理解能力，并推动相关问题的深入研究并应用，力争创造更好的经济效益。

附图说明

图1为本发明提出的一种基于深度学习的目标定位、分类算法的定位流程图；

图2为本发明提出的一种基于深度学习的目标定位、分类算法的精确定位和分类的流程图；

图3为本发明提出的一种基于深度学习的目标定位、分类算法的定位算法的过程图；

图4为本发明提出的一种基于深度学习的目标定位、分类算法的分类算法的过程图。

具体实施方式

下面结合具体实施例对本发明作进一步解说。

实施例

参考图1-4，本实施例提出了一种基于深度学习的目标定位、分类算法，包括以下步骤：

S2：对第二网络输入图片和一系列子窗口；

S3：对网络进行前向传播到最后一个卷积层，生成特征图；

S5：使用缩放后的子窗口在特征图上获取特征，并下采到固定的大小；

S6：对下采后的数据进行分类，得到区域的分类结果和得分；

基于深度学习的目标定位算法

传统的通用目标定位算法可以分为两大部分：(1)基于固定相机的背景建模方法；(2)基于非固定相机的显著性检测方法。第一种方法速度快，效果好，但是对光照变化敏感，且适用范围小，而第二种方法精度差，速度慢，但适用范围广。但是这两种方法都存在着定位精度不高、适应性差等特点。

为了改进目标定位算法，并且可以使用到卷积神经网络中，我们开发了一种基于卷积神经网络的快速目标定位算法，称之为区域目标定位网络。此网络输入为一张图片，输出为一系列的目标定位框和这些框的得分。此网络是一个典型的全卷积网络(所有神经元为卷积神经元，且无全链接层，最终的分类层也为卷积层)。此网络分为两部分：(1)特征提取。(2)目标定位。根据不同的网络结构，特征提取层输出的特征维度也不同，为了快速定位目标，我们使用精简的网络结构，其特征输出为256维。在目标定位层，有两个输出层：(1)区域定位层。(2)区域分类层。在定位层中，适用N*N的窗口在特征图上滑动，计算其坐标区域及分类。我们使用3*3的窗口进行滑动。为了能对不同大小以及不同形变的物体进行检测，我们需要使用进行多尺度变换和不同的检测框。在我们的框架中，我们使用3个尺度变换和3个角度变换。

基于区域的目标分类算法

在深度学习领域中，为了能在图片上检测出物体，需要使用滑动床技术在图像上滑动，产生一系列的子窗口，将子窗口输入到网络中进行分类。使用此种方法，虽然准确率高，但是速度较慢，中间有许多的重复计算。为了能在目标检测中加速计算，我们提出了一种基于区域的目标分类算法，此算法过程如下：

1、对网络输入图片和一系列子窗口。

2、对网络进行前向传播到最后一个卷积层，生成特征图。

3、使用缩放系数对子窗口进行坐标变换，使坐标映射到特征图上。

4、使用缩放后的子窗口在特征图上获取特征，并下采到固定的大小。

5、对pooling后的数据进行分类，得到区域的分类结果和得分。

传统的确定区域的方法是使用显著性检测进行区域定位，但是这种方法比较耗时，却浪费了神经网络的计算资源。因此我们将我们的基于深度学习的定位算法纳入到我们的基于区域的目标分类算法中，形成一个统一的框架，进一步加速算法的速度。

本实施例中，第一网络为区域目标定位网络，且第一网络为全卷积网络，区域目标定位网络分为特征提取层和目标定位层，且目标定位层包括区域定位层和区域分类层，第二网络为特征提取网络，该基于深度学习的目标定位、分类算法能够进行多目标检测，有效地提高了检测的效率，在复杂场景下的繁华能力较强，可以进行有效的特征提取，并且进行有效的目标分类，同时本发明使用统一的网络进行定位和识别，大大加速了计算的速度，本发明提升了我国汽车工业在车辆辅助驾驶、无人驾驶等高科技领域的技术水平，打破国外公司在该领域的技术垄断，提高国产汽车的安全性，且让车联网能够更加真实、准确的感知车辆与车辆周边路况的信息，将提升车联网的信息处理、整合、分析与理解能力，并推动相关问题的深入研究并应用，力争创造更好的经济效益。

本实施例中，基于卷积神经网络的目标定位算法能快速定位图像中的目标，使用卷积神经网络快速生成目标的候选框，为了能有效的定位到图像中的目标，需要考虑目标的尺度变化和形变，因此在生成全图像的候选框的时候，需要加上多尺度变化和多角度变化，然后生成了目标的粗定位框，接着使用另一个CNN网络来从粗定位框中生成最终目标的精定位框以及对应的目标的分类，这时候需要改变CNN的结构，使之可以使用图像的部分去做进行分类，为此我们增加了一个新的输入层为rois层，这一层负责输入需要分类的区域的坐标，同时我们又增加一个新的特征采集层为roi_pooling层，这一层负责从卷积神经网络的特征提取层中形成最终的区域特征并将特征输入分类器进行分类。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度学习的目标定位、分类算法，其特征在于，包括以下步骤：

S2：对第二网络输入图片和一系列子窗口；

S3：对网络进行前向传播到最后一个卷积层，生成特征图；

2.根据权利要求1所述的一种基于深度学习的目标定位、分类算法，其特征在于，所述第一网络为区域目标定位网络，且第一网络为全卷积网络。

3.根据权利要求2所述的一种基于深度学习的目标定位、分类算法，其特征在于，所述区域目标定位网络分为特征提取层和目标定位层，且目标定位层包括区域定位层和区域分类层。

4.根据权利要求1所述的一种基于深度学习的目标定位、分类算法，其特征在于，所述第二网络为特征提取网络。