CN109508672A

CN109508672A - 一种实时的视频目标检测方法

Info

Publication number: CN109508672A
Application number: CN201811346329.8A
Authority: CN
Inventors: 柏正尧; 蒋冬
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2019-03-22

Abstract

一种实时的视频目标检测方法，包括：1)数据集来源于PASCAL VOC公共数据库，该数据库为图像识别和分类提供了一整套标准化的数据集；2)用层数更多的卷积神经网络替代层数少的网络，通过对特征的重复利用，使训练的模型对物体的分类以及位置的预测更为精确；3)通过卷积层的跨层连接，再通过上采样操作增加预测层得到目标的分类及位置；4)单纯进行上采样得到的分割结果比较粗糙，连接上采样层和低层卷积层的特征得到了更为精确的目标分类和定位结果。本发明实时视频目标检测存在检测精度高、检测速度快，达到高精度的同时满足实时要求。

Description

一种实时的视频目标检测方法

技术领域

本发明是实时的视频目标检测方法，适用于机器学习、模式识别和视频监控领域。

背景技术

目标检测的目的是确定目标所属的类别并对目标的位置进行精确定位，这在实时的视频监控、交通情况检测等领域中起着非常重要的作用，因此，目标检测一直是计算机视觉领域要解决的问题。目标检测任务可分为两个关键的子任务：目标分类和目标定位。目标分类任务负责判断输入图像中是否有感兴趣类别的物体出现，输出一系列带分数的标签表明感兴趣类别的物体出现在输入图像的可能性。目标定位任务负责确定输入图像中感兴趣类别的物体的位置和范围。随着深度学习的发展，引入了卷积神经网络对图像特征进行提取，使算法检测精度及速度有所提升。但是高精度的算法往往需要高计算消耗，检测速度并不能满足实时检测的要求，且深度学习算法对硬件的要求也远高于传统的方法。现有的检测算法对于遮挡物体及小目标的识别效果并不好。设计一种能达到实时要求，拥有高精度，对不同场景都有良好检测效果的的算法是计算机视觉领域的一个研究热点。

发明内容

本发明的目的就是针对实时视频目标检测存在检测精度低、检测速度慢等缺点，现有的检测方法无法达到高精度的同时满足实时要求。提出一种采用密集连接的卷积神经网络检测方法。

本发明采用的技术方案是：

一种实时的视频目标检测方法，包括：

1)数据集来源于PASCALVOC公共数据库，该数据库为图像识别和分类提供了一整套标准化的数据集；

2)用层数更多的卷积神经网络替代层数少的网络，通过对特征的重复利用，使训练的模型对物体的分类以及位置的预测更为精确；

3)通过卷积层的跨层连接，再通过上采样操作增加预测层得到目标的分类及位置；

4)单纯进行上采样得到的分割结果比较粗糙，连接上采样层和低层卷积层的特征得到了更为精确的目标分类和定位结果。

本发明将实时的视频目标检测视为一个模式的转化问题，即目标的分类为第一模式，目标的定位为第二模式；采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系。

本发明用层数更多的卷积神经网络替代层数少的网络是：采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系；用损失函数表示当前神经网络分类及定位结果图与标准图之间的误差；在训练过程中反复迭代误差损失函数，当损失函数尽可能小时，训练得到模型已能够有效提取对视频目标的分类与定位的映射规律，通过所学到的规律准确检测视频中的目标；整个目标检测过程包括目标分类和目标定位两部分组成。

本发明基于密集连接的所述卷积神经网络架构设计了一个能够有效提取图像特征的神经网络；该网络包含特征的提取和特征连接两部分；该网络的思想是连接低层的卷积层，提高对特征的重复利用，并在第一层预测层之后增加上采样操作，连接低层特征，提高对特征的利用，在大尺度上进行目标的分类及定位使目标的检测更为精确。

本发明采用的所述卷积神经网络是一种块密集连接架构，每一层卷积层都接收来自前面所有卷积层的输出，每一块中都有两层卷积层，其卷积核大小分别为1x1、3x3，且每个卷积层后都有一个激活函数leaky-ReLU；在连续几个块之后是一个大小为3x3,步长为2的卷积层，作用是降低图像分辨率，得到图像的深度特征；特征复用就是进行通道合并操作，使低层特征一直被使用，提高特征利用率，在上采样后将对于大小相同的低层特征进行通道合并，提升第二次预测的结果；神经网络的输入使需检测的图像，输出则是对图像中目标的分类及定位。

本文发明是基于深度学习框架darknet，运行在GPU工作站上，使用的测试平台：处理器为Intel i7-8700 CPU，内存为16GB，显卡NVIDIA GeForce GTX 105770。由于GPU显存不大，所以规模较大的神经网络无法在现有的机器中运行，这也是本实验使用密集连接型神经网络的原因。为了与现有的方法进行一个定量的比较，本文使用公开的PASCALVOC数据集对提出的方法进行评估。

目前有很多的检测方法用于实时的视频目标检测，但是检测速度和检测精度始终是目标检测任务中面临的重要挑战之一。从PASCALVOC数据集中选出部分图像进行实验，对比Tiny网络和本文网络的检测效果图，可以看出本文方法对图像中的物体有更好的分类和位置预测。

本发明的效果是：提出了一种新的采用密集连接方式的神经网络对图像中的目标进行检测。首先，使每一层卷积层的输出都来自于前面所有卷积层的输出，使低层特征始终可以被使用。其次，对上采样的特征层进行跨层连接，增加预测层，提升对小目标的预测以及目标的定位。通过对特征的重复利用以及增加预测层，从而获得更为精确的检测结果。本文方法在准确性、检测速度、目标定位方面优于原Tiny结构，且对遮挡目标及小目标也有良好的检测结果，该方法精度高、检测速度快、鲁棒性好，在视频监控系统中具有广阔的应用前景，表1为本发明采用的密集连接神经网络结构。

表1

附图说明

图1a、1b、1c、1d为原Tiny结构的检测效果图；

图2a、2b、2c、2d为本文方法的检测效果图。

具体实施方式

见图1a-图2d，一种实时的视频目标检测方法，包括：

1)数据集来源于PASCALVOC公共数据库，该数据库为图像识别和分类提供了一整套标准化的数据集；2)用层数更多的卷积神经网络替代层数少的网络，通过对特征的重复利用，使训练的模型对物体的分类以及位置的预测更为精确；

Claims

1.一种实时的视频目标检测方法，其特征在于：

2.根据权利要求1所述的一种实时的视频目标检测方法，其特征在于，将实时的视频目标检测视为一个模式的转化问题，即目标的分类为第一模式，目标的定位为第二模式；采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系。

3.根据权利要求1所述的一种实时的视频目标检测方法，其特征在于，用层数更多的卷积神经网络替代层数少的网络是：采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系；用损失函数表示当前神经网络分类及定位结果图与标准图之间的误差；在训练过程中反复迭代误差损失函数，当损失函数尽可能小时，训练得到模型已能够有效提取对视频目标的分类与定位的映射规律，通过所学到的规律准确检测视频中的目标；整个目标检测过程包括目标分类和目标定位两部分组成。

4.根据权利要求1或2或3所述的一种实时的视频目标检测方法，其特征在于，基于密集连接的所述卷积神经网络架构设计了一个能够有效提取图像特征的神经网络；该网络包含特征的提取和特征连接两部分；该网络的思想是连接低层的卷积层，提高对特征的重复利用，并在第一层预测层之后增加上采样操作，连接低层特征，提高对特征的利用，在大尺度上进行目标的分类及定位使目标的检测更为精确。

5.根据权利要求1或2或3所述的一种实时的视频目标检测方法，其特征在于，采用的所述卷积神经网络是一种块密集连接架构，每一层卷积层都接收来自前面所有卷积层的输出，每一块中都有两层卷积层，其卷积核大小分别为1x1、3x3，且每个卷积层后都有一个激活函数leaky-ReLU；在连续几个块之后是一个大小为3x3,步长为2的卷积层，作用是降低图像分辨率，得到图像的深度特征；特征复用就是进行通道合并操作，使低层特征一直被使用，提高特征利用率，在上采样后将对于大小相同的低层特征进行通道合并，提升第二次预测的结果；神经网络的输入使需检测的图像，输出则是对图像中目标的分类及定位。