CN109508672A - 一种实时的视频目标检测方法 - Google Patents
一种实时的视频目标检测方法 Download PDFInfo
- Publication number
- CN109508672A CN109508672A CN201811346329.8A CN201811346329A CN109508672A CN 109508672 A CN109508672 A CN 109508672A CN 201811346329 A CN201811346329 A CN 201811346329A CN 109508672 A CN109508672 A CN 109508672A
- Authority
- CN
- China
- Prior art keywords
- target
- classification
- feature
- real
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
一种实时的视频目标检测方法,包括:1)数据集来源于PASCAL VOC公共数据库,该数据库为图像识别和分类提供了一整套标准化的数据集;2)用层数更多的卷积神经网络替代层数少的网络,通过对特征的重复利用,使训练的模型对物体的分类以及位置的预测更为精确;3)通过卷积层的跨层连接,再通过上采样操作增加预测层得到目标的分类及位置;4)单纯进行上采样得到的分割结果比较粗糙,连接上采样层和低层卷积层的特征得到了更为精确的目标分类和定位结果。本发明实时视频目标检测存在检测精度高、检测速度快,达到高精度的同时满足实时要求。
Description
技术领域
本发明是实时的视频目标检测方法,适用于机器学习、模式识别和视频监控领域。
背景技术
目标检测的目的是确定目标所属的类别并对目标的位置进行精确定位,这在实时的视频监控、交通情况检测等领域中起着非常重要的作用,因此,目标检测一直是计算机视觉领域要解决的问题。目标检测任务可分为两个关键的子任务:目标分类和目标定位。目标分类任务负责判断输入图像中是否有感兴趣类别的物体出现,输出一系列带分数的标签表明感兴趣类别的物体出现在输入图像的可能性。目标定位任务负责确定输入图像中感兴趣类别的物体的位置和范围。随着深度学习的发展,引入了卷积神经网络对图像特征进行提取,使算法检测精度及速度有所提升。但是高精度的算法往往需要高计算消耗,检测速度并不能满足实时检测的要求,且深度学习算法对硬件的要求也远高于传统的方法。现有的检测算法对于遮挡物体及小目标的识别效果并不好。设计一种能达到实时要求,拥有高精度,对不同场景都有良好检测效果的的算法是计算机视觉领域的一个研究热点。
发明内容
本发明的目的就是针对实时视频目标检测存在检测精度低、检测速度慢等缺点,现有的检测方法无法达到高精度的同时满足实时要求。提出一种采用密集连接的卷积神经网络检测方法。
本发明采用的技术方案是:
一种实时的视频目标检测方法,包括:
1)数据集来源于PASCALVOC公共数据库,该数据库为图像识别和分类提供了一整套标准化的数据集;
2)用层数更多的卷积神经网络替代层数少的网络,通过对特征的重复利用,使训练的模型对物体的分类以及位置的预测更为精确;
3)通过卷积层的跨层连接,再通过上采样操作增加预测层得到目标的分类及位置;
4)单纯进行上采样得到的分割结果比较粗糙,连接上采样层和低层卷积层的特征得到了更为精确的目标分类和定位结果。
本发明将实时的视频目标检测视为一个模式的转化问题,即目标的分类为第一模式,目标的定位为第二模式;采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系。
本发明用层数更多的卷积神经网络替代层数少的网络是:采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系;用损失函数表示当前神经网络分类及定位结果图与标准图之间的误差;在训练过程中反复迭代误差损失函数,当损失函数尽可能小时,训练得到模型已能够有效提取对视频目标的分类与定位的映射规律,通过所学到的规律准确检测视频中的目标;整个目标检测过程包括目标分类和目标定位两部分组成。
本发明基于密集连接的所述卷积神经网络架构设计了一个能够有效提取图像特征的神经网络;该网络包含特征的提取和特征连接两部分;该网络的思想是连接低层的卷积层,提高对特征的重复利用,并在第一层预测层之后增加上采样操作,连接低层特征,提高对特征的利用,在大尺度上进行目标的分类及定位使目标的检测更为精确。
本发明采用的所述卷积神经网络是一种块密集连接架构,每一层卷积层都接收来自前面所有卷积层的输出,每一块中都有两层卷积层,其卷积核大小分别为1x1、3x3,且每个卷积层后都有一个激活函数leaky-ReLU;在连续几个块之后是一个大小为3x3,步长为2的卷积层,作用是降低图像分辨率,得到图像的深度特征;特征复用就是进行通道合并操作,使低层特征一直被使用,提高特征利用率,在上采样后将对于大小相同的低层特征进行通道合并,提升第二次预测的结果;神经网络的输入使需检测的图像,输出则是对图像中目标的分类及定位。
本文发明是基于深度学习框架darknet,运行在GPU工作站上,使用的测试平台:处理器为Intel i7-8700 CPU,内存为16GB,显卡NVIDIA GeForce GTX 105770。由于GPU显存不大,所以规模较大的神经网络无法在现有的机器中运行,这也是本实验使用密集连接型神经网络的原因。为了与现有的方法进行一个定量的比较,本文使用公开的PASCALVOC数据集对提出的方法进行评估。
目前有很多的检测方法用于实时的视频目标检测,但是检测速度和检测精度始终是目标检测任务中面临的重要挑战之一。从PASCALVOC数据集中选出部分图像进行实验,对比Tiny网络和本文网络的检测效果图,可以看出本文方法对图像中的物体有更好的分类和位置预测。
本发明的效果是:提出了一种新的采用密集连接方式的神经网络对图像中的目标进行检测。首先,使每一层卷积层的输出都来自于前面所有卷积层的输出,使低层特征始终可以被使用。其次,对上采样的特征层进行跨层连接,增加预测层,提升对小目标的预测以及目标的定位。通过对特征的重复利用以及增加预测层,从而获得更为精确的检测结果。本文方法在准确性、检测速度、目标定位方面优于原Tiny结构,且对遮挡目标及小目标也有良好的检测结果,该方法精度高、检测速度快、鲁棒性好,在视频监控系统中具有广阔的应用前景,表1为本发明采用的密集连接神经网络结构。
表1
附图说明
图1a、1b、1c、1d为原Tiny结构的检测效果图;
图2a、2b、2c、2d为本文方法的检测效果图。
具体实施方式
见图1a-图2d,一种实时的视频目标检测方法,包括:
1)数据集来源于PASCALVOC公共数据库,该数据库为图像识别和分类提供了一整套标准化的数据集;2)用层数更多的卷积神经网络替代层数少的网络,通过对特征的重复利用,使训练的模型对物体的分类以及位置的预测更为精确;
3)通过卷积层的跨层连接,再通过上采样操作增加预测层得到目标的分类及位置;
4)单纯进行上采样得到的分割结果比较粗糙,连接上采样层和低层卷积层的特征得到了更为精确的目标分类和定位结果。
本发明将实时的视频目标检测视为一个模式的转化问题,即目标的分类为第一模式,目标的定位为第二模式;采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系。
本发明用层数更多的卷积神经网络替代层数少的网络是:采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系;用损失函数表示当前神经网络分类及定位结果图与标准图之间的误差;在训练过程中反复迭代误差损失函数,当损失函数尽可能小时,训练得到模型已能够有效提取对视频目标的分类与定位的映射规律,通过所学到的规律准确检测视频中的目标;整个目标检测过程包括目标分类和目标定位两部分组成。
本发明基于密集连接的所述卷积神经网络架构设计了一个能够有效提取图像特征的神经网络;该网络包含特征的提取和特征连接两部分;该网络的思想是连接低层的卷积层,提高对特征的重复利用,并在第一层预测层之后增加上采样操作,连接低层特征,提高对特征的利用,在大尺度上进行目标的分类及定位使目标的检测更为精确。
本发明采用的所述卷积神经网络是一种块密集连接架构,每一层卷积层都接收来自前面所有卷积层的输出,每一块中都有两层卷积层,其卷积核大小分别为1x1、3x3,且每个卷积层后都有一个激活函数leaky-ReLU;在连续几个块之后是一个大小为3x3,步长为2的卷积层,作用是降低图像分辨率,得到图像的深度特征;特征复用就是进行通道合并操作,使低层特征一直被使用,提高特征利用率,在上采样后将对于大小相同的低层特征进行通道合并,提升第二次预测的结果;神经网络的输入使需检测的图像,输出则是对图像中目标的分类及定位。
Claims (5)
1.一种实时的视频目标检测方法,其特征在于:
1)数据集来源于PASCALVOC公共数据库,该数据库为图像识别和分类提供了一整套标准化的数据集;
2)用层数更多的卷积神经网络替代层数少的网络,通过对特征的重复利用,使训练的模型对物体的分类以及位置的预测更为精确;
3)通过卷积层的跨层连接,再通过上采样操作增加预测层得到目标的分类及位置;
4)单纯进行上采样得到的分割结果比较粗糙,连接上采样层和低层卷积层的特征得到了更为精确的目标分类和定位结果。
2.根据权利要求1所述的一种实时的视频目标检测方法,其特征在于,将实时的视频目标检测视为一个模式的转化问题,即目标的分类为第一模式,目标的定位为第二模式;采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系。
3.根据权利要求1所述的一种实时的视频目标检测方法,其特征在于,用层数更多的卷积神经网络替代层数少的网络是:采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系;用损失函数表示当前神经网络分类及定位结果图与标准图之间的误差;在训练过程中反复迭代误差损失函数,当损失函数尽可能小时,训练得到模型已能够有效提取对视频目标的分类与定位的映射规律,通过所学到的规律准确检测视频中的目标;整个目标检测过程包括目标分类和目标定位两部分组成。
4.根据权利要求1或2或3所述的一种实时的视频目标检测方法,其特征在于,基于密集连接的所述卷积神经网络架构设计了一个能够有效提取图像特征的神经网络;该网络包含特征的提取和特征连接两部分;该网络的思想是连接低层的卷积层,提高对特征的重复利用,并在第一层预测层之后增加上采样操作,连接低层特征,提高对特征的利用,在大尺度上进行目标的分类及定位使目标的检测更为精确。
5.根据权利要求1或2或3所述的一种实时的视频目标检测方法,其特征在于,采用的所述卷积神经网络是一种块密集连接架构,每一层卷积层都接收来自前面所有卷积层的输出,每一块中都有两层卷积层,其卷积核大小分别为1x1、3x3,且每个卷积层后都有一个激活函数leaky-ReLU;在连续几个块之后是一个大小为3x3,步长为2的卷积层,作用是降低图像分辨率,得到图像的深度特征;特征复用就是进行通道合并操作,使低层特征一直被使用,提高特征利用率,在上采样后将对于大小相同的低层特征进行通道合并,提升第二次预测的结果;神经网络的输入使需检测的图像,输出则是对图像中目标的分类及定位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811346329.8A CN109508672A (zh) | 2018-11-13 | 2018-11-13 | 一种实时的视频目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811346329.8A CN109508672A (zh) | 2018-11-13 | 2018-11-13 | 一种实时的视频目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109508672A true CN109508672A (zh) | 2019-03-22 |
Family
ID=65748312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811346329.8A Pending CN109508672A (zh) | 2018-11-13 | 2018-11-13 | 一种实时的视频目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109508672A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316058A (zh) * | 2017-06-15 | 2017-11-03 | 国家新闻出版广电总局广播科学研究院 | 通过提高目标分类和定位准确度改善目标检测性能的方法 |
CN107563405A (zh) * | 2017-07-19 | 2018-01-09 | 同济大学 | 基于多分辨率神经网络的车库自动驾驶语义目标识别方法 |
CN107886117A (zh) * | 2017-10-30 | 2018-04-06 | 国家新闻出版广电总局广播科学研究院 | 基于多特征提取和多任务融合的目标检测算法 |
CN108182456A (zh) * | 2018-01-23 | 2018-06-19 | 哈工大机器人(合肥)国际创新研究院 | 一种基于深度学习的目标检测模型及其训练方法 |
WO2018157862A1 (zh) * | 2017-03-02 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 车型的识别方法和装置、存储介质、电子装置 |
CN108509978A (zh) * | 2018-02-28 | 2018-09-07 | 中南大学 | 基于cnn的多级特征融合的多类目标检测方法及模型 |
-
2018
- 2018-11-13 CN CN201811346329.8A patent/CN109508672A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018157862A1 (zh) * | 2017-03-02 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 车型的识别方法和装置、存储介质、电子装置 |
CN107316058A (zh) * | 2017-06-15 | 2017-11-03 | 国家新闻出版广电总局广播科学研究院 | 通过提高目标分类和定位准确度改善目标检测性能的方法 |
CN107563405A (zh) * | 2017-07-19 | 2018-01-09 | 同济大学 | 基于多分辨率神经网络的车库自动驾驶语义目标识别方法 |
CN107886117A (zh) * | 2017-10-30 | 2018-04-06 | 国家新闻出版广电总局广播科学研究院 | 基于多特征提取和多任务融合的目标检测算法 |
CN108182456A (zh) * | 2018-01-23 | 2018-06-19 | 哈工大机器人(合肥)国际创新研究院 | 一种基于深度学习的目标检测模型及其训练方法 |
CN108509978A (zh) * | 2018-02-28 | 2018-09-07 | 中南大学 | 基于cnn的多级特征融合的多类目标检测方法及模型 |
Non-Patent Citations (3)
Title |
---|
彭刚等: "改进的基于区域卷积神经网络的微操作系统目标检测方法", 《模式识别与人工智能》 * |
王新立等: "基于改进卷积神经网络的船舶目标检测", 《中国航海》 * |
董晶等: "无人机视频运动目标实时检测及跟踪", 《应用光学》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107330437B (zh) | 基于卷积神经网络目标实时检测模型的特征提取方法 | |
CN109711326A (zh) | 一种基于浅层残差网络的视频目标检测方法 | |
US10860879B2 (en) | Deep convolutional neural networks for crack detection from image data | |
CN105809693B (zh) | 基于深度神经网络的sar图像配准方法 | |
CN103440654B (zh) | 一种lcd异物缺陷检测方法 | |
CN104023230B (zh) | 一种基于梯度关联性的无参考图像质量评价方法 | |
CN105608454B (zh) | 基于文字结构部件检测神经网络的文字检测方法及系统 | |
CN101833664A (zh) | 基于稀疏表达的视频图像文字检测方法 | |
CN111611874B (zh) | 基于ResNet和Canny的人脸口罩佩戴检测方法 | |
Bo et al. | Particle pollution estimation from images using convolutional neural network and weather features | |
CN106874826A (zh) | 人脸关键点跟踪方法和装置 | |
CN109598249B (zh) | 服饰检测方法和装置、电子设备、存储介质 | |
CN103971106B (zh) | 多视角人脸图像性别识别方法及装置 | |
CN101329402B (zh) | 基于改进Wedgelet的多尺度SAR图像边缘检测方法 | |
CN101930549B (zh) | 基于第二代曲线波变换的静态人体检测方法 | |
CN107730515A (zh) | 基于区域增长和眼动模型的全景图像显著性检测方法 | |
CN109978872B (zh) | 基于白质纤维束的白质微结构特征筛选系统及方法 | |
US20230360390A1 (en) | Transmission line defect identification method based on saliency map and semantic-embedded feature pyramid | |
CN109509170A (zh) | 一种压铸件缺陷检测方法及装置 | |
CN106874913A (zh) | 一种菜品检测方法 | |
CN110349167A (zh) | 一种图像实例分割方法及装置 | |
CN103413149B (zh) | 复杂背景中实现静态目标检测和识别的方法 | |
CN109145843A (zh) | 一种卡口高清相机全车信息识别系统及方法 | |
CN109145846A (zh) | 材料微观结构智能识别分析系统及分析方法 | |
CN105869148A (zh) | 目标检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190322 |