CN110363100A - 一种基于YOLOv3的视频目标检测方法 - Google Patents

一种基于YOLOv3的视频目标检测方法 Download PDF

Info

Publication number
CN110363100A
CN110363100A CN201910548173.XA CN201910548173A CN110363100A CN 110363100 A CN110363100 A CN 110363100A CN 201910548173 A CN201910548173 A CN 201910548173A CN 110363100 A CN110363100 A CN 110363100A
Authority
CN
China
Prior art keywords
yolov3
bounding box
detection method
feature
video object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910548173.XA
Other languages
English (en)
Inventor
刘辉
杨旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910548173.XA priority Critical patent/CN110363100A/zh
Publication of CN110363100A publication Critical patent/CN110363100A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于YOLOv3的视频目标检测方法,属于目标检测和计算机视觉技术领域。首先使用检测的图像定义视觉任务。利用特征网络对输入图像提取特征,得到一定尺寸的特征图,例如13*13,然后将输入分成13*13个网络单元,然后如果groundtruth中某个物体的中心坐标落在那个网络单元中,那么该网络单元来预测该物体。通过YOLOLv3采用多标签分类和多个规模融合的方式做预测本发明结合深度学习卷积神经网络思想,利用卷积特征替代传统手工特征,避免了传统检测问题中特征选择问题。深层卷积特征具有更好的表达能力同时解决了视频目标检测问题提供了更加泛化和简洁的解决思路。对于小目标检测效果提升有显著的效果。

Description

一种基于YOLOv3的视频目标检测方法
技术领域
本发明涉及一种基于YOLOv3的视频目标检测方法,属于目标检测和计算机视觉技术领域。
背景技术
视频目标检测技术是智能化视频分析的基础。目前几种常用的视频目标检测方法简介如下:背景减除、时间差分、光流。
背景减除(Background Subtraction)方法是目前运动检测中最常用的一种方法,它是利用当前图像与背景图像的差分来检测出运动目标的一种技术。它一般能够提供相对来说比较全面的运动目标的特征数据,但对于动态场景的变化,如光线照射情况和外来无关事件的干扰等也特别敏感。实际上,背景的建模是背景减除方法的技术关键。最简单的背景模型是时间平均图像,即利用同一场景在一个时段的平均图像作为该场景的背景模型。由于该模型是固定的,一旦建立之后,对于该场景图像所发生的任何变化都比较敏感,比如阳光照射方向,影子,树叶随风摇动等。大部分的研究人员目前都致力于开发更加实用的背景模型,以期减少动态场景变化对于运动目标检测效果的影响。
时间差分(Temporal Difference又称相邻帧差)方法充分利用了视频图像的特征,从连续得到的视频流中提取所需要的动态目标信息。在一般情况下采集的视频图像,若仔细对比相邻两帧,可以发现其中大部分的背景像素均保持不变。只有在有前景移动目标的部分相邻帧的像素差异比较大。时间差分方法就是利用相邻帧图像的相减来提取出前景移动目标的信息的。我们利用连续的图像序列中两个或三个相邻帧之间的时间差分,并且用阈值来提取出视频图像中的运动目标的方法。我们采用三帧差分的方法,即当某一个像素在连续三帧视频图像上均有相当程度的变化(及大于设定的阈值时),我们便确定该像素属于运动目标。时间差分运动检测方法对于动态环境具有较强的自适应性,但一般不能完全提取出所有相关的特征像素点,在运动实体内部容易产生空洞现象,只能够检测到目标的边缘。而且,当运动目标停止运动时,一般时间差分方法便失效。
基于光流方法(Optical Flow)的运动检测采用了运动目标随时间变化的光流特性,如Meyer等作者通过计算位移向量光流场来初始化基于轮廓的跟踪算法,从而有效地提取和跟踪运动目标。该方法的优点是在所摄场所运动存在的前提下也能检测出独立的运动目标。然而,大多数的光流计算方法相当复杂,且抗噪性能差,如果没有特别的硬件装置则不能被应用于全帧视频流的实时处理。
当然,在运动检测中还有一些其它的方法,如运动向量检测法,它适合于多维变化的环境,能消除背景中的振动像素,使某一方向的运动对象更加突出的显示出来。但是,运动向量检测法也不能精确地分割出对象。
发明内容
本发明要解决的技术问题是提供一种基于YOLOv3的视频目标检测方法,用于解决视频目标检测特征选择的困难和识别率不高、受深度旋转影响较大、图像中的亮度、对比度的变化和阴影的影响、以及对小目标检测精度不高的问题。
本发明的技术方案是:一种基于YOLOv3的视频目标检测方法,在基本特征提取器中增加了几个卷积层,并用最后的卷积层预测一个三维张量编码:边界框、框中目标和分类预测。再对每个边界框通过逻辑回归预测目标物体的得分,如果预测的这个边界框与真实的边框值大部分重合且比其他所有预测的要好,那么这个值就为1.如果重复比没有达到一个阈值(yolov3中这里设定的阈值是0.5),那么这个预测的边界框将会被忽略,也就是会显示成没有损失值。
具体为:
Step1:定义视频视觉任务;
Step2:通过特征网络对输入图像提取特征,得到一定尺寸的特征图;
Step3:通过groundtruth中的物体中心坐标在那个网络单元中,接着由该网络单元来预测该物体;
Step4、利用边界框中和groundtruth的IOU最大的边界框来预测该物体。
所述步骤step2中图像采用448*448,特征网络采用Darknet-53架构,Darknet-53包含卷积层,池化层,Softmax层,一方面基本采用全卷积,另一方面引入了residul结构,该结构避免了相类似于VGG那样直筒型的网络结构,层数太多训练起来会有梯度问题,因此采用了residul结构,大大的减轻了网络训练难度。该网络采用Softmax分类器做训练,学习率0.001,批量大小为64,为采用批量标准化对权重参数和偏置参数进行迭代训练,设置权重衰减速率weight_decay默认为0.0001,动力为0.9,批量标准化的衰减速率默认为0.997,池化层采用平均池化方式,同时将最大池化的Padding的模式设为SAME,迭代测试40200次。
所述步骤step3中采用跨尺度的预测,YOLOv3有三个尺度预测边界框,使用特征提取模型通过FPN(feature pyramid network)网络上进行改变,YOLOv3使用K-Means聚类来得到边界框,选择9个簇以及3个尺度,然后将这9个簇均匀的分布在这几个尺度上。
所述步骤step4中每个通过边界框回归预测一个物体的得分,如果预测的这个边界框与真实的边框值重合度超过一半且优于其他所有预测,那么这个值就为1;如果overlap没有达到一个阈值(设定的阈值是0.5),那么这个预测的边界框将会被忽略,也就是会显示成没有损失值。
本发明的有益效果是:在YOLOv3的视频目标检测方法中精度有较大的提高,优化了网络结构,在识别的速度上有一定的提高,对小目标检测有很好的精度。
附图说明
图1是本发明的流程图;
图2是本发明所采用的Darknet-53模型图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-2所示,一种基于YOLOv3的视频目标检测方法,首先使用检测的图像定义视觉任务。利用特征网络对输入图像提取特征,得到一定尺寸的特征图,例如13*13,然后将输入分成13*13个网络单元,然后如果groundtruth中某个物体的中心坐标落在那个网络单元中,那么该网络单元来预测该物体。通过YOLOLv3采用多标签分类和多个规模融合的方式做预测本发明结合深度学习卷积神经网络思想,利用卷积特征替代传统手工特征,避免了传统检测问题中特征选择问题。
具体为:
Step1:定义视频视觉任务;
Step2:通过特征网络对输入图像提取特征,得到一定尺寸的特征图;
Step3:通过groundtruth中的物体中心坐标在那个网络单元中,接着由该网络单元来预测该物体;
Step4、利用边界框中和groundtruth的IOU最大的边界框来预测该物体。
所述步骤step2中图像采用448*448,特征网络采用Darknet-53架构,Darknet-53包含卷积层,池化层,Softmax层,采用全卷积,引入residul结构,采用Softmax分类器做训练,学习率0.001,批量大小为64,为采用批量标准化对权重参数和偏置参数进行迭代训练,设置权重衰减速率weight_decay默认为0.0001,动力为0.9,批量标准化的衰减速率默认为0.997,池化层采用平均池化方式,同时将最大池化的Padding的模式设为SAME,迭代测试40200次。
所述步骤step3中采用跨尺度的预测,YOLOv3有三个尺度预测边界框,使用特征提取模型通过FPN网络上进行改变,YOLOv3使用K-Means聚类来得到边界框,选择9个簇以及3个尺度,然后将这9个簇均匀的分布在这几个尺度上。
所述步骤step4中每个通过边界框回归预测一个物体的得分,如果预测的这个边界框与真实的边框值重合度超过一半且优于其他所有预测,那么这个值就为1;如果overlap没有达到设定的阈值,那么这个预测的边界框显示为没有损失值。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.一种基于YOLOv3的视频目标检测方法,其特征在于:
Step1:定义视频视觉任务;
Step2:通过特征网络对输入图像提取特征,得到一定尺寸的特征图;
Step3:通过groundtruth中的物体中心坐标在那个网络单元中,接着由该网络单元来预测该物体;
Step4、利用边界框中和groundtruth的IOU最大的边界框来预测该物体。
2.根据权利要求1所述的基于YOLOv3的视频目标检测方法,其特征在于:所述步骤step2中图像采用448*448,特征网络采用Darknet-53架构,Darknet-53包含卷积层,池化层,Softmax层,采用全卷积,引入residul结构,采用Softmax分类器做训练,学习率0.001,批量大小为64,为采用批量标准化对权重参数和偏置参数进行迭代训练,设置权重衰减速率weight_decay默认为0.0001,动力为0.9,批量标准化的衰减速率默认为0.997,池化层采用平均池化方式,同时将最大池化的Padding的模式设为SAME,迭代测试40200次。
3.根据权利要求1所述的基于YOLOv3的视频目标检测方法,其特征在于:所述步骤step3中采用跨尺度的预测,YOLOv3有三个尺度预测边界框,使用特征提取模型通过FPN网络上进行改变,YOLOv3使用K-Means聚类来得到边界框,选择9个簇以及3个尺度,然后将这9个簇均匀的分布在这几个尺度上。
4.根据权利要求1所述的基于YOLOv3的视频目标检测方法,其特征在于:所述步骤step4中每个通过边界框回归预测一个物体的得分,如果预测的这个边界框与真实的边框值重合度超过一半且优于其他所有预测,那么这个值就为1;如果overlap没有达到设定的阈值,那么这个预测的边界框显示为没有损失值。
CN201910548173.XA 2019-06-24 2019-06-24 一种基于YOLOv3的视频目标检测方法 Pending CN110363100A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910548173.XA CN110363100A (zh) 2019-06-24 2019-06-24 一种基于YOLOv3的视频目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910548173.XA CN110363100A (zh) 2019-06-24 2019-06-24 一种基于YOLOv3的视频目标检测方法

Publications (1)

Publication Number Publication Date
CN110363100A true CN110363100A (zh) 2019-10-22

Family

ID=68215910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910548173.XA Pending CN110363100A (zh) 2019-06-24 2019-06-24 一种基于YOLOv3的视频目标检测方法

Country Status (1)

Country Link
CN (1) CN110363100A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144236A (zh) * 2019-12-10 2020-05-12 华南师范大学 一种蜚蠊交配行为分析的方法、系统及存储介质
CN111353544A (zh) * 2020-03-05 2020-06-30 天津城建大学 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN111898539A (zh) * 2020-07-30 2020-11-06 国汽(北京)智能网联汽车研究院有限公司 一种多目标检测方法、装置、系统、设备及可读存储介质
CN113705423A (zh) * 2021-08-25 2021-11-26 西安电子科技大学 基于改进YOLOv3算法的红外车辆快速检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117794A (zh) * 2018-08-16 2019-01-01 广东工业大学 一种运动目标行为跟踪方法、装置、设备及可读存储介质
CN109508710A (zh) * 2018-10-23 2019-03-22 东华大学 基于改进YOLOv3网络的无人车夜间环境感知方法
CN109657584A (zh) * 2018-12-10 2019-04-19 长安大学 辅助驾驶的改进LeNet-5融合网络交通标志识别方法
CN109784278A (zh) * 2019-01-17 2019-05-21 上海海事大学 基于深度学习的海上弱小运动船舶实时检测方法
CN109815886A (zh) * 2019-01-21 2019-05-28 南京邮电大学 一种基于改进YOLOv3的行人和车辆检测方法及系统
CN109829429A (zh) * 2019-01-31 2019-05-31 福州大学 基于YOLOv3的监控场景下的安防敏感物品检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117794A (zh) * 2018-08-16 2019-01-01 广东工业大学 一种运动目标行为跟踪方法、装置、设备及可读存储介质
CN109508710A (zh) * 2018-10-23 2019-03-22 东华大学 基于改进YOLOv3网络的无人车夜间环境感知方法
CN109657584A (zh) * 2018-12-10 2019-04-19 长安大学 辅助驾驶的改进LeNet-5融合网络交通标志识别方法
CN109784278A (zh) * 2019-01-17 2019-05-21 上海海事大学 基于深度学习的海上弱小运动船舶实时检测方法
CN109815886A (zh) * 2019-01-21 2019-05-28 南京邮电大学 一种基于改进YOLOv3的行人和车辆检测方法及系统
CN109829429A (zh) * 2019-01-31 2019-05-31 福州大学 基于YOLOv3的监控场景下的安防敏感物品检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144236A (zh) * 2019-12-10 2020-05-12 华南师范大学 一种蜚蠊交配行为分析的方法、系统及存储介质
CN111144236B (zh) * 2019-12-10 2024-04-26 华南师范大学 一种蜚蠊交配行为分析的方法、系统及存储介质
CN111353544A (zh) * 2020-03-05 2020-06-30 天津城建大学 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN111353544B (zh) * 2020-03-05 2023-07-25 天津城建大学 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN111898539A (zh) * 2020-07-30 2020-11-06 国汽(北京)智能网联汽车研究院有限公司 一种多目标检测方法、装置、系统、设备及可读存储介质
CN113705423A (zh) * 2021-08-25 2021-11-26 西安电子科技大学 基于改进YOLOv3算法的红外车辆快速检测方法
CN113705423B (zh) * 2021-08-25 2024-05-17 西安电子科技大学 基于改进YOLOv3算法的红外车辆快速检测方法

Similar Documents

Publication Publication Date Title
Kim et al. Deep-hurricane-tracker: Tracking and forecasting extreme climate events
CN110363100A (zh) 一种基于YOLOv3的视频目标检测方法
CN112733656B (zh) 基于多流空间注意力图卷积sru网络的骨架动作识别方法
CN105243356B (zh) 一种建立行人检测模型的方法及装置及行人检测方法
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN110298297A (zh) 火焰识别方法和装置
CN104281853A (zh) 一种基于3d卷积神经网络的行为识别方法
CN111626090B (zh) 一种基于深度帧差卷积神经网络的运动目标检测方法
CN103488993A (zh) 一种基于fast的人群异常行为识别方法
CN103258332A (zh) 一种抗光照变化的运动目标检测方法
CN108491766A (zh) 一种端到端的基于深度决策森林的人群计数方法
Varior et al. Multi-scale attention network for crowd counting
Yin et al. G2Grad-CAMRL: an object detection and interpretation model based on gradient-weighted class activation mapping and reinforcement learning in remote sensing images
Xiong et al. Contextual Sa-attention convolutional LSTM for precipitation nowcasting: A spatiotemporal sequence forecasting view
CN111709300A (zh) 基于视频图像的人群计数方法
CN109919246A (zh) 基于自适应特征聚类和多重损失融合的行人重识别方法
CN112258525B (zh) 一种基于鸟类高帧频序列图像丰度统计和种群识别算法
CN109166137A (zh) 针对抖动视频序列中运动目标检测算法
CN115661505A (zh) 一种语义感知的图像阴影检测方法
CN113405667A (zh) 基于深度学习的红外热人体姿态识别方法
CN118115927B (zh) 目标追踪方法、装置、计算机设备、存储介质及程序产品
Tao et al. An adaptive frame selection network with enhanced dilated convolution for video smoke recognition
CN117541994A (zh) 一种密集多人场景下的异常行为检测模型及检测方法
CN114067251A (zh) 一种无监督监控视频预测帧异常检测方法
CN109544516A (zh) 图像检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191022

RJ01 Rejection of invention patent application after publication