CN112395957B - 一种针对视频目标检测的在线学习方法 - Google Patents
一种针对视频目标检测的在线学习方法 Download PDFInfo
- Publication number
- CN112395957B CN112395957B CN202011174089.5A CN202011174089A CN112395957B CN 112395957 B CN112395957 B CN 112395957B CN 202011174089 A CN202011174089 A CN 202011174089A CN 112395957 B CN112395957 B CN 112395957B
- Authority
- CN
- China
- Prior art keywords
- target
- model
- detection
- data set
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000012937 correction Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000002372 labelling Methods 0.000 claims abstract description 13
- 238000005259 measurement Methods 0.000 claims abstract description 5
- 230000008859 change Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims description 2
- 230000006872 improvement Effects 0.000 abstract description 4
- 238000007621 cluster analysis Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
Abstract
本发明公开了一种针对视频目标检测的在线学习方法,属于机器视觉领域。包括模型预训练、目标检测、跟踪修正、标注修正、关键帧提取和模型迭代更新。先利用开源或自标注数据集训练一个基础版本的当前模型;利用当前模型对视频序列进行预检测;利用改进的KCF跟踪算法和基于特征空间的k近邻算法对预检测结果分别进行方框修正和标注修正;利用基于特征空间相似度度量的关键帧提取方法,提取视频关键帧,去除重复图像;利用关键帧数据和修正检测结果对模型进行训练,实现模型的迭代更新。本发明该方法通过跟踪算法和聚类分析对检测和标注结果进行修正,利用修正后的结果重新训练目标检测模型,实现模型性能的不断改进,实现应用场景的自适应。
Description
技术领域
本发明属于深度学习、机器视觉领域,尤其涉及的是一种针对视频目标检测的在线学习方法。
背景技术
目标检测即找出图像中所感兴趣的物体,包含物体定位和物体分类两个子任务,是机器视觉领域的基本任务之一,在智能交通、智能制造、安防监控、自动驾驶等领域有着广泛的应用。随着深度学习的发展,目标检测算法也逐步从基于手工特征的传统算法转向基于神经网络的深度学习算法。目前目标检测的研究主要侧重两个方向:基于图像的目标检测和基于视频的目标检测。
基于图像的目标检测算法首先被提出,分为one-stage和two-stage两类方法。Two-stage方法沿用传统的目标检测流程,包含候选区域选取、特征提取和分类/回归等三部分。其中比较经典的算法是Region-based CNN(R-CNN)系列网络,经历了由R-CNN到FastR-CNN到Faster R-CNN的不断改进。One-stage算法简化了two-stage的步骤,将目标检测问题转换为分类和回归问题,引入一个统一的框架,直接将输入图片像素映射为目标方框和目标类别,速度大大提升,比较经典的有Single Shot MultiBox Detector(SSD)和YouOnly Look Once(YOLO)系列。
对于视频数据来说,尽管视频也可以被分解为一帧一帧的图像,借助图像目标检测算法进行检测,但是视频中还包含了时序上下文关系,例如目标在相邻视频帧中位置的连续性等,如果能充分利用这些特性,可以大大提高视频目标检测的精度和速度。这类算法一般是基于循环神经网路,比较经典的有Temporal Convolution Network(TCN)、Spatial-Temporal Memory Network(STMM)、Recurrent YOLO(ROLO)等。
但是,不管是基于图像的还是基于视频的算法,以往的方法一般都是采用特定的数据集(开源或者自标注)进行模型训练。基于深度学习的算法存在一个很强的假设:测试数据集分布与训练数据集分布一致。所以,不管是基于图像还是基于视频,深度学习算法存在域适配问题,也就是说,很难通过单一的目标检测模型来实现全域的检测。当场景变化时,为了使检测器达到一定精度,往往需要重新采集数据,人工标注,然后重新训练模型,需要投入大量的人力和时间。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提出一种针对视频目标检测的在线学习方法,该方法通过跟踪算法和聚类分析对检测和标注结果进行修正,然后,利用修正后的结果重新训练目标检测模型,实现模型性能的不断改进,实现应用场景的自适应。
本发明为解决其技术问题所采用的技术方案是:提供了一种针对视频目标检测的在线学习方法,包括以下步骤:
步骤1:准备基础数据集,该数据集可以是开源数据集或针对某一特定场景采集并进行人工标注的数据集,训练改进的YOLOv3目标检测网络,获得基础目标检测模型作为当前模型;
步骤2:利用当前模型对视频序列进行预检测,获取初始检测方框和目标类别;
步骤3:利用跟踪算法和k近邻算法对预检测结果进行方框修正和标注修正;
步骤4:提取视频关键帧,以压缩数据集大小,取出重复图像;
步骤5:利用关键帧数据和修正检测结果对模型进行训练,实现模型的迭代更新;
步骤6:回到步骤2,重复以上操作。
步骤1所述的改进的YOLOv3模型的优选技术方案为:将原有YOLOv3的特征提取网络Darknet53替换为OSNet,后续网络与原有网络一致,采用三层金字塔结构,进行不同尺度下的目标检测,特征金字塔中的上采样方法采用逆卷积神经网络实现,计算BBox的损失函数时用GIOU代替原来的MSE,形成改进的YOLOv3模型。
本发明所述方法进一步的优选技术方案是:
步骤1所述的模型训练的的工作步骤包括:
步骤1.1:收集开源数据集,或采集特定场景下的视频数据,人工标注检测目标位置方框和目标类别,建立数据集;
步骤1.2:对数据集进行旋转、平移、缩放和镜像变换、添加随机白噪音、亮度、色度和饱和度变化等,扩充数据集,同时将数据集随机分为训练集、验证集和测试集,其比例为6:2:2;
步骤1.3:用生成的扩充数据集,利用随机梯度法训练改进的YOLOv3模型,得到基础目标检测模型作为当前模型。
本发明所述方法进一步的优选技术方案是:
步骤2所述的预检测步骤包括:
步骤2.1:将视频图像帧一帧一帧地送入当前模型,作为输入,进行前向推理得到模型输出;
步骤2.2:对模型输出进行解析,提取目标方框和目标标注;
步骤2.3:对得到的检测目标进行极大抑制算法(NMS),剔除重复目标,得到最终检测目标,作为预检测结果。
本发明所述方法进一步的优选技术方案是:
步骤3所述的方框修正步骤包括:
步骤3.1:对于第n帧图像的所有预检测目标都初始化一个KCF跟踪器,分别进行正向和负向跟踪,得到邻近图像帧中的跟踪目标。
步骤3.2:对于临近帧k,计算其与前一帧的帧间差分图像,获取运动目标概率图;
步骤3.3:对于k帧中的每个跟踪目标,判断其是否静止,如果该目标处于运动状态,则根据运动目标概率图计算该目标的运动目标概率,如果该值小于给定阈值,则认为该目标跟踪失败,停止跟踪;
步骤3.4:对每一帧都进行上述处理,则可以得到所有图像中由跟踪器捕捉到的目标方框;
步骤3.5:将检测模型得到的目标方框与跟踪器捕捉到的目标方框进行融合,同时进行极大抑制算法(NMS)得到修正后的目标方框。
本发明所述方法进一步的优选技术方案是:
步骤3所述的标注修正步骤包括:
步骤3.6:获取ImageNet预训练VGG16网络模型;
步骤3.7:将检测得到的每个目标方框缩放到统一尺寸(224*224),然后传入VGG16网络,得到1000维的特征向量;
步骤3.8:计算不同目标特征之间的欧式距离作为目标相似度度量方式;
步骤3.9:对于每个检测目标,通过k近邻算法找出与其最近的k个目标,然后采用投票机制决定该检测目标的目标类别。
本发明所述方法进一步的优选技术方案是:
步骤4所述的关键帧提取方法步骤包括:
步骤4.1:将每帧图像通过目标检测网络的特征提取网络的输出作为图像特征提取出来;
步骤4.2:利用欧式距离计算图像特征之间的相似度;
步骤4.3:在时间轴上找出相似度的的局部极大值作为视频关键帧提取出来。
本发明所述方法进一步的优选技术方案是:
步骤5所述的模型迭代更新步骤包括:
步骤5.1:用提取的视频关键帧和其对于的修正后的目标方框和标注重构数据集,同时,对数据集进行旋转、平移、缩放和镜像变换、添加随机白噪音、亮度、色度和饱和度变化等,扩充数据集;
步骤5.2:将新数据集划分为训练集、验证集和测试集,其比例为6:2:2;
步骤5.3:采用新数据集,利用随机梯度法训练改进的YOLOv3模型,得到改进模型,更新当前模型。
与现有技术相比,本发明的有益效果在于:
1、本发明一种针对视频目标检测的在线学习方法,能够针对同类不同场景(例如交通监控中的不同路口)实现精准的目标检测,而不需要针对不同的场景专门收集数据,进行人工标注。利用开源数据集或者针对特定场景的自标注数据集训练的深度学习目标检测模型,受泛化能力制约,这种模型在新场景下的检测效果会下降,会出现漏检情况,为了提升模型在新场景下的检测精度。本发明方法使得模型具有场景适应能力。首先,利用该基础模型对目标视频序列进行检测,获取初步检测结果,然后利用目标跟踪算法,对检测到的目标进行前向和后向跟踪,获取该目标在临近视频帧中的位置,进而对检测结果进行修正,同时通过提取检测目标的特征,利用k近邻算法对目标标注进行修正,获取更加精准的检测结果。最后,提取视频关键帧,重新训练目标检测模型,该过程不断进行,不断适应场景的变化。
2、本发明方法将YOLOv3的特征提取网络用OSNet网络替代,能够在不降低精度的情况下,大大降低网络的参数个数,降低GPU内存消耗,同时提高计算效率;引入边框修正和标注修正,能够使网路不断更新,适应新场景变化,而不降低检测精度;关键帧提取技术的引入能够大大降低视频数据中的冗余信息,减少训练数据集大小,提升模型训练效率。
附图说明
图1为一种针对视频目标检测的在线学习方法的流程图;
图2为改进YOLOv3的网络结构图;
图3为跟踪算法流程图;
图4为基于k近邻算法的标注修正示意图;
图5为关键帧提取方法流程图。
具体实施方式
以下进一步描述本发明的具体技术方案,以便于本领域的技术人员进一步地理解本发明,而不构成对其权利的限制。
实施例1,一种针对视频目标检测的在线学习方法,借助方框修正和标注修正不断改进现有模型,实现场景自适应。如图1所示,该方法包括以下步骤:
步骤1:准备基础数据集,训练基础网络模型
基础数据集可以采用开源数据集,或者针对某一特定场景采集视频数据,人工标注出检测目标位置方框和目标类别,建立数据集,然后,对数据集进行旋转、平移、缩放和镜像变换、添加随机白噪音、亮度、色度和饱和度变化等,扩充数据集,最后,将扩充后的数据集随机分为训练集、验证集和测试集,其比例可根据需求自行决定,一般须满足训练集的数据量大于验证集和测试集,推荐选为6:2:2。
目标检测网络采用改进的YOLOv3,其结构如图2所示,由特征提取层和目标检测层组成。其中,特征提取层由全尺度网络(OSNet)构建,目标检测层采用金字塔三层结构实现多尺度检测。
特征提取层的前两层分别为卷积层和池化层,其中stride大小均为2,后面紧跟3个BLOCK结构,每个BLOCK结构由两个OSNet的bottleneck结构、一层卷积层和一侧池化层组成,其中池化层的stride为2,卷积层的stride为1。目标检测层中的每层检测网络由卷积序列层(Conv Set)、卷积层和YOLO层组成,其中卷积层的stride均为1。金字塔结构的不同层之间的连接通过一层卷积层和一层反卷积层组成,这里采用反卷积层实现上采样过程。同时,第二层Conv Set的输入与第二层BLOCK的输出进行融合,通过shortcut方式实现,第三层Conv Set的输入与第一层BLOCK的输出进行融合,通过shortcut方式实现。YOLO层anchors的大小由聚类算法给出,得到9个聚类中心,每一层分配3个anchors。
模型训练中采用的BBox回归损失函数为GIOU,利用随机梯度法进行模型训练。
步骤2:利用当前模型对视频序列进行预检测,获取初始检测方框和目标类别
首先,将视频图像帧一帧一帧地送入当前模型,作为输入,进行前向推理得到模型输出;然后,对模型输出进行解析,提取目标方框和目标标注;最后,对得到的检测目标进行极大抑制算法(NMS),剔除重复目标,得到最终检测目标,作为预检测结果。
步骤3:方框修正和标注修正
该步骤利用跟踪算法和k近邻算法对预检测结果进行方框修正和标注修正。
方框修正的具体流程如图3所示。首先,计算帧间差分图,进行阈值化出来,没有变化的像素单元格用0表示,有变化的单元格用1表示,为后续的运动目标概率计算做准备;然后,遍历前一步骤得到的所有检测结果,为每一个检测目标建立KCF跟踪器。同时对目标进行前向和后向跟踪,直到跟踪失败,停止跟踪。跟踪失败的判定有以下步骤给出,首先判断目标是否处于静止状态,如果目标静止,则认为目标跟踪成功,否则,利用帧间差分图计算运动目标概率,即检测目标范围内的帧间差分图的像素均值,如果阈值大于给定阈值,认为该区域存在运动目标,跟踪成功,否则,认为跟踪失败;最后,更新目标方框。
标注修正的过程由图4给出。首先,将所有检测目标的图像区域,缩放到统一固定尺寸(224*224),传入ImageNet预训练的特征提取网络VGG16,得到1000维的特征向量;然后,计算不同目标特征之间的欧式距离作为目标相似度度量,对于每个检测目标,通过k近邻算法找出与其最近的k个目标,采用投票机制决定该目标的目标类别;最后更新所有目标的类别。
步骤4:关键帧提取
该步骤的具体过程如图5所示。首先,将目标检测网络的特征提取层的输出(即图2中第三个BLOCK的输出)作为图像特征提取出来;然后,计算特征之间的欧式距离来衡量图像之间的相似程度,数值越大,相似度越低;最后,在时间轴上找出相似度的局部极大值(图像差距大)作为视频关键帧提取出来。
步骤5:模型迭代更新
用提取的视频关键帧和其对应的修正后的目标方框和标注重构数据集,同时,对数据集进行旋转、平移、缩放和镜像变换、添加随机白噪音、亮度、色度和饱和度变化等,扩充数据集。将新数据集划分为训练集、验证集和测试集,其比例可选为6:2:2。采用新数据集,利用随机梯度法训练改进的YOLOv3模型,得到改进模型,更新当前模型。
采用上述本发明实施例所提供的在线学习方法能够提高现有目标检测模型的场景适应能力和泛化能力,能够使得利用特定场景训练的目标检测模型迁移到同类型的不同场景中,大大降低了模型对数据的依赖,降低了数据标注所需的人力和时间成本。
Claims (9)
1.一种针对视频目标检测的在线学习方法,其特征在于:该方法包括模型预训练、目标检测、跟踪修正、标注修正、关键帧提取和模型迭代更新,该方法具体包括如下步骤:
步骤1:利用开源或自标注数据集训练一个基础版本的改进YOLOv3目标检测模型,作为当前模型;
步骤2:利用当前模型对视频序列进行预检测,获取初始检测方框和目标类别;
步骤3:利用改进的KCF跟踪算法和基于特征空间的k近邻算法对预检测结果分别进行方框修正和标注修正;
步骤4:利用基于特征空间相似度度量的关键帧提取方法,提取视频关键帧,以压缩数据集大小,去除重复图像;
步骤5:利用关键帧数据和修正检测结果对模型进行训练,实现模型的迭代更新;
步骤6:回到步骤2,重复以上步骤2-步骤5操作;
步骤3所述方框修正的步骤包括:
步骤3.1:对于第n帧图像的所有预检测目标都初始化一个KCF跟踪器,分别进行正向和负向跟踪,得到邻近图像帧中的跟踪目标;
步骤3.2:对于临近帧k,计算其与前一帧的帧间差分图像,获取运动目标概率图;
步骤3.3:对于k帧中的每个跟踪目标,判断其是否静止,如果该目标处于运动状态,则根据运动目标概率图计算该目标的运动目标概率,如果运动目标概率值小于给定阈值,则认为该目标跟踪失败,停止跟踪;
步骤3.4:对每一帧都进行上述步骤3.1-步骤3.3处理,则可以得到所有图像中由跟踪器捕捉到的目标方框;
步骤3.5:将检测模型得到的目标方框与跟踪器捕捉到的目标方框进行融合,同时进行极大抑制算法NMS得到修正后的目标方框;
所述标注修正的步骤包括:
步骤3.6:获取ImageNet预训练VGG16网络模型;
步骤3.7:将检测得到的每个目标方框缩放到统一尺寸,然后传入VGG16网络,得到1000维的特征向量;
步骤3.8:计算不同目标特征之间的欧式距离作为目标相似度度量方式;
步骤3.9:对于每个检测目标,通过k近邻算法找出与其最近的k个目标,然后采用投票机制决定该检测目标的目标类别。
2.根据权利要求1所述的一种针对视频目标检测的在线学习方法,其特征在于:步骤1所述的改进的YOLOv3模型采用全尺度网络OSNet作为特征提取网络,特征金字塔中的上采样方法采用逆卷积神经网络实现,BBox的回归损失函数用GIOU替代MSE,anchors大小的选择仍采用聚类算法,得到9个聚类中心,形成改进的YOLOv3模型。
3.根据权利要求1所述的一种针对视频目标检测的在线学习方法,其特征在于:步骤3所述跟踪修正方法是:引入了帧间差分估计运动目标概率,首先利用跟踪算法对检测目标进行跟踪,判断目标是否静止,如果目标运动,则利用帧间差分获取方框目标概率,如果小于给定阈值,则认为跟踪失败,停止跟踪,利用跟踪结果进一步修正检测结果,即将跟踪到而未检测到的目标作为漏检目标添加到检测目标列表中。
4.根据权利要求1所述的一种针对视频目标检测的在线学习方法,其特征在于:步骤3所述标注修正方法是,利用神经网络获取检测目标的特征,通过k近邻算法对目标标注进行投票更新,修正检测结果标注。
5.根据权利要求1所述的一种针对视频目标检测的在线学习方法,其特征在于:步骤4所述的关键帧提取方法是:利用目标检测网络特征提取层的输出作为图像特征,计算图像之间的距离来衡量图像的相似度,选取相似度的局部极大值作为视频关键帧。
6.根据权利要求1-5中任何一项所述的一种针对视频目标检测的在线学习方法,其特征在于:步骤1所述的模型训练的工作步骤包括:
步骤1.1:收集开源数据集,或采集特定场景下的视频数据,人工标注检测目标位置方框和目标类别,建立数据集;
步骤1.2:对数据集进行旋转、平移、缩放和镜像变换、添加随机白噪音、亮度、色度和饱和度变化,扩充数据集,同时将数据集随机分为训练集、验证集和测试集,其比例为6:2:2;
步骤1.3:用生成的扩充数据集,利用随机梯度法训练改进的YOLOv3模型,得到基础目标检测模型作为当前模型。
7.根据权利要求1-5中任何一项所述的一种针对视频目标检测的在线学习方法,其特征在于:步骤2所述预检测的步骤包括:
步骤2.1:将视频图像帧一帧一帧地送入当前模型,作为输入,进行前向推理得到模型输出;
步骤2.2:对模型输出进行解析,提取目标方框和目标标注;
步骤2.3:对得到的检测目标进行极大抑制算法NMS,剔除重复目标,得到最终检测目标,作为预检测结果。
8.根据权利要求1-5中任何一项所述的一种针对视频目标检测的在线学习方法,其特征在于:步骤4所述的关键帧提取方法步骤包括:
步骤4.1:将每帧图像通过目标检测网络的特征提取网络的输出作为图像特征提取出来;
步骤4.2:利用欧式距离计算图像特征之间的相似度;
步骤4.3:在时间轴上找出相似度的局部极大值作为视频关键帧提取出来。
9.根据权利要求1-5中任何一项所述的一种针对视频目标检测的在线学习方法,其特征在于:步骤5所述的模型迭代更新步骤包括:
步骤5.1:用提取的视频关键帧和其对于的修正后的目标方框和标注重构数据集,同时,对数据集进行旋转、平移、缩放和镜像变换、添加随机白噪音、亮度、色度和饱和度变化,扩充数据集;
步骤5.2:将新数据集划分为训练集、验证集和测试集,其比例为6:2:2;
步骤5.3:采用新数据集,利用随机梯度法训练改进的YOLOv3模型,得到改进模型,更新当前模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011174089.5A CN112395957B (zh) | 2020-10-28 | 2020-10-28 | 一种针对视频目标检测的在线学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011174089.5A CN112395957B (zh) | 2020-10-28 | 2020-10-28 | 一种针对视频目标检测的在线学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112395957A CN112395957A (zh) | 2021-02-23 |
CN112395957B true CN112395957B (zh) | 2024-06-04 |
Family
ID=74598315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011174089.5A Active CN112395957B (zh) | 2020-10-28 | 2020-10-28 | 一种针对视频目标检测的在线学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395957B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095239B (zh) * | 2021-04-15 | 2024-07-23 | 湖南鸭梨数字科技有限公司 | 一种关键帧提取方法、终端及计算机可读存储介质 |
CN113256568A (zh) * | 2021-05-09 | 2021-08-13 | 长沙长泰智能装备有限公司 | 一种基于深度学习的机器视觉板材计数通用系统及方法 |
CN113763424B (zh) * | 2021-08-13 | 2024-03-29 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于嵌入式平台的实时智能目标检测方法及系统 |
CN114120220A (zh) * | 2021-10-29 | 2022-03-01 | 北京航天自动控制研究所 | 一种基于计算机视觉的目标检测方法和装置 |
CN114352486A (zh) * | 2021-12-31 | 2022-04-15 | 西安翔迅科技有限责任公司 | 一种基于分类的风电机组叶片音频故障检测方法 |
CN114882211B (zh) * | 2022-03-01 | 2024-10-01 | 广州文远知行科技有限公司 | 时序数据自动标注方法、装置、电子设备、介质及产品 |
CN114638988B (zh) * | 2022-03-14 | 2024-11-01 | 华中师范大学 | 一种基于不同呈现方式的教学视频自动化分类方法及系统 |
CN115359094B (zh) * | 2022-09-05 | 2023-04-18 | 珠海安联锐视科技股份有限公司 | 一种基于深度学习的运动目标检测方法 |
CN115249254B (zh) * | 2022-09-21 | 2022-12-30 | 江西财经大学 | 一种基于ar技术的目标跟踪方法及系统 |
CN117671243A (zh) * | 2023-12-07 | 2024-03-08 | 百鸟数据科技(北京)有限责任公司 | 一种小目标检测方法、装置、计算机设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929560A (zh) * | 2019-10-11 | 2020-03-27 | 杭州电子科技大学 | 融合目标检测与跟踪的视频半自动目标标注方法 |
WO2020206861A1 (zh) * | 2019-04-08 | 2020-10-15 | 江西理工大学 | 基于YOLO v3的针对交通枢纽关键物体的检测方法 |
-
2020
- 2020-10-28 CN CN202011174089.5A patent/CN112395957B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020206861A1 (zh) * | 2019-04-08 | 2020-10-15 | 江西理工大学 | 基于YOLO v3的针对交通枢纽关键物体的检测方法 |
CN110929560A (zh) * | 2019-10-11 | 2020-03-27 | 杭州电子科技大学 | 融合目标检测与跟踪的视频半自动目标标注方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112395957A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112395957B (zh) | 一种针对视频目标检测的在线学习方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111104903B (zh) | 一种深度感知交通场景多目标检测方法和系统 | |
CN110781262B (zh) | 基于视觉slam的语义地图的构建方法 | |
US20210326638A1 (en) | Video panoptic segmentation | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
Bai et al. | Sequence searching with CNN features for robust and fast visual place recognition | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN109165658B (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN112766218B (zh) | 基于非对称联合教学网络的跨域行人重识别方法和装置 | |
CN114708437B (zh) | 目标检测模型的训练方法、目标检测方法、装置和介质 | |
Giang et al. | TopicFM: Robust and interpretable topic-assisted feature matching | |
CN113902991A (zh) | 一种基于级联特征融合的孪生网络目标跟踪方法 | |
CN114155213A (zh) | 基于主动学习的芯片缺陷检测方法和装置 | |
CN111898566B (zh) | 姿态估计方法、装置、电子设备和存储介质 | |
CN117437406A (zh) | 一种多目标检测的方法及装置 | |
Khellal et al. | Pedestrian classification and detection in far infrared images | |
Ashwini et al. | Automatic Traffic Sign Board Detection from Camera Images Using Deep learning and Binarization Search Algorithm | |
CN110516527B (zh) | 一种基于实例分割的视觉slam回环检测改进方法 | |
CN115147644A (zh) | 图像描述模型的训练和描述方法、系统、设备及存储介质 | |
Tsutsui et al. | Distantly supervised road segmentation | |
Chen et al. | Single‐Object Tracking Algorithm Based on Two‐Step Spatiotemporal Deep Feature Fusion in a Complex Surveillance Scenario | |
Guo et al. | UDTIRI: An online open-source intelligent road inspection benchmark suite | |
CN117994573A (zh) | 一种基于超像素和可形变卷积的红外弱小目标检测方法 | |
Xie et al. | A method of small face detection based on CNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |