CN109726670B

CN109726670B - 一种从视频中提取目标检测样本集的方法

Info

Publication number: CN109726670B
Application number: CN201811597467.3A
Authority: CN
Inventors: 尚凌辉; 张兆生; 王弘玥; 郑永宏
Original assignee: Zhejiang Icare Vision Technology Co ltd
Current assignee: Hangzhou Jieshang Smart Grid Technology Co ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2021-03-26
Anticipated expiration: 2038-12-26
Also published as: CN109726670A

Abstract

本发明公开了一种从视频中提取目标检测样本集的方法。本发明从视频中生成少量的目标检测训练测试样本集并得到一个目标检测器，利用这个目标检测器处理视频中的每帧图像，得到每个目标在视频中的若干分散的跟踪段。对分散的跟踪段进行匹配，将漏检目标所在的图像帧，作为候选的目标检测训练测试图像样本。对得到的每个检测跟踪目标，在其跟踪轨迹上选择一帧图像，根据目标检测器输出的该目标的矩形包围盒，在这帧图像上抠图得到目标区域图像；将误检目标所在的图像帧作为候选的目标检测训练测试图像样本。在以上两类候选的训练测试图像样本中按比例均匀采样得到需要增加的图像样本。本发明能够减少训练测试样本数量，缩短机器学习的训练时间。

Description

一种从视频中提取目标检测样本集的方法

技术领域

本发明属于计算机视觉技术领域，涉及一种从视频中提取目标检测样本集的方法。

背景技术

目前拍摄各类交通违法、治安等监控相机已经大量的安装和使用，这些设备所采集到的视频图像数据量非常庞大，对这些数据进行目标内容的分析和信息的挖掘已经成为科研和工业界的一个研究热点，其中检测与跟踪视频中的关键目标是对目标进行分析和后期信息挖掘的基础工作。

目前主流的目标检测器都是基于大量的标注过图像样本经过机器学习训练而得到的，而且业内公认这些标注的图像样本的数量及其典型代表性对目标检测器的性能优劣起着决定性作用。视频相邻帧之间的图像相似度非常高，信息冗余非常大，如果每帧都做标注，满足训练需求的标注量将是一个天文数字，如何高效的采样和筛选尽量少而且训练所得到的模型性能也能满足需求一直以来都是业内必须要面对的一个难题。

从视频数据中生成和建立目标检测训练与测试图像数据集的常用方法，就是在间隔固定帧数的均匀采样或者间隔随机帧数的随机采样，这两种方法是获取少量训练与测试图像样本集的有效方案，但是随着训练与测试图像样本集需要不断的扩充、增补，继续使用这两种方案得到的图像样本相对与已有的训练与测试图像样本集，其典型性和代表性就会随着图像样本集的不断增大而逐渐降低，扩充和增补的单张图像样本对算法性能提升的作用也会逐渐变小，一直会降到没有作用。这也是传统从视频数据中生成和建立目标检测训练与测试图像数据集方法的一个严重问题和缺陷。

发明内容

针对现有技术的不足，本发明提供了一种从视频中提取目标检测样本集的方法。

本发明的方法具体是：

步骤1、基于已有的少量目标检测训练测试样本M，利用成熟的机器学习算法和目标检测框架训练得到临时的目标检测器D，进而处理视频源中的每帧图像得到每帧图像中目标检测器D输出的所有目标包围盒。

步骤2、利用简单的包围盒匹配算法，匹配关联相邻帧中的目标包围盒，得到包围盒的直接关联结果，即视频中目标的初步跟踪结果。

步骤3、由于目标检测器D的性能不好，视频中目标所在的所有帧很难被全部检测到，初步跟踪结果中会有很多目标被分裂为多个虚假的目标跟踪结果，对这些被分裂的跟踪结果进行预测跟踪，关联相关的被分裂视频段。

步骤4、步骤3中通过预测跟踪关联上的目标跟踪轨迹会有部分视频帧中目标检测器D是没有检测到该目标的，将这些没有检测到对应目标的视频帧作为候选待增加训练测试样本A。

步骤5、从步骤3中每个目标跟踪结果中选择一帧图像，根据目标检测器D的包围盒，扣取相应目标区域图像，生成待判定目标图像集S。

步骤6、人工对步骤5中待判定目标图像集S中的每张图像进行是否为目标类的判定，挑选出非目标类的误检目标集F，根据F中每个目标的跟踪轨迹抽取相应的视频帧作为候选待增加训练测试样本B。

步骤7、对步骤4中的候选待增加训练测试样本A与步骤6中的候选待增加训练测试样本B进行均匀采样，按比例抽取最终的需要增加的待标注训练测试样本N。

步骤8、将标注好的需要增加的训练测试样本N与原来的训练测试样本M合并得到新的训练测试集M^*，由M^*代替M，迭代执行步骤1～7能够不断的完善训练测试样本集，迭代停止条件是单次筛选的待标注训练测试样本数量少于设定的一个阈值δ。

本发明的有益效果：

1、能够有效的减少训练测试样本数量，而且该方法生成的训练测试样本集能够通过机器学习算法得到一个对视频数据来说性能可靠的目标检测器。

2、减少训练测试样本数量，既能够减少标注成本也能够节省存储成本。

3、减少训练测试样本数量，可以缩短机器学习的训练时间，提高目标检测算法的研发效率。

附图说明

图1.单次迭代增加训练测试图像数据集的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例，都属于本发明保护的范围。

本发明的主要技术构思：本发明首先利用均匀或随机采样从视频中生成少量的目标检测训练测试样本集，利用机器学习方法学习得到一个基础的目标检测器，利用这个目标检测器处理视频中的每帧图像，每帧图像中检测到目标都会有一个矩形包围盒输出，相邻帧之间的目标通过矩形包围盒匹配，进而得到每个目标在视频中的若干分散的跟踪段，由于检测器的性能还比较差，跟踪结果中一个真实的目标会被分割成多个跟踪段，再对这些分散的跟踪段进行匹配，在匹配上的跟踪段之间，将目标检测器没有检测到该目标的图像帧，会作为候选的目标检测训练测试图像样本。经过分散跟踪段的匹配之后，对最终得到的每个检测跟踪目标，在其跟踪轨迹上选择一帧图像，根据目标检测器输出的该目标的矩形包围盒，在这帧图像上抠图得到目标区域图像；人工判断该抠图是否包含目标，如果不包含目标则检测跟踪结果即为误检目标，将误检目标所在的图像帧作为候选的目标检测训练测试图像样本。在以上两类候选的目标检测训练测试图像样本中按比例均匀采样得到需要增加的图像样本。该过程可以迭代进行，而且每次迭代增加的图像样本对目标检测器性能提升的作用不会下降。迭代过程中的有益效果是随着迭代次数的增加，每次可以增加的图像样本数量会逐渐减少，进而减少标注工作量，机器学习的训练耗时也会减少。

实施例：

从视频中抽取目标检测训练测试图像样本集的方法是一个迭代过程。利用均匀随机采样的方法得到一个包含少量图像样本的初始目标检测训练测试样本集M之后，每次迭代生成新的待标注目标检测训练测试样本的步骤如下：

步骤1、基于已有的少量目标检测训练测试样本M，利用SSD(Single ShotMultiBox Detector：https://arxiv.org/abs/1512.02325)目标检测框架训练得到临时的目标检测器D，进而处理视频源中的每帧图像得到每帧图像中目标检测器D输出的所有目标包围盒。

步骤2、计算相邻两帧之间所有目标包围盒之间的IoU(Intersection overUnion：https://cloud.tencent.com/developer/article/1156246)，根据IoU的大小将两帧间的目标包围盒进行一一匹配，根据匹配的结果视频中所有检测到的目标会被组合成若干个目标检测跟踪段T_i，这些目标检测跟踪段组成的集合标记为：

O_T＝{T₁,T₂,T₃…T_k}。

步骤3、根据T_i中连续帧上的包围盒信息，根据目标中心的运动方向和包围盒大小变化趋势，估计目标在T_i中连续帧之外，前后x帧中的包围盒信息，结合步骤1中目标检测器D输出的所有目标包围盒，重复一次步骤2的过程得到新的目标检测跟踪段T′_i,组成的集合标记为：O′_T＝{T′₁,T′₂,T′₃,…T′_l}。

步骤4、将步骤3中目标检测跟踪段T′_i中目标检测器D没有输出该目标的包围盒，而是估计得到的目标包围盒所在的视频帧作为候选待增加训练测试样本A。

步骤5、从步骤3中每个目标跟踪段T′_i中选择一帧图像，根据目标检测器D的包围盒，扣取相应目标区域图像，生成待判定目标图像集S。

步骤7、对步骤4中的候选待增加训练测试样本A与步骤6中的候选待增加训练测试样本B进行均匀采样，按比例抽取最终的需要增加的待标注训练测试样本N，将标注好的需要增加的训练测试样本N与原来的训练测试样本M合并得到新的训练测试集M^*。

步骤8、由M^*代替M，迭代执行步骤1～7能够不断的完善训练测试样本集，迭代停止条件是单次筛选的待标注训练测试样本数量少于设定的一个阈值δ。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，应当理解，本发明并不限于这里所描述的实现方案，这些实现方案描述的目的在于帮助本领域中的技术人员实践本发明。

Claims

1.一种从视频中提取目标检测样本集的方法，其特征在于该方法包括以下步骤：

步骤1、利用均匀或随机采样从视频中生成少量的目标检测训练测试样本集，采用机器学习法学习得到一个基础的目标检测器；

步骤2、用这个目标检测器处理视频中的每帧图像，每帧图像中检测到目标都会有一个矩形包围盒输出，相邻帧之间的目标通过矩形包围盒匹配，进而得到每个目标在视频中的若干分散的跟踪段；

步骤3、对分散的跟踪段进行匹配，在匹配上的跟踪段之间，将目标检测器没有检测到该目标的图像帧，作为候选的目标检测训练测试图像样本；

步骤4、经过分散跟踪段的匹配之后，对最终得到的每个检测跟踪目标，在其跟踪轨迹上选择一帧图像，根据目标检测器输出的该目标的矩形包围盒，在这帧图像上抠图得到目标区域图像；人工判断该抠图是否包含目标，如果不包含目标则检测跟踪结果即为误检目标，将误检目标所在的图像帧作为候选的目标检测训练测试图像样本；

步骤5、在以上两类候选的目标检测训练测试图像样本中按比例均匀采样得到需要增加的图像样本；

步骤6、将需要增加的图像样本添加到最初的目标检测训练测试样本集中，重复步骤1-6，来不断的完善训练测试样本集。

2.根据权利要求1所述的一种从视频中提取目标检测样本集的方法，其特征在于：利用机器学习算法训练得到目标检测器，进而处理视频源中的每帧图像，得到每帧图像中目标检测器输出的所有目标包围盒。

3.根据权利要求1所述的一种从视频中提取目标检测样本集的方法，其特征在于：计算相邻两帧之间所有目标包围盒之间的重叠度，根据重叠度的大小将两帧间的目标包围盒进行一一匹配，根据匹配的结果，视频中所有检测到的目标会被组合成若干个目标检测跟踪段T_i，这些目标检测跟踪段组成的集合标记为O_T＝{T₁，T₂，T₃…T_k}。

4.根据权利要求3所述的一种从视频中提取目标检测样本集的方法，其特征在于：根据目标检测跟踪段T_i中连续帧上的包围盒信息，目标中心的运动方向和包围盒大小变化趋势，估计目标在T_i中连续帧之外，前后x帧中的包围盒信息，结合目标检测器输出的所有目标包围盒，计算相邻两帧之间所有目标包围盒之间的重叠度，根据重叠度的大小将两帧间的目标包围盒进行一一匹配，根据匹配的结果，得到新的目标检测跟踪段T_i′,新的目标检测跟踪段组成的集合标记为O′_T＝{T′₁，T′₂，T′₃，…T_l′}。