CN111126170A

CN111126170A - 一种基于目标检测与追踪的视频动态物检测方法

Info

Publication number: CN111126170A
Application number: CN201911223394.6A
Authority: CN
Inventors: 黄冠恒; 曾碧; 刘建圻
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-05-08

Abstract

本发明公开了一种基于目标检测与追踪的视频动态物检测方法，包括下述步骤：一、对视频帧进行目标检测；二、划分动态物、静态物子集；三、根据划分结果保留归入动态物子集的物体；四、使用目标追踪对后续帧进行动态物检测；本发明首先利用深度学习中的有监督学习训练检测模型，对视频图像帧中的物体进行检测，获得目标检测结果；在此基础上，保留人为划分为“动态物”的物体进行追踪，不仅获得了实时的动态物检测方法，而且能够检测潜在的动态物，如停在路边的车；能够不依赖图形处理单元，仅使用中央处理器即可实现准确、快速的动态物检测。

Description

一种基于目标检测与追踪的视频动态物检测方法

技术领域

本发明涉及视频处理技术领域，具体涉及一种基于目标检测与追踪的视频动态物检测方法。

背景技术

视频动态物检测是指通过使用检测等技术，识别出视频中的动态物体，并获得它在视频中的位置。动态物检测技术在许多领域发挥着重要的作用，如安防监控、自动驾驶、交通流量统计等。在这类应用中，相比于场景的静态部分，移动的动态物是关注的重点。由于物体处于移动状态，这要求检测方法必须具备实时性、且能够即便在物体由于运动导致尺度、外观等因素发生变化时保持较好的检测结果。

传统的视频动态物检测方法如帧间差分法、背景建模法以及光流法，主要基于对视频中的静态背景或动态物部分进行建模，随后将待检测的内容送入模型进行计算，对计算结果进行阈值过滤从而确定视频中的动态部分。由于这些模型包含手工设定的参数，使其往往只能在特定场景中工作。当摄像头也处于运动状态时，检测结果不够准确，甚至可能会错误地将背景检测为动态物。而基于深度学习的目标检测方法，能够自动地从大量的数据样本中进行学习，自动获得模型的参数，不仅避免了繁琐复杂的手工设定步骤，而且能够获得通用性更好的检测模型，从而实现准确度、泛用性更高的动态物检测方法。然而深度学习方法由于计算量大，往往需要使用专用的图形处理单元进行加速才能获得实时性。

现有技术中，中国专利CN109035296A胡辽林等人提出一种改进的视频中运动物体检测方法，该方法基于帧间差分法和背景建模法，在相机固定的情况下能够有效检测出场景中的运动物体，但是，当相机与场景物体同时发生运动时，该方法无法准确地检测动态物；此外，该方法只能检测出运动中的动态物，若动态物临时静止，将无法检测出该潜在动态物；

中国专利CN108520526A提出一种车前方动态障碍物检测方法，该方法基于光流法，在相机一同运动的情况下也能较好的检测出场景中的动态物，但当相机运动幅度较大、动态物运动速度快或场景光照发生变化时，检测结果会出错；此外，该方法也无法检测出潜在动态物。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于目标检测与追踪的视频动态物检测方法，该方法基于目标检测和目标追踪方法，通过周期性运行目标检测和持续进行目标追踪，获得接近目标检测方法的准确度以及目标追踪方法的实时性，能够快速、准确地定位视频中的动态物。

本发明的目的通过下述技术方案实现：

一种基于目标检测与追踪的视频动态物检测方法，包括下述步骤：

步骤一，使用摄像头采集图像，用矩形框标注图像包含的物体并打上物体类别标签，构建卷积神经网络，利用采集和标注的数据训练网络，使其能够检测出图像中的物体，获得目标检测结果，记录检测时长；

步骤二，将物体类别集合根据语义先验划分为“动态物”和“静态物”两个子集，其中“人”、“车”、“动物”等可以运动的类别归入“动态物”子集，其他类别归入“静态物”子集；

步骤三，根据步骤二的划分方法对步骤一所得目标检测结果进行划分，仅保留归入“动态物”子集的物体；

步骤四，对步骤三所得的“动态物”子集中的每一个物体，使用KCF目标追踪方法在步骤一中的物体检测框的基础上对其进行追踪；

步骤五，基于步骤四连续追踪了k帧后，使用步骤一中的卷积神经网络重新获得目标检测结果；

步骤六，基于步骤五所得目标检测图按步骤三处理后，更新步骤四中目标追踪方法的追踪目标。

优选地，所述步骤一包括训练目标检测网络并对视频帧进行检测，具体方式为：(1)构建卷积神经网络并使用COCO数据集进行训练；(2)将视频帧大小调整至与卷积神经网络输入大小一致后输入卷积神经网络进行计算，获取卷积神经网络最后一层的输出作为检测结果。

优选地，所述步骤四包括：对每个保留的动态物，将网络预测的边界框位置变换到输入图像的图像坐标系下，使用变换后的边界框位置作为目标追踪算法的初始值，对边界框内的物体进行追踪，实现后续帧的动态物检测。

本发明与现有技术相比具有以下的有益效果：

本发明首先利用深度学习中的有监督学习训练检测模型，对视频图像帧中的物体进行检测，获得目标检测结果；在此基础上，保留人为划分为“动态物”的物体进行追踪，不仅获得了实时的动态物检测方法，而且能够检测潜在的动态物，如停在路边的车；能够不依赖图形处理单元，仅使用中央处理器即可实现准确、快速的动态物检测。

附图说明

图1为本发明的流程示意图；

图2为本发明的目标检测网络结构示意图；

图3为本发明的动态物检测流程示意图；

图4为本发明的目标检测网络结果示意图；

图5为本发明的动态物检测结果示意图；

图6为本发明的目标追踪结果示意图；

图7为本发明的光流法动态物检测结果示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1～7所示，一种基于目标检测与追踪的视频动态物检测方法，包括下述步骤：

步骤一，使用摄像头采集图像，用矩形框标注图像包含的物体并打上物体类别标签，构建卷积神经网络，利用采集和标注的数据训练网络，使其能够检测出图像中的物体，获得目标检测结果，记录检测时长；所述步骤一包括训练目标检测网络并对视频帧进行检测，具体方式为：(1)构建卷积神经网络并使用COCO数据集进行训练；(2)将视频帧大小调整至与卷积神经网络输入大小一致后输入卷积神经网络进行计算，获取卷积神经网络最后一层的输出作为检测结果。

步骤二，将物体类别集合根据语义先验划分为“动态物”和“静态物”两个子集，其中“人”、“车”、“动物”等可以运动的类别归入“动态物”子集，其他类别归入“静态物”子集。

步骤三，根据步骤二的划分方法对步骤一所得目标检测结果进行划分，仅保留归入“动态物”子集的物体。

步骤四，对步骤三所得的“动态物”子集中的每一个物体，使用KCF目标追踪方法在步骤一中的物体检测框的基础上对其进行追踪；所述步骤四包括：对每个保留的动态物，将网络预测的边界框位置变换到输入图像的图像坐标系下，使用变换后的边界框位置作为目标追踪算法的初始值，对边界框内的物体进行追踪，实现后续帧的动态物检测。

步骤五，基于步骤四连续追踪了k帧后，使用步骤一中的卷积神经网络重新获得目标检测结果。

具体来说，本发明提出一种实时的视频动态物检测方法，图1是本方法流程框图，图3是本方法动态物检测流程图。本方法首先利用深度学习中的监督学习训练检测模型，对视频图像帧中的物体进行检测，获得目标检测图；在此基础上，保留人为划分为“动态物”的物体进行追踪，不仅获得了准确度更高的动态物检测方法，而且能够检测潜在的动态物。

步骤1，构建卷积神经网络，对视频帧进行目标检测，获得目标检测结果。

步骤1.1，构建用于目标检测的卷积神经网络。

所构建的卷积神经网络采用One-stage端到端的目标检测模型结构，如图2所示，在图2描述的网络结构中，输入图像的宽高皆为448个像素，网络输出预测的物体的边界框的坐标、置信度以及该物体属于各个类别的概率。网络采用MS COCO数据集进行训练，物体总类别数为80。

步骤1.2，对视频帧进行目标检测，获得目标检测结果。

使用线性插值将视频帧大小进行调整，宽高皆为448个像素，将其输入训练好的卷积神经网络，获取网络最后一层的输出结果，作为检测结果。

向步骤1.1所构建的目标检测模网络输入一帧视频图像，网络输出预测的多个边界框的位置、置信度以及对应的物体类别概率向量。首先剔除置信度低于0.5的预测结果，然后使用非极大值抑制方法去除冗余的预测框，获得最终的目标检测结果。同时，记录下本步骤花费的总时间，记为t，单位为毫秒。

步骤2，将物体类别集合划分为“动态物”和“静态物”两个子集。

步骤2.1，将“人”、“鸟”、“猫”等动物以及“自行车”、“汽车”、“飞机”等交通工具类别归入“动态物”子集，其余的类别归入“静态物”子集。

步骤3，对目标检测结果进行划分，仅保留归入“动态物”子集的物体。

步骤3.1，对步骤1所得的目标检测结果进行遍历，若该目标所对应的类别被归入“动态物”子集，则保留该目标；否则，将其从检测结果中去除。最终仅保留了归入“动态物”子集的物体。

步骤4，对“动态物”子集中的每一个物体的检测框作为初始目标进行目标追踪。

步骤4.1，提取网络预测结果，计算检测框在输入图像坐标系下的位置。

对步骤3所得物体，在步骤1所得预测边界框的基础上，将边界框的位置坐标变换到输入图像坐标系上。假设输入图像的宽高为w和h，物体边界框的左上角、右下角顶点坐标分别为(lx,ly)和(rx,ry)，网络预测的物体边界框的中心坐标为(bx,by)、宽高为bw和bh，则：

(1)lx＝(bx-bw/2.0)*w,ly＝(by-bh/2.0)*h

(2)rx＝(bx+bw/2.0)*w,ry＝(by+bh/2.0)*h

步骤4.2，对每一个检测框进行目标追踪。

求每一个物体的边界框((lx,ly),(rx,ry))，以该边界框为初始值执行KCF目标追踪算法对框内物体进行追踪。

步骤5，连续追踪了k帧后，使用目标检测网络重新获得目标检测结果。

步骤5.1，基于步骤1.1得出的目标检测花费的时长t，按照下式设置k的值：

(1)若t较大，则设置较大的k值，降低目标检测的频率，以提高整体算法的运行速度；

(2)若t较小，则设置较小的k值，提高目标检测的频率，以提高整体算法的准确度。

步骤5.2，若自上次运行目标检测以来已经连续追踪了k帧，则将当前视频帧输入目标检测网络，重新获得检测结果。

步骤6，基于最新检测结果更新追踪目标。

步骤6.1，运行步骤3.1过滤检测结果中的静态物体，获得归入“动态物”子集的物体；

步骤6.2，运行步骤4重新进行目标追踪，修正目标追踪方法固有的边界框漂移。

实施例一

本发明利用freiburg3_walking_xyz图像序列子集进行了评估，该序列是TUMRGBD数据集的一部分。该序列基于一个做小幅度运动的深度相机拍摄，场景内容为两个人围绕着一张桌子移动。实验平台硬件配置为：处理器为Intel Core i7-8700K，RAM大小为16GB。

图4展示了目标检测的结果。图片中检测出来的目标都用矩形框标注，并在上方用白底黑字显示其类别标签和预测概率。由图可见，场景中的物体都能准确地被识别和定位。

图5展示了动态物检测的结果。在目标检测结果的基础上进行动静物划分并且只保留动态物后，检测结果只剩下类别为“人”的物体。

图6展示了目标追踪的结果。即便相机和场景中的动态物(即“人”)都同时在运动，动态物也能被准确地识别和定位。

图7展示了基于光流的传统视频动态物检测方法在该序列上的检测结果。图中圆点代表特征点，即图像中外观显著的像素点。与圆点相接的线段是该特征点的光流。由图可见，虽然动态物已被检测出来，但由于相机也处于运动状态，场景中的背景也一同被检测为动态物。这说明了本发明提出的基于目标检测与追踪的视频动态物检测方法能够获得更加准确的检测结果。

最后给出本方法中耗时较长的步骤的运行时间测量结果。其中，目标检测步骤执行一次平均需要150ms；目标追踪步骤由于追踪目标的大小和数量可能发生变化，执行时间波动较大，平均需要25ms。总体方法运行频率约为30Hz，满足实时性要求。本发明通过结合目标检测与目标追踪方法，实现了一种准确度好且满足实时性要求的视频动态物检测方法。

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于目标检测与追踪的视频动态物检测方法，其特征在于，包括下述步骤：

2.根据权利要求1所述基于目标检测与追踪的视频动态物检测方法，其特征在于，所述步骤一包括训练目标检测网络并对视频帧进行检测，具体方式为：(1)构建卷积神经网络并使用COCO数据集进行训练；(2)将视频帧大小调整至与卷积神经网络输入大小一致后输入卷积神经网络进行计算，获取卷积神经网络最后一层的输出作为检测结果。

3.根据权利要求1所述基于目标检测与追踪的视频动态物检测方法，其特征在于，所述步骤四包括：对每个保留的动态物，将网络预测的边界框位置变换到输入图像的图像坐标系下，使用变换后的边界框位置作为目标追踪算法的初始值，对边界框内的物体进行追踪，实现后续帧的动态物检测。