CN110222579A

CN110222579A - 一种结合运动规律和目标检测的视频对象计数方法

Info

Publication number: CN110222579A
Application number: CN201910382716.5A
Authority: CN
Inventors: 吕建明; 李奕佳; 陈伟航; 冯嘉昌; 邹嘉衡; 胡可怡
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-09-10
Anticipated expiration: 2039-05-09
Also published as: CN110222579B

Abstract

本发明公开了一种结合运动规律和目标检测的视频对象计数方法，包括以下步骤：S1、利用目标检测模型从视频中检测得到每一帧包含的目标的位置；S2、根据摄像头与对象的相对运动关系，建模出摄像头的运动轨迹以及视频对应的场景模型；S3、根据检测对象在单张图片中的位置，修正各个检测对象在场景模型中的绝对位置；S4、根据检测对象在场景模型中的位置，确定不同帧的检测结果所归属的对象；S5、统计场景模型中的对象数目，即为视频中对象的数量。本发明只需少量的人工标记就可获得非常精确的目标检测效果，具有模型轻量、建模运算复杂度低的优点。

Description

一种结合运动规律和目标检测的视频对象计数方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种结合运动规律和目标检测的视频对象计数方法。

背景技术

视频对象计数是指，给定一段包含目标对象的视频，求出视频中目标对象的数量。视频对象计数在农业生产和城市交通管理中有着重要的应用，例如根据视频统计养殖场动物数量，作为农业投保的资产证明，或者根据道路摄像头拍摄的视频，统计一段时间内道路的车流量，从而对交通资源进行更好的调度和管理。现有的对象计数大多基于单张图片的视觉信息，利用目标检测或密度回归方法，统计得到图像中目标对象的数量。但这种方法不能直接应用于视频数据，因为视频中的连续帧往往包含大量重复的对象，如何关联不同帧的对象以避免重复统计，是视频对象计数要解决的关键问题。

发明内容

本发明的目的是为了解决现有技术中对象计数方法在视频中重复统计的问题，提供一种结合运动规律和目标检测的视频对象计数方法。该方法利用视频图像包含的视觉信息进行目标检测，同时利用摄像头与目标对象之间的相对运动引入的时空信息，从而确定出检测对象的归属，实现准确的视频对象计数。

本发明的目的可以通过采取如下技术方案达到：

一种结合运动规律和目标检测的视频对象计数方法，首先利用目标检测模型从视频中检测得到每一帧包含的目标位置，然后根据摄像头与对象的相对运动关系，对检测对象在真实场景中的位置进行建模，再根据检测对象在场景模型中的位置，确定不同帧的检测结果所归属的对象；最后统计场景模型中的对象数目，作为视频中对象的数量。

具体而言，如图1所示，本发明所采用的技术方案包含以下具体的步骤：

S1、利用目标检测模型从视频中检测得到每一帧包含的目标位置；

S2、根据摄像头与对象的相对运动关系，建模出摄像头的运动轨迹以及视频对应的场景模型，如图2所示；

S3、根据检测对象在单张图片中的位置，修正各个检测对象在场景模型中的绝对位置；

S4、根据检测对象在场景模型中的位置，确定不同帧的检测结果所归属的对象，如图3所示；

S5、统计场景模型中的对象数目，作为视频中对象的数量。

进一步地，所述的步骤S1具体为：利用在公开数据集上预训练得到的目标检测模型D在目标视频上进行预检测，得到检测结果，对检测不到目标的对象进行人工标注，将人工标注与预检测结果混合，训练目标检测模型D得到更好的检测模型D′，在目标视频上使用检测模型D′进行检测，得到视频中每一帧的检测结果。

进一步地，所述的目标检测模型采用半监督训练目标检测模型。

进一步地，所述的步骤S2具体为：根据各个相邻帧中同一对象与摄像头的相对运动距离和方向，累计得到摄像头相对于目标场景的运动轨迹，以及每张图片在运动轨迹上的位置，作为视频对应的场景模型。

进一步地，所述的步骤S3具体为：根据检测结果(检测框)在图片中的位置，计算出每一帧捕捉到的对象在运动轨迹中的修正距离，从而建模出每一帧各个对象在场景中的绝对位置。

进一步地，步骤S4的具体为：结合运动规律和目标检测的视频对象计数方法，其特征是：根据检测框的绝对位置，计算检测框的重叠率，重叠率可以用两个检测框包围区域的交集除以并集来表示，即IOU(Intersection over Union)，将重叠率大于阈值的检测框归属为同一个对象，对于距离较近但重叠率较小的检测框，根据视觉信息辅助判断是否属于同一个对象。

本发明的工作原理：视频对象计数的有两个需要解决的关键问题：1.如何高效计算单帧图片中的对象数目；2.如何判断不同帧中是否有重复的对象。本发明首先利用半监督学习方法，即使用大量含有标签的数据和少量不含标签的数据，训练深度神经网络进行目标检测，解决单帧图片对象计数问题，再利用视频中的连续帧之间的时空关联，建立目标对象在视频中的运动场景模型，利用运动场景模型判断对象是否重复，从而统计出视频中的对象数目。

本发明相对于现有技术具有如下的优点及效果：

1、本发明采取半监督学习方法训练目标检测模型，不同于常规深度学习方法，只需少量人工标注即可在目标场景的视频帧上取得非常精确的目标检测效果。

2、本发明提出一种新颖的场景建模策略，将视频中的帧间差异建模为对象的运动模式，充分提取了视频中的时空信息，能够实现对视频对象是否重复的精确判断。

3、本发明采用的目标检测模型非常轻量，同时场景建模策略运算复杂度极低，能够在资源非常紧缺的终端设备(例如树莓派)上实时运行。

附图说明

图1是本发明公开的结合运动规律和目标检测的视频对象计数方法的流程图；

图2是本发明公开的结合运动规律和目标检测的视频对象计数方法中步骤S2和步骤S3的示意图；

图3是本发明公开的结合运动规律和目标检测的视频对象计数方法中步骤S4的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

鉴于视频对象计数方法存在的问题，本实施例提出一种结合运动规律和目标检测的视频对象计数方法。视频由连续帧组成，根据连续帧中检测对象的相对距离关系，可以提取出检测对象的归属关系，从而避免重复统计。具体而言，该方法首先利用目标检测模型从视频中检测得到每一帧包含的目标的位置，然后根据摄像头与对象的相对运动关系，对检测对象在真实场景中的位置进行建模，根据检测对象在场景模型中的位置，确定不同帧的检测结果所归属的对象，最后统计场景模型中的对象数目，即为视频中对象的数量。

本实施例通过如图1所示的实施步骤进行实现,以养殖场动物计数为例，其中包括以下步骤：

T1、用单向运行的小车录制牛栏视频，利用目标检测模型从视频中检测得到每一帧包含的牛的位置，其中，目标检测模型采用半监督训练目标检测模型；

步骤T1的具体实施方式是：采用多媒体视频处理工具FFmpeg对目标视频进行切片，采用Tensorflow Object Detection API中Open Image Dataset预训练的Faster RCNN模型D₁对目标视频每一帧进行粗粒度检测，对于没有检测到目标的少量帧，进行手工标注，与自动检测得到的结果进行混合，对轻量级目标检测模型MobileNet SSD进行微调，从而得到轻量且在目标场景上效果很好的目标检测模型D₂，用D₂在目标视频上进行目标检测，从而得到每一帧包含的牛的位置，即一系列检测框的坐标。

T2、根据各个相邻帧中同一个牛与摄像头的相对运动距离和方向，累计得到摄像头相对于牛栏的运动轨迹，以及每张图片在运动轨迹上的位置，作为视频对应的场景模型，如图2所示；

步骤T2的具体实施方式是：将相邻帧中距离小于一个阈值δ的检测框视为同一个对象，设当前帧某对象检测框的左上角横坐标位置为x₁，下一帧该对象检测框左上角横坐标位置为x₂，则这两帧间摄像头的移动距离为：

Δx＝|x₂-x₁|

设每帧间时间差为Δt，则摄像头运动速度为v＝Δx/Δt

由于摄像头并非严格匀速直线运动，采用移动平均法计算后续帧的摄像头运动速度:

v′_t＝0.5*v′_t-1+v_t

其中v'_t-1是当有t帧图片时摄像头的平均运动速度，v_t是第t段帧间摄像头的运动速度，v'_t是当有t-1帧图片时摄像头的平均运动速度。假设摄像头从右向左运动，以第0帧的最右位置为0建立直线坐标系，即为视频对应的场景模型。

T3、根据检测结果(检测框)在图片中的位置，计算出每一帧捕捉到的牛在运动轨迹中的修正距离，从而建模出每一帧各个牛在场景模型中的绝对位置，如图2所示；

步骤T3的具体实施方式是：根据检测结果(检测框)在图片中的位置，计算出每一帧捕捉到的牛在运动轨迹中的修正距离，从而建模出每一帧各个牛在牛栏中的绝对位置：

t时刻的检测框坐标x_t在真实场景中的位置x′_t为：

x′_t＝v′_t*t+x_t

从而计算出所有检测框在场景模型中的真实坐标。

T4、根据检测对象在场景模型中的位置，将相邻比较近的检测框归属于同一个对象，确定不同帧的检测结果所对应的牛，如图3所示；

步骤T4的具体实施方式是：在真实场景坐标系下，对所有检测框计算重叠率，采用iou公式：

iou＝(box1∩box2)/(box1∪box2)

其中iou的全称为交并比(Intersection over Union)，box1和box2均为真实场景坐标系下的两个目标检测框，将iou大于阈值θ的视为同一个对象，只为同一个对象保留初始检测框，如此，场景中每个对象就只剩下唯一的一个检测框。

T5、统计不重复的牛的个数，即为视频中牛的数目。

步骤T5的具体实施方式是：统计过滤后得到的检测框总数，即为视频中目标对象的总数。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种结合运动规律和目标检测的视频对象计数方法，其特征在于，所述的视频对象计数方法包括以下步骤：

S2、根据摄像头与对象的相对运动关系，建模出摄像头的运动轨迹以及视频对应的场景模型；

S4、根据检测对象在场景模型中的位置，确定不同帧的检测结果所归属的对象；

S5、统计场景模型中的对象数目，作为视频中对象的数量。

2.根据权利要求1所述的一种结合运动规律和目标检测的视频对象计数方法，其特征在于，所述的目标检测模型采用半监督训练目标检测模型。

3.根据权利要求1所述的一种结合运动规律和目标检测的视频对象计数方法，其特征在于，所述的步骤S1如下：

利用在公开数据集上预训练得到的目标检测模型D在目标视频上进行预检测，得到检测结果，对检测不到目标的对象进行人工标注，将人工标注与预检测结果混合，训练目标检测模型D得到检测模型D′，在目标视频上使用检测模型D′进行检测，得到视频中每一帧的检测结果。

4.根据权利要求1所述的一种结合运动规律和目标检测的视频对象计数方法，其特征在于，所述的步骤S2如下：

根据各个相邻帧中同一对象与摄像头的相对运动距离和方向，累计得到摄像头相对于目标场景的运动轨迹，以及每张图片在运动轨迹上的位置，作为视频对应的场景模型。

5.根据权利要求1所述的一种结合运动规律和目标检测的视频对象计数方法，其特征在于，所述的步骤S3如下：根据检测结果在图片中的位置，其中，所述的检测结果为检测框，计算出每一帧捕捉到的对象在运动轨迹中的修正距离，建模出每一帧各个对象在场景中的绝对位置。

6.根据权利要求1所述的一种结合运动规律和目标检测的视频对象计数方法，其特征在于，所述的步骤S4如下：根据检测框的绝对位置，计算检测框的重叠率，所述的重叠率用两个检测框包围区域的交集除以并集来表示，即IOU，将重叠率大于阈值的检测框归属为同一个对象，对于距离较近但重叠率较小的检测框，根据视觉信息辅助判断是否属于同一个对象。