CN112884808B

CN112884808B - 保留目标真实交互行为的视频浓缩管集划分方法

Info

Publication number: CN112884808B
Application number: CN202110105131.6A
Authority: CN
Inventors: 张云佐
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2022-04-22
Anticipated expiration: 2041-01-26
Also published as: CN112884808A

Abstract

本发明公开了一种保留目标真实交互行为的视频浓缩管集划分方法，涉及图像处理方法技术领域。所述方法包括如下步骤：通过目标检测和跟踪提取目标管；通过管集优化算法划分目标管，其中交互性是通过计算时空接近性和方向交互函数来衡量；根据交互度量生成目标管集。该方法可以保留原始视频中目标之间的真实交互行为，实验证明了该方法的有效性。

Description

保留目标真实交互行为的视频浓缩管集划分方法

技术领域

本发明涉及图像处理方法技术领域，尤其涉及一种保留目标真实交互行为的视频浓缩管集划分方法。

背景技术

目前，大多数视频浓缩方法有3个基本的步骤：目标检测和跟踪、目标管优化重排和生成浓缩视频。传统的目标管优化重排会生成新的时间标签从而生成浓缩视频，但是生成的浓缩视频却会失去目标之间的交互性。造成这种情况的原因主要是传统的方法多是考虑减少碰撞，保持目标之间的时间顺序或获得更高的压缩比。保持运动目标之间的交互行为是指在原始视频中产生交互行为的运动目标在浓缩视频中应保留运动目标的交互作用。现存的方法分为两种：定义交互类型和考虑时空接近性，运动目标在时空上的轨迹称为目标管。其中有现有技术定义了原始视频和浓缩视频之间的4种交互类型，并提出了一个轨迹映射模型来获取所有目标管的开始时间。还有现有技术提出目标管之间的关系有两种，即对等关系和交点关系，并提出用粒子群算法求解能量函数，然而，定义交互类型生成浓缩视频的计算量很大。因此，学者们提出了一种划分管集的方法，其中包括群划分算法，该算法计算目标管之间的时空接近性生成群。还有现有技术提出一种递归管分组算法生成目标管组，并通过一种立方体投票方法重新排列目标管组。尽管上述方法可以取得较好的结果，但是它们仍无法获得完全正确和真实的结果，如当两个运动目标擦肩而过时，现有的方法会将其划分到同一个管组，显然这两个运动目标并没有产生实际的交互行为。

发明内容

本发明所要解决的技术问题是提供一种可以保留原始视频中目标之间的真实交互行为的视频浓缩管集划分方法。

为解决上述技术问题，本发明所采取的技术方案是：一种保留目标真实交互行为的视频浓缩管集划分方法，其特征在于包括如下步骤：

通过目标检测和跟踪提取目标管；

通过管集优化算法划分目标管，其中交互性是通过计算时空接近性和方向交互函数来衡量；

根据交互度量生成目标管集。

进一步的技术方案在于：运动目标在时空上的轨迹称为目标管，用yolov4来检测和构建包围框，使用Deep SORT来跟踪这些包围框，生成目标管。

进一步的技术方案在于：假设集合Q包含所有的目标管，m为原视频生成的目标管数，使用T_i表示第i个目标管；依次去处理集合Q中的目标管，用来寻找与之有交互关系的目标管；通过计算SP(T_i,T_j)来衡量T_i和T_j之间的交互程度，可以表示为

其中，D(T_i,T_j)代表T_i和T_j之间时空接近性的度量，th(Q)表示满足交互条件的最小值，其根据输入的视频改变。R(T_i,T_j)是一个方向交互函数，用来判断是否存在交互条件；

D(T_i，T_j)＝exp(-avg(d(T_i，T_j，f))*N(T_i，T_j)) (2)

其中，f是一个共享帧，共享帧是指目标管T_i，T_j同时出现的帧；avg(·,·)表示括号内所有元素的平均值；d(T_i,T_j,f)表示在f帧目标管T_i和T_j的下边界框中点的欧式距离；

N(T_i，T_j)＝∑_fg(d(T_i，T_j，f)) (3)

其中，N(T_i,T_j)为共享帧中满足交互条件的帧数；g(d(T_i,T_j,f))是一个函数，如果条件为真，则输出1，否则输出0；h(T_i,f)和h(T_j,f)指T_i和T_j在每一个共享帧的平均高度；w为1.17；

t_i代表目标管T_i的持续时间；FPS是输入视频的帧率；

R(T_i,T_j)被用于判断两个目标管之间的方向是否存在交互的条件：

其中FX(T_i,T_j)是一个函数；如果两个目标运动方向相同输出1,否则输出0,定义如下：

JS(T_i,T_j)是一个判断停留函数；如果两个目标反向移动，判断两个目标之间是否存在停留，如果存在，认为两个目标之间可能会有交互行为的产生；定义如下：

采用上述技术方案所产生的有益效果在于：本申请所述方法首先通过目标检测和跟踪提取目标管；其次，通过管集优化算法划分目标管，交互性是通过计算时空接近性和方向交互函数来衡量的，最后，根据交互度量生成目标管集。该方法可以保留原始视频中目标之间的真实交互行为，实验证明了该方法的有效性。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例所述方法的流程图；

图2a是本发明实施例中时空接近性参数的比较方法图(帧号123)；

图2b是本发明实施例中时空接近性参数的比较方法图(帧号142)；

图2c是本发明实施例中时空接近性参数的比较方法图(帧号150)；

图3a-3f是本发明实施例中群划分算法与本申请所述方法的比较示意图；

图4a-4d为本发明实施例中测试场景图；

图5a、图5d以及图5g为不同场景的运动轨迹图；

图5b、图5e以及图5h为不同场景通过群划分算法生成的管集结果图；

图5c、图5f以及图5i为不同场景用本申请所述方法生成的结果图；

其中：1、群划分算法所采用的距离；2、递归的管分组算法所采用的距离；3、本申请所述方法所采用的距离。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

如图1所示，本发明公开了一种保留目标真实交互行为的视频浓缩管集划分方法，包括如下步骤：

首先通过目标检测和跟踪提取目标管；其次，通过管集优化算法划分目标管，交互性是通过计算时空接近性和方向交互函数来衡量的；最后，根据交互度量生成目标管集。

下面结合具体步骤对上述方法进行详细说明，本申请使用yolov47来检测和构建包围框，使用Deep SORT(Deep Simple Online Real-time Tracking)来跟踪这些包围框，生成目标管。

假设集合Q包含所有的目标管，m为原视频生成的目标管数，使用T_i表示第i个目标管；依次去处理集合Q中的目标管，用来寻找与之有交互关系的目标管；通过计算SP(T_i,T_j)来衡量T_i和T_j之间的交互程度，可以表示为：

其中，D(T_i，T_j)代表T_i和T_j之间时空接近性的度量，th(Q)表示满足交互条件的最小值，其根据输入的视频改变。R(T_i，T_j)是一个方向交互函数，用来判断是否存在交互条件；

D(T_i，T_j)＝exp(-avg(d(T_i，T_j，f))*N(T_i，T_j)) (2)

其中，f是一个共享帧，共享帧是指目标管T_i，T_j同时出现的帧；avg(·，·)表示括号内所有元素的平均值；d(T_i，T_j，f)表示在f帧目标管T_i和T_j的下边界框中点的欧式距离，如图2a-2c所示；观察图2a-2c可以看到，目标1离摄像头较近，物体2离摄像头较远，当衡量目标管T_i和T_j在f帧之间的时空接近性时，下边界框中点之间的欧式距离比两个目标的边界框中心点之间的欧式距离和两个边界框之间的最短的欧式距离更可靠。

N(T_i，T_j)＝∑_fg(d(T_i，T_j，f)) (3)

其中，N(T_i，T_j)为共享帧中满足交互条件的帧数；g(d(T_i，T_j，f))是一个函数，如果条件为真，则输出1，否则输出0；h(T_i，f)和h(T_j，f)指T_i和T_j在每一个共享帧的平均高度；w为1.17；

对输入视频自适应计算阈值，定义如下：

t_i代表目标管T_i的持续时间；FPS是输入视频的帧率；

R(T_i，T_j)被用于判断两个目标管之间的方向是否存在交互的条件：

图3a-3f展示了本申请的主要思想，从图3a可以看出，两个物体经过时没有停留，意味着两个目标擦肩而过，通过群划分算法将其划分到同一管集，如图3b所示。相比之下，本申请提出的算法可以得到正确真实的结果，如图3c所示。图3d显示了反向移动的两个目标在运动过程中有停留，因此在满足时空接近性的情况下，可以认为两个对象具有交互性，群划分算法和本申请提出的算法均划分为一个管集，如图3e和图3f所示。

实验分析

本文在4段视频上进行实验，vid1来自CAVIAR project，vid2，vid3均来自BEHAVE，vid4是来自户外拍摄的视频。这些视频描述了一些不同的场景，如图4a-4d所示。

为了验证管集划分算法的有效性，通过群划分算法和本申请提出的方法对vid1-4生成的管集进行了评估。视觉效果如图5a-5i所示。图5a、图5d以及图5g是运动物体的轨迹图，其中目标的移动方向由箭头表示。图5b、图5e以及图5h是群划分算法生成的管集结果。浅色椭圆表示生成的管集，深色椭圆表示将目标管分为一个管集的原因。图5c、图5f以及图5i是用管集划分算法生成的结果。

第一行代表CAVIAR购物中心视频序列场景，id1和id2并排前进，id3和id4反向行走且没有停留，id5保持一直站立，具体情况如图5a所示。在群划分算法生成的结果中，id1-4均在一个管集内(图5b)。显然，这与实际情况不符。而本申请提出的管集划分算法方法很好地解决了这一问题，生成了4个管组，保持了真实的交互动作，如图5c所示。

第二行是BEHAVE-2视频序列的场景，从图5d可以看出，id1和id2从左上角进入视频，id2走向id3，产生打斗行为。在群划分算法的结果中，生成了一个管集(图5e)。相反，本申请的方法得到的结果更好、更真实地保留了原来的活动，如图5f所示。同样，Road视频序列显示了四个人单独行走的场景(图5g)。通过群划分算法5生成两个管组(图5h)。然而，本申请的方法有效地根据实际情况将目标管分成不同的管组(图5i)。综上，实验结果表明，该方法具有较好的性能。