CN117376638B

CN117376638B - 片段分割的视频浓缩方法

Info

Publication number: CN117376638B
Application number: CN202311124926.7A
Authority: CN
Inventors: 张云佐; 朱鹏飞; 杨月辉; 王书海; 涂志伟; 肖遥舸
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2023-09-02
Filing date: 2023-09-02
Publication date: 2024-05-21
Anticipated expiration: 2043-09-02
Also published as: CN117376638A

Abstract

本发明公开了一种片段划分的视频浓缩方法，涉及到图像与视频处理领域。所述方法包含以下步骤：输入原视频，得到视频的背景以及目标管；遍历视频帧，找出视频每一帧中目标所在的像素点，依据像素点将视频划分为稀疏片段和密集片段；对稀疏片段中在同一个方向进入视频的目标进行方向聚合处理；结合检测框最小高度保留目标的交互性，并对稀疏片段进行优化重排；将重排后的稀疏片段与视频背景进行结合，并将结合后的结果与密集片段进行顺序拼接得到最后的浓缩视频。本发明能够提升目标密集时浓缩视频的性能。

Description

片段分割的视频浓缩方法

技术领域

本申请涉及图像和视频处理领域，具体涉及一种片段分割的视频浓缩方法。

背景技术

随着信息时代的不断发展，监控系统不断完善，各种监控设备分布在城市的各个角落，在维护社会稳定和打击非法犯罪方面发挥着重要作用。然而，大量监控设备的持续运行导致了视频数据的爆炸式增长。如何保存大量的数据，有效地搜索必要的数据已成为一个亟待解决的问题。

视频浓缩技术通过在确保用户观看体验的同时，通过在时间和空间维度上移动物体来压缩视频长度，因此受到了研究人员的广泛关注。现有的方法都致力于研究如何使用更好的方法来移动物体，以获得更好的浓缩效果。为了便于移动物体，目标的轨迹被定义为目标管，后续大多数方法都是基于此进行研究。

视频浓缩技术需要从视频中提取对象管以进行后续处理，因此准确地提取对象管起着至关重要的作用。但是，当视频中有很多对象时，对象管很难准确提取，此时的浓缩视频会造成更多的碰撞，影响观看效果，甚至导致浓缩视频比原始视频更长。

为了解决上述问题，Li等在视频浓缩中采用拥挤检测方法，分别处理拥挤和稀疏场景，获得浓缩视频。然而，这种方法可能会导致一些目标管被分割成几个部分，从而导致目标轨迹的丢失。如何在多目标场景中获得更好的效果是视频浓缩中的重要内容。

为了追求更好的轮廓视觉效果，大多数方法在移动目标管时减少了碰撞。He等人使用图像方法可以在对象碰撞之前避免碰撞。Nie等人通过扩展视频背景降低视频中物体的碰撞概率，但该方法仅适用于少量固定背景的视频。一些视频浓缩方法还通过聚集轨迹、改变物体大小或改变物体运动速度来减少目标之间的碰撞。但大多数视频浓缩方法基于单一对象管作为处理单元，可能在浓缩过程中分离原来的交互对象，影响用户对原始视频内容的理解。

为了解决浓缩视频中失去物体交互行为的问题，研究者们逐渐提出了手动移动轨迹、轨迹映射模型以及确定轨迹是否相交等方法。Li等提出一种结合物体空间距离和接触持续时间的方法可以使物体交互性判断更加准确。在此基础上，Narayanan等采用最短的空间距离和动态阈值可以进一步提高交互性保存的准确性。如何在确保浓缩性能的同时保持目标之间的交互行为有待进一步研究。

发明内容

本发明提供一种片段分割的视频浓缩方法，在目标重叠较多时也能够得到较好的浓缩效果。

本发明的技术方案如下：

一种片段分割的视频浓缩方法，具体包含以下步骤：

S1:输入需要处理的视频；

S2:获得输入视频的背景；

S3:对视频中的进行跟踪处理，获得目标的移动轨迹，记作目标管；

S4:遍历视频所有的帧，判断视频帧属于密集帧还是稀疏帧，依据密集帧和稀疏帧得到密集片段和稀疏片段；

S5:将视频背景划分为上下左右中五个区域，对稀疏片段中的目标进行方向聚合处理；

S6:利用目标间的最小高度保留目标间的交互性，将具有交互性的目标作为整体处理；

S7:对稀疏片段进行浓缩，与背景结合得到稀疏片段的浓缩视频；

S8:将浓缩后的稀疏片段和密集片段结合得到最后的浓缩视频。

可选地，获得输入视频的背景，包括：

利用GMM(高斯混合背景建模)方法处理输入视频，不断优化，得到视频的背景图片。

可选地，对视频中的进行跟踪处理，包括：

采用deep sort方法遍历整个视频，得到每个目标的移动轨迹，视作目标管处理。

可选地，遍历视频所有的帧，包括：

从视频的第一帧到最后一帧对视频进行处理，找到视频背景每一帧每一个位置是否存在目标，以及存在目标的个数；

整个视频背景图片中出现过目标的位置结合在一起称作有效区域。

可选地，判断视频帧属于密集帧还是稀疏帧，包括：

依据帧内目标像素点数占视频背景的比例可以对视频帧进行判断，比例越大越有可能成为密集帧；

进一步地，依据帧内重叠的目标像素点数占总目标像素点数的比例也可以对视频帧进行判断，同样地，帧内重叠的目标比例越大也越有可能成为密集帧；

进一步地，依据帧内目标像素点数占有效区域的比例也可以对视频帧进行判断，帧内目标像素点数占有效区域的比例越大越有可能成为密集帧，有效区域指的是整个视频中有目标经过的地方。

可选地，依据密集帧和稀疏帧得到密集片段和稀疏片段，包括：

将连续的密集帧定义为密集片段，将连续的稀疏帧定义为稀疏片段。

可选地，将视频背景划分为上下左右中五个区域，包括：

定义视频背景左下角，左上角，右下角，右上角分别为顶点O，X，Y和Z，其中O作为原点；定义A，B，C和D四个顶点，和/>分别为四个顶点的坐标，W和H分别为视频背景的长和宽；

进一步地，视频左方区域为顶点OXAB构成的梯形，视频下方区域为顶点OBCY构成的梯形，视频上方区域为顶点XADZ构成的梯形，视频右方区域为顶点YCDZ构成的梯形，视频中间区域为ABCD构成的矩形。

可选地，对稀疏片段中的目标进行方向聚合处理，包括：

以目标进入视频第一帧的检测框中心点作为判断点，判断点在哪个区域则目标被定义为从哪个方向进入视频的目标，方向聚合为对同一个方向进入视频的目标在一起进行处理，若用户没有规定目标进入视频的处理顺序，则默认按照左下上右中五个区域的顺序对进入的目标进行处理。

可选地，利用目标间的最小高度保留目标间的交互性，包括：

最小高度指的是在某一帧两个目标检测框高度的较小值；

进一步地，交互性指原视频中目标之间具有交互行为。

可选地，对稀疏片段进行浓缩，包括：

综合减少目标间的碰撞，缩短视频的时长对稀疏片段中的目标管进行移动。

可选地，与背景结合得到稀疏片段的浓缩视频，包括：

将移动后的目标管和得到的视频背景进行结合，得到每一个稀疏片段的浓缩视频。

可选地，将浓缩后的稀疏片段和密集片段结合得到最后的浓缩视频，包括：

按照顺序从前到后逐渐结合每个浓缩后的稀疏片段和密集片段得到最后的浓缩视频结果。

附图说明

利用下面的图例对发明进行进一步介绍，此发明的特征会更加明显：

图1为本发明的片段分割的视频浓缩方法步骤的流程图；

图2为发明提供的一个优选实施例的密集和稀疏片段划分方法步骤流程图；

图3为发明提供的一个优选实施例的区域划分和方向聚合方法流程图；

图4为发明提供的一个优选实施例的交互性保留方法的流程图。

具体实施方式

下面结合具体的实例讲解来加强相关人员对此发明的了解。

图1为本发明的片段分割的视频浓缩方法步骤的流程图，具体包括以下步骤：

S1:输入视频；

S2:获得视频的背景；

S3:进行目标跟踪，获取目标管；

S4:将视频分为密集和稀疏片段；

S5:划分区域，进行方向聚合；

S6:保留目标的交互性；

S7:对稀疏片段进行浓缩；

S8:结合密集片段生成浓缩视频。

其中步骤S1为输入视频，将输入的视频记为V(W,H,N)，其中W和H分别为视频背景的长和宽，N为视频的帧数量。

其中步骤S2为获得视频的背景，利用GMM(高斯混合背景建模)方法得到输入视频V的背景。

其中步骤S3为进行目标跟踪，获取目标管，主要为：

利用deepsort对视频进行跟踪，获得每一个目标的移动轨迹，记作目标管；

其中T_i表示视频中第i个目标管。

本发明提供了一个优选执行例S4，将视频分为密集和稀疏片段，如图2所示，包含以下步骤：

S41:逐帧遍历输入的视频；

S42:判断背景位置是否存在目标；

S43:统计像素点重叠目标数；

S44:划分视频中的有效区域；

S45:判断视频的密集和稀疏帧；

S46:得到视频的密集和稀疏片段。

其中步骤S41是从视频的第一帧一直遍历到最后一帧，找视频背景每一个位置的目标。

其中步骤S42用以查找视频背景每一个位置是否存在目标，用f_i[x][y]表示视频第i帧像素点(x,y)处是否存在目标，其中0≤x≤W，0≤y≤H；

在视频中，若f_i[x][y]＝1，则在视频第i帧像素点(x,y)处存在目标，即(x,y)为目标像素点，f_i[x][y[＝0，则在视频第i帧像素点(x,y)处不存在目标。

其中步骤S43用来统计视频像素点重叠的目标数，O_i[x][y[表示视频第i帧像素点(x,y)处存在目标的个数；

O_i[x][y[越大表明视频第i帧像素点(x,y)处目标越多，目标检测框重叠越多。

其中步骤S44用来划分视频中的有效区域，有效区域指的是整个视频中有目标经过的地方；

f^v[x][y]用来判断视频v所有帧中在像素点(x,y)是否出现过目标，f^v[x][y]＝1表示在视频所有帧中像素点(x,y)处出现过目标，则(x,y)为有效区域中的像素点；f^v[x][y]＝0表示在视频所有帧中像素点(x,y)处没有出现过目标，则(x,y)不是有效区域中的像素点；

将整个视频背景中f^v[x][y]＝1的像素点组合在一起便组成了视频v的有效区域；

有效区域像素点个数的计算公式为：

其中，表示视频v有效区域的像素点个数。

其中步骤S45用来判断视频帧属于密集帧还是稀疏帧，计算公式如下：

式中DS_i表示视频第i帧属于密集帧还是稀疏帧的判断结果，其中DS_i＝1表示视频第i帧属于密集帧，DS_i＝0表示视频第i帧属于稀疏帧；

P_i，C_i和E_i分别表示视频第i帧内的目标像素点占视频背景的比例，目标重叠像素点占目标总像素点的比例以及目标像素点占有效区域的比例是否满足成为密集帧的要求；

P_i的计算公式如下：

式中，P_i＝1表示视频第i帧内的目标像素点占视频背景的比例满足密集帧的要求，P_i＝0表示视频第i帧内的目标像素点占视频背景的比例不满足密集帧的要求；

表示视频第i帧目标像素点的个数，计算公式为：

C_i的计算公式如下：

C_i＝1表示视频第i帧内的目标重叠像素点占目标总像素点的比例满足密集帧的要求，C_i＝0表示视频第i帧内的目标重叠像素点占目标总像素点的比例不满足密集帧的要求；

E_i的计算公式如下：

式中E_i＝1表示视频第i帧内的目标像素点占有效区域的比例满足密集帧的要求，E_i＝0表示视频第i帧内的目标像素点占有效区域的比例不满足密集帧的要求。

其中步骤S46是得到视频的密集和稀疏片段，主要为：

将连续的密集帧定义为密集片段，记作S_i，表示第i个密集片段；将连续的稀疏帧定义为稀疏片段，记作D_i，表示第i个稀疏片段。

本发明提供了一个优选执行例S5，划分区域，进行方向聚合，如图3所示，包含以下步骤：

S51:定义视频背景四个顶点；

S52:定义视频背景内四个顶点；

S53:将视频背景划分为五个区域；

S54:记录目标起始点所在位置；

S55:对稀疏片段的目标方向聚合。

其中，步骤S51用于定义视频背景四个角的顶点；

视频背景左下角，左上角，右下角，右上角分别为顶点O，X，Y和Z，其中O作为原点。

其中，步骤S52用于定义视频背景内四个顶点；

在视频背景中定义A，B，C和D四个顶点，坐标分别为

其中，步骤S53用于将视频背景划分为五个区域：

视频左方区域为顶点OXAB构成的梯形，视频下方区域为顶点OBCY构成的梯形，视频上方区域为顶点XADZ构成的梯形，视频右方区域为顶点YCDZ构成的梯形，视频中间区域为ABCD构成的矩形。

其中，步骤S54用于记录目标起始点所在位置；

起始点为目标进入视频第一帧检测框的中心点，后续以此中心点作为判断点。

其中，步骤S55用于对稀疏片段的目标方向聚合；

方向聚合指对同一个区域进入视频的目标统一进行处理；

判断点在哪个区域则目标被定义为从哪个方向进入视频的目标，对同一个方向进入视频的目标在一起进行处理，若用户没有规定目标进入视频的处理顺序，则默认按照左下上右中五个区域的顺序对进入的目标进行处理。

本发明提供了一个优选执行例S6，划分区域，进行方向聚合，如图4所示，包含以下步骤：

S61:统计目标共同出现的时间；

S62:判断每一帧是否为交互帧；

S63:统计交互帧的个数；

S64:将个数与阈值进行对比；

S65:判断目标间的交互性。

其中，步骤S61为统计目标共同出现的时间，包含目标共同出现的最早时间和最晚时间；

x＝min(t(T_i∩T_j))为目标T_i和T_j共同出现的最早帧，x＝max(t(T_i∩T_j))为目标T_i和T_j共同出现的最晚帧。

其中，步骤S62用于判断每一帧是否为交互帧，公式如下：

式中，S_x(T_i，T_j)＝1表明目标T_i和T_j间在第x帧具有交互性；S_x(T_i，T_j)＝0表明目标T_i和T_j间在第x帧不具有交互性；dist_x(T_i，T_j)表示在第x帧目标T_i和T_j检测框中心点的直接距离；

为了使判断结果更加准确，本发明采用目标间的最小高度来进行判断交互性，min(h_x(T_i)，h_x(T_j))表示第x帧目标T_i和T_j检测框高度两者的最小值。

其中，步骤S63用于统计交互帧的个数，公式如下：

式中，DN(T_i，T_j)的结果表示视频中目标T_i和T_j交互帧的数量。

其中，步骤S64用于将交互帧的个数与阈值进行对比，阈值公式如下：

式中，G(T_i，T_j)为目标T_i和T_j的阈值，num(t(T_i∩T_j))为目标T_i和T_j共同出现在视频中帧的数量，将DN(T_i，T_j)和G(T_i，T_j)的值进行对比。

其中，步骤S65用于判断目标间的交互性，公式如下：

式中，I(T_i,T_j)＝1表示目标T_i和T_j之间具有交互性，后续视作整体处理；I(T_i,T_j)＝0表示目标T_i和T_j之间不具有交互性，后续分开处理。

其中步骤S7为对稀疏片段进行浓缩；

综合减少视频长度，目标间的碰撞浓缩稀疏片段，记作Dⁱ，表示第i个稀疏片段浓缩后的结果。

其中步骤S8为结合密集片段生成浓缩视频：

将密集片段和浓缩后的稀疏片段按顺序结合生成最后的浓缩视频。

为了体现本发明的有效性，进行了大量的实验。

我们从VISOR数据集和文献(Nie et al.2020)中选择了10个视频，它们有不同的类型，如长视频、短视频、复杂视频和简单视频，不同种类的视频能够进一步体现本发明的优越性。

为了全面评价本发明，我们从帧压缩率(FR)和碰撞率(OR)两个方面对其进行了评价，计算公式如下：

L_O为浓缩视频的长度，L_S为原视频长度，FR越小表示浓缩性能越好。

式中，n(O_S)表示视频重叠的像素点数量，OR越小表示方法减少碰撞的性能越好。

表1本发明方法与其它方法的FR比较结果

表2本文方法与其它方法的OR比较结果

我们将把所提出的方法与较为权威的粒子群优化方法(MM)、事件重排方法(ER)以及保持交互性的方法(PI)进行比较。从表1可以看出，在多个视频中，我们所提出的方法的FR是基本上是最小的，平均值为0.091；与其他三种方法相比，时间性能有了显著提高；其他三种方法的FR平均值分别为0.143、0.190和0.147。

从表2可以看出，我们的方法得到的平均OR值最小，为0.079，比方法ER得到的0.136的平均OR值小0.057；然而，我们的方法并不总是为每个视频获得最小的OR值，因为在考虑浓度时，我们牺牲了一部分碰撞减少性能来减少视频持续时间。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下，可以任意组合使用。

Claims

1.一种片段分割的视频浓缩方法，其特征在于包括以下步骤：

S1:输入视频，获得视频的背景图片和目标管；

S2:逐帧遍历视频，找到每一帧中目标所在像素点，将视频帧划分为密集帧和稀疏帧，公式如下：

式中DS_i表示视频第i帧属于密集帧还是稀疏帧的判断结果，其中DS_i＝1表示视频第i帧属于密集帧，DS_i＝0表示视频第i帧属于稀疏帧；P_i，C_i和E_i分别表示第i帧视频内的目标像素点占视频背景的比例，目标重叠像素点占目标总像素点的比例以及目标像素点占有效区域的比例是否满足成为密集帧的要求，连续的密集帧记作密集片段，连续的稀疏帧记作稀疏片段，有效区域指的是整个视频中有目标经过的地方；

其中，P_i的计算公式为：

式中P_i＝1表示视频第i帧内的目标像素点占视频背景的比例满足密集帧的要求，P_i＝0表示视频第i帧内的目标像素点占视频背景的比例不满足密集帧的要求；W和H分别表示视频背景的长和宽；表示视频第i帧目标像素点的数量，公式如下：

式中f_i[x][y]表示判断视频第i帧像素点(x,y)是否存在目标的结果，f_i[x][y]的值为1或者0；f_i[x][y]＝1表示视频第i帧像素点(x,y)处存在目标，即(x,y)为目标像素点；f_i[x][y]＝0表示视频第i帧像素点(x,y)处不存在目标；

C_i的计算公式为：

式中C_i＝1表示视频第i帧内的目标重叠像素点占目标总像素点的比例满足密集帧的要求，C_i＝0表示视频第i帧内的目标重叠像素点占目标总像素点的比例不满足密集帧的要求；O_i[x][y]表示视频第i帧像素点(x,y)处存在目标的个数，O_i[x][y]越大表明视频第i帧像素点(x,y)处目标越多，目标检测框重叠越多；

E_i的计算公式为：

式中E_i＝1表示视频第i帧内的目标像素点占有效区域的比例满足密集帧的要求，E_i＝0表示视频第i帧内的目标像素点占有效区域的比例不满足密集帧的要求；表示视频v有效区域的像素点的数量，计算公式如下：

式中f^v[x][y]表示视频v所有帧中在像素点(x,y)是否出现过目标，f^v[x][y]＝1表示在视频所有帧中像素点(x,y)处出现过目标，则(x,y)为有效区域中的像素点；f^v[x][y]＝0表示在视频所有帧中像素点(x,y)处没有出现过目标，则(x,y)不是有效区域中的像素点；

S3:将视频背景划分为五个区域，依据稀疏片段中目标第一帧所在视频的区域对目标进行方向聚合处理，其中方向聚合指的是对同一个区域进入视频的目标统一进行处理；

S4:以目标检测框最小高度为基础保留目标的交互性，具有交互性的目标会作为一个整体进行浓缩处理，交互性指的是原视频中目标具有交互行为；

S5:对稀疏片段的目标进行优化重排，将重排后的目标与视频背景进行结合，并将结合的结果按照时间顺序与密集片段进行拼接生成最后的浓缩视频。

2.如权利要求1所述的片段分割的视频浓缩方法，其特征在于将视频划分为五个区域，视频背景左下角，左上角，右下角，右上角分别为顶点O，X，Y和Z，其中O作为原点；在视频背景中定义A，B，C和D四个顶点，坐标分别为和/>则视频左方区域为顶点OXAB构成的梯形，视频下方区域为顶点OBCY构成的梯形，视频上方区域为顶点XADZ构成的梯形，视频右方区域为顶点YCDZ构成的梯形，视频中间区域为ABCD构成的矩形。

3.如权利要求1所述的片段分割的视频浓缩方法，其特征在于对稀疏片段中的目标进行方向聚合处理，以目标进入视频第一帧的检测框中心点作为判断点，判断点在哪个区域则目标被定义为从哪个方向进入视频的目标，对同一个方向进入视频的目标在一起进行处理，若用户没有规定目标进入视频的处理顺序，则默认按照左下上右中五个区域的顺序对进入的目标进行处理。