CN114372994B

CN114372994B - 视频浓缩中背景图像的生成方法

Info

Publication number: CN114372994B
Application number: CN202210023026.2A
Authority: CN
Inventors: 杨一明; 瞿洪桂; 徐伟华
Original assignee: Beijing Sinonet Science and Technology Co Ltd
Current assignee: Beijing Sinonet Science and Technology Co Ltd
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-07-22
Anticipated expiration: 2042-01-10
Also published as: CN114372994A

Abstract

本发明提供一种视频浓缩中背景图像的生成方法，包括以下步骤：对于同一个图像帧，分别利用目标检测模型，目标跟踪模型和背景建模技术，检测得到目标框集合，并进行目标框集合的合并；背景候选图的生成；背景图生成。具有以下优点：(1)该方法结合深度学习和非深度学习的方法，对图像帧中前景目标的检测更加准确，提高图像帧中前景目标检出率，漏检明显减少；(2)可以适应不同场景不同目标的检出需要。(3)该方法可以有效解决背景建模漏检短暂静止的前景目标的弊端。(4)该方法生成背景候选图的效率高。(5)有效利用了多帧信息，前景目标的漏检残留现象被进一步消除，生成的背景图像质量明显提升。

Description

视频浓缩中背景图像的生成方法

技术领域

本发明属于计算机视觉、路况监控技术领域，具体涉及一种视频浓缩中背景图像的生成方法。

背景技术

视频浓缩Video Synopsis，是对视频内容的一个简单概括，以自动或半自动的方式，通过对视频中的运动目标进行算法分析，提取运动目标，然后对各个目标的运动轨迹进行分析，将不同的目标拼接到一个共同的背景场景中，并将其以某种方式进行组合，生成新的浓缩后视频的一种技术。

因此，在视频浓缩时，生成背景图像是关键基础步骤。现有的背景图像生成方法是：采用背景建模技术判断视频中是否存在静止图像帧，如果存在，则将静止图像帧序列中的第一个静止图像帧，作为背景图像；否则，对背景建模得到的候选背景图像进行一定的处理，从而得到背景图像。

以上方法过于依赖背景建模技术，而背景建模只能获取到每个图像帧中的运动物体作为前景目标，而且精度不高，因此存在问题如下：1.该方法遗漏前景目标的概率较高，导致生成的背景图像中残留前景目标的可能性较大；2.该方法只能针对运动物体作为前景目标进行前景目标检测，不能针对特定类型的非运动目标，可能遗漏短暂静止的前景目标，导致生成的背景图像中残留前景目标；3.如果存在多张静止图像帧，该方法只采用第一张作为背景图像，没有利用多张静止图像帧的信息，生成的背景图像中残留前景目标的可能性较高。

发明内容

针对现有技术存在的缺陷，本发明提供一种视频浓缩中背景图像的生成方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种视频浓缩中背景图像的生成方法，包括以下步骤：

步骤1，视频包括p张图像帧，按序依次表示为：图像帧S₁,图像帧S₂,...,图像帧S_p；

步骤2，对于每张图像帧S_u，u＝1,2,...,p，均执行步骤2.1-步骤2.5，得到图像帧S_u的目标框集合H_Su＝{目标框h_Su(1),目标框h_Su(2),...,目标框h_Su(z(u))}；其中，z(u)代表图像帧S_u包括的目标框的数量；

步骤2.1，利用目标检测模型，对图像帧S_u进行特定目标检测，得到目标框集合H₁；

其中，如果图像帧S_u中未检测到特定目标，则目标框集合H₁为空；如果在图像帧S_u中检测到存在n₁个特定目标，每个特定目标对应一个目标框，由此检测到n₁个目标框，因此，目标框集合H₁中包括n₁个目标框；

步骤2.2，利用目标跟踪模型，对图像帧S_u进行特定目标跟踪，得到目标框集合H₂；

其中，如果图像帧S_u中未跟踪到特定目标，则目标框集合H₂为空；如果在图像帧S_u中跟踪到存在n₂个特定目标，每个特定目标对应一个目标框，由此跟踪到n₂个目标框，因此，目标框集合H₂中包括n₂个目标框；

步骤2.3，利用背景建模技术，对图像帧S_u进行运动物体目标检测，得到目标框集合H₃；

其中，如果图像帧S_u中未检测到存在运动物体目标，则目标框集合H₃为空；如果在图像帧S_u中检测到存在n₃个运动物体目标，每个运动物体目标对应一个目标框，由此检测到n₃个目标框，因此，目标框集合H₃中包括n₃个目标框；

其中，对于目标框集合H1、目标框集合H₂和目标框集合H₃中的每个目标框，均具有以下属性：(x₀,y₀,w₀,h₀),(x₀,y₀)代表目标框的中心点在图像帧S_u中的坐标；w₀和h₀分别代表目标框的宽度和高度；

步骤2.4，对目标框集合H₁和目标框集合H₂进行合并操作，得到合并目标框集合H₁₂：

步骤2.4.1，合并目标框集合H₁₂初始为空；

步骤2.4.2，将目标框集合H₁中的所有目标框，以及目标框集合H₂中的所有目标框，均加入到合并目标框集合H₁₂中，由此得到合并目标框集合H₁₂；

步骤2.4.3，对步骤2.4.2得到的合并目标框集合H₁₂进行去冗余操作，得到最终的合并目标框集合H₁₂：

去冗余操作为：

对于目标框集合H₂中的每个目标框，表示为：目标框h₂，计算其与目标框集合H₁中的各个目标框的重叠度IOU，如果存在重叠度IOU>ε的情况，则将目标框h₂作为冗余目标框，从步骤2.4.2得到的合并目标框集合H₁₂中，删除该目标框h₂；否则，保留该目标框h₂；

步骤2.5，对合并目标框集合H₁₂和目标框集合H₃进行合并操作，得到最终的目标框集合H_Su：

步骤2.5.1，目标框集合H_Su初始为空；

步骤2.5.2，将合并目标框集合H₁₂中的所有目标框，以及目标框集合H₃中的所有目标框，均加入到目标框集合H_Su，由此得到目标框集合H_Su；

步骤2.5.3，对步骤2.5.2得到的目标框集合H_Su进行去冗余操作，得到最终的目标框集合H_Su：

去冗余操作为：

对于合并目标框集合H₁₂中的每个目标框，表示为目标框h₁₂，判断其是否被目标框集合H₃中的某个目标框完全包含，如果是，则从目标框集合H_Su中删除该目标框h₁₂；否则，保留该目标框h₁₂；

对于目标框集合H₃中的每个目标框h₃，判断其是否被合并目标框集合H₁₂中的某个目标框完全包含，如果是，则从目标框集合H_Su中删除该目标框h₃；否则，保留该目标框h₃；

步骤3，背景候选图的生成：

对于图像帧S₁，得到的目标框集合H_S1包括z(1)个目标框；

对于图像帧S₂，得到的目标框集合H_S2包括z(2)个目标框；

依此类推

对于图像帧S_p，得到的目标框集合H_Sp包括z(p)个目标框；

在z(1),z(2),...,z(p)中，选择最小值，表示为：z(min)，一共包括z(min)个目标框的图像帧依次为：图像帧S_1min,图像帧S_2min,...,图像帧S_N1min，其中，N1为具有z(min)个目标框的图像帧的数量；

如果z(min)＝0，表明图像帧S_1min,图像帧S_2min,...,图像帧S_N1min中均不具有目标框，将图像帧S_1min,图像帧S_2min,...,图像帧S_N1min作为背景候选图，然后执行步骤4；

如果z(min)≠0，在z(1),z(2),...,z(p)中，选择次小值，表示为：z(mid)，一共包括z(mid)个目标框的图像帧依次为：图像帧S_1mid,图像帧S_2mid,...,图像帧S_N2mid，其中，N2为具有z(mid)个目标框的图像帧的数量；

将N1+N2个图像帧，即图像帧S_1min,图像帧S_2min,...,图像帧S_N1min,图像帧S_1mid,图像帧S_2mid,...,图像帧S_N2mid作为背景候选图，然后执行步骤5；

步骤4，如果N1<3，将图像帧S_1min作为背景图，结束流程；

如果N1≥3，则从图像帧S_1min,图像帧S_2min,...,图像帧S_N1min中，挑选与其他各图像帧的相似度的和最大的图像帧，作为背景图，结束流程；

步骤5，以图像帧S_1min为基础，图像帧S_1min包括z(min)个目标框，分别表示为：目标框h(1),目标框h(2),...,目标框h(z(min))；

对于每个目标框h(a),a＝1,2,...,z(min),其属性为：(x_a,y_a,w_a,h_a),(x_a,y_a)代表目标框h(a)的中心点在图像帧S_1min中的坐标；w_a和h_a分别代表目标框的宽度和高度，均执行以下步骤：

按序依次遍历图像帧S_2min,...,图像帧S_N1min,图像帧S_1mid,图像帧S_2mid,...,图像帧S_N2mid，当首次遍历到某个图像帧S_b,b＝2min,...,N1min,1mid,2mid,...,N2mid，满足以下条件：

在图像帧S_b中，以(x_a,y_a)为中心点，w_a和h_a为宽度和高度，绘制目标框h(b)，所绘制的目标框h(b)，与图像帧S_b中原来存在的目标框不存在任何重叠；

则停止遍历，从图像帧S_b中剪切出来绘制的目标框h(b)的区域，作为子图，替换图像帧S_1min中目标框h(a)的区域；

当对图像帧S_1min的z(min)个目标框均执行完成替换操作时，由此得到的图像帧，作为背景图，结束流程。

优选的，步骤4中，N1≥3时，从图像帧S_1min,图像帧S_2min,...,图像帧S_N1min中，挑选与其他各图像帧的相似度的和最大的图像帧，作为背景图，具体为：

步骤4.1，对于图像帧S_1min，分别计算其与其他N1-1个图像帧的相似度，再对得到的N1-1个相似度求和，得到图像帧S_1min的相似度量值F_1min；

对于图像帧S_2min，分别计算其与其他N1-1个图像帧的相似度，再对得到的N1-1个相似度求和，得到图像帧S_2min的相似度量值F_2min；

依此类推

对于图像帧S_N1min，分别计算其与其他N1-1个图像帧的相似度，再对得到的N1-1个相似度求和，得到图像帧S_N1min的相似度量值F_N1min；

步骤4.2，在相似度量值F_1min,F_2min,...,F_N1min中，选择最大值，表示为：F_(max)；相似度量值F_(max)对应的图像帧，作为背景图。

优选的，图像帧S_1min,图像帧S_2min,...,图像帧S_N1min中，任意两个图像帧表示为：

图像帧S_i和图像帧S_j，采用以下方法，计算相似度：

图像帧S_i和图像帧S_j的尺寸相同，均划分为c₁*c₂个结构块block；其中，c₁为结构块的行数，c₂为结构块的列数；

采用下式，计算图像帧S_i和图像帧S_j的相似度block_ssim^(i,j)：

其中：

对图像帧S_i的c₁*c₂个结构块按从左向右，从上向下的顺序，从1开始依次编号，

代表图像帧S_i中编号为L的结构块；

对图像帧S_j的c₁*c₂个结构块按从左向右，从上向下的顺序，从1开始依次编号，

代表图像帧S_j中编号为L的结构块；

代表结构块

和结构块

的相似度；

floor()函数表示向下取整；

的含义为：对结构块

和结构块

的相似度，以0.8为阈值进行二值化，即：如果相似度大于等于0.8，则结果为1；否则，结果为0。

本发明提供的视频浓缩中背景图像的生成方法具有以下优点：

(1)该方法结合深度学习(目标检测、目标跟踪)和非深度学习(背景建模)的方法，对图像帧中前景目标的检测更加准确，提高图像帧中前景目标检出率，漏检明显减少，从而保证生成准确的背景图像；

(2)该方法可以针对特定目标(比如行人、机动车、非机动车等)加强其检出的能力，可以适应不同场景不同目标的检出需要。

(3)该方法可以有效解决背景建模漏检短暂静止的前景目标的弊端。

(4)该方法生成背景候选图的效率高，遍历一次每帧的目标框数量，即可选出背景候选图，计算量小，耗时短。

(5)该方法提出块结构相似度计算方法，在多帧目标框数量为0的情况下，有效利用了多帧信息，计算出与所有帧图像相似度最高的一帧图像，生成背景图像，前景目标的漏检残留现象被进一步消除，生成的背景图像质量明显提升。

附图说明

图1为本发明提供的视频浓缩中背景图像的生成方法的流程示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种视频浓缩中背景图像的生成方法，结合目标检测、目标跟踪、背景建模、图像的结构相似度等计算方法，实现浓缩视频中背景图像生成，本发明可有效减小生成的背景图像中残留前景目标的可能性，从而提高生成的背景图像的准确度和精度。

参考图1，本发明提供一种视频浓缩中背景图像的生成方法，包括以下步骤：

作为一种具体实现方式，可以采用yolov5目标检测模型，对图像帧S_u进行特定目标检测，比如特定目标为行人、非机动车、机动车等，每一个检测到的目标生成一个目标框，由此得到目标框集合H₁。例如，以行人为特定目标，检测到某个图像帧S_u共包括10个行人，则生成10个行人目标框，形成目标框集合H₁。

作为一种具体实现方式，可以采用deepsort-resnet18目标跟踪模型，对图像帧S_u进行特定目标跟踪。例如，特定目标为行人，在某个图像帧S_u中共追踪到10个行人，则生成10个行人目标框，形成目标框集合H₂。

具体的，利用背景建模技术，对图像帧S_u进行运动物体目标检测，例如，检测到图像帧S_u中存在两个运动物体，分别为树叶和车辆，则生成2个目标框，形成目标框集合H₃。

其中，对于目标框集合H1、目标框集合H₂和目标框集合H₃中的每个目标框，均具有以下属性：(x₀,y₀,w₀,h₀),(x₀,y₀)代表目标框的中心点在图像帧S_u中的坐标；w₀和h₀分别代表目标框的宽度和高度。另外，本发明中，各个图像帧的尺寸均相等。

在一条运动轨迹形成的图像帧序列中，通过目标检测模型，检测到部分图像帧具有目标框，部分图像帧由于目标检测模型的检测效率和物体遮挡产生漏检，导致不具有目标框。此时出现遗漏前景目标的现象。

因此，本发明中，通过目标跟踪模型对图像帧进行检测，将跟踪到的目标框与目标检测模型在同一个图像帧中检测到的目标框进行合并，实现目标跟踪模型对目标检测模型的补充作用。具体合并方法见步骤2.4。

由于背景建模技术只对各个图像帧S_u中的运动物体进行检测，可能遗漏短暂静止的前景目标，进而误判。而目标检测模型和目标跟踪模型虽然具有较高的检测性能，但依然具有遗漏前景目标的可能性。所以，将背景建模技术检测到的目标框，与目标检测模型和目标跟踪模型检测到的目标框进一步进行合并，实现背景建模技术对目标检测模型和目标跟踪模型的补充，进一步减少漏检前景目标的可能性，具体合并方法见步骤2.5。

因此，将目标检测模型、目标跟踪模型和背景建模技术检测到的目标框进行合并，相互补充，三类目标框基本涵盖了视频中每帧的前景目标，使漏检的概率控制在较低的范围。

具体见步骤2.4和步骤2.5。

步骤2.4.1，合并目标框集合H₁₂初始为空；

去冗余操作为：

对于目标框集合H₂中的每个目标框，表示为：目标框h₂，计算其与目标框集合H₁中的各个目标框的重叠度IOU，如果存在重叠度IOU>ε的情况，例如，ε为0.8，则将目标框h₂作为冗余目标框，从步骤2.4.2得到的合并目标框集合H₁₂中，删除该目标框h₂；否则，保留该目标框h₂；

本步骤合并目标检测模型得到的目标框集合H₁和目标跟踪模型得到的目标框集合H₂，目标框集合H₂可以补充目标框集合H₁漏检的情况。目标框集合H₁的目标框准确率较高，可以校准目标框集合H₂跟踪不准的情况。但两者合并会产生重叠度较高的冗余目标框。去除冗余目标框的机制：如果H₁中的某个目标框和H₂中的某个目标框的重叠度IOU>0.8，则将H₂中的这个目标框作为冗余目标框，进行删除。

因此，本发明中，由于目标检测模型得到的目标框准确率较高，可以校准目标跟踪模型跟踪不准的情况，因此优先保留目标检测模型得到的目标框，对目标跟踪模型检测到的冗余目标框进行删除。

步骤2.5.1，目标框集合H_Su初始为空；

去冗余操作为：

具体的，合并目标框集合H₃和目标框集合H₁₂，目标框集合H₃可以补充目标检测模型和目标跟踪模型得到的合并后的目标框的信息，但两者合并同样会产生重叠度较高的冗余目标框。

此时去除冗余目标框的机制：如果目标框集合H₁₂中的目标框完全包含目标框集合H₃中的某个目标框，那么删除目标框集合H₃中的这个目标框；反之如果目标框集合H₃中目标框完全包含了目标框集合H₁₂中的某个目标框，那么删除目标框集合H₁₂中的这个目标框。

步骤3，背景候选图的生成：

对于图像帧S₁，得到的目标框集合H_S1包括z(1)个目标框；

对于图像帧S₂，得到的目标框集合H_S2包括z(2)个目标框；

依此类推

对于图像帧S_p，得到的目标框集合H_Sp包括z(p)个目标框；

例如，图像帧序列共包括100个图像帧，分别为：图像帧S₁，图像帧S₂,…,图像帧S₁₀₀，在这100个图像帧中，一共有5个图像帧，分别为：S₂,S₁₀,S₁₅,S₅₁,S₆₀,均具有0个目标框。其他图像帧具有1个以上的目标框。则z(min)＝0，N1＝5。

再例如，图像帧序列共包括100个图像帧，分别为：图像帧S₁，图像帧S₂,…,图像帧S₁₀₀，在这100个图像帧中，一共有10个图像帧，均具有1个目标框，而其他90个图像帧均具有2个以上目标框。则z(min)＝1，N1＝10。

如果z(min)＝0，表明图像帧S_1min,图像帧S_2min,...,图像帧S_N1min中均不具有目标框，代表这些图像帧均为背景，因此，直接将图像帧S_1min,图像帧S_2min,...,图像帧S_N1min作为背景候选图，然后执行步骤4；

也就是说，当z(min)≠0，代表所有的图像帧均不属于完全背景图像，为提高检测精度和算法的有效性，选取目标框数为z(min)和z(mid)的所有图像帧，作为背景候选图。

步骤4，如果N1<3，将图像帧S_1min作为背景图，结束流程；

本步骤具体为：

例如，假设N1＝4，则分别计算S_1min和S_2min的相似度f1，S_1min和S_3min的相似度f2，S_1min和S_4min的相似度f3，再对f1、f2和f3求和，得到相似度量值F_1min。

依此类推

其中，图像帧S_1min,图像帧S_2min,...,图像帧S_N1min中，任意两个图像帧表示为：图像帧S_i和图像帧S_j，采用以下方法，计算相似度：

采用下式，计算图像帧S_i和图像帧S_j的相似度block_ssim^(i,j)：

其中：

代表图像帧S_i中编号为L的结构块；

代表图像帧S_j中编号为L的结构块；

代表结构块

和结构块

的相似度；

floor()函数表示向下取整；

的含义为：对结构块

和结构块

下面列举一个实施例：

具有N1张图像帧，图像帧S_1min,图像帧S_2min,...,图像帧S_N1min，从N1张图像帧中，采用以下方法，挑选一张图像帧作为背景图：

N1张图像帧的尺寸resize均为(500,500)，每个结构块block的边长blocksize＝10，因此，每个图像帧划分为50*50个结构块block；

采用公式计算图像帧S_i和图像帧S_j的相似度block_ssim^(i,j)：

其中：

函数表示结构块

和结构块

的相似度，取值范围在[0,1]，floor()函数表示向下取整，因此，

表示两个结构块的结构相似度以0.8为阈值进行二值化。

计算每张图与其他各张图的块结构相似度之和：

求使f(x)最大的x取值：m＝argmax(f(x))

根据计算结果，第m张背景候选图作为背景图。

下面列举一个实施例：

本发明浓缩视频中背景图像生成的方法，包含4个步骤：目标框生成、目标框合并、背景候选图生成、背景图生成。如图1所示。

步骤一：目标框生成：

对于每个图像帧，本发明选择三种方法生成目标框。

(1)利用目标检测模型yolov5对每个图像帧的特定目标进行检测，比如特定目标为行人、非机动车、机动车，检测这三类目标，得到该图像帧的检测目标框集合H₁；

(2)利用目标跟踪模型deepsort-resnet18对该图像帧的特定目标进行跟踪，得到该图像帧的跟踪目标框集合H₂；

(3)利用背景建模，对该图像帧中的运动物体进行检测，得到该图像帧的目标mask，经过连通域分析确定其外接矩形作为背景建模目标框集合H₃。

步骤二：目标框集合合并

对于同一个图像帧，通过将目标检测模型、目标跟踪模型和背景建模得到的各个目标框进行合并，使三类目标框相互补充，三类目标框基本涵盖了视频中每帧的前景目标，使漏检的概率控制在较低的范围。

合并方法：

首先合并H₁和H₂，H₂的信息可以补充H₁漏检的情况，H₁中的目标框准确率较高可以校准H₂跟踪不准的情况，但两者合并会产生重叠度较高的冗余目标框。去除冗余目标框的机制：

如果H₁和H₂中的某个目标框IOU>0.8，那么删除H₂中的这个目标框为冗余目标框。由于H₁中的目标框准确率较高可以校准H₂跟踪不准的情况，因此优先保留H₁，对H₂中的冗余目标框进行删除之后，H₁和H₂进行合并。合并过程如下：

上述IOU(A,B)函数表示计算A和B的交并比，delete(H₂,k)函数表示删除H₂中的第k个元素。H_m就是H₁和H₂合并的结果。

再次合并H_m和S3，S3可以补充S1和S2的合并结果S3的信息，但两者合并同样会产生重叠度较高的冗余目标框。去除冗余目标框的机制：如果H_m中目标框完全包含了S3中的某个目标框，那么删除S3中的这个目标框；反之如果S3中目标框完全包含了H_m中的某个目标框，那么删除H_m中的这个目标框。合并过程如下：

上述IOSA(A,B)函数表示(A∩B)/A,IOSB(A,B)函数表示(A∩B)/B.H_m就是H₁、H₂和H₃的合并结果。

步骤三：背景候选图生成

每个图像帧均形成一个目标框集合，目标框集合具有一定数量的目标框。对各个图像帧的目标框数量进行遍历，目标框数量最小值为M1及对应的帧数量为N1,目标框数量次小值为M2及对应的帧数量为N2。

如果M1＝0,选目标框数为M1的全部帧(N1个)作为背景候选图。

否则，选目标框数为M1和M2的全部帧(N1+N2个)作为背景候选图。

步骤四：背景图生成

(1)针对M1＝0的情况，如果背景候选图数量N1<3，则第一张背景候选图作为背景图。如果背景候选图数量N1>＝3，N1张背景候选图全部参与计算。采用块结构相似度计算出与其他图像相似度最高的一帧图像作为背景图像。

(2)针对M1>0的情况，选中第一张背景候选图及其对应的目标框集合Sm，遍历其他背景候选图的背景区域，替换第一张背景候选图的目标框区域，具体过程如下：

执行完成，生成一张背景图像。

本发明具有以下创新：

1.本发明方法流程：多类目标框生成、目标框合并、候选背景图像生成、背景图像生成。

2.本发明方法中多类目标框的合并机制，有效利用各类方法生成目标框，提升了目标检出率，并且合理的消除了目标框重合的冗余信息。

3.本发明方法中生成背景候选图机制，遍历一次每帧的目标框数量，即可选出背景候选图，效率高、计算量小、耗时短。

4.本发明方法中提出块结构相似度计算方法，有效利用了多帧的图像信息，前景目标的漏检残留现象被进一步消除，生成的背景图像质量明显提升。

与现有技术相比，本发明有益效果是：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。