CN114650397A

CN114650397A - 一种基于跨摄像头目标管关联的多路视频浓缩方法

Info

Publication number: CN114650397A
Application number: CN202210248117.6A
Authority: CN
Inventors: 汪陈伍; 侯亘; 田琦; 王佩; 呼伊睿; 岳蹇龙
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-21

Abstract

一种基于跨摄像头目标管关联的多路视频浓缩方法，包括以下步骤：多摄像头视频的预处理，包括目标检测、实例分割、目标跟踪和目标管提取；全局目标管的生成，包括跨摄像头的局部目标管关联和全局目标管的拼接；目标管分级重排，包括基于全局目标管优先级的目标管重排；全局背景生成，包括基于全局目标管拼接点的全局背景拼接；浓缩视频生成，包括将已重排的目标管与全局背景进行图像融合生成浓缩视频；本发明可以从多个摄像头拍摄的视频中准确地提取目标管，并将同一目标在多个摄像头下的局部目标管进行关联并拼接，通过将基于全局目标管优先级重排后的目标管和全局背景图像融合，最终生成浓缩视频。

Description

一种基于跨摄像头目标管关联的多路视频浓缩方法

技术领域

本发明属于视频浓缩技术领域，具体涉及一种基于跨摄像头目标管关联的多路视频浓缩方法，用于多路视频浓缩中的跨摄像头目标管的聚类关联和分级重排。

背景技术

如今，视频采集设备的多样化和互联网的便捷致使视频数量爆炸增长，在视频存储、浏览和信息检索方面产生了巨大的困难。尤其是在信息检索方面，海量视频中蕴藏着大量有效信息，单凭人力难以完成捕获信息与关联信息的任务，因此需要一种自动化技术来提取视频中有效信息并高效展示。

计算机视觉领域引入了视频摘要、视频浓缩两种方法来提取海量视频中重要的数据。视频摘要方法通过关键帧的选取来构建短视频。相对地，视频浓缩方法提取视频中的活动目标与背景图片。然后，通过在时间域上重新排列活动目标，与背景图片融合为短视频。与视频摘要方法相比较，视频浓缩方法不仅能够将时间域上的没有目标活动的冗余消除，而且能够在保留目标活动的情况下大幅度减少视频帧数。

大多数视频浓缩方法侧重于处理在单个摄像机下生成的视频。但是，由于单个摄像头的查看范围有限，无法捕获全局活动信息。审阅人员仍然需要使用人脑来理解多个摄像机中每个物体的整体活动，这是极其困难的。多路视频浓缩是一种较好的解决方案，可以在较大视域内生成浓缩视频。通过对复杂多摄像头网络中的视频进行全局分析和摘要，多路视频浓缩可以挖掘出隐藏在多个相关场景中的各种目标活动中的相关信息。多摄像机视频摘要不仅可以在很大程度上保留相关场景中的整体环境信息，而且可以避免评审人员在信息检索和关联过程中频繁手动切换视频。

针对多摄像头下的视频浓缩研究中，依然存在大量亟待解决的问题，例如不同摄像头下的同一目标的局部目标管(运动目标的时空位置以及对应的图像序列)关联与融合、全局背景下目标管重排等问题尚无有效的解决方案。

发明内容

为克服上述现有技术的不足，本发明的目的在于提供一种基于跨摄像头目标管关联的多路视频浓缩方法，以解决现有多路视频浓缩技术存在的问题，包括：断裂或者折返的跨摄像头目标关联准确性不高问题，以及浓缩视频中跨摄像头目标聚焦度不足问题。

为实现上述目的，本发明采用的技术方案是：一种基于跨摄像头目标管关联的多路视频浓缩方法，包括以下步骤：

步骤1，多摄像头视频的预处理，本步骤又包括：

①对各个摄像头拍摄的视频分别使用YOLACT网络进行目标检测和实例分割；②使用卡尔曼滤波器和匈牙利匹配算法进行多目标跟踪；③将各个摄像头跟踪好的目标保存为图像和文本数据，称为局部目标管；④使用高斯混合模型背景建模，并进行提取背景图；

步骤2，全局目标管生成，本步骤又包括：

①通过多维特征融合的聚类方法，对同一目标跨摄像头的局部目标管进行关联，将其聚为一类；②局部目标管的拼接点选取：拼接点选取要求拼接后的全局目标管过渡自然、遮挡少、活动包含多且拼接点不处于镜头边缘，根据上述四个约束条件构建拼接点选取能量函数，采用贪婪算法求得使能量函数达到最小值的解，即为局部目标管的最优拼接点；③全局目标管生成：局部目标管的两个拼接点之间的段称为拼接段，将同一类内所有局部目标管的拼接段进行拼接，生成一条完整的全局目标管；

步骤3，目标管分级重排，本步骤包括：构建基于全局目标管优先级的能量函数，通过改变各个目标管在浓缩视频中的起始帧号，使用MCMC算法进行多目标优化，使能量函数最小化，最终求解所有目标管的最优起始时间；

步骤4，全局背景生成，本步骤包括：依据步骤2得出的全局目标管中各个局部目标管的拼接点，进行全局背景的拼接；多个摄像头背景图进行拼接时，重叠区域背景像素生成更接近于局部目标管拼接段所在摄像头的背景像素；

步骤5，浓缩视频生成，本步骤包括：使用泊松融合算法将步骤3重排后的目标管和步骤4中生成的全局背景图片进行图像融合，生成跨摄像头的浓缩视频。

所述的步骤2包括：

步骤201，根据步骤1中各个摄像头的背景图计算每个摄像头的单应性变换矩阵，通过外观特征、运动特征、位置特征、时间特征对所有全部局部目标管进行多特征融合计算，如公式(1)所示，

和

分别表示单应性变换后第i个摄像头的第u条目标管和第j个摄像头下的第v条目标管；D_ij(u,v)表示

和

多特征融合计算得到的距离；

代表外观特征距离，

代表运动特征距离，

代表位置特征距离，

代表时间特征距离，如公式(2)所示，D_ij表示第i个摄像头的所有目标管和和第j个摄像头下的所有目标管的距离矩阵；U代表第i个摄像头的所有目标管数量，V代表第j个摄像头下的所有目标管数量，如公式(3)所示，D表示将全部局部目标管之间的特征距离矩阵，由D_ij作为分块矩阵D的块组合而成，M代表摄像头的数量，

步骤202，根据步骤201计算的距离矩阵进行聚类，同一目标在多个摄像头下的目标管被聚为一类，包括存在断裂情况和折返情况的目标管；

步骤203，根据步骤202的聚类结果，同一目标的全局目标管生成即为同一类的多条局部目标管的拼接点选择，为了更好的视觉体验，构建了拼接点选取的损失能量函数E^stitch(S)，如公式(4)所示，S代表局部目标管中所有拼接点组成的拼接段集合：

①平滑损失项

该损失项定义为待拼接的两条局部目标管的拼接点的空间位置距离与外观相似度距离，此值越小，表明拼接后全局目标管在跨摄像头时过渡越平滑越自然；

②活动损失项

该损失项定义为待拼接的两条局部目标管在拼接之后丢弃的非拼接帧的目标活动像素点数，此值越小，表明目标活动保留越完整，该损失项使得浓缩视频中尽可能完整地保留各个镜头下的局部目标管的信息；

③边缘损失项

该损失项定义为拼接点和摄像头边缘的距离，由于检测结果在摄像头边缘处不稳定，所以尽量不选择摄像头边缘的拼接垫点，此值越小，表明拼接点越远离摄像头的边缘；

④遮挡损失项

该损失项定义为拼接后所有全局目标管之间在拼接点的碰撞面积，如果多个管发生遮挡，该损失项可以尽量选择遮挡面积小的拼接点，此值越小，表明拼接点处的遮挡越小；

使用贪婪算法计算E^stitch(S)最小值的解，即局部目标管的局部最优拼接点，最终将同一类的多条局部目标管拼接为一条全局目标管。

所述的步骤3还包括：

步骤301，构建了基于全局目标管优先级的能量函数E^synopsis(F)，如公式(5)所示，F为所有目标管在浓缩视频中的起始帧号；

在公式(5)中，

和

分别代表活动损失项、碰撞损失项、时序损失项和跨度优先级损失项；

①活动损失项

该损失项定义为在原始视频中出现而未在浓缩视频中出现的目标活动像素点数，此值越小，表明目标保留越完整，该损失项使得浓缩视频中尽可能完整地保留运动目标；

②碰撞损失项

该损失项定义为在在原始视频中未遮挡而在浓缩视频中出现遮挡的目标活动像素点数，此值越小，表明目标间遮挡越少；

③时序损失项

该损失项项定义为在原始视频中按时间顺序出现的目标在浓缩视频中的时序产生颠倒的帧数，此值越小，表明目标时序的破坏越少。

④跨度优先级损失项

该损失项定义为根据跨摄像头的次数动态调整目标管在浓缩视频中的起始帧号，在多路视频浓缩中，跨多摄像头的全局目标管应着重关注，不应因为碰撞过多或浓缩帧数的缩短，丢失过多信息，同时，应尽量保证在同一帧中不要出现过多相互碰撞的全局目标管，其计算公式如公式(6)所示：

其中，

代表第w条全局目标管在浓缩视频中的起始帧号，

代表第w条全局目标管跨越摄像头的次数，未跨越摄像头的局部目标管应该在全局目标管在浓缩视频中优先排列的情况下寻找自身在浓缩视频中的时间位置；

步骤302，对于所构建能量损失函数，通过改变各个目标管在浓缩视频中的起始帧号，采用MCMC算法进行多目标最优化，以得到能量损失值达到最小值时的所有目标管的起始帧号，即所有目标管在浓缩视频的起始时间。

所述的步骤4包括：

步骤401，根据步骤302得出的各个目标管在浓缩视频中的起始时间，可以得到相同时间段内跨越摄像头间重叠区域的全局目标管，根据步骤203得出该时段内的全局目标管的拼接点，拟合出一条该时间段的重叠区域背景分割线；

步骤402，根据步骤401拟合出的浓缩视频中所有时段的重叠区域背景分割线，将背景分割为多个背景块，根据不同背景块中包含的全局目标管的拼接点对应的原摄像头背景，分别计算不同背景块的像素融合权重以及局部单应性变换矩阵，最后通过像素融合权重和局部单应性变换矩阵对每一个时段拼接出一张全局背景。

本发明的有益效果是：

1)对于存在断裂或折返等情况的跨摄像头目标管，本发明采用基于多特征融合的聚类方法，进行一对多和多对多局部目标管关联，具有关联准确快速的优点；

2)对于跨摄像头目标重排问题，本发明采用基于优先级的目标管重排算法，损失函数中增加跨度优先级损失项，重排过程充分考虑全局目标跨度(跨摄像头的数量)因素的影响。使得多路视频浓缩具有全局目标管完整性高、伪碰撞率低和浓缩率高等优点。

3)对于多摄像头背景拼接问题，本发明采用一种基于全局目标拼接点的全局背景拼接方法，使得浓缩视频中的全局目标和全局背景拼接更加平滑自然。

附图说明

图1为本发明部分重叠的多路视频浓缩步骤图。

图2为本发明部分重叠的多摄像头视频场景示意图。

图3为本发明基于跨度优先级的目标管重排示意图。

图4为本发明基于全局目标管拼接点的背景拼接示意图。

图5为本发明实施例的浓缩视频示意图。

具体实施方式

下面结合附图及实施例，对本发明进行进一步详细说明。

如图1所示为本发明所研究的多摄像头下部分重叠区域场景示意图。如图2所示为本发明提供的基于跨摄像头目标管聚类和分级重排的多路视频浓缩方法框架图，生成跨摄像头的浓缩视频如图5所示。具体包括以下步骤：

步骤1，多摄像头视频的预处理，本步骤又包括：

步骤2，全局目标管生成，本步骤又包括：

和

和

多特征融合计算得到的距离；

代表外观特征距离，

代表运动特征距离，

代表位置特征距离，

代表时间特征距离。如公式(2)所示，D_ij表示第i个摄像头的所有目标管和和第j个摄像头下的所有目标管的距离矩阵；U代表第i个摄像头的所有目标管数量，V代表第j个摄像头下的所有目标管数量，如公式(3)所示，D表示将全部局部目标管之间的特征距离矩阵，由D_ij作为分块矩阵D的块组合而成，M代表摄像头的数量，

①平滑损失项

②活动损失项

③边缘损失项

④遮挡损失项

步骤3，目标管分级重排，该步骤包括：构建基于全局目标管优先级的能量函数，通过改变各个目标管在浓缩视频中的起始帧号，使用MCMC算法进行多目标优化，使能量函数最小化，最终求解所有目标管的最优起始时间；

在公式(5)中，

和

①活动损失项

该损失项定义为在原始视频中出现而未在浓缩视频中出现的目标活动像素点数。此值越小，表明目标保留越完整，该损失项使得浓缩视频中尽可能完整地保留运动目标；

②碰撞损失项

③时序损失项

④跨度优先级损失项

其中，

代表第w条全局目标管在浓缩视频中的起始帧号，

步骤302，对于所构建能量损失函数，通过改变各个目标管在浓缩视频中的起始帧号，采用MCMC算法进行多目标最优化，以得到能量损失值达到最小值时的所有目标管的起始帧号，即所有目标管在浓缩视频的起始时间；

步骤4，全局背景生成，本步骤又包括：依据步骤2得出的全局目标管中各个局部目标管的拼接点，进行全局背景的拼接；多个摄像头背景图进行拼接时，重叠区域背景像素生成更接近于局部目标管拼接段所在摄像头的背景像素；

步骤402，根据步骤401拟合出的浓缩视频中所有时段的重叠区域背景分割线，将背景分割为多个背景块，根据不同背景块中包含的全局目标管的拼接点对应的原摄像头背景，分别计算不同背景块的像素融合权重以及局部单应性变换矩阵，最后通过像素融合权重和局部单应性变换矩阵对每一个时段拼接出一张全局背景；

步骤5，浓缩视频生成，该步骤包括：使用泊松融合算法将步骤3中重排后的目标管和步骤4中生成的全局背景图片进行图像融合，生成跨摄像头的浓缩视频。

本发明提出了一种基于跨摄像头目标管关联的多路视频浓缩方法。首先，本发明提出的基于多特征融合的聚类算法能够快速而准确地解决断裂目标管和目标往返多摄像头的目标管的一对多匹配和多对多匹配问题。其次，为了进一步保留跨摄像头的全局目标管的信息，本发明提出基于全局目标管优先级的分级重排算法，可以大大保留全局目标管的活动信息。总之，本发明的方法对于大型摄像头网络的活动捕获和信息检索具有较高的应用价值。