CN114650397A - 一种基于跨摄像头目标管关联的多路视频浓缩方法 - Google Patents

一种基于跨摄像头目标管关联的多路视频浓缩方法 Download PDF

Info

Publication number
CN114650397A
CN114650397A CN202210248117.6A CN202210248117A CN114650397A CN 114650397 A CN114650397 A CN 114650397A CN 202210248117 A CN202210248117 A CN 202210248117A CN 114650397 A CN114650397 A CN 114650397A
Authority
CN
China
Prior art keywords
target
camera
global
video
splicing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210248117.6A
Other languages
English (en)
Inventor
汪陈伍
侯亘
田琦
王佩
呼伊睿
岳蹇龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Posts and Telecommunications
Original Assignee
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Posts and Telecommunications filed Critical Xian University of Posts and Telecommunications
Priority to CN202210248117.6A priority Critical patent/CN114650397A/zh
Publication of CN114650397A publication Critical patent/CN114650397A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/951Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种基于跨摄像头目标管关联的多路视频浓缩方法,包括以下步骤:多摄像头视频的预处理,包括目标检测、实例分割、目标跟踪和目标管提取;全局目标管的生成,包括跨摄像头的局部目标管关联和全局目标管的拼接;目标管分级重排,包括基于全局目标管优先级的目标管重排;全局背景生成,包括基于全局目标管拼接点的全局背景拼接;浓缩视频生成,包括将已重排的目标管与全局背景进行图像融合生成浓缩视频;本发明可以从多个摄像头拍摄的视频中准确地提取目标管,并将同一目标在多个摄像头下的局部目标管进行关联并拼接,通过将基于全局目标管优先级重排后的目标管和全局背景图像融合,最终生成浓缩视频。

Description

一种基于跨摄像头目标管关联的多路视频浓缩方法
技术领域
本发明属于视频浓缩技术领域,具体涉及一种基于跨摄像头目标管关联的多路视频浓缩方法,用于多路视频浓缩中的跨摄像头目标管的聚类关联和分级重排。
背景技术
如今,视频采集设备的多样化和互联网的便捷致使视频数量爆炸增长,在视频存储、浏览和信息检索方面产生了巨大的困难。尤其是在信息检索方面,海量视频中蕴藏着大量有效信息,单凭人力难以完成捕获信息与关联信息的任务,因此需要一种自动化技术来提取视频中有效信息并高效展示。
计算机视觉领域引入了视频摘要、视频浓缩两种方法来提取海量视频中重要的数据。视频摘要方法通过关键帧的选取来构建短视频。相对地,视频浓缩方法提取视频中的活动目标与背景图片。然后,通过在时间域上重新排列活动目标,与背景图片融合为短视频。与视频摘要方法相比较,视频浓缩方法不仅能够将时间域上的没有目标活动的冗余消除,而且能够在保留目标活动的情况下大幅度减少视频帧数。
大多数视频浓缩方法侧重于处理在单个摄像机下生成的视频。但是,由于单个摄像头的查看范围有限,无法捕获全局活动信息。审阅人员仍然需要使用人脑来理解多个摄像机中每个物体的整体活动,这是极其困难的。多路视频浓缩是一种较好的解决方案,可以在较大视域内生成浓缩视频。通过对复杂多摄像头网络中的视频进行全局分析和摘要,多路视频浓缩可以挖掘出隐藏在多个相关场景中的各种目标活动中的相关信息。多摄像机视频摘要不仅可以在很大程度上保留相关场景中的整体环境信息,而且可以避免评审人员在信息检索和关联过程中频繁手动切换视频。
针对多摄像头下的视频浓缩研究中,依然存在大量亟待解决的问题,例如不同摄像头下的同一目标的局部目标管(运动目标的时空位置以及对应的图像序列)关联与融合、全局背景下目标管重排等问题尚无有效的解决方案。
发明内容
为克服上述现有技术的不足,本发明的目的在于提供一种基于跨摄像头目标管关联的多路视频浓缩方法,以解决现有多路视频浓缩技术存在的问题,包括:断裂或者折返的跨摄像头目标关联准确性不高问题,以及浓缩视频中跨摄像头目标聚焦度不足问题。
为实现上述目的,本发明采用的技术方案是:一种基于跨摄像头目标管关联的多路视频浓缩方法,包括以下步骤:
步骤1,多摄像头视频的预处理,本步骤又包括:
①对各个摄像头拍摄的视频分别使用YOLACT网络进行目标检测和实例分割;②使用卡尔曼滤波器和匈牙利匹配算法进行多目标跟踪;③将各个摄像头跟踪好的目标保存为图像和文本数据,称为局部目标管;④使用高斯混合模型背景建模,并进行提取背景图;
步骤2,全局目标管生成,本步骤又包括:
①通过多维特征融合的聚类方法,对同一目标跨摄像头的局部目标管进行关联,将其聚为一类;②局部目标管的拼接点选取:拼接点选取要求拼接后的全局目标管过渡自然、遮挡少、活动包含多且拼接点不处于镜头边缘,根据上述四个约束条件构建拼接点选取能量函数,采用贪婪算法求得使能量函数达到最小值的解,即为局部目标管的最优拼接点;③全局目标管生成:局部目标管的两个拼接点之间的段称为拼接段,将同一类内所有局部目标管的拼接段进行拼接,生成一条完整的全局目标管;
步骤3,目标管分级重排,本步骤包括:构建基于全局目标管优先级的能量函数,通过改变各个目标管在浓缩视频中的起始帧号,使用MCMC算法进行多目标优化,使能量函数最小化,最终求解所有目标管的最优起始时间;
步骤4,全局背景生成,本步骤包括:依据步骤2得出的全局目标管中各个局部目标管的拼接点,进行全局背景的拼接;多个摄像头背景图进行拼接时,重叠区域背景像素生成更接近于局部目标管拼接段所在摄像头的背景像素;
步骤5,浓缩视频生成,本步骤包括:使用泊松融合算法将步骤3重排后的目标管和步骤4中生成的全局背景图片进行图像融合,生成跨摄像头的浓缩视频。
所述的步骤2包括:
步骤201,根据步骤1中各个摄像头的背景图计算每个摄像头的单应性变换矩阵,通过外观特征、运动特征、位置特征、时间特征对所有全部局部目标管进行多特征融合计算,如公式(1)所示,
Figure BDA0003545866320000041
Figure BDA0003545866320000042
分别表示单应性变换后第i个摄像头的第u条目标管和第j个摄像头下的第v条目标管;Dij(u,v)表示
Figure BDA0003545866320000043
Figure BDA0003545866320000044
多特征融合计算得到的距离;
Figure BDA0003545866320000045
代表外观特征距离,
Figure BDA0003545866320000046
代表运动特征距离,
Figure BDA0003545866320000047
代表位置特征距离,
Figure BDA0003545866320000048
代表时间特征距离,如公式(2)所示,Dij表示第i个摄像头的所有目标管和和第j个摄像头下的所有目标管的距离矩阵;U代表第i个摄像头的所有目标管数量,V代表第j个摄像头下的所有目标管数量,如公式(3)所示,D表示将全部局部目标管之间的特征距离矩阵,由Dij作为分块矩阵D的块组合而成,M代表摄像头的数量,
Figure BDA0003545866320000049
Figure BDA00035458663200000410
Figure BDA00035458663200000411
步骤202,根据步骤201计算的距离矩阵进行聚类,同一目标在多个摄像头下的目标管被聚为一类,包括存在断裂情况和折返情况的目标管;
步骤203,根据步骤202的聚类结果,同一目标的全局目标管生成即为同一类的多条局部目标管的拼接点选择,为了更好的视觉体验,构建了拼接点选取的损失能量函数Estitch(S),如公式(4)所示,S代表局部目标管中所有拼接点组成的拼接段集合:
Figure BDA00035458663200000412
①平滑损失项
Figure BDA00035458663200000413
该损失项定义为待拼接的两条局部目标管的拼接点的空间位置距离与外观相似度距离,此值越小,表明拼接后全局目标管在跨摄像头时过渡越平滑越自然;
②活动损失项
Figure BDA0003545866320000051
该损失项定义为待拼接的两条局部目标管在拼接之后丢弃的非拼接帧的目标活动像素点数,此值越小,表明目标活动保留越完整,该损失项使得浓缩视频中尽可能完整地保留各个镜头下的局部目标管的信息;
③边缘损失项
Figure BDA0003545866320000052
该损失项定义为拼接点和摄像头边缘的距离,由于检测结果在摄像头边缘处不稳定,所以尽量不选择摄像头边缘的拼接垫点,此值越小,表明拼接点越远离摄像头的边缘;
④遮挡损失项
Figure BDA0003545866320000053
该损失项定义为拼接后所有全局目标管之间在拼接点的碰撞面积,如果多个管发生遮挡,该损失项可以尽量选择遮挡面积小的拼接点,此值越小,表明拼接点处的遮挡越小;
使用贪婪算法计算Estitch(S)最小值的解,即局部目标管的局部最优拼接点,最终将同一类的多条局部目标管拼接为一条全局目标管。
所述的步骤3还包括:
步骤301,构建了基于全局目标管优先级的能量函数Esynopsis(F),如公式(5)所示,F为所有目标管在浓缩视频中的起始帧号;
Figure BDA0003545866320000054
在公式(5)中,
Figure BDA0003545866320000055
Figure BDA0003545866320000056
分别代表活动损失项、碰撞损失项、时序损失项和跨度优先级损失项;
①活动损失项
Figure BDA0003545866320000057
该损失项定义为在原始视频中出现而未在浓缩视频中出现的目标活动像素点数,此值越小,表明目标保留越完整,该损失项使得浓缩视频中尽可能完整地保留运动目标;
②碰撞损失项
Figure BDA0003545866320000061
该损失项定义为在在原始视频中未遮挡而在浓缩视频中出现遮挡的目标活动像素点数,此值越小,表明目标间遮挡越少;
③时序损失项
Figure BDA0003545866320000062
该损失项项定义为在原始视频中按时间顺序出现的目标在浓缩视频中的时序产生颠倒的帧数,此值越小,表明目标时序的破坏越少。
④跨度优先级损失项
Figure BDA0003545866320000063
该损失项定义为根据跨摄像头的次数动态调整目标管在浓缩视频中的起始帧号,在多路视频浓缩中,跨多摄像头的全局目标管应着重关注,不应因为碰撞过多或浓缩帧数的缩短,丢失过多信息,同时,应尽量保证在同一帧中不要出现过多相互碰撞的全局目标管,其计算公式如公式(6)所示:
Figure BDA0003545866320000064
其中,
Figure BDA0003545866320000065
代表第w条全局目标管在浓缩视频中的起始帧号,
Figure BDA0003545866320000066
代表第w条全局目标管跨越摄像头的次数,未跨越摄像头的局部目标管应该在全局目标管在浓缩视频中优先排列的情况下寻找自身在浓缩视频中的时间位置;
步骤302,对于所构建能量损失函数,通过改变各个目标管在浓缩视频中的起始帧号,采用MCMC算法进行多目标最优化,以得到能量损失值达到最小值时的所有目标管的起始帧号,即所有目标管在浓缩视频的起始时间。
所述的步骤4包括:
步骤401,根据步骤302得出的各个目标管在浓缩视频中的起始时间,可以得到相同时间段内跨越摄像头间重叠区域的全局目标管,根据步骤203得出该时段内的全局目标管的拼接点,拟合出一条该时间段的重叠区域背景分割线;
步骤402,根据步骤401拟合出的浓缩视频中所有时段的重叠区域背景分割线,将背景分割为多个背景块,根据不同背景块中包含的全局目标管的拼接点对应的原摄像头背景,分别计算不同背景块的像素融合权重以及局部单应性变换矩阵,最后通过像素融合权重和局部单应性变换矩阵对每一个时段拼接出一张全局背景。
本发明的有益效果是:
1)对于存在断裂或折返等情况的跨摄像头目标管,本发明采用基于多特征融合的聚类方法,进行一对多和多对多局部目标管关联,具有关联准确快速的优点;
2)对于跨摄像头目标重排问题,本发明采用基于优先级的目标管重排算法,损失函数中增加跨度优先级损失项,重排过程充分考虑全局目标跨度(跨摄像头的数量)因素的影响。使得多路视频浓缩具有全局目标管完整性高、伪碰撞率低和浓缩率高等优点。
3)对于多摄像头背景拼接问题,本发明采用一种基于全局目标拼接点的全局背景拼接方法,使得浓缩视频中的全局目标和全局背景拼接更加平滑自然。
附图说明
图1为本发明部分重叠的多路视频浓缩步骤图。
图2为本发明部分重叠的多摄像头视频场景示意图。
图3为本发明基于跨度优先级的目标管重排示意图。
图4为本发明基于全局目标管拼接点的背景拼接示意图。
图5为本发明实施例的浓缩视频示意图。
具体实施方式
下面结合附图及实施例,对本发明进行进一步详细说明。
如图1所示为本发明所研究的多摄像头下部分重叠区域场景示意图。如图2所示为本发明提供的基于跨摄像头目标管聚类和分级重排的多路视频浓缩方法框架图,生成跨摄像头的浓缩视频如图5所示。具体包括以下步骤:
步骤1,多摄像头视频的预处理,本步骤又包括:
①对各个摄像头拍摄的视频分别使用YOLACT网络进行目标检测和实例分割;②使用卡尔曼滤波器和匈牙利匹配算法进行多目标跟踪;③将各个摄像头跟踪好的目标保存为图像和文本数据,称为局部目标管;④使用高斯混合模型背景建模,并进行提取背景图;
步骤2,全局目标管生成,本步骤又包括:
①通过多维特征融合的聚类方法,对同一目标跨摄像头的局部目标管进行关联,将其聚为一类;②局部目标管的拼接点选取:拼接点选取要求拼接后的全局目标管过渡自然、遮挡少、活动包含多且拼接点不处于镜头边缘,根据上述四个约束条件构建拼接点选取能量函数,采用贪婪算法求得使能量函数达到最小值的解,即为局部目标管的最优拼接点;③全局目标管生成:局部目标管的两个拼接点之间的段称为拼接段,将同一类内所有局部目标管的拼接段进行拼接,生成一条完整的全局目标管;
步骤201,根据步骤1中各个摄像头的背景图计算每个摄像头的单应性变换矩阵,通过外观特征、运动特征、位置特征、时间特征对所有全部局部目标管进行多特征融合计算,如公式(1)所示,
Figure BDA0003545866320000091
Figure BDA0003545866320000092
分别表示单应性变换后第i个摄像头的第u条目标管和第j个摄像头下的第v条目标管;Dij(u,v)表示
Figure BDA0003545866320000093
Figure BDA0003545866320000094
多特征融合计算得到的距离;
Figure BDA0003545866320000095
代表外观特征距离,
Figure BDA0003545866320000096
代表运动特征距离,
Figure BDA0003545866320000097
代表位置特征距离,
Figure BDA0003545866320000098
代表时间特征距离。如公式(2)所示,Dij表示第i个摄像头的所有目标管和和第j个摄像头下的所有目标管的距离矩阵;U代表第i个摄像头的所有目标管数量,V代表第j个摄像头下的所有目标管数量,如公式(3)所示,D表示将全部局部目标管之间的特征距离矩阵,由Dij作为分块矩阵D的块组合而成,M代表摄像头的数量,
Figure BDA0003545866320000099
Figure BDA00035458663200000910
Figure BDA00035458663200000911
步骤202,根据步骤201计算的距离矩阵进行聚类,同一目标在多个摄像头下的目标管被聚为一类,包括存在断裂情况和折返情况的目标管;
步骤203,根据步骤202的聚类结果,同一目标的全局目标管生成即为同一类的多条局部目标管的拼接点选择,为了更好的视觉体验,构建了拼接点选取的损失能量函数Estitch(S),如公式(4)所示,S代表局部目标管中所有拼接点组成的拼接段集合:
Figure BDA0003545866320000101
①平滑损失项
Figure BDA0003545866320000102
该损失项定义为待拼接的两条局部目标管的拼接点的空间位置距离与外观相似度距离,此值越小,表明拼接后全局目标管在跨摄像头时过渡越平滑越自然;
②活动损失项
Figure BDA0003545866320000103
该损失项定义为待拼接的两条局部目标管在拼接之后丢弃的非拼接帧的目标活动像素点数,此值越小,表明目标活动保留越完整,该损失项使得浓缩视频中尽可能完整地保留各个镜头下的局部目标管的信息;
③边缘损失项
Figure BDA0003545866320000104
该损失项定义为拼接点和摄像头边缘的距离,由于检测结果在摄像头边缘处不稳定,所以尽量不选择摄像头边缘的拼接垫点,此值越小,表明拼接点越远离摄像头的边缘;
④遮挡损失项
Figure BDA0003545866320000105
该损失项定义为拼接后所有全局目标管之间在拼接点的碰撞面积,如果多个管发生遮挡,该损失项可以尽量选择遮挡面积小的拼接点,此值越小,表明拼接点处的遮挡越小;
使用贪婪算法计算Estitch(S)最小值的解,即局部目标管的局部最优拼接点,最终将同一类的多条局部目标管拼接为一条全局目标管。
步骤3,目标管分级重排,该步骤包括:构建基于全局目标管优先级的能量函数,通过改变各个目标管在浓缩视频中的起始帧号,使用MCMC算法进行多目标优化,使能量函数最小化,最终求解所有目标管的最优起始时间;
步骤301,构建了基于全局目标管优先级的能量函数Esynopsis(F),如公式(5)所示,F为所有目标管在浓缩视频中的起始帧号;
Figure BDA0003545866320000111
在公式(5)中,
Figure BDA0003545866320000112
Figure BDA0003545866320000113
分别代表活动损失项、碰撞损失项、时序损失项和跨度优先级损失项;
①活动损失项
Figure BDA0003545866320000114
该损失项定义为在原始视频中出现而未在浓缩视频中出现的目标活动像素点数。此值越小,表明目标保留越完整,该损失项使得浓缩视频中尽可能完整地保留运动目标;
②碰撞损失项
Figure BDA0003545866320000115
该损失项定义为在在原始视频中未遮挡而在浓缩视频中出现遮挡的目标活动像素点数,此值越小,表明目标间遮挡越少;
③时序损失项
Figure BDA0003545866320000116
该损失项项定义为在原始视频中按时间顺序出现的目标在浓缩视频中的时序产生颠倒的帧数,此值越小,表明目标时序的破坏越少。
④跨度优先级损失项
Figure BDA0003545866320000117
该损失项定义为根据跨摄像头的次数动态调整目标管在浓缩视频中的起始帧号,在多路视频浓缩中,跨多摄像头的全局目标管应着重关注,不应因为碰撞过多或浓缩帧数的缩短,丢失过多信息,同时,应尽量保证在同一帧中不要出现过多相互碰撞的全局目标管,其计算公式如公式(6)所示:
Figure BDA0003545866320000118
其中,
Figure BDA0003545866320000119
代表第w条全局目标管在浓缩视频中的起始帧号,
Figure BDA00035458663200001110
代表第w条全局目标管跨越摄像头的次数,未跨越摄像头的局部目标管应该在全局目标管在浓缩视频中优先排列的情况下寻找自身在浓缩视频中的时间位置;
步骤302,对于所构建能量损失函数,通过改变各个目标管在浓缩视频中的起始帧号,采用MCMC算法进行多目标最优化,以得到能量损失值达到最小值时的所有目标管的起始帧号,即所有目标管在浓缩视频的起始时间;
步骤4,全局背景生成,本步骤又包括:依据步骤2得出的全局目标管中各个局部目标管的拼接点,进行全局背景的拼接;多个摄像头背景图进行拼接时,重叠区域背景像素生成更接近于局部目标管拼接段所在摄像头的背景像素;
步骤401,根据步骤302得出的各个目标管在浓缩视频中的起始时间,可以得到相同时间段内跨越摄像头间重叠区域的全局目标管,根据步骤203得出该时段内的全局目标管的拼接点,拟合出一条该时间段的重叠区域背景分割线;
步骤402,根据步骤401拟合出的浓缩视频中所有时段的重叠区域背景分割线,将背景分割为多个背景块,根据不同背景块中包含的全局目标管的拼接点对应的原摄像头背景,分别计算不同背景块的像素融合权重以及局部单应性变换矩阵,最后通过像素融合权重和局部单应性变换矩阵对每一个时段拼接出一张全局背景;
步骤5,浓缩视频生成,该步骤包括:使用泊松融合算法将步骤3中重排后的目标管和步骤4中生成的全局背景图片进行图像融合,生成跨摄像头的浓缩视频。
本发明提出了一种基于跨摄像头目标管关联的多路视频浓缩方法。首先,本发明提出的基于多特征融合的聚类算法能够快速而准确地解决断裂目标管和目标往返多摄像头的目标管的一对多匹配和多对多匹配问题。其次,为了进一步保留跨摄像头的全局目标管的信息,本发明提出基于全局目标管优先级的分级重排算法,可以大大保留全局目标管的活动信息。总之,本发明的方法对于大型摄像头网络的活动捕获和信息检索具有较高的应用价值。

Claims (4)

1.一种基于跨摄像头目标管关联的多路视频浓缩方法,包括以下步骤:
步骤1,多摄像头视频的预处理,本步骤又包括:
①对各个摄像头拍摄的视频分别使用YOLACT网络进行目标检测和实例分割;②使用卡尔曼滤波器和匈牙利匹配算法进行多目标跟踪;③将各个摄像头跟踪好的目标保存为图像和文本数据,称为局部目标管;④使用高斯混合模型背景建模,并进行提取背景图;
步骤2,全局目标管生成,本步骤又包括:
①通过多维特征融合的聚类方法,对同一目标跨摄像头的局部目标管进行关联,将其聚为一类;②局部目标管的拼接点选取:拼接点选取要求拼接后的全局目标管过渡自然、遮挡少、活动包含多且拼接点不处于镜头边缘,根据上述四个约束条件构建拼接点选取能量函数,采用贪婪算法求得使能量函数达到最小值的解,即为局部目标管的最优拼接点;③全局目标管生成:局部目标管的两个拼接点之间的段称为拼接段,将同一类内所有局部目标管的拼接段进行拼接,生成一条完整的全局目标管;
步骤3,目标管分级重排,本步骤又包括:
构建基于全局目标管优先级的能量函数,通过改变各个目标管在浓缩视频中的起始帧号,使用MCMC算法进行多目标优化,使能量函数最小化,最终求解所有目标管的最优起始时间;
步骤4,全局背景生成,本步骤又包括:依据步骤2得出的全局目标管中各个局部目标管的拼接点,进行全局背景的拼接;多个摄像头背景图进行拼接时,重叠区域背景像素生成更接近于局部目标管拼接段所在摄像头的背景像素;
步骤5,浓缩视频生成,本步骤又包括:使用泊松融合算法将步骤3重排后的目标管和步骤4中生成的全局背景图片进行图像融合,生成跨摄像头的浓缩视频。
2.根据权利要求1所述的一种基于跨摄像头目标管关联的多路视频浓缩方法,其特征在于,所述的步骤2包括:
步骤201,根据步骤1中各个摄像头的背景图计算每个摄像头的单应性变换矩阵,通过外观特征、运动特征、位置特征、时间特征对所有全部局部目标管进行多特征融合计算,如公式(1)所示,
Figure FDA0003545866310000021
Figure FDA0003545866310000022
分别表示单应性变换后第i个摄像头的第u条目标管和第j个摄像头下的第v条目标管;Dij(u,v)表示
Figure FDA0003545866310000023
Figure FDA0003545866310000024
多特征融合计算得到的距离;
Figure FDA0003545866310000025
代表外观特征距离,
Figure FDA0003545866310000026
代表运动特征距离,
Figure FDA0003545866310000027
代表位置特征距离,
Figure FDA0003545866310000028
代表时间特征距离,如公式(2)所示,Dij表示第i个摄像头的所有目标管和和第j个摄像头下的所有目标管的距离矩阵;U代表第i个摄像头的所有目标管数量,V代表第j个摄像头下的所有目标管数量,如公式(3)所示,D表示将全部局部目标管之间的特征距离矩阵,由Dij作为分块矩阵D的块组合而成,M代表摄像头的数量,
Figure FDA0003545866310000029
Figure FDA0003545866310000031
Figure FDA0003545866310000032
步骤202,根据步骤201计算的距离矩阵进行聚类,同一目标在多个摄像头下的目标管被聚为一类,包括存在断裂情况和折返情况的目标管;
步骤203,根据步骤202的聚类结果,同一目标的全局目标管生成即为同一类的多条局部目标管的拼接点选择,为了更好的视觉体验,构建了拼接点选取的损失能量函数Estitch(S),如公式(4)所示,S代表局部目标管中所有拼接点组成的拼接段集合:
Figure FDA0003545866310000033
①平滑损失项
Figure FDA0003545866310000034
该损失项定义为待拼接的两条局部目标管的拼接点的空间位置距离与外观相似度距离,此值越小,表明拼接后全局目标管在跨摄像头时过渡越平滑越自然;
②活动损失项
Figure FDA0003545866310000035
该损失项定义为待拼接的两条局部目标管在拼接之后丢弃的非拼接帧的目标活动像素点数,此值越小,表明目标活动保留越完整,该损失项使得浓缩视频中尽可能完整地保留各个镜头下的局部目标管的信息;
③边缘损失项
Figure FDA0003545866310000036
该损失项定义为拼接点和摄像头边缘的距离,由于检测结果在摄像头边缘处不稳定,所以尽量不选择摄像头边缘的拼接垫点,此值越小,表明拼接点越远离摄像头的边缘;
④遮挡损失项
Figure FDA0003545866310000037
该损失项定义为拼接后所有全局目标管之间在拼接点的碰撞面积,如果多个管发生遮挡,该损失项可以尽量选择遮挡面积小的拼接点,此值越小,表明拼接点处的遮挡越小;
使用贪婪算法计算Estitch(S)最小值的解,即局部目标管的局部最优拼接点,最终将同一类的多条局部目标管拼接为一条全局目标管。
3.根据权利要求1所述的一种基于跨摄像头目标管关联的多路视频浓缩方法,其特征在于,所述的步骤3还包括:
步骤301,构建了基于全局目标管优先级的能量函数Esynopsis(F),如公式(5)所示,F为所有目标管在浓缩视频中的起始帧号;
Figure FDA0003545866310000041
在公式(5)中,
Figure FDA0003545866310000042
Figure FDA0003545866310000043
分别代表活动损失项、碰撞损失项、时序损失项和跨度优先级损失项;
①活动损失项
Figure FDA0003545866310000044
该损失项定义为在原始视频中出现而未在浓缩视频中出现的目标活动像素点数,此值越小,表明目标保留越完整,该损失项使得浓缩视频中尽可能完整地保留运动目标;
②碰撞损失项
Figure FDA0003545866310000045
该损失项定义为在在原始视频中未遮挡而在浓缩视频中出现遮挡的目标活动像素点数,此值越小,表明目标间遮挡越少;
③时序损失项
Figure FDA0003545866310000046
该损失项项定义为在原始视频中按时间顺序出现的目标在浓缩视频中的时序产生颠倒的帧数,此值越小,表明目标时序的破坏越少;
④跨度优先级损失项
Figure FDA0003545866310000047
该损失项定义为根据跨摄像头的次数动态调整目标管在浓缩视频中的起始帧号,在多路视频浓缩中,跨多摄像头的全局目标管应着重关注,不应因为碰撞过多或浓缩帧数的缩短,丢失过多信息,同时,应尽量保证在同一帧中不要出现过多相互碰撞的全局目标管,其计算公式如公式(6)所示:
Figure FDA0003545866310000051
其中,
Figure FDA0003545866310000052
代表第w条全局目标管在浓缩视频中的起始帧号,
Figure FDA0003545866310000053
代表第w条全局目标管跨越摄像头的次数,未跨越摄像头的局部目标管应该在全局目标管在浓缩视频中优先排列的情况下寻找自身在浓缩视频中的时间位置;
步骤302,对于所构建能量损失函数,通过改变各个目标管在浓缩视频中的起始帧号,采用MCMC算法进行多目标最优化,以得到能量损失值达到最小值时的所有目标管的起始帧号,即所有目标管在浓缩视频的起始时间。
4.根据权利要求1所述的一种基于跨摄像头目标管关联的多路视频浓缩方法,其特征在于,所述的步骤4包括:
步骤401,根据步骤302得出的各个目标管在浓缩视频中的起始时间,可以得到相同时间段内跨越摄像头间重叠区域的全局目标管,根据步骤203得出该时段内的全局目标管的拼接点,拟合出一条该时间段的重叠区域背景分割线;
步骤402,根据步骤401拟合出的浓缩视频中所有时段的重叠区域背景分割线,将背景分割为多个背景块,根据不同背景块中包含的全局目标管的拼接点对应的原摄像头背景,分别计算不同背景块的像素融合权重以及局部单应性变换矩阵,最后通过像素融合权重和局部单应性变换矩阵对每一个时段拼接出一张全局背景。
CN202210248117.6A 2022-03-14 2022-03-14 一种基于跨摄像头目标管关联的多路视频浓缩方法 Pending CN114650397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210248117.6A CN114650397A (zh) 2022-03-14 2022-03-14 一种基于跨摄像头目标管关联的多路视频浓缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210248117.6A CN114650397A (zh) 2022-03-14 2022-03-14 一种基于跨摄像头目标管关联的多路视频浓缩方法

Publications (1)

Publication Number Publication Date
CN114650397A true CN114650397A (zh) 2022-06-21

Family

ID=81993347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210248117.6A Pending CN114650397A (zh) 2022-03-14 2022-03-14 一种基于跨摄像头目标管关联的多路视频浓缩方法

Country Status (1)

Country Link
CN (1) CN114650397A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102256065A (zh) * 2011-07-25 2011-11-23 中国科学院自动化研究所 基于视频监控网络的视频自动浓缩方法
WO2012149624A1 (en) * 2011-05-04 2012-11-08 Jacques Georgy Two-stage filtering based method for multiple target tracking
CN103686095A (zh) * 2014-01-02 2014-03-26 中安消技术有限公司 一种视频浓缩方法和系统
US20170300759A1 (en) * 2016-03-03 2017-10-19 Brigham Young University Automated multiple target detection and tracking system
CN110490911A (zh) * 2019-08-14 2019-11-22 西安宏规电子科技有限公司 基于约束条件下非负矩阵分解的多摄像头多目标追踪方法
CN112561966A (zh) * 2020-12-22 2021-03-26 清华大学 一种融合时空信息的稀疏点云多目标跟踪方法
CN112862853A (zh) * 2021-02-09 2021-05-28 北京大学 一种基于轨迹预测的多目标轨迹追踪与融合方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012149624A1 (en) * 2011-05-04 2012-11-08 Jacques Georgy Two-stage filtering based method for multiple target tracking
CN102256065A (zh) * 2011-07-25 2011-11-23 中国科学院自动化研究所 基于视频监控网络的视频自动浓缩方法
CN103686095A (zh) * 2014-01-02 2014-03-26 中安消技术有限公司 一种视频浓缩方法和系统
US20170300759A1 (en) * 2016-03-03 2017-10-19 Brigham Young University Automated multiple target detection and tracking system
CN110490911A (zh) * 2019-08-14 2019-11-22 西安宏规电子科技有限公司 基于约束条件下非负矩阵分解的多摄像头多目标追踪方法
CN112561966A (zh) * 2020-12-22 2021-03-26 清华大学 一种融合时空信息的稀疏点云多目标跟踪方法
CN112862853A (zh) * 2021-02-09 2021-05-28 北京大学 一种基于轨迹预测的多目标轨迹追踪与融合方法及系统

Similar Documents

Publication Publication Date Title
US10958854B2 (en) Computer-implemented method for generating an output video from multiple video sources
CN102256065B (zh) 基于视频监控网络的视频自动浓缩方法
Zhong et al. Spatio-temporal video search using the object based video representation
Zhang et al. 3d crowd counting via multi-view fusion with 3d gaussian kernels
Van Zandycke et al. Deepsportradar-v1: Computer vision dataset for sports understanding with high quality annotations
US20160048978A1 (en) Method and apparatus for automatic keyframe extraction
Lai et al. Video summarization of surveillance cameras
CN107948586A (zh) 基于视频拼接的跨区域运动目标检测方法和装置
Yao et al. Object based video synopsis
Wang et al. Hardvs: Revisiting human activity recognition with dynamic vision sensors
Zheng et al. Remote sensing semantic segmentation via boundary supervision-aided multiscale channelwise cross attention network
Jiang et al. Jointly learning the attributes and composition of shots for boundary detection in videos
Zhang et al. Fine-grained-based multi-feature fusion for occluded person re-identification
CN113312951A (zh) 动态视频目标跟踪系统、相关方法、装置及设备
Bi et al. Multi-level model for video saliency detection
Kong et al. Hole-robust wireframe detection
CN114650397A (zh) 一种基于跨摄像头目标管关联的多路视频浓缩方法
Premaratne et al. Structural approach for event resolution in cricket videos
CN112381024B (zh) 一种融合多模态的无监督行人再识别重排方法
CN110322471B (zh) 全景视频浓缩的方法、装置、设备及存储介质
Prabakaran et al. Key frame extraction analysis based on optimized convolution neural network (ocnn) using intensity feature selection (ifs)
Shetty et al. Design and implementation of video synopsis using online video inpainting
Namitha et al. Video synopsis: State-of-the-art and research challenges
Chavdarova et al. The wildtrack multi-camera person dataset
CN111666830A (zh) 一种密集人群计数检测框架

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination