CN105138689B

CN105138689B - 一种带有徘徊异常提示的分层视频摘要方法

Info

Publication number: CN105138689B
Application number: CN201510594787.3A
Authority: CN
Inventors: 杨华; 卢瑞鹏; 朱继; 郑世宝
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2015-09-17
Filing date: 2015-09-17
Publication date: 2019-04-19
Anticipated expiration: 2035-09-17
Also published as: CN105138689A

Abstract

本发明提供了一种带有徘徊异常提示的分层视频摘要方法，适合于视频监控场景下的海量视频快速浏览。步骤：利用高斯混合模型对输入视频进行背景训练和前景检测；基于前景对运动的行人进行跟踪，获取每个行人跟踪的数据集；针对行人跟踪数据集进行特征提取，包括人脸检测、亮度计算和视觉注意力计算；最小化视频层次的能量函数，在每个行人数据集中筛选出一个最具代表性的图像，融合到背景图像上，形成视频层次的视频摘要；根据行人跟踪信息，进行运动轨迹的拟合及运动方向的判断；判断是否有徘徊行为发生；最小化行人层次的能量函数，从行人跟踪数据集中筛选出最具代表性的几张图片；将行人的多种信息融合到背景图像上，生成行人层次的摘要。

Description

一种带有徘徊异常提示的分层视频摘要方法

技术领域

本发明属于计算机视频处理技术领域，具体为一种带有徘徊异常提示的分层视频摘要方法，适合于视频监控场景下的海量视频快速浏览。

背景技术

随着社会的不断发展，视频数据正在以爆炸性的方式增长，这使得快速了解视频内容变得越来越困难。特别是在监控视频场景下，海量的监控视频数据被摄像头每天24小时不间断地记录下来。此外，异常事件的发生都带有不频繁和时间短的特点，这使得从海量视频数据中找出感兴趣的视频或事件变得更加困难。目前，计算机视觉技术在智能视频监控中发挥着越来越重要的作用。在海量视频快速浏览方面，视频摘要技术能将每段视频的内容进行浓缩概括，从而极大地节省浏览者的时间，提高工作效率。

目前在视频监控领域，视频摘要方法主要分为基于视频整体内容和基于个人信息两大类。基于视频整体内容的方法仅仅将原视频中重要的信息浓缩成一段时间很短的视频，这使得浏览者能够快速知道原始视频的主要信息(参见：Yael Pritch,Alex Rav-Acha,and Shmuel Peleg,“Nonchronological Video Synopsis and Indexing,”IEEETransactions on Pattern Analysis and Machine Intelligence,vol.30,no,11,pp.1971-1984,2008)，但是这类方法面临如下两个问题：1)无法快速知道视频中感兴趣对象的详细信息2)对于视频中的异常事件例如徘徊行为并没有做出提示。基于个人活动信息的方法(Fu,Wei and Wang,Jinqiao and Zhao,Chaoyang and Lu,Hanqing and Ma,Songde,“Object-centered narratives for video surveillance”in InternationalConference on Image Processing(ICIP),2012,pp.29-32)只能提取出感兴趣行人的信息，一方面提取的信息并没有包含对异常的提示例如徘徊行为，另一方面对于视频的主要内容并没有进行概括。

发明内容

本发明的目的在于克服上述现有技术的不足之处，提出了一种新的视频摘要方法---带有徘徊异常提示的分层次视频摘要方法，不仅可以快速地了解原始视频的内容，而且还能查看感兴趣行人的各种具体信息。

本发明是通过以下技术方案实现的，本发明将视频摘要分为视频层次和行人层次两个层次，而且行人层次的视频摘要具有徘徊异常提示的功能。视频层次的摘要浓缩概括了原始视频的主要内容，行人层次的摘要反映了行人的多种信息，包括运行轨迹、运动方向、行为变化及是否有徘徊行为等。浏览者不仅可以快速地了解原始视频的内容，而且还能查看感兴趣行人的各种具体信息，从而不仅可以快速地了解原始视频的内容，而且还能查看感兴趣行人的各种具体信息。

具体地，所述方法包括以下步骤：

第一步：对视频数据进行预处理，得到背景图像和对视频中每个行人跟踪的数据集。

第二步：针对第一步得到的行人跟踪数据集进行特征提取，包括人脸检测、亮度计算和视觉注意力计算，用于生成视频层次的能量函数；

第三步：最小化第二步生成的能量函数，在第一步每个行人数据集中筛选出一个最具代表性的图像，融合到背景图像上，形成视频层次的视频摘要；

第四步：根据第一步的行人跟踪的数据集，进行运动轨迹的拟合及运动方向的判断，用于生成行人层次的摘要信息；

第五步：根据第一步的行人跟踪的数据集判断是否有徘徊行为发生；

第六步：根据第一步的行人跟踪的数据集进行特征提取，包括空间分布、行人外表变化、图像亮度及碰撞程度，生成行人层次的能量函数，然后对其进行最小化，目的是从第一步的行人跟踪数据集中筛选出最具信息量的图片集合，用于生成行人层次的摘要信息；

第七步：将第四到第六这三步获得的多种行人信息融合到背景图像上，生成行人层次的摘要。

与现有技术相比，本发明具有如下的有益效果：

1)本发明提出了一种分层次视频摘要框架，浏览者可以快速地从宏观和微观两个层面了解原始视频的信息；2)视频摘要带有徘徊行为提示功能，浏览者可以很方便地知道原视频中是否有徘徊异常发生。本发明不仅可以快速地了解原始视频的内容，而且还能查看感兴趣行人的各种具体信息，极大地节省浏览者的时间，提高工作效率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明带有徘徊异常提示的分层视频摘要方法总流程框图。

图2为本发明一实施例中视频层次的特征提取示意图；

图3为本发明一实施例中视频层次的视频摘要示意图；

图4(a)、图4(b)、图4(c)分别是为本发明一实施例中运动轨迹拟合、徘徊检测和有信息量图片的示意图；

图5为本发明一实施例中行人层次的视频摘要示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

实施例

本实施例采用的图像帧来自数据库PETS2006中的行人监控视频。

本实施例涉及的带有徘徊异常提示的分层次视频摘要方法，包括如下具体步骤：

第一步：如图1中预处理部分所示，对数据进行预处理，得到每个行人的跟踪数据集。

第二步：如图2所示，针对行人跟踪数据集进行特征提取，具体包括：人脸检测、亮度计算和视觉注意力计算。

让T＝{t₁,...,t_M}表示M个行人的跟踪数据集，其中表示行人X_i的跟踪数据集；

让视觉注意力代表图像的重要性或吸引力：

其中D(I_K,I_i)表示像素点I_K和I_i在Lab颜色空间的距离，表示图像的面积，代表视频中第i个行人的第j个跟踪结果；

让代表图像的明暗程度：

其中I_y表示图像的灰度图；

让代表图像中是否有正脸检测到：

第三步：如图3所示，最小化视频层次的能量函数，在每个行人数据集中筛选出一个最具代表性的图像，融合到背景图像上，形成视频层次的视频摘要。

具体步骤为：

1.将图像特征总能量表示为

其中：表示从第一步每个行人跟踪集合中挑选一张代表性图片的集合，表示第i个行人跟踪集合中第t_i张图像被选中，M表示输入视频中的行人数量，表示图像视觉注意力，表示图像亮度，表示图像中是否有正脸检测到，

0＜α,β,γ＜1，α+β+γ＝1。

2.将图像间重叠程度表示为

其中X_i∩X_j表示两幅图像之间重叠的区域。表示从第一步每个行人跟踪集合中挑选一张代表性图片的集合，表示第i个行人跟踪集合中第t_i张图像被选中，M表示输入视频中的行人数量。

3.视频层次的能量函数表示为

E(L)＝E_Δ(L)+λE_Ω(L)

其中：E_Δ(L)表示图像特征总能量，E_Ω(L)表示图详见重叠程度，表示从第一步每个行人跟踪集合中挑选一张代表性图片的集合，表示第i个行人跟踪集合中第t_i张图像被选中，M表示输入视频中的行人数量，λ＞0用于衡量E_Δ(L)与E_Ω(L)之间的重要程度。

4.利用启发式算法最小化能量函数筛选出有信息量的图片。

第四步：如图4(a)所示，根据第一步的行人跟踪的数据集，进行运动轨迹的拟合及运动方向的判断，用于生成行人层次的摘要信息；

第五步：如图4(b)所示，判断是否有徘徊行为发生。

所述判断是否有徘徊行为发生，具体步骤为：

①将行人运动点的集合表示为n表示运动点的数量。

②将点P_i＝(x_i,y_i)投影到x或y轴上，由最小二乘法决定投影到x轴还是y轴。若投影到x轴则表示为map_x(P_i)＝x_i。

③集合P在某个位置b处的空间直方图表示为Hist(b)。

④将直方图值最大的点表示为P_i ^*，具体为，

⑤在P_i ^*附近取两个滑动窗口，窗口尺寸分别设为m和n，则两个窗口内直方图比值为：

其中：δ₁＜δ₂，当K值超过设定的阈值τ时认为有徘徊行为发生，阈值τ为经验值。

该徘徊行为的判断结果将用于第七步行人层次摘要中的徘徊异常提示。

第六步：如图4(c)所示，最小化行人层次的能量函数，从行人跟踪数据集中筛选出最具代表性的几张图片。

具体步骤为：

①将从第一步的每个行人跟踪数据集中筛选出最具代表性的图片集合表示为其中，表示第i个行人跟踪集合中的第j张图片，K表示挑选图片的总数量，值的大小由启发式算法决定。

②将Θ的空间分布表示为

其中ρ(R_i)＝(R_i与R_i+1时间间隔)/(跟踪时长)；表示第i个行人跟踪集合中的第j张图片，K表示挑选图片的总数量，值的大小由启发式算法决定。

③将衡量行人外表变化的表示为

其中D_sc(R_i,R_j)衡量R_i和R_j外表相似性，表示第i个行人跟踪集合中的第j张图片，δ为窗口尺寸大小。

④行人层次的能量函数表示为

其中Θ表示从第一步的每个行人跟踪数据集中筛选出最具代表性的图片集合，E_d(Θ)衡量了集合的空间分布，E_α(Θ)衡量集合中行人的外表变化，E_b(Θ)表示了集合图像的亮度，E_c(R_i,R_j)表示图像R_i与R_j之间的重叠程度，0＜ω₁,ω₂,ω₃＜1，ω₁+ω₂+ω₃＝1，η衡量了与之间的重要程度。

⑤利用启发式算法最小化能量函数筛选出有信息量的图片。

第七步：如图5所示，将运动轨迹、运动方向、有信息量图片和徘徊异常提示等行人的多种信息融合到背景图像上，生成行人层次的摘要。

通过实验证明，本实施例较之以前方法能综合地概括视频信息，浏览者能够快速了解视频内容及感兴趣行人的信息。图2是视频层次的每个行人的特征提取效果，图3是视频层次的视频摘要生成效果。图4(a)是行人运动轨迹的拟合效果，图4(b)是徘徊检测的直方图，图4(c)是筛选出的带有信息量的行人图片。图5展示了行人层次的视频摘要生成效果。由图3和图5可看出，由本实施例得到的视频摘要能够从宏观层面和微观层面综合地概括原始视频中的信息，而且还带有徘徊异常行为的提示功能，便于浏览者快速了解视频内容。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种带有徘徊异常提示的分层视频摘要方法，其特征在于，所述方法将视频摘要分为视频层次和行人层次两个层次，行人层次的摘要具有徘徊异常提示的功能；

所述方法包括以下步骤：

第一步：对视频数据进行预处理，得到背景图像和对视频中每个行人跟踪的数据集；

第三步：最小化第二步生成的能量函数，用于从第一步每个行人数据集中筛选出一个最具代表性的图像，融合到背景图像上，形成视频层次的视频摘要；

第七步：将第四步到第六步获得行人的多种信息融合到背景图像上，生成行人层次的摘要，该摘要具有徘徊异常提示的功能；

所述第二步，具体为：

让视觉注意力代表图像的重要性或吸引力：

其中D(I_K,I_i)表示像素点I_K和I_i在Lab颜色空间的距离，area(X_j ⁱ)表示图像X_j ⁱ的面积，X_j ⁱ代表视频中第i个行人的第j个跟踪结果；

让代表图像的明暗程度：

其中I_Y表示图像X_j ⁱ的灰度图；表示图像亮度；

让代表图像中是否有正脸检测到：

2.根据权利要求1所述的带有徘徊异常提示的分层视频摘要方法，其特征在于，第三步中，所述最小化视频层次的能量函数，其中图像特征总能量表示为

其中：表示从第一步每个行人跟踪集合中挑选一张代表性图片的集合，表示第i个行人跟踪集合中第t_i张图像被选中，M表示输入视频中的行人数量，表示图像视觉注意力，表示图像亮度，表示图像中是否有正脸检测到，0＜α,β,γ＜1，α+β+γ＝1。

3.根据权利要求2所述的带有徘徊异常提示的分层视频摘要方法，其特征在于，第三步中，所述融合到背景图像上，其中图像间重叠程度表示为：

其中：表示从第一步每个行人跟踪集合中挑选一张代表性图片的集合，表示第i个行人跟踪集合中第t_i张图像被选中，M表示输入视频中的行人数量。

4.根据权利要求3所述的带有徘徊异常提示的分层视频摘要方法，其特征在于，第三步中，所述视频层次，其能量函数表示为:

E(L)＝E_Δ(L)+λE_Ω(L)

其中：E_Δ(L)表示第四步中图像特征总能量，E_Ω(L)表示图像重叠程度，表示从第一步每个行人跟踪集合中挑选一张代表性图片的集合，表示第i个行人跟踪集合中第t_i张图像被选中，M表示输入视频中的行人数量，λ＞0用于衡量E_Δ(L)与E_Ω(L)之间的重要程度。

5.根据权利要求1所述的带有徘徊异常提示的分层视频摘要方法，其特征在于，第五步中，所述判断是否有徘徊行为发生，具体为：

①将行人运动点的集合表示为n表示运动点的数量；

②将点P_i＝(x_i,y_i)投影到x或y轴上，由最小二乘法决定投影到x轴还是y轴，若投影到x轴则表示为map_x(P_i)＝x_i；

③集合P在某个位置b处的空间直方图表示为Hist(b)；

④将直方图值最大的点表示为P_i ^*，具体为，

⑤在P_i ^*附近取两个滑动窗口，窗口尺寸分别设为δ₁和δ₂，则两个窗口内直方图比值为：

6.根据权利要求1所述的带有徘徊异常提示的分层视频摘要方法，其特征在于，第六步中，具体步骤为：

①将从第一步的每个行人跟踪数据集中筛选出最具信息量的图片集合表示为其中，表示第i个行人跟踪集合中的第j张图片,K表示挑选图片的总数量，K值的大小由启发式算法决定；

②将Θ的空间分布表示为

其中ρ(R_i)＝(R_i与R_i+1时间间隔)/(跟踪时长)；R_i表示K张最具信息量图片集合中的第i张图片；

③将衡量行人外表变化E_a(Θ)表示为

其中D_sc(R_i,R_j)衡量R_i和R_j外表相似性，δ为经验值；

④行人层次的能量函数表示为

其中Θ表示从第二步的每个行人跟踪数据集中筛选出最具代表性的图片集合，E_d(Θ)衡量了集合的空间分布，E_α(Θ)衡量集合中行人的外表变化，E_b(Θ)表示了集合图像的亮度，E_c(R_i,R_j)表示图像R_i与R_j之间的重叠程度，0＜ω1,ω2,ω3＜1，ω₁+ω₂+ω₃＝1，η衡量了与之间的重要程度；

⑤利用启发式算法最小化能量函数。