CN104504733A

CN104504733A - 一种基于运动目标检测的视频摘要方法和系统

Info

Publication number: CN104504733A
Application number: CN201410853681.6A
Authority: CN
Inventors: 王晓平; 陈军
Original assignee: Cloud Vision Video Technology (shanghai) Co Ltd
Current assignee: Cloud Vision Video Technology (shanghai) Co Ltd
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2015-04-08

Abstract

本发明提供一种基于运动目标检测的视频摘要方法，包括以下步骤：从输入的原始视频中解析出图像序列，并进行图像灰度化操作；对图像序列进行帧间差计算，并通过判断帧间稳定状态建立和维护场景模型，进而根据帧间差计算模块和场景模型的综合计算结果实现对运动目标的检测；根据运动目标检测结果将运动场景从原始视频中提取出来；生成并输出视频摘要。本发明提供的基于运动目标检测的视频摘要方法，采用帧间差技术和场景建模技术相结合的运动目标检测方法，不仅能够有效地判断场景中是否存在运动目标，还能够避免传统方法会将目标运动幅度较小时的场景遗漏的情形，因而不会丢失潜在的重要信息。本发明还提供一种基于运动目标检测的视频摘要系统。

Description

一种基于运动目标检测的视频摘要方法和系统

技术领域

本发明属于图像及视频处理、模式识别领域，具体涉及一种基于运动目标检测的视频摘要方法和系统。

背景技术

视频监控已成为现代社会安防领域中十分重要的技术手段，但是视频监视的信息冗余性和感兴趣信息查找的低效性问题也在阻碍着视频智能监控技术的有效应用。例如，涉及一个案件的监控视频可能长达数十甚至数百小时，而其中对破案真正有用的重要场景在监控画面中往往仅出现数十秒甚至数秒，如果使用人工查看原始视频的方式则极易遗漏这些转瞬即逝的重要信息，不但效率低下，而且会丧失破案的时机。因此，视频摘要技术应运而生，该技术可让人在较短的时间内，集中精力浏览接近原始视频有用信息量的重要视频摘要，从而能够相对高效地对有用线索进行捕捉。

视频摘要，可以理解为以自动或半自动的方式，对视频的结构和内容进行分析，从原始视频文件中提取出有意义的部分，并将它以某种方式进行组合，形成简洁的能够充分表现视频内容的概要。视频摘要是对长视频内容的简短总结，通常用一段静态或者动态的图像序列来表示，并对原始信息予以保留。

视频摘要的理论基础，就是从时域、空域两方面去除冗余信息，并结合视频索引技术，提供给人们一个概括原始视频主要内容，但长度却比原始视频短得多的较为精炼的关键信息。

目前的视频摘要技术主要包括基于运动分析(如帧间差法)、基于颜色分析(如颜色直方图分析法)等方法。然而前者会将目标运动不明显的场景(如银行ATM中的取款场景)视作无人场景，从而丢失此部分往往对破案很重要的信息(如犯罪分子针对ATM的操作)；而后者则对于环境光照变化极为敏感，从而误将无人场景当作有运动目标进入的场景，另外该方法也不适合于处理红外摄像机记录的视频。

发明内容

本发明针对目前视频摘要方法存在的不足，提出了一种基于运动目标检测的视频摘要方法和系统，将帧间差技术和场景建模技术相结合的运动目标检测方法，不仅能够有效地判断场景中是否存在运动目标，还能够避免传统方法会将目标运动幅度较小时的场景遗漏的情形，而此种场景对安防监控仍然可能具有重要的线索作用，因而不会丢失潜在的重要信息。

在进行视频摘要输出时，能够根据用户的需求进行定制，既可以选择保留连续时域信息、全面反映视频语义的缩略视频摘要，也可以选择压缩比率更高但牺牲了语义内容时域连续性的关键帧摘要。

本发明提供一种基于运动目标检测的视频摘要方法，包括以下步骤：

(1)从输入的原始视频中解析出图像序列，并进行图像灰度化操作；

(2)对图像序列进行帧间差计算，并通过判断帧间稳定状态建立和维护场景模型，进而根据帧间差计算模块和场景模型的综合计算结果实现对运动目标的检测；

(3)根据运动目标检测结果将运动场景从原始视频中提取出来；

(4)生成视频摘要，并输出视频摘要。

通常在监控视频资料中，运动场景会由于各种原因发生变化，例如昼夜变化使得照射到监控范围的光线发生变化、监控范围长时间停了一辆车或者监控范围内的物品摆放发生了变化，而运动场景的变化会造成运动目标检测不准确。

本发明提供的基于运动目标检测的视频摘要方法，将帧间差技术和场景建模技术相结合的运动目标检测方法，通过建立场景模型，并维护场景模型，也就是根据现场情况更新场景模型，不仅能够有效地判断场景中是否存在运动目标，还能够避免传统方法会将目标运动幅度较小时的场景遗漏的情形，而此种场景对安防监控仍然可能具有重要的线索作用，因而不会丢失潜在的重要信息。

本发明提供的基于运动目标检测的视频摘要方法，对于输入的视频，解析出图像序列。如果为彩色图片，再将其统一转换到灰度化空间以减少后续环节的计算量。

进一步地，步骤(2)还包括以下步骤：

(21)计算相邻帧图像之间的帧间差，帧间差的计算方法如下：

D(x,y)＝|I_i(x,y)-I_i-1(x,y)|

其中D(x,y)为坐标为(x,y)的像素点的帧间差，I_i(x,y)为第i帧坐标为(x,y)的像素点的灰度值；

(22)根据阈值计算帧间差判断结果的方法如下：

C(x,y)＝Boolean(D(x,y)>T₁)

其中C(x,y)为坐标为(x,y)的像素点的帧间差判断结果，T₁为像素点灰度变化阈值；

(23)对帧间差判断结果C(x,y)进行开运算处理滤除噪声：

F(x,y)＝(CΘSE)⊕SE

其中F(x,y)为对帧间差判断结果C(x,y)进行开运算处理的结果，SE为形态学结构算子，Θ表示腐蚀运算，⊕表示膨胀运算；

(24)计算帧间差统计输出结果O：

O = \frac{1}{m \times n} Σ_{y = 1}^{n} Σ_{x = 1}^{m} F (x, y)

其中m,n分别为图像矩阵的行数、列数；

(25)帧间变化判断：

如果O≤T₂，则帧间未发生变化；否则，帧间发生了变化，其中T₂为帧间变化阈值。

进一步地，步骤(2)中建立场景模型的条件是进入帧间稳定状态，帧间稳定状态是指连续超过T₃帧维持帧间未发生变化，其中T₃为持续稳定帧数阈值。

本发明提供的基于运动目标检测的视频摘要方法，首先进行帧间差计算，进而判断是否进入帧间稳定状态，如果进入帧间稳定状态，建立场景模型。

进一步地，步骤(2)中建立场景模型的方法包括单高斯模型或混合高斯模型。

进一步地，采用单高斯模型建立场景模型的方法如下：

P (x, y) = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{{(I (x, y) - μ)}^{2}}{2 σ^{2}})

其中，P(x,y)为坐标为(x,y)的像素点的灰度值服从场景模型分布的概率， I_i(x,y)为第i个坐标为(x,y)的样本像素点的灰度值，N为建立场景模型采用的样本数。

进一步地，步骤(2)中维护场景模型包括以下步骤：

(26)判断图像中是否存在运动目标；

(27)如果同时满足图像中无运动目标且处于帧间稳定状态时，更新场景模型。

本发明提供的基于运动目标检测的视频摘要方法，根据现场情况随时更新场景模型，能够将运动不明显的目标(如银行ATM中的取款场景)检测出来，找出可能对破案非常重要的信息(如犯罪分子针对ATM的操作)；另外如果环境光照发生变化，场景模型会相应更新，因而不会误将无人场景当作有运动目标进入的场景。

因此本发明提供的基于运动目标检测的视频摘要方法能够更加准确地检测运动目标，获得准确的视频摘要，高效地捕捉有用线索。

进一步地，步骤(26)中判断图像中是否存在运动目标的方法包括以下步骤：

(261)根据场景模型，判断是否有前景出现，输出G：

G(x,y)＝Boolean(P(I(x,y))<T₄)

其中G(x,y)表示坐标为(x,y)的像素点的灰度值是否隶属于场景模型，I(x,y)为坐标为(x,y)的像素点的灰度值，T₄为服从场景模型分布的概率阈值；

(262)对G(x,y)进行连通区分析，去除面积占整个图像比例小于T₅的连通区，得到噪声过滤后的结果R，其中T₅为噪声面积阈值；

(263)如果O>T₂，或者O≤T₂且噪声过滤后的结果R中存在连通区，则图像中存在运动目标；否则，图像不存在运动目标。

进一步地，步骤(3)中将运动场景从原始视频中提取出来的方法包括以下步骤：

(31)当原始视频从帧间稳定状态进入帧间变化状态时，设置运动场景开始标志。

(32)当原始视频再次进入帧间稳定状态时，利用场景模型进行判断：如果图像中不存在运动目标，则设置运动场景结束标志；

(33)提取运动场景开始标志与运动场景结束标志之间的视频段。

进一步地，基于运动目标检测的视频摘要方法还包括从运动场景中选取关键帧，包括以下步骤：

(34)获取运动场景的图像序列，遍历图像并提取图像的特征；

(35)对步骤(34)中提取的图像特征的集合进行聚类；

(36)遍历运动场景的图像并分别计算其与聚类中心的距离，并按距离从近到远进行排序，选取排序最靠前的若干帧作为该类的关键帧。

本发明提供的基于运动目标检测的视频摘要方法，可以根据用户的需求定制视频摘要输出，既可以选择保留连续时域信息、全面反映视频语义的缩略视频摘要，也就是运动场景视频摘要；也可以选择压缩比率更高但牺牲了语义内容时域连续性的关键帧视频摘要，适合高压缩比的需求。

本发明还提供一种基于运动目标检测的视频摘要系统，包括：

视频输入及预处理模块，用于从输入的原始视频中解析出图像序列并进行图像灰度化操作；

运动目标检测模块，用于检测运动目标，运动目标检测模块还包括帧间差计算模块与场景建模及维护模块，帧间差计算模块用于获得图像之间的差别，场景建模及维护模块用于对图像中运动目标所处的场景建立场景模型并维护所述场景模型，在此基础上，根据帧间差计算模块和场景模型的综合计算结果实现对运动目标的检测；

运动场景提取模块，用于根据运动目标检测结果，从原始视频中，提取运动场景；

关键帧提取模块，用于从运动场景中，使用聚类方法，选取出关键帧；

视频摘要输出模块，用于输出视频摘要；

视频输入及预处理模块、运动目标检测模块、运动场景提取模块、关键帧提取模块以及视频摘要输出模块依次连接。

与现有技术相比，本发明提供的基于运动目标检测的视频摘要方法和系统具有以下有益效果：

(1)将帧间差技术和场景建模技术相结合的运动目标检测方法，不仅能够有效地判断场景中是否存在运动目标，还能够避免传统方法会将目标运动幅度较小时的场景遗漏的情形，而此种场景对安防监控仍然可能具有重要的线索作用，因而不会丢失潜在的重要信息；

(2)根据用户的需求定制视频摘要输出，既可以选择保留连续时域信息、全面反映视频语义的缩略视频摘要，也就是运动场景视频摘要；也可以选择压缩比率更高但牺牲了语义内容时域连续性的关键帧视频摘要，适合高压缩比的需求。

附图说明

图1是本发明的一个实施例的基于运动目标检测的视频摘要方法的流程图；

图2是本发明的另一个实施例的基于运动目标检测的视频摘要方法的流程图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于以下实施例。

图1是本发明的一个实施例的基于运动目标检测的视频摘要方法的流程图，包括以下步骤：

(4)生成视频摘要，并输出视频摘要。

本实施例的基于运动目标检测的视频摘要方法，对于输入的视频，解析出图像序列。如果为彩色图片，将其统一转换到灰度空间以减少后续环节的计算量。

将帧间差技术和场景建模技术相结合的运动目标检测方法，不仅能够有效地判断场景中是否存在运动目标，还能够避免传统方法会将目标运动幅度较小时的场景遗漏的情形，而此种场景对安防监控仍然可能具有重要的线索作用，因而不会丢失潜在的重要信息。

步骤(2)还包括以下步骤：

(21)计算相邻帧图像之间的帧间差，帧间差的计算方法如下：

D(x,y)＝|I_i(x,y)-I_i-1(x,y)|

(22)根据阈值计算帧间差判断结果的方法如下：

C(x,y)＝Boolean(D(x,y)>T₁)

(23)对帧间差判断结果C(x,y)进行开运算处理滤除噪声：

F(x,y)＝(CΘSE)⊕SE

(24)计算帧间差统计输出结果O：

O = \frac{1}{m \times n} Σ_{y = 1}^{n} Σ_{x = 1}^{m} F (x, y)

其中m,n分别为图像矩阵的行数、列数；

(25)帧间变化判断：

步骤(23)中SE为形态学结构算子，本实施例中形态学结构算子为矩形，尺寸可以为3×3、5×5或7×7。

步骤(2)中建立场景模型的条件是进入帧间稳定状态，帧间稳定状态是指连续超过T₃帧维持帧间未发生变化，其中T₃为持续稳定帧数阈值。

步骤(2)中建立场景模型的方法包括单高斯模型或混合高斯模型。

采用单高斯模型建立场景模型的方法如下：

P (x, y) = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{{(I (x, y) - μ)}^{2}}{2 σ^{2}})

步骤(2)中维护场景模型包括以下步骤：

(26)判断图像中是否存在运动目标；

(261)根据场景模型，判断是否有前景出现，输出G：

G(x,y)＝Boolean(P(I(x,y))<T₄)

步骤(3)中将运动场景从原始视频中提取出来的方法包括以下步骤：

图2是本发明的另一个实施例的基于运动目标检测的视频摘要方法的流程图，包括以下步骤：

(4)判断用户是否选择高压缩比的视频摘要，如果是，从运动场景中，使用聚类方法，选取出关键帧；如果不是，直接转到步骤(5)；

(5)生成视频摘要，并输出视频摘要。

基于运动目标检测的视频摘要方法还包括从运动场景中选取关键帧，包括以下步骤：

(34)获取运动场景的图像序列，遍历图像并提取图像的特征；

(35)对步骤(34)中提取的图像特征的集合进行聚类；

步骤(34)中提取图像的图像特征可采用二维离散余弦变换特征、直方图特征、小波变换特征等多种特征，本实施例中采用二维离散余弦变换特征。

步骤(35)中对提取的图像特征的集合进行聚类，可采用聚类方法可使用K-Means方法、层次聚类方法等，优选地，采用K-Means方法；距离度量可采用Cosine距离、Euclidean距离、Correlation距离等多种距离，本实施例中采用Cosine距离；类的数目可依经验设定。

以下以银行ATM场景监控视频为例，说明本实施例的基于运动目标检测的视频摘要方法，包括以下步骤：

1、对于输入的银行ATM场景监控视频，解析出图像序列，并统一转换到灰度空间，以减少后续环节的计算量；

2、计算帧间差D；

D(x,y)＝|I_i(x,y)-I_i-1(x,y)|

3、计算帧间差判断结果C：

C(x,y)＝Boolean(D(x,y)>T₁)

其中像素点灰度变化阈值T₁设为15(灰度范围为0～255)；

4、对C(x,y)进行开运算处理滤除噪声，得到F(x,y)：

F(x,y)＝(CΘSE)⊕SE

其中SE为形态学结构算子，形态学结构算子选矩形，结构算子尺寸选3×3。

5、计算帧间差统计输出结果O：

O = \frac{1}{m \times n} Σ_{y = 1}^{n} Σ_{x = 1}^{m} F (x, y)

其中m,n分别为图像矩阵的行数、列数；

6、帧间变化判断：

如果O≤T₂，则帧间未发生变化；否则，帧间发生了变化，其中T₂为帧间变化阈值，帧间变化阈值T₂设为0.03。

7、定义帧间稳定状态：连续超过T₃帧维持帧间未发生变化，T₃为持续稳定帧数阈值，设为300；

8、当进入帧间稳定状态，即开始进行场景建模，采用单高斯模型；

P (x, y) = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{{(I (x, y) - μ)}^{2}}{2 σ^{2}})

其中，P(x,y)为坐标为(x,y)的像素点的灰度值服从场景模型分布的概率， I_i(x,y)为第i个坐标为(x,y)的样本像素点的灰度值，N为建立场景模型采用的样本数；

9、判断场景中是否有前景出现：

9.1用场景模型判断是否有运动目标，输出G：

G(x,y)＝Boolean(P(I(x,y))<T₄)

其中G(x,y)表示坐标为(x,y)的像素点的灰度值是否隶属于场景模型，I(x,y)为坐标为(x,y)的像素点的灰度值，T₄为服从场景模型分布的概率阈值，设为0.01；

9.2对G(x,y)进行连通区分析，去除面积占整个图像比例小于T₅的连通区，得到噪声过滤后的结果R，其中T₅为噪声面积阈值，设为0.05；

9.3如果O>T₂，或者O≤T₂且噪声过滤后的结果R中存在连通区，则图像中存在运动目标；否则，图像中不存在运动目标；

10、如果同时满足“场景中无运动目标”与“处于帧间稳定状态”时，利用新数据对场景模型进行更新；

11、运动场景提取：

11.1当从帧间稳定状态进入帧间变化状态时，标志运动场景的开始状态；

11.2当处于帧间不变状态时，根据场景模型进一步判断：

11.2.1如果图像中仍存在运动目标，则继续记录运动场景；

11.2.2如果图像中不存在运动目标，则标志运动场景的结束状态，并且提取开始与结束标志间的视频段作为运动场景，再将开始与结束状态标志清空。

12、用户按自身需求选择输出缩略视频摘要或关键帧视频摘要；

13、如果用户选择关键帧，提取运动场景的图像序列，并进行关键帧提取，方法如下：

13.1图像特征提取：采用二维离散余弦变换特征。

13.2图像聚类：使用K-Means聚类方法，采用Cosine距离，类的数目设为10。

13.3遍历场景中的图像并分别计算其与聚类中心的距离，然后选取距离最近的10帧作为该类的关键帧。

14、根据用户选择，输出缩略视频摘要或关键帧视频摘要。

本发明的另一个实施例的基于运动目标检测的视频摘要系统，包括：

运动场景提取模块，根据运动目标检测结果，从原始视频中，提取运动场景；

视频摘要输出模块，用于输出视频摘要；

本发明提供的基于运动目标检测的视频摘要方法和系统，将帧间差技术和场景建模技术相结合的运动目标检测方法，不仅能够有效地判断场景中是否存在运动目标，还能够避免传统方法会将目标运动幅度较小时的场景遗漏的情形，而此种场景对安防监控仍然可能具有重要的线索作用，因而不会丢失潜在的重要信息；根据用户的需求定制视频摘要输出，既可以选择保留连续时域信息、全面反映视频语义的缩略视频摘要，也就是运动场景视频摘要；也可以选择压缩比率更高但牺牲了语义内容时域连续性的关键帧视频摘要，适合高压缩比的需求。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于运动目标检测的视频摘要方法，其特征在于，包括以下步骤：

(2)对所述图像序列进行帧间差计算，并通过判断帧间稳定状态建立和维护场景模型，进而根据帧间差计算模块和场景模型的综合计算结果实现对运动目标的检测；

(4)生成视频摘要，并输出所述视频摘要。

2.如权利要求1所述的基于运动目标检测的视频摘要方法，其特征在于，步骤(2)还包括以下步骤：

(21)计算相邻帧图像之间的帧间差，所述帧间差的计算方法如下：

D(x,y)＝|I_i(x,y)-I_i-1(x,y)|

(22)根据阈值计算帧间差判断结果的方法如下：

C(x,y)＝Boolean(D(x,y)>T₁)

(23)对帧间差判断结果C(x,y)进行开运算处理滤除噪声：

F(x,y)＝(CΘSE)⊕SE

(24)计算帧间差统计输出结果O：

O = \frac{1}{m \times n} Σ_{y = 1}^{n} Σ_{x = 1}^{m} F (x, y)

其中m,n分别为图像矩阵的行数、列数；

(25)帧间变化判断：

3.如权利要求1所述的基于运动目标检测的视频摘要方法，其特征在于，步骤(2)中建立场景模型的条件是进入帧间稳定状态，所述帧间稳定状态是指连续超过T₃帧维持帧间未发生变化，其中T₃为持续稳定帧数阈值。

4.如权利要求1所述的基于运动目标检测的视频摘要方法，其特征在于，步骤(2)中建立场景模型的方法包括单高斯模型或混合高斯模型。

5.如权利要求4所述的基于运动目标检测的视频摘要方法，其特征在于，采用单高斯模型建立场景模型的方法如下：

P (x, y) = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{{(I (x, y) - μ)}^{2}}{{2 σ}^{2}})

6.如权利要求2所述的基于运动目标检测的视频摘要方法，其特征在于，步骤(2)中维护所述场景模型包括以下步骤：

(26)判断所述图像中是否存在运动目标；

(27)如果同时满足所述图像中无运动目标且处于帧间稳定状态时，更新所述场景模型。

7.如权利要求6所述的基于运动目标检测的视频摘要方法，其特征在于，步骤(26)中判断所述图像中是否存在运动目标的方法包括以下步骤：

(261)根据所述场景模型，判断是否有前景出现，输出G：

G(x,y)＝Boolean(P(I(x,y))<T₄)

其中G(x,y)表示坐标为(x,y)的像素点的灰度值是否隶属于场景模型，I(x,y)为坐标为(x,y)的像素点的灰度值，T₄为服从所述场景模型分布的概率阈值；

(263)如果O>T₂，或者O≤T₂且噪声过滤后的结果R中存在连通区，则所述图像中存在运动目标；否则，所述图像不存在运动目标。

8.如权利要求1所述的基于运动目标检测的视频摘要方法，其特征在于，步骤(3)中将运动场景从所述原始视频中提取出来的方法包括以下步骤：

(31)当所述原始视频从帧间稳定状态进入帧间变化状态时，设置运动场景开始标志；

(32)当所述原始视频再次进入帧间稳定状态时，利用所述场景模型进行判断：如果所述图像中不存在运动目标，则设置运动场景结束标志；

(33)提取所述运动场景开始标志与所述运动场景结束标志之间的视频段。

9.如权利要求1所述的基于运动目标检测的视频摘要方法，其特征在于，所述基于运动目标检测的视频摘要方法还包括从所述运动场景中选取关键帧，包括以下步骤：

(34)获取所述运动场景的图像序列，遍历图像并提取所述图像的特征；

(35)对步骤(34)中提取的所述图像特征的集合进行聚类；

(36)遍历所述运动场景的图像并分别计算其与聚类中心的距离，并按距离从近到远进行排序，选取排序最靠前的若干帧作为该类的关键帧。

10.一种基于运动目标检测的视频摘要系统，其特征在于，包括：

运动目标检测模块，用于检测运动目标，所述运动目标检测模块还包括帧间差计算模块与场景建模及维护模块，所述帧间差计算模块用于获得所述图像之间的差别，所述场景建模及维护模块用于对所述图像中运动目标所处的场景建立场景模型并维护所述场景模型，在此基础上，根据帧间差计算模块和场景模型的综合计算结果实现对运动目标的检测；

运动场景提取模块，用于根据所述运动目标检测结果，从所述原始视频中，提取运动场景；

关键帧提取模块，用于从所述运动场景中，使用聚类方法，选取出关键帧；

视频摘要输出模块，用于输出视频摘要；

所述视频输入及预处理模块、所述运动目标检测模块、所述运动场景提取模块、所述关键帧提取模块以及所述视频摘要输出模块依次连接。