CN103345764A

CN103345764A - 一种基于对象内容的双层监控视频摘要生成方法

Info

Publication number: CN103345764A
Application number: CN2013102944412A
Authority: CN
Inventors: 田玉敏; 唐铭谦; 蒙安魁; 郑海红; 冯艳; 杨雪峰; 罗雪梅
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2013-07-12
Filing date: 2013-07-12
Publication date: 2013-10-09
Anticipated expiration: 2033-07-12
Also published as: CN103345764B

Abstract

一种基于对象内容的双层监控视频摘要生成方法，其包括如下步骤：1）读入原始视频帧后将原始视频分段为静态视频段、目标密集视频段和摘要基本段落；2）得到的视频基本段与视频密集段分别进行基于多特征融合的运动目标检测与跟踪，来获得该视频段内的目标的轨迹序列集合；3）利用融合记分板方法完成对于摘要基本段落的目标轨迹序列集合与最佳背景模型之间的轨迹融合；4）通过轨迹融合后得到摘要结果帧序列为该段摘要基本段的摘要视频，按照步骤1）分割顺序将这些视频段落依次合并，输出为摘要视频；5）根据摘要视频的轨迹序列，生成可供用户搜索的语义摘要信息。

Description

一种基于对象内容的双层监控视频摘要生成方法

技术领域

本发明涉及一种基于对象内容的双层监控视频摘要生成方法。

背景技术

视频摘要，就是以自动或半自动的方式，通过对视频的结构和内容的分析，从原视频中提取有意义的部分，将它们以某种方式合并而成的紧凑的、能充分表现视频语义内容的视频浓缩。根据表现形式的不，视频摘要可分为静态的视频摘要和动态的视频摘要两类。

静态的视频摘要，是从视频流中抽取或生成的有代表性的图像。即通过一系列关键帧组成相应的语义单元，概括表示视频镜头的内容，如标题、故事板、幻灯片等。目前国内外静态视频摘要的研究主要是基于关键帧，即从原始视频中提取的按照一定顺序和一定形式排列的多帧代表帧图像序列给用户提供视频的总体描述，在浏览中也可以方便地定位到用户感兴趣的部分。基于关键帧的视频摘要的最小单位是“帧”，存储空间较小且方便传输，但并不能完整表示每个目标的完整行为运动轨迹，不利于视频目标检索；同时，帧选择依赖于阈值的选择；计算量大，不能做到实时处理。

动态的视频摘要，是图像序列及其伴音的集合，它本身也是一段视频，但比原视频要短得多。监控领域动态视频摘要发展到现在主要是基于对象的视频摘要。这种方法可以大大缩短视频长度，方便用于对视频的观看、分析和检索。基于对象的视频摘要的最小单位是“对象”，最大限度的减少时间-空间冗余，且为视频检索等上层开发提供对象结构，能在监控安防中快速响应紧急事件，定位到事件相关“对象”，但存在处理复杂，摘要生成困难的问题。但现行的基于对象的视频摘要系统存在难以处理大视频文件、目标轨迹组合最优解求解困难且耗时过长，轨迹间冲突较大，目标轨迹融合痕迹明显、不能生成高层视频语义特征的问题。

发明内容

本发明的目的在于提供一种能处理大视频文件，且目标轨迹组合最优解求解简单，并能生成高层视频语义特征的一种基于对象内容的双层监控视频摘要生成方法。

本发明一种基于对象内容的双层监控视频摘要生成方法，其包括如下步骤：

1)读入原始视频帧后将原始视频分段为静态视频段、目标密集视频段和摘要基本段落；

2)步骤1)得到的摘要基本段落与目标密集视频段分别进行基于多特征融合的运动目标检测与跟踪，来获得该视频段内的目标的轨迹序列集合；

3)利用融合记分板方法完成对于摘要基本段落的目标轨迹序列集合与最佳背景模型之间的轨迹融合；

4)通过轨迹融合后得到摘要结果帧序列为该段摘要基本段的摘要视频，按照步骤1)分割顺序将这些视频段落依次合并，输出为摘要视频；

5)根据摘要视频的轨迹序列，生成可供用户搜索的语义摘要信息。

在上述技术方案的基础上，所述步骤1)包括，

(1)对原始视频帧进行混合高斯背景建模，得到原始视频帧对象场景的背景模型序列及运动前景帧序列；

(2)对原始视频每帧对应的运动前景帧计算运动率对每一视频帧对应的运动前景图像计算运动率sat(k)；

sat (k) = \frac{Σ_{i, j} FG (i, j, k)}{W * H}

FG(i，j，k)为第k帧前景图像第i行j列的像素值，W与H为前景图像的宽和高；

(3)计算每一运动前景图对应的视频帧的动静标记R(k)，T_q为静止阈值，则视频帧存在{0...0，-1...-1，0...0，-1...-1...}的连续0与连续1的动静结构，提取连续的0与连续的1分别划分为{Q₁，M₁...Q_i，M_i...}这样的动视频段M_i与静视频段Q_i；

(4)对每一个动视频段M_i计算计算其运动疏密度MS(i)，及疏密标记MR(i)，将M_i划分为目标密集视频段与运动稀疏视频段，对于所有目标密集视频段，进入步骤2)，所有运动目标稀疏视频段进入步骤(5)：

MS (i) = Σ_{k = 1}^{{Nm}_{i}} sat (k)

Nm_i为M_i总共帧数，β_s为单一运动饱和率；

(5)对所有运动稀疏视频段进行稀疏合并，生成摘要基本段：

(5a)如果M_i为第一个运动稀疏视频段，初始化V₁，标记V₁为未饱和，将M_i放入V₁中，更新V₁的背景候选集BGV(1)＝{BG(i)}，段落饱和度MSV(1)＝MS(i)，其中BG(i)为M_i的背景模型序列中第[Nm_i/2」帧图像。

(5b)如果M_i不为第一个运动稀疏视频段，找到第一个未饱和的摘要基本段V_j，将M_i加入到V_j中，更新背景候选集BGV(j)，并计算MRV(j)；

BGV(j)＝BGV(j)∪{BG(i)}

β_{c} = e^{- a ({Nm}_{i} - b)} + c

其中，NV(j)是摘要基本段V_j的总帧数，β_c为连接饱和度，a，b，c为常数；

(5c)如果V_j成为饱和摘要基本段，新建V_j+1；

(6)对所有静止视频段Q_i，寻找离其起始序号最近的摘要基本段V_j1与终止帧最近的摘要基本段V_j2，分别将Q_i的起始帧背景模型，中间帧背景模型，终止帧背景模型加入到BGV(j1)与BGV(j2)中，作为其待选背景模型；

(7)计算所有摘要基本段V_j对应的最佳背景模型，BGV(j)中第k个背景模型BGV(j，k)的重叠度为CRV_j(k)，选择其中重叠度最低的背景模型作为摘要基本段的最佳背景模型。

{CRV}_{j} (k) = 1 - \frac{Σ_{s = 1}^{nb} | BGV (j, k) - BGV (j, s) |}{W * H * nb}

W与H为背景图像的宽和高，nb为BGV(j)中背景模型的个数。

在上述技术基础上，所述步骤2)包括对视频分段部分得到的视频基本段与目标密集视频段分别进行基于多特征融合的运动目标检测与跟踪，并获得该视频段内的M个目标的轨迹序列集合

第m个目标的轨迹是TR_m：

TR_m＝<B_m，F_s，F_e>

其中B_m是该目标从起始帧F_s到终止帧F_e内所有的边界矩形。

在上述技术方案的基础上，所述步骤3)包括以下步骤：

(1)生成融合记分板

每一摘要视频帧k的融合记分板CB_k(i，j)表示(i，j)位置有多少个目标发生融合，遍历每视频摘要帧k的融合目标的边缘矩形，得出CB_k(i，j)；

(2)动态融合系数生成

(2a)对每一摘要帧k计算融合结果，若CB_k(i，j)为0，则摘要结果视频帧RE_k(i，j)的像素值为BGV_be(i，j)；

(2b)若CB_k(i，j)为1，计算若CB_k(i，j)的行百分比RowPer与列百分比ColPer：

RowPer＝DR/(Height/2)

ColPer＝DC/(Width/2)

对于矩形内任一点(i，j)，

DR＝|j-y-Height/2|

DC＝|i-x-Width/2|

则摘要结果帧中该位置权重背景权重WBg(i，j)，目标权重WO(i，j)为：

WBg(i，j)＝1-MAX(RowPer，ColPer)

WO(i，j)＝1-WBg(i，j)

RE_k(i，j)＝WBg(i，j)*BGV_be(i，j)+WO(i，j)*FO_m(i，j)

其中，FO_m(i，j)为融合目标在原始视频中位置(i，j)的像素值；

(2c)若CB_k(i，j)大于1，计算摘要结果帧像素值RE_k(i，j)：

{RE}_{k} (i, j) = Σ_{m = 1}^{{CB}_{k} (i, j)} {WO}_{m} (i, j) * {FO}_{m} (i, j)

{WO}_{m} (i, j) = \frac{| {FO}_{m} (i, j) - {BGV}_{be} (i, j) |}{Σ_{t = 1}^{{CB}_{k} (i, j)} | {FO}_{t} (i, j) - {BGV}_{be} (i, j) |} .

在上述技术方案的基础上，所述步骤5)包括以下步骤：

(1)生成关键特征图：

对于所有的目标轨迹序列集合

中第m个目标的轨迹TR_m提取其关键特征图BL_m来表征这个目标的外观特征；

(2)获取用户输入的语义搜索条件；

(3)搜索与待搜索图像匹配的目标轨迹；

(4)搜索与待搜索目标主体颜色匹配的目标轨迹；

(5)搜索在场景中持续逗留时间为T秒的目标，并将搜索结果返回为候选目标；

(6)搜索越过用户指定的直线位置的目标，返回后供用户查阅；

(7)搜索进入用户指定的矩形区域的目标，并返回所有进入用户指定的矩形区域的目标给用户查阅；

(8)搜索与其他目标发生接触的目标，并返回所述与其他目标发生接触的目标并供用户查阅。

在上述技术方案的基础上，所述步骤5)中步骤(1)包括以下步骤：

(1a)计算每个边界矩形的

的关键度

\overset{&OverBar;}{A} = \frac{1}{m_{T_{i}}} \times Σ_{1}^{m_{T_{i}}} A_{i}^{j}

其中

为目标中心的x轴坐标，为目标

中心的y轴坐标，Nc为与

在轨迹提取过程中发生碰撞合并的目标的边界矩形数，

为目标边界矩形

的面积；

(1b)求目标关键特征图BL_m

第m个目标的轨迹TR_m的关键特征图BL_m是其所有的边界矩形中

对应的目标。

在上述技术方案的基础上，所述步骤5)中步骤(3)包括以下步骤：

(3a)计算待搜索图像与每个目标的关键特征图BL_m的RGB颜色直方图：{H_r，H_g，H_b}，其中，H_r＝{h_ri}，H_g＝{h_gi}，H_b＝{h_bi}，且，ri、gi和bi分别为RGB三个直方图的灰度级数，取值范围均为[0，255]，h_ri、h_gi和h_bi分别为对应灰度级数的像素个数；

(3b)归一化颜色直方图；

令直方图{H_r，H_g，H_b}归一化后为

有

H_{r} = {\frac{h_{ri}}{Σ_{k} h_{rk}}},

H_{g} = {\frac{h_{gi}}{Σ_{k} h_{gk}}},

H_{b} = {\frac{h_{bi}}{Σ_{k} h_{bk}}},

其中0≤k≤255；

(3c)计算待搜索图像与第m个目标的轨迹TR_m的关键特征图BL_m的颜色直方图相交距离；

对于直方图H_a和H_b，其相交距离为

{SH}_{a, b} = \frac{Σ_{i = 0}^{255} \min (h_{ai}, h_{bi})}{Σ_{i = 0}^{255} \max (h_{ai}, h_{bi})}

令待搜索图像的颜色直方图为：{H_r′，H_g′，H_b′}，BL_m的颜色直方图为：

那么颜色直方图相交距离为：

{SH}_{{BL}_{m}} = \frac{{SH}_{r^{'}, r^{m}} + {SH}_{g^{'}, g^{m}} + {SH}_{b^{'}, b^{m}}}{3},

0 \leq {SH}_{{BL}_{m}} \leq 1

(3d)返回候选目标；

计算所有目标的关键特征图与待搜索图像的颜色直方图相交距离，将颜色直方图相交距离大于阈值Th的目标按颜色直方图相交距离由大到小排序返回给用户查阅。

在上述技术方案的基础上，所述步骤5)中步骤(4)包括以下步骤：

(4a)计算各目标的颜色直方图；

(4b)提取各目标的主体颜色；

关键特征图BL_m的主体颜色为颜色直方图高度最高的索引对应的颜色值，令为RGB(r^m，g^m，b^m)，转换到HSI颜色空间为HSI(h^m，s^m，i^m)；

(4c)计算相似度；

设待搜索目标的主体颜色为RGB(r^t，g^t，b^t)，转换到HSI颜色空间为HSI(h^t，s^t，i^t)，则待搜索主体颜色与关键特征图BL_m的主体颜色的相似度为

{SIM}_{{BL}_{m}} = {[e^{| s^{t} - s^{m} + | i^{t} - i^{m} | |}]}^{- 1} \times {[e^{\frac{\min {| h^{t} - h^{m} |, 360 - | h^{t} - h^{m} |}}{180}}]}^{- 1},

其中

e^{- 3} \leq {SIM}_{{BL}_{m}} \leq 1;

(4d)返回候选目标；

计算所有目标的关键特征图的主体颜色与待搜索颜色的颜色相似度，将大于阈值

的关键特征图的目标按相似度由大到小排序返回给用户查阅。

在上述技术方案的基础上，所述步骤5)中步骤(5)包括以下步骤：

(5a)计算每个目标的场景逗留时间；

目标TR_m的逗留时间其中fps为视频帧率；

(5b)返回候选目标

搜索持续逗留时间大于T的目标为对应的目标TR_m，并供用户查阅；

搜索持续逗留时间小于T的目标为

对应的目标TR_m，并供用户查阅；

搜索持续逗留时间为T左右的目标为对应的目标TR_m，其中α为时间匹配模糊度，0＜α＜1，并供用户查阅。

在上述技术方案的基础上，所述步骤5)中步骤(6)包括以下步骤：

令用户指定的直线一般式为：f(x，y)＝ax+by+c＝0

则判断目标是否越过用户指定直线的步骤为：

(6a)计算首个直线方程非零值，目标TR_m的边界矩形列表的第j个边界矩形

的直线方程值为首个直线方程非零值：

其中

为重心的x轴坐标，

为

重心的y轴坐标，

为目标TR_m的边界矩形个数；

(6b)判断a)步骤余下的边界矩形

的直线方程值j＜k≤M，若存在

则表明目标TR_m越过指定直线，否则目标TR_m没有越过指定直线。

相对于现有技术来说，本发明具有以下优点：解决了传统基于关键帧技术的视频摘要方法中不能完整表示目标行为轨迹的问题，在底层摘要视频生成中，可将原始视频压缩成可快速查阅的摘要视频，压缩比可达(0.1～0.01)，在高层语义视频摘要生成中，可提供每个目标的特征照片供用户快速搜索目标，也同时可以为用户提供部分如逗留时间、到达特定区域、主体颜色等语义信息，供用户快速定位到部分目标，提高了监控视频领域中的相应紧急事件的速度，且准确定位到整个事件相关对象。

附图说明

图1 是视频摘要系统整体框架图；

图2 是视频分段方法的程序流程图；

图3 是轨迹最优组合方法的程序流程图；

图4 是轨迹融合方法的流程图。

具体实施方式

如附图1所示，本发明基于对象内容的双层视频摘要生成方法，分为以下几个具体步骤完成。

1、视频分段

如附图2所示，本视频分段部分主要完成将超大视频文件及来自网络摄像头的实时视频流，在读入原始视频帧后快速根据视频摘要处理的特殊性将原始视频分段为静态视频段、目标密集视频段和摘要基本段落，同时为每个摘要基本段落生成其最佳背景模型。

(1)运动段落划分

a)混合高斯背景建模

对原始视频帧进行混合高斯背景建模，得到原始视频帧对象场景的背景模型序列及运动前景帧序列。具体的方法参见论文Z.Zivkovic，“Improved adaptivegausian mixture model for background subtraction，”in Proc.IEEE Int.Conf.PatternRecognit.，Cambridge，U.K.，Aug.2004，vol.2，pp.28-31.

b)运动率计算

对原始视频每帧对应的运动前景帧计算运动率对每一视频帧对应的运动前景图像计算运动率sat(k)；

sat (k) = \frac{Σ_{i, j} FG (i, j, k)}{W * H}

其中FG(i，j，k)为第k帧前景图像第i行j列的像素值，W与H为前景图像的宽和高。

c)静止标记计算

计算每一运动前景图对应的视频帧的动静标记R(k)，T_q为静止阈值。

d)运动与静止段落划分

视频帧的动静结构必然是“……动-静-动-静……”这样的动静段落，则动静标记必然存在{0...0，-1...-1，0...0，-1...-1...}的连续0与连续1的动静结构，提取连续的0与连续的1分别划分为{Q₁，M₁...Q_i，M_i...}这样的动视频段M_i与静视频段Q_i；

(2)运动稀疏段落划分

a)视频段落疏密度计算

对每一个动视频段M_i计算计算其运动疏密度MS(i)：

MS (i) = Σ_{k = 1}^{{Nm}_{i}} sat (k)

Nm_i为M_i总共帧数。

b)疏密度标记计算

对每一个动视频段M_i计算疏密标记MR(i)：

Nm_i为M_i总共帧数，β_s为单一运动饱和率。

c)目标密集与稀疏视频段划分

由每个动视频段M_i计算疏密标记MR(i)可将，将M_i划分为目标密集视频段与运动稀疏视频段，对于所有目标密集视频段可直接进行步骤2的目标轨迹提取，所有运动目标稀疏视频段进行步骤(3)：

(3)摘要基本段落生成

a)摘要基本段落生成

对所有运动稀疏视频段进行稀疏合并，生成摘要基本段：

(3a1)如果M_i为第一个运动稀疏视频段，初始化V₁，标记V₁为未饱和，将M_i放入V₁中，更新V₁的背景候选集BGV(1)＝{BG(i)}，段落饱和度MSV(1)＝MS(i)，其中BG(i)为M_i的背景模型序列中第[Nm_i/2」帧图像。

(3a2)如果M_i不为第一个运动稀疏视频段，找到第一个未饱和的摘要基本段V_j，将M_i加入到V_j中，更新背景候选集BGV(j)，并计算MRV(j)；

BGV(j)＝BGV(j)∪{BG(i)}

β_{c} = e^{- a ({Nm}_{i} - b)} + c

其中，NV(j)是摘要基本段V_j的总帧数，β_c为连接饱和度，a，b，c为常数。

(3a3)如果V_j成为饱和摘要基本段，新建V_j+1；

b)静态段落处理

对所有静止视频段Q_i，寻找离其起始序号最近的摘要基本段V_j1与终止帧最近的摘要基本段V_j2，分别将Q_i的起始帧背景模型，中间帧背景模型，终止帧背景模型加入到BGV(j1)与BGV(j2)中，作为其待选背景模型。

c)基本段落的最佳背景模型生成

计算所有摘要基本段V_j对应的最佳背景模型，BGV(j)中第k个背景模型BGV(j，k)的重叠度为CRV_j(k)，选择其中重叠度最低的背景模型作为摘要基本段的最佳背景模型。

{CRV}_{j} (k) = 1 - \frac{Σ_{s = 1}^{nb} | BGV (j, k) - BGV (j, s) |}{W * H * nb}

W与H为背景图像的宽和高，nb为BGV(j)中背景模型的个数。

2、轨迹提取

对视频分段部分得到的视频基本段与目标密集视频段分别进行基于多特征融合的运动目标检测与跟踪(参见论文Yumin Tian，Mingqian Tang，Ankui Meng，and Yuejiang Li.Robust Multi-objects Detection and Tracking Algorithm UnderComplex Circumstance[C].//2012 16th International Conference on Image Processing，Computer Vision，& Pattern Recognition(IPCV2012).[V.2].2012：1001-1004.)，来获得该视频段内的M个目标的轨迹序列集合

第m个目标的轨迹是TR_m：

TR_m＝<B_m，F_s，F_e>

其中B_m是该目标从起始帧F_s到终止帧F_e内所有的边界矩形。

3、轨迹融合

轨迹融合部分是按照各目标的融合顺序将该运动视频段的背景视频与该目标的原始图像黏贴融合，由于不可避免目标间会存在一定的碰撞，所以，需要对重叠区域动态计算融合系数，从而满足以下条件：

●融合结果在目标矩形边缘尽量不出现强边缘效应；

●多目标重叠区域各个目标均可见。

于是可以将融合问题分为两部分：轨迹图像与背景图像之间的融合，轨迹图像之间的重叠融合。

本发明采用了融合记分板方法来自动完成对于摘要基本段落V_j的目标轨迹序列集合

与最佳背景模型BGV_be之间的轨迹融合，生成摘要视频。

如附图4所示，其基本步骤如下：

(1)融合记分板生成

每一摘要视频帧k的融合记分板CB_k(i，j)表示(i，j)位置有多少个目标发生融合。遍历每视频摘要帧k的融合目标的边缘矩形，得出CB_k(i，j)。

(2)动态融合系数生成

a)对每一摘要帧k计算融合结果，若CB_k(i，j)为0，则摘要结果视频帧RE_k(i，j)的像素值为BGV_be(i，j)。

b)若CB_k(i，j)为1，如附图5所示，计算若CB_k(i，j)的行百分比RowPer与列百分比ColPer：

RowPer＝DR/(Height/2)

ColPer＝DC/(Width/2)

对于矩形内任一点(i，j)，

DR＝|j-y-Height/2|

DC＝|i-x-Width/2|

WBg(i，j)＝1-MAX(RowPer，ColPer)

WO(i，j)＝1-WBg(i，j)

RE_k(i，j)＝WBg(i，j)*BGV_be(i，j)+WO(i，j)*FO_m(i，j)

其中，FO_m(i，j)为融合目标在原始视频中位置(i，j)的像素值。

c)若CB_k(i，j)大于1，计算摘要结果帧像素值RE_k(i，j)：

{RE}_{k} (i, j) = Σ_{m = 1}^{{CB}_{k} (i, j)} {WO}_{m} (i, j) * {FO}_{m} (i, j)

{WO}_{m} (i, j) = \frac{| {FO}_{m} (i, j) - {BGV}_{be} (i, j) |}{Σ_{t = 1}^{{CB}_{k} (i, j)} | {FO}_{t} (i, j) - {BGV}_{be} (i, j) |}

(3)摘要视频生成

通过对每个基本视频段内的轨迹与摘要帧进行轨迹融合后，得到摘要结果帧序列为该段摘要基本段V_j的摘要视频，然后将目标密集视频段的轨迹提取后的图像序列标记其原始视频帧上，作为该目标密集段的摘要视频，然后按照V_j的分割顺序将这些视频段落依次合并，输出为摘要视频。

4、视频语义摘要

视频语义摘要是通过对底层摘要视频(即包含摘要基本段落中的摘要视频也包含目标密集段落的摘要视频)的轨迹序列，生成可供用户搜索的语义摘要信息，如附图6所示，其主要步骤如下：

(1)生成关键特征图：

对于所有的目标轨迹序列集合

a)计算每个边界矩形的的关键度

\overset{&OverBar;}{A} = \frac{1}{m_{T_{i}}} \times Σ_{1}^{m_{T_{i}}} A_{i}^{j}

其中

为目标

中心的x轴坐标，

为目标

中心的y轴坐标，Nc为与在轨迹提取过程中发生碰撞合并的目标的边界矩形数，

为目标边界矩形

的面积。

b)求目标关键特征图BL_m

第m个目标的轨迹TR_m的关键特征图BL_m是其所有的边界矩形中

对应的目标。

(2)获取用户输入的语义搜索条件：

为方便用户快速检索特定目标，允许用户输入以下语义搜索条件：

●待搜索图像；

●待搜索目标主体颜色值；

●待搜索目标在场景中持续逗留时间T；

●待搜索目标越过用户指定的直线位置；

●待搜索目标进入用户指定的矩形区域；

●待搜索目标运动过程中与其他目标发生接触。

(3)搜索与待搜索图像匹配的目标轨迹：

a)计算待搜索图像与每个目标的关键特征图BL_m的RGB颜色直方图：{H_r，H_g，H_b}，其中，H_r＝{h_ri}，H_g＝{h_gi}，H_b＝{h_bi}，且，ri、gi和bi分别为RGB三个直方图的灰度级数，取值范围都是[0，255]，h_ri、h_gi和h_bi分别为对应灰度级数的像素个数；

b)归一化颜色直方图；

令直方图{H_r，H_g，H_b}归一化后为

有

H_{r} = {\frac{h_{ri}}{Σ_{k} h_{rk}}},

H_{g} = {\frac{h_{gi}}{Σ_{k} h_{gk}}},

H_{b} = {\frac{h_{bi}}{Σ_{k} h_{bk}}},

其中0≤k≤255

c)计算待搜索图像的颜色直方图与第m个目标关键特征图BL_m间颜色直方图相交距离

c)计算待搜索图像与第m个目标的轨迹TR_m的关键特征图BL_m的颜色直方图相交距离；

对于直方图H_a和H_b，其相交距离为

{SH}_{a, b} = \frac{Σ_{i = 0}^{255} \min (h_{ai}, h_{bi})}{Σ_{i = 0}^{255} \max (h_{ai}, h_{bi})}

于是令待搜索图像的颜色直方图为：{H_r′，H_g′，H_b′}，BL_m的颜色直方图为：

那么颜色直方图相交距离为：

{SH}_{{BL}_{m}} = \frac{{SH}_{r^{'}, r^{m}} + {SH}_{g^{'}, g^{m}} + {SH}_{b^{'}, b^{m}}}{3},

0 \leq {SH}_{{BL}_{m}} \leq 1

d)返回候选目标；

(4)搜索与待搜索目标主体颜色匹配的目标轨迹：

a)计算各目标的颜色直方图，步骤参考5(3)(a)；

b)提取各目标的主体颜色；

c)计算相似度；

{SIM}_{{BL}_{m}} = {[e^{| s^{t} - s^{m} + | i^{t} - i^{m} | |}]}^{- 1} \times {[e^{\frac{\min {| h^{t} - h^{m} |, 360 - | h^{t} - h^{m} |}}{180}]}}^{- 1},

其中

e^{- 3} \leq {SIM}_{{BL}_{m}} \leq 1

d)返回候选目标；

相似度阈值

其中α_s、α_i和α_h用户可调阈值因子，一般情况下有α_s＝0.15，α_i＝0.2，α_h＝30，而这三个阈值因子的取之范围分别为：0＜α_s≤1，0＜α_i≤1，0＜α_h≤180。于是一般情况下相似度阈值为

T_{{SIM}_{{BL}_{m}}} = {[e^{0.15 + 0.2}]}^{- 1} \times {[e^{\frac{30}{180}}]}^{- 1} &cong; 0.6 .

(5)搜索在场景中持续逗留时间为T(单位：秒)的目标：

a)计算每个目标的场景逗留时间；

目标TR_m的逗留时间

其中fps为视频帧率，F_e和F_s含义参考步骤2；

b)返回候选目标

搜索持续逗留时间大于T的目标为

对应的目标TR_m，

搜索持续逗留时间小于T的目标为

对应的目标TR_m，

搜索持续逗留时间为T左右的目标为对应的目标TR_m，其中α为时间匹配模糊度，0＜α＜1，其值可以由用户指定，一般取0.3。

(6)搜索越过用户指定的直线位置的目标：

令用户指定的直线一般式为：f(x，y)＝ax+by+c＝0

则判断目标是否越过用户指定直线的步骤为：

a)计算首个直线方程非零值，目标TR_m的边界矩形列表的第j个边界矩形的直线方程值为首个直线方程非零值：

其中

为

重心的x轴坐标，

为

重心的y轴坐标，为目标TR_m的边界矩形个数。

b)判断a)步骤余下的边界矩形的直线方程值

j＜k≤M，若存在

(7)搜索进入用户指定的矩形区域的目标：

令用户指定的矩形区域为(l，t，r，b)，其中l为矩形左侧x轴坐标，r为矩形右侧x轴坐标，t为矩形上侧y轴坐标，b为矩形下侧y轴坐标；目标TR_m的边界矩形列表中，若存在

为目标TR_m的边界矩形个数，使得

为重心的x轴坐标，

为重心的y轴坐标，表明目标TR_m进入指定矩形区域，否则表明TR_m没有进入指定矩形区域。

返回所有进入用户指定的矩形区域的目标给用户查阅。

(8)搜索与其他目标发生接触的目标：

Nc为与

在轨迹提取过程中发生碰撞合并的目标的边界矩形数，当Nc不为0时候，返回该目标供用户查阅。

Claims

1.一种基于对象内容的双层监控视频摘要生成方法，其特征在于：其包括如下步骤：

1）读入原始视频帧后将原始视频分段为静态视频段、目标密集视频段和摘要基本段落；

2）步骤1）得到的摘要基本段落与目标密集视频段分别进行基于多特征融合的运动目标检测与跟踪，来获得该视频段内的目标的轨迹序列集合；

3）利用融合记分板方法完成对于摘要基本段落的目标轨迹序列集合与最佳背景模型之间的轨迹融合；

4）通过轨迹融合后得到摘要结果帧序列为该段摘要基本段的摘要视频，按照步骤1）分割顺序将这些视频段落依次合并，输出为摘要视频；

5）根据摘要视频的轨迹序列，生成可供用户搜索的语义摘要信息。

2.如权利要求1所述的一种基于对象内容的双层监控视频摘要生成方法，其特征在于：所述步骤1）包括，

（1）对原始视频帧进行混合高斯背景建模，得到原始视频帧对象场景的背景模型序列及运动前景帧序列；

（2）对原始视频每帧对应的运动前景帧计算运动率，对每一视频帧对应的运动前景图像计算运动率sat(t)；

sat (k) = \frac{Σ_{i, j} FG (i, j, k)}{W * H}

FG(i,j,k)为第k帧前景图像第i行j列的像素值，W与H为前景图像的宽和高；

（3）计算每一运动前景图对应的视频帧的动静标记R(k)，T_q为静止阈值，则视频帧存在{0…0,-1…-1,0…0,-1…-1…}的连续0与连续1的动静结构，提取连续的0与连续的1分别划分为{Q₁,M₁…Q_i,M_i…}这样的动视频段M_i与静视频段Q_i；

（4）对每一个动视频段M_i计算计算其运动疏密度MS(i)，及疏密标记MR(i)，将M_i划分为目标密集视频段与运动稀疏视频段，对于所有目标密集视频段，进入步骤2），所有运动目标稀疏视频段进入步骤（5）：

MS (i) = Σ_{k = 1}^{{Nm}_{i}} sat (k)

Nm_i为M_i总共帧数，β_s为单一运动饱和率；

（5）对所有运动稀疏视频段进行稀疏合并，生成摘要基本段：

（5a）如果M_i为第一个运动稀疏视频段，初始化V₁，标记V₁为未饱和，将M_i放入V₁中，更新v₁的背景候选集BGV(1)={BG(i)}，段落饱和度MSV(1)=MS(i)，其中BG(i)为M_i的背景模型序列中第

帧图像；

（5b）如果M_i不为第一个运动稀疏视频段，找到第一个未饱和的摘要基本段V_j，将M_i加入到V_j中，更新背景候选集BGV(j)，并计算MRV(j)；

BGV(j)=BGV(j)∪{BG(i)}

β_{c} = e^{- a ({Nm}_{i} - b)} + c

其中，NV(j)是摘要基本段V_j的总帧数，β_c为连接饱和度，a,b，c为常数；

（5c）如果V_j成为饱和摘要基本段，新建V_j+1；

（6）对所有静止视频段Q_i，寻找离其起始序号最近的摘要基本段V_j1与终止帧最近的摘要基本段V_j2，分别将Q_i的起始帧背景模型，中间帧背景模型，终止帧背景模型加入到BGV(j1)与BGV(j2)中，作为其待选背景模型；

（7）计算所有摘要基本段V_j对应的最佳背景模型，BGV(j)中第k个背景模型BGV(j,k)的重叠度为CRV_j(k)，选择其中重叠度最低的背景模型作为摘要基本段的最佳背景模型，

{CRV}_{j} (k) = 1 - \frac{Σ_{s = 1}^{nb} | BGV (j, k) - BGV (j, s) |}{W * H * nb}

W与H为背景图像的宽和高，nb为BGV(j)中背景模型的个数。

3.如权利要求1所述的一种基于对象内容的双层监控视频摘要生成方法，

其特征在于：所述步骤2）包括对视频分段部分得到的视频基本段与目标密集视频段分别进行基于多特征融合的运动目标检测与跟踪，并获得该视频段内的M个目标的轨迹序列集合

第m个目标的轨迹是TR_m：

TR_m=<B_m，F_s，F_e>

其中B_m是该目标从起始帧F_s到终止帧F_e内所有的边界矩形。

4.如权利要求1所述的一种基于对象内容的双层监控视频摘要生成方法，其特征在于：所述步骤3）包括以下步骤：

（1）生成融合记分板

每一摘要视频帧k的融合记分板CB_k(i,j)表示(i,j)位置发生融合的目标数量，遍历每视频摘要帧k的融合目标的边缘矩形，得出CB_k(i,j)；

（2）动态融合系数生成

（2a）对每一摘要帧k计算融合结果，若CB_k(i,j)为0，则摘要结果视频帧RE_k(i,j)的像素值为BGV_be(i,j)；

（2b）若CB_k(i,j)为1，计算若CB_k(i,j)的行百分比RowPer与列百分比ColPer：

RowPer=DR/(Height/2)

ColPer=DC/(Width/2)

对于矩形内任一点(i,j)，

DR=|j-y-Height/2|

DC=|i-x-Width/2|

则摘要结果帧中该位置权重背景权重WBg(i,j)，目标权重WO(i,j)为：

WBg(i,j)=1-MAX(RowPer,ColPer)

WO(i,j)=1-WBg(i,j)

RE_k(i,j)=WBg(i,j)*BGV_be(i,j)+WO(i,j)*FO_m(i,j)

其中，FO_m(i,j)为融合目标在原始视频中位置(i,j)的像素值；

（2c）若CB_k(i,j)大于1，计算摘要结果帧像素值RE_k(i,j)：

{RE}_{k} (i, j) = Σ_{m = 1}^{{CB}_{k} (i, j)} {WO}_{m} (i, j) * {FO}_{m} (i, j)

{WO}_{m} (i, j) = \frac{| {FO}_{m} (i, j) - {BGV}_{be} (i, j) |}{Σ_{t = 1}^{{CB}_{k} (i, j)} | {FO}_{t} (i, j) - {BGV}_{be} (i, j) |} .

F待搜索目标运动过程中与其他目标发生接触。

5.如权利要求1所述的一种基于对象内容的双层监控视频摘要生成方法，其特征在于：所述步骤5）包括以下步骤：

（1）生成关键特征图：

对于所有的目标轨迹序列集合

（2）获取用户输入的语义搜索条件；

（3）搜索与待搜索图像匹配的目标轨迹；

（4）搜索与待搜索目标主体颜色匹配的目标轨迹；

（5）搜索在场景中持续逗留时间为T秒的目标，并将搜索结果返回为候选目标；

（6）搜索越过用户指定的直线位置的目标，返回后供用户查阅；

（7）搜索进入用户指定的矩形区域的目标，并返回所有进入用户指定的矩形区域的目标给用户查阅；

（8）搜索与其他目标发生接触的目标，并返回所述与其他目标发生接触的目标并供用户查阅。

6.如权利要求6所述的一种基于对象内容的双层监控视频摘要生成方法，其特征在于：所述步骤5）中步骤（1）包括以下步骤：

（1a）计算每个边界矩形的

的关键度

\overset{&OverBar;}{A} = \frac{1}{m_{T_{i}}} \times Σ_{1}^{m_{T_{i}}} A_{i}^{j}

其中

为目标

中心的x轴坐标，为目标

中心的y轴坐标，Nc为与

在轨迹提取过程中发生碰撞合并的目标的边界矩形数，

为目标边界矩形

的面积；

（1b）求目标关键特征图BL_m

第m个目标的轨迹TR_m的关键特征图BL_m是其所有的边界矩形中

对应的目标。

7.如权利要求6所述的一种基于对象内容的双层监控视频摘要生成方法，其特征在于：所述步骤5）中步骤（3）包括以下步骤：

（3a）计算待搜索图像与每个目标的关键特征图BL_m的RGB颜色直方图:{H_r,H_g,H_b}，其中，H_r={h_ri}，H_g={h_gi}，H_b={h_bi}，且，ri、gi和bi分别为RGB三个直方图的灰度级数，取值范围均为[0，255]，h_ri、h_gi和h_bi分别为对应灰度级数的像素个数；

（3b）归一化颜色直方图；

令直方图{H_r,H_g,H_b}归一化后为