CN103793477A

CN103793477A - 用于生成视频摘要的系统及方法

Info

Publication number: CN103793477A
Application number: CN201410011112.7A
Authority: CN
Inventors: 史方; 胡韦伟; 金明
Original assignee: Tong Wei Technology (shenzhen) Co Ltd
Current assignee: Tong Wei Technology (shenzhen) Co Ltd
Priority date: 2014-01-10
Filing date: 2014-01-10
Publication date: 2014-05-14
Anticipated expiration: 2034-01-10
Also published as: CN103793477B

Abstract

本发明提供了一种用于生成视频摘要的系统，包括轨迹提取单元、轨迹重排单元以及摘要创建单元，其中：所述轨迹提取单元，用于根据原始视频中前后图像帧的帧间梯度信息提取图像帧中的前景目标，并保存前景目标的运动轨迹及对应的时间；所述轨迹重排单元，用于将所有前景目标的运动轨迹进行时域和空域重排；所述摘要创建单元，用于根据重排顺序，将所有前景目标的运动轨迹通过无缝拼接生成视频摘要。本发明还提供一种对应的方法。本发明通过将前景目标的运行轨迹在空域和时域上重排，可大大提高视频摘要中的信息量，从而大大删减原始视频中的冗余信息。

Description

用于生成视频摘要的系统及方法

技术领域

本发明涉及视频处理领域，更具体地说，涉及一种用于生成视频摘要的系统及方法。

背景技术

随着多媒体技术、视频采集技术、互联网应用的不断加深，以及图像压缩编码与流媒体技术的逐步发展，使得视频图像业务在日常生活中的应用越来越广泛，例如安防视频监控等。

然而，在一些视频中（例如安防监控视频等），往往只有很少一部分信息有用，而在该段视频里寻找出有用的信息需要花费大量的时间。为了有效提升视频查看的效率，出现了视频摘要技术。视频摘要，即以自动或半自动的方式对视频的结构和内容进行分析，从原视频中提取出感兴趣的部分，并将它们重新组合，以简洁的摘要方式呈现出来。比如：在安防场景中，通过视频摘要技术，将几小时甚至几十小时的录像内容放置到几分钟的视频中，从而大大节省了查看视频的时间。

目前的视频摘要技术主要有两大类方法：基于关键帧（静态）的方法和基于对象（动态）的方法。这两类方法都是缩短视频长度的有效方法，其中基于关键帧的方法通过选择一系列的关键帧组成相应的语义单元来表现视频；而基于对象的方法则是由能够表达原始视频内容的许多重要的小片段组成。

基于对象的方法在对视频中感兴趣对象的检测、分割的基础上，选择合适的算法，通过最大限度的减少时间-空间冗余来进行摘要浓缩，因而生成视频的动态表现力要远强于基于关键帧的方法。

发明内容

本发明要解决的技术问题在于，针对上述视频摘要中冗余信息较多的问题，提供一种用于生成视频摘要的系统及方法。

本发明解决上述技术问题的技术方案是，提供一种用于生成视频摘要的系统，包括轨迹提取单元、轨迹重排单元以及摘要创建单元，其中：所述轨迹提取单元，用于根据原始视频中前后图像帧的帧间梯度信息提取图像帧中的前景目标，并保存由多个图像帧中的前景目标构成的所述前景目标的运动轨迹及对应的时间；所述轨迹重排单元，用于将所有前景目标的运动轨迹进行时域和空域重排，其中至少一个前景目标的运行轨迹重排到第一区域、至少一个前景目标的运行轨迹重排到第二区域，在所述原始视频中所有的前景目标位于所述第一区域；所述摘要创建单元，用于根据重排顺序，将所有前景目标的运动轨迹通过无缝拼接生成视频摘要。

在本发明所述的用于生成视频摘要的系统中，所述轨迹重排单元包括区域识别子单元、第一重排子单元和第二重排子单元，其中：所述区域识别子单元，用于识别原始视频中的第一区域及第二区域，在所述原始视频中所有的前景目标位于所述第一区域、且在所述原始视频中第二区域中无前景目标；所述第一重排子单元用于在所有运动轨迹中选择第一组前景目标的运动轨迹，并将该组前景目标的运动轨迹重排到第一区域，所述第一组前景目标中包括至少一个前景目标的运行轨迹；所述第二重排子单元用于在剩余的前景目标的运行轨迹中选择第二组前景目标的运行轨迹，并将该组前景目标的运行轨迹重排到第二区域。

在本发明所述的用于生成视频摘要的系统中，所述区域识别子单元将原始视频的所有图像帧中都无前景目标的区域识别为背景区域，并使所述第二区域位于该背景区域内、使所述第一区域位于该背景区域外或部分位于该背景区域内，且所述第一区域和第二区域的范围动态变化。

在本发明所述的用于生成视频摘要的系统中，所述摘要创建单元在创建视频摘要时使用原始视频中该第一区域的背景作为视频摘要中的第一区域的背景，并使用原第一区域或第一区域的一部分的背景替换第二区域的背景使用。

在本发明所述的用于生成视频摘要的系统中，所述摘要创建单元在创建视频摘要时，使所述视频摘要中的第二区域的背景及前景目标的显示比例小于1:1，并使所述第二区域的背景及前景目标的轨迹相对原始视频旋转-45度～+45度。

本发明还提供一种用于生成视频摘要的方法，包括以下步骤：

（a）根据原始视频中前后图像帧的帧间梯度信息提取图像帧中的前景目标，并保存由多个图像帧中的前景目标构成的所述前景目标的运动轨迹及对应的时间；

（b）将所有前景目标的运动轨迹进行时间和空域重排，其中至少一个前景目标的运行轨迹重排到第一区域、至少一个前景目标的运行轨迹重排到第二区域，在所述原始视频中所有的前景目标位于所述第一区域；

（c）根据重排顺序，将所有前景目标的运动轨迹通过无缝拼接生成视频摘要。

在本发明所述的用于生成视频摘要的方法中，所述步骤（b）包括：

（b1）识别原始视频中的第一区域及第二区域，在所述原始视频中所有的前景目标位于所述第一区域、且在所述原始视频中第二区域中无前景目标；

（b2）在所有运动轨迹中选择第一组前景目标的运动轨迹，并将该组前景目标的运动轨迹重排到第一区域，所述第一组前景目标中包括至少一个前景目标的运行轨迹；

（b3）在剩余的前景目标的运行轨迹中选择第二组前景目标的运行轨迹，并将该组前景目标的运行轨迹重排到第二区域。

在本发明所述的用于生成视频摘要的方法中，所述步骤（b1）中包括：将原始视频的所有图像帧中都无前景目标的区域识别为背景区域，并使所述第二区域位于该背景区域内、使所述第一区域位于该背景区域外或部分位于该背景区域内，且所述第一区域和第二区域的范围动态变化。

在本发明所述的用于生成视频摘要的方法中，所述步骤（c）中的视频摘要中，所述第一区域的背景使用原始视频中该第一区域的背景，第二区域的背景使用原第一区域或第一区域的一部分的背景替换。

在本发明所述的用于生成视频摘要的方法中，所述步骤视频摘要中的第二区域的背景及前景目标的显示比例小于或等于1:1，且所述第二区域的背景及前景目标的轨迹相对原始视频旋转-45度～+45度。

本发明的用于生成视频摘要的系统及方法，通过将前景目标的运行轨迹在空域和时域上重排，可大大提高视频摘要中的信息量，从而大大删减原始视频中的冗余信息。

附图说明

图1是本发明用于生成视频摘要的方法实施例的示意图。

图2是图1中的用于生成视频摘要的方法空域重排的示意图。

图3是图1中的用于生成视频摘要的方法另一空域重排的示意图。

图4是图1中的用于生成视频摘要的方法又一空域重排的示意图。

图5是图1中的用于生成视频摘要的方法时域重排的示意图。

图6是本发明用于生成视频摘要的系统实施例的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，是本发明用于生成视频摘要的方法实施例的示意图，该方法用于将播放时间较长的原始视频转换为具有较短播放时间的视频摘要，且保留原始视频中的有用信息。该方法包括以下步骤：

步骤S31：根据原始视频中前后图像帧的帧间梯度信息提取图像帧中的前景目标，并保存由多个图像帧中的前景目标构成的所述前景目标的运动轨迹及对应的时间。

在判断图像帧中前景目标时，可通过对原始视频数据进行背景建模实现。例如，当图像平面上的一给定像素点s=(x,y)，亮度函数为Ｉ，其历史数据记为{I1，I2，…，It-1}，可通过混合高斯模型使用Ｋ个高斯分布来表征该像素点的特征，并通过对其在线更新来表征背景的渐变。具体可定义当前像素点的概率密度函数为该Ｋ个高斯模型的概率密度函数的加权和，如下式所示：

P (I_{t}) = Σ_{i = 1}^{K} ω_{i, t} \cdot η_{i} (I_{t}, μ_{i, t}, σ_{i, t})

其中，Ｋ为高斯混合模型中高斯分布的个数，ω_i,t为t时刻第i个高斯分布的权值，η_i为第i个高斯分布的概率密度函数，μ_i,t为其均值，σ_i,t为其方差。

随着时间的推移，高斯混合模型也被不断的更新以适应背景的变化。该背景模型的初始化和更新过程如下：首先对3个高斯分布进行初始化，例如将原始视频中最初5帧的亮度值设为其均值，方差初始化为一个较大的值(如125)，而权值初始化为1/3；然后将3个高斯分布按ω/σ从大到小排序，并依次与当前像素点进行匹配，若第j个模型满足

则认为当前像素点与第j个分布匹配成功，并中止与后续模型的匹配，其中，当匹配阈值β设为1.29时，可使模型匹配的置信度达90%以上；最后根据当前像素与其3个高斯分布相匹配的结果对模型进行更新，对于未匹配上的模型，其均值和方差应保持不变，而匹配成功的第j个模型按下列方式更新

\{\begin{matrix} μ_{t} = (1 - α) \cdot μ_{t - 1} + α \cdot I_{t} \\ σ_{t}^{2} = (1 - α) \cdot σ_{t - 1}^{2} + α \cdot {(μ_{t} - I_{t})}^{2} \end{matrix},

式中：α为学习速率，它反映了当前像素融入背景模型的速率。

3个高斯分布的权值调整用公式表示为：ω_n,t=(1-α)·ω_n,t-1+α·M_n,tn∈[1,3]其中，

M_{n, t} = \{\begin{matrix} 1 & n = j \\ 0 & else \end{matrix} .

如果3个模型均不与当前观测值匹配，则取当前观测值为均值，给定一个较大的值为方差(如125)，构造一个新的高斯分布，替代ω/σ最小的分布i，用公式表示为：

\{\begin{matrix} μ_{i, t} = I_{t} \\ ω_{i, t} = ω_{i, t - 1} \\ σ_{i, t} = 125 \end{matrix} .

在完成背景模型建立后，需结合帧间信息对前景目标（即感兴趣的目标，例如视频监控系统中的运动物体）。由于在对每个像素点建立的混合高斯模型中，其中只有一个或者多个高斯分布代表背景，其它的代表前景目标（或曾经出现过的前景目标）。与背景相比，前景目标出现的时间一般较短，权重较小，所以高斯混合模型中代表背景的高斯分布是那些权重较大的分布。基于此，从混合高斯模型中选择代表背景的高斯分布时，可先将3个高斯分布按ω/σ从大到小排列，再用下式选择代表背景的高斯分布的个数b：

其中，Ｔ代表在整个视频中背景出现的概率，例如可以取为0.6。

由于梯度信息表征的是物体的结构特性，而物体的结构并不会随着光照的变化而变化，因此在背景点处，帧间的梯度并没有明显变化，而前景目标点处，由于物体发生了改变，所以结构也就发生了变化，相应的梯度也就发生了很大改变。可通过比较当前帧与其前第5帧的梯度进行背景判断，即梯度相近的点重新判为背景。为了克服只与一帧比较产生的偶然性，可选取多帧（前第5、10、15、20、25帧）与当前帧比较，从而提高背景判断的准确性。判断过程具体如下：

首先，在预分割二值图的前景位置S(x,y)处，设S_t是当前帧该位置处的像素点，而S_t-n·Δt　(n∈[1,5])是对应此位置处前第5、10、15、20、25等帧的梯度，梯度向量表示为V_t(s)=(V_x,V_y)，其中

此处的偏导数使用Sobel算子生成。

然后分别计算当前帧与这些帧的帧间梯度相关性，用函数来表示为：C(s_t,s_t-n·Δt)=V_t(s)·V_t-n·Δt(s)=||V_t(s)||·||V_t-n·Δt(s)||·cosθn∈[1,5]，其中θ代表两个向量间的夹角。

同样地，梯度向量的自相关函数可定义为：C(s_t,s_t)=V_t(s)·V_t(s)=||V_t(s)||²，而C(s_t,s_t)+C(s_t-n·Δt,s_t-n·Δt)≥2||V_t(s)||·||V_t-n·Δt(s)||≥2C(s_t,s_t-n·Δt)n∈[1,5]，假设n=1时，S_t-Δt是对应于此位置处的前第5帧的像素点。如果此点处是被误判为前景目标的背景点，那么S_t和S_t-Δt的局部纹理特征是相似的，此时满足：C(s_t,s_t)+C(s_t-n·Δt,s_t-n·Δt)≈2C(s_t,s_t-n·Δt)n∈[1,5]。另一方面,如果该点是真正的前景目标，此时它们是来自于不同物体的表面，S_t和S_t-Δt通常有很大的差别，此时满足：C(s_t,s_t)+C(s_t-n·Δt,s_t-n·Δt)>>2C(s_t,s_t-n·Δt)n∈[1,5]。因此，两像素的帧间梯度相似性定义为：

R_{S} (s_{t}, s_{t - n \cdot Δt}) = 1 - \frac{2 C (s_{t}, s_{t - n \cdot Δt})}{C (s_{t}, s_{t}) + C (s_{t - n \cdot Δt}, s_{t - n \cdot Δt})} n &Element; [1,5]

根据经验取R_s的阈值为0.2。如果R_s(s_t,s_t-n·Δt)<0.2，则称该点的帧间梯度相似，否则认为不相似。

同样的方法，可以计算当前帧与前第10、15、20、25帧之间的梯度相关性。当帧间梯度相似次数大于2时，将该点改判为背景，并在二值图中重新置为0；否则，该点仍被判为前景目标，在二值图中仍为1。

前景目标的运行轨迹由连续多帧中的前景目标构成，即前景目标的运行轨迹可通过获得前后多帧中的前景目标实现。为提高效率，可通过Mean-Shift跟踪算法来获得帧间的前景目标。

Mean-Shift跟踪算法是基于目标区域RGB颜色的直方图分布，其根据权值进行质心的均值漂移。假设物体（即前景目标）中心位于x₀点，用

表示前景目标区域的色彩直方图，

表示预测区域的色彩直方图。

{\hat{q}}_{u} = C Σ_{i - 1}^{n} k ({| | \frac{x_{i}^{s} - x_{0}}{h} | |}^{2}) δ [b (x_{i}^{s}) - u] - - - (1)

{\hat{p}}_{u} (y) = C_{h} Σ_{i = 1}^{n_{h}} k ({| | \frac{x_{i}^{s} - y}{h} | |}^{2}) δ [b (x_{i}^{s}) - u] - - - (2)

由于离中心距离越近的采样点对估计x₀周围的统计特性越有效，可引入k(x)核函数，h为带宽。

是克罗内科函数，即

δ [n] = \{\begin{matrix} 1, & n = 0 \\ 0, & n &NotEqual; 0 \end{matrix} .

式中

是区域内各像素点位置，

为像素

处的颜色子空间索引值，u是所包含的颜色子空间索引值。即将各点的像素值归于各自对应的直方图区间内。C是归一化常量。然后物体跟踪可简化为寻找最优的y，使得和

最相似。可以用Bhattacharyya系数

来度量分布，即

\hat{ρ} (y) = ρ [p (y), q] = Σ_{u = 1}^{m} \sqrt{p_{u} (y) q_{u}} - - - (3)

式（3）在上一帧在

处泰勒展开可得，

ρ [p (y), q] \approx \frac{1}{2} Σ_{u = 1}^{m} \sqrt{p_{u} (y_{0}) q_{u}} + \frac{1}{2} Σ_{u = 1}^{m} p_{u} (y) \sqrt{\frac{q_{u}}{p_{u} (y_{0})}} - - - (4)

把式（2）带入上式，整理可得，

ρ [p (y), q] \approx \frac{1}{2} Σ_{u = 1}^{m} \sqrt{p_{u} (y_{0}) q_{u}} + \frac{C_{h}}{2} Σ_{i = 1}^{n_{h}} w_{i} k ({| | \frac{y - x_{i}}{h} | |}^{2}) - - - (5)

其中

由于式（5）中第一项为定值，第二项最大时，式（5）处于最大值。

根据Mean-Shift向量的基本形式

均值漂移矢量可以扩展为式（6）：

{\hat{y}}_{1} = \frac{Σ_{i = 1}^{n_{h}} x_{i} w_{i} g ({| | \frac{y_{0} - x_{i}}{h} | |}^{2})}{Σ_{i = 1}^{n_{h}} w_{i} g ({| | \frac{y_{0} - x_{i}}{h} | |}^{2})} - - - (6)

即为均值漂移后新的窗口中心，其中g(x)=-k′(x)，得到新位置后，再以新位置为基点进行Mean-Shift迭代，直至得到最优的目标位置，在通常情况下只需用平均每帧图像4、5次迭代就可以收敛。

当然，在具体实现时，原始视频中的前景目标及其运行轨迹的的识别和获取也可采用现有的其他方法。

步骤S12：将所有前景目标的运动轨迹进行时域和空域重排，其中至少两个不同时间的前景目标的运行轨迹重排到第一区域（在极端情况下，有可能存在第一区域仅重排一个前景目标的运动轨迹的情况，例如前景目标离摄像头的距离较近，其运行轨迹占据了整个图像帧的50%以上）、至少一个前景目标的运行轨迹重排到第二区域，在所述原始视频中所有的前景目标位于第一区域。

在本实施例中，可通过能量优化法对步骤S11中保存的运动轨迹进行三维时空重排，即针对空域和时域里分别用能量优化法进行位置排列。例如首先识别原始视频中的第一区域及第二区域（在原始视频中所有的前景目标位于所述第一区域、且在原始视频中第二区域中无前景目标）；然后在所有运动轨迹中选择第一组前景目标的运动轨迹，并将该组前景目标的运动轨迹重排到第一区域，该第一组前景目标中包括至少两个不同时间的前景目标的运行轨迹（在极端情况下，有可能存在第一组前景目标仅包括一个前景目标的运动轨迹的情况，例如前景目标离摄像头的距离较近，其运行轨迹占据了整个图像帧的50%以上）；最后，在剩余的前景目标的运行轨迹中选择第二组前景目标的运行轨迹，并将该组前景目标的运行轨迹重排到第二区域。

在空域内对前景目标运动轨迹进行重排时，可将运动轨迹在同一平面内不同位置进行平移、旋转、缩放等仿射变换，如图2-4所示的第二区域的前景目标的运行轨迹。

在空域重排时，除了可进行仿射变换之外，还可以根据场景情况自适应的确定目标位置（例如可根据场景情况对第一区域和第二区域的范围进行调整，即第一区域和第二区域的范围动态变化），具体确定位置的方式可采用多分辨率搜索从粗到细的方式：先在较粗的尺度上搜索所有可能的位置，然后在较细的尺度上搜索局部区域确定最终的位置。具体可以用如下方式刻化：

Δ E_{O} (x_{j}) = \underset{p &Element; V_{O}}{Σ} {E (p - x_{j}) - E_{O} (p)}

ΔE_O(x_j)表示输出视频的能量增益；最优位置p通过下式最大化增益的方式找到：

x = \underset{x}{\arg \max} {Δ E_{O} (x)},

如图5所示。

在时域重排时，必须限制不同目标运动轨迹重排后的重叠，具体可通过下面的能量函数来刻画对一组目标的运动轨迹进行重排后造成的能量损失，该函数为：E(M,B)=E_a+αE_O。

E_{a} = \underset{b}{Σ} # b - \underset{b &Element; B}{Σ} # b

其中：

Ea表示轨迹重排造成的能量损失；Eo表示不同运动轨迹重叠造成的能量损失；α表示惩罚系数，轨迹重叠的越多惩罚越大。M表示时空重排操作，B表示最终确定的一个轨迹排列；Src(x,y,t)是最终视频摘要中的每个像素，b是从视频中提取出来的前景目标的运动轨迹的像素。

步骤S13：根据重排顺序，将所有前景目标的运动轨迹通过无缝拼接生成视频摘要。在该步骤中，为避免根据不同前景目标的运动轨迹拼接成最后的视频摘要时出现的一些明显的痕迹，可采用加权平均的方法使图像拼接看起来更加自然。上述权值大小与每幅原始视频图像到背景图像的RGB颜色空间距离成比例。

在上述视频摘要中，第一区域的背景使用原始视频中该第一区域的背景，第二区域的背景使用原第一区域或第一区域的一部分的背景替换。并且该视频摘要中的第二区域的背景及前景目标的显示比例小于或等于1:1，且第二区域的背景及前景目标的轨迹相对原始视频旋转-45度～+45度，即第二区域中的背景的显示效果与前景目标的运动轨迹重排时的平移、旋转、缩放等仿射变换处理相一致。

本发明还提供一种用于通过上述方法生成视频摘要的系统，如图6所示。本实施例中的生成视频摘要的系统包括轨迹提取单元61、轨迹重排单元62以及摘要创建单元63，上述轨迹提取单元61、轨迹重排单元62以及摘要创建单元63可由计算机软件结合特定计算机硬件设备构成。

轨迹提取单元61用于根据原始视频中前后图像帧的帧间梯度信息提取图像帧中的前景目标，并保存由多个图像帧中的前景目标构成的所述前景目标的运动轨迹及对应的时间。

轨迹重排单元62用于将所有前景目标的运动轨迹进行时域和空域重排，其中至少两个不同时间的前景目标的运行轨迹重排到第一区域（在极端情况下，有可能存在第一区域仅重排一个前景目标的运动轨迹的情况，例如前景目标离摄像头的距离较近，其运行轨迹占据了整个图像帧的50%以上）、至少一个前景目标的运行轨迹重排到第二区域，在所述原始视频中所有的前景目标位于所述第一区域。该轨迹重排单元62可通过能量优化法保存的前景目标运动轨迹进行三维时空重排，即针对空域和时域里分别用能量优化法进行位置排列。

具体地，该轨迹重排单元62可包括区域识别子单元、第一重排子单元和第二重排子单元，其中：区域识别子单元用于识别原始视频中的第一区域及第二区域，在原始视频中所有的前景目标位于所述第一区域、且在原始视频中第二区域中无前景目标；第一重排子单元用于在所有运动轨迹中选择第一组前景目标的运动轨迹，并将该组前景目标的运动轨迹重排到第一区域，第一组前景目标中包括至少两个不同时间的前景目标的运行轨迹（在极端情况下，有可能存在第一组前景目标仅包括一个前景目标的运动轨迹的情况，例如前景目标离摄像头的距离较近，其运行轨迹占据了整个图像帧的50%以上）；第二重排子单元用于在剩余的前景目标的运行轨迹中选择第二组前景目标的运行轨迹，并将该组前景目标的运行轨迹重排到第二区域。

特别地，轨迹重排单元62在空域内对前景目标运动轨迹进行重排时，可将运动轨迹在同一平面内不同位置进行平移、旋转、缩放等仿射变换，如图2-4所示的第二区域的前景目标的运行轨迹。而在时域重排时，必须限制不同目标运动轨迹重排后的重叠。

摘要创建单元63用于根据重排顺序，将所有前景目标的运动轨迹通过无缝拼接生成视频摘要。该摘要创建单元63在创建视频摘要时使用原始视频中该第一区域的背景作为视频摘要中的第一区域的背景，并使用原第一区域或第一区域的一部分的背景替换第二区域的背景使用。

并且上述摘要创建单元63在创建视频摘要时，可使视频摘要中的第二区域的背景及前景目标的显示比例小于1:1，并使第二区域的背景及前景目标的轨迹相对原始视频旋转-45度～+45度。

上述系统中还可包括背景建模单元，该背景建模单元用于对原始视频数据进行背景建模，获得每一像素点的概率密度函数；而轨迹提取单元61通过概率密度函数确认像素点是否为前景目标，并通过目标分割等实现原始视频前景目标及运行轨迹的识别和获取。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种用于生成视频摘要的系统，其特征在于：包括轨迹提取单元、轨迹重排单元以及摘要创建单元，其中：所述轨迹提取单元，用于根据原始视频中前后图像帧的帧间梯度信息提取图像帧中的前景目标，并保存由多个图像帧中的前景目标构成的所述前景目标的运动轨迹及对应的时间；所述轨迹重排单元，用于将所有前景目标的运动轨迹进行时域和空域重排，其中至少一个前景目标的运行轨迹重排到第一区域、至少一个前景目标的运行轨迹重排到第二区域，在所述原始视频中所有的前景目标位于所述第一区域；所述摘要创建单元，用于根据重排顺序，将所有前景目标的运动轨迹通过无缝拼接生成视频摘要。

2.根据权利要求1所述的用于生成视频摘要的系统，其特征在于：所述轨迹重排单元包括区域识别子单元、第一重排子单元和第二重排子单元，其中：所述区域识别子单元，用于识别原始视频中的第一区域及第二区域，在所述原始视频中所有的前景目标位于所述第一区域、且在所述原始视频中第二区域中无前景目标；所述第一重排子单元用于在所有运动轨迹中选择第一组前景目标的运动轨迹，并将该组前景目标的运动轨迹重排到第一区域，所述第一组前景目标中包括至少一个前景目标的运行轨迹；所述第二重排子单元用于在剩余的前景目标的运行轨迹中选择第二组前景目标的运行轨迹，并将该组前景目标的运行轨迹重排到第二区域。

3.根据权利要求2所述的用于生成视频摘要的系统，其特征在于：所述区域识别子单元将原始视频的所有图像帧中都无前景目标的区域识别为背景区域，并使所述第二区域位于该背景区域内、使所述第一区域位于该背景区域外或部分位于该背景区域内，且所述第一区域和第二区域的范围动态变化。

4.根据权利要求1所述的用于生成视频摘要的系统，其特征在于：所述摘要创建单元在创建视频摘要时使用原始视频中该第一区域的背景作为视频摘要中的第一区域的背景，并使用原第一区域或第一区域的一部分的背景替换第二区域的背景使用。

5.根据权利要求4所述的用于生成视频摘要的系统，其特征在于：所述摘要创建单元在创建视频摘要时，使所述视频摘要中的第二区域的背景及前景目标的显示比例小于或等于1:1，并使所述第二区域的背景及前景目标的轨迹相对原始视频旋转-45度～+45度。

6.一种用于生成视频摘要的方法，其特征在于：包括以下步骤：

（b）将所有前景目标的运动轨迹进行时域和空域重排，其中至少一个前景目标的运行轨迹重排到第一区域、至少一个前景目标的运行轨迹重排到第二区域，在所述原始视频中所有的前景目标位于所述第一区域；

7.根据权利要求6所述的用于生成视频摘要的方法，其特征在于：所述步骤（b）包括：

8.根据权利要求7所述的用于生成视频摘要的方法，其特征在于：所述步骤（b1）中包括：将原始视频的所有图像帧中都无前景目标的区域识别为背景区域，并使所述第二区域位于该背景区域内、使所述第一区域位于该背景区域外或部分位于该背景区域内，且所述第一区域和第二区域的范围动态变化。

9.根据权利要求6所述的用于生成视频摘要的方法，其特征在于：所述步骤（c）中的视频摘要中，所述第一区域的背景使用原始视频中该第一区域的背景，第二区域的背景使用原第一区域或第一区域的一部分的背景替换。

10.根据权利要求6所述的用于生成视频摘要的方法，其特征在于：所述步骤视频摘要中的第二区域的背景及前景目标的显示比例小于或等于1:1，且所述第二区域的背景及前景目标的轨迹相对原始视频旋转-45度～+45度。