CN106210444A

CN106210444A - 运动状态自适应关键帧提取方法

Info

Publication number: CN106210444A
Application number: CN201610516740.XA
Authority: CN
Inventors: 张云佐
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2016-12-07
Anticipated expiration: 2036-07-04
Also published as: CN106210444B

Abstract

本发明公开了一种运动状态自适应关键帧提取方法，涉及图像处理方法技术领域。所述方法包括如下步骤：视频序列的运动片段分割；在分割后的视频运动片段中提取时空切片；使用时空切片构建STS‑CS模型来检测视频运动片段中的目标运动状态；根据目标运动状态的改变绘制视觉注意力曲线；根据视觉注意力曲线提取关键帧。所述方法能够全面、高效的捕捉到目标运动状态改变，且提取的关键帧更准确。

Description

运动状态自适应关键帧提取方法

技术领域

本发明涉及图像处理方法技术领域，尤其涉及一种运动状态自适应关键帧提取方法。

背景技术

随着视频数据的爆炸式增长，快速、准确地分析和浏览视频已经成为一个迫切需要解决的问题，此问题在视频监控应用中尤为突出。关键帧提取作为一个可行的解决方案越来越得到人们的关注。关键帧的评估主要是看其是否能够全面、准确的再现原视频中的主要事件，在保证提取全面的前提下，尽量降低冗余。

目前广泛应用的关键帧提取算法通常是基于视频的底层特征分析的，以单帧或少量帧的内容特征(颜色、形状、运动等特征)变化为准则进行关键帧提取。但是由于缺乏完整的时间维度的特征分析，难以从整体上把握关键帧的提取数量以及确定关键帧位置，容易受到环境变化、目标姿态变化、目标遮挡等干扰造成运动目标漏检，进而导致真正的关键帧没有被提取到。视频细节语义的丢失不可避免。提取结果与视频的真实语义之间存在差别，不能全面、准确的反应视频的真实语义。也就是说，关键帧提取结果不符合人眼视觉感知。虽然当前视频高层语义的自动理解还很难实现，但已有一些基于视觉注意模型的关键帧提取方法。这些方法根据人眼视觉的注意力趋向来提取关键帧，而不涉及其它附加信息，因此、关键帧提取结果与人眼视觉感知高度一致。但是计算人眼视觉注意力模型需要付出高昂的计算代价，致使此类方法在实际中的应用受到限制。在不丢失视频语义信息的基础上，快速、准确的提取关键帧具有重要的研究意义和现实需求。

发明内容

本发明所要解决的技术问题是提供一种运动状态自适应关键帧提取方法，所述方法能够全面、高效的捕捉到目标运动状态改变，且提取的关键帧更准确。

为解决上述技术问题，本发明所采取的技术方案是：一种运动状态自适应关键帧提取方法，其特征在于所述方法包括如下步骤：

1)视频序列的运动片段分割；

2)在分割后的视频运动片段中提取时空切片；

3)使用时空切片构建STS-CS模型来检测视频运动片段中的目标运动状态；

4)根据目标运动状态的改变绘制视觉注意力曲线；

5)根据视觉注意力曲线提取关键帧。

进一步的技术方案在于：所述方法在步骤5)之后还包括：

6)对所提取的关键帧进行精简与优化，形成最终的关键帧。

进一步的技术方案在于：所述步骤1)中视频序列中运动片段的分割采用基于视觉感知能量的运动片段检测方法进行。

进一步的技术方案在于：所述步骤2)中根据视频场景的先验信息确定时空切片的数目，如果运动目标较大，并且占据了大部分的视频高度，选择在视频中间位置提取时空切片；如果运动目标只出现在部分监视区域中，则只在运动区域内提取时空切片；在对运动目标的大小以及出现位置不确定的情况下，选择等间隔方法进行时空切片提取。

进一步的技术方案在于：步骤3)包括以下步骤：

3-1)去除运动片段的时空切片背景；

3-2)使用去除背景后的时空切片构建STS-CS模型来检测视频运动片段中的目标运动状态。

进一步的技术方案在于：所述步骤3-1)具体包括如下步骤：

切片的每一列视作一个高斯模型输入，模型参数逐列更新，高斯均值μ和方差δ²的更新公式为：

\{\begin{matrix} μ^{t + 1} = (1 - α) μ^{t} + α G_{B}^{t + 1} \\ {(δ^{2})}^{t + 1} = (1 - α) {(δ^{2})}^{t} + α (G_{B}^{t + 1} - μ^{t + 1}) {(G_{B}^{t + 1} - μ^{t + 1})}^{T} \end{matrix}

上式中：是运动片段切片中第t+1列的亮度，α是修正率，定义为：

α = \{\begin{matrix} 1 / M_{n}, & t < 200 \\ 0.005, & t &GreaterEqual; 200 \end{matrix}

上式中：M_n是匹配次数；

检测运动片段切片的每一像素I_p是否服从N(μ,δ)分布，然后前景运动轨迹T_f由以下公式计算得到：

T_{f} = \{\begin{matrix} 0, & I_{p} - N (μ, δ) \\ 1, & o t h e r s \end{matrix}

根据上式运动片段切片上的目标运动轨迹作为前景从直条纹切片背景中分离出来。

进一步的技术方案在于：所述步骤3-2)具体包括如下步骤：

使用改进的基于Hough变换的分段检测方法来检测目标运动轨迹，考虑到垂直方向的直线段运动轨迹，直线段的极坐标公式定义为：

ρ＝xsinθ-ycosθ,θ∈[0,π]

位于聚类中心的局部极大值被用于构建STS-CS模型。

进一步的技术方案在于：构建STS-CS模型的方法如下：

STS-CS模型涉及到四个必需的模型参数：起点c_s，终点c_e，直线段斜率和直线段长度c_l，那么，STS-CS模型可以表示为：

四个模型参数之间的关系可以表示为：

c_l＝|c_e-c_s|

上式中：c_s1，c_s2分别是起点c_s的水平坐标和垂直坐标，相似的，c_e1，c_e2分别是终点c_e的水平坐标和垂直坐标；

如果目标在运动过程中停止了一段时间，那么这段停止时间内的STS-CS模型可以表示为：

(c_s,c_e,0,c_l)。

进一步的技术方案在于：步骤4)-5)包括以下步骤：

为了测量目标运动状态的改变程度，定义了偏离角的概念，即STS-CS模型中两个相连的直线段的夹角；偏离角越大，目标运动状态改变的越剧烈，也就更能吸引人的注意；据此，第F_i帧的视觉注意力A可以由以下公式计算得到：

A (F_{i}) = Σ_{j = 1}^{Q} {(w_{j} | θ_{j} |)}_{F_{i}}, i &Element; [1, L]

上式中：θ表示偏离角，L表示视频序列的帧的数目，Q表示当前的视频帧的运动目标的数目，w是一个与运动目标的大小有关的权值常量。

根据上式，计算每一视频帧的视觉注意力值，然后把这些值连接起来形成注意力曲线；

注意力曲线的峰值对应着目标运动状态的改变点(*)；没有目标运动状态改变的视频帧的注意力值为0；注意力值随着目标运动状态的改变程度而自适应的改变，目标运动状态改变的程度越大，注意力值就越大，反之亦然；

如果有多个目标的运动状态改变发生在同一视频帧内，则此视频帧的注意力值是所有偏离角的总和；对应于注意力曲线峰值的视频帧，即包含有目标运动状态改变，被提取为视频关键帧。

进一步的技术方案在于：步骤6)包括以下步骤：

连续的两个关键帧的峰值信噪比PSNR定义为：

P S N R = 10 \log_{10} [\frac{I_{\max}^{2}}{\frac{1}{H \times W} Σ_{i = 0}^{H - 1} Σ_{j = 0}^{W - 1} {| f_{k + 1} (i, j) - f_{k} (i, j) |}^{2}}]

上式中：I_max和H×W分别是最大像素亮度值和关键帧的大小；

定义PSNR高于30dB的连续关键帧为相似关键帧，根据上式计算出所有的位置相邻的关键帧的PSNR，并且用F或者T进行标记，F代表着两个相似的关键帧，T表示是不相似的关键帧；

一个单独的F代表着两个相似的关键帧，后面一个被去除；两个相邻的F代表着三个相似关键帧，前、后两帧被去除，而保留中间的关键帧；如果有多于2个的连续的F同时出现，只有第一个和最后一个关键帧保留，去除中间的所有的关键帧。

采用上述技术方案所产生的有益效果在于：将视频序列分割成了易管理、意义丰富的运动片段，视频数据量大大降低；STS-CS模型可以充分捕捉到目标运动状态的改变并提取关键帧，相邻两个关键帧之间的目标运动状态可以推断出来；关键帧的数量和位置分布随着目标运动状态的改变而自适应的动态变化；由于关键帧基于运动状态改变进行提取，并且采用视觉辨别机制对所提取的关键帧进行优化和精简，因此提取结果符合人眼视觉感知。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是一个STS-CS模型示例图；

图2是本发明所述提取方法的基本架构图；

图3是本发明中视觉感知能量的检测结果累积图；

图4a-4c是时空切片数目选取图；

图5是峰值聚类后的直线段轨迹检测结果示例图；

图6a是本发明所建立的STS-CS模型图；

图6b是注意力曲线图；

图7是连续关键帧的相似性示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明公开了一种全新的运动状态自适应的关键帧提取方法。首先，在视频运动片段中，目标运动状态的改变被建模成时空切片上的直线段模型，即STS-CS模型。然后，基于STS-CS模型，视频序列的目标运动状态映射成一条注意力曲线，用于提取关键帧。最后，采用视觉分辨机制来进一步精简和优化关键帧。在STS-CS模型中，直线段代表着目标处于稳定的运动状态(静止或者匀速直线运动)，而直线段的端点表明目标运动状态发生改变。具体地，直线段的起始点表明运动目标进入视频场景或者在视频场景中的静止目标开始运动，直线段的终点代表着运动目标离开视频场景或者在视频场景中的运动目标停止运动。如果某一直线段的终点同时也是另一条直线段的起点，则表明运动目标在当前时刻改变了运动速度或者运动方向。所有的这些目标运动状态的改变也正是人眼视觉所最为关注的，因此，基于STS-CS模型提取的视频关键帧符合人眼视觉感知。所提出的关键帧提取方法的一个鲜明的特点是运动状态自适应，也就是说所提取的视频关键帧的数量和分布位置随着目标运动状态的改变而自适应的改变。

关键帧定义为具有目标运动状态改变的视频帧。采用传统的光流分析方法计算运动状态改变虽然可以实现，但是计算量很大，难以满足实时性需求。时空运动轨迹可以准确的反应目标运动状态的改变，时空切片是一种高效的视频时空分析工具。基于这种考虑，建立了STS-CS模型来捕捉视频中的目标运动状态改变。

时空切片的纹理模式反应了视频中目标的运动状态，时空切片的选取角度不同，其所反映的目标运动信息也不同。对角线切片反映的是运动目标在斜向运动时的运动信息，在特定场景下才有所应用。垂直切片反映的是视频垂直区域的像素灰度变化趋势，主要应用于经过该区域的运动目标个数统计(如车辆数目统计)、水平运动的瞬时速度估计以及目标高度测量等，或者用于视频场景中垂直方向的运动目标检测和跟踪。水平时空切片包含有最为丰富的运动目标信息和场景变化信息，更重要的是其纹理能够反映出目标的运动轨迹。因此，本发明中的视频时空切片在视频帧的水平方向选取，无特殊说明时，视频时空切片均是指在水平方向提取的视频时空切片。

具体地，假设一视频序列V(x,y,t)的长度为L、视频帧大小为H×W，直接提取视频帧中间位置的像素行来组成视频时空切片，切片生成过程如下：

对于第i视频帧V_i，以图像左上角为坐标原点O，向右方向为X轴正向，向下方向为Y轴正向建立平面直角坐标系OXY，则图像水平方向的像素行表示为：

P_{i} : V_{i} (x, \frac{H}{2}), x = 1, 2, ..., W - - - (1)

按照公式(1)提取视频V(x,y,t)各帧的中间像素行，并依次排列便可以得到视频时空切片

对于处于(x,y)位置处的像素与视频V(x,y,t)中第x帧的(x,H/2)位置处的像素亮度值相等。Y方向上连续的像素点是同一帧的像素行上相邻的像素点，反应的是视频内容的空间相关性，X方向上连续的像素点则是连续视频帧的位置相同的像素点，反应的是视频内容的时间相关性。

不同的目标运动模式会在视频时空切片上留下不同的运动轨迹，当目标的运动状态(运动速度和运动方向)发生变化时，目标轨迹会呈现出弯曲的纹理，曲率的大小取决于运动速度变化率或运动方向变化率。变向运动由于运动方向的快速变化，会形成曲率较大的纹理，并且变向前后的轨迹斜率方向相反。变速运动由于目标运动速度的变化相对平缓，轨迹斜率变化相对平滑，因此会形成渐变的曲线纹理。停顿运动目标在停止运动期间会形成一条恒定的水平条纹，而在停顿前后则会根据不同的运动模式产生相应的轨迹纹理。

在时空切片提取过程中，只有当行像素的位置处于运动目标的高度范围以内时，才能捕捉到目标的时空切片运动轨迹。但是，运动目标出现的位置及其高度具有一定的随机性。为了更充分的捕捉到目标的时空切片运动轨迹，可以在多个位置进行时空切片提取。同一目标运动模式在不同位置的时空切片上具有相同的轨迹纹理。不同目标运动模式在同一位置的时空切片上具有可分的轨迹纹理。

假设视频时空切片中第k列第i个目标为则第k列第i个目标当前的运动状态可以表示为：

(v_{i}^{k}, a_{i}^{k}, l_{i}^{k}) - - - (3)

上式中：表示运动目标的中心位置，表示运动目标的当前速度，表示运动目标的当前加速度。分别定义如下：

v_{i}^{k} = \overset{&OverBar;}{x_{i}^{k - 1} x_{i}^{k}} - - - (4)

和

上式中：为第k-2列对应的视频帧，为第k-1列对应的视频帧。要得到目标当前运动状态的参数需要确定连续三帧之间的对应关系。

使用平滑运动模型表示连续帧之间的映射代价，分别最小化每一视频帧的总的映射代价来得到运动目标在各帧之间的对应关系。映射代价定义为：

c_{i j}^{k} = 0.1 [1 - \frac{(x_{i}^{k} - x_{α_{i}^{k - 1}}^{k - 1}) \cdot (x_{j}^{k + 1} - x_{i}^{k})}{| | x_{i}^{k} - x_{α_{i}^{k - 1}}^{k - 1} | | | | x_{j}^{k + 1} - x_{i}^{k} | |}] + 0.9 [1 - 2 \frac{\sqrt{| | x_{i}^{k} - x_{α_{i}^{k - 1}}^{k - 1} | | | | x_{j}^{k + 1} - x_{i}^{k} | |}}{| | x_{i}^{k} - x_{α_{i}^{k - 1}}^{k - 1} | | + | | x_{j}^{k + 1} - x_{i}^{k} | |}] - - - (6)

上式中：表示第k-1视频帧的映射关系。连续视频帧之间的映射关系建立之后，即可得到运动目标的速度、加速度等目标运动状态特征。

视频的时间频率和空间频率密不可分，而时空切片正是由两者组成的二维数据图像，因此采用时空切片分析目标的运动状态是可行的。多层时空切片的目标运动信息融合可以弥补时空切片的空间信息匮乏，从而实现高效、充分的捕捉视频中的目标运动状态。

视觉注意力是指人们将精力集中于某一区域的能力。已有研究表明视觉注意力A与视频的功率谱P之间的关系为：

A = \frac{{(1 / P)}^{1 / 2}}{{(1 + N_{o} / P)}^{3 / 2}} - - - (7)

上式中：N_o是噪声功率谱。

假设视频序列中位于像素点(x,y)处的运动目标从第t视频帧移动到第t+1视频帧，参数为φ＝[a₁,a₂,a₃,a₄,d_x,d_y]^T的二维的运动模型定义为：

u (x, y, φ) = [\begin{matrix} u_{x} (x, y, φ) \\ u_{y} (x, y, φ) \end{matrix}] = [\begin{matrix} a_{1} & a_{2} \\ a_{3} & a_{4} \end{matrix}] \cdot [\begin{matrix} x \\ y \end{matrix}] + [\begin{matrix} d_{x} \\ d_{y} \end{matrix}] - - - (8)

上式中：u_x(x,y,φ)，u_y(x,y,φ)分别表示u(x,y,φ)的水平分量和垂直分量。

那么，目标运动可以描述为：

I(x+u_x(x,y,φ),y+u_y(x,y,φ),t+1)＝I(x,y,t) (9)

上式中：I(x,y,t)是第t帧的像素点(x,y)处的像素亮度值。

对公式(9)进行一次泰勒系数展开得到运动的频率描述形式：

I_t(x,y)+[I_x(x,y),I_y(x,y)]·u(x,y,φ)＝0 (10)

上式中：[I_x(x,y),I_y(x,y)]和I_t(x,y)分别表示像素点(x,y)处的视频空间频率和视频时间频率，公式(10)也可以表示为：

u (x, y, φ) = \frac{- I_{t} (x, y)}{[I_{x} (x, y), I_{y} (x, y)]} = \frac{- I_{t} (x, y)}{I_{s} (x, y)} - - - (11)

上式中：I_x(x,y)和I_y(x,y)分别是视频空间频率I_s(x,y)的水平分量和垂直分量。

视频功率谱P可以表示为:

上式中：P_s是静态背景的功率谱，P_d是运动目标的功率谱。

将公式(12)代入公式(7)，可以得到：

A = \frac{{I_{s}}^{1 / 2} P_{s} (I_{s}) P_{d} (I_{t} / I_{s})}{{[P_{s} (I_{s}) P_{d} (I_{t} / I_{s}) + N_{o} I_{s}]}^{3 / 2}} - - - (13)

公式(13)表明视觉注意力A主要由功率谱P_d和P_s决定。通常，视频内容的时空变化是由目标运动造成的。因此，功率谱P_d(I_t/I_s)在吸引人眼视觉注意A方面占据主导地位，而(I_t/I_s)正是视频的最本质特征。目标运动状态的改变会引起视频时空频率的更为明显的变化，目标运动状态的改变更为吸引人的视觉注意。视频时空切片包含了视频时、空频率的相关信息(I_t/I_s)。因此，基于视频时空切片分析目标的运动状态、捕捉目标运动状态的改变是可行的。

视频时空切片是由行像素组成的一幅二维数据图像，行像素从视频的每一帧的相同位置连续采样得到。视频时空切片将视频从三维XYT视频空间转换到了二维XT数据空间，并且保留了丰富的目标运动信息。对于视频V(x,y,t)，假设其视频长度为L，视频帧大小为H×W，那么视频时空切片S_k可以描述为：

S_{k} = {[\begin{matrix} x_{1}^{1}, & ... & x_{i}^{1} & ..., & x_{L}^{1} \\ . & . & . \\ . & . & . \\ . & . & . \\ x_{1}^{j}, & ... & x_{i}^{j} & ..., & x_{L}^{j} \\ . & . & . \\ . & . & . \\ . & . & . \\ x_{1}^{W}, & ... & x_{i}^{W} & ..., & x_{L}^{W} \end{matrix}]}_{y = k}, k &Element; [1, H] - - - (14)

上式中：表示t＝i,x＝j,y＝k处的像素点。取样于相同位置的每一行的像素表征着视频的时间信息，而取样于相邻位置的每一列的像素表征着视频的空间信息。虽然时空切片仅仅是完整视频的很小的一部分，但它却包含了视频的时、空频率关联信息(I_t/I_s)，这也是人眼视觉注意力A的表征公式的最重要部分。

通常，一个单独的时空切片所包含的目标运动轨迹信息并不完整。同一运动目标模式在不同位置的视频时空切片的运动轨迹具有时空一致性。因此，可以提取多个视频时空切片，对其所包含的目标运动轨迹信息进行叠加融合，以求得到更为完整的目标运动轨迹。一般情况下，提取的时空切片数目越多，所得到的目标运动轨迹越完整，数据计算量也会随之增加。

构建STS-CS模型：每一个运动目标都会在时空切片上留下运动轨迹，通过分析运动轨迹可以得到目标的运动状态变化。根据公式(14)，静止的背景在时空切片上表现为水平的直条纹，而运动目标会产生偏离直条纹的运动轨迹。那么，时空切片S_k上的运动轨迹T_r可以用公式描述为：

T_{r} = [\begin{matrix} (x_{2}^{1} - x_{1}^{1}), & ... & (x_{i + 1}^{1} - x_{i}^{1}) & ..., & (x_{L}^{1} - x_{L - 1}^{1}) \\ . & . & . \\ . & . & . \\ . & . & . \\ (x_{2}^{j} - x_{1}^{j}), & ... & (x_{i + 1}^{j} - x_{i}^{j}) & ..., & (x_{L}^{j} - x_{L - 1}^{j}) \\ . & . & . \\ . & . & . \\ . & . & . \\ (x_{2}^{W} - x_{1}^{W}), & ... & (x_{i + 1}^{W} - x_{i}^{W}) & ..., & (x_{L}^{W} - x_{L - 1}^{W}) \end{matrix}] - - - (15)

假设一个小球以恒定的速度向右运动，其三维空间(空间维x,y和时间维t)的运动轨迹呈现长条状。如果在空间维y的中间部位提取时空切片，可以得到一条倾斜的直线段。运动的小球在时空切片上的轨迹是一条倾斜的直线段。直线段的斜率取决于目标的运动速度

上式中：x_t-1和x_t分别是运动目标在视频帧t-1和t中的位置的水平坐标。

时空切片上的目标运动速度v是目标水平运动速度和视频帧速率的合成，可以由以下公式计算得到：

上式中：是一常量，通常取25-30。从公式(17)可以看出，时空切片上的目标速度主要取决于目标的水平速度运动目标以恒定的速度运动将产生直线段的时空切片运动轨迹。相似的，以不同的恒定速度运动的目标也都将产生直线段的时空切片运动轨迹，只是直线段的斜率彼此不同。不同速度的运动目标对应着不同的直线段时空切片运动轨迹，并且它们之间是一一对应的关系。因此，直线段时空切片运动轨迹可以用来表征匀速直线运动。

匀速运动目标在时空切片上的运动轨迹呈现直线段，变速直线运动目标在时空切片上的运动轨迹呈现弯曲，在短时间内也可以近似认为是直线，变向运动目标在时空切片上的运动轨迹呈现明显的弯曲，可以近似认为是两条直线段相连，复杂运动模式可以看做是多段简单的直线段运动轨迹的组合。因此，复杂运动模式可以分解为简单运动模式的组合，时空切片上的直线段运动轨迹代表了目标的稳定运动状态，两条直线段的连接处代表了运动状态的改变。

自然条件下，目标将保持匀速直线运动状态或者静止状态，直到有外力迫使其改变原来的状态。运动状态的改变将导致直线段时空切片运动轨迹的方向发生变化。从另一方面看，直线段时空切片运动轨迹的方向改变也代表了目标运动状态的改变。

直线段的几何特征简单，很容易被检测到。因此，直线段时空切片运动轨迹建模为STS-CS模型。图1给出了一个STS-CS模型示例，直线段代表着目标处于稳定的运动状态，而直线段的端点(*)代表着目标运动状态的改变。具体地，直线段的起点代表着运动目标进入视频场景或者场景内的静止目标开始运动，对应的，直线段的终点代表着运动目标离开视频场景或者运动目标在视频场景内停止运动。如果某一条直线段的终点同时也是另一条直线段的起点，则说明运动目标在当前时刻改变了运动方向或者运动速度。所有的这些吸引视觉注意的目标运动状态改变都能够被所建立的STS-CS模型充分捕捉到。

公式化描述STS-CS模型，涉及到四个必需的模型参数：起点c_s，终点c_e，直线段斜率和直线段长度c_l。那么，STS-CS模型可以表示为：

四个模型参数之间的关系可以表示为：

和c_l＝|c_e-c_s| (20)

上式中：c_s1，c_s2分别是起点c_s的水平坐标和垂直坐标，相似的，c_e1，c_e2分别是终点c_e的水平坐标和垂直坐标。如果目标在运动过程中停止了一段时间，那么这段停止时间内的STS-CS模型可以表示为：

(c_s,c_e,0,c_l) (21)

不同的目标运动状态会产生各种类型的目标运动轨迹，但是这些运动状态的改变却很容易的由所建立的STS-CS模型检测出来。在所建立的STS-CS模型中，直线段的数目越多，表明运动状态改变的次数越多，反之则运动状态改变的次数越少。

在上述理论分析的基础上，本发明提出了一种运动状态自适应关键帧提取方法。图2给出了所提出的方法的基本架构：

(1)视频序列的运动片段分割；

(2)在运动片段中提取时空切片；

(3)构建STS-CS模型来检测视频运动片段中的目标运动状态；

(4)根据目标运动状态的改变绘制视觉注意力曲线；

(5)根据视觉注意力曲线提取关键帧；

(6)对所提取的关键帧进行精简与优化，形成最终的关键帧。

运动片段分割与时空切片提取：

由于监控视频的特殊性，视频序列中含有大量的静止片段，并且与运动片段交叉存在。为了提高计算效率，需要先分割出视频序列中的运动片段。本发明采用基于视觉感知能量(VPE)的运动片段检测方法进行视频序列的运动片段分割。图3给出了累积VPE的检测结果作为示例，从中可以看出，中间片段的帧319-600为运动片段，与实际的视频内容一致。

事实上，选用其它运动片段分割方法也可以达到目标。此处，之所以选择基于视觉感知能量(VPE)的运动片段检测方法，是因为它具有计算高效性和视频片段分割的准确性。

在视频运动片段中进行时空切片提取，为了得到完整的目标运动轨迹，通常需要提取多个时空切片进行信息融合。为了兼顾计算效率和运动轨迹的完整性，可以根据视频场景的先验信息确定时空切片的数目，如图4a-4c所示。

如果运动目标较大，并且占据了大部分的视频高度，可以选择在视频中间位置提取时空切片，如图4a所示。如果运动目标只出现在部分监视区域中，则可以只在运动区域内提取时空切片，如图4b所示。在对运动目标的大小以及出现位置不确定的情况下，选择等间隔方法进行时空切片提取，如图4c所示。

目标运动状态检测：为了检测目标的运动状态，构建了STS-CS模型对运动片段中的目标轨迹进行分析。然而，运动轨迹与直条纹背景混合在一起，更有甚者，干扰还会导致直条纹背景产生轻微的弯曲。因此在应用STS-CS模型检测运动状态前，需要先进行背景去除。

背景去除：采用自适应高斯混合背景模型去除运动片段的切片背景。切片的每一列视作一个高斯模型输入，模型参数逐列更新。高斯均值μ和方差δ²的更新公式为：

\{\begin{matrix} μ^{t + 1} = (1 - α) μ^{t} + α G_{B}^{t + 1} \\ {(δ^{2})}^{t + 1} = (1 - α) {(δ^{2})}^{t} + α (G_{B}^{t + 1} - μ^{t + 1}) {(G_{B}^{t + 1} - μ^{t + 1})}^{T} \end{matrix} - - - (22)

α = \{\begin{matrix} 1 / M_{n}, & t < 200 \\ 0.005, & t &GreaterEqual; 200 \end{matrix} - - - (23)

上式中：M_n是匹配次数。

检测运动片段切片的每一像素I_p是否服从N(μ,δ)分布，然后前景运动轨迹将由以下公式计算得到：

T_{f} = \{\begin{matrix} 0, & I_{p} ~ N (μ, δ) \\ 1, & o t h e r s \end{matrix} - - - (24)

根据公式(24)，运动片段切片上的目标运动轨迹作为前景从直条纹切片背景中分离出来。

基于STS-CS模型的运动状态检测：

为了准确检测目标运动状态，使用了改进的基于Hough变换(HT)的分段检测方法来检测目标运动轨迹。考虑到垂直方向的直线段运动轨迹，直线段的极坐标公式定义为：ρ＝xsinθ-ycosθ,θ∈[0,π] (25)

由于目标运动轨迹具有一定的宽度，在HT变换域中，会在小区域范围内出现多个局部极大值点，这种情况会导致同一目标运动轨迹被检测为存在多个直线段。为此，引入了HT变换域局部峰值聚类算法解决小区域内多个局部极大值的问题。最终，位于聚类中心的局部极大值被用于构建STS-CS模型，此时构建的运动轨迹通常位于实际运动轨迹的中心线上。图5给出了峰值聚类后的直线段轨迹检测结果示例，所构建的STS-CS模型的示例可以参考图6a。

更进一步的，对视频时空切片分段进行检测有利于准确的检测到较短的直线段轨迹。事实上，也可以选择其它直线段检测方法，但在时空切片提取、切片背景去除的过程中会产生部分轨迹断裂，而HT检测对此具有一定的鲁棒性。由此得到的目标轨迹更有利于分析目标的运动状态。

运动状态改变量的测量与关键帧提取：

运动状态改变比运动本身更具视觉吸引力，因此本发明定义关键帧为包含目标运动状态改变的帧。基于直线段轨迹的数目，可以检测出目标运动状态改变的次数，同时STS-CS模型也可以借助于两个相连的直线段实现目标运动状态改变程度的测量。

为了测量目标运动状态的改变程度，定义了偏离角的概念，即STS-CS模型中两个相连的直线段的夹角。偏离角越大，目标运动状态改变的越剧烈，也就更能吸引人的注意。据此，第F_i帧的视觉注意力A可以由以下公式计算得到：

A (F_{i}) = Σ_{j = 1}^{Q} {(w_{j} | θ_{j} |)}_{F_{i}}, i &Element; [1, L] - - - (26)

根据公式(26)，计算每一视频帧的视觉注意力值，然后把这些值连接起来形成注意力曲线，如图6b所示。

图6a-6b给出了注意力曲线与目标运动状态改变之间的关系。从中可以看出：

(1)注意力曲线的峰值对应着目标运动状态的改变点(*)；

(2)没有目标运动状态改变的视频帧的注意力值为0；

(3)注意力值随着目标运动状态的改变程度而自适应的改变，目标运动状态改变的程度越大，注意力值就越大，反之亦然。比如：视频帧382具有较大的偏离角，其对应的注意力值也较大，而视频帧581具有较小的偏离角，其对应的注意力值也较小。

需要注意的是，如果有多个目标的运动状态改变发生在同一视频帧内，则此视频帧的注意力值是所有偏离角的总和。实际应用中，这种情况出现的较少。在图6中，视频帧520中有两个运动目标同时改变运动状态，因此，视频帧520的注意力值是两个对应的偏离角的总和。

综上所述，视频帧的所有运动目标的运动状态改变都可以通过其注意力值反映出来。因此，对应于注意力曲线峰值的视频帧，即包含有目标运动状态改变，被提取为视频关键帧。

关键帧优化：在视频序列中，一些目标运动状态改变发生在相距很近的视频帧中，但却不在同一视频帧内。这种情况会导致提取到的关键帧非常相似。为了去除这些相似关键帧，采用了一种基于峰值信噪比(Peak Signal to Noise Ratio,PSNR)的视觉分辨机制。连续的两个关键帧的PSNR定义为：

P S N R = 10 \log_{10} [\frac{I_{\max}^{2}}{\frac{1}{H \times W} Σ_{i = 0}^{H - 1} Σ_{j = 0}^{W - 1} {| f_{k + 1} (i, j) - f_{k} (i, j) |}^{2}}] - - - (27)

上式中：I_max和H×W分别是最大像素亮度值和关键帧的大小。

如果两个视频帧的PSNR高于30dB，人眼几乎无法察觉他们之间的差异，但是，当两个视频帧的PSNR低于30dB时，它们之间的差异开始变得明显，并且能够被人眼所察觉到。因此，定义PSNR高于30dB的连续关键帧为相似关键帧，原因是关键帧应该彼此之间差异明显。

根据公式(27)，计算出所有的位置相邻的关键帧的PSNR，并且用“F”或者“T”进行标记，如图7所示。“F”代表着两个相似的关键帧，“T”是不相似的关键帧(例如：“K₃”和“K₄”)。

一个单独的“F”代表着两个相似的关键帧，后面一个被去除。两个相邻的“F”代表着三个相似关键帧，前、后两帧被去除，而保留中间的关键帧。如果有多于2个的连续的“F”同时出现，只有第一个和最后一个关键帧保留，去除中间的所有的关键帧。所有的这些对应关系如图7所示，其中灰色方块是要被去除的关键帧。经此优化以后，关键帧更加精简、更具代表性。

本发明所提出的方法使用时空切片分析目标的运动轨迹，并且选取目标的运动状态改变作为关键帧的提取准则。所提出的方法的优势主要体现在以下四个方面：

(1)将视频序列分割成了易管理、意义丰富的运动片段，视频数据量大大降低；(2)STS-CS模型可以充分捕捉到目标运动状态的改变并提取关键帧，相邻两个关键帧之间的目标运动状态可以推断出来；(3)关键帧的数量和位置分布随着目标运动状态的改变而自适应的动态变化；(4)由于关键帧基于运动状态改变进行提取，并且采用视觉辨别机制对所提取的关键帧进行优化和精简，因此提取结果符合人眼视觉感知。

实际应用中，如果需要提取的关键帧数目K是给定的，并且不等于注意力曲线的峰值数目M，可以采用以下步骤处理：(1)如果M＞K，提取具有较高注意力值的K帧作为关键帧；(2)如果M＜K，参考每一条直线段运动轨迹的长度，使用插值算法提取额外的(K-M)个关键帧。

Claims

1.一种运动状态自适应关键帧提取方法，其特征在于所述方法包括如下步骤：

1)视频序列的运动片段分割；

2)在分割后的视频运动片段中提取时空切片；

4)根据目标运动状态的改变绘制视觉注意力曲线；

5)根据视觉注意力曲线提取关键帧。

2.如权利要求1所述的运动状态自适应关键帧提取方法，其特征在于，所述方法在步骤5)之后还包括：

6)对所提取的关键帧进行精简与优化，形成最终的关键帧。

3.如权利要求1或2所述的运动状态自适应关键帧提取方法，其特征在于，所述步骤1)中视频序列中运动片段的分割采用基于视觉感知能量的运动片段分割方法进行。

4.如权利要求1或2所述的运动状态自适应关键帧提取方法，其特征在于，所述步骤2)中根据视频场景的先验信息确定时空切片的数目，如果运动目标较大，并且占据了大部分的视频高度，选择在视频中间位置提取时空切片；如果运动目标只出现在部分监视区域中，则只在运动区域内提取时空切片；在对运动目标的大小以及出现位置不确定的情况下，选择等间隔方法进行时空切片提取。

5.如权利要求1或2所述的运动状态自适应关键帧提取方法，其特征在于，步骤3)包括以下步骤：

3-1)去除运动片段的视频时空切片背景；

6.如权利要求5所述的运动状态自适应关键帧提取方法，其特征在于，所述步骤3-1)具体包括如下步骤：

时空切片的每一列视作一个高斯模型输入，模型参数逐列更新，高斯均值μ和方差δ²的更新公式为：

\{\begin{matrix} μ^{t + 1} = (1 - α) μ^{t} + α G_{B}^{t + 1} \\ {(δ^{2})}^{t + 1} = (1 - α) {(δ^{2})}^{t} + α (G_{B}^{t + 1} - μ^{t + 1}) {(G_{B}^{t + 1} - μ^{t + 1})}^{T} \end{matrix}

α = \{\begin{matrix} 1 / M_{n}, & t < 200 \\ 0.005, & t &GreaterEqual; 200 \end{matrix}

上式中：M_n是匹配次数；

检测运动片段切片的每一像素I_p是否服从N_(μ,δ)分布，然后前景运动轨迹T_f由以下公式计算得到：

T_{f} = \{\begin{matrix} 0, & I_{p} ~ N (μ, δ) \\ 1, & o t h e r s \end{matrix}

7.如权利要求5所述的运动状态自适应关键帧提取方法，其特征在于，所述步骤3-2)具体包括如下步骤：

ρ＝xsinθ-ycosθ,θ∈[0,π]

位于聚类中心的局部极大值被用于构建STS-CS模型。

8.如权利要求7所述的运动状态自适应关键帧提取方法，其特征在于，构建STS-CS模型的方法如下：

四个模型参数之间的关系可以表示为：

c_l＝|c_e-c_s|

(c_s,c_e,0,c_l)。

9.如权利要求1或2所述的运动状态自适应关键帧提取方法，其特征在于，步骤4)和5)包括以下步骤：

为了测量目标运动状态的改变程度，定义偏离角的概念，即STS-CS模型中两个相连的直线段的夹角；偏离角越大，目标运动状态改变的越剧烈，也就更能吸引人的注意；据此，第F_i帧的视觉注意力A可以由以下公式计算得到：

A (F_{i}) = Σ_{j = 1}^{Q} {(w_{j} | θ_{j} |)}_{F_{i}}, i &Element; [1, L]

10.如权利要求2所述的运动状态自适应关键帧提取方法，其特征在于，步骤6)包括以下步骤：

连续的两个关键帧的峰值信噪比PSNR定义为：

P S N R = 10 \log_{10} [\frac{I_{\max}^{2}}{\frac{1}{H \times W} Σ_{i = 0}^{H - 1} Σ_{j = 0}^{W - 1} | f_{k + 1} (i, j) - f_{k} (i, j) |^{2}}]

上式中：I_max和H×W分别是最大像素亮度值和关键帧的大小；