CN106127813A

CN106127813A - 基于视觉感知能量的监控视频运动片段分割方法

Info

Publication number: CN106127813A
Application number: CN201610517130.1A
Authority: CN
Inventors: 张云佐
Original assignee: Shijiazhuang Tiedao University
Current assignee: XIAMEN TONGJING INTELLIGENT TECHNOLOGY Co.,Ltd.
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2016-11-16
Anticipated expiration: 2036-07-04
Also published as: CN106127813B

Abstract

本发明公开了一种基于视觉感知能量的监控视频运动片段分割方法，涉及图像处理方法技术领域。所述方法包括如下步骤：在运动目标移入、移出视觉监视区域的边界处提取监控视频序列的侧面，分析视频侧面上的目标形变并建立VPE曲线；检测VPE曲线的拐点，对正负能量拐点进行处理；统计所有的正能量拐点处的VPE以及负能量拐点处的修正后的VPE，绘制累积VPE曲线；根据累积VPE曲线进行监控视频运动片段分割，其中VPE是指视觉感知能量。所述方法提高了监控视频运动片段分割的准确率，大大降低了需要处理的视频数据量。

Description

基于视觉感知能量的监控视频运动片段分割方法

技术领域

本发明涉及图像处理方法技术领域，尤其涉及一种基于视觉感知能量的监控视频运动片段分割方法。

背景技术

视频的结构化就是对视频数据流在时间轴上进行层次分割，完成从原始的非结构化的视频流到结构化的视频实体的转换。将原始的视频流分割为有意义的、易于管理的视频结构单元，形成视频内容的层次结构，方便视频内容的分析与管理。

视频是非结构化的数据流，其实质是一系列在时间上连续的图像帧。这些图像帧只有相互间的时序关系，而没有任何结构信息。视频分割即按照视频内容或视频中的特定标示从数字视频序列中检测出层次化的结构单元，为不同层次的结构单元建立索引信息，以便于按照具体内容来存储、管理、分析和处理视频数据。视频数据流按照从抽象到具体的顺序可以划分为四个层次的结构单元：视频、场景、镜头和帧，其层次化结构如图1所示。

数据驱动分割是根据镜头切换时视频数据所呈现的特征变化进行视频镜头分割的一种方法。这种视频镜头分割方法的理论依据是：同一镜头内的相邻两帧之间的视频数据特征变化不大，特征差值会分布在某一阈值内；而如果相邻的两帧之间的特征差值超过了设定的阈值，则说明此处是镜头切换点，可以被认为是视频分割的边界。数据驱动分割虽然实现简单，但却忽视了视频中存在的结构变化，如果阈值选取的不恰当，像淡入、淡出这种视频镜头渐变切换过程就会被漏检。模型驱动分割则与数据驱动分割完全不同，它避开了数据驱动分割中的阈值选择问题，而是基于视频编辑模型检测视频镜头边界。视频编辑模型包括：简单色彩编辑模型、复合色彩编辑模型和空间编辑模型。

现有的基于镜头边界检测的视频分割方法通常以视频特征的变化程度作为视频镜头分割的依据。这些视频特征包括颜色、形状、边缘以及运动矢量等等。在像素域处理算法中，视频镜头分割主要利用颜色直方图特征；在压缩域视频分割算法中，一般利用运动矢量特征。这两类算法的处理思路基本一致，都是通过比较相邻视频帧之间的特征差值与设定阈值来确定镜头边界。如果特征差值大于设定阈值，则视当前位置为镜头边界，反之则不是镜头边界。镜头边界检测的准确度取决于特征差值的定义和设定的阈值。在监控视频中，人们更为关注其中的运动片段，而运动片段“零星”的分散在冗长的监控视频中。为此，以运动片段为基本单元对监控视频进行分割具有重要的现实意义。

发明内容

本发明所要解决的技术问题是提供一种基于视觉感知能量的监控视频运动片段分割方法，所述方法提高了监控视频运动片段分割的准确率，需要处理的视频数据量也大大降低。

为解决上述技术问题，本发明所采取的技术方案是：一种基于视觉感知能量的监控视频运动片段分割方法，其特征在于包括如下步骤：

在运动目标移入、移出视觉监视区域的边界处提取监控视频序列的侧面，分析视频侧面上的目标形变并建立VPE曲线；

检测VPE的拐点，对正负能量拐点进行处理；

统计所有的正能量拐点处的VPE以及负能量拐点处的修正后的VPE，绘制累积VPE曲线；

根据累积VPE曲线进行运动片段分割，其中VPE是指视觉感知能量。

进一步的技术方案在于：所述方法还包括将分割后的运动片段进行整合的步骤。

进一步的技术方案在于：运动目标移入视觉监视区域产生正能量，运动目标移出视觉监视区域产生负能量。

进一步的技术方案在于：通过设置视频次边界来判断目标运动方向，该视频次边界位于所述视频边界内，且临近并平行于视频边界，如果运动目标中心先通过视频边界，后通过视频次边界，认为目标是移入视觉监视区域；反之，认为目标是移出视觉监视区域。

进一步的技术方案在于：所述的在运动目标移入、移出的边界提取监控视频序列的侧面的方法如下：

对于由大小为H×W的视频帧组成的长度为L的视频序列，用p_i,j表示视频帧的第i行、第j列的像素值，那么第k帧图像的四个边界Side(A)、Side(B)、Side(C)、Side(D)分别表示如下：

Side(A)：

Side(B)：

Side(C)：

Side(D)：

在视频序列的每一帧的相同边界采样，得到一个像素阵列，将这些来自连续帧的像素阵列沿着时间轴连接起来，就形成了视频的侧面；

相应的，视频序列的四个侧面Profile(A)、Profile(B)、Profile(C)、Profile(D)分别表示如下：

Profile(A)：

{PA}_{i, j}^{k} = {[\begin{matrix} p_{1, 1}^{1} & p_{2, 1}^{1} & p_{3, 1}^{1} & ... & p_{H - 1, 1}^{1} & p_{H, 1}^{1} \\ p_{1, 1}^{2} & p_{2, 1}^{2} & p_{3, 1}^{2} & ... & p_{H - 1, 1}^{2} & p_{H, 1}^{2} \\ p_{1, 1}^{3} & p_{2, 1}^{3} & p_{3, 1}^{3} & ... & p_{H - 1, 1}^{3} & p_{H, 1}^{3} \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ p_{1, 1}^{L - 1} & p_{2, 1}^{L - 1} & p_{3, 1}^{L - 1} & ... & p_{H - 1, 1}^{L - 1} & p_{H, 1}^{L - 1} \\ p_{1, 1}^{L} & p_{2, 1}^{L} & p_{3, 1}^{L} & ... & p_{H - 1, 1}^{L} & p_{H, 1}^{L} \end{matrix}]}^{T}

Profile(B)：

{PB}_{i, j}^{k} = [\begin{matrix} p_{H, 1}^{1} & p_{H, 2}^{1} & p_{H, 3}^{1} & ... & p_{H - W, 1}^{1} & p_{H, W}^{1} \\ p_{H, 1}^{2} & p_{H, 2}^{2} & p_{H, 3}^{2} & ... & p_{H - W, 1}^{2} & p_{H, W}^{2} \\ p_{H, 1}^{3} & p_{H, 2}^{3} & p_{H, 3}^{3} & ... & p_{H - W, 1}^{3} & p_{H, W}^{3} \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ p_{H, 1}^{L - 1} & p_{H, 2}^{L - 1} & p_{H, 3}^{L - 1} & ... & p_{H - W, 1}^{L - 1} & p_{H, W}^{L - 1} \\ p_{H, 1}^{L} & p_{H, 2}^{L} & p_{H, 3}^{L} & ... & p_{H - W, 1}^{L} & p_{H, W}^{L} \end{matrix}]

Profile(C)：

{PC}_{i, j}^{k} = {[\begin{matrix} p_{1, W}^{1} & p_{2, W}^{1} & p_{3, W}^{1} & ... & p_{H - 1, W}^{1} & p_{H, W}^{1} \\ p_{1, W}^{2} & p_{2, W}^{2} & p_{3, W}^{2} & ... & p_{H - 1, W}^{2} & p_{H, W}^{2} \\ p_{1, W}^{3} & p_{2, W}^{3} & p_{3, W}^{3} & ... & p_{H - 1, W}^{3} & p_{H, W}^{3} \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ p_{1, W}^{L - 1} & p_{2, W}^{L - 1} & p_{3, W}^{L - 1} & ... & p_{H - 1, W}^{L - 1} & p_{H, W}^{L - 1} \\ p_{1, W}^{L} & p_{2, W}^{L} & p_{3, W}^{L} & ... & p_{H - 1, W}^{L} & p_{H, W}^{L} \end{matrix}]}^{T}

Profile(D)：

{PD}_{i, j}^{k} = [\begin{matrix} p_{1, 1}^{1} & p_{1, 2}^{1} & p_{1,3}^{1} & ... & p_{1, W - 1}^{1} & p_{1, W}^{1} \\ p_{1, 1}^{2} & p_{1, 2}^{2} & p_{1,3}^{2} & ... & p_{1, W - 1}^{2} & p_{1, W}^{2} \\ p_{1, 1}^{3} & p_{1, 2}^{3} & p_{1,3}^{3} & ... & p_{1, W - 1}^{3} & p_{1, W}^{3} \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ p_{1, 1}^{L - 1} & p_{1, 2}^{L - 1} & p_{1,3}^{L - 1} & ... & p_{1, W - 1}^{L - 1} & p_{1, W}^{L - 1} \\ p_{1, 1}^{L} & p_{1, 2}^{L} & p_{1,3}^{L} & ... & p_{1, W - 1}^{L} & p_{1, W}^{L} \end{matrix}] .

进一步的技术方案在于：所述的分析视频侧面上的目标形变的方法如下：

建立平面直角坐标系，其中，y方向为运动目标将要跨越的视频边界，跨越边界时，运动目标的速度为其分量分别为u和v，u与视频边界y正交，v与视频边界y平行，目标主姿态方向与视频边界y成β夹角；运动目标的形变包括水平方向形变和垂直方向形变两个方面，水平方向的形变取决于运动目标的水平分速度u，即侧面上目标的宽度与速度u成反比；如果运动目标以较高的速度u跨越视频边界，则目标宽度会变窄；反之，对于较低的速度u，运动目标的宽度会变宽；垂直方向的形变来源于夹角β和运动目标的垂直速度v，随着β的增大，目标高度会被压缩，随着v的增大，目标高度会被拉伸；运动目标垂直于视频边界方向移入、移出视觉监视区域，视频侧面上的目标形变最小，选取水平方向和垂直方向作为视频边界。

进一步的技术方案在于：所述的对正负能量拐点进行处理的方法包括如下步骤：

对于正能量拐点：正能量拐点表明此时是运动目标移入视觉监视区域，建立目标的三个特征模型：表观模型运动预测模型和时间连续性模型并形成匹配特征表保存到目标特征数据库中，将此时的运动目标VPE保存为基准能量；

对于负能量拐点：负能量拐点表明此时是运动目标移出视觉监视区域，建立目标的三个特征模型：表观模型运动预测模型和时间连续性模型并与目标特征数据库进行匹配，如果匹配成功，则去掉目标特征数据库中的对应特征模型，并对VPE进行能量修正，如果失配，则建立失配标记后返回。

进一步的技术方案在于：在检测VPE的拐点的过程中需要对VPE曲线进行描述，所述VPE曲线进行描述的方法如下：

视觉感知能量VPE采用运动目标的像素数进行表征，首先对视频侧面进行背景减除，方法如下：

将视频帧的t时刻观测值为X_t的每一个像素点的概率分布P(X_t)用K个加权高斯分布模型来表征，对应的颜色分布函数为η(X_t,μ_k,t,∑_k,t)，公式表示如下：

P (X_{t}) = Σ_{k = 1}^{K} ω_{k, t} \times η (X_{t}, μ_{k, t}, Σ_{k, t})

η (X_{t}, μ_{k, t}, Σ_{k, t}) = \frac{1}{{(2 π)}^{n / 2} ({| Σ_{k, t} |}^{1 / 2})} \exp {- \frac{1}{2} {(X_{t} - μ_{k, t})}^{T} Σ_{k, t}^{- 1} X_{t} - μ_{k, t}}

上式中：μ_k,t表示t时刻第k个高斯分布模型的均值，∑_k,t表示t时刻第k个高斯分布模型的方差，ω_k,t表示t时刻第k个高斯分布模型的权重，K的取值范围为3～5；

在模型匹配的过程中，混合高斯模型方法将K个高斯分布的ω_k,t/σ_k,t按由大到小的顺序进行排列，对于输入的视频帧，将其与K个高斯分布的每一个均值按顺序依次进行比较，找到相匹配的高斯分布模型后，匹配过程结束，匹配条件为：

|X_t-μ_k,t|＜2.5σ_k,t

上式中：σ_k,t为对应的标准差；

如果满足匹配条件的高斯模型存在，则对第一个匹配高斯模型的所有模型参数进行更新：

ω_k,t+1＝(1-α)×ω_k,t+α

μ_k,t+1＝(1-ρ)×μ_k,t+ρ×X_t+1

σ_{k, t + 1}^{2} = (1 - ρ) \times σ_{k, t}^{2} + ρ \times {(X_{t + 1} - μ_{k, t + 1})}^{T} (X_{t + 1} - μ_{k, t + 1})

ρ＝α×(X_t+1|μ_k,t,σ_k,t)

而对于其它高斯分布模型，只更新权值ω_k,t+1，模型的均值和方差保持不变；

ω_k,t+1＝(1-α)×ω_k,t

如果满足匹配条件的高斯模型不存在，则建立一个具有较高方差、较低权重、均值为X_t+1的高斯分布模型来替换第K个高斯模型；

模型参数更新完成以后，每个高斯模型有一个权重，按照权重进行降序排列，选取前N_B个高斯模型作为背景，N_B满足以下公式：

N_{B} = \arg \min_{b} (Σ_{k = 1}^{b} ω_{k, t} > T)

上式中：T其表示背景所占的比例，T∈(0,1)；

在高斯背景模型中，视频侧面的每一列视作高斯模型的一个输入，模型参数逐列进行更新，高斯均值μ和方差σ²的更新公式如下：

\{\begin{matrix} μ^{t + 1} = (1 - α) μ^{t} + {αG}_{B}^{t + 1} \\ {(σ^{2})}^{t + 1} = (1 - α) {(σ^{2})}^{t} + α (G_{B}^{t + 1} - μ^{t + 1}) {(G_{B}^{t + 1} - μ^{t + 1})}^{T} \end{matrix}

上式中：是视频侧面中列t+1的灰度，α为修正率，定义如下：

α = \{\begin{matrix} 1 / M_{n}, & t < 200 \\ 0.005, & t &GreaterEqual; 200 \end{matrix}

其中：M_n是匹配次数，视频侧面的方差σ²为

σ^{2} = [\begin{matrix} σ_{x_{1}, y_{1}}^{2} & σ_{x_{2}, y_{1}}^{2} & ... & σ_{x_{L}, y_{1}}^{2} \\ σ_{x_{1}, y_{2}}^{2} & σ_{x_{2}, y_{2}}^{2} & ... & σ_{x_{L}, y_{2}}^{2} \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ σ_{x_{1}, y_{p}}^{2} & σ_{x_{2}, y_{p}}^{2} & ... & σ_{x_{L}, y_{p}}^{2} \end{matrix}]

其中：y_p是视频侧面的个数，取4；

视频侧面的背景模型生成后，自适应的进行背景更新，检测视频侧面的每一个像素I_p是否服从N(μ,δ)分布，前景运动目标通过以下公式获得：

I_{f} = \{\begin{matrix} 0, & I_{p} ~ N (μ, δ) \\ 1, & e l s e \end{matrix}

根据上式，视频侧面上的运动目标可以从背景中分离出来，视频侧面上的单视频帧目标像素数目为对应视频帧的视觉感知能量VPE，视觉感知能量VPE大于设定阈值的视频片段为运动片段；

视频序列的每一帧F_i的A侧面上的视觉感知能量VPE由以下公式计算得到：

{VPE}_{A} (F) = Σ_{j = 1}^{W} {N_{A} [I_{f} (F_{i})]}_{j}

上式中：

N_{A} [I_{f} (F_{i})] = \{\begin{matrix} 1, & \begin{matrix} i f & {[I_{f} (F_{i})]}_{j} &NotEqual; 0 \end{matrix} \\ 0, & e l s e \end{matrix}

相似的，可以得到：

{VPE}_{B} (F_{i}) = Σ_{j = 1}^{W} {N_{B} [I_{f} (F_{i})]}_{j}

{VPE}_{C} (F_{i}) = Σ_{j = 1}^{W} {N_{C} [I_{f} (F_{i})]}_{j}

{VPE}_{D} (F_{i}) = Σ_{i = 1}^{W} {N_{D} [I_{f} (F_{i})]}_{j}

将视频序列每一帧的四个侧面的视觉感知能量相加得到该视频帧的视觉感知能量，如以下公式所示：

VPE(F_i)＝VPE_A(F_i)+VPE_B(F_i)+VPE_C(F_i)+VPE_D(F_i)

将视频序列的每一帧的视觉感知能量VPE值连接起来，得到VPE曲线。

进一步的技术方案在于：所述的修正VPE的方法如下：

采用运动目标特征匹配的方法对视觉感知能量VPE进行修正，以目标移入视觉监视区域时具有的视觉感知能量为基准，目标移出视觉监视区域时的视觉感知能量自动修正为目标基准能量，实现同一目标在移入、移出视觉监视区域时具有相等的视觉感知能量；

运动目标移入视觉监视区域后记为I_n，采用三个特征模型对目标进行描述，分别为表观模型运动预测模型和时间连续性模型相似的，对于移出视觉监视区域的运动目标记为O_m,t可以描述为：表观模型运动预测模型和时间连续性模型在运动目标I_n移入视觉监视区域时，逐一建立匹配特征表并存储到目标特征数据库中；对于移出视觉监视区域的运动目标O_m,t将与目标特征数据库中的I_n特征进行匹配，按照以下公式修正其视觉感知能量：

同时对目标特征数据库进行更新，去除已经移出视觉监视区域的匹配特征表，移出的目标产生负能量，视频序列的累积视觉感知能量变小。

进一步的技术方案在于：所述的将分割后的运动片段进行整合的方法如下：

将这些分割后的独立运动片段视为运动子片段，组合成一个更长的视频片段S_m，整合过程如下：

S_m＝[S_m(1)S_m(2)…S_m(N_s)]

上式中，N_s是运动子片段数目。

采用上述技术方案所产生的有益效果在于：本发明所提出的方法只需要检测视频帧的边界行、列像素，而非全部像素，有效避免了环境、光线等外界干扰的长时间累积和多像素累积，提高了监控视频运动片段分割的准确率，需要处理的视频数据量也大大降低。实验结果表明本发明所提出的分割方法的准确率比当前主流方法提高了17.6％，并且计算复杂度低，对环境干扰具有较好的鲁棒性。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是视频数据的层次化结构图；

图2是实施例所述方法的流程图；

图3是视觉感知能量的平面示意图；

图4是示例视频序列的部分帧；

图5是示例视频序列的四个侧面图；

图6是视频次边界示意图；

图7是建立的平面直角坐标系图；

图8是混合高斯背景建模算法流程图；

图9是分离出前景的视频四侧面时空图；

图10是视觉感知能量随着时间轴的变化情况图；

图11是视频序列的累积视觉感知能量；

图12是修正后的视觉感知能量随着时间轴的变化情况图；

图13是修正后的视频序列的累积视觉感知能量图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

如图2所示，本发明公开了一种基于视觉感知能量的监控视频运动片段分割方法，所述方法包括以下步骤：

首先，在运动目标移入、移出视觉监视区域的边界处提取监控视频序列的侧面，分析视频侧面上的目标形变并建立VPE(视觉感知能量)曲线。其次，检测VPE曲线的拐点，对于正、负能量拐点分别做不同的处理：正能量拐点表明此时是运动目标移入视觉监视区域，建立目标的三个特征模型(表观模型运动预测模型和时间连续性模型)并形成匹配特征表保存到目标特征数据库中，将此时的运动目标VPE保存为基准能量；负能量拐点表明此时是运动目标移出视觉监视区域，建立目标的三个特征模型(表观模型运动预测模型和时间连续性模型)并与目标特征数据库进行匹配，如果匹配成功，则去掉目标特征数据库中的对应特征模型，并对VPE进行能量修正，如果失配，则建立失配标记后返回。然后，统计所有的正能量拐点处的VPE以及负能量拐点处的修正后的VPE，绘制累积VPE曲线。最后，根据累积VPE曲线进行运动片段分割，并将这些运动片段进行整合。

下面对上述步骤进行详细说明：

视觉感知能量建模：运动之所以能够吸引人的视觉注意力是因为运动具有能量，运动越剧烈，能量就越强，就越能吸引人的视觉注意。本发明定义这种能够被人眼视觉所感知的能量为视觉感知能量，相应的，将视频中的目标运动建模为视觉感知能量。这样，视频运动片段的分割问题就转化成了视觉感知能量的建模问题。运动目标移入监视区域产生正能量(E+)，运动目标移出监视区域产生负能量(E-)，监视区域中的视觉感知能量总量表征着当前视频片段的运动状况，如图3所示。

在图3中，Side(A)、Side(B)、Side(C)、Side(D)代表着运动目标移入、移出监视区域的四个潜在的边界(通常为视频帧的四个边缘像素行、列)。

视频侧面：

对于由大小为H×W的视频帧组成的长度为L的视频序列，用p_i,j表示视频帧的第i行、第j列的像素值，那么第k帧图像的四个边界Side(A)、Side(B)、Side(C)、Side(D)分别表示为如下。

Side(A)：

Side(B)：

Side(C)：

Side(D)：

在视频序列的每一帧的相同边界采样，可以得到一个像素阵列，将这些来自连续帧的阵列沿着时间轴连接起来，就形成了视频的侧面。

相应的，视频序列的四个侧面Profile(A)、Profile(B)、Profile(C)、Profile(D)分别表示如下。

Profile(A)：

{PA}_{i, j}^{k} = {[\begin{matrix} p_{1, 1}^{1} & p_{2, 1}^{1} & p_{3, 1}^{1} & ... & p_{H - 1, 1}^{1} & p_{H, 1}^{1} \\ p_{1, 1}^{2} & p_{2, 1}^{2} & p_{3, 1}^{2} & ... & p_{H - 1, 1}^{2} & p_{H, 1}^{2} \\ p_{1, 1}^{3} & p_{2, 1}^{3} & p_{3, 1}^{3} & ... & p_{H - 1, 1}^{3} & p_{H, 1}^{3} \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ p_{1, 1}^{L - 1} & p_{2, 1}^{L - 1} & p_{3, 1}^{L - 1} & ... & p_{H - 1, 1}^{L - 1} & p_{H, 1}^{L - 1} \\ p_{1, 1}^{L} & p_{2, 1}^{L} & p_{3, 1}^{L} & ... & p_{H - 1, 1}^{L} & p_{H, 1}^{L} \end{matrix}]}^{T} - - - (5)

Profile(B)：

{PB}_{i, j}^{k} = [\begin{matrix} p_{H, 1}^{1} & p_{H, 2}^{1} & p_{H, 3}^{1} & ... & p_{H - W, 1}^{1} & p_{H, W}^{1} \\ p_{H, 1}^{2} & p_{H, 2}^{2} & p_{H, 3}^{2} & ... & p_{H - W, 1}^{2} & p_{H, W}^{2} \\ p_{H, 1}^{3} & p_{H, 2}^{3} & p_{H, 3}^{3} & ... & p_{H - W, 1}^{3} & p_{H, W}^{3} \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ p_{H, 1}^{L - 1} & p_{H, 2}^{L - 1} & p_{H, 3}^{L - 1} & ... & p_{H - W, 1}^{L - 1} & p_{H, W}^{L - 1} \\ p_{H, 1}^{L} & p_{H, 2}^{L} & p_{H, 3}^{L} & ... & p_{H - W, 1}^{L} & p_{H, W}^{L} \end{matrix}] - - - (6)

Profile(C)：

{PC}_{i, j}^{k} = {[\begin{matrix} p_{1, W}^{1} & p_{2, W}^{1} & p_{3, W}^{1} & ... & p_{H - 1, W}^{1} & p_{H, W}^{1} \\ p_{1, W}^{2} & p_{2, W}^{2} & p_{3, W}^{2} & ... & p_{H - 1, W}^{2} & p_{H, W}^{2} \\ p_{1, W}^{3} & p_{2, W}^{3} & p_{3, W}^{3} & ... & p_{H - 1, W}^{3} & p_{H, W}^{3} \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ p_{1, W}^{L - 1} & p_{2, W}^{L - 1} & p_{3, W}^{L - 1} & ... & p_{H - 1, W}^{L - 1} & p_{H, W}^{L - 1} \\ p_{1, W}^{L} & p_{2, W}^{L} & p_{3, W}^{L} & ... & p_{H - 1, W}^{L} & p_{H, W}^{L} \end{matrix}]}^{T} - - - (7)

Profile(D)：

{PD}_{i, j}^{k} = [\begin{matrix} p_{1, 1}^{1} & p_{1, 2}^{1} & p_{1,3}^{1} & ... & p_{1, W - 1}^{1} & p_{1, W}^{1} \\ p_{1, 1}^{2} & p_{1, 2}^{2} & p_{1,3}^{2} & ... & p_{1, W - 1}^{2} & p_{1, W}^{2} \\ p_{1, 1}^{3} & p_{1, 2}^{3} & p_{1,3}^{3} & ... & p_{1, W - 1}^{3} & p_{1, W}^{3} \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ p_{1, 1}^{L - 1} & p_{1, 2}^{L - 1} & p_{1,3}^{L - 1} & ... & p_{1, W - 1}^{L - 1} & p_{1, W}^{L - 1} \\ p_{1, 1}^{L} & p_{1, 2}^{L} & p_{1,3}^{L} & ... & p_{1, W - 1}^{L} & p_{1, W}^{L} \end{matrix}] - - - (8)

为了表达直观，以下将结合具体视频实例来阐述视觉感知能量的建模过程。所选用的视频序列的部分帧如图4所示，该视频具有明显的运动片段和静止片段，描述的是人(运动目标)在操场上慢跑，并且四次移入、移出视觉监视区域的过程。

图5给出了示例视频序列的四个侧面Profile(A)、Profile(B)、Profile(C)、Profile(D)。从图中可以观察到：在整个运动过程中，运动目标在不同的时间点分别四次跨域了边界Side(A)和Side(C)，没有跨越Side(B)和Side(D)；侧面中的所有运动目标都面向同一方向(左方)。此外，我们还可以观察到：视频侧面保留着完整的时间信息，索引精度可以达到1/60秒；但是空间信息却很匮乏，虽能捕捉所有跨越视频边界的运动目标，但运动目标都发生了不同程度的形变。

要实现视觉感知能量的建模，首先要解决两方面的问题：

(1)目标运动方向问题，(2)目标形变问题。

在视频侧面的形成过程中，边界总是处于运动目标的前方；因此，在视频侧面中所有的运动目标都面向左方。为此，可以通过设置视频次边界(临近且平行于视频边界)来判断目标运动方向，如图6所示。如果运动目标中心先通过视频边界，后通过视频次边界，则认为目标是移入视觉监视区域；反之，认为目标是移出视觉监视区域。这样，视频侧面中的目标便能够确定运动方向。

针对目标形变问题，将结合视频边界和目标运动方向进行分析。不失一般性，建立如图7所示的平面直角坐标系，y方向为运动目标将要跨越的视频边界。跨越边界时，运动目标的速度为其分量分别为u和v。u与视频边界y正交，v与视频边界y平行。目标主姿态方向与视频边界y成β夹角。

运动目标的形变包括水平方向形变和垂直方向形变两个方面。水平方向的形变取决于运动目标的水平分速度u，即侧面上目标的宽度与速度u成反比。如果运动目标以较高的速度u跨越视频边界，则目标宽度会变窄；反之，对于较低的速度u，运动目标的宽度会变宽。垂直方向的形变来源于夹角β和运动目标的垂直速度v。随着β的增大，目标高度会被压缩，随着v的增大，目标高度会被拉伸。显然，运动目标垂直于视频边界方向移入、移出视觉监视区域，视频侧面上的目标形变最小。为了视频侧面目标质量和计算速度的折中，本发明选取水平方向和垂直方向作为视频边界。

能量建模：为了能够直观的量化运动目标的视觉感知能量，本发明采用运动目标的像素数进行表征，为此，需要先对视频侧面进行背景减除。考虑到前景目标检测结果准确且目标丢失率低的问题，本发明选用混合高斯背景建模方法实现背景减除。

作为对单高斯模型的一种扩展和改进，混合高斯背景模型对抖动、光线变化等具有一定的适应性。它采用两个以上的高斯分布的概率密度函数进行加权平均后来平滑地逼近当前的密度分布函数，是一种经典、高效的背景建模方法。

混合高斯背景建模的基本原理是将视频帧的t时刻观测值为X_t的每一个像素点的概率分布P(X_t)用K个加权高斯分布模型来表征，对应的颜色分布函数为η(X_t,μ_k,t,∑_k,t)，公式表示如下：

P (X_{t}) = Σ_{k = 1}^{K} ω_{k, t} \times η (X_{t}, μ_{k, t}, Σ_{k, t}) - - - (9)

η (X_{t}, μ_{k, t}, Σ_{k, t}) = \frac{1}{{(2 π)}^{n / 2} ({| Σ_{k, t} |}^{1 / 2})} \exp {- \frac{1}{2} {(X_{t} - μ_{k, t})}^{T} Σ_{k, t}^{- 1} X_{t} - μ_{k, t}} - - - (10)

上式中：μ_k,t表示t时刻第k个高斯分布模型的均值，∑_k,t表示t时刻第k个高斯分布模型的方差，ω_k,t表示t时刻第k个高斯分布模型的权重，通常K的取值范围为3～5。为了减小计算量，一般假设各个颜色通道之间相互独立、互不相关。

运动目标快速穿过视觉监视区域，视觉监视区域的大部分区域表现为固定背景。在模型匹配的过程中，混合高斯模型方法将K个高斯分布的ω_k,t/σ_k,t按由大到小的顺序进行排列，对于输入的视频帧，将其与K个高斯分布的每一个均值按顺序依次进行比较，找到相匹配的高斯分布模型后，匹配过程结束。匹配条件为：

|X_t-μ_k,t|＜2.5σ_k,t (11)

上式中：σ_k,t为对应的标准差。

ω_k,t+1＝(1-α)×ω_k,t+α (12)

μ_k,t+1＝(1-ρ)×μ_k,t+ρ×X_t+1 (13)

σ_{k, t + 1}^{2} = (1 - ρ) \times σ_{k, t}^{2} + ρ \times {(X_{t + 1} - μ_{k, t + 1})}^{T} (X_{t + 1} - μ_{k, t + 1}) - - - (14)

ρ＝α×(X_t+1|μ_k,t,σ_k,t) (15)

而对于其它高斯分布模型，只更新权值ω_k,t+1，模型的均值和方差保持不变。

ω_k,t+1＝(1-α)×ω_k,t (16)

如果满足匹配条件的高斯模型不存在，则建立一个具有较高方差、较低权重、均值为X_t+1的高斯分布模型来替换第K个高斯模型。

模型参数更新完成以后，每个高斯模型有一个权重，按照权重进行降序排列。选取前N_B个高斯模型作为背景，N_B满足以下公式：

N_{B} = \arg \min_{b} (Σ_{k = 1}^{b} ω_{k, t} > T) - - - (17)

上式中：T其表示背景所占的比例，T∈(0,1)。

混合高斯背景建模算法框架如图8所示。根据图8所示的混合高斯背景建模算法框架，首先判断输入的视频帧是否与高斯分布匹配，然后分两种情况进行参数匹配，并执行不同的操作。这种背景建模算法的核心思想为：首先生成一个描述视觉监视区域的背景模型，然后根据新输入的视频帧和背景模型之间的相似度判断当前区域属于背景还是前景。

视频侧面是由视频序列的每一帧特定位置的像素行(或者列)组成的，因此，在对视频侧面图像进行高斯背景建模时，实质上是对侧面的行(或者列)进行建模，得到背景模型。在高斯背景模型中，视频侧面的每一列视作高斯模型的一个输入，模型参数逐列进行更新。高斯均值μ和方差σ²的更新公式如下：

\{\begin{matrix} μ^{t + 1} = (1 - α) μ^{t} + {αG}_{B}^{t + 1} \\ {(σ^{2})}^{t + 1} = (1 - α) {(σ^{2})}^{t} + α (G_{B}^{t + 1} - μ^{t + 1}) {(G_{B}^{t + 1} - μ^{t + 1})}^{T} \end{matrix} - - - (18)

上式中：是视频侧面中列t+1的灰度。α为修正率，定义如下：

α = \{\begin{matrix} 1 / M_{n}, & t < 200 \\ 0.005, & t &GreaterEqual; 200 \end{matrix} - - - (19)

其中：M_n是匹配次数。

视频侧面的方差σ²为

σ^{2} = [\begin{matrix} σ_{x_{1}, y_{1}}^{2} & σ_{x_{2}, y_{1}}^{2} & ... & σ_{x_{L}, y_{1}}^{2} \\ σ_{x_{1}, y_{2}}^{2} & σ_{x_{2}, y_{2}}^{2} & ... & σ_{x_{L}, y_{2}}^{2} \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ σ_{x_{1}, y_{p}}^{2} & σ_{x_{2}, y_{p}}^{2} & ... & σ_{x_{L}, y_{p}}^{2} \end{matrix}] - - - (20)

其中：y_p是视频侧面的个数，一般取4。

视频侧面的背景模型生成后，可以自适应的进行背景更新，能够适应环境干扰随时间的缓慢变换，并且对周期性干扰具有一定的抑制作用。

检测视频侧面的每一个像素I_p是否服从N(μ,δ)分布，前景运动目标可以通过以下公式获得：

I_{f} = \{\begin{matrix} 0, & I_{p} ~ N (μ, δ) \\ 1, & e l s e \end{matrix} - - - (21)

根据公式(21)视频侧面上的运动目标可以从背景中分离出来，分离后的视频四侧面时空图如图9所示。

运动目标跨越视觉监视区域的边界会持续短暂的时间，并且目标的中心位置经过边界时，视频侧面上的运动目标像素最稳定、像素数量最大。基于这一事实，本发明定义视频侧面上的单视频帧目标像素数目为对应视频帧的视觉感知能量，对应的，视觉感知能量大于设定阈值的视频片段为运动片段。

每一个运动目标在跨越视觉监视区域的边界时都会在视频侧面上留下具有一定形变的目标图像，图像像素数目反应了运动目标跨越视觉监视区域边界的过程。根据图9，视频序列的每一帧F_i的(A)侧面上的视觉感知能量VPE(Visual Perception Energy)可以由以下公式计算得到：

{VPE}_{A} (F_{i}) = Σ_{j = 1}^{W} {N_{A} [I_{f} (F_{i})]}_{j} - - - (22)

上式中：

N_{A} [I_{f} (F_{i})] = \{\begin{matrix} 1, & \begin{matrix} i f & {[I_{f} (F_{i})]}_{j} &NotEqual; 0 \end{matrix} \\ 0, & e l s e \end{matrix} - - - (23)

相似的，可以得到：

{VPE}_{B} (F_{i}) = Σ_{j = 1}^{W} {N_{B} [I_{f} (F_{i})]}_{j} - - - (24)

{VPE}_{C} (F_{i}) = Σ_{j = 1}^{W} {N_{C} [I_{f} (F_{i})]}_{j} - - - (25)

{VPE}_{D} (F_{i}) = Σ_{i = 1}^{W} {N_{D} [I_{f} (F_{i})]}_{j} - - - (26)

将视频序列每一帧的四个侧面的视觉感知能量相加可以得到该视频帧的视觉感知能量，如以下公式所示。

VPE(F_i)＝VPE_A(F_i)+VPE_B(F_i)+VPE_C(F_i)+VPE_D(F_i) (27)

将视频序列的每一帧的视觉感知能量VPE值连接起来，可以得到VPE曲线。检测VPE曲线拐点，就可以得到视频的目标运动状况。正能量拐点代表着有运动目标移入视觉监视区域，负能量拐点表示有运动目标移出视觉监视区域，如图10所示。

视频序列的累积视觉感知能量反应了视频片段内有无运动目标，如图11所示。当累积VPE大于设定阈值(此处为100)时的视频片段为运动片段，其它的视频片段为静止片段。

由图11可以看出：视频静止片段的累积VPE并不为0，有的片段甚至很大(超过50)，这主要是由于同一目标在移入、移出视觉监视区域时的视觉感知能量不相等引起的。为此，需要对视觉感知能量进行修正。

能量修正：受到目标尺寸、形状以及目标与视觉监视区域边界的夹角等因素的影响，按照上一节的直接视觉感知能量检测方法很难做到同一目标在移入、移出视觉监视区域时具有相等的视觉感知能量。为此，本发明采用运动目标特征匹配的方法对视觉感知能量进行修正。这种方法以目标移入视觉监视区域时具有的视觉感知能量为基准，目标移出视觉监视区域时的视觉感知能量自动修正为目标基准能量，从而实现了同一目标在移入、移出视觉监视区域时具有相等的视觉感知能量。

运动目标移入视觉监视区域后(记为I_n)，采用三个特征模型对目标进行描述，分别为表观模型(the appearance model)运动预测模型(the motion predictionmodel)和时间连续性模型(the temporal continuity model)相似的，对于移出视觉监视区域的运动目标(记为O_m,t)可以描述为：表观模型(the appearance model)运动预测模型(the motion prediction model)和时间连续性模型(the temporalcontinuity model)在运动目标I_n移入视觉监视区域时，逐一建立匹配特征表并存储到目标特征数据库中；对于移出视觉监视区域的运动目标O_m,t将与目标特征数据库中的I_n特征进行匹配，按照以下公式修正其视觉感知能量：

同时对目标特征数据库进行更新，去除已经移出视觉监视区域的匹配特征表。移出的目标产生负能量，视频序列的累积视觉感知能量变小。

修正后的视觉感知能量随着时间轴的变化情况如图12所示。从中可以看出：同一运动目标移入、移出视觉监视区域的视觉感知能量相等。

修正后的视频序列的累积视觉感知能量如图13所示。相比于图11中的累积视觉感知能量曲线，图13中静止片段的视觉感知能量值为0，运动片段与静止片段的区分更加明显，提高了运动片段边界检测的准确度。

对于在运动目标特征数据库中没有找到匹配特征的运动目标，是由于视觉监视区域内的静止目标开始运动并跨越视觉监视区域边界造成的。此种情况将在后续视频运动片段边界检测中做专门处理。

运动片段分割：视频序列通常由每秒25到30帧的视频帧组成。因此，一小时时长视频的数据量将达到90000到108000帧。面对如此庞大的视频数据，传统的逐帧、逐像素进行比对的方法，虽然能够保证时间精度，但是计算量很大，并且容易受到环境干扰的影响。本发明基于视觉感知能量进行运动片段分割，视觉感知能量来源于视频监视区域的边界，完整的保留了视频时间信息，要处理的视频数据量却大大降低，同时也有效避免了环境干扰。

这种方法有两个问题需要考虑：(1)监视区域边界的位置选择；(2)边界、次边界的数量选择。

原则上提取的监视区域边界、次边界的数量越多，检测结果越准确，但是计算量也会随之加剧。边界的位置选在与目标运动方向正交的方向上，运动目标的视觉感知能量会越准确，但是现实情况中，目标运动方向多种多样，很难做到一致。考虑到检测准确性和计算效率，本发明选取一对边界和次边界对跨越监视区域边界的运动目标进行检测，同时在监视区域的四个两两正交的目标移入、移出区域的方向上(参考图3)选取监视区域边界。根据视频序列的累积视觉感知能量确定视频运动片段，进行监控视频分割。

一般来说，视频中会有多个独立的运动片段。可以将这些独立片段视为子片段，组合成一个更长的视频片段S_m，整合过程如下：

S_m＝[S_m(1)S_m(2)…S_m(N_s)] (29)

上式中，N_s是运动子片段数目。

后续的视频浓缩处理步骤都是在本发明所检测出来的视频运动片段的基础上进行的，而不用考虑整个视频，需要处理的视频数据量大大降低。

本发明所提出的运动片段检测方法是基于监视区域边界检测实现的，需要处理的视频数据量大大降低，同时也避免了视觉监视区域的渐变运动干扰，通常情况下能够取得较好的监控视频运动片段分割效果。但是不适用于运动目标移入视觉监视区域后停止、背景静止目标开始运动后移出视觉监视区域的情况。对于这种情况，本发明所提出的算法规定运动目标移入视觉监视区域的时间超过设定阈值T后，认为目标移出区域，在失配标记前的T时间的视频帧视作运动片段。通常取T为目标平均穿越监视区域所需时间的2倍，这是一种运算量和处理效果折中的做法。

对于视频运动片段分割来说，有效性、准确性是重要的评估准则。对于专业视频的分割性能通常用召回率和准确率来评估，此类准则同样也可以用于评估监控视频的分割。召回率和准确率定义如下：

召回率：

R = \frac{N_{c}}{N_{c} + N_{m}} - - - (30)

准确率：

P = \frac{N_{c}}{N_{c} + N_{f}} - - - (31)

上式中：N_c为检测到的正确的运动片段边界数目，N_f为检测到的错误的运动片段边界数目(误检数目)，N_m为未检测到的但是正确的运动片段边界数目(漏检数目)。

召回率是正确的运动片段边界被检测到的概率，而准确率是所检测到的运动片段边界是正确边界的概率。召回率和准确率越高表明所提出的视频运动片段分割算法的性能越好，但是单独一项评估值很高并不能说明算法性能的好坏。比如，通过选取过多的边界可以达到很高的召回率，但是此时准确率会降低，反之亦然，即两者之间“此消彼长”。为了得到一个单一的综合指标，可以把两者结合得到F₁准则，定义如下：

F₁值高表明召回率和准确率都很高。

为了评估本发明所提出的运动片段分割算法的性能，将本发明所提出的方法与当前主流的基于像素比较的视频片段分割方法进行了比较，比较结果如表1所示。

表1 视频运动片段分割方法性能比较

从表中可以看出：本发明所提出的监控视频运动片段分割方法的F₁值(0.892)高于对比方法(0.825)，这说明所提算法具有更好的分割性能。虽然两种方法的召回率相当(0.886和0.912)，但是本发明所提出的方法的准确率具有明显的提高，具体提高了：

\frac{0.903 - 0.768}{0.768} \times 100 % = 17.6 % - - - (33)

这是因为所提出的方法基于视觉监视区域的边界检测进行，避免了监视场景内部的环境干扰和运动干扰(如Video.1中的仪器柜门打开、Video.3中的挡车杆升降、Video.4中的树叶晃动、Video.9中的光线变化)；而对比方法基于颜色直方图和像素进行分割，对干扰比较敏感；与此同时，本发明所提出的方法也丢失了一些自始至终没有跨域监视区域边界的运动过程，影响了其召回率性能。此外，相对于其它9段视频，Video.4的召回率和准确率都要低很多，这是由于该视频中存在“只进未出”和“未进只出”的运动目标(如：人步行进入监视区域，过段时间以后乘车离开监视区域)，对这类运动目标，所提算法做了2倍阈值的近似处理，对分割结果造成了一定的影响。

在数据计算量上，所提算法具有明显的优势，它只需处理视频监视区域边界的行、列像素，计算量取决于前景目标的数目。

运动是视频的显著特征，本发明分析了监控视频的结构特征，指出了监控视频是由运动片段和静止片段相互交叉组成的，分割出其中的运动片段可以大大降低视频数据量；监控视频通常背景固定，运动片段与静止片段的更替具有显著的渐变特性，而渐变检测是当前视频分割领域的瓶颈问题。现有方法多是基于全局像素特征进行分割，受环境、光线等诸多干扰因素的影响，检测准确率很难满足需求。

为此，本发明从一个全新的角度来审视视频运动片段分割问题，提出了一种基于视觉感知能量的视频运动片段分割方法。该方法首先分析了运动目标移入、移出监视区域边界的特征，采用表观模型、运动预测模型和时间连续性模型对运动目标进行描述，构建目标特征数据库；然后将目标不同方向的运动建模成视觉感知能量，移入视觉监视区域的目标具有正能量、移出视觉监视区域的目标具有负能量，累积能量表征着当前视频片段的运动剧烈程度；最后采用运动目标特征匹配对累积视觉感知能量进行修正，基于修正后的累积视觉感知能量进行视频运动片段的分割。不同于传统的视频运动片段分割方法，本发明所提出的方法只需要检测视频帧的边界行、列像素，而非全部像素，有效避免了环境、光线等外界干扰的长时间累积和多像素累积，提高了监控视频运动片段分割的准确率，需要处理的视频数据量也大大降低。实验结果表明本发明所提出的监控视频运动片段分割方法的准确率比当前主流方法提高了17.6％，并且计算复杂度低，对环境干扰具有较好的鲁棒性。

Claims

1.一种基于视觉感知能量的监控视频运动片段分割方法，其特征在于包括如下步骤：

检测VPE的拐点，对正负能量拐点进行处理；

根据累积VPE曲线进行监控视频运动片段分割，其中VPE是指视觉感知能量。

2.如权利要求1所述的基于视觉感知能量的监控视频运动片段分割方法，其特征在于：所述方法还包括将分割后的运动片段进行整合的步骤。

3.如权利要求1所述的基于视觉感知能量的监控视频运动片段分割方法，其特征在于：运动目标移入视觉监视区域产生正能量，运动目标移出视觉监视区域产生负能量。

4.如权利要求1-3中任意一项所述的基于视觉感知能量的监控视频运动片段分割方法，其特征在于：

通过设置视频次边界来判断目标运动方向，该视频次边界位于所述视频边界内，且临近并平行于视频边界，如果运动目标中心先通过视频边界，后通过视频次边界，认为目标是移入视觉监视区域；反之，认为目标是移出视觉监视区域。

5.如权利要求1或2所述的基于视觉感知能量的监控视频运动片段分割方法，其特征在于所述的在运动目标移入、移出视觉监视区域的边界提取监控视频序列的侧面的方法如下：

Side(A)：

Side(B)：

Side(C)：

Side(D)：

Profile(A)：

{PA}_{i, j}^{k} = {[\begin{matrix} p_{1, 1}^{1} & p_{2, 1}^{1} & p_{3, 1}^{1} & ... & p_{H - 1, 1}^{1} & p_{H, 1}^{1} \\ p_{1, 1}^{2} & p_{2, 1}^{2} & p_{3, 1}^{2} & ... & p_{H - 1, 1}^{2} & p_{H, 1}^{2} \\ p_{1, 1}^{3} & p_{2, 1}^{3} & p_{3, 1}^{3} & ... & p_{H - 1, 1}^{3} & p_{H, 1}^{3} \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ p_{1, 1}^{L - 1} & p_{2.1}^{L - 1} & p_{3, 1}^{L - 1} & ... & p_{H - 1, 1}^{L - 1} & p_{H, 1}^{L - 1} \\ p_{1, 1}^{L} & p_{2, 1}^{L} & p_{3, 1}^{L} & ... & p_{H - 1, 1}^{L} & p_{H, 1}^{L} \end{matrix}]}^{T}

Profile(B)：

{PB}_{i, j}^{k} = [\begin{matrix} p_{H, 1}^{1} & p_{H, 2}^{1} & p_{H, 3}^{1} & ... & p_{H, W - 1}^{1} & p_{H, W}^{1} \\ p_{H, 1}^{2} & p_{H, 2}^{2} & p_{H, 3}^{2} & ... & p_{H, W - 1}^{2} & p_{H, W}^{2} \\ p_{H, 1}^{3} & p_{H, 2}^{2} & p_{H, 3}^{3} & ... & p_{H, W - 1}^{3} & p_{H, W}^{3} \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ p_{H, 1}^{L - 1} & p_{H, 2}^{L - 1} & p_{H, 3}^{L - 1} & ... & p_{H, W - 1}^{L - 1} & p_{H, W}^{L - 1} \\ p_{H, 1}^{L} & p_{H, 2}^{L} & p_{H, 3}^{L} & ... & p_{H, W - 1}^{L} & p_{H, W}^{L} \end{matrix}]

Profile(C)：

{PC}_{i, j}^{k} = {[\begin{matrix} p_{1, W}^{1} & p_{2, W}^{1} & p_{3, W}^{1} & ... & p_{H - 1, W}^{1} & p_{H, W}^{1} \\ p_{1, W}^{2} & p_{2, W}^{2} & p_{3, W}^{2} & ... & p_{H - 1, W}^{2} & p_{H, W}^{2} \\ p_{1, W}^{3} & p_{2, W}^{3} & p_{3, W}^{3} & ... & p_{H - 1, W}^{3} & p_{H, W}^{3} \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ p_{1, W}^{L - 1} & p_{2, W}^{L - 1} & p_{3, W}^{L - 1} & ... & p_{H - 1, W}^{L - 1} & p_{H, W}^{L - 1} \\ p_{1, W}^{L} & p_{2, W}^{L} & p_{3, W}^{L} & ... & p_{H - 1, W}^{L} & p_{H, W}^{L} \end{matrix}]}^{T}

Profile(D)：

{PD}_{i, j}^{k} = [\begin{matrix} p_{1, 1}^{1} & p_{1, 2}^{1} & p_{1, 3}^{1} & ... & p_{1, W - 1}^{1} & p_{1, W}^{1} \\ p_{1, 1}^{2} & p_{1, 2}^{2} & p_{1, 3}^{2} & ... & p_{1, W - 1}^{2} & p_{1, W}^{2} \\ p_{1, 1}^{3} & p_{1, 2}^{3} & p_{1, 3}^{3} & ... & p_{1, W - 1}^{3} & p_{1, W}^{3} \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ . & . & . & . & . & . \\ p_{1, 1}^{L - 1} & p_{1, 2}^{L - 1} & p_{1, 3}^{L - 1} & ... & p_{1, W - 1}^{L - 1} & p_{1, W}^{L - 1} \\ p_{1, 1}^{L} & p_{1, 2}^{L} & p_{1, 3}^{L} & ... & p_{1, W - 1}^{L} & p_{1, W}^{L} \end{matrix}] .

6.如权利要求1或2所述的基于视觉感知能量的监控视频运动片段分割方法，其特征在于所述的分析视频侧面上的目标形变的方法如下：

7.如权利要求1或2所述的基于视觉感知能量的监控视频运动片段分割方法，其特征在于所述的对正负能量拐点进行处理的方法包括如下步骤：

8.如权利要求1或2所述的基于视觉感知能量的监控视频运动片段分割方法，其特征在于在检测VPE的拐点的过程中需要对VPE曲线进行描述，所述VPE曲线进行描述的方法如下：

将视频帧的t时刻观测值为X_t的每一个像素点的概率分布P(X_t)用K个加权高斯分布模型来表征，对应的颜色分布函数为η(X_t,μ_k,t,Σ_k,t)，公式表示如下：

P (X_{t}) = Σ_{k = 1}^{K} ω_{k, t} \times η (X_{t}, μ_{k, t}, Σ_{k, t})

η (X_{t}, μ_{k, t} Σ_{k, t}) = \frac{1}{{(2 π)}^{n / 2} (| Σ_{k, t} |^{1 / 2})} \exp {- \frac{1}{2} {(X_{t} - μ_{k, t})}^{T} Σ_{k, t}^{- 1} X_{t} - μ_{k, t}}

上式中：μ_k,t表示t时刻第k个高斯分布模型的均值，Σ_k,t表示t时刻第k个高斯分布模型的方差，ω_k,t表示t时刻第k个高斯分布模型的权重，K的取值范围为3～5；

|X_t-μ_k,t|＜2.5σ_k,t

上式中：σ_k,t为对应的标准差；

ω_k,t+1＝(1-α)×ω_k,t+α

μ_k,t+1＝(1-ρ)×μ_k,t+ρ×X_t+1

σ_{k, t + 1}^{2} = (1 - ρ) \times σ_{k, t}^{2} + ρ \times {(X_{t + 1} - μ_{k, t + 1})}^{T} (X_{t + 1} - μ_{k, t + 1})

ρ＝α×(X_t+1|μ_k,t,σ_k,t)

ω_k,t+1＝(1-α)×ω_k,t

N_{B} {argmin}_{b} (Σ_{k = 1}^{b} ω_{k, t} > T)

上式中：T表示背景所占的比例，T∈(0,1)；

\{\begin{matrix} μ^{t + 1} = (1 - α) μ^{t} + {αG}_{B}^{t + 1} \\ {(σ^{2})}^{t + 1} = (1 - α) {(σ^{2})}^{t} + α (G_{B}^{t + 1} - μ^{t + 1}) {(G_{B}^{t + 1} - μ^{t + 1})}^{T} \end{matrix}

α = \{\begin{matrix} 1 / M_{n}, & t < 200 \\ 0.005, & t &GreaterEqual; 200 \end{matrix}

其中：M_n是匹配次数，视频侧面的方差σ²为

σ^{2} = [\begin{matrix} σ_{x_{1}, y_{1}}^{2} & σ_{x_{2}, y_{1}}^{2} & ... & σ_{x_{L}, y_{1}}^{2} \\ σ_{x_{1}, y_{2}}^{2} & σ_{x_{2}, y_{2}}^{2} & ... & σ_{x_{L}, y_{2}}^{2} \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ σ_{x_{1}, y_{p}}^{2} & σ_{x_{2}, y_{p}}^{2} & ... & σ_{x_{L}, y_{p}}^{2} \end{matrix}]

其中：y_p是视频侧面的个数，取4；

I_{f} = \{\begin{matrix} 0, & I_{p} ~ N (μ, δ) \\ 1, & e l s e \end{matrix}

{VPE}_{A} (F_{i}) = Σ_{j = 1}^{W} {N_{A} [I_{f} (F_{i})]}_{j}

上式中：

N_{A} [I_{f} (F_{i})] = \{\begin{matrix} 1, & i f {[I_{f} (F_{i})]}_{j} &NotEqual; 0 \\ 0, & e l s e \end{matrix}

相似的，可以得到：

{VPE}_{B} (F_{i}) = Σ_{j = 1}^{W} {N_{B} [I_{f} (F_{i})]}_{j}

{VPE}_{C} (F_{i}) = Σ_{j = 1}^{W} {N_{C} [I_{f} (F_{i})]}_{j}

{VPE}_{D} (F_{i}) = Σ_{j = 1}^{W} {N_{D} [I_{f} (F_{i})]}_{j}

VPE(F_i)＝VPE_A(F_i)+VPE_B(F_i)+VPE_C(F_i)+VPE_D(F_i)

9.如权利要求1或2所述的基于视觉感知能量的监控视频运动片段分割方法，其特征在于所述的修正VPE的方法如下：

10.如权利要求2所述的基于视觉感知能量的监控视频运动片段分割方法，其特征在于所述的将分割后的运动片段进行整合的方法如下：

S_m＝[S_m(1) S_m(2) … S_m(N_s)]

上式中，N_s是运动子片段数目。