CN102156702B

CN102156702B - 一种由粗到精的视频事件的快速定位方法

Info

Publication number: CN102156702B
Application number: CN 201010593169
Authority: CN
Inventors: 吴娴; 杨兴锋; 王春芙; 张东明; 何崑
Original assignee: NANFANG DAILY GROUP
Current assignee: NANFANG DAILY GROUP
Priority date: 2010-12-17
Filing date: 2010-12-17
Publication date: 2012-12-12
Anticipated expiration: 2030-12-17
Also published as: CN102156702A

Abstract

本发明公开了一种由粗到精的视频事件的快速定位方法，首先对查询事件和真实视频进行粗匹配获得真实视频时间分割的起止点，然后提取真实视频中的每帧图像的感兴趣区域完成真实视频的空间分割，然后真实视频经空间分割和时间分割后得到一系列感兴趣空时体，在感兴趣空时体和查询事件之间进行精匹配，从而构造出相关体，在相关体上利用全局显著性测试判断每个感兴趣空时体是否存在与查询样本相似的事件。最后采用后处理方法控制最佳匹配显著点周围的空时区域定位和显示。本发明通过预先采用粗匹配方法可排除大量“无关”空时区域，有效地降低匹配搜索空间，使得精匹配只需在感兴趣空时体与查询事件之间进行，加快了搜索速度。

Description

一种由粗到精的视频事件的快速定位方法

技术领域

本发明属于视频事件定位方法研究领域，特别涉及一种由粗到精的视频事件的快速定位方法。

背景技术

视频事件的定位在视频检索、视频浏览、智能监控和人体运动分析等方面有着广泛的应用。目前视频事件的定位方法主要分为两类：基于学习的方法和无需学习的方法。基于学习的方法需要对每种查询事件建立训练模型，但是因为模型的训练需要调整多项参数，可能出现过拟合现象。无需学习的方法不需要训练只需用户提供相应的查询事件即可以进行视频事件的定位，搜索得到查询事件在真实视频中所处的空时位置。这类方法以查询事件作为模板在真实视频中进行匹配搜索，但真实视频通常持续较长时间，且其搜索区域是X-Y-T三维空间，从而会产生巨大的计算花费，因此穷举搜索法显得不太可行。为了降低巨大的搜索空间，现在多采用对真实视频进行下采样的方法，或是只在时间和空间固定尺度上的采样空间中进行简单定位，但这种做法查全率较低，并且大量时间仍被浪费在真实视频中不可能存在查询事件的空时位置上，不够实用。

E.Shechtman，和M.Irani在2007年的CVPR(Computer Vision and PatternRecognition，计算机视觉与模式识别)会议上发表了一篇名称为：Matching localself-similarities across images and videos的文章，该文章公开了一种根据局部自相似特征来测量视频事件相似性的方法，该方法通过在X-Y-T方向上不重叠地划分视觉体，然后挖掘局部自相似特征从而度量图像或视频的相似性。

H.J.Seo和P.Milanfar在2009年的IEEE International Conference onComputer Vision杂志上发表了一篇名称为：Detection of human actions from asingle example的文章，该文章公开了的算法是先计算显著的空时局部回归核特征，然后采用余弦相似测度度量查询事件与输入视频中每个立方体相似的可能性。

以上两种方法仅提供了可视化的实验结果，并没有对检测率进行统计，无法定量地进行精确比较。并且采用以上两种方法实现查询事件在视频中的定位必须在X-Y-T的完全空间中进行搜索，为了降低巨大的搜索空间，它们均对原始视频进行下采样，这种做法比较容易产生漏检，且大量计算代价仍被花费在不可能包含查询事件的空时位置上。以上的技术缺陷使得现有视频事件的定位方法无论从性能还是时间效率上，并没有达到实用要求，限制了此方法的应用范围。

因此，研究一种既能精确定位又无需大量搜索时间的视频事件的快速定位方法成为一个有实际意义的课题。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种由粗到精的视频事件的快速定位方法，其既能精确定位又无需大量搜索时间，减少计算代价。

本发明的目的通过以下的技术方案实现：一种由粗到精的视频事件的快速定位方法，具体包括以下步骤：

(1)感兴趣空时体的粗搜索：通过对真实视频的时间分割得到一组最有可能包含查询事件的视频片断，通过对真实视频的空间分割得到每帧图像的感兴趣区域，将视频片断中每帧图像的感兴趣区域规范化后按时序堆叠起来即构成感兴趣空时体集合，其中对真实视频的时间分割包括空时兴趣点检测、对空时分体进行HOG(Histograms of Oriented Gradients，梯度方向直方图)特征和HOF(Histograms of Optical Flow，光流直方图)特征提取、采用卡方距离方法对空时分体进行特征匹配、采用分类算法确定视频片段起止点；对真实视频的空间分割包括利用历史帧和当前帧信息构造时间显著图、根据时间显著图的计算结果确定空间感兴趣区域；

(2)感兴趣空时体集合与查询事件的精匹配：采用空时自相似性算子对查询事件和目标体的局部几何结构分别进行描述，并将所有像素的自相似体转化为向量，然后采用PCA(Principal Component Analysis，主成分分析)方法提取显著特征并采用余弦相似性进行度量，构造出相关体，然后在相关体上采用全局显著性测试得到显著点，最后根据显著点分布来判断在每个目标体中是否存在与查询样本相似的事件；

(3)查询事件的精确定位：采用区域增长/分裂合并技术和非最大值抑制方法进行后处理，用于控制最佳匹配显著点周围的空时区域定位。最后根据事先记录的每个目标体在真实视频中的空时位置，将目标体映射到真实视频，以Y方向上的尺寸为基准，采用固定大小的矩形边框在真实视频的每帧图像中显示视频事件的精确定位结果。

所述步骤(1)中对真实视频的时间分割算法具体步骤如下：

(11-1)空时兴趣点检测：首先在单一的空间和时间尺度上检测空时兴趣点，方法具体如下：首先对空时图像序列f建模：

其中，设定空间方差为

，时间方差为

，则空时可分的高斯核定义为：

g (x, y, t; σ_{l}^{2}, τ_{l}^{2}) = \frac{1}{\sqrt{{(2 π)}^{3} σ_{l}^{4} τ_{l}^{2}}} \exp (- \frac{(x^{2} + y^{2})}{2 σ_{l}^{2}} - \frac{t^{2}}{2 τ_{l}^{2}})

对于给定尺度集合

在单一尺度上进行空时兴趣点的检测，定义s＝1；计算空时二阶矩，并通过与高斯权重函数的卷积得：

μ = g (\cdot; σ_{i}^{2}, τ_{i}^{2}) * (\begin{matrix} L_{x}^{2} & L_{x} L_{y} & L_{x} L_{t} \\ L_{x} L_{y} & L_{y}^{2} & L_{y} L_{t} \\ L_{x} L_{t} & L_{y} L_{t} & L_{t}^{2} \end{matrix})

其中一阶导数被定义为：

L_{x} (\cdot; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{x} (g * f)

L_{y} (\cdot; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{y} (g * f)

L_{t} (\cdot; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{t} (g * f)

然后找到μ中相对较大的特征值λ₁、λ₂和λ₃，由此需要计算函数：

H＝det(μ)-k trace³(μ)

＝λ₁λ₂λ₃-k(λ₁+λ₂+λ₃)³

为了更好地显示具有较大λ₁、λ₂和λ₃值的点与H中正的局部最大值的点之间的对应关系，定义α＝λ₂/λ₁，β＝λ₃/λ₁，将H重新表示为：

H = λ_{1}^{3} (αβ - k {(1 + α + β)}^{3})

若要满足H≥0，则k≤αβ/(1+α+β)³。f的空时兴趣点检测等价于寻找H中局部正的空时最大值在空时体中的对应点。通过以上方法检测空时兴趣点并且以每个检测得到的空时兴趣点为中心，在时间和空间方向上按照固定大小取得空时分体；

(11-2)空时分体特征提取：对得到的每个空时分体中的每帧图像提取其HOG特征和HOF特征，将提取得到的单帧HOG特征按时序连接起来作为整个空时分体的表观特征，将提取得到的单帧HOF特征按时序接连起来作为整个空时分体的局部运动特征，空时分体的特征由表观和运动特征共同构成；

(11-3)空时分体特征匹配：查询行为样本中第i个空时兴趣点所对应的分体用SV_i表示，输入视频中第j个空时兴趣点所对应的分体用SV_j表示，直方图形式的分体特征用His表示，码矩阵M中的元素M_ij为His(SV_i)和His(SV_j)之间的卡方距离，具体计算公式如下：

M_{ij} = χ^{2} (His ({SV}_{i}), His ({SV}_{j}))

= Σ_{b = 1}^{B} \frac{{(His {({SV}_{i})}_{b} - His {({SV}_{j})}_{b})}^{2}}{His {({SV}_{i})}_{b} + His {({SV}_{j})}_{b}}

其中b为每个直方图的仓库(bins)索引，计算出码矩阵M中的所有元素后，取一定阈值对码矩阵进行二值化；然后求出该空时分体的码矩阵列向量的和，得到一个向量colsum(M)，若colsum(M)_j＞δ，δ为设定的阈值，则认为输入视频中第j个空时兴趣点所对应的空时分体是显著的；

(11-4)确定视频片段起止点：将显著空时分体的时间位置作为样本数据，记作P＝{P₁，P₂，L P_l}，其中l为显著分体的个数，具体算法如下：首先将P₁作为一类，假设事件之间同一动作点发生的时间间隔至少大于1秒，以30fps的视频序列为考察对象，那么同一类所包含的时间位置样本数据间隔应该在30帧以内，以此假设为根据，若P₂与P₁差值在30帧之内，则初步判断P₂与P₁相近，将P₁和P₂归为一类，通过计算该类内整个样本数据的均值来重新确定这类的中心；若否，则确定P₂为一个新类别，依此类推，直到判断完所有显著空时分体，并得到一系列的类，然后忽略样本数少于查询事件中显著分体个数的30％的孤立类，剩下的每个类则代表真实视频中分割出的时间片断，将每个类内的最小值T_start和最大值T_end取出来，然后设定一个阈值Ex，用于补偿可能产生的分割误差，那么[T_start-Ex，T_end+Ex]区间内的视频片断即为真实视频的时间分割结果。

所述步骤(11-1)中的空时分体的大小为32×32×10，32×32为所取空时分体图像大小，10指10帧图像。

所述步骤(11-2)中所采用的HOG特征是在统计梯度方向8个直方图仓库(Histogram bins)的直方图并归一化消除光照的影响后得到的。

所述步骤(11-2)中的梯度方向直方图和光流直方图均为128维。

所述步骤(11-3)中的阈值为计算得到的码矩阵M中的最大元素值的20％。

所述步骤(1)中对真实视频的空间分割算法具体步骤如下：

(12-1)历史帧与当前帧集合的样本空间表示：设当前帧为Im₀，空时体由当前帧和历史N-1帧构成，即为Im₀，Im₁，L，Im_N-1，然后将空时体分成互不重叠的若干个空时片，每个空时片大小为M×M×N，用x_i表示空时片中第i个块灰度图像的向量，则时间向量集合X为：

X＝{x₀，x₁，L，x_N-1}；

然后利用PCA方法从X中得到投影矩阵W和q个最主要成分，并将结果写入大小为q×N的矩阵Y中，所得Y＝{y₀，y₁，L，y_N-1}，即X中每个M²维向量x_i转变成Y中q维向量y_i；

(12-2)样本空间的概率密度估计：采用非参数核密度估计方法对样本空间Y进行密度建模，得到密度估计公式为：

\hat{f} (y) = \frac{1}{N} Σ_{i = 0}^{N - 1} {| | H (y_{i}) | |}^{- 1 / 2} κ (H {(y_{i})}^{- 1 / 2} (y - y_{i}))

其中H表示样本点y_i周围核的带宽矩阵；用h(y_i)表示样本y_i到第k个近邻点的距离，有H(y_i)＝h(y_i)I；其中κ表示核函数，I表示与带宽矩阵相同大小的全1矩阵；

(12-3)时间显著图的计算：根据步骤(12-2)计算出的

信息，将块(r，s)的时间显著图扩展到大小为M×M的块，得到如下表示：

其中ones(M)为创建一个大小为M×M的全1矩阵，对当前帧Im₀的每个互不重叠的块重复以上计算，则得到它的整体时间显著图；

(12-4)确定空间感兴趣区域：根据时间显著图检测出视频事件中包含运动信息的空间区域，将其进行预处理和二值化后，初步提取出空间感兴趣区域。

所述步骤(12-2)中，采用高斯核函数，则密度估计为：

\hat{f} (y) = \frac{1}{{(2 π)}^{q / 2} N} Σ_{i = 0}^{N - 1} [{| | h (y_{i}) I | |}^{- 1 / 2} \exp (- \frac{1}{2} {(y - y_{i})}^{T} ({(h (y_{i}))}^{- 1} I) (y - y_{i}))]

所述步骤(2)中感兴趣空时体集合与查询事件的精匹配的具体步骤如下：

(2-1)设Q为查询事件，{V(1)，V(2)，L，V(p)}为感兴趣空时体的集合，将感兴趣的空时体统一地称为目标体V，采用空时自相似性算子对查询事件Q和目标体V的局部几何结构分别进行描述，具体算法如下：

(2-1-1)对于每一个像素q，采用典型的SSD标准(Sum of SquareDifferences，差的平方和)比较其周围大小为l×m×n的片P与大小为x×y×t的空时窗口W，计算如下：

SSD^q(x，y，t)＝∑_lmn[W(x+l，y+m，t+n)-P(l，m，n)]²

＝∑_lmnW²(x+l，y+m，t+n)-...

...-2*W(x+l，y+m，t+n)*P(l，m，n)+P²(l，m，n)]

＝∑_lmnW²(x+l，y+m，t+n)H(l，m，n)-...

...-2*W(x+l，y+m，t+n)*P(l，m，n)+P²(l，m，n)]

其中H(l，m，n)是一个三维的门限函数，空时窗口W包含片P的区域被定义为1，其它区域为0；SSD的计算通过FFT(Fast Fourier Transformation，快速傅立叶变换)和IFFT(Inverse Fast Fourier Transformation，反快速傅立叶变换)实现；

(2-1-2)由步骤(2-1-1)计算出SSD后，可由以下公式求出局部自相似体：

C^{q} (x, y, t) = \exp (- \frac{{SSD}^{q} (x, y, t)}{{var}_{auto} \times {patchsize}^{2}})

其中分母为片大小的平方与可估的光度方差的乘积；

(2-2)将步骤(2-1-2)得到的局部自相似体转为一个向量，并将所有像素上向量化的局部自相似体串接起来构成D_Q和D_V，用以下公式计算：

其中N为局部自相似体中像素点个数，n_Q和n_V分别为查询行为Q和目标体V中有效像素点个数，vec表示局部自相似体的向量化表示形式；对于查询事件样本的几何结构描述D_Q，采用PCA方法通过投影矩阵

提取最大d个成分作为其显著特征

同时对于目标体几何结构描述D_V，利用投影矩阵P_r得到其显著特征

(2-3)对于目标体V的每个像素i，记为V_i，计算

与所有特征向量

的余弦相似度并求和得S_i：

S_{i} = Σ_{l = 1}^{n_{Q}} \frac{F {(D_{Q_{l}})}^{T} F (D_{V_{i}})}{| | F (D_{Q_{l}}) | | | | F (D_{V_{i}}) | |}

根据对应的像素点将S_i，i＝1，2，L，n_V组合为与目标体V相同大小的体，则相关体由统计函数计算得到，计算公式如下：

{CV}_{i} = S_{i}^{2} / (1 - S_{i}^{2});

相关体中的点值表示在此空时位置上查询事件与目标体相似的可能性；

(2-4)选取余弦相似度在置信方差δ之内的所有像素点作为显著点，即|S_i|＞1-δ的被认为是显著点，设定一个阈值τ，统计满足条件CV_i＞τ的显著点数目，如果目标体中显著点个数大于查询事件像素点个数的一定比率，则认为这一目标体至少存在一个与查询样本相似的事件，并记录目标体所在的空时位置，否则认为这一目标体不存在与查询样本相似的事件。

所述步骤(2-4)中采用假设-验证的简单方法来判断在同一目标体中是否存在多个与查询样本相似的事件，具体方法如下：假设目标体中存在两个与查询样本相似的事件，根据显著点的X-Y-T坐标将其分为两类，如果两类的中心距离小于设定阈值ζ，则认为只存在一个与查询样本相似的事件，并合并这两类，否则判断两个与查询样本相似的事件同时存在。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明提出的由粗到精的定位方法可大大降低视频体的搜索空间，计算花费更低。传统的无需学习的视频事件定位方法需在真实视频体中所有X-Y-T的空间进行穷举搜索，对计算能力要求甚高，且大部分的计算资源均被用于在视频体中的“无关”区域进行匹配搜索。而本发明通过预先采用粗匹配方法可排除大量“无关”空时区域，有效地降低匹配搜索空间，使得精匹配只需在感兴趣空时体与查询事件之间进行，加快了搜索速度。

2、本发明相对于传统的基于学习的方法不需要对查询事件的大量样本进行训练学习。在实际检索时，用户一般只提供若干个查询事件，并要求确定真实视频中是否包含此查询事件。这时采用基于学习的方法就变得不可行。

3、本发明利用局部几何结构挖掘视频体之间的相关性。虽然事件发生的场景、事件中人物穿着、动作幅度不尽相同，但类似事件的几何结构具有不变性。通过局部范围内三维片断与周围空时区域的相关性，并利用空时子相似性算子描述其几何特征，提取其显著成分进行相似性度量。实验证明，局部几何特征更优于传统的颜色、形状、纹理等特征。

附图说明

图1是本发明方法的算法流程图；

图2(a)-(d)是本发明中查询事件与真实视频中空时兴趣点检测以及空时分体划分结果的单帧图像显示图；

图3是本发明中真实视频时间显著图的构造过程图；

图4是以图2(a)作为查询事件所构建的码矩阵以及标示出的视频片断起止点；

图5(A-G)是由图4所得到的7个视频片段时间分割的三维体可视化示意图；

图6(A-G)是由图4所得到的7个视频片段空间分割的三维体可视化示意图；

图7是本发明中局部自相似体的可视化例子；

图8是本发明在真实视频中定位的实验效果图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

如图1所示，一种由粗到精的视频事件的快速定位方法，具体包括以下步骤：

(1)感兴趣空时体的粗搜索：通过对真实视频的时间分割得到一组最有可能包含查询事件的视频片断，通过对真实视频的空间分割得到每帧图像的感兴趣区域，将视频片断中每帧图像的感兴趣区域规范化后按时序堆叠起来即构成感兴趣空时体集合，其中对真实视频的时间分割包括空时兴趣点检测、对空时分体进行HOG特征和HOF特征提取、采用卡方距离方法对空时分体进行特征匹配、采用分类算法确定视频片段起止点；对真实视频的空间分割包括利用历史帧和当前帧信息构造时间显著图、根据时间显著图的计算结果确定空间感兴趣区域；

(2)感兴趣空时体集合与查询事件的精匹配：采用空时自相似性算子对查询事件和目标体的局部几何结构分别进行描述，并将所有像素的自相似体转化为向量，然后采用PCA方法提取显著特征并采用余弦相似性进行度量，构造出相关体，然后在相关体上采用全局显著性测试得到显著点，最后根据显著点分布来判断在每个目标体中是否存在与查询样本相似的事件；

所述步骤(1)中对真实视频的时间分割算法具体步骤如下：

其中，设定空间方差为，时间方差为

，则空时可分的高斯核定义为：

g (x, y, t; σ_{l}^{2}, τ_{l}^{2}) = \frac{1}{\sqrt{{(2 π)}^{3} σ_{l}^{4} τ_{l}^{2}}} \exp (- \frac{(x^{2} + y^{2})}{2 σ_{l}^{2}} - \frac{t^{2}}{2 τ_{l}^{2}})

对于给定尺度集合

在单一的空间和时间尺度上检测空时兴趣点，取s＝1。计算空时二阶矩，并通过与高斯权重函数的卷积得：

μ = g (\cdot; σ_{i}^{2}, τ_{i}^{2}) * (\begin{matrix} L_{x}^{2} & L_{x} L_{y} & L_{x} L_{t} \\ L_{x} L_{y} & L_{y}^{2} & L_{y} L_{t} \\ L_{x} L_{t} & L_{y} L_{t} & L_{t}^{2} \end{matrix})

其中一阶导数被定义为：

L_{x} (\cdot; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{x} (g * f)

L_{y} (\cdot; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{y} (g * f)

L_{t} (\cdot; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{t} (g * f)

H＝det(μ)-k trace³(μ)

＝λ₁λ₂λ₃-k(λ₁+λ₂+λ₃)³

H = λ_{1}^{3} (αβ - k {(1 + α + β)}^{3})

M_{ij} = χ^{2} (His ({SV}_{i}), His ({SV}_{j}))

= Σ_{b = 1}^{B} \frac{{(His {({SV}_{i})}_{b} - His {({SV}_{j})}_{b})}^{2}}{His {({SV}_{i})}_{b} + His {({SV}_{j})}_{b}}

其中b为每个直方图的仓库索引，计算出码矩阵M中的所有元素后，取一定阈值对码矩阵进行二值化；然后求出该空时分体的码矩阵列向量的和，得到一个向量colsum(M)，若colsum(M)_j＞δ，δ为设定的阈值，则认为输入视频中第j个空时兴趣点所对应的空时分体是显著的。在本实施例中取δ为5。

(11-4)确定视频片段起止点：将显著空时分体的时间位置作为样本数据，记作P＝{P₁，P₂，L P_l}，其中l为显著分体的个数，具体算法如下：首先将P₁作为一类，假设事件之间同一动作点发生的时间间隔至少大于1秒，以30fps的视频序列为考察对象，那么同一类所包含的时间位置样本数据间隔应该在30帧以内，以此假设为根据，若P₂与P₁差值在30帧之内，则初步判断P₂与P₁相近，将P₁和P₂归为一类，通过计算该类内整个样本数据的均值来重新确定这类的中心；若否，则确定P₂为一个新类别，依此类推，直到判断完所有显著空时分体，并得到一系列的类，然后忽略样本数少于查询事件中显著分体个数的30％的孤立类，剩下的每个类则代表真实视频中分割出的时间片断，将每个类内的最小值T_start和最大值T_end取出来，然后设定一个阈值Ex，用于补偿可能产生的分割误差，那么[T_start-Ex，T_end+Ex]区间内的视频片断即为真实视频的时间分割结果。在本实施例中取Ex为10。图4显示了以图2(a)所示芭蕾舞跳步作为查询事件所构建的码矩阵，并在码矩阵图上标示出的视频片断起止点。图5给出了所得到视频片段时间分割的三维体可视化示意图，即为最有可能包含查询事件的视频片断。

所述步骤(11-2)中所采用的HOG特征是在统计梯度方向8个直方图仓库的直方图并归一化消除光照的影响后得到的。

所述步骤(11-2)中的梯度方向直方图和光流直方图均为128维。

图3给出了时间显著图的构造过程，结合图3详细说明步骤(1)中对真实视频的空间分割算法的具体步骤，如下：

X＝{x₀，x₁，L，x_N-1}；

\hat{f} (y) = \frac{1}{N} Σ_{i = 0}^{N - 1} {| | H (y_{i}) | |}^{- 1 / 2} κ (H {(y_{i})}^{- 1 / 2} (y - y_{i}))

其中H表示样本点y_i周围核的带宽矩阵；用h(y_i)表示样本y_i到第k个近邻点的距离，有H(y_i)＝h(y_i)I；其中κ表示核函数，I表示与带宽矩阵相同大小的全1矩阵。

(12-3)时间显著图的计算：根据步骤(12-2)计算出的信息，将块(r，s)的时间显著图扩展到大小为M×M的块，得到如下表示：其中ones(M)为创建一个大小为M×M的全1矩阵，对当前帧Im₀的每个互不重叠的块重复以上计算，则得到它的整体时间显著图。在本实施例中取参数N＝20，即对于当前帧是否包含运动信息需要考察其历史19帧信息通过密度估计得到，其它参数q＝4，M＝4，k＝3。

所述步骤(12-2)中，采用高斯核函数，则密度估计为：

\hat{f} (y) = \frac{1}{{(2 π)}^{q / 2} N} Σ_{i = 0}^{N - 1} [{| | h (y_{i}) I | |}^{- 1 / 2} \exp (- \frac{1}{2} {(y - y_{i})}^{T} ({(h (y_{i}))}^{- 1} I) (y - y_{i}))]

图6给出了所得到视频片段空间分割的三维体可视化示意图，即为每帧图像的感兴趣区域。

(2-1-1)对于每一个像素q，采用典型的SSD标准比较其周围5×5×1大小的片P与30×30×5大小的空时窗口W，其中0≤x≤29，0≤y≤29，计算如下：

{SSD}^{q} (x, y, t) = \underset{n = 0}{Σ} Σ_{m = 0}^{4} Σ_{l = 0}^{4} {[W (x + l, y + m, t + n) - P (l, m, n)]}^{2}

= \underset{n = 0}{Σ} Σ_{m = 0}^{4} Σ_{l = 0}^{4} [W^{2} (x + l, y + m, t + n) - 2 * W (x + l, y + m, t + n) * P (l, m, n) + P^{2} (l, m, n)]

= \underset{n = 0}{Σ} Σ_{m = 0}^{4} Σ_{l = 0}^{4} [W^{2} (x + l, y + m, t + n) H (l, m, n) - 2 * W (x + l, y + m, t + n) * P (l, m, n) + P^{2} (l, m, n)]

其中H(l，m，n)是一个三维的门限函数，空时窗口W包含片P的区域被定义为1，其它区域为0；SSD的计算通过FFT和IFFT实现。加入门限函数后，上述公式的第一项由FFT和IFFT计算得到，第二项为查询事件样本与目标体的相关函数，第三项为查询行为样本的能量，是一个常数。

C^{q} (x, y, t) = \exp (- \frac{{SSD}^{q} (x, y, t)}{{var}_{auto} \times {patchsize}^{2}})

其中分母为片大小的平方与可估的光度方差的乘积。借助于色图，三维局部自相似体的可视化例子如附图7，其中1-4分别对应于原始帧图像中绿色标记像素点的局部自相似体。

提取最大d个成分作为其显著特征

在本实施例中取d＝30。

(2-3)对于目标体V的每个像素i，记为V_i，计算与所有特征向量

的余弦相似度并求和得S_i：

S_{i} = Σ_{l = 1}^{n_{Q}} \frac{F {(D_{Q_{l}})}^{T} F (D_{V_{i}})}{| | F (D_{Q_{l}}) | | | | F (D_{V_{i}}) | |}

余弦相似度S_i变化幅度从-1到1，通常-1表示完全相反，1表示完全相同，0表示不相关。根据对应的像素点将S_i，i＝1，2，L，n_V组合为与目标体V相同大小的体，则相关体由统计函数计算得到，计算公式如下：

(2-4)选取余弦相似度在置信方差δ之内的所有像素点作为显著点，即|S_i|＞1-δ的被认为是显著点，设定一个阈值τ，统计满足条件CV_i＞τ的显著点数目，如果目标体中显著点个数大于查询事件像素点个数的一定比率，则认为这一目标体至少存在一个与查询样本相似的事件，并记录目标体所在的空时位置，否则认为这一目标体不存在与查询样本相似的事件。为了尽量避免由于运动幅度不同而造成的漏检，这里的比率设置要适当，在实验环境中，一般取10％-15％。本实施例中选取置信度δ为5％，设定的阈值τ为10

所述步骤(2-4)中采用假设-验证的简单方法来判断在同一目标体中是否存在多个与查询样本相似的事件，具体方法如下：假设目标体中存在两个与查询样本相似的事件，根据显著点的X-Y-T坐标将其分为两类，如果两类的中心小于设定阈值ζ，一般情况下，阈值ζ设定为X-Y-T坐标差位于5个像素点之内，则认为只存在一个与查询样本相似的事件，并合并这两类，否则判断两个与查询样本相似的事件同时存在。

最后图8给出了本发明在四段真实视频中定位的实验效果图，其中彩色区域表示显著点集中区域，红色到蓝色显著度依次递减，以最显著点为中心采用固定大小方框表示已定位视频事件的单帧图像显示结果。图8(a)中两名舞蹈演员的前向交换腿的跳步均已被正确检测出。图8(b)以行走这一查询事件的正面和镜面反射作为查询样本在真实视频中进行搜索。图8(c)是在游泳赛事视频中查询运动员入水事件。图8(d)测试了多种查询事件在真实视频中的定位结果：跳、行走、拍手和挥手。

与已有方法相比，由粗到精的视频事件的快速定位方法精确度高，计算复杂度低，运行所需时间少，具有很好的应用前景。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种由粗到精的视频事件的快速定位方法，其特征在于，具体包括以下步骤：

（1）感兴趣空时体的粗搜索：通过对真实视频的时间分割得到一组最有可能包含查询事件的视频片断，通过对真实视频的空间分割得到每帧图像的感兴趣区域，将视频片断中每帧图像的感兴趣区域规范化后按时序堆叠起来即构成感兴趣空时体集合，其中对真实视频的时间分割包括空时兴趣点检测、对空时分体进行HOG特征和HOF特征提取、采用卡方距离方法对空时分体进行特征匹配、采用分类算法确定视频片段起止点；对真实视频的空间分割包括利用历史帧和当前帧信息构造时间显著图、根据时间显著图的计算结果确定空间感兴趣区域；

（2）感兴趣空时体集合与查询事件的精匹配：采用空时自相似性算子对查询事件和目标体的局部几何结构分别进行描述，并将所有像素的自相似体转化为向量，然后采用PCA方法提取显著特征并采用余弦相似性进行度量，构造出相关体，然后在相关体上采用全局显著性测试得到显著点，最后根据显著点分布来判断在每个目标体中是否存在与查询样本相似的事件；

具体步骤如下：

（2-1）设Q为查询事件，{V(1),V(2),…,V(p)}为感兴趣空时体的集合，将感兴趣的空时体统一地称为目标体V，采用空时自相似性算子对查询事件Q和目标体V的局部几何结构分别进行描述，具体算法如下：

（2-1-1）对于每一个像素q，采用典型的SSD标准比较其周围大小为l×m×n的片P与大小为x×y×t的空时窗口W，计算如下：

SSD^q(x,y,t)=∑_lmn[W(x+l,y+m,t+n)-P(l,m,n)]²

=∑_lmnW²(x+l,y+m,t+n)-...

...-2*W(x+l,y+m,t+n)*P(l,m,n)+P²(l,m,n)]；

=∑_lmnW²(x+l,y+m,t+n)H(l,m,n)-...

...-2*W(x+l,y+m,t+n)*P(l,m,n)+P²(l,m,n)]

其中H(l,m,n)是一个三维的门限函数，空时窗口W包含片P的区域被定义为1，其它区域为0；SSD的计算通过FFT和IFFT实现；

（2-1-2）由步骤（2-2-1）计算出SSD后，可由以下公式求出局部自相似体：

C^{q} (x, y, t) = \exp (- \frac{{SSD}^{q} (x, y, t)}{{var}_{auto} \times {patchsize}^{2}})

其中分母为片大小patchsize的平方与可估的光度方差var_auto的乘积；

（2-2）将步骤（2-1-2）得到的局部自相似体转为一个向量，并将所有像素上向量化的局部自相似体串接起来构成D_Q和D_V，用以下公式计算：

提取最大d个成分作为其显著特征

（2-3）对于目标体V的每个像素i，记为V_i，计算

与所有特征向量

的余弦相似度并求和得S_i：

S_{i} = Σ_{l = 1}^{n_{Q}} \frac{F {(D_{Q_{l}})}^{T} F (D_{V_{i}})}{| | F (D_{Q_{l}}) | | | | F (D_{V_{i}}) | |}

根据对应的像素点将S_i,i＝1,2,…,n_V组合为与目标体V相同大小的体，则相关体由统计函数计算得到，计算公式如下：

{CV}_{i} = S_{i}^{2} / (1 - S_{i}^{2})

（2-4）选取余弦相似度在置信方差δ之内的所有像素点作为显著点，即|S_i|>1-δ的被认为是显著点，设定一个阈值τ，统计满足条件CV_i>τ的显著点数目，如果目标体中显著点个数大于查询事件像素点个数的一定比率，则认为这一目标体至少存在一个与查询样本相似的事件，并记录目标体所在的空时位置，否则认为这一目标体不存在与查询样本相似的事件；

（3）查询事件的精确定位：采用区域增长/分裂合并技术和非最大值抑制方法进行后处理，用于控制最佳匹配显著点周围的空时区域定位；最后根据事先记录的每个目标体在真实视频中的空时位置，将目标体映射到真实视频，以Y方向上的尺寸为基准，采用固定大小的矩形边框在真实视频的每帧图像中显示视频事件的精确定位结果。

2.根据权利要求1所述的一种由粗到精的视频事件的快速定位方法，其特征在于，所述步骤（1）中对真实视频的时间分割算法具体步骤如下：

（11-1）空时兴趣点检测：首先在单一的空间和时间尺度上检测空时兴趣点，方法具体如下:首先对空时图像序列f建模：

其中，设定空间方差为

时间方差为

则空时可分的高斯核定义为：

g (x, y, t; σ_{l}^{2}, τ_{l}^{2}) = \frac{1}{\sqrt{{(2 π)}^{3} σ_{l}^{4} τ_{l}^{2}}} \exp (- \frac{(x^{2} + y^{2})}{2 σ_{l}^{2}} - \frac{t^{2}}{2 τ_{l}^{2}})

对于给定尺度集合

在单一的空间和时间尺度上检测空时兴趣点，取s=1，计算空时二阶矩，并通过与高斯权重函数的卷积得：

μ = g (\cdot; σ_{i}^{2}, τ_{i}^{2}) * (\begin{matrix} L_{x}^{2} & L_{x} L_{y} & L_{x} L_{t} \\ L_{x} L_{y} & L_{y}^{2} & L_{y} L_{t} \\ L_{x} L_{t} & L_{y} L_{t} & L_{t}^{2} \end{matrix})

其中一阶导数被定义为：

L_{x} (\cdot; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{x} (g * f)

L_{y} (\cdot; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{y} (g * f)

L_{t} (\cdot; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{t} (g * f)

H=det(μ)-ktrace³(μ)

=λ₁λ₂λ₃-k(λ₁+λ₂+λ₃)³

然后定义α=λ₂/λ₁，β=λ₃/λ₁，将H重新表示为：

H = λ_{1}^{3} (αβ - k {(1 + α + β)}^{3})

其中若要满足H≥0，则k≤αβ/(1+α+β)³，f的空时兴趣点检测等价于寻找H中局部正的空时最大值在空时体中的对应点；

通过以上方法检测出空时兴趣点后，以每个检测得到的空时兴趣点为中心，在时间和空间方向上按照固定大小取得空时分体；

（11-2）空时分体特征提取：对得到的每个空时分体中的每帧图像提取其HOG特征和HOF特征，将提取得到的单帧HOG特征按时序连接起来作为整个空时分体的表观特征，将提取得到的单帧HOF特征按时序接连起来作为整个空时分体的局部运动特征，空时分体的特征由表观和运动特征共同构成；

（11-3）空时分体特征匹配：查询行为样本中第i个空时兴趣点所对应的分体用SV_i表示，输入视频中第j个空时兴趣点所对应的分体用SV_j表示，直方图形式的分体特征用His表示，码矩阵M中的元素M_ij为His(SV_i)和His(SV_j)之间的卡方距离，具体计算公式如下：

M_{ij} = χ^{2} (His ({SV}_{i}), His ({SV}_{j}))

= Σ_{b = 1}^{B} \frac{{(His {({SV}_{i})}_{b} - His {({SV}_{j})}_{b})}^{2}}{His {({SV}_{i})}_{b} + His {({SV}_{j})}_{b}}

其中b为每个直方图的仓库索引，计算出码矩阵M中的所有元素后，取一定阈值对码矩阵进行二值化；然后求出该空时分体的码矩阵列向量的和，得到一个向量colsum(M)，若colsum(M)_j>δ，δ为设定的阈值，则认为输入视频中第j个空时兴趣点所对应的空时分体是显著的；

（11-4）确定视频片段起止点：将显著空时分体的时间位置作为样本数据，记作P={P₁,P₂,…P_l}，其中l为显著分体的个数，具体算法如下：首先将P₁作为一类，假设事件之间同一动作点发生的时间间隔至少大于1秒，以30fps的视频序列为考察对象，那么同一类所包含的时间位置样本数据间隔应该在30帧以内，以此假设为根据，若P₂与P₁差值在30帧之内，则初步判断P₂与P₁相近，将P₁和P₂归为一类，通过计算该类内整个样本数据的均值来重新确定这类的中心；若否，则确定P₂为一个新类别，依此类推，直到判断完所有显著空时分体，并得到一系列的类，然后忽略样本数少于查询事件中显著分体个数的30%的孤立类，剩下的每个类则代表真实视频中分割出的时间片断，将每个类内的最小值T_start和最大值T_end取出来，然后设定一个阈值Ex，用于补偿可能产生的分割误差，那么[T_start-Ex,T_end+Ex]区间内的视频片断即为真实视频的时间分割结果。

3.根据权利要求2所述的一种由粗到精的视频事件的快速定位方法，其特征在于，所述步骤（11-1）中的空时分体的大小为32×32×10，32×32为所取空时分体图像大小，10指10帧图像。

4.根据权利要求2所述的一种由粗到精的视频事件的快速定位方法，其特征在于，所述步骤（11-2）中所采用的HOG特征是在统计梯度方向8个直方图仓库的直方图并归一化消除光照的影响后得到的。

5.根据权利要求2所述的一种由粗到精的视频事件的快速定位方法，其特征在于，所述步骤（11-2）中的梯度方向直方图和光流直方图均为128维。

6.根据权利要求2所述的一种由粗到精的视频事件的快速定位方法，其特征在于，所述步骤（11-3）中的阈值为计算得到的码矩阵M中的最大元素值的20%。

7.根据权利要求1所述的一种由粗到精的视频事件的快速定位方法，其特征在于，所述步骤（1）中对真实视频的空间分割算法具体步骤如下：

（12-1）历史帧与当前帧集合的样本空间表示：设当前帧为Im₀，空时体由当前帧和历史N-1帧构成，即为Im₀,Im₁,…,Im_N-1，然后将空时体分成互不重叠的若干个空时片，每个空时片大小为M×M×N，用x_i表示空时片中第i个块灰度图像的向量，则时间向量集合X为：

X={x₀,x₁,…,x_N-1}；

然后利用PCA方法从X中得到投影矩阵W和q个最主要成分，并将结果写入大小为q×N的矩阵Y中，所得Y={y₀,y₁,…,y_N-1}，即X中每个M²维向量x_i转变成Y中q维向量y_i；

（12-2）样本空间的概率密度估计：采用非参数核密度估计方法对样本空间Y进行密度建模，得到密度估计公式为：

\hat{f} (y) = \frac{1}{N} Σ_{i = 0}^{N - 1} {| | H (y_{i}) | |}^{- 1 / 2} κ (H {(y_{i})}^{- 1 / 2} (y - y_{i}))

其中H表示样本点y_i周围核的带宽矩阵；用h(y_i)表示样本y_i到第k个近邻点的距离，有H(y_i)=h(y_i)I；其中κ表示核函数，I表示与带宽矩阵相同大小的全1矩阵；

（12-3）时间显著图的计算：根据步骤（12-2）计算出的

信息，将块(r,s)的时间显著图扩展到大小为M×M的块，得到如下表示：

（12-4）确定空间感兴趣区域：根据时间显著图检测出视频事件中包含运动信息的空间区域，将其进行预处理和二值化后，初步提取出空间感兴趣区域。

8.根据权利要求7所述的一种由粗到精的视频事件的快速定位方法，其特征在于，所述步骤（12-2）中，采用高斯核函数，则密度估计为：

\hat{f} (y) = \frac{1}{{(2 π)}^{q / 2} N} Σ_{i = 0}^{N - 1} [{| | h (y_{i}) I | |}^{- 1 / 2} \exp (- \frac{1}{2} {(y - y_{i})}^{T} ({(h (y_{i}))}^{- 1} I) (y - y_{i}))]

9.根据权利要求1所述的一种由粗到精的视频事件的快速定位方法，其特征在于，所述步骤（2-4）中采用假设-验证的简单方法来判断在同一目标体中是否存在多个与查询样本相似的事件，具体方法如下：假设目标体中存在两个与查询样本相似的事件，根据显著点的X-Y-T坐标将其分为两类，如果两类的中心小于设定阈值ζ，则认为只存在一个与查询样本相似的事件，并合并这两类，否则判断两个与查询样本相似的事件同时存在。