CN103218628A

CN103218628A - 一种基于团块与轨迹特征的异常行为描述方法

Info

Publication number: CN103218628A
Application number: CN2013100955412A
Authority: CN
Inventors: 郭立; 赵龙; 刘皓
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2013-03-22
Filing date: 2013-03-22
Publication date: 2013-07-24

Abstract

本发明提出一种基于团块与轨迹特征的异常行为描述方法，利用特征提取方法提取场景的颜色特征、纹理特征、位置特征，利用K-means算法将这些特征聚类生成团块，并用条件随机场模型(CRF)对团块进行描述。利用混合高斯模型进行运动目标检测，并提取目标的轨迹特征，组合团块描述与轨迹特征，形成组合特征向量，用隐马尔科夫模型(HMM)对组合特征向量建模，用建立的HMM模型描述目标在场景内的异常行为，摘要附图为本发明的原理框图。本发明基于团块与轨迹特征的异常行为描述方法不但考虑了场景对异常行为的影响，并且实现了对目标长时间的跟踪和描述。

Description

一种基于团块与轨迹特征的异常行为描述方法

技术领域

本发明涉及视频信号处理、模式识别、智能监控领域，具体而言，本发明涉及一种基于团块与轨迹特征的异常行为描述方法。

背景技术

异常行为描述在智能视频监控、视频注解、虚拟现实、人机交互，公共安全等领域中具有广阔的应用前景，在这些应用的推动下，异常行为描述已经成为计算机视觉和模式识别领域的研究热点。

模板序列匹配法和特征序列匹配法是传统的异常行为描述方法，匹配类方法计算量较小，但对于目标的时间间隔敏感，而且异常行为样本稀少，只能描述简单异常行为，鲁棒性不高。混合高斯模型由于其正态分布，很难描述异常行为。根据图像特征的相关性，人们引入马尔可夫随机场MRF(Markov Random Field)模型来描述异常行为，MRF模型能融合利用异常行为多特征，但是实际中它采用了关于特征的条件独立假设，不具有联系上下文信息的能力，并且MRF模型将后验概率的建模转化为对先验概率和观测模型的建模，但异常行为的先验概率模型很难建立。CRF(Conditional Random Fields)模型直接对后验概率建模，不但能融合多个特征，还具有联系上下文信息的能力。

但上述方法都是基于目标的底层状态空间特征，并没有考虑目标所处场景的影响。而且传统的状态空间方法，都是基于单帧图像或者几帧、几十帧图像，属于短时的行为，没有考虑长时间内的行为。有些异常行为在短时间段内并不能明显的表现出来。这就需要对目标进行长时间的描述

发明内容

本发明的目的旨在至少解决上述技术缺陷之一，特别是在异常行为描述中结合了场景对异常行为描述的影响。

为实现上述目的，本发明提出了一种基于团块与轨迹特征的异常行为描述方法，包括如下步骤：

步骤（1）、利用特征提取方法提取场景特征，包括颜色特征、纹理特征、位置特征；

步骤（2）、利用K-means算法对颜色特征、纹理特征、位置特征进行聚类，形成视觉单词；利用pLSA模型将视觉生成隐含语义的主题分布，利用CRF模型对主题分布进行建模，通过模型训练获取模型的参数估计，最终通过模型推断获取场景团块的描述；

步骤（3）、利用混合高斯模型对视频信息中的运动目标进行检测，获得运动目标区域，求取区域的质心，连接质心坐标生成目标的运动轨迹特征；

步骤（4）、组合目标的运动轨迹特征和场景团块描述，生成组合特征向量；

步骤（5）、利用HMM模型对组合特征向量建模，通过HMM模型的训练获得新的转移状态矩阵和混淆矩阵，通过评估问题获得测试视频序列的异常行为描述。

其中，提取图像的颜色特征、纹理特征、位置特征，作为原始特征，将图像I分成互不重叠且大小为m×n的块，（m,n为正整数，根据图像I的大小而定，参考值为m＝16,n＝16），对每一块按照不同的算法求取颜色特征、纹理特征、位置特征如下：

a)、颜色特征

将图像从RGB空间转换到HSV空间，并将图像分成m×n大小的块（m,n为正整数，根据图像I的大小而定，参考值为m＝16,n＝16），将块内的各个分量的均值作为颜色特征B_i＝(h_i,s_i,v_i)。h表示色相，s表示饱和度，v表示亮度，i表示像素点个数。

b)、纹理特征

二维Gabor函数在空间域和频率域具有良好的局部性质和多通道、多分辨率特性，采用Gabor变换进行纹理特征提取，Gabor变换定义为：

G (x_{I}, y_{I}) = \frac{1}{{2 πσ}_{x}_{I} {σ_{y}}_{I}} \exp [- \frac{1}{2} (\frac{{\tilde{x}}_{I}^{2}}{σ_{x_{I}}^{2}} + \frac{{\tilde{y}}_{I}^{2}}{σ_{y_{I}}^{2}})] \exp [2 πjW {\tilde{x}}_{I}]

\{\begin{matrix} {\tilde{x}}_{I} = x_{I} \cos θ + y_{I} \sin θ \\ {\tilde{y}}_{I} = - x_{I} \sin θ + y_{I} \cos θ \end{matrix}

其中，W为正弦光栅的频率，θ为方向，σ为尺度，将图像分成m×n大小的块（m,n为正整数，根据图像I的大小而定，参考值为m＝16,n＝16），x,y为二维坐标。对每一块进行Gabor变换，并将均值和方差作为原始特征；

其中，μ表示均值，G表示Gabor变换，P为G的分布。

其中var表示方差，G表示Gabor变换，P为G的分布。

为了准确的描述场景的纹理信息，分别取θ＝{0°,45°,90°,135°}方向；

c)、位置特征

为了提取位置特征，首先将图像分成m×n大小的块，然后，在原始图像上面生成w×w个的隐单元网格，判断单元网格落在哪一个m×n的块里，从而利用单元网格的索引作为位置特征，最终的位置特征表示为：

k_p＝w²。

其中，提取的特征利用K-means聚类形成视觉单词，具体如下：

采用K-means聚类算法对原始特征进行聚类，形成视觉单词，K–means算法的目标是把输入的特征数据，聚成K类，算法首先随机选取K个点作为初始聚类中心，然后计算各个样本到聚类中心的欧式距离，把样本归到离他最近的聚类中心所在的类，对调整后的新类计算新的聚类中心，如果相邻两次的聚类中心没有变化，说明样本调整结束，算法步骤如下：

步骤1）、给定大小为N的数据集，令I=1，选取K个初始聚类中心，Z_j(I),j＝1,2,3,…,K；

步骤2）、计算每个样本对象与聚类中心的欧氏距离：

D(x_i,Z_j(I)),i＝1,2,3,…,N,j＝1,2,3,…,K，如果满足

D(x_i,Z_M(I))＝min{D(x_i,Z_j(I)),j＝1,2,3,…,N}，则x_i∈w_K；

步骤3）、计算误差平方和准则函数J_c：

J_{c} (I) = Σ_{j = 1}^{K} Σ_{K = 1}^{N_{j}} | | x_{K}^{(j)} - Z_{j} (I) {| |}^{2}

步骤4）、判断：若|J_c(I)-J_c(I-1)|＜ξ则算法结束；否则I＝I+1，计算K个新的聚类中心，

Z_{j} (I) = \frac{1}{N} Σ_{i = 1}^{N_{j}} x_{i}^{(j)}, j = 1,2,3, . . ., K,

返回步骤2）；

利用K-means算法将颜色特征聚成100类，即k_c＝100个视觉单词；对于纹理特征聚成1000类，即k_t＝1000个视觉单词，对于位置特征，取w＝8，然后利用pLSA模型将视觉单词划入主题分布。

其中，所述的利用pLSA模型将视觉生成隐含语义的主题分布具体如下：

pLSA模型用D＝{d₁,d₂,…,d_n}表示文档，W＝{w₁,w₂,…,w_M}表示单词，p(z_k|d_i)Z＝{z₁,z₂,…,z_K}表示潜在的语义集合，N＝{n_ij|n_ij＝n(d_i,w_j),i≤N,j≤M}表示文档和单词的共生矩阵，其中n(d_i,w_j)表示单词w_j在文档d_i中出现的频度，W×D的联合概率可表示为：

p (d_{i}, w_{j}) = p (d_{i}) p (w_{j} | d_{i}), p (w_{j} | d_{i})

= Σ_{k}^{K} p (z_{k} | d_{i}) p (w_{j} | z_{k})

其中，p(d_i)表示文档d_i出现的概率，p(w_j|z_k)表示隐含语义在单词上的分布概率，隐含语义在文档上的分布概率；只要获取足够维度的文档与单词的共生矩阵，即可近似推导出潜变量的条件概率分布；pLSA模型待求参数为p(w_j|z_k)和p(z_k|d_i)，其求解一般通过极大似然估计进行，极大似然函数为：

L = Σ_{i = 1}^{N} Σ_{j = 1}^{M} n (d_{i}, w_{j}) \log p (d_{i}, w_{j})

在极大似然估计过程中，需要利用期望极大化(EM)算法；

经过反复迭代直到收敛或者达到一定的步数，就可以训练得到p(z_k)、p(w_j|z_k)和p(z_k|d_i)，对于测试数据同样采用EM算法，保持p(w_j|z_k)不变，只对p(d_test|z_k)和p(z_k)进行迭代，最终求得：

p (z_{k} | d_{test}) = \frac{p (d_{i} | z_{k}) p (z_{k})}{Σ_{l = 1}^{k} p (d_{i} | z_{l}) p (z_{l})}

即为d_test中主题z_k的分布，它说明了在场景d_test中每种主题的出现概率，可以认为，对于相似的场景，所得到的主题分布也必然相似，因而可以根据主题分布来进行场景描述，而不是直接采用单词的分布，对于场景的描述，每个初始像元与单词之间存在对应关系，根据pLSA模型获取的单词与主题的对应关系，将原始像元分配到对应的主题，形成语义主题分布；

利用CRF模型对主题分布进行建模，假设S为给定图像，y＝{y_i,i∈S}表示观测图像，y_i为图像位置i处特征向量，CRF模型定义为：

p (x | y, θ) = \frac{1}{Z (y, θ)} \exp {Σ_{c &Element; C} φ_{c} (x_{c}, y_{c}, θ)}

在公式中，Z(y,θ)＝∑_xexp{∑_c∈Cφ_c(x_c,y_c,θ)}，Z(y,θ)是归一化函数，φ_c是具有参数θ的势函数，这里采用一种推广的Ising/Potts模型来定义CRF模型中的势函数；

推广的Ising/Potts模型表示为：

φ_{ij} (x_{i}, x_{j}, y, v) = \underset{k, l &Element; {1, . . ., L}{Σ} v_{kl}^{T} g_{ij} (y) δ (x_{i} = k) δ (x_{j} = l)

其中，g_ij(y)表示从整个观测数据提取的位置对(i,j)特征向量，v_kl为模型的参数向量，v表示将所有v_kl,k,l＝1,…,L，首位链接得到的参数向量。

其中，所述CRF的参数需要进行估计CRF模型中，需要通过训练来确定CRF模型中的参数θ＝{w,v}，这里采用极大似然（ML）估计方法，假设训练图库包含M幅独立分布的训练图像，即{x,y}＝{x^m,y^m,m＝1,…,M}，ML估计选择使对数-似然极大化的参数，即

\tilde{θ} = \arg \max_{θ} {\log (p (x | y, θ))}

= \arg \max_{θ} {\log (Π_{m = 1}^{M} p (x^{m} | y^{m}, θ))}

为了获得目标函数最大的最优参数，采用梯度上升法迭代实现这个过程。

其中，所述CRF需要进行模型推断获得场景团块的描述，为了描述新的观测图像y，需要推断y的最优描述x，这里有两种方法从后验分布上推断描述，maximum a posteriori(MAP)和maximum posterior marginals(MPM)，准确的MAP对于高维的特征向量很难计算，因为MAP只考虑最大似然情况，忽略了与其它解的不同，所以在寻找近似解时过于保守，MPM算法采用后验概率最小致使误描述的数量最小，常常能获得比较好的结果；

x_{i}^{*} = \arg \max_{x_{i}} p (x_{i} | y_{i})

采用MPM算法来推断y的最优描述x。

其中，所述的轨迹特征获取具体如下：提取轨迹特征，并且将场景的团块描述与轨迹特征进行组合；

为了获取运动目标的轨迹特征，需要对给定视频信息进行运动目标描述，采用混合高斯模型进行运动目标描述，获得运动目标区域，并求取每帧图像中运动目标的质心，连接质心生成目标的运动轨迹；

对于目标O，设第i帧图像中运动目标的质心坐标为(x_i,y_i)，(δx_i,δy_i)表示目标在i帧时刻的运动速度矢量，用一个流矢量序列描述目标的运动轨迹，其中流失量f是一个四元组，既表示运动目标的位置，也表示运动目标的速度：f_i＝(x_i,y_i,δx_i,δy_i)，将流失量中的每个元组进行归一化，目标的运动轨迹可以表示为由n个流失量组合的集合：F_o＝{f₁,f₂,…,f_i,…,f_n}其中，n为视频数据包含的帧数；

为了将场景团块描述组合到目标的运动轨迹特征中，假设生成的场景团块为{T₁,T₂,…,T_s}，总共生成s个团块；根据实验需要，不同的场景，所生成的场景团块的数目s也不相同；在i时刻，目标的轨迹坐标为f_i＝(x_i,y_i,δx_i,δy_i)，根据目标质心的坐标判断目标在i时刻，所属的场景团块T，并将场景团块T与目标质心坐标组合，实现轨迹特征与场景语义状态的组合，组合后的i时刻目标的轨迹坐标表示为：

f_{i}^{'} = {x_{i}, y_{i}, {δx}_{i}, {δy}_{i}, T}

其中T为i时刻目标所在的团块描述，最终组合后的特征向量为：

F_{o}^{'} = {f_{1}^{'}, f_{2}^{'}, . . ., f_{i}^{'}, . . ., f_{n}^{'}}

然后，采用HMM模型对组合特征向量进行建模。

其中，所述的HMM模型是一种用参数表示的用于描述随机过程统计特性的概率模型，是一个双重随机过程，由两个部分组成：马尔可夫链和一般随机过程，其中马尔可夫链用来描述状态的转移，用转移概率描述；随机过程用来描述状态与观察序列间的关系，用观察值概率描述；

HMM模型有三类基本问题：

①、评估问题，给定观察序列O＝O₁O₂…O_T和模型参数(π,A,B)，计算P(O|λ)，即给定模型和输出观察序列，如何计算从模型生成观察序列的概率，把它看作是评估一个模型和给定观察输出序列的匹配程度；

②、解码问题，给定观察序列O＝O₁O₂…O_T和模型(π,A,B)，求在某种有意义的情况下最优的相关状态序列Q＝q₁q₂…q_T；

③、学习问题，如何调整模型参数(π,A,B)，对于一个给定的观察序列O＝O₁O₂…O_T，使得P(O|λ)最大；

给定的同一场景下，有着不同类型的组合特征向量，对于每一种类型的组合特征向量产生一个HMM模型，从T₂→T₄→T₂为一种类型，产生一个HMM模型；从T₂→T₃→T₂为一种类型，产生一个HMM模型，依此类推，将产生一组HMM模型，这组HMM模型又被分为两类：一类为正常行为，另一类为异常行为，用来描述测试数据异常行为；具体的算法步骤为如下：

A）、HMM模型训练

进行HMM训练时，将每种类型的全局特征向量视为观察序列，然后分别用Baum-Welch算法训练，得到一组HMM模型的参数集合；

B）、HMM模型评估

在HMM评估时，给定测试全局特征向量，视为测试序列，采用向前向后算法，评估这个测试序列最有可能是那个HMM模型产生，从而确定测试全局特征向量是否为异常行为;

通过HMM模型的评估，得到正常行为和异常行为的描述。

本发明提出的上述方案，不但考虑了场景对异常行为的影响，而且基于目标的长时特征，可以对目标进行长时间的跟踪和描述。对给定的场景的异常行为可较准确的描述，在测试数据库中，描述准确率为86%。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于团块与轨迹特征的异常行为描述流程框图；

图2为根据本发明实施例的团块描述的框图；

图3为根据本发明实施例的团块描述结果图；

图4为根据本发明实施例的异常行为示意图；

图5为根据本发明实施例的异常行为描述结果；

图6为根据本发明实施例的异常行为描述结果；

图7为根据本发明实施例的描述准确率比较。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

为了实现本发明之目的，一种基于团块与轨迹特征的异常行为描述方法，包括如下步骤：

步骤（1）、利用特征提取方法提取场景特征，包括颜色特征、纹理特征、位置特征。

大量的研究工作表明场景图像中包含了大量的、多层次的信息，其中颜色信息、亮度信息、形状信息、位置信息等，对于人眼比较敏感。而图像的纹理信息相对颜色信息来说，对于人眼并不十分直接，但图像中包含了丰富的纹理信息，而且纹理信息与位置信息相互关联，对于场景描述来说提取图像的纹理信息显得非常重要。通过大量的调研和实验，本文综合考虑描述算法的准确性、鲁棒性，本文提取图像的颜色特征、纹理特征、位置特征，作为原始特征。将图像I分成互不重叠且大小为m×n的块，对每一块按照不同的算法求取颜色特征、纹理特征、位置特征。场景团块描述原理如图2所示。

a）、颜色特征

经实验分析，少数的几种或十几种颜色已经足以特征化一个图像区域的颜色信息。一般认为RGB颜色空间与人眼的感知差异较大，本文采用比较符合人眼感知特性的HSV颜色模型。将图像从RGB空间转换到HSV空间，并将图像分成m×n大小的块，将块内的各个分量的均值作为颜色特征B_i＝(h_i,s_i,v_i)。

b）、纹理特征

二维Gabor函数在空间域和频率域具有良好的局部性质和多通道、多分辨率特性。由于纹理在方向、频率、精细程度上是多种多样的，因此我们采用Gabor变换进行纹理特征提取。Gabor变换定义为：

G (x_{I}, y_{I}) = \frac{1}{{2 πσ}_{x}_{I} {σ_{y}}_{I}} \exp [- \frac{1}{2} (\frac{{\tilde{x}}_{I}^{2}}{σ_{x_{I}}^{2}} + \frac{{\tilde{y}}_{I}^{2}}{σ_{y_{I}}^{2}})] \exp [2 πjW {\tilde{x}}_{I}]

\{\begin{matrix} {\tilde{x}}_{I} = x_{I} \cos θ + y_{I} \sin θ \\ {\tilde{y}}_{I} = - x_{I} \sin θ + y_{I} \cos θ \end{matrix}

W为正弦光栅的频率，θ为方向，σ为尺度。将图像分成m×n大小的块，对每一块进行Gabor变换，并将均值和方差作为原始特征。

μ = \frac{1}{G \times G} Σ_{i = 1}^{G} Σ_{j = 1}^{G} p_{ij}

var = Σ_{i = 1}^{G} Σ_{j = 1}^{G} {(i - μ)}^{2} p_{ij}

为了准确的描述场景的纹理信息，本文分别取θ＝{0°,45°,90°,135°}方向。

c）、位置特征

为了提取位置特征，首先将图像分成m×n大小的块，参考值为m＝16,n＝16，然后，在原始图像上面生成w×w个的隐单元网格，参考值为w＝16，判断单元网格落在哪一个m×n的块里，从而利用单元网格的索引作为位置特征，最终的位置特征表示为：

k_p＝w²

其中k_p表示位置特征，w表示隐单元网格。

步骤（2）、利用K-means算法对颜色特征、纹理特征、位置特征进行聚类，形成视觉单词。利用pLSA模型将视觉生成隐含语义的主题分布，利用CRF模型对主题分布进行建模，通过模型训练获取模型的参数估计，最终通过模型推断获取场景团块的描述。

提取的特征利用K-means聚类形成视觉单词。

由特征提取得到的原始特征可以直接用CRF建模与分类，但是由于其维数较高，为了提高算法的描述性能，我们进一步将原始特征进行变换。这里采用K-means聚类算法对原始特征进行聚类，形成视觉单词。K–means算法的目标是把输入的特征数据，聚成K类，算法首先随机选取K个点作为初始聚类中心，然后计算各个样本到聚类中心的欧式距离，把样本归到离他最近的聚类中心所在的类，对调整后的新类计算新的聚类中心，如果相邻两次的聚类中心没有变化，说明样本调整结束，算法步骤如下：

1）、给定大小为N的数据集，令I=1，选取K个初始聚类中心，Z_j(I),j＝1,2,3,…,K；

2）、计算每个样本对象与聚类中心的欧氏距离D(x_i,Z_j(I)),i＝1,2,3,…,N,j＝1,2,3,…,K，如果满足D(x_i,Z_M(I))＝min{D(x_i,Z_j(I)),j＝1,2,3,…,N}，则x_i∈w_K；

3）、计算误差平方和准则函数J_c：

J_{c} (I) = Σ_{j = 1}^{K} Σ_{K = 1}^{N_{j}} | | x_{K}^{(j)} - Z_{j} (I) {| |}^{2}

4）、判断：若|J_c(I)-J_c(I-1)|＜ξ则算法结束；否则I＝I+1，计算K个新的聚类中心，

Z_{j} (I) = \frac{1}{N} Σ_{i = 1}^{N_{j}} x_{i}^{(j)}, j = 1,2,3, . . ., K,

返回2）；

利用K-means算法我们将颜色特征聚成100类，即k_c＝100个视觉单词。对于纹理特征聚成1000类，即k_t＝1000个视觉单词，对于位置特征，本文取w＝8，然后利用pLSA模型将视觉单词划入主题分布。

所利用的pLSA模型起源于自然语言处理研究，具体的方法是将高维度的词汇和文档组成的共现矩阵通过奇异值分解的方法映射到低维度的潜在语义空间。通过这种方法可以将抽象的潜在语义以概率这种具体的形式表达出来，使看似毫无关联的词汇体现出深层次的联系。

p (d_{i}, w_{j}) = p (d_{i}) p (w_{j} | d_{i}), p (w_{j} | d_{i})

= Σ_{k}^{K} p (z_{k} | d_{i}) p (w_{j} | z_{k})

其中，p(d_i)表示文档d_i出现的概率，p(w_j|z_k)表示隐含语义在单词上的分布概率，隐含语义在文档上的分布概率。只要获取足够维度的文档与单词的共生矩阵，即可近似推导出潜变量的条件概率分布。pLSA模型待求参数为p(w_j|z_k)和p(z_k|d_i)，其求解一般通过极大似然估计进行，极大似然函数为：

L = Σ_{i = 1}^{N} Σ_{j = 1}^{M} n (d_{i}, w_{j}) \log p (d_{i}, w_{j})

在极大似然估计过程中，需要利用期望极大化(EM)算法。

经过反复迭代直到收敛或者达到一定的步数，就可以训练得到p(z_k)、p(w_j|z_k)和p(z_k|d_i)。对于测试数据同样采用EM算法，保持p(w_j|z_k)不变，只对p(d_test|z_k)和p(z_k)进行迭代，最终求得：

p (z_{k} | d_{test}) = \frac{p (d_{i} | z_{k}) p (z_{k})}{Σ_{l = 1}^{k} p (d_{i} | z_{l}) p (z_{l})}

即为d_test中主题z_k的分布，它说明了在场景d_test中每种主题的出现概率。可以认为，对于相似的场景，所得到的主题分布也必然相似，因而可以根据主题分布来进行场景描述，而不是直接采用单词的分布。对于场景的描述，每个初始像元与单词之间存在对应关系，根据pLSA模型获取的单词与主题的对应关系，将原始像元分配到对应的主题，形成语义主题分布。

利用CRF模型对主题分布进行建模，假设S为给定图像，y＝{y_i,i∈S}表示观测图像，y_i为图像位置i处特征向量。CRF模型定义为：

p (x | y, θ) = \frac{1}{Z (y, θ)} \exp {Σ_{c &Element; C} φ_{c} (x_{c}, y_{c}, θ)}

在公式中，

Z (y, θ) = Σ_{x} \exp {Σ_{c &Element; C} φ_{c} (x_{c}, y_{c}, θ)}

Z(y,θ)是归一化函数，φ_c是具有参数θ的势函数。这里采用一种推广的Ising/Potts模型来定义CRF模型中的势函数。

推广的Ising/Potts模型表示为：

φ_{ij} (x_{i}, x_{j}, y, v) = \underset{k, l &Element; {1, . . ., L}{Σ} v_{kl}^{T} g_{ij} (y) δ (x_{i} = k) δ (x_{j} = l)

其中，g_ij(y)表示从整个观测数据提取的位置对(i,j)特征向量，v_kl为模型的参数向量，v表示将所有v_kl,k,l＝1,…,L首位链接得到的参数向量。

所述CRF的参数需要进行估计CRF模型中，需要通过训练来确定CRF模型中的参数θ＝{w,v}，这里采用极大似然（ML）估计方法，假设训练图库包含M幅独立分布的训练图像，即{x,y}＝{x^m,y^m,m＝1,…,M}，ML估计选择使对数-似然极大化的参数，即：

\tilde{θ} = \arg \max_{θ} {\log (p (x | y, θ))}

= \arg \max_{θ} {\log (Π_{m = 1}^{M} p (x^{m} | y^{m}, θ))}

为了获得目标函数最大的最优参数，我们采用梯度上升法迭代实现这个过程。

所述CRF需要进行模型推断获得场景团块的描述，为了描述新的观测图像y，我们需要推断y的最优描述x，这里有两种方法从后验分布上推断描述，maximum a posteriori(MAP)和maximum posterior marginals(MPM)，准确的MAP对于高维的特征向量很难计算，因为MAP只考虑最大似然情况，忽略了与其它解的不同，所以在寻找近似解时过于保守。MPM算法采用后验概率最小致使误描述的数量最小，常常能获得比较好的结果。

x_{i}^{*} = \arg \max_{x_{i}} p (x_{i} | y_{i})

本文采用MPM算法来推断y的最优描述x。团块描述结果如图3所示。

步骤（3）、利用混合高斯模型对视频信息中的运动目标进行检测，获得运动目标区域，求取区域的质心，连接质心坐标生成目标的运动轨迹特征。

所述的轨迹特征，传统的异常行为描述方法一般基于图像的底层特征，而这些特征多数都是基于单帧图像或者几帧、几十帧图像，属于短时的局部特征，有些异常行为在短时间段内并不能明显的表现出来。这就需要对目标进行长时间的描述。运动目标的轨迹特征作为一种长时特征，在一定程度上反映了运动目标的行为目的。因此，本文提取轨迹特征，并且将场景的团块描述与轨迹特征进行组合。

为了获取运动目标的轨迹特征，需要对给定视频信息进行运动目标描述，本文采用混合高斯模型进行运动目标描述，获得运动目标区域，并求取每帧图像中运动目标的质心，连接质心生成目标的运动轨迹。

对于目标O，设第i帧图像中运动目标的质心坐标为(x_i,y_i)，(δx_i,δy_i)表示目标在i帧时刻的运动速度矢量。因此可以用一个流矢量序列描述目标的运动轨迹，其中流失量f是一个四元组，既表示运动目标的位置，也表示运动目标的速度：f_i＝(x_i,y_i,δx_i,δy_i)，将流失量中的每个元组进行归一化，目标的运动轨迹可以表示为由n个流失量组合的集合：F_o＝{f₁,f₂,…,f_i,…,f_n}其中，n为视频数据包含的帧数。

为了将场景团块描述组合到目标的运动轨迹特征中，我们假设生成的场景团块为{T₁,T₂,…,T_s}，总共生成s个团块。根据实验需要，不同的场景，所生成的场景团块的数目s也不相同。在i时刻，目标的轨迹坐标为f_i＝(x_i,y_i,δx_i,δy_i)，根据目标质心的坐标判断目标在i时刻，所属的场景团块T，并将场景团块T与目标质心坐标组合，实现轨迹特征与场景语义状态的组合，组合后的i时刻目标的轨迹坐标表示为：

f_{i}^{'} = {x_{i}, y_{i}, {δx}_{i}, {δy}_{i}, T}

F_{o}^{'} = {f_{1}^{'}, f_{2}^{'}, . . ., f_{i}^{'}, . . ., f_{n}^{'}}

然后，本文采用HMM模型对组合特征向量进行建模。

步骤（4）、组合目标的运动轨迹特征和场景团块描述，生成组合特征向量。

所述的HMM模型是一种用参数表示的用于描述随机过程统计特性的概率模型，是一个双重随机过程，由两个部分组成：马尔可夫链和一般随机过程。其中马尔可夫链用来描述状态的转移，用转移概率描述。一般随机过程用来描述状态与观察序列间的关系，用观察值概率描述。

HMM模型有三类基本问题：

1）评估问题，给定观察序列O＝O₁O₂…O_T和模型参数(π,A,B)，计算P(O|λ)。即给定模型和输出观察序列，如何计算从模型生成观察序列的概率。可以把它看作是评估一个模型和给定观察输出序列的匹配程度；

2）解码问题，给定观察序列O＝O₁O₂…O_T和模型(π,A,B)，求在某种有意义的情况下最优的相关状态序列Q＝q₁q₂…q_T；

3）学习问题，如何调整模型参数(π,A,B)，对于一个给定的观察序列O＝O₁O₂…O_T，使得P(O|λ)最大。

对于本文的问题，给定的同一场景下，有着不同类型的组合特征向量，对于每一种类型的组合特征向量产生一个HMM模型。比如从T₂→T₄→T₂为一种类型，产生一个HMM模型；从T₂→T₃→T₂为一种类型，产生一个HMM模型，依此类推，将产生一组HMM模型，这组HMM模型又被分为两类：一类为正常行为，另一类为异常行为，用来描述测试数据异常行为。具体的算法步骤为如下：

a）HMM模型训练

b）HMM模型评估

在HMM评估时，给定测试全局特征向量，视为测试序列，采用向前向后算法，评估这个测试序列最有可能是那个HMM模型产生，从而确定测试全局特征向量是否为异常行为。

通过HMM模型的评估，我们可以得到正常行为和异常行为的描述，如图4所示，图4(a)为场景团块描述结果，这个场景被描述为4个团块。T₁、T₃、T₄为场景中的草地，T₂为道路。如果目标的轨迹坐标在团块T₂区域内按照时间顺序移动，如图4(b),视为正常行为；如果目标的坐标由团块T₂区域进入团块T₄区域，经过团块T₄区域再进入团块T₂区域，也就是目标从道路上进入草地，然后又回到道路上，如图4(c)视为异常行为；如果目标的坐标在团块T₂区域内，长时间移动，也就是目标在道路上徘徊，如图4(d)视为异常行为。

颜色特征和纹理特征的K–means聚类个数分别为100类，形成的团块个数为100个。PETS-ECCV2004数据库通过CRF算法形成3个团块描述，本文拍摄的数据库通过CRF模型形成4个团块描述。CRF模型的最大迭代次数为300次，权重因子为2，CRF模型通过57次迭代最终收敛，历时23分钟完成训练。PETS-ECCV 2004数据库实验结果如图5所示。

图5中，(a)沿指定路线通过，正常行为；(b)中途折回，异常行为；(c)沿指定路线走过走廊，正常行为；(d)横穿通道，异常行为；(e)徘徊，异常行为；(f)进入非法区域，异常行为。

本文拍摄的数据库实验结果如图6所示。

图6中，(a)沿指定道路通过，正常行为；(b)通行途中进入草地区域，异常行为；(c)、(d)徘徊，异常行为；横穿通道，异常行为；(e)通行途中进入草地区域又折回道路，异常行为；(f)进入非法区域，异常行为。

通过实验我们发现，由于在噪声和光照条件的影响，在场景比较复杂的情况下，生成的团块太多，在一定程度上影响了描述准确率。如果生成的团块太少，也会影响描述准确率。

为了检验本文方法的描述准确率，我们对两个数据库中的测试样本进行手工标定，将实验结果和手工标定进行比较，获得本文方法的在给定的两个数据库实验中的描述准确率分别为86%和90%，图7给出了本文方法和其他方法的准确率比较。

表1给出了本文方法的综合性能评价。

表1算法综合性能评价

Claims

1.一种基于团块与轨迹特征的异常行为描述方法，其特征在于，包括如下步骤：步骤（1）、利用特征提取方法提取场景特征，包括颜色特征、纹理特征、位置特征；步骤（2）、利用K-means算法对颜色特征、纹理特征、位置特征进行聚类，形成视觉单词；利用pLSA模型将视觉生成隐含语义的主题分布，利用CRF模型对主题分布进行建模，通过模型训练获取模型的参数估计，最终通过模型推断获取场景团块的描述；

2.如权利要求1所述的一种基于团块与轨迹特征的异常行为描述方法，其特征在于，提取图像的颜色特征、纹理特征、位置特征，作为原始特征，将图像I分成互不重叠且大小为m×n的块，m,n为正整数，根据图像I的大小而定，参考值为m＝16,n＝16，对每一块按照不同的算法求取颜色特征、纹理特征、位置特征如下：

a)、颜色特征

将图像从RGB空间转换到HSV空间，并将图像分成m×n大小的块，m,n为正整数，根据图像I的大小而定，参考值为m＝16,n＝16，将块内的各个分量的均值作为颜色特征B_i＝(h_i,s_i,v_i)，h表示色相，s表示饱和度，v表示亮度，i表示像素点个数；

b)、纹理特征

G (x_{I}, y_{I}) = \frac{1}{{2 πσ}_{x}_{I} {σ_{y}}_{I}} \exp [- \frac{1}{2} (\frac{{\tilde{x}}_{I}^{2}}{σ_{x_{I}}^{2}} + \frac{{\tilde{y}}_{I}^{2}}{σ_{y_{I}}^{2}})] \exp [2 πjW {\tilde{x}}_{I}]

\{\begin{matrix} {\tilde{x}}_{I} = x_{I} \cos θ + y_{I} \sin θ \\ {\tilde{y}}_{I} = - x_{I} \sin θ + y_{I} \cos θ \end{matrix}

其中，W为正弦光栅的频率，θ为方向，σ为尺度，将图像分成m×n大小的块，m,n为正整数，根据图像I的大小而定，参考值为m＝16,n＝16，x,y为二维坐标，对每一块进行Gabor变换，并将均值和方差作为原始特征；

其中，μ表示均值，G表示Gabor变换，P为G的分布；

其中var表示方差，G表示Gabor变换，P为G的分布；

c)、位置特征

k_p＝w²

其中k_p表示位置特征，w表示隐单元网格。

3.如权利要求1所述的一种基于团块与轨迹特征的异常行为描述方法，其特征在于，提取的特征利用K-means聚类形成视觉单词，具体如下：

步骤2）、计算每个样本对象与聚类中心的欧氏距离:

D(x_i,Z_j(I)),i＝1,2,3,…,N,j＝1,2,3,…,K，

如果满足D(x_i,Z_M(I))＝min{D(x_i,Z_j(I)),j＝1,2,3,…,N}，则x_i∈w_K；

步骤3）、计算误差平方和准则函数J_c：

J_{c} (I) = Σ_{j = 1}^{K} Σ_{K = 1}^{N_{j}} | | x_{K}^{(j)} - Z_{j} (I) {| |}^{2}

Z_{j} (I) = \frac{1}{N} Σ_{i = 1}^{N_{j}} x_{i}^{(j)}, j = 1,2,3, . . ., K,

返回步骤2）；

4.如权利要求3所述的一种基于团块与轨迹特征的异常行为描述方法，其特征在于，所述的利用pLSA模型将视觉生成隐含语义的主题分布具体如下：

p (d_{i}, w_{j}) = p (d_{i}) p (w_{j} | d_{i}), p (w_{j} | d_{i})

= Σ_{k}^{K} p (z_{k} | d_{i}) p (w_{j} | z_{k})

L = Σ_{i = 1}^{N} Σ_{j = 1}^{M} n (d_{i}, w_{j}) \log p (d_{i}, w_{j})

在极大似然估计过程中，需要利用期望极大化(EM)算法；

p (z_{k} | d_{test}) = \frac{p (d_{i} | z_{k}) p (z_{k})}{Σ_{l = 1}^{k} p (d_{i} | z_{l}) p (z_{l})}

利用CRF模型对主题分布进行建模，假设S为给定图像，y＝{yi,i∈S}表示观测图像，y_i为图像位置i处特征向量，CRF模型定义为：

p (x | y, θ) = \frac{1}{Z (y, θ)} \exp {Σ_{c &Element; C} φ_{c} (x_{c}, y_{c}, θ)}

在公式中，Z(y,θ)＝∑_xexp{∑_c∈Cφc(x_c,y_c,θ)}，Z(y,θ)是归一化函数，φ_c是具有参数θ的势函数，这里采用一种推广的Ising/Potts模型来定义CRF模型中的势函数；

推广的Ising/Potts模型表示为：

φ_{ij} (x_{i}, x_{j}, y, v) = \underset{k, l &Element; {1, . . ., L}{Σ} v_{kl}^{T} g_{ij} (y) δ (x_{i} = k) δ (x_{j} = l)

5.如权利要求4所述的一种基于团块与轨迹特征的异常行为描述方法，其特征在于，所述CRF的参数需要进行估计CRF模型中，需要通过训练来确定CRF模型中的参数θ＝{w,v}，这里采用极大似然（ML）估计方法，假设训练图库包含M幅独立分布的训练图像，即{x,y}＝{x^m,y^m,m＝1,…,M}，ML估计选择使对数-似然极大化的参数，即：

\tilde{θ} = \arg \max_{θ} {\log (p (x | y, θ))}

= \arg \max_{θ} {\log (Π_{m = 1}^{M} p (x^{m} | y^{m}, θ))}

6.如权利要求5所述的一种基于团块与轨迹特征的异常行为描述方法，其特征在于，所述CRF需要进行模型推断获得场景团块的描述，为了描述新的观测图像y，需要推断y的最优描述x，这里有两种方法从后验分布上推断描述，maximum a posteriori(MAP)和maximumposterior marginals(MPM)，准确的MAP对于高维的特征向量很难计算，因为MAP只考虑最大似然情况，忽略了与其它解的不同，所以在寻找近似解时过于保守，MPM算法采用后验概率最小致使误描述的数量最小，常常能获得比较好的结果；

x_{i}^{*} = \arg \max_{x_{i}} p (x_{i} | y_{i})

采用MPM算法来推断y的最优描述x。

7.如权利要求1所述的一种基于团块与轨迹特征的异常行为描述方法，其特征在于，所述的轨迹特征获取具体如下：提取轨迹特征，并且将场景的团块描述与轨迹特征进行组合；

f_{i}^{'} = {x_{i}, y_{i}, {δx}_{i}, {δy}_{i}, T}

F_{o}^{'} = {f_{1}^{'}, f_{2}^{'}, . . ., f_{i}^{'}, . . ., f_{n}^{'}}

然后，采用HMM模型对组合特征向量进行建模。

8.如权利要求1所述的一种基于团块与轨迹特征的异常行为描述方法，其特征在于，所述的HMM模型是一种用参数表示的用于描述随机过程统计特性的概率模型，是一个双重随机过程，由两个部分组成：马尔可夫链和一般随机过程，其中马尔可夫链用来描述状态的转移，用转移概率描述；随机过程用来描述状态与观察序列间的关系，用观察值概率描述；

HMM模型有三类基本问题：

A）、HMM模型训练

B）、HMM模型评估

通过HMM模型的评估，得到正常行为和异常行为的描述。