CN103530603B

CN103530603B - 基于环路图模型的视频异常检测方法

Info

Publication number: CN103530603B
Application number: CN201310439344.8A
Authority: CN
Inventors: 郭春生; 徐俊; 沈佳; 张凤金
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2013-09-24
Filing date: 2013-09-24
Publication date: 2017-01-04
Anticipated expiration: 2033-09-24
Also published as: CN103530603A

Abstract

本发明公开了一种基于LDA‑HMM的环路图模型视频异常检测方法。现有的方法在HMM状态确定LDA主题特征的概率推理中，视频异常检测会受到概率拖尾问题和模型过度拟合或欠拟合问题的困扰。本发明首先选取正常场景的视频段作为训练数据，经过低层特征提取，LDA主题特征提取，通过环路模型参数推理，训练出一个LDA‑HMM环路模型。异常检测时，将正常场景视频段和含异常事件视频段数据处理后分布送入已训练好的环路模型中，根据前向算法，得到每一帧的似然函数，当似然函数差大于某一阈值时，判断该帧出现异常。本发明很好地解决了概率拖尾及模型阶数需人为设定的问题，使视频异常检测达到更加精确的效果。

Description

基于环路图模型的视频异常检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于环路图模型的视频异常检测方法。

背景技术

近年来，随着国民经济的快速增长和社会的迅速进步，银行、电力、交通、安检以及军事设施等领域对安全防范和现场记录报警系统的需求与日俱增，视频监控在生产生活各方面得到了非常广泛的应用。视频异常检测作为智能视频监控的重要应用，具有重要的理论意义和实际应用前景。已有的异常事件检测方法主要是基于异常事件建模的方法，即先从视频序列中提取图像特征，特征通常包括运动目标外形、颜色、运动等信息，然后，基于提取的特征通过人工或应用监督学习技术构建正常事件模型，为了检测异常事件，将视频与正常事件模型相匹配，不适合该模型的片段认为是异常。当前主要有两大主流的检测模型：一个是采用动态贝叶斯网络如隐马尔科夫模型(HMM),另一个是基于概率主题模型，如LDA模型或其扩展。2007年Naohiko Suzuki等人用离散隐马尔科夫模型（DHMM）对人的轨迹进行建模，识别超市中正常购物者的行为和非正常购物的可疑行为；M.Brand,N.Oliver等人用半监督-自适应隐马尔科夫模型，监控扑克牌游戏场景，来分析其场景中的违规行为。2009年R.Mehran,A.Oyama等人提出了一种群体异常行为检测算法，检测阶段使用LDA检测算法，从视频中提取n*n*T的数据块作为单词，进行似文本分类。基于LDA和HMM的视频异常事件检测框架凭借其突出的描述能力在近几年备受关注。在该框架中，LDA抽取主题特征，HMM利用状态描述主题特征的演化，但在HMM状态确定LDA主题特征的概率推理中，视频异常事件检测会受到概率拖尾问题的困扰，此外，使用前人为设定HMM模型阶数会导致视频异常检测模型过度拟合或欠拟合问题。针对目前的不足，本发明提出基于LDA-HMM的环路图模型视频异常检测方法，建立HMM状态和LDA主题特征之间的“谐振”，即不仅HMM状态影响LDA主题特征，而且反过来LDA主题特征也会影响HMM状态，这样在视频异常事件检测过程中，不仅HMM模型中的异常状态演化将导致LDA模型关注于相应的异常主题特征，同时LDA模型中的异常主题特征也会影响HMM模型中的状态向异常状态的发展，从而解决概率拖尾及模型阶数需人为设定的问题，实现检测性能的提升。

发明内容

本发明针对现有技术的不足，提供了一种基于环路图模型的视频异常检测方法。

本发明基于环路图模型的视频异常检测方法，具体思路如下：对于某一个场景的异常事件检测，首先选取正常场景的视频段作为训练数据，接着通过SIFT算法，逐帧提取低层特征，并对这些特征进行聚类，构建成词袋的形式，再通过LDA提取数据的语义特征，将得到的语义特征视为iHMM的观测量，然后通过对LDA-HMM环路模型的参数推理，根据Beam采样和EM算法训练出一个LDA-HMM环路模型。异常事件检测时，将正常场景的视频段和含有异常事件的该场景的视频段分别进行低层特征提取，LDA主题特征提取，送入已训练好的LDA-HMM模型中，根据前向算法，可以得到不同视频段每一帧的似然函数。当某帧的似然函数差大于某一个阈值时，判断该帧出现异常。

为了方便描述本发明的内容，首先作一下术语定义：

定义1词汇

词汇一般定义是一篇文档或者语言里所有的词和固定短语的综合，本文定义是将视频段每一帧低层特征提取处理后得到的数据形式视为词汇。

定义2语义特征

语义特征是一篇文档中能够描述这篇文档主题分布的参数。本文定义为能够最佳表示视频每一帧信息数据的量。

定义3前向算法

前向算法是用来计算给定隐马尔科夫模型(HMM)后一个观察序列的概率，给定这种算法，可以直接用来确定对于已知的一个观察序列，在一些隐马尔科夫模型(HMMs)中哪一个HMM最好的描述了它——先用前向算法评估每一个(HMM),再选取其中概率最高的一个。

本发明提出基于LDA-HMM的环路图模型视频异常检测方法，建立HMM状态和LDA主题特征之间的“谐振”，包括底层特征提取、LDA语义特征提取和HMM的动态评估、参数推理和学习等三项关键技术，具体处理步骤如下：

步骤一：底层特征提取

对已录制的视频，采用尺度不变特征变换算法(SIFT)对每一帧图像抽取二维图像位置信息（x,y）的特征。SIFT特征是图像的局部特征，其对旋转、尺度缩放、颜色变化保持不变性，对视角变化、噪声也保持一定程度的稳定性,独特性好，信息量丰富，即使少数的几个物体也可以产生大量的SIFT特征向量，能够得到好的检测效果。

SIFT算法主要分为五个步骤：

1.构建尺度空间，检测DOG尺度空间极值点，获得尺度不变性；

2.特征点过滤并进行精确定位；

3.为每个关键点赋予128维方向参数；

4.生成关键点的描述子；

步骤二：LDA语义特征提取

LDA是一个三层贝叶斯概率模型，包含词、主题和文档三层结构。LDA将每个文档表示为一个主题混合，每个主题是固定词表上的一个多项式分布。LDA假设文档由一个主题混合产生，同时每个主题是在固定词表上的一个多项式分布；这些主题被集合中的所有文档共享；每个文档有一个特定的主题混合比例，其从Dirichlet分布中抽样产生。作为一种生成式文档模型，用LDA提取文档的隐含语义结构和文档表征已经成功地应用到很多文本相关的领域。

生成一篇文档的具体步骤如下：

1.选择N，N服从Poisson(ξ)分布，N表示每篇文档的词汇量；

2.选择θ，θ服从Dirichlet(α)分布，θ是主题发生的概率，α是θ的先验分布；

3.选择主题z_mn，z_mn服从Multinomial(θ)分布；

4.选择词汇参数w_mn，w_mn服从分布，其中是主题词项分布矩阵。

LDA主题模型提供了一种介于观测变量和隐藏变量之间的联合概率模型，这样主题参数估计就等价于主题词的最大后验概率估计，或称之为主题模型的推理问题。主题模型的推理是生成文档的逆向过程，已知先验参数α和β，根据文档生成过程可以写出各种随机变量D、z和θ的联合概率，其中D＝{w₁,w₂,…,w_M}，表示文档集合，z表示主题，w₁,w₂,.......,w_M表示各个词汇，其下标表示此词汇是第多少个词汇。

p (D, z, θ | α, β) = Π_{m = 1}^{M} [p (θ_{m} | α) Π_{n = 1}^{N} p (z_{mn} | θ_{m}) p (w_{mn} | β_{z_{mn}})]

其中M表示文档数目，θ_m是第m篇文档的主题分布。

对主题先验参数θ进行积分得到p(z,w|α,β)，则根据贝叶斯公式，

p (z_{n} | z_{- n}, w, α, β) = \frac{p (z_{n}, z_{- n}, w | α, β)}{p (z_{- n}, w | α, β)}

其中，z_n表示除第m篇文档中第n篇词汇所对应的主题词，z_-n表示除第m篇文档中第n篇词汇所对应的主题词以外，其它所有的已知文档中的词汇所对应的主题词，w表示文档词汇。上式可用来完成主题参数的估计，即确定其对应的具有语义特征的关键词。

给定α和β情况下，主题先验参数θ、主题z以及每篇文档词汇w的联合分布可以表示为：

p (w, z, θ | α, β) = p (θ | α) Π_{n = 1}^{N} p (z_{n} | θ) p (w_{n} | z_{n}, β)

其中，整合θ和z，得到一个词汇的边缘分布：

p (w | α, β) = β) = &Integral; p (θ | α) (Π_{n = 1}^{N} \underset{z_{n}}{Σ} p (z_{n} | θ) p (w_{n} | z_{n}, β)) dθ

依据上面的边缘分布，得到M篇文档概率分布为：

p (D | α, β) = Π_{m = 1}^{M} &Integral; p (θ_{m} | α) (Π_{n = 1}^{N} \underset{z_{mn}}{Σ} P (z_{mn} | θ_{m}) P (w_{mn} | z_{mn}, β)) d θ_{m}

其中，D代表M篇文档集合，m表示第m篇文档标签序号。

然后计算给定一篇文档条件下隐藏变量的后验分布，公式如下所述：

p (θ, z | w, α, β) = \frac{p (θ, z, w | α, β)}{p (w | α, β)}

此后验分布采用变分EM算法进行推理可得到，取Q分布的函数去逼近p(θ,z|w,α,β)，其中Q分布的形式如下：

其中γ表示狄利克雷参数，表示多项式参数，表示多项式的第n个参数。

为了得到最佳的变分参数将变分分布和真实分布p(θ,z|w,α,β)之间的KL散度最小化，最小值可以通过迭代的方法获得。通过推导可得到和γ的迭代公式：

其中：表示在γ条件下θ_i的条件概率期望值，Ψ是对数伽玛函数，是条件多项式参数，α_i表示第i次迭代时的狄利克雷参数。更新Dirichlet参数α用的是Newton-Raphson方法。

通过上述的推理，得到新参数γ的估计值，γ携带了每次使用者产生数据组成文档的语义特征，这样就完成了LDA提取数据的语义特征的过程。

步骤三：环路HMM模型参数学习

对环路LDA-HMM的参数推理过程可以分为上下两部分，上一部分是基于iHMM模型进行构造的，下一部分是基于LDA模型构造的，因此在参数推理过程中，首先对上一部分按照类似于iHMM模型的参数推理过程进行推理，然后对下一部分按照类似于LDA的参数进行参数推理。

将主题特征矩阵γ作为环路HMM-LDA模型的观测量进行环路HMM-LDA的上一部分的参数推理，引入Beam采样的方法，Beam采样通过引入辅助变量u，使得潜在状态轨迹中的状态数量为一有限值，然后利用动态规划的方法计算状态轨迹的条件概率并对整个轨迹进行采样。Beam采样具有更高的效率，且在基础先验分布D(·)和观测分布F(·)非共轭的情况下，Beam采样仍然有效。为此，我们可以使用Beam采样算法对环路LDA-HMM模型进行参数推理。

与传统MCMC(Markov Chain Monte Carlo)方法相比，Beam采样不必边沿化π和θ，而是在其它变量不变的情况下，迭代地采样辅助变量u，轨迹S,状态转移概率矩阵π,共享DP基础测量β以及精度参量α和γ。

采样u：对于每个t，引入辅助变量u_t，在已知π、s_t-1和s_t情况下，u_t服从条件分布:

u_{t} ~ Uniform (0, π_{s_{t - 1}, s_{t}})

采样S：在给定辅助变量u和其它参数的基础上，利用前向滤波后向采样(forwardfiltering-backward)方法对整个状态序列S进行采样。重要的观测是指具有非零概率的轨迹在给定u的情况下，只有有限个这样的轨迹，故可利用动态规划的方法计算所有轨迹的条件分布。u_t的概率密度为：式中，如果满足条件C则ΙΙ(C)＝1，否则ΙΙ(C)＝0。因此，对于所有的t，通过以下方法可计算得到s_t的后验概率（为了简洁，式中略去了条件变量π和θ）:

\begin{matrix} p (s_{t} | z_{n, 1 : t}, u_{1 : t}) &Proportional; p (s_{t}, u_{t}, z_{n, t} | z_{n, 1 : t - 1}, u_{1 : t - 1}) \\ = Σ_{s_{t - 1}} p (z_{n, t} | s_{t}) p (u_{t} | s_{t}, s_{t - 1}) p (s_{t} | s_{t - 1}) p (s_{t - 1} | z_{n, 1 : t - 1}, u_{1 : t - 1}) \\ = p (z_{n, t} | s_{t}) Σ_{s_{t - 1}} II (u_{t} < π_{s_{t - 1}, s_{t}}) p (s_{t - 1} | z_{n, 1 : t - 1}, u_{1 : t - 1}) \\ = p (z_{n, t} | s_{t}) Σ_{s_{t - 1 :} u_{t} < π_{s_{t - 1}, s_{t}}} p (s_{t - 1} | z_{n, 1 : t - 1}, u_{1 : t - 1}) \end{matrix}

在Beam采样中，只需计算有限个转移概率为正的状态组成的轨迹的后验概率。此外，对s_t-1求和，虽然在原理上要累加无限项，但可通过利用辅助变量u_t截取满足条件和p(s_t-1|z_n,1:t-1,u_1:t-1)>0的有限个s_t-1。最后，为了对整个轨迹s采样，首先从p(s_T|z_n,1:T,u_1:T)采样s_T，然后在已知s_t+1时执行后向遍历采样s_t，即：

p(s_t|s_t+1,z_n,1:T,u_1:T)∝p(s_t|z_n,1:t,u_1:t)p(s_t+1|s_t,u_t+1)

采样π：若n_ij表示从状态i转移到状态j的次数，S中不同状态的数目为K，这些状态被标记为1,2,…,K，将s中所有未出现的无限多个状态融合在一起，则π_k可表示为给定S、β和α，π_k的后验分布表示为：

p (π_{k} | S, β, α) &Proportional; Dirichlet (n_{k 1} + {αβ}_{1} + n_{k 2} + {αβ}_{2} + \cdot \cdot \cdot + n_{kK} + {αβ}_{K}, α Σ_{i = K + 1}^{\infty} β_{i})

为了采样β引入一个辅助变量集m_ij，条件独立服从下列分布：

p(m_ij|s,β,α)∝S(n_ij,m)(αβ_j)^m

其中S(.,.)表示第一类Stirling数，共享DP参数服从条件分布Dirichlet(m_.1…m_.K,γ)其中最终，每一项θ_m关于s，z及他们的先验分布H条件独立服从分布：

p(θ|s,z,H)＝∏_kp(θ_m|s,z,H)

由于基分布Dir(α)和数据分布F多项式分布为共轭分布，每一个θ_m迅速的采集到。

采样β：通过引入辅助变量集的方法来采样β。根据z的后验概率密度函数：

p (π_{j} | β) ~ Dir (α_{0} β) = \frac{Γ (α_{0})}{Π_{k = 1}^{K} Γ (α_{0} β_{k})} Π_{k = 1}^{K} π_{jk}^{α_{0} β_{k} - 1}

p (z | π_{j}) = Π_{k = 1}^{K} π_{jk}^{n_{jk}}, n_{jk} = Σ_{i = 1}^{K} δ (z_{ji}, k)

\begin{matrix} p (z | β) = Π_{j = 1}^{J} &Integral; p (z | π_{j}) \cdot p (π_{j} | β) d π_{j} \\ = Π_{J = 1}^{J} &Integral; p (z | π_{j 1}, . . ., π_{jK}) \cdot p (π_{j 1}, . . ., π_{jK} | β) d π_{j 1} . . . {dπ}_{jK} \\ = Π_{j = 1}^{J} \frac{Γ (α_{0})}{Π_{k = 1}^{K} Γ (α_{0} β_{k})} &Integral; Π_{k = 1}^{K} π_{jk}^{n_{jk} + α_{0} + β_{k} - 1} d π_{jk} \\ = Π_{j = 1}^{J} \frac{Γ (α_{0})}{Γ (α_{0} + n_{j})} Π_{k = 1}^{K} \frac{Γ (α_{0} β_{k} + n_{jk})}{Γ (α_{0} β_{k})}, (n_{j} = Σ_{k = 1}^{K} n_{jk}) \end{matrix}

考虑上式的似然函数项，β_k作为伽马（Gamma）函数的参考。然而两个Gamma函数的比值是一个α₀β_k的多项式，可以按下式展开：

\frac{Γ (α_{0} β_{k} + n_{jk})}{Γ (α_{0} β_{k})} = Π_{m_{jk} = 1}^{n_{jk}} (m_{jk} - 1 + α_{0} β_{k}) = Σ_{m_{jk} = 0}^{n_{jk}} s (n_{jk}, m_{jk}) {(α_{0} β_{k})}^{m_{jk}}

上式中，s(n_jk,m_jk)是的系数。事实上s(n_jk,m_jk)是第一类无符号Stirling的数量，引入辅助变量集m＝（m_jk,对所有j,k)，考虑β的先验，可得到z,m,β的联合分布：

p (z, m, β) = \frac{Γ (γ)}{Γ {(γ_{r})}^{K} Γ (γ_{u})} (Π_{j = 1}^{J} \frac{Γ (α_{0})}{Γ (α_{0} + n_{j})}) β_{u}^{γ_{u} - 1} Π_{k = 1}^{K} β_{k}^{γ_{k} - 1} Π_{j = 1}^{J} {(α_{0} β_{k})}^{m_{jk}} s (n_{jk}, m_{jk})

可以验证，∑_mp(z,m|β)＝p(z|β)。当L→∞时，根据上式的条件分布，可得到m和β的后验分布是：

p(m_jk=m|z,m^-jk,β)∝s(n_ik,m)(αβ_k)^m

p (β | z, m) &Proportional; β_{u}^{γ - 1} Π_{k = 1}^{K} β_{k}^{Σ_{j} m_{jk} - 1}

m_jk的后验分布容易求得，因为它只能从0～n_jk范围内取值，且s(n_ik,m)可较容易地计算得到。给定m的条件下β的后验分布是Dirichlet分布，即β|m,γ～Dir(∑_jm_j1,…,∑_jm_jK,γ)。

采样θ：在给定z、x和先验H的条件下，各θ_k之间相互独立的，即θ_k的后验概率分布完全由分量k对应的观测序列决定:

p (θ_{k} | z, β, θ^{- k}, x) &Proportional; h (θ_{k}) \underset{ji : z_{ji} = k}{Π} f (x_{ji} | θ_{k}), k = 1,2, . . ., K .

式中h(θ)是基础分布H(·)的概率密度函数，若H(·)是F(·)的共轭先验分布，则可积分消除参数θ。

采样精度参量α₀,γ：辅助变量集m和超参数β具有某种形式上的共轭关系，且可以得到：

p (m_{1}, . . ., m_{J} | α_{0}, n_{1}, . . ., n_{J}) = Π_{j = 1}^{J} s (n_{j}, m_{j}) α_{0}^{m_{j}} \frac{Γ (α_{0})}{Γ (α_{0} + n_{j})}

利用上式及α₀的先验，可以得到α₀的Gibbs采样方法。

假设α₀先验服从参数为a和b的Gamma分布。对于每一个j有：

\frac{Γ (α_{0})}{Γ (α_{0} + n_{j})} = \frac{1}{Γ (n_{j})} {&Integral;}_{0}^{1} ω_{j}^{α_{0}} {(1 - ω_{j})}^{n_{j} - 1} (1 + \frac{n_{j}}{α_{0}}) d ω_{j}

式中和为辅助变量，其中ω_j在[0,1]内取值，s_j是一二进制{0,1}变量，定义如下分布：

p (α_{0}, ω, s) &Proportional; {α_{0}}^{a - 1 + Σ_{j = 1}^{J} m_{j}} e^{- a_{0} b} Π_{j = 1}^{J} ω_{j}^{α_{0}} {(1 - ω_{j})}^{n_{j} - 1} {(\frac{n_{j}}{α_{0}})}^{s_{j}}

通过求上式的边沿概率积分可得到α₀的后验概率分布：

p (α_{0} | ω, s) &Proportional; {α_{0}}^{a - 1 + Σ_{j = 1}^{J} m_{j} - s_{j}} e^{- α_{0} (b - Σ_{j = 1}^{J} \log ω_{j})}

上式是服从参数为和的Gamma分布。给定α₀，ω_j和s_j是相互独立的，后验概率密度函数是：

p (ω_{j} | α_{0}) &Proportional; ω_{j}^{α_{0}} {(1 - ω_{j})}^{n_{j} - 1}

p (s_{j} | α_{0}) &Proportional; {(\frac{n_{j}}{α_{0}})}^{s_{j}}

分别是Beta和二项式分布，这样就实现了对精度参量α₀的采样。

给定辅助变量集的总数m＝∑_jm_j，则混合分量数K的分布由精度参量γ给出：

p (K | γ, m) = s (m, K) γ^{K} \frac{Γ (γ)}{Γ (γ + m)}

从上式可知，给定m和K的情况下，各观测和γ相互独立，该情况和辅助变量集m和超参数β的情形完全类似，因此可利用和采样精度参量α₀相同的方法采样γ。

步骤四：环路LDA模型参数学习

选取新的视频段序列重复步骤1，得到新的BOW词袋，将步骤3采样得到的α作为LDA模型的超先验参数，进行环路HMM-LDA下一部分的参数学习，下一部分关键的推理问题是计算给定一篇文档条件下隐藏变量的后验分布，公式如下所述：

p (θ, z_{n, t} | y_{n, t}, α, φ) = \frac{p (θ, z_{n, t}, y_{n, t} | α, φ)}{p (y_{n, t} | α, φ)}

由于θ和φ存在耦合，导致后验分布在计算上是很难处理的，因此需要相应的推理算法将计算进一步的简化。本发明结合变分推理和EM估计的推理算法，简称变分EM算法，变分推理的基本思想是利用Jensen不等式来获得对数似然的下限。获得下限簇的一个简单办法是对最初圆形标记模型中的一些边缘节点进行删减，再赋予新参数后得到隐藏变量的分布族，θ和φ之间耦合问题的产生是由于θ，z和y之间的边缘，通过放弃这些边缘和y节点，在独立变分参数基础上简化模型，可以获取隐藏变量的分布族。族具有以下的变分分布：

其中Dirichlet参数γ和多项式参数是独立变分参数。指定了简化的概率分布族后，下一步是建立一个优化问题去决定变分参数γ和的值，这样寻找对数似然下限的问题直接转化成了下面的优化问题：

通过将变分分布和真实分布p(θ,z_n,t|y_n,t,α,φ)之间的Kullback-Leibler(KL)散度最小化得到最佳的变分参数值，最小值可以通过迭代的方法获得。通过计算KL散度的导数和设置它们为零，得到一对新的更新方程。变分参数的推导过程可以描述如下：考虑上式的变分分布，在处理上常将其看成后验分布p(θ,z|y,α,φ)的近似替代，其中变分参数γ，通过我们下面的描述的优化过程进行设置，使用杰森不等式来获取文档对数似然的边界，为了简化省略参数γ和可以得到：

\begin{matrix} \log p (y | α, φ) = \log \underset{z}{&Integral; Σp (θ, z, y | α, φ)} dθ \\ = \log \underset{z}{&Integral; Σ} \frac{p (θ, z, y | α, φ)}{q (θ, z)} dθ \\ &GreaterEqual; \log \underset{z}{&Integral; Σ} q (θ, z) p (θ, z, y | α, φ) dθ - \log \underset{z}{&Integral; Σ} q (θ, z) \log q (θ, z) dθ \\ = E_{q} [\log p (θ, z, y | α, φ)] - E_{q} [\log q (θ, z)] \end{matrix}

通过上式可以看出杰森不等式能够为一个随机的变分分布提供了一个对数似然的下界。可以容易证明上式左右两面等式之间的差别等于变分后验概率和真实后验概率的KL散度。即让表示式的右边部分（其中在下面的式子中还原了对变分参数γ和的依赖关系）表示成：

这表明最大化指定γ和时的下界等价于最小化变分后验概率和真实后验概率之间的KL散度。通过使用p和q的因子展开下界：

最后，展开式以模型参数(α,φ)和变分参数的形式，

其中使用了多项式中的期望式子：

接下来，使用指定的变分参数γ，去最大化该下界。值得注意的是这是个约束最大化，因此引入拉格朗日算符通过孤立条件和增加合适的拉格朗日乘数λ。其中对相关：

其中为了简化省略了L的参数，下标表示L是关于的函数。对L关于求导得：

令导数为零计算出变分参数的最大值为：

同理，我们可以得到包含γ_i（第i个后验Dirichlet参数分量）的形式：

关于γ_i求导并令导数为零可得：

变分分布其实是一个条件概率分布，作为一个y的函数变化。因此，变分分布公式最终可以写成形式，可以看成是真实后验分布p(θ,z_n,t|y_n,t,α,φ)的近似。

在给定文档语料库D＝{Y₁,...,Y_M}条件下，要获得使数据的对数似然函数最大化的参数α和φ的值，正如上面描述的，概率分布p(y|α,φ)在计算上并不易于处理。不过由于变分推理算法给处理对数似然的下限，这个下限可以最大化对应的α和φ。因此可以寻求近似经验贝叶斯估计为模型的下一部分通过一个交替变化的EM过程，这个过程可以在给定对应的变分参数γ和的前提下最大化下界，然后固定变分参数的值，就对应的模型参数α和φ最大化下界。可以运用变分EM算法得到变分参数γ和以及模型参数α和φ来将下限最大化处理。

变分EM算法迭代过程分为以下两个步骤：

1.E-步骤，对于每个文档集合，寻找变分参数的最佳值，然后让变分分布近似p(θ,z|y,α,φ)。

2.M-步骤，将对数似然的下限最大化，相当于E-步骤中得到的近似后验条件下推导出每篇文档的最大似然估计，根据α和φ极大化E中p(y|α,φ)边界。

考虑模型参数获取数α和φ的经验贝叶斯估计问题，通过将变分下界作为边缘对数似然的近似来解决该问题，将变分参数的和γ的取值在变分推理得到的值上，然后获取(近似)经验贝叶斯估计通过最大化这个下界关于模型参数。综合的方法去寻找经验贝叶斯估计是基于变分EM步骤的，在变分E步骤中，最大化边界关于变分参数γ和在M步骤中，最大化边界关于模型参数α和φ。为了最大化边界关于φ，孤立其他条件和引入拉格朗日乘数。

关于φ_ij求导并设导数为零得：

同理边界关于α的为：

L_{[α]} = Σ_{d = 1}^{M} (\log Γ (Σ_{j = 1}^{k} α_{j}) - Σ_{i = 1}^{k} \log Γ (α_{i}) + Σ_{i = 1}^{k} ((α_{i} - 1) (ψ (γ_{di}) - ψ (Σ_{j = 1}^{k} γ_{di}))))

关于α_i求导：

\frac{&PartialD; L}{{&PartialD; α}_{i}} = M (ψ (Σ_{j = 1}^{k} α_{j}) - ψ (α_{i}) + Σ_{d = 1}^{M} ψ (γ_{di}) - ψ (Σ_{j = 1}^{k} γ_{di}))

这个导数依赖于α，其中i≠j，因此需要使用迭代的方法寻求α的最大值，本发明调用Linear-time Newton-Raphson算法去迭代上式求得α的最大值。值得注意的是，可以使用相同的方法去得到η的一个经验贝叶斯点估计值。这样在环路LDA-HMM下部分采样得到α，φ及η的估计。

步骤五：环路HMM-LDA模型的树加权

环路LDA-HMM在iHMM和LDA的基础上构建了HMM状态和LDA主题特征之间的相互影响，该模型是一个有向有环概率图模型结构，在参数的推理过程中必将按照有环概率图模型结构的树重加权的思想进行参数推理。即：将有向有环图转换为无环的生成树形式，在无环树上进行参数推理，将推理之后的参数再次使用树重加权进行优化。环路LDA-HMM模型可以分解为两个生成树形式，一个树为iHMM结构，另一个树为LDA结构，各自参数已由上面推理过程得到，设iHMM的树结构参数推理得到α_ihmm和θ_ihmm，LDA的树结构参数推理得到α_lda和θ_lda，则环路LDA-HMM的参数可以表示为：

α＝λ_ihmmα_ihmm+λ_ldaα_lda

θ＝μ_ihmmθ_ihmm+μ_ldaθ_lda

其中λ_ihmm，μ_ihmm，分别为iHMM的树结构参数α和θ的权值，λ_lda，μ_lda，分别为LDA树结构α和θ的权值。为了简化推理过程，取最理想的加权状态，令两个树的参数的加权值都为0.5，即λ_ihmm＝λ_lda＝0.5，μ_ihmm＝μ_lda＝0.5。

步骤六：视频异常检测

iHMM异常检测包含两个部分，前一个部分是对事件的评估，后一部分是参数的学习，参数学习就是模型参数未知，求最佳模型参数λ的问题。将使用者产生的数据组成的数据文档的语义特征视为HMM模型的观测量O＝O₁,O₂,…O_T。

视频异常检测过程主要涉及到iHMM三个问题中的评估问题，采取前向算法则可以解决这一问题。

前向算法：

定义t时刻状态j的局部概率为α_t(j)=Pr（观测状态|隐藏状态j）×Pr（t时刻所有指向状态j的路径）,对于最后的状态，其局部概率包括了通过所有可能的路径到达这些状态的概率。

特别当t=1时，没有任何指向当前状态的路径。故t=1时位于当前状态的概率是初始概率，即Pr(state|t=1)=P(state),因此，t=1时的局部概率α₁(i)等于当前状态的初始概率乘以相关的观察概率：

α₁(i)=π(i)b_i(o₁)

计算t>1时的局部概率α′s。

t-1时刻α′s给出了所有到达此t时刻状态的前一路径概率，因此，我们可以通过t-1时刻的局部概率定义t时刻的α′s:

α_{t + 1} (j) = b_{j} (o_{t + 1}) Σ_{i = 1}^{N} α_{t} (i) a_{ij}

可以递归地计算给定隐马尔科夫模型后一个观察序列的概率，即通过t=1时刻的局部概率α′s计算t=2时刻的α′s，通过t=2时刻的α′s计算t=3时刻的α′s等等直到t=T。给定隐马尔科夫模型的观察序列的概率就等于t=T时刻的局部概率之和。

使用前向算法计算T时长的观察序列的概率：

已知T时长观察序列：O=Ο₁Ο₂…Ο_T

1）t=1时刻所有状态的局部概率α：

α₁(j)＝π(j)b_j(o₁)

2）在t=2……T时，对于每个状态的局部概率，由下式计算：

α_{t + 1} (j) = b_{j} (o_{t + 1}) Σ_{i = 1}^{N} α_{t} (i)

3)最后，给定HMM,观察序列的概率等于T时刻所有局部概率之和：

\Pr (O) = Σ_{i = 1}^{N} α_{T} (j) .

对于某一个场景的异常事件检测，我们可以选取正常场景的视频段作为训练数据，经过低层特征提取，LDA主题特征提取后，训练出一个LDA-HMM环路模型。然后，将正常场景的视频段和含有异常事件的该场景的视频段分别送入已训练好的LDA-HMM模型，根据前向算法，可以得到不同视频段每一帧的似然函数。当某帧的似然函数差大于某一个阈值时，这个阈值可以人为设定，判断该帧出现异常。

本发明的有益效果在于针对基于LDA和HMM的视频异常事件检测框架下，受到概率拖尾问题和视频异常检测模型过度拟合的困扰，提出了一种基于LDA-HMM的环路图模型视频异常检测方法，建立HMM状态和LDA主题特征之间的“谐振”，使得HMM状态影响LDA主题特征，而且反过来LDA主题特征也会影响HMM状态，从而解决概率拖尾及模型阶数需人为设定的问题，使视频异常检测达到更加精确的效果。

附图说明

图1为本发明的流程图；

图2为环路LDA-HMM生成图

具体实施方式

本发明的实施流程图如图1所示，具体实施步骤如下：

步骤1.底层特征提取：对已录制的视频，采用SIFT算法对每一帧图像抽取二维图像位置信息特征，得到若干个特征点的128维方向参数，将这些特征点聚类，构建BOW词袋的形式；

步骤2.将视频帧序列的BOW词袋作为文档D，通过LDA模型进行主题语义特征的提取，获取得到表示每帧图像主题特征的主题特征矩阵γ；

步骤3.将主题特征矩阵γ作为环路HMM-LDA模型的观测量进行环路HMM-LDA的上一部分的参数学习，通过引入辅助变量u，使得潜在状态轨迹中的状态数量为一有限值，利用动态规划的方法计算状态轨迹的条件概率并对整个轨迹进行采样；

采样u：在已知状态转移概率矩阵π、t-1和t时刻的轨迹状态s_t-1、s_t情况下，u_t服从条件分布

采样s：s_t的后验概率为：

\begin{matrix} p (s_{t} | z_{n, 1 : t}, u_{1 : t}) &Proportional; p (s_{t}, u_{t}, z_{n, t} | z_{n, 1 : t - 1}, u_{1 : t - 1}) \\ = Σ_{s_{t - 1}} p (z_{n, t} | s_{t}) p (u_{t} | s_{t}, s_{t - 1}) p (s_{t} | s_{t - 1}) p (s_{t - 1} | z_{n, 1 : t - 1}, u_{1 : t - 1}) \\ = p (z_{n, t} | s_{t}) Σ_{s_{t - 1}} II (u_{t} < π_{s_{t - 1}, s_{t}}) p (s_{t - 1} | z_{n, 1 : t - 1}, u_{1 : t - 1}) \\ = p (z_{n, t} | s_{t}) Σ_{s_{t - 1 :} u_{t} < π_{s_{t - 1}, s_{t}}} p (s_{t - 1} | z_{n, 1 : t - 1}, u_{1 : t - 1}) \end{matrix}

其中z_n,t表示t时刻的观测量，n为设定的观测个数，ΙΙ(C)表示如果满足条件C则ΙΙ(C)＝1，否则ΙΙ(C)＝0；

采样π：令m_ij表示从状态i转移到状态j的次数，s中不同状态的数目为K，这些状态被标记为1,2…,K,将s中所有未出现的无限多个状态融合在一起，则π_k可表示为在给定轨迹状态s,共享DP基础测量β和精度测量α下，其后验分布为：

p (π_{k} | S, β, α) &Proportional; Dirichlet (n_{k 1} + {αβ}_{1} + n_{k 2} + {αβ}_{2} + \cdot \cdot \cdot + n_{kK} + {αβ}_{K}, α Σ_{i = K + 1}^{\infty} β_{i})

采样α：假设α服从参数为a和b的Gamma分布，则其后验概率分布为：

p (α | ω, v) &Proportional; α^{a - 1 + Σ_{j = 1}^{J} m_{j} - v_{j}} e^{- α (b - Σ_{j = 1}^{J} \log ω_{j})}

其中和为辅助变量，ω_j在[0,1]内取值，v_j是一二进制{0,1}变量；

采样θ：每一项θ_m关于s,z及它们的先验分布H条件独立服从分布：

p(θ|s,z,H)＝∏_kp(θ_m|s,z,H)

由于基分布Dir(α)和数据分布F多项式分布为共轭分布，每一个θ_m可以迅速的采集到；

步骤4.选取新的视频段序列重复步骤1，得到新的BOW词袋，将步骤3采样得到的α作为LDA模型的超先验参数，进行环路HMM-LDA下一部分的参数学习；在给定词袋D＝{Y₁,...,Y_M}条件下，参数推理的目的是为了获得数据对数似然函数最大化的参数α和φ的值，首先引入变分参数γ和将寻找对数下限的问题转化成下面的优化问题：

其中z表示主题，y表示词汇，θ表示主题-文档分布矩阵，然后将变分分布和真实分布p(θ,z_n,t|y_n,t,α,φ)之间的Kullback-Leibler(KL)散度最小化得到最佳的变分参数值和计算KL散度的导数并设置为0，得到一组更新方程：

γ_{i} = α_{i} + Σ_{n = 1}^{N} φ_{ni}

运用EM算法，进行反复迭代，直到超先验参数α和β收敛，求出此时α和β的值，根据θ～Dir(α)，可以继而推导出参数θ；

步骤5.将环路HMM-LDA关联树上的参数进行树重加权处理，把环路模型分解为iHMM结构和LDA结构的两个无环生成树，由步骤3、步骤4的参数推理过程，可以得到α_ihmm，θ_ihmm和α_lda，θ_lda，环路模型的参数可以表示为：

α＝λ_ihmmα_ihmm+λ_ldaα_lda

θ＝μ_ihmmθ_ihmm+μ_ldaθ_lda

其中λ_ihmm，μ_ihmm和λ_lda，μ_lda分别为iHMM和LDA树结构参数α和θ的权值，取最理想的加权状态，令两个树的参数的加权值都为0.5，完成建模；

步骤6.异常检测，将正常场景的视频段和含有异常事件的视频段分别进行步骤1和步骤2，得到的语义特征作为已训练好的环路HMM-LDA模型的输入值，根据前向算法，计算得到两视频段每一帧的似然函数，将两似然函数作差并设置一个阈值，绝对值大于阈值时设定为异常事件，小于等于阈值时设定为正常事件。

Claims

1.基于环路图模型的视频异常检测方法，其特征在于该方法的具体步骤是：

步骤2.将视频帧序列的BOW词袋作为词袋D，通过LDA模型进行主题语义特征的提取，获取得到表示每帧图像主题特征的主题特征矩阵γ；

步骤3.将主题特征矩阵γ作为环路HMM-LDA模型的观测量进行环路HMM-LDA的上一部分的参数推理，通过引入辅助变量u，使得潜在状态轨迹中的状态数量为一有限值，利用动态规划的方法计算状态轨迹的条件概率并对整个轨迹进行采样；

采样s：s_t的后验概率为：

\begin{matrix} p (s_{t} | z_{n, 1 : t}, u_{1 : t}) &Proportional; p (s_{t}, u_{t}, z_{n, t} | z_{n, 1 : t - 1}, u_{1 : t - 1}) \\ = Σ_{s_{t - 1}} p (z_{n, t} | s_{t}) p (u_{t} | s_{t}, s_{t - 1}) p (s_{t} | s_{t - 1}) p (s_{t - 1} | z_{n, 1 : t - 1}, u_{1 : t - 1}) \\ = p (z_{n, t} | s_{t}) Σ_{s_{t - 1}} I I (u_{t} < π_{s_{t - 1}, s_{t}}) p (s_{t - 1} | z_{n, 1 : t - 1}, u_{1 : t - 1}) \\ = p (z_{n, t} | s_{t}) Σ_{s_{t - 1 :} u_{t} < π_{s_{t - 1}, s_{t}}} p (s_{t - 1} | z_{n, 1 : t - 1}, u_{1 : t - 1}) \end{matrix}

p (π_{k} | S, β, α) &Proportional; D i r i c h l e t (n_{k 1} + {αβ}_{1} + n_{k 2} + {αβ}_{2} + ... + n_{k K} + {αβ}_{K}, {αΣ}_{i = K + 1}^{\infty} β_{i})

p (α | ω, v) &Proportional; α^{a - 1 + Σ_{j = 1}^{J} m_{j} - v_{j}} e^{- α (b - Σ_{j = 1}^{J} {logω}_{j})}

p(θ|s,z,H)＝∏_kp(θ_m|s,z,H)

步骤4.选取新的视频段序列重复步骤1，得到新的BOW词袋，将步骤3采样得到的α作为LDA模型的超先验参数，进行环路HMM-LDA下一部分的参数推理；在给定词袋D＝{Y₁,...,Y_M}条件下，参数推理的目的是为了获得数据对数似然函数最大化的参数作为α和φ的估计值，首先引入变分参数γ和将寻找对数下限的问题转化成下面的优化问题：

其中z表示主题，y表示词汇，θ表示主题-文档分布矩阵，然后将变分分布和真实分布p(θ,z_n,t|y_n,t,α,φ)之间的Kullback-Leibler散度最小化得到最佳的变分参数值和计算KL散度的导数并设置为0，得到一组更新方程：

γ_{i} = α_{i} + Σ_{n = 1}^{N} φ_{n i}

α＝λ_ihmmα_ihmm+λ_ldaα_lda

θ＝μ_ihmmθ_ihmm+μ_ldaθ_lda