CN103839080A

CN103839080A - 基于测度查询熵的视频流异常事件检测方法

Info

Publication number: CN103839080A
Application number: CN201410113977.4A
Authority: CN
Inventors: 樊亚文; 郑世宝; 苏航
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2014-03-25
Filing date: 2014-03-25
Publication date: 2014-06-04

Abstract

一种数字图像处理技术领域的基于测度查询熵的视频流异常事件检测方法，以弱监督联合主题模型作为初始模型；给定一个包含未标注的正常和异常类别的数据流，依次判断当前时刻样本是否需要标注以及由谁来标注；在当前模型的参数不断更新的同时，对阈值进行更新；通过重复更新模型参数以及阈值直到遍历完数据流；在测试过程中，计算测试数据集与最终得到的模型的似然阈值，从而实现异常事件的识别。本发明在主动学习查询策略上引入时间因果引导模型采集更多的异常事件样本；同时采用两种查询准则，利用未知样本，不确定性样本和识别出的异常样本对模型进行更新；设计了一种新的测度查询熵，联合分类精度，实时监测模型性能。

Description

基于测度查询熵的视频流异常事件检测方法

技术领域

本发明涉及的是一种数字图像处理技术领域的方法，具体是一种基于测度查询熵的视频流异常事件检测方法。

背景技术

在视频监控中，异常事件的识别是一项重要的任务，并且受到了很大的关注。尽管如此，它仍旧为难题，在实际环境中面临诸多挑战。首先，异常事件通常具有不可预测性。其次，不管是正常事件还是异常事件本身都具有多样性。另一个最关键的问题是缺乏足够的标注好的样本，用于模型训练和校验，这个问题对于异常事件尤为凸显。更进一步，即使在给定训练样本的情况下，对异常事件的建模也不是一件易事。从全局来看，在大型复杂场景中，异常件事与正在进行的正常事件相比，通常看起来很微小。

经过对现有的技术文献检索，Hospedales等提出了一种弱监督联合主题模型(Hospedales T M，Li J，Gong S，et al.Identifying rare and subtle behaviors:A weakly supervised joint topic modellJ].Pattern Analysis and Machine Intelligence，IEEE Transactions on，2011，333122:2451‐2464..，来解决异常事件样本稀少的问题。与传统监督学习方法不同，该方法可以只利用一个异常事件样本为异常行为建模。但是该方法还是需要对一个庞大的数据库进行人工标注，代价很高。此外，他们采用批处理学习的方法，模型一旦学习好就保持不变，因此无法为一些新出现的异常事件建模。

基于流的主动学习策略能够解决上述问题。模型自己帮助寻找潜在的异常事件样本，主动请求人工标注。但是传统的主动学习策略一般假设样本类别是均衡的，并且采用单一查询准则，似然准则或者不确定性准则。Loy等提出了一种基于流的主动学习方法(Loy C C，Xiang T，Gong S.Stream‐based active unusual event detectionnMM//Computer Vision–ACCV2010.Springer Berlin Heidelberg，2011:161‐175..，用于异常事件的检测。他们的方法能够自适应的在似然准则和不确定性准则之间进行选择，分别实现检测新类别和改善分类边界的目的。此外通过对不确定准则进行改进，加强对异常事件类别周围样本的关注，从而解决样本类别分配不均衡的问题。但是从他们的文献中可以看出，自适应选择查询策略有时会失效。此外在他们的方法中，对于已识别出来的异常样本没有加以利用，从异常样本稀疏以及训练样本越多越有利的角度来看，是不合理的。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于测度查询熵的视频流异常事件检测方法，本发明通过设计全新的查询熵，联合分类精度，实时监测模型性能。通过自适应阈值实现样本类别检测和改善分类边界的目的。在查询策略上引入时间因果，引导模型采集更多的异常事件样本。本发明解决了异常事件建模和异常事件样本采集的问题，保证了异常事件识别的鲁棒性和有效性。

本发明是通过以下技术方案实现的，本发明包括以下步骤：.

步骤1)利用包含有限个经人工标注的正常和异常类别的训练样本库D_l={X₁,...X_n,...}，训练一个弱监督联合主题模型作为初始模型。

步骤2)给定一个包含未标注的正常和异常类别的数据流D_u={X₁,...X_t,...}，依次判断当前时刻样本X_t是否需要标注以及由谁来标注：

2.1)计算当前时刻样本Xt的似然系数其中： M表示当前模型的参数{α,β,θ,φ}，K表示所有的样本类别。

2.2)采用委员会投票法计算当前时刻样本X_t的不确定性系数

其中：V(c_t=k)表示当前样本预测为k类获得的投票数；N表示总投票数，即委员数；投票熵越大，表示投票越分散，样本类别的不确定性越高。

所述的总投票数优选为2～10。

2.3)根据似然系数和不确定性系数计算出当前时刻样本X_t的查询系数，该查询系数由因果加权的似然得分和不确定性得分组成。

所述的查询系数具体为：

\begin{matrix} q_{t}^{l} = q_{t}^{lik} \cdot (1 + λ \cdot wδ (c_{t - 1}, c_{abn})), \\ q_{t}^{u} = q_{t}^{VE} \cdot (1 + λ \cdot wδ (c_{t - 1}, c_{abn})), \\ δ (a, b) = \{\begin{matrix} 1, ifa = b \\ 0, else \end{matrix} \end{matrix},

其中：

表示因果加权的似然得分；

表示因果加权的不确定性得分；c_t-1表示前一时刻样本的类别；c_abn表示异常类别；λ为控制参数，用于调整因果项的重要程度，0≤λ≤1；当c_t-1代表正常类别时，第二项(1+λ·wδ(c_t-1,c_abn))设为1；w表示因果度

其中：

表示属于类别c_t-1的训练样本库，N表示

中包含的样本数量；f(X_t,X_i)表示当前样本X_t与同类别的其它样本X_i的相似度。

2.4)将计算得到的查询系数与查询阈值Th_{lik_t}和Th_unc进行比较：

a)当

表示当前样本X_t属于确认未知类别样本，进而通过人工标注获得标签c_t，将标注好的样本{X_t,c_t}添加到训练数据库，并更新当前模型的参数。

b)当并且表示当前样本类别模糊，进而通过人工标注获得标签c_t将标注好的样本{X_t,c_t}添加到训练数据库，并更新当前模型的参数；

c)当

且模型预测的样本Xt的标签ct*属于异常事件类别，表示当前样本属于已知异常事件类别，将样本及其预测的标签

添加到训练数据库，并更新当前模型的参数。

步骤3)在当前模型的参数不断更新的同时，对阈值进行更新，具体步骤包括：

3.1)通过计算查询熵从而度量主动学习过程中模型采集异常事件样本的能力，查询熵

其中：N_c是目前为止观察到的事件种类数；N_q是目前为止主动学习过程中标注过的样本总数。

表示N_q标注样本中属于样本类别c_k的样本数。

在类别分布极不平衡的场景下，分类器通常具有偏向主要类别的风险。因此如果分类器对于主动学习过程中请求标注的数据具有的查询熵越高，则表示样本类别分布越均匀，采集到的异常事件样本越多。

3.2)通过计算总体分类准确性系数从而度量主动学习过程中模型的分类性能，总体分类准确性系数

其中N代表训练样本总数；

表示由模型预测的类别标注；N_e表示由人工标注的样本总数；c_j表示由人工标注的准确类别。

3.3)将查询熵和总体分类准确性系数融合为当前时刻模型的总体性能ρ_t=μH_t+(1-μ)p_t,其中：μ是先验混合参数，0≤μ≤1；公式右边第一项表示异常事件类别样本收集的有效性，第二项表示分类准确性。

3.4)根据总体性能对似然阈值进行更新

\begin{matrix} {Th}_{lik_t + 1} = (1 - Δ ρ_{t}) T h_{lik_t}, \\ Δ ρ_{t} = ρ_{t} - ρ_{t - 1} . \end{matrix}

其中：ρ_t-1为前一时刻模型的总体性能，Th_{lik_t+1}为基于当前时刻似然阈值Th_{lik_t}更新后的似然阈值。

在迭代学习初期，模型还不准确，因此样本查询更多由似然准则决定。

步骤4)重复以上步骤2)和步骤3)直到遍历完数据流D_u={X₁,...X_t,...}，在测试过程中，计算测试数据集与步骤3最终得到的模型的似然阈值，从而实现异常事件的识别，具体为

其中：X表示需要识别的样本；c表示模型预测的样本X类别；K表示所有的样本类别；M表示训练完成的模型的参数。

技术效果

与现有技术相比，本发明的主要贡献和特点在于：1）在主动学习查询策略上引入时间因果引导模型采集更多的异常事件样本；2）同时采用两种查询准则，利用未知样本，不确定性样本和识别出的异常样本对模型进行更新；3）设计了一种新的测度查询熵，联合分类精度，实时监测模型性能。

附图说明

图1为本发明方法流程示意图。

图2为实施例实验视频序列中正常和异常事件示意图；

图中：(a)表示正常事件；(b)表示U型拐弯事件；(c)表示接近冲突的事件。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

本实施采用的视频序列来自数据库QMUL(The Queen Mary University of London)交通数据库，帧率为25pfs，分辨率为360×288，图2为视频监控场景。QMUL数据库来自于伦敦大学玛丽皇后学院，是专门用于复杂视频监控场景分析的数据库。本实施例采用弱监督联合主题模型，正常主题数设置为20，每个异常事件对应一个主题。本实施例中要识别的异常事件为U型拐弯事件和接近冲突的事件。表1为本实施例的样本设置情况。

表1样本设置表

本实施例中模型的训练是通过本发明的主动学习方法实现的，技术方案包括以下步骤：

1)利用有限数量的可靠标注的训练样本库D_l={X₁,...X_n,...}，其中包含正常和异常类别的样本，训练一个初始模型。本实施例中初始样本102个，其中包含100个正常样本，U型拐弯样本1个，接近冲突样本1个。

2)给定一个未标注的数据流D_u={X₁,...X_t,...}，其中包含正常和异常类别的数据样本。本实施例中用于主动学习的样本共621个，其中正常样本600个，U型拐弯样本17个，接近冲突样本4个。本发明设计了一个公式可以有效地决定当前样本X_t是否需要标注以及由谁来标注，具体步骤包括：

2.1)计算当前时刻样本Xt的似然系数，具体是，

其中：M表示当前模型的参数，K表示所有的样本类别。

2.2)计算当前时刻样本X_t的不确定性系数，采用委员会投票法，具体是，

其中V(c_t=k)表示当前样本预测为k类获得的投票数；N表示总投票数，即委员数，一般的2≤N≤10。投票熵越大，表示投票越分散，样本类别的不确定性越高。本实施例N=3。

2.3)基于异常现象只占有很少比例的事实情况，以及数据越多越有利的期望，本发明节提出了一种因果加权的查询策略，以提高采集更多异样事件样本的可能性。其主要思想是，查询系数偏向异常事件发生周围的时间域内的样本。

对于时刻t，当前样本的查询系数定义为：

\begin{matrix} q_{t}^{l} = q_{t}^{lik} \cdot (1 + λ \cdot wδ (c_{t - 1}, c_{abn})), \\ q_{t}^{u} = q_{t}^{VE} \cdot (1 + λ \cdot wδ (c_{t - 1}, c_{abn})), \\ δ (a, b) = \{\begin{matrix} 1, ifa = b \\ 0, else \end{matrix} \end{matrix},

其中：X_t代表时刻t样本；

表示因果加权的似然得分；

表示因果加权的不确定性得分；c_t-1表示前一时刻样本的类别；c_abn表示异常类别；λ为控制参数，调整因果项的重要程度，0≤λ≤1；本实施例λ=0.5。当c_t-1代表正常类别时，第二项(1+λ·wδ(c_t-1,c_abn))设为1。w表示因果度，由当前样本X_t与同类别的其它样本的平均相似度计算得到：

其中：

表示属于类别c_t-1的训练样本库，N表示

中包含的样本数量；f(X_t,X_i)表示样本X_t和X_i之间的相似度。

2.4)将上述步骤1)计算的查询系数与阈值Th_{lik_t}和Th_unc进行比较，能够将当前样本分为三类，具体是，

当表示当前样本Xt属于确认未知类别样本，请求人工进行人工标注，获得标签c_t。将标注好的样本{X_t,c_t}添加到训练数据库，并更新模型参数。Th_{lik_t}初始值为0.7。

当

并且

表示当前样本类别模糊，也请求人工进行人工标注，获得标签c_t。将标注好的样本{X_t,c_t}添加到训练数据库，并更新模型参数。本实施例Th_unc=0.9183。

当

且模型预测的样本X_t的标签

属于异常事件类别，表示当前样本属于已知异常事件类别，将样本及其预测的标签{X_t,c_t*}添加到训练数据库，并更新模型参数。

3)当模型参数不断更新的同时，采用固定的似然阈值是不合理的。本实施例提出一种新的阈值更新方法，具体措施：

3.1)为了度量主动学习过程中模型采集异常事件样本的能力，本发明定义了查询熵，具体是，

其中：N_c是目前为止观察到的事件种类数；N_q是目前为止主动学习过程中标注过的样本总数。表示N_q标注样本中属于样本类别c_k的样本数。在类别分布极不平衡的场景下，分类器通常具有偏向主要类别的风险。因此如果分类器对于主动学习过程中请求标注的数据具有的查询熵越高，则表示样本类别分布越均匀，采集到的异常事件样本越多。

3.2)为了度量主动学习过程中模型的分类性能，本发明计算了总体分类准确性系数，具体是，

其中N代表训练样本总数；

3.3)将上述步骤3.1)和3.2)计算的两种性能指标进行融合，本实施例定义当前时刻模型的总体性能，具体是ρ_t=μH_t+(1-μ)p_t,其中：μ是先验混合参数，0≤μ≤1。本实施例μ=0.5。上述公式右边第一项表示异常事件类别样本收集的有效性，第二项表示分类准确性。

3.4)更新似然阈值，具体是，

\begin{matrix} {Th}_{lik_t + 1} = (1 - Δ ρ_{t}) T h_{lik_t}, \\ Δ ρ_{t} = ρ_{t} - ρ_{t - 1} . \end{matrix}

3.5)重复以上步骤3.2到3.4直到遍历完数据流D_u={X₁,...X_t,...}，模型训练结束。

4)对于测试数据集，计算其与训练好的模型的似然阈值，实现异常事件的识别，具体是，

其中：X表示需要识别的样本；c表示模型预测的样本X类别；K表示所有的样本类别；本实施例K=3。M表示训练好的模型的参数。

通过实验证明，本实施例较之以前的监督学习方法能有效的采集训练样本，尤其是异常事件样本，为异常事件建模。本发明不仅克服了需要大量人工标注的缺陷，并且能够获得更鲁棒和有效的模型。表2为不同规模训练样本时，监督学习方法和本发明主动学习方法的异常事件识别准确性的对比。从中可以看出，由本实施例方法，在相同规模训练样本情况下，事件的识别准确性高。

表2分类准确性比较

训练样本数	监督学习方法	主动学习方法
			150	52.99%	58.33%
200	53.37%	58.67%

250	55.81%	61.74%
			300	59.67%	61.89%
350	60.11%	70.26%
			400	60.52%	68.44%
450	59.33%	69.33%
			500	63.37%	71.96%
550	69.37%	68.52%
			600	68.81%	68.44%
650	71.00%	72.41%
			700	67.63%	68.58%