CN102982634A

CN102982634A - 音视频融合的人员入侵检测方法

Info

Publication number: CN102982634A
Application number: CN2012104551362A
Authority: CN
Inventors: 张重阳; 王德富; 郑世宝
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2012-11-13
Filing date: 2012-11-13
Publication date: 2013-03-20

Abstract

本发明提供了一种音视频融合的人员入侵检测方法，所述方法为：基于HOG通过检测区域收缩法进行快速人员识别，基于MFCC使用高斯混合模型(GMM)分类器进行实时脚步识别，基于贝叶斯网络的音视频融合决策。本发明充分利用视频信息（人体识别结果H、前景像素比例R）和音频信息（脚步声识别结果F），基于贝叶斯网络进行融合判决，得到最终的人员入侵检测结果（I）。相对于单一传感器检测，它大大地提高了鲁棒性，时空联合检测区域收缩的方法使它容易满足实时性要求，可以实现更好的实时性和检测精度的平衡。

Description

音视频融合的人员入侵检测方法

技术领域

本发明涉及一种信息检测领域的方法，具体地，涉及一种音视频融合的人员入侵检测方法。

背景技术

人员入侵检测是广泛应用于智能视频监控。它不仅需要高精度，而且需要很高的实时性能。大多数方法不能同时满足这两个要求。一些简单的运动检测方法可以很容易满足实时性，但虚警率高，如帧差法、背景差分法，它们对光照非常敏感。虽然光流法受光照影响很小，但是巨大的计算量很难满足实时性要求。这类基于运动检测的方法于人员入侵检测，并不能排除动物入侵和光照变化带来的虚警。

最近，Dalal和Triggs提出了一个人员检测方法，论文名称《Histograms of oriented gradients for human detection》（IEEE Conference on Computer Vision and Pattern Recognition (CVPR)，2005年），具有很好的检测结果。他们的方法使用方向梯度的直方图的(Histograms of Oriented Gradients，HOG)。这种方法被证实完全可以使用线性支持向量机进行行人分类识别。但这种方法的局限是只能处理320x240的图像。用一种稀疏的扫描方法，大概每幅图像要分割成800个检测窗口。此外，如果人的一部分被挡住，在那个区域的HOG特征经过线性支持向量机判决后归为负样本类。

近年来音视频(Audio and Video，AV)融合算法在视频监控领域的应用已受到关注。音视频协同矩阵能成功地检测和区分异常的音视频事件。然而，在一个不可预知的环境中，很难区分异常的音视频事件是由小动物或光照变化还是由人员入侵引起的。在论文《Semi-supervised adapted HMMs for unusual event detection》（IEEE Conference on Computer Vision and Pattern Recognition (CVPR)，2005年）中提出基于音频和视觉模式训练出一个增量的结构化HMM用于检测异常事件的方法，但这种方法要求原始声音信号段的长度至少为2秒，很难满足实时检测的性能。使用音视频融合用于事件检测比用于跟踪的少很多，有待进一步研究。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种音视频融合的人员入侵检测方法，实现更好的实时性和检测精度的平衡。

为实现上述目的，本发明提供一种音视频融合的人员入侵检测方法，包括如下步骤：

步骤一，基于HOG通过检测区域收缩法进行快速人体识别。

本步骤分为两小步：

（1）提取时空检测区域：使用自适应高斯混合模型(Gaussian Mixture Model，GMM)进行前景提取，在时域上采用间隔检测策略（Interval Detection Strategy，IDS），把图像在宽度上分成K部分计算每个子区间的前景像素数量占整个前景的比例（Ratio，R），计算出来的子区间的值大于阈值即被选为检测区域，对于上述得到的检测区域做不平衡扩展（Unbalanced Extension，UBD）和重叠消除（Overlap Elimination，OVE）。

（2）在最终得到的区域上做基于HOG特征提取和人体识别检测。

步骤（1）中，所述的间隔检测是为了满足实时性的要求，在得到的检测区域上做不平衡扩展是因为一个区域不能完整的包含所要检测的目标，并且与之相邻的一个区域可能包含目标其余的大部分信息，然而做完不平衡扩展之后，所得区域可能存在很多重叠的部分，为了避免重复检测和节省系统资源，所以最后要做重叠消除，就得到了检测目标所在的区域。

步骤二，根据步骤一识别出的人体目标，基于MFCC使用高斯混合模型(GMM)分类器进行实时脚步识别。

将音频信号分成固定长度为W_a（W_a小于0.2S）的重叠时间窗口，由于行走特性，一个人在1秒之内一般行走2至3步，因此会存在至少两个段会被归为非脚步，为了提高步骤三中融合算法的精度，将结果做些修正，若之前1s内有至少2次是脚步声，则当前段若被检测为非脚步声更正为脚步声。

步骤三，基于贝叶斯网络（Bayesian Network，BN）的音视频融合决策。

最后的检测结果（E），视频报警和音频报警作为中间层，底层特征为脚步声识别（F）、基于HOG的快速人体识别（H）和前景像素比例（R）。和像素级融合以及特征级融合相比，决策层融合的优势是具有小通信和强大的抗干扰性。此外，它更适合异构传感器融合。

与现有技术相比，本发明具有如下的有益效果：

本发明使用音视频融合充分利用视频和音频信息，相对于单一传感器检测，它大大地提高了鲁棒性，时空联合检测区域收缩的方法使它容易满足实时性要求，可以实现更好的实时性和检测精度的平衡。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1本发明基于HOG的快速人体识别概述图；

图2本发明进行音视频融合决策的贝叶斯网络结构图；

图3本发明实施效果图，其中(a)原始视频，(b)前景，(c)提取检测区域，(d)基于HOG通过检测区域收缩的检测结果，(e)基于HOG的最初检测结果。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本实施例涉及的音视频融合的人员入侵检测方法，包括如下具体步骤：

步骤一，基于HOG通过检测区域收缩法进行快速人体识别。

基于HOG的人体识别需要提取并比较固定大小像素块的HOG特征，通过自适应增强来选择需要检测的像素块并且级联带阻滤波器的方法计算复杂度太高并且实时性能差。

因为运动物体可以被包含在一个小区域内，在有限的运动区域而不是整个图像做HOG特征的提取可以大大减少计算时间。附图1概括了基于HOG通过检测区域收缩法进行快速人体识别的步骤：

采用自适应高斯混合模型（GMM）进行前景提取。因为大多数时间的应用程序场景没有异常事件，只需在前景目标出现的时候进行检测即可。假设前景目标出现当R_fg>T_fg，其中R_fg=Pix_fg/Pix_total，Pix_fg和Pix_total分别代表前景图像和整个图像的像素数量，T_fg是Pix_fg/Pix_total的比例阈值。因为人的走路速度比较慢，帧间变化很小，所以采用间隔检测策略（IDS）。为了定位运动目标（locating motion objects，LMO），把图像在宽度上分成K个子区间，第k个子区间记作B_k，k的取值从1到K。V_k=Pix_k/Pix_fg，Pix_k代表第k个子区间的前景像素数量。当V_k>T_b时，B_k被选为检测区域。考虑到前景目标可能跨越两个子区间，需对检测区域进行扩展，考虑到与之相邻的一个区域可能包含目标其余的大部分信息，用不平衡扩展（UBD）比较合适。如果V_k-1>V_k+1（这里V_k=Pix_k/Pix_fg，Pix_k代表第k个子区间的前景像素数量，Pix_fg代表前景图像的像素数量，故V_k-1表示第k-1个子区间前景像素占整个前景图像像素的比例，V_k+1表示第k+1个子区间前景像素占整个前景图像像素的比例），检测区域向左扩展η个子区间宽度，向右扩展1-η个子区间宽度，其中η>0.5，反之亦然。扩展后的区域被作为检测区域。但是当从前景像素比例中得到的两个检测区域是相邻的，在不平衡扩展之后得到的检测区域就会存在很多的重叠部分，为了避免不必要的重叠检测，选择R值最大的那个扩展区域为检测区域，另一个丢弃，把这一步称之为重叠消除（OVE）。最后就可以在选出的区域上做基于HOG特征的人体识别了。

在本实施例中，收缩空间区域的检测时间小于0.2s。因为人的走路速度比较慢，0.2s中帧间变化很小，当每0.2秒只处理一帧时几乎不会错过检测，因此通过收缩时空检测区域的基于HOG的快速人体识别可以很好的满足实时性。

步骤二，根据步骤一识别出的人体目标，基于MFCC使用高斯混合模型(GMM)分类器进行实时脚步识别：将音频信号分成固定长度为W_a（W_a小于0.2S）的重叠时间窗口，由于行走特性，一个人在1秒之内一般行走2至3步，因此会存在至少两个段会被归为非脚步，为了提高步骤三中融合算法的精度，将结果做些修正，若之前1s内有至少2次是脚步声，则当前段若被检测为非脚步声更正为脚步声。

以下做具体介绍：

基于HOG的人体识别在遮挡时精确度较低，脚步识别可以用于提高鲁棒性。从原始音频信号提取Mel频域复倒谱系数（MFCC），然后利用高斯混合模型(GMM)分类器识别。

首先介绍GMM分类器。

最大似然估计法从训练数据中选择使GMM可能性最大化的模型参数。对于一系列长度为T的培训向量

Figure 2012104551362100002DEST_PATH_IMAGE001

GMM的条件概率可以写成（这里λ表示要被估计的向量）。使用EM算法得到一个新的估计向量

使得这个新向量成为下一次迭代的初始模型，这个过程会重复进行直到达到收敛值，最后N个声音模型N＝{1，2，…，M}，由GMM中的

Figure 2012104551362100002DEST_PATH_IMAGE004

表示，目标是找到声音模型中对于给定的观测序列具有最大后验概率的一个。

然后介绍实时脚步识别。

将音频信号分成固定长度为W_a的重叠时间窗口，为了保持视频同步性，W_a小于0.2S（视频间隔检测区间）。重叠时间窗口是为了避免当脚步跨越两个时间窗口时，两个声音信号段都被判别为非脚步。

人一般每秒大约走2到3步，因此在1秒中，至少会有2个声音信号段被判别为非脚步声。这样会使得基于贝叶斯网络的融合决策精度下降。因此当前1s至少两个段的识别结果是脚步时，修改作为非脚步声的识别结果是脚步声。

步骤三，基于贝叶斯网络（BN）的音视频融合决策。

和像素级融合以及特征级融合相比，决策层融合的优势是具有小通信和强大的抗干扰性。此外，它更适合异构传感器融合。

附图2是本发明进行音视频融合决策的贝叶斯网络结构图。底层特征为脚步声识别（F）、基于HOG的快速人体识别（H）和前景像素比例（R），视频报警（V）和音频报警（A）作为中间层，最后的输出是人员入侵事件的检测结果（I）。图中的每个箭头表示一个条件概率，观测点的值分别叫做F、H、R，人员入侵事件（I）可以表示为

p (I | E) = \frac{p (I, E)}{p (E)} = \frac{p (E | I) p (I)}{p (E)} - - - (1)

运用贝叶斯链式法则，可以得到

p (I | E) = \frac{Σ [p (I) Πp (E_{i} | A = a_{i}, V = v_{k}) p (A = a_{i} | I) p (V = v_{k} | I)]}{Σ [p (I = i_{m}) Πp (E_{i} | A = a_{i}, V = v_{k}) p (A = a_{i} | I = i_{m}) p (V = v_{k} | I = i_{m})]} - - - (2)

在推理模型使用前，每个节点的先验知识都可以从实验开始前的初始化运行期间或者其它独立的实验中得到。

附图3是本发明实施的效果图，其中(a)是原始视频，(b)是前景，(c)是提取检测区域，(d)是基于HOG通过检测区域收缩的检测结果，(e)是基于HOG的最初检测结果。下面做实验分析的具体说明。

首先进行数据集描述和参数的设置。本实施例实验了两种场景：（1）人员进入和退出（2）一个滚动的篮球在地面模拟小动物入侵。P1,P2,P3,P4属于第一种场景。B1、B2是第二个场景。P1和B1用于训练，测试序列是P2,P3,P4和B2。音视频数据有一款Axis-1301W相机和内置麦克风记录。这个序列是320*240大小的，每秒25帧。设置T_fg=0.05%，K=9，T_b=0.3，η=0.7。信号频率为8KHZ，样本细分使用时间的窗口长度W_a=0.1s，所有窗口重叠50%。脚步是由50个高斯成分的高斯混合模型(GMM)模拟的，使用20维mel-cepstral向量训练的一个对角协方差矩阵。

下面针对这个实验做实时性能评估。

和原有的在奔腾双核1.79GHz 2GB内存的台式机上运行的方法比较消耗时间多少和检测精度。

附图3显示了本发明新方法的处理过程。它在收缩检测区域的时候能成功地检测到人所在的区域并且保证包含整个人。

表1列出了平均时间消耗，表2比较了两种方法的准确性。根据表1和表2的数据，可以看出，推荐方案大大减少了时间消耗，只是稍微影响了精度。推荐方法每5帧处理一帧，因此通过收缩时空检测区域，该方法能实现较好的实时性。

表1时间消耗

队列	推荐方法	原方法
			P2	162.21ms	1030.50ms
P3	151.12ms	1036.71ms
			P4	170.14ms	1043.39ms

表2精度

队列	推荐方法	原方法
			P2	73.23%	81.89%
P3	71.20%	71.20%
			P4	75.33%	80.67%

最后介绍多个传感器和单个传感器的检测结果对比。

性能评价指标是错误率(FPR)，虚警率(FNR)，误警率(FAR)。

FPR＝N_{false_positive}/N_positive

FNR＝N_{false_negative}/N_negative

FAR＝(N_{false_positive}+N_{false_negative})/N_total (3)

三种不同方法的性能如表3所示。自从B2是一个在地面滚动的篮球视频序列没有人员的入侵，所以FNR的值为空。

表3单传感器和多传感器检测结果比较

有两个原因产生使得只有音频检测的FPR比其它两种方法高:（1）人们在房间外，但可以确定的脚步，尤其是P2,P3序列；（2）因为声音模型还不够全，一些类似的声音也被认为是脚步。

只有视频检测的FNR高可以解释如下:（1）当人员进入和退出，相机只捕获的到人的一部分而不是完整的人；（2）人员的姿势很明显不同于正常直立姿势，如弯腰；（3）主要原因是遮挡。

显然，实验结果证明音视频融合的人员入侵检测方法显著提高了鲁棒性，该方案的FAR远低于单一传感器检测。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种音视频融合的人员入侵检测方法，其特征在于，所述方法包括如下步骤：

步骤一，基于HOG通过检测区域收缩法进行快速人体识别；

步骤二，根据步骤一识别出的人体目标，基于MFCC使用高斯混合模型分类器进行实时脚步识别；

步骤三，基于贝叶斯网络的音视频融合决策。

2.根据权利要求1所述的音视频融合的人员入侵检测方法，其特征是，所述步骤一分为两小步：

第一步，提取时空检测区域：使用自适应高斯混合模型GMM进行前景提取，在时域上采用间隔检测策略IDS，把图像在宽度上分成K部分计算每个子区间的前景像素数量占整个前景的比例R，计算出来的子区间的值大于阈值即被选为检测区域，对于上述得到的检测区域做不平衡扩展UBD和重叠消除OVE；

第二步，在最终得到的区域上做基于HOG特征提取和人体识别检测。

3.根据权利要求2所述的音视频融合的人员入侵检测方法，其特征是，所述的使用自适应高斯混合模型进行前景提取，具体为：在前景目标出现的时候进行检测，假设前景目标出现当Rfg>Tfg，其中Rfg=Pix_fg/Pix_total，Pix_fg和Pix_total分别代表前景图像和整个图像的像素数量，Tfg是Pix_fg/Pix_total的比例阈值。

4.根据权利要求2所述的音视频融合的人员入侵检测方法，其特征是，所述的间隔检测策略，具体为：把图像在宽度上分成K个子区间，第k个子区间记作Bk，k的取值从1到K，Vk=Pixk/Pixfg，Pixk代表第k个子区间的前景像素数量，当Vk>Tb时，Bk被选为检测区域。

5.根据权利要求2所述的音视频融合的人员入侵检测方法，其特征是，所述的不平衡扩展，具体为：如果Vk-1>Vk+1，检测区域向左扩展η个子区间宽度，向右扩展1-η个子区间宽度，其中η>0.5，反之亦然，扩展后的区域被作为检测区域；这里Vk=Pixk/Pixfg，Pixk代表第k个子区间的前景像素数量，Pix_fg代表前景图像的像素数量，故Vk-1表示第k-1个子区间前景像素占整个前景图像像素的比例，Vk+1表示第k+1个子区间前景像素占整个前景图像像素的比例。

6.根据权利要求2所述的音视频融合的人员入侵检测方法，其特征是，所述的重叠消除，具体为：当从前景像素比例中得到的两个检测区域是相邻的，在不平衡扩展之后得到的检测区域就会存在很多的重叠部分，选择R值最大的那个扩展区域为检测区域，另一个丢弃。

7.根据权利要求1-6任一项所述的音视频融合的人员入侵检测方法，其特征是，所述步骤二，具体为：将音频信号分成固定长度为W_a的重叠时间窗口，W_a小于0.2S，将结果做些修正，若之前1s内有至少2次是脚步声，则当前段若被检测为非脚步声更正为脚步声。

8.根据权利要求1-6任一项所述的音视频融合的人员入侵检测方法，其特征是，所述的步骤三，具体为：最后的检测结果E，视频报警和音频报警作为中间层，底层特征为脚步声识别F、基于HOG的快速人体识别H和前景像素比例R。

9.根据权利要求8所述的基于贝叶斯网络的音视频融合决策，其特征是，底层特征为脚步声识别F、基于HOG的快速人体识别H和前景像素比例R，视频报警V和音频报警A作为中间层，最后的输出是人员入侵事件的检测结果I，表示为：

p (I | E) = \frac{p (I, E)}{p (E)} = \frac{p (E | I) p (I)}{p (E)}

运用贝叶斯链式法则，得到

p (I | E) = \frac{Σ [p (I) Πp (E_{i} | A = a_{i}, V = v_{k}) p (A = a_{i} | I) p (V = v_{k} | I)]}{Σ [p (I = i_{m}) Πp (E_{i} | A = a_{i}, V = v_{k}) p (A = a_{i} | I = i_{m}) p (V = v_{k} | I = i_{m})]}

这里a_i、v_k、i_m分别表示A、V、I所取的具体数值，该公式表示，在推理模型使用前，每个节点的先验知识都可以从实验开始前的初始化运行期间或者其它独立的实验中得到。