CN100583128C

CN100583128C - 基于自然视频的实时智能监控方法

Info

Publication number: CN100583128C
Application number: CN200810062483A
Authority: CN
Inventors: 庄越挺; 梁璋; 肖俊; 吴飞; 张剑
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2008-06-12
Filing date: 2008-06-12
Publication date: 2010-01-20
Anticipated expiration: 2028-06-12
Also published as: CN101311947A

Abstract

本发明公开了一种基于自然视频的实时智能监控方法。本方法运用了计算机图像处理和人工智能的知识，实现了对于公共场所和重要敏感场所的行人动作的无人智能监控和报警。首先，提取需学习的视频帧序列片段，得到反映人物运动过程的运动历史图像；在此基础上，运用自定义的特征向量提取方法，得到特定运动序列的向量表示，将向量样本存储于样本数据库；对需监控的视频帧序列，将其特征向量与样本数据在低维空间进行映射，通过最优化方法得到对应的分类并报警。本文通过设计出动作的样本学习机制和分类机制，提高了识别的准确性，增强了识别的扩展性；通过设计出人物运动序列的特征向量表示和提取方法，增强了动作表示的完整性和准确性。

Description

基于自然视频的实时智能监控方法

技术领域

本发明涉及一种智能监控的方法，尤其涉及一种基于计算机图像处理和人工智能知识来处理自然视频获得对特定场景进行实时智能监控的方法，属于计算机图像处理和人工智能的综合领域。

背景技术

随着城市人口的快速增长及城市环境的日益复杂，群体性事件、骚乱、恐怖袭击等城市突发社会安全事件严重影响着城市公共安全。而建设平安城市，已经成为当今国际社会的一个重要话题。谈到“平安城市”的建设，人们会很自然地联想到近年来在世界各地发生的恐怖事件。在美国“911”恐怖袭击、英国伦敦地铁爆炸案之后，世界各国政府已逐渐将“反恐”、“城市安防”提上日程。我国公安部也组织了“3111”工程，旨在在全国范围内推动城市报警与监控建设。构建视频监控网络是目前大中型城市进行社会公共安全事件检测与预警的主要手段之一。据有关数据显示，广州市2007年将安装完毕25万个监控摄像头，这25万个摄像头将遍布广州市道路、桥梁、公共场所、公共交通系统和案件多发区域；在北京，目前共有摄像头26.3万个，并计划在2007年底将北京的ATM机、大中型商场、加油站、中小学幼儿园的内保监控系统全部与警方监控网联网；在上海，2010年前将在马路上安装20多万个监控摄像头，全面建立“社会防控体系”；在英国，全国范围内已经安装摄像头420多万个，平均每14人一个，一个人一天之中可能出现在多达300个摄像头前。视频监控技术正在向着数字化、网络化、智能化的方向发展，其中智能化是“三化”的最高境界。从目前国内外的发展现状来看，视频监控技术已经基本走过了数字化与网络化的发展阶段，当今政府决策部门与公安部门所面临的已不再是视频监控内容的匮乏，而是如何对其中的关键信息进行自动、智能、实时的甄选、处理与理解，并用于突发社会安全事件的辅助决策与预警。

从技术层面上看，智能视频(Intelligent Video)源自计算机视觉(ComputerVision)技术。智能视频监控有别于一般的网络化视频监控，它是一种更高端的视频监控应用。智能视频监控系统能够识别不同的物体，发现监控画面中的异常情况，并能够以最快和最佳的方式发出警报和提供有用信息，从而能够更加有效地协助安全人员处理危机，并最大限度降低误报和漏报现象。在世界反恐斗争日趋严峻的今天，智能视频监控显然能够成为应对恐怖主义袭击和处理突发事件的有力辅助工具，特别是在911恐怖袭击、马德里爆炸案以及伦敦爆炸案发生之后，市场上对于此类应用的需求不断增长。此类应用主要包括：高级视频移动侦测(Advanced VMD)、人体运动追踪(Human Motion Tracking)、人物面部识别(Face Recognition)、和检测非法入侵者(Intrusion Detection)等。在美国，国防部高级研究项目署(Defense advanced research projects agency，DAPRA)设立了以CMU为首，MIT等高校参与的视觉监控项目VSAM(Visualsurveillance and monitoring)，该系统能够用于普通民用场景以及战场的实时监控；Maryland大学的实时监控系统W4能够对进出民宅、停车场、银行等场合的携带物品的可疑人员进行有效的实时监控。在我国，智能视频监控技术也开始逐渐受到重视，如重庆铁路警方采用监控摄像机采集排队购票者的监控图像，通过“人像识别系统”进行分析识别，发现反复出现的面孔就报警以打击“黄牛党”；北京市警方通过监控录像及模糊人脸复原技术一举破获以投毒相威胁从而进行勒索的超市投毒案。然而，当前存在的智能监控技术均只局限于某一特定问题域，如检测、跟踪或人脸识别，没有将多种功能集成在一起形成完整的智能监控问题解决方案。

根据目前的研究表明，智能视频监控不仅应包含在线的运动物体检测与提取、行为分析与理解、事件检测和离线的身份识别、视频存储、视频切分与摘要生成、基于内容的检索、视频压缩与传输等功能；也涉及到计算机视觉、模式识别、人工智能、数据库、计算机网络等多个研究领域，是一个多学科交叉研究课题。然而开发面向各个应用领域、功能全面的智能视频监控系统是非常困难的问题，因此当前已存在的智能视频监控系统基本上均局限于某些特定应用，如1997年美国国防高级研究项目署(Defense Advanced Research ProjectsAgency)设立了以卡内基梅隆大学(Carnegie Mellon University)为首、麻省理工学院(Massachusetts Institute ofTechnology)等高校参与的视觉监控重大项目VSAM(Visual Surveillance and Monitoring)，主要研究战场及普通场景中对人体和车辆进行监控的技术；实时视觉监控系统W4能够定位人和分割出人的身体部分，而且通过建立外观模型来实现对人的跟踪，并判断人是否携带物体；英国的雷丁大学(University of Reading)开展了对车辆和行人的跟踪及识别的相关研究；IBM与Microsoft等公司也正逐步将基于视觉的手势识别接口应用于商业领域中。

针对公共安全事件的视频监控具有重大市场应用前景，而视频监控内容由原先的人为解释转变为智能实时解释是视频监控技术的飞跃，是安防技术发展的必然，同时智能视频监控也面临亟待突破的技术难点。在这样一个背景下，研究针对公共安全事件的智能视频监控具有重要社会意义和应用前景。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于自然视频的实时智能监控方法。

基于自然视频的实时智能监控方法包括如下步骤：

1)载入视频帧序列，提取需学习的视频帧序列片段，进行处理得到反映人物运动过程的运动历史图像；

2)在步骤1)得到运动历史图像的基础上，运用自定义的特征向量提取方法，得到特定运动序列的向量表示，通过自定义的学习机制，将学习得到的动作样本数据存储于样本数据库；

3)对需监控的视频帧序列，通过将其运动历史图像与样本数据在低维空间进行映射，并通过最优化方法得到需监控的视频序列中人物运动识别和分类，同时对危险行为进行警示。

所述载入视频帧序列，提取需学习的视频帧序列片段，进行处理得到反映人物运动过程的运动历史图像步骤：

(a)载入经过视频帧序列对应的灰度图像，进行前景提取和二值化过程，得到所监控人物运动的二值侧影帧序列，对指定的某段需学习的动作序列，以指定帧长度的二值侧影帧序列构造运动历史图像；

(b)对指定长度的二值侧影帧序列，按照每帧在侧影序列中的时间戳顺序，定义该帧对应侧影所描述动作姿势相对于这个序列的新鲜程度，公式如下：

F_{fresh} (i) = \frac{i}{SeqNum} - - - 1

其中F_fresh(i)表示在帧序列中相对索引顺序为i的帧所对应的新鲜程度，SeqNum表示指定的帧长度；

(c)对指定长度的侧影序列，按照各帧对应的新鲜程度，在一幅图像中生成这个帧序列对应的运动历史图像，公式如下：

I(x，y)＝Max(I_i(x，y)×F_fresh(i)) 2

其中F_fresh(i)表示在帧序列中相对索引顺序为i的帧所对应的新鲜程度，I(x，y)表示运动历史图像中二维坐标x，y所对应像素点的灰度值，I_i(x，y)为指定帧长度的帧序列中相对索引顺序为i的帧二维坐标为x，y对应的像素点的灰度值。

所述在步骤1)得到运动历史图像的基础上，运用自定义的特征向量提取方法，得到特定运动序列的向量表示，通过自定义的学习机制，将学习得到的动作样本数据存储于样本数据库步骤：

(d)在步骤1)得到的运动历史图像的基础上，提取运动历史图像中人物的运动前景，以一个矩形框标注前景的包围轮廓，以等分的形式对矩形框进行水平和垂直轴各20份的划分，将矩形框划分成400个相同大小的矩形格，计算每个矩形格内的像素平均值，并将这些平均值按照水平和垂直方向的索引顺序存储于一个二维链表中；

(e)为增强矩形中央部分人物可能出现区域的像素值，对这个链表中各个矩形块像素值按其位置进行一个参数式增益，得到动作序列的向量，公式如下：

\overset{&OverBar;}{V} (i, j) = \frac{δ}{\sqrt{{(i - i_{0})}^{2} + {(j - j_{0})}^{2}}} \times V (i, j) - - - 3

其中V(i，j)为向量链表中水平索引i，垂直索引j的矩形格对应的向量元素值，V(i，j)为整体矩形框中水平索引i，垂直索引j的矩形格对应的像素平均值，δ为增益常量用以调整来达到理想的识别效果，i₀和j₀为整个矩形框的质心坐标，其中质心的计算公式如下：

i_{0} = \frac{Σ_{k = 1}^{n} Σ_{l = 1}^{n} [i_{k} \times V (i_{k}, j_{l})]}{n}

j_{0} = \frac{Σ_{k = 1}^{n} Σ_{l = 1}^{n} [j_{k} \times V (i_{l}, j_{k})]}{n} - - - 4

其中n为整体的矩形框中矩形格的总数，i和j为水平和垂直方向的索引，V(i，j)为整体矩形框中水平索引i，垂直索引j的矩形格对应的像素平均值；

(f)在得到了动作序列的向量后，用户通过捕获机制获得监控所关注的动作序列，对动作序列中所包含的运动历史图像序列对应的向量进行加权平均，得到反映所关注的动作序列运动特征的样本向量，公式如下：

\overset{&OverBar;}{V} (i, j) = \frac{Σ_{k = 1}^{n} {\overset{&OverBar;}{V}}_{k} (i, j)}{n} - - - 5

其中V_k(i，j)为所捕获的动作序列的运动历史图像对应的向量组中的向量元素中坐标为i，j所对应的元素值，V(i，j)为经过加权平均得到样本向量中坐标为i，j所对应的元素值，n为所捕获的动作序列的运动历史图像个数；

(g)得到反映所关注的动作序列运动特征的样本向量后，用户通过关注的动作所对应的样本向量按其属性分成正常动作和非正常动作两类，其中正常动作是对应于在该场所中不会造成危险的动作；非正常动作是对应于在该场所中可能会造成危险的动作，将已完成分类的样本向量存储于样本数据库中。

所述对需监控的视频帧序列，通过将其运动历史图像与样本数据在低维空间进行映射，并通过最优化方法得到需监控的视频序列中人物运动识别和分类，同时对危险行为进行警示步骤：

(h)根据在时间轴上连续的运动历史向量图像序列所对应的特征向量，对需监控的视频帧序列的特征向量和样本库所存储的样本特征向量同时进行降维处理，得到所监测的特征向量和样本数据库中存储的样本特征向量在低维空间的投影映射，公式如下：

Y^T＝X^TW 6

＝V∑

其中X^T为经验平均值为0的数据矩阵，V∑为X^T的单值划分；

(i)在得到所监测的特征向量和样本数据库中存储的样本特征向量在低维空间的投影映射后，计算两者之间的欧式距离，在样本数据库中和所监测的特征向量距离最近的样本，即为这个特征向量对应的动作序列的属性和分类，公式如下：

V_test＝Min(D(V_{low_test}-V_{low_exap}|)) 7

其中V_{low_test}为所监测的特征向量在低维空间的投影特征值，V_{low_exap}为样本特征向量在低维空间的投影特征值，函数D为欧式距离计算公式，V_test为所监测的特征向量对应的属性和分类。

本发明运用了计算机图像处理和人工智能的知识，对于所拍摄的自然视频进行一系列处理，实现了对于公共场所和重要敏感场所的行人动作的无人智能监控和报警，提高了监控的效率和准确性，节约了监控的成本和人力，减少了监控的误差和干扰。本文通过设计出动作的样本学习机制和分类机制，提高了识别的准确性和增强了识别的扩展性，使得可以根据场所需要动态调整需识别人物动作的内容；通过设计出人物运动序列的特征向量表示和提取方法，增强了需识别动作表示的完整性和准确性，消除了识别过程中的歧义性。

附图说明

下面结合附图和具体实施例对本发明作进一步的说明。

图1为本发明所述的获得的二值侧影帧序列中的一帧；

图2为本发明所述的所获得的运动历史图像；

图3为本发明所述的某动作对应的动作特征向量图像；

图4为本发明所述的正常动作和非正常动作的警示状态对比图像。

具体实施方式

基于自然视频的实时智能监控方法包括如下步骤：

(a)载入经过视频帧序列对应的灰度图像，灰度图像的格式为JPG图像编码格式，图像的大小为400×293像素，对这些灰度图像进行前景提取和二值化过程，其中背景提取采用的背景帧剪除的改进算法，二值化采用的是适应性阈值过滤算法，得到所监控的人物运动的二值侧影帧序列。对指定的某段需学习的动作序列，以指定帧长度的二值侧影帧序列构造运动历史图像；

F_{fresh} (i) = \frac{i}{SeqNum} - - - 1

其中F_fresh(i)表示在帧序列中相对索引顺序为i的帧所对应的新鲜程度，SeqNum表示指定的帧长度，公式表明了某帧对应的新鲜程度同该帧在指定的帧序列中的相对索引顺序成反比，即在该指定的动作序列中，相对发生时间越早的动作，对应的新鲜程度越低；

I(x，y)＝Max(I_i(x，y)×F_fresh(i)) 2

其中F_fresh(i)表示在帧序列中相对索引顺序为i的帧所对应的新鲜程度，I(x，y)表示运动历史图像中二维坐标x，y所对应像素点的灰度值，I_i(x，y)为指定帧长度的帧序列中相对索引顺序为i的帧二维坐标为x，y对应的像素点的灰度值，公示表明了运动历史图像中，某点的像素值由对应帧序列中该点对应像素值和该点所在的帧的新鲜度乘积最大的点的灰度值决定。

\overset{&OverBar;}{V} (i, j) = \frac{δ}{\sqrt{{(i - i_{0})}^{2} + {(j - j_{0})}^{2}}} \times V (i, j) - - - 3

其中V(i，j)为向量链表中水平索引i，垂直索引j的矩形格对应的向量元素值，V(i，j)为整体矩形框中水平索引i，垂直索引j的矩形格对应的像素平均值，δ为增益常量用以调整来达到理想的识别效果，i₀和j₀为整个矩形框的质心坐标，公式表明了离整个矩形框质心的距离越远，该矩形格对应向量元素的值越小。其中质心的计算公式如下，其中质心的计算公式如下：

i_{0} = \frac{Σ_{k = 1}^{n} Σ_{l = 1}^{n} [i_{k} \times V (i_{k}, j_{l})]}{n}

j_{0} = \frac{Σ_{k = 1}^{n} Σ_{l = 1}^{n} [j_{k} \times V (i_{l}, j_{k})]}{n} - - - 4

\overset{&OverBar;}{V} (i, j) = \frac{Σ_{k = 1}^{n} {\overset{&OverBar;}{V}}_{k} (i, j)}{n} - - - 5

其中V_k(i，j)为所捕获的动作序列的运动历史图像对应的向量组中的向量元素中坐标为i，j所对应的元素值，V(i，j)为经过加权平均得到样本向量中坐标为i，j所对应的元素值，n为所捕获的动作序列的运动历史图像个数，公式表明了整个矩形框的质心接近矩形格平均像素值高的聚集区域，即人物活动区域；

(g)得到反映所关注的动作序列运动特征的样本向量后，用户通过关注的动作所对应的样本向量按其属性分成正常动作和非正常动作两类，其中正常动作是对应于在该场所中不会造成危险的动作；非正常动作是对应于在该场所中可能会造成危险的动作，本方法定义了行走、蹲下、奔跑、上肢伸展和下肢伸展这几种常见且覆盖面广泛的动作，其中行走被定义为正常动作，因为考虑到正常速率的行走动作不会对环境中的他人和设施造成潜在的伤害和破坏；蹲下、奔跑、上肢伸展和下肢伸展被定义为非正常动作，因为考虑到这些动作可能会对环境中的他人和设施造成潜在的伤害和破坏。将已完成分类的样本向量存储于样本数据库中。

Y^T＝X^TW 6

＝V∑

其中X^T为经验平均值为0的数据矩阵，V∑为X^T的单值划分，公式表明了将所获得反映运动过程的特征向量投影在一组正交基上，选取特征值最大的一组特征值向量在保持原有高维特征向量最大协方差的情况下获得最近似的低维空间映射表示，即某段运动序列的低维空间特征；

V_test＝Min(D(V_{low_test}-V_{low_exap}|)) 7

其中V_{low_test}为所监测的特征向量在低维空间的投影特征值，V_{low_exap}为样本特征向量在低维空间的投影特征值，函数D为欧式距离计算公式，V_test为所监测的特征向量对应的属性和分类，公式表明在低维空间的正交基上，特征值和所监测的特征向量对应的特征值欧式距离最近的样本特征向量为所监测的动作序列对应的特征向量，该样本特征向量所对应的动作序列的分类和属性即为所监测动作的分类和属性。

实施例

(1)在本实施例中，以标准摄像设备所拍摄到的某场景中的监控录像作为输入的自然视频，编码格式为标准的AVI格式。

载入经过视频帧序列对应的灰度图像，灰度图像的格式为JPG图像编码格式，图像的大小为400×293像素，进行前景提取和二值化过程，背景提取采用的背景帧剪除的改进算法，二值化采用的是适应性阈值过滤算法，得到所监控人物运动的二值侧影帧序列，对指定的某段需学习的动作序列，以指定帧长度的二值侧影帧序列构造运动历史图像。如图1，实施例中得到的二值侧影帧序列中的一帧。

对指定长度的二值侧影帧序列，按照每帧在侧影序列中的时间戳顺序，定义该帧对应侧影所描述动作姿势相对于这个序列的新鲜程度，公式如下：

F_{fresh} (i) = \frac{i}{SeqNum}

其中F_fresh(i)表示在帧序列中相对索引顺序为i的帧所对应的新鲜程度，SeqNum表示指定的帧长度；公式表明了某帧对应的新鲜程度同该帧在指定的帧序列中的相对索引顺序成反比，即在该指定的动作序列中，相对发生时间越早的动作，对应的新鲜程度越低。

在本实施例中，选取10帧作为二值侧影帧序列的指定长度，经过测试这个长度可以在保持动作序列连贯性的同时最大程度上增强序列之间的区分度，按照这个参数设置进行新鲜程度的计算，得到序列中每帧的对应量值。

对指定长度的侧影序列，按照各帧对应的新鲜程度，在一幅图像中生成这个帧序列对应的运动历史图像，公式如下：

I(x，y)＝Max(I_i(x，y)×F_fresh(i))

其中F_fresh(i)表示在帧序列中相对索引顺序为i的帧所对应的新鲜程度，I(x，y)表示运动历史图像中二维坐标x，y所对应像素点的灰度值，I_i(x，y)为指定帧长度的帧序列中相对索引顺序为i的帧二维坐标为x，y对应的像素点的灰度值；公示表明了运动历史图像中，某点的像素值由对应帧序列中该点对应像素值和该点所在的帧的新鲜度乘积最大的点的灰度值决定。如图2，本实施例中得到的一张运动历史图像。

(2)在步骤1)得到的运动历史图像的基础上，用图像处理中的检测技术和消噪技术，提取运动历史图像中人物的运动前景，其中检测技术用的是灰度值阈值检测方法，消噪技术用的是图像处理中形态学变换的膨胀和腐蚀算法，以一个矩形框标注前景的包围轮廓，以等分的形式对矩形框进行水平和垂直轴各20份的划分，将矩形框划分成400个相同大小的矩形格，计算每个矩形格内的像素平均值，并将这些平均值按照水平和垂直方向的索引顺序存储于一个二维链表中；

为增强矩形中央部分人物可能出现区域的像素值，对这个链表中各个矩形块像素值按其位置进行一个参数式增益，得到动作序列的向量，公式如下：

\overset{&OverBar;}{V} (i, j) = \frac{δ}{\sqrt{{(i - i_{0})}^{2} + {(j - j_{0})}^{2}}} \times V (i, j)

i_{0} = \frac{Σ_{k = 1}^{n} Σ_{l = 1}^{n} [i_{k} \times V (i_{k}, j_{l})]}{n}

j_{0} = \frac{Σ_{k = 1}^{n} Σ_{l = 1}^{n} [j_{k} \times V (i_{l}, j_{k})]}{n}

其中n为整体的矩形框中矩形格的总数，i和j为水平和垂直方向的索引，V(i，j)为整体矩形框中水平索引i，垂直索引j的矩形格对应的像素平均值；公式表明了整个矩形框的质心接近矩形格平均像素值高的聚集区域，即人物活动区域。

在本实施例中，这个步骤完成后，得到的是一个20×20的二维链表，其中按照矩形块水平和垂直方向的索引顺序对应的经过增益处理像素平均值。如图3，实施例中的得到的一张动作特征向量的表示图像。

在得到了动作序列的向量后，用户通过捕获机制获得监控所关注的动作序列，对动作序列中所包含的运动历史图像序列对应的向量进行加权平均，得到反映所关注的动作序列运动特征的样本向量，公式如下：

\overset{&OverBar;}{V} (i, j) = \frac{Σ_{k = 1}^{n} {\overset{&OverBar;}{V}}_{k} (i, j)}{n}

其中V_k(i，j)为所捕获的动作序列的运动历史图像对应的向量组中的向量元素中坐标为i，j所对应的元素值，V(i，j)为经过加权平均得到样本向量中坐标为i，j所对应的元素值，n为所捕获的动作序列的运动历史图像个数；公式表明了样本向量的各个元素值为这个捕获序列中各个向量元素对应元素值的加权平均。

得到反映所关注的动作序列运动特征的样本向量后，用户通过关注的动作所对应的样本向量按其属性分成正常动作和非正常动作两类，其中正常动作是对应于在该场所中不会造成危险的动作；非正常动作是对应于在该场所中可能会造成危险的动作，将已完成分类的样本向量存储于样本数据库中。

在本实施例中，捕获关于行走、蹲下、奔跑、上肢伸展和下肢伸展这几类动作90度侧面视角的三到五组重复循环过程作为一类动作统计样本的输入，其中每类的动作包括正向和逆向的双向动作，分别经过如上方法的加权平均，得到这几类动作的代表性动作样本数据。

在本实施例中，共生成五类双向动作，合计10组样本数据存储于样本数据库中。

(3)根据在时间轴上连续的运动历史向量图像序列所对应的特征向量，对需监控的视频帧序列的特征向量和样本库所存储的样本特征向量同时进行降维处理，得到所监测的特征向量和样本数据库中存储的样本特征向量在低维空间的投影映射，公式如下：

Y^T＝X^TW

＝V∑

其中X^T为经验平均值为0的数据矩阵，V∑为X^T的单值划分；公式表明了将所获得反映运动过程的特征向量投影在一组正交基上，选取特征值最大的一组特征值向量在保持原有高维特征向量最大协方差的情况下获得最近似的低维空间映射表示，即某段运动序列的低维空间特征。

在本实施例中，数据映射到低维空间最优的维数为7维。

在得到所监测的特征向量和样本数据库中存储的样本特征向量在低维空间的投影映射后，计算两者之间的欧式距离，在样本数据库中和所监测的特征向量距离最近的样本，即为这个特征向量对应的动作序列的属性和分类，公式如下：

V_test＝Min(D(V_{low_test}-V_{low_exap}|))

其中V_{low_test}为所监测的特征向量在低维空间的投影特征值，V_{low_exap}为样本特征向量在低维空间的投影特征值，函数D为欧式距离计算公式，V_test为所监测的特征向量对应的属性和分类；公式表明在低维空间的正交基上，特征值和所监测的特征向量对应的特征值欧式距离最近的样本特征向量为所监测的动作序列对应的特征向量，该样本特征向量所对应的动作序列的分类和属性即为所监测动作的分类和属性。

根据该方法中用户定义的动作分类，该方法对非正常的动作进行警示，即对在该监控过程中出现预先定义的可能对场所构成危险的人物动作进行报警，采用的是视觉警示的方法。

本实施例中，通过以上步骤，获得了基于自然视频的实时智能监控方法的监控结果。如图4，实施例中得到的正常动作和非正常动作的警示状态图像。

Claims

1.一种基于自然视频的实时智能监控方法，其特征在于包括如下几个步骤：

3)对需监控的视频帧序列，通过将其运动历史图像与样本数据在低维空间进行映射，并通过最优化方法得到需监控的视频序列中人物运动识别和分类，同时对危险行为进行警示；

所述载入视频帧序列，提取需学习的视频帧序列片段，进行处理得到反映人物运动过程的运动历史图像步骤包括：

F_{fresh} (i) = \frac{i}{SeqNum} - - - (1)

I(x，y)＝Max(I_i(x，y)×F_fresh(i)) (2)

2.根据权利要求1所述的一种基于自然视频的实时智能监控方法，其特征在于：所述在步骤1)得到运动历史图像的基础上，运用自定义的特征向量提取方法，得到特定运动序列的向量表示，通过自定义的学习机制，将学习得到的动作样本数据存储于样本数据库步骤包括：

\overset{&OverBar;}{V} (i, j) = \frac{δ}{\sqrt{{(i - i_{0})}^{2} + {(j - j_{0})}^{2}}} \times V (i, j) - - - (3)

i_{0} = \frac{Σ_{k = 1}^{n} Σ_{l = 1}^{n} [i_{k} \times V (i_{k}, j_{l})]}{n}

j_{0} = \frac{Σ_{k = 1}^{n} Σ_{l = 1}^{n} [j_{k} \times V (i_{l}, j_{k})]}{n} - - - (4)

\overset{&OverBar;}{V} (i, j) = \frac{Σ_{k = 1}^{n} {\overset{&OverBar;}{V}}_{k} (i, j)}{n} - - - (5)

3.根据权利要求1所述的一种基于自然视频的实时智能监控方法，其特征在于：所述对需监控的视频帧序列，通过将其运动历史图像与样本数据在低维空间进行映射，并通过最优化方法得到需监控的视频序列中人物运动识别和分类，同时对危险行为进行警示步骤包括：

Y^T＝X^TW (6)

＝V∑

其中X^T为经验平均值为0的数据矩阵，V∑为X^T的单值划分。

V_test＝Min(D(|V_{low_test}-V_{low_exap}|)) (7)