CN103942575A

CN103942575A - 基于场景和马尔科夫逻辑网的智能行为分析系统及方法

Info

Publication number: CN103942575A
Application number: CN201410134737.2A
Authority: CN
Inventors: 何莹; 王建; 胡传平; 梅林�; 吴轶轩; 谭懿仙; 杜欢; 尚岩峰; 王文斐
Original assignee: Third Research Institute of the Ministry of Public Security
Current assignee: Third Research Institute of the Ministry of Public Security
Priority date: 2014-04-02
Filing date: 2014-04-02
Publication date: 2014-07-23

Abstract

本发明涉及一种基于场景和马尔科夫逻辑网的智能行为分析系统及方法，其中包括场景描述器，用以采用主题模型方法对视频图像所处的场景进行分类；动作识别器，用以在所述的视频图像的基础上，采用隐马尔科夫模型方法对视频图像中人的原子动作进行识别；语义行为理解描述器，用以在场景分类和原子动作识别的基础上，采用马尔科夫逻辑网方法进行高层语义行为理解和兴趣度事件描述。采用该种基于场景和马尔科夫逻辑网的智能行为分析系统及方法，通过将场景描述引入到视频的高层语义行为进行分析，更加充分地对视频进行描述，将领域规则知识库引入到马尔科夫逻辑网进行改进，更加灵活地实现对高层语义行为及相关事件进行描述，具有更广泛的应用范围。

Description

基于场景和马尔科夫逻辑网的智能行为分析系统及方法

技术领域

本发明涉及人体行为视觉分析与智能理解领域，尤其涉及基于场景描述和马尔科夫逻辑网进行人体行为视觉分析和智能理解领域，具体是指一种基于场景和马尔科夫逻辑网的智能行为分析系统及方法。

背景技术

随着技术的发展以及硬件设备价格的逐渐降低，大量的监控摄像头被安装到各种场合，特别是那些对安全要求敏感的场合，如机场、社区、银行、停车场、军事基地等。动态场景的视觉监控是近年来备受关注的前沿研究方向，它从摄像机捕捉的图像序列中检测、识别、跟踪目标并对其行为进行理解。人的行为分析作为计算机视觉领域的一个重要研究方向，其目的就是让计算机像人一样通过视觉观察来分析和理解人类活动和场景信息，在高级人机交互、安全监控、视频会议、医疗诊断及基于内容的图像存储及检索等方面具有广泛的应用前景和潜在的经济价值，目前已经被应用于智能家居、老年人看护、智能会议室等领域中。

李英杰等在其申请的发明专利“一种基于行为识别的智能视频监控系统”[201110148631.4]中公开了一种基于行为识别的智能视频监控系统。该系统是一种可以自动侦测威胁的智能视频监控系统，可对场景目标进行探测、跟踪、分类和对象分析，由五部分组成：视频采集模块、视频处理模块、基于贝叶斯分类算法的行为识别模块、上位机管理平台和报警模块。该系统能够很好的判断视频数据是否为异常分布，通过运用一种贝叶斯分类算法，来判断正常行为和异常行为，并能够很好的保证实时性。

汤志伟等在其申请的发明专利“基于图像分割和语义提取实现人员行为识别的系统及方法”[201210317234.X]中公开了一种基于图像分割和语义提取实现人员行为识别的系统及方法。将图像的高层语义和底层视觉特征相结合，采用支持向量机方法将图像底层特征映射为高层语义，在图像和图像描述之间建立映射关系，使得计算机能够通过数字图像处理和分析来理解画面中的内容，在不需要人为干预的情况下，实现对场景中人员行为的智能检测，减小“语义鸿沟”，大幅提高图像中人员行为识别的准确性，且实现方式简便，应用成本低廉，应用范围也较为广泛。

王传旭等在其申请的发明专利“同类行为多视图间相似度挖掘方法及行为识别方法”[201310268884.4]中公开了一种同类行为多视角间相似度挖掘方法及行为识别方法，通过时空特征点方法实现姿态建模，并通过递归图挖掘多视图间的递归相似度，避免了依赖于背景分割而容易导致人体姿态失真的问题，提高了相似度挖掘的精度及行为识别的鲁棒性。

黄凯奇等在其申请的发明专利“一种基于隐结构推理的行为识别方法”[201310087343.1]中公开了一种基于隐结构推理的行为识别方法。该方法通过研究人体结构特征来学习局部特征之间的结构信息，将运动主体的局部特征与来自背景的干扰特征分开，可以更好的对主体的行为进行描述，有效的提高了行为的表达能力和识别率。该方法亦可以对复杂场景中的行为进行识别分类，具有很好的鲁棒性。

谭铁牛等在其申请的发明专利“一种基于轨迹序列分析和规则归纳的视频行为识别方法”[200710117997.9]中公开了一种基于轨迹序列分析和规则归纳的视频行为识别方法，采用将场景中的完整轨迹分割为若干有羁绊语义的轨迹段，通过轨迹段聚类得到若干基本运动模式为原子事件，并使用隐马尔科夫模型方法进行建模，通过基于最小描述长度准则的规则归纳算法，获取蕴含在轨迹序列中的事件规则，然后，基于事件规则，采用扩展的文法分析器来对感兴趣的事件加以识别。本发明提供完整的视频行为识别框架，在规则归纳过程中考虑视频事件的时空属性，提出了一种多层规则归纳策略，大大提高了规则学习的有效性，应用于智能视频监控中，来实现自动分析当前监控场景下汽车或行人的运动行为。

韩磊等学者在《计算机学报》[2010,第33卷，第4期，776-784]发表的论文“基于时空单词的两人交互行为识别方法”中，基于人体剪影的连通性分析和时空兴趣点的历史信息，把时空兴趣点划分给不同的个体，并在兴趣点样本空间采用聚类方法得到时空码本。对于给定的时空兴趣点集，通过投票得到表示单人原子行为的时空单词。采用条件随机场模型建模单人原子行为，在两人交互行为的语义建模过程中，人工建立表示领域知识的一阶逻辑知识库，并训练马尔科夫逻辑网用以两人交互行为的推理，在初步建立的两人交互行为库上的实验表明了方法可以有效地建模两人交互行为并具有一定的鲁棒性。

综上可知，现有文献从行为识别角度对人体行为进行了描述，其中的马尔科夫逻辑网方法基于领域知识库，可对感兴趣的交互行为进行分析。但是，对人体行为的高层语义理解中很重要的一部分是场景信息，上述成果均未将行为识别和场景分析相结合，忽略了人和环境交互产生的兴趣度事件对现实生活的影响。本发明将场景分析和行为分析相结合，给出在高层语义层对视频的语义分析，输出更加丰富的知识和信息。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种能够实现通过将场景描述引入到视频的高层语义行为进行分析、更加充分地对视频进行描述、将领域规则知识库引入到马尔科夫逻辑网进行改进、更加灵活地实现对高层语义行为及相关事件进行描述、具有更广泛应用范围的基于场景和马尔科夫逻辑网的智能行为分析系统及方法。

为了实现上述目的，本发明的基于场景和马尔科夫逻辑网的智能行为分析系统及方法具有如下构成：

该基于场景和马尔科夫逻辑网的智能行为分析系统，其主要特点是，所述的系统包括：

场景描述器，用以采用主题模型方法对视频图像所处的场景进行分类；

动作识别器，用以在所述的视频图像的基础上，采用隐马尔科夫模型方法对视频图像中人的原子动作进行识别；

语义行为理解描述器，用以在场景分类和原子动作识别的基础上，采用马尔科夫逻辑网方法进行高层语义行为理解和兴趣度事件描述。

本发明还涉及一种通过所述的系统基于场景和马尔科夫逻辑网的智能行为分析方法，其主要特点是，所述的方法包括以下步骤：

（1）所述的场景描述器采用主题模型方法对视频图像所处的场景进行分类；

（2）在所述的视频图像的基础上，所述的动作识别器采用隐马尔科夫模型方法对视频图像中人的原子动作进行识别；

（3）在场景分类和原子动作识别的基础上，所述的语义行为理解描述器采用马尔科夫逻辑网方法进行高层语义行为理解和兴趣度事件描述。

较佳地，所述的采用主题模型方法对视频图像所处的场景进行分类，包括以下步骤：

（11）采用尺度不变特征转换特征方法对训练视频图像中的尺度不变特征集合得到特征矩阵的描述；

（12）在所述的特征矩阵的集合基础上，分别采用支持向量机方法和纹理分类方法对视频图像中的滴状对象和纹理对象进行识别；

（13）基于主题模型方法对视频图像所处的场景进行建模得到视频图像的场景分类结果。

较佳地，采用隐马尔科夫模型方法对视频图像中人的原子动作进行识别，包括以下步骤：

（21）采用线性滤波器检测视频图像中的时空兴趣点，所述的时空兴趣点为在时间上和空间上强度变化大于系统预设值的点；

（22）采用直方图量化技术将所述的时空兴趣点量化为维数固定的直方图并在直方图的基础上采用K均值聚类方法得到时空码本；

（23）基于所述的时空码本采用隐马尔可夫模型方法进行建模得到动作分类模型；

（24）将得到的直方图和动作分类模型进行匹配识别得到动作分类结果。

更佳地，所述的采用线性滤波器检测视频图像中的时空兴趣点，具体为：

采用线性滤波器按照如下响应函数检测视频图像中的时空兴趣点：

R=(I*g(x,y,σ)*h_ev)²+(I*g(x,y,σ)*h_od)²

其中，g(x,y,σ)是仅用于二维图像平滑高斯核，h_ev和h_od是一对正交的一维Garbor滤波器，仅用于时间维，

h_{ev} = - \cos (2 πtω) * e^{\frac{- t^{2}}{τ^{2}}}, h_{od} = - \sin (2 πtω) * e^{\frac{- t^{2}}{τ^{2}}}

（设定σ=1，τ=2.5）。

较佳地，所述的进行高层语义行为理解和兴趣度事件描述，包括以下步骤：

（31）在马尔科夫逻辑网的知识库中对感兴趣的交互行为和事件进行描述；

（32）将所述的动作分类器得到的原子动作和场景分类结果作为马尔科夫逻辑网的输入进行训练并基于建立的知识库进行推理输出对视频图像的高层语义描述和视频图像中出现的感兴趣的事件的描述。

更佳地，所述的在马尔科夫逻辑网的知识库中对感兴趣的交互行为和事件进行描述，包括以下步骤：

（311）采用一阶谓词的形式对感兴趣的交互行为和事件进行描述；

（312）根据马尔科夫逻辑网的知识库中对现实世界知识的常识理解采用硬约束描述感兴趣的交互行为和事件。

采用了该发明中的基于场景和马尔科夫逻辑网的智能行为分析系统及方法，具有如下有益效果：

（1）将场景描述引入到对视频的高层语义行为进行分析中，可以更加充分地对视频进行描述。

（2）将领域规则知识库引入到对马尔科夫逻辑网进行改进中，更加灵活的规则来实现对高层语义行为及相关事件进行描述。

（3）将视频图像所处场景和行为分析相结合，给出更加详细的高层语义行为描述结果。

附图说明

图1为本发明的基于场景和马尔科夫逻辑网的智能行为分析系统的结构示意图。

图2为本发明的场景描述器的工作原理示意图。

图3为本发明的动作识别器的工作原理示意图。

图4为本发明的语义行为理解描述器的工作原理示意图。

图5为本发明的马尔科夫逻辑网的结构示意图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的目的通过以下技术方案实现：

基于场景描述和马尔科夫逻辑网的智能行为理解方法，包括以下步骤：

1、场景描述器：在场景描述器中，获取输入的训练视频图像，首先采用尺度不变特征转换特征方法对视频图像中的尺度不变转换特征集合，得到特征矩阵的描述；然后在特征矩阵集合的基础上，分别采用支持向量机方法和纹理分类方法对视频图像中的滴状对象和纹理对象进行识别，并在此基础上基于主题模型方法对视频图像所处的场景进行建模，得到视频图像的场景分类结果。

2、动作识别器：在动作识别器中，采用隐马尔科夫模型方法对获取的视频中人的单人原子动作（坐、站等）进行识别：

首先采用线性滤波器检测视频图像中的时空兴趣点，线性滤波器的响应函数为：

R=(I*g(x,y,σ)*h_ev)²+(I*g(x,y,σ)*h_od)²，其中g(x,y,σ)是仅用于二维图像平滑高斯核，h_ev和h_od是一对正交的一维Garbor滤波器，仅用于时间维，（设定σ=1，τ=2.5）。时空兴趣点是指在时间上和空间上强度变化比较大的点，这是一种比较新的帧序列底层特征表达。每个时空兴趣点都可以看作三维空间（x,y,d）中的一个点。其中，x和y是时空兴趣点在图像空间中的位置，d是时空兴趣点的量值。单个人的动作可以看作是该三维空间中的时空兴趣点的集合。

然后，采用直方图量化技术将时空兴趣点量化为维数固定的直方图（即时空单词），在时空单词的基础上采用K-means聚类方法（K均值聚类方法）得到时空码本。

在时空码本的基础上采用隐马尔科夫模型方法进行建模，得到动作分类模型。

对测试视频图像采用时空兴趣点提取方法（Carbor滤波方法）提取时空兴趣点，然后采用K-means聚类方法得到时空单词。

将得到的时空单词和建立好的动作分类类型进行匹配识别，得到动作分类结果。

3、语义行为理解描述器：在语义行为理解描述器中，采用马尔科夫逻辑网方法在场景描述和原子动作识别的基础上，进行高层语义行为和兴趣度事件描述：

首先在马尔科夫逻辑网的知识库中对感兴趣的交互行为和事件进行描述，采用一阶谓词的表示形式。首先采用一阶谓词的形式对感是兴趣的交互行为和事件进行描述，其中，知识库中对现实世界知识的常识理解采用硬约束来进行描述，此外，此类约束也包括了可以从知识库中推理得到的谓词。

然后，将动作分类器得到的原子动作和场景分类结果作为马尔科夫逻辑网的输入，进行训练，并基于建立的知识库进行推理，输出对视频图像的高层语义描述，同时，输出视频图像中出现的感兴趣的事件的描述。

下面结合附图1～4进一步阐述本发明的基于场景和马尔科夫逻辑网的智能行为分析方法：

基于场景和马尔科夫逻辑网的智能行为分析方法，包括以下步骤：

1、首先获取视频图像101，视频图像101可分为训练视频图像102和测试视频图像103，然后分别采用场景描述器104和动作识别器105进行处理，分别得到场景分类结果206和视频图像中单人原子动作识别结果304。其中场景描述器104工作原理如图2所示：

对于训练视频图像102，首先采用尺度不变特征转换特征方法提取尺度不变转换特征集合，得到特征矩阵的描述；然后在特征矩阵集合的基础上，分别采用对象分类器201（支持向量机方法和纹理分类方法）对视频图像中的滴状对象和纹理对象进行识别，得到融合的对象模板容器202，并在此基础上基于主题模型方法建立语义主题模型203，至此，场景分类模型完成建立；而在场景分类识别阶段，则是先要从测试的视频图像中提取尺度不变转换特征集合，然后，采用对象分类器201对测试视频图像进行处理，提取测试图像中包含的对象集合融合的测试对象容器205，最后采用在主题模型方法训练阶段得到的语义主题模型203进行语义主题模型的匹配识别，得到视频图像的场景分类结果206。

2、在采用场景描述器104对视频图像进行处理的同时，同步采用动作识别器105对输入的视频图像进行处理，得到视频图像中单人原子动作描述结果，工作原理如图3所示：

（1）首先采用时空特征提取方法301（Carbor线性滤波器）检测训练视频图像102中的时空兴趣点，线性滤波器的响应函数为：R=(I*g(x,y,σ)*h_ev)²+(I*g(x,y,σ)*h_od)²，其中g(x,y,σ)是仅用于二维图像平滑高斯核，h_ev和h_od是一对正交的一维Garbor滤波器，仅用于时间维，

h_{ev} = - \cos (2 πtω) * e^{\frac{- t^{2}}{τ^{2}}}, h_{od} = - \sin (2 πtω) * e^{\frac{- t^{2}}{τ^{2}}}

（设定σ=1，τ=2.5）。时空兴趣点是指在时间上和空间上强度变化比较大的点，这是一种比较新的帧序列底层特征表达。每个时空兴趣点都可以看作三维空间（（x,y,d）,其中，x和y是时空兴趣点在图像空间中的位置，d是时空兴趣点的量值）中的一个点。单个人的动作可以看作是该三维空间中的时空兴趣点的集合。

（2）然后，采用直方图量化方法302将时空兴趣点量化为维数固定的直方图，,即时空单词，在时空单词的基础上采用采用K-means聚类方法302得到时空码本。其中，采用聚类方法得到时空码本前，每个时空兴趣点都进行了归一化，以保证其缩放和平移不变性。

（3）对时空码本上采用隐马尔科夫模型303方法进行建模，得到单人原子动作分类模型。

（4）对测试视频图像103同样采用时空兴趣点提取方法302（Carbor滤波方法）提取时空兴趣点，然后采用直方图量化方法302对时空兴趣点进行处理，得到测试视频图像的时空单词；对于得到的时空单词，采用K-means聚类方法进行分析，得到测试视频图像的时空码本。

（5）然后采用隐马尔科夫模型303方法对得到的时空码本进行处理，通过匹配识别的方式，得到视频图像中单人原子动作识别结果305。

3、在场景描述器104和动作识别器105得到的场景分类结果和原子动作识别结果后，采用马尔科夫逻辑网方法（其结构参见附图5）设计语义行为理解描述器106，来对视频图像在高层次进行行为理解和分析，其中，马尔科夫逻辑网本质上是将基于规则的表示和概率图模型相结合，图中的节点对应一个谓词（predict），图中的边对应两个谓词间的关系，并把所有谓词的联合概率分布建模为图上所有团的势函数之和。模型的每一个产生式规则（对应一个团）都具有相应的权重，该权重可以表示该规则的置信度。公式的权重来表明限制强度，权重越大，则表明满足该公式世界的发生概率和不满足该公式世界的发生概率之间的差就越大。而语义行为理解描述器的具体工作原理如图4所示：

（1）首先对马尔科夫逻网中的知识库401进行设计，对感兴趣的交互行为和事件进行描述，采用一阶谓词的描述形式得到其产生式规则表达。一个马尔科夫逻辑网通过一阶谓词知识库的规则（或条款）的权重来获得，可以看作构建一般马尔科夫网络的模板，知识库中每个可能的基本规则都会产生一个特性。其中，知识库中对现实世界知识的常识理解采用硬约束来进行描述，如认为交互行为应该是两个不同人之间的原子行为的交互，则当两人握手的交互动作发生时，有硬约束：ShakeHands(p1,p2)→!equal(p1,p2)。单人原子行为和人与人交互行为的逻辑关系通过软约束来实现，即采用具有权重的产生式规则建模。比如采用如下产生式规则建模两个不同原子行为下的“握手”行为：

action(p1,act_label)^action(p2,act_label)^!equal(p1,p2)→ShakeHands(p1,p2)，软约束的初始权值通过条件随机场识别单人原子行为而设定，最终的权重由马尔科夫逻辑网从训练集中学习得到。

（2）然后，采用马尔科夫逻辑网方法405中的训练方法部分对场景描述器104得到的场景分类结果和动作识别器得到的单人A行为402、单人B行为403以及视频图像中的获取A和B交互行为404进行训练，通过训练，得到马尔科夫逻辑网对A和B交互行为的得到知识库中规则的权重的表示形式，然后，在此基础上，采用马尔科夫逻辑网中的推理方法进行推理，得到行为理解和事件描述结果406。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于场景和马尔科夫逻辑网的智能行为分析系统，其特征在于，所述的系统包括：

2.一种通过权利要求1所述的系统基于场景和马尔科夫逻辑网的智能行为分析方法，其特征在于，所述的方法包括以下步骤：

3.根据权利要求2所述的基于场景和马尔科夫逻辑网的智能行为分析方法，其特征在于，所述的采用主题模型方法对视频图像所处的场景进行分类，包括以下步骤：

4.根据权利要求2所述的基于场景和马尔科夫逻辑网的智能行为分析方法，其特征在于，采用隐马尔科夫模型方法对视频图像中人的原子动作进行识别，包括以下步骤：

5.根据权利要求4所述的基于场景和马尔科夫逻辑网的智能行为分析方法，其特征在于，所述的采用线性滤波器检测视频图像中的时空兴趣点，具体为：

R=(I*g(x,y,σ)*h_ev)²+(I*g(x,y,σ)*h_od)²

h_{ev} = - \cos (2 πtω) * e^{\frac{- t^{2}}{τ^{2}}}, h_{od} = - \sin (2 πtω) * e^{\frac{- t^{2}}{τ^{2}}}

（设定σ=1，τ=2.5）。

6.根据权利要求2所述的基于场景和马尔科夫逻辑网的智能行为分析方法，其特征在于，所述的进行高层语义行为理解和兴趣度事件描述，包括以下步骤：

7.根据权利要求6所述的基于场景和马尔科夫逻辑网的智能行为分析方法，其特征在于，所述的在马尔科夫逻辑网的知识库中对感兴趣的交互行为和事件进行描述，包括以下步骤：