CN104268568A

CN104268568A - 基于独立子空间网络的行为识别方法

Info

Publication number: CN104268568A
Application number: CN201410476791.5A
Authority: CN
Inventors: 叶茂; 裴利沈; 赵雪专; 李涛; 包姣; 窦育民; 李旭冬; 向涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2014-09-17
Filing date: 2014-09-17
Publication date: 2015-01-07
Anticipated expiration: 2034-09-17
Also published as: CN104268568B

Abstract

本发明公开了一种基于独立子空间网络的行为识别方法；其具体包括以下步骤：预处理并学习空间特征、提取时空特征、将视频表征为直方图向量、训练SVM分类器和行为识别。本发明的基于独立子空间网络的行为识别方法通过从视频数据中提取空间特征，然后对这些空间特征进行池化以获取与时空特征等效的特征，再用词袋的方法，将每个视频序列表征为一个关于词袋中各单词的直方图向量，然后利用训练好的多个SVM分类器，应用一对多的策略进行多类别的行为识别，增加行为识别的鲁棒性，提高行为识别率。

Description

基于独立子空间网络的行为识别方法

技术领域

本发明属于人工智能识别技术领域，尤其涉及一种基于独立子空间网络的行为识别方法。

背景技术

随着中国城市化建设的大举推进，城市人口的急剧增加以及国际恐怖主义的猖獗，城市公共安全以及个人人身安全已成为智能监控科研机构或相关科技研发部门的研究重点。对人体行为进行分析识别的行为识别技术是该项研究的重中之重。目前，行为识别是人工智能领域的一个重要的热门研究问题。它广泛的应用于公共安全智能监控，人机交互，智能家居，病人或老年人安全监控等方面。行为识别的关键技术是行为表征方法的实现，即用于行为分类的行为特征的提取。目前，有大量的行为特征提取方法被提出，他们主要分为两大类。一种是手工设计的特征提取方法，另一种为基于深度学习架构的特征学习方法。对于手工设计的特征，人们研究了很长时间，并提出了大量的全局特征与局部特征。全局特征中，最具代表性的是运动历史图像(Motion History Image，简称MHI)与运动能量图像(Motion Energy Image，简称)。局部特征中，基于时空兴趣点的HOG,HOF,HOG/HOF，HOG3D等特征都取得了较好的识别效果。在很长的一段时间内，手工设计的特征都没有很大的进展，与此同时，深度学习在语音识别与字符识别等方面取得了巨大的成功，于是，部分科研人员开始了在深度学习的框架下用于行为识别的特征提取方法研究。在深度学习框架下，先后有很多时空特征学习方法被提出，如基于卷积神经网络(CNN)的特征学习方法，与基于卷积限制玻尔兹曼机(CRBM)的时空特征学习方法等。东南大学的田茜、徐海燕、王臻、马慧、陈萍萍、吴建辉、李红的发明《一种基于概率融合和降维技术的行为识别方法》于2014年4月29日向中国国家知识产权局申请专利并获得批准，于2014年07月16日公开，公开号：103927561A。该发明公开了一种基于概率融合和降维技术的行为识别方法。它首先基于稠密轨迹提取局部底层特征，对特征分别采用PCA降维；其次使用Fisher核对局部底层特征进行聚类，形成Fisher向量；在FV作为分类器的输入之前对他们进行了LDA降维，最后对不同的描述，其采用后融合技术进行数据结合，从而来提高识别率。其具体包括：建立底层特征描述器，基于稠密轨迹来提取HOG、HOF、MBH和Dentr四种底层特征描述器，然后用PCA对这四种底层特征描述降维；建立中层特征描述器：使用Fisher核对四种底层特征描述分别进行聚类，得到的Fisher向量(简称FV)为2KD维向量，其中K为Fisher核中所选高斯函数的数量，D为底层特征向量的维数；使用LDA(Linear Discriminant Analysis，线性鉴别分析)对得到的Fisher向量进行降维；使用最终得到的Fisher向量进行分类我训练和测试。该专利利用了一些传统的手工设计的特征：HOG，HOF，MBH，Dentr，并对这些特征进行了多次降维。这些特征具有一定的局限性，不如根据视频数据学习到的特征灵活有效。深圳市赛为只能股份有限公司，孙凯、刘春秋、徐亮、梁子正、吴悦的发明《基于SURF兴趣点的行为识别方法及装置》于2014年5月22日向中国国家知识产权局申请专利并获得批准，于2014年07月30号公开，公开号：103955682A。该发明公开了一种基于SURF兴趣点的行为识别方法及装置。该方法包含如下步骤：采集多帧连续的人体动作视频图像；检测每帧图像中与人体动作相关的兴趣点；对兴趣点进行包括去噪音处理以及去离群的预处理；积累多帧图像中所有兴趣点并构造表征人体动作的运动轨迹的点集；从人体动作的运动轨迹的点集中提取目标特征并量化得到特征向量；计算运动轨迹的点集的特征向量与所有簇中心的欧式距离；根据步骤的计算结果，将待检测视频图像人体运动判定为得到的匹配值最高的人体动作。该发明能够增加行为识别的鲁棒性，提高行为识别率。其具体包括：采集多帧连续的人体动作视频图像；检测每帧图像中与人体动作相关的兴趣点；对兴趣点进行包括去噪音处理以及去离群的预处理；积累多帧图像中所有兴趣点并构造表征人体动作的运动轨迹的点集；从人体动作的运动轨迹的点集中提取目标特征并量化得到特征向量；计算运动轨迹点集的特征向量与所有簇中心的欧式距离；根据上述步骤的计算结果，将待检测视频图像人体运动判定为得到的匹配值最高的人体动作。该专利利用SURF兴趣点来构造表征人体的运动轨迹，虽然该方法采用了一些去噪的方法，但是在行为视频中存在很多噪音，如场景中的其他人或物体对人体的遮挡，嘈杂背景等都会对该方法产生很大的影响，进而降低对行为的识别效果。而且该方法利用传统的人为设计的特征来表征行为，这些手工设计的特征在识别行为时有很大的局限性。

发明内容

为了解决以上问题，本发明提出了一种基于独立子空间网络的行为识别方法。

本发明的技术方案是：一种基于独立子空间网络的行为识别方法，包括以下步骤：

S1.对视频进行预处理，并利用独立子空间网络学习空间特征，具体包括以下步骤：

S11.将KTH数据库中的KTH数据分割为训练集和测试集；

S12.从训练集中随机采样尺寸为32×32×5的基本视频块单元，并将基本视频块单元中的每一帧图像转化为灰度图像；

S13.对灰度化处理后的基本视频块单元作局部对比归一化预处理，得到尺寸为24×24×5的基本视频块单元；

S14.利用预处理后的基本视频块单元，采用独立子空间网络学习空间特征；

S2.采用从时间与空间上对特征进行最大值池化的方法提取时空特征，具体包括以下步骤：

S21.从训练集中密集采样尺寸为44×44×11视频块，并将视频块中的每一帧图像转化为灰度图像；

S22.将灰度化处理的视频块部分重叠的分割为尺寸为32×32×5的基本视频块单元，并对每一个基本视频块单元作局部对比归一化预处理；

S23.将预处理后的基本视频块单元进行spatial pooling操作与temporal pooling操作，并将得到的特征向量合并为一个特征向量；

S3.采用K-means聚类方法，将每个视频表征为直方图向量，具体包括以下步骤：

S31.根据步骤S2中得到的特征向量，利用K-means聚类方法对特征向量进行聚类，形成一个具有一定数目单词的词袋；

S32.对训练集中的所有特征向量分配单词标签，并将每个视频表示为其所有特征向量在词袋中出现频率的直方图向量；

S4.根据步骤S3中的直方图向量，对每类行为以该类行为的直方图向量为正样本，其他类型行为的直方图向量为负样本，训练非线性χ²-kernel SVM分类器；

S5.将测试集中视频表征为直方图向量，并依据多个SVM分类器，采用一对多的分类策略对多类行为进行识别。

进一步地，上述步骤S14利用预处理后的基本视频块单元，采用独立子空间网络学习空间特征具体为：设定视频块数目为S，基本数据块单元为x_s，第t帧图像为x_s ^t，其中t＝1,2,3,4,5；以一个视频数据块为基本单元，以每帧图像所表示的一维向量为输入，在独立子空间网络的每次前馈过程中将x_s ^t表示为p_s ^t，计算公式为：其中为x_s ^t加随机噪声后的数据；在稀疏约束与temporal slowness规则化的条件下，定义重构视频数据的损失函数为：

Γ_{s} (x_{s}; W) = Σ_{t = 1}^{T} {| | {x_{s}}^{t} - W^{'} W {\tilde{x}}_{s}^{t} | |}_{2}^{2} + λ Σ_{t = 1}^{T - 1} {| | {p_{s}}^{t} - {p_{s}}^{t - 1} | |}_{1} + γ Σ_{t = 1}^{T} {| | {p_{s}}^{t} | |}_{1}

其中，x_s ^t为基本数据块单元x_s的第t帧图像的向量表示；W为需要学习的空间特征，W'为W的转置，V为独立子空间网络中输出层上一层神经元的分组矩阵；p_s ^t为对图像x_s ^t的特征编码；T为视频块的图片帧数，为独立子空间网络的重构误差；λ与γ为规则化项约束因子，为temporal slowness约束，为稀疏约束；利用L₁-regularized优化方法解决最小化问题

本发明的有益效果是：本发明的基于独立子空间网络的行为识别方法通过从视频数据中提取空间特征，然后对这些空间特征进行池化以获取与时空特征等效的特征，再用词袋的方法，将每个视频序列表征为一个关于词袋中各单词的直方图向量，然后利用训练好的多个SVM分类器，应用一对多的策略进行多类别的行为识别，增加行为识别的鲁棒性，提高行为识别率。

附图说明

图1是本发明的基于独立子空间网络的行为识别方法流程示意图。

图2是本发明的独立子空间网络结构示意图。

图3是本发明的空间特征示意图。

图4是本发明的Spatial Pooling操作示意图。

图5是本发明的Temporal Pooling操作示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明采用KTH数据库与UCF sports数据库对本发明的基于独立子空间网络的行为识别方法进行说明。KTH数据库是一个包含六种日常行为的行为数据库，UCF sports数据库是一个从各体育频道搜集来的体育运动视频。UCF sports数据库的视频较少，为了增加视频数目，我们对每个视频通过水平翻转的操作使其成为一个新的样本，在该数据集上我们采用了leave-one-video-out的方案来进行测试实验。此外，UCF sports数据库中的视频的分辨率比较高，为了减少特征学习过程中计算机内存的负担，我们将该数据库中的视频集采样为其原分辨率的一半。如图1所示，为本发明的基于独立子空间网络的行为识别方法流程示意图。一种基于独立子空间网络的行为识别方法，包括以下步骤：

S1.对视频进行预处理，并利用独立子空间网络学习空间特征。

KTH数据库包含六种行为：walking,jogging,running,boxing,hand waving and handclapping。根据KTH数据库，将KTH数据分割为训练集和测试集；以训练集中所有视频为训练样本，随机采样300个尺寸为32×32×5的基本视频块单元并将基本视频块单元中的每一帧图像转化为灰度图像；对灰度化处理后的基本视频块单元作局部对比归一化预处理，得到尺寸为24×24×5的基本视频块单元，局部对比归一化核的窗口大小为9；设定网络的输出d为100，学习得到100个空间特征。如图2所示，为本发明的独立子空间网络结构示意图。采用深度学习中的独立子空间网络(Independent Subspace Analysis Network，ISANetwork)在Sparseness与Temporal Slowness的约束下学习空间特征具体为：设定视频块数目为S，基本数据块单元为x_s，第t帧图像为x_s ^t，其中t＝1,2,3,4,5，以一个视频数据块为基本单元，以每帧图像所表示的24×24＝576维向量为输入，在独立子空间网络的每次前馈过程中将x_s ^t表示为p_s ^t，计算公式为：其中为x_s ^t加随机噪声后的数据，在稀疏约束与temporal slowness规则化的条件下，定义重构视频数据的损失函数为：

Γ_{s} (x_{s}; W) = Σ_{t = 1}^{T} {| | {x_{s}}^{t} - W^{'} W {\tilde{x}}_{s}^{t} | |}_{2}^{2} + λ Σ_{t = 1}^{T - 1} {| | {p_{s}}^{t} - {p_{s}}^{t - 1} | |}_{1} + γ Σ_{t = 1}^{T} {| | {p_{s}}^{t} | |}_{1}

其中，T为视频块的图片帧数，设置为独立子空间网络的重构误差，为temporal slowness约束，为约束学习的特征；利用L₁-regularized优化方法解决最小化问题

S2.采用从时间与空间上对特征进行最大值池化的方法提取时空特征。

从训练集中密集采样尺寸为44×44×11视频块，并将视频块中的每一帧图像转化为灰度图像。然后将灰度化处理的视频块部分重叠的分割为尺寸为32×32×5的2×2×3＝12个基本视频块单元，这里的基本视频块单元与步骤S1中的基本视频块单元相同，这样采样得到视频块被分割为2×2×3＝12个基本视频块单元。再对每一个基本视频块单元做局部对比归一化预处理，处理后的基本视频块单元尺寸为24×24×5。将预处理后的视频数据进行spatialpooling操作与temporal pooling操作，并将得到的特征向量合并为一个特征向量，这个特征向量就是对采样得到的视频块的特征表征。这里的特征表征是一种局部特征，它表征了视频数据的空间与时间特征。如图3所示，为本发明的空间特征示意图。经过spatial pooling与temporal pooling处理后，采样的视频块被表征为一个2×2×3×d＝1200维的特征向量。每个采样得到的视频块的这个局部特征维度很高，最近的关于sampling策略的文章在实验中发现当其对采样数据进行编码时，维度为864时取得了较好的识别效果，这里我们采用PCA降维的方法对提取的局部特征进行降维处理，降维后其特征维度为864维。下面分别对spatial pooling操作和temporal pooling操作进行详细说明。

如图4所示，为本发明的Spatial Pooling操作示意图。Spatial Pooling操作是将密集采样得到的尺寸为44×44×11的视频块分割为2×2×1个基本视频块单元，并进行归一化预处理，然后对其进行编码(Encode)与最大值池化(max pooling)处理。编码是通过训练学习好的独立子空间网络，将局部对比归一化处理后的基本视频块单元的每一帧转化为网络的输出特征。对基本视频块单元x_s的每一帧x_s ^t采用公式进行编码，对所有基本视频块单元编码后，再对每一个基本视频块单元的所有帧对应位置的特征响应值进行最大值池化处理，然后将所有的特征合并为向量，作为视频块的特征表示。

如图5所示，为本发明的Temporal Pooling操作示意图。Temporal Pooling操作是将密集采样得到的尺寸为44×44×11的视频块分割为1×1×3个基本视频块单元，并进行归一化预处理，然后对其进行编码(Encode)与最大值池化(max pooling)处理。编码过程与SpatialPooling操作相同。对所有基本视频块单元编码后，再对每一个基本视频块单元的所有帧对应位置的特征响应值进行最大值池化处理，然后将所有的特征合并为向量，作为视频块的特征表示。

S3.采用K-means聚类方法，将每个视频表征为直方图向量。

从KTH数据库的训练视频集中密集采样尺寸为44×44×11的视频块，将其表征为特征向量，然后利用词袋的方法将每个视频块表征为直方图向量。因为KTH数据库中的行为是在均匀单一背景下采集的，这样造成密集采样得到的一些视频块中没有行为信息，而且该类视频块对学习到的spatial features or spatial filters的响应值比较低。在这里我们采用norm-thresholding方法过滤掉这些不具有行为信息的数据块。表征视频数据块的特征向量是一种局部特征，为了将这种局部特征用于表征行为视频，我们采用了词袋(Bag-of-Word)的方法来表征行为视频。首先我们通过K-means聚类的方法构建了词袋，然后给特征向量分配单词标签，最后统计每个行为视频的数据块的特征在各个单词中出现的频率，将其直方图向量作为每个行为视频的特征表征。

S4.根据步骤S3中的直方图向量，对每类行为以该类行为的直方图向量为正样本，其他类型行为的直方图向量为负样本，训练非线性χ²-kernel SVM分类器。

S5.将测试集中视频表征为直方图向量，并依据多个SVM分类器，采用一对多的分类策略对多类行为进行识别。分类时，选择分类分值最高的类别为测试行为的分类类别。

在KTH行为数据库与UCF sports数据库上，对本发明的基于独立子空间网络的行为识别方法进行了验证，其实验结果如下表所示。本发明在这两个公用数据库上获得了较好的识别效果，分别达到了90.0％与85.6％的平均识别率。通过深度学习框架学习到的特征表现了其强有力的识别能力。

算法	KTH	UCF Sports
			本方案	90.0％	85.6％
HOG	79.0％	77.4％
			HOF	88.0％	82.6％
HOG/HOF	86.1％	81.6％
			Action State	88.8％	85.4％

通过将本发明的实验结果与基于HOG,HOF,HOG/HOF特征描述的密集采样的方法以及基于行为状态(action states)和行为状态转换的倒排索引的方法进行了对比，可以发现本方案的结果优于采用其他特征的行为识别方案。通过与其他手工设计的特征的对比，我们发现，基于temporal slowness约束的De-noising ISA Network深度学习架构学习到的特征，经spatial Pooling与temporal pooling处理后能够有效的识别行为。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于独立子空间网络的行为识别方法，其特征在于，包括以下步骤：

S11.将KTH数据库中的KTH数据分割为训练集和测试集；

2.如权利要求1所述的基于独立子空间网络的行为识别方法，其特征在于：所述步骤S14利用预处理后的基本视频块单元，采用独立子空间网络学习空间特征具体为：设定视频块数目为S，基本数据块单元为x_s，第t帧图像为x_s ^t，其中t＝1,2,3,4,5；以一个视频数据块为基本单元，以每帧图像所表示的一维向量为输入，在独立子空间网络的每次前馈过程中将x_s ^t表示为p_s ^t，计算公式为：其中为x_s ^t加随机噪声后的数据；在稀疏约束与temporal slowness规则化的条件下，定义重构视频数据的损失函数为：

Γ_{s} (x_{s}; W) = Σ_{t = 1}^{T} {| | {x_{s}}^{t} - W^{'} W {\tilde{x}}_{s}^{t} | |}_{2}^{2} + λ Σ_{t = 1}^{T - 1} {| | {p_{s}}^{t} - {p_{s}}^{t - 1} | |}_{1} + γ Σ_{t = 1}^{T} {| | {p_{s}}^{t} | |}_{1}