CN109583335A

CN109583335A - 一种基于时空信息融合的视频人体行为识别方法

Info

Publication number: CN109583335A
Application number: CN201811368223.8A
Authority: CN
Inventors: 周小峰; 李奥; 衣杨; 沈金龙; 朱艺; 顾佳良
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-04-05
Anticipated expiration: 2038-11-16
Also published as: CN109583335B

Abstract

本发明涉及人工智能领域，更具体的，涉及一种基于时空信息融合的视频人体行为识别方法。本发明基于密集光流场结合轨迹的时间显著值提取显著轨迹，并基于底层显著轨迹构造了一种新的中层特征——轨迹组，其在一定程度上刻画了时间维度上的运动信息，弥补了底层轨迹的缺陷，同时构造了轨迹组在时间维度上的前后、远近关系，丰富了轨迹组的时间关系。本发明基于稀疏采样提出了自适应分段采样策略，对视频采样的数目随视频时长而自适应变化，对任意时长的视频都能够提取到富有判别力的空间信息。

Description

一种基于时空信息融合的视频人体行为识别方法

技术领域

本发明涉及人工智能领域，更具体的，涉及一种基于时空信息融合的视频人体行为识别方法。

背景技术

近年来，一些研究构建中层特征以表示运动相关的语义信息弥补全局和局部特征表示的缺陷。这类表示方式能够较为有效地挖掘行为动作的时空结构，含有丰富的动作语义信息和较强的判别力。但现有的方法大多从运动几何等方面考虑，采用较为复杂的建模方式构建中层特征，导致计算资源耗用过多。

而在利用卷积神经网络提取视频中的空间信息时，当前常用的采样策略主要是稀疏采样策略，该策略将视频均匀分成K段，从每一段中随机选取一帧作为卷积网络的输入，最后将每一段的分类分数进行融合。这种采样方式对短视频和长视频都采用相同的K,在视频过长时可能导致丢失一些重要的帧信息，在视频过短时可能会使所采集的帧过多，造成冗余。

发明内容

本发明基于密集光流场结合轨迹的时间显著值提取显著轨迹，并基于底层显著轨迹构造了一种新的中层特征——轨迹组，其在一定程度上刻画了时间维度上的运动信息，弥补了底层轨迹的缺陷，同时构造了轨迹组在时间维度上的前后、远近关系，丰富了轨迹组的时间关系。本发明基于稀疏采样提出了自适应分段采样策略，对视频采样的数目随视频时长而自适应变化，对任意时长的视频都能够提取到富有判别力的空间信息。

为实现以上发明目的，采用的技术方案是：

一种基于时空信息融合的视频人体行为识别方法，包括以下步骤：

步骤S1：对视频时间信息进行提取分类，将原始视频进行灰度空间尺度变换，提取显著轨迹；

步骤S2：根据轨迹的持续时间进行聚类而构建视频中层特征TG；

步骤S3：构造TG之间的时间关系；

步骤S4：计算TG的特征描述符；

步骤S5：采用Fisher编码方法对TG特征进行编码，结合TG以及时间关系作为视频表示；

步骤S6：采用隐结构的支持向量机对视频进行分类；

步骤S7：对视频空间信息进行提取分类，采用自适应分段采样策略从视频中进行稀疏采样；

步骤S8：对采样所得到的视频帧利用卷积神经网络提取空间特征；

步骤S9：根据提取到的特征进行行为视频分类；

步骤S10：把根据视频时间信息得到的分类结果和根据视频空间信息得到的分类结果进行平均加权融合，得到最后的视频分类结果。

优选的，步骤S1具体包括以下步骤：

步骤S101：输入原始视频序列X；

步骤S102：计算初始化视频轨迹长度L,采样步长STEP：

步骤S103：对原始视频做灰度转换；

步骤S104：对进行灰度转换后的视频起始帧进行密集采样得到轨迹集初始点；

步骤S105：跟踪初始点在后续视频帧的位置，同时计算各个视频帧的时间显著值以及过滤阈值；

步骤S106：将视频序列的轨迹记作表示以第j帧为起始帧，第i个点形成的长度为L的轨迹，将第j帧上每个特征点p^j(x^j,y^j)，通过中值滤波后的密集光流场f＝(u_t,v_t)跟踪至第j+1帧：得到第j帧的位置p^j，具体公式如下：

其中，M为中值滤波核，是(x^j,y^j)四舍五入取整后的位置坐标；

步骤S107：计算第j帧的所有采样点的时间显著值，设在第j帧中，点周围3×3像素块作为该点的中心块为其周围9×9像素块为第一周围块为16×16像素块为第二周围块为为中心块建立一个光流字典和分别为对应的同一光流图像上的两个周围块，点的中心块与周围块的运动差值(n＝1,2)作为的时间显著值，记作由以下公式计算获得：

其中O_v(·)和O_h(·)分别是中心块和周围块的水平和垂直方向上的光流平均值，轨迹的时间显著值定义为该条轨迹上每个点的平均时间显著值：

步骤S108：在第j帧的时间显著值的基础上计算平均时间显著值，第j帧的平均时间显著值S_f定义为：

其中，H和W分别是帧的高度值和宽度值；为第j帧所有采样点的时间显著值总和；count是帧采样点的总个数；

步骤S109：计算每一帧的过滤阈值T_f；

步骤S110：初始化T_f为2S_f，若点的时间显著值小于T_f，则T_f设置为否则T_f保持不变；

步骤S111：计算每条轨迹的时间显著值；

步骤S112：计算轨迹的自适应过滤阈值长度为L的轨迹共跨越L+1帧；

步骤S113：提取显著轨迹集，

优选的，步骤S2具体包括以下步骤：

步骤S201：构建视频表示M_c：

其中，φ(X)表示提取到的整个视频的显著轨迹，X为视频序列。表示从一个视频的N个TG中学习出K个最具有判别力的TG，τ表示隐变量，μ＝(μ₀,μ_i)表示显著轨迹特征和TG的权重；

步骤S202：将视频轨迹作为视频表示M_c中的隐变量进行学习，学习到的隐变量为具有较强判别力的TG集合。

优选的，步骤S3具体包括以下步骤：

步骤S301：据每条轨迹的起始时间为每个视频构建了N个TG，本发明将所有TG记作B，第i个和第j个TG之间的时间关系记作：

Γ＝χ(B_i,B_j)

步骤S302：融合提取的显著轨迹特征、TG特征以及构造的时间关系特征Γ得到视频表示M_c1，M_c1表示视频融合后的特征，视频表示M_c1为：

优选的，步骤S4具体包括以下步骤：

采用HOF和MBH作为TG的特征描述符，这两种描述符串联拼接构成视频特征表示V＝[V_HOF，V_MBH]，其中V_HOF和V_MBH分别表示HOF和MBH两种描述符的直方图。

优选的，步骤S7具体包括以下步骤：

步骤S701：给定一个视频序列V，其时长为T，则将该视频序列平均分为T+1段{S₁,S₂,...,S_T+1}，每一段包含相同数量的视频帧，然后从每一段中随机选取一帧t_i(t_i∈S_i)用来表示该段视频的空间信息，则从所有视频分段中随机选出的视频帧组成了卷积神经网络的输入集t＝{t₁,t₂,...,t_T+1}；

步骤S702：将自适应分段采样的得到的视频帧输入到同一个卷积神经网络提取空间特征，用F(t_i,W)代表用第i帧作为输入得到的行为分类结果，用S₂代表输入集t平均分类结果，并将其作为利用视频空间信息分类得到的最后结果，则S₂可表示为：

优选的，步骤S10具体包括以下步骤：

由视频时间信息所得到的行为分类结果为S₁，空间信息所得到的行为分类结果为S₂，用S表示视频时间信息和空间信息融合得到的最后行为分类结果，则S可表示为：

S＝(S₁+S₂)/2。

与现有技术相比，本发明的有益效果是：

附图说明

图1为本发明的流程图。

图2为UCF、KTH和YouTube数据集情况。

图3为本发明算法在KTH数据集上的混淆矩阵。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示，一种基于时空信息融合的视频人体行为识别方法，包括以下步骤：

步骤S3：构造TG之间的时间关系；

步骤S4：计算TG的特征描述符；

步骤S6：采用隐结构的支持向量机对视频进行分类；

步骤S9：根据提取到的特征进行行为视频分类；

优选的，步骤S1具体包括以下步骤：

步骤S101：输入原始视频序列X；

步骤S102：计算初始化视频轨迹长度L,采样步长STEP：

步骤S103：对原始视频做灰度转换；

步骤S109：计算每一帧的过滤阈值T_f；

步骤S111：计算每条轨迹的时间显著值；

步骤S113：提取显著轨迹集，

优选的，步骤S2具体包括以下步骤：

步骤S201：构建视频表示Mc：

步骤S202：将视频轨迹作为视频表示Mc中的隐变量进行学习，学习到的隐变量为具有较强判别力的TG集合。

优选的，步骤S3具体包括以下步骤：

Γ＝χ(B_i,B_j)

优选的，步骤S4具体包括以下步骤：

采用HOF和MBH作为TG的特征描述符，这两种描述符串联拼接构成视频特征表示V＝[V_HOF，V_MBH]，其中V_HOF和V_MBH分别表示HOF和MBH两种描述符的直方图.

优选的，步骤S7具体包括以下步骤：

优选的，步骤S10具体包括以下步骤：

S＝(S₁+S₂)/2。

实施例2

如图1、图2以及图3所示，本实施例采用两个各具特点的标准数据集，包括UCF、KTH和YouTube，后者难度更大，如图2所示。

实验环境：MATLAB与python

实验工具箱：Tensorflow,OpenCV,ffmpeg,boost和Libsvm

实验方法：在分类过程中，针对三个行为数据集皆采取留一交叉验证法(Leave-One-Out-Cross-Validation,LOOCV)

评价标准：本发明对识别结果均采用行为类别平均识别率作为通用评价标准。首先计算单一类别的识别率，再对其加权求平均得到所有类别的平均识别率。第r个类别行为的识别率为：

其中，|K_r|为第r类行为的视频数量，Vi代表测试视频序列，P(Vi)为Vi的预测结果标签，为第r类正确分类的视频数量。数据集中所有动作类别的平均识别率AverageAccuracy为：

其中，|R|为数据集中类别数目，是|R|个类别的识别率的总和。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于时空信息融合的视频人体行为识别方法，其特征在于，包括以下步骤：

步骤S2：根据显著轨迹的持续时间进行聚类而构建视频中层特征TG；

步骤S3：构造TG之间的时间关系；

步骤S4：计算TG的特征描述符；

步骤S5：采用Fisher编码方法对TG特征进行编码，结合TG以及时间关系作为时间信息视频表示；

步骤S6：采用隐结构的支持向量机对视频进行分类；

步骤S9：根据提取到的特征进行行为视频分类；

2.根据权利要求1所述的一种基于时空信息融合的视频人体行为识别方法，其特征在于，步骤S1具体包括以下步骤：

步骤S101：输入原始视频序列X；

步骤S102：计算初始化视频轨迹长度L,采样步长STEP：

步骤S103：对原始视频做灰度转换；

步骤S107：计算第j帧的所有采样点的时间显著值，设在第j帧中，点周围3×3像素块作为该点的中心块为其周围9×9像素块为第一周围块为16×16像素块为第二周围块为为中心块建立一个光流字典和分别为对应的同一光流图像上的两个周围块，点的中心块与周围块的运动差值作为的时间显著值，记作由以下公式计算获得：

步骤S109：计算每一帧的过滤阈值T_f；

步骤S111：计算每条轨迹的时间显著值；

步骤S113：提取显著轨迹集，

3.根据权利要求2所述的一种基于时空信息融合的视频人体行为识别方法，其特征在于，步骤S2具体包括以下步骤：

步骤S201：构建视频表示M_c：

其中，φ(X)表示提取到的整个视频的显著轨迹，X为视频序列，表示从一个视频的N个TG中学习出K个最具有判别力的TG，τ表示隐变量，μ＝(μ₀,μ_i)表示显著轨迹特征和TG的权重；

4.根据权利要求3所述的一种基于时空信息融合的视频人体行为识别方法，其特征在于，步骤S3具体包括以下步骤：

步骤S301：据每条轨迹的起始时间为每个视频构建了N个TG，将所有TG记作B，第i个和第j个TG之间的时间关系记作：

Γ＝χ(B_i,B_j)

5.根据权利要求4所述的一种基于时空信息融合的视频人体行为识别方法，其特征在于，步骤S4具体包括以下步骤：

6.根据权利要求5所述的一种基于时空信息融合的视频人体行为识别方法，其特征在于，步骤S8具体包括以下步骤：

步骤S801：给定一个视频序列V，其时长为T，则将该视频序列平均分为T+1段{S₁,S₂,...,S_T+1}，每一段包含相同数量的视频帧，然后从每一段中随机选取一帧t_i(t_i∈S_i)用来表示该段视频的空间信息，则从所有视频分段中随机选出的视频帧组成了卷积神经网络的输入集t＝{t₁,t₂,...,t_T+1}；

步骤S802：将自适应分段采样的得到的视频帧输入到同一个卷积神经网络提取空间特征，用F(t_i,W)代表用第i帧作为输入得到的行为分类结果，用S₂代表输入集t平均分类结果，并将其作为利用视频空间信息分类得到的最后结果，则S₂可表示为：

7.根据权利要求6所述的一种基于时空信息融合的视频人体行为识别方法，其特征在于，步骤S10具体包括以下步骤：

S＝(S₁+S₂)/2。