CN106709419B

CN106709419B - 一种基于显著轨迹空间信息的视频人体行为识别方法

Info

Publication number: CN106709419B
Application number: CN201611016302.3A
Authority: CN
Inventors: 衣杨; 胡攀; 邓小康; 张念旭; 谢韬; 郑镇贤
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2020-06-30
Anticipated expiration: 2036-11-18
Also published as: CN106709419A

Abstract

本发明提供一种基于显著轨迹空间信息的视频人体行为识别方法，该方法重新定义了视频中轨迹的显著性，有效地剔除视频中背景和人体非运动部位的轨迹，留下了前景中运动显著性高的轨迹，这些轨迹误差更小，表达能力也更强；另外该方法将不同人体部位的运动部件以及交互物体区分开来，并通过多核学习来利用他们之间的空间和语义关系，提高了算法的识别效果。

Description

一种基于显著轨迹空间信息的视频人体行为识别方法

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种基于显著轨迹空间信息的视频人体行为识别方法。

背景技术

随着社会的进步，日常生活中产生的视频信息呈现了爆炸式增长。人们迫切地需要对这些视频内容进行分析，以获取有价值的信息。基于视觉的人体行为识别是视频分析领域的一个重点也是难点，被广泛地应用于智能监控、视频检索以及动画合成等方面。近年来，许多学者对此进行了深入的研究，研究数据集已经从单一监控场景下拍摄的录制视频转移到复杂自然场景下拍摄的生活类视频。由于视频中往往具有阴影和复杂的运动背景，以及会受到摄像头抖动等因素的影响，人体行为识别还具有较大的挑战性。

目前对于视频中的人体行为识别主要采用基于视觉词袋的框架(Bag of VisualWords)，该框架主要包括以下几个步骤：(1)特征提取，从视频中提取富有表达能力的底层特征，目前最常用的特征是时空兴趣点；(2)特征转化，利用视频中的人体姿势，与人交互的物体等中高层视觉线索，将特征提取过程中提取到的底层特征转化为中层或者高层的特征；(3)词典产生，利用产生的词典可以更好的描述局部特征空间；(4)特征编码，利用词典将前面提取到的特征编码成整个视频的表示。最后将视频的表示向量用分类器(如SVM)进行学习分类。

目前，局部特征，如时空兴趣点或者密集轨迹，具有丰富的时空信息，取得了较好的识别效果。这些局部特征通常在整个视频中通过密集采样得到，并且所有得到的轨迹在后续的过程中被视为同等重要。然而，密集轨迹忽略了视频中人体运动区域的检测，在复杂的场景中很容易提取到多余且不准确的轨迹。另外，对于提取到的底层特征，如何有效地利用一直是人体行为识别的难点和热点。因此，要想提高人体行为识别的准确率，就要从研究方法的两大方面出发，即从视频中提取出具有强表现力的特征以及设计出有效的利用这些特征的行为分类算法。

发明内容

本发明提供一种提高识别效果的基于显著轨迹空间信息的视频人体行为识别方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于显著轨迹空间信息的视频人体行为识别方法，包括以下步骤：

S1：提取视频帧，构建图像金字塔，然后对视频进行超像素分割，在图像金字塔上计算光流，然后利用帧的颜色，空间分布，以及光流的对比性来计算动态和静态显著性，将他们融合为总的显著性；

S2：将轨迹显著性定义为轨迹每点在组合显著性图像中显著性的均值；然后计算自适应阈值，当轨迹显著性小于阈值时，则认为是背景轨迹或者非运动区域的轨迹而予以删除，从而有效提取显著轨迹；

S3：首先对视频的所有显著轨迹进行随机采样，然后对采样得到轨迹利用其空间信息进行AP聚类，得到不定数量的聚类中心，接着用k-means将聚类中心调整为固定的数目C，最后将视频所有的轨迹分类到距离最近的聚类中心去，从而得到了视频的轨迹分类；

S4：对一个视频C个类的轨迹进行编码，得到了C个向量，该向量就是视频的表示。

进一步地，所述步骤S1的过程如下：

S11：对视频帧进行金字塔构建和超像素分割，对于图像金字塔的某一层而言，得到K个超像素；

S12：计算超像素基于颜色对比的显著性：

其中，K是超像素的数量，c_i和c_j表示两个超像素的颜色值，p_i和p_j是超像素中心位置的坐标，w_ij ^(p)是对颜色对比值进行校正的系数，σ_p用来控制颜色对比显著性的范围，设置为0.25；

S13：计算超像素基于空间分布对比的显著性：

其中，w_ij ^(c)是对空间位置对比值的校正系数，σ_c用来控制空间对比显著性的范围，本发明取20，

是颜色c_i的平均权重位置；

S14：基于颜色对比和基于空间分布对比的显著性融合得到超像素的静态显著性：

其中

和

是基于颜色对比显著性U_i和基于空间分布对比显著性D_i归一化到了[0,1]后的值；

S15：静态显著性能够有效地剔除视频中帧的背景区域，本发明利用插值得到静态的显著性：

其中w_ij是高斯权重，x_fi表示帧f上的第i个像素，d_i和dj是像素i和j的颜色值，q_i和q_j是像素i和j的位置，β和α均设置为30；

S16：在未做超像素分割的金字塔图像上计算光流，然后利用某一像素点所在帧的平均光流值与该点光流值得对比，即卡方距离，得到动态显著性：

C_d(x_fi)＝χ²(h(x_fi),h(A(x_fi)))，

其中，h(x_fi)是像素点x_fi处光流直方图的所有bin组成的向量，h(A(x_fi))是全部h(x_fi)的bin的平均值组成的向量；

S17：结合动静态显著性，得到某一个像素点的显著性：

其中,

和

是经过归一化后像素的显著性，a和b用来控制两种显著性的权重，均设置为1；

进一步地，所述步骤S2的过程如下：

S21：计算每一条轨迹的显著性：

其中，L是轨迹的长度为15，

是像素所在帧上归一化后的显著性；

S22：对具有较低显著性的轨迹进行过滤：

其中μ是过滤参数设置为1.4，E(·)表示图像f的显著性的平均值。

进一步地，所述步骤S3的过程如下：

S31：首先对一个视频的所有轨迹进行随机采样；

S32：利用空间信息来表示轨迹，然后通过余弦相似度来计算采样得到的轨迹的相似性矩阵；

S33：将相似性矩阵作为第一层AP聚类的输入；

S34：在第二层用k-means来对第一层聚类的结果进行调整，得到固定数目的聚类中心；

S35：对于一个视频所有的轨迹，将他们量化到最近的聚类中心去，从而将视频的轨迹依照轨迹之间的空间关系划分为固定数目的类。

进一步地，所述步骤S4的过程如下：

S41：通过k-mean算法对训练集中所有轨迹的整体描述符进行聚类，构造视觉词典；

S42：采用硬量化的方法，分别将一个视频的每个类的所有轨迹用量化到视觉词典中最近的词汇上面去；

S43：利用多核学习方法进行学习分类就得到视频的表示。

与现有技术相比，本发明技术方案的有益效果是：

本发明方法对视频中轨迹的显著性的进行重新定义，能够有效的剔除视频中背景的轨迹和人体非运动部位的轨迹，通过筛选留下的是前景中运动显著性高的轨迹，具有丰富的，更有表达能力的，且误差更小的轨迹；将不同人体部位的运动部件，以及交互物体区分开来，通过多核学习来利用他们之间的空间和语义关系，提高了算法的识别效果。

附图说明

图1为本发明基于显著轨迹空间信息的视频人体行为识别方法流程示意图；

图2为本发明视频帧的显著轨迹示意图；

图3为本发明基于空间信息的聚类结果的示意图；

图4为本发明基于显著轨迹空间信息分组的视频表示直方图构建示意图；

图5为本发明在KTH和UCF Sports数据集上面的性能示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，本发明先对视频进行了预处理，然后通过计算显著性对视频的密集轨迹特征进行过滤得到显著轨迹，接着利用轨迹的空间信息对视频的显著轨迹进行两层的聚类，聚类完成后利用视觉词典得到视频的表示，最后使用多核学习的方法进行学习分类。

如图2所示，包括视频的原始帧，帧的动静态结合的显著性，以及原始帧和基于动静态结合的显著性过滤得到的显著轨迹。本发明-设定轨迹的长度为15，对于显著性小于轨迹所在的15帧的平均显著性1.4倍的轨迹，对他们进行了过滤。

本发明基于显著轨迹空间信息的视频人体行为识别方法的具体步骤：

1.首先对视频进行预处理。具体步骤如下：使用opencv读取视频序列中的每一帧图像，将图像的大小归一化为360×240，并构建8层的时空金字塔；然后对图像金字塔的每一层进行超像素分割，对于第6,7,8层，对应的超像素的个数分别为：150,100,100，对于第1层到第5层，对应的超像素的个数为：250×1.25×(8-i)。

2.然后计算视频帧的静态显著性和动态显著性，并同时提取密集轨迹，之后，具体包括：

a.并且对视频帧中的时空兴趣点密集采样作为轨迹起始点；

b.将第j帧上每个特征点p_j＝(x_j，y_j)，通过中值滤波后的密集光流场跟踪至第j+1帧；

c.采用颜色对比和空间分布对比计算单帧的静态显著性；计算像素点的光流直方图和帧的光流直方图平均值的卡方距离，得到单帧的动态显著性；通过自适应融合的方式计算单帧的组合显著性；

3.将轨迹显著性定义为轨迹每点在组合显著性图像中显著性的均值；计算轨迹的静态显著性和动态显著性，及其组合显著性，当轨迹显著性小于阈值时，则认为是背景轨迹而予以删除，从而有效提取前景运动轨迹。从图2可以看出，显著轨迹大部分集中于前景运动区域：

a：给定一个轨迹，取轨迹在各帧的像素点的显著值得均值作为轨迹的显著性。

b：阈值的确定过程为：计算每一帧的平均显著性，取各帧平均显著性的平均值的μ倍作为自适应阈值，并根据轨迹显著性筛选轨迹。本发明将过滤阈值设置为1.4。通过选择显著性较高的轨迹，我们可以获得我们的显著轨迹。

c.在得到显著轨迹后，我们采用HOG，HOF，MBH，以及轨迹形状描述符对轨迹进行描述，他们分别为96维,108维度，192维和30维。

4.在利用显著轨迹的空间信息的进行特征变化，得到中层的特征。改步骤的流程图，如果图3左边所示。我们的采用一个两层聚类的模型对轨迹进行分组，分组的效果如图3右边所示：

a：首先对一个视频的所有轨迹进行随机采样，采样的数目设置为5000；

b：利用空间信息来表示轨迹，然后通过余弦相似度来计算采样得到的轨迹的相似性矩阵。我们采用40维的轨迹空间信息，包括轨迹的形状(30维)，轨迹的平均位置(3维)，轨迹的金字塔层数(1维)，轨迹的位置的方差(2维)，轨迹第一个点的位置(3维)，总的偏移(1维)。

c：将相似性矩阵作为第一层AP聚类的输入，得到大约30个左右的聚类中心；

d：在第二层用k-means来对第一层聚类的结果进行调整，得到固定数目的聚类中心，本发明固定为3。

e：对于一个视频所有的轨迹，本发明将他们量化到最近的聚类中心去，从而将视频的轨迹依照估计之间的空间关系分为了3个类。

5.在多核学习的学习分类阶段，我们利用HOG，HOF，MBH三种描述符的信息，嵌入不同的核函数，对视频进行学习分类。

a：通过k-mean算法对训练集中所有的轨迹的整体描述符HOF，HOG，MBH进行聚类，构造3个大小为4000的视觉词典；

b：采用硬量化的方法，分别将一个视频的每个类的所有轨迹用视觉词典进行编码，从而得到9个4000维的向量；

c：利用多核学习进行学习分类，其中核函数为：

其中，Z_m和Z_q代表两个视频的直方图向量集合，t用来区分特征种类，n用来区分轨迹组，其中x表示BoF描述符向量，η是线性核函数的组合系数。

本发明基于显著轨迹空间信息的视频人体行为识别方法的识别效果实验：

实验数据集：包括KTH数据集和UCF体育运动数据集；

2、实验环境：Matlab 2010a平台和C++11；

3、实验工具集：密集轨迹开源代码、opencv开源库，VLFeat开源库和Liblinear工具箱；

4、实验方法：对于KTH数据集，本实验依据25个表演者将其分为25组，然后使用“留一法”(leave-one-out,LOO)交叉验证，每一轮将一组作为测试数据，其他组作为训练数据。对于UCF sports数据集，我们将视频翻转得到，用于训练，同样，我们采用留一法。

5、评价标准：平均准确率(average accuracy,aa)

6、实验结果：如图5所示，本发明在过滤参数设置为1.4的时候在KTH数据集上达到了98％的识别效率，在UCF sports数据集上面达到了92.10％的识别效率。实验结果表明，本发明识别方法取得较好的识别效果，与现有的方法比较，具有显著的进步。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。