CN106874838B

CN106874838B - 融合互补特征的视觉人体行为识别方法

Info

Publication number: CN106874838B
Application number: CN201611257407.8A
Authority: CN
Inventors: 胡卫明; 杨双; 原春锋
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2020-04-07
Anticipated expiration: 2036-12-30
Also published as: CN106874838A

Abstract

本发明涉及一种融合互补特征的视觉人体行为识别方法。其中，该方法包括：构建视频中人体行为的表观特性的表达和运动特性的表达；确定时空表观特征和运动特征的时空结构信息；将时空表观特征和运动特征映射到低维子空间中；利用随机弱线性分类器对低维特征进行弱分类，完成对节点的分割，产生多棵随机树；计算随机树上叶节点中各类别训练样本的时空结构信息与统计分布的概率值；将测试视频的时空结构信息与叶节点中的训练样本的时空结构信息进行匹配，并以训练样本所属类别的统计分布的概率值作为测试视频属于该类的得分，判定视频中所述人体行为的所属类别。通过该技术方案，解决了如何对视频中人体行为进行高效、鲁棒的识别的技术问题。

Description

融合互补特征的视觉人体行为识别方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种融合互补特征的视觉人体行为识别方法。

背景技术

视觉人体行为分析是计算机视觉领域的一个重要的、同时又极具挑战性的研究问题。它的主要目的是对一组包含各种人体行为的图像序列进行描述与分析，通过相关算法识别出视频中所包含的人体行为。目前相关的行为分析技术在体育运动分析、互动型游戏、智能监控等多种场合都得到了广泛应用。

视觉人体行为分析任务存在许多难点问题，如行为方式的多样性、拍摄视角的不固定、行为背景中的移动信息、光照和尺度的变化等因素。通常，不同种类的特征侧重于表达视频中人体行为的不同侧面的特性，对这些信息的合理利用与有效融合，将有助于完成对视频中的人体行为的识别任务。

目前的多数方法已经证明了综合利用多种不同特征来进行人体行为识别的有效性，但当前的多数方法的一个不足是，只关注于综合利用不同种类的特征，而忽略了不同种类特征之间的互补性与冗余性等特点。而在视觉人体行为分析的任务中，通常要处理的视频多达上百上千个，当利用许多种冗余性较高的不同种类特征时，一方面并不能保证识别准确率的提高，同时也浪费了大量的计算资源。

另一方面，当前的多数融合不同特征的方法都是采用串接形式融合，以串接后的高维特征来作为融合后的新特征，这种方法在视频数目较多和特征种类较多时会带来很大的计算负担而降低运算效率，同时，在串接融合时，不同种类的特征在串接中位于不同的前后位置也会使识别准确率有较大的波动，无法保证识别效果的鲁棒性。

发明内容

为了解决现有技术中的上述问题，即为了解决如何对视频中人体行为进行高效、鲁棒的识别的技术问题，提供一种融合互补特征的视觉人体行为识别方法。

为了实现上述目的，提供了以下技术方案：

一种融合互补特征的视觉人体行为识别方法，该方法可以包括：

步骤1：提取视频中基于稀疏时空兴趣点的时空表观特征，并构建视频中人体行为的表观特性的表达；其中，视频包括测试视频和训练视频，训练视频包括训练样本集；

步骤2：提取视频中基于密集采样的运动特征，并构建视频中人体行为的运动特性的表达；

步骤3：确定时空表观特征和运动特征的时空结构信息；

步骤4：构建基于随机森林的分类器，并执行以下步骤：

利用基于随机选择的特征子空间投影，将时空表观特征和运动特征映射到随机选择的低维子空间中，得到低维特征；

利用基于特征相似性的随机弱线性分类器对低维特征进行弱分类，对节点进行分割，直至产生叶节点；

步骤5：重复执行产生叶节点的步骤，产生多棵随机树；

步骤6：计算每棵随机树上叶节点中各类别训练样本的时空结构信息与统计分布的概率值；

步骤7：将测试视频的时空结构信息与叶节点中的训练样本的时空结构信息进行匹配，并以训练样本所属类别的统计分布的概率值作为测试视频属于该类的得分，结合最大多数投票法则判定测试视频中人体行为的所属类别。

优选地，提取视频中基于稀疏时空兴趣点的时空表观特征，并构建视频中人体行为的表观特性的表达，具体可以包括：

针对视频中的每一帧，在其二维空间上，使用二维高斯滤波器进行滤波，并在视频中的时间维上使用一维Gabor滤波器进行滤波，得到每个像素点的响应值；

将每一帧中响应值最大的像素点确定为感兴趣的像素点；

以感兴趣的像素点为中心，构建三维邻域；

对各三维邻域进行划分，得到邻域块，并计算每一邻域块内像素点的梯度方向的直方图；

将各直方图相串接并进行归一化，形成各感兴趣像素点的局部区域的描述子；

通过k均值算法对所有局部描述子进行聚类，形成表观特性的团簇，并构建表观特性的视觉词典；

利用最近邻原则，将局部区域的描述子分配至表观特性的团簇中；

对视频中的所有局部区域所属团簇的频次进行统计，形成视频中人体行为的表观特性的表达。

优选地，提取视频中基于密集采样的运动特征，并构建视频中人体行为的运动特性的表达，具体可以包括：

针对视频中的每一帧，进行像素点采样，并结合密集光流场和中值滤波，对采集的像素点进行跟踪，得到当前像素点在下一帧中的位置；

将各位置进行串联，形成轨迹集合；

检测每一帧中是否存在不包含跟踪点且与采样间隔相关的局部区域，若是，则将局部区域的中心点确定为初始点进行跟踪并加入轨迹集合；

以每一轨迹上的位置为中心，计算中心周围邻域中的水平方向与竖直方向的光流差并统计形成直方图，作为对局部区域的运动特性描述子；

对所有局部区域的运动特性描述子进行聚类，构建运动特性的视觉词典；

根据最近邻原则，将每一局部区域的运动特性描述子划分到距离最近的聚类团簇中，并统计视频中所有团簇出现的频次，构建直方图向量，作为对视频中人体行为的运动特性的表达。

优选地，确定时空表观特征和运动特征的时空结构信息，具体可以包括：

确定视频的中心位置；

计算各个具有时空表观特征和运动特征的像素点位置与视频中心位置之间的偏移量，从而确定时空表观特征和运动特征的时空结构信息。

优选地，视频包括含有人体行为的中心位置标注的视频和不含行为中心位置标注的视频；

确定视频的中心位置具体可以包括：

针对含有人体行为的中心位置标注的视频，计算所有帧中的中心位置的加权平均，从而确定人体行为在视频的中心位置；

针对不含行为中心位置标注的视频，计算视频中所有具有时空表观特征和运动特征的像素点位置的均值，从而确定人体行为在视频的中心位置。

优选地，分割时利用基于随机选择的特征子空间投影，将时空表观特征和运动特征映射到随机选择的低维子空间中，得到低维特征，具体可以包括：

将时空表观特征和运动特征进行串接，形成高维特征；

利用基于随机选择的特征子空间投影，采用随机采样的方法，对高维特征进行采样，形成低维子空间的投影，从而得到低维特征。

优选地，利用基于特征相似性的随机弱线性分类器对低维特征进行弱分类，对节点进行分割，直至产生叶节点，具体可以包括：

采用重复多次生成与低维特征维度相同的随机弱线性二类分类器来对低维特征进行弱分类，并通过衡量分类后的两个类别的熵的大小来选出最优的弱线性分类器，对各节点进行分割；

在分割时，从训练样本集中有放回地随机采样得到训练样本子集，作为根节点；

若当前节点中的样本数大于一定阈值，且当前树的深度小于最大深度阈值，则对节点进行分割，产生子节点；

若当前节点中的样本数小于节点最小样本数的阈值，或当前树的深度达到最大深度阈值，则不再分割，且确定当前节点构成叶节点。

优选地，对节点进行分割，产生子节点，具体可以包括：

确定系数向量；

利用每一系数向量对当前节点中所有样本特征投影后的低维特征进行划分，根据系数向量与低维特征点乘之积的值将节点中的所有样本划分为第一子集和第二子集；

确定随机数；

当随机数为-1时，将第一子集和第二子集的熵的加权确定为分割质量；

当随机数等于类别数目时，随机选择侧重于特征本身相似性的局部准则或侧重于特征间时空结构相似性的局部准则，来确定分割质量；

将分割质量值最大的分割确定为对节点的最优分割，以产生子节点。

优选地，计算随机树上叶节点中各类别训练样本的时空结构信息与统计分布的概率值，具体可以包括：

根据下式计算叶节点中各类别训练样本的统计分布的概率值：

其中，p_c表示统计分布的概率值；R表示叶节点；c表示类别，c＝1,...,C，C取正整数；N_R，c表示在当前叶节点中属于第c类的样本总数；N_R表示当前叶节点中的样本总数；N_c表示训练样本集中属于第c类的样本数目；

计算叶节点中各类别训练样本的时空结构信息。

优选地，将测试视频的时空结构信息与叶节点中的训练样本的时空结构信息进行匹配，并以训练样本所属类别的统计分布的概率值作为测试视频属于该类的得分，结合最大多数投票法则判定视频中人体行为的所属类别，具体可以包括：

将测试视频的时空结构信息与叶节点中的训练样本的时空结构信息进行匹配，将测试视频中时空结构向量与叶节点中的训练样本的时空结构向量相差小于第二阈值的测试视频确定为具有投票资格的测试视频；其中，时空结构信息包括时空结构向量；

针对具有投票资格的测试视频，将叶节点中每一类训练样本的统计分布的概率值确定为测试视频属于该类的权重，并以训练样本所属类别的统计分布的概率值作为测试视频属于该类的得分；

对测试视频属于该类的投票结果进行统计，利用最大多数投票法则判定视频中人体行为的所属类别。

与现有技术相比，本发明可以具有以下有益效果：

本发明提供一种融合互补特征的视觉人体行为识别方法。其中，该方法包括：步骤1：提取视频中基于稀疏时空兴趣点的时空表观特征，并构建视频中人体行为的表观特性的表达；步骤2：提取视频中基于密集采样的运动特征，并构建视频中人体行为的运动特性的表达；步骤3：确定时空表观特征和运动特征的时空结构信息；步骤4：构建基于随机森林的分类器，包括以下步骤：利用基于随机选择的特征子空间投影，将时空表观特征和运动特征映射到随机选择的低维子空间中，得到低维特征；利用基于特征相似性的随机弱线性分类器对低维特征进行弱分类，对节点进行分割，直至产生叶节点；重复执行产生叶节点的步骤，产生多棵随机树；步骤5：计算随机森林中的每棵随机树上叶节点中各类别训练样本的时空结构信息与统计分布的概率值，并记录保存；步骤6：将测试视频的时空结构信息与叶节点中的训练样本的时空结构信息进行匹配，并以训练样本所属类别的统计分布的概率值作为测试视频属于该类的得分，结合最大多数投票法则判定视频中所述人体行为的所属类别。通过该技术方案，本发明融合了视频中的表观特性与运动特性，来形成对视频中人体行为的有效描述，并利用嵌入多重随机性的方法，结合特征的时空结构信息与样本的统计分布的概率值，来实现对这两种特性的有效融合，能够有效应对复杂环境下的视觉人体行为分析的问题，进而实现对视频中人体行为的高效与鲁棒的识别。

附图说明

图1是根据本发明实施例的融合互补特征的视觉人体行为识别方法的流程示意图。

图2是根据本发明实施例的不同特征点所代表的局部区域之间的时空结构信息示意图；

图3是根据本发明另一实施例的融合互补特征的视觉人体行为识别方法的流程示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明实施例的基本思想是分别从视频的表观特性与运动特性两个方面入手形成对视频中人体行为的互补性表达；利用特征的位置信息构建视频中人体行为的时空结构信息的表达；利用基于随机选择的特征子空间投影、基于特征相似性的随机弱线性分类器的嵌入和基于特征结构信息与类别统计分布的随机分布的投票来实现最终的人体行为类别的判断。

图1示例性地示出了融合互补特征的视觉人体行为识别方法的流程示意图。如图1所示，该方法可以包括：

S100：提取视频中基于稀疏时空兴趣点的时空表观特征，并构建视频中人体行为的表观特性的表达。

其中，视频包括测试视频和训练视频，训练视频包括训练样本集。

具体地，本步骤可以包括：

S101：针对视频中的每一帧，在其二维空间上，使用二维高斯滤波器进行滤波，并在视频中的时间维上使用一维Gabor滤波器进行滤波，得到每个像素点的响应值。

S102：将每一帧中响应值最大的像素点确定为感兴趣的像素点。

S103：以感兴趣的像素点为中心，构建三维邻域。

S104：对各三维邻域进行划分，得到邻域块，并计算每个邻域块内像素点的梯度方向的直方图。

其中，每一个邻域块是将每一个三维邻域进行划分而得到的小块。

S105：将各直方图相串接并进行归一化，形成各感兴趣像素点的局部区域的描述子。

其中，该局部区域的描述子描述了当前像素点的局部区域的表观特性。

S106：通过k均值算法对所有局部描述子进行聚类，形成表观特性的团簇，并构建表观特性的视觉词典。

本步骤在实际应用中，对所有局部描述子(即局部区域的描述子)进行聚类之后，可以形成V_s个表观特性的团簇，然后构建大小为V_s的表观特性的视觉词典。其中，V_s取正整数。

S107：利用最近邻原则，将局部区域的描述子分配至表观特性的团簇中。

S108：对视频中的所有局部区域所属团簇的频次进行统计，形成视频中人体行为的表观特性的表达。

下面以一优选实施例来详细说明构建视频中人体行为的表观特性的表达的过程。

步骤1a：可以根据下式计算得到每个像素点的响应值：

R＝(I*g*h_ev)²+(I*g*h_od)²

其中，R表示像素点的响应值；g表示应用于视频帧上的二维高斯滤波器；I表示视频帧；h_ev与h_od分别定义为

和

t与τ分别为空间域时间尺度，w取值为4/τ。

步骤1b：以每个感兴趣的像素点为中心构建ΔX×ΔY×ΔT的三维邻域，将每一个邻域划分为N个小块，并计算每个小块内像素点的梯度方向的直方图，并将所有小块中的直方图相串接并进行归一化，形成当前感兴趣的像素点的局部区域的表观特性的描述。

步骤1c：通过k均值算法对所有局部描述子进行聚类，形成V_s个表观特性的团簇，构成大小为V_s的表观特性的视觉词典。

步骤1d：利用最近邻原则，将每个局部区域对应的描述子分配到相应的一个团簇w_s∈{1，...，V_s}中。

步骤1e：对视频中的所有局部区域所属团簇的频次进行统计形成维度为V_s的直方图，作为对视频中人体行为的表观特性的表达。

S110：提取视频中基于密集采样的运动特征，并构建视频中人体行为的运动特性的表达。

具体地，本步骤可以包括：

S111：针对视频中的每一帧，进行像素点采样，并结合密集光流场和中值滤波，对采集的像素点进行跟踪，得到当前像素点在下一帧中的位置。

S112：将各个位置进行串联，形成轨迹集合。

S113：检测每一帧中是否存在不包含跟踪点且与采样间隔相关的局部区域，若是，则将局部区域的中心点确定为初始点进行跟踪并加入轨迹集合。

其中，跟踪点为对采集的像素点进行跟踪的点。局部区域的长宽可以根据采样间隔来确定大小。

S114：以每一轨迹上的位置为中心，计算该中心周围邻域中的水平方向与竖直方向的光流差并统计形成直方图，作为对局部区域的运动特性描述子。

优选地，上述局部区域的运动特性描述子可以为基于光流的MBH特征。

S115：对所有局部区域的运动特性描述子进行聚类，构建运动特性的视觉词典。

S116：根据最近邻原则，将每个局部区域的运动特性描述子划分到距离最近的聚类团簇中，并统计视频中所有团簇出现的频次，构建直方图向量，作为对视频中人体行为的运动特性的表达。

下面以一优选实施例来详细说明构建视频中人体行为的运动特性的表达的过程。

步骤2a：在视频中的每一帧上，每隔ΔA个像素进行一次采样得到一个像素点P_t＝(x_t，y_t)，并通过密集光流场w＝(u_t，v_t)与中值滤波相结合对每个像素点进行跟踪，得到当前像素点在下一帧的位置：

其中，t表示为第t帧；x_t、y_t表示采样得到的像素点的坐标；P_t表示采样得到的像素点；w＝(u_t，v_t)表示密集光流场；u_t与v_t分别表示x与y方向的光流大小；P_t+1＝(x_t+1,y_t+1)表示当前帧像素点(x_t，y_t)的预测坐标；M为中值滤波核矩阵；

表示对(x_t，y_t)取整后的位置。

优选地，上述ΔA可以取5。

步骤2b：将所有视频中位置串联后形成轨迹集合(P_t，P_t+1，…)。

本步骤可以设置阈值，以过滤掉轨迹过短的干扰运动信息。

为消除跟踪过程中因误差累加而导致跟踪点越来越偏移真实位置，可以限制每条轨迹的最大长度为L＝15。当某条轨迹超过最大长度后，将其从现有轨迹集合中移除。

步骤2c：在进行上述跟踪步骤的同时，对每一帧进行检测，若某一帧中存在一个ΔA×ΔA的局部区域不含任何跟踪点，则将该局部区域的中心点设为初始点进行跟踪并加入轨迹集合。

步骤2d：以每条轨迹上的每个跟踪的位置为中心，计算其周围邻域中的水平方向与竖直方向的光流差，并统计形成直方图，作为对当前局部区域的运动特性描述子。

其中，上述邻域为三维邻域。

优选地，上述局部区域的运动特性描述子可以为基于光流的MBH特征。有关MBH(Motion Boundary Histograms)特征的内容可以参见《Human Detection using orientedHistograms of flow and appearance》，2006年，在此以引用的方式结合于此，在此不再赘述。

其中，上述位置为对当前帧在进行像素点采用并进行跟踪而得到的当前像素点在下一帧中的位置(或位置点)。

步骤2e：对所有局部区域的运动特性描述子进行k均值聚类，形成由V_t个单词构成的运动特性的视觉词典。

步骤2f：根据最近邻原则，将每个局部区域的运动特性描述子划分到距离最近的聚类团簇中去。

本步骤为每一个局部描述子分配聚类的团簇索引。

进一步优选地，在实际应用中，在局部区域的运动特性描述子为MBH特征的情况下，本步骤可以包括：根据最近邻原则，计算各个局部区域的MBH特征到视觉词典中各个单词的距离，并对MBH特征赋予距离最近的那个单词标号。

步骤2g：统计视频中所有聚类团簇出现的频次，构建维度为V_t的直方图向量，作为对视频中人体行为的运动特性的表达。

进一步优选地，在实际应用中，在局部区域的运动特性描述子为MBH特征的情况下，本步骤可以包括：统计各单词在视频中的出现频次，构建直方图向量，作为对视频中人体行为的表观特性的表达。

上述步骤S100形成的视频中人体行为的表观特性的表达和上述步骤S110形成的视频中人体行为的运动特性的表达联合表达了视频中人体行为的两种互补的特性，从而使本发明实施例提供的方法具有只利用较少的特征种类而取得较好表达的效果。

S120：确定时空表观特征和运动特征的时空结构信息。

现有识别方法是只利用底层特征本身的特性，而忽略了特征与特征间的时空结构关系，也因此无法应对复杂视频的情况。为此，本发明实施例提取时空表观特征和运动特征的时空结构信息以用于后续的识别。

具体地，本步骤可以包括：

S121：确定视频的中心位置。

S1211：针对含有人体行为的中心位置标注的视频，计算所有帧中的中心位置的加权平均，从而确定人体行为在视频的中心位置。

S1212：针对不含行为中心位置标注的视频，计算视频中所有具有时空表观特征和运动特征的像素点位置的均值，从而确定人体行为在视频的中心位置。

其中，不含行为中心位置标注的视频只有视频本身信息，而没有其他标注信息。

S122：计算各个具有时空表观特征和运动特征的像素点位置与视频中心位置之间的偏移量，从而确定时空表观特征和运动特征的时空结构信息。

下面以一优选实施例来详细说明记录时空表观特征和运动特征的时空结构信息的过程。

步骤3a1：针对含有人体行为的中心位置标注的视频，根据下式计算所有帧中的中心位置的加权平均，从而确定人体行为在视频的中心位置：

u_t＝mid(T₀,T₁,T₂,...,T_b)

其中，x_min,t、x_max,t、y_min,t、y_max,t表示第t帧中标注的视频人体行为的中心位置，t取正整数；u＝(u_x，u_y，u_t)表示人体行为在视频的中心位置，u_x、u_y、u_t表示人体行为在视频的中心位置的坐标；|T_b|表示总计带有中心位置标注的视频帧的数目，其中T_i(i＝1,2,…,b)表示第i个带有标注的视频帧的索引号；mid(·)表示取中值的操作；b取正整数。

步骤3a2：针对不含行为中心位置标注的视频，根据下式计算视频中所有具有时空表观特征和运动特征的像素点位置的均值，从而确定人体行为在视频的中心位置：

其中，N表示所有具有时空表观特征和运动特征的像素点位置(特征点)的个数；(x_i，y_i，t_i)表示第i个特征点的位置(i＝1,…,N)。

步骤3b：计算各个特征点与人体行为在视频的中心位置之间的相对偏移量o_i＝(x_i-u_x y_i-u_y t_i-u_t)，并以o_i来体现各特征点所代表的区域的时空结构信息。

图2示例性地示出了不同特征点所代表的局部区域之间的时空结构信息示意图。

S130：构建基于随机森林的分类器，并执行以下步骤：利用基于随机选择的特征子空间投影，将时空表观特征和运动特征映射到随机选择的低维子空间中，得到低维特征；利用基于特征相似性的随机弱线性分类器对所述低维特征进行弱分类，对节点进行分割，直至产生叶节点。

本步骤对时空表观特征进行降维，然后，利用基于特征相似性的随机弱线性分类器对所述低维特征进行弱分类，完成对各个节点的分割，直至满足一定条件产生叶节点为止。

具体地，利用基于随机选择的特征子空间投影，将时空表观特征和运动特征映射到随机选择的低维子空间中，得到低维特征的步骤可以包括：

S131：将时空表观特征和运动特征进行串接，形成高维特征。

S132：利用基于随机选择的特征子空间投影，采用随机采样的方法，对高维特征进行采样，形成低维子空间的投影，从而得到低维特征。

现有融合不同特征的识别方法都是采用串接形式融合，以串接后的高维特征作为融合后的新特征，这种方法在视频数目较多和特征种类较多时会带来很大的计算负担而降低运算效率，同时，在串接融合时，不同种类的特征在串接中位于不同的前后位置也会使识别准确率有较大的波动，无法保证识别效果的鲁棒性。考虑到上述问题，本发明实施例通过基于随机选择的特征子空间投影，采用随机采样的方法，随机选择高维特征中预定数目的不同维度，形成低维子空间的投影，从而将高维特征映射到随机选择的低维子空间中，进而可以保证识别效果的鲁棒性。

下面以一优选实施例来详细说明得到低维特征的过程。

步骤4c：对节点中的视频的表观特征与运动特征进行串接整合，形成高维的新特征，其维度为

其中，j取正整数。

步骤4d：从序列1,2…

中随机抽样，采样D<∑_jd_j个维度，记为d(1),…,d(D)，其中，d(i)∈{1，...，Σ_jd_j}，i＝1,…,D，D表示维数。

步骤4e：选择高维特征中对应于d(1),…,d(D)的D个维度作为新的特征f’，即低维子空间,从而得到低维特征。

利用基于特征相似性的随机弱线性分类器对低维特征进行弱分类，对节点进行分割，直至产生叶节点的步骤具体可以包括：

S133：采用重复多次生成与低维特征维度相同维度的弱线性二类分类器来对投影后的低维特征进行弱分类，并通过衡量分类后的两个类别的熵的大小来选出最优的弱线性分类器，对各节点进行分割。S134：在分割时，从训练样本集中有放回地随机采样得到训练样本子集，作为根节点。

S135：若当前节点中的样本数大于第一阈值，且当前树的深度小于最大深度阈值时，则对节点进行分割，产生子节点。

具体地，步骤S135可以通过步骤S1351至步骤S1356来实现。

S1351：确定系数向量。

S1352：利用每个系数向量对当前节点中所有样本特征投影后的低维特征进行划分，根据系数向量与低维特征点乘之积的值将节点中的所有样本划分为第一子集和第二子集。

S1353：确定随机数。

S1354：当随机数为-1时，将第一子集和第二子集的熵的加权确定为分割质量。

S1355：当随机数等于类别数目时，随机选择侧重于特征本身相似性的局部准则或侧重于特征间时空结构相似性的局部准则，来确定分割质量。

S1356：将分割质量值最大的分割确定为对节点的最优分割，以产生子节点。

S136：若当前节点中的样本数小于节点最小样本数的阈值，或当前树的深度达到最大深度阈值时，则不再分割，且确定当前节点构成叶节点。

下面以一优选实施例来详细说明利用基于特征相似性的随机弱线性分类器对投影后的特征进行弱分类，完成对节点的分割，直至产生叶节点的过程。

该过程具体可以包括：

步骤5a：采用重复多次生成与所述低维特征维度相同维度的弱线性二类分类器来对低维特征进行弱分类，并通过衡量分类后的两个类别的熵的大小来选出最优的弱线性分类器，完成对各个节点的分割。

步骤5b：在分割时，从训练样本集中有放回地随机采样得到训练样本子集，作为根节点。

步骤5c：产生S个维度为D、取值位于[0,1]之间的系数向量

步骤5d：利用每个

对当前节点中所有样本特征投影后的低维特征f′进行划分，根据

的值将节点中的所有样本划分为两个子集A和B。

步骤5e：当q＝-1时，根据下式计算两个子集A，B的熵的加权作为当前

对整体划分的分割质量

其中，q表示随机数，q∈{-1，1，2，...，C}；c＝1,…,C，C表示样本类别数；N_A与N_B分别表示在子集A和B中的样本数，N_A，c与N_B，c表示子集A和B中属于第c类的样本数；p_A，c和p_B，c分别表示在集合A和B中第c类样本所占的比重，在此我们以此来近似第c类样本出现的概率；E_A和E_B分别表示集合A和集合B中的熵。

步骤5f：当q＝c时，随机选择下式计算当前划分

对第c类的分割质量：

侧重于特征本身相似性的局部准则为：

侧重于特征间时空结构相似性的局部准则为：

其中，

和

分别表示在集合A和B中样本的平均位置；E_A，c和E_B，c分别表示在集合A和B中第c类样本的时空结构相似性度量，这里分别用两个集合中的特征点到各自的中心位置点的欧氏距离来作为度量基准。

步骤5g：选择

最大的分割作为对当前节点的最优分割，产生子集A和B，以进行下一步分割或产生叶节点。

步骤5h：若当前节点中的样本数大于第一阈值，且当前树的深度小于最大深度阈值，则对该节点进行最优分割，产生子节点。

步骤5i：若当前节点中的样本数小于节点最小样本数的阈值，或当前树的深度达到最大深度值，则不再分割，且确定当前节点构成叶节点。

S140：重复执行产生叶节点的步骤，产生多棵随机树。

本步骤重复执行产生叶节点的步骤，直至产生叶节点，并进而产生多棵随机树。

S150：计算随机树上叶节点中各类别训练样本的时空结构信息与统计分布的概率值，并记录保存。

这里，存在两种特征，即时空表观特征和运动特征。每种特征有N_j(j∈{1，2......J}）个样本。每种特征得到两类信息(f^(j),o^(j))。其中，f^(j)表示表观特性描述或运动特性描述的描述子；o^(j)表示特征的时空结构信息。J表示特征种类总数。

本步骤将计算得到的随机树上叶节点中各类别训练样本的时空结构信息与统计分布的概率值进行记录并保存，以应用于后续步骤。

具体地，本步骤可以包括：

步骤6a：根据下式计算叶节点中各类别训练样本的统计分布的概率值：

其中，p_c表示统计分布的概率值；R表示叶节点；c表示类别，c＝1,...,C，C取正整数；N_R，c表示在当前叶节点中属于第c类的时空表观特征与运动特征样本总数；N_R表示当前叶节点中的时空表观特征与运动特征样本总数；N_c表示训练样本集中属于第c类的样本数目。

步骤6b：计算叶节点中各类别训练样本的时空结构信息。

具体地，本步骤可以通过以下方式实现：

步骤1：确定训练样本的中心位置；

步骤2：计算各个具有时空表观特征和所述运动特征的像素点位置与训练样本中心位置之间的偏移量，从而确定训练样本的时空结构信息。

S160：将测试视频的时空结构信息与叶节点中的训练样本的时空结构信息进行匹配，并以训练样本所属类别的统计分布的概率值作为测试视频属于该类的得分，结合最大多数投票法则判定视频中人体行为的所属类别。

本步骤利用样本的时空结构信息作为是否具有投票权的衡量，同时利用不同类别样本的分布作为投票的权值，达到对特征不同侧面的信息的综合利用，实现最终的人体行为识别。

具体地，本步骤可以包括：

S161：将测试视频的时空结构信息与叶节点中的训练样本的时空结构信息进行匹配，将测试视频中时空结构向量与叶节点中的训练样本的时空结构向量相差小于第二阈值的测试视频确定为具有投票资格的测试视频。

S162：针对具有投票资格的测试视频，将叶节点中每一类训练样本的统计分布的概率值确定为该测试视频属于该类的权重，并以训练样本所属类别的统计分布的概率值作为测试视频属于该类的得分。

S163：对测试视频属于该类的投票结果进行统计，利用最大多数投票法则判定视频中人体行为的所属类别。

本步骤通过非极大值抑制实现最终对测试视频中人体行为所属类别的判断和预测。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

举例来说，本发明实施例提出的融合互补特征的视觉人体行为识别方法还可以以下述方式来实施，如图3所示。该方法可以包括：输入视频；同时进行稀疏兴趣点提取和密集采样像素点；进行稀疏兴趣点提取之后依次进行时空表观特征提取、k均值聚类、表观特性视觉词典及视频表观特性描述步骤；在密集采样像素点步骤之后依次进行运动特征提取、k均值聚类、运动特性视觉词典及视频运动特性描述步骤；然后，视频表观特性描述步骤和视频运动特性描述步骤的结果依次进行基于随机选择的特征子空间投影、基于特征相似性的随机弱线性分类器、基于特征结构信息与类别统计分布的随机投票及非极大值抑制步骤，得到识别结果。其中，稀疏兴趣点提取、时空表观特征提取、k均值聚类、表观特性视觉词典、视频表观特性描述步骤、密集采样像素点、运动特征提取、k均值聚类、运动特性视觉词典及视频运动特性描述步骤为互补特性描述步骤；基于随机选择的特征子空间投影、基于特征相似性的随机弱线性分类器、基于特征结构信息与类别统计分布的随机投票及非极大值抑制步骤为嵌入多重随机性的融合步骤。

本发明实施例提出的方法可以使用硬件或软件亦或其结合来实现。举例来说，本发明的各个步骤可以用通用的计算装置来实现，例如，它们可以集中在单个的计算装置上，例如：个人计算机、服务器计算机、工控机、手持设备或便携式设备、平板型设备或者多处理器装置，也可以分布在多个计算装置所组成的网络上。其中，计算装置可以包括处理器、存储器、总线。处理器包括但不限于单核处理器(例如：2.83G赫兹中央处理器)、多核处理器、基于X86架构的处理器、CPLD/FPGA、DSP、ARM处理器、MIPS处理器等。存储器包括但不限于随机存储器(例如可以为4G字节内存)、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等。总线可以包括数据总线、地址总线和控制总线。软件部分包括但不限于使用诸如Matlab语言、C++、Java等来实现。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种融合互补特征的视觉人体行为识别方法，其特征在于，所述方法包括：

步骤1：提取视频中基于稀疏时空兴趣点的时空表观特征，并构建所述视频中所述人体行为的表观特性的表达；其中，所述视频包括测试视频和训练视频，所述训练视频包括训练样本集；

步骤2：提取所述视频中基于密集采样的运动特征，并构建所述视频中所述人体行为的运动特性的表达；

步骤3：确定所述时空表观特征和所述运动特征的时空结构信息；

步骤4：构建基于随机森林的分类器，并执行以下步骤：

利用基于随机选择的特征子空间投影，将所述时空表观特征和所述运动特征映射到随机选择的低维子空间中，得到低维特征；

利用基于特征相似性的随机弱线性分类器对所述低维特征进行弱分类，对节点进行分割，直至产生叶节点；

重复执行上述产生叶节点的步骤，产生多棵随机树；

步骤6：计算所述随机森林中每棵随机树上叶节点中各类别训练样本的所述时空结构信息与统计分布的概率值；

步骤7：将所述测试视频的所述时空结构信息与所述叶节点中的训练样本的时空结构信息进行匹配，并以所述训练样本所属类别的所述统计分布的概率值作为所述测试视频属于该类的得分，结合最大多数投票法则判定所述视频中所述人体行为的所属类别；

所述确定所述时空表观特征和所述运动特征的时空结构信息，具体包括：

确定所述视频的中心位置；

计算各个具有所述时空表观特征和所述运动特征的像素点位置与所述视频中心位置之间的偏移量，从而确定所述时空表观特征和所述运动特征的时空结构信息。

2.根据权利要求1所述的方法，其特征在于，所述提取视频中基于稀疏时空兴趣点的时空表观特征，并构建所述视频中所述人体行为的表观特性的表达，具体包括：

针对所述视频中的每一帧，在其二维空间上，使用二维高斯滤波器进行滤波，并在所述视频中的时间维上使用一维Gabor滤波器进行滤波，得到每个像素点的响应值；

将所述每一帧中响应值最大的像素点确定为感兴趣的像素点；

以所述感兴趣的像素点为中心，构建三维邻域；

对各所述三维邻域进行划分，得到邻域块，并计算每一所述邻域块内像素点的梯度方向的直方图；

将各所述直方图相串接并进行归一化，形成各所述感兴趣像素点的局部区域的描述子；

通过k均值算法对所有所述局部描述子进行聚类，形成表观特性的团簇，并构建所述表观特性的视觉词典；

利用最近邻原则，将所述局部区域的描述子分配至所述表观特性的团簇中；

对所述视频中的所有局部区域所属团簇的频次进行统计，形成所述视频中人体行为的表观特性的表达。

3.根据权利要求1所述的方法，其特征在于，所述提取所述视频中基于密集采样的运动特征，并构建所述视频中所述人体行为的运动特性的表达，具体包括：

针对所述视频中的每一帧，进行像素点采样，并结合密集光流场和中值滤波，对采集的像素点进行跟踪，得到当前像素点在下一帧中的位置；

将各所述位置进行串联，形成轨迹集合；

检测所述每一帧中是否存在不包含跟踪点且与采样间隔相关的局部区域，若是，则将所述局部区域的中心点确定为初始点进行跟踪并加入所述轨迹集合；

以每一轨迹上的位置为中心，计算所述中心周围邻域中的水平方向与竖直方向的光流差并统计形成直方图，作为对局部区域的运动特性描述子；

对所有所述局部区域的运动特性描述子进行聚类，构建运动特性的视觉词典；

根据最近邻原则，将每一所述局部区域的运动特性描述子划分到距离最近的聚类团簇中，并统计所述视频中所有团簇出现的频次，构建直方图向量，作为对所述视频中人体行为的运动特性的表达。

4.根据权利要求1所述的方法，所述视频包括含有人体行为的中心位置标注的视频和不含行为中心位置标注的视频；其特征在于：

所述确定所述视频的中心位置具体包括：

针对所述含有人体行为的中心位置标注的视频，计算所有帧中的所述中心位置的加权平均，从而确定所述人体行为在所述视频的所述中心位置；

针对所述不含行为中心位置标注的视频，计算所述视频中所有具有所述时空表观特征和所述运动特征的像素点位置的均值，从而确定所述人体行为在所述视频的所述中心位置；

“针对所述含有人体行为的中心位置标注的视频，计算所有帧中的所述中心位置的加权平均，从而确定所述人体行为在所述视频的所述中心位置”的步骤具体包括：

针对含有人体行为的中心位置标注的视频，根据下式计算所有帧中的中心位置的加权平均，从而确定人体行为在视频的中心位置：

u_t＝mid(T₀,T₁,T₂,...,T_b)

其中，x_min,t、x_max,t、y_min,t、y_max,t表示第t帧中标注的视频人体行为的中心位置，t取正整数；u＝(u_x，u_y，u_t)表示人体行为在视频的中心位置，u_x、u_y、u_t表示人体行为在视频的中心位置的坐标；|T_b|表示总计带有中心位置标注的视频帧的数目，T_i(i＝1,2,…,b)表示第i个带有标注的视频帧的索引号；mid(·)表示取中值的操作；b取正整数。

5.根据权利要求1所述的方法，其特征在于，所述利用基于随机选择的特征子空间投影，将所述时空表观特征和所述运动特征映射到随机选择的低维子空间中，得到低维特征，具体包括：

将所述时空表观特征和所述运动特征进行串接，形成高维特征；

利用基于随机选择的特征子空间投影，采用随机采样的方法，对所述高维特征进行采样，形成低维子空间的投影，从而得到所述低维特征。

6.根据权利要求1所述的方法，其特征在于，所述利用基于特征相似性的随机弱线性分类器对所述低维特征进行弱分类，对节点进行分割，直至产生叶节点，具体包括：

采用重复多次生成与所述低维特征维度相同维度的弱线性二类分类器来对低维特征进行弱分类，并通过衡量分类后的两个类别的熵的大小来选出最优的弱线性分类器，对各节点进行分割；

在分割时，从所述训练样本集中有放回地随机采样得到训练样本子集，作为根节点；

若当前节点中的样本数大于第一阈值，且当前树的深度小于最大深度阈值，则对所述节点进行分割，产生子节点；

若所述当前节点中的所述样本数小于节点最小样本数的阈值，或所述当前树的深度达到最大深度阈值，则不再分割，且确定所述当前节点构成叶节点。

7.根据权利要求6所述的方法，其特征在于，所述对所述节点进行分割，产生子节点具体包括：

确定系数向量；

利用每一所述系数向量对所述当前节点中所有样本特征投影后的低维特征进行划分，根据所述系数向量与所述低维特征点乘之积的值将所述节点中的所有样本划分为第一子集和第二子集；

确定随机数；

当所述随机数为-1时，将所述第一子集和所述第二子集的熵的加权确定为分割质量；

当所述随机数等于类别数目时，随机选择侧重于特征本身相似性的局部准则或侧重于特征间时空结构相似性的局部准则，来确定所述分割质量；

将分割质量值最大的分割确定为对所述节点的最优分割，以产生所述子节点。

8.根据权利要求7所述的方法，其特征在于，所述计算所述随机树上叶节点中各类别训练样本的时空结构信息与统计分布的概率值，具体包括：

根据下式计算所述叶节点中各类别训练样本的统计分布的概率值：

其中，所述p_c表示所述统计分布的概率值；所述R表示所述叶节点；所述c表示类别，c＝1,...,C，所述C取正整数；所述N_R，c表示在当前叶节点中属于第c类的样本总数；所述N_R表示所述当前叶节点中的样本总数；所述N_c表示所述训练样本集中属于第c类的样本数目；

计算所述叶节点中各类别训练样本的时空结构信息。

9.根据权利要求1所述的方法，其特征在于，所述将测试视频的时空结构信息与叶节点中的训练样本的时空结构信息进行匹配，并以训练样本所属类别的统计分布的概率值作为所述测试视频属于该类的得分，结合最大多数投票法则判定所述视频中所述人体行为的所属类别，具体包括：

将所述测试视频的所述时空结构信息与所述叶节点中的所述训练样本的所述时空结构信息进行匹配，将所述测试视频中时空结构向量与所述叶节点中的所述训练样本的时空结构向量相差小于第二阈值的测试视频确定为具有投票资格的测试视频；其中，所述时空结构信息包括所述时空结构向量；

针对所述具有投票资格的测试视频，将所述叶节点中每一类训练样本的所述统计分布的概率值确定为所述测试视频属于该类的权重，并以所述训练样本所属类别的统计分布的概率值作为所述测试视频属于该类的得分；

对所述测试视频属于该类的投票结果进行统计，利用最大多数投票法则判定所述视频中所述人体行为的所属类别。