CN109508698A

CN109508698A - 一种基于二叉树的人体行为识别方法

Info

Publication number: CN109508698A
Application number: CN201811555909.8A
Authority: CN
Inventors: 李仲泓; 吴昱焜; 衣杨; 沈金龙; 佘滢; 朱艺
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-03-22
Anticipated expiration: 2038-12-19
Also published as: CN109508698B

Abstract

本发明公开了一种基于二叉树的人体行为识别方法，应用于计算机视觉领域，旨在于解决现有技术中没有考虑到轨迹之间的相互关系以及对运动部分的特征提取不够细致的问题。本发明首先提取输入视频的综合显著轨迹；然后计算每条轨迹的特征描述符，包括新提出的均衡描述符；再利用谱聚类算法将视频的轨迹分成粒度不一的节点，构造中层语义二叉树；由于经费舍尔向量编码后的特征表示的维度过高，本发明采用子空间随机投影对编码向量进行降维；最终利用线性核的SVM(状态向量机)对特征表示分类，得到视频行为的类别标签。本方法在一定程度上移除背景的干扰，并提高了识别准确度。

Description

一种基于二叉树的人体行为识别方法

技术领域

本发明涉及计算机视觉领域，更具体地，涉及一种基于二叉树的人体行为识别方法。

背景技术

基于特征的人体行为识别方法的方法流程大致包括轨迹采样、特征提取、特征编码和行为分类等步骤。在轨迹采样和特征提取阶段，现有的方法中表现良好的是改进密集轨迹方法(iDT,improved Dense Trajectory)，这个方法会密集采样特征点并对其进行跟踪，选取显著的轨迹，再提取出轨迹的特征描述符。该方法能够根据视频帧中的RGB特征提取出显著的轨迹，以及具有表现力的描述符MBH(运动边界直方图)、HOG(方向直方图)、HOF(光流直方图)。然而，iDT方法在采样时没有考虑到光流特征，以及描述符也没有考虑到轨迹之间的相互关系，因而准确率仍未达到令人满意的水平。除此之外，在编码该方法时也是简单地把所有特征进行编码，而研究表明人的运动可以分为运动主体和该运动主体的辅助部分，因此在编码的时候可以将特征分为两类，做到更加细致地提取特征的中层语义。

发明内容

本发明为克服上述现有技术采样时没有考虑到光流特征，描述符没有考虑到轨迹之间的相互关系以及对运动部分的特征提取不够细致的缺陷，提供一种基于二叉树的人体行为识别方法。

为解决上述技术问题，本发明的技术方案如下：一种基于二叉树的人体行为识别方法，包括与以下步骤：

S1：输入视频，对视频帧中的特征点进行采样，对采样后的特征点进行跟踪，生成轨迹，再对轨迹进行筛选；

S2：计算筛选后轨迹的显著值，提取出综合显著轨迹；

S3：根据求得的综合显著轨迹计算轨迹的特征描述符，用来量化轨迹特征；

S4：根据轨迹特征将轨迹进行分类，并利用谱聚类方法将视频的轨迹分类到若干集合中，即分类到二叉树节点中，构造中层语义二叉树；

S5：对若干集合内的轨迹进行编码得到编码向量，采用子空间随机投影对编码向量进行降维，并将若干集合的降维后的编码向量进行融合，用来表示一个视频；

S6：利用线性核的SVM对视频进行分类，得到视频行为的类别标签并输出结果。

优选地，S1的具体步骤为：

S11：利用3×3的Sobel算子计算视频帧中每一个像素点的梯度，得到该视频帧两个方向上的梯度矩阵Dx和Dy；

S12：选取像素点p的3×3邻域S(p)内的梯度自相关矩阵的最小特征值作为该像素点的特征值；

S13：选择特征值大于特征点阈值的像素点作为特征点，阈值大小为所有像素点的特征值中最小的值的倍数；

S14：按照设定的步长将视频帧划分为网格，并对其中存在的特征点进行采样，选取特征值大于预设的起点特征点阈值的特征点作为轨迹的起点；

S15：以缩放因子对原始视频帧进行八个尺度的缩小，生成八层金字塔；

S16：采用光流场进行特征点跟踪，生成轨迹：

其中，p_t＝(x_t,y_t)表示第t帧处的采样点，x表示横轴上的值，y表示纵轴上的值，M是中值滤波核，w是密集光流场，是最接近(x_t,y_t)的位置；再对特征点跟踪得到的轨迹进行截断；

S17：根据轨迹的运动位移来筛选轨迹，分为x轴和y轴方向上的两个指标，为：

其中，和分别为轨迹在x轴和y轴方向上的平均值，设置最小变化幅度为最大变化幅度为maxVar＝50，丢弃变化幅度var_x与var_y皆小于minVar，或者有一个方向上的变化幅度大于maxVar的轨迹。

优选地，步骤S11至S14是在八层金字塔的八个尺度空间上进行。

优选地，为了防止运动发生漂移，本方法对特征点跟踪轨迹进行截断：设置轨迹长度L，超过视频跨度阈值便不再追踪，若在该邻域没有追踪点，将该特征点纳入追踪点中进行追踪，一条从第t帧开始生成的轨迹可以被表示成：

T_t＝(p_t,p_t+1,...,p_t+L-1,p_t+L)

令轨迹形状作为特征描述符，表示为trajShap’：

trajShape'＝(△p_t,...,△p_t+L-1)

△p_t＝(p_t+1-p_t)＝(x_t+1-x_t,y_t+1-y_t)

规范化的轨迹形状为：

其中i表示第i帧。

优选地，步骤S2的具体步骤包括：

S21：分别提取轨迹的灰度显著值以及光流显著值；

灰度显著值：

DiffG(p_X)＝|g(p_X)-g(A(p_X))|

其中，g()为高斯滤波后的灰度值，X表示第X帧,视频中的一帧以一个像素点p_X＝(u_X,v_X)为中心，则其外围为A(p_X)：

A(p_X)＝{(u,v)||u_X-u|≤△u,|v_X-v|≤△v}

△u＝min(u_X,w-u_X)，△v＝min(v_X,h-v_X)，u_X表示第X帧的横坐标的值，v_X表示第X帧纵坐标的值，w与h分别为视频帧的宽与高；

光流显著性：

其中，h_j(p_X)为在p_X处的光流直方图HOF中的第j个bin值，而

S22：通过灰度显著值以及光流显著值得到视频帧的综合显著值：

其中，β为权重；定义一个视频中的以特征点p_i开始追踪的轨迹为T_i＝(p_i1,p_i2,...,p_i|L+1|)，其显著值定义为该轨迹上所有特征点的显著值的平均值，S^G(T_i)为其灰度显著值，S^O(T_i)为其光流显著值，S^C(T_i)为其综合显著值，分别为：

S23：根据综合显著值提取出显著轨迹。

优选地，S23中提取出显著轨迹的方法为：

T_salient＝{T_i|T_i∈T_warped,S^C(T_i)>threshold_Saliency(Τ_i)}

其中，显著轨迹阈值为：E(DiffC(l))为轨迹T_i的平均显著值，为图像每一个像素点的显著值之和除以视频帧的长度，而μ为控制因子，T_warped为整流密集轨迹集合。

优选地，步骤S3根据求得的综合显著轨迹计算轨迹的特征描述符的具体步骤包括：

S31：计算第从第i帧处开始采样的轨迹在第f帧(i≤f≤i+L)的采样点平均位置值为：

其中，N表示相同起始帧和采样尺度的轨迹数目，表示从第i帧处开始采样的第n条轨迹在第i帧上的采样点；x表示横轴上的值，y表示纵轴上的值；

S32：计算从第i帧处开始采样的第n轨迹在第f帧的采样点相对于平均位置的位移为：

△R_i ⁿ(f)＝p_i ⁿ(f)-A_i(f)

对相对位移进行归一化处理：

S33：由归一化处理结果得到第i帧处开始采样的第n条轨迹的均衡描述符：

优选地，步骤S4的具体步骤包括：

S41：利用轨迹之间的欧氏距离d作为轨迹之间的相似度，并对欧氏距离采用高斯核化；

S42：采用归一化切割N-Cut对轨迹聚类，获得离散解；

S43：利用K均值方法对特征向量组成的矩阵E进行处理，从而获得每一条特征的类别；

S44：利用方法根据轨迹的特征类别进行谱聚类；

S45：将行为视频显式地划分为语义上的两类特征，其中一类为行为的主体部分，另一类则为辅助主体部分的人、物、或其他运动部分。

优选地，步骤S41中轨迹之间的相似度为：

W_ij＝exp(-γd(T_i,T_j)²)

其中，轨迹相似矩阵W是非负对称矩阵，为轨迹之间欧氏距离的中间值。

优选地，步骤S5的具体步骤为：

S51：采用子空间随机投影方法RP处理若干集合的FV向量，随机投影后其维度为r的N条数据的集合Y_N×r为：

Y_N×r＝X_N×dR_d×r

其中，X_N×d为N条d维原始数据的集合，R_d×r为随机生成的转换矩阵，r即随机投影因子，其下限为数据条数N的对数，将原始高维空间中两个向量的欧氏距离记作||x₁-x₂||，在随机投影之后，欧氏距离为

S52：采用以不同概率p随机生成转换矩阵R的元素，为：

三个维度为d的费舍尔向量FV被降低至维度为r的数据空间，并最终进行特征融合，融合成为3r视频表示。

与现有技术相比，本发明技术方案的有益效果是：本发明利用了视频中的光流信息以及轨迹之间的相互关系，在改进密集轨迹iDT的基础上提出整流密集轨迹以及均衡描述符，通过融合光流显著性和灰度显著性，选取更加具有表现力的轨迹，移除背景的干扰；同时根据轨迹之间的相互关系构建均衡描述符，显式地表示轨迹之间位置和动作关系，便于后续构建中间语义。另一方面，由于人体运动基本可以划分为两个部分，而大部分方法都忽视这一细节，为了充分利用该语义信息，本发明方法提出二叉树的编码方法，将视频的特征分别表示成第一层的全局信息特征和第二层的运动主体特征和运动辅助特征，显式地表示视频的中层语义，提高识别准确度。

附图说明

图1为本发明基于二叉树结构的视频人体行为识别研究框架图。

图2为本发明综合显著轨迹的提取流程图。

图3为本发明轨迹均衡描述符示例图。

图4为本发明UCF Sports数据集中两个Diving视频中轨迹聚类效果的连续四帧可视化图。

图5为本发明三个节点的FV经由随机投影生成视频表示示意图。

图6为本发明基于二叉树结构的识别方法在UCF Sports数据集上的混淆矩阵图。

图7为基于二叉树结构的识别方法在HMDB51数据集上的混淆矩阵图。

其中，图2(a)为原始视频；图2(b)为视频灰度显著值；图2(c)为视频光流显著值；图2(d)为视频综合显著值；图2(e)为整流密集轨迹；图2(f)为综合显著轨迹；图5(g)为三个树节点的FV；图5(h)为随机投影后的特征向量；图5(i)为三个树节点的特征向量融合。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

图1为本发明基于二叉树结构的视频人体行为识别研究框架图，其具体流程包括：

S14：按照设定的步长将视频帧划分为网格，并对其中存在的特征点进行采样，选取特征值大于预设的特征点阈值的特征点作为轨迹的起点；

S15：以缩放因子对原始视频帧进行八个尺度的缩小，生成八层金字塔，其中，S11至S14的过程分别在八层金字塔的八个尺度空间上进行；

S16：采用光流场进行特征点跟踪，生成轨迹：

其中，p_t＝(x_t,y_t)表示第t帧处的采样点，x表示横轴上的值，y表示纵轴上的值，M是中值滤波核，w是密集光流场，是最接近(x_t,y_t)的位置；再对特征点跟踪得到的轨迹进行截断，设置轨迹长度L，超过预设的视频跨度阈值便不再追踪，若在该邻域没有追踪点，将该特征点纳入追踪点中进行追踪，一条从第t帧开始生成的轨迹可以被表示成：

T_t＝(p_t,p_t+1,...,p_t+L-1,p_t+L)

令轨迹形状作为特征描述符，表示为trajShap’：

trajShape'＝(△p_t,...,△p_t+L-1)

△p_t＝(p_t+1-p_t)＝(x_t+1-x_t,y_t+1-y_t)

规范化的轨迹形状为：

S2：计算筛选后轨迹的显著值，提取出综合显著轨迹；

S21：输入如图2(a)的原始视频，分别提取轨迹的灰度显著值以及光流显著值，如图2(b)和图2(c)；

灰度显著值：

DiffG(p_X)＝|g(p_X)-g(A(p_X))|

A(p_X)＝{(u,v)||u_X-u|≤△u,|v_X-v|≤△v}

光流显著性：

其中，h_j(p_X)为在p_X处的光流直方图HOF中的第j个bin值，而

S23：根据综合显著值提取出如图2(f)所示的的显著轨迹：

T_salient＝{T_i|T_i∈T_warped,S^C(T_i)>threshold_Saliency(Τ_i)}

S3：根据求得的综合显著轨迹计算轨迹的特征描述符，用来量化轨迹特征，其过程示意图如图3所示：

△R_i ⁿ(f)＝p_i ⁿ(f)-A_i(f)

对相对位移进行归一化处理：

S4：根据轨迹特征将轨迹进行分类，并利用谱聚类方法将视频的轨迹分类到三个集合中，即分类到二叉树的三个节点中，构造中层语义二叉树；

S41：利用轨迹之间的欧氏距离d作为轨迹之间的相似度，并对欧氏距离采用高斯核化；轨迹之间的相似度为：

W_ij＝exp(-γd(T_i,T_j)²)

S42：采用归一化切割N-Cut对轨迹聚类，获得离散解；

S44：利用方法根据轨迹的特征类别进行谱聚类；

S45：如图4所示，二叉树的方法可以将视频特征划分为两部分将行为视频划分为语义上的两类特征，其中一类为行为的主体部分，另一类则为辅助主体部分的人、物、或其他运动部分。

S5：对三个节点的轨迹进行编码得到编码向量，采用子空间随机投影对编码向量进行降维，并将三个节点降维后的编码向量进行融合，用来表示一个视频，具体过程如图5所示：

S51：采用子空间随机投影方法RP处理三个节点的FV向量，随机投影后其维度为r的N条数据的集合Y_N×r为：

Y_N×r＝X_N×dR_d×r

S52：采用以不同概率p随机生成转换矩阵R的元素，为：

三个维度为d的FV被降低至维度为r的数据空间，并最终进行特征融合，融合成为3r视频表示。

S6：利用线性核的SVM对视频进行分类，得到视频行为的类别标签，并输出结果。

在具体实施过程中，利用混淆矩阵CM(Confusion Matrix)以及平均准确率mAP(mean Average Precision)进行评价。

设该混淆矩阵为M，则其元素为：

其中，对角线上的数据表示每个行为类别被正确划分的比例，该数据越大则表示分类越准确，当其为一时，说明该行为类别分类完全正确。

平均准确率mAP(mean Average Precision)：其计算公式为：

其中，C为数据集的行为类别数目，M_ii为每类行为被正确识别的比率。平均准确率的值越大，说明该方法的整体分类效果越好。

实验结果：混淆矩阵如图6所示，本发明识别方法平均识别率在UCF Sports为94.68％，图7中本发明识别方法平均识别率在HMDB51上为60.58％。实验结果表明，本发明识别方法取得较好的识别效果，与现有的方法比较，具有显著性的进步。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于二叉树的人体行为识别方法，其特征在于，包括以下步骤：

S2：计算筛选后轨迹的显著值，提取出综合显著轨迹；

2.根据权利要求1所述的一种基于二叉树的人体行为识别方法，其特征在于，步骤S1输入视频，对视频帧中的特征点进行采样，对采样后的特征点进行跟踪，生成轨迹，再对轨迹进行筛选的具体步骤为：

S16：采用光流场进行特征点跟踪，生成轨迹：

3.根据权利要求2所述的一种基于二叉树的人体行为识别方法，其特征在于，步骤S11至S14是在八层金字塔的八个尺度空间上进行。

4.根据权利要求3所述的一种基于二叉树的人体行为识别方法，其特征在于，S16中对特征点跟踪得到的轨迹进行截断的方法为：设置轨迹长度L，超过预设的视频跨度阈值便不再追踪，若在该邻域没有追踪点，将该特征点纳入追踪点中进行追踪，一条从第t帧开始生成的轨迹可以被表示成：

T_t＝(p_t,p_t+1,...,p_t+L-1,p_t+L)

令轨迹形状作为特征描述符，表示为trajShap’：

trajShape'＝(△p_t,...,△p_t+L-1)

△p_t＝(p_t+1-p_t)＝(x_t+1-x_t,y_t+1-y_t)

规范化的轨迹形状为：

其中i表示第i帧。

5.根据权利要求1所述的一种基于二叉树的人体行为识别方法，其特征在于，步骤S2计算筛选后轨迹的显著值，提取出综合显著轨迹的具体步骤包括：

S21：分别提取轨迹的灰度显著值以及光流显著值；

灰度显著值：

DiffG(p_X)＝|g(p_X)-g(A(p_X))|

A(p_X)＝{(u,v)||u_X-u|≤△u,|v_X-v|≤△v}

光流显著性：

其中，h_j(p_X)为在p_X处的光流直方图HOF中的第j个bin值，而

S23：根据综合显著值提取出显著轨迹。

6.根据权利要求5所述的一种基于二叉树的人体行为识别方法，其特征在于，S23中提取出显著轨迹的方法为：

T_salient＝{T_i|T_i∈T_warped,S^C(T_i)>threshold_Saliency(Τ_i)}

其中，显著轨迹阈值为：E(DiffC(l))为轨迹T_i的平均显著值，l为图像每一个像素点的显著值之和除以视频帧的长度，而μ为控制因子，T_warped为整流密集轨迹集合。

7.根据权利要求1所述的一种基于二叉树的人体行为识别方法，其特征在于，步骤S3根据求得的综合显著轨迹计算轨迹的特征描述符的具体步骤包括：

△R_i ⁿ(f)＝p_i ⁿ(f)-A_i(f)

对相对位移进行归一化处理：

其中min(ΔR_i)表示第n轨迹在第f帧的采样点相对于平均位置最小位移，max(ΔR_i)表示第n轨迹在第f帧的采样点相对于平均位置最大位移；

8.根据权利要求1所述的一种基于二叉树的人体行为识别方法，其特征在于，步骤S4根据轨迹特征将轨迹进行分类，并利用谱聚类方法将视频的轨迹分类到若干集合中，即分类到二叉树节点中，构造中层语义二叉树的具体步骤包括：

S42：采用归一化切割N-Cut对轨迹聚类，获得离散解；

S44：利用方法根据轨迹的特征类别进行谱聚类；

9.根据权利要求8所述的一种基于二叉树的人体行为识别方法，其特征在于，步骤S41中轨迹之间的相似度为：

W_ij＝exp(-γd(T_i,T_j)²)

10.根据权利要求1所述的一种基于二叉树的人体行为识别方法，其特征在于，步骤S5对若干集合内的轨迹进行编码得到编码向量，采用子空间随机投影对编码向量进行降维，并将若干集合的降维后的编码向量进行融合，用来表示一个视频的具体步骤为：

Y_N×r＝X_N×dR_d×r

S52：采用以不同概率p随机生成转换矩阵R的元素，为：