CN109543590B

CN109543590B - 一种基于行为关联度融合特征的视频人体行为识别算法

Info

Publication number: CN109543590B
Application number: CN201811368213.4A
Authority: CN
Inventors: 李奥; 顾佳良; 衣杨; 朱艺; 周小峰; 沈金龙
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2023-04-18
Anticipated expiration: 2038-11-16
Also published as: CN109543590A

Abstract

本发明涉及一种基于行为关联度融合特征的视频人体行为识别算法，本发明在考虑视频帧之间时序关系的基础上，通过分别定义轨迹和视频帧与目标行为之间的关联度，突出了更具表达力的特征在形成视频表示过程中的重要性，并且与基于时间分割网络得到的视频表示进行融合，得到更具判别力的视频表示，有利于更有效地识别自然场景下视频中的人体行为。

Description

一种基于行为关联度融合特征的视频人体行为识别算法

技术领域

本发明涉及计算机视觉学习领域，更具体的，涉及一种基于行为关联度融合特征的视频人体行为识别算法。

背景技术

在人体行为识别的研究中，局部特征对背景噪声、光照变化和局部遮挡等干扰具有较好的鲁棒性，其中轨迹特征包含了丰富的与人体行为相关的时空域信息，受到了很多研究者的青睐。然而，虽然改进密集轨迹中去除了摄像机的运动，但其仍包含属于背景区域和非运动区域的轨迹。研究在密集轨迹中过滤属于低关联区域的轨迹来进行轨迹提纯，能够在一定程度上提升动作识别的准确率，但是合理的过滤阈值难以确定。

显著性图谱可以突出场景中的前景物体并且同时抑制背景信息，静态显著性图谱可以有效的利用视频帧的静态信息，然而，在视频中的动态信息对于人体行为的识别具有重要的作用，但是静态显著性图谱却忽略了视频帧的动态信息。

由于视频数据的多变性和复杂性，对跨越整个视频的时空演化信息进行建模一直是一项具有挑战性的工作。基于排序的时空演化信息的方法虽然能够捕获到视频中丰富的时间维度上的演化信息，但是其对具有高行为关联度的特征和具有较低行为关联度的特征在视频表示中不加区别地进行对待，会降低人体行为识别的准确率。

发明内容

为实现以上发明目的，采用的技术方案是：

一种基于行为关联度融合特征的视频人体行为识别算法，包括以下步骤：

步骤S1：输入视频，计算视频中轨迹的行为关联度；

步骤S2：根据轨迹的行为关联度生成基于轨迹关联度的视频帧表示；

步骤S3：根据基于轨迹关联度的视频帧表示计算视频帧的行为关联度；

步骤S4：生成基于视频帧行为关联度的视频表示；

步骤S5：从视频中提取光流以及将时间分割网络作为特征提取器；

步骤S6：生成基于时间分割网络的视频表示；

步骤S7：结合基于视频帧行为关联度的视频表示以及基于时间分割网络的视频表示，利用支持向量机进行学习和分类，产生视频相应的动作类别标签。

优选的，所述的步骤S1具体包括一下步骤：

步骤S101：对视频帧进行时空金字塔的构建；

步骤S102：在改进密集轨迹的基础上，提取时空多尺度的轨迹特征；

步骤S103：计算静态显著性图谱和动态显著性图谱，静态显著性图谱S利用快速最小障碍距离变换算法得到，动态显著性图谱的计算方法是由静态显著性图谱的计算方法改进得到；

步骤S104：以光流作为输入，截取视频帧上下左右四个边缘区域

步骤S105：计算像素相对于每一个边缘区域的距离图谱z：

其中p_x表示像素点，χ²表示卡方距离，b_i表示边缘区域(i＝1，2，3，4)，h_j(p_x)是p_x处的平滑光流向量直方图的第j个bin值，h_j(b_i)为边缘区域对应bin的平均,j表示bin值的个数；

步骤S106：定义M为视频帧的动态显著性图谱，将基于四个区域的距离图谱进行融合：

其中i和j分别为视频帧边缘区域以及bin值的索引，z_k(k＝1，2，3，4)分别为上下左右四个边缘区域的距离图谱，

表示对应于第i个边缘区域和第j个bin值，视频帧四个边缘区域的距离图谱中的最大值。

步骤S107:设轨迹所在序列位于空间金字塔的第z层，时间尺度为s，起始帧为w，轨迹的长度为L，且轨迹的起始帧位于该序列的第j帧；定义轨迹整体的静态行为关联度为多帧的静态显著性图谱对应像素显著值的平均值：

其中T表示轨迹，P_i表示轨迹中的第i个点，

表示轨迹点对应序列帧的静态显著性图谱，类似地，轨迹的动态行为关联属性可以表示为：

其中

表示轨迹点对应序列帧的动态显著性图谱；

步骤S108：得到轨迹的行为关联度定义如下：

优选的，步骤S2具体包括以下步骤：

步骤S201：利用步骤S108得到的轨迹的行为关联度对轨迹相对于高斯分布k的权重γ_n(k)进行加权:

γ′_n(k)＝γ_n(k)R(T)

步骤S202：将视频帧中所有轨迹的每一种局部特征描述符分别利用费舍尔向量

和堆叠的费舍尔向量

分别进行编码,并且采用L2正则化进行处理,得到基于轨迹行为关联度的视频帧表示:

其中FV表示费舍尔向量，SFV表示堆叠的费舍尔向量，HOG、HOF和MBH分别表示方向梯度直方图、光流直方图和运动边界直方图。

优选的，步骤S3具体包括以下步骤：

步骤S301：将轨迹采用相邻轨迹点的位移进行表示：

T＝(ΔP_t，ΔP_t+1，…，ΔP_t+L-1)

其中位移向量ΔP_t＝(P_t+1-P_t)＝(x_t+1-x_t，y_t+1-y_t)＝(u_t，v_t)，(x_t，y_t)为轨迹点P_t的空间坐标，设一条轨迹位移向量的均值为

则该轨迹的位移标准差为：

步骤S302：若一条轨迹穿过某一视频帧，则这条轨迹对于该视频帧的隶属度定义为

W(T，F_i)＝e^-|l-0.5L|

其中T表示轨迹，L表示轨迹的长度，l表示轨迹的第l个点穿过视频帧F_i；则视频帧F_i的行为关联度定义为

其中K表示穿过视频帧F_i的轨迹的数目。

优选的，步骤S4具体包括以下步骤：

在生成基于轨迹行为关联度的视频帧表示之后，将视频表示为一系列视频帧表示的序列，利用层次化的排列池化的方法对视频帧表示之间的动态信息进行建模，得到基于视频帧行为关联度的视频表示：

其中HRP表示使用层次化的排列池化方法对视频中的动态信息进行建模。

优选的，步骤S5具体包括以下步骤：

步骤S501：从视频中提取光流后；

步骤S502：将训练数据集中的每个视频分成三个分段，在三个分段中均匀采样25个视频片段，其中在第一视频分段中采样9个片段，在第二、三个视频分段中分别采样8个片段；

步骤S503：将带有视频动作标签的片段被用来训练时间分割网络，并将训练好的时间分割网络中用于产生视频片段级别分类的部分作为局部特征提取器。

优选的，步骤S6具体包括以下步骤：

将局部特征被聚合形成全局的特征表示为：

f_g＝H(f₁，f₂，…，f_n)

其中f₁，f₂，…，f_n表示局部特征，n表示局部特征的个数，H表示特征聚合函数，f_g表示视频的全局特征。

优选的，步骤S7具体包括以下步骤：

步骤S701：结合两种视频表示、利用支持向量机进行学习和分类，并产生视频相应的动作类别标签：将基于视频帧行为关联度的视频表示c和基于时间分割网络的视频表示f_g进行拼接，得到结合的视频表示P：

P＝{c，f_g}

步骤S702：利用SVM分类器对该表示进行分类，得到视频相应的动作类别标签。

与现有技术相比，本发明的有益效果是：

本发明通过捕捉视频中不同轨迹和视频帧与目标行为之间的相关度，突出与目标行为相关度较高的轨迹和视频帧在形成视频表示过程中的重要性，可以减少视频中的冗余信息对行为识别效果的干扰，形成具有表达力的视频表示。本发明还通过使用时间分割网络形成以视频片段为基础的视频表示，通过以上两种视频表示，在不同的层次对视频中的信息进行描述，通过结合两种表示可以得到判别力更强的视频表示，有助于提高人体行为识别的准确率。

附图说明

图1为本发明的流程图。

图2为本发明本发明识别方法得到的JHMDB数据集上的混淆矩阵。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示，一种基于行为关联度融合特征的视频人体行为识别算法，包括以下步骤：

步骤S1：输入视频，计算视频中轨迹的行为关联度；

步骤S4：生成基于视频帧行为关联度的视频表示；

步骤S6：生成基于时间分割网络的视频表示；

优选的，所述的步骤S1具体包括一下步骤：

步骤S101：对视频帧进行时空金字塔的构建；

步骤S105：计算像素相对于每一个边缘区域的距离图谱z：

其中T表示轨迹，P_i表示轨迹中的第i个点，

其中

表示轨迹点对应序列帧的动态显著性图谱；

步骤S108：得到轨迹的行为关联度定义如下：

优选的，步骤S2具体包括以下步骤：

γ′_n(k)＝γ_n(k)R(T)

和堆叠的费舍尔向量

优选的，步骤S3具体包括以下步骤：

步骤S301：将轨迹采用相邻轨迹点的位移进行表示：

T＝(ΔP_t，ΔP_t+1，…，ΔP_t+L-1)

则该轨迹的位移标准差为：

W(T，F_i)＝e^-|l-0.5L|

其中K表示穿过视频帧F_i的轨迹的数目。

优选的，步骤S4具体包括以下步骤：

优选的，步骤S5具体包括以下步骤：

步骤S501：从视频中提取光流后；

优选的，步骤S6具体包括以下步骤：

将局部特征被聚合形成全局的特征表示为：

f_g＝H(f₁，f₂，…，f_n)

优选的，步骤S7具体包括以下步骤：

P＝{c，f_g}

实施例2

如图1、图2所示，本实施例提供的环境如下:

实验数据集：JHMDB(共21类人体行为动作类别)。

实验环境：Matlab2014b，c++14，python3.6。

实验工具集：OpenCV2.3，vlfeat开源库，Libsvm工具箱，Tensorflow开源库。

实验方法：将JHMDB数据集划分为3组，在每次划分中，每个行为约有45个视频，其中部分视频用于训练，剩余的21个用于测试。训练模型时采用一对多模式，最后的识别准确率为三个划分的识别准确率的均值。

评价标准：

(1)混淆矩阵，其公式如下所示：

其中混淆矩阵中的一行对应于某一类行为的分类结果，且矩阵每一行的和为1。对角线的元素表示正确分类的百分比，即某类行为的准确率。

(2)平均准确率

平均准确率表示所有行为分类准确率的平均值。

实验结果：如图2所示，图中所示的是使用本发明识别方法得到的JHMDB数据集上的混淆矩阵，平均识别准确率为68.7％。实验结果表明，本发明识别方法取得了较好的识别效果，与现有的方法进行比较，识别准确率有显著的提高。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。