CN108416288A

CN108416288A - 基于全局与局部网络融合的第一视角交互动作识别方法

Info

Publication number: CN108416288A
Application number: CN201810177014.9A
Authority: CN
Inventors: 宋砚; 法羚玲; 唐金辉; 舒祥波
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-03-04
Filing date: 2018-03-04
Publication date: 2018-08-17

Abstract

本发明提供了一种基于全局与局部网络融合的第一视角交互动作识别方法，包括：对视频进行采样获取不同动作，得到图像组成动作样本；将采样得到的动作片段进行尺寸的统一化处理，并进行数据增强，训练基于全局图像为输入的3D卷积网络，学习全局的动作的时空特征得到网络分类模型；采用稀疏光流来定位动作片段中显著性动作发生的局部区域；将不同动作的局部区域进行尺寸统一处理后，调整网络的超参数，训练基于局部图像为输入的3D卷积网络，学习局部的显著性动作特征得到网络分类模型；对同一个视频多次采样得到动作样本，按投票法将全局与局部模型给出的预测次数统计排序，其中预测最多的类别作为识别的动作标签。

Description

基于全局与局部网络融合的第一视角交互动作识别方法

技术领域

本发明涉及一种交互动作识别与图像处理技术，特特别是一种基于全局与局部网络融合的第一视角交互动作识别方法。

背景技术

近几年来，随着可携带设备的发展，头戴式摄像头的普及已经产生了越来越多的第一视角的视频，这带来了以第一视角来分析人体行为的需求。第一视角的视频对捕捉社会交互和物体交互带来了全新的视角，但是来自头部摄像头的常开模式的带来的长时间的动作和无结构的拍摄场景，使得第一视角视频的动作解析变得很有挑战。第一视角中的交互动作包括了两种类型，一种是来自于观察者的自我运动，一种是来自于交互者的动作。通常，交互会影响到观察者，所以视频中会出现大量的自我运动。这使得传统的动作识别的单一分类器方法无法得到高精度的识别效果，因此需要基于全局与局部结合的方法来精细分析动作特征，得到高效的表示。

发明内容

本发明的目的在于提供一种基于全局与局部网络融合的第一视角交互动作识别方法，包含以下步骤：

步骤1，对视频进行采样获取不同动作，得到16帧的图像组成动作样本；

步骤2，将采样得到的动作片段进行尺寸的统一化处理，并进行数据增强，训练基于全局图像为输入的3D卷积网络，学习全局的动作的时空特征得到网络分类模型；

步骤3，采用稀疏光流来定位动作片段中显著性动作发生的局部区域；

步骤4，将不同动作的局部区域进行尺寸统一处理后，调整网络的超参数，训练基于局部图像为输入的3D卷积网络，学习局部的显著性动作特征得到网络分类模型；

步骤5，将全局与局部的特征进行融合，融合的过程为对同一个视频多次采样得到动作样本，按投票法将全局与局部模型给出的预测次数统计排序，其中预测最多的类别作为识别的动作标签。

本发明与现有技术相比，具有以下优点：(1)本发明采用了设置片段间隔来平衡数据类别以及设置帧间隔增强动作片段表示的多次采样方式，尽可能去除相邻帧的动作表示的冗余，覆盖更多的关键帧；(2)本发明基于第一视角下交互动作的特点，提出全局动作表示与局部显著性动作表示融合的方法，更好的挖掘交互动作的表示方式；(3)本发明基于稀疏光流的方法定位动作显著性区域，经2步去噪后，可得到精准的局部交互者的显著性动作区域；(4)本发明应用深度学习中的3D卷积网络训练分类器模型，3D卷积网络以3D形式的过滤核视频中相关的物体，场景和动作的信息，有效提取视频特征。

下面结合说明书对本发明作进一步描述。

附图说明

图1是本发明基于全局与局部网络融合的第一视角人机交互视频动作识别的方法流程图。

图2是基于视频的动作片段采样规则示意图。

图3是3D卷积网络的结构图。

图4是经过2次去噪的基于稀疏光流的定位出的局部区域示意图。

图5是不同动作类别得到的显著性区域示意图。

图6是显示了人机交互动作分析的基于全局与局部双流融合网络示意图。

图7是双流网络对视频分析的标签输出示意图。

具体实施方式

结合图1，基于全局与局部网络融合的第一视角人机交互视频动作识别的方法，包括以下步骤：

步骤1中对视频进行平衡数据类别和增强动作片段表达性能的采样，假设一个动作视频序列有N帧，表示为I＝{I₁,I₂,...,I_N}，动作标签表示为y，本文从视频中提取T个样本。本文为每个样本设置开始帧，开始帧的个数等于最后从该视频中提取出的样本数目。本文设置样本的间隔为U，开始帧的下标可以表示为S＝{1,1+U,1+2U,...,1+(T-1)U}，其中U是通过N/T计算得到。为了每个样本能覆盖更多的关键帧，本文使用采样的帧间隔R得到L帧的样本。因此，对于第i个样本，采样组成的帧的下标为C_i＝{S_i,S_i+R,S_i+2R,...,S_i+(L-1)R},其中S_i是它的起始帧下标。视频中采样的每个样本的标签为y。图2显示了采样的规则。

步骤2中将采样得到的动作片段进行尺寸的统一化处理，通过数据增强的方式来防止过拟合，训练基于全局的3D卷积网络，提取全局的动作的时空特征。对于全局网络的输入，将采样得到的视频帧大小统一缩小为128×171。每个视频被分为16帧的样本输入网络。通过随机裁剪等数据增强方式来防止过拟合，视频基于采样规则多次采样，然后使用softmax为loss函数训练全局3D深度神经网络。采用的3D卷积网络的结构图如图3。对于动作视频块中位置(x,y,z)的值在3D卷积网络中第i层第j个特征映射图中是：

R_i是动作时间维度的3D核的大小，是对应于上一层中第m个特征映射的核的第(p,q,r)个值。按照上述公式反向传播更新参数，训练得到基于全局的网络分类模型。

步骤3中采用稀疏光流来定位显著性动作发生的局部区域。光流可以找到图像中每个像素点的速度向量，根据光流的微小运动和亮度恒定的假设，得到I(x,y,t)＝I(x+dx,y+dy,t+dt)，用一阶泰勒级数展开，

另那么在的假设下，使用最小二乘法，求解光流。

在视频的整张图片帧上提取相邻帧的光流，然后去除不相关的噪声动作，基于显著性光流设置局部边框。为了检测光流，降噪包含两步。观察所得，噪声类别大致分为两类，第一类是与显著性动作无关的弱的摄像头运动。本发明通过设置连续帧之间的光流点的位移值将其过滤。其次，另一种光流主要来自周围不相关的人。在第一视角的视频中，这部分噪声主要出现在图像的边缘区域，因此，本发明使用边缘区域的光流点的个数来决定是否是来自不相关的人的噪声运动。图4是经过2次去噪的基于稀疏光流的定位出的局部区域。

步骤4中对每个动作类别得到的局部区域进行预处理。不同动作类别得到的显著性大小不一致，如图5。因为3D核是对输入3D卷积网络中的视频样本进行窗口的滑动提取深度特征，输入的视频帧需要对准。所有的局部动作区域的输入大小设置为116×144，在网络中随意裁剪为112×112来增强数据。本发明设置学习率为0.0001。训练局部3D卷积网络，迭代至损失函数收敛。

步骤5中将全局与局部的特征进行融合，对多次采样的同一个视频下的动作样本，按投票法，将预测次数最多的类别作为模型识别的动作标签。对于全局网络，本发明输入视频片段中的整张图片的序列，包含了全局表观的大量的自我运动。对于局部网络，在两次降噪处理后，本发明检测出交互者的显著动作区域，然后裁剪出该区域作为局部网络的输入。训练完这两个网络，本文组合全局网络和局部网络的结果进行视频的最后动作类型的输出。按类别个数投票，得到分类器对每个视频多个样本的类别输出O＝{o₁,o₂,...,o_N}，假设一个视频采样N个样本，对这N个样本统计预测最多的类别，并将其作为最终的预测标签。最大分数显示了标签预测的置信分数。图6是显示了人机交互动作分析的基于全局与局部双流融合网络。图7是双流网络对视频分析的标签输出。

Claims

1.一种基于全局与局部网络融合的第一视角交互动作识别方法，其特征在于，包含以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1中对动作视频进行调整采样帧间隔的多次采样方法，具体过程为：

假设一个动作视频序列有N帧，表示为I＝{I₁,I₂,...,I_N}，动作标签表示为y，从动作视频中多次采样，提取出T个动作样本；

为每个样本设置开始帧，开始帧的个数等于最后从该视频中提取出的样本数目；

设置样本的间隔为U，开始帧的下标表示为S＝{1,1+U,1+2U,...,1+(T-1)U}，其中U＝N/T；

使用采样的帧间隔R得到L帧的样本。因此，对于第i个样本，采样组成的帧的下标为C_i＝{S_i,S_i+R,S_i+2R,...,S_i+(L-1)R}，其中S_i是它的起始帧下标；

视频中采样的每个样本的标签为y。

3.根据权利要求1所述的方法，其特征在于，步骤2的具体过程为：

步骤2.1，对基于全局的动作片段进行预处理，将采样的动作片段帧大小统一为128×171；

步骤2.2，采用随机裁剪等方式对动作样本进行数据增强输入到5层的3D卷积网络中；

步骤2.3，对于动作样本组成的视频块中位置(x,y,z)的值在3D卷积网络中第i层第j个特征映射图中是：

p_i和q_i是3D核空间维度的大小，R_i是3D核时间维度的大小，是对应于上一层中第m个特征映射的核的(p,q,r)的权重参数值，b_ij是对应于上一层中第m个特征映射的核的(p,q,r)的偏重参数值，是动作样本的(x,y,z)的位置在上一层中第m个特征映射后的图像值；

步骤2.4，按照式(1)按损失函数梯度反向传播更新模型每一层的学习参数w和b，训练得到基于全局的网络分类模型。

4.根据权利要求1所述的方法，其特征在于，步骤3中在动作片段的整张图片帧上提取光流，然后设置阈值去除不相关的噪声光流，最终基于剩下的显著性光流设置局部边框，具体过程为：

步骤3.1，根据光流找到图像中每个像素点的速度向量；

步骤3.2，根据光流的微小运动和亮度恒定的假设，得到

I(x,y,t)＝I(x+dx,y+dy,t+dt) (2)

I为(x,y,t)时刻的图像的像素亮度表示，x、y为空间坐标，t为时刻。

步骤3.3，将式(2)用一阶泰勒级数展开得到

步骤3.4，令在的假设下，I_xu+I_yv＝-I_t，求解u,v；

步骤3.5，对于与显著性动作无关的弱的摄像头光流，通过设置连续帧之间的光流点的位移值将其过滤；对于周围不相关的人产生的运动光流，使用边缘区域的光流点的个数来决定是否是来自不相关的人的噪声运动。

5.根据权利要求1所述的方法，其特征在于，步骤4中

所有的局部动作区域的输入大小设置为116×144，

在网络中随意裁剪为112×112来增强数据，

设置参数更新的超参数学习率为0.0001。

6.根据权利要求1所述的方法，其特征在于，步骤5的具体过程为：

按类别个数投票，得到分类器对每个视频多个样本的类别输出O＝{o₁,o₂,...,o_N}；

对一个视频采样的N个样本统计，预测最多的类别，并将其作为最终的预测标签。