CN106778854B

CN106778854B - 基于轨迹和卷积神经网络特征提取的行为识别方法

Info

Publication number: CN106778854B
Application number: CN201611117772.9A
Authority: CN
Inventors: 张向荣; 焦李成; 惠通; 李阳阳; 冯婕; 白静; 侯彪; 马文萍
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2019-12-24
Anticipated expiration: 2036-12-07
Also published as: CN106778854A

Abstract

本发明公开了一种基于轨迹和卷积神经网络特征提取的行为识别方法，主要解决人类行为视频内容复杂且特征稀疏而导致计算冗余以及分类正确率低的问题。其步骤包括：输入图像视频数据，对视频帧中像素点下采样，剔除均匀区域采样点，提取轨迹，利用卷积神经网络提取卷积层特征，结合轨迹和卷积层特征抽取基于轨迹约束的卷积特征，基于轨迹约束的卷积特征提取栈式局部费舍尔向量特征，压缩变换栈式局部费舍尔向量特征，利用最终的栈式费舍尔向量特征训练支持矢量机模型，进行人体行为识别与分类。本发明采用了多层次费舍尔向量结合卷积轨迹特征描述子的方法，能获得较高且稳定的分类正确率，可广泛应用于人机交互，虚拟现实，视频监控等领域。

Description

基于轨迹和卷积神经网络特征提取的行为识别方法

技术领域

本发明属于视频图像处理技术领域，主要涉及深度学习、特征提取，具体是一种基于轨迹和卷积神经网络特征提取的行为识别方别方法。用于对人体行为视频的分类。

背景技术

人体动作行为识别广泛应用于人机智能交互、虚拟现实和视频监控等领域。尽管近年来国内外人体动作行为识别的研究取得了重要的进展，但人体运动的高复杂性和多变性使得识别的精确性和高效性并没有完全满足相关行业的使用要求。总体来说人体动作行为识别中的挑战来自一下两方面：

1)空间复杂性：不同光照、视角和背景等条件下会呈现不同的动作场景，而在不同的动作场景中相同的人体行为在姿态和特性上会产生差异。即使在恒定的动作场景中，人体动作也会有较大的自由度，而且每一种相同的动作在方向、角度、形状和尺寸方面有很大的差异性。此外，人体自遮挡、部分遮挡、人体个体差异、多人物识别对象等问题都是动作识别复杂性在空间上的体现。空间复杂性对人体动作行为识别结果的影响主要体现在精确性方面。

2)时间差异性。时间差异性是指人体动作发生的时间点不可预测，而且动作的持续间隔也不尽相同。此外，动作在作用时间内也可能存在动作空白间隙。时间差异性要求识别过程中能够分辨动作的起止时间，同时有效判断动作作用的有效时间和间隔，对动作在时域和时序范围内进行更加细致的分析，导致动作在不同速率、顺序和组合情况下都会存在差异。时间差异性不仅对识别精确性产生影响，也会带来计算实时性和效率等影响识别高效性的问题。

人体动作行为的空间复杂性和时间复杂性使得人体动作行为识别研究领域并没有统一有效的分析分类方法。针对基于视觉的全身人体运动行为识别研究，一般通过一下几种方式进行分析和分类：1)将人体动作行为识别划分为几个互相联系的子过程，根据过程划分方式的不同对相应技术进行分析分类；2)典型问题方式，即选取人体动作行为识别中的部分典型问题作为对象，针对这些对象研究中涉及的方法进行分析分类；3)空间时域方法，即根据时域和空间上各项研究方法的差别对相应技术进行分析分类；4)深度学习方法，即利用人工神经网络模拟人体视觉过程进行分析分类。

通过寻找人体行为视频中关键轨迹点以及对应位置的特征描述子是比较有效的行为识别方法，特征描述子包括SIFT、梯度方向直方图HOG、光流场方向直方图HOF、运动边界直方图MBH、稀疏表示等，其中HOG、HOF和MBH是应用最广泛的特征提取方法。HOG特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子，它通过计算和统计图像局部区域的梯度方向直方图来构成特征。HOG特征结合SVM分类器已经广泛的应用于图像中，但是HOG描述子生成过程冗长，计算速度慢，难以达到实时性，并且难以处理遮挡问题，由于梯度本身的特性导致对噪声点十分敏感。SIFT特征是基于物体上的一些局部外观兴趣点与图像大小和旋转无关，对于光线、噪声、微视角改变的容忍度较高，而且对于部分物体遮蔽的侦测率也相当高，但是SIFT对于边缘光滑的目标无法准确提取特征点，而且有时特征点较少，实时性很难满足要求。

上述SIFT、HOG、MBH等都是无监督的特征提取方法，采用无监督直接在图像样本上提取信息，由于没有利用类标，缺乏具有判别力的信息，算法局限性会产生大量冗余并且和最终分类无关的特征信息和计算量，尤其对于时间跨度比较长，内容复杂的视频图像，其特征提取的有效性和时间复杂度以及准确率都很难达到要求。

有学者采用卷积神经网络处理人体行为分类问题，卷积神经网络能够利用样本的类标自适应的提取图像数据中的抽象特征，让机器自动的从样本中学习到表征这些样本的更加本质的特征则会使得人们更好的用计算机来实现人的视觉功能，通过逐层的构建一个多层的网络来使得机器能够自动的学习到反映隐含在数据内部的关系，从而使得学习到的特征更具有推广性和表达力。但是卷积神经网络模型训练时间复杂度慢，线性分类器分类能力有限，并且存在大量冗余计算，不能有效的针对行为运动视频中关键区域进行特征描述。

发明内容

本发明的目的在于针对现有技术中存在的计算量大、特征表达能力不足的问题提出一种特征表达能力强，减少冗余计算能抽取抽象卷积轨迹特征的基于轨迹和卷积神经网络特征提取的行为识别方别方法。

本发明是一种基于轨迹和卷积神经网络特征提取的行为识别方别方法，其特征在于，包括有如下步骤：

(1)输入所有视频数据：其中包含B种人体行为，每个视频中只含有一种行为，每个视频包含m帧，每一帧长、宽分为H和W，每个视频为一个样本；

(2)获得每个视频的局部费舍尔向量特征：对输入的每个视频采样视频帧，剔除采样视频帧中均匀区域的采样点，对得到的采样点提取运动轨迹，利用卷积神经网络提取卷积层特征，得到基于轨迹约束的卷积层特征，采用不同尺度的长、宽、时间轴将视频分割为多个子块，利用子块中轨迹的数量筛选子块，对筛选后的子块中轨迹约束的卷积层特征进行费舍尔向量编码，得到每个视频的栈式局部费舍尔向量编码特征，具体步骤如下；

(2.1)对每个视频中的采样帧进行下采样，从第1帧开始，以Q为时间间隔，采样视频帧，对每一采样帧基于网格进行像素点步长为5的稠密下采样，得到下采样后的图像I₁，并以步长5为基准以为倍数再进行稠密采样，得到下采样后的图像I₂；

(2.2)剔除均匀区域采样点，定义阈值T，采样点i在原始视频帧I中自相关矩阵的特征值的大小：

式中表示采样点i在视频帧I中的第一特征值，表示采样点i在视频帧I中的第二特征值，当采样点的特征值G小于阈值T则舍去，使得图像中均匀区域的采样点被移除；

(2.3)提取运动轨迹，对移除了均匀区域采样点的人体行为视频帧，分别追踪不同尺度的采样点，对于每一帧计算出对应的稠密光流场ω_t＝(μ_t,ν_t)，其中，μ_t和ν_t分别为水平和垂直方向的光流；对于当前帧中的一个目标点P_t＝(x_t,y_t)，通过使用中值滤波器M追踪目标点在下一帧的位置：

其中，M为33大小的中值滤波器，(x_t,y_t)为当前帧中目标点的横、纵坐标，一系列视频帧上的目标点构成该时间间隔内的运动轨迹：(P_t,P_t+1,P_t+2,...,P_t+Q-1)，Q为整个轨迹的最大长度，拼接所有运动轨迹得到整个视频的运动轨迹；

(2.4)利用卷积神经网络提取卷积层特征，对每个视频中的每一帧利用卷积和池化操作提取卷积特征图，通过特征图归一化并结合运动轨迹进行池化，提取最终轨迹约束的卷积层特征；

(2.5)提取栈式局部费舍尔向量编码特征，使用不同空间尺度对整个视频空间进行分割，得到局部费舍尔向量；

(2.6)提取局部费舍尔向量，对视频从长、宽、时间轴进行划分并产生多个尺度的子块，宽度为W/2和W，长度为H/2和H，时间尺度为m/3、2m/3和m，对每个子块的运动轨迹特征S＝[s₁,s₂,...,s_N]∈R^d×N进行主成分分析和白化后再进行第一次费舍尔向量编码，费舍尔向量编码的字典包含K个原子，从而得到局部费舍尔特征向量S＝[s′₁,s′₂,...,s′_N]∈R^2Kd ^×N，其中，d表示单个运动轨迹的特征维度，N表示运动轨迹的个数；

(2.7)筛选局部费舍尔向量，设定阈值E，当某个子块内部的轨迹特征数量小于这个阈值则舍弃该子块，得到更新后的局部费舍尔向量A＝[a₁,a₂,...,a_J]∈R^2Kd×Z，其中，Z表示可用子块的数量；

(3)压缩特征，在获得所有视频的局部费舍尔向量基础上，以25倍交叉验证方法将所有视频数据划分为训练集和测试集，在训练集上，利用最大间隔特征变换方法学习投影矩阵，用该投影矩阵压缩所有训练集和测试集的局部费舍尔向量，对压缩后的局部费舍尔向量再次进行主成分分析和白化，将结果作为输入，进行第二次费舍尔向量编码，最终得到能精确描述人体行为视频的栈式局部费舍尔向量特征；

(4)行为识别，基于最终得到的栈式局部费舍尔向量特征与对应的类标，利用支持矢量机以25倍交叉验证方法获得识别结果，完成人体行为识别。

实现本发明目的的技术方案是，利用视频图像中部分帧训练卷积神经网络模型，提取卷积层特征，然后结合视频图像中运动轨迹特征，抽取基于轨迹约束的卷积特征，利用得到数据的几何结构信息，采用主成分分析和栈式费舍尔层次特征编码结构，将原始高纬度的视频信息转换到低维度高层次的抽象特征层再进行分类，进而可以获得更优的分类性能。

本发明与现有的技术相比具有以下优点：

1、本发明由于利用光流场和中值滤波提取了视频中有效轨迹，对视频场景中复杂人体行为进行准确描述和特征表述，从繁杂的人体行为场景中抽取关键运动点，相比与传统的尺度不变特征描述子(SIFT)，有效的降低计算复杂度和特征维度。

2、本发明由于采用了卷积神经网络提取视频图像的卷积层特征，有效利用类标信息，采用有监督方式提取图像特征，充分利用低层次纹理颜色信息和高层次抽象概念，相比与传统的无监督特征描述子方向梯度直方图(HOG)、光流直方图(HOF)、运动边界直方图(MBH)等，卷积层特征具有更强的鲁棒性和判别力。

3、本发明由于采用了基于轨迹约束的卷积特征，对卷积特征以轨迹进行约束，减少了冗余卷积特征计算，筛选出具有代表性的特征向量即轨迹特征描述子，然后进行主成分分析(PCA)和费舍尔变换(FV)，进行特征变换，提高了算法效率。

4、本发明由于基于轨迹描述子，并对其时空域进行分割，采用层次栈式费舍尔变换(SFV)对整个子时空域进行局部特征压缩变换，既抽取了高层次抽象信息又兼顾了低层次运动信息，提取了更具有判别力、高层次的特征，最终提高了分类的准确率。

对比实验表明，本发明有效的降低了特征提取的计算复杂度，增强了人体动作行为识别能力，提高了行为识别视频数据的分类准确率。

附图说明

图1是本发明的流程示意图；

图2是卷积神经网络中输入视频对应的卷积层，图2a为原始视频帧，bcde分别为原始视频帧在卷积层中的灰度图；

图3是本发明人体行为视频中人体移动的场景，图3a是向前移动的人体行为，图3b是向左移动的人体行为，白色线条为背景轨迹，灰色线条为人体移动轨迹。

具体实施方式

下面结合附图对本发明详细说明

实施例1

对于人体行为识别问题，传统的方法一般通过提取人体运动过程中产生的轨迹点，并结合轨迹点在时空域周围提取无监督特征描述子，例如方向梯度直方图(HOG)、光流直方图(HOF)、运动边界直方图(MBH)等，结合费舍尔变换和主成分分析最终进行分类和识别，但无监督特征描述子普遍存在特征表征能力不足，计算复杂度大等问题。

为了避免现有技术存在的问题，提升人体行为识别的有效性、准确性以及减少冗余计算，本发明提出一种基于轨迹和卷积神经网络栈特征变换的行为识别方法，参见图1，包括有如下步骤：

(1)输入所有视频数据：其中包含B种人体行为，每个视频中只含有一种行为，每个视频包含m帧，每一帧长、宽分为H和W，如图2a所示，每一个视频为一个样本。

(2.1)对每个视频中的采样帧进行下采样，为了更全面描述人体行为视频中的关键动作，从第1帧开始，以Q为时间间隔，采样视频帧，对每一采样帧基于网格进行像素点步长为5的稠密下采样，得到下采样后的图像I₁，并以步长5为基准以为倍数再进行稠密采样，得到下采样后的图像I₂。

(2.2)剔除均匀区域采样点，为了去除视频帧图像中均匀区域的采样点，保留描述运动的关键采样点，定义阈值T，采样点i在原始视频帧I中自相关矩阵的特征值的大小：

式中表示采样点i在视频帧I中的第一特征值，表示采样点i在视频帧I中的第二特征值，当采样点的特征值G小于阈值T则舍去，使得图像中均匀区域的采样点被移除，如图3中白色背景采样点。

(2.3)提取运动轨迹，如图3所示，对移除了均匀区域采样点的人体行为视频帧，分别追踪不同尺度的采样点，对于每一帧I计算出对应的稠密光流场ω_t＝(μ_t,ν_t)，其中，μ_t和ν_t分别为水平和垂直方向的光流；对于当前帧的一个目标点P_t＝(x_t,y_t)，通过使用中值滤波器M追踪目标点在下一帧的位置：

其中M为33大小的中值滤波器，P_t＝(x_t,y_t)为当前帧中目标点的横、纵坐标，一系列视频帧上的目标点构成该时间间隔内的运动轨迹：(P_t,P_t+1,P_t+2,...,P_t+Q-1)，Q为整个轨迹的最大长度，拼接所有运动轨迹得到整个视频的运动轨迹。

(2.4)利用卷积神经网络提取卷积层特征，卷积层特征对人体行为视频数据有良好的特征表达能力，能够抽取低层次纹理颜色特征又兼顾高层次抽象特征，卷积层特征如图2所示，图2a为原始人体行为视频帧，图2b1,c1,d1,e1为图2a1对应的卷积第5层特征图，图2b2,c2,d2,e2为图2a2对应的卷积第5层特征图，图2b3,c3,d3,e3为图2a3对应的卷积第5层特征图，对每个视频中的每一帧利用卷积和池化操作提取卷积特征图，通过特征图归一化并结合运动轨迹进行池化，提取最终轨迹约束的卷积层特征。

(2.5)提取栈式局部费舍尔向量编码(local fisher vector coding)特征，由于人体行为视频空间中信息分布不均衡，不同时空域信息差异大，使用不同空间尺度对整个视频空间进行分割，得到局部费舍尔向量。

(2.6)提取局部费舍尔向量，对视频从长、宽、时间轴进行划分并产生多个尺度的子块，宽度为W/2和W，长度为H/2和H，时间尺度为m/3、2m/3和m，对每个子块的运动轨迹特征S＝[s₁,s₂,...,s_N]∈R^d×N进行主成分分析和白化后再进行第一次费舍尔向量编码，费舍尔向量编码的字典包含K个原子，从而得到局部费舍尔特征向量S＝[s′₁,s′₂,...,s′_N]∈R^2Kd ^×N，其中，d表示单个运动轨迹的特征维度，N表示运动轨迹的个数。

(2.7)筛选局部费舍尔向量，设定阈值E，当某个子块内部的轨迹特征数量小于这个阈值则舍弃该子块，得到更新后的局部费舍尔向量A＝[a₁,a₂,...,a_J]∈R^2Kd×Z，其中，Z表示可用子块的数量。

(3)压缩特征，在获得所有视频的局部费舍尔向量基础上，以25倍交叉验证方法将所有视频数据划分为训练集和测试集，在训练集上，利用最大间隔特征变换方法学习投影矩阵，用该投影矩阵压缩所有训练集和测试集的局部费舍尔向量，对压缩后的局部费舍尔向量再次进行主成分分析和白化，将结果作为输入，进行第二次费舍尔向量编码，最终得到能精确描述人体行为视频的栈式局部费舍尔向量特征。

本发明采取卷积神经网络和轨迹相结合的方式构造特征描述子，并且利用栈式层次费舍尔变换以及最大间隔特征变换方法有效的对特征描述子压缩变换，最终采用支持矢量机完成最终的分类；轨迹点准确描述人体行为运动特性以及规律，有监督方式提取的卷积特征图能够有效的自适应提取人体行为运动图像中低层次纹理颜色和高层次抽象特征，通过栈式层次费舍尔变换不仅可以减少特征维度而且可以抽取人体行为视频时空中底层信息和高层语义信息，能够强有力的表征人体行为特征，最终仅需要线性支持矢量机进行分类。

实施例2

基于轨迹和卷积神经网络特征变换的行为识别方法同实施例1，

步骤(2.4)中的利用卷积神经网络提取轨迹约束的卷积层特征，具体包括有如下步骤：

(2.4.1)训练卷积神经网络，对人体行为视频中抽取视频帧以及对应的类标作为卷积神经网络(CNN)的输入，每一个输入的视频帧，提取卷积特征，其中卷积神经网络(CNN)的结构为5个卷积层，3个全连接层。

卷积神经网络的不同层可以捕捉的行为模式不同，从低级的边缘纹理到复杂的物体和目标，更高层次的神经网络拥有更大的接受域可以获取更多具有判别力的特征；

(2.4.2)获取卷积特征图，提供的一个视频V，获得一系列的卷积特征图，参见图2b,图2c,图2d,图2e，卷积特征图定义如下：

式中表示第m^th个特征图，H_m为第m个图像的高，W_m为第m个图像的宽，L为视频持续的时间，而N_m表示第m个通道的数量，对于给定的视频V从一系列的轨迹特征T(V)和卷积特征图C(V)中提取最终的轨迹约束的卷积特征。

(2.4.3)特征图归一化与轨迹池化，对于卷积特征采取时空域归一化，对于每一个通道的卷积特征独立的在各自通道上归一化。

(2.4.4)提取轨迹约束特征描述子，对所有提取到的运动轨迹进行如下操作：对于给定的第k个轨迹T_k和归一化后的卷积特征定义最终的基于轨迹约束的特征描述子为：

其中，和表示第k个轨迹在第p帧的位置，r_i表示第i个特征图相对于原始图像的尺寸比例，最终得到的就是基于运动轨迹的特征描述子。

卷积神经网络通过卷积和池化操作结合全连接和线性分类器，能够有效的提取人体行为视频特征，通过这种有监督的特征提取方法结合轨迹约束，提取具有强判别力和鲁棒性的轨迹卷积特征描述子，提高特征表达能力。

实施例3

步骤(3)所述的最大间隔特征变换方法，具体是：

对所有用于训练的有标记样本集合中每个样本的局部费舍尔向量进行采样，在一个采样子集{φ_i,y_i}_i＝1,...,N上利用最大间隔特征变换方法学习投影矩阵U∈R^p∈2Kd,p＜＜2Kd，其中，N表示采样子集中局部费舍尔向量的数目。

采用一对多的策略将B类行为样本集的多类别问题转化为多个二分类问题学习投影矩阵，在每个二分类问题中求解最大间隔，最大间隔约束如下：

y′_i(wUφ_i+b)＞1,i＝1,...,N

其中，y′_i∈(-1,1)为二分类问题中第i个样本的类标。

则B类样本的投影矩阵可通过求解如下目标函数获得，

其中，w为超平面参数，U为投影矩阵，y′_i为第i个样本的类别标签，φ_i为第i个样本的特征向量，λ，β，b分别为常量参数，利用从局部费舍尔向量获取的且经过主成分分析和白化的初始投影矩阵U₀，采用子梯度算法求解投影矩阵U，更新迭代公式为：

其中，γ为常量参数，迭代到第t代时：迭代完成后得到最终的投影矩阵U，完成特征变换。

本发明最大间隔特征变换方法学习到的投影矩阵大大降低了特征维度，减少了分类时的内存和计算开销，提高了分类器的运行效率。

实施例4

步骤(2.4)所述的卷积神经网络，其网络结构参数具体是：

对于每一个输入的视频帧，将其作为一副静止的图像并提取卷积特征，单帧图像尺寸为(224×224×3)，卷积神经网络的结构为5个卷积层，3个全连接层，具体参数如下：

conv1:(size:7×7,stride:2,channel:96,mapsize:1/2,receptive:7×7)

pool1:(size:3×3,stride:2,channel:96,mapsize:1/4,receptive:11×11)

conv2(size:5×5,stride:2,channel:256,mapsize:1/8,receptive:27×27)

pool2(size:3×3,stride:2,channel:256,mapsize:1/16,receptive:43×43)

conv3(size:3×3,stride:1,channel:512,mapsize:1/16,receptive:75×75)

conv4(size:3×3,stride:1,channel:512,mapsize:1/16,receptive:107×107)

conv5(size:3×3,stride:1,channel:512,mapsize:1/16,receptive:139×139)

pool5(size:3×3,stride:2,channel:512,mapsize:1/32,receptive:171×171)

full6(channel:4096)

full7(channel:2048)

full8(channel:101)

利用上述8层卷积神经网络结构参数提取卷积层特征，卷积神经网络通过权值共享和局部感受野模拟人体神经元运行规律，减少了神经元连接数量和大量冗余计算，提高了神经网络更新迭代速度，深度卷积神经网络能够模拟更复杂的抽象函数，对人体行为视频数据具有更强的表达能力，能够提取出强判别力的卷积层特征。

下边以一个完整的流程为例，对本发明进一步说明。

实施例5

基于轨迹和卷积神经网络特征变换的行为识别方法同实施例1-4，

参照图1，本发明的具体实施步骤包括：

步骤1，输入所有视频数据，其中包含B种人体行为，每个视频中只含有一种行为，其中每个视频包含m帧，每一帧长、宽分别为H和W，每一个视频为一个样本。

对输入的每个视频进行步骤2到步骤4的操作。

步骤2，对输入的每个视频进行如下操作，获得每个视频的局部费舍尔向量特征；

2a)对每个视频中的采样帧进行下采样，从第1帧开始，以Q为时间间隔，采样视频帧，对每一帧基于网格进行像素点步长5的稠密下采样，得到下采样后的图像I₁，并以步长5为基准以为倍数再进行稠密采样，得到下采样后的图像I₂。

2b)剔除均匀区域采样点，定义阈值T，采样点i在原始视频帧I中自相关矩阵的特征值的大小：

式中表示采样点i在视频帧I中的第一特征值，表示采样点i在视频帧I中的第二特征值，当采样点的特征值G小于阈值T则舍去，使得图像中均匀区域的采样点被移除。

2c)提取运动轨迹，对移除了均匀区域采样点的人体行为视频帧，分别追踪不同尺度的采样点，对于每一帧I计算出对应的稠密光流场ω_t＝(μ_t,ν_t)，其中，μ_t和ν_t分别为水平和垂直方向的光流；对于当前帧的一个目标点P_t＝(x_t,y_t)，通过使用中值滤波器M追踪目标点在下一帧的位置：

其中，M为33大小的中值滤波器，P_t＝(x_t,y_t)为当前帧中目标点的横、纵坐标，一系列视频帧上的目标点构成该时间间隔内的运动轨迹：(P_t,P_t+1,P_t+2,...,P_t+Q-1)，Q为整个轨迹的最大长度，为了减少噪声干扰和轨迹漂移，一般轨迹长度Q设定为15，拼接所有运动轨迹得到整个视频的运动轨迹。

以上完成了对人体行为视频的轨迹提取，下面对人体行为视频进行卷积特征提取。

步骤3，利用卷积神经网络提取卷积层特征：

3a)每一个输入的人体行为视频帧，提取卷积特征，首先训练每一个单帧图像(224×224×3)，其中卷积神经网络(CNN)的结构为5个卷积层，3个全连接层，具体参数如下：

conv1:(size:7×7,stride:2,channel:96,mapsize:1/2,receptive:7×7)

pool1:(size:3×3,stride:2,channel:96,mapsize:1/4,receptive:11×11)

conv2(size:5×5,stride:2,channel:256,mapsize:1/8,receptive:27×27)

pool2(size:3×3,stride:2,channel:256,mapsize:1/16,receptive:43×43)

conv3(size:3×3,stride:1,channel:512,mapsize:1/16,receptive:75×75)

conv4(size:3×3,stride:1,channel:512,mapsize:1/16,receptive:107×107)

conv5(size:3×3,stride:1,channel:512,mapsize:1/16,receptive:139×139)

pool5(size:3×3,stride:2,channel:512,mapsize:1/32,receptive:171×171)

full6(channel:4096)

full7(channel:2048)

full8(channel:101)

根据卷积神经网络的理论，不同层可以捕捉的行为模式不同，从低级的边缘纹理到复杂的视觉概念比如物体和目标，更高层次的神经网络拥有更大的接受域可以获取更多具有判别力的特征，提供的一个视频V，可以获得一系列的卷积特征图：

C(V)＝{C₁,C₂,...,C_m}

其中i＝1,2,…m表示第i个特征图，H_i为图像的高，W_i为图像的宽，m为视频帧，N_i表示特征图的数量，对于给定的视频V要从一系列的轨迹特征和卷积特征图中提取最终的轨迹约束的卷积特征，其中包含二个步骤：特征图归一化，轨迹池化。

3b)特征图归一化，对于卷积特征采取时空域归一化，对于每一个通道的卷积特征独立的在各自通道上归一化，这确保了每一个通道的卷积特征具有相同的尺度，有利于最终的分类和识别。

3c)提取轨迹约束特征描述子，对所有提取到的运动轨迹进行如下操作：对于给定的第k个轨迹T_k和归一化后的卷积特征定义最终的基于轨迹约束的特征描述子为：

步骤4，利用上述基于轨迹的卷积特征，提取栈式局部费舍尔向量编码(localfisher vector coding)特征：

4a)提取局部费舍尔向量，对视频从长、宽、时间轴进行划分并产生多个尺度的子块，宽度为W/2和W，长度为H/2和H，时间尺度为m/3、2m/3和m，对每个子块的运动轨迹特征S＝[s₁,s₂,...,s_N]∈R^d×N进行主成分分析和白化后再进行第一次费舍尔向量编码，费舍尔向量编码的字典包含K个原子，从而得到局部费舍尔特征向量S＝[s′₁,s′₂,...,s′_N]∈R^2Kd×N，其中，d表示单个运动轨迹的特征维度，N表示运动轨迹的个数。

4b)筛选局部费舍尔向量，设定阈值E，当子块内部的轨迹特征数量小于这个阈值则舍弃这部分，得到更新后的局部费舍尔向量A＝[a₁,a₂,...,a_J]∈R^2Kd×Z，其中，Z表示可用子块的数量。

4c)在获得所有视频的局部费舍尔向量基础上，以25倍交叉验证方法将所有视频数据划分为训练集和测试集，在训练集上，利用最大间隔特征变换方法学习投影矩阵：对所有用于训练的有标记样本集合中每个样本的局部费舍尔向量进行采样，在一个采样子集{φ_i,y_i}_i＝1,...,N上利用最大间隔特征变换方法学习投影矩阵U∈R^p∈2Kd,p＜＜2Kd，其中，N表示采样子集中局部费舍尔向量的数目。

y′_i(wUφ_i+b)＞1,i＝1,...,N

其中，y′_i∈(-1,1)为二分类问题中第i个样本的类标。

则B类样本的投影矩阵可通过求解如下目标函数获得，

其中w为超平面参数，U为投影矩阵，y′_i为第i个样本的类别标签，φ_i为第i个样本的特征向量，λ，β，b分别为常量参数，利用从局部费舍尔向量获取的且经过主成分分析和白化的初始投影矩阵U₀，采用子梯度算法求解投影矩阵U，更新迭代公式为：

其中，γ为常量参数，迭代到第t代时：迭代完成后得到最终的投影矩阵U，完成特征变换，该投影矩阵完成了特征变换并且降低了复杂度减少了计算量。

步骤5，压缩特征，在获得所有视频的局部费舍尔向量基础上，以25倍交叉验证方法将所有视频数据划分为训练集和测试集，在训练集上，利用最大间隔特征变换方法学习到的投影矩阵，压缩所有训练集和测试集的局部费舍尔向量，对压缩后的所有局部费舍尔向量再次进行主成分分析和白化，将结果作为输入，进行第二次费舍尔向量编码，最终得到能精确描述人体行为视频的栈式局部费舍尔向量特征。

步骤6，行为识别，基于最终得到的栈式局部费舍尔向量特征与对应的类标，利用支持矢量机以25倍交叉验证方法获得识别结果，完成人体行为识别。

本发明的效果可以通过以下仿真实验进一步说明：

实施例6

基于轨迹和卷积神经网络特征变换的行为识别方法同实施例1-5，

1.仿真条件：

仿真实验采用行为识别视频数据集UCF50，所有数据均为从youtube上收集的现实生活中的视频，一共包含50个人体行为类别。行为类别包含最常见的运动项目和生活锻炼视频，每一类视频被分为25个组。每一组包含最少4个视频片段，一共包含6618个视频片段。每一个组视频片段拥有相同的场景或者人物设定，采取交叉验证的方法测试算法对整个数据集的分类性能。

仿真实验在CPU为Intel(R)Core(TM)i5-4200M、主频2.50GHz，内存为12G的WINDOWS 7系统上用MATLAB 2012软件进行，以及2个Intel Xeon E5-2692v2，12核处理器(2.60GHz),共24计算核心1.8Tsas硬盘，配置64GB内存的RedHat Enterprise Linux6.4x86_64系统上进行仿真。

2.仿真内容及分析：

使用本发明与现有六种方法对UCF50行为视频数据进行分类，现有5种方法分别为：梯度直方图(HOG)+主成分分析(PCA)+费舍尔向量(FV)+支持矢量机(SVM)缩写为HOG+SVM，光流直方图(HOF)+主成分分析(PCA)+费舍尔向量(FV)+支持矢量机(SVM)缩写为HOF+SVM，运动边界直方图(MBH)+主成分分析(PCA)+费舍尔向量(FV)+支持矢量机(SVM)缩写为MBH+SVM，结合Combined(HOG+HOF+MBH)+主成分分析(PCA)+支持矢量机(SVM)缩写为Combined+SVM，以及传统的轨迹方法Trajectory，本发明基于轨迹和卷积神经网络栈特征变换的行为识别方法缩写为Trajectory+CNN+SFV。

各分类方法HOG+SVM、HOF+SVM、MBH+SVM和本发明CNN+trajectories+SFV全部采用线性支撑矢量机Linear SVM，惩罚项C取值为100，Fisher Vector变换采用的字典数K均为256。本发明轨迹长度L为15，卷积层5的特征维度为512维，随机采样100w维特征学习GMM字典。默认的参数δ_s，δ_t，T分别为10，5，100。对局部FV的压缩维度为400到200维。

由图1所示从50类人体动作行为视频中提取卷积神经网络中卷积层的特征，利用本发明的轨迹特征作为约束，提取基于轨迹的卷积特征描述子，对应原始视频帧图2a提取出来的卷积特征如图2b，图2c，图2d，图2e所示，视频中的轨迹特征如图3a，图3b所示。

本发明与现有的方法对50类视频行为动作进行交叉验证分类实验，作为最终分类正确率，对于每一类行为的识别率和分类正确率如表1所示。

表1 UCF 50数据集不同维度下实验精度结果

类别名	32维度准确率	64维度准确率	128维度准确率	256维度准确率
					投掷棒球	81.25％	84.37％	84.37％	84.37％
打篮球	91.66％	91.66％	91.66％	95.83％
					仰卧推举	100％	100％	100％	100％
骑自行车	85％	90％	100％	95％
					打台球	100％	100％	100％	100％
蛙泳	100％	100％	100％	100％
					挺举	100％	100％	100％	100％
潜水	93.93％	93.93％	93.93％	96.97％
					击鼓	100％	96.87％	100％	96.88％
击剑	100％	100％	100％	100％
					高尔夫球	87.5％	87.5％	87.5％	87.5％
跳高	75％	85％	85％	90％
					赛马	90.32％	96.77％	93.55％	93.54％
骑马	100％	97.67％	100％	100％
					呼啦圈	87.10％	87.10％	87.10％	93.55％
投掷标枪	92％	96％	96％	96％
					杂耍球	100％	100％	100％	100％
跳跃运动	96.42％	100％	100％	100％
					跳绳	100％	96.55％	96.55％	96.55％
皮划艇	90％	97.5％	97.5％	95％
					冲刺运动	86.67％	93.33％	96.66％	96.67％
阅兵	85.71％	85.71％	85.71％	89.29％
					搅拌	100％	96.29％	96.29％	96.30％
双节棍	100％	100％	100％	100％
					做披萨	72％	84％	96％	88％
弹吉他	100％	100％	100％	100％
					弹钢琴	81.81％	81.81％	90.91％	81.81％
打手鼓	100％	100％	100％	100％
					拉小提琴	100％	100％	100％	100％
撑杆跳	86.84％	86.84％	89.47％	89.47％
					鞍马	100％	100％	100％	100％
引体向上	100％	100％	100％	100％
					拳击	96.88％	100％	96.87％	96.88％
俯卧撑	94.73％	78.95％	78.95％	78.95％
					室内攀岩	93.94％	93.94％	93.94％	96.97％
爬绳	85.71％	92.85％	92.85％	92.56％
					射箭	96.15％	92.31％	96.15％	96.15％
萨尔萨舞蹈	100 95％.	100％	100％	100％
					滑板	86.36％	77.27％	90.91％	95.45％
滑雪	86.96％	86.96％	86.96％	91.30％
					水上摩托	90％	95％	95％	90％
足球联赛	83.33％	91.66％	87.5％	95.83％
					荡秋千	92％	100％	100％	100％
太极	72.22％	77.77％	77.77％	83.33％
					打网球	100％	100％	100％	100％
掷铁饼	86.21％	86.21％	82.75％	86.21％
					跳蹦床	95.65％	100％	95.65％	95.65％
打排球	94.44％	94.44％	94.44％	94.44％
					遛狗	68.7％	84％	88％	88％
溜溜球	100％	100％	100％	100％

表1为原始特征在采取不同主成分分析降维方法的结果对比图，分别采用了32维度、64维度、128维度、256维度，降维策略，然后采用字典数k为256的高斯混合模型进行费舍尔向量降维操作。可以看出当特征维度不断上升的时候正确率一开始也是上升的，但是当特征维度降到256时达到最优值，最终整体正确率可以达到93.8％，所以降维采用256维就可以达到理想的正确率。表1可以看出有个别行为类别分类正确率没有达到较高的水平比如“遛狗”、“太极”等类别，这是由于两种典型的因素导致的，第一，由于视频内信息量比较少，比如“太极”，由于“太极”运动本身运动缓慢，导致提取的轨迹特征比较有限，卷积层特征判别里收到极大的影响，时空域的特征没有被激发出来。第二，由于视频内部内容比较复杂，甚至有多目标运动，导致特征受到干扰程度大，降低了分类精确性。

实施例7

基于轨迹和卷积神经网络特征变换的行为识别方法同实施例1-5，仿真条件和内容同实施例6。

表2 UCF 50数据集上本发明与六种方法实验精度结果

实验算法	准确率
		Trajectory	75.2％
HOG	82.6％
		HOF	85.1％
MBH	88.9％
		HOF+MBH	89.5％
Combined_above_all	91.2％
		本发明(Trajectory+CNN+SFV)	93.8％

从表2可以看出每种方法在UCF50数据集上的平均分类正确率，在UCF50数据集上传统的方法由于特征提取策略比较单一，只考虑了图像的梯度或者运动边界，没有考虑运动视频中深层次的关联信息，由于视频比图像信息量更大，更加复杂，通过卷积神经网络以及人体的运动轨迹能够提取出具有更丰富含义和更具有判别里的特征，然后通过栈费舍尔(stack fisher vector)变换，把这些基础特征映射到具有更深层次的特征空间，把原始线性不可分的特征层，变换成线性可分的问题，最终通过简单的线性支撑矢量机完成分类任务，比传统的梯度直方图(HOG)、光流直方图(HOF)、以及运动边界直方图(MBH)获得了更高的分类精度。

综上，本发明公开的一种基于轨迹和卷积神经网络特征提取的行为识别方法，主要解决人类行为视频内容复杂且特征稀疏而导致计算冗余以及分类正确率低的问题。其步骤包括：将视频数据每一帧作为图片输入进卷积神经网络，训练出基于视频帧的卷积神经网络模型，通过该模型提取视频数据的卷积层特征，然后通过在原始图像上采样追踪得到视频运动轨迹，最终通过结合轨迹和卷积特征得到基于卷积特征的轨迹特征描述子，通过采样构建投影矩阵，将数据变换到投影空间，再通过多层费舍尔向量变换原始特征描述子得到高层次的特征数据，最终把训练集和测试集输入支持矢量机进行识别与分类，得到测试集的识别与分类结果。本发明采用了栈式费舍尔向量结合卷积轨迹特征描述子的方法，能够获得较高且稳定的分类正确率，可以广泛的应用于人机交互，虚拟现实，视频监控等领域。

本发明在基于轨迹和卷积神经网络特征变换的基础上结合支持矢量机对人体动作行为进行分类，充分利用卷积神经网络和轨迹约束，能够大大减少特征计算量，而且利用视频轨迹时空域特性对视频分割进行压缩获取高层次特征，能得到较高的分类正确率，比传统的方法具有一定优势。

Claims

1.一种基于轨迹和卷积神经网络特征提取的行为识别方法，其特征在于，包括有如下步骤：

式中λ_i ¹表示采样点i在视频帧I中的第一特征值，λ_i ²表示采样点i在视频帧I中的第二特征值，当采样点的特征值G小于阈值T则舍去，使得图像中均匀区域的采样点被移除；

(2.6)提取局部费舍尔向量，对视频从长、宽、时间轴进行划分并产生多个尺度的子块，宽度为W/2和W，长度为H/2和H，时间尺度为m/3、2m/3和m，对每个子块的运动轨迹特征S＝[s₁,s₂,...,s_N]∈R^d×N进行主成分分析和白化后再进行第一次费舍尔向量编码，费舍尔向量编码的字典包含K个原子，从而得到局部费舍尔特征向量S＝[s′₁,s′₂,...,s′_N]∈R^2Kd×N，其中，d表示单个运动轨迹的特征维度，N表示运动轨迹的个数；

(2.7)筛选局部费舍尔向量，设定阈值E，当某个子块内部的轨迹特征数量小于这个阈值则舍弃该子块，得到更新后的局部费舍尔向量A＝[a₁,a₂,...,a_Z]∈R^2Kd×Z，其中，Z表示可用子块的数量；

2.根据权利要求1所述的基于轨迹和卷积神经网络特征提取的行为识别方法，其特征在于，步骤(2.4)所述的利用卷积神经网络提取轨迹约束的卷积层特征，具体包括有如下步骤：

(2.4.1)训练卷积神经网络，对每一个输入的视频帧，提取卷积特征，其中卷积神经网络的结构为5个卷积层，3个全连接层；

(2.4.2)获取卷积特征图，对提供的每个视频V，获得一系列的卷积特征图：

C(V)＝{C₁,C₂,...,C_m}

其中i＝1,2,…m，H_i为视频的高，W_i为视频的宽，m为视频帧的数量，N_i表示特征图的数量；

(2.4.3)特征图归一化，卷积特征采取时空域归一化，对于每一个通道的卷积特征独立的在各自通道上归一化；

3.根据权利要求1所述的基于轨迹和卷积神经网络特征提取的行为识别方法，其特征在于，步骤(3)所述的最大间隔特征变换方法，具体是：

对所有用于训练的有标记样本集合中每个样本的局部费舍尔向量进行采样，在每个采样子集{φ_i,y_i}_i＝1,...,N上利用最大间隔特征变换方法学习投影矩阵U∈R^p∈2Kd,p＜＜2Kd，其中，N表示该采样子集中局部费舍尔向量的数目；

y′_i(wUφ_i+b)＞1,i＝1,...,N

其中，y′_i∈(-1,1)为二分类问题中第i个样本的类标；

则B类样本的投影矩阵可通过求解如下目标函数获得，

其中，w为超平面参数，U为投影矩阵，y_i′为第i个样本的类别标签，φ_i为第i个样本的特征向量，λ，β，b分别为常量参数，利用从局部费舍尔向量获取的且经过主成分分析和白化的初始投影矩阵U₀，采用子梯度算法求解投影矩阵U，更新迭代公式为：

4.根据权利要求1所述的基于轨迹和卷积神经网络特征提取的行为识别方法，其特征在于，步骤(2.4)所述的卷积神经网络，其网络结构参数具体是：

对于每一个输入的视频帧，提取卷积特征，单帧图像尺寸为(224×224×3)，卷积神经网络的结构为5个卷积层，3个全连接层，具体参数如下：

conv1:(size:7×7,stride:2,channel:96,mapsize:1/2,receptive:7×7)

pool1:(size:3×3,stride:2,channel:96,mapsize:1/4,receptive:11×11)

conv2(size:5×5,stride:2,channel:256,mapsize:1/8,receptive:27×27)

pool2(size:3×3,stride:2,channel:256,mapsize:1/16,receptive:43×43)

conv3(size:3×3,stride:1,channel:512,mapsize:1/16,receptive:75×75)

conv4(size:3×3,stride:1,channel:512,mapsize:1/16,receptive:107×107)

conv5(size:3×3,stride:1,channel:512,mapsize:1/16,receptive:139×139)

pool5(size:3×3,stride:2,channel:512,mapsize:1/32,receptive:171×171)

full6(channel:4096)

full7(channel:2048)

full8(channel:101)

利用上述卷积神经网络提取卷积层特征。