CN107506712A

CN107506712A - 一种基于3d深度卷积网络的人类行为识别的方法

Info

Publication number: CN107506712A
Application number: CN201710697809.8A
Authority: CN
Inventors: 高联丽; 宋井宽; 王轩瀚; 邵杰; 申洪宇
Original assignee: Chengdu Koala Technology Co Ltd
Current assignee: Chengdu Koala Technology Co Ltd
Priority date: 2017-08-15
Filing date: 2017-08-15
Publication date: 2017-12-22
Anticipated expiration: 2037-08-15
Also published as: CN107506712B

Abstract

本发明属于计算机视觉视频动作识别领域，公开了一种基于3D深度卷积网络的人类行为识别的方法，所述方法首先将一个视频划分为一系列连续的视频片段；然后，将连续的视频片段输入到由卷积计算层和时空金字塔池化层组成的3D神经网络得到连续的视频片段特征；然后通过长短记忆模型计算全局的视频特征作为行为模式。本发明技术具有明显优势，通过改进了标准的3维卷积网络C3D，引入多级池化能够对任意分辨率和时长的视频片段进行特征提取；同时提高模型对行为变化大的鲁棒性，有利于在保持视频质量的情况下增加视频训练数据规模；通过各个运动子状态进行关联性信息嵌入提高行为信息的完整性。

Description

一种基于3D深度卷积网络的人类行为识别的方法

技术领域

本发明属于计算机视觉视频识别领域，尤其涉及一种基于3D深度卷积网络的人类行为识别的方法。

背景技术

在计算机视觉领域中，对行为识别的研究历经了10年以上。特征工程作为模式识别重要组成部分，一直在行为识别的领域中占主导地位。在深度学习之前，法国计算机视觉机构Inria的科学家Evan Laptev和Cordelia Schmid在行为特征学习方面的贡献最为突出。类似于ILSVRC图像识别挑战赛，基于行为识别的挑战赛THUMOS每年都在不断刷新识别记录。而来自Inria推出的行为特征计算方法一直都名列前茅。尤其在2013年，Inria的WangHeng博士提出的基于轨迹的行为特征计算方法，通过记录像素点的运动轨迹构成行为的局部特征。是目前最有效的局部特征方法。即使在当前深度学习流行的时代，该特征计算方法达到的识别性能都难以重大突破。然而，传统的特征工程方法以一种信息的量化为主，存在着信息量单一，领域知识需求性强，特征维度高等挑战，阻碍了识别性能的提升和向产业界的推广。高效地提取行为特征成为了行为识别领域的重要课题。自2012年卷积神经网络被证明能自适应学习到图像特征后，研究人员展开了对深度学习的方法在视频上识别的研究。斯坦福大学博士生Kapathy在2013年最先将深度卷积网络引入到视频领域。通过利用卷积网络提取视频帧特征完成行为的识别。牛津大学Simonyan教授在2014年计算机视觉和模式识别(CVPR)的会议上提出的基于Two-stream的行为识别方法，分别学习行为的形态表征和运动特征，进而完成行为识别。Two-stream的思想也奠定了深度学习在行为识别方面的基本方法论。随着大规模标记的数据集(ActivityNet，Youtube-8M等等)相继提出，深度学习的方法基本在行为识别领域占据了主导地位。各种适应视频数据结构的深度网络的框架提出，以寻求最合适的视频特征计算方式。虽然卷积网络在视觉学习方面有很大的优势，但是在很长一段时间内，深度学习的方法并没有像图像识别领域一样取得重大突破。直到最近，香港中文大学的Wang Li-Ming博士在欧洲计算机视觉(ECCV)会议上提出的视频时间分割思想，把视频的时间变化性引入到深度网络的计算中，突破了以往卷积网络只能学习视频片段特征的局限性，大大地提高了行为识别的性能。进而推动了深度学习在视频应用上的发展。从上面的总结可以看出，行为识别的方法有两个方向。一个是传统的特征工程方法，也称作是浅层学习方法。另一个是深度学习方法。两个方向的共同点在于如何改进特征计算方式。在浅层方式中，特征的计算方式完全是人决定的(Handcfafted)。在深度学习方式中，更注重的是如何设计网络，让网络自适应学习行为的特征。特征是通过模型和标签数据来决定。基于深度学习的行为识别中，网络的设计尤其重要。

综上所述，现有技术存在的问题是：现有的3维卷积网络存在：网络只能提取子运动状态；视频的每一个小片段都同属于同一个行为类别；现有行为识别网络只能提取子运动状态；视频的每一个小片段都同属于同一个行为类别；每个输入视频片段的尺度和时长都得固定，在这样的限制下，不能够对任意空间尺度和时长视频进行处理；同时网络学习到的是短期运动特征，缺乏完整的行为信息。

发明内容

针对现有技术存在的问题，本发明提供了一种基于3D深度卷积网络的人类行为识别的方法。

本发明是这样实现的，一种基于3D深度卷积网络的人类行为识别的方法，

首先将一个视频划分为一系列连续的视频片段。然后，将连续的视频片段输入到由卷积计算层和时空金字塔池化层组成的3D神经网络得到连续的视频片段特征。然后通过长短记忆模型计算全局的视频特征作为行为模式。本发明在UCF101，HMDB51和ACT三个通用的数据集上评估提出的模型。

进一步，所述基于3D深度卷积网络的人类行为识别的方法具体包括：

改进了标准的3维卷积网络C3D，通过引入多级池化的方法，能够将任意大小的卷积特征图谱映射成固定维度的特征向量；

通过递归网络或者1维卷积网络对各个运动子状态进行关联性信息嵌入，并生成行为特征，用于行为分类；

根据不同模态特征，并采用多模态的学习方法进行多模态特征融合，进而得到需要的行为特征。

进一步，所述改进了标准的3维卷积网络C3D，通过引入多级池化的方法，能够将任意大小的卷积特征图谱映射成固定维度的特征向量，具体包括：

基于基本的3维卷积网络设计深度神经网络；深度网络包括用于提取视频片段的特征和将片段特征合成代表为行为的表征，并进行识别；

进行基于空域和时域的金字塔池化：

在最后一层卷积层之后添加空域与时域的金字塔池化层，通过空域和时域的金字塔池化层将具有不同维度的特征图谱映射成固定维度的特征向量。

进一步，所述通过递归网络或者1维卷积网络对各个运动子状态进行关联性信息嵌入，并生成行为特征，用于行为分类；具体包括：

行为完整性建模：在不同大小的输入视频片段的场景下，提取相应特征；将视频片段进行类比，并引入递归神经网络的变体长短期记忆模型LSTM和1维卷积嵌入CNN-E两种关联性学习。

进一步，所述变体长短期记忆模型LSTM为网络对序列数据{X₁,...,X_t...,X_N}的计算方式；通过LSTM的门机制，子动作状态通过式LSTM转换为具有前后情景信息的状态；

具体包括：LSTM网络根据当前的运动状态X_t和上一情景状态h_t-1，通过logist回归得到输入门，遗忘门和输出门的控制信号；然后通过门信号计算新的情景状态h_t；得到新的序列状态特征{h₁,...,h_t...,h_N}，通过最大池化的方式进行筛选；在给定的序列动作特征{X₁,...,X_t...,X_N}，1维卷积通过卷积的方式对各个特征进行相关性嵌入。其可表示为式(2)的计算方式；

v_t＝W_cnnx_t：t+c-1+b (2)

通过卷积的方式，相关性嵌入本质上将相邻的动作状态进行加权求和；每个新的状态都是相邻相互独立运动子状态的叠加；最后，利用最大池化的方式对新的状态序列{v₁,...,v_t...,v_N}进行过滤，生成行为的最终表征。

进一步，所述根据不同模态特征的优势，并采用多模态的学习方法进行多模态特征融合，进而得到更好的行为特征，具体包括：

多模态特征学习：

采用{x_rgb,t}代表3维网络从RGB数据源提取的特征，并且用{x_flow,t}表示从光流数据源提取的特征；针对t时刻的运动子状态，采用融合计算方式，生成新的具有两种模态信息的特征；通过模态融合，将得到新的运动子状态的特征序列：{x_f,1,...,x_f,t,...,x_f,N}；然后，利用行为完整性建模方法，生成得到最终的行为整体特征。

进一步，所述的基于3D深度卷积网络的人类行为识别的方法还包括：网络优化方法，所述网络优化方法包括：

构建行为识别网络；通过提取再融合的方式，得到最终的行为特征；

使用标准的多类别交叉熵损失目标优化所述识别网络；

利用softmax回归层计算M个行为类别发生的概率；特定类别C的概率通过式(3)得到；其中，W_c和b_c都是softmax层需要优化的参数；

为使得真实类别的概率最大，如公式(4)所示，定义损失函数为信息交叉熵；其中，当且仅当输入样本i的真实类别是c，D是训练数据集样本的个数；

通过优化公式(4)更新网络参数，使该函数的输出值最小，以满足对训练数据集上的拟合；对于参数更新的方式,采用梯度下降的方法对参数进行更新。

本发明的另一目的在于提供一种基于3D深度卷积网络的人类行为识别系统。

本发明的优点及积极效果为：本方法通过改进了标准的3维卷积网络C3D，引入多级池化能够对任意分辨率和时长的视频片段进行特征提取；同时提高模型对行为变化大的鲁棒性，有利于在保持视频质量的情况下增加视频训练数据规模。通过各个运动子状态进行关联性信息嵌入提高行为信息的完整性。

不同以往的解决方案，在应对行为识别的视频的每一个小片段都同属于同一个行为类别问题中，本发明提出的网络框架以级联的方式提取行为的完整信息，并且能应对各种尺度的输入。换言之，网络以视频片段为输入提取各个运动子状态，然后通过特征融合方式学习完整的行为特征。另外，通过扩展空间金字塔技术到3维空间，网络能够将任意时长和不同尺度的视频片段映射到相同维度的特征向量。通过这样的方式，本发明在识别行为的过程中不需要对输入视频进行繁琐的预处理操作。而在训练阶段，利用模型处理多尺度视频的优势，可以通过一定比例放缩视频数据来增加数据规模，来缓和行为识别领域面临的第一个问题。而对于融合长序列的运动状态特征，可以通过递归网络或一维卷积的方式进行处理。另一方面，考虑到视频具有两种输入源，即RGB图像流和光流图像流。传统基于two-stream的多模态学习方式已经被证明在识别性能方面比单一模型要可靠。为了提升整体的识别性能，多模态的学习机制应当加以考虑。

附图说明

图1是本发明实施提供的基于3D深度卷积网络的人类行为识别的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

对于视频中的行为识别而言，传统的方法将此问题化为多分类问题，并且提出了不同的视频特征提取方法。然而，传统的方法基于低层信息进行提取，比如从视觉纹理信息或者视频中的运动估计值。由于提取的信息单一，不能很好的代表视频内容，进而导致所优化的分类器并不是最优的。而作为深度学习中的一项技术，卷积神经网络将特征学习和分类器学习融合为一个整体，并且成功应用在视频中的行为识别方面。然而，当前提出的并应用在行为识别方面的卷积神经网络框架仍具有三种限制：1)输入网络的视频的空间尺寸必须固定大小；2)输入网络的视频的时长固定；3)网络提取短时序结构的特征。这使得网络模型应用在极强的限制条件下，不利于现实场景下的应用扩展。为了解决以上的问题，本发明提出一种基于3D卷积网络的端到端识别模型。该模型实现在任意尺度和时长的视频条件下进行行为识别。具体而言，首先将一个视频划分为一系列连续的视频片段。然后，将连续的视频片段输入到由卷积计算层和时域和空域的金字塔池化层组成的3D神经网络得到连续的视频片段特征。然后通过长短记忆模型计算全局的视频特征作为行为模式。我们在UCF101，HMDB51和ACT三个通用的数据集上评估提出的模型。实验结果显示，和目前流行的2D或3D为基础的神经网络模型相比，提出的方法在识别性能上得到了提升。

本发明通过改进标准的3维卷积网络C3D，引入多级池化对任意分辨率和时长的视频片段进行特征提取；网络以视频片段为输入提取各个运动子状态，然后通过特征融合方式学习完整的行为特征

下面结合附图对本发明的应用原理作详细描述。

本发明实施提供的基于3D深度卷积网络的人类行为识别的方法，通过改进标准的3维卷积网络C3D，引入多级池化对任意分辨率和时长的视频片段进行特征提取；网络以视频片段为输入提取各个运动子状态，然后通过特征融合方式学习完整的行为特征。

如图1所示，本发明实施提供的基于3D深度卷积网络的人类行为识别的方法，具体包括：

S101：改进了标准的3维卷积网络C3D，通过引入多级池化的方法，能够将任意大小的卷积特征图谱映射成固定维度的特征向量；

S102：通过递归网络或者1维卷积网络对各个运动子状态进行关联性信息嵌入，并生成行为特征，用于行为分类；

S103：根据不同模态特征，并采用多模态的学习方法进行多模态特征融合，进而得到需要的行为特征。

下面结合具体实施例对本发明的应用原理作进一步描述。

本发明实施例提供的基于3D深度卷积网络的人类行为识别的方法，包括：

一)、改进了标准的3维卷积网络C3D，通过引入多级池化的方法，能够将任意大小的卷积特征图谱映射成固定维度的特征向量。

(1)、基础网络框架：

因为3维卷积能够同时提取在空间和时间上的特征，所以本发明基于基本的3维卷积网络来设计本发明提出的深度神经网络。具体而言，本发明的深度网络包括2个主要部分。第一个部分用于提取视频片段的特征。第二个部分则是将片段特征合成代表为行为的表征，并进行识别。

在第一部分中，共有5组3维卷积层构成。并且，除了最后的卷积层外，每一个卷积层之后都跟着一个3维的最大池化层。而最后一层卷积层之后，拼接的是基于空域和时域的金字塔池化层时域和空域的金字塔池化层。最后，在时域和空域的金字塔池化层的输出，桥接两个维度为4096的全连接层。第二部分则是以LSTM或者时域卷积为主的网络结构，并直接以第一个部分中全连接的输出作为输入。在得到第二部分构成的行为表征后，则直接连接到回归分类层(softmax)，用于对行为分类。在本发明中，本发明根据引文的经验，每一层的卷积核大小都设置为3×3×3，且每一次移动的步长都为1。而所有的最大池化层，除了第一个池化层，其池化窗口的大小都设为2×2×2。对于第一个池化层，其窗口大小为1×2×2。这样做的目的是为了让网络在第一层学习形态特征，而在后几层卷积层中学习运动特征。

(2)、基于空域和时域的金字塔池化技术

全连接层需要预先确定输入的维度，而3维卷积的输出会因输入视频片段的空间大小以及时长的不同产生不同尺度的特征图谱。为了能让3维卷积网络具备处理不同空间大小和不同时长的视频片段，本发明在最后一层卷积层之后添加空域与时域的金字塔池化层通过时域和空域的金字塔池化层将具有不同维度的特征图谱映射成固定维度的特征向量。因此，输入的视频片段可以具有多种空间尺度和时长。假设，给定一个视频片段，其分辨率大小是h×w并具有l张连续的视频帧。本发明可以将其视作为一个长，宽，高分别为l,h,w的3维张量。另一方面，在本发明提出的框架中，前5个卷积层的卷积核的个数分别是64,128，256，512，512。所有卷积核的大小都设置为3×3×3。每一个卷积核都会在3维的输入张量上的每一个位置上，从相邻的立体位置共27个点上计算该位置的特征值。假定本发明最后一层卷积输出的特征图谱具有的维度是T×H×W按照引文中提的方式，卷积后的特征图谱连接一个最大池化层，并且最大池化层的滑动窗口大小为2×2×2。则在特征图谱上的每个相邻且大小为2×2×2的特征空间上计算最大值。那么，经过最大值池化后的维度为其中指代下取整运算。因此，引文中的方式并不能将不同维度的输入映射成固定维度的特征向量。为了满足多尺度输入的目标，本发明将滑动的窗口大小的设定从静态模式转换为动态设定模式。具体而言，本发明希望池化层的输出能满足本发明预先设定的维度大小。因此，滑动窗口的大小会依赖输入数据的维度进行动态修改。假设本发明希望特征图谱通过池化操作后的输出维度在时间维度上是，而在空间的维度是。那么，每次在进行池化运算前，滑动窗口的大小都会动态计算为为了方便表示，本发明将符号P(p_t,p_s)表示为池化级别。理论上，本发明可以设置多个池化级别。通过这样的方式，在每一个池化级别下，特征图谱都可以池化成维度为p_t×p_s×p_s的特征向量。时域和空域的金字塔池化层通过动态计算滑动窗口的方式为将每一个特征图谱映射成固定的特征向量，使得模型能够处理不同大小的输入。

时域和空域的金字塔池化利用3种池化级别生成固定维度特征向量的过程。3种级别设置的滑动窗口大小分别为并且将一个特征图谱分别映射成1维，4维和16维的特征向量。而各个级别的输出最终通过拼接的方式构成新的特征向量。另外，在本发明的设计中，最后一层卷积一共输出512个特征图谱。在所示的例子中，无论特征图谱的大小如何，时域和空域的金字塔池化层的最终输出特征的维度只为512×21。因此，通过这样的方式，在时域和空域的金字塔池化层的后面可以直接连接上全连接层，学习更鲁棒的行为特征。

二)、通过递归网络或者1维卷积网络对各个运动子状态进行关联性信息嵌入，并生成行为特征，用于行为分类。

行为完整性建模

本发明给出了在不同大小的输入视频片段的场景下，提取相应特征的方法。实际上，一个完整的行为包含若干动作片段。为了得到行为完整的特征，需要采用一定的方式对各个子动作特征进行融合。在这一节，本发明将对行为完整性建模进行细化。实际上，在深度学习方法中，特征融合的方式有很多种。一种直观的方式就是对所有动作的特征进行简单平均化或者最大化处理。然而，这种方式忽略了动作状态之间的关联关系。本质上，池化后的特征还是行为的某一子运动状态，并不能真正代表行为本身。在之前的章节里，本发明已经分析了运动子状态作为行为整体特征的不足。为了融合行为的各个运动子状态，应当将动作状态之间的相关性嵌入到各个子动作特征中。然后，通过最大池化操作将最有代表性的连贯行为给过滤出来，作为行为特征。比如，对于“跳远”这个例子来说。本发明将其分解成“起跑”，“起跳”和“落下”三个运动状态。通过对每个状态嵌入前后情景信息，本发明得到“运动开始，奔跑中”，“奔跑结束，向前跳跃”和“起跳完毕，前驱落下”这3个新的状态。对于“跳远”这个行为而言，第二个状态是最具有代表性。则可以通过一定的机制来进行筛选，比如最大池化。因此，如何将动作的关联信息嵌入到运动子状态特是行为特征构成的关键。另一方面，递归神经网络和一维卷积网络都被用于学习词语的相关性，并促进了文本分类上的应用。本发明将视频片段进行类比，并引入递归神经网络的变体长短期记忆模型(LSTM)和1维卷积嵌入(CNN-E)两种关联性学习方法来解决动作关联性嵌入问题。

本发明介绍了LSTM网络对序列数据{X₁,...,X_t...,X_N}的计算方式。针对于行为识别问题，{等价于连续的子动作特征。通过LSTM的门机制，子动作状态通过式LSTM机制转换为具有前后情景信息的状态。具体来说，LSTM网络根据当前的运动状态X_i和上一情景状态h_t-1，通过logist回归得到输入门，遗忘门和输出门的控制信号。然后通过门信号计算新的情景状态h_t。得到新的序列状态特征{h₁,...,h_t...,h_N}，本发明通过最大池化的方式进行筛选。另一种特征关联性嵌入的方法则是基于1维卷积操作。为了简便，本发明称其为卷积网络嵌入(CNN-E)。假设本发明有一个一维卷积核，其窗口长度为C。在给定的序列动作特征{X₁,...,X_t...,X_N}，1维卷积通过卷积的方式对各个特征进行相关性嵌入。其可表示为式(2)的计算方式。

ut＝W_cnnx_t：t+c-1+b (2)；

也就是说，通过卷积的方式，相关性嵌入本质上是将相邻的动作状态进行加权求和。因此，每个新的状态都是相邻相互独立运动子状态的叠加。最后，同样利用最大池化的方式对新的状态序列{v₁,...,v_t...,v_N}进行过滤，生成行为的最终表征。

三)、根据不同模态特征的优势，并采用多模态的学习方法进行多模态特征融合，进而得到更好的行为特征。

1)多模态特征学习：

在前面章节的分析中，本发明知道视频具有两种模态的数据源。也就是RGB图像数据流和光流图像数据流。目前，在双模态的学习方法在行为识别方面的有效性已经在引文中被证明。与当前已提出的方法不同，本发明认为通过深度网络从双模态数据上所提取的同一种行为的特征是具有互补性的。因为RGB图像代表着行为形态，而光流图像是瞬时运动的估计。一个好的双模态学习方法应该是能够充分利用两种模态特征的关联性，并且保持各自的特性去生成更鲁棒的动作特征。在本发明设计的3维卷积网络中，能够对不同模态的视频片段提取对应的特征。因此，本发明仍需要设计一种融合方式，将两种模态的特征信息进行整合，并生成更丰富的动作特征。中间部分显示了本发明提出的双模态学习理念。具体来说，给定一个视频，本发明通过前面提到的改进的3维卷积网络分别对RGB图像流和光流图像流提取视频片段的特征，也就是运动子状态特征。本发明用{x_rgb,t}代表3维网络从RGB数据源提取的特征，并且用{x_flow,t}表示从光流数据源提取的特征。针对t时刻的运动子状态，本发明可以采用融合计算方式(比如加和，最大池化或者拼接)，生成新的具有两种模态信息的特征。因此，通过模态融合，本发明将得到新的运动子状态的特征序列：{x_f,1,...,x_f,t,...,x_f,N}。然后，可以利用提出的行为完整性建模方法，生成得到最终的行为整体特征。

2)所述网络优化方法：

本发明对现有的方法的不足提出了本发明的改进方案。集合所有的改进方式，本发明构建了所示的行为识别网络。提出的网络通过提取再融合的方式，逐渐得到最终的行为特征。本发明的目的是，通过网络计算得到的行为特征最终能够在分类层中得到区分。为了实现这个目的，网络的参数需要优化。优化网络的方法通常是后向传播算法。而采用后向传播算法的关键是定义损失函数。针对行为识别，本发明使用标准的多类别交叉熵损失目标去优化本发明整个网络。

具体来说，本发明得到行为特征X_v，本发明利用softmax回归层计算M个行为类别发生的概率。其中，特定类别C的概率通过式(3)得到。其中，Wc和bc都是softmax层需要优化的参数。

为了使得真实类别的概率最大，如公式(4)所示，本发明定义损失函数为信息交叉熵。其中，当且仅当输入样本i的真实类别是c，D是训练数据集样本的个数。

因此，通过优化公式(4)来更新网络参数，使得该函数的输出值最小，即可以满足对训练数据集上的拟合。对于参数更新的方式，本发明可以采用梯度下降的方法来实现这个目标。

3)所述网络多尺度输入：为了研究网络对不同尺度输入的识别性能，在实验阶段本发明会预先设定输入网络的视频片段具有两种不同的空间分辨率和图像帧数。具体地，本发明根据引文中的经验，本发明选取空间分辨率为112×112，时长16帧作为第一种输入维度的设定。另外，根据目前在图像识别领域的经验，本发明选取分辨率为220×220，时长为32帧作为第二组设定。

4)所述网络训练方式：与图像识别领域相比，目前可用的视频训练集的规模相对小。因此，在数据量缺乏的情况下训练一个深度的3维卷积网络，会面临着较高的过拟合风险。由于引入了基于时域和空域的金字塔池化层，本发明的深度3维网络具有在不增加模型复杂度下接受多尺度输入数据进行训练的能力。借此优势，本发明提出多尺度训练深度网络的模式。

(1)、单尺度训练模式

在介绍多尺度训练模式之前，本发明首先介绍在特定单一种输入尺度下的训练方式。在单尺度训练模式下，模型仅接收单一输入尺度的训练数据进行训练。而模型训练结束的标志是在单一尺度训练数据集上，其损失函数的值不再降低。本发明设定的这种单尺度的训练模式，其目的是为了验证多级池化对网络学习行为特征的有效性。

具体来说，在单一尺度训练模式下，假设利用所提到的第一种设定。也就是每个视频片段具有16帧分辨率为112×112的图像数据流。在这个设定中，每一个视频片段经过本发明提出的网络进行一次前向传播后，最后一个卷积层将输出512个大小为2×8×8的特征图谱。利用3个池化级别，最后会将维度为512×2×8×8的特征图谱映射成512×21的特征向量。而引文所用的普通池化层属于单级的池化技术。本发明将在后面的章节，通过单尺度训练模式验证本发明提出的时域和空域的金字塔池化多级池化技术的有效性。

(2)、多尺度训练模式

本发明对网络的输入设定定义了两种不同的尺度。在空间分辨率上有112×112和220×220两种，而在时长方面有16帧和32帧两种情况。因此，本发明可以得到4种组合尺度：

{16×112×112},{16×220×220},{32×112×112},{32×220×220}。考虑到硬件资源的限制，在多尺度训练模式下，本发明将选取前三种尺度作为输入设定。而{32×220×220}的设定因训练的计算资源需求过大而在本文的实验中舍去。因此，本发明在训练阶段将输入3种设定的数据对网络进行优化。具体而言，本发明选择特定的一种尺度数据训练本发明的网络。等一轮结束后，以另一种尺度的数据继续训练。通过重复地交替不同尺度的数据对网络进行优化，直到在3种尺度的训练数据集下的损失值达到收敛的状态。通过多尺度数据集的训练，网络模型应对现实场景的数据的容忍能力会得到提升。具体地，本发明在实验部分验证这种变向的数据增强方式能够降低模型过拟合的风险，提升网络识别的泛化能力。

5)实验设计与结果分析：

本发明设计的实验共有两个验证目标。首先，本发明对所提出的所有改进措施进行验证。然后，本发明设计对比实验，验证本发明提出的方法的有效性。

1、数据集与评价标准

本发明将采用3个公开的行为识别数据集进行实验。它们分别是：UCF101，HMDB51和ACT。

目前，UCF101作为行为识别挑战赛THUMOS的专用数据集，非常适合用于验证本发明提出的方法。具体而言，该数据集包含13320不同时长的短视频，涉及到101个行为类别。另外，每个视频的分辨率是320×240并且平均时长是7秒钟。

本发明利用官方提供的3种数据集划分的方案将训练数据和测试数据进行分开。每一种方案中，训练视频大约有9200个，测试数据集大约有4000个。HMDB51是2011年公布的关于行为识别的数据集。该数据集包含6766个视频，涉及到51个不同的行为类别。由于该数据集在样本数量上比较少，同时视频内容噪音较多，这使得该数据集上的行为识别变得更加的具有挑战性。同样，本发明按照官方提供的数据划分方式，对该数据集进行划分。最终可以得到3766个训练视频，1200个验证视频以及1800个测试视频。

最后一个数据集是ACT行为识别数据集。其在2016年的CVPR上正式公布，是一个新的数据集。它一共包含了11234个视频，包括了43个不同的行为类别。与前两个数据集不同，在设计的43个行为类别中，有很多行为是相似的。比如，其中就包含了“swing baseball”，“swing golf”和“swing tennis”三个在动作上相似的类别。增加的类内相似性，这对行为识别的模型要求就会更高，也更有利于本发明提出的模型对细化变化识别能力的验证。

本发明采用行为识别中统一的评价标准来评估模型性能。即采用在验证数据集上的识别准确率来评判模型的好坏。

2、基本实验环境说明

在介绍实验之前，本发明先对网络的各个基本设定进行说明。首先，所有本发明设计的网络模型都在单个型号为GeForce Titan Z的GPU(含有6GB显存)上进行训练。本发明将网络的初始学习率设置为0.001，并且每训练迭代10000次学习率降低为当前的1/10。最大的训练次数设为30000次。每一次迭代，本发明用30个样本来更新网络。

在数据预处理方面，视频每一帧图像都需要做零均值化处理。关于光流图像集的采集，本发明采用OpenCV工具通过TVL1算法预先对数据集中的所有视频进行光流计算，并保存为图像格式。最后，在对视频进行划分时候，本发明以不重叠的方式进行划分和提取。也就是相邻的视频片段不存在内容上的重复。

3、网络各个基本模块研究性实验

本发明针对本发明提出的改进方法，进行实验验证。具体来说，本发明一共设计5组实验。第一组实验用于对训练方法的调研。第二组实验用于验证STPP多级池化技术的有效性。第三组实验则是验证行为完整性建模的方法。在第四组实验，本发明分析各种多模态学习的方式。在最后的第五组实验，则是与当前其他已经提出的行为识别方法进行对比的实验，用于说明所提出的方法的有效性。

3.1深度网络训练方法的研究性实验

训练本发明提出的深度网络有两种方式。一是单尺度训练模式，二是多尺度训练模式。考虑到本发明实验所采用的数据集的规模相对较小。在训练过程中，可以采用迁移学习的方式，利用已经在其他数据集上训练好的模型来初始化本发明即将训练的模型。比如，引文在训练3维卷积网络时，在Sports-1M这个包含100万个视频的数据集上做预训练。同样地，在预训练模型的设定中，本发明利用引文提供的在Sports-1M的训练模型来初始化本发明3维网络中3维卷积层的参数。

为了找到合适的训练方法，本发明定义了如下的训练设定：1.没有预训练的单训练模式。2.有预训练的单尺度训练模式。2.有预训练的多尺度训练模式。另一方面，为了体现STPP的有效性，本发明设定两个比较模型。一个是引文所提出的C3D网络。另一个是引入时域和空域的金字塔池化多级池化层的3维卷积网络。在第二个模型中，

本发明去除行为完整性的网络结构，同时采用3个级别的池化。这使得第二个模型与C3D网络在行为识别的假设一致，都是将视频片段等价于整体行为。这样可以保证两个模型的差别在于是否采用STPP多级池化技术。需要注意的是，C3D网络不具有多级池化技术，因而不能支持本发明提出的多尺度训练模式。

本发明通过将两个网络以三个不同的实验环境设定下，在UCF101数据集上的RGB图像数据源进行实验。为了简便，本发明对该实验的第二个模型命名为RGB时域和空域的金字塔池化。通过结果的显示，本发明有以下两点的观察：1.经过多尺度训练的模型在识别性能上要比经过单尺度模式下训练的模型要高1.5个百分点。2.在所有的实验环境设定中，RGB时域和空域的金字塔池化模型在识别性能上都比C3D模型高。通过该实验，本发明可以推断以预训练和多尺度训练模式的结合更有利于优化本发明提出的模型。一个可能的原因是该组合方式通过间接的方式增强数据，使得模型的过拟合的风险得到降低。同时时域和空域的金字塔池化层的池化技术能够提取更多的特征信息。因此，在后面的实验中，本发明选择预训练与多尺度模式的组合方式对网络模型进行训练。

3.2时域和空域的金字塔池化的尺度选择实验

在STPP层中，理论上本发明可以设置更多的的池化窗口。需要注意的是，池化窗口的增加同时也会造成下一层全连接层的参数个数的增加。本发明进行第二组实验，并探究池化窗口个数和训练参数个数之间的平衡。具体地，本发明设定两种不同的时域和空域的金字塔池化层。第一种时域和空域的金字塔池化层只有两级池化窗口，其池化级别为2×2×1和1×1×1。第二种时域和空域的金字塔池化层有3级池化窗口，池化级别为4×4×1，2×2×1和1×1×1。本发明在UCF101的RGB图像数据源上训练这两个不同设定的网络模型，并和基本C3D模型进行对比。从实验的结果，本发明有两个方面的观察。第一，在识别性能方面，基于第一种设定的STPP网络要比基本的C3D网络得到更好的结果(82.7％vs82.1％)。在参数数量方面，第一种时域和空域的金字塔池化网络所需要的量最少。因此，本发明推断时域和空域的金字塔池化的多级池化技术能够提高识别性能，不是因为参数增加，而是在于其能够提取多尺度特征的能力。第二，第二种时域和空域的金字塔池化网络在识别的性能方面体现的最好(准确率达83.7％)，但同时它导致整个网络的参数量也是最多(大约884万)。

结合以上的观察，拥有3级池化的时域和空域的金字塔池化网络其识别效果较好。因此，在后续的实验，本发明统一采用第二种时域和空域的金字塔池化网络结构。

3.3行为完整性建模的实验

本发明进行第四组实验来验证是否行为完整性建模能够提升网络在行为识别方面的性能。具体地，本发明设定4种运动子状态特征的融合方式：1.特征均值池化；2.特征最大池化。3.本发明提出的基于LSTM递归网络的关联系嵌入方法。4.本发明提出的基于1维卷积的关联性嵌入方法。本发明在4种设定下，分别在UCF101的RGB图像数据集和光流图像数据集上进行训练这4种不同的网络。

从实验的结果中，本发明得到以下的观察。第一，以1维卷积方式的关联性嵌入方法(CNN-E)在RGB的数据集上的行为识别性能达到最好，准确率为85.6％。而在光流数据集上的行为识别性能达到最好的是以LSTM为基础的关联性嵌入方法，其准确率达到83.7％。第二，所有关联性嵌入的方法在行为识别的准确率上都要比简单的池化方法所达到的要高。通过实验，可以证明行为完整性建模的重要性，同时也体现了本发明提出的方案的可行性和有效性。

3.4多模态特征的实验

本发明分析了多模态学习的重要性。本发明将探讨各种不同多模态特征的融合方法对网络在行为识别性能的影响。目前通用的特征融合方法有3种，分别是：特征对应元素相加，特征对应元素取最大值以及特征拼接。对于哪一种融合方式达到的效果最好依然是个开放性问题。根据不同的融合方式构建不同的识别网络。并在UCF101和ACT两个数据集上进行验证。

通过该实验结果，本发明可以得到以下发现。第一，总体上看，以拼接方式的多模态特征融合的识别网络所展现的识别效果最好，其在UCF101的准确率都超过91％。第二，在ACT数据集上的细微行为识别方面，各个融合的方式的识别网络，在行为识别性能方面差异不大，相差在1个百分点的范围内。

4、对比实验

到目前为止，本发明已经对网络的各个组件的影响有了一定的了解。本发明可以集成所有的优势来构建最终的识别网络。具体地，本发明采用具有3级池化的时域和空域的金字塔池化层。而在行为完整性建模方面，可以采用LSTM的方法或者CNN-E的方法。在多模态特征融合方面，拼接方式的优势最大。为了验证提出的识别模型的有效性，本发明在3种实验设定下进行考验。第一种是在RGB图像数据集上训练单个识别网络。第二种是在光流图像数据集上训练单个识别网络。第三种则是在两种模态输入下训练识别网络。在前两种设定下，本发明采用的网络结构包括：5个卷积层，1个包含3级池化的时域和空域的金字塔池化层，2个全连接层，1个CNN_E或LSTM的关联性嵌入层，行为分类层。为了描述方便，本发明将采用CNN_E方法的单个网络命名为CNN-E时域和空域的金字塔池化，而基于LSTM方式的称为LSTM时域和空域的金字塔池化。

在最后一种设定下，有两种模态的输入，则识别网络的结构设计如下：两组5个卷积层，两组3级池化的时域和空域的金字塔池化层，两组2个全连接层，一个多模态特征的拼接融合层，一个CNN-E或LSTM的关联性嵌入层，行为分类层。为了方便描述，本发明把最后采用LSTM方法的识别网络命名为F-LSTM时域和空域的金字塔池化，而用CNN-E方法的网络记为F-CNN-E时域和空域的金字塔池化。因此，本发明可以得到4种识别网络：基于CNN-E，LSTM，F-LSTM和CNN-E的时域和空域的金字塔池化层。本发明在3种实验设定下，训练这4种网络，并与当前的其他识别网络模型进行对比。为了进一步说明，本发明提出方法的有效性，本发明将在所有数据集上进行验证。并且与其他深度学习的行为识别网络进行比较。其他的方法，包括独立的双模态学习网络,基于3维卷积的深度识别网络，多模态特征融合的识别网络以及细微行为识别网络。

从实验结果，本发明可以得到以下发现。第一，在RGB图像数据流上训练的模型中，本发明提出的模型在UCF101数据集和HMDB51数据集上的识别性能都取到最好的结果。其中，在UCF101数据集上达到85.6％准确率，比其他最好的模型提高了1.6个百分点。而在HMDB51数据集上达到62.5％的准确率，比其他方法高出15个百分点。第二，在光流图像数据流训练的识别模型中，取得最好的识别性能的是引文提出的识别网络，其在UCF101数据集上的准确率达到87.8％，比提出的模型所达到的识别性能高出4个百分点。第三，在采用多模态数据训练的模型中，本发明提出的模型取得最好的识别性能。其中，本发明提出的方法在UCF101数据集上达到92.6％识别准确率，比其他方法高出0.2个百分点。而在HMDB51的数据集上则达到70％以上的准确率，比其他方法高出8个百分点。在细微行为的识别任务中，具体地，提出的方法在RGB数据流取得比其他模型要好的识别性能，而在光流图像数据上却不能达到最好。而在基于多模态学习的网络中，本发明的模型达到最高的识别性能，其准确率达到81.9％，比其他方法提高了1个百分点。通过以上观察，本发明的方法在RGB形式的数据流上取得很好的识别性能，但在光流图像上却达不到相似的性能。进而影响多模态学习的模型的识别性能。

本发明推断这是因为，在光流图像训练的网络模型没有很好的预训练模型。而在RGB图像上训练的模型本发明有在Sports-1M数据集上预训练的模型进行初始化。而在前面的实验中，本发明已经验证了预训练的重要性。因此，缺乏在光流图像上预训练的模型是造成本发明的方法没有取到好的识别性能的因素之一。但从总体上来看，本发明提出的方法在识别性能上已经得到改进。并且，能够处理任意尺度和时长的视频。相比其他方法更具有灵活性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于3D深度卷积网络的人类行为识别的方法，其特征在于，所述基于3D深度卷积网络的人类行为识别的方法首先将一个视频划分为一系列连续的视频片段；然后，将连续的视频片段输入到由卷积计算层和时空金字塔池化层组成的3D神经网络得到连续的视频片段特征；然后通过长短记忆模型计算全局的视频特征作为行为模式。

2.如权利要求1所述的基于3D深度卷积网络的人类行为识别的方法，其特征在于，所述基于3D深度卷积网络的人类行为识别的方法具体包括：

改进标准的3维卷积网络C3D，引入多级池化的方法，将任意大小的卷积特征图谱映射成固定维度的特征向量；

根据不同模态特征，并采用多模态的学习方法进行多模态特征融合，得到需要的行为特征。

3.如权利要求2所述的基于3D深度卷积网络的人类行为识别的方法，其特征在于，所述改进了标准的3维卷积网络C3D，通过引入多级池化的方法，能够将任意大小的卷积特征图谱映射成固定维度的特征向量，具体包括：

进行基于空域和时域的金字塔池化：在最后一层卷积层之后添加空域与时域的金字塔池化层，通过空域和时域的金字塔池化层将具有不同维度的特征图谱映射成固定维度的特征向量。

4.如权利要求2所述的基于3D深度卷积网络的人类行为识别的方法，其特征在于，所述通过递归网络或者1维卷积网络对各个运动子状态进行关联性信息嵌入，并生成行为特征，用于行为分类；具体包括：

5.如权利要求4所述的基于3D深度卷积网络的人类行为识别的方法，其特征在于，所述变体长短期记忆模型LSTM为网络对序列数据{X₁,...,X_t...,X_N}的计算方式；通过LSTM的门机制，子动作状态X_t通过式LSTM网络转换为具有前后情景信息的状态h_t；

具体包括：LSTM网络根据当前的运动状态和上一情景状态h_t-1，通过logist回归得到输入门，遗忘门和输出门的控制信号；然后通过门信号计算新的情景状态h_t；得到新的序列状态特征{h₁,...,h_t...,h_N}，通过最大池化的方式进行筛选；假设有一个一维卷积核，其窗口长度为C；在给定的序列动作特征{X₁,...,X_t...,X_N}，1维卷积通过卷积的方式对各个特征进行相关性嵌入；表示为下式的计算方式；

v_t＝W_cnnx_t：t+c-1+b；

6.如权利要求1所述的基于3D深度卷积网络的人类行为识别的方法，其特征在于，所述根据不同模态特征的优势，并采用多模态的学习方法进行多模态特征融合，进而得到更好的行为特征，具体包括：

多模态特征学习：

采用{x_rgb,t,}代表3维网络从RGB数据源提取的特征，并且用{x_flow,t}表示从光流数据源提取的特征；针对t时刻的运动子状态，采用融合计算方式，生成新的具有两种模态信息的特征；通过模态融合，将得到新的运动子状态的特征序列：{x_f,1,...,x_f,t,...,x_f,N}；然后，利用行为完整性建模方法，生成得到最终的行为整体特征。

7.如权利要求1所述的基于3D深度卷积网络的人类行为识别的方法，其特征在于，所述的基于3D深度卷积网络的人类行为识别的方法还包括：网络优化方法，所述网络优化方法包括：

使用标准的多类别交叉熵损失目标优化所述识别网络；

利用softmax回归层计算M个行为类别发生的概率；特定类别C的概率通过下式得到；其中，W_c和b_c都是softmax层需要优化的参数；

<mrow> <msub> <mi>prob</mi> <mi>c</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>c</mi> </msub> <msub> <mi>X</mi> <mi>v</mi> </msub> <mo>+</mo> <msub> <mi>b</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </msub> <msub> <mi>X</mi> <mi>v</mi> </msub> <mo>+</mo> <msub> <mi>b</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>

为使得真实类别的概率最大，如下式所示，定义损失函数为信息交叉熵；其中，当且仅当输入样本i的真实类别是c，D是训练数据集样本的个数；

<mrow> <mi>l</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>,</mo> <mi>M</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>D</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msubsup> <mi>y</mi> <mi>c</mi> <mi>i</mi> </msubsup> <mrow> <mo>(</mo> <mi>log</mi> <mo>(</mo> <mrow> <msubsup> <mi>prob</mi> <mi>c</mi> <mi>i</mi> </msubsup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

通过优化更新网络参数，使该函数的输出值最小，以满足对训练数据集上的拟合；对于参数更新的方式，采用梯度下降的方法对参数进行更新。

8.一种如权利要求1所述基于3D深度卷积网络的人类行为识别的方法的基于3D深度卷积网络的人类行为识别系统。