CN105095862B

CN105095862B - 一种基于深度卷积条件随机场的人体动作识别方法

Info

Publication number: CN105095862B
Application number: CN201510404260.XA
Authority: CN
Inventors: 刘杰; 刘才华; 黄亚楼; 于芳
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2015-07-10
Filing date: 2015-07-10
Publication date: 2018-05-29
Anticipated expiration: 2035-07-10
Also published as: CN105095862A

Abstract

本发明公开了一种基于深度卷积条件随机场的人体动作识别方法，所述人体动作识别方法包括以下步骤：根据空间卷积层、子采样层交替获取输入图像序列的空间特征表达；对输入图像序列的空间特征表达进行时间卷积操作得到进一步图像序列特征表达；构建基于时空卷积网络的深度条件随机场识别模型，并进行优化；对待预测视频序列进行优化后的深度条件随机场识别的前向计算，得到待预测视频序列中每一帧图像所属的动作类别标注信息。本发明实现了对图像序列数据的时空变换建模，达到了很好的人体动作识别效果。

Description

一种基于深度卷积条件随机场的人体动作识别方法

技术领域

本发明涉及人体动作识别领域，尤其涉及一种基于深度卷积条件随机场的人体动作识别方法。

背景技术

目前，计算机视觉应用中基于人体动作识别的应用已经成为人工智能领域的一个重要问题。由于动作的各帧之间存在时间上的依赖关系可以自然地形成一个序列标注问题。通过对动作序列的识别问题，识别不同动作图像序列代表的含义，可以进行视频监控，人机交互等场景下的人体行为分析。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：

现有技术中的条件随机场方法在进行序列学习过程中主要采用人工设计抽取特征的方式，但在实际应用中无法预知哪些是高性能的人工设计特征。条件随机场方法无法对图像序列数据的时空变换进行很好的建模，特别是当原始输入节点为高维非线性数据时。基于条件随机场改进的非线性方法，如增加核函数的条件随机场等，只能获取浅层特征，无法对数据间复杂的非线性关系进行建模。另外，条件随机场方法无法针对不同场景自动自适应学习数据的特征。

发明内容

本发明提供了一种基于深度卷积条件随机场的人体动作识别方法，本发明实现了对图像序列数据的时空变换建模，达到了很好的人体动作识别效果，详见下文描述：

一种基于深度卷积条件随机场的人体动作识别方法，所述人体动作识别方法包括以下步骤：

根据空间卷积层、子采样层交替获取输入图像序列的空间特征表达；

对输入图像序列的空间特征表达进行时间卷积操作得到进一步图像序列特征表达；

构建基于时空卷积网络的深度条件随机场识别模型，并进行优化；

对待预测视频序列进行优化后的深度条件随机场识别的前向计算，得到待预测视频序列中每一帧图像所属的动作类别标注信息。

其中，所述深度条件随机场识别模型包括：

状态函数，用于获得非线性变换之后序列中的图像数据与类别标签之间的关系；

转移函数，用于一帧图像数据与当前图像经过时空卷积变换的特征、类别标签以及前一帧的类别标签之间的关系；

采用层次前馈网络作为特征抽取器与条件随机场构成的无向图模型进行联合训练。

其中，对深度条件随机场识别模型的优化具体为：

使用随机梯度下降的方式优化目标函数法采用后向传播的方式逐层进行求导。

其中，所述对待预测视频序列进行优化后的深度条件随机场识别的前向计算，得到待预测视频序列中每一帧图像所属的动作类别标注信息的步骤具体为：

通过神经网络的前向计算得到图像序列中每帧图像的高层特征表达，形成图像序列的特征表达，然后通过条件概率最大化得到最可能的标注序列，即每一帧图像所属的动作类别标注信息。

本发明提供的技术方案的有益效果是：采用时空卷积网络自动学习人体动作特征，由于模型学习过程中考虑了时空上的变化，使得模型具有学习时空双维度变换不变性的能力。同时采用条件随机场方法与时空卷积网络联合学习方法捕获图像标注之间的依赖关系。另外现在方法大多针对已经切分好的只包含一个动作数据，本发明所使用的方法可以处理未切分包含多个动作的人体动作视频数据，并通过预测的每帧图像动作标签实现多个动作的自动切分，满足了实际应用中的多种需要。

附图说明

图1为一种基于深度卷积条件随机场的人体动作识别方法的流程图；

图2为时空卷积条件随机场模型示意图；

图3为Weizmann数据集中包含的动作关键帧示意图；

图4为未切分IIPAction动作识别数据集中一些关键帧，上下分别为两个不同的序列，每个序列中包含4类动作的示意图。

图5为4个不同的动作序列上，不同方法得到的切分边界与真实标签的自动切分结果对比的示意图。

(a)为第1个动作序列上，不同方法与真实标签的自动切分结果对比的示意图；(b)为第2个示例动作序列上，不同方法得到的切分边界与真实标签的自动切分结果对比的示意图；(c)为第3个示例动作序列上，不同方法得到的切分边界与真实标签的自动切分结果对比的示意图；(d)为第4个示例动作序列上，不同方法得到的切分边界与真实标签的自动切分结果对比的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明将深度卷积神经网络与条件随机场模型的优点结合，使得条件随机场模型具有学习非线性特征的能力，并在建模过程中考虑动作图像序列数据在时空上的特点，对人体动作进行识别，参见图1，详见下文描述：

实施例1

101：根据空间卷积层、子采样层交替获取输入图像序列的空间特征表达；

102：对输入图像序列的空间特征表达进行时间卷积操作得到进一步图像序列特征表达；

103：构建基于时空卷积网络的深度条件随机场识别模型，并进行优化；

104：对待预测视频序列进行优化后的深度条件随机场识别的前向计算，得到待预测视频序列中每一帧图像所属的动作类别标注信息。

其中，步骤103中的深度条件随机场识别模型包括：

进一步地，步骤103中的对深度条件随机场识别模型的优化具体为：

进一步地，步骤104中的对待预测视频序列进行优化后的深度条件随机场识别的前向计算，得到待预测视频序列中每一帧图像所属的动作类别标注信息的步骤具体为：

综上所述，通过上述步骤101-步骤104的处理，本发明实施例实现了对图像序列数据的时空变换建模，达到了很好的人体动作识别效果。

实施例2

下面结合计算公式、例子以及图2对实施例1中的方案进行详细描述，其中，整个时空卷积网络有两个不同的操作，分别为空间卷积、时间卷积，下面将分别进行详述：

201：根据空间卷积层、子采样层交替获取输入图像序列的空间特征表达；

其中，空间卷积网络主要为交替的空间卷积层以及子采样层。空间卷积层主要检测输入图像中的特征，子采样层在局部进行平均操作或者局部最大化操作，降低图像分辨率，提高特征的鲁棒性。空间卷积层的主要操作表示如下：

空间卷积操作为对i-1层特征图上的局部区域进行卷积操作，然后将卷积得到的值进行非线性变换，采用Sigmoid或者tanh函数(该两个函数为本领域技术人员所公知，本发明实施例对此不做赘述)，最终得到多个i层特征图。那么对第i层的每一个特征图j，第(u,v)像素点对应的值计算方式为：

其中，为非线性函数，这里采用tanh函数；m为特征图的索引，为连接到第m个特征图的卷积核；表示第i层在前一层特征图(i-1层)上进行窗口滑动的区域；P_i，Q_i分别为第i层卷积核的高度与宽度；b^i,j表示在第i层的第j个特征图上的加性偏置。

对于子采样层来说，输入的特征图的数量与输出的特征图数量相等，只是每一个输出特征图都变小了。子采样层的操作如下：

x^i,j＝f(β^i,jdown(x^i-1,j)+b^i,j) (2)

其中，down(.)表示一个下采样的操作，即对x^i-1,j进行下采样。典型的操作是对于初入特征图的不同块所有像素进行求和，或者取区域内的最大值。β^i,j表示在第i层的第j个特征图上的乘性偏置。

根据公式(1)(2)的交替运算，得到空间卷积网络的空间特征表达

假设本发明实施例采用4层的空间卷积网络，需人工设计网络结构，可采用2层卷积层，2层子采样层或者3层卷积层，1层子采样层等。

例如：本发明实施例采用2层卷积层，2层子采样层的网络，假设输入为第0层，标记为通过公式(1)即卷积层得到再通过公式(2)子采样层得到再通过交替卷积层、子采样层分别得到x³、x⁴。那么x⁴即为得到的空间特征表达，其作为202步骤的输入进一步进行时间卷积操作。

需要说明的是，此部分卷积层以及子采样层的参数均为随机初始化，经过步骤204对参数进行优化求导后，根据优化过程不断更新此部分参数。

202：对步骤201获取的图像序列的空间特征进行时间卷积操作得到进一步图像序列特征表达；

在空间卷积之后进行时间上的卷积操作以更好地捕捉动作在时间上的依赖关系。假设步骤201中多层的神经网络之后输出的图像序列的空间特征表示为那么空间卷积层之后连接的时间卷积层特征为第i+1层的网络输出，

具体表示如下：

其中，表示经过时间卷积变换之后第t个图像在i+1层的第r个元素的值；S表示时间卷积的窗口大小；表示步骤201中得到的空间特征中的第t+s帧图像的第j个特征图的值；为对应的权重参数；bⁱ⁺¹表示空间网络上的加性偏置。

本发明实施例中时间变换在空间变换后，且只采用一层的时间变换，时空卷积操作到此全部完成，本发明实施例将得到的记为最终的图像序列的特征Φ＝{φ₁,φ₂,...,φ_t}。

例如，步骤201中采用的四层空间变换后，那么空间变换之后得到第5层输出即为时空卷积的特征表达Φ＝{φ₁,φ₂,...,φ_t}。

需要说明的是，此部分时间卷积层参数均为随机初始化，经过步骤204对参数进行优化求导后，根据优化过程不断更新此部分参数。

203：构建基于时空卷积网络的深度条件随机场识别模型；

根据步骤201以及步骤202的时空卷积变换，本发明实施例将其与条件随机场方法进行联合学习，形成深度条件随机场识别模型。在条件随机场模型中，除了模型整体的设计之外，势能函数的构建也极为重要，本发明实施例根据实际应用问题，提出了序列势能特征函数的构建方法。

本发明实施例为深度卷积条件随机场模型设计两类特征函数，即状态函数与转移函数。状态函数即构建点与标签之间的关系，转移函数即建模各个序列节点标签之间的关系，具体包括：

状态函数F^v(x,y)，主要获得非线性变换之后序列中的图像数据与类别标签之间的关系，是图模型中点之间的关系，用符号v表示，具体定义为：

其中，f^v表示图像序列中某一图像与标注信息(与图像相对应)的关系。φ(x_t)表示原始图像序列中的第t帧时空卷积网络变换之后得到的特征；y_t为对应第t帧图像的类别标注信息。假设φ(x_t)的维度为d，所有动作类别一共有|у|种，那么状态函数的个数为|у|×d个。

转移特征函数F^e(x,y)，是图模型一种边关系用符号e表示，具体为：

其中，f^e(y_t,y_t-1)表示图像序列中当前第t帧与t-1帧图像类别标注信息之间的关系；y_t-1为对应第t-1帧即前一帧图像的类别标注信息。类比公式(4)，转移函数共有d×d个；y_t-1＝y且y_t＝y′表示一种隐藏状态对(y,y')；y′表示所有可能的动作类别标签的集合中的一种类别标签。

所设计的卷积条件随机场定义了一种新的转移特征函数F^ve(x,y)来捕获更复杂的序列依赖关系，具体表示为：

f^ve(φ(x_t),y_t,y_t-1)表示一帧图像数据与当前图像经过时空卷积变换的特征φ(x_t)、类别标签y_t以及前一帧的类别标签y_t-1之间的关系。新的转移特征函数共有|y|×d×d个。

深度条件随机场框架具体为：采用层次前馈网络作为特征抽取器与条件随机场构成的无向图模型联合训练。假设共有N个输入图像序列，其中第n个输入图像序列包含t_n个图像表示为对应的标注序列为那么深度条件随机场模型定义如下：

其中，是归一化函数，保证P(y|x)的和为一；X＝{x₁,x₂,...x_t}为输入图像序列，y＝{y₁,y₂,...y_t}为动作类别标签序列；y′代表所有可能的类别标注；x_t为输入图像序列中的第t帧图像；Ψ_t(y,Φ；Θ)为时空卷积表达与输出标注信息的建模，具体表示为其中f_k为势能函数分别为公式(4)、(5)和(7)中的f^v、f^e、f^v,e。

其中，Θ＝{λ,ω}为模型要优化的参数，λ为条件随机场部分的参数。Φ＝{φ₁,φ₂,...,_tφ}，每一个φ_t≡φ(x_t,ω)是一个非线性变换，ω为非线性变换中的参数。此非线性变换通过时空的卷积神经网络实现。通过以上的设计使得卷积条件随机场方法不但针对非线性数据具有较好的高层特征表达能力，还可以有效的建模图像序列中图像之间的依赖关系。

深度卷积条件随机场输入为一组训练图像序列最大化P(y|x；Θ)的似然概率，那么等价于最小化log似然概率的负值。那么整个模型的优化目标J表示为：

其中，第一项为卷积条件随机场中log似然概率。第二项为正则化项，为了使得参数具有更小的复杂度，假设参数符合高斯分布，σ表示高斯分布的标准差，为人工设定的参数。优化的目标为最小化J。

204：深度条件随机场识别模型的优化；

使用随机梯度下降的方式优化目标函数，整体算法采用后向传播的方式逐层对参数Θ＝{λ,ω}进行求导。

其中，对λ的求导表示如下：

其中，λ_k为条件随机场部分参数向量的第k维权重。φ为经过时空变换网络得到的特征矩阵，矩阵中的元素φ_r,t为时间为t的图像帧经过时空卷积变换之后的特征向量φ(x_t)中的第r个维度的值。f_k(y_t,y_t-1,φ,t)为势能函数在输入为y_t,y_t-1,φ,t情况下的值，由公式(4)、(5)和(7)中的f^v、f^e、f^v,e得到的结果进行求和得到；而边缘概率P(y,y'|φ)即P(y,y'|x；Θ)可以通过信念传播的方式计算(具体的计算步骤为本领域技术人员所公知，本发明实施例对此不做赘述)。f_k(y,y',φ,t)为势能函数在类别标签为所有可能值的情况下，由公式(4)、(5)和(7)中的f^v、f^e、f^v,e得到的结果进行求和得到的值。

以上为对条件随机场部分的求导，而对于时空卷积神经网络参数ω的求导主要通过计算来实现，ω_g为卷积神经网络部分中第g层的参数。其与人工神经网络中反向传播的求导方式相同。

205：对待预测视频序列进行优化后的深度条件随机场识别的前向计算，得到待预测视频序列的每一帧图像所属的动作类别标注信息。

首先通过神经网络的前向计算得到图像序列中每帧图像的高层特征表达φ_t，形成图像序列的特征表达φ，然后通过条件概率最大化得到最可能的标注序列y^*，即每一帧图像所属的动作类别标注信息，具体的计算方式如下：

其中，p(y|φ,λ)为根据得到的特征表达φ以及条件随机场部分的参数λ计算得到的输出类别标签为y的概率。

综上所述，通过上述步骤201-步骤205的处理，本发明实施例实现了对图像序列数据的时空变换建模，达到了很好的人体动作识别效果。

实施例3

下面以具体的试验来验证本方法的可行性，本发明采用了两种类型的数据集对所提出的算法进行验证。一种是每个视频中只包含一种动作的已切分动作数据集，另外一种是每个视频中包含多个动作的未进行动作切分的数据集。下面将对两个数据集以及实验结果分别进行描述。

参见图3，已切分的Weizmann数据集是动作识别任务中常用标准数据集之一。此数据集包含9个人录制的83个视频。共有9类动作，分别是跑、走、开合跳、两腿向前跳、双腿原地跳、鞠躬、双手挥手、单手挥手和滑步。本方法对每一帧进行背景剪除工作，并且对动作进行居中处理。初步处理后图像大小为103×129，边缘仍然有大量的空白区域，再此基础上去掉一些空白区域，同时保证图像仍然居中，最后得到的图像大小为82×82。随机选择其中5个人的动作作为训练集，而其他4个人的动作作为测试集。

为了验证本方法所提出卷积条件随机场学习方法对于未切分动作视频的识别能力。参见图4，本方法录制了包含多个动作的未切分动作识别数据集，记作IIPAction。未切分动作识别数据集采自普通相机，录制视频的分辨率为640×480，帧率为30fps。共捕获4类动作分别为挥手、鞠躬、跳和跑。共有5人参与录制，获得264个动作序列，每个动作序列中包含4类动作中的1-4个类别，序列长度为1-8个动作。随机选取175个视频序列作为训练数据，其余的视频序列作为测试数据。所有的视频数据首先进行背景剪除操作。并且对数据进行居中以及去掉一些空白区域，最后得到的动作图像大小为82×82。

为了评估本方法所提出卷积条件随机场(Convolutional Conditional RandomField,ConvCRF)方法的性能，只采用空间卷积网络条件随机场记做ConvCRF_s，采用时空条件随机场的方法记做ConvCRF_s-t，其中s表示空间，t表示时间。本发明采用两类对比算法，一类为基于序列模型的方法，包括，条件随机场方法(CRF)，带有一层神经网络隐藏层的条件随机场方法(NNCRF)。另一类为非序列的模型，包括神经网络(NN)、卷积神经网络(CNN)和支持向量机(SVM)。其中涉及CRF的算法，本发明均考虑两种具有不同特征函数的CRF方法，其中CRF^v,e为标准的CRF算法，而CRF^v,e,ve为增加新的特征函数的CRF。类比此命名方式，NNCRF以及ConvCRF的两种不同特征函数的方法记为NNCRF^v,e、NNCRF^v,e,ve以及ConvCRF_s ^v,e、ConvCRF_s ^v,e,ve、ConvCRF_s-t ^v,e、ConvCRF_s-t ^v,e,ve。其中v，e，ve分别对应公式4,5,7中的F^v，F^e，F^ve。所采用的CNN模型结构，包含3个卷积层和2个子采样层。3个卷积层的特征平面的数分别为4，32，128；而感知域的大小分别为15×15，13×13，11×11。2个子采样层均是在2×2的区域进行。ConvCRF^v,e和CconvCRF^v,e,ve中的CNN结构与此处的CNN结构相同。

本方法采用两个评价指标，即每一帧的准确率和每个视频的准确率。其中每个视频的预测标签由此视频中的每一帧的图像的标签进行大多数投票获得，如表1所示。

表1

本方法所提出的ConvCRF算法与基准算法的实验结果可以看出ConvCRF^v,e和ConvCRF^v,e,ve优于CNN方法，说明考虑图像之间的动态性依赖关系可以提升模型的性能。其次，ConvCRF^v,e和ConvCRF^v,e,ve优于CRF^v,e和CRF^v,e,ve可以看出，通过CNN方法可以提升CRF对于复杂非线性数据的处理，学习到的变换不变性特征可以更好地帮助动作序列的识别。最后，ConvCRF^v,e,ve、NNCRF^v,e,ve和CRF^v,e,ve分别优于ConvCRF^v,e、NNCRF^v,e和CRF^v,e，表明本方法设计的特征函数在动作识别问题上有效。

综上所述，本方法所提出的结合改进的卷积神经网络与条件随机场的深度序列模型优于基准算法。进一步说明综合考虑动作时空特性可以提升动作识别任务的性能。

另外，需要着重说明的是本方法不但支持一个视频中只包含单一序列的动作的视频，还可以对包含多个动作的未经切分的视频长序列仍然有效，同时根据预测标签的类别，本方法可以对待预测的未切分的视频长序列进行自动的切分。为了验证方法在未切分的数据集上的实验性能，本发明在IIPAction数据集上进行了验证，相关的结果如表2所示：

表2

实验表明在未切分动作数据集上和已切分数据集上各方法都取得了较好的效果，各方法的结论与未切分数据集相同。

下面本发明将给出切分结果，参见图5，横轴为视频中帧的索引，分别给出了真实划分、条件随机场、卷积神经网络方法与卷积条件随机场方法对于不同视频序列的划分结果，如图5(a)、5(b)、5(c)和5(d)所示。不同的灰度值分别代表IIPAction数据集中的四种动作。可以看出本发明提出的卷积条件随机场方法可以获得最接近真实标签的未切分动作识别结果。

综上所述，本发明实施了深度序列学习框架下基于时空卷积条件随机场的人体动作识别算法，利用深度学习的高层特征学习能力与条件随机场的依赖关系捕捉能力，联合优化学习，完成了具有时空变换不变性的人体动作图像序列识别方法。同时本发明优于其他发明的方法在于卷积条件随机场方法不但可以对已经切分的视频进行识别，还可以对未切分的包含多个动作的视频进行识别，并依据预测的动作标签自动完成动作的切分。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度卷积条件随机场的人体动作识别方法，其特征在于，所述人体动作识别方法包括以下步骤：

对待预测视频序列进行优化后的深度条件随机场识别的前向计算，得到待预测视频序列中每一帧图像所属的动作类别标注信息；

所述深度条件随机场识别模型包括：

2.根据权利要求1所述的一种基于深度卷积条件随机场的人体动作识别方法，其特征在于，对深度条件随机场识别模型的优化具体为：

3.根据权利要求1所述的一种基于深度卷积条件随机场的人体动作识别方法，其特征在于，所述对待预测视频序列进行优化后的深度条件随机场识别的前向计算，得到待预测视频序列中每一帧图像所属的动作类别标注信息的步骤具体为：