CN105678284A

CN105678284A - 一种固定位人体行为分析方法

Info

Publication number: CN105678284A
Application number: CN201610090842.XA
Authority: CN
Inventors: 虞永方; 王海波; 沈伟听; 师小宇
Original assignee: Zhejiang Bot Technology Co Ltd
Current assignee: Zhejiang Bot Technology Co Ltd
Priority date: 2016-02-18
Filing date: 2016-02-18
Publication date: 2016-06-15
Anticipated expiration: 2036-02-18
Also published as: CN105678284B

Abstract

一种固定位人体行为分析方法，包括如下步骤：1）、将人体检测的目标或扫描窗口进行HOG特征提取；2）、将人体检测的目标或扫描窗口进行CSS特征提取；3）、提取HOG和CSS特征，输入训练好的SVM进行判断是否是人体，如是则进行SVM人体检测；4）、对检测到的人体图像进行CNN人体二次确认；5）、对人体图像内的关键部位上标上landmark关键点并连接起来，组成关于人体或人脸的一个整体描述进行形状回归；6）、所得到关于目标姿态的一系列landmark关键点，通过landmark关键点之间的相对位置进行MHCRF行为识别；本发明具有不变性、归一化的优点，特别适合于做图像中的人体检测。

Description

一种固定位人体行为分析方法

技术领域

本发明属于人体行为分析方法技术领域，尤其涉及一种固定位人体行为分析方法。

背景技术

目前国际上固定位人体行为识别主要有四类问题难以解决：1、动作类内类间变化太大；2、多视角和遮挡问题；3、训练数据难以获取；4、算法实时性。为了解决以上难题，我们在当前国际上优秀的算法基础上开发出了一套基于HAR_plus算法上的固定位人体行为分析方法。

发明内容

本发明的目的在于克服现有技术存在的不足，而提供一种具有归一化、不变性特点的固定位人体行为分析方法。

本发明的目的是通过如下技术方案来完成的，包括如下步骤：

1)、将人体检测的目标或扫描窗口进行HOG特征提取；

2)、将人体检测的目标或扫描窗口进行CSS特征提取；

3)、遍历图像的每一个位置，提取HOG和CSS特征，输入训练好的SVM进行判断是否是人体，如是则进行SVM人体检测；

4)、对检测到的人体图像进行CNN人体二次确认；

5)、对人体图像内的关键部位上标上landmark关键点并连接起来，组成关于人体或人脸的一个整体描述进行形状回归；

6)、所得到关于目标姿态的一系列landmark关键点，通过landmark关键点之间的相对位置进行MHCRF行为识别。

作为优选，所述的HOG特征提取的提取过程为：

1)、将人体检测的目标或扫描窗口的图像看做一个x,y,z的三维图像并灰度化；

2)、采用Gamma校正法对输入图像进行颜色空间的归一化；

3)、计算图像每个像素的梯度、大小和方向；

4)、将图像划分成小cell；

5)、统计每个cell的梯度直方图，即可形成每个cell的descriptor；

6)、将每几个cell组成一个block，一个block内所有cell的特征descriptor串联起来便得到该block的HOG特征descriptor；

7)、将图像image内的所有block的HOG特征descriptor串联起来就可以得到该image的HOG特征descriptor。

作为优选，所述的CSS特征提取的提取过程为：

1)、定义一个矩形块R₁，提取某个通道内该矩形块内数值之和

CSS特征为R₁与相邻的矩形块R₂的比值：

矩形块R₁和R₂大小相同位置不同，对它进行拓展：

对某一位置的R₁和它邻近的24个相同大小的矩形块作比较来提取特征，共可以提取到48维特征；

2)、遍历所有位置；

3)、遍历所有颜色通道；

4)、遍历所有矩形块大小；

5)、得到最终的高维CSS特征向量。

作为优选，所述的形状回归的步骤包括训练步骤和测试步骤，分别如下：

训练步骤

1)、准备一定数量的目标样本图片以及对应的关键点形状标记数据，并计算所有样本的平均形状作为训练学习时候的初始形状；

2)、确定迭代回归次数T，然后循环步骤3)-4)迭代训练T次，得到T个模型；

3)、采用局部二值特征的方法学习得到LBF特征；

4)、采用全局线性回归矩阵的方法学习得到线性回归矩阵；

5)、保存T个模型，保存初始的平均形状；

测试步骤

1)、输入一张包含目标的样本测试图片以及目标的外接矩形框；

2)、载入初始的平均形状，按照步骤3)-4)迭代T次；

3)、提取LBF特征；

4)、根据公式ΔS^t＝W^tΦ^t(I，S^t-1)计算形状的位移，把它累加在当前的形状上；

5)、得到关键点已经对齐的最终形状。

作为优选，所述的MHCRF行为识别包括视频特征的提取和目标行为的识别，其具体步骤如下：

视频特征的提取步骤如下：

1)、对某一视频序列窗口[t–w，t+w]内的一帧，提取其目标的landmark关键点；

2)、将landmark关键点连接成一棵树，计算树上每两个节点之间的坐标差dx，dy；

3)、所有节点的坐标差联立成一个向量x；

4)、对视频序列窗口中的每一帧，都重复步骤1)-3)，并按照时间先后顺序联立成一个特征向量X；

采用MHCRF识别目标行为的步骤如下：

1)、收集所有视频序列窗口样本，根据视频特征提取叙述的方法提取每一个样本的特征向量X；

2)、设定好隐藏状态个数等参数，根据MHCRF训练叙述的方法进行模型训练；

3)、提取待识别视频序列窗口的特征向量X；

4)、根据MHCRF测试叙述的方法进行行为识别。

本发明的有益效果为：首先，由于HOG是在图像的局部方格单元上操作，所以它对图像几何的和光学的形变都能保持很好的不变性，这两种形变只会出现在更大的空间领域上；其次，在粗的空域抽样、精细的方向抽样以及较强的局部光学归一化等条件下，只要行人大体上能够保持直立的姿势，可以容许行人有一些细微的肢体动作，这些细微的动作可以被忽略而不影响检测效果，因此HOG特征是特别适合于做图像中的人体检测的。

附图说明

图1是本发明的分析方法步骤示意图。

图2是本发明的HOG特征提取步骤中的直方图示意图。

图3是本发明的block的HOG特征的示意图。

图4是本发明的MHCRF模型示例图。

具体实施方式

下面将结合附图对本发明做详细的介绍：如附图1所示，本发明包括如下步骤：

1)、将人体检测的目标或扫描窗口进行HOG特征提取；

2)、将人体检测的目标或扫描窗口进行CSS特征提取；

4)、对检测到的人体图像进行CNN人体二次确认；

所述的HOG特征提取的具体每一步详细过程如下：

1)标准化gamma空间和颜色空间

为了减少光照因素的影响，首先需要将整个图像进行规范化(归一化)。在图像的纹理强度中，局部的表层曝光贡献的比重较大，所以，这种压缩处理能够有效地降低图像局部的阴影和光照变化。因为颜色信息作用不大，通常先转化为灰度图；

Gamma压缩公式：

I(x，y)＝I(x，y)^gamma

比如可以取Gamma＝1/2；

2)计算图像梯度

计算图像横坐标和纵坐标方向的梯度，并据此计算每个像素位置的梯度方向值；求导操作不仅能够捕获轮廓，人影和一些纹理信息，还能进一步弱化光照的影响。

图像中像素点(x,y)的梯度为：

G_x(x，y)＝H(x+1，y)-H(x-1，y)

G_y(x,y)＝H(x,y+1)-H(x,y-1)

式中G_x(x，y)，G_y(x，y)，H(x，y)分别表示输入图像中像素点(x，y)处的水平方向梯度、垂直方向梯度和像素值。像素点(x，y)处的梯度幅值和梯度方向分别为：

最常用的方法是：首先用[-1,0,1]梯度算子对原图像做卷积运算，得到x方向(水平方向，以向右为正方向)的梯度分量gradscalx，然后用[1,0,-1]T梯度算子对原图像做卷积运算，得到y方向(竖直方向，以向上为正方向)的梯度分量gradscaly。然后再用以上公式计算该像素点的梯度大小和方向。

3)为每个细胞单元构建梯度方向直方图

第三步的目的是为局部图像区域提供一个编码，同时能够保持对图像中人体对象的姿势和外观的弱敏感性。

我们将图像分成若干个“单元格cell”，例如每个cell为6*6个像素。假设我们采用9个bin的直方图来统计这6*6个像素的梯度信息。也就是将cell的梯度方向360度分成9个方向块，如图2所示：例如：如果这个像素的梯度方向是20-40度，直方图第2个bin的计数就加一，这样，对cell内每个像素用梯度方向在直方图中进行加权投影(映射到固定的角度范围)，就可以得到这个cell的梯度方向直方图了，就是该cell对应的9维特征向量(因为有9个bin)。

梯度大小就是作为投影的权值的。例如说：这个像素的梯度方向是20-40度，然后它的梯度大小是2，那么直方图第2个bin的计数就不是加一了，而是加二。

细胞单元可以是矩形的(rectangular)，也可以是星形的(radial)。

4)把细胞单元组合成大的块(block)，块内归一化梯度直方图

由于局部光照的变化以及前景-背景对比度的变化，使得梯度强度的变化范围非常大。这就需要对梯度强度做归一化。归一化能够进一步地对光照、阴影和边缘进行压缩。

作者采取的办法是：把各个细胞单元组合成大的、空间上连通的区间(blocks)。这样，一个block内所有cell的特征向量串联起来便得到该block的HOG特征(如附图3所示)。这些区间是互有重叠的，这就意味着：每一个单元格的特征会以不同的结果多次出现在最后的特征向量中。我们将归一化之后的块描述符(向量)就称之为HOG描述符。

区间有两个主要的几何形状——矩形区间(R-HOG)和环形区间(C-HOG)。R-HOG区间大体上是一些方形的格子，它可以有三个参数来表征：每个区间中细胞单元的数目、每个细胞单元中像素点的数目、每个细胞的直方图通道数目。

例如：行人检测的最佳参数设置是：3×3细胞/区间、6×6像素/细胞、9个直方图通道。则一块的特征数为：3*3*9；

5)收集HOG特征

最后一步就是将检测窗口中所有重叠的块进行HOG特征的收集，并将它们结合成最终的特征向量输入SVM进行训练和分类。

CSS特征提取的具体每一步详细过程如下：

行人具有很强的局部相似性结构，一般情况下，人体上衣的颜色相似度，两手臂的颜色相似度，两个裤腿的颜色相似度均较高，而人体和周围环境的颜色相似度较低。利用该特征可以有效地区分行人和非行人目标。基于此特性，提出颜色自相似度特征(CSS)。

CSS特征为R₁与相邻的矩形块R₂的比值：

矩形块R₁和R₂大小相同位置不同。该方法可以衡量两个矩形块之间的相似度。为了增加特征的多样性，对它进行拓展：

2)、遍历所有位置；

3)、遍历所有颜色通道；

4)、遍历所有矩形块大小；

5)、得到最终的高维CSS特征向量。

CNN人体二次确认

为了提高人体检测的精度，需要对检测到的人体图像进行CNN二次确认，以排除误检。

1.1CNN介绍

CNN架构的连接比权值要多很多，这实际上就隐含着实现了某种形式的规则化。这种特别的网络假定了我们希望通过数据驱动的方式学习到一些滤波器，作为提取输入的特征的一种方法。

我们先对训练全连接网络的经典BP算法做一个描述，然后推导2DCNN网络的卷积层和子采样层的BP权值更新方法。最后，我们转向讨论如何自动地学习组合前一层的特征图，特别地，我们还学习特征图的稀疏组合。

1.2全连接的反向传播算法

典型的CNN中，开始几层都是卷积和下采样的交替，然后在最后一些层(靠近输出层的)，都是全连接的一维网络。这时候我们已经将所有两维2D的特征图转化为全连接的一维网络的输入。这样，当你准备好将最终的2D特征图输入到1D网络中时，一个非常方便的方法就是把所有输出的特征图连接成一个长的输入向量。

1.2.1前向传播

在下面的推导中，我们采用平方误差代价函数。我们讨论的是多类问题，共c类，共N个训练样本。

这里表示第n个样本对应的标签的第k维。表示第n个样本对应的网络输出的第k个输出。对于多类问题，输出一般组织为“one-of-c”的形式，也就是只有该输入对应的类的输出节点输出为正，其他类的位或者节点为0或者负数，这个取决于你输出层的激活函数。sigmoid就是0，tanh就是-1.

因为在全部训练集上的误差只是每个训练样本的误差的总和，所以这里我们先考虑对于一个样本的BP。对于第n个样本的误差，表示为：

传统的全连接神经网络中，我们需要根据BP规则计算代价函数E关于网络每一个权值的偏导数。我们用l来表示当前层，那么当前层的输出可以表示为：

x^l＝f(u^l)，withu^l＝W^lx^l-1+b^l

输出激活函数f(.)可以有很多种，一般是sigmoid函数或者双曲线正切函数。sigmoid将输出压缩到[0,1]，所以最后的输出平均值一般趋于0。所以如果将我们的训练数据归一化为零均值和方差为1，可以在梯度下降的过程中增加收敛性。对于归一化的数据集来说，双曲线正切函数也是不错的选择。

1.2.2反向传播

反向传播回来的误差可以看做是每个神经元的基的灵敏度(灵敏度的意思就是我们的基b变化多少，误差会变化多少，也就是误差对基的变化率，也就是导数了)，定义如下：(第二个等号是根据求导的链式法则得到的)

因为所以也就是说bias基的灵敏度和误差E对一个节点全部输入u的导数是相等的。反向传播就是用下面这条关系式：(下面这条式子表达的就是第l层的灵敏度)

δ^l=(^l+1)^Tδ^l+1οf(u^l)

这里的“ο”表示每个元素相乘。输出层的神经元的灵敏度是不一样的：

δ^L=f′(u^L)ο(yⁿ-tⁿ).

最后，对每个神经元运用delta(即δ)规则进行权值更新。具体来说就是，对一个给定的神经元，得到它的输入，然后用这个神经元的delta(即δ)来进行缩放。用向量的形式表述就是，对于第l层，误差对于该层每一个权值(组合为矩阵)的导数是该层的输入(等于上一层的输出)与该层的灵敏度(该层每个神经元的δ组合成一个向量的形式)的叉乘。然后得到的偏导数乘以一个负学习率就是该层的神经元的权值的更新了：

对于bias基的更新表达式差不多。实际上，对于每一个权值(W)ij都有一个特定的学习率ηIj。

1.3卷积神经网络

1.3.1卷积层

我们现在关注网络中卷积层的BP更新。在一个卷积层，上一层的特征图被一个可学习的卷积核进行卷积，然后通过一个激活函数，就可以得到输出特征图。每一个输出图可能是组合卷积多个输入图的值：

这里Mj表示选择的输入图的集合，那么到底选择哪些输入图呢？有选择一对的或者三个的。但下面我们会讨论如何去自动选择需要组合的特征图。每一个输出图会给一个额外的偏置b，但是对于一个特定的输出图，卷积每个输入图的卷积核是不一样的。也就是说，如果输出特征图j和输出特征图k都是从输入图i中卷积求和得到，那么对应的卷积核是不一样的。

1.3.1.1梯度计算

我们假定每个卷积层l都会接一个下采样层l+1。对于BP来说，根据上文我们知道，要想求得层l的每个神经元对应的权值的权值更新，就需要先求层l的每一个神经节点的灵敏度δ(也就是权值更新的公式)。为了求这个灵敏度我们就需要先对下一层的节点(连接到当前层l的感兴趣节点的第l+1层的节点)的灵敏度求和(得到δl+1)，然后乘以这些连接对应的权值(连接第l层感兴趣节点和第l+1层节点的权值)W。再乘以当前层l的该神经元节点的输入u的激活函数f的导数值(也就是那个灵敏度反向传播的公式中的δl的求解)，这样就可以得到当前层l每个神经节点对应的灵敏度δl了。

然而，因为下采样的存在，采样层的一个像素(神经元节点)对应的灵敏度δ对应于卷积层(上一层)的输出图的一块像素(采样窗口大小)。因此，层l中的一个图的每个节点只与l+1层中相应图的一个节点连接。

为了有效计算层l的灵敏度，我们需要上采样。这个下采样层对应的灵敏度图(特征图中每个像素对应一个灵敏度，所以也组成一个图)，这样才使得这个灵敏度图大小与卷积层的图大小一致，然后再将层l的图的激活值的偏导数与从第l+1层的上采样得到的灵敏度图逐元素相乘。

在下采样层图的权值都取一个相同值β，而且是一个常数。所以我们只需要将上一个步骤得到的结果乘以一个β就可以完成第l层灵敏度δ的计算。

我们可以对卷积层中每一个特征图j重复相同的计算过程。但很明显需要匹配相应的子采样层的图：

up(.)表示一个上采样操作。如果下采样的采样因子是n的话，它简单的将每个像素水平和垂直方向上拷贝n次。这样就可以恢复原来的大小了。实际上，这个函数可以用Kronecker乘积来实现：

好，到这里，对于一个给定的图，我们就可以计算得到其灵敏度图了。然后我们就可以通过简单的对层l中的灵敏度图中所有节点进行求和快速的计算bias基的梯度了：

最后，对卷积核的权值的梯度就可以用BP算法来计算了。另外，很多连接的权值是共享的，因此，对于一个给定的权值，我们需要对所有与该权值有联系(权值共享的连接)的连接对该点求梯度，然后对这些梯度进行求和，就像上面对偏置基的梯度计算一样：

这里，是中的在卷积的时候与逐元素相乘的图块，输出卷积图的(u,v)位置的值是由上一层的(u,v)位置的图块与卷积核k_ij逐元素相乘的结果。

1.3.2子采样层

对于子采样层来说，有N个输入图，就有N个输出图，只是每个输出图都变小了。

down(.)表示一个下采样函数。典型的操作一般是对输入图像的不同nxn的块的所有像素进行求和。这样输出图像在两个维度上都缩小了n倍。每个输出图都对应一个属于自己的乘性偏置β和一个加性偏置b。

1.3.2.1梯度计算

这里最困难的是计算灵敏度图。一旦我们得到这个了，那我们唯一需要更新的偏置参数β和b就可以轻而易举了。如果下一个卷积层与这个子采样层是全连接的，那么就可以通过BP来计算子采样层的灵敏度图。

我们需要计算卷积核的梯度，所以我们必须找到输入图中哪个图块对应输出图的哪个像素。这里，就是必须找到当前层的灵敏度图中哪个图块对应与下一层的灵敏度图的给定像素，这样才可以利用δ递推，也就是灵敏度反向传播回来。另外，需要乘以输入图块与输出像素之间连接的权值，这个权值实际上就是卷积核的权值(已旋转的)。

在这之前，我们需要先将核旋转一下，让卷积函数可以实施互相关计算。另外，我们需要对卷积边界进行处理。

到这里，我们就可以对b和β计算梯度了。首先，加性基b的计算和上面卷积层的一样，对灵敏度图中所有元素加起来就可以了：

而对于乘性偏置β，因为涉及到了在前向传播过程中下采样图的计算，所以我们最好在前向的过程中保存好这些图，这样在反向的计算中就不用重新计算了。我们定义：

这样，对β的梯度就可以用下面的方式计算：

1.3.3学习特征图的组合

大部分时候，通过卷积多个输入图，然后再对这些卷积值求和得到一个输出图，这样的效果往往是比较好的。在一些文献中，一般是人工选择哪些输入图去组合得到一个输出图。但我们这里尝试去让CNN在训练的过程中学习这些组合，也就是让网络自己学习挑选哪些输入图来计算得到输出图才是最好的。我们用αij表示在得到第j个输出图的其中第i个输入图的权值或者贡献。这样，第j个输出图可以表示为：

需要满足约束：

这些对变量αij的约束可以通过将变量αij表示为一个组无约束的隐含权值cij的softmax函数来加强。(因为softmax的因变量是自变量的指数函数，他们的变化率会不同)。

因为对于一个固定的j来说，每组权值cij都是和其他组的权值独立的，所以为了方面描述，我们把下标j去掉，只考虑一个图的更新，其他图的更新是一样的过程，只是图的索引j不同而已。

Softmax函数的导数表示为：

这里的δ是Kroneckerdelta。对于误差对于第l层变量αi的导数为：

最后就可以通过链式规则去求得代价函数关于权值ci的偏导数了：

1.3.3.1加强稀疏性组合

为了限制αi是稀疏的，也就是限制一个输出图只与某些而不是全部的输入图相连。我们在整体代价函数里增加稀疏约束项Ω(α)。对于单个样本，重写代价函数为：

然后寻找这个规则化约束项对权值ci求导的贡献。规则化项Ω(α)对αi求导是：

然后，通过链式法则，对ci的求导是：

所以，权值ci最后的梯度是：

LBF人体关键点对齐

1.1、形状回归

形状回归方法以级联的方式预测形状S。从一个初始的形状S⁰，S通过一级一级估计形状增量ΔS进阶式改善。在一个通用形式下，一个形状增量ΔS^t在t级回归为

ΔS^t＝W^tΦ^t(I，S^t-1)(1.2.1)

其中I是输入图像，S^t-1是来自于上一级的形状，Φ^t是特征映射函数，W^t是线性回归矩阵。应当注意的是Φ^t依赖于I和S^t-1。在这种方式下学到的特征是指的是作为一个“形状编码”特征。通过将ΔS加入到S^t-1，将回归带入到下一级。

为学习Φ^t，提出二步正则化方法：Φ^t被分解为一组独立的特征特征映射函数，例如(L是landmark的数量)。每一个通过独立地在第L个landmark的周围区域回归学习到。

这个正则化方法可以有效的筛选出主要的噪声和判别性较弱的特征，降低学习的复杂度，从而导致更好地泛化性能。

为学习每一个使用基于回归的集合树去归纳二值特征。为预测landmark，这个二值特征编码了一个区域内的直觉性结构信息。在集合了所有的局部二值特征去组成特征映射Φ^t之后，再判别性地为全图的形状估计学习W^t。最终发现这种二步学习处理方法(局部二值特征和全局线性特征)比通过基于树的回归的一步联合的学习Φ^t和W^t要好很多。

下面具体叙述形状回归的每一步骤。

1.1.1、landmark(关键点)

在人脸或人体的图片上，可以在一些关键部位标上landmark，即关键点。

把关键点连接起来，组成关于人体或人脸的一个整体描述，就成为形状，也就是公式(1.2.1)中的S。

1.1.2、学习局部二值特征

公式(1.2.1)中的特征映射函数Φ^t将图像I和上一次迭代时的形状S映射到一个特征向量，这里采用学习局部二值特征来完成特征映射，它通过一个“局部”原理使学习有规则的进行。这个原则主要是基于两方面的直观感觉：在某一级中对于定位一个确定的landmark，1)最具判别性的纹理信息分布在上一级估计出的landmark的周围，2)形状的信息内容和这个landmark的局部纹理提供了充足的信息。这些直观感觉表明我们或许应该首先独立的为每一个landmark学习最具直觉型的特征来编码局部纹理特征，然后再执行联合的回归去融合形状的信息内容。

在人脸某个部位的关键点周围(蓝色虚线框位置)，随机取两个点的像素值作差，以此得到一系列灰度差特征，然后采用二叉树随机森林进行回归训练，得到关键点局部二值特征，训练时候的目标函数如公式(1.2.2)所示。

最后，把所有的关键点局部二值特征联立起来，就可以得到最终的局部二值特征。

1.1.3、学习全局线性回归矩阵

公式(1.2.1)中的线性回归矩阵W^t将上一节的局部二值特征向量映射到形状增量ΔS，为了得到W^t，训练的目标函数如公式(1.2.3)所示。

MHCRF行为识别

1.1MHCRF

已经得到关于目标姿态的一系列关键点，我们希望通过这些关键点之间的相对位置，来识别目标的行为。这里采用改进隐条件随机场(modifiedhiddenstateconditionalrandomfield,MHCRF)对目标行为进行建模。

如图4所示，我们希望通过训练得到一个模型，将观测变量X映射到行为类别标签Y，X是由m个局部观测变量xj组成的向量：{x₁，x₂，...x_m}，每一个局部观测变量xj由一个特征向量表示。那么，MHCRF对给定一系列观测变量下的类别标签的条件概率进行建模：

其中，s＝{s₁，s₂，...，s_m}，每一个si都捕捉到了一个类别的某些隐含结构，S就是模型中隐藏状态的集合。如果假设S是可观测的，并且类别Y的数量是1，那么MHCRF就退化成为CRF。势函数需要学习的参数是θ，可以看作类别号y、隐状态s和观测变量x同时出现的概率大小。为了模拟视频中动态过程，我们加入一个窗参数w(假设视频当前帧为t，那么在[t–w,t+w]范围内的所有帧都要进行特征提取，并联立成一个观测变量x)，势函数变成：其计算公式如下：

其中，E代表隐藏状态链，n代表隐藏状态个数，代表从[t–w,t+w]范围内提取的特征向量，内积可以看作隐藏状态sj与特征向量同时出现的概率，θ_y[y，s_j]可以看作类别号y与隐藏状态sj同时出现的概率，sj、sk代表隐藏状态链上相邻的两个隐藏变量对，θ_e[y，s_j，s_k]可以看作类别号y与隐藏状态sj、sk同时出现的概率。

1.1.1MHCRF的训练

MHCRF的训练应使以下的目标函数达到最大值：

其中，n是训练样本数量，第一项是训练样本数据出现概率的自然对数，第二项是参数取θ的概率的自然对数，即

为了求得公式(1.3.2)的最大值，我们采用拟牛顿梯度上升法：

假设需要求得最值的函数为f(x)，对它进行泰勒展开：

为了加快计算速度，函数f(x)的二阶偏导数Hessian矩阵用矩阵B来近似，对公式(1.3.3)两边取梯度：

为了取得函数f(x)的最大值，式(1.3.4)取0，得到：

Hessian矩阵的近似应该满足以下条件:

不同的拟牛顿法主要区别在于B的获取方式不同.这里,采用BFGS来近似Hessian矩阵,其迭代公式为:

B₀＝I*x

其中,的选择应满足Wolfe条件。

1.1.2MHCRF的测试

输入一个测试序列X，θ^*为从上一步训练到的模型参数，取概率最大的标签作为类标签：

P(y|x，θ)可用前面提到的公式进行计算，具体编程的时候，为了效率，可以用类似HMM的前向算法进行置信度传播。

前向算法：如果直接利用穷举法，计算P(y|x，θ)，计算量会非常大。这里可以采用前向算法计算局部概率，其公式如下：

第一个公式代表初始局部概率，π(j)代表隐变量初始分布概率，相当于式(1.3.1)中的为隐变量的发射概率，相当于式(1.3.1)中的θ_y[y，s_j]。第二个公式代表当前局部概率，a_ij，为隐变量的转移概率，相当于式(1.3.1)中的θ_e[y，s_j，s_k]。第三个公式中的Pr就是希望计算的概率P(y|x，θ)。

1.1.3MHCRF分析

为了了解MHCRF的内部运作方式，我们分析产生每一个行为类别标签的最有可能的隐藏状态序列。这里以手势识别为例。

维特比算法：如果直接利用穷举法，计算最有可能的隐变量路径，计算量会非常大。这里可以模仿前向算法计算局部路径概率，采用迭代计算最优路径，迭代公式如下：

第一个公式代表初始路径概率，π(i)代表隐变量初始分布概率，相当于式(1.3.1)中的为隐变量的发射概率，相当于式(1.3.1)中的θ_y[y，s_j]，第二个公式代表当前最优路径的概率，a_ji为隐变量的转移概率，相当于式(1.3.1)中的θ_e[y，s_j，s_k]。

采用维特比算法，计算产生每一个样本的类别标签的概率最大的隐藏状态序列，然后统计次数，选择出现次数最多的序列。

可以理解的是，对本领域技术人员来说，对本发明的技术方案及发明构思加以等同替换或改变都应属于本发明所附的权利要求的保护范围。

Claims

1.一种固定位人体行为分析方法，其特征在于：包括如下步骤：

1)、将人体检测的目标或扫描窗口进行HOG特征提取；

2)、将人体检测的目标或扫描窗口进行CSS特征提取；

4)、对检测到的人体图像进行CNN人体二次确认；

2.根据权利要求1所述的固定位人体行为分析方法，其特征在于：所述的HOG特征提取的提取过程为：

2)、采用Gamma校正法对输入图像进行颜色空间的归一化；

3)、计算图像每个像素的梯度、大小和方向；

4)、将图像划分成小cell；

3.根据权利要求1所述的固定位人体行为分析方法，其特征在于：所述的CSS特征提取的提取过程为：

1)、定义一个矩形块R₁,提取某个通道内该矩形块内数值之和

{Sum}_{R_{1}} = \underset{(x, y &Element; R_{1})}{Σ} S (x, y)

CSS特征为R₁与相邻的矩形块R₂的比值：

F (R_{1}, R_{2}) = {Sum}_{R_{1}} / {Sum}_{R_{2}}

矩形块R₁和R₂大小相同位置不同，对它进行拓展：

T F (R_{1}, R_{2}) = \{\begin{matrix} F (R_{1}, R_{2}), & F (R_{1}, R_{2}) &GreaterEqual; 1 \\ 1 / F (R_{1}, R_{2}), & F (R_{1}, R_{2}) < 1 \end{matrix}

2)、遍历所有位置；

3)、遍历所有颜色通道；

4)、遍历所有矩形块大小；

5)、得到最终的高维CSS特征向量。

4.根据权利要求1所述的固定位人体行为分析方法，其特征在于：所述的形状回归的步骤包括训练步骤和测试步骤，分别如下：

训练步骤

3)、采用局部二值特征的方法学习得到LBF特征；

4)、采用全局线性回归矩阵的方法学习得到线性回归矩阵；

5)、保存T个模型，保存初始的平均形状；

测试步骤

2)、载入初始的平均形状，按照步骤3)-4)迭代T次；

3)、提取LBF特征；

5)、得到关键点已经对齐的最终形状。

5.根据权利要求1所述的固定位人体行为分析方法，其特征在于：所述的MHCRF行为识别包括视频特征的提取和目标行为的识别，其具体步骤如下：

视频特征的提取步骤如下：

3)、所有节点的坐标差联立成一个向量x；

采用MHCRF识别目标行为的步骤如下：

3)、提取待识别视频序列窗口的特征向量X；

4)、根据MHCRF测试叙述的方法进行行为识别。