CN102930302B

CN102930302B - 基于在线序贯极限学习机的递增式人体行为识别方法

Info

Publication number: CN102930302B
Application number: CN201210398379.7A
Authority: CN
Inventors: 马昕; 周生凯; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2012-10-18
Filing date: 2012-10-18
Publication date: 2016-01-13
Anticipated expiration: 2032-10-18
Also published as: CN102930302A

Abstract

一种基于在线序贯极限学习机的递增式人体行为识别方法，该方法基于所有人的活动范围能够用摄像机捕捉到人体；包括以下步骤：（1）采用3D？Harris角点检测子提取视频中的时空兴趣点；（2）利用3D？SIFT描述子计算检测到的时空兴趣点的描述子；（3）采用K-means聚类算法生成视频词典，建立视频图像的词包模型；（4）用得到视频词包模型训练在线序贯极限学习机分类器；（5）利用在线序贯极限学习机分类器进行人体行为识别，并进行在线学习。该方法不但能够在训练样本很少的情况下，以较少的训练时间，获得较为精确的人体行为识别结果，而且对于环境场景变化、环境光照变化、检测对象变化、人体形态变化具有一定的不敏感性。

Description

基于在线序贯极限学习机的递增式人体行为识别方法

技术领域

本发明涉及一种利用机器视觉进行人体行为识别的方法，属于模式识别技术领域。

背景技术

基于视频的人的行为识别在机器人学、人机交互、基于视频的智能监控、运动分析、基于内容的视频检索等领域应用广泛，是计算机视觉中一个研究热点，有着广泛的应用前景和潜在的经济和社会价值，因而得到了广大科研工作者及相关商家的高度关注。

在机器人学方面，研究人的步态特征为双足机器人的步态规划提供理论基础；在构建和谐社会，维护社会稳定以及犯罪技术侦察等方面，基于视频的智能监控发挥着不可估量的作用，理解人的行为则是关键；在人机交互方面，未来的人机交互将是基于人的手势、行为、表情等智能化的交互方式，行为识别的研究为智能人机交互提供了技术支持；在体育运动分析方向中，分析人的行为并进行数字量化为体育运动打破传统的凭经验练习并向数字化体育发展打下坚实基础；21世纪是数字化时代，互联网上的信息尤其是视频信息呈指数型迅速增长趋势，如何检索到想要的视频信息并归类是一个亟待解决的问题，基于视频的人体行为分析为解决此问题提供了技术解决方案。

然而，由于真实自然环境复杂多变（如背景复杂、环境光照变化），人的个体差异（身高、外形、衣服等），获得视频图像的视角不同，以及人们完成某一动作的方式和速度不同，使得基于视频的人体行为识别问题是一个非常具有挑战性的问题。

针对基于视频图像的人体行为识别问题，研究者们提出了很多检测和描述基于视频图像的人体行为特征的方法。2003年《ProceedingsofNinthIEEEInternationalConferenceonComputerVision》（第九届IEEE计算机视觉国际会议论文集）在432-439页发表的《Space-timeinterestpoints》（时空兴趣点）将二维Harris角点检测算法扩展到三维时空，首次提出了时空兴趣点检测子-3DHarris角点检测子，将那些灰度值在时间和空间都有很大变化的区域定义为三维角点。由于同时满足条件的区域较少，故3DHarris角点具有稀疏性。2005年《Proceedingsof2^ndJointIEEEInternationalWorkshoponVisualSurveillanceandperformanceEvaluationofTrackingandSurveillance》（第二届IEEE视频监控和跟踪与监控性能评价联合国际研讨会会议论文集》在65-72页发表的《Behaviorrecognitionviasparsespatio-temporalfeatures》（基于稀疏时空特征的行为识别）提出Cuboids检测算法，在空间2D高斯滤波器的基础上引入时间1DGabor滤波器，将响应函数高于某一阈值的区域定义为时空兴趣点。2008年《ProceedingsofEuropeanConferenceonComputerVision》（欧洲计算机视觉国际会议论文集）在650-663页发表的《AnEfficientDenseandScale-InvariantSpatio-TemporalInterestPointDetector》（一种有效的高密度和尺度不变的时空兴趣点检测子）首次将二维Hessian检测子扩展到时空领域得到Hessian时空兴趣点（Hes-STIP）检测子，检测到的时空兴趣点在时间和空间上尺度不变并且能够密集地覆盖视频内容，利用三维Hessian矩阵的行列式，将兴趣点定位与尺度选择合二为一，避免了迭代运算。2009年《ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition》（IEEE计算机视觉与模式识别国际会议论文集）在1996-2003页发表的《Recognizingrealisticactionsfromvideos“inthewild”》（自然环境下人体行为识别）从视频中提取运动特征和静态特征，利用运动统计特性获取稳定的运动特征，并对静态特征进行去噪处理，使用Cuboid检测子检测运动特征，而静态特征的提取则通过检测感兴趣的区域，利用运动线索和网页排名技术实现，改善了复杂自然环境下人体行为识别精度。2011年《Neurocomputing》（神经计算）在74（6）：962-973页发表的《Transformbasedspatio-temporaldescriptorsforhumanactionrecognition》（基于变换的时空描述子的人体行为识别）将基于变换的方法应用到动作识别领域：采用Cuboid检测子提取视频帧的兴趣点，利用基于变换（离散傅里叶变换(DFT)、离散余弦变换（DCT）、离散小波变换(DWT)）的HOG/HOF描述子对Cuboid检测子提取出的兴趣点进行描述。2009年《Proceedingsofthe13thInternationalConferenceonComputerAnalysisofImagesandPatterns》（第13届图像和模式计算机分析国际会议论文集）在740-747页发表的《HumanactionrecognitionusingLBP-TOPassparsespatio-temporalfeaturedescriptor》（基于LBP-TOP稀疏时空特征描述子的人体行为识别）用Cuboid检测子提取兴趣点，利用LocalBinaryPatternonThreeOrthogonalPlanes(LBP-TOP)描述子描述提取到的兴趣点及其邻域，生成时空单词（spatial-temporalwords）用以表示人的行为。2008年《InternationalJournalofComputerVision》（计算机视觉国际期刊）在79（3）：299-318页发表的《Unsupervisedlearningofhumanactioncategoriesusingspatial-temporalwords》（基于时空单词的非监督的人体行为学习）应用Cuboid检测子从视频序列中提取兴趣点，利用HoG描述子描述提取到的兴趣点，生成视觉单词，应用概率潜在语义分析模型（ProbabilisticLatentSemanticAnalysis）学习和分类人体行为，该方法不仅可以识别多个单动作视频序列，而且可以识别一个长视频中的多个动作。2008年《ProceedingsofIEEEInternationalConferenceonComputerVisionandPatternRecognition》（IEEE计算机视觉与模式识别国际会议论文集）在1-8页发表的《Recognizinghumanactionsusingmultiplefeatures》（基于多特征的人体行为识别）将视觉单词表示的局部特征和反映人的体型变化的全局特征相结合实现人体行为识别。

在特征检测和识别基础上，研究者们应用阈值法、支持向量机、隐马尔科夫模型以及神经网络等离线分类器分类和识别人体行为。2008年《ProceedingsofEuropeanConferenceonComputerVision》（欧洲计算机视觉国际会议论文集）在650-663页发表的《AnEfficientDenseandScale-InvariantSpatio-TemporalInterestPointDetector》（一种有效的高密度和尺度不变的时空兴趣点检测子）应用Kmeans聚类算法聚类从视频集中提取的运动特征向量构造视觉词汇表，利用支持向量机（SVM）分类器分类和识别人体行为，SVM分类器的建立需要大量的训练样本和较长的训练时间。2010年《Neurocomputing》（神经计算）在73（10-12）：1906-1917页发表的《Humanactionrecognitionusingextremelearningmachinebasedonvisualvocabularies》（基于视频词汇利用极限学习机的人体行为识别）将时空特征和局部静态特征相结合，应用三维二元树复小波变换（3DDT-CWT）和仿射SIFT（ASIFT）局部描述子检测和描述时空特征和局部静态特征，建立词包模型，然后利用极限学习机ELM分类器进行分类。2005年《ProceedingsofIASTEDInternationalConferenceonComputationalIntelligence》）（计算机智能国际会议论文集）发表的《On-linesequentialextremelearningmachine》（在线序贯极限学习机）提出一种基于单隐层前馈神经网络的在线学习算法—在线序贯极限学习机（OS-ELM），这种基于批量学习的极限学习机，学习速度快，具有在线学习能力。

人的行为识别在人机交互、基于视频的智能监控、运动分析、基于内容的视频检索等领域应用非常广泛，随着处理器速度的大幅度提升和摄像机价格的下降，基于视觉的行为识别系统越来越受到研究者的关注。基于机器视觉的行为识别系统，不需要复杂的设备，尤其伴随着视觉算法的不断进步，识别行为的准确率不断提高，但是这种系统也有着不足。到目前为止，大部分识别系统是首先检测三维时空特征点，然后对特征点进行描述，用该特征向量建立模型，然后进行离线分类器的学习与训练。利用离线分类器训练的分类模型只适用于特定的环境或特定的人，由于离线分类器训练的特点，需要被检测对象和训练对象具有一致性，所以当视频图像中人的大小和姿态、环境等与训练样本严重不一致时，无法进行精确的行为识别，可移植性不好。此外，离线分类器一般都是对分类样本一个一个地学习，学习速度慢，实时性不好。

发明内容

本发明针对现有基于视频的人体行为识别方法存在的不足，提出一种基于在线序贯极限学习机的递增式人体行为识别方法，该方法基于在线序贯极限学习机分类器对人体行为进行识别，不但能够在训练样本很少的情况下，以较少的训练时间，获得较为精确的人体行为识别结果，而且具有在线学习能力，即当环境和识别对象发生变化时，无需重新训练新的分类器，只需在现有的分类器基础上继续在线学习就可以达到人体行为的准确识别。

本发明的基于在线序贯极限学习机的递增式人体行为识别方法，基于以下条件：在静态背景环境下，人的活动范围能够用摄像机捕捉到；具体包括以下步骤：

（1）采用3DHarris角点检测子提取视频中的时空兴趣点，定义时空角函数在时间和空间同时取得局部最大的极值点为时空兴趣点；

3DHarris角点检测子能够有效地检测视频中的三维角点（即典型运动部位的特征点），3DHarris检测子可以很好地利用角点信息来表示人的动作。

该步骤具体实现方法是：

3DHarris检测子是将Harris角点检测子从空间(x,y)扩展到时空(x,y,t)得到的，定义的时空角函数为：

H=det(μ)-ktrace³(μ),H>0，

其中，时空二阶矩

μ (\cdot; σ_{l}, τ_{l}) = g (\cdot; σ_{i}, τ_{i}) * (&dtri; L (\cdot; σ_{i}, τ_{i}) {(&dtri; L (\cdot; σ_{i}, τ_{i}))}^{T}),

上标T表示矩阵转置，σ_l,τ_l分别为局部空间和时间尺度，σ_i=sσ_l和τ_i=sτ_l为集成尺度，i表示集成，系数s把局部空间和时间尺度σ_l,τ_l转变为集成尺度σ_i,τ_i，s的取值范围为(0,1)，g(x,y,t;σ²,τ²)为高斯平滑函数，σ,τ分别为空间和时间尺度：

g (x, y, t; σ^{2}, τ^{2}) = \frac{1}{\sqrt{{(2 π)}^{3} σ^{4} τ^{2}}} \times \exp (- (x^{2} + y^{2}) / 2 σ^{2} - t^{2} / 2 τ^{2}),

是时空梯度：

(&dtri; L (\cdot; σ_{i}, τ_{i}) {(&dtri; L (\cdot {; σ}_{i}, τ_{i}))}^{T}) = (\begin{matrix} L_{x}^{2} & L_{x} L_{y} & L_{x} L_{t} \\ L_{x} L_{y} & L_{y}^{2} & L_{y} L_{t} \\ L_{x} L_{t} & L_{y} L_{t} & L_{t}^{2} \end{matrix}),

其中，

L_{x} (.; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{x} (g * f),

L_{y} (.; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{y} (g * f),,

L_{t} (.; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{t} (g * f) .

其中，f:R²×R→R为构造函数，L_x、L_y和L_t分别为视频图像上三维时空点(x,y,t)在x,y,t方向上的梯度；

通过寻找角函数在时间和空间同时取得局部最大的极值点来检测时空兴趣点。

（2）利用3DSIFT描述子计算检测到的时空兴趣点的描述子；

该步骤具体实现方法是：

通过在方向直方图中增加一个深层维度，将2DSIFT描述子(x,y)扩展到3DSIFT描述子(x,y,t)，梯度值的计算公式为：

m_{3 D} (x, y, t) = \sqrt{L_{x}^{2} + L_{y}^{2} + L_{t}^{2}},

θ(x,y,t)=tan^-1(L_y/L_x)，

φ (x, y, t) = \tan^{- 1} (\frac{L_{t}}{\sqrt{L_{x}^{2} + L_{y}^{2}}}),

m_3D(x,y,t)为三维时空点(x,y,t)的梯度值，θ(x,y,t)=tan^-1(L_y/L_x)和分别表示二维梯度方向角和偏离二维梯度方向角，L_x、L_y和L_t分别为视频图像上三维时空点(x,y,t)在x,y,t方向上的梯度，其中：L_x≈L(x+1,y,t)-L(x-1,y,t)，L_y≈L(x,y+1,t)-L(x,y-1,t)，L_t≈L(x,y,t+1)-L(x,y,t-1)），L(x,y,t)表示视频图像在三维时空点(x,y,t)上的灰度值。

这样，时空兴趣点三维邻域内的每个像素点有θ(x,y,t)和φ(x,y,t)两个值表示其时空梯度方向，将时空兴趣点的三维邻域分成大小相等的块，通过直方图统计找到时空兴趣点的主方向(θ^*,φ^*)，所有时空兴趣点周围的三维邻域按照主方向旋转角度使得描述子具有旋转不变性，旋转矩阵定义如下：

[\begin{matrix} \cos (θ^{*}) \cos (φ^{*}) & - \sin (θ^{*}) & - \cos (θ^{*}) \sin (θ^{*}) \\ \sin (θ^{*}) \cos (φ^{*}) & \cos (θ^{*}) & - \sin (θ^{*}) \sin (φ^{*}) \\ \sin (φ^{*}) & 0 & \cos (φ^{*}) \end{matrix}],

将时空兴趣点邻域划分成子区域，在子区域中每个像素点包含着一个梯度值和两个方向信息，对于每一个三维子区域，用以时空兴趣点为中心的Gaussian窗加权梯度值，作为相应梯度方向子区域的梯度值。

（3）采用K-means聚类算法生成视频词典，建立视频图像的词包模型；

（4）用得到视频词包模型训练在线序贯极限学习机分类器；

（5）利用在线序贯极限学习机分类器进行人体行为识别，并进行在线学习。

由于在线序贯极限学习机具有利用较少的训练样本即可得到较好的分类精度、学习速度快的特点，特别是具有在线学习能力，使得基于在线序贯极限学习机分类器的人体行为识别方法对于变化的环境和不同的识别对象具有较强的适应性。

本发明基于3DHarris检测子获得时空兴趣点，利用3DSIFT描述子计算检测到的兴趣点的描述子；利用K-means聚类方法生成视频词典，建立图像的词包模型，所建词包模型对于图像的旋转、尺度变化具有不变性，利用词包模型训练在线序贯极限学习机分类器，训练完成后就可以利用此在线序贯极限学习机分类器对人体行为进行识别，并进行在线学习，可获得较好的识别精度，对于变化的环境和人具有较强的适应性。

本发明提出的方法不但能够在训练样本很少的情况下，以较少的训练时间，获得较为精确的人体行为识别结果，而且对于环境场景变化、环境光照变化、检测对象变化、人体形态变化具有一定的不敏感性。

附图说明

图1本发明在线序贯极限学习机的递增式人体行为识别方法的流程图。

图2ELM神经网络示意图。

图3词典大小与正确识别率关系图。

具体实施方式

本发明所提出的基于视频词汇的递增式人体行为识别方法，基于以下假设：

（1）在静态背景环境下，检测对象是人；

（2）所有人的活动范围有限，可以用摄像机捕捉到人体；

（3）允许环境场景变化、环境光照变化、检测对象性别、形体以及服饰等变化。

基于3DHarris检测子检测视频中的时空角点，利用3DSIFT描述子计算检测到的兴趣点的描述子；利用K-means聚类方法生成视频词典，建立图像的词包模型，该词包模型反映了视频的特征，因为视频图像中只有人体上的角点存在，因此其是对人体行为的一种特征反映，对于图像的旋转、尺度变化具有不变性，利用建立的词包模型训练在线序贯极限学习机对人体行为进行识别，可以实现快速匹配，利用简单的在线序贯极限学习机分类器可以获得较好的识别精度，特别是，由于其所具有的在线学习能力，使得该方法对于环境场景的变化、环境光照变化、检测对象变化、人体形态变化等具有较强的不敏感性。

图1给出了本发明在线序贯极限学习机的递增式人体行为识别方法的流程图，具体实现步骤如下：

（1）利用3DHarris检测子检测视频中的时空角点。3DHarris检测子是将Harris角点检测子从空间(x,y)扩展到时空(x,y,t)得到的，定义的时空角函数为

H=det(μ)-ktrace³(μ),H>0（1）

其中，时空二阶矩

μ (\cdot; σ_{l}, τ_{l}) = g (\cdot; σ_{i}, τ_{i}) * (&dtri; L (\cdot; σ, τ) {(&dtri; L (\cdot; σ, τ))}^{T}),

上标T表示矩阵转置，σ_l,τ_l分别为局部空间和时间尺度，σ_i=sσ_l,τ_i=sτ_l为集成尺度，i表示集成，系数s把局部空间和时间尺度σ_l,τ_l转变为集成尺度σ_i,τ_i，s的取值范围为(0,1)，g(x,y,t;σ²,τ²)为高斯平滑函数，σ,τ分别为空间和时间尺度：

g (x, y, t; σ^{2}, τ^{2}) = \frac{1}{\sqrt{{(2 π)}^{3} σ^{4} τ^{2}}} \times \exp (- (x^{2} + y^{2}) / 2 σ^{2} - t^{2} / 2 τ^{2}) - - - (2)

是时空梯度：

(&dtri; L (\cdot; σ, τ) {(&dtri; L (\cdot; σ, τ))}^{T}) = (\begin{matrix} L_{x}^{2} & L_{x} L_{y} & L_{x} L_{t} \\ L_{x} L_{y} & L_{y}^{2} & L_{y} L_{t} \\ L_{x} L_{t} & L_{y} L_{t} & L_{t}^{2} \end{matrix}) - - - (3)

其中，

L_{x} (.; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{x} (g * f),

L_{y} (.; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{y} (g * f), - - - (4)

L_{t} (.; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{t} (g * f) .

其中，f:R²×R→R为构造函数，L_x、L_y和L_t分别为视频图像上三维时空点(x,y,t)在x,y,t方向上的梯度。

（2）对3DHarris检测子检测到的时空角点计算其3DSIFT描述子。通过在方向直方图中增加了一个深层维度，将2DSIFT描述子(x,y)扩展到3DSIFT描述子(x,y,t)，梯度值的计算公式为：

m_{3 D} (x, y, t) = \sqrt{L_{x}^{2} + L_{y}^{2} + L_{t}^{2}} - - - (5)

θ(x,y,t)=tan^-1(L_y/L_x)（6）

φ (x, y, t) = \tan^{- 1} (\frac{L_{t}}{\sqrt{L_{x}^{2} + L_{y}^{2}}}) - - - (7)

（6）、（7）式分别表示二维梯度方向角和偏离二维梯度方向角。其中：

L_x≈L(x+1,y,t)-L(x-1,y,t)，L_y≈L(x,y+1,t)-L(x,y-1,t)，L_t≈L(x,y,t+1)-L(x,y,t-1)。分别为x,y,t方向上的梯度近似计算，L(x,y,t)表示视频图像在三维时空点(x,y,t)上的灰度值；m_3D(x,y,t)为三维时空点的梯度值。

这样，时空兴趣点三维邻域内的每个像素点有两个值表示其时空梯度方向：θ(x,y,t)和φ(x,y,t)。将兴趣点的三维邻域分成大小相等的块，通过直方图统计找到兴趣点的主方向(θ^*,φ^*)。所有兴趣点周围的三维邻域按照主方向旋转一定角度使得描述子具有旋转不变性，旋转矩阵定义如下：

[\begin{matrix} \cos (θ^{*}) \cos (φ^{*}) & - \sin (θ^{*}) & - \cos (θ^{*}) \sin (θ^{*}) \\ \sin (θ^{*}) \cos (φ^{*}) & \cos (θ^{*}) & - \sin (θ^{*}) \sin (φ^{*}) \\ \sin (φ^{*}) & 0 & \cos (φ^{*}) \end{matrix}] - - - (8)

将兴趣点邻域划分成子区域（本发明采用4×4×4的小区域），在子区域中每个像素点包含着一个梯度值和两个方向信息，对于每一个三维子区域，用以兴趣点为中心的Gaussian窗加权梯度值，作为相应梯度方向子区域的梯度值。对于θ(0~360°)有8个分区，有4个分区。每一个兴趣点的3DSIFT描述子是一个维数为4×4×4×8×4=2048的矢量。

3DSIFT检测子/描述子能够描述视频中动态的行为。

（3）建立词包模型。利用K-Means聚类算法构造视频词典。由于不同视频图像中的描述子数目不等，因此在进行人体行为识别时无法直接对视频图像中的描述子进行比较。在所得到的3DSIFT描述子基础上，利用K-Means聚类算法生成视觉词典，建立视频图像的词包模型。K-Means算法是一种基于样本间相似性度量的间接聚类方法，以K为参数，把N个对象分为K个簇，簇内具有较高的相似度，而簇间相似度较低。利用K-Means聚类方法，将检测到的视频图像中所有时空兴趣点的3DSIFT描述子进行聚类，聚类中心定义为视觉词汇，视觉词典的大小就是聚类中心的数目。这样，通过聚类，视频图像中的每一个时空兴趣点的描述子矢量映射为某一个视频单词，视频图像的词包模型表示为视频单词的直方图。

（4）利用在线序贯极限学习机（OnlineSequentialExtremeLearningMachine，OS-ELM）学习并分类，实际上，学习是一个连续进行的过程，用于神经网络训练的数据样本有可能是以样本组方式序贯获得，因此要求基于神经网络的分类器具有在线学习。

在线序贯极限学习机（OnlineSequentialExtremeLearningMachine，OS-ELM）是一种基于单隐层前馈神经网络的在线学习算法。在线序贯极限学习机（OS-ELM）是在基于批量学习的极限学习机(ELM)上发展起来，学习速度很快，并且具有在线学习能力。对于在线序贯极限学习机（OS-ELM）来说，其隐层节点的参数（输入权值和隐层节点阈值）是随机选取的，其输出权值是通过学习训练样本得到。

极限学习机（Extremelearningmachine,ELM）是一种有效的单隐层前馈神经网络SLFNs学习算法。传统的神经网络学习算法（如BP算法）需要人为设置大量的网络训练参数，易产生局部最优解。极限学习机ELM只需要设置网络的隐层节点个数，在学习过程中不需要调整网络的输入权值及隐层神经元的阈值，并且能产生唯一的最优解，具有学习速度快且泛化性能好的优点。极限学习机ELM最多需要N个隐层神经元学习N个不同训练样本，如图2所示。

对于N个训练样本(x_j,t_j)，j=1,Λ,N，x_j=[x_j1Λx_jn]^T∈Rⁿ，t_j=[t_j1Λt_jm]^T∈R^m。具有L个隐层神经元、激活函数为g(x)的单隐层前馈神经网络表示为：

Σ_{i = 1}^{L} β_{i} \cdot g (ω_{i} \cdot x_{j} + b_{i}) = o_{i}, j = 1, Λ, N - - - (9)

其中，ω_i=[ω_i1Λω_in]'，β_i=[β_i1Λβ_im]'分别表示连接从输入神经元到第i个隐层神经元的输入权重和连接第i个隐层神经元到输出神经元的输出权重，b_i表示为第i个隐层神经元的阈值，i=1,Λ,L，L≤N。

上述N个方程可以记为：

Hβ=T(10)

其中,

H = {[\begin{matrix} g (ω_{1} x_{1} + b_{1}) & Λ & g (ω_{L} x_{L} + b_{L}) \\ M & M & M \\ g (ω_{1} x_{N} + b_{1}) & Λ & g (ω_{L} x_{N} + b_{L}) \end{matrix}]}_{N \times L} - - - (11)

H的第i列表示第i个隐层神经元相对于输入x₁,Λ,x_N的输出。

β是输出权重矩阵，T是输出矩阵。

β = {[\begin{matrix} β_{1}^{T} \\ M \\ β_{L}^{T} \end{matrix}]}_{L \times m} - - - (12)

T = {[\begin{matrix} t_{1}^{T} \\ M \\ t_{N}^{T} \end{matrix}]}_{N \times m} - - - (13)

给定训练样本(x_j,t_j)，j=1,Λ,N，x_j=[x_j1Λx_jn]^T∈Rⁿ，t_j=[t_j1Λt_jm]^T∈R^m，以及激活函数g(x)和隐层神经元个数L，ELM为输入权重ω₁,Λ,ω_L和阈值b₁,Λ,b_L随机赋值，隐层输出矩阵H由公式（11）计算得到，输出权重矢量β由下列公式计算得到，

β=H⁺T(14)

其中，H⁺为H的Moore-Penrose广义伪逆矩阵。

β的其中一个解为：

β=(H^TH)^-1H^TT（15）

在线序贯极限学习机（OS-ELM）可以分批次地学习训练样本，特别适合于要求在线学习的情况，当获得新的样本时，不需要重新开始训练，只需在以前训练好的分类器基础上用新的样本训练，具有在线学习能力。训练样本序贯地获得，当分类器序贯地学习训练样本。

基于递推最小二乘算法，在线序贯极限学习机（OS-ELM）分类器算法实现分为两步：

第一步：初始化

给定初始训练样本N₀≥L。

a)为输入权重ω_i和阈值b_i，i＝1,Λ,L在[--1,1]内去随机数赋值；

b)计算初始隐层输出矩阵，

H_{0} = {[\begin{matrix} g (ω_{1} x_{1} + b_{1}) & Λ & g (ω_{L} x_{L} + b_{L}) \\ M & M & M \\ g (ω_{1} x_{N_{0}} + b_{1}) & Λ & g (ω_{L} x_{N_{0}} + b_{L}) \end{matrix}]}_{N_{0} \times L} . - - - (16)

c)估计初始输出权重矩阵，

β^{(0)} = M_{0} H_{0}^{T} T_{0} - - - (17)

其中，

M_{0} = {(H_{0}^{T} H_{0})}^{- 1},

T_{0} = {[\begin{matrix} t_{1} & Λ & t_{N_{0}} \end{matrix}]}^{T} .

d)令k=0。k表示OS-ELM神经网络分类器序贯获得的训练样本的批次。

第二步：在线学习：OS-ELM继续在线学习新获得的第k+1批次的训练样本

a)计算相应于第k+1批次训练样本的隐层输出矢量H_k+1，

H_{k + 1} = {[\begin{matrix} g (ω_{1} x_{(Σ_{j = 0}^{k} N_{j}) + 1} + b_{1}) & Λ & g (ω_{L} x_{(Σ_{j = 0}^{k} N_{j}) + 1} + b_{L}) \\ M & M & M \\ g (ω_{1} x_{(Σ_{j = 0}^{k} N_{j}) + 1} + b_{1}) & Λ & g (ω_{L} x_{(Σ_{j = 0}^{k} N_{j}) + 1} + b_{L}) \end{matrix}]}_{N_{k + 1} \times L} - - - (18)

b)基于递推最小二乘算法，计算输出权重β^(k+1)，

β^{(k + 1)} = β^{(k)} + M_{k + 1} H_{k + 1} (t_{k + 1}^{T} - H_{k + 1}^{T} β^{(k)}) - - - (19)

其中，

M_{k + 1} = M_{k} - \frac{M_{k} H_{k + 1} H_{k + 1}^{T} M_{k}}{1 + H_{k + 1}^{T} M_{k} H_{k + 1}} - - - (20)

c)取k=k+1，继续在线学习步骤，序贯学习不断新获得的训练样本。

在线序贯极限学习机OS-ELM与ELM相比，将批量学习改为序贯在线学习，有利于提高识别精度。

本发明基于3DHarris检测子获得时空兴趣点，利用3DSIFT描述子计算检测到的时空兴趣点的描述子，利用K-means聚类方法生成视频词典，生成图像的词包模型，对于图像的旋转、尺度变化具有不变性，训练在线序贯极限学习机分类器对人的行为进行识别，获得较好的识别精度，更由于在线序贯极限学习机所具有的在线学习能力，本发明提出的方法对于环境场景的变化、环境光照变化、检测对象变化、人体形态变化等具有较强的不敏感性。

本发明利用KTH动作数据集进行实验验证，KTH动作数据集包括六大类人的行为：散步、慢跑、跑步、拳击、挥手和鼓掌。KTH动作数据集是采集由25位实验者在四个不同的实验场景（室内、室外、室外（尺度变化）、室外（实验者的衣着变化））完成上述六类动作的视频，总共含有2391个视频序列。我们选取其中597个单人完成的动作视频作为实验对象。视频的帧率为25帧/秒，每帧的分辨率为160×120，每个视频含有27~365帧不等。

KTH动作数据集中的大多数视频序列中，背景是静态的，在动作幅度、持续时间及视角方面有一定的变化。与其他数据集相比，KTH动作数据集虽然含有的动作类较少，但是每一动作类中的示例是最多的，并且具有较大的尺度变化。

本发明采用留一法(LeaveOneOut(LOO))评价和比较分类结果。所谓留一法就是从N个样本中选取出N-1个样本作为训练样本训练分类器，留一个样本作为测试样本检验分类器的性能。这样重复N次，检验N次，统计错误分类的样本总数K，用K/N作为错误率的估计值，则正确率的估计值为1-K/N。其优点是有效地利用了N个样本，比较适用于样本数N较小的情况。

实验评价了可调节参数：词典大小的变化对分类器人体行为识别性能的影响，如图3所示。从图中可以看出，当词典大小为550时，识别率最高。

本实验采用留一法，设计ELM、OS-ELM、支持向量机（SupportVectorMachine,SVM）和递增式支持向量机（IncrementalSVM,ISVM）分类器，验证OS-ELM对识别对象的在线学习能力和对场景的在线学习能力。

参数设置：ELM隐含层神经元个数L=280，激活函数为Sigmoid函数OS-ELM隐含层神经元个数L=280，激活函数为Sigmoid函数，在线学习的每批次样本的个数为10。在IntelPentium4CPU2.40Gh，1.75GBRAM的计算机上的MATLAB环境下完成了实验，下面的实验结果都是10次实验的统计结果。

（1）对人的在线学习能力

ELM和SVM的样本：训练样本为KTH数据库中24个人的所有动作视频；测试样本为余下的1个人的所有动作视频。

OS-ELM和ISVM的样本：初始训练样本为数据库中24个人的所有动作视频；在线学习样本：余下1个人的在第一个和第三个场景下的动作视频；测试样本：为余下这个人在第二个和第四个场景下的动作视频。

对于在初始训练样本中没有见过的人的行为的识别情况的实验结果比较如表1所示。ELM与OS-ELM识别混淆矩阵分别如表2和表3所示。

表1对于在初始训练样本中没有见过的人的行为的识别情况比较

（在ELM和SVM的训练样本中没有测试样本中识别对象的动作视频；在ISVM和OS-ELM的初始训练样本中没有测试样本中识别对象的动作视频，在线训练样本中包含测试样本中识别对象的其他动作视频）

表2ELM分类器的混淆矩阵

（训练样本中没有测试样本中识别对象的动作视频）

表3OS-ELM分类器的混淆矩阵

（初始训练样本中没有测试样本中识别对象的动作视频，在线训练样本中包含测试样本中识别对象的其他动作视频）

如表1、表2和表3所示，对于在初始训练样本中没有见过的识别对象的行为识别，OS-ELM分类器的识别精度最高，除了初始训练阶段之外，OS-ELM分类器具有在线学习能力，通过在线学习一个人的动作视频样本，OS-ELM分类器可以以较高的识别精度获得这个人的其他动作的正确识别。SVM和ISVM的识别精度较低、学习训练时间长。与ELM相比，OS-ELM分类器以稍微较长的学习训练时间为代价，获得了较高的识别精度。

（2）对场景的在线学习能力

ELM和SVM的样本：训练样本为3个场景中25个人的6类动作视频，以及余下场景下的25个人的5类动作；测试样本为剩余样本。

OS-ELM和ISVM的在线学习样本：初始样本与ELM的离线学习样本一致，在线学习样本：余下场景下的前12个人的剩下那一类动作视频；测试样本：余下场景下的后13个人的该类动作视频。

对于在初始训练样本中没有见过的场景下的人的行为识别情况的实验结果比较如表4所示。ELM与OS-ELM识别混淆矩阵分别如表5和表6所示。

表4对于在初始训练样本中没有见过的场景下人的行为的识别情况比较（在ELM和SVM的训练样本中没有测试样本中场景下的动作视频；在ISVM和OS-ELM的初始训练样本中没有测试样本中场景下的动作视频，在线训练样本中包含测试样本中场景下的动

作视频）

表5ELM分类器的混淆矩阵

（训练样本中没有测试样本中场景下的动作视频）

表6OS-ELM分类器的混淆矩阵

（初始训练样本中没有测试样本中场景下的动作视频，在线训练样本中包含测试样本中场景下的动作视频）

如表4、表5和表6所示，对于在初始训练阶段没有学习过的场景下的人的行为识别，OS-ELM分类器具有最高的正确识别率。通过对于新场景的在线学习，OS-ELM分类器能够以较高的识别精度识别变化的场景下人的行为。

实验验证了本发明提出的基于视频词汇利用在线序贯极限学习机的递增式人体行为识别方法对于环境场景变化、环境光照变化、检测对象变化、人体形态变化具有一定的不敏感性，仅需很少的训练样本和较短的训练时间即可实现分类器的训练，对于新的环境或者新的动作执行者，无需重新训练新的分类器，已训练好的分类器仅需学习新的训练样本,即可实现在新的环境下对于新的动作执行者的行为进行正确识别。

Claims

1.一种基于在线序贯极限学习机的递增式人体行为识别方法，其特征是，基于以下条件：在静态背景环境下，人的活动范围能够用摄像机捕捉到；具体包括以下步骤：

(1)采用3DHarris角点检测子提取视频中的时空兴趣点，定义角函数在时间和空间同时取得局部最大的极值点为空兴趣点；

(2)利用3DSIFT描述子计算检测到的时空兴趣点的描述子；

(3)采用K-means聚类算法生成视频词典，建立视频图像的词包模型；

(4)用得到视频词包模型训练在线序贯极限学习机分类器；

(5)利用在线序贯极限学习机分类器进行人体行为识别，并进行在线学习；

所述步骤(1)的具体实现方法是：

H＝det(μ)-ktrace³(μ),H>0，

其中，时空二阶矩

μ (\cdot; σ_{l}, τ_{l}) = g (\cdot; σ_{i}, τ_{i}) * (&dtri; L (\cdot; σ, τ) {(&dtri; L (\cdot; σ, τ))}^{T}),

上标T表示矩阵转置，σ_l,τ_l分别为局部空间和时间尺度，σ_i＝sσ_l和τ_i＝sτ_l为集成尺度，i表示集成，系数s把局部空间和时间尺度σ_l,τ_l转变为集成尺度σ_i,τ_i，s的取值范围为(0,1)，g(x,y,t；σ²,τ²)为高斯平滑函数，σ,τ分别为空间和时间尺度：

g (x, y, t; σ^{2}, τ^{2}) = \frac{1}{\sqrt{{(2 π)}^{3} σ^{4} τ^{2}}} \times \exp (- (x^{2} + y^{2}) / 2 σ^{2} - t^{2} / 2 τ^{2}),

是时空梯度：

(&dtri; L (\cdot; σ, τ) {(&dtri; L (\cdot; σ, τ))}^{T}) = (\begin{matrix} L_{x}^{2} & L_{x} L_{y} & L_{x} L_{t} \\ L_{x} L_{y} & L_{y}^{2} & L_{y} L_{t} \\ L_{x} L_{y} & L_{y} L_{t} & L_{t}^{2} \end{matrix}),

其中，

L_{x} (.; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{x} (g * f),

L_{y} (.; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{y} (g * f),,

L_{t} (.; σ_{l}^{2}, τ_{l}^{2}) = {&PartialD;}_{t} (g * f) .

通过寻找角函数在时间和空间同时取得局部最大的极值点来检测时空兴趣点；

所述步骤(2)的具体实现方法是：

m_{3 D} (x, y, t) = \sqrt{L_{x}^{2} + L_{y}^{2} + L_{t}^{2}},

θ(x,y,t)＝tan^-1(L_y/L_x)，

φ (x, y, t) = \tan^{- 1} (\frac{L_{t}}{\sqrt{L_{x}^{2} + L_{y}^{2}}}),

m_3D(x,y,t)为三维时空点(x,y,t)的梯度值，θ(x,y,t)＝tan^-1(L_y/L_x)和分别表示二维梯度方向角和偏离二维梯度方向角，L_x、L_y和L_t分别为视频图像上三维时空点(x,y,t)在x,y,t方向上的梯度，其中：L_x≈L(x+1,y,t)-L(x-1,y,t)，L_y≈L(x,y+1,t)-L(x,y-1,t)，L_t≈L(x,y,t+1)-L(x,y,t-1))，L(x,y,t)表示视频图像在三维时空点(x,y,t)上的灰度值；

[\begin{matrix} \cos (θ^{*}) \cos (φ^{*}) & - \sin (θ^{*}) & - \cos (θ^{*}) \sin (φ^{*}) \\ \sin (θ^{*}) \cos (φ^{*}) & \cos (θ^{*}) & - \sin (θ^{*}) \sin (φ^{*}) \\ \sin (φ^{*}) & 0 & \cos (φ^{*}) \end{matrix}],