CN100583127C

CN100583127C - 一种基于模板匹配的视点无关的人体动作识别方法

Info

Publication number: CN100583127C
Application number: CN200810059129A
Authority: CN
Inventors: 庄越挺; 肖俊; 张剑; 吴飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2008-01-14
Filing date: 2008-01-14
Publication date: 2010-01-20
Anticipated expiration: 2028-01-14
Also published as: CN101216896A

Abstract

本发明公开了一种基于模板匹配的视点无关的人体动作识别方法。能在视频中识别出几种预先定义的典型动作。构造模板时首先为每个样例动作计算多个投影视点下的运动历史图并提取极坐标特征，采用流形学习方法将这些极坐标特征映射至低维子空间中，并在子空间中基于多视点极坐标特征的低维坐标为此样例动作构造“超球”。动作模板由多个已知球心和半径的超球组成。当给定待识别动作时，首先计算此动作的运动历史图和相应极坐标特征，然后将极坐标特征投射至模板动作子空间中得到低维坐标，并计算此坐标与模板中各个超球球面之间的距离，选择最接近的超球作为识别结果。本发明提供的技术实现了视点无关的动作识别，在视频监控领域具有较高应用价值。

Description

一种基于模板匹配的视点无关的人体动作识别方法

技术领域

本发明涉及视频监控，尤其涉及一种基于模板匹配的视点无关的人体动作识别方法。

背景技术

一些研究者将人体动作识别等同于人体三维重建，他们认为如果能够恢复与视频对应的三维人体姿态，自然就达到了识别的目的。将预先建立的三维人体模型与图像中的二维人体轮廓进行适配，从而实现人体姿态的重建。然而，从任意图像序列中恢复三维信息是个十分复杂的、非线性的过程，容易受到噪声干扰，很不鲁棒。因此更多人研究如何从二维视频中直接对人体动作进行识别。Ekinci等人提出一种视频监控中的实时人体运动跟踪和姿态估计方法，他们采用背景建模技术提取人体运动轮廓，基于人体轮廓的骨架结构估计人体姿态。然而此项工作仅考虑离散的人体姿态，并未对时序上的人体姿态序列进行表示和建模。隐马尔可夫模型(Hidden Markov Models)适合描述物体在时间域上的运动模式，因此被广泛应用在人体动作识别。这类工作的原理是从视频帧序列中提取时序特征，并采用这些特征为每类动作训练HMMs。识别时从视频中提取运动序列的特征，并输入每个HMMs，选择输出概率最大的HMMs作为分类结果。由于HMMs是基于概率的识别方法，它们需要大量训练数据以确保结果的可靠性，因此对每类动作均需要大量视频作为训练样本，这在很多情况下难以保证。光流(Optical flow)是表征人体运动的重要特征。Ahmad等人采用光流表示视频帧间的人体运动信息，并基于HMMs进行动作识别，这项工作发表在IEEE国际模式识别会议中(IEEE International Conference on PatternRecognition，2006，263～266)。然而光流的计算效率较低，因此这种方法并不适合象视频监控之类的实时应用。Davis和Bobick提出的二维运动模板(IEEETransactions on PAMI，2001，23(3)：257～267)是一种描述时序运动序列的有力工具。他们提出的运动能量图(Motion Energy Image)和运动历史图(Motion HistoryImage)能有效捕捉视频序列中的人体运动信息。MEI和MHI将一段视频序列中的时序人体运动信息压缩在一幅图像中进行表达。这种表示方式有助于避免复杂的视觉跟踪问题，将时序数据的识别简化为一个图像分类问题，因此大大提高了人体动作识别的效率。然而Davis的方法是视点相关的，即识别的效果依赖于具体的视点。作者只是在特定视点下构造二维运动模板，因此当待识别的人体动作是在其它视点下得到的，这种方法就会失效。唯一的解决手段就是在很多视点下分别构造运动模板，这不仅麻烦而且很不科学，因为我们无法事先预知待识别的动作具有怎样的视点。Michel等人提出结合MHI和k近邻(kNearest Neighbor)算法对人脸动作单元(Facial Action Unit)的运动进行识别(IEEE International Workshop on Human-Robot Interaction 2004，2004，253～258)。这种方法的效率在很大程度上依赖于样本数据的数量，当样本数据量很大时，kNN分类算法是非常耗时的。Weinland等人将MHI拓展到三维空间形成运动历史体(Motion History Volume)，这项工作发表在《计算机视觉与图像理解》上(Computer Vision and Image Understanding，2006，104：249～257)，尽管MHV是种视点无关的动作表达方式，构造MHV却需要多个严格标定过的视频摄像机。所以，当仅有单目监控视频时，很难通过构造MHV进行动作识别。

发明内容

本发明的目的是提供一种基于模板匹配的视点无关的人体动作识别方法。

它包括模板构造和动作识别两个部分：

1.一种基于模板匹配的视点无关的人体动作识别方法，其特征在于方法分为模板构造和动作识别两个部分：

模板构造的步骤为：

1)首先捕获三维人体动作作为样例，采用3D max构造三维人体模型并将三维运动数据与模型绑定，渲染为多个视点下的二维人体轮廓序列；

2)基于多视点的人体轮廓序列计算此动作在多个视点下的运动历史图和相应的极坐标特征；

3)采用流形学习算法将所有样例动作多视点下的极坐标特征映射至四维子空间，得到每个极坐标特征在子空间中的四维坐标；

4)对每个样例动作的多视点极坐标特征，通过在四维子空间中计算虚拟球心和超球半径来构造动作超球；

5)将多种样例动作的动作超球集成起来得到动作模板；

动作识别的步骤为：

6)根据待识别动作序列构造运动历史图并提取相应的极坐标特征；

7)采用流形学习算法将此极坐标特征映射至模板动作子空间并获得待识别动作的四维坐标；

8)在动作模板中寻找与此四维坐标最接近的超球球面，并将此球面代表的样例动作作为候选的识别结果。

所述的模板构造步骤中捕获三维人体动作作为样例，并采用特定造型软件将三维运动数据渲染为多个视点下的二维人体轮廓序列：采用运动分析光学运动捕获设备，捕获关节点处贴有标签的人体的几种典型动作的三维运动数据，采用3D Max构造人体的三维实体模型并与运动数据进行绑定，利用3D Max设定相机角度，渲染得到多个视点下的人体运动图像序列并基于背景图像将运动人体与背景分割开来，得到二值的人体轮廓序列。

所述的模板构造步骤中基于多视点的人体轮廓序列计算此动作在多个视点下的运动历史图：运动历史图H_τ采用如下公式计算：

H_{τ} (x, y, t) = \{\begin{matrix} τ & if   D (x, y, t) = 1 \\ \max (0, H_{τ} (x, y, t - 1) - 1) & otherwise \end{matrix}

其中D(x，y，t)是由一段包含人体运动的图像序列I(x，y，t)与背景图像相减得到的二值人体轮廓序列；τ是这段动作的最大持续时间；根据动作持续时间归一化运动历史图的计算公式为：

H (x, y, t) = H_{τ = t_{\max} - t_{\min}} (x, y, t_{\max}) / (t_{\max} - t_{\min}) .

所述的对运动历史图提取极坐标特征：首先对运动历史图中非零值像素的x和y坐标取均值得到人体运动区域的质心，然后以质心为圆心对人体运动区域做最小包围圆，以θ度为间隔将此最小包围圆划分为360/θ个扇区，并在径向上将每个扇区均匀划分为n个区域，运动历史图中的人体运动区域被分布在极坐标系上的360×n/θ个图像区域完全覆盖，将这个360×n/θ维向量作为运动历史图的极坐标特征。

所述的模板构造步骤中采用流形学习算法将所有样例动作多视点下的极坐标特征映射至四维子空间，得到每个极坐标特征在子空间中的四维坐标：采用等距映射算法对所有样例动作在多个视点下的极坐标特征进行降维，将360×n/θ维极坐标特征约减至四维，同时计算所有四维特征的两两最短距离矩阵，采用多维缩放算法得到距离矩阵的特征向量，并与四维特征运算得到每个极坐标特征在四维空间中的坐标。

所述的模板构造步骤中对每个样例动作的多视点极坐标特征，通过在四维子空间中计算虚拟球心和超球半径来构造动作超球：设样例动作的多视点极坐标特征分布在一个四维的超球表面，超球的虚拟球心是隐藏在多视点动作投影图像下的此动作的本征特征；假设给定动作对应的极坐标特征，这个动作超球的虚拟球心和半径可通过采用最小二乘法求解得到，计算公式为：

\{\begin{matrix} {| | x_{1} - O | |}_{2} = R \\ {| | x_{2} - O | |}_{2} = R \\ \cdot \cdot \cdot \\ {| | x_{m} - O | |}_{2} = R \end{matrix}

其中R是超球半径，O是超球球心，x_i是m个极坐标特征，i＝1，…，m。

所述的模板构造步骤中将多种样例动作的动作超球集成起来得到动作模板：将所有典型动作在多个视点下的极坐标特征投影至一个四维流形子空间中，在这个四维子空间中为每个样例动作构造动作超球并计算虚拟球心和半径；用做动作识别的动作模板由所有样例动作的多视点极坐标特征、所有动作超球的虚拟球心、所有动作超球的半径三部分组成，每个动作超球具有不同的球心和半径。

所述的动作识别步骤中根据待识别动作序列构造运动历史图并提取相应的极坐标特征：假设I(x，y，t)是包含待识别动作的图像序列，D(x，y，t)是提取出的二值人体轮廓序列，运动历史图H_τ计算为

H_{τ} (x, y, t) = \{\begin{matrix} τ & if   D (x, y, t) = 1 \\ \max (0, H_{τ} (x, y, t - 1) -) & otherwise \end{matrix},

其中τ是这段动作的最大持续时间；根据动作持续时间归一化运动历史图，计算公式为

H (x, y, t) = H_{τ = t_{\max} - t_{\min}} (x, y, t_{\max}) / (t_{\max} - t_{\min});

对待识别动作的运动历史图中非零值像素的x和y坐标取均值得到人体运动区域的质心，然后以质心为圆心对人体运动区域做最小包围圆，以θ度为间隔将此最小包围圆划分为360/θ个扇区，并在径向上将每个扇区均匀划分为n个区域，运动历史图中的人体运动区域被分布在极坐标系上的360×n/θ个图像区域完全覆盖，待识别动作的运动历史图可用一个360×n/θ维向量来表示，将这个360×n/θ维向量作为待识别动作的极坐标特征。

所述的动作识别步骤中采用流形学习算法将此极坐标特征映射至模板动作子空间并获得待识别动作的四维坐标：令F是待识别动作的极坐标特征，采用等距映射流形学习算法将F映射至四维的样本动作子空间，并基于等距映射流形学习算法计算出待识别动作在子空间中的四维坐标P。

所述的动作识别步骤中在动作模板中寻找与此四维坐标最接近的超球球面，并将此球面代表的样例动作作为候选的识别结果：

设动作模板中包含n个样例动作，每个动作由动作超球在流形子空间中进行表示，这n个动作超球的虚拟球心和半径分别为O_i和R_i，i＝1，...，n，计算

d_{k} = \min_{i = 1, . . ., n} | {| | P - O_{i} | |}_{2} - R_{i} |,

寻找距离P最接近的超球面，此超球代表特定样例动作A_k，其虚拟球心和半径分别为O_k和R_k；设T_j是动作模板中与A_k对应的所有视点下动作投影的四维流形坐标，j＝1，…，m，如果

d_{k} \leq \max_{j = 1, . . ., m} | {| | T_{j} - O_{k} | |}_{2} - R_{k} |

输入动作可识别为A_k

否则

返回；

结束；

以上操作通过一个阈值来评价待识别动作与样例动作的绝对相似度，此阈值自动指定为A_k对应的所有视点下动作投影的四维流形坐标与超球球面之间的最大距离。

本发明具有的有益效果是本发明所述的运动模板可以方便的由未标定的多视点视频构造；动作超球融合了多视点下的人体运动特征，有利于进行视点无关的人体动作识别；另外基于超球的识别方法在计算效率上要优于传统的kNN算法。

附图说明

图1是本发明中Poser软件模拟的24台虚拟摄像机位置分布示意图；

图2是本发明中六种样例动作的运动历史图；

图3(a)是本发明中运动历史图的最小包围圆及其在径向和轴向划分示意图；

图3(b)是本发明中采用216区域的最小包围圆对运动历史图进行采样示意图；

图3(c)是本发明中运动历史图的216维极坐标特征；

图4是本发明中基于六种样例动作构造的动作模板示意图；

图5(a)是本发明中构造动作模板时采用的三维运动数据；

图5(b)是本发明中多视点下的运动历史图；

图5(c)是本发明中根据多视点下的运动历史图提取的极坐标特征；

图5(d)是本发明中用流形学习对极坐标特征降维得到的四维坐标；

图5(e)是本发明中的动作超球；

图6是本发明实例3中待识别动作与动作模板中样例动作的平均距离示意图；

具体实施方式

基于模板匹配的视点无关的人体动作识别方法实施如下：

1)使用Motion Analysis公司的Mocap设备捕获六种三维人体动作作为样例，即行走、蹲下、打拳、踢腿、敲打和猛砸。在捕获时Mocap设备的帧速率设置为30fps，与一般的视频帧速率相同。每个非周期性动作持续时间大约为一秒，一个行走周期时间也为一秒。采用Poser造型软件模拟表演者周围的24台摄像机。其中12台摄像机以30度为间隔均匀分布在以表演者为中心的水平面上，另外12台摄像机则均匀分布在仰角为45度的水平面上，同样以30度为间隔，这种相机配置情况同样可由图1大致描述。采用这24个虚拟摄像机结合虚拟的三维人体模型将三维运动数据渲染为多个视点下的二维人体轮廓序列。

2)假设I(x，y，t)是一段包含人体运动的图像序列，D(x，y，t)是提取出的二值人体轮廓序列，用一幅运动历史图H_τ来描述这段人体运动的情况；根据下式计算

H_{τ} (x, y, t) = \{\begin{matrix} τ & if   D (x, y, t) = 1 \\ \max (0, H_{τ} (x, y, t - 1) - 1) & otherwise \end{matrix},

其中τ是这段动作的最大持续时间，由于每段动作持续时间为一秒钟，因此τ为30。按照下式将运动历史图归一化：H(x，y，t)＝H₃₀(x，y，30)/30，对6种样例动作分别计算运动历史图，如图2所示。进一步对运动历史图提取极坐标特征作为动作表示形式，首先对运动历史图中非零值像素的x和y坐标取均值得到人体运动区域的质心，然后以质心为圆心对人体运动区域做最小包围圆。以10度为间隔将此最小包围圆划分为360个扇区，并在径向上将每个扇区均匀划分为6个区域，运动历史图中的人体运动区域被分布在极坐标系上的216个图像区域完全覆盖；因此，一幅运动历史图可用一个216维向量来表示，向量每个元素定义为运动历史图上特定图像区域中的像素亮度平均值，将这个216维向量作为运动历史图的极坐标特征，计算极坐标特征的过程如图3(a)，图3(b)，图3(c)所示。

3)采用流形学习算法将6种样例动作在24个视点下的极坐标特征映射至四维子空间，得到每个极坐标特征在子空间中的四维坐标：采用等距映射算法对所有样例动作在多个视点下的极坐标特征进行降维，将216维极坐标特征约减至四维，同时得到每个极坐标特征在四维空间中的坐标。在等距映射算法中每个数据的近邻数目设置为20。

4)对任何一个样例动作在24个视点下的极坐标特征，在四维流形子空间中通过计算虚拟球心和超球半径来构造动作超球；设给定动作对应24个极坐标特征x_i(i＝1，...，24)，这个动作超球的虚拟球心O和半径R可通过采用最小二乘法求解得到，计算公式为：

\{\begin{matrix} {| | x_{1} - O | |}_{2} = R \\ {| | x_{2} - O | |}_{2} = R \\ \cdot \cdot \cdot \\ {| | x_{24} - O | |}_{2} = R \end{matrix}

将6种典型动作在24个视点下的极坐标特征投影至一个四维流形子空间中，属于同一个动作的四维坐标聚集在一起，而不同动作的四维坐标之间能够比较清晰的区分开来；在这个四维子空间中为每个样例动作构造动作超球并计算虚拟球心和半径；因此用做动作识别的动作模板由三部分组成：6种样例动作的24视点极坐标特征；6个动作超球的虚拟球心；6个动作超球的半径。由于动作之间的差异，每个动作超球具有不同的球心和半径。基于六种样例动作得到的动作模板如图4所示。基于样例动作计算动作模板的整个工作流程如图5(a)，图5(b)，图5(c)，图5(d)，图5(e)所示。

5)采用步骤二中的方法根据输入视频计算待识别动作的运动历史图和极坐标特征。

6)采用等距映射算法将待识别动作的极坐标特征映射至模板动作子空间，得到待识别动作在子空间中的四维坐标，等距映射算法中数据的近邻个数设定为20。

7)动作模板中包含的6个样例动作均由动作超球在流形子空间中进行表示，这6个动作超球的虚拟球心和半径分别为O_i和R_i(i＝1，...，6)，计算

d_{k} = \min_{i = 1, . . ., 6} | {| | P - O_{i} | |}_{2} - R_{i} |,

在动作模板中寻找距离P最接近的超球面，此超球代表特定样例动作A_k，其虚拟球心和半径分别为O_k和R_k，这是为了在动作模板中找到与待识别动作相对最接近的样例动作；

设T_j(j＝1，...，m)是动作模板中与A_k对应的所有视点下动作投影的四维流形坐标，如果

d_{k} \leq \max_{j = 1, . . ., 6} | {| | T_{j} - O_{k} | |}_{2} - R_{k} |,

输入动作可识别为A_k；否则待识别动作不在预先定义的动作之列。

为了验证本发明所述的方法，我们首先使用Mocap系统捕获六种人体动作(行走、打拳、踢腿、下蹲、敲打和砸)，其中包括在停车场可能出现的典型异常动作，如敲玻璃、砸车等等。捕获时Mocap系统的帧速率为30fps，每个动作持续大约1秒钟，对于行走动作，只取一个周期内运动作为样本。然后采用Poser造型软件将这些三维运动数据分别在24个视点方向上进行投影，这24个虚拟摄像机的位置可参照图1进行设置。接下来计算每个动作的24视点运动历史图，提取这些运动历史图的极坐标特征，并在低维流形子空间中构造动作模板。这六种动作每一种都分别由实验室的六个不同成员以不同的速率和幅度表演三次，因此构造动作模板时每种动作都有18种选择。为测试不同模板对识别准确率的影响，我们对六种样例动作分别作出不同选择，共构造18个不同的模板，基于这些模板对六种测试动作进行识别，我们对每种样例动作随机采样，构造包含6个样例动作的动作模板进行如下所述的三组测试实施例。

实施例1

基于合成的数据集进行动作识别实施例：

对于此数据集，每种动作有18个不同的选择，由于已经有一个动作被选入动作模板，剩下的17个动作可被用作测试用例。将本发明所述算法与两种算法进行对比，即Bobick等人提出的时序模板匹配方法和k近邻(kNN)分类方法。在kNN方法中，我们在构造模板数据时仍然提取样例动作的多视点极坐标特征，并采用非线性降维方法将其映射至四维子空间中，只是在分类的时候将基于超球的方法替换为kNN分类方法。由于Bobick提出的方法是依赖于视点的，因此基于同样的样例动作(这些样例动作也被用来构造我们自己的动作模板)为这种方法构造24个时序模板，这24个模板的视点与图1中的虚拟相机位置相对应。这样无论输入动作具有怎样的视点，都可以找到对应的时序动作模板进行识别。测试时，根据一段待识别的人体动作轮廓序列计算运动历史图并提取极坐标特征，此运动的视点在已知的24个相机视点之内。这样可能的测试用例数目为17×24＝408。随机挑选100个不同输入进行测试，三种算法的识别准确率及执行时间情况为：对“蹲下”动作而言，kNN方法的识别准确率为73％，Bobick方法的识别准确率为86％，本发明所述方法的识别准确率为85％；kNN方法的执行时间为350毫秒，Bobick方法的执行时间为116毫秒，本发明所述方法的执行时间为107毫秒。对“行走”动作而言，kNN方法的识别准确率为72％，Bobick方法的识别准确率为89％，本发明所述方法的识别准确率为91％；kNN方法的执行时间为420毫秒，Bobick方法的执行时间为108毫秒，本发明所述方法的执行时间为109毫秒。对“打拳”动作而言，kNN方法的识别准确率为83％，Bobick方法的识别准确率为87％，本发明所述方法的识别准确率为87％；kNN方法的执行时间为380毫秒，Bobick方法的执行时间为110毫秒，本发明所述方法的执行时间为104毫秒。对“踢腿”动作而言，kNN方法的识别准确率为86％，Bobick方法的识别准确率为92％，本发明所述方法的识别准确率为90％；kNN方法的执行时间为470毫秒，Bobick方法的执行时间为96毫秒，本发明所述方法的执行时间为92毫秒。对“敲打”动作而言，kNN方法的识别准确率为78％，Bobick方法的识别准确率为85％，本发明所述方法的识别准确率为84％；kNN方法的执行时间为320毫秒，Bobick方法的执行时间为95毫秒，本发明所述方法的执行时间为82毫秒。对“砸”动作而言，kNN方法的识别准确率为80％，Bobick方法的识别准确率为83％，本发明所述方法的识别准确率为86％；kNN方法的执行时间为510毫秒，Bobick方法的执行时间为120毫秒，本发明所述方法的执行时间为115毫秒。这表明发明所述算法在准确率及计算效率方面都要好于kNN算法，本算法特别适合于在大的数据集上进行识别，因为我们只需要比较输入数据和每个超球球心之间的距离，算法执行时间相对于数据类别的数目呈线性增长。因此本算法比较适合视频监控之类的实时应用。

实施例2

基于公共数据集进行动作识别实施例：

在实施例1中Bobick的方法与本发明所述方法具有相似的性能，这是因为在上一个测试中输入动作的视点是受到严格限制的，以便与动作模板的视点相匹配。第二组测试则是为了对比Bobick的方法与本发明所述方法的可推广性。我们在IXMAS数据集上执行两种算法，IXMAS数据集可在INRIA PERCEPTION的站点上公开下载。此数据集包含13种日常人体运动，每种运动由11个演员分别表演3次。演员表演时自由改变朝向以体现视点无关性。因此对于一种动作来说，有33个可供选择的测试用例。我们在IXMAS数据集中选择了5个自由视点下的行走、打拳、踢腿和下蹲四个动作，计算它们的运动历史图和极坐标特征作为算法输入。用这四组动作进行测试，试验对比说明本发明所述方法的识别准确率优于Bobick所提出方法的准确率。这表明Bobick提出的方法在视点不确定时性能下降很快，而本发明所述方法则能在视点发生变化时仍然保持较高识别率，具有视点无关性。

实施例3

基于真实视频进行动作识别实施例：

我们在学校停车场中拍摄实验室其他人员的真实视频，运动人体轮廓可由背景建模方法获得。这里如何从一个时序的人体轮廓集合中获得有意义的“动作”片段作为算法输入是个十分关键的问题，我们采用基于子空间分析的切分算法在时间域上对动态人体动作进行切分。每隔1秒钟对30帧人体轮廓(视频帧速率为30fps)进行预切分，初步提取不同动作片段，并计算运动历史图和相应的极坐标特征作为算法输入。共重复了10次测试，待识别动作与动作模板中样例动作的平均距离如图6所示，可见本发明所述方法对于真实视频同样有效。

Claims

模板构造的步骤为：

1)首先捕获三维人体动作作为样例，采用3D Max构造二维人体模型并将三维运动数据与模型绑定，三维运动渲染为多个视点下的二维人体轮廓序列；

3)采用流形学习算法将所有样例动作多视点下的极坐标特征映射至四维子空间，得到每个极坐标特征在四维子空间中的四维坐标；

5)将多种样例动作的动作超球集成起来得到动作模板；

动作识别的步骤为：

7)采用流形学习算法将极坐标特征映射至四维子空间并获得待识别动作的四维坐标；

8)在动作模板中寻找与四维坐标最接近的超球球面，并将此球面代表的样例动作作为候选的识别结果。

2.根据权利要求1所述的一种基于模板匹配的视点无关的人体动作识别方法，其特征在于所述的首先捕获三维人体动作作为样例，采用3D Max构造三维人体模型并将三维运动数据与模型绑定，三维运动渲染为多个视点下的二维人体轮廓序列：采用运动分析光学运动捕获设备，捕获关节点处贴有标签的人体的几种典型动作的三维运动数据，采用3D Max构造人体的三维人体模型并与三维运动数据进行绑定，利用3D Max设定相机角度，渲染得到多个视点下的人体运动图像序列并基于背景图像将运动人体与背景分割开来，得到二维人体轮廓序列。

3.根据权利要求1所述的一种基于模板匹配的视点无关的人体动作识别方法，其特征在于所述的基于多视点的人体轮廓序列计算此动作在多个视点下的运动历史图：运动历史图H_τ采用如下公式计算：

H_{τ} (x, y, t) = \{\begin{matrix} τ & if & D (x, y, t) = 1 \\ \max (0, H_{τ} (x, y, t - 1) - 1) & otherwise \end{matrix}

其中D(x，y，t)是由一段包含人体运动的图像序列I(x，y，t)与背景图像相减得到的二维人体轮廓序列；τ是这段动作的最大持续时间；根据动作持续时间归一化运动历史图的计算公式为：

H (x, y, t) = H_{{τ = t}_{\max} - t_{\min}} (x, y, t_{\max}) / (t_{\max} - t_{\min}) .

4.根据权利要求1或3所述的一种基于模板匹配的视点无关的人体动作识别方法，其特征在于所述的基于多视点的人体轮廓序列计算此动作在多个视点下的相应的极坐标特征：首先对运动历史图中非零值像素的x和y坐标取均值得到人体运动区域的质心，然后以质心为圆心对人体运动区域做最小包围圆，以θ度为间隔将此最小包围圆划分为360/θ个扇区，并在径向上将每个扇区均匀划分为n个区域，运动历史图中的人体运动区域被分布在极坐标系上的360×n/θ个图像区域完全覆盖，将这个360×n/θ维向量作为运动历史图的极坐标特征。

5.根据权利要求4所述的一种基于模板匹配的视点无关的人体动作识别方法，其特征在于所述的模板构造步骤中采用流形学习算法将所有样例动作多视点下的极坐标特征映射至四维子空间，得到每个极坐标特征在四维子空间中的四维坐标：采用等距映射算法对所有样例动作在多个视点下的极坐标特征进行降维，将360×n/θ维极坐标特征约减至四维，同时计算所有四维特征的两两最短距离矩阵，采用多维缩放算法得到距离矩阵的特征向量，并将距离矩阵的特征向量与四维特征运算得到每个极坐标特征在四维空间中的坐标。

6.根据权利要求1所述的一种基于模板匹配的视点无关的人体动作识别方法，其特征在于所述的模板构造步骤中对每个样例动作的多视点极坐标特征，通过在四维子空间中计算虚拟球心和超球半径来构造动作超球：设样例动作的多视点极坐标特征分布在一个四维的超球表面，超球的虚拟球心是隐藏在多视点动作投影图像下的此动作的本征特征；假设给定动作对应的极坐标特征，这个动作超球的虚拟球心和半径通过采用最小二乘法求解得到，计算公式为：

\{\begin{matrix} {| | x}_{1} - O {| |}_{2} = R \\ {| | x}_{2} - O {| |}_{2} = R \\ . . . \\ {| | x}_{m} - O {| |}_{2} = R \end{matrix}

其中R是超球半径，O是超球球心，x₁，x₂，…，x_m是m个极坐标特征。

7.根据权利要求1所述的一种基于模板匹配的视点无关的人体动作识别方法，其特征在于所述的模板构造步骤中将多种样例动作的动作超球集成起来得到动作模板：将所有典型动作在多个视点下的极坐标特征投影至一个四维子空间中，在这个四维子空间中为每个样例动作构造动作超球并计算虚拟球心和半径；用做动作识别的动作模板由所有样例动作的多视点极坐标特征、所有动作超球的虚拟球心、所有动作超球的半径三部分组成，每个动作超球具有不同的球心和半径。

8.根据权利要求1所述的一种基于模板匹配的视点无关的人体动作识别方法，其特征在于所述的动作识别步骤中根据待识别动作序列构造运动历史图并提取相应的极坐标特征：假设I(x，y，t)是包含待识别动作的图像序列，D(x，y，t)是提取出的二维人体轮廓序列，运动历史图H_τ计算为

H_{τ} (x, y, t) = \{\begin{matrix} τ & if & D (x, y, t) = 1 \\ \max (0, H_{τ} (x, y, t - 1) - 1) & otherwise \end{matrix},

H (x, y, t) = H_{{τ = t}_{\max} - t_{\min}} (x, y, t_{\max}) / (t_{\max} - t_{\min});

对待识别动作的运动历史图中非零值像素的x和y坐标取均值得到人体运动区域的质心，然后以质心为圆心对人体运动区域做最小包围圆，以θ度为间隔将此最小包围圆划分为360/θ个扇区，并在径向上将每个扇区均匀划分为n个区域，运动历史图中的人体运动区域被分布在极坐标系上的360×n/θ个图像区域完全覆盖，待识别动作的运动历史图用一个360×n/θ维向量来表示，将这个360×n/θ维向量作为待识别动作的极坐标特征。

9.根据权利要求1所述的一种基于模板匹配的视点无关的人体动作识别方法，其特征在于所述的动作识别步骤中采用流形学习算法将极坐标特征映射至四维子空间并获得待识别动作的四维坐标：令F是待识别动作的极坐标特征，采用等距映射流形学习算法将F映射至四维子空间，并基于等距映射流形学习算法计算出待识别动作在四维子空间中的四维坐标P。

10.根据权利要求1所述的一种基于模板匹配的视点无关的人体动作识别方法，其特征在于所述的动作识别步骤中在动作模板中寻找与四维坐标最接近的超球球面，并将此球面代表的样例动作作为候选的识别结果：

设动作模板中包含n个样例动作，每个动作由动作超球在四维子空间中进行表示，这n个动作超球的虚拟球心和半径分别为O_i和R_i，i＝1，...，n，计算

d_{k} = \min_{i = 1, . . ., n} | {| | P - O_{i} | |}_{2} - R_{i} |,

其中P为待识别动作的四维坐标，寻找距离P最接近的超球面，距离P最接近的超球代表特定样例动作A_k，其虚拟球心和半径分别为O_k和R_k；设T_j是动作模板中与A_k对应的所有视点下动作投影的四维坐标，j＝1，…，m，如果

d_{k} \leq \max_{j = 1, . . ., m} | {| | T_{j} - O_{k} | |}_{2} - R_{k} |

输入动作可识别为A_k

否则

返回；

结束；

以上操作通过一个阈值来评价待识别动作与样例动作的绝对相似度，此阈值自动指定为A_k对应的所有视点下动作投影的四维坐标与超球球面之间的最大距离。