CN101599177B

CN101599177B - 一种基于视频的人体肢体运动的跟踪方法

Info

Publication number: CN101599177B
Application number: CN2009100880640A
Authority: CN
Inventors: 马华东; 曾成斌; 明安龙
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2009-07-01
Filing date: 2009-07-01
Publication date: 2011-07-27
Anticipated expiration: 2029-07-01
Also published as: CN101599177A

Abstract

一种基于视频的人体肢体运动的跟踪方法，只对单个行走人的肢体运动进行跟踪；操作步骤如下：(1)初始化：把人体图像分解为10个部件，并用15个关节点描述该10个肢体部件在图像中的位置，以便通过确定10个关节点在每帧图像中的位置来实现对人体肢体运动的跟踪；(2)预测：只需针对前一帧图像的姿势向量RA数值，预测当前帧图像所对应的姿势向量RA的数值，即能够实现对人体肢体运动的跟踪。本发明方法只需要一个摄像机，而且在计算粒子的权值时同时考虑了边缘采样和内部采样两种情况，使得该方法具有约束条件少、无须摄像机标定、应用简单、姿态恢复精确等优点。

Description

一种基于视频的人体肢体运动的跟踪方法

技术领域

本发明涉及一种基于视频的人体肢体运动的跟踪方法，属于计算机数字图像处理和计算机视觉技术领域。

背景技术

近年来开展的基于视频对人体的肢体运动进行跟踪，已经成为使用计算机分析和理解人的行为的一项关键技术和应用场合，它可广泛用于下述场合：

(1)人机交互：计算机通过实时的视频图像来理解人的行为或操作，从而实现即使不通过键盘和鼠标也能控制计算机的功能。

(2)智能监控：在公共场所对人的各项动作进行自动监视和跟踪，并根据其结果分析人的行为。例如在超市中对盗窃行为的实现自动监控。

(3)视频检索：例如要让计算机自动完成对一段足球视频中的射门次数进行统计时，首先必须让计算机理解什么是足球的射门动作。

这只是基于视频对人体肢体的运动进行跟踪的几个应用领域，随着计算机功能的日益强大，这方面的应用场合肯定会越来越广泛和深入。

现在，对人体肢体运动进行跟踪的方法通常分为两种：一种是分别在人体的各个关节部位安设传感器。在人体运动过程中，这些传感器就会不断地将各个关节在空间中的位置变化消息发送给计算机，这样计算机就可以精确地获得人体的各个肢体在各个时刻的运动信息。另一种是由计算机针对视频图像序列进行分析。其中的视频图像序列可以是单个摄像机拍摄的，也可以是多个摄像机同时从各个不同视角拍摄的。

基于视频图像序列的人体肢体运动的跟踪方法又可分为两类：自底向上法和自顶向下法。其中，自底向上法是先从图像帧中提取人体低层部位的相关特征(例如下肢各关节的位置)，并对之进行识别；然后，在各个帧的特征间建立对应关系；最后，从特征对应关系中提取人体的各个肢体结构与运动信息。自底向上法的特点是处理速度快，但是，跟踪的精度不够高。

自顶向下法是先对视频序列的第一帧中被跟踪的人物进行手工标注，也就是先用人工计算出该人物的各个关节的位置，再用预测的方法对后续各帧图像的关节位置进行计算和预测，由此实现人体肢体运动的跟踪。常用的预测方法包括卡尔曼滤波法及粒子滤波法。卡尔曼滤波法只适用于运动处于高斯分布的情况，然而人体的运动分布主要是以非高斯分布为主，因此，该方法并不实用。粒子滤波法比较适合于非高斯分布的运动跟踪，但是，它要求用多个摄像机进行同步跟踪，并要求对摄像机进行标定，以确定摄像机的内部参数和外部参数。该方法特点是跟踪精度较高，但速度较慢。

如何在保留这种自顶向下法中人体肢体运动进行跟踪的方法的跟踪精度高、姿态恢复精确的基础上，改进其原来的缺陷，就成为业内科技人员关注的新课题。

发明内容

有鉴于此，本发明的目的是提供一种基于视频的人体肢体运动的跟踪方法，该方法采用自顶向下法中的粒子滤波对人体肢体运动进行跟踪。与传统方法不同的是，本发明只需一个摄像机，而且在计算粒子的权值时，同时考虑边缘采样和内部采样的两种情况，使得该方法具有约束条件少、无须摄像机标定、应用简单、姿态恢复精确等优点。

为了达到上述目的，本发明提供了一种基于视频的人体肢体运动的跟踪方法，该方法只限定于对单个行走人体的肢体运动进行跟踪；其特征在于，包括下列操作步骤：

(1)初始化：把人体图像分解为下述10个部件：头、躯干、左大臂、左小臂、右大臂、右小臂、左大腿、左小腿、右大腿、右小腿，并用包括骶关节p1、颈关节p2、右肩关节p3、右肘关节p4、右腕关节p5、左肩关节p6、左肘关节p7、左腕关节p8、右髋关节p9、右膝关节p10、右踝关节p11、左髋关节p12、左膝关节p13、左踝关节p14和头部p15的15个关节点，描述该10个人体各肢体部件在图像中的位置，以便通过确定该10个关节点在每帧图像中的位置，实现对人体肢体运动的跟踪；

(2)预测：在每帧图像中，长度向量L的数值都保持不变，只有姿势向量RA的数值发生变化，因此，只需针对前一帧图像的姿势向量RA数值，预测当前帧图像所对应的姿势向量RA的数值，即能够实现对人体肢体运动的跟踪。

所述长度向量L是由15个关节点中相互连接的两个关节点之间的14条边的长度所组成的一个14维向量；所述姿势向量RA是由在图像中作为根节点的骶关节p1的位置以及其它各个关节点与其对应的父节点的角度向量A所组合得到的一个16维向量。

所述步骤(1)进一步包括下列操作内容：

(11)对视频中的首帧图像中人体的15个关节点位置进行人工标注，并以右肩关节p3、左肩关节p6、右髋关节p9和左髋关节p12四个关节点围成的矩形框用于表示人体躯干，以每个肢体所对应的两个关节点及其构成的设定宽度的矩形框分别表示人体的左上臂、左小臂、右上臂、右小臂、左大腿、左小腿、右大腿、右小腿和头部；其中由15个关节点中相互连接的两个关节点之间的14条边的长度所组成的一个14维向量被称为长度向量L；而由在图像中作为根节点的骶关节p1的位置以及其它各个关节点与其对应的父节点的角度向量A所组合得到的一个16维向量被称为姿势向量RA。

(12)为预测第二帧图像中的10个肢体部件的位置，分别计算首帧图像中的各相邻关节点之间连接边的长度、各子关节点相对于父关节点的角度和根关节点在图像中的位置。

所述步骤(12)进一步包括下列操作内容：

(121)由所述15个关节点导出人体骨架模型，并将其中决定其余14个关节点位置的骶关节p1定义为根节点，再分别计算各个相邻关节点之间的欧氏距离，即有边相连接的两个关节点之间的边的长度，总共得到14条边的长度，组成一个14维的长度向量：L＝(l₁，l₂，...，l₁₄)；

(122)根据人体骨架模型定义相邻节点的父子关系：与骶关节p1相邻的颈关节p2、右髋关节p9和左髋关节p12为骶关节p1的三个子节点，骶关节p1则为该三个子节点的父节点；除去其父节点骶关节p1以外，与颈关节p2相邻的有右肩关节p3、左肩关节p6和头部p15三个子节点，颈关节p2则为该三个子节点的父节点；除去其父节点颈关节p2以外，与右肩关节p3相邻的右肘关节p4为右肩关节p3的子节点，右肩关节p3则为右肘关节p4的父节点；以此类推，得到人体骨架模型中所有相邻节点的父子关系；

(123)根据所述相邻节点的父子关系，分别计算各个子节点相对其父节点的角度：θ_i-j，式中，下标i-j表示其为子节点i相对其父节点j的角度；由此得到一个14维的子节点相对其父节点的角度向量：A＝(θ_2-1，θ_9-1，θ_12-1，θ_3-2，...，θ_14-13)；

(124)因根节点骶关节p1的位置能决定其余14个关节点的位置，故只要获知骶关节p1在图像中的位置，再利用长度向量L和角度向量A的数值，就能够唯一确定其余14个关节点在图像中的位置；设根节点在图像中的位置为(rx，ry)，其与角度向量A组合得到一个16维的姿势向量：RA＝(rx，ry，θ_2-1，θ_9-1，θ_12-1，θ_3-2，...，θ_14-13)；再由首帧图像所对应的长度向量L和姿势向量RA的数值，即为预测下一帧图像中10个肢体位置所需要的初始值。

所述步骤(2)进一步包括下列五个操作内容：

(21)先用多元正态分布函数随机生成N个姿势向量RA的数值，该多元正态分布姿势向量RA的均值是首帧图像所对应的姿势向量RA的数值，其协方差矩阵是一个16×16的单位矩阵；并将该姿势向量RA的N个值中的每个数值称为一个粒子，每个粒子对应一个人体骨架模型的状态，即15个关节点在图像中的位置；

(22)计算每个粒子的权值，即每个粒子和当前帧图像中人体姿势的相似程度；再根据该N个粒子进行归一化处理后的权值，对该N个粒子做加权平均，以得到的加权平均值作为预测的当前帧图像的姿势向量RA的数值；

(23)根据预测的当前帧图像的姿势向量RA的数值和长度向量L，通过计算得到预测的当前帧图像中人体的15个关节点的所在位置；再根据该预测的15个关节点的所在置，利用前述标注各肢体矩形框的方法，得到人体各个肢体所对应的10个矩形框的位置和大小；

(24)为避免粒子出现退化现象：在权值较小的粒子上耗费大量计算，需要对预测的当前帧图像的N个粒子做重采样，计算每个粒子应被复制的次数，以使在生成下一帧图像使用粒子时，权值越大的粒子被复制的次数越多；所述每个粒子被复制的次数，是指以该粒子的数值为均值做多元正态分布时，所生成的姿势向量RA的数值的个数；

(25)从第二帧图像开始的每帧图像都重复执行上述步骤(21)～(24)的操作，得到的每帧图像的人体各肢体所对应的10个矩形框位置和大小，也就实现了单个行走人体的肢体运动跟踪。

所述N个姿势向量RA的数值中的N的取值范围是[100，350]，选取的N数值越大，预测的精度越高，但计算时间也越长；应根据需求，在预测精度和计算速度之间寻取平衡点。

所述步骤(22)中，计算每个粒子权值的操作进一步包括下列操作内容：

(221)对预测的当前帧图像进行下述两个处理：

先用高斯-拉普拉斯算子提取预测的当前帧图像中所有物体的边缘，得到其对应的边缘图像；所使用的高斯-拉普拉斯模板是：

[\begin{matrix} - 2 & - 4 & - 4 & - 4 & - 2 \\ - 4 & 0 & 8 & 0 & - 4 \\ - 4 & 8 & 24 & 8 & - 4 \\ - 4 & 0 & 8 & 0 & - 4 \\ - 2 & - 4 & - 4 & - 4 & 2 \end{matrix}];

接着，用背景差分方法提取出该预测的当前帧图像的前景图像：只有人物、没有背景的图像；再把前景图像中人物所对应的所有像素的值都设为1，其余像素的值都为0；

(222)对步骤(21)中随机生成的N个姿势向量RA中的每个粒子分别进行下述操作：

因每个粒子为姿势向量RA中的一个数值，先根据每个粒子和长度向量L的数值，通过计算而唯一确定该粒子所对应的人体骨架模型状态，即其15个关节点在图像中的位置；进而得到该粒子所对应的人体各肢体对应的10个矩形框的位置和大小；

接着，对该10个矩形框分别进行边缘采样和内部采样，边缘采样是对上述各肢体的矩形框的边缘进行采样，内部采样是在每个矩形框内分别进行水平方向和垂直方向的采样；

在步骤(221)中的边缘图像中，根据边缘采样中的每个采样点的位置，得到每个采样点在该边缘图像中对应像素的值，再对每个采样点的值的平方进行累加，得到的累加和为该粒子的边缘权值；

在步骤(221)中的前景图像中，根据内部采样中的每个采样点的位置，得到每个采样点在该前景图像中对应像素的值，再对每个采样点的值进行累加，得到的累加和为该粒子的内部权值；

然后对所述边缘权值和所述内部权值进行相加求和，并将得到的和设为sum，再对sum取负数后的值作为自然指数的幂，进行求解自然指数的(-sum)次幂、即e^-sum的运算，其结果为该粒子的权值；

(223)对得到的N个姿势向量RA中的每个粒子的权值做归一化处理：使得每个粒子的权值在[0，1]之间，并且，该N个粒子的权值之和为1；再将归一化处理后的权值作为每个粒子的最终权值。

所述步骤(24)进一步包括下列操作内容：

(241)根据得到的N个粒子的权值向量(w₁，w₂，...，w_i，...，w_N)，生成一个N维的累计和向量(s₁，s₂，...，s_i，...，s_N)，其中，s_i的值是w₁至w_i共i个权值的累加和；

(242)生成在[0，1]之间均匀分布的N个随机数(u₁，u₂，...，u_N)；

(243)用二分查找法分别计算该N个随机数中的每个随机数在所述递增数列的累计和向量(s₁，s₂，...，s_N)中的位置，得到一个N维的位置向量M：M＝(m₁，m₂，...，m_N)；

(244)统计该N维的位置向量M中具有相同数值分量的个数，即为每个粒子应被重复的次数；其中权值大的粒子具有的相同数值分量多，即其被重复的次数也多，权值小的粒子具有的相同数值分量少，其被重复的次数也少，甚至为0；且N个粒子应被重复的次数之和与N数值相同，生成的预测下一帧图像所需要的粒子数也为N个；

(245)根据每个粒子应被重复的次数，生成相应数量的后代粒子；且其后代粒子服从正态分布，这些正态分布粒子的均值是其对应的父代粒子的数值，其协方差矩阵是一个16×16的单位矩阵。

本发明是一种采用自顶向下法中的粒子滤波对人体肢体运动进行跟踪的方法，其优点与创新之处是：与传统的自顶向下方法不同的是，本发明只需要一个摄像机，而且在计算粒子的权值时，同时考虑了边缘采样和内部采样两种情况，使得该方法具有约束条件少、无须摄像机标定、应用简单、姿态恢复精确等优点。

附图说明

图1是本发明基于视频的人体肢体运动的跟踪方法操作步骤流程图。

图2(A)、(B)分别是本发明将人体分为10个部分的各肢体矩形框在图像中的位置图和所标注的15个关节点(作了放大处理)的位置图。

图3是本发明中将颈关节p2与头部p15组成的一个肢体矩形框示意图。

图4是本发明对人体架构的骨架模型图。

图5是本发明中的父子节点的相对角度示意图。

图6(A)、(B)分别是本发明中对人体的各肢体矩形框分别进行边缘采样和内部采样的结果示意图。

图7是本发明实施例中步骤(244)的说明示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

参见图1，介绍本发明基于视频的人体肢体运动的跟踪方法，该方法只限定于对单个行走人体的肢体运动进行跟踪，其具体操作主要分为两个步骤：

步骤1、初始化：把人体图像分解为下述10个部件：头、躯干、左大臂、左小臂、右大臂、右小臂、左大腿、左小腿、右大腿、右小腿，并用包括骶关节p1、颈关节p2、右肩关节p3、右肘关节p4、右腕关节p5、左肩关节p6、左肘关节p7、左腕关节p8、右髋关节p9、右膝关节p10、右踝关节p11、左髋关节p12、左膝关节p13、左踝关节p14和头部p15的15个关节点，描述该10个人体各肢体部件在图像中的位置，以便通过确定该10个关节点在每帧图像中的位置，实现对人体肢体运动的跟踪。

该步骤1进一步包括下列两个操作内容：

(11)先对视频中的首帧图像中人体的15个关节点位置用小矩形框进行人工标注(参见图2(B))，该15个关节点都是图像中的像素点(为表示清楚图像，图2(B)对这15个像素点作了放大)。并以右肩关节p3、左肩关节p6、右髋关节p9和左髋关节p12四个关节点围成的矩形框用于表示人体躯干，并设定p2和p15位于该矩形框的宽度中心位置。再以每个肢体所对应的两个关节点及其构成的设定宽度的矩形框(参见图2(A))分别表示人体的左上臂、左小臂、右上臂、右小臂、左大腿、左小腿、右大腿、右小腿和头部。头部对应的关节标注点是p2和p15(参见图3)。15个关节点中相互连接的两个关节点之间的14条边的长度所组成的一个14维向量被称为长度向量L；而由在图像中作为根节点的骶关节p1的位置以及其它各个关节点与其对应的父节点的角度向量A所组合得到的一个16维向量被称为姿势向量RA。这样，跟踪人体运动就成为确定这10个矩形框在每帧图像中的位置。

(12)为预测第二帧图像中的10个肢体部件的位置，分别计算首帧图像中的各相邻关节点之间连接边的长度、各子关节点相对于父关节点的角度和根关节点在图像中的位置。所述步骤(12)包括下列操作内容：

(121)由图2(B)中的15个关节点能够导出人体骨架模型(参见图4)，并将其中决定其余14个关节点位置的骶关节p1定义为根节点，再分别计算各个相邻关节点之间的欧氏距离，即有边相连接的两个关节点之间的边的长度，即相邻节点在图像中的欧氏距离，总共得到14条边的长度，组成一个14维的长度向量：L＝(l₁，l₂，...，l₁₄)。

(122)根据人体骨架模型定义相邻节点的父子关系：与骶关节p1相邻的颈关节p2、右髋关节p9和左髋关节p12为骶关节p1的三个子节点，骶关节p1则为该三个子节点的父节点；除去其父节点骶关节p1以外，与颈关节p2相邻的有右肩关节p3、左肩关节p6和头部p15三个子节点，颈关节p2则为该三个子节点的父节点；除去其父节点颈关节p2以外，与右肩关节p3相邻的右肘关节p4为右肩关节p3的子节点，右肩关节p3则为右肘关节p4的父节点；以此类推，得到图4中的人体骨架模型中所有相邻节点的父子关系。

(123)根据上述相邻节点的父子关系，即可分别计算和定义各个子节点相对其父节点的角度：θ_i-j，式中，下标i-j表示其为子节点i相对其父节点j的角度(参见图5：p3是父节点，p4是子节点，θ_4-3是p4相对于p3的角度，其下标4-3表示p4相对于p3，故θ_4-3表示p4相对于p3的角度)。由此得到一个14维的子节点相对其父节点的角度向量：A＝(θ_2-1，θ_9-1，θ_12-1，θ_3-2，...，θ_14-13)。

(124)因根节点骶关节p1的位置能决定其余14个关节点的位置，故只要获知骶关节p1在图像中的位置，再利用长度向量L和角度向量A的数值，通过简单计算就能唯一确定其余14个关节点在图像中的位置；设根节点在图像中的位置为(rx，ry)，其与角度向量A组合得到一个16维的姿势向量：RA＝(rx，ry，θ_2-1，θ_9-1，θ_12-1，θ_3-2，...，θ_14-13)，再由首帧图像所对应的长度向量L和姿势向量RA的数值，即为预测下一帧图像中10个肢体位置所需要的初始值。

步骤2、预测：因为在每帧图像中，长度向量L的数值都保持不变，只有姿势向量RA的数值发生变化，因此，只需针对前一帧图像的姿势向量RA数值，预测当前帧图像所对应的姿势向量RA的数值，即能够实现对人体肢体运动的跟踪。该步骤2包括下列操作内容：

(21)先用多元正态分布函数随机生成N个服从多元正态分布的姿势向量RA的数值。众所周知，多元正态分布函数有两个参数：均值和协方差矩阵。该正态分布姿势向量RA的均值是首帧图像所对应的姿势向量RA的数值；其协方差矩阵是一个16×16的单位矩阵，并将该N个姿势向量RA中的每个数值称为一个粒子，每个粒子对应一个人体骨架模型的状态，即15个关节点在图像中的位置。这里的N个姿势向量RA的数值中的N的取值范围是[100，350]，选取的N数值越大，预测的精度越高，但计算时间也越长；应根据需求，在预测精度和计算速度之间寻取平衡点。通常选取粒子数为200。

(22)计算每个粒子的权值，即每个粒子和当前帧图像中人体姿势的相似程度；再根据该N个粒子进行归一化处理后的权值，对该N个粒子做加权平均，以得到的加权平均值作为预测的当前帧图像的姿势向量RA的数值。

该步骤(22)中，计算每个粒子权值的操作进一步包括下列操作内容：

(221)对预测的当前帧图像进行下述两个处理，得到其对应的边缘图像和前景图像：

[\begin{matrix} - 2 & - 4 & - 4 & - 4 & - 2 \\ - 4 & 0 & 8 & 0 & - 4 \\ - 4 & 8 & 24 & 8 & - 4 \\ - 4 & 0 & 8 & 0 & - 4 \\ - 2 & - 4 & - 4 & - 4 & 2 \end{matrix}];

接着，用背景差分方法提取出该预测的当前帧图像的前景图像，即只有人物、没有背景的图像；再把前景图像中人物所对应的所有像素的值都设为1，其余像素的值都为0。

(a)因每个粒子为姿势向量RA中的一个数值，先根据每个粒子和长度向量L的数值，通过计算而唯一地确定该粒子所对应的人体骨架模型状态，即其15个关节点在图像中的位置；进而得到该粒子所对应的人体各肢体对应的10个矩形框的位置和大小；

(b)接着，对该10个矩形框分别进行边缘采样和内部采样，边缘采样是对上述各肢体的10个矩形框的边缘进行采样(采样效果如图6(A)所示，采样间隔为5个像素)，内部采样是在每个矩形框内分别进行水平方向和垂直方向的采样(采样效果如图6(B)所示，采样间隔为5个像素)；

(c)在步骤(221)中得到的边缘图像中，根据边缘采样中的每个采样点的位置，得到每个采样点在该边缘图像中对应像素的值，再对每个采样点的值的平方进行累加，得到的累加和为该粒子的边缘权值；

(d)在步骤(221)中得到的前景图像中，根据内部采样中的每个采样点的位置，得到每个采样点在该前景图像中对应像素的值，再对每个采样点的值进行累加，得到的累加和为该粒子的内部权值；

(e)然后对该边缘权值和该内部权值进行相加求和，并将得到的和设为sum，再对sum取负数后的值作为自然指数的幂，进行求解自然指数的(-sum)次幂、即e^-sum的运算，其结果为该粒子的权值。

(223)对得到的N个姿势向量RA中的每个粒子的权值做归一化处理：使得每个粒子的权值在[0，1]之间，并且，该N个粒子的权值之和为1；再将归一化处理后的权值作为每个粒子的最终权值和预测当前帧图像的姿势向量RA的数值。

(23)根据预测的当前帧图像的姿势向量RA的数值和长度向量L，通过计算得到预测的当前帧图像中人体的15个关节点的所在位置；再根据该预测的15个关节点的所在置，利用前述标注各肢体矩形框的方法，得到人体各个肢体所对应的10个矩形框的位置和大小。

(24)为了生成下一帧图像所需要的N个粒子，如果重复使用上述步骤的方法，会出现粒子退化现象，也即把大量的计算浪费在权值较小的粒子上。为避免粒子出现退化现象：在权值较小的粒子上耗费大量计算，需要对预测当前帧图像的N个粒子做重采样，也就是计算每个粒子应被复制的次数，以使在生成下一帧图像使用粒子时，权值越大的粒子被复制的次数越多。所述每个粒子被复制的次数，是指以该粒子的数值为均值做多元正态分布时，所生成的姿势向量RA的数值的个数。该步骤(24)进一步包括下列操作内容：

(243)用二分查找法分别计算该N个随机数中的每个随机数在该递增数列的累计和向量(s₁，s₂，...，s_N)中的所在位置，得到一个N维的位置向量M：M＝(m₁，m₂，...，m_N)。例如，对于随机数0.4951，因为累计和向量是一个递增数列，所以，如果s₉₁＞0.4951≥s₉₀，则0.4951在累计和向量中所在的位置就是91。

(244)统计该N维的位置向量M中具有相同数值分量的个数，即为每个粒子应被重复的次数；其中权值大的粒子具有的相同数值分量多，即其被重复的次数也多，权值小的粒子具有的相同数值分量少，其被重复的次数也少，甚至为0；且N个粒子应被重复的次数之和与N数值相同，生成的预测下一帧图像所需要的粒子数也为N个。

例如，参见图7所示的5个粒子的情况：(s₁，s₂，s₃，s₄，s₅)是这5个粒子对应的累积和向量，(u₁，u₂，u₃，u₄，u₅)是均匀分布在[0，1]之间的5个随机数，这5个随机数对应的位置向量M＝(m₁，m₂，m₃，m₄，m₅)。在图7中，粒子1的权值较大，随机数u₁和u₂在累计和向量中的位置都为1，也即m₁＝m₂＝1，所以粒子1应被重复的次数为2，表明粒子1被重复的次数较多；位置2上的粒子2的权值较小，没有随机数，所以粒子2被重复的次数为0。同理，位置3上的粒子3被重复的次数为2，粒子4被重复的次数为1，粒子5被重复的次数为0。因此，这5个粒子应被重复的次数之和仍然为5，只是权值大的粒子重复的次数较多，而权值较小的粒子重复的次数较小，甚至为0。

本发明中N个粒子的情况类似于图7中的5个粒子的情况，只是这N个粒子应被重复的次数之和为N。

(245)根据每个粒子应被重复的次数，生成相应数量的后代粒子；且其后代粒子服从正态分布。例如，如果第8个粒子被重复的次数为3，则该第8个粒子生成3个后代粒子，且这3个后代粒子服从正态分布。这些正态分布粒子的均值是其对应的父代粒子的数值；其协方差矩阵是一个16×16的单位矩阵。因为这N个粒子应被重复的次数之和为N，所以生成的预测下一帧图像所需要的粒子数也为N。

(25)从第二帧图像开始的每帧图像都要重复执行上述步骤(21)～(24)的操作，得到的每帧图像的人体各肢体所对应的10个矩形框位置和大小，也就实现了单个行走人体的肢体运动跟踪。

本发明采用自顶向下方法中的粒子滤波对人体的肢体运动进行跟踪的方法，已经进行了多次实施试验和仿真验证。下面简要介绍实验环境如下：

实验对象：单个行走的人体。硬件设施：松下网络摄像机BL-C111一台，PC电脑一台(cpu：PIV3.2G，内存：1G)。软件开发环境：Visual C++2005。测试视频长度：2000帧。每帧视频的平均计算时间：3秒。平均跟踪错误度量(即与真实肢体位置的距离差)：5mm。

多次进行实验实施例的结果表明：不同于传统方法，本发明方法只需要一个摄像机，而且在计算粒子的权值时，同时兼顾边缘采样和内部采样两种情况，使得该方法约束条件少、无须摄像机标定、应用简单、姿态恢复精确等优点。

Claims

1.一种基于视频的人体肢体运动的跟踪方法，该方法只限定于对单个行走人体的肢体运动进行跟踪；其特征在于，包括下列操作步骤：

2.根据权利要求1所述的方法，其特征在于：所述长度向量L是由15个关节点中相互连接的两个关节点之间的14条边的长度所组成的一个14维向量；所述姿势向量RA是由在图像中作为根节点的骶关节p1的位置以及其它各个关节点与其对应的父节点的角度向量A所组合得到的一个16维向量。

3.根据权利要求1所述的方法，其特征在于：所述步骤(1)进一步包括下列操作内容：

(11)对视频中的首帧图像中人体的15个关节点位置进行人工标注，并以右肩关节p3、左肩关节p6、右髋关节p9和左髋关节p12四个关节点围成的矩形框用于表示人体躯干，以每个肢体所对应的两个关节点及其构成的设定宽度的矩形框分别表示人体的左上臂、左小臂、右上臂、右小臂、左大腿、左小腿、右大腿、右小腿和头部；其中由15个关节点中相互连接的两个关节点之间的14条边的长度所组成的一个14维向量被称为长度向量L；而由在图像中作为根节点的骶关节p1的位置以及其它各个关节点与其对应的父节点的角度向量A所组合得到的一个16维向量被称为姿势向量RA；

4.根据权利要求3所述的方法，其特征在于：所述步骤(12)进一步包括下列操作内容：

(124)因根节点骶关节p1的位置能决定其余14个关节点的位置，故只要获知骶关节p1在图像中的位置，再利用长度向量L和角度向量A的数值，就能够唯一确定其余14个关节点在图像中的位置；设根节点在图像中的位置为(rx，ry)，其与角度向量A组合得到一个16维的姿势向量：RA＝(rx，ryθ_2-1，θ_9-1，θ_12-1，θ_3-2，...，θ_14-13)；再由首帧图像所对应的长度向量L和姿势向量RA的数值，即为预测下一帧图像中10个肢体位置所需要的初始值。

5.根据权利要求1所述的方法，其特征在于：所述步骤(2)进一步包括下列操作内容：

6.根据权利要求5所述的方法，其特征在于：所述N个姿势向量RA的数值中的N的取值范围是[100，350]，选取的N数值越大，预测的精度越高，但计算时间也越长；应根据需求，在预测精度和计算速度之间寻取平衡点。

7.根据权利要求5所述的方法，其特征在于：所述步骤(22)中，计算每个粒子权值的操作进一步包括下列操作内容：

(221)对预测的当前帧图像进行下述两个处理：

8.根据权利要求5所述的方法，其特征在于：所述步骤(24)进一步包括下列操作内容：