CN101599177B - 一种基于视频的人体肢体运动的跟踪方法 - Google Patents

一种基于视频的人体肢体运动的跟踪方法 Download PDF

Info

Publication number
CN101599177B
CN101599177B CN2009100880640A CN200910088064A CN101599177B CN 101599177 B CN101599177 B CN 101599177B CN 2009100880640 A CN2009100880640 A CN 2009100880640A CN 200910088064 A CN200910088064 A CN 200910088064A CN 101599177 B CN101599177 B CN 101599177B
Authority
CN
China
Prior art keywords
particle
joint
vector
image
numerical value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009100880640A
Other languages
English (en)
Other versions
CN101599177A (zh
Inventor
马华东
曾成斌
明安龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN2009100880640A priority Critical patent/CN101599177B/zh
Publication of CN101599177A publication Critical patent/CN101599177A/zh
Application granted granted Critical
Publication of CN101599177B publication Critical patent/CN101599177B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

一种基于视频的人体肢体运动的跟踪方法,只对单个行走人的肢体运动进行跟踪;操作步骤如下:(1)初始化:把人体图像分解为10个部件,并用15个关节点描述该10个肢体部件在图像中的位置,以便通过确定10个关节点在每帧图像中的位置来实现对人体肢体运动的跟踪;(2)预测:只需针对前一帧图像的姿势向量RA数值,预测当前帧图像所对应的姿势向量RA的数值,即能够实现对人体肢体运动的跟踪。本发明方法只需要一个摄像机,而且在计算粒子的权值时同时考虑了边缘采样和内部采样两种情况,使得该方法具有约束条件少、无须摄像机标定、应用简单、姿态恢复精确等优点。

Description

一种基于视频的人体肢体运动的跟踪方法
技术领域
本发明涉及一种基于视频的人体肢体运动的跟踪方法,属于计算机数字图像处理和计算机视觉技术领域。
背景技术
近年来开展的基于视频对人体的肢体运动进行跟踪,已经成为使用计算机分析和理解人的行为的一项关键技术和应用场合,它可广泛用于下述场合:
(1)人机交互:计算机通过实时的视频图像来理解人的行为或操作,从而实现即使不通过键盘和鼠标也能控制计算机的功能。
(2)智能监控:在公共场所对人的各项动作进行自动监视和跟踪,并根据其结果分析人的行为。例如在超市中对盗窃行为的实现自动监控。
(3)视频检索:例如要让计算机自动完成对一段足球视频中的射门次数进行统计时,首先必须让计算机理解什么是足球的射门动作。
这只是基于视频对人体肢体的运动进行跟踪的几个应用领域,随着计算机功能的日益强大,这方面的应用场合肯定会越来越广泛和深入。
现在,对人体肢体运动进行跟踪的方法通常分为两种:一种是分别在人体的各个关节部位安设传感器。在人体运动过程中,这些传感器就会不断地将各个关节在空间中的位置变化消息发送给计算机,这样计算机就可以精确地获得人体的各个肢体在各个时刻的运动信息。另一种是由计算机针对视频图像序列进行分析。其中的视频图像序列可以是单个摄像机拍摄的,也可以是多个摄像机同时从各个不同视角拍摄的。
基于视频图像序列的人体肢体运动的跟踪方法又可分为两类:自底向上法和自顶向下法。其中,自底向上法是先从图像帧中提取人体低层部位的相关特征(例如下肢各关节的位置),并对之进行识别;然后,在各个帧的特征间建立对应关系;最后,从特征对应关系中提取人体的各个肢体结构与运动信息。自底向上法的特点是处理速度快,但是,跟踪的精度不够高。
自顶向下法是先对视频序列的第一帧中被跟踪的人物进行手工标注,也就是先用人工计算出该人物的各个关节的位置,再用预测的方法对后续各帧图像的关节位置进行计算和预测,由此实现人体肢体运动的跟踪。常用的预测方法包括卡尔曼滤波法及粒子滤波法。卡尔曼滤波法只适用于运动处于高斯分布的情况,然而人体的运动分布主要是以非高斯分布为主,因此,该方法并不实用。粒子滤波法比较适合于非高斯分布的运动跟踪,但是,它要求用多个摄像机进行同步跟踪,并要求对摄像机进行标定,以确定摄像机的内部参数和外部参数。该方法特点是跟踪精度较高,但速度较慢。
如何在保留这种自顶向下法中人体肢体运动进行跟踪的方法的跟踪精度高、姿态恢复精确的基础上,改进其原来的缺陷,就成为业内科技人员关注的新课题。
发明内容
有鉴于此,本发明的目的是提供一种基于视频的人体肢体运动的跟踪方法,该方法采用自顶向下法中的粒子滤波对人体肢体运动进行跟踪。与传统方法不同的是,本发明只需一个摄像机,而且在计算粒子的权值时,同时考虑边缘采样和内部采样的两种情况,使得该方法具有约束条件少、无须摄像机标定、应用简单、姿态恢复精确等优点。
为了达到上述目的,本发明提供了一种基于视频的人体肢体运动的跟踪方法,该方法只限定于对单个行走人体的肢体运动进行跟踪;其特征在于,包括下列操作步骤:
(1)初始化:把人体图像分解为下述10个部件:头、躯干、左大臂、左小臂、右大臂、右小臂、左大腿、左小腿、右大腿、右小腿,并用包括骶关节p1、颈关节p2、右肩关节p3、右肘关节p4、右腕关节p5、左肩关节p6、左肘关节p7、左腕关节p8、右髋关节p9、右膝关节p10、右踝关节p11、左髋关节p12、左膝关节p13、左踝关节p14和头部p15的15个关节点,描述该10个人体各肢体部件在图像中的位置,以便通过确定该10个关节点在每帧图像中的位置,实现对人体肢体运动的跟踪;
(2)预测:在每帧图像中,长度向量L的数值都保持不变,只有姿势向量RA的数值发生变化,因此,只需针对前一帧图像的姿势向量RA数值,预测当前帧图像所对应的姿势向量RA的数值,即能够实现对人体肢体运动的跟踪。
所述长度向量L是由15个关节点中相互连接的两个关节点之间的14条边的长度所组成的一个14维向量;所述姿势向量RA是由在图像中作为根节点的骶关节p1的位置以及其它各个关节点与其对应的父节点的角度向量A所组合得到的一个16维向量。
所述步骤(1)进一步包括下列操作内容:
(11)对视频中的首帧图像中人体的15个关节点位置进行人工标注,并以右肩关节p3、左肩关节p6、右髋关节p9和左髋关节p12四个关节点围成的矩形框用于表示人体躯干,以每个肢体所对应的两个关节点及其构成的设定宽度的矩形框分别表示人体的左上臂、左小臂、右上臂、右小臂、左大腿、左小腿、右大腿、右小腿和头部;其中由15个关节点中相互连接的两个关节点之间的14条边的长度所组成的一个14维向量被称为长度向量L;而由在图像中作为根节点的骶关节p1的位置以及其它各个关节点与其对应的父节点的角度向量A所组合得到的一个16维向量被称为姿势向量RA。
(12)为预测第二帧图像中的10个肢体部件的位置,分别计算首帧图像中的各相邻关节点之间连接边的长度、各子关节点相对于父关节点的角度和根关节点在图像中的位置。
所述步骤(12)进一步包括下列操作内容:
(121)由所述15个关节点导出人体骨架模型,并将其中决定其余14个关节点位置的骶关节p1定义为根节点,再分别计算各个相邻关节点之间的欧氏距离,即有边相连接的两个关节点之间的边的长度,总共得到14条边的长度,组成一个14维的长度向量:L=(l1,l2,...,l14);
(122)根据人体骨架模型定义相邻节点的父子关系:与骶关节p1相邻的颈关节p2、右髋关节p9和左髋关节p12为骶关节p1的三个子节点,骶关节p1则为该三个子节点的父节点;除去其父节点骶关节p1以外,与颈关节p2相邻的有右肩关节p3、左肩关节p6和头部p15三个子节点,颈关节p2则为该三个子节点的父节点;除去其父节点颈关节p2以外,与右肩关节p3相邻的右肘关节p4为右肩关节p3的子节点,右肩关节p3则为右肘关节p4的父节点;以此类推,得到人体骨架模型中所有相邻节点的父子关系;
(123)根据所述相邻节点的父子关系,分别计算各个子节点相对其父节点的角度:θi-j,式中,下标i-j表示其为子节点i相对其父节点j的角度;由此得到一个14维的子节点相对其父节点的角度向量:A=(θ2-1,θ9-1,θ12-1,θ3-2,...,θ14-13);
(124)因根节点骶关节p1的位置能决定其余14个关节点的位置,故只要获知骶关节p1在图像中的位置,再利用长度向量L和角度向量A的数值,就能够唯一确定其余14个关节点在图像中的位置;设根节点在图像中的位置为(rx,ry),其与角度向量A组合得到一个16维的姿势向量:RA=(rx,ry,θ2-1,θ9-1,θ12-1,θ3-2,...,θ14-13);再由首帧图像所对应的长度向量L和姿势向量RA的数值,即为预测下一帧图像中10个肢体位置所需要的初始值。
所述步骤(2)进一步包括下列五个操作内容:
(21)先用多元正态分布函数随机生成N个姿势向量RA的数值,该多元正态分布姿势向量RA的均值是首帧图像所对应的姿势向量RA的数值,其协方差矩阵是一个16×16的单位矩阵;并将该姿势向量RA的N个值中的每个数值称为一个粒子,每个粒子对应一个人体骨架模型的状态,即15个关节点在图像中的位置;
(22)计算每个粒子的权值,即每个粒子和当前帧图像中人体姿势的相似程度;再根据该N个粒子进行归一化处理后的权值,对该N个粒子做加权平均,以得到的加权平均值作为预测的当前帧图像的姿势向量RA的数值;
(23)根据预测的当前帧图像的姿势向量RA的数值和长度向量L,通过计算得到预测的当前帧图像中人体的15个关节点的所在位置;再根据该预测的15个关节点的所在置,利用前述标注各肢体矩形框的方法,得到人体各个肢体所对应的10个矩形框的位置和大小;
(24)为避免粒子出现退化现象:在权值较小的粒子上耗费大量计算,需要对预测的当前帧图像的N个粒子做重采样,计算每个粒子应被复制的次数,以使在生成下一帧图像使用粒子时,权值越大的粒子被复制的次数越多;所述每个粒子被复制的次数,是指以该粒子的数值为均值做多元正态分布时,所生成的姿势向量RA的数值的个数;
(25)从第二帧图像开始的每帧图像都重复执行上述步骤(21)~(24)的操作,得到的每帧图像的人体各肢体所对应的10个矩形框位置和大小,也就实现了单个行走人体的肢体运动跟踪。
所述N个姿势向量RA的数值中的N的取值范围是[100,350],选取的N数值越大,预测的精度越高,但计算时间也越长;应根据需求,在预测精度和计算速度之间寻取平衡点。
所述步骤(22)中,计算每个粒子权值的操作进一步包括下列操作内容:
(221)对预测的当前帧图像进行下述两个处理:
先用高斯-拉普拉斯算子提取预测的当前帧图像中所有物体的边缘,得到其对应的边缘图像;所使用的高斯-拉普拉斯模板是: - 2 - 4 - 4 - 4 - 2 - 4 0 8 0 - 4 - 4 8 24 8 - 4 - 4 0 8 0 - 4 - 2 - 4 - 4 - 4 2 ;
接着,用背景差分方法提取出该预测的当前帧图像的前景图像:只有人物、没有背景的图像;再把前景图像中人物所对应的所有像素的值都设为1,其余像素的值都为0;
(222)对步骤(21)中随机生成的N个姿势向量RA中的每个粒子分别进行下述操作:
因每个粒子为姿势向量RA中的一个数值,先根据每个粒子和长度向量L的数值,通过计算而唯一确定该粒子所对应的人体骨架模型状态,即其15个关节点在图像中的位置;进而得到该粒子所对应的人体各肢体对应的10个矩形框的位置和大小;
接着,对该10个矩形框分别进行边缘采样和内部采样,边缘采样是对上述各肢体的矩形框的边缘进行采样,内部采样是在每个矩形框内分别进行水平方向和垂直方向的采样;
在步骤(221)中的边缘图像中,根据边缘采样中的每个采样点的位置,得到每个采样点在该边缘图像中对应像素的值,再对每个采样点的值的平方进行累加,得到的累加和为该粒子的边缘权值;
在步骤(221)中的前景图像中,根据内部采样中的每个采样点的位置,得到每个采样点在该前景图像中对应像素的值,再对每个采样点的值进行累加,得到的累加和为该粒子的内部权值;
然后对所述边缘权值和所述内部权值进行相加求和,并将得到的和设为sum,再对sum取负数后的值作为自然指数的幂,进行求解自然指数的(-sum)次幂、即e-sum的运算,其结果为该粒子的权值;
(223)对得到的N个姿势向量RA中的每个粒子的权值做归一化处理:使得每个粒子的权值在[0,1]之间,并且,该N个粒子的权值之和为1;再将归一化处理后的权值作为每个粒子的最终权值。
所述步骤(24)进一步包括下列操作内容:
(241)根据得到的N个粒子的权值向量(w1,w2,...,wi,...,wN),生成一个N维的累计和向量(s1,s2,...,si,...,sN),其中,si的值是w1至wi共i个权值的累加和;
(242)生成在[0,1]之间均匀分布的N个随机数(u1,u2,...,uN);
(243)用二分查找法分别计算该N个随机数中的每个随机数在所述递增数列的累计和向量(s1,s2,...,sN)中的位置,得到一个N维的位置向量M:M=(m1,m2,...,mN);
(244)统计该N维的位置向量M中具有相同数值分量的个数,即为每个粒子应被重复的次数;其中权值大的粒子具有的相同数值分量多,即其被重复的次数也多,权值小的粒子具有的相同数值分量少,其被重复的次数也少,甚至为0;且N个粒子应被重复的次数之和与N数值相同,生成的预测下一帧图像所需要的粒子数也为N个;
(245)根据每个粒子应被重复的次数,生成相应数量的后代粒子;且其后代粒子服从正态分布,这些正态分布粒子的均值是其对应的父代粒子的数值,其协方差矩阵是一个16×16的单位矩阵。
本发明是一种采用自顶向下法中的粒子滤波对人体肢体运动进行跟踪的方法,其优点与创新之处是:与传统的自顶向下方法不同的是,本发明只需要一个摄像机,而且在计算粒子的权值时,同时考虑了边缘采样和内部采样两种情况,使得该方法具有约束条件少、无须摄像机标定、应用简单、姿态恢复精确等优点。
附图说明
图1是本发明基于视频的人体肢体运动的跟踪方法操作步骤流程图。
图2(A)、(B)分别是本发明将人体分为10个部分的各肢体矩形框在图像中的位置图和所标注的15个关节点(作了放大处理)的位置图。
图3是本发明中将颈关节p2与头部p15组成的一个肢体矩形框示意图。
图4是本发明对人体架构的骨架模型图。
图5是本发明中的父子节点的相对角度示意图。
图6(A)、(B)分别是本发明中对人体的各肢体矩形框分别进行边缘采样和内部采样的结果示意图。
图7是本发明实施例中步骤(244)的说明示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
参见图1,介绍本发明基于视频的人体肢体运动的跟踪方法,该方法只限定于对单个行走人体的肢体运动进行跟踪,其具体操作主要分为两个步骤:
步骤1、初始化:把人体图像分解为下述10个部件:头、躯干、左大臂、左小臂、右大臂、右小臂、左大腿、左小腿、右大腿、右小腿,并用包括骶关节p1、颈关节p2、右肩关节p3、右肘关节p4、右腕关节p5、左肩关节p6、左肘关节p7、左腕关节p8、右髋关节p9、右膝关节p10、右踝关节p11、左髋关节p12、左膝关节p13、左踝关节p14和头部p15的15个关节点,描述该10个人体各肢体部件在图像中的位置,以便通过确定该10个关节点在每帧图像中的位置,实现对人体肢体运动的跟踪。
该步骤1进一步包括下列两个操作内容:
(11)先对视频中的首帧图像中人体的15个关节点位置用小矩形框进行人工标注(参见图2(B)),该15个关节点都是图像中的像素点(为表示清楚图像,图2(B)对这15个像素点作了放大)。并以右肩关节p3、左肩关节p6、右髋关节p9和左髋关节p12四个关节点围成的矩形框用于表示人体躯干,并设定p2和p15位于该矩形框的宽度中心位置。再以每个肢体所对应的两个关节点及其构成的设定宽度的矩形框(参见图2(A))分别表示人体的左上臂、左小臂、右上臂、右小臂、左大腿、左小腿、右大腿、右小腿和头部。头部对应的关节标注点是p2和p15(参见图3)。15个关节点中相互连接的两个关节点之间的14条边的长度所组成的一个14维向量被称为长度向量L;而由在图像中作为根节点的骶关节p1的位置以及其它各个关节点与其对应的父节点的角度向量A所组合得到的一个16维向量被称为姿势向量RA。这样,跟踪人体运动就成为确定这10个矩形框在每帧图像中的位置。
(12)为预测第二帧图像中的10个肢体部件的位置,分别计算首帧图像中的各相邻关节点之间连接边的长度、各子关节点相对于父关节点的角度和根关节点在图像中的位置。所述步骤(12)包括下列操作内容:
(121)由图2(B)中的15个关节点能够导出人体骨架模型(参见图4),并将其中决定其余14个关节点位置的骶关节p1定义为根节点,再分别计算各个相邻关节点之间的欧氏距离,即有边相连接的两个关节点之间的边的长度,即相邻节点在图像中的欧氏距离,总共得到14条边的长度,组成一个14维的长度向量:L=(l1,l2,...,l14)。
(122)根据人体骨架模型定义相邻节点的父子关系:与骶关节p1相邻的颈关节p2、右髋关节p9和左髋关节p12为骶关节p1的三个子节点,骶关节p1则为该三个子节点的父节点;除去其父节点骶关节p1以外,与颈关节p2相邻的有右肩关节p3、左肩关节p6和头部p15三个子节点,颈关节p2则为该三个子节点的父节点;除去其父节点颈关节p2以外,与右肩关节p3相邻的右肘关节p4为右肩关节p3的子节点,右肩关节p3则为右肘关节p4的父节点;以此类推,得到图4中的人体骨架模型中所有相邻节点的父子关系。
(123)根据上述相邻节点的父子关系,即可分别计算和定义各个子节点相对其父节点的角度:θi-j,式中,下标i-j表示其为子节点i相对其父节点j的角度(参见图5:p3是父节点,p4是子节点,θ4-3是p4相对于p3的角度,其下标4-3表示p4相对于p3,故θ4-3表示p4相对于p3的角度)。由此得到一个14维的子节点相对其父节点的角度向量:A=(θ2-1,θ9-1,θ12-1,θ3-2,...,θ14-13)。
(124)因根节点骶关节p1的位置能决定其余14个关节点的位置,故只要获知骶关节p1在图像中的位置,再利用长度向量L和角度向量A的数值,通过简单计算就能唯一确定其余14个关节点在图像中的位置;设根节点在图像中的位置为(rx,ry),其与角度向量A组合得到一个16维的姿势向量:RA=(rx,ry,θ2-1,θ9-1,θ12-1,θ3-2,...,θ14-13),再由首帧图像所对应的长度向量L和姿势向量RA的数值,即为预测下一帧图像中10个肢体位置所需要的初始值。
步骤2、预测:因为在每帧图像中,长度向量L的数值都保持不变,只有姿势向量RA的数值发生变化,因此,只需针对前一帧图像的姿势向量RA数值,预测当前帧图像所对应的姿势向量RA的数值,即能够实现对人体肢体运动的跟踪。该步骤2包括下列操作内容:
(21)先用多元正态分布函数随机生成N个服从多元正态分布的姿势向量RA的数值。众所周知,多元正态分布函数有两个参数:均值和协方差矩阵。该正态分布姿势向量RA的均值是首帧图像所对应的姿势向量RA的数值;其协方差矩阵是一个16×16的单位矩阵,并将该N个姿势向量RA中的每个数值称为一个粒子,每个粒子对应一个人体骨架模型的状态,即15个关节点在图像中的位置。这里的N个姿势向量RA的数值中的N的取值范围是[100,350],选取的N数值越大,预测的精度越高,但计算时间也越长;应根据需求,在预测精度和计算速度之间寻取平衡点。通常选取粒子数为200。
(22)计算每个粒子的权值,即每个粒子和当前帧图像中人体姿势的相似程度;再根据该N个粒子进行归一化处理后的权值,对该N个粒子做加权平均,以得到的加权平均值作为预测的当前帧图像的姿势向量RA的数值。
该步骤(22)中,计算每个粒子权值的操作进一步包括下列操作内容:
(221)对预测的当前帧图像进行下述两个处理,得到其对应的边缘图像和前景图像:
先用高斯-拉普拉斯算子提取预测的当前帧图像中所有物体的边缘,得到其对应的边缘图像;所使用的高斯-拉普拉斯模板是: - 2 - 4 - 4 - 4 - 2 - 4 0 8 0 - 4 - 4 8 24 8 - 4 - 4 0 8 0 - 4 - 2 - 4 - 4 - 4 2 ;
接着,用背景差分方法提取出该预测的当前帧图像的前景图像,即只有人物、没有背景的图像;再把前景图像中人物所对应的所有像素的值都设为1,其余像素的值都为0。
(222)对步骤(21)中随机生成的N个姿势向量RA中的每个粒子分别进行下述操作:
(a)因每个粒子为姿势向量RA中的一个数值,先根据每个粒子和长度向量L的数值,通过计算而唯一地确定该粒子所对应的人体骨架模型状态,即其15个关节点在图像中的位置;进而得到该粒子所对应的人体各肢体对应的10个矩形框的位置和大小;
(b)接着,对该10个矩形框分别进行边缘采样和内部采样,边缘采样是对上述各肢体的10个矩形框的边缘进行采样(采样效果如图6(A)所示,采样间隔为5个像素),内部采样是在每个矩形框内分别进行水平方向和垂直方向的采样(采样效果如图6(B)所示,采样间隔为5个像素);
(c)在步骤(221)中得到的边缘图像中,根据边缘采样中的每个采样点的位置,得到每个采样点在该边缘图像中对应像素的值,再对每个采样点的值的平方进行累加,得到的累加和为该粒子的边缘权值;
(d)在步骤(221)中得到的前景图像中,根据内部采样中的每个采样点的位置,得到每个采样点在该前景图像中对应像素的值,再对每个采样点的值进行累加,得到的累加和为该粒子的内部权值;
(e)然后对该边缘权值和该内部权值进行相加求和,并将得到的和设为sum,再对sum取负数后的值作为自然指数的幂,进行求解自然指数的(-sum)次幂、即e-sum的运算,其结果为该粒子的权值。
(223)对得到的N个姿势向量RA中的每个粒子的权值做归一化处理:使得每个粒子的权值在[0,1]之间,并且,该N个粒子的权值之和为1;再将归一化处理后的权值作为每个粒子的最终权值和预测当前帧图像的姿势向量RA的数值。
(23)根据预测的当前帧图像的姿势向量RA的数值和长度向量L,通过计算得到预测的当前帧图像中人体的15个关节点的所在位置;再根据该预测的15个关节点的所在置,利用前述标注各肢体矩形框的方法,得到人体各个肢体所对应的10个矩形框的位置和大小。
(24)为了生成下一帧图像所需要的N个粒子,如果重复使用上述步骤的方法,会出现粒子退化现象,也即把大量的计算浪费在权值较小的粒子上。为避免粒子出现退化现象:在权值较小的粒子上耗费大量计算,需要对预测当前帧图像的N个粒子做重采样,也就是计算每个粒子应被复制的次数,以使在生成下一帧图像使用粒子时,权值越大的粒子被复制的次数越多。所述每个粒子被复制的次数,是指以该粒子的数值为均值做多元正态分布时,所生成的姿势向量RA的数值的个数。该步骤(24)进一步包括下列操作内容:
(241)根据得到的N个粒子的权值向量(w1,w2,...,wi,...,wN),生成一个N维的累计和向量(s1,s2,...,si,...,sN),其中,si的值是w1至wi共i个权值的累加和;
(242)生成在[0,1]之间均匀分布的N个随机数(u1,u2,...,uN);
(243)用二分查找法分别计算该N个随机数中的每个随机数在该递增数列的累计和向量(s1,s2,...,sN)中的所在位置,得到一个N维的位置向量M:M=(m1,m2,...,mN)。例如,对于随机数0.4951,因为累计和向量是一个递增数列,所以,如果s91>0.4951≥s90,则0.4951在累计和向量中所在的位置就是91。
(244)统计该N维的位置向量M中具有相同数值分量的个数,即为每个粒子应被重复的次数;其中权值大的粒子具有的相同数值分量多,即其被重复的次数也多,权值小的粒子具有的相同数值分量少,其被重复的次数也少,甚至为0;且N个粒子应被重复的次数之和与N数值相同,生成的预测下一帧图像所需要的粒子数也为N个。
例如,参见图7所示的5个粒子的情况:(s1,s2,s3,s4,s5)是这5个粒子对应的累积和向量,(u1,u2,u3,u4,u5)是均匀分布在[0,1]之间的5个随机数,这5个随机数对应的位置向量M=(m1,m2,m3,m4,m5)。在图7中,粒子1的权值较大,随机数u1和u2在累计和向量中的位置都为1,也即m1=m2=1,所以粒子1应被重复的次数为2,表明粒子1被重复的次数较多;位置2上的粒子2的权值较小,没有随机数,所以粒子2被重复的次数为0。同理,位置3上的粒子3被重复的次数为2,粒子4被重复的次数为1,粒子5被重复的次数为0。因此,这5个粒子应被重复的次数之和仍然为5,只是权值大的粒子重复的次数较多,而权值较小的粒子重复的次数较小,甚至为0。
本发明中N个粒子的情况类似于图7中的5个粒子的情况,只是这N个粒子应被重复的次数之和为N。
(245)根据每个粒子应被重复的次数,生成相应数量的后代粒子;且其后代粒子服从正态分布。例如,如果第8个粒子被重复的次数为3,则该第8个粒子生成3个后代粒子,且这3个后代粒子服从正态分布。这些正态分布粒子的均值是其对应的父代粒子的数值;其协方差矩阵是一个16×16的单位矩阵。因为这N个粒子应被重复的次数之和为N,所以生成的预测下一帧图像所需要的粒子数也为N。
(25)从第二帧图像开始的每帧图像都要重复执行上述步骤(21)~(24)的操作,得到的每帧图像的人体各肢体所对应的10个矩形框位置和大小,也就实现了单个行走人体的肢体运动跟踪。
本发明采用自顶向下方法中的粒子滤波对人体的肢体运动进行跟踪的方法,已经进行了多次实施试验和仿真验证。下面简要介绍实验环境如下:
实验对象:单个行走的人体。硬件设施:松下网络摄像机BL-C111一台,PC电脑一台(cpu:PIV3.2G,内存:1G)。软件开发环境:Visual C++2005。测试视频长度:2000帧。每帧视频的平均计算时间:3秒。平均跟踪错误度量(即与真实肢体位置的距离差):5mm。
多次进行实验实施例的结果表明:不同于传统方法,本发明方法只需要一个摄像机,而且在计算粒子的权值时,同时兼顾边缘采样和内部采样两种情况,使得该方法约束条件少、无须摄像机标定、应用简单、姿态恢复精确等优点。

Claims (8)

1.一种基于视频的人体肢体运动的跟踪方法,该方法只限定于对单个行走人体的肢体运动进行跟踪;其特征在于,包括下列操作步骤:
(1)初始化:把人体图像分解为下述10个部件:头、躯干、左大臂、左小臂、右大臂、右小臂、左大腿、左小腿、右大腿、右小腿,并用包括骶关节p1、颈关节p2、右肩关节p3、右肘关节p4、右腕关节p5、左肩关节p6、左肘关节p7、左腕关节p8、右髋关节p9、右膝关节p10、右踝关节p11、左髋关节p12、左膝关节p13、左踝关节p14和头部p15的15个关节点,描述该10个人体各肢体部件在图像中的位置,以便通过确定该10个关节点在每帧图像中的位置,实现对人体肢体运动的跟踪;
(2)预测:在每帧图像中,长度向量L的数值都保持不变,只有姿势向量RA的数值发生变化,因此,只需针对前一帧图像的姿势向量RA数值,预测当前帧图像所对应的姿势向量RA的数值,即能够实现对人体肢体运动的跟踪。
2.根据权利要求1所述的方法,其特征在于:所述长度向量L是由15个关节点中相互连接的两个关节点之间的14条边的长度所组成的一个14维向量;所述姿势向量RA是由在图像中作为根节点的骶关节p1的位置以及其它各个关节点与其对应的父节点的角度向量A所组合得到的一个16维向量。
3.根据权利要求1所述的方法,其特征在于:所述步骤(1)进一步包括下列操作内容:
(11)对视频中的首帧图像中人体的15个关节点位置进行人工标注,并以右肩关节p3、左肩关节p6、右髋关节p9和左髋关节p12四个关节点围成的矩形框用于表示人体躯干,以每个肢体所对应的两个关节点及其构成的设定宽度的矩形框分别表示人体的左上臂、左小臂、右上臂、右小臂、左大腿、左小腿、右大腿、右小腿和头部;其中由15个关节点中相互连接的两个关节点之间的14条边的长度所组成的一个14维向量被称为长度向量L;而由在图像中作为根节点的骶关节p1的位置以及其它各个关节点与其对应的父节点的角度向量A所组合得到的一个16维向量被称为姿势向量RA;
(12)为预测第二帧图像中的10个肢体部件的位置,分别计算首帧图像中的各相邻关节点之间连接边的长度、各子关节点相对于父关节点的角度和根关节点在图像中的位置。
4.根据权利要求3所述的方法,其特征在于:所述步骤(12)进一步包括下列操作内容:
(121)由所述15个关节点导出人体骨架模型,并将其中决定其余14个关节点位置的骶关节p1定义为根节点,再分别计算各个相邻关节点之间的欧氏距离,即有边相连接的两个关节点之间的边的长度,总共得到14条边的长度,组成一个14维的长度向量:L=(l1,l2,...,l14);
(122)根据人体骨架模型定义相邻节点的父子关系:与骶关节p1相邻的颈关节p2、右髋关节p9和左髋关节p12为骶关节p1的三个子节点,骶关节p1则为该三个子节点的父节点;除去其父节点骶关节p1以外,与颈关节p2相邻的有右肩关节p3、左肩关节p6和头部p15三个子节点,颈关节p2则为该三个子节点的父节点;除去其父节点颈关节p2以外,与右肩关节p3相邻的右肘关节p4为右肩关节p3的子节点,右肩关节p3则为右肘关节p4的父节点;以此类推,得到人体骨架模型中所有相邻节点的父子关系;
(123)根据所述相邻节点的父子关系,分别计算各个子节点相对其父节点的角度:θi-j,式中,下标i-j表示其为子节点i相对其父节点j的角度;由此得到一个14维的子节点相对其父节点的角度向量:A=(θ2-1,θ9-1,θ12-1,θ3-2,...,θ14-13);
(124)因根节点骶关节p1的位置能决定其余14个关节点的位置,故只要获知骶关节p1在图像中的位置,再利用长度向量L和角度向量A的数值,就能够唯一确定其余14个关节点在图像中的位置;设根节点在图像中的位置为(rx,ry),其与角度向量A组合得到一个16维的姿势向量:RA=(rx,ryθ2-1,θ9-1,θ12-1,θ3-2,...,θ14-13);再由首帧图像所对应的长度向量L和姿势向量RA的数值,即为预测下一帧图像中10个肢体位置所需要的初始值。
5.根据权利要求1所述的方法,其特征在于:所述步骤(2)进一步包括下列操作内容:
(21)先用多元正态分布函数随机生成N个姿势向量RA的数值,该多元正态分布姿势向量RA的均值是首帧图像所对应的姿势向量RA的数值,其协方差矩阵是一个16×16的单位矩阵;并将该姿势向量RA的N个值中的每个数值称为一个粒子,每个粒子对应一个人体骨架模型的状态,即15个关节点在图像中的位置;
(22)计算每个粒子的权值,即每个粒子和当前帧图像中人体姿势的相似程度;再根据该N个粒子进行归一化处理后的权值,对该N个粒子做加权平均,以得到的加权平均值作为预测的当前帧图像的姿势向量RA的数值;
(23)根据预测的当前帧图像的姿势向量RA的数值和长度向量L,通过计算得到预测的当前帧图像中人体的15个关节点的所在位置;再根据该预测的15个关节点的所在置,利用前述标注各肢体矩形框的方法,得到人体各个肢体所对应的10个矩形框的位置和大小;
(24)为避免粒子出现退化现象:在权值较小的粒子上耗费大量计算,需要对预测的当前帧图像的N个粒子做重采样,计算每个粒子应被复制的次数,以使在生成下一帧图像使用粒子时,权值越大的粒子被复制的次数越多;所述每个粒子被复制的次数,是指以该粒子的数值为均值做多元正态分布时,所生成的姿势向量RA的数值的个数;
(25)从第二帧图像开始的每帧图像都重复执行上述步骤(21)~(24)的操作,得到的每帧图像的人体各肢体所对应的10个矩形框位置和大小,也就实现了单个行走人体的肢体运动跟踪。
6.根据权利要求5所述的方法,其特征在于:所述N个姿势向量RA的数值中的N的取值范围是[100,350],选取的N数值越大,预测的精度越高,但计算时间也越长;应根据需求,在预测精度和计算速度之间寻取平衡点。
7.根据权利要求5所述的方法,其特征在于:所述步骤(22)中,计算每个粒子权值的操作进一步包括下列操作内容:
(221)对预测的当前帧图像进行下述两个处理:
先用高斯-拉普拉斯算子提取预测的当前帧图像中所有物体的边缘,得到其对应的边缘图像;所使用的高斯-拉普拉斯模板是:
Figure FSB00000397343800041
接着,用背景差分方法提取出该预测的当前帧图像的前景图像:只有人物、没有背景的图像;再把前景图像中人物所对应的所有像素的值都设为1,其余像素的值都为0;
(222)对步骤(21)中随机生成的N个姿势向量RA中的每个粒子分别进行下述操作:
因每个粒子为姿势向量RA中的一个数值,先根据每个粒子和长度向量L的数值,通过计算而唯一确定该粒子所对应的人体骨架模型状态,即其15个关节点在图像中的位置;进而得到该粒子所对应的人体各肢体对应的10个矩形框的位置和大小;
接着,对该10个矩形框分别进行边缘采样和内部采样,边缘采样是对上述各肢体的矩形框的边缘进行采样,内部采样是在每个矩形框内分别进行水平方向和垂直方向的采样;
在步骤(221)中的边缘图像中,根据边缘采样中的每个采样点的位置,得到每个采样点在该边缘图像中对应像素的值,再对每个采样点的值的平方进行累加,得到的累加和为该粒子的边缘权值;
在步骤(221)中的前景图像中,根据内部采样中的每个采样点的位置,得到每个采样点在该前景图像中对应像素的值,再对每个采样点的值进行累加,得到的累加和为该粒子的内部权值;
然后对所述边缘权值和所述内部权值进行相加求和,并将得到的和设为sum,再对sum取负数后的值作为自然指数的幂,进行求解自然指数的(-sum)次幂、即e-sum的运算,其结果为该粒子的权值;
(223)对得到的N个姿势向量RA中的每个粒子的权值做归一化处理:使得每个粒子的权值在[0,1]之间,并且,该N个粒子的权值之和为1;再将归一化处理后的权值作为每个粒子的最终权值。
8.根据权利要求5所述的方法,其特征在于:所述步骤(24)进一步包括下列操作内容:
(241)根据得到的N个粒子的权值向量(w1,w2,...,wi,...,wN),生成一个N维的累计和向量(s1,s2,...,si,...,sN),其中,si的值是w1至wi共i个权值的累加和;
(242)生成在[0,1]之间均匀分布的N个随机数(u1,u2,...,uN);
(243)用二分查找法分别计算该N个随机数中的每个随机数在所述递增数列的累计和向量(s1,s2,...,sN)中的位置,得到一个N维的位置向量M:M=(m1,m2,...,mN);
(244)统计该N维的位置向量M中具有相同数值分量的个数,即为每个粒子应被重复的次数;其中权值大的粒子具有的相同数值分量多,即其被重复的次数也多,权值小的粒子具有的相同数值分量少,其被重复的次数也少,甚至为0;且N个粒子应被重复的次数之和与N数值相同,生成的预测下一帧图像所需要的粒子数也为N个;
(245)根据每个粒子应被重复的次数,生成相应数量的后代粒子;且其后代粒子服从正态分布,这些正态分布粒子的均值是其对应的父代粒子的数值,其协方差矩阵是一个16×16的单位矩阵。
CN2009100880640A 2009-07-01 2009-07-01 一种基于视频的人体肢体运动的跟踪方法 Expired - Fee Related CN101599177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100880640A CN101599177B (zh) 2009-07-01 2009-07-01 一种基于视频的人体肢体运动的跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100880640A CN101599177B (zh) 2009-07-01 2009-07-01 一种基于视频的人体肢体运动的跟踪方法

Publications (2)

Publication Number Publication Date
CN101599177A CN101599177A (zh) 2009-12-09
CN101599177B true CN101599177B (zh) 2011-07-27

Family

ID=41420610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100880640A Expired - Fee Related CN101599177B (zh) 2009-07-01 2009-07-01 一种基于视频的人体肢体运动的跟踪方法

Country Status (1)

Country Link
CN (1) CN101599177B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8941588B2 (en) * 2008-04-24 2015-01-27 Oblong Industries, Inc. Fast fingertip detection for initializing a vision-based hand tracker
US8633890B2 (en) * 2010-02-16 2014-01-21 Microsoft Corporation Gesture detection based on joint skipping
CN102222342A (zh) * 2010-04-16 2011-10-19 上海摩比源软件技术有限公司 人体运动跟踪及其识别方法
CN103210421B (zh) * 2010-12-09 2016-03-02 松下电器产业株式会社 物体检测装置及物体检测方法
CN102156994B (zh) * 2011-04-19 2013-03-20 上海摩比源软件技术有限公司 一种单视角无标记人体运动跟踪的关节定位方法
CN102609683B (zh) * 2012-01-13 2014-02-05 北京邮电大学 一种基于单目视频的人体关节自动标注方法
CN103268495B (zh) * 2013-05-31 2016-08-17 公安部第三研究所 计算机系统中基于先验知识聚类的人体行为建模识别方法
JP6571108B2 (ja) * 2014-01-05 2019-09-04 マノモーション アーベー モバイル機器用三次元ジェスチャのリアルタイム認識及び追跡システム
CN104061907B (zh) * 2014-07-16 2016-08-24 中南大学 基于步态三维轮廓匹配合成的视角大幅可变步态识别方法
CN105184096A (zh) * 2015-09-25 2015-12-23 河海大学 一种虚拟人运动位姿的计算方法
CN105701822B (zh) * 2016-01-15 2018-05-08 上海交通大学 基于二维图像的提取人体侧面腿部骨架的方法
CN108710830B (zh) * 2018-04-20 2020-08-28 浙江工商大学 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法
CN108986023A (zh) * 2018-08-03 2018-12-11 北京字节跳动网络技术有限公司 用于处理图像的方法和装置
CN109858457A (zh) * 2019-02-18 2019-06-07 齐鲁工业大学 基于OpenPose的作弊动作辅助识别方法及系统
CN110264539A (zh) * 2019-06-18 2019-09-20 北京字节跳动网络技术有限公司 图像生成方法和装置
CN111223168B (zh) * 2020-01-17 2022-07-08 腾讯科技(深圳)有限公司 目标对象控制方法、装置、存储介质和计算机设备
CN113570616B (zh) * 2021-06-10 2022-05-13 北京医准智能科技有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN118135070B (zh) * 2024-05-10 2024-06-28 江苏物润船联网络股份有限公司 一种基于动作捕捉技术的数字人驱动方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1812569A (zh) * 2005-12-30 2006-08-02 浙江工业大学 基于全方位视觉传感器的智能安保装置
CN101216885A (zh) * 2008-01-04 2008-07-09 中山大学 一种基于视频的行人人脸检测与跟踪算法
CN101226640A (zh) * 2007-12-21 2008-07-23 西北工业大学 基于多双目立体视觉的运动捕获方法
CN101232571A (zh) * 2008-01-25 2008-07-30 北京中星微电子有限公司 一种人体图像匹配方法及视频分析检索系统
CN101295405A (zh) * 2008-06-13 2008-10-29 西北工业大学 人像与车辆识别报警跟踪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1812569A (zh) * 2005-12-30 2006-08-02 浙江工业大学 基于全方位视觉传感器的智能安保装置
CN101226640A (zh) * 2007-12-21 2008-07-23 西北工业大学 基于多双目立体视觉的运动捕获方法
CN101216885A (zh) * 2008-01-04 2008-07-09 中山大学 一种基于视频的行人人脸检测与跟踪算法
CN101232571A (zh) * 2008-01-25 2008-07-30 北京中星微电子有限公司 一种人体图像匹配方法及视频分析检索系统
CN101295405A (zh) * 2008-06-13 2008-10-29 西北工业大学 人像与车辆识别报警跟踪方法

Also Published As

Publication number Publication date
CN101599177A (zh) 2009-12-09

Similar Documents

Publication Publication Date Title
CN101599177B (zh) 一种基于视频的人体肢体运动的跟踪方法
CN110147743B (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN107886069A (zh) 一种多目标人体2d姿态实时检测系统及检测方法
CN107220604A (zh) 一种基于视频的跌倒检测方法
WO2019129255A1 (zh) 一种目标跟踪方法及装置
CN106683121A (zh) 一种融合检测过程的鲁棒目标追踪方法
CN113255509A (zh) 一种基于Yolov3和OpenPose的工地危险行为监控方法
CN107301376B (zh) 一种基于深度学习多层刺激的行人检测方法
CN102456226B (zh) 兴趣区域的追踪方法
CN102930248A (zh) 基于机器学习的人群异常行为检测方法
CN108229524A (zh) 一种基于遥感图像的烟囱和冷凝塔检测方法
Kumar et al. A unified grid-based wandering pattern detection algorithm
CN102156994B (zh) 一种单视角无标记人体运动跟踪的关节定位方法
Xia et al. [Retracted] Gesture Tracking and Recognition Algorithm for Dynamic Human Motion Using Multimodal Deep Learning
Shan et al. Rapid full-field deformation measurements of tall buildings using UAV videos and deep learning
Dong et al. YH-Pose: Human pose estimation in complex coal mine scenarios
Yadav et al. Supervised learning based greenery region detection using unnamed aerial vehicle for smart city application
Kogler et al. Ground truth evaluation for event-based silicon retina stereo data
CN116030533A (zh) 运动场景的高速动作捕捉与识别方法及系统
CN110852189A (zh) 一种基于深度学习的低复杂度的密集人群分析方法
Fan et al. Pose estimation of human body based on silhouette images
CN114372996B (zh) 一种面向室内场景的行人轨迹生成方法
Nagaty et al. Probabilistic cooperative target localization
CN108009272A (zh) 一种基于有向带权图的低空运动目标搜索方法
Meng et al. Arpico: Using pictures to build localization service for indoor iot applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110727

Termination date: 20120701