CN102663369A - 基于surf高效匹配核的人体运动跟踪方法 - Google Patents
基于surf高效匹配核的人体运动跟踪方法 Download PDFInfo
- Publication number
- CN102663369A CN102663369A CN2012101181664A CN201210118166A CN102663369A CN 102663369 A CN102663369 A CN 102663369A CN 2012101181664 A CN2012101181664 A CN 2012101181664A CN 201210118166 A CN201210118166 A CN 201210118166A CN 102663369 A CN102663369 A CN 102663369A
- Authority
- CN
- China
- Prior art keywords
- surf
- image
- characteristic
- video
- nuclear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于SURF高效匹配核人体运动跟踪方法,主要解决现有技术中恢复人体运动姿态不准确的问题。其实现过程是:输入视频图像,提取人体部位框图;对人体部位框图在不同图像尺度下提取SURF特征点;随机采样提取的特征点构成视觉词汇的初始向量基;对初始向量基使用带约束的奇异值分解获得最大核函数特征;对不同图像尺度下的最大核函数特征进行加权获得所有图像尺度下的特征;选择类似高斯分布的特征作为SURF高效匹配核特征;学习SURF高效匹配核特征和三维姿态的映射关系,实现对新的视频图像的跟踪。本发明跟踪快速,结果精确,计算量小,节省特征提取时间的优点,可用于运动捕获,人机交互,视频监控,人体目标识别和三维姿势恢复。
Description
技术领域
本发明属于视频图像处理技术领域,具体来说是一种基于Speed Up RobustFeature SURF高效匹配核的图像特征表示和人体运动跟踪方法,用于提取图像特征进行视频人体运动跟踪和三维姿势恢复。
背景技术
人体运动跟踪是近二十年来计算机视觉领域的重大热点之一,人体运动跟踪在运动捕获,人机交互,视频监控等多领域获得了初步的应用,并具重大的应用前景。从视频序列中准确恢复三维人体姿态,实现人体运动跟踪是计算机视觉领域长期存在的问题。一帧视频图像,人体是视频图像中的核心内容,反映视频图像的核心语义特征。对于人类来说,观看一帧图像的同时几乎可以瞬间理解其中人物的姿态,然而对于计算机,却要克服重重困难:必需要有一种有效的图像特征,作为计算机识别的接口。这种图像特征必须有效表示图像中的人物运动状态以及图像纹理,轮廓等细节信息。在人体运动跟踪过程和恢复中,需要将这种图像特征和运动跟踪方法结合,从而达到对人体的运动跟踪和三维姿势恢复。现有的运动跟踪中使用的跟踪方法大致可分为产生式和判别式。图像特征表示方法大致可以分为基于全局特征点方法和基于局部字码表的特征表示方法,如梯度直方图特征、层级化特征、形状上下文和尺度不变性特征点的方法。
目前已经有很多成熟的图像特征表示方法被运用到人体特征表示和运动跟踪中。但是大部分描述人体的图像特征表示是基于轮廓和边缘信息的,在理论上不严谨,很难准确的刻画图像内部信息。这些基于边缘的图像特征表示方法还面临一个主要问题:视频图像的快速变换常沿边缘曲线不连续性跳跃,一方面会导致封闭边界的灰度不连续性模糊,另一方面也会导致纹理变化不沿几何曲线聚集。最终结果是无法有效表示图像中的几何纹理走向,不能全面刻画人在其中的姿态和特征信息,导致后期的运动跟踪和姿态恢复产生了模糊性和歧义性。
发明内容
本发明的目的在于针对上述已有技术的不足,提出了一种基于SURF高效匹配核的图像特征表示和人体运动跟踪方法,以降低图像特征提取的复杂度,提高特征的表征能力,并在图像数据分布未知情况下,通过机器学习先验概率分布进行准确的姿态恢复。
本发明的技术方案通过如下步骤实现:
(1)输入待处理训练及测试视频集,并将该视频集转换为连续的单幅序列图像,提取出含有人体目标的图像部分,作为之后的训练样本图像;
(2)将每幅训练样本图像分割为8*8像素格子,每个格子分别按16、25、31像素大小的图像尺度采样,提取所有训练图像的SURF描述子特征点F;
(3)通过对所有训练图像的SURF描述子特征点F进行随机采样,获得整个训练样本500维的视觉词汇,构成视觉词汇的初始基向量R;
(4)将初始基向量R,利用带约束的核奇异值分解CKSVD进行字典学习,得到最大核函数特征r;
(5)通过最大化特征值提取抑制相似的最大核函数特征r,并按降序提取核函数特征值,删除最大值一样的元素,得到特征向量G,对每个不同图像尺度的图像特征G进行加权求和得到所有图像尺度上的特征G′;
(6)储存所有尺度的特征G′,选择G′中类似高斯分布的低维特征h,作为最终图像的SURF高效匹配核特征X;
(7)使用SURF高效匹配核特征X进行人体运动姿势的跟踪,对输入视频图像进行三维运动姿势估计,并将估计到的三维运动姿势数据恢复成关节点骨架作为最终的跟踪结果。
本发明与现有技术相比具有以下优点:
(1)本发明由于直接提取视频图像中运动人体的框图,而不需要对视频图像中的人体运动区域进行背景剪除,因而比传统的特征提取方法能更加节省计算资源和时间复杂度。
(2)本发明中由于使用的SURF Speed Up Robust Feature高效匹配核的图像特征能避免传统的基于边缘的和基于轮廓的图像表示方法产生的表示模糊,可以得到更好的三维运动跟踪结果。
(3)本发明提取的图像特征信息较传统的图像描述方法维度低,能有效缩减提取特征时间和数据计算量。
附图说明
图1是本发明的实现流程图;
图2是未经处理的人体跑步运动序列视频图;
图3是本发明使用的SURF高效匹配核图像描述子与现有的Bandelet2,HOG描述子的性能对比图;
图4是用本发明对人体“跑步”视频每隔十帧截取的一次图像;
图5是用未经处理的单帧人体“跑步”视频序列截图;
图6是用本发明对图5进行姿态恢复的结果图。
具体实施方式
本发明是一种基于Speed Up Robust Feature SURF高效匹配核的人体运动跟踪方法,参照图1,本发明的具体实施步骤如下:
步骤一,输入待处理人体运动视频转换为连续单幅视频图像,提取出连续单幅视频图中含有人体的矩形框图,将每幅矩形框图转换成大小为64×192像素的图像,作为之后的训练样本图像。
步骤二,将每幅训练样本图像分割为8×8像素格子,每个格子分别按16、25、31像素大小的图像尺度进行采样,提取所有训练样本的SURF描述子特征点F。
步骤三,获得视觉词汇的初始基向量。
3a)对每一幅训练样本图像,在8×8的图像格子上,按照16,25,31个像素大小尺度,分别随机抽样15个由步骤(2)得到的SURF特征点,记为Fi′,i表示第i幅训练图像;
3b)重复步骤3a),随机提取所有的训练样本的SURF特征点,记为F′;利用k-means聚类方法对F′中相似的SURF特征点进行聚类,定义500个聚类中心,获得整个训练图像500维的视觉词汇,构成视觉词汇的初始基向量R。
步骤四,获得初始基向量R的最大核函数特征r。
4a)将初始基向量R使用投影系数v,投影到一个500维的空间上,获得R的投影R′:
R=Rv,
v=[v1,...vi...,vN]
vi=(RT R)-1(RT ri),i∈[1,N],
其中,ri是一幅图像中提取的第i个特征点的最大核特征,vi一幅图像中提取的第i个特征点的低维投影系数,N是一幅图像中随机选取的特征点的数量;
4b)在投影空间上将最大核函数特征r逼近初始基向量R的投影R′,获得逼近函数f(r):
f(r)=arg min||r-R′||,
将R′=Rv代入上式,得:
f(r)=arg min||r-Rv||,
其中,||·||表示2范数,arg min||·||表示求最小值;
4c)将f(r)=arg min||r-Rv||中的v和r展开,得到最大核函数特征r对初始基向量R的2次逼近函f(v,r):
其中,r=[r1,...ri...,rN];
4d)使用随机梯度下降法求解f(v,r),得到最大核函数特征r。
步骤五,通过最大化特征值提取抑制相似的最大核函数特征r,并按降序提取核函数特征r,删除最大值一样的元素,得到特征向量G,对每个不同图像尺度的图像特征G进行加权求和,得到所有图像尺度上的特征G′:
G=G×Al,
步骤六,储存所有尺度的特征G′,选择G′中类似高斯分布的低维特征h,作为最终图像的SURF高效匹配核特征X。
步骤七,使用SURF高效匹配核特征X进行人体运动姿势的跟踪。
7a)使用高斯过程学习一个从SURF高效匹配核特征X到训练图像的三维姿势数据Y的映射关系g(·),使用g(·)将第j帧的三维姿势yj用第j帧的SURF高效匹配核特征xj表示,即:
yj=g(xj),
其中,Y={y1,...yj,...ym},X={x1,...xj,...xn},j∈[1,n],n为训练图像帧数;
7b)对于新的人体运动视频图像序列,提取该视频图像序列的SURF高效匹配核特征集X′,使用步骤7a)中学习到的映射关系g(·),以第j帧的SURF高效匹配核特征x′j为输入,则该视频序列的第j帧的三维姿势数据y′j,通过下式得到:
y′j=g(x′j),
其中,X′={x′1,...x′j,...x′n},j∈[1,n],n为该视频图像帧数;
7c)重复步骤7b),获得全部视频图像三维姿态数据,Y′={y′1,...y′j,...y′n},j∈[1,n],n为该视频图像帧数;
7d)将三维人体运动姿势数据Y′={y′1,y′2,...y′n},转换为人体骨架关节点,恢复出输入视频的三维运动姿势。
本发明的效果可以通过以下仿真实验得到验证:
1)仿真实验条件设置:本发明的仿真实验在Matlab 2010a上编译完成,执行环境为Windows框架下的HP工作站。本发明仿真实验所用的视频图像来自美国布朗大学的HumanEva数据库,原始图像大小为640×480。本实验采用的原始视频人体运动姿态如图2所示,它包括正对摄像机和背对摄像机的帧图像段。
其中,图2a是序列第一截图,男性角色左侧身跑步;其中图2b是序列第二截图,男性角色侧向转弯跑离镜头;其中图2c是序列第三截图,男性角色背向镜头。
2)仿真内容及结果
仿真一,分别使用现有的HOG特征和Bandelet2特征以及本方法提取的特征,对图2中“跑步”的人体运动视频图像进行姿态恢复,恢复结果如图3。
图3中,横坐标表示不同的姿态恢复方法,纵坐标表示恢复的人体关节点位置误差,单位:毫米(mm)。三者使用高斯过程恢复姿态的关节点平均误差值分别为:HOG:38.92mm,Bandlet2:29.55mm,本方法:26.38mm;三者使用线性K近邻回归的姿态恢复方法的平均关节点误差值分别为:HOG:37.36mm,Bandlet2:25.86mm,本方法:20.26mm。
从图3中可以看出,SURF高效匹配核特征不同于梯度直方图HOG特征和第二代条带波变换Bandelet2特征,使用SURF高效匹配核特征能更好的表达整个数据库样本之间的关联与差异。
仿真二使用本发明对连续的“跑步”人体视频图像进行跟踪,结果如图4所示,其中图4a是背向跑离镜头视频图像和恢复的姿势图,图4b是侧向跑过镜头的图像和恢复的姿势。
从图4可以看出,SURF高效匹配核特征结合机器学习方法取得了良好的跟踪效果。整体而言,该序列上已经将误差水平控制在平均50mm左右,达到了当前的公认的良好量化指标。
仿真三使用本发明对图5人体运动图像进行跟踪,其中,图5a为男性角色侧向跑步的原始视频截图,图5b为男性角色侧向转弯跑过镜头的原始视频截图,跟踪结果如图6所示,其中,图6a为对图5a的三维姿态恢复结果图,图6b为对图5b的三维姿态恢复结果图。
从图6a、图6b可以看出,用本发明恢复的人体姿态准确性得到了较大改善,实现了准确的人体运动跟踪,且提高了三维姿态恢复的稳定性。
综上,本发明在降低图像特征提取的复杂度的同时,提高了特征的表达能力,并在图像数据分布未知情况下,通过学习先验进行准确的三维姿态预测,减小了图像表示的模糊现象。本发明具有人体运动跟踪快速,结果精确,节省特征提取时间的优点,该技术可以进一步用于人体目标识别。
Claims (5)
1.一种基于Speed Up Robust Feature SURF高效匹配核的人体运动跟踪方法,包括如下步骤:
(1)输入待处理训练及测试视频集,并将该视频集转换为连续的单幅序列图像,提取出含有人体目标的图像部分,作为之后的训练样本图像;
(2)将每幅训练样本图像分割为8*8像素格子,每个格子分别按16、25、31像素大小的图像尺度采样,提取所有训练图像的SURF描述子特征点F;
(3)通过对所有训练图像的SURF描述子特征点F进行随机采样,获得整个训练样本500维的视觉词汇,构成视觉词汇的初始基向量R;
(4)将初始基向量R,利用带约束的核奇异值分解CKSVD进行字典学习,得到最大核函数特征r;
(5)通过最大化特征值提取抑制相似的最大核函数特征r,并按降序提取核函数特征值,删除最大值一样的元素,得到特征向量G,对每个不同图像尺度的图像特征G进行加权求和得到所有图像尺度上的特征G′;
(6)储存所有尺度的特征G′,选择G′中类似高斯分布的低维特征g′,作为最终图像的SURF高效匹配核特征X;
(7)使用SURF高效匹配核特征X进行人体运动姿势的跟踪,对输入视频图像进行三维运动姿势估计,并将估计到的三维运动姿势数据恢复成关节点骨架作为最终的跟踪结果。
2.根据权利要求1所述的方法,其中步骤(3)中所述的获得整个训练样本500维的视觉词汇,构成视觉词汇的初始基向量R,按如下进行:
3a)对每一幅训练样本图像,在8×8的图像格子上,按照16,25,31个像素大小尺度,分别随机抽样15个由步骤(2)得到的SURF特征点,记为Fi′,i表示第i幅训练图像;
3b)重复步骤3a),提取所有的训练样本的SURF特征点,记为F′;利用k-means聚类方法对F′中相似的SURF特征点进行聚类,定义500个聚类中心,获得整个训练样本500维的视觉词汇,构成视觉词汇的初始基向量R。
4.根据权利要求1所述方法,其中步骤(7)所述的使用SURF高效匹配核特征X进行人体运动姿势的跟踪,包括如下步骤:
7a)使用高斯过程学习一个从SURF高效匹配核特征X到训练图像的三维姿势数据Y的映射关系g(·),使用g(·)将第j帧的三维姿势yj用第j帧的SURF高效匹配核特征xj表示,即:
yj=g(xj),
其中,Y={y1,...yj,...yn},X={x1,...xj,...xn},j∈[1,n],n为训练图像帧数;
7b)对于新的人体运动视频图像序列,提取该视频图像序列的SURF高效匹配核特征集X′,使用步骤7a)中学习到的映射关系g(·),以第j帧的SURF高效匹配核特征x′j为输入,则该视频序列的第j帧的三维姿势数据y′j,通过下式得到:
y′j=g(x′j),
其中,X′={x′1,...x′j,...x′n},j∈[1,n],n为该视频图像帧数;
7c)重复步骤7b),获得全部视频图像三维姿态数据,Y′={y′1,...y′j,...y′n},j∈[1,n],n为该视频图像帧数;
7d)将三维人体运动姿势数据Y′={y′1,y′2,...y′n},转换为人体骨架关节点,恢复出输入视频的三维运动姿势。
5.根据权利要求1所述方法,其中步骤(4)所述的利用带约束的奇异值分解CKSVD进行字典学习,得到最大核函数特征r,按如下步骤进行:
4a)将初始基向量R映射到一个500维的空间上,使用以下函数逼近初始基向量R的最大核函数特征r:
v=(RT R)-1(RT r),
其中,v是低维投影系数,v=[v1,...vi...,vN],N是一幅图像中选取的特征点的数量,vi,为一幅图像中提取的第i个特征点的低维投影系数,i∈[1,N],是低维投影系数的估计值,||·||表示2范数,argmin(·)表示求最小值;
其中,v=[v1,...vi...,vN];
4c)使用随机梯度下降法求解f(v,r)得到最大核函数特征r。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101181664A CN102663369B (zh) | 2012-04-20 | 2012-04-20 | 基于surf高效匹配核的人体运动跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101181664A CN102663369B (zh) | 2012-04-20 | 2012-04-20 | 基于surf高效匹配核的人体运动跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102663369A true CN102663369A (zh) | 2012-09-12 |
CN102663369B CN102663369B (zh) | 2013-11-20 |
Family
ID=46772853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012101181664A Expired - Fee Related CN102663369B (zh) | 2012-04-20 | 2012-04-20 | 基于surf高效匹配核的人体运动跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102663369B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093211A (zh) * | 2013-01-27 | 2013-05-08 | 西安电子科技大学 | 基于深度核信息图像特征的人体运动跟踪方法 |
CN103455826A (zh) * | 2013-09-08 | 2013-12-18 | 西安电子科技大学 | 基于快速鲁棒性特征的高效匹配核人体检测方法 |
CN105069434A (zh) * | 2015-08-12 | 2015-11-18 | 河海大学常州校区 | 一种视频中人体动作行为识别方法 |
CN108647631A (zh) * | 2013-06-28 | 2018-10-12 | 日本电气株式会社 | 训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6148108A (en) * | 1997-01-16 | 2000-11-14 | Kabushiki Kaisha Toshiba | System for estimating motion vector with instant estimation of motion vector |
CN102004910A (zh) * | 2010-12-03 | 2011-04-06 | 上海交通大学 | 基于surf特征点图匹配和运动生成模型的视频目标跟踪方法 |
CN102254326A (zh) * | 2011-07-22 | 2011-11-23 | 西安电子科技大学 | 利用核传递进行图像分割的方法 |
-
2012
- 2012-04-20 CN CN2012101181664A patent/CN102663369B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6148108A (en) * | 1997-01-16 | 2000-11-14 | Kabushiki Kaisha Toshiba | System for estimating motion vector with instant estimation of motion vector |
CN102004910A (zh) * | 2010-12-03 | 2011-04-06 | 上海交通大学 | 基于surf特征点图匹配和运动生成模型的视频目标跟踪方法 |
CN102254326A (zh) * | 2011-07-22 | 2011-11-23 | 西安电子科技大学 | 利用核传递进行图像分割的方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093211A (zh) * | 2013-01-27 | 2013-05-08 | 西安电子科技大学 | 基于深度核信息图像特征的人体运动跟踪方法 |
CN103093211B (zh) * | 2013-01-27 | 2015-09-30 | 西安电子科技大学 | 基于深度核信息图像特征的人体运动跟踪方法 |
CN108647631A (zh) * | 2013-06-28 | 2018-10-12 | 日本电气株式会社 | 训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序 |
US11132587B2 (en) | 2013-06-28 | 2021-09-28 | Nec Corporation | Training data generating device, method, and program, and crowd state recognition device, method, and program |
US11836586B2 (en) | 2013-06-28 | 2023-12-05 | Nec Corporation | Training data generating device, method, and program, and crowd state recognition device, method, and program |
CN103455826A (zh) * | 2013-09-08 | 2013-12-18 | 西安电子科技大学 | 基于快速鲁棒性特征的高效匹配核人体检测方法 |
CN105069434A (zh) * | 2015-08-12 | 2015-11-18 | 河海大学常州校区 | 一种视频中人体动作行为识别方法 |
CN105069434B (zh) * | 2015-08-12 | 2018-06-05 | 河海大学常州校区 | 一种视频中人体动作行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102663369B (zh) | 2013-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852182B (zh) | 一种基于三维空间时序建模的深度视频人体行为识别方法 | |
Metaxas et al. | A review of motion analysis methods for human nonverbal communication computing | |
Lu et al. | Recent progress of face image synthesis | |
CN104200203B (zh) | 一种基于动作字典学习的人体动作检测方法 | |
CN105912999A (zh) | 基于深度信息的人体行为识别方法 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN105447532A (zh) | 身份认证方法和装置 | |
CN112257513B (zh) | 一种手语视频翻译模型的训练方法、翻译方法及系统 | |
CN108171133A (zh) | 一种基于特征协方差矩阵的动态手势识别方法 | |
CN104077742B (zh) | 基于Gabor特征的人脸素描合成方法及系统 | |
CN106780450A (zh) | 一种基于低秩多尺度融合的图像显著性检测方法 | |
CN103745209A (zh) | 一种人脸识别方法及系统 | |
CN102663369B (zh) | 基于surf高效匹配核的人体运动跟踪方法 | |
CN109146925A (zh) | 一种动态场景下显著性目标检测方法 | |
CN102270345A (zh) | 基于第二代条带波变换图像特征表示和人体运动跟踪方法 | |
CN103093211B (zh) | 基于深度核信息图像特征的人体运动跟踪方法 | |
CN104463962B (zh) | 基于gps信息视频的三维场景重建方法 | |
CN106407978A (zh) | 一种结合似物度的无约束视频中显著物体检测方法 | |
Kumar et al. | Mediapipe and cnns for real-time asl gesture recognition | |
CN102663453B (zh) | 基于第二代条带波变换和极速学习机的人体运动跟踪方法 | |
Zhang et al. | Joint compressive representation for multi-feature tracking | |
CN110555406B (zh) | 一种基于Haar-like特征及CNN匹配的视频运动目标识别方法 | |
CN117809339A (zh) | 一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法 | |
CN117689887A (zh) | 基于点云分割的工件抓取方法、装置、设备及存储介质 | |
CN102902950A (zh) | 基于第二代Curvelet变换的人体运动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131120 Termination date: 20190420 |
|
CF01 | Termination of patent right due to non-payment of annual fee |