发明内容
本发明针对上述已有技术的不足,提出了一种基于深度核信息图像特征的人体运动跟踪方法,以降低图像特征提取的复杂度,提高特征的表征能力,并在图像数据分布未知情况下,通过学习先验进行准确的姿态预测。
本发明技术方案通过如下步骤实现:
(1)从原始的视频图像中获得人体关节点的三维坐标矩阵Y;
(2)提取训练视频图像的核图像特征x(U):
2a)输入待处理训练视频图像集转换为连续单幅序列图,根据图像内容,判断需要识别的主要人体目标,提取像素大小为64*192的含有人体的矩形框体,作为之后处理的训练样本图像集U;
2b)对训练样本图像集U中的像素点分别求梯度,得到每一个像素点的方向
和模值
其中,z为图像块中的像素点,z∈U;
2c)使用方向高斯核函数ko(·)计算不同像素点之间的角度相似度:
其中,γ
0为方向高斯核参数,
为图像块中像素点z的方向角,
为图像块中像素点s的方向角,exp(·)表示求自然对数的指数函数,||·|
2表示求二范数;
2d)对图像块中的方向核函数进行取样,得到一组方向偏置向量
其中,p
i为第i个方向偏置向量,d
o为方向偏置向量的总数,i∈[1,d
o],则得到方向偏置基向量的高斯核函数:
其中,γ
0为方向高斯核参数,
为图像块中像素点z的方向角,p
i为第i个方向偏置基向量;
2e)使用位置高斯核函数kl(·)计算不同像素点之间的相似度:
kl(Lz,Ls)=exp(-γl||Lz-Ls||2),
其中,γl为位置高斯核参数,Lz为图像块中像素点z的位置、Ls为图像块中像素s的位置;
2f)对图像块中的位置核函数进行取样,得到一组位置偏置基向量其中,qj为第j个位置偏置向量,dl为位置偏置基向量的总数,j∈[1,dl];
2g)根据偏置基向量
和位置高斯核函数k
l(L
z,L
s),得到位置偏置基向量的高斯核函数:
kl(Lz,qj)=exp(-γl||Lz-qj||2),
其中,γl为位置高斯核参数,Lz为图像块中像素点z的位置,qj为第j个位置偏置基向量;
2h)根据像素点z的模值
方向偏置基向量的高斯核函数
以及位置偏置基向量的高斯核函数k
l(L
z,q
j),得到整个图像集U的核图像特征x(U):
其中,∑·表示求和,α
ij为核投影系数,d
l为位置偏置向量的总数,d
o为方向偏置向量的总数,z为图像中的像素点,
为像素点z的方向,
为像素点z的模值,p
i为第i个方向偏置向量,q
j为第j个位置偏置向量,L
z为图像块中像素点z的位置;
(3)使用块匹配方法提取训练视频图像的深度信息D;
(4)将深度信息D与核图像特征x(U)相加,得到深度核信息图像特征X;
X=D+x(U);
(5)使用深度核信息图像特征X进行人体运动姿势的跟踪,对输入视频图像进行三维运动姿势估计,并将估计到的三维运动姿势数据恢复成关节点骨架作为最终的跟踪结果。
本发明与现有的技术相比具有以下优点:
1、本发明由于使用了深度核信息图像特征表示方法,能够通过深度信息与核特征的结合,准确表示图像的人体结构信息,避免了传统基于边缘的,或基于轮廓的图像表示方法产生的表述模糊性,能得到更好的三维运动跟踪结果。
2、本发明由于使用高斯学习回归函数,能实现对不同复杂度的数据库的学习,较现有方法有效的减少了学习的时间,降低了学习过程中的计算复杂度,提高了学习结果准确性。
具体实施方式
参照图1,本发明的具体实施步骤如下:
步骤一,获得待处理训练视频图像和待处理训练视频图像中人体关节点的三维坐标矩阵Y。
待处理训练视频图像是从美国布朗大学的HumanEva数据库中获得,从HumanEva数据库中得到视频中人体中关节点的三维坐标矩阵Y。
步骤二,提取待处理训练视频图像的核图像特征X。
参照图2,本步骤的具体实现如下:
2a)输入待处理训练视频图像,使用Matlab软件将输入的待处理训练视频图像转换为连续单幅序列图,根据图像内容,判断需要识别的主要人体目标,提取像素大小为64*192的含有人体的矩形框体,作为之后处理的训练样本图像集U;
2b)对训练样本图像集U中的像素点分别求梯度,得到每一个像素点的方向
和模值
其中,z为图像块中的像素点,z∈U;
2c)使用方向高斯核函数ko(·)计算不同像素点之间的角度相似度:
其中,γ
0为方向高斯核参数,
为图像块中像素点z的方向角,
为图像块中像素点s的方向角,exp(·)表示求自然对数的指数函数,||·||
2表示求二范数;
2d)对图像块中的方向核函数进行取样,得到一组方向偏置向量
其中,p
i为第i个方向偏置向量,d
o为方向偏置向量的总数,i∈[1,d
o];
2e)根据方向偏置基向量
和方向高斯核函数
得到方向偏置基向量的高斯核函数:
其中,γ
0为方向高斯核参数,
为图像块中像素点z的方向角,p
i为第i个方向偏置基向量;
2f)使用位置高斯核函数kl(·)计算不同像素点之间的相似度:
kl(Lz,Ls)=exp(-γl||Lz-Ls||2),
其中,γl为位置高斯核参数,Lz为图像块中像素点z的位置、Ls为图像块中像素s的位置;
2g)对图像块中的位置核函数进行取样,得到一组位置偏置基向量
其中,q
j为第j个位置偏置向量,d
l为位置偏置基向量的总数,j∈[1,d
l];
2h)根据偏置基向量
和位置高斯核函数k
l(L
z,L
s),得到位置偏置基向量的高斯核函数:
kl(Lz,qj)=exp(-γl||Lz-qj||2),
其中,γl为位置高斯核参数,Lz为图像块中像素点z的位置,qj为第j个位置偏置基向量;
2i)根据像素点z的模值
方向偏置基向量的高斯核函数
以及位置偏置基向量的高斯核函数k
l(L
z,q
j),得到整个图像集U的核图像特征x(U):
其中,∑·表示求和,α
ij为核投影系数,d
l为位置偏置向量的总数,d
o为方向偏置向量的总数,z为图像中的像素点,
为像素点z的方向,
为像素点z的模值,p
i为第i个方向偏置向量,q
j为第j个位置偏置向量,L
z为图像块中像素点z的位置。
步骤三,使用块匹配方法提取训练视频图像的深度信息D。
3a)在训练样本图像集U中,在每一帧训练图像上都选取一个像素大小为4×4的图像块S,作为匹配图像块,其中,第r帧的匹配图像块为Sr,第r+1帧的匹配图像块为Sr+1,r∈[1,R],R为训练视频图像帧数;
3b)将第r帧匹配图像块Sr作为第r+1帧匹配图像块Sr+1的参考图像,计算第r帧的匹配图像块Sr与第r+1帧的匹配图像块Sr+1的像素位移,作为第r+1帧的深度信息Dr+1;
3c)重复步骤3b),获得全部训练样本图像集U的深度信息D,D={D1,....,Dr+1,...,DR},其中,r∈[1,R],R为训练视频图像帧数。
步骤四,将深度信息D与核图像特征x(U)相加,得到深度核信息图像特征X:
X=D+x(U)。
步骤五使用深度核信息图像特征X进行人体运动姿势的跟踪。
5a)使用高斯过程学习一个从深度核信息图像特征X到训练图像人体关节点三维坐标矩阵Y的映射关系g(·),使用g(·)将第t帧的三维姿势yt用第t帧的深度核信息图像特征xt表示,即:
yt=g(xt),
其中,t∈[1,n],n为训练图像帧数;
5b)对于新的人体运动视频图像序列,提取该视频图像序列的深度核信息图像特征X',使用步骤5a)中学习到的映射关系g(·),以第t帧的深度核信息图像特征xt′为输入,得到该视频序列的第t帧的三维姿势数据yt′:
y′t=g(x′t);
5c)重复步骤5b),获得全部视频图像三维姿态数据Y′,Y′={y′1,...y′t,...y′n},其中,t∈[1,n],n为训练图像帧数;
5d)将三维人体运动姿势数据Y′={y′1,...y′t,...y′n},转换为人体骨架关节点,恢复出输入视频的三维运动姿势。
本发明的效果可以通过以下仿真实验得到验证:
1)仿真实验条件设置:本发明的仿真实验在Matlab2010a上编译完成,执行环境为Windows框架下的HP工作站。本发明仿真实验所用的视频图像来自美国布朗大学的HumanEva数据库,原始图像大小为640×480,预处理后,提取原始图像中含有人体的大小为64×192部分。本实验采用的原始视频人体运动姿态如图3所示,其中图3(a)是招手视频序列第1帧的截图,图3(b)是招手视频序列第1帧的截图,图3(c)是招手视频序列第3帧的截图,图3(d)是招手视频序列第4帧的截图。
2)仿真内容及结果
使用本发明对图3中“招手”的人体运动视频图像进行姿态恢复,恢复结果如图4。其中图4(a)是使用本方法对招手视频序列第1帧的恢复结果图,图4(b)是对招手序列第2帧的恢复结果图,图4(c)是对招手序列第3帧的恢复结果图,图4(d)是对招手序列第4帧的恢复结果图。
从图4中可以看出,恢复结果准确,没有歧义姿态出现,说明使用本方法可以实现对运动人体的准确跟踪。
综上,本发明在降低图像特征提取的复杂度的同时,提高了特征的表达能力,并在图像数据分布未知情况下,通过学习先验进行准确的三维姿态预测,减小了图像表示的模糊现象。本发明具有人体运动跟踪快速,结果精确,节省特征提取时间的优点,该技术可以进一步用于人体目标识别。