CN103093211A

CN103093211A - 基于深度核信息图像特征的人体运动跟踪方法

Info

Publication number: CN103093211A
Application number: CN2013100306722A
Authority: CN
Inventors: 韩红; 谢福强; 张红蕾; 韩启强; 李晓君; 顾建银
Original assignee: Xidian University
Current assignee: Hangzhou Huazhen Environmental Protection Technology Co ltd; Qingdao Huashi Intelligent Technology Co ltd
Priority date: 2013-01-27
Filing date: 2013-01-27
Publication date: 2013-05-08
Anticipated expiration: 2033-01-27
Also published as: CN103093211B

Abstract

本发明公开了一种基于深度核信息图像特征的人体运动跟踪方法，主要解决现有技术的人体运动跟踪中对视频图像特征表示不准确，导致跟踪结果不精确的问题。其实现过程为：从数据库中获得视频图像的关节点三维坐标矩阵Y；提取处理后视频图像的深度核信息图像特征X；以提取的深度核信息图像特征X为输入，以视频图像中人体的三维坐标矩阵Y为输出，使用高斯过程学习回归函数；使用高斯过程学习得到的回归函数，以新的视频图像的深度核信息特征X为输入，估计出运动人体的三维姿态数据。本发明具有比现有的人体跟踪方法训练过程快，对图像特征表示准确的优点，可用于运动捕获，人机交互，视频监控，人体目标识别和三维姿势恢复。

Description

基于深度核信息图像特征的人体运动跟踪方法

技术领域

本发明属于图像处理技术领域，更进一步涉及到计算机视觉领域中实现人体运动跟踪的一种方法，可用于体育训练和动画制作，视频监控领域。

技术背景

人体运动跟踪是近二十年来计算机视觉领域的重大热点之一，人体运动跟踪在运动捕获，人机交互，视频监控等多领域获得了初步的应用，并具重大的应用前景。从视频序列中准确恢复三维人体姿态，实现人体运动跟踪是计算机视觉领域长期存在的问题。实现人体运动跟踪主要包括两步：第一步是实现对视频图像特征的准确表示，第二步是学习从视频图像特征到人体姿态的回归函数。其中最重要的就是第一步：实现对视频图像特征的准确表示。

对于一帧视频图像，人体是视频图像中的核心内容，反映视频图像的核心语义特征。对于人类来说，观看一帧图像的同时几乎可以瞬间理解其中人物的姿态，然而对于计算机，却要克服重重困难：必需要有一种有效的图像特征，作为计算机识别的接口。这种图像特征必须有效表示图像中的人物运动状态以及图像纹理，轮廓等细节信息。现有图像特征表示方法大致可以分为基于全局特征点方法和基于局部字码表的特征表示方法，如梯度直方图特征、层级化特征、形状上下文和尺度不变性特征点的方法。目前已经有很多成熟的图像特征表示方法被运用到人体特征表示和运动跟踪中。但是大部分描述人体的图像特征表示是基于轮廓和边缘信息的，在理论上不严谨，很难准确的刻画图像内部信息。这些基于边缘的图像特征表示方法还面临一个主要问题：视频图像的快速变换常沿边缘曲线不连续性跳跃，一方面会导致封闭边界的灰度不连续性模糊，另一方面也会导致纹理变化不沿几何曲线聚集。最终结果是无法有效表示图像中的几何纹理走向，不能全面刻画人在其中的姿态和特征信息，导致后期的运动跟踪和姿态恢复产生了模糊性和歧义性。

发明内容

本发明针对上述已有技术的不足，提出了一种基于深度核信息图像特征的人体运动跟踪方法，以降低图像特征提取的复杂度，提高特征的表征能力，并在图像数据分布未知情况下，通过学习先验进行准确的姿态预测。

本发明技术方案通过如下步骤实现：

（1）从原始的视频图像中获得人体关节点的三维坐标矩阵Y；

（2）提取训练视频图像的核图像特征x(U)：

2a)输入待处理训练视频图像集转换为连续单幅序列图，根据图像内容，判断需要识别的主要人体目标，提取像素大小为64*192的含有人体的矩形框体，作为之后处理的训练样本图像集U；

2b)对训练样本图像集U中的像素点分别求梯度，得到每一个像素点的方向

和模值

其中，z为图像块中的像素点，z∈U；

2c）使用方向高斯核函数k_o(·)计算不同像素点之间的角度相似度:

k_{o} ({\overset{&RightArrow;}{θ}}_{z}, {\overset{&RightArrow;}{θ}}_{s}) = \exp (- γ_{0} {| | {\overset{&RightArrow;}{θ}}_{z} - {\overset{&RightArrow;}{θ}}_{s} | |}^{2}),

其中，γ₀为方向高斯核参数，

为图像块中像素点z的方向角，

为图像块中像素点s的方向角，exp(·)表示求自然对数的指数函数，||·|²表示求二范数；

2d）对图像块中的方向核函数进行取样，得到一组方向偏置向量

其中，p_i为第i个方向偏置向量，d_o为方向偏置向量的总数，i∈[1,d_o]，则得到方向偏置基向量的高斯核函数：

k_{o} ({\overset{&RightArrow;}{θ}}_{z}, p_{i}) = \exp (- γ_{0} {| | {\overset{&RightArrow;}{θ}}_{z} - p_{i} | |}^{2}),

其中，γ₀为方向高斯核参数，

为图像块中像素点z的方向角，p_i为第i个方向偏置基向量；

2e）使用位置高斯核函数k_l(·)计算不同像素点之间的相似度:

k_l(L_z,L_s)＝exp(-γ_l||L_z-L_s||²)，

其中，γ_l为位置高斯核参数，L_z为图像块中像素点z的位置、L_s为图像块中像素s的位置；

2f)对图像块中的位置核函数进行取样，得到一组位置偏置基向量其中，q_j为第j个位置偏置向量，d_l为位置偏置基向量的总数，j∈[1,d_l]；

2g）根据偏置基向量

和位置高斯核函数k_l(L_z,L_s)，得到位置偏置基向量的高斯核函数：

k_l(L_z,q_j)＝exp(-γ_l||L_z-q_j||²)，

其中,γ_l为位置高斯核参数，L_z为图像块中像素点z的位置，q_j为第j个位置偏置基向量；

2h）根据像素点z的模值

方向偏置基向量的高斯核函数以及位置偏置基向量的高斯核函数k_l(L_z,q_j)，得到整个图像集U的核图像特征x(U)：

x (U) = Σ_{i = 1}^{d_{o}} Σ_{j = 1}^{d_{l}} α_{ij} {\underset{z &Element; U}{Σ} {\overset{&RightArrow;}{m}}_{z} k_{o} ({\overset{&RightArrow;}{θ}}_{z}, p_{i}) k_{l} (L_{z}, q_{j})},

其中，∑·表示求和，α_ij为核投影系数，d_l为位置偏置向量的总数，d_o为方向偏置向量的总数，z为图像中的像素点，

为像素点z的方向，

为像素点z的模值，p_i为第i个方向偏置向量，q_j为第j个位置偏置向量，L_z为图像块中像素点z的位置；

（3）使用块匹配方法提取训练视频图像的深度信息D；

（4）将深度信息D与核图像特征x(U)相加，得到深度核信息图像特征X；

X＝D+x(U)；

（5）使用深度核信息图像特征X进行人体运动姿势的跟踪，对输入视频图像进行三维运动姿势估计，并将估计到的三维运动姿势数据恢复成关节点骨架作为最终的跟踪结果。

本发明与现有的技术相比具有以下优点：

1、本发明由于使用了深度核信息图像特征表示方法，能够通过深度信息与核特征的结合，准确表示图像的人体结构信息，避免了传统基于边缘的，或基于轮廓的图像表示方法产生的表述模糊性，能得到更好的三维运动跟踪结果。

2、本发明由于使用高斯学习回归函数，能实现对不同复杂度的数据库的学习，较现有方法有效的减少了学习的时间，降低了学习过程中的计算复杂度，提高了学习结果准确性。

附图说明

图1是本发明的实现流程图；

图2是本发明提取视频图核图像特征的子流程图；

图3是未经处理的人体招手运动序列视频截图；

图4是用本发明对图3的姿态恢复结果图。

具体实施方式

参照图1，本发明的具体实施步骤如下：

步骤一，获得待处理训练视频图像和待处理训练视频图像中人体关节点的三维坐标矩阵Y。

待处理训练视频图像是从美国布朗大学的HumanEva数据库中获得，从HumanEva数据库中得到视频中人体中关节点的三维坐标矩阵Y。

步骤二，提取待处理训练视频图像的核图像特征X。

参照图2，本步骤的具体实现如下：

2a)输入待处理训练视频图像，使用Matlab软件将输入的待处理训练视频图像转换为连续单幅序列图，根据图像内容，判断需要识别的主要人体目标，提取像素大小为64*192的含有人体的矩形框体，作为之后处理的训练样本图像集U；

和模值

其中，z为图像块中的像素点，z∈U；

k_{o} ({\overset{&RightArrow;}{θ}}_{z}, {\overset{&RightArrow;}{θ}}_{s}) = \exp (- γ_{0} {| | {\overset{&RightArrow;}{θ}}_{z} - {\overset{&RightArrow;}{θ}}_{s} | |}^{2}),

其中，γ₀为方向高斯核参数，

为图像块中像素点z的方向角，

为图像块中像素点s的方向角，exp(·)表示求自然对数的指数函数，||·||²表示求二范数；

其中，p_i为第i个方向偏置向量，d_o为方向偏置向量的总数，i∈[1,d_o]；

2e)根据方向偏置基向量

和方向高斯核函数

得到方向偏置基向量的高斯核函数：

k_{o} ({\overset{&RightArrow;}{θ}}_{z}, p_{i}) = \exp (- γ_{0} {| | {\overset{&RightArrow;}{θ}}_{z} - p_{i} | |}^{2}),

其中，γ₀为方向高斯核参数，

为图像块中像素点z的方向角，p_i为第i个方向偏置基向量；

2f）使用位置高斯核函数k_l(·)计算不同像素点之间的相似度:

k_l(L_z,L_s)＝exp(-γ_l||L_z-L_s||²)，

2g)对图像块中的位置核函数进行取样，得到一组位置偏置基向量

其中，q_j为第j个位置偏置向量，d_l为位置偏置基向量的总数，j∈[1,d_l]；

2h）根据偏置基向量

k_l(L_z,q_j)＝exp(-γ_l||L_z-q_j||²)，

2i）根据像素点z的模值

方向偏置基向量的高斯核函数

以及位置偏置基向量的高斯核函数k_l(L_z,q_j)，得到整个图像集U的核图像特征x(U)：

x (U) = Σ_{i = 1}^{d_{o}} Σ_{j = 1}^{d_{l}} α_{ij} {\underset{z &Element; U}{Σ} {\overset{&RightArrow;}{θ}}_{z} k_{o} ({\overset{&RightArrow;}{θ}}_{z}, p_{i}) k_{l} (L_{z}, q_{j})},

为像素点z的方向，

为像素点z的模值，p_i为第i个方向偏置向量，q_j为第j个位置偏置向量，L_z为图像块中像素点z的位置。

步骤三，使用块匹配方法提取训练视频图像的深度信息D。

3a)在训练样本图像集U中，在每一帧训练图像上都选取一个像素大小为4×4的图像块S，作为匹配图像块，其中，第r帧的匹配图像块为S_r，第r+1帧的匹配图像块为S_r+1，r∈[1,R]，R为训练视频图像帧数；

3b)将第r帧匹配图像块S_r作为第r+1帧匹配图像块S_r+1的参考图像，计算第r帧的匹配图像块S_r与第r+1帧的匹配图像块S_r+1的像素位移，作为第r+1帧的深度信息D_r+1；

3c)重复步骤3b)，获得全部训练样本图像集U的深度信息D，D＝{D₁,....,D_r+1，...,D_R}，其中，r∈[1,R]，R为训练视频图像帧数。

步骤四，将深度信息D与核图像特征x(U)相加，得到深度核信息图像特征X：

X＝D+x(U)。

步骤五使用深度核信息图像特征X进行人体运动姿势的跟踪。

5a)使用高斯过程学习一个从深度核信息图像特征X到训练图像人体关节点三维坐标矩阵Y的映射关系g(·)，使用g(·)将第t帧的三维姿势y_t用第t帧的深度核信息图像特征x_t表示，即：

y_t＝g(x_t)，

其中，t∈[1，n]，n为训练图像帧数；

5b)对于新的人体运动视频图像序列，提取该视频图像序列的深度核信息图像特征X'，使用步骤5a)中学习到的映射关系g(·)，以第t帧的深度核信息图像特征x_t′为输入，得到该视频序列的第t帧的三维姿势数据y_t′：

y′_t＝g(x_′t)；

5c)重复步骤5b)，获得全部视频图像三维姿态数据Y′，Y′＝{y′₁，...y′_t，...y′_n}，其中，t∈[1,n]，n为训练图像帧数；

5d)将三维人体运动姿势数据Y′＝{y′₁,...y′_t，...y′_n}，转换为人体骨架关节点，恢复出输入视频的三维运动姿势。

本发明的效果可以通过以下仿真实验得到验证：

1）仿真实验条件设置：本发明的仿真实验在Matlab2010a上编译完成，执行环境为Windows框架下的HP工作站。本发明仿真实验所用的视频图像来自美国布朗大学的HumanEva数据库，原始图像大小为640×480，预处理后，提取原始图像中含有人体的大小为64×192部分。本实验采用的原始视频人体运动姿态如图3所示，其中图3(a)是招手视频序列第1帧的截图，图3(b)是招手视频序列第1帧的截图，图3(c)是招手视频序列第3帧的截图，图3(d)是招手视频序列第4帧的截图。

2）仿真内容及结果

使用本发明对图3中“招手”的人体运动视频图像进行姿态恢复，恢复结果如图4。其中图4(a)是使用本方法对招手视频序列第1帧的恢复结果图，图4(b)是对招手序列第2帧的恢复结果图，图4(c)是对招手序列第3帧的恢复结果图，图4(d)是对招手序列第4帧的恢复结果图。

从图4中可以看出，恢复结果准确，没有歧义姿态出现，说明使用本方法可以实现对运动人体的准确跟踪。

综上，本发明在降低图像特征提取的复杂度的同时，提高了特征的表达能力，并在图像数据分布未知情况下，通过学习先验进行准确的三维姿态预测，减小了图像表示的模糊现象。本发明具有人体运动跟踪快速，结果精确，节省特征提取时间的优点，该技术可以进一步用于人体目标识别。