CN102663453A

CN102663453A - 基于第二代条带波变换和极速学习机的人体运动跟踪方法

Info

Publication number: CN102663453A
Application number: CN2012101346652A
Authority: CN
Inventors: 韩红; 谢福强; 韩启强; 张红蕾; 顾建银; 李晓君; 甘露; 郭玉言; 刘三军
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2012-05-03
Filing date: 2012-05-03
Publication date: 2012-09-12
Anticipated expiration: 2032-05-03
Also published as: CN102663453B

Abstract

本发明公开了一种基于第二代条带波变换和极速学习机的人体运动跟踪方法，主要解决现有技术的人体运动跟踪中对视频图像特表示不准确和学习回归函数时间复度高，跟踪结果不准确的问题。其实现过程为，首先预处理视频图像，获得原始关节点三维坐标矩阵Y；提取处理后视频图像的第二代条带波变换Bandlet2图像特征X；以提取的Bandlet2图像特征X为输入，视频图像中人体的三维坐标矩阵Y为输出，使用极速学习机学习回归函数；使用极速学习机学习得到的回归函数，以新的视频图像的bandlet2特征X为输入，估计出运动人体的三维姿态数据。本发明较之现有的人体跟踪方法训练过程快，对图像特征表示准确，可用于运动捕获，人机交互，视频监控，人体目标识别和三维姿势恢复。

Description

基于第二代条带波变换和极速学习机的人体运动跟踪方法

技术领域

本发明属于图像处理技术领域，更进一步涉及到计算机视觉领域中实现人体运动跟踪的一种方法，可用于体育训练和动画制作，视频监控领域。

技术背景

人体运动跟踪是近二十年来计算机视觉领域的重大热点之一，人体运动跟踪在运动捕获，人机交互，视频监控等多领域获得了初步的应用，并具重大的应用前景。从视频序列中准确恢复三维人体姿态，实现人体运动跟踪是计算机视觉领域长期存在的问题。实现人体运动跟踪主要包括两步：第一步是实现对视频图像特征的准确表示，第二步是学习从视频图像特征到人体姿态的回归函数。

第一步，对于一帧视频图像，人体是视频图像中的核心内容，反映视频图像的核心语义特征。对于人类来说，观看一帧图像的同时几乎可以瞬间理解其中人物的姿态，然而对于计算机，却要克服重重困难：必需要有一种有效的图像特征，作为计算机识别的接口。这种图像特征必须有效表示图像中的人物运动状态以及图像纹理，轮廓等细节信息。现有图像特征表示方法大致可以分为基于全局特征点方法和基于局部字码表的特征表示方法，如梯度直方图特征、层级化特征、形状上下文和尺度不变性特征点的方法。目前已经有很多成熟的图像特征表示方法被运用到人体特征表示和运动跟踪中。但是大部分描述人体的图像特征表示是基于轮廓和边缘信息的，在理论上不严谨，很难准确的刻画图像内部信息。这些基于边缘的图像特征表示方法还面临一个主要问题：视频图像的快速变换常沿边缘曲线不连续性跳跃，一方面会导致封闭边界的灰度不连续性模糊，另一方面也会导致纹理变化不沿几何曲线聚集。最终结果是无法有效表示图像中的几何纹理走向，不能全面刻画人在其中的姿态和特征信息，导致后期的运动跟踪和姿态恢复产生了模糊性和歧义性。

第二步，学习从图像特征到人体姿态的回归函数。回归函数的好坏直接关系到目标跟踪结果的准确性和学习效率的高低。当前学习回归函数的方法主要有线性回归，高斯过程回归，双高斯过程回归，高斯隐变量回归，权重最近邻回归，支持矢量机回归。这些回归方法在学习回归函数的过程中需要使用大量的训练样本，和大量训练时间，计算复杂度高，获得的回归函数在一定程度上依赖于数据库的复杂程度，也就是获得的结果稳定性低。

发明内容

本发明针对上述已有技术的不足，提出了一种基于第二代条带波变换和极速学习机的人体运动跟踪方法，以降低图像特征提取的复杂度，提高特征的表征能力，减少学习回归函数的时间，提高回归函数的稳定性，并在图像数据分布未知情况下，通过学习先验进行准确的姿态预测。

本发明技术方案通过如下步骤实现：

(1)从原始的视频图像中获得人体关节点的三维坐标矩阵Y；

(2)提取原始视频图像的第二代条带波变换Bandlet2图像特征X：

2a)输入待处理训练视频图像集转换为连续单幅序列图，根据图像内容，判断需要识别的主要人体目标，提取像素大小为64*192的含有人体的矩形框体，作为之后处理的训练样本；

2b)对提取后的每个训练样本图像进行二维离散正交小波变换，小波变换的层数为M，其中M＝1，变换后得到小波采样系数f；

2c)对小波变换后的图像，采用四叉树划分和自底向上融合法则，按4*4像素大小，将图像划分为768个子图像块；

2d)对步骤2b)获得的小波采样系数f，做一维离散变换，得到一维离散变换系数f_θ；

2e)对得到的一维离散变换系数f_θ进行量化，得到量化后的一维离散变换系数

{\tilde{f}}_{θ} = \{\begin{matrix} 0 & | f_{θ} | \leq 0 \\ sign (f_{θ}) \cdot (q + 0.5) \cdot T & q \cdot T \leq | f_{θ} | \leq (q + 1) \cdot T \end{matrix},

其中，T为量化阈值，sign(·)是符号函数，T＝15，q∈Z；

2f)将一维离散变换系数

在各方向上做投影，寻找投影误差最小的方向作为量化后图像块的最优几何流方向d；

2g)将一维离散变换系数在最优几何流方向d上的一维离散变换系数存储在一个二维矩阵W中，获得整幅图片的Bandelet2系数矩阵W；

2h)提取Bandelet2系数矩阵W在最大几何流方向的统计特征作为最后图像的Bandlet2图像特征X；

(3)使用极速学习机学习一个从第二代条带波变换Bandlet2特征X的到人体关节点三维坐标Y的映射关系g(·)，使用g(·)将第j帧的三维姿势y_j用第j帧的第二代条带波变换Bandlet2特征x_j表示，即：

y_j＝g(x_j)，

其中，Y＝{y₁，...y_j，...y_n}，X＝{x₁，...x_j，...x_n}，j∈[1，n]，n为训练视频图像帧数；

(4)利用学习到的映射关系对新的视频序列做人体运动跟踪：

4a)对新的人体运动视频图像序列，按照步骤2)提取该视频图像序列的第二代条带波变换Bandlet2特征集X′，使用步骤(3)中学习到的映射关系g(·)，以第j帧的第二代条带波变换Bandlet2特征x′_j为输入，则该视频序列的第j帧的三维姿势数据y′_j，通过下式得到：

y′_j＝g(x′_j)，

其中，X′＝{x′₁，...x′_j，...x′_n}，j∈[1，n]，n为该视频图像帧数；

4b)重复步骤4a)，获得全部视频图像三维姿态数据，Y′＝{y′₁，...y′_j，...y′_n}，j∈[1，n]，n为该视频图像帧数；

4c)将三维人体运动姿势数据Y′＝{y′₁，y′₂，...y′_n}，转换为人体骨架关节点，恢复出输入视频的三维运动姿势。

本发明与现有的技术相比具有以下优点：

1、在本发明中使用的第二代条带波特征表示方法能够通过几何流准确表示图像的人体结构信息，根据几何流的图像描述可以避免传统的基于边缘的，或基于轮廓的图像表示方法产生的表述模糊性，能得到更好的三维运动跟踪结果。

2、本发明由于使用极速学习机学习回归函数，能够通过调节隐节点个数，实现对不同复杂度的数据库的学习，较现有方法有效的减少了学习时间短，降低了学习过程中的计算复杂度，提高了学习结果准确性。

附图说明

图1是本发明的实现流程图；

图2是本发明提取视频图像第二代条带波bandlet2图像特征的子流程图；

图3是未经处理的人体行走运动序列视频截图；

图4是用本发明对图3的姿态恢复结果图；

图5是用不同方法对图3恢复结果的关节点误差对比图。

具体实施方式

本发明是一种基于第二代条带波变换和极速学习机的人体运动跟踪方法。

参照图1，本发明的具体实施步骤如下：

步骤一，从原始的视频图像中获得人体关节点的三维坐标矩阵Y。

步骤二，提取原始视频图像的第二代条带波变换Bandlet2图像特征X。

参照图2，本步骤实现如下：

{\tilde{f}}_{θ} = \{\begin{matrix} 0 & | f_{θ} | \leq 0 \\ sign (f_{θ}) \cdot (q + 0.5) \cdot T & q \cdot T \leq | f_{θ} | \leq (q + 1) \cdot T \end{matrix},

其中，T为量化阈值，sign(·)是符号函数，T＝15，q∈Z；

2f)将一维离散变换系数

2h)提取Bandelet2系数矩阵W在最大几何流方向的统计特征作为最后图像的Bandlet2图像特征X。

步骤三使用极速学习机学习一个从第二代条带波变换Bandlet2特征X的到人体关节点三维坐标Y的映射关系g(·)：

3a)确定从第二代条带波变换Bandlet2特征X的到人体关节点三维坐标Y的映射关系g(·)形式：

y_{j} = g (x_{j}) = Σ_{i = 1}^{N} β_{i} G (a_{i}, b_{i}, x_{j}),

其中，y_j为视频图像第j帧的三维关节点坐标，x_j为视频图像第j帧的第二代条带波变换Bandlet2图像特征表示，j∈[1，n]，n为视频帧数，N为极速学习机中需要设定的隐节点个数，N＝5000，G(·)为隐节点输出函数，β_i为第i个隐节点输出函数的权重，a_i、b_i为隐节点参数，

对整个视频序列可以将上式写成一个统一的形式：

Y＝H·β，

其中，Y＝{y₁，...y_j，...y_n}，为整个视频序列的三维坐标矩阵，n为该视频图像帧数，β为隐节点输出函数权重矩阵，β＝{β，...β_i，...β_N}^T，H为隐节点输出函数G(·)的输出矩阵；

3b)对隐节点参数a_i、b_i随机赋值，其中，i＝1，....5000；

3c)计算隐节点输出函数G(·)的输出矩阵H：

H = [\begin{matrix} g (x_{1}) \\ . . . \\ g (x_{n}) \end{matrix}] = {[\begin{matrix} G (a_{1}, b_{1}, x_{1}), . . ., G (a_{N}, b_{N}, x_{1}) \\ . . . \\ G (a_{1}, b_{1}, x_{n}), . . ., G (a_{N}, b_{N}, x_{n}) \end{matrix}]}_{n \times N},

其中，n为该视频图像帧数，N为极速学习机中需要设定的隐节点个数，N＝5000，a_i、b_i为隐节点参数，i＝1，....5000；

3d)计算隐节点输出函数权重矩阵β：

β＝H^-1Y，

其中，β＝{β₁，...β_i，...β_N}，Y＝{y₁，...y_j，...y_n}，(·)^-1表示矩阵求逆，N为极速学习机中需要设定的隐节点个数，N＝5000，n为该视频图像帧数。

步骤四利用学习到的映射关系对新的视频序列做人体运动跟踪：

y′_j＝g(x′_j)，

本发明的效果可以通过以下仿真实验得到验证：

1)仿真实验条件设置：本发明的仿真实验在Matlab 2010a上编译完成，执行环境为Windows框架下的HP工作站。本发明仿真实验所用的视频图像来自美国布朗大学的HumanEva数据库，原始图像大小为640×480，预处理后，提取原始图像中含有人体的大小为64*192部分。本实验采用的原始视频人体运动姿态如图3所示，其中图3a是行走视频序列第10帧的截图，图3b是行走视频序列第20帧的截图，图3c是行走视频序列第30帧的截图，图3d是行走视频序列第40帧的截图。

2)仿真内容及结果

仿真一，使用本发明对图3中“行走”的人体运动视频图像进行姿态恢复，恢复结果如图4。图4a是使用本方法对行走视频序列第10帧的恢复结果图，图4b是对行走序列第20帧的恢复结果图，图4c是对行走序列第30帧的恢复结果图，图4d是对行走序列第40帧的恢复结果图。

从图4中可以看出，恢复结果准确，没有歧义姿态出现，说明使用本方法可以实现对运动人体的准确跟踪。

仿真二使用本发明和其他现有的方法对图3中的人体视频图像进行跟踪，跟踪结果误差如图5所示。

从图5可以看出，使用高斯过程GP学习回归函数，恢复出的人体姿态关节点误差较大，平均误差达到44mm；使用本方法学习回归函数，恢复出人体姿态关节点误差小，平均误差30mm。整体而言，在该序列上已经将误差水平控制在平均30mm左右，达到了当前的公认的良好量化指标。

综上，本发明在降低图像特征提取的复杂度的同时，提高了特征的表达能力，并在图像数据分布未知情况下，通过学习先验进行准确的三维姿态预测，减小了图像表示的模糊现象。本发明具有人体运动跟踪快速，结果精确，节省特征提取时间的优点，该技术可以进一步用于人体目标识别。

Claims

1.一种基于第二代条带波变换Bandlet2和极速学习机ELM的人体运动跟踪方法包括如下步骤：

(1)从原始的视频图像中获得人体关节点的三维坐标矩阵Y；

(2)提取原始视频图像的第二代条带波变换Bandlet2图像特征X：

{\tilde{f}}_{θ} = \{\begin{matrix} 0 & | f_{θ} | \leq 0 \\ sign (f_{θ}) \cdot (q + 0.5) \cdot T & q \cdot T \leq | f_{θ} | \leq (q + 1) \cdot T \end{matrix},

其中，T为量化阈值，sign(·)是符号函数，T＝15，q∈Z；

2f)将一维离散变换系数

2g)将一维离散变换系数

在最优几何流方向d上的一维离散变换系数存储在一个二维矩阵W中，获得整幅图片的Bandelet2系数矩阵W；

(3)便用极速字习机字习一个从第二代条带波变换Bandlet2特征X的到人体关节点三维坐标Y的映射关系g(·)，使用g(·)将第j帧的三维姿势y_i用第j帧的第二代条带波变换Bandlet2特征x_j表示，即：

y_j＝g(x_j)，

(4)利用学习到的映射关系对新的视频序列做人体运动跟踪：

y′_j＝g(x′_j)，

2.根据权利要求1中所述方法，其中步骤3)中所述的使用极速学习机学习一个从第二代条带波变换Bandlet2特征X的到人体关节点三维坐标Y的映射关系g(·)，按如下步骤进行：

y_{j} = g (x_{j}) = Σ_{i = 1}^{N} β_{i} G (a_{i}, b_{i}, x_{j}),

对整个视频序列可以将上式写成一个统一的形式：

Y＝H·β，

其中，Y＝{y₁，...y_j，...y_n}，为整个视频序列的三维坐标矩阵，n为该视频图像帧数，β为隐节点输出函数权重矩阵，β＝{β₁，...β_i，...β_N}^T，H为隐节点输出函数G(·)的输出矩阵；

3b)对隐节点参数a_i、b_i随机赋值，其中，i＝1，....5000；

3c)计算隐节点输出函数G(·)的输出矩阵H：

H = [\begin{matrix} g (x_{1}) \\ . . . \\ g (x_{n}) \end{matrix}] = {[\begin{matrix} G (a_{1}, b_{1}, x_{1}), . . ., G (a_{N}, b_{N}, x_{1}) \\ . . . \\ G (a_{1}, b_{1}, x_{n}), . . ., G (a_{N}, b_{N}, x_{n}) \end{matrix}]}_{n \times N},

3d)计算隐节点输出函数权重矩阵β：

β＝H^-1Y，