CN111274901A

CN111274901A - 一种基于深度门控递归单元的手势深度图像连续检测方法

Info

Publication number: CN111274901A
Application number: CN202010043771.4A
Authority: CN
Inventors: 何再兴; 郭方泰; 赵昕玥; 张树有; 谭建荣
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-12
Anticipated expiration: 2040-01-15
Also published as: CN111274901B

Abstract

本发明公开了一种基于深度门控递归单元的手势深度图像连续检测方法。通过深度相机捕捉人手动态变化的深度图像序列；将每一帧均向三维空间投影体素化获得该帧的输入网格，组成人手三维体素的网格序列；遍历网格序列的每一帧作为当前帧，输入三维卷积单帧检测模型中处理获得各帧的手部各关节空间概率分布；选取当前帧的输入和上一帧的隐藏状态变量输入深度门控递归单元处理获得当前帧的隐藏状态变量，再输入三维卷积多帧检测模型得到当前帧的手部关节空间概率分布；重复步骤，依据每一帧的手部各关节空间概率分布提取关节点的三维坐标。本发明方法通过引入时序约束极大提高了手势检测的连续性，降低检测误差。

Description

一种基于深度门控递归单元的手势深度图像连续检测方法

技术领域

本发明属于图像自动识别技术领域的一种手势深度图像识别检测方法，更具体地是涉及了一种基于深度门控递归单元的手势深度图像连续检测方法。

背景技术

动态手势因为其快速、便捷的表达能力和纷繁复杂的组合方式，是现有沉浸式体感人机交互的主要组成部分。此外，基于深度图像的手势检测方案可以很好地抵抗光照、颜色、纹理等噪声，其中检测手势各个关节点坐标的空间信息，可以实现对手势信息的高效描述。然而现有手势检测方法很大程度依赖于单帧检测方法，造成帧与帧之间的时序信息丢失，影响手势检测的时空的连续性，降低手势检测精度。在实际场景中，被观测的动态手势常常具有手势关节运动的平滑性和时间维度的持续性，因此在现有单帧检测方法的基础上引入时序信息，并研究手势的连续检测很有必要。

现有的时序递归单元包括长短时记忆单元(LSTM)和门控递归单元(GRU)及其变种被大量应用于自然语言处理领域，缺少针对图形、图像相关的融和改进。

发明内容

本发明的目的在于针对现有的单帧手势检测方法造成帧与帧之间的时序信息丢失，影响手势检测的连续性，降低手势检测精度，提供一种基于深度门控递归单元的手势深度图像连续检测方法，方法通过引入时序约束极大提高了手势检测的连续性，降低检测误差。

本发明所采用的技术方案如下：

S1、通过深度相机捕捉人手动态变化的深度图像序列；

S2、将深度图像序列的每一帧均向三维空间投影并体素化获得该帧的输入网格，由所有帧的输入网格组成人手三维体素的网格序列；

S3、选取网格序列的第一帧作为当前帧，也同时作为当前帧的隐藏状态变量，输入预训练的三维卷积单帧检测模型中处理获得第一帧的手部各关节空间概率分布；

S4、当前帧变为上一帧，下一帧变为当前帧；

S5、选取当前帧的输入和上一帧的隐藏状态变量输入深度门控递归单元(DGRU)处理获得当前帧的隐藏状态变量，然后将当前帧的隐藏状态变量输入预训练的三维卷积多帧检测模型得到当前帧的手部关节空间概率分布；

S6、重复步骤S4-S5，直到将整个深度图像序列检测结束；

S7、依据每一帧的手部各关节空间概率分布提取关节点的三维坐标。

本发明手势深度图像的检测方法针对第一帧不经过深度门控递归单元，即直接将其输入三维卷积单帧检测模型进行检测，这样可以有利于手势深度图像的快速识别检测，提高了连续性和稳定性以及检测精度。

所述三维卷积单帧检测模型和三维卷积多帧检测模型的网络结构相同但网络参数不同，均采用PoseNet网络结构，其中包括三维卷积层、三维反卷积层、三维最大池化层、三维批正则层和ReLu/Sigmoid激活函数。

所述的深度门控递归单元包括深度门模型和深度门的更新计算；深度门模型包括两个卷积池化模块、三个卷积层和五个上采样层；两个卷积池化模块结构相同均包括依次连接的一个卷积层和一个池化层，但两个卷积池化模块的卷积参数不同；两个卷积池化模块依次连接，第二卷积池化模块后面连接第一卷积层；第一卷积层的输出端经第二卷积层先后连接第二上采样层和第三上采样层形成第一条支路；第一卷积层的输出端同时经第一上采样层后与第二卷积池化模块的卷积输出、第二上采样层的输出连接组合成复维特征，然后将复维特征依次经过第三卷积层和第四上采样层形成第二条支路；复维特征同时经第五上采样层与第一卷积池化模块中卷积层的输出叠加得到单维特征，单维特征作为第三条支路的输出；将第一条支路、第二条支路和第三条支路的输出叠加再经批正则化处理层获得预激活值，预激活值经过Sigmoid激活函数和分割操作后获得更新门和重置门；将当前帧的输入和上一帧的隐藏状态变量作为输入，输入到深度门模型的第一个卷积池化模块中，由深度门模型输出获得更新门和重置门，更新门为当前帧的输入对应的输出结果，重置门为当前帧的隐藏状态变量对应的输出结果，然后根据更新门和重置门采用以下公式计算获得当前帧的隐藏变量：

Z_t,r_t＝DG(Concatenate(V_t,h_t-1)),

其中，下标t和t-1分别代表当前帧和上一帧；Z_t和r_t分别代表当前帧的更新门和重置门；V_t和h_t分别代表当前帧的输入和隐藏状态变量；W_h、U_h、b_h是第一、第二、第三模型参数；Concatenate(·)表示张量连接操作；DG(·)表示深度门模型；tanh(·)代表双曲正切激活函数；

代表对应元素相乘操作。

深度门控递归单元把当前帧的输入和上一帧的隐藏变量进行张量连接，通过深度门控模型同时计算出当前帧的更新门和重置门。

所述的三维卷积单帧检测模型、三维卷积多帧检测模型以及多头掩模均衡融和单元构成了手势连续检测模型，预先采用以下过程进行网络参数学习和优化：收集已含有手势标注的手部深度图像的数据集作为训练集，建立以下手势连续检测模型的目标函数：

其中，N表示手部关节数量，i,j,k表示手部关节拟空间概率分布的每个位置的长、宽、高索引，

和

分别表示各个手部关节的手部关节空间概率分布和手部关节拟空间概率分布；_σ ²表示高斯分布形态参数，i_n、j_n、k_n表示输入网格的长、宽、高索引，η_H,

ρ_H分别代表手部关节拟空间概率分布的长、宽、高；

然后以从头训练方式采用基于时序的后向传播方法(Back Propagation ThroughTime)并通过随机梯度下降优化获得网络参数。

具体实施中，优化设计各个模型的网络容量及其参数空间，保持良好的泛化能力，防止过拟合和欠拟合。

第一帧的三维卷积单帧检测模型PoseNet1的网络参数不同于其他帧的三维卷积单帧检测模型的网络参数，除了第一帧以外的其他帧的三维卷积单帧检测模型的网络参数均相同。

各帧的深度门控递归单元结构相同，且参数均相同共享。

本发明方法不仅能将时序递归单元很好的融合到深度三维卷积神经网络模型，而且能在帧与帧之间方便的提供长时间的时序依赖，提高了手势检测的连续性和手势检测精度。

本发明的目的是通过以下步骤以及技术方案来实现的：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，本发明的有益效果：

本发明是一种端到端的手势深度图像连续识别检测方法，采用了特殊设计的深度门控递归单元，能将深度三维卷积神经网络模型与时序递归单元很好的融合，并在帧与帧之间提供长时间的时序依赖，提高了手势深度图像检测的连续性和检测精度。

附图说明

下面结合附图和实例对本发明进一步说明；

图1是本发明方法的流程图；

图2是图1中深度门控递归单元的示意图；

图3是手势检测的实例示意图；

图4是网格序列中人手的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进一步详细说明。

参照图1，按照本发明的发明内容完整方法实施的实施例及其实施过程如下：

S1、通过深度相机捕捉人手动态变化的深度图像序列

其中D_t表示深度图像，T表示图像序列，imgH和imgW分别表示图像的长度和宽度，图像中每个像素单元存贮的深度信息记做{z＝D_t(u,v)|u∈[0,imgH),v∈[0,imgW)}；

S2、将深度图像序列的每一帧投影为三维空间点云

具体的每一帧深度图像的像素与空间点云的对应关系，参考以下计算公式

z＝D_t(u,v)

x＝(v-imgW/2)*z/fx

y＝(imgH/2-u)*z/fy

其中，(x,y,z)代表点的空间位置坐标，fx,fy分别表示深度相机水平和竖直方向的焦距。将得到每一帧空间点云体素化，由各帧的体素化结果组成网格序列

其中V_t(i,j,k)作为该帧的输入网格，VoxL,VoxW,VoxH分别表示输入网格的长、宽、高，具体参考如下公式进行体素化：

其中，U(V_t(i,j,k))＝{(x,y,z)|(x-x_min)/s_x∈[i,i+1],(y-y_min)/s_y∈[j,j+1],(z-z_min)/s_z∈[k,k+1]}代表体素单元V_t(i,j,k)的邻域，x_min,y_min,z_min分别表示点云在长、宽、高上的最小值，s_x,s_y,s_z分别表示输入网格中每个网格单元的长、宽、高；

网格化结果实例见图4。

S3、选取网格序列的第一帧V₁作为当前帧，也同时作为当前帧的隐藏状态变量，输入预训练的三维卷积单帧检测模型PoseNet1中处理获得第一帧的手部各关节空间概率分布；

S4、当前帧变为上一帧，下一帧变为当前帧；

S5、选取当前帧的输入V_t和上一帧的隐藏状态变量h_t-1输入深度门控递归单元DGRU(Deep Gated Recurrent Uint)处理获得当前帧的隐藏状态变量h_t，然后将当前帧的隐藏状态变量输入预训练的三维卷积多帧检测模型PoseNet2得到当前帧的手部关节空间概率分布；

如图2所示，深度门控递归单元包括深度门模型和深度门的更新计算；

深度门模型包括两个卷积池化模块、五个上采样层和三个卷积层；

两个卷积池化模块结构相同均包括依次连接的一个卷积层和一个池化层，但两个卷积池化模块的卷积参数不同；两个卷积池化模块依次连接，第二个卷积池化模块后面连接第一卷积层；第一卷积层的输出端经第二卷积层先后连接第二上采样层和第三上采样层形成第一条支路；第一卷积层的输出端经第一上采样层后，与第二卷积池化模块的卷积输出和第二上采样层的输出连接组合成复维特征，然后将复维特征依次经过第三卷积层和第四上采样层形成第二条支路；复维特征经第五上采样层与第一卷积池化模块的卷积输出叠加得到单维特征，单维特征作为第三条支路的输出；将第一条支路、第二条支路和第三条支路的输出叠加再经批正则化处理层获得预激活值，预激活值经过Sigmoid激活函数和分割操作后获得更新门和重置门；

将当前帧的输入和上一帧的隐藏状态变量作为输入，输入到深度门模型的第一个卷积池化模块中，由深度门模型输出获得更新门和重置门，更新门为当前帧的输入对应的输出结果，重置门为当前帧的隐藏状态变量对应的输出结果，然后根据更新门和重置门采用以下公式计算获得当前帧的隐藏变量：

Z_t,r_t＝DG(Concatenate(V_t,h_t-1)),

S6、重复步骤S4-S5，直到将整个深度图像序列检测结束；

S8、依据每一帧的手部各关节空间概率分布

转换为手骨骼关节点的三维坐标

具体的，先通过max()求得每一个关节最大拟高斯空间分布值的空间索引位置

记做

则求得每一关节坐标的具体计算过程如下：

相关的手势检测实例效果如图3所示。

上述三维卷积单帧检测模型和三维卷积多帧检测模型的网络结构相同但网络参数不同，均采用PoseNet网络结构，其中包括三维卷积层、三维反卷积层、三维最大池化层、三维批正则层和ReLu/Sigmoid激活函数。

上述三维卷积单帧检测模型、三维卷积多帧检测模型以及多头掩模均衡融和单元构成了手势连续检测模型，收集已含有手势标注的手部深度图像的数据集作为训练集，建立以下手势连续检测模型的目标函数：

由此实施可见，本发明设计的深度门控递归单元，将深度三维卷积神经网络模型和时序递归单元融合，能在帧与帧之间方便的提供长时间的时序依赖，提高了手势检测的连续性和手势检测精度。

Claims

1.一种基于深度门控递归单元的手势深度图像连续检测方法，其特征在于，包括以下步骤：

S1、通过深度相机捕捉人手动态变化的深度图像序列；

S3、选取网格序列的第一帧作为当前帧，也同时作为当前帧的隐藏状态变量，输入三维卷积单帧检测模型中处理获得第一帧的手部各关节空间概率分布；

S4、当前帧变为上一帧，下一帧变为当前帧；

S5、选取当前帧的输入和上一帧的隐藏状态变量输入深度门控递归单元(DGRU)处理获得当前帧的隐藏状态变量，然后将当前帧的隐藏状态变量输入三维卷积多帧检测模型得到当前帧的手部关节空间概率分布；

S6、重复步骤S4-S5，直到将整个深度图像序列检测结束；

2.根据权利要求1所述的一种基于深度门控递归单元的手势深度图像连续检测方法，其特征在于：所述三维卷积单帧检测模型和三维卷积多帧检测模型的网络结构相同但网络参数不同，均采用PoseNet网络结构。

3.根据权利要求1所述的一种基于深度门控递归单元的手势深度图像连续检测方法，其特征在于：所述的深度门控递归单元包括深度门模型和深度门的更新计算；深度门模型包括两个卷积池化模块、三个卷积层和五个上采样层；两个卷积池化模块结构相同均包括依次连接的一个卷积层和一个池化层，但两个卷积池化模块的卷积参数不同；两个卷积池化模块依次连接，第二卷积池化模块后面连接第一卷积层；第一卷积层的输出端经第二卷积层先后连接第二上采样层和第三上采样层形成第一条支路；第一卷积层的输出端同时经第一上采样层后与第二卷积池化模块的卷积输出、第二上采样层的输出连接组合成复维特征，然后将复维特征依次经过第三卷积层和第四上采样层形成第二条支路；复维特征同时经第五上采样层与第一卷积池化模块中卷积层的输出叠加得到单维特征，单维特征作为第三条支路的输出；将第一条支路、第二条支路和第三条支路的输出叠加再经批正则化处理层获得预激活值，预激活值经过Sigmoid激活函数和分割操作后获得更新门和重置门；

Z_t,r_t＝DG(Concatenate(V_t,h_t-1)),

其中，下标t和t-1分别代表当前帧和上一帧；Z_t和r_t分别代表当前帧的更新门和重置门；V_t和h_t分别代表当前帧的输入和隐藏状态变量；W_h、U_h、b_h是第一、第二、第三模型参数；Concatenate(·)表示张量连接操作；DG(·)表示深度门模型；tanh(·)代表双曲正切激活函数；⊙代表对应元素相乘操作。

4.根据权利要求1所述的一种基于深度门控递归单元的手势深度图像连续检测方法，其特征在于：所述的三维卷积单帧检测模型、三维卷积多帧检测模型以及多头掩模均衡融和单元构成了手势连续检测模型，预先采用以下过程进行网络参数学习和优化：收集已含有手势标注的手部深度图像的数据集作为训练集，建立以下手势连续检测模型的目标函数：

和

分别表示各个手部关节的手部关节空间概率分布和手部关节拟空间概率分布；σ²表示高斯分布形态参数，i_n、j_n、k_n表示输入网格的长、宽、高索引，η_H,

ρ_H分别代表手部关节拟空间概率分布的长、宽、高；

然后以从头训练方式采用基于时序的后向传播方法并通过随机梯度下降优化获得网络参数。

5.根据权利要求1所述的一种基于深度门控递归单元的手势深度图像连续检测方法，其特征在于：第一帧的三维卷积单帧检测模型PoseNet1的网络参数不同于其他帧的三维卷积单帧检测模型的网络参数，除了第一帧以外的其他帧的三维卷积单帧检测模型的网络参数均相同。

6.根据权利要求3所述的一种基于深度门控递归单元的手势深度图像连续检测方法，其特征在于：各帧的深度门控递归单元结构相同，且参数均相同共享。