CN108334880A

CN108334880A - 一种搭建针对手势检测的深度学习网络结构的方法及系统

Info

Publication number: CN108334880A
Application number: CN201810030295.5A
Authority: CN
Inventors: 王雁刚; 赵诗雨
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2018-07-27
Anticipated expiration: 2038-01-12
Also published as: CN108334880B

Abstract

本发明公开了一种搭建针对手势检测的深度学习网络结构的方法及系统，方法包括：针对已有的手势图像数据集及手势的骨架信息标签搭建第一卷积神经网络；针对同样的数据集及手势的语义分割标签搭建第二卷积神经网络；将两个卷积神经网络的数据层和损失层合并，用并联的方式对两个网络进行连接；将两个网络的全卷积层输出结果分别反馈到对方网络的前端作为输入的一部分；利用改进后的网络结构进行训练、得到模型。系统包括：骨架检测单元，语义分割单元，全卷积层输出交叉反馈单元。本发明能够只通过一个深度学习网络对手势的骨架信息和语义分割信息进行并行检测，可以同时输出骨架检测和语义分割结果，且更为准确。

Description

一种搭建针对手势检测的深度学习网络结构的方法及系统

技术领域

本发明属于计算机视觉及图形学技术领域，具体涉及一种搭建针对手势检测的深度学习网络结构的方法及系统。

背景技术

手势检测是研究人员一直关心的问题，因为在人与人之间的信息交流中，手势通常扮演着很重要的作用。在虚拟现实中，手是用户模型中十分重要的动作与感知关系模型，人的行为特征是人机交互的重要研究内容。在人机交互过程中，通过手势动作直接与计算机系统进行交互，相比传统的交互方式更加直观、清晰，同时也使用户具备更好的体验。

到目前为止，手势的检测已经取得了很多的研究成果。概括起来可以分为二大类：1)传统方法，如基于肤色提取的手势检测方法，在YCrCb颜色空间中利用肤色椭圆模型进行手势检测；2)深度学习方法，如在卷积神经网络中使用数据集和人为标定好标签的进行语义分割的训练等。这些方法经过多年的发展，均能取得不错的效果。但是目前尚存在以下问题：1)传统方法检测速度较慢且基于肤色的手势检测具有一定的局限性；2)深度学习算法的准确率存在瓶颈。

发明内容

为解决上述问题，本发明公开了一种搭建针对手势检测的深度学习网络结构的方法及系统，相对于常见方法，本发明针对图像的手势检测能够提供更高的准确率。

为了达到上述目的，本发明提供如下技术方案：

一种搭建针对手势检测的深度学习网络结构的方法，包括如下步骤:

步骤1，针对已有的手势图像数据集及手势的骨架信息标签搭建第一卷积神经网络，用于通过训练实现对图像中手势的骨架检测；

步骤2，针对同样的手势图像数据集及手势的语义分割标签搭建第二卷积神经网络，用于通过训练实现对图像中手势的语义分割；

步骤3，将两个卷积神经网络的数据层和损失层合并，用并联的方式对两个网络进行连接；

步骤4，将两个网络的全卷积层输出结果分别反馈到对方网络的前端作为输入的一部分；

步骤5，利用步骤4改进后的网络结构进行训练、得到模型，从而实现对图像中手势的骨架信息和语义分割信息的并行检测。

进一步的，所述步骤4中反馈位置为对方网络某一卷积层的输入处。

进一步的，所述步骤4中将第一卷积神经网络全卷积层输出的骨架检测结果反馈到第二卷积神经网络的第二个卷积层的输入处，与原本的输入合并作为第一卷积神经网络的第二个卷积层新的输入，将第一卷积神经网络的全卷积层输出的语义分割结果反馈到第一卷积神经网络的第二个卷积层的输入处，与原本的输入合并作为第一卷积神经网络的第二个卷积层新的输入。

搭建针对手势检测的深度学习网络结构的系统，包括：

骨架检测单元，用于搭建一个能够对采集的手势图像进行骨架检测的卷积神经网络；

语义分割单元，用于搭建一个能够对采集的手势图像进行语义分割的卷积神经网络；

全卷积层输出交叉反馈单元，用于将两个卷积神经网络的全卷积层输出交叉反馈到对方网络第二个卷积层的输出处，与原有输入合并作为第二个卷积层新的输入。

进一步的，两个卷积神经网络的数据层和损失层合并，两个网络通过并联方式连接。

与现有技术相比，本发明具有如下优点和有益效果：

1.本发明能够只通过一个深度学习网络对手势的骨架信息和语义分割信息进行并行检测，可以同时输出骨架检测和语义分割结果，获得的手势的相关信息较单一的骨架检测和语义分割更加全面。

2.由于本发明将两个单一功能的卷积神经网络结合，利用反馈结构使得取得的检测效果比单一网络的效果更加准确，其语义分割结果相比于单独使用网络2的分割结果更加精确。

3.本发明方法能够在具有多个卷积层的网络上应用，适用范围广。

附图说明

图1为本发明提供的搭建针对手势检测的深度学习网络结构的方法流程图；

图2为本发明中针对手势检测的深度学习网络结构的示意图；

图3是本发明实施例采集的手势图像示意图；

图4是本发明实施例采集的手势图像的骨架检测结果示意图；

图5是本发明实施例采集的手势图像的语义分割结果示意图；

图6是本发明实施例对采集的手势图像的检测结果示意图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明方法流程如图1所示，包括如下步骤：

步骤S110，搭建一个可用于手势的骨架检测的卷积神经网络。

针对已有的手势图像数据集及手势的骨架信息标签搭建一个卷积神经网络(为了叙述方便，在下文中用网络1指代该卷积神经网络)，使其可以通过训练实现针对手势(手势图像如图3所示)的骨架检测，即能够检测手的骨架节点以及将骨架节点按照人体结构连接成骨架，并对不同手指的骨架用不同的颜色进行标注，得到的标注后图像如图4所示。

步骤S120，搭建一个可用于手势的语义分割的卷积神经网络。

针对同样的手势图像数据集及手势的语义分割标签搭建另一个卷积神经网络(为了叙述方便，在下文中用网络2指代该卷积神经网络)，使其可以通过训练实现针对手势的语义分割。

本发明中卷积神经网络采用附图中作为示例使用的VGG16，但实际上对使用的卷积神经网络的具体结构并无特别的限制，只要是具有多个卷积层的网络均可以利用该方法进行改进。

步骤S130，将两个卷积神经网络的数据层和损失层合并，用并联的方式将两个网络进行连接。

因为两个网络使用的数据集相同，因此将其数据层进行合并。同时将其损失层也进行合并。

运用并联结构使得在仅使用一个网络的情况下就能够同时得到骨架检测结果以及语义分割结果的同时，训练以及测试的用时并没有明显增长。

步骤S140，将两个网络的全卷积层输出结果分别反馈到对方网络的前端作为输入的一部分。

将网络1全卷积层输出的骨架检测结果反馈到网络2第二个卷积层的输入处，与原本的输入合并作为网络2第二个卷积层新的输入，即限定手势的语义分割区域应该将所有的骨架节点包含在内，利用骨架检测结果来改善语义分割的效果。

将网络2的全卷积层输出的语义分割结果反馈到网络1第二个卷积层的输入处，与原本的输入合并作为网络1第二个卷积层新的输入，即限定手势的骨架节点应该完全处于手势的语义分割范围内，利用语义分割结果来改善骨架检测的效果。

需要说明的是，两个网络的全卷积层输出的反馈位置包括但不限于第二个卷积层的输入处，根据实际操作中的需求和测试效果可以调整至其他卷积层的输入处。

步骤S150，利用改进后的网络结构进行训练，从而实现对图像中手势的骨架信息和语义分割信息的并行检测。

利用该网络结构进行训练，可以同时得到图像中手势的骨架信息和语义分割信息，如图6所示，且其骨架检测结果相比于单独使用网络1的检测结果更加精确，其语义分割结果相比于单独使用网络2的分割结果更加精确。

基于上述步骤，本发明还提供了搭建针对手势检测的深度学习网络结构的系统，包括：

骨架检测单元，其搭建了一个能够对采集的手势图像进行骨架检测的卷积神经网络；

语义分割单元，其搭建了一个能够对采集的手势图像进行语义分割的卷积神经网络；

全卷积层输出交叉反馈单元，其将两个卷积神经网络的全卷积层输出交叉反馈到对方网络第二个卷积层的输出处，与原有输入合并作为第二个卷积层新的输入。两个卷积神经网络的数据层和损失层合并，用并联的方式将两个网络进行连接。

本领域的技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种搭建针对手势检测的深度学习网络结构的方法，其特征在于，包括如下步骤:

2.根据权利要求1所述的搭建针对手势检测的深度学习网络结构的方法，其特征在于：所述步骤4中反馈位置为对方网络某一卷积层的输入处。

3.根据权利要求3所述的搭建针对手势检测的深度学习网络结构的方法，其特征在于：所述步骤4中将第一卷积神经网络全卷积层输出的骨架检测结果反馈到第二卷积神经网络的第二个卷积层的输入处，与原本的输入合并作为第一卷积神经网络的第二个卷积层新的输入，将第一卷积神经网络的全卷积层输出的语义分割结果反馈到第一卷积神经网络的第二个卷积层的输入处，与原本的输入合并作为第一卷积神经网络的第二个卷积层新的输入。

4.搭建针对手势检测的深度学习网络结构的系统，其特征在于，包括：

5.根据权利要求4所述的搭建针对手势检测的深度学习网络结构的系统，其特征在于，两个卷积神经网络的数据层和损失层合并，两个网络通过并联方式连接。