CN106951089A

CN106951089A - 手势交互方法及系统

Info

Publication number: CN106951089A
Application number: CN201710191885.1A
Authority: CN
Inventors: 肖志勇
Original assignee: Shenzhen Shidai Technology Co Ltd
Current assignee: Shenzhen Shidai Technology Co Ltd
Priority date: 2017-03-28
Filing date: 2017-03-28
Publication date: 2017-07-14

Abstract

本发明提供了一种手势交互方法及系统，涉及图像处理的技术领域，其中，一种手势交互方法，包括以下步骤：实时采集手势的三维图像；对三维图像进行预处理得到预处理后的三维图像；对预处理后的三维图像进行边缘提取和二值化生成边缘矩阵和二值矩阵；对边缘矩阵进行目标封闭区域填充，并将目标封闭区域填充后的边缘矩阵与二值矩阵进行与计算，生成修正二值矩阵；修正二值矩阵经深度卷积神经网络处理输出交互向量；交互类状态机根据输出交互向量进行状态更新；判断更新后的状态有无设定的改变，若无则直接结束交互；若有则触发交互动作，并结束交互。解决了现有技术的手势交互方法均存在实时性不够理想的问题，达到了提高手势交互实时性的技术效果。

Description

手势交互方法及系统

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种手势交互方法及系统。

背景技术

部分现有的游戏设备(如xbox、Kinect等产品)实现了手势交互操作。现有的实时手势交互基于模式识别或运动检测模拟简单的交互操作。

当前流行的手势识别算法有以下三种:

(1)基于模式匹配的手势识别。将手势的区域特征用作待识别的特征，使用预设环境参数对目标进行仿射变换后匹配预设模板。该方法有较强稳定性，但识别不够灵活，容错度很低，实时性能较低，当遇到变异的目标时表现得无能为力。

(2)基于隐马尔可夫模型(HMM)的手势识别。用于动态手势识别能够较好的地描述手势的时空变化，但其算法时间复杂度较大，效率低下，不能很好地满足实时交互的需求。

(3)基于人工神经网络的手势识别。计算速度更快，鲁棒性和泛化能力都比较有优势，但由于其对时间序列的处理能力不强，对于动态手势的识别效果不佳。

综上所述，现有技术的手势交互方法均存在实时性不够理想的问题。

发明内容

有鉴于此，本发明的目的在于提供一种手势交互方法及系统，以解决现有技术的授时交互方法存在的实时性不理想的技术问题。

第一方面，本发明实施例提供了手势交互方法，其特征在于，包括以下步骤：

实时采集手势的三维图像；

对三维图像进行预处理，得到预处理后的三维图像；

对预处理后的三维图像进行边缘提取和二值化，生成边缘矩阵和二值矩阵；

对边缘矩阵进行目标封闭区域填充，并将目标封闭区域填充后的边缘矩阵与二值矩阵进行与计算，生成修正二值矩阵；

修正二值矩阵经深度卷积神经网络处理输出交互向量；

交互类状态机根据输出交互向量进行状态更新；

判断更新后的状态有无设定的改变，若无，则直接结束交互；若有，则触发交互动作，并结束交互。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，修正二值矩阵经深度卷积神经网络处理输出交互向量，具体为：

步骤1.对修正二值矩阵进行卷积和下采样；

步骤2.判断卷积和下采样的次数是否大于设定次数，若是，则执行步骤3，若否，执行步骤1；

步骤3.将卷积和下采样后的卷积向量进行全连接计算，并输出交互向量。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，对修正二值矩阵进行卷积和下采样，具体为：

将修正二值矩阵作为卷积神经网络的输入值进行卷积得到特征矩阵：

其中，f为激活函数，所述激活函数为tanh、Sigmoid或ReLU，k为权值，b为偏置；

对特征矩阵进行下采样，具体如下：

其中，d为采样函数。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，全连接计算通过反向传播算法调整权值。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，预处理方法为快速傅里叶变换、局部自适应阈值算法和形态学中的一种或多种，且形态学预处理方法优选膨胀和腐蚀。

结合第一方面及其上述实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，深度卷积神经网络为决策树融合深度卷积神经网络。

第二方面，本发明实施例还提供一种手势交互系统，包括：

图像采集模块，用于实时采集手势的三维图像；

预处理模块，用于对三维图像进行预处理，得到预处理后的三维图像；

图像分割模块，用于对预处理后的三维图像进行边缘提取和二值化，生成边缘矩阵和二值矩阵；

修正模块，用于对边缘矩阵进行目标封闭区域填充，并将目标封闭区域填充后的边缘矩阵与二值矩阵进行与计算，生成修正二值矩阵；

深度卷积神经网络模块，用于使修正二值矩阵经深度卷积神经网络处理输出交互向量；

交互类状态机模块，用于根据输出交互向量进行状态更新；

判断模块，用于判断更新后的状态有无设定的改变，若有，则触发交互动作，并结束交互；若无，则直接结束交互。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，深度卷积神经网络模块包括卷积和下采样单元、判断单元和全连接计算单元；

卷积和下采样单元用于对修正二值矩阵进行卷积和下采样；

判断单元用于判断卷积和下采样的次数是否大于设定次数，若否，则通过卷积和下采样单元继续对修正二值矩阵进行卷积和下采样；若是，则通过全连接计算单元将卷积和下采样后的卷积向量进行全连接计算，并输出交互向量。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，卷积和下采样单元包括卷积子单元和下采样子单元；

卷积子单元用于将修正二值矩阵作为卷积神经网络的输入值进行卷积得到特征矩阵，如下：

其中，f为激活函数，激活函数为tanh、Sigmoid或ReLU，k为权值，b为偏置；

下采样子单元用于对特征矩阵进行所述下采样，如下：

其中，d为采样函数。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中，全连接计算单元通过反向传播算法调整权值。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种手势交互方法，对实时采集的手势三维图像进行预处理，得到预处理后的三维图像；对预处理后的三维图像进行边缘提取和二值化，生成边缘矩阵和二值矩阵；对边缘矩阵进行目标封闭区域填充，并将目标封闭区域填充后的边缘矩阵与二值矩阵进行与计算，生成修正二值矩阵；修正二值矩阵经深度卷积神经网络处理输出交互向量，且修正二值矩阵大量的点为0值，大大降低了数据计算的复杂度，进而降低了运算时间；交互类状态机根据输出交互向量进行状态更新，然后判断更新后的状态是否有设定的改变，并根据判断结果执行相应的动作，深度卷积神经网络通过其高分类水平提高了交互类状态机状态更新的准确性，降低了算法的时间复杂度，实现了不需要太高的硬件配置即可实现实时手势交互的目标。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的手势交互方法的流程图；

图2为本发明实施例提供的深度卷积神经网络的流程图；

图3为本发明实施例提供的手势交互系统的示意图；

图4为本发明实施例提供的深度卷积神经网络模块的示意图。

图标：100-图像采集模块；101-预处理模块；102-图像分割模块；103-修正模块；104-深度卷积神经网络模块；1041-卷积和下采样单元；1042-判断单元；1043-全连接计算单元；105-交互类状态机模块；106-判断模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前的手势交互方法存在实时性不理想的问题，基于此，本发明实施例提供了一种手势交互方法及系统，实现手势交互的实时性。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种手势交互方法。

实施例1：

如图1所示，本发明实施例提供了一种手势交互方法，具体步骤如下：

S100.实时采集手势的三维图像

通过摄像头实时采集手势的动态三维图像。

S101.对三维图像进行预处理，得到预处理后的三维图像

对所采集的三维图像进行预处理，本实施例中的预处理方法优选为快速傅里叶变换、局部自适应阈值算法和形态学中的一种或多种，且形态学预处理方法优选为膨胀和腐蚀。通过快速傅里叶变换消除噪音，通过局部自适应阈值算法进行二值化，消除光照影响，通过膨胀腐蚀等形态学操作突出图像中感兴趣部分。

S102.对预处理后的三维图像进行边缘提取和二值化，生成边缘矩阵和二值矩阵

生成预处理后的三维图像的二值矩阵，并优选通过Candy算法提取预处理后的三维图像的边缘矩阵。

S103.对边缘矩阵进行目标封闭区域填充，并将目标封闭区域填充后的边缘矩阵与二值矩阵进行与计算，生成修正二值矩阵

对边缘矩阵进行目标封闭区域填充，将目标封闭区域填充后的边缘矩阵与二值矩阵做与运算，得到轮廓及目标团块矩阵，即修正二值矩阵。

S104.修正二值矩阵经深度卷积神经网络处理输出交互向量

如图2所示，本实施例中的深度卷积神经网络的具体实施步骤优选如下：

S1041.对修正二值矩阵进行卷积和下采样。

将修正二值矩阵输入以下卷积公式进行卷积操作：

其中，f为激活函数，激活函数优选为tanh、Sigmoid或ReLU，k为权值，b为偏置。本步骤通过卷积操作提取特征矩阵。

由于二值矩阵大量的点为0值，采用修正二值矩阵作为卷积的输入可大大简化计算，一次卷积完成得到的结果矩阵即为上层的特征矩阵。

对特征矩阵通过以下公式进行下采样：

其中，d为采样函数。

S1042.判断卷积和下采样的次数是否大于设定次数，若否，则执行步骤S1041；若是，则执行步骤S1043。

卷积和下采样的设定次数可以根据实际需求进行设定，本实施例中卷积和下采样的次数为2-5次，优选为3次，卷积-下采样这个过程迭代次数为3时可减少步骤S1043中全连接的计算量，并且可避免由于特征提取过多导致的过拟合，增强了网络结构处理位移问题时的鲁棒性。

S1043.将卷积和下采样后的卷积向量进行全连接计算，并输出交互向量

本步骤优选仅有一层为全连接层，且优选仅在全连接层通过反向传播算法更新权值，既避免了反向传播算法在针对复杂目标函数时时间复杂度较高，又达到了训练权值和提高整体效率的效果。

S105.交互类状态机根据所述输出交互向量进行状态更新

预先定义状态机不同状态所对应的交互方式，比如：触摸、点击、长按、多点交互等系列动作。将深度卷积神经网络输出的交互向量输入至交互类状态机，交互类状态机根据交互向量的变化进行状态更新。

S106.判断更新交互类状态机的向量是否有设定的改变，若有则触发交互动作，并结束交互；若否，则直接结束交互

判断更新交互类状态机的状态有无出现预先设定的某种改变，若有则触发预先设定的与此种改变相应的交互动作，动作触发后结束此次交互判断，若没有出现预先设定的某种改变，则判定手势没有有效的动作改变，直接结束此次交互判断。

本实施例对实时采集的手势三维图像进行预处理，得到预处理后的三维图像；对预处理后的三维图像进行边缘提取和二值化，生成边缘矩阵和二值矩阵；对边缘矩阵进行目标封闭区域填充，并将目标封闭区域填充后的边缘矩阵与二值矩阵进行与计算，生成修正二值矩阵；修正二值矩阵经深度卷积神经网络处理输出交互向量，且修正二值矩阵大量的点为0值，大大降低了数据计算的复杂度，进而降低了运算时间；交互类状态机根据输出交互向量进行状态更新，然后判断更新后的状态是否有设定的改变，并根据判断结果执行相应的动作，深度卷积神经网络通过其高分类水平提高了交互类状态机状态更新的准确性，降低了算法的时间复杂度，实现了不需要太高的硬件配置即可实现实时手势交互的目标。

作为本实施例的另一种实施方式，本实施例中的深度卷积神经网络优选为决策树融合深度卷积神经网络，融合方法为：将深度卷积神经网络的隐含层与全连接层设为树状结构，下层为上层的分支之一，并将分支发送给不同的节点，因此下层数据是基于上层数据的子集，大大降低了数据的计算量，其中路由输出使用Softmax归一后的概率来决定数据应发送给哪个子节点。此过程可在GPU上执行并行计算，加快处理速度。

实施例2：

如图3所示，本实施例提供了一种交互装置，包括图像采集模块100、预处理模块101、图像分割模块102、修正模块103、深度卷积神经网络模块104、交互类状态机模块105和判断模块106，图像采集模块100用于实时采集手势的三维图像；预处理模块101用于对三维图像进行预处理，得到预处理后的三维图像；图像分割模块102用于对预处理后的三维图像进行边缘提取和二值化，生成边缘矩阵和二值矩阵；修正模块103用于对边缘矩阵进行目标封闭区域填充，并将目标封闭区域填充后的边缘矩阵与二值矩阵进行与计算，生成修正二值矩阵；深度卷积神经网络模块104用于使修正二值矩阵经深度卷积神经网络处理输出交互向量；交互类状态机模块105用于根据输出交互向量进行状态更新；判断模块106用于判断更新后的状态有无设定的改变，若有，则触发交互动作，并结束交互；若无，则直接结束交互。

本发明实施例中的修正二值矩阵大量的点为0值，大大降低了数据计算的复杂度，进而降低了运算时间；降低了算法的时间复杂度，实现了不需要太高的硬件配置即可实现实时手势交互的目标，深度卷积神经网络提高了交互类状态机状态更新的准确率。

如图4所示，作为本实施例的一种优选实施方式，本实施例中的深度卷积神经网络模块包括卷积和下采样单元1041、判断单元1042和全连接计算单元1043；卷积和下采样单元1041用于对修正二值矩阵进行卷积和下采样；判断单元1042用于判断卷积和下采样的次数是否大于设定次数；若否，则通过卷积和下采样单元1041继续进行卷积和下采样；若是，则通过全连接计算单元1043将卷积和下采样后的卷积向量进行全连接计算，并输出交互向量。

优选地，卷积和下采样单元1041包括卷积子单元和下采样子单元；卷积子单元用于将修正二值矩阵作为卷积神经网络的输入值进行卷积得到特征矩阵，如下：

下采样子单元用于对特征矩阵进行下采样，如下：

其中，d为采样函数。

此外，深度卷积神经模块优选仅包括一层全连接层，且该全连接计算单元1043优选通过反向传播算法调整权值，既避免了反向传播算法在针对复杂目标函数时时间复杂度较大的问题，又达到了训练权值和提高整体效率的效果。

本发明实施例提供的手势交互系统，与上述实施例提供的手势交互方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本发明实施例所提供的手势交互方法及系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种手势交互方法，其特征在于，包括以下步骤：

实时采集手势的三维图像；

对所述三维图像进行预处理，得到预处理后的三维图像；

对所述预处理后的三维图像进行边缘提取和二值化，生成边缘矩阵和二值矩阵；

对所述边缘矩阵进行目标封闭区域填充，并将目标封闭区域填充后的所述边缘矩阵与所述二值矩阵进行与计算，生成修正二值矩阵；

所述修正二值矩阵经深度卷积神经网络处理输出交互向量；

交互类状态机根据所述输出交互向量进行状态更新；

2.根据权利要求1所述的方法，其特征在于，所述修正二值矩阵经深度卷积神经网络处理输出交互向量，具体为：

步骤1.对所述修正二值矩阵进行卷积和下采样；

步骤2.判断所述卷积和下采样的次数是否大于设定次数，若是，则执行步骤3，若否，执行步骤1；

步骤3.将所述卷积和下采样后的卷积向量进行全连接计算，并输出交互向量。

3.根据权利要求2所述的方法，其特征在于，所述对所述修正二值矩阵进行卷积和下采样，具体为：

将所述修正二值矩阵作为深度卷积神经网络的输入值进行卷积得到特征矩阵：

x_{j}^{i} = f (\underset{i &Element; M}{Σ} x_{i}^{i - 1} \times k_{i j}^{i} + b_{j}^{i})

对所述特征矩阵进行下采样，具体如下：

x_{j}^{i} = d (x_{j}^{i - 1})

其中，d为采样函数。

4.根据权利要求2所述的方法，其特征在于，所述全连接计算通过反向传播算法调整权值。

5.根据权利要求1所述的方法，其特征在于，所述预处理方法为快速傅里叶变换、局部自适应阈值算法和形态学中的一种或多种。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述深度卷积神经网络为决策树融合深度卷积神经网络。

7.一种手势交互系统，其特征在于，包括：

图像采集模块，用于实时采集手势的三维图像；

预处理模块，用于对所述三维图像进行预处理，得到预处理后的三维图像；

图像分割模块，用于对所述预处理后的三维图像进行边缘提取和二值化，生成边缘矩阵和二值矩阵；

修正模块，用于对所述边缘矩阵进行目标封闭区域填充，并将目标封闭区域填充后的所述边缘矩阵与所述二值矩阵进行与计算，生成修正二值矩阵；

深度卷积神经网络模块，用于使所述修正二值矩阵经深度卷积神经网络处理输出交互向量；

交互类状态机模块，用于根据所述输出交互向量进行状态更新；

8.根据权利要求7所述的装置，其特征在于，所述深度卷积神经网络模块包括卷积和下采样单元、判断单元和全连接计算单元；

所述卷积和下采样单元用于对所述修正二值矩阵进行卷积和下采样；

所述判断单元用于判断所述卷积和下采样的次数是否大于设定次数，若否，则通过所述卷积和下采样单元继续对所述修正二值矩阵进行所述卷积和下采样；若是，则通过全连接计算单元将所述卷积和下采样后的卷积向量进行全连接计算，并输出交互向量。

9.根据权利要求8所述的装置，其特征在于，所述卷积和下采样单元包括卷积子单元和下采样子单元；

所述卷积子单元用于将所述修正二值矩阵作为卷积神经网络的输入值进行卷积得到特征矩阵，如下：

x_{j}^{i} = f (\underset{i &Element; M}{Σ} x_{i}^{i - 1} \times k_{i j}^{i} + b_{j}^{i})

所述下采样子单元用于对所述特征矩阵进行所述下采样，如下：

x_{j}^{i} = d (x_{j}^{i - 1})

其中，d为采样函数。

10.根据权利要求8或9所述的装置，其特征在于，所述全连接计算单元通过反向传播算法调整权值。