CN108197580B

CN108197580B - 一种基于3d卷积神经网络的手势识别方法

Info

Publication number: CN108197580B
Application number: CN201810020731.0A
Authority: CN
Inventors: 许骞艺; 秦贵和; 姜慧明; 张钟翰; 晏婕; 刘毅; 袁帅; 秦俊
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2018-01-09
Filing date: 2018-01-09
Publication date: 2019-07-23
Anticipated expiration: 2038-01-09
Also published as: CN108197580A

Abstract

本发明涉及一种基于3d卷积神经网络的手势识别方法，属于手势识别方法。针对深度相机拍摄获取的普通视频和深度视频，进行一系列预处理，在应用预处理的普通处理方法的基础上，针对视频图像存在噪点的问题，采用卷积神经子网与反卷积神经子网相结合的去噪方法，针对视频中存在的时间空间关系，采用3d卷积神经网络进行处理。本发明大幅度提高了手势分类的速率，增强了识别依据的可靠性和结果的合理性。

Description

一种基于3d卷积神经网络的手势识别方法

技术领域

本发明属于手势识别方法。

背景技术

在发展迅速的社会中，人与人的交流不单纯依靠语言交流，当我们遇到语言无法沟通的问题时会本能的选择肢体语言，其中手势作为我们日常生活中人与人交流的重要方式之一，一直可以比较准确地表达我们的医院。手势识别技术作为计算机应用和人工智能领域的研究热点，日益完善，成熟的手势识别技术可以应用于机器人控制、哑语识别、无人驾驶和运动检测等领域。然而，由于手势具有时间和空间上的多样性和不确定性，使手势变成一种复杂的可变形体，因此目前这种人机交互方式理论还不够成熟，技术不够先进，这也就引出一个问题，如何将其应用到实际中仍然是一个富有挑战性的研究课题。另一方面，先进感知与控制技术的不断发展，使得无人驾驶技术日益进步，无人驾驶的应用指日可待。

汽车的发明改变了人类的出行方式，汽车的发展同样也推动着社会的发展。但是，随着汽车保有量的逐年增加，交通问题也越来越严重。交通拥堵与交通事故难以解决，传统的汽车工业面临挑战。近几年随着计算机技术和互联网技术的迅速发展，无人驾驶技术应运而生。从20世纪70年代开始，美国、英国、德国等发达国家开始进行无人驾驶汽车的研究，在可行性和实用化方面都取得了突破性的进展。中国从20世纪80年代开始进行无人驾驶汽车的研究，国防科技大学在1992年成功研制出中国第一辆真正意义上的无人驾驶汽车。传统汽车的交通事故频发，让人不禁担心拥有新的技术的无人驾驶汽车的安全性。据报道，在全球范围内，因为司机注意力分散而导致受伤和死亡的事件层出不穷，2008年在美国，因司机的注意力分散而出现的230万机动车事故中，有22％的人受伤，16％导致死亡。在传统的汽车上，驾驶员通过视觉观察继而手动操作界面，如触觉控制和在汽车屏幕上触摸，会引起严重的分心。在汽车中，基于手势的非触摸式用户界面可以降低视觉效果认知干扰，并能提高安全性和舒适性。最近的主观研究表明基于手势的非触摸式界面在消费者中是受欢迎的。非触摸式用户界面可以为用户的手势特点定制，并且对于未来的司机功能性监测易于扩展，因此在无人驾驶汽车上应用非触摸界面已经是大势所趋，手势识别对于车内设计非接触式界面至关重要。这种界面允许驾驶员在驾驶过程中专注于驾驶本身而不是控制其他控制器，如控制空调，音响等，使用手势识别的非触摸式界面可以极大程度的提高驾驶员的安全度和舒适度，正因如此，手势识别在无人驾驶中起着至关重要的作用。

为了识别手势，会选取不同的特征，有很多算法都用在手势分类器上，比如隐马尔可夫模型，条件随机场和支持向量机，这些算法已经广泛使用。然而，在不同光照下识别不同种类的手势仍然是一个待解决的问题。为了提高识别的准确率，一般无人驾驶车内会配置至少一个3D深度相机，通过深度相机采集视频流信息进行进一步的识别。Ohn-Bar和Trivedi对于车内手势识别使用RGBD数据评估不同的特征和分类器，该算法结合梯度下降特征和支持向量机分类器时表现最佳。Molchanov等人融合来自深度传感器，彩色传感器和雷达传感器的手势联合训练出一个成功的分类结果，成功的在不同光照下取得了一定的识别结果的进步。

传统交互方式中，交互过程中没有更多的交流，只是按照规则执行交互动作。在手势检测与识别技术之上发展而来的手势交互是新兴的交互方式，目前最常见的手势交互主要应用于以音乐和导航为代表的操作中，通过手势对界面中对应操作进行控制。改变传统的触摸屏式和按钮式为主的交互操作模式，增加了新的交互体验，实现人车互动的全新驾驶模式。手势交互方式表达丰富，较大的信息量，人通过不同的手势，可以组合出位置、方位等信息，这符合人们的思维方式。2013年，谷歌公司提交了手势控制汽车技术的专利，这个专利技术能够对驾驶者的手势进行追踪，开车时不必触碰车上的物理按钮就能对汽车上的功能进行控制，驾驶员在车内固定区域做出固定手势来控制空调温度、座椅高低、播放音乐和调整音乐声音。在仍需要驾驶员驾驶汽车的时代，手势识别是非常有用的。手势识别使驾驶员开车时减少分心，驾驶员只需要集中精力做好驾驶工作，提高行驶的安全性即可。美国哈曼公司工程师汉斯洛斯表示：手势来控制汽车就是驾驶员用简单的手势来操控汽车，这样就不会让驾驶员分心，驾驶员只要将手放到传感器前，就能调出菜单，设置目的地或者切换歌曲。一旦手掌收回，系统界面就会自动切换到地图导航状态。手势操作将成为人机交互界面最主要的操作方式有以下原因：

第一、在智能汽车时代，手势操作能够控制全车计算机甚至传统的物理部件。

第二、手势操作会由现在的硬性交互扩展到自然交互的操控方式，到时，可以自定义手势操作，驾驶员根据自己习惯设置不同手势对应命令操作。总之，手势交互方式必须自然，符合人的思维过程。手势操作在无人驾驶时，驾驶员的某些手势对于非触摸式界面有重要意义。

鉴于这些现状我们对一些常见手势给予了定义，以下手势均为驾驶员右手姿势：

1)、左右滑动手势，包括从左到右，从右到左两种手势，代表接挂电话。开车接电话本身就是不安全的行为，低头寻找方向盘中控电话按钮，常按错，不想接的却被接听了起来。但是用手势接听拒绝电话，既不影响开车，又容易操作，一定程度上保证了行车安全。这一手势的图片如图1(a)所示，同时为了方便后面的识别和分类工作，定义这一手势为第一类。

2)、上下翻动手势，包括从上到下，从下到上两种手势，代表调节汽车音乐音量，开车时大多数驾驶员会选择听音乐，换台换歌、调整音量是驾车过程中高频率使用的功能。换台、换歌和调整音量操作繁复，用一个手势调节的话简单易操作。这一手势的图片如图1(b)所示，同时为了方便后面的识别和分类工作，定义这一手势为第二类。

3)、左右点滑手势，包括从左到右，从右到左两种手势，代表静音。开车时如果驾驶员或身边的朋友接电话需要静音的时候，慌乱中容易进行误操作，但是左右点滑就可以简单有效的解决这个问题。这个手势也是人最本能的手势，只要轻微的左右晃动，就可以达到静音的目的，这一手势的图片如图1(c)所示，同时为了方便后面的识别和分类工作，定义这一手势为第三类。

4)、旋转手势，包括顺时针旋转和逆时针旋转两种手势，代表导航回家。现在很多车都带有导航系统，回家是驾驶员的默认设置，当我们回家时，需要通过手机或车载导航设置好导航回家，容易因为分心导致交通事故的发生。现在只要做出这个手势，就可以直接导航回家。这一手势的图片如图1(d)所示，同时为了方便后面的识别和分类工作，定义这一手势为第四类。

发明内容

本发明提供一种基于3d卷积神经网络的手势识别方法，使用深度相机的深度信息和二维信息相结合，利用视频流信息既包含时间信息也包含空间信息的特点，充分利用3d卷积神经网络的网络特点，对手势识别在不同光照下的识别率进行了大幅度的提高。

本发明采取的技术方案是，包括下列步骤：

(一)在不同光照下采集四类手势视频数据

用相机拍摄像素为171×224的灰度与深度视频图像，数据在不同光照下采集，都采集驾驶员右手的手势，其中：第一类手势是左右滑动手势，第二类手势是上下翻动手势，第三类手势是左右点滑手势，第四类手势是旋转手势；

(二)手势视频数据预处理

1)原始手势视频时间长度各不相同，为了统一每个手势视频的时间长度，对视频正则化，使用最近邻插值通过丢弃或重复帧完成重采样的过程，结果为每个手势序列时间长度都是32帧；

2)在空间上，原始视频图像大小为171×224，只取有手势的那一部分、图像的大小为100×100，同时，为了使网络训练时速度更快，使用以2为因子下采样原始彩色的强度图像和深度图像到50×50像素；

3)使用大小为3×3像素Sobel算子在强度通道和深度通道中计算梯度，提高数据集中不同光照条件下的表现的鲁棒性；

4)归一化每一个手势视频的每个通道，使每个通道的值成为零均值和单位方差的；

5)经过以上处理后的图像存在很多噪点，为了最大程度的去除噪点，采用卷积子网与反卷积子网相结合的去噪方法，该方法保证输入图像的大小与输出图像的大小相同，去噪效果良好；

6)最终输入到3d卷积神经网络的特征分类器的是大小为50×50×32的包含交错的图像强度和深度帧的手势视频数据；

(三)手势识别的网络架构

经过手势视频数据预处理后，将视频段作为输入放进3d卷积神经网络架构中，通过一系列的卷积和池化操作完成对视频中的手势特征的分类，通过分类结果判断输入的某一视频属于哪种手势，从而达到手势识别的要求；具体的操作步骤如下：

第1层为卷积层，记作C1层，使用4个大小为5×5×3的卷积核,以步长为1做卷积层；C1层的输入数据为大小50×50×32的视频，输出数据为4个大小为46×46×30的特征图；

第2层为池化层，记作S2层，对C1层的输出做最大池化操作，池化窗口大小为2×2×2，步长为1；S2层的输入数据为大小46×46×30的特征图，输出数据为4个大小为23×23×15的特征图；

第3层为卷积层，记作C3层，使用8个大小为3×3×5的卷积核，以步长为1做卷积层；C3输入的数据为大小23×23×15的特征图,输出数据为8个大小为21×21×11的特征图；

第4层为池化层，记作S4层，对C3层的输出做最大池化操作，池化窗口大小为2×2×2，步长为1；S4层的输入数据为大小21×21×11的特征图，输出数据为8个大小为10×10×5的特征图；

第5层为池化层，记作S5层，对S4层的输出做最大池化操作，池化窗口大小为2×2×1，步长为1；S5层的输入数据为大小10×10×5的特征图，输出数据为8个大小为5×5×5的特征图；

第6层为全连接层，记作FC6层，一个尺寸为800个神经元的特征，每个特征与第5层的所有特征进行全连接；

第7层为softmax层，softmax层的输入为第6层的神经元，通过softmax函数计算，得出的结果为一系列的概率值，这些概率求和为1，每个概率代表给定视频属于特定输出类的概率，如果某一视频得出的概率值中，第一类概率值最高，则这一手势视频对应为左右滑动；如果第二类概率值最高，则这一手势视频对应为上下翻动；如果第三类概率值最高，则这一手势视频对应为左右点滑；如果第四类概率值最高，则这一手势视频对应为旋转。

本发明的优点是：提出一种能够综合去噪算法和分类算法的高精确度的综合性能良好的手势识别算法，采用卷积神经子网与反卷积神经子网相结合的去噪方法，3d卷积神经网络进行处理手势保证识别的精确度。其主要特点有：1)采用卷积神经子网与反卷积神经子网相结合的去噪方法，直接对含噪图像处理，直接输出原来图像大小，不需要做第二次的其他处理，简单高效；2)针对无人驾驶时驾驶员所处环境，战略性的选择四种常用手势作为需要识别的类别，为今后无人驾驶的应用环境提供便利；3)根据深度相机拍摄的视频特点，采用3d卷积神经网络对预处理后的视频进行分类，极大地契合视频特点，同时提高了分类的准确率，提高了合理性和可靠性。

附图说明

图1是手势动作说明图；

图2是3dcnn网络架构图；

图3是去噪的网络架构图。

具体实施方式

包括下列步骤：

(一)在不同光照下采集四类手势视频数据

(二)手势视频数据预处理

2)在空间上，原始视频图像大小为171×224，只取有手势的那一部分、图像的大小为100×100，同时，为了使网络训练时速度更快，使用以2为因子下采样原始彩色的强度图像(彩色图像的强度即RGB三个通道)和深度图像到50×50像素；

3)为了解决不同光照情况下的识别准确率问题，使用大小为3×3像素Sobel算子在强度通道和深度通道中计算梯度，提高数据集中不同光照条件下的表现的鲁棒性；

4)归一化每一个手势视频的每个通道，使每个通道的值成为零均值和单位方差的；这会帮助我们的分类器汇聚的更快；

5)经过以上处理后的图像存在很多噪点，对重新合成视频及后续输入网络的数据会产生影响，为了最大程度的去除噪点，采用卷积子网与反卷积子网相结合的去噪方法，该方法保证输入图像的大小与输出图像的大小相同，不用再进行二次处理，去噪效果良好；

(三)手势识别的网络架构

经过手势视频数据预处理后，我们得到的是多条大小为50×50×32的视频段，为了达到手势是别的目的，将视频段作为输入放进3d卷积神经网络架构中，通过一系列的卷积和池化操作完成对视频中的手势特征的分类，通过分类结果判断输入的某一视频属于哪种手势，从而达到手势识别的要求；具体的操作步骤如下：

下边通过具体实验例来进一步说明本发明。

(一)以下所针对的数据为英飞凌公司生产的pmd Camboard pico flexx相机拍摄的像素为171×224的灰度与深度视频图像，数据在不同光照下采集，都采集驾驶员右手的手势，因为手势视频长度不同，网络架构运算量很大，鉴于以上要求，需要对数据进行预处理，预处理中所有操作，除去噪操作外，全部通过MATLAB实现；

(二)预处理具体实施如下：

1)在时间上，使用最近邻插值通过丢弃或重复帧完成重采样的过程，结果为每个手势视频的时间长度都是32帧。其中最近邻插值方法为，假设想得到的手势视频为60帧，如果原始手势视频为80帧，每隔4帧去掉一帧；如果原始手势为45帧，每隔3帧重复第3帧；

2)在空间上，原始视频图像大小为171×224，为了更好更快的识别特征，取图像的大小为100×100，即只取有手势的那一部分，同时，为了使网络训练时速度更快，我们使用以2为因子下采样原始彩色的强度图像(彩色图像的强度即RGB三个通道)和深度图像到50×50像素；

采样：对于一幅图像I尺寸为M×N，对其进行s倍下采样，即得到(M/s)×(N/s)尺寸的得分辨率图像，如果是矩阵形式的图像，就是把原始图像s×s窗口内的图像变成一个像素，这个像素点的值Q就是窗口内所有像素的均值：

Q＝∑I/s²

3)为了解决不同光照情况下的识别准确率问题，使用大小为3×3像素Sobel算子在灰度通道和深度通道中计算梯度，提取边缘特征；

4)我们归一化每一个手势视频的每个通道，使每个通道的值成为零均值和单位方差的，这种方法将原始数据的均值和标准差进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1，转化函数为：

其中x为随机变量，x^*为标准化的随机变量，μ为所有样本数据的均值，6为所有样本数据的标准差；

5)针对以上处理后的单通道图像，采用卷积子网与反卷积子网相结合的去噪方法，该方法保证输入图像的大小与输出图像的大小相同，不用再进行二次处理，且去噪效果良好；

6)最终输入到3d卷积神经网络的特征分类器的是大小为50×50×32的包含交错的图像灰度和深度帧的视频，将单通道的灰度图像与单通道的深度图像重新合成为三通道的图片，同时，为了避免结果出现误差，第三通道为空；

预处理阶段去噪方法：

Pmd深度相机拍摄得到的图像存在一定的噪声，去噪的目的是从含有被噪声腐蚀的图像中恢复图像的原始信息，该过程可以由下式表示：

g(u,v)＝h(u,v)+η(u,v)

其中，g(u,v)为含有噪声的二维图像；h(u,v)为无噪声的原始图像；η(u,v)为添加的噪声，原始图像经过加性噪声项处理，退化为含噪图像。图像去噪就是为了获得原始图像的一个估计并使其尽可能接近原始图像。去噪卷积神经网络的设计充分考虑网络在含噪图像与去噪图像的关系，即网络实际是一种由含噪图像到去噪图像的非线性映射关系。

本方法构建了一种对称式的卷积神经网络，通过调节卷积的核大小和特征图数量的方式更大程度地学习含噪声图像特征，此外网络加入了反卷积子网，充分整合卷积子网学习到的抽象特征，与卷积子网产生映射，从而使整个网络构成了由含噪图像到去噪图像的非线性映射。

网络架构包括输入层、输出层、卷积子网和反卷积子网。含噪声的二维图像(单通道)从输入层输入，网络隐含层均由特征图组成，网络输入层不限制图像的大小，可以输入任意宽高的图像。输入图像经对称式的隐含层网络，在输出层给出与输入图像同等宽高的二维图像(单通道)。

网络共4层，输入为50×50的单通道二维图像，具体网络架构如下：

第1层为卷积层(记作C1层)使用大小为6×6的卷积核对图像进行卷积操作，为每个特征图添加偏置，包含32幅特征图，需要训练的参数个数为6×6×1×32+32；

第2层为卷积层(记作C2层)使用大小为4×4的卷积核对图像进行卷积操作，增加特征图数量，并与上一层的特征图全连接，卷积操作后形成含有64个特征图的C2层，需要训练的参数个数为4×4×32×64+64；C2层与64个大小为1×1的卷积核进行卷积，对应生成64个特征图，需要训练的参数个数为1×1×64×64+64；

第3层为反卷积层(记作D1层)使用大小为4×4的卷积核对图像进行反卷积操作，该层包含32个特征图，需要训练的参数个数为4×4×64×32+32；

第4层为反卷积层(记作D2层)使用大小为6×6的卷积核对图像进行反卷积操作，将输出特征图大小设置为1，需要训练的参数个数为5×5×32×1+1，此时反卷积输出的结果就是网络输出层输出的大小为50×50的去噪图像。

本方法所提出的网络接受原始图像作为输人，并经过隐含层产生一个完整的图像作为输出，原始图像直接输入网络避免了复杂耗时的图像预处理过程，输出层输出的是去噪后的图像，该图像与原始图像大小一致，从而减少了以片段形式输出所需要的拼接工作。同时，使用不同大小的卷积核构造了一种对称式的网络结构，可以有效地共享权值，同时做到图像到图像的非线性映射。

卷积层的计算形式为：

反卷积层：卷积层的作用是在噪声图像中学习噪声特征并经卷积核生成多幅特征图，这些特征在识别和分类中是至关重要的，但是过多的抽象特征往往难以整合，这会影响以整个图像作为输出的神经网络的去噪效果。而反卷积层的目的就是通过特征图获取去噪的输出图像，本方法中的反卷积实际上是卷积的逆过程。卷积通过一个过滤器窗口将含有多个激活单元的区域连接到一个激活单元，而反卷积则是将一个激活单元连接到多个输出单元。经过学习的反卷积核能够在卷积层输出的特征图中重建原始图像。多层的反卷积神经网络能够从不同的特征图中获取更多的图像细节，从而更好地恢复图像。

(三)手势分类阶段网络架构：

第1层为卷积层(记作C1层),使用4个大小为5×5×3的卷积核,以步长为1做卷积层；C1层的输入数据为大小50×50×32的视频,输出数据为4个大小为46×46×30的特征图；

第2层为池化层(记作S2层)对C1层的输出做最大池化操作，池化窗口大小为2×2×2，步长为1；S2层的输入数据为大小46×46×30的特征图,输出数据为4个大小为23×23×15的特征图；

第3层为卷积层(记作C3层),使用8个大小为3×3×5的卷积核,以步长为1做卷积层；C3输入的数据为大小23×23×15的特征图,输出数据为8个大小为21×21×11的特征图；

第4层为池化层(记作S4层)对C3层的输出做最大池化操作，池化窗口大小为2×2×2，步长为1；S4层的输入数据为大小21×21×11的特征图,输出数据为8个大小为10×10×5的特征图；

第5层为池化层(记作S5层)对S4层的输出做最大池化操作，池化窗口大小为2×2×1，步长为1；S5层的输入数据为大小10×10×5的特征图,输出数据为8个大小为5×5×5的特征图；

第6层为全连接层(记作FC6层)，一个尺寸为800个神经元的特征,每个特征与第5层的所有特征进行全连接；

第7层为softmax层，softmax层的输入为第6层的神经元，通过softmax函数计算，得出的结果为一系列的概率值，如：某一视频段得出四类的概率分别为(从左到右依次对应第一类，第二类，第三类，第四类)，0.1,0.3,0.4,0.2，这些概率求和为1，每个概率代表给定视频属于特定输出类的概率，本例子中第三类的概率最高，所以我们认为这个视频段对应第三类。因此，如果某一视频得出的概率值中，第一类概率值最高，则这一手势视频对应为左右滑动；如果第二类概率值最高，则这一手势视频对应为上下翻动；如果第三类概率值最高，则这一手势视频对应为左右点滑；如果第四类概率值最高，则这一手势视频对应为左右旋转。

网络由7层组成，其中全连接层的输出有800个神经元，网络的输出层是softmax层，产生类成员可能性为4个手势类，所有网络中的层，除了softmax层，都是用Leaky ReLU激活函数：

f(z)＝αz,(z<0)

f(z)＝z,(z≥0)

其中z为神经元个数，α为一个很小的常数，f(z)为Leaky ReLU激活函数值。

计算输出的softmax层为：

其中O_q是神经元q的输出，O_c是输入神经元c的输出；

为了初始化卷积层权重，从均一分布[-w_b,w_b]中使用随机样本，其中其中n_i和n_o分别是输入和输出神经元的数量，我们从正态分布N(0,0.01)的随机样本初始化全连接隐层和softmax层的权重，所有层的偏置，除了softmax层，都是用值1初始化，为了得到一个非零偏导数，Softmax层偏置设置为0。

训练时选择负对数似然作为损失函数：

其中D为数据集，k为任意数；

3d卷积神经网络分类器包含的网络中的参数个数为w，当给出手势m时要判断是类C时需要计算是类C的可能性：

P(C|m)＝P(C|m,w)

同时计算预测类标签C^*＝argmaxP(C|m)，则类C对应类标签；

本发明充分利用pmd深度相机所获取的深度视频和普通视频信息，同时利用两种手势信息，通过对手势信息进行一系列的预处理，将预处理后的包含两种信息的视频输入到构建好的3d卷积神经网络中，通过一系列卷积和池化等操作，提取手势特征，实现手势的分类，从而达到手势识别的目的。

Claims

1.一种基于3d卷积神经网络的手势识别方法，其特征在于，包括下列步骤：

(一)在不同光照下采集四类手势视频数据

(二)手势视频数据预处理

4)归一化每一个手势视频的每个通道，使每个通道的值成为零均值和单位方差的；经过处理的数据符合标准正态分布，即均值为0，标准差为1，转化函数为：

(三)手势识别的网络架构

第1层为卷积层，记作C1层，使用4个大小为5×5×3的卷积核，以步长为1做卷积层；C1层的输入数据为大小50×50×32的视频，输出数据为4个大小为46×46×30的特征图；