CN110888536A

CN110888536A - 基于mems激光扫描的手指交互识别系统

Info

Publication number: CN110888536A
Application number: CN201911271673.XA
Authority: CN
Inventors: 王立军; 李争平; 于霄洋
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-03-17
Anticipated expiration: 2039-12-12
Also published as: CN110888536B

Abstract

本发明提供了一种基于MEMS激光扫描的手指交互识别系统，包括：激光光源模块，用于发射RGB三色激光；振镜模块，用于接收激光光源模块发射的激光，逐行扫描出投影画面；激光接收模块，用于接收激光成像时反射的激光；深度图像获取模块，用于基于TOF算法，得到与投影画面大小一样的深度图像；指尖检测模块，用深度学习算法得出指尖的位置和深度；手部图像分割模块，用于将手部图像从深度图像中分割出来；确定人手指尖位置；手指动作识别模块，用于基于神经网络和支持向量机分类器进行手指动作识别；手指交互模块，基于确定指尖位置，操控投影画面内容改变。本发明体积小，可手持操作，方便携带；可以实现准确地指尖定位、手势识别，并可通过人手实时操控投影内容。

Description

基于MEMS激光扫描的手指交互识别系统

技术领域

本发明属于交换式投影技术领域，具体涉及一种基于MEMS激光扫描的手指交互识别系统。

背景技术

现有的交互式投影系统大致分为两类，工业级别和家用级别。工业级别的投影因需要较高的分辨率和较高的清晰度，其体积和重量非常高，且需要搭配用于交互的摄像头及适合投影的幕布，该系统只能固定在房间中某一位置，不支持随时随地的移动。

家用级别的投影系统体积适中，大多数不具有手势交互等功能，少数具有交互功能的投影系统也存在体积过大、交互内容简单、清晰度不足等问题。

现有技术中的投影系统启动前都需要调焦或自动校正等繁琐操作，且功耗很大、散热严重；激光测距功能需要配备马达、多棱镜等装置，导致体积过大、功耗较高；人手投影画面点击操作并不严谨，其通过对指尖的深度检测，判断指尖是否进行了点击操作，由于人手的微小动作不能够很好的捕捉，导致经常误操作。

发明内容

本发明的目的是提供一种基于MEMS激光扫描的手指交互识别系统，在不降低投影清晰度的同时，减小交互式投影系统体积、重量，使之更加便于携带，免去投影调焦的时间、投影所需幕布，并减少投影功耗。

本发明提供了一种基于MEMS激光扫描的手指交互识别系统，包括：

激光光源模块，用于发射RGB三色激光；

MEMS(Micro-Electro-Mechanical System)振镜模块，用于接收激光光源模块发射的激光，逐行扫描出投影画面；

激光接收模块，用于接收激光成像时反射的激光；

深度图像获取模块，用于基于TOF(Time of flight)算法，得到与投影画面大小一样的深度图像；

指尖检测模块，用YOLOv3的深度学习算法计算得出指尖的位置和深度，确定人手的指尖位置；

手部图像分割模块，用于将手部图像从深度图像中分割出来；

手指动作识别模块，手指动作识别模块，用于基于3D CNN神经网络和支持向量机(SVM)分类器来进行手指动作识别；

手指交互模块，基于确定的人手的指尖位置，操控投影画面内容改变。

进一步地，所述手部图像分割模块具体用于：

对输入的深度图像进行高斯滤波，以减小噪声对后续图像处理带来的干扰；

使用椭圆肤色模型对深度图像进行肤色检测，得到所有的类肤色区域；

使用平均背景模型对深度图像进行进一步的检测，将类肤色背景区域从前景中排除掉，提取出准确的手部前景；

对前景分割的结果进行图像形态学处理，消除前景区域中的空洞和断点，进一步地优化前景分割的效果。

进一步地，所述指尖检测模块具体用于：

位置信息检测：

采用YOLOv3的深度学习算法，将带有手部、指尖信息的图片进行指尖位置的标注，后将标注好的图片放入YOLOv3深度学习网络进行学习。

后生成对应的指尖检测模型。将模型进行测试，将未学习的手部、指尖图片放入模型进行指尖和手部的位置检测，并进行识别率的检测；深度信息检测：

指尖位置跟踪：

上一步可检测到指尖的位置，将指尖的位置进行标定，标定的位置就为指尖点。实时的对多帧的指尖进行检测，便可跟踪指尖的运动，实现指尖的位置跟踪。

深度信息检测：

基于投影中各个点到投影的距离，测得背景各个点距离投影的距离；

对比指尖距离镜头的距离，预设阈值，当指尖距离镜头和背景板距离镜头的距离差小于该阈值并且时间超过3秒时，判定指尖与投影内容有接触。

进一步地，所述手指动作识别模块采用基于3D CNN神经网络和支持向量机(SVM)分类器来进行手指动作识别。

进一步地，该系统还包括：

校准模块，用于通过手指依次点击基于透视变换在画面内容四个角形成的四个点，分别测到指尖位置形成捕捉点，基于捕捉点和投影内容点之间的对应关系计算透视变换，完成投影手势的校准。

与现有技术相比本发明的有益效果是：

该手指交换识别系统体积较小，可以手持操作，方便携带、可移动；投影可以实现准确地指尖定位、手势识别，并可通过人手实时的操控投影内容；基于MEMS激光扫描，免去了调焦的操作；可以投射在很多地方，无需添加幕布。

附图说明

图1是本发明基于MEMS激光扫描的手指交互识别系统的工作流程图；

图2是本发明的激光发射原理图。

图3为本发明的结构示意图；

图4为本发明得到的深度图；

图5为本发明手部动作识别流程图；

图6为本发明手部分割流程图；

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

本实施例提供了一种基于MEMS激光扫描的手指交互识别系统，包括：

激光光源模块，用于发射RGB三色激光；

MEMS振镜模块，用于接收激光光源模块发射的激光，逐行扫描出投影画面；

激光接收模块，用于接收激光成像时反射的激光；

深度图像获取模块，用于基于TOF算法，得到与投影画面大小一样的深度图像；

手指动作识别模块，用于基于3D CNN神经网络和支持向量机(SVM)分类器来进行手指动作识别；

参图1至图6所示，下面对本发明作进一步详细说明。

本发明系统包括激光光源模块、MEMS微光反射镜模块(MEMS微镜)激光接收模块。激光光源模块包括激光二极管驱动器(激光器)、激光二级管、小尺寸的光束整合器，激光二极管驱动器用于驱动激光二极管发射出高强度的红、绿、蓝(RGB)三色激光，再通过光束整合器将三束光合成一束。当需要显示某种颜色的单个像素时，系统中的激光器会打开。若由于图像内容而不需使用三个激光器中的某一个时，可将其关闭，从而最大程度地减小功耗。

MEMS微镜的运动方式包括平动和扭转两种机械运动。对于扭转MEMS微镜，当其光学偏转角度较大(达到10°以上)，主要功能是实现激光的指向偏转、图形化扫描。图像扫描时，可被称为“MEMS扫描镜”，以区别于较小偏转角度的扭转MEMS微镜。激光成像时，当发射光接触到物体后会发生反射，这时候就需要激光接收模块来接收刚刚返回的激光。所以可以计算激光发射和接收的时间差，通过时间差可以计算投影和障碍物之间的距离。再通过距离的计算得到当前画面的深度图像。投影与障碍物的距离可以通过TOF等算法计算，实现投影和手势的交互。

2、MEMS振镜模块

微电子机械系统技术(MEMS)的设备小型化。微镜是一种应用广泛的光学MEMS器件，如激光投影、光通信、光探测测距、医学成像检测等。其驱动方法主要分为四类：静电驱动、电磁驱动、电热驱动、压电驱动。本发明采用电磁驱动方式。电磁驱动为电流驱动，驱动电压低，无需升压芯片。此外，电磁驱动具有扭转角度大、可以实现电流型线性驱动的技术优势。在MEMS镜组件工作时，只要给MEMS线圈施加一个电流，就能在常平架上产生一个磁力扭矩，并沿旋转轴的两个方向产生分量。扭矩的两个分量分别负责常平架围绕挠曲悬架旋转和扫描镜谐振模式振动，通过水平和垂直波的简单叠加，从而使得MEMS镜面产生双轴转动。红、蓝和绿色激光二极管和IR与MEMS扫描镜集成在一起形成一个紧凑的彩色显示引擎。其中，扫描镜系统在设计中使用了MEMS和小型激光器。

该系统可以产生720P、1280×720的图形显示分辨率，亮度可达35lm，在1.1m的投影距离上可以形成对角线尺寸约为1m的图像。因此这种设计具有功耗低和体积小的特点。使用激光光源的另外一个优势是，图像在任何投影距离点都处于聚焦状态，不需要任何调整。使用激光光源还能给显示器提供很宽的色域，产生鲜艳生动的颜色。

3、基于TOF算法的手势交互

TOF,即time of flight也就是飞行时间。TOF的原理与他的名称对应，即，测量光在空间中飞行的时间，通过换算成距离，就可以测得摄像头与物体的距离。通常，TOF算法需要组成有一个激光发射模块，一个接收模块。发射模块可以是激光发射元件，它将发射激光照射在物体上，激光经过反射后，由接收模块接收。TOF算法可以计算发射和接收的相位差，通过换算得到深度值，即摄像头与物体的深度距离。

本发明采用MEMS激光投影的激光做距离测量的发射激光，通过MEMS微振镜的引入可以减少激光器和探测器数量，极大地降低成本。传统的机械式激光测距功能要实现多少线束，就需要多少组发射模块与接收模块。而采用二维MEMS微振镜，仅需要一束激光光源，通过一面MEMS微振镜来反射激光器的光束，两者采用微秒级的频率协同工作，通过探测器接收后达到对目标物体进行3D扫描的目的。本发明需要的探测的激光范围不是一个点，它是一个面，所以接收模块变成了点阵的光敏传感器。在传感器前面、和发射二极管前面多了光学镜片，是为了滤除激光外的光线，就是说要保证进入传感器的光线只是MEMS投影发射的激光，这样才能保证测量的准确度。

因为相位差即代表物体的与摄像头的距离即深度，由于每个点的相位差不同，所以能通过各个点的相位差组成有关物体整幅深度图像。

4、指尖信息检测

通过VOLOv3算法可以检测图像中手部位置的存在，后要对手部前景区域进行指尖信息的检测，计算出指尖的位置和深度，作为后面进行键盘逻辑判断的输入信息。指尖检测在基于机器视觉的人机交互领域是一个关键问题。对于绝大多数用户的操作习惯来说，指尖的位置往往最能够代表用户的输入意图，比如按下按键、手写输入等，所以我们需要获得用户指尖的位置信息和深度信息，其中位置信息用于判断当前指尖在键盘上所处的按键区域，深度信息则用于判断当前指尖是否已按下，这二者结合可以完整地描述用户指尖敲击键盘按键的状态。

(1)位置信息检测

后生成对应的指尖检测模型。将模型进行测试，将未学习的手部、指尖图片放入模型进行指尖和手部的位置检测，并进行识别率的检测；

指尖位置跟踪：

深度信息检测：

5、手部图像的分割

在检测到深度图像中的手部区域后，需要将手从背景图中分割出来。

首先对输入图像进行预处理(膨胀腐蚀、二值化等操作)在进行高斯滤波，减小噪声对后续图像处理带来的干扰；接着，使用椭圆肤色模型对图像进行肤色检测，得到所有的类肤色区域；然后，使用平均背景模型对图像进行进一步的检测，将类肤色背景区域从前景中排除掉，从而提取出准确的手部前景；最后，对前景分割的结果进行图像形态学处理，消除前景区域中的空洞和断点，进一步地优化前景分割的效果。

6、手部的动作识别

采集到深度信息的手部动作视频后，一般的CNN由于其中全连接层的限制，都要求输入数据具有相同的大小。因此我们首先需要对数据进行归一化处理，即统一的帧数，各帧相同的宽和高。

为了便于处理，我们选择32作为视频的基准帧数，将所有视频统一至32帧。需要提取的特征关注的手势是在深度信息视频中,所以本文用3D CNN模型来实现视频手势特征的提取。与二维的CNN相比,三维的CNN针对视频帧序列图像集合,并不仅仅是把视频划分成为帧集合,再用多通道输出到多个图像,而是将卷积核应用到时域,时空域的卷积核特性相互结合,更好地获取视频的特征。

神经网络的方法是通过人工神经元节点模拟大脑神经元节点的方式，当前层是通过权重与前一层与后一层的神经元节点连接，权重的大小即为其在网络所占比例的大小。对于每个网络的训练过程，就是用训练数据集不断训练网络中的权重的值，使其能都对数据集中得数据达到最优的识别效果。在识别下个样本时，通过隐藏层后有一个对应的预测值，该值对应标签中的一类。

本发明使用3D CNN神经网络和支持向量机(SVM)分类器来进行手指动作识别。

3D CNN模型中包括8个卷积层、5个池化层、2个全连接层来学习特征，和1个softmax层来提供预测的类别。其中8个卷积层的卷积核个数分别是64、128、256、256、512、512、512和512。卷积核的最佳大小是3×3×3。通过对视频的时空卷积，可以获得在不同尺度上的特征图。在1次或2次卷积操作之后，通过1次池化操作，来对特征进行降采样，以获得更具全局性的特征。

之后用此网络对深度信息的手势动作帧进行学习训练，后通过支持向量机(SVM)分类器对手势类别进行分类完成手势动作的学习。

7、手指位置和投影内容的校准由于MEMS投影是需要随意移动的，所以投影和深度图像的像素分辨率不同，需要进行几何标定，在计算机中将拍摄的图像映射到投影图像中。通过计算深度图像和投影平面之间的透视几何变换来执行深度图像和投影图像之间的映射。透视变换计算拍摄和投影图像之间的比例(缩放)、旋转、平移和倾斜，来计算出手指尖的位置相对应于投影内容的位置，从而达到手指尖和投影的准确匹配。透视变换的内容是通过MEMS投影机在投射背景上投射出画面，画面内容的四个角都有四个黑点。本发明通过手指依次点击四个点，分别测到指尖位置形成捕捉点。捕捉点和投影内容点之间的对应关系被用来计算透视变换，完成投影手势的校准。上述校准程序在投影变换位置后仅执行一次。

8、试验结果与分析

通过上文所述步骤的操作，最后实现了人手和可移动MEMS投影仪的实时互动。通过确定人手的指尖位置，来操控投影画面内容的改变。

本发明的MEMS投影仪体积较小，只有95mm*65mm*18mm大，可以手持操作，方便携带、可移动。投影可以实现准确地指尖定位、手势识别，可以通过人手实时的操控投影内容。因为MEMS投影照射出的是激光束，所以免去了调焦的操作。MEMS投影可以投射在很多地方，无需添加幕布。

具体包括如下技术效果：

1、MEMS激光投影和激光测距的融合：本发明利用MEMS投射出的激光进行基于TOF算法的激光测距技术，传统的机械式激光测距要实现多少线束，就需要多少组发射模块与接收模块。本发明采用二维MEMS微振镜，仅需要一束激光光源，通过一面MEMS微振镜来反射激光器的光束，两者采用微秒级的频率协同工作，通过探测器接收后达到对目标物体进行3D扫描成像的目的。

2、基于MEMS激光扫描的手势交互：本发明可以通过激光测距的方法实现手势的定位和交互，通过激光测距，得到投影画面大小一样的深度图，再通过前文叙述的手部分割、指尖定位等技术，可以实现实时的人手与投影交互，可以通过人手在投影画面上的触摸实现投影的内容操控。

3、基于MEMS激光扫描的手势动作识别：通过MEMS激光测距，可以得到投影前方的深度图像。通过对深度图像的深度学习，完成对人体手势动作的识别。

4、手指在投影画面上的准确定位：本发明通过投影开机后依次在投影面的四个角投出校准点，通过人手依次点击校准点进行投影画面和指尖位置的准确校正。这样无论投影投射出多大的画面，指尖的操作都能准确地控制投影的内容，这样时间投影的可移动性。

5、MEMS手势识别和手指定位的融合：因为人的手指在墙面上进行点击，手指的幅度并不是很大，加上人手轻微动作不易捕捉等问题，有时候单纯的指尖深度监测并不能够准确地判断手指是否进行了点击，本发明通过指尖深度信息的监测及手势动作的学习的能够结合准确双重地判断人的手指是否进行了点击的操作。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims

1.一种基于MEMS激光扫描的手指交互识别系统，其特征在于，包括：

激光光源模块，用于发射RGB三色激光；

激光接收模块，用于接收激光成像时反射的激光；

指尖检测模块，用于基于YOLOv3的深度学习算法计算得出指尖的位置和深度，确定人手的指尖位置；

手指动作识别模块，用于基于3D CNN神经网络和支持向量机分类器来进行手指动作识别；

手指交互模块，用于基于确定的人手的指尖位置，操控投影画面内容改变。

2.根据权利要求1所述的基于MEMS激光扫描的手指交互识别系统，其特征在于，所述手部图像分割模块具体用于：

使用YOLOv3的深度学习算法检测出手指指尖的位置，得到深度图像中指尖的区域；

使用平均背景模型对深度图像进行进一步的检测，将上一步检测出的指尖区域从前景中排除掉，提取出准确的手部前景；

3.根据权利要求2所述的基于MEMS激光扫描的手指交互识别系统，其特征在于，所述指尖检测模块具体用于：

位置信息检测：

采用YOLOv3的深度学习算法，将带有手部、指尖信息的图片进行指尖位置的标注，然后将标注好的图片放入YOLOv3深度学习网络进行学习；

生成对应的指尖检测模型，对该模型进行测试，将未学习的手部、指尖图片放入模型进行指尖和手部的位置检测，并进行识别率的检测；

指尖位置跟踪：

对检测到的指尖的位置进行标定，标定的位置即为指尖点，对多帧的指尖进行实时检测，跟踪指尖的运动，实现指尖位置跟踪；

深度信息检测：

对比指尖距离镜头的距离，预设阈值，当指尖距离镜头和背景板距离镜头的距离差小于该阈值并且时间超过3秒时，判定指尖与投影内容有接触；

使用椭圆肤色模型对图像进行肤色检测，得到所有的类肤色区域；使用平均背景模型对图像进行进一步的检测，将类肤色背景区域从前景中排除掉，提取出准确的手部前景；

4.根据权利要求3所述的基于MEMS激光扫描的手指交互识别系统，其特征在于，所述手指动作识别模块具体用于：

通过深度图像模块获得统一尺度的视频数据，在时域上对所有输入视频进行归一化处理，得到32帧的输入视频；

通过深度信息视频数据生成光流视频，并将深度信息视频和光流视频分别通过一个3DCNN模型提取特征；

通过特征连接的方式加以融合输入到支持向量机分类器，以提高识别性能。

5.根据权利要求4所述的MEMS激光扫描的手指交互识别系统，其特征在于，还包括：