CN110442242A

CN110442242A - 一种基于双目空间手势交互的智能镜系统及控制方法

Info

Publication number: CN110442242A
Application number: CN201910742391.7A
Authority: CN
Inventors: 杜国铭; 张毅; 蒋大宇; 冯大志
Original assignee: Harbin Top Technology Co Ltd
Current assignee: Harbin Top Technology Co Ltd
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2019-11-12
Anticipated expiration: 2039-08-13
Also published as: CN110442242B

Abstract

本发明提出一种基于双目空间手势交互的智能镜系统及控制方法，本发明利用双目相机，通过双目的标定、校正，在嵌入式上进行更有效、鲁棒性更强手部区域的提取，然后利用优化算法找到更加稳定关键点和关键点深度的计算，并且根据识别出的手势，给出合理的控制方案。对于系统可以识别出手背打开、手背闭合、握拳等操作，并在此基础上进行手势组合来达到不同的控制方式，最终在显示终端进行效果的实现，最终能给出移动、拖拽、视频播放/暂停、HOME等功能。经过算法在嵌入式上的优化，在进行多帧手部状态平滑后可以控制完整手势操作延时在200ms以内，完全可以满足智能镜子的不卡顿流畅的操作需求。

Description

一种基于双目空间手势交互的智能镜系统及控制方法

技术领域

本发明属于手势控制技术领域，特别是涉及一种基于双目空间手势交互的智能镜系统及控制方法。

背景技术

随着智能家居的发展，智能镜子也在不断优化，更是出现了能纠正化妆时面部缺陷的镜子以及虚拟试穿衣服的智能镜子等，都在昭示智能镜子的发展前景，以及对智能镜子实际使用的探索。

智能镜的交互方式分为主动交互与被动交互，主动交互主要包括语音交互与手势交互等。其中语音控制智能镜的方式较多，但大多数都是基于科大讯飞、Swype、Google的语音识别。手势交互主要是以触屏为主。被动交互也是较为简单的一种交互通过识别人的面部表情、体温等信息，直接给出固定的数据或者简单的反馈。

现阶段存在的智能镜子，实际真正投放市场的只有一些带有触屏类的镜子，这些智能镜的成本造价十分昂贵，因此智能镜没有真正的走进千家万户。并且对于智能镜来说，最基本的就是镜面的功效，但是长时间的用手接触镜面，难免会在滑动操作时将手上的油脂和脏物弄到镜子上，影响镜子的美观。对于采用的一些防油措施，类似于手机的疏油层，其本身的成本造价较高，并且在长时间使用疏油层会逐渐消失，最终还会污染镜面。

对于现有的一些智能镜子，上面带有高清摄像头，并且可以联网智能下载应用，但是没有考虑到镜子有时是需要放在隐私空间的，带有上网功能有同时具有摄像头，这本身就会给用户的隐私带来问题。

对于另外一些非接触的操作方式，大多数都是基于视觉方案的，例如将Kinect和镜子结合，但是Kinect的成本较高，并且需要的最低的硬件也受限，这样就无法降低造价，同样的无法真正的走进寻常百姓家。同样的双目视觉方案也是和智能镜相结合的方向，例如在嵌入式上运行双目系统，然后根据手指尖的深度和位置变化给出模拟效果，最终只给出了一种双目检测手指尖的模拟效果，指尖的检测只需要根据物理位置或者弧度给出即可，对于实际应用并没有什么意义。对于双目识别手势技术，在嵌入式上使用时，对于单个相机上手的提取就是个难题，并且在提取手后如何找到可靠的手部代表点也是影响整个系统的决定性因素。

发明内容

本发明目的是为了解决现有的技术问题，提出了一种基于双目空间手势交互的智能镜系统及控制方法。

本发明是通过以下技术方案实现的，本发明提出一种基于双目空间手势交互的智能镜系统，所述系统包括：

系统标定模块：利用标定软件进行双目相机的参数标定，获得两个相机的内外参数，然后将结果保存成可读的文件，系统中用XML格式保存标定参数，然后将标定参数的文件放置在手势识别模块的固定文件夹中以便系统调用；

图像获取模块：获取当前摄像头采集的图像；

手势识别模块：针对采集的图像先利用单个相机进行手背中心的识别，此时获取的点位置是带有畸变的，从而得到了畸变图像和校正后图像的映射关系，然后利用畸变点映射到校正后的点上，最终根据这两个点计算出手背的坐标位置，根据手背的坐标位置得到手基于相机坐标系的空间位置，并且能够识别出是手背打开还是手背闭合，同时也能识别出握拳操作；

通信模块：根据手势识别模块给出的识别结果，通过通信模块与界面显示模块进行通信；

界面显示模块：所述界面显示模块为显示器，根据通信模块发送来的信息进行相应功能操作；

外部结构：所述外部结构包括镜子边框和原子镜，所述显示器置于镜子后方，所述双目相机置于镜面上端，其角度向下拍摄；所述系统标定模块、图像获取模块、手势识别模块和通信模块都基于外部结构上并置于外部结构内部。

本发明还提出一种基于双目空间手势交互的智能镜系统的控制方法，所述方法包括如下步骤：

步骤一、利用标定软件进行双目相机的参数标定，获得两个相机的内外参数，然后将结果保存成可读的文件，系统中用XML格式保存标定参数，然后将标定参数的文件放置在手势识别模块的固定文件夹中以便系统调用；

步骤二、获取当前摄像头采集的图像；

步骤三、针对采集的图像先利用单个相机进行手背中心的识别，此时获取的点位置是带有畸变的，从而得到了畸变图像和校正后图像的映射关系，然后利用畸变点映射到校正后的点上，最终根据这两个点计算出手背的坐标位置，根据手背的坐标位置得到手基于相机坐标系的空间位置，并且能够识别出是手背打开还是手背闭合，同时也能识别出握拳操作；

步骤四、根据手势识别模块给出的识别结果，通过通信模块与显示器进行通信；

步骤五、所述显示器根据通信模块发送来的信息进行相应功能操作。

进一步地，所述从而得到了畸变图像和校正后图像的映射关系，然后利用畸变点映射到校正后的点上，具体为：

由于相机的摄像头在成像过程中存在两种不同类型的畸变，一种是由透镜的形状引起的畸变称为径向畸变，另一种是相机组装过程中透镜和成像面不能严格平行引起的畸变称为切向畸变：

径向畸变：

切向畸变：

综合以上两种畸变，得到畸变图像和校正后图像的映射关系：

其中k₁、k₂、k₃、p₁、p₂均为相机的内参数，

进行完双目标定后，会得出两个相机的映射矩阵，但是此映射矩阵是从标定后的点到畸变点的映射，在双目标定时给出的是反向映射；根据反映射关系，将校正后的点对应到畸变的点，由于已知畸变点x_error和y_error，需要反求校正后的点x_rectify和y_rectify，具体为：

根据双目标定后的结果，能得出校正图像的实际有效区域在原图中的位置，找到单个相机校正后的有效区域的四个顶点和带有畸变的四个顶点的X，Y方向的距离差，然后根据这8个距离找出最大的横向距离和纵向距离，记录这两个最大距离为Width和Height；根据畸变原理，校正后的某个点的位置，都应该在畸变点的位置的周围处，那么根据求得的Width和Height，在校正的图上以畸变点的位置为中心构建一个矩形框；由于已知畸变点，并且在校正点周围已经构建了搜索框，于是利用遍历矩形框中的点位置，配合反向映射，求出潜在畸变点；计算求出的潜在畸变点与原畸变点的欧式距离，能生成最小距离的那个校正点就是要找到的那个畸变点对应的校正点，最终能给出畸变点映射到的校正点。

进一步地，所述能够识别出是手背打开还是手背闭合，同时也能识别出握拳操作，具体为：

a)相机采集的RGB图像转化到YCrCb空间；

b)利用人手的肤色模型，Cr通道减去Cb通道，并且增加阈值处理，作为背景；

c)在建立背景图像后，同样用Cr减去Cb通道作为当时的处理图；

d)利用处理图和背景图的差值，找出带有手的前景图；

e)在得到前景图后，计算出前景图的轮廓点；

f)根据人手的比例关系，设定动态矩形框缩减要处理的轮廓点；

g)利用缩减的轮廓点计算最大内接圆，根据手背位置是手中最大最宽的位置，所以将轮廓的最大内接圆作为手背的代表位置，然后圆心作为手背中心；

h)由于指尖点的曲率有一个突变，因此指尖点的曲率应该是局部的极值，然后利用向量的夹角来表示曲率的变化，其中需要过滤掉手指缝的位置；

i)假设找到的指尖个数N，求得均值长度为L，其中center为求得的手背中心位置，Point_i为求得的指尖位置，为计算两个点的距离，同理计算从手背中心到指尖相邻向量夹角的均值为其中，为计算两个向量的夹角，L_i表示当前的从手背中心到指尖的向量；

j)根据求得的手指尖的个数和均值夹角A可以作为判断手背是打开还是闭合的一个条件；

k)在计算曲率极值时，如果没有符合要求的点，那么就是握拳的操作，根据求得的手背中心计算出最远点的距离作为手背中心到指尖的距离，根据人手实际比例模型，人手在伸开时，手背中心到指尖的距离与求得内接圆半径的比例关系应该是3.0-3.5，如果人握拳，那么手背中心到最远点的距离作为拳尖的距离，这个比值应该在1.0-1.2之间，利用这个比例关系可以判断出手是握拳状态还是伸开状态；

l)基于以上的特征可以分辨出手的打开、闭合和握拳状态。

进一步地，所述通信模块与显示器进行通信的报文具体为：

MSG＝”P1，P2，State”

P1：表示屏幕的横向坐标

P2：表示屏幕的纵向坐标

State＝0：双击

State＝1：拖拽起始位

State＝2：移动

State＝3：拖拽终止位

State＝4：播放

State＝5：暂停

State＝6：Home。

进一步地，所述显示器界面中分为静态显示区，中央显示区和视频列表区；所述静态显示区包括时间、天气和日历，静态显示区能够进行拖拽，所述中央显示区用来显示功能和视频的播放，中央显示区具有HOME功能，视频列表区有视频列表和翻页。

本发明所带来的有益效果：

本发明利用双目相机，通过双目的标定、校正，在嵌入式上进行更有效、鲁棒性更强手部区域的提取，然后利用优化算法找到更加稳定关键点和关键点深度的计算，并且根据识别出的手势，给出合理的控制方案。对于系统可以识别出手背打开、手背闭合、握拳等操作，并在此基础上进行手势组合来达到不同的控制方式，最终在显示终端进行效果的实现，最终能给出移动、拖拽、视频播放/暂停、HOME等功能。经过算法在嵌入式上的优化，在进行多帧手部状态平滑后可以控制完整手势操作延时在200ms以内，完全可以满足智能镜子的不卡顿流畅的操作需求。在嵌入式上进行智能镜识别模块的开发，识别模块不需要联网，并且相机角度是向下拍摄，一方面大大降低了成本，另一方面有效的保护了用户的隐私问题。

附图说明

图1为本发明所述基于双目空间手势交互的智能镜系统软件框图；

图2为智能镜系统结构简易图；

图3为界面显示模块示意图；

图4为手势识别流程图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1和图2，本发明提出一种基于双目空间手势交互的智能镜系统，所述系统包括：

图像获取模块：获取当前摄像头采集的图像；

外部结构：所述外部结构包括镜子边框和原子镜，原子镜具有单向的特性，是一种单透镜面，所述显示器置于原子镜后方，可以到达显示的效果同时又具有镜面的功能，所述双目相机置于镜面上端，其角度向下拍摄；所述系统标定模块、图像获取模块、手势识别模块和通信模块都基于外部结构上并置于外部结构内部，只留出电源接头。其中手势识别模块和界面显示模块可以在一个设备终端上运行，也可以在两个设备上运行。

步骤二、获取当前摄像头采集的图像；

上述手势识别模块识别出的手势包括手背打开、手背闭合和握拳，显示器可以根据这三种手势执行相应的功能操作，另外基于这三种手势还可以形成组合手势，例如：手背打开->手背闭合，手背打开->握拳，手背打开->握拳->手背打开，手背打开->手背闭合->手背打开等，组合手势也可以执行显示器上相应的功能，用户可以根据实际需要来进行手势对应。显示器上相应的功能包括移动、拖拽、视频播放/暂停、HOME等功能。

所述标定软件可以采用张正友标定即棋盘格标定方法。

所述从而得到了畸变图像和校正后图像的映射关系，然后利用畸变点映射到校正后的点上，具体为：

径向畸变：

切向畸变：

其中k₁、k₂、k₃、p₁、p₂均为相机的内参数，

进行完双目标定后，会得出两个相机的映射矩阵，但是此映射矩阵是从标定后的点到畸变点的映射，为了执行效率，同时也为了计算精度，在双目标定时给出的是反向映射；根据反映射关系，将校正后的点对应到畸变的点，由于已知畸变点x_error和y_error，需要反求校正后的点x_rectify和y_rectify，具体为：

根据双目标定后的结果，能得出校正图像的实际有效区域在原图中的位置，找到单个相机校正后的有效区域的四个顶点和带有畸变的四个顶点的X，Y方向的距离差，然后根据这8个距离找出最大的横向距离和纵向距离，记录这两个最大距离为Width和Height；根据畸变原理，校正后的某个点的位置，都应该在畸变点的位置的周围处，那么根据求得的Width和Height，在校正的图上以畸变点的位置为中心构建一个矩形框；由于已知畸变点，并且在校正点周围已经构建了搜索框，于是利用遍历矩形框中的点位置，配合反向映射，求出潜在畸变点；计算求出的潜在畸变点与原畸变点的欧式距离，能生成最小距离的那个校正点就是要找到的那个畸变点对应的校正点，最终能给出畸变点映射到的校正点。利用此办法解决了从畸变点到校正点的查找，并且时间复杂度较低O(width*Height)，并且在已知的映射表中查找映射关系十分便捷，最终测试需要平均遍历200个点左右就可以找到畸变点校正之后的点，利用一个遍历解决了高阶2元方程的求解问题。

结合图4，所述能够识别出是手背打开还是手背闭合，同时也能识别出握拳操作，具体为：

a)相机采集的RGB图像转化到YCrCb空间；

d)利用处理图和背景图的差值，找出带有手的前景图；

e)在得到前景图后，计算出前景图的轮廓点；

i)假设找到的指尖个数N，N取值可以为1-5，求得均值长度为L，其中 center为求得的手背中心位置，Pointi为求得的指尖位置，为计算两个点的距离，同理计算从手背中心到指尖相邻向量夹角的均值为其中，为计算两个向量的夹角，L_i表示当前的从手背中心到指尖的向量；

l)基于以上的特征可以分辨出手的打开、闭合和握拳状态。

在本发明中智能镜系统采用双目相机从上而下的拍摄方式，那么在相机畸变关系中，如果手距离相机较近，那么在图像中人手所包含的像素点也就更多，反之亦然。那么在识别算法中就要充分的考虑尺度因素，正因如此，在设计算法时，特征点就是一个点，检测人手状态时利用了比例关系和角度关系，解决了尺度因素对于系统的影响。

手势识别模块和界面显示模块利用TCP/IP通信方式，无论两个模块是否在同一个设备上运行，所述通信模块与显示器进行通信的报文具体为：

MSG＝”P1,P2,State”

P1：表示屏幕的横向坐标

P2:表示屏幕的纵向坐标

State＝0:双击

State＝1：拖拽(起始位)

State＝2：移动

State＝3：拖拽(终止位)

State＝4：播放

State＝5：暂停

State＝6：Home。

所述显示器界面中分为静态显示区，中央显示区和视频列表区；所述静态显示区包括时间、天气和日历，静态显示区能够进行拖拽，所述中央显示区用来显示功能和视频的播放，中央显示区具有HOME功能，视频列表区有视频列表和翻页。具体界面如图3所示。

系统的界面在设计时充分考虑了手势识别模块的抖动和识别精度，系统的操作界面是最直观的人机交互，经过测试，在手背中心检测时，双手的手背中心至少都会有1-3个像素的抖动，这样在计算空间坐标时，经过计算就会变成最多10mm的抖动，然后在经过映射到屏幕上就会出现鼠标的明显抖动，在1920*1080的屏幕上会出现最多15个像素的抖动，即使提高识别精度，最终的抖动也不可避免。那么在设计主界面的时候，各个功能的按钮的尺寸应该比系统的抖动要大，为了不显示出抖动，需要隐藏鼠标或者光标。只有当鼠标位置到功能按键时，按键有个选中效果即可。

界面中要有静态显示区，用来显示出一些常用的功能，例如天气预报、日历、事项提醒(可通过手机传输上去)、身体数据等。中央显示区即动态显示区，给出一些热点的视频，给出视频分类，然后给出视频列表，在视频列表周边设置，上、下翻页按钮，在界面中间设置视频播放区。

在设计界面时考虑原子镜对于界面显示的衰减问题，静态显示区最好设计成黑底白标，这样既能满足背景亮度低于镜前亮度的问题，又能给出良好的显示效果。在手进行移动时有背景的变化，在手进行拖动选择时有另一种背景变化，以便操作者能识别出移动和拖拽功能。

以上对本发明所提出的一种基于双目空间手势交互的智能镜系统及控制方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于双目空间手势交互的智能镜系统，其特征在于：所述系统包括：

图像获取模块：获取当前摄像头采集的图像；

2.一种如权利要求1所述的基于双目空间手势交互的智能镜系统的控制方法，其特征在于：所述方法包括如下步骤：

步骤二、获取当前摄像头采集的图像；

3.根据权利要求2所述的方法，其特征在于：所述从而得到了畸变图像和校正后图像的映射关系，然后利用畸变点映射到校正后的点上，具体为：

径向畸变：

切向畸变：

其中、、、、均为相机的内参数，；

进行完双目标定后，会得出两个相机的映射矩阵，但是此映射矩阵是从标定后的点到畸变点的映射，在双目标定时给出的是反向映射；根据反映射关系，将校正后的点对应到畸变的点，由于已知畸变点和，需要反求校正后的点和，具体为：

4.根据权利要求2所述的方法，其特征在于：所述能够识别出是手背打开还是手背闭合，同时也能识别出握拳操作，具体为：

a) 相机采集的RGB图像转化到YCrCb空间；

b) 利用人手的肤色模型，Cr通道减去Cb通道，并且增加阈值处理，作为背景；

c) 在建立背景图像后，同样用Cr减去Cb通道作为当时的处理图；

d) 利用处理图和背景图的差值，找出带有手的前景图；

e) 在得到前景图后，计算出前景图的轮廓点；

f) 根据人手的比例关系，设定动态矩形框缩减要处理的轮廓点；

g) 利用缩减的轮廓点计算最大内接圆，根据手背位置是手中最大最宽的位置，所以将轮廓的最大内接圆作为手背的代表位置，然后圆心作为手背中心；

h) 由于指尖点的曲率有一个突变，因此指尖点的曲率应该是局部的极值，然后利用向量的夹角来表示曲率的变化，其中需要过滤掉手指缝的位置；

i) 假设找到的指尖个数N，求得均值长度为L，其中，center为求得的手背中心位置，为求得的指尖位置，为计算两个点的距离，同理计算从手背中心到指尖相邻向量夹角的均值为；其中，为计算两个向量的夹角，表示当前的从手背中心到指尖的向量；

j) 根据求得的手指尖的个数和均值夹角A可以作为判断手背是打开还是闭合的一个条件；

k) 在计算曲率极值时，如果没有符合要求的点，那么就是握拳的操作，根据求得的手背中心计算出最远点的距离作为手背中心到指尖的距离，根据人手实际比例模型，人手在伸开时，手背中心到指尖的距离与求得内接圆半径的比例关系应该是3.0 -3.5，如果人握拳，那么手背中心到最远点的距离作为拳尖的距离，这个比值应该在1.0-1.2之间，利用这个比例关系可以判断出手是握拳状态还是伸开状态；

l) 基于以上的特征可以分辨出手的打开、闭合和握拳状态。

5.根据权利要求2所述的方法，其特征在于：所述通信模块与显示器进行通信的报文具体为：

MSG=”P1,P2,State”

P1：表示屏幕的横向坐标

P2: 表示屏幕的纵向坐标

State=0 :双击

State=1 ：拖拽起始位

State=2 ：移动

State=3 ：拖拽终止位

State=4 ：播放

State=5 ：暂停

State=6 ：Home 。

6.根据权利要求2所述的方法，其特征在于：所述显示器界面中分为静态显示区，中央显示区和视频列表区；所述静态显示区包括时间、天气和日历，静态显示区能够进行拖拽，所述中央显示区用来显示功能和视频的播放，中央显示区具有HOME功能，视频列表区有视频列表和翻页。