CN111399634A

CN111399634A - 一种手势引导物体识别的方法及装置

Info

Publication number: CN111399634A
Application number: CN201911163274.1A
Authority: CN
Inventors: 高翔; 刘兴廷; 朱博; 张庆松
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-07-10
Anticipated expiration: 2039-11-25
Also published as: CN111399634B

Abstract

本发明公开一种手势引导物体识别的方法及装置，其方法具体包含如下步骤：(1)对Kinect和Leap motion进行联合标定，计算两传感器镜头坐标系间的变换矩阵；(2)通过Leap motion捕捉手部运动数据，进行运动轨迹跟踪；通过Kinect采集物体特征信息；(3)利用镜头坐标系间的变换矩阵将手部运动轨迹转换到Kinect坐标系下(4)利用手部运动轨迹对物体进行框选，将框选的物体映射到二维平面，基于SSD的物体识别方法，对框选物体进行识别。所述装置包含用于手势动作捕捉的Leap motion和用于物体识别的Kinect，Leap motion坐标系y轴与Kinect坐标系z轴相互垂直，通过刚性材料固定，可实现手势动作引导下的物体识别。利用该方法与装置可提高对目标物体识别的准确率和高效性，增强人机交互体验。

Description

一种手势引导物体识别的方法及装置

技术领域

本发明涉及人机交互，具体涉及一种手势引导物体识别的方法及装置。

背景技术

随着计算机视觉技术的快速发展，物体识别也越来越引起人们的关注。计算机视觉中的物体识别过程通常表现为：首先对待识别物体建立一种表示模型、形成特征空间，并通过一定数量的训练数据对该表示模型中的参数进行估计，然后根据模型构建识别算法完成对物体进行识别。传统的物体识方法能对镜头视角下存在的物体进行自动识别，但是当镜头处于复杂场景环境中时，由于物体信息冗余，在识别的过程中我们很难做到对特定的某一物体进行单独识别。

目前，实现特定物体识别的方法主要有两种：(1)对需要识别的物体进行标签限定，通过识别标签确定对特定物体的识别，但是，当存在多个待识别物体时，容易存在标签缺失或者标签与限定物体不一致问题，造成物体识别错误；(2)利用激光点指示待识别物体，进而通过检测激光点对指示物体进行识别，该方法能有效的进行特定物体识别，但是依赖于对激光点检测，当环境信息与激光点颜色一致时，很难完成对激光点的检测。上述两种方法都无法实现在复杂场景中对单一物体的有效识别，而且在物体识别的过程中用户缺乏交互体验。而手势动作指令是较直观、有效的交互方式。

发明内容

发明目的：本发明的目的是提供一种能够实现通过手势交互的方式完成对物体识别的引导，提高服务机器人在复杂场景下物体识别的准确性的方法及装置。

技术方案：本发明提出一种手势引导物体识别的方法及装置，所述方法包含以下步骤：

(1)对Kinect和Leap motion进行联合标定，计算两传感器镜头坐标系间的变换矩阵；

(2)leap motion捕捉手部运动数据进行运动轨迹跟踪，kinect采集物体特征信息；

(3)利用镜头坐标间的变换矩阵将手部运动轨迹转换到kinect坐标系下；

(4)根据手部运动轨迹对物体进行框选，框选的物体映射到二维平面；

(5)基于SSD的物体识别方法，对框选物体进行识别。

进一步地，步骤(1)中的联合标定方法具体包括：

(1.1)根据两传感器的朝向搭建双标定板结构，Kinect对应标定板a，Leap motion对应标定板b，两标定板相对位置不变；

(1.2)改变组合传感装置和标定板结构间的相对位置，利用标定板a和标定板b分别对Kinect、Leap motion进行单独标定；

(1.3)提取两标定板到各自对应传感器的位姿变换矩阵，以Kinect的RGB摄像头坐标系为基坐标系，由两传感器坐标系和两标定板坐标系的位姿关系计算两传感器坐标系间的位姿变换矩阵。

进一步地，步骤(2)还具体包括如下步骤：

(2.1)通过Leap motion的双目摄像头采集手势动作的视觉图像；

(2.2)利用SGBM算法对左右图像进行立体匹配，获得视差图像，然后利用相机的内外参数进行三角计算获取深度图像；

(2.3)对左右视觉图像进行手势分割处理，分割出的人手所在的初始位置信息，并将该位置作为手势跟踪的起始位置，对人手运动进行跟踪，完成对手势运动轨迹的检测跟踪；

(2.4)同时通过Kinect摄像头采集视角内场景信息。

进一步地，步骤(3)中根据步骤(1)标定出的两传感器间的位姿变换矩阵，对轨迹点进行坐标运算，将Leap motion捕捉的手部运动轨迹转换到Kinect坐标系下。

进一步地，步骤(4)还具体包括如下步骤：

(4.1)在Kincet坐标系下，根据转换的手部轨迹对目标物体进行框选；

(4.2)当手势轨迹形成闭区间包围目标物体时，将三维空间的轨迹和框选物体通过三维几何变换、投影、裁剪、及视口变换转换到二维平面内。

该步骤中首先对三维空间使用动态手势轨迹框选的物体进行平移、旋转、缩放等模型变换，然后通过投影变换和视口变换转换到二维平面内，利用SSD物体识别算法对框选物体进行识别。

进一步地，步骤(5)还具体包括如下步骤：

(5.1)采集一定数量的目标物体图像，对图像数据进行预处理并建立数据库；

(5.2)对网络结构进行配置，利用数据集进行模型训练，并对训练日志进行分析、性能测试等；

(5.3)利用训练后的模型对框选目标物体进行识别。

一种手势引导物体识别的装置，包含用于捕捉手部运动的Leap motion和用于物体识别的Kinect,两种传感器组合用于手势引导物体识别，进行人机交互。

进一步地，根据人机交互需求，kinect朝向为其坐标系的Z轴正方向，Leap motion置于Kinect后方朝向为其坐标系的Y轴正方向，两传感器刚性连接。

有益效果：本发明与现有技术相比，其显著优点是：(1)实现通过手势对复杂场景下特定物体识别的引导；(2)提高服务机器人在复杂场景中对环境学习和认知的准确性和高效性；(3)增强人机交互体验。

附图说明

图1Leap motion和Kinect组合装置图；

图2两传感器联合标定方法流程图；

图3多传感器交互式环境感知方法流程图；

图4交互识别效果示意图。

具体实施方式：

下面结合附图对本发明的技术方案作进一步地详细说明：

如图1所示，装置包括Kinect101、横杆102、支架103和104、Leap motion 105,其中A为Leap motion左摄像头坐标系到Kinect rgb摄像头坐标系的位姿变换矩阵；

Kinect和leap motion组合传感装置，包括Kinect101和Leap motion105两种传感器，将两者结合搭建一种可实现手势引导的物体识别装置；其中，Kinect101用于物体特征信息的提取，Leap motion105用于捕捉手势运动轨迹。

Kinect101和Leap motion105朝向相互垂直设置；Kinect镜头坐标系和Leapmotion镜头坐标系在Z轴方向相互垂直设置，其中Leap motion通过固定装置设置在Kinect的左后方。

具体为，通过钢材搭建固定装置，将Kinect固定在此结构上方，距离装置底部横杆104约50cm,镜头向前，便于对室内环境进行感知；Leap motion固定在装置右下方，距离横杆103约60cm，镜头向上捕捉手势动作。

如图2所示，一种手势引导物体识别的方法，其具体实施方式如下：

S1、依据非重叠视场下多相机标定方法对两传感器进行联合标定，以Kinect彩色摄像头坐标系为基坐标系，计算Leap motion坐标系到基坐标系的变换矩阵A,具体步骤如下:

S11、根据传感器系统的位置，搭建标定板固定结构，将标定板a和标定板b固定到标定板装置上，标定板a对应Kinect，标定板b对应Leap motion；

S12、多次改变上述传感器装置和标定板装置的相对位置，各传感器采集对应标定板图像各20张；

S13、通过MATLAB标定工具箱分别标定得到各标定板到对应相机的外参矩阵；

S14、依据非重叠视场下多相机的标定方法求解两传感器坐标系间的位姿变换矩阵

S2、采集目标物体的图像数据集，进行预处理，然后配置网络结构，利用图像数据集进行模型训练，测试分析得到物体识别模型。

S21、从不同角度拍摄待检测目标物体的图片，图片数量大于200张；

S22、对图片进行预处理，包括裁剪、图片标注等；

S23、配置深度学习训练环境，在Caffe框架下使图片数据进行训练；

S24、对训练结果进行分析测试后得到所需的物体识别模型。

S3、利用多线程管理多传感器环境感知的实施，具体步骤如下：

S31、创建一个主线程thread和三个子线程thread 1、thread 2、thread 3；

S32、将Kinect图像采集的程序置于thread 1；

S33、将Leap motion手势捕捉程序置于thread 2；

S34、利用SSD进行物体识别的程序置于thread 3。

S4、通过Kinect进行环境信息感知，Leap motion进行手势捕捉。具体步骤如下：

S41、连接Leap motion传感器和Kinect传感器，打开各传感器的摄像头；

S42、在主线程中同时启动thread 1和thread 2，通过Kinect进行环境信息感知的同时，利用Leap motion进行手势轨迹捕捉；

S43、利用标定得到的两传感器坐标系间的位姿变换矩阵A，将Leap motion坐标系下的手势动作变换到Kinect坐标系下。

S5、利用Kinect和Leap motion两传感器组合装置进行交互式环境感知，具体步骤如下：

S51、将Kinect视角下，利用Leap motion捕捉的手势动作轨迹对目标物体进行框选、标记；

S52、当轨迹形成闭合曲线时，将三维空间的轨迹和框选物体通过三维几何变换、投影、裁剪及视口变换转换到二维平面；

S53、调用thread 3对框选的目标物体进行识别，得到其类别信息。

如图3所示为多传感器交互式环境感知方法流程图，其具体步骤为：

(1)对Kinect和Leap motion进行联合标定，计算两传感器镜头坐标系间的变换矩阵；(2)通过Leap motion捕捉手部运动数据，进行运动轨迹跟踪；通过Kinect采集物体特征信息；(3)利用镜头坐标系间的变换矩阵将手部运动轨迹转换到Kinect坐标系下(4)利用手部运动轨迹对物体进行框选，将框选的物体映射到二维平面，基于SSD的物体识别方法，对框选物体进行识别。

具体识别效果如图4所示。图4为交互识别效果示意图，图中包含可乐、篮球、茶壶、杯子，框选物体为杯子。

Claims

1.一种手势引导物体识别的方法，其特征在于，包含以下步骤：

(5)基于SSD的物体识别方法，对框选物体进行识别。

2.根据权利要求1所述的一种手势引导物体识别的方法，其特征在于，步骤(1)中的联合标定方法具体为：：

3.根据权利要求1所述的一种手势引导物体识别的方法，其特征在于，步骤(2)具体包括如下步骤：

(2.1)通过Leap motion的双目摄像头采集手势动作的视觉图像；

(2.4)同时通过Kinect摄像头采集视角内场景信息。

4.根据权利要求1所述的一种手势引导物体识别的方法，其特征在于，步骤(3)中根据步骤(1)标定出的两传感器间的位姿变换矩阵，对轨迹点进行坐标运算，将Leap motion捕捉的手部运动轨迹转换到Kinect坐标系下。

5.根据权利要求1所述的一种手势引导物体识别的方法，其特征在于，步骤(4)具体包括如下步骤：

6.根据权利要求1所述的一种手势引导物体识别的方法，其特征在于，步骤(5)具体包括如下步骤：

(5.1)采集一定数量的目标物体图像，对图像数据进行预处理(建立数据库)；

(5.3)利用训练后的模型对框选目标物体进行识别。

7.一种手势引导物体识别的装置，其特征在于，包含用于捕捉手部运动的Leap motion和用于物体识别的Kinect,两种传感器组合用于手势引导物体识别，进行人机交互。

8.根据权利要求7所述的一种手势引导物体识别的装置，其特征在于，根据人机交互需求，kinect朝向为其坐标系的Z轴正方向，Leap motion置于Kinect后方朝向为其坐标系的Y轴正方向，两传感器刚性连接。