CN108089753B

CN108089753B - 一种利用Faster-RCNN对指尖位置进行预测的定位方法

Info

Publication number: CN108089753B
Application number: CN201711465239.6A
Authority: CN
Inventors: 汪俊锋; 邓宏平; 张巧云; 任玮蒙
Original assignee: Anhui Huishi Jintong Technology Co ltd
Current assignee: Anhui Huishi Jintong Technology Co ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2021-03-09
Anticipated expiration: 2037-12-28
Also published as: CN108089753A

Abstract

本发明涉及一种利用Faster‑RCNN对指尖位置进行预测的定位方法，包括以下步骤：绘制目标点并利用投影仪投射标定点；记录目标点在显示屏的坐标位置；用户用手指触摸目标点；照亮手指指尖区域并获取此刻图像；对当前手指触摸区域的检测，计算并且记录下触摸点重心点在图像中的坐标；提取手指触摸区域部分，并对其进行归一化处理；重复上述步骤多次，获取多组坐标点对以及不同的手指触摸区域；通过Faster‑RCNN开始进行映射关系的训练及图像检测，得到映射点位置。本发明通过将红外图像中手指区域的图像以及手指区域的重心点坐标作为网络的输入，并与真实位置进行映射训练，从而获取高精度的映射关系，实现手指触摸位置的精确计算。

Description

一种利用Faster-RCNN对指尖位置进行预测的定位方法

技术领域

本发明涉及投影交互系统中的指尖定位技术领域，具体涉及一种利用Faster-RCNN对指尖位置进行预测的定位方法。

背景技术

在投影交互系统中，利用手指进行操控时，总是会出现少量的偏差，导致不能进行高精度的触控，从而影响用户体验。在投影交互系统存在一种映射关系，当手指触摸到投影界面并对其操作的时候，摄像机会采集投影界面区域的照片，因此在摄像机采集到的图像中，手指区域在图像中，会存在一个坐标，然后，计算机会将这个坐标映射到计算机显示屏中的某一个位置，便同时会在计算机显示屏中，对该映射位置进行操作。如果这种映射关系求解的不精准，则可能会出现操作错误的问题。比如：用户在投影界面中对图标A进行点击，则如果映射关系不准确，其会在计算机的显示屏中，对图标B进行操作，这样就无法完成投影交互，因此，构建高精度的映射关系对于投影交互系统的来说非常重要。

Fast-RCNN是一个基于深度卷积神经网络，目前被广泛应用于运动的目标检测，且Fast-RCNN可以在很短的时间内(约0.5秒)实现对运动目标的检测，极大地满足实时性的检测，准确度也相对较高。

发明内容

本发明的目的在于提供一种利用Faster-RCNN对指尖位置进行预测的定位方法，通过将红外图像中手指区域的图像以及手指区域的重心点坐标作为网络的输入，并与真实位置进行映射训练，从而获取高精度的映射关系，实现手指触摸位置的精确计算。

为实现上述目的，本发明采用了以下技术方案：

一种利用Faster-RCNN对指尖位置进行预测的定位方法，包括以下步骤：

(1)在计算机屏幕上绘制目标点；

(2)利用投影仪投射标定点；

(3)记录目标点在显示屏的坐标位置，标记为A_i；

(4)用户用手指触摸目标点；

(5)采用红外激光器发射的红外线照亮手指指尖区域，并通过红外摄像机获取此刻图像；

(6)对获取的红外图像，进行二值化处理与连通域分析，实现对当前手指触摸区域的检测；

(7)计算并且记录下触摸点重心点在图像中的坐标，记为B_i，则A_i与B_i构成一组坐标点对；

(8)在摄像机采集到的图像中，提取手指触摸区域部分，并对其进行归一化处理；

(9)重复上述步骤多次，获取多组坐标点对以及不同的手指触摸区域；

(10)通过Faster-RCNN开始进行映射关系的训练；

(11)通过Faster-RCNN网络进行图像检测，得到映射点位置。

进一步的，所述步骤(6)中，所述二值化处理具体为：获取红外图像的每个像素点并对该像素点进行像素分析，若某个像素点的像素值大于预设值，则该像素点作为前景图像保存，并采用白色显示，若该像素点小于预设值，则采用黑色显示。

进一步的，步骤(6)中，所述连通域分析包括连通域尺寸和形状的分析。

进一步的，步骤(11)中，所述对当前图像进行分析，通过Faster-RCNN网络进行检测，得到映射点位置，具体包括如下步骤：

(A1)对当前图像进行分析，完成对手指触摸区域的检测和定位；

(A2)获取触摸点重心点坐标以及归一化后的触摸点区域图像；

(A3)将重心点坐标和归一化图像作为输入，送入到Faster-RCNN网络进行检测，预测得到映射点位置。

由上述技术方案可知，本发明所述的利用Faster-RCNN对指尖位置进行预测的定位方法，通过将红外图像中手指区域的图像以及手指区域的重心点坐标作为网络的输入，并与真实位置进行映射训练，从而获取高精度的映射关系，实现手指触摸位置的精确计算。通过实践发现，效果能够很好地满足用户的投影交互要求。

附图说明

图1是本发明的方法流程图；

图2是本发明相邻像素定义的示意图；

图3是本发明单个神经元结构的示意图。

具体实施方式

下面结合附图对本发明做进一步说明：

如图1所示，本实施例的一种利用Faster-RCNN对指尖位置进行预测的定位方法，具体包括如下步骤：

S1:在计算机的显示屏幕中，绘制白色的实心圆形的标定点，其中实心的圆形标定点的半径是5个像素长度；

S2:然后利用与计算机相连接的投影仪，将计算机屏幕中的内容，投射到投影界面上。故在投影界面中，我们可以看到白色的投影点。

S3:对于计算机的显示屏幕，记录该白色标定点在显示屏中的坐标位置，记为A_i。

S4:在投影界面中，用户用手指触摸该白色的投影点；

S5:采用红外激光器发射的红外线照亮手指指尖区域，并通过红外摄像机获取此刻图像：在投影界面的正上方有一个红外激光器，该激光器在打开后，是沿着与投影界面平行的方向不间断地发射红外射线。故当手指触摸到投影界面的白色投影点的时候，手指指尖区域会被红外线所照亮；

在正对着投影屏幕的方向，有一个红外摄像机。该摄像机是实时采集投影界面的画面，从中我们可以获取到手指触摸投影界面中白色投影点的时候的画面，并记为P。

S6:对获取的红外图像，进行二值化处理与连通域分析，实现对当前手指触摸区域的检测：如对图像P进行二值化操作以及连通域分析，在图像P中获取到手指的触摸区域。具体方法如下：

A、二值化处理：

对于图像P中的每个像素点(x,y)，如果该点对应的像素值大于20(经验值)，则将该点(x,y)作为前景像素保留下来，并将该点的像素值置为1，如果该点对应的像素值小于20，将该点的像素值变成0，二值化后的图像记为Q。在图像Q中，像素值为1点的坐标点将会显示为白色，否则，则会显示为黑色。

B、连通域分析

B-1、生成连通域

逐像素点遍历图像Q，如果相邻的两个像素其像素值都不为0，则将这两个像素划入到同一个连通域中，最终我们可得多个连通域。两个像素相邻的定义如图2所示。对于像素x，像素1-8均是其相邻的像素,如图2所示。

B-2、连通域尺寸、形状分析

经过上一个步骤，我们可以获取到多个连通域，这些多个连通域中，可能包含一些噪声区域(光线照射导致的以及衣服袖口引入到投影界面中)以及手指指尖区域。故我们需要将手指的指尖从中提取出来。

B-2-1、尺寸分析

对于图像Q的每个连通域进行求取连通域的外接矩形。如果外界矩形的长度和宽度均大于20个像素(经验阈值)，则认为不是指尖区域(指尖区域的尺寸不可能过小)。否则，继续进行下一步的判断。

B-2-2、形状分析

由于指尖区域的形状接近圆形，故对于该连通域的外接矩形来说，如果外接矩形的长宽比大于1.5，则可以将其过滤，最终，选择外接矩形长宽最接近1的连通域作为指尖区域，该连通域记为I。

S7：计算并且记录下触摸点重心点在图像中的坐标，记为B_i，则A_i与B_i构成一组坐标点对；

如在图像Q，计算连通域的重心坐标B_i。其中B_i的横坐标和纵坐标的计算方法分别如公式(1)和公式(2)所示，其中x_i表示在该连通域中某一个像素点的x坐标，y_i表示在该连通域中某一个像素点的y坐标，n表示在该连通域内像素点的个数。则坐标点A_i与B_i便构成了一组映射关系的坐标对。

S8：在摄像机采集到的图像中，提取手指触摸区域部分，并对其进行归一化处理；如在原始图像P中，提取连通域I所对应的区域部分，然后将提取的区域部分进行归一化操作，使其尺寸大小为224*224像素大小。

S9：重复上述步骤多次，获取多组坐标点对以及不同的手指触摸区域；

如重复执行步骤S1-S9多次，且确保每次在计算机的显示屏幕中的不同位置绘制标定点，然后采用投影仪进行投射画面。这样，我们便可以获取到多组映射关系的坐标对以及尺寸大小相同的指尖区域图像。

S10：通过Faster-RCNN开始进行映射关系的训练，训练如下的映射关系：

手指触摸图像+触摸区域重心点坐标，映射到该触摸点在计算机显示屏中对应的位置坐标点。

(1)输入包括两部分：归一化的手指指尖触摸图像、手指指尖区域的重心点坐标。

(2)输出：计算机显示屏中对应的位置坐标点。

(3)训练策略：常规的BP训练方法，通过使用BP算法来更新神经元的权重和偏置，最终使得神经网络达到收敛状态，具体解析如下。

简单小神经网络的结构可如图3所示，其中每一个圆圈代表着一个神经元，w₁和w₂代表神经元之间的权重，b表示偏置，g(z)为激活函数，从而使得输出变得非线性，a表示输出，x₁和x₂表示输入，则针对当前结构，输出的可表示为公式(3)。由公式(3)可得，在输入数据和激活函数不变的情况下，神经网络的输出的值a是与权重和偏置有关的。通过调节不同的权重和偏置，神经网络的输出也会有不同的结果。

a＝g(x₁*w₁+x₂*w₂+1*b) (3)

已知神经网络输出的值(预测值)为a，假设其对应的真实值为a'。

对于图3，其BP算法执行如下：

A、在BP算法中，其会先随机初始化每条连接线权重(w₁和w₂)和偏置b；

B、对于输入数据x₁，x₂，BP算法都会先执行前向传输得到预测值a；

C、然后根据真实值a'与预测值a之间的误差

逆向反馈更新神经网络中每条连接线的权重和每层的偏置。

权重和偏置的更新方法如公式(4)-(6)所示，即对E分别求w₁，w₂，b的偏导。其中η表示的是学习率，在此公式中，其是一个设置好的参数。

D、不断重复步骤A-C，直到网络收敛，即E的值最小或者基本保持不变。此刻，表示网络已经训练完毕。

S11：通过Faster-RCNN网络进行图像检测，得到映射点位置：

Faster-RCNN具有从图像内容到位置的预测能力。因此本专利利用该深度网络，当通过足量的数据进行网络的训练之后，我们便可以得到拟合程度最好的手指触摸图像+触摸区域重心点坐标与触摸点在计算机显示屏中对应的位置坐标点之间的映射关系F。利用映射关系F，我们便可以对当前图像中的手指的真实触摸位置所对应在计算机显示屏中的位置进行高精度的预测。

具体如下：

A1、对当前图像进行分析，完成对手指触摸区域的检测和定位；

用户手指触摸投影界面；像计算机通过指令控制摄像机采集投影界面的图；检测定位触摸区域。

A2、得到手指指尖区域重心在摄像机所采集到的图像中的位置坐标和归一化的指尖区域图像。

A3、利用上个步骤中得到的位置坐标以及归一化的指尖区域图像，作为输入，送入到Faster-RCNN网络，从而预测得到计算机显示屏幕中对应映射点的位置，即该点在对应在计算机显示屏幕中的什么位置。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种利用Faster-RCNN对指尖位置进行预测的定位方法，其特征在于，包括以下步骤：

(1)在计算机屏幕上绘制目标点；

(2)利用投影仪投射标定点；

(3)记录目标点在显示屏的坐标位置，将目标点坐标标记为A_i；

(4)用户用手指触摸标定点；

(7)计算并且记录下指尖触摸区域重心在图像中的坐标，将指尖重心坐标记为B_i，则A_i与B_i构成一组坐标点对；(8)在摄像机采集到的图像中，提取手指触摸区域部分，并对其进行归一化处理；

(10)通过Faster-RCNN开始进行映射关系的训练；

(11)通过Faster-RCNN网络进行图像检测，得到映射点位置。

2.根据权利要求1所述的利用Faster-RCNN对指尖位置进行预测的定位方法，其特征在于：所述步骤(6)中，所述二值化处理具体为：获取红外图像的每个像素点并对该像素点进行像素分析，若某个像素点的像素值大于预设值，则该像素点作为前景图像保存，并采用白色显示，若该像素点小于预设值，则采用黑色显示。

3.根据权利要求1所述的利用Faster-RCNN对指尖位置进行预测的定位方法，其特征在于：步骤(6)中，所述连通域分析包括连通域尺寸和形状的分析。

4.根据权利要求1所述的利用Faster-RCNN对指尖位置进行预测的定位方法，其特征在于：步骤(11)中，通过Faster-RCNN网络进行检测，得到映射点位置，具体包括如下步骤：

(A2)获取触摸点重心点坐标以及归一化后的触摸点区域图像；