CN108089753B - 一种利用Faster-RCNN对指尖位置进行预测的定位方法 - Google Patents
一种利用Faster-RCNN对指尖位置进行预测的定位方法 Download PDFInfo
- Publication number
- CN108089753B CN108089753B CN201711465239.6A CN201711465239A CN108089753B CN 108089753 B CN108089753 B CN 108089753B CN 201711465239 A CN201711465239 A CN 201711465239A CN 108089753 B CN108089753 B CN 108089753B
- Authority
- CN
- China
- Prior art keywords
- point
- image
- finger
- coordinate
- rcnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/041—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
- G06F3/0416—Control or interface arrangements specially adapted for digitisers
- G06F3/0418—Control or interface arrangements specially adapted for digitisers for error correction or compensation, e.g. based on parallax, calibration or alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
- Position Input By Displaying (AREA)
Abstract
本发明涉及一种利用Faster‑RCNN对指尖位置进行预测的定位方法,包括以下步骤:绘制目标点并利用投影仪投射标定点;记录目标点在显示屏的坐标位置;用户用手指触摸目标点;照亮手指指尖区域并获取此刻图像;对当前手指触摸区域的检测,计算并且记录下触摸点重心点在图像中的坐标;提取手指触摸区域部分,并对其进行归一化处理;重复上述步骤多次,获取多组坐标点对以及不同的手指触摸区域;通过Faster‑RCNN开始进行映射关系的训练及图像检测,得到映射点位置。本发明通过将红外图像中手指区域的图像以及手指区域的重心点坐标作为网络的输入,并与真实位置进行映射训练,从而获取高精度的映射关系,实现手指触摸位置的精确计算。
Description
技术领域
本发明涉及投影交互系统中的指尖定位技术领域,具体涉及一种利用Faster-RCNN对指尖位置进行预测的定位方法。
背景技术
在投影交互系统中,利用手指进行操控时,总是会出现少量的偏差,导致不能进行高精度的触控,从而影响用户体验。在投影交互系统存在一种映射关系,当手指触摸到投影界面并对其操作的时候,摄像机会采集投影界面区域的照片,因此在摄像机采集到的图像中,手指区域在图像中,会存在一个坐标,然后,计算机会将这个坐标映射到计算机显示屏中的某一个位置,便同时会在计算机显示屏中,对该映射位置进行操作。如果这种映射关系求解的不精准,则可能会出现操作错误的问题。比如:用户在投影界面中对图标A进行点击,则如果映射关系不准确,其会在计算机的显示屏中,对图标B进行操作,这样就无法完成投影交互,因此,构建高精度的映射关系对于投影交互系统的来说非常重要。
Fast-RCNN是一个基于深度卷积神经网络,目前被广泛应用于运动的目标检测,且Fast-RCNN可以在很短的时间内(约0.5秒)实现对运动目标的检测,极大地满足实时性的检测,准确度也相对较高。
发明内容
本发明的目的在于提供一种利用Faster-RCNN对指尖位置进行预测的定位方法,通过将红外图像中手指区域的图像以及手指区域的重心点坐标作为网络的输入,并与真实位置进行映射训练,从而获取高精度的映射关系,实现手指触摸位置的精确计算。
为实现上述目的,本发明采用了以下技术方案:
一种利用Faster-RCNN对指尖位置进行预测的定位方法,包括以下步骤:
(1)在计算机屏幕上绘制目标点;
(2)利用投影仪投射标定点;
(3)记录目标点在显示屏的坐标位置,标记为Ai;
(4)用户用手指触摸目标点;
(5)采用红外激光器发射的红外线照亮手指指尖区域,并通过红外摄像机获取此刻图像;
(6)对获取的红外图像,进行二值化处理与连通域分析,实现对当前手指触摸区域的检测;
(7)计算并且记录下触摸点重心点在图像中的坐标,记为Bi,则Ai与Bi构成一组坐标点对;
(8)在摄像机采集到的图像中,提取手指触摸区域部分,并对其进行归一化处理;
(9)重复上述步骤多次,获取多组坐标点对以及不同的手指触摸区域;
(10)通过Faster-RCNN开始进行映射关系的训练;
(11)通过Faster-RCNN网络进行图像检测,得到映射点位置。
进一步的,所述步骤(6)中,所述二值化处理具体为:获取红外图像的每个像素点并对该像素点进行像素分析,若某个像素点的像素值大于预设值,则该像素点作为前景图像保存,并采用白色显示,若该像素点小于预设值,则采用黑色显示。
进一步的,步骤(6)中,所述连通域分析包括连通域尺寸和形状的分析。
进一步的,步骤(11)中,所述对当前图像进行分析,通过Faster-RCNN网络进行检测,得到映射点位置,具体包括如下步骤:
(A1)对当前图像进行分析,完成对手指触摸区域的检测和定位;
(A2)获取触摸点重心点坐标以及归一化后的触摸点区域图像;
(A3)将重心点坐标和归一化图像作为输入,送入到Faster-RCNN网络进行检测,预测得到映射点位置。
由上述技术方案可知,本发明所述的利用Faster-RCNN对指尖位置进行预测的定位方法,通过将红外图像中手指区域的图像以及手指区域的重心点坐标作为网络的输入,并与真实位置进行映射训练,从而获取高精度的映射关系,实现手指触摸位置的精确计算。通过实践发现,效果能够很好地满足用户的投影交互要求。
附图说明
图1是本发明的方法流程图;
图2是本发明相邻像素定义的示意图;
图3是本发明单个神经元结构的示意图。
具体实施方式
下面结合附图对本发明做进一步说明:
如图1所示,本实施例的一种利用Faster-RCNN对指尖位置进行预测的定位方法,具体包括如下步骤:
S1:在计算机的显示屏幕中,绘制白色的实心圆形的标定点,其中实心的圆形标定点的半径是5个像素长度;
S2:然后利用与计算机相连接的投影仪,将计算机屏幕中的内容,投射到投影界面上。故在投影界面中,我们可以看到白色的投影点。
S3:对于计算机的显示屏幕,记录该白色标定点在显示屏中的坐标位置,记为Ai。
S4:在投影界面中,用户用手指触摸该白色的投影点;
S5:采用红外激光器发射的红外线照亮手指指尖区域,并通过红外摄像机获取此刻图像:在投影界面的正上方有一个红外激光器,该激光器在打开后,是沿着与投影界面平行的方向不间断地发射红外射线。故当手指触摸到投影界面的白色投影点的时候,手指指尖区域会被红外线所照亮;
在正对着投影屏幕的方向,有一个红外摄像机。该摄像机是实时采集投影界面的画面,从中我们可以获取到手指触摸投影界面中白色投影点的时候的画面,并记为P。
S6:对获取的红外图像,进行二值化处理与连通域分析,实现对当前手指触摸区域的检测:如对图像P进行二值化操作以及连通域分析,在图像P中获取到手指的触摸区域。具体方法如下:
A、二值化处理:
对于图像P中的每个像素点(x,y),如果该点对应的像素值大于20(经验值),则将该点(x,y)作为前景像素保留下来,并将该点的像素值置为1,如果该点对应的像素值小于20,将该点的像素值变成0,二值化后的图像记为Q。在图像Q中,像素值为1点的坐标点将会显示为白色,否则,则会显示为黑色。
B、连通域分析
B-1、生成连通域
逐像素点遍历图像Q,如果相邻的两个像素其像素值都不为0,则将这两个像素划入到同一个连通域中,最终我们可得多个连通域。两个像素相邻的定义如图2所示。对于像素x,像素1-8均是其相邻的像素,如图2所示。
B-2、连通域尺寸、形状分析
经过上一个步骤,我们可以获取到多个连通域,这些多个连通域中,可能包含一些噪声区域(光线照射导致的以及衣服袖口引入到投影界面中)以及手指指尖区域。故我们需要将手指的指尖从中提取出来。
B-2-1、尺寸分析
对于图像Q的每个连通域进行求取连通域的外接矩形。如果外界矩形的长度和宽度均大于20个像素(经验阈值),则认为不是指尖区域(指尖区域的尺寸不可能过小)。否则,继续进行下一步的判断。
B-2-2、形状分析
由于指尖区域的形状接近圆形,故对于该连通域的外接矩形来说,如果外接矩形的长宽比大于1.5,则可以将其过滤,最终,选择外接矩形长宽最接近1的连通域作为指尖区域,该连通域记为I。
S7:计算并且记录下触摸点重心点在图像中的坐标,记为Bi,则Ai与Bi构成一组坐标点对;
如在图像Q,计算连通域的重心坐标Bi。其中Bi的横坐标和纵坐标的计算方法分别如公式(1)和公式(2)所示,其中xi表示在该连通域中某一个像素点的x坐标,yi表示在该连通域中某一个像素点的y坐标,n表示在该连通域内像素点的个数。则坐标点Ai与Bi便构成了一组映射关系的坐标对。
S8:在摄像机采集到的图像中,提取手指触摸区域部分,并对其进行归一化处理;如在原始图像P中,提取连通域I所对应的区域部分,然后将提取的区域部分进行归一化操作,使其尺寸大小为224*224像素大小。
S9:重复上述步骤多次,获取多组坐标点对以及不同的手指触摸区域;
如重复执行步骤S1-S9多次,且确保每次在计算机的显示屏幕中的不同位置绘制标定点,然后采用投影仪进行投射画面。这样,我们便可以获取到多组映射关系的坐标对以及尺寸大小相同的指尖区域图像。
S10:通过Faster-RCNN开始进行映射关系的训练,训练如下的映射关系:
手指触摸图像+触摸区域重心点坐标,映射到该触摸点在计算机显示屏中对应的位置坐标点。
(1)输入包括两部分:归一化的手指指尖触摸图像、手指指尖区域的重心点坐标。
(2)输出:计算机显示屏中对应的位置坐标点。
(3)训练策略:常规的BP训练方法,通过使用BP算法来更新神经元的权重和偏置,最终使得神经网络达到收敛状态,具体解析如下。
简单小神经网络的结构可如图3所示,其中每一个圆圈代表着一个神经元,w1和w2代表神经元之间的权重,b表示偏置,g(z)为激活函数,从而使得输出变得非线性,a表示输出,x1和x2表示输入,则针对当前结构,输出的可表示为公式(3)。由公式(3)可得,在输入数据和激活函数不变的情况下,神经网络的输出的值a是与权重和偏置有关的。通过调节不同的权重和偏置,神经网络的输出也会有不同的结果。
a=g(x1*w1+x2*w2+1*b) (3)
已知神经网络输出的值(预测值)为a,假设其对应的真实值为a'。
对于图3,其BP算法执行如下:
A、在BP算法中,其会先随机初始化每条连接线权重(w1和w2)和偏置b;
B、对于输入数据x1,x2,BP算法都会先执行前向传输得到预测值a;
权重和偏置的更新方法如公式(4)-(6)所示,即对E分别求w1,w2,b的偏导。其中η表示的是学习率,在此公式中,其是一个设置好的参数。
D、不断重复步骤A-C,直到网络收敛,即E的值最小或者基本保持不变。此刻,表示网络已经训练完毕。
S11:通过Faster-RCNN网络进行图像检测,得到映射点位置:
Faster-RCNN具有从图像内容到位置的预测能力。因此本专利利用该深度网络,当通过足量的数据进行网络的训练之后,我们便可以得到拟合程度最好的手指触摸图像+触摸区域重心点坐标与触摸点在计算机显示屏中对应的位置坐标点之间的映射关系F。利用映射关系F,我们便可以对当前图像中的手指的真实触摸位置所对应在计算机显示屏中的位置进行高精度的预测。
具体如下:
A1、对当前图像进行分析,完成对手指触摸区域的检测和定位;
用户手指触摸投影界面;像计算机通过指令控制摄像机采集投影界面的图;检测定位触摸区域。
A2、得到手指指尖区域重心在摄像机所采集到的图像中的位置坐标和归一化的指尖区域图像。
A3、利用上个步骤中得到的位置坐标以及归一化的指尖区域图像,作为输入,送入到Faster-RCNN网络,从而预测得到计算机显示屏幕中对应映射点的位置,即该点在对应在计算机显示屏幕中的什么位置。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (4)
1.一种利用Faster-RCNN对指尖位置进行预测的定位方法,其特征在于,包括以下步骤:
(1)在计算机屏幕上绘制目标点;
(2)利用投影仪投射标定点;
(3)记录目标点在显示屏的坐标位置,将目标点坐标标记为Ai;
(4)用户用手指触摸标定点;
(5)采用红外激光器发射的红外线照亮手指指尖区域,并通过红外摄像机获取此刻图像;
(6)对获取的红外图像,进行二值化处理与连通域分析,实现对当前手指触摸区域的检测;
(7)计算并且记录下指尖触摸区域重心在图像中的坐标,将指尖重心坐标记为Bi,则Ai与Bi构成一组坐标点对;(8)在摄像机采集到的图像中,提取手指触摸区域部分,并对其进行归一化处理;
(9)重复上述步骤多次,获取多组坐标点对以及不同的手指触摸区域;
(10)通过Faster-RCNN开始进行映射关系的训练;
(11)通过Faster-RCNN网络进行图像检测,得到映射点位置。
2.根据权利要求1所述的利用Faster-RCNN对指尖位置进行预测的定位方法,其特征在于:所述步骤(6)中,所述二值化处理具体为:获取红外图像的每个像素点并对该像素点进行像素分析,若某个像素点的像素值大于预设值,则该像素点作为前景图像保存,并采用白色显示,若该像素点小于预设值,则采用黑色显示。
3.根据权利要求1所述的利用Faster-RCNN对指尖位置进行预测的定位方法,其特征在于:步骤(6)中,所述连通域分析包括连通域尺寸和形状的分析。
4.根据权利要求1所述的利用Faster-RCNN对指尖位置进行预测的定位方法,其特征在于:步骤(11)中,通过Faster-RCNN网络进行检测,得到映射点位置,具体包括如下步骤:
(A1)对当前图像进行分析,完成对手指触摸区域的检测和定位;
(A2)获取触摸点重心点坐标以及归一化后的触摸点区域图像;
(A3)将重心点坐标和归一化图像作为输入,送入到Faster-RCNN网络进行检测,预测得到映射点位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711465239.6A CN108089753B (zh) | 2017-12-28 | 2017-12-28 | 一种利用Faster-RCNN对指尖位置进行预测的定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711465239.6A CN108089753B (zh) | 2017-12-28 | 2017-12-28 | 一种利用Faster-RCNN对指尖位置进行预测的定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108089753A CN108089753A (zh) | 2018-05-29 |
CN108089753B true CN108089753B (zh) | 2021-03-09 |
Family
ID=62180428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711465239.6A Active CN108089753B (zh) | 2017-12-28 | 2017-12-28 | 一种利用Faster-RCNN对指尖位置进行预测的定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108089753B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109085174A (zh) * | 2018-07-02 | 2018-12-25 | 北京百度网讯科技有限公司 | 显示屏外围电路检测方法、装置、电子设备及存储介质 |
CN110941367A (zh) * | 2018-09-25 | 2020-03-31 | 福州瑞芯微电子股份有限公司 | 一种基于双摄的识别方法及终端 |
CN110928457B (zh) * | 2019-11-13 | 2020-06-26 | 南京甄视智能科技有限公司 | 基于红外相机的平面触摸方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591533A (zh) * | 2012-03-01 | 2012-07-18 | 桂林电子科技大学 | 基于计算机视觉技术的多点触摸屏系统实现方法与装置 |
CN103714345A (zh) * | 2013-12-27 | 2014-04-09 | Tcl集团股份有限公司 | 一种双目立体视觉检测手指指尖空间位置的方法与系统 |
CN106095201A (zh) * | 2016-05-30 | 2016-11-09 | 安徽慧视金瞳科技有限公司 | 一种投影交互系统的双击检测方法 |
US20170024015A1 (en) * | 2014-04-03 | 2017-01-26 | Huawei Technologies Co., Ltd. | Pointing interaction method, apparatus, and system |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9733764B2 (en) * | 2015-11-20 | 2017-08-15 | International Business Machines Corporation | Tracking of objects using pre-touch localization on a reflective surface |
CN107197155B (zh) * | 2017-06-26 | 2020-01-14 | Tcl移动通信科技(宁波)有限公司 | 一种拍照后对焦的方法、系统、移动终端及存储装置 |
-
2017
- 2017-12-28 CN CN201711465239.6A patent/CN108089753B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591533A (zh) * | 2012-03-01 | 2012-07-18 | 桂林电子科技大学 | 基于计算机视觉技术的多点触摸屏系统实现方法与装置 |
CN103714345A (zh) * | 2013-12-27 | 2014-04-09 | Tcl集团股份有限公司 | 一种双目立体视觉检测手指指尖空间位置的方法与系统 |
US20170024015A1 (en) * | 2014-04-03 | 2017-01-26 | Huawei Technologies Co., Ltd. | Pointing interaction method, apparatus, and system |
CN106095201A (zh) * | 2016-05-30 | 2016-11-09 | 安徽慧视金瞳科技有限公司 | 一种投影交互系统的双击检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108089753A (zh) | 2018-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | Two-stage learning to predict human eye fixations via SDAEs | |
CA2949844C (en) | System and method for identifying, analyzing, and reporting on players in a game from video | |
CN111192293B (zh) | 一种运动目标位姿跟踪方法及装置 | |
US20220051004A1 (en) | Image processing method, apparatus, device and storage medium | |
US11017210B2 (en) | Image processing apparatus and method | |
CN108399386A (zh) | 饼图中的信息提取方法及装置 | |
CN108089753B (zh) | 一种利用Faster-RCNN对指尖位置进行预测的定位方法 | |
CN103677274B (zh) | 一种基于主动视觉的互动投影方法及系统 | |
CN111656358A (zh) | 分析捕获的图像以确定测试成果 | |
JP2021103555A (ja) | 画像検出方法、装置、電子設備、記憶媒体、及びプログラム | |
CN109558902A (zh) | 一种快速目标检测方法 | |
CN112115894B (zh) | 手部关键点检测模型的训练方法、装置及电子设备 | |
CN109614990A (zh) | 一种目标检测装置 | |
WO2021217937A1 (zh) | 姿态识别模型的训练方法及设备、姿态识别方法及其设备 | |
JP7008081B2 (ja) | ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム | |
CN114882301B (zh) | 基于感兴趣区域的自监督学习医学图像识别方法及装置 | |
EP2879018A1 (en) | Estimating gaze from un-calibrated eye measurement points | |
CN115861715A (zh) | 基于知识表示增强的图像目标关系识别算法 | |
Ho et al. | Evaluating 2D flow visualization using eye tracking | |
CN111832401A (zh) | 一种电子阅卷识别方法 | |
WO2024021321A1 (zh) | 模型生成的方法、装置、电子设备和存储介质 | |
KR102129042B1 (ko) | 머신러닝 기반 영상 내의 대상 카운팅 장치 및 방법 | |
Yildirim et al. | Evaluating salient object detection in natural images with multiple objects having multi‐level saliency | |
Bannister et al. | Comparing 2D and 3D representations for face-based genetic syndrome diagnosis | |
CN111968030B (zh) | 信息生成方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 230000 Yafu Park, Juchao Economic Development Zone, Chaohu City, Hefei City, Anhui Province Applicant after: ANHUI HUISHI JINTONG TECHNOLOGY Co.,Ltd. Address before: 102, room 602, C District, Hefei National University, Mount Huangshan Road, 230000 Hefei Road, Anhui, China Applicant before: ANHUI HUISHI JINTONG TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |