CN111354007B - 一种基于纯机器视觉定位的投影交互方法 - Google Patents

一种基于纯机器视觉定位的投影交互方法 Download PDF

Info

Publication number
CN111354007B
CN111354007B CN202010132864.4A CN202010132864A CN111354007B CN 111354007 B CN111354007 B CN 111354007B CN 202010132864 A CN202010132864 A CN 202010132864A CN 111354007 B CN111354007 B CN 111354007B
Authority
CN
China
Prior art keywords
projection
image
target
representing
coordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010132864.4A
Other languages
English (en)
Other versions
CN111354007A (zh
Inventor
谢巍
潘春文
王缙
张浪文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010132864.4A priority Critical patent/CN111354007B/zh
Publication of CN111354007A publication Critical patent/CN111354007A/zh
Application granted granted Critical
Publication of CN111354007B publication Critical patent/CN111354007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/042Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
    • G06F3/0428Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means by sensing at the edges of the touch surface the interruption of optical paths, e.g. an illumination plane, parallel to the touch surface which may be virtual
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/12Picture reproducers
    • H04N9/31Projection devices for colour picture display, e.g. using electronic spatial light modulators [ESLM]
    • H04N9/3179Video signal processing therefor
    • H04N9/3182Colour adjustment, e.g. white balance, shading or gamut
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/12Picture reproducers
    • H04N9/31Projection devices for colour picture display, e.g. using electronic spatial light modulators [ESLM]
    • H04N9/3179Video signal processing therefor
    • H04N9/3185Geometric adjustment, e.g. keystone or convergence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20061Hough transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于纯机器视觉定位的投影交互方法,包括以下步骤:S1、对视觉传感器采集的源图像进行灰度化处理,定位出图像中投影区域的边界和四个顶点;S2、建立起由源图像坐标系至投影场景坐标系的坐标映射关系,求解坐标变换矩阵H;S3、基于深度学习中的目标检测算法检测源图像中的交互载体在投影平面上的触点位置;S4、通过步骤S2建立好的坐标变换关系将触点映射至投影场景坐标系下,完成人机交互。针对目前基于红外定位的投影交互方案依赖红外设备的弊端,本发明采用基于直线检测的方法定位出投影平面,采用纯视觉方式定位实现触点检测,通过坐标映射关系,将交互载体坐标映射至投影场景坐标系中,实现精准的交互。

Description

一种基于纯机器视觉定位的投影交互方法
技术领域
本发明涉及投影交互技术、图像处理技术以及深度学习领域,具体涉及一种基于纯机器视觉定位的投影交互方法。
背景技术
随着科技的创新,社会的发展,人机交互技术方式层出不穷,所谓人机交互技术,即是研究计算机与人体之间信息交互的过程。不同的交互方式有着不同的应用场景,如鼠标键盘能准确、快速传递信息,因此在电脑办公领域应用广泛,触摸式显示屏的出现为手机的发展带来了全新的变换;今年来,投影交互系统发展迅速,因此具有成本低、操作方便且具有良好的展示效果,这种方案在会议、教学等场合被广泛应用,发展前景广阔。
然而,而目前市面上的投影互动产品,如红外虚拟键盘(汪忠德.红外虚拟键盘的设计构想[J].计算机工程,2004,30(6):189-191),室外互动投影游戏(张伟东.基于卷积神经网络的投影射箭互动系统研究[D].华南理工大学.2019)等几乎都是采用红外定位技术:利用红外激光发射出与交互平面水平的红外光波,通过红外相机捕获交互平面内由触碰产生的反射光斑作为触控点,以此实现人机交互。该方案原理简单,系统相应快速,是目前最成熟的投影交互方式,但这种方案对场景依赖性高,自然光源中的红外光干扰,交互平面的不平整等因素会直接交互效果。此外,基于红外设备的系统的搭建成本较高,大场景的交互系统往往不可移动,对设备的过度依赖制约着互动投影产品的发展。
发明内容
本发明的目的是针对基于红外定位的投影交互技术方案的不足,实现一种基于纯机器视觉定位的投影交互方法,该方法完全基于视觉算法完成投影平面定位以及投影交互过程,更加有利于投影交互技术的推广。
本发明至少通过如下技术方案之一实现。
一种基于纯机器视觉定位的投影交互方法,包括以下步骤:
S1、对视觉传感器采集的源图像进行灰度化处理,定位出图像中投影区域的边界和四个顶点;
S2、建立起由源图像坐标系至投影场景坐标系的坐标映射关系,求解坐标变换矩阵H;
S3、基于深度学习中的目标检测算法检测源图像中的交互载体在投影平面上的触点位置;
S4、通过步骤S2建立好的坐标变换关系将触点映射至投影场景坐标系下,完成人机交互。
进一步地,步骤S1包括以下步骤:
1.1对源图像按以下公式灰度化:
Gray=R*wr+G*wg+B*wb
其中,R,G,B分别代表RGB图像的三个通道,wr,wa,wb为三个通道的权重,而Gray表示灰度化结果;由于人眼对绿色灵敏度最高,蓝色最低,因此设定wr=0.299,wg=0.587,wb=0.114;
1.2边缘像素点的检测即利用图像处理算法自动检测投影区域的边界,采用Canny算子从灰度化图像中检测出主要的边缘像素点,从而得到Canny图像;
1.3采用霍夫直线检测定位出投影区域的四个顶点,具体如下:
1)对Canny图像进行霍夫直线检测,得到图像直线,并按设定的长度阈值lthreshold筛选出大于该阈值的若干条直线l1,l2...ln
2)将这些直线按照直线与图像中心坐标角度关系分为上下左右四组,并求每组中与中心最接近的直线,共得四条直线lt,lb,ll,lr
3)对这四条直线求两两交点,得投影区域的左上、左下、右下、右上四个顶点:Plt=(xlt,ylt)T,Plb=(xlb,ylb)T,Prb=(xrb,yrb)T,Prt=(xrt,yrt)T,其中T表示转置。
进一步地,步骤S2包括以下步骤:
1.1对于步骤S1得到投影区域的四个顶点,定义其校正后的目标坐标分别为
Figure BDA0002396270660000021
1.2考虑单应性坐标变换:
X2=HX1
其中X1,X2分别为源图像坐标系与目标坐标系的齐次坐标,即
Figure BDA0002396270660000022
其中x1,y1表示源坐标系下的横坐标和纵坐标,x2,y2表示目标坐标系下的横坐标和纵坐标;
H为单应性坐标变换矩阵,h1~h8表示单应性变换矩阵的8个变换自由度参数。
Figure BDA0002396270660000023
将顶点坐标与目标坐标建立坐标变换关系,得到四条方程式:
Figure BDA0002396270660000024
1.3联立以上公式,求解出H的8个参数以确定坐标变换关系。
进一步地,步骤S3中,YOLO网络的损失函数为:
Figure BDA0002396270660000031
其中S2表示YOLO算法将图片分成的网格数,一般是7*7,B表示每个网格将预测的边界框个数;classes表示目标总类别数,c表示该目标所属的类别;
Figure BDA0002396270660000032
表示物体是否落在网格i中,若是则为1,否则为0,/>
Figure BDA0002396270660000033
表明网格i中的第j个边界框是否负责这次预测,若是则为1,否则为0;/>
Figure BDA0002396270660000034
表示该网格不存在目标;Ci代表存在目标的第i个预测框的位置信息,(xi,yi,wi,hi)表示位置信息的横坐标、纵坐标、宽和高,对应的/>
Figure BDA0002396270660000035
为标注的正确的目标位置信息,/>
Figure BDA0002396270660000036
表示正确的目标位置信息的横坐标、纵坐标、宽和高;pi(c),/>
Figure BDA0002396270660000037
分别表示第i个网格为类别c的预测概率和真实概率;λnoobj表示不存在目标的网格部分的损失系数,λcoord表示与坐标信息相关的损失系数;由于训练样本图片的所有网格中,没有目标的网格数一般是大于存在目标的网格数的,因此设置λcoordnoobj使得损失函数更加注重对有目标网格带来的损失。
进一步地,步骤S3包括以下步骤:使用摄像头拍摄投影面,采用使用摄像头拍摄投影面,采用YOLO(You Only Look Once)网络检测交互载体位置,即以视觉传感器采集到的彩色源图像为输入,经过YOLO网络进行一个前向传播,直接得到载体坐标(xa,ya)即触点位置。
进一步地,步骤S4所述的映射过程如下:
将步骤S2建立好的坐标变换关系,按以下公式将载体坐标(xa,ya)映射至投影场景坐标,得到目标坐标(xg,yg):
Figure BDA0002396270660000038
目标坐标(xg,yg)为对投影场景的交互位置。
与现有技术相比,本发明具备以下优点:
1)本发明提出的投影交互方法仅需摄像头、投影仪、计算机,设备成本低;
2)本发明提出的投影交互方法能自动完成投影校正,可移动性强;
3)本发明提出的投影交互方法利用神经网络实现关键目标的定位,定位算法具有良好的稳定性。
附图说明
图1是本实施例的一种基于纯机器视觉定位的投影交互方法的流程图;
图2是本实施例YOLO网络结构图;
图3是本实施例的坐标映射及游戏交互示意图;
图4是本实施例的硬件框架示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示的一种基于纯机器视觉定位的投影交互方法,包括以下步骤:
S1、对视觉传感器采集的源图像进行灰度化处理,定位出图像中投影区域的边界和四个顶点,具体包括以下步骤:
1.1、本发明对视觉传感器无特殊要求,采用常规的usb摄像头即满足要求,本实施例采用HID TTQⅠ型摄像头,利用opencv图像处理库,得到RGB源图像。
由于人眼对绿色敏感度最高,对蓝色敏感度最低,因此按照以下公式对源图像进行灰度化处理:
Gray=R*0.299+G*0.587+B*0.114
其中,R,G,B分别代表RGB图像的三个通道,Gray表示灰度化结果;
1.2、边缘像素点的检测即利用图像处理算法自动检测投影区域的边界,采用Canny算子从灰度化图像中检测出主要的边缘像素点;根据标准的Canny检测流程,对灰度化图像进行如下操作:
1.2.1、图像高斯滤波
由以下公式得到大小为(2k+1)×(2k+1)的高斯核:
Figure BDA0002396270660000041
其中2k+1为高斯核的尺度,Hij为(2k+1)×(2k+1)的离散高斯核,i,j分别表示高斯核的横坐标核纵坐标且i,j∈[1,2k+1],σ2为高斯函数的方差,exp()表示指数函数。设σ=1.4,k=1,得高斯卷积核:
Figure BDA0002396270660000042
使用该高斯核与灰度化图像卷积,得平滑图像。
1.2.2、梯度计算
利用如下的水平、垂直方向的Sobel算子Sx,Sy
Figure BDA0002396270660000051
/>
与平滑图像卷积,得到像素点在水平、垂直方向的一阶导数Gx,Gy,由此计算像素点的梯度G:
Figure BDA0002396270660000052
1.2.3、非极大值抑制
对步骤1.2.2所得的梯度图像上的每个像素点,不能仅由单一的阈值确定该点的保留或被剔除,对于最后得到的边缘图像,是对源图像轮廓的准确描述,因此须进行非极大值抑制:
1)将当前像素的梯度强度与沿正负梯度方向上的两个像素进行比较;
2)如果当前像素的梯度强度与另外两个像素相比最大,则该像素点保留为边缘点,否则该像素点将被抑制。
1.3、采用霍夫直线检测定位出投影区域的四个顶点,包括以下步骤:
1.3.1霍夫变换:考虑一个点(xi,yi)和一条直线的斜截式方程
yi=axi+b
通过点(xi,yi)的直线有无数条,且对不同的斜率a和截距b的值都满足这个等式yi=axi+b,将等式写成
b=-axi+yi
的形式并参考ab平面将得到对于定点(xi,yi)的唯一直线方程。在参数空间中,第2点(zj,wj)也有与之相关的一条直线,且这条直线与(xi,yi)相关的直线相交于(a',b')点。这里a'是斜率,b'是xy平面上包含点(xi,yi)和点(zj,wj)的直线的截距。对平面上的n个点,每个点都求其在ab平面的直线,并计算这些直线在ab平面上的交点,对于ab平面上的每个点(ai,bj),记录被直线穿过的个数cij
1.3.2直线筛选与顶点计算
步骤1.2有效地将投影界面边界主轮廓提取了出来,经步骤1.3.1的霍夫直线检测后会得到许多重复的直线,因此需要进一步过滤这些直线,得到四条边,包括以下步骤:
(1)确定图像中心位置(xc,yc),计算每条直线相对于该中心的旋转角度,具体做法为:
计算每条直线中点坐标(xl,yl),以(xc,yc)为极坐标中心,确定(xl,yl)的极坐标位置以求得极坐标角度θl,θl∈[0,360];
(2)根据θl将每条直线分为四组:
Figure BDA0002396270660000053
这四组分别对应以(xc,yc)为中心的左(Left)、右(Buttom)、下(Right)、上(Top)四个方向的直线集合,在每个集合当中,选出与(xc,yc)距离最接近的直线;
(3)计算边界顶点
根据所得的四条直线,求两两相加顶点,求得四个顶点xt,xb,xl,xr,至此投影区域的定位结束。
S2、建立起由源图像坐标系至投影场景坐标系的坐标映射关系,求解坐标变换矩阵H;在坐标变换中,常见的有平移、旋转、缩放、错切变换等等。一个投影图像经设备投影至墙面后再由摄像头获取,图像坐标系通常不会只是经过一种简单的变换,因此要考虑足够复杂的情况,考虑单应性坐标变换,进行如下步骤:
1.1对于步骤S1得到投影区域的四个顶点,定义其校正后的目标坐标分别为
Figure BDA0002396270660000061
其中
Figure BDA0002396270660000062
分别表示目标坐标系下的左上顶点、左下顶点、右下顶点以及右上顶点;
1.2考虑单应性坐标变换:
X2=HX1
其中X1,X2分别为源图像坐标系与目标坐标系的齐次坐标,即
Figure BDA0002396270660000063
其中x1,y1表示源坐标系下的横坐标和纵坐标,x2,y2表示目标坐标系下的横坐标和纵坐标;
H为单应性坐标变换矩阵,h1~h8表示单应性变换矩阵的8个变换自由度参数。
Figure BDA0002396270660000064
将顶点坐标与目标坐标建立坐标变换关系,得到四条方程式:
Figure BDA0002396270660000065
1.3联立以上公式,求解出H的8个参数以确定坐标变换关系。
S3、基于深度学习中的目标检测算法检测源图像中的交互载体在投影平面上的触点位置;具体的使用摄像头拍摄投影面,使用摄像头拍摄投影面,采用YOLO网络检测交互载体位置,即以视觉传感器采集到的彩色源图像(未经处理的彩色源图像)为输入,经过YOLO网络进行一个前向传播,直接得到载体坐标(xa,ya)即触点位置。
YOLO网络作为一种新型的目标检测网络结构,与以往检测网络不同的是,以往的网络一般都会将检测问题转化成分类问题,而YOLO网络将目标检测问题转换成分别对空间的边界框和分类上的物体类别概率的回归。YOLO网络提出一个能直接从整幅图像上预测边界框和类别概率的神经网络结构,且由于预测工作全部都在一个网络中完成,该网络可以直接地完成从端到端的优化工作。YOLO网络结构如附图2所示,图像经YOLO网络前向计算过程如表1所示:
表1图像经YOLO网络前向计算过程
Figure BDA0002396270660000071
/>
Figure BDA0002396270660000081
YOLO网络参数的确定:YOLO网络最后输出一个大小为S×S×(B×5+C)的张量,其中,S×S表示将图像分割的网格数,默认7×7;B为每个网格预测的边框数,默认2;C为类别数,本发明使用弓箭作为被检测对象,因此C为1。YOLO网络的损失函数为:
Figure BDA0002396270660000082
其中S2表示YOLO算法将图片分成的网格数,一般是7*7,B表示每个网格将预测的边界框个数;classes表示目标总类别数,c表示该目标所属的类别;
Figure BDA0002396270660000083
表示物体是否落在网格i中,若是则为1,否则为0,/>
Figure BDA0002396270660000091
表明网格i中的第j个边界框是否负责这次预测,若是则为1,否则为0;/>
Figure BDA0002396270660000092
表示该网格不存在目标;Ci代表存在目标的第i个预测框的位置信息,(xi,yi,wi,hi)对应(横坐标,纵坐标,宽,高)以及置信度,对应的/>
Figure BDA0002396270660000093
为标注的正确的目标位置信息,/>
Figure BDA0002396270660000094
对应(横坐标,纵坐标,宽,高),因此/>
Figure BDA0002396270660000095
为1;pi(c),/>
Figure BDA0002396270660000096
分别表示第i个网格为类别c的预测概率和真实概率;λnoobj表示不存在目标的网格部分的损失系数,λcoord表示与坐标信息相关的损失系数。由于训练样本图片的所有网格中,没有目标的网格数一般是大于存在目标的网格数的,因此设置λcoordnoobj使得损失函数更加注重对有目标网格带来的损失,一般将λcoord设为2,并将λnoobj设为0.5。
训练YOLO网络,具体如下:
1)由视觉传感器收集含有弓箭箭矢的训练图像,约400张;
2)利用梯度下降法训练YOLO网络;
深度学习中,经常使用于网络模型训练的算法是如下的梯度下降法:
对于关于YOLO网络中的参数向量θ的损失函数L(θ)的一阶泰勒展开:
Figure BDA0002396270660000097
其中,Δθ表示θ的增量。
对于一个非负的L(θ),它随着训练的进行越小越好,最好使得
Figure BDA0002396270660000098
这时能使得每次训练后的损失函数比前一次小,因此训练过程如表1的描述:
表1网络模型训练过程
Figure BDA0002396270660000099
其中k表示训练的总迭代次数,设定为10000;η表示梯度步长,设定为0.0001;θk表示第k次迭代更新后的θ值;L(θk)表示当θ=θk时的L(θ)值。
S4、通过步骤S2建立好的坐标变换关系将触点映射至投影场景坐标系下,完成人机游戏交互。YOLO网络在摄像头采集的图像上进行计算,预测出交互对象在图像中的边界框坐标,计算交互对象在图像的中心(xa,ya),并由所求得的单应性矩阵H阵求得在虚拟场景中对应的坐标位置(xg,yg,O)完成交互,如图3所示,映射过程如下:
将步骤S2建立好的坐标变换关系,按以下公式将载体坐标(xa,ya)映射至投影场景坐标,得到目标坐标(xg,yg):
Figure BDA0002396270660000101
目标坐标(xg,yg)为对投影场景的交互位置。
本发明的硬件框架,如图4所示:
投影仪1将虚拟场景投射到交互平面上(如墙体),玩家手持吸盘弓箭2瞄准并射击投影区域的目标;视觉传感器(单目彩色摄像头3)将图像通过USB传给主机4,主机4通过解析出交互信息,并在虚拟场景中展示出来。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (3)

1.一种基于纯机器视觉定位的投影交互方法,其特征在于,包括以下步骤:
S1、对视觉传感器采集的源图像进行灰度化处理,定位出图像中投影区域的边界和四个顶点;包括以下步骤:
1.1对源图像按以下公式灰度化:
Gray=R*wr+G*wg+B*wb
其中,R,G,B分别代表RGB图像的三个通道,wr,wg,wb为三个通道的权重,而Gray表示灰度化结果;
1.2边缘像素点的检测即利用图像处理算法自动检测投影区域的边界,采用Canny算子从灰度化图像中检测出边缘像素点,从而得到Canny图像;
1.3采用霍夫直线检测定位出投影区域的四个顶点,具体如下:
1)对Canny图像进行霍夫直线检测,得到图像直线,并按设定的长度阈值lthreshold筛选出大于该阈值的直线l1,l2...ln
2)将这些直线按照直线与图像中心坐标角度关系分为上下左右四组,并求每组中与中心最接近的直线,共得四条直线lt,lb,ll,lr
3)对这四条直线求两两交点,得投影区域的左上、左下、右下、右上四个顶点:Plt=(xlt,ylt)T,Plb=(xlb,ylb)T,Prb=(xrb,yrb)T,Prt=(xrt,yrt)T,其中T表示转置;
S2、建立起由源图像坐标系至投影场景坐标系的坐标映射关系,求解坐标变换矩阵H;具体如下:
1)对于步骤S1得到投影区域的四个顶点,定义其校正后的目标坐标分别为:
Figure FDA0004096316920000011
2)考虑单应性坐标变换:
X2=HX1
其中X1,X2分别为源图像坐标系与目标坐标系的齐次坐标,即
Figure FDA0004096316920000012
其中x1,y1表示源坐标系下的横坐标和纵坐标,x2,y2表示目标坐标系下的横坐标和纵坐标;
H为单应性坐标变换矩阵,h1~h8表示单应性变换矩阵的8个变换自由度参数
Figure FDA0004096316920000013
将四个顶点坐标与目标坐标建立坐标变换关系,得到四条方程式:
Figure FDA0004096316920000014
/>
3)联立以上公式,求解出H的8个参数以确定坐标变换关系;
S3、基于深度学习中的目标检测算法检测源图像中的交互载体在投影平面上的触点位置;包括以下步骤:使用摄像头拍摄投影面,采用YOLO网络检测交互载体位置,即以视觉传感器采集到的彩色源图像为输入,经过YOLO网络进行一个前向传播,直接得到载体坐标(xa,ya)即触点位置;
S4、通过步骤S2建立好的坐标变换关系将触点映射至投影场景坐标系下,完成人机交互。
2.根据权利要求1所述的一种基于纯机器视觉定位的投影交互方法,其特征在于,YOLO网络的损失函数为:
Figure FDA0004096316920000021
其中S2表示YOLO算法将图片分成的网格数,一般是7*7,B表示每个网格将预测的边界框个数;classes表示目标总类别数,c表示该目标所属的类别;
Figure FDA0004096316920000022
表示物体是否落在网格i中,若是则为1,否则为0,/>
Figure FDA0004096316920000023
表明网格i中的第j个边界框是否负责这次预测,若是则为1,否则为0;/>
Figure FDA0004096316920000024
表示该网格不存在目标;Ci代表存在目标的第i个预测框的位置信息,(xi,yi,wi,hi)表示位置信息的横坐标、纵坐标、宽和高,对应的/>
Figure FDA0004096316920000025
为标注的正确的目标位置信息,
Figure FDA0004096316920000026
表示正确的目标位置信息的横坐标、纵坐标、宽和高;pi(c),/>
Figure FDA0004096316920000027
分别表示第i个网格为类别c的预测概率和真实概率;λnoobj表示不存在目标的网格部分的损失系数,λcoord表示与坐标信息相关的损失系数;由于训练样本图片的所有网格中,没有目标的网格数一般是大于存在目标的网格数的,因此设置λcoord>λnoobj使得损失函数更加注重对有目标网格带来的损失。
3.根据权利要求1所述的一种基于纯机器视觉定位的投影交互方法,其特征在于,步骤S4所述的映射过程如下:
将步骤S2建立好的坐标变换关系,按以下公式将载体坐标(xa,ya)映射至投影场景坐标,得到目标坐标(xg,yg):
Figure FDA0004096316920000031
目标坐标(xg,yg)为对投影场景的交互位置。
CN202010132864.4A 2020-02-29 2020-02-29 一种基于纯机器视觉定位的投影交互方法 Active CN111354007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010132864.4A CN111354007B (zh) 2020-02-29 2020-02-29 一种基于纯机器视觉定位的投影交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010132864.4A CN111354007B (zh) 2020-02-29 2020-02-29 一种基于纯机器视觉定位的投影交互方法

Publications (2)

Publication Number Publication Date
CN111354007A CN111354007A (zh) 2020-06-30
CN111354007B true CN111354007B (zh) 2023-05-23

Family

ID=71194217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010132864.4A Active CN111354007B (zh) 2020-02-29 2020-02-29 一种基于纯机器视觉定位的投影交互方法

Country Status (1)

Country Link
CN (1) CN111354007B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111935468B (zh) * 2020-09-24 2021-01-22 歌尔股份有限公司 投影中心的偏移检测方法、装置及计算机可读存储介质
CN112464854A (zh) * 2020-12-09 2021-03-09 北京四方继保工程技术有限公司 基于深度学习的机械隔离刀闸的状态精确判断方法及系统
CN112657176A (zh) * 2020-12-31 2021-04-16 华南理工大学 一种结合人像行为信息的双目投影人机交互方法
CN113916906B (zh) * 2021-09-03 2024-01-09 江苏理工学院 视觉检测系统led光源照度优化方法及所用实验设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145756A (zh) * 2018-07-24 2019-01-04 湖南万为智能机器人技术有限公司 基于机器视觉和深度学习的目标检测方法
CN110334678A (zh) * 2019-07-12 2019-10-15 哈尔滨理工大学 一种基于视觉融合的行人检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4629131B2 (ja) * 2008-09-03 2011-02-09 大日本印刷株式会社 画像変換装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145756A (zh) * 2018-07-24 2019-01-04 湖南万为智能机器人技术有限公司 基于机器视觉和深度学习的目标检测方法
CN110334678A (zh) * 2019-07-12 2019-10-15 哈尔滨理工大学 一种基于视觉融合的行人检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
裴娅男 ; .单幅图像三维目标定位及重建.长春工业大学学报(自然科学版).2014,(06),第 66-73页. *

Also Published As

Publication number Publication date
CN111354007A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN111354007B (zh) 一种基于纯机器视觉定位的投影交互方法
CN110411339B (zh) 一种基于平行激光束的水下目标尺寸测量设备及方法
US6788809B1 (en) System and method for gesture recognition in three dimensions using stereo imaging and color vision
CN111754552A (zh) 一种基于深度学习的多摄像头协同目标跟踪方法
CN111401266B (zh) 绘本角点定位的方法、设备、计算机设备和可读存储介质
CN111144207B (zh) 一种基于多模态信息感知的人体检测和跟踪方法
CN108181319A (zh) 一种基于立体视觉的积尘检测装置及方法
CN110189375B (zh) 一种基于单目视觉测量的图像目标识别方法
CN112657176A (zh) 一种结合人像行为信息的双目投影人机交互方法
CN109785373B (zh) 一种基于散斑的六自由度位姿估计系统及方法
CN109271023B (zh) 一种基于三维对象外形轮廓徒手手势动作表达的选择方法
CN112435252B (zh) 一种战斗部破片穿孔和凹坑检测方法
CN112667078B (zh) 基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质
CN107507263B (zh) 一种基于图像的纹理生成方法及系统
US20210090339A1 (en) Virtuality-reality overlapping method and system
CN109613974B (zh) 一种大场景下的ar家居体验方法
CN108596947B (zh) 一种适用于rgb-d相机的快速目标跟踪方法
CN108629742B (zh) 真正射影像阴影检测与补偿方法、装置及存储介质
Zou et al. Microarray camera image segmentation with Faster-RCNN
WO2023280082A1 (zh) 一种手柄inside-out视觉6自由度定位方法及系统
CN107274477B (zh) 一种基于三维空间表层的背景建模方法
CN113642397A (zh) 一种基于手机视频的物体长度测量方法
CN112950565A (zh) 一种数据中心漏水检测与定位的方法、设备和数据中心
CN116152121B (zh) 基于畸变参数的曲面屏生成方法、矫正方法
CN113963107B (zh) 一种基于双目视觉的大型目标三维重建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant