CN111354007B - 一种基于纯机器视觉定位的投影交互方法 - Google Patents
一种基于纯机器视觉定位的投影交互方法 Download PDFInfo
- Publication number
- CN111354007B CN111354007B CN202010132864.4A CN202010132864A CN111354007B CN 111354007 B CN111354007 B CN 111354007B CN 202010132864 A CN202010132864 A CN 202010132864A CN 111354007 B CN111354007 B CN 111354007B
- Authority
- CN
- China
- Prior art keywords
- projection
- image
- target
- representing
- coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/041—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
- G06F3/042—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
- G06F3/0428—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means by sensing at the edges of the touch surface the interruption of optical paths, e.g. an illumination plane, parallel to the touch surface which may be virtual
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/12—Picture reproducers
- H04N9/31—Projection devices for colour picture display, e.g. using electronic spatial light modulators [ESLM]
- H04N9/3179—Video signal processing therefor
- H04N9/3182—Colour adjustment, e.g. white balance, shading or gamut
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/12—Picture reproducers
- H04N9/31—Projection devices for colour picture display, e.g. using electronic spatial light modulators [ESLM]
- H04N9/3179—Video signal processing therefor
- H04N9/3185—Geometric adjustment, e.g. keystone or convergence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20061—Hough transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于纯机器视觉定位的投影交互方法,包括以下步骤:S1、对视觉传感器采集的源图像进行灰度化处理,定位出图像中投影区域的边界和四个顶点;S2、建立起由源图像坐标系至投影场景坐标系的坐标映射关系,求解坐标变换矩阵H;S3、基于深度学习中的目标检测算法检测源图像中的交互载体在投影平面上的触点位置;S4、通过步骤S2建立好的坐标变换关系将触点映射至投影场景坐标系下,完成人机交互。针对目前基于红外定位的投影交互方案依赖红外设备的弊端,本发明采用基于直线检测的方法定位出投影平面,采用纯视觉方式定位实现触点检测,通过坐标映射关系,将交互载体坐标映射至投影场景坐标系中,实现精准的交互。
Description
技术领域
本发明涉及投影交互技术、图像处理技术以及深度学习领域,具体涉及一种基于纯机器视觉定位的投影交互方法。
背景技术
随着科技的创新,社会的发展,人机交互技术方式层出不穷,所谓人机交互技术,即是研究计算机与人体之间信息交互的过程。不同的交互方式有着不同的应用场景,如鼠标键盘能准确、快速传递信息,因此在电脑办公领域应用广泛,触摸式显示屏的出现为手机的发展带来了全新的变换;今年来,投影交互系统发展迅速,因此具有成本低、操作方便且具有良好的展示效果,这种方案在会议、教学等场合被广泛应用,发展前景广阔。
然而,而目前市面上的投影互动产品,如红外虚拟键盘(汪忠德.红外虚拟键盘的设计构想[J].计算机工程,2004,30(6):189-191),室外互动投影游戏(张伟东.基于卷积神经网络的投影射箭互动系统研究[D].华南理工大学.2019)等几乎都是采用红外定位技术:利用红外激光发射出与交互平面水平的红外光波,通过红外相机捕获交互平面内由触碰产生的反射光斑作为触控点,以此实现人机交互。该方案原理简单,系统相应快速,是目前最成熟的投影交互方式,但这种方案对场景依赖性高,自然光源中的红外光干扰,交互平面的不平整等因素会直接交互效果。此外,基于红外设备的系统的搭建成本较高,大场景的交互系统往往不可移动,对设备的过度依赖制约着互动投影产品的发展。
发明内容
本发明的目的是针对基于红外定位的投影交互技术方案的不足,实现一种基于纯机器视觉定位的投影交互方法,该方法完全基于视觉算法完成投影平面定位以及投影交互过程,更加有利于投影交互技术的推广。
本发明至少通过如下技术方案之一实现。
一种基于纯机器视觉定位的投影交互方法,包括以下步骤:
S1、对视觉传感器采集的源图像进行灰度化处理,定位出图像中投影区域的边界和四个顶点;
S2、建立起由源图像坐标系至投影场景坐标系的坐标映射关系,求解坐标变换矩阵H;
S3、基于深度学习中的目标检测算法检测源图像中的交互载体在投影平面上的触点位置;
S4、通过步骤S2建立好的坐标变换关系将触点映射至投影场景坐标系下,完成人机交互。
进一步地,步骤S1包括以下步骤:
1.1对源图像按以下公式灰度化:
Gray=R*wr+G*wg+B*wb
其中,R,G,B分别代表RGB图像的三个通道,wr,wa,wb为三个通道的权重,而Gray表示灰度化结果;由于人眼对绿色灵敏度最高,蓝色最低,因此设定wr=0.299,wg=0.587,wb=0.114;
1.2边缘像素点的检测即利用图像处理算法自动检测投影区域的边界,采用Canny算子从灰度化图像中检测出主要的边缘像素点,从而得到Canny图像;
1.3采用霍夫直线检测定位出投影区域的四个顶点,具体如下:
1)对Canny图像进行霍夫直线检测,得到图像直线,并按设定的长度阈值lthreshold筛选出大于该阈值的若干条直线l1,l2...ln;
2)将这些直线按照直线与图像中心坐标角度关系分为上下左右四组,并求每组中与中心最接近的直线,共得四条直线lt,lb,ll,lr;
3)对这四条直线求两两交点,得投影区域的左上、左下、右下、右上四个顶点:Plt=(xlt,ylt)T,Plb=(xlb,ylb)T,Prb=(xrb,yrb)T,Prt=(xrt,yrt)T,其中T表示转置。
进一步地,步骤S2包括以下步骤:
1.1对于步骤S1得到投影区域的四个顶点,定义其校正后的目标坐标分别为
1.2考虑单应性坐标变换:
X2=HX1
其中X1,X2分别为源图像坐标系与目标坐标系的齐次坐标,即
其中x1,y1表示源坐标系下的横坐标和纵坐标,x2,y2表示目标坐标系下的横坐标和纵坐标;
H为单应性坐标变换矩阵,h1~h8表示单应性变换矩阵的8个变换自由度参数。
将顶点坐标与目标坐标建立坐标变换关系,得到四条方程式:
1.3联立以上公式,求解出H的8个参数以确定坐标变换关系。
进一步地,步骤S3中,YOLO网络的损失函数为:
其中S2表示YOLO算法将图片分成的网格数,一般是7*7,B表示每个网格将预测的边界框个数;classes表示目标总类别数,c表示该目标所属的类别;表示物体是否落在网格i中,若是则为1,否则为0,/>表明网格i中的第j个边界框是否负责这次预测,若是则为1,否则为0;/>表示该网格不存在目标;Ci代表存在目标的第i个预测框的位置信息,(xi,yi,wi,hi)表示位置信息的横坐标、纵坐标、宽和高,对应的/>为标注的正确的目标位置信息,/>表示正确的目标位置信息的横坐标、纵坐标、宽和高;pi(c),/>分别表示第i个网格为类别c的预测概率和真实概率;λnoobj表示不存在目标的网格部分的损失系数,λcoord表示与坐标信息相关的损失系数;由于训练样本图片的所有网格中,没有目标的网格数一般是大于存在目标的网格数的,因此设置λcoord>λnoobj使得损失函数更加注重对有目标网格带来的损失。
进一步地,步骤S3包括以下步骤:使用摄像头拍摄投影面,采用使用摄像头拍摄投影面,采用YOLO(You Only Look Once)网络检测交互载体位置,即以视觉传感器采集到的彩色源图像为输入,经过YOLO网络进行一个前向传播,直接得到载体坐标(xa,ya)即触点位置。
进一步地,步骤S4所述的映射过程如下:
将步骤S2建立好的坐标变换关系,按以下公式将载体坐标(xa,ya)映射至投影场景坐标,得到目标坐标(xg,yg):
目标坐标(xg,yg)为对投影场景的交互位置。
与现有技术相比,本发明具备以下优点:
1)本发明提出的投影交互方法仅需摄像头、投影仪、计算机,设备成本低;
2)本发明提出的投影交互方法能自动完成投影校正,可移动性强;
3)本发明提出的投影交互方法利用神经网络实现关键目标的定位,定位算法具有良好的稳定性。
附图说明
图1是本实施例的一种基于纯机器视觉定位的投影交互方法的流程图;
图2是本实施例YOLO网络结构图;
图3是本实施例的坐标映射及游戏交互示意图;
图4是本实施例的硬件框架示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示的一种基于纯机器视觉定位的投影交互方法,包括以下步骤:
S1、对视觉传感器采集的源图像进行灰度化处理,定位出图像中投影区域的边界和四个顶点,具体包括以下步骤:
1.1、本发明对视觉传感器无特殊要求,采用常规的usb摄像头即满足要求,本实施例采用HID TTQⅠ型摄像头,利用opencv图像处理库,得到RGB源图像。
由于人眼对绿色敏感度最高,对蓝色敏感度最低,因此按照以下公式对源图像进行灰度化处理:
Gray=R*0.299+G*0.587+B*0.114
其中,R,G,B分别代表RGB图像的三个通道,Gray表示灰度化结果;
1.2、边缘像素点的检测即利用图像处理算法自动检测投影区域的边界,采用Canny算子从灰度化图像中检测出主要的边缘像素点;根据标准的Canny检测流程,对灰度化图像进行如下操作:
1.2.1、图像高斯滤波
由以下公式得到大小为(2k+1)×(2k+1)的高斯核:
其中2k+1为高斯核的尺度,Hij为(2k+1)×(2k+1)的离散高斯核,i,j分别表示高斯核的横坐标核纵坐标且i,j∈[1,2k+1],σ2为高斯函数的方差,exp()表示指数函数。设σ=1.4,k=1,得高斯卷积核:
使用该高斯核与灰度化图像卷积,得平滑图像。
1.2.2、梯度计算
利用如下的水平、垂直方向的Sobel算子Sx,Sy:
与平滑图像卷积,得到像素点在水平、垂直方向的一阶导数Gx,Gy,由此计算像素点的梯度G:
1.2.3、非极大值抑制
对步骤1.2.2所得的梯度图像上的每个像素点,不能仅由单一的阈值确定该点的保留或被剔除,对于最后得到的边缘图像,是对源图像轮廓的准确描述,因此须进行非极大值抑制:
1)将当前像素的梯度强度与沿正负梯度方向上的两个像素进行比较;
2)如果当前像素的梯度强度与另外两个像素相比最大,则该像素点保留为边缘点,否则该像素点将被抑制。
1.3、采用霍夫直线检测定位出投影区域的四个顶点,包括以下步骤:
1.3.1霍夫变换:考虑一个点(xi,yi)和一条直线的斜截式方程
yi=axi+b
通过点(xi,yi)的直线有无数条,且对不同的斜率a和截距b的值都满足这个等式yi=axi+b,将等式写成
b=-axi+yi
的形式并参考ab平面将得到对于定点(xi,yi)的唯一直线方程。在参数空间中,第2点(zj,wj)也有与之相关的一条直线,且这条直线与(xi,yi)相关的直线相交于(a',b')点。这里a'是斜率,b'是xy平面上包含点(xi,yi)和点(zj,wj)的直线的截距。对平面上的n个点,每个点都求其在ab平面的直线,并计算这些直线在ab平面上的交点,对于ab平面上的每个点(ai,bj),记录被直线穿过的个数cij。
1.3.2直线筛选与顶点计算
步骤1.2有效地将投影界面边界主轮廓提取了出来,经步骤1.3.1的霍夫直线检测后会得到许多重复的直线,因此需要进一步过滤这些直线,得到四条边,包括以下步骤:
(1)确定图像中心位置(xc,yc),计算每条直线相对于该中心的旋转角度,具体做法为:
计算每条直线中点坐标(xl,yl),以(xc,yc)为极坐标中心,确定(xl,yl)的极坐标位置以求得极坐标角度θl,θl∈[0,360];
(2)根据θl将每条直线分为四组:
这四组分别对应以(xc,yc)为中心的左(Left)、右(Buttom)、下(Right)、上(Top)四个方向的直线集合,在每个集合当中,选出与(xc,yc)距离最接近的直线;
(3)计算边界顶点
根据所得的四条直线,求两两相加顶点,求得四个顶点xt,xb,xl,xr,至此投影区域的定位结束。
S2、建立起由源图像坐标系至投影场景坐标系的坐标映射关系,求解坐标变换矩阵H;在坐标变换中,常见的有平移、旋转、缩放、错切变换等等。一个投影图像经设备投影至墙面后再由摄像头获取,图像坐标系通常不会只是经过一种简单的变换,因此要考虑足够复杂的情况,考虑单应性坐标变换,进行如下步骤:
1.1对于步骤S1得到投影区域的四个顶点,定义其校正后的目标坐标分别为
1.2考虑单应性坐标变换:
X2=HX1
其中X1,X2分别为源图像坐标系与目标坐标系的齐次坐标,即
其中x1,y1表示源坐标系下的横坐标和纵坐标,x2,y2表示目标坐标系下的横坐标和纵坐标;
H为单应性坐标变换矩阵,h1~h8表示单应性变换矩阵的8个变换自由度参数。
将顶点坐标与目标坐标建立坐标变换关系,得到四条方程式:
1.3联立以上公式,求解出H的8个参数以确定坐标变换关系。
S3、基于深度学习中的目标检测算法检测源图像中的交互载体在投影平面上的触点位置;具体的使用摄像头拍摄投影面,使用摄像头拍摄投影面,采用YOLO网络检测交互载体位置,即以视觉传感器采集到的彩色源图像(未经处理的彩色源图像)为输入,经过YOLO网络进行一个前向传播,直接得到载体坐标(xa,ya)即触点位置。
YOLO网络作为一种新型的目标检测网络结构,与以往检测网络不同的是,以往的网络一般都会将检测问题转化成分类问题,而YOLO网络将目标检测问题转换成分别对空间的边界框和分类上的物体类别概率的回归。YOLO网络提出一个能直接从整幅图像上预测边界框和类别概率的神经网络结构,且由于预测工作全部都在一个网络中完成,该网络可以直接地完成从端到端的优化工作。YOLO网络结构如附图2所示,图像经YOLO网络前向计算过程如表1所示:
表1图像经YOLO网络前向计算过程
YOLO网络参数的确定:YOLO网络最后输出一个大小为S×S×(B×5+C)的张量,其中,S×S表示将图像分割的网格数,默认7×7;B为每个网格预测的边框数,默认2;C为类别数,本发明使用弓箭作为被检测对象,因此C为1。YOLO网络的损失函数为:
其中S2表示YOLO算法将图片分成的网格数,一般是7*7,B表示每个网格将预测的边界框个数;classes表示目标总类别数,c表示该目标所属的类别;表示物体是否落在网格i中,若是则为1,否则为0,/>表明网格i中的第j个边界框是否负责这次预测,若是则为1,否则为0;/>表示该网格不存在目标;Ci代表存在目标的第i个预测框的位置信息,(xi,yi,wi,hi)对应(横坐标,纵坐标,宽,高)以及置信度,对应的/>为标注的正确的目标位置信息,/>对应(横坐标,纵坐标,宽,高),因此/>为1;pi(c),/>分别表示第i个网格为类别c的预测概率和真实概率;λnoobj表示不存在目标的网格部分的损失系数,λcoord表示与坐标信息相关的损失系数。由于训练样本图片的所有网格中,没有目标的网格数一般是大于存在目标的网格数的,因此设置λcoord>λnoobj使得损失函数更加注重对有目标网格带来的损失,一般将λcoord设为2,并将λnoobj设为0.5。
训练YOLO网络,具体如下:
1)由视觉传感器收集含有弓箭箭矢的训练图像,约400张;
2)利用梯度下降法训练YOLO网络;
深度学习中,经常使用于网络模型训练的算法是如下的梯度下降法:
对于关于YOLO网络中的参数向量θ的损失函数L(θ)的一阶泰勒展开:
其中,Δθ表示θ的增量。
表1网络模型训练过程
其中k表示训练的总迭代次数,设定为10000;η表示梯度步长,设定为0.0001;θk表示第k次迭代更新后的θ值;L(θk)表示当θ=θk时的L(θ)值。
S4、通过步骤S2建立好的坐标变换关系将触点映射至投影场景坐标系下,完成人机游戏交互。YOLO网络在摄像头采集的图像上进行计算,预测出交互对象在图像中的边界框坐标,计算交互对象在图像的中心(xa,ya),并由所求得的单应性矩阵H阵求得在虚拟场景中对应的坐标位置(xg,yg,O)完成交互,如图3所示,映射过程如下:
将步骤S2建立好的坐标变换关系,按以下公式将载体坐标(xa,ya)映射至投影场景坐标,得到目标坐标(xg,yg):
目标坐标(xg,yg)为对投影场景的交互位置。
本发明的硬件框架,如图4所示:
投影仪1将虚拟场景投射到交互平面上(如墙体),玩家手持吸盘弓箭2瞄准并射击投影区域的目标;视觉传感器(单目彩色摄像头3)将图像通过USB传给主机4,主机4通过解析出交互信息,并在虚拟场景中展示出来。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (3)
1.一种基于纯机器视觉定位的投影交互方法,其特征在于,包括以下步骤:
S1、对视觉传感器采集的源图像进行灰度化处理,定位出图像中投影区域的边界和四个顶点;包括以下步骤:
1.1对源图像按以下公式灰度化:
Gray=R*wr+G*wg+B*wb
其中,R,G,B分别代表RGB图像的三个通道,wr,wg,wb为三个通道的权重,而Gray表示灰度化结果;
1.2边缘像素点的检测即利用图像处理算法自动检测投影区域的边界,采用Canny算子从灰度化图像中检测出边缘像素点,从而得到Canny图像;
1.3采用霍夫直线检测定位出投影区域的四个顶点,具体如下:
1)对Canny图像进行霍夫直线检测,得到图像直线,并按设定的长度阈值lthreshold筛选出大于该阈值的直线l1,l2...ln;
2)将这些直线按照直线与图像中心坐标角度关系分为上下左右四组,并求每组中与中心最接近的直线,共得四条直线lt,lb,ll,lr;
3)对这四条直线求两两交点,得投影区域的左上、左下、右下、右上四个顶点:Plt=(xlt,ylt)T,Plb=(xlb,ylb)T,Prb=(xrb,yrb)T,Prt=(xrt,yrt)T,其中T表示转置;
S2、建立起由源图像坐标系至投影场景坐标系的坐标映射关系,求解坐标变换矩阵H;具体如下:
1)对于步骤S1得到投影区域的四个顶点,定义其校正后的目标坐标分别为:
2)考虑单应性坐标变换:
X2=HX1
其中X1,X2分别为源图像坐标系与目标坐标系的齐次坐标,即
其中x1,y1表示源坐标系下的横坐标和纵坐标,x2,y2表示目标坐标系下的横坐标和纵坐标;
H为单应性坐标变换矩阵,h1~h8表示单应性变换矩阵的8个变换自由度参数
将四个顶点坐标与目标坐标建立坐标变换关系,得到四条方程式:
3)联立以上公式,求解出H的8个参数以确定坐标变换关系;
S3、基于深度学习中的目标检测算法检测源图像中的交互载体在投影平面上的触点位置;包括以下步骤:使用摄像头拍摄投影面,采用YOLO网络检测交互载体位置,即以视觉传感器采集到的彩色源图像为输入,经过YOLO网络进行一个前向传播,直接得到载体坐标(xa,ya)即触点位置;
S4、通过步骤S2建立好的坐标变换关系将触点映射至投影场景坐标系下,完成人机交互。
2.根据权利要求1所述的一种基于纯机器视觉定位的投影交互方法,其特征在于,YOLO网络的损失函数为:
其中S2表示YOLO算法将图片分成的网格数,一般是7*7,B表示每个网格将预测的边界框个数;classes表示目标总类别数,c表示该目标所属的类别;表示物体是否落在网格i中,若是则为1,否则为0,/>表明网格i中的第j个边界框是否负责这次预测,若是则为1,否则为0;/>表示该网格不存在目标;Ci代表存在目标的第i个预测框的位置信息,(xi,yi,wi,hi)表示位置信息的横坐标、纵坐标、宽和高,对应的/>为标注的正确的目标位置信息,表示正确的目标位置信息的横坐标、纵坐标、宽和高;pi(c),/>分别表示第i个网格为类别c的预测概率和真实概率;λnoobj表示不存在目标的网格部分的损失系数,λcoord表示与坐标信息相关的损失系数;由于训练样本图片的所有网格中,没有目标的网格数一般是大于存在目标的网格数的,因此设置λcoord>λnoobj使得损失函数更加注重对有目标网格带来的损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010132864.4A CN111354007B (zh) | 2020-02-29 | 2020-02-29 | 一种基于纯机器视觉定位的投影交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010132864.4A CN111354007B (zh) | 2020-02-29 | 2020-02-29 | 一种基于纯机器视觉定位的投影交互方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111354007A CN111354007A (zh) | 2020-06-30 |
CN111354007B true CN111354007B (zh) | 2023-05-23 |
Family
ID=71194217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010132864.4A Active CN111354007B (zh) | 2020-02-29 | 2020-02-29 | 一种基于纯机器视觉定位的投影交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111354007B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111935468B (zh) * | 2020-09-24 | 2021-01-22 | 歌尔股份有限公司 | 投影中心的偏移检测方法、装置及计算机可读存储介质 |
CN112464854A (zh) * | 2020-12-09 | 2021-03-09 | 北京四方继保工程技术有限公司 | 基于深度学习的机械隔离刀闸的状态精确判断方法及系统 |
CN112657176A (zh) * | 2020-12-31 | 2021-04-16 | 华南理工大学 | 一种结合人像行为信息的双目投影人机交互方法 |
CN113916906B (zh) * | 2021-09-03 | 2024-01-09 | 江苏理工学院 | 视觉检测系统led光源照度优化方法及所用实验设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145756A (zh) * | 2018-07-24 | 2019-01-04 | 湖南万为智能机器人技术有限公司 | 基于机器视觉和深度学习的目标检测方法 |
CN110334678A (zh) * | 2019-07-12 | 2019-10-15 | 哈尔滨理工大学 | 一种基于视觉融合的行人检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4629131B2 (ja) * | 2008-09-03 | 2011-02-09 | 大日本印刷株式会社 | 画像変換装置 |
-
2020
- 2020-02-29 CN CN202010132864.4A patent/CN111354007B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145756A (zh) * | 2018-07-24 | 2019-01-04 | 湖南万为智能机器人技术有限公司 | 基于机器视觉和深度学习的目标检测方法 |
CN110334678A (zh) * | 2019-07-12 | 2019-10-15 | 哈尔滨理工大学 | 一种基于视觉融合的行人检测方法 |
Non-Patent Citations (1)
Title |
---|
裴娅男 ; .单幅图像三维目标定位及重建.长春工业大学学报(自然科学版).2014,(06),第 66-73页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111354007A (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111354007B (zh) | 一种基于纯机器视觉定位的投影交互方法 | |
CN110411339B (zh) | 一种基于平行激光束的水下目标尺寸测量设备及方法 | |
US6788809B1 (en) | System and method for gesture recognition in three dimensions using stereo imaging and color vision | |
CN111754552A (zh) | 一种基于深度学习的多摄像头协同目标跟踪方法 | |
CN111401266B (zh) | 绘本角点定位的方法、设备、计算机设备和可读存储介质 | |
CN111144207B (zh) | 一种基于多模态信息感知的人体检测和跟踪方法 | |
CN108181319A (zh) | 一种基于立体视觉的积尘检测装置及方法 | |
CN110189375B (zh) | 一种基于单目视觉测量的图像目标识别方法 | |
CN112657176A (zh) | 一种结合人像行为信息的双目投影人机交互方法 | |
CN109785373B (zh) | 一种基于散斑的六自由度位姿估计系统及方法 | |
CN109271023B (zh) | 一种基于三维对象外形轮廓徒手手势动作表达的选择方法 | |
CN112435252B (zh) | 一种战斗部破片穿孔和凹坑检测方法 | |
CN112667078B (zh) | 基于视线估计的多屏场景下鼠标快速控制方法、系统及计算机可读介质 | |
CN107507263B (zh) | 一种基于图像的纹理生成方法及系统 | |
US20210090339A1 (en) | Virtuality-reality overlapping method and system | |
CN109613974B (zh) | 一种大场景下的ar家居体验方法 | |
CN108596947B (zh) | 一种适用于rgb-d相机的快速目标跟踪方法 | |
CN108629742B (zh) | 真正射影像阴影检测与补偿方法、装置及存储介质 | |
Zou et al. | Microarray camera image segmentation with Faster-RCNN | |
WO2023280082A1 (zh) | 一种手柄inside-out视觉6自由度定位方法及系统 | |
CN107274477B (zh) | 一种基于三维空间表层的背景建模方法 | |
CN113642397A (zh) | 一种基于手机视频的物体长度测量方法 | |
CN112950565A (zh) | 一种数据中心漏水检测与定位的方法、设备和数据中心 | |
CN116152121B (zh) | 基于畸变参数的曲面屏生成方法、矫正方法 | |
CN113963107B (zh) | 一种基于双目视觉的大型目标三维重建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |