CN111354007B

CN111354007B - 一种基于纯机器视觉定位的投影交互方法

Info

Publication number: CN111354007B
Application number: CN202010132864.4A
Authority: CN
Inventors: 谢巍; 潘春文; 王缙; 张浪文
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2023-05-23
Anticipated expiration: 2040-02-29
Also published as: CN111354007A

Abstract

本发明公开了一种基于纯机器视觉定位的投影交互方法，包括以下步骤：S1、对视觉传感器采集的源图像进行灰度化处理，定位出图像中投影区域的边界和四个顶点；S2、建立起由源图像坐标系至投影场景坐标系的坐标映射关系，求解坐标变换矩阵H；S3、基于深度学习中的目标检测算法检测源图像中的交互载体在投影平面上的触点位置；S4、通过步骤S2建立好的坐标变换关系将触点映射至投影场景坐标系下，完成人机交互。针对目前基于红外定位的投影交互方案依赖红外设备的弊端，本发明采用基于直线检测的方法定位出投影平面，采用纯视觉方式定位实现触点检测，通过坐标映射关系，将交互载体坐标映射至投影场景坐标系中，实现精准的交互。

Description

一种基于纯机器视觉定位的投影交互方法

技术领域

本发明涉及投影交互技术、图像处理技术以及深度学习领域，具体涉及一种基于纯机器视觉定位的投影交互方法。

背景技术

随着科技的创新，社会的发展，人机交互技术方式层出不穷，所谓人机交互技术，即是研究计算机与人体之间信息交互的过程。不同的交互方式有着不同的应用场景，如鼠标键盘能准确、快速传递信息，因此在电脑办公领域应用广泛，触摸式显示屏的出现为手机的发展带来了全新的变换；今年来，投影交互系统发展迅速，因此具有成本低、操作方便且具有良好的展示效果，这种方案在会议、教学等场合被广泛应用，发展前景广阔。

然而，而目前市面上的投影互动产品，如红外虚拟键盘(汪忠德.红外虚拟键盘的设计构想[J].计算机工程,2004,30(6):189-191)，室外互动投影游戏(张伟东.基于卷积神经网络的投影射箭互动系统研究[D].华南理工大学.2019)等几乎都是采用红外定位技术：利用红外激光发射出与交互平面水平的红外光波，通过红外相机捕获交互平面内由触碰产生的反射光斑作为触控点，以此实现人机交互。该方案原理简单，系统相应快速，是目前最成熟的投影交互方式，但这种方案对场景依赖性高，自然光源中的红外光干扰，交互平面的不平整等因素会直接交互效果。此外，基于红外设备的系统的搭建成本较高，大场景的交互系统往往不可移动，对设备的过度依赖制约着互动投影产品的发展。

发明内容

本发明的目的是针对基于红外定位的投影交互技术方案的不足，实现一种基于纯机器视觉定位的投影交互方法，该方法完全基于视觉算法完成投影平面定位以及投影交互过程，更加有利于投影交互技术的推广。

本发明至少通过如下技术方案之一实现。

一种基于纯机器视觉定位的投影交互方法，包括以下步骤：

S1、对视觉传感器采集的源图像进行灰度化处理，定位出图像中投影区域的边界和四个顶点；

S2、建立起由源图像坐标系至投影场景坐标系的坐标映射关系，求解坐标变换矩阵H；

S3、基于深度学习中的目标检测算法检测源图像中的交互载体在投影平面上的触点位置；

S4、通过步骤S2建立好的坐标变换关系将触点映射至投影场景坐标系下，完成人机交互。

进一步地，步骤S1包括以下步骤：

1.1对源图像按以下公式灰度化：

Gray＝R*w_r+G*w_g+B*w_b

其中，R，G，B分别代表RGB图像的三个通道，w_r，w_a，w_b为三个通道的权重，而Gray表示灰度化结果；由于人眼对绿色灵敏度最高，蓝色最低，因此设定w_r＝0.299，w_g＝0.587，w_b＝0.114；

1.2边缘像素点的检测即利用图像处理算法自动检测投影区域的边界，采用Canny算子从灰度化图像中检测出主要的边缘像素点，从而得到Canny图像；

1.3采用霍夫直线检测定位出投影区域的四个顶点，具体如下：

1)对Canny图像进行霍夫直线检测，得到图像直线，并按设定的长度阈值l_threshold筛选出大于该阈值的若干条直线l1，l₂...l_n；

2)将这些直线按照直线与图像中心坐标角度关系分为上下左右四组，并求每组中与中心最接近的直线，共得四条直线l_t，l_b，l_l，l_r；

3)对这四条直线求两两交点，得投影区域的左上、左下、右下、右上四个顶点：P_lt＝(x_lt，y_lt)^T，P_lb＝(x_lb，y_lb)^T，P_rb＝(x_rb，y_rb)^T，P_rt＝(x_rt，y_rt)^T，其中T表示转置。

进一步地，步骤S2包括以下步骤：

1.1对于步骤S1得到投影区域的四个顶点，定义其校正后的目标坐标分别为

1.2考虑单应性坐标变换：

X₂＝HX₁

其中X₁，X₂分别为源图像坐标系与目标坐标系的齐次坐标，即

其中x₁，y₁表示源坐标系下的横坐标和纵坐标，x₂，y₂表示目标坐标系下的横坐标和纵坐标；

H为单应性坐标变换矩阵，h₁～h₈表示单应性变换矩阵的8个变换自由度参数。

将顶点坐标与目标坐标建立坐标变换关系，得到四条方程式：

1.3联立以上公式，求解出H的8个参数以确定坐标变换关系。

进一步地，步骤S3中，YOLO网络的损失函数为：

其中S²表示YOLO算法将图片分成的网格数，一般是7*7，B表示每个网格将预测的边界框个数；classes表示目标总类别数，c表示该目标所属的类别；

表示物体是否落在网格i中，若是则为1，否则为0，/>

表明网格i中的第j个边界框是否负责这次预测，若是则为1，否则为0；/>

表示该网格不存在目标；C_i代表存在目标的第i个预测框的位置信息，(x_i,y_i,w_i,h_i)表示位置信息的横坐标、纵坐标、宽和高，对应的/>

为标注的正确的目标位置信息，/>

表示正确的目标位置信息的横坐标、纵坐标、宽和高；p_i(c),/>

分别表示第i个网格为类别c的预测概率和真实概率；λ_noobj表示不存在目标的网格部分的损失系数，λ_coord表示与坐标信息相关的损失系数；由于训练样本图片的所有网格中，没有目标的网格数一般是大于存在目标的网格数的，因此设置λ_coord>λ_noobj使得损失函数更加注重对有目标网格带来的损失。

进一步地，步骤S3包括以下步骤：使用摄像头拍摄投影面，采用使用摄像头拍摄投影面，采用YOLO(You Only Look Once)网络检测交互载体位置，即以视觉传感器采集到的彩色源图像为输入，经过YOLO网络进行一个前向传播，直接得到载体坐标(x_a,y_a)即触点位置。

进一步地，步骤S4所述的映射过程如下：

将步骤S2建立好的坐标变换关系，按以下公式将载体坐标(x_a,y_a)映射至投影场景坐标，得到目标坐标(x_g,y_g):

目标坐标(x_g,y_g)为对投影场景的交互位置。

与现有技术相比，本发明具备以下优点：

1)本发明提出的投影交互方法仅需摄像头、投影仪、计算机，设备成本低；

2)本发明提出的投影交互方法能自动完成投影校正，可移动性强；

3)本发明提出的投影交互方法利用神经网络实现关键目标的定位，定位算法具有良好的稳定性。

附图说明

图1是本实施例的一种基于纯机器视觉定位的投影交互方法的流程图；

图2是本实施例YOLO网络结构图；

图3是本实施例的坐标映射及游戏交互示意图；

图4是本实施例的硬件框架示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示的一种基于纯机器视觉定位的投影交互方法，包括以下步骤：

S1、对视觉传感器采集的源图像进行灰度化处理，定位出图像中投影区域的边界和四个顶点，具体包括以下步骤：

1.1、本发明对视觉传感器无特殊要求，采用常规的usb摄像头即满足要求，本实施例采用HID TTQⅠ型摄像头，利用opencv图像处理库，得到RGB源图像。

由于人眼对绿色敏感度最高，对蓝色敏感度最低，因此按照以下公式对源图像进行灰度化处理：

Gray＝R*0.299+G*0.587+B*0.114

其中，R,G,B分别代表RGB图像的三个通道，Gray表示灰度化结果；

1.2、边缘像素点的检测即利用图像处理算法自动检测投影区域的边界，采用Canny算子从灰度化图像中检测出主要的边缘像素点；根据标准的Canny检测流程，对灰度化图像进行如下操作：

1.2.1、图像高斯滤波

由以下公式得到大小为(2k+1)×(2k+1)的高斯核：

其中2k+1为高斯核的尺度，H_ij为(2k+1)×(2k+1)的离散高斯核，i,j分别表示高斯核的横坐标核纵坐标且i,j∈[1,2k+1]，σ²为高斯函数的方差，exp()表示指数函数。设σ＝1.4,k＝1,得高斯卷积核：

使用该高斯核与灰度化图像卷积，得平滑图像。

1.2.2、梯度计算

利用如下的水平、垂直方向的Sobel算子S_x,S_y：

/>

与平滑图像卷积，得到像素点在水平、垂直方向的一阶导数G_x，G_y，由此计算像素点的梯度G：

1.2.3、非极大值抑制

对步骤1.2.2所得的梯度图像上的每个像素点，不能仅由单一的阈值确定该点的保留或被剔除，对于最后得到的边缘图像，是对源图像轮廓的准确描述，因此须进行非极大值抑制：

1)将当前像素的梯度强度与沿正负梯度方向上的两个像素进行比较；

2)如果当前像素的梯度强度与另外两个像素相比最大，则该像素点保留为边缘点，否则该像素点将被抑制。

1.3、采用霍夫直线检测定位出投影区域的四个顶点，包括以下步骤：

1.3.1霍夫变换：考虑一个点(x_i，y_i)和一条直线的斜截式方程

y_i＝ax_i+b

通过点(x_i，y_i)的直线有无数条，且对不同的斜率a和截距b的值都满足这个等式y_i＝ax_i+b，将等式写成

b＝-ax_i+y_i

的形式并参考ab平面将得到对于定点(x_i，y_i)的唯一直线方程。在参数空间中，第2点(z_j，w_j)也有与之相关的一条直线，且这条直线与(x_i，y_i)相关的直线相交于(a＇，b＇)点。这里a＇是斜率，b＇是xy平面上包含点(x_i，y_i)和点(z_j，w_j)的直线的截距。对平面上的n个点，每个点都求其在ab平面的直线，并计算这些直线在ab平面上的交点，对于ab平面上的每个点(a_i，b_j)，记录被直线穿过的个数c_ij。

1.3.2直线筛选与顶点计算

步骤1.2有效地将投影界面边界主轮廓提取了出来，经步骤1.3.1的霍夫直线检测后会得到许多重复的直线，因此需要进一步过滤这些直线，得到四条边，包括以下步骤：

(1)确定图像中心位置(x_c，y_c)，计算每条直线相对于该中心的旋转角度，具体做法为：

计算每条直线中点坐标(x_l，y_l)，以(x_c，y_c)为极坐标中心，确定(x_l，y_l)的极坐标位置以求得极坐标角度θ_l，θ_l∈[0，360]；

(2)根据θ_l将每条直线分为四组：

这四组分别对应以(x_c，y_c)为中心的左(Left)、右(Buttom)、下(Right)、上(Top)四个方向的直线集合，在每个集合当中，选出与(x_c,y_c)距离最接近的直线；

(3)计算边界顶点

根据所得的四条直线，求两两相加顶点，求得四个顶点x_t,x_b,x_l,x_r，至此投影区域的定位结束。

S2、建立起由源图像坐标系至投影场景坐标系的坐标映射关系，求解坐标变换矩阵H；在坐标变换中，常见的有平移、旋转、缩放、错切变换等等。一个投影图像经设备投影至墙面后再由摄像头获取，图像坐标系通常不会只是经过一种简单的变换，因此要考虑足够复杂的情况，考虑单应性坐标变换，进行如下步骤：

其中

分别表示目标坐标系下的左上顶点、左下顶点、右下顶点以及右上顶点；

1.2考虑单应性坐标变换：

X₂＝HX₁

其中X₁,X₂分别为源图像坐标系与目标坐标系的齐次坐标，即

其中x₁,y₁表示源坐标系下的横坐标和纵坐标，x₂,y₂表示目标坐标系下的横坐标和纵坐标；

1.3联立以上公式，求解出H的8个参数以确定坐标变换关系。

S3、基于深度学习中的目标检测算法检测源图像中的交互载体在投影平面上的触点位置；具体的使用摄像头拍摄投影面，使用摄像头拍摄投影面，采用YOLO网络检测交互载体位置，即以视觉传感器采集到的彩色源图像(未经处理的彩色源图像)为输入，经过YOLO网络进行一个前向传播，直接得到载体坐标(x_a,y_a)即触点位置。

YOLO网络作为一种新型的目标检测网络结构，与以往检测网络不同的是，以往的网络一般都会将检测问题转化成分类问题，而YOLO网络将目标检测问题转换成分别对空间的边界框和分类上的物体类别概率的回归。YOLO网络提出一个能直接从整幅图像上预测边界框和类别概率的神经网络结构，且由于预测工作全部都在一个网络中完成，该网络可以直接地完成从端到端的优化工作。YOLO网络结构如附图2所示，图像经YOLO网络前向计算过程如表1所示：

表1图像经YOLO网络前向计算过程

/>

YOLO网络参数的确定：YOLO网络最后输出一个大小为S×S×(B×5+C)的张量，其中，S×S表示将图像分割的网格数，默认7×7；B为每个网格预测的边框数，默认2；C为类别数，本发明使用弓箭作为被检测对象，因此C为1。YOLO网络的损失函数为：

表示物体是否落在网格i中，若是则为1，否则为0，/>

表示该网格不存在目标；C_i代表存在目标的第i个预测框的位置信息，(x_i,y_i,w_i,h_i)对应(横坐标，纵坐标，宽，高)以及置信度，对应的/>

为标注的正确的目标位置信息，/>

对应(横坐标，纵坐标，宽，高)，因此/>

为1；p_i(c),/>

分别表示第i个网格为类别c的预测概率和真实概率；λ_noobj表示不存在目标的网格部分的损失系数，λ_coord表示与坐标信息相关的损失系数。由于训练样本图片的所有网格中，没有目标的网格数一般是大于存在目标的网格数的，因此设置λ_coord>λ_noobj使得损失函数更加注重对有目标网格带来的损失，一般将λ_coord设为2，并将λ_noobj设为0.5。

训练YOLO网络，具体如下：

1)由视觉传感器收集含有弓箭箭矢的训练图像，约400张；

2)利用梯度下降法训练YOLO网络；

深度学习中，经常使用于网络模型训练的算法是如下的梯度下降法：

对于关于YOLO网络中的参数向量θ的损失函数L(θ)的一阶泰勒展开：

其中，Δθ表示θ的增量。

对于一个非负的L(θ)，它随着训练的进行越小越好，最好使得

这时能使得每次训练后的损失函数比前一次小，因此训练过程如表1的描述：

表1网络模型训练过程

其中k表示训练的总迭代次数，设定为10000；η表示梯度步长，设定为0.0001；θ_k表示第k次迭代更新后的θ值；L(θ_k)表示当θ＝θ_k时的L(θ)值。

S4、通过步骤S2建立好的坐标变换关系将触点映射至投影场景坐标系下，完成人机游戏交互。YOLO网络在摄像头采集的图像上进行计算，预测出交互对象在图像中的边界框坐标，计算交互对象在图像的中心(x_a,y_a)，并由所求得的单应性矩阵H阵求得在虚拟场景中对应的坐标位置(x_g,y_g,O)完成交互，如图3所示，映射过程如下：

目标坐标(x_g,y_g)为对投影场景的交互位置。

本发明的硬件框架，如图4所示：

投影仪1将虚拟场景投射到交互平面上(如墙体)，玩家手持吸盘弓箭2瞄准并射击投影区域的目标；视觉传感器(单目彩色摄像头3)将图像通过USB传给主机4，主机4通过解析出交互信息，并在虚拟场景中展示出来。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于纯机器视觉定位的投影交互方法，其特征在于，包括以下步骤：

S1、对视觉传感器采集的源图像进行灰度化处理，定位出图像中投影区域的边界和四个顶点；包括以下步骤：

1.1对源图像按以下公式灰度化：

Gray＝R*w_r+G*w_g+B*w_b

其中，R，G，B分别代表RGB图像的三个通道，w_r，w_g，w_b为三个通道的权重，而Gray表示灰度化结果；

1.2边缘像素点的检测即利用图像处理算法自动检测投影区域的边界，采用Canny算子从灰度化图像中检测出边缘像素点，从而得到Canny图像；

1)对Canny图像进行霍夫直线检测，得到图像直线，并按设定的长度阈值l_threshold筛选出大于该阈值的直线l₁，l₂...l_n；

3)对这四条直线求两两交点，得投影区域的左上、左下、右下、右上四个顶点：P_lt＝(x_lt，y_lt)^T，P_lb＝(x_lb，y_lb)^T，P_rb＝(x_rb，y_rb)^T，P_rt＝(x_rt，y_rt)^T，其中T表示转置；

S2、建立起由源图像坐标系至投影场景坐标系的坐标映射关系，求解坐标变换矩阵H；具体如下：

1)对于步骤S1得到投影区域的四个顶点，定义其校正后的目标坐标分别为：

2)考虑单应性坐标变换：

X₂＝HX₁

H为单应性坐标变换矩阵，h₁～h₈表示单应性变换矩阵的8个变换自由度参数

将四个顶点坐标与目标坐标建立坐标变换关系，得到四条方程式：

/>

3)联立以上公式，求解出H的8个参数以确定坐标变换关系；

S3、基于深度学习中的目标检测算法检测源图像中的交互载体在投影平面上的触点位置；包括以下步骤：使用摄像头拍摄投影面，采用YOLO网络检测交互载体位置，即以视觉传感器采集到的彩色源图像为输入，经过YOLO网络进行一个前向传播，直接得到载体坐标(x_a，y_a)即触点位置；

2.根据权利要求1所述的一种基于纯机器视觉定位的投影交互方法，其特征在于，YOLO网络的损失函数为：

表示物体是否落在网格i中，若是则为1，否则为0，/>

表示该网格不存在目标；C_i代表存在目标的第i个预测框的位置信息，(x_i，y_i，w_i，h_i)表示位置信息的横坐标、纵坐标、宽和高，对应的/>

为标注的正确的目标位置信息，

表示正确的目标位置信息的横坐标、纵坐标、宽和高；p_i(c)，/>

分别表示第i个网格为类别c的预测概率和真实概率；λ_noobj表示不存在目标的网格部分的损失系数，λ_coord表示与坐标信息相关的损失系数；由于训练样本图片的所有网格中，没有目标的网格数一般是大于存在目标的网格数的，因此设置λ_coord＞λ_noobj使得损失函数更加注重对有目标网格带来的损失。

3.根据权利要求1所述的一种基于纯机器视觉定位的投影交互方法，其特征在于，步骤S4所述的映射过程如下：

将步骤S2建立好的坐标变换关系，按以下公式将载体坐标(x_a，y_a)映射至投影场景坐标，得到目标坐标(x_g，y_g)：

目标坐标(x_g，y_g)为对投影场景的交互位置。