CN104615283B - 一种激光笔交互方法 - Google Patents
一种激光笔交互方法 Download PDFInfo
- Publication number
- CN104615283B CN104615283B CN201510047988.1A CN201510047988A CN104615283B CN 104615283 B CN104615283 B CN 104615283B CN 201510047988 A CN201510047988 A CN 201510047988A CN 104615283 B CN104615283 B CN 104615283B
- Authority
- CN
- China
- Prior art keywords
- background
- laser
- image
- laser spots
- coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000006870 function Effects 0.000 claims abstract description 62
- 230000002452 interceptive effect Effects 0.000 claims abstract description 45
- 238000013507 mapping Methods 0.000 claims abstract description 38
- 230000035772 mutation Effects 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 230000003044 adaptive effect Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 230000003542 behavioural effect Effects 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 6
- 230000007935 neutral effect Effects 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 230000004087 circulation Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 239000012467 final product Substances 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000005728 strengthening Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 241000196324 Embryophyta Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 241000226585 Antennaria plantaginifolia Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
- G06F3/0386—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry for light pen
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种激光笔交互方法,解决现有技术在激光笔交互系统中背景切换时的激光点误检、坐标映射误差大和交互命令易误判问题。交互方法由自适应背景切换的激光点检测方法、非线性坐标映射方法和分区域的交互方法组成。其中通过一种在线背景字典创建与更新方法,以及一种稀疏重构方法以实时鲁棒的检测出运动激光点,可以很好的解决交互过程中幻灯片换页或绘图等功能造成的背景突变问题;通过一种神经网络学习模型训练出坐标映射系数提高了坐标映射的精度;并通过一种将投影屏幕划分成绘图交互区域和控制交互区域的方法解决了交互命令易误判的问题。本发明可以实时鲁棒的完成激光笔交互功能,可广泛应用于会议、演讲、教学等多媒体演示系统中。
Description
技术领域
本发明属于人机交互及计算机视觉领域,更具体的涉及激光笔交互系统中的激光点检测方法,坐标映射方法和交互方法。
背景技术
如今,激光笔已经被广泛应用在会议、演讲、教学等多媒体演示系统中,借助激光笔演讲者可以离开计算机周围操控演讲稿,从而可以更加普适的与听众互动完成信息传递的任务。然而现有的激光笔交互系统仍然存在很多缺陷,例如:中国专利03270412公开了一种带有上下翻页按钮和无线收发装置的激光笔,可以使用激光笔完成计算机幻灯片上下翻页的功能,但是功能相对而言比较单一,无法满足演讲者的需求;中国专利102073395公开了一种基于FPGA的无线激光笔互动系统,可以完成功能丰富的交互系统,然而该系统需要额外的嵌入式设备,安装部署不方便;论文Kirstein C,Muller H.Interaction with aprojection screen using a camera-tracked laser pointer[C]//MultimediaModeling,1998.MMM'98.Proceedings.1998.IEEE,1998:191-192描述了一个利用激光点和摄像头实现的交互系统,该系统包括激光点检测、坐标映射、交互方法三部分组成。搭建该系统仅需传统的投影系统外加额外的一个摄像头,部署方便,但该系统实现依然面临着挑战。
中国专利102262733公开了一种激光点检测方法及装置,利用摄像头采集激光点状态进行平滑绘图等交互功能,然而在激光笔交互系统中由于幻灯片换页等功能使得背景不断变化,该系统并不能鲁棒的检测出激光点;中国专利103116889公开了一种定位方法及电子设备,利用线性变换完成坐标映射模块,然而由于摄像头位置摆放以及图像采集、投影可能会产生图像畸变,线性变化并不能达到系统要求精度;美国专利20040239653公开了一种交互指示设备,通过识别激光点状态进行交互,然而该系统利用激光点闪烁容易发生交互命令误判,并且在交互方法上绘图标注的实现容易误判。现有的激光笔交互专利技术仍然没有解决背景变化的激光点检测问题、坐标映射的非线性畸变问题以及交互方法易发生交互命令误判问题。
发明内容
鉴于现有专利技术的上述不足,本发明提出了一种激光笔交互方法,由自适应背景切换的激光点检测方法、非线性坐标映射方法和分区域的交互方法组成。
本发明的技术方案:该激光笔交互系统包括计算机、投影仪系统、摄像头和激光笔,计算机与投影仪通过VGA连接将计算机内容投影到投影屏幕,摄像头捕捉投影仪图像通过USB传回给计算机。
该激光笔交互方法包括自适应背景切换的激光点检测方法、非线性坐标映射方法和分区域的激光点行为分析方法完成激光笔交互功能。
所述的自适应背景切换的激光点检测技术,通过一种在线背景字典创建与更新技术,以及一种稀疏重构方法实时鲁棒的检测出运动激光点,过程如下:
令摄像头采集的图像为Y,将其每一列连接在一起组成列向量y,将不包含激光点的图像称为背景图像,将仅包含激光点的图像称为前景图像,y由背景图像和前景图像线性表示:
y=yB+yF (1)
其中y∈Rn×1,yB∈Rn×1和yF∈Rn×1分别为采集图像列向量,背景图像列向量,和前景图像列向量,n是图像的像素点数,Rn×1表示n维的实数列向量。
首先通过训练和更新得到背景图像yB,然后利用摄像头采集图像y,最后用公式(1)得到前景图像yF,即得激光点位置。然而在激光笔交互过程中幻灯片换页或幻灯片动画会使得背景突变,为了应对这种背景的突变,将不断变化的背景组成背景字典D∈Rn×K,其中D的每一列表示一种背景,K是调节字典包含背景数量的参数,某时刻的背景图像通过背景字典D稀疏表示:
yB=Dx (2)
其中x=[0,...,0,xi,0,...0]∈RK×1为稀疏向量,在理想情况下仅有一项非零值。为了增加背景字典D对噪声的鲁棒性,利用累积平均方法对背景字典D按列创建:
其中Di为字典D的每一列,K为字典的列数,即背景的个数,α为背景更新速率。
在检测激光点前景图像时,首先求解x以决定当前的背景图像,然后通过式(2)解出yB,最后通过式(1)求出激光点前景yF。因为前景激光点相对于背景图像是非常稀疏的向量,仅在激光点位置处非零,yF是稀疏向量,而且背景的稀疏向量x也是稀疏的,根据压缩感知中稀疏重构方法得出x:
其中λ为调谐因子,||·||0代表l0范数,由于求解l0范数为非凸问题,并且考虑到激光点是非常稀疏的,式(4)利用下式近似得到:
其中||·||1,||·||2分别为l1和l2范数。这样就可以由式(5),式(2)和式(1)解出激光点前景yF.
在交互过程中,幻灯片换页或放映动画等出现新的背景,会导致解出的激光点前景yF不是稀疏解,反之则解出的yF为稀疏解。通过观测yF的稀疏性来控制字典的更新,当yF非稀疏解时说明出现了新的背景,需要将背景立即加入到背景字典中,当yF是稀疏解时通过累积平均的方式更新字典来抑制噪声,公式如下:
其中k=mod(i,K)+1,mod为取模操作,Th为控制前景激光点稀疏性的参数,yi为采集到的第i帧图像。
解出yF后需要将其转换成二维图像YF,由于激光点并不是单一像素点,采用坐标平均的方式得到激光点的坐标(u,v):
其中N为YF中非零值的个数,YFxi和YFyi分别为前景激光点二维图像非零值的横纵坐标。
通过上述的自适应的背景字典创建和更新过程,以及利用稀疏重构方法重构激光点前景的方法,可以实时鲁棒的检测出激光点的位置,解决了激光点检测中的背景突变问题。
所述的非线性坐标映射方法,通过一种神经网络学习模型训练出摄像头采集图像坐标与计算机坐标的映射关系,过程如下:
得到摄像头采集到图像中激光点的坐标(u,v)后,将该坐标映射到计算机中的坐标进而完成交互任务。由于该系统摄像头摆放位置非固定,投影过程或者摄像头采集图像有可能存在非线性畸变,如枕形失真,桶形失真等,因此需要非线性的模型完成坐标映射模块。通过神经网络学习一个模型完成非线性映射,首先要对系统输入进行归一化,假定输入为(u,v),采集图像y的分辨率为picwidth×picheight,归一化方程为:
令系统输入Sin=(u′,v′)T,系统输出为归一化计算机坐标Sout=(X′,Y′)T,计算机分辨率为pcwidth×pcheight,则计算机坐标计算公式为:
系统输入为摄像头采集图像归一化坐标Sin=(u′,v′)T,系统输出为计算机图像归一化坐标Sout=(X′,Y′)T,其映射关系由下式确定:
其中ω(1)为输入层与隐藏层之间的系数矩阵,ω(2)为隐藏层与输出层之间的系数矩阵,M为除去偏置后的隐藏层神经元个数,σ(·)表示sigmoid函数,函数表达式为:
因此只要得到了ω(1)和ω(2)便可以得到采集图像激光点坐标(u,v)与计算机坐标(X,Y)的唯一对应关系,求解ω(1)和ω(2)涉及神经网络的训练过程,训练过程利用BP神经网络误差反向传播完成,训练数据可以通过预先投影棋盘图像,然后利用harris角点检测得到对应的数据。假设采集的角点数为N,检测出的输入角点归一化后数据和输出角点归一化数据防止过拟合的正则化神经网络的代价函数为:
其中为了提升上述批量处理优化问题的速度,可以利用增量梯度的方法:
其中i=1~N循环选取直到算法收敛。
神经网络模型具有学习非线性的能力,因此通过神经网络模型训练得到坐标映射关系可以很好的解决非线性问题,进而提升了系统的精度,增加了后续激光点行为分析的鲁棒性。
所述的分区域的激光点行为分析方法,将投影屏幕划分成绘图交互区域和控制交互区域,解决了交互命令易误判的问题,过程如下:
在多媒体激光笔交互中一般涉及到的功能包括“下一页”、“上一页”,“第一页”、“绘图标注”和“清除绘图”等。采用对绘图轨迹识别完成相应功能,然而“绘图标注”功能旨在允许用户绘制任意图形以达到强调功能,这样用户在使用“绘图标注”功能时系统容易误判成其他控制交互功能,为了增加交互行为的鲁棒性,采用分区域的激光点行为分析实时完成上述交互功能:
1)划分交互区域:在幻灯片的制作过程中,演讲者一般将需要演示的内容置于屏幕显要的位置,而在屏幕的四个角落很少放置演示内容,“绘图标注”功能旨在标注演示内容,所以在屏幕的四个角落一般“绘图标注”功能很少会用到,这样用户可以划分屏幕主显示区域为绘图交互区域,重点完成“绘图标注”功能,而把屏幕某个角落或某些角落划分成控制交互区域完成其他交互功能。以屏幕右上角划分为控制交互区域为例,控制交互区域坐标(X,Y)限制为:
其中Thwid×Thhei为交互区域的大小,由用户控制。
2)“绘图标注”实现:对激光点行为分析,若激光点落在绘图交互区域,并且连续在某一邻域出现一段时间则启动“绘图标注”功能;若连续一段时间检测不到激光点则关闭“绘图标注”功能。为了增强系统的鲁棒性,采用投票的原则判断激光点在某一邻域的停留时间,假设采集N帧图像,若满足下式则启动“绘图标注”功能:
其中Th×Th为邻域大小,counte为N帧图像内检测到激光点的个数,(Xi,Yi)为检测到激光点映射后的坐标。当counto>N×50%时关闭“绘图标注”功能,其中counto为连续时间内未检测到激光点的个数。
3)控制交互区域内的交互功能:若激光点落在控制交互区域内,则根据激光点的不同行为完成交互任务。将激光点在交互区域内的绘图轨迹,映射成相应的交互命令。以一种交互识别方法为例,若是向右划线则为“下一页”功能,向左划线为“上一页”功能,向上划线为“第一页”功能,向下划线为“清除绘图”功能。其条件约束分别为:
“下一页”:
“上一页”:
“第一页”:
“清除绘图”:
其中(X1,Y1)为绘图轨迹初始点,Thi为允许划线的浮动控制量,Tho为完成交互所需划线的长度。
通过将屏幕划分为绘图交互区域和控制交互区域的方法,解决了交互过程中交互命令易误判等问题,可以实时完成丰富的交互命令。
通过上述激光笔交互方法的描述,包括自适应背景切换的激光点检测方法、非线性坐标映射方法和分区域的交互方法,可以看出本发明解决了激光笔交互系统中的关键问题,其中包括在激光笔交互中的背景切换问题,图像采集等原因造成的激光点坐标映射误差问题,以及交互命令易误判等问题。利用本发明所描述的激光笔交互方法,该类系统可以广泛应用于会议、演讲、教学等多媒体演示系统中。
附图说明
图1是本发明所使用的系统框图。
图2是本发明的实施流程图。
图3是本发明坐标映射训练阶段的棋盘图像。
图4是本发明坐标映射所用神经网络的结构图。
图5是本发明划分交互区域的示意图。
图中:1计算机;2投影仪;3投影屏幕;4摄像头;5激光笔;
6控制交互区域;7绘图交互区域。
具体实施方式
下面结合附图对本发明的实施方案作详细说明:本实施方案在本发明技术为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施方案。
本发明系统框图如图1所示,由计算机1、投影仪2,投影屏幕3、摄像头4和激光笔5组成,计算机1与投影仪2通过VGA连接将计算机内容投影到投影屏幕3,摄像头4放置于能够采集到所有投影屏幕内容的地方,将采集到的图像通过USB传回给计算机1,进而由计算机1完成激光笔交互方法。
所述的交互方法的实施流程如图2所示,基本步骤包括棋盘图像投影、坐标映射训练、交互内容投影、字典创建、激光点检测、字典更新、坐标映射、激光点行为分析和交互动作完成,在完成交互动作后重新回到激光点检测步骤执行直到用户停止交互结束。
所述的棋盘图像投影,其特征在于放映如图3所示的棋盘图像,为后续的坐标映射训练提供数据支持。
所述的坐标映射训练,其特征在于通过一种神经网络学习模型训练出坐标映射系数,用以确定摄像头采集图像坐标与计算机坐标的映射关系。因为图像采集过程中可能会产生非线性畸变,采用非线性的映射方法以提高映射精度。采用神经网络学习模型训练得到映射参数,放映棋盘图像后,通过Harris角点检测获得摄像头采集到的图像角点坐标集合为{(u1,v1),...,(ui,vi),...,(uN,vN)},对应的计算机坐标{(X1,Y1),...,(Xi,Yi),...,(XN,YN)},将坐标值通过下式归一化:
令和作为训练系统的输入和输出,其中神经网络训练系统框图如图4所示,系统训练代价函数为:
其中求解出{ω(1),ω(2)},就唯一确定了摄像头采集图像坐标与计算机坐标的映射关系。
所述的交互内容投影为放映需要交互的幻灯片或资料等。
所述的字典创建其特征在于初始化包含不断变化背景的字典,该字典旨在解决激光笔交互中背景的变化问题。令摄像头采集的图像为Y,将其每一列连接在一起组成列向量y,将不包含激光点的图像称为背景图像,将仅包含激光点的图像称为前景图像,y由背景图像和前景图像线性表示:
y=yB+yF (22)
为了解决激光笔交互过程中幻灯片换页或幻灯片动画所导致的背景突变,将不断变化的背景组成背景字典D∈Rn×K,其中D的每一列表示一种背景,K是调节字典包含背景数量的参数,某时刻的背景可以通过背景字典D稀疏表示:
yB=Dx (23)其中x=[0,...,0,xi,0,...0]∈RK×1为稀疏向量,在理想情况下仅有一项非零值。字典采用下式累积平均的方式创建:
其中Di为字典D的每一列,K为字典的列数,即背景的个数,α为背景更新速率。
所述的激光点检测其特征为在背景不断变换的情况下鲁棒的检测出激光点的位置。将不断变化的背景放置于背景字典中,根据背景稀疏向量x以及前景激光点的稀疏性,通过解以下优化问题解出x:
则前景激光点由yF=y-Dx解得,由于解出的yF是列向量,需要将其转换成二维图像YF=reshape(yF),则激光点位置坐标(u,v)为:
其中N为YF中非零值的个数,YFxi和YFyi分别为前景非零值的横纵坐标。
所述的字典更新其特征在于将突变的背景实时动态的加入到字典中,在幻灯片换页等背景突变会使得解出的激光点前景并不是稀疏解,通过判断yF的稀疏性决定字典更新的方式如下:
所述的坐标映射其特征在于利用坐标映射训练得到的映射系数{ω(1),ω(2)},将采集图像中检测到的激光点坐标映射到计算机坐标,首先需要对检测到的坐标归一化,
然后通过计算得出(X′,Y′),最终反归一化得到计算机坐标:
所述的激光点行为分析其特征在于利用划分交互区域的交互方法,实现激光笔的交互功能,包括“上一页”、“下一页”、“第一页”,“绘图标注”和“清除绘图”等功能。将屏幕主显示区域划分为绘图交互区域,重点完成“绘图标注”功能,而把屏幕某个角落或某些角落划分成控制交互区域完成其他交互功能,图5给出了划分屏幕右上角区域为交互区域的示意图,其中6为控制交互区域,大小为Thwid×Thhei,7为绘图交互区域。实现各交互功能的特征为:
“下一页”:
“上一页”:
“第一页”:
“清除绘图”:
“绘图标注”:
其中(X1,Y1)为绘图轨迹初始点,Thi为允许划线的浮动控制量,Tho为完成交互所需划线的长度。
所述的交互动作其特征为激光点行为分析后触发相应的交互任务,例如换页和绘图等功能的实现。
在完成交互动作后重新回到激光点检测环节,循环完成用户的指令直到交互结束。
Claims (2)
1.一种激光笔交互方法,其特征在于,激光笔交互方法所用的激光笔交互系统包括计算机、投影仪系统、摄像头和激光笔,计算机通过VGA与投影仪连接将计算机内容投影到投影屏幕,摄像头通过USB将捕捉投影仪图像传给计算机;
该激光笔交互方法包括自适应背景切换的激光点检测方法、非线性坐标映射方法和分区域的激光点行为分析方法完成激光笔交互功能;
所述的自适应背景切换的激光点检测方法,通过在线背景字典创建与更新方法以及稀疏重构方法实时鲁棒的检测出运动激光点,步骤如下:
令摄像头采集的图像为Y,将其每一列连接在一起组成列向量y;其中,不包含激光点的图像称为背景图像,仅包含激光点的图像称为前景图像,y由背景图像和前景图像线性表示:
y=yB+yF (1)
其中y∈Rn×1、yB∈Rn×1和yF∈Rn×1分别为采集图像列向量、背景图像列向量和前景图像列向量,n是图像的像素点数,Rn×1表示n维的实数列向量;
通过训练和更新得到背景图像yB,利用摄像头采集图像y,通过式(1)得到前景图像yF,即得激光点位置;在激光笔交互过程中幻灯片换页或幻灯片动画使得背景突变,应对背景突变,将不断变化的背景组成背景字典D∈Rn×K,其中D的每一列表示一种背景,K是调节字典包含背景数量的参数,某时刻的背景图像通过背景字典D稀疏表示:
yB=Dx (2)
其中x=[0,...,0,xi,0,...0]∈RK×1为稀疏向量,在理想情况下仅有一项非零值;为了增加背景字典D对噪声的鲁棒性,利用累积平均方法对背景字典D按列创建:
其中Di为字典D的每一列,K为字典的列数,即背景的个数,α为背景更新速率;
在检测激光点前景图像时,首先求解x以决定当前的背景图像,然后通过式(2)解出yB,最后通过式(1)求出激光点前景yF;前景激光点相对于背景图像是非常稀疏的向量,仅在激光点位置处非零,yF是稀疏向量,背景的稀疏向量x也是稀疏的,根据压缩感知中稀疏重构方法得出x:
其中λ为调谐因子,||·||0代表l0范数,求解l0范数为非凸问题,激光点是非常稀疏的,式(4)利用下式近似得到:
其中||·||1,||·||2分别为l1和l2范数;由式(5)、式(2)和式(1)解出激光点前景yF;
在交互过程中,幻灯片换页或放映动画出现新的背景,导致解出的激光点前景yF不是稀疏解,反之则解出的yF为稀疏解;通过观测yF的稀疏性控制字典的更新,当yF非稀疏解时说明出现了新的背景,将新的背景立即加入到背景字典中,当yF是稀疏解时通过累积平均的方式更新字典来抑制噪声,公式如下:
其中k=mod(i,K)+1,mod为取模操作,Th为控制前景激光点稀疏性的参数,yi为采集到的第i帧图像;
将解出的yF转换成二维图像YF,激光点并不是单一像素点,采用坐标平均的方式得到激光点的坐标(u,v):
其中N为YF中非零值的个数,YFxi和YFyi分别为前景激光点二维图像非零值的横纵坐标;
所述的非线性坐标映射方法,通过神经网络学习模型训练出摄像头采集图像坐标与计算机坐标的映射关系,步骤如下:
得到摄像头采集到图像中激光点的坐标(u,v)后,将该坐标映射到计算机中的坐标完成交互;该系统摄像头摆放位置非固定,投影过程或者摄像头采集图像有可能存在非线性畸变,需要非线性的模型完成坐标映射模块;通过神经网络学习一个模型完成非线性映射,首先要对系统输入进行归一化,假定输入为(u,v),采集图像y的分辨率为picwidth×picheight,归一化方程为:
令系统输入Sin=(u′,v′)T,系统输出为归一化计算机坐标Sout=(X′,Y′)T,计算机分辨率为pcwidth×pcheight,则计算机坐标计算公式为:
系统输入为摄像头采集图像归一化坐标Sin=(u′,v′)T,系统输出为计算机图像归一化坐标Sout=(X′,Y′)T,其映射关系由下式确定:
其中ω(1)为输入层与隐藏层之间的系数矩阵,ω(2)为隐藏层与输出层之间的系数矩阵,M为除去偏置后的隐藏层神经元个数,σ(·)表示sigmoid函数,函数表达式为:
由ω(1)和ω(2)便得到采集图像激光点坐标(u,v)与计算机坐标(X,Y)的唯一对应关系,求解ω(1)和ω(2)涉及神经网络的训练过程,训练过程利用BP神经网络误差反向传播,训练数据通过预先投影棋盘图像,然后利用harris角点检测得到对应的数据;假设采集的角点数为N,检测出的输入角点归一化后数据和输出角点归一化数据防止过拟合的正则化神经网络的代价函数为:
其中
所述的分区域的激光点行为分析方法,将投影屏幕划分成绘图交互区域和控制交互区域,解决了交互命令易误判的问题,步骤如下:
在多媒体激光笔交互中涉及到的功能包括“下一页”、“上一页”,“第一页”、“绘图标注”和“清除绘图”;采用对绘图轨迹识别完成相应功能,“绘图标注”功能旨在允许用户绘制任意图形达到强调功能,用户在使用“绘图标注”功能时系统容易误判成其他控制交互功能,为了增加交互行为的鲁棒性,采用分区域的激光点行为分析实时完成上述交互功能:
1)划分交互区域:在幻灯片的制作过程中,演讲者将需要演示的内容置于屏幕显要的位置,在屏幕的四个角落很少放置演示内容,“绘图标注”功能旨在标注演示内容,在屏幕的四个角落“绘图标注”功能很少用到,用户划分屏幕主显示区域为绘图交互区域,重点完成“绘图标注”功能,把屏幕某个角落或某些角落划分成控制交互区域完成其他交互功能;以屏幕右上角划分为控制交互区域为例,控制交互区域坐标(X,Y)限制为:
其中Thwid×Thhei为交互区域的大小,由用户控制;
2)“绘图标注”实现:对激光点行为分析,若激光点落在绘图交互区域,并且连续在某一邻域出现一段时间则启动“绘图标注”功能;若连续一段时间检测不到激光点则关闭“绘图标注”功能;为了增强系统的鲁棒性,采用投票的原则判断激光点在某一邻域的停留时间,假设采集N帧图像,若满足下式则启动“绘图标注”功能:
其中Th×Th为邻域大小,counte为N帧图像内检测到激光点的个数,(Xi,Yi)为检测到激光点映射后的坐标;当counto>N×50%时关闭“绘图标注”功能,其中counto为连续时间内未检测到激光点的个数;
3)控制交互区域内的交互功能:若激光点落在控制交互区域内,则根据激光点的不同行为完成交互任务;将激光点在交互区域内的绘图轨迹,映射成相应的交互命令;以一种交互识别方法为例,若是向右划线则为“下一页”功能,向左划线为“上一页”功能,向上划线为“第一页”功能,向下划线为“清除绘图”功能;其条件约束分别为:
“下一页”:
“上一页”:
“第一页”:
“清除绘图”:
其中(X1,Y1)为绘图轨迹初始点,Thi为允许划线的浮动控制量,Tho为完成交互所需划线的长度;
通过将屏幕划分为绘图交互区域和控制交互区域的方法,解决了交互过程中交互命令易误判,实时完成丰富的交互命令。
2.根据权利要求1所述的激光笔交互方法,其特征在于,针对公式(12)防止过拟合的正则化神经网络的代价函数进行提升批量处理优化问题的速度,利用增量梯度的方法:
其中i=1~N循环选取直到算法收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510047988.1A CN104615283B (zh) | 2015-01-30 | 2015-01-30 | 一种激光笔交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510047988.1A CN104615283B (zh) | 2015-01-30 | 2015-01-30 | 一种激光笔交互方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104615283A CN104615283A (zh) | 2015-05-13 |
CN104615283B true CN104615283B (zh) | 2017-06-13 |
Family
ID=53149768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510047988.1A Active CN104615283B (zh) | 2015-01-30 | 2015-01-30 | 一种激光笔交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104615283B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107015428B (zh) * | 2017-04-12 | 2020-05-22 | 浙江思珀整合传播有限公司 | 一种多媒体互动投影系统 |
CN107823883B (zh) * | 2017-11-21 | 2020-12-29 | 河南黄烨科技有限公司 | 基于图像识别和激光定位的瞄准点屏幕坐标获取方法 |
CN112015286B (zh) * | 2020-07-31 | 2023-06-09 | 青岛海尔科技有限公司 | 用于交互投影的方法、装置和投影系统 |
CN113031841B (zh) * | 2021-03-08 | 2023-03-31 | 中国航空工业集团公司北京长城航空测控技术研究所 | 一种激光笔交互控制系统和激光笔交互控制方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009138325A2 (de) * | 2008-05-14 | 2009-11-19 | Siemens Aktiengesellschaft | Anordnung und verfahren zur bedienung von geräten |
CN102707817A (zh) * | 2012-04-24 | 2012-10-03 | 广州市唯昕电子科技有限公司 | 激光书写系统 |
CN202904503U (zh) * | 2012-11-13 | 2013-04-24 | 倪范青 | 一种笔型无线摇杆鼠标 |
CN104166509A (zh) * | 2013-05-20 | 2014-11-26 | 华为技术有限公司 | 一种非接触式屏幕交互方法及系统 |
-
2015
- 2015-01-30 CN CN201510047988.1A patent/CN104615283B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009138325A2 (de) * | 2008-05-14 | 2009-11-19 | Siemens Aktiengesellschaft | Anordnung und verfahren zur bedienung von geräten |
CN102707817A (zh) * | 2012-04-24 | 2012-10-03 | 广州市唯昕电子科技有限公司 | 激光书写系统 |
CN202904503U (zh) * | 2012-11-13 | 2013-04-24 | 倪范青 | 一种笔型无线摇杆鼠标 |
CN104166509A (zh) * | 2013-05-20 | 2014-11-26 | 华为技术有限公司 | 一种非接触式屏幕交互方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104615283A (zh) | 2015-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104615283B (zh) | 一种激光笔交互方法 | |
CN110163640A (zh) | 一种在视频中植入广告的方法及计算机设备 | |
CN100407798C (zh) | 三维几何建模系统和方法 | |
CN103366610B (zh) | 基于增强现实的三维互动学习系统及方法 | |
CN1698357B (zh) | 在物体上显示输出图像的方法 | |
CN102200834B (zh) | 面向电视控制的指尖鼠标交互方法 | |
CN107168525B (zh) | 一种运用精细手势识别装置辅助自闭症儿童配对训练的系统及方法 | |
US20110199338A1 (en) | Touch screen apparatus and method for inputting user information on a screen through context awareness | |
JP2007328754A (ja) | タッチパネルシステム及びその動作方法 | |
CN109992107A (zh) | 虚拟操控装置及其操控方法 | |
CN112380357B (zh) | 一种知识图谱可视化可交互导航实现的方法 | |
CN107102736A (zh) | 实现增强现实的方法 | |
CN102298786A (zh) | 一种虚拟绘画实现的装置及其方法 | |
CN104537705A (zh) | 基于增强现实的移动平台三维生物分子展示系统和方法 | |
CN104407696B (zh) | 移动设备的虚拟球模拟及控制的方法 | |
CN104391651A (zh) | 基于光学原理的书法笔迹呈现方法 | |
CN114898062A (zh) | 一种基于动态场景下slam的地图构建方法及装置 | |
CN108628455A (zh) | 一种基于触摸屏手势识别的虚拟沙画绘制方法 | |
Zhang et al. | The Application of Folk Art with Virtual Reality Technology in Visual Communication. | |
CN114489347A (zh) | 动态沙盘及其演示方法和系统 | |
CN111078008B (zh) | 一种早教机器人的控制方法 | |
CN117197823A (zh) | 一种临摹系统及方法 | |
CN110599587A (zh) | 一种基于单张图像的3d场景重构技术 | |
CN116630992A (zh) | 一种字帖网格文字智能匹配方法及系统 | |
CN116310102A (zh) | 基于深度学习的透明物体图像的三维重建方法、终端及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |