CN105929947B

CN105929947B - 一种基于场景态势感知的人机交互方法

Info

Publication number: CN105929947B
Application number: CN201610237410.7A
Authority: CN
Inventors: 冯志全; 蔡萌萌; 栾敏; 艾长胜; 魏军; 李映君; 李建新; 谢玮; 张恺
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2020-07-28
Anticipated expiration: 2036-04-15
Also published as: CN105929947A

Abstract

本发明提供了一种基于场景态势感知的人机交互方法，属于人机交互领域。该基于场景态势感知的人机交互方法利用最小二乘法拟合平行线束，判断在平行线束内的物体距离直线的距离，根据该物体与虚拟手的距离来判断用户的操作意图,并且采用包围盒大小实现控制Z变量在合适的范围内变化，最终实现相向互动。本发明提出的基于包围盒大小来控制Z变量变化，得到很好的效果；在用户有目的的移动的情况下，拟合直线束预测用户想要操作的物体的正确率达87％以上。

Description

一种基于场景态势感知的人机交互方法

技术领域

本发明属于人机交互领域，具体涉及一种基于场景态势感知的人机交互方法。

背景技术

随着计算机科学技术的不断发展，智能化人机交互逐渐成为计算模式发展的主导趋势。特别是Mark Weiser在20世纪90年代提出的”Ubicomp”(无所不在的计算)的概念之后，这一趋势表现的更加明显。在交互过程中，为了减轻人的操作负荷和记忆负担，需要拓展传统的交互方式，在显示人机交互的基础上融入隐式人机交互(implicit humancomputer interaction，IHCI)。

目前，隐式人机交互已经成为交互领域中的重要研究前沿。澳大利亚斯威本科技大学的Kaiyan在1996年就提出了IHCI的概念，但并未深入。从2005年开始，美国、德国、中国、奥地利等国内外大学和研究所，对IHCI理论和应用逐步开展了深入研究。德国卡尔斯鲁厄大学的Schmidt在隐式交互的理论研究方面进行的较早，认为隐式交互的两要素是感知和推理，并提出上下文信息对交互过程是极为重要的，同时基于XML语言，对交互过程进行建模，并且介绍了下文对人机交互的益处。Young-Min Jang等人根据人的眼睛运动隐含的意图开发了一个系统，该系统可以根据瞳孔大小变化以及位置来划分人的隐式输入意图。而Bojan

等则将隐式交互用到了照片采集管理系统上。在算法上，Hamid Mcheick则提出了一种基于上下文感知模型，能够适应动态的环境和灵活与用户进行互动。在互联网领域基于上下文信息的隐式交互也得到了应用，例如：M.Khedr等人则利用上下文信息建立了一个多代理的框架，用来维持本地和不同域之间的应用。

在我国，由清华大学陶霖密等人开发了自适应视觉系统，检测与理解用户行为，进行隐式交互。同时，中国科学院软件研究所的田丰^[10]也从后WIMP用户界面的角度，研究了隐式交互的特性。王巍等人提出对于隐式人机交互过程，较多的使用用户上下文信息，包括用户行为、情感状态(例如：Irina CRISTESCU的情感化设计方法)和生理状态等，但也有一些使用环境上下文信息，提供诸如基于位置的服务等在使用的传感器种类上，则主要集中于三类:视觉传感器生理传感器和物理量传感器，其中的视觉传感器得到较为广泛的应用在信号的连续性上，多为离散的检测方式，仅在对生理信号检测时采用连续检测方式。高隽在图像语义分析与理解综述中归纳图像语义特征及上下文表示的基础上,全面阐述生成法、判别法和句法描述法3种图像语义处理策略。岳玮宁等人提出了一种上下文感知和调度的策略用于智能交互系统，从而提高了系统的智能型。而冯志全等人则将上下文信息用到手势跟踪中，并取得了很好地效果。

然而，根据上下文信息的人机交互，大都使用在已经有明确的操作对象之后，一般都是有一些预先定义好的语义指令。比如：动作A完成后，若用户做了动作B，计算机猜测用户可能想要达到什么目的；若用户做了动作C，计算机则猜测用户想要达到其他的效果。这样一个动作根据上下文就可以赋予不同的结果。可以大大减轻用户的操作负荷，使操作变得更加人性化。在实验过程中，确定操作对象还是采用传统的PF跟踪和碰撞检测^[16]的方法。虽然碰撞检测的精度高，但是碰撞检测的时间复杂较高，这对于虚拟场景比较复杂的情况是很大的弊端。

发明内容

本发明的目的在于解决上述现有技术中存在的难题，提供一种基于场景态势感知的人机交互方法，。

本发明是通过以下技术方案实现的：

一种基于场景态势感知的人机交互方法，利用最小二乘法拟合平行线束，判断在平行线束内的物体距离直线的距离，以及该物体与虚拟手的距离来判断用户想要操作的意图,并且采用包围盒大小实现控制Z变量在合适的范围内变化，最终实现相向互动。

所述方法包括：

第一步：对获取的一帧图像进行图像分割并将图像进行二值化；

第二步：求二值化后的图像的质心坐标，包围盒大小以及左上角坐标；

第三步：计算质心坐标差值向量并根据包围盒大小和坐标确定三维虚拟场景中人手移动的方向和距离；

第四步：使用opengl自带的函数glTranslatef(dx,dy,dz)移动虚拟场景中的三维人手，若一个方向的改变量远大于另一个方向，那么只考虑主方向运动；

第五步：判断帧数是否大于给定值，若小于，则返回第一步；若等于，则采用最小二乘法拟合直线，并求出相关系数，然后返回第一步，若大于，则计算当前质心到直线的距离h

其中k表示直线斜率，b表示截距，(x₀,y₀)表示当前质心坐标点，转入第六步；

第六步：判断是否连续3帧图像获得的距离都大于设定值C0，若不是，则表明在规定的直线束范围内，转入第七步，如果是，则重新拟合直线，返回第一步；

第七步：判断该方向物体个数，若只有一个，则计算人手与物体的距离，然后转入第八步；若有多于一个的物体，则通过高光显示提示用户是否相对该物体操作，若用户静止不动，则表示不是该物体，若用户向前移动，则表示用户要对该物体操作，然后计算人手与物体的距离，转入第八步；

第八步：判断人手是否能够得到物体，若够不到，则将物体向人手移动到合适的位置；若能够到，则判断人手与物体的距离是否小于给定值h₀，最后，通过手势识别，对物体进行其他操作。

所述第一步中是根据肤色模型进行图像分割。

所述第一步中的将图像进行二值化是这样实现的：如果图像中是肤色，则置为一，否则置为零。

所述第二步是这样实现的：

根据求质心坐标公式求得二值化后的图像的质心坐标，包围盒大小以及左上角坐标：

其中，(x_c,y_c)表示质心坐标；

m_ij为图像的像素点的灰度，有为1，无为0；i表示行，j表示列；R是彩色图像RGB中的红色分量；x_i像素点的横坐标，y_j像素点的竖坐标；

其中：

X_max表示满足f(x,y)≠0,x,y∈N⁺且x＜400,y＜300的横坐标的最大值

X_min表示满足f(x,y)≠0,x,y∈N⁺且x＜400,y＜300的横坐标的最小值

Y_max表示满足f(x,y)≠0,x,y∈N⁺且x＜400,y＜300的纵坐标的最大值

Y_min表示满足f(x,y)≠0,x,y∈N⁺且x＜400,y＜300的纵坐标的最小值，

f(x,y)≠0表示二值化图像中坐标点(x,y)的像素值不为0，x为像素点的横坐标，x为0到400的正整数；y表示像素点的纵坐标，y为0到300的正整数；max为求最大值函数，min为求最小值函数；

包围盒宽度：L＝X_max-X_min；包围盒高度：W＝Y_max-Y_min；左上角坐标P(x,y)＝(X_min,Y_min)。

所述第三步是这样实现的：

质心坐标差值：(δx,δy)＝(x_now,y_now)-(x_former,y_former)方向：(-δx,-δy)

距离:

S1＝{(L,W)|210＜L＜285,180＜W＜240}

S2＝{(L,W)|185＜L＜210,145＜W＜180}

S3＝{(L,W)|150＜L＜185,120＜W＜145}

S4＝{(L,W)|110＜L＜150,100＜W＜120}

S5＝{(L,W)|97＜L＜110,85＜W＜100}。

其中，L表示包围盒宽度；W表示包围盒高度，S1,S2,S3,S4,S5表示包围盒大小f(L,W)是质心坐标差值的映射函数，(δx,δy)表示质心坐标差值所述第五步中的给定值为8。

所述第六步中的C0＝8。

所述第八步中的h₀＝0.4。

所述第八步中的其它操作包括：旋转，缩放，平移。

所述第八步中的手势识别采用基于Hausdorff距离的模板匹配算法来实现，即将获得的特征与库文件分别计算Hausdorff距离，距离越小，表示特征点匹配的越好。

与现有技术相比，本发明的有益效果是：

本发明提出了基于最小二乘法拟合直线束来预测用户的运动轨迹，从而确定用户想要操作的物体，然后根据虚拟场景中人手与物体的距离来确定操作对象。本方法本身也是利用基于上下文信息来实现的。实验表明，本发明提出的基于包围盒大小来控制Z变量变化，得到很好的效果；在用户有目的的移动的情况下，拟合直线束预测用户想要操作的物体的正确率达87％以上。

附图说明

图1 opengl图像显示原理

图2摄像捕获图像示意图

图3 matlab拟合直线束

图4本发明方法的步骤框图。

具体实施方式

下面结合附图对本发明作进一步详细描述：

基于上下文信息的隐式交互，在虚拟场景中得到了广泛的应用和研究。基于普通摄像头下获得的二维平面图像很难控制虚拟场景中的三维人手的运动。在操作过程中，人手对物体的选择大都采用碰撞检测，然而碰撞检测的时间复杂度很高，尤其是在场景较为复杂的虚拟环境中。为了解决这个问题，本发明进行了以下创新：(1)提出了一种场景态势感知的新方法；(2)利用最小二乘法拟合平行线束，判断用户想要操作的意图，并且采用包围盒大小实现控制Z变量在合适的范围内变化。

本发明方法具体如下：

一，准备工作：

1图像分割

在图像分割之前首先要对图像进行滤波，去除噪声，当然也会使得原图变得平滑(即：模糊)。然后再对滤波后的图像进行分割。目前常用的图像分割的方法可以分为：阈值分割法(请参考：唐好魁.基于双肤色模型的肤色分割方法的研究[D].山东大学,2009)，边缘检测法(请参考：路凯,李小坚,周金祥.基于肤色和边缘轮廓检测的手势识别[J].北方工业大学学报,2006,03:12-15；张春雪.图像的边缘检测方法研究[D].江南大学,2011.)和区域分割法以及结合定理工具的分割方法。此外还有屈晶晶(请参考：屈晶晶,辛云宏.连续帧间差分与背景差分相融合的运动目标检测方法[J].光子学报,2014,07:219-226.)等人提出的连续帧间差分与背景差分相融合的分割方法。本发明参照采用肤色模型(请参考：唐好魁.基于双肤色模型的肤色分割方法的研究[D].山东大学,2009)(YCbCr)的将人手和背景分割开来，并将图像二值化。

2特征提取

特征提取的方法多种多样。陶桑彪等人(请参考：陶桑彪,焦国太.静态手势图像轮廓特征提取算法研究[J].山西电子技术,2015,02:90-91)提出一种轮廓与肤色统计融合的静态手势轮廓特征提取算法，先通过肤色将手势轮廓提取出来，然后再提取轮廓的信息。朱继玉等提出了一种新颖的手势分割和整体及局部手势特征提取算法.用模糊集合来描述视频流中空域和时域上的背景、颜色、运动等信息,通过对它们执行模糊运算,分割出人手；任海兵(请参考：任海兵,徐光祐,林学訚.基于特征线条的手势识别[J].软件学报,2002,05:987-993)等人通过融合颜色、运动和边缘等多种信息以提取能够反应人手结构特性的特征线条,并将特征线条分割成小的曲线段，并跟踪这些曲线段的运动。冯志全(请参考：冯志全,杨波,郑艳伟,徐涛,李毅,朱德良.基于特征点分布分析的手势特征检测方法[J].计算机集成制造系统,2011,11:2333-2338+2340-2342)等人提出的手势特征点分离算法，将手势外接圆半径等分成不同的区域，然后再提取特征。这种方法简单而且具有一定的旋转和缩放不变性。本发明就采用文献(冯志全,杨波,郑艳伟,徐涛,李毅,朱德良.基于特征点分布分析的手势特征检测方法[J].计算机集成制造系统,2011,11:2333-2338+2340-2342)的方法，提取手势的特征点。

3手势动作识别

手势识别的方法主要有：模板匹配法，统计识别法，模糊识别法和人工神经网络分类法，以及形状匹配法。常用的形状匹配法有不变矩法、几何参数法、特征模表示法、边界方向直方图法、小波重要系数法，以及我国学者研究发表的小波轮廓表示法等。本发明使用的手势识别的方法是基于Hausdorff距离(请参考：张良国,吴江琴,高文,姚鸿勋.基于Hausdorff距离的手势识别[J].中国图象图形学报,2002,11:43-49)的模板匹配算法。就是将获得的特征与库文件分别计算Hausdorff距离，距离越小，表示特征点匹配的越好。具体算法如下：

设A，B为两个点集分别有N个和M个元素,则A,B间的Hausdorff距离H(A,B)定义为

H(A,B)＝max{h(A,B),h(B,A)} (公式1.1)

代码如下：

同理，即可求出h(B,A)，从而得到H(A,B)。

二，场景建模

1图像显示简介

在虚拟环境中，由于OpenGL图像显示的原理，如图1所示。

不同的xy平面(Z＝C的平面)，移动相同的距离(D)，在屏幕上显示物体的移动却不同(即：离视点越近，在屏幕上移动的距离越大)。所以，对于虚拟场景中的不同物体(它们的Z轴坐标可能并不相同)，既不能采用相同的函数去移动它们。

而且，在普通摄像头下获得的二维图像，很难控制虚拟场景中三维手在三维空间的移动。所以很多研究者都采用动画的方式来避免这么问题。本发明则利用距离摄像头越近，获得的手势的包围盒越大这个原理如图2所示，将这一分量，用来控制Z轴坐标的变化。

2确定映射关系

通过大量的实验，计算同一年龄段(20-26)每一个人的人手(区分男女)在距离摄像头一定距离下(D)，包围盒的大小。根据统计学中概率公式

求出L和W。然后，统计不同距离范围下的包围盒的大小，得到表1：

表1

DL＝Px(包围盒起始点的横坐标)，DR＝400-L-Px；

DU＝Py(包围盒起始点的纵坐标)，DW＝300-W-Py；

其中，DL为向左移动的距离，DR为向右移动的距离；DU为向上移动的距离，DW为向下移动的距离。从而可以得到人手在这些区域可以移动的范围。

在已有的三维场景中，各个物体的三维坐标相对于虚拟人手初始位置的坐标都是确定的。那么便可以根据包围盒的大小(因为包围盒一定的情况下，人手的可移动范围基本不变)确定映射关系。

其中

d_i为人手可移动的距离；i＝1,2…6，k1…k6表示系数由实验确定，D表示虚拟人手距离物体的距离(是一个可以变化量)，系统会根据包围盒的大小S(属于哪个范围)来确定z坐标的该变量如δZ函数所示，并且确定虚拟人手的移动距离如f(S)函数所示。

三，基于场景态势感知的交互算法

1基于最小二乘法拟合(请参考：武汉大学测绘学院.误差理论与测量平差基础[M].武汉:武汉大学出版社,2003)运动轨迹(折线段)算法

根据一般(斜率存在情况下)直线方程:

y_i＝ax_i+b(i＝1,2,...，n) (公式3.1)

式中(x_i,y_i)为测点坐标，a为直线的斜率，b为y轴的截距，a、b为待估参数，a₀、b₀为它们的近似值。令

a＝a₀+δa

b＝b₀+δb

以y作为因变量，以x为自变量，误差方程为

误差方程矩阵表达式

AδX＝l+V (公式3.3)

其中

按最小二乘法则

V^TV＝min (公式3.4)

即

因变量残差

V＝AδX-l (公式3.5)

将实验获取的部分质心坐标，用MATLAB进行仿真得到仿真图，如图3所示。并求出直线方程与算法代码所求的完全一致，证明了拟合直线算法的正确性。

如图3所示：中间的一条直线是根据前几帧的坐标点(图中正方形)拟合出的，红色的点为预测后的点，根据该点距离拟合直线的距离是否小于C₀来判断人手是否在平行线内，进而预测人手移动的具体方向。该方法在离线的情况下，人有目的的移动时取得了很好地效果。

2场景态势感知与交互算法

通过包围盒的大小以及每帧图像中人手的质心坐标，来控制虚拟环境中三维人手的空间坐标。并且根据上下文(质心的位置)拟合直线，确定直线束，预测人手移动的方向，并判断该方向是否有物体，以及三维人手与物体的距离。然后进行其他操作，具体算法如图4所示，包括：

第一步：对获取一帧图像，根据肤色模型进行图像分割并将图像进行二值化(是肤色置为一，不是置为零)

第二步：根据求质心坐标公式(请参考：张孟忠.用数学归纳p法推导质心公式[J].九江师专学报,2002,05:46-47)

求二值化后的图像的质心坐标，包围盒大小以及左上角坐标。

第三步：计算质心坐标差值向量(大小和方向)并根据包围盒大小和坐标确定三维虚拟场景中人手移动的方向(dx,dy,dz)和距离：

距离:

S1＝{(L,W)|210＜L＜285,180＜W＜240}

S2＝{(L,W)|185＜L＜210,145＜W＜180}

S3＝{(L,W)|150＜L＜185,120＜W＜145}

S4＝{(L,W)|110＜L＜150,100＜W＜120}

S5＝{(L,W)|97＜L＜110,85＜W＜100}。

第四步：使用opengl自带的函数glTranslatef(dx,dy,dz)移动虚拟环境中的三维人手，若一个方向(假设为X轴方向)的改变量远大于另一个方向(Y轴方向)，那么可以只考虑主方向运动。

第五步：

判断帧数是否大于给定值(设为8)

若小于，则返回第一步；

若等于，则：采用最小二乘法拟合直线，并求出相关系数返回第一步。

若大于，则：计算当前质心到直线的距离H

其中k表示直线斜率，b表示截距，(x₀,y₀)表示当前质心坐标点，执行第六步

第六步：

判断是否连续3帧图像获得的距离都大于设定值C0，若不是则表明在规定的直线束范围内，执行第七步。如果是，那么重新拟合直线，返回第一步。

第七步：

判断该方向物体个数

1)若只有一个则：计算人手与物体的距离，执行第八步

2)若有多个物体，则：通过高光显示提示用户是否相对该物体操作，若用户静止不动，则表示不是该物体，若用户向前移动，那么认为用户要对该物体操作，然后计算人手与物体的距离，执行第八步。

第八步：判断人手是否能够得到物体

1)若够不到，则将物体想人手移动到合适的位置，方便对物体进行其他操作。

2)若可以够着，判断人手与物体的距离是否小于给定值(手已在物体旁)

最后，通过识别一系列的动作，对物体进行其他操作。例如：旋转，缩放，平移等等。

下面通过实验来验证本发明方法的技术效果：

让实验者(60人)在实验室环境光照恒定的环境下，完成抓取虚拟场景中的物体A，B，C，D，并进行其他简单操作的实验。首先，将实验人员划分为人数相等的两部分，分别记为A队，B队。其次，明确告诉A队成员实验内容即：先朝哪个物体运动，运动的速度等等。待A队成员全部熟悉实验环境和操作步骤后，做实验。并记录实验数据输出到文本文件中。第三，统计分析根据实验数据(电脑获取的质心位置以及包围盒大小和预测的结果)，调整直线束的宽度C0，以及临界相关系数k₁，k₂，…，k₆。然后经过反复多次实验，根据实验数据(有目的性的)，确定最终的系数为：C0＝0.39，k₁＝0.375，k₂＝0.31，k₃＝0.29，k₄＝0.275，k₅＝0.26，k₆＝0.25。

最后，让B队实验人员在相同的实验环境下和灯光下，进行实验。等到实验者能够比较熟练的完成一个实验时。将参数按照实验结果修改好，并且添加预测提示函数(根据系统预测出想要操作的物体，在达到一定的距离时确认并弹出对话框提示给实验者)。接下来就是验证算法的正确性了。

在不告诉实验者怎样抓取，以及怎样移动人手(只要求自己有目的的抓取)的前提下，让B组的实验人员做实验。每做完一次实验，让实验者填写实验提示是否正确并记录。每个实验者完成抓取动作10次。并将每次的数据，放入MATLAB中作图，判断数据是否符合有目的性，并对无效数据经行删除。

通过大量实验得到，将算法预测的结果的正确率，如表2所示

正确	失败
		87.4％	13.6％

表2

实验表明：在实验者有目的性的抓取时，用最小二乘法拟合出的直线束来预测用户想要操作的物体，正确率达87％。

在实验者有目的性的抓取想要操作的物体时，采用最小二乘法拟合直线束来预测实验者想要操作的物体，取得了良好的效果。大大减少了实验者的操作负荷，节约了操作时间，尤其是在复杂的三维场景下。其次，通过包围盒的大小，来控制Z轴变量的在合适的范围内变化，进而实现平面图像下的人手移动虚拟场景用的三维人手的目的。最终实现了更为人性化的人机交互。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。