CN105930785B

CN105930785B - 一种智能化的隐式交互系统

Info

Publication number: CN105930785B
Application number: CN201610236809.3A
Authority: CN
Inventors: 丁盛
Original assignee: Weifang University of Science and Technology
Current assignee: Weifang University of Science and Technology
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2017-05-03
Anticipated expiration: 2036-04-15
Also published as: CN105930785A

Abstract

本发明提供了一种智能化的隐式交互系统，其特征在于，包括：手势动作检测模块：实时获取用户体态行为信息,检测用户位置，并检测与识别用户手势动作；显式交互信息获取模块：检测智能电视的功能状态信息，获得低层次的显式交互信息；高层次的隐含交互信息获取模块：将处理后的用户体态行为信息与智能电视实时的功能状态信息相结合，建立基于用户行为和智能电视状态的多层次动态上下文推理模型，获得高层次的隐含交互信息；隐式交互行为模型建立模块：将隐含交互信息可视化，识别用户在可视化隐含信息指导下完成的手势动作，建立显隐信息融合的隐式交互行为模型，完成交互任务。

Description

一种智能化的隐式交互系统

技术领域

本发明属于智能电器领域，具体涉及一种智能化的隐式交互系统。

背景技术

伴随人机交互技术的发展，基于视觉的手势交互在人机交互领域的重要性愈发突出。与传统的WIMP交互方式相比，基于视觉的手势交互摆脱了鼠标、键盘对用户的束缚，并且能为用户提供更大的交互空间、更加逼真的交互体验。基于视觉的手势交互现已被广泛应用在虚拟装配、虚拟增强现实、体感游戏、机器人控制、智能电视交互等领域。在智能电视手势交互系统中，基于视觉的手势交互帮助用户摆脱了对遥控器的束缚，并以远距离操作的方式为用户操作智能电视提供了一种自然的交互方式。智能电视交互场景中，由于功能繁多、复杂，需要大量的简单手势命令以及简单手势命令的组合才能完成操作。大量的手势命令增加了用户的记忆负担，给用户带来了极大的认知负荷；同时，基于视觉的手势交互中存在的识别率、midas touch、复杂手势动作命令问题，限制了用户操作的准确性，同样给用户造成了极大的操作负荷。

针对基于视觉的手势交互中存在的问题，武汇岳(请参考：武汇岳,张凤军,刘玉进,等.基于视觉的手势界面关键技术研究[J].计算机学报,2009,32(10):2030-2041)从认知心理学角度，将手势交互过程分为选择性处理、分配性处理、集中处理3个阶段，结合人类知觉信息加工中的注意力模型提出了一个基于非接触式的视觉手势状态转移模型；通过模仿人类视觉系统对目标对象的识别处理机制，使系统具备能够选择性处理关键性信息的能力，有效避免了Midas Touch问题。梁卓锐(请参考：梁卓锐,徐向民.面向视觉手势交互的映射关系自适应调整[J].华南理工大学学报：自然科学版,2014,42(8):52-57)提出了一种基于用户操作特点的映射关系自适应调整方法，基于Borg's CR-10尺度心理感知实验测试用户手部移动的感知；该方法根据交互过程中的手部移动情况，在每次连续交互操作结束后对映射方程进行调整，使用户在自身物理限制的操作范围内完成全屏幕的操作覆盖，并通过降低用户手部移动的几率来提高用户体验。王西颖(请参考：王西颖,张习文,戴国忠.一种面向实时交互的变形手势跟踪方法[J].软件学报,2007,18(10):2423-2433)提出一种新颖的变形手势实时跟踪方法，利用一组2D手势模型替代高纬度的3D手势模型，通过对图像中手指和指尖定位，将K-means聚类算法与粒子滤波相结合，实现对变形手势的快速、准确的连续跟踪，满足了实时性的要求。但是该方法对手势图像的分割质量要求较高，影响了手势交互的鲁棒性。Wei-Po Lee(请参考Lee W P,Che K,Huang J Y.A smart TV systemwith body-gesture control,tag-based rating and context-aware recommendation[J].Knowledge-Based Systems,2014,56(3):167-178)利用kinect体感摄影机实现了自然手势控制智能电视的交互方式，创建一种基于社交标记和用户所处的情境上下文信息的推荐系统，为用户推荐最适合用户个性化需求的服务内容。这种方法融入了用户使用智能电视的情境上下文信息内容推荐服务，在一定程度上减轻了用户的认知和操作负担，但是没有考虑用户本身的体态行为上下文信息对减轻用户交互的影响。Vatavu(请参考：Vatavu RD.User-defined gestures for free-hand TV control[C]//Proceedings of the 10thEuropean conference on Interactive tv and video.ACM,2012:45-48)提出的用户自定义手势控制电视的交互系统中，通过研究用户完成电视基本操作任务时的用户手势动作偏好，观察用户行为，建立用户手势和电视功能之间的最佳映射关系，获得完成某一电视操作任务的最佳手势操作方式，但用户依然需要记忆大量的手势动作实现电视操作，用户的认知负担较大。田丰(请参考：田丰,邓昌智,周明骏,等.Post-WIMP界面隐式交互特征研究[J].计算机科学与探索,2007(2))提出了Post-WIMP的隐式交互方法，利用识别技术、上下文感知技术、用户修正技术来支持Post-WIMP的隐式交互；该方法使用户无需关注交互任务的执行方式和过程，只需关注任务本身，使人们以更加自然的方式来完成交互任务。徐光祐(请参考：徐光祐,陶霖密,史元春,等.普适计算模式下的人机交互[J].计算机学报,2007,30(7):1041-1053)对普适计算环境下的人机交互进行深入分析，提出了以用户和环境为主要影响因素的隐式交互模式。他将物理空间中的人机交互分为基于物理空间接口的人机交互和基于觉察上下文计算的隐式交互；隐式交互中计算系统利用上下文知识对用户的操作进行解释和理解，并把它作为对计算系统的附加输入，从而完成交互任务。觉察上下文信息的提取与感知推理是实现隐式交互的基础，叶喜勇(请参考：叶喜勇,陶霖密,王国健.基于动作理解的隐式交互[C]//第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】.2011)在老年看护人机交互应用中提出了一种动态上下文模型及ADL-DBN推理模型，实现基于动作理解的隐式交互方式；这种交互方式帮助计算机不分散人的注意力情况下理解人的意图，完成交互任务。王国建(请参考：王国建,陶霖密.支持隐式人机交互的分布式视觉系统[J].中国图象图形学报,2010,15(8):1133-1138)提出了一种支持隐式人机交互的分布式视觉系统，并将其应用在小型会议场景中。在基于视觉的手势交互中，由于上下文知识的模糊性，导致对人体动作的解释就存在多义性(请参考：徐光祐.人机交互中的体态语言理解[M].电子工业出版社,2014)。传统的基于规则的知识表示和推理，不能有效反映交互上下文信息的模糊性。关志伟(请参考：关志伟.面向用户意图的智能人机交互[D].中国科学院软件研究所,2000)首次将FCM(请参考：Kosko,Bart.Fuzzy cognitive maps[J].International Journal of Man-Machine Studies,1986,24(1):65-75)应用于人机交互的模糊知识表示和推理，有效地实现了自然人机交互的高层认知过程。但由于FCM不能提供丰富且动态的推理机制，不能表示交互概念间因果关系测度的不确定性(请参考：马楠,杨炳儒,鲍泓,等.模糊认知图研究进展[J].计算机科学,2011,38(10):23-28)。PapageorgiouE(请参考：Papageorgiou E,Stylios C,Groumpos P.Fuzzy Cognitive Map LearningBased on Nonlinear Hebbian Rule[M]//AI 2003:Advances in ArtificialIntelligence.Springer Berlin Heidelberg,2003:256-268)提出了一种通过大量计算过程实现推理的动态模糊认知模型，增强了概念节点的动态性。

综上所述，目前基于视觉的智能电视手势交互中主要存在的问题是用户认知负荷和操作负荷较重。

发明内容

本发明的目的在于解决上述现有技术中存在的难题，提供一种智能化的隐式交互系统，有效提高智能电视用户的交互体验，降低用户的操作负荷和认知负荷。

本发明是通过以下技术方案实现的：

一种智能化的隐式交互系统，其特征在于，包括：

手势动作检测模块：实时获取用户体态行为信息,检测用户位置，并检测与识别用户手势动作；

显式交互信息获取模块：检测智能电视的功能状态信息，获得低层次的显式交互信息；

高层次的隐含交互信息获取模块：将处理后的用户体态行为信息与智能电视实时的功能状态信息相结合，建立基于用户行为和智能电视状态的多层次动态上下文推理模型，获得高层次的隐含交互信息；

隐式交互行为模型建立模块：将隐含交互信息可视化，识别用户在可视化隐含信息指导下完成的手势动作，建立显隐信息融合的隐式交互行为模型，完成交互任务；

所述用户位置是指用户相对智能电视上摄像头的水平距离、角度，检测用户位置具体如下：

通过Kinect获取人体主要关节点的三维坐标数据，根据人体头部节点和人体重心坐标信息，确定人体相对智能电视的位置；

所述检测与识别用户手势动作包括用户手部静态行为的识别和用户手部动态行为的识别，具体如下：

基于Kinect实现手势部位的检测与分割，通过OpenNI SDK获取人手质心坐标，在人手坐标领域内的三维空间提取出手的部位，再使用肤色模型分割方法对获取的人手部位进行处理，得到初步的人手图像，对初步的人手图像进行去噪、膨胀、腐蚀处理，得到最终的人手图像；

采用HCDF-H算法进行用户手部静态行为的识别；

用户手部动态行为的识别；

所述用户手部动态行为的识别包括：

Step1.输入手势图像帧，空间人手三维质心坐标，初始化动态手势类型特征向量DGT；

Step2.根据手势质心坐标，以每连续T帧图像计算一次连续T帧图像的静态手势运动距离d，并以连续T帧图像更新一次d；

Step3.若d<D，开始识别触发动态手势的静态手势Gesture_start，D为阈值；

Step4.若Gesture_start识别成功，获取此时的静态手势质心点S手势并转入Step5；

Step5.进行动态手势质心轨迹提取，并将轨迹质心点三维坐标存储在data数组中；

Step6.再次判断连续T帧手势运动距离d，若d<D则识别结束静态手势Gesture_end；计算data数组长度length；

Step7.若Gesture_end识别成功，获取此时的静态手势质心点E；

Step8.若length>20，根据触发动态手势的静态手势质心点S、结束动态手势的静态手势质心点E的坐标值，判断动态手势运动方向，否则，再次判断d，若d>D执行step9，否则返回step8；

Step9.判断动态手势类型，求出对应手势ID，并修改对应动态手势ID的key值为1，表示动态手势ID识别成功，输出动态手势类别ID和与ID对应的key值；

Step10.DGT恢复初始化；

所述建立基于用户行为和智能电视状态的多层次动态上下文推理模型，获得高层次的隐含交互信息是这样实现的：

将交互概念节点分为四类：用户行为交互概念节点、设备环境上下文状态信息交互概念节点、交互情景事件节点、激发操作语义的交互概念节点集合；

交互概念节点集合C表示多层次动态上下文推理模型的节点集合，C＝(U,S,E,A)，其中U为用户行为交互概念节点集合，S为设备环境上下文状态信息交互概念节点集合，E为交互情景事件节点集合，A为激发操作语义的交互概念节点集合；

集合U、S是已知状态参量，E、A是未知参量；初始状态时，根据当前时刻检测到的初始状态值决定U、S中各个节点的概念值，若检测到事件发生，则与之对应的交互概念节点值设置为1，否则为0；E、A中各个概念节点值初始化为0；当多层次动态上下文推理模型收敛到一个稳定状态时，获得稳定状态下各交互概念节点的值，基于多层次动态上下文推理模型的上下文推理计算过程如下式：

其中，是交互概念C_i在t+1时刻的状态值；是交互概念C_j在t时刻的值，W_ij是C_i和Cj的权重，表示相关节点间的因果联系强度，根据交互节点之间边的权值得到CDL-DFCM的邻接矩阵W，W＝{W₁₁，W₁₂，…W_nn}，f表示阈值函数，其作用是将交互概念的值映射到[0,1]区间，将W反复作用于该矢量，C达到稳定的收敛状态，即

(7)式中，表示W_ij第t+1次迭代的权值，λ表示学习率因子，λ＝0.1，

表示交互概念节点Cx的值在第t+1次迭代的变化量，表示节点Cx在第t次的迭代值；

交互概念集合C映射到感知空间上的交互意图集合I，I＝(I₁，I₂，…I_n)，对C上任意交互意图I_x，其隶属函数μ_x(C_i)，i＝1,2,…,n，其中C_i表示交互概念空间C中的第i个交互概念节点，μ_x(C_i)在区间[0,1]中取值，μ_x(C_i)的值反映C_i隶属于I_x的隶属程度，值为0表示C_i不属于交互意图I_x，I_x表示如下：

在感知空间的交互意图集合I中，交互意图之间在时空上存在互斥关系；根据公式(10)计算用户意图描述因子FI_x：

所述建立显隐信息融合的隐式交互行为模型，完成交互任务包括：

S1.实时检测智能电视功能状态上下文、用户显式行为信息；

S2.获得动态上下文数据，根据多层次动态上下文模型，进行数据融合与特征提取，并检测低层上下文事件的状态；

S3.检测与识别T时刻动态手势的类型，根据动态手势类型识别算法，获得T时刻用户的动态手势类型ID和key值；

S4.初始化交互概念集合C，根据低层上下文事件的状态，设置交互概念集合C中U、S中各交互概念节点的初始值，检测到的状态事件对应的交互概念节点值置为1，否则为0；集合E，A中各交互概念节点初始值设置为0；

S5.根据邻接矩阵W和公式(5)获得交互概念集合C在收敛状态下的交互概念节点值；

S6.根据公式(9)与(10)计算交互意图集合中交互意图I_x(x＝1,2,…,n)的交互意图描述因子FI_x的状态值；与意图描述因子集合FI中对应交互意图的交互因子比较，若FI_x＝FI^convergence，则激活交互意图I_x对应的交互情景事件和交互操作，否则返回S1；

S7.将T时刻激活的交互情景事件对应的功能菜单显示在智能电视界面最顶层，且计算机执行用户交互意图对应的交互操作；

S8.检测T+1时刻用户行为，若检测到用户手势动作，根据DGRA算法获得T+1时刻的用户动态手势类型ID和key值，然后执行S9；否则，智能电视保持当前的功能状态，并循环执行S8；

S9.计算T+1时刻向量DGDM，计算交互任务特征向量TI，若TI＝TI_x，x＝1,2,…,6，则计算机根据交互任务TI_x完成对应的功能操作。

所述采用HCDF-H算法进行用户手部静态行为的识别具体如下：首先标准化手势图像为32*32尺寸，并计算手势重心点到手势最远点作为主方向向量，沿主方向将手势图像分为8个子区域，求出子区域像素点数量，生成手势坐标点分布特征向量，再使用类-Hausdorff距离与手势模板库中每种手势的对比，得出最终识别结果。

所述S9中的计算T+1时刻向量DGDM是利用公式(12)计算得到的：

DGDM＝(ID,posture,key)(12)

公式(12)中，ID表示动态手势唯一标识，posture表示动态手势代表的语义，key代表动态手势的识别标志。

所述S9中的计算交互任务特征向量TI是这样实现的：

在T+1时刻，将具有特定语义的交互动作与此刻的系统界面交互信息相结合，以显、隐信息融合的交互映射范式实现用户的特定交互任务，特定交互场景下交互任务TI构成交互任务集合TIS，TIS＝(TI₁,TI₂,…,TI_n)，用公式(11)交互任务特征向量TI

TI_i＝(DGDM,E,A)i＝1,2,…,n (11)

公式(11)中第一个特征向量DGDM表示动态手势行为信息，第二个向量E表示通过识别出的交互情景事件，第三个向量A表示感知到的用户操作意图。

与现有技术相比，本发明的有益效果是：

(1)本发明方法依据用户的行为特征，建立了基于视觉的智能电视单手势交互原型系统；

(2)提出了多层次上下文模型和CDL-DFCM推理模型，实现了对交互情景事件的识别和用户意图感知；

(3)提出了显隐信息融合的隐式交互行为模型并提出相关算法，有效提高了智能电视用户的交互体验，降低了用户的操作负荷和认知负荷。

附图说明

图1手势动作统计表

图2不同类型静态手势图像

图3动态手势模型分解图

图4手势运动方向

图5基于智能电视手势交互的上下文模型

图6基于智能电视手势交互的动态上下文CDL-DFCM模型

图7初始化权值矩阵W^initial

图8显隐信息融合的隐式交互行为模型

图9操作准确率比较图

图10各项功能操作对应的手势移动距离

图11动态手势类型识别率

图12平均操作时间图。

具体实施方式

下面结合附图对本发明作进一步详细描述：

本发明从认知心理学角度出发，通过捕捉用户交互意图，结合隐式交互理论提出了一种基于DFCM的多层次动态上下文推理模型和显隐信息融合的隐式交互行为模型。首先，实时获取用户体态行为信息,检测用户位置，并检测与识别用户手势动作；同时检测智能电视功能状态，获得低层次的显式交互信息。其次，将处理后的用户体态行为信息与智能电视实时的功能状态信息相结合，建立动态上下文模型；使用基于数据的权值迭代学习的微分Hebbian动态模糊认知图DFCM(请参考：张燕丽.基于模糊认知图的动态系统的建模与控制[D].大连理工大学,2012)的多层次动态上下文推理模型获得高层次的隐含交互信息。最后将隐含交互信息可视化，识别用户在可视化隐含信息指导下完成的手势动作，利用显隐信息融合的隐式交互行为模型，完成交互任务。。

智能电视人机交互中，手势动作作为一种非精确交互输入，用户交互目的的实现完全依赖于手势动作的模式识别率。这增加了用户操作和认知负荷。这种情况下，动态上下文对用户手势动作的理解起着重要作用。本发明通过对基于视觉的智能电视手势交互场景分析，首先建立了基于用户行为和智能电视状态的多层次上下文模型，实现上下文的数据融合与特征提取；其次，设计并实现了动态上下文CDL-DFCM推理模型和显隐信息融合的隐式交互模型，识别交互情景事件并感知用户意图；最后，提出了上下文显隐信息融合的隐式交互算法。实验结果表明，与现有相关算法比较，本发明在操作准确率、时间开销和手势移动距离等方面得到了明显改善，并有效提升了用户体验。

智能电视交互系统中，用户根据操作任务来完成相应的交互操作。因此，用户的交互需求是建立基于视觉的智能电视手势交互系统原型的基础。本发明按照先对基于视觉的远距离手势交互中的用户日常习惯性动作进行统计分析，再通过分析其中的认知信息，建立用户行为模型和原型系统的思路设计了以下实验。

实验1

首先，在安装有智能电视的实验室中，模拟用户收看电视场景；建立一个基于Kinect的智能电视远程单手势交互模型，但该模型并不能实现与用户的真正交互操作，操作有效距离为1-3.5米。其次，邀请不同专业的50名在校大学生参与本次实验，每位实验参与者具有操作智能电视或智能手机的操作经验，记录每名实验人员根据电视功能布局和本能反应做出的最自然、最轻松手势动作，并使用单手操作。最后，统计用户的习惯性动作，进行认知行为分析，对每种电视功能操作使用最多的习惯性动作建立行为模型。实验1提供基于视觉的手势交互中最受欢迎的10类手势动作(请参考：刘雪君.面向互动电视的手势交互系统研究与实现[D].复旦大学,2013)和智能电视功能界面供实验参与者参考。统计结果表明在不考虑用户操作目的的情况下，得到次数高于50％的4种手势动作，如图1所示。

实验2

在实验1的基础上，本发明设计了实验2。首先，设计了关于基于视觉的智能电视手势交互操作的网络调查问卷。其次，根据调查问卷的数据分析结果，开发了基于视觉的智能电视手势交互原型系统。本次问卷共回收157份，年龄在15-25岁之间的占总问卷人数的75.16％，25-60岁占24.85％。性别比例基本均等，对实验不会产生影响。调查人员中81.53％的人没有使用过基于视觉的手势交互智能电视。在手势交互智能电视操作目的的调查中，52.87％的人认为主要完成频道、音量、电视关闭操作，45.86％的人只用来玩手势交互游戏。56.45％的人对遥控器调节音量、频道的方式感到不满意。

基于实验1和实验2，本发明设计了基于视觉的智能电视单手势交互原型系统，IHCI-smartTV。IHCI-smartTV包括智能电视频道调节、音量调节、主页功能切换、手势操作开关、基于手势控制的游戏五个功能模块，设计表1中的8种手势动作完成与智能电视的交互任务。本发明主要对IHCI-smartTV中频道调节、音量调节、手势操作开关功能的手势交互进行研究。手势操作开关功能是指手势操作开关打开后能利用手势动作控制智能电视进行除手势操作开关以外的其它操作，目的是避免基于视觉的手势交互中存在的midas touch问题。

表1

隐式交互行为模型：

人体显式行为上下文信息的检测与识别：

用户显式行为信息是指与智能电视交互的唯一用户的人体行为信息，包括用户位置检测、用户手部静态与动态行为的检测与识别。用户位置检测是指用户相对智能电视上摄像头的水平距离、角度。基于视觉的手势检测与识别可分为以下两种：一种是由连续手部动作组成的动态手势(gesture)，如手的挥动；二是静态的手部姿态(posture)。本发明中手势动作上下文是指手部动作的运动与几何信息，如手部的静态姿势、运动速度、运动轨迹信息等。

人体动作行为的研究需要能够准确及时的采集人体动、静状态下数据信息，为此本发明搭建基于Kinect的实验平台，并配置OpenNI SDK。通过Kinect可以获取人体15个主要关节点的三维坐标数据，根据人体头部节点和人体重心坐标信息，可以确定人体相对智能电视的位置。基于Kinect实现手势部位的检测与分割，是通过OpenNI SDK获取人手质心坐标，在人手坐标领域内的三维空间提取出手的部位，再使用肤色模型分割方法对获取的人手部位进行处理，得到初步的人手图像，对初步的人手图像进行去噪、膨胀、腐蚀处理，可得最终比较理想的人手图像。

考虑到动态手势与静态手势在实际应用中结合使用的情况，以及基于视觉的手势交互中存在的midas touch问题，本发明将静态手势的识别与动态手势的检测与识别相结合，建立基于静态手势姿态识别与动作手势运动检测的动态手势类型识别模型(dynamicgesture detect model,DGDM)。该模型的形式化描述：DGDM＝<ID,posture,Gesture_start,Gesture_end,orientation,key,data,length>。ID是动态手势的唯一标识符；posture标识手势动作的显式语义信息，如：“握拳、挥手”；Gesture_start为触发动态手势的预定义静态手势；Gesture_end为结束动态手势的预定义静态手势；orientation描述手势在三维空间中的相对运动方向；d为标志位，当被检测到时，置为1，否则为0；data为存储归一化手势质心运动轨迹坐标的浮点型数组。length表示动态手势的从开始到结束的图像帧数，用来描述动态手势的持续时间。在有意识操作状态下，用户动态手势持续时间存在一定的规律性，可通过统计学实验获得。

静态手势姿态采用HCDF-H算法(请参考：杨学文,冯志全,黄忠柱,何娜娜.结合手势主方向和类-Hausdorff距离的手势识别[J].计算机辅助设计与图形学学报,2016,01:75-81)进行识别。首先标准化手势图像为32*32尺寸，并计算手势重心点到手势最远点作为主方向向量，沿主方向将手势图像分为8个子区域，求出子区域像素点数量，生成手势坐标点分布特征向量，再使用类-Hausdorff距离与手势模板库中每种手势的对比，得出最终识别结果。该方法能够避免手势旋转、平移、缩放的影响，具有较高的效率和识别准确率。在基于视觉的智能电视手势交互中，将电视交互系统中的有效静态手势分为三种类型，五指打开为1、握拳为2、食指和中指打开为3，如图2所示。基于静态手势的动态手势分解图3所示。

在智能电视手势交互实验中，发现每个动态手势开始前用户都会有意识的调整静态手势。在调整静态手势的时间段内(调整静态手势的时间段是指用户从随机静态手势调整到具有具体语义的理想静态手势的时间差)，静态手势的质心位移保持相对静止。实验对50名用户的动态手势运动进行分析，统计用户做不同类型动态手势时在调整静态手势时间段内静态手势每两帧手势质心的移动距离。以每连续T帧手势图像作为一个静态调整时间段，连续T帧内静态手势运动距离满足条件阈值D。以D和T作为状态转移条件，若连续T帧内手势移动距离d<D,则进入静态手势识别阶段。运动方向(orientation)是区分不同动态手势的关键信息，如果将触发动态手势的静态手势质心点S为坐标原点建立坐标系，其与结束动态手势的静态手势质心点E方向判断关系如图4所示。

Orientation可用公式(1)中Ori描述；首先，在XOY面上根据S和E计算向量与X轴夹角的正切值，根据正切值的绝对值判断出手势上下方向运动还是左右方向运动；上下方向根据两坐标点Y轴坐标差值的正负判断具体方向，左右方向根据两坐标点X轴坐标差值判断具体方向。Z轴方向，手势水平位移阈值绝对值为Z₀。其计算公式为：

根据DGDM，我们可以判断出动态手势类型(dynamic gesture type，DGT)，并用特征向量DGT描述一种动态手势，不同的动态手势可根据不同的语义、开始手势、结束手势、方向以及持续时间来描述。

DGT＝(ID,posture，Gesture_start,Gesture_end,orientation,length) (4)

根据以上信息，动态手势类型识别的算法(Dynamic gesture recognitionalgorithm，DGRA)步骤如下：

输入：手势图像帧，空间人手三维质心坐标。

输出：动态手势类别ID和与ID对应的key值。

Step1.初始化DGT；

Step2.根据手势质心坐标，以每连续T帧图像计算一次连续T帧图像的静态手势运动距离d，并以连续T帧图像更新一次d。

Step3.若d<D，开始识别触发动态手势的静态手势Gesture_start。

Step4.若Gesture_start识别成功，获取此时的静态手势质心点S手势并转入Step5。

Step5.进行动态手势质心轨迹提取，并将轨迹质心点三维坐标存储在data数组中。

Step6.再次判断连续T帧手势运动距离d，若d<D则识别结束静态手势Gesture_end；计算data数组长度length。

Step7.若Gesture_end识别成功，获取此时的静态手势质心点E。

Step8.若length>20，根据S、E坐标值，带入公式(1)判断动态手势运动方向。否则，再次判断d，若d>D执行step9，否则返回step8。

Step9.根据公式(4)判断动态手势类型，求出对应手势ID，并修改对应动态手势ID的key值为1，表示动态手势ID识别成功。

Step10.DGT恢复初始化。

基于CDL-DFCM模型的高层隐含信息感知与推理：

在人机交互系统中，用户交互行为的隐含信息往往隐藏在交互场景的上下文中。智能电视交互系统中主要考虑三种形式的上下文信息，分别是智能电视状态上下文，人与智能电视关联的上下文及与用户行为相关的上下文。

(1)与智能电视状态有关的上下文，可根据上下文层次关系分为低层设备功能状态，“如：电视节目播放状态、主页切换功能状态、待机状态”和通过推理获得的高层交互情景事件与用户意图，如：“电视正处在手势功能激活状态”，“电视正处在频道调节状态”、“电视正处在音量调节状态”。这类信息关系到对人体的理解，是解决用户行为多义性的重要依据。

(2)与用户有关的上下文包括人体重心的相对位置与手部动作行为信息。

(3)用户与智能电视的关联上下文，被定义为用户位置事件，与智能电视的开关状态关联，如：电视工作状态下，“用户在电视有效操作范围内”。这类信息是联系用户行为上下文与设备状态上下文的纽带。

对基于视觉的智能电视手势交互场景上下文，建立多层次上下文模型。如图5所示。

在隐式交互理论中，上下文是系统底层数据与高层用户意图理解的语义鸿沟。为了识别交互情景事件与主动理解用户的动作，本发明对用户行为和智能电视状态进行分析，根据上下文模型提出了一种基于DFCM的多层次动态上下文推理模型(CDL-DFCM)。CDL-DFCM能够实现对用户操作意图的感知，并以在线检测方式实时对上下文数据进行处理。在CDL-DFCM模型中，交互概念节点分为四类：智能电视状态交互概念节点，描述与智能电视功能状态有关的上下文；用户行为交互概念节点，描述用户手势交互动作；交互情景概念节点，描述具体交互任务的交互情景事件；操作语义的概念节点，描述用户的操作意图，与交互情景事件相关联。

针对基于视觉的智能电视手势交互系统的基本操作需求，本发明对IHCI-smartTV原型系统中频道调节、音量调节、手势操作开关功能的手势交互进行分析研究，具体包括音量增大、减小操作，频道上一个、下一个调节操作，手势操作开关功能。设置手势操作开关功能的目的是实现与其他交互通道的平滑融合，防止产生相互干扰。交互概念节点集合C表示CDL-DFCM的节点集合，C＝(U,S,E,A)。其中U为用户行为交互概念节点集合，S为设备环境上下文状态信息交互概念节点集合，E为交互情景事件节点集合，A为激发操作语义的交互概念节点集合。

在本发明研究的IHCI-smartTV人机交互系统中，概念节点列表如下：

(1)交互概念节点列表：

{

//用户动作行为交互概念节点集合U

1、向前推手(wave forward—U1)；

2、向上挥手(wave up—U2)；

3、向下挥手(wave down—U3)；

4、向左挥手(wave to the left—U4)；

5、向右挥手(wave to the right—U5)；

6、握拳(Fist—U6)；

7、用户位置(U7)

//智能电视状态信息交互概念节点集合S

1、智能电视节目播放状态(the playing state of smart TV—S1)；

2、手势操作功能状态(the opening state of body gesture operatingfunction—S2)；

//交互情景事件节点E

1、频道功能操作交互(E1)；

2、音量功能操作交互(E2)；

3、手势控制操作交互(E3)；

//激发操作语义的交互概念节点集合A

1、弹出频道操作菜单界面，并持续进行调到上一个频道的操作(A1)；

2、弹出频道操作菜单界面，并持续进行调到下一个频道的操作(A2)；

3、弹出音量操作菜单界面，并在原音量值基础上按一定幅度持续减小音量，直至收到音量减小结束命令或静音状态(A3)；

4、弹出音量操作菜单界面，并在原音量值基础上按一定幅度持续增大音量，直至收到音量增大结束命令或最大音量状态(A4)；

5、打开手势操作功能(A5)；

6、关闭手势操作功能(A6)；

}

(2)交互概念节点关联关系列表：

{

S1→U1：电视节目播放状态下，用户执行U1动作的可能性增加

S1→U2：电视节目播放状态下，用户执行U2动作的可能性增加

S1→U3：电视节目播放状态下，用户执行U3动作的可能性增加

S1→U4：电视节目播放状态下，用户执行U4动作的可能性增加

S1→U5：电视节目播放状态下，用户执行U5动作的可能性增加

S1→U6：电视节目播放状态下，用户执行U6动作的可能性增加

S2→U1：手势操作功能打开状态下，用户执行U1动作的可能性增加

S2→U2：手势操作功能打开状态下，用户执行U2动作的可能性增加

S2→U3：手势操作功能打开状态下，用户执行U3动作的可能性增加

S2→U4：手势操作功能打开状态下，用户执行U4动作的可能性增加

S2→U5：手势操作功能打开状态下，用户执行U5动作的可能性增加

S2→U6：手势操作功能打开状态下，用户执行U6动作的可能性增加

U1→E3：水平向前推手导致弹出手势交互开关交互菜单的可能性增加

U6→E3：握拳动作导致弹出手势交互开关交互菜单的可能性增加

U2→E1：向上挥手导致弹出频道菜单的可能性增加

U3→E1：向下挥手导致弹出频道菜单的可能性增加

U4→E2：向左挥手导致弹出音量菜单的可能性增加

U5→E2：向右挥手导致弹出音量菜单的可能性增加

U7→U1：用户进入手势有效操作区域后，执行U1的可能性增加

U7→U2：用户进入手势有效操作区域后，执行U2的可能性增加

U7→U3：用户进入手势有效操作区域后，执行U3的可能性增加

U7→U4：用户进入手势有效操作区域后，执行U4的可能性增加

U7→U5：用户进入手势有效操作区域后，执行U5的可能性增加

U7→U6：用户进入手势有效操作区域后，执行U6的可能性增加

E1→A1：频道操作功能激活后，持续调节至上一个频道的可能性增加

E1→A2：频道操作功能激活后，持续调节至下一个频道的可能性增加

E2→A3：音量操作功能激活后，持续调节音量减小的可能性增加

E2→A4：音量操作功能激活后，持续调节音量增大的可能性增加

E3→A5：弹出手势操作开关菜单后，关闭手势操作功能的可能性增加

E3→A6：弹出手势操作开关菜单后，打开手势操作功能的可能性增加

A5→S2：手势动作打开导致手势操作开关状态改变

}

根据上述分析，建立CDL-DFCM模型，如图6所示。

在CDL-DFCM模型中，集合U、S是已知状态参量，E、A是未知参量。初始状态时，根据当前时刻检测到的初始状态值决定U、S中各个节点的概念值，若检测到事件发生，则与之对应的交互概念节点值设置为1，否则为0；E、A中各个概念节点值初始化为0。当CDL-DFCM收敛到一个稳定状态时，可获得稳定状态下各交互概念节点的值。基于CDL-DFCM的上下文推理计算过程如(5)式：

其中，是交互概念C_i在t+1时刻的状态值；是交互概念C_j在t时刻的值。通过因果分析与专家经验分析智能电视手势交互中交互概念节点之间的关联关系，W_ij是C_i和Cj的权重，表示相关节点间的因果联系强度，根据交互节点之间边的权值可得到CDL-DFCM的邻接矩阵W，W＝{W₁₁，W₁₂，…W_nn}，图7为根据因果分析与专家经验获得的初始邻接矩阵W^initial。f表示阈值函数，其作用是将交互概念的值映射到[0,1]区间。将W反复作用于该矢量，C达到稳定的收敛状态，即

(7)式中，表示W_ij第t+1次迭代的权值，λ表示学习率因子，λ＝0.1。

表示交互概念节点Cx的值在第t+1次迭代的变化量，表示节点Cx在第t次的迭代值。

交互概念集合C映射到感知空间上的交互意图集合I，I＝(I₁，I₂，…I_n)。对C上任意交互意图I_x，其隶属函数μ_x(C_i)，i＝1,2,…,n，其中C_i表示交互概念空间C中的第i个交互概念节点。μ_x(C_i)在区间[0,1]中取值，μ_x(C_i)的值反映C_i隶属于I_x的隶属程度，值为0表示C_i不属于交互意图I_x。I_x表示如下：

在感知空间的交互意图集合I中，交互意图之间在时空上存在互斥关系，即每一时刻只可能存在一种可能性最大的交互意图发生。根据公式(9)中各节点的隶属程度与收敛状态下交互概念节点状态值，计算用户意图描述因子，根据公式(10)计算用户意图描述因子FI_x：

显隐信息融合的隐式交互行为模型：

在交互式智能电视交互系统中，电视屏幕是用户的直接关注对象，传统的显式交互方式中用户根据电视界面信息、状态按照既定的交互规则发出操作命令，用户操作命令与电视操作之间存在亦步亦趋的关系，这导致用户的操作负担很重，达到理想操作效果的平均时间较长。由于用户需要记住的操作动作较多，这也加重了用户认知负荷。本发明提出在显式交互模式基础上融合隐式交互模式的显隐信息融合隐式交互行为模型(EI-IBM)，如图8所示。以IHCI-smartTV原型系统构建的显隐信息融合的隐式交互行为模型中，用户与智能电视系统是交互主体。隐式交互是一种不可见的交互，这种不可见性是交互双方的一种间接连接关系，交互信息具有不确定性和模糊性。当用户透明地使用智能电视时，用户精力更多集中在交互任务本身。隐式交互模式通过对多种上下文信息融合、分析，消除多种上下文信息之间的歧义，实现对用户意图的理解，并以主动反馈方式向用户提供交互服务。

显隐信息融合的隐式交互模型是对智能电视交互的一种模式创新，改变了以往单纯依靠用户直接命令的显式交互模式。该模式的实现包括以下过程：

(1)基于低层上下文的感知与推理。依据T时刻用户行为上下文、智能电视状态上下文以及二者的关联上下文，通过CDL-DFCM模型，获得T时刻上下文的隐含交互信息。

(2)识别交互情景事件与捕捉用户意图，并将隐含交互信息可视化。首先，根据上下文线索识别出T时刻的交互情景事件，感知用户在T时刻的交互意图；然后，智能电视以隐式输出的方式主动提供与T时刻用户意图相关的系统交互服务。系统交互服务包括与用户意图相关的提示信息和智能电视主动调整用户当前的功能状态，并以图形、动画、文字、颜色等形式实现隐含信息的可视化，在此过程中无需用户的主动干预。例如：“主动弹出音量调节菜单”、“主动弹出频道调节菜单”、“节目音量以一定幅度持续增大状态”。

(3)可视化隐含信息指导下的主动显式交互输入。在可视化隐含信息的引导下，用户根据T+1时刻的系统服务界面信息，以具有特定语义的交互动作主动向电视系统发出交互命令。

(4)交互任务的实现。在T+1时刻，将具有特定语义的交互动作与此刻的系统界面交互信息相结合，以显、隐信息融合的交互映射范式实现用户的特定交互任务。特定交互场景下交互任务(task of interaction，TI)构成交互任务集合TIS，TIS＝(TI₁,TI₂,…,TI_n)。将目标交互任务用一个特征向量TI描述。

TI_i＝(DGDM,E,A)i＝1,2,…,n (11)

(11)公式中第一个特征向量DGDM表示动态手势行为信息，第二个向量E表示通过识别出的交互情景事件，第三个向量A表示感知到的用户操作意图。

DGDM＝(ID,posture,key) (12)

(12)式中，ID表示动态手势唯一标识，posture表示动态手势代表的语义，key代表动态手势的识别标志。

本发明研究中，IHCI-smartTV系统存在6种用户交互意图，使用公式(9)、(10)可计算出在CDL-DFCM模型收敛状态下用户意图描述因子FI^convergence的值，如表2所示,CDL-DFCM模型收敛状态下用户意图各节点状态值如表3所示。

表2

I	S1	S2	U7	U_i	E_i	A_i
							I1	0.6656	0.6656	0.6305	0.6654	0.6809	0.6024
I2	0.6656	0.6656	0.6305	0.6654	0.6809	0.6024
							I3	0.6656	0.6656	0.6305	0.6654	0.6809	0.6024
I4	0.6656	0.6656	0.6305	0.6654	0.6809	0.6024
							I5	0.6656	0.6656	0.6305	0.6661	0.6864	0.6024
I6	0.6668	0.6668	0.6307	0.6663	0.6865	0.6024

表3

基于智能电视手势交互上下文的显隐信息融合隐式交互算法：

从用户自身和智能电视出发，本发明通过对交互上下文的分析，利用CDL-DFCM模型获得了隐含的交互线索，并且通过显隐信息融合的隐式交互行为模型实现了用户与智能电视的智能、和谐、自然的交互。在此基础上，本发明提出了基于智能电视手势交互的动态上下文显隐信息融合的隐式交互算法(Explicit and Implicit Interaction algorithm,EIIA)。

算法核心思路是：首先，根据用户行为信息模型获取用户相关行为信息，根据行为特征向量识别用户显式行为信息；同时检测智能电视功能状态，完成低层上下文信息的提取。然后，根据CDL-DFCM模型处理低层动态上下文，获取高层隐含交互信息实现交互情景事件的识别与感知用户操作意图，并将隐含交互信息可视化。最后，用户根据可视化隐含信息的引导做出合理的显式交互动作，完成具体交互任务。显隐信息融合的隐式交互算法描述如下：

Step1.实时检测智能电视功能状态上下文、用户显式行为信息。

Step2.获得动态上下文数据，根据多层次动态上下文模型，进行数据融合与特征提取，并检测低层上下文事件的状态。

Step3.检测与识别T时刻动态手势的类型，根据动态手势类型识别(DGRA)算法，获得T时刻用户的动态手势类型ID和key值。

Step4.初始化交互概念集合C。根据低层上下文事件的状态，设置交互概念集合C中U、S中各交互概念节点的初始值，检测到的状态事件对应的交互概念节点值置为1，否则为0；集合E，A中各交互概念节点初始值设置为0。

Step5.根据邻接矩阵W和公式(5)获得交互概念集合C在收敛状态(即)下的交互概念节点值。

Step6.根据公式(9)与(10)计算交互意图集合中交互意图I_x(x＝1,2,…,n)的交互意图描述因子FI_x的状态值；与意图描述因子集合FI中对应交互意图的交互因子比较，若FI_x＝FI^convergence(如表2)则激活交互意图I_x对应的交互情景事件和交互操作，否则返回step1。

Step7.隐含信息的可视化。将T时刻激活的交互情景事件对应的功能菜单显式在智能电视界面最顶层，且计算机执行用户交互意图对应的交互操作。

Step8.检测T+1时刻用户行为，若检测到用户手势动作，根据DGRA算法获得T+1时刻的用户动态手势类型ID和key值，执行step9；否则，智能电视保持当前的功能状态，并循环执行step8。

Step9.根据公式(12)计算T+1时刻向量DGDM，结合公式(11)计算交互任务特征向量TI，若TI＝TI_x(x＝1,2,…,6)(如表2)，则计算机根据交互任务TI_x完成对应的功能操作。

实验结果与分析：

本发明以ICHI-smartTV为实验平台，设计了新的智能电视交互模式。本发明选择智能电视人机交互中的频道、音量、手势操作开关三类功能进行实验，具体操作包括：频道上一个、频道下一个、音量增大、音量减小、手势操作打开、手势操作关闭。本发明将未考虑上下文的动态手势识别方法(HCDF-H应用在ICHI-smartTV原型系统中作为对比实验。

实验结果如下：

本发明选择10位实验人员，每位实验人员根据表1的手势-任务映射模型完成频道、音量、手势操作开关三类功能。实验要求实验人员站立并位于智能电视前2.5米处以单手完成手势动作。操作过程以音量调节为例，当用户想要增大音量，发出音量增大的相关手势动作，智能电视感知用户意图后弹出音量菜单，接着便以一定的幅度持续增大音量，当用户对当前的音量感到满意时，发出停止音量命令，此时音量增大任务结束。在每次实验中每位实验人员完成：(1)频道1到10的遍历增大调节，再完成从频道10到1的减小调节；(2)从音量30到60的遍历增大、减小调节；(3)一次手势操作打开和关闭功能。上一个频道是指频道从1调至频道10。每位实验人员各做5次实验。功能操作的平均准确率如图9所示。根据实验人员手势轨迹的图像帧数的平均值来度量交互过程中完成每项操作手势的平均移动距离，每种电视功能操作的手势移动距离如图8所示。图9为DGRA算法的动态手势平均识别率。在智能电视响应时间一致的情况下，统计两种算法实现相同功能操作所需要的平均时间，其中系统响应时间为2.38s，如图10所示。

实验分析如下：

实验环境：一台PC机，Intel(R)Xeon(R)CPU,2.67GHz，8G内存；视觉输入设备为：Kinect传感器。

实验结果分析：

由图9可知，与HCDF-H算法相比，本发明算法EIIA有更高的操作准确率。由图10可以看出，基于EIIA算法的智能电视手势交互中用户以更小的手势移动距离就可以完成操作任务，与HCDF-H算法相比完成相同的交互任务用户手势移动的距离减少约60％。本发明实验中，基于EIIA算法的频道增大或减小操作中，用户只需一个开始频道调节命令和结束频道调节命令两个手势动作就可以完成试验中9个频道的遍历调节。而基于HCDF-H算法则需要9次手势动作才能完成相同的频道操作。同理，音量调节也是如此。由图12可知，基于EIIA算法的智能电视手势交互在频道操作、音量操作这种经常性操作的功能大大减少了用户的操作时间，而对于手势动作打开、关闭这些不频繁使用的功能则并没有时间上的优势。图11是从认知心理学角度，根据智能电视交互场景建立的用户手势操作的识别率，识别率均超过91％，同时这些手势动作是用户习惯性的手势动作，具有较低的认知负荷和操作负荷，满足了智能电视的交互需求。

实验算法分析：

EIIA算法在动态手势识别算法DGRA算法基础上结合智能电视交互上下文提出了新的交互模式。首先，根据认知心理学建立智能电视交互用户习惯性手势动作行为模型；其次，分析交互中用户的行为信息和智能电视状态信息上下文，利用CDL-DFCM模型感知用户的操作意图；最后，通过显隐信息融合的隐式交互模式完成交互任务。EIIA算法大大缩短了用户的操作时间和手势移动距离，从而降低了用户的操作负荷。而习惯性的手势动作也帮助用户降低了智能电视手势交互中的认知负荷，从而提高了用户体验。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

Claims

1.一种智能化的隐式交互系统，其特征在于，包括：

采用HCDF-H算法进行用户手部静态行为的识别；

用户手部动态行为的识别；

所述用户手部动态行为的识别包括：

Step7.若Gesture_end识别成功，获取此时的静态手势质心点E；

Step10.DGT恢复初始化；

A_{i}^{t + 1} = f ({\underset{j = 1}{Σ}}_{i &NotEqual; j}^{n} W_{i j} A_{j}^{t}) - - - (5)

f (x) = 1 / (1 + e^{- \frac{1}{2} x}) - - - (6)

其中，是交互概念C_i在t+1时刻的状态值；是交互概念C_j在t时刻的值，W_ij是C_i和C_j的权重，表示相关节点间的因果联系强度，根据交互节点之间边的权值得到CDL-DFCM的邻接矩阵W，W＝{W₁₁，W₁₂，…W_nn}，f表示阈值函数，其作用是将交互概念的值映射到[0,1]区间，将W反复作用于该矢量，C达到稳定的收敛状态，即

w_{i j}^{t + 1} = w_{i j}^{t} + λ ({Δq}_{i}^{t + 1} {Δq}_{j}^{t + 1}) - - - (7)

{Δq}_{x}^{t + 1} = A_{x}^{t + 1} - A_{x}^{t} - - - (8)

I_{x} = Σ_{i = 1}^{n} μ_{x} (C_{i}) / C_{i}, x = 1, 2, ..., n - - - (9)

{FI}_{x} = Σ_{i = 1}^{n} A_{i} μ_{x} (C_{i}), i = 1, 2, ..., n - - - (10);

S1.实时检测智能电视功能状态上下文、用户显式行为信息；

2.根据权利要求1所述的智能化的隐式交互系统，其特征在于：所述采用HCDF-H算法进行用户手部静态行为的识别具体如下：首先标准化手势图像为32*32尺寸，并计算手势重心点到手势最远点作为主方向向量，沿主方向将手势图像分为8个子区域，求出子区域像素点数量，生成手势坐标点分布特征向量，再使用类-Hausdorff距离与手势模板库中每种手势的对比，得出最终识别结果。

3.根据权利要求2所述的智能化的隐式交互系统，其特征在于：所述S9中的计算T+1时刻向量DGDM是利用公式(12)计算得到的：

DGDM＝(ID,posture,key)(12)

4.根据权利要求3所述的智能化的隐式交互系统，其特征在于：所述S9中的计算交互任务特征向量TI是这样实现的：

TI_i＝(DGDM,E,A)i＝1,2,…,n (11)