CN110032948A - 一种基于交互时序信息的草图手势识别方法 - Google Patents

一种基于交互时序信息的草图手势识别方法 Download PDF

Info

Publication number
CN110032948A
CN110032948A CN201910221914.3A CN201910221914A CN110032948A CN 110032948 A CN110032948 A CN 110032948A CN 201910221914 A CN201910221914 A CN 201910221914A CN 110032948 A CN110032948 A CN 110032948A
Authority
CN
China
Prior art keywords
gesture
user
sketch
intended
timing information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910221914.3A
Other languages
English (en)
Other versions
CN110032948B (zh
Inventor
田丰
李翔
黄进
张宗琦
王宏安
戴国忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201910221914.3A priority Critical patent/CN110032948B/zh
Publication of CN110032948A publication Critical patent/CN110032948A/zh
Application granted granted Critical
Publication of CN110032948B publication Critical patent/CN110032948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种基于交互时序信息的草图手势识别方法,本方法为:1)设计一组草图手势,每一草图手势匹配一对应的系统响应;2)采集用户利用所设计草图手势绘画时的用户数据;所述用户数据包括用户意图信息、手势识别结果和草图手势轨迹;3)根据用户意图信息获取交互时序信息,即转移矩阵,并为每一内核识别器设计一对应的奖励函数;4)对于一新输入的手势,利用内核识别器识别出一组手势概率,作为用户意图观察值;然后利用动态贝叶斯网络、所述转移矩阵和用户意图观测值推算出该组手势的置信度;5)利用所述奖励函数寻找当前获利最高的系统响应作为最终的系统响应结果。本发明提高了系统应用中的内核识别算法的识别性能和用户体验。

Description

一种基于交互时序信息的草图手势识别方法
技术领域
本发明属于人工智能、草图手势识别领域,具体涉及一种基于交互时序信息的草图手势识别方法。
背景技术
草图理解是人机交互热门研究主题之一,它分为在线草图理解和离线草图理解,在线草图理解会对用户使用数字笔实时绘制的在线草图进行分析理解,而离线草图理解主要以理解离线图像为主(参考文献:姜映映."在线草图理解技术研究".Diss.中国科学院大学.2009.)。草图手势识别作为草图理解的研究方向之一,也深受科研人员青睐。基于Post-WIMP范式的人机界面能够收集丰富的用户交互信息,它使用人机交互的多通道技术提供了大量的交互信息作为草图手势识别的研究基础,长期以来研究者采用各种方法对草图手势识别做了大量的研究工作。
人工智能(AI)是最近几年热门学科,它主要研究如何模拟、扩展人的智能,涉及了理论、方法、技术和应用系统。人工智能应用广泛,包括机器视觉,指纹识别,人脸识别等实际应用,草图手势识别应用也是其中之一。基于人工智能的草图手势识别大多采用机器学习、模式识别的方法,其中隐马尔可夫模型(HMM)是模式识别中常用的统计学模型,它用来描述一个含有未知参数的马尔科夫过程(参考文献:俞鸿魁,张华平,刘群,等."基于层叠隐马尔可夫模型的中文命名实体识别".通信学报.2006,27(2),87-94.)。隐马尔可夫模型以能够提供相关状态的时间序列信息而被模式识别领域广泛应用,如语音,手写,词类的标记和生物信息学应用等,也可以应用于草图手势识别(参考文献:Sezgin T M,Davis R."HMM-based efficient sketch recognition".International Conference on IntelligentUser Interfaces.2005,281-283.)(参考文献:Dittmar T,Krull C,Horton G."A newapproach for touch gesture recognition:conversive hidden non-markovianmodels".Journal of Computational Science.2015,66-76.)。K近邻分类算法是机器学习中较为简单的算法之一,训练时所需要的样本量并不多(参考文献:杨帆,林琛,周绮凤,等."基于随机森林的潜在k近邻算法及其在基因表达数据分类中的应用".系统工程理论与实践.2012,32(4),815-825.)。该方法亦可用于草图手势识别中,如PolyRec、PolyRecGSS(参考文献:Fuccella V,Costagliola G."Unistroke gesture recognition throughpolyline approximation and alignment".In Proceedings of the SIGCHI Conferenceon Human Factors in Computing Systems.2015,3351-3354.)。深度学习是机器学习的一个子领域,其本质是一个多层感知机算法,它通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示,多层的好处是可以用较少的参数表示复杂的函数(参考文献:孙志军,薛磊,许阳明,等."深度学习研究综述".计算机应用研究.2012,29(8),2806-2810.)。深度学习虽常应用于计算视觉领域,但目前草图识别领域中已有手写汉字、字母、数字等相关研究采用了该方法,如文献(参考文献:金连文,钟卓耀,杨钊,等."深度学习在手写汉字识别中的应用综述".自动化学报.2016,42(8),1125-1141.)所述。除了上述基于人工智的草图识别算法,一些草图识别辅助工具或者技术也进入了人们的视野,一些像Gesture Studio(参考文献:Lu H,Li Y."Gesture studio:authoringmulti-touch interactions through demonstration and declaration".InProceedings of the SIGCHI Conference on Human Factors in ComputingSystems.2013,257-266.)、Gesture Script(参考文献:Lu H,Fogarty J,Li Y,et al."Gesture script:recognizing gestures and their structure using renderingscripts and interactively trained parts".In Proceedings of the SIGCHIConference on Human Factors in Computing Systems.2014,1685-1694.)和KeyTime(参考文献:Leiva L A,Martinalbo D,Plamondon R,et al."KeyTime:super-accurateprediction of stroke gesture production times".In Proceedings of the SIGCHIConference on Human Factors in Computing Systems.2018.)等工具或者技术,它们为开发人员提供了定义手势、演示手势的工具环境,它们使用XML等描述性语言来定义手势,并使用动画等方法来演示如何绘制某个草图手势,在某种意义上也提高了草图手势识别效率。
基于模板匹配的草图手势识别采用了计算手势模板之间的欧式距离方法,比起上述复杂方法的更具有物理性的解释意义。由于欧式距离提供了一种简单的几何解释,因此受到了广泛的关注,并在许多识别算法中得到了广泛的应用。这些方法包括$1(参考文献:Wobbrock J O,Wilson A D,Li Y,et al."Gestures without libraries,toolkits ortraining:a$1recognizer for user interface prototypes".User Interface Softwareand Technology.2007,159-168.),DTW(参考文献:Keogh E J,Ratanamahatana C A."Exact indexing of dynamic time warping".Knowledge and InformationSystems.2005,7(3),358-386.)和$P(参考文献:Vatavu R D,Anthony L,Wobbrock J O."Gestures as point clouds:a$P recognizer for user interface prototypes".ACMInternational Conference on Multimodal Interaction.2012,273-280.)。$1旨在编程的初学者能够快速地将草图手势融入到他们自己设计的UI原型中,该识别算法训练时候只需要少量样本;DTW算法基于动态规划的思想实现,并在训练中几乎不需要额外的计算,并且能比较具有不同长度的序列模板,因此可以推广到草图手势识别领域中;$Family系列的识别器(如$1)满足了能够简单快速地融入UI原型的需求,但目前最先进的$Family系列的识别器由于其组合手势表示方法而需要很高的内存成本和执行成本。$P针对上述的不足进行了改进,把手势视为“点云”。在这项研究工作中,已经充分证明了“点云”在减少$Family系列识别器的时间和空间复杂性方面是有效果的。由于模板匹配方法快速、方便,许多新兴的草图手势识别研究工作对上述工作进行了扩展,比如Penny Pincher(参考文献:VatavuR."Penny pincher:a blazing fast,highly accurate$-family recognizer".GraphicsInterface Conference.2015,195-202.)、$P+(参考文献:Taranta Ii E M,Laviola J J."Improving gesture recognition accuracy on touch screens for users with lowvision".In Proceedings of the SIGCHI Conference on Human Factors in ComputingSystems.2017,4667-4679.)、Protractor(参考文献:Li Y."Protractor:a fast andaccurate gesture recognizer".In Proceedings of the SIGCHI Conference on HumanFactors in Computing Systems.2010,2169-2172.)和$Q(参考文献:Vatavu R D,AnthonyL,Wobbrock J O."$Q:A super-quick,articulation-invariant stroke-gesture:recognizer for low-resource devices".Proceedings of 20th InternationalConference on Human-Computer Interaction with Mobile Devices andServices.2018.)等。Protractor在$Family系列识别器的基础上使用了最近邻算法,它根据与每个已知手势的相似性来识别未知手势。特别是,它采用了一种新的方法来测量手势之间的相似性,通过闭合形式的解来计算出手势之间的最小角度距离。Protractor作为一个基于模板匹配的单笔手势识别器比$Family系列识别器更准确,更能适应更多的手势变化,运行速度明显更快,使用更少的内存。$Q识别器则是一种超快速、基于点云的手势识别器,适用于计算资源较低的移动、可穿戴和嵌入式设备,是$P算法的改进,支持单笔划手势和多笔划手势。
感知行为具有较强的时序逻辑性(参考文献:Fraisse P."Perception andestimation of time".Annual Review of Psychology.1984,35(1),1-36.),人与计算机系统的交互操作源自人类的感知行为,交互操作中包涵了时间前后的逻辑,因此交互时序信息中蕴含了丰富的人类感知逻辑。目前的一些研究将交互信息的时序特性应用到交互模型之中,借此推测出用户行为、揣摩出用户意图。文献(参考文献:Li Y,Lu H,Zhang H,etal."Optimistic programming of touch interaction".Proceedings of the AmericanMathematical Society.1953,4(3),502-506.)利用触屏手势的可分解性,将一个用户可操作的触屏手势分解为多个具有时序性的描述信息(手势,触屏事件,所属控件),并利用一个动态贝叶斯网络(参考文献:Friedman N,Murphy K P,Russell S J,et al."Learning thestructure of dynamic probabilistic networks".Uncertainty in ArtificialIntelligence.1998,139-147.)将推算出这些描述信息的时序关系,并结合一些其它模型推测出用户当前的触屏操作手势。文献(参考文献:Li Y,Bengio S,Bailly G,et al."Predicting human performance in vertical menu selection using deep learning".In Proceedings of the SIGCHI Conference on Human Factors in ComputingSystems.2018.)则考虑了交互信息(UI菜单样式)时序性变化,并利用了一个时序神经网络LSTM(参考文献:Hochreiter S,Schmidhuber J."Long short-term memory".NeuralComputation.1997,9(8),1735-1780.)来模拟和预测从垂直列表或菜单中选择目标的UI任务时的用户选择时间。
上述大多工作虽收集了大量的用户信息,并通过更好的识别算法、几何度量、统计学模型等方法来提升交互性能,但忽略了交互信息中的时序逻辑,造成了下述问题:首先,上述部分方法很难区分相似的手势,因为这些技术中的手势之间的匹配相似性度量高度依赖于手势模板,没有考虑交互时序信息;其次,上述方法中,当每个手势类别加载多个模板时,该识别器具有较高的识别精度,但每个手势类别只加载一个模板,该识别器的识别精度较低,那是因为它们没有考虑交互时序信息,获取的用户信息有限。
发明内容
针对现有技术中存在的技术问题,本发明的目的是提出一种基于交互时序信息的草图手势识别方法,该方法设计了一个草图手势集,利用一个笔式绘图系统应用和一种内核识别算法采集了志愿者绘图时的用户数据,并从用户数据中提取志愿者的笔迹,根据用户意图信息学习出交互时序信息,并设计了奖励函数,实现了基于交互时序信息的草图识别方法,提高了系统应用中的内核识别算法的识别性能和系统应用的用户体验。
为了实现上述目的,本发明采用以下技术方案:
一种基于交互时序信息的草图手势识别方法,包括以下步骤:
根据画图任务中使用的系统响应设计一组草图手势,用于触发系统应用的交互响应、执行绘画辅助功能;其中,每一草图手势匹配一对应的系统响应;
利用一个笔式绘图系统应用和一种内核识别算法采集了志愿者绘图时的用户数据,为实现草图手势识别方法提供了数据支撑;笔式绘图系统的功能不仅可用于采集用户数据,还用于验证识别方法的性能;
从用户数据中提取志愿者笔迹,根据用户意图信息学习出交互时序信息,并设计了奖励函数,实现基于交互时序信息的草图识别方法,该方法分为内核识别算法结果归一化为观察值、贝叶斯用户意图推测、奖励函数匹配最佳系统响应三个步骤;
进一步地,所述草图手势集包含了8个草图手势,并匹配了8个系统交互响应。
进一步地,所述8个系统交互响应包括编辑模式、复制、粘贴、撤销、重做、调色板模式、画笔粗细调节模式、删除模式。
进一步地,所述绘图包含绘制3幅指定图画、2幅自由图画。并且绘图分两轮进行,第一轮使用2幅指定图画和1幅自由绘画来收集用户数据和线下比较算法的手势识别性能;第二轮使用3幅指定图画和1幅自由绘画比较算法的用户体验。
进一步地,所述笔式绘图系统应用,让用户使用电子笔进行绘图、使用手触屏的方法触发草图手势。
进一步地,所述内核识别算法,可为能为输入手势提供一组识别为各类手势概率的草图识别算法,用于数据采集和草图手势识别方法。
进一步地,所述用户数据包含用户真实意图,内核识别器识别结果、该草图手势的一组手势分类概率(比如用户输入一个手势得到一组手势分类概率:编辑0.2,复制0.1,粘贴0.1……),该草图手势的轨迹。其中,用户真实意图使用用户意图记录窗收集;内核识别器识别结果和一组手势分类概率为收集所用的内核识别器$1Protractor版本的识别结果,用于该方法和本专利方法的识别精准度的比较;草图手势的轨迹用于线下其它识别算法和本专利方法的识别精准度的比较。
进一步地,所述草图识别方法,从用户数据中提出用户的笔迹,根据用户意图信息学习出交互时序信息,即转移矩阵,并设计奖励函数。
进一步地,所述草图手势识别方法,分为内核识别算法结果归一化为观察值、贝叶斯用户意图推测、奖励函数匹配最佳系统响应三个步骤。
进一步地,所述内核识别器(即内核识别算法)结果归一化为观察值,即为将输入手势被内核识别算法所识别的一组各类手势概率归一化后,作为用户意图的观察值使用。
进一步地,所述贝叶斯用户意图推测,即为利用动态贝叶斯网络和转移矩阵,结合前几轮的手势识别结果推测当前手势结果。
进一步地,所述奖励函数匹配最佳系统响应,即为利用设计好的奖励函数寻找当前获利最高的系统交互响应作为最终的系统交互响应结果。
本发明用利用基于交互时序信息的方法提高草图识别算法的识别性能。该方法首先设计了一种草图手势集,并利用了一个笔式绘图系统应用和一种内核识别算法采集了志愿者绘图时的用户数据,为实现草图手势识别方法提供了数据支撑。随后,从用户数据中提出了志愿者的笔迹,并根据用户意图信息学习出了交互时序信息,即为转移矩阵,并设计了奖励函数,构建了基于交互时序信息的草图手势识方法。该方法包括内核手势识别器、贝叶斯用户意图推测、奖励函数系统响应匹配三个步骤。本发明招募了志愿者对识别方法进行了性能验证:该草图手势识别方法能提高实际系统应用中内核识别算法的识别性能和系统应用的用户体验。
与现有技术相比,本发明具有的优点和积极效果如下:
本发明的绘图操作和草图手势的切换方法结合了笔式操作和触屏操作,十分灵活,提升了交互过程的流畅性;本发明的草图识别算法考虑了交互时序信息,即用户以前的交互意图,不仅能做出决策和推断,还能从交互的上下文环境中学习到有用信息,而且提升了系统应用中草图手势识别算法的识别性能和适应交互环境的能力;本发明中识别算法的识别性能不依赖每个手势类加载复数训练模板,在每类手势只有1个训练模板的情况下识别精度仍高。
附图说明
图1为基于交互时序信息的草图识别方法所采用的草图手势集。
图2为基于交互时序信息的草图识别方法的流程图。
图3为基于交互时序信息的草图识别方法的实例图。
图4为贝叶斯用户意图推断示意图。
图5为奖励函数匹配系统响应示意图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本实施例提供一种交互时序信息草图手势识别方法,具体说明如下:
1)设计一组草图手势,用于触发系统应用的交互响应、执行绘画辅助功能;
2)利用一个笔式绘图系统应用和一种内核识别算法采集了志愿者绘图时的用户数据,为实现草图手势识别方法提供了数据支撑;
3)从用户数据中提取志愿者笔迹,并根据用户意图信息学习出交互时序信息,并设计了奖励函数,实现了基于交互时序信息的草图识别方法;
4)当用户输入一个新的草图手势时,该识别方法分为内核识别算法结果归一化为观察值、贝叶斯用户意图推测、奖励函数匹配最佳系统响应三个步骤来完成草图手势与系统响应的匹配。
在步骤1)中,所述草图手势集包含了8个草图手势,并匹配了8个系统交互响应,分别对应的系统命令为:编辑模式、复制、粘贴、撤销、重做、调色板模式、画笔粗细调节模式、删除模式,如图1所示。
在步骤2)中,所述笔式绘图系统应用,让用户使用电子笔进行绘图、使用手触屏的方法触发草图手势。所述内核识别算法,可为能为输入手势提供一组分为各类手势得分的草图识别算法,用于数据采集和草图手势识别方法,本专利使用的内核识别算法为$1识别器的Protractor版本。
所述绘图包含绘制3幅指定图画、2幅自由图画。第一轮绘图使用了前两个指定图画绘图任务和一个自由绘图任务,并线下进行各个算法的手势识别性能的比较;第二轮绘图用于比较识别算法的用户体验,它添加了一个指定图画绘图任务,并且两轮自由绘图任务用户所绘制图案并不同,这是为了验证识别方法对交互环境、交互任务的鲁棒性。第1幅指定图画为一幅色彩缤纷的图,从图的构成来看,调色板和画笔粗细调节器为常用系统响应。第2幅指定图画为一幅多只单色的蜻蜓,从图的构成来看,编辑模式、复制和粘贴为常用系统响应。第3幅指定图画为几个重复的音符和几个彩色的简单图案,从图的构成来看,它包含了前两个绘图任务的常用交互操作。自由绘图以星空为主题,用户根据自己喜好和想象力自由绘制。第一轮3幅图所收集的用户数据包含了所有操作手势,并用于学习识别方法的转移矩阵。
所述用户数据采集的过程中,每当参与者完成一个草图手势后就会弹出用户意图记录窗口控件,该控件由一个标签和一个下拉框组成,标签用于显示内核识别器的识别结果,下拉框用于选择用户的真实意图。其中,下拉框有9个下拉选项分别对应8个草图手势和一个other选项,other选项用于避免用户非操作性失误,如不小心触屏等“胖手指”问题,只要选择了other选项,该次手势就不会生效,也不会被记录,从而大大减少了脏数据的采集。此外,用户绘图的顺序采用了顺序平衡技术来消除一些外来因素对参与者的影响,比如先画某幅图画是否对实验结果产生较大的影响。第二轮绘图的用户体验比较所使用算法也同样采用了顺序平衡技术。
在步骤3)中,所述用户数据包含用户真实意图(1个integer),内核识别算法识别结果(1个integer)、该草图手势的一组分类概率(8个double),该草图手势的轨迹(每个笔迹点记录4个信息:该点double型时间戳,该点integer型时间戳,该点double型横坐标,该点double型纵坐标;由于内核识别器有多种,每种算法对时间戳类型有要求,一些使用double型,一些使用integer型,所以记录了两种类型的时间戳)。其中,用户真实意图和内核识别算法识别结果用于$1的Protractor版与本专利方法比较;草图手势的轨迹用于计算其余内核识别器的识别结果然后跟本专利方法比较。除此之外,本发明还考虑了操作手势之间的连续性,如果用户在执行草图手势之间执行了电子笔画图操作,记录用户数据的文件就新增一行“#”表示该行数据不是草图手势,这样就可以把草图手势操作分为多组,提高了数据的时序逻辑性;该文件记录了两种数据,草图手势非“#”,电子笔画图操作“#”,每条非“#”的数据对应一个草图手势。
所述转移矩阵,即手势集中草图手势之间的转换概率,它没有考虑任何系统响应动作。在收集了用户数据之后,本发明使用公式(1)计算了两个草图手势之间的转换概率。C是用户意图中手势st-1转换为手势st的次数,T是转移矩阵中所有手势之间转换次数的总和,K是按k/n2来计算的(即K=k/n2,其中k是常量,本专利中k=6,n是手势类别的数目),S是转移矩阵的每一行的总和,它的功能是矩阵的行规范化。连续两条用户数据之间的用户真实意图的跳转可视为手势之间的跳转,以此求出C。从此看出,等式(1)使用平滑技术来避免条件转移概率为0的情况。
所述奖励函数,其本质是关于用户意图和系统交互响应的矩阵,矩阵中每个单元代表了奖励值,它由实验人员所设计。奖励函数初始化矩阵时,当前手势转换为自身所对应的系统交互响应的奖励值为1.5,而当前手势转换为其他手势所对应的系统交互响应的奖励值为1.0。设计人员边使用本发明的算法框架边进行奖励函数的调整,最后为每个内核识别算法设计了一个奖励函数。本发明采访了部分设计人员,并向他们请教了奖励函数设计时的一些技巧,如“一些手势在绘图过程中被连续调用,如果奖励值过高的话会影响其它手势的认识精确度。此外,有些手势几乎没有在绘图过程中连续使用过,可以通过调高奖励值提高其识别率”,“在绘图过程,一些手势之间的连续性较强,这种情况下奖励值没有必要设置过高,甚至将奖励值调低一些会提高手势识别率”。
在步骤4)中,所述草图手势识别方法分为内核识别算法结果归一化为观察值、贝叶斯用户意图推测、奖励函数匹配最佳系统响应三个步骤。手势识别方法的整个过程如图2所示。对于初始化(时间为t0时刻),本发明将内核识别器的识别结果设置为用户的意图s0以及相应的系统操作a0。除初始化之外,对于用户每次输入的草图手势,本发明的识别方法通过三个步骤为其匹配最终的系统操作。首先,本发明使用内核识别器通过比较输入的草图手势和预先定义的手势模板获得该草图手势属于哪一类的概率gt,将gt归一化后以获得下面步骤的观察值ot。其次,在已知转移矩阵、当前观察值ot、上一轮用户意图置信度b(st-1)和上一轮系统响应at-1的情况下,本发明使用DBN动态网络得到当前用户意图置信度b(st)。最后,本发明将户意图置信度b(st)代入奖励函数寻找当前利益最大的系统响应来确定系统对用户输入的草图手势所做出的响应at
图3展示了该框架如何工作,假设上一轮系统响应为“圆圈”,接着用户尝试使用草图手势选中这个“圆圈”,但手势画得并不规范,内核识别算法针对该手势识别为每一个类的概率分为:“选择”为0.2,“复制”为0.3,“剪切”为0.3。接着,识别方法结合上一轮的用户意图置信度bt-1和上一轮意图响应at-1,得到当前用户置信度bt:“选择”为0.32,“复制”为0.12,“剪切”为0.36。最后,通过奖励函数选择能带来最大利益的手势作来触发系统交互响应:“选择”为0.6,“复制”为0.1,“剪切”为0.2,因此系统交互响应为“选择”。用户输入的草图手势通过识别方法的三个步骤,得到最终正确的结果。
所述内核识别算法结果归一化为观察值,其过程为:将输入手势被内核识别算法识别后所得一组输入手势识别为各类手势概率归一化作为用户意图的观察值。对于用户t时刻输入的草图手势,识别方法需要得到每类手势概率作为观察值ot。首先得到输入草图手势数据在内核识别器中识别为每一类手势上的概率,并使用归一化技术将概率的值限制到0-1范围之内得到观察值。
所述贝叶斯用户意图推测,利用动态贝叶斯网络和转移矩阵,结合前几轮的手势识别结果推测当前手势结果。该识别方法通过考虑用户的前几轮的操作意图,为当前的用户意图推断提供了一个更为精准的预测。图4展示了这个步骤中的网络。本发明使用动态贝叶斯网络基于上一轮用户意图st-1、上一轮系统响应at-1和当前观测值ot来估计用户在时刻t时的意图st。由于用户意图s(用户真实想做出的草图手势)是一个抽象概念,本发明使用公式2计算时刻t的用户意图置信度b(st)。其中,p(ot|st)为观察值ot的值;p(st|st-1,at-1)是从用户数据中学习出的转移矩阵,它代表了草图手势操作之间的跳转概率。转移矩阵也可以不考虑上一轮的系统交互响应,公式为p(st|st-1),该专利使用了后一种方法。
所述奖励函数匹配最佳系统响应,利用设计好的奖励函数和公式3寻找当前获利最高的系统交互响应作为系统最终结果。其中r(s,at)为奖励函数,其本质是关于用户意图和系统交互响应的矩阵,s为用户意图,at为t时刻的系统交互响应,矩阵中每个单元代表了奖励值。奖励函数的作用是通过启发式方法使算法找到最大利益的系统响应。如果用户意图是st时,奖励函数会帮助系统找出当前奖励值最大的at作为最终的系统响应。图5表示了用户意图由奖励函数映射到系统响应的过程。
所述草图手势识别方法,和$1识别器的Protractor版本、DTW识别器、$Q识别器、PolyRecGSS识别器在每个手势类只加载了一个手势模板的情况下做了识别性能的比较。相比于$1识别器的Protractor版本(88.58%)所述识别方法(91.79%)有更好的性能,它们之间有显著性差异(F1,11=4.952,p=0.048)。相比于DTW识别器(78.08%)所述识别方法(84.07%)有更好的性能,它们之间有显著性差异(F1,11=5.907,p=0.033)。相比于$Q识别器(77.42%)所述识别方法(80.98%)有更好的性能,它们之间有显著性差异(F1,11=8.273,p=0.015)。相比于PolyRecGSS识别器(84.86%)所述识别方法(87.94%)有更好的性能,它们之间有显著性差异(F1,11=5.053,p=0.046)。同时使用了上述识别器效果最好的$1识别器的Protractor版本和所述识别方法做了耗时对比,比较对象为四幅图的所用绘制时间。对于第一幅图,相比于$1识别器(304.16s)所述识别方法(224.22s)耗时更少,它们之间有显著性差异(F1,11=5.950,p=0.033)。对于第二幅图,相比于$1识别器(318.42s)所述识别方法(243.32s)耗时更少,它们之间有显著性差异(F1,11=11.229,p=0.006)。对于第三幅图,相比于$1识别器(122.62s)所述识别方法(96.93s)耗时更少,它们之间有显著性差异(F1,11=5.135,p=0.045)。对于第四幅图,相比于$1识别器(449.90s)所述识别方法(369.87s)耗时更少,它们之间有显著性差异(F1,11=23.39,p=0.005)。
以上通过形式表达和实施案例对本发明所述的一种基于交互时序信息的草图手势识别方法进行了详细说明,但本发明的具体实现形式并不局限于此。本领域的一般技术人员,可以在不背离本发明所述方法的精神和原则的情况下对其进行各种显而易见的变化与修改。本发明的保护范围应以权利要求书所述为准。

Claims (9)

1.一种基于交互时序信息的草图手势识别方法,其步骤包括:
1)设计一组草图手势,每一草图手势匹配一对应的系统响应;
2)采集用户利用步骤1)所设计草图手势绘画时的用户数据;所述用户数据包括用户意图信息和手势识别结果;
3)根据用户意图信息获取交互时序信息,即转移矩阵,并为每一内核识别器设计一对应的奖励函数;
4)对于一新输入的手势,利用各内核识别器识别出一组手势概率,作为用户意图观察值;然后利用动态贝叶斯网络、所述转移矩阵和用户意图观测值推算出该组手势的置信度;
5)利用所述奖励函数寻找当前获利最高的系统响应作为最终的系统响应结果。
2.如权利要求1所述的方法,其特征在于,所述转移矩阵中包含草图手势之间的转换概率,其中根据计算两个草图手势st、st-1之间的转换概率p(st|st-1);C是用户意图中手势st-1转换为手势st的次数,T是转移矩阵中所有手势之间转换次数的总和,根据K=k/n2,k是设定常量,n是手势类别的数目,S是转移矩阵的每一行的总和。
3.如权利要求1或2所述的方法,其特征在于,设置一笔式绘图系统,用于用户通过该笔式绘图系统进行绘图,该笔式绘图系统包括一个用户意图记录窗口,用于收集用户绘画时输入每一草图手势对应的真实意图。
4.如权利要求3所述的方法,其特征在于,采集所述用户数据的过程中,每当用户完成一个草图手势后,弹出用户意图记录窗口,该用户意图记录窗口包括一个标签和一个下拉框,标签用于显示内核识别器的手势识别结果,下拉框用于选择用户的真实意图;用户绘图的顺序采用顺序平衡技术。
5.如权利要求1所述的方法,其特征在于,所述奖励函数是关于用户意图和系统响应的矩阵,矩阵中每个单元代表一奖励值。
6.如权利要求2所述的方法,其特征在于,所述用户数据还包含每一草图手势对应的一组分类概率和草图手势的轨迹。
7.如权利要求1所述的方法,其特征在于,计算所述置信度的方法为:首先利用公式计算时刻t每一用户意图st的置信度b(st);其中,st-1为t-1时刻的用户意图、at-1为t-1时刻的系统响应、ot为t时刻用户意图观测值,p(ot|st)使用观察值ot的值;p(st|st-1,at-1)是转移矩阵。
8.如权利要求1或7所述的方法,其特征在于,所述步骤5),利用所述奖励函数和公式寻找当前获利最高的系统响应;其中r(s,at)为奖励函数,s为用户意图,at为t时刻的系统响应,st为t时刻的用户意图,b(st)为t时刻用户意图st的置信度。
9.如权利要求1所述的方法,其特征在于,所述草图手势集包含了8个草图手势,分别匹配的8个系统响应为:编辑模式、复制、粘贴、撤销、重做、调色板模式、画笔粗细调节模式和删除模式。
CN201910221914.3A 2019-03-22 2019-03-22 一种基于交互时序信息的草图手势识别方法 Active CN110032948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910221914.3A CN110032948B (zh) 2019-03-22 2019-03-22 一种基于交互时序信息的草图手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910221914.3A CN110032948B (zh) 2019-03-22 2019-03-22 一种基于交互时序信息的草图手势识别方法

Publications (2)

Publication Number Publication Date
CN110032948A true CN110032948A (zh) 2019-07-19
CN110032948B CN110032948B (zh) 2021-01-12

Family

ID=67236461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910221914.3A Active CN110032948B (zh) 2019-03-22 2019-03-22 一种基于交互时序信息的草图手势识别方法

Country Status (1)

Country Link
CN (1) CN110032948B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837798A (zh) * 2019-11-05 2020-02-25 北京邮电大学 一种基于视觉特性的草图笔画编组方法
CN112257663A (zh) * 2020-11-12 2021-01-22 北京机电工程研究所 一种基于贝叶斯网络的设计意图识别方法及系统
CN113010741A (zh) * 2021-03-30 2021-06-22 南京大学 基于草图的移动应用模型查询方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1263302A (zh) * 2000-03-13 2000-08-16 中国科学院软件研究所 基于笔和手势的文稿编辑技术
CN103399698A (zh) * 2013-07-31 2013-11-20 中国船舶重工集团公司第七〇九研究所 一种基于手绘草图和手势输入判断处理的笔式交互方法
US20160232147A1 (en) * 2015-02-05 2016-08-11 Microsoft Technology Licensing, Llc Input-mode-based text deletion
CN107357516A (zh) * 2017-07-10 2017-11-17 南京邮电大学 一种基于隐马尔可夫模型的手势查询意图预测方法
CN108710628A (zh) * 2018-03-29 2018-10-26 中国科学院软件研究所 一种基于草图交互的面向多模态数据的可视分析方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1263302A (zh) * 2000-03-13 2000-08-16 中国科学院软件研究所 基于笔和手势的文稿编辑技术
CN103399698A (zh) * 2013-07-31 2013-11-20 中国船舶重工集团公司第七〇九研究所 一种基于手绘草图和手势输入判断处理的笔式交互方法
US20160232147A1 (en) * 2015-02-05 2016-08-11 Microsoft Technology Licensing, Llc Input-mode-based text deletion
CN107357516A (zh) * 2017-07-10 2017-11-17 南京邮电大学 一种基于隐马尔可夫模型的手势查询意图预测方法
CN108710628A (zh) * 2018-03-29 2018-10-26 中国科学院软件研究所 一种基于草图交互的面向多模态数据的可视分析方法和系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
EUGENE M.TARANTAII ET AL: "Streamlined and accurate gesture recognition with Penny Pincher", 《COMPUTERS & GRAPHICS》 *
HAO LÜ ET AL: "Gesture script: recognizing gestures and their structure using rendering scripts and interactively trained parts", 《CHI "14: PROCEEDINGS OF THE SIGCHI CONFERENCE ON HUMAN FACTORS IN COMPUTING SYSTEMS》 *
YANG LI ET AL: "Optimistic Programming of Touch Interaction", 《ACM TRANSACTIONS ON COMPUTER-HUMAN INTERACTION》 *
YINGYING JIANG ET AL: "Intelligent understanding of handwritten geometry theorem proving", 《IUI "10: PROCEEDINGS OF THE 15TH INTERNATIONAL CONFERENCE ON INTELLIGENT USER INTERFACES》 *
刘杰等: "连续交互空间下的混合手势交互模型", 《软件学报》 *
秦严严等: "一种笔式用户界面软件领域模型及其应用", 《软件学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837798A (zh) * 2019-11-05 2020-02-25 北京邮电大学 一种基于视觉特性的草图笔画编组方法
CN110837798B (zh) * 2019-11-05 2022-10-11 北京邮电大学 一种基于视觉特性的草图笔画编组方法
CN112257663A (zh) * 2020-11-12 2021-01-22 北京机电工程研究所 一种基于贝叶斯网络的设计意图识别方法及系统
CN112257663B (zh) * 2020-11-12 2024-03-12 北京机电工程研究所 一种基于贝叶斯网络的设计意图识别方法及系统
CN113010741A (zh) * 2021-03-30 2021-06-22 南京大学 基于草图的移动应用模型查询方法
CN113010741B (zh) * 2021-03-30 2023-09-05 南京大学 基于草图的移动应用模型查询方法

Also Published As

Publication number Publication date
CN110032948B (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
Zhang et al. Dynamic hand gesture recognition based on short-term sampling neural networks
Wang et al. M3: Multimodal memory modelling for video captioning
Likforman-Sulem et al. EMOTHAW: A novel database for emotional state recognition from handwriting and drawing
Goodfellow et al. Multi-digit number recognition from street view imagery using deep convolutional neural networks
Arora et al. AutoFER: PCA and PSO based automatic facial emotion recognition
CN110444199A (zh) 一种语音关键词识别方法、装置、终端及服务器
Benalcázar et al. Real-time hand gesture recognition based on artificial feed-forward neural networks and EMG
CN109993102A (zh) 相似人脸检索方法、装置及存储介质
CN110032948A (zh) 一种基于交互时序信息的草图手势识别方法
CN111126280B (zh) 基于融合手势识别的失语症患者辅助康复训练系统及方法
WO2020224433A1 (zh) 基于机器学习的目标对象属性预测方法及相关设备
Jiang et al. Variational deep embedding: A generative approach to clustering
CN113722474A (zh) 文本分类方法、装置、设备及存储介质
CN102930270A (zh) 基于肤色检测与背景消除的手部识别方法及系统
CN109815920A (zh) 基于卷积神经网络和对抗卷积神经网络的手势识别方法
Lake et al. Concept learning as motor program induction: A large-scale empirical study
CN110096991A (zh) 一种基于卷积神经网络的手语识别方法
Cilia et al. Deep transfer learning algorithms applied to synthetic drawing images as a tool for supporting Alzheimer’s disease prediction
CN115512422A (zh) 基于注意力机制的卷积神经网络面部情绪识别方法及系统
Chen et al. STRAN: Student expression recognition based on spatio-temporal residual attention network in classroom teaching videos
Xia et al. Evaluation of saccadic scanpath prediction: Subjective assessment database and recurrent neural network based metric
Yang et al. Hsi: Human saliency imitator for benchmarking saliency-based model explanations
Rangulov et al. Emotion recognition on large video dataset based on convolutional feature extractor and recurrent neural network
CN114048361A (zh) 基于深度学习的众包软件开发者推荐方法
Wang et al. Interpret neural networks by extracting critical subnetworks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant