CN112861828B - 一种基于历史视觉行为的注视意图识别方法及系统 - Google Patents
一种基于历史视觉行为的注视意图识别方法及系统 Download PDFInfo
- Publication number
- CN112861828B CN112861828B CN202110390721.8A CN202110390721A CN112861828B CN 112861828 B CN112861828 B CN 112861828B CN 202110390721 A CN202110390721 A CN 202110390721A CN 112861828 B CN112861828 B CN 112861828B
- Authority
- CN
- China
- Prior art keywords
- historical
- intention
- user
- gaze
- gazing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000003945 visual behavior Effects 0.000 title claims abstract description 38
- 230000004424 eye movement Effects 0.000 claims abstract description 33
- 238000012706 support-vector machine Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 13
- 210000001508 eye Anatomy 0.000 description 11
- 230000006399 behavior Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 235000021152 breakfast Nutrition 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 235000015927 pasta Nutrition 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000537 electroencephalography Methods 0.000 description 1
- 238000002567 electromyography Methods 0.000 description 1
- 238000002570 electrooculography Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 239000000344 soap Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种基于历史视觉行为的注视意图识别方法及系统。该方法首先基于历史视觉行为提取用户对每个物体的眼动特征,包括,注视时长、注视次数、注视间隔和注视速度;然后输入用户对每个物体的眼动特征至SVM分类器,判断用户对该物体是否为有意图的注视,若是,则将该物体加入有意图的历史注视物体序列;最后输入有意图的历史注视物体序列至朴素贝叶斯分类器,确定用户意图。基于历史视觉行为的注视意图识别方法与基于单一物体的方法相比,显著提高了意图识别的准确度。
Description
技术领域
本发明属于意图识别领域,具体涉及一种基于历史视觉行为的注视意图识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着人口老龄化的发展,老年人日常生活辅助的需求大幅增加。辅助机器人已经越来越被社会认可照顾老年人和残疾人。辅助机器人能够识别人们的日常需求,通过感知和处理需求信息来执行辅助动作。辅助机器人的出现为提高老年人的生活质量和个人独立性提供了可能。为了提高老年人对辅助机器人的接受度,机器人需要能够与老年人自然顺畅的沟通。已经有很多工作对语音、手势、可穿戴传感器和多模态融合等不同的交流方式进行了研究。这些工作在一定程度上简化了人机交互的过程,但仍未达到直观自然合作的理想效果。一个重要的因素是机器人缺乏对人类内心想法的理解。为了实现自然、方便的人机交互,机器人有必要自动识别用户的意图。
理解人类的意图对于自然人机交互具有重要意义。在很多情况下,识别人类意图可以让机器人了解当前的情况,识别人类的需求,以提供合理的帮助。心理学和认知科学认为人的意图的表达可以是显性的,也可以是隐性的。一般来说,人类通过面部表情、语言和手势等来明确表达自己的意图。已经有工作对这些模式进行了研究。虽然语言和手势可以促进意图的理解,但是,这些方法需要用户表达显式的服务请求。但并不是所有的老年人或残障者都有明确的表达能力和行为能力。而面部表情更多地表达的是意愿,不是具体的意图。这些缺陷可能会导致服务质量的下降。
最近,一些研究试图利用脑电图、眼电图和肌电图来识别人的隐式意图。然而,这些方法需要用户佩戴复杂的仪器和设备,这可能会影响用户对辅助技术的接受。
眼睛运动被认为与人的内心思想有密切的联系,并且不需要人们做主动的表达。人们的目光能表示注意力的方向,这在一定程度上揭示了他们的目的和未来的行动。实验表明,注视线索能够表明动作意图并指导人们随后的动作。并且,被注视的对象能够反映一个人的特定欲望。注视一个物体,可能表示这个人对这个物体感兴趣。例如,要实现洗手这一动作,人们通常会先后盯着水龙头、肥皂和纸巾,然后再引导手进行“拿起”或“放下”的动作。这种凝视是有目的地,并且会影响后续的计划。因此,理解和跟踪注视线索对于识别人类意图是至关重要的。
已经有研究进行注视意图的识别,他们的工作主要集中在利用注视的位置或方向来推断意图,例如,通过识别眼睛的左右运动来控制轮椅移动到想要的方向;根据凝视方向来评估人们与销售人员的对话参与度。一些研究量化了凝视如何暗示一个人的意图,例如,根据眼球运动模式和瞳孔大小变化将注视意图分为信息意图和导航意图;使用注视模式(注视次数、第一眼的持续时间、注视总时长以及是否最近瞥过某一种特定的配料)训练一个SVM分类器来预测客户对配料要求的预期目标。这些研究为利用凝视特征进行意图理解提供了重要的启示。
在这些工作的基础上,有研究检测了有意图的凝视,并计算了用户看过的每个物体对应的意图的概率,利用贝叶斯分类器将概率值最大的意图作为推断意图。他们的工作从14个物品(杯子、咖啡壶、牛奶、水壶,勺子,碗,燕麦片,意大利面,微波炉,水龙头,清洁海绵,可清洗的物品)中确定了4种意图的主导物体。他们根据主导物体推断出这四种4种意图(准备一杯咖啡;准备早餐,吃药,清洗)。准确率为75%。他们利用凝视的对象来识别人类的意图,取得了不错的效果。但是,这种方法没有考虑先前看过的对象对当前意图的影响。而先前看过的物体对预测意图起着重要作用。凝视的线索揭示人的意图并指导行动,例如,当前看到的物体是杯子时,计算出的概率最高的意图的是“准备一杯咖啡”,但考虑到看到的前一个物体是医药容器时,相应的概率最高的意图更有可能是“吃药”。因此,利用历史的凝视信息来推断人们的内隐意图是必要的并且可行的。
近年来,研究人员试图将凝视与身体姿态、语言、手势等多种模态相结合,以增强意图识别的鲁棒性。例如,在RGB-D视频中,结合视觉注意方向、意图相关对象和身体姿势推断人类意图;结合视觉方向和其他不同的形式(语言、手势和场景对象)以减少意图识别的不确定性;眼睛注视作为先验信息,与行为规划相结合来识别游戏场景中的人类意图。他们虽然利用视觉注意力来预测用户对目标区域的兴趣程度,但他们没有把历史的视觉注意力作为一个因素来推断当前的目标区域。在这些研究中,凝视信息提供了识别意图的辅助信息,但现有工作没有考虑历史的凝视信息对当前意图的影响。
发明内容
本发明为了解决上述问题,提出了一种基于历史视觉行为的注视意图识别方法及系统,考虑了历史的视觉对象对当前意图的影响,使用朴素贝叶斯方法根据人们过去观察过的物体来推断人们的意图,在推断过程中,凝视的物体的数量是不确定的,这与人们表达意图的方式一致。
根据一些实施例,本发明采用如下技术方案:
一种基于历史视觉行为的注视意图识别方法,包括以下步骤:
获取用户的历史视觉行为;
基于历史视觉行为提取用户对每个物体的眼动特征;
输入用户对每个物体的眼动特征至SVM分类器,判断用户对该物体是否为有意图的注视,若是,则将该物体加入有意图的历史注视物体序列;
输入有意图的历史注视物体序列至朴素贝叶斯分类器,确定用户意图。
进一步地,所述眼动特征包括注视时长,注视次数,注视间隔和注视速度。
进一步地,所述朴素贝叶斯分类器通过获取多组意图-物体的集合,根据贝叶斯公式得到物体-意图的概率分布,并将物体-意图的概率分布作为先验知识。
进一步地,所述朴素贝叶斯分类器基于所述有意图的历史注视物体序列中的每一个物体不会影响下一个物体出现的概率的假设,计算所述有意图的历史注视物体序列属于每个意图的条件概率,将条件概率最高的意图作为用户意图。
进一步地,所述支持向量机分类器的训练过程为:收集训练样本集;构建目标函数;基于构建的目标函数使用训练样本集训练得到支持向量机分类器。
再进一步地,所述训练样本集中的每条数据包括用户对目标物体的眼动特征和标签;所述标签表示用户对目标物体是否为有意注视。
一种基于历史视觉行为的注视意图识别系统,包括:
数据获取模块,用于获取用户的历史视觉行为;
眼动特征提取模块,用于基于历史视觉行为提取用户对每个物体的眼动特征;
SVM分类模块,用于输入用户对每个物体的眼动特征至SVM分类器,判断用户对该物体是否为有意图的注视,若是,则将该物体加入有意图的历史注视物体序列;
朴素贝叶斯分类模块,用于输入有意图的历史注视物体序列至朴素贝叶斯分类器,确定用户意图。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于历史视觉行为的注视意图识别方法。
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于历史视觉行为的注视意图识别方法。
与现有技术相比,本发明的有益效果为:
本发明使用注视时长、注视次数、注视间隔和注视速度作为对用户注视行为分类的依据,将注视行为有意图的注视和无意图的注视,相比其他技术具有更高的分类准确率,在检测用户有意图的注视中,90.37%能够被成功识别。
本发明使用SVM分类器对用户的眼动特征进行分类,判断用户对该物体是否为有意图的注视,若是,则将该物体加入有意图的历史注视物体序列,将有意图的注视的检测作为进行意图理解的基础,排除了无意图的注视物体对意图推测的干扰,提高了意图推测的准确度。
本发明的朴素贝叶斯分类器能够根据用户看过的物体计算物体表示的意图的概率,选择概率最大的对应的意图作为推测的意图,能够实现根据用户看过的物体序列推测用户的意图,而且,历史注视物体序列中物体的数量是不确定的,这与人们表达意图的方式一致,提高了推理的可解释性和准确性。
本发明通过对历史视觉行为信息的处理,根据眼睛注视过的多个对象来推断出人的意图,基于历史视觉物体的意图识别方法与基于单一物体的方法相比,考虑了历史的视觉对象对当前意图的影响,并使用朴素贝叶斯方法根据人们过去观察过的物体来推断人们的意图,显著提高了推理的准确性。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明的框架图;
图2为基于单个物体的意图概率分布图;
图3(a)为基于单一物体的意图推理的混淆矩阵图;
图3(b)为基于主导物体的意图推理的混淆矩阵图;
图4为基于历史视觉对象的意图推理混淆矩阵图。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
在一个或多个实施方式中公开的技术方案中,一种基于历史视觉行为的注视意图识别方法,该方法首先提取眼动特征,包括,注视时长、注视次数、注视间隔和注视速度;然后利用SVM分类器根据眼动特征将注视行为分为有意图的注视和无意图的注视;最后,利用朴素贝叶斯方法根据历史的注视对象推断出人的意图。
如图1所示为基于历史视觉行为的注视意图识别方法的框架图,该框架主要由三部分组成:首先,利用Tobii眼动仪5提取眼球运动特征,即注视时长,注视次数,注视间隔和注视速度;然后,利用支持向量机SVM分类器根据眼动仪获得的眼动特征将注视行为分为有意图的注视和无意图的注视;最后,利用朴素贝叶斯方法根据历史的注视对象推断出人的意图。具体步骤包括:
步骤1、眼动特征提取:
获取历史视觉行为,基于历史视觉行为提取用户对不同物体的眼动特征;所述眼动特征包括注视时长,注视次数,注视间隔和注视速度;
对于注视模型,利用注视时长,注视次数,注视间隔和注视速度四种参数作为视觉特征。在视觉化阶段,有意图的视觉注意和无意图的视觉注意表现出不同的注视特征。在有意注视的过程中,人们的注视时间比无意注视的时间更长,注意力更集中。在从无意注视到有意注视的过渡过程中,有意注视看向物体的次数显著多于无意注视的次数。因此,当一个人注视某一特定区域超过一个阈值(例如,60毫秒)时,眼动仪就会检测到眼球运动。当人们开始注视一个特定的目标时,单一凝视行为开始,当人们开始注视另一个目标时,单一凝视行为结束。通过眼动仪采集的二维位置坐标(x,y)来表示目标区域的变化。
对于每一个凝视行为,本发明技术方案计算注视时长,即每次注视的开始时间和结束时间之差。对于每个目标区域(即目标物体),本发明技术方案收集用户注视的总次数,并将这些次数作为注视次数。当眨眼时(小于60ms),如果眨眼前后目标区域是相同的,本发明技术方案将眨眼并入注视时长。所述注视时长表示用户次注视目标物体的时长;所述注视次数表示固定时间段内用户注视目标物体的次数;所述注视间隔表示固定时间段内用户注视目标物体的平均时间间隔;所述注视速度表示用户注视目标物体时的视线移动速度。
步骤2、视觉注意力检测:
SVM分类器的训练过程如下:
支持向量机(SVM)是在特征空间中定义的一种二值分类模型,本发明利用支持向量机将用户的注视行为分为有意图的注视和无意图的注视两类。
形式上,凝视模型如下表示:本发明技术方案得到一组数据,每条数据包含注视的目标物体Oj,用户一次对目标物体Oj的四个眼动特征和标签yj,其中Oj表示第j种物体,表示本次注视物体Oj的时长,表示过去60秒注视物体Oj的次数,表示过去60秒注视物体Oj的平均时间间隔,表示本次注视物体时的视线移动速度,标签yj表示本条数据是否是有意注视,即用户对该目标物体Oj是否为有意图的注视。
收集的训练样本集包含m条数据,可以被描述为:
视觉注意力检测的问题可以被描述为寻找满足约束条件的参数ω和b,使不同类别的分类间隔最大,即目标函数为:
其中ω=(ω1;ω2;…;ωd)为法向量,d为特征数目;
在对注视数据进行分类时,通过数据集训练得到参数ω和b;满足式(3)的数据被认为是有意图的注视,其余的被认为是无意图的注视。
ωTfj+b>0 (3)
步骤3、意图推测:
视觉注意的物体暗示用户的内在意图,使用贝叶斯模型量化物体如何表示人们的意图,对历史注视物体对当前意图的影响进行分析,使用基于独立条件的朴素贝叶斯方法根据用户看过的物体来推断用户的意图。
在本发明中,视觉注意是指用户在观察不同区域时的有意图的注视,每个区域分别代表不同的物体。本发明技术方案设计了一个收集物体-意图数据的交互界面来分析物体和意图之间的相关性。本发明技术方案选择了4种意图和14个物体。参与者可以随意查看界面上显示的物体来表达他们的意图,得到多组意图-物体的集合(Ii,Oj)。其中,Ii是第i种意图,Oj是第j种物体,根据贝叶斯公式(5),得到了物体-意图的概率分布,它表示了一个物体如何用概率值表示一个特定的意图。
其中,P(Oj)是物体Oj出现的概率,P(Ii,Oj)是意图Ii和物体Oj同时出现的概率。
本发明技术方案将上述物体和意图的概率分布作为先验知识来推断用户的意图,意图是由意图表达过程中观察过的物体序列推测得到的。
在形式上,将意图识别问题描述为一个元组:T=(Ii,O),其中O=(O1,O2,O3,…,OJ)代表着可能的看过的物体序列,即有意图的历史注视物体序列,可以把这个问题描述为估计每个意图Ii的概率:P(Ii|O1,O2,…,OJ),j=1,2,…,J;J表示用户有意图的历史注视物体的总个数。
假设物体Oj不会影响下一个物体Oj+1出现的概率,基于这个假设,可以计算所述有意图的历史注视物体序列O属于每个意图Ii的条件概率如下:
通过分析看过的物体,计算出每个意图的条件概率,将概率最高的意图作为推断意图(用户意图),可用公式表示为:
其中,d表示注视的物体序列长度,即有意图的历史注视物体序列的长度,表示可能的意图结果(计算的概率最大的意图),这里的I表示要识别的所有意图Ii的集合,Ii∈I表示依次遍历整个I集合,对所有的意图的概率依次都进行计算。
在“厨房家庭护理”的场景下进行了实验,通过实验表明,考虑了历史视觉行为信息的意图推理模型,优于以往的基于注视的意图推理方法,具体的:
(1)实验环境设置
本发明技术方案在一个家庭护理厨房场景中验证了所提出的意图理解框架。参与者观看屏幕上由辅助机器人反馈的场景图片。Tobbi眼动仪5可以跟踪用户注视的位置,记录和计算视觉特征:注视时长,注视次数,注视间隔和注视速度。在意图表达的过程中,本发明技术方案假设辅助机器人为用户提供一个稳定的厨房场景图像。实验的目的是根据用户所注视的物体推断其意图。
(2)数据收集
对于意图注视检测,邀请了20名年龄在22岁到28岁之间的志愿者,他们需要看向一个厨房场景的图像,根据屏幕上的提示找到一个特定的物体。当发现提示的物体时就按下按钮,以表示当前目标区域存在视觉注意。Tobii眼动仪记录下志愿者在这一过程中所看的位置,系统会自动改变提示对象,以保证数据的充分性。本发明技术方案共收集了950组数据。
在意图推理方面,将厨房场景交互界面划分为14个目标区域,,志愿者被要求观看厨房场景的交互界面。根据交互界面提示的意图,从厨房图像中寻找他们认为能够表达该意图的物体,并按下按钮,表示当前目标区域存在视觉注意,系统会自动更改提示意图,以保证数据的充分性。最后,本发明技术方案收集了1000组4种意图和14种物体的数据。
志愿者可以自由选择他们的意图和物体,共收集1110组数据,每组数据记录为(Ii:O1,O2,…,Oj),其中800组数据用于训练,其余用于测试,收集的数据格式如表1所示:
表1意图-物体的数据集
(3)实验结果与分析
(3-1)意图注视检测的表现
总共收集了950组训练数据用于SVM分类器训练,其中680组为正训练数据,270组为负训练数据。整体训练的成功率为90.37%,即在产生的视觉注意中,90.37%被成功识别。更详细的训练表现如表2所示。
表2 SVM分类器的注意检测性能
(3-2)基于注视对象的意图推理的表现
本发明技术方案收集了1110组数据,其中800组用于训练数据,剩下的300组用于测试数据,通过计算得到每一个物体被推断为四种意图的概率分布,详细的概率分布如图2所示。概率分布显示了物体与意图的关联程度,概率值越大,相关强度越大。
从图2中可以看出,虽然每个人表达意图的方式不同,但在大多数情况下,表达同一个意图时,他们会倾向于选择相同的物体。例如,在表达“准备早餐”的意图时,大多数参与者会选择碗,燕麦片和意大利面。根据图2所示的概率分布,本发明技术方案基于单个物体推断意图,具体推理接如图3(a)的混淆矩阵所示。图3(a)为基于单一物体的意图推理的混淆矩阵,图3(b)基于主导物体的意图推理的混淆矩阵。
如图3(a)所示,横轴为推断意图,纵轴为目标意图。每一种类型的意图的正确率和总体正确率总结在底部行。如图3(a)所示,总体正确率为80.1%,“准备一杯咖啡”的意图推断的正确率为86.6%,“准备早餐”的意图推断的正确率为87.8%,推断“吃药”的正确率为43.0%,95.0%的正确率正确推断出“清洗”。
图3(b)为使用基于视觉行为研究的人机交互中的隐式意图识别方法得到的基于主导物体的意图推理的混淆矩阵,在意图为“准备一杯咖啡”和意图为“准备早餐”中取得更高的正确率,但在“吃药”和“洗脸”这两个意图中获得的正确率较低。其中,推断为“服药”的正确率为28.6%,低于其错误率,总体正确率为75.0%,比本发明技术方案在图3(a)中得到的总体正确率低了5.1%。
基于历史的视觉物体推理意图的性能如图4的混淆矩阵所示。本发明技术方案记录了用户在表达意图过程中看到的物体,共收集了300组测试数据集来验证性能。
如图4所示,意图推测的总体正确率为89.9%,比图3(a)中基于单个物体的意图推理的正确率高出9.8%,比图3(b)中的基于主导物体的意图推理的正确率高出14.9%。结果显示,正确推断“准备一杯咖啡”的意图为93.4%,正确推断“准备早餐”的意图为94.1%。“清洗”和“吃药”的推断正确率分别为98.3%和71.4%,与图3中基于单一物体的意图预测准确率相比,基于历史的视觉物体的意图预测准确率更高,证明了本发明技术方案的方法具有更好的性能。
实施例2
本实施例提供一种基于历史视觉行为的注视意图识别系统,包括:
数据获取模块,用于获取用户的历史视觉行为;
眼动特征提取模块,用于基于历史视觉行为提取用户对每个物体的眼动特征;
SVM分类模块,用于输入用户对每个物体的眼动特征至SVM分类器,判断用户对该物体是否为有意图的注视,若是,则将该物体加入有意图的历史注视物体序列;
朴素贝叶斯分类模块,用于输入有意图的历史注视物体序列至朴素贝叶斯分类器,确定用户意图。
所述眼动特征包括注视时长,注视次数,注视间隔和注视速度。
实施例3
本实施例提供一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于历史视觉行为的注视意图识别方法。
实施例4
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于历史视觉行为的注视意图识别方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (7)
1.一种基于历史视觉行为的注视意图识别方法,其特征是:包括以下步骤:
获取用户的历史视觉行为;
基于历史视觉行为提取用户对每个物体的眼动特征;所述眼动特征包括注视时长,注视次数,注视间隔和注视速度;
输入用户对每个物体的眼动特征至SVM分类器,判断用户对该物体是否为有意图的注视,若是,则将该物体加入有意图的历史注视物体序列;
输入有意图的历史注视物体序列至朴素贝叶斯分类器,确定用户意图;所述朴素贝叶斯分类器基于所述有意图的历史注视物体序列中的每一个物体不会影响下一个物体出现的概率的假设,计算所述有意图的历史注视物体序列属于每个意图的条件概率,将条件概率最高的意图作为用户意图;用公式表示为:
2.如权利要求1所述的一种基于历史视觉行为的注视意图识别方法,其特征是:所述朴素贝叶斯分类器通过获取多组意图-物体的集合,根据贝叶斯公式得到物体-意图的概率分布,并将物体-意图的概率分布作为先验知识。
3.如权利要求1所述的一种基于历史视觉行为的注视意图识别方法,其特征是:所述支持向量机分类器的训练过程为:
收集训练样本集;
构建目标函数;
基于构建的目标函数使用训练样本集训练得到支持向量机分类器。
4.如权利要求3所述的一种基于历史视觉行为的注视意图识别方法,其特征是:所述训练样本集中的每条数据包括用户对目标物体的眼动特征和标签;所述标签表示用户对目标物体是否为有意注视。
5.一种基于历史视觉行为的注视意图识别系统,其特征是:包括:
数据获取模块,用于获取用户的历史视觉行为;
眼动特征提取模块,用于基于历史视觉行为提取用户对每个物体的眼动特征;所述眼动特征包括注视时长,注视次数,注视间隔和注视速度;
SVM分类模块,用于输入用户对每个物体的眼动特征至SVM分类器,判断用户对该物体是否为有意图的注视,若是,则将该物体加入有意图的历史注视物体序列;
朴素贝叶斯分类模块,用于输入有意图的历史注视物体序列至朴素贝叶斯分类器,确定用户意图;所述朴素贝叶斯分类器基于所述有意图的历史注视物体序列中的每一个物体不会影响下一个物体出现的概率的假设,计算所述有意图的历史注视物体序列属于每个意图的条件概率,将条件概率最高的意图作为用户意图用公式表示为:
6.一种计算机可读存储介质,其特征是:其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行权利要求1-4中任一项所述的一种基于历史视觉行为的注视意图识别方法。
7.一种终端设备,其特征是:包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行权利要求1-4中任一项所述的一种基于历史视觉行为的注视意图识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110390721.8A CN112861828B (zh) | 2021-04-12 | 2021-04-12 | 一种基于历史视觉行为的注视意图识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110390721.8A CN112861828B (zh) | 2021-04-12 | 2021-04-12 | 一种基于历史视觉行为的注视意图识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861828A CN112861828A (zh) | 2021-05-28 |
CN112861828B true CN112861828B (zh) | 2022-06-14 |
Family
ID=75992471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110390721.8A Active CN112861828B (zh) | 2021-04-12 | 2021-04-12 | 一种基于历史视觉行为的注视意图识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861828B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023004734A1 (en) * | 2021-07-30 | 2023-02-02 | Pricewaterhousecoopers Llp | Gaze predictor |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196930A (zh) * | 2019-05-22 | 2019-09-03 | 山东大学 | 一种多模态客服自动回复方法及系统 |
CN112438729A (zh) * | 2019-08-28 | 2021-03-05 | 福特全球技术公司 | 驾驶员警觉性检测系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107097227B (zh) * | 2017-04-17 | 2019-12-06 | 北京航空航天大学 | 一种人机协作机器人系统 |
CN107133584A (zh) * | 2017-04-27 | 2017-09-05 | 贵州大学 | 基于眼动跟踪的隐式意图识别分类方法 |
CN112115242A (zh) * | 2020-08-01 | 2020-12-22 | 国网河北省电力有限公司信息通信分公司 | 一种基于朴素贝叶斯分类算法的智能客服问答系统 |
-
2021
- 2021-04-12 CN CN202110390721.8A patent/CN112861828B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196930A (zh) * | 2019-05-22 | 2019-09-03 | 山东大学 | 一种多模态客服自动回复方法及系统 |
CN112438729A (zh) * | 2019-08-28 | 2021-03-05 | 福特全球技术公司 | 驾驶员警觉性检测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112861828A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Skaramagkas et al. | Review of eye tracking metrics involved in emotional and cognitive processes | |
US11937929B2 (en) | Systems and methods for using mobile and wearable video capture and feedback plat-forms for therapy of mental disorders | |
Alghowinem et al. | Head pose and movement analysis as an indicator of depression | |
CN112034977B (zh) | Mr智能眼镜内容交互、信息输入、应用推荐技术的方法 | |
Betke et al. | The camera mouse: visual tracking of body features to provide computer access for people with severe disabilities | |
EP2515760B1 (en) | Affective well-being supervision system and method | |
Huang et al. | Stressclick: Sensing stress from gaze-click patterns | |
Kunze et al. | Activity recognition for the mind: Toward a cognitive" Quantified Self" | |
EP3440494A1 (en) | Methods and systems for obtaining. analyzing, and generating vision performance data and modifying media based on the data | |
Bee et al. | Autoselect: What you want is what you get: Real-time processing of visual attention and affect | |
Wissel et al. | Considerations on strategies to improve EOG signal analysis | |
CN112861828B (zh) | 一种基于历史视觉行为的注视意图识别方法及系统 | |
Ktistakis et al. | COLET: A dataset for COgnitive workLoad estimation based on eye-tracking | |
Fan et al. | Eyelid gestures for people with motor impairments | |
CN106681509A (zh) | 界面操作的方法和系统 | |
Zhao et al. | Eye moving behaviors identification for gaze tracking interaction | |
CN109620265A (zh) | 识别方法及相关装置 | |
Abbasi et al. | Student mental state inference from unintentional body gestures using dynamic Bayesian networks | |
Kraft et al. | CareCam: Towards user-tailored Interventions at the Workplace using a Webcam | |
Su et al. | An implementation of an eye-blink-based communication aid for people with severe disabilities | |
Kulic et al. | Estimating robot induced affective state using hidden markov models | |
Chen et al. | A collaborative framework for ergonomic feedback using smart cameras | |
Koh et al. | Input evaluation of an eye-gaze-guided interface: kalman filter vs. velocity threshold eye movement identification | |
Matsuno et al. | Classification of Intentional Eye-blinks using Integration Values of Eye-blink Waveform | |
Chiu et al. | Intelligent visual acuity estimation system with hand motion recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20210528 Assignee: Shandong Ocean Group Technology Co.,Ltd. Assignor: SHANDONG University Contract record no.: X2024980000055 Denomination of invention: A method and system for recognizing gaze intention based on historical visual behavior Granted publication date: 20220614 License type: Common License Record date: 20240104 |