CN110286763B - 一种具有认知功能的导航式实验交互装置 - Google Patents

一种具有认知功能的导航式实验交互装置 Download PDF

Info

Publication number
CN110286763B
CN110286763B CN201910543141.0A CN201910543141A CN110286763B CN 110286763 B CN110286763 B CN 110286763B CN 201910543141 A CN201910543141 A CN 201910543141A CN 110286763 B CN110286763 B CN 110286763B
Authority
CN
China
Prior art keywords
perception
intention
hand
container
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910543141.0A
Other languages
English (en)
Other versions
CN110286763A (zh
Inventor
冯志全
肖梦婷
冯仕昌
田京兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN201910543141.0A priority Critical patent/CN110286763B/zh
Publication of CN110286763A publication Critical patent/CN110286763A/zh
Application granted granted Critical
Publication of CN110286763B publication Critical patent/CN110286763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/016Input arrangements with force or tactile feedback as computer generated output to the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Optics & Photonics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提出了一种具有认知功能的导航式实验交互装置,包括信息输入感知模块、信息融合模块以及操作应用模块;其中信息输入感知模块获取视觉感知;获取容器信息以及完成触觉感知和通过语音的输入完成听觉感知。信息融合模块根据信息输入感知模块获取的视觉感觉、触觉感觉和听觉感知,确定多模态意图。操作应用模块基于多模态意图理解应用于实验。本发明通过对三个通道不同状态对交互的感知表达,以多模态信息相交集合与意图特征集合进行匹配,构成多模态意图理解模型,完成多模态融合,通过文字或语音对关键操作进行提示或指引,根据用户意图与操作规范判断错误操作,并对错误操作行为进行提示或对其后果进行可视化呈现。

Description

一种具有认知功能的导航式实验交互装置
技术领域
本发明属于实验交互的技术领域,特别涉及一种具有认知功能的导航式实验交互装置。
背景技术
随着人机交互技术的发展和应用,计算机已经逐渐改变了我们的生活方式。它是实现人与计算机之间信息交流的过程,是机器通过输出设备给用户提供大量信息及相关提示。其中,多通道人机交互越来越成为研究的热点领域,相对于传统的单通道交互方式的沉浸感差、输入信息不准确和效率低等不足,多通道交互方式则弥补单通道交互存在的缺陷,在自然交互中存在着更大的应用潜力。智能化的人机交互界面主旨以人为中心,通过对人行为感知、意图感知表达智能化效果。其中,教育教学是信息智能化的重要体现领域[2-4],虚拟实验技术作为带动教育发展的重要分支,有利于提高用户兴趣丰富体验、规避实验风险等优点,但用户在交互过程中大多数利用比较单一的传统交互通道如触屏、虚拟手套、键盘等形式,造成用户的操作负荷过重从而导致效率太低,如果让虚拟实验中的交互更加高效,则需平衡计算机和人的认知能力,让计算机具有更强的感知和认知能力。
在多通道研究中,针对多模态融合的方法主要分为前期融合和后期融合,前期融合是基于数据层和模型层面的融合,后期融合则基于决策层面的融合。基于决策层融合的研究中,Rui Zhao等人分别对手势、面部和语音三种通道感知识别,通过以时间敏感的方式融合不同的传感信号输入,了解用户的需要和辨别虚假信息;H.A.Vu等人基于对语音和手势的两种单模态识别通过使用权重标准融合和最佳概率融合方法,并且证明其融合分类器的性能优于每个单模态;路璐等人提出了多通道交互分层处理模型,构建了融合触、听、视觉的导航交互原型系统;R Hak等人针对整合模式进行建模融合,并且用户可以自动评估融合算法。基于数据层和模型层面的研究中,Richard M.Jiang等人[14]提出了一种基于子空间的面部和语音低级特征融合的方法,用于感知人体交互的特定语音识别;VicentePeruffo Minotto等人提出了一种在线多模态Speaker diarization算法,采用彩色摄像头和深度传感器作为输入流,从中提取语音相关功能,然后通过由VAD和SSL模块组成的支持向量机方法进行合并,通过面部定位和面部识别的混合技术融合语音识别,弥补单通道的不稳定性;Hui P Y等人[基于潜在语义分析,即LSA进行语音和手势的“多模式语言”的语义解释方面,并达到很好的效果;Chhabria等人提出了针对多模态手势识别的框架,其框架结合手部运动功能、面部表情功能和语音功能,实现把不同模态的多个输入流融合到多模系统中进行融合;Alameda-Pineda X等人通过提取头部和身体特征进行姿态估计,并根据特征数据分布实现融合。
根据多模态的融合方式,在研究中我们发现存在受外界环境干扰、用户体验不佳、融合效率低下等问题。
发明内容
本发明提出了一种具有认知功能的导航式实验交互装置,通过对视觉感觉、触觉感觉和听觉感知,三个通道不同状态对交互的感知表达,以多模态信息相交集合与意图特征集合进行匹配,构成多模态意图理解模型,完成多模态融合,极大地提高交互式虚拟实验系统的自然性和交互效率。
为了实现上述目的,本发明提出一种具有认知功能的导航式实验交互装置,包括信息输入感知模块、信息融合模块以及操作应用模块;
所述信息输入感知模块通过Kinect传感器获取人手在虚拟环境下与虚拟场景的坐标映射关系的视觉感知;通过设置两个相同的虚拟实验容器作为实物,并且在两个虚拟实验容器的的感应回路设置感应检测装置用于检测感应回路信号;在其中一个虚拟实验容器侧壁上设置激光光源,另外一个底部设置一个或者多个光敏传感器,所述感应检测装置和光敏传感器与芯片相连,完成触觉感知;通过语音的输入,对关键词提取,以及对实验所需的关键词分类,通过相似度计算得到相似度概率,构成完整语音命令,完成听觉感知;
所述信息融合模块根据信息输入感知模块获取的视觉感觉、触觉感觉和听觉感知,通过计算不同模态下不同状态的信号感知对用户意图进行分类;通过判断用户意图和不同状态之间的关系,确定多模态意图;并且设置意图专家知识库,所述意图专家知识库中设置用户意图与用户行为之间的充分必要条件;
所述操作应用模块基于信息融合模块确定的多模态意图理解,通过视觉呈现、听觉呈现和触觉呈现,应用于多模态感知虚实融合的化学实验。
进一步的,所述通过Kinect传感器获取人手在虚拟环境下与虚拟场景的坐标映射关系的视觉感知的方法为:
通过Kinect传感设备得到人手骨骼节点的深度图像,根据手势深度图第n帧得到的手部状态为Snn,γ)和第n-1帧得到的手部状态为Sn-1n-1,γ),所述θ深度三维坐标,所述γ为手部关节自由度;
判断Sn(θ,γ)和Sn-1(θ,γ)是否相等,如果是,则手部姿态为静止,手部运动轨迹为0,否则,得到手在Kinect下的手部关节点坐标,其中手部关节点坐标与虚拟空间之间的映射关系为:
Figure BDA0002103190200000031
其中所述(KinectX,KinectY,KinectZ)是kienct深度摄像头呈现的真实空间中利用深度摄像头得到的手部关节的坐标,所述(UX,UY,UZ)是Unity环境下的虚拟空间坐标,所述W是虚拟空间中坐标与手部关节的对应比例关系;
通过判断手部关节点的坐标变化,得到手的真实运动距离,并与虚拟空间中运动模型进行比较,判断运动一致性;如果运动一致,则正常操作;否则操作停止,并提示操作错误。
进一步的,所述两个相同的虚拟实验容器为主动容器和被动容器;其中所述主动容器上设置公板,所述公板上设置多个公口,所述被动容器上设置母板,所述母板上设置多个母口,一个公口和一个母口组成感应单元,所述感应单元形成感应回路,并在所述感应回路上设置感应检测装置;当公板与母板逐渐靠拢时,感应单元的数量逐渐增加,所述感应单元的数量与倾倒速度成正比关系;用户从主动容器中倾倒实验物品的速度V为:V=v;所述v是线圈中电流改变的速度;在时刻T1被激活的感应单元个数为N1;在时刻T2被激活的感应单元个数为N2;在时刻T1到T2的时间内,用户从主动容器中倾倒实验物品的速度V为:
Figure BDA0002103190200000041
在所述主动容器的侧壁上设置激光光源,在被动容器底部设置一个或者多个光敏传感器,当手握所述主动容器或被动容器中的一个向另一个做倾倒动作时,主动容器上面的激光照射到被动容器模型底部的光敏传感器,所述感应检测装置和光敏传感器与芯片相连,且所述芯片与显示器相连。
进一步的,通过语音的输入,对关键词提取,以及对实验所需的关键词分类,所述关键词分类分为动词词汇D={m1,m2...,mi}和属性词汇S={n1,n2...,nj};对所述集合D和集合S两两匹配,得到匹配的关键词库,并与提取的关键词通过相似度计算得到关键词在集合中所有相似度概率P(s),如果Pi(s)>Pj(s),则得到的概率最大值为Pi(s);其中阈值为t,判断最大概率Pi(s),
Figure BDA0002103190200000042
其中,所述sn为感知到语音通道的不同关键词信号。
进一步的,通过视觉感知、触觉感知和听觉感知,得到三个通道的识别信息,因此,在不同模态中不同状态的信号感知结果表示为:
yt=f(xt),t≤7;
gv=f(xv),v≤2;
sn=f(xn),n为自然数;
所述yt为容器传感器通道的感知结果;所述gv为手势位置通道感知结果,所述sn为语音通道感知结果;所述x为通道的输入信号,t为容器传感器通道的不同状态,v为手部位置通道的不同状态,n表示语音通道的不同状态。
进一步的,通过计算不同模态下不同状态的信号感知对用户意图进行分类,把意图向量的特征集合定义为
Figure BDA0002103190200000051
所述ei为意图的类型。
进一步的,根据用户意图与不同通道的不同状态之间的关系,理解多模态意图,Fc=f(yt∩sn,yt∩gv,yt∩sn∩gv);
其中,所述Fc为多模态信息相交函数集合。
进一步的,所述交互装置还包括辅助模块;
所述辅助模块根据用户意图对用户的实验操作进行文字或语音导航,对操作步骤和实验交互装置的使用方法进行指引和提示;用于根据用户意图与操作规范判断错误操作,并对用户的错误操作行为进行提示或对错误操作行为导致的后果进行可视化呈现。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明实施例提出了一种具有认知功能的导航式实验交互装置,包括信息输入感知模块、信息融合模块以及操作应用模块;其中信息输入感知模块通过Kinect传感器获取人手在虚拟环境下与虚拟场景的坐标映射关系的视觉感知;通过设置两个相同的虚拟实验容器作为实物,并且在两个虚拟实验容器的的感应回路设置感应检测装置用于检测感应回路信号;在其中一个虚拟实验容器侧壁上设置激光光源,另外一个底部设置一个或者多个光敏传感器,感应检测装置和光敏传感器与芯片相连,完成触觉感知;通过语音的输入,对关键词提取,以及对实验所需的关键词分类,通过相似度计算得到相似度概率,构成完整语音命令,完成听觉感知。信息融合模块根据信息输入感知模块获取的视觉感觉、触觉感觉和听觉感知,通过计算不同模态下不同状态的信号感知对用户意图进行分类,通过判断用户意图和不同状态之间的关系,确定多模态意图。操作应用模块基于信息融合模块确定的多模态意图理解,通过视觉呈现、听觉呈现和触觉呈现,应用于实验。另外交互装置还包括辅助模块;辅助模块根据用户意图对用户的实验操作进行文字或语音导航,对操作步骤和实验交互装置的使用方法进行指引和提示;用于根据用户户意图与操作规范判断错误操作,并对用户的错误操作行为进行提示或对其后果进行可视化呈现。本发明通过对视觉感觉、触觉感觉和听觉感知,三个通道不同状态对交互的感知表达,以多模态信息相交集合与意图特征集合进行匹配,构成多模态意图理解模型,完成多模态融合,实现了一个面向多模态感知的虚实融合化学实验原型系统,极大地提高交互式虚拟实验系统的自然性和交互效率。
附图说明
附图1是本发明实施例1提出的一种具有认知功能的导航式实验交互装置的多模态融合架构图;
附图2是本发明实施例1提出的一种具有认知功能的导航式实验交互装置的虚拟实验容器的实物硬件结构图;
附图3是本发明实施例1提出的一种具有认知功能的导航式实验交互装置的多模态意图理解模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例1
本发明实施例1提出了一种具有认知功能的导航式实验交互装置,该装置包括信息输入感知模块、信息融合模块以及操作应用模块;
信息输入感知模块通过Kinect传感器获取人手在虚拟环境下与虚拟场景的坐标映射关系的视觉感知;
通过设置两个相同的虚拟实验容器作为实物,并且在两个虚拟实验容器的的感应回路设置感应检测装置用于检测感应回路信号;在其中一个虚拟实验容器侧壁上设置激光光源,另外一个底部设置一个或者多个光敏传感器,所述感应检测装置和光敏传感器与芯片相连,完成触觉感知;
通过语音的输入,对关键词提取,以及对实验所需的关键词分类,通过相似度计算得到相似度概率,构成完整语音命令,完成听觉感知;
信息融合模块根据信息输入感知模块获取的视觉感觉、触觉感觉和听觉感知,通过计算不同模态下不同状态的信号感知对用户意图进行分类;通过判断用户意图和不同状态之间的关系,确定多模态意图;本发明设立了意图专家知识库,该库中存放了意图推理规则即意图与多模态行为之间的充分必要条件,例如,当用户进入实验平台并进行了身份确认,则将其作为用户已经做好实验准备意图的必要条件。
操作应用模块基于信息融合模块确定的多模态意图理解,通过视觉呈现、听觉呈现和触觉呈现,应用于多模态感知虚实融合的化学实验。
附图1是本发明实施例1提出的一种具有认知功能的导航式实验交互装置的多模态融合架构图。
信息输入感知模块包括输入层和感知层,其中输入层包括视觉感知、触觉感知和听觉感知的输入。
视觉感知为手势姿态的跟踪为真实手在虚拟环境位置的感知,通过Kinect传感设备得到人手骨骼节点的深度图像,根据手势深度图第n帧得到的手部状态为Snn,γ)和第n-1帧得到的手部状态为Sn-1n-1,γ),其中θ深度三维坐标,γ为手部关节自由度;
判断Sn(θ,γ)和Sn-1(θ,γ)是否相等,如果是,则手部姿态为静止,手部运动轨迹为0,否则,得到手在Kinect下的手部关节点坐标,其中手部关节点坐标与虚拟空间之间的映射关系为:
Figure BDA0002103190200000081
其中(KinectX,KinectY,KinectZ)是kienct深度摄像头呈现的真实空间中利用深度摄像头得到的手部关节的坐标,(UX,UY,UZ)是Unity环境下的虚拟空间坐标,W是虚拟空间中坐标与手部关节的对应比例关系;
通过判断手部关节点的坐标变化,得到手的真实运动距离,并与虚拟空间中运动模型进行比较,判断运动一致性;如果运动一致,则正常操作;否则操作停止,并提示操作错误。
在触觉感知中,首先,准备两只同样的虚拟实验容器作为实物,两个相同的虚拟实验容器分别为主动容器和被动容器;其中主动容器上设置公板,公板上设置多个公口,被动容器上设置母板,母板上设置多个母口,一个公口和一个母口组成感应单元,感应单元形成感应回路,并在感应回路上设置感应检测装置;当公板与母板逐渐靠拢时,感应单元的数量逐渐增加,感应单元的数量与倾倒速度成正比关系。其具体的算法为:
用户从主动容器中倾倒实验物品的速度V为:V=v;其中v是线圈中电流改变的速度;
在时刻T1被激活的感应单元个数为N1
在时刻T2被激活的感应单元个数为N2
在时刻T1到T2的时间内,用户从主动容器中倾倒实验物品的速度V为:
Figure BDA0002103190200000091
附图2给出了本发明实施例1提出的一种具有认知功能的导航式实验交互装置的虚拟实验容器的实物硬件结构图。在主动容器的侧壁上设置激光光源,在被动容器底部设置一个或者多个光敏传感器,当手握主动容器或被动容器中的一个向另一个做倾倒动作时,主动容器上面的激光光线可以照射到被动容器模型底部的光敏传感器;在激光光源附近外壁设置一个或多个光敏传感器,当用户在容器外一侧倾倒时,可检测用户错误行为。并设置两个触摸传感器,分别代表实验开始和实验结束的控制按键。用主控芯片接收光敏传感器信号和感应检测装置信号并以无线通信方式发送到上位机。最后,感知到传感信息,并输出传感状态的结果。
其中非接触倾倒错误方法为,S1:如果主控芯片检测到光敏传感器信号,则表示语义:用户正在采用非接触方式倾倒实验用品;
S2:通过底部的光敏传感器,计算感知到的电信号平均强度I
S3:如果I<I0,则表示语义:主动容器杯子距离被动容器太远,属于非法危险操作。可以采用报警方式进行反馈。其中,I0是一个经验参数,它本质上确定隔空非接触式倾倒的安全距离上确界,一般通过反复试验和评价的方法进行设置。
S4:通过侧面的光敏传感器,计算感知到的电信号平均强度I1
S5:如果I>I1,则表示语义:主动容器杯子在被动容器侧面倾倒,属于非法操作。可以采用报警方式进行反馈。其中,I1是一个经验参数,它本质上确定隔空从侧面倾倒的可以感知距离的上确界,一般通过反复试验和评价的方法进行设置。
对语音感知,通过对语音的输入,得到对关键词的提取,根据实验所需的关键词进行分类,分为动词词汇D={m1,m2...,mi}和属性词汇S={n1,n2...,nj}。分别对集合D和集合S两两匹配,得到匹配的关键词库,并与提取的关键词通过相似度计算得到关键词在集合中所有相似度概率P(s),如果Pi(s)>Pj(s),则得到的概率最大值为Pi(s)。设阈值t,判断最大概率Pi(s),
Figure BDA0002103190200000101
其中,sn表示感知到语音通道的不同关键词信号。
附图3是本发明实施例1提出的一种具有认知功能的导航式实验交互装置的多模态意图理解模型示意图。本发明提出的基于多模态意图理解是考虑到用户在虚拟环境下某种状态的心理反应和需求,并通过多通道混合事件来表达的一种模型。该模型利用多模态信息相交的思想,对多模态信息的意图理解实现多模态融合。
首先,通过对视觉、听觉和触觉的感知,分别得到手部位置、语音关键词和传感信号的意图集,并建立一种意图集表达的方式,实现多模态意图的表达。然后,三种模态通过多模态信息相交函数集合建立信息相交融合关系。针对本文特定场景实验得到特定的得到的特定意图分类特征集合,对多模态信息相交集合和意图分类集合进行匹配得到意图匹配类型。并设置意图专家知识库,用于存放意图推理规则,即意图与多模态行为之间的充分或必要条件,通过意图知识库判断意图匹配类型,对意图进行效果表达,完成多模态融合理解模型的建立。最后,根据意图表达的效果,构建意图导航提示模式,实现多模态感知的虚实融合化学实验。
根据用户的行为感知,即在感知活动中配合外在的行为表现,用户的意图是通过其在虚拟实验中的交互行为所表达出来的,由于虚拟实验有不同的存在形态,在研究意图表达时必须特定某个具体的实验,所以针对传感器设备和实物容器本文确定了一个特定交互情景的虚拟实验,交互情景为实物容器和虚拟容器通过视觉感觉、触觉感觉和听觉感知三个通道表达需要的效果。分别对三种通道进行输入和感知,得到三种通道的识别信息,并进行多模态融合,由于该系统中传感器通道包括七种状态,手势姿态位置通道包括两种状态,语音通道包括n种状态。因此,在不同模态中不同状态的信号感知结果表示为:yt=f(xt),t≤7;gv=f(xv),v≤2;sn=f(xn),n为自然数。
其中,yt为容器传感器通道的感知结果;gv为手势位置通道感知结果,sn为语音通道感知结果;x为通道的输入信号,t为容器传感器通道的不同状态,v为手部位置通道的不同状态,n表示语音通道的不同状态。
通过对三种模态意图表达的分析,传感器设备的智能感知表达、手势姿态位置的智能感知表达及语音的智能感知表达在不同通道的不同状态涉及到的意图进行用户意图分类如下表所示:
Figure BDA0002103190200000111
Figure BDA0002103190200000121
表中第一列指不同模态的不同状态,其中,传感器模态分为7个光敏传感信号和磁传感信号,手势位置分为左手位置和右手位置,语音模态设置四种关键词。第二行表示整个虚拟浓硫酸稀释实验的用户意图,不同的用户意图对应着不同的状态,从表中可以看出g1状态无用户意图表达,仅作为辅助实验操作的状态。本发明保护的不局限于浓硫酸实验,还可以是其他的化学实验。我们最终把意图向量的特征集合定义为
Figure BDA0002103190200000122
其中,包括七种特征向量,ei为意图的类型。
本发明针对不同通道对传感通道交互的影响,根据其他通道信号和传感信号的关系,对传感信号识别、语音识别和手势姿态跟踪识别的结果进行感知,意图特征集合,判断意图和不同状态之间的关系,确定多模态意图。基于信息融合模块确定的多模态意图理解,通过视觉呈现、听觉呈现和触觉呈现,应用于实验。
首先,意图中涉及到传感信号必须要依靠语音信号或者手势位置信息构成完整的语义才能完成实验操作,我们称这类操作为多模态信息相交。比如,用户意图为“拿取实验器材”,如果借助传感信号输入并不能感知拿的是哪种实验器材,仅感知到拿到实验器材的状态,有了语音信号的输入则感知到拿取哪种实验器材。从表中我们可以得出yt和sn信息相交,yt和gv信息相交,yt、gv和sn信息相交,所以,根据用户意图与不同通道的不同状态之间的关系,定义Fc为多模态信息相交函数集合,则Fc=f(yt∩sn,yt∩gv,yt∩sn∩gv)。
其次,在多模态意图理解过程中,会需要多种通道的信息感知,根据上表中虚拟浓硫酸系统,意图理解的算法为:
Step1:根据输入传感信号、手势位置跟踪信号和语音信号,对三个通道的信息感知特征进行接收和记录,分别记为yt,gv,sn,并以yt为主;
Step2:如果只有单通道状态的感知信息输入时,转到Step3,如果不同通道同时有信息的输入,首先判断是否感知到传感信号yt,转到Step4,否则,转到Step6;
Step3:如果是gv通道则感知信息为NULL,如果为yt信号,则直接输出表达效果,否则进行语音关键词识别,如果识别到关键词,则输出语音表达效果,否则,置通道感知信息为NULL。
Step4:如果确定感知信息为传感信号,则判断与其它感知信号是否构成信息相交函数集合Fc,如果无法构成,确定为通道独立状态,输出表达的效果,否则,感知不同通道的状态结果,与意图分类特征集合
Figure BDA0002103190200000131
进行集合的匹配;
Step5:分别取集合
Figure BDA0002103190200000141
中的感知状态特征和通道信息感知状态特征进行匹配,如果匹配结果一致,则确定
Figure BDA0002103190200000142
中的ei意图类型,感知到不同通道的意图信息,完成意图融合,输出意图表达的效果;否则,确定意图类型为NULL,返回Step1;
Step6:如果没有感知到传感设备信号,则以语音信号sn为主,如果识别到关键词,则直接输出语音信号表达的效果,否则,确定意图类型为NULL,返回Step1;
Step7:根据三个通道状态依次判断用户意图类型,当有通道信号输入时,返回Step1。
以上内容仅仅是对本发明的结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (5)

1.一种具有认知功能的导航式实验交互装置,其特征在于,包括信息输入感知模块、信息融合模块以及操作应用模块;
所述信息输入感知模块通过Kinect传感器获取人手在虚拟环境下与虚拟场景的坐标映射关系的视觉感知;通过设置两个相同的虚拟实验容器作为实物,并且在两个虚拟实验容器的感应回路设置感应检测装置用于检测感应回路信号;在其中一个虚拟实验容器侧壁上设置激光光源,另外一个底部设置一个或者多个光敏传感器,所述感应检测装置和光敏传感器与芯片相连,完成触觉感知;通过语音的输入,对关键词提取,以及对实验所需的关键词分类,通过相似度计算得到相似度概率,构成完整语音命令,完成听觉感知;
所述信息融合模块根据信息输入感知模块获取的视觉感觉、触觉感觉和听觉感知,通过计算不同模态下不同状态的信号感知对用户意图进行分类;通过判断用户意图和不同状态之间的关系,确定多模态意图;并且设置意图专家知识库,所述意图专家知识库中设置用户意图与用户行为之间的充分必要条件;
通过视觉感知、触觉感知和听觉感知,得到三个通道的识别信息,因此,在不同模态中不同状态的信号感知结果表示为:yt=f(xt),t≤7;gv=f(xv),v≤2;sn=f(xn),n为自然数;
所述yt为容器传感器通道的感知结果;所述gv为手势位置通道感知结果,所述sn为语音通道感知结果;所述x为通道的输入信号,t为容器传感器通道的不同状态,v为手部位置通道的不同状态,n表示语音通道的不同状态;
通过计算不同模态下不同状态的信号感知对用户意图进行分类,把意图向量的特征集合定义为
Figure FDA0003782587780000021
所述ei为意图的类型;
根据用户意图与不同通道的不同状态之间的关系,理解多模态意图,Fc=f(yt∩sn,yt∩gv,yt∩sn∩gv);其中,所述Fc为多模态信息相交函数集合;
所述操作应用模块基于信息融合模块确定的多模态意图理解,通过视觉呈现、听觉呈现和触觉呈现,应用于多模态感知虚实融合的化学实验。
2.根据权利要求1所述的一种具有认知功能的导航式实验交互装置,其特征在于,所述通过Kinect传感器获取人手在虚拟环境下与虚拟场景的坐标映射关系的视觉感知的方法为:
通过Kinect传感设备得到人手骨骼节点的深度图像,根据手势深度图第n帧得到的手部状态为Snn,γ)和第n-1帧得到的手部状态为Sn-1n-1,γ),所述θ深度三维坐标,所述γ为手部关节自由度;
判断Sn(θ,γ)和Sn-1(θ,γ)是否相等,如果是,则手部姿态为静止,手部运动轨迹为0,否则,得到手在Kinect下的手部关节点坐标,其中手部关节点坐标与虚拟空间之间的映射关系为:
Figure FDA0003782587780000031
其中所述(KinectX,KinectY,KinectZ)是kienct深度摄像头呈现的真实空间中利用深度摄像头得到的手部关节的坐标,所述(UX,UY,UZ)是Unity环境下的虚拟空间坐标,所述W是虚拟空间中坐标与手部关节的对应比例关系;
通过判断手部关节点的坐标变化,得到手的真实运动距离,并与虚拟空间中运动模型进行比较,判断运动一致性;如果运动一致,则正常操作;否则操作停止,并提示操作错误。
3.根据权利要求1所述的一种具有认知功能的导航式实验交互装置,其特征在于,所述两个相同的虚拟实验容器为主动容器和被动容器;其中所述主动容器上设置公板,所述公板上设置多个公口,所述被动容器上设置母板,所述母板上设置多个母口,一个公口和一个母口组成感应单元,所述感应单元形成感应回路,并在所述感应回路上设置感应检测装置;当公板与母板逐渐靠拢时,感应单元的数量逐渐增加,所述感应单元的数量与倾倒速度成正比关系;用户从主动容器中倾倒实验物品的速度V为:V=v;所述v是线圈中电流改变的速度;在时刻T1被激活的感应单元个数为N1;在时刻T2被激活的感应单元个数为N2;在时刻T1到T2的时间内,用户从主动容器中倾倒实验物品的速度V为:
Figure FDA0003782587780000032
在所述主动容器的侧壁上设置激光光源,在被动容器底部设置一个或者多个光敏传感器,当手握所述主动容器或被动容器中的一个向另一个做倾倒动作时,主动容器上面的激光照射到被动容器模型底部的光敏传感器,所述感应检测装置和光敏传感器与芯片相连,且所述芯片与显示器相连。
4.根据权利要求1所述的一种具有认知功能的导航式实验交互装置,其特征在于,通过语音的输入,对关键词提取,以及对实验所需的关键词分类,所述关键词分类分为动词词汇D={m1,m2...,mi}和属性词汇S={n1,n2...,nj};对所述集合D和集合S两两匹配,得到匹配的关键词库,并与提取的关键词通过相似度计算得到关键词在集合中所有相似度概率P(s),如果Pi(s)>Pj(s),则得到的概率最大值为Pi(s);其中阈值为t,判断最大概率Pi(s),
Figure FDA0003782587780000041
其中,所述sn为感知到语音通道的不同关键词信号。
5.根据权利要求1所述的一种具有认知功能的导航式实验交互装置,其特征在于,所述交互装置还包括辅助模块;
所述辅助模块根据用户意图对用户的实验操作进行文字或语音导航,对操作步骤和实验交互装置的使用方法进行指引和提示;用于根据用户意图与操作规范判断错误操作,并对用户的错误操作行为进行提示或对错误操作行为导致的后果进行可视化呈现。
CN201910543141.0A 2019-06-21 2019-06-21 一种具有认知功能的导航式实验交互装置 Active CN110286763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910543141.0A CN110286763B (zh) 2019-06-21 2019-06-21 一种具有认知功能的导航式实验交互装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910543141.0A CN110286763B (zh) 2019-06-21 2019-06-21 一种具有认知功能的导航式实验交互装置

Publications (2)

Publication Number Publication Date
CN110286763A CN110286763A (zh) 2019-09-27
CN110286763B true CN110286763B (zh) 2022-09-23

Family

ID=68004934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910543141.0A Active CN110286763B (zh) 2019-06-21 2019-06-21 一种具有认知功能的导航式实验交互装置

Country Status (1)

Country Link
CN (1) CN110286763B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651035B (zh) * 2020-04-13 2023-04-07 济南大学 一种基于多模态交互的虚拟实验系统及方法
CN111665941B (zh) * 2020-06-07 2023-12-22 济南大学 一种面向虚拟实验的多模态语义融合人机交互系统和方法
CN111667733A (zh) * 2020-06-17 2020-09-15 济南大学 仿真实验操作中感知容器位置的方法及装置
CN111968470B (zh) * 2020-09-02 2022-05-17 济南大学 一种面向虚实融合的闯关交互式实验方法和系统
CN112036840B (zh) * 2020-09-14 2023-10-13 杭州海康威视数字技术股份有限公司 一种实验评分方法、装置及电子设备
CN112099633A (zh) * 2020-09-16 2020-12-18 济南大学 一种多模态感知的智能实验方法及装置
CN112748800B (zh) * 2020-09-16 2022-11-04 济南大学 一种基于智能手套的实验场景感知交互方法
CN114327046B (zh) * 2021-11-30 2023-03-17 北京津发科技股份有限公司 一种多模态人机交互与状态智能预警的方法、装置及系统
CN114816077A (zh) * 2022-06-30 2022-07-29 济南大学 一种多模态融合的智能手套系统
CN114881179B (zh) * 2022-07-08 2022-09-06 济南大学 一种基于意图理解的智能实验方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
CN109814718A (zh) * 2019-01-30 2019-05-28 天津大学 一种基于Kinect V2的多模态信息采集系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11397462B2 (en) * 2012-09-28 2022-07-26 Sri International Real-time human-machine collaboration using big data driven augmented reality technologies

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
CN109814718A (zh) * 2019-01-30 2019-05-28 天津大学 一种基于Kinect V2的多模态信息采集系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向智能电视的隐式手势交互建模与算法;徐治鹏等;《计算机辅助设计与图形学学报》;20170215(第02期);全文 *

Also Published As

Publication number Publication date
CN110286763A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110286763B (zh) 一种具有认知功能的导航式实验交互装置
CN111651035B (zh) 一种基于多模态交互的虚拟实验系统及方法
CN110554774B (zh) 一种面向ar的导航式交互范式系统
US11126833B2 (en) Artificial intelligence apparatus for recognizing user from image data and method for the same
US11823020B2 (en) Artificial intelligence apparatus for generating training data for artificial intelligence model and method thereof
KR20190084789A (ko) 전자 장치 및 그 제어 방법
WO2013055025A1 (ko) 지능 로봇, 지능 로봇과 사용자의 상호작용을 위한 시스템 및 지능 로봇과 사용자의 상호작용을 위한 방법
EP3734436B1 (en) System and method of determining input characters based on swipe input
US20210165974A1 (en) Artificial intelligence apparatus for learning natural language understanding models
KR20210020312A (ko) 로봇 및 그의 제어 방법
Aly et al. A generative framework for multimodal learning of spatial concepts and object categories: An unsupervised part-of-speech tagging and 3D visual perception based approach
Bandara et al. An intelligent gesture classification model for domestic wheelchair navigation with gesture variance compensation
US20210334461A1 (en) Artificial intelligence apparatus and method for generating named entity table
Wang et al. MFA: A Smart Glove with Multimodal Intent Sensing Capability.
US11734400B2 (en) Electronic device and control method therefor
Tomari et al. Enhancing wheelchair manoeuvrability for severe impairment users
US11548144B2 (en) Robot and controlling method thereof
Zeng et al. Research on intelligent experimental equipment and key algorithms based on multimodal fusion perception
KR20110125524A (ko) 멀티모달 상호작용을 이용한 로봇의 물체 학습 시스템 및 방법
KR102251076B1 (ko) 실내 이미지를 사용하여 설계도면을 추정하는 방법
Portugal et al. On the development of a service robot for social interaction with the elderly
Ramalingam et al. Proactive assistance system for visually challenged persons using internet of things based on machine learning
US11348585B2 (en) Artificial intelligence apparatus
Hou et al. Stmmi: a self-tuning multi-modal fusion algorithm applied in assist robot interaction
EP4047552A1 (en) Information processing device, information processing method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant