CN110286762B - 一种具有多模态信息处理功能的虚拟实验平台 - Google Patents

一种具有多模态信息处理功能的虚拟实验平台 Download PDF

Info

Publication number
CN110286762B
CN110286762B CN201910542518.0A CN201910542518A CN110286762B CN 110286762 B CN110286762 B CN 110286762B CN 201910542518 A CN201910542518 A CN 201910542518A CN 110286762 B CN110286762 B CN 110286762B
Authority
CN
China
Prior art keywords
intention
virtual
behavior
gesture
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910542518.0A
Other languages
English (en)
Other versions
CN110286762A (zh
Inventor
冯志全
曾波涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN201910542518.0A priority Critical patent/CN110286762B/zh
Publication of CN110286762A publication Critical patent/CN110286762A/zh
Application granted granted Critical
Publication of CN110286762B publication Critical patent/CN110286762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提出了一种具有多模态信息处理功能的虚拟实验平台,包括信息输入与交互识别模块、意图融合模块和交互应用模块;其中信息输入与交互识别模块完成胶头滴管传感器信息、语音信息和手势的输入及交互识别。意图融合模块将语音信息、胶头滴管传感器和手势得到三个意图集合进行组合,得到意图组合,不同的意图产生不同的行为定义行为的集合,得到行为集合,并且将意图组合和行为集合建立映射关系;交互应用模块用于通过视觉呈现和语音指引完成虚拟融合的实验。本发明平台采用三维场景和手势直接操作实验器材的方式,提供更加具有真实感的操作体验和实验现象,同时融合传感器信息和语音信息,构建一个处理多模态信息的平台系统。

Description

一种具有多模态信息处理功能的虚拟实验平台
技术领域
本发明属于实验平台领域,特别涉及一种具有多模态信息处理功能的虚拟实验平台。
背景技术
近年来,人机交互飞速发展,特别是在当今人工智能大热的情况下,人机交互作为人工智能的一个重要组成部分,受到了持续的关注。基于各种模态的交互方式此起彼伏,语音,手势,体态,触感等交互方式被应用在各种交互背景下。作为人机交互的一项关键应用,虚拟实验平台也受到越来越多的关注。虚拟实验平台以中学实验为基础,把理论教学与实践教学相结合,解决了传统实验教学过程中由于客观条件限制导致的实验环节不足问题,以及传统视频教学缺乏实际操作过程而导致学生基础理解不透彻的问题。虚拟实验平台逼真地显现出实验的动态特性,其具有智能的人机交互方式,极大地提高了学生的学习兴趣,对深化学生对知识理解和掌握,提高学生的动手实践能力,分析问题和解决问题的能力具有重要作用。
现有的虚拟实验平台大多是基于平面的二维设计,缺乏真实感和实际体验感,当然也有三维的虚拟实验平台,很好地展现了实验的立体效果和逼真感。但是这种系统仍然依赖于传统的鼠标和键盘输入设备,没有真正的体现动手实践过程,忽略了人与实验之间应该存在直接交互,而不是通过鼠标来作为媒介。得益于科技发展,深度相机的问世为许多互动项目提供了更为直接交互方式,通过深度相机感知到人以及人手,将其直接投影到虚拟场景中作为更为直接的交互手段得到了普遍的认可。有的开发实验平台中利用了深度相机获取人手位置,并将其应用到实验交互中,使实验更加具有操作体验感和沉浸感,基本上完成了一个具有完整意义的虚拟平台。但是其中由于单纯的基于视觉来控制实验器材,虽然可以完成实验的组建和反应,但是每个实验只能采用特定器材完成,这缺乏了可探索性。另外,对于需要控制过程的实验,如需要采用滴管添加试剂的情况,其系统无法体现这样一种动态过程,具有了一定局限性。随着人工智能的发展,多模态信息认知和交互模型进入视野,人的情感是复杂的,表达情绪和意图的方式多种多样,单一的信息不足以完全表达清楚某种意图,而采用多模态的信息融合,同时处理多种交互信息得到真实意图的方式解决了意图表达不明确的情况。在常规的实验室中开展实现教学活动时,存在实验步骤完成困难,成本过高,危险过大,为了讲清楚实验原理或现象,需要反复实验或随时随地地做演示实验等问题。为了能够有效的解决实验中的问题,虚拟实验平台研究被提上日程,目前的相关研究仍然存在如操作意图不清,动态操作过程无法提现等问题。
发明内容
本发明提出了一种具有多模态信息处理功能的虚拟实验平台,采用三维场景和手势直接操作实验器材的方式,提供更加具有真实感的操作体验和实验现象,同时融合传感器信息和语音信息,构建一个处理多模态信息的平台系统。
为了实现上述目的,本发明提出一种具有多模态信息处理功能的虚拟实验平台,包括信息输入与交互识别模块、意图融合模块和交互应用模块;
所述信息输入与交互识别模块通过压力传感器对胶头滴管滴液进行量化控制以及通过按钮传感器控制胶头滴管滴液的体积,完成胶头滴管传感器信息的输入与交互识别;通过语音的输入,对关键词提取,以及对实验所需的关键词分类,通过相似度计算得到相似度概率,构成完整语音信息输入及交互识别;采用基于视觉的手势识别和kinect深度感知设备实现实验器材的选择,另外对虚拟手和物体进行碰撞检测,完成手势的输入及交互识别;
所述意图融合模块将得到的语音信息得到的第一意图集合、胶头滴管传感器得到的第二意图集合、手势得到的第三意图集合进行组合,得到意图组合,对于不同的意图产生不同的行为定义行为的集合,得到行为集合,并且将意图组合和行为集合建立映射关系;
所述交互应用模块用于根据意图融合模块建立的映射关系通过视觉呈现和语音指引完成虚拟融合的实验。
进一步的,通过压力传感器对胶头滴管滴液进行量化控制以及通过按钮传感器控制胶头滴管滴液的体积,完成胶头滴管传感器信息的输入与交互识别的方法为:压力传感器的数据为p:0~maxp,滴液的最初形态为定值
Figure BDA0002103011180000031
当前形态为
Figure BDA0002103011180000032
经过转换函数
Figure BDA0002103011180000033
得到即时的滴液变化为
Figure BDA0002103011180000034
所述Trans=[transx transy transz]为对压力P进行转换的转移向量;所述Trans=[transx transy transz]与滴液的最初形态So结合后得到所述Snow
采用按钮传感器控制滴液的三种体积标准,所述三种体积标准分别为1倍、3倍和5倍,对所述即时的滴液变化
Figure BDA0002103011180000035
所述i∈{1,2,3};
按压滴管和液滴流出的速度公式为
Figure BDA0002103011180000036
所述speedmax为设定的滴液能达到的最大的下落速度,所述P=[P1 P2 ... Pn],n∈N*;P为一段连续的长度为n的压力值序列,n为3;所述max(p)为压力序列中最大的压力值;所述min(p)压力序列中最小的压力值。
进一步的,所述电阻式薄膜压力传感器通过杜邦线与电压转换模块的输入端相连;所述电压转换模块的输出端与所述STM32单片机相连;所述STM32单片机还通过杜邦线与所述USB转TTL模块相连;
所述电阻式薄膜压力传感器用于测量压力,根据压力的大小使电阻至发生变化;所述电压装换模块将电阻变化值转化成电压数值输出给STM32单片机。
进一步的,所述胶头滴管的滴液出口玻璃处设置有微型红外摄像头;所述微型红外摄像头通过USB连接线与所述STM32单片机相连;当所述胶头滴管将滴液滴入目标烧杯时,所述目标烧杯的底部设置标记,微型红外摄像头获取标记的图像,当标记完整出现在图像中,则胶头滴管位于所述目标烧杯的上方,可以进行滴液操作;当标记未完整出现在图像中,则胶头滴口管与所述目标烧杯有偏差,不能进行滴液操作。
进一步的,通过语音的输入,对关键词提取,以及对实验所需的关键词分类,通过相似度计算得到相似度概率,构成完整语音信息输入及交互识别的方法为:通过语音的输入,对关键词提取,以及对实验所需的关键词分类,所述关键词分类分为动词词汇D={m1,m2…mi}和属性词汇S={n1,n2…nj};对所述集合D和集合S两两匹配,得到匹配的关键词库,并与提取的关键词通过相似度计算得到关键词在集合中所有相似度概率P(s),如果Pi(s)>Pj(s),则得到的概率最大值为Pi(s),其中阈值为t,判断最大概率Pi(s),
Figure BDA0002103011180000041
其中所述Sn为感知到语音通道的不同关键词信号。
进一步的,采用基于视觉的手势识别和kinect深度感知设备实现实验器材的选择,另外对虚拟手和物体进行碰撞检测,完成手势的输入及交互识别的方法为;通过手势识别现实中操作者的手势,虚拟平台中虚拟手做出相应的改变,完成现实中操作者的手势与虚拟平台中虚拟手的三维映射,kinect识别的坐标精度与虚拟平台中的坐标转换公式为:
Figure BDA0002103011180000042
所述Handr=|rx ry rz]为虚拟平台中虚拟手的位置;所述Handdepth=[dx dy dz]为由kinect获取的实际人手的深度位置;同时为了精确转换,增加偏移向量λ-[λx λy λz]对转换后的位置进行修正,其中转换矩阵为
Figure BDA0002103011180000051
所述wx、wy和wz分别表示在X轴、Y轴和Z轴上的映射尺度;
采用深度学习网络inception训练虚拟平台中虚拟手的手势识别模型GestureModel,建立现实中操作者的手势和操作的映射矩阵Egm,通过对现实中操作者的手势的识别实现对虚拟手动作的控制;对虚拟环境中的虚拟手和物体进行碰撞检测,当mi∈Egm进行mi操作,否则,则继续识别操作者的手势和操作编号mi
进一步的,所述意图融合模块将得到的语音信息得到的第一意图集合V、胶头滴管传感器得到的第二意图集合C、手势得到的第三意图集合进行组合G,得到意图组合对于不同的意图产生不同的行为定义行为的集合Intention=Mix(V,G,C),所述Mix()为对三个意图的不同组成;对于不同的意图可能产生不同的行为,得到行为集合A={K,W,E},所述K为正确的实验行为;所述E为错误的行为集合;所述W为等待探究的行为集合;并且将意图组合和行为集合建立映射关系。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明实施例提出了一种具有多模态信息处理功能的虚拟实验平台,包括信息输入与交互识别模块、意图融合模块和交互应用模块;其中信息输入与交互识别模块通过压力传感器对胶头滴管滴液进行量化控制以及通过按钮传感器控制胶头滴管滴液的体积,完成胶头滴管传感器信息的输入与交互识别;通过语音的输入,对关键词提取,以及对实验所需的关键词分类,通过相似度计算得到相似度概率,构成完整语音信息输入及交互识别;采用基于视觉的手势识别和kinect深度感知设备实现实验器材的选择,另外对虚拟手和物体进行碰撞检测,完成手势的输入及交互识别。意图融合模块将得到的语音信息得到的第一意图集合、胶头滴管传感器得到的第二意图集合、手势得到的第三意图集合进行组合,得到意图组合,对于不同的意图产生不同的行为定义行为的集合,得到行为集合,并且将意图组合和行为集合建立映射关系;交互应用模块用于根据意图融合模块建立的映射关系通过视觉呈现和语音指引完成虚拟融合的实验。本发明提供一个三维虚拟的化学实验环境,提供一个独立的实验台,以及相关的实验器材和材料。不受限于传统的基于鼠标的操作,以及缺乏真实性和沉浸感的二维场景,平台采用三维场景和手势直接操作实验器材的方式,提供更加具有真实感的操作体验和实验现象。同时融合传感器信息和语音信息,构建一个处理多模态信息的平台系统。
本发明提出的一种具有多模态信息处理功能的虚拟实验平台,具有智能检验性,平台核心是构建意图集合和行为集合,划分了不同的行为子集合,对于用户的每一个操作意图,会映射出一个行为结果。系统自动检验行为意图,对不同的行为作出不同反应。具有可再现性,在平台上做的每一个实验都是可以重复进行的,只需要语音控制系统就可以再次进行实验。对于实验材料要求高和实验难的实验来说,可再现性解决了再次实验代价高的情况。具有动态操作性,意图和行为之间不再是即时的有因必果关系,而是附加了动态变化,由因渐进到果。在滴液的时候,并不是发出指令立即就会有滴液下落。而是体现滴液随操作出现实际形态变化,直到达到满足果的条件才会下落,整个过程更加符合现实实验的动态行为过程。具有可探究性,操作者可以实际用手去抓取虚拟场景中的各种实验器材,每一个实验步骤都是亲手完成,同时没有平台没有对实验做出局部限制,增加了与现实操作一致的可探究性,促使操作者主动学习而不是被动记忆实验过程和结果,实验现象符合实际,由虚拟平台呈现更具真实感,操作者体验感强。另外本技术方案操作简便,操作者不需要记忆复杂的操作步骤和操作技巧,所有的命令都符合实际操作需求,并且同一意图刻意用多种命令表达,充分满足不同操作者习惯。
附图说明
附图1是本发明实施例1提出的一种具有多模态信息处理功能的虚拟实验平台的多模态融合架构图;
附图2是本发明实施例1提出的压力传感器对胶头滴管滴液进行量化控制实现的硬件结构图;
附图3是本发明实施例1提出的滴液时,胶头滴管和目标烧杯的结构示意图;
附图4是本发明实施例1提出的意图组合和行为组合的映射关系图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例1
本发明实施例提出了一种具有多模态信息处理功能的虚拟实验平台,包括信息输入与交互识别模块、意图融合模块和交互应用模块;
其中信息输入与交互识别模块通过压力传感器对胶头滴管滴液进行量化控制以及通过按钮传感器控制胶头滴管滴液的体积,完成胶头滴管传感器信息的输入与交互识别;通过语音的输入,对关键词提取,以及对实验所需的关键词分类,通过相似度计算得到相似度概率,构成完整语音信息输入及交互识别;采用基于视觉的手势识别和kinect深度感知设备实现实验器材的选择,另外对虚拟手和物体进行碰撞检测,完成手势的输入及交互识别。
意图融合模块将得到的语音信息得到的第一意图集合、胶头滴管传感器得到的第二意图集合、手势得到的第三意图集合进行组合,得到意图组合,对于不同的意图产生不同的行为定义行为的集合,得到行为集合,并且将意图组合和行为集合建立映射关系。
交互应用模块用于根据意图融合模块建立的映射关系通过视觉呈现和语音指引完成虚拟融合的实验。
如图1是本发明实施例1提出的一种具有多模态信息处理功能的虚拟实验平台的多模态融合架构图;输入信息来自于语音,传感器和手势。对于传感器的传入信息,其主要作用于对胶头滴管滴液变化的动态控制,使其符合现实中人的行为意图。当按压力越大时,滴液越大且趋于下落。当压力越小时,滴液越小且趋于缩回滴管内部。语音主要辅助另外的两种信息对整个实验操作进行控制,调整实验方式,控制器材选择,调整滴液相关参数等。手势则主要满足用户的实际操作行为实例,根据实际用户的动作,判定用户意图并做出相应反馈。
通过压力传感器对胶头滴管滴液进行量化控制以及通过按钮传感器控制胶头滴管滴液的体积,完成胶头滴管传感器信息的输入与交互识别的方法为:
压力传感器的数据为p:0~maxp,滴液的最初形态为定值
Figure BDA0002103011180000081
当前形态为
Figure BDA0002103011180000082
经过转换函数
Figure BDA0002103011180000083
得到即时的滴液变化为
Figure BDA0002103011180000091
其中Trans=[transx transy transz]为对压力P进行转换的转移向量;Trans=[transx transy transz]与滴液的最初形态So结合后得到Snow
考虑到虚拟实验与实际实验存在一定程度的不同,比如现实中滴液的量通过较小的滴管多次滴加来实现微量控制,保证试剂用量偏差局限在一定范围内,但是对于试剂添加量大但又不至于使用试管添加的试剂来说,滴液次数有不必要的增加。采用按钮传感器控制滴液的三种体积标准,所述三种体积标准分别为1倍、3倍和5倍,对即时的滴液变化
Figure BDA0002103011180000092
其中i∈{1,2,3}。
结合实际实验中可能出现的按压滴管用力的速度导致滴液滴出速度的改变,对滴液速度进行控制,按压滴管和液滴流出的速度公式为
Figure BDA0002103011180000093
其中speedmax为设定的滴液能达到的最大的下落速度,P=[P1 P2 ... Pn],n∈N*;P为一段连续的长度为n的压力值序列,n为3,可以根据实际传值频率修改;max(p)为压力序列中最大的压力值;min(p)压力序列中最小的压力值。
附图2是本发明实施例1提出的压力传感器对胶头滴管滴液进行量化控制实现的硬件结构图;通过压力传感器对胶头滴管滴液进行量化控制实现的硬件结构包括电阻式薄膜压力传感器、电压转换模块、STM32单片机和USB转TTL模块;
电阻式薄膜压力传感器通过杜邦线与电压转换模块的输入端相连;电压转换模块的输出端与STM32单片机相连;STM32单片机还通过杜邦线与USB转TTL模块相连;
播模式薄膜压力传感器为柔性薄膜压力传感器,用于测量压力,根据压力的大小使电阻至发生变化;能够测量压力变化趋势或者有无压力,不适合做绝对值具体数值计算,提供大概的点击式压力信息;电压装换模块将电阻变化值转化成电压数值输出给STM32单片机。
附图3是本发明实施例1提出的滴液时,胶头滴管和目标烧杯的结构示意图;胶头滴管的滴液出口玻璃处设置有微型红外摄像头,微型红外摄像头通过USB连接线与STM32单片机相连,目标烧杯底部设置一个标记。用于判定滴液时,胶头滴管的位置是否正处于烧杯上方,保证不会错误的将滴液滴在外面,使用时,胶头滴管垂直放置,摄像头正对下面,获取实时图像,对每一帧图像进行处理判定,如果标记完整出现在图像中,则滴管刚好在烧杯上方,可以滴液。如果标记未完整出现在图像中,则滴管口与烧杯口出现偏差,如果此时滴液,滴液会落在烧杯外面,因此此时不能进行滴液操作。
通过语音的输入,对关键词提取,以及对实验所需的关键词分类,通过相似度计算得到相似度概率,构成完整语音信息输入及交互识别的方法为:通过语音的输入,对关键词提取,以及对实验所需的关键词分类,关键词分类分为动词词汇D={m1,m2…mi}和属性词汇S={n1,n2…nj};对集合D和集合S两两匹配,得到匹配的关键词库,并与提取的关键词通过相似度计算得到关键词在集合中所有相似度概率P(s),如果Pi(s)>Pj(s),则得到的概率最大值为Pi(s),其中阈值为t,判断最大概率Pi(s),
Figure BDA0002103011180000101
其中Sn为感知到语音通道的不同关键词信号。
本发明中的虚拟实验平台中,增强了操作的真实体验感。对于实验器材的选择采用基于视觉的手势识别和kinect深度感知设备。在本文的实验场景中有一只虚拟手,通过手势识别现实中操作者的手势,虚拟手做出相应的改变,实现对虚拟场景中实验器材和药品的取放。首先是完成对现实人手到虚拟实验平台的三维映射,kinect识别的坐标精度是以米为单位,而场景模型的建立标准会有所不同,因此对应的转换矩阵可能不同,具体的转换公式为
Figure BDA0002103011180000111
其中Handr=[rx ry rz]为虚拟平台中虚拟手的位置;Handdepth=[dx dy dz]为由kinect获取的实际人手的深度位置。为了更加精确的转换,添加了偏移向量λ=[λx λy λz]对转换后的位置进行修正,其中转换矩阵为
Figure BDA0002103011180000112
其中,wx、wy和wz分别表示在X轴、Y轴和Z轴上的映射尺度。
本发明采用基于视觉的手势识别对物体进行选取,利用现有的深度学习网络inception训练出实现虚拟实验所需要的手势识别模型GestureModel,建立手势和操作的映射矩阵Egm,通过对手势的识别实现对虚拟手动作的控制,同时考虑到虚拟实验应该复合现实意义,手不能穿过物体,物体之间不能互相穿透,因此增加了碰撞检测。碰撞检测是虚拟环境中对象与对象之间碰撞的一种识别技术。本发明提出的虚拟实验平台是基于Unity实现的,因此采用其内置的碰撞检测技术。其具体的控制操作流程为:
输入:(a)手势图像Gesturei(b)手的三维位置Handdepth
输出:(a)手势Gesturet识别结果;
(b)操作结果IF(Success)return True,ELSE return False;
(1)由
Figure BDA0002103011180000113
Figure BDA0002103011180000114
得到虚拟手的位置Handr,投影到虚拟实验场景中;
(2)由手势模型GestureModel得到Gesturet的识别结果,在mt=Egm(Gesturet)中得到具体的操作编号;
(3)虚拟手和物体进行碰撞检测;
IF(True且mt∈Egm);
进行mi操作,返回操作结果,成功或者失败;
ELSE回到(2),继续识别手势Gesturet和操作编号mi
意图融合模块将得到的语音信息得到的第一意图集合V、胶头滴管传感器得到的第二意图集合C、手势得到的第三意图集合进行组合G,则整体的意图集合为Intention=Mlx(V,G,C),,其中Mix()表示对三种意图的不同组合。对于不同的意图可能产生不同的行为,定义行为的集合A={K,W,E},行为集合包含了三个子集,其中子集K表示已知的正确的实验行为,子集E表示错误的行为集合,而子集W表示除开正确和错误子集后,剩下的等待探究的行为集合。三个子集构成的集合A才表示整体的用户行为集合,有助于错误处理。将意图组合G和行为集合A建立映射关系。附图4是本发明实施例1提出的意图组合和行为组合的映射关系图。其具体的实现过程为:
输入:(a)手势图像Gi(b)语音识别结果Vi(c)压力信息Gi
输出:(a)行为Ai(b)行为Ai产生的结果result;
(1)由输入的语音手势和压力信息得到相应的意图结果Gi∈G,Vi∈V,Ci∈C。
(2)由输入信息得到当前用户意图Ii=Mix(Gi,Vi,Ci)
(3)IFIi∈Intention=Mix(V,G,C);
执行操作Ai
Switch(Ai);
Case Ai∈K:行为存在于集合A中的子集K,操作合理,返回结果;
Case Ai∈E:行为存在于集合A中的子集E,属错误行为,报错并返回结果;
Case Ai∈W:行为存在于集合A中的子集W,待探究操作,返回结果;
Else返回(2)。
本发明提出的一种具有多模态信息处理功能的虚拟实验平台的操作实现过程为:(1):虚拟实验场景载入,虚拟手位置初始化,传感器状态初始化,麦克风初始化。
(2)发出语音指令正式开始实验,通过操纵虚拟手,语音辅助的方式抓取实验器材,搭建实验装置。
(3)虚拟手抓取胶头滴管,按压压力传感器控制滴液动态变化,硬件更改滴液尺寸标准,语音输入改变滴液尺寸和下落速度。
(4)对每一个语音指令、手势和压力信息,融合多模态信息,在用户意图集合中匹配对应的意图。
(5)将用户意图映射到行为集合,得到行为结果。
(6)行为在虚实融合的化学实验平台上通过语音,视觉将行为结果呈现出来,反馈给用户。
(7)用户记忆操作方式,判定当前操作结果是否符合意图。如果符合,本次操作完成,否则,进入(4)。
以上内容仅仅是对本发明的结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (7)

1.一种具有多模态信息处理功能的虚拟实验平台,其特征在于,包括信息输入与交互识别模块、意图融合模块和交互应用模块;
所述信息输入与交互识别模块通过压力传感器对胶头滴管滴液进行量化控制以及通过按钮传感器控制胶头滴管滴液的体积,完成胶头滴管传感器信息的输入与交互识别;通过语音的输入,对关键词提取,以及对实验所需的关键词分类,通过相似度计算得到相似度概率,构成完整语音信息输入及交互识别;采用基于视觉的手势识别和kinect深度感知设备实现实验器材的选择,另外对虚拟手和物体进行碰撞检测,完成手势的输入及交互识别;
所述意图融合模块将得到的语音信息得到的第一意图集合、胶头滴管传感器得到的第二意图集合、手势得到的第三意图集合进行组合,得到意图组合,对于不同的意图产生不同的行为定义行为的集合,得到行为集合,并且将意图组合和行为集合建立映射关系;
所述交互应用模块用于根据意图融合模块建立的映射关系通过视觉呈现和语音指引完成虚拟融合的实验。
2.根据权利要求1所述的一种具有多模态信息处理功能的虚拟实验平台,其特征在于,通过压力传感器对胶头滴管滴液进行量化控制以及通过按钮传感器控制胶头滴管滴液的体积,完成胶头滴管传感器信息的输入与交互识别的方法为:
压力传感器的数据为p:0~maxp,滴液的最初形态为定值
Figure FDA0002103011170000011
当前形态为
Figure FDA0002103011170000012
经过转换函数
Figure FDA0002103011170000013
得到即时的滴液变化为
Figure FDA0002103011170000021
所述Trans=[transx transy transz]为对压力P进行转换的转移向量;所述Trans=[transx transy transz]与滴液的最初形态so结合后得到所述snow
采用按钮传感器控制滴液的三种体积标准,所述三种体积标准分别为1倍、3倍和5倍,对所述即时的滴液变化
Figure FDA0002103011170000022
所述i∈{1,2,3};
按压滴管和液滴流出的速度公式为
Figure FDA0002103011170000023
所述speedmax为设定的滴液能达到的最大的下落速度,所述P=[P1 P2 ... Pn],n∈N*;P为一段连续的长度为n的压力值序列,n为3;所述max(p)为压力序列中最大的压力值;所述min(p)压力序列中最小的压力值。
3.根据权利要求1所述的一种具有多模态信息处理功能的虚拟实验平台,其特征在于,通过压力传感器对胶头滴管滴液进行量化控制实现的硬件结构包括电阻式薄膜压力传感器、电压转换模块、STM32单片机和USB转TTL模块;
所述电阻式薄膜压力传感器通过杜邦线与电压转换模块的输入端相连;所述电压转换模块的输出端与所述STM32单片机相连;所述STM32单片机还通过杜邦线与所述USB转TTL模块相连;
所述电阻式薄膜压力传感器用于测量压力,根据压力的大小使电阻至发生变化;所述电压装换模块将电阻变化值转化成电压数值输出给STM32单片机。
4.根据权利要求3所述的一种具有多模态信息处理功能的虚拟实验平台,其特征在于,所述胶头滴管的滴液出口玻璃处设置有微型红外摄像头;所述微型红外摄像头通过USB连接线与所述STM32单片机相连;当所述胶头滴管将滴液滴入目标烧杯时,所述目标烧杯的底部设置标记,微型红外摄像头获取标记的图像,当标记完整出现在图像中,则胶头滴管位于所述目标烧杯的上方,可以进行滴液操作;当标记未完整出现在图像中,则胶头滴口管与所述目标烧杯有偏差,不能进行滴液操作。
5.根据权利要求1所述的一种具有多模态信息处理功能的虚拟实验平台,其特征在于,通过语音的输入,对关键词提取,以及对实验所需的关键词分类,通过相似度计算得到相似度概率,构成完整语音信息输入及交互识别的方法为:通过语音的输入,对关键词提取,以及对实验所需的关键词分类,所述关键词分类分为动词词汇D={m1,m2…mi}和属性词汇S={n1,n2…nj};对所述集合D和集合S两两匹配,得到匹配的关键词库,并与提取的关键词通过相似度计算得到关键词在集合中所有相似度概率P(s),如果Pi(s)>Pj(s),则得到的概率最大值为Pi(s),其中阈值为t,判断最大概率Pi(s),
Figure FDA0002103011170000031
其中所述Sn为感知到语音通道的不同关键词信号。
6.根据权利要求1所述的一种具有多模态信息处理功能的虚拟实验平台,其特征在于,采用基于视觉的手势识别和kinect深度感知设备实现实验器材的选择,另外对虚拟手和物体进行碰撞检测,完成手势的输入及交互识别的方法为;通过手势识别现实中操作者的手势,虚拟平台中虚拟手做出相应的改变,完成现实中操作者的手势与虚拟平台中虚拟手的三维映射,kinect识别的坐标精度与虚拟平台中的坐标转换公式为:
Figure FDA0002103011170000032
所述Handr=[rx ry rz]为虚拟平台中虚拟手的位置;所述Handdepth=[dx dy dz]为由kinect获取的实际人手的深度位置;同时为了精确转换,增加偏移向量λ=[λx λy λz]对转换后的位置进行修正,其中转换矩阵为
Figure FDA0002103011170000041
所述wx,wy,wz分别表示在X轴、Y轴和Z轴上的映射尺度;
采用深度学习网络inception训练虚拟平台中虚拟手的手势识别模型GestureModel,建立现实中操作者的手势和操作的映射矩阵Egm,通过对现实中操作者的手势的识别实现对虚拟手动作的控制;对虚拟环境中的虚拟手和物体进行碰撞检测,当mi∈Egm进行mi操作,否则,则继续识别操作者的手势和操作编号mi
7.根据权利要求1所述的一种具有多模态信息处理功能的虚拟实验平台,其特征在于,所述意图融合模块将得到的语音信息得到的第一意图集合V、胶头滴管传感器得到的第二意图集合C、手势得到的第三意图集合进行组合G,得到意图组合对于不同的意图产生不同的行为定义行为的集合Intention=Mix(V,G,C),所述Mix()为对三个意图的不同组成;对于不同的意图可能产生不同的行为,得到行为集合A={K,W,E},所述K为正确的实验行为;所述E为错误的行为集合;所述W为等待探究的行为集合;并且将意图组合G和行为集合A建立映射关系。
CN201910542518.0A 2019-06-21 2019-06-21 一种具有多模态信息处理功能的虚拟实验平台 Active CN110286762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910542518.0A CN110286762B (zh) 2019-06-21 2019-06-21 一种具有多模态信息处理功能的虚拟实验平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910542518.0A CN110286762B (zh) 2019-06-21 2019-06-21 一种具有多模态信息处理功能的虚拟实验平台

Publications (2)

Publication Number Publication Date
CN110286762A CN110286762A (zh) 2019-09-27
CN110286762B true CN110286762B (zh) 2022-11-04

Family

ID=68004330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910542518.0A Active CN110286762B (zh) 2019-06-21 2019-06-21 一种具有多模态信息处理功能的虚拟实验平台

Country Status (1)

Country Link
CN (1) CN110286762B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111665941B (zh) * 2020-06-07 2023-12-22 济南大学 一种面向虚拟实验的多模态语义融合人机交互系统和方法
CN111814095A (zh) * 2020-06-23 2020-10-23 济南大学 一种虚拟实验中的探究式交互算法
CN112748800B (zh) * 2020-09-16 2022-11-04 济南大学 一种基于智能手套的实验场景感知交互方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002007839A2 (en) * 2000-07-24 2002-01-31 Jestertek, Inc. Video-based image control system
CN108334199A (zh) * 2018-02-12 2018-07-27 华南理工大学 基于增强现实的移动式多模态交互方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002007839A2 (en) * 2000-07-24 2002-01-31 Jestertek, Inc. Video-based image control system
CN108334199A (zh) * 2018-02-12 2018-07-27 华南理工大学 基于增强现实的移动式多模态交互方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向虚拟装配的层次化交互手势技术;熊巍等;《华南理工大学学报(自然科学版)》;20160115(第01期);全文 *

Also Published As

Publication number Publication date
CN110286762A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110286762B (zh) 一种具有多模态信息处理功能的虚拟实验平台
CN110598576B (zh) 一种手语交互方法、装置及计算机介质
CN110554774B (zh) 一种面向ar的导航式交互范式系统
CN109992107B (zh) 虚拟操控装置及其操控方法
CN107300970A (zh) 虚拟现实交互方法和装置
CN110286764B (zh) 一种多模态融合实验系统及其使用方法
CN111665941B (zh) 一种面向虚拟实验的多模态语义融合人机交互系统和方法
CN113835522A (zh) 手语视频生成、翻译、客服方法、设备和可读介质
CN110309570A (zh) 一种具有认知能力的多模态仿真实验容器及方法
Almasre et al. A real-time letter recognition model for Arabic sign language using kinect and leap motion controller v2
CN110286835B (zh) 一种具有意图理解功能的交互式智能容器
CN103903491A (zh) 一种实现书写检查的方法及装置
Staretu et al. Leap motion device used to control a real anthropomorphic gripper
CN106648054B (zh) 一种基于RealSense的陪伴机器人的多模式交互方法
CN112295617B (zh) 一种基于实验场景态势感知的智能烧杯
Feng et al. Many-to-one gesture-to-command flexible mapping approach for smart teaching interface interaction
CN112748800B (zh) 一种基于智能手套的实验场景感知交互方法
Zeng et al. Research on intelligent experimental equipment and key algorithms based on multimodal fusion perception
CN111078008B (zh) 一种早教机器人的控制方法
CN112099633A (zh) 一种多模态感知的智能实验方法及装置
CN111968470B (zh) 一种面向虚实融合的闯关交互式实验方法和系统
CN209625781U (zh) 用于亲子教育的双语切换装置
Kulkarni Dynamic sign language translating system using deep learning and natural language processing
Truong et al. A Vision-based Hand-sign Language Teaching System using Deep Neural Network: Methodology and Experiments
Dawod Hand Gesture Recognition Based Sign Language Interpretation in Real-Time

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant