CN111651035A

CN111651035A - 一种基于多模态交互的虚拟实验系统及方法

Info

Publication number: CN111651035A
Application number: CN202010284617.6A
Authority: CN
Inventors: 冯志全; 肖梦婷
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-09-11
Anticipated expiration: 2040-04-13
Also published as: CN111651035B

Abstract

本申请公开了一种基于多模态交互的虚拟实验系统及方法，该实验系统主要包括输入层、感知与识别层、融合层以及应用层。该方法包括：分别通过视觉通道、触觉通道和听觉通道，采集相应的视觉信息、传感信号以及语音信号；分别对不同通道的信息进行识别；根据识别结果，采用基于决策层面的多模态融合方法，在AR平台上对视觉通道、触觉通道和听觉通道的模态信息所构建的相应向量集进行融合；根据融合结果，采用语音导航、视觉显示以及触觉反馈的方式呈现实验过程和实验结果。通过本申请，能够充分利用多种通道，并采用多模态融合的方法实现实验过程，有利于降低用户操作负荷，提高实验的沉浸感，提高虚拟交互的效率。

Description

一种基于多模态交互的虚拟实验系统及方法

技术领域

本申请涉及虚拟实验技术领域，特别是涉及一种基于多模态交互的虚拟实验系统及方法。

背景技术

随着人机交互技术的发展，利用增强现实技术呈现虚拟实验的方法，在教学教育领域的应用越来越广泛，尤其是有化学危险品和危险实验现象的化学教育领域，虚拟实验的应用更加迫切。如何设计虚拟实验方法及实验系统，从而规避学生操作实验的风险以及提高学生对知识的学习兴趣，是虚拟实验设计中的重要问题。

目前的虚拟实验方法，通常是利用增强现实技术，通过视觉通道完成对真实世界与虚拟场景的渲染呈现。具体地，通过SLAM定位、卡片标记识别或者手势识别技术完成虚拟融合和虚拟交互。

然而，目前的虚拟实验方法中，由于主要通过视觉通道这一单一的方式实现虚拟融合，使得用户的操作负荷过重，从而导致虚实交互效率较低，进而使得用户对实验的真实性体验不够好。

发明内容

本申请提供了一种基于多模态交互的虚拟实验系统及方法，以解决现有技术中虚拟实验方法使得虚实交互效率较低的问题。

为了解决上述技术问题，本申请实施例公开了如下技术方案：

一种基于多模态交互的虚拟实验系统，所述实验系统包括：输入层、感知与识别层、融合层以及应用层；

所述输入层，用于通过视觉通道采集人手骨骼节点的深度信息，通过触觉通道采集传感信号以及通过听觉通道采集语音信号，所述人手骨骼节点的深度信息包括：人手关节点坐标，所述传感信号包括：磁信号、光敏信号、触摸信号和震动信号；

所述感知与识别层，用于对视觉通道和听觉通道的信息进行识别，以及对触觉通道的信息进行感知；

所述融合层，用于根据所述感知与识别层的识别结果，分别对视觉通道、触觉通道和听觉通道的模态信息构建相应的向量集，以及，采用基于决策层面的多模态融合方法，在AR平台上对不同通道的所述向量集进行融合，其中，不同通道在一定时间段内内的状态组合构成一个状态向量，向量集中包括多个状态向量，所述模态信息包括：视觉通道、触觉通道以及听觉通道的信息和表达的状态；

所述应用层，用于根据所述融合层的融合结果，采用语音导航、视觉显示以及触觉反馈的方式呈现实验过程和实验结果。

可选地，所述感知与识别层包括：

视觉信息识别模块，用于构建AR环境，在卷积神经网络中训练手势识别模型，以及根据输入层所捕获的人手骨骼节点的深度信息，利用所述手势识别模型进行手势识别；

传感信号感知模块，用于利用磁传感器、光敏传感器、触摸传感器和震动传感器感知3D打印容器的位置和行为；

语音信号识别模块，用于利用API关键词识别的方法识别实验过程中的语音，以及通过语音进行人机交互。

可选地，所述融合层包括：

向量集构建模块，用于根据所述感知与识别层的识别结果，分别对视觉通道、触觉通道和听觉通道的模态信息构建相应的向量集；

多模态信息整合模块，用于在AR平台上根据不同通道的模态信息所构成的触发条件，利用公式：

计算当前节点的系统状态，其中，所述系统状态包括：初始化、开始、结束、拿取、震动反馈、选择V、选择A、错误位置、正确位置、倾倒、切割、放下以及语音导航，e_n为节点，m_n为触发条件权重值，且当模态相交时，m_n∈{Model₁∩Model₂,Model₂∩Model₃,Model₁∩Model₃}，当模态相互独立时，m_n∈{Model₁,Model₂,Model₃}，Model₁∈{rh(1,2,3),lh(1,2,3)}，Model₂∈{sp(s₁,s₂,s₃,…s_n)}，Model₃∈{ls,rs(1,2,3,4),ts(1,2,3,4),ss}，Model₁为视觉通道的模态信息，Model₂为听觉通道的模态信息，Model₃为触觉通道的模态信息，rh为右手状态，lh为左手状态，sp为关键词，用于表达不同的状态，n为关键词的种类，rs表示光敏信号，ts表示触摸信号，ls表示磁信号，ss表示震动信号；

MIDI(multimodal intent understanding of the multi-modal interactivenavigation method，多模态意图理解的语音导航交互算法)算法模块，用于判断所述系统状态所表达的实验物体是否为语音导航的触发物体，且当所述系统状态所表达的实验物体为语音导航的触发物体时，进行当前状态的语音导航提示，以及根据语音提示进行下一步操作，否则，根据数据库确定所述触发物体匹配的语音提示词进行语音导航，直到所述系统状态所表达的实验物体为语音导航的触发物体为止，其中，所述数据库中预存有触发物体与语音提示词之间的映射关系。

可选地，所述传感信号感知模块包括：第一智能烧杯和第二智能烧杯，实验时所述第一智能烧杯和第二智能烧杯之间的距离≤20厘米；

所述第一智能烧杯中设置有第一光敏传感器、第二光敏传感器、第三光敏传感器、第四光敏传感器、磁传感器、第一触摸传感器和第二触摸传感器，所述第一光敏传感器设置于第一智能烧杯远离第二智能烧杯侧的顶部内壁上，所述第二光敏传感器、第三光敏传感器和第四光敏传感器从上往下依次均匀设置于第一智能烧杯的外壁上，所述磁传感器设置于第一智能烧杯靠近第二智能烧杯侧的外壁上，所述第一触摸传感器和第二触摸传感器均设置于第一智能烧杯外壁的下侧，所述第一光敏传感器、第二光敏传感器、第三光敏传感器、第四光敏传感器、磁传感器、第一触摸传感器和第二触摸传感器分别与应用层的主控芯片通信连接，所述主控芯片与上位机通信连接；

所述第一光敏传感器、第二光敏传感器、第三光敏传感器和第四光敏传感器，用于根据光的强弱判断第一智能烧杯的倾倒状态和倾倒位置，所述磁传感器用于根据磁强度判断第一智能烧杯的相对位置，所述第一触摸传感器和第二触摸传感器，用于根据触感强弱判断虚拟液体的种类以及实验的开始与结束；

所述第二智能烧杯中设置有磁性元件和光源，且所述磁性元件设置于第二智能烧杯靠近第一智能烧杯侧的的外壁上，所述光源设置于第二智能烧杯的顶部，且所述光源能够照射到所述第一光敏传感器、第二光敏传感器、第三光敏传感器和第四光敏传感器。

可选地，所述传感信号感知模块为智能指环，所述智能指环中包括：圆形指环、震动传感器、第三触摸传感器以及用于放置第三触摸传感器的支撑件，所述震动传感器设置于所述圆形指环上，所述圆形指环通过线缆与应用层的主控芯片连接，所述震动传感器和所述第三触摸传感器分别与所述主控芯片通信连接，所述主控芯片与上位机通信连接；

所述震动传感器，用于根据手势行为反馈震动效果；

所述第三触摸传感器，用于表示实验的开始；

所述第四触摸传感器，用于表示实验的结束。

一种基于多模态交互的虚拟实验方法，所述实验方法应用于如上任一所述的实验系统，所述实验方法包括：

分别通过视觉通道、触觉通道和听觉通道，采集相应的视觉信息、传感信号以及语音信号，所述视觉信息包括：人手骨骼节点的深度信息，所述人手骨骼节点的深度信息包括：人手关节点坐标，所述传感信号包括：磁信号、光敏信号、触摸信号和震动信号；

分别对所述视觉通道、触觉通道以及听觉通道的信息进行识别；

根据识别结果，采用基于决策层面的多模态融合方法，在AR平台上对视觉通道、触觉通道和听觉通道的模态信息所构建的相应向量集进行融合，其中，不同通道在一定时间段内的状态组合构成一个状态向量，向量集中包括多个状态向量，所述模态信息包括：视觉通道、触觉通道以及听觉通道的信息和表达的状态；

根据融合结果，采用语音导航、视觉显示以及触觉反馈的方式呈现实验过程和实验结果。

可选地，对所述视觉通道的信息进行识别的方法，包括：

构建AR环境；

在卷积神经网络中训练手势识别模型；

根据所获取的人手骨骼节点的深度信息，利用所述手势识别模型，采用ARG算法进行手势识别。

可选地，对所述触觉通道的信息进行识别的方法，包括：

当所述触觉通道采用第一智能烧杯和第二智能烧杯时，获取平均磁力强度；

利用磁传感器计算当前磁信号的磁感应强度；

判断当前磁信号的磁感应强度是否大于平均磁力强度；

如果是，输出磁传感器的状态表达结果；

如果否，判定磁传感器的状态不符合当前的操作，不输出磁传感器的状态表达结果；

获取平均光强度；

利用第一光敏传感器、第二光敏传感器、第三光敏传感器和第四光敏传感器中的任一光敏传感器计算当前光强度；

判断当前光强度是否大于平均光强度；

如果是，输出所述任一光敏传感器的状态表达结果；

如果否，判定所述任一光敏传感器的状态不符合当前的操作，不输出所述任一光敏传感器的状态表达结果；

获取平均触摸强度；

利用第一触觉传感器和第二触觉传感器中的任一触觉传感器计算当前触摸信号的触摸强度；

判断当前触摸信号的触摸强度是否大于平均触摸强度；

如果是，输出所述任一触觉传感器的状态表达结果；

如果否，判定所述任一触觉传感器的状态不符合当前的操作，不输出任一触觉传感器的状态表达结果。

可选地，对所述触觉通道的信息进行识别的方法，包括：

利用震动传感器判断当前手势是否为握拳手势；

如果是握拳手势，触发震动传感器震动；

否则，不触发震动传感器震动；

当所述触觉通道采用智能指环时，获取平均磁力强度；

利用第三触觉传感器计算当前触摸信号的触摸强度；

判断当前触摸信号的触摸强度是否大于平均触摸强度；

如果是，输出所述第三触觉传感器的状态表达结果；

如果否，判定所述第三触觉传感器的状态不符合当前的操作，不输出第三触觉传感器的状态表达结果。

可选地，所述根据识别结果，采用基于决策层面的多模态融合方法，在AR平台上对视觉通道、触觉通道和听觉通道的模态信息所构建的相应向量集进行融合，包括：

根据识别结果，分别对视觉通道、触觉通道和听觉通道的模态信息构建相应的向量集；

在AR平台上根据不同通道的模态信息所构成的触发条件，利用公式：

判断Model₁、Model₂或者Model₃是否符合设定的触发条件；

如果符合设定的触发条件，判断当前节点的系统状态所表达的实验物体是否为语音导航的触发物体；

如果是，进行当前状态的语音导航提示，并根据语音提示进行下一步操作；

如果否，根据数据库确定所述触发物体匹配的语音提示词进行语音导航，直到所述系统状态所表达的实验物体为语音导航的触发物体为止，所述数据库中预存有触发物体与语音提示词之间的映射关系；

如果不符合设定的触发条件，重新分别对所述视觉通道、触觉通道以及听觉通道的信息进行识别。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请提供一种基于多模态交互的虚拟实验系统，该实验系统主要包括：输入层、感知与识别层、融合层以及应用层四部分，其中，输入层通过视觉通道采集人手骨骼节点的深度信息，通过触觉通道采集传感信号以及通过听觉通道采集语音信号，感知与识别层用于对视觉通道、触觉通道以及听觉通道的信息进行识别，融合根据识别结果分别对输入层的视觉通道、触觉通道和听觉通道的模态信息构建相应的向量集，并采用基于决策层面的多模态融合方法对向量集进行融合，最后通过应用层实现基于多模态意图理解的导航式虚拟化学实验原型系统，达到语音导航、视觉一致以及震动反馈的效果。本实施例通过设置输入层和感知与识别层，能够采集多种模态信息，综合利用视觉通道、触觉通道和听觉通道的多种模态信息，能够采用多样化的方式实现虚拟融合，避免用户操作负荷过重，有利于提高虚拟交互的效率。而且本实施例中融合层采用基于决策层面的多模态融合方法对向量集进行融合，能够通过输入不同通道的信息，判断在不同的触发条件下的语义，根据用户的不同操作输入不同的触发条件，通过该方法输出不同的系统状态，有利于及时提示实验过程中的错误操作，提高虚拟交互的效率，进而提高用户的操作感和沉浸感。

本实施例中还设计两种传感信号感知模块的结构模型，一种为第一智能烧杯和第二智能烧杯，另一种为智能指环，这两种传感信号感知模块的结构设计，能够根据磁信号、光敏信号、触摸信号和震动信号这四类信号与手势行为的结合，及时而有效地表达感知的结果，有利于提高实验过程中的虚拟交互效率，从而提高实验结果的可靠性和用户体验。

本申请还提供一种基于多模态交互的虚拟实验方法，该实验方法首先构建AR环境，然后通过视觉通道、触觉通道和听觉通道，采集相应的视觉信息、传感信号以及语音信号，其次对所采集的信息进行识别，根据识别结果采用基于决策层面的多模态融合方法，在AR平台上对视觉通道、触觉通道和听觉通道的模态信息所构建的相应向量集进行融合，最后根据融合结果，采用语音导航、视觉显示以及触觉反馈的方式呈现实验过程和实验结果。该实施例通过不同的通道采集视觉信息、传感信号以及语音信号等多种信息，并对多种信息进行识别，能够利用多种模态信息实现虚拟融合，有利于提高虚拟交互效率，降低用户的操作负荷，提高用户体验。而且，本实施例提出基于多模态意图理解的语音导航交互算法，能够通过输入不同通道的信息，判断在不同的触发条件下的语义，有利于提高虚拟交互效率，从而提高用户在实验过程中的沉浸感。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种基于多模态交互的虚拟实验系统的结构示意图；

图2为本申请实施例的虚拟实验系统在实际应用中的总体框架示意图；

图3为本申请实施例中的Alexnet网络结构图；

图4为本申请实施例中的一种传感信号感知模块的结构示意图；

图5为本申请实施例中的另一种传感信号感知模块的结构示意图；

图6为本身申请实施例中多模态信息整合模块的工作原理示意图；

图7为本申请实施例所提供的一种基于多模态交互的虚拟实验方法的流程示意图；

图8为本申请实施例中操作者分别以正常速度和较快速度完成实验的统计结果示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为了更好地理解本申请，下面结合附图来详细解释本申请的实施方式。

实施例一

参见图1，图1为本申请实施例所提供的一种基于多模态交互的虚拟实验系统的结构示意图。由图1可知，本实施例中基于多模态交互的虚拟实验系统主要包括：输入层、感知与识别层、融合层以及应用层。

其中，输入层用于通过视觉通道采集人手骨骼节点的深度信息，通过触觉通道采集传感信号以及通过听觉通道采集语音信号，人手骨骼节点的深度信息包括：人手关节点坐标，传感信号包括：磁信号、光敏信号、触摸信号和震动信号。感知与识别层，用于对视觉通道和听觉通道的信息进行识别，以及对触觉通道的信息进行感知。融合层，用于根据感知与识别层的识别结果，分别对视觉通道、触觉通道和听觉通道的模态信息构建相应的向量集，以及，采用基于决策层面的多模态融合方法，在AR平台上对不同通道的向量集进行融合，其中，不同通道在一定时间段的状态组合构成一个状态向量，向量集中包括多个状态向量，模态信息包括：视觉通道、触觉通道以及听觉通道的信息和表达的状态。应用层，用于根据融合层的融合结果，采用语音导航、视觉显示以及触觉反馈的方式呈现实验过程和实验结果。

本申请实施例的虚拟实验系统在实际应用中的总体框架示意图可以参见图2。由图2可知，输入层中主要包括视觉通道、触觉通道和听觉通道，分别通过这三个通道采集到视觉信息、音频信号和传感信息，其中视觉通道主要采用Kinect的RGB摄像头和深度摄像头，Kinect RGB摄像头能获取真实世界的场景，用于后续构建AR环境，深度摄像头用于采集人手骨骼节点的深度信息。

进一步地，感知与识别层包括：视觉信息识别模块、传感信号感知模块和语音信号识别模块。

其中，视觉信息识别模块用于构建AR环境，在卷积神经网络中训练手势识别模型，以及根据输入层所捕获的人手骨骼节点的深度信息，利用手势识别模型进行手势识别。输入层通过视觉通道采集到真实世界的场景后，视觉信息识别模块根据该场景构建AR环境，便于后续在AR环境中利用训练后的手势识别模型与虚拟模型进行手势交互。视觉信息识别模块还通过人手骨骼节点的深度信息进行手势识别，将人手骨骼节点深度信息中的人手关节点坐标识别为不同的手势深度图，然后通过阈值对手势深度图进行分割，在卷积神经网络中训练手势识别模型，进行手势识别。本实施例中手势深度图主要包括：握拳手势深度图、五指张手势深度图、二指张手势深度图、二指握手势深度图、三指手势深度图以及三指握手势深度图。其中，握拳手势设定为触发震动反馈的条件。左手五指抓手势用于实验中下一步操作的导航手势，右手用于抓取、旋转、平移以及放下虚拟实验器材。且右手上绑定传感信号感知模块中的震动传感器，由于绑定有震动传感器，当右手抓取时，会有信息反馈至震动传感器触发其震动，有利于加强用户的操作感和融入感。

本实施例中的卷积神经网络可以采用Alexnet网络，Alexnet网络结构图可以参见图3所示。

传感信号感知模块用于利用磁传感器、光敏传感器、触摸传感器和震动传感器感知3D打印容器的位置和行为。

本实施例中传感信号感知模块有两种结构形式，分别参见图4和图5。图4为智能烧杯结构，主要包括：第一智能烧杯和第二智能烧杯，实验时第一智能烧杯和第二智能烧杯之间的距离≤20厘米，能够有效降低外界环境中的光源对光敏传感器的影响，有利于提高实验结果的准确性。由图4可知，第一智能烧杯中设置有第一光敏传感器、第二光敏传感器、第三光敏传感器、第四光敏传感器、磁传感器、第一触摸传感器和第二触摸传感器，第一光敏传感器设置于第一智能烧杯远离第二智能烧杯侧的顶部内壁上，第二光敏传感器、第三光敏传感器和第四光敏传感器从上往下依次均匀设置于第一智能烧杯的外壁上，磁传感器设置于第一智能烧杯靠近第二智能烧杯侧的外壁上，第一触摸传感器和第二触摸传感器均设置于第一智能烧杯外壁的下侧。第二智能烧杯中设置有磁性元件和光源，且磁性元件设置于第二智能烧杯靠近第一智能烧杯侧的的外壁上，使得磁性元件与磁传感器的相互作用结果更加准确和灵敏。光源设置于第二智能烧杯的顶部，且光源能够照射到第一光敏传感器、第二光敏传感器、第三光敏传感器和第四光敏传感器。

第一光敏传感器、第二光敏传感器、第三光敏传感器、第四光敏传感器、磁传感器、第一触摸传感器和第二触摸传感器分别与应用层的主控芯片通信连接，主控芯片与上位机通信连接，使得上位机能够及时通过各传感器和主控芯片获取到用户的操作信息，便于进行反馈和判断。第一光敏传感器、第二光敏传感器、第三光敏传感器和第四光敏传感器，用于根据光的强弱判断第一智能烧杯的倾倒状态和倾倒位置，磁传感器用于根据磁强度判断第一智能烧杯的相对位置，第一触摸传感器和第二触摸传感器，用于根据触感强弱判断虚拟液体的种类以及实验的开始与结束。

图5为智能指环结构的传感信号感知模块，由图5可知，智能指环中包括：圆形指环、震动传感器、第三触摸传感器、第四触摸传感器以及用于放置第三触摸传感器和第四触摸传感器的支撑件，震动传感器设置于圆形指环上，圆形指环通过线缆与应用层的主控芯片连接，震动传感器、第三触摸传感器和第四触摸传感器分别与主控芯片通信连接，主控芯片与上位机通信连接。其中震动传感器，用于根据手势行为反馈震动效果；第三触摸传感器用于表示实验的开始，第四触摸传感器用于表示实验的结束。为节省实验空间，本实施例中支撑件可以采用箱体结构，将主控芯片和线缆放置于箱体结构的支撑件内部。

本实施例中智能烧杯和智能指环结构的传感信号感知模块的工作过程和工作原理如下：

(1)以第一智能烧杯设置于第二智能烧杯的左侧为例，磁传感器放置在第一智能烧杯的右侧，对应的磁性元件放置在第二智能烧杯的左侧。当第二智能烧杯靠近第一智能烧杯时，磁力感应变强。计算感知到的磁信号的磁感应强度，通过反复实验得到磁力平均强度，如果磁力强度大于磁力平均强度则表达语义，接收信号为“1”。否则，表示状态不符，无法表达语义。1表示磁传感器。

(2)在第二智能烧杯右侧壁添加光源，在第一智能烧杯左上侧添加第一光敏传感器和第二光敏，位于光源可以照射到的位置，在第二智能烧杯附近外壁设置第三光敏传感器和第四光敏传感器。通过多次检测，计算光敏传感器感知光强度大小，通过反复实验得到光平均强度，如果当前的光强度大于光的平均强度则表达语义，接收信号为“2”，“3”，“4”，“5”。否则，表示状态不符，无法表达语义。2-5表示四个光敏传感器。

(3)在识别握拳手势后，返回00数据到震动传感器，如果接收不到，无震动状态，否则，当接收到此数据时，触发传感器震动。

(4)通过人手触摸第一触摸传感器和第二触摸传感器，计算感知到的触摸信号的触摸强度，通过反复实验得到触摸平均强度，如果当前的触摸强度大于触摸平均强度则表达语义，接收信号为“6”，“7”，“8”，“9”，否则，表示状态不符，无法表达语义。6-9表示智能烧杯结构中的两个触摸传感器和智能指环结构中的两个触摸传感器。

本实施例中的感知与识别层还包括语音信号识别模块，用于利用API关键词识别的方法识别实验过程中的语音，以及通过语音进行人机交互。

本实验系统在Unity平台下设计，语音信号识别模块可以选择现有的Windows语音识别API进行识别。语音通道作为辅助虚拟实验中人机交互的信息，通过借助Windows语音识别的API的关键词识别对中英文识别非常方便，并且实现利用简单的关键词与机器进行对话交互。其语音识别的过程如下：

1)在C#中添加UnityEngine.Windows.Speech调用该识别方法，并在Unity编辑器中设置“Edit->Project Settings->Player”，然后选择“Windows Store”标签，检查麦克风“Publishing Settings->Capabilities”。

2)在C#中定义字符串数组string[]，添加为中文或者英文任意关键词，并在unity的inspector里添加相应的关键词。

3)注册和处理OnPhraseRecognized事件，利用KeywordRecognizer()方法进行关键词识别。当给定关键词被识别时，将调用此事件。

4)在不同判断条件下进行调用上述事件进行关键词识别。

继续参见图1可知，本实施例的虚拟实验系统中还包括融合层，融合层主要包括向量集构建模块、多模态信息整合模块和MIDI算法模块。

其中，向量集构建模块，用于根据感知与识别层的识别结果，分别对视觉通道、触觉通道和听觉通道的模态信息构建相应的向量集。多模态信息整合模块，用于在AR平台上根据不同通道的模态信息所构成的触发条件，利用公式：

计算当前节点的系统状态，其中，系统状态包括：初始化、开始、结束、拿取、震动反馈、选择V、选择A、错误位置、正确位置、倾倒、切割、放下以及语音导航，e_n为节点，m_n为触发条件权重值，且当模态相交时，m_n∈{Model₁∩Model₂,Model₂∩Model₃,Model₁∩Model₃}，当模态相互独立时，m_n∈{Model₁,Model₂,Model₃}，Model₁∈{rh(1,2,3),lh(1,2,3)}，Model₂∈{sp(s₁,s₂,s₃,…s_n)}，Model₃∈{ls,rs(1,2,3,4),ts(1,2,3,4),ss}，Model₁为视觉通道的模态信息，Model₂为听觉通道的模态信息，Model₃为触觉通道的模态信息，rh为右手状态，lh为左手状态，sp为关键词，用于表达不同的状态，n为关键词的种类，rs表示光敏信号，ts表示触摸信号，ls表示磁信号，ss表示震动信号。MIDI算法模块，用于判断系统状态所表达的实验物体是否为语音导航的触发物体，且当系统状态所表达的实验物体为语音导航的触发物体时，进行当前状态的语音导航提示，以及根据语音提示进行下一步操作，否则，根据数据库确定触发物体匹配的语音提示词进行语音导航，直到系统状态所表达的实验物体为语音导航的触发物体为止，其中，数据库中预存有触发物体与语音提示词之间的映射关系。选择A表示选择真实容器，选择V表示选择虚拟容器。本实施例中的语音导航为一种系统播报的语音提示。

在虚拟场景中，不同时刻对应着不同的操作物体、操作状态和不同的多模态交互整合。不同的通道在相同时刻的状态组合构成一个状态向量，则设在同一时刻的任务状态和通道状态表示为(Tsk₁,Model₁,Model₂,Model₃)，即任务和模态之间的对应。为便于操作，本实施例中选择不同通道在一定时间段内的状态组合构成一个状态向量，时间段根据不同实验设定，不同的通道可以不同时输入，只要处于一定的时间段内即可，也构成状态向量。其中，Tsk_i为不同模态的输入对应的状态，Model_i分别为视觉、听觉和触觉的通道输入，即表示为触发条件。

根据视觉、听觉和触觉的感知和识别信息，建立一种不同模态的表达关系，Model₁表示手势通道，分为右手状态rh和左手状态lh；Model₂表示语音通道，识别不同的关键词sp，对应表达不同的状态；Model₃表示触觉通道，分别对电流信号(ls)、光敏信号(rs)、触觉信号(ts)和震动信号(ss)的感知结果进行表达，相同的信号感知表达在不同状态表达的语义也不相同。在虚拟实验场景中，本实施例利用三种手势状态进行手势操作，相应地，rh和lh包含三种状态。设置n种不同的关键词，rs和ts包含四种感知信息表达。

结合不同状态的特征向量与不同模态的感知表达信息，采用状态向量的表示方法。例如，左手五指抓手势出现多种器材，其表示向量为<Tsk₁,lh(2),sp₁>，右手选择虚拟物体的表示向量为<Tsk₂,rh(2),lh(1)>，用小刀切割钠块的表示向量为<Tsk₃,sp₂,ts(1)>。

本实施例中多模态信息整合模块的工作原理示意图可以参见图6。由图6可知，多模态信息整合模块不同节点之间有不同连线，节点表示当前触发条件下的状态，连线表示触发条件，触发条件由不同模态信息的表达构成。系统状态主要包括：初始化、开始、结束、拿取、震动反馈、选择V、选择A、错误位置、正确位置、倾倒、切割、放下以及语音导航。用户根据不同的操作，输入不同的触发条件，会输出不同的系统状态。模态信息之间的关系包括相交和独立两种形式，分别对应不同的触发条件权重值。当前节点的系统状态计算公式为：

例如：在识别左手抓取的手势时，需要语音同时配合，触发“拿取”状态，然后针对虚拟物体和真实的物体，我们通过识别右手的状态或接收的传感信号，判断选择的是真实的容器还是虚拟容器，如果选择虚拟容器，则返回到串口数据，触发震动传感的震动效果，然后，通过不同的输入信息，触发不同状态，可以对虚拟容器进行倾倒、切割和放下的操作。如果选择真实容器，判断真实容器的倾倒位置是否正确，如果是正确的，则语音提示倾倒正确，开始倾倒液体，否则，语音提示倾倒位置错误。最后，放下容器，返回初始化。

现以实际应用中的两个实验为例，说明本实施例中虚拟实验系统的使用方法。

实验一为虚拟浓硫酸稀释过程，该虚拟实验系统中的传感信号感知模块采用智能烧杯。该实验结合第一智能烧杯、第二智能烧杯、手势和语音三种输入形式。其中，智能烧杯的输入包含磁信号、触摸信号、光敏信号，手势包括右手和左手的手势识别。具体地，实验过程如下：

A1)感知触觉信号、手势识别和语音识别三个通道的信息。

将3D打印烧杯、真实手和虚拟模型三者建立一种虚实融合交互范式。本实验结合电流信号ls、光敏信号rs、触觉信号ts、Model₁和Model₂，真实手与虚拟物体的绑定，在真实场景中利用真实手触发虚拟烧杯运动。实现手持真实3D打印烧杯运动，实时感知运动的位置。

A2)基于多模态意图理解的导航式虚拟化学实验，包括倒水、浓硫酸稀释。

首先，我们借助Kinect对手势实时的跟踪和识别，确定手部姿态的位置。利用真实手与虚拟烧杯结合，不断触发烧杯运动，根据导航提示，在靠近3D烧杯时结合手势倾倒虚拟烧杯，完成虚拟烧杯往3d烧杯中倒水的实验。

其次，在浓硫酸稀释实验中，借助手势行为识别、语音识别和触觉感知，在AR下将真实烧杯和虚拟实验现象融合。通过位置判断，借助光敏信号的感知，判断倾倒位置是否正确。在位置正确的情况下，沿着3D烧杯的器壁通过触感传感信号和语音选择倒入浓硫酸溶液，并根据电流信号的改变率判断倾倒速度是否合适。如果速度过快，及时导航提示纠正错误操作。

实验二为钠和水反应实验，该虚拟实验系统中的传感信号感知模块采用智能指环。该实验主要借助手势、语音、震动传感和触觉传感四种输入信息，在真实手和虚拟容器的交互识别过程中，右手抓取虚拟容器，触发震动器震动。

B1)首先，初始化Kinect，不断获取手势深度图，识别左手手势和右手手势，左手握拳为取出虚拟容器，同时导航提示下一步的操作，右手握拳选择导航提示的虚拟容器，如果选择正确，继续当前状态的导航提示操作下一步，如果错误，状态发生改变，导航提示根据状态随之改变。

B2)左手拿出虚拟容器，语音导航提示“请选择镊子”，当右手选择错误时，会提示“是否确定当前选择”，语音“确定选择”，之后根据语音识别和当前虚拟物体，系统语音提示“请把酚酞试剂瓶放到桌上，并拿起胶头滴管往烧杯中滴入酚酞试剂”的操作步骤，根据提示进行下一步操作。

B3)通过触觉传感信号，用真实小刀切割虚拟钠块，当触摸触觉传感器时，反馈钠块切割的效果，

B4)通过比较小块钠和大块钠，验证钠和水反应的实验条件，选择小块钠放入等量的水中时，可以观察到反应生成气体，溶液变红等现象，选择大块钠时，可以观察到反应生成大量的热，发生爆炸。

实施例二

在图1-图6所示实施例的基础之上参见图7，图7为本申请实施例所提供的一种基于多模态交互的虚拟实验方法的流程示意图。由图7可知，本实施例中虚拟实验方法主要包括如下过程：

S1分别通过视觉通道、触觉通道和听觉通道，采集相应的视觉信息、传感信号以及语音信号，视觉信息包括：人手骨骼节点的深度信息，人手骨骼节点的深度信息包括：人手关节点坐标，传感信号包括：磁信号、光敏信号、触摸信号和震动信号。

S2：分别对视觉通道、触觉通道以及听觉通道的信息进行识别。

其中，视觉通道的信息识别方法，主要包括如下过程：

S201：构建AR环境。

S202：在卷积神经网络中训练手势识别模型。

具体地，步骤S202包括如下过程：

S2020：利用Kinect的深度摄像头获取人体骨骼节点的深度信息，人体骨骼节点的深度信息包括人体关节点的坐标。

S2021：判断人手关节点坐标是否大于设定的阈值。

本实施例中设定的阈值为关节点3cm距离。

如果大于设定的阈值，判定超出人手区域；

如果小于或等于设定的阈值，对阈值范围内的人手区域进行切割，获取像素为200*200的手势深度图。

S2022：按照训练集和测试集7:3的比例，将手势深度图分为训练集和测试集。

S2023：将训练集的手势深度图输入至AlexNet网络。

S2024：在AlexNet网络中，通过更新手势深度图的权重，利用ReLU函数提取训练集的手势深度图的手势深度特征。

S2025：对手势深度特征归一化，获取归一化后的手势深度特征。

S2026：利用分类器将所述归一化后的手势深度特征分为一个k维向量。

其中，k为训练集中全部手势深度图种类的数量，k为自然数，且k＞2。本实施中k取值为6。

S2027：根据k维向量，确定k类手势深度图中每一个类的概率。

S2028：依次取每一个类的最大值概率为当前类识别的概率。

S2029：根据所有类识别的概率，获取手势识别模型。

S203：根据所获取的人手骨骼节点的深度信息，利用手势识别模型，采用ARG算法进行手势识别。

本实施例在AR环境中，利用训练的手势识别模型与虚拟模型进行手势交互的过程如下：

1)在Kinect深度摄像头下，获得第n-1帧的手势深度图，输入到步骤S202训练的手势识别模型中，进行手势识别。

2)再次获取第n帧手势深度图，获取在不同时刻的两个关节点坐标S_n(θ_n)和S_n-1(θ_n-1)，其中，θ为Kinect下的深度三维坐标。

3)判断两个关节点坐标S_n(θ_n)和S_n-1(θ_n-1)是否相等。

4)如果相等，判定为当前识别的手势，否则，再次输入步骤S202训练的手势识别模型中进行手势识别。

5)假设θ＝(k_x,k_y,k_z)，根据手部关节点坐标在真实空间中的映射以及深度三维坐标，确定在Kinect下关节点坐标与虚拟场景之间的映射关系为：

其中，(k_x,k_y,k_z)是真实空间中获取的关节点坐标，(u_x,u_y,u_z)是Unity环境下的虚拟场景坐标，w是在关节点与虚拟场景的三维坐标对应的比例关系，(d_x,d_y,d_z)是在虚拟场景坐标的截距值。

6)判断右手握拳手势后，通过Kinect获得手部关节点的三维坐标P₁，设虚拟模型的三维坐标为P₂，则

P₂＝P₁ (3.3)

即虚拟模型跟随手部的移动而移动，虚拟模型的运动轨迹与手的运动轨迹一致。并将“00”数据返回到主控芯片触发震动器震动；

7)判断右手二指伸手势后，则系统呈现旋转当前选择的虚拟器材的效果；

8)判断右手五指伸手势后，则系统呈现放下当前选择的虚拟器材的效果；

9)判断左手握拳手势后，则系统界面出现选择的实验器材的提示框的效果；

10)判断为其他手势则为空，并返回步骤1)。

根据不同的传感信号感知模块的结构形式，触觉通道的信息进行识别的方法包括两种，一种识别方法应用于智能烧杯，另一种识别方法应用于智能指环。

应用于智能烧杯的触觉通信信息识别方法，包括如下过程：

S2101：获取平均磁力强度。

S2102：利用磁传感器计算当前磁信号的磁感应强度。

S2103：判断当前磁信号的磁感应强度是否大于平均磁力强度。

如果当前磁信号的磁感应强度大于平均磁力强度，执行步骤S2103：输出磁传感器的状态表达结果。

如果当前磁信号的磁感应强度小于等于平均磁力强度，执行步骤S2104：判定磁传感器的状态不符合当前的操作，不输出磁传感器的状态表达结果。

S2105：获取平均光强度。

S2106：利用第一光敏传感器、第二光敏传感器、第三光敏传感器和第四光敏传感器中的任一光敏传感器计算当前光强度。

S2107：判断当前光强度是否大于平均光强度。

如果当前光强度大于平均光强度，执行步骤S2108：输出任一光敏传感器的状态表达结果。

如果当前光强度大小于等于平均光强度，执行步骤S2109判定任一光敏传感器的状态不符合当前的操作，不输出任一光敏传感器的状态表达结果。

S2110：获取平均触摸强度。

S2111：利用第一触觉传感器和第二触觉传感器中的任一触觉传感器计算当前触摸信号的触摸强度。

S2112：判断当前触摸信号的触摸强度是否大于平均触摸强度。

如果当前触摸信号的触摸强度大于平均触摸强度，执行步骤S2113：输出任一触觉传感器的状态表达结果。

如果当前触摸信号的触摸强度小于等于平均触摸强度，执行步骤S2114：判定任一触觉传感器的状态不符合当前的操作，不输出任一触觉传感器的状态表达结果。

当然以上步骤S2101-S2114中包括对磁感应强度的判断、光强度的判断以及触摸信号的触摸强度的判断，这三种传感信号的判断顺序可以根据情况调整，不是固定顺序。

应用于智能指环的触觉通信信息识别方法，包括如下过程：

S2201：利用震动传感器判断当前手势是否为握拳手势。

如果是握拳手势，执行步骤S2202：触发震动传感器震动。

如果不是握拳手势，执行步骤S2203：不触发震动传感器震动。

S2204：当触觉通道采用智能指环时，获取平均磁力强度。

S2205：利用第三触觉传感器计算当前触摸信号的触摸强度。

S2206：判断当前触摸信号的触摸强度是否大于平均触摸强度。

如果当前触摸信号的触摸强度大于平均触摸强度，执行步骤S2207：输出第三触觉传感器的状态表达结果。

如果当前触摸信号的触摸强度小于等于平均触摸强度，执行步骤S2208：判定第三触觉传感器的状态不符合当前的操作，不输出第三触觉传感器的状态表达结果。

本实施例中对听觉通道的信息进行识别的方法，可以参见图1-图6所示的实施例一，在此不再赘述。

继续参见图7可知，分别对视觉通道、触觉通道以及听觉通道的信息进行识别之后，执行步骤S3：根据识别结果，采用基于决策层面的多模态融合方法，在AR平台上对视觉通道、触觉通道和听觉通道的模态信息所构建的相应向量集进行融合。

其中，不同通道在一定时间段内的状态组合构成一个状态向量，向量集中包括多个状态向量，模态信息包括：视觉通道、触觉通道以及听觉通道的信息和表达的状态。

S31：根据识别结果，分别对视觉通道、触觉通道和听觉通道的模态信息构建相应的向量集。

S32：在AR平台上根据不同通道的模态信息所构成的触发条件，利用公式：

计算当前节点的系统状态。

其中，系统状态包括：初始化、开始、结束、拿取、震动反馈、选择V、选择A、错误位置、正确位置、倾倒、切割、放下以及语音导航，e_n为节点，m_n为触发条件权重值，且当模态相交时，m_n∈{Model₁∩Model₂,Model₂∩Model₃,Model₁∩Model₃}，当模态相互独立时，m_n∈{Model₁,Model₂,Model₃}，Model₁∈{rh(1,2,3),lh(1,2,3)}，Model₂∈{sp(s₁,s₂,s₃,…s_n)}，Model₃∈{ls,rs(1,2,3,4),ts(1,2,3,4),ss}，Model₁为视觉通道的模态信息，Model₂为听觉通道的模态信息，Model₃为触觉通道的模态信息，rh为右手状态，lh为左手状态，sp为关键词，用于表达不同的状态，n为关键词的种类，rs表示光敏信号，ts表示触摸信号，ls表示磁信号，ss表示震动信号。

S33：判断Model₁、Model₂或者Model₃是否符合设定的触发条件。

如果符合设定的触发条件，执行步骤S34：判断当前节点的系统状态所表达的实验物体是否为语音导航的触发物体。

如果当前节点的系统状态所表达的实验物体是语音导航的触发物体，执行步骤S35：进行当前状态的语音导航提示，并根据语音提示进行下一步操作。

当前节点的系统状态所表达的实验物体不是语音导航的触发物体，执行步骤S36：根据数据库确定触发物体匹配的语音提示词进行语音导航，直到系统状态所表达的实验物体为语音导航的触发物体为止，数据库中预存有触发物体与语音提示词之间的映射关系。

如果不符合设定的触发条件，执行步骤S37：重新分别对视觉通道、触觉通道以及听觉通道的信息进行识别。即，重新执行步骤S2。

融合完毕后，执行步骤S4：根据融合结果，采用语音导航、视觉显示以及触觉反馈的方式呈现实验过程和实验结果。

进一步地，本实施例中的实验方法还包括步骤S5：对MIDI算法进行验证。

具体地，用户操作实验时，输入视觉、听觉和触觉信息，对三种模态信息进行感知和识别。其中，在手势识别过程中，把手势分为六类静态手势，包括：握拳、五指张、二指张、二指握、三指张、三指握，并依次记为gesture1-gesture6。每一种手势的识别率如下表1所示：

表1手势识别率

为验证MIDI算法，以判断用户的每个状态是否能成功理解，正确反馈当前状态的导航提示，对12个状态分别进行测试并统计成功理解的结果。组织20名有化学学习经验的操作者进行分别进行浓硫酸稀释实验和钠和水反应实验。操作者在操作过程中，记录人员需记录20名操作者以自身正常速度、较快速度，完成上诉要求系统“成功”理解的状态，即系统可以正常运行，不会出现延迟。设12个实验状态分别为E1-E12。其实验的要求如下：

1)每名操作者分别以正常速度和较快速度依次完成十二个状态的操作；

2)每名操作者实验2次，记录人员控制每次的时间间隙，不要太长；

3)导航提示情况下按自身正常反应速度操作；

4)语音时按自身正常反应说话。

实验结果示意图如图8所示，由图8可知，20名操作者分别用正常速度和较快速度完成以上要求的实验，两种情况下操作者成功完成每个状态的次数为820次，成功表达每个状态的操作，系统对每个状态“成功”理解的效率为85.42％，则说明系统基本上完成智能导航提示。而在正常速度下，操作者成功完成每个状态的次数为438次，成功理解的效率为91.25％，可以看出正常速度的成功率比快速的成功率高很多。因此，本实施例所提出的手势识别算法和MIDI算法是合理的，该方法融合不同通道的信息，进行用户意图的理解，完成导航提示，增强了用户和虚拟智能实验系统的交互性。

该实施例未详细描述的部分，可以参见图1-图6所示的实施例一，两个实施例之间可以互相参照，在此不再赘述。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于多模态交互的虚拟实验系统，其特征在于，所述实验系统包括：输入层、感知与识别层、融合层以及应用层；

所述融合层，用于根据所述感知与识别层的识别结果，分别对视觉通道、触觉通道和听觉通道的模态信息构建相应的向量集，以及，采用基于决策层面的多模态融合方法，在AR平台上对不同通道的所述向量集进行融合，其中，不同通道在一定时间段内的状态组合构成一个状态向量，向量集中包括多个状态向量，所述模态信息包括：视觉通道、触觉通道以及听觉通道的信息和表达的状态；

2.根据权利要求1所述的一种基于多模态交互的虚拟实验系统，其特征在于，所述感知与识别层包括：

3.根据权利要求1所述的一种基于多模态交互的虚拟实验系统，其特征在于，所述融合层包括：

MIDI算法模块，用于判断所述系统状态所表达的实验物体是否为语音导航的触发物体，且当所述系统状态所表达的实验物体为语音导航的触发物体时，进行当前状态的语音导航提示，以及根据语音提示进行下一步操作，否则，根据数据库确定所述触发物体匹配的语音提示词进行语音导航，直到所述系统状态所表达的实验物体为语音导航的触发物体为止，其中，所述数据库中预存有触发物体与语音提示词之间的映射关系。

4.根据权利要求2所述的一种基于多模态交互的虚拟实验系统，其特征在于，所述传感信号感知模块包括：第一智能烧杯和第二智能烧杯，实验时所述第一智能烧杯和第二智能烧杯之间的距离≤20厘米；

所述第二智能烧杯中设置有磁性元件和光源，且所述磁性元件设置于第二智能烧杯靠近第一智能烧杯侧的外壁上，所述光源设置于第二智能烧杯的顶部，且所述光源能够照射到所述第一光敏传感器、第二光敏传感器、第三光敏传感器和第四光敏传感器。

5.根据权利要求2所述的一种基于多模态交互的虚拟实验系统，其特征在于，所述传感信号感知模块为智能指环，所述智能指环中包括：圆形指环、震动传感器、第三触摸传感器、第四触摸传感器以及用于放置第三触摸传感器和第四触摸传感器的支撑件，所述震动传感器设置于所述圆形指环上，所述圆形指环通过线缆与应用层的主控芯片连接，所述震动传感器、第三触摸传感器和第四触摸传感器分别与所述主控芯片通信连接，所述主控芯片与上位机通信连接；

所述震动传感器，用于根据手势行为反馈震动效果；

所述第三触摸传感器，用于表示实验的开始；

所述第四触摸传感器，用于表示实验的结束。

6.一种基于多模态交互的虚拟实验方法，其特征在于，所述实验方法应用于权利要求1-5中任一所述的实验系统，所述实验方法包括：

根据识别结果，采用基于决策层面的多模态融合方法，在AR平台上对视觉通道、触觉通道和听觉通道的模态信息所构建的相应向量集进行融合，其中，不同通道在一定的时间段内的状态组合构成一个状态向量，向量集中包括多个状态向量，所述模态信息包括：视觉通道、触觉通道以及听觉通道的信息和表达的状态；

7.根据权利要求6所述的一种基于多模态交互的虚拟实验方法，其特征在于，对所述视觉通道的信息进行识别的方法，包括：

构建AR环境；

在卷积神经网络中训练手势识别模型；

8.根据权利要求6所述的一种基于多模态交互的虚拟实验方法，其特征在于，对所述触觉通道的信息进行识别的方法，包括：

利用磁传感器计算当前磁信号的磁感应强度；

判断当前磁信号的磁感应强度是否大于平均磁力强度；

如果是，输出磁传感器的状态表达结果；

获取平均光强度；

判断当前光强度是否大于平均光强度；

如果是，输出所述任一光敏传感器的状态表达结果；

获取平均触摸强度；

判断当前触摸信号的触摸强度是否大于平均触摸强度；

如果是，输出所述任一触觉传感器的状态表达结果；

9.根据权利要求6所述的一种基于多模态交互的虚拟实验方法，其特征在于，对所述触觉通道的信息进行识别的方法，包括：

利用震动传感器判断当前手势是否为握拳手势；

如果是握拳手势，触发震动传感器震动；

否则，不触发震动传感器震动；

当所述触觉通道采用智能指环时，获取平均磁力强度；

利用第三触觉传感器计算当前触摸信号的触摸强度；

判断当前触摸信号的触摸强度是否大于平均触摸强度；

如果是，输出所述第三触觉传感器的状态表达结果；

10.根据权利要求6所述的一种基于多模态交互的虚拟实验方法，其特征在于，所述根据识别结果，采用基于决策层面的多模态融合方法，在AR平台上对视觉通道、触觉通道和听觉通道的模态信息所构建的相应向量集进行融合，包括：

判断Model₁、Model₂或者Model₃是否符合设定的触发条件；