CN111665941B

CN111665941B - 一种面向虚拟实验的多模态语义融合人机交互系统和方法

Info

Publication number: CN111665941B
Application number: CN202010509144.5A
Authority: CN
Inventors: 冯志全; 李健; 杨晓晖; 徐涛
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2020-06-07
Filing date: 2020-06-07
Publication date: 2023-12-22
Anticipated expiration: 2040-06-07
Also published as: CN111665941A

Abstract

本发明涉及一种面向虚拟实验的多模态语义融合人机交互系统和方法，包括交互信息集成模块，还包括交互信息获取模块、交互意图推理模块和交互任务直行模块，其中，所述交互信息模块采用多模态融合模型来准确识别操作者的真实意图，并将获取到的信息提供给交互意图推理模块；所述交互意图推理模块根据手势语义和语言语义结合场景当前的交互情景来识别用户的交互意图，预测潜在的交互行为；所述交互任务执行模块根据交互意图推理模块预测的交互动作，生成用户期望的实验动作，生成响应的实验效果，返回对应的操作反馈，最后，实验效果和反馈通过不同的通道输出给用户。本发明解决了当下虚拟实验中面临的交互困难的问题。

Description

一种面向虚拟实验的多模态语义融合人机交互系统和方法

技术领域

本发明涉及虚拟现实技术领域，尤其涉及一种用于虚拟实验的人机交互方法，具体是指一种面向虚拟实验的多模态语义融合人机交互方法。

背景技术

虚拟实验利用虚拟现实技术和可视化技术，通过对相关理论知识、操作场景的可视化表达和人际交互分析，增强了学习者在虚拟环境中的沉浸感[1]。虚拟现实技术可以将一些真实实验中比较抽象的如物理实验中的，以及那些因为材料昂贵或者具备一定操作危险而难以实施的实验，通过虚拟现实技术进行再现，让每一个学习者都能够通过观察虚拟的实验现象，了解真实的实验原理，将本身抽象的实验概念变成可以操作的实验过程。此外，虚拟实验解决了实际的实验教学活动中，存在的设备更新慢，实验器材损坏导致实验结果差距太大，一堂实验教学课中有多组学生在同时实验，这就导致有限的教育资源满足不了所有学生及时得到正确指导的需求，实验过程受阻降低学生积极性等问题。虚拟实验利用前沿打破了传统实验的局限性，拓展了学习者的认知范围，不仅可以模拟真实实验现象，还能够增强现实实验中不好观察甚至是无法观察的现象。

在人机交互日益发展的基础上，虚拟实验的交互方式也从开始的二维网页式交互逐渐发展到三维立体的交互方式，然而现在虚拟实验的交互方式仍然存在很多问题，通过鼠标键盘操作的Web类虚拟实验，输入通道只用两种且全部是手部通道，用户手部的交互负荷太高。NoBook设计的Pad版虚拟实验虽然简化了操作但还是单一的触控操纵，没有从本质上解决这一问题，此外二维的交互界面在操纵感以及实验效果呈现上都还存在着不足。利用虚拟现实技术设计的虚拟实验大部分都是通过手持设备来对场景中的虚拟物体进行操作，而真实的实验是需要学习者用双手进行实验的，这就导致了无法规范化操作者的实验动作，学习者无法进行真实实验的操作从而操作体验下降。此外，现有的虚拟实验都是单一的视觉通道反馈信息，操作者只能通过视觉通道获取信息，用户视觉通道负荷太高。单一的反馈通道也造成了，虚拟实验中的手眼不一致问题无法得到有效的解决办法，造成交互效率下降。而且在虚拟实验中单一的反馈通道使学习者操作错误时无法及时的获取实验指导，现有的交互方式已经很难满足当前虚拟实验交互的要求了。而多通道人机交互更加符合人的交互模式，被认为是一种更加自然的人机交互方式。它考虑了多种新型的交互方式，如手势、语音、眼动等，允许多个通道同时进行输入，通过一定的方法对多个通道的信息进行整合，并能够给用户多个通道的信息反馈。

发明内容

本发明针对现有技术的不足，提供了一种能够实现多个通道信息整合的面向虚拟实验的多模态语义融合人机交互方法。

本发明是通过如下技术方案实现的，首先提供了一种面向虚拟实验的多模态语义融合人机交互方法，包括交互信息集成模块，还包括交互信息获取模块、交互意图推理模块和交互任务执行模块，其中，

所述交互信息集成模块将虚拟对象和实验操作知识信息集成于虚拟环境中并为交互意图推理模块提供数据基础，包括主动对象、交互行为知识规则和被动对象；

所述交互信息获取模块采用多模态融合模型来准确识别操作者的真实意图，所述多模态融合模型可获取的数据包括用户手势运动数据和语音数据，并将获取到的信息提供给交互意图推理模块，所述交互信息获取模块采用；

所述交互意图推理模块根据手势语义和语言语义结合场景当前的交互情景来识别用户的交互意图，预测潜在的交互行为；

所述交互任务执行模块根据交互意图推理模块预测的交互动作，生成用户期望的实验动作，生成响应的实验效果，返回对应的操作反馈，最后，实验效果和反馈通过不同的通道输出给用户；

所述交互信息集成模块将虚拟对象之间的交互行为与人与机器之间的交互行为建立映射关系，从而营造出具有交互行为信息的虚拟环境，以支持正在执行中的用户交互意图推理和对象交互行为执行；

其特征在于，采用所述多模态融合模型获取用户语义包括以下步骤：

a.获取手势语义：

确定手势所指的主动对象(GA)：当虚拟手抓着或操纵着其他虚拟物体时主动对象转换为被操纵的物体,

在虚拟环境中用户想要去操作某个虚拟物体的概率GP_i可以用下面的公式表示：

其中θ_i是主动对象运动方向与主动对象与第i个虚拟物体之间向量的夹角，d_i为主动对象与第i个虚拟物体之间距离，主动对象与其他虚拟物体之间的关系，最终GP_i表示的就是主动对象想要操作第i个虚拟物体的概率；

b.获取语音语义：

获取用户语音输入后基于word2vector模型计算分割部分与虚拟实验场景中每个主动对象、被动对象和交互动作的相似度：VA_i，VP_i，VI_i，

c.语义融合：

虚拟实验场景中存在m个主动对象，将每一帧的手势主动对象进行独热编码，每一帧的手势主动对象都用一个m维向量表示，t时刻手势和语音之间的相关性λ以及手势所指的主动对象GA用下面的式子表示：

GA＝λ·M (5)

其中μ＝0，δ²＝10，t的取值范围为(-31,30)，λ是一个1x60的矩阵保存每一帧手势与语音之间的相关度，M为60xm维矩阵记录的是60帧的手势输入的独热编码，GA中每一维的数值表示着手势语义所指虚拟场景中第i个主动对象的概率GAi，i＝1,2,3...m，被动对象GP以及交互动作GI可以通过相同的原理得到，融合后的用户语义分别可以通过下面的式子确定：

GA＝max(GA_i)i＝1,2,...,m (6)

P＝max(GP_i+VP_i)i＝1,2,...,m (7)

I＝max(GI_i+VI_i)i＝1,2,...,m (8)

其中GA，P，I，分别表示融合后用户所指的主动对象、被动对象和交互动作即为融合后的交互语义。

作为优选，所述交互意图推理模块在交互管理过程采用有限状态自动机，通过确定主动对象、被动对象和交互动作最终执行交互任务。

采用以上方案后，本发明采用手势和语音双通道进行交互，在使用时分别获取手势语义和语音语义，然后进行语义融合得到融合后的语义并进行交互意图推理后执行交互任务。本发明解决了当下虚拟实验中面临的交互困难的问题；同时，提出了一种在语义层的多模态融合策略脱离了现在依靠深度学习的多模态融合对数据的依赖；此外，通过理解用户真正的交互意图的方式能够使虚拟实验系统变得更加智能，使系统能够指导学生进行合理的操作，更好的帮助学生完成实验激发学习兴趣。

附图说明

图1为本发明一种面向虚拟实验的多模态语义融合人机交互系统的整体系统框架结构示意图；

图2为主动对象与其他虚拟物体的位置关系示意图；

图3为手势与语音时间约束示意图；

图4为有限状态自动机多模态用户意图推理示意图；

图5为虚拟实验平台场景一示意图；

图6为虚拟实验平台场景二示意图；

图7为手势语义和语音语义的时间相关性示意图；

图8为实验完成时长曲线图；

具体实施方式

为能清楚说明本发明方案的技术特点，下面结合附图，并通过具体实施方式，对本方案进一步阐述。

如图1中所示，一种面向虚拟实验的多模态语义融合人机交互系统，包括交互信息集成模块，还包括交互信息获取模块、交互意图推理模块和交互任务执行模块，其中，所述交互信息集成模块将虚拟对象和实验操作知识信息集成于虚拟环境中并为交互意图推理模块提供数据基础，包括主动对象、交互行为知识规则和被动对象；所述交互信息获取模块采用多模态融合模型来准确识别操作者的真实意图，所述多模态融合模型可获取的数据包括用户手势运动数据和语音数据，并将获取到的信息提供给交互意图推理模块，所述交互信息获取模块采用；

所述交互意图推理模块根据手势语义和语言语义结合场景当前的交互情景来识别用户的交互意图，预测潜在的交互行为；所述交互任务执行模块根据交互意图推理模块预测的交互动作，生成用户期望的实验动作，生成响应的实验效果，返回对应的操作反馈，最后，实验效果和反馈通过不同的通道输出给用户。

根据前述的一种面向虚拟实验的多模态语义融合人机交互系统，本实施例结合常见虚拟实验中虚拟物体间的交互行为，对面向虚拟实验的多模态语义融合人机交互方法做进一步阐述。

虚拟实验中交互信息集成将虚拟对象之间的交互行为与人与机器之间的交互行为建立映射关系，从而营造出具有交互行为信息的虚拟环境，以支持正在执行中的用户交互意图推理和对象交互行为执行。

在虚拟环境中，虚拟物体的种类和数量都是有限的，每个虚拟物体的功能决定了自己与其他虚拟物体之间的交互行为，同时也限制了用户的交互动作作用在虚拟物体上的交互行为。我们例举了虚拟实验中几种常见的虚拟物体之间的交互行为之间的关系，如表1中所示：

表1交互信息集成

从上表中可以看出，在虚拟实验中如果能够确定主动对象和被动对象，那么由于它们本身的功能属性，其相互之间的交互行为也会被限制在某几个固定的动作。接下来就是确定人的交互意图如何映射于虚拟物体之间的交互行为。

本实施例中，建立一种手势和语音的多模态融合模型来准确识别操作者的真实意图，以此来提高交互自然性，消除操作歧义，降低用户的操作负荷。通过交互信息的集成，将两个通道的信息在语义层面进行表达，每个通道的信息都可以分割出主动对象、被动对象和交互动作，采用所述多模态融合模型获取用户语义包括以下步骤，

a.获取手势语义：

其中θ_i是主动对象运动方向与主动对象与第i个虚拟物体之间向量的夹角，d_i为主动对象与第i个虚拟物体之间距离，主动对象与其他虚拟物体之间的关系，如图2总所示，最终GP_i表示的就是主动对象想要操作第i个虚拟物体的概率；通过对获取到的手势图像利用深度学习技术[5]进行手势识别，最终能够得到每一帧手势图像对应类型的置信度：GI_i。真实人手的手势类型对应于虚拟场景中的交互动作，至此，用户的手势语义就可以完整的表达出来；

b.获取语音语义：

利用科大讯飞语音识别SDK直接识别获取到的用户语音输入。语音通道也需要分割出主动对象、被动对象和交互动作。在word2vector模型的基础上考虑中文句法的结构特性[6]，本实施例中借助哈尔滨工业大学语言平台LTP[7]帮助将识别出的中文语句分割出主动对象、被动对象和交互动作。例如语音“用酒精灯加热圆底烧瓶”通过分割之后主动对象为“酒精灯”，被动对象为“圆底烧瓶”，交互动作为“加热”。然后基于word2vector模型计算分割部分与虚拟实验场景中每个主动对象、被动对象和交互动作的相似度：VA_i，VP_i，VI_i；

c.语义融合：

由于两种语义产生的频率存在很大的差别，在虚拟实验系统运行的每一帧中都会产生手势语义，而语音语义只有用户产生语音输入并识别分割完后才会产生。这就造成了两种通道时间上的异步性，也需要我们确定究竟哪一帧的手势语义与新产生的语音语义进行对应。

由于手势语义是根据视频图像经过计算逐帧产生的，在手势操作的过程中可能会存在丢帧或者是有噪声数据的影响从而导致手势意图识别错误。如果简单的选择语音意图产生前一帧计算出的手势语义或者后一帧计算出的手势语义可能识别的并非用户想要表达的手势语义，因此并不能以某一帧的手势语义来断定用户真正的意图。

在实验部分我们可以看出，用户手势语义和语音语义并不是同时产生的，它们产生的顺序额是随机的。然而可以看到手势语义产生的时间总是在语音语义产生的1S内产生的，而且手势语义集中产生在靠近语音语义产生的时间点。因此，我们对手势和语音进行了时间上的约束，如图3所示，我们需要一个时间阈值T作为判断T时段内每一帧的手势是否和真实手势有关，若手势帧不在范围内则其对此时段内的用户真实操作意图不造成影响，反之在T时段内的手势帧都与用户的真实操作意图有关。在本文中我们将T取为2S，由语音产生前1S与产生后1S组成，即在视觉传感器设备参数为30fps的条件下，那么T时段内的操作意图为60个，BI0为系统刚开始运行第一帧的操作意图，BIn为系统运行结束时最后一帧的操作意图，BIi为T内的第一帧操作意图，t＝59。

以手势主动对象为例，虚拟实验场景中存在m个主动对象，将每一帧的手势主动对象进行独热编码，每一帧的手势主动对象都用一个m维向量表示，t时刻手势和语音之间的相关性λ以及手势所指的主动对象GA用下面的式子表示：

GA＝λ·M (5)

其中μ＝0，δ²＝10，t的取值范围为(-31,30)，λ是一个1x60的矩阵保存每一帧手势与语音之间的相关度，M为60xm维矩阵记录的是60帧的手势输入的独热编码，GA中每一维的数值表示着手势语义所指虚拟场景中第i个主动对象的概率GAi，i＝1,2,3...m。被动对象GP以及交互动作GI可以通过相同的原理得到。

融合后的用户语义分别可以通过下面的式子确定：

GA＝max(GA_i)i＝1,2,...,m (6)

P＝max(GP_i+VP_i)i＝1,2,...,m (7)

I＝max(GI_i+VI_i)i＝1,2,...,m (8)

所述交互意图推理模块在交互管理过程采用有限状态自动机，通过确定主动对象、被动对象和交互动作最终执行交互任务，如图4中所示，其中语音信息、视频信息和虚拟场景知识作为输入信息，圆圈代表系统状态，在当前状态下系统根据不同的条件进入不同的系统状态。系统会先判断手势所指的主动对象和语音所指的手势对象是否相同，如果不相同则进行场景知识推理，判断用当前应该进行的步骤，返回相应的语音提示给用户进行操作指导；如果相同则可以确定当前状态下的主动对象。接下来判断融合出的被动对象语义的置信度P是否大于等于阈值t，如果条件不成立则再次进入场景知识推理，给出相应的语音提示；如果条件成立则确定被动对象。然后判断主动对象和交互对象之间是否存在交互困难，交互困难是指主动对象与被动对象之间存在遮挡或距离问题无法直接进行操作，如果存在交互困难则系统会主动进行场景转换降低用户的交互难度；最后判断融合出的交互动作语义的置信度是否大于等于阈值t，如果条件成立则确定交互动作完成交互行为；如果不成立则再次进行场景知识推理，返回合适的语音提示指导用户操作。

另外，本实施例还通过如下实验验证了实际效果，具体如下：

本文的实验主机CPU为Intel(R)Core(TM)i5-6500，主机频率3.2GHz，内存8GB；实验平台运行环境是vs2013；三维实验场景用Unity创建；Kinect用来获取人手信息；一个麦克风用于接收用户的语音输入；耳机用来输出系统的反馈信息。

实验效果

搭建的虚拟实验平台如图5和图6中所示，图5中用户虚拟手在场景中漫游，当检测到用户输入语音“抓取酒精灯”时，系统确定主动对象为虚拟手、交互动作为抓取以及被动对象为酒精灯，在图5中可以看出酒精灯被烧杯遮挡，用户从视觉上无法直接判断酒精灯位置，因此产生交互困难，此时场景会进行主动转换如图6所示，系统视角主动变化使酒精灯处于不被遮挡的位置，方便用户进行操作。

可以看出，采用多模态语义融合人机交互模型能够有效的融合手势和语音信息，确定用户的交互意图，并且通过检测用户存在的交互困难，主动的进行场景转换降低用户的交互难度。

试验评价

为探究手势语义和语音语义在时间上的相关性，邀请了20位大学生进行实验，让每位实验者做一个手势动作并且用语音说出动作名称，分别记录识别出手势动作和识别出动作名称的时间。每位实验者进行15次实验，最终的实验结果如下图7所示：

其中横轴表示的是相对时间，原点表示的是识别出语音的时刻，负坐标表示在识别出语音之前识别出了手势，正坐标表示识别出语音之后才识别出手势。竖坐标表示在某个时间段识别出手势的次数。可以看到手势和语音之间的相关性是一种高斯分布的关系。通过实验可以确定3.2节中的T＝2s，μ＝0，δ²＝10。

为了验证融合模型的有效性，在虚拟化学实验平台下进行验证，我们对10位试验者的虚拟化学实验过程进行了观察，让每位试验者进行5次完整虚拟化学实验，统计实验过程中在语音意图识别正确的情况下系统得到正确反馈的次数，最终的实验结果如表2所示：

表2正确反馈统计

总试验次数	有效反馈次数	正确反馈次数	正确率
				50	186	173	93.01％

在总共50次完整的虚拟实验过程中，试验者语音意图识别正确的情况下有效的反馈次数为186次，其中正确的反馈次数为173次，正确率为93.01％。从实验结果看出，所设计的融合交互模型能够较为准确的给予用户操作指导。

为了进一步评估多模态融合交互模型是否能够达到用户真正的实验需求，将其与NoBook虚拟平台和真实实验在操作效率和用户体验两个方面进行全面的比较。为保证对比实验的有效性，三种实验方式都需要选择同一个实验进行比较这里我们选择的是“氯气制备”。首先，邀请了20名实验者进行实验，所有实验者本身就具备实验基础知识已经能够熟练的完成真实实验。每位实验者用三种实验方式分别完成一次完整的实验，记录完成实验所用的时间如图8所示，横轴是实验者的编号，纵轴是完成一次实验花费的时间，三种实验方式花费的时间用不同的颜色区分。

从实验结果可以看出，多模态交互模型的交互效率要明显优于传统的实验和NoBook虚拟实验。一方面这是因为虚拟化学实验加快了某些实验现象产生的速度，另一方面是由于运用多模态交互模型可以理解用户交互图，根据交互意图系统能够给予相应的语音提示或者降低在虚拟场景中用户存在的交互困难，提示用户进行正确的操作改善用户的交互方式。

最后，还应说明，上述举例和说明也并不仅限于上述实施例，本发明未经描述的技术特征可以通过或采用现有技术实现，在此不再赘述；以上实施例及附图仅用于说明本发明的技术方案并非是对本发明的限制，参照优选的实施方式对本发明进行了详细说明，本领域的普通技术人员应当理解，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换都不脱离本发明的宗旨，也应属于本发明的权利要求保护范围。

还应说明，本发明中引用的文献介绍如下：

[1]Ruben H,Luis T,Daniel G,Francisco JC,Enrique H,Sebastian D.Virtualand remote labs in education:A bibliometric analysis[J].Computers

&Education,2016,98.

[2]蒋宁,李美凤.智慧教育环境下的知识可视化设计与应用研究[J].中国教

育信息化,2018(05):66-71.

[3]Yang M,Tao J.Intelligence methods of multi-modal informationfusion in human-computer interaction[J].Scientia Sinica,2018.

[4]Lazar J K,Barbosa S D J.Introduction to Human-Computer Interaction[C].Extended Abstracts of the Chi Conference.ACM,2018.[5]Peng M,Wang C,ChenT.Attention Based Residual Network for Micro-Gesture Recognition[C].2018 13thIEEE International Conference on Automatic Face&Gesture Recognition(FG 2018).IEEE,2018.

[6]李晓,解辉,李立杰.基于Word2vec的句子语义相似度计算研究[J].计算

机科学,2017,044(009):256-260.

[7]Wanxiang Che,Zhenghua Li,Ting Liu.LTP:A Chinese LanguageTechnology Platform[C].In Proceedings of the Coling

2010:Demonstrations.2010.08,pp13-16.

Claims

1.一种面向虚拟实验的多模态语义融合人机交互方法，包括交互信息集成模块，还包括交互信息获取模块、交互意图推理模块和交互任务执行模块，其中，

a.获取手势语义：

b.获取语音语义：

c.语义融合：

GA＝λ·M (5)

GA＝max(GA_i) i＝1,2,...,m (6)

P＝max(GP_i+VP_i) i＝1,2,...,m (7)

I＝max(GI_i+VI_i) i＝1,2,...,m (8)

2.根据权利要求1所述的一种面向虚拟实验的多模态语义融合人机交互方法，其特征在于，所述交互意图推理模块在交互管理过程采用有限状态自动机，通过确定主动对象、被动对象和交互动作最终执行交互任务。