CN112099633A

CN112099633A - 一种多模态感知的智能实验方法及装置

Info

Publication number: CN112099633A
Application number: CN202010977728.5A
Authority: CN
Inventors: 冯志全; 袁杰
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-18

Abstract

本发明公开一种多模态感知的智能实验方法及装置。根据实验内容构建实验意图集；建立语音意图数据库；获取语音信息，通过计算语音信息与所述语音意图数据库中语音数据的相似度，取相似度最大的语音数据所对应的所述实验意图集中元素作为语音目标意图；获取触觉信息，根据具体的实验过程确定所述触觉信息所反映的触觉目标意图；通过多模态信息融合来融合所述语音目标意图和触觉目标意图获取目标意图；对所述目标意图进行信任度评价，如果信任度评价符合要求，执行所述目标意图对应的实验路径进入下一个实验情节，如果信任度评价不符合要求，请求用户增强或者补充相应信息；对实验情节分析评价。本发明能准确获取用户意图，并根据意图进行实验。

Description

一种多模态感知的智能实验方法及装置

技术领域

本发明涉及智能实验领域，尤其涉及一种多模态感知的智能实验方法及装置。

背景技术

随着科技的日益发展教学手段也日益进步，传统的化学学习方式离不开化学实验，而随着科技的进步社会的发展，计算机等辅助教学设备进入课堂，通过计算机进行辅助行的实验成为一种日益增长的需求。

现有的技术中，一般的模拟往往仅设置有正确实验过程的指导，学生进行实验时按照知道进行实验，通过键盘鼠标控制正确完成实验过程，实验过程中中体验性较差，使得参与模拟实验的学生有时候往往无法真正的理解实验的原理内容。

发明内容

本发明提供一种多模态感知的智能实验方法及装置，旨在解决现有技术中仅设置单一正确实验过程的实验模拟手段仅仅为学生提供机械的模仿，采用这种模拟方式让学生来学习，造成学生对实验理解不深的问题。

为实现上述目的，本发明提供一种多模态感知的智能实验方法，包括：

根据实验内容构建实验意图集；

建立语音意图数据库，所述语音数据库存储语音数据，所述语音数据为所述实验意图集中元素的语音表达；

获取语音信息，通过计算语音信息与所述语音意图数据库中语音数据的相似度，取相似度最大的语音数据所对应的所述实验意图集中元素作为语音目标意图；

获取触觉信息，根据具体的实验过程确定所述触觉信息所反映的触觉目标意图；

通过多模态信息融合来融合所述语音目标意图和触觉目标意图获取目标意图；

对所述目标意图进行信任度评价，如果信任度评价符合要求，执行所述目标意图对应的实验路径进入下一个实验情节，如果信任度评价不符合要求，则形成所述目标意图的触觉目标意图的概率和语音目标意图的概率与设定值比较，判断触觉信息和语音信息是否缺少或不完整，如果缺少或者不完整则请求用户增强或者补充相应信息。

优选地，所述实验路径和所述实验情节内容为：

从一个实验过程提取若干实验情节，所述实验情节构成实验情节集p_ex，p_ex＝{p₁，p₂，p₃，……p_i}，其中，ex表示不同的实验，其中，x<＝w，p₁，p₂，p₃，……p_i则表示某一实验中的实验情节；

针对每个所述实验情节根据实验相关知识以及理论规则创建实验路径R，R_j＝{R₁，R₂，R₃，……R_n}，其中j<＝i表示，R₁，R₂，R₃，……R_n则表示某一实验情节中的实验路径。

优选地，根据实验内容构建实验意图集通过：针对每个所述实验路径来创建实验意图，由所有的所述实验意图组成实验意图集。

优选地，通过计算语音信息与所述语音意图数据库中语音数据的相似度，取相似度最大的语音数据所对应的所述实验意图集中元素作为语音目标意图包括：

采用word2vec训练词向量模型；

然后使用所述词向量模型将用户的语音信息和当前实验情节中的语音数据库中的语音数据转化为词向量；

通过计算两者的词向量之间的余弦相似度，取余弦相似度最大的结果，

而结果中语音数据所对应的所述实验意图集中元素作为语音目标意图，公式如下：

I_a＝SaF(Aud,P_i,V_ex)＝argmax(cos(Aud·(V_ex|P_i)))其中，Aud为所述语音信息的词向量，(V_ex|P_i)为所述语音数据的词向量。

优选地，根据具体的实验过程确定所述触觉信息所反映的触觉目标意图包括：

获取接收触觉信息时的实验情节P_i、实验意图集I_z和触觉信息Tac；

将用户触觉信息、实验意图集和实验情节输入触觉信息转换函数TicF(Tac,P_i,I_z)；

通过所述触觉信息转换函数识别触觉信息获取所述触觉目标意图I_t，其中I_t＝TicF(Tac,P_i,I_z)＝Tac∩(I_z|P_i)。

优选地，多模态信息融合来融合所述语音目标意图和触觉目标意图获取目标意图包括：

获取所述触觉目标意图和所述语音目标意图；

将所述触觉是通过多模态信息融合函数来实现的，所述多模态信息融合函数的公式如下：

其中，α为加权系数，α＝0.5。

优选地，对所述目标意图进行信任度评价包括：

将所述目标意图的概率与设定的第一阈值比较；

如果大于所述第一阈值则执行所述目标意图对应的实验路径进入下一个实验情节；

如果小于所述第一阈值则执行以下步骤：

将语音目标意图的概率与第二阈值比较，如果小于第二阈值则主动提示用户补充语音信息；

将触觉目标意图的概率与第三阈值比较，如果小于第三阈值则主动提示用户补充触觉信息。

优选地，所述单模态评价函数如下：

其中，λ₁为所述第三阈值，λ₂为所述第二阈值；

当单模态评价函数值为1时，则主动提示用户补充触觉信息；

当单模态评价函数值为2时，则主动提示用户补充语音信息；

其他情况下，则主动提示获得准确意图，继续预测用户意图。

优选地，所述多模态感知的智能实验方法，还包括

设定实验基础分数；

分析执行所述目标意图对应的所述实验路径后的实验情节，如果是错误实验情节，根据错误的实验情节相应的对所述基础分数扣分；

并反馈给用户正确实验过程；

恢复到错误实验情节的前一个实验情节，用户继续完成实验，获取最终分数。

本发明还提供一种多模态感知的智能实验装置，包括语音采集单元、触觉采集单元、显示单元、处理单元、存储单元以及总线单元；通过所述总线单元连接所述语音采集单元、触觉采集单元、显示单元、处理单元和存储单元。

本申请提出的一种多模态感知的智能实验方法及装置具体有以下有益效果：

即在实验过程中设置了障碍，使化学实验不再是单一的正确的操作流程。用户没有避开障碍而进行了错误操作之后，通过对错误实验情节分析获取减分值，从而实现用户的实验评价；利用犯错来加深用户对实验理解；

通过语音信息或者触觉信息作为输入控制实验的进行，通过语音信息获取语音目标意图和通过触觉信息获取触觉目标意图，利用多模态融合将所述语音目标意图和触觉目标意图融合获取目标意图，通过对所述目标意图评价来获取代表用户真正意图的所述目标意图，如果所述目标意图不能代表用户真正意图则向用户反馈使用户重新提供触觉信息或者语音信息。使得本申请对用户意图的感知更加准确，避免因表达原因导致进行错误实验过程。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明实施例中多模态感知的智能实验方法的流程图；

图2是本发明实施例中多模态感知的智能实验方法目标意图获取流程图；

图3是本发明实施例中多模态感知的智能实验方法的实验情节评价流程图；

图4是本发明实施例中多模态感知的智能实验装置的架构示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参阅图1所示，本发明提供一种多模态感知的智能实验方法，包括：

S100，根据实验内容构建实验意图集；

具体实施过程中，从一个实验过程提取若干实验情节，所述实验情节构成实验情节集p_ex，p_ex＝{p₁，p₂，p₃，……p_i}，其中，ex表示不同的实验，其中，x<＝w，p₁，p₂，p₃，……p_i则表示某一实验中的实验情节；

针对每个所述实验情节根据实验相关知识以及理论规则创建实验路径R，R_j＝{R₁，R₂，R₃，……R_n}，其中j<＝i表示，R₁，R₂，R₃，……R_n则表示某一实验情节中的实验路径。在具体提取实验情节的时候，添加错误实验情节，根据所述错误实验情节可以根据执行容易犯错的步骤产生的结果设计；对应的容易犯错的步骤设置于相应的实验路径。即在实验过程中设置了障碍，使化学实验不再是单一的正确的操作流程。具体实施过程中一个实验场景到另一个实验场景是执行至少一个所述实验路径的结果。

针对每个所述实验路径来创建实验意图，由所有的所述实验意图组成实验意图集。

S200，建立语音意图数据库V，V＝{V_e1，V_e2，……V_ew}，其中，V_ex＝{V₁，V₂，……V_m}，x<＝w，表示所述语音数据库存储语音数据，所述语音数据为所述实验意图集中元素的语音表达；具体的，采访20名学生询问他们会怎么用口语表达实验意图集中的元素，最后每个元素保留五种不同的表达方式。

S300，通过麦克风获取用于选取所述实验路径的语音信息，通过计算语音信息与所述语音意图数据库中语音数据的相似度，取相似度最大的语音数据所对应的所述实验意图集中元素作为语音目标意图；具体的，通过计算语音信息与所述语音意图数据库中语音数据的相似度，取相似度最大的语音数据所对应的所述实验意图集中元素作为语音目标意图的实现步骤包括：

采用word2vec训练词向量模型；获取中文语料库，对中文语料库的数据预处理去除字母、繁体字等，进行jieba分词，使用处理完的word2vec进行训练获取西响亮模型。

I_a＝SaF(Aud,P_i,V_ex)＝argmax(cos(Aud·(V_ex|P_i)))其中，Aud为所述语音信息的词向量，(V_ex|P_i)为所述语音数据的词向量，当Aud与(V_ex|P_i)相似程度越高，其点乘的结果越接近零。

S400，通过触觉传感设备获取用于选取所述实验路径的触觉信息，根据具体的实验过程确定所述触觉信息所反映的触觉目标意图；具体的，获取接收触觉信息时的实验所处的实验情节P_i、获取实验意图集I_z和获取触觉信息Tac；

将用户的触觉信息、获取的实验意图集和实验情节输入触觉信息转换函数TicF(Tac,P_i,I_z)；

S500，参阅图2所示，通过多模态信息融合来融合所述语音目标意图和触觉目标意图获取目标意图；具体的，

获取所述触觉目标意图和所述语音目标意图；

其中，α为加权系数，α＝0.5。

在多模态信息融合方面我们考虑了三种情况：1、只有触觉信息，2、只有语音信息，3、触觉信息和语音信息同时存在。当触觉信息和语音信息同时存在时，采用平均加权的方式进行融合，α＝0.5。

获取的所述目标意图不一定反映用户的真实意图，因此，需要对其可信度进行评价。影响可信度的关键原因之一是语音信息和触觉信息的质量。例如，由于用户语音信息不清晰、不完整或者语音识别原因，造成基于语音信息意图感知的可信度低。在这种情况下，系统可以主动要求用户再次输入语音信息，或者换一种可以表达同样意图的语音。

因此进行如下判断过程：

具体的一种可行的对所述目标意图进行信任度评价包括：

将所述目标意图的概率与设定的第一阈值比较；

如果所述目标意图的概率大于所述第一阈值则执行所述目标意图对应的实验路径进入下一个实验情节；

如果所述目标意图的概率小于所述第一阈值则执行以下步骤：

所述单模态评价函数如下：

其中，λ₁为所述第三阈值，λ₂为所述第二阈值；

当单模态评价函数值为1时，则主动提示用户补充触觉信息；

当单模态评价函数值为2时，则主动提示用户补充语音信息；

参阅图3所示，本发明提供的多模态感知的智能实验方法，还包括激励评价的过程，具体的，

设定实验基础分数；正确完成实验全部过程获取全部所述实验基础分数。

并反馈给用户正确实验过程；通过所述正确实验过程指导用户进行正确的实验操作。

自动恢复到错误实验情节的前一个实验情节，用户从前一个实验情节起始继续完成实验，完成实验后获取最终分数。

其中，语音采集单元为麦克风，触觉采集单元包括第一容器和第二容器，所述第一容器上配置有触觉传感设备，所述触觉传感设备为触觉按键模块，所述第一容器上配置有陀螺仪，所述陀螺仪用于感知第一容器的姿态，所述第一容器上配置吹气装置，具体的，所述第一容器的底部设置有压气扇，所述第一容器外部设置延伸到第一容器顶部的通气道，所述通气道的底端连接所述压气扇；所述第二容器上配置有气压传感器。拿所述第一容器向所述第二容器做倾倒模拟操作时，所述第一容器的通气道向所述气压传感器喷气，通过所述气压传感器的测量值变化判断所述第一容器向哪个第二容器中添加“物质”，所述物质由所述触觉按键模块或者所述麦克风输入到所述多模态感知的智能实验装置的数据。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多模态感知的智能实验方法，其特征在于，包括：

根据实验内容构建实验意图集；

2.根据权利要求1所述的多模态感知的智能实验方法，其特征在于，所述实验路径和所述实验情节内容为：

3.根据权利要求2所述的多模态感知的智能实验方法，其特征在于，根据实验内容构建实验意图集通过：针对每个所述实验路径来创建实验意图，由所有的所述实验意图组成实验意图集。

4.根据权利要求1所述的多模态感知的智能实验方法，其特征在于，通过计算语音信息与所述语音意图数据库中语音数据的相似度，取相似度最大的语音数据所对应的所述实验意图集中元素作为语音目标意图包括：

采用word2vec训练词向量模型；

5.根据权利要求1所述的多模态感知的智能实验方法，其特征在于，根据具体的实验过程确定所述触觉信息所反映的触觉目标意图包括：

6.根据权利要求5或4所述的多模态感知的智能实验方法，其特征在于，多模态信息融合来融合所述语音目标意图和触觉目标意图获取目标意图包括：

获取所述触觉目标意图和所述语音目标意图；

其中，α为加权系数，α＝0.5。

7.根据权利要求1所述的多模态感知的智能实验方法，其特征在于，对所述目标意图进行信任度评价包括：

将所述目标意图的概率与设定的第一阈值比较；

如果小于所述第一阈值则执行以下步骤：

8.根据权利要求7所述的多模态感知的智能实验方法，其特征在于，所述单模态评价函数如下：

其中，λ₁为所述第三阈值，λ₂为所述第二阈值；

当单模态评价函数值为1时，则主动提示用户补充触觉信息；

当单模态评价函数值为2时，则主动提示用户补充语音信息；

9.根据权利要求1所述的多模态感知的智能实验方法，其特征在于，

设定实验基础分数；

并反馈给用户正确实验过程；

10.一种多模态感知的智能实验装置，其特征在于，包括语音采集单元、触觉采集单元、显示单元、处理单元、存储单元以及总线单元；通过所述总线单元连接所述语音采集单元、触觉采集单元、显示单元、处理单元和存储单元。