CN110286764B

CN110286764B - 一种多模态融合实验系统及其使用方法

Info

Publication number: CN110286764B
Application number: CN201910544618.7A
Authority: CN
Inventors: 冯志全; 韩睿; 徐涛; 冯仕昌
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2022-11-04
Anticipated expiration: 2039-06-21
Also published as: CN110286764A

Abstract

本发明公开了一种多模态融合实验系统，包括实验仪器、输入模块、多模态意图融合模块、输出模块和报警模块；所述输入模块包括设置在实验仪器上的触觉感知模块、听觉感知模块和视觉感知模块，用于获取用户的触觉、语音、视觉信息；所述多模态意图融合模块用于融合用户的触觉、语音、视觉信息，通过查询数据库和知识库分析用户意图，建立行为节点，判断用户行为是否正确规范；所述报警模块用于提示用户操作错误；所述输出模块用于输出显示用户行为对应的实验操作效果。还公开了上述系统的使用方法，通过多模态信息的融合进行用户意图的分析和感知，解决了单一模态无法完整理解用户意图的问题，达到与用户进行互动的效果。

Description

一种多模态融合实验系统及其使用方法

技术领域

本发明涉及虚拟实验教学领域，具体涉及一种多模态融合实验系统及其使用方法。

背景技术

在中学化学教学过程中，由于有些化学实验具有有毒或危险等隐患，因此这些化学实验无法在课堂上为学生展示，也无法让学生动手操作，只能通过播放视频或动画的方式进行讲解。这种学习方法不易于学生对知识的深刻理解，且大大降低了学生的动手能力。

现有的虚拟实验系统只能通过单一模态输入用户指令，无法完整理解用户的真实意图，影响教学和使用效果。

发明内容

为了解决上述技术问题，本发明提供了一种多模态融合实验系统及其使用方法，解决了单一模态无法完整理解用户意图的问题，对用户错误操作意图进行监控，允许用户进行探究实验。

为实现上述目的，本发明采用以下技术方案：

一种多模态融合实验系统，包括实验仪器、输入模块、多模态意图融合模块、输出模块和报警模块；

所述输入模块包括设置在实验仪器上的触觉感知模块、听觉感知模块和视觉感知模块，用于获取用户的触觉、语音、视觉信息；

所述多模态意图融合模块用于融合用户的触觉、语音、视觉信息，通过查询数据库和知识库分析用户意图，建立行为节点，判断用户行为是否正确规范；

所述报警模块用于提示用户操作错误；

所述输出模块用于输出显示用户行为对应的实验操作效果。

进一步地，所述触觉感知模块识别用户对实验仪器的操作动作，包括设置在实验仪器上的姿态传感器和光敏电阻；

所述听觉感知模块使用百度语音的SDK进行实时语音翻译，并将翻译语句进行分词，获取语音信息；

所述视觉感知模块使用kinect传感设备追踪用户双手，获取视觉信息。

进一步地，所述实验仪器上还设置有标签插口，用于插入试剂标签，区分仪器中模拟试剂。

进一步地，所述报警模块为设置在实验仪器上的震动马达和加热片。

进一步地，所述数据库包括：

听觉词表H：存储实验中用于理解用户意图的有意义的关键词；

触觉词表T：存储实验实物的有意义的触觉传感信号；

触觉对象表T_Obj：存储触觉传感信号对应的操作对象；

多模态对象映射表M_Obj：存储听觉的关键词与触觉的对象的映射表，用于不同模态表达同一物体；

用户意图表U_intention：存储用户意图索引序号I、代表操作词W及意图描述。

进一步地，所述知识库包括：

意图行为可操作信息表I_i：存储不同意图行为的合理操作对象OS_obj、属性值V_alue的信息；其中，对于对象OS_obj，保存了其合理的操作的主动对象AS_obj及被动对象PS_obj；

多模态操作词归类表M_verb：存储听觉的关键词与触觉对象的属性的映射表，用于不同模态表达同一属性，用于检测用户语音与触觉的一致性；

错误操作表E_op：存储实验中的错误操作描述；

状态转换表T_S：根据经验知识，保存操作的状态转换层次；

多模态属性映射表M_att：存储听觉的关键词与触觉对象的属性的映射表，用于不同模态表达同一属性，用于检测用户语音与触觉的一致性；

允许同时进行的意图表D_intentions：存储允许的同时操作的意图。

本发明还提供了多模态融合实验系统的使用方法，具体步骤为：

1)获取用户的听觉、触觉、视觉操作信息；

2)对用户操作信息进行识别；

3)查询数据库，将识别结果组成特征队列A；

4)使用信息增益的方法进行特征选择，特征队列A降维组成特征向量；

5)特征向量乘以根据TF-IDF计算的特征权重，得到特征权重向量；

6)特征权重向量送入SVM意图分类模型进行分类，得到每类概率；

7)查询数据库和知识库，对用户意图进行分析，建立意图行为节点；

8)查询知识库，若用户的行为符合正确规范，标记为正确行为节点，系统输出实验操作效果与用户进行交互；若用户的行为不符合正确规范，标记为错误行为节点，提示用户操作错误。

进一步地，意图行为节点包括意图序号、对象、操作和属性，所述建立意图行为节点的步骤为：

21)确定意图序号；

当用户的听觉操作信息中出现表示同时进行的连词时，判断意图数量N＝2，否则N＝1；

当N＝1时，SVM意图分类模型得到概率最大项即为意图，确定一个意图集合Q₁；

当N＝2时，根据状态转换表T_S去掉下层意图部分，再取根据SVM意图分类模型得到的概率最大的两个意图集合；根据允许同时进行的意图表D_intentions判断两个意图同时进行是否合理，合理则继续执行；否则提示用户重新操作，重新获取用户各个模态信息；

对于N＝2时的特征队列A，根据知识库中的多模态操作词归类表M_verb和意图行为可操作信息表I_i将特征队列A拆分为两个意图集合Q₁和Q₂；

意图集合提供意图序号；

22)确定对象；

根据触觉词表T，将意图集合Q_n中的触觉词组成集合D；根据触觉对象表T_Obj，将D转化成对象集合O₁，对象集合O₁中除标签所代表的试剂名称外，只保留出现频次最高的一个实物对象；判断O₁集合元素的个数，若个数为2，则根据意图行为可操作信息表I_i的操作对象O_bj确定主动对象A_obj和被动对象P_obj，对象感知完成；若个数为1，则确定该对象即为主动对象A_obj；

将意图集合Q_n中的对象类别组成对象集合O₂；将实验中试剂存储集合R与对象集合O₂做补集运算，将场景中的信息加入集合中；根据多模态对象映射表M_Obj，对补集操作后的对象集合O₂进行去冗余操作，得到被动对象集合P_objs；

判断P_objs集合元素个数，若为空集，则根据意图行为可操作信息表I_i的操作对象O_bj的被动对象P_obj确定是否能为空，若可以，则符合规范，即被动对象为空，若不符合规范，则判断为模态信息缺失，将知识库中意图行为可操作信息表I_i的被动对象集合PS_obj与空集做补集运算，再根据优先级规则形成优先级对象集合P_Pobj；

若P_objs集合不为空集，则判断其元素个数是否为1个，若为1个，则确定其为被动对象P_obj，若不为1个，则将对象形成优先级对象集合P_Pobj；

所述优先级规则为：

ⅰ根据此时手节点距离物体的距离，距离双手距离最近的物体加1；

ⅱ如果有两个命令，即命令数量N＝2，则另一个命令的被动对象优先级加1；

ⅲ如果有两个命令，即命令数量N＝2，则另一个命令的主动对象优先级减1；

ⅳ距离主动对象物体最近的物体加1；

集合P_objs中的元素原始优先级全为0；根据上述优先级规则，得到修改后的优先级对象集合P_Pobj，根据其优先级排序，选择优先级最高的对象即为被动对象P_obj；

将分析的主动对象A_obj和被动对象P_obj组成对象组合，根据试剂存储集合R将该对象集合转化成对象对应试剂集H_tra；再根据意图集合Q_n，将集合中的语音表达的试剂名称提取，并形成语音获取试剂名称集H_obj；将语音获取试剂名称集H_obj与对象对应试剂集H_tra做交集运算，得到集合H_com；若H_com为空集，且语音获取试剂名称集H_obj不为空集，则判断用户的语音与触觉行为不一致，提示用户可能错误；若H_com为空集，且语音获取试剂名称集H_obj也为空集，则判断为正确，保存对象信息；若H_com不为空集，也判断为正确，保存对象信息；

23)确定操作词；

用户意图表U_intention的W提供操作词；

24)确定属性词；

意图集合Q_n中的属性类组成属性集合V_s；其中，触觉部分的属性集合T_att根据多模态属性映射表M_att，得到触觉与语音对应的属性集合TV_att；听觉部分的属性集合V_att，根据意图行为可操作信息表I_i的属性值V_alue得到符合该意图的属性词V_attnew；将TV_att与V_attnew做交集运算得到交集集合A_tv，若A_tv为空集且V_attnew不为空集，则提示用户语音与触觉操作不一致；若A_tv为空集且V_attnew为空集，或A_tv为不空集，则使用该交集属性值填充意图行为节点。

本发明的有益效果是：

本发明通过提供一种多模态融合实验系统，实现了虚实融合的化学实验教学，通过多模态信息(触觉、语音、视觉信息)的融合进行用户意图的分析和感知，解决了单一模态无法完整理解用户意图的问题，达到与用户进行互动的效果。

该系统对错误操作意图也进行监控，允许用户进行探究实验，以便使用户对知识理解更加深入。

附图说明

图1是本发明实施例实验仪器烧杯的结构示意图；

图2是本发明实施例实验仪器锥形瓶的结构示意图；

图3是本发明实施例实验仪器玻璃棒的结构示意图；

图4是本发明实施例实验仪器分液漏斗的结构示意图；

图5是本发明实施例多模态信息融合的对象感知方法流程。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

本实施例提供来一种多模态融合实验系统，包括实验仪器、输入模块、多模态意图融合模块、输出模块和报警模块；

所述报警模块用于提示用户操作错误；

所述输出模块用于输出显示用户行为对应的实验操作效果。

所述实验仪器包括但不限于烧杯、锥形瓶、玻璃棒和分液漏斗，如图1所示，烧杯包括标签插口11、震动马达12、姿态传感器13、光敏电阻14、加热片15和触钮16；如图2所示，锥形瓶包括标签插口21、震动马达22、姿态传感器23、光敏电阻24和加热片25；如图3所示，玻璃棒包括姿态传感器33和光敏电阻34；如图4所示，分液漏斗包括标签插口41、姿态传感器43、光敏电阻44和旋转传感器47。

其中，通过姿态传感器获取物体的旋转姿态数据，通过光敏电阻来获取物体是否被拿起来，通过向标签插口插入试剂标签来获取用户想要将哪一种试剂倒入容器，通过加热片和马达对用户错误操作进行提示，通过旋转传感器来控制分液漏斗开关，通过触钮判断用户操作时烧杯是否贴合规范。

听觉感知模块使用百度语音的SDK进行实时语音翻译，并将翻译语句进行分词，获取语音信息；

视觉感知模块使用kinect传感设备追踪用户双手，获取视觉信息。

多模态意图融合模块的数据库包括：

触觉词表T：存储实验实物的有意义的触觉传感信号；

触觉对象表T_Obj：存储触觉传感信号对应的操作对象；

知识库包括：

多模态操作词归类表M_verb：由于汉语对于同一含义动作有不同表达这一特性，且不同模态表达同一意图动作有不同的方式，因此本表根据专家知识进行归类，将不同模态可能表达同一意图动作的操作动词归类，用于表示不同模态表达同一意图的可能性；

错误操作表E_op：存储实验中的错误操作描述；

状态转换表T_S：根据经验知识，保存操作的状态转换层次；

多模态属性映射表M_att：该表存储的是听觉的关键词与触觉对象的属性的映射表，用于不同模态表达同一属性，用于检测用户语音与触觉的一致性；

允许同时进行的意图表D_intentions：由于一些化学实验的操作中需要左右手同时操作才能完成，因此此表存储允许的同时操作的意图，例如：稀释溶液并用玻璃棒搅拌。

该系统获取用户的多模态信息，经过识别然后在数据级上进行融合，通过多模态融合意图感知方法，最终以意图行为节点的形式指示系统与用户进行交互。

使用的步骤如下：

1)获取用户的听觉、触觉、视觉的多模态操作信息；

2)对用户操作信息分别进行识别；

3)查询数据库，将识别结果组成特征队列A；

获取和识别用户的听觉、触觉、视觉的多模态操作信息具体描述为：

1.对于听觉信息，首先根据用户在交互过程中的语言进行实时识别，然后根据汉语的语言逻辑进行词语分割，得到关键词集合。

2.对于触觉信息，通过用户对物体的操作，得到触觉信息。对传感信号进行识别，得到触觉的传感信号集合。

3.对于视觉信息，首先通过kinect识别人手的节点，然后保存人手的位置信息。

多模态信息的用户意图感知流程具体描述如下：

1、通过数据库的查询，将各个模态识别的特征与数据库中的H、T表进行对应，得到触觉、听觉多模态融合的特征队列A。

2、SVM意图分类模型的训练及测试

⑴通过大量实验，通过步骤1得到训练数据集与测试数据集。

⑵对训练集进行特征选择，使用信息增益的方法，选择对分类影响较大的特征，达到降维的目的。

⑶将选取出的特征组成特征向量，并乘以根据TF-IDF计算的特征权重，得到特征权重向量，用于训练。

⑷根据样本，寻找SVM模型的参数，并进行训练。

⑸将训练集做第⑵⑶步同样的操作，进行测试。

3、通过步骤1组成的队列A，进行步骤2中的⑵特征选择⑶特征向量的转化操作，得到特征权重向量F_verb

4、将特征向量F_verb送入步骤2中训练好的SVM意图分类模型，得到每类的概率。

5、根据步骤4得到的意图分类结果与特征队列A进行用户意图的行为分析。根据人的行为模式提出意图行为节点结构，具体由四部分组成，分别为：意图序号、对象(主动对象和被动对象)、操作、属性。

由于上述意图行为节点的构建需要对象、操作、属性这三类信息，因此，需要对这三类信息进行分析，具体方法如下：

⑴意图数量推测。由于人有两只手，因此在做化学实验时可能有一到两种操作意图。本算法按照人的行为习惯，将意图数量限定为最大两个。由于人在表达同时进行的意图时往往使用“并”、“同时”等表示同时进行的连词，因此，当出现表示同时进行的连词时，及判断此时意图数量N＝2，否则N＝1。

⑵当N＝1时，SVM分类结果概率最大项即为意图，当N＝2时，根据状态转换表T_S去掉下层意图的部分，得到概率最大的前两类意图。根据允许同时进行的意图表D_intentions判断同时进行的意图是否合理，合理则继续执行；否则提示用户重新操作，重新获取用户各个模态信息，重新执行步骤3。

⑶得到意图序号后，对于N＝1的情况，确定一个意图集合Q₁；对于N＝2的特征队列A进行拆分，将其拆分成两个意图集合。拆分的依据是知识库中的多模态操作词归类表M_verb和意图行为可操作信息表I_i。具体可描述为：首先，根据M_verb找到相应意图序号的操作动词，将A中的相关操作词进行划分，划分成两个队列。其次，通过I_i，对该意图可能的对象及属性词进行划分，划分成两个队列。最后，按照两个意图序号进行拼合成两个意图集合，为下一步生成意图行为节点做好准备。

6、根据步骤5得到的意图集合，进行行为节点的构建。意图行为节点由意图序号、对象、操作、属性四部分构成。针对每一部分的融合感知方法描述如下：

⑴意图序号

该意图序号是由步骤5生成的意图集合提供。

⑵对象

由于一个动作一般由主动对象发出，被动对象承受，因此，对于对象，设置主动对象和被动对象。因此，对于对象的推测就尤为重要，甚至决定了整个意图任务的准确性。

多模态信息融合的对象感知方法流程如图5所示，具体描述如下：

①根据触觉词表T，将步骤5生成的意图感知集合Q_n中的触觉词组成集合D。

②根据触觉对象表T_Obj，将D转化称对象集合O₁，对象集合O₁中除标签所代表的试剂名称外，只保留出现频次最高的一个实物对象。

③判断O₁集合元素的个数，若个数为2，则根据意图行为可操作信息表I_i的操作对象O_bj确定主动对象A_obj和被动对象P_obj，对象感知完成；若个数为1，则确定该对象即为主动对象A_obj，然后执行步骤④。

④将步骤5生成的意图感知集合Q_n中的对象类别组成对象集合O₂。

⑤将实验中试剂存储集合R(保存场景信息的集合，其元素为相应试剂所存在的物体名称)与对象集合O₂做补集运算，将场景中的信息加入集合中。

⑥根据多模态对象映射表M_Obj，对补集操作后的对象集合O₂进行去冗余操作，得到被动对象集合P_objs。

⑦判断P_objs集合元素个数，若为空集，则根据意图行为可操作信息表I_i的操作对象O_bj的被动对象P_obj确定是否能为空，若可以则符合规范，即被动对象为空，若不符合规范，则判断为模态信息缺失，将知识库中意图行为可操作信息表I_i的被动对象集合PS_obj与空集做补集运算，再根据优先级规则形成优先级对象集合P_Pobj；若P_objs集合不为空集，则判断其元素个数是否为1个，若为1个，则确定其为被动对象P_obj，若不为1个，则将对象形成优先级对象集合P_Pobj。

优先级的设立规则如下：

ⅳ距离主动对象物体最近的物体加1；

集合P_objs中的元素原始优先级全为0。根据上述优先级规则，得到修改后的优先级对象集合P_Pobj，根据其优先级排序，选择优先级最高的对象即为被动对象P_obj。

⑧将分析的主动对象A_obj和被动对象P_obj组成对象组合，根据试剂存储集合R将该对象集合转化成对象对应试剂集H_tra。再根据意图集合Q_n，将集合中的语音表达的试剂名称提取，并形成语音获取试剂名称集H_obj。将语音获取试剂名称集H_obj与对象对应试剂集H_tra做交集运算，得到集合H_com。若H_com为空集，且语音获取试剂名称集H_obj不为空集，则判断用户的语音与触觉行为不一致，提示用户可能错误；若H_com为空集，且语音获取试剂名称集H_obj也为空集，则判断为正确，保存对象信息；若H_com不为空集，也判断为正确，保存对象信息。

⑶操作

操作词由用户意图表U_intention的W提供。

⑷属性

将步骤5生成的意图集合Q_n中的属性类组成属性集合V_s。其中，触觉部分的属性集合T_att根据多模态属性映射表M_att，得到触觉与语音对应的属性集合TV_att；听觉部分的属性集合V_att，根据意图行为可操作信息表I_i的属性值V_alue得到符合该意图的属性词V_attnew。将TV_att与V_attnew做交集运算得到交集集合A_tv，若A_tv为空集且V_attnew不为空集，则提示用户语音与触觉操作不一致；若A_tv为空集且V_attnew为空集，或A_tv为不空集，则使用该交集属性值填充意图行为节点。

将多模态融合意图感知层生成的带有标记的意图行为节点进行分析，若正确的行为节点，则指示系统与用户进行交互，在输出模块输出显示用户行为对应的实验操作效果；若为错误行为节点，则根据知识库中的错误操作表E_op的描述通过报警模块和输出模块提示用户。

输出模块对于视觉获取的人手的位置信息进行实时的展示，达到良好的交互效果。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制。对于所属领域的技术人员来说，在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种多模态融合实验系统，其特征是，包括实验仪器、输入模块、多模态意图融合模块、输出模块和报警模块；

所述报警模块用于提示用户操作错误；

所述输出模块用于输出显示用户行为对应的实验操作效果；

所述触觉感知模块识别用户对实验仪器的操作动作，包括设置在实验仪器上的姿态传感器和光敏电阻；

所述视觉感知模块使用kinect传感设备追踪用户双手，获取视觉信息；

所述数据库包括：

触觉词表T：存储实验实物的有意义的触觉传感信号；

触觉对象表T_Obj：存储触觉传感信号对应的操作对象；

用户意图表U_intention：存储用户意图索引序号I、代表操作词W及意图描述；

所述知识库包括：

多模态操作词归类表M_verb：根据专家知识进行归类，将不同模态表达同一意思的操作动词归类，用于表示不同模态表达同一意图的可能性；

错误操作表E_op：存储实验中的错误操作描述；

状态转换表T_S：根据经验知识，保存操作的状态转换层次；

2.根据权利要求1所述的一种多模态融合实验系统，其特征是，所述实验仪器上还设置有标签插口，用于插入试剂标签，区分仪器中模拟试剂。

3.根据权利要求1所述的一种多模态融合实验系统，其特征是，所述报警模块为设置在实验仪器上的震动马达和加热片。

4.一种权利要求1-3所述多模态融合实验系统的使用方法，其特征是，具体步骤为：

1)获取用户的听觉、触觉、视觉操作信息；

2)对用户操作信息进行识别；

3)查询数据库，将识别结果组成特征队列A；

4)使用信息增益的方法进行特征选择，选择对分类影响大的特征，特征队列A降维组成特征向量；

5.根据权利要求4所述的多模态融合实验系统的使用方法，其特征是，意图行为节点包括意图序号、对象、操作和属性，所述建立意图行为节点的步骤为：

21)确定意图序号；

意图集合提供意图序号；

22)确定对象；

所述优先级规则为：

ⅳ距离主动对象物体最近的物体加1；

23)确定操作词；

用户意图表U_intention的W提供操作词；

24)确定属性词；