CN110286764B - 一种多模态融合实验系统及其使用方法 - Google Patents

一种多模态融合实验系统及其使用方法 Download PDF

Info

Publication number
CN110286764B
CN110286764B CN201910544618.7A CN201910544618A CN110286764B CN 110286764 B CN110286764 B CN 110286764B CN 201910544618 A CN201910544618 A CN 201910544618A CN 110286764 B CN110286764 B CN 110286764B
Authority
CN
China
Prior art keywords
intention
user
obj
behavior
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910544618.7A
Other languages
English (en)
Other versions
CN110286764A (zh
Inventor
冯志全
韩睿
徐涛
冯仕昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN201910544618.7A priority Critical patent/CN110286764B/zh
Publication of CN110286764A publication Critical patent/CN110286764A/zh
Application granted granted Critical
Publication of CN110286764B publication Critical patent/CN110286764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种多模态融合实验系统,包括实验仪器、输入模块、多模态意图融合模块、输出模块和报警模块;所述输入模块包括设置在实验仪器上的触觉感知模块、听觉感知模块和视觉感知模块,用于获取用户的触觉、语音、视觉信息;所述多模态意图融合模块用于融合用户的触觉、语音、视觉信息,通过查询数据库和知识库分析用户意图,建立行为节点,判断用户行为是否正确规范;所述报警模块用于提示用户操作错误;所述输出模块用于输出显示用户行为对应的实验操作效果。还公开了上述系统的使用方法,通过多模态信息的融合进行用户意图的分析和感知,解决了单一模态无法完整理解用户意图的问题,达到与用户进行互动的效果。

Description

一种多模态融合实验系统及其使用方法
技术领域
本发明涉及虚拟实验教学领域,具体涉及一种多模态融合实验系统及其使用方法。
背景技术
在中学化学教学过程中,由于有些化学实验具有有毒或危险等隐患,因此这些化学实验无法在课堂上为学生展示,也无法让学生动手操作,只能通过播放视频或动画的方式进行讲解。这种学习方法不易于学生对知识的深刻理解,且大大降低了学生的动手能力。
现有的虚拟实验系统只能通过单一模态输入用户指令,无法完整理解用户的真实意图,影响教学和使用效果。
发明内容
为了解决上述技术问题,本发明提供了一种多模态融合实验系统及其使用方法,解决了单一模态无法完整理解用户意图的问题,对用户错误操作意图进行监控,允许用户进行探究实验。
为实现上述目的,本发明采用以下技术方案:
一种多模态融合实验系统,包括实验仪器、输入模块、多模态意图融合模块、输出模块和报警模块;
所述输入模块包括设置在实验仪器上的触觉感知模块、听觉感知模块和视觉感知模块,用于获取用户的触觉、语音、视觉信息;
所述多模态意图融合模块用于融合用户的触觉、语音、视觉信息,通过查询数据库和知识库分析用户意图,建立行为节点,判断用户行为是否正确规范;
所述报警模块用于提示用户操作错误;
所述输出模块用于输出显示用户行为对应的实验操作效果。
进一步地,所述触觉感知模块识别用户对实验仪器的操作动作,包括设置在实验仪器上的姿态传感器和光敏电阻;
所述听觉感知模块使用百度语音的SDK进行实时语音翻译,并将翻译语句进行分词,获取语音信息;
所述视觉感知模块使用kinect传感设备追踪用户双手,获取视觉信息。
进一步地,所述实验仪器上还设置有标签插口,用于插入试剂标签,区分仪器中模拟试剂。
进一步地,所述报警模块为设置在实验仪器上的震动马达和加热片。
进一步地,所述数据库包括:
听觉词表H:存储实验中用于理解用户意图的有意义的关键词;
触觉词表T:存储实验实物的有意义的触觉传感信号;
触觉对象表TObj:存储触觉传感信号对应的操作对象;
多模态对象映射表MObj:存储听觉的关键词与触觉的对象的映射表,用于不同模态表达同一物体;
用户意图表Uintention:存储用户意图索引序号I、代表操作词W及意图描述。
进一步地,所述知识库包括:
意图行为可操作信息表Ii:存储不同意图行为的合理操作对象OSobj、属性值Value的信息;其中,对于对象OSobj,保存了其合理的操作的主动对象ASobj及被动对象PSobj
多模态操作词归类表Mverb:存储听觉的关键词与触觉对象的属性的映射表,用于不同模态表达同一属性,用于检测用户语音与触觉的一致性;
错误操作表Eop:存储实验中的错误操作描述;
状态转换表TS:根据经验知识,保存操作的状态转换层次;
多模态属性映射表Matt:存储听觉的关键词与触觉对象的属性的映射表,用于不同模态表达同一属性,用于检测用户语音与触觉的一致性;
允许同时进行的意图表Dintentions:存储允许的同时操作的意图。
本发明还提供了多模态融合实验系统的使用方法,具体步骤为:
1)获取用户的听觉、触觉、视觉操作信息;
2)对用户操作信息进行识别;
3)查询数据库,将识别结果组成特征队列A;
4)使用信息增益的方法进行特征选择,特征队列A降维组成特征向量;
5)特征向量乘以根据TF-IDF计算的特征权重,得到特征权重向量;
6)特征权重向量送入SVM意图分类模型进行分类,得到每类概率;
7)查询数据库和知识库,对用户意图进行分析,建立意图行为节点;
8)查询知识库,若用户的行为符合正确规范,标记为正确行为节点,系统输出实验操作效果与用户进行交互;若用户的行为不符合正确规范,标记为错误行为节点,提示用户操作错误。
进一步地,意图行为节点包括意图序号、对象、操作和属性,所述建立意图行为节点的步骤为:
21)确定意图序号;
当用户的听觉操作信息中出现表示同时进行的连词时,判断意图数量N=2,否则N=1;
当N=1时,SVM意图分类模型得到概率最大项即为意图,确定一个意图集合Q1
当N=2时,根据状态转换表TS去掉下层意图部分,再取根据SVM意图分类模型得到的概率最大的两个意图集合;根据允许同时进行的意图表Dintentions判断两个意图同时进行是否合理,合理则继续执行;否则提示用户重新操作,重新获取用户各个模态信息;
对于N=2时的特征队列A,根据知识库中的多模态操作词归类表Mverb和意图行为可操作信息表Ii将特征队列A拆分为两个意图集合Q1和Q2
意图集合提供意图序号;
22)确定对象;
根据触觉词表T,将意图集合Qn中的触觉词组成集合D;根据触觉对象表TObj,将D转化成对象集合O1,对象集合O1中除标签所代表的试剂名称外,只保留出现频次最高的一个实物对象;判断O1集合元素的个数,若个数为2,则根据意图行为可操作信息表Ii的操作对象Obj确定主动对象Aobj和被动对象Pobj,对象感知完成;若个数为1,则确定该对象即为主动对象Aobj
将意图集合Qn中的对象类别组成对象集合O2;将实验中试剂存储集合R与对象集合O2做补集运算,将场景中的信息加入集合中;根据多模态对象映射表MObj,对补集操作后的对象集合O2进行去冗余操作,得到被动对象集合Pobjs
判断Pobjs集合元素个数,若为空集,则根据意图行为可操作信息表Ii的操作对象Obj的被动对象Pobj确定是否能为空,若可以,则符合规范,即被动对象为空,若不符合规范,则判断为模态信息缺失,将知识库中意图行为可操作信息表Ii的被动对象集合PSobj与空集做补集运算,再根据优先级规则形成优先级对象集合PPobj
若Pobjs集合不为空集,则判断其元素个数是否为1个,若为1个,则确定其为被动对象Pobj,若不为1个,则将对象形成优先级对象集合PPobj
所述优先级规则为:
ⅰ根据此时手节点距离物体的距离,距离双手距离最近的物体加1;
ⅱ如果有两个命令,即命令数量N=2,则另一个命令的被动对象优先级加1;
ⅲ如果有两个命令,即命令数量N=2,则另一个命令的主动对象优先级减1;
ⅳ距离主动对象物体最近的物体加1;
集合Pobjs中的元素原始优先级全为0;根据上述优先级规则,得到修改后的优先级对象集合PPobj,根据其优先级排序,选择优先级最高的对象即为被动对象Pobj
将分析的主动对象Aobj和被动对象Pobj组成对象组合,根据试剂存储集合R将该对象集合转化成对象对应试剂集Htra;再根据意图集合Qn,将集合中的语音表达的试剂名称提取,并形成语音获取试剂名称集Hobj;将语音获取试剂名称集Hobj与对象对应试剂集Htra做交集运算,得到集合Hcom;若Hcom为空集,且语音获取试剂名称集Hobj不为空集,则判断用户的语音与触觉行为不一致,提示用户可能错误;若Hcom为空集,且语音获取试剂名称集Hobj也为空集,则判断为正确,保存对象信息;若Hcom不为空集,也判断为正确,保存对象信息;
23)确定操作词;
用户意图表Uintention的W提供操作词;
24)确定属性词;
意图集合Qn中的属性类组成属性集合Vs;其中,触觉部分的属性集合Tatt根据多模态属性映射表Matt,得到触觉与语音对应的属性集合TVatt;听觉部分的属性集合Vatt,根据意图行为可操作信息表Ii的属性值Value得到符合该意图的属性词Vattnew;将TVatt与Vattnew做交集运算得到交集集合Atv,若Atv为空集且Vattnew不为空集,则提示用户语音与触觉操作不一致;若Atv为空集且Vattnew为空集,或Atv为不空集,则使用该交集属性值填充意图行为节点。
本发明的有益效果是:
本发明通过提供一种多模态融合实验系统,实现了虚实融合的化学实验教学,通过多模态信息(触觉、语音、视觉信息)的融合进行用户意图的分析和感知,解决了单一模态无法完整理解用户意图的问题,达到与用户进行互动的效果。
该系统对错误操作意图也进行监控,允许用户进行探究实验,以便使用户对知识理解更加深入。
附图说明
图1是本发明实施例实验仪器烧杯的结构示意图;
图2是本发明实施例实验仪器锥形瓶的结构示意图;
图3是本发明实施例实验仪器玻璃棒的结构示意图;
图4是本发明实施例实验仪器分液漏斗的结构示意图;
图5是本发明实施例多模态信息融合的对象感知方法流程。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
本实施例提供来一种多模态融合实验系统,包括实验仪器、输入模块、多模态意图融合模块、输出模块和报警模块;
所述输入模块包括设置在实验仪器上的触觉感知模块、听觉感知模块和视觉感知模块,用于获取用户的触觉、语音、视觉信息;
所述多模态意图融合模块用于融合用户的触觉、语音、视觉信息,通过查询数据库和知识库分析用户意图,建立行为节点,判断用户行为是否正确规范;
所述报警模块用于提示用户操作错误;
所述输出模块用于输出显示用户行为对应的实验操作效果。
所述实验仪器包括但不限于烧杯、锥形瓶、玻璃棒和分液漏斗,如图1所示,烧杯包括标签插口11、震动马达12、姿态传感器13、光敏电阻14、加热片15和触钮16;如图2所示,锥形瓶包括标签插口21、震动马达22、姿态传感器23、光敏电阻24和加热片25;如图3所示,玻璃棒包括姿态传感器33和光敏电阻34;如图4所示,分液漏斗包括标签插口41、姿态传感器43、光敏电阻44和旋转传感器47。
其中,通过姿态传感器获取物体的旋转姿态数据,通过光敏电阻来获取物体是否被拿起来,通过向标签插口插入试剂标签来获取用户想要将哪一种试剂倒入容器,通过加热片和马达对用户错误操作进行提示,通过旋转传感器来控制分液漏斗开关,通过触钮判断用户操作时烧杯是否贴合规范。
听觉感知模块使用百度语音的SDK进行实时语音翻译,并将翻译语句进行分词,获取语音信息;
视觉感知模块使用kinect传感设备追踪用户双手,获取视觉信息。
多模态意图融合模块的数据库包括:
听觉词表H:存储实验中用于理解用户意图的有意义的关键词;
触觉词表T:存储实验实物的有意义的触觉传感信号;
触觉对象表TObj:存储触觉传感信号对应的操作对象;
多模态对象映射表MObj:存储听觉的关键词与触觉的对象的映射表,用于不同模态表达同一物体;
用户意图表Uintention:存储用户意图索引序号I、代表操作词W及意图描述。
知识库包括:
意图行为可操作信息表Ii:存储不同意图行为的合理操作对象OSobj、属性值Value的信息;其中,对于对象OSobj,保存了其合理的操作的主动对象ASobj及被动对象PSobj
多模态操作词归类表Mverb:由于汉语对于同一含义动作有不同表达这一特性,且不同模态表达同一意图动作有不同的方式,因此本表根据专家知识进行归类,将不同模态可能表达同一意图动作的操作动词归类,用于表示不同模态表达同一意图的可能性;
错误操作表Eop:存储实验中的错误操作描述;
状态转换表TS:根据经验知识,保存操作的状态转换层次;
多模态属性映射表Matt:该表存储的是听觉的关键词与触觉对象的属性的映射表,用于不同模态表达同一属性,用于检测用户语音与触觉的一致性;
允许同时进行的意图表Dintentions:由于一些化学实验的操作中需要左右手同时操作才能完成,因此此表存储允许的同时操作的意图,例如:稀释溶液并用玻璃棒搅拌。
该系统获取用户的多模态信息,经过识别然后在数据级上进行融合,通过多模态融合意图感知方法,最终以意图行为节点的形式指示系统与用户进行交互。
使用的步骤如下:
1)获取用户的听觉、触觉、视觉的多模态操作信息;
2)对用户操作信息分别进行识别;
3)查询数据库,将识别结果组成特征队列A;
4)使用信息增益的方法进行特征选择,特征队列A降维组成特征向量;
5)特征向量乘以根据TF-IDF计算的特征权重,得到特征权重向量;
6)特征权重向量送入SVM意图分类模型进行分类,得到每类概率;
7)查询数据库和知识库,对用户意图进行分析,建立意图行为节点;
8)查询知识库,若用户的行为符合正确规范,标记为正确行为节点,系统输出实验操作效果与用户进行交互;若用户的行为不符合正确规范,标记为错误行为节点,提示用户操作错误。
获取和识别用户的听觉、触觉、视觉的多模态操作信息具体描述为:
1.对于听觉信息,首先根据用户在交互过程中的语言进行实时识别,然后根据汉语的语言逻辑进行词语分割,得到关键词集合。
2.对于触觉信息,通过用户对物体的操作,得到触觉信息。对传感信号进行识别,得到触觉的传感信号集合。
3.对于视觉信息,首先通过kinect识别人手的节点,然后保存人手的位置信息。
多模态信息的用户意图感知流程具体描述如下:
1、通过数据库的查询,将各个模态识别的特征与数据库中的H、T表进行对应,得到触觉、听觉多模态融合的特征队列A。
2、SVM意图分类模型的训练及测试
⑴通过大量实验,通过步骤1得到训练数据集与测试数据集。
⑵对训练集进行特征选择,使用信息增益的方法,选择对分类影响较大的特征,达到降维的目的。
⑶将选取出的特征组成特征向量,并乘以根据TF-IDF计算的特征权重,得到特征权重向量,用于训练。
⑷根据样本,寻找SVM模型的参数,并进行训练。
⑸将训练集做第⑵⑶步同样的操作,进行测试。
3、通过步骤1组成的队列A,进行步骤2中的⑵特征选择⑶特征向量的转化操作,得到特征权重向量Fverb
4、将特征向量Fverb送入步骤2中训练好的SVM意图分类模型,得到每类的概率。
5、根据步骤4得到的意图分类结果与特征队列A进行用户意图的行为分析。根据人的行为模式提出意图行为节点结构,具体由四部分组成,分别为:意图序号、对象(主动对象和被动对象)、操作、属性。
由于上述意图行为节点的构建需要对象、操作、属性这三类信息,因此,需要对这三类信息进行分析,具体方法如下:
⑴意图数量推测。由于人有两只手,因此在做化学实验时可能有一到两种操作意图。本算法按照人的行为习惯,将意图数量限定为最大两个。由于人在表达同时进行的意图时往往使用“并”、“同时”等表示同时进行的连词,因此,当出现表示同时进行的连词时,及判断此时意图数量N=2,否则N=1。
⑵当N=1时,SVM分类结果概率最大项即为意图,当N=2时,根据状态转换表TS去掉下层意图的部分,得到概率最大的前两类意图。根据允许同时进行的意图表Dintentions判断同时进行的意图是否合理,合理则继续执行;否则提示用户重新操作,重新获取用户各个模态信息,重新执行步骤3。
⑶得到意图序号后,对于N=1的情况,确定一个意图集合Q1;对于N=2的特征队列A进行拆分,将其拆分成两个意图集合。拆分的依据是知识库中的多模态操作词归类表Mverb和意图行为可操作信息表Ii。具体可描述为:首先,根据Mverb找到相应意图序号的操作动词,将A中的相关操作词进行划分,划分成两个队列。其次,通过Ii,对该意图可能的对象及属性词进行划分,划分成两个队列。最后,按照两个意图序号进行拼合成两个意图集合,为下一步生成意图行为节点做好准备。
6、根据步骤5得到的意图集合,进行行为节点的构建。意图行为节点由意图序号、对象、操作、属性四部分构成。针对每一部分的融合感知方法描述如下:
⑴意图序号
该意图序号是由步骤5生成的意图集合提供。
⑵对象
由于一个动作一般由主动对象发出,被动对象承受,因此,对于对象,设置主动对象和被动对象。因此,对于对象的推测就尤为重要,甚至决定了整个意图任务的准确性。
多模态信息融合的对象感知方法流程如图5所示,具体描述如下:
①根据触觉词表T,将步骤5生成的意图感知集合Qn中的触觉词组成集合D。
②根据触觉对象表TObj,将D转化称对象集合O1,对象集合O1中除标签所代表的试剂名称外,只保留出现频次最高的一个实物对象。
③判断O1集合元素的个数,若个数为2,则根据意图行为可操作信息表Ii的操作对象Obj确定主动对象Aobj和被动对象Pobj,对象感知完成;若个数为1,则确定该对象即为主动对象Aobj,然后执行步骤④。
④将步骤5生成的意图感知集合Qn中的对象类别组成对象集合O2
⑤将实验中试剂存储集合R(保存场景信息的集合,其元素为相应试剂所存在的物体名称)与对象集合O2做补集运算,将场景中的信息加入集合中。
⑥根据多模态对象映射表MObj,对补集操作后的对象集合O2进行去冗余操作,得到被动对象集合Pobjs
⑦判断Pobjs集合元素个数,若为空集,则根据意图行为可操作信息表Ii的操作对象Obj的被动对象Pobj确定是否能为空,若可以则符合规范,即被动对象为空,若不符合规范,则判断为模态信息缺失,将知识库中意图行为可操作信息表Ii的被动对象集合PSobj与空集做补集运算,再根据优先级规则形成优先级对象集合PPobj;若Pobjs集合不为空集,则判断其元素个数是否为1个,若为1个,则确定其为被动对象Pobj,若不为1个,则将对象形成优先级对象集合PPobj
优先级的设立规则如下:
ⅰ根据此时手节点距离物体的距离,距离双手距离最近的物体加1;
ⅱ如果有两个命令,即命令数量N=2,则另一个命令的被动对象优先级加1;
ⅲ如果有两个命令,即命令数量N=2,则另一个命令的主动对象优先级减1;
ⅳ距离主动对象物体最近的物体加1;
集合Pobjs中的元素原始优先级全为0。根据上述优先级规则,得到修改后的优先级对象集合PPobj,根据其优先级排序,选择优先级最高的对象即为被动对象Pobj
⑧将分析的主动对象Aobj和被动对象Pobj组成对象组合,根据试剂存储集合R将该对象集合转化成对象对应试剂集Htra。再根据意图集合Qn,将集合中的语音表达的试剂名称提取,并形成语音获取试剂名称集Hobj。将语音获取试剂名称集Hobj与对象对应试剂集Htra做交集运算,得到集合Hcom。若Hcom为空集,且语音获取试剂名称集Hobj不为空集,则判断用户的语音与触觉行为不一致,提示用户可能错误;若Hcom为空集,且语音获取试剂名称集Hobj也为空集,则判断为正确,保存对象信息;若Hcom不为空集,也判断为正确,保存对象信息。
⑶操作
操作词由用户意图表Uintention的W提供。
⑷属性
将步骤5生成的意图集合Qn中的属性类组成属性集合Vs。其中,触觉部分的属性集合Tatt根据多模态属性映射表Matt,得到触觉与语音对应的属性集合TVatt;听觉部分的属性集合Vatt,根据意图行为可操作信息表Ii的属性值Value得到符合该意图的属性词Vattnew。将TVatt与Vattnew做交集运算得到交集集合Atv,若Atv为空集且Vattnew不为空集,则提示用户语音与触觉操作不一致;若Atv为空集且Vattnew为空集,或Atv为不空集,则使用该交集属性值填充意图行为节点。
将多模态融合意图感知层生成的带有标记的意图行为节点进行分析,若正确的行为节点,则指示系统与用户进行交互,在输出模块输出显示用户行为对应的实验操作效果;若为错误行为节点,则根据知识库中的错误操作表Eop的描述通过报警模块和输出模块提示用户。
输出模块对于视觉获取的人手的位置信息进行实时的展示,达到良好的交互效果。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (5)

1.一种多模态融合实验系统,其特征是,包括实验仪器、输入模块、多模态意图融合模块、输出模块和报警模块;
所述输入模块包括设置在实验仪器上的触觉感知模块、听觉感知模块和视觉感知模块,用于获取用户的触觉、语音、视觉信息;
所述多模态意图融合模块用于融合用户的触觉、语音、视觉信息,通过查询数据库和知识库分析用户意图,建立行为节点,判断用户行为是否正确规范;
所述报警模块用于提示用户操作错误;
所述输出模块用于输出显示用户行为对应的实验操作效果;
所述触觉感知模块识别用户对实验仪器的操作动作,包括设置在实验仪器上的姿态传感器和光敏电阻;
所述听觉感知模块使用百度语音的SDK进行实时语音翻译,并将翻译语句进行分词,获取语音信息;
所述视觉感知模块使用kinect传感设备追踪用户双手,获取视觉信息;
所述数据库包括:
听觉词表H:存储实验中用于理解用户意图的有意义的关键词;
触觉词表T:存储实验实物的有意义的触觉传感信号;
触觉对象表TObj:存储触觉传感信号对应的操作对象;
多模态对象映射表MObj:存储听觉的关键词与触觉的对象的映射表,用于不同模态表达同一物体;
用户意图表Uintention:存储用户意图索引序号I、代表操作词W及意图描述;
所述知识库包括:
意图行为可操作信息表Ii:存储不同意图行为的合理操作对象OSobj、属性值Value的信息;其中,对于对象OSobj,保存了其合理的操作的主动对象ASobj及被动对象PSobj
多模态操作词归类表Mverb:根据专家知识进行归类,将不同模态表达同一意思的操作动词归类,用于表示不同模态表达同一意图的可能性;
错误操作表Eop:存储实验中的错误操作描述;
状态转换表TS:根据经验知识,保存操作的状态转换层次;
多模态属性映射表Matt:存储听觉的关键词与触觉对象的属性的映射表,用于不同模态表达同一属性,用于检测用户语音与触觉的一致性;
允许同时进行的意图表Dintentions:存储允许的同时操作的意图。
2.根据权利要求1所述的一种多模态融合实验系统,其特征是,所述实验仪器上还设置有标签插口,用于插入试剂标签,区分仪器中模拟试剂。
3.根据权利要求1所述的一种多模态融合实验系统,其特征是,所述报警模块为设置在实验仪器上的震动马达和加热片。
4.一种权利要求1-3所述多模态融合实验系统的使用方法,其特征是,具体步骤为:
1)获取用户的听觉、触觉、视觉操作信息;
2)对用户操作信息进行识别;
3)查询数据库,将识别结果组成特征队列A;
4)使用信息增益的方法进行特征选择,选择对分类影响大的特征,特征队列A降维组成特征向量;
5)特征向量乘以根据TF-IDF计算的特征权重,得到特征权重向量;
6)特征权重向量送入SVM意图分类模型进行分类,得到每类概率;
7)查询数据库和知识库,对用户意图进行分析,建立意图行为节点;
8)查询知识库,若用户的行为符合正确规范,标记为正确行为节点,系统输出实验操作效果与用户进行交互;若用户的行为不符合正确规范,标记为错误行为节点,提示用户操作错误。
5.根据权利要求4所述的多模态融合实验系统的使用方法,其特征是,意图行为节点包括意图序号、对象、操作和属性,所述建立意图行为节点的步骤为:
21)确定意图序号;
当用户的听觉操作信息中出现表示同时进行的连词时,判断意图数量N=2,否则N=1;
当N=1时,SVM意图分类模型得到概率最大项即为意图,确定一个意图集合Q1
当N=2时,根据状态转换表TS去掉下层意图部分,再取根据SVM意图分类模型得到的概率最大的两个意图集合;根据允许同时进行的意图表Dintentions判断两个意图同时进行是否合理,合理则继续执行;否则提示用户重新操作,重新获取用户各个模态信息;
对于N=2时的特征队列A,根据知识库中的多模态操作词归类表Mverb和意图行为可操作信息表Ii将特征队列A拆分为两个意图集合Q1和Q2
意图集合提供意图序号;
22)确定对象;
根据触觉词表T,将意图集合Qn中的触觉词组成集合D;根据触觉对象表TObj,将D转化成对象集合O1,对象集合O1中除标签所代表的试剂名称外,只保留出现频次最高的一个实物对象;判断O1集合元素的个数,若个数为2,则根据意图行为可操作信息表Ii的操作对象Obj确定主动对象Aobj和被动对象Pobj,对象感知完成;若个数为1,则确定该对象即为主动对象Aobj
将意图集合Qn中的对象类别组成对象集合O2;将实验中试剂存储集合R与对象集合O2做补集运算,将场景中的信息加入集合中;根据多模态对象映射表MObj,对补集操作后的对象集合O2进行去冗余操作,得到被动对象集合Pobjs
判断Pobjs集合元素个数,若为空集,则根据意图行为可操作信息表Ii的操作对象Obj的被动对象Pobj确定是否能为空,若可以,则符合规范,即被动对象为空,若不符合规范,则判断为模态信息缺失,将知识库中意图行为可操作信息表Ii的被动对象集合PSobj与空集做补集运算,再根据优先级规则形成优先级对象集合PPobj
若Pobjs集合不为空集,则判断其元素个数是否为1个,若为1个,则确定其为被动对象Pobj,若不为1个,则将对象形成优先级对象集合PPobj
所述优先级规则为:
ⅰ根据此时手节点距离物体的距离,距离双手距离最近的物体加1;
ⅱ如果有两个命令,即命令数量N=2,则另一个命令的被动对象优先级加1;
ⅲ如果有两个命令,即命令数量N=2,则另一个命令的主动对象优先级减1;
ⅳ距离主动对象物体最近的物体加1;
集合Pobjs中的元素原始优先级全为0;根据上述优先级规则,得到修改后的优先级对象集合PPobj,根据其优先级排序,选择优先级最高的对象即为被动对象Pobj
将分析的主动对象Aobj和被动对象Pobj组成对象组合,根据试剂存储集合R将该对象集合转化成对象对应试剂集Htra;再根据意图集合Qn,将集合中的语音表达的试剂名称提取,并形成语音获取试剂名称集Hobj;将语音获取试剂名称集Hobj与对象对应试剂集Htra做交集运算,得到集合Hcom;若Hcom为空集,且语音获取试剂名称集Hobj不为空集,则判断用户的语音与触觉行为不一致,提示用户可能错误;若Hcom为空集,且语音获取试剂名称集Hobj也为空集,则判断为正确,保存对象信息;若Hcom不为空集,也判断为正确,保存对象信息;
23)确定操作词;
用户意图表Uintention的W提供操作词;
24)确定属性词;
意图集合Qn中的属性类组成属性集合Vs;其中,触觉部分的属性集合Tatt根据多模态属性映射表Matt,得到触觉与语音对应的属性集合TVatt;听觉部分的属性集合Vatt,根据意图行为可操作信息表Ii的属性值Value得到符合该意图的属性词Vattnew;将TVatt与Vattnew做交集运算得到交集集合Atv,若Atv为空集且Vattnew不为空集,则提示用户语音与触觉操作不一致;若Atv为空集且Vattnew为空集,或Atv为不空集,则使用该交集属性值填充意图行为节点。
CN201910544618.7A 2019-06-21 2019-06-21 一种多模态融合实验系统及其使用方法 Active CN110286764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910544618.7A CN110286764B (zh) 2019-06-21 2019-06-21 一种多模态融合实验系统及其使用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910544618.7A CN110286764B (zh) 2019-06-21 2019-06-21 一种多模态融合实验系统及其使用方法

Publications (2)

Publication Number Publication Date
CN110286764A CN110286764A (zh) 2019-09-27
CN110286764B true CN110286764B (zh) 2022-11-04

Family

ID=68004254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910544618.7A Active CN110286764B (zh) 2019-06-21 2019-06-21 一种多模态融合实验系统及其使用方法

Country Status (1)

Country Link
CN (1) CN110286764B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651035B (zh) * 2020-04-13 2023-04-07 济南大学 一种基于多模态交互的虚拟实验系统及方法
CN111675184A (zh) * 2020-06-17 2020-09-18 济南大学 智能分液漏斗及其操作方法
CN114065764B (zh) * 2020-07-29 2024-09-06 阿里巴巴集团控股有限公司 多模态任务处理装置和方法
CN111968470B (zh) * 2020-09-02 2022-05-17 济南大学 一种面向虚实融合的闯关交互式实验方法和系统
CN112099633A (zh) * 2020-09-16 2020-12-18 济南大学 一种多模态感知的智能实验方法及装置
CN112132039B (zh) * 2020-09-23 2023-08-08 深兰科技(上海)有限公司 基于lstm和手工特征实现动作分类的方法、系统
CN112308116B (zh) * 2020-09-28 2023-04-07 济南大学 一种助老陪护机器人的自调优多通道融合方法和系统
CN113495772A (zh) * 2021-07-01 2021-10-12 电子科技大学 一种实验操作信息显示方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9302393B1 (en) * 2014-04-15 2016-04-05 Alan Rosen Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes
CN108646919A (zh) * 2018-05-10 2018-10-12 北京光年无限科技有限公司 基于虚拟人的视觉交互方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9302393B1 (en) * 2014-04-15 2016-04-05 Alan Rosen Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes
CN108646919A (zh) * 2018-05-10 2018-10-12 北京光年无限科技有限公司 基于虚拟人的视觉交互方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多模态信息融合的语音意图理解方法;郑彬彬等;《中国科技论文在线》;20110715(第07期);全文 *

Also Published As

Publication number Publication date
CN110286764A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110286764B (zh) 一种多模态融合实验系统及其使用方法
CN110852100B (zh) 关键词提取方法、装置、电子设备及介质
EP3400539B1 (en) Determining graphical elements associated with text
CN107291783B (zh) 一种语义匹配方法及智能设备
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
US20180173692A1 (en) Iconographic symbol predictions for a conversation
US10838951B2 (en) Query interpretation disambiguation
JP2006190006A5 (zh)
KR102430285B1 (ko) 시각장애인용 키오스크 장치 및 이의 동작방법
CN109034203A (zh) 表情推荐模型的训练、表情推荐方法、装置、设备及介质
CN110309570B (zh) 一种具有认知能力的多模态仿真实验容器及方法
CN110245253B (zh) 一种基于环境信息的语义交互方法及系统
CN108776677B (zh) 平行语句库的创建方法、设备及计算机可读存储介质
JP2022500808A (ja) 文生成方法と装置、電子機器及びプログラム
WO2023040516A1 (zh) 一种事件整合方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN114610887A (zh) 坐席违规话术识别方法、装置、电子设备、存储介质
CN112232066A (zh) 一种教学纲要生成方法、装置、存储介质及电子设备
CN109272983A (zh) 用于亲子教育的双语切换装置
JP2016189089A (ja) 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置
US11709872B2 (en) Computer-readable recording medium storing response processing program, response processing method, and information processing apparatus
CN114490967B (zh) 对话模型的训练方法、对话机器人的对话方法、装置和电子设备
CN115269961A (zh) 内容搜索方法以及相关设备
CN113111664B (zh) 文本的生成方法、装置、存储介质及计算机设备
CN114970562A (zh) 语义理解方法、装置、介质及设备
CN113407673A (zh) 基于语义的题目作答评判方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant