CN114093025A - 一种多模态意图逆向主动融合的人机协同方法和系统 - Google Patents
一种多模态意图逆向主动融合的人机协同方法和系统 Download PDFInfo
- Publication number
- CN114093025A CN114093025A CN202111286035.2A CN202111286035A CN114093025A CN 114093025 A CN114093025 A CN 114093025A CN 202111286035 A CN202111286035 A CN 202111286035A CN 114093025 A CN114093025 A CN 114093025A
- Authority
- CN
- China
- Prior art keywords
- intention
- user
- information
- modal
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000011156 evaluation Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 12
- 230000000694 effects Effects 0.000 abstract description 8
- 230000003993 interaction Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 11
- 239000000284 extract Substances 0.000 description 10
- 239000003814 drug Substances 0.000 description 7
- 230000010365 information processing Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 5
- 241001122767 Theaceae Species 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000006854 communication Effects 0.000 description 3
- 230000009133 cooperative interaction Effects 0.000 description 3
- 208000000044 Amnesia Diseases 0.000 description 2
- 208000031091 Amnestic disease Diseases 0.000 description 2
- 230000006986 amnesia Effects 0.000 description 2
- 239000002220 antihypertensive agent Substances 0.000 description 2
- 229940127088 antihypertensive drug Drugs 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000035622 drinking Effects 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 238000012854 evaluation process Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 206010027175 memory impairment Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000190070 Sarracenia purpurea Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 206010003246 arthritis Diseases 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000003863 physical function Effects 0.000 description 1
- 201000010041 presbyopia Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提出了一种多模态意图逆向主动融合的人机协同方法和系统,该方法包括获取用户的模态信息;模态信息包括语音、手势和体态信息;基于模态信息进行意图分析推理出用户的直接意图,直接意图通过推理知识库得到用户的间接意图;从间接意图中分析出可能性最大的意图作为真实意图;通过对真实意图下用户的模态信息进行信任度评价得到可执行意图;分析可执行意图,给用户和机器人分配协同任务。基于该方法,还提出了人机协同系统,本发明信任度评价方法综合了时间因素、历史因素、单模态信息熵和单模态识别可信度,对用户表达的错误意图进行规避,真正达到了陪护效果。采用了自适应机制,将用户的习惯作为系统决策的因素,提高意图提取准确率。
Description
技术领域
本发明属于多模态意图融合技术领域,特别涉及一种多模态意图逆向主动融合的人机协同方法和系统。
背景技术
服务型机器人可以为人们带来很大的便利,它们在减少人类社会对服务行业人员需求的同时,给人们带来了更高质量的生活。现在有很多机器人走进了家庭,成为家庭的好帮手。然而,现在很少有服务型机器人考虑到老年人的特点去设计,发展助老陪护机器人有很多挑战。对于一个年轻人来说,去实现自己的想法,是一件相对容易的事,但是,这项任务对于身体各项机能衰退的老年人来说可能是有困难的。例如,年轻人觉得身体不适,他可以自己取出药品按照服用剂量去服用,但是对于老年人来说,因为关节炎等疾病,伸手拿药、提暖瓶等对于他们来说都是十分费力的工作,而且随着年龄的增长,“老花眼”成了老年人的通病,他们无法看清药品的说明书,无法知道药品服用剂量,这使得老人自主生活能力下降。让机器人服务老人的生活,这就需要机器人进行环境识别,这涉及到计算机视觉问题,如目标识别、目标定位和对象姿态估计等。
另一个挑战是人机交互时缺乏充分的沟通。对于一个常人来说,直接表达他们的意图是相对容易的,然而对于表达能力衰退的老年人来说是一件相当困难的事,通常老年人表达意图时,他们的手势和体态表达的信息往往是十分重要的,很多服务型机器人忽略了这一点,仅仅使用语音进行交互时的意图理解,这样的交互效率时十分低下的。人机交互过程中机器人对人类意图理解的准确性取决于他们之间的沟通能力和机器人可识别的模态通道数。因此,意图识别问题也被提到了最前沿,因为这是成功协作的必要条件。这些意图由人们各个模态表达的一系列信息和环境推断出来,为了创造出能够胜任照顾老年人的助老机器人,我们必须赋予机器人这种智能型,以便更好地理解老年人的意图。
还有一个比较棘手的问题就是现阶段大多数的服务型机器人无法意识到用户表达的错误意图。对于年轻人来说,表达错误意图的概率是很小的,因为他们对自己做过什么事情记得很清楚。但是由于老年人的记忆力衰退,表达错误意图的概率急剧增加,他们表达的意图可能并不是他们真正需要的事,比如,老人在一小时前泡了茶,由于健忘他忘记了之前泡的茶,又将之前的茶叶倒掉,重新换上了新的茶叶;或者是老人在饭后吃过了降压药,但是由于健忘,午休后又吃了一次降压药等等。这类由健忘问题引发的错误意图,或者由于老人表达有误提取出的错误意图,都严重影响了老年人的生活质量和身体健康。我们需要一套信任度评价机制来降低错误意图被执行的次数,信任度评价机制是指机器人对提取出的意图进行可行性分析,意图的可行性是指它不为错误意图的概率,意图信任度达标才被机器人执行。举个例子,老人在表达不清晰时,机器人会通过信任度评价机制的逆向思维主动与老年人沟通,在沟通过程中,不断获得有价值的信息,最终机器人根据老人可能意图的概率选择最大的概率的意图,并进行意图信任度评价,得到老人最终想要表达意图。对于现在的服务型机器人,假设老人不清晰的表达中可能推测出多个不同意图,机器人对于用户想要执行的意图,可以采取一个一个询问的方式确定最终意图,但这极大地增加了交互负荷。
发明内容
为了解决上述技术问题,本发明提出了一种多模态意图逆向主动融合的人机协同方法和系统,本发明信任度评价方法综合了时间因素、历史因素、单模态信息熵和单模态识别可信度,尽最大努力做到简单客观评价,对用户表达的错误意图进行规避,真正达到了陪护效果;采用了自适应机制,将用户的习惯作为系统决策的因素,提高意图提取准确率。
为实现上述目的,本发明采用以下技术方案:
一种多模态意图逆向主动融合的人机协同方法,包括以下步骤:
获取用户的模态信息;所述模态信息包括语音信息、手势信息和体态信息;基于所述模态信息进行意图分析推理出用户的直接意图,直接意图通过推理知识库得到用户的间接意图;从间接意图中分析出可能性最大的意图作为真实意图;
通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图;以及分析用户的可执行意图,给用户和机器人分配协同任务。
进一步的,所述从间接意图中分析出可能性最大的意图作为真实意图的方法为:
将间接意图D(a)、D(b)和D(c)进行意图融合得到融合意图集合;所述融合意图结合I(abc)=D(a)∩D(b)∩D(c);其中,D(a)为语音信息间接意图;D(b)为手势信息间接意图;D(c)为体态信息间接意图;
对融合意图集合进行意图提取;若I(abc)为空集,则重新输入要表达的意图;若I(abc)中有且仅有一个元素,则所述原始为真实意图;若I(abc)中有多个元素,则通过改进后的隐马尔科夫模型提取出可能性最大的意图作为真实意图。
进一步的,所述通过改进后的隐马尔科夫模型提取出可能性最大的意图作为真实意图的详细过程为:
其中,i为第i个融合意图;F(x)为x模态信息的直接意图;x∈(a,b,c);
进一步的,所述通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图信任度评价的计算公式为:
CFx(Y)=CF(Y,F(x))*max(0,CF(F(x))),x=a,b;
其中,CF(Y,F(x))的域值控制在[-1,1];cx(Y)为x模态下浅层意图推理出真实意图Y的次数;∑cx为x模态下浅层意图推理所有意图次数的总和;Pstart(Y)为真实意图Y在当前时刻下发生的概率;
其中,CFx(Y)为在只考虑x模态信息下Y真实意图可信度;CF(Y)为在考虑多模态信息下Y真实意图可信度;μa为语音信息的识别率;μb为手势信息的识别率。
进一步的,所述方法还包括:判断CF(Y)是否大于th;其中th为意图可信度临界点;如果CF(Y)≥th,则将真实意图Y作为可执行意图;如果CF(Y)<th;说明真实意图Y不满信任度要求。
进一步的,在所述真实意图Y不满信任度要求时,则通过逆向分析找出不满足信任度要求的融合信息;逆向分析的公式为:M(x)=P(F(x)Y),x∈(a,b,c,t)M(x)为逆向分析得到的单模态信息可信度;
如果是语音信息或手势信息信任度不满足条件,则系统会主动提示用户再次输入语音或手势;若是体态信息信任度不符合条件,则系统会主动告知用户该如何做;若是时间不满足条件,则系统会再次向用户进行意图确认;最后得到可执行意图E。
进一步的,所述任务协同模块执行的过程为:
分析可执行意图E所需要的物品,对用户进行体态识别,并检测用户可控范围内的物品,如果E需要的物品之一在用户可控范围内,分配给用户的子任务为拿可控范围内的物品,分配给机器人的任务为拿剩余需要用的物品;
若用户可控范围内不存在可执行意图E所需要的物品,就需要分析用户体态;根据用户体态,给机器人分配任务。
本发明还提出了一种多模态意图逆向主动融合的人机协同系统,所述系统包括获取模块、分析模块、评价模块和分配模块;
所述获取模块用于获取用户的模态信息;所述模态信息包括语音信息、手势信息和体态信息;
所述分析模块用于基于所述模态信息进行意图分析推理出用户的直接意图,直接意图通过推理知识库得到用户的间接意图;从间接意图中分析出可能性最大的意图作为真实意图;
所述评价模块用于通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图;
所述分配模块用于分析用户的可执行意图,给用户和机器人分配协同任务。
进一步的,所述评价模块还包括逆向分析模块;所述逆向分析模块执行的过程为:真实意图Y不满信任度要求时,则通过逆向分析找出不满足信任度要求的融合信息;逆向分析的公式为:M(x)=P(F(x)|Y),x∈(a,b,c,t)M(x)为逆向分析得到的单模态信息可信度;
如果是语音信息或手势信息信任度不满足条件,则系统会主动提示用户再次输入语音或手势;若是体态信息信任度不符合条件,则系统会主动告知用户该如何做;若是时间不满足条件,则系统会再次向用户进行意图确认;最后得到可执行意图E。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明提出了一种多模态意图逆向主动融合的人机协同方法和系统,该方法包括获取用户的模态信息;模态信息包括语音信息、手势信息和体态信息;基于模态信息进行意图分析推理出用户的直接意图,直接意图通过推理知识库得到用户的间接意图;从间接意图中分析出可能性最大的意图作为真实意图;通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图;以及分析用户的可执行意图,给用户和机器人分配协同任务。本发明接收用户的体态、手势和语音三种模态的信息并进行处理,利用知识库推理分别得到三个模态的意图集后,将三个模态的意图集进行融合,此时融合后的意图可能是一个或多个,也有可能为空,因为不能排除用户表达不清晰或用户表达有歧义使得系统提取出多个意图或未提取出意图的情况。当融合意图为空时,系统主动要求用户重新输入所有模态意图,重新进行意图提取。当融合意图为多个意图时,提取出唯一一个最有可能的意图并对其进行可信度评估。可信度评估是指评价意图为真的可信程度,意图的信任度越高,说明系统越确定意图是正确的,这样做的目的是为了提高意图提取的准确率。评估过程需要结合历史决策和现在的时间,如果意图评估结果未达到要求,系统将进行逆向分析,即根据系统提取出的意图逆向判断是哪一个模态信息最有可能导致意图信任度过低,并给予相应提示,要求用户重新输入此模态的信息,新输入的信息将替换此模态原有信息,与原有其他模态信息融合再次进行意图提取和评估过程。如果意图可信,则系统会根据用户的体态信息进行意图的协同任务分析,即分析如何分配任务才可使得用户利益最大化,分析完成后,系统将子任务分别分配给用户和机器人,并将此次执行的意图和执行的时间记录到机器人的决策历史信息中。最后,用户与机器人进行协同交互,完成本次任务。
本发明可接收非相互独立条件下的多模态信息,用户交互方式不受限制;在用户表达不清晰时,系统会提取出多个意图并进行自主决策,降低了用户交互负荷。
本发明信任度评价方法综合了时间因素、历史因素、单模态信息熵和单模态识别可信度,尽最大努力做到简单客观评价,对用户表达的错误意图进行规避,真正达到了陪护效果。
本发明采用了自适应机制,将用户的习惯作为系统决策的因素,提高意图提取准确率。
附图说明
如图1为本发明实施例1一种多模态意图逆向主动融合的人机协同方法实现的总体框图;
如图2为本发明实施例1一种多模态意图逆向主动融合的人机协同方法实现的详细框图;
如图3为本发明实施例1自适应机制的原理示意图;
如图4为本发明实施例1任务协同实现的框图;
如图5为本发明实施例2一种多模态意图逆向主动融合的人机协同系统示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例1
本发明实施例1提出了一种多模态意图逆向主动融合的人机协同方法,本发明的目标是正确理解用户所要表达的意图并分配协同交互任务,人机协同交互任务是需要人与机器人共同完成的。
如图1为本发明实施例1一种多模态意图逆向主动融合的人机协同方法实现的总体框图;完整的交互过程应分为6个阶段,即用户输入、信息处理、意图识别、信任度评价、任务协同分析、人与机器人协同交互。
如图2为本发明实施例1一种多模态意图逆向主动融合的人机协同方法实现的详细框图;系统框架由四部分组成,分别是信息处理、意图识别、信任度评价和任务协同。信息处理对应着图1的用户输入和信息处理,意图识别对应着图1的意图识别,信任度评价对应着图1的信任度评价,任务协同对应着图1的任务协同分析和人与机器人协同交互。
在信息处理阶段,用户主动发起交互时,系统获取用户的语音信息、手势信息和体态信息。语音信息的处理是通过百度语音识别技术进行识别并转换成文字信息,再将文字信息进行关键字匹配,从而确定用户的意图,平均准确率可以达到98%。手势信息采用我们实验室研发的手势识别系统进行识别,通过kinect2.0测试平均识别率达到99%。体态信息处理过程先使用Kinect2.0获取人体骨骼点信息,根据用户骨骼点信息进行模板匹配,初步得到用户的状态信息(例如:坐着、站着、躺着、弯腰等),然后使用YOLOv3目标识别网络进一步识别出用户的体态(例如:拿着书本坐着、拿着水杯站着、戴着眼镜躺着等),此模态平均识别率可达到98%。然后将这三个模态得到的初步信息均进行意图识别。
意图识别包括意图分析、意图融合、意图提取。在意图分析阶段,系统将输入的三个模态信息进行推理,每个模态的推理过程是并列进行的,系统根据模态信息推理出用户可能的直接意图集合F(x)(也称为浅层意图),F(x)通过推理知识库得到用户可能的间接意图集合D(x)(也称为深层意图),由浅层意图推理出深层意图的做法主要是解决用户表达不清导致出现歧义的问题,这也符合平时人的表达习惯,比如,人的浅层意图是看不清东西,其深层意图可能是需要眼镜、调亮灯光等等。这样做不仅提高了意图提取的准确率和陪护质量,而且方便了信任度评价时的逆向模态分析。系统将把三个模态信息推理得到的间接意图集合D(a)、D(b)和D(c)输入到意图融合阶段。
在意图融合阶段,系统会直接将输入的三个间接意图集合进行析取操作,得到融合意图集合I(abc)=D(a)∩D(b)∩D(c),并将其输入到意图提取阶段。
在意图提取阶段,对于输入的I(abc)意图集合,若I(abc)为空集,则说明三个模态表达的意图不同,这致使系统无法继续执行后续操作,系统会提示用户重新输入想要表达的意图,重复先前工作;若得到的I(abc)集合中有且只有一个元素,则说明所得到的这个元素即为真实意图的概率最大;若得到的I(abc)集合中有多个元素,则说明用户的输入信息存在表达不清晰或表达有歧义的情况,我们提出的方法是让系统来计算I(abc)集合中有意图元素的可能性,提取出可能性最大的意图元素作为用户的真实意图。
本发明提出了一种改进的HMM(IHMM),这适用于我们系统提取最大可能性意图。在HMM中,输入内容为事物的“显状态”,“显状态”就是显而易见的一系列事实,输出内容为“隐状态”,“隐状态”就是隐藏在“显状态”下的最有可能发生的一系列间接事实,与之相对,我们提出的IHMM输入“显状态”就是用户输入的三个模态信息,输出的“隐状态”就是在I(abc)集合中,用户最有可能表达的真实意图。HMM与我们提出的IHMM在数据结构上有两个区别:(1)HMM中输入的“显状态”之间是相互独立的,而IHMM中用户输入的三种模态之间的关系可能是相互独立的,也可能是互补的。(2)HMM输出的是最有可能的隐状态序列,是多个节点组合成的链,而IHMM得出的是最有可能的隐状态节点,是唯一一个意图节点,而非意图链。在原理上,HMM与IHMM的区别是:HMM求得的是隐状态之间连接情况的概率,IHMM是求单个隐状态节点的概率。如下公式(1)为IHMM模型。
其中,i为第i个融合意图;F(x)为x模态信息的直接意图;x∈(a,b,c);Pstart(I(abc)[i])为融合意图i在当前时刻下发生的概率;为在当前时间情况下,上一次的决策意图与融合意图i的转换概率;Iij代表意图转换次数;代表总的意图数;为在I(a,b,c)[i]发生的条件下,用户发出F(x)的概率;Y为真实意图。
如图3为本发明实施例1自适应机制的原理示意图,系统会将用户的每一个意图和意图之间的转换次数Iij作为历史信息记录在如下表2中,并且会将得出此意图的浅层意图进行记录,即记录用户的浅层意图更偏向表达哪一个深层意图,如下表3所示,以便系统更好地了解用户的习惯,更容易提取出正确的用户意图。其中图3中,Iij代表的是意图转换次数,例如:I12表示在时间轴上用户表达的两次相连意图分别为“喝水”和“吃药”的次数,即用户执行“喝水”后,又执行“吃药”的次数。用户每执行一次意图,自适应机制都会做出相应更新。
P(I(abc)[i]|F(x)对应HMM中的事件发射概率,不同于HMM的是,我们在计算意图节点可能性的时候使用的是三个模态发射概率的乘积,这是因为I(abc)[i]是根据三个模态的信息推理得来,每个模态信息都对提取I(abc)[i]有所贡献。系统根据上面的算法将I(abc)中所有意图元素的可能性算出来之后,取最大可能性的意图作为真实意图Y,意图识别任务完成,我们将识别出的意图进行信任度评价。
在进行信任度评价时,改进的C-F模型,可以从不确定性的初始证据及其加权因子出发,应用不确定性的推理规则,最终推出具有一定的不确定性但却是近乎合理的结论。在不确定条件下得到真实而客观的评估结果,为和谐的人机交互提供科学的决策依据,在改进的C-F评估模型中,我们综合了时间因素、历史因素、单模态信息熵和单模态识别可信度,比原有的C-F可信度模型更加客观、更加准确、推理能力更强。信任度评价的公式(3)和(4):
CFx(Y)=CF(Y,F(x))*max(0,CF(F(x))),x=a,b;
在原有的C-F模型中,证据不确定性一个可信度因子,表示前提条件与结论的联系程度,它带有较大的主观性和经验性,这样使得推理结果准确性难以把握,而在我们改进的C-F中,使用Pstart(Y)和cx来作为证据不确定性的组成元素,这样做使得推理结果更具有客观性,而且自适应机制会使推理结果更加准确。
cx(Y)为x模态下浅层意图推理出真实意图Y的次数;∑cx为x模态下浅层意图推理所有意图次数的总和;Pstart(Y)为真实意图Y在当前时刻下发生的概率;
D(x)为x模态信息的间接意图;m为D(x)中的元素,
如果D(x)=[1,2,3,4,5],那m就等于1或者2或者3或者4或者5。
其中,CFx(Y)为在只考虑x模态信息下Y真实意图可信度;CF(Y)为在考虑多模态信息下,Y真实意图可信度;μa为语音信息的识别率;μb为手势信息的识别率。
计算出语音和手势模态的可信度CFx(Y)后,接下来我们将计算联合可信度,联合可信度的计算公式如公式(4)所示,我们在原有的C-F公式中加入了本次单模态识别可信度μx,作为单模态信息可信度CFx(Y)的权重,这样的做法是为了保证真实意图可信度更加准确。最后使用公式(4)算出真实意图Y的可信度CF(Y)。
若CF(Y)≥th,则将Y作为可执行意图E;若CF(Y)<th,说明真实意图Y不满足信任度要求,系统会逆向分析是哪一个融合信息不满足条件,利用贝叶斯后验概率算得三个模态下和该时间下意图发生的可信度,如公式(7)。th是根据此意图平均概率状态下获得。
M(x)=P(F(x)|Y),x∈(a,b,c,t) (7)
根据得到的M(x),就可知融合意图的信任度不满足条件的原因,若是语音或手势模态信任度不满足条件,则系统会主动提示用户再次输入语音或手势;若是体态信息不符合条件,则系统会主动告知用户该如何做;若是时间不满足条件,则系统会再次向用户进行意图确认,避免用户因为健忘而表达错误意图。系统主动获得增强信息后,会再次进行意图的提取和评估,最终提取出可执行意图E,将E输入到任务协同模块中。
如图4为本发明实施例1任务协同实现的框图,系统分析E所需要的物品,对用户进行体态识别,并检测用户可控范围内的物品。如果E需要的物品之一在用户可控范围内,则按照用户利益优先原则进行任务分配,即分配给用户的子任务为拿可控范围内的物品,分配给机器人的任务为拿剩余需要用的物品。若用户可控范围内不存在意图E所需要的物品,就需要分析用户体态,如果用户不方便移动,则所有任务都将分配给机器人。
本发明提出的一种多模态意图逆向主动融合的人机协同方法通过改进的HMM(IHMM)来进行用户多模态意图的识别和改进的C-F模型来对提取出的意图进行可信度评价,具有以下优势:(1)可接收非相互独立条件下的多模态信息,用户交互方式不受限制;(2)在用户表达不清晰时,系统会提取出多个意图并进行自主决策,降低了用户交互负荷;(3)信任度评价方法综合了时间因素、历史因素、单模态信息熵和单模态识别可信度,尽最大努力做到简单客观评价,对用户表达的错误意图进行规避,真正达到了陪护效果;(4)采用了自适应机制,将用户的习惯作为系统决策的因素,提高意图提取准确率。下面是本系统的算法框图。
在现阶段的服务型机器人开发中,只有在I(abc)的元素个数有且只有一个时才能正常运行,这也是保证系统意图提取正确的前提,但是遇到用户表达不清晰或表达有歧义的情况时,即I(abc)集合中有多个元素时,这些系统都无法提取真实意图来处理,它们往往选择要求用户重新使用系统来提高意图提取的正确性,这不仅增加了交互时长,同时则增大了用户负荷,但是,对于此种情况,用户的真实意图是有极大可能性存在于I(abc)集合中的,这样做有效节省了交互时间并且降低了用户负荷。隐马尔可夫模型(HMM)是一种可以得出所有情况中最有可能发生的情况的算法,它也在常被应用于意图理解中。
可信度的评测方法中,C-F模型深受青睐,它对许多实际应用都是一个合理而有效的推理模式,而且该方法比较直观、简单,因此,在很多领域获得较广泛的应用。原有的C-F决策过程中存在大量的经验性知识(各种事实证据以及这些证据的因果关系)一般都带有某种程度的不确定性。在此情况下,如仍用传统的经验式逻辑做意图可信度处理,就势必要把系统推理的不确定性及用户之间客观存在的不确定性划归为确定性的,这无疑会舍弃事物的某些重要属性,从而失去了真实性。因此,我们尝试将改进的C-F推理模型方法应用到人机交互的意图信任度评价来。
实施例2
基于本发明实施例1提出的一种多模态意图逆向主动融合的人机协同方法,本发明实施例2还提出了一种多模态意图逆向主动融合的人机协同系统,如图5为本发明实施例2一种多模态意图逆向主动融合的人机协同系统示意图,该系统包括获取模块、分析模块、评价模块和分配模块;
获取模块用于获取用户的模态信息;所述模态信息包括语音信息、手势信息和体态信息;
分析模块用于基于所述模态信息进行意图分析推理出用户的直接意图,直接意图通过推理知识库得到用户的间接意图;从间接意图中分析出可能性最大的意图作为真实意图;
评价模块用于通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图;
分配模块用于分析用户的可执行意图,给用户和机器人分配协同任务。
评价模块还包括逆向分析模块;逆向分析模块执行的过程为:真实意图Y不满信任度要求时,则通过逆向分析找出不满足信任度要求的融合信息;逆向分析的公式为:M(x)=P(F(x)|Y),x∈(a,b,c,t)M(x)为逆向分析得到的单模态信息可信度;
如果是语音信息或手势信息信任度不满足条件,则系统会主动提示用户再次输入语音或手势;若是体态信息信任度不符合条件,则系统会主动告知用户该如何做;若是时间不满足条件,则系统会再次向用户进行意图确认;最后得到可执行意图E。
其中分析模块中,从间接意图中分析出可能性最大的意图作为真实意图的方法为:将间接意图D(a)、D(b)和D(c)进行意图融合得到融合意图集合;所述融合意图结合I(abc)=D(a)∩D(b)∩D(c);其中,D(a)为语音信息间接意图;D(b)为手势信息间接意图;D(c)为体态信息间接意图;
对融合意图集合进行意图提取;若I(abc)为空集,则重新输入要表达的意图;若I(abc)中有且仅有一个元素,则所述原始为真实意图;若I(abc)中有多个元素,则通过隐马尔科夫模型提取出可能性最大的意图作为真实意图。
分析模块中,通过隐马尔科夫模型提取出可能性最大的意图作为真实意图的详细过程为:
其中,i为第i个融合意图;F(x)为x模态信息的直接意图;x∈(a,b,c);Pstart(I(abc)[i])为融合意图i在当前时刻下发生的概率;为在当前时间情况下,上一次的决策意图与融合意图i的转换概率;Iij代表意图转换次数;代表总的意图数;为在I(a,b,c)[i]发生的条件下,用户发出F(x)的概率;Y为真实意图。
通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图的公式为:
CFx(Y)=CF(Y,F(x))*max(0,CF(F(x))),x=a,b;
其中,CF(Y,F(x))的域值控制在[-1,1];cx(Y)为x模态下浅层意图推理出真实意图Y的次数;∑cx为x模态下浅层意图推理所有意图次数的总和;Pstart(Y)为真实意图Y在当前时刻下发生的概率;
如果D(x)=[1,2,3,4,5],那m就等于1或者2或者3或者4或者5。
其中,CFx(Y)为在只考虑x模态信息下Y真实意图可信度;CF(Y)为在考虑多模态信息下,Y真实意图可信度;μa为语音信息的识别率;μb为手势信息的识别率。
还包括:判断CF(Y)是否大于th;其中th为意图可信度临界点;如果CF(Y)≥th,则将真实意图Y作为可执行意图;如果CF(Y)<th;说明真实意图Y不满信任度要求。
在真实意图Y不满信任度要求时,则通过逆向分析找出不满足信任度要求的融合信息;逆向分析的公式为:M(x)=P(F(x)|Y),x∈(a,b,c,t)M(x)为逆向分析得到的单模态信息可信度;
如果是语音信息或手势信息信任度不满足条件,则系统会主动提示用户再次输入语音或手势;若是体态信息信任度不符合条件,则系统会主动告知用户该如何做;若是时间不满足条件,则系统会再次向用户进行意图确认;最后得到可执行意图E。
任务协同模块执行的过程为:
分析可执行意图E所需要的物品,对用户进行体态识别,并检测用户可控范围内的物品,如果E需要的物品之一在用户可控范围内,分配给用户的子任务为拿可控范围内的物品,分配给机器人的任务为拿剩余需要用的物品;
若用户可控范围内不存在可执行意图E所需要的物品,就需要分析用户体态;根据用户体态,给机器人分配任务。
本发明实施例2提出的模态意图逆向主动融合的人机协同系统可接收非相互独立条件下的多模态信息,用户交互方式不受限制;在用户表达不清晰时,系统会提取出多个意图并进行自主决策,降低了用户交互负荷。
本发明信任度评价方法综合了时间因素、历史因素、单模态信息熵和单模态识别可信度,尽最大努力做到简单客观评价,对用户表达的错误意图进行规避,真正达到了陪护效果。
本发明采用了自适应机制,将用户的习惯作为系统决策的因素,提高意图提取准确率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (9)
1.一种多模态意图逆向主动融合的人机协同方法,其特征在于,包括以下步骤:
获取用户的模态信息;所述模态信息包括语音信息、手势信息和体态信息;基于所述模态信息进行意图分析推理出用户的直接意图,直接意图通过推理知识库得到用户的间接意图;从间接意图中分析出可能性最大的意图作为真实意图;
通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图;以及分析用户的可执行意图,给用户和机器人分配协同任务。
2.根据权利要求1所述的一种多模态意图逆向主动融合的人机协同方法,其特征在于,所述从间接意图中分析出可能性最大的意图作为真实意图的方法为:
将间接意图D(a)、D(b)和D(c)进行意图融合得到融合意图集合;所述融合意图结合I(abc)=D(a)∩D(b)∩D(c);其中,D(a)为语音信息间接意图;D(b)为手势信息间接意图;D(c)为体态信息间接意图;
对融合意图集合进行意图提取;若I(abc)为空集,则重新输入要表达的意图;若I(abc)中有且仅有一个元素,则所述原始为真实意图;若I(abc)中有多个元素,则通过改进后的隐马尔科夫模型提取出可能性最大的意图作为真实意图。
4.根据权利要求3所述的一种多模态意图逆向主动融合的人机协同方法,其特征在于,所述通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图信任度评价的计算公式为:
CFx(Y)=CF(Y,F(x))*max(0,CF(F(x))),x=a,b;
其中,CF(Y,F(x))的域值控制在[-1,1];cx(Y)为x模态下浅层意图推理出真实意图Y的次数;∑cx为x模态下浅层意图推理所有意图次数的总和;Pstart(Y)为真实意图Y在当前时刻下发生的概率;
其中,CFx(Y)为在只考虑x模态信息下Y真实意图可信度;CF(Y)为在考虑多模态信息下Y真实意图可信度;μa为语音信息的识别率;μb为手势信息的识别率。
5.根据权利要求4所述的一种多模态意图逆向主动融合的人机协同方法,其特征在于,所述方法还包括:判断CF(Y)是否大于th;其中th为意图可信度临界点;如果CF(Y)≥th,则将真实意图Y作为可执行意图;如果CF(Y)<th;说明真实意图Y不满信任度要求。
6.根据权利要求5所述的一种多模态意图逆向主动融合的人机协同方法,其特征在于,在所述真实意图Y不满信任度要求时,则通过逆向分析找出不满足信任度要求的融合信息;逆向分析的公式为:M(x)=P(F(x)|Y),x∈(a,b,c,t)M(x)为逆向分析得到的单模态信息可信度;
如果是语音信息或手势信息信任度不满足条件,则系统会主动提示用户再次输入语音或手势;若是体态信息信任度不符合条件,则系统会主动告知用户该如何做;若是时间不满足条件,则系统会再次向用户进行意图确认;最后得到可执行意图E。
7.根据权利要求6所述的一种多模态意图逆向主动融合的人机协同方法,其特征在于,所述任务协同模块执行的过程为:
分析可执行意图E所需要的物品,对用户进行体态识别,并检测用户可控范围内的物品,如果E需要的物品之一在用户可控范围内,分配给用户的子任务为拿可控范围内的物品,分配给机器人的任务为拿剩余需要用的物品;
若用户可控范围内不存在可执行意图E所需要的物品,就需要分析用户体态;根据用户体态,给机器人分配任务。
8.一种多模态意图逆向主动融合的人机协同系统,其特征在于,获取模块、分析模块、评价模块和分配模块;
所述获取模块用于获取用户的模态信息;所述模态信息包括语音信息、手势信息和体态信息;
所述分析模块用于基于所述模态信息进行意图分析推理出用户的直接意图,直接意图通过推理知识库得到用户的间接意图;从间接意图中分析出可能性最大的意图作为真实意图;
所述评价模块用于通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图;
所述分配模块用于分析用户的可执行意图,给用户和机器人分配协同任务。
9.根据权利要求8所述的一种多模态意图逆向主动融合的人机协同系统,其特征在于,所述评价模块还包括逆向分析模块;所述逆向分析模块执行的过程为:真实意图Y不满信任度要求时,则通过逆向分析找出不满足信任度要求的融合信息;逆向分析的公式为:M(x)=P(F(x)|Y),x∈(a,b,c,t)M(x)为逆向分析得到的单模态信息可信度;
如果是语音信息或手势信息信任度不满足条件,则系统会主动提示用户再次输入语音或手势;若是体态信息信任度不符合条件,则系统会主动告知用户该如何做;若是时间不满足条件,则系统会再次向用户进行意图确认;最后得到可执行意图E。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111286035.2A CN114093025A (zh) | 2021-10-29 | 2021-10-29 | 一种多模态意图逆向主动融合的人机协同方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111286035.2A CN114093025A (zh) | 2021-10-29 | 2021-10-29 | 一种多模态意图逆向主动融合的人机协同方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114093025A true CN114093025A (zh) | 2022-02-25 |
Family
ID=80298546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111286035.2A Pending CN114093025A (zh) | 2021-10-29 | 2021-10-29 | 一种多模态意图逆向主动融合的人机协同方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114093025A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114781652A (zh) * | 2022-06-21 | 2022-07-22 | 济南大学 | 一种基于多模态强化学习的人机协同框架 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080051479A (ko) * | 2006-12-05 | 2008-06-11 | 한국전자통신연구원 | 멀티모달 융합 처리 방법 및 그 장치 |
CN112099630A (zh) * | 2020-09-11 | 2020-12-18 | 济南大学 | 一种多模态意图逆向主动融合的人机交互方法 |
CN112099632A (zh) * | 2020-09-16 | 2020-12-18 | 济南大学 | 一种面向助老陪护的人-机器人协同交互方法 |
WO2021023869A1 (en) * | 2019-08-08 | 2021-02-11 | Universite De Lorraine | Audio-driven speech animation using recurrent neutral network |
CN113392918A (zh) * | 2021-06-24 | 2021-09-14 | 哈尔滨理工大学 | 一种基于多源信息融合的抑郁障碍相关因素识别方法 |
-
2021
- 2021-10-29 CN CN202111286035.2A patent/CN114093025A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080051479A (ko) * | 2006-12-05 | 2008-06-11 | 한국전자통신연구원 | 멀티모달 융합 처리 방법 및 그 장치 |
WO2021023869A1 (en) * | 2019-08-08 | 2021-02-11 | Universite De Lorraine | Audio-driven speech animation using recurrent neutral network |
CN112099630A (zh) * | 2020-09-11 | 2020-12-18 | 济南大学 | 一种多模态意图逆向主动融合的人机交互方法 |
CN112099632A (zh) * | 2020-09-16 | 2020-12-18 | 济南大学 | 一种面向助老陪护的人-机器人协同交互方法 |
CN113392918A (zh) * | 2021-06-24 | 2021-09-14 | 哈尔滨理工大学 | 一种基于多源信息融合的抑郁障碍相关因素识别方法 |
Non-Patent Citations (1)
Title |
---|
黄长强;唐传林;黄汉桥;王勇;杜海文: "考虑目标重要性及历史任务信任度的无人机任务决策方法", 兵工学报, vol. 34, no. 3, 31 December 2013 (2013-12-31) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114781652A (zh) * | 2022-06-21 | 2022-07-22 | 济南大学 | 一种基于多模态强化学习的人机协同框架 |
CN114781652B (zh) * | 2022-06-21 | 2022-10-14 | 济南大学 | 一种基于多模态强化学习的人机协同框架 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10777200B2 (en) | Artificial intelligence for mitigating effects of long-term cognitive conditions on patient interactions | |
WO2019144542A1 (en) | Affective interaction systems, devices, and methods based on affective computing user interface | |
Bien et al. | Effective learning system techniques for human–robot interaction in service environment | |
Trick et al. | Multimodal uncertainty reduction for intention recognition in human-robot interaction | |
Adama et al. | Human activity learning for assistive robotics using a classifier ensemble | |
CN117234341B (zh) | 基于人工智能的虚拟现实人机交互方法及系统 | |
CN114093025A (zh) | 一种多模态意图逆向主动融合的人机协同方法和系统 | |
CN112099632B (zh) | 一种面向助老陪护的人-机器人协同交互方法 | |
CN111370102A (zh) | 科室导诊方法、装置以及设备 | |
Ghotkar et al. | Dynamic hand gesture recognition and novel sentence interpretation algorithm for indian sign language using microsoft kinect sensor | |
CN112017742A (zh) | 分诊数据处理方法、装置、计算机设备及存储介质 | |
Holzapfel et al. | Integrating emotional cues into a framework for dialogue management | |
Smith et al. | A dialogue-based interface for active learning of activities of daily living | |
CN109129467A (zh) | 一种基于认知的机器人交互方法及系统 | |
CN116403608A (zh) | 基于多标签纠正和时空协同融合的语音情感识别方法 | |
CA3238545A1 (en) | Diagnosic method and system | |
CN114546326A (zh) | 一种虚拟人手语生成方法和系统 | |
Al-Ma'aitah et al. | Application dependable interaction module for computer vision-based human-computer interactions | |
Djaid et al. | Multimodal Fusion engine for an intelligent assistance robot using Ontology | |
Qiu et al. | Research on Intention Flexible Mapping Algorithm for Elderly Escort Robot | |
CN112308116A (zh) | 一种助老陪护机器人的自调优多通道融合方法和系统 | |
Galkin et al. | A hygiene monitoring system | |
Gao et al. | A Hybrid Method for Implicit Intention Inference Based on Punished-Weighted Naïve Bayes | |
Tabata et al. | Finger spelling recognition using distinctive features of hand shape | |
Stern et al. | A method for selection of optimal hand gesture vocabularies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |