CN114093025A - 一种多模态意图逆向主动融合的人机协同方法和系统 - Google Patents

一种多模态意图逆向主动融合的人机协同方法和系统 Download PDF

Info

Publication number
CN114093025A
CN114093025A CN202111286035.2A CN202111286035A CN114093025A CN 114093025 A CN114093025 A CN 114093025A CN 202111286035 A CN202111286035 A CN 202111286035A CN 114093025 A CN114093025 A CN 114093025A
Authority
CN
China
Prior art keywords
intention
user
information
modal
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111286035.2A
Other languages
English (en)
Inventor
冯志全
郎需婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN202111286035.2A priority Critical patent/CN114093025A/zh
Publication of CN114093025A publication Critical patent/CN114093025A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提出了一种多模态意图逆向主动融合的人机协同方法和系统,该方法包括获取用户的模态信息;模态信息包括语音、手势和体态信息;基于模态信息进行意图分析推理出用户的直接意图,直接意图通过推理知识库得到用户的间接意图;从间接意图中分析出可能性最大的意图作为真实意图;通过对真实意图下用户的模态信息进行信任度评价得到可执行意图;分析可执行意图,给用户和机器人分配协同任务。基于该方法,还提出了人机协同系统,本发明信任度评价方法综合了时间因素、历史因素、单模态信息熵和单模态识别可信度,对用户表达的错误意图进行规避,真正达到了陪护效果。采用了自适应机制,将用户的习惯作为系统决策的因素,提高意图提取准确率。

Description

一种多模态意图逆向主动融合的人机协同方法和系统
技术领域
本发明属于多模态意图融合技术领域,特别涉及一种多模态意图逆向主动融合的人机协同方法和系统。
背景技术
服务型机器人可以为人们带来很大的便利,它们在减少人类社会对服务行业人员需求的同时,给人们带来了更高质量的生活。现在有很多机器人走进了家庭,成为家庭的好帮手。然而,现在很少有服务型机器人考虑到老年人的特点去设计,发展助老陪护机器人有很多挑战。对于一个年轻人来说,去实现自己的想法,是一件相对容易的事,但是,这项任务对于身体各项机能衰退的老年人来说可能是有困难的。例如,年轻人觉得身体不适,他可以自己取出药品按照服用剂量去服用,但是对于老年人来说,因为关节炎等疾病,伸手拿药、提暖瓶等对于他们来说都是十分费力的工作,而且随着年龄的增长,“老花眼”成了老年人的通病,他们无法看清药品的说明书,无法知道药品服用剂量,这使得老人自主生活能力下降。让机器人服务老人的生活,这就需要机器人进行环境识别,这涉及到计算机视觉问题,如目标识别、目标定位和对象姿态估计等。
另一个挑战是人机交互时缺乏充分的沟通。对于一个常人来说,直接表达他们的意图是相对容易的,然而对于表达能力衰退的老年人来说是一件相当困难的事,通常老年人表达意图时,他们的手势和体态表达的信息往往是十分重要的,很多服务型机器人忽略了这一点,仅仅使用语音进行交互时的意图理解,这样的交互效率时十分低下的。人机交互过程中机器人对人类意图理解的准确性取决于他们之间的沟通能力和机器人可识别的模态通道数。因此,意图识别问题也被提到了最前沿,因为这是成功协作的必要条件。这些意图由人们各个模态表达的一系列信息和环境推断出来,为了创造出能够胜任照顾老年人的助老机器人,我们必须赋予机器人这种智能型,以便更好地理解老年人的意图。
还有一个比较棘手的问题就是现阶段大多数的服务型机器人无法意识到用户表达的错误意图。对于年轻人来说,表达错误意图的概率是很小的,因为他们对自己做过什么事情记得很清楚。但是由于老年人的记忆力衰退,表达错误意图的概率急剧增加,他们表达的意图可能并不是他们真正需要的事,比如,老人在一小时前泡了茶,由于健忘他忘记了之前泡的茶,又将之前的茶叶倒掉,重新换上了新的茶叶;或者是老人在饭后吃过了降压药,但是由于健忘,午休后又吃了一次降压药等等。这类由健忘问题引发的错误意图,或者由于老人表达有误提取出的错误意图,都严重影响了老年人的生活质量和身体健康。我们需要一套信任度评价机制来降低错误意图被执行的次数,信任度评价机制是指机器人对提取出的意图进行可行性分析,意图的可行性是指它不为错误意图的概率,意图信任度达标才被机器人执行。举个例子,老人在表达不清晰时,机器人会通过信任度评价机制的逆向思维主动与老年人沟通,在沟通过程中,不断获得有价值的信息,最终机器人根据老人可能意图的概率选择最大的概率的意图,并进行意图信任度评价,得到老人最终想要表达意图。对于现在的服务型机器人,假设老人不清晰的表达中可能推测出多个不同意图,机器人对于用户想要执行的意图,可以采取一个一个询问的方式确定最终意图,但这极大地增加了交互负荷。
发明内容
为了解决上述技术问题,本发明提出了一种多模态意图逆向主动融合的人机协同方法和系统,本发明信任度评价方法综合了时间因素、历史因素、单模态信息熵和单模态识别可信度,尽最大努力做到简单客观评价,对用户表达的错误意图进行规避,真正达到了陪护效果;采用了自适应机制,将用户的习惯作为系统决策的因素,提高意图提取准确率。
为实现上述目的,本发明采用以下技术方案:
一种多模态意图逆向主动融合的人机协同方法,包括以下步骤:
获取用户的模态信息;所述模态信息包括语音信息、手势信息和体态信息;基于所述模态信息进行意图分析推理出用户的直接意图,直接意图通过推理知识库得到用户的间接意图;从间接意图中分析出可能性最大的意图作为真实意图;
通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图;以及分析用户的可执行意图,给用户和机器人分配协同任务。
进一步的,所述从间接意图中分析出可能性最大的意图作为真实意图的方法为:
将间接意图D(a)、D(b)和D(c)进行意图融合得到融合意图集合;所述融合意图结合I(abc)=D(a)∩D(b)∩D(c);其中,D(a)为语音信息间接意图;D(b)为手势信息间接意图;D(c)为体态信息间接意图;
对融合意图集合进行意图提取;若I(abc)为空集,则重新输入要表达的意图;若I(abc)中有且仅有一个元素,则所述原始为真实意图;若I(abc)中有多个元素,则通过改进后的隐马尔科夫模型提取出可能性最大的意图作为真实意图。
进一步的,所述通过改进后的隐马尔科夫模型提取出可能性最大的意图作为真实意图的详细过程为:
Figure BDA0003327952140000031
Figure BDA0003327952140000032
其中,i为第i个融合意图;F(x)为x模态信息的直接意图;x∈(a,b,c);
Pstart(I(abc)[i])为融合意图i在当前时刻下发生的概率;
Figure BDA0003327952140000033
为在当前时间情况下,上一次的决策意图与融合意图i的转换概率;
Figure BDA0003327952140000034
Iij为意图i后发生意图j的次数;
Figure BDA0003327952140000035
为意图i后发生所有意图的总次数;
Figure BDA0003327952140000036
为在I(a,b,c)[i]发生的条件下,用户发出F(x)的概率;Y为真实意图。
进一步的,所述通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图信任度评价的计算公式为:
CFx(Y)=CF(Y,F(x))*max(0,CF(F(x))),x=a,b;
Figure BDA0003327952140000037
其中,CF(Y,F(x))的域值控制在[-1,1];
Figure BDA0003327952140000041
cx(Y)为x模态下浅层意图推理出真实意图Y的次数;∑cx为x模态下浅层意图推理所有意图次数的总和;Pstart(Y)为真实意图Y在当前时刻下发生的概率;
CF(F(x)的域值控制在[-1,1];
Figure BDA0003327952140000042
D(x)为x模态信息的间接意图;m为D(x)中的元素;
其中,CFx(Y)为在只考虑x模态信息下Y真实意图可信度;CF(Y)为在考虑多模态信息下Y真实意图可信度;μa为语音信息的识别率;μb为手势信息的识别率。
进一步的,所述方法还包括:判断CF(Y)是否大于th;其中th为意图可信度临界点;如果CF(Y)≥th,则将真实意图Y作为可执行意图;如果CF(Y)<th;说明真实意图Y不满信任度要求。
进一步的,在所述真实意图Y不满信任度要求时,则通过逆向分析找出不满足信任度要求的融合信息;逆向分析的公式为:M(x)=P(F(x)Y),x∈(a,b,c,t)M(x)为逆向分析得到的单模态信息可信度;
如果是语音信息或手势信息信任度不满足条件,则系统会主动提示用户再次输入语音或手势;若是体态信息信任度不符合条件,则系统会主动告知用户该如何做;若是时间不满足条件,则系统会再次向用户进行意图确认;最后得到可执行意图E。
进一步的,所述任务协同模块执行的过程为:
分析可执行意图E所需要的物品,对用户进行体态识别,并检测用户可控范围内的物品,如果E需要的物品之一在用户可控范围内,分配给用户的子任务为拿可控范围内的物品,分配给机器人的任务为拿剩余需要用的物品;
若用户可控范围内不存在可执行意图E所需要的物品,就需要分析用户体态;根据用户体态,给机器人分配任务。
本发明还提出了一种多模态意图逆向主动融合的人机协同系统,所述系统包括获取模块、分析模块、评价模块和分配模块;
所述获取模块用于获取用户的模态信息;所述模态信息包括语音信息、手势信息和体态信息;
所述分析模块用于基于所述模态信息进行意图分析推理出用户的直接意图,直接意图通过推理知识库得到用户的间接意图;从间接意图中分析出可能性最大的意图作为真实意图;
所述评价模块用于通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图;
所述分配模块用于分析用户的可执行意图,给用户和机器人分配协同任务。
进一步的,所述评价模块还包括逆向分析模块;所述逆向分析模块执行的过程为:真实意图Y不满信任度要求时,则通过逆向分析找出不满足信任度要求的融合信息;逆向分析的公式为:M(x)=P(F(x)|Y),x∈(a,b,c,t)M(x)为逆向分析得到的单模态信息可信度;
如果是语音信息或手势信息信任度不满足条件,则系统会主动提示用户再次输入语音或手势;若是体态信息信任度不符合条件,则系统会主动告知用户该如何做;若是时间不满足条件,则系统会再次向用户进行意图确认;最后得到可执行意图E。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明提出了一种多模态意图逆向主动融合的人机协同方法和系统,该方法包括获取用户的模态信息;模态信息包括语音信息、手势信息和体态信息;基于模态信息进行意图分析推理出用户的直接意图,直接意图通过推理知识库得到用户的间接意图;从间接意图中分析出可能性最大的意图作为真实意图;通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图;以及分析用户的可执行意图,给用户和机器人分配协同任务。本发明接收用户的体态、手势和语音三种模态的信息并进行处理,利用知识库推理分别得到三个模态的意图集后,将三个模态的意图集进行融合,此时融合后的意图可能是一个或多个,也有可能为空,因为不能排除用户表达不清晰或用户表达有歧义使得系统提取出多个意图或未提取出意图的情况。当融合意图为空时,系统主动要求用户重新输入所有模态意图,重新进行意图提取。当融合意图为多个意图时,提取出唯一一个最有可能的意图并对其进行可信度评估。可信度评估是指评价意图为真的可信程度,意图的信任度越高,说明系统越确定意图是正确的,这样做的目的是为了提高意图提取的准确率。评估过程需要结合历史决策和现在的时间,如果意图评估结果未达到要求,系统将进行逆向分析,即根据系统提取出的意图逆向判断是哪一个模态信息最有可能导致意图信任度过低,并给予相应提示,要求用户重新输入此模态的信息,新输入的信息将替换此模态原有信息,与原有其他模态信息融合再次进行意图提取和评估过程。如果意图可信,则系统会根据用户的体态信息进行意图的协同任务分析,即分析如何分配任务才可使得用户利益最大化,分析完成后,系统将子任务分别分配给用户和机器人,并将此次执行的意图和执行的时间记录到机器人的决策历史信息中。最后,用户与机器人进行协同交互,完成本次任务。
本发明可接收非相互独立条件下的多模态信息,用户交互方式不受限制;在用户表达不清晰时,系统会提取出多个意图并进行自主决策,降低了用户交互负荷。
本发明信任度评价方法综合了时间因素、历史因素、单模态信息熵和单模态识别可信度,尽最大努力做到简单客观评价,对用户表达的错误意图进行规避,真正达到了陪护效果。
本发明采用了自适应机制,将用户的习惯作为系统决策的因素,提高意图提取准确率。
附图说明
如图1为本发明实施例1一种多模态意图逆向主动融合的人机协同方法实现的总体框图;
如图2为本发明实施例1一种多模态意图逆向主动融合的人机协同方法实现的详细框图;
如图3为本发明实施例1自适应机制的原理示意图;
如图4为本发明实施例1任务协同实现的框图;
如图5为本发明实施例2一种多模态意图逆向主动融合的人机协同系统示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例1
本发明实施例1提出了一种多模态意图逆向主动融合的人机协同方法,本发明的目标是正确理解用户所要表达的意图并分配协同交互任务,人机协同交互任务是需要人与机器人共同完成的。
如图1为本发明实施例1一种多模态意图逆向主动融合的人机协同方法实现的总体框图;完整的交互过程应分为6个阶段,即用户输入、信息处理、意图识别、信任度评价、任务协同分析、人与机器人协同交互。
如图2为本发明实施例1一种多模态意图逆向主动融合的人机协同方法实现的详细框图;系统框架由四部分组成,分别是信息处理、意图识别、信任度评价和任务协同。信息处理对应着图1的用户输入和信息处理,意图识别对应着图1的意图识别,信任度评价对应着图1的信任度评价,任务协同对应着图1的任务协同分析和人与机器人协同交互。
在信息处理阶段,用户主动发起交互时,系统获取用户的语音信息、手势信息和体态信息。语音信息的处理是通过百度语音识别技术进行识别并转换成文字信息,再将文字信息进行关键字匹配,从而确定用户的意图,平均准确率可以达到98%。手势信息采用我们实验室研发的手势识别系统进行识别,通过kinect2.0测试平均识别率达到99%。体态信息处理过程先使用Kinect2.0获取人体骨骼点信息,根据用户骨骼点信息进行模板匹配,初步得到用户的状态信息(例如:坐着、站着、躺着、弯腰等),然后使用YOLOv3目标识别网络进一步识别出用户的体态(例如:拿着书本坐着、拿着水杯站着、戴着眼镜躺着等),此模态平均识别率可达到98%。然后将这三个模态得到的初步信息均进行意图识别。
意图识别包括意图分析、意图融合、意图提取。在意图分析阶段,系统将输入的三个模态信息进行推理,每个模态的推理过程是并列进行的,系统根据模态信息推理出用户可能的直接意图集合F(x)(也称为浅层意图),F(x)通过推理知识库得到用户可能的间接意图集合D(x)(也称为深层意图),由浅层意图推理出深层意图的做法主要是解决用户表达不清导致出现歧义的问题,这也符合平时人的表达习惯,比如,人的浅层意图是看不清东西,其深层意图可能是需要眼镜、调亮灯光等等。这样做不仅提高了意图提取的准确率和陪护质量,而且方便了信任度评价时的逆向模态分析。系统将把三个模态信息推理得到的间接意图集合D(a)、D(b)和D(c)输入到意图融合阶段。
在意图融合阶段,系统会直接将输入的三个间接意图集合进行析取操作,得到融合意图集合I(abc)=D(a)∩D(b)∩D(c),并将其输入到意图提取阶段。
在意图提取阶段,对于输入的I(abc)意图集合,若I(abc)为空集,则说明三个模态表达的意图不同,这致使系统无法继续执行后续操作,系统会提示用户重新输入想要表达的意图,重复先前工作;若得到的I(abc)集合中有且只有一个元素,则说明所得到的这个元素即为真实意图的概率最大;若得到的I(abc)集合中有多个元素,则说明用户的输入信息存在表达不清晰或表达有歧义的情况,我们提出的方法是让系统来计算I(abc)集合中有意图元素的可能性,提取出可能性最大的意图元素作为用户的真实意图。
本发明提出了一种改进的HMM(IHMM),这适用于我们系统提取最大可能性意图。在HMM中,输入内容为事物的“显状态”,“显状态”就是显而易见的一系列事实,输出内容为“隐状态”,“隐状态”就是隐藏在“显状态”下的最有可能发生的一系列间接事实,与之相对,我们提出的IHMM输入“显状态”就是用户输入的三个模态信息,输出的“隐状态”就是在I(abc)集合中,用户最有可能表达的真实意图。HMM与我们提出的IHMM在数据结构上有两个区别:(1)HMM中输入的“显状态”之间是相互独立的,而IHMM中用户输入的三种模态之间的关系可能是相互独立的,也可能是互补的。(2)HMM输出的是最有可能的隐状态序列,是多个节点组合成的链,而IHMM得出的是最有可能的隐状态节点,是唯一一个意图节点,而非意图链。在原理上,HMM与IHMM的区别是:HMM求得的是隐状态之间连接情况的概率,IHMM是求单个隐状态节点的概率。如下公式(1)为IHMM模型。
Figure BDA0003327952140000091
Figure BDA0003327952140000092
其中,i为第i个融合意图;F(x)为x模态信息的直接意图;x∈(a,b,c);Pstart(I(abc)[i])为融合意图i在当前时刻下发生的概率;
Figure BDA0003327952140000093
为在当前时间情况下,上一次的决策意图与融合意图i的转换概率;
Figure BDA0003327952140000094
Iij代表意图转换次数;
Figure BDA0003327952140000095
代表总的意图数;
Figure BDA0003327952140000096
为在I(a,b,c)[i]发生的条件下,用户发出F(x)的概率;Y为真实意图。
如图3为本发明实施例1自适应机制的原理示意图,系统会将用户的每一个意图和意图之间的转换次数Iij作为历史信息记录在如下表2中,并且会将得出此意图的浅层意图进行记录,即记录用户的浅层意图更偏向表达哪一个深层意图,如下表3所示,以便系统更好地了解用户的习惯,更容易提取出正确的用户意图。其中图3中,Iij代表的是意图转换次数,例如:I12表示在时间轴上用户表达的两次相连意图分别为“喝水”和“吃药”的次数,即用户执行“喝水”后,又执行“吃药”的次数。用户每执行一次意图,自适应机制都会做出相应更新。
Figure BDA0003327952140000101
Figure BDA0003327952140000102
根据表2的信号,我们可以得到I(abc)[i]与用户上一次执行的意图之间转换的次数,根据历史转换次数,算出当前意图I(abc)[i]的转换概率
Figure BDA0003327952140000111
如下公式(2)所示:
Figure BDA0003327952140000112
Iij代表意图转换次数;
Figure BDA0003327952140000113
代表总的意图数;
Figure BDA0003327952140000114
为在I(a,b,c)[i]发生的条件下,用户发出F(x)的概率;Y为真实意图。
P(I(abc)[i]|F(x)对应HMM中的事件发射概率,不同于HMM的是,我们在计算意图节点可能性的时候使用的是三个模态发射概率的乘积,这是因为I(abc)[i]是根据三个模态的信息推理得来,每个模态信息都对提取I(abc)[i]有所贡献。系统根据上面的算法将I(abc)中所有意图元素的可能性算出来之后,取最大可能性的意图作为真实意图Y,意图识别任务完成,我们将识别出的意图进行信任度评价。
在进行信任度评价时,改进的C-F模型,可以从不确定性的初始证据及其加权因子出发,应用不确定性的推理规则,最终推出具有一定的不确定性但却是近乎合理的结论。在不确定条件下得到真实而客观的评估结果,为和谐的人机交互提供科学的决策依据,在改进的C-F评估模型中,我们综合了时间因素、历史因素、单模态信息熵和单模态识别可信度,比原有的C-F可信度模型更加客观、更加准确、推理能力更强。信任度评价的公式(3)和(4):
CFx(Y)=CF(Y,F(x))*max(0,CF(F(x))),x=a,b;
Figure BDA0003327952140000115
在原有的C-F模型中,证据不确定性一个可信度因子,表示前提条件与结论的联系程度,它带有较大的主观性和经验性,这样使得推理结果准确性难以把握,而在我们改进的C-F中,使用Pstart(Y)和cx来作为证据不确定性的组成元素,这样做使得推理结果更具有客观性,而且自适应机制会使推理结果更加准确。
CF(Y,F(x))的域值控制在[-1,1];
Figure BDA0003327952140000121
cx(Y)为x模态下浅层意图推理出真实意图Y的次数;∑cx为x模态下浅层意图推理所有意图次数的总和;Pstart(Y)为真实意图Y在当前时刻下发生的概率;
CF(F(x)的域值控制在[-1,1];
Figure BDA0003327952140000122
Figure BDA0003327952140000123
D(x)为x模态信息的间接意图;m为D(x)中的元素,
如果D(x)=[1,2,3,4,5],那m就等于1或者2或者3或者4或者5。
其中,CFx(Y)为在只考虑x模态信息下Y真实意图可信度;CF(Y)为在考虑多模态信息下,Y真实意图可信度;μa为语音信息的识别率;μb为手势信息的识别率。
计算出语音和手势模态的可信度CFx(Y)后,接下来我们将计算联合可信度,联合可信度的计算公式如公式(4)所示,我们在原有的C-F公式中加入了本次单模态识别可信度μx,作为单模态信息可信度CFx(Y)的权重,这样的做法是为了保证真实意图可信度更加准确。最后使用公式(4)算出真实意图Y的可信度CF(Y)。
若CF(Y)≥th,则将Y作为可执行意图E;若CF(Y)<th,说明真实意图Y不满足信任度要求,系统会逆向分析是哪一个融合信息不满足条件,利用贝叶斯后验概率算得三个模态下和该时间下意图发生的可信度,如公式(7)。th是根据此意图平均概率状态下获得。
M(x)=P(F(x)|Y),x∈(a,b,c,t) (7)
根据得到的M(x),就可知融合意图的信任度不满足条件的原因,若是语音或手势模态信任度不满足条件,则系统会主动提示用户再次输入语音或手势;若是体态信息不符合条件,则系统会主动告知用户该如何做;若是时间不满足条件,则系统会再次向用户进行意图确认,避免用户因为健忘而表达错误意图。系统主动获得增强信息后,会再次进行意图的提取和评估,最终提取出可执行意图E,将E输入到任务协同模块中。
如图4为本发明实施例1任务协同实现的框图,系统分析E所需要的物品,对用户进行体态识别,并检测用户可控范围内的物品。如果E需要的物品之一在用户可控范围内,则按照用户利益优先原则进行任务分配,即分配给用户的子任务为拿可控范围内的物品,分配给机器人的任务为拿剩余需要用的物品。若用户可控范围内不存在意图E所需要的物品,就需要分析用户体态,如果用户不方便移动,则所有任务都将分配给机器人。
本发明提出的一种多模态意图逆向主动融合的人机协同方法通过改进的HMM(IHMM)来进行用户多模态意图的识别和改进的C-F模型来对提取出的意图进行可信度评价,具有以下优势:(1)可接收非相互独立条件下的多模态信息,用户交互方式不受限制;(2)在用户表达不清晰时,系统会提取出多个意图并进行自主决策,降低了用户交互负荷;(3)信任度评价方法综合了时间因素、历史因素、单模态信息熵和单模态识别可信度,尽最大努力做到简单客观评价,对用户表达的错误意图进行规避,真正达到了陪护效果;(4)采用了自适应机制,将用户的习惯作为系统决策的因素,提高意图提取准确率。下面是本系统的算法框图。
在现阶段的服务型机器人开发中,只有在I(abc)的元素个数有且只有一个时才能正常运行,这也是保证系统意图提取正确的前提,但是遇到用户表达不清晰或表达有歧义的情况时,即I(abc)集合中有多个元素时,这些系统都无法提取真实意图来处理,它们往往选择要求用户重新使用系统来提高意图提取的正确性,这不仅增加了交互时长,同时则增大了用户负荷,但是,对于此种情况,用户的真实意图是有极大可能性存在于I(abc)集合中的,这样做有效节省了交互时间并且降低了用户负荷。隐马尔可夫模型(HMM)是一种可以得出所有情况中最有可能发生的情况的算法,它也在常被应用于意图理解中。
可信度的评测方法中,C-F模型深受青睐,它对许多实际应用都是一个合理而有效的推理模式,而且该方法比较直观、简单,因此,在很多领域获得较广泛的应用。原有的C-F决策过程中存在大量的经验性知识(各种事实证据以及这些证据的因果关系)一般都带有某种程度的不确定性。在此情况下,如仍用传统的经验式逻辑做意图可信度处理,就势必要把系统推理的不确定性及用户之间客观存在的不确定性划归为确定性的,这无疑会舍弃事物的某些重要属性,从而失去了真实性。因此,我们尝试将改进的C-F推理模型方法应用到人机交互的意图信任度评价来。
实施例2
基于本发明实施例1提出的一种多模态意图逆向主动融合的人机协同方法,本发明实施例2还提出了一种多模态意图逆向主动融合的人机协同系统,如图5为本发明实施例2一种多模态意图逆向主动融合的人机协同系统示意图,该系统包括获取模块、分析模块、评价模块和分配模块;
获取模块用于获取用户的模态信息;所述模态信息包括语音信息、手势信息和体态信息;
分析模块用于基于所述模态信息进行意图分析推理出用户的直接意图,直接意图通过推理知识库得到用户的间接意图;从间接意图中分析出可能性最大的意图作为真实意图;
评价模块用于通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图;
分配模块用于分析用户的可执行意图,给用户和机器人分配协同任务。
评价模块还包括逆向分析模块;逆向分析模块执行的过程为:真实意图Y不满信任度要求时,则通过逆向分析找出不满足信任度要求的融合信息;逆向分析的公式为:M(x)=P(F(x)|Y),x∈(a,b,c,t)M(x)为逆向分析得到的单模态信息可信度;
如果是语音信息或手势信息信任度不满足条件,则系统会主动提示用户再次输入语音或手势;若是体态信息信任度不符合条件,则系统会主动告知用户该如何做;若是时间不满足条件,则系统会再次向用户进行意图确认;最后得到可执行意图E。
其中分析模块中,从间接意图中分析出可能性最大的意图作为真实意图的方法为:将间接意图D(a)、D(b)和D(c)进行意图融合得到融合意图集合;所述融合意图结合I(abc)=D(a)∩D(b)∩D(c);其中,D(a)为语音信息间接意图;D(b)为手势信息间接意图;D(c)为体态信息间接意图;
对融合意图集合进行意图提取;若I(abc)为空集,则重新输入要表达的意图;若I(abc)中有且仅有一个元素,则所述原始为真实意图;若I(abc)中有多个元素,则通过隐马尔科夫模型提取出可能性最大的意图作为真实意图。
分析模块中,通过隐马尔科夫模型提取出可能性最大的意图作为真实意图的详细过程为:
Figure BDA0003327952140000151
Figure BDA0003327952140000152
其中,i为第i个融合意图;F(x)为x模态信息的直接意图;x∈(a,b,c);Pstart(I(abc)[i])为融合意图i在当前时刻下发生的概率;
Figure BDA0003327952140000153
为在当前时间情况下,上一次的决策意图与融合意图i的转换概率;
Figure BDA0003327952140000154
Iij代表意图转换次数;
Figure BDA0003327952140000155
代表总的意图数;
Figure BDA0003327952140000156
为在I(a,b,c)[i]发生的条件下,用户发出F(x)的概率;Y为真实意图。
通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图的公式为:
CFx(Y)=CF(Y,F(x))*max(0,CF(F(x))),x=a,b;
Figure BDA0003327952140000157
其中,CF(Y,F(x))的域值控制在[-1,1];
Figure BDA0003327952140000158
cx(Y)为x模态下浅层意图推理出真实意图Y的次数;∑cx为x模态下浅层意图推理所有意图次数的总和;Pstart(Y)为真实意图Y在当前时刻下发生的概率;
CF(F(x)的域值控制在[-1,1];
Figure BDA0003327952140000159
D(x)为x模态信息的间接意图;m为D(x)中的元素,
如果D(x)=[1,2,3,4,5],那m就等于1或者2或者3或者4或者5。
其中,CFx(Y)为在只考虑x模态信息下Y真实意图可信度;CF(Y)为在考虑多模态信息下,Y真实意图可信度;μa为语音信息的识别率;μb为手势信息的识别率。
还包括:判断CF(Y)是否大于th;其中th为意图可信度临界点;如果CF(Y)≥th,则将真实意图Y作为可执行意图;如果CF(Y)<th;说明真实意图Y不满信任度要求。
在真实意图Y不满信任度要求时,则通过逆向分析找出不满足信任度要求的融合信息;逆向分析的公式为:M(x)=P(F(x)|Y),x∈(a,b,c,t)M(x)为逆向分析得到的单模态信息可信度;
如果是语音信息或手势信息信任度不满足条件,则系统会主动提示用户再次输入语音或手势;若是体态信息信任度不符合条件,则系统会主动告知用户该如何做;若是时间不满足条件,则系统会再次向用户进行意图确认;最后得到可执行意图E。
任务协同模块执行的过程为:
分析可执行意图E所需要的物品,对用户进行体态识别,并检测用户可控范围内的物品,如果E需要的物品之一在用户可控范围内,分配给用户的子任务为拿可控范围内的物品,分配给机器人的任务为拿剩余需要用的物品;
若用户可控范围内不存在可执行意图E所需要的物品,就需要分析用户体态;根据用户体态,给机器人分配任务。
本发明实施例2提出的模态意图逆向主动融合的人机协同系统可接收非相互独立条件下的多模态信息,用户交互方式不受限制;在用户表达不清晰时,系统会提取出多个意图并进行自主决策,降低了用户交互负荷。
本发明信任度评价方法综合了时间因素、历史因素、单模态信息熵和单模态识别可信度,尽最大努力做到简单客观评价,对用户表达的错误意图进行规避,真正达到了陪护效果。
本发明采用了自适应机制,将用户的习惯作为系统决策的因素,提高意图提取准确率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种多模态意图逆向主动融合的人机协同方法,其特征在于,包括以下步骤:
获取用户的模态信息;所述模态信息包括语音信息、手势信息和体态信息;基于所述模态信息进行意图分析推理出用户的直接意图,直接意图通过推理知识库得到用户的间接意图;从间接意图中分析出可能性最大的意图作为真实意图;
通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图;以及分析用户的可执行意图,给用户和机器人分配协同任务。
2.根据权利要求1所述的一种多模态意图逆向主动融合的人机协同方法,其特征在于,所述从间接意图中分析出可能性最大的意图作为真实意图的方法为:
将间接意图D(a)、D(b)和D(c)进行意图融合得到融合意图集合;所述融合意图结合I(abc)=D(a)∩D(b)∩D(c);其中,D(a)为语音信息间接意图;D(b)为手势信息间接意图;D(c)为体态信息间接意图;
对融合意图集合进行意图提取;若I(abc)为空集,则重新输入要表达的意图;若I(abc)中有且仅有一个元素,则所述原始为真实意图;若I(abc)中有多个元素,则通过改进后的隐马尔科夫模型提取出可能性最大的意图作为真实意图。
3.根据权利要求2所述的一种多模态意图逆向主动融合的人机协同方法,其特征在于,所述通过改进后的隐马尔科夫模型提取出可能性最大的意图作为真实意图的详细过程为:
Figure FDA0003327952130000011
Figure FDA0003327952130000012
其中,i为第i个融合意图;F(x)为x模态信息的直接意图;x∈(a,b,c);Pstart(I(abc)[i])为融合意图i在当前时刻下发生的概率;
Figure FDA0003327952130000013
为在当前时间情况下,上一次的决策意图与融合意图i的转换概率;
Figure FDA0003327952130000014
Iij为意图i后发生意图j的次数;
Figure FDA0003327952130000015
为意图i后发生所有意图的总次数;
Figure FDA0003327952130000021
为在I(a,b,c)[i]发生的条件下,用户发出F(x)的概率;Y为真实意图。
4.根据权利要求3所述的一种多模态意图逆向主动融合的人机协同方法,其特征在于,所述通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图信任度评价的计算公式为:
CFx(Y)=CF(Y,F(x))*max(0,CF(F(x))),x=a,b;
Figure FDA0003327952130000022
其中,CF(Y,F(x))的域值控制在[-1,1];
Figure FDA0003327952130000023
cx(Y)为x模态下浅层意图推理出真实意图Y的次数;∑cx为x模态下浅层意图推理所有意图次数的总和;Pstart(Y)为真实意图Y在当前时刻下发生的概率;
CF(F(x)的域值控制在[-1,1];
Figure FDA0003327952130000024
D(x)为x模态信息的间接意图;m为D(x)中的元素;
其中,CFx(Y)为在只考虑x模态信息下Y真实意图可信度;CF(Y)为在考虑多模态信息下Y真实意图可信度;μa为语音信息的识别率;μb为手势信息的识别率。
5.根据权利要求4所述的一种多模态意图逆向主动融合的人机协同方法,其特征在于,所述方法还包括:判断CF(Y)是否大于th;其中th为意图可信度临界点;如果CF(Y)≥th,则将真实意图Y作为可执行意图;如果CF(Y)<th;说明真实意图Y不满信任度要求。
6.根据权利要求5所述的一种多模态意图逆向主动融合的人机协同方法,其特征在于,在所述真实意图Y不满信任度要求时,则通过逆向分析找出不满足信任度要求的融合信息;逆向分析的公式为:M(x)=P(F(x)|Y),x∈(a,b,c,t)M(x)为逆向分析得到的单模态信息可信度;
如果是语音信息或手势信息信任度不满足条件,则系统会主动提示用户再次输入语音或手势;若是体态信息信任度不符合条件,则系统会主动告知用户该如何做;若是时间不满足条件,则系统会再次向用户进行意图确认;最后得到可执行意图E。
7.根据权利要求6所述的一种多模态意图逆向主动融合的人机协同方法,其特征在于,所述任务协同模块执行的过程为:
分析可执行意图E所需要的物品,对用户进行体态识别,并检测用户可控范围内的物品,如果E需要的物品之一在用户可控范围内,分配给用户的子任务为拿可控范围内的物品,分配给机器人的任务为拿剩余需要用的物品;
若用户可控范围内不存在可执行意图E所需要的物品,就需要分析用户体态;根据用户体态,给机器人分配任务。
8.一种多模态意图逆向主动融合的人机协同系统,其特征在于,获取模块、分析模块、评价模块和分配模块;
所述获取模块用于获取用户的模态信息;所述模态信息包括语音信息、手势信息和体态信息;
所述分析模块用于基于所述模态信息进行意图分析推理出用户的直接意图,直接意图通过推理知识库得到用户的间接意图;从间接意图中分析出可能性最大的意图作为真实意图;
所述评价模块用于通过对真实意图下用户的模态信息进行信任度评价得到用户的可执行意图;
所述分配模块用于分析用户的可执行意图,给用户和机器人分配协同任务。
9.根据权利要求8所述的一种多模态意图逆向主动融合的人机协同系统,其特征在于,所述评价模块还包括逆向分析模块;所述逆向分析模块执行的过程为:真实意图Y不满信任度要求时,则通过逆向分析找出不满足信任度要求的融合信息;逆向分析的公式为:M(x)=P(F(x)|Y),x∈(a,b,c,t)M(x)为逆向分析得到的单模态信息可信度;
如果是语音信息或手势信息信任度不满足条件,则系统会主动提示用户再次输入语音或手势;若是体态信息信任度不符合条件,则系统会主动告知用户该如何做;若是时间不满足条件,则系统会再次向用户进行意图确认;最后得到可执行意图E。
CN202111286035.2A 2021-10-29 2021-10-29 一种多模态意图逆向主动融合的人机协同方法和系统 Pending CN114093025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111286035.2A CN114093025A (zh) 2021-10-29 2021-10-29 一种多模态意图逆向主动融合的人机协同方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111286035.2A CN114093025A (zh) 2021-10-29 2021-10-29 一种多模态意图逆向主动融合的人机协同方法和系统

Publications (1)

Publication Number Publication Date
CN114093025A true CN114093025A (zh) 2022-02-25

Family

ID=80298546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111286035.2A Pending CN114093025A (zh) 2021-10-29 2021-10-29 一种多模态意图逆向主动融合的人机协同方法和系统

Country Status (1)

Country Link
CN (1) CN114093025A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781652A (zh) * 2022-06-21 2022-07-22 济南大学 一种基于多模态强化学习的人机协同框架

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080051479A (ko) * 2006-12-05 2008-06-11 한국전자통신연구원 멀티모달 융합 처리 방법 및 그 장치
CN112099630A (zh) * 2020-09-11 2020-12-18 济南大学 一种多模态意图逆向主动融合的人机交互方法
CN112099632A (zh) * 2020-09-16 2020-12-18 济南大学 一种面向助老陪护的人-机器人协同交互方法
WO2021023869A1 (en) * 2019-08-08 2021-02-11 Universite De Lorraine Audio-driven speech animation using recurrent neutral network
CN113392918A (zh) * 2021-06-24 2021-09-14 哈尔滨理工大学 一种基于多源信息融合的抑郁障碍相关因素识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080051479A (ko) * 2006-12-05 2008-06-11 한국전자통신연구원 멀티모달 융합 처리 방법 및 그 장치
WO2021023869A1 (en) * 2019-08-08 2021-02-11 Universite De Lorraine Audio-driven speech animation using recurrent neutral network
CN112099630A (zh) * 2020-09-11 2020-12-18 济南大学 一种多模态意图逆向主动融合的人机交互方法
CN112099632A (zh) * 2020-09-16 2020-12-18 济南大学 一种面向助老陪护的人-机器人协同交互方法
CN113392918A (zh) * 2021-06-24 2021-09-14 哈尔滨理工大学 一种基于多源信息融合的抑郁障碍相关因素识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄长强;唐传林;黄汉桥;王勇;杜海文: "考虑目标重要性及历史任务信任度的无人机任务决策方法", 兵工学报, vol. 34, no. 3, 31 December 2013 (2013-12-31) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781652A (zh) * 2022-06-21 2022-07-22 济南大学 一种基于多模态强化学习的人机协同框架
CN114781652B (zh) * 2022-06-21 2022-10-14 济南大学 一种基于多模态强化学习的人机协同框架

Similar Documents

Publication Publication Date Title
US10777200B2 (en) Artificial intelligence for mitigating effects of long-term cognitive conditions on patient interactions
WO2019144542A1 (en) Affective interaction systems, devices, and methods based on affective computing user interface
Bien et al. Effective learning system techniques for human–robot interaction in service environment
Trick et al. Multimodal uncertainty reduction for intention recognition in human-robot interaction
Adama et al. Human activity learning for assistive robotics using a classifier ensemble
CN117234341B (zh) 基于人工智能的虚拟现实人机交互方法及系统
CN114093025A (zh) 一种多模态意图逆向主动融合的人机协同方法和系统
CN112099632B (zh) 一种面向助老陪护的人-机器人协同交互方法
CN111370102A (zh) 科室导诊方法、装置以及设备
Ghotkar et al. Dynamic hand gesture recognition and novel sentence interpretation algorithm for indian sign language using microsoft kinect sensor
CN112017742A (zh) 分诊数据处理方法、装置、计算机设备及存储介质
Holzapfel et al. Integrating emotional cues into a framework for dialogue management
Smith et al. A dialogue-based interface for active learning of activities of daily living
CN109129467A (zh) 一种基于认知的机器人交互方法及系统
CN116403608A (zh) 基于多标签纠正和时空协同融合的语音情感识别方法
CA3238545A1 (en) Diagnosic method and system
CN114546326A (zh) 一种虚拟人手语生成方法和系统
Al-Ma'aitah et al. Application dependable interaction module for computer vision-based human-computer interactions
Djaid et al. Multimodal Fusion engine for an intelligent assistance robot using Ontology
Qiu et al. Research on Intention Flexible Mapping Algorithm for Elderly Escort Robot
CN112308116A (zh) 一种助老陪护机器人的自调优多通道融合方法和系统
Galkin et al. A hygiene monitoring system
Gao et al. A Hybrid Method for Implicit Intention Inference Based on Punished-Weighted Naïve Bayes
Tabata et al. Finger spelling recognition using distinctive features of hand shape
Stern et al. A method for selection of optimal hand gesture vocabularies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination