CN118152586A - 一种基于知识图谱和模型的行为规划方法及装置 - Google Patents
一种基于知识图谱和模型的行为规划方法及装置 Download PDFInfo
- Publication number
- CN118152586A CN118152586A CN202410223441.1A CN202410223441A CN118152586A CN 118152586 A CN118152586 A CN 118152586A CN 202410223441 A CN202410223441 A CN 202410223441A CN 118152586 A CN118152586 A CN 118152586A
- Authority
- CN
- China
- Prior art keywords
- information
- behavior
- knowledge graph
- planning
- target task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000007613 environmental effect Effects 0.000 claims description 29
- 230000003542 behavioural effect Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 description 198
- 230000009471 action Effects 0.000 description 34
- 230000008569 process Effects 0.000 description 27
- 235000013618 yogurt Nutrition 0.000 description 23
- 230000015654 memory Effects 0.000 description 20
- 239000007788 liquid Substances 0.000 description 19
- 230000000875 corresponding effect Effects 0.000 description 18
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 241000190070 Sarracenia purpurea Species 0.000 description 7
- 238000003756 stirring Methods 0.000 description 7
- 238000004140 cleaning Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000010485 coping Effects 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000008267 milk Substances 0.000 description 2
- 235000013336 milk Nutrition 0.000 description 2
- 210000004080 milk Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及了一种基于知识图谱和模型的行为规划方法及装置。通过引入知识图谱,充分扩充用于行为规划的信息,使得输入给多模态大语言模型的提示内容更加充分,并减少人工输入提示内容的依赖,该多模态大语言模型可以综合利用任务描述信息、环境状态信息和预先构建的知识图谱,将这些信息结合起来进行行为规划,保证了多模态大语言模型做出正确的且确保机器人可执行的高层行为规划,极大提升大语言模型行为规划的成功率。由于充分利用了知识图谱和多模态大语言模型的能力,使得行为规划结果具备了更强的智能性和适应性,可以根据不同的任务和环境情境生成相应的行为规划结果,并确定适合执行的操作,从而更好地应对复杂多变的实际场景。
Description
技术领域
本申请涉及机器人及人工智能技术领域,尤其涉及一种基于知识图谱和模型的行为规划方法及装置。
背景技术
近年来,随着人工智能和机器学习的迅速发展,机器人技术在各个领域取得了显著的进展。在机器人技术中,如果希望机器人执行复杂任务,则需要该机器人从该机器人各种可能的动作中,规划出最合适且可以实现该复杂任务目标的动作序列,该行为规划过程被视为实现机器人的自主性、智能决策和有效交互的关键要素,其重要性和急迫性不可低估。因此,为了提高机器人在各个领域的性能,推动人工智能的发展,亟需不断对机器人行为规划技术进行研究和创新。
在相关技术中,深度强化学习是实现机器人行为规划的一种方法,这种方法结合了深度学习和强化学习的优势,通过神经网络模型来近似和优化机器人的行为策略,使得机器人能够通过与环境的交互学到有效的决策策略。然而,该种方法在复杂环境中,机器人需要在探索新策略与利用已知策略之间进行权衡,而深度强化学习在这个问题上容易陷入困境,导致最后的行为规划结果准确度低,且机器人在行为规划上的性能下降。并且,当机器人面对未见过的环境或任务时,深度强化学习所用模型的泛化能力可能受到限制,影响行为规划结果的准确度,使得机器人的应用场景受限。
基于此,需要一种可以提高机器人的行为规划结果的准确度并拓宽机器人的应用场景的行为规划方法。
发明内容
本申请提供了一种基于知识图谱和模型的行为规划方法及装置,用于解决现有机器人的行为规划方法的准确度低且应用场景受限的问题。
第一方面,本申请提供了一种基于知识图谱和模型的行为规划方法,所述方法包括:
获取引导规划特征信息;其中,所述引导规划特征信息包括目标任务的任务描述信息、环境状态信息以及预先构建的知识图谱;
通过预先训练完成的多模态大语言模型,基于所述引导规划特征信息,获取所述目标任务的高层行为规划结果;
基于所述高层行为规划结果,确定执行所述目标任务所需的操作。
第二方面,本申请还提供了一种基于知识图谱和模型的行为规划装置,所述装置包括:
获取模块,用于获取引导规划特征信息;其中,所述引导规划特征信息包括目标任务的任务描述信息、环境状态信息以及预先构建的知识图谱;
处理模块,用于通过预先训练完成的多模态大语言模型,基于所述引导规划特征信息,获取所述目标任务的高层行为规划结果;
确定模块,用于基于所述高层行为规划结果,确定执行所述目标任务所需的操作。
第三方面,本申请提供了一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述基于知识图谱和模型的行为规划方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述基于知识图谱和模型的行为规划方法的步骤。
本申请的有益效果如下:
1、通过引入知识图谱,充分扩充用于行为规划的信息,使得输入给多模态大语言模型的提示内容更加充分,并减少人工输入提示内容的依赖,该多模态大语言模型可以综合利用任务描述信息、环境状态信息和预先构建的知识图谱,将这些信息结合起来进行行为规划,保证了多模态大语言模型做出正确的且确保机器人可执行的高层行为规划,极大提升了大语言模型行为规划的成功率。
2、基于高层行为规划结果确定执行目标任务所需的操作,可以确保执行的操作与任务目标保持一致,并考虑了环境状态和预先构建的知识图谱,提高了执行操作的可靠性和有效性,减少了执行过程中出现错误的可能性。
3、由于充分利用了知识图谱和多模态大语言模型的能力,使得本申请提供的行为规划方法具备了更强的智能性和适应性,可以根据不同的任务和环境情境生成相应的行为规划结果,并确定适合执行的操作,从而更好地应对复杂多变的实际场景。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于知识图谱和模型的行为规划的过程示意图;
图2为本申请实施例提供的一种知识图谱的结构示意图;
图3为本申请实施例提供的具体的基于知识图谱和模型的行为规划的流程示意图;
图4为本申请实施例提供的具体的基于知识图谱和模型的行为规划的数据流转图;
图5为本申请实施例提供的一种基于知识图谱和模型的行为规划的装置结构示意图;
图6为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
首先,对本申请涉及相关术语进行相应的解释,以便于本领域技术人员理解。
1、行为规划:根据特定任务和环境条件,设计和生成一系列行为的过程。这些行为包括移动、操作、交互等,旨在实现在给定环境中的目标。
2、多模态大语言模型:一种综合利用多种模态数据的大型语言模型。与传统的通常只处理文本的单模态语言模型相比,多模态大语言模型能够处理和理解更加丰富多样的信息,例如文本、图像、声音等,从而更好地模拟人类对于多种感官信息的综合理解能力。
3、知识图谱:一种基于图形结构的知识表示方法,用于组织和表达现实世界中的信息和关系。它由一系列实体(entities)和它们之间的关系(relationships)组成,这些实体和关系以图的形式进行了建模,其中实体通常表示具体的事物或概念,而关系描述了这些实体之间的连接和关联。
4、行为树(Behavior Tree):一种用于描述和管理智能体(如机器人、游戏角色等)行为的图形化结构。它是一种树状结构,其中包含了一系列节点,这些节点代表了不同的行为或行为组合。行为树可以帮助智能体在复杂的环境中做出合适的决策和行动。
为了提高机器人的行为规划结果的准确度并拓宽机器人的应用场景,本申请提供了一种基于知识图谱和模型的行为规划方法及装置。
实施例1:
本申请提供了一种基于知识图谱和模型的行为规划方法,图1为本申请实施例提供的一种基于知识图谱和模型的行为规划的过程示意图,该过程包括:
S101:获取引导规划特征信息;其中,所述引导规划特征信息包括目标任务的任务描述信息、环境状态信息以及预先构建的知识图谱。
在本申请中,该基于知识图谱和模型的行为规划方法应用于计算机设备(为了方便描述,简称为进行行为规划的设备),该计算机设备可以是智能终端,比如,电脑、机器人等,也可以是服务器,比如,应用服务器,业务服务器等。
在一种可能的应用场景下,当需要智能设备(如机器人等)执行复杂任务时,用户可以通过向该智能设备输入该复杂任务(为了方便描述,记为目标任务)的任务描述信息。例如,用户可以通过语音的方式向该智能设备输入任务描述信息,也可以通过文本的方式向该智能设备输入任务描述信息等。智能设备获取到输入的任务描述信息,并采集当前场景下的环境信息,采集该环境信息的方式有很多,可以通过该智能设备上的传感器采集,也可以通过该智能设备上的摄像头拍摄场景照片的方式采集,还可以通过从云端服务器上下载等。
其中,任务描述信息可以包括任务目标、任务要求和任务约束。可选的,该任务描述信息还可以包括任务优先级、时间限制、所需资源、期望结果。
若进行行为规划的设备为该智能设备,则该智能设备可以对获取到的非文本形式的场景信息进行处理,获取文本形式的环境状态信息。其中,该环境状态信息可以包括当前场景下的各物体、各物体的状态以及各物体之间的空间关系,比如,环境状态信息可以包括智能设备的当前位置、周围的障碍物、目标位置、资源供应等。示例性的,若获取到的是图片形式的场景信息,则智能设备通过图像处理算法,如图像分类、目标检测、图像描述生成算法等,对该场景信息进行处理,获取环境状态信息。智能设备可以基于该环境状态信息以及任务描述信息,进行相应地处理,获取引导规划特征信息。
若进行行为规划的设备为服务器,则该智能设备可以将获取到的任务描述信息以及场景信息上传到服务器,由该服务器对获取到的非文本形式的场景信息进行处理,获取文本形式的环境状态信息。然后该服务器基于该环境状态信息以及任务描述信息,进行相应地处理,获取引导规划特征信息。
考虑到智能设备在当前场景下可以采集到的信息受限,且用户输入的信息也比较少,影响后续行为规划结果的准确度。基于此,在本申请中,可以基于该环境状态信息、任务描述信息以及预先构建的知识图谱,获取引导规划特征信息。由于该知识图谱包括丰富的领域知识,包括实体之间的关系、属性信息等,通过该知识图谱可以为行为规划提供领域知识、上下文信息和关联关系,有助于更好地理解任务需求和环境特征。例如,如果目标任务是关于烹饪,知识图谱可以提供食材、烹饪方法、食谱等知识。
在一种可能的实施方式中,该知识图谱包括执行所述目标任务的目标对象实体以及所述目标对象实体的属性信息,以通过该知识图谱中关于该目标对象实体的属性信息,为该目标对象实体规划出合理且准确地行为规划结果,从而方便该目标对象实体可以执行该行为规划结果,完成目标任务,避免出现为该目标对象实体盲目规划的问题。其中,该属性信息包括所述目标对象实体的性能参数信息。例如,目标对象实体为机器人,该目标对象实体的性能参数信息中包括该机器人有两个机械臂,每个机械臂有6个自由度,机械臂上有5手指机械手,每个手指有3个自由度,可以实现弯曲、内收和外展。机器人可以进行的操作包括:趋近、远离、转向、抓取、放置、旋拧、抓取、搅拌、倾倒、持有、清空、打开、关闭等操作,机器人在移动的过程中可以通过感知系统自动避开障碍。通过该知识图谱中目标对象实体以及目标对象实体的性能参数信息进行行为规划,相当于告知更多的文字描述以进行行为规划。例如,趋近需要给定一个目标,趋近这个目标的前提条件是当前环境中,机器人通过自身移动能够到达目标附近,且这个目标进入机械臂操作范围内。转向可以是转向某个物体,其执行结果是机器人面对某物体;也可以是转向到某个具体的方向,其执行结果是机器人身体面向这个具体的方向......,请生成在机器人的能力范围内,并且能完成该任务的行为规划。
其中,该知识图谱中包括至少一种场景的知识。
在一种可能的实施方式中,所述知识图谱包括至少一个对象实体分别对应的常识性规则信息,以通过各对象实体分别对应的常识性规则信息,对行为规划结果进行指导,从而提供更深入的领域知识和常识信息,有助于行为规划和后续执行目标任务时做出更准确且符合常识的决策和行动。其中,任一对象实体对应的常识性规则信息用于指示该对象实体在不同状态下的常识信息,所述常识信息包括科学常识信息,和/或,生活常识信息。例如,对于液体容器这一对象实体,液体容器在盛放有液体且开口的情况下,该液体被倾斜超过45度会将该液体容器中的液体洒出,对于酸奶这一对象实体,酸奶属于易腐败食品,对于冰箱这一对象实体,该冰箱可以收纳易腐败食品等。
在一种可能的实施方式中,知识图谱中可以记录系统或个体可能采取的各种行为概念和命题概念。对于命题概念,命题概念表示环境中的某种状态或条件是否成立,如“客厅地板是否清洁”、“冰箱门是否关闭”等。每个命题概念可以被认为是一个真假命题,其结果可以是真(成立)或假(不成立)。在该知识图谱中,任一命题概念的知识记录包括命题成立目标。可选的,该命题概念的知识记录还可以包括命题名称、推理类型、命题参数。该命题名称表示了命题的具体名称或标识,以便于在系统中进行引用和识别。该命题参数描述了命题的具体条件或属性,用于进一步说明命题概念的特征和范围,命题参数可以是命题的属性、限制条件、相关因素等。命题参数可以帮助智能系统更准确地理解和评估命题的成立情况,从而进行更加精确的行为规划和决策。例如,在命题“客厅地板是否清洁”中,可能的命题参数包括“清洁程度”、“清洁时间”、“清洁方式”等,这些参数可以进一步说明地板的清洁情况。命题成立目标描述了命题所表示的状态或条件在环境中是否成立的期望状态。推理类型用于表征该命题是多个条件约束的命题,还是单一条件约束的命题。命题成立目标有助于指导智能系统进行相关行为的执行和决策,以使得命题成立目标尽可能达成,该命题成立目标可以通过子条件、环境交互等信息进行表示。例如,“上面没有物体”的命题成立目标可能是“某一位置是空的”。对于行为概念,这些行为可以是基于领域知识和经验确定的,也可以是从数据中学习得到的。这些行为涵盖了系统或个体在特定任务或环境下可能采取的各种行动、操作、决策等,例如移动、交互、探索、观察等。在该知识图谱中,任一行为的知识记录包括行为概念、行为名称、行为参数、执行该行为所需的前置条件以及执行结果等信息。该行为概念描述了行为的抽象特征和属性,帮助理解和归纳不同行为之间的关系。该行为名称表示了行为的具体名称或标识,以便于在系统中进行引用和识别。该行为参数描述了行为执行过程中可能涉及的参数和变量,帮助确定行为的具体实现方式和执行方式。该前置条件描述了执行该行为所需满足的条件或约束条件,包括环境状态、先决行动等。该执行结果描述了执行该行为后可能产生的结果或影响,包括任务完成情况、环境状态改变等。通过记录不同行为之间的逻辑关系和不同行为分别对应的知识记录,可以更准确地理解和规划行为,从而提高行为规划结果的准确性和智能性。这样的知识图谱可以为行为规划决策提供重要支持,使本申请提供的行为规划方法能够在复杂的任务和环境中做出合适的决策和行动。
该知识图谱中还包括概念逻辑关系,该概念逻辑关系指的是在知识图谱中,不同概念(包括行为概念和命题概念)之间的逻辑联系或关联。这些关系描述了概念之间的各种属性、行为、依赖以及其他类型的关系,从而形成了一个更为完整和复杂的知识网络。
示例性的,可以通过提示信息生成算法,比如,Prompt文本提示生成器等,对上述实施例中获取到的环境状态信息、任务描述信息以及预先构建的知识图谱进行处理,获取含有环境状态信息、任务描述信息以及预先构建的知识图谱的字符串,将获取到的字符串确定为引导规划特征信息。
S102:通过预先训练完成的多模态大语言模型,基于所述引导规划特征信息,获取所述目标任务的高层行为规划结果。
多模态大语言模型是一种结合了多种输入模态(如文本、图像、音频等)的语言模型,它可以同时处理和理解不同类型的数据,从而更全面地理解任务的需求和环境的状态。并且,该多模态大语言模型通常是在大规模数据集上进行预训练的,以学习数据的分布和特征。在预训练过程中,多模态大语言模型会学习到各种语言和视觉模态之间的关系,从而具备了跨模态理解和表示的能力。在此基础上,当基于上述实施例获取到引导规划特征信息后,可以将该引导规划特征信息输入到该多模态大语言模型中,多模态大语言模型可以利用其跨模态理解的能力,从文本、图像等多种输入模态中获取任务相关的信息,从而生成相应的高层行为规划结果,该高层行为规划结果通常是对目标任务和行动方案的理解和规划,例如确定需要执行的行为序列、制定决策策略等。
S103:基于所述高层行为规划结果,确定执行所述目标任务所需的操作。
基于上述实施例获取到了高层行为规划结果后,可以对该高层行为规划结果进行解析,理解其中包含的具体行动指导,例如,从高层行为规划结果中提取行动序列、决策策略等信息。然后将该高层行为规划结果转化为具体的操作步骤,如将规划结果拆解为一系列可执行的操作,每个操作都对应着需要执行的具体动作或决策。其中,有些操作可能需要在其他操作之前执行,或者某些操作可能具有更高的优先级,需要优先执行,因此,在确定具体操作步骤时,还需要考虑这些操作之间的执行顺序和优先级,从而保证执行目标任务的有序性和稳定性。
本申请的有益效果如下:
1、通过引入知识图谱,充分扩充用于行为规划的信息,使得输入给多模态大语言模型的提示内容更加充分,并减少人工输入提示内容的依赖,该多模态大语言模型可以综合利用任务描述信息、环境状态信息和预先构建的知识图谱,将这些信息结合起来进行行为规划,保证了多模态大语言模型做出正确的且确保机器人可执行的高层行为规划,极大提升了大语言模型行为规划的成功率。
2、基于高层行为规划结果确定执行目标任务所需的操作,可以确保执行的操作与任务目标保持一致,并考虑了环境状态和预先构建的知识图谱,提高了执行操作的可靠性和有效性,减少了执行过程中出现错误的可能性。
3、由于充分利用了知识图谱和多模态大语言模型的能力,使得本申请提供的行为规划方法具备了更强的智能性和适应性,可以根据不同的任务和环境情境生成相应的行为规划结果,并确定适合执行的操作,从而更好地应对复杂多变的实际场景。
实施例2:
为了保证更加有序且准确地执行目标任务,在上述实施例的基础上,在本申请中,所述基于所述高层行为规划结果,确定执行所述目标任务所需的操作,包括:
基于所述知识图谱以及所述环境状态信息,对所述高层行为规划结果进行扩展,确定执行所述目标任务的行为树;其中,所述行为树包括执行所述目标任务所需的操作,各所述操作之间的执行顺序。
在本申请中,可以将通过多模态大语言模型获取到的高层行为规划结果进行一定的处理,获取用于执行目标任务的行为树,通过该行为树将目标任务的执行流程以层次化的方式进行组织和表示,使得整个目标任务执行过程更加清晰和系统化,有利于后续根据该行为树执行目标任务。
考虑到通过多模态大语言模型获取到的高层行为规划结果,可能存在无法直接分解出具体的操作的情况,比如,高层行为规划结果告知机器人需要抓取桌子上的牛奶,但机器人在根据该高层行为规划结果进行执行的时候,并无法知道具体该如何做可以实现抓取桌子上的牛奶。基于此,在本申请中,可以借助知识图谱以及环境状态信息,对获取到的高层行为规划结果进行扩展和细化,从而实现从该高层行为规划结果中分解出具体的操作,并将分解出的操作生成行为树。
在一种可能的实施方式中,可以获取预先构建的知识图谱和环境状态信息。其中,知识图谱包括了目标任务相关的领域知识、对象实体信息、不同行为概念、不同命题概念、概念逻辑关系、不同行为概念分别对应的知识记录以及不用命题概念分别对应的知识记录,而环境状态信息描述了目标任务执行时当前环境的具体情况和条件。基于获取的知识图谱和环境状态信息,对高层行为规划结果包含的每个步骤依次进行扩展和填充,将其细化为更具体的操作或子任务。对于每个扩展后的子任务,结合知识图谱中记录的信息,确定其在行为树中的执行顺序和逻辑关系。这可能涉及到先后顺序、并行执行、条件触发等方面的考虑,以确保整个行为树的执行流程是合理和有效的。将扩展后的子任务组织成一个层次化的结构,形成行为树。行为树的根节点是整个任务的起始步骤,而每个子任务则是树的分支节点,它们之间的逻辑关系构成了树的边。通过调整执行顺序、添加额外的条件或约束等方面的处理,对构建的行为树进行优化和调整,确保其能够在实际执行中达到预期的效果。对构建的行为树进行验证和测试,确保其能够正确地执行任务并达到预期的目标,如可以通过模拟执行、实际测试等方式来进行。
示例性的,在知识图谱中,每个行为概念都有具体的定义,包括行为名称、行为参数、执行该行为所需的前置条件以及执行结果等信息。前置条件指明了执行该行为所需满足的条件,例如“夹爪为空”和“抓取目标物体上面没有别的物体”。通过知识图谱,可以根据行为的前置条件将行为树逐层展开,直到动作可执行为止,即逐步检查并满足每个前置条件,确保执行该行为是可执行的。一旦所有的前置条件都满足,将从最底层的行为开始执行。这些底层行为通常是具体的操作或动作,例如“抓取物体”。执行这些底层行为会改变环境状态,例如夹爪不再为空、持有了目标物体等。随着底层行为的执行和环境状态的改变,系统会逐步满足上层行为的前置条件。这些上层行为依次执行,直到最后最上层的行为执行完毕。
例如,
{
"名称":"抓取物体",
"英文名称":"grop_obj",
"类型":"概念",
"是一种":"行为",
"参数":{"obj":"物体"},
"前置条件":"夹爪为空and上面没有物体(obj)",
"执行结果":"持有(obj)",
"解释":"表示obj上面没有物体。"
}
这是行为概念“抓取物体”的定义,其前置条件是:“夹爪为空”并且抓取目标obj上面没有别的物体。即只有满足这两个前置条件,这个动作才能执行。所以,通过知识图谱,可以根据前置条件一层层展开,直到动作可执行为止。然后,再从最底层开始执行,随着动作执行后,环境发生改变,会使得上层动作执行的前置条件层层满足,这些动作再向上依次执行,直到最后最上层的行为执行完毕。
实施例3:
为了进一步保证行为规划结果的准确性以及稳定性,在上述各实施例的基础上,在本申请中,在重新为所述目标任务确定高层行为规划结果的情况下,所述引导规划特征信息还包括执行所述目标任务已完成的历史指令。
在目标任务执行过程中,需要动态适应环境的变化,根据当前的情况调整执行策略和行为顺序,确保在面对不同情况时仍能够灵活、高效地执行任务。但实际在执行过程中,不可避免会出现本次为目标任务确定的所需的操作无法完全执行下去,或者,长时间执行目标任务所需的某一操作的情况,基于此,可以实时监控目标任务所需操作的执行情况,当基于目标任务所需操作的执行情况,确定目标任务无法执行时,如目标任务所需某一操作无法执行,和/或,长时间执行目标任务所需某一操作,则确定该目标任务无法执行,需要重新为该目标任务确定高层行为规划结果。若确定重新为目标任务确定高层行为规划结果,则获取执行该目标任务时已完成的历史指令,该历史指令记录了在执行目标任务过程中所采取的操作步骤和决策,是对目标任务执行过程的一个记录和反映,有助于基于过去执行的情况,为重新行为规划提供参考。在执行目标任务的过程中,会改变当前场景的环境信息,因此,在确定重新为目标任务确定高层行为规划结果的情况下,需要重新获取当前场景的环境状态信息。然后基于该历史指令、重新获取的环境状态信息、任务描述信息以及预先构建的知识图谱,重新获取引导规划特征信息。通过预先训练的多模态大语言模型,基于该重新获取的引导规划特征信息,生成高层行为规划,并基于该生成的高层行为规划,确定执行目标任务所需的操作。
实施例4:
通过知识图谱,对目标任务以及当前环境中的对象实体描述进行扩展,从而使多模态大语言模型掌握更加充分的提示内容。例如,给定这样的环境:有一个冰箱,一个柜子,一个桌子,桌子上有一杯酸奶,用户要求机器人把桌子收拾干净。如果不利用知识图谱扩展提示内容,即在仅根据任务描述信息、环境状态信息确定的提示内容A如下:
你是一个机器人,有一个机械臂,每个机械臂有6个自由度,机械臂上有5手指机械手,每个手指有3个自由度,可以实现弯曲、内收和外展。机器人可以进行的操作包括:趋近、远离、转向、抓取、放置、旋拧、抓取、搅拌、倾倒、持有、清空、打开、关闭等操作,机器人在移动的过程中可以通过感知系统自动避开障碍,可以执行的动作包括:现在有一个冰箱,一个柜子,一个桌子,桌子上有一杯酸奶,有一个冰箱,有一个柜子,现在要把桌子收拾干净,请给我一个行为规划。
通过多模态大语言模型,基于该提示内容A,可以获取到的行为规划结果1如下:
1)让我们制定一个机器人的行为规划来完成这个任务。以下是一个简单的步骤:
2)趋近桌子:机器人首先需要移动到桌子附近,以便执行后续的操作。
确保在移动过程中避开障碍物。
3)抓取酸奶:机器人使用手指机械手的抓取动作,将桌子上的酸奶抓取起来。这需要准确的定位和控制机械臂的动作,以确保成功抓取。
4)放置酸奶:将抓取到的酸奶放置到指定的位置。这可能涉及到机器人的转向和精细的手部动作。
5)清空桌子:机器人需要清理桌子上的其他物品。可以使用手部动作将物品放置到指定的位置,或者直接将它们放入其他容器中。
6)搅拌酸奶:如果需要搅拌酸奶,机器人可以执行相应的搅拌动作,确保酸奶充分混合。
7)倾倒废物:如果有废物需要处理,机器人可以将废物倾倒到指定的位置。这可能需要机械臂的适当动作控制。
8)关闭冰箱和柜子:如果冰箱和柜子在任务中被打开,机器人需要执行相应的动作将它们关闭。
9)远离桌子:完成任务后,机器人可以远离桌子,结束整个操作。
基于上述给出的行为规划结果1可以看到,上面多模态大语言模型的行为规划结果1在第4步,具体放置到哪里就已经出错了,另外,还产生了第5步清空桌子、第6步搅拌和第7步倾倒这两个多余操作,这可以理解为多模态大语言模型在少量的提示内容下进行行为规划所产生的幻觉。
如果利用知识图谱扩展提示内容,即在根据任务描述信息、环境状态信息以及预先构建的知识图谱确定的提示内容B如下:
你是一个机器人,有一个机械臂,每个机械臂有6个自由度,机械臂上有5手指机械手,每个手指有3个自由度,可以实现弯曲、内收和外展。机器人可以进行的操作包括:趋近、远离、转向、抓取、放置、旋拧、抓取、搅拌、倾倒、持有、清空、打开、关闭等操作,机器人在移动的过程中可以通过感知系统自动避开障碍,可以执行的动作包括:现在有一个冰箱,一个柜子,一个桌子,桌子上有一杯酸奶,有一个冰箱,有一个柜子,冰箱用于存放易腐烂物体,酸奶属于易腐烂物,现在要把桌子收拾干净,请给我一个行为规划。
同提示内容A相比,提示内容B至少依据知识图谱增加了“冰箱用于存放易腐烂物体,酸奶属于易腐烂物”。通过多模态大语言模型,基于该提示内容B,可以获取到的行为规划结果2如下:
1)趋近桌子:机器人首先移动到桌子附近,确保在移动过程中避开障碍物。
2)感知酸奶位置:利用感知系统获取桌子上酸奶的准确位置。
3)抓取酸奶:使用手指机械手的抓取动作,精确地抓取桌子上的酸奶。
4)放置酸奶:将抓取到的酸奶放置到冰箱内。这可能涉及机械臂的转向、趋近冰箱并精细的手部动作。
5)关闭冰箱:如果冰箱在任务中被打开,机器人执行关闭冰箱的动作。
6)远离桌子:完成任务后,机器人远离桌子,确保桌面清理干净。
基于上述给出的行为规划结果2可以看到,行为规划结果2相比行为规划结果1准确了很多。行为规划结果2在第4步,能规划放置酸奶到冰箱内,并没有产生行为规划结果1中的第5,6,7多余的操作步骤。之所以产生这样的改进,就是因为新增的根据知识图谱扩充的提示内容影响了行为规划结果的生成。
其中,在根据知识图谱生成提示内容的过程中,可以采取以下几种策略:
1)根据知识图谱中上下位关系生成提示内容。
例如,上述实施例中提示内容B生成的“酸奶是一种易腐烂物”,这个是由知识图谱中具有上下位关系的两个概念“酸奶”和“易腐烂物”生成的。“酸奶”是“易腐烂物”的下位概念。
图2为本申请实施例提供的一种知识图谱的结构示意图,在图2中,两个概念“水杯”和“水瓶”均分别与概念“液体容器”具有上下位关系,而该“液体容器”对应有常识性规则信息以及属性信息。该属性信息包括该“液体容器”可用于盛放液体。该常识性规则信息包括两条相关规则,规则1:如果液体容器开口,且容器中有液体,且容器倾斜角度超过45度,那么液体会流出容器。规则2:如果液体容器不开口,且容器中有液体,那么液体不会流出容器。从假设采集到的场景照片中识别到水杯和水瓶,将水杯和水瓶分映射到知识图谱中的“水杯”和“水瓶”概念,因为“水杯”和“水瓶”都归属于“液体容器”概念,“液体容器”可以盛放液体,并且对应有常识性规则信息。基于此,在场景照片中的水杯开口且盛有液体,场景照片中的水瓶封口且盛有液体的情况下,场景照片中的水杯如果倾斜超过45度,那么杯子里的水会流出来,而场景照片中瓶子里的水不管倾斜多少度,都是不会被倒出来的。
2)根据知识图谱中概念之间的关系生成提示内容。
例如,上述实施例中提示内容B生成的“冰箱用于存放易腐烂物体”,这个是由知识图谱中具有用于存放关系的两个概念“冰箱”和“易腐烂物”生成的,概念“冰箱”用于存放“易腐烂物”。
3)根据知识图谱中概念或实体的属性值生成提示内容。
例如,上述实施例中提示内容B生成的“机械臂有6个自由度”,这个是由知识图谱中实体“机械臂”的“自由度”属性值为6来生成的。
4)根据知识图谱中某一类概念生成提示内容。
例如,上述实施例中提示内容B生成的“机器人可以进行的操作包括:趋近、远离、转向、抓取、放置、旋拧、抓取、搅拌、倾倒、持有、清空、打开、关闭等操作”,这些是由知识图谱中的行为概念的下位概念生成的,枚举当前场景中机器人可操作的行为。
实施例5:
下面通过具体的实施例对本申请提供的基于知识图谱和模型的行为规划方法进行说明,图3为本申请实施例提供的具体的基于知识图谱和模型的行为规划的流程示意图,该流程包括:
S301:获取目标任务的任务描述信息、环境状态信息、预先构建的知识图谱。
S302:通过Prompt文本提示生成器,对输入的任务描述信息、环境状态信息以及预先构建的知识图谱进行处理,获取引导规划特征信息。
图4为本申请实施例提供的具体的基于知识图谱和模型的行为规划的数据流转图,如图4所示,将任务描述信息、环境状态信息以及预先构建的知识图谱输入到Prompt文本提示生成器,获取Prompt,即获取引导规划特征信息。
其中,该引导规划特征信息包括任务描述信息、环境状态信息以及预先构建的知识图谱。
S303:通过预先训练完成的多模态大语言模型,基于该引导规划特征信息,获取高层行为规划结果。
S304:基于知识图谱以及环境状态信息,对该高层行为规划进行扩展,获取执行目标任务的行为树。
其中,该行为树包括执行目标任务所需的操作。
如图4所示,将携带有任务描述信息、环境状态信息以及预先构建的知识图谱等信息的Prompt,输入到预先训练完成的多模态大语言模型中,通过该多模态大语言模型的处理,可以获取到高层行为规划结果。然后基于知识图谱以及环境状态信息,对该高层行为规划进行扩展,获取执行目标任务的行为树。
S305:基于行为树,向机器人发送指令,以控制机器人执行目标任务。
S306:若确定无法基于行为树控制机器人执行目标任务,则获取执行该目标任务已完成的历史指令,并重新获取环境状态信息。
如图4所示,获取到了行为树后,可以基于该行为树向机器人发送指令,控制机器人行动,以执行目标任务。其中,机器人所在场景下的环境信息已随着机器人执行的动作发生了改变。当机器人确定无法基于行为树控制机器人执行目标任务,则获取执行该目标任务已完成的历史指令,并重新获取环境状态信息,该重新获取的环境状态信息与S301步骤获取到的环境状态信息不同。
S307:基于该历史指令、重新获取的环境状态信息、任务描述信息以及预先构建的知识图谱,重新获取引导规划特征信息,执行S303。
如图4所示,在重新进行行为规划的情况下,可以基于该历史指令、重新获取的环境状态信息、任务描述信息以及预先构建的知识图谱,重新获取引导规划特征信息,然后基于该引导规划特征信息,重新进行行为规划。
实施例6:
基于同样的发明构思,本申请还提供了一种基于知识图谱和模型的行为规划装置,图5为本申请实施例提供的一种基于知识图谱和模型的行为规划的装置结构示意图,所述装置包括:
获取模块51,用于获取引导规划特征信息;其中,所述引导规划特征信息包括目标任务的任务描述信息、环境状态信息以及预先构建的知识图谱;
处理模块52,用于通过预先训练完成的多模态大语言模型,基于所述引导规划特征信息,获取所述目标任务的高层行为规划结果;
确定模块53,用于基于所述高层行为规划结果,确定执行所述目标任务所需的操作。
在某些可能的实施方式中,所述知识图谱包括执行所述目标任务的目标对象实体以及所述目标对象实体的属性信息;其中,所述属性信息包括所述目标对象实体的性能参数信息。
在某些可能的实施方式中,所述知识图谱包括不同行为概念和不同命题概念、概念逻辑关系、所述不同行为概念分别对应的知识记录、以及所述不同命题概念分别对应的知识记录,任一行为概念的知识记录包括行为名称、行为参数、执行该行为所需的前置条件以及执行结果,任一命题概念的知识记录包括命题名称、推理类型、命题参数以及命题实现目标。
在某些可能的实施方式中,所述知识图谱包括至少一个对象实体分别对应的常识性规则信息,任一对象实体对应的常识性规则信息用于指示该对象实体在不同状态下的常识信息,所述常识信息包括科学常识信息,和/或,生活常识信息。
在某些可能的实施方式中,所述确定模块53,具体用于基于所述知识图谱以及所述环境状态信息,对所述高层行为规划结果进行扩展,确定执行所述目标任务的行为树;其中,所述行为树包括执行所述目标任务所需的操作,各所述操作之间的执行顺序。
在某些可能的实施方式中,在重新为所述目标任务确定高层行为规划结果的情况下,所述引导规划特征信息还包括执行所述目标任务已完成的历史指令。
本实施例中的基于知识图谱和模型的行为规划装置是以功能模块的形式来呈现,这里的模块是指专用集成电路(Application Specific Integrated Circuit,简称ASIC),执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本申请的有益效果如下:
1、通过引入知识图谱,充分扩充用于行为规划的信息,使得输入给多模态大语言模型的提示内容更加充分,并减少人工输入提示内容的依赖,该多模态大语言模型可以综合利用任务描述信息、环境状态信息和预先构建的知识图谱,将这些信息结合起来进行行为规划,保证了多模态大语言模型做出正确的且确保机器人可执行的高层行为规划,极大提升了大语言模型行为规划的成功率。
2、基于高层行为规划结果确定执行目标任务所需的操作,可以确保执行的操作与任务目标保持一致,并考虑了环境状态和预先构建的知识图谱,提高了执行操作的可靠性和有效性,减少了执行过程中出现错误的可能性。
3、由于充分利用了知识图谱和多模态大语言模型的能力,使得本申请提供的行为规划方法具备了更强的智能性和适应性,可以根据不同的任务和环境情境生成相应的行为规划结果,并确定适合执行的操作,从而更好地应对复杂多变的实际场景。
实施例7:
请参阅图6,图6是本申请可选实施例提供的一种计算机设备的结构示意图,如图6所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,存储器20存储有可由至少一个处理器10执行的指令,以使至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据一种小程序落地页的展现的计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括输入装置30和输出装置40。处理器10、存储器20、输入装置30和输出装置40可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置30可接收输入的数字或字符信息,以及产生与该计算机设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等。输出装置40可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。上述显示设备包括但不限于液晶显示器,发光二极管,显示器和等离子体显示器。在一些可选的实施方式中,显示设备可以是触摸屏。
实施例8:
在上述各实施例的基础上,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有可由处理器执行的计算机程序,当程序在处理器上运行时,使得处理器执行时实现如下步骤:
获取引导规划特征信息;其中,所述引导规划特征信息包括目标任务的任务描述信息、环境状态信息以及预先构建的知识图谱;
通过预先训练完成的多模态大语言模型,基于所述引导规划特征信息,获取所述目标任务的高层行为规划结果;
基于所述高层行为规划结果,确定执行所述目标任务所需的操作。
由于上述计算机可读存储介质解决问题的原理与基于知识图谱和模型的行为规划方法相似,因此上述计算机可读存储介质的实施可以参见方法的实施例,重复之处不再赘述。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种基于知识图谱和模型的行为规划方法,其特征在于,所述方法包括:
获取引导规划特征信息;其中,所述引导规划特征信息包括目标任务的任务描述信息、环境状态信息以及预先构建的知识图谱;
通过预先训练完成的多模态大语言模型,基于所述引导规划特征信息,获取所述目标任务的高层行为规划结果;
基于所述高层行为规划结果,确定执行所述目标任务所需的操作。
2.如权利要求1所述的方法,其特征在于,所述知识图谱包括执行所述目标任务的目标对象实体以及所述目标对象实体的属性信息;其中,所述属性信息包括所述目标对象实体的性能参数信息。
3.如权利要求1或2所述的方法,其特征在于,所述知识图谱包括至少一个对象实体分别对应的常识性规则信息,任一对象实体对应的常识性规则信息用于指示该对象实体在不同状态下的常识信息,所述常识信息包括科学常识信息,和/或,生活常识信息。
4.如权利要求1所述的方法,其特征在于,所述知识图谱包括不同行为概念和不同命题概念、概念逻辑关系、所述不同行为概念分别对应的知识记录、以及所述不同命题概念分别对应的知识记录,任一行为概念的知识记录包括行为名称、行为参数、执行该行为所需的前置条件以及执行结果,任一命题概念的知识记录包括命题名称、推理类型、命题参数以及命题实现目标。
5.如权利要求4所述的方法,其特征在于,所述基于所述高层行为规划结果,确定执行所述目标任务所需的操作,包括:
基于所述知识图谱以及所述环境状态信息,对所述高层行为规划结果进行扩展,确定执行所述目标任务的行为树;其中,所述行为树包括执行所述目标任务所需的操作,各所述操作之间的执行顺序。
6.如权利要求1所述的方法,其特征在于,在重新为所述目标任务确定高层行为规划结果的情况下,所述引导规划特征信息还包括执行所述目标任务已完成的历史指令。
7.一种基于知识图谱和模型的行为规划装置,其特征在于,所述装置包括:
获取模块,用于获取引导规划特征信息;其中,所述引导规划特征信息包括目标任务的任务描述信息、环境状态信息以及预先构建的知识图谱;
处理模块,用于通过预先训练完成的多模态大语言模型,基于所述引导规划特征信息,获取所述目标任务的高层行为规划结果;
确定模块,用于基于所述高层行为规划结果,确定执行所述目标任务所需的操作。
8.如权利要求7所述的装置,其特征在于,所述知识图谱包括执行所述目标任务的目标对象实体以及所述目标对象实体的属性信息;其中,所述属性信息包括所述目标对象实体的性能参数信息。
9.如权利要求7所述的装置,其特征在于,所述知识图谱包括不同行为概念和不同命题概念、概念逻辑关系、所述不同行为概念分别对应的知识记录、以及所述不同命题概念分别对应的知识记录,任一行为概念的知识记录包括行为名称、行为参数、执行该行为所需的前置条件以及执行结果,任一命题概念的知识记录包括命题名称、推理类型、命题参数以及命题实现目标。
10.如权利要求9所述的装置,其特征在于,所述确定模块,具体用于基于所述知识图谱以及所述环境状态信息,对所述高层行为规划结果进行扩展,确定执行所述目标任务的行为树;其中,所述行为树包括执行所述目标任务所需的操作,各所述操作之间的执行顺序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410223441.1A CN118152586A (zh) | 2024-02-28 | 2024-02-28 | 一种基于知识图谱和模型的行为规划方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410223441.1A CN118152586A (zh) | 2024-02-28 | 2024-02-28 | 一种基于知识图谱和模型的行为规划方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118152586A true CN118152586A (zh) | 2024-06-07 |
Family
ID=91289461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410223441.1A Pending CN118152586A (zh) | 2024-02-28 | 2024-02-28 | 一种基于知识图谱和模型的行为规划方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118152586A (zh) |
-
2024
- 2024-02-28 CN CN202410223441.1A patent/CN118152586A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11120365B2 (en) | For hierarchical decomposition deep reinforcement learning for an artificial intelligence model | |
Cui et al. | Toward next-generation learned robot manipulation | |
Caccavale et al. | Kinesthetic teaching and attentional supervision of structured tasks in human–robot interaction | |
Levine et al. | Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection | |
Lozano-Pérez et al. | A constraint-based method for solving sequential manipulation planning problems | |
US11055583B1 (en) | Machine learning for computing enabled systems and/or devices | |
WO2018236674A1 (en) | HIERARCHICAL DECOMPOSITION DEEPENING REINFORCEMENT LEARNING FOR A MODEL OF ARTIFICIAL INTELLIGENCE | |
CN111144580B (zh) | 一种基于模仿学习的层级强化学习训练方法和装置 | |
Bekiroglu et al. | A probabilistic framework for task-oriented grasp stability assessment | |
Antunes et al. | From human instructions to robot actions: Formulation of goals, affordances and probabilistic planning | |
CN114423574B (zh) | 确定针对机器人任务的环境调节的动作序列 | |
CN115933387A (zh) | 基于视觉语言预训练模型的机器人操控方法、装置及介质 | |
Haidu et al. | KnowRobSIM—game engine-enabled knowledge processing towards cognition-enabled robot control | |
Arenas et al. | How to prompt your robot: A promptbook for manipulation skills with code as policies | |
Xu et al. | Dexterous manipulation from images: Autonomous real-world rl via substep guidance | |
Krshnaswamy et al. | The VoxWorld platform for multimodal embodied agents | |
CN114529010A (zh) | 一种机器人自主学习方法、装置、设备及存储介质 | |
Vanc et al. | Communicating human intent to a robotic companion by multi-type gesture sentences | |
CN118152586A (zh) | 一种基于知识图谱和模型的行为规划方法及装置 | |
Kaynar et al. | Remote task-oriented grasp area teaching by non-experts through interactive segmentation and few-shot learning | |
Calderon-Cordova et al. | A deep reinforcement learning framework for control of robotic manipulators in simulated environments | |
Kunert et al. | Generating of Task-Based Controls for Joint-Arm Robots with Simulation-based Reinforcement Learning. | |
Angleraud | Knowledge-Based Systems For Human-Robot Collaborative Tasks in Manufacturing Environments | |
Alt et al. | Knowledge-driven robot program synthesis from human VR demonstrations | |
Wicaksono | A Relational Approach to Tool Creation by a Robot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |