CN114161419B - 一种情景记忆引导的机器人操作技能高效学习方法 - Google Patents
一种情景记忆引导的机器人操作技能高效学习方法 Download PDFInfo
- Publication number
- CN114161419B CN114161419B CN202111515059.0A CN202111515059A CN114161419B CN 114161419 B CN114161419 B CN 114161419B CN 202111515059 A CN202111515059 A CN 202111515059A CN 114161419 B CN114161419 B CN 114161419B
- Authority
- CN
- China
- Prior art keywords
- robot
- scene
- event
- learning
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/008—Manipulators for service tasks
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明提供一种情景记忆引导的机器人操作技能高效学习方法,属于智能机器人服务技术领域。该高效学习方法首先,建立机器人学习系统情景记忆模型,并构建机器人感知与记忆进行相似性度量算法,实现对事件和场景信息检索匹配与情景记忆中事件的更新调用;其次,构建两相情景记忆引导的机器人操作技能深度强化学习算法,分别使用情景记忆引导动作选择过程;最后,并以情景记忆评估学习过程中各状态的价值,生成深度强化学习算法的奖赏函数。本发明提供使用已有经验指导机器人学习新技能的方法,能够提高机器人对操作技能的学习效率,解决机器人操作技能学习过程中数据量过大、使用深度强化学习算法学习效率低的问题。
Description
技术领域
本发明属于智能机器人服务技术领域,涉及到一种情景记忆引导的机器人操作技能高效学习方法。
背景技术
近年来,智能机器人在工业生产、医疗、商业、家庭服务等领域,当前机器人的学习方法针对精确、重复性的任务已经能够胜任,但是缺乏对新任务的学习能力,相似任务场景需重复训练,不能积累经验指导新任务实现快速学习等问题。在发明专利CN112518742A中,清华大学深圳国际研究生院的李秀、杨瑞等公开了一种基于动态模型与事后经验回放的多目标机器人控制方法。其基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练,利用事后经验回放技术,在多目标强化学习中,将失败经历的目标替换为实际完成的目标。西安交通大学的田智强、李根等在发明专利CN111421538A中公开了一种基于优先级经验回放机制的深度强化学习控制算法。其训练过程中实时采集目标物体的状态信息用于计算经验回放的优先级,然后将经验回放池中的数据根据优先级供强化学习算法采样学习获得控制模型。但是上述方法适用范围有限,首先,上述方法缺少对生物学习系统中经验复用相关功能的关注,在经验复用方面,上述方法采用经验回放的机制,在训练过程中提取经验池中的数据来重复进行神经网络的训练,缺少类似生物学习系统中对经验的直接检索、调用等功能。其次,上述方法在经验复用时,仅仅只考虑到某一时刻的机器人状态信息,未考虑到在连续工作的情况下机器人不同状态之间的关联性。同时,其机器人学习系统框架复杂,设计与搭建难度较大。最后,其缺少对使用深度强化学习方法时常常面临的奖赏函数设计与稀疏奖励的问题的研究,其只适用于在特定任务的学习,并需提前设计奖赏函数,无法进行机器人操作技能的完全自主学习,在认知层面缺少对生物学习能力的研究与应用,导致机器人缺少类人或类似生物的自主学习、探索的相关能力,未能实现机器人在实际应用时的高效学习性,难以满足机器人能够不断接触新任务,学习新技能的要求。因此上述方法尚不能满足智能机器人操作技能的快速学习等要求。
发明内容
本发明主要解决的问题在于智能机器人如何利用已学知识和已有经验提高对任务学习的效率和使用深度强化学习时面临的系数奖励问题。针对当前机器人技能学习存在的需要大量数据训练,相似任务场景需重复训练,不能积累经验指导新任务实现快速学习等问题,本发明提出一种情景记忆引导的机器人操作技能高效学习方法。
为了达到上述目的,本发明采用的技术方案为:
一种情景记忆引导的机器人操作技能高效学习方法,所述学习方法首先设计了机器人情景记忆模块,在使用深度强化学习进行机器人操作技能学习的过程中,将学习过程分为前后两相,在前相位显式的调用记忆中的事件来提高样本效率,加快学习速度;其次,在后相位学习与环境交互的过程中,实时的更新和扩展记忆,形成机器人记忆更新迭代机制;再次,提取记忆模块中不同状态之间的联系,以最终状态为起点生成奖励函数;最后,结合机器人感知规划模块的感知环境、目标检测、路径规划能力,与目标对象进行交互完成任务,实现记忆引导的机器人操作技能快速学习。具体包括以下步骤:
步骤1:建立机器人学习情景记忆模型M;
提出基于机器人技能的事件建模方式。机器人情景记忆模型M,M由不同的事件e构成,即M={e1,e2,e3,…ei},其中每个事件e由四元组<ot,at,rt,ot+1>表示,M中每个单元的构成与深度强化学习中表述状态的四元组的结构相同。其中,ot是由t时刻的环境状态st和机器人状态pt所编码成的场景信息,st是机器人通过传感器获得的环境状态,pt是包含机器人位姿状态、关节角度等信息机器人状态;at是机器人在环境状态st下执行的动作,在时间维度上表示机器人在当前任务采取的动作序列;rt是环境和学习策略在机器人执行动作后给出的奖励值。单一事件et可以表示为,机器人通过执行动作at,从环境状态st步入到环境状态st+1,环境和学习策略共同对机器人的表现做出评价,给出对应的奖赏值rt。
步骤2:构建情景记忆模型检索算法;
机器人在情景记忆模型M中检索与当前场景信息相匹配的所有事件集合E,具体为:采用余弦距离作为相似性度量函数,由任务编码器将当前环境状态与机器人状态编码为场景信息ot,通过计算ot与情景记忆模型M中存储事件的场景信息om之间的向量相似性,选取情景记忆模型中所有相匹配的事件作为事件集合E:
D(ot,om)=(ot*om)/(‖ot‖*‖om‖) (1)
当D(ot,om)大于设定阈值时,认为当前场景在记忆中存在,即认为机器人经历过相类似场景和事件,情景记忆中包含om的事件将被提取到E中。当D(ot,om)小于阈值时,则认为情景记忆模型中存在的事件与当前场景信息不匹配,所述的阈值Dthr的取值范围在0-1之间。
步骤3:根据情景记忆模型引导深度强化学习的动作选择;
机器人传感器捕获当前环境状态st和机器人状态pt,将st和pt编码为场景信息ot,根据步骤2获取事件集合E,在事件集合中提取拥有最大奖赏值的动作为am。,由深度强化学习的策略网络生成动作aπ,机器人在am和aπ中选择最终作用于环境的动作at,选择过程具体如下:
如果情景记忆中不存在与当前场景信息相匹配的事件,即E为空,机器人选择aπ作为最终作用于环境的动作;如果记忆存在匹配的事件,即事件集合E不为空,并且事件集合中的最大奖赏值等于1,机器人选择am作为最终作用于环境的动作at;如果事件集合E不为空并且事件集合中的最大奖赏值小于1,则机器人随机在aπ和am中进行选择一个作为at:
式(2)中β为大小在区间[0,1]之间的选择因子,p(aπ)为机器人选择aπ的概率,p(am)为机器人选择am的概率。
步骤4:深度强化学习环境进行迭代;
机器人执行在步骤3中选择的动作at,机器人所处环境在机器人执行动作后发生改变,环境状态由st步入到st+1,同时,机器人状态由pt变为pt+1,深度强化学习的评价网络根据环境状态st+1给出对应的环境奖赏值rt,如果机器人完成任务目标,rt为1,否则为0。
步骤5:更新情景记忆模型;
机器人使用环境状态st+1和机器人状态pt+1构成当前时刻的场景信息ot+1,以ot+1作为索引,使用步骤2中的检索方法,在情景记忆模型中检索相匹配的事件集合E,并设置记忆奖赏值如果E为空,则将/>设置为0,如果E不为空,则提取E中的最大奖赏值作为
使用步骤4获得的环境奖赏值rt和更新情景记忆模型,具体为:如果rt等于1,则将表示事件的四元组{ot,at,rt,ot+1}添加到情景记忆模型M中;如果rt等于0,由于st和st+1之间的状态转移关系,使用/>乘上一个折扣因子α来替代rt:
并将四元组{ot,at,rt,ot+1}添加到情景记忆模型M中。在情景记忆模型M更新之后,将表示事件的四元组{st,at,rt,st+1}写入深度强化学习算法的经验回放缓存。之后,学习过程将进入下一次迭代,回到步骤3进行重复,直至训练步数完成。
本发明的效果和益处是:
本发明能够有效的解决目前智能机器人操作技能学习需要大量数据训练、对于已有经验不能重复利用、深度强化学习过程中稀疏奖励等问题,将类人情景记忆引入深度强化学习,可在机器人面对新任务时利用经验指导机器人技能学习,实现记忆和经验的复用。本发明能在无需提前设计奖赏函数的情况下进行高效学习并自主生成奖赏函数,并可以利用以往的经验知识,通过少量的训练快速掌握技能完成学习任务,有效提高了采用深度强化学习的机器人技能学习的学习效率和执行成功率。
附图说明
图1为本发明方法的整体流程图;
图2为情景记忆模型架构;
图3为学习过程中状态转移示例;
图4为动作选择和记忆模块更新流程图。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明实例中提供的情景记忆引导的机器人操作技能高效学习流程图,参见图1。本发明基于情景记忆引导的深度强化学习方法,构建感知规划模块,通过目标检测实现物体的定位与识别,实现机械臂路径规划算法作为运动元基础,在情景记忆模型建立与调用过程中,通过哈希函数实现情景记忆与深度强化学习网络的交互,将深度强化学习过程拆分为前后两相,在前相位,机器人在记忆中检索当前所处场景,用来引导决策下一步动作;在后相位,机器人依据记忆进行优化奖励值并写入深度强化学习策略的经验池中,同时根据不同状态之间联系获得当前状态的价值,并根据此生成奖赏函数,之后继续迭代进入下一轮学习过程的前相位。
在本实施例中,采用桌面平台木块堆积操作技能学习为例,木块堆积学习方法包括以下步骤:
步骤1:建立机械臂操作技能学习的情景记忆模型M,其结构参见图2;提出基于机械臂技能的事件建模方式。机械臂情景记忆模型M由不同的事件e构成,M中每个事件e由四元组<ot,at,rt,ot+1>表示,M中每个单元的构成与深度强化学习中表述状态的四元组的结构相同。其中,ot是由t时刻的环境状态st和机械臂状态pt所编码成的场景信息,具体的,在本实例中,st是机械臂通过传感器获得的环境感知,所有木块的三维坐标信息,pt是机械臂位姿状态、关节信息的表示;at是机械臂在环境状态st下执行的动作,包括手爪打开、手爪闭合、移动到指定木块位置等动作,在时间维度上表示机械臂在当前任务采取的动作序列;rt是学习策略在机械臂执行动作后给出的奖励值。对于单一事件et,机械臂通过执行动作at,从环境状态st步入到环境状态st+1,环境和学习策略根据当前的木块状态,共同对机械臂的表现做出评价,给出对应的奖赏值rt。
步骤2:构建情景记忆模型检索算法;机械臂在情景记忆模型M中检索与当前场景信息相匹配的所有事件集合E,具体为:由任务编码器将当前环境状态与机器人状态编码为场景信息ot,根据公式(1)计算ot与情景记忆模型M中存储事件的场景信息om之间的向量相似性,将向量相似性大于阈值的事件添加到事件集合E中,本实例中阈值设置为0.9。
步骤3:根据情景记忆模型引导深度强化学习的动作选择;根据步骤2中所述方法检索获取事件集合E,在事件集合中提取拥有最大奖赏值的动作am。深度强化学习的策略网络生成动作aπ,机械臂在am和aπ中选择最终作用于环境的动作at。具体的:如果情景记忆M中不存在与当前场景信息相匹配的事件,即E为空,机械臂选择aπ作为最终作用于环境的动作;如果记忆存在匹配的事件,即事件集合E不为空,并且事件集合中的最大奖赏值等于1,机械臂选择am作为最终作用于环境的动作;如果事件集合E不为空并且事件集合中的最大奖赏值小于1,则机械臂根据公式(2)在aπ和am中进行选择一个动作作为at。
步骤4:深度强化学习环境进行迭代;机械臂执行在步骤3中选择的动作at,对木块进行操作,机械臂所处环境在执行动作后发生改变,环境状态由st步入到st+1,深度强化学习的评价网络根据环境状态st+1给出对应的环境奖赏值rt。rt的取值为0或者1,当机械臂完成任务,即木块堆积为最终状态,rt为1;当机械臂未完成任务,rt为0,环境状态转移过程参见图3。
步骤5:更新情景记忆模型;机械臂使用环境状态st+1和机械臂状态pt+1构成当前时刻的场景信息ot+1,使用ot+1作为索引,使用步骤2中方法,在情景记忆模型中检索相匹配的事件集合E,并设置记忆奖赏值如果E为空,则将/>设置为0,如果E不为空,则提取E中的最大奖赏值作为/>使用步骤4获得的环境奖赏值rt和/>更新情景记忆模型,具体为:如果rt等于1,则将表示事件的四元组{ot,at,rt,ot+1}添加到情景记忆M中;如果rt等于0,使用/>乘上一个折扣因子α来替代rt,本实施实例中α取值为0.9,将四元组/> 添加到情景记忆中。在情景记忆模型更新之后,将表示事件的四元组{st,at,rt,st+1}写入深度强化学习算法的经验回放缓存。进一步的,学习过程将进入下一次迭代,之后返回步骤3并进行重复,直至训练步数完成,整体流程参见图4。
以上示例性实施方式所呈现的描述仅用以说明本发明的技术方案,并不想要成为毫无遗漏的,也不想要把本发明限制为所描述的精确形式。显然,本领域的普通技术人员根据上述教导做出很多改变和变化都是可能的。选择示例性实施方式并进行描述是为了解释本发明的特定原理及其实际应用,从而使得本领域的其它技术人员便于理解、实现并利用本发明的各种示例性实施方式及其各种选择形式和修改形式。本发明的保护范围意在由所附权利要求书及其等效形式所限定。
Claims (3)
1.一种情景记忆引导的机器人操作技能高效学习方法,其特征在于,所述学习方法包括以下步骤:
步骤1:建立机器人学习情景记忆模型M;
提出基于机器人技能的事件建模方式;机器人情景记忆模型M,M由不同的事件e构成,即M={e1,e2,e3,…ei},其中每个事件e由四元组<ot,at,rt,ot+1>表示,M中每个单元的构成与深度强化学习中表述状态的四元组的结构相同;其中,ot是由t时刻的环境状态st和机器人状态pt所编码成的场景信息,st是机器人通过传感器获得的环境状态,pt是包含机器人位姿状态、关节角度或其他机器人状态;at是机器人在环境状态st下执行的动作,在时间维度上表示机器人在当前任务采取的动作序列;rt是环境和学习策略在机器人执行动作后给出的奖励值;单一事件可以表示为et,机器人通过执行动作at,从环境状态st步入到环境状态st+1,环境和学习策略共同对机器人的表现做出评价,给出对应的奖赏值rt;
步骤2:构建情景记忆模型检索算法;
机器人在情景记忆模型M中检索与当前场景信息相匹配的所有事件集合E,具体为:采用余弦距离作为相似性度量函数,由任务编码器将当前环境状态与机器人状态编码为场景信息ot,通过计算ot与情景记忆模型M中存储事件的场景信息om之间的向量相似性,选取情景记忆模型中所有相匹配的事件作为事件集合E:
D(ot,om)=(ot*om)/(‖ot‖*‖om‖) (1)
当D(ot,om)大于设定阈值时,认为当前场景在记忆中存在,认为机器人经历过相类似场景和事件,情景记忆中包含om的事件将被提取到E中;当D(ot,om)小于阈值时,则认为情景记忆模型中存在的事件与当前场景信息不匹配;
步骤3:根据情景记忆模型引导深度强化学习的动作选择;
机器人传感器捕获当前环境状态st和机器人状态pt,将st和pt编码为场景信息ot,根据步骤2获取事件集合E,在事件集合中提取拥有最大奖赏值的动作为am;由深度强化学习的策略网络生成动作aπ,机器人在am和aπ中选择最终作用于环境的动作at;
步骤4:深度强化学习环境进行迭代;
机器人执行在步骤3中选择的动作at,机器人所处环境在机器人执行动作后发生改变,环境状态由st步入到st+1,同时,机器人状态由pt变为pt+1,深度强化学习的评价网络根据环境状态st+1给出对应的环境奖赏值rt,如果机器人完成任务目标,rt为1,否则为0;
步骤5:更新情景记忆模型;
机器人使用环境状态st+1和机器人状态pt+1构成当前时刻的场景信息ot+1,以ot+1作为索引,使用步骤2中的检索方法,在情景记忆模型中检索相匹配的事件集合E,并设置记忆奖赏值如果E为空,则将/>设置为0,如果E不为空,则提取E中的最大奖赏值作为/>
使用步骤4获得的环境奖赏值rt和更新情景记忆模型:如果rt等于1,则将表示事件的四元组{ot,at,rt,ot+1}添加到情景记忆模型M中;如果rt等于0,由于st和st+1之间的状态转移关系,使用/>乘上一个折扣因子α来替代rt:
并将四元组{ot,at,rt,ot+1}添加到情景记忆模型M中;在情景记忆模型M更新之后,将表示事件的四元组{st,at,rt,st+1}写入深度强化学习算法的经验回放缓存;之后,学习过程将进入下一次迭代,回到步骤3进行重复,直至训练步数完成。
2.根据权利要求1所述的一种情景记忆引导的机器人操作技能高效学习方法,其特征在于,步骤2所述的阈值Dthr的取值范围在0-1之间。
3.根据权利要求1或2所述的一种情景记忆引导的机器人操作技能高效学习方法,其特征在于,步骤3所述动作选择过程具体如下:
如果情景记忆中不存在与当前场景信息相匹配的事件,即E为空,机器人选择aπ作为最终作用于环境的动作;如果记忆存在匹配的事件,即事件集合E不为空,并且事件集合中的最大奖赏值等于1,机器人选择am作为最终作用于环境的动作at;如果事件集合E不为空并且事件集合中的最大奖赏值小于1,则机器人随机在aπ和am中进行选择一个作为at:
式(2)中β为大小在区间[0,1]之间的选择因子,p(aπ)为机器人选择aπ的概率,p(am)为机器人选择am的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111515059.0A CN114161419B (zh) | 2021-12-13 | 2021-12-13 | 一种情景记忆引导的机器人操作技能高效学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111515059.0A CN114161419B (zh) | 2021-12-13 | 2021-12-13 | 一种情景记忆引导的机器人操作技能高效学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114161419A CN114161419A (zh) | 2022-03-11 |
CN114161419B true CN114161419B (zh) | 2023-09-15 |
Family
ID=80485906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111515059.0A Active CN114161419B (zh) | 2021-12-13 | 2021-12-13 | 一种情景记忆引导的机器人操作技能高效学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114161419B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114942637B (zh) * | 2022-05-17 | 2024-05-28 | 北方工业大学 | 一种具有情感与记忆机制的迷宫机器人自主搜索的认知学习方法 |
CN115082717B (zh) * | 2022-08-22 | 2022-11-08 | 成都不烦智能科技有限责任公司 | 基于视觉感知的动态目标识别和情景记忆认知方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108762281A (zh) * | 2018-06-08 | 2018-11-06 | 哈尔滨工程大学 | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 |
CN109940614A (zh) * | 2019-03-11 | 2019-06-28 | 东北大学 | 一种融合记忆机制的机械臂多场景快速运动规划方法 |
CN111160511A (zh) * | 2019-11-14 | 2020-05-15 | 北京邮电大学 | 一种共识主动学习的群体智能方法 |
CN111618862A (zh) * | 2020-06-12 | 2020-09-04 | 山东大学 | 一种先验知识引导下的机器人操作技能学习系统及方法 |
CN113524186A (zh) * | 2021-07-19 | 2021-10-22 | 山东大学 | 基于演示示例的深度强化学习双臂机器人控制方法及系统 |
CN113657573A (zh) * | 2021-06-30 | 2021-11-16 | 大连理工江苏研究院有限公司 | 一种情景记忆引导下基于元学习的机器人技能获取方法 |
CN113671834A (zh) * | 2021-08-24 | 2021-11-19 | 郑州大学 | 一种机器人柔性行为决策方法及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170032245A1 (en) * | 2015-07-01 | 2017-02-02 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Providing Reinforcement Learning in a Deep Learning System |
-
2021
- 2021-12-13 CN CN202111515059.0A patent/CN114161419B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108762281A (zh) * | 2018-06-08 | 2018-11-06 | 哈尔滨工程大学 | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 |
CN109940614A (zh) * | 2019-03-11 | 2019-06-28 | 东北大学 | 一种融合记忆机制的机械臂多场景快速运动规划方法 |
CN111160511A (zh) * | 2019-11-14 | 2020-05-15 | 北京邮电大学 | 一种共识主动学习的群体智能方法 |
CN111618862A (zh) * | 2020-06-12 | 2020-09-04 | 山东大学 | 一种先验知识引导下的机器人操作技能学习系统及方法 |
CN113657573A (zh) * | 2021-06-30 | 2021-11-16 | 大连理工江苏研究院有限公司 | 一种情景记忆引导下基于元学习的机器人技能获取方法 |
CN113524186A (zh) * | 2021-07-19 | 2021-10-22 | 山东大学 | 基于演示示例的深度强化学习双臂机器人控制方法及系统 |
CN113671834A (zh) * | 2021-08-24 | 2021-11-19 | 郑州大学 | 一种机器人柔性行为决策方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114161419A (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ebert et al. | Visual foresight: Model-based deep reinforcement learning for vision-based robotic control | |
CN113110592B (zh) | 一种无人机避障与路径规划方法 | |
CN114161419B (zh) | 一种情景记忆引导的机器人操作技能高效学习方法 | |
Kiatos et al. | Robust object grasping in clutter via singulation | |
CN110874578A (zh) | 一种基于强化学习的无人机视角车辆识别追踪方法 | |
CN111161412B (zh) | 三维激光建图方法及系统 | |
CN113657573B (zh) | 一种情景记忆引导下基于元学习的机器人技能获取方法 | |
CN115860107B (zh) | 一种基于多智能体深度强化学习的多机探寻方法及系统 | |
CN109940614B (zh) | 一种融合记忆机制的机械臂多场景快速运动规划方法 | |
CN113485373B (zh) | 一种基于高斯混合模型的机器人实时运动规划方法 | |
CN113219981B (zh) | 一种基于蚁群算法的移动机器人路径规划方法 | |
CN112356031B (zh) | 一种基于Kernel采样策略在不确定性环境下的在线规划方法 | |
CN113920170A (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 | |
CN112802061A (zh) | 一种基于层次化决策网络的鲁棒目标跟踪方法及系统 | |
Ye et al. | A novel active object detection network based on historical scenes and movements | |
Li et al. | Transformer memory for interactive visual navigation in cluttered environments | |
Desai et al. | Auxiliary tasks for efficient learning of point-goal navigation | |
CN115542912B (zh) | 一种基于改进Q-learning算法的移动机器人路径规划方法 | |
US20230102866A1 (en) | Neural deep equilibrium solver | |
CN115016499A (zh) | 一种基于sca-ql的路径规划方法 | |
Zhang et al. | Visual navigation of mobile robots in complex environments based on distributed deep reinforcement learning | |
Jia et al. | Deep learning for object detection and grasping: a survey | |
Zhu | An adaptive agent decision model based on deep reinforcement learning and autonomous learning | |
CN113792660A (zh) | 基于改进YOLOv3网络的行人检测方法、系统、介质、设备 | |
CN112507940A (zh) | 一种基于差分指导表示学习网络的骨骼动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |