CN114161419B

CN114161419B - 一种情景记忆引导的机器人操作技能高效学习方法

Info

Publication number: CN114161419B
Application number: CN202111515059.0A
Authority: CN
Inventors: 刘冬; 王子途; 丛明
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2023-09-15
Anticipated expiration: 2041-12-13
Also published as: CN114161419A

Abstract

本发明提供一种情景记忆引导的机器人操作技能高效学习方法，属于智能机器人服务技术领域。该高效学习方法首先，建立机器人学习系统情景记忆模型，并构建机器人感知与记忆进行相似性度量算法，实现对事件和场景信息检索匹配与情景记忆中事件的更新调用；其次，构建两相情景记忆引导的机器人操作技能深度强化学习算法，分别使用情景记忆引导动作选择过程；最后，并以情景记忆评估学习过程中各状态的价值，生成深度强化学习算法的奖赏函数。本发明提供使用已有经验指导机器人学习新技能的方法，能够提高机器人对操作技能的学习效率，解决机器人操作技能学习过程中数据量过大、使用深度强化学习算法学习效率低的问题。

Description

一种情景记忆引导的机器人操作技能高效学习方法

技术领域

本发明属于智能机器人服务技术领域，涉及到一种情景记忆引导的机器人操作技能高效学习方法。

背景技术

近年来，智能机器人在工业生产、医疗、商业、家庭服务等领域，当前机器人的学习方法针对精确、重复性的任务已经能够胜任，但是缺乏对新任务的学习能力，相似任务场景需重复训练，不能积累经验指导新任务实现快速学习等问题。在发明专利CN112518742A中，清华大学深圳国际研究生院的李秀、杨瑞等公开了一种基于动态模型与事后经验回放的多目标机器人控制方法。其基于动态模型与单步值函数估计和多步值函数展开来加速多目标强化学习训练，利用事后经验回放技术，在多目标强化学习中，将失败经历的目标替换为实际完成的目标。西安交通大学的田智强、李根等在发明专利CN111421538A中公开了一种基于优先级经验回放机制的深度强化学习控制算法。其训练过程中实时采集目标物体的状态信息用于计算经验回放的优先级，然后将经验回放池中的数据根据优先级供强化学习算法采样学习获得控制模型。但是上述方法适用范围有限，首先，上述方法缺少对生物学习系统中经验复用相关功能的关注，在经验复用方面，上述方法采用经验回放的机制，在训练过程中提取经验池中的数据来重复进行神经网络的训练，缺少类似生物学习系统中对经验的直接检索、调用等功能。其次，上述方法在经验复用时，仅仅只考虑到某一时刻的机器人状态信息，未考虑到在连续工作的情况下机器人不同状态之间的关联性。同时，其机器人学习系统框架复杂，设计与搭建难度较大。最后，其缺少对使用深度强化学习方法时常常面临的奖赏函数设计与稀疏奖励的问题的研究，其只适用于在特定任务的学习，并需提前设计奖赏函数，无法进行机器人操作技能的完全自主学习，在认知层面缺少对生物学习能力的研究与应用，导致机器人缺少类人或类似生物的自主学习、探索的相关能力，未能实现机器人在实际应用时的高效学习性，难以满足机器人能够不断接触新任务，学习新技能的要求。因此上述方法尚不能满足智能机器人操作技能的快速学习等要求。

发明内容

本发明主要解决的问题在于智能机器人如何利用已学知识和已有经验提高对任务学习的效率和使用深度强化学习时面临的系数奖励问题。针对当前机器人技能学习存在的需要大量数据训练，相似任务场景需重复训练，不能积累经验指导新任务实现快速学习等问题，本发明提出一种情景记忆引导的机器人操作技能高效学习方法。

为了达到上述目的，本发明采用的技术方案为：

一种情景记忆引导的机器人操作技能高效学习方法，所述学习方法首先设计了机器人情景记忆模块，在使用深度强化学习进行机器人操作技能学习的过程中，将学习过程分为前后两相，在前相位显式的调用记忆中的事件来提高样本效率，加快学习速度；其次，在后相位学习与环境交互的过程中，实时的更新和扩展记忆，形成机器人记忆更新迭代机制；再次，提取记忆模块中不同状态之间的联系，以最终状态为起点生成奖励函数；最后，结合机器人感知规划模块的感知环境、目标检测、路径规划能力，与目标对象进行交互完成任务，实现记忆引导的机器人操作技能快速学习。具体包括以下步骤：

步骤1：建立机器人学习情景记忆模型M；

提出基于机器人技能的事件建模方式。机器人情景记忆模型M，M由不同的事件e构成，即M＝{e₁,e₂,e₃,…e_i}，其中每个事件e由四元组<o_t,a_t,r_t,o_t+1>表示，M中每个单元的构成与深度强化学习中表述状态的四元组的结构相同。其中，o_t是由t时刻的环境状态s_t和机器人状态p_t所编码成的场景信息，s_t是机器人通过传感器获得的环境状态，p_t是包含机器人位姿状态、关节角度等信息机器人状态；a_t是机器人在环境状态s_t下执行的动作，在时间维度上表示机器人在当前任务采取的动作序列；r_t是环境和学习策略在机器人执行动作后给出的奖励值。单一事件e_t可以表示为，机器人通过执行动作a_t，从环境状态s_t步入到环境状态s_t+1，环境和学习策略共同对机器人的表现做出评价，给出对应的奖赏值r_t。

步骤2：构建情景记忆模型检索算法；

机器人在情景记忆模型M中检索与当前场景信息相匹配的所有事件集合E，具体为：采用余弦距离作为相似性度量函数，由任务编码器将当前环境状态与机器人状态编码为场景信息o_t，通过计算o_t与情景记忆模型M中存储事件的场景信息o_m之间的向量相似性，选取情景记忆模型中所有相匹配的事件作为事件集合E:

D(o_t,o_m)＝(o_t*o_m)/(‖o_t‖*‖o_m‖) (1)

当D(o_t,o_m)大于设定阈值时，认为当前场景在记忆中存在，即认为机器人经历过相类似场景和事件，情景记忆中包含o_m的事件将被提取到E中。当D(o_t,o_m)小于阈值时，则认为情景记忆模型中存在的事件与当前场景信息不匹配，所述的阈值D_thr的取值范围在0-1之间。

步骤3：根据情景记忆模型引导深度强化学习的动作选择；

机器人传感器捕获当前环境状态s_t和机器人状态p_t，将s_t和p_t编码为场景信息o_t，根据步骤2获取事件集合E，在事件集合中提取拥有最大奖赏值的动作为a_m。，由深度强化学习的策略网络生成动作a_π，机器人在a_m和a_π中选择最终作用于环境的动作a_t，选择过程具体如下：

如果情景记忆中不存在与当前场景信息相匹配的事件，即E为空，机器人选择a_π作为最终作用于环境的动作；如果记忆存在匹配的事件，即事件集合E不为空，并且事件集合中的最大奖赏值等于1，机器人选择a_m作为最终作用于环境的动作a_t；如果事件集合E不为空并且事件集合中的最大奖赏值小于1，则机器人随机在a_π和a_m中进行选择一个作为a_t：

式(2)中β为大小在区间[0,1]之间的选择因子，p(a_π)为机器人选择a_π的概率，p(a_m)为机器人选择a_m的概率。

步骤4：深度强化学习环境进行迭代；

机器人执行在步骤3中选择的动作a_t，机器人所处环境在机器人执行动作后发生改变，环境状态由s_t步入到s_t+1，同时，机器人状态由p_t变为p_t+1，深度强化学习的评价网络根据环境状态s_t+1给出对应的环境奖赏值r_t，如果机器人完成任务目标，r_t为1，否则为0。

步骤5：更新情景记忆模型；

机器人使用环境状态s_t+1和机器人状态p_t+1构成当前时刻的场景信息o_t+1，以o_t+1作为索引，使用步骤2中的检索方法，在情景记忆模型中检索相匹配的事件集合E，并设置记忆奖赏值如果E为空，则将/>设置为0，如果E不为空，则提取E中的最大奖赏值作为

使用步骤4获得的环境奖赏值r_t和更新情景记忆模型，具体为：如果r_t等于1，则将表示事件的四元组{o_t,a_t,r_t,o_t+1}添加到情景记忆模型M中；如果r_t等于0，由于s_t和s_t+1之间的状态转移关系，使用/>乘上一个折扣因子α来替代r_t：

并将四元组{o_t,a_t,r_t,o_t+1}添加到情景记忆模型M中。在情景记忆模型M更新之后，将表示事件的四元组{s_t,a_t,r_t,s_t+1}写入深度强化学习算法的经验回放缓存。之后，学习过程将进入下一次迭代，回到步骤3进行重复，直至训练步数完成。

本发明的效果和益处是：

本发明能够有效的解决目前智能机器人操作技能学习需要大量数据训练、对于已有经验不能重复利用、深度强化学习过程中稀疏奖励等问题，将类人情景记忆引入深度强化学习，可在机器人面对新任务时利用经验指导机器人技能学习，实现记忆和经验的复用。本发明能在无需提前设计奖赏函数的情况下进行高效学习并自主生成奖赏函数，并可以利用以往的经验知识，通过少量的训练快速掌握技能完成学习任务，有效提高了采用深度强化学习的机器人技能学习的学习效率和执行成功率。

附图说明

图1为本发明方法的整体流程图；

图2为情景记忆模型架构；

图3为学习过程中状态转移示例；

图4为动作选择和记忆模块更新流程图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明实例中提供的情景记忆引导的机器人操作技能高效学习流程图，参见图1。本发明基于情景记忆引导的深度强化学习方法，构建感知规划模块，通过目标检测实现物体的定位与识别，实现机械臂路径规划算法作为运动元基础，在情景记忆模型建立与调用过程中，通过哈希函数实现情景记忆与深度强化学习网络的交互，将深度强化学习过程拆分为前后两相，在前相位，机器人在记忆中检索当前所处场景，用来引导决策下一步动作；在后相位，机器人依据记忆进行优化奖励值并写入深度强化学习策略的经验池中，同时根据不同状态之间联系获得当前状态的价值，并根据此生成奖赏函数，之后继续迭代进入下一轮学习过程的前相位。

在本实施例中，采用桌面平台木块堆积操作技能学习为例，木块堆积学习方法包括以下步骤：

步骤1：建立机械臂操作技能学习的情景记忆模型M，其结构参见图2；提出基于机械臂技能的事件建模方式。机械臂情景记忆模型M由不同的事件e构成，M中每个事件e由四元组<o_t,a_t,r_t,o_t+1>表示，M中每个单元的构成与深度强化学习中表述状态的四元组的结构相同。其中，o_t是由t时刻的环境状态s_t和机械臂状态p_t所编码成的场景信息，具体的，在本实例中，s_t是机械臂通过传感器获得的环境感知，所有木块的三维坐标信息，p_t是机械臂位姿状态、关节信息的表示；a_t是机械臂在环境状态s_t下执行的动作，包括手爪打开、手爪闭合、移动到指定木块位置等动作，在时间维度上表示机械臂在当前任务采取的动作序列；r_t是学习策略在机械臂执行动作后给出的奖励值。对于单一事件e_t，机械臂通过执行动作a_t，从环境状态s_t步入到环境状态s_t+1，环境和学习策略根据当前的木块状态，共同对机械臂的表现做出评价，给出对应的奖赏值r_t。

步骤2：构建情景记忆模型检索算法；机械臂在情景记忆模型M中检索与当前场景信息相匹配的所有事件集合E，具体为：由任务编码器将当前环境状态与机器人状态编码为场景信息o_t，根据公式(1)计算o_t与情景记忆模型M中存储事件的场景信息o_m之间的向量相似性，将向量相似性大于阈值的事件添加到事件集合E中，本实例中阈值设置为0.9。

步骤3：根据情景记忆模型引导深度强化学习的动作选择；根据步骤2中所述方法检索获取事件集合E，在事件集合中提取拥有最大奖赏值的动作a_m。深度强化学习的策略网络生成动作a_π，机械臂在a_m和a_π中选择最终作用于环境的动作a_t。具体的：如果情景记忆M中不存在与当前场景信息相匹配的事件，即E为空，机械臂选择a_π作为最终作用于环境的动作；如果记忆存在匹配的事件，即事件集合E不为空，并且事件集合中的最大奖赏值等于1，机械臂选择a_m作为最终作用于环境的动作；如果事件集合E不为空并且事件集合中的最大奖赏值小于1，则机械臂根据公式(2)在a_π和a_m中进行选择一个动作作为a_t。

步骤4：深度强化学习环境进行迭代；机械臂执行在步骤3中选择的动作a_t，对木块进行操作，机械臂所处环境在执行动作后发生改变，环境状态由s_t步入到s_t+1，深度强化学习的评价网络根据环境状态s_t+1给出对应的环境奖赏值r_t。r_t的取值为0或者1，当机械臂完成任务，即木块堆积为最终状态，r_t为1；当机械臂未完成任务，r_t为0，环境状态转移过程参见图3。

步骤5：更新情景记忆模型；机械臂使用环境状态s_t+1和机械臂状态p_t+1构成当前时刻的场景信息o_t+1，使用o_t+1作为索引，使用步骤2中方法，在情景记忆模型中检索相匹配的事件集合E，并设置记忆奖赏值如果E为空，则将/>设置为0，如果E不为空，则提取E中的最大奖赏值作为/>使用步骤4获得的环境奖赏值r_t和/>更新情景记忆模型，具体为：如果r_t等于1，则将表示事件的四元组{o_t,a_t,r_t,o_t+1}添加到情景记忆M中；如果r_t等于0，使用/>乘上一个折扣因子α来替代r_t，本实施实例中α取值为0.9，将四元组/> 添加到情景记忆中。在情景记忆模型更新之后，将表示事件的四元组{s_t,a_t,r_t,s_t+1}写入深度强化学习算法的经验回放缓存。进一步的，学习过程将进入下一次迭代，之后返回步骤3并进行重复，直至训练步数完成，整体流程参见图4。

以上示例性实施方式所呈现的描述仅用以说明本发明的技术方案，并不想要成为毫无遗漏的，也不想要把本发明限制为所描述的精确形式。显然，本领域的普通技术人员根据上述教导做出很多改变和变化都是可能的。选择示例性实施方式并进行描述是为了解释本发明的特定原理及其实际应用，从而使得本领域的其它技术人员便于理解、实现并利用本发明的各种示例性实施方式及其各种选择形式和修改形式。本发明的保护范围意在由所附权利要求书及其等效形式所限定。

Claims

1.一种情景记忆引导的机器人操作技能高效学习方法，其特征在于，所述学习方法包括以下步骤：

步骤1：建立机器人学习情景记忆模型M；

提出基于机器人技能的事件建模方式；机器人情景记忆模型M，M由不同的事件e构成，即M＝{e₁,e₂,e₃,…e_i}，其中每个事件e由四元组<o_t,a_t,r_t,o_t+1>表示，M中每个单元的构成与深度强化学习中表述状态的四元组的结构相同；其中，o_t是由t时刻的环境状态s_t和机器人状态p_t所编码成的场景信息，s_t是机器人通过传感器获得的环境状态，p_t是包含机器人位姿状态、关节角度或其他机器人状态；a_t是机器人在环境状态s_t下执行的动作，在时间维度上表示机器人在当前任务采取的动作序列；r_t是环境和学习策略在机器人执行动作后给出的奖励值；单一事件可以表示为e_t，机器人通过执行动作a_t，从环境状态s_t步入到环境状态s_t+1，环境和学习策略共同对机器人的表现做出评价，给出对应的奖赏值r_t；

步骤2：构建情景记忆模型检索算法；

D(o_t,o_m)＝(o_t*o_m)/(‖o_t‖*‖o_m‖) (1)

当D(o_t,o_m)大于设定阈值时，认为当前场景在记忆中存在，认为机器人经历过相类似场景和事件，情景记忆中包含o_m的事件将被提取到E中；当D(o_t,o_m)小于阈值时，则认为情景记忆模型中存在的事件与当前场景信息不匹配；

步骤3：根据情景记忆模型引导深度强化学习的动作选择；

机器人传感器捕获当前环境状态s_t和机器人状态p_t，将s_t和p_t编码为场景信息o_t，根据步骤2获取事件集合E，在事件集合中提取拥有最大奖赏值的动作为a_m；由深度强化学习的策略网络生成动作a_π，机器人在a_m和a_π中选择最终作用于环境的动作a_t；

步骤4：深度强化学习环境进行迭代；

机器人执行在步骤3中选择的动作a_t，机器人所处环境在机器人执行动作后发生改变，环境状态由s_t步入到s_t+1，同时，机器人状态由p_t变为p_t+1，深度强化学习的评价网络根据环境状态s_t+1给出对应的环境奖赏值r_t，如果机器人完成任务目标，r_t为1，否则为0；

步骤5：更新情景记忆模型；

机器人使用环境状态s_t+1和机器人状态p_t+1构成当前时刻的场景信息o_t+1，以o_t+1作为索引，使用步骤2中的检索方法，在情景记忆模型中检索相匹配的事件集合E，并设置记忆奖赏值如果E为空，则将/>设置为0，如果E不为空，则提取E中的最大奖赏值作为/>

使用步骤4获得的环境奖赏值r_t和更新情景记忆模型：如果r_t等于1，则将表示事件的四元组{o_t,a_t,r_t,o_t+1}添加到情景记忆模型M中；如果r_t等于0，由于s_t和s_t+1之间的状态转移关系，使用/>乘上一个折扣因子α来替代r_t：

并将四元组{o_t,a_t,r_t,o_t+1}添加到情景记忆模型M中；在情景记忆模型M更新之后，将表示事件的四元组{s_t,a_t,r_t,s_t+1}写入深度强化学习算法的经验回放缓存；之后，学习过程将进入下一次迭代，回到步骤3进行重复，直至训练步数完成。

2.根据权利要求1所述的一种情景记忆引导的机器人操作技能高效学习方法，其特征在于，步骤2所述的阈值D_thr的取值范围在0-1之间。

3.根据权利要求1或2所述的一种情景记忆引导的机器人操作技能高效学习方法，其特征在于，步骤3所述动作选择过程具体如下：