CN114888801B - 一种基于离线策略强化学习的机械臂控制方法及系统 - Google Patents
一种基于离线策略强化学习的机械臂控制方法及系统 Download PDFInfo
- Publication number
- CN114888801B CN114888801B CN202210525911.0A CN202210525911A CN114888801B CN 114888801 B CN114888801 B CN 114888801B CN 202210525911 A CN202210525911 A CN 202210525911A CN 114888801 B CN114888801 B CN 114888801B
- Authority
- CN
- China
- Prior art keywords
- grabbing
- training
- simulation
- model
- mechanical arm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/1605—Simulation of manipulator lay-out, design, modelling of manipulator
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1671—Programme controls characterised by programming, planning systems for manipulators characterised by simulation, either to verify existing program or to create and verify new program, CAD/CAM oriented, graphic oriented programming systems
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
Abstract
本发明公开了机械手控制领域的一种基于离线策略强化学习的机械臂控制方法及系统,包括:将状态信息s输入至上位机系统,通过抓取模型形成轨迹控制指令控制机械臂抓取所述目标体;所述抓取模型构建过程包括:构建抓取任务训练集;仿真环境中通过抓取任务训练集对抓取模型进行训练,得到仿真抓取任务元训练模型;在真实环境中对仿真抓取任务元训练模型进行少量训练;利用仿真训练过程中的仿真数据Dmeta再次对仿真抓取任务元训练模型进行仿真训练,获得收敛的抓取模型;本发明提高了抓取模型的泛化性和迁移过程的样本效率,缩短了模型迁移时间,同时降低了机械臂在现实中训练的风险。
Description
技术领域
本发明属于机械臂控制领域,具体涉及一种基于离线策略强化学习的机械臂控制方法及系统。
背景技术
深度强化学习(Deep Reinforcement Learning,DRL)因同时具备深度网络的特征提取能力和强化学习的决策能力,被广泛应用于机器人的运动控制中。基于深度强化学习的机械臂控制方法存在实体迁移(sim-to-real)的问题,即在仿真环境中训练结束后模型在现实任务中表现差,需要将其迁移至现实环境中继续训练。但在现实环境的训练中机械臂的运动具有一定的不确定性,容易对机械臂造成损害。在满足对模型性能的要求下,缩短现实世界的迁移过程、减少机械臂与环境的互动具有重要现实意义。
借鉴人类学习技能的方法,可以在智能体已学得相关技能的基础上,将相关技能的经验应用在新技能的学习上。元强化学习方法可以在相关任务上的训练过程中获取经验,提高模型的泛化性,一定程度上可缩短迁移过程。已有的元强化学习方法如MAML因模型的泛化性对内循环更新次数敏感,不适合离线策略(off-policy)强化学习方法,迁移过程的样本效率的提升受到较大限制。其他具有代表性的元强化学习算法如PEARL、MIER优化过程较为复杂,计算复杂度较高。
发明内容
本发明的目的在于提供一种基于离线策略强化学习的机械臂控制方法及系统,提高了抓取模型的泛化性和迁移过程的样本效率,缩短了模型迁移时间,同时降低了机械臂在现实中训练的风险。
为达到上述目的,本发明所采用的技术方案是:
本发明第一方面提供了一种基于离线策略强化学习的机械臂控制方法,包括:
采集目标体位姿以及机械臂末端的位姿和速度构成状态信息s;
预训练的最终抓取模型根据状态信息s输入至形成轨迹控制指令,并控制机械臂抓取所述目标体;
所述最终抓取模型构建过程包括:
在仿真器中改变目标体的形状和姿态,构建抓取任务训练集;
基于离线策略强化学习方法构建仿真抓取模型,基于元Q学习的仿真环境中通过抓取任务训练集对抓取模型进行训练,将训练过程中仿真机械臂的轨迹数据、轨迹上下文变量作为迁移数据,存储至经验区Dmeta,获得仿真抓取任务元训练模型;
在真实环境中对仿真抓取任务元训练模型进行设计次数的训练,记录机械臂的轨迹数据、轨迹变量作为迁移数据,存储至经验区Dnew;由经验区Dnew和经验区Dmeta中分别抽取设定数量的迁移数据组,计算迁移数据组的倾向性得分和归一化有效采样量;
利用经验区Dmeta中的迁移数据再次对仿真抓取任务元训练模型进行仿真训练,训练过程中基于倾向性得分和归一化有效采样量构建多任务目标作为迁移损失函数;根据迁移损失函数对仿真抓取任务元训练模型进行迭代更新,获得收敛的最终抓取模型。
优选的,在仿真器中改变目标体的形状和姿态,构建抓取任务训练集的方法包括:将目标体分别绕水平设置的旋转轴a和竖直设置的旋转轴b旋转18次,且每次旋转角度为10度,得到36个抓取任务,构建为抓取任务训练集。
优选的,基于元Q学习的仿真环境中通过抓取任务训练集对抓取模型进行训练的方法包括:
仿真抓取模型控制仿真机械臂执行抓取任务训练集中的抓取任务,形成仿真机械臂的轨迹数据,利用后视经验回放算法计算仿真机械臂的轨迹数据的目标状态和奖励信号;
基于目标状态和奖励信号构造多任务目标的仿真训练损失函数;根据仿真训练损失函数对仿真抓取模型的参数进行更新,获得损失函数收敛的仿真抓取任务元训练模型。
优选的,所述多任务目标的仿真训练损失函数的表达公式为:
yj=rj+γQ'(st+1,μ'(st+1|θμ')|θQ')
公式中,Li表示为执行第i抓取任务的损失值;N表示为批量数据的数量;sj表示为第j个数据中的机械臂状态;st+1表示为在仿真环境中第j个数据中的后继机械臂状态;aj表示为第j个数据中的机械臂动作;rj表示为的第j个数据中的奖励;Q(·)表示为仿真抓取任务元训练模型中的价值网络;Q′(·)表示为仿真抓取任务元训练模型中的目标价值网络;γ表示为奖励折扣因子;μ′()表示为仿真抓取任务元训练模型中的目标决策网络;θμ′表示为目标决策网络的参数;θQ′表示为目标价值网络的参数。
优选的,轨迹变量计算方法包括:利用门控循环单元GRU由轨迹数据中提取轨迹变量。
优选的,所述迁移数据组的归一化有效采样量的计算方法包括;
通过迁移数据组训练逻辑斯谛回归模型作为倾向性得分估计函数β,利用倾向性得分估计函数β计算迁移数据组的归一化有效采样量,表达公式为
公式中:ESS表示为迁移数据组的归一化有效采样量;β(·)表示为倾向性得分估计函数;xj表示为第j次执行抓取任务中的迁移数据。
优选的,通过迁移数据组训练逻辑斯谛回归模型作为倾向性得分估计函数β,
从经验区Dnew和经验区Dmeta中抽取设定数量的迁移数据组,记为x,并分别设置标签y=1和y=-1,获得数据集(x,y);
通过各组迁移数据组对应数据集(x,y)训练逻辑斯谛回归模型作为倾向性得分估计函数β,表达公式为:
公式中,w表示为逻辑斯谛回归模型的参数;T表示为矩阵转置。
优选的,迁移损失函数的表达公式为:
公式中,θmeta表示为仿真抓取任务元训练模型的参数。
本发明第二方面提供了一种基于离线策略强化学习的机械臂控制系统,包括:
采集模块,用于采集目标体位姿以及机械臂末端的位姿和速度构成状态信息s;
控制模块,用于预训练的最终抓取模型根据状态信息s输入至形成轨迹控制指令,并控制机械臂抓取所述目标体;
抓取任务训练集构建模块,在仿真器中改变目标体的形状和姿态,构建抓取任务训练集;
仿真抓取任务训练模块,基于离线策略强化学习方法构建仿真抓取模型,基于元Q学习的仿真环境中通过抓取任务训练集对抓取模型进行训练,将训练过程中仿真机械臂的轨迹数据、轨迹上下文变量作为迁移数据,存储至经验区Dmeta,获得仿真抓取任务元训练模型;
真实抓取任务训练模块,用于在真实环境中对仿真抓取任务元训练模型进行设计次数的训练,记录机械臂的轨迹数据、轨迹变量作为迁移数据,存储至经验区Dnew;由经验区Dnew和经验区Dmeta中分别抽取设定数量的迁移数据组,计算迁移数据组的倾向性得分和归一化有效采样量;
现实抓取任务离线再训练模块,利用经验区Dmeta中的迁移数据再次对仿真抓取任务元训练模型进行仿真训练,训练过程中基于倾向性得分和归一化有效采样量构建多任务目标作为迁移损失函数;根据迁移损失函数对仿真抓取任务元训练模型进行迭代更新,获得收敛的最终抓取模型。
本发明第三方面提供了计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现所述机械臂控制方法的步骤。
与现有技术相比,本发明的有益效果:
本发明由经验区Dnew和经验区Dmeta中分别抽取设定数量的迁移数据组,计算迁移数据组的归一化有效采样量;利用经验区Dmeta中的迁移数据再次对仿真抓取任务元训练模型进行仿真训练,训练过程中基于归一化有效采样量构建多任务目标作为迁移损失函数;根据迁移损失函数对仿真抓取任务元训练模型进行迭代更新,获得收敛的抓取模型;提高了抓取模型的泛化性和迁移过程的样本效率,缩短了模型迁移时间,同时现实抓取任务离线再训练抓取模型,降低了机械臂在现实中训练的风险。
附图说明
图1是本发明实施例提供的抓取模型的训练整体流程图;
图2是本发明实施例提供的仿真抓取任务训练的流程图;
图3是本发明实施例提供的真实抓取任务训练的流程图;
图4是本发明实施例提供的真实抓取任务训练模块的结构图;
图5是本发明实施例提供的抓取任务训练集中目标体的结构图;
图中:1机械臂、2目标体、3目标体放置位置、4深度相机。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一
如图1至图3所示,一种基于离线策略强化学习的机械臂控制方法,本实施例中的机械臂1的手臂部分有6个旋转关节,末端有3根手指,包括:
采集目标体2位姿以及机械臂末端的位姿和速度构成状态信息s;
将状态信息s输入至预训练的抓取模型,通过预训练的抓取模型形成轨迹控制指令,控制机械臂1抓取所述目标体2放置于所述目标体放置位置3;
所述预训练的抓取模型构建过程包括:
如图5所示,在仿真器中改变目标体的形状和姿态,构建抓取任务训练集的方法包括:将目标体分别绕水平设置的旋转轴a和竖直设置的旋转轴b旋转18次,且每次旋转角度为10度,得到36个抓取任务,构建为抓取任务训练集。
基于离线策略强化学习方法构建仿真抓取模型,所述仿真抓取模型包括,价值网络和策略网络。价值网络为包含3个隐含层的全连接网络,每一隐含层的节点数为256,激活函数采用ReLU;输入层节点数为22,并包含15维的状态和7维的动作,输出层为1。策略网络隐含层与价值网络相同,激活函数采用ReLU,策略网络输入层节点数为15,输出层为7。复制当前的价值网络和策略网络,作为目标网络。价值网络、策略网络、目标价值网络、目标策略网络代表的映射分别表示为Q,μ,Q',μ',参数分别为θQ,θμ,θQ',θμ',记整体网络参数为:θ=(θQ,θμ,θQ′,θμ′)。
基于元Q学习的仿真环境中通过抓取任务训练集对抓取模型进行训练的方法包括:
仿真抓取模型控制仿真机械臂执行抓取任务训练集中的抓取任务,获取目标体位姿(x,y,z,α,β,γ)、机械臂末端位姿(x',y',z',α',β',γ')和机械臂末端速度(vx,vy,vz)作为仿真状态;根据抓取模型的策略和仿真状态得到动作a=(θ1,θ2,θ3,θ4,θ5,θ6,θ7),其中θ1、θ2、θ3、θ4、θ5、θ6为机械臂各个关节角,三根手指与末端连接处的关节角统一表示为θ7;
将动作噪声加到动作a中,控制机械臂按给定关节角运动,直至到达环境最大交互步数T或成功完成抓取任务,记录轨迹数据{s1,a1,s2,a2,...,sT};利用门控循环单元GRU由轨迹数据中提取轨迹变量;将训练过程中仿真机械臂的轨迹数据、轨迹变量和状态信息作为迁移数据,存储至经验区Dmeta。
以目标体坐标和放置位置的距离小于阈值判断是否成功完成抓取,利用后视经验回放算法计算仿真机械臂的轨迹数据的目标状态和奖励信号;
基于目标状态和奖励信号构造多任务目标的仿真训练损失函数;
所述多任务目标的仿真训练损失函数的表达公式为:
yj=rj+γQ'(sj+1,μ'(sj+1|θμ')|θQ')
公式中,Li表示为执行第i抓取任务的损失值;N表示为批量数据的数量;sj表示为第j个数据中的机械臂状态;st+1表示为在仿真环境中第j个数据中的后继机械臂状态;aj表示为第j个数据中的机械臂动作;rj表示为的第j个数据中的奖励;
根据仿真训练损失函数对仿真抓取模型的参数进行更新,利用下式更新价值网络:
利用下式更新策略网络:
利用下式更新目标价值网络和目标策略网络:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
获得损失函数收敛的仿真抓取任务元训练模型,保存仿真抓取任务元训练模型,表示为θmeta=(θQ,θμ,θQ',θμ')。
在真实环境中通过仿真抓取任务元训练模型控制机械臂执行多次抓取任务,利用深度相机4捕获目标体深度图像经目标位姿检测模块估计出目标体位姿,利用正运动学求出机械臂末端的位姿和速度,计算获得机械臂的轨迹数据;利用门控循环单元GRU由轨迹数据中提取轨迹变量,记录机械臂的轨迹数据、轨迹变量和状态信息作为迁移数据,存储至经验区Dnew;轨迹变量计算方法为利用门控循环单元GRU由轨迹数据中提取轨迹变量。
由经验区Dnew和经验区Dmeta中分别抽取设定数量的迁移数据组,通过迁移数据组训练逻辑斯谛回归模型作为倾向性得分估计函数β,方法包括:
从经验区Dnew和经验区Dmeta中各抽取200个迁移数据组,记为x,并分别设置标签y=1和y=-1,获得数据集(x,y);
通过各组迁移数据组对应数据集(x,y)训练逻辑斯谛回归模型作为倾向性得分估计函数β,表达公式为:
公式中,w表示为逻辑斯谛回归模型的参数;T表示为矩阵转置;
利用倾向性得分估计函数β计算迁移数据组的归一化有效采样量,表达公式为
公式中:ESS表示为迁移数据组的归一化有效采样量;β(·)表示为倾向性得分估计函数;xj表示为第j的迁移数据组。
利用经验区Dmeta中的迁移数据再次对仿真抓取任务元训练模型进行仿真训练,训练过程中基于归一化有效采样量构建多任务目标作为迁移损失函数;
迁移损失函数的表达公式为:
公式中,θmeta表示为仿真抓取任务元训练模型的参数。
根据迁移损失函数对仿真抓取任务元训练模型进行迭代更新,获得收敛的抓取模型。
实施例二
如图4所示,一种基于离线策略强化学习的机械臂控制系统,本实施提供的机械臂控制系统可以应用于实施例一所述机械臂控制方法,本实施例中的机械臂1的手臂部分有6个旋转关节,末端有3根手指,机械臂控制系统包括:
采集模块,用于采集目标体位姿以及机械臂末端的位姿和速度构成状态信息s;
控制模块,用于将状态信息s输入至预训练的抓取模型,通过预训练的抓取模型形成轨迹控制指令,控制机械臂1抓取所述目标体2放置于所述目标体放置位置3;
抓取任务训练集构建模块,用于在仿真器中改变目标体的形状和姿态,构建抓取任务训练集;
仿真抓取任务训练模块,用于基于离线策略强化学习方法构建仿真抓取模型,基于元Q学习的仿真环境中通过抓取任务训练集对抓取模型进行训练,将训练过程中仿真机械臂的轨迹数据、轨迹变量和状态信息作为迁移数据,存储至经验区Dmeta,获得仿真抓取任务元训练模型;
真实抓取任务训练模块,用于在真实环境中通过仿真抓取任务元训练模型控制机械臂执行多次抓取任务,记录机械臂的轨迹数据、轨迹变量和状态信息作为迁移数据,存储至经验区Dnew;由经验区Dnew和经验区Dmeta中分别抽取设定数量的迁移数据组,计算迁移数据组的归一化有效采样量;
现实抓取任务离线再训练模块,用于利用经验区Dmeta中的迁移数据再次对仿真抓取任务元训练模型进行仿真训练,训练过程中基于归一化有效采样量构建多任务目标作为迁移损失函数;根据迁移损失函数对仿真抓取任务元训练模型进行迭代更新,获得收敛的抓取模型。
实施例三
计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述机械臂控制方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于离线策略强化学习的机械臂控制方法,其特征在于,包括:
采集目标体位姿以及机械臂末端的位姿和速度构成状态信息s;
预训练的最终抓取模型根据状态信息s输入至形成轨迹控制指令,并控制机械臂抓取所述目标体;
所述最终抓取模型构建过程包括:
在仿真器中改变目标体的形状和姿态,构建抓取任务训练集;
基于离线策略强化学习方法构建仿真抓取模型,基于元Q学习的仿真环境中通过抓取任务训练集对抓取模型进行训练,将训练过程中仿真机械臂的轨迹数据、轨迹上下文变量作为迁移数据,存储至经验区Dmeta,获得仿真抓取任务元训练模型;
在真实环境中对仿真抓取任务元训练模型进行设计次数的训练,记录机械臂的轨迹数据、轨迹变量作为迁移数据,存储至经验区Dnew;由经验区Dnew和经验区Dmeta中分别抽取设定数量的迁移数据组,计算迁移数据组的倾向性得分和归一化有效采样量;
利用经验区Dmeta中的迁移数据再次对仿真抓取任务元训练模型进行仿真训练,训练过程中基于倾向性得分和归一化有效采样量构建多任务目标作为迁移损失函数;根据迁移损失函数对仿真抓取任务元训练模型进行迭代更新,获得收敛的最终抓取模型。
2.根据权利要求1所述的一种基于离线策略强化学习的机械臂控制方法,其特征在于,在仿真器中改变目标体的形状和姿态,构建抓取任务训练集的方法包括:将目标体分别绕水平设置的旋转轴a和竖直设置的旋转轴b旋转18次,且每次旋转角度为10度,得到36个抓取任务,构建为抓取任务训练集。
3.根据权利要求1所述的一种基于离线策略强化学习的机械臂控制方法,其特征在于,基于元Q学习的仿真环境中通过抓取任务训练集对抓取模型进行训练的方法包括:
仿真抓取模型控制仿真机械臂执行抓取任务训练集中的抓取任务,形成仿真机械臂的轨迹数据,利用后视经验回放算法计算仿真机械臂的轨迹数据的目标状态和奖励信号;
基于目标状态和奖励信号构造多任务的仿真训练损失函数;根据仿真训练损失函数对仿真抓取模型的参数进行更新,获得损失函数收敛的仿真抓取任务元训练模型。
4.根据权利要求3所述的一种基于离线策略强化学习的机械臂控制方法,其特征在于,所述多任务目标的仿真训练损失函数的表达公式为:
yj=rj+γQ'(st+1,μ'(st+1|θμ')|θQ')
公式中,Li表示为执行第i抓取任务的损失值;N表示为批量数据的数量;sj表示为第j个数据中的机械臂状态;st+1表示为在仿真环境中第j个数据中的后继机械臂状态;aj表示为第j个数据中的机械臂动作;rj表示为的第j个数据中的奖励;Q(·)表示为仿真抓取任务元训练模型中的价值网络;Q′(·)表示为仿真抓取任务元训练模型中的目标价值网络;γ表示为奖励折扣因子;μ′()表示为仿真抓取任务元训练模型中的目标决策网络;θμ′表示为目标决策网络的参数;θQ′表示为目标价值网络的参数。
5.根据权利要求1所述的一种基于离线策略强化学习的机械臂控制方法,其特征在于,轨迹上下文变量计算方法包括:利用门控循环单元GRU由轨迹数据中提取轨迹上下文变量。
6.根据权利要求1所述的一种基于离线策略强化学习的机械臂控制方法,其特征在于,所述迁移数据组的归一化有效采样量的计算方法包括;
通过迁移数据组训练逻辑斯谛回归模型作为倾向性得分估计函数β,利用倾向性得分估计函数β计算迁移数据组的归一化有效采样量,表达公式为
公式中:ESS表示为迁移数据组的归一化有效采样量;β(·)表示为倾向性得分估计函数;xj表示为第j个迁移数据。
7.根据权利要求6所述的一种基于离线策略强化学习的机械臂控制方法,其特征在于,通过迁移数据组训练逻辑斯谛回归模型作为倾向性得分估计函数β,
从经验区Dnew和经验区Dmeta中抽取设定数量的迁移数据组,记为x,并分别设置标签y=1和y=-1,获得数据集(x,y);
通过各组迁移数据组对应数据集(x,y)训练逻辑斯谛回归模型作为倾向性得分估计函数β,表达公式为:
公式中,w表示为逻辑斯谛回归模型参数;T表示为矩阵转置;P(·)表示为事件概率。
8.根据权利要求7所述的一种基于离线策略强化学习的机械臂控制方法,其特征在于,迁移损失函数的表达公式为:
公式中,θmeta表示为仿真抓取任务元训练模型的参数。
9.一种基于离线策略强化学习的机械臂控制系统,其特征在于,包括:
采集模块,用于采集目标体位姿以及机械臂末端的位姿和速度构成状态信息s;
控制模块,用于预训练的最终抓取模型根据状态信息s输入至形成轨迹控制指令,并控制机械臂抓取所述目标体;
抓取任务训练集构建模块,在仿真器中改变目标体的形状和姿态,构建抓取任务训练集;
仿真抓取任务训练模块,基于离线策略强化学习方法构建仿真抓取模型,基于元Q学习的仿真环境中通过抓取任务训练集对抓取模型进行训练,将训练过程中仿真机械臂的轨迹数据、轨迹上下文变量作为迁移数据,存储至经验区Dmeta,获得仿真抓取任务元训练模型;
真实抓取任务训练模块,用于在真实环境中对仿真抓取任务元训练模型进行设计次数的训练,记录机械臂的轨迹数据、轨迹变量作为迁移数据,存储至经验区Dnew;由经验区Dnew和经验区Dmeta中分别抽取设定数量的迁移数据组,计算迁移数据组的倾向性得分和归一化有效采样量;
现实抓取任务离线再训练模块,利用经验区Dmeta中的迁移数据再次对仿真抓取任务元训练模型进行仿真训练,训练过程中基于倾向性得分和归一化有效采样量构建多任务目标作为迁移损失函数;根据迁移损失函数对仿真抓取任务元训练模型进行迭代更新,获得收敛的最终抓取模型。
10.计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现权利要求1至权利要求8任意一项所述机械臂控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210525911.0A CN114888801B (zh) | 2022-05-16 | 2022-05-16 | 一种基于离线策略强化学习的机械臂控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210525911.0A CN114888801B (zh) | 2022-05-16 | 2022-05-16 | 一种基于离线策略强化学习的机械臂控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114888801A CN114888801A (zh) | 2022-08-12 |
CN114888801B true CN114888801B (zh) | 2023-10-13 |
Family
ID=82720758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210525911.0A Active CN114888801B (zh) | 2022-05-16 | 2022-05-16 | 一种基于离线策略强化学习的机械臂控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114888801B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115781685B (zh) * | 2022-12-26 | 2023-07-07 | 广东工业大学 | 一种基于强化学习的高精度机械臂控制方法及系统 |
CN116512254B (zh) * | 2023-04-11 | 2024-01-23 | 中国人民解放军军事科学院国防科技创新研究院 | 基于方向的机械臂智能控制方法及系统、设备、存储介质 |
CN117301077B (zh) * | 2023-11-23 | 2024-03-26 | 深圳市信润富联数字科技有限公司 | 机械臂轨迹生成方法、装置、电子设备及可读存储介质 |
CN117798936A (zh) * | 2024-02-29 | 2024-04-02 | 卡奥斯工业智能研究院(青岛)有限公司 | 机械臂集群的控制方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10981272B1 (en) * | 2017-12-18 | 2021-04-20 | X Development Llc | Robot grasp learning |
CN112966591A (zh) * | 2021-03-03 | 2021-06-15 | 河北工业职业技术学院 | 面向机械臂抓取任务的知识图谱深度强化学习迁移系统 |
CN113524173A (zh) * | 2021-06-17 | 2021-10-22 | 北京控制工程研究所 | 一种端到端的地外探测样品智能抓取方法 |
CN113762159A (zh) * | 2021-09-08 | 2021-12-07 | 山东大学 | 一种基于有向箭头模型的目标抓取检测方法及系统 |
WO2022012265A1 (en) * | 2020-07-13 | 2022-01-20 | Guangzhou Institute Of Advanced Technology, Chinese Academy Of Sciences | Robot learning from demonstration via meta-imitation learning |
-
2022
- 2022-05-16 CN CN202210525911.0A patent/CN114888801B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10981272B1 (en) * | 2017-12-18 | 2021-04-20 | X Development Llc | Robot grasp learning |
WO2022012265A1 (en) * | 2020-07-13 | 2022-01-20 | Guangzhou Institute Of Advanced Technology, Chinese Academy Of Sciences | Robot learning from demonstration via meta-imitation learning |
CN112966591A (zh) * | 2021-03-03 | 2021-06-15 | 河北工业职业技术学院 | 面向机械臂抓取任务的知识图谱深度强化学习迁移系统 |
CN113524173A (zh) * | 2021-06-17 | 2021-10-22 | 北京控制工程研究所 | 一种端到端的地外探测样品智能抓取方法 |
CN113762159A (zh) * | 2021-09-08 | 2021-12-07 | 山东大学 | 一种基于有向箭头模型的目标抓取检测方法及系统 |
Non-Patent Citations (1)
Title |
---|
结合深度学习的机械臂视觉抓取控制;白成超;晏卓;宋俊霖;;载人航天(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114888801A (zh) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114888801B (zh) | 一种基于离线策略强化学习的机械臂控制方法及系统 | |
CN112362066B (zh) | 一种基于改进的深度强化学习的路径规划方法 | |
Van Baar et al. | Sim-to-real transfer learning using robustified controllers in robotic tasks involving complex dynamics | |
CN114603564B (zh) | 机械臂导航避障方法、系统、计算机设备及存储介质 | |
CN111872934B (zh) | 一种基于隐半马尔可夫模型的机械臂控制方法及系统 | |
CN112476424A (zh) | 机器人控制方法、装置、设备及计算机存储介质 | |
Kim et al. | From exploration to control: learning object manipulation skills through novelty search and local adaptation | |
JPWO2003019475A1 (ja) | ロボット装置、顔認識方法及び顔認識装置 | |
CN109726676B (zh) | 自动驾驶系统的规划方法 | |
CN111352419B (zh) | 基于时序差分更新经验回放缓存的路径规划方法及系统 | |
Nishide et al. | Tool–body assimilation of humanoid robot using a neurodynamical system | |
Valarezo Anazco et al. | Natural object manipulation using anthropomorphic robotic hand through deep reinforcement learning and deep grasping probability network | |
CN115464659A (zh) | 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法 | |
CN114326722B (zh) | 六足机器人自适应步态规划方法、系统、装置及介质 | |
CN116352715A (zh) | 一种基于深度强化学习的双臂机器人协同运动控制方法 | |
Osa et al. | Deep reinforcement learning with adversarial training for automated excavation using depth images | |
Sun et al. | Integrating reinforcement learning and learning from demonstrations to learn nonprehensile manipulation | |
Hu et al. | Grasping living objects with adversarial behaviors using inverse reinforcement learning | |
Rylatt et al. | Embedding connectionist autonomous agents in time: The ‘road sign problem’ | |
Hilleli et al. | Toward deep reinforcement learning without a simulator: An autonomous steering example | |
CN116803635A (zh) | 基于高斯核损失函数的近端策略优化训练加速方法 | |
CN113967909B (zh) | 基于方向奖励的机械臂智能控制方法 | |
Tu et al. | Moving object flexible grasping based on deep reinforcement learning | |
Hu et al. | Reboot: Reuse data for bootstrapping efficient real-world dexterous manipulation | |
de La Bourdonnaye et al. | Stage-wise learning of reaching using little prior knowledge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |