CN116175577A - 用于机械臂抓取中基于可优化图像转化的策略学习方法 - Google Patents

用于机械臂抓取中基于可优化图像转化的策略学习方法 Download PDF

Info

Publication number
CN116175577A
CN116175577A CN202310199882.8A CN202310199882A CN116175577A CN 116175577 A CN116175577 A CN 116175577A CN 202310199882 A CN202310199882 A CN 202310199882A CN 116175577 A CN116175577 A CN 116175577A
Authority
CN
China
Prior art keywords
mechanical arm
image
environment
representing
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310199882.8A
Other languages
English (en)
Inventor
刘思聪
周木春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202310199882.8A priority Critical patent/CN116175577A/zh
Publication of CN116175577A publication Critical patent/CN116175577A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1612Programme controls characterised by the hand, wrist, grip control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种用于机械臂抓取中基于可优化图像转化的策略学习方法,包括:设计任务环境,设定机械臂、目标物的参数,设置强化学习算法的超参数;搭建与任务环境一致的虚拟环境;操纵机械臂在虚拟环境中交互,收集训练数据,并根据被抓取物体与目标位置的距离计算任务奖励函数,且和训练数据一起存于经验回放池;利用可优化图像转换确定表征学习下最优不变度量的计算方式;从经验回访池中采集一个批次的数据,使用结合可优化图像转换的强化学习算法,训练机械臂在动态环境下抓取物体移动至目标位置的最优策略。本发明能在保证策略可迁移的情况下,提升基于视觉感知的智能体的训练样本效率,从而提高视觉感知强化学习算法的学习效率和收敛速率。

Description

用于机械臂抓取中基于可优化图像转化的策略学习方法
技术领域
本发明属于机器人控制技术领域,特别是一种用于强化学习机械臂抓取控制中基于可优化图像转换的策略学习方法。
背景技术
传统的机器人控制算法由于通常需要基于运动学和动力学方程对操纵对象进行建模,求解末端位姿与各个关节的角度值,缺乏对环境的自主学习和泛化能力,已经无法适应愈加复杂的工业应用场景。近年来,智能控制算法已经成为了机器人控制领域中的高度关注的方向,而强化学习作为人工智能领域的一个分支,已经成功应用在机器人控制中的很多方面,使机器人获得了传统算法所不能提供的自主学习能力。基于视觉感知的强化学习指智能体直接识别图像数据中的任务相关信息并采取动作,最大化获得的累加奖励,以此完成既定目标。因该方法无需专家设计的手工特征而备受关注,其应用领域广泛地包括自动驾驶、机械臂、无人机等模仿学习和强化学习场景,其中由于机械臂作为机器人的重要执行机构,针对机械臂的强化学习算法研究也得到了广泛的关注。
虽然强化学习有着自主学习的能力,并且已经在大量的游戏与博弈场景下展现出媲美人类的决策与控制能力,考虑到机械臂的操作模型较为复杂,动态环境多变,将强化学习应用在机械臂控制中仍存在亟需解决的问题。首先,直接通过视觉感知进行控制的过程中,智能体需要频繁与环境交互才能训练最优策略,导致样本效率低下,不利于应用在交互成本高的场景中;其次,在低成本的模拟环境中训练出最优策略并进行迁移的话,则会由于两种环境间数据分布的差异而导致训练出的策略在测试环境中可能是任意差的,这需要设计一种对环境无关信息鲁棒的可迁移强化学习算法,推进相关人工智能方法在现实世界中的应用。
发明内容
本发明的目的在于针对现有视觉感知强化学习机械臂控制方法中的端到端训练时样本效率低下的问题,提出了一种用于强化学习机械臂抓取控制中基于可优化图像转化的策略学习方法,能够在保证策略可迁移的情况下,提升基于视觉感知的智能体的训练样本效率,从而提高视觉感知强化学习算法的学习效率和收敛速率。
实现本发明目的的技术解决方案为:一种用于机械臂抓取中基于可优化图像转化的策略学习方法,所述方法包括以下步骤:
步骤1,设计任务环境,设定机械臂、目标物的相关参数,设置强化学习算法的各项超参数;
步骤2,使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境;
步骤3,智能体操纵机械臂在虚拟环境中交互,收集训练数据,并根据被抓取物体与目标位置的距离计算任务奖励函数,并和训练数据一起存放于经验回放池;
步骤4,利用可优化图像转换确定表征学习下最优不变度量的计算方式;
步骤5,从经验回访池中采集一个批次的数据,使用结合可优化图像转换的强化学习算法,训练机械臂在动态环境下抓取物体移动至目标位置的最优策略;
步骤6,将虚拟环境中训练得到的最优策略迁移至现实环境进行测试。
进一步地,步骤2所述使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境,具体过程包括:
步骤2.1,根据实际使用的机械臂在solidwork平台上建立机械臂物理模型,并定义关节信息;
步骤2.2,使用ROS提供的solidworks转urdf的插件SW2URDF,将机械臂模型转换为Mujoco引擎所能编译识别的urdf文件;
步骤2.3,Mujoco通过生成xml文件来配置相关物理环境;
步骤2.4,在每小节交互开始时,对虚拟环境进行域随机化处理,即将环境中各个组件的纹理、颜色进行随机化,拓宽智能体训练集的分布。
进一步地,步骤3的具体过程包括:
步骤3.1,将物理环境中的机械臂的各个关节随机初始化;随机设置抓取物和任务目标的位置;并通过机械臂操作台上方的相机位获得操作台RGB图像作为状态观测值;
步骤3.2,使用可优化的图像转换对相机位获得的RGB图像进行处理,具体过程为:
环境返回的RGB图像尺寸为W1*H1,使用池化操作复制图像边缘的像素,使RGB图像尺寸扩大10%;
将RGB图像尺寸还原至W1*H1,并从图像转换参数
Figure BDA0004108803090000021
中获得高斯分布的均值μ作为像素偏移因子加入到还原过程中所构造的坐标网格中,使RGB图像内的像素受图像转换参数/>
Figure BDA0004108803090000022
控制,其中σ2为方差;此处环境返回的原始图像为ot,转换后的图像为o't
步骤3.3,机械臂根据转换后的当前状态观测值o't和策略,输出动作并对其施加噪声得到at,与环境交互后得到下一状态ot+1和奖励rt,奖励rt由目标物与任务目标的距离d和本轮交互所花费的总时间的代价函数ct组成;
步骤3.4,将(ot,at,rt,ot+1)作为一组训练数据存放至经验回放池,用于后续强化学习算法的训练。
进一步地,步骤4所述利用可优化图像转换确定表征学习下最优不变度量的计算方式,具体过程包括:
步骤4.1,给定一个环境中的观测值x,假设经过转换后的观测值x'满足x'~p(·|e),其中,e表示经验回放池
Figure BDA0004108803090000031
中的任意随机变量,p(·|e)表示一个基于e的概率分布;
对观测值x与x'二者的距离进行约束等价于平滑转换前后高维观测值的分布距离,具体由一个散度d(·||·)表示:
Figure BDA0004108803090000032
式中,x与x'分别表示原始样本与增强样本,p表示概率分布,e表示动态转移多元组,e为动态转移多元组的整体分布,dKL表示KL散度,
Figure BDA0004108803090000033
表示从经验回放池/>
Figure BDA0004108803090000034
中采样而来的e的某一数学期望,p(x|e=e)与p(x'|e=e)分别表示e当中的原始样本与增强样本的分布;/>
步骤4.2,使用贝叶斯条件概率对步骤4.1散度表达式进行改写,表示为:
Figure BDA0004108803090000035
式中,s表示智能体当前所处的客观真实状态;
Figure BDA0004108803090000036
表示对于某一动态转移多元组e的数学期望;/>
Figure BDA00041088030900000310
表示给定当前真实状态s的多元组e分布下的某一数学期望;p(x|e)和p(x'|e)分别表示基于某一动态转移多元组e的原始样本或增强样本的数据分布;p(s|x)与p(s|x')分别表示给定原始样本或增强样本当前状态为真实状态s的概率分布,该过程通过引入一个编码器f(·)实现;p(x)与p(x')分别表示原始样本或增强样本的真实先验分布;
步骤4.3,引入了一个额外的目标编码器
Figure BDA0004108803090000037
其中
Figure BDA0004108803090000038
表示前述的可优化图像转换,/>
Figure BDA0004108803090000039
为对原始样本x进行图像转换后获得真实状态s的概率分布;
步骤4.4,编码器f(x)和f'(x)间的距离d(f(x),f'(x'))由如下的三角不等式给出:
d(f(x),f'(x'))≤d(f(x),f'(x))+d(f'(x),f'(x'))
式中,d(f(x),f'(x))表示编码器的功能相似性;d(f'(x),f'(x'))表示使用β-相似约束图像变换操作;
步骤4.5,引入自监督对比学习中的在线特征与动量特征的学习过程来约束步骤4.4不等式内的功能相似性;具体地:
在保证两个编码器f(x)和f'(x)具有相同结构的前提下,在时间步骤t时基于在线编码器fψ使用平均指数移动ψt=(1-τmt-1mψ更新动量编码器
Figure BDA0004108803090000041
其中τm∈[0,1]表示动量更新率,ψ表示在线编码器fψ的参数,ψt表示动量编码器/>
Figure BDA0004108803090000042
在t时刻下的参数,ψt-1表示动量编码器/>
Figure BDA0004108803090000043
在t-1时刻下的参数;同时还加入一个映射网络g:/>
Figure BDA0004108803090000044
表示将编码器f编码得到的低维状态S映射到另一个低维空间/>
Figure BDA0004108803090000045
在低维空间/>
Figure BDA0004108803090000046
内最小化度量距离;
通过上述对函数的凸性分析以及结构设计,最小化
Figure BDA0004108803090000047
等价于最小化/>
Figure BDA0004108803090000048
Figure BDA0004108803090000049
Figure BDA00041088030900000410
分别表示对样本x进行序列编码gψ(fψ(x))和/>
Figure BDA00041088030900000411
Figure BDA00041088030900000412
表示动量映射网络,参数同样由ψt给定;
步骤4.6,引入了一种数据混合,即从学习的分布
Figure BDA00041088030900000413
中采样多个增强样本,然后对编码的潜在表征s'进行混合;具体地:
假设fψ
Figure BDA00041088030900000414
的收敛性假设成立,那么对于任意的输入/>
Figure BDA00041088030900000415
与由图像变换/>
Figure BDA00041088030900000416
生成的增强样本x',优化前述的散度等价于最小化下述公式的上界:
Figure BDA00041088030900000417
式中,ρ=Lf(CLg+||ψg||,
Figure BDA00041088030900000418
τ=1-τm都为常数,Lg和Lf分别表示网络gψ和fψ的利普希茨常数,ψg表示映射网络g的参数,/>
Figure BDA00041088030900000419
表示对引入了增强样本后得到的经验回放池
Figure BDA00041088030900000420
内的所有样本x。/>
进一步地,步骤5所述从经验回访池中采集一个批次的数据,使用结合可优化图像转换的强化学习算法,训练机械臂在动态环境下抓取物体移动至目标位置的最优策略,具体过程包括:
步骤5.1,从经验回放池中随机采集一个批次的训练数据,每个数据由四元组(ot,at,rt,ot+1)组成,其中ot与ot+1分别表示t与t+1时刻环境生成的观测值,at表示t时刻智能体采取的动作,rt表示t时刻智能体采取动作at后所获得的奖励返回;
步骤5.2,对观测值ot与ot+1实施与步骤3.2中相同的扩大与还原图像尺寸的操作,并从图像转换参数
Figure BDA00041088030900000513
的高斯分布中随机采样一个像素偏移因子加入到还原过程中所构造的坐标网格中,在观测图像的转换过程中引入随机性;
步骤5.3,对转换后得到的观测值在统计学分布上与样本总体分布拟合,具体包括:
计算一个批次内转换后的观测值o't的RGB颜色的分布即均值与方差,同时获取图像编码器中所有批归一化层的内置的均值与方差,然后计算二者分布的Wasserstein距离
Figure BDA0004108803090000051
Figure BDA0004108803090000052
式中,o't表示当前步长内产生的增强样本,l表示编码器中某一层卷积层,
Figure BDA0004108803090000053
与/>
Figure BDA0004108803090000054
分别表示当前批次转换后的观测值的均值与方差,以及每一卷积层后各批归一化层内存储的均值与方差,o为任一观测值,/>
Figure BDA0004108803090000055
为观测空间,t表示当前训练步长,/>
Figure BDA0004108803090000056
表示用于参数化图像转换的高斯分布;
步骤5.4,使用图像编码器fψ(·)与映射网络gψ(·)编码当前训练步长内生成的增强样本o't得到z't,使用目标网络
Figure BDA0004108803090000057
与/>
Figure BDA0004108803090000058
编码当前训练步长内的原始观测值ot得到zt,并优化z't与zt之间的L2范数/>
Figure BDA0004108803090000059
Figure BDA00041088030900000510
式中,gψ(fψ(o't))与
Figure BDA00041088030900000511
分别表示对增强样本o't和原始样本ot进行序列编码,||·||2表示向量的模长,该过程按批进行训练;
步骤5.5,使用转换后的观测值(o't,o't+1)更新策略网络πθ(s)和价值函数网络Qφ(s,a),具体包括:
使用Q learning更新价值函数网络Qφ(s,a):
Figure BDA00041088030900000512
式中,o't与o't+n分别表示t时刻与t+n时刻生成的增强样本,φ表示价值函数网络Qφ的参数,
Figure BDA0004108803090000061
表示价值函数网络Qφ的动量更新版本,γ∈[0,1]表示折扣因子,Qφ(fψ(o't),at)表示基于增强样本o't与动作at的奖励预测值,/>
Figure BDA0004108803090000062
表示使用n步之后的预测值进行拟合,/>
Figure BDA0004108803090000063
表示经过了n步折扣之后的基于增强样本o't+n与策略网络πθ的目标奖励预测值;
综合步骤5.3与步骤5.4,得到编码器fψ(o)与价值函数网络Qφ(s,a)的总体目标函数:
Figure BDA0004108803090000064
式中,α与λ为根据任务手动设定的权重参数,权重越大表示该项正则化效应越强;
策略网络πθ(s)的更新过程为DDPG算法,即使用贪心策略直接优化价值函数网络Qφ(s,a)预测下的策略梯度
Figure BDA0004108803090000065
Figure BDA0004108803090000066
式中,πθ表示由参数θ参数化的策略函数π,a~πθ(fψ(o't))表示从基于增强样本o't得来的动作分布中选择一个动作,Qφ(fψ(o't),a)表示基于增强样本o't和所选择的动作a进行奖励预测;
重复步骤3.2至步骤5.4,直到机械臂抓取目标物到达任务目的地,或者机械臂碰到非法区域,或经历设定的最大时间步长,即为完成此训练小节;
初始化环境后重复K次训练小节直至算法完全收敛,得到机械臂在动态环境下抓取目标物体并到达指定位置的可迁移的最优策略网络
Figure BDA0004108803090000067
进一步地,步骤5.2中还包括:对高斯分布进行参数化处理,具体包括:
对像素偏移因子进行采样时,首先生成一个(0,1)内的随机数∈,然后将所需采样的偏移因子参数化为μ+∈·σ,并将该因子截断在设定的范围内,即完成基于某一高斯分布的图像转换的采样。
本发明与现有技术相比,其显著优点为:
1)本发明只需对高维图像观测进行少量的矩阵运算即可实现性能的提升,不需要额外的建模设计,计算开销小,且训练速度。
2)相比于现有技术,本发明引入了数据混合操作,稳定了奖励函数,提升了算法训练时的稳定性。
3)利用数据增强辅助算法提升样本利用效率的同时扩充了训练数据的分布,实现了对神经网络模型的正则化,有利于特征表达的学习。
4)本发明不需要对强化学习的骨干算法进行任何改动,兼容性强。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是本发明的网络框架流程图。
图2是机械臂实验平台的连接设置示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
在一个实施例中,提供了一种用于机械臂抓取中基于可优化图像转化的策略学习方法。本实施例以6自由度研究性ArmPi机械臂为例,设计的任务场景是利用强化学习算法在动态环境下,控制机械臂完成将任意位置的物体抓取移动置指定目的地的任务。其中,目标物为不同尺寸的长方体,且在每个测试小节中的位置是随机变化的,本实施例所述的用于强化学习机械臂抓取控制中基于可优化图像转换的策略学习方法,其框架如图1所示,至少包括以下几个步骤:
步骤S1,设计任务环境,设定机械臂、目标物的相关参数,设置强化学习算法的各项超参数,具体包括以下步骤:
步骤1.1,设计任务环境的状态观测值为一固定相机所捕获的RGB图像信息;
步骤1.2,设置强化学习算法基本的超参数,至少包括:探索噪声,经验回访池
Figure BDA0004108803090000071
的大小;每次训练的更新次数K,每次更新所用数据批次的大小N;神经网络的结构与层数,每层的节点数、激活函数、归一化函数;折扣因子γ;图像编码器fψ(o);策略网络Πθ(s)和价值函数网络Qφ(s,a)参数更新的优化器、学习率,目标网络/>
Figure BDA0004108803090000081
的软更新步长τ;可优化图像转换所需的图像转换参数/>
Figure BDA0004108803090000082
与映射网络gψ(s)参数更新的优化器、学习率,目标网络/>
Figure BDA0004108803090000083
的软更新步长τm
步骤S2,使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境,具体包括以下步骤:
步骤2.1,根据实际使用的机械臂在solidwork平台上建立精确的物理模型,并定义关节信息;
步骤2.2,使用ROS提供的solidworks转urdf的插件SW2URDF,将机械臂模型转换为Mujoco引擎所能编译识别的urdf文件;
步骤2.3,Mujoco通过生成xml文件来配置相关物理环境(如灯光、桌面、相机位置、关节控制等信息);
步骤2.4,在每小节交互开始时,需要对虚拟环境进行域随机化处理,即将环境中各个组件的纹理、颜色进行随机化,拓宽智能体训练集的分布。
步骤S3,智能体操纵机械臂在虚拟环境中交互,收集训练数据,并根据被抓取物体与目标位置的距离计算任务奖励函数,并和训练数据一起存放于经验回放池,具体包括以下步骤:
步骤3.1,将物理环境中的机械臂的各个关节随机初始化;随机设置抓取物和任务目标的位置;并通过机械臂操作台上方的相机位获得RGB图像作为状态观测值。
步骤3.2,使用可优化的图像转换对相机位获得的RGB图像进行处理,具体步骤为:
环境返回的RGB图像尺寸为165*165,使用池化操作复制图像边缘的像素,使RGB图像尺寸扩大为181*181。使用Pytorch库中的grid_sample函数将图像尺寸还原至165*165,并从图像转换参数
Figure BDA0004108803090000084
中获得高斯分布的均值μ作为像素偏移因子加入到还原过程中所构造的坐标网格中,使RGB图像内的像素受图像转换参数/>
Figure BDA0004108803090000085
控制。此处环境返回的原始图像为ot,转换后的图像为o't
步骤3.3,机械臂根据转换后的当前状态观测值o't和策略,输出动作并对其施加噪声得到at,与环境交互后得到下一状态ot+1和奖励rt,奖励rt由目标物与任务目标的距离d和本轮交互所花费的总时间的代价函数ct组成。在确保下一状态中机械臂各关节都处于合法角度的情况下控制机械臂运动至下一状态。
步骤3.4,将(ot,at,rt,ot+1)作为一组训练数据存放至经验回放池,用于后续强化学习算法的训练。
步骤S4,利用可优化图像转换确定表征学习下最优不变度量的计算方式,具体过程包括
步骤4.1,给定一个环境中的观测值x,假设经过转换后的观测值x'满足x'~p(·|e),其中e表示经验回放池
Figure BDA0004108803090000091
中的任意随机变量。对二者的距离进行约束等价于平滑转换前后高维观测值的分布距离,具体由一个散度d(·||·)来表示:
Figure BDA0004108803090000092
式中,x与x'分别表示原始样本与增强样本,e表示当前训练时采样得到的动态转移多元组,
Figure BDA0004108803090000093
表示从经验回放池/>
Figure BDA00041088030900000910
中采样而来的e的某一数学期望,p(x|e=e)与p(x'|e=e)分别表示e当中的原始样本与增强样本的分布。
步骤4.2,使用贝叶斯条件概率对散度表达式进行改写,具体表示为:
Figure BDA0004108803090000094
式中,s表示智能体当前所处的客观真实状态;
Figure BDA0004108803090000095
表示对于某一动态转移多元组e的数学期望;/>
Figure BDA0004108803090000096
表示给定当前真实状态s的多元组e分布下的某一数学期望;p(x|e)和p(x'|e)分别表示基于某一动态转移多元组e的原始样本或增强样本的数据分布;p(s|x)与p(s|x')分别表示给定原始样本或增强样本当前状态为真实状态s的概率分布,该过程可以通过引入一个编码器f(·)实现;p(x)与p(x')分别表示原始样本或增强样本的真实先验分布。
步骤4.3,为了稳定前述条件散度的收敛过程,此处引入了一个额外的目标编码器
Figure BDA0004108803090000097
其中/>
Figure BDA0004108803090000098
表示前述的可优化图像转换,/>
Figure BDA0004108803090000099
为对原始样本x进行图像转换后获得真实状态s的概率分布。
步骤4.4,编码得到的潜在状态f(x)和f'(x)间的距离可以由如下的三角不等式给出:
d(f(x),f'(x'))≤d(f(x),f'(x))+d(f'(x),f'(x'))
最小化不等式的右侧可以提升算法需要解决的问题的上界。不等式右侧中,第一项表示编码器的功能相似性;第二项表示使用β-相似约束图像变换操作。
步骤4.5,引入自监督对比学习中的在线特征与动量特征的学习过程来约束前述不等式内的功能相似性。具体地,在保证两个编码器f(x)和f'(x)具有相同结构的前提下,在时间步骤t时基于在线编码器fψ使用平均指数移动ψt=(1-τmt-1mψ更新动量编码器
Figure BDA0004108803090000101
其中τm∈[0,1]表示动量更新率,ψ表示在线编码器fψ的参数,ψt表示动量编码器/>
Figure BDA0004108803090000102
在t时刻下的参数。同时方法还加入了一个映射网络g:/>
Figure BDA00041088030900001026
表示将编码器f编码得到的低维状态S映射到另一个低维空间/>
Figure BDA0004108803090000103
在低维空间/>
Figure BDA0004108803090000104
内最小化度量距离。
通过对函数的凸性分析以及结构设计,最小化
Figure BDA0004108803090000105
等价于最小化/>
Figure BDA0004108803090000106
式中/>
Figure BDA0004108803090000107
和/>
Figure BDA0004108803090000108
表示对样本x进行序列编码gψ(fψ(x))和/>
Figure BDA0004108803090000109
Figure BDA00041088030900001010
表示动量映射网络,参数同样由ψt给定。
步骤4.6,通过保证网络模型的利普希茨性质,可以将最小化
Figure BDA00041088030900001011
的问题与约束高维样本间的距离联系起来。
具体地,假设fψ
Figure BDA00041088030900001012
的收敛性假设成立,那么对于任意的输入/>
Figure BDA00041088030900001013
与由图像变换
Figure BDA00041088030900001014
生成的增强样本x',优化前述给出的条件散度等价于最小化下述的上界:
Figure BDA00041088030900001015
其中ρ=Lf(CLg+||ψg||),
Figure BDA00041088030900001016
τ=1-τm都为常数,Lg和Lf分别表示网络gψ和fψ的利普希茨常数,ψ表示映射网络g的参数,/>
Figure BDA00041088030900001017
表示对引入了增强样本后得到的经验回放池
Figure BDA00041088030900001018
内的所有样本x。
步骤4.7,为了进一步稳定奖励函数,本发明引入了一种数据混合,即利用图像变换
Figure BDA00041088030900001019
采样多个增强样本,然后对编码的潜在表征s'进行混合。
数据混合:假设gψ
Figure BDA00041088030900001020
的收敛性假设成立,那么对于任意的输入/>
Figure BDA00041088030900001021
与由图像变换/>
Figure BDA00041088030900001022
生成的混合增强样本x',优化定理1.给出的条件散度等价于最小化下述的上界:
Figure BDA00041088030900001023
其中ρ=Lf(CLg+||ψg||),
Figure BDA00041088030900001024
τ=1-τm都为常数,/>
Figure BDA00041088030900001025
表示对多次采样后混合得到的增强样本x'的期望分布。至此完成对不变性变换的理论分析。
步骤S5,从经验回访池中采集一个批次的数据,使用结合可优化图像转换的强化学习算法,训练机械臂在动态环境下抓取物体移动至目标位置的最优策略,具体过程包括:
步骤5.1,从经验回放池中随机采集一个批次的训练数据,每个数据由之间保存的四元组(ot,at,rt,ot+1)组成,其中ot与ot+1表示t与t+1时刻环境生成的观测值,at表示t时刻智能体采取的动作,rt表示t时刻智能体采取动作at后所获得的奖励返回。
步骤5.2,对观测值ot与ot+1实施与步骤3.2中相同的扩大与还原图像尺寸的操作,并从图像转换参数
Figure BDA0004108803090000111
的高斯分布中随机采样一个像素偏移因子加入到还原过程中所构造的坐标网格中,在观测图像的转换过程中引入随机性。为了让像素偏移因子可接收梯度进行优化学习,此处对高斯分布进行参数化处理,具体步骤为:
图像转换参数
Figure BDA0004108803090000112
中μ与σ分别为高斯分布的均值和标准差,对像素偏移因子进行采样时先生成一个(0,1)内的随机数∈,然后所需采样的偏移因子则可以参数化为μ+∈·σ,并将该因子截断在合法范围内,即可完成基于某一高斯分布的图像转换的采样。
步骤5.3,对转换后得到的观测值在统计学分布上与样本总体分布拟合,具体步骤为:
计算一个批次内通过图像转换后的观测值o't的RGB颜色的分布(均值与方差),同时获取图像编码器中所有批归一化层的内置的均值与方差,然后计算二者分布的Wasserstein距离:
Figure BDA0004108803090000113
其中o't表示当前步长内产生的增强样本,l表示编码器中某一层卷积层,
Figure BDA0004108803090000114
与/>
Figure BDA0004108803090000115
分别表示当前批次转换后的观测值的均值与方差与每一卷积层后各批归一化层内存储的均值与方差,o为任一观测值,/>
Figure BDA0004108803090000116
为观测空间,t表示当前训练步长,/>
Figure BDA0004108803090000117
表示用于参数化图像转换的高斯分布。
步骤5.4,使用图像编码器fψ(·)与映射网络gψ(·)编码当前训练步长内生成的增强样本o't得到z't,使用目标网络
Figure BDA0004108803090000118
与/>
Figure BDA0004108803090000119
编码当前训练步长内的原始观测值ot得到zt,并优化z't与zt之间的L2范数:
Figure BDA00041088030900001110
此处
Figure BDA00041088030900001111
代表经验回放池,gψ(fψ(o't))与/>
Figure BDA00041088030900001112
分别表示对增强样本o't和原始样本ot进行序列编码,||·||2表示向量的模长,该过程按批进行训练。
步骤5.5,使用转换后的观测值(o't,o't+1)更新策略网络πθ(s)和价值函数网络Qφ(s,a),具体步骤为:
使用Q learning更新价值函数网络Qφ(s,a):
Figure BDA0004108803090000121
式中,o't与o't+n分别表示t时刻与t+n时刻生成的增强样本,φ表示价值函数网络Qφ的参数,
Figure BDA0004108803090000122
表示价值函数网络Qφ的动量更新版本,γ∈[0,1]表示折扣因子,Qφ(fψ(o't),at)表示基于增强样本o't与动作at的奖励预测值,/>
Figure BDA0004108803090000123
表示使用n步之后的预测值进行拟合,/>
Figure BDA0004108803090000124
表示经过了n步折扣之后的基于增强样本o't+n与策略网络πθ的目标奖励预测值,该设计被用于提升训练稳定性,并减少过高估计。该式表示可优化的图像转换参数/>
Figure BDA0004108803090000125
会随价值函数网络一起优化贝尔曼误差,提升表征学习的稳定性。综合步骤5.3与步骤5.4,可得到编码器fψ(o)与价值函数网络Qφ(s,a)的总体目标函数:
Figure BDA0004108803090000126
/>
其中α与λ为据任务手动设定的权重参数,权重项与正则化效应强度成正相关。
策略网络πθ(s)的更新过程为DDPG算法,即使用贪心策略直接优化价值函数网络Qφ(s,a)预测下的策略梯度:
Figure BDA0004108803090000127
πθ表示由参数θ参数化的策略函数π,a~πθ(fψ(o't))表示从基于增强样本o't得来的动作分布中选择一个动作,Qφ(fψ(o't),a)表示基于增强样本o't和所选择的动作a进行奖励预测。
重复步骤3.2至步骤5.4,直到机械臂抓取目标物到达任务目的地,或者机械臂碰到非法区域(如地面),或经历设定的最大时间步长,即为完成此训练小节。初始化环境后重复K次训练小节直至算法完全收敛,得到机械臂在动态环境下抓取目标物体并到达指定位置的可迁移的最优策略网络
Figure BDA0004108803090000128
步骤S6,将虚拟环境中训练得到的最优策略迁移至现实环境进行测试,具体包括以下步骤:
智能体在Mujoco环境中收敛后,保存模型权重,并迁移至现实实验环境下的机械臂上进行最终微调。如图2所示,本发明所应用的机械臂实验平台是幻尔科技生产的六自由度研究性ArmPi机械臂,配备有USB接口的高清摄像头,并采用树莓派4B进行控制。高清摄像头型号为hv3808,摄像头基于CMOS传感器,传感器像素可达30万,最高分辨率为640×480.树莓派4B配备有树莓派扩展版,树莓派CPU基本参数为4核,主频1.5GHz。GPU型号为Broadcom VideoCore VI,树莓派与主机的无线通信通过其自带的无线网卡完成。考虑到树莓派本身的性能不足以完成算法的训练,此处通过主机与树莓派无线通信来进行目标定位和策略执行。作为下位机的树莓派建有8路过流保护的PWM舵机接口,并内建单总线电路,可以对串口舵机进行直接控制。
当机械臂在工作环境中执行操作任务,用高清摄像头采集包括了目标位置与机械臂状态的图像信息,该图像信息通过USB接口传输给树莓派控制器,再通过无线网络传输给上位机进行处理图像特征提取并将特征传输给已在模拟环境中训练好的策略网络,策略网络基于该特征状态输出控制动作。输出的动作通过无线WIFI迁移到树莓派控制器,通过PWM舵机接口产生控制电流,驱动机械臂关节角,使机械臂末端达到目标位置,视觉模块再将抓取结果反馈到控制器和上位机完成循环,最终完成目标抓取任务。
在一个实施例中,提供了一种用于机械臂抓取中基于可优化图像转化的策略学习系统,所述系统包括:
第一模块,用于设计任务环境,设定机械臂、目标物的相关参数,设置强化学习算法的各项超参数;
第二模块,用于使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境;
第三模块,用于实现智能体操纵机械臂在虚拟环境中交互,收集训练数据,并根据被抓取物体与目标位置的距离计算任务奖励函数,并和训练数据一起存放于经验回放池;
第四模块,用于利用可优化图像转换确定表征学习下最优不变度量的计算方式;
第五模块,用于从经验回访池中采集一个批次的数据,使用结合可优化图像转换的强化学习算法,训练机械臂在动态环境下抓取物体移动至目标位置的最优策略;
第六模块,用于将虚拟环境中训练得到的最优策略迁移至现实环境进行测试。
关于用于机械臂抓取中基于可优化图像转化的策略学习系统的具体限定可以参见上文中对于用于机械臂抓取中基于可优化图像转化的策略学习方法的限定,在此不再赘述。上述用于机械臂抓取中基于可优化图像转化的策略学习系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
步骤1,设计任务环境,设定机械臂、目标物的相关参数,设置强化学习算法的各项超参数;
步骤2,使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境;
步骤3,智能体操纵机械臂在虚拟环境中交互,收集训练数据,并根据被抓取物体与目标位置的距离计算任务奖励函数,并和训练数据一起存放于经验回放池;
步骤4,利用可优化图像转换确定表征学习下最优不变度量的计算方式;
步骤5,从经验回访池中采集一个批次的数据,使用结合可优化图像转换的强化学习算法,训练机械臂在动态环境下抓取物体移动至目标位置的最优策略;
步骤6,将虚拟环境中训练得到的最优策略迁移至现实环境进行测试。
关于每一步的具体限定可以参见上文中对于用于机械臂抓取中基于可优化图像转化的策略学习方法的限定,在此不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤1,设计任务环境,设定机械臂、目标物的相关参数,设置强化学习算法的各项超参数;
步骤2,使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境;
步骤3,智能体操纵机械臂在虚拟环境中交互,收集训练数据,并根据被抓取物体与目标位置的距离计算任务奖励函数,并和训练数据一起存放于经验回放池;
步骤4,利用可优化图像转换确定表征学习下最优不变度量的计算方式;
步骤5,从经验回访池中采集一个批次的数据,使用结合可优化图像转换的强化学习算法,训练机械臂在动态环境下抓取物体移动至目标位置的最优策略;
步骤6,将虚拟环境中训练得到的最优策略迁移至现实环境进行测试。
关于每一步的具体限定可以参见上文中对于用于机械臂抓取中基于可优化图像转化的策略学习方法的限定,在此不再赘述。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种用于机械臂抓取中基于可优化图像转化的策略学习方法,其特征在于,所述方法包括以下步骤:
步骤1,设计任务环境,设定机械臂、目标物的相关参数,设置强化学习算法的各项超参数;
步骤2,使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境;
步骤3,智能体操纵机械臂在虚拟环境中交互,收集训练数据,并根据被抓取物体与目标位置的距离计算任务奖励函数,并和训练数据一起存放于经验回放池;
步骤4,利用可优化图像转换确定表征学习下最优不变度量的计算方式;
步骤5,从经验回访池中采集一个批次的数据,使用结合可优化图像转换的强化学习算法,训练机械臂在动态环境下抓取物体移动至目标位置的最优策略;
步骤6,将虚拟环境中训练得到的最优策略迁移至现实环境进行测试。
2.根据权利要求1所述的用于机械臂抓取中基于可优化图像转化的策略学习方法,其特征在于,步骤2所述使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境,具体过程包括:
步骤2.1,根据实际使用的机械臂在solidwork平台上建立机械臂物理模型,并定义关节信息;
步骤2.2,使用ROS提供的solidworks转urdf的插件SW2URDF,将机械臂模型转换为Mujoco引擎所能编译识别的urdf文件;
步骤2.3,Mujoco通过生成xml文件来配置相关物理环境;
步骤2.4,在每小节交互开始时,对虚拟环境进行域随机化处理,即将环境中各个组件的纹理、颜色进行随机化,拓宽智能体训练集的分布。
3.根据权利要求1所述的用于机械臂抓取中基于可优化图像转化的策略学习方法,其特征在于,步骤3的具体过程包括:
步骤3.1,将物理环境中的机械臂的各个关节随机初始化;随机设置抓取物和任务目标的位置;并通过机械臂操作台上方的相机位获得操作台RGB图像作为状态观测值;
步骤3.2,使用可优化的图像转换对相机位获得的RGB图像进行处理,具体过程为:
环境返回的RGB图像尺寸为W1*H1,使用池化操作复制图像边缘的像素,使RGB图像尺寸扩大10%;
将RGB图像尺寸还原至W1*H1,并从图像转换参数
Figure FDA0004108803080000011
中获得高斯分布的均值μ作为像素偏移因子加入到还原过程中所构造的坐标网格中,使RGB图像内的像素受图像转换参数/>
Figure FDA0004108803080000026
控制,其中σ2为方差;此处环境返回的原始图像为ot,转换后的图像为o't
步骤3.3,机械臂根据转换后的当前状态观测值o't和策略,输出动作并对其施加噪声得到at,与环境交互后得到下一状态ot+1和奖励rt,奖励rt由目标物与任务目标的距离d和本轮交互所花费的总时间的代价函数ct组成;在确保下一状态中机械臂各关节都处于合法角度的情况下控制机械臂运动至下一状态;
步骤3.4,将(ot,at,rt,ot+1)作为一组训练数据存放至经验回放池,用于后续强化学习算法的训练。
4.根据权利要求3所述的用于机械臂抓取中基于可优化图像转化的策略学习方法,其特征在于,步骤4所述利用可优化图像转换确定表征学习下最优不变度量的计算方式,具体过程包括:
步骤4.1,给定一个环境中的观测值x,假设经过转换后的观测值x'满足x'~p(·|e),其中,e表示经验回放池
Figure FDA0004108803080000027
中的任意随机变量,p(·|e)表示一个基于e的概率分布;
对观测值x与x'二者的距离进行约束等价于平滑转换前后高维观测值的分布距离,具体由一个散度d(·||·)表示:
Figure FDA0004108803080000021
式中,x与x'分别表示原始样本与增强样本,p表示概率分布,e表示动态转移多元组,e为动态转移多元组的整体分布,dKL表示KL散度,
Figure FDA0004108803080000022
表示从经验回放池/>
Figure FDA0004108803080000028
中采样而来的e的某一数学期望,p(x|e=e)与p(x'|e=e)分别表示e当中的原始样本与增强样本的分布;
步骤4.2,使用贝叶斯条件概率对步骤4.1散度表达式进行改写,表示为:
Figure FDA0004108803080000023
式中,s表示智能体当前所处的客观真实状态;
Figure FDA0004108803080000024
表示对于某一动态转移多元组e的数学期望;/>
Figure FDA0004108803080000025
表示给定当前真实状态s的多元组e分布下的某一数学期望;p(x|e)和p(x'|e)分别表示基于某一动态转移多元组e的原始样本或增强样本的数据分布;p(s|x)与p(s|x')分别表示给定原始样本或增强样本当前状态为真实状态s的概率分布,该过程通过引入一个编码器f(·)实现;p(x)与p(x')分别表示原始样本或增强样本的真实先验分布;
步骤4.3,引入了一个额外的目标编码器
Figure FDA0004108803080000031
其中/>
Figure FDA0004108803080000032
表示前述的可优化图像转换,/>
Figure FDA0004108803080000033
为对原始样本x进行图像转换后获得真实状态s的概率分布;
步骤4.4,编码器f(x)和f′(x)间的距离d(f(x),f′(x′))由如下的三角不等式给出:
d(f(x),f′(x′))≤d(f(x),f′(x))+d(f′(x),f′(x′))
式中,d(f(x),f′(x))表示编码器的功能相似性;d(f′(x),f′(x′))表示使用β-相似约束图像变换操作;
步骤4.5,引入自监督对比学习中的在线特征与动量特征的学习过程来约束步骤4.4不等式内的功能相似性;具体地:
在保证两个编码器f(x)和f′(x)具有相同结构的前提下,在时间步骤t时基于在线编码器fψ使用平均指数移动ψt=(1-τmt-1mψ更新动量编码器
Figure FDA0004108803080000034
其中τm∈[0,1]表示动量更新率,ψ表示在线编码器fψ的参数,ψt表示动量编码器/>
Figure FDA0004108803080000035
在t时刻下的参数,ψt-1表示动量编码器/>
Figure FDA0004108803080000036
在t-1时刻下的参数;同时还加入一个映射网络g:/>
Figure FDA0004108803080000037
表示将编码器f编码得到的低维状态S映射到另一个低维空间/>
Figure FDA0004108803080000038
在低维空间/>
Figure FDA0004108803080000039
内最小化度量距离;
通过上述对函数的凸性分析以及结构设计,最小化
Figure FDA00041088030800000310
等价于最小化/>
Figure FDA00041088030800000311
Figure FDA00041088030800000312
和/>
Figure FDA00041088030800000313
分别表示对样本x进行序列编码gψ(fψ(x))和/>
Figure FDA00041088030800000314
Figure FDA00041088030800000315
表示动量映射网络,参数同样由ψt给定;
步骤4.6,引入了一种数据混合,即从学习的分布
Figure FDA00041088030800000316
中采样多个增强样本,然后对编码的潜在表征s′进行混合;具体地:
假设fψ
Figure FDA00041088030800000317
的收敛性假设成立,那么对于任意的输入/>
Figure FDA00041088030800000318
与由图像变换/>
Figure FDA00041088030800000319
生成的增强样本x′,优化前述的散度等价于最小化下述公式的上界:
Figure FDA00041088030800000320
式中,ρ=Lf(CLg+|||ψg||),
Figure FDA00041088030800000321
τ=1-τm都为常数,Lg和Lf分别表示网络gψ和fψ的利普希茨常数,ψg表示映射网络g的参数,/>
Figure FDA00041088030800000322
表示对引入了增强样本后得到的经验回放池/>
Figure FDA0004108803080000041
内的所有样本x。
5.根据权利要求4所述的用于机械臂抓取中基于可优化图像转化的策略学习方法,其特征在于,步骤5所述从经验回访池中采集一个批次的数据,使用结合可优化图像转换的强化学习算法,训练机械臂在动态环境下抓取物体移动至目标位置的最优策略,具体过程包括:
步骤5.1,从经验回放池中随机采集一个批次的训练数据,每个数据由四元组(ot,at,rt,ot+1)组成,其中ot与ot+1分别表示t与t+1时刻环境生成的观测值,at表示t时刻智能体采取的动作,rt表示t时刻智能体采取动作at后所获得的奖励返回;
步骤5.2,对观测值ot与ot+1实施与步骤3.2中相同的扩大与还原图像尺寸的操作,并从图像转换参数
Figure FDA0004108803080000042
的高斯分布中随机采样一个像素偏移因子加入到还原过程中所构造的坐标网格中,在观测图像的转换过程中引入随机性;
步骤5.3,对转换后得到的观测值在统计学分布上与样本总体分布拟合,具体包括:
计算一个批次内转换后的观测值o′t的RGB颜色的分布即均值与方差,同时获取图像编码器中所有批归一化层的内置的均值与方差,然后计算二者分布的Wasserstein距离
Figure FDA0004108803080000043
Figure FDA0004108803080000044
式中,o′t表示当前步长内产生的增强样本,l表示编码器中某一层卷积层,
Figure FDA0004108803080000045
与/>
Figure FDA0004108803080000046
分别表示当前批次转换后的观测值的均值与方差,以及每一卷积层后各批归一化层内存储的均值与方差,o为任一观测值,/>
Figure FDA0004108803080000047
为观测空间,t表示当前训练步长,/>
Figure FDA0004108803080000048
表示用于参数化图像转换的高斯分布;
步骤5.4,使用图像编码器fψ(·)与映射网络gψ(·)编码当前训练步长内生成的增强样本o′t得到z′t,使用目标网络
Figure FDA0004108803080000049
与/>
Figure FDA00041088030800000410
编码当前训练步长内的原始观测值ot得到zt,并优化z′t与zt之间的L2范数/>
Figure FDA00041088030800000411
Figure FDA00041088030800000412
式中,gψ(fψ(o′t))与
Figure FDA00041088030800000413
分别表示对增强样本o′t和原始样本ot进行序列编码,||·||2表示向量的模长,该过程按批进行训练;
步骤5.5,使用转换后的观测值(o′t,o′t+1)更新策略网络πθ(s)和价值函数网络Qφ(s,a),具体包括:
使用Q leaming更新价值函数网络Qφ(s,a):
Figure FDA0004108803080000051
式中,o′t与o′t+n分别表示t时刻与t+n时刻生成的增强样本,φ表示价值函数网络Qφ的参数,
Figure FDA0004108803080000058
表示价值函数网络Qφ的动量更新版本,γ∈[0,1]表示折扣因子,Qφ(fψ(o′t),at)表示基于增强样本o′t与动作at的奖励预测值,/>
Figure FDA0004108803080000052
表示使用n步之后的预测值进行拟合,/>
Figure FDA0004108803080000053
表示经过了n步折扣之后的基于增强样本o′t+n与策略网络πθ的目标奖励预测值,该设计被用于提升训练稳定性,并减少过高估计。该式表示可优化的图像转换参数/>
Figure FDA0004108803080000054
会随价值函数网络一起优化贝尔曼误差,提升表征学习的稳定性。;
综合步骤5.3与步骤5.4,得到编码器fψ(o)与价值函数网络Qφ(s,a)的总体目标函数:
Figure FDA0004108803080000055
式中,α与λ为根据任务手动设定的权重参数,权重越大表示该项正则化效应越强;
策略网络πθ(s)的更新过程为DDPG算法,即使用贪心策略直接优化价值函数网络Qφ(s,a)预测下的策略梯度
Figure FDA0004108803080000056
Figure FDA0004108803080000057
式中,πθ表示由参数θ参数化的策略函数π,a~πθ(fψ(o′t))表示从基于增强样本o′t得来的动作分布中选择一个动作,Qφ(fψ(o′t),a)表示基于增强样本o′t和所选择的动作a进行奖励预测;
重复步骤3.2至步骤5.4,直到机械臂抓取目标物到达任务目的地,或者机械臂碰到非法区域,或经历设定的最大时间步长,即为完成此训练小节;
初始化环境后重复K次训练小节直至算法完全收敛,得到机械臂在动态环境下抓取目标物体并到达指定位置的可迁移的最优策略网络
Figure FDA0004108803080000061
6.根据权利要求5所述的用于机械臂抓取中基于可优化图像转化的策略学习方法,其特征在于,步骤5.2中还包括:对高斯分布进行参数化处理,具体包括:
对像素偏移因子进行采样时,首先生成一个(0,1)内的随机数∈,然后将所需采样的偏移因子参数化为μ+∈·σ,并将该因子截断在设定的范围内,即完成基于某一高斯分布的图像转换的采样。
7.基于权利要求1至6任意一项所述方法的用于机械臂抓取中基于可优化图像转化的策略学习系统,其特征在于,所述系统包括:
第一模块,用于设计任务环境,设定机械臂、目标物的相关参数,设置强化学习算法的各项超参数;
第二模块,用于使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境;
第三模块,用于实现智能体操纵机械臂在虚拟环境中交互,收集训练数据,并根据被抓取物体与目标位置的距离计算任务奖励函数,并和训练数据一起存放于经验回放池;
第四模块,用于利用可优化图像转换确定表征学习下最优不变度量的计算方式;
第五模块,用于从经验回访池中采集一个批次的数据,使用结合可优化图像转换的强化学习算法,训练机械臂在动态环境下抓取物体移动至目标位置的最优策略;
第六模块,用于将虚拟环境中训练得到的最优策略迁移至现实环境进行测试。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
CN202310199882.8A 2023-03-06 2023-03-06 用于机械臂抓取中基于可优化图像转化的策略学习方法 Pending CN116175577A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310199882.8A CN116175577A (zh) 2023-03-06 2023-03-06 用于机械臂抓取中基于可优化图像转化的策略学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310199882.8A CN116175577A (zh) 2023-03-06 2023-03-06 用于机械臂抓取中基于可优化图像转化的策略学习方法

Publications (1)

Publication Number Publication Date
CN116175577A true CN116175577A (zh) 2023-05-30

Family

ID=86448539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310199882.8A Pending CN116175577A (zh) 2023-03-06 2023-03-06 用于机械臂抓取中基于可优化图像转化的策略学习方法

Country Status (1)

Country Link
CN (1) CN116175577A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726143A (zh) * 2024-02-07 2024-03-19 山东大学 基于深度强化学习的环境友好型微网优化调度方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726143A (zh) * 2024-02-07 2024-03-19 山东大学 基于深度强化学习的环境友好型微网优化调度方法及系统
CN117726143B (zh) * 2024-02-07 2024-05-17 山东大学 基于深度强化学习的环境友好型微网优化调度方法及系统

Similar Documents

Publication Publication Date Title
CN111515961B (zh) 一种适用于移动机械臂的强化学习奖励方法
CN112102405B (zh) 基于深度强化学习的机器人搅动-抓取组合方法
Shah et al. Rrl: Resnet as representation for reinforcement learning
CN112135716B (zh) 数据高效的分层强化学习
CN112605983B (zh) 一种适用于密集环境下的机械臂推抓系统
Ma et al. Contrastive variational reinforcement learning for complex observations
Simeonov et al. A long horizon planning framework for manipulating rigid pointcloud objects
CN113043267A (zh) 机器人控制方法、装置、机器人及计算机可读存储介质
JP7458741B2 (ja) ロボット制御装置及びその制御方法及びプログラム
CN116175577A (zh) 用于机械臂抓取中基于可优化图像转化的策略学习方法
CN110070595A (zh) 一种基于深度学习的单张图像3d对象重建方法
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN113011526B (zh) 基于强化学习和无监督学习的机器人技能学习方法及系统
US20230116029A1 (en) Method and system for hand pose recognition, device and storage medium
CN114387513A (zh) 机器人抓取方法、装置、电子设备及存储介质
Salter et al. Attention-privileged reinforcement learning
Bai et al. Variational dynamic for self-supervised exploration in deep reinforcement learning
CN115147488A (zh) 一种基于密集预测的工件位姿估计方法与抓取系统
Wang et al. Learning of long-horizon sparse-reward robotic manipulator tasks with base controllers
Zhang et al. Digital twin-enabled grasp outcomes assessment for unknown objects using visual-tactile fusion perception
Liu et al. Sim-and-real reinforcement learning for manipulation: A consensus-based approach
CN114310870A (zh) 智能体的控制方法、装置、电子设备及存储介质
CN116187466A (zh) 一种基于旋转对称性的多智能体强化学习训练方法
Lv et al. Sam-rl: Sensing-aware model-based reinforcement learning via differentiable physics-based simulation and rendering
WO2023109748A1 (zh) 一种神经网络的调整方法及相应装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination