CN116175577A

CN116175577A - 用于机械臂抓取中基于可优化图像转化的策略学习方法

Info

Publication number: CN116175577A
Application number: CN202310199882.8A
Authority: CN
Inventors: 刘思聪; 周木春
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-05-30

Abstract

本发明公开了一种用于机械臂抓取中基于可优化图像转化的策略学习方法，包括：设计任务环境，设定机械臂、目标物的参数，设置强化学习算法的超参数；搭建与任务环境一致的虚拟环境；操纵机械臂在虚拟环境中交互，收集训练数据，并根据被抓取物体与目标位置的距离计算任务奖励函数，且和训练数据一起存于经验回放池；利用可优化图像转换确定表征学习下最优不变度量的计算方式；从经验回访池中采集一个批次的数据，使用结合可优化图像转换的强化学习算法，训练机械臂在动态环境下抓取物体移动至目标位置的最优策略。本发明能在保证策略可迁移的情况下，提升基于视觉感知的智能体的训练样本效率，从而提高视觉感知强化学习算法的学习效率和收敛速率。

Description

用于机械臂抓取中基于可优化图像转化的策略学习方法

技术领域

本发明属于机器人控制技术领域，特别是一种用于强化学习机械臂抓取控制中基于可优化图像转换的策略学习方法。

背景技术

传统的机器人控制算法由于通常需要基于运动学和动力学方程对操纵对象进行建模，求解末端位姿与各个关节的角度值，缺乏对环境的自主学习和泛化能力，已经无法适应愈加复杂的工业应用场景。近年来，智能控制算法已经成为了机器人控制领域中的高度关注的方向，而强化学习作为人工智能领域的一个分支，已经成功应用在机器人控制中的很多方面，使机器人获得了传统算法所不能提供的自主学习能力。基于视觉感知的强化学习指智能体直接识别图像数据中的任务相关信息并采取动作，最大化获得的累加奖励，以此完成既定目标。因该方法无需专家设计的手工特征而备受关注，其应用领域广泛地包括自动驾驶、机械臂、无人机等模仿学习和强化学习场景，其中由于机械臂作为机器人的重要执行机构，针对机械臂的强化学习算法研究也得到了广泛的关注。

虽然强化学习有着自主学习的能力，并且已经在大量的游戏与博弈场景下展现出媲美人类的决策与控制能力，考虑到机械臂的操作模型较为复杂，动态环境多变，将强化学习应用在机械臂控制中仍存在亟需解决的问题。首先，直接通过视觉感知进行控制的过程中，智能体需要频繁与环境交互才能训练最优策略，导致样本效率低下，不利于应用在交互成本高的场景中；其次，在低成本的模拟环境中训练出最优策略并进行迁移的话，则会由于两种环境间数据分布的差异而导致训练出的策略在测试环境中可能是任意差的，这需要设计一种对环境无关信息鲁棒的可迁移强化学习算法，推进相关人工智能方法在现实世界中的应用。

发明内容

本发明的目的在于针对现有视觉感知强化学习机械臂控制方法中的端到端训练时样本效率低下的问题，提出了一种用于强化学习机械臂抓取控制中基于可优化图像转化的策略学习方法，能够在保证策略可迁移的情况下，提升基于视觉感知的智能体的训练样本效率，从而提高视觉感知强化学习算法的学习效率和收敛速率。

实现本发明目的的技术解决方案为：一种用于机械臂抓取中基于可优化图像转化的策略学习方法，所述方法包括以下步骤：

步骤1，设计任务环境，设定机械臂、目标物的相关参数，设置强化学习算法的各项超参数；

步骤2，使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境；

步骤3，智能体操纵机械臂在虚拟环境中交互，收集训练数据，并根据被抓取物体与目标位置的距离计算任务奖励函数，并和训练数据一起存放于经验回放池；

步骤4，利用可优化图像转换确定表征学习下最优不变度量的计算方式；

步骤5，从经验回访池中采集一个批次的数据，使用结合可优化图像转换的强化学习算法，训练机械臂在动态环境下抓取物体移动至目标位置的最优策略；

步骤6，将虚拟环境中训练得到的最优策略迁移至现实环境进行测试。

进一步地，步骤2所述使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境，具体过程包括：

步骤2.1，根据实际使用的机械臂在solidwork平台上建立机械臂物理模型，并定义关节信息；

步骤2.2，使用ROS提供的solidworks转urdf的插件SW2URDF，将机械臂模型转换为Mujoco引擎所能编译识别的urdf文件；

步骤2.3，Mujoco通过生成xml文件来配置相关物理环境；

步骤2.4，在每小节交互开始时，对虚拟环境进行域随机化处理，即将环境中各个组件的纹理、颜色进行随机化，拓宽智能体训练集的分布。

进一步地，步骤3的具体过程包括：

步骤3.1，将物理环境中的机械臂的各个关节随机初始化；随机设置抓取物和任务目标的位置；并通过机械臂操作台上方的相机位获得操作台RGB图像作为状态观测值；

步骤3.2，使用可优化的图像转换对相机位获得的RGB图像进行处理，具体过程为：

环境返回的RGB图像尺寸为W1*H1，使用池化操作复制图像边缘的像素，使RGB图像尺寸扩大10％；

将RGB图像尺寸还原至W1*H1，并从图像转换参数

中获得高斯分布的均值μ作为像素偏移因子加入到还原过程中所构造的坐标网格中，使RGB图像内的像素受图像转换参数/>

控制，其中σ²为方差；此处环境返回的原始图像为o_t，转换后的图像为o'_t；

步骤3.3，机械臂根据转换后的当前状态观测值o'_t和策略，输出动作并对其施加噪声得到a_t，与环境交互后得到下一状态o_t+1和奖励r_t，奖励r_t由目标物与任务目标的距离d和本轮交互所花费的总时间的代价函数c_t组成；

步骤3.4，将(o_t,a_t,r_t,o_t+1)作为一组训练数据存放至经验回放池，用于后续强化学习算法的训练。

进一步地，步骤4所述利用可优化图像转换确定表征学习下最优不变度量的计算方式，具体过程包括：

步骤4.1，给定一个环境中的观测值x，假设经过转换后的观测值x'满足x'～p(·|e)，其中，e表示经验回放池

中的任意随机变量，p(·|e)表示一个基于e的概率分布；

对观测值x与x'二者的距离进行约束等价于平滑转换前后高维观测值的分布距离，具体由一个散度d(·||·)表示：

式中，x与x'分别表示原始样本与增强样本，p表示概率分布，e表示动态转移多元组，e为动态转移多元组的整体分布，d_KL表示KL散度，

表示从经验回放池/>

中采样而来的e的某一数学期望，p(x|e＝e)与p(x'|e＝e)分别表示e当中的原始样本与增强样本的分布；/>

步骤4.2，使用贝叶斯条件概率对步骤4.1散度表达式进行改写，表示为：

式中，s表示智能体当前所处的客观真实状态；

表示对于某一动态转移多元组e的数学期望；/>

表示给定当前真实状态s的多元组e分布下的某一数学期望；p(x|e)和p(x'|e)分别表示基于某一动态转移多元组e的原始样本或增强样本的数据分布；p(s|x)与p(s|x')分别表示给定原始样本或增强样本当前状态为真实状态s的概率分布，该过程通过引入一个编码器f(·)实现；p(x)与p(x')分别表示原始样本或增强样本的真实先验分布；

步骤4.3，引入了一个额外的目标编码器

其中

表示前述的可优化图像转换，/>

为对原始样本x进行图像转换后获得真实状态s的概率分布；

步骤4.4，编码器f(x)和f'(x)间的距离d(f(x),f'(x'))由如下的三角不等式给出：

d(f(x),f'(x'))≤d(f(x),f'(x))+d(f'(x),f'(x'))

式中，d(f(x),f'(x))表示编码器的功能相似性；d(f'(x),f'(x'))表示使用β-相似约束图像变换操作；

步骤4.5，引入自监督对比学习中的在线特征与动量特征的学习过程来约束步骤4.4不等式内的功能相似性；具体地：

在保证两个编码器f(x)和f'(x)具有相同结构的前提下，在时间步骤t时基于在线编码器f_ψ使用平均指数移动ψ^t＝(1-τ_m)ψ^t-1+τ_mψ更新动量编码器

其中τ_m∈[0,1]表示动量更新率，ψ表示在线编码器f_ψ的参数，ψ^t表示动量编码器/>

在t时刻下的参数，ψ^t-1表示动量编码器/>

在t-1时刻下的参数；同时还加入一个映射网络g:/>

表示将编码器f编码得到的低维状态S映射到另一个低维空间/>

在低维空间/>

内最小化度量距离；

通过上述对函数的凸性分析以及结构设计，最小化

等价于最小化/>

和

分别表示对样本x进行序列编码g_ψ(f_ψ(x))和/>

表示动量映射网络，参数同样由ψ^t给定；

步骤4.6，引入了一种数据混合，即从学习的分布

中采样多个增强样本，然后对编码的潜在表征s'进行混合；具体地：

假设f_ψ与

的收敛性假设成立，那么对于任意的输入/>

与由图像变换/>

生成的增强样本x'，优化前述的散度等价于最小化下述公式的上界：

式中，ρ＝L_f(CL_g+||ψ_g||，

τ＝1-τ_m都为常数，L_g和L_f分别表示网络g_ψ和f_ψ的利普希茨常数，ψ_g表示映射网络g的参数，/>

表示对引入了增强样本后得到的经验回放池

内的所有样本x。/>

进一步地，步骤5所述从经验回访池中采集一个批次的数据，使用结合可优化图像转换的强化学习算法，训练机械臂在动态环境下抓取物体移动至目标位置的最优策略，具体过程包括：

步骤5.1，从经验回放池中随机采集一个批次的训练数据，每个数据由四元组(o_t,a_t,r_t,o_t+1)组成，其中o_t与o_t+1分别表示t与t+1时刻环境生成的观测值，a_t表示t时刻智能体采取的动作，r_t表示t时刻智能体采取动作a_t后所获得的奖励返回；

步骤5.2，对观测值o_t与o_t+1实施与步骤3.2中相同的扩大与还原图像尺寸的操作，并从图像转换参数

的高斯分布中随机采样一个像素偏移因子加入到还原过程中所构造的坐标网格中，在观测图像的转换过程中引入随机性；

步骤5.3，对转换后得到的观测值在统计学分布上与样本总体分布拟合，具体包括：

计算一个批次内转换后的观测值o'_t的RGB颜色的分布即均值与方差，同时获取图像编码器中所有批归一化层的内置的均值与方差，然后计算二者分布的Wasserstein距离

式中，o'_t表示当前步长内产生的增强样本，l表示编码器中某一层卷积层，

与/>

分别表示当前批次转换后的观测值的均值与方差，以及每一卷积层后各批归一化层内存储的均值与方差，o为任一观测值，/>

为观测空间，t表示当前训练步长，/>

表示用于参数化图像转换的高斯分布；

步骤5.4，使用图像编码器f_ψ(·)与映射网络g_ψ(·)编码当前训练步长内生成的增强样本o'_t得到z'_t，使用目标网络

与/>

编码当前训练步长内的原始观测值o_t得到z_t，并优化z'_t与z_t之间的L2范数/>

式中，g_ψ(f_ψ(o'_t))与

分别表示对增强样本o'_t和原始样本o_t进行序列编码，||·||₂表示向量的模长，该过程按批进行训练；

步骤5.5，使用转换后的观测值(o'_t,o'_t+1)更新策略网络π_θ(s)和价值函数网络Q_φ(s,a)，具体包括：

使用Q learning更新价值函数网络Q_φ(s，a)：

式中，o'_t与o'_t+n分别表示t时刻与t+n时刻生成的增强样本，φ表示价值函数网络Q_φ的参数，

表示价值函数网络Q_φ的动量更新版本，γ∈[0，1]表示折扣因子，Q_φ(f_ψ(o'_t)，a_t)表示基于增强样本o'_t与动作a_t的奖励预测值，/>

表示使用n步之后的预测值进行拟合，/>

表示经过了n步折扣之后的基于增强样本o'_t+n与策略网络π_θ的目标奖励预测值；

综合步骤5.3与步骤5.4，得到编码器f_ψ(o)与价值函数网络Q_φ(s，a)的总体目标函数：

式中，α与λ为根据任务手动设定的权重参数，权重越大表示该项正则化效应越强；

策略网络π_θ(s)的更新过程为DDPG算法，即使用贪心策略直接优化价值函数网络Q_φ(s,a)预测下的策略梯度

式中，π_θ表示由参数θ参数化的策略函数π，a～π_θ(f_ψ(o'_t))表示从基于增强样本o'_t得来的动作分布中选择一个动作，Q_φ(f_ψ(o'_t),a)表示基于增强样本o'_t和所选择的动作a进行奖励预测；

重复步骤3.2至步骤5.4，直到机械臂抓取目标物到达任务目的地，或者机械臂碰到非法区域，或经历设定的最大时间步长，即为完成此训练小节；

初始化环境后重复K次训练小节直至算法完全收敛，得到机械臂在动态环境下抓取目标物体并到达指定位置的可迁移的最优策略网络

进一步地，步骤5.2中还包括：对高斯分布进行参数化处理，具体包括：

对像素偏移因子进行采样时，首先生成一个(0,1)内的随机数∈，然后将所需采样的偏移因子参数化为μ+∈·σ，并将该因子截断在设定的范围内，即完成基于某一高斯分布的图像转换的采样。

本发明与现有技术相比，其显著优点为：

1)本发明只需对高维图像观测进行少量的矩阵运算即可实现性能的提升，不需要额外的建模设计，计算开销小，且训练速度。

2)相比于现有技术，本发明引入了数据混合操作，稳定了奖励函数，提升了算法训练时的稳定性。

3)利用数据增强辅助算法提升样本利用效率的同时扩充了训练数据的分布，实现了对神经网络模型的正则化，有利于特征表达的学习。

4)本发明不需要对强化学习的骨干算法进行任何改动，兼容性强。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是本发明的网络框架流程图。

图2是机械臂实验平台的连接设置示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

在一个实施例中，提供了一种用于机械臂抓取中基于可优化图像转化的策略学习方法。本实施例以6自由度研究性ArmPi机械臂为例，设计的任务场景是利用强化学习算法在动态环境下，控制机械臂完成将任意位置的物体抓取移动置指定目的地的任务。其中，目标物为不同尺寸的长方体，且在每个测试小节中的位置是随机变化的，本实施例所述的用于强化学习机械臂抓取控制中基于可优化图像转换的策略学习方法，其框架如图1所示，至少包括以下几个步骤：

步骤S1，设计任务环境，设定机械臂、目标物的相关参数，设置强化学习算法的各项超参数，具体包括以下步骤：

步骤1.1，设计任务环境的状态观测值为一固定相机所捕获的RGB图像信息；

步骤1.2，设置强化学习算法基本的超参数，至少包括：探索噪声，经验回访池

的大小；每次训练的更新次数K，每次更新所用数据批次的大小N；神经网络的结构与层数，每层的节点数、激活函数、归一化函数；折扣因子γ；图像编码器f_ψ(o)；策略网络Π_θ(s)和价值函数网络Q_φ(s,a)参数更新的优化器、学习率，目标网络/>

的软更新步长τ；可优化图像转换所需的图像转换参数/>

与映射网络g_ψ(s)参数更新的优化器、学习率，目标网络/>

的软更新步长τ_m。

步骤S2，使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境，具体包括以下步骤：

步骤2.1，根据实际使用的机械臂在solidwork平台上建立精确的物理模型，并定义关节信息；

步骤2.3，Mujoco通过生成xml文件来配置相关物理环境(如灯光、桌面、相机位置、关节控制等信息)；

步骤2.4，在每小节交互开始时，需要对虚拟环境进行域随机化处理，即将环境中各个组件的纹理、颜色进行随机化，拓宽智能体训练集的分布。

步骤S3，智能体操纵机械臂在虚拟环境中交互，收集训练数据，并根据被抓取物体与目标位置的距离计算任务奖励函数，并和训练数据一起存放于经验回放池，具体包括以下步骤：

步骤3.1，将物理环境中的机械臂的各个关节随机初始化；随机设置抓取物和任务目标的位置；并通过机械臂操作台上方的相机位获得RGB图像作为状态观测值。

步骤3.2，使用可优化的图像转换对相机位获得的RGB图像进行处理，具体步骤为：

环境返回的RGB图像尺寸为165*165，使用池化操作复制图像边缘的像素，使RGB图像尺寸扩大为181*181。使用Pytorch库中的grid_sample函数将图像尺寸还原至165*165，并从图像转换参数

控制。此处环境返回的原始图像为o_t，转换后的图像为o'_t。

步骤3.3，机械臂根据转换后的当前状态观测值o'_t和策略，输出动作并对其施加噪声得到a_t，与环境交互后得到下一状态o_t+1和奖励r_t，奖励r_t由目标物与任务目标的距离d和本轮交互所花费的总时间的代价函数c_t组成。在确保下一状态中机械臂各关节都处于合法角度的情况下控制机械臂运动至下一状态。

步骤3.4，将(o_t，a_t，r_t，o_t+1)作为一组训练数据存放至经验回放池，用于后续强化学习算法的训练。

步骤S4，利用可优化图像转换确定表征学习下最优不变度量的计算方式，具体过程包括

步骤4.1，给定一个环境中的观测值x，假设经过转换后的观测值x'满足x'～p(·|e)，其中e表示经验回放池

中的任意随机变量。对二者的距离进行约束等价于平滑转换前后高维观测值的分布距离，具体由一个散度d(·||·)来表示：

式中，x与x'分别表示原始样本与增强样本，e表示当前训练时采样得到的动态转移多元组，

表示从经验回放池/>

中采样而来的e的某一数学期望，p(x|e＝e)与p(x'|e＝e)分别表示e当中的原始样本与增强样本的分布。

步骤4.2，使用贝叶斯条件概率对散度表达式进行改写，具体表示为：

式中，s表示智能体当前所处的客观真实状态；

表示对于某一动态转移多元组e的数学期望；/>

表示给定当前真实状态s的多元组e分布下的某一数学期望；p(x|e)和p(x'|e)分别表示基于某一动态转移多元组e的原始样本或增强样本的数据分布；p(s|x)与p(s|x')分别表示给定原始样本或增强样本当前状态为真实状态s的概率分布，该过程可以通过引入一个编码器f(·)实现；p(x)与p(x')分别表示原始样本或增强样本的真实先验分布。

步骤4.3，为了稳定前述条件散度的收敛过程，此处引入了一个额外的目标编码器

其中/>

表示前述的可优化图像转换，/>

为对原始样本x进行图像转换后获得真实状态s的概率分布。

步骤4.4，编码得到的潜在状态f(x)和f'(x)间的距离可以由如下的三角不等式给出：

d(f(x),f'(x'))≤d(f(x),f'(x))+d(f'(x),f'(x'))

最小化不等式的右侧可以提升算法需要解决的问题的上界。不等式右侧中，第一项表示编码器的功能相似性；第二项表示使用β-相似约束图像变换操作。

步骤4.5，引入自监督对比学习中的在线特征与动量特征的学习过程来约束前述不等式内的功能相似性。具体地，在保证两个编码器f(x)和f'(x)具有相同结构的前提下，在时间步骤t时基于在线编码器f_ψ使用平均指数移动ψ^t＝(1-τ_m)ψ^t-1+τ_mψ更新动量编码器

在t时刻下的参数。同时方法还加入了一个映射网络g:/>

表示将编码器f编码得到的低维状态S映射到另一个低维空间/>

在低维空间/>

内最小化度量距离。

通过对函数的凸性分析以及结构设计，最小化

等价于最小化/>

式中/>

和/>

表示对样本x进行序列编码g_ψ(f_ψ(x))和/>

表示动量映射网络，参数同样由ψ^t给定。

步骤4.6，通过保证网络模型的利普希茨性质，可以将最小化

的问题与约束高维样本间的距离联系起来。

具体地，假设f_ψ与

的收敛性假设成立，那么对于任意的输入/>

与由图像变换

生成的增强样本x'，优化前述给出的条件散度等价于最小化下述的上界：

其中ρ＝L_f(CL_g+||ψ_g||)，

τ＝1-τ_m都为常数，L_g和L_f分别表示网络g_ψ和f_ψ的利普希茨常数，ψ表示映射网络g的参数，/>

表示对引入了增强样本后得到的经验回放池

内的所有样本x。

步骤4.7，为了进一步稳定奖励函数，本发明引入了一种数据混合，即利用图像变换

采样多个增强样本，然后对编码的潜在表征s'进行混合。

数据混合：假设g_ψ与

的收敛性假设成立，那么对于任意的输入/>

与由图像变换/>

生成的混合增强样本x'，优化定理1.给出的条件散度等价于最小化下述的上界：

其中ρ＝L_f(CL_g+||ψ_g||)，

τ＝1-τ_m都为常数，/>

表示对多次采样后混合得到的增强样本x'的期望分布。至此完成对不变性变换的理论分析。

步骤S5，从经验回访池中采集一个批次的数据，使用结合可优化图像转换的强化学习算法，训练机械臂在动态环境下抓取物体移动至目标位置的最优策略，具体过程包括：

步骤5.1，从经验回放池中随机采集一个批次的训练数据，每个数据由之间保存的四元组(o_t,a_t,r_t,o_t+1)组成，其中o_t与o_t+1表示t与t+1时刻环境生成的观测值，a_t表示t时刻智能体采取的动作，r_t表示t时刻智能体采取动作a_t后所获得的奖励返回。

的高斯分布中随机采样一个像素偏移因子加入到还原过程中所构造的坐标网格中，在观测图像的转换过程中引入随机性。为了让像素偏移因子可接收梯度进行优化学习，此处对高斯分布进行参数化处理，具体步骤为：

图像转换参数

中μ与σ分别为高斯分布的均值和标准差，对像素偏移因子进行采样时先生成一个(0,1)内的随机数∈，然后所需采样的偏移因子则可以参数化为μ+∈·σ，并将该因子截断在合法范围内，即可完成基于某一高斯分布的图像转换的采样。

步骤5.3，对转换后得到的观测值在统计学分布上与样本总体分布拟合，具体步骤为：

计算一个批次内通过图像转换后的观测值o'_t的RGB颜色的分布(均值与方差)，同时获取图像编码器中所有批归一化层的内置的均值与方差，然后计算二者分布的Wasserstein距离：

其中o'_t表示当前步长内产生的增强样本，l表示编码器中某一层卷积层，

与/>

分别表示当前批次转换后的观测值的均值与方差与每一卷积层后各批归一化层内存储的均值与方差，o为任一观测值，/>

为观测空间，t表示当前训练步长，/>

表示用于参数化图像转换的高斯分布。

与/>

编码当前训练步长内的原始观测值o_t得到z_t，并优化z'_t与z_t之间的L2范数：

此处

代表经验回放池，g_ψ(f_ψ(o'_t))与/>

分别表示对增强样本o'_t和原始样本o_t进行序列编码，||·||₂表示向量的模长，该过程按批进行训练。

步骤5.5，使用转换后的观测值(o'_t,o'_t+1)更新策略网络π_θ(s)和价值函数网络Q_φ(s,a)，具体步骤为：

使用Q learning更新价值函数网络Q_φ(s,a)：

表示价值函数网络Q_φ的动量更新版本，γ∈[0,1]表示折扣因子，Q_φ(f_ψ(o'_t),a_t)表示基于增强样本o'_t与动作a_t的奖励预测值，/>

表示使用n步之后的预测值进行拟合，/>

表示经过了n步折扣之后的基于增强样本o'_t+n与策略网络π_θ的目标奖励预测值，该设计被用于提升训练稳定性，并减少过高估计。该式表示可优化的图像转换参数/>

会随价值函数网络一起优化贝尔曼误差，提升表征学习的稳定性。综合步骤5.3与步骤5.4，可得到编码器f_ψ(o)与价值函数网络Q_φ(s,a)的总体目标函数：

/>

其中α与λ为据任务手动设定的权重参数，权重项与正则化效应强度成正相关。

策略网络π_θ(s)的更新过程为DDPG算法，即使用贪心策略直接优化价值函数网络Q_φ(s,a)预测下的策略梯度：

π_θ表示由参数θ参数化的策略函数π，a～π_θ(f_ψ(o'_t))表示从基于增强样本o'_t得来的动作分布中选择一个动作，Q_φ(f_ψ(o'_t),a)表示基于增强样本o'_t和所选择的动作a进行奖励预测。

重复步骤3.2至步骤5.4，直到机械臂抓取目标物到达任务目的地，或者机械臂碰到非法区域(如地面)，或经历设定的最大时间步长，即为完成此训练小节。初始化环境后重复K次训练小节直至算法完全收敛，得到机械臂在动态环境下抓取目标物体并到达指定位置的可迁移的最优策略网络

步骤S6，将虚拟环境中训练得到的最优策略迁移至现实环境进行测试，具体包括以下步骤：

智能体在Mujoco环境中收敛后，保存模型权重，并迁移至现实实验环境下的机械臂上进行最终微调。如图2所示，本发明所应用的机械臂实验平台是幻尔科技生产的六自由度研究性ArmPi机械臂，配备有USB接口的高清摄像头，并采用树莓派4B进行控制。高清摄像头型号为hv3808，摄像头基于CMOS传感器，传感器像素可达30万，最高分辨率为640×480.树莓派4B配备有树莓派扩展版，树莓派CPU基本参数为4核，主频1.5GHz。GPU型号为Broadcom VideoCore VI，树莓派与主机的无线通信通过其自带的无线网卡完成。考虑到树莓派本身的性能不足以完成算法的训练，此处通过主机与树莓派无线通信来进行目标定位和策略执行。作为下位机的树莓派建有8路过流保护的PWM舵机接口，并内建单总线电路，可以对串口舵机进行直接控制。

当机械臂在工作环境中执行操作任务，用高清摄像头采集包括了目标位置与机械臂状态的图像信息，该图像信息通过USB接口传输给树莓派控制器，再通过无线网络传输给上位机进行处理图像特征提取并将特征传输给已在模拟环境中训练好的策略网络，策略网络基于该特征状态输出控制动作。输出的动作通过无线WIFI迁移到树莓派控制器，通过PWM舵机接口产生控制电流，驱动机械臂关节角，使机械臂末端达到目标位置，视觉模块再将抓取结果反馈到控制器和上位机完成循环，最终完成目标抓取任务。

在一个实施例中，提供了一种用于机械臂抓取中基于可优化图像转化的策略学习系统，所述系统包括：

第一模块，用于设计任务环境，设定机械臂、目标物的相关参数，设置强化学习算法的各项超参数；

第二模块，用于使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境；

第三模块，用于实现智能体操纵机械臂在虚拟环境中交互，收集训练数据，并根据被抓取物体与目标位置的距离计算任务奖励函数，并和训练数据一起存放于经验回放池；

第四模块，用于利用可优化图像转换确定表征学习下最优不变度量的计算方式；

第五模块，用于从经验回访池中采集一个批次的数据，使用结合可优化图像转换的强化学习算法，训练机械臂在动态环境下抓取物体移动至目标位置的最优策略；

第六模块，用于将虚拟环境中训练得到的最优策略迁移至现实环境进行测试。

关于用于机械臂抓取中基于可优化图像转化的策略学习系统的具体限定可以参见上文中对于用于机械臂抓取中基于可优化图像转化的策略学习方法的限定，在此不再赘述。上述用于机械臂抓取中基于可优化图像转化的策略学习系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

关于每一步的具体限定可以参见上文中对于用于机械臂抓取中基于可优化图像转化的策略学习方法的限定，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于机械臂抓取中基于可优化图像转化的策略学习方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的用于机械臂抓取中基于可优化图像转化的策略学习方法，其特征在于，步骤2所述使用Mujoco物理引擎搭建与任务环境保持一致的虚拟环境，具体过程包括：

步骤2.3，Mujoco通过生成xml文件来配置相关物理环境；

3.根据权利要求1所述的用于机械臂抓取中基于可优化图像转化的策略学习方法，其特征在于，步骤3的具体过程包括：

将RGB图像尺寸还原至W1*H1，并从图像转换参数

步骤3.3，机械臂根据转换后的当前状态观测值o'_t和策略，输出动作并对其施加噪声得到a_t，与环境交互后得到下一状态o_t+1和奖励r_t，奖励r_t由目标物与任务目标的距离d和本轮交互所花费的总时间的代价函数c_t组成；在确保下一状态中机械臂各关节都处于合法角度的情况下控制机械臂运动至下一状态；

4.根据权利要求3所述的用于机械臂抓取中基于可优化图像转化的策略学习方法，其特征在于，步骤4所述利用可优化图像转换确定表征学习下最优不变度量的计算方式，具体过程包括：

中的任意随机变量，p(·|e)表示一个基于e的概率分布；

表示从经验回放池/>

中采样而来的e的某一数学期望，p(x|e＝e)与p(x'|e＝e)分别表示e当中的原始样本与增强样本的分布；

式中，s表示智能体当前所处的客观真实状态；

表示对于某一动态转移多元组e的数学期望；/>

步骤4.3，引入了一个额外的目标编码器

其中/>

表示前述的可优化图像转换，/>

为对原始样本x进行图像转换后获得真实状态s的概率分布；

步骤4.4，编码器f(x)和f′(x)间的距离d(f(x)，f′(x′))由如下的三角不等式给出：

d(f(x)，f′(x′))≤d(f(x)，f′(x))+d(f′(x)，f′(x′))

式中，d(f(x)，f′(x))表示编码器的功能相似性；d(f′(x)，f′(x′))表示使用β-相似约束图像变换操作；

在保证两个编码器f(x)和f′(x)具有相同结构的前提下，在时间步骤t时基于在线编码器f_ψ使用平均指数移动ψ^t＝(1-τ_m)ψ^t-1+τ_mψ更新动量编码器

其中τ_m∈[0，1]表示动量更新率，ψ表示在线编码器f_ψ的参数，ψ^t表示动量编码器/>

在t时刻下的参数，ψ^t-1表示动量编码器/>

在t-1时刻下的参数；同时还加入一个映射网络g：/>

表示将编码器f编码得到的低维状态S映射到另一个低维空间/>

在低维空间/>

内最小化度量距离；

通过上述对函数的凸性分析以及结构设计，最小化

等价于最小化/>

和/>

分别表示对样本x进行序列编码g_ψ(f_ψ(x))和/>

表示动量映射网络，参数同样由ψ^t给定；

步骤4.6，引入了一种数据混合，即从学习的分布

中采样多个增强样本，然后对编码的潜在表征s′进行混合；具体地：

假设f_ψ与

的收敛性假设成立，那么对于任意的输入/>

与由图像变换/>

生成的增强样本x′，优化前述的散度等价于最小化下述公式的上界：

式中，ρ＝L_f(CL_g+|||ψ_g||)，

表示对引入了增强样本后得到的经验回放池/>

内的所有样本x。

5.根据权利要求4所述的用于机械臂抓取中基于可优化图像转化的策略学习方法，其特征在于，步骤5所述从经验回访池中采集一个批次的数据，使用结合可优化图像转换的强化学习算法，训练机械臂在动态环境下抓取物体移动至目标位置的最优策略，具体过程包括：

步骤5.1，从经验回放池中随机采集一个批次的训练数据，每个数据由四元组(o_t，a_t，r_t，o_t+1)组成，其中o_t与o_t+1分别表示t与t+1时刻环境生成的观测值，a_t表示t时刻智能体采取的动作，r_t表示t时刻智能体采取动作a_t后所获得的奖励返回；

计算一个批次内转换后的观测值o′_t的RGB颜色的分布即均值与方差，同时获取图像编码器中所有批归一化层的内置的均值与方差，然后计算二者分布的Wasserstein距离

式中，o′_t表示当前步长内产生的增强样本，l表示编码器中某一层卷积层，

与/>

为观测空间，t表示当前训练步长，/>

表示用于参数化图像转换的高斯分布；

步骤5.4，使用图像编码器f_ψ(·)与映射网络g_ψ(·)编码当前训练步长内生成的增强样本o′_t得到z′_t，使用目标网络

与/>

编码当前训练步长内的原始观测值o_t得到z_t，并优化z′_t与z_t之间的L2范数/>

式中，g_ψ(f_ψ(o′_t))与

分别表示对增强样本o′_t和原始样本o_t进行序列编码，||·||₂表示向量的模长，该过程按批进行训练；

步骤5.5，使用转换后的观测值(o′_t，o′_t+1)更新策略网络π_θ(s)和价值函数网络Q_φ(s，a)，具体包括：

使用Q leaming更新价值函数网络Q_φ(s，a)：

式中，o′_t与o′_t+n分别表示t时刻与t+n时刻生成的增强样本，φ表示价值函数网络Q_φ的参数，

表示价值函数网络Q_φ的动量更新版本，γ∈[0，1]表示折扣因子，Q_φ(f_ψ(o′_t)，a_t)表示基于增强样本o′_t与动作a_t的奖励预测值，/>

表示使用n步之后的预测值进行拟合，/>

表示经过了n步折扣之后的基于增强样本o′_t+n与策略网络π_θ的目标奖励预测值，该设计被用于提升训练稳定性，并减少过高估计。该式表示可优化的图像转换参数/>

会随价值函数网络一起优化贝尔曼误差，提升表征学习的稳定性。；

策略网络π_θ(s)的更新过程为DDPG算法，即使用贪心策略直接优化价值函数网络Q_φ(s，a)预测下的策略梯度

式中，π_θ表示由参数θ参数化的策略函数π，a～π_θ(f_ψ(o′_t))表示从基于增强样本o′_t得来的动作分布中选择一个动作，Q_φ(f_ψ(o′_t)，a)表示基于增强样本o′_t和所选择的动作a进行奖励预测；

6.根据权利要求5所述的用于机械臂抓取中基于可优化图像转化的策略学习方法，其特征在于，步骤5.2中还包括：对高斯分布进行参数化处理，具体包括：

对像素偏移因子进行采样时，首先生成一个(0，1)内的随机数∈，然后将所需采样的偏移因子参数化为μ+∈·σ，并将该因子截断在设定的范围内，即完成基于某一高斯分布的图像转换的采样。

7.基于权利要求1至6任意一项所述方法的用于机械臂抓取中基于可优化图像转化的策略学习系统，其特征在于，所述系统包括：

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。