CN116100539A

CN116100539A - 基于深度强化学习的机械臂自主动态避障方法及系统

Info

Publication number: CN116100539A
Application number: CN202211534571.4A
Authority: CN
Inventors: 唐旭明; 郑立; 单晓锋; 郭祥; 韩先国; 甄武东; 董二宝; 王亚豪
Original assignee: University of Science and Technology of China USTC; Huainan Power Supply Co of State Grid Anhui Electric Power Co Ltd
Current assignee: University of Science and Technology of China USTC; Huainan Power Supply Co of State Grid Anhui Electric Power Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-05-12

Abstract

本发明实施例提供一种基于深度强化学习的机械臂自主动态避障方法及系统，属于自动化及机器人技术领域。所述机械臂自主动态避障方法包括：初始化当前的环境参数和经验回放池；选择当前需要执行的动作；将选择的动作发送至服务器端，以完成机械臂状态的更新；依据更新后的机械臂状态，更新奖励函数值；将执行动作前的状态、选取的动作、执行动作后的状态以及奖励值存储至经验回放池中；判断经验回放池内的数据量是否达到最小采样数；采用经验回放池训练深度学习网络，并确定深度学习网络的避障准确率；判断本轮迭代中的避障准确率与上一轮迭代中的避障准确率的差值是否大于预设值；在判断小于预设值的情况下，输出深度学习网络。

Description

基于深度强化学习的机械臂自主动态避障方法及系统

技术领域

本发明涉及自动化及机器人技术领域，具体地涉及一种基于深度强化学习的机械臂自主动态避障方法及系统。

背景技术

轨迹规划是机械臂运动控制中的一个基本问题，轨迹规划的结果可以衡量机器人是否很好地完成任务。目前机械臂的轨迹规划方法大都是基于关节或笛卡尔空间中的速度和加速度等特定约束条件通过多项式插值来计算轨迹，亦或是基于传感器信息，如采用人工势场法和采样的算法进行轨迹规划。

但上述列举方法存在以下几个问题：1、应对的作业场景有限制，当面对复杂的作业场景时规划的效率低下，容易陷入局部极小或不易达到最优收敛；2、环境迁移能力差，只能针对单一场景进行轨迹规划；3、智能化程度较低，没有自主学习能力，限制在非结构化环境中的应用。

发明内容

本发明实施例的目的是提供一种基于深度强化学习的机械臂自主动态避障方法及系统，该机械臂自主动态避障方法及系统能够提高避障算法的泛用性。

为了实现上述目的，本发明实施例提供一种基于深度强化学习的机械臂自主动态避障方法，包括：

初始化当前的环境参数和经验回放池；

选择当前需要执行的动作；

将选择的动作发送至服务器端，以完成机械臂状态的更新；

依据更新后的机械臂状态，更新奖励函数值；

将执行动作前的状态、选取的动作、执行动作后的状态以及奖励值存储至经验回放池中；

判断所述经验回放池内的数据量是否达到最小采样数；

在判断所述经验回放池的数据量达到最小采样数的情况下，采用所述经验回放池训练深度学习网络，并确定所述深度学习网络的避障准确率；

在判断所述经验回放池的数据量为达到最小采样数的情况下，返回执行选择当前需要执行的动作的步骤；

判断本轮迭代中的避障准确率与上一轮迭代中的所述避障准确率的差值是否大于预设值；

在判断本轮迭代中的所述避障准确率与上一轮迭代中的所述避障准确率的差值大于预设值的情况下，返回执行选择当前需要执行的动作的步骤；

在判断本轮迭代中的所述避障准确率与上一轮迭代中的所述避障准确率的差值小于预设值的情况下，输出所述深度学习网络。

可选地，选择当前需要执行的动作包括：

根据公式(1)和公式(2)表示选择的动作，

其中，rate为动态比例因子，E_now为当前训练回合，Max_e为最大训练回合数；

其中，

为当前状态下选择的动作，

为当前状态下探索的随机动作，

为引导项的向量表达形式。

可选地，将选择的动作发送至服务器端，以完成机械臂状态的更新包括：

将选择的动作通过CoppeliaSim和Python的联合仿真框架发送给CoppeliaSim服务器端；

所述CoppeliaSim服务器端通过解码并执行选择的动作，以使得机械臂到达下一个状态。

可选地，依据更新后的机械臂状态，更新奖励函数值包括：

根据公式(3)至公式(7)更新所述奖励函数值，

其中，R_t为吸引场奖励函数，d_t为机械臂末端与目标物之间距离，δ为目标物安全距离阈值。

可选地，依据更新后的机械臂状态，更新奖励函数值包括：

其中，R_o为排斥场奖励函数，d_r为障碍物安全距离阈值，d_o为机械臂末端与动态障碍物之间距离。

可选地，依据更新后的机械臂状态，更新奖励函数值包括：

其中，R_e为能量奖励函数，||A||₂为机械臂六关节的二范式量。

可选地，依据更新后的机械臂状态，更新奖励函数值包括：

其中，R_time为时间奖励函数。

可选地，依据更新后的机械臂状态，更新奖励函数值包括：

R＝c₁R_t+c₂R_o+c₃R_e+c₄R_time， (7)

其中，R为所述奖励函数值，c₁，c₂，c₃，c₄为各项奖励函数的权重，为超参数。

另一方面，本发明还提供一种基于深度强化学习的机械臂自主动态避障系统，所述机械臂自主动态避障系统包括处理器，所述处理器用于执行如上述任一所述的机械臂自主动态避障方法。

再一方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有指令，所述指令用于被机器读取以使得所述机器执行如上述任一所述的机械臂自主动态避障方法。

通过上述技术方案，本发明提供的基于深度强化学习的机械臂自主动态避障方法及系统采用结合环境参数，通过遍历每个动作，并计算对应的奖励函数值的方式来生成经验回放池。最后通过采用经验回放池训练深度学习网络的方式，实现了适应动态环境的目的，提高了避障算法的泛用性。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是根据本发明的一个实施方式的基于深度强化学习的机械臂自主动态避障方法的流程图；

图2是根据本发明的一个实施方式的六自由度机械臂和障碍物场景的三维渲染图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

如图1所示是根据本发明的一个实施方式的基于深度强化学习的机械臂自主动态避障方法的流程图。在该图1中，该机械臂自主动态避障方法可以包括：

在步骤S10中，初始化当前的环境参数和经验回放池；

在步骤S11中，选择当前需要执行的动作；

在步骤S12中，将选择的动作发送至服务器端，以完成机械臂状态的更新；

在步骤S13中，依据更新后的机械臂状态，更新奖励函数值；

在步骤S14中，将执行动作前的状态、选取的动作、执行动作后的状态以及奖励值存储至经验回放池中；

在步骤S15中，判断经验回放池内的数据量是否达到最小采样数；

在步骤S16中，在判断经验回放池的数据量达到最小采样数的情况下，采用经验回放池训练深度学习网络，并确定深度学习网络的避障准确率；

在判断经验回放池的数据量为达到最小采样数的情况下，返回执行选择当前需要执行的动作的步骤；

在步骤S17中，判断本轮迭代中的避障准确率与上一轮迭代中的避障准确率的差值是否大于预设值；

在判断本轮迭代中的避障准确率与上一轮迭代中的避障准确率的差值大于预设值的情况下，返回执行选择当前需要执行的动作的步骤；

在步骤S18中，在判断本轮迭代中的避障准确率与上一轮迭代中的避障准确率的差值小于预设值的情况下，输出该深度学习网络。

在如图1所示出的机械臂自主动态避障方法中，步骤S10可以用于初始化当前的环境参数和经验回放池。其中，当前的环境参数可以表示为：

S＝[q₁,q₂,q₃,q₄,q₅,q₆,,x,y,z,d_t,d_o]。其中，q₁、q₂、q₃、q₄、q₅和q₆可以表示六自由度机械臂的角度值，x,y,z表示机械臂当前的位置，d_t表示示六自由度机械臂的当前位置(t时刻的位置)，d_o表示与动态障碍物之间距离。经验回放池可以为用于训练深度学习网络的训练集和数据集。六自由度机械臂和障碍物场景的三维渲染图可以是如图2所示。

步骤S11用于选择当前需要执行的动作。具体地，考虑到六自由度机械臂轨迹规划是一个高维规划问题，在需要实现实时避开动态障碍物的目的时，该问题将变得更加复杂。因此需要采用动态动作的选择策略来解决低效的动作探索问题。具体地，可以是首先得到机械臂各关节的角度值和目标的空间位置，然后通过雅可比矩阵为计算机械臂逆运动学的数值解Δq作为引导项，给出机械臂合适的动作探测方向。然后，将引导项与带有深度强化学习算法探测噪声的随机采样动作项相结合，通过动态比例因子rate整合所选择的动作。更具体地，在本发明的一个示例中，该步骤S11可以是根据公式(1)和公式(2)表示选择的动作，

其中，

为当前状态下选择的动作，

为当前状态下探索的随机动作，

为引导项的向量表达形式。

步骤S12可以将选择的动作发送至服务器端，以完成机械臂状态的更新。具体地，该步骤S12可以是首先将选择的动作通过CoppeliaSim和Python的联合仿真框架发送给CoppeliaSim服务器端，再CoppeliaSim服务器端通过解码并执行选择的动作，以使得机械臂到达下一个状态。

步骤S13可以用于依据更新后的机械臂状态，更新奖励函数值，具体地，该步骤S13可以是根据公式(3)至公式(7)来更新，

其中，R_time为时间奖励函数。

可选地，依据更新后的机械臂状态，更新奖励函数值包括：

R＝c₁R_t+c₂R_o+c₃R_e+c₄R_time， (7)

其中，R为奖励函数值，c₁，c₂，c₃，c₄为各项奖励函数的权重，为超参数。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。