CN116100539A - 基于深度强化学习的机械臂自主动态避障方法及系统 - Google Patents
基于深度强化学习的机械臂自主动态避障方法及系统 Download PDFInfo
- Publication number
- CN116100539A CN116100539A CN202211534571.4A CN202211534571A CN116100539A CN 116100539 A CN116100539 A CN 116100539A CN 202211534571 A CN202211534571 A CN 202211534571A CN 116100539 A CN116100539 A CN 116100539A
- Authority
- CN
- China
- Prior art keywords
- obstacle avoidance
- action
- mechanical arm
- state
- updating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000002787 reinforcement Effects 0.000 title claims abstract description 15
- 230000009471 action Effects 0.000 claims abstract description 53
- 230000006870 function Effects 0.000 claims abstract description 42
- 238000013135 deep learning Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000005070 sampling Methods 0.000 claims abstract description 12
- 238000004088 simulation Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
- B25J9/1666—Avoiding collision or forbidden zones
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
Abstract
本发明实施例提供一种基于深度强化学习的机械臂自主动态避障方法及系统,属于自动化及机器人技术领域。所述机械臂自主动态避障方法包括:初始化当前的环境参数和经验回放池;选择当前需要执行的动作;将选择的动作发送至服务器端,以完成机械臂状态的更新;依据更新后的机械臂状态,更新奖励函数值;将执行动作前的状态、选取的动作、执行动作后的状态以及奖励值存储至经验回放池中;判断经验回放池内的数据量是否达到最小采样数;采用经验回放池训练深度学习网络,并确定深度学习网络的避障准确率;判断本轮迭代中的避障准确率与上一轮迭代中的避障准确率的差值是否大于预设值;在判断小于预设值的情况下,输出深度学习网络。
Description
技术领域
本发明涉及自动化及机器人技术领域,具体地涉及一种基于深度强化学习的机械臂自主动态避障方法及系统。
背景技术
轨迹规划是机械臂运动控制中的一个基本问题,轨迹规划的结果可以衡量机器人是否很好地完成任务。目前机械臂的轨迹规划方法大都是基于关节或笛卡尔空间中的速度和加速度等特定约束条件通过多项式插值来计算轨迹,亦或是基于传感器信息,如采用人工势场法和采样的算法进行轨迹规划。
但上述列举方法存在以下几个问题:1、应对的作业场景有限制,当面对复杂的作业场景时规划的效率低下,容易陷入局部极小或不易达到最优收敛;2、环境迁移能力差,只能针对单一场景进行轨迹规划;3、智能化程度较低,没有自主学习能力,限制在非结构化环境中的应用。
发明内容
本发明实施例的目的是提供一种基于深度强化学习的机械臂自主动态避障方法及系统,该机械臂自主动态避障方法及系统能够提高避障算法的泛用性。
为了实现上述目的,本发明实施例提供一种基于深度强化学习的机械臂自主动态避障方法,包括:
初始化当前的环境参数和经验回放池;
选择当前需要执行的动作;
将选择的动作发送至服务器端,以完成机械臂状态的更新;
依据更新后的机械臂状态,更新奖励函数值;
将执行动作前的状态、选取的动作、执行动作后的状态以及奖励值存储至经验回放池中;
判断所述经验回放池内的数据量是否达到最小采样数;
在判断所述经验回放池的数据量达到最小采样数的情况下,采用所述经验回放池训练深度学习网络,并确定所述深度学习网络的避障准确率;
在判断所述经验回放池的数据量为达到最小采样数的情况下,返回执行选择当前需要执行的动作的步骤;
判断本轮迭代中的避障准确率与上一轮迭代中的所述避障准确率的差值是否大于预设值;
在判断本轮迭代中的所述避障准确率与上一轮迭代中的所述避障准确率的差值大于预设值的情况下,返回执行选择当前需要执行的动作的步骤;
在判断本轮迭代中的所述避障准确率与上一轮迭代中的所述避障准确率的差值小于预设值的情况下,输出所述深度学习网络。
可选地,选择当前需要执行的动作包括:
根据公式(1)和公式(2)表示选择的动作,
其中,rate为动态比例因子,E_now为当前训练回合,Max_e为最大训练回合数;
可选地,将选择的动作发送至服务器端,以完成机械臂状态的更新包括:
将选择的动作通过CoppeliaSim和Python的联合仿真框架发送给CoppeliaSim服务器端;
所述CoppeliaSim服务器端通过解码并执行选择的动作,以使得机械臂到达下一个状态。
可选地,依据更新后的机械臂状态,更新奖励函数值包括:
根据公式(3)至公式(7)更新所述奖励函数值,
其中,Rt为吸引场奖励函数,dt为机械臂末端与目标物之间距离,δ为目标物安全距离阈值。
可选地,依据更新后的机械臂状态,更新奖励函数值包括:
其中,Ro为排斥场奖励函数,dr为障碍物安全距离阈值,do为机械臂末端与动态障碍物之间距离。
可选地,依据更新后的机械臂状态,更新奖励函数值包括:
其中,Re为能量奖励函数,||A||2为机械臂六关节的二范式量。
可选地,依据更新后的机械臂状态,更新奖励函数值包括:
其中,Rtime为时间奖励函数。
可选地,依据更新后的机械臂状态,更新奖励函数值包括:
R=c1Rt+c2Ro+c3Re+c4Rtime, (7)
其中,R为所述奖励函数值,c1,c2,c3,c4为各项奖励函数的权重,为超参数。
另一方面,本发明还提供一种基于深度强化学习的机械臂自主动态避障系统,所述机械臂自主动态避障系统包括处理器,所述处理器用于执行如上述任一所述的机械臂自主动态避障方法。
再一方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有指令,所述指令用于被机器读取以使得所述机器执行如上述任一所述的机械臂自主动态避障方法。
通过上述技术方案,本发明提供的基于深度强化学习的机械臂自主动态避障方法及系统采用结合环境参数,通过遍历每个动作,并计算对应的奖励函数值的方式来生成经验回放池。最后通过采用经验回放池训练深度学习网络的方式,实现了适应动态环境的目的,提高了避障算法的泛用性。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是根据本发明的一个实施方式的基于深度强化学习的机械臂自主动态避障方法的流程图;
图2是根据本发明的一个实施方式的六自由度机械臂和障碍物场景的三维渲染图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
如图1所示是根据本发明的一个实施方式的基于深度强化学习的机械臂自主动态避障方法的流程图。在该图1中,该机械臂自主动态避障方法可以包括:
在步骤S10中,初始化当前的环境参数和经验回放池;
在步骤S11中,选择当前需要执行的动作;
在步骤S12中,将选择的动作发送至服务器端,以完成机械臂状态的更新;
在步骤S13中,依据更新后的机械臂状态,更新奖励函数值;
在步骤S14中,将执行动作前的状态、选取的动作、执行动作后的状态以及奖励值存储至经验回放池中;
在步骤S15中,判断经验回放池内的数据量是否达到最小采样数;
在步骤S16中,在判断经验回放池的数据量达到最小采样数的情况下,采用经验回放池训练深度学习网络,并确定深度学习网络的避障准确率;
在判断经验回放池的数据量为达到最小采样数的情况下,返回执行选择当前需要执行的动作的步骤;
在步骤S17中,判断本轮迭代中的避障准确率与上一轮迭代中的避障准确率的差值是否大于预设值;
在判断本轮迭代中的避障准确率与上一轮迭代中的避障准确率的差值大于预设值的情况下,返回执行选择当前需要执行的动作的步骤;
在步骤S18中,在判断本轮迭代中的避障准确率与上一轮迭代中的避障准确率的差值小于预设值的情况下,输出该深度学习网络。
在如图1所示出的机械臂自主动态避障方法中,步骤S10可以用于初始化当前的环境参数和经验回放池。其中,当前的环境参数可以表示为:
S=[q1,q2,q3,q4,q5,q6,,x,y,z,dt,do]。其中,q1、q2、q3、q4、q5和q6可以表示六自由度机械臂的角度值,x,y,z表示机械臂当前的位置,dt表示示六自由度机械臂的当前位置(t时刻的位置),do表示与动态障碍物之间距离。经验回放池可以为用于训练深度学习网络的训练集和数据集。六自由度机械臂和障碍物场景的三维渲染图可以是如图2所示。
步骤S11用于选择当前需要执行的动作。具体地,考虑到六自由度机械臂轨迹规划是一个高维规划问题,在需要实现实时避开动态障碍物的目的时,该问题将变得更加复杂。因此需要采用动态动作的选择策略来解决低效的动作探索问题。具体地,可以是首先得到机械臂各关节的角度值和目标的空间位置,然后通过雅可比矩阵为计算机械臂逆运动学的数值解Δq作为引导项,给出机械臂合适的动作探测方向。然后,将引导项与带有深度强化学习算法探测噪声的随机采样动作项相结合,通过动态比例因子rate整合所选择的动作。更具体地,在本发明的一个示例中,该步骤S11可以是根据公式(1)和公式(2)表示选择的动作,
其中,rate为动态比例因子,E_now为当前训练回合,Max_e为最大训练回合数;
步骤S12可以将选择的动作发送至服务器端,以完成机械臂状态的更新。具体地,该步骤S12可以是首先将选择的动作通过CoppeliaSim和Python的联合仿真框架发送给CoppeliaSim服务器端,再CoppeliaSim服务器端通过解码并执行选择的动作,以使得机械臂到达下一个状态。
步骤S13可以用于依据更新后的机械臂状态,更新奖励函数值,具体地,该步骤S13可以是根据公式(3)至公式(7)来更新,
其中,Rt为吸引场奖励函数,dt为机械臂末端与目标物之间距离,δ为目标物安全距离阈值。
其中,Ro为排斥场奖励函数,dr为障碍物安全距离阈值,do为机械臂末端与动态障碍物之间距离。
其中,Re为能量奖励函数,||A||2为机械臂六关节的二范式量。
其中,Rtime为时间奖励函数。
可选地,依据更新后的机械臂状态,更新奖励函数值包括:
R=c1Rt+c2Ro+c3Re+c4Rtime, (7)
其中,R为奖励函数值,c1,c2,c3,c4为各项奖励函数的权重,为超参数。
另一方面,本发明还提供一种基于深度强化学习的机械臂自主动态避障系统,所述机械臂自主动态避障系统包括处理器,所述处理器用于执行如上述任一所述的机械臂自主动态避障方法。
再一方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有指令,所述指令用于被机器读取以使得所述机器执行如上述任一所述的机械臂自主动态避障方法。
通过上述技术方案,本发明提供的基于深度强化学习的机械臂自主动态避障方法及系统采用结合环境参数,通过遍历每个动作,并计算对应的奖励函数值的方式来生成经验回放池。最后通过采用经验回放池训练深度学习网络的方式,实现了适应动态环境的目的,提高了避障算法的泛用性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于深度强化学习的机械臂自主动态避障方法,其特征在于,所述机械臂自主动态避障方法包括:
初始化当前的环境参数和经验回放池;
选择当前需要执行的动作;
将选择的动作发送至服务器端,以完成机械臂状态的更新;
依据更新后的机械臂状态,更新奖励函数值;
将执行动作前的状态、选取的动作、执行动作后的状态以及奖励值存储至经验回放池中;
判断所述经验回放池内的数据量是否达到最小采样数;
在判断所述经验回放池的数据量达到最小采样数的情况下,采用所述经验回放池训练深度学习网络,并确定所述深度学习网络的避障准确率;
在判断所述经验回放池的数据量为达到最小采样数的情况下,返回执行选择当前需要执行的动作的步骤;
判断本轮迭代中的避障准确率与上一轮迭代中的所述避障准确率的差值是否大于预设值;
在判断本轮迭代中的所述避障准确率与上一轮迭代中的所述避障准确率的差值大于预设值的情况下,返回执行选择当前需要执行的动作的步骤;
在判断本轮迭代中的所述避障准确率与上一轮迭代中的所述避障准确率的差值小于预设值的情况下,输出所述深度学习网络。
3.根据权利要求1所述的机械臂自主动态避障方法,其特征在于,将选择的动作发送至服务器端,以完成机械臂状态的更新包括:
将选择的动作通过CoppeliaSim和Python的联合仿真框架发送给CoppeliaSim服务器端;
所述CoppeliaSim服务器端通过解码并执行选择的动作,以使得机械臂到达下一个状态。
8.根据权利要求7所述的的机械臂自主动态避障方法,其特征在于,依据更新后的机械臂状态,更新奖励函数值包括:
R=c1Rt+c2Ro+c3Re+c4Rtime, (7)
其中,R为所述奖励函数值,c1,c2,c3,c4为各项奖励函数的权重,为超参数。
9.一种基于深度强化学习的机械臂自主动态避障系统,其特征在于,所述机械臂自主动态避障系统包括处理器,所述处理器用于执行如权利要求1至8任一所述的机械臂自主动态避障方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,所述指令用于被机器读取以使得所述机器执行如权利要求1至8任一所述的机械臂自主动态避障方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211534571.4A CN116100539A (zh) | 2022-11-29 | 2022-11-29 | 基于深度强化学习的机械臂自主动态避障方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211534571.4A CN116100539A (zh) | 2022-11-29 | 2022-11-29 | 基于深度强化学习的机械臂自主动态避障方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116100539A true CN116100539A (zh) | 2023-05-12 |
Family
ID=86262874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211534571.4A Pending CN116100539A (zh) | 2022-11-29 | 2022-11-29 | 基于深度强化学习的机械臂自主动态避障方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116100539A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116747026A (zh) * | 2023-06-05 | 2023-09-15 | 北京长木谷医疗科技股份有限公司 | 基于深度强化学习的机器人智能截骨方法、装置及设备 |
-
2022
- 2022-11-29 CN CN202211534571.4A patent/CN116100539A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116747026A (zh) * | 2023-06-05 | 2023-09-15 | 北京长木谷医疗科技股份有限公司 | 基于深度强化学习的机器人智能截骨方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7394853B2 (ja) | 動的物体を有する環境における運動計画を促進する装置、方法及び物品 | |
US11663474B1 (en) | Artificially intelligent systems, devices, and methods for learning and/or using a device's circumstances for autonomous device operation | |
CN112631296B (zh) | 基于深度强化学习的机器人导航方法及系统、设备、介质 | |
CN110362081B (zh) | 一种移动机器人路径规划方法 | |
CN112631128A (zh) | 一种多模异构信息融合的机器人装配技能学习方法及系统 | |
CN116100539A (zh) | 基于深度强化学习的机械臂自主动态避障方法及系统 | |
CN116295415A (zh) | 一种基于脉冲神经网络强化学习的无地图迷宫导航方法和系统 | |
Sivaranjani et al. | Artificial Potential Field Incorporated Deep-Q-Network Algorithm for Mobile Robot Path Prediction. | |
Zhang et al. | Safe and efficient robot manipulation: Task-oriented environment modeling and object pose estimation | |
Gök | Dynamic path planning via Dueling Double Deep Q-Network (D3QN) with prioritized experience replay | |
EP3739418A1 (en) | Method of controlling a vehicle and apparatus for controlling a vehicle | |
CN117495443A (zh) | 基于改进粒子群算法的汽车充电站选址方法及相关装置 | |
CN116673968A (zh) | 基于强化学习的机械臂轨迹规划要素选择方法及系统 | |
CN112857379A (zh) | 一种基于改进的Gmapping-SLAM地图更新方法及系统 | |
Pin et al. | Adding memory processing behaviors to the fuzzy behaviorist approach (FBA): Resolving limit cycle problems in autonomous mobile robot navigation | |
CN111761583A (zh) | 一种智能机器人运动定位方法及系统 | |
Mohamed et al. | Autonomous mobile robot system concept based On PSO path planner and vSLAM | |
Feng et al. | Mobile robot obstacle avoidance based on deep reinforcement learning | |
Rajvanshi et al. | An efficient potential-function based path-planning algorithm for mobile robots in dynamic environments with moving targets | |
Nikitenko et al. | Rrts postprocessing for uncertain environments | |
CN115993783A (zh) | 由智能设备执行的方法及相关设备 | |
Zhang et al. | Autonomous robot navigation with self-learning for collision avoidance with randomly moving obstacles | |
CN117387631B (zh) | 一种机器人的路径规划方法、设备及介质 | |
Lauttia | Adaptive Monte Carlo Localization in ROS | |
CN118238132B (zh) | 轨迹避障训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |