CN111421538B - 一种基于优先级经验回放的深度强化学习机器人控制方法 - Google Patents

一种基于优先级经验回放的深度强化学习机器人控制方法 Download PDF

Info

Publication number
CN111421538B
CN111421538B CN202010247274.6A CN202010247274A CN111421538B CN 111421538 B CN111421538 B CN 111421538B CN 202010247274 A CN202010247274 A CN 202010247274A CN 111421538 B CN111421538 B CN 111421538B
Authority
CN
China
Prior art keywords
sample
priority
robot
environment
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010247274.6A
Other languages
English (en)
Other versions
CN111421538A (zh
Inventor
田智强
李�根
杨洋
王丛
司翔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010247274.6A priority Critical patent/CN111421538B/zh
Publication of CN111421538A publication Critical patent/CN111421538A/zh
Application granted granted Critical
Publication of CN111421538B publication Critical patent/CN111421538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)
  • Numerical Control (AREA)
  • Manipulator (AREA)

Abstract

本发明公开一种基于优先级经验回放机制的深度强化学习控制算法,利用机器人操作的物体的状态信息计算出优先级,并利用深度强化学习方法完成端到端的机器人控制模型,本发明让深度强化学习智能体在环境中自主学习并完成指定的任务。训练过程中实时采集目标物体的状态信息用于计算经验回放的优先级,然后将经验回放池中的数据根据优先级供强化学习算法采样学习获得控制模型。本发明在保证深度强化学习算法的鲁棒性的前提下,最大限度利用了环境信息,提升了控制模型的效果并加快了学习收敛的速度。

Description

一种基于优先级经验回放的深度强化学习机器人控制方法
技术领域
本发明属于机器人控制领域,具体涉及一种基于虚拟环境、深度强化学习和基于物体位置变化的优先级经验回放算法的机器人控制方法。
背景技术
目前,多数机器人空间抓取技术主要是对机器人可能执行的行为进行预先设定或是基于传统3D视觉算法,但是随着机器人应用领域的不断拓展,机器人所面临的任务越来越复杂。在面临复杂任务时,需要用到复杂的视觉标定方法与视觉建模方法,并且设计人员无法对快速变化的环境做出有效预测,从而难以对机器人的行为做出合理预测。
强化学习是机器学习领域中的一种重要的学习方法。在机器人领域的应用中,强化学习的参与者包括机器人和环境,该方法通过让机器人在环境中不断试错的方式自主学习并做出正确的决策。
深度强化学习算法是将强化学习与深度神经网络结合的一种机器学习方法,它利用了强化学习的自主学习能力和深度学习的非线性拟合能力。在面对连续状态空间和动作空间的学习中有着良好的表现,更接近机器人的应用场景,深度强化学习算法在机器人自主行为学习方面表现出了良好的潜力。
深度强化学习利用了样本回放池这一关键技术,样本回放池的原理是将采集到的样本先放入样本回放池中,在学习中从样本回放池中随机选取样本用于神经网络的训练。这种操作打破了样本间的关联,使样本间相互独立,但也存在忽略了不同样本的学习效率不同的问题。
为了提高样本利用率,一种有效的做法是对样本设置优先级,在进行经验回放时按照样本的优先级进行采样。但科学、有效的优先级设计存在着很大的困难,当前缺少一种针对机器人手臂操作任务的优先级设计方法。
发明内容
本发明针对现有经验池有限回放算法的不足,提出了一种基于目标物体状态变化的优先级经验回放技术方法,在机器人与环境互动学习的过程中,通过优先级经验回放的方式加快学习速度并提升学习效果。
为实现上述发明目的,本发明采用的技术方案是:一种基于物体位置变化的优先级经验回放算法。在机器人操作任务中,机器人的任务是通过一系列的操作,使目标物体的状态达到目标。基于机器人的任务目标,本发明的内在思想为,成功改变目标物体状态的样本轨迹更有助于机器人的学习过程。在机器人完成任务的过程中,通过位置、线性速度、角速度三个方面,计算出机器人对要操作的目标物体的状态改变程度。对于成功改变目标物体状态的样本,以更高的优先级进行采样供深度神经网络进行学习拟合。对于未能成功改变目标物体状态的样本,则尽量减少其被采样学习的概率。
针对上述问题,本发明提供一种基于优先级经验回放的深度强化学习机器人控制方法,所述方法包括:
构建虚拟化环境,完成虚拟环境初始化设置;
根据所述虚拟化环境,获取环境状态参数;
根据所述状态参数,构建样本轨迹集合;
根据所述样本轨迹,计算样本轨迹优先级;
构建强化学习模型,根据所述样本轨迹集合优先级完成训练。
所述构构建虚拟化环境,完成虚拟环境初始化设置,包括:
构建基于Mujoco的虚拟化环境,初始化环境参数包括环境的边界、任务的类型及其起点终点位置,奖励信号r,折扣因子γ;所述虚拟环境包括设置多个传感器的物料和等比例建模的仿真机器人;,所述虚拟环境包括机器人,机器人需要操作的物料和多个传感器。
根据所述虚拟化环境,获取环境状态参数,包括:
采集机器人与环境进行交互过程的环境状态参数,所述环境交互的过程为:机器人观测当前状态,并根据某种策略选择可执行动作,环境状态发生改变进入下一个状态,机器人评估动作结果,并获得奖励信号,交互过程在状态稳定后结束;所述每一次所采集到的环境状态参数构成一个样本,所述样本为四元组信息(s,a,r,s′),s为当前状态,其中包括物料传感器的参数,所述物料传感器参数包括(xt,yt,zt,lt,mt,nt,ot),其中xt,yt,zt表示目标物体在t时刻下在笛卡尔坐标系中的坐标,lt,mt,nt,ot,是一组四元数,表示目标物体在时间步t的角度,a为机器人执行的动作,r为执行动作a后所收到的奖励信号,s′为执行动作后的下一个状态。
根据所述状态参数,构建样本轨迹集合,包括:
所述样本轨迹τ包括机器人与环境的一次交互过程中的所有样本数据,所述样本轨迹包括五元组τ=(S,A,p,r,γ),其中S为当前样本轨迹中的状态集合,A为当前样本轨迹中的执行动作集合,p为当状态转移概率,r为当前样本轨迹的奖励信号,γ为预设的折扣因子;构建样本轨迹集合Γ,并存放到回放存储器中,所述样本轨迹集合包括机器人与环境交互过程中收集到的所有的样本轨迹(τ1,τ2,...,τi),其中下标i表示样本轨迹的数量。
根据所述样本轨迹,计算样本轨迹优先级,包括:
所述样本轨迹优先级用于衡量样本轨迹的优先级高低,状态优先级高的样本轨迹将优先被采样学习,所述状态优先级由物料的位置变化Ept)、线性速度变化Ekt)和角速度变化Eri)三部分组成;所述样本轨迹的物料位置变化Epi)由物料在该样本轨迹中相邻状态的位置差的绝对值之和计算,所述位置差由物料在笛卡尔坐标系中的位置偏移量构成,所述的位置偏移量Epi)=|xt-xt-1|+|yt-yt-1|+|zt-zt-1|;所述样本轨迹的线性速度变化Eki)由物料在该样本轨迹中相邻状态的线性速度差的绝对值之和计算,所述线性速度包括物料相对于x轴,y轴和z轴的线性速度,其中,所述相对于x轴的线性速度
Figure GDA0003224627530000031
所述相对于y轴和z轴的线性速度vy,t和vz,t的速度分别由
Figure GDA0003224627530000032
Figure GDA0003224627530000033
计算得出,所述线性速度变化Eki)=vx,t+vy,t+vz,t;所述样本轨迹的角速度变化Eri)由物料在该样本轨迹中相邻状态的角度差的绝对值之和计算,所述角度差由物料相对于x轴,y轴和z轴的角度φ,θ,ψ由四元数l,m,n,o计算得出,所述角速度差由物体在时间步t相对于x轴,y轴和z轴的角度φ,θ,ψ与前一个时间步t-1的插值的绝对值之和求得,所述样本轨迹角速度变化
Figure GDA0003224627530000035
所述样本轨迹优先级由物料的位置变化Epi)、线性速度变化Ekt)和角速度变化Eri)之和组成,E(τi)=Eti)+Eki)+Eri)。
构建强化学习模型,根据所述样本轨迹集合优先级完成训练,包括:
所述强化学习模型包括两个网络大小一样、网络参数相同的策略神经网络和价值神经网络;所述根据样本轨迹集合优先级完成训练,以
Figure GDA0003224627530000034
的概率从回放存储器中采样获得小批量样本轨迹;使用样本轨迹中的数据训练策略神经网络和价值神经网络。
本发明的有益效果:本发明提出了一种基于目标物体状态的优先级经验回放技术,应用在深度强化学习方法中,在深度强化学习中的样本回放过程中将学习效率更高的样本以更高的概率进行回放,解决了样本回放过程中忽略不同样本的学习效率不同的问题,提高了深度强化学习的学习效率和效果,从而提高了机器人在完成操作任务的表现,实现了更好的机器人操作性能。
附图说明
图1为本发明实施例的总流程图。
具体实施方式
算法总体流程图如图1所示。以下进行详细说明。
本实施例所述的一种基于目标物体状态变化的优先级经验回放技术方法,是在机器人与环境互动学习的过程中,通过优先级经验回放的方式加快学习速度并提升学习效果,包括以下步骤:
S1、构建虚拟化环境,完成虚拟环境初始化设置。
在本实施例中,本发明通过基于虚拟化环境,并在虚拟化环境中完成训练。
虚拟化环境是基于真实环境和机器人搭建的仿真环境,主要包括两个部分:仿真的任务环境和仿真机器人。虚拟化环境基于GYM搭建,仿真机器人基于Mujoco引擎搭建。
仿真任务环境,可以通过配置参数选择不同的任务类型,设置奖励信号量r,设置折扣因子γ。
根据所设定的不同任务类型,仿真任务环境定义了任务的目标、任务的边界、机器人和物料的起点位置及多个传感器。
在每种任务中,机器人的目标是操作物料,使得物料状态在一定的偏差内达到任务目标,仿真环境模拟操作过程并记录每个时间步的环境状态、机器人状态、物料状态等信息。
仿真机器人,是由多个关节组成的多自由度机器人,根据真实环境的机器人参数进行仿真,根据仿真任务环境所传递的控制信号,模拟机器人的操作,并将返回的机器人仿真操作结果。
多自由度机器人在虚拟环境中,可通过方向指令和力度指定控制每个关节动作的方向和力度。
S2、根据所述虚拟化环境,获取环境状态参数;
本实施例中,虚拟化任务环境在机器人任务执行过程中,观测当前状态,并根据某种策略选择可执行动作,向机器人发送操作指令,机器人根据指令执行操作。在机器人完成操作后,虚拟化环境状态发生改变进入下一个状态,通过评估动作结果获得奖励信号量r,并根据折扣因子γ计算回报,一次任务执行过程在达到任务目标或者达到任务截至时间后结束。
在机器人操作的过程中,虚拟化环境记录每一个时间步的环境状态,包括物料的状态信息。
采集每一个时间步机器人与虚拟化环境进行交互过程的环境状态参数,所述每一次所采集到的环境状态参数构成一个样本,所述样本为五元组信息(st,at,rt,st+1,ot),其中下标t表示时间步。st为当前状态,ot为物料传感器的参数,所述物料传感器参数包括(xt,yt,zt,lt,mt,nt,ot),其中xt,yt,zt表示目标物体在t时刻下在笛卡尔坐标系中的坐标,lt,mt,nt,ot,是一组四元数,表示目标物体在时间步t的角度,at为机器人执行的动作,rt为执行动作a后所收到的奖励信号,st+1为执行动作后的下一个状态。
S3、根据所述状态参数,构建样本轨迹集合;
本实施例中,样本轨迹τ由机器人在虚拟化环境中一次任务执行过程中所采集的样本构成。样本轨迹τ包括五元组信息(S,A,p,r,γ),其中S为当前样本轨迹中的状态集合{s0,s1,...,sT},A为当前样本轨迹中的执行动作集合{a0,a1,...,aT},下标T为样本轨迹中的样本个数,p为当样本轨迹的状态转移概率,由样本轨迹中的状态变化计算得出,r为当前样本轨迹的奖励信号,γ为预设的折扣因子。
构建样本轨迹集合,并存放到回放存储器中,其中,样本轨迹集合Γ由样本轨迹τ1,τ2,...,τN组成,其中N为回放存储器中的样本轨迹个数。
S4、根据所述样本轨迹,计算样本轨迹优先级;
本实施例中,在虚拟化环境训练的过程中,通过物料状态的改变来计算样本轨迹的优先级。在机器人完成任务的过程中,为将物料移动到目标位置,在机器人操作物料的过程中,会改变物料的位置、角度、速度等状态。
本实施例中,通过样本轨迹中物料的位置变化Epi)、角度变化Eki)、速度变化Eri)来计算该样本轨迹的优先级,包括:
S41、计算样本轨迹物料位置变化
通过样本轨迹中记录的物料状态信息,计算物料在笛卡尔坐标系中相对于x轴,y轴和z轴的位置变化之和。其中,在样本轨迹τi中,物料相对于x轴的位置变化为
Figure GDA0003224627530000061
物料相对于y轴的位置变化为
Figure GDA0003224627530000062
物料相对于z轴的位置变化为
Figure GDA0003224627530000063
进一步的,样本轨迹τi的位置变化为:
Figure GDA0003224627530000064
其中,T为样本轨迹τi的样本数量。
S42、计算样本轨迹物料速度变化
所述样本轨迹的线性速度变化Ek(st)由物料在该样本轨迹中相邻状态的线性速度差的绝对值之和计算,所述线性速度包括物料相对于x轴,y轴和z轴的线性速度,其中,所述相对于x轴的线性速度为:
Figure GDA0003224627530000065
相似地,所述相对于y轴的线性速度vy,t为:
Figure GDA0003224627530000066
相似地,所述相对于z轴的线性速度vz,t为:
Figure GDA0003224627530000067
所述线性速度变化为:
Eki)=vx,t+vy,t+vz,t
S43、计算样本轨迹物料角度变化
物料角度变化,针对于完成任务过程中需要旋转物料所述样本轨迹的角度变化Er(st)由物料在该样本轨迹中相邻状态的角度差的绝对值之和计算。
所述角度差由物料相对于x轴,y轴和z轴的角度φ,θ,ψ由四元数a,b,c,d计算得出,其中,
Figure GDA0003224627530000068
θ=arctan2((ac-db)),
Figure GDA0003224627530000069
所述角度差由物体在时间步t相对于x轴,y轴和z轴的角度φ,θ,ψ与前一个时间步t-1的插值的绝对值之和求得,所述样本轨迹角度变化
Figure GDA0003224627530000072
S44、计算样本轨迹优先级
样本轨迹优先级由物料的位置变化Epi)、线性速度变化Eki)和角速度变化Er(st)之和组成:
E(τi)=Eti)+Eki)+Ert)。
S5、构建强化学习模型,根据所述样本轨迹集合优先级完成训练。
本实施例中,强化学习模型包括两个网络大小一样、网络参数相同的策略神经网络和价值神经网络。在回放存储器中根据样本轨迹优先级进行样本轨迹采样输入至强化学习模型中进行训练,其中,样本轨迹τi的采样概率为:
Figure GDA0003224627530000071
其中,n为样本轨迹集合中的样本轨迹个数。强化学习在训练过程中,输入为虚拟化环境的状态参数,端对端的得到动作输出。

Claims (4)

1.一种基于优先级经验回放的深度强化学习机器人控制方法,其特征在于,所述方法包括:
S1、构建虚拟化环境,完成虚拟环境初始化设置;
S2、根据所述虚拟化环境,获取环境状态参数;
S3、根据所述状态参数,构建样本轨迹集合;
S4、根据所述样本轨迹,计算样本轨迹优先级;
S5、构建强化学习模型,根据所述样本轨迹集合优先级完成训练;
构建虚拟化环境,完成虚拟环境初始化设置,包括:
构建基于GYM和Mujoco的虚拟化环境,初始化环境参数包括环境的类型、任务的边界及其起点终点位置,奖励信号r,折扣因子γ;所述虚拟环境包括设置多个传感器的物料和等比例建模的仿真机器人;所述虚拟环境包括机器人,机器人需要操作的物料和多个传感器;
所述虚拟化环境,获取环境状态参数,包括:
采集机器人与环境进行交互过程的环境状态参数,环境交互的过程为:机器人观测当前状态,并根据某种策略选择可执行动作,环境状态发生改变进入下一个状态,机器人评估动作结果,并获得奖励信号,交互过程在状态稳定后结束;每一次所采集到的环境状态参数构成一个样本,所述样本为四元组信息(s,a,r,s′),s为当前状态,其中包括物料传感器的参数,所述物料传感器参数包括(xt,yt,zt,lt,mt,nt,ot),其中xt,yt,zt表示目标物体在t时刻下在笛卡尔坐标系中的坐标,lt,mt,nt,ot,是一组四元数,表示目标物体在时间t的角度,a为机器人执行的动作,r为执行动作a后所收到的奖励信号,s′为执行动作后的下一个状态。
2.根据权利要求1所述的方法,其特征在于,根据所述状态参数,构建样本轨迹集合,包括:
所述样本轨迹τ包括机器人与环境的一次交互过程中的所有样本数据,所述样本轨迹包括五元组τ=(S,A,p,r,γ),其中S为当前样本轨迹中的状态集合,A为当前样本轨迹中的执行动作集合,p为当状态转移概率,r为当前样本轨迹的奖励信号,γ为预设的折扣因子;构建样本轨迹集合Γ,并存放到回放存储器中,所述样本轨迹集合包括机器人与环境交互过程中收集到的所有的样本轨迹(τ1,τ2,...,τi),其中下标i表示样本轨迹的数量。
3.根据权利要求1所述的方法,其特征在于,根据所述样本轨迹,计算样本轨迹优先级,包括:
所述样本轨迹优先级用于衡量样本轨迹的优先级高低,状态优先级高的样本轨迹将优先被采样学习,所述状态优先级由物料的位置变化Epi)、线性速度变化Eki)和角速度变化Eri)三部分组成;所述样本轨迹的物料位置变化Epi)由物料在该样本轨迹中相邻状态的位置差的绝对值之和计算,所述位置差由物料在笛卡尔坐标系中的位置变化构成,所述的位置变化Epi)=|xt-xt-1|+|yt-yt-1|+|zt-zt-1|;所述样本轨迹的线性速度变化Eki)由物料在该样本轨迹中相邻状态的线性速度差的绝对值之和计算,所述线性速度包括物料相对于x轴,y轴和z轴的线性速度,其中,所述相对于x轴的线性速度
Figure FDA0003535188350000021
其中Δt表示时间步t和上一个时间步t-1的差值,所述相对于y轴和z轴的线性速度vy,t和vz,t的速度分别由
Figure FDA0003535188350000022
Figure FDA0003535188350000023
计算得出,所述线性速度变化Eki)=vx,t+vy,t+vz,t;所述样本轨迹的角速度变化Eri)由物料在该样本轨迹中相邻状态的角度差的绝对值之和计算,角度差由物料相对于x轴,y轴和z轴的角度φ,θ,ψ由四元数l,m,n,o计算得出,所述角速度变化由物体在时间步t相对于x轴,y轴和z轴的角度φ,θ,ψ与前一个时间步t-1的插值的绝对值之和求得,所述样本轨迹角速度变化
Figure FDA0003535188350000025
所述样本轨迹优先级由物料的位置变化Epi)、线性速度变化Eki)和角速度变化Eri)之和组成,E(τi)=Eti)+Eki)+Eri)。
4.根据权利要求1所述的方法,其特征在于,构建强化学习模型,根据所述样本轨迹集合优先级完成训练,包括:
所述强化学习模型包括两个网络大小一样、网络参数相同的策略神经网络和价值神经网络;所述根据所述样本轨迹集合优先级完成训练,以
Figure FDA0003535188350000024
的概率从回放存储器中采样获得小批量样本轨迹,E(τi)代表指定样本轨迹i的优先级,N代表样本回放池中存储的样本轨迹的总数,
Figure FDA0003535188350000031
表示所有的样本轨迹的优先级之和;使用样本轨迹中的数据训练策略神经网络和价值神经网络。
CN202010247274.6A 2020-03-31 2020-03-31 一种基于优先级经验回放的深度强化学习机器人控制方法 Active CN111421538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010247274.6A CN111421538B (zh) 2020-03-31 2020-03-31 一种基于优先级经验回放的深度强化学习机器人控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010247274.6A CN111421538B (zh) 2020-03-31 2020-03-31 一种基于优先级经验回放的深度强化学习机器人控制方法

Publications (2)

Publication Number Publication Date
CN111421538A CN111421538A (zh) 2020-07-17
CN111421538B true CN111421538B (zh) 2022-05-20

Family

ID=71550231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010247274.6A Active CN111421538B (zh) 2020-03-31 2020-03-31 一种基于优先级经验回放的深度强化学习机器人控制方法

Country Status (1)

Country Link
CN (1) CN111421538B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112518742B (zh) * 2020-11-16 2022-01-25 清华大学深圳国际研究生院 基于动态模型与事后经验回放的多目标机器人控制方法
CN113386133A (zh) * 2021-06-10 2021-09-14 贵州恰到科技有限公司 一种强化学习机器人控制方法
CN113478486B (zh) * 2021-07-12 2022-05-17 上海微电机研究所(中国电子科技集团公司第二十一研究所) 基于深度强化学习的机器人运动参数自适应控制方法和系统
CN114779661B (zh) * 2022-04-22 2023-03-24 北京科技大学 基于多分类生成对抗模仿学习算法的化学合成机器人系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN109726811A (zh) * 2017-10-27 2019-05-07 谷歌有限责任公司 使用优先级队列训练神经网络
CN110666793A (zh) * 2019-09-11 2020-01-10 大连理工大学 基于深度强化学习实现机器人方形零件装配的方法
CN110883776A (zh) * 2019-11-29 2020-03-17 河南大学 一种快速搜索机制下改进dqn的机器人路径规划算法
CN110919659A (zh) * 2019-12-24 2020-03-27 哈尔滨工程大学 一种基于ddgpes的机器人控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN109726811A (zh) * 2017-10-27 2019-05-07 谷歌有限责任公司 使用优先级队列训练神经网络
CN110666793A (zh) * 2019-09-11 2020-01-10 大连理工大学 基于深度强化学习实现机器人方形零件装配的方法
CN110883776A (zh) * 2019-11-29 2020-03-17 河南大学 一种快速搜索机制下改进dqn的机器人路径规划算法
CN110919659A (zh) * 2019-12-24 2020-03-27 哈尔滨工程大学 一种基于ddgpes的机器人控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于排序优先经验回放的竞争深度Q网络学习》;周瑶瑶,李烨;《计算机应用研究》;20200229;第37卷(第2期);正文第486-488页 *

Also Published As

Publication number Publication date
CN111421538A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111421538B (zh) 一种基于优先级经验回放的深度强化学习机器人控制方法
Zhang et al. Deep interactive reinforcement learning for path following of autonomous underwater vehicle
CN111872934B (zh) 一种基于隐半马尔可夫模型的机械臂控制方法及系统
Barrett et al. Transfer learning for reinforcement learning on a physical robot
CN108284436B (zh) 具有模仿学习机制的远程机械双臂系统及方法
CN112476424A (zh) 机器人控制方法、装置、设备及计算机存储介质
CN110328668B (zh) 基于速度平滑确定性策略梯度的机械臂路径规划方法
JP2008238396A (ja) ロボットのモーションの発生及び制御のための装置ならびに方法
CN113076615B (zh) 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统
Huang et al. To imitate or not to imitate: Boosting reinforcement learning-based construction robotic control for long-horizon tasks using virtual demonstrations
CN115122325A (zh) 一种具有视场约束的拟人化机械手鲁棒视觉伺服控制方法
JP2022174734A (ja) 建設現場用のオフロード車両のための方策を学習するための装置および方法
Liu et al. Learning visual path–following skills for industrial robot using deep reinforcement learning
Khadivar et al. Adaptive fingers coordination for robust grasp and in-hand manipulation under disturbances and unknown dynamics
Mavsar et al. Simulation-aided handover prediction from video using recurrent image-to-motion networks
CN110858328B (zh) 用于模仿学习的数据采集方法、装置及存储介质
CN116038697A (zh) 一种基于人工示教的牛仔裤自动喷涂方法和系统
CN114800523B (zh) 机械臂轨迹修正方法、系统、计算机及可读存储介质
Furuta et al. Motion planning with success judgement model based on learning from demonstration
Lin et al. The arm planning with dynamic movement primitive for humanoid service robot
Amigoni et al. Good experimental methodologies and simulation in autonomous mobile robotics
CN116265202A (zh) 一种机器人的控制方法、装置及介质、一种机器人
Xu et al. Reinforcement learning with construction robots: A preliminary review of research areas, challenges and opportunities
Brageul et al. An intuitive interface for a cognitive programming by demonstration system
Malone et al. Efficient motion-based task learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant