CN111152227A - 一种基于引导式dqn控制的机械臂控制方法 - Google Patents

一种基于引导式dqn控制的机械臂控制方法 Download PDF

Info

Publication number
CN111152227A
CN111152227A CN202010060882.6A CN202010060882A CN111152227A CN 111152227 A CN111152227 A CN 111152227A CN 202010060882 A CN202010060882 A CN 202010060882A CN 111152227 A CN111152227 A CN 111152227A
Authority
CN
China
Prior art keywords
mechanical arm
control
dqn
environment
guided
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010060882.6A
Other languages
English (en)
Inventor
张坤之
张博
张龙
李言星
孙群
陈林林
王翀
张来刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaocheng Xintai Machine Tool Co ltd
Original Assignee
Liaocheng Xintai Machine Tool Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaocheng Xintai Machine Tool Co ltd filed Critical Liaocheng Xintai Machine Tool Co ltd
Priority to CN202010060882.6A priority Critical patent/CN111152227A/zh
Publication of CN111152227A publication Critical patent/CN111152227A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于引导式DQN控制的机械臂控制方法,包括以下步骤:对机械臂控制策略进行马尔科夫建模,1)建立感知环境模型、2)机械臂动作空间设计、3)建立状态模型、4)回报函数设计、5)数据增强方法、6)引导式DQN策略设计和7)机械臂控制程序结构的设计;本发明设计的基于引导式DQN控制的机械臂控制方法能实现深层次的探索,改进了原始DQN的随机采样策略导致的不稳定性,具有较好的性能,提高机械臂抓取物体的成功率。

Description

一种基于引导式DQN控制的机械臂控制方法
技术领域
本发明涉及机器人控制技术领域,具体涉及一种基于引导式DQN控制的机械臂控制方法。
背景技术
众所周知,智能机器人是当前和今后的研究热点。随着对机器人技术研究的不断加深,人们逐渐意识到,机器人技术的本质是感知、决策、行动和交互技术的结合。在研发智能机器人的过程中,人们已经掌握了一些关键性的技术,如多传感器信息处理技术,路径规划技术,导航与定位技术,智能控制以及人机接口技术等。
但是,随着人工智能技术的发展,传统智能机器人控制理论存在的不足之处逐渐显现,比如无法精确解析建模的物理对象、无法解决信息不足的病态过程等。实现制造业的自动化必定离不开机器人手臂。传统机器人手臂控制主要是基于单片机、传感器或嵌入式等。对传统机器人手臂进行改造,在传统机器人手臂的基础上加人传感器,使机械手臂其有外部感知功能,类似于人的某种外部功能,其灵活性得到有效提高,但是传感器获得的信息往往与环境误差很大。
近年来,深度强化学习迅速成为人工智能领域的重要前沿阵地,基于深度强化学习的算法己经在各个领域取得了突破性进展,尤其是在智能机器人控制领域。深度强化学习可以很好的与周围环境交互,并且不断从以前的经验进行学习,这就克服了机器人手臂不能很好学习的问题。深度学习把从原始输人数据中提取高层特征变成现实,虽然在感知为一面表现十分优秀,但是在决策为一面不尽人意。与此相反,强化学习在决策为一面表现出众,却在感知为一面并无突出能力。所以,将深度学习与强化学习结合起来,构成深度强化学习算法,二者优势互补,就可以给解决复杂系统的感知决策问题提供有效的方法。深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输人的图像进行控制,是一种更接近人类思维为方式的人工智能方法。
结合了卷积神经网络和传统强化学习中的Q学习算法的DQN算法是深度强化领域的开创性工作,它解决了传统智能机器人行为决策时无法感知环境的问题。因此如何在真实环境下利用DQN及其改进算法使机器人直接根据高维感知输入学习到最优策略非常重要。基于引导式DQN机械臂控制策略算法,采用自助抽样的方式,利用多个分流网络来随机化值函数,临时扩展对状态空间的探索范围,实现深层探索。通过这种分布式的深度探索方法,充分保证了智能体对不同策略的探索,产生多样化的样本,使环境的动态信息更好地泛化到位置的状态空间中。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种基于引导式DQN控制的机械臂控制方法。
本发明解决其技术问题所采用的技术方案是:一种基于引导式DQN控制的机械臂控制方法,包括以下步骤:
1)建立感知环境模型:通过相机实时获取机械臂所处环境的状态,从环境中获取所有用于决策的信息,决策选择的动作作为控制信号,作用于环境,同时系统感知环境模型能够实时监测环境的动态变化;
2)机械臂动作空间设计:选择利用反馈方式进行机械臂控制的方式,即指定机械臂的空间位置,然后反馈给机械臂系统,由机械臂系统自主计算每个关节点相对移动的角度;
3)建立状态模型:采用摄像机拍摄机械臂环境作为状态信息,机械臂系统对采集来的状态图像进行预处理,对于机械臂策略控制系统来说颜色信息属于冗余信息,在预处理的第一步将8位真彩图像转换成灰度图像,转换时给予不同的权重;
4)回报函数设计:回报函数,是策略控制的关键问题,必须要考虑最优的控制策略,具有环境通用性,考虑三个影响回报函数的因素:时间因素,距离因素以及环境鲁棒性,考虑时间因素是让机械臂尽可能快的抓取目标物,考虑距离因素是抓取目标物的任务所决定;
5)数据增强方法:采用自主采集机制和动作转置机制,先通过VR/AR设备采集小数据集,用该小规模数据集来初始化强化学习算法经验池,对强化学习算法进行预训练,然后使用预训练的模型对机械臂进行策略控制,同时记录控制过程,更新经验池,接着用更新后的经验池训练强化学习算法,以此循环往复;采用动作转置的机制,上一状态和下一状态相互调换,只需改变动作和损失函数;
6)引导式DQN策略设计:该算法在通过共享的网络结构处理之后,在线、并行地产生k个头结点,分别代表k个Q值函数的估计值Q1,Q2,...,Qk,并通过各自的TD误差产生的量化值函数不确定性估计的临时扩展,某个动作对应的值函数不确定性越高,探索该动作所带来的回报值也越高,这样能够适应多变的动态环境。
7)机械臂控制程序结构的设计:主要是建立有效的控制系统对程序的不同模块以及机器人层的所有子系统进行统筹协调,机械臂控制系统包括主程序与辅助程序两个部分。
具体的是,所述步骤2中机械臂动作空间设计采用将机械臂的动作空间进行离散化,不对机械臂进行连续控制,定义不同的运动步长的控制命令,使得机械臂能够以一定步长逼近目标物。
具体的是,所述步骤3中的采用摄像机拍摄机械臂环境为8位真彩色图像,其分辨率320x 240对于深度Q值网络比较高。
具体的是,所述步骤3中的真彩图像转换成灰度图像,灰度化处理后再将图像统一变成84x 84大小,将经过预处理后的84x 84的灰度图像作为马尔科夫过程中的状态S。
具体的是,所述步骤4中的环境鲁棒性,当机械臂所处环境发生较大的改变,所设计的回报函数依然适用。
具体的是,所述步骤7中的主程序包含深度强化学习算法模块、通信模块以及采样数据处理模块,辅助程序为主程序与机器人层之间的桥梁并在实验中独立于主程序运行。
本发明具有以下有益效果:
本发明设计的基于引导式DQN控制的机械臂控制方法能实现深层次的探索,改进了原始DQN的随机采样策略导致的不稳定性,具有较好的性能,提高机械臂抓取物体的成功率。
附图说明
图1是机械臂控制系统架构框图。
图2是机械臂控制平台通信方式框图。
图3是引导式DQN模型结构示意图。
图4是机械臂控制程序结构框图。
具体实施方式
以下将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地进一步详细的说明。以下对本发明实施例中的技术方案进行清楚、完整地进一步详细的说明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-4所示,一种基于引导式DQN控制的机械臂控制方法,包括以下步骤:1)建立感知环境模型、2)机械臂动作空间设计、3)建立状态模型、4)回报函数设计、5)数据增强方法、6)引导式DQN策略设计和7)机械臂控制程序结构的设计。
1)建立感知环境模型:通过相机实时获取机械臂所处环境的状态,整个实验场景模拟成深度强化学习的环境,从环境中获取所有用于决策的信息,决策选择的动作作为控制信号,作用于环境,同时系统感知环境模型能够实时监测环境的动态变化。
2)机械臂动作空间设计:选择利用反馈方式进行机械臂控制的方式,即指定机械臂的空间位置,然后反馈给机械臂系统,由机械臂系统自主计算每个关节点相对移动的角度;同时,将机械臂的动作空间进行离散化,不对机械臂进行连续控制,定义不同的运动步长的控制命令,使得机械臂能够以一定步长逼近目标物;
以机械臂的末端器为坐标原点,对于三维坐标系,每一维度有三种变化的可能(-1:负方向运动,0:静止,1:正方向运动),因此,动作空间有27种可选的动作。在状态t时刻和状态t+1时刻,机械臂坐标空间有如下对应关系:
Figure BDA0002374424440000041
(xt+1,yt+1,zt+1),(xt,yt,zt)分别表示状态t+1和t时刻机械臂末端器的空间坐标,coordinatestep表示离散后的空间步长,dx,dy,dz∈{-1,0,1}。
3)建立状态模型:采用摄像机拍摄机械臂环境作为状态信息,由于拍摄到的环境图像都是8位真彩色图像,其分辨率320x240对于深度Q值网络比较高,如果直接将分辨率为320x240的图像作为深度神经网络的输入进行训练学习,将会变得非常耗时,增加算法复杂度,造成网络训练难以收敛的问题,因此将对采集来的状态图像进行预处理,对于机械臂策略控制系统来说颜色信息属于冗余信息,在预处理的第一步将8位真彩图像转换成灰度图像,因为人眼对REB颜色的感知能力不同,转换时需要给予不同的权重,灰度化处理后再将图像统一变成84x84大小,将经过预处理后的84x84的灰度图像作为马尔科夫过程中的状态S。
4)回报函数设计:回报函数,是策略控制的关键问题,必须要考虑最优的控制策略,具有环境通用性,在设计回报函数的时候,需要考虑奖励函数的环境鲁棒性,当机械臂所处环境发生较大的改变,所设计的回报函数依然适用。因此,考虑三个影响回报函数的因素:时间因素,距离因素以及环境鲁棒性,考虑时间因素是让机械臂尽可能快的抓取目标物,考虑距离因素是抓取目标物的任务所决定。
5)数据增强方法:采用自主采集机制和动作转置机制。先通过VR/AR设备采集小数据集,用该小规模数据集来初始化强化学习算法经验池,对强化学习算法进行预训练,然后使用预训练的模型对机械臂进行策略控制,同时记录控制过程,更新经验池;接着用更新后的经验池训练强化学习算法,以此循环往复。由于人工采集数据动作空间分布不均匀,若不经过处理容易导致网络过拟合或者欠拟合,采用动作转置的机制,其核心思想利用的是上一状态和下一状态相互调换状态的特点,上一状态和下一状态相互调换,只需改变动作和损失函数,通过实验,发现未经过动作转置,则无论物体在哪个方位,算法的控制策略总是集中在动作分布密集的地方;经过动作转置,机械臂有效的定位物体的大概位置从而逼近目标物体。
6)引导式DQN策略设计:该算法在通过共享的网络结构处理之后,在线、并行地产生k个头结点,分别代表k个Q值函数的估计值Q1,Q2,...,Qk,并通过各自的TD误差产生的量化值函数不确定性估计的临时扩展,某个动作对应的值函数不确定性越高,探索该动作所带来的回报值也越高,通过这种分布式的深度探索方法,充分保证了智能体对不同策略的探索,产生多样化的样本,使环境的动态信息更好地泛化到位置的状态空间中。让每一种头节点拥有一个策略,这样能够适应多变的动态环境。
7)机械臂控制程序结构的设计:主要是建立有效的控制系统对程序的不同模块以及机器人层的所有子系统进行统筹协调,机械臂控制系统包括主程序与辅助程序两个部分,其中的主程序包含深度强化学习算法模块、通信模块以及采样数据处理模块,辅助程序为主程序与机器人层之间的桥梁并在实验中独立于主程序运行。
图1为基于深度强化学习的机械臂控制系统框图。机械臂想要基于深度强化学习完成抓取目标任务,首先通过相机获取环境图像信息,经过视觉处理后,作为深度学习的样本信息。经过深度强化学习神经网络训练后,发出动作指令信息给机械臂控制器,完成对机械臂抓取任务。
图2机械臂控制平台通信方式框图。在深度强化学习算法对机械臂进行控制时,上位机发出的控制指令首先通过以太网传输到机械臂控制箱,随后控制箱通过内部电机控制算法使机械臂各个关节运动到对应角度,同时机械臂的关节信息又会以150Hz的频率发布到机械臂控制箱并通过以太网被上位机接收。此外在每次启动机械臂时,都需要通过控制面板对机械臂负载进行初始化,除必要的初始化操作外,还需要通过控制面板进行一些辅助工作,如机械臂的急停与复位以及对机械臂进行简单的移动等。最后在对卷积神经网络策略进行训练与测试时,还需要通过相机获取每一时刻的图像信息,使用Intel公司生产的RealSense相机并直接通过USB接口与上位机进行通信。
引导式DQN算法利用多个分流网络来随机化值函数,临时扩展对状态空间的探索范围。图3简单描述了引导式DQN模型的结构。在网络末端添加了k个头节点的结构,每一个头节点是对环境中每一个动作进行Q值预测。通过采样来选取部分数据以供头节点单独进行训练,每个头结点的训练采用共享的深度卷积网络进行训练。此外,设置标志值来记录这些头结点所对应的训练数据。
引导式DQN通过自助抽样的采用算法近似Q值的分布。随机初始化的自助估计在低的计算成本下为神经网络产生合理的不确定性估计,让所训练的策略在每一步能够对环境有足够的探索,增强算法对环境的鲁棒性,引导式DQN能够利用这些不确定性估计进行高效的探索。
在对引导式DQN深度学习进行测试时,建立有效的控制系统对程序的不同模块以及机器人层的所有子系统进行统筹协调。图4为机械臂控制程序结构框图。在主程序中,深度强化学习算法模块是主程序的核心部分,其包括了引导式DQN深度学习算法的全部流程以及卷积神经网络的全部训练设置;通信模块的主要作用为与辅助程序进行通信,其在对机械臂复位、使用机械臂采样以及对控制器和卷积神经网络策略进行测试时将深度强化学习算法在每一时刻的关节控制量发送给辅助程序,同时获取下一控制时刻机械臂的状态数据以及相机图像数据;在获得以上数据后,采样数据处理模块首先将所有数据进行处理和分类,随后将重要类型的数据进行储存,最后将所有采样数据以标准格式进行封装以保证算法在执行过程中数据格式的统一性。此外在主程序每次运行时还会生成一个日志文件对算法中重要参数的设置方法进行记录。
在机械臂控制系统中,辅助程序为主程序与机器人层之间的桥梁并在实验中独立于主程序运行。首先,在接收到主程序发送的关节控制量后,辅助程序通过在关节空间进行余弦插值使机械臂平稳运动对应关节位置;其次,由于在标准的ROS消息格式下相机发布的RGB图像数据并不能直接用于卷积神经网络的训练,因此,在辅助程序中对相机的原始数据进行了格式转化;最后,由于深度强化学习算法所需的机械臂状态信息并不能完全通过实际机械臂获得,因此在辅助程序中还需要通过机械臂的实际关节信息对其他状态信息进行解算。通过建立以上机械臂控制系统结构,程序不同模块以及机器人层各子系统便能够很好地进行统筹协调,同时实验中也能够比较方便地对深度强化学习算法进行测试并对实验数据进行有效记录。
本发明不局限于上述实施方式,任何人应得知在本发明的启示下作出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。
本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims (6)

1.一种基于引导式DQN控制的机械臂控制方法,其特征在于,包括以下步骤:
1)建立感知环境模型:通过相机实时获取机械臂所处环境的状态,从环境中获取所有用于决策的信息,决策选择的动作作为控制信号,作用于环境,同时系统感知环境模型能够实时监测环境的动态变化;
2)机械臂动作空间设计:选择利用反馈方式进行机械臂控制的方式,即指定机械臂的空间位置,然后反馈给机械臂系统,由机械臂系统自主计算每个关节点相对移动的角度;
3)建立状态模型:采用摄像机拍摄机械臂环境作为状态信息,机械臂系统对采集来的状态图像进行预处理,对于机械臂策略控制系统来说颜色信息属于冗余信息,在预处理的第一步将8位真彩图像转换成灰度图像,转换时给予不同的权重;
4)回报函数设计:回报函数,是策略控制的关键问题,必须要考虑最优的控制策略,具有环境通用性,考虑三个影响回报函数的因素:时间因素,距离因素以及环境鲁棒性,考虑时间因素是让机械臂尽可能快的抓取目标物,考虑距离因素是抓取目标物的任务所决定;
5)数据增强方法:采用自主采集机制和动作转置机制,先通过VR/AR设备采集小数据集,用该小规模数据集来初始化强化学习算法经验池,对强化学习算法进行预训练,然后使用预训练的模型对机械臂进行策略控制,同时记录控制过程,更新经验池,接着用更新后的经验池训练强化学习算法,以此循环往复;采用动作转置的机制,上一状态和下一状态相互调换,只需改变动作和损失函数;
6)引导式DQN策略设计:该算法在通过共享的网络结构处理之后,在线、并行地产生k个头结点,分别代表k个Q值函数的估计值Q1,Q2,...,Qk,并通过各自的TD误差产生的量化值函数不确定性估计的临时扩展,某个动作对应的值函数不确定性越高,探索该动作所带来的回报值也越高,这样能够适应多变的动态环境。
7)机械臂控制程序结构的设计:主要是建立有效的控制系统对程序的不同模块以及机器人层的所有子系统进行统筹协调,机械臂控制系统包括主程序与辅助程序两个部分。
2.根据权利要求1所述的基于引导式DQN控制的机械臂控制方法,其特征在于,所述步骤2中机械臂动作空间设计采用将机械臂的动作空间进行离散化,不对机械臂进行连续控制,定义不同的运动步长的控制命令,使得机械臂能够以一定步长逼近目标物。
3.根据权利要求1所述的基于引导式DQN控制的机械臂控制方法,其特征在于,所述步骤3中的采用摄像机拍摄机械臂环境为8位真彩色图像,其分辨率320 x 240对于深度Q值网络比较高。
4.根据权利要求1所述的基于引导式DQN控制的机械臂控制方法,其特征在于,所述步骤3中的真彩图像转换成灰度图像,灰度化处理后再将图像统一变成84 x 84大小,将经过预处理后的84 x 84的灰度图像作为马尔科夫过程中的状态S。
5.根据权利要求1所述的基于引导式DQN控制的机械臂控制方法,其特征在于,所述步骤4中的环境鲁棒性,当机械臂所处环境发生较大的改变,所设计的回报函数依然适用。
6.根据权利要求1所述的基于引导式DQN控制的机械臂控制方法,其特征在于,所述步骤7中的主程序包含深度强化学习算法模块、通信模块以及采样数据处理模块,辅助程序为主程序与机器人层之间的桥梁并在实验中独立于主程序运行。
CN202010060882.6A 2020-01-19 2020-01-19 一种基于引导式dqn控制的机械臂控制方法 Pending CN111152227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010060882.6A CN111152227A (zh) 2020-01-19 2020-01-19 一种基于引导式dqn控制的机械臂控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010060882.6A CN111152227A (zh) 2020-01-19 2020-01-19 一种基于引导式dqn控制的机械臂控制方法

Publications (1)

Publication Number Publication Date
CN111152227A true CN111152227A (zh) 2020-05-15

Family

ID=70564327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010060882.6A Pending CN111152227A (zh) 2020-01-19 2020-01-19 一种基于引导式dqn控制的机械臂控制方法

Country Status (1)

Country Link
CN (1) CN111152227A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112882463A (zh) * 2021-01-11 2021-06-01 成都海瑞斯轨道交通设备有限公司 一种用于铁路货车车体检修的切割机器人系统
CN112925307A (zh) * 2021-01-20 2021-06-08 中国科学院重庆绿色智能技术研究院 一种用于智能仓储机器人系统的分布式多机器人路径规划方法
CN113386133A (zh) * 2021-06-10 2021-09-14 贵州恰到科技有限公司 一种强化学习机器人控制方法
CN113524196A (zh) * 2021-08-10 2021-10-22 南京深一科技有限公司 一种基于平面视觉深度强化学习的机械臂抓取控制方法
CN118144805A (zh) * 2024-05-09 2024-06-07 广汽埃安新能源汽车股份有限公司 一种自适应交通决策引擎的训练方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112882463A (zh) * 2021-01-11 2021-06-01 成都海瑞斯轨道交通设备有限公司 一种用于铁路货车车体检修的切割机器人系统
CN112925307A (zh) * 2021-01-20 2021-06-08 中国科学院重庆绿色智能技术研究院 一种用于智能仓储机器人系统的分布式多机器人路径规划方法
CN113386133A (zh) * 2021-06-10 2021-09-14 贵州恰到科技有限公司 一种强化学习机器人控制方法
CN113524196A (zh) * 2021-08-10 2021-10-22 南京深一科技有限公司 一种基于平面视觉深度强化学习的机械臂抓取控制方法
CN118144805A (zh) * 2024-05-09 2024-06-07 广汽埃安新能源汽车股份有限公司 一种自适应交通决策引擎的训练方法及装置
CN118144805B (zh) * 2024-05-09 2024-07-19 广汽埃安新能源汽车股份有限公司 一种自适应交通决策引擎的训练方法及装置

Similar Documents

Publication Publication Date Title
CN111152227A (zh) 一种基于引导式dqn控制的机械臂控制方法
CN109960880B (zh) 一种基于机器学习的工业机器人避障路径规划方法
CN111203878B (zh) 一种基于视觉模仿的机器人序列任务学习方法
Liu et al. A digital twin-based sim-to-real transfer for deep reinforcement learning-enabled industrial robot grasping
CN109240091B (zh) 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法
Paxton et al. Prospection: Interpretable plans from language by predicting the future
CN109397285B (zh) 一种装配方法、装配装置及装配设备
CN113826051A (zh) 生成实体系统零件之间的交互的数字孪生
CN112207835B (zh) 一种基于示教学习实现双臂协同作业任务的方法
CN111251277B (zh) 一种基于示教学习的人机协作工具递交系统及方法
Sutanto et al. Learning latent space dynamics for tactile servoing
Zhang et al. Sim2real learning of obstacle avoidance for robotic manipulators in uncertain environments
CN113752255B (zh) 一种基于深度强化学习的机械臂六自由度实时抓取方法
Raessa et al. Teaching a robot to use electric tools with regrasp planning
Huang et al. Grasping novel objects with a dexterous robotic hand through neuroevolution
CN114851201A (zh) 一种基于tsdf三维重建的机械臂六自由度视觉闭环抓取方法
CN115781685A (zh) 一种基于强化学习的高精度机械臂控制方法及系统
Inoue et al. Transfer learning from synthetic to real images using variational autoencoders for robotic applications
CN111452039B (zh) 动态系统下机器人姿态调整方法、装置、电子设备及介质
Aggarwal et al. DLVS: time series architecture for image-based visual servoing
CN113927593B (zh) 基于任务分解的机械臂操作技能学习方法
CN116852347A (zh) 一种面向非合作目标自主抓取的状态估计与决策控制方法
Zhu et al. Autonomous reinforcement control of underwater vehicles based on monocular depth vision
Al-Junaid ANN based robotic arm visual servoing nonlinear system
US11921492B2 (en) Transfer between tasks in different domains

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination