CN114789443B - 一种基于多源信息深度强化学习的机械臂控制方法及系统 - Google Patents
一种基于多源信息深度强化学习的机械臂控制方法及系统 Download PDFInfo
- Publication number
- CN114789443B CN114789443B CN202210468964.3A CN202210468964A CN114789443B CN 114789443 B CN114789443 B CN 114789443B CN 202210468964 A CN202210468964 A CN 202210468964A CN 114789443 B CN114789443 B CN 114789443B
- Authority
- CN
- China
- Prior art keywords
- mechanical arm
- control strategy
- force control
- image data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000011217 control strategy Methods 0.000 claims abstract description 86
- 239000011159 matrix material Substances 0.000 claims description 40
- 239000000203 mixture Substances 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 239000012636 effector Substances 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 abstract description 3
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
Abstract
本发明涉及机械臂控制技术领域公开了一种基于多源信息深度强化学习的机械臂控制方法及系统,包括以下步骤:S1.采集机械臂的图像数据及机械臂的本体数据;S2.采用示教学习初始化力控策略的参数;S3.解析图像数据及机械臂本体信息数据,得到图像的联合特征,并通过强化学习模型获得实时力控策略;S4.通过初始化的力控策略的参数更新实时力控策略,并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作,采集工作中的图像数据和机械臂本体信息数据;S5.更新图像数据、机械臂本体信息数据,回到步骤S3,不断优化机械臂力控策略。本发明解决了现有机械臂控制技术获取外界信息的途径很有限的问题,且具有采用多源信息输入,方便训练的特点。
Description
技术领域
本发明涉及机械臂控制技术领域,更具体的,涉及一种基于多源信息深度强化学习的机械臂控制方法及系统。
背景技术
现有的机械臂控制方法有基于模型(model-based)和基于数据驱动(data drive)两种。传统的机械臂大多采用基于模型来控制,其理论成熟,控制效果可靠。但是随着深度学习研究的加速和大数据的来临,基于数据驱动的机械臂控制也愈发成为控制领域的热点,特别是吸收了控制理论,人工智能等领域的成果之后,基于数据驱动的控制相比传统的机械臂控制具有简单,容易实现,泛化能力强的特点,其应用前景广阔,是机器人领域中的重要发展方向。
目前类似的基于多源信息深度强化学习的机械臂控制方案都会引入多模态作为输入,训练完成后输出各个行为的概率,再去实现机械臂的控制运动。
针对这一问题,现有技术有一种基于多模态感知与学习的机器人自主装配方法,代替传统的基于编程的方法,提高机器人装配策略的鲁棒性和稳定性。但是该技术方案没有引入有关机械臂控制方法;该技术方案获取所述机械臂的运动策略是直接由深度强化学习算法中得来,而且训练时间长。
然而现有机械臂控制技术存在获取外界信息的途径很有限的问题,因此如何发明一种采用多源信息输入的机械臂控制方法,是本技术领域亟需解决的问题。
发明内容
本发明为了解决现有机械臂控制技术获取外界信息的途径很有限的问题,提供了一种基于多源信息深度强化学习的机械臂控制方法及系统控制方法,其具有采用多源信息输入,方便训练的特点。
一种基于多源信息深度强化学习的机械臂控制方法,包括以下步骤:
S1.采集机械臂的图像数据及机械臂的本体数据;
S2.采用示教学习初始化力控策略的参数;
S3.解析图像数据及机械臂本体信息数据,得到图像的联合特征,并通过强化学习模型获得实时力控策略;
S4.通过初始化的力控策略的参数更新实时力控策略,并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作,采集工作中的图像数据和机械臂本体信息数据;
S5.更新图像数据、机械臂本体信息数据,回到步骤S3,不断优化机械臂力控策略。
优选的,所述的图像数据包括深度相机采集到的深度图像数据和RGB相机采集到的RGB图像数据。
进一步的,所述的本体数据包括机械臂各个关节的力/力矩传感器的感知数据、机械臂末端执行器的状态参数;所述的状态参数包括末端坐标、关节角度和角速度。
更进一步的,所述的示教学习的数据包括机械臂的位姿信息、关节角度信息、角速度信息。
更进一步的,所述的力控策略的参数包括机械臂位姿和线性二次调节器中的系数矩阵。
更进一步的,步骤S2,具体为:
S201.通过拖曳机械臂进行示教学习的数据采集;
S202.通过高斯混合模型对获得的示教学习的数据进行建模,并计算出模型的协方差与均值,得到模型的协方差矩阵;
S203.通过高斯混合模型的协方差矩阵初始化二次型调节器的系数矩阵;
S204.通过高斯混合模型的均值初始化机械臂位姿。
更进一步的,步骤S203,具体为:通过高斯混合模型的协方差矩阵初始化二次型调节器的R矩阵和Q矩阵。
更进一步的,步骤S3,具体为:
S301.将机械臂的图像数据及本体数据输入卷积神经网络得到若干个模态特征表示;
S302.各个模态数据分别通过其对应的神经网络层后统一通过隐藏层,将通过隐藏层后得到的模态映射到联合空间,得到统一联合特征;
S303.将统一联合联合特征通过隐藏层得到初始预测;
S304.将初始预测输入强化学习模型中得到机械臂的力控策略。
更进一步的,通过初始化的力控策略的参数更新实时力控策略,具体为:通过初始化的力控策略的二次型调节器的系数矩阵和机械臂位姿更新实时力控策略的二次型调节器和机械臂位姿。
一种基于多源信息深度强化学习的机械臂控制系统,包括用于采集机械臂的图像数据及机械臂的本体数据的感知模块、用于采用示教学习初始化力控策略的参数的初始化模块、用于解析图像数据及机械臂本体信息数据,得到图像的联合特征,并通过强化学习模型获得实时力控策略的学习模块、用于通过初始化的力控策略的参数更新实时力控策略,并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作,采集工作中的图像数据和机械臂本体信息数据的控制模块。
为实现上述本发明目的,采用的技术方案如下:
本发明通过采集机械臂的图像数据及机械臂的本体数据,充分考虑了外部复杂环境多种信息输入,并采用采用示教学习初始化力控策略的参数,最后对机械臂进行强化学习获得力控策略进行反复优化,从而有效优化机械臂作业能力解决现有机械臂控制技术获取外界信息的途径很有限的问题,其具有采用多源信息输入,方便训练的特点。
附图说明
图1是本基于多源信息深度强化学习的机械臂控制系统的结构及流程示意图。
图2是采用示教学习初始化力控策略的参数的流程图。
图3是通过强化学习模型获得实时力控策略的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
一种基于多源信息深度强化学习的机械臂控制方法,包括以下步骤:
S1.采集机械臂的图像数据及机械臂的本体数据;
S2.采用示教学习初始化力控策略的参数;
S3.解析图像数据及机械臂本体信息数据,得到图像的联合特征,并通过强化学习模型获得实时力控策略;
S4.通过初始化的力控策略的参数更新实时力控策略,并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作,采集工作中的图像数据和机械臂本体信息数据;
S5.更新图像数据、机械臂本体信息数据,回到步骤S3,不断优化机械臂力控策略。
实施例2
一种基于多源信息深度强化学习的机械臂控制方法,包括以下步骤:
S1.采集机械臂的图像数据及机械臂的本体数据;
S2.采用示教学习初始化力控策略的参数;
S3.解析图像数据及机械臂本体信息数据,得到图像的联合特征,并通过强化学习模型获得实时力控策略;
S4.通过初始化的力控策略的参数更新实时力控策略,并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作,采集工作中的图像数据和机械臂本体信息数据;
S5.更新图像数据、机械臂本体信息数据,回到步骤S3,不断优化机械臂力控策略。
在一个具体实施例中,所述的图像数据包括深度相机采集到的深度图像数据和RGB相机采集到的RGB图像数据。
在一个具体实施例中,所述的本体数据包括机械臂各个关节的力/力矩传感器的感知数据、机械臂末端执行器的状态参数。
在一个具体实施例中,所述的示教学习的数据包括机械臂的位姿信息、关节角度信息、角速度信息。
在一个具体实施例中,所述的力控策略的参数包括机械臂位姿和线性二次调节器中的系数矩阵。
如图2所示,在一个具体实施例中,步骤S2,具体为:
S201.通过拖曳机械臂进行示教学习的数据采集;
S202.通过高斯混合模型对获得的示教学习的数据进行建模,并计算出模型的协方差与均值,得到模型的协方差矩阵;
S203.通过高斯混合模型的协方差矩阵初始化二次型调节器的系数矩阵;
S204.通过高斯混合模型的均值初始化机械臂位姿。
本实施例中,初始化二次型调节器的系数矩阵和机械臂位姿后,还利用深度强化学习对所述的机械臂位姿和机械臂位姿跟踪代价误差Q矩阵进行优化。
在一个具体实施例中,步骤S203,具体为:通过高斯混合模型的协方差矩阵初始化二次型调节器的R矩阵和Q矩阵。
实施例3
一种基于多源信息深度强化学习的机械臂控制方法,包括以下步骤:
S1.采集机械臂的图像数据及机械臂的本体数据;
S2.采用示教学习初始化力控策略的参数;
S3.解析图像数据及机械臂本体信息数据,得到图像的联合特征,并通过强化学习模型获得实时力控策略;
S4.通过初始化的力控策略的参数更新实时力控策略,并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作,采集工作中的图像数据和机械臂本体信息数据;
S5.更新图像数据、机械臂本体信息数据,回到步骤S3,不断优化机械臂力控策略。
在一个具体实施例中,所述的图像数据包括深度相机采集到的深度图像数据和RGB相机采集到的RGB图像数据。
在一个具体实施例中,所述的本体数据包括机械臂各个关节的力/力矩传感器的感知数据、机械臂末端执行器的状态参数;所述的状态参数包括末端坐标、关节角度和角速度。
在一个具体实施例中,所述的示教学习的数据包括机械臂的位姿信息、关节角度信息、角速度信息。
在一个具体实施例中,所述的力控策略的参数包括机械臂位姿和线性二次调节器中的系数矩阵。
如图2所示,在一个具体实施例中,步骤S2,具体为:
S201.通过拖曳机械臂进行示教学习的数据采集;
S202.通过高斯混合模型对获得的示教学习的数据进行建模,并计算出模型的协方差与均值,得到模型的协方差矩阵;
S203.通过高斯混合模型的协方差矩阵初始化二次型调节器的系数矩阵;
S204.通过高斯混合模型的均值初始化机械臂位姿。
在一个具体实施例中,步骤S203,具体为:通过高斯混合模型的协方差矩阵初始化二次型调节器的R矩阵和Q矩阵。
如图3所示,在一个具体实施例中,步骤S3,具体为:
S301.将机械臂的图像数据及本体数据输入卷积神经网络得到若干个模态特征表示;
S302.各个模态数据分别通过其对应的神经网络层后统一通过隐藏层,将通过隐藏层后得到的模态映射到联合空间,得到统一联合特征;
S303.将统一联合联合特征通过隐藏层得到初始预测;
S304.将初始预测输入强化学习模型中进行深度强化学习得到机械臂的力控策略。
本实施例中,所述的强化学习模型为PPO。
实施例4
一种基于多源信息深度强化学习的机械臂控制方法,包括以下步骤:
S1.采集机械臂的图像数据及机械臂的本体数据;
S2.采用示教学习初始化力控策略的参数;
S3.解析图像数据及机械臂本体信息数据,得到图像的联合特征,并通过强化学习模型获得实时力控策略;
S4.通过初始化的力控策略的参数更新实时力控策略,并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作,采集工作中的图像数据和机械臂本体信息数据;
S5.更新图像数据、机械臂本体信息数据,回到步骤S3,不断优化机械臂力控策略。
在一个具体实施例中,所述的图像数据包括深度相机采集到的深度图像数据和RGB相机采集到的RGB图像数据。
在一个具体实施例中,所述的本体数据包括机械臂各个关节的力/力矩传感器的感知数据、机械臂末端执行器的状态参数;所述的状态参数包括末端坐标、关节角度和角速度。
在一个具体实施例中,所述的示教学习的数据包括机械臂的位姿信息、关节角度信息、角速度信息。
在一个具体实施例中,所述的力控策略的参数包括机械臂位姿和线性二次调节器中的系数矩阵。
如图2所示,在一个具体实施例中,步骤S2,具体为:
S201.通过拖曳机械臂进行示教学习的数据采集;
S202.通过高斯混合模型对获得的示教学习的数据进行建模,并计算出模型的协方差与均值,得到模型的协方差矩阵;
S203.通过高斯混合模型的协方差矩阵初始化二次型调节器的系数矩阵;
S204.通过高斯混合模型的均值初始化机械臂位姿。
在一个具体实施例中,步骤S203,具体为:通过高斯混合模型的协方差矩阵初始化二次型调节器的R矩阵和Q矩阵。
如图3所示,在一个具体实施例中,步骤S3,具体为:
S301.将机械臂的图像数据及本体数据输入卷积神经网络得到若干个模态特征表示;
S302.各个模态数据分别通过其对应的神经网络层后统一通过隐藏层,将通过隐藏层后得到的模态映射到联合空间,得到统一联合特征;
S303.将统一联合联合特征通过隐藏层得到初始预测;
S304.将初始预测输入强化学习模型中进行深度强化学习得到机械臂的力控策略。
本实施例中,所述的强化学习模型为PPO。
在一个具体实施例中,通过初始化的力控策略的参数更新实时力控策略,具体为:通过初始化的力控策略的二次型调节器的系数矩阵和机械臂位姿更新实时力控策略的二次型调节器和机械臂位姿。
本发明通过采集机械臂的图像数据及机械臂的本体数据,充分考虑了外部复杂环境多种信息输入,并采用采用示教学习初始化力控策略的参数,最后对机械臂进行强化学习获得力控策略进行反复优化,从而有效优化机械臂作业能力解决现有机械臂控制技术获取外界信息的途径很有限的问题,其具有采用多源信息输入,方便训练的特点。
实施例5
如图1所示,一种基于多源信息深度强化学习的机械臂控制系统,包括用于采集机械臂的图像数据及机械臂的本体数据的感知模块、用于采用示教学习通过高斯混合模型初始化力控策略参数的初始化模块、用于解析图像数据及机械臂本体信息数据,通过多模态表示学习得到图像的联合特征,并通过强化学习模型进行深度强化学习获得实时力控策略的学习模块、用于通过初始化的力控策略的参数更新实时力控策略,并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作,采集工作中的图像数据和机械臂本体信息数据的控制模块。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (9)
1.一种基于多源信息深度强化学习的机械臂控制方法,其特征在于:包括以下步骤:
S1.采集机械臂的图像数据及机械臂的本体数据;
S2.采用示教学习初始化力控策略的参数;
S3.解析图像数据及机械臂本体数据,得到图像的联合特征,并通过强化学习模型获得实时力控策略;S3具体为:
S301.将机械臂的图像数据及本体数据输入卷积神经网络得到若干个模态特征表示;
S302.各个模态特征表示分别通过其对应的神经网络层后统一通过隐藏层,将通过隐藏层后得到的模态映射到联合空间,得到统一联合特征;
S303.将统一联合特征通过隐藏层得到初始预测;
S304.将初始预测输入强化学习模型中得到机械臂的力控策略;
S4.通过初始化的力控策略的参数更新实时力控策略,并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作,采集工作中的图像数据和机械臂本体数据;
S5.更新图像数据、机械臂本体数据,回到步骤S3,不断优化机械臂力控策略。
2.根据权利要求1所述的基于多源信息深度强化学习的机械臂控制方法,其特征在于:所述的图像数据包括深度相机采集到的深度图像数据和RGB相机采集到的RGB图像数据。
3.根据权利要求1所述的基于多源信息深度强化学习的机械臂控制方法,其特征在于:所述的本体数据包括机械臂各个关节的力/力矩传感器的感知数据、机械臂末端执行器的状态参数;所述的状态参数包括末端坐标、关节角度和角速度。
4.根据权利要求1所述的基于多源信息深度强化学习的机械臂控制方法,其特征在于:所述的力控策略的参数包括机械臂位姿和二次型调节器中的系数矩阵。
5.根据权利要求4所述的基于多源信息深度强化学习的机械臂控制方法,其特征在于:步骤S2,具体为:
S201.通过拖曳机械臂进行示教学习的数据采集;
S202.通过高斯混合模型对获得的示教学习的数据进行建模,并计算出模型的协方差与均值,得到模型的协方差矩阵;
S203.通过高斯混合模型的协方差矩阵初始化二次型调节器的系数矩阵;
S204.通过高斯混合模型的均值初始化机械臂位姿。
6.根据权利要求5所述的基于多源信息深度强化学习的机械臂控制方法,其特征在于:所述的示教学习的数据包括机械臂的位姿信息、关节角度信息、角速度信息。
7.根据权利要求5所述的基于多源信息深度强化学习的机械臂控制方法,其特征在于:步骤S203,具体为:通过高斯混合模型的协方差矩阵初始化二次型调节器的R矩阵和Q矩阵。
8.根据权利要求7所述的基于多源信息深度强化学习的机械臂控制方法,其特征在于:通过初始化的力控策略的参数更新实时力控策略,具体为:通过初始化的力控策略的二次型调节器的系数矩阵和机械臂位姿更新实时力控策略的二次型调节器和机械臂位姿。
9.一种基于多源信息深度强化学习的机械臂控制系统,其特征在于:包括用于采集机械臂的图像数据及机械臂的本体数据的感知模块、用于采用示教学习初始化力控策略的参数的初始化模块、用于解析图像数据及机械臂本体数据,得到图像的联合特征,并通过强化学习模型获得实时力控策略的学习模块、用于通过初始化的力控策略的参数更新实时力控策略,并通过更新后的实时力控策略下达运动控制指令给机械臂进行工作,采集工作中的图像数据和机械臂本体数据的控制模块;
所述的学习模块具体用于:
将机械臂的图像数据及本体数据输入卷积神经网络得到若干个模态特征表示;
将各个模态特征表示分别通过其对应的神经网络层后统一通过隐藏层,将通过隐藏层后得到的模态映射到联合空间,得到统一联合特征;
将统一联合特征通过隐藏层得到初始预测;
将初始预测输入强化学习模型中得到机械臂的力控策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210468964.3A CN114789443B (zh) | 2022-04-29 | 2022-04-29 | 一种基于多源信息深度强化学习的机械臂控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210468964.3A CN114789443B (zh) | 2022-04-29 | 2022-04-29 | 一种基于多源信息深度强化学习的机械臂控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114789443A CN114789443A (zh) | 2022-07-26 |
CN114789443B true CN114789443B (zh) | 2024-02-23 |
Family
ID=82462678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210468964.3A Active CN114789443B (zh) | 2022-04-29 | 2022-04-29 | 一种基于多源信息深度强化学习的机械臂控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114789443B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109702744A (zh) * | 2019-01-15 | 2019-05-03 | 北京工业大学 | 一种基于动态系统模型的机器人模仿学习的方法 |
CN111881772A (zh) * | 2020-07-06 | 2020-11-03 | 上海交通大学 | 基于深度强化学习的多机械臂协同装配方法和系统 |
CN112428278A (zh) * | 2020-10-26 | 2021-03-02 | 北京理工大学 | 机械臂的控制方法、装置及人机协同模型的训练方法 |
CN112698572A (zh) * | 2020-12-22 | 2021-04-23 | 西安交通大学 | 一种基于强化学习的结构振动控制方法、介质及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11389957B2 (en) * | 2019-09-30 | 2022-07-19 | Mitsubishi Electric Research Laboratories, Inc. | System and design of derivative-free model learning for robotic systems |
-
2022
- 2022-04-29 CN CN202210468964.3A patent/CN114789443B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109702744A (zh) * | 2019-01-15 | 2019-05-03 | 北京工业大学 | 一种基于动态系统模型的机器人模仿学习的方法 |
CN111881772A (zh) * | 2020-07-06 | 2020-11-03 | 上海交通大学 | 基于深度强化学习的多机械臂协同装配方法和系统 |
CN112428278A (zh) * | 2020-10-26 | 2021-03-02 | 北京理工大学 | 机械臂的控制方法、装置及人机协同模型的训练方法 |
CN112698572A (zh) * | 2020-12-22 | 2021-04-23 | 西安交通大学 | 一种基于强化学习的结构振动控制方法、介质及设备 |
Non-Patent Citations (1)
Title |
---|
基于多源信息融合的协作机器人演示编程及优化方法;王斐;齐欢;周星群;王建辉;;机器人(第04期);551-559 * |
Also Published As
Publication number | Publication date |
---|---|
CN114789443A (zh) | 2022-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112102405B (zh) | 基于深度强化学习的机器人搅动-抓取组合方法 | |
Ali et al. | Path planning of mobile robot with improved ant colony algorithm and MDP to produce smooth trajectory in grid-based environment | |
Wang et al. | A hybrid visual servo controller for robust grasping by wheeled mobile robots | |
CN109960880B (zh) | 一种基于机器学习的工业机器人避障路径规划方法 | |
WO2017215044A1 (zh) | 一种移动机器人的自动规划路径方法及移动机器人 | |
CN107479547B (zh) | 基于示教学习的决策树行为决策算法 | |
CN111695562A (zh) | 一种基于卷积神经网络的机器人自主抓取方法 | |
CN110083160A (zh) | 一种基于深度学习的机器人轨迹规划方法 | |
CN116848532A (zh) | 具有短期记忆单元的注意力神经网络 | |
Ma et al. | Learning to navigate in indoor environments: From memorizing to reasoning | |
CN115256401A (zh) | 一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法 | |
CN114789443B (zh) | 一种基于多源信息深度强化学习的机械臂控制方法及系统 | |
CN113352320B (zh) | 一种基于Q学习的Baxter机械臂智能优化控制方法 | |
Deng et al. | Robotic manipulation planning using dynamic RRT | |
CN112857373B (zh) | 一种最小化无用动作的节能性无人车路径导航方法 | |
CN114474004A (zh) | 一种多因素耦合车载建筑机器人误差补偿规划控制策略 | |
CN114967472A (zh) | 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法 | |
Liu et al. | Intelligent robot motion trajectory planning based on machine vision | |
Guan et al. | Intelligent obstacle avoidance algorithm for mobile robots in uncertain environment | |
CN117606490B (zh) | 一种水下自主航行器协同搜索路径规划方法 | |
CN117140527B (zh) | 一种基于深度强化学习算法的机械臂控制方法及系统 | |
US11610153B1 (en) | Generating reinforcement learning data that is compatible with reinforcement learning for a robotic task | |
Huang et al. | Accelerating Training of Reinforcement Learning-Based Construction Robots in Simulation Using Demonstrations Collected in Virtual Reality | |
Ibrahim et al. | Evolving decision-making functions in an autonomous robotic exploration strategy using grammatical evolution | |
US11992944B2 (en) | Data-efficient hierarchical reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |