CN115524997B - 基于强化与模仿学习的机器人动态操作布料方法及系统 - Google Patents
基于强化与模仿学习的机器人动态操作布料方法及系统 Download PDFInfo
- Publication number
- CN115524997B CN115524997B CN202211191648.2A CN202211191648A CN115524997B CN 115524997 B CN115524997 B CN 115524997B CN 202211191648 A CN202211191648 A CN 202211191648A CN 115524997 B CN115524997 B CN 115524997B
- Authority
- CN
- China
- Prior art keywords
- robot
- track
- learning
- cloth
- reinforcement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000004744 fabric Substances 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000002787 reinforcement Effects 0.000 title claims abstract description 35
- 238000004088 simulation Methods 0.000 claims abstract description 52
- 238000009826 distribution Methods 0.000 claims abstract description 17
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 15
- 238000013486 operation strategy Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 6
- 239000000463 material Substances 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000037303 wrinkles Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009958 sewing Methods 0.000 description 1
- 239000007779 soft material Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B17/00—Systems involving the use of models or simulators of said systems
- G05B17/02—Systems involving the use of models or simulators of said systems electric
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
Abstract
本发明属于机器人技术领域,提供了一种基于强化与模仿学习的机器人动态操作布料方法及系统,首先通过在仿真环境中,依据强化学习,通过与环境交互学习机器人动态操作布料策略,得到仿真环境中的机器人关节运动轨迹,然后将仿真环境中的机器人关节运动轨迹映射转换为真实机器人的关节运动轨迹;最后依据真实机器人的关节运动轨迹,利用动态运动基元方法进行轨迹学习与轨迹泛化,得到最终的操作轨迹;通过在仿真环境中得到仿真环境中的机器人关节运动轨迹再映射转换为真实机器人的关节运动轨迹,避免了与布料进行大量交互,提高了机器人操作织物等柔性物体的能力。
Description
技术领域
本发明属于机器人技术领域,尤其涉及一种基于强化与模仿学习的机器人动态操作布料方法及系统。
背景技术
操纵软物料对机器人来说是一项有意义且具有挑战性的能力。其中一项操作任务是将布料平整放置在工作台,这在家庭服务,工业生产等过程十分常见。机器人需要操作布料从悬空位置平铺到工作表面,要求布料处于正确位置且无褶皱,需要对具有高维状态表示,非线性动力学的变形物体进行连续性操作,不正确的操作轨迹会导致布料产生变形,因此,这是一个困难的动态操作过程,特别是对于机器人来说。
发明人发现,现有研究中,主要是依靠视觉感知、几何信息或轨迹规划等技术来实现布料变形操纵,但这些方法大多为离散的静态操作,需要与布料进行大量交互,导致操作织物等柔性物体的能力较差。
发明内容
本发明为了解决上述问题,提出了一种基于强化与模仿学习的机器人动态操作布料方法及系统,为了提高机器人操作织物等柔性物体的能力,本发明考虑机器人运动轨迹中速度与加速度对布料最终状态的决定性影响提出的布料方法,提高了机器人对变形物体的操作能力。
为了实现上述目的,本发明是通过如下的技术方案来实现:
第一方面,本发明提供了一种基于强化与模仿学习的机器人动态操作布料方法,包括:
搭建机器人操作布料的仿真环境;
在所述仿真环境中,依据强化学习,通过与环境交互学习机器人动态操作布料策略,得到仿真环境中的机器人关节运动轨迹;
将仿真环境中的机器人关节运动轨迹映射转换为真实机器人的关节运动轨迹;
依据真实机器人的关节运动轨迹进行轨迹学习与轨迹泛化,得到最终的操作轨迹;
利用最终的操作轨迹,控制机器人进行动态操作布料。
进一步的,轨迹学习过程用于获取末端轨迹的权重信息;轨迹泛化过程用于生成学习轨迹,将学习后轨迹与任务目标结合,泛化动态操作轨迹。
进一步的,仿真环境中,布料采用弹簧质点模型。
进一步的,t时刻状态st,动作at的奖励函数为:
r(st,at)=-4h+2l-0.5r
其中,h为抓取点距离工作台高度;l为抓取点距离布料底部末端点的距离;r为布料底部末端点距离放置目标点的距离。
进一步的,操作策略优化目标为最小化抓取点距离工作台高度,最小化布料底部末端点距离放置目标点的距离。
进一步的,使用预设的演示专家数据改进操作策略的学习速度与效果,并通过对布料软硬特性进行随机化。
进一步的,利用动态运动基元方法进行轨迹学习与轨迹泛化。
第二方面,本发明还提供了一种基于强化与模仿学习的机器人动态操作布料系统,包括:
仿真场景搭建模块,被配置为:搭建机器人操作布料的仿真环境;
强化学习模块,被配置为:在所述仿真环境中,依据强化学习,通过与环境交互学习机器人动态操作布料策略,得到仿真环境中的机器人关节运动轨迹;
映射转换模块,被配置为:将仿真环境中的机器人关节运动轨迹映射转换为真实机器人的关节运动轨迹;
轨迹学习与轨迹泛化模块,被配置为:依据真实机器人的关节运动轨迹进行轨迹学习与轨迹泛化,得到最终的操作轨迹;
控制模块,被配置为:利用最终的操作轨迹,控制机器人进行动态操作布料。
第三方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现了第一方面所述的基于强化与模仿学习的机器人动态操作布料方法的步骤。
第四方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现了第一方面所述的基于强化与模仿学习的机器人动态操作布料方法的步骤。
与现有技术相比,本发明的有益效果为:
1、本发明首先通过在仿真环境中,依据强化学习,通过与环境交互学习机器人动态操作布料策略,得到仿真环境中的机器人关节运动轨迹,然后将仿真环境中的机器人关节运动轨迹映射转换为真实机器人的关节运动轨迹;最后依据真实机器人的关节运动轨迹进行轨迹学习与轨迹泛化,得到最终的操作轨迹;通过在仿真环境中得到仿真环境中的机器人关节运动轨迹再映射转换为真实机器人的关节运动轨迹,避免了与布料进行大量交互,提高了机器人操作织物等柔性物体的能力;
3、本发明利用仿真环境,结合深度强化学习框架学习机器人动态操作布料策略,可以提高机器人训练效率,保证训练安全;利用动态运动基元将仿真环境中掌握的操作技能进行学习并泛化,可以适应不同场景下布料的放置操作。
附图说明
构成本实施例的一部分的说明书附图用来提供对本实施例的进一步理解,本实施例的示意性实施例及其说明用于解释本实施例,并不构成对本实施例的不当限定。
图1为本发明实施例1的流程图;
图2为本发明实施例1的弹簧质点模型仿真布料;
图3为本发明实施例1的增加纹理后的仿真布料;
图4为本发明实施例1的机器人动态操作策略获得流程;
图5为本发明实施例1的机器人动态操作布料过程;
图6为本发明实施例1的机器人动态操作布料网络;
图7为本发明实施例1的基于动态运动基元的动态操作布料轨迹学习与泛化。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
实施例1:
如图1所述,本实施例提供了一种基于强化与模仿学习的机器人动态操作布料方法,包括:
搭建机器人操作布料的仿真环境;
在所述仿真环境中,依据强化学习,通过与环境交互学习机器人动态操作布料策略,得到仿真环境中的机器人关节运动轨迹;
将仿真环境中的机器人关节运动轨迹映射转换为真实机器人的关节运动轨迹;
依据真实机器人的关节运动轨迹进行轨迹学习与轨迹泛化,得到最终的操作轨迹;
利用最终的操作轨迹,控制机器人进行动态操作布料。
本实施例中,首先在仿真软件中搭建机器人操作布料环境,利用强化学习框架,通过与环境交互学习机器人动态操作布料策略π;使用少量演示专家数据τ*来改进操作策略的学习速度与效果,并通过对布料软硬等特性ζ进行随机化,提高操作策略的鲁棒性。然后将仿真环境中动态操作策略的机器人关节运动轨迹θs通过机器人控制器映射转换为真实机器人的关节运动轨迹θr。最后运用动态运动基元方法分别进行轨迹学习与轨迹泛化,轨迹学习过程用于获取末端轨迹Pr的权重信息;轨迹泛化过程主要用于生成学习轨迹,将学习后轨迹与任务目标结合g,泛化动态操作轨迹τ。通过在仿真环境中得到仿真环境中的机器人关节运动轨迹再映射转换为真实机器人的关节运动轨迹,避免了与布料进行大量交互,提高了机器人操作织物等柔性物体的能力。
本实施例中,可以利用mujoco搭建机器人动态操作布料的仿真环境,机械臂可以采用UR5e,布料采用弹簧质点模型进行仿真,如图2和图3所示,布料网格参数如表1所示。
表1布料网格参数
动态操作策略π获得的方法如图4所示,具体包含步骤如下:
S1、定义机械臂操作状态s=(se,sf,sj);
其中,se为机械臂末端位姿;sf为机械臂末端力数据;sj为机械臂关节数据。
S2、定义机械臂缝制动作a=(θ1,θ2,θ3,θ4,θ5,θ6);
其中,θ1,θ2,θ3,θ4,θ5,θ6为六轴机械臂各关节角度。
S3、定义动态操作质量评价奖励函数r;
S3.1、动态操作过程如图5所示,其中,h为抓取点P距离工作台高度;l为抓取点P距离布料底部末端点Pe的距离;r为布料底部末端点Pe距离放置目标点Pg的距离。操作策略优化目标为最小化h确保布料放置在工作台,最大化l确保布料最终平整无褶皱,最小化r确保布料放置在工作台期望位置。
S3.2、因此t时刻状态st,动作at的奖励函数为:
r(st,at)=-4h+2l-0.5r
S4、基于软Actor-Critic框架,搭建机器人动态操作布料策略网络,整体网络框架如图6所示,具体流程如下。
S4.1、对评价网络和策略网络πθ的参数φ1,φ2,θ进行随机初始化。
S4.2、用专家数据τ*初始化经验池专家数据可以理解为预存专家数据。
S4.3、初始化目标网络,
S4.4、观察初始状态st,策略网络生成动作智能体执行动作/>观察环境下一步状态st+1,获得奖励rt+1,并将与环境交互的数组(st,at,rt,st+1)存入经验池/>中。
S4.5、随机从经验池中采用一个batch的状态转换序列B=N*(st,at,rt,st+1)。
S4.6、基于当前策略网络策略与其动作输出,计算动作熵公式如下:
其中,πθ(at+1|st+1)为状态st+1下输出动作at+1的概率。
S4.7、通过流程①计算目标动作值函数Qs(r,st+1):
其中,α为熵的权重;和/>为在两个Critic目标网络输出中取最小值,该操作可以防止过高估计价值。
S4.8、流程②采用MSEloss作为loss函数,通过梯度下降更新评价网络,公式如下:
S4.9、流程③通过以下公式利用梯度下降更新策略网络:
其中,at是通过当前策略网络πθ(st)基于当前状态得到。
S4.10、通过参数ρ利用软更新更新目标网络:
S5、基于真实机器人零点对应,实现机器人控制器映射:
S6、基于动态运动基元,将仿真环境中动态操作策略π学习到的机器人操作轨迹进行轨迹学习与轨迹泛化,具体算法流程如图7所示:
S6.1、给定示教轨迹
S6.2、建立DMPs模型,在稳定的二阶系统中引入非线性强迫函数。
其中,g为学习目标;f为强迫函数;αθ,βθ为系统参数可取τ为放缩项;x为与系统无关变量;αx为常数,可取1.0。
S6.3、通过以下公式计算强迫函数f:
其中,为初始状态;ψi(x)为基函数;其中ci为中心值;ωi为基函数权重:
S6.4、构造以下平方损失函数,使用最优化方法LWR(局部加权回归)计算基函数模型参数:
其中,P表示整条轨迹的总时间步数(即),ξ(t)=x(t)(g-θ0)
S6.5、则基函数权重为:
其中,
利用得到非线性强迫函数f的权重ωi,形成新的轨迹与轨迹θr有相似的运动趋势,从而学习到动态操作策略的演示轨迹,与新的目标相结合,最终让机器人实现布料动态操作的学习与泛化。
实施例2:
本实施例提供了一种基于强化与模仿学习的机器人动态操作布料系统,包括:
仿真场景搭建模块,被配置为:搭建机器人操作布料的仿真环境;
强化学习模块,被配置为:在所述仿真环境中,依据强化学习,通过与环境交互学习机器人动态操作布料策略,得到仿真环境中的机器人关节运动轨迹;
映射转换模块,被配置为:将仿真环境中的机器人关节运动轨迹映射转换为真实机器人的关节运动轨迹;
轨迹学习与轨迹泛化模块,被配置为:依据真实机器人的关节运动轨迹进行轨迹学习与轨迹泛化,得到最终的操作轨迹;
控制模块,被配置为:利用最终的操作轨迹,控制机器人进行动态操作布料。
所述系统的工作方法与实施例1的基于强化与模仿学习的机器人动态操作布料方法相同,这里不再赘述。
实施例3:
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现了实施例1所述的基于强化与模仿学习的机器人动态操作布料方法的步骤。
实施例4:
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现了实施例1所述的基于强化与模仿学习的机器人动态操作布料方法的步骤。
以上所述仅为本实施例的优选实施例而已,并不用于限制本实施例,对于本领域的技术人员来说,本实施例可以有各种更改和变化。凡在本实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本实施例的保护范围之内。
Claims (8)
1.基于强化与模仿学习的机器人动态操作布料方法,其特征在于,包括:
搭建机器人操作布料的仿真环境;
在所述仿真环境中,依据强化学习,通过与环境交互学习机器人动态操作布料策略,得到仿真环境中的机器人关节运动轨迹;
将仿真环境中的机器人关节运动轨迹映射转换为真实机器人的关节运动轨迹;
依据真实机器人的关节运动轨迹进行轨迹学习与轨迹泛化,得到最终的操作轨迹;
利用最终的操作轨迹,控制机器人进行动态操作布料;
轨迹学习过程用于获取末端轨迹的权重信息;轨迹泛化过程用于生成学习轨迹,将学习后轨迹与任务目标结合,泛化动态操作轨迹;
t时刻状态st,动作at的奖励函数为:
r(st,at)=-4h+2l-0.5r
其中,h为抓取点距离工作台高度;l为抓取点距离布料底部末端点的距离;r为布料底部末端点距离放置目标点的距离。
2.如权利要求1所述的基于强化与模仿学习的机器人动态操作布料方法,其特征在于,仿真环境中,布料采用弹簧质点模型。
3.如权利要求1所述的基于强化与模仿学习的机器人动态操作布料方法,其特征在于,操作策略优化目标为最小化抓取点距离工作台高度,最小化布料底部末端点距离放置目标点的距离。
4.如权利要求1所述的基于强化与模仿学习的机器人动态操作布料方法,其特征在于,使用预设的演示专家数据改进操作策略的学习速度与效果,并通过对布料软硬特性进行随机化。
5.如权利要求1所述的基于强化与模仿学习的机器人动态操作布料方法,其特征在于,利用动态运动基元方法进行轨迹学习与轨迹泛化。
6.一种用于如权利要求1-5任一项所述的基于强化与模仿学习的机器人动态操作布料方法的系统,其特征在于,包括:
仿真场景搭建模块,被配置为:搭建机器人操作布料的仿真环境;
强化学习模块,被配置为:在所述仿真环境中,依据强化学习,通过与环境交互学习机器人动态操作布料策略,得到仿真环境中的机器人关节运动轨迹;
映射转换模块,被配置为:将仿真环境中的机器人关节运动轨迹映射转换为真实机器人的关节运动轨迹;
轨迹学习与轨迹泛化模块,被配置为:依据真实机器人的关节运动轨迹进行轨迹学习与轨迹泛化,得到最终的操作轨迹;
控制模块,被配置为:利用最终的操作轨迹,控制机器人进行动态操作布料。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现了如权利要求1-5任一项所述的基于强化与模仿学习的机器人动态操作布料方法的步骤。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现了如权利要求1-5任一项所述的基于强化与模仿学习的机器人动态操作布料方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211191648.2A CN115524997B (zh) | 2022-09-28 | 2022-09-28 | 基于强化与模仿学习的机器人动态操作布料方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211191648.2A CN115524997B (zh) | 2022-09-28 | 2022-09-28 | 基于强化与模仿学习的机器人动态操作布料方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115524997A CN115524997A (zh) | 2022-12-27 |
CN115524997B true CN115524997B (zh) | 2024-05-14 |
Family
ID=84700356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211191648.2A Active CN115524997B (zh) | 2022-09-28 | 2022-09-28 | 基于强化与模仿学习的机器人动态操作布料方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115524997B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103869983A (zh) * | 2014-03-26 | 2014-06-18 | 南京信息工程大学 | 一种用于力触觉人机交互的柔性物体变形仿真方法 |
CN110705094A (zh) * | 2019-09-29 | 2020-01-17 | 深圳市商汤科技有限公司 | 柔性体仿真方法和装置、电子设备、计算机可读存储介质 |
CN111618847A (zh) * | 2020-04-22 | 2020-09-04 | 南通大学 | 基于深度强化学习与动态运动基元的机械臂自主抓取方法 |
CN112549028A (zh) * | 2020-12-02 | 2021-03-26 | 中国科学院自动化研究所 | 基于动态运动基元和人工势场的双臂机器人轨迹规划方法 |
CN113043251A (zh) * | 2021-04-23 | 2021-06-29 | 江苏理工学院 | 一种机器人示教再现轨迹学习方法 |
CN113554757A (zh) * | 2021-07-01 | 2021-10-26 | 新疆大学 | 基于数字孪生的工件轨迹三维重构方法及系统 |
CN114131603A (zh) * | 2021-12-02 | 2022-03-04 | 复旦大学 | 基于感知增强和场景迁移的深度强化学习机器人抓取方法 |
CN114723831A (zh) * | 2022-03-25 | 2022-07-08 | 山东大学 | 基于启发式的机器人柔性织物展平方法及系统 |
CN114779661A (zh) * | 2022-04-22 | 2022-07-22 | 北京科技大学 | 基于多分类生成对抗模仿学习算法的化学合成机器人系统 |
-
2022
- 2022-09-28 CN CN202211191648.2A patent/CN115524997B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103869983A (zh) * | 2014-03-26 | 2014-06-18 | 南京信息工程大学 | 一种用于力触觉人机交互的柔性物体变形仿真方法 |
CN110705094A (zh) * | 2019-09-29 | 2020-01-17 | 深圳市商汤科技有限公司 | 柔性体仿真方法和装置、电子设备、计算机可读存储介质 |
CN111618847A (zh) * | 2020-04-22 | 2020-09-04 | 南通大学 | 基于深度强化学习与动态运动基元的机械臂自主抓取方法 |
CN112549028A (zh) * | 2020-12-02 | 2021-03-26 | 中国科学院自动化研究所 | 基于动态运动基元和人工势场的双臂机器人轨迹规划方法 |
CN113043251A (zh) * | 2021-04-23 | 2021-06-29 | 江苏理工学院 | 一种机器人示教再现轨迹学习方法 |
CN113554757A (zh) * | 2021-07-01 | 2021-10-26 | 新疆大学 | 基于数字孪生的工件轨迹三维重构方法及系统 |
CN114131603A (zh) * | 2021-12-02 | 2022-03-04 | 复旦大学 | 基于感知增强和场景迁移的深度强化学习机器人抓取方法 |
CN114723831A (zh) * | 2022-03-25 | 2022-07-08 | 山东大学 | 基于启发式的机器人柔性织物展平方法及系统 |
CN114779661A (zh) * | 2022-04-22 | 2022-07-22 | 北京科技大学 | 基于多分类生成对抗模仿学习算法的化学合成机器人系统 |
Non-Patent Citations (2)
Title |
---|
Human-Robot Deformation Manipulation Skill Transfer: Sequential Fabric Unfolding Method For Robots;Tianyu Fu 等;《IEEE》;20231212;第8454-8461页 * |
基于多约束条件的机器人抓取策略学习方法;崔涛 等;《控制与决策》;20220630;第1445-1451页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115524997A (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052004B (zh) | 基于深度增强学习的工业机械臂自动控制方法 | |
Huang et al. | Generalized task-parameterized skill learning | |
CN110238839A (zh) | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 | |
CN109858574B (zh) | 面向人机协同工作的智能体的自主学习方法和系统 | |
WO2020185357A1 (en) | Motion transfer of highly dimensional movements to lower dimensional robot movements | |
CN115446867B (zh) | 一种基于数字孪生技术的工业机械臂控制方法及系统 | |
KR20200114856A (ko) | 가상고장 모의훈련 콘텐츠를 이용한 발전소 고장 대비 훈련 시스템 및 방법 | |
Toubman et al. | Modeling behavior of computer generated forces with machine learning techniques, the nato task group approach | |
CN116500901B (zh) | 数字孪生驱动的用户意图不明下人机协作任务规划方法 | |
Losey et al. | Robots that take advantage of human trust | |
Zakaria et al. | Robotic control of the deformation of soft linear objects using deep reinforcement learning | |
Aghajanzadeh et al. | An offline geometric model for controlling the shape of elastic linear objects | |
CN115524997B (zh) | 基于强化与模仿学习的机器人动态操作布料方法及系统 | |
CN116604532A (zh) | 一种上肢康复机器人智能控制方法 | |
Duan et al. | Sequential learning unification controller from human demonstrations for robotic compliant manipulation | |
Li et al. | A Q-learning control method for a soft robotic arm utilizing training data from a rough simulator | |
Allen et al. | Evolved controllers for simulated locomotion | |
Meng et al. | Reinforcement learning based variable impedance control for high precision human-robot collaboration tasks | |
CN108453737A (zh) | 一种基于神经网络的机器人动作轨迹获取系统及方法 | |
Wang et al. | Deep reinforcement learning of cooperative control with four robotic agents by MADDPG | |
CN114460841B (zh) | 一种足式机器人多步态控制器生成方法及计算机可读储存介质 | |
CN114102599B (zh) | 基于柔性机械臂的人机交互自适应控制方法和系统 | |
CN112276947B (zh) | 一种机器人动作模仿方法、装置、设备及存储介质 | |
Weitnauer et al. | Evaluating a physics engine as an ingredient for physical reasoning | |
Chen et al. | Application of interactive genetic algorithms to boid model based artificial fish schools |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |