CN113419424A - 减少过估计的模型化强化学习机器人控制方法及系统 - Google Patents
减少过估计的模型化强化学习机器人控制方法及系统 Download PDFInfo
- Publication number
- CN113419424A CN113419424A CN202110757340.9A CN202110757340A CN113419424A CN 113419424 A CN113419424 A CN 113419424A CN 202110757340 A CN202110757340 A CN 202110757340A CN 113419424 A CN113419424 A CN 113419424A
- Authority
- CN
- China
- Prior art keywords
- environment
- model
- strategy
- network
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000002787 reinforcement Effects 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 57
- 230000006870 function Effects 0.000 claims abstract description 50
- 230000003993 interaction Effects 0.000 claims abstract description 27
- 238000011156 evaluation Methods 0.000 claims abstract description 21
- 238000013500 data storage Methods 0.000 claims abstract description 13
- 230000002452 interceptive effect Effects 0.000 claims abstract description 11
- 230000009471 action Effects 0.000 claims description 19
- 230000007613 environmental effect Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 abstract description 4
- 238000006731 degradation reaction Methods 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Abstract
本发明涉及一种减少过估计的模型化强化学习机器人控制方法及系统,其包括:初始化环境和各网络参数;利用与真实环境的交互数据训练环境模型;利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;根据环境模型,采用Actor‑Critic方法进行策略训练,其中Critic评估方法采用带有方差惩罚项的评估方式,估计值根据权重λ进行调节;重复执行,直至收敛。本发明能解决策略退化的问题,缓解值函数的过估计问题。本发明可以广泛在机器人控制领域中应用。
Description
技术领域
本发明涉及一种机器人控制领域,特别是关于一种减少过估计的模型化强化学习机器人控制方法及系统。
背景技术
深度强化学习具有一定的自主学习能力,无需给定先验知识,只需与环境进行不断交互,最终通过训练找到适合当前状态的最优策略,进而获得整个决策过程的最大累积奖励回报。根据智能体对交互环境信息的利用方法,强化学习可分为无模型强化学习和模型化强化学习两大类。无模型强化学习方法是智能体不断探索环境,不断试错,通常需要大量训练样本及训练时间,才能保证智能体满足一定要求。模型化强化学习方法首先需要对环境建模,得到环境模型后,此类方法无需与真实环境交互,可直接利用学得的环境模型生成所需训练样本进行策略学习,从而在一定程度上缓解样本利用率低及学习效率低的问题。另外,如果所学得的环境模型足够精确,智能体就可根据该模型在其从未访问过的区域进行策略搜索。然而,学得的环境模型与真实环境间往往存在模型误差,难以保证算法的最优解渐近收敛。
另外,强化学习中基于值函数估计的算法往往会由于大规模的动作值过估计而出现不稳定和效果不佳等现象的存在,而导致过估计的主要原因来自于最大化值函数max逼近,该过程目标是为了最大的累计期望奖励,而在这个过程中产生了正向偏差。
在值函数强化学习的机器人控制领域,现有相关技术中的基于多重目标神经网络的强化学习值函数更新方法中,提出基于多重目标神经网络的强化学习值函数更新方法,使得减少值函数估计过程中的过估计误差,从而得到最终策略。但是该现有技术存在以下缺陷:(1)使用无模型的强化学习方法,使得算法采样效率偏低。(2)采用基于值函数的强化学习方法,会存在策略退化问题,即值函数估计准确,但通过值函数得到的策略仍然不是最优。(3)使用多重目标神经网络估计值函数的方式,造成值函数的计算较为复杂,对计算资源消耗较大。
发明内容
针对上述问题,本发明的目的是提供一种减少过估计的模型化强化学习机器人控制方法及系统,其能解决策略退化的问题,缓解值函数的过估计问题。
为实现上述目的,本发明采取以下技术方案:一种减少过估计的模型化强化学习机器人控制方法,其包括:步骤1、初始化环境和各网络参数;步骤2、利用与真实环境的交互数据训练环境模型;步骤3、利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;步骤4、根据环境模型,采用Actor-Critic方法进行策略训练,其中Critic评估方法采用带有方差惩罚项的评估方式,估计值根据权重λ进行调节;步骤5、重复执行步骤2至步骤4,直至收敛。
进一步,所述步骤2中,环境模型的训练方法包括以下步骤:
步骤21、利用策略πφ与真实环境交互,将交互数据存放在真实环境的数据存放器Denv;
步骤22、通过极大似然的损失函数训练环境预测模型。
进一步,所述步骤22中,根据环境模型训练损失函数LML得到N个环境模型的更新方式为:
进一步,所述整体的环境模型训练损失函数LML为:
式中,T表示矩阵的转置操作,μθ表示参数为θ的均值向量,sn表示第n个模型所处的状态信息,an表示第n个模型所处的动作信息,det表示计算矩阵的行列式。
进一步,所述步骤4中,训练方法包括以下步骤:
步骤41、Critic部分对状态动作进行评估,Actor部分即为选择动作的策略;
步骤42、更新Q函数网络和策略网络的参数,并每隔预先设定时间更新Q-target函数网络参数。
进一步,所述步骤42中,更新方法为:
进一步,所述步骤5中,收敛条件为:与环境交互的次数大于预先设定的数值。
一种减少过估计的模型化强化学习机器人控制系统,其特包括:初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块;所述初始化模块,用于初始化环境和各网络参数;所述环境模型训练模块,利用与真实环境的交互数据训练环境模型;所述数据交互模块,利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;所述策略训练模块,根据环境模型,采用Actor-Critic方法进行策略训练,其中Critic评估方法采用带有方差惩罚项的评估方式,估计值根据权重λ进行调节;所述收敛模块,重复执行所述环境模型训练模块、所述数据交互模块和所述策略训练模块,直至收敛。
进一步,所述策略训练模块中,训练方法包括以下步骤:
步骤41、Critic部分对状态动作进行评估,Actor部分即为选择动作的策略;
步骤42、更新Q函数网络和策略网络的参数,并每隔预先设定时间更新Q-target函数网络参数。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明采用基于模型的强化学习方法,对动态环境进行建模,提高算法的采样效率。
2、本发明采用Actor-Critic的策略优化方法,降低策略梯度的方差,解决策略退化的问题,提高算法的稳定性。
3、本发明对值函数估计采用一种带有方差惩罚项约束的悲观估计,缓解值函数的过估计问题。
附图说明
图1是本发明控制方法的整体流程示意图;
图2是本发明的Humanoid-v2的任务环境示意图;
图3是不同算法在Humanoid任务上的实验结果图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明中采用的强化学习通常使用马尔可夫决策过程(Markov DecisionProcess,简称MDP)来描述,可以由一个五元组构成(S,A,P,R,γ)。其中,S表示状态空间,A表示动作空间,R表示奖励函数,P表示状态转移概率矩阵,γ表示折扣因子。智能体每个时刻观测到状态st,根据当前状态由策略π产生一个动作at,通过与真实环境交互后得到下一个状态st+1,并反馈奖励信号rt,强化学习的目标是最大化累积折扣奖励回报的期望
而基于模型的强化学习则使用pθ(s′|s,a)表示环境模型,此处构建一个高斯分布pθ(st+1|st,at)=N(μθ(st,at),Σθ(st,at)),高斯分布的网络参数为θ;α表示调节因子,r表示奖励值,s表示状态信息,a表示动作信息。
在本发明的第一实施方式中,如图1所示,提供一种减少过估计的模型化强化学习机器人控制方法,其包括以下步骤:
步骤1、初始化环境和各网络参数;
其中,包括初始化构建策略网络πφ,Q函数网络{Qψ1,Qψ2},Q-target函数网络及环境模型以及构建真实环境的数据存放器Denv←φ和预测环境模型的数据存放器Dmodel←φ,N表示环境模型的数量。
步骤2、利用与真实环境的交互数据训练环境模型;
具体包括以下步骤:
步骤21、利用策略πφ与真实环境交互,将交互数据存放在真实环境的数据存放器Denv;
整体的环境模型训练损失函数LML为:
式中,T表示矩阵的转置操作,μθ表示参数为θ的均值向量,sn表示第n个模型所处的状态信息,an表示第n个模型所处的动作信息,det表示计算矩阵的行列式。
根据环境模型训练损失函数LML得到N个环境模型的更新方式为:
步骤3、利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中。
步骤4、根据环境模型,采用Actor-Critic方法进行策略训练,其中Critic评估方法采用带有方差惩罚项的评估方式,估计值可以根据权重λ进行调节;
具体训练方法包括以下步骤:
步骤41、Critic部分对状态动作进行评估,Actor部分即为选择动作的策略。Critic的损失函数JQ(ψi)为:
Actor部分的损失函数Jπ(φ)为:
步骤42、更新Q函数网络和策略网络的参数,并每隔预先设定时间更新Q-target函数网络参数;
具体更新方式为:
步骤5、重复执行步骤2至步骤4,直至收敛;
收敛条件为:与环境交互的次数大于预先设定的数值;在本实施例中,预先设定的数值优选为200k,其中,k表示千的单位。
步骤6、加载最终训练得到的策略模型,在仿真环境和相应的实际环境中进行测试。
在本发明的第二实施方式中,提供一种减少过估计的模型化强化学习机器人控制系统,其包括初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块;
初始化模块,用于初始化环境和各网络参数;
环境模型训练模块,利用与真实环境的交互数据训练环境模型;
数据交互模块,利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;
策略训练模块,根据环境模型,采用Actor-Critic方法进行策略训练,其中Critic评估方法采用带有方差惩罚项的评估方式,估计值根据权重λ进行调节;
收敛模块,重复执行环境模型训练模块、数据交互模块和策略训练模块,直至收敛。
上述实施例中,在策略训练模块中,训练方法包括以下步骤:
步骤41、Critic部分对状态动作进行评估,Actor部分即为选择动作的策略;
步骤42、更新Q函数网络和策略网络的参数,并每隔预先设定时间更新Q-target函数网络参数。
实施例:
为了体现本发明的有效性,采用MuJoCo仿真环境Humanoid任务进行测试。该任务的目的是控制二维的Humanoid“人”形机器人向前跑,使其在环境中跑得越快越好,如图2所示是该任务的具体场景。对于该仿真环境中要控制的智能体而言,输入状态是376维连续量,输出动作是连续的17维变量,全身一共17个关节,每个关节的运动范围为[-0.4,0.4]。实验时,本发明的超参数设置如表1所示。
表1本发明的超参数设置
超参数设置 | 值 |
训练总轮数 | 200 |
一轮中与环境交互的次数 | 1000 |
每次交互中模型产生的轨迹数 | 400 |
集成模型的个数 | 7 |
每次交互中策略更新的频率 | 20 |
模型产生轨迹的长度 | 1→16 |
Q网络个数 | 2 |
Q-target目标网络个数 | 2 |
在Humanoid任务上,对比三种现有的基础方法(MBPO,STEVE,SAC),RAMB代表我们的方法,结果如图3所示。其中SAC是无模型的方法,RAMB,MBPO和STEVE都是模型化的方法。
为了降低随机性造成的实验影响,每种方法至少测试4次,并将4次结果的平均值用实线表示,4次结果的标准差用阴影部分表示。另外,横轴表示与环境交互的次数,所有算法均交互200k次,纵轴表示每次交互测试得到的累积奖励回报。虚线表示SAC交互2000k(即2M),所得到的实验结果。
由此可知,本发明的方法在训练速度和最终表现上都是最优的,极大地提升了算法的数据利用效率和渐进性能。另外,本发明的方法已经接近SAC无模型的方法10倍交互次数的渐进性能。
本发明采用基于模型的强化学习方法,提高了算法的数据利用效率;并在模型化方法中提出一种减少过估计的方法,通过调整权重λ能够改善过估计的程度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (10)
1.一种减少过估计的模型化强化学习机器人控制方法,其特征在于,包括:
步骤1、初始化环境和各网络参数;
步骤2、利用与真实环境的交互数据训练环境模型;
步骤3、利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;
步骤4、根据环境模型,采用Actor-Critic方法进行策略训练,其中Critic评估方法采用带有方差惩罚项的评估方式,估计值根据权重λ进行调节;
步骤5、重复执行步骤2至步骤4,直至收敛。
3.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤2中,环境模型的训练方法包括以下步骤:
步骤21、利用策略πφ与真实环境交互,将交互数据存放在真实环境的数据存放器Denv;
步骤22、通过极大似然的损失函数训练环境预测模型。
6.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤4中,训练方法包括以下步骤:
步骤41、Critic部分对状态动作进行评估,Actor部分即为选择动作的策略;
步骤42、更新Q函数网络和策略网络的参数,并每隔预先设定时间更新Q-target函数网络参数。
8.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤5中,收敛条件为:与环境交互的次数大于预先设定的数值。
9.一种减少过估计的模型化强化学习机器人控制系统,其特征在于,包括:初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块;
所述初始化模块,用于初始化环境和各网络参数;
所述环境模型训练模块,利用与真实环境的交互数据训练环境模型;
所述数据交互模块,利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;
所述策略训练模块,根据环境模型,采用Actor-Critic方法进行策略训练,其中Critic评估方法采用带有方差惩罚项的评估方式,估计值根据权重λ进行调节;
所述收敛模块,重复执行所述环境模型训练模块、所述数据交互模块和所述策略训练模块,直至收敛。
10.如权利要求9所述强化学习机器人控制系统,其特征在于,所述策略训练模块中,训练方法包括以下步骤:
步骤41、Critic部分对状态动作进行评估,Actor部分即为选择动作的策略;
步骤42、更新Q函数网络和策略网络的参数,并每隔预先设定时间更新Q-target函数网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110757340.9A CN113419424B (zh) | 2021-07-05 | 2021-07-05 | 减少过估计的模型化强化学习机器人控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110757340.9A CN113419424B (zh) | 2021-07-05 | 2021-07-05 | 减少过估计的模型化强化学习机器人控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113419424A true CN113419424A (zh) | 2021-09-21 |
CN113419424B CN113419424B (zh) | 2023-08-18 |
Family
ID=77720218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110757340.9A Active CN113419424B (zh) | 2021-07-05 | 2021-07-05 | 减少过估计的模型化强化学习机器人控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113419424B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117283565A (zh) * | 2023-11-03 | 2023-12-26 | 安徽大学 | 一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241952A (zh) * | 2020-01-03 | 2020-06-05 | 广东工业大学 | 一种离散制造场景中的强化学习奖励自学习方法 |
CN111582441A (zh) * | 2020-04-16 | 2020-08-25 | 清华大学 | 共享循环神经网络的高效值函数迭代强化学习方法 |
US20200393820A1 (en) * | 2019-06-17 | 2020-12-17 | Vms Solutions Co., Ltd. | Reinforcement learning and simulation based dispatching method in a factory, and an apparatus thereof |
CN112488826A (zh) * | 2020-12-16 | 2021-03-12 | 北京逸风金科软件有限公司 | 基于深度强化学习对银行风险定价的优化方法和装置 |
CN112965499A (zh) * | 2021-03-08 | 2021-06-15 | 哈尔滨工业大学(深圳) | 基于注意力模型和深度强化学习的无人车行驶决策方法 |
-
2021
- 2021-07-05 CN CN202110757340.9A patent/CN113419424B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200393820A1 (en) * | 2019-06-17 | 2020-12-17 | Vms Solutions Co., Ltd. | Reinforcement learning and simulation based dispatching method in a factory, and an apparatus thereof |
CN111241952A (zh) * | 2020-01-03 | 2020-06-05 | 广东工业大学 | 一种离散制造场景中的强化学习奖励自学习方法 |
CN111582441A (zh) * | 2020-04-16 | 2020-08-25 | 清华大学 | 共享循环神经网络的高效值函数迭代强化学习方法 |
CN112488826A (zh) * | 2020-12-16 | 2021-03-12 | 北京逸风金科软件有限公司 | 基于深度强化学习对银行风险定价的优化方法和装置 |
CN112965499A (zh) * | 2021-03-08 | 2021-06-15 | 哈尔滨工业大学(深圳) | 基于注意力模型和深度强化学习的无人车行驶决策方法 |
Non-Patent Citations (5)
Title |
---|
JIAN SUN: "An integrated critic-actor neural network for reinforcement learning with application of DERs control in grid frequency regulation" * |
宋仕元: "滑模控制器参数整定的ACTOR-CRITIC学习算法" * |
朱威: "结合优势结构和最小目标Q值的深度强化学习导航算法" * |
朱斐: "基于双深度网络的安全深度强化学习方法" * |
李志航: "基于深度递归强化学习的无人自主驾驶策略研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117283565A (zh) * | 2023-11-03 | 2023-12-26 | 安徽大学 | 一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法 |
CN117283565B (zh) * | 2023-11-03 | 2024-03-22 | 安徽大学 | 一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113419424B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6824382B2 (ja) | 複数の機械学習タスクに関する機械学習モデルのトレーニング | |
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
Amarjyoti | Deep reinforcement learning for robotic manipulation-the state of the art | |
CN113033119B (zh) | 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法 | |
Judah et al. | Active lmitation learning: formal and practical reductions to IID learning. | |
WO2018227820A1 (zh) | 控制机械臂运动的方法及装置、存储介质和终端设备 | |
CN114330644B (zh) | 一种基于结构搜索和通道剪枝的神经网络模型压缩方法 | |
Balakrishna et al. | On-policy robot imitation learning from a converging supervisor | |
CN114741886A (zh) | 一种基于贡献度评价的无人机集群多任务训练方法及系统 | |
CN114065929A (zh) | 一种深度强化学习模型的训练方法、装置及存储介质 | |
CN111352419B (zh) | 基于时序差分更新经验回放缓存的路径规划方法及系统 | |
CN112016678A (zh) | 用于增强学习的策略生成网络的训练方法、装置和电子设备 | |
CN113419424B (zh) | 减少过估计的模型化强化学习机器人控制方法及系统 | |
Oliveira et al. | Learning to race through coordinate descent bayesian optimisation | |
CN114219066A (zh) | 基于瓦瑟斯坦距离的无监督强化学习方法及装置 | |
CN115903901A (zh) | 内部状态未知的无人集群系统输出同步优化控制方法 | |
CN116834014A (zh) | 一种空间多臂机器人捕获非合作目标的智能协同控制方法和系统 | |
CN116587275A (zh) | 基于深度强化学习的机械臂智能阻抗控制方法及系统 | |
CN113919475B (zh) | 机器人技能学习的方法、装置、电子设备及存储介质 | |
CN113485107B (zh) | 基于一致性约束建模的强化学习机器人控制方法及系统 | |
CN114952791A (zh) | 肌肉骨骼机器人控制方法及装置 | |
Hachiya et al. | Efficient sample reuse in EM-based policy search | |
Chen et al. | C 2: Co-design of Robots via Concurrent-Network Coupling Online and Offline Reinforcement Learning | |
Sun et al. | Unmanned aerial vehicles control study using deep deterministic policy gradient | |
CN114872040B (zh) | 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |