CN113485107A - 基于一致性约束建模的强化学习机器人控制方法及系统 - Google Patents
基于一致性约束建模的强化学习机器人控制方法及系统 Download PDFInfo
- Publication number
- CN113485107A CN113485107A CN202110768179.5A CN202110768179A CN113485107A CN 113485107 A CN113485107 A CN 113485107A CN 202110768179 A CN202110768179 A CN 202110768179A CN 113485107 A CN113485107 A CN 113485107A
- Authority
- CN
- China
- Prior art keywords
- environment
- data
- training
- model
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000002787 reinforcement Effects 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 54
- 230000003993 interaction Effects 0.000 claims abstract description 28
- 238000013500 data storage Methods 0.000 claims abstract description 13
- 230000002452 interceptive effect Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 45
- 230000009471 action Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 238000007476 Maximum Likelihood Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 7
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 230000000750 progressive effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000005021 gait Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011430 maximum method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明涉及一种基于一致性约束建模的强化学习机器人控制方法及系统,其包括:初始化环境和各网络参数;利用与真实环境的交互数据训练环境模型;利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;根据环境模型,采用Soft Actor‑Critic方法进行策略训练;重复执行直至收敛。本发明能减少对建模的误差,增加环境建模的准确性和鲁棒性,提高稳定性。本发明可以广泛在机器人控制领域中应用。
Description
技术领域
本发明涉及一种机器人控制领域,特别是关于一种基于一致性约束建模的强化学习机器人控制方法及系统。
背景技术
近年来,深度学习在图像处理、语音合成、自然语言处理等领域取得一系列重大突破。深度强化学习是将深度学习的智能感知能力与强化学习的决策能力相结合,直接通过对高维感知输入的学习最终实现智能体的自主行为控制,描述的是智能体为实现任务而连续作出决策控制的过程。同时,强化学习已经在游戏对抗、机器人控制等领域取得了突破性进展。
深度强化学习具有一定的自主学习能力,无需给定先验知识,只需与环境进行不断交互,最终通过训练找到适合当前状态的最优策略,进而获得整个决策过程的最大累积奖励回报。根据智能体对交互环境信息的利用方法,强化学习可分为无模型强化学习和模型化强化学习两大类。无模型强化学习方法是智能体不断探索环境,不断试错,通常需要大量训练样本及训练时间,才能保证智能体满足一定要求。模型化强化学习方法首先需要对环境建模,得到环境模型后,此类方法无需与真实环境交互,可直接利用学得的环境模型生成所需训练样本进行策略学习,从而在一定程度上缓解样本利用率低及学习效率低的问题。另外,如果所学得的环境模型足够精确,智能体就可根据该模型在其从未访问过的区域进行策略搜索。然而,学得的环境模型与真实环境间往往存在模型误差,难以保证算法的最优解渐近收敛。
在模型化强化学习的机器人控制领域,相关现有技术中的基于模型相关强化学习的仿人机器人步态控制方法,其使用强化学习来对仿人机器人行走过程中的步态进行控制,从而使仿人机器人的行走控制能通过与环境交互来进行自主调节,使仿人机器人在前后方向上保持稳定。但是该技术存在以下缺陷:(1)现有技术根据当前状态和值函数,使用梯度下降法求解出最优的控制动作,会存在策略退化问题,即值函数估计准确,但通过值函数得到的策略仍然不是最优。(2)现有技术采用单一的高斯模型,对环境建模能力弱,存在较大建模误差。(3)现有技术采用原始的Dyna-Q强化学习方法,算法的渐进性能低,且数据利用效率低。
发明内容
针对上述问题,本发明的目的是提供一种基于一致性约束建模的强化学习机器人控制方法及系统,其能减少对建模的误差,增加环境建模的准确性和鲁棒性,提高稳定性。
为实现上述目的,本发明采取以下技术方案:一种基于一致性约束建模的强化学习机器人控制方法,其包括:步骤1、初始化环境和各网络参数;步骤2、利用与真实环境的交互数据训练环境模型;步骤3、利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;步骤4、根据环境模型,采用Soft Actor-Critic方法进行策略训练;步骤5、重复执行步骤2至步骤4,直至收敛。
进一步,所述步骤2中,环境模型的训练方法包括以下步骤:
步骤21、利用策略πφ与真实环境交互,将交互数据存放在真实环境的数据存放器Denv;
步骤22、从真实环境的数据存放器Denv中自助采样N批数据{D1,D2,…,DN},并在N批数据中随机采样一批数据{Ds};
步骤23、根据步骤22中的自助采样数据和随机采样数据,通过极大似然和一致性约束训练环境模型。
进一步,所述N个环境模型的更新方式为:
进一步,所述整体的环境模型训练损失函数的获取方法为:
步骤231、获取极大似然的损失函数LML;
步骤232、获取一致性约束的损失函数LKL采用KL距离作为度量;
步骤233、根据极大似然和一致性约束的损失函数得到整体的环境模型训练损失函数Ltotal为:
Ltotal=LML+λ*LKL;
式中,λ表示权重。
进一步,所述步骤4中,训练方法包括以下步骤:
步骤41、Critic部分对状态动作进行评估,Actor部分即为选择动作的策略;
步骤42、更新Q函数网络和策略网络的参数,并每隔预先设定时间更新Q-target函数网络参数。
进一步,所述步骤42中,更新方法为:
进一步,所述步骤5中,收敛条件为:与环境交互的次数大于预先设定的数值。
一种基于一致性约束建模的强化学习机器人控制系统,其包括:初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块;所述初始化模块,用于初始化环境和各网络参数;所述环境模型训练模块,利用与真实环境的交互数据训练环境模型;所述数据交互模块,利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;所述策略训练模块,根据环境模型,采用Soft Actor-Critic方法进行策略训练;所述收敛模块,重复执行所述环境模型训练模块、所述数据交互模块和所述策略训练模块,直至收敛。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明基于Actor-Critic的策略优化方法,降低策略梯度的方差,解决了策略退化的问题,提高稳定性。
2、本发明对环境模型采用集成模型和一致性约束,减少对建模的误差,增加环境建模的准确性和鲁棒性。
3、本发明采用改进Dyna-Q的强化学习方法,提高了控制方法的渐进性能和数据利用效率。
附图说明
图1是本发明的控制方法整体流程示意图;
图2是本发明的HalfCheetah-v2的任务环境示意图;
图3是不同算法在HalfCheetah任务上的实验结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明中采用的强化学习通常使用马尔可夫决策过程(Markov DecisionProcess,简称MDP)来描述,可以由一个五元组构成(S,A,P,R,γ)。其中,S表示状态空间,A表示动作空间,R表示奖励函数,P表示状态转移概率矩阵,γ表示折扣因子。智能体每个时刻观测到状态st,根据当前状态由策略π产生一个动作at,通过与真实环境交互后得到下一个状态st+1,并反馈奖励信号rt,强化学习的目标是最大化累积折扣奖励回报的期望
而基于模型的强化学习则使用pθ(s′|s,a)表示环境模型,此处构建一个高斯分布pθ(st+1|st,at)=N(μθ(st,at),Σθ(st,at)),高斯分布的网络参数为θ;α表示调节因子,r表示奖励值,s表示状态信息,a表示动作信息。
在本发明的第一实施方式中,如图1所示,提供一种基于一致性约束建模的强化学习机器人控制方法,其包括以下步骤:
步骤1、初始化环境和各网络参数;
步骤2、利用与真实环境的交互数据训练环境模型;
具体包括以下步骤:
步骤21、利用策略πφ与真实环境交互,将交互数据存放在真实环境的数据存放器Denv;
步骤22、从真实环境的数据存放器Denv中bootstrapped自助采样N批数据{D1,D2,…,DN},并在N批数据中随机采样一批数据{Ds};
步骤23、根据步骤22中的自助采样数据和随机采样数据,通过极大似然和一致性约束训练环境模型;
其中,N个环境模型的更新方式为:
整体的环境模型训练损失函数的获取方法为:
步骤231、获取极大似然的损失函数LML为:
式中,T表示矩阵的转置操作,μθ表示参数为θ的均值向量,sn表示第n个模型所处的状态信息,an表示第n个模型所处的动作信息,det表示计算矩阵的行列式。
步骤232、获取一致性约束的损失函数LKL采用KL距离作为度量:
步骤233、根据极大似然和一致性约束的损失函数得到整体的环境模型训练损失函数Ltotal为:
Ltotal=LML+λ*LKL;
式中,λ表示权重。
步骤3、利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中。
步骤4、根据环境模型,采用Soft Actor-Critic方法进行策略训练。
具体训练方法包括以下步骤:
步骤41、Critic部分对状态动作进行评估,Actor部分即为选择动作的策略。Critic的损失函数JQ(ψ)为:
Actor部分的损失函数Jπ(φ)为:
Jπ(φ)=E[(DKL(πφ(·|st)||exp(Qψ(st,·)-logZ(st)))]
其中,Z函数为配分函数,对Q值进行归一化分布。
步骤42、更新Q函数网络和策略网络的参数,并每隔预先设定时间更新Q-target函数网络参数;
具体更新方法为:
步骤5、重复执行步骤2至步骤4,直至收敛;
收敛条件为:与环境交互的次数大于预先设定的数值;在本实施例中,预先设定的数值优选为200k,其中,k表示千的单位。
步骤6、加载最终训练得到的策略模型,在仿真环境和相应的实际环境中进行测试。
在本发明的第二实施方式中,提供一种基于一致性约束建模的强化学习机器人控制系统,其包括初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块;
初始化模块,用于初始化环境和各网络参数;
环境模型训练模块,利用与真实环境的交互数据训练环境模型;
数据交互模块,利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;
策略训练模块,根据环境模型,采用Soft Actor-Critic方法进行策略训练;
收敛模块,重复执行环境模型训练模块、数据交互模块和策略训练模块,直至收敛。
实施例:
为了体现本发明的有效性,采用MuJoCo仿真环境HalfCheetah任务进行测试。该任务的目的是控制二维的HalfCheetah“半猎豹”形机器人向前跑,使其可以又快又好地学会奔跑,如图2所示是该任务的具体场景。对于该仿真环境中要控制的智能体而言,输入状态是17维连续量,输出动作是连续的6维变量,分别是一只脚需要控制三个关节一共6个关节,每个关节的运动范围为[-1,1]。实验时,本发明的超参数设置如表1所示。
表1本发明的超参数设置
超参数设置 | 值 |
训练总轮数 | 200 |
一轮中与环境交互的次数 | 1000 |
每次交互中模型产生的轨迹数 | 400 |
集成模型的个数 | 7 |
每次交互中策略更新的频率 | 40 |
模型产生轨迹的长度 | 1 |
在HalfCheetah任务上,对比四种现有的基础方法(MBPO,STEVE,PETS,SAC),EMC-AC代表本发明的方法,结果如图3所示。其中SAC是无模型的方法,EMC-AC,MBPO,STEVE和PETS都是模型化的方法。
为了降低随机性造成的实验影响,每种方法至少测试4次,并将4次结果的平均值用实线表示,4次结果的标准差用阴影部分表示。另外,横轴表示与环境交互的次数,所有算法均交互200k次,纵轴表示每次交互测试得到的累积奖励回报。虚线表示SAC交互2000k(即2M),所得到的实验结果。
由此可知,本发明的方法在训练速度和最终表现上都是最优的,极大地提升了算法的数据利用效率和渐进性能。本发明的方法已经超过SAC无模型的方法10倍交互次数的渐进性能。本发明采用多模型对环境建模,减少单一环境建模带来的模型误差;并结合一致性正则化对多模型进行约束,通过调整权重λ有效提高控制方法的稳定性和性能。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (10)
1.一种基于一致性约束建模的强化学习机器人控制方法,其特征在于,包括:
步骤1、初始化环境和各网络参数;
步骤2、利用与真实环境的交互数据训练环境模型;
步骤3、利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;
步骤4、根据环境模型,采用Soft Actor-Critic方法进行策略训练;
步骤5、重复执行步骤2至步骤4,直至收敛。
3.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤2中,环境模型的训练方法包括以下步骤:
步骤21、利用策略πφ与真实环境交互,将交互数据存放在真实环境的数据存放器Denv;
步骤22、从真实环境的数据存放器Denv中自助采样N批数据{D1,D2,...,DN},并在N批数据中随机采样一批数据{Ds};
步骤23、根据步骤22中的自助采样数据和随机采样数据,通过极大似然和一致性约束训练环境模型。
6.如权利要求5所述强化学习机器人控制方法,其特征在于,所述整体的环境模型训练损失函数的获取方法为:
步骤231、获取极大似然的损失函数LML;
步骤232、获取一致性约束的损失函数LKL采用KL距离作为度量;
步骤233、根据极大似然和一致性约束的损失函数得到整体的环境模型训练损失函数Ltotal为:
Ltotal=LML+λ*LKL;
式中,λ表示权重。
7.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤4中,训练方法包括以下步骤:
步骤41、Critic部分对状态动作进行评估,Actor部分即为选择动作的策略;
步骤42、更新Q函数网络和策略网络的参数,并每隔预先设定时间更新Q-target函数网络参数。
9.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤5中,收敛条件为:与环境交互的次数大于预先设定的数值。
10.一种基于一致性约束建模的强化学习机器人控制系统,其特征在于,包括:初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块;
所述初始化模块,用于初始化环境和各网络参数;
所述环境模型训练模块,利用与真实环境的交互数据训练环境模型;
所述数据交互模块,利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;
所述策略训练模块,根据环境模型,采用Soft Actor-Critic方法进行策略训练;
所述收敛模块,重复执行所述环境模型训练模块、所述数据交互模块和所述策略训练模块,直至收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110768179.5A CN113485107B (zh) | 2021-07-05 | 2021-07-05 | 基于一致性约束建模的强化学习机器人控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110768179.5A CN113485107B (zh) | 2021-07-05 | 2021-07-05 | 基于一致性约束建模的强化学习机器人控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113485107A true CN113485107A (zh) | 2021-10-08 |
CN113485107B CN113485107B (zh) | 2023-08-22 |
Family
ID=77941792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110768179.5A Active CN113485107B (zh) | 2021-07-05 | 2021-07-05 | 基于一致性约束建模的强化学习机器人控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113485107B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115293334A (zh) * | 2022-08-11 | 2022-11-04 | 电子科技大学 | 基于模型的高样本率深度强化学习的无人设备控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101964019A (zh) * | 2010-09-10 | 2011-02-02 | 北京航空航天大学 | 基于Agent技术的对抗行为建模仿真平台及仿真方法 |
CN106921194A (zh) * | 2017-03-17 | 2017-07-04 | 中国农业大学 | 采集器无线充电方法、采集器、控制终端及系统 |
CN109299237A (zh) * | 2018-09-26 | 2019-02-01 | 苏州大学 | 基于行动者评论家强化学习算法的循环网络人机对话方法 |
CN112615379A (zh) * | 2020-12-10 | 2021-04-06 | 浙江大学 | 基于分布式多智能体强化学习的电网多断面功率自动控制方法 |
CN112886039A (zh) * | 2021-01-11 | 2021-06-01 | 清华大学深圳国际研究生院 | 一种基于强化学习的压水堆堆芯自动控制方法 |
-
2021
- 2021-07-05 CN CN202110768179.5A patent/CN113485107B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101964019A (zh) * | 2010-09-10 | 2011-02-02 | 北京航空航天大学 | 基于Agent技术的对抗行为建模仿真平台及仿真方法 |
CN106921194A (zh) * | 2017-03-17 | 2017-07-04 | 中国农业大学 | 采集器无线充电方法、采集器、控制终端及系统 |
CN109299237A (zh) * | 2018-09-26 | 2019-02-01 | 苏州大学 | 基于行动者评论家强化学习算法的循环网络人机对话方法 |
CN112615379A (zh) * | 2020-12-10 | 2021-04-06 | 浙江大学 | 基于分布式多智能体强化学习的电网多断面功率自动控制方法 |
CN112886039A (zh) * | 2021-01-11 | 2021-06-01 | 清华大学深圳国际研究生院 | 一种基于强化学习的压水堆堆芯自动控制方法 |
Non-Patent Citations (2)
Title |
---|
白勇: "基于强化学习Actor-Critic算法的音乐生成", 《 计算机应用与软件》 * |
赖俊: "分层强化学习综述", 《计算机工程与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115293334A (zh) * | 2022-08-11 | 2022-11-04 | 电子科技大学 | 基于模型的高样本率深度强化学习的无人设备控制方法 |
CN115293334B (zh) * | 2022-08-11 | 2024-09-27 | 电子科技大学 | 基于模型的高样本率深度强化学习的无人设备控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113485107B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6824382B2 (ja) | 複数の機械学習タスクに関する機械学習モデルのトレーニング | |
US20230029460A1 (en) | Method, apparatus, and device for scheduling virtual objects in virtual environment | |
JP7258965B2 (ja) | ニューラルネットワークを使用する強化学習のための行動選択 | |
Brys et al. | Reinforcement learning from demonstration through shaping | |
Xu et al. | Learning to explore via meta-policy gradient | |
Schaal et al. | Learning control in robotics | |
US11403513B2 (en) | Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy | |
CN110692066A (zh) | 使用多模态输入选择动作 | |
WO2020152364A1 (en) | Multi-agent reinforcement learning with matchmaking policies | |
CN113419424B (zh) | 减少过估计的模型化强化学习机器人控制方法及系统 | |
CN111026272B (zh) | 虚拟对象行为策略的训练方法及装置、电子设备、存储介质 | |
Weinstein et al. | Open-loop planning in large-scale stochastic domains | |
US20220395975A1 (en) | Demonstration-conditioned reinforcement learning for few-shot imitation | |
US12005580B2 (en) | Method and device for controlling a robot | |
WO2018227820A1 (zh) | 控制机械臂运动的方法及装置、存储介质和终端设备 | |
Jia et al. | Improving policy optimization with generalist-specialist learning | |
CN116050505A (zh) | 一种基于伙伴网络的智能体深度强化学习方法 | |
CN113485107B (zh) | 基于一致性约束建模的强化学习机器人控制方法及系统 | |
Jang et al. | AVAST: Attentive variational state tracker in a reinforced navigator | |
Chen et al. | C 2: Co-design of Robots via Concurrent-Network Coupling Online and Offline Reinforcement Learning | |
CN115903901A (zh) | 内部状态未知的无人集群系统输出同步优化控制方法 | |
US11710301B2 (en) | Apparatus for Q-learning for continuous actions with cross-entropy guided policies and method thereof | |
KR20230010746A (ko) | 상대 엔트로피 q-러닝을 사용한 액션 선택 시스템 트레이닝 | |
Hachiya et al. | Efficient sample reuse in EM-based policy search | |
Yin et al. | Random Network Distillation Based Deep Reinforcement Learning for AGV Path Planning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |