CN113485107A - 基于一致性约束建模的强化学习机器人控制方法及系统 - Google Patents

基于一致性约束建模的强化学习机器人控制方法及系统 Download PDF

Info

Publication number
CN113485107A
CN113485107A CN202110768179.5A CN202110768179A CN113485107A CN 113485107 A CN113485107 A CN 113485107A CN 202110768179 A CN202110768179 A CN 202110768179A CN 113485107 A CN113485107 A CN 113485107A
Authority
CN
China
Prior art keywords
environment
data
training
model
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110768179.5A
Other languages
English (en)
Other versions
CN113485107B (zh
Inventor
李秀
贾若楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202110768179.5A priority Critical patent/CN113485107B/zh
Publication of CN113485107A publication Critical patent/CN113485107A/zh
Application granted granted Critical
Publication of CN113485107B publication Critical patent/CN113485107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及一种基于一致性约束建模的强化学习机器人控制方法及系统,其包括:初始化环境和各网络参数;利用与真实环境的交互数据训练环境模型;利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;根据环境模型,采用Soft Actor‑Critic方法进行策略训练;重复执行直至收敛。本发明能减少对建模的误差,增加环境建模的准确性和鲁棒性,提高稳定性。本发明可以广泛在机器人控制领域中应用。

Description

基于一致性约束建模的强化学习机器人控制方法及系统
技术领域
本发明涉及一种机器人控制领域,特别是关于一种基于一致性约束建模的强化学习机器人控制方法及系统。
背景技术
近年来,深度学习在图像处理、语音合成、自然语言处理等领域取得一系列重大突破。深度强化学习是将深度学习的智能感知能力与强化学习的决策能力相结合,直接通过对高维感知输入的学习最终实现智能体的自主行为控制,描述的是智能体为实现任务而连续作出决策控制的过程。同时,强化学习已经在游戏对抗、机器人控制等领域取得了突破性进展。
深度强化学习具有一定的自主学习能力,无需给定先验知识,只需与环境进行不断交互,最终通过训练找到适合当前状态的最优策略,进而获得整个决策过程的最大累积奖励回报。根据智能体对交互环境信息的利用方法,强化学习可分为无模型强化学习和模型化强化学习两大类。无模型强化学习方法是智能体不断探索环境,不断试错,通常需要大量训练样本及训练时间,才能保证智能体满足一定要求。模型化强化学习方法首先需要对环境建模,得到环境模型后,此类方法无需与真实环境交互,可直接利用学得的环境模型生成所需训练样本进行策略学习,从而在一定程度上缓解样本利用率低及学习效率低的问题。另外,如果所学得的环境模型足够精确,智能体就可根据该模型在其从未访问过的区域进行策略搜索。然而,学得的环境模型与真实环境间往往存在模型误差,难以保证算法的最优解渐近收敛。
在模型化强化学习的机器人控制领域,相关现有技术中的基于模型相关强化学习的仿人机器人步态控制方法,其使用强化学习来对仿人机器人行走过程中的步态进行控制,从而使仿人机器人的行走控制能通过与环境交互来进行自主调节,使仿人机器人在前后方向上保持稳定。但是该技术存在以下缺陷:(1)现有技术根据当前状态和值函数,使用梯度下降法求解出最优的控制动作,会存在策略退化问题,即值函数估计准确,但通过值函数得到的策略仍然不是最优。(2)现有技术采用单一的高斯模型,对环境建模能力弱,存在较大建模误差。(3)现有技术采用原始的Dyna-Q强化学习方法,算法的渐进性能低,且数据利用效率低。
发明内容
针对上述问题,本发明的目的是提供一种基于一致性约束建模的强化学习机器人控制方法及系统,其能减少对建模的误差,增加环境建模的准确性和鲁棒性,提高稳定性。
为实现上述目的,本发明采取以下技术方案:一种基于一致性约束建模的强化学习机器人控制方法,其包括:步骤1、初始化环境和各网络参数;步骤2、利用与真实环境的交互数据训练环境模型;步骤3、利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;步骤4、根据环境模型,采用Soft Actor-Critic方法进行策略训练;步骤5、重复执行步骤2至步骤4,直至收敛。
进一步,所述步骤1中,初始化构建策略网络πφ,Q函数网络Qψ,Q-target函数网络
Figure BDA0003147644140000021
及环境模型
Figure BDA0003147644140000022
以及构建真实环境的数据存放器Denv←φ和预测环境模型的数据存放器Dmodel←φ。
进一步,所述步骤2中,环境模型的训练方法包括以下步骤:
步骤21、利用策略πφ与真实环境交互,将交互数据存放在真实环境的数据存放器Denv
步骤22、从真实环境的数据存放器Denv中自助采样N批数据{D1,D2,…,DN},并在N批数据中随机采样一批数据{Ds};
步骤23、根据步骤22中的自助采样数据和随机采样数据,通过极大似然和一致性约束训练环境模型。
进一步,所述步骤23中,在N批数据{D1,D2,…,DN}上通过极大似然方法分布训练N个环境模型
Figure BDA0003147644140000023
同时,将随机采样数据{Ds}复制N份,通过一致性约束训练N个环境模型。
进一步,所述N个环境模型的更新方式为:
Figure BDA0003147644140000024
式中,ωL表示更新步长的调节因子,
Figure BDA0003147644140000025
表示对Ltotal的θ求梯度,Ltotal为整体的环境模型训练损失函数。
进一步,所述整体的环境模型训练损失函数的获取方法为:
步骤231、获取极大似然的损失函数LML
步骤232、获取一致性约束的损失函数LKL采用KL距离作为度量;
步骤233、根据极大似然和一致性约束的损失函数得到整体的环境模型训练损失函数Ltotal为:
Ltotal=LML+λ*LKL
式中,λ表示权重。
进一步,所述步骤4中,训练方法包括以下步骤:
步骤41、Critic部分对状态动作进行评估,Actor部分即为选择动作的策略;
步骤42、更新Q函数网络和策略网络的参数,并每隔预先设定时间更新Q-target函数网络参数。
进一步,所述步骤42中,更新方法为:
Figure BDA0003147644140000031
Figure BDA0003147644140000032
Figure BDA0003147644140000033
其中,
Figure BDA0003147644140000034
表示Q-target函数网络参数,φ表示策略网络参数,ψ表示Q网络参数,
Figure BDA0003147644140000035
表示对JQ的参数ψ求梯度,
Figure BDA0003147644140000036
表示对Jπ的参数φ求梯度,ω,ωπ和ωQ分别相应的更新步长。
进一步,所述步骤5中,收敛条件为:与环境交互的次数大于预先设定的数值。
一种基于一致性约束建模的强化学习机器人控制系统,其包括:初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块;所述初始化模块,用于初始化环境和各网络参数;所述环境模型训练模块,利用与真实环境的交互数据训练环境模型;所述数据交互模块,利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;所述策略训练模块,根据环境模型,采用Soft Actor-Critic方法进行策略训练;所述收敛模块,重复执行所述环境模型训练模块、所述数据交互模块和所述策略训练模块,直至收敛。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明基于Actor-Critic的策略优化方法,降低策略梯度的方差,解决了策略退化的问题,提高稳定性。
2、本发明对环境模型采用集成模型和一致性约束,减少对建模的误差,增加环境建模的准确性和鲁棒性。
3、本发明采用改进Dyna-Q的强化学习方法,提高了控制方法的渐进性能和数据利用效率。
附图说明
图1是本发明的控制方法整体流程示意图;
图2是本发明的HalfCheetah-v2的任务环境示意图;
图3是不同算法在HalfCheetah任务上的实验结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明中采用的强化学习通常使用马尔可夫决策过程(Markov DecisionProcess,简称MDP)来描述,可以由一个五元组构成(S,A,P,R,γ)。其中,S表示状态空间,A表示动作空间,R表示奖励函数,P表示状态转移概率矩阵,γ表示折扣因子。智能体每个时刻观测到状态st,根据当前状态由策略π产生一个动作at,通过与真实环境交互后得到下一个状态st+1,并反馈奖励信号rt,强化学习的目标是最大化累积折扣奖励回报的期望
Figure BDA0003147644140000041
本发明中采用Soft Actor-Critic作为策略优化方法,其优化目标
Figure BDA0003147644140000042
Figure BDA0003147644140000043
H表示策略的熵函数。
而基于模型的强化学习则使用pθ(s′|s,a)表示环境模型,此处构建一个高斯分布pθ(st+1|st,at)=N(μθ(st,at),Σθ(st,at)),高斯分布的网络参数为θ;α表示调节因子,r表示奖励值,s表示状态信息,a表示动作信息。
在本发明的第一实施方式中,如图1所示,提供一种基于一致性约束建模的强化学习机器人控制方法,其包括以下步骤:
步骤1、初始化环境和各网络参数;
其中,包括初始化构建策略网络πφ,Q函数网络Qψ,Q-target函数网络
Figure BDA0003147644140000044
及环境模型
Figure BDA0003147644140000045
N表示环境模型的数量;以及构建真实环境的数据存放器Denv←φ和预测环境模型的数据存放器Dmodel←φ。
步骤2、利用与真实环境的交互数据训练环境模型;
具体包括以下步骤:
步骤21、利用策略πφ与真实环境交互,将交互数据存放在真实环境的数据存放器Denv
步骤22、从真实环境的数据存放器Denv中bootstrapped自助采样N批数据{D1,D2,…,DN},并在N批数据中随机采样一批数据{Ds};
步骤23、根据步骤22中的自助采样数据和随机采样数据,通过极大似然和一致性约束训练环境模型;
具体为:在N批数据{D1,D2,…,DN}上通过极大似然方法分布训练N个环境模型
Figure BDA0003147644140000051
同时,将随机采样数据{Ds}复制N份,通过一致性约束训练N个环境模型。
其中,N个环境模型的更新方式为:
Figure BDA0003147644140000052
式中,ωL表示更新步长的调节因子,
Figure BDA0003147644140000053
表示对Ltotal的θ求梯度,Ltotal为整体的环境模型训练损失函数。
整体的环境模型训练损失函数的获取方法为:
步骤231、获取极大似然的损失函数LML为:
Figure BDA0003147644140000054
式中,T表示矩阵的转置操作,μθ表示参数为θ的均值向量,sn表示第n个模型所处的状态信息,an表示第n个模型所处的动作信息,det表示计算矩阵的行列式。
步骤232、获取一致性约束的损失函数LKL采用KL距离作为度量:
Figure BDA0003147644140000055
式中,DKL表示计算
Figure BDA0003147644140000056
Figure BDA0003147644140000057
两个分布之间的KL距离。
步骤233、根据极大似然和一致性约束的损失函数得到整体的环境模型训练损失函数Ltotal为:
Ltotal=LML+λ*LKL
式中,λ表示权重。
步骤3、利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中。
步骤4、根据环境模型,采用Soft Actor-Critic方法进行策略训练。
具体训练方法包括以下步骤:
步骤41、Critic部分对状态动作进行评估,Actor部分即为选择动作的策略。Critic的损失函数JQ(ψ)为:
Figure BDA0003147644140000061
其中,
Figure BDA0003147644140000062
Actor部分的损失函数Jπ(φ)为:
Jπ(φ)=E[(DKLφ(·|st)||exp(Qψ(st,·)-logZ(st)))]
其中,Z函数为配分函数,对Q值进行归一化分布。
步骤42、更新Q函数网络和策略网络的参数,并每隔预先设定时间更新Q-target函数网络参数;
具体更新方法为:
Figure BDA0003147644140000063
Figure BDA0003147644140000064
Figure BDA0003147644140000065
其中,
Figure BDA0003147644140000066
表示Q-target函数网络参数,φ表示策略网络参数,ψ表示Q网络参数,
Figure BDA0003147644140000067
表示对JQ的参数ψ求梯度,
Figure BDA0003147644140000068
表示对Jπ的参数φ求梯度,ω,ωπ和ωQ分别为相应的更新步长。
步骤5、重复执行步骤2至步骤4,直至收敛;
收敛条件为:与环境交互的次数大于预先设定的数值;在本实施例中,预先设定的数值优选为200k,其中,k表示千的单位。
步骤6、加载最终训练得到的策略模型,在仿真环境和相应的实际环境中进行测试。
在本发明的第二实施方式中,提供一种基于一致性约束建模的强化学习机器人控制系统,其包括初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块;
初始化模块,用于初始化环境和各网络参数;
环境模型训练模块,利用与真实环境的交互数据训练环境模型;
数据交互模块,利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;
策略训练模块,根据环境模型,采用Soft Actor-Critic方法进行策略训练;
收敛模块,重复执行环境模型训练模块、数据交互模块和策略训练模块,直至收敛。
实施例:
为了体现本发明的有效性,采用MuJoCo仿真环境HalfCheetah任务进行测试。该任务的目的是控制二维的HalfCheetah“半猎豹”形机器人向前跑,使其可以又快又好地学会奔跑,如图2所示是该任务的具体场景。对于该仿真环境中要控制的智能体而言,输入状态是17维连续量,输出动作是连续的6维变量,分别是一只脚需要控制三个关节一共6个关节,每个关节的运动范围为[-1,1]。实验时,本发明的超参数设置如表1所示。
表1本发明的超参数设置
超参数设置
训练总轮数 200
一轮中与环境交互的次数 1000
每次交互中模型产生的轨迹数 400
集成模型的个数 7
每次交互中策略更新的频率 40
模型产生轨迹的长度 1
在HalfCheetah任务上,对比四种现有的基础方法(MBPO,STEVE,PETS,SAC),EMC-AC代表本发明的方法,结果如图3所示。其中SAC是无模型的方法,EMC-AC,MBPO,STEVE和PETS都是模型化的方法。
为了降低随机性造成的实验影响,每种方法至少测试4次,并将4次结果的平均值用实线表示,4次结果的标准差用阴影部分表示。另外,横轴表示与环境交互的次数,所有算法均交互200k次,纵轴表示每次交互测试得到的累积奖励回报。虚线表示SAC交互2000k(即2M),所得到的实验结果。
由此可知,本发明的方法在训练速度和最终表现上都是最优的,极大地提升了算法的数据利用效率和渐进性能。本发明的方法已经超过SAC无模型的方法10倍交互次数的渐进性能。本发明采用多模型对环境建模,减少单一环境建模带来的模型误差;并结合一致性正则化对多模型进行约束,通过调整权重λ有效提高控制方法的稳定性和性能。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (10)

1.一种基于一致性约束建模的强化学习机器人控制方法,其特征在于,包括:
步骤1、初始化环境和各网络参数;
步骤2、利用与真实环境的交互数据训练环境模型;
步骤3、利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;
步骤4、根据环境模型,采用Soft Actor-Critic方法进行策略训练;
步骤5、重复执行步骤2至步骤4,直至收敛。
2.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤1中,初始化构建策略网络πφ,Q函数网络Qψ,Q-target函数网络
Figure FDA0003147644130000011
及环境模型
Figure FDA0003147644130000012
以及构建真实环境的数据存放器Denv←φ和预测环境模型的数据存放器Dmodel←φ。
3.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤2中,环境模型的训练方法包括以下步骤:
步骤21、利用策略πφ与真实环境交互,将交互数据存放在真实环境的数据存放器Denv
步骤22、从真实环境的数据存放器Denv中自助采样N批数据{D1,D2,...,DN},并在N批数据中随机采样一批数据{Ds};
步骤23、根据步骤22中的自助采样数据和随机采样数据,通过极大似然和一致性约束训练环境模型。
4.如权利要求3所述强化学习机器人控制方法,其特征在于,所述步骤23中,在N批数据{D1,D2,...,DN}上通过极大似然方法分布训练N个环境模型
Figure FDA0003147644130000013
同时,将随机采样数据{Ds}复制N份,通过一致性约束训练N个环境模型。
5.如权利要求4所述强化学习机器人控制方法,其特征在于,所述N个环境模型的更新方式为:
Figure FDA0003147644130000014
式中,ωL表示更新步长的调节因子,
Figure FDA0003147644130000015
表示对Ltotal的θ求梯度,Ltotal为整体的环境模型训练损失函数。
6.如权利要求5所述强化学习机器人控制方法,其特征在于,所述整体的环境模型训练损失函数的获取方法为:
步骤231、获取极大似然的损失函数LML
步骤232、获取一致性约束的损失函数LKL采用KL距离作为度量;
步骤233、根据极大似然和一致性约束的损失函数得到整体的环境模型训练损失函数Ltotal为:
Ltotal=LML+λ*LKL
式中,λ表示权重。
7.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤4中,训练方法包括以下步骤:
步骤41、Critic部分对状态动作进行评估,Actor部分即为选择动作的策略;
步骤42、更新Q函数网络和策略网络的参数,并每隔预先设定时间更新Q-target函数网络参数。
8.如权利要求7所述强化学习机器人控制方法,其特征在于,所述步骤42中,更新方法为:
Figure FDA0003147644130000021
Figure FDA0003147644130000022
Figure FDA0003147644130000023
其中,
Figure FDA0003147644130000024
表示Q-target函数网络参数,φ表示策略网络参数,ψ表示Q网络参数,
Figure FDA0003147644130000025
表示对JQ的参数ψ求梯度,
Figure FDA0003147644130000026
表示对Jπ的参数φ求梯度,ω,ωπ和ωQ分别相应的更新步长。
9.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤5中,收敛条件为:与环境交互的次数大于预先设定的数值。
10.一种基于一致性约束建模的强化学习机器人控制系统,其特征在于,包括:初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块;
所述初始化模块,用于初始化环境和各网络参数;
所述环境模型训练模块,利用与真实环境的交互数据训练环境模型;
所述数据交互模块,利用策略网络πφ与训练后的环境模型交互,将交互数据存放在数据存放器Dmodel中;
所述策略训练模块,根据环境模型,采用Soft Actor-Critic方法进行策略训练;
所述收敛模块,重复执行所述环境模型训练模块、所述数据交互模块和所述策略训练模块,直至收敛。
CN202110768179.5A 2021-07-05 2021-07-05 基于一致性约束建模的强化学习机器人控制方法及系统 Active CN113485107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110768179.5A CN113485107B (zh) 2021-07-05 2021-07-05 基于一致性约束建模的强化学习机器人控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110768179.5A CN113485107B (zh) 2021-07-05 2021-07-05 基于一致性约束建模的强化学习机器人控制方法及系统

Publications (2)

Publication Number Publication Date
CN113485107A true CN113485107A (zh) 2021-10-08
CN113485107B CN113485107B (zh) 2023-08-22

Family

ID=77941792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110768179.5A Active CN113485107B (zh) 2021-07-05 2021-07-05 基于一致性约束建模的强化学习机器人控制方法及系统

Country Status (1)

Country Link
CN (1) CN113485107B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293334A (zh) * 2022-08-11 2022-11-04 电子科技大学 基于模型的高样本率深度强化学习的无人设备控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101964019A (zh) * 2010-09-10 2011-02-02 北京航空航天大学 基于Agent技术的对抗行为建模仿真平台及仿真方法
CN106921194A (zh) * 2017-03-17 2017-07-04 中国农业大学 采集器无线充电方法、采集器、控制终端及系统
CN109299237A (zh) * 2018-09-26 2019-02-01 苏州大学 基于行动者评论家强化学习算法的循环网络人机对话方法
CN112615379A (zh) * 2020-12-10 2021-04-06 浙江大学 基于分布式多智能体强化学习的电网多断面功率自动控制方法
CN112886039A (zh) * 2021-01-11 2021-06-01 清华大学深圳国际研究生院 一种基于强化学习的压水堆堆芯自动控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101964019A (zh) * 2010-09-10 2011-02-02 北京航空航天大学 基于Agent技术的对抗行为建模仿真平台及仿真方法
CN106921194A (zh) * 2017-03-17 2017-07-04 中国农业大学 采集器无线充电方法、采集器、控制终端及系统
CN109299237A (zh) * 2018-09-26 2019-02-01 苏州大学 基于行动者评论家强化学习算法的循环网络人机对话方法
CN112615379A (zh) * 2020-12-10 2021-04-06 浙江大学 基于分布式多智能体强化学习的电网多断面功率自动控制方法
CN112886039A (zh) * 2021-01-11 2021-06-01 清华大学深圳国际研究生院 一种基于强化学习的压水堆堆芯自动控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
白勇: "基于强化学习Actor-Critic算法的音乐生成", 《 计算机应用与软件》 *
赖俊: "分层强化学习综述", 《计算机工程与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293334A (zh) * 2022-08-11 2022-11-04 电子科技大学 基于模型的高样本率深度强化学习的无人设备控制方法
CN115293334B (zh) * 2022-08-11 2024-09-27 电子科技大学 基于模型的高样本率深度强化学习的无人设备控制方法

Also Published As

Publication number Publication date
CN113485107B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
JP6824382B2 (ja) 複数の機械学習タスクに関する機械学習モデルのトレーニング
US20230029460A1 (en) Method, apparatus, and device for scheduling virtual objects in virtual environment
JP7258965B2 (ja) ニューラルネットワークを使用する強化学習のための行動選択
Brys et al. Reinforcement learning from demonstration through shaping
Xu et al. Learning to explore via meta-policy gradient
Schaal et al. Learning control in robotics
US11403513B2 (en) Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy
CN110692066A (zh) 使用多模态输入选择动作
WO2020152364A1 (en) Multi-agent reinforcement learning with matchmaking policies
CN113419424B (zh) 减少过估计的模型化强化学习机器人控制方法及系统
CN111026272B (zh) 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
Weinstein et al. Open-loop planning in large-scale stochastic domains
US20220395975A1 (en) Demonstration-conditioned reinforcement learning for few-shot imitation
US12005580B2 (en) Method and device for controlling a robot
WO2018227820A1 (zh) 控制机械臂运动的方法及装置、存储介质和终端设备
Jia et al. Improving policy optimization with generalist-specialist learning
CN116050505A (zh) 一种基于伙伴网络的智能体深度强化学习方法
CN113485107B (zh) 基于一致性约束建模的强化学习机器人控制方法及系统
Jang et al. AVAST: Attentive variational state tracker in a reinforced navigator
Chen et al. C 2: Co-design of Robots via Concurrent-Network Coupling Online and Offline Reinforcement Learning
CN115903901A (zh) 内部状态未知的无人集群系统输出同步优化控制方法
US11710301B2 (en) Apparatus for Q-learning for continuous actions with cross-entropy guided policies and method thereof
KR20230010746A (ko) 상대 엔트로피 q-러닝을 사용한 액션 선택 시스템 트레이닝
Hachiya et al. Efficient sample reuse in EM-based policy search
Yin et al. Random Network Distillation Based Deep Reinforcement Learning for AGV Path Planning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant