CN114662404B - 规则数据双驱动的机器人复杂操作过程人机混合决策方法 - Google Patents

规则数据双驱动的机器人复杂操作过程人机混合决策方法 Download PDF

Info

Publication number
CN114662404B
CN114662404B CN202210364512.0A CN202210364512A CN114662404B CN 114662404 B CN114662404 B CN 114662404B CN 202210364512 A CN202210364512 A CN 202210364512A CN 114662404 B CN114662404 B CN 114662404B
Authority
CN
China
Prior art keywords
robot
rule
parameter
parameters
operation process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210364512.0A
Other languages
English (en)
Other versions
CN114662404A (zh
Inventor
刘星
黄攀峰
刘正雄
常海涛
马志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210364512.0A priority Critical patent/CN114662404B/zh
Publication of CN114662404A publication Critical patent/CN114662404A/zh
Application granted granted Critical
Publication of CN114662404B publication Critical patent/CN114662404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种规则数据双驱动的机器人复杂操作过程人机混合决策方法,包括:步骤1)定义机器人操控过程的马尔科夫决策过程;步骤2)设计机器人操控过程的基于规则的参数化策略;步骤3)对规则参数的期望值进行初始化;步骤4)生成机器人操作过程的N个控制策略;步骤5)将操作控制策略逐次发送给机器人,测量所述机器人的实际位置、实际速度、执行时间和接触力数据并计算累加奖励函数;步骤6)估计机器人操作过程值函数;步骤7)调整规则参数;步骤8)如果调整后的规则参数收敛,则使用当前规则参数执行操控任务,否则,则返回步骤3)继续执行。其解决了复杂操作场景下机器人操作技能学习过程操作策略难求解、收敛慢的问题。

Description

规则数据双驱动的机器人复杂操作过程人机混合决策方法
技术领域
本发明属于人-机器人协作操作控制技术领域,具体涉及一种规则数据双驱动的机器人复杂操作过程人机混合决策方法。
背景技术
人机混合智能作为人工智能2.0的重要方向,是一种颠覆性的人工智能技术,它旨在通过人机协作的方式,提高人机协作系统的综合性能,使得人类智能和人工智能的结合成为最高效的解决复杂任务问题的基本方式。当前的人工智能技术在解决以环境高复杂、边界不确定、博弈强对抗、响应强实时和样本稀疏为主要特征的复杂操控问题上还存在较大挑战,人机混合智能概念的出现给解决机器人复杂操作控制问题提供了可行的途径。
发明内容
本发明的目的是提供一种规则数据双驱动的机器人复杂操作过程人机混合决策方法,以解决复杂操作场景下机器人操作技能学习过程操作策略难求解、收敛慢的问题。
本发明采用以下技术方案:规则数据双驱动的机器人复杂操作过程人机混合决策方法,包括以下步骤:
步骤1)定义机器人操控过程的马尔科夫决策过程<S,A,p,R,S0,γ>,设计机器人操作过程的状态空间S、动作空间A以及奖励函数R、状态转移概率为p,奖励函数为R,S0为状态初值,γ为折扣率;
步骤2)设计所述步骤1)中的机器人操控过程的基于规则的参数化策略,并得到规则参数;
步骤3)对步骤2中得到的所述规则参数的期望值进行初始化,并设计所述规则参数的分布为高斯分布,并人为设置参数的探索方向和探索方差;
步骤4)根据步骤3中规则参数的概率分布情况,生成机器人操作过程的N个控制策略;
步骤5)将步骤4生成的N个操作控制策略逐次发送给机器人,所述机器人每次执行操作任务的过程中,测量所述机器人的实际位置、实际速度、执行时间和接触力数据,并计算所述机器人每次执行操作任务过程中的累加奖励函数;
步骤6)利用步骤5)中累加奖励的概率分布估计机器人操作过程值函数;
步骤7)利用步骤6)估计得值函数的策略梯度调整经所述步骤3中初始化的规则参数;
步骤8)如果经步骤7)调整后的规则参数收敛,则使用当前规则参数执行操控任务,否则,则返回步骤3)步继续执行,直至算法收敛。
进一步的,步骤2)具体为:
采用参数化规则,构建人-机器人协作操控系统参数化规则网络;将机器人操作过程中的状态参数st作为输入信号输入到规则网络模型中,得到机器人控制输出,如下:
at=πθ(st),
其中,St表示机器人-环境交互系统状态参数,θ表示参数化规则中的规则参数,π表示机器人参数化策略。
进一步的,步骤3)中,初始化的规则参数由人员示教数据提取得到,或由人员根据操作经验指定;算法迭代过程中的规则参数的探索方向和探索方差由人员根据先验经验设定。
进一步的,步骤7)中,利用累加奖励概率分布方法近似目标值函数;对每个参数来说,从高斯随机分布中取得N个参数值,其中,高斯分布的取值方向和方差由人为根据经验确定,以加快策略搜索速度;每个参数值运行M回合,得到M个累加奖励值,利用累加奖励的概率分布对这M个奖励值进行计算得到参数θi的期望奖励值,然后再对N个参数的平均奖励值求平均作为参数θ的期望奖励值。
本发明的有益效果是:本发明采用了基于规则数据双驱动的机器人复杂操作过程最优控制方法,可以在保证完成操作任务的情况下,机器人操作过程性能最佳。通过设计基于规则的强化学习方法,能够提高算法对操作人员的透明性。基于规则的强化学习方法,可以有效地缩小强化学习算法的搜索空间,使得迭代过程计算量更小,收敛时间更短,且控制精度更高。该控制方法可实现复杂操作过程中,机器人与被操作物体之间的接触力较小,机器人操作过程时间缩短,同时控制算法具有更快的收敛速度。
附图说明
图1为本发明规则数据双驱动的机器人复杂操作过程人机混合决策方法的流程图;
图2为本发明的融合操控规则与强化学习的机器人操作控制策略生成方法图;
图3-1为本发明实施例中的参数1初始值=0.06,参数2初始值=-0.7时规则数据双驱动的强化学习算法累加奖励值的收敛过程图;
图3-2为本发明实施例中的参数1初始值=0.06,参数2初始值=-0.7时规则数据双驱动的强化学习算法参数1的收敛过程图;
图3-3为本发明实施例中的参数1初始值=0.06,参数2初始值=-0.7时规则数据双驱动的强化学习算法参数2的收敛过程图;
图4-1为本发明实施例中的参数1初始值=0.05,参数2初始值=-0.7时规则数据双驱动的强化学习算法累加奖励值的收敛过程图;
图4-2为本发明实施例中的参数1初始值=0.05,参数2初始值=-0.7时规则数据双驱动的强化学习算法参数1的收敛过程图;
图4-3为本发明实施例中的参数1初始值=0.05,参数2初始值=-0.7时规则数据双驱动的强化学习算法参数2的收敛过程图;
图5-1为本发明实施例中的参数1初始值=0.04,参数2初始值=-0.7时规则数据双驱动的强化学习算法累加奖励值的收敛过程图;
图5-2为本发明实施例中的参数1初始值=0.04,参数2初始值=-0.7时规则数据双驱动的强化学习算法参数1的收敛过程图;
图5-3为本发明实施例中的参数1初始值=0.04,参数2初始值=-0.7时规则数据双驱动的强化学习算法参数2的收敛过程图;
图6-1为本发明实施例中的参数1初始值=0.03,参数2初始值=-0.7时规则数据双驱动的强化学习算法累加奖励值的收敛过程图;
图6-2为本发明实施例中的参数1初始值=0.03,参数2初始值=-0.7时规则数据双驱动的强化学习算法参数1的收敛过程图;
图6-3为本发明实施例中的参数1初始值=0.03,参数2初始值=-0.7时规则数据双驱动的强化学习算法参数2的收敛过程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提供了一种规则数据双驱动的机器人复杂操作过程人机混合决策方法,如图1所示,对人机协作操控系统进行建模,研究人机协同操作过程中的规则生成、策略参数化、奖励函数构建、强化学习策略优化等关键技术,设计规则数据双驱动的人机混合智能决策算法框架,本发明的具体实施步骤如下所示:
步骤1):定义机器人操控过程的马尔科夫决策过程<S,A,p,R,S0,γ>,设计机器人操作过程的状态空间S、动作空间A以及奖励函数R、状态转移概率为p,奖励函数为R,S0为状态初值,γ为折扣率;
步骤2):在此基础上,采用参数化规则结构,构建人-机器人协作操控系统参数化规则网络。将机器人操作过程中的状态参数st作为输入信号输入到规则网络模型中,得到机器人控制输出,如式(1)所示。
at=πθ(st) (1),
其中,St表示机器人-环境交互系统状态参数,θ表示参数化规则中的可调参数。
步骤3):对步骤2中得到的所述规则参数的期望值进行初始化,并设计所述规则参数的分布为高斯分布,并人为设置参数的探索方向和探索方差;
步骤4):根据步骤3中规则参数的概率分布情况,生成机器人操作过程的N个控制策略;所述步骤4)中,根据步骤3)人为设置的规则参数探索方向和探索方差,生成机器人操作过程的N个控制策略πθ(st)。
步骤5):将步骤4生成的N个操作控制策略逐次发送给机器人,所述机器人每次执行操作任务的过程中,测量所述机器人的实际位置、实际速度、执行时间和接触力数据,并计算所述机器人每次执行操作任务过程中的累加奖励函数。
步骤6):利用步骤5)中累加奖励的概率分布估计机器人操作过程值函数;
步骤7):用步骤6)估计得值函数的策略梯度调整经所述步骤3中初始化的规则参数;
步骤8):如果经步骤7)调整后的规则参数收敛,则使用当前规则参数执行操控任务,否则,则返回步骤3)步继续执行,直至算法收敛。利用梯度上升法和动量匹配法调整规则参数。
在一些实施例中,步骤2)具体为:
采用参数化规则,构建人-机器人协作操控系统参数化规则网络;将机器人操作过程中的状态参数st作为输入信号输入到规则网络模型中,得到机器人控制输出,如下:
at=πθ(st),
其中,St表示机器人-环境交互系统状态参数,θ表示参数化规则中的规则参数,π表示机器人参数化策略。
在一些实施例中,所述步骤3)中,初始化的规则参数由人员示教数据提取得到,或由人员根据操作经验指定;算法迭代过程中的规则参数的探索方向和探索方差由人员根据先验经验设定。
在一些实施例中,所述步骤7)中,利用累加奖励概率分布方法近似目标值函数;对每个参数来说,从高斯随机分布中取得N个参数值,其中,高斯分布的取值方向和方差由人为根据经验确定,以加快策略搜索速度;每个参数值运行M回合,得到M个累加奖励值,利用累加奖励的概率分布对这M个奖励值进行计算得到参数θi的期望奖励值,然后再对N个参数的平均奖励值求平均作为参数θ的期望奖励值。
实施例
以一个典型的机器人移动物体的操作任务为实施例,探究规则数据双驱动强化学习方法的执行效果。
为了探究多参数对规则数据双驱动强化学习收敛过程的影响,同时更加符合实际情况,我们使用包含双参数theta和beta的规则强化学习,直接在原有theta初值上加上对beta的探索。
我们在theta=0.03,0.04,0.05,0.06,beta=-0.7开始直接进行双参数探索,其他beta初值的情况由于电脑限制没有进行仿真。
直接进行双参数探索的结果没有超过单参数的最优值,且迭代收敛时间明显增加,但收敛后的波动程度明显下降。这说明二元函数的随机梯度下降法速度下降,这是因为二元函数空间多了两个维度,因此需要更加充足的探索。不同处值的探索图像如下图3-1至图6-3所示。
选取了机器人操作过程中两个规则参数,即参数1和参数2的四组值,分别进行了迭代计算。图3-1、图4-1、图5-1、图6-1分别表示奖励累加值随迭代次数的收敛情况,图3-2、图4-2、图5-2、图6-2分别表示参数1的值随迭代次数的收敛情况,图3-3、图4-3、图5-3、图6-3分别表示参数2的值随迭代次数的收敛情况。
图3-1至图6-3这九幅图说明了在不同的规则参数theta和beta取值的情况下,规则数据双驱动的强化学习方法均取得了非常快的收敛速度,经过10-20次迭代即实现了收敛,而传统强化学习方法通常需要经过数百甚至数千次迭代才能收敛,因此本发明提出算法的收敛速度远远快于传统强化学习算法。
本发明将传统的基于规则的策略与强化学习(RL)相结合,以实现透明性和鲁棒性。一方面,使用手工制作的基于规则的控制器可以提高透明度,也就是说,始终可以确定做出给定决定的原因,但它们难以扩展到复杂的操作场景,其中需要考虑复杂的环境变化。另一方面,黑盒强化学习方法使我们能够处理更复杂的操作场景,但它们通常难以解释。在本发明中,我们通过设计基于参数化规则的控制器,将这两种方法的最佳特性结合起来,其中可解释的规则可以由领域专家提供,其参数可以通过强化学习方法进行优化。
本发明提出一种基于参数化规则与强化学习相结合的机器人复杂操控策略生成方法。如图2所示,首先将策略建模为参数化规则形式,并使用强化学习算法优化其参数。本发明提出的机器人操控策略结合了基于规则的控制器和强化学习两种方法,集成了这两种方法的优点。具体来说,本发明的目标是保持基于规则的控制器的安全性和透明性,同时利用强化学习的泛化能力增强它们。为此,我们设计了一个基于规则的参数化策略,即基于规则的控制器,其中规则是根据一组参数定义的,这些规则库,同时能够根据实际进行自适应扩充和完善;规则参数的初始值是手动设置的,同时规则化控制策略的参数是通过使用强化学习算法与环境交互来学习的。本发明提出的人机混合智能决策框架是通用的,执行过程可以用于各种人机协作任务场景。

Claims (3)

1.规则数据双驱动的机器人复杂操作过程人机混合决策方法,其特征在于,包括以下步骤:
步骤1)定义机器人操控过程的马尔科夫决策过程<S,A,p,R,S0,γ>,设计机器人操作过程的状态空间S、动作空间A以及奖励函数R、状态转移概率为p,奖励函数为R,S0为状态初值,γ为折扣率;
步骤2)设计所述步骤1)中的机器人操控过程的基于规则的参数化策略,并得到规则参数;
所述步骤2)具体为:
采用参数化规则,构建人-机器人协作操控系统参数化规则网络;将机器人操作过程中的状态参数st作为输入信号输入到规则网络模型中,得到机器人控制输出,如下:
at=πθ(st),
其中,St表示机器人-环境交互系统状态参数,θ表示参数化规则中的规则参数,π表示机器人参数化策略;
步骤3)对步骤2中得到的所述规则参数的期望值进行初始化,并设计所述规则参数的分布为高斯分布,并人为设置参数的探索方向和探索方差;
步骤4)根据步骤3中规则参数的概率分布情况,生成机器人操作过程的N个控制策略;
步骤5)将步骤4生成的N个操作控制策略逐次发送给机器人,所述机器人每次执行操作任务的过程中,测量所述机器人的实际位置、实际速度、执行时间和接触力数据,并计算所述机器人每次执行操作任务过程中的累加奖励函数;
步骤6)利用步骤5)中累加奖励的概率分布估计机器人操作过程值函数;
步骤7)利用步骤6)估计得值函数的策略梯度调整经所述步骤3中初始化的规则参数;
步骤8)如果经步骤7)调整后的规则参数收敛,则使用当前规则参数执行操控任务,否则,则返回步骤3)步继续执行,直至算法收敛。
2.如权利要求1所述的规则数据双驱动的机器人复杂操作过程人机混合决策方法,其特征在于,所述步骤3)中,初始化的规则参数由人员示教数据提取得到,或由人员根据操作经验指定;算法迭代过程中的规则参数的探索方向和探索方差由人员根据先验经验设定。
3.如权利要求1或2所述的规则数据双驱动的机器人复杂操作过程人机混合决策方法,其特征在于,所述步骤7)中,利用累加奖励概率分布方法近似目标值函数;对每个参数来说,从高斯随机分布中取得N个参数值,其中,高斯分布的取值方向和方差由人为根据经验确定,以加快策略搜索速度;每个参数值运行M回合,得到M个累加奖励值,利用累加奖励的概率分布对这M个奖励值进行计算得到参数θi的期望奖励值,然后再对N个参数的平均奖励值求平均作为参数θ的期望奖励值。
CN202210364512.0A 2022-04-07 2022-04-07 规则数据双驱动的机器人复杂操作过程人机混合决策方法 Active CN114662404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210364512.0A CN114662404B (zh) 2022-04-07 2022-04-07 规则数据双驱动的机器人复杂操作过程人机混合决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210364512.0A CN114662404B (zh) 2022-04-07 2022-04-07 规则数据双驱动的机器人复杂操作过程人机混合决策方法

Publications (2)

Publication Number Publication Date
CN114662404A CN114662404A (zh) 2022-06-24
CN114662404B true CN114662404B (zh) 2024-04-30

Family

ID=82035489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210364512.0A Active CN114662404B (zh) 2022-04-07 2022-04-07 规则数据双驱动的机器人复杂操作过程人机混合决策方法

Country Status (1)

Country Link
CN (1) CN114662404B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021157004A1 (zh) * 2020-02-06 2021-08-12
CN113625569A (zh) * 2021-08-12 2021-11-09 中国人民解放军32802部队 一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法及系统
CN114217524A (zh) * 2021-11-18 2022-03-22 国网天津市电力公司电力科学研究院 一种基于深度强化学习的电网实时自适应决策方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11605026B2 (en) * 2020-05-15 2023-03-14 Huawei Technologies Co. Ltd. Methods and systems for support policy learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021157004A1 (zh) * 2020-02-06 2021-08-12
CN113625569A (zh) * 2021-08-12 2021-11-09 中国人民解放军32802部队 一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法及系统
CN114217524A (zh) * 2021-11-18 2022-03-22 国网天津市电力公司电力科学研究院 一种基于深度强化学习的电网实时自适应决策方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
动作预测在多机器人强化学习协作中的应用;曹洁;朱宁宁;;计算机工程与应用;20130415(第08期);全文 *
基于值函数和策略梯度的深度强化学习综述;刘建伟;高峰;罗雄麟;;计算机学报;20181022(第06期);全文 *

Also Published As

Publication number Publication date
CN114662404A (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
Li et al. A policy search method for temporal logic specified reinforcement learning tasks
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
Li et al. Temporal logic guided safe reinforcement learning using control barrier functions
WO2023102962A1 (zh) 一种训练端到端的自动驾驶策略的方法
Puranic et al. Learning from demonstrations using signal temporal logic in stochastic and continuous domains
WO2019222634A1 (en) Data-efficient hierarchical reinforcement learning
CN112930541A (zh) 通过最小化妄想影响来确定控制策略
JP2024506025A (ja) 短期記憶ユニットを有する注意ニューラルネットワーク
Yao et al. Sample efficient reinforcement learning via model-ensemble exploration and exploitation
KR20220154785A (ko) 다중 태스크 강화 학습에서 메타-그래디언트를 사용한 액션 선택을 위한 학습 옵션
Bai et al. Variational dynamic for self-supervised exploration in deep reinforcement learning
David et al. DEVS model construction as a reinforcement learning problem
CN116147627A (zh) 一种结合深度强化学习和内在动机的移动机器人自主导航方法
Mustafa Towards continuous control for mobile robot navigation: A reinforcement learning and slam based approach
CN114662404B (zh) 规则数据双驱动的机器人复杂操作过程人机混合决策方法
Rabault et al. 18 Deep Reinforcement Learning Applied to Active Flow Control
Tong et al. Enhancing rolling horizon evolution with policy and value networks
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
CN116306947A (zh) 一种基于蒙特卡洛树探索的多智能体决策方法
KR20230010746A (ko) 상대 엔트로피 q-러닝을 사용한 액션 선택 시스템 트레이닝
Zarrouki Reinforcement learning of model predictive control parameters for autonomous vehicle guidance
Deng et al. Context-Enhanced Meta-Reinforcement Learning with Data-Reused Adaptation for Urban Autonomous Driving
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
Cheng et al. Prioritized experience replay in DDPG via multi-dimensional transition priorities calculation
Dhavala et al. An extensive review of applications, methods and recent advances in deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant