CN116822655B - 自动化控制的训练过程的加速方法 - Google Patents

自动化控制的训练过程的加速方法 Download PDF

Info

Publication number
CN116822655B
CN116822655B CN202311068474.5A CN202311068474A CN116822655B CN 116822655 B CN116822655 B CN 116822655B CN 202311068474 A CN202311068474 A CN 202311068474A CN 116822655 B CN116822655 B CN 116822655B
Authority
CN
China
Prior art keywords
state
time window
value
rollback
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311068474.5A
Other languages
English (en)
Other versions
CN116822655A (zh
Inventor
陈兴国
陈泽宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202311068474.5A priority Critical patent/CN116822655B/zh
Publication of CN116822655A publication Critical patent/CN116822655A/zh
Application granted granted Critical
Publication of CN116822655B publication Critical patent/CN116822655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了自动化控制的训练过程的加速方法,包括:建立强化学习环境,初始化砖瓦编码器;初始化时间窗口、时间窗口最大值和回退间隔;判断智能体的当前步数是否与上一次回退时的步数相差了一个回退间隔,若是,则智能体回退到时间窗口中具有最大Q值的状态,并选择Q值最大的动作A进行执行;若否,则选择智能体将要执行的动作A;执行动作A,获得奖励与下一状态的信息;智能体学习并进行瓦片化网格更新;维护时间窗口大小并将当前状态更新为下一状态;判断当前状态是否是终点,若是,则结束该轮训练;若否,则进行循环。本发明通过在训练过程中进行回退,加速智能体的训练速度,缩短训练时间,提高训练效率,节省算力资源。

Description

自动化控制的训练过程的加速方法
技术领域
本发明涉及一种自动化控制的训练过程的加速方法,属于分析方法技术领域。
背景技术
目前,在工程领域中,自动化控制的合理使用可以提高效率与安全性,如工程特种车辆的自动化作业,而强化学习是实现自动化控制的重要途经之一。将工程任务建模为强化学习环境,在虚拟环境中利用强化学习知识对智能体进行训练以获得最优控制策略。然而,在一些复杂工程任务和稀疏奖励的强化学习环境中,智能体学得最优策略需要大量的时间,耗费大量的算力。
有鉴于此,确有必要提出一种自动化控制的训练过程的加速方法,以解决上述问题。
发明内容
本发明的目的在于提供一种自动化控制的训练过程的加速方法,该方法能够加快最优控制的训练过程。
为实现上述目的,本发明提供一种自动化控制的训练过程的加速方法,用于对工程特种车辆作业的自动化控制的训练过程进行加速,包括以下步骤:
S1、针对智能体的作业要求建立强化学习环境,初始化砖瓦编码器;
S2、在每一轮训练开始时,初始化时间窗口、时间窗口最大值和回退间隔;
S3、判断智能体的当前步数是否与上一次回退时的步数相差了一个回退间隔,若是,则智能体回退到时间窗口中具有最大Q值的状态,并选择此具有最大Q值的状态下Q值最大的动作A,并进入S5;若否,则进入S4;
S4、通过方法选择智能体将要执行的动作A;
S5、执行动作A,获得奖励与下一状态的信息;
S6、智能体进行学习,完成相应瓦片化网格的更新;
S7、将当前状态加入到时间窗口中,维护时间窗口大小并将当前状态更新为下一状态;
S8、判断当前状态是否是终点,若是,则结束该轮训练;若否,则进入S3进行循环。
作为本发明的进一步改进,S1中:根据特种车辆的作业要求进行强化学习环境的建模,将智能体完成任务时的奖励设为0,未完成要求时的每个时间步奖励设为-1。
作为本发明的进一步改进,S2中:在每轮训练开始时会初始化一个时间窗口用来保存智能体曾经访问过的状态;初始化时间窗口的最大值用来控制时间窗口中记录的状态数量;初始化回退间隔用来控制智能体每走多少步进行一次回退。
作为本发明的进一步改进,S2中:所述回退间隔的增长方式为线性增长,具体为:
其中,表示回退间隔,/>表示回退间隔增长率,/>表示当前训练轮数,/>为一个常数,表示回退间隔的初始值。
作为本发明的进一步改进,S3中:若回退时回退到的状态不是当前状态,则会受到惩罚;若是当前状态,则不会受到惩罚。
作为本发明的进一步改进,若智能体当前步数与上一次回退时的步数相差了一个回退间隔,则从当前的时间窗口所有状态中选出具有最大Q值的状态,让智能体回退到该具有最大Q值的状态,并选择最大Q值的动作,同时步数+1。
作为本发明的进一步改进,智能体回退的同时减少回退前状态的每个动作的Q值,减少幅度一致,以减少对回退前的状态的访问。
作为本发明的进一步改进,若时间窗口中具有最大Q值的状态为当前状态,智能体不会回退到过去的状态。
作为本发明的进一步改进,S6中:所述瓦片化网格的更新包括Q值的更新,更新公式为:
其中,为状态动作值函数,/>为当前状态,/>为选择的动作,/>为学习率,/>为折扣因子,/>为智能体在状态/>下执行动作/>所获得的奖励,/>为下一状态。
作为本发明的进一步改进,S7中:智能体在将当前状态更新为下一状态前,将当前状态加入到时间窗口中,若时间窗口大小超过时间窗口最大值,则删除最早进入时间窗口的状态,使得时间窗口大小固定。
本发明的有益效果是:本发明的自动化控制的训练过程的加速方法通过在训练过程中进行回退,加速工程特种车辆自动化作业的训练速度,避免在一些重复状态上浪费大量时间,从而缩短训练时间,提高训练效率,节省算力资源。
附图说明
图1是本发明优选实施例中自动化控制的训练过程的加速方法的整体流程图。
图2是实施例1中所使用的自动化控制的训练过程的加速方法与传统训练方法的收敛速度对比图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1与图2所示,本发明提供了一种自动化控制的训练过程的加速方法,用于对工程特种车辆作业的自动化控制的训练过程进行加速,通过在训练过程中进行回退,能够提高收敛到最优策略的速度,使得工程特种车辆更快学习到自动化作业的最优方案,包括以下步骤:
S1、针对智能体的作业要求建立强化学习环境,初始化砖瓦编码器。
其中,根据智能体的作业要求进行强化学习环境的建模,将智能体完成任务时的奖励设为0,未完成要求时的每个时间步奖励设为-1。
S2、在每一轮训练开始时,初始化时间窗口、时间窗口最大值和回退间隔。
其中,在每轮训练开始时会初始化一个时间窗口用来保存智能体曾经访问过的状态;初始化时间窗口的最大值用来控制时间窗口中记录的状态数量;初始化回退间隔用来控制智能体每走多少步进行一次回退。
回退间隔的增长方式为线性增长,具体为:
其中,表示回退间隔,/>表示回退间隔增长率,/>表示当前训练轮数,/>为一个常数,表示回退间隔的初始值。
S3、判断智能体当前步数是否与上一次回退时的步数相差了一个回退间隔,若是,则智能体回退到时间窗口中具有最大Q值的状态,并选择此具有最大Q值的状态下Q值最大的动作A,并进入S5;若否,则进入S4。
其中,若回退时回退到的状态不是当前状态,则会受到惩罚;若是当前状态,则不会受到惩罚。动作A具体为控制车辆前进、后退或停止的动作,当然,在其他实施例中,还可以是转弯等其他动作。
具体的,若智能体的当前步数与上一次回退时的步数相差了一个回退间隔,则从当前的时间窗口所有状态中选出具有最大Q值的状态,让智能体回退到该状态,并选择最大Q值的动作,同时步数+1。
智能体回退的同时减少回退前状态的每个动作的Q值,减少幅度一致,以减少对该状态的访问。
若时间窗口中具有最大Q值的状态为当前状态,智能体不会回退到过去的状态,无需进行惩罚,也无需将步数+1。
S4、通过方法选择智能体将要执行的动作A。
S5、执行动作A,查看奖励与下一状态。
S6、智能体进行学习,完成相应瓦片化网格的更新。
具体的,瓦片化网格的更新包括Q值的更新,更新公式为:
其中,为状态动作值函数,/>为当前状态,/>为选择的动作,/>为学习率,/>为折扣因子,/>为智能体在状态/>下执行动作/>所获得的奖励,/>为下一状态。
S7、将当前状态加入到时间窗口中,维护时间窗口大小并将当前状态更新为下一状态。
其中,智能体在将当前状态更新为下一状态前,将当前状态加入到时间窗口中,若时间窗口大小超过时间窗口最大值,则删除最早进入时间窗口的状态,使得时间窗口大小固定。
S8、判断当前状态是否是终点,若是,则结束该轮训练;若否,则进入S3进行循环。
为了便于理解上述步骤,以下内容将针对上述步骤进行具体说明:
S1、根据智能体的作业要求及环境搭建强化学习环境模型,模型一般设为稀疏奖励环境,当然,也可以用于复杂工程人任务。将智能体完成任务时的奖励设为0,未完成要求时每个时间步奖励设为-1。环境奖励的设置一定程度上依赖于专家知识,将对智能体对环境的探索与学习产生至关重要的影响,将环境设为稀疏奖励环境能够在一定程度上避免对专家知识的依赖,简化问题模型,避免在环境建立方面耗费过多时间。其中,智能体包括工程车辆。
具体的,在搭建环境模型的同时将状态空间瓦片化,初始化砖瓦编码器,在实际应用中可以不使用瓦片编码的方式获取对状态动作值的估计,也可以使用神经网络,输入状态、动作,返回相应Q值,此处不做限制。
S2、将在每一轮训练开始时初始化一系列参数,包括:一个空的时间窗口,时间窗口最大值,该轮训练的回退间隔。时间窗口用来保存智能体曾经访问过的状态;时间窗口最大值用来控制时间窗口的容量;回退间隔用来控制智能体回退的频率,即智能体每走多少步进行一次回退。由于引入了回退惩罚机制,在训练过程中逐步调大回退间隔,以减小回退惩罚对最优策略收敛的影响。
实验中回退间隔的增长方式为线性增长,具体为:
其中,表示回退间隔,/>表示回退间隔增长率,/>表示当前训练轮数,/>为一个常数,表示回退间隔的初始值。在实验模型中,我们采取的增长率和初始回退间隔为
S3、若智能体满足回退条件:当前步数与上一次回退时步数相差一个回退间隔,则从当前的时间窗口所有状态中选出具有最大Q值的状态,让智能体回退到该具有最大Q值的状态,并选择最大Q值的动作,同时步数+1。
其中,智能体回退的同时会对回退前状态进行惩罚,以减少对回退前状态的访问。具体为:同时减少回退前状态的每个动作的Q值,减少幅度一致,这样不会影响在该状态下的策略,同时会减少对该状态的访问。
如果时间窗口中具有最大Q值的状态为当前状态,实际上智能体并没有回退到过去的状态,这时并不需要进行惩罚,也不需要将步数+1。
S4、若智能体没有进行回退,智能体将按照经典探索方法:方法去选择将要执行的动作。即智能体有/>的概率选择Q值最大的动作,有/>的概率选择随机动作。
S5、智能体执行选择好的动作A,与环境进行交互,获得奖励和下一状态的信息。
S6、智能体将根据这次与环境的交互进行学习,完成相应瓦片化网格的更新。其中,值的更新公式为:
其中,为状态动作值函数,/>为当前状态,/>为选择的动作,/>为学习率,/>为折扣因子,/>为智能体在状态/>下执行动作/>所获得的奖励,/>为下一状态。
S7、智能体在将当前状态更新为下一状态前,会将当前状态加入到时间窗口中,若时间窗口大小超过时间窗口最大值,则会删除最早进入时间窗口的状态,使得时间窗口大小固定。
S8,系统将判断当前状态是否是终止状态,若果是终止状态则结束该轮训练。
实施例1
在采矿作业车辆运输自动化控制训练上引入基于回退的训练加速,具体操作步骤如下:
S1、根据实际作业需求搭建强化学习环境模型,考虑当前作业需求如下:采矿作业车辆已于矿坑底部完成采矿作业,现需将采集的资源运输至地面仓库,搭载资源的作业车辆动力不足以一次爬升至顶部的仓库。强化学习环境搭建,采矿作业车辆即我们要训练的智能体,采矿作业车辆可以选择向前施加动力,向后施加动力及不施加动力这三个动作;采矿作业车辆每进行一步给予-1的奖励,到达地面仓库奖励为0。初始化砖瓦编码器用来获取状态动作值的估计。
S2、在每一轮训练开始时,初始化时间窗口,时间窗口最大值,回退间隔;在该实验模型中,我们将时间窗口最大值固定为5,回退间隔采用线性增加方式增加,公式为:
其中,表示回退间隔,回退间隔增长率为1,/>表示当前训练轮数,回退间隔的初始值为2。
S3、若智能体满足回退条件:即当前步数与上一次回退时的步数相差一个回退间隔,则从当前的时间窗口所有状态中选出具有最大Q值的状态,若具有最大Q值的状态不为当前状态,则让智能体回退到具有最大Q值的状态,并选择最大Q值的动作,同时步数+1,跳至S5。回退成功时会对回退前的状态进行惩罚,具体操作为对回退前的状态的每个动作的Q值减去,其中/>为学习率,实验过程中我们将/>设置为0.02。
S4、若没有进行回退,则通过方法选择智能体将要执行的动作,在实验过程中/>设为0.01。
S5、执行所选动作,观察智能体获得的奖励和下一状态。
S6、智能体进行学习,完成相应瓦片化网格的更新。
S7、将当前状态加入到时间窗口中,当前状态更新为下一状态。若时间窗口大小超过5,则会删除最早进入时间窗口的状态。
S8、判断采矿作业车辆是否到达地面仓库,若果是则结束该轮训练。
请参阅图2所示,实施例1中的在采矿作业车辆运输自动化控制训练上引入基于回退的训练加速与传统的训练方法进行对比,从图中可以看出,TD为传统训练方法,TD_back为本文所提出的回溯强化学习训练加速方法,可以看出本文所提出的方法收敛速度显著大于传统训练方法。
综上所述,本发明提供了一种自动化控制的训练过程的加速方法通过在训练过程中进行回退,加速工程特种车辆自动化作业的训练速度,避免在一些重复状态上浪费大量时间,从而缩短训练时间,提高训练效率,节省算力资源。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种自动化控制的训练过程的加速方法,用于对工程特种车辆作业的自动化控制的训练过程进行加速,其特征在于,包括以下步骤:
S1、根据采矿作业车辆的作业要求建立强化学习环境,初始化砖瓦编码器;
S2、在每一轮训练开始时,初始化时间窗口、时间窗口最大值和回退间隔,其中,回退间隔用来控制采矿作业车辆回退的频率,即采矿作业车辆每走多少步进行一次回退,在训练过程中对回退间隔采用线性增加方式增加;
S3、判断采矿作业车辆的当前步数是否与上一次回退时的步数相差了一个回退间隔,若是,则采矿作业车辆回退到时间窗口中具有最大Q值的状态,并选择此具有最大Q值的状态下Q值最大的动作A,并进入S5;若否,则进入S4;
S4、通过方法选择采矿作业车辆将要执行的动作A;
S5、执行动作A,获得奖励与下一状态的信息;
S6、采矿作业车辆进行学习,完成相应瓦片化网格的更新;
S7、将当前状态加入到时间窗口中,维护时间窗口大小并将当前状态更新为下一状态;
S8、判断采矿作业车辆是否到达地面仓库,若是,则结束该轮训练;若否,则进入S3进行循环。
2.根据权利要求1所述的自动化控制的训练过程的加速方法,其特征在于,S1中:根据采矿作业车辆的作业要求进行强化学习环境的建模,将采矿作业车辆到达地面仓库的奖励设为0,每进行一步的奖励设为-1。
3.根据权利要求1所述的自动化控制的训练过程的加速方法,其特征在于,S2中:在每轮训练开始时会初始化一个时间窗口用来保存采矿作业车辆曾经访问过的状态;初始化时间窗口的最大值用来控制时间窗口中记录的状态数量;初始化回退间隔用来控制采矿作业车辆每走多少步进行一次回退。
4.根据权利要求1所述的自动化控制的训练过程的加速方法,其特征在于,S2中:所述回退间隔的增长方式为线性增长,具体为:
其中,表示回退间隔,/>表示回退间隔增长率,/>表示当前训练轮数,/>为一个常数,表示回退间隔的初始值。
5.根据权利要求1所述的自动化控制的训练过程的加速方法,其特征在于,S3中:若回退时回退到的状态不是当前状态,则会受到惩罚;若是当前状态,则不会受到惩罚。
6.根据权利要求5所述的自动化控制的训练过程的加速方法,其特征在于:若采矿作业车辆当前步数与上一次回退时的步数相差了一个回退间隔,则从当前的时间窗口所有状态中选出具有最大Q值的状态,让采矿作业车辆回退到该具有最大Q值的状态,并选择最大Q值的动作,同时步数+1。
7.根据权利要求6所述的自动化控制的训练过程的加速方法,其特征在于:采矿作业车辆回退的同时减少回退前状态的每个动作的Q值,减少幅度一致,以减少对回退前的状态的访问。
8.根据权利要求5所述的自动化控制的训练过程的加速方法,其特征在于:若时间窗口中具有最大Q值的状态为当前状态,采矿作业车辆不会回退到过去的状态。
9.根据权利要求1所述的自动化控制的训练过程的加速方法,其特征在于,S6中:所述瓦片化网格的更新包括Q值的更新,更新公式为:
其中,为状态动作值函数,/>为当前状态,/>为选择的动作,/>为学习率,/>为折扣因子,/>为采矿作业车辆在状态/>下执行动作/>所获得的奖励,/>为下一状态。
10.根据权利要求1所述的自动化控制的训练过程的加速方法,其特征在于,S7中:采矿作业车辆在将当前状态更新为下一状态前,将当前状态加入到时间窗口中,若时间窗口大小超过时间窗口最大值,则删除最早进入时间窗口的状态,使得时间窗口大小固定。
CN202311068474.5A 2023-08-24 2023-08-24 自动化控制的训练过程的加速方法 Active CN116822655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311068474.5A CN116822655B (zh) 2023-08-24 2023-08-24 自动化控制的训练过程的加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311068474.5A CN116822655B (zh) 2023-08-24 2023-08-24 自动化控制的训练过程的加速方法

Publications (2)

Publication Number Publication Date
CN116822655A CN116822655A (zh) 2023-09-29
CN116822655B true CN116822655B (zh) 2023-11-24

Family

ID=88113009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311068474.5A Active CN116822655B (zh) 2023-08-24 2023-08-24 自动化控制的训练过程的加速方法

Country Status (1)

Country Link
CN (1) CN116822655B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107636617A (zh) * 2016-04-29 2018-01-26 慧与发展有限责任合伙企业 存储设备故障策略
CN109948836A (zh) * 2019-03-01 2019-06-28 北京国双科技有限公司 油田的注水数据的处理方法、装置、存储介质和处理器
CN113497925A (zh) * 2020-04-02 2021-10-12 深圳光峰科技股份有限公司 一种投影对焦方法及投影对焦装置
CN116001863A (zh) * 2022-12-21 2023-04-25 交控科技股份有限公司 货运列车运行控制方法、装置、电子设备及存储介质
CN116176572A (zh) * 2023-02-27 2023-05-30 长春工业大学 一种基于dqn深度强化学习的汽车紧急避撞控制方法
CN116627162A (zh) * 2023-04-03 2023-08-22 大连理工大学 基于多智能体强化学习的多无人机数据采集位置优化方法
CN116629424A (zh) * 2023-05-24 2023-08-22 大连理工大学 新型集装箱堆场作业模式的自动化双场桥智能调度方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102664367B1 (ko) * 2021-11-17 2024-05-08 부산대학교 산학협력단 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107636617A (zh) * 2016-04-29 2018-01-26 慧与发展有限责任合伙企业 存储设备故障策略
CN109948836A (zh) * 2019-03-01 2019-06-28 北京国双科技有限公司 油田的注水数据的处理方法、装置、存储介质和处理器
CN113497925A (zh) * 2020-04-02 2021-10-12 深圳光峰科技股份有限公司 一种投影对焦方法及投影对焦装置
CN116001863A (zh) * 2022-12-21 2023-04-25 交控科技股份有限公司 货运列车运行控制方法、装置、电子设备及存储介质
CN116176572A (zh) * 2023-02-27 2023-05-30 长春工业大学 一种基于dqn深度强化学习的汽车紧急避撞控制方法
CN116627162A (zh) * 2023-04-03 2023-08-22 大连理工大学 基于多智能体强化学习的多无人机数据采集位置优化方法
CN116629424A (zh) * 2023-05-24 2023-08-22 大连理工大学 新型集装箱堆场作业模式的自动化双场桥智能调度方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep Reinforcement Agent for Failure-aware Job scheduling in High-Performance Computing;Kang Yang 等;《2021 IEEE 27th International Conference on Parallel and Distributed Systems (ICPADS)》;442-449 *
基于分布式脉冲控制的非线性多智能体系统一致性研究与分析;徐自强;《中国优秀硕士学位论文全文数据库 信息科技辑》(第12期);I140-32 *
基于强化学习的移动机器人路径规划研究;高慧;《中国优秀硕士学位论文全文数据库 信息科技辑》(第10期);I140-122 *

Also Published As

Publication number Publication date
CN116822655A (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN112862281A (zh) 综合能源系统调度模型构建方法、装置、介质及电子设备
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN113051667B (zh) 一种混合动力汽车能量管理策略的加速学习方法
CN113919485B (zh) 基于动态层级通信网络的多智能体强化学习方法及系统
CN114662639A (zh) 一种基于值分解的多智能体强化学习方法及系统
CN111783994A (zh) 强化学习的训练方法和装置
CN113110052B (zh) 一种基于神经网络和强化学习的混合能量管理方法
CN116822655B (zh) 自动化控制的训练过程的加速方法
CN113780576A (zh) 基于奖励自适应分配的合作多智能体强化学习方法
CN115520188A (zh) 节能型车辆速度规划方法、系统、电子设备、存储介质
CN113313265A (zh) 基于带噪声专家示范的强化学习方法
CN112613608A (zh) 一种强化学习方法及相关装置
CN114527641A (zh) 基于人工电场算法优化的无刷直流电机模糊控制方法
Eisentraut et al. Value iteration for simple stochastic games: Stopping criterion and learning algorithm
CN117610681A (zh) 基于模仿学习和离散强化学习的自动驾驶汽车决策方法
CN115542912B (zh) 一种基于改进Q-learning算法的移动机器人路径规划方法
CN115009291B (zh) 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统
CN113723012B (zh) 一种基于多智能体生成对抗模仿安全学习的协作围捕方法
CN114219274A (zh) 一种基于深度强化学习适应机器状态的车间调度方法
CN112465338A (zh) 一种充电桩分配方法及其相关设备
CN117371639B (zh) 一种鱼雷罐运动优化方法、电子设备及可读存储介质
CN117689163B (zh) 基于图论的铁路专用线作业调控方法
CN115688858B (zh) 一种细粒度专家行为模仿学习方法、装置、介质及终端
CN117962633B (zh) 一种基于深度强化学习的电动汽车力矩分配节能控制方法
CN118095401A (zh) 仓库收纳的后状态离轨策略强化学习训练加速方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant