CN116822655B

CN116822655B - 自动化控制的训练过程的加速方法

Info

Publication number: CN116822655B
Application number: CN202311068474.5A
Authority: CN
Inventors: 陈兴国; 陈泽宁
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2023-11-24
Anticipated expiration: 2043-08-24
Also published as: CN116822655A

Abstract

本发明公开了自动化控制的训练过程的加速方法，包括：建立强化学习环境，初始化砖瓦编码器；初始化时间窗口、时间窗口最大值和回退间隔；判断智能体的当前步数是否与上一次回退时的步数相差了一个回退间隔，若是，则智能体回退到时间窗口中具有最大Q值的状态，并选择Q值最大的动作A进行执行；若否，则选择智能体将要执行的动作A；执行动作A，获得奖励与下一状态的信息；智能体学习并进行瓦片化网格更新；维护时间窗口大小并将当前状态更新为下一状态；判断当前状态是否是终点，若是，则结束该轮训练；若否，则进行循环。本发明通过在训练过程中进行回退，加速智能体的训练速度，缩短训练时间，提高训练效率，节省算力资源。

Description

自动化控制的训练过程的加速方法

技术领域

本发明涉及一种自动化控制的训练过程的加速方法，属于分析方法技术领域。

背景技术

目前，在工程领域中，自动化控制的合理使用可以提高效率与安全性，如工程特种车辆的自动化作业，而强化学习是实现自动化控制的重要途经之一。将工程任务建模为强化学习环境，在虚拟环境中利用强化学习知识对智能体进行训练以获得最优控制策略。然而，在一些复杂工程任务和稀疏奖励的强化学习环境中，智能体学得最优策略需要大量的时间，耗费大量的算力。

有鉴于此，确有必要提出一种自动化控制的训练过程的加速方法，以解决上述问题。

发明内容

本发明的目的在于提供一种自动化控制的训练过程的加速方法，该方法能够加快最优控制的训练过程。

为实现上述目的，本发明提供一种自动化控制的训练过程的加速方法，用于对工程特种车辆作业的自动化控制的训练过程进行加速，包括以下步骤：

S1、针对智能体的作业要求建立强化学习环境，初始化砖瓦编码器；

S2、在每一轮训练开始时，初始化时间窗口、时间窗口最大值和回退间隔；

S3、判断智能体的当前步数是否与上一次回退时的步数相差了一个回退间隔，若是，则智能体回退到时间窗口中具有最大Q值的状态，并选择此具有最大Q值的状态下Q值最大的动作A，并进入S5；若否，则进入S4；

S4、通过方法选择智能体将要执行的动作A；

S5、执行动作A，获得奖励与下一状态的信息；

S6、智能体进行学习，完成相应瓦片化网格的更新；

S7、将当前状态加入到时间窗口中，维护时间窗口大小并将当前状态更新为下一状态；

S8、判断当前状态是否是终点，若是，则结束该轮训练；若否，则进入S3进行循环。

作为本发明的进一步改进，S1中：根据特种车辆的作业要求进行强化学习环境的建模，将智能体完成任务时的奖励设为0，未完成要求时的每个时间步奖励设为-1。

作为本发明的进一步改进，S2中：在每轮训练开始时会初始化一个时间窗口用来保存智能体曾经访问过的状态；初始化时间窗口的最大值用来控制时间窗口中记录的状态数量；初始化回退间隔用来控制智能体每走多少步进行一次回退。

作为本发明的进一步改进，S2中：所述回退间隔的增长方式为线性增长，具体为：

；

其中，表示回退间隔，/>表示回退间隔增长率，/>表示当前训练轮数，/>为一个常数，表示回退间隔的初始值。

作为本发明的进一步改进，S3中：若回退时回退到的状态不是当前状态，则会受到惩罚；若是当前状态，则不会受到惩罚。

作为本发明的进一步改进，若智能体当前步数与上一次回退时的步数相差了一个回退间隔，则从当前的时间窗口所有状态中选出具有最大Q值的状态，让智能体回退到该具有最大Q值的状态，并选择最大Q值的动作，同时步数+1。

作为本发明的进一步改进，智能体回退的同时减少回退前状态的每个动作的Q值，减少幅度一致，以减少对回退前的状态的访问。

作为本发明的进一步改进，若时间窗口中具有最大Q值的状态为当前状态，智能体不会回退到过去的状态。

作为本发明的进一步改进，S6中：所述瓦片化网格的更新包括Q值的更新，更新公式为：

；

其中，为状态动作值函数，/>为当前状态，/>为选择的动作，/>为学习率，/>为折扣因子，/>为智能体在状态/>下执行动作/>所获得的奖励，/>为下一状态。

作为本发明的进一步改进，S7中：智能体在将当前状态更新为下一状态前，将当前状态加入到时间窗口中，若时间窗口大小超过时间窗口最大值，则删除最早进入时间窗口的状态，使得时间窗口大小固定。

本发明的有益效果是：本发明的自动化控制的训练过程的加速方法通过在训练过程中进行回退，加速工程特种车辆自动化作业的训练速度，避免在一些重复状态上浪费大量时间，从而缩短训练时间，提高训练效率，节省算力资源。

附图说明

图1是本发明优选实施例中自动化控制的训练过程的加速方法的整体流程图。

图2是实施例1中所使用的自动化控制的训练过程的加速方法与传统训练方法的收敛速度对比图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

如图1与图2所示，本发明提供了一种自动化控制的训练过程的加速方法，用于对工程特种车辆作业的自动化控制的训练过程进行加速，通过在训练过程中进行回退，能够提高收敛到最优策略的速度，使得工程特种车辆更快学习到自动化作业的最优方案，包括以下步骤：

S1、针对智能体的作业要求建立强化学习环境，初始化砖瓦编码器。

其中，根据智能体的作业要求进行强化学习环境的建模，将智能体完成任务时的奖励设为0，未完成要求时的每个时间步奖励设为-1。

S2、在每一轮训练开始时，初始化时间窗口、时间窗口最大值和回退间隔。

其中，在每轮训练开始时会初始化一个时间窗口用来保存智能体曾经访问过的状态；初始化时间窗口的最大值用来控制时间窗口中记录的状态数量；初始化回退间隔用来控制智能体每走多少步进行一次回退。

回退间隔的增长方式为线性增长，具体为：

；

S3、判断智能体当前步数是否与上一次回退时的步数相差了一个回退间隔，若是，则智能体回退到时间窗口中具有最大Q值的状态，并选择此具有最大Q值的状态下Q值最大的动作A，并进入S5；若否，则进入S4。

其中，若回退时回退到的状态不是当前状态，则会受到惩罚；若是当前状态，则不会受到惩罚。动作A具体为控制车辆前进、后退或停止的动作，当然，在其他实施例中，还可以是转弯等其他动作。

具体的，若智能体的当前步数与上一次回退时的步数相差了一个回退间隔，则从当前的时间窗口所有状态中选出具有最大Q值的状态，让智能体回退到该状态，并选择最大Q值的动作，同时步数+1。

智能体回退的同时减少回退前状态的每个动作的Q值，减少幅度一致，以减少对该状态的访问。

若时间窗口中具有最大Q值的状态为当前状态，智能体不会回退到过去的状态，无需进行惩罚，也无需将步数+1。

S4、通过方法选择智能体将要执行的动作A。

S5、执行动作A，查看奖励与下一状态。

S6、智能体进行学习，完成相应瓦片化网格的更新。

具体的，瓦片化网格的更新包括Q值的更新，更新公式为：

；

S7、将当前状态加入到时间窗口中，维护时间窗口大小并将当前状态更新为下一状态。

其中，智能体在将当前状态更新为下一状态前，将当前状态加入到时间窗口中，若时间窗口大小超过时间窗口最大值，则删除最早进入时间窗口的状态，使得时间窗口大小固定。

为了便于理解上述步骤，以下内容将针对上述步骤进行具体说明：

S1、根据智能体的作业要求及环境搭建强化学习环境模型，模型一般设为稀疏奖励环境，当然，也可以用于复杂工程人任务。将智能体完成任务时的奖励设为0，未完成要求时每个时间步奖励设为-1。环境奖励的设置一定程度上依赖于专家知识，将对智能体对环境的探索与学习产生至关重要的影响，将环境设为稀疏奖励环境能够在一定程度上避免对专家知识的依赖，简化问题模型，避免在环境建立方面耗费过多时间。其中，智能体包括工程车辆。

具体的，在搭建环境模型的同时将状态空间瓦片化，初始化砖瓦编码器，在实际应用中可以不使用瓦片编码的方式获取对状态动作值的估计，也可以使用神经网络，输入状态、动作，返回相应Q值，此处不做限制。

S2、将在每一轮训练开始时初始化一系列参数，包括：一个空的时间窗口，时间窗口最大值，该轮训练的回退间隔。时间窗口用来保存智能体曾经访问过的状态；时间窗口最大值用来控制时间窗口的容量；回退间隔用来控制智能体回退的频率，即智能体每走多少步进行一次回退。由于引入了回退惩罚机制，在训练过程中逐步调大回退间隔，以减小回退惩罚对最优策略收敛的影响。

实验中回退间隔的增长方式为线性增长，具体为：

其中，表示回退间隔，/>表示回退间隔增长率，/>表示当前训练轮数，/>为一个常数，表示回退间隔的初始值。在实验模型中，我们采取的增长率和初始回退间隔为。

S3、若智能体满足回退条件：当前步数与上一次回退时步数相差一个回退间隔，则从当前的时间窗口所有状态中选出具有最大Q值的状态，让智能体回退到该具有最大Q值的状态，并选择最大Q值的动作，同时步数+1。

其中，智能体回退的同时会对回退前状态进行惩罚，以减少对回退前状态的访问。具体为：同时减少回退前状态的每个动作的Q值，减少幅度一致，这样不会影响在该状态下的策略，同时会减少对该状态的访问。

如果时间窗口中具有最大Q值的状态为当前状态，实际上智能体并没有回退到过去的状态，这时并不需要进行惩罚，也不需要将步数+1。

S4、若智能体没有进行回退，智能体将按照经典探索方法：方法去选择将要执行的动作。即智能体有/>的概率选择Q值最大的动作，有/>的概率选择随机动作。

S5、智能体执行选择好的动作A，与环境进行交互，获得奖励和下一状态的信息。

S6、智能体将根据这次与环境的交互进行学习，完成相应瓦片化网格的更新。其中，值的更新公式为：

；

S7、智能体在将当前状态更新为下一状态前，会将当前状态加入到时间窗口中，若时间窗口大小超过时间窗口最大值，则会删除最早进入时间窗口的状态，使得时间窗口大小固定。

S8，系统将判断当前状态是否是终止状态，若果是终止状态则结束该轮训练。

实施例1

在采矿作业车辆运输自动化控制训练上引入基于回退的训练加速，具体操作步骤如下：

S1、根据实际作业需求搭建强化学习环境模型，考虑当前作业需求如下：采矿作业车辆已于矿坑底部完成采矿作业，现需将采集的资源运输至地面仓库，搭载资源的作业车辆动力不足以一次爬升至顶部的仓库。强化学习环境搭建，采矿作业车辆即我们要训练的智能体，采矿作业车辆可以选择向前施加动力，向后施加动力及不施加动力这三个动作；采矿作业车辆每进行一步给予-1的奖励，到达地面仓库奖励为0。初始化砖瓦编码器用来获取状态动作值的估计。

S2、在每一轮训练开始时，初始化时间窗口，时间窗口最大值，回退间隔；在该实验模型中，我们将时间窗口最大值固定为5，回退间隔采用线性增加方式增加，公式为：

其中，表示回退间隔，回退间隔增长率为1，/>表示当前训练轮数，回退间隔的初始值为2。

S3、若智能体满足回退条件：即当前步数与上一次回退时的步数相差一个回退间隔，则从当前的时间窗口所有状态中选出具有最大Q值的状态，若具有最大Q值的状态不为当前状态，则让智能体回退到具有最大Q值的状态，并选择最大Q值的动作，同时步数+1，跳至S5。回退成功时会对回退前的状态进行惩罚，具体操作为对回退前的状态的每个动作的Q值减去，其中/>为学习率，实验过程中我们将/>设置为0.02。

S4、若没有进行回退，则通过方法选择智能体将要执行的动作，在实验过程中/>设为0.01。

S5、执行所选动作，观察智能体获得的奖励和下一状态。

S6、智能体进行学习，完成相应瓦片化网格的更新。

S7、将当前状态加入到时间窗口中，当前状态更新为下一状态。若时间窗口大小超过5，则会删除最早进入时间窗口的状态。

S8、判断采矿作业车辆是否到达地面仓库，若果是则结束该轮训练。

请参阅图2所示，实施例1中的在采矿作业车辆运输自动化控制训练上引入基于回退的训练加速与传统的训练方法进行对比，从图中可以看出，TD为传统训练方法，TD_back为本文所提出的回溯强化学习训练加速方法，可以看出本文所提出的方法收敛速度显著大于传统训练方法。

综上所述，本发明提供了一种自动化控制的训练过程的加速方法通过在训练过程中进行回退，加速工程特种车辆自动化作业的训练速度，避免在一些重复状态上浪费大量时间，从而缩短训练时间，提高训练效率，节省算力资源。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种自动化控制的训练过程的加速方法，用于对工程特种车辆作业的自动化控制的训练过程进行加速，其特征在于，包括以下步骤：

S1、根据采矿作业车辆的作业要求建立强化学习环境，初始化砖瓦编码器；

S2、在每一轮训练开始时，初始化时间窗口、时间窗口最大值和回退间隔，其中，回退间隔用来控制采矿作业车辆回退的频率，即采矿作业车辆每走多少步进行一次回退，在训练过程中对回退间隔采用线性增加方式增加；

S3、判断采矿作业车辆的当前步数是否与上一次回退时的步数相差了一个回退间隔，若是，则采矿作业车辆回退到时间窗口中具有最大Q值的状态，并选择此具有最大Q值的状态下Q值最大的动作A，并进入S5；若否，则进入S4；

S4、通过方法选择采矿作业车辆将要执行的动作A；

S5、执行动作A，获得奖励与下一状态的信息；

S6、采矿作业车辆进行学习，完成相应瓦片化网格的更新；

S8、判断采矿作业车辆是否到达地面仓库，若是，则结束该轮训练；若否，则进入S3进行循环。

2.根据权利要求1所述的自动化控制的训练过程的加速方法，其特征在于，S1中：根据采矿作业车辆的作业要求进行强化学习环境的建模，将采矿作业车辆到达地面仓库的奖励设为0，每进行一步的奖励设为-1。

3.根据权利要求1所述的自动化控制的训练过程的加速方法，其特征在于，S2中：在每轮训练开始时会初始化一个时间窗口用来保存采矿作业车辆曾经访问过的状态；初始化时间窗口的最大值用来控制时间窗口中记录的状态数量；初始化回退间隔用来控制采矿作业车辆每走多少步进行一次回退。

4.根据权利要求1所述的自动化控制的训练过程的加速方法，其特征在于，S2中：所述回退间隔的增长方式为线性增长，具体为：

；

5.根据权利要求1所述的自动化控制的训练过程的加速方法，其特征在于，S3中：若回退时回退到的状态不是当前状态，则会受到惩罚；若是当前状态，则不会受到惩罚。

6.根据权利要求5所述的自动化控制的训练过程的加速方法，其特征在于：若采矿作业车辆当前步数与上一次回退时的步数相差了一个回退间隔，则从当前的时间窗口所有状态中选出具有最大Q值的状态，让采矿作业车辆回退到该具有最大Q值的状态，并选择最大Q值的动作，同时步数+1。

7.根据权利要求6所述的自动化控制的训练过程的加速方法，其特征在于：采矿作业车辆回退的同时减少回退前状态的每个动作的Q值，减少幅度一致，以减少对回退前的状态的访问。

8.根据权利要求5所述的自动化控制的训练过程的加速方法，其特征在于：若时间窗口中具有最大Q值的状态为当前状态，采矿作业车辆不会回退到过去的状态。

9.根据权利要求1所述的自动化控制的训练过程的加速方法，其特征在于，S6中：所述瓦片化网格的更新包括Q值的更新，更新公式为：

；

其中，为状态动作值函数，/>为当前状态，/>为选择的动作，/>为学习率，/>为折扣因子，/>为采矿作业车辆在状态/>下执行动作/>所获得的奖励，/>为下一状态。

10.根据权利要求1所述的自动化控制的训练过程的加速方法，其特征在于，S7中：采矿作业车辆在将当前状态更新为下一状态前，将当前状态加入到时间窗口中，若时间窗口大小超过时间窗口最大值，则删除最早进入时间窗口的状态，使得时间窗口大小固定。