CN113790729B

CN113790729B - 一种基于强化学习算法的无人天车路径规划方法及装置

Info

Publication number: CN113790729B
Application number: CN202111351834.3A
Authority: CN
Inventors: 彭功状; 孟莹莹; 徐冬; 王晓晨; 杨荃
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-04-08
Anticipated expiration: 2041-11-16
Also published as: CN113790729A

Abstract

本发明涉及无人库区物流调度技术领域，特别是指一种基于强化学习算法的无人天车路径规划方法及装置。方法包括：通过待规划场景中的障碍点集合与多个任务案例中的障碍点集合，确定待规划场景对应的初始Q表；基于Bellman方程、ε‑greedy贪婪选择策略进行路径预测，并对初始Q表进行更新，生成路径预测对应的Q表；在生成的多个路径预测对应的Q表中，选择满足筛选条件的Q表作为待规划场景对应的规划Q表，将规划Q表对应的路径规划作为待规划场景的路径规划。采用本发明，可以减少迭代次数，提高路径规划的效率。

Description

一种基于强化学习算法的无人天车路径规划方法及装置

技术领域

本发明涉及无人库区物流调度技术领域，特别是指一种基于强化学习算法的无人天车路径规划方法及装置。

背景技术

在智能工厂背景下，企业需要建立高效的生产运营机制快速响应动态变化的市场需求，制定高质量的生产计划和物流调度方案。以智能感知、设备互联、协同控制为基础的无人库区模式对于提高工厂生产效率，降低生产成本，改善产品质量具有重要的意义，而路径规划是无人行车运行过程中的关键问题之一。目前运用到路径规划的方法大致分为四类，分别是经典优化算法、启发式算法、系统仿真算法和智能方法。

经典优化算法属于精确算法，它总能保证寻求问题的最优解，常见算法有线性规划法、整数规划法和动态规划法，经典算法在遇到大规模或超大规模的组合优化问题会出现空间膨胀问题，故只适合解决小规模组合优化问题。启发式算法是建立在经验和规则判断基础上的一种快速、近似的方法，其应用必须对问题进行深入研究为前提，了解问题需求和结构，才能提出合理的实现方法，虽然可以产生很好的求解方案但是用来评估解决方案的优劣手段比较少。系统仿真算法侧重对系统中运行逻辑关系进行描述，但仿真的准确性受人员的判断和技巧的限制。智能算法使机器人具有与人类智慧相关的判断、推理、学习和问题求解等功能，用于实际问题形式越来越复杂，问题规模越来越庞大的情况下，使用经典优化算法已经无法满足问题求解的要求。因此，目前还没有能够解决无人行车在复杂库区地图和不确定环境中的路径规划问题的方法。

发明内容

为了解决上述背景技术存在的无法解决无人行车在复杂库区地图和不确定环境中的路径规划问题的技术问题，本发明实施例提供了一种基于强化学习算法的无人天车路径规划方法及装置。所述技术方案如下：

一方面，提供了一种基于强化学习算法的无人天车路径规划方法，该方法由区块链管理节点实现，该方法包括：

S1、获取预先存储的多个任务案例，所述任务案例包括路径规划方案对应的Q表以及障碍点集合，所述Q表用于表示状态与动作对应的行为价值；

S2、通过待规划场景中的障碍点集合与所述多个任务案例中的障碍点集合，确定所述待规划场景对应的初始Q表；

S3、基于Bellman方程、

贪婪选择策略进行路径预测，并对所述初始Q表进行更新，生成路径预测对应的Q表；

S4、判断是否满足停止条件，如果未满足，则转去执行S2；如果满足停止条件，则转去执行S5；

S5、在生成的多个路径预测对应的Q表中，选择满足筛选条件的Q表作为待规划场景对应的规划Q表，将所述规划Q表对应的路径规划作为待规划场景的路径规划。

可选地，所述S2中的通过待规划场景中的障碍点集合与所述多个任务案例中的障碍点集合，确定所述待规划场景对应的初始Q表，包括：

S21、确定待规划场景中的障碍点集合与所述多个任务案例中的每个任务案例的障碍点集合的交集数量

；其中，

表示待规划场景中的障碍点集合，

表示每个任务案例的障碍点集合；

S22、确定所述待规划场景中的障碍点数量与所述每个任务案例的障碍点数量的较大值

；

S23、根据下述公式（1），计算待规划场景与所述多个任务案例中的每个任务案例的相似度；

S24、选择最大相似度对应的任务案例对应的Q表，作为待规划场景对应的初始Q表。

可选地，所述S3中的基于Bellman方程、

贪婪选择策略进行路径预测，并对所述初始Q表进行更新，生成路径预测对应的Q表，包括：

S31、确定起始状态以及目标状态；

S32、基于所述初始Q表，根据

选择策略选择动作

，确定所述动作

对应的行为价值

和状态

；

S33、获取学习率

和未来状态动作对当前状态动作的价值比例

；

S34、根据公式（1），计算在状态

时的动作

的收益加权

；

其中，

表示动作，

表示状态，

为学习率，

表示上一个动作及状态对应的收益加权，

表示在所述初始Q表中动作

对应的行为价值，

为预设的未来状态动作对当前状态动作的价值比例，

为取最大值运算，

表示下一个新动作，

表示新动作对应的新状态；

S35、将计算得到的

作为动作

在状态

时对应的行为价值，更新在所述初始Q表中；

S36、判断新状态是否达到目标状态，如果是则判断完成对初始Q表的更新，如果否则转去执行S32。

可选地，所述S35中的将计算得到的

作为动作

在状态

时对应的行为价值，更新在所述初始Q表中之后，所述方法还包括：

根据当前点是否达到目标点以及公式（2），确定静态奖励函数；

其中，当前点是当前无人天车所处的坐标点；

根据当前点与目标点的距离、以及下个点与目标点的距离以及公式（3）-（5），计算动态奖励函数；

其中，

表示当前点与目标点的距离，

表示目标点的横坐标，

表示目标点的纵坐标，

表示目标点的竖坐标，

表示当前点的横坐标，

表示的当前点的纵坐标，

表示当前点的竖坐标，

表示下个点与目标点的距离，

表示下个点的横坐标，

表示下个点的纵坐标，

表示下个点的竖坐标；

根据静态奖励函数与动态奖励函数以及公式（6），计算动作

对应的奖励函数；

根据奖励函数确定局部最优点。

可选地，所述S4中的判断是否满足停止条件，包括：

判断迭代次数是否达到预设次数。

可选地，所述S5中的在生成的多个路径预测对应的Q表中，选择满足筛选条件的Q表作为待规划场景对应的规划Q表，包括：

在生成的多个路径预测对应的Q表中，选择步数最少的Q表作为待规划场景对应的规划Q表。

另一方面，提供了一种基于强化学习算法的无人天车路径规划装置，该装置应用于基于强化学习算法的无人天车路径规划方法，该装置包括：

获取模块，用于获取预先存储的多个任务案例，所述任务案例包括路径规划方案对应的Q表以及障碍点集合，所述Q表用于表示状态与动作对应的行为价值；

确定模块，用于通过待规划场景中的障碍点集合与所述多个任务案例中的障碍点集合，确定所述待规划场景对应的初始Q表；

更新模块，用于基于Bellman方程、

判断模块，用于判断是否满足停止条件，如果未满足，则转去执行S2；如果满足停止条件，则转去执行S5；

筛选模块，用于在生成的多个路径预测对应的Q表中，选择满足筛选条件的Q表作为待规划场景对应的规划Q表，将所述规划Q表对应的路径规划作为待规划场景的路径规划。

可选地，所述确定模块，用于：

；其中，

表示待规划场景中的障碍点集合，

表示每个任务案例的障碍点集合；

；

可选地，所述更新模块，用于：

S31、确定起始状态以及目标状态；

S32、基于所述初始Q表，根据

选择策略选择动作

，确定所述动作

对应的行为价值

和状态

；

S33、获取学习率

和未来状态动作对当前状态动作的价值比例

；

S34、根据公式（1），计算在状态

时的动作

的收益加权

；

其中，

表示动作，

表示状态，

为学习率，

表示上一个动作及状态对应的收益加权，

表示在所述初始Q表中动作

对应的行为价值，

为预设的未来状态动作对当前状态动作的价值比例，

为取最大值运算，

表示下一个新动作，

表示新动作对应的新状态；

S35、将计算得到的

作为动作

在状态

时对应的行为价值，更新在所述初始Q表中；

可选地，所述更新模块，还用于：

其中，当前点是当前无人天车所处的坐标点；

其中，

表示当前点与目标点的距离，

表示目标点的横坐标，

表示目标点的纵坐标，

表示目标点的竖坐标，

表示当前点的横坐标，

表示的当前点的纵坐标，

表示当前点的竖坐标，

表示下个点与目标点的距离，

表示下个点的横坐标，

表示下个点的纵坐标，

表示下个点的竖坐标；

根据静态奖励函数与动态奖励函数以及公式（6），计算动作

对应的奖励函数；

根据奖励函数确定局部最优点。

可选地，所述S4中的判断是否满足停止条件，包括：

判断迭代次数是否达到预设次数。

可选地，所述筛选模块，用于：

另一方面，提供了一种电子设备，所述区块链管理节点包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于强化学习算法的无人天车路径规划方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于强化学习算法的无人天车路径规划方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

获取预先存储的多个任务案例，任务案例包括路径规划方案对应的Q表以及障碍点集合；通过待规划场景中的障碍点集合与多个任务案例中的障碍点集合，确定待规划场景对应的初始Q表；基于Bellman方程、

贪婪选择策略进行路径预测，并对初始Q表进行更新，生成路径预测对应的Q表；判断是否满足停止条件，如果未满足，则转去执行S2；如果满足停止条件，则转去执行S5；在生成的多个路径预测对应的Q表中，选择满足筛选条件的Q表作为待规划场景对应的规划Q表，将规划Q表对应的路径规划作为待规划场景的路径规划。这样，将与待规划场景最相似的任务案例的Q表作为待规划场景的初始Q表，可以大大减少迭代次数，减少运算量，提高路径规划的效率。通过与环境的实时交互和自主感知，借助强化学习方法的自主学习能力以及数据挖掘方法的数据处理能力，解决无人行车在复杂库区地图和不确定环境中的路径规划问题。通过构建库区模型，初始化强化学习的Q表，并利用Bellman方程对Q表进行动态更新，再采用双重奖励函数退出局部最优机制的方法，可以更快的找到最短路径，便于实际应用到工业现场指导现场，提升钢物流的准确性和快速性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于强化学习算法的无人天车路径规划方法流程图；

图2a是本发明实施例提供的一种基于强化学习算法的无人天车路径规划方法流程图；

图2b是本发明实施例提供的一种基于强化学习算法的无人天车路径规划方法流程图；

图3是本发明实施例提供的一种场景三维坐标系的模拟示意图；

图4是本发明实施例提供的一种基于强化学习算法的无人天车路径规划装置框图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种基于强化学习算法的无人天车路径规划方法，该方法可以由区块链管理节点实现，该区块链管理节点可以是终端或服务器。如图1所示的基于强化学习算法的无人天车路径规划方法流程图，该方法的处理流程可以包括如下的步骤：

S11、获取预先存储的多个任务案例，任务案例包括路径规划方案对应的Q表以及障碍点集合，Q表用于表示状态与动作对应的行为价值；

S12、通过待规划场景中的障碍点集合与多个任务案例中的障碍点集合，确定待规划场景对应的初始Q表；

S13、基于Bellman方程、

贪婪选择策略进行路径预测，并对初始Q表进行更新，生成路径预测对应的Q表；

S14、判断是否满足停止条件，如果未满足，则转去执行S12；如果满足停止条件，则转去执行S15；

S15、在生成的多个路径预测对应的Q表中，选择满足筛选条件的Q表作为待规划场景对应的规划Q表，将规划Q表对应的路径规划作为待规划场景的路径规划。

可选地，S12中的通过待规划场景中的障碍点集合与多个任务案例中的障碍点集合，确定待规划场景对应的初始Q表，包括：

S121、确定待规划场景中的障碍点集合与多个任务案例中的每个任务案例的障碍点集合的交集数量

；其中，

表示待规划场景中的障碍点集合，

表示每个任务案例的障碍点集合；

S122、确定所述待规划场景中的障碍点数量与所述每个任务案例的障碍点数量的较大值

；

S123、根据下述公式（1），计算待规划场景与多个任务案例中的每个任务案例的相似度；

S124、选择最大相似度对应的任务案例对应的Q表，作为待规划场景对应的初始Q表。

可选地，S13中的基于Bellman方程、

贪婪选择策略进行路径预测，并对初始Q表进行更新，生成路径预测对应的Q表，包括：

S131、确定起始状态以及目标状态；

S132、基于初始Q表，根据

选择策略选择动作

，确定动作

对应的行为价值

和状态

；

S133、获取学习率

和未来状态动作对当前状态动作的价值比例

；

S134、根据公式（1），计算在状态

时的动作

的收益加权

；

其中，

表示动作，

表示状态，

为学习率，

表示上一个动作及状态对应的收益加权，

表示在初始Q表中动作

对应的行为价值，

为预设的未来状态动作对当前状态动作的价值比例，

为取最大值运算，

表示下一个新动作，

表示新动作对应的新状态；

S135、将计算得到的

作为动作

在状态

时对应的行为价值，更新在初始Q表中；

S136、判断新状态是否达到目标状态，如果是则判断完成对初始Q表的更新，如果否则转去执行S132。

可选地，S135中的将计算得到的

作为动作

在状态

时对应的行为价值，更新在初始Q表中之后，方法还包括：

其中，当前点是当前无人天车所处的坐标点；

其中，

表示当前点与目标点的距离，

表示目标点的横坐标，

表示目标点的纵坐标，

表示目标点的竖坐标，

表示当前点的横坐标，

表示的当前点的纵坐标，

表示当前点的竖坐标，

表示下个点与目标点的距离，

表示下个点的横坐标，

表示下个点的纵坐标，

表示下个点的竖坐标；

根据静态奖励函数与动态奖励函数以及公式（6），计算动作

对应的奖励函数；

根据奖励函数确定局部最优点。

可选地，S14中的判断是否满足停止条件，包括：

判断迭代次数是否达到预设次数。

可选地，S15中的在生成的多个路径预测对应的Q表中，选择满足筛选条件的Q表作为待规划场景对应的规划Q表，包括：

本发明实施例提供了一种基于强化学习算法的无人天车路径规划方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。本发明实施例是采用多次模拟无人天车的运动最终确定路径规划，然后真实的无人天车根据路径规划进行相应运动。因此，本发明实施例中涉及的“无人天车的运动”、“无人天车到达某个点”、“无人天车达到的状态”等均为模拟过程，并不代表真实的无人天车进行了相应的运动。

如图2a及图2b所示的基于强化学习算法的无人天车路径规划方法流程图，该方法的处理流程可以包括如下的步骤：

S201、获取预先存储的多个任务案例，任务案例包括路径规划方案对应的Q表以及障碍点集合。

其中，Q表用于表示状态与动作对应的行为价值，Q表的横轴表示动作，无人天车的动作可以分为上、下、左、右、前、后，因此无人天车进行动作的方向可以是三个坐标方向的组合，故Q表的动作包括26个方向的基本元动作，设定用-1、1表示同一方向上的两个相反动作，用0表示无动作，且

中的

表示上下方向的动作、

表示左右方向的动作、

表示前后方向的动作，如（0,1,-1）可以表示向左后方向运动，则将26个元动作可以包括：（1,1,1）、（-1,1,1）、（1,-1,1）、（1,1,-1）、（-1,-1,1）、（-1,1,-1）、（1,-1,-1）、（-1,-1,-1）、（0,1,1）、（1,0,1）、（1,1,0）、（0,0,1）、（1,0,0）、（0,1,0）、（0,-1,1）、（0,1,-1）、（-1,0,1）、（1,0,-1）、（-1,0,-1）、（0,-1,-1）、（1,-1,0）、（-1,1,0）、（-1,-1,0）、（0,0,-1）、（-1,0,0）、（0,-1,0）。Q表的纵轴表示状态，用户可以在无人天车工作的场景下建立坐标系，无人天车每处于一个位置都可以看作是一个坐标点，任意两个相邻的坐标点之间的距离为无人天车吊头末端可移动的最小距离，因此路径规划可以看作是坐标点的集合。举例来说，将无人天车的三维工作空间划分为50×40×25个三维空间网格，其中，如图3所示建立一个场景的三维坐标系，阴影部分表示无人天车无法通行的障碍物区域，其覆盖的坐标点称为障碍点，则应该有50×40×25=50000个坐标点，其中有5000个点为障碍点，则无人天车可以运动的坐标点为45000个，对应的状态也是45000个，为了方便可以用数值代替坐标来表示状态，因此，Q表纵轴的状态可以用0-44999表示，所述Q表可以如下表1所示。

表1

一种可行的实施方式中，无人天车可以在多种不同的场景下进行工作，用户可以采集无人天车在其它场景下的路径规划方案，包括路径规划方案、路径规划方案对应的Q表、当前场景的障碍点集合等，在新的场景进行路径规划时，用户可以获取这些预先存储的多个路径规划方案作为任务案例，基于这些任务案例进行路径规划。

S202、通过待规划场景中的障碍点集合与多个任务案例中的障碍点集合，确定待规划场景对应的初始Q表。

一种可行的实施方式中，通过上述步骤201获取到多个任务案例后，在多个任务案例中找到与待规划场景相近的任务案例，将任务案例对应的Q表确定为待规划场景对应的初始Q表，这样，可以大大减少路径规划时的迭代次数，提高路径规划效率。具体地，对于任一个任务案例，根据下述步骤2021-2023计算待规划场景与该任务案例的相似度，然后根据下述步骤2024在多个任务案例中选出与待规划场景最相似的任务案例：

S2021、确定待规划场景中的障碍点集合与每个任务案例的障碍点集合的交集数量。

其中，障碍点集合为场景中无人天车不能运行的点的坐标集合。

一种可行的实施方式中，用

表示待规划场景中的障碍点集合，

表示每个任务案例的障碍点集合，则可以用

表示对障碍点集合与多个任务案例中的每个任务案例的障碍点集合的交集数量。

S2022、确定待规划场景中的障碍点数量与每个任务案例的障碍点数量的较大值

。

一种可行的实施方式中，先确定待规划场景中的障碍点的个数

以及每个任务案例的障碍点的数量

，然后，对于任一个任务案例，将待规划场景中的障碍点的数量

与任务案例的障碍点的个数

进行比较，确定出较大值，即为

。

S2023、根据下述公式（1），计算待规划场景与多个任务案例中的每个任务案例的相似度。

S2024、选择最大相似度对应的任务案例对应的Q表，作为待规划场景对应的初始Q表。

一种可行的实施方式中，通过上述步骤确定出的初始Q表，其对应的场景是与待规划场景最相似的场景，如障碍点的个数以及分布比较相似，基于这样的初始Q表可以减少迭代次数，提高效率。

S203、确定起始状态以及目标状态。

一种可行的实施方式中，起始状态是在即将进行场景规划时无人天车的初始位置对应的状态，通常来讲，起始状态在Q表中均用0表示，起始状态可以用

表示。目标状态为无人天车需要到达的目标点对应的目标状态，目标状态在Q表中不一定是最末的状态，目标状态可以用

表示。

S204、基于初始Q表，根据

选择策略选择动作

，确定动作

对应的行为价值

和状态

。

一种可行的实施方式中，在进行路径规划时，根据

选择策略中的奖励函数，选择下一个进行的动作

，计算由当前点进行动作

后到达的坐标点，由坐标点在初始Q表中确定到达的状态

，进而确定动作

以及状态

对应的行为价值

。

需要说明的是，

选择策略为现有技术中常用的一种选择策略，本发明实施例中可以设置

=0.9，该算法的具体原理以及执行本发明对此不作赘述。

S205、获取学习率

和未来状态动作对当前状态动作的价值比例

。

一种可行的实施方式中，学习率

以及价值比例

可以是预先设定好的参数值，学习率

可以是一个常数，可以设置为

=0.01。价值比例

可以根据迭代次数均匀变化，如价值比例

初始设定为0.5，每迭代一定次数则

增加0.05，直至

增加到1。

S206、计算在状态

时的动作

的收益加权

。

一种可行的实施方式中，在路径规划的一次迭代中，计算在当前状态及至终点的过程中，所路过状态的收益加权可以用

表示：

其中，

表示当前状态，

表示当前动作，

表示初始Q表中到达目标状态时对应的行为价值。

基于上述公式，可以推导出下述在状态

时的动作

的收益加权

的公式：

表示动作，

表示状态，

为学习率，

表示上一个动作及状态对应的收益加权，

表示在初始Q表中动作

对应的行为价值，

为预设的未来状态动作对当前状态动作的价值比例，

为取最大值运算，

表示下一个新动作，

表示新动作对应的新状态。

S207、将计算得到的

作为动作

在状态

时对应的行为价值，更新在初始Q表中。

一种可行的实施方式中，每选择一个动作，通过上述步骤206计算一次收益加权，然后将收益加权作为动作

在状态

时对应的行为价值，替换掉初始Q表中的动作

在状态

时对应的行为价值。

S208、计算奖励函数。

一种可行的实施方式中，在每次选择动作后，需要计算奖励函数，该奖励函数作为

选择策略中的一个参数，用于确定局部最优点，进而选择最合适的动作。计算奖励函数可以包括下述步骤2081-2084：

S2081、根据当前点是否达到目标点，确定静态奖励函数。

其中，当前点是当前无人天车所处的坐标点，目标点是无人天车想要到达的坐标点。

一种可行的实施方式中，根据下述公式确定静态奖励函数：

S2082、根据当前点与目标点的距离、以及下个点与目标点的距离，计算动态奖励函数。

其中，下个点表示无人天车处于当前点时、选择下一个动作后会达到的坐标点，当可选择的下一个动作有多个时，对应的下个点也可以是多个，这种情况下，可以计算每个下个点相关的动态奖励函数。

一种可行的实施方式中，根据下述公式计算动态奖励函数：

其中，

表示当前点与目标点的距离，

表示目标点的横坐标，

表示目标点的纵坐标，

表示目标点的竖坐标，

表示当前点的横坐标，

表示的当前点的纵坐标，

表示当前点的竖坐标，

表示下个点与目标点的距离，

表示下个点的横坐标，

表示下个点的纵坐标，

表示下个点的竖坐标。

S2083、根据静态奖励函数与动态奖励函数，计算动作

对应的奖励函数。

一种可行的实施方式中，将静态奖励函数与动态奖励函数相加，得到的和值即为对应的奖励函数。

S2084、根据奖励函数确定局部最优点。

一种可行的实施方式中，在多个下个点相关的多个奖励函数中，选择奖励函数最大的下个点，作为局部最优点。

S209、判断状态

是否达到目标状态，如果是则判断完成对初始Q表的更新，执行S210，如果否则转去执行S204。

一种可行的实施方式中，判断经过动作

后的状态是否达到目标状态，即判断是否到达目标点，如果状态已达到目标状态，或者说无人天车已到达目标点，则代表完成此次迭代过程中对初始Q表的更新，可以执行下一步骤进行下一次迭代。如果状态未达到目标状态，或者说无人天车未到达目标点，说明并未完成此次迭代过程中对初始Q表的更新，需要无人天车继续运动，因此转去执行S204，进行下一次动作选择。

S210、判断迭代次数是否达到预设次数，如果未满足，则转去执行S202。如果满足停止条件，则转去执行S211。

一种可行的实施方式中，用户可以预先设定迭代次数（可以称作MaxEpoch）作为停止迭代的条件，根据上述步骤完成一次迭代后，判断迭代次数（可称作Epoch）是否达到预设次数，如果已达到，则停止迭代，可以进入最终的规划路径筛选步骤。如果未达到预设次数，则转去执行步骤S202进行下一次迭代。可选地，预设次数MaxEpoch可以设置为2000次。

需要说明的是，预先设定迭代次数仅是可行的一种停止迭代的方式之一，除此之外，还可以通过判断收益加权是否收敛等方法停止迭代，本发明对此不作赘述。

通过反复迭代更新步骤和多回合学习，无人天车寻路结果趋向于避开陷阱区，得到较优的寻路结果，此算法在迭代1000次和迭代2000次后，规划路径与迭代次数区域稳定，且Q学习算法步骤下降明显更快，朝着终点的趋势更加明显。

S211、在生成的多个路径预测对应的Q表中，选择步数最少的Q表作为待规划场景对应的规划Q表，将规划Q表对应的路径规划作为待规划场景的路径规划。

一种可行的实施方式中，完成多次迭代后，可以得到多个更新后的Q表以及每个Q表对应的路径预测，确定每个Q表对应的路径预测中执行的步数，即无人天车从起始点到目标点运动的步数，步数的多少代表无人天车运动的长度，步数越少则代表无人天车运动的长度越短，效率越高，因此，将多个Q表对应的步数进行比较，选择步数最少的Q表作为待规划场景对应的规划Q表，将规划Q表对应的路径规划作为待规划场景的路径规划。将确定出的规划Q表、对应的路径规划以及障碍点集合等数据作为任务案例进行存储。

当真实的无人天车需要从上述起始点运动到目标点时，根据上述确定出的路径规划进行运动。

本发明实施例中，获取预先存储的多个任务案例，任务案例包括路径规划方案对应的Q表以及障碍点集合；通过待规划场景中的障碍点集合与多个任务案例中的障碍点集合，确定待规划场景对应的初始Q表；基于Bellman方程、

图4是根据一示例性实施例示出的一种基于强化学习算法的无人天车路径规划装置框图400，该装置应用于基于强化学习算法的无人天车路径规划方法。参照图4，该装置包括获取模块410、确定模块420、更新模块430、判断模块440、筛选模块450，其中：

获取模块410，用于获取预先存储的多个任务案例，所述任务案例包括路径规划方案对应的Q表以及障碍点集合，所述Q表用于表示状态与动作对应的行为价值；

确定模块420，用于通过待规划场景中的障碍点集合与所述多个任务案例中的障碍点集合，确定所述待规划场景对应的初始Q表；

更新模块430，用于基于Bellman方程、ε-greedy贪婪选择策略进行路径预测，并对所述初始Q表进行更新，生成路径预测对应的Q表；

判断模块440，用于判断是否满足停止条件，如果未满足，则转去执行S2；如果满足停止条件，则转去执行S5；

筛选模块450，用于在生成的多个路径预测对应的Q表中，选择满足筛选条件的Q表作为待规划场景对应的规划Q表，将所述规划Q表对应的路径规划作为待规划场景的路径规划。

可选地，所述确定模块420，用于：

；其中，

表示待规划场景中的障碍点集合，

表示每个任务案例的障碍点集合；

；

可选地，所述更新模块430，用于：

S31、确定起始状态以及目标状态；

S32、基于所述初始Q表，根据

选择策略选择动作

，确定所述动作

对应的行为价值

和状态

；

S33、获取学习率

和未来状态动作对当前状态动作的价值比例

；

S34、根据公式（1），计算在状态

时的动作

的收益加权

；

其中，

表示动作，

表示状态，

为学习率，

表示上一个动作及状态对应的收益加权，

表示在所述初始Q表中动作

对应的行为价值，

为预设的未来状态动作对当前状态动作的价值比例，

为取最大值运算，

表示下一个新动作，

表示新动作对应的新状态；

S35、将计算得到的

作为动作

在状态

时对应的行为价值，更新在所述初始Q表中；

可选地，所述更新模块430，还用于：

其中，当前点是当前无人天车所处的坐标点；

其中，

表示当前点与目标点的距离，

表示目标点的横坐标，

表示目标点的纵坐标，

表示目标点的竖坐标，

表示当前点的横坐标，

表示的当前点的纵坐标，

表示当前点的竖坐标，

表示下个点与目标点的距离，

表示下个点的横坐标，

表示下个点的纵坐标，

表示下个点的竖坐标；

根据静态奖励函数与动态奖励函数以及公式（6），计算动作

对应的奖励函数；

根据奖励函数确定局部最优点。

可选地，所述S4中的判断是否满足停止条件，包括：

判断迭代次数是否达到预设次数。

可选地，所述筛选模块450，用于：

图5是本发明实施例提供的一种区块链管理节点500的结构示意图，该区块链管理节点500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）501和一个或一个以上的存储器502，其中，所述存储器502中存储有至少一条指令，所述至少一条指令由所述处理器501加载并执行以实现上述基于强化学习算法的无人天车路径规划方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述基于强化学习算法的无人天车路径规划方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习算法的无人天车路径规划方法，其特征在于，所述方法包括：

S3、基于Bellman方程、ε-greedy贪婪选择策略进行路径预测，并对所述初始Q表进行更新，生成路径预测对应的Q表；

2.根据权利要求1所述的方法，其特征在于，所述S2中的通过待规划场景中的障碍点集合与所述多个任务案例中的障碍点集合，确定所述待规划场景对应的初始Q表，包括：

S21、确定待规划场景中的障碍点集合与所述多个任务案例中的每个任务案例的障碍点集合的交集数量P(π₁∩π₂)；其中，π₁表示待规划场景中的障碍点集合，π₂表示每个任务案例的障碍点集合；

S22、确定所述待规划场景中的障碍点数量与所述每个任务案例的障碍点数量的较大值max(P(π₁)，P(π₂))；

S23、根据下述公式(1)，计算待规划场景与所述多个任务案例中的每个任务案例的相似度；

3.根据权利要求1所述的方法，其特征在于，所述S3中的基于Bellman方程、ε-greedy贪婪选择策略进行路径预测，并对所述初始Q表进行更新，生成路径预测对应的Q表，包括：

S31、确定起始状态以及目标状态；

S32、基于所述初始Q表，根据ε-greedy选择策略选择动作a，确定所述动作a对应的行为价值R和状态s；

S33、获取学习率α和未来状态动作对当前状态动作的价值比例γ；

S34、根据公式(2)，计算在状态s时的动作a的收益加权V(s，a)；

V(s，a)＝V^*(s，a)+α(R+γmax_a′V(s′，a′)-V(s，a))……(2)

其中，a表示动作，s表示状态，α为学习率，V^*(s，a)表示上一个动作及状态对应的收益加权，R表示在所述初始Q表中动作a对应的行为价值，γ为预设的未来状态动作对当前状态动作的价值比例，max为取最大值运算，a′表示下一个新动作，s′表示新动作对应的新状态；

S35、将计算得到的V(s，a)作为动作a在状态s时对应的行为价值，更新在所述初始Q表中；

4.根据权利要求3所述的方法，其特征在于，所述S35中的将计算得到的V(s，a)作为动作a在状态s时对应的行为价值，更新在所述初始Q表中之后，所述方法还包括：

根据当前点是否达到目标点以及公式(3)，确定静态奖励函数；

其中，当前点是当前无人天车所处的坐标点；

根据当前点与目标点的距离、以及下个点与目标点的距离以及公式(4)-(6)，计算动态奖励函数；

其中，d_t表示当前点与目标点的距离，x_target表示目标点的横坐标，y_target表示目标点的纵坐标，z_target表示目标点的竖坐标，x_t表示当前点的横坐标，y_t表示的当前点的纵坐标，z_t表示当前点的竖坐标，d_t+1表示下个点与目标点的距离，x_t+1表示下个点的横坐标，y_t+1表示下个点的纵坐标，z_t+1表示下个点的竖坐标；

根据静态奖励函数与动态奖励函数以及公式(7)，计算动作a对应的奖励函数；

Reward＝Reward_s+Reward_d……(7)

根据奖励函数确定局部最优点。

5.根据权利要求1所述的方法，其特征在于，所述S4中的判断是否满足停止条件，包括：

判断迭代次数是否达到预设次数。

6.根据权利要求1所述的方法，其特征在于，所述S5中的在生成的多个路径预测对应的Q表中，选择满足筛选条件的Q表作为待规划场景对应的规划Q表，包括：

7.一种基于强化学习算法的无人天车路径规划装置，其特征在于，所述装置包括：

更新模块，用于基于Bellman方程、ε-greedy贪婪选择策略进行路径预测，并对所述初始Q表进行更新，生成路径预测对应的Q表；

8.根据权利要求7所述的装置，其特征在于，所述确定模块，用于：