CN113790729B - 一种基于强化学习算法的无人天车路径规划方法及装置 - Google Patents

一种基于强化学习算法的无人天车路径规划方法及装置 Download PDF

Info

Publication number
CN113790729B
CN113790729B CN202111351834.3A CN202111351834A CN113790729B CN 113790729 B CN113790729 B CN 113790729B CN 202111351834 A CN202111351834 A CN 202111351834A CN 113790729 B CN113790729 B CN 113790729B
Authority
CN
China
Prior art keywords
point
scene
planned
action
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111351834.3A
Other languages
English (en)
Other versions
CN113790729A (zh
Inventor
彭功状
孟莹莹
徐冬
王晓晨
杨荃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202111351834.3A priority Critical patent/CN113790729B/zh
Publication of CN113790729A publication Critical patent/CN113790729A/zh
Application granted granted Critical
Publication of CN113790729B publication Critical patent/CN113790729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及无人库区物流调度技术领域,特别是指一种基于强化学习算法的无人天车路径规划方法及装置。方法包括:通过待规划场景中的障碍点集合与多个任务案例中的障碍点集合,确定待规划场景对应的初始Q表;基于Bellman方程、ε‑greedy贪婪选择策略进行路径预测,并对初始Q表进行更新,生成路径预测对应的Q表;在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,将规划Q表对应的路径规划作为待规划场景的路径规划。采用本发明,可以减少迭代次数,提高路径规划的效率。

Description

一种基于强化学习算法的无人天车路径规划方法及装置
技术领域
本发明涉及无人库区物流调度技术领域,特别是指一种基于强化学习算法的无人天车路径规划方法及装置。
背景技术
在智能工厂背景下,企业需要建立高效的生产运营机制快速响应动态变化的市场需求,制定高质量的生产计划和物流调度方案。以智能感知、设备互联、协同控制为基础的无人库区模式对于提高工厂生产效率,降低生产成本,改善产品质量具有重要的意义,而路径规划是无人行车运行过程中的关键问题之一。目前运用到路径规划的方法大致分为四类,分别是经典优化算法、启发式算法、系统仿真算法和智能方法。
经典优化算法属于精确算法,它总能保证寻求问题的最优解,常见算法有线性规划法、整数规划法和动态规划法,经典算法在遇到大规模或超大规模的组合优化问题会出现空间膨胀问题,故只适合解决小规模组合优化问题。启发式算法是建立在经验和规则判断基础上的一种快速、近似的方法,其应用必须对问题进行深入研究为前提,了解问题需求和结构,才能提出合理的实现方法,虽然可以产生很好的求解方案但是用来评估解决方案的优劣手段比较少。系统仿真算法侧重对系统中运行逻辑关系进行描述,但仿真的准确性受人员的判断和技巧的限制。智能算法使机器人具有与人类智慧相关的判断、推理、学习和问题求解等功能,用于实际问题形式越来越复杂,问题规模越来越庞大的情况下,使用经典优化算法已经无法满足问题求解的要求。因此,目前还没有能够解决无人行车在复杂库区地图和不确定环境中的路径规划问题的方法。
发明内容
为了解决上述背景技术存在的无法解决无人行车在复杂库区地图和不确定环境中的路径规划问题的技术问题,本发明实施例提供了一种基于强化学习算法的无人天车路径规划方法及装置。所述技术方案如下:
一方面,提供了一种基于强化学习算法的无人天车路径规划方法,该方法由区块链管理节点实现,该方法包括:
S1、获取预先存储的多个任务案例,所述任务案例包括路径规划方案对应的Q表以及障碍点集合,所述Q表用于表示状态与动作对应的行为价值;
S2、通过待规划场景中的障碍点集合与所述多个任务案例中的障碍点集合,确定所述待规划场景对应的初始Q表;
S3、基于Bellman方程、
Figure 145944DEST_PATH_IMAGE001
贪婪选择策略进行路径预测,并对所述初始Q表进行更新,生成路径预测对应的Q表;
S4、判断是否满足停止条件,如果未满足,则转去执行S2;如果满足停止条件,则转去执行S5;
S5、在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,将所述规划Q表对应的路径规划作为待规划场景的路径规划。
可选地,所述S2中的通过待规划场景中的障碍点集合与所述多个任务案例中的障碍点集合,确定所述待规划场景对应的初始Q表,包括:
S21、确定待规划场景中的障碍点集合与所述多个任务案例中的每个任务案例的障碍点集合的交集数量
Figure 805465DEST_PATH_IMAGE002
;其中,
Figure 325439DEST_PATH_IMAGE003
表示待规划场景中的障碍点集合,
Figure 781828DEST_PATH_IMAGE004
表示每个任务案例的障碍点集合;
S22、确定所述待规划场景中的障碍点数量与所述每个任务案例的障碍点数量的较大值
Figure 163393DEST_PATH_IMAGE005
S23、根据下述公式(1),计算待规划场景与所述多个任务案例中的每个任务案例的相似度;
Figure 756048DEST_PATH_IMAGE006
S24、选择最大相似度对应的任务案例对应的Q表,作为待规划场景对应的初始Q表。
可选地,所述S3中的基于Bellman方程、
Figure 446924DEST_PATH_IMAGE007
贪婪选择策略进行路径预测,并对所述初始Q表进行更新,生成路径预测对应的Q表,包括:
S31、确定起始状态以及目标状态;
S32、基于所述初始Q表,根据
Figure 390609DEST_PATH_IMAGE007
选择策略选择动作
Figure 74400DEST_PATH_IMAGE008
,确定所述动作
Figure 787141DEST_PATH_IMAGE008
对应的行为价值
Figure 383339DEST_PATH_IMAGE009
和状态
Figure 814320DEST_PATH_IMAGE010
S33、获取学习率
Figure 646010DEST_PATH_IMAGE011
和未来状态动作对当前状态动作的价值比例
Figure 367585DEST_PATH_IMAGE012
S34、根据公式(1),计算在状态
Figure 134684DEST_PATH_IMAGE010
时的动作
Figure 787382DEST_PATH_IMAGE008
的收益加权
Figure 688342DEST_PATH_IMAGE013
Figure 500309DEST_PATH_IMAGE014
其中,
Figure 969468DEST_PATH_IMAGE008
表示动作,
Figure 266719DEST_PATH_IMAGE015
表示状态,
Figure 971370DEST_PATH_IMAGE016
为学习率,
Figure 654155DEST_PATH_IMAGE017
表示上一个动作及状态对应的收益加权,
Figure 277903DEST_PATH_IMAGE018
表示在所述初始Q表中动作
Figure 905194DEST_PATH_IMAGE008
对应的行为价值,
Figure 23322DEST_PATH_IMAGE012
为预设的未来状态动作对当前状态动作的价值比例,
Figure 685248DEST_PATH_IMAGE019
为取最大值运算,
Figure 244012DEST_PATH_IMAGE020
表示下一个新动作,
Figure 233965DEST_PATH_IMAGE021
表示新动作对应的新状态;
S35、将计算得到的
Figure 14839DEST_PATH_IMAGE013
作为动作
Figure 655904DEST_PATH_IMAGE008
在状态
Figure 496822DEST_PATH_IMAGE015
时对应的行为价值,更新在所述初始Q表中;
S36、判断新状态是否达到目标状态,如果是则判断完成对初始Q表的更新,如果否则转去执行S32。
可选地,所述S35中的将计算得到的
Figure 974070DEST_PATH_IMAGE013
作为动作
Figure 558635DEST_PATH_IMAGE008
在状态
Figure 555673DEST_PATH_IMAGE015
时对应的行为价值,更新在所述初始Q表中之后,所述方法还包括:
根据当前点是否达到目标点以及公式(2),确定静态奖励函数;
Figure 567491DEST_PATH_IMAGE022
其中,当前点是当前无人天车所处的坐标点;
根据当前点与目标点的距离、以及下个点与目标点的距离以及公式(3)-(5),计算动态奖励函数;
Figure 266457DEST_PATH_IMAGE023
Figure 920292DEST_PATH_IMAGE024
其中,
Figure 270371DEST_PATH_IMAGE025
表示当前点与目标点的距离,
Figure 453090DEST_PATH_IMAGE026
表示目标点的横坐标,
Figure 904931DEST_PATH_IMAGE027
表示目标点的纵坐标,
Figure 831299DEST_PATH_IMAGE028
表示目标点的竖坐标,
Figure 534419DEST_PATH_IMAGE029
表示当前点的横坐标,
Figure 153620DEST_PATH_IMAGE030
表示的当前点的纵坐标,
Figure 561598DEST_PATH_IMAGE031
表示当前点的竖坐标,
Figure 291657DEST_PATH_IMAGE032
表示下个点与目标点的距离,
Figure 350749DEST_PATH_IMAGE033
表示下个点的横坐标,
Figure 140850DEST_PATH_IMAGE034
表示下个点的纵坐标,
Figure 301704DEST_PATH_IMAGE035
表示下个点的竖坐标;
根据静态奖励函数与动态奖励函数以及公式(6),计算动作
Figure 569875DEST_PATH_IMAGE008
对应的奖励函数;
Figure 250517DEST_PATH_IMAGE036
根据奖励函数确定局部最优点。
可选地,所述S4中的判断是否满足停止条件,包括:
判断迭代次数是否达到预设次数。
可选地,所述S5中的在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,包括:
在生成的多个路径预测对应的Q表中,选择步数最少的Q表作为待规划场景对应的规划Q表。
另一方面,提供了一种基于强化学习算法的无人天车路径规划装置,该装置应用于基于强化学习算法的无人天车路径规划方法,该装置包括:
获取模块,用于获取预先存储的多个任务案例,所述任务案例包括路径规划方案对应的Q表以及障碍点集合,所述Q表用于表示状态与动作对应的行为价值;
确定模块,用于通过待规划场景中的障碍点集合与所述多个任务案例中的障碍点集合,确定所述待规划场景对应的初始Q表;
更新模块,用于基于Bellman方程、
Figure 945940DEST_PATH_IMAGE007
贪婪选择策略进行路径预测,并对所述初始Q表进行更新,生成路径预测对应的Q表;
判断模块,用于判断是否满足停止条件,如果未满足,则转去执行S2;如果满足停止条件,则转去执行S5;
筛选模块,用于在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,将所述规划Q表对应的路径规划作为待规划场景的路径规划。
可选地,所述确定模块,用于:
S21、确定待规划场景中的障碍点集合与所述多个任务案例中的每个任务案例的障碍点集合的交集数量
Figure 453145DEST_PATH_IMAGE002
;其中,
Figure 665952DEST_PATH_IMAGE003
表示待规划场景中的障碍点集合,
Figure 965215DEST_PATH_IMAGE037
表示每个任务案例的障碍点集合;
S22、确定所述待规划场景中的障碍点数量与所述每个任务案例的障碍点数量的较大值
Figure 565961DEST_PATH_IMAGE005
S23、根据下述公式(1),计算待规划场景与所述多个任务案例中的每个任务案例的相似度;
Figure 826041DEST_PATH_IMAGE038
S24、选择最大相似度对应的任务案例对应的Q表,作为待规划场景对应的初始Q表。
可选地,所述更新模块,用于:
S31、确定起始状态以及目标状态;
S32、基于所述初始Q表,根据
Figure 311380DEST_PATH_IMAGE007
选择策略选择动作
Figure 340516DEST_PATH_IMAGE008
,确定所述动作
Figure 24348DEST_PATH_IMAGE008
对应的行为价值
Figure 771724DEST_PATH_IMAGE018
和状态
Figure 60754DEST_PATH_IMAGE015
S33、获取学习率
Figure 944397DEST_PATH_IMAGE016
和未来状态动作对当前状态动作的价值比例
Figure 542737DEST_PATH_IMAGE039
S34、根据公式(1),计算在状态
Figure 511830DEST_PATH_IMAGE015
时的动作
Figure 338972DEST_PATH_IMAGE008
的收益加权
Figure 342700DEST_PATH_IMAGE013
Figure 347827DEST_PATH_IMAGE040
其中,
Figure 804216DEST_PATH_IMAGE008
表示动作,
Figure 169470DEST_PATH_IMAGE015
表示状态,
Figure 27704DEST_PATH_IMAGE016
为学习率,
Figure 967847DEST_PATH_IMAGE017
表示上一个动作及状态对应的收益加权,
Figure 911533DEST_PATH_IMAGE018
表示在所述初始Q表中动作
Figure 80477DEST_PATH_IMAGE008
对应的行为价值,
Figure 793218DEST_PATH_IMAGE039
为预设的未来状态动作对当前状态动作的价值比例,
Figure 668377DEST_PATH_IMAGE041
为取最大值运算,
Figure 99358DEST_PATH_IMAGE020
表示下一个新动作,
Figure 71993DEST_PATH_IMAGE021
表示新动作对应的新状态;
S35、将计算得到的
Figure 639241DEST_PATH_IMAGE013
作为动作
Figure 921187DEST_PATH_IMAGE008
在状态
Figure 839464DEST_PATH_IMAGE015
时对应的行为价值,更新在所述初始Q表中;
S36、判断新状态是否达到目标状态,如果是则判断完成对初始Q表的更新,如果否则转去执行S32。
可选地,所述更新模块,还用于:
根据当前点是否达到目标点以及公式(2),确定静态奖励函数;
Figure 350211DEST_PATH_IMAGE042
其中,当前点是当前无人天车所处的坐标点;
根据当前点与目标点的距离、以及下个点与目标点的距离以及公式(3)-(5),计算动态奖励函数;
Figure 37544DEST_PATH_IMAGE044
其中,
Figure 991856DEST_PATH_IMAGE025
表示当前点与目标点的距离,
Figure 131850DEST_PATH_IMAGE026
表示目标点的横坐标,
Figure 977447DEST_PATH_IMAGE027
表示目标点的纵坐标,
Figure 643920DEST_PATH_IMAGE028
表示目标点的竖坐标,
Figure 877455DEST_PATH_IMAGE029
表示当前点的横坐标,
Figure 504746DEST_PATH_IMAGE030
表示的当前点的纵坐标,
Figure 622874DEST_PATH_IMAGE031
表示当前点的竖坐标,
Figure 907969DEST_PATH_IMAGE032
表示下个点与目标点的距离,
Figure 577985DEST_PATH_IMAGE033
表示下个点的横坐标,
Figure 567937DEST_PATH_IMAGE045
表示下个点的纵坐标,
Figure 348812DEST_PATH_IMAGE035
表示下个点的竖坐标;
根据静态奖励函数与动态奖励函数以及公式(6),计算动作
Figure 989877DEST_PATH_IMAGE008
对应的奖励函数;
Figure 830794DEST_PATH_IMAGE046
根据奖励函数确定局部最优点。
可选地,所述S4中的判断是否满足停止条件,包括:
判断迭代次数是否达到预设次数。
可选地,所述筛选模块,用于:
在生成的多个路径预测对应的Q表中,选择步数最少的Q表作为待规划场景对应的规划Q表。
另一方面,提供了一种电子设备,所述区块链管理节点包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于强化学习算法的无人天车路径规划方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于强化学习算法的无人天车路径规划方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
获取预先存储的多个任务案例,任务案例包括路径规划方案对应的Q表以及障碍点集合;通过待规划场景中的障碍点集合与多个任务案例中的障碍点集合,确定待规划场景对应的初始Q表;基于Bellman方程、
Figure 308043DEST_PATH_IMAGE007
贪婪选择策略进行路径预测,并对初始Q表进行更新,生成路径预测对应的Q表;判断是否满足停止条件,如果未满足,则转去执行S2;如果满足停止条件,则转去执行S5;在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,将规划Q表对应的路径规划作为待规划场景的路径规划。这样,将与待规划场景最相似的任务案例的Q表作为待规划场景的初始Q表,可以大大减少迭代次数,减少运算量,提高路径规划的效率。通过与环境的实时交互和自主感知,借助强化学习方法的自主学习能力以及数据挖掘方法的数据处理能力,解决无人行车在复杂库区地图和不确定环境中的路径规划问题。通过构建库区模型,初始化强化学习的Q表,并利用Bellman方程对Q表进行动态更新,再采用双重奖励函数退出局部最优机制的方法,可以更快的找到最短路径,便于实际应用到工业现场指导现场,提升钢物流的准确性和快速性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于强化学习算法的无人天车路径规划方法流程图;
图2a是本发明实施例提供的一种基于强化学习算法的无人天车路径规划方法流程图;
图2b是本发明实施例提供的一种基于强化学习算法的无人天车路径规划方法流程图;
图3是本发明实施例提供的一种场景三维坐标系的模拟示意图;
图4是本发明实施例提供的一种基于强化学习算法的无人天车路径规划装置框图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种基于强化学习算法的无人天车路径规划方法,该方法可以由区块链管理节点实现,该区块链管理节点可以是终端或服务器。如图1所示的基于强化学习算法的无人天车路径规划方法流程图,该方法的处理流程可以包括如下的步骤:
S11、获取预先存储的多个任务案例,任务案例包括路径规划方案对应的Q表以及障碍点集合,Q表用于表示状态与动作对应的行为价值;
S12、通过待规划场景中的障碍点集合与多个任务案例中的障碍点集合,确定待规划场景对应的初始Q表;
S13、基于Bellman方程、
Figure 892608DEST_PATH_IMAGE007
贪婪选择策略进行路径预测,并对初始Q表进行更新,生成路径预测对应的Q表;
S14、判断是否满足停止条件,如果未满足,则转去执行S12;如果满足停止条件,则转去执行S15;
S15、在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,将规划Q表对应的路径规划作为待规划场景的路径规划。
可选地,S12中的通过待规划场景中的障碍点集合与多个任务案例中的障碍点集合,确定待规划场景对应的初始Q表,包括:
S121、确定待规划场景中的障碍点集合与多个任务案例中的每个任务案例的障碍点集合的交集数量
Figure 889646DEST_PATH_IMAGE002
;其中,
Figure 901464DEST_PATH_IMAGE003
表示待规划场景中的障碍点集合,
Figure 600430DEST_PATH_IMAGE037
表示每个任务案例的障碍点集合;
S122、确定所述待规划场景中的障碍点数量与所述每个任务案例的障碍点数量的较大值
Figure 988686DEST_PATH_IMAGE005
S123、根据下述公式(1),计算待规划场景与多个任务案例中的每个任务案例的相似度;
Figure 338764DEST_PATH_IMAGE047
S124、选择最大相似度对应的任务案例对应的Q表,作为待规划场景对应的初始Q表。
可选地,S13中的基于Bellman方程、
Figure 521484DEST_PATH_IMAGE007
贪婪选择策略进行路径预测,并对初始Q表进行更新,生成路径预测对应的Q表,包括:
S131、确定起始状态以及目标状态;
S132、基于初始Q表,根据
Figure 973325DEST_PATH_IMAGE007
选择策略选择动作
Figure 634114DEST_PATH_IMAGE008
,确定动作
Figure 714065DEST_PATH_IMAGE008
对应的行为价值
Figure 222013DEST_PATH_IMAGE018
和状态
Figure 895571DEST_PATH_IMAGE015
S133、获取学习率
Figure 94471DEST_PATH_IMAGE016
和未来状态动作对当前状态动作的价值比例
Figure 684722DEST_PATH_IMAGE039
S134、根据公式(1),计算在状态
Figure 209244DEST_PATH_IMAGE015
时的动作
Figure 370098DEST_PATH_IMAGE008
的收益加权
Figure 903847DEST_PATH_IMAGE013
Figure 584490DEST_PATH_IMAGE048
其中,
Figure 14334DEST_PATH_IMAGE008
表示动作,
Figure 787118DEST_PATH_IMAGE015
表示状态,
Figure 734345DEST_PATH_IMAGE016
为学习率,
Figure 643396DEST_PATH_IMAGE017
表示上一个动作及状态对应的收益加权,
Figure 899933DEST_PATH_IMAGE018
表示在初始Q表中动作
Figure 894434DEST_PATH_IMAGE008
对应的行为价值,
Figure 645353DEST_PATH_IMAGE039
为预设的未来状态动作对当前状态动作的价值比例,
Figure 674488DEST_PATH_IMAGE041
为取最大值运算,
Figure 334884DEST_PATH_IMAGE020
表示下一个新动作,
Figure 82260DEST_PATH_IMAGE021
表示新动作对应的新状态;
S135、将计算得到的
Figure 636869DEST_PATH_IMAGE013
作为动作
Figure 254932DEST_PATH_IMAGE008
在状态
Figure 587693DEST_PATH_IMAGE015
时对应的行为价值,更新在初始Q表中;
S136、判断新状态是否达到目标状态,如果是则判断完成对初始Q表的更新,如果否则转去执行S132。
可选地,S135中的将计算得到的
Figure 556786DEST_PATH_IMAGE013
作为动作
Figure 649507DEST_PATH_IMAGE008
在状态
Figure 387656DEST_PATH_IMAGE015
时对应的行为价值,更新在初始Q表中之后,方法还包括:
根据当前点是否达到目标点以及公式(2),确定静态奖励函数;
Figure 392784DEST_PATH_IMAGE049
其中,当前点是当前无人天车所处的坐标点;
根据当前点与目标点的距离、以及下个点与目标点的距离以及公式(3)-(5),计算动态奖励函数;
Figure 849173DEST_PATH_IMAGE051
其中,
Figure 480005DEST_PATH_IMAGE025
表示当前点与目标点的距离,
Figure 603819DEST_PATH_IMAGE026
表示目标点的横坐标,
Figure 278383DEST_PATH_IMAGE027
表示目标点的纵坐标,
Figure 956489DEST_PATH_IMAGE028
表示目标点的竖坐标,
Figure 391012DEST_PATH_IMAGE029
表示当前点的横坐标,
Figure 103754DEST_PATH_IMAGE030
表示的当前点的纵坐标,
Figure 713333DEST_PATH_IMAGE031
表示当前点的竖坐标,
Figure 144314DEST_PATH_IMAGE032
表示下个点与目标点的距离,
Figure 116950DEST_PATH_IMAGE033
表示下个点的横坐标,
Figure 684197DEST_PATH_IMAGE045
表示下个点的纵坐标,
Figure 966143DEST_PATH_IMAGE035
表示下个点的竖坐标;
根据静态奖励函数与动态奖励函数以及公式(6),计算动作
Figure 618841DEST_PATH_IMAGE008
对应的奖励函数;
Figure 395167DEST_PATH_IMAGE052
根据奖励函数确定局部最优点。
可选地,S14中的判断是否满足停止条件,包括:
判断迭代次数是否达到预设次数。
可选地,S15中的在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,包括:
在生成的多个路径预测对应的Q表中,选择步数最少的Q表作为待规划场景对应的规划Q表。
获取预先存储的多个任务案例,任务案例包括路径规划方案对应的Q表以及障碍点集合;通过待规划场景中的障碍点集合与多个任务案例中的障碍点集合,确定待规划场景对应的初始Q表;基于Bellman方程、
Figure 82500DEST_PATH_IMAGE007
贪婪选择策略进行路径预测,并对初始Q表进行更新,生成路径预测对应的Q表;判断是否满足停止条件,如果未满足,则转去执行S2;如果满足停止条件,则转去执行S5;在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,将规划Q表对应的路径规划作为待规划场景的路径规划。这样,将与待规划场景最相似的任务案例的Q表作为待规划场景的初始Q表,可以大大减少迭代次数,减少运算量,提高路径规划的效率。通过与环境的实时交互和自主感知,借助强化学习方法的自主学习能力以及数据挖掘方法的数据处理能力,解决无人行车在复杂库区地图和不确定环境中的路径规划问题。通过构建库区模型,初始化强化学习的Q表,并利用Bellman方程对Q表进行动态更新,再采用双重奖励函数退出局部最优机制的方法,可以更快的找到最短路径,便于实际应用到工业现场指导现场,提升钢物流的准确性和快速性。
本发明实施例提供了一种基于强化学习算法的无人天车路径规划方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。本发明实施例是采用多次模拟无人天车的运动最终确定路径规划,然后真实的无人天车根据路径规划进行相应运动。因此,本发明实施例中涉及的“无人天车的运动”、“无人天车到达某个点”、“无人天车达到的状态”等均为模拟过程,并不代表真实的无人天车进行了相应的运动。
如图2a及图2b所示的基于强化学习算法的无人天车路径规划方法流程图,该方法的处理流程可以包括如下的步骤:
S201、获取预先存储的多个任务案例,任务案例包括路径规划方案对应的Q表以及障碍点集合。
其中,Q表用于表示状态与动作对应的行为价值,Q表的横轴表示动作,无人天车的动作可以分为上、下、左、右、前、后,因此无人天车进行动作的方向可以是三个坐标方向的组合,故Q表的动作包括26个方向的基本元动作,设定用-1、1表示同一方向上的两个相反动作,用0表示无动作,且
Figure 36812DEST_PATH_IMAGE053
中的
Figure 176807DEST_PATH_IMAGE054
表示上下方向的动作、
Figure 491244DEST_PATH_IMAGE055
表示左右方向的动作、
Figure 33084DEST_PATH_IMAGE056
表示前后方向的动作,如(0,1,-1)可以表示向左后方向运动,则将26个元动作可以包括:(1,1,1)、(-1,1,1)、(1,-1,1)、(1,1,-1)、(-1,-1,1)、(-1,1,-1)、(1,-1,-1)、(-1,-1,-1)、(0,1,1)、(1,0,1)、(1,1,0)、(0,0,1)、(1,0,0)、(0,1,0)、(0,-1,1)、(0,1,-1)、(-1,0,1)、(1,0,-1)、(-1,0,-1)、(0,-1,-1)、(1,-1,0)、(-1,1,0)、(-1,-1,0)、(0,0,-1)、(-1,0,0)、(0,-1,0)。Q表的纵轴表示状态,用户可以在无人天车工作的场景下建立坐标系,无人天车每处于一个位置都可以看作是一个坐标点,任意两个相邻的坐标点之间的距离为无人天车吊头末端可移动的最小距离,因此路径规划可以看作是坐标点的集合。举例来说,将无人天车的三维工作空间划分为50×40×25个三维空间网格,其中,如图3所示建立一个场景的三维坐标系,阴影部分表示无人天车无法通行的障碍物区域,其覆盖的坐标点称为障碍点,则应该有50×40×25=50000个坐标点,其中有5000个点为障碍点,则无人天车可以运动的坐标点为45000个,对应的状态也是45000个,为了方便可以用数值代替坐标来表示状态,因此,Q表纵轴的状态可以用0-44999表示,所述Q表可以如下表1所示。
表1
Figure 266619DEST_PATH_IMAGE058
Figure 18544DEST_PATH_IMAGE060
一种可行的实施方式中,无人天车可以在多种不同的场景下进行工作,用户可以采集无人天车在其它场景下的路径规划方案,包括路径规划方案、路径规划方案对应的Q表、当前场景的障碍点集合等,在新的场景进行路径规划时,用户可以获取这些预先存储的多个路径规划方案作为任务案例,基于这些任务案例进行路径规划。
S202、通过待规划场景中的障碍点集合与多个任务案例中的障碍点集合,确定待规划场景对应的初始Q表。
一种可行的实施方式中,通过上述步骤201获取到多个任务案例后,在多个任务案例中找到与待规划场景相近的任务案例,将任务案例对应的Q表确定为待规划场景对应的初始Q表,这样,可以大大减少路径规划时的迭代次数,提高路径规划效率。具体地,对于任一个任务案例,根据下述步骤2021-2023计算待规划场景与该任务案例的相似度,然后根据下述步骤2024在多个任务案例中选出与待规划场景最相似的任务案例:
S2021、确定待规划场景中的障碍点集合与每个任务案例的障碍点集合的交集数量。
其中,障碍点集合为场景中无人天车不能运行的点的坐标集合。
一种可行的实施方式中,用
Figure 261306DEST_PATH_IMAGE003
表示待规划场景中的障碍点集合,
Figure 798598DEST_PATH_IMAGE037
表示每个任务案例的障碍点集合,则可以用
Figure 468614DEST_PATH_IMAGE002
表示对障碍点集合与多个任务案例中的每个任务案例的障碍点集合的交集数量。
S2022、确定待规划场景中的障碍点数量与每个任务案例的障碍点数量的较大值
Figure 471948DEST_PATH_IMAGE005
一种可行的实施方式中,先确定待规划场景中的障碍点的个数
Figure 393768DEST_PATH_IMAGE061
以及每个任务案例的障碍点的数量
Figure 910200DEST_PATH_IMAGE062
,然后,对于任一个任务案例,将待规划场景中的障碍点的数量
Figure 610171DEST_PATH_IMAGE061
与任务案例的障碍点的个数
Figure 946475DEST_PATH_IMAGE062
进行比较,确定出较大值,即为
Figure 406406DEST_PATH_IMAGE005
S2023、根据下述公式(1),计算待规划场景与多个任务案例中的每个任务案例的相似度。
Figure 777345DEST_PATH_IMAGE063
S2024、选择最大相似度对应的任务案例对应的Q表,作为待规划场景对应的初始Q表。
一种可行的实施方式中,通过上述步骤确定出的初始Q表,其对应的场景是与待规划场景最相似的场景,如障碍点的个数以及分布比较相似,基于这样的初始Q表可以减少迭代次数,提高效率。
S203、确定起始状态以及目标状态。
一种可行的实施方式中,起始状态是在即将进行场景规划时无人天车的初始位置对应的状态,通常来讲,起始状态在Q表中均用0表示,起始状态可以用
Figure 415262DEST_PATH_IMAGE064
表示。目标状态为无人天车需要到达的目标点对应的目标状态,目标状态在Q表中不一定是最末的状态,目标状态可以用
Figure 504440DEST_PATH_IMAGE065
表示。
S204、基于初始Q表,根据
Figure 361538DEST_PATH_IMAGE007
选择策略选择动作
Figure 727928DEST_PATH_IMAGE008
,确定动作
Figure 910648DEST_PATH_IMAGE008
对应的行为价值
Figure 346177DEST_PATH_IMAGE018
和状态
Figure 272545DEST_PATH_IMAGE015
一种可行的实施方式中,在进行路径规划时,根据
Figure 493442DEST_PATH_IMAGE007
选择策略中的奖励函数,选择下一个进行的动作
Figure 581484DEST_PATH_IMAGE008
,计算由当前点进行动作
Figure 2844DEST_PATH_IMAGE008
后到达的坐标点,由坐标点在初始Q表中确定到达的状态
Figure 732903DEST_PATH_IMAGE015
,进而确定动作
Figure 808306DEST_PATH_IMAGE008
以及状态
Figure 332829DEST_PATH_IMAGE015
对应的行为价值
Figure 742950DEST_PATH_IMAGE018
需要说明的是,
Figure 11121DEST_PATH_IMAGE007
选择策略为现有技术中常用的一种选择策略,本发明实施例中可以设置
Figure 65664DEST_PATH_IMAGE066
=0.9,该算法的具体原理以及执行本发明对此不作赘述。
S205、获取学习率
Figure 636454DEST_PATH_IMAGE016
和未来状态动作对当前状态动作的价值比例
Figure 409238DEST_PATH_IMAGE039
一种可行的实施方式中,学习率
Figure 107198DEST_PATH_IMAGE016
以及价值比例
Figure 16248DEST_PATH_IMAGE039
可以是预先设定好的参数值,学习率
Figure 23518DEST_PATH_IMAGE016
可以是一个常数,可以设置为
Figure 18019DEST_PATH_IMAGE016
=0.01。价值比例
Figure 18205DEST_PATH_IMAGE039
可以根据迭代次数均匀变化,如价值比例
Figure 781762DEST_PATH_IMAGE039
初始设定为0.5,每迭代一定次数则
Figure 959933DEST_PATH_IMAGE039
增加0.05,直至
Figure 176151DEST_PATH_IMAGE039
增加到1。
S206、计算在状态
Figure 502000DEST_PATH_IMAGE015
时的动作
Figure 120063DEST_PATH_IMAGE008
的收益加权
Figure 469136DEST_PATH_IMAGE013
一种可行的实施方式中,在路径规划的一次迭代中,计算在当前状态及至终点的过程中,所路过状态的收益加权可以用
Figure 438229DEST_PATH_IMAGE067
表示:
Figure 780218DEST_PATH_IMAGE068
其中,
Figure 518367DEST_PATH_IMAGE069
表示当前状态,
Figure 303920DEST_PATH_IMAGE070
表示当前动作,
Figure 494730DEST_PATH_IMAGE071
表示初始Q表中到达目标状态时对应的行为价值。
基于上述公式,可以推导出下述在状态
Figure 141874DEST_PATH_IMAGE015
时的动作
Figure 109DEST_PATH_IMAGE008
的收益加权
Figure 159826DEST_PATH_IMAGE013
的公式:
Figure 369090DEST_PATH_IMAGE072
Figure 52881DEST_PATH_IMAGE008
表示动作,
Figure 765623DEST_PATH_IMAGE015
表示状态,
Figure 627399DEST_PATH_IMAGE016
为学习率,
Figure 792801DEST_PATH_IMAGE013
表示上一个动作及状态对应的收益加权,
Figure 513239DEST_PATH_IMAGE018
表示在初始Q表中动作
Figure 346066DEST_PATH_IMAGE008
对应的行为价值,
Figure 378744DEST_PATH_IMAGE039
为预设的未来状态动作对当前状态动作的价值比例,
Figure 31442DEST_PATH_IMAGE041
为取最大值运算,
Figure 57036DEST_PATH_IMAGE020
表示下一个新动作,
Figure 744369DEST_PATH_IMAGE021
表示新动作对应的新状态。
S207、将计算得到的
Figure 947949DEST_PATH_IMAGE013
作为动作
Figure 87943DEST_PATH_IMAGE008
在状态
Figure 153113DEST_PATH_IMAGE015
时对应的行为价值,更新在初始Q表中。
一种可行的实施方式中,每选择一个动作,通过上述步骤206计算一次收益加权,然后将收益加权作为动作
Figure 694953DEST_PATH_IMAGE008
在状态
Figure 335013DEST_PATH_IMAGE015
时对应的行为价值,替换掉初始Q表中的动作
Figure 86937DEST_PATH_IMAGE008
在状态
Figure 329700DEST_PATH_IMAGE015
时对应的行为价值。
S208、计算奖励函数。
一种可行的实施方式中,在每次选择动作后,需要计算奖励函数,该奖励函数作为
Figure 601412DEST_PATH_IMAGE007
选择策略中的一个参数,用于确定局部最优点,进而选择最合适的动作。计算奖励函数可以包括下述步骤2081-2084:
S2081、根据当前点是否达到目标点,确定静态奖励函数。
其中,当前点是当前无人天车所处的坐标点,目标点是无人天车想要到达的坐标点。
一种可行的实施方式中,根据下述公式确定静态奖励函数:
Figure 271428DEST_PATH_IMAGE073
S2082、根据当前点与目标点的距离、以及下个点与目标点的距离,计算动态奖励函数。
其中,下个点表示无人天车处于当前点时、选择下一个动作后会达到的坐标点,当可选择的下一个动作有多个时,对应的下个点也可以是多个,这种情况下,可以计算每个下个点相关的动态奖励函数。
一种可行的实施方式中,根据下述公式计算动态奖励函数:
Figure 9183DEST_PATH_IMAGE074
其中,
Figure 55637DEST_PATH_IMAGE025
表示当前点与目标点的距离,
Figure 181856DEST_PATH_IMAGE026
表示目标点的横坐标,
Figure 22773DEST_PATH_IMAGE027
表示目标点的纵坐标,
Figure 14869DEST_PATH_IMAGE028
表示目标点的竖坐标,
Figure 333854DEST_PATH_IMAGE029
表示当前点的横坐标,
Figure 580159DEST_PATH_IMAGE030
表示的当前点的纵坐标,
Figure 591977DEST_PATH_IMAGE031
表示当前点的竖坐标,
Figure 307255DEST_PATH_IMAGE032
表示下个点与目标点的距离,
Figure 695511DEST_PATH_IMAGE033
表示下个点的横坐标,
Figure 796322DEST_PATH_IMAGE045
表示下个点的纵坐标,
Figure 244621DEST_PATH_IMAGE035
表示下个点的竖坐标。
S2083、根据静态奖励函数与动态奖励函数,计算动作
Figure 680150DEST_PATH_IMAGE008
对应的奖励函数。
一种可行的实施方式中,将静态奖励函数与动态奖励函数相加,得到的和值即为对应的奖励函数。
Figure 606518DEST_PATH_IMAGE075
S2084、根据奖励函数确定局部最优点。
一种可行的实施方式中,在多个下个点相关的多个奖励函数中,选择奖励函数最大的下个点,作为局部最优点。
S209、判断状态
Figure 827415DEST_PATH_IMAGE015
是否达到目标状态,如果是则判断完成对初始Q表的更新,执行S210,如果否则转去执行S204。
一种可行的实施方式中,判断经过动作
Figure 69784DEST_PATH_IMAGE008
后的状态是否达到目标状态,即判断是否到达目标点,如果状态已达到目标状态,或者说无人天车已到达目标点,则代表完成此次迭代过程中对初始Q表的更新,可以执行下一步骤进行下一次迭代。如果状态未达到目标状态,或者说无人天车未到达目标点,说明并未完成此次迭代过程中对初始Q表的更新,需要无人天车继续运动,因此转去执行S204,进行下一次动作选择。
S210、判断迭代次数是否达到预设次数,如果未满足,则转去执行S202。如果满足停止条件,则转去执行S211。
一种可行的实施方式中,用户可以预先设定迭代次数(可以称作MaxEpoch)作为停止迭代的条件,根据上述步骤完成一次迭代后,判断迭代次数(可称作Epoch)是否达到预设次数,如果已达到,则停止迭代,可以进入最终的规划路径筛选步骤。如果未达到预设次数,则转去执行步骤S202进行下一次迭代。可选地,预设次数MaxEpoch可以设置为2000次。
需要说明的是,预先设定迭代次数仅是可行的一种停止迭代的方式之一,除此之外,还可以通过判断收益加权是否收敛等方法停止迭代,本发明对此不作赘述。
通过反复迭代更新步骤和多回合学习,无人天车寻路结果趋向于避开陷阱区,得到较优的寻路结果,此算法在迭代1000次和迭代2000次后,规划路径与迭代次数区域稳定,且Q学习算法步骤下降明显更快,朝着终点的趋势更加明显。
S211、在生成的多个路径预测对应的Q表中,选择步数最少的Q表作为待规划场景对应的规划Q表,将规划Q表对应的路径规划作为待规划场景的路径规划。
一种可行的实施方式中,完成多次迭代后,可以得到多个更新后的Q表以及每个Q表对应的路径预测,确定每个Q表对应的路径预测中执行的步数,即无人天车从起始点到目标点运动的步数,步数的多少代表无人天车运动的长度,步数越少则代表无人天车运动的长度越短,效率越高,因此,将多个Q表对应的步数进行比较,选择步数最少的Q表作为待规划场景对应的规划Q表,将规划Q表对应的路径规划作为待规划场景的路径规划。将确定出的规划Q表、对应的路径规划以及障碍点集合等数据作为任务案例进行存储。
当真实的无人天车需要从上述起始点运动到目标点时,根据上述确定出的路径规划进行运动。
本发明实施例中,获取预先存储的多个任务案例,任务案例包括路径规划方案对应的Q表以及障碍点集合;通过待规划场景中的障碍点集合与多个任务案例中的障碍点集合,确定待规划场景对应的初始Q表;基于Bellman方程、
Figure 867976DEST_PATH_IMAGE007
贪婪选择策略进行路径预测,并对初始Q表进行更新,生成路径预测对应的Q表;判断是否满足停止条件,如果未满足,则转去执行S2;如果满足停止条件,则转去执行S5;在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,将规划Q表对应的路径规划作为待规划场景的路径规划。这样,将与待规划场景最相似的任务案例的Q表作为待规划场景的初始Q表,可以大大减少迭代次数,减少运算量,提高路径规划的效率。通过与环境的实时交互和自主感知,借助强化学习方法的自主学习能力以及数据挖掘方法的数据处理能力,解决无人行车在复杂库区地图和不确定环境中的路径规划问题。通过构建库区模型,初始化强化学习的Q表,并利用Bellman方程对Q表进行动态更新,再采用双重奖励函数退出局部最优机制的方法,可以更快的找到最短路径,便于实际应用到工业现场指导现场,提升钢物流的准确性和快速性。
图4是根据一示例性实施例示出的一种基于强化学习算法的无人天车路径规划装置框图400,该装置应用于基于强化学习算法的无人天车路径规划方法。参照图4,该装置包括获取模块410、确定模块420、更新模块430、判断模块440、筛选模块450,其中:
获取模块410,用于获取预先存储的多个任务案例,所述任务案例包括路径规划方案对应的Q表以及障碍点集合,所述Q表用于表示状态与动作对应的行为价值;
确定模块420,用于通过待规划场景中的障碍点集合与所述多个任务案例中的障碍点集合,确定所述待规划场景对应的初始Q表;
更新模块430,用于基于Bellman方程、ε-greedy贪婪选择策略进行路径预测,并对所述初始Q表进行更新,生成路径预测对应的Q表;
判断模块440,用于判断是否满足停止条件,如果未满足,则转去执行S2;如果满足停止条件,则转去执行S5;
筛选模块450,用于在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,将所述规划Q表对应的路径规划作为待规划场景的路径规划。
可选地,所述确定模块420,用于:
S21、确定待规划场景中的障碍点集合与所述多个任务案例中的每个任务案例的障碍点集合的交集数量
Figure 473401DEST_PATH_IMAGE002
;其中,
Figure 673438DEST_PATH_IMAGE003
表示待规划场景中的障碍点集合,
Figure 322594DEST_PATH_IMAGE037
表示每个任务案例的障碍点集合;
S22、确定所述待规划场景中的障碍点数量与所述每个任务案例的障碍点数量的较大值
Figure 608082DEST_PATH_IMAGE005
S23、根据下述公式(1),计算待规划场景与所述多个任务案例中的每个任务案例的相似度;
Figure 17197DEST_PATH_IMAGE076
S24、选择最大相似度对应的任务案例对应的Q表,作为待规划场景对应的初始Q表。
可选地,所述更新模块430,用于:
S31、确定起始状态以及目标状态;
S32、基于所述初始Q表,根据
Figure 71741DEST_PATH_IMAGE007
选择策略选择动作
Figure 658842DEST_PATH_IMAGE008
,确定所述动作
Figure 431626DEST_PATH_IMAGE008
对应的行为价值
Figure 378854DEST_PATH_IMAGE018
和状态
Figure 678117DEST_PATH_IMAGE015
S33、获取学习率
Figure 544442DEST_PATH_IMAGE016
和未来状态动作对当前状态动作的价值比例
Figure 679888DEST_PATH_IMAGE039
S34、根据公式(1),计算在状态
Figure 289861DEST_PATH_IMAGE015
时的动作
Figure 207745DEST_PATH_IMAGE008
的收益加权
Figure 510550DEST_PATH_IMAGE013
Figure 867714DEST_PATH_IMAGE077
其中,
Figure 671590DEST_PATH_IMAGE008
表示动作,
Figure 555233DEST_PATH_IMAGE015
表示状态,
Figure 904306DEST_PATH_IMAGE016
为学习率,
Figure 873399DEST_PATH_IMAGE017
表示上一个动作及状态对应的收益加权,
Figure 451273DEST_PATH_IMAGE018
表示在所述初始Q表中动作
Figure 720580DEST_PATH_IMAGE008
对应的行为价值,
Figure 240554DEST_PATH_IMAGE039
为预设的未来状态动作对当前状态动作的价值比例,
Figure 696943DEST_PATH_IMAGE041
为取最大值运算,
Figure 842623DEST_PATH_IMAGE020
表示下一个新动作,
Figure 310644DEST_PATH_IMAGE021
表示新动作对应的新状态;
S35、将计算得到的
Figure 126154DEST_PATH_IMAGE013
作为动作
Figure 958587DEST_PATH_IMAGE008
在状态
Figure 517744DEST_PATH_IMAGE015
时对应的行为价值,更新在所述初始Q表中;
S36、判断新状态是否达到目标状态,如果是则判断完成对初始Q表的更新,如果否则转去执行S32。
可选地,所述更新模块430,还用于:
根据当前点是否达到目标点以及公式(2),确定静态奖励函数;
Figure 105852DEST_PATH_IMAGE078
其中,当前点是当前无人天车所处的坐标点;
根据当前点与目标点的距离、以及下个点与目标点的距离以及公式(3)-(5),计算动态奖励函数;
Figure 826683DEST_PATH_IMAGE080
Figure 647877DEST_PATH_IMAGE082
Figure 620512DEST_PATH_IMAGE084
其中,
Figure 453339DEST_PATH_IMAGE025
表示当前点与目标点的距离,
Figure 236750DEST_PATH_IMAGE026
表示目标点的横坐标,
Figure 295973DEST_PATH_IMAGE027
表示目标点的纵坐标,
Figure 196933DEST_PATH_IMAGE028
表示目标点的竖坐标,
Figure 8900DEST_PATH_IMAGE029
表示当前点的横坐标,
Figure 478058DEST_PATH_IMAGE030
表示的当前点的纵坐标,
Figure 618053DEST_PATH_IMAGE031
表示当前点的竖坐标,
Figure 945872DEST_PATH_IMAGE032
表示下个点与目标点的距离,
Figure 753291DEST_PATH_IMAGE033
表示下个点的横坐标,
Figure 127772DEST_PATH_IMAGE045
表示下个点的纵坐标,
Figure 755062DEST_PATH_IMAGE035
表示下个点的竖坐标;
根据静态奖励函数与动态奖励函数以及公式(6),计算动作
Figure 794563DEST_PATH_IMAGE008
对应的奖励函数;
Figure 627127DEST_PATH_IMAGE085
根据奖励函数确定局部最优点。
可选地,所述S4中的判断是否满足停止条件,包括:
判断迭代次数是否达到预设次数。
可选地,所述筛选模块450,用于:
在生成的多个路径预测对应的Q表中,选择步数最少的Q表作为待规划场景对应的规划Q表。
本发明实施例中,获取预先存储的多个任务案例,任务案例包括路径规划方案对应的Q表以及障碍点集合;通过待规划场景中的障碍点集合与多个任务案例中的障碍点集合,确定待规划场景对应的初始Q表;基于Bellman方程、
Figure 703668DEST_PATH_IMAGE007
贪婪选择策略进行路径预测,并对初始Q表进行更新,生成路径预测对应的Q表;判断是否满足停止条件,如果未满足,则转去执行S2;如果满足停止条件,则转去执行S5;在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,将规划Q表对应的路径规划作为待规划场景的路径规划。这样,将与待规划场景最相似的任务案例的Q表作为待规划场景的初始Q表,可以大大减少迭代次数,减少运算量,提高路径规划的效率。通过与环境的实时交互和自主感知,借助强化学习方法的自主学习能力以及数据挖掘方法的数据处理能力,解决无人行车在复杂库区地图和不确定环境中的路径规划问题。通过构建库区模型,初始化强化学习的Q表,并利用Bellman方程对Q表进行动态更新,再采用双重奖励函数退出局部最优机制的方法,可以更快的找到最短路径,便于实际应用到工业现场指导现场,提升钢物流的准确性和快速性。
图5是本发明实施例提供的一种区块链管理节点500的结构示意图,该区块链管理节点500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)501和一个或一个以上的存储器502,其中,所述存储器502中存储有至少一条指令,所述至少一条指令由所述处理器501加载并执行以实现上述基于强化学习算法的无人天车路径规划方法的步骤。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于强化学习算法的无人天车路径规划方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于强化学习算法的无人天车路径规划方法,其特征在于,所述方法包括:
S1、获取预先存储的多个任务案例,所述任务案例包括路径规划方案对应的Q表以及障碍点集合,所述Q表用于表示状态与动作对应的行为价值;
S2、通过待规划场景中的障碍点集合与所述多个任务案例中的障碍点集合,确定所述待规划场景对应的初始Q表;
S3、基于Bellman方程、ε-greedy贪婪选择策略进行路径预测,并对所述初始Q表进行更新,生成路径预测对应的Q表;
S4、判断是否满足停止条件,如果未满足,则转去执行S2;如果满足停止条件,则转去执行S5;
S5、在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,将所述规划Q表对应的路径规划作为待规划场景的路径规划。
2.根据权利要求1所述的方法,其特征在于,所述S2中的通过待规划场景中的障碍点集合与所述多个任务案例中的障碍点集合,确定所述待规划场景对应的初始Q表,包括:
S21、确定待规划场景中的障碍点集合与所述多个任务案例中的每个任务案例的障碍点集合的交集数量P(π1∩π2);其中,π1表示待规划场景中的障碍点集合,π2表示每个任务案例的障碍点集合;
S22、确定所述待规划场景中的障碍点数量与所述每个任务案例的障碍点数量的较大值max(P(π1),P(π2));
S23、根据下述公式(1),计算待规划场景与所述多个任务案例中的每个任务案例的相似度;
Figure FDA0003482963730000011
S24、选择最大相似度对应的任务案例对应的Q表,作为待规划场景对应的初始Q表。
3.根据权利要求1所述的方法,其特征在于,所述S3中的基于Bellman方程、ε-greedy贪婪选择策略进行路径预测,并对所述初始Q表进行更新,生成路径预测对应的Q表,包括:
S31、确定起始状态以及目标状态;
S32、基于所述初始Q表,根据ε-greedy选择策略选择动作a,确定所述动作a对应的行为价值R和状态s;
S33、获取学习率α和未来状态动作对当前状态动作的价值比例γ;
S34、根据公式(2),计算在状态s时的动作a的收益加权V(s,a);
V(s,a)=V*(s,a)+α(R+γmaxa′V(s′,a′)-V(s,a))……(2)
其中,a表示动作,s表示状态,α为学习率,V*(s,a)表示上一个动作及状态对应的收益加权,R表示在所述初始Q表中动作a对应的行为价值,γ为预设的未来状态动作对当前状态动作的价值比例,max为取最大值运算,a′表示下一个新动作,s′表示新动作对应的新状态;
S35、将计算得到的V(s,a)作为动作a在状态s时对应的行为价值,更新在所述初始Q表中;
S36、判断新状态是否达到目标状态,如果是则判断完成对初始Q表的更新,如果否则转去执行S32。
4.根据权利要求3所述的方法,其特征在于,所述S35中的将计算得到的V(s,a)作为动作a在状态s时对应的行为价值,更新在所述初始Q表中之后,所述方法还包括:
根据当前点是否达到目标点以及公式(3),确定静态奖励函数;
Figure FDA0003482963730000021
其中,当前点是当前无人天车所处的坐标点;
根据当前点与目标点的距离、以及下个点与目标点的距离以及公式(4)-(6),计算动态奖励函数;
Figure FDA0003482963730000022
Figure FDA0003482963730000031
Figure FDA0003482963730000032
其中,dt表示当前点与目标点的距离,xtarget表示目标点的横坐标,ytarget表示目标点的纵坐标,ztarget表示目标点的竖坐标,xt表示当前点的横坐标,yt表示的当前点的纵坐标,zt表示当前点的竖坐标,dt+1表示下个点与目标点的距离,xt+1表示下个点的横坐标,yt+1表示下个点的纵坐标,zt+1表示下个点的竖坐标;
根据静态奖励函数与动态奖励函数以及公式(7),计算动作a对应的奖励函数;
Reward=Rewards+Rewardd……(7)
根据奖励函数确定局部最优点。
5.根据权利要求1所述的方法,其特征在于,所述S4中的判断是否满足停止条件,包括:
判断迭代次数是否达到预设次数。
6.根据权利要求1所述的方法,其特征在于,所述S5中的在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,包括:
在生成的多个路径预测对应的Q表中,选择步数最少的Q表作为待规划场景对应的规划Q表。
7.一种基于强化学习算法的无人天车路径规划装置,其特征在于,所述装置包括:
获取模块,用于获取预先存储的多个任务案例,所述任务案例包括路径规划方案对应的Q表以及障碍点集合,所述Q表用于表示状态与动作对应的行为价值;
确定模块,用于通过待规划场景中的障碍点集合与所述多个任务案例中的障碍点集合,确定所述待规划场景对应的初始Q表;
更新模块,用于基于Bellman方程、ε-greedy贪婪选择策略进行路径预测,并对所述初始Q表进行更新,生成路径预测对应的Q表;
判断模块,用于判断是否满足停止条件,如果未满足,则转去执行S2;如果满足停止条件,则转去执行S5;
筛选模块,用于在生成的多个路径预测对应的Q表中,选择满足筛选条件的Q表作为待规划场景对应的规划Q表,将所述规划Q表对应的路径规划作为待规划场景的路径规划。
8.根据权利要求7所述的装置,其特征在于,所述确定模块,用于:
S21、确定待规划场景中的障碍点集合与所述多个任务案例中的每个任务案例的障碍点集合的交集数量P(π1∩π2);其中,π1表示待规划场景中的障碍点集合,π2表示每个任务案例的障碍点集合;
S22、确定所述待规划场景中的障碍点数量与所述每个任务案例的障碍点数量的较大值max(P(π1),P(π2));
S23、根据下述公式(1),计算待规划场景与所述多个任务案例中的每个任务案例的相似度;
Figure FDA0003482963730000041
S24、选择最大相似度对应的任务案例对应的Q表,作为待规划场景对应的初始Q表。
9.根据权利要求7所述的装置,其特征在于,所述更新模块,用于:
S31、确定起始状态以及目标状态;
S32、基于所述初始Q表,根据ε-greedy选择策略选择动作a,确定所述动作a对应的行为价值R和状态s;
S33、获取学习率α和未来状态动作对当前状态动作的价值比例γ;
S34、根据公式(2),计算在状态s时的动作a的收益加权V(s,a);
V(s,a)=V*(s,a)+α(R+γmaxa′V(s′,a′)-V(s,a))……(2)
其中,a表示动作,s表示状态,α为学习率,V*(s,a)表示上一个动作及状态对应的收益加权,R表示在所述初始Q表中动作a对应的行为价值,γ为预设的未来状态动作对当前状态动作的价值比例,max为取最大值运算,a′表示下一个新动作,s′表示新动作对应的新状态;
S35、将计算得到的V(s,a)作为动作a在状态s时对应的行为价值,更新在所述初始Q表中;
S36、判断新状态是否达到目标状态,如果是则判断完成对初始Q表的更新,如果否则转去执行S32。
10.根据权利要求9所述的装置,其特征在于,所述更新模块,还用于:
根据当前点是否达到目标点以及公式(3),确定静态奖励函数;
Figure FDA0003482963730000051
其中,当前点是当前无人天车所处的坐标点;
根据当前点与目标点的距离、以及下个点与目标点的距离以及公式(4)-(6),计算动态奖励函数;
Figure FDA0003482963730000052
Figure FDA0003482963730000053
Figure FDA0003482963730000054
其中,dt表示当前点与目标点的距离,xtarget表示目标点的横坐标,ytarget表示目标点的纵坐标,ztarget表示目标点的竖坐标,xt表示当前点的横坐标,yt表示的当前点的纵坐标,zt表示当前点的竖坐标,dt+1表示下个点与目标点的距离,xt+1表示下个点的横坐标,yt+1表示下个点的纵坐标,zt+1表示下个点的竖坐标;
根据静态奖励函数与动态奖励函数以及公式(7),计算动作a对应的奖励函数;
Reward=Rewards+Rewardd……(7)
根据奖励函数确定局部最优点。
CN202111351834.3A 2021-11-16 2021-11-16 一种基于强化学习算法的无人天车路径规划方法及装置 Active CN113790729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111351834.3A CN113790729B (zh) 2021-11-16 2021-11-16 一种基于强化学习算法的无人天车路径规划方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111351834.3A CN113790729B (zh) 2021-11-16 2021-11-16 一种基于强化学习算法的无人天车路径规划方法及装置

Publications (2)

Publication Number Publication Date
CN113790729A CN113790729A (zh) 2021-12-14
CN113790729B true CN113790729B (zh) 2022-04-08

Family

ID=78955342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111351834.3A Active CN113790729B (zh) 2021-11-16 2021-11-16 一种基于强化学习算法的无人天车路径规划方法及装置

Country Status (1)

Country Link
CN (1) CN113790729B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117308945B (zh) * 2023-08-17 2024-04-09 成川科技(苏州)有限公司 基于准确交通管控的无人天车动态路径规划方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
WO2020256738A1 (en) * 2019-06-21 2020-12-24 Schlumberger Technology Corporation Field development planning based on deep reinforcement learning
CN112344944A (zh) * 2020-11-24 2021-02-09 湖北汽车工业学院 一种引入人工势场的强化学习路径规划方法
CN112595326A (zh) * 2020-12-25 2021-04-02 湖北汽车工业学院 一种融合先验知识的改进Q-learning路径规划算法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11467591B2 (en) * 2019-05-15 2022-10-11 Baidu Usa Llc Online agent using reinforcement learning to plan an open space trajectory for autonomous vehicles
US11493926B2 (en) * 2019-05-15 2022-11-08 Baidu Usa Llc Offline agent using reinforcement learning to speedup trajectory planning for autonomous vehicles
CN112325897B (zh) * 2020-11-19 2022-08-16 东北大学 基于启发式深度强化学习的路径规划方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819264A (zh) * 2012-07-30 2012-12-12 山东大学 移动机器人路径规划q学习初始化方法
WO2020256738A1 (en) * 2019-06-21 2020-12-24 Schlumberger Technology Corporation Field development planning based on deep reinforcement learning
CN112344944A (zh) * 2020-11-24 2021-02-09 湖北汽车工业学院 一种引入人工势场的强化学习路径规划方法
CN112595326A (zh) * 2020-12-25 2021-04-02 湖北汽车工业学院 一种融合先验知识的改进Q-learning路径规划算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An Event-based Probabilistic Q-learning Method for Navigation Control of Mobile Robots∗;Dongdong Xu,et al.;《IEEE:Proceeding of the 11th World Congress on Intelligent Control and Automation》;20140704;全文 *
改进强化学习算法应用于移动机器人路径规划;王科银等;《计算机工程与应用》;20210930;第57卷(第18期);全文 *
无人天车与智能库管系统的研究与应用;刘洋等;《冶金自动化》;20210831(第S1期);全文 *
模糊先验引导的高效强化学习移动机器人导航;刘浚嘉等;《机械与电子》;20210831;第39卷(第08期);全文 *

Also Published As

Publication number Publication date
CN113790729A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
US20210103286A1 (en) Systems and methods for adaptive path planning
US20220363259A1 (en) Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device
CN111098852B (zh) 一种基于强化学习的泊车路径规划方法
Theocharous et al. Approximate planning in POMDPs with macro-actions
KR101105325B1 (ko) 실제 로봇의 다중 경로계획 방법
van Toll et al. Towards believable crowds: A generic multi-level framework for agent navigation
Pei et al. An improved dyna-q algorithm for mobile robot path planning in unknown dynamic environment
CN111664852B (zh) 一种无人机路径规划方法及装置
CN113790729B (zh) 一种基于强化学习算法的无人天车路径规划方法及装置
Pan et al. Additional planning with multiple objectives for reinforcement learning
Afshar et al. Automated reinforcement learning: An overview
Li et al. A novel Q-learning algorithm based on improved whale optimization algorithm for path planning
Xu et al. Look before you leap: Safe model-based reinforcement learning with human intervention
Abu et al. Optimization of an Autonomous Mobile Robot Path Planning Based on Improved Genetic Algorithms
Liang et al. Hierarchical reinforcement learning with opponent modeling for distributed multi-agent cooperation
Amini et al. POMCP-based decentralized spatial task allocation algorithms for partially observable environments
Chand et al. A two-tiered global path planning strategy for limited memory mobile robots
Rottmann et al. Adaptive autonomous control using online value iteration with gaussian processes
Hao et al. A search and rescue robot search method based on flower pollination algorithm and Q-learning fusion algorithm
Jin et al. A multi-objective multi-agent framework for traffic light control
WO2022229404A1 (en) Motion planning
CN114527759A (zh) 一种基于分层强化学习的端到端驾驶方法
Schoknecht et al. Reinforcement learning on explicitly specified time scales
KR20230024392A (ko) 주행 의사 결정 방법 및 장치 및 칩
Xu et al. Research on global path planning algorithm for mobile robots based on improved A

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant