CN114779780A - 一种随机环境下路径规划方法及系统 - Google Patents

一种随机环境下路径规划方法及系统 Download PDF

Info

Publication number
CN114779780A
CN114779780A CN202210448863.XA CN202210448863A CN114779780A CN 114779780 A CN114779780 A CN 114779780A CN 202210448863 A CN202210448863 A CN 202210448863A CN 114779780 A CN114779780 A CN 114779780A
Authority
CN
China
Prior art keywords
neural network
scoring
action
environment
subsystem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210448863.XA
Other languages
English (en)
Other versions
CN114779780B (zh
Inventor
梁学栋
李潇岩
黎斯攀
劳佳乐
伍薪丞
刘雨果
王霞
舒灵丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210448863.XA priority Critical patent/CN114779780B/zh
Publication of CN114779780A publication Critical patent/CN114779780A/zh
Priority to GB2306164.1A priority patent/GB2620242A/en
Application granted granted Critical
Publication of CN114779780B publication Critical patent/CN114779780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3446Details of route searching algorithms, e.g. Dijkstra, A*, arc-flags, using precalculated routes
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种随机环境下路径规划方法及系统,通过专家评价技术对得到环境内所有可通行区域进行综合安全性与时间效率的分数,所得到的每分数服从一定的概率分布,以此模拟随机环境中交通过程中的不确定性;且利用了区块链技术中的分布式架构,提高了路径探索的效率。本发明采用分布式异步训练架构,多个子系统可以以独立线程进行训练,并将与环境交互得到的大量数据用以更新主系统的网络,从而加速主系统的训练。主系统也会在一定运算间隔后将其网络参数复制给子系统,从而指导子系统进一步加速训练。

Description

一种随机环境下路径规划方法及系统
技术领域
本发明涉及路径规划技术领域,特别是涉及一种随机环境下路径规划方法及系统。
背景技术
随着我国工业水平的高速发展,越来越多的大型高端设备制造业正在我国崛起。这同时也带来了一个不容忽视的问题:大型高端装备制造往往依赖于专业化分工协作的生产体系,这也使得其具有更加复杂的供应链系统。一旦交通环境发生大范围地改变,会严重地影响大型高端装备的供应链效率。
现有的路径规划方法大多考虑的是环境稳定下的最快时效的规划,少量一些考虑不确定性环境的路径规划也往往考虑的是个别交通点的堵塞造成的交付延迟,对于大范围的不确定性环境的路径规划没有形成针对性的方法。传统的路径规划算法必须基于确定性的环境,强化学习算法是今年来兴起的常用于解决动态环境优化问题的人工智能算法。但主流的强化学习算法在求解大范围随机环境路径规划问题时仍然面对着空间探索性能低和难以收敛的问题。
发明内容
为了克服现有技术的不足,本发明的目的是提供一种随机环境下路径规划方法及系统。
为实现上述目的,本发明提供了如下方案:
一种随机环境下路径规划方法,包括:
根据预设的交通环境构建不确定性环境模型,并确定所述不确定性环境模型中每个区域的随机分值和概率分布;
构建主系统神经网络和多个子系统神经网络;所述主系统神经网络包括第一动作神经网络和第一评分神经网络;所述子系统神经网络包括第二动作神经网络和第二评分神经网络;所述第一动作神经网络、所述第二动作神经网络、所述第一评分神经网络和所述第二评分神经网络的输入均为所述交通环境及智能体的实时位置;所述第一动作神经网络和所述第二动作神经网络的输出均为在实时位置下,所述智能体所有移动方向的概率分布;所述第一评分神经网络和所述第二评分神经网络的输出均为对所述智能体所选移动方向进行评分后得到的分值;
基于分布式的异步多线程算法,利用每个所述子系统神经网络,根据所述随机分值进行路径规划训练,并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新;每个所述子系统神经网络的网络参数在间隔预设次数的训练后更新为所述主系统神经网络的参数;
将所述智能体在所述交通环境的各个位置输入至更新好的所述第一动作神经网络中,得到最优动作序列。
优选地,所述根据预设的交通环境构建不确定性环境模型,并确定所述不确定性环境模型中每个区域的随机分值和概率分布,包括:
将所述交通环境刻画为一个N×N尺寸的可通行的网格地图;所述网格地图中的每个网格代表一个所述智能体的可通行区域;
基于使用多专家评价方法对每个所述可通行区域进行评价,以确定每个所述可通行区域的所述随机分值和所述概率分布。
优选地,所述第一动作神经网络、第一评分神经网络、第二动作神经网络和第二评分神经网络均包括卷积网络、全连接网络和噪声层。
优选地,所述基于分布式的异步多线程算法,利用每个所述子系统神经网络,根据所述随机分值进行路径规划训练,并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新,包括:
在每个子系统中,控制所述智能体从所述不确定性环境模型中的预设的起点出发进行移动;所述智能体在每次进行移动前进行方向选择;
当所述智能体每到达下一个区域时,计算所述随机分值、所述第二动作神经网络的损失和所述第二评分神经网络的损失;
根据所述损失和所述随机分值更新所述第二动作神经网络和所述第二评分神经网络;
根据更新好的所述第二动作神经网络和所述第二评分神经网络更新所述第一动作神经网络和第一评分神经网络。
优选地,所述基于分布式的异步多线程算法,利用每个所述子系统神经网络,根据所述随机分值进行路径规划训练,并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新之后,还包括:
判断当前的路径规划训练次数是否大于预设训练限值,若是,则结束所述路径规划训练;若否,则控制所述智能体继续进行移动。
一种随机环境下路径规划系统,包括:
模型建立模块,用于根据预设的交通环境构建不确定性环境模型,并确定所述不确定性环境模型中每个区域的随机分值和概率分布;
网络构建模块,用于构建主系统神经网络和多个子系统神经网络;所述主系统神经网络包括第一动作神经网络和第一评分神经网络;所述子系统神经网络包括第二动作神经网络和第二评分神经网络;所述第一动作神经网络、所述第二动作神经网络、所述第一评分神经网络和所述第二评分神经网络的输入均为所述交通环境及智能体的实时位置;所述第一动作神经网络和所述第二动作神经网络的输出均为在实时位置下,所述智能体所有移动方向的概率分布;所述第一评分神经网络和所述第二评分神经网络的输出均为对所述智能体所选移动方向进行评分后得到的分值;
强化学习模块,用于基于分布式的异步多线程算法,利用每个所述子系统神经网络,根据所述随机分值进行路径规划训练,并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新;每个所述子系统神经网络的网络参数在间隔预设次数的训练后更新为所述主系统神经网络的参数;
序列获取模块,用于将所述智能体在所述交通环境的各个位置输入至更新好的所述第一动作神经网络中,得到最优动作序列。
优选地,所述模型建立模块具体包括:
刻画单元,用于将所述交通环境刻画为一个N×N尺寸的可通行的网格地图;所述网格地图中的每个网格代表一个所述智能体的可通行区域;
评分单元,用于基于使用多专家评价方法对每个所述可通行区域进行评价,以确定每个所述可通行区域的所述随机分值和所述概率分布。
优选地,所述强化学习模块具体包括:
移动单元,用于在每个子系统中,控制所述智能体从所述不确定性环境模型中的预设的起点出发进行移动;所述智能体在每次进行移动前进行方向选择;
计算单元,用于当所述智能体每到达下一个区域时,计算所述随机分值、所述第二动作神经网络的损失和所述第二评分神经网络的损失;
第一更新单元,用于根据所述损失和所述随机分值更新所述第二动作神经网络和所述第二评分神经网络;
第二更新单元,用于根据更新好的所述第二动作神经网络和所述第二评分神经网络更新所述第一动作神经网络和第一评分神经网络。
优选地,还包括:
判断模块,用于判断当前的路径规划训练次数是否大于预设训练限值,若是,则结束所述路径规划训练;若否,则控制所述智能体继续进行移动。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种随机环境下路径规划方法及系统,通过专家评价技术对得到环境内所有可通行区域进行综合安全性与时间效率的分数,所得到的每分数服从一定的概率分布,以此模拟随机环境中交通过程中的不确定性;且利用了区块链技术中的分布式架构,提高了路径探索的效率。本发明采用分布式异步训练架构,多个子系统可以以独立线程进行训练,并将与环境交互得到的大量数据用以更新主系统的网络,从而加速主系统的训练。主系统也会在一定运算间隔后将其网络参数复制给子系统,从而指导子系统进一步加速训练。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的实施例中的随机环境下路径规划方法的流程图;
图2为本发明提供的实施例中的规划流程示意图;
图3为本发明提供的实施例中的分布式强化学习结构示意图;
图4为本发明提供的实施例中的网格地图;
图5为本发明提供的实施例中的网络结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤、过程、方法等没有限定于已列出的步骤,而是可选地还包括没有列出的步骤,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤元。
本发明的目的是提供一种随机环境下路径规划方法及系统,能够模拟随机环境中交通过程中的不确定性,并克服大范围随机环境中路径规划所面对的探索效率低和难以收敛等问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明提供的实施例中的随机环境下路径规划方法的流程图,如图1所示,本发明提供了一种随机环境下路径规划方法,包括:
步骤100:根据预设的交通环境构建不确定性环境模型,并确定所述不确定性环境模型中每个区域的随机分值和概率分布。
步骤200:构建主系统神经网络和多个子系统神经网络;所述主系统神经网络包括第一动作神经网络和第一评分神经网络;所述子系统神经网络包括第二动作神经网络和第二评分神经网络;所述第一动作神经网络、所述第二动作神经网络、所述第一评分神经网络和所述第二评分神经网络的输入均为所述交通环境及智能体的实时位置;所述第一动作神经网络和所述第二动作神经网络的输出均为在实时位置下,所述智能体所有移动方向的概率分布;所述第一评分神经网络和所述第二评分神经网络的输出均为对所述智能体所选移动方向进行评分后得到的分值。
步骤300:基于分布式的异步多线程算法,利用每个所述子系统神经网络,根据所述随机分值进行路径规划训练,并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新;每个所述子系统神经网络的网络参数在间隔预设次数的训练后更新为所述主系统神经网络的参数。
步骤400:将所述智能体在所述交通环境的各个位置输入至更新好的所述第一动作神经网络中,得到最优动作序列。
优选地,所述步骤100具体包括:
将所述交通环境刻画为一个N×N尺寸的可通行的网格地图;所述网格地图中的每个网格代表一个所述智能体的可通行区域。
基于使用多专家评价方法对每个所述可通行区域进行评价,以确定每个所述可通行区域的所述随机分值和所述概率分布。
图2为本发明提供的实施例中的规划流程示意图,如图2所示,本实施例包括建立网格地图、评价每个区域的随机分值、搭建主系统和子系统的神经网络和搭建分布式强化学习框架这四个流程。
具体的,本实施例中第一个流程和第二个流程为第一个步骤,即建立不确定性环境模型。其具体包括:
步骤11:构造一个包含起点与终点的N×N尺寸的网格地图,如图4所示,每个网格(最深色的黑色方框)代表一个可通行区域;
步骤12:对每个区域邀请多个专家使用评价方法进行评价,评价指标包括天气、地理环境、交通状况、突发事件保障能力、区域救援能力等,并依据指标对每个区域打分,分数体现了智能体通过该区域时的安全性与时间效率,打分制经过标准化处理,s为专家对该区域的打分,S为所有专家打分的集合,s*为标准化后的分公式如下:
Figure BDA0003616505830000071
步骤13:对每个区域的所有专家打分结果划分分段,该分段内所有分数的均值为一个该区域的分值,该分段内专家人数在所有专家中的比例为该分值的概率分布;
步骤14:通过步骤13,得到所有区域的分数以及其概率分布,再对所有分数进一步处理,得到最终每个区域的得分以及概率分布,以10位专家,每隔0.1划分一个分段,共得到三个分段的分数为例,其中ri为第i个区域的得分,p为不同分数的概率分布,公式如下:
Figure BDA0003616505830000072
具体的,步骤12中方法所输出的不同区域的评价值并非是固定值,而是基于概率分布的变量。
进一步地,本实施例步骤1为建立随机环境模型,还可以包括:
步骤11:将交通环境刻画为一个N*N尺寸的可通行的网格地图,每个网格代表一个智能体可以通过的区域。
步骤12:从安全性、组织保障能力、通行效率方面对每个可通行区域使用多专家评价方法进行评价,得到每个区域的分值及其概率分布。
优选地,所述第一动作神经网络、第一评分神经网络、第二动作神经网络和第二评分神经网络均包括卷积网络、全连接网络和噪声层。
可选地,上述第三个流程为本实施例的第二步,即搭建神经网络,如图3所示,搭建的方法具体为:
步骤21:搭建主系统,主系统为两个神经网络,一是GlobalActor(第一动作神经网络),由卷积神经网络与线性网络组成,输入数据为整体环境以及智能体当前所在的位置,输出是当前位置下所有可选的移动方向的概率分布,可通过随机抽样得到一个确定性的移动方向。二是Global Critic(第一评分神经网络),其结构和输入数据与前者相同,其输出是对所选移动方向的打分,所选的移动方向能带来更高的收益,分数就越大。
步骤22:搭建M个子系统,每个子系统为两个神经网络,LocalActor(第二动作神经网络)和Local Critic(第二评分神经网络)。
LocalActor和GlobalActor的结构相同,输出一致。Local Critic和GlobalCritic结构和输出完全一致。
进一步地,神经网络中,GlobalActor和LocalActor网络的全连接层并非是普通的线性层,而是在线性层的基础上加入随机干扰和更多可学习参数的噪声层。
图5为本发明提供的实施例中的网络结构示意图,如图5所示,本实施例中的神经网络包括卷积层、线性层和噪声层。具体的,步骤21中搭建卷积网络,具体包括:
(1)所有网络的卷积结构相同,输入环境模型为x,卷积核大小为k,步幅为s,补零层数为p,则卷积后产生的环境特征x'大小计算公式为:
Figure BDA0003616505830000081
(2)经过一次卷积后,特征依次按行展开,连接成向量,输入全连接网络。
搭建全连接网络,具体为:
全连接网络为线性网络,w为权重,b为偏置,y为输出,公式如下:
y=wx+b
搭建噪声层,具体为:
噪声层是线性层的变种,在噪声网络中,μww⊙εw和μbb⊙εb分别替代了线性网络中的w和b。μw,μb,σw,和σb为可学习的参数,εw和εb为服从高斯分布的随机噪声。原先的线性层需要学习的的只有w,即权重,而改进后的噪声层既要学习w的均值μw,又要学习w的标准差σw。此外偏置量的均值μb和标准差σb也是需要学习的参数,εw和εb都是从独立的高斯分布中抽样。
通过在线性层上加入噪声来增加随机性,增加探索效率。同时噪声的参数是可学习的,可以根据环境复杂性的变化来调整噪声的大小,如此可以更加适应大规模随机环境下的拟合需求。完整公式如下:
y=(μww⊙εw)x+μbb⊙εb
设置激活函数,具体为:
GlobalActor和LocalActor网络最终输出前使用激活函数Softmax进行激活,P为选择不同方向的概率,I为所有可选方向集合,h为上一层线性层的输出,公式如下:
Figure BDA0003616505830000091
优选地,所述步骤300具体包括:
在每个子系统中,控制所述智能体从所述不确定性环境模型中的预设的起点出发进行移动;所述智能体在每次进行移动前进行方向选择。
当所述智能体每到达下一个区域时,计算所述随机分值、所述第二动作神经网络的损失和所述第二评分神经网络的损失。
根据所述损失和所述随机分值更新所述第二动作神经网络和所述第二评分神经网络。
根据更新好的所述第二动作神经网络和所述第二评分神经网络更新所述第一动作神经网络和第一评分神经网络。
具体的,不同于以往的强化学习算法使用一个固定的概率去随机选择一个动作,本发明采用了一种动态概率下降技术,随着算法的迭代不断地减少随机性探索。
优选地,所述步骤300之后,还包括:
判断当前的路径规划训练次数是否大于预设训练限值,若是,则结束所述路径规划训练;若否,则控制所述智能体继续进行移动。
具体的,本实施例中最后一个流程和步骤为搭建强化学习训练框架,其中,步骤3中所述的强化学习训练架构采用了分布式架构,异步多线程并行训练,并将交互数据反馈给主系统更新网络,再由主系统传递参数给所有子系统。其具体包括:
步骤31:在每个子系统中,智能体从起点出发,每次选择方向后进行移动。
步骤32:每次移动到达一个区域后可以获得由步骤12得到的分数;
步骤33:当智能体做出移动方向选择并到达一个区域后,都会计算Local Actor和Local Critic网络的损失,该损失会用来更新自身的两个网络。待自身网络更新后,会用自身网络再去更新主系统的GlobalActor和Global Critic网络,如此完成一次训练;每个子系统间隔J次训练后复制主系统两个网络的参数至自身。
步骤34:待通行路径收敛后,所有训练结束。
作为一种可选的实施方式,所提出的算法是一个分布式的异步多线程算法,每个子系统有独立的线程,彼此之间互不干扰,异步执行。每个子系统在路径规划中和整体环境进行交互后都会收集大量的数据,并利用这些数据独立训练各自的LocalActor和LocalCritic网络。主系统的更新依靠于子系统网络的参数,主系统的网络参数也会在一定间隔后复制参数给子系统,以此指导子系统后面在环境中规划最优路径。
本实施例以任意一个子系统为例,去掩饰子系统的训练过程和主系统的更新过程,每个子系统有两个神经网络LocalActor和Local Critic,两个网络共享卷积层参数,区别在于二者有自己独立的全连接层,且LocalActor具有噪声层。分别记做π(a|s;θ)和q(a,s;w),分别输出不同位置下智能体的不同方向选择的概率分布和对该方向选择的打分;训练过程如下:
步骤31:智能体移动,具体为:
智能体从起点st出发。
智能体有ε概率随机选择一个方向选择at,有1-ε的概率通过π(a|s;θ)随机抽样得到一个方向选择at。ε是一个随着算法迭代而动态上升的数值,εmin、εmax、εdecay为超参数,其中εdecay为随机变量控制上升速度,t为算法迭代次数,其计算公式如下:
Figure BDA0003616505830000111
执行at,到达下一个区域st+1并收获一个步骤14计算得到的奖励rt
此时智能体得到一个五元组(st,at,rt,st+1,done),分别代表智能体在环境中的当前位置,当前位置下选择的方向,该方向选择带来的即时收益,到达的下一个区域,done是一个布尔变量用以判断是否到达终点。
步骤32:更新q(s,a;w)。
每轮移动都会得到一个新的得分r,并更新一次网络,直到到达终点。
计算TD-target,记作yt,γ为折扣系数,at+1是智能体从位置st执行动作at后,到达位置st+1后,抽样得到一个at+1~π(·|st+1;θ),抽样得到的动作不会真正的执行,这是一个模拟执行的动作,公式如下:
yt=rt+γ×q(st+1,at+1;w)
计算损失,q(s,a;w)的损失主要体现在其当前评估动作分数与TD-target的差异,由于TD-target的计算中包含了真实数据中的奖励rt,故其更能反应智能体的方向选择所带来的收益,其公式如下:
Figure BDA0003616505830000112
更新网络,通过更新,使q(s,a;w)可以更接近真实的动作的收益,α为学习率,公式如下:
Figure BDA0003616505830000113
步骤33:更新π(a|s;θ)。
每轮移动都会得到一个新的得分r,并更新一次网络,直到到达终点:
计算梯度,公式如下:
Figure BDA0003616505830000121
使用梯度上升更新参数,β为学习率:
θt+1=θt+β·g(a,θt)
步骤34:更新主系统网络GlobalActor和Global Critic。
每当一个子系统完成一次完整的路径规划,都会对主系统的网络进行更新,更新公式如下:
wglobal=wglobalglobal·wlocal
θglobal=θglobalglobal·θlocal
步骤35:子系统继承主系统网络,每经过设定的t次迭代后,将主系统的网络参数复制给子系统网络。
步骤36:达到最大迭代次数T后,将智能体在环境下的各个位置输入主系统的GlobalActor,并输出一连串的动作序列,由此生成大规模随机环境下最优路径规划。
对应上述方法,本实施例还提供了一种随机环境下路径规划系统,包括:
模型建立模块,用于根据预设的交通环境构建不确定性环境模型,并确定所述不确定性环境模型中每个区域的随机分值和概率分布;
网络构建模块,用于构建主系统神经网络和多个子系统神经网络;所述主系统神经网络包括第一动作神经网络和第一评分神经网络;所述子系统神经网络包括第二动作神经网络和第二评分神经网络;所述第一动作神经网络、所述第二动作神经网络、所述第一评分神经网络和所述第二评分神经网络的输入均为所述交通环境及智能体的实时位置;所述第一动作神经网络和所述第二动作神经网络的输出均为在实时位置下,所述智能体所有移动方向的概率分布;所述第一评分神经网络和所述第二评分神经网络的输出均为对所述智能体所选移动方向进行评分后得到的分值;
强化学习模块,用于基于分布式的异步多线程算法,利用每个所述子系统神经网络,根据所述随机分值进行路径规划训练,并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新;每个所述子系统神经网络的网络参数在间隔预设次数的训练后更新为所述主系统神经网络的参数;
序列获取模块,用于将所述智能体在所述交通环境的各个位置输入至更新好的所述第一动作神经网络中,得到最优动作序列。
优选地,所述模型建立模块具体包括:
刻画单元,用于将所述交通环境刻画为一个N×N尺寸的可通行的网格地图;所述网格地图中的每个网格代表一个所述智能体的可通行区域;
评分单元,用于基于使用多专家评价方法对每个所述可通行区域进行评价,以确定每个所述可通行区域的所述随机分值和所述概率分布。
优选地,所述强化学习模块具体包括:
移动单元,用于在每个子系统中,控制所述智能体从所述不确定性环境模型中的预设的起点出发进行移动;所述智能体在每次进行移动前进行方向选择;
计算单元,用于当所述智能体每到达下一个区域时,计算所述随机分值、所述第二动作神经网络的损失和所述第二评分神经网络的损失;
第一更新单元,用于根据所述损失和所述随机分值更新所述第二动作神经网络和所述第二评分神经网络;
第二更新单元,用于根据更新好的所述第二动作神经网络和所述第二评分神经网络更新所述第一动作神经网络和第一评分神经网络。
优选地,还包括:
判断模块,用于判断当前的路径规划训练次数是否大于预设训练限值,若是,则结束所述路径规划训练;若否,则控制所述智能体继续进行移动。
本发明的有益效果如下:
(1)本发明通过专家评价技术对得到环境内所有可通行区域进行综合安全性与时间效率的分数,所得到的每分数服从一定的概率分布,以此模拟随机环境中交通过程中的不确定性,这种建模技术是现有技术所不具备的。
(2)本发明利用了区块链技术中的分布式架构,可以克服大范围随机环境中路径规划所面对的两个难点。一是探索效率低,通过动态上升的公式,使得算法随着迭代会逐渐增加探索过程的随机性,避免陷入局部最优解,以及避免在随机环境干扰下的无效动作(比如两个相邻位置间的往复移动);通过噪声网络,也增强了神经网络在强随机环境干扰下的鲁棒性。二是难以收敛,该技术采用分布式异步训练架构,多个子系统可以以独立线程进行训练,并将与环境交互得到的大量数据用以更新主系统的网络,从而加速主系统的训练。主系统也会在一定运算间隔后将其网络参数复制给子系统,从而指导子系统进一步加速训练。这些优势是现有路径规划技术所欠缺的。本发明可以在大规模随机环境下进行路径规划,能够帮助供高端装备制造企业的供应链系统在一些极端或不确定性环境下尽可能流畅的运行,填补了现有路径规划技术的空白。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种随机环境下路径规划方法,其特征在于,包括:
根据预设的交通环境构建不确定性环境模型,并确定所述不确定性环境模型中每个区域的随机分值和概率分布;
构建主系统神经网络和多个子系统神经网络;所述主系统神经网络包括第一动作神经网络和第一评分神经网络;所述子系统神经网络包括第二动作神经网络和第二评分神经网络;所述第一动作神经网络、所述第二动作神经网络、所述第一评分神经网络和所述第二评分神经网络的输入均为所述交通环境及智能体的实时位置;所述第一动作神经网络和所述第二动作神经网络的输出均为在实时位置下,所述智能体所有移动方向的概率分布;所述第一评分神经网络和所述第二评分神经网络的输出均为对所述智能体所选移动方向进行评分后得到的分值;
基于分布式的异步多线程算法,利用每个所述子系统神经网络,根据所述随机分值进行路径规划训练,并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新;每个所述子系统神经网络的网络参数在间隔预设次数的训练后更新为所述主系统神经网络的参数;
将所述智能体在所述交通环境的各个位置输入至更新好的所述第一动作神经网络中,得到最优动作序列。
2.根据权利要求1所述的随机环境下路径规划方法,其特征在于,所述根据预设的交通环境构建不确定性环境模型,并确定所述不确定性环境模型中每个区域的随机分值和概率分布,包括:
将所述交通环境刻画为一个N×N尺寸的可通行的网格地图;所述网格地图中的每个网格代表一个所述智能体的可通行区域;
基于使用多专家评价方法对每个所述可通行区域进行评价,以确定每个所述可通行区域的所述随机分值和所述概率分布。
3.根据权利要求1所述的随机环境下路径规划方法,其特征在于,所述第一动作神经网络、第一评分神经网络、第二动作神经网络和第二评分神经网络均包括卷积网络、全连接网络和噪声层。
4.根据权利要求1所述的随机环境下路径规划方法,其特征在于,所述基于分布式的异步多线程算法,利用每个所述子系统神经网络,根据所述随机分值进行路径规划训练,并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新,包括:
在每个子系统中,控制所述智能体从所述不确定性环境模型中的预设的起点出发进行移动;所述智能体在每次进行移动前进行方向选择;
当所述智能体每到达下一个区域时,计算所述随机分值、所述第二动作神经网络的损失和所述第二评分神经网络的损失;
根据所述损失和所述随机分值更新所述第二动作神经网络和所述第二评分神经网络;
根据更新好的所述第二动作神经网络和所述第二评分神经网络更新所述第一动作神经网络和第一评分神经网络。
5.根据权利要求1所述的随机环境下路径规划方法,其特征在于,所述基于分布式的异步多线程算法,利用每个所述子系统神经网络,根据所述随机分值进行路径规划训练,并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新之后,还包括:
判断当前的路径规划训练次数是否大于预设训练限值,若是,则结束所述路径规划训练;若否,则控制所述智能体继续进行移动。
6.一种随机环境下路径规划系统,其特征在于,包括:
模型建立模块,用于根据预设的交通环境构建不确定性环境模型,并确定所述不确定性环境模型中每个区域的随机分值和概率分布;
网络构建模块,用于构建主系统神经网络和多个子系统神经网络;所述主系统神经网络包括第一动作神经网络和第一评分神经网络;所述子系统神经网络包括第二动作神经网络和第二评分神经网络;所述第一动作神经网络、所述第二动作神经网络、所述第一评分神经网络和所述第二评分神经网络的输入均为所述交通环境及智能体的实时位置;所述第一动作神经网络和所述第二动作神经网络的输出均为在实时位置下,所述智能体所有移动方向的概率分布;所述第一评分神经网络和所述第二评分神经网络的输出均为对所述智能体所选移动方向进行评分后得到的分值;
强化学习模块,用于基于分布式的异步多线程算法,利用每个所述子系统神经网络,根据所述随机分值进行路径规划训练,并根据所述子系统神经网络的网络参数对所述主系统神经网络进行更新;每个所述子系统神经网络的网络参数在间隔预设次数的训练后更新为所述主系统神经网络的参数;
序列获取模块,用于将所述智能体在所述交通环境的各个位置输入至更新好的所述第一动作神经网络中,得到最优动作序列。
7.根据权利要求6所述的随机环境下路径规划系统,其特征在于,所述模型建立模块具体包括:
刻画单元,用于将所述交通环境刻画为一个N×N尺寸的可通行的网格地图;所述网格地图中的每个网格代表一个所述智能体的可通行区域;
评分单元,用于基于使用多专家评价方法对每个所述可通行区域进行评价,以确定每个所述可通行区域的所述随机分值和所述概率分布。
8.根据权利要求6所述的随机环境下路径规划系统,其特征在于,所述强化学习模块具体包括:
移动单元,用于在每个子系统中,控制所述智能体从所述不确定性环境模型中的预设的起点出发进行移动;所述智能体在每次进行移动前进行方向选择;
计算单元,用于当所述智能体每到达下一个区域时,计算所述随机分值、所述第二动作神经网络的损失和所述第二评分神经网络的损失;
第一更新单元,用于根据所述损失和所述随机分值更新所述第二动作神经网络和所述第二评分神经网络;
第二更新单元,用于根据更新好的所述第二动作神经网络和所述第二评分神经网络更新所述第一动作神经网络和第一评分神经网络。
9.根据权利要求6所述的随机环境下路径规划系统,其特征在于,还包括:
判断模块,用于判断当前的路径规划训练次数是否大于预设训练限值,若是,则结束所述路径规划训练;若否,则控制所述智能体继续进行移动。
CN202210448863.XA 2022-04-26 2022-04-26 一种随机环境下路径规划方法及系统 Active CN114779780B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210448863.XA CN114779780B (zh) 2022-04-26 2022-04-26 一种随机环境下路径规划方法及系统
GB2306164.1A GB2620242A (en) 2022-04-26 2023-04-26 Method and system for route planning in random environment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210448863.XA CN114779780B (zh) 2022-04-26 2022-04-26 一种随机环境下路径规划方法及系统

Publications (2)

Publication Number Publication Date
CN114779780A true CN114779780A (zh) 2022-07-22
CN114779780B CN114779780B (zh) 2023-05-12

Family

ID=82433249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210448863.XA Active CN114779780B (zh) 2022-04-26 2022-04-26 一种随机环境下路径规划方法及系统

Country Status (2)

Country Link
CN (1) CN114779780B (zh)
GB (1) GB2620242A (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180173242A1 (en) * 2016-12-21 2018-06-21 X Development Llc Pre-Computation of Kinematically Feasible Roadmaps
US20190034794A1 (en) * 2017-07-27 2019-01-31 Waymo Llc Neural Networks for Vehicle Trajectory Planning
US20190049957A1 (en) * 2018-03-30 2019-02-14 Intel Corporation Emotional adaptive driving policies for automated driving vehicles
CN109740783A (zh) * 2018-08-24 2019-05-10 四川海纳仁东科技有限公司 基于危废处理场选址的双目标规划方法
CN109740978A (zh) * 2018-08-24 2019-05-10 四川海纳仁东科技有限公司 基于区块链和运输问题模型的危废流转方法
CN110398960A (zh) * 2019-07-08 2019-11-01 浙江吉利汽车研究院有限公司 一种智能驾驶的路径规划方法、装置及设备
CN111061277A (zh) * 2019-12-31 2020-04-24 歌尔股份有限公司 一种无人车全局路径规划方法和装置
CN111832723A (zh) * 2020-07-02 2020-10-27 四川大学 一种基于多重目标神经网络的强化学习值函数更新方法
EP3739523A1 (en) * 2019-05-14 2020-11-18 Nvidia Corporation Using decay parameters for inferencing with neural networks
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113050640A (zh) * 2021-03-18 2021-06-29 北京航空航天大学 一种基于生成对抗网络的工业机器人路径规划方法和系统
US20210252698A1 (en) * 2020-02-14 2021-08-19 Nvidia Corporation Robotic control using deep learning
US20210319326A1 (en) * 2020-04-10 2021-10-14 Samsung Electronics Co., Ltd. Method and apparatus for learning stochastic inference models between multiple random variables with unpaired data
CN113552881A (zh) * 2021-07-15 2021-10-26 浙江工业大学 一种用于神经网络训练的多路径规划数据集生成方法
WO2021238303A1 (zh) * 2020-05-29 2021-12-02 华为技术有限公司 运动规划的方法与装置
CN114047764A (zh) * 2021-11-16 2022-02-15 北京百度网讯科技有限公司 路径规划模型的训练方法和路径规划方法、装置
US20220317695A1 (en) * 2020-07-10 2022-10-06 Goertek Inc. Multi-agv motion planning method, device and system

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180173242A1 (en) * 2016-12-21 2018-06-21 X Development Llc Pre-Computation of Kinematically Feasible Roadmaps
US20190034794A1 (en) * 2017-07-27 2019-01-31 Waymo Llc Neural Networks for Vehicle Trajectory Planning
US20190049957A1 (en) * 2018-03-30 2019-02-14 Intel Corporation Emotional adaptive driving policies for automated driving vehicles
CN109740783A (zh) * 2018-08-24 2019-05-10 四川海纳仁东科技有限公司 基于危废处理场选址的双目标规划方法
CN109740978A (zh) * 2018-08-24 2019-05-10 四川海纳仁东科技有限公司 基于区块链和运输问题模型的危废流转方法
EP3739523A1 (en) * 2019-05-14 2020-11-18 Nvidia Corporation Using decay parameters for inferencing with neural networks
CN110398960A (zh) * 2019-07-08 2019-11-01 浙江吉利汽车研究院有限公司 一种智能驾驶的路径规划方法、装置及设备
CN111061277A (zh) * 2019-12-31 2020-04-24 歌尔股份有限公司 一种无人车全局路径规划方法和装置
US20210252698A1 (en) * 2020-02-14 2021-08-19 Nvidia Corporation Robotic control using deep learning
US20210319326A1 (en) * 2020-04-10 2021-10-14 Samsung Electronics Co., Ltd. Method and apparatus for learning stochastic inference models between multiple random variables with unpaired data
WO2021238303A1 (zh) * 2020-05-29 2021-12-02 华为技术有限公司 运动规划的方法与装置
CN111832723A (zh) * 2020-07-02 2020-10-27 四川大学 一种基于多重目标神经网络的强化学习值函数更新方法
US20220317695A1 (en) * 2020-07-10 2022-10-06 Goertek Inc. Multi-agv motion planning method, device and system
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113050640A (zh) * 2021-03-18 2021-06-29 北京航空航天大学 一种基于生成对抗网络的工业机器人路径规划方法和系统
CN113552881A (zh) * 2021-07-15 2021-10-26 浙江工业大学 一种用于神经网络训练的多路径规划数据集生成方法
CN114047764A (zh) * 2021-11-16 2022-02-15 北京百度网讯科技有限公司 路径规划模型的训练方法和路径规划方法、装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LIANG, X: "A hybrid fuzzy BWM-VIKOR MCDM to evaluate the service level of bike-sharing companies: A case study from Chengdu, China" *
MNIH V: "Human-level control through deep reinforcement learning" *
胡晓东;黄学祥;胡天健;王峰林;梁书立;: "一种动态环境下空间机器人的快速路径规划方法" *
邓富民: "随机模糊环境下的动态供应链优化设计" *
黄颖等: "一种基于稠密卷积网络和竞争架构的改进路径规划算法" *

Also Published As

Publication number Publication date
GB202306164D0 (en) 2023-06-07
CN114779780B (zh) 2023-05-12
GB2620242A (en) 2024-01-03

Similar Documents

Publication Publication Date Title
Liang et al. A deep reinforcement learning network for traffic light cycle control
Peng et al. A connectionist model for diagnostic problem solving
CN109690576A (zh) 在多个机器学习任务上训练机器学习模型
CN111461325B (zh) 一种用于稀疏奖励环境问题的多目标分层强化学习算法
CN109740741B (zh) 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法
CN106529818A (zh) 基于模糊小波神经网络的水质评价预测方法
CN104636985A (zh) 一种改进bp神经网络的输电线路无线电干扰预测方法
CN114139637B (zh) 多智能体信息融合方法、装置、电子设备及可读存储介质
Chen et al. Indentifying attributes for knowledge-based development in dynamic scheduling environments
CN110414718A (zh) 一种深度学习下的配电网可靠性指标优化方法
CN111860787A (zh) 一种含有缺失数据的耦合有向图结构流量数据的短期预测方法及装置
CN114912357A (zh) 基于用户模型学习的多任务强化学习用户运营方法及系统
Addanki et al. Placeto: Efficient progressive device placement optimization
CN113141012A (zh) 基于深度确定性策略梯度网络的电网潮流调控决策推理方法
CN113657433B (zh) 一种车辆轨迹多模态预测方法
CN109800517B (zh) 一种改进的磁流变阻尼器逆向建模方法
Esmin Generating fuzzy rules from examples using the particle swarm optimization algorithm
Tong et al. Enhancing rolling horizon evolution with policy and value networks
CN114779780B (zh) 一种随机环境下路径规划方法及系统
CN113095500B (zh) 一种基于多智能体强化学习的机器人追捕方法
CN112861332B (zh) 一种基于图网络的集群动力学预测方法
Morales Deep Reinforcement Learning
CN113139644A (zh) 一种基于深度蒙特卡洛树搜索的信源导航方法及装置
Liu et al. A High-efficient Training Strategy for Deep Q-learning Network Used in Robot Active Object Detection
Ningombam A Novel Exploration Technique For Multi-Agent Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant