CN117474181A - 基于强化学习的危化品运输的路径规划方法 - Google Patents

基于强化学习的危化品运输的路径规划方法 Download PDF

Info

Publication number
CN117474181A
CN117474181A CN202311165353.2A CN202311165353A CN117474181A CN 117474181 A CN117474181 A CN 117474181A CN 202311165353 A CN202311165353 A CN 202311165353A CN 117474181 A CN117474181 A CN 117474181A
Authority
CN
China
Prior art keywords
road
state
dangerous chemical
action
transport vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311165353.2A
Other languages
English (en)
Inventor
刘正辉
金蓓弘
张扶桑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202311165353.2A priority Critical patent/CN117474181A/zh
Publication of CN117474181A publication Critical patent/CN117474181A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0832Special goods or special handling procedures, e.g. handling of hazardous or fragile goods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0835Relationships between shipper or supplier and carriers
    • G06Q10/08355Routing methods

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提出了基于强化学习的危化品运输的路径规划方法,属于城市规划领域,采集城市路网、POI类型以及危化品运输车辆GPS数据,为每段道路进行安全风险评分;将GPS数据与城市路网进行匹配,确定车辆的实际行驶轨迹;根据安全风险评分和实际行驶轨迹计算车辆实际行驶轨迹的安全风险得分;将每辆车辆作为一个智能体,将安全风险得分融入到智能体动作的即时奖励中;构建智能体的当前状态价值函数;通过深度神经网络的强化学习计算得到最优化行动值;根据最优化行动值确定最优策略,根据最优策略确定智能体的状态转变,生成危化品运输车辆的规划路径。本方法能够精准评估危化品运输的道路安全风险,获得规避风险点的路径规划结果。

Description

基于强化学习的危化品运输的路径规划方法
技术领域
本发明属于城市规划领域,提出了一种利用不同兴趣点(Point of interest,POI)对危化品运输的道路安全风险进行评估并进行路径规划的方法。
背景技术
危化品不仅包括汽油、液化气、杀虫剂等易燃易爆品,还包括高度白酒、指甲油、花露水等日常用品。危化品运输与城市社会生活密切相关,任何危化品运输过程中的侧翻或其他事故都可能对城市正常运转带来扰动,同时也会威胁到人们的人身财产安全。因此,城市交通管理部门需要为危化品运输车辆规划出一条最安全的路径,从而最小化意外发生时对城市带来的扰动和经济损失。已有的危化品运输车辆路径规划主要将运输风险分析融合到路径规划中,主要考虑了环境风险、时间距离成本和人群暴露风险,并未充分关注城市中常见的POI分布,比如商场、水库、医院和警察局等,因为它们的存在关系到城市的韧性程度,也维系着城市的基本功能。
近年来,随着韧性城市的建设受到越来越多的重视,很多人工智能技术也被应用到该领域中来,其中,强化学习技术对于解决动态环境中路径规划问题具有天然的优势,因此,已有一些研究工作围绕着强化学习展开。例如:Yang等人[1]利用多智能体深度强化学习技术,在城市发生大规模洪涝灾害后,指导公司采取正确的行为,帮助公司优化灾后应对策略,使公司能快速有效地恢复灾前的供应链网络。Nguyen等人[2]针对洪灾下的救援调度问题,提出了一种启发式的多智能体强化学习调度算法ResQ,并将城市地图进行栅格化,以此来搭建强化学习的环境,使得ResQ可以在动态环境中有效地调度志愿者并实现快速部署以营救受害者。Khalid等人[3]基于深度学习Q网络(Deep Q-Network,DQN)构建出了一种长距离的自动泊车框架,使得用户能够有序的驶向目标停车场,以此来降低城市中心的拥堵率。Zhao等人[4]为解决复杂交通环境下的交通信号控制问题,使用了Q学习,以此来最大化穿越交叉路口的车辆数以及平衡各路之间的信号。
[1]Yang S,Ogawa Y,Ikeuchi K,et al.Firm-level behavior control afterlarge-scale urban flooding using multi-agent deep reinforcement learning[C]//Proceedings of the 2nd ACM SIGSPATIAL International Workshop on GeoSpatialSimulation.2019:24-27.
[2]Nguyen L,Yang Z,Zhu J,et al.Coordinating disaster emergencyresponse with heuristic reinforcement learning[J].arXiv preprint arXiv:1811.05010,2018.
[3]Khalid M,Wang L,Wang K,et al.Deep reinforcement learning-basedlong-range autonomous valet parking for smart cities[J].Sustainable Citiesand Society,2023,89:104311.
[4]Zhao L,Wang J,Liu J,et al.Routing for crowd management in smartcities:A deep reinforcement learning perspective[J].IEEE CommunicationsMagazine,2019,57(4):88-93.
发明内容
本发明的目的在于提供一种基于城市POI分布的危化品运输的路径规划方法,能够结合城市POI类型分布和轨迹匹配,精准评估危化品运输的道路安全风险,将评估结果应用于构造强化学习中的奖励函数,从而获得规避风险点的路径规划结果。
为实现上述目的,本发明采用的技术方案如下:
一种基于强化学习的危化品运输的路径规划方法,包括以下步骤:
采集城市路网、POI类型以及危化品运输车辆GPS数据;
根据城市路网及POI类型分布,为每段道路进行安全风险评分;
将危化品运输车辆的GPS数据与城市路网进行匹配,确定危化品运输车辆的实际行驶轨迹;
根据每段道路的安全风险评分和危化品运输车辆的实际行驶轨迹,计算危化品运输车辆的实际行驶轨迹的安全风险得分;
基于城市路网构建状态空间,将每辆危化品运输车辆作为该状态空间的一个智能体,定义智能体的状态和动作,将安全风险得分融入到智能体动作的即时奖励中;
构建智能体的当前状态价值函数,该函数包括智能体执行动作的策略函数和行动值函数,其中行动值函数基于状态转变概率、状态转变即时奖励和下一状态预期价值构建;
基于DQN算法进行深度神经网络的强化学习,并采用经验回放策略和邻近顶点选择方法,计算得到最优化行动值;
根据最优化行动值确定最优策略,根据最优策略确定智能体的状态转变,生成危化品运输车辆的规划路径。
进一步地,POI类型包括学校、居住区、商场、银行、名胜古迹、博物馆、水库、医院、消防站、派出所、加油站、火车站及长途汽车站。
进一步地,根据城市路网及POI类型分布,为每条道路进行安全评分的步骤包括:
为每种POI类型设置基础评分;
根据城市路网数据和POI类型分布,统计每段道路上的POI类型及数量;
根据统计的POI类型及数量和基础评分,统计每段道路的总分;
将每段道路的总分除以其道路长度,得到每段道路的安全风险评分。
进一步地,危化品运输车辆的GPS数据与城市路网进行匹配,确定危化品运输车辆的实际行驶轨迹的步骤包括:
根据危化品运输车辆的GPS数据的每一个GPS轨迹点,查询周边的道路网络,选择出运输车辆的所有候选路段和候选点;
获取该车辆的每个GPS轨迹点的上下文信息,包括GPS轨迹点与周围候选点的相对位置关系、车辆行驶方向及速度;
解析GPS轨迹点的上下文信息,建立起每个候选点与其周边候选路段的相互影响关系;
针对每个候选点,根据其与候选路段的相互影响关系的大小,为所有候选路段进行投票;完成所有候选点对候选路段的投票,统计每个候选路段的总票数;将总票数最多的且空间连续并无道路物理障碍的候选路段作为当前投票的最匹配路段;如此进行多轮投票迭代,直到连续几轮投票中最匹配路段不发生变化时,将该最匹配路段作为最终的匹配路段;
由最终的匹配路段组成的路径即为危化品运输车辆的实际行驶轨迹。
进一步地,智能体的状态由地理坐标纬度、经度和时间戳构成,用三元组表示;智能体的动作表示为一维向量。
进一步地,当前状态价值函数如下:
其中,vπ(s)表示当前状态函数,π(a|s)为智能体执行动作的策略函数,是在状态s下执行动作a的概率;Qπ(s,a)表示行动值函数。
进一步地,行动值函数如下:
其中,表示状态s下执行a动作后转变为状态s′的概率,Rss′表示状态从s转变为s′时的即时奖励;Υ为奖励衰减因子,取0或1;vπ(s′)表示下一状态预期价值。
进一步地,经验回放策略为:在强化学习中,将危化品运输车辆与环境交互得到的数据存储到一个数据库中,再利用随机采样的方法从数据库中抽取数据,然后利用抽取的数据训练深度神经网络,消除数据之间的关联性。
进一步地,经验回放策略表示如下:
其中,θ表示神经网络参数,θ-表示单独目标网络参数,r表示执行动作后受到的奖励值,γ表示衰减因子,maxQ(s′,a′;θ-)表示关于参数θ-在状态s′下采取动作a′的逾期回报,表示关于参数θ在状态s采取动作a下的梯度。
进一步地,邻近顶点选择方法包括以下步骤:
初始化深度神经网络参数并设定安全风险评分阈值r;
对深度神经网络进行循环训练,在每个训练周期内,选择并执行行动;
若相邻两顶点的路径的安全评分小于阈值r且顶点相邻顶点未被访问过,则对新状态进行预处理得到特征向量;
将当前的经验样本存储到经验回放集合中,该样本由当前状态预处理后的特征向量、当前状态下智能体执行的行动、执行动作后获得的即时奖励和新状态预处理后的特征向量;
从经验回放集合中随机抽取一批样本用于训练,根据当前样本是否为终止状态来计算目标值;
使用梯度下降法,将预测值与目标值的误差最小化,进而更新深度神经网络的参数θ。
进一步地,最优策略如下:
其中,Q*(s,a)表示最优化Q(s,a),argmax函数用于找出使得函数取值最大的参数。
本发明提出的技术方案具有以下优点:
1.精准的安全风险评估:本发明通过对道路上不同类型的POI进行评分,根据道路的POI分布来计算安全风险得分,这种评估方式考虑了不同POI类型对道路安全的影响,使得评估更加精准。例如,考虑了危险物质附近的水库对道路的安全风险的影响,提高了评估的准确性。
2.综合多维信息:本发明综合考虑了城市路网数据、POI类型分布、车辆轨迹等多维信息,通过路网匹配,将实际的车辆轨迹与道路网络相匹配,能够准确地反映车辆的行驶情况,这种综合信息的使用使得评估结果更具代表性和可信度。
3.强化学习路径规划:本发明在路径规划中采用了基于深度学习的Q网络,通过训练神经网络来学习最优的路径规划策略,利用经验回放策略解决数据关联性问题,保证训练的稳定性,这种基于强化学习的路径规划方法能够适应不同的环境和条件,实现更智能、灵活的规划。
4.邻近顶点选择方法:本发明引入邻近顶点选择方法,根据相邻顶点的路径安全评分来影响当前状态下的行动选择,这种方法有效地将道路的安全风险信息与路径规划过程结合起来,使得规划的路径更具有安全性和可行性。
5.全程覆盖的处理流程:本发明涵盖了从数据采集、车辆轨迹安全风险评估、路网匹配,到路径规划等多个步骤,形成了一个全面的处理流程,这种全程覆盖的方法使得交通管理和运输安全管理更加综合化和系统化。
本发明基于城市POI分布的危险化学品运输的路径规划方法,具有精准性、综合性、智能性和实用性等多个优点,为城市交通和化学品运输的安全管理提供了一种高效且创新的解决方案。
附图说明
图1是本发明的基于强化学习的危化品运输的路径规划的流程图;
图2是实施例中的运输车辆“粤A036SF”轨迹点的路网匹配结果轨迹图;
图3(a)是实施例中的设置起始点位置图;
图3(b)是实施例中的规划结果轨迹图。
具体实施方式
为使本发明的上述技术方案中各项技术特征和各项优点或技术效果能更明显易懂,下文配合附图进行详细说明。
本发明提出的基于强化学习的危化品运输的路径规划方法,整个处理流程如图1所示,具体内容说明如下。
第一步:数据采集
采集城市路网数据,POI类型数据(见表1),以及采集危化品运输车辆GPS数据。
第二步:车辆轨迹安全风险评估
针对道路上分布的POI类型,提出了对应的评分标准(见表1),利用POI分布为每条道路进行打分,用于对道路进行安全风险评估。
表1道路安全风险评估标准
本评分方法中,我们为每种POI类型设置对应的基础评分,并统计每段道路上所有的POI进行评分,评分越高,表示该路段越不安全。具体来说,当道路上有编号100-105和300-302的POI时,车辆在此类道路上发生意外可能会带来更严重的生命和财产损失,故会给该道路评分增加相应的分值;当道路3km范围(预计可10分钟抵达事故发生地)内有编号201-203的POI时,因为这些POI有助于对事故现场进行救助、维护和安置等,故道路评分会减去相应的分值;对于城市内数量较少又极其重要的水库,本发明将它的基础分值设置为100分,因为对于一般的易燃腐蚀性液体,它们会对1.6km内的区域造成污染,因此对水库附近的道路的安全风险评估分数定义为:
其中,d是道路与水库的最近距离。
按照表1中道路安全风险评估标准,对道路进行安全风险评估,评估得分越低,说明该道路越适合运输危化品,道路的安全风险评估得分定义为道路上13种POI的累计得分除以道路长度。继而,给定车辆轨迹T,将轨迹T所经过的每一条道路的安全风险评估得分进行累加,然后除以经过的道路总数便可获得轨迹T的安全风险评估得分。在实际应用时,需要根据城市的具体情况,浮动一个系数,以保证得分值在一个合理的区间内,例如[0,5]之间。进而,根据道路得分的五分位数(即按分数数值从小到大排列分成四等份,处于四个分割点位置的数值),将道路的安全风险等级划分为五个等级。这种等级划分可以帮助决策者更直观地了解不同道路的安全性,有助于制定更有针对性的交通管理和运输方案。
第三步:危化品运输车辆的GPS数据与城市实际路网进行匹配
将原始GPS轨迹与地图上的道路网进行匹配称为路网匹配,它是基于位置服务中的关键预处理步骤。已知运输车辆的一条轨迹Ts,利用路网匹配算法可以得到它映射到道路网上的一条起点为Vi、终点为Vj的路径P,P可由一个有序连通路段集合表示,即P:e1→e2→…→en,其中,e1.start=Vi,en.end=Vj,ek.end=ek+1.start,1≤k≤n。
本发明由交互式投票的路网匹配算法IVMM(Interactive Voting-based MapMatching Algorithm)的思想设计了一种算法用于危化品运输车辆的路网匹配。该算法主要包括四部分:轨迹候选路段和候选点查询、位置上下文分析、互影响建模和交互式投票。具体步骤如下:
1)对于每一条运输车辆的轨迹Ts,取出其中每一个GPS轨迹点,查询周边的道路网络,选择出运输车辆的所有候选路段和候选点。这一步的主要目标是从整个道路网络中筛选出一部分与当前GPS轨迹点最相关的路段和点。
2)尝试理解运输车辆每个GPS轨迹点的上下文信息,包括其与周围候选点的相对位置关系、行驶方向、速度等信息,这些上下文信息将有助于理解GPS轨迹点在地理空间上的具体含义。
3)通过对位置上下文分析的结果进行解析,建立起每个候选点与其周边候选路段的相互影响关系。例如,一个候选点如果离一个候选路段足够近,并且方向和该路段一致,那么就可以认为这个点与这条路段有较高的匹配概率。
4)每个候选点将根据模型为其所有候选路段投票,一个候选路段在模型中得分越高,那么它从对应的候选点那里得到的票就越多。当所有的候选点都完成投票后,统计每个路段的总票数,票数最多的路段将被选为最匹配的路段。然后考虑空间的连续性和道路的物理限制等因素,对票数进行调整,以获得更精确的匹配结果。最后进行多轮投票迭代,直到连续几轮投票之后,最高票的路段没有发生变化。最终选取最高投票的路段作为匹配路段。
第四步:道路安全风险评估
本发明提出了一种轨迹评估算法。首先,抓取道路网中的每条道路上的对应类型的POI和数量,依照安全风险评估机制计算出所有道路的安全风险得分;然后对待评估轨迹集合进行路网匹配,得到实际的行驶轨迹;最后,获取每条实际轨迹行驶的道路和评分,然后通过求和并除以道路总数计算出轨迹的最终安全风险得分。
该轨迹评估算法的完整步骤如算法1所示:
第五步:设计基于深度学习Q网络(DQN)的路径规划算法
在上述步骤的基础上,本发明将强化学习用于危化品运输路径规划算法进行模拟实证。将每辆运输车辆设置为一个智能体。运输车辆的环境状态S(State)使用一个三元组(pi.lat,pi.lng,pi.t)表示,分别表示地理坐标纬度、经度和时间戳。运输车辆的动作A(Action)可以使用一个一维向量进行表示;对于运输车辆的环境即时奖励R(Reward),计算式为:
其中w用于控制奖励R权重,Ts.r表示轨迹T的安全风险得分;ε是一个极小的正数,用于避免分母为零的情况。
对于运输车辆在特定环境中如何选择行动的规则,使用π表示,记π(a|s)为在状态s∈S下执行动作a∈R的概率,即在各个坐标下各个方向行进的概率集合;将状态的当前状态价值记为vπ(s),进而得出:
其中,Qπ(s,a)被称为行动值函数(又称价值函数,Q函数),即在某状态下采取某一动作收获的价值期望,其公式如下:
其中Υ为奖励衰减因子,即权衡当前奖励和延后奖励权重的参数,当Υ为0时,表示运输车辆只注重当前的奖励,而当Υ为1时,意味着运输车辆将当前奖励和延迟奖励权重设为一致。Rss′表示状态从s转变为s′时的即时奖励。而对于记为状态s下执行a动作后,转变为状态s′的概率,因此该式中不仅固定了运输车辆的状态s,还固定了运输车辆该状态下执行的动作a。然而对于一个普遍的系统来说,下一个状态是以概率形式出现的,因此用[Rss′+Υvπ(s′)]来表示不考虑状态转换模型的行动值函数递推表达式。综合上面两式,可以得到运输车辆当前状态价值vπ(s)如下:
本步骤的目标就是最优化vπ(s),Qπ(s,a),从而得到最优策略为:
其中,Q*(s,a)表示最优化Q(s,a),argmax函数用于找出使得函数取值最大的参数。
a=argmaxa∈AQ*(s,a)表示在动作空间A中找到使得Q*(s,a)达到最大值的动作a。
a!=argmaxa∈AQ*(s,a)表示如果动作a不是使得Q*(s,a)达到最大值的动作,则选择动作a,否则选择动作0。
为了获得最优化Q(s,a),本发明采用以下方法,即在DQN基础上采用经验回放策略和邻近顶点选择方法,具体说明如下。
DQN利用深度神经网络逼近行动值函数,单独使用这一做法常常出现不稳定不收敛的情况。为解决这一问题,本发明采用了经验回放策略。在训练神经网络时,存在的假设是训练数据是独立同分布的,但是通过强化学习采集的数据之间存在着关联性,利用这些数据进行顺序训练,神经网络当然不稳定。经验回放可以打破数据间的关联性。具体来说,在强化学习过程中,将运输车辆与环境交互得到的数据存储到一个数据库中,再利用随机采样的方法从数据库中抽取数据,然后利用抽取的数据训练神经网络,可以消除数据之间的关联性。
利用深度神经网络实现运输车辆行动值函数逼近时,行动值函数的更新步骤更新的是参数θ,其更新方法是梯度下降法,具体公式如下所示:
这其中,r表示运输车辆执行动作后受到的奖励值,γ表示衰减因子,r+γmaxQ(s′,a′;θ)作为目标网络,Q(s,a;θ)表示运输车辆在特定的状态s下,采取动作a可能获得的预期回报,这里的预期回报并不仅仅是立即的奖励,而是未来所有可能获得的奖励的总和,就表示的是运输车辆的Q函数关于参数θ在特定状态s和动作a下的梯度。然而由上式可知,目标网络的行动值函数所用的网络参数θ,与梯度计算中要逼近的行动值函数所用的网络参数相同,同为θ,这样就容易导致数据间存在关联性,从而使训练不稳定。为了解决此问题,设立单独的目标网络,将该网络的参数表示为θ-,而计算值函数逼近的网络表示为θ。从而使得用于行动值函数逼近的网络每一步都更新,而目标网络则是每个固定步数(如C轮)更新一次。因此上述公式变更为如下所示:
本发明上述基础上进一步采用了邻近顶点选择方法,提出了一种基于城市路网安全风险评估的DQN算法来实现路径规划,主要步骤包括:初始化深度神经网络参数并设定安全风险评分阈值r;对深度神经网络进行循环训练,在每个训练周期内,选择并执行行动;若相邻两顶点的路径的安全评分小于阈值r且顶点相邻顶点未被访问过,则对新状态进行预处理得到特征向量;将当前的经验样本存储到经验回放集合中,该样本由当前状态预处理后的特征向量、当前状态下智能体执行的行动、执行动作后获得的即时奖励和新状态预处理后的特征向量;从经验回放集合中随机抽取一批样本用于训练,根据当前样本是否为终止状态来计算目标值;使用梯度下降法,将预测值与目标值的误差最小化,进而更新深度神经网络的参数θ。
具体算法步骤如下:
具体实施例:
第一步:根据表1,对不同类型的POI进行不同的赋分,从而获得整个路网的评分。
第二步:抽取出车牌号为“粤A036SF”的运输车辆的一段行驶轨迹,对它进行轨迹评估。该GPS轨迹的起点为“壹方天地E区”,途经“龙华大道”、“工业路”和“龙华人民路”,抵达终点“东龙新村”,图2给出了该GPS轨迹,即图中的蓝色实线,蓝色空心圆圈为车辆行驶中经过的GPS轨迹点。可以看出在路口附近,例如:在“工业路”和“龙华人民路”以及“工业路”和“龙华大道”的交叉路口,均存在定位误差。这是由于运输车辆需要变更道路,车辆方向和行驶速度均会发生变化,这时运输车辆GPS定位器容易发生误差和偏移现象。利用提出的轨迹评估算法对这条轨迹进行分析。图2中的红色实线为执行上述路网匹配算法得到的映射到公路路网上的行驶轨迹,红色点为最优的候选点,可以明显地看出匹配得到的轨迹纠正了GPS定位系统存在的偏移和误差。根据表1的道路安全风险评估标准,可以得到这条轨迹的安全评估得分。
第三步:将安全评分结果用于构造强化学习中的奖励函数,对起点是“广深路新安段的创业立交桥”,终点是“创新智慧港”的路段进行安全轨迹评估。图3(a)展示了危化品运输车辆路径规划应用的使用界面,当前需要规划的路径的起点是“广深路新安段的创业立交桥”,终点是“创新智慧港”,如蓝色图标和红色图标所示。图3(b)是危化品运输车辆正在行驶的界面,危化品运输车辆路径规划App规划出的完整路径如蓝色线所示。在行驶中,App会实时告知司机当前的行驶位置以及剩余行驶距离,方便他及时获取路程信息。图3(b)中显示司机从起点出发,已经行驶了11.691km,距离终点还有10.365km。
虽然本发明已以实施例公开如上,然其并非用以限定本发明,本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换,均应涵盖于本发明的保护范围内,本发明的保护范围以权利要求所限定者为准。

Claims (10)

1.一种基于强化学习的危化品运输的路径规划方法,其特征在于,包括以下步骤:
采集城市路网、POI类型以及危化品运输车辆GPS数据;
根据城市路网及POI类型分布,为每段道路进行安全风险评分;
将危化品运输车辆的GPS数据与城市路网进行匹配,确定危化品运输车辆的实际行驶轨迹;
根据每段道路的安全风险评分和危化品运输车辆的实际行驶轨迹,计算危化品运输车辆的实际行驶轨迹的安全风险得分;
基于城市路网构建状态空间,将每辆危化品运输车辆作为该状态空间的一个智能体,定义智能体的状态和动作,将安全风险得分融入到智能体动作的即时奖励中;
构建智能体的当前状态价值函数,该函数包括智能体执行动作的策略函数和行动值函数,其中行动值函数基于状态转变概率、状态转变即时奖励和下一状态预期价值构建;
基于DQN算法进行深度神经网络的强化学习,并采用经验回放策略和邻近顶点选择方法,计算得到最优化行动值;
根据最优化行动值确定最优策略,根据最优策略确定智能体的状态转变,生成危化品运输车辆的规划路径。
2.如权利要求1所述的方法,其特征在于,根据城市路网及POI类型分布,为每条道路进行安全评分的步骤包括:
为每种POI类型设置基础评分,POI类型包括学校、居住区、商场、银行、名胜古迹、博物馆、水库、医院、消防站、派出所、加油站、火车站及长途汽车站;
根据城市路网数据和POI类型分布,统计每段道路上的POI类型及数量;
根据统计的POI类型及数量和基础评分,统计每段道路的总分;
将每段道路的总分除以其道路长度,得到每段道路的安全风险评分。
3.如权利要求1所述的方法,其特征在于,危化品运输车辆的GPS数据与城市路网进行匹配,确定危化品运输车辆的实际行驶轨迹的步骤包括:
根据危化品运输车辆的GPS数据的每一个GPS轨迹点,查询周边的道路网络,选择出运输车辆的所有候选路段和候选点;
获取该车辆的每个GPS轨迹点的上下文信息,包括GPS轨迹点与周围候选点的相对位置关系、车辆行驶方向及速度;
解析GPS轨迹点的上下文信息,建立起每个候选点与其周边候选路段的相互影响关系;
针对每个候选点,根据其与候选路段的相互影响关系的大小,为所有候选路段进行投票;完成所有候选点对候选路段的投票,统计每个候选路段的总票数;将总票数最多的且空间连续并无道路物理障碍的候选路段作为当前投票的最匹配路段;如此进行多轮投票迭代,直到连续几轮投票中最匹配路段不发生变化时,将该最匹配路段作为最终的匹配路段;
由最终的匹配路段组成的路径即为危化品运输车辆的实际行驶轨迹。
4.如权利要求1所述的方法,其特征在于,智能体的状态由地理坐标纬度、经度和时间戳构成,用三元组表示;智能体的动作表示为一维向量。
5.如权利要求1所述的方法,其特征在于,当前状态价值函数如下:
其中,vπ(s)表示当前状态函数,π(a|s)为智能体执行动作的策略函数,是在状态s下执行动作a的概率;Qπ(s,a)表示行动值函数。
6.如权利要求1所述的方法,其特征在于,行动值函数如下:
其中,表示状态s下执行a动作后转变为状态s′的概率,Rss′表示状态从s转变为s′时的即时奖励;γ为奖励衰减因子,取0或1;vπ(s′)表示下一状态预期价值。
7.如权利要求1所述的方法,其特征在于,经验回放策略为:在强化学习中,将危化品运输车辆与环境交互得到的数据存储到一个数据库中,再利用随机采样的方法从数据库中抽取数据,然后利用抽取的数据训练深度神经网络,消除数据之间的关联性。
8.如权利要求7所述的方法,其特征在于,经验回放策略表示如下:
其中,θ表示神经网络参数,θ-表示单独目标网络参数,r表示执行动作后受到的奖励值,γ表示衰减因子,maxQ(s′,a′;θ-)表示关于参数θ-在状态s′下采取动作a′的逾期回报,表示关于参数θ在状态s采取动作a下的梯度。
9.如权利要求1所述的方法,其特征在于,邻近顶点选择方法包括以下步骤:
初始化深度神经网络参数并设定安全风险评分阈值r;
对深度神经网络进行循环训练,在每个训练周期内,选择并执行行动;
若相邻两顶点的路径的安全评分小于阈值r且顶点相邻顶点未被访问过,则对新状态进行预处理得到特征向量;
将当前的经验样本存储到经验回放集合中,该样本由当前状态预处理后的特征向量、当前状态下智能体执行的行动、执行动作后获得的即时奖励和新状态预处理后的特征向量;
从经验回放集合中随机抽取一批样本用于训练,根据当前样本是否为终止状态来计算目标值;
使用梯度下降法,将预测值与目标值的误差最小化,进而更新深度神经网络的参数θ。
10.如权利要求1所述的方法,其特征在于,最优策略如下:
其中,Q*(s,a)表示最优化Q(s,a),argmax函数用于找出使得函数取值最大的参数。
CN202311165353.2A 2023-09-11 2023-09-11 基于强化学习的危化品运输的路径规划方法 Pending CN117474181A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311165353.2A CN117474181A (zh) 2023-09-11 2023-09-11 基于强化学习的危化品运输的路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311165353.2A CN117474181A (zh) 2023-09-11 2023-09-11 基于强化学习的危化品运输的路径规划方法

Publications (1)

Publication Number Publication Date
CN117474181A true CN117474181A (zh) 2024-01-30

Family

ID=89628262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311165353.2A Pending CN117474181A (zh) 2023-09-11 2023-09-11 基于强化学习的危化品运输的路径规划方法

Country Status (1)

Country Link
CN (1) CN117474181A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118171795A (zh) * 2024-05-13 2024-06-11 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于图形化物流路径的国际贸易物流动态优化系统
CN118674129A (zh) * 2024-08-23 2024-09-20 青岛理工大学 基于强化学习的weee回收再利用供应链管控优化方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118171795A (zh) * 2024-05-13 2024-06-11 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于图形化物流路径的国际贸易物流动态优化系统
CN118674129A (zh) * 2024-08-23 2024-09-20 青岛理工大学 基于强化学习的weee回收再利用供应链管控优化方法

Similar Documents

Publication Publication Date Title
Mohamed et al. Accurate real-time map matching for challenging environments
CN117474181A (zh) 基于强化学习的危化品运输的路径规划方法
CN103620345B (zh) 通过信息采集和检索提供路线
CN112749825B (zh) 预测车辆的目的地的方法和装置
CN112991743B (zh) 基于行驶路径的实时交通风险ai预测方法及其系统
CN109598372A (zh) 基于绿色共享交通的出行方案规划方法和共享交通系统
CN101842823A (zh) 用于使用来自多个车辆的探头数据来检测供在更新地图中使用的真实世界改变的方法及系统
CN104121915A (zh) 一种道路实时导航方法及系统
CN102003965A (zh) 操作导航系统以提供路线指引的方法
CN102003964A (zh) 操作导航系统以提供路线指引的方法
CN111721306B (zh) 道路匹配方法、装置、电子设备及可读存储介质
Blazquez et al. Simple map-matching algorithm applied to intelligent winter maintenance vehicle data
CN109559507A (zh) 一种基于历史gps轨迹数据的网约车超速事件识别方法
JP2007140745A (ja) 渋滞予測システム及び渋滞要因推定システム、並びに渋滞予測方法及び渋滞要因推定方法
Shi et al. A GPS/GIS integrated system for urban traffic flow analysis
Kong et al. A scenario-based map-matching algorithm for complex urban road network
CN117407711A (zh) 基于时空特征、地理语义及驾驶状态的车辆轨迹预测方法
CN113834489A (zh) 导航路径的规划方法及装置
CN112183871B (zh) 基于空气指数的城市交通诱导系统
CN116823572B (zh) 人口流动数据的获取方法、装置及计算机可读存储介质
CN111862657B (zh) 一种确定路况信息的方法及装置
CN111613052B (zh) 一种交通状况确定方法、装置、电子设备及存储介质
CN116562487A (zh) 顾及路口时空关联与历史出行语义的移动目的地预测方法
Lee et al. Generating Route-Level Mutually Exclusive Service Areas: Comparative Study of Alternative Methods
CN114358990A (zh) 一种基于居民出行结构的城市交通状态感知方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination