CN112085249B - 一种基于强化学习的定制公交线路规划方法 - Google Patents
一种基于强化学习的定制公交线路规划方法 Download PDFInfo
- Publication number
- CN112085249B CN112085249B CN202010727169.2A CN202010727169A CN112085249B CN 112085249 B CN112085249 B CN 112085249B CN 202010727169 A CN202010727169 A CN 202010727169A CN 112085249 B CN112085249 B CN 112085249B
- Authority
- CN
- China
- Prior art keywords
- station
- state
- action
- value
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000005457 optimization Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 22
- 238000013461 design Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000007621 cluster analysis Methods 0.000 claims description 11
- 230000000875 corresponding effect Effects 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000004044 response Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及交通工程领域,具体为一种基于强化学习的定制公交线路规划方法,包括以下步骤:采集与处理出行需求数据;设置定制公交站点;确定站点间路径;转化为分阶段线路规划问题;采用强化学习算法优化运行线路。本发明为定制公交线路规划提供了一种优化方法,有利于降低定制公交的出行成本,提升定制公交的竞争力。
Description
技术领域
本发明涉及交通工程领域,具体为一种基于强化学习的定制公交线路规划方法。
背景技术
近几年,随着经济的发展,居民的出行需求呈现多样化的趋势,传统公交单一的服务模式与居民出行需求多样化的矛盾日益凸显,发展多样化公共交通迫在眉睫。为了迎合城市多元化、多层次、高效率、高服务水平的乘客出行需求,特别是提高对私人汽车换乘的吸引力,转变现有交通方式结构,增加公共交通出行比重,一种按需出行,基于发达的定位系统和短时计算能力,响应迅速、调度灵活、舒适性高的面向随机用户的实时响应的定制公交运用而生,与常规公交相比,定制公交具有更好的灵活性,其能够根据实时的居民出行请求,最大程度地提高车辆上座率,减少资源浪费,提高居民出行效率。
如何根据乘客的出行时间窗规划合理的定制公交运行线路以减低社会总出行成本(公交运营成本和乘客出行成本之和)就显得至关重要。
发明内容
发明所要解决的技术问题
针对此问题,Yan等在《CB-Planner:A bus line planning framework forcustomized bus systems》中提出了一种适用于多种出行数据源的定制公交线路规划框架,并设计了一种启发式的解决方案框架。Huang等在《A two-phase optimization modelfor the demand-responsive customized bus network design》中提出了一种包括以交互方式动态插入乘客请求和基于总体需求的静态优化服务网络的两阶段线网优化模型。王健等在《考虑出行时间窗的定制公交线路车辆调度方法》中建立了定制公交车辆调度优化模型,将多辆定制公交车的调度问题转换为多旅行商问题。上述国内外代表研究都取得了丰富的成果,但大多采用的是启发式算法进行求解,存在收敛于局部最优解、求解速度较慢等问题。
Q-Learning算法作为强化学习的经典代表,因其对环境模型的低要求及优秀的自更新能力受到广泛关注。鉴于此,本发明考虑上下车站点时间窗的限制,以最小化社会总出行成本为目标,运用Q-Learning算法进行求解,以得到最优的运营线路,为定制公交的线路规划提供思路。
解决问题所采用的手段
为解决上述技术问题所采用的技术方案是:一种基于强化学习的定制公交线路规划方法,包括以下步骤:
(1)采集与处理出行需求数据,包括通过线上平台获取乘客出行信息、解析乘客位置信息;
(2)设置定制公交站点,包括通过K-Means聚类分析法将出行时间、地点相近的出行需求归类并据此设置定制公交站点;
(3)确定站点间路径,包括计算站点间的不同的路径阻抗确定站点间阻抗最小的路径;
(4)转化为分阶段线路规划问题,包括对上下车区域线路分阶段规划;
(5)采用强化学习算法优化运行线路,包括状态设计、动作设计、奖惩函数设计、Q值表更新规则设计。
在本发明的至少一个实施例中,所述的采集与处理出行需求数据步骤中:
1).出行数据的采集。通过网上注册信息、手机等移动端的定制信息获得乘客期望的出行时间、到达时间、起讫点。
2).出行数据的处理。收集到通勤者的起讫点无法直接利用,需要将具体地址解析为经纬度坐标,再转换为平面坐标,进而计算出行点之间的距离。
在本发明的至少一个实施例中,所述的设置定制公交站点步骤中:
采用K-means聚类分析法将出行时间相近、距离较近的多个乘客的上车地点进行合并处理,然后设置合乘站点,确定其服务范围内预约定制公交的出行者,而不响应位置不在服务范围内的乘车请求。对聚类后的站点需要结合道路情况和已设置的公交站点的情况进行调整。K-means聚类分析法对小范围内的动态乘车请求进行聚类分析的步骤为:
Step1:收集到乘客出行需求信息,确定乘客位置坐标;
Step2:建立预约请求数据集O;
Step3:分析动态请求位置分布,从中选取H个初始聚类中心Zh(1,2,3...h);
Step4:以Zh为参照点,计算其它动态请求Ow与点Zh的距离,对应请求数据划分到最近的聚类中心所在的类,即:
dis(Ow,Zh)=mindis(Ow,Zh)
如果Ow,Zk满足上述条件,则说明Ow属于第h聚类;
Step5:更新得到所有聚类区域Ch中的样本点,把所有聚类区域中样本点的均值作为新的聚类中心Zh;
Step6:按照平方误差准则计算平方误差E。
Step7:对平方误差E进行迭代计算,当误差平方和局部最小则结束运算,否则继续重复Step4,5,6。
用K-Means聚类分析法对动态乘车请求进行分析后,假定第h个聚类中心中第w个请求的坐标为(xrhw,yrhw),合成站点的坐标为(xchw,ychw),设定乘客的最大可接受步行距离为dmax=300m,根据下式判断车辆是否响应乘车请求:
根据合乘站点的服务范围则可确定每个聚类中心接受订制服务的乘客数。
在本发明的至少一个实施例中,所述的确定站点间路径步骤中:
站点间往往存在多条可选路径,确定站点间的走行路径是构建公交运行路网的基础。由于站点间路径具有独立性且包含多条路段,本发明采用基于历史数据计算路段行程时间,进而确定阻抗最小路径的方法以确定站点间的路径。
式中:Fij表示站点i与站点j之间路径f的阻抗;G表示路段集合;为路径-路段关联变量,如果路段a属于ij间路径f,则值为1,否则值为0;la表示路段a的长度;va表示定制公交的自由流速度;qa表示路段a的实际交通量,通过历史数据获得;ca表示路段a的通行能力;为参数,取0.15,取0.4。
在本发明的至少一个实施例中,所述的转化为分阶段线路规划问题步骤中:
在单区域对单区域的服务模式中,上车站点集中在上车区域,下车站点集中在下车区域。定制公交在线路两端区域(上车区域、下车区域)按需设站,中途快速通过,同时考虑上下车站点的时间窗限制,对上车区域和下车区域的运行线路分阶段进行求解。在求解上车区域线路时,定义集合N={1,2,3…n}表示上车区域内实际站点,设置虚拟站点0作为线路起点站,其与各个实际站点的距离相同且为接近0的正数,将下车区域视为一个虚拟站点作为线路的终点站n+1,其与各个实际站点的距离为实际距离;上车区域到达终点站的时间即为下车区域起点站的发车时间;在求解下车区域线路时,定义M={1,2,3…m}表示下车区域内实际站点,将上车区域视为一个虚拟站点作为线路起点站0,其与各个实际站点的距离为实际距离,设置虚拟站点m+1作为线路终点站,其与各个实际站点的距离相同且为接近0的正数,从而将整条线路规划问题转化为分区域分阶段的线路规划问题。
在本发明的至少一个实施例中,所述采用强化学习算法优化运行线路步骤中,所述的强化学习算法基于Q-Learning算法,包括:
具体的算法设计为:
1)状态设计
将智能体表示为定制公交车辆,状态表示为公交站点(包括实际站点和虚拟站点)。
2)动作设计
动作表示为“前往不同站点”,智能体获取当前状态下的动作组合的最大Q值,根据当前状态的最大Q值获取当前动作并执行,然后转移到下一个状态(即站点之间的转移)。引入决策变量:
在上车区域线路求解时,一次训练结束需要满足:a.公交智能体会遍历所有实际站点;b.公交智能体不会返回虚拟站点0;c.虚拟站点0为起点站;d.虚拟站点n+1为终点站。
同理,下车区域线路一次训练结束的条件为:
3)奖惩函数设计
a.运营成本奖惩函数
定制公交企业的运营成本包括固定成本和车辆运行成本,车辆运行成本和运行线路长度具有正相关性,直接采用车辆运行的油耗费用表示其运营成本。
b.乘客时间成本奖惩函数
假设乘客均在出行时间窗内准时到达站点,乘客的时间成本即为定制公交晚到站点(超出时间窗到达)导致乘客等待的时间成本。
式中:表示站点j的乘客的时间成本;k为站点j的乘客数量;表示定制公交到达站点i的实际时间;为定制公交到达站点j的实际时间,即到达站点j的时间与站点ij路径阻抗之和;为站点j时间窗的最晚时间;up为乘客的时间价值;ψ为接近0的正数,取为0.0001,避免分母为0。
c.综合奖惩函数
上式的优化目标具有同向性,将多目标优化转化为单目标优化,则最终的奖惩函数为:
式中:R表示奖惩函数。
4)Q值表更新策略
首先定义记忆矩阵M(t)←[st,at]来依次记录智能体所经历过的所有状态st与相应动作at。设记忆矩阵为h行2列的矩阵,其中h表示从初始时刻到当前时刻所经历的状态数量。以记忆矩阵中的[st,at]为索引找到前一个“状态-动作”所对应的Q值并更新。然后令t减1,并判断t-1是否为0,如果为0,说明状态st前续所经历过的所有“状态-动作”的Q值已更新完毕;如果不为0,则寻找其下一个“状态-动作”的Q值进行更新,直至所有Q值更新完毕,更新公式如式(16)所示,其中k=t-1,t-2,...,2,1。
同样的字母不能表示不同的含义
1.式中,Q(sk,ak)表示状态sk采取动作ak后更新的Q值;sk表示k时刻的状态;ak表示状态sk采取的动作;Rk表示状态sk采取动作ak获得的即时奖励;0<γ≤1为折扣系数,γ在(0,1]范围内以0.1为单位取值试验,选用算法收敛条件下γ的最大值;Q(sk+1,a)表示状态sk+1采取动作a可获得的最大Q值。
发明效果
通过以上描述可知,本发明研究了考虑上下车区域乘客时间窗限制的定制公交线路规划问题,在单区域外设置虚拟站点,将其转化为分阶段求解的线路规划问题,并采用Q-Learning算法进行求解。根据公交企业的运营成本和乘客的时间成本设置了奖惩函数,将“回溯”思想应用在Q-Learning算法中以提高Q值表更新效率,从而改善数据传递滞后性问题,优化后的定制公交线路能够有效地降低出行成本,从而为定制公交线路规划以及定价提供新的思路。
附图说明
图1为本发明的基本流程图;
图2为本发明的算法设计流程图;
图3a单区域对单区域模式场景图;
图3b上车区域优化场景图;
图3c下车区域优化场景图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
本实施例的一种基于强化学习的定制公交线路规划方法,基本流程图如图1所示,请参阅图1,步骤包括:
(1)获取并处理出行信息数据。首先通过线上问卷、平台APP等形式获得乘客出行信息数据。主要的调查内容有:a.出行起讫点,包括居住地、办公地等;b.定制服务时间。定制公交为出行地点和出行时间相近的乘客提供订制服务。c.目前出行方式。通过了解通勤者当前的出行方式,优先筛选出私家车、出行距离远、出租车通勤者等,作为主要服务对象。d.姓名及联系方式。通过实名制精细化服务,方便回溯乘客信息以及发布线路信息和管理。通勤者出行信息数据采集结束后,需要先剔除无效冗余数据,再对剩余的数据进行处理,为合乘站点及线路规划提供数据支撑。收集到通勤者的起讫点无法直接利用,需要将具体地址解析为经纬度坐标,再转换为平面坐标,进而计算出行点之间的距离。
(2)进行合乘站点规划。合乘站点设置的目的是:在一个相近区域内有多个乘车请求,考虑到系统的时间成本最低,将位置相近的点通过在可接受的步行距离内引导到合乘站点上,定制公交只需在合乘站点停车即可。本发明采用K-means聚类分析法将出行时间相近、距离较近的多个乘客的上车地点进行合并处理,然后设置合乘站点,确定其服务范围内预约定制公交的出行者,而不响应位置不在服务范围内的乘车请求。对聚类后的站点需要结合道路情况和已设置的公交站点的情况进行调整。
(3)确定站点间路径。站点间往往存在多条可选路径,确定站点间的走行路径是构建公交运行路网的基础。由于站点间路径具有独立性且包含多条路段,本发明采用基于历史数据计算路段行程时间,进而确定阻抗最小路径的方法以构建公交线网。
(4)转化为分阶段线路规划问题。在单区域对单区域的服务模式中,上车站点集中在上车区域,下车站点集中在下车区域。定制公交在线路两端区域(上车区域、下车区域)按需设站,中途快速通过,同时考虑上下车站点的时间窗限制,对上车区域和下车区域的运行线路分阶段进行求解。在求解上车区域线路时,定义N={1,2,3…n}表示上车区域内实际站点,设置虚拟站点0作为线路起点站,其与各个实际站点的距离相同且为接近0的正数,将下车区域视为一个虚拟站点作为线路的终点站n+1,其与各个实际站点的距离为实际距离;上车区域到达终点站的时间即为下车区域起点站的发车时间;在求解下车区域线路时,定义M={1,2,3…m}表示下车区域内实际站点,将上车区域视为一个虚拟站点作为线路起点站0,其与各个实际站点的距离为实际距离,设置虚拟站点m+1作为线路终点站,其与各个实际站点的距离相同且为接近0的正数,从而将整条线路规划问题转化为分区域分阶段的线路规划问题。
(5)采用强化学习算法优化运行线路。分别对算法中的状态、动作、奖惩函数以及Q值更新规则进行设计。将智能体表示为定制公交车辆,状态表示为公交站点(包括实际站点和虚拟站点);动作表示为“前往不同站点”,智能体获取当前状态下的动作组合的最大Q值,根据当前状态的最大Q值获取当前动作并执行,然后转移到下一个状态(即站点之间的转移);奖惩函数在智能体训练过程中起着引导作用,目的是对智能体采取的动作做出评价,训练的目的是最大化最终的累计奖励值,在此奖励值设为成本的相反数,即成本越高,奖励值越小。本发明设计的奖惩函数综合考虑定制公交企业的运营成本和乘客的出行时间成本,以得到总出行成本最优的线路。
图2为本发明的算法设计流程,请参阅图2。Q-Learning算法的步骤为:
Step1:初始化Q值表并将episode(训练次数)设置为1。Q值表为二维矩阵,其中每一行对应一个状态,状态即为站点集合;每一列则对应一种动作,动作为前往不同的站点,初始时将Q值表的值设为0;
Step2:初始化状态并将step(探索步数)设置为1。从环境中获取智能体当前所处的状态,即起始站点;
Step3:更新即时奖励:根据下式计算当前状态下各个动作的奖惩值;
式中:R表示奖惩函数;表示站点j的乘客的时间成本;k为站点j的乘客数量;表示定制公交到达站点i的实际时间;为定制公交到达站点j的实际时间,即到达站点j的时间与站点ij路径阻抗之和;为站点j时间窗的最晚时间;up为乘客的时间价值;ψ为接近0的正数,取为0.0001,避免分母为0;表示当前站点i与站点j之间的运营成本;lij表示站点i与站点j的距离;p表示单位油耗费用,根据实际价格取值。
Step4:根据探索规则选择动作:根据贪婪策略选取动作,即获取当前状态下动作组合的最大Q值,根据当前状态的最大Q值获取当前动作并执行;
Step5:转移状态:智能体选择动作后,转移至下一状态;
Step6:更新记忆矩阵及Q值:根据下述的Q值表更新策略更新记忆矩阵以及Q值;
首先定义记忆矩阵M(t)←[st,at]来依次记录智能体所经历过的所有状态st与相应动作at。设记忆矩阵为h行2列的矩阵,其中h表示从初始时刻到当前时刻所经历的状态数量。以记忆矩阵中的[st,at]为索引找到前一个“状态-动作”所对应的Q值并更新。然后令t减1,并判断t-1是否为0,如果为0,说明状态st前续所经历过的所有“状态-动作”的Q值已更新完毕;如果不为0,则寻找其下一个“状态-动作”的Q值进行更新,直至所有Q值更新完毕,更新公式如式(16)所示,其中k=t-1,t-2,...,2,1。
同样的字母不能表示不同的含义
式中,Q(sk,ak)表示状态sk采取动作ak后更新的Q值;sk表示k时刻的状态;ak表示状态sk采取的动作;Rk表示状态sk采取动作ak获得的即时奖励;0<γ≤1为折扣系数;Q(sk+1,a)表示状态sk+1采取动作a可获得的最大Q值。
Step7:根据训练条件判断是否完成了一次训练,若是则训练次数加1,继续判断Q值表是否收敛,若是则训练结束,若否则则判断是否达到最大的训练次数,若是则训练结束,若否则初始化状态继续训练;若没有完成一次训练,则探索步数加1,判断是否达到最大探索步数,若是则初始化状态继续训练,若否则则在当前状态继续选取动作。
图3为本发明的场景图,请参阅图3。
上车站点集中在上车区域,下车站点集中在下车区域。在单区域对单区域的服务模式中,定制公交在线路两端区域(上车区域、下车区域)按需设站,中途快速通过。
本发明同时考虑上下车站点的时间窗限制,对上车区域和下车区域的运行线路分阶段进行求解。在求解上车区域线路时,定义N={1,2,3…n}表示上车区域内实际站点,设置虚拟站点0作为线路起点站,其与各个实际站点的距离相同且为接近0的正数,将下车区域视为一个虚拟站点作为线路的终点站n+1,其与各个实际站点的距离为实际距离;上车区域到达终点站的时间即为下车区域起点站的发车时间;在求解下车区域线路时,定义M={1,2,3…m}表示下车区域内实际站点,将上车区域视为一个虚拟站点作为线路起点站0,其与各个实际站点的距离为实际距离,设置虚拟站点m+1作为线路终点站,其与各个实际站点的距离相同且为接近0的正数,从而将整条线路规划问题转化为分区域分阶段的线路规划问题。
式中涉及的参数在上文均已有说明。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (6)
1.一种基于强化学习的定制公交线路规划方法,其特征在于,包括:
(1)采集与处理出行需求数据,包括通过线上平台获取乘客出行信息、解析乘客位置信息;
(2)设置定制公交站点,包括通过K-Means聚类分析法将出行时间、地点相近的出行需求归类并据此设置定制公交站点;
(3)确定站点间路径,包括计算站点间的不同的路径阻抗确定站点间阻抗最小的路径;
(4)转化为分阶段线路规划问题,包括对上下车区域线路分阶段规划;所述转化为分阶段线路规划问题步骤中:
在单区域对单区域的服务模式中,上车站点集中在上车区域,下车站点集中在下车区域;定制公交在线路两端区域即上车区域、下车区域按需设站,中途快速通过,同时考虑上下车站点的时间窗限制,对上车区域和下车区域的运行线路分阶段进行求解;在求解上车区域线路时,定义集合N={1,2,3…n}表示上车区域内实际站点,设置虚拟站点0作为线路起点站,其与各个实际站点的距离相同且为接近0的正数,将下车区域视为一个虚拟站点作为线路的终点站n+1,其与各个实际站点的距离为实际距离;上车区域到达终点站的时间即为下车区域起点站的发车时间;在求解下车区域线路时,定义M={1,2,3…m}表示下车区域内实际站点,将上车区域视为一个虚拟站点作为线路起点站0,其与各个实际站点的距离为实际距离,设置虚拟站点m+1作为线路终点站,其与各个实际站点的距离相同且为接近0的正数,从而将整条线路规划问题转化为分区域分阶段的线路规划问题;
(5)采用强化学习算法优化运行线路,包括状态设计、动作设计、奖惩函数设计、Q值表更新规则设计;所述采用强化学习算法优化运行线路步骤中,所述的强化学习算法基于Q-Learning算法,包括:
1)状态设计
将智能体表示为定制公交车辆,状态表示为公交站点,包括实际站点和虚拟站点;
2)动作设计
动作表示为前往不同站点,智能体获取当前状态下的动作组合的最大Q值,根据当前状态的最大Q
值获取当前动作并执行,然后转移到下一个状态即站点之间的转移;引入决策变量:
在上车区域线路求解时,一次训练结束需要满足:a.公交智能体会遍历所有实际站点;b.公交智能体不会返回虚拟站点0;c.虚拟站点0为起点站;d.虚拟站点n+1为终点站;
同理,下车区域线路一次训练结束的条件为:
3)奖惩函数设计
a.运营成本奖惩函数
定制公交企业的运营成本包括固定成本和车辆运行成本,车辆运行成本和运行线路长度具有正相关性,直接采用车辆运行的油耗费用表示其运营成本;
b.乘客时间成本奖惩函数
假设乘客均在出行时间窗内准时到达站点,乘客的时间成本即为定制公交晚到站点即超出时间窗到达导致乘客等待的时间成本;
式中:表示站点j的乘客的时间成本;v为站点j的乘客数量;表示定制公交到达站点i的实际时间;为定制公交到达站点j的实际时间,即到达站点j的时间与站点ij路径阻抗之和;为站点j时间窗的最晚时间;up为乘客的时间价值;ψ为接近0的正数,取为0.0001,避免分母为0;
c.综合奖惩函数
上式的优化目标具有同向性,将多目标优化转化为单目标优化,则最终的奖惩函数为:
式中:R表示奖惩函数;
4)Q值表更新策略首先定义记忆矩阵M(t)←[st,et]来依次记录智能体所经历过的所有状态st与相应动作et;设记忆矩阵为x行2列的矩阵,其中x表示从初始时刻到当前时刻所经历的状态数量;以记忆矩阵中的[st,et]为索引找到前一个“状态-动作”所对应的Q值并更新;然后令t减1,并判断t-1是否为0,如果为0,说明状态st前续所经历过的所有“状态-动作”的Q值已更新完毕;如果不为0,则寻找其下一个“状态-动作”的Q值进行更新,直至所有Q值更新完毕,更新公式如下所示,其中k=t-1,t-2,...,2,1;
式中,sk表示第k步的状态;ek表示在状态sk采取的动作;Q(sk,ek)表示智能体在状态sk时采取动作ek后更新的Q值;Rk表示状态sk采取动作ek获得的即时奖励;0<γ≤1为折扣系数;Q(sk+1,e)表示在状态sk+1采取动作e可获得的最大Q值。
2.根据权利要求1所述的一种基于强化学习的定制公交线路规划方法,其特征在于,所述采集与处理出行需求数据步骤中:
1)出行数据的采集;获得期望的出行时间、到达时间、起讫点;
2)出行数据的处理;收集到通勤者的起讫点无法直接利用,需要将具体地址解析为经纬度坐标,再转换为平面坐标,进而计算出行点之间的距离。
3.根据权利要求1所述的一种基于强化学习的定制公交线路规划方法,其特征在于,所述设置定制公交站点步骤:
采用K-means聚类分析法将出行时间相近、距离较近的多个乘客的上车地点进行合并处理,然后设置合乘站点,确定其服务范围内预约定制公交的出行者,而不响应位置不在服务范围内的乘车请求;对聚类后的站点需要结合道路情况和已设置的公交站点的情况进行调整;K-Means聚类分析法对小范围内的动态乘车请求进行聚类分析的步骤为:
Step1:收集到乘客出行需求信息,确定乘客位置坐标;
Step2:建立预约请求数据集O;
Step3:分析动态请求位置分布,从中选取H个初始聚类中心Zh(1,2,3...h);
Step4:以Zh为参照点,计算其它动态请求Ow与点Zh的距离,对应请求数据划分到最近的聚类中心所在的类,即:
dis(Ow,Zh)=min dis(Ow,Zh)
如果Ow,Zh满足上述条件,则说明Ow属于第h聚类;
Step5:更新得到所有聚类区域Ch中的样本点,把所有聚类区域中样本点的均值作为新的聚类中心Zh;
Step6:按照平方误差准则计算平方误差E;
Step7:对平方误差E进行迭代计算,当误差平方和局部最小则结束运算,否则继续重复Step4,5,6;
用K-Means聚类分析法对动态乘车请求进行分析后,假定第h个聚类中心中第w个请求的坐标为(xrhw,yrhw),合成站点的坐标为(xchw,ychw),设定乘客的最大可接受步行距离为dmax=300m,根据下式判断车辆是否响应乘车请求:
根据合乘站点的服务范围则可确定每个聚类中心接受订制服务的乘客数。
5.根据权利要求1所述的一种基于强化学习的定制公交线路规划方法,其特征在于,γ在(0,1]范围内以0.1为单位取值试验,选用算法收敛条件下γ的最大值。
6.根据权利要求1所述的一种基于强化学习的定制公交线路规划方法,其特征在于,所述的Q-Learning算法的步骤为:
Step1:初始化Q值表;Q值表为二维矩阵,其中每一行对应一个状态,状态即为站点集合;每一列则对应一种动作,动作为前往不同的站点,初始时将Q值表的值设为0;
Step2:初始化状态;从环境中获取智能体当前所处的状态,即起始站点;
Step3:更新即时奖励:根据所述奖惩函数计算当前状态下各个动作的奖惩值;
Step4:根据探索规则选择动作:根据贪婪策略选取动作,即获取当前状态下动作组合的最大Q值,根据当前状态的最大Q值获取当前动作并执行;
Step5:转移状态:智能体选择动作后,转移至下一状态;
Step6:更新记忆矩阵及Q值:根据所述Q值表更新策略更新记忆矩阵以及Q值;
Step7:根据训练条件判断是否完成了一次训练,若是则训练次数加1,继续判断Q值表是否收敛,若是则训练结束,否则则判断是否达到最大的训练次数,若是则训练结束,若否则初始化状态继续训练;若没有完成一次训练,则探索步数加1,判断是否达到最大探索步数,若是则初始化状态继续训练,否则则在当前状态继续选取动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010727169.2A CN112085249B (zh) | 2020-07-27 | 2020-07-27 | 一种基于强化学习的定制公交线路规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010727169.2A CN112085249B (zh) | 2020-07-27 | 2020-07-27 | 一种基于强化学习的定制公交线路规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112085249A CN112085249A (zh) | 2020-12-15 |
CN112085249B true CN112085249B (zh) | 2022-11-04 |
Family
ID=73735557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010727169.2A Active CN112085249B (zh) | 2020-07-27 | 2020-07-27 | 一种基于强化学习的定制公交线路规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112085249B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650237B (zh) * | 2020-12-21 | 2021-12-28 | 武汉理工大学 | 基于聚类处理和人工势场的船舶路径规划方法和装置 |
CN112819229B (zh) * | 2021-02-04 | 2022-10-28 | 汉纳森(厦门)数据股份有限公司 | 一种基于分布式机器学习的行车站点优化更新方法和系统 |
CN113096429B (zh) * | 2021-03-09 | 2022-03-08 | 东南大学 | 基于公交调度站点集散的弹性公交区域灵活性线路生成方法 |
CN115016494A (zh) * | 2022-06-27 | 2022-09-06 | 中国第一汽车股份有限公司 | 无人驾驶车辆的控制方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017045294A1 (zh) * | 2015-09-17 | 2017-03-23 | 华南理工大学 | 一种城市常规公交线网设计方法 |
CN107220733A (zh) * | 2017-06-15 | 2017-09-29 | 重庆交通大学 | 基于互联网和车路协同的起讫点集定制公交开行优化方法 |
CN107330559A (zh) * | 2017-07-03 | 2017-11-07 | 华南理工大学 | 一种多起终点多车型混载的定制公交线路规划方法 |
CN109344529A (zh) * | 2018-10-22 | 2019-02-15 | 北京航空航天大学 | 一种基于两阶段启发式算法的定制公交线路设计方法 |
CN110533227A (zh) * | 2019-08-08 | 2019-12-03 | 东南大学 | 一种确定可变线路式公交固定站点和动态站点的方法 |
CN111105141A (zh) * | 2019-11-23 | 2020-05-05 | 同济大学 | 一种需求响应型公交调度方法 |
CN111105078A (zh) * | 2019-11-29 | 2020-05-05 | 同济大学 | 一种定制公交网络优化方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10176443B2 (en) * | 2016-08-09 | 2019-01-08 | Conduent Business Services, Llc | Method and system for dispatching of vehicles in a public transportation network |
-
2020
- 2020-07-27 CN CN202010727169.2A patent/CN112085249B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017045294A1 (zh) * | 2015-09-17 | 2017-03-23 | 华南理工大学 | 一种城市常规公交线网设计方法 |
CN107220733A (zh) * | 2017-06-15 | 2017-09-29 | 重庆交通大学 | 基于互联网和车路协同的起讫点集定制公交开行优化方法 |
CN107330559A (zh) * | 2017-07-03 | 2017-11-07 | 华南理工大学 | 一种多起终点多车型混载的定制公交线路规划方法 |
CN109344529A (zh) * | 2018-10-22 | 2019-02-15 | 北京航空航天大学 | 一种基于两阶段启发式算法的定制公交线路设计方法 |
CN110533227A (zh) * | 2019-08-08 | 2019-12-03 | 东南大学 | 一种确定可变线路式公交固定站点和动态站点的方法 |
CN111105141A (zh) * | 2019-11-23 | 2020-05-05 | 同济大学 | 一种需求响应型公交调度方法 |
CN111105078A (zh) * | 2019-11-29 | 2020-05-05 | 同济大学 | 一种定制公交网络优化方法 |
Non-Patent Citations (1)
Title |
---|
基于Q-learning的定制公交跨区域路径规划研究;彭理群等;《交通运输系统工程与信息》;20200229;第20卷(第1期);第104-109页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112085249A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112085249B (zh) | 一种基于强化学习的定制公交线路规划方法 | |
CN109409599B (zh) | 基于实时需求的定制公交线路开通优化方法 | |
CN110458456B (zh) | 基于人工智能的需求响应式公交系统的调度方法及系统 | |
CN113780808B (zh) | 基于柔性公交接驳系统线的车辆服务属性决策优化方法 | |
CN112561249B (zh) | 面向实时需求的城市定制公交调度方法 | |
CN110909434B (zh) | 一种低碳导向下的城市公共交通干线网络设计方法 | |
CN111144618A (zh) | 一种基于两阶段优化模型的需求响应型定制公交网络规划方法 | |
CN103366224B (zh) | 一种基于公交网络的乘客需求预测系统和方法 | |
CN103226801A (zh) | 基于多用户配流模型的空港集疏运交通量确定方法 | |
CN109255972A (zh) | 一种基于大数据的地面公交固定线路时刻表的优化方法 | |
CN111445048A (zh) | 一种响应型接驳公交分时段协调优化方法 | |
CN112700029A (zh) | 一种基于仿真优化框架的定制公交规划方法 | |
Wei et al. | Optimal integrated model for feeder transit route design and frequency-setting problem with stop selection | |
CN116882842A (zh) | 一种公共综合交通体系通达度评估方法 | |
CN111882915A (zh) | 采用复合算法及交互模型的应需定制公交线路规划方法 | |
CN111931079A (zh) | 推荐网约车上车点的方法及系统 | |
CN116629567B (zh) | 考虑动态需求的需求响应公交与共享电单车耦合优化方法 | |
CN111882092B (zh) | 一种适用于共享出行的出租车车辆搜索方法 | |
CN111738490A (zh) | 柔性公交线路资源复用分配调度方法 | |
Ma et al. | Improving the performance of airport shuttle through demand-responsive service with dynamic fare strategy considering mixed demand | |
CN116524705A (zh) | 一种城际出行车辆的调度方法及终端 | |
CN115083198B (zh) | 一种多车运力资源调度方法及装置 | |
CN116468219A (zh) | 一种枢纽站接驳出租车合乘调度匹配方法 | |
CN116504091A (zh) | 一种基于智能网联的需求响应公交实时调度方法及系统 | |
CN115936330A (zh) | 一种基于拉格朗日原理的需求响应式brt车辆调度算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |