CN112097783B - 基于深度强化学习的电动出租车充电导航路径规划方法 - Google Patents

基于深度强化学习的电动出租车充电导航路径规划方法 Download PDF

Info

Publication number
CN112097783B
CN112097783B CN202010823292.4A CN202010823292A CN112097783B CN 112097783 B CN112097783 B CN 112097783B CN 202010823292 A CN202010823292 A CN 202010823292A CN 112097783 B CN112097783 B CN 112097783B
Authority
CN
China
Prior art keywords
electric taxi
charging
electric
cost
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010823292.4A
Other languages
English (en)
Other versions
CN112097783A (zh
Inventor
林继旭
谢胜利
杨超
刘义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010823292.4A priority Critical patent/CN112097783B/zh
Publication of CN112097783A publication Critical patent/CN112097783A/zh
Application granted granted Critical
Publication of CN112097783B publication Critical patent/CN112097783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3453Special cost functions, i.e. other than distance or default speed limit of road segments
    • G01C21/3469Fuel consumption; Energy use; Emission aspects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)
  • Navigation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于深度强化学习的电动出租车充电导航路径规划方法,解决了现有电动出租车充电导航路径的规划方法鲁棒性低,规划基础不全面的问题,以电动出租车在行驶途中的电池损耗、充放电损耗、电池退化、行驶时间、等待时间及充放电时间之和为目标函数,以路径选择、到达时间、电池电量及充放电为约束条件,建立模型并求解,电动汽车充电导航路径的规划基础更全面,以求解之后的目标最优值作为深度强化学习网络模型的输入来训练深度强化学习网络模型,使训练好的深度强化学习网络模型可快速规划输出最优的充电导航路径,避免当面对众多不同的实际应用场景时,常规优化求解算法求解电动出租车充电路径的方法鲁棒性差的缺陷。

Description

基于深度强化学习的电动出租车充电导航路径规划方法
技术领域
本发明涉及电动出租车充电导航路径规划的技术领域,更具体地,涉及一种基于深度强化学习的电动出租车充电导航路径规划方法。
背景技术
随着电动汽车的普及率越来越高,大量电动汽车在同一个时刻充电会对当地电网承载负荷的能力带来冲击,所以,需要设计优化充电导航策略以诱导电动汽车,特别是电动出租车合理选择充电站,并在合适的时间进行充电,可以减小电网负荷的峰谷差,提高电网的稳定性以及电能的利用率,同时也能节省电动出租车用户的充电成本。
目前,大部分充电导航策略通常假设电动出租车在快速充电站中充满电之后才离开,但是从现实场景出发,在电动出租车的运营场景下,若让电动出租车在快速充电站中充满电之后才离开,势必会增加电动出租车的充电时间损耗和充电损耗(相对于慢充,在快速充电站进行快充的成本花费会更高),2018年12月7日,广东工业大学在中国专利中公开了一种应用于电动汽车智能充放电的导航方法(公开号:CN108955711A),该专利的技术方案考虑快速充电站下大量的快充负荷对电网的冲击影响以及行驶过程中电动汽车的电量,以综合成本最优为目标进行电动汽车最优充放电路径的规划,一方面使用户在整个行程中经济利益最大化的同时节省用户的行程时间,另一方面减少充电负荷,从而减少快速充电对电网的影响,但该充电导航策略并没有考虑电动出租车在充放电中的电池退化成本,而电池经常进行充放电,势必会降低电池的使用寿命,所以电池的退化成本也是电动出租车用户无形中需要承担的成本,在电池退化成本未被考虑时,电动汽车充电导航路径的规划基础不全面,得到的充电导航路径准确性低。此外,现有电动出租车的充电导航路径通常是利用常规优化求解算法求解充电导航路径规划模型之后一次性确定充电路径,当面对众多不同的实际应用场景时,常规优化求解算法求解电动出租车充电路径的方法鲁棒性差。
发明内容
为解决现有电动出租车充电导航路径的规划方法鲁棒性低,而且规划基础不全面的问题,本发明提出一种基于深度强化学习的电动出租车充电导航路径规划方法,从电动出租车用户的角度出发,最大程度减少电动出租车在行驶过程中的综合成本,鲁棒性高。
为了达到上述技术效果,本发明的技术方案如下:
本发明提出一种基于深度强化学习的电动出租车充电导航路径规划方法,至少包括:
S1.获取电动出租车实时的车辆信息;
S2.以电动出租车在行驶途中的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本之和为目标函数,以路径选择约束、到达时间约束、电池电量约束及充放电约束为约束条件,建立电动出租车充电导航路径规划模型;
S3.求解电动出租车充电导航路径规划模型,得到电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本的最优值;
S4.选定深度强化学习网络模型,将步骤S3求得的最优值、电动出租车实时的车辆信息作为深度强化学习网络模型的输入,训练深度强化学习网络模型,输出最优的电动出租车充电导航路径。
在此,电动出租车充电导航路径规划模型为混合整数线性规划模型(MILP),可通过遗传算法、粒子群算法等智能优化算法求解,也可通过Cplex、Yamip等数学优化求解器求解。
优选地,步骤S1所述的电动出租车实时的车辆信息包括:电动出租车u在t时刻的位置yu,t、电动出租车u在地点j的荷电状态SOCj,t及t时刻到达地点j所属充电站的电动出租车的数量
Figure BDA0002634022170000021
优选地,步骤S2所述的电动出租车充电导航路径规划模型的目标函数f为:
min f=Croad+Cch+Cbattery+πTroad+πTch+πTwait
其中,Croad表示电动出租车在行驶途中的电池损耗成本;Cch表示电动出租车在充电站中的充放电损耗成本;Cbattery表示因电动出租车放电带来的电池退化成本;Troad表示电动出租车在道路行驶过程中所需要的时间;Tch表示电动出租车在充电站充放电的时间;Twait表示电动出租车在充电站等待的时间,π表示电动出租车单位耗时时间的价值成本系数;
电动出租车在行驶途中的电池损耗成本Croad的表达式为:
Figure BDA0002634022170000031
其中,α表示电动出租车行驶单位千米的电池能耗;Ψ(t)表示充放电的电价;dij表示从地点i到地点j的距离;xij是表示二进制变量,xij=1表示电动出租车从地点i行驶至地点j,否则,xij=0;Wn表示允许电动出租车经过的地点集合;Mn表示允许电动出租车经过的充电站集合;
电动出租车在充电站中的充放电损耗成本Cch的表达式为:
Cch=C1-C2
其中,
Figure BDA0002634022170000032
Figure BDA0002634022170000033
其中,C1表示电动出租车在充电站中的充电损耗;C2表示电动出租车在充电站中的放电损耗;Pchar表示电动出租车的充电功率;Pdis表示电动出租车的放电功率;tj表示电动出租车到地点j的时间;Ψ(t)表示充放电的电价;λ(t)、θ(t)均为二进制变量,λ(t)=1时表示电动出租车进行充电过程,否则λ(t)=0,θ(t)=1时表示电动出租车进行放电过程,否则θ(t)=0;Δt表示决策周期内每段时间的时间长度;
电动出租车放电带来的电池退化成本Cbattery的表达式为:
Figure BDA0002634022170000034
其中,CB表示电池的投资成本,LC表示电池在放电深度DDOD下的循环寿命,
Figure BDA0002634022170000035
DDOD∈[0,0.9],Smax为电动出租车电池的最大容量;
电动出租车在道路行驶过程中所需要的行驶时间Troad的表达式为:
Figure BDA0002634022170000036
其中,
Figure BDA0002634022170000041
表示电动出租车在道路行驶过程中的平均速度,表达式为:
Figure BDA0002634022170000042
U表示在时间t时,行驶在路段地点i到地点j的电动出租车用户的总数目;u表示第u个电动出租车用户;vu,ij,t表示电动出租车的瞬时速度,表达式为:
Figure BDA0002634022170000043
函数D(yu,t,yu,t-1)表示电动出租车用户u在采样时间内所行驶的距离,Δtsamp表示采样时间,D(yu,t,yu,t-1)与Δtsamp之比表示电动出租车的瞬时速度;行驶时间成本表示为πTroad
电动出租车在充电站的充放电时间Tch表达式为:
Figure BDA0002634022170000044
其中,
Figure BDA0002634022170000045
表示电动出租车在地点j所属充电站的充放电时间,
Figure BDA0002634022170000046
Figure BDA0002634022170000047
表示电动出租车在地点j所属充电站的充电时间,表达式为:
Figure BDA0002634022170000048
Figure BDA0002634022170000049
表示电动出租车在地点j所属充电站中总的充电电量,ηchar表示充电效率;
Figure BDA00026340221700000410
表示电动出租车在地点j所属充电站的放电时间,表达式为:
Figure BDA00026340221700000411
Figure BDA00026340221700000412
表示在地点j所属充电站中总的放电电量,ηdis表示放电效率;充放电时间成本表示为πTch
电动出租车在充电站的等待时间Twait表达式为:
Figure BDA00026340221700000414
其中,
Figure BDA00026340221700000415
Lq,j,t表示t时刻电动出租车在地点j所属充电站队列的长度,
Figure BDA00026340221700000416
表示充电率,
Figure BDA00026340221700000417
Figure BDA00026340221700000418
表示t-1时刻到达地点j所属充电站的电动出租车的数量;
Figure BDA00026340221700000419
表示t时刻到达地点j所属充电站的电动出租车的数量,等待时间成本表示为πTwait
在此,目标函数中考虑了电动出租车在充放电中的电池退化成本,电动汽车充电导航路径的规划基础更全面,提高了充电导航路径规划的准确性。
优选地,步骤S2所述的路径选择约束为:
Figure BDA0002634022170000051
其中,S表示电动出租车的起始位置,D表示电动出租车的目的地。
优选地,步骤S2所述的到达时间约束为:
Figure BDA0002634022170000052
其中,tstart表示电动出租车离开起始位置的时间;ti表示电动出租车到地点i的时间;Bn表示二进制变量xij=1的集合。
优选地,步骤S2所述的电池电量约束为:
Figure BDA0002634022170000053
其中,qj,t表示t时刻在地点j的电动出租车的电池容量;Qstart表示电动出租车的初始电量;
Figure BDA0002634022170000054
表示电动出租车在地点i所属充电站的充电总容量;
Figure BDA0002634022170000055
表示电动出租车在地点i所属充电站的放电总容量;
其中,qj,t满足:
Figure BDA0002634022170000056
其中,SOCj,t表示t时刻,地点j的电动出租车的荷电状态,满足:SOCmin≤SOCj,t≤SOCmax,j∈Mn,SOCmin及SOCmax分别表示电动出租车的最小荷电状态及最大荷电状态;地点j与地点j+1之间的电动出租车的荷电状态满足:
SOCj-SOCj+1≥SOCmin
在此,在任何时刻,将电动出租车的电量限制在最小荷电状态与最小荷电状态之间,保证电动出租车不会过度的充电或放电,减少对电动出租车电池的损害,电动出租车在到达下一个地点j+1所属的充电站时,荷电状态保证大于最小荷电状态SOCmin,保证电动出租车不会过度的放电。
优选地,步骤S2所述的充放电约束为:
λ(t)+θ(t)≤1,保证电动出租车在充电站时,不能同时进行充放电。
优选地,步骤S2所述的充放电约束还包括:
Figure BDA0002634022170000061
保证电动出租车在到达目的地前,可进行多次的充放电服务。
优选地,步骤S4所述训练深度强化学习网络模型的过程为:
S41.选定深度强化学习网络模型N,设置深度强化学习网络模型N的状态为st、动作为at、奖励为rt、当前动作值函数为Q(s,a)、训练的最大迭代次数为n、每次迭代中每辆电动出租车自起始位置至目的地需走的路径条数上限为M;
S42.将求解电动出租车充电导航路径规划模型得到的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、充放电时间成本及等待时间成本的最优值及电动出租车的位置yu,t、电动出租车的荷电状态SOCj,t输入深度强化学习网络模型N,初始化深度强化学习网络模型N的参数θ及深度强化学习网络模型N目标网络的参数
Figure BDA0002634022170000062
Figure BDA0002634022170000063
S42.判断训练是否达到最大迭代次数n,若是,输出最优的电动出租车充电导航路径,否则,执行步骤S43;
S43.判断每辆电动出租车每次迭代中最大的路径数是否达到M,若是,返回步骤S42;否则,随机初始化深度强化学习网络模型N的初始状态为s0,电动出租车自起始位置出发;
S44.判断电动出租车是否自起始位置到达目的地,若是,返回执行步骤S43;否则,采用ε-贪婪策略选取动作at并执行,得到奖励rt,进入状态st+1,将状态st、动作at、奖励rt及状态st+1组成的样本Γ存储进深度强化学习网络模型N的经验回放池;
S45.从深度强化学习网络模型N的经验回放池中获得样本ρ,ρ为(st,at,rt,st+1),ρ∈Γ,并计算目标动作值
Figure BDA0002634022170000064
S46.根据目标动作值
Figure BDA0002634022170000071
和当前动作值函数Q(s,a)计算损失函数
Figure BDA0002634022170000072
并通过对损失函数求偏导来获得深度强化学习网络模型N的梯度
Figure BDA0002634022170000073
β为学习率,利用获得的深度强化学习网络模型N的梯度更新深度强化学习网络模型N的参数θ,执行步骤S47;
S47.每辆电动出租车自起始位置至目的地走的路径条数达到H之后,更新深度强化学习网络模型N目标网络的参数
Figure BDA0002634022170000074
Figure BDA0002634022170000075
S48.返回执行步骤S43。
在此,电动出租车u在t时刻的位置yu,t、电动出租车u在t时刻地点j的荷电状态SOCj,t可通过人群感知器(智能手机、平板等)和安装在快速充电站的传感器直接获取,深度强化学习网络模型N的梯度训练法采用现有技术均可实现,计算损失函数
Figure BDA0002634022170000076
后,通过对损失函数求偏导来获得梯度
Figure BDA0002634022170000077
β为学习率,然后通过
Figure BDA0002634022170000078
更新深度强化学习网络模型N的参数θ,深度强化学习网络模型N的训练是一个反复“试错”的过程,首先基于当前的状态st,执行一个动作at,得到相应的奖励rt,并转移到下个状态st+1,把(st,at,rt,st+1)存储到经验回放池Γ中,然后从经验回放池Γ中抽取一小批样本ρ后计算目标动作值
Figure BDA0002634022170000079
这样做的目的是为了打破数据之间的相关性,加速模型最后的收敛速度,再与当前动作值进行比较求出损失函数
Figure BDA00026340221700000710
损失函数表明了要使当前动作值逼近目标动作值,为了减小误差,通过对损失函数求偏导来求得梯度,从而训练深度强化学习网络模型N,使训练好的深度强化学习网络模型N基于一些已知特征,如电动出租车的车辆信息或交通信息等,便可快速规划输出一条最优的充电导航路径,避免当面对众多不同的实际应用场景时,常规优化求解算法求解电动出租车充电路径的方法鲁棒性差的缺陷,经过训练之后的深度强化学习网络模型,可快速为电动出租车规划一条最佳的路径,提高规划效率。
优选地,动作at的表达式为:
深度强化学习网络模型N的状态st
Figure BDA00026340221700000711
其中,
Figure BDA0002634022170000081
分别表示求解电动出租车充电导航路径规划模型得到的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、充放电时间成本及等待时间成本的最优值;
动作at的表达式为:
at=k
其中,k表示充电站的索引;
奖励rt的表达式为:
Figure BDA0002634022170000082
其中,
Figure BDA0002634022170000083
表示电动出租车从地点i到地点j的电池损耗成本;
目标动作值
Figure BDA0002634022170000084
的表达式为:
Figure BDA0002634022170000085
其中,Q(s,a)为当前动作值函数,表达式为:
Figure BDA0002634022170000086
E表示奖励期望,其中s∈st,a∈at,γ为折扣因子。
与现有技术相比,本发明技术方案的有益效果是:
(1)本发明提出一种基于深度强化学习的电动出租车充电导航路径规划方法,以电动出租车在行驶途中的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本之和为目标函数,以路径选择约束、到达时间约束、电池电量约束及充放电约束为约束条件,建立电动出租车充电导航路径规划模型并求解,优化目标函数里考虑了电动出租车在充放电中的电池退化成本,使得电动汽车充电导航路径的规划基础更全面,提高了充电导航路径规划的准确性。
(2)本发明提出的技术方案以求解之后的目标最优值作为深度强化学习网络模型的输入来训练深度强化学习网络模型,使训练好的深度强化学习网络模型可快速规划输出一条最优的充电导航路径,避免当面对众多不同的实际应用场景时,常规优化求解算法求解电动出租车充电路径的方法鲁棒性差的缺陷,进一步巩固提高电动出租车充电路径优化的准确性,且深度强化学习网络模型经过训练之后,不需要再反复训练网络,而是基于电动出租车的一些当前特征,即可直接输出最佳路径,提高充电导航路径的规划效率。
附图说明
图1为本发明实施例中提出的基于深度强化学习的电动出租车充电导航路径规划方法的流程示意图;
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际的尺寸;
对于本领域技术人员来说,附图中某些公知说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示的基于深度强化学习的电动出租车充电导航路径规划方法的流程示意图,包括:
S1.获取电动出租车实时的车辆信息;
S2.以电动出租车在行驶途中的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本之和为目标函数,以路径选择约束、到达时间约束、电池电量约束及充放电约束为约束条件,建立电动出租车充电导航路径规划模型;
S3.求解电动出租车充电导航路径规划模型,得到电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本的最优值;
S4.选定深度强化学习网络模型,将步骤S3求得的最优值、电动出租车实时的车辆信息作为深度强化学习网络模型的输入,训练深度强化学习网络模型,输出最优的电动出租车充电导航路径。
在本实施例中,步骤S1所述的电动出租车实时的车辆信息包括:电动出租车u在t时刻的位置yu,t、电动出租车u在地点j的荷电状态SOCj,t及t时刻到达地点j所属充电站的电动出租车的数量
Figure BDA0002634022170000101
在本实施例中,步骤S2所述的电动出租车充电导航路径规划模型的目标函数f为:
min f=Croad+Cch+Cbattery+πTroad+πTch+πTwait
其中,Croad表示电动出租车在行驶途中的电池损耗成本;Cch表示电动出租车在充电站中的充放电损耗成本;Cbattery表示因电动出租车放电带来的电池退化成本;Troad表示电动出租车在道路行驶过程中所需要的时间;Tch表示电动出租车在充电站充放电的时间;Twait表示电动出租车在充电站等待的时间,π表示电动出租车单位耗时时间的价值成本系数;
电动出租车在行驶途中的电池损耗成本Croad的表达式为:
Figure BDA0002634022170000102
其中,α表示电动出租车行驶单位千米的电池能耗;Ψ(t)表示充放电的电价;dij表示从地点i到地点j的距离;xij是表示二进制变量,xij=1表示电动出租车从地点i行驶至地点j,否则,xij=0;Wn表示允许电动出租车经过的地点集合;Mn表示允许电动出租车经过的充电站集合;
电动出租车在充电站中的充放电损耗成本Cch的表达式为:
Cch=C1-C2
其中,
Figure BDA0002634022170000103
Figure BDA0002634022170000104
其中,C1表示电动出租车在充电站中的充电损耗;C2表示电动出租车在充电站中的放电损耗;Pchar表示电动出租车的充电功率;Pdis表示电动出租车的放电功率;tj表示电动出租车到地点j的时间;Ψ(t)表示充放电的电价;λ(t)、θ(t)均为二进制变量,λ(t)=1时表示电动出租车进行充电过程,否则λ(t)=0,θ(t)=1时表示电动出租车进行放电过程,否则θ(t)=0;Δt表示决策周期内每段时间的时间长度;
电动出租车放电带来的电池退化成本Cbattery的表达式为:
Figure BDA0002634022170000111
其中,CB表示电池的投资成本,LC表示电池在放电深度DDOD下的循环寿命,
Figure BDA0002634022170000112
DDOD∈[0,0.9],Smax为电动出租车电池的最大容量;
电动出租车在道路行驶过程中所需要的行驶时间Troad的表达式为:
Figure BDA0002634022170000113
其中,
Figure BDA0002634022170000114
表示电动出租车在道路行驶过程中的平均速度,表达式为:
Figure BDA0002634022170000115
在此,出于简化的目的,瞬时速度vu,ij,t用平均速度
Figure BDA0002634022170000116
来代替,U表示在时间t时,行驶在路段地点i到地点j的电动出租车用户的总数目;u表示第u个电动出租车用户;vu,ij,t表示电动出租车的瞬时速度,表达式为:
Figure BDA0002634022170000117
函数D(yu,t,yu,t-1)表示电动出租车用户u在采样时间内所行驶的距离,Δtsamp表示采样时间,D(yu,t,yu,t-1)与Δtsamp之比表示电动出租车的瞬时速度;行驶时间成本表示为πTroad,在本实施例中,Δtsamp=5min;
电动出租车在充电站的充放电时间Tch表达式为:
Figure BDA0002634022170000118
其中,
Figure BDA0002634022170000119
表示电动出租车在地点j所属充电站的充放电时间,
Figure BDA00026340221700001110
Figure BDA00026340221700001111
表示电动出租车在地点j所属充电站的充电时间,表达式为:
Figure BDA00026340221700001112
Figure BDA00026340221700001113
表示电动出租车在地点j所属充电站中总的充电电量,ηchar表示充电效率;
Figure BDA00026340221700001114
表示电动出租车在地点j所属充电站的放电时间,表达式为:
Figure BDA00026340221700001115
Figure BDA0002634022170000121
表示在地点j所属充电站中总的放电电量,ηdis表示放电效率;充放电时间成本表示为πTch
电动出租车在充电站的等待时间Twait表达式为:
Figure BDA0002634022170000122
其中,
Figure BDA0002634022170000123
Lq,j,t表示t时刻,电动出租车在地点j所属充电站队列的长度,
Figure BDA0002634022170000124
表示充电率,
Figure BDA0002634022170000125
Figure BDA0002634022170000126
表示t-1时刻到达地点j所属充电站的电动出租车的数量;
Figure BDA0002634022170000127
表示t时刻到达地点j所属充电站的电动出租车的数量,等待时间成本表示为πTwait
在本实施例中,步骤S2所述的路径选择约束为:
Figure BDA0002634022170000128
其中,S表示电动出租车的起始位置,D表示电动出租车的目的地。路径选择约束表示在起始位置S,假设只有一辆电动出租车从此处离开,同时也假设只存在一辆电动出租车到达目的地D,然后假设在其它地点,离开的电动出租车数量和到达此处地点的电动出租车数量是一样的。
到达时间约束为:
Figure BDA0002634022170000129
其中,tstart表示电动出租车离开起始位置的时间;ti表示电动出租车到地点i的时间;Bn表示二进制变量xij=1的集合。
步骤S2所述的电池电量约束为:
Figure BDA00026340221700001210
其中,qj,t表示t时刻在地点j的电动出租车的电池容量;Qstart表示电动出租车的初始电量;
Figure BDA0002634022170000131
表示电动出租车在地点i所属充电站的充电总容量;
Figure BDA0002634022170000132
表示电动出租车在地点i所属充电站的放电总容量;
其中,qj,t满足:
Figure BDA0002634022170000133
其中,SOCj,t表示t时刻,地点j的电动出租车的荷电状态,满足:SOCmin≤SOCj,t≤SOCmax,j∈Mn,SOCmin及SOCmax分别表示电动出租车的最小荷电状态及最大荷电状态;地点j与地点j+1之间的电动出租车的荷电状态满足:
SOCj-SOCj+1≥SOCmin
在此,在任何时刻,将电动出租车的电量限制在最小荷电状态与最小荷电状态之间,保证电动出租车不会过度的充电或放电,减少对电动出租车电池的损害,电动出租车在到达下一个地点j+1所属的充电站时,荷电状态保证大于最小荷电状态SOCmin,保证电动出租车不会过度的放电。
充放电约束为:
λ(t)+θ(t)≤1,保证电动出租车在充电站时,不能同时进行充放电。
充放电约束还包括:
Figure BDA0002634022170000134
保证电动出租车在到达目的地前,可进行多次的充放电服务。
在本实施例中,步骤S4所述训练深度强化学习网络模型的过程为:
S41.选定深度强化学习网络模型N,设置深度强化学习网络模型N的状态为st、动作为at、奖励为rt、当前动作值函数为Q(s,a)、训练的最大迭代次数为n、每次迭代中每辆电动出租车自起始位置至目的地需走的路径条数上限为M;
S42.将求解电动出租车充电导航路径规划模型得到的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、充放电时间成本及等待时间成本的最优值及电动出租车的位置yu,t、电动出租车的荷电状态SOCj,t输入深度强化学习网络模型N,初始化深度强化学习网络模型N的参数θ及深度强化学习网络模型N目标网络的参数
Figure BDA0002634022170000135
Figure BDA0002634022170000136
S42.判断训练是否达到最大迭代次数n,若是,输出最优的电动出租车充电导航路径,否则,执行步骤S43;
S43.判断每辆电动出租车每次迭代中最大的路径数是否达到M,若是,返回步骤S42;否则,随机初始化深度强化学习网络模型N的初始状态为s0,电动出租车自起始位置出发;
S44.判断电动出租车是否自起始位置到达目的地,若是,返回执行步骤S43;否则,采用ε-贪婪策略选取动作at并执行,得到奖励rt,进入状态st+1,将状态st、动作at、奖励rt及状态st+1组成的样本Γ存储进深度强化学习网络模型N的经验回放池;
S45.从深度强化学习网络模型N的经验回放池中获得样本ρ,ρ为(st,at,rt,st+1),ρ∈Γ,并计算目标动作值
Figure BDA0002634022170000141
S46.根据日标动作值
Figure BDA0002634022170000142
和当前动作值函数Q(s,a)计算损失函数
Figure BDA0002634022170000143
并通过对损失函数求偏导来获得深度强化学习网络模型N的梯度
Figure BDA0002634022170000144
β为学习率,利用获得的深度强化学习网络模型N的梯度更新深度强化学习网络模型N的参数θ,执行步骤S47;
S47.每辆电动出租车自起始位置至目的地走的路径条数达到H之后,更新深度强化学习网络模型N目标网络的参数
Figure BDA0002634022170000145
Figure BDA0002634022170000146
S48.返回执行步骤S43。
深度强化学习网络模型N的状态st
Figure BDA0002634022170000147
其中,
Figure BDA0002634022170000148
分别表示求解电动出租车充电导航路径规划模型得到的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、充放电时间成本及等待时间成本的最优值;
动作at的表达式为:
at=k
其中,k表示充电站的索引;
奖励rt的表达式为:
Figure BDA0002634022170000151
其中,
Figure BDA0002634022170000152
表示电动出租车从地点i到地点j的电池损耗成本;
目标动作值
Figure BDA0002634022170000153
的表达式为:
Figure BDA0002634022170000154
其中,Q(s,a)为当前动作值函数,表达式为:
Figure BDA0002634022170000155
E表示奖励期望,其中s∈st,a∈at,γ为折扣因子。
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.一种基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,至少包括:
S1.获取电动出租车实时的车辆信息;
步骤S1所述的电动出租车实时的车辆信息包括:电动出租车u在t时刻的位置yu,t、电动出租车u在地点j的荷电状态SOCj,t及t时刻到达地点j所属充电站的电动出租车的数量
Figure FDA0003578555650000011
S2.以电动出租车在行驶途中的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本之和为目标函数,以路径选择约束、到达时间约束、电池电量约束及充放电约束为约束条件,建立电动出租车充电导航路径规划模型;
步骤S2所述的电动出租车充电导航路径规划模型的目标函数f为:
min f=Croad+Cch+Cbattery+πTroad+πTch+πTwait
其中,Croad表示电动出租车在行驶途中的电池损耗成本;Cch表示电动出租车在充电站中的充放电损耗成本;Cbattery表示因电动出租车放电带来的电池退化成本;Troad表示电动出租车在道路行驶过程中所需要的时间;Tch表示电动出租车在充电站充放电的时间;Twait表示电动出租车在充电站等待的时间,π表示电动出租车单位耗时时间的价值成本系数;
电动出租车在行驶途中的电池损耗成本Croad的表达式为:
Figure FDA0003578555650000012
其中,α表示电动出租车行驶单位千米的电池能耗;Ψ(t)表示充放电的电价;dij表示从地点i到地点j的距离;xij是表示二进制变量,xij=1表示电动出租车从地点i行驶至地点j,否则,xij=0;Wn表示允许电动出租车经过的地点集合;Mn表示允许电动出租车经过的充电站集合;
电动出租车在充电站中的充放电损耗成本Cch的表达式为:
Cch=C1-C2
其中,
Figure FDA0003578555650000021
Figure FDA0003578555650000022
其中,C1表示电动出租车在充电站中的充电损耗;C2表示电动出租车在充电站中的放电损耗;Pchar表示电动出租车的充电功率;Pdis表示电动出租车的放电功率;tj表示电动出租车到地点j的时间;λ(t)、θ(t)均为二进制变量,λ(t)=1时表示电动出租车进行充电过程,否则λ(t)=0,θ(t)=1时表示电动出租车进行放电过程,否则θ(t)=0;Δt表示决策周期内每段时间的时间长度;
电动出租车放电带来的电池退化成本Cbattery的表达式为:
Figure FDA0003578555650000023
其中,CB表示电池的投资成本,LC表示电池在放电深度DDOD下的循环寿命,
Figure FDA0003578555650000024
DDOD∈[0,0.9],Smax为电动出租车电池的最大容量;
电动出租车在道路行驶过程中所需要的行驶时间Troad的表达式为:
Figure FDA0003578555650000025
其中,
Figure FDA0003578555650000026
表示电动出租车在道路行驶过程中的平均速度,表达式为:
Figure FDA0003578555650000027
U表示在时间t时,行驶在路段地点i到地点j的电动出租车用户的总数目;u表示第u个电动出租车用户;uu,ij,t表示电动出租车的瞬时速度,表达式为:
Figure FDA0003578555650000028
函数D(yu,t,yu,t-1)表示电动出租车用户u在采样时间内所行驶的距离,Δtsamp表示采样时间,D(yu,t,yu,t-1)与Δtsamp之比表示电动出租车的瞬时速度;行驶时间成本表示为πTroad
电动出租车在充电站的充放电时间Tch表达式为:
Figure FDA0003578555650000029
其中,
Figure FDA0003578555650000031
表示电动出租车在地点j所属充电站的充放电时间,
Figure FDA0003578555650000032
Figure FDA0003578555650000033
表示电动出租车在地点j所属充电站的充电时间,表达式为:
Figure FDA0003578555650000034
Figure FDA0003578555650000035
表示电动出租车在地点j所属充电站中总的充电电量,ηchar表示充电效率;
Figure FDA0003578555650000036
表示电动出租车在地点j所属充电站的放电时间,表达式为:
Figure FDA0003578555650000037
Figure FDA0003578555650000038
表示在地点j所属充电站中总的放电电量,ηdis表示放电效率;充放电时间成本表示为πTch
电动出租车在充电站的等待时间Twait表达式为:
Figure FDA0003578555650000039
其中,
Figure FDA00035785556500000310
Lq,j,t表示t时刻电动出租车在地点j所属充电站队列的长度,
Figure FDA00035785556500000311
表示充电率,
Figure FDA00035785556500000312
Figure FDA00035785556500000313
表示t-1时刻到达地点j所属充电站的电动出租车的数量;
Figure FDA00035785556500000314
表示t时刻到达地点j所属充电站的电动出租车的数量,等待时间成本表示为πTwait
S3.求解电动出租车充电导航路径规划模型,得到电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本的最优值;
S4.选定深度强化学习网络模型,将步骤S3求得的最优值、电动出租车实时的车辆信息作为深度强化学习网络模型的输入,训练深度强化学习网络模型,输出最优的电动出租车充电导航路径。
2.根据权利要求1所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S2所述的路径选择约束为:
Figure FDA0003578555650000041
其中,S表示电动出租车的起始位置,D表示电动出租车的目的地。
3.根据权利要求2所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S2所述的到达时间约束为:
Figure FDA0003578555650000042
其中,tstart表示电动出租车离开起始位置的时间;ti表示电动出租车到地点i的时间;Bn表示二进制变量xij=1的集合。
4.根据权利要求3所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S2所述的电池电量约束为:
Figure FDA0003578555650000043
其中,qj,t表示t时刻在地点j的电动出租车的电池容量;Qstart表示电动出租车的初始电量;
Figure FDA0003578555650000044
表示电动出租车在地点i所属充电站的充电总容量;
Figure FDA0003578555650000045
表示电动出租车在地点i所属充电站的放电总容量;
其中,qj,t满足:
Figure FDA0003578555650000046
其中,SOCj,t表示t时刻,地点j的电动出租车的荷电状态,满足:SOCmin≤SOCj,t≤SOCmax,j∈Mn,SOCmin及SOCmax分别表示电动出租车的最小荷电状态及最大荷电状态;地点j与地点j+1之间的电动出租车的荷电状态满足:
SOCj-SOCj+1≥SOCmin
5.根据权利要求4所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S2所述的充放电约束为:
λ(t)+θ(t)≤1。
6.根据权利要求5所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S2所述的充放电约束还包括:
Figure FDA0003578555650000051
7.根据权利要求6所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S4所述训练深度强化学习网络模型的过程为:
S41.选定深度强化学习网络模型N,设置深度强化学习网络模型N的状态为st、动作为at、奖励为rt、当前动作值函数为Q(s,a)、训练的最大迭代次数为n、每次迭代中每辆电动出租车自起始位置至目的地需走的路径条数上限为M;
S42.将求解电动出租车充电导航路径规划模型得到的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、充放电时间成本及等待时间成本的最优值及电动出租车的位置yu,t、电动出租车的荷电状态SOCj,t输入深度强化学习网络模型N,初始化深度强化学习网络模型N的参数θ及深度强化学习网络模型N目标网络的参数
Figure FDA0003578555650000052
Figure FDA0003578555650000053
S42.判断训练是否达到最大迭代次数n,若是,输出最优的电动出租车充电导航路径,否则,执行步骤S43;
S43.判断每辆电动出租车每次迭代中最大的路径数是否达到M,若是,返回步骤S42;否则,随机初始化深度强化学习网络模型N的初始状态为s0,电动出租车自起始位置出发;
S44.判断电动出租车是否自起始位置到达目的地,若是,返回执行步骤S43;否则,采用ε-贪婪策略选取动作at并执行,得到奖励rt,进入状态st+1,将状态st、动作at、奖励rt及状态st+1组成的样本Γ存储进深度强化学习网络模型N的经验回放池;
S45.从深度强化学习网络模型N的经验回放池中获得样本ρ,ρ为(st,at,rt,st+1),ρ∈Γ,并计算目标动作值
Figure FDA0003578555650000054
S46.根据目标动作值
Figure FDA0003578555650000055
和当前动作值函数Q(s,a)计算损失函数
Figure FDA0003578555650000056
并通过对损失函数求偏导来获得深度强化学习网络模型N的梯度
Figure FDA0003578555650000057
β为学习率,利用获得的深度强化学习网络模型N的梯度更新深度强化学习网络模型N的参数θ,执行步骤S47;
S47.每辆电动出租车自起始位置至目的地走的路径条数达到H之后,更新深度强化学习网络模型N目标网络的参数
Figure FDA0003578555650000061
Figure FDA0003578555650000062
S48.返回执行步骤S43。
8.根据权利要求7所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,
深度强化学习网络模型N的状态st
Figure FDA0003578555650000063
其中,
Figure FDA0003578555650000064
分别表示求解电动出租车充电导航路径规划模型得到的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、充放电时间成本及等待时间成本的最优值;
动作at的表达式为:
at=k
其中,k表示充电站的索引;
奖励rt的表达式为:
Figure FDA0003578555650000065
其中,
Figure FDA0003578555650000066
表示电动出租车从地点i到地点j的电池损耗成本;
目标动作值
Figure FDA0003578555650000067
的表达式为:
Figure FDA0003578555650000068
其中,Q(s,a)为当前动作值函数,表达式为:
Figure FDA0003578555650000069
E表示奖励期望,其中s∈st,a∈at,γ为折扣因子。
CN202010823292.4A 2020-08-14 2020-08-14 基于深度强化学习的电动出租车充电导航路径规划方法 Active CN112097783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010823292.4A CN112097783B (zh) 2020-08-14 2020-08-14 基于深度强化学习的电动出租车充电导航路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010823292.4A CN112097783B (zh) 2020-08-14 2020-08-14 基于深度强化学习的电动出租车充电导航路径规划方法

Publications (2)

Publication Number Publication Date
CN112097783A CN112097783A (zh) 2020-12-18
CN112097783B true CN112097783B (zh) 2022-05-20

Family

ID=73753891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010823292.4A Active CN112097783B (zh) 2020-08-14 2020-08-14 基于深度强化学习的电动出租车充电导航路径规划方法

Country Status (1)

Country Link
CN (1) CN112097783B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989553B (zh) * 2020-12-28 2022-10-18 郑州大学 基于电池容量损失控制的CEBs速度规划模型的构建与应用
CN112784481B (zh) * 2021-01-15 2023-04-07 中国人民解放军国防科技大学 一种用于中继充电路径规划的深度强化学习方法及系统
CN114459498A (zh) * 2022-03-14 2022-05-10 南京理工大学 基于强化学习的新能源车充电站选择及自适应导航方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107492901A (zh) * 2017-08-29 2017-12-19 广东电网有限责任公司电力科学研究院 一种分布式储能系统实时优化方法及装置
CN108177648A (zh) * 2018-01-02 2018-06-19 北京理工大学 一种基于智能预测的插电式混合动力车辆的能量管理方法
CN110414750A (zh) * 2019-08-28 2019-11-05 哈尔滨工程大学 一种基于深度增强学习的电动汽车实时充电站选择方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN111404168A (zh) * 2019-12-09 2020-07-10 重庆邮电大学 基于柔性空调负荷的平抑变电站过载的调度系统及其方法
CN111523930A (zh) * 2020-04-17 2020-08-11 国网上海市电力公司 城市电动出租车充电站选址和服务范围划分的规划方法
CN111523722A (zh) * 2020-04-20 2020-08-11 武汉大学 一种基于深度强化学习的智能充电站优化选择系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9090255B2 (en) * 2012-07-12 2015-07-28 Honda Motor Co., Ltd. Hybrid vehicle fuel efficiency using inverse reinforcement learning
US10958082B2 (en) * 2018-04-25 2021-03-23 Microsoft Technology Licensing, Llc Intelligent battery cycling for lifetime longevity

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107492901A (zh) * 2017-08-29 2017-12-19 广东电网有限责任公司电力科学研究院 一种分布式储能系统实时优化方法及装置
CN108177648A (zh) * 2018-01-02 2018-06-19 北京理工大学 一种基于智能预测的插电式混合动力车辆的能量管理方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110414750A (zh) * 2019-08-28 2019-11-05 哈尔滨工程大学 一种基于深度增强学习的电动汽车实时充电站选择方法
CN111404168A (zh) * 2019-12-09 2020-07-10 重庆邮电大学 基于柔性空调负荷的平抑变电站过载的调度系统及其方法
CN111523930A (zh) * 2020-04-17 2020-08-11 国网上海市电力公司 城市电动出租车充电站选址和服务范围划分的规划方法
CN111523722A (zh) * 2020-04-20 2020-08-11 武汉大学 一种基于深度强化学习的智能充电站优化选择系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Joint Optimization of Delay-Tolerant Autonomous Electric Vehicles Charge Scheduling and Station Battery Degradation;Yongsheng Cao等;《IEEE Internet of Things Journal》;20200506;第07卷(第09期);第8590-8599页 *
混合纯电动汽车与传统汽油车的网络交通流演化;李嫚嫚 等;《东南大学学报(英文版)》;20190630;第35卷(第02期);第213-219页 *

Also Published As

Publication number Publication date
CN112097783A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112097783B (zh) 基于深度强化学习的电动出租车充电导航路径规划方法
CN108162771B (zh) 一种电动汽车智能充电导航方法
CN110775065B (zh) 一种基于工况识别的混合动力汽车电池寿命预测方法
CN105489002B (zh) 一种基于智能匹配和路径优化的拼车方法及系统
CN110667434A (zh) 一种自适应工况的纯电动汽车行驶里程估计方法及系统
CN105051800B (zh) 充电管理装置
CN111311122B (zh) 面向智慧城市的充电站建设方法
CN110458456B (zh) 基于人工智能的需求响应式公交系统的调度方法及系统
CN103745110B (zh) 纯电动公交车营运续驶里程估算方法
CN107274665A (zh) 巴士运力资源规划方法及系统
CN107346460A (zh) 基于智能网联系统下前车运行信息的未来工况预测方法
Kim et al. Idle vehicle relocation strategy through deep learning for shared autonomous electric vehicle system optimization
CN110189025B (zh) 考虑不同负荷增长的电动汽车充电站规划方案获取方法
CN112507506B (zh) 基于遗传算法的共享汽车定价规划模型的多目标优化方法
CN112116125A (zh) 一种基于深度强化学习的电动汽车充电导航方法
CN116700296A (zh) 基于深度学习的自主充电无人电动车智能规划方法及系统
CN115456180A (zh) 一种基于三链马尔科夫模型的电动汽车数量预测方法
Chen et al. Online eco-routing for electric vehicles using combinatorial multi-armed bandit with estimated covariance
Jin et al. Energy-optimal speed control for connected electric buses considering passenger load
CN113390430B (zh) 面向多经停点出行的电动汽车动态路径规划及充电方法
CN109740825A (zh) 一种考虑交通拥堵因素下的电动汽车充放电方法
CN109919393A (zh) 一种电动出租汽车的充电负荷预测方法
CN110929950B (zh) 一种电动汽车负荷预测方法及系统
CN115663867A (zh) 基于智能充电网络系统的电动汽车充电调度方法
CN115713206A (zh) 一种公交个体出行决策模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant