CN112097783B - 基于深度强化学习的电动出租车充电导航路径规划方法 - Google Patents
基于深度强化学习的电动出租车充电导航路径规划方法 Download PDFInfo
- Publication number
- CN112097783B CN112097783B CN202010823292.4A CN202010823292A CN112097783B CN 112097783 B CN112097783 B CN 112097783B CN 202010823292 A CN202010823292 A CN 202010823292A CN 112097783 B CN112097783 B CN 112097783B
- Authority
- CN
- China
- Prior art keywords
- electric taxi
- charging
- electric
- cost
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/3453—Special cost functions, i.e. other than distance or default speed limit of road segments
- G01C21/3469—Fuel consumption; Energy use; Emission aspects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Electric Propulsion And Braking For Vehicles (AREA)
- Charge And Discharge Circuits For Batteries Or The Like (AREA)
- Navigation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种基于深度强化学习的电动出租车充电导航路径规划方法,解决了现有电动出租车充电导航路径的规划方法鲁棒性低,规划基础不全面的问题,以电动出租车在行驶途中的电池损耗、充放电损耗、电池退化、行驶时间、等待时间及充放电时间之和为目标函数,以路径选择、到达时间、电池电量及充放电为约束条件,建立模型并求解,电动汽车充电导航路径的规划基础更全面,以求解之后的目标最优值作为深度强化学习网络模型的输入来训练深度强化学习网络模型,使训练好的深度强化学习网络模型可快速规划输出最优的充电导航路径,避免当面对众多不同的实际应用场景时,常规优化求解算法求解电动出租车充电路径的方法鲁棒性差的缺陷。
Description
技术领域
本发明涉及电动出租车充电导航路径规划的技术领域,更具体地,涉及一种基于深度强化学习的电动出租车充电导航路径规划方法。
背景技术
随着电动汽车的普及率越来越高,大量电动汽车在同一个时刻充电会对当地电网承载负荷的能力带来冲击,所以,需要设计优化充电导航策略以诱导电动汽车,特别是电动出租车合理选择充电站,并在合适的时间进行充电,可以减小电网负荷的峰谷差,提高电网的稳定性以及电能的利用率,同时也能节省电动出租车用户的充电成本。
目前,大部分充电导航策略通常假设电动出租车在快速充电站中充满电之后才离开,但是从现实场景出发,在电动出租车的运营场景下,若让电动出租车在快速充电站中充满电之后才离开,势必会增加电动出租车的充电时间损耗和充电损耗(相对于慢充,在快速充电站进行快充的成本花费会更高),2018年12月7日,广东工业大学在中国专利中公开了一种应用于电动汽车智能充放电的导航方法(公开号:CN108955711A),该专利的技术方案考虑快速充电站下大量的快充负荷对电网的冲击影响以及行驶过程中电动汽车的电量,以综合成本最优为目标进行电动汽车最优充放电路径的规划,一方面使用户在整个行程中经济利益最大化的同时节省用户的行程时间,另一方面减少充电负荷,从而减少快速充电对电网的影响,但该充电导航策略并没有考虑电动出租车在充放电中的电池退化成本,而电池经常进行充放电,势必会降低电池的使用寿命,所以电池的退化成本也是电动出租车用户无形中需要承担的成本,在电池退化成本未被考虑时,电动汽车充电导航路径的规划基础不全面,得到的充电导航路径准确性低。此外,现有电动出租车的充电导航路径通常是利用常规优化求解算法求解充电导航路径规划模型之后一次性确定充电路径,当面对众多不同的实际应用场景时,常规优化求解算法求解电动出租车充电路径的方法鲁棒性差。
发明内容
为解决现有电动出租车充电导航路径的规划方法鲁棒性低,而且规划基础不全面的问题,本发明提出一种基于深度强化学习的电动出租车充电导航路径规划方法,从电动出租车用户的角度出发,最大程度减少电动出租车在行驶过程中的综合成本,鲁棒性高。
为了达到上述技术效果,本发明的技术方案如下:
本发明提出一种基于深度强化学习的电动出租车充电导航路径规划方法,至少包括:
S1.获取电动出租车实时的车辆信息;
S2.以电动出租车在行驶途中的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本之和为目标函数,以路径选择约束、到达时间约束、电池电量约束及充放电约束为约束条件,建立电动出租车充电导航路径规划模型;
S3.求解电动出租车充电导航路径规划模型,得到电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本的最优值;
S4.选定深度强化学习网络模型,将步骤S3求得的最优值、电动出租车实时的车辆信息作为深度强化学习网络模型的输入,训练深度强化学习网络模型,输出最优的电动出租车充电导航路径。
在此,电动出租车充电导航路径规划模型为混合整数线性规划模型(MILP),可通过遗传算法、粒子群算法等智能优化算法求解,也可通过Cplex、Yamip等数学优化求解器求解。
优选地,步骤S2所述的电动出租车充电导航路径规划模型的目标函数f为:
min f=Croad+Cch+Cbattery+πTroad+πTch+πTwait
其中,Croad表示电动出租车在行驶途中的电池损耗成本;Cch表示电动出租车在充电站中的充放电损耗成本;Cbattery表示因电动出租车放电带来的电池退化成本;Troad表示电动出租车在道路行驶过程中所需要的时间;Tch表示电动出租车在充电站充放电的时间;Twait表示电动出租车在充电站等待的时间,π表示电动出租车单位耗时时间的价值成本系数;
电动出租车在行驶途中的电池损耗成本Croad的表达式为:
其中,α表示电动出租车行驶单位千米的电池能耗;Ψ(t)表示充放电的电价;dij表示从地点i到地点j的距离;xij是表示二进制变量,xij=1表示电动出租车从地点i行驶至地点j,否则,xij=0;Wn表示允许电动出租车经过的地点集合;Mn表示允许电动出租车经过的充电站集合;
电动出租车在充电站中的充放电损耗成本Cch的表达式为:
Cch=C1-C2
其中,
其中,C1表示电动出租车在充电站中的充电损耗;C2表示电动出租车在充电站中的放电损耗;Pchar表示电动出租车的充电功率;Pdis表示电动出租车的放电功率;tj表示电动出租车到地点j的时间;Ψ(t)表示充放电的电价;λ(t)、θ(t)均为二进制变量,λ(t)=1时表示电动出租车进行充电过程,否则λ(t)=0,θ(t)=1时表示电动出租车进行放电过程,否则θ(t)=0;Δt表示决策周期内每段时间的时间长度;
电动出租车放电带来的电池退化成本Cbattery的表达式为:
电动出租车在道路行驶过程中所需要的行驶时间Troad的表达式为:
其中,表示电动出租车在道路行驶过程中的平均速度,表达式为:U表示在时间t时,行驶在路段地点i到地点j的电动出租车用户的总数目;u表示第u个电动出租车用户;vu,ij,t表示电动出租车的瞬时速度,表达式为:函数D(yu,t,yu,t-1)表示电动出租车用户u在采样时间内所行驶的距离,Δtsamp表示采样时间,D(yu,t,yu,t-1)与Δtsamp之比表示电动出租车的瞬时速度;行驶时间成本表示为πTroad;
电动出租车在充电站的充放电时间Tch表达式为:
电动出租车在充电站的等待时间Twait表达式为:
其中,Lq,j,t表示t时刻电动出租车在地点j所属充电站队列的长度,表示充电率, 表示t-1时刻到达地点j所属充电站的电动出租车的数量;表示t时刻到达地点j所属充电站的电动出租车的数量,等待时间成本表示为πTwait。
在此,目标函数中考虑了电动出租车在充放电中的电池退化成本,电动汽车充电导航路径的规划基础更全面,提高了充电导航路径规划的准确性。
优选地,步骤S2所述的路径选择约束为:
其中,S表示电动出租车的起始位置,D表示电动出租车的目的地。
优选地,步骤S2所述的到达时间约束为:
其中,tstart表示电动出租车离开起始位置的时间;ti表示电动出租车到地点i的时间;Bn表示二进制变量xij=1的集合。
优选地,步骤S2所述的电池电量约束为:
其中,qj,t满足:
其中,SOCj,t表示t时刻,地点j的电动出租车的荷电状态,满足:SOCmin≤SOCj,t≤SOCmax,j∈Mn,SOCmin及SOCmax分别表示电动出租车的最小荷电状态及最大荷电状态;地点j与地点j+1之间的电动出租车的荷电状态满足:
SOCj-SOCj+1≥SOCmin。
在此,在任何时刻,将电动出租车的电量限制在最小荷电状态与最小荷电状态之间,保证电动出租车不会过度的充电或放电,减少对电动出租车电池的损害,电动出租车在到达下一个地点j+1所属的充电站时,荷电状态保证大于最小荷电状态SOCmin,保证电动出租车不会过度的放电。
优选地,步骤S2所述的充放电约束为:
λ(t)+θ(t)≤1,保证电动出租车在充电站时,不能同时进行充放电。
优选地,步骤S2所述的充放电约束还包括:
优选地,步骤S4所述训练深度强化学习网络模型的过程为:
S41.选定深度强化学习网络模型N,设置深度强化学习网络模型N的状态为st、动作为at、奖励为rt、当前动作值函数为Q(s,a)、训练的最大迭代次数为n、每次迭代中每辆电动出租车自起始位置至目的地需走的路径条数上限为M;
S42.将求解电动出租车充电导航路径规划模型得到的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、充放电时间成本及等待时间成本的最优值及电动出租车的位置yu,t、电动出租车的荷电状态SOCj,t输入深度强化学习网络模型N,初始化深度强化学习网络模型N的参数θ及深度强化学习网络模型N目标网络的参数令
S42.判断训练是否达到最大迭代次数n,若是,输出最优的电动出租车充电导航路径,否则,执行步骤S43;
S43.判断每辆电动出租车每次迭代中最大的路径数是否达到M,若是,返回步骤S42;否则,随机初始化深度强化学习网络模型N的初始状态为s0,电动出租车自起始位置出发;
S44.判断电动出租车是否自起始位置到达目的地,若是,返回执行步骤S43;否则,采用ε-贪婪策略选取动作at并执行,得到奖励rt,进入状态st+1,将状态st、动作at、奖励rt及状态st+1组成的样本Γ存储进深度强化学习网络模型N的经验回放池;
S46.根据目标动作值和当前动作值函数Q(s,a)计算损失函数并通过对损失函数求偏导来获得深度强化学习网络模型N的梯度β为学习率,利用获得的深度强化学习网络模型N的梯度更新深度强化学习网络模型N的参数θ,执行步骤S47;
S48.返回执行步骤S43。
在此,电动出租车u在t时刻的位置yu,t、电动出租车u在t时刻地点j的荷电状态SOCj,t可通过人群感知器(智能手机、平板等)和安装在快速充电站的传感器直接获取,深度强化学习网络模型N的梯度训练法采用现有技术均可实现,计算损失函数后,通过对损失函数求偏导来获得梯度β为学习率,然后通过更新深度强化学习网络模型N的参数θ,深度强化学习网络模型N的训练是一个反复“试错”的过程,首先基于当前的状态st,执行一个动作at,得到相应的奖励rt,并转移到下个状态st+1,把(st,at,rt,st+1)存储到经验回放池Γ中,然后从经验回放池Γ中抽取一小批样本ρ后计算目标动作值这样做的目的是为了打破数据之间的相关性,加速模型最后的收敛速度,再与当前动作值进行比较求出损失函数损失函数表明了要使当前动作值逼近目标动作值,为了减小误差,通过对损失函数求偏导来求得梯度,从而训练深度强化学习网络模型N,使训练好的深度强化学习网络模型N基于一些已知特征,如电动出租车的车辆信息或交通信息等,便可快速规划输出一条最优的充电导航路径,避免当面对众多不同的实际应用场景时,常规优化求解算法求解电动出租车充电路径的方法鲁棒性差的缺陷,经过训练之后的深度强化学习网络模型,可快速为电动出租车规划一条最佳的路径,提高规划效率。
优选地,动作at的表达式为:
深度强化学习网络模型N的状态st为
动作at的表达式为:
at=k
其中,k表示充电站的索引;
奖励rt的表达式为:
其中,Q(s,a)为当前动作值函数,表达式为:
与现有技术相比,本发明技术方案的有益效果是:
(1)本发明提出一种基于深度强化学习的电动出租车充电导航路径规划方法,以电动出租车在行驶途中的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本之和为目标函数,以路径选择约束、到达时间约束、电池电量约束及充放电约束为约束条件,建立电动出租车充电导航路径规划模型并求解,优化目标函数里考虑了电动出租车在充放电中的电池退化成本,使得电动汽车充电导航路径的规划基础更全面,提高了充电导航路径规划的准确性。
(2)本发明提出的技术方案以求解之后的目标最优值作为深度强化学习网络模型的输入来训练深度强化学习网络模型,使训练好的深度强化学习网络模型可快速规划输出一条最优的充电导航路径,避免当面对众多不同的实际应用场景时,常规优化求解算法求解电动出租车充电路径的方法鲁棒性差的缺陷,进一步巩固提高电动出租车充电路径优化的准确性,且深度强化学习网络模型经过训练之后,不需要再反复训练网络,而是基于电动出租车的一些当前特征,即可直接输出最佳路径,提高充电导航路径的规划效率。
附图说明
图1为本发明实施例中提出的基于深度强化学习的电动出租车充电导航路径规划方法的流程示意图;
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际的尺寸;
对于本领域技术人员来说,附图中某些公知说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示的基于深度强化学习的电动出租车充电导航路径规划方法的流程示意图,包括:
S1.获取电动出租车实时的车辆信息;
S2.以电动出租车在行驶途中的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本之和为目标函数,以路径选择约束、到达时间约束、电池电量约束及充放电约束为约束条件,建立电动出租车充电导航路径规划模型;
S3.求解电动出租车充电导航路径规划模型,得到电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本的最优值;
S4.选定深度强化学习网络模型,将步骤S3求得的最优值、电动出租车实时的车辆信息作为深度强化学习网络模型的输入,训练深度强化学习网络模型,输出最优的电动出租车充电导航路径。
在本实施例中,步骤S2所述的电动出租车充电导航路径规划模型的目标函数f为:
min f=Croad+Cch+Cbattery+πTroad+πTch+πTwait
其中,Croad表示电动出租车在行驶途中的电池损耗成本;Cch表示电动出租车在充电站中的充放电损耗成本;Cbattery表示因电动出租车放电带来的电池退化成本;Troad表示电动出租车在道路行驶过程中所需要的时间;Tch表示电动出租车在充电站充放电的时间;Twait表示电动出租车在充电站等待的时间,π表示电动出租车单位耗时时间的价值成本系数;
电动出租车在行驶途中的电池损耗成本Croad的表达式为:
其中,α表示电动出租车行驶单位千米的电池能耗;Ψ(t)表示充放电的电价;dij表示从地点i到地点j的距离;xij是表示二进制变量,xij=1表示电动出租车从地点i行驶至地点j,否则,xij=0;Wn表示允许电动出租车经过的地点集合;Mn表示允许电动出租车经过的充电站集合;
电动出租车在充电站中的充放电损耗成本Cch的表达式为:
Cch=C1-C2
其中,
其中,C1表示电动出租车在充电站中的充电损耗;C2表示电动出租车在充电站中的放电损耗;Pchar表示电动出租车的充电功率;Pdis表示电动出租车的放电功率;tj表示电动出租车到地点j的时间;Ψ(t)表示充放电的电价;λ(t)、θ(t)均为二进制变量,λ(t)=1时表示电动出租车进行充电过程,否则λ(t)=0,θ(t)=1时表示电动出租车进行放电过程,否则θ(t)=0;Δt表示决策周期内每段时间的时间长度;
电动出租车放电带来的电池退化成本Cbattery的表达式为:
电动出租车在道路行驶过程中所需要的行驶时间Troad的表达式为:
其中,表示电动出租车在道路行驶过程中的平均速度,表达式为:在此,出于简化的目的,瞬时速度vu,ij,t用平均速度来代替,U表示在时间t时,行驶在路段地点i到地点j的电动出租车用户的总数目;u表示第u个电动出租车用户;vu,ij,t表示电动出租车的瞬时速度,表达式为:函数D(yu,t,yu,t-1)表示电动出租车用户u在采样时间内所行驶的距离,Δtsamp表示采样时间,D(yu,t,yu,t-1)与Δtsamp之比表示电动出租车的瞬时速度;行驶时间成本表示为πTroad,在本实施例中,Δtsamp=5min;
电动出租车在充电站的充放电时间Tch表达式为:
电动出租车在充电站的等待时间Twait表达式为:
其中,Lq,j,t表示t时刻,电动出租车在地点j所属充电站队列的长度,表示充电率, 表示t-1时刻到达地点j所属充电站的电动出租车的数量;表示t时刻到达地点j所属充电站的电动出租车的数量,等待时间成本表示为πTwait。
在本实施例中,步骤S2所述的路径选择约束为:
其中,S表示电动出租车的起始位置,D表示电动出租车的目的地。路径选择约束表示在起始位置S,假设只有一辆电动出租车从此处离开,同时也假设只存在一辆电动出租车到达目的地D,然后假设在其它地点,离开的电动出租车数量和到达此处地点的电动出租车数量是一样的。
到达时间约束为:
其中,tstart表示电动出租车离开起始位置的时间;ti表示电动出租车到地点i的时间;Bn表示二进制变量xij=1的集合。
步骤S2所述的电池电量约束为:
其中,qj,t满足:
其中,SOCj,t表示t时刻,地点j的电动出租车的荷电状态,满足:SOCmin≤SOCj,t≤SOCmax,j∈Mn,SOCmin及SOCmax分别表示电动出租车的最小荷电状态及最大荷电状态;地点j与地点j+1之间的电动出租车的荷电状态满足:
SOCj-SOCj+1≥SOCmin。
在此,在任何时刻,将电动出租车的电量限制在最小荷电状态与最小荷电状态之间,保证电动出租车不会过度的充电或放电,减少对电动出租车电池的损害,电动出租车在到达下一个地点j+1所属的充电站时,荷电状态保证大于最小荷电状态SOCmin,保证电动出租车不会过度的放电。
充放电约束为:
λ(t)+θ(t)≤1,保证电动出租车在充电站时,不能同时进行充放电。
充放电约束还包括:
在本实施例中,步骤S4所述训练深度强化学习网络模型的过程为:
S41.选定深度强化学习网络模型N,设置深度强化学习网络模型N的状态为st、动作为at、奖励为rt、当前动作值函数为Q(s,a)、训练的最大迭代次数为n、每次迭代中每辆电动出租车自起始位置至目的地需走的路径条数上限为M;
S42.将求解电动出租车充电导航路径规划模型得到的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、充放电时间成本及等待时间成本的最优值及电动出租车的位置yu,t、电动出租车的荷电状态SOCj,t输入深度强化学习网络模型N,初始化深度强化学习网络模型N的参数θ及深度强化学习网络模型N目标网络的参数令
S42.判断训练是否达到最大迭代次数n,若是,输出最优的电动出租车充电导航路径,否则,执行步骤S43;
S43.判断每辆电动出租车每次迭代中最大的路径数是否达到M,若是,返回步骤S42;否则,随机初始化深度强化学习网络模型N的初始状态为s0,电动出租车自起始位置出发;
S44.判断电动出租车是否自起始位置到达目的地,若是,返回执行步骤S43;否则,采用ε-贪婪策略选取动作at并执行,得到奖励rt,进入状态st+1,将状态st、动作at、奖励rt及状态st+1组成的样本Γ存储进深度强化学习网络模型N的经验回放池;
S46.根据日标动作值和当前动作值函数Q(s,a)计算损失函数并通过对损失函数求偏导来获得深度强化学习网络模型N的梯度β为学习率,利用获得的深度强化学习网络模型N的梯度更新深度强化学习网络模型N的参数θ,执行步骤S47;
S48.返回执行步骤S43。
深度强化学习网络模型N的状态st为
动作at的表达式为:
at=k
其中,k表示充电站的索引;
奖励rt的表达式为:
其中,Q(s,a)为当前动作值函数,表达式为:
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (8)
1.一种基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,至少包括:
S1.获取电动出租车实时的车辆信息;
S2.以电动出租车在行驶途中的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本之和为目标函数,以路径选择约束、到达时间约束、电池电量约束及充放电约束为约束条件,建立电动出租车充电导航路径规划模型;
步骤S2所述的电动出租车充电导航路径规划模型的目标函数f为:
min f=Croad+Cch+Cbattery+πTroad+πTch+πTwait
其中,Croad表示电动出租车在行驶途中的电池损耗成本;Cch表示电动出租车在充电站中的充放电损耗成本;Cbattery表示因电动出租车放电带来的电池退化成本;Troad表示电动出租车在道路行驶过程中所需要的时间;Tch表示电动出租车在充电站充放电的时间;Twait表示电动出租车在充电站等待的时间,π表示电动出租车单位耗时时间的价值成本系数;
电动出租车在行驶途中的电池损耗成本Croad的表达式为:
其中,α表示电动出租车行驶单位千米的电池能耗;Ψ(t)表示充放电的电价;dij表示从地点i到地点j的距离;xij是表示二进制变量,xij=1表示电动出租车从地点i行驶至地点j,否则,xij=0;Wn表示允许电动出租车经过的地点集合;Mn表示允许电动出租车经过的充电站集合;
电动出租车在充电站中的充放电损耗成本Cch的表达式为:
Cch=C1-C2
其中,
其中,C1表示电动出租车在充电站中的充电损耗;C2表示电动出租车在充电站中的放电损耗;Pchar表示电动出租车的充电功率;Pdis表示电动出租车的放电功率;tj表示电动出租车到地点j的时间;λ(t)、θ(t)均为二进制变量,λ(t)=1时表示电动出租车进行充电过程,否则λ(t)=0,θ(t)=1时表示电动出租车进行放电过程,否则θ(t)=0;Δt表示决策周期内每段时间的时间长度;
电动出租车放电带来的电池退化成本Cbattery的表达式为:
电动出租车在道路行驶过程中所需要的行驶时间Troad的表达式为:
其中,表示电动出租车在道路行驶过程中的平均速度,表达式为:U表示在时间t时,行驶在路段地点i到地点j的电动出租车用户的总数目;u表示第u个电动出租车用户;uu,ij,t表示电动出租车的瞬时速度,表达式为:函数D(yu,t,yu,t-1)表示电动出租车用户u在采样时间内所行驶的距离,Δtsamp表示采样时间,D(yu,t,yu,t-1)与Δtsamp之比表示电动出租车的瞬时速度;行驶时间成本表示为πTroad;
电动出租车在充电站的充放电时间Tch表达式为:
电动出租车在充电站的等待时间Twait表达式为:
其中,Lq,j,t表示t时刻电动出租车在地点j所属充电站队列的长度,表示充电率, 表示t-1时刻到达地点j所属充电站的电动出租车的数量;表示t时刻到达地点j所属充电站的电动出租车的数量,等待时间成本表示为πTwait;
S3.求解电动出租车充电导航路径规划模型,得到电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本的最优值;
S4.选定深度强化学习网络模型,将步骤S3求得的最优值、电动出租车实时的车辆信息作为深度强化学习网络模型的输入,训练深度强化学习网络模型,输出最优的电动出租车充电导航路径。
4.根据权利要求3所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S2所述的电池电量约束为:
其中,qj,t满足:
其中,SOCj,t表示t时刻,地点j的电动出租车的荷电状态,满足:SOCmin≤SOCj,t≤SOCmax,j∈Mn,SOCmin及SOCmax分别表示电动出租车的最小荷电状态及最大荷电状态;地点j与地点j+1之间的电动出租车的荷电状态满足:
SOCj-SOCj+1≥SOCmin。
5.根据权利要求4所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S2所述的充放电约束为:
λ(t)+θ(t)≤1。
7.根据权利要求6所述的基于深度强化学习的电动出租车充电导航路径规划方法,其特征在于,步骤S4所述训练深度强化学习网络模型的过程为:
S41.选定深度强化学习网络模型N,设置深度强化学习网络模型N的状态为st、动作为at、奖励为rt、当前动作值函数为Q(s,a)、训练的最大迭代次数为n、每次迭代中每辆电动出租车自起始位置至目的地需走的路径条数上限为M;
S42.将求解电动出租车充电导航路径规划模型得到的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、充放电时间成本及等待时间成本的最优值及电动出租车的位置yu,t、电动出租车的荷电状态SOCj,t输入深度强化学习网络模型N,初始化深度强化学习网络模型N的参数θ及深度强化学习网络模型N目标网络的参数令
S42.判断训练是否达到最大迭代次数n,若是,输出最优的电动出租车充电导航路径,否则,执行步骤S43;
S43.判断每辆电动出租车每次迭代中最大的路径数是否达到M,若是,返回步骤S42;否则,随机初始化深度强化学习网络模型N的初始状态为s0,电动出租车自起始位置出发;
S44.判断电动出租车是否自起始位置到达目的地,若是,返回执行步骤S43;否则,采用ε-贪婪策略选取动作at并执行,得到奖励rt,进入状态st+1,将状态st、动作at、奖励rt及状态st+1组成的样本Γ存储进深度强化学习网络模型N的经验回放池;
S46.根据目标动作值和当前动作值函数Q(s,a)计算损失函数并通过对损失函数求偏导来获得深度强化学习网络模型N的梯度β为学习率,利用获得的深度强化学习网络模型N的梯度更新深度强化学习网络模型N的参数θ,执行步骤S47;
S48.返回执行步骤S43。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010823292.4A CN112097783B (zh) | 2020-08-14 | 2020-08-14 | 基于深度强化学习的电动出租车充电导航路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010823292.4A CN112097783B (zh) | 2020-08-14 | 2020-08-14 | 基于深度强化学习的电动出租车充电导航路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112097783A CN112097783A (zh) | 2020-12-18 |
CN112097783B true CN112097783B (zh) | 2022-05-20 |
Family
ID=73753891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010823292.4A Active CN112097783B (zh) | 2020-08-14 | 2020-08-14 | 基于深度强化学习的电动出租车充电导航路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112097783B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989553B (zh) * | 2020-12-28 | 2022-10-18 | 郑州大学 | 基于电池容量损失控制的CEBs速度规划模型的构建与应用 |
CN112784481B (zh) * | 2021-01-15 | 2023-04-07 | 中国人民解放军国防科技大学 | 一种用于中继充电路径规划的深度强化学习方法及系统 |
CN114459498A (zh) * | 2022-03-14 | 2022-05-10 | 南京理工大学 | 基于强化学习的新能源车充电站选择及自适应导航方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492901A (zh) * | 2017-08-29 | 2017-12-19 | 广东电网有限责任公司电力科学研究院 | 一种分布式储能系统实时优化方法及装置 |
CN108177648A (zh) * | 2018-01-02 | 2018-06-19 | 北京理工大学 | 一种基于智能预测的插电式混合动力车辆的能量管理方法 |
CN110414750A (zh) * | 2019-08-28 | 2019-11-05 | 哈尔滨工程大学 | 一种基于深度增强学习的电动汽车实时充电站选择方法 |
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN111404168A (zh) * | 2019-12-09 | 2020-07-10 | 重庆邮电大学 | 基于柔性空调负荷的平抑变电站过载的调度系统及其方法 |
CN111523930A (zh) * | 2020-04-17 | 2020-08-11 | 国网上海市电力公司 | 城市电动出租车充电站选址和服务范围划分的规划方法 |
CN111523722A (zh) * | 2020-04-20 | 2020-08-11 | 武汉大学 | 一种基于深度强化学习的智能充电站优化选择系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9090255B2 (en) * | 2012-07-12 | 2015-07-28 | Honda Motor Co., Ltd. | Hybrid vehicle fuel efficiency using inverse reinforcement learning |
US10958082B2 (en) * | 2018-04-25 | 2021-03-23 | Microsoft Technology Licensing, Llc | Intelligent battery cycling for lifetime longevity |
-
2020
- 2020-08-14 CN CN202010823292.4A patent/CN112097783B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492901A (zh) * | 2017-08-29 | 2017-12-19 | 广东电网有限责任公司电力科学研究院 | 一种分布式储能系统实时优化方法及装置 |
CN108177648A (zh) * | 2018-01-02 | 2018-06-19 | 北京理工大学 | 一种基于智能预测的插电式混合动力车辆的能量管理方法 |
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN110414750A (zh) * | 2019-08-28 | 2019-11-05 | 哈尔滨工程大学 | 一种基于深度增强学习的电动汽车实时充电站选择方法 |
CN111404168A (zh) * | 2019-12-09 | 2020-07-10 | 重庆邮电大学 | 基于柔性空调负荷的平抑变电站过载的调度系统及其方法 |
CN111523930A (zh) * | 2020-04-17 | 2020-08-11 | 国网上海市电力公司 | 城市电动出租车充电站选址和服务范围划分的规划方法 |
CN111523722A (zh) * | 2020-04-20 | 2020-08-11 | 武汉大学 | 一种基于深度强化学习的智能充电站优化选择系统 |
Non-Patent Citations (2)
Title |
---|
Joint Optimization of Delay-Tolerant Autonomous Electric Vehicles Charge Scheduling and Station Battery Degradation;Yongsheng Cao等;《IEEE Internet of Things Journal》;20200506;第07卷(第09期);第8590-8599页 * |
混合纯电动汽车与传统汽油车的网络交通流演化;李嫚嫚 等;《东南大学学报(英文版)》;20190630;第35卷(第02期);第213-219页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112097783A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112097783B (zh) | 基于深度强化学习的电动出租车充电导航路径规划方法 | |
CN108162771B (zh) | 一种电动汽车智能充电导航方法 | |
CN110775065B (zh) | 一种基于工况识别的混合动力汽车电池寿命预测方法 | |
CN105489002B (zh) | 一种基于智能匹配和路径优化的拼车方法及系统 | |
CN110667434A (zh) | 一种自适应工况的纯电动汽车行驶里程估计方法及系统 | |
CN105051800B (zh) | 充电管理装置 | |
CN111311122B (zh) | 面向智慧城市的充电站建设方法 | |
CN110458456B (zh) | 基于人工智能的需求响应式公交系统的调度方法及系统 | |
CN103745110B (zh) | 纯电动公交车营运续驶里程估算方法 | |
CN107274665A (zh) | 巴士运力资源规划方法及系统 | |
CN107346460A (zh) | 基于智能网联系统下前车运行信息的未来工况预测方法 | |
Kim et al. | Idle vehicle relocation strategy through deep learning for shared autonomous electric vehicle system optimization | |
CN110189025B (zh) | 考虑不同负荷增长的电动汽车充电站规划方案获取方法 | |
CN112507506B (zh) | 基于遗传算法的共享汽车定价规划模型的多目标优化方法 | |
CN112116125A (zh) | 一种基于深度强化学习的电动汽车充电导航方法 | |
CN116700296A (zh) | 基于深度学习的自主充电无人电动车智能规划方法及系统 | |
CN115456180A (zh) | 一种基于三链马尔科夫模型的电动汽车数量预测方法 | |
Chen et al. | Online eco-routing for electric vehicles using combinatorial multi-armed bandit with estimated covariance | |
Jin et al. | Energy-optimal speed control for connected electric buses considering passenger load | |
CN113390430B (zh) | 面向多经停点出行的电动汽车动态路径规划及充电方法 | |
CN109740825A (zh) | 一种考虑交通拥堵因素下的电动汽车充放电方法 | |
CN109919393A (zh) | 一种电动出租汽车的充电负荷预测方法 | |
CN110929950B (zh) | 一种电动汽车负荷预测方法及系统 | |
CN115663867A (zh) | 基于智能充电网络系统的电动汽车充电调度方法 | |
CN115713206A (zh) | 一种公交个体出行决策模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |