CN112097783B

CN112097783B - 基于深度强化学习的电动出租车充电导航路径规划方法

Info

Publication number: CN112097783B
Application number: CN202010823292.4A
Authority: CN
Inventors: 林继旭; 谢胜利; 杨超; 刘义
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2022-05-20
Anticipated expiration: 2040-08-14
Also published as: CN112097783A

Abstract

本发明提出一种基于深度强化学习的电动出租车充电导航路径规划方法，解决了现有电动出租车充电导航路径的规划方法鲁棒性低，规划基础不全面的问题，以电动出租车在行驶途中的电池损耗、充放电损耗、电池退化、行驶时间、等待时间及充放电时间之和为目标函数，以路径选择、到达时间、电池电量及充放电为约束条件，建立模型并求解，电动汽车充电导航路径的规划基础更全面，以求解之后的目标最优值作为深度强化学习网络模型的输入来训练深度强化学习网络模型，使训练好的深度强化学习网络模型可快速规划输出最优的充电导航路径，避免当面对众多不同的实际应用场景时，常规优化求解算法求解电动出租车充电路径的方法鲁棒性差的缺陷。

Description

基于深度强化学习的电动出租车充电导航路径规划方法

技术领域

本发明涉及电动出租车充电导航路径规划的技术领域，更具体地，涉及一种基于深度强化学习的电动出租车充电导航路径规划方法。

背景技术

随着电动汽车的普及率越来越高，大量电动汽车在同一个时刻充电会对当地电网承载负荷的能力带来冲击，所以，需要设计优化充电导航策略以诱导电动汽车，特别是电动出租车合理选择充电站，并在合适的时间进行充电，可以减小电网负荷的峰谷差，提高电网的稳定性以及电能的利用率，同时也能节省电动出租车用户的充电成本。

目前，大部分充电导航策略通常假设电动出租车在快速充电站中充满电之后才离开，但是从现实场景出发，在电动出租车的运营场景下，若让电动出租车在快速充电站中充满电之后才离开，势必会增加电动出租车的充电时间损耗和充电损耗(相对于慢充，在快速充电站进行快充的成本花费会更高)，2018年12月7日，广东工业大学在中国专利中公开了一种应用于电动汽车智能充放电的导航方法(公开号：CN108955711A)，该专利的技术方案考虑快速充电站下大量的快充负荷对电网的冲击影响以及行驶过程中电动汽车的电量，以综合成本最优为目标进行电动汽车最优充放电路径的规划，一方面使用户在整个行程中经济利益最大化的同时节省用户的行程时间，另一方面减少充电负荷，从而减少快速充电对电网的影响，但该充电导航策略并没有考虑电动出租车在充放电中的电池退化成本，而电池经常进行充放电，势必会降低电池的使用寿命，所以电池的退化成本也是电动出租车用户无形中需要承担的成本，在电池退化成本未被考虑时，电动汽车充电导航路径的规划基础不全面，得到的充电导航路径准确性低。此外，现有电动出租车的充电导航路径通常是利用常规优化求解算法求解充电导航路径规划模型之后一次性确定充电路径，当面对众多不同的实际应用场景时，常规优化求解算法求解电动出租车充电路径的方法鲁棒性差。

发明内容

为解决现有电动出租车充电导航路径的规划方法鲁棒性低，而且规划基础不全面的问题，本发明提出一种基于深度强化学习的电动出租车充电导航路径规划方法，从电动出租车用户的角度出发，最大程度减少电动出租车在行驶过程中的综合成本，鲁棒性高。

为了达到上述技术效果，本发明的技术方案如下：

本发明提出一种基于深度强化学习的电动出租车充电导航路径规划方法，至少包括：

S1.获取电动出租车实时的车辆信息；

S2.以电动出租车在行驶途中的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本之和为目标函数，以路径选择约束、到达时间约束、电池电量约束及充放电约束为约束条件，建立电动出租车充电导航路径规划模型；

S3.求解电动出租车充电导航路径规划模型，得到电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本的最优值；

S4.选定深度强化学习网络模型，将步骤S3求得的最优值、电动出租车实时的车辆信息作为深度强化学习网络模型的输入，训练深度强化学习网络模型，输出最优的电动出租车充电导航路径。

在此，电动出租车充电导航路径规划模型为混合整数线性规划模型(MILP)，可通过遗传算法、粒子群算法等智能优化算法求解，也可通过Cplex、Yamip等数学优化求解器求解。

优选地，步骤S1所述的电动出租车实时的车辆信息包括：电动出租车u在t时刻的位置y_u，t、电动出租车u在地点j的荷电状态SOC_j，t及t时刻到达地点j所属充电站的电动出租车的数量

优选地，步骤S2所述的电动出租车充电导航路径规划模型的目标函数f为：

min f＝C_road+C_ch+C_battery+πT_road+πT_ch+πT_wait

其中，C_road表示电动出租车在行驶途中的电池损耗成本；C_ch表示电动出租车在充电站中的充放电损耗成本；C_battery表示因电动出租车放电带来的电池退化成本；T_road表示电动出租车在道路行驶过程中所需要的时间；T_ch表示电动出租车在充电站充放电的时间；T_wait表示电动出租车在充电站等待的时间，π表示电动出租车单位耗时时间的价值成本系数；

电动出租车在行驶途中的电池损耗成本C_road的表达式为：

其中，α表示电动出租车行驶单位千米的电池能耗；Ψ(t)表示充放电的电价；d_ij表示从地点i到地点j的距离；x_ij是表示二进制变量，x_ij＝1表示电动出租车从地点i行驶至地点j，否则，x_ij＝0；W_n表示允许电动出租车经过的地点集合；M_n表示允许电动出租车经过的充电站集合；

电动出租车在充电站中的充放电损耗成本C_ch的表达式为：

C_ch＝C₁-C₂

其中，

其中，C₁表示电动出租车在充电站中的充电损耗；C₂表示电动出租车在充电站中的放电损耗；P_char表示电动出租车的充电功率；P_dis表示电动出租车的放电功率；t_j表示电动出租车到地点j的时间；Ψ(t)表示充放电的电价；λ(t)、θ(t)均为二进制变量，λ(t)＝1时表示电动出租车进行充电过程，否则λ(t)＝0，θ(t)＝1时表示电动出租车进行放电过程，否则θ(t)＝0；Δt表示决策周期内每段时间的时间长度；

电动出租车放电带来的电池退化成本C_battery的表达式为：

其中，C_B表示电池的投资成本，L_C表示电池在放电深度D_DOD下的循环寿命，

D_DOD∈[0，0.9]，S_max为电动出租车电池的最大容量；

电动出租车在道路行驶过程中所需要的行驶时间T_road的表达式为：

其中，

表示电动出租车在道路行驶过程中的平均速度，表达式为：

U表示在时间t时，行驶在路段地点i到地点j的电动出租车用户的总数目；u表示第u个电动出租车用户；v_u，ij，t表示电动出租车的瞬时速度，表达式为：

函数D(y_u，t，y_u，t-1)表示电动出租车用户u在采样时间内所行驶的距离，Δt_samp表示采样时间，D(y_u，t，y_u，t-1)与Δt_samp之比表示电动出租车的瞬时速度；行驶时间成本表示为πT_road；

电动出租车在充电站的充放电时间T_ch表达式为：

其中，

表示电动出租车在地点j所属充电站的充放电时间，

表示电动出租车在地点j所属充电站的充电时间，表达式为：

表示电动出租车在地点j所属充电站中总的充电电量，η_char表示充电效率；

表示电动出租车在地点j所属充电站的放电时间，表达式为：

表示在地点j所属充电站中总的放电电量，η_dis表示放电效率；充放电时间成本表示为πT_ch；

电动出租车在充电站的等待时间T_wait表达式为：

其中，

L_q，j，t表示t时刻电动出租车在地点j所属充电站队列的长度，

表示充电率，

表示t-1时刻到达地点j所属充电站的电动出租车的数量；

表示t时刻到达地点j所属充电站的电动出租车的数量，等待时间成本表示为πT_wait。

在此，目标函数中考虑了电动出租车在充放电中的电池退化成本，电动汽车充电导航路径的规划基础更全面，提高了充电导航路径规划的准确性。

优选地，步骤S2所述的路径选择约束为：

其中，S表示电动出租车的起始位置，D表示电动出租车的目的地。

优选地，步骤S2所述的到达时间约束为：

其中，t_start表示电动出租车离开起始位置的时间；t_i表示电动出租车到地点i的时间；B_n表示二进制变量x_ij＝1的集合。

优选地，步骤S2所述的电池电量约束为：

其中，q_j，t表示t时刻在地点j的电动出租车的电池容量；Q_start表示电动出租车的初始电量；

表示电动出租车在地点i所属充电站的充电总容量；

表示电动出租车在地点i所属充电站的放电总容量；

其中，q_j，t满足：

其中，SOC_j，t表示t时刻，地点j的电动出租车的荷电状态，满足：SOC_min≤SOC_j，t≤SOC_max，j∈M_n，SOC_min及SOC_max分别表示电动出租车的最小荷电状态及最大荷电状态；地点j与地点j+1之间的电动出租车的荷电状态满足：

SOC_j-SOC_j+1≥SOC_min。

在此，在任何时刻，将电动出租车的电量限制在最小荷电状态与最小荷电状态之间，保证电动出租车不会过度的充电或放电，减少对电动出租车电池的损害，电动出租车在到达下一个地点j+1所属的充电站时，荷电状态保证大于最小荷电状态SOC_min，保证电动出租车不会过度的放电。

优选地，步骤S2所述的充放电约束为：

λ(t)+θ(t)≤1，保证电动出租车在充电站时，不能同时进行充放电。

优选地，步骤S2所述的充放电约束还包括：

保证电动出租车在到达目的地前，可进行多次的充放电服务。

优选地，步骤S4所述训练深度强化学习网络模型的过程为：

S41.选定深度强化学习网络模型N，设置深度强化学习网络模型N的状态为s_t、动作为a_t、奖励为r_t、当前动作值函数为Q(s，a)、训练的最大迭代次数为n、每次迭代中每辆电动出租车自起始位置至目的地需走的路径条数上限为M；

S42.将求解电动出租车充电导航路径规划模型得到的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、充放电时间成本及等待时间成本的最优值及电动出租车的位置y_u，t、电动出租车的荷电状态SOC_j，t输入深度强化学习网络模型N，初始化深度强化学习网络模型N的参数θ及深度强化学习网络模型N目标网络的参数

令

S42.判断训练是否达到最大迭代次数n，若是，输出最优的电动出租车充电导航路径，否则，执行步骤S43；

S43.判断每辆电动出租车每次迭代中最大的路径数是否达到M，若是，返回步骤S42；否则，随机初始化深度强化学习网络模型N的初始状态为s₀，电动出租车自起始位置出发；

S44.判断电动出租车是否自起始位置到达目的地，若是，返回执行步骤S43；否则，采用ε-贪婪策略选取动作a_t并执行，得到奖励r_t，进入状态s_t+1，将状态s_t、动作a_t、奖励r_t及状态s_t+1组成的样本Γ存储进深度强化学习网络模型N的经验回放池；

S45.从深度强化学习网络模型N的经验回放池中获得样本ρ，ρ为(s_t，a_t，r_t，s_t+1)，ρ∈Γ，并计算目标动作值

S46.根据目标动作值

和当前动作值函数Q(s，a)计算损失函数

并通过对损失函数求偏导来获得深度强化学习网络模型N的梯度

β为学习率，利用获得的深度强化学习网络模型N的梯度更新深度强化学习网络模型N的参数θ，执行步骤S47；

S47.每辆电动出租车自起始位置至目的地走的路径条数达到H之后，更新深度强化学习网络模型N目标网络的参数

令

S48.返回执行步骤S43。

在此，电动出租车u在t时刻的位置y_u，t、电动出租车u在t时刻地点j的荷电状态SOC_j，t可通过人群感知器(智能手机、平板等)和安装在快速充电站的传感器直接获取，深度强化学习网络模型N的梯度训练法采用现有技术均可实现，计算损失函数

后，通过对损失函数求偏导来获得梯度

β为学习率，然后通过

更新深度强化学习网络模型N的参数θ，深度强化学习网络模型N的训练是一个反复“试错”的过程，首先基于当前的状态s_t，执行一个动作a_t，得到相应的奖励r_t，并转移到下个状态s_t+1，把(s_t，a_t，r_t，s_t+1)存储到经验回放池Γ中，然后从经验回放池Γ中抽取一小批样本ρ后计算目标动作值

这样做的目的是为了打破数据之间的相关性，加速模型最后的收敛速度，再与当前动作值进行比较求出损失函数

损失函数表明了要使当前动作值逼近目标动作值，为了减小误差，通过对损失函数求偏导来求得梯度，从而训练深度强化学习网络模型N，使训练好的深度强化学习网络模型N基于一些已知特征，如电动出租车的车辆信息或交通信息等，便可快速规划输出一条最优的充电导航路径，避免当面对众多不同的实际应用场景时，常规优化求解算法求解电动出租车充电路径的方法鲁棒性差的缺陷，经过训练之后的深度强化学习网络模型，可快速为电动出租车规划一条最佳的路径，提高规划效率。

优选地，动作a_t的表达式为：

深度强化学习网络模型N的状态s_t为

其中，

分别表示求解电动出租车充电导航路径规划模型得到的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、充放电时间成本及等待时间成本的最优值；

动作a_t的表达式为：

a_t＝k

其中，k表示充电站的索引；

奖励r_t的表达式为：

其中，

表示电动出租车从地点i到地点j的电池损耗成本；

目标动作值

的表达式为：

其中，Q(s，a)为当前动作值函数，表达式为：

E表示奖励期望，其中s∈s_t，a∈a_t，γ为折扣因子。

与现有技术相比，本发明技术方案的有益效果是：

(1)本发明提出一种基于深度强化学习的电动出租车充电导航路径规划方法，以电动出租车在行驶途中的电池损耗成本、充放电损耗成本、电池退化成本、行驶时间成本、等待时间成本及充放电时间成本之和为目标函数，以路径选择约束、到达时间约束、电池电量约束及充放电约束为约束条件，建立电动出租车充电导航路径规划模型并求解，优化目标函数里考虑了电动出租车在充放电中的电池退化成本，使得电动汽车充电导航路径的规划基础更全面，提高了充电导航路径规划的准确性。

(2)本发明提出的技术方案以求解之后的目标最优值作为深度强化学习网络模型的输入来训练深度强化学习网络模型，使训练好的深度强化学习网络模型可快速规划输出一条最优的充电导航路径，避免当面对众多不同的实际应用场景时，常规优化求解算法求解电动出租车充电路径的方法鲁棒性差的缺陷，进一步巩固提高电动出租车充电路径优化的准确性，且深度强化学习网络模型经过训练之后，不需要再反复训练网络，而是基于电动出租车的一些当前特征，即可直接输出最佳路径，提高充电导航路径的规划效率。

附图说明

图1为本发明实施例中提出的基于深度强化学习的电动出租车充电导航路径规划方法的流程示意图；

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部位会有省略、放大或缩小，并不代表实际的尺寸；

对于本领域技术人员来说，附图中某些公知说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示的基于深度强化学习的电动出租车充电导航路径规划方法的流程示意图，包括：

S1.获取电动出租车实时的车辆信息；

在本实施例中，步骤S1所述的电动出租车实时的车辆信息包括：电动出租车u在t时刻的位置y_u，t、电动出租车u在地点j的荷电状态SOC_j，t及t时刻到达地点j所属充电站的电动出租车的数量

在本实施例中，步骤S2所述的电动出租车充电导航路径规划模型的目标函数f为：

min f＝C_road+C_ch+C_battery+πT_road+πT_ch+πT_wait

电动出租车在行驶途中的电池损耗成本C_road的表达式为：

电动出租车在充电站中的充放电损耗成本C_ch的表达式为：

C_ch＝C₁-C₂

其中，

电动出租车放电带来的电池退化成本C_battery的表达式为：

D_DOD∈[0，0.9]，S_max为电动出租车电池的最大容量；

其中，

表示电动出租车在道路行驶过程中的平均速度，表达式为：

在此，出于简化的目的，瞬时速度v_u，ij，t用平均速度

来代替，U表示在时间t时，行驶在路段地点i到地点j的电动出租车用户的总数目；u表示第u个电动出租车用户；v_u，ij，t表示电动出租车的瞬时速度，表达式为：

函数D(y_u，t，y_u，t-1)表示电动出租车用户u在采样时间内所行驶的距离，Δt_samp表示采样时间，D(y_u，t，y_u，t-1)与Δt_samp之比表示电动出租车的瞬时速度；行驶时间成本表示为πT_road，在本实施例中，Δt_samp＝5min；

电动出租车在充电站的充放电时间T_ch表达式为：

其中，

表示电动出租车在地点j所属充电站的充放电时间，

表示电动出租车在地点j所属充电站的充电时间，表达式为：

表示电动出租车在地点j所属充电站的放电时间，表达式为：

电动出租车在充电站的等待时间T_wait表达式为：

其中，

L_q，j，t表示t时刻，电动出租车在地点j所属充电站队列的长度，

表示充电率，

表示t-1时刻到达地点j所属充电站的电动出租车的数量；

在本实施例中，步骤S2所述的路径选择约束为：

其中，S表示电动出租车的起始位置，D表示电动出租车的目的地。路径选择约束表示在起始位置S，假设只有一辆电动出租车从此处离开，同时也假设只存在一辆电动出租车到达目的地D，然后假设在其它地点，离开的电动出租车数量和到达此处地点的电动出租车数量是一样的。

到达时间约束为：

步骤S2所述的电池电量约束为：

表示电动出租车在地点i所属充电站的充电总容量；

表示电动出租车在地点i所属充电站的放电总容量；

其中，q_j，t满足：

SOC_j-SOC_j+1≥SOC_min。

充放电约束为：

充放电约束还包括：

在本实施例中，步骤S4所述训练深度强化学习网络模型的过程为：

令

S46.根据日标动作值

和当前动作值函数Q(s，a)计算损失函数

令

S48.返回执行步骤S43。

深度强化学习网络模型N的状态s_t为

其中，

动作a_t的表达式为：

a_t＝k

其中，k表示充电站的索引；

奖励r_t的表达式为：

其中，

表示电动出租车从地点i到地点j的电池损耗成本；

目标动作值

的表达式为：

其中，Q(s，a)为当前动作值函数，表达式为：

E表示奖励期望，其中s∈s_t，a∈a_t，γ为折扣因子。

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度强化学习的电动出租车充电导航路径规划方法，其特征在于，至少包括：

S1.获取电动出租车实时的车辆信息；

步骤S1所述的电动出租车实时的车辆信息包括：电动出租车u在t时刻的位置y_u，t、电动出租车u在地点j的荷电状态SOC_j，t及t时刻到达地点j所属充电站的电动出租车的数量

步骤S2所述的电动出租车充电导航路径规划模型的目标函数f为：

min f＝C_road+C_ch+C_battery+πT_road+πT_ch+πT_wait

电动出租车在行驶途中的电池损耗成本C_road的表达式为：

电动出租车在充电站中的充放电损耗成本C_ch的表达式为：

C_ch＝C₁-C₂

其中，

其中，C₁表示电动出租车在充电站中的充电损耗；C₂表示电动出租车在充电站中的放电损耗；P_char表示电动出租车的充电功率；P_dis表示电动出租车的放电功率；t_j表示电动出租车到地点j的时间；λ(t)、θ(t)均为二进制变量，λ(t)＝1时表示电动出租车进行充电过程，否则λ(t)＝0，θ(t)＝1时表示电动出租车进行放电过程，否则θ(t)＝0；Δt表示决策周期内每段时间的时间长度；

电动出租车放电带来的电池退化成本C_battery的表达式为：