CN110414750A

CN110414750A - 一种基于深度增强学习的电动汽车实时充电站选择方法

Info

Publication number: CN110414750A
Application number: CN201910802091.3A
Authority: CN
Inventors: 王桐; 崔子平
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2019-11-05
Anticipated expiration: 2039-08-28
Also published as: CN110414750B

Abstract

本发明提出一种基于深度增强学习的电动汽车实时充电站选择方法，所述方法包括：步骤一：全局充电控制器收集消息；步骤二：车辆发送请求；步骤三：MEC对请求做出决策；步骤四：电动汽车执行动作并上传信息；步骤五：Q‑table更新。本发明提出的实时充电站选择方法接近真实场景，给车辆提供实时选择方案，且能支持无人驾驶的行进模式。此方法为解决电动汽车的里程焦虑并提高现有充电站的利用率不仅可以最小化汽车行驶时间，提高车辆工作效率，还可以减少充电站平均等待队长以均衡各充电站负载，避免出现“部分拥挤，部分闲置”的现象。

Description

一种基于深度增强学习的电动汽车实时充电站选择方法

技术领域

本发明属于车联网技术领域，特别是涉及一种基于深度增强学习的电动汽车实时充电站选择方法。

背景技术

近年出现一些充电站查询软件，但软件仅在地图app中标注位置，其功能限于用户查询充电站位置，用户决策也多依靠于单一的位置因素即最短路径方案，缺乏智能决策机制。而学术界多将研究侧重于电网方面，例如减少电站高峰负荷，减少电网频率波动等。而目前对于汽车充电规划方法研究也多集中于已经停在充电站(Charge Station，CS)的电动汽车能源调度问题，即停靠模式问题。但这些方案缺少实时性和智能性。

对于实际情况来讲，一方面，由于耗资和道路规划问题，充电站数量有限，所以从用户角度考虑方案需满足需要“路上耗时短”的需求。另一方面，从城市宏观角度考虑，方案需要使充电站等待时间最短以均衡各充电站负载，避免出现“部分充电站拥塞，部分闲置”的现象。目前电动汽车发展所面临的首要挑战是缺少能从宏观(充电站角度)和微观(动态演进的电动汽车角度)诸多因素同时考量的协同充电决策系统。所以本发明提出即将到来的5G智能交通时代的城市大规模电动汽车并发协同充电计算场景，是当前考虑因素较为全面、最接近真实场景、能支持无人驾驶服务的解决方案。

发明内容

本发明目的是为了解决现有技术中的问题，提出了一种基于深度增强学习的电动汽车实时充电站选择方法。在基于5G环境下，提出了一种适用于城市场景，采用深度增强学习的充电站实时选择方法。在车辆行驶过程中，当电量消耗达到阈值时，车辆将开始进行充电站选择并准备充电。其中充电站选择是基于“综合减少车辆行驶时间和均衡充电站负载两方面”的原则进行。

本发明是通过以下技术方案实现的，本发明提出一种基于深度增强学习的电动汽车实时充电站选择方法，所述方法包括以下步骤：

步骤一：全局充电控制器收集消息

充电站将自身位置、充电等待人数和平均服务率消息以时间间隔T发布给全局充电控制器，使所述全局充电控制器掌握全局充电点信息以便后期整体调控；

步骤二：车辆发送请求

当电动汽车在行驶过程中电量达到阈值之下时，电动汽车将发送充电请求，所述充电请求包括电动汽车位置以及此时车辆状态，所述充电请求通过VANET与路侧单元RSU相结合的方式传输给边缘计算单元MEC，所述边缘计算单元MEC接收到车辆请求后，将请求与相对应的车辆信息传输给全局充电控制器，全局充电控制器将消息储存到本地；

步骤三：MEC对请求做出决策

城市将被划分为B*V个网格，每个网格能够进行“东、南、西、北”的行进路线；MEC接到车辆发送的请求后将车辆信息与当前时间段信息综合对比Q-table表中Q值得到当前动作，所述当前动作同样通过VANET与RSU相结合的方式传输传回给目标车辆；车辆行驶过程中将被进行追踪，此行为完成后MEC将下一网格行进路线发送给目标车辆，目标车辆将继续执行动作直至进入充电站；

步骤四：电动汽车执行动作并上传信息

电动汽车将根据动作行进，到达前将接近消息发送给充电站，到达同一充电站的车辆将进行竞争；竞争成功，车辆将进入充电站充电，并将行驶时间与等待时间上传至充电站，充电成功后充电站将已知信息服务效率与车辆信息以及两个时间信息上传至全局充电控制器；如果竞争失败，车辆将直接返回奖励为零；

步骤五：Q-table更新

全局充电控制器将基于从电动汽车处获得的车辆坐标和每一天不同时段信息作为深度增强学习算法的输入，从而得到深度增强学习算法输出的拥挤程度；将所述拥挤程度与电动汽车坐标、车辆状态与全局充电控制器本身已知的充电站信息、每一天不同时段信息、星期信息以及车辆到达充电站方向组成状态；所述状态与历史奖励数据将作为深度增强学习算法的两个输入，深度增强学习算法进行计算后将得到最新Q值，即更新Q-table表并将此更新的Q-table表进行储存并且按一定时间间隔发布给MEC，MEC再利用此更新的Q-table表对下一辆车进行决策。

进一步地，所述充电请求信息传输通过借助其他车辆来进行信息传输辅助，即采用V2V与V2R相结合的方式来进行消息传输；辅助车辆选择采用信用制度，即将车辆划分信用分数等级，用c来表示，共10分，10段，每一段一分，信息辅助成功结束加一分，辅助失败责任方将扣除一分；车辆以自己为圆心，以半径r向外扩散，第一圈半径为r，第二圈半径为2r，以此类推；当电动汽车决定充电时，先在以自己为圆心的第一圈内以“信用度越高越好”的准则来寻找辅助车辆；λ为固定参量；R为最终辅助车辆评定量：

进一步地，所述状态具体设计为：

状态由集合表示；

SOC表示车辆发送请求时状态；

X_i,m,m∈{1,2,......,B},Y_i,n,n∈{1,2,......,V}分别表示第i个电动汽车的水平和垂直位置；

P_l,l∈{1,2,......,24}表示一天内的时间段，按小时划分；

T_f,f∈{1,2}表示工作日或周末；

C_j＝{C_Nj,C_Ej,C_Wj,C_Sj}表示从东南西北不同方向接近充电站的电动汽车的数量，j∈{1,2,......,N}，N表示充电站数量；

表示车辆到达充电站行驶时间的估计值即交通拥堵函数。

进一步地，所述行为具体设计为：对于每个充电信息请求，代理将指导充电汽车采取某行为操作以达到下一个状态并获得奖励，充电汽车将按照决策向给出充电站行驶。

进一步地，所述奖励具体设计为：

通过奖励函数来不断进行学习反馈及更新；车辆执行动作，然后到达预定的充电站，代理将从该车辆接收奖励；如果S_c表示任何充电站c处的充电点的数量，分别采用泊松分布和负指数分布模型对车辆平均到达率和服务率进行建模，时段P_l期间车辆的平均到达率和服务率分别由λ_c和μ_c给出，则在选择充电站时的服务利用率ρ_c定义如下：

由于目标是最小化车辆的充电站的总体等待队列长度，因此奖励r[k]由下式给出：

其中，k为当前状态标识，T_Q表示车辆在充电站等待时间，T_T表示车辆到达充电站行驶时间，T_QoS表示T_Q和T_T的最大可接受限制之和；

通过路侧单元RSU发送的车辆信息，动作执行产生了奖励r_k＝r[k]；将状态、动作和奖励输入数据库；在接收到另一请求时进入下一状态s_k+1，将信息(s_k,a_k,r_k,s_k+1)存储在全局充电控制器中，s_k表示当前状态，a_k表示当前行为。

进一步地，所述交通拥堵函数其中CS表示充电站，反映了车辆在时间段P_l内从位置X，Y到达目的充电站时所面临的交通拥堵情况；MEC接收到来自车辆的请求，就会生成状态参数提供给智能交通系统，即发送包含X_i,m,Y_i,n,P_l,CS的请求输入集给智能交通系统；集合T_T＝{T_T1,T_T2,...,T_TN},T_T是对充电站的预测。

本发明的有益效果为：

本发明提出的实时充电站选择方法接近真实场景，给车辆提供实时选择方案，且能支持无人驾驶的行进模式。此方法为解决电动汽车的里程焦虑并提高现有充电站的利用率不仅可以最小化汽车行驶时间，提高车辆工作效率，还可以减少充电站平均等待队长以均衡各充电站负载，避免出现“部分拥挤，部分闲置”的现象。

附图说明

图1为本发明所述基于深度增强学习的电动汽车实时充电站选择方法整体时序图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1，本发明提出一种基于深度增强学习的电动汽车实时充电站选择方法，所述方法包括以下步骤：

步骤一：全局充电控制器GC收集消息

充电站CS将自身位置、充电等待人数和平均服务率消息以时间间隔T发布给全局充电控制器，使所述全局充电控制器掌握全局充电点信息以便后期整体调控；

步骤二：车辆发送请求

当电动汽车EV在行驶过程中电量达到阈值之下时，电动汽车将发送充电请求，所述充电请求包括电动汽车位置以及此时车辆状态，所述充电请求通过VANET与路侧单元RSU相结合的方式传输给边缘计算单元MEC，所述边缘计算单元MEC接收到车辆请求后，将请求与相对应的车辆信息传输给全局充电控制器，全局充电控制器将消息储存到本地；

因为电动汽车耗能源要远远快于正常汽车，所以对于充电汽车，会提前设置电量阈值提醒，此阈值表示电动汽车将不能负担再一次的长途载客任务，但到达阈值并不意味着车辆将立即停止运行。本发明将阈值设置为百分之二十，即当电动汽车在城市行驶过程中电量低至百分之二十时，车辆将进入预备充电模式，将寻找最近RSU，当车辆进入RSU覆盖范围内时，车辆将发送“请求充电”信息。但由于RSU建设费用高，所以位置分布稀疏，为方便充电请求信息传输，采用通过借助其他车辆来进行信息传输辅助，即采用V2V与V2R相结合的方式来进行消息传输；辅助车辆选择采用信用制度，即将车辆划分信用分数等级，用c来表示，共10分，10段，每一段一分，信息辅助成功结束加一分，辅助失败责任方将扣除一分；车辆以自己为圆心，以半径r向外扩散，第一圈半径为r，第二圈半径为2r，以此类推；当电动汽车决定充电时，先在以自己为圆心的第一圈内以“信用度越高越好”的准则来寻找辅助车辆；λ为固定参量；R为最终辅助车辆评定量：

步骤三：MEC对请求做出决策

城市将被划分为B*V个网格，每个网格能够进行“东、南、西、北”的行进路线；MEC接到车辆发送的请求后将车辆信息与当前时间段信息以(1-e)的综合对比Q-table表中Q值得到当前动作，e为探索系数，所述当前动作同样通过VANET与RSU相结合的方式传输传回给目标车辆；车辆行驶过程中将被进行追踪，此行为完成后MEC将下一网格行进路线发送给目标车辆，目标车辆将继续执行动作直至进入充电站；

步骤四：电动汽车执行动作并上传信息

电动汽车将根据动作行进，到达前将接近消息发送给充电站，到达同一充电站的车辆将进行竞争；竞争成功，车辆将进入充电站充电，并将行驶时间与等待时间上传至充电站，充电成功后充电站将已知信息服务效率与车辆信息以及两个时间信息上传至全局充电控制器；如果竞争失败，车辆将直接返回奖励为零，则此路线失败。

步骤五：Q-table更新

全局充电控制器将基于从电动汽车处获得的车辆坐标和每一天不同时段信息作为深度增强学习算法的输入，从而得到深度增强学习算法输出的拥挤程度；将所述拥挤程度与电动汽车坐标、车辆状态与全局充电控制器本身已知的充电站信息、每一天不同时段信息、星期信息以及车辆到达充电站方向组成状态；所述状态与历史奖励数据将作为深度增强学习算法的两个输入，深度增强学习算法进行计算后将得到最新Q值，即更新Q-table表并将此更新的Q-table表进行储存并且按一定时间间隔发布给MEC，MEC再利用此更新的Q-table表对下一辆车进行决策。增强学习的学习过程实质是在不断更新一张表的过程。这张表一般称之为Q_Table，此张表由State(状态)和Action(行为)作为横纵轴，每一个格就代表在当前State下执行当前Action能获得的价值回馈，用Q(s,a)表示，称为Q值。

所述状态具体设计为：

状态由集合表示；

SOC表示车辆发送请求时状态；

P_l,l∈{1,2,......,24}表示一天内的时间段，按小时划分；

T_f,f∈{1,2}表示工作日或周末；

表示车辆到达充电站行驶时间的估计值即交通拥堵函数。

所述行为具体设计为：对于每个充电信息请求，代理将指导充电汽车采取某行为操作以达到下一个状态并获得奖励，充电汽车将按照决策向给出充电站行驶。

所述奖励具体设计为：

所述基于深度增强学习的Q值函数设计具体为：

在Q学习中，迭代Q值函数定义为：

Q(s_k,a_k)＝Q(s_k,a_k)+α[r_k+γmaxQ(s'_k,a'_k)-Q(s_k,a_k)]

其中，α是学习状态，γ是折扣率，s'_k表示当前状态估计值，a'_k表示当前行为估计值。搜索Q-table以获得最佳策略存在两个挑战：高维状态Q-table很难存储在内存中，学习过程缓慢。尤其对于强时效性和高维状态的演进充电汽车协同充电策略，一般Q学习不适用。所以引入了深度学习对Q-table进行优化，针对网络状态间高相关性可能导致其不收敛，引入经验重温思想来解决该问题，提出环境感知深度体验学习方法。经验重温能记住以前的行为，每隔一段时间抽取mini-batch以前经验(存储在缓冲区中)来最小化损失函数，代理能重温过去并改善记忆。拟建立两个神经网络Q(s_k,a_k)＝Q(s_k,a_k；ω)，其中，ω是目标Q网络的参数，同时ω^-是评估Q网络的参数。构造深度学习损失函数如下：

所述交通拥堵函数其中CS表示充电站，反映了车辆在时间段P_l内从位置X，Y到达目的充电站时所面临的交通拥堵情况；MEC接收到来自车辆的请求，就会生成状态参数提供给智能交通系统，即发送包含X_i,m,Y_i,n,P_l,CS的请求输入集给智能交通系统；集合T_T＝{T_T1,T_T2,...,T_TN},T_T是对充电站的预测。例如，位于X_i,m,Y_i,n的车辆在时间间隔P_l期间发出了请求，则T_T1表示充电站1的预测拥塞。MEC学习代理将基于深度增强学习过程做出决定选择行为。车辆收到决策后，通过V2X方式发送该消息给充电站，使获知将前往其车辆数量；充电站继续向全局充电控制器更新此信息，全局充电控制器将此信息发送给MEC，使其掌握东西南北方向的潜在竞争车辆信息，以便后续决策。

以上对本发明所提出的一种基于深度增强学习的电动汽车实时充电站选择方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度增强学习的电动汽车实时充电站选择方法，其特征在于：所述方法包括以下步骤：

步骤一：全局充电控制器收集消息

步骤二：车辆发送请求

步骤三：MEC对请求做出决策

步骤四：电动汽车执行动作并上传信息

步骤五：Q-table更新

2.根据权利要求1所述的方法，其特征在于：所述充电请求信息传输通过借助其他车辆来进行信息传输辅助，即采用V2V与V2R相结合的方式来进行消息传输；辅助车辆选择采用信用制度，即将车辆划分信用分数等级，用c来表示，共10分，10段，每一段一分，信息辅助成功结束加一分，辅助失败责任方将扣除一分；车辆以自己为圆心，以半径r向外扩散，第一圈半径为r，第二圈半径为2r，以此类推；当电动汽车决定充电时，先在以自己为圆心的第一圈内以“信用度越高越好”的准则来寻找辅助车辆；λ为固定参量；R为最终辅助车辆评定量：

3.根据权利要求1所述的方法，其特征在于：所述状态具体设计为：

状态由集合表示；

SOC表示车辆发送请求时状态；

P_l,l∈{1,2,......,24}表示一天内的时间段，按小时划分；

T_f,f∈{1,2}表示工作日或周末；

表示车辆到达充电站行驶时间的估计值即交通拥堵函数。

4.根据权利要求1所述的方法，其特征在于：所述行为具体设计为：对于每个充电信息请求，代理将指导充电汽车采取某行为操作以达到下一个状态并获得奖励，充电汽车将按照决策向给出充电站行驶。

5.根据权利要求2所述的方法，其特征在于：所述奖励具体设计为：

6.根据权利要求3所述的方法，其特征在于：所述交通拥堵函数其中CS表示充电站，反映了车辆在时间段P_l内从位置X，Y到达目的充电站时所面临的交通拥堵情况；MEC接收到来自车辆的请求，就会生成状态参数提供给智能交通系统，即发送包含X_i,m,Y_i,n,P_l,CS的请求输入集给智能交通系统；集合T_T＝{T_T1,T_T2,...,T_TN},T_T是对充电站的预测。