CN111523722A

CN111523722A - 一种基于深度强化学习的智能充电站优化选择系统

Info

Publication number: CN111523722A
Application number: CN202010310702.5A
Authority: CN
Inventors: 林海; 刘威
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-08-11
Anticipated expiration: 2040-04-20
Also published as: CN111523722B

Abstract

本发明提出了一种基于深度强化学习的智能充电站优化选择系统。本发明构建充电站的排队状态；根据用户车辆的经纬度判定用户车辆所属区域；且将当前时刻转换成时间损耗。中心服务器将用户车辆所属区域、用户车辆已使用电量、时间损耗、所有充电站排队状态作为深度神经网络输入，估计充电站的未来总收益，得到推荐充电站。待用户车辆在推荐充电站充电完成计算充电收益，并等待下一次用户充电请求构建四元组，保存到经验池中；中心服务器随机提取四元组进行训练，计算损失函数，优化深度神经网络的参数。本发明能够处理大规模的充电站推荐管理场景，通过神经网络优化平均用户充电时间最短和各充电站的负载均衡量。

Description

一种基于深度强化学习的智能充电站优化选择系统

技术领域

本发明涉及充电站推荐领域，具体涉及一种基于深度强化学习的智能充电站优化选择系统。

背景技术

随着环境与能源问题越来越受人们关注，环保设施和清洁能源的使用将成为大的趋势。纯电动汽车完全采用电力作为动力源，真正实现了污染零排放，备受人们关注。其基础充电设施也在进一步推广，为解决电动汽车出行与使用问题提供了便利。

目前用户充电，通常通过导航软件行驶最近充电站处。由于用户无法获取充电站信息、电动汽车充电时间较长、热点区域等因素，将导致充电用户在充电站的分配不合理，从而影响用户体验。

发明内容

本发明的目的在于提供一种基于深度强化学习的智能充电站优化选择系统，利用深度强化学习算法，从充电系统的整体性能出发，推荐不同的电动车到不同的充电站，从而实现用户平均等待时间最短、充电站负载均衡等目的。

基于深度强化学习的智能充电站优化选择系统包括：基于深度强化学习的智能充电站优化选择装置、基于深度强化学习的智能充电站优化选择方法。

本发明装置的技术方案是一种基于深度强化学习的智能充电站优化选择装置，包括：微处理器、触摸屏、GPs定位模块、电量检测模块、车辆无线通信模块、车辆识别系统、充电桩检测模块、信息获取终端、充电站无线通信模块、中心服务器；

所述GPS定位模块与所述微处理器通过有线方式连接；所述电量检测模块与所述微处理器通过有线方式连接；所述触摸屏与所述微处理器通过有线方式连接；所述微处理器与所述车辆无线通信模块通过有线方式连接；所述车辆无线通信模块与所述中心服务器通过无线方式连接；所述充电桩检测装置与所述信息获取终端通过有线方式连接；所述车辆识别系统与所述信息获取终端通过有线方式连接；所述信息获取终端与所述充电站无线通信模块通过有线方式连接；所述充电站无线通信模块与中心服务器通过无线方式连接；

所述的微处理器、触摸屏、GPS定位模块、电量检测模块、车辆无线通信模块部署于用户车辆上；所述充电桩检测装置部署于充电桩上；所述的车辆识别系统、信息获取终端、充电站无线通信模块均部署于充电站里。

所述微处理器协调控制所述的GPS定位模块、电量检测模块、车辆无线通信模块；所述微处理器控制所述的触摸屏实现人机交互；

所述GPS定位模块采集用户车辆的经度、用户车辆的纬度，将用户车辆的经度、用户车辆的纬度传输至所述微处理器；

所述电量检测模块实时采集用户车辆的已使用电量，将用户车辆的已使用电量传输至所述微处理器；

在用户车辆需要充电时，用户通过所述触摸屏输入用户充电请求并传输至所述微处理器，所述微处理器将用户充电请求、用户车辆的经度、用户车辆的纬度、用户车辆的已使用电量通过车辆无线通信模块无线传输至所述中心服务器。

所述充电桩检测模块实时检测可用充电桩数量，将可用充电桩数量有线传输到信息获取终端；

所述车辆识别系统，以站内摄像头加图像处理为主，刷卡入站为辅的方式识别进出站车辆，将站内车辆变化有线传输到信息获取终端；

所述信息获取终端根据站内车辆变化计算排队车辆数量，并依照可用充电桩数量、排队车辆数量得到充电站的排队状态，通过充电站无线通信模块将充电站的排队状态无线传输至所述中心服务器；

所述中心服务器根据用户充电请求时的时间、用户车辆的经度、用户车辆的纬度、用户车辆的已使用电量、充电站状态，通过一种基于深度强化学习的智能充电站优化选择方法实现充电站优化选择；

所述中心服务器记录用户相关充电信息作为训练数据保存至经验池中，系统优化阶段从经验池提取数据构建训练集，对系统进行调整优化。

本发明方法的技术方案是一种基于深度强化学习的智能充电站优化选择方法，包括以下步骤：

步骤1：中心服务器管理多个充电站，将管理区域划分成多个区域，将一天划分成多个时间损耗等级时段；

步骤2：信息获取终端通过充电桩检测模块实时检测可用充电桩数量，通过车辆识别系统统计进出站车辆数，建立排队车辆数量与可用充电桩数量之间关系模型，进一步构建充电站的排队状态，在充电站的排队状态发生改变或每隔一定时间将充电站的排队状态无线传输至中心服务器；

步骤3：微处理器将用户充电请求、用户车辆的经度、用户车辆的纬度、用户车辆的已使用电量通过车辆无线通信模块无线传输至所述中心服务器；

步骤4：中心服务器记录第n次请求时间；并根据用户车辆的经度、用户车辆的纬度判定用户车辆所属区域；且将当前时刻转换成时间损耗；通过用户车辆所属区域、用户车辆的已使用电量、时间损耗、所有充电站的排队状态构建用户充电请求的输入状态；

步骤5：构建深度神经网络，随机初始化其参数，深度神经网络根据用户充电请求的输入状态估计充电站的未来总收益，进一步得到推荐充电站，将推荐充电站无线传输至触摸屏显示，待用户车辆在推荐充电站充电完成计算充电收益，等待下一次用户充电请求到来构建下一次用户充电请求的输入状态以及四元组，并将四元组作为训练数保存至经验池中；

步骤6：中心服务器从经验池中随机提取一定数量四元组构建训练集，依次将训练集中每个四元组提供给深度神经网络计算损失函数，优化深度神经网络的参数；

作为优选，步骤1所述充电站的数量为K；

步骤1所述管理区域划分成多个区域为：

管理区域划分成L个区域，具体为：

area₁、area₂、...、area_L

其中，area_l，l∈[1，L]为第I个区域；

且area_l，l∈[1，L]内任意不同两点，到达另一区域所用时间相同；

且一个区域内至多存在一个充电站，则K≤L；

步骤1所述将一天划分成多个时间损耗等级时段为：

中心服务器将一天划分成T个时间损耗等级时段；

t，t∈[1，T]表示第t个时间损耗等级时段，t越高，则第t个时间损耗等级时段内用户车辆去往充电站时间损耗越多；

作为优选，步骤2所述可用充电桩数量为：

p_k∈[1，P_k]k∈[1，K]

其中，p_k表示第k个充电站的可用充电桩数量，P_k表示第k个充电站的充电桩数量总数，K为充电站的数量；

步骤2所述统计进出站车辆数为：

需要充电车辆入站排队充电，入口车辆识别系统每识别一辆车辆，站内车辆数d加1；出口车辆识别系统每识别一辆车辆，站内车辆数d减1；

步骤2所述排队车辆数量为：

c_k＝max(0，d-P_k+p_k)k∈[1，K]

其中，c_k表示第k个充电站的排队车辆数量，d表示站内车辆数，P_k表示第k个充电站的充电桩数量总数，p_k表示第k个充电站的可用充电桩数量，K为充电站的数量；

步骤2所述建立排队车辆数量与可用充电桩数量之间关系模型为：

c_k＞0→p_k＝0

p_k＞0→c_k＝0

步骤2所述进一步构建充电站的排队状态为：

根据排队车辆数量与可用充电桩数量之间关系模型构建充电站的排队状态，具体定义为：

其中，m_k表示第k个充电站的排队状态，p_k表示第k个充电站的可用充电桩数量，c_k表示第k个充电站的排队车辆数量，K为充电站的数量；

步骤2所述在充电站的排队状态发生改变或每隔一定时间将充电站的排队状态无线传输至中心服务器为：

所述信息获取终端在充电站的排队状态发生改变即m_k的值发生变化或每隔一定时间时，通过充电站无线通信模块将充电站的排队状态即m_k无线传输至所述中心服务器；

作为优选，步骤3所述用户充电请求为第n次用户充电请求，n＝H+1；

其中，H为中心服务器经验池中保存训练数据数量；

步骤3所述用户车辆的经度为x_n，即第n次用户充电请求时用户车辆的经度；

步骤3所述用户车辆的纬度为y_n，即第n次用户充电请求时用户车辆的纬度；

步骤3所述用户车辆的已使用电量为v_n，即第n次用户充电请求时用户车辆的已使用电量；

作为优选，步骤4所述记录第n次请求时间，存储为request_n；

步骤4所述根据用户车辆的经度、用户车辆的纬度判定用户车辆所属区域：

中心服务器将用户车辆经纬度，与步骤1划分区域经纬度范围进行比对，确定用户车辆所在区域即area_l，n；

步骤4所述将当前时刻转换成时间损耗：

中心服务器将当前时刻与步骤1划分的时间损耗等级的时间范围进行对比，确定当前时刻的时间损耗t_n，作为第n次用户请求的时间损耗；

步骤4所述用户充电请求的输入状态为：

S_n＝{area_l，n，v_n，t_n，total_n}

total_n＝(m_n，1，m_n，2，...，m_n，K)

其中，aera_l，n表示第n次用户充电请求时用户车辆所属区域，v_n表示第n次用户充电请求时用户车辆的已使用电量，t_n表示第n次用户充电请求时的时间损耗等级时段，total_n表示第n次用户充电请求时所有充电站的排队状态，m_n，k k∈[1，K]表示第n次用户充电请求时第k个充电站的排队状态；

作为优选，步骤5所述构建深度神经网络，随机初始化其参数具体为：

深度神经网络共M层，第i层有m_i个神经元；

第1层为输入层，共K+3个神经元，即m₁＝K+3，对应第n次用户充电请求的输入状态，即S_n＝{aera_l，n，v_n，t_n，(m_n，1，m_n，2，...，m_n，K)}；

第2～M-1层为隐藏层，层内神经元数满足：

m_i＞K+3

i∈[2，M-1]

并另设偏置单元，单元值为1。

第M层为输出层，共K个神经元，即m_M＝K，对应Q_n＝(q_n，1，q_n，1，...，q_n，K)；

Q_n＝(q_n，1，q_n，1，...，q_n，K)表示步骤5所述充电站的未来总收益为：

Q_n＝(q_n，1，q_n，1，...，q_n，K)

其中，Q_n表示第n次用户充电请求时充电站的未来总收益，q_n，k k∈[1，K]表示第n次用户充电请求时选择第k充电站的未来总收益，K表示充电站的数量；

所述神经网络层间各神经元之间全连接，第i层中第j个神经元对第i+1层中第r个神经元的权重表示为

第i层的偏置表示为b_i，i∈[2，M-1]；

所述权重、偏置在初始化时随机赋值，后在系统优化阶段中调整；步骤5所述进一步得到推荐充电站为：

Q_n＝(q_n，1，q_n，1，...，q_n，K)中选择q_n，k k∈[1，K]的最大值，对应的充电站为第n次用户充电请求时推荐充电站即a_n；

步骤5所述将推荐充电站无线传输至触摸屏显示为：

将a_n无线传输至所述车辆无线通信模块，进一步传输至所述微处理器，所述微处理器控制所述触摸屏显示推荐充电站即a_n；

步骤5所述待用户车辆在推荐充电站充电完成计算充电收益为：

用户车辆驶往推荐充电站a_n，排队、充电，直到充电完成，用户车辆向中心服务器发送本次充电完成，中心服务器记录第n次充电完成时间为complete_n；

中心服务器接收到第n次充电请求充电完成后，根据记录的用户充电请求完成时间计算第n次充电请求的总耗时cost_n，并计算第n次充电请求的充电收益r_n，定义如下：

cost_n＝complete_n-request_n

其中，request_n为第n次请求时间，complete_n为第n次充电完成时间，r_n为第n次用户充电请求的充电收益，c为定值，cost_n为第n次用户充电请求的总耗时；

步骤5所述等待下一次用户充电请求到来构建下一次用户充电请求的输入状态以及四元组，并保存四元组至经验池中为：

中心服务器等待第n+1次用户充电充电请求到来，通过步骤4构建第n+1次用户充电请求的输入状态S_n+1；

步骤5所述四元组为：(S_n，a_n，r_n，S_n+1)；

其中，S_n第n次用户充电请求的输入状态，S_n+1表示第n+1次用户充电请求的输入状态，r_n为第n次用户充电请求的充电收益，cost_n为第n次用户充电请求的总耗时；

步骤5所述经验池为中心服务器存储四元组的空间，其存储四元组数量为H；

步骤5所述经验池内存储四元组为：

(S₁，a₁，r₁，S₂)、(S₂，a₂，r₂，S₃)、...、(S_H，a_H，r_H，S_H+1)

作为优选，步骤6所述中心服务器从经验池中随机提取一定数量四元组构建训练集为：

中心服务器从经验池中提取h个四元组作为本次系统优化阶段训练集，认定经验池后b项为新经验纪录，被提取概率大，第1～H-b项认定旧经验，被提取概率小，第p项被提取概率表示为：

其中，Prob(p)为经验池中第p项被提取的概率，b为新经验纪录个数；

步骤6所述提取作为训练集的四元组为：

其中，

为训练集中第e个四元组，对应经验池内存储四元组中第p_e个四元组；

步骤6所述依次将训练集中每个四元组中第p_e次用户充电请求的输入状态即

和第p_e+1次用户充电请求的输入状态即

输入至深度神经网络，遍历h个训练集中四元组，计算损失函数，调整参数；

深度神经网络在本次系统优化阶段共调整参数h次；

步骤6所述计算损失函数优化深度神经网络的参数为：

深度神经网络输入四元组

中的

计算

即深度神经网络预估

的未来收益大小；

将四元组

中

输入到深度神经网络中计算

其中

为

下当前深度神经网络依照步骤5所选取的推荐充电站；

结合四元组中的

陶造损失函数，计算误差；

其中，Loss为损失函数，

为第p_e次用户充电请求的充电收益，γ表示折扣系数，其值越高表示未来收益占的比重越高，

表示当前深度神经网络预估

能获未来最大收益的大小，

表示当前深度神经网络根据

计算的未来收益大小，即预估第p_e次用户充电请求的未来收益；

依照当前计算的误差通过反向传播得到优化后深度神经网络中各层权重及偏置，即

及各层偏置b_i，i∈[2，M-1]；

其中，

为神经网络第i层第j个神经元连接i+1层第r个神经元的权重值，m_i为第i层包含神经元数，M为神经网络层数，b_i为第i层偏置。

经过h次参数调整，结束本次系统优化，调整完毕的各层权重表示为：

各层偏置表示为

其中，

为神经网络本次系统优化后第i层第j个神经元连接i+1层第r个神经元的权重值，m_i为第i层包含神经元数，M为神经网络层数，

为系统优化后第i层偏置。

有益效果

本发明中的推荐算法具有以下两点优势：

通过基于深度神经网络，能够处理大规模的充电站推荐管理场景；

通过深度神经网络实现了系统的最优化，即平均用户充电时间最短和各充电站的负载均衡量。

附图说明

图1：为本发明装置结构架构图。

图2：为本发明方法流程图。

图3：为充电站上传排队状态流程图。

图4：为智能充电站推荐系统流程图。

具体实施方法

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明装置结构图。一种基于深度强化学习的智能充电站优化选择装置，包括：微处理器、触摸屏、GPS定位模块、电量检测模块、车辆无线通信模块、车辆识别系统、充电桩检测模块、信息获取终端、充电站无线通信模块、中心服务器；

所述中心服务器根据用户充电请求、用户车辆的经度、用户车辆的纬度、用户车辆的已使用电量、充电站，通过一种基于深度强化学习的智能充电站优化选择方法实现充电站优化选择。

所述微处理器选型为MPC5744P；所述触摸屏选型为HIT CAR安卓通用导航一体机；所述GPS定位模块选型为SKG12Q；所述电量检测模块选型为MAX17205；所述车辆无线通信模块选型为USR-GPRS232-730；所述车辆识别系统选型为INEX-TI200；所述充电桩检测模块选型为MY-EVC3000S-V3；所述信息获取终端选型为SCMD-M5；所述充电站无线通信模块选型为MY-EVC3000S-V3；所述中心服务器选型为Dell PowerEdge 12G R320；

本发明方法流程图如图2所示，下面结合图1至图4，介绍本发明的具体实施方式为：一种基于深度强化学习的智能充电站优化选择方法，其特征在于，包括以下步骤：

步骤1所述充电站的数量为K＝5；

步骤1所述管理区域划分成多个区域为：

管理区域划分成L＝18个区域，具体为：

area₁、area₂、...、area_L

其中，area_l，l∈[1，L]为第I个区域；

且一个区域内至多存在一个充电站；

步骤1所述将一天划分成多个时间损耗等级时段为：

中心服务器将一天划分成T＝3个时间损耗等级时段；

步骤2所述可用充电桩数量为：

p_k∈[1，P_k]k∈[1，K]

其中，p_k表示第k个充电站的可用充电桩数量，P_k＝4，i∈[1，K]表示第k个充电站的充电桩数量总数，K＝5为充电站的数量；

步骤2所述统计进出站车辆数为：

步骤2所述排队车辆数量为：

c_k＝max(0，d-P_k+p_k)k∈[1，K]

其中，c_k表示第k个充电站的排队车辆数量，d表示站内车辆数，P_k＝4，i∈[1，K]表示第k个充电站的充电桩数量总数，p_k表示第k个充电站的可用充电桩数量，K＝5为充电站的数量；

c_k＞0→p_k＝0

p_k＞0→c_k＝0

步骤2所述进一步构建充电站的排队状态为：

其中，m_k表示第k个充电站的排队状态，p_k表示第k个充电站的可用充电桩数量，c_k表示第k个充电站的排队车辆数量，K＝5为充电站的数量；

如图3所示，所述信息获取终端在充电站的排队状态发生改变即m_k的值发生变化或每隔10分钟，通过充电站无线通信模块将充电站的排队状态即m_k无线传输至所述中心服务器；

步骤3所述用户充电请求为第n次用户充电请求，n＝H+1；

其中，H为中心服务器经验池中保存训练数据数量；

步骤4：中心服务器记录第n次请求时间；并根据用户车辆的经度、用户车辆的纬度判定用户车辆所属区域；且将当前时刻转换成时间损耗；通过用户充电请求、用户车辆所属区域、用户车辆的已使用电量、时间损耗、所有充电站的排队状态构建用户充电请求的输入状态；

步骤4所述记录第n次请求时间，存储为request_n；

步骤4所述将当前时刻转换成时间损耗：

步骤4所述用户充电请求的输入状态为：

S_n＝{area_l，n，v_n，t_n，total_n}

total_n＝(m_n，1，m_n，2，...，m_n，K)

其中，aera_l，n表示第n次用户充电请求时用户车辆所属区域，v_n表示第n次用户充电请求时用户车辆的已使用电量，t_n表示第n次用户充电请求时的时间损耗等级时段，total_n表示第n次用户充电请求时所有充电站的排队状态，m_n，k，k∈[1，K]表示第n次用户充电请求时第k个充电站的排队状态，K＝5为充电站的数量；

步骤5所述构建深度神经网络，随机初始化其参数具体为：

深度神经网络共M＝5层，第i层有m_i个神经元；

第1层为输入层，共K+3个神经元，即m₁＝8，对应第n次用户充电请求的输入状态，即S_n＝{aera_l，n，v_n，t_n，(m_n，1，m_n，2，...，m_n，K)}；

第2～M-1层为隐藏层，层内神经元数满足：

m_i＝10

i∈[2，M-1]

并另设偏置单元，单元值为1。

第M＝5层为输出层，共K个神经元，即m₅＝5，对应Q_n＝(q_n，1，q_n，1_，...，q_n，K)；

Q_n＝(q_n，1，q_n，1，...，q_n，K)

其中，Q_n表示第n次用户充电请求时充电站的未来总收益，q_n，k k∈[1，K]表示第n次用户充电请求时选择第k充电站的未来总收益，K＝5表示充电站的数量；

第i层的偏置表示为b_i，i∈[2，M-1]；

所述权重、偏置在初始化时随机赋值，后在系统优化阶段中调整；

步骤5所述进一步得到推荐充电站为：

步骤5所述将推荐充电站无线传输至触摸屏显示为：

cost_n＝complete_n-request_n

其中，request_n为第n次请求时间，complete_n为第n次充电完成时间，r_n为第n次用户充电请求的充电收益，c＝10为定值，cost_n为第n次用户充电请求的总耗时；

步骤5所述四元组为：(S_n，a_n，r_n，S_n+1)；

步骤5所述经验池内存储四元组为：

步骤6所述中心服务器从经验池中随机提取一定数量四元组构建训练集为：

中心服务器从经验池中提取h＝1200个四元组作为本次系统优化阶段训练集，认定经验池后b＝1000项为新经验纪录，被提取概率大，第1～H-b项认定旧经验，被提取概率小，第p项被提取概率表示为：

其中，Prob(p)为经验池中第p项被提取的概率，b＝1000为新经验记录个数；

步骤6所述提取作为训练集的四元组为：

其中，

和第p_e+1次用户充电请求的输入状态即

输入至深度神经网络，遍历h＝1200个训练集中四元组，计算损失函数，调整参数；

深度神经网络在本次系统优化阶段共调整参数h＝1200次；

步骤6所述计算损失函数优化深度神经网络的参数为：

深度神经网络输入四元组

中的

计算

即深度神经网络预估

的未来收益大小；

将四元组

中

输入到深度神经网络中计算

其中

为

下当前深度神经网络依照步骤5所选取的推荐充电站；

结合四元组中的

陶造损失函数，计算误差；

其中，Loss为损失函数，

为第p_e次用户充电请求的充电收益，γ＝0.8表示折扣系数，其值越高表示未来收益占的比重越高，

表示当前深度神经网络预估

能获未来最大收益的大小，

表示当前深度神经网络根据

及各层偏置b_i，i∈[2，M-1]；

其中，

为神经网络第i层第j个神经元连接i+1层第r个神经元的权重值，m_i为第i层包含神经元数，M＝5为神经网络层数，b_i为第i层偏置。

各层偏置表示为

其中，

为神经网络本次系统优化后第i层第j个神经元连接i+1层第r个神经元的权重值，m_i为第i层包含神经元数，M＝5为神经网络层数，

为系统优化后第i层偏置。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度强化学习的智能充电站优化选择方法，其特征在于，包括以下步骤：

步骤6：中心服务器从经验池中随机提取一定数量四元组构建训练集，依次将训练集中每个四元组提供给深度神经网络计算损失函数，优化深度神经网络的参数。

2.根据权利要求1所述的基于深度强化学习的智能充电站优化选择方法，其特征在于：

步骤1所述充电站的数量为K；

步骤1所述管理区域划分成多个区域为：

管理区域划分成L个区域，具体为：

area₁、area₂、...、area_L

其中，area_l，l∈[1，L]为第l个区域；

且一个区域内至多存在一个充电站，则K≤L；

步骤1所述将一天划分成多个时间损耗等级时段为：

中心服务器将一天划分成T个时间损耗等级时段；

t，t∈[1，T]表示第t个时间损耗等级时段，t越高，则第t个时间损耗等级时段内用户车辆去往充电站时间损耗越多。

3.根据权利要求1所述的基于深度强化学习的智能充电站优化选择方法，其特征在于：

步骤2所述可用充电桩数量为：

p_k∈[1，P_k]k∈[1，K]

步骤2所述统计进出站车辆数为：

步骤2所述排队车辆数量为：

c_k＝max(0，d-P_k+p_k)k∈[1，K]

c_k＞0→p_k＝0

p_k＞0→c_k＝0

步骤2所述进一步构建充电站的排队状态为：

所述信息获取终端在充电站的排队状态发生改变即m_k的值发生变化或每隔一定时间时，通过充电站无线通信模块将充电站的排队状态即m_k无线传输至所述中心服务器。

4.根据权利要求1所述的基于深度强化学习的智能充电站优化选择方法，其特征在于：

步骤3所述用户充电请求为第n次用户充电请求，n＝H+1；

其中，H为中心服务器经验池中保存训练数据数量；

步骤3所述用户车辆的已使用电量为v_n，即第n次用户充电请求时用户车辆的已使用电量。

5.根据权利要求1所述的基于深度强化学习的智能充电站优化选择方法，其特征在于：

步骤4所述记录第n次请求时间，存储为request_n；

步骤4所述将当前时刻转换成时间损耗：

步骤4所述用户充电请求的输入状态为：

S_n＝{area_l，n，v_n，t_n，total_n}

total_n＝(m_n，1，m_n，2，...，m_n，K)

其中，aera_l，n表示第n次用户充电请求时用户车辆所属区域，v_n表示第n次用户充电请求时用户车辆的已使用电量，t_n表示第n次用户充电请求时的时间损耗等级时段，total_n表示第n次用户充电请求时所有充电站的排队状态，m_n，kk∈[1，K]表示第n次用户充电请求时第k个充电站的排队状态。

6.根据权利要求1所述的基于深度强化学习的智能充电站优化选择方法，其特征在于：

步骤5所述构建深度神经网络，随机初始化其参数具体为：

深度神经网络共M层，第i层有m_i个神经元；

第2～M-1层为隐藏层，层内神经元数满足：

m_i＞K+3

i∈[2，M-1]

并另设偏置单元，单元值为1；

Q_n＝(q_n，1，q_n，1，...，q_n，K)

其中，Q_n表示第n次用户充电请求时充电站的未来总收益，q_n，kk∈[1，K]表示第n次用户充电请求时选择第k充电站的未来总收益，K表示充电站的数量；

第i层的偏置表示为b_i，i∈[2，M-1]；

Q_n＝(q_n，1，q_n，1，...，q_n，K)中选择q_n，kk∈[1，K]的最大值，对应的充电站为第n次用户充电请求时推荐充电站即a_n；

步骤5所述将推荐充电站无线传输至触摸屏显示为：

cost_n＝complete_n-request_n

步骤5所述四元组为：(S_n，a_n，r_n，S_n+1)；

步骤5所述经验池内存储四元组为：

(S₁，a₁，r₁，S₂)、(S₂，a₂，r₂，S₃)、...、(S_H，a_H，r_H，S_H+1)。

7.根据权利要求1所述的基于深度强化学习的智能充电站优化选择方法，其特征在于：

步骤6所述提取作为训练集的四元组为：

其中，

和第p_e+1次用户充电请求的输入状态即

深度神经网络在本次系统优化阶段共调整参数h次；

步骤6所述计算损失函数优化深度神经网络的参数为：

深度神经网络输入四元组

中的

计算

即深度神经网络预估

的未来收益大小；

将四元组

中

输入到深度神经网络中计算

其中

为

下当前深度神经网络依照步骤5所选取的推荐充电站；

结合四元组中的

构造损失函数，计算误差；

其中，Loss为损失函数，

表示当前深度神经网络预估

能获未来最大收益的大小，

表示当前深度神经网络根据

及各层偏置b_i，i∈[2，M-1]；

其中，

为神经网络第i层第j个神经元连接i+1层第r个神经元的权重值，m_i为第i层包含神经元数，M为神经网络层数，b_i为第i层偏置；

各层偏置表示为

其中，

为系统优化后第i层偏置。

8.一种基于深度强化学习的智能充电站优化选择装置应用于权利要求1-7任意所述的基于深度强化学习的智能充电站优化选择方法，其特征在于，包括：

微处理器、触摸屏、GPS定位模块、电量检测模块、车辆无线通信模块、车辆识别系统、充电桩检测模块、信息获取终端、充电站无线通信模块、中心服务器；

所述的微处理器、触摸屏、GPS定位模块、电量检测模块、车辆无线通信模块部署于用户车辆上；所述充电桩检测装置部署于充电桩上；所述的车辆识别系统、信息获取终端、充电站无线通信模块均部署于充电站里；

在用户车辆需要充电时，用户通过所述触摸屏输入用户充电请求并传输至所述微处理器，所述微处理器将用户充电请求、用户车辆的经度、用户车辆的纬度、用户车辆的已使用电量通过车辆无线通信模块无线传输至所述中心服务器；