CN111523722A - 一种基于深度强化学习的智能充电站优化选择系统 - Google Patents

一种基于深度强化学习的智能充电站优化选择系统 Download PDF

Info

Publication number
CN111523722A
CN111523722A CN202010310702.5A CN202010310702A CN111523722A CN 111523722 A CN111523722 A CN 111523722A CN 202010310702 A CN202010310702 A CN 202010310702A CN 111523722 A CN111523722 A CN 111523722A
Authority
CN
China
Prior art keywords
charging
user
charging station
vehicle
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010310702.5A
Other languages
English (en)
Other versions
CN111523722B (zh
Inventor
林海
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202010310702.5A priority Critical patent/CN111523722B/zh
Publication of CN111523722A publication Critical patent/CN111523722A/zh
Application granted granted Critical
Publication of CN111523722B publication Critical patent/CN111523722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

本发明提出了一种基于深度强化学习的智能充电站优化选择系统。本发明构建充电站的排队状态;根据用户车辆的经纬度判定用户车辆所属区域;且将当前时刻转换成时间损耗。中心服务器将用户车辆所属区域、用户车辆已使用电量、时间损耗、所有充电站排队状态作为深度神经网络输入,估计充电站的未来总收益,得到推荐充电站。待用户车辆在推荐充电站充电完成计算充电收益,并等待下一次用户充电请求构建四元组,保存到经验池中;中心服务器随机提取四元组进行训练,计算损失函数,优化深度神经网络的参数。本发明能够处理大规模的充电站推荐管理场景,通过神经网络优化平均用户充电时间最短和各充电站的负载均衡量。

Description

一种基于深度强化学习的智能充电站优化选择系统
技术领域
本发明涉及充电站推荐领域,具体涉及一种基于深度强化学习的智能充电站优化选择系统。
背景技术
随着环境与能源问题越来越受人们关注,环保设施和清洁能源的使用将成为大的趋势。纯电动汽车完全采用电力作为动力源,真正实现了污染零排放,备受人们关注。其基础充电设施也在进一步推广,为解决电动汽车出行与使用问题提供了便利。
目前用户充电,通常通过导航软件行驶最近充电站处。由于用户无法获取充电站信息、电动汽车充电时间较长、热点区域等因素,将导致充电用户在充电站的分配不合理,从而影响用户体验。
发明内容
本发明的目的在于提供一种基于深度强化学习的智能充电站优化选择系统,利用深度强化学习算法,从充电系统的整体性能出发,推荐不同的电动车到不同的充电站,从而实现用户平均等待时间最短、充电站负载均衡等目的。
基于深度强化学习的智能充电站优化选择系统包括:基于深度强化学习的智能充电站优化选择装置、基于深度强化学习的智能充电站优化选择方法。
本发明装置的技术方案是一种基于深度强化学习的智能充电站优化选择装置,包括:微处理器、触摸屏、GPs定位模块、电量检测模块、车辆无线通信模块、车辆识别系统、充电桩检测模块、信息获取终端、充电站无线通信模块、中心服务器;
所述GPS定位模块与所述微处理器通过有线方式连接;所述电量检测模块与所述微处理器通过有线方式连接;所述触摸屏与所述微处理器通过有线方式连接;所述微处理器与所述车辆无线通信模块通过有线方式连接;所述车辆无线通信模块与所述中心服务器通过无线方式连接;所述充电桩检测装置与所述信息获取终端通过有线方式连接;所述车辆识别系统与所述信息获取终端通过有线方式连接;所述信息获取终端与所述充电站无线通信模块通过有线方式连接;所述充电站无线通信模块与中心服务器通过无线方式连接;
所述的微处理器、触摸屏、GPS定位模块、电量检测模块、车辆无线通信模块部署于用户车辆上;所述充电桩检测装置部署于充电桩上;所述的车辆识别系统、信息获取终端、充电站无线通信模块均部署于充电站里。
所述微处理器协调控制所述的GPS定位模块、电量检测模块、车辆无线通信模块;所述微处理器控制所述的触摸屏实现人机交互;
所述GPS定位模块采集用户车辆的经度、用户车辆的纬度,将用户车辆的经度、用户车辆的纬度传输至所述微处理器;
所述电量检测模块实时采集用户车辆的已使用电量,将用户车辆的已使用电量传输至所述微处理器;
在用户车辆需要充电时,用户通过所述触摸屏输入用户充电请求并传输至所述微处理器,所述微处理器将用户充电请求、用户车辆的经度、用户车辆的纬度、用户车辆的已使用电量通过车辆无线通信模块无线传输至所述中心服务器。
所述充电桩检测模块实时检测可用充电桩数量,将可用充电桩数量有线传输到信息获取终端;
所述车辆识别系统,以站内摄像头加图像处理为主,刷卡入站为辅的方式识别进出站车辆,将站内车辆变化有线传输到信息获取终端;
所述信息获取终端根据站内车辆变化计算排队车辆数量,并依照可用充电桩数量、排队车辆数量得到充电站的排队状态,通过充电站无线通信模块将充电站的排队状态无线传输至所述中心服务器;
所述中心服务器根据用户充电请求时的时间、用户车辆的经度、用户车辆的纬度、用户车辆的已使用电量、充电站状态,通过一种基于深度强化学习的智能充电站优化选择方法实现充电站优化选择;
所述中心服务器记录用户相关充电信息作为训练数据保存至经验池中,系统优化阶段从经验池提取数据构建训练集,对系统进行调整优化。
本发明方法的技术方案是一种基于深度强化学习的智能充电站优化选择方法,包括以下步骤:
步骤1:中心服务器管理多个充电站,将管理区域划分成多个区域,将一天划分成多个时间损耗等级时段;
步骤2:信息获取终端通过充电桩检测模块实时检测可用充电桩数量,通过车辆识别系统统计进出站车辆数,建立排队车辆数量与可用充电桩数量之间关系模型,进一步构建充电站的排队状态,在充电站的排队状态发生改变或每隔一定时间将充电站的排队状态无线传输至中心服务器;
步骤3:微处理器将用户充电请求、用户车辆的经度、用户车辆的纬度、用户车辆的已使用电量通过车辆无线通信模块无线传输至所述中心服务器;
步骤4:中心服务器记录第n次请求时间;并根据用户车辆的经度、用户车辆的纬度判定用户车辆所属区域;且将当前时刻转换成时间损耗;通过用户车辆所属区域、用户车辆的已使用电量、时间损耗、所有充电站的排队状态构建用户充电请求的输入状态;
步骤5:构建深度神经网络,随机初始化其参数,深度神经网络根据用户充电请求的输入状态估计充电站的未来总收益,进一步得到推荐充电站,将推荐充电站无线传输至触摸屏显示,待用户车辆在推荐充电站充电完成计算充电收益,等待下一次用户充电请求到来构建下一次用户充电请求的输入状态以及四元组,并将四元组作为训练数保存至经验池中;
步骤6:中心服务器从经验池中随机提取一定数量四元组构建训练集,依次将训练集中每个四元组提供给深度神经网络计算损失函数,优化深度神经网络的参数;
作为优选,步骤1所述充电站的数量为K;
步骤1所述管理区域划分成多个区域为:
管理区域划分成L个区域,具体为:
area1、area2、...、areaL
其中,areal,l∈[1,L]为第I个区域;
且areal,l∈[1,L]内任意不同两点,到达另一区域所用时间相同;
且一个区域内至多存在一个充电站,则K≤L;
步骤1所述将一天划分成多个时间损耗等级时段为:
中心服务器将一天划分成T个时间损耗等级时段;
t,t∈[1,T]表示第t个时间损耗等级时段,t越高,则第t个时间损耗等级时段内用户车辆去往充电站时间损耗越多;
作为优选,步骤2所述可用充电桩数量为:
pk∈[1,Pk]k∈[1,K]
其中,pk表示第k个充电站的可用充电桩数量,Pk表示第k个充电站的充电桩数量总数,K为充电站的数量;
步骤2所述统计进出站车辆数为:
需要充电车辆入站排队充电,入口车辆识别系统每识别一辆车辆,站内车辆数d加1;出口车辆识别系统每识别一辆车辆,站内车辆数d减1;
步骤2所述排队车辆数量为:
ck=max(0,d-Pk+pk)k∈[1,K]
其中,ck表示第k个充电站的排队车辆数量,d表示站内车辆数,Pk表示第k个充电站的充电桩数量总数,pk表示第k个充电站的可用充电桩数量,K为充电站的数量;
步骤2所述建立排队车辆数量与可用充电桩数量之间关系模型为:
ck>0→pk=0
pk>0→ck=0
步骤2所述进一步构建充电站的排队状态为:
根据排队车辆数量与可用充电桩数量之间关系模型构建充电站的排队状态,具体定义为:
Figure BDA0002457507210000041
其中,mk表示第k个充电站的排队状态,pk表示第k个充电站的可用充电桩数量,ck表示第k个充电站的排队车辆数量,K为充电站的数量;
步骤2所述在充电站的排队状态发生改变或每隔一定时间将充电站的排队状态无线传输至中心服务器为:
所述信息获取终端在充电站的排队状态发生改变即mk的值发生变化或每隔一定时间时,通过充电站无线通信模块将充电站的排队状态即mk无线传输至所述中心服务器;
作为优选,步骤3所述用户充电请求为第n次用户充电请求,n=H+1;
其中,H为中心服务器经验池中保存训练数据数量;
步骤3所述用户车辆的经度为xn,即第n次用户充电请求时用户车辆的经度;
步骤3所述用户车辆的纬度为yn,即第n次用户充电请求时用户车辆的纬度;
步骤3所述用户车辆的已使用电量为vn,即第n次用户充电请求时用户车辆的已使用电量;
作为优选,步骤4所述记录第n次请求时间,存储为requestn
步骤4所述根据用户车辆的经度、用户车辆的纬度判定用户车辆所属区域:
中心服务器将用户车辆经纬度,与步骤1划分区域经纬度范围进行比对,确定用户车辆所在区域即areal,n
步骤4所述将当前时刻转换成时间损耗:
中心服务器将当前时刻与步骤1划分的时间损耗等级的时间范围进行对比,确定当前时刻的时间损耗tn,作为第n次用户请求的时间损耗;
步骤4所述用户充电请求的输入状态为:
Sn={areal,n,vn,tn,totaln}
totaln=(mn,1,mn,2,...,mn,K)
其中,aeral,n表示第n次用户充电请求时用户车辆所属区域,vn表示第n次用户充电请求时用户车辆的已使用电量,tn表示第n次用户充电请求时的时间损耗等级时段,totaln表示第n次用户充电请求时所有充电站的排队状态,mn,k k∈[1,K]表示第n次用户充电请求时第k个充电站的排队状态;
作为优选,步骤5所述构建深度神经网络,随机初始化其参数具体为:
深度神经网络共M层,第i层有mi个神经元;
第1层为输入层,共K+3个神经元,即m1=K+3,对应第n次用户充电请求的输入状态,即Sn={aeral,n,vn,tn,(mn,1,mn,2,...,mn,K)};
第2~M-1层为隐藏层,层内神经元数满足:
mi>K+3
i∈[2,M-1]
并另设偏置单元,单元值为1。
第M层为输出层,共K个神经元,即mM=K,对应Qn=(qn,1,qn,1,...,qn,K);
Qn=(qn,1,qn,1,...,qn,K)表示步骤5所述充电站的未来总收益为:
Qn=(qn,1,qn,1,...,qn,K)
其中,Qn表示第n次用户充电请求时充电站的未来总收益,qn,k k∈[1,K]表示第n次用户充电请求时选择第k充电站的未来总收益,K表示充电站的数量;
所述神经网络层间各神经元之间全连接,第i层中第j个神经元对第i+1层中第r个神经元的权重表示为
Figure BDA0002457507210000061
第i层的偏置表示为bi,i∈[2,M-1];
所述权重、偏置在初始化时随机赋值,后在系统优化阶段中调整;步骤5所述进一步得到推荐充电站为:
Qn=(qn,1,qn,1,...,qn,K)中选择qn,k k∈[1,K]的最大值,对应的充电站为第n次用户充电请求时推荐充电站即an
步骤5所述将推荐充电站无线传输至触摸屏显示为:
将an无线传输至所述车辆无线通信模块,进一步传输至所述微处理器,所述微处理器控制所述触摸屏显示推荐充电站即an
步骤5所述待用户车辆在推荐充电站充电完成计算充电收益为:
用户车辆驶往推荐充电站an,排队、充电,直到充电完成,用户车辆向中心服务器发送本次充电完成,中心服务器记录第n次充电完成时间为completen
中心服务器接收到第n次充电请求充电完成后,根据记录的用户充电请求完成时间计算第n次充电请求的总耗时costn,并计算第n次充电请求的充电收益rn,定义如下:
costn=completen-requestn
Figure BDA0002457507210000062
其中,requestn为第n次请求时间,completen为第n次充电完成时间,rn为第n次用户充电请求的充电收益,c为定值,costn为第n次用户充电请求的总耗时;
步骤5所述等待下一次用户充电请求到来构建下一次用户充电请求的输入状态以及四元组,并保存四元组至经验池中为:
中心服务器等待第n+1次用户充电充电请求到来,通过步骤4构建第n+1次用户充电请求的输入状态Sn+1
步骤5所述四元组为:(Sn,an,rn,Sn+1);
其中,Sn第n次用户充电请求的输入状态,Sn+1表示第n+1次用户充电请求的输入状态,rn为第n次用户充电请求的充电收益,costn为第n次用户充电请求的总耗时;
步骤5所述经验池为中心服务器存储四元组的空间,其存储四元组数量为H;
步骤5所述经验池内存储四元组为:
(S1,a1,r1,S2)、(S2,a2,r2,S3)、...、(SH,aH,rH,SH+1)
作为优选,步骤6所述中心服务器从经验池中随机提取一定数量四元组构建训练集为:
中心服务器从经验池中提取h个四元组作为本次系统优化阶段训练集,认定经验池后b项为新经验纪录,被提取概率大,第1~H-b项认定旧经验,被提取概率小,第p项被提取概率表示为:
Figure BDA0002457507210000071
其中,Prob(p)为经验池中第p项被提取的概率,b为新经验纪录个数;
步骤6所述提取作为训练集的四元组为:
Figure BDA0002457507210000072
其中,
Figure BDA0002457507210000073
为训练集中第e个四元组,对应经验池内存储四元组中第pe个四元组;
步骤6所述依次将训练集中每个四元组中第pe次用户充电请求的输入状态即
Figure BDA0002457507210000081
和第pe+1次用户充电请求的输入状态即
Figure BDA0002457507210000082
输入至深度神经网络,遍历h个训练集中四元组,计算损失函数,调整参数;
深度神经网络在本次系统优化阶段共调整参数h次;
步骤6所述计算损失函数优化深度神经网络的参数为:
深度神经网络输入四元组
Figure BDA0002457507210000083
中的
Figure BDA0002457507210000084
计算
Figure BDA0002457507210000085
即深度神经网络预估
Figure BDA0002457507210000086
的未来收益大小;
将四元组
Figure BDA0002457507210000087
Figure BDA0002457507210000088
输入到深度神经网络中计算
Figure BDA0002457507210000089
其中
Figure BDA00024575072100000810
Figure BDA00024575072100000811
下当前深度神经网络依照步骤5所选取的推荐充电站;
结合四元组中的
Figure BDA00024575072100000812
陶造损失函数,计算误差;
Figure BDA00024575072100000813
其中,Loss为损失函数,
Figure BDA00024575072100000814
为第pe次用户充电请求的充电收益,γ表示折扣系数,其值越高表示未来收益占的比重越高,
Figure BDA00024575072100000815
表示当前深度神经网络预估
Figure BDA00024575072100000816
能获未来最大收益的大小,
Figure BDA00024575072100000817
表示当前深度神经网络根据
Figure BDA00024575072100000818
计算的未来收益大小,即预估第pe次用户充电请求的未来收益;
依照当前计算的误差通过反向传播得到优化后深度神经网络中各层权重及偏置,即
Figure BDA00024575072100000819
及各层偏置bi,i∈[2,M-1];
其中,
Figure BDA00024575072100000820
为神经网络第i层第j个神经元连接i+1层第r个神经元的权重值,mi为第i层包含神经元数,M为神经网络层数,bi为第i层偏置。
经过h次参数调整,结束本次系统优化,调整完毕的各层权重表示为:
Figure BDA00024575072100000821
各层偏置表示为
Figure BDA00024575072100000822
其中,
Figure BDA00024575072100000823
为神经网络本次系统优化后第i层第j个神经元连接i+1层第r个神经元的权重值,mi为第i层包含神经元数,M为神经网络层数,
Figure BDA00024575072100000824
为系统优化后第i层偏置。
有益效果
本发明中的推荐算法具有以下两点优势:
通过基于深度神经网络,能够处理大规模的充电站推荐管理场景;
通过深度神经网络实现了系统的最优化,即平均用户充电时间最短和各充电站的负载均衡量。
附图说明
图1:为本发明装置结构架构图。
图2:为本发明方法流程图。
图3:为充电站上传排队状态流程图。
图4:为智能充电站推荐系统流程图。
具体实施方法
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明装置结构图。一种基于深度强化学习的智能充电站优化选择装置,包括:微处理器、触摸屏、GPS定位模块、电量检测模块、车辆无线通信模块、车辆识别系统、充电桩检测模块、信息获取终端、充电站无线通信模块、中心服务器;
所述GPS定位模块与所述微处理器通过有线方式连接;所述电量检测模块与所述微处理器通过有线方式连接;所述触摸屏与所述微处理器通过有线方式连接;所述微处理器与所述车辆无线通信模块通过有线方式连接;所述车辆无线通信模块与所述中心服务器通过无线方式连接;所述充电桩检测装置与所述信息获取终端通过有线方式连接;所述车辆识别系统与所述信息获取终端通过有线方式连接;所述信息获取终端与所述充电站无线通信模块通过有线方式连接;所述充电站无线通信模块与中心服务器通过无线方式连接;
所述的微处理器、触摸屏、GPS定位模块、电量检测模块、车辆无线通信模块部署于用户车辆上;所述充电桩检测装置部署于充电桩上;所述的车辆识别系统、信息获取终端、充电站无线通信模块均部署于充电站里。
所述微处理器协调控制所述的GPS定位模块、电量检测模块、车辆无线通信模块;所述微处理器控制所述的触摸屏实现人机交互;
所述GPS定位模块采集用户车辆的经度、用户车辆的纬度,将用户车辆的经度、用户车辆的纬度传输至所述微处理器;
所述电量检测模块实时采集用户车辆的已使用电量,将用户车辆的已使用电量传输至所述微处理器;
在用户车辆需要充电时,用户通过所述触摸屏输入用户充电请求并传输至所述微处理器,所述微处理器将用户充电请求、用户车辆的经度、用户车辆的纬度、用户车辆的已使用电量通过车辆无线通信模块无线传输至所述中心服务器。
所述充电桩检测模块实时检测可用充电桩数量,将可用充电桩数量有线传输到信息获取终端;
所述车辆识别系统,以站内摄像头加图像处理为主,刷卡入站为辅的方式识别进出站车辆,将站内车辆变化有线传输到信息获取终端;
所述信息获取终端根据站内车辆变化计算排队车辆数量,并依照可用充电桩数量、排队车辆数量得到充电站的排队状态,通过充电站无线通信模块将充电站的排队状态无线传输至所述中心服务器;
所述中心服务器根据用户充电请求、用户车辆的经度、用户车辆的纬度、用户车辆的已使用电量、充电站,通过一种基于深度强化学习的智能充电站优化选择方法实现充电站优化选择。
所述中心服务器记录用户相关充电信息作为训练数据保存至经验池中,系统优化阶段从经验池提取数据构建训练集,对系统进行调整优化。
所述微处理器选型为MPC5744P;所述触摸屏选型为HIT CAR安卓通用导航一体机;所述GPS定位模块选型为SKG12Q;所述电量检测模块选型为MAX17205;所述车辆无线通信模块选型为USR-GPRS232-730;所述车辆识别系统选型为INEX-TI200;所述充电桩检测模块选型为MY-EVC3000S-V3;所述信息获取终端选型为SCMD-M5;所述充电站无线通信模块选型为MY-EVC3000S-V3;所述中心服务器选型为Dell PowerEdge 12G R320;
本发明方法流程图如图2所示,下面结合图1至图4,介绍本发明的具体实施方式为:一种基于深度强化学习的智能充电站优化选择方法,其特征在于,包括以下步骤:
步骤1:中心服务器管理多个充电站,将管理区域划分成多个区域,将一天划分成多个时间损耗等级时段;
步骤1所述充电站的数量为K=5;
步骤1所述管理区域划分成多个区域为:
管理区域划分成L=18个区域,具体为:
area1、area2、...、areaL
其中,areal,l∈[1,L]为第I个区域;
且areal,l∈[1,L]内任意不同两点,到达另一区域所用时间相同;
且一个区域内至多存在一个充电站;
步骤1所述将一天划分成多个时间损耗等级时段为:
中心服务器将一天划分成T=3个时间损耗等级时段;
t,t∈[1,T]表示第t个时间损耗等级时段,t越高,则第t个时间损耗等级时段内用户车辆去往充电站时间损耗越多;
步骤2:信息获取终端通过充电桩检测模块实时检测可用充电桩数量,通过车辆识别系统统计进出站车辆数,建立排队车辆数量与可用充电桩数量之间关系模型,进一步构建充电站的排队状态,在充电站的排队状态发生改变或每隔一定时间将充电站的排队状态无线传输至中心服务器;
步骤2所述可用充电桩数量为:
pk∈[1,Pk]k∈[1,K]
其中,pk表示第k个充电站的可用充电桩数量,Pk=4,i∈[1,K]表示第k个充电站的充电桩数量总数,K=5为充电站的数量;
步骤2所述统计进出站车辆数为:
需要充电车辆入站排队充电,入口车辆识别系统每识别一辆车辆,站内车辆数d加1;出口车辆识别系统每识别一辆车辆,站内车辆数d减1;
步骤2所述排队车辆数量为:
ck=max(0,d-Pk+pk)k∈[1,K]
其中,ck表示第k个充电站的排队车辆数量,d表示站内车辆数,Pk=4,i∈[1,K]表示第k个充电站的充电桩数量总数,pk表示第k个充电站的可用充电桩数量,K=5为充电站的数量;
步骤2所述建立排队车辆数量与可用充电桩数量之间关系模型为:
ck>0→pk=0
pk>0→ck=0
步骤2所述进一步构建充电站的排队状态为:
根据排队车辆数量与可用充电桩数量之间关系模型构建充电站的排队状态,具体定义为:
Figure BDA0002457507210000121
其中,mk表示第k个充电站的排队状态,pk表示第k个充电站的可用充电桩数量,ck表示第k个充电站的排队车辆数量,K=5为充电站的数量;
步骤2所述在充电站的排队状态发生改变或每隔一定时间将充电站的排队状态无线传输至中心服务器为:
如图3所示,所述信息获取终端在充电站的排队状态发生改变即mk的值发生变化或每隔10分钟,通过充电站无线通信模块将充电站的排队状态即mk无线传输至所述中心服务器;
步骤3:微处理器将用户充电请求、用户车辆的经度、用户车辆的纬度、用户车辆的已使用电量通过车辆无线通信模块无线传输至所述中心服务器;
步骤3所述用户充电请求为第n次用户充电请求,n=H+1;
其中,H为中心服务器经验池中保存训练数据数量;
步骤3所述用户车辆的经度为xn,即第n次用户充电请求时用户车辆的经度;
步骤3所述用户车辆的纬度为yn,即第n次用户充电请求时用户车辆的纬度;
步骤3所述用户车辆的已使用电量为vn,即第n次用户充电请求时用户车辆的已使用电量;
步骤4:中心服务器记录第n次请求时间;并根据用户车辆的经度、用户车辆的纬度判定用户车辆所属区域;且将当前时刻转换成时间损耗;通过用户充电请求、用户车辆所属区域、用户车辆的已使用电量、时间损耗、所有充电站的排队状态构建用户充电请求的输入状态;
步骤4所述记录第n次请求时间,存储为requestn
步骤4所述根据用户车辆的经度、用户车辆的纬度判定用户车辆所属区域:
中心服务器将用户车辆经纬度,与步骤1划分区域经纬度范围进行比对,确定用户车辆所在区域即areal,n
步骤4所述将当前时刻转换成时间损耗:
中心服务器将当前时刻与步骤1划分的时间损耗等级的时间范围进行对比,确定当前时刻的时间损耗tn,作为第n次用户请求的时间损耗;
步骤4所述用户充电请求的输入状态为:
Sn={areal,n,vn,tn,totaln}
totaln=(mn,1,mn,2,...,mn,K)
其中,aeral,n表示第n次用户充电请求时用户车辆所属区域,vn表示第n次用户充电请求时用户车辆的已使用电量,tn表示第n次用户充电请求时的时间损耗等级时段,totaln表示第n次用户充电请求时所有充电站的排队状态,mn,k,k∈[1,K]表示第n次用户充电请求时第k个充电站的排队状态,K=5为充电站的数量;
步骤5:构建深度神经网络,随机初始化其参数,深度神经网络根据用户充电请求的输入状态估计充电站的未来总收益,进一步得到推荐充电站,将推荐充电站无线传输至触摸屏显示,待用户车辆在推荐充电站充电完成计算充电收益,等待下一次用户充电请求到来构建下一次用户充电请求的输入状态以及四元组,并将四元组作为训练数保存至经验池中;
步骤5所述构建深度神经网络,随机初始化其参数具体为:
深度神经网络共M=5层,第i层有mi个神经元;
第1层为输入层,共K+3个神经元,即m1=8,对应第n次用户充电请求的输入状态,即Sn={aeral,n,vn,tn,(mn,1,mn,2,...,mn,K)};
第2~M-1层为隐藏层,层内神经元数满足:
mi=10
i∈[2,M-1]
并另设偏置单元,单元值为1。
第M=5层为输出层,共K个神经元,即m5=5,对应Qn=(qn,1,qn,1...,qn,K);
Qn=(qn,1,qn,1,...,qn,K)表示步骤5所述充电站的未来总收益为:
Qn=(qn,1,qn,1,...,qn,K)
其中,Qn表示第n次用户充电请求时充电站的未来总收益,qn,k k∈[1,K]表示第n次用户充电请求时选择第k充电站的未来总收益,K=5表示充电站的数量;
所述神经网络层间各神经元之间全连接,第i层中第j个神经元对第i+1层中第r个神经元的权重表示为
Figure BDA0002457507210000141
第i层的偏置表示为bi,i∈[2,M-1];
所述权重、偏置在初始化时随机赋值,后在系统优化阶段中调整;
步骤5所述进一步得到推荐充电站为:
Qn=(qn,1,qn,1,...,qn,K)中选择qn,k k∈[1,K]的最大值,对应的充电站为第n次用户充电请求时推荐充电站即an
步骤5所述将推荐充电站无线传输至触摸屏显示为:
将an无线传输至所述车辆无线通信模块,进一步传输至所述微处理器,所述微处理器控制所述触摸屏显示推荐充电站即an
步骤5所述待用户车辆在推荐充电站充电完成计算充电收益为:
用户车辆驶往推荐充电站an,排队、充电,直到充电完成,用户车辆向中心服务器发送本次充电完成,中心服务器记录第n次充电完成时间为completen
中心服务器接收到第n次充电请求充电完成后,根据记录的用户充电请求完成时间计算第n次充电请求的总耗时costn,并计算第n次充电请求的充电收益rn,定义如下:
costn=completen-requestn
Figure BDA0002457507210000151
其中,requestn为第n次请求时间,completen为第n次充电完成时间,rn为第n次用户充电请求的充电收益,c=10为定值,costn为第n次用户充电请求的总耗时;
步骤5所述等待下一次用户充电请求到来构建下一次用户充电请求的输入状态以及四元组,并保存四元组至经验池中为:
中心服务器等待第n+1次用户充电充电请求到来,通过步骤4构建第n+1次用户充电请求的输入状态Sn+1
步骤5所述四元组为:(Sn,an,rn,Sn+1);
其中,Sn第n次用户充电请求的输入状态,Sn+1表示第n+1次用户充电请求的输入状态,rn为第n次用户充电请求的充电收益,costn为第n次用户充电请求的总耗时;
步骤5所述经验池为中心服务器存储四元组的空间,其存储四元组数量为H;
步骤5所述经验池内存储四元组为:
(S1,a1,r1,S2)、(S2,a2,r2,S3)、...、(SH,aH,rH,SH+1)
步骤6:中心服务器从经验池中随机提取一定数量四元组构建训练集,依次将训练集中每个四元组提供给深度神经网络计算损失函数,优化深度神经网络的参数;
步骤6所述中心服务器从经验池中随机提取一定数量四元组构建训练集为:
中心服务器从经验池中提取h=1200个四元组作为本次系统优化阶段训练集,认定经验池后b=1000项为新经验纪录,被提取概率大,第1~H-b项认定旧经验,被提取概率小,第p项被提取概率表示为:
Figure BDA0002457507210000152
其中,Prob(p)为经验池中第p项被提取的概率,b=1000为新经验记录个数;
步骤6所述提取作为训练集的四元组为:
Figure BDA0002457507210000161
其中,
Figure BDA0002457507210000162
为训练集中第e个四元组,对应经验池内存储四元组中第pe个四元组;
步骤6所述依次将训练集中每个四元组中第pe次用户充电请求的输入状态即
Figure BDA0002457507210000163
和第pe+1次用户充电请求的输入状态即
Figure BDA0002457507210000164
输入至深度神经网络,遍历h=1200个训练集中四元组,计算损失函数,调整参数;
深度神经网络在本次系统优化阶段共调整参数h=1200次;
步骤6所述计算损失函数优化深度神经网络的参数为:
深度神经网络输入四元组
Figure BDA0002457507210000165
中的
Figure BDA0002457507210000166
计算
Figure BDA0002457507210000167
即深度神经网络预估
Figure BDA0002457507210000168
的未来收益大小;
将四元组
Figure BDA0002457507210000169
Figure BDA00024575072100001622
输入到深度神经网络中计算
Figure BDA00024575072100001610
其中
Figure BDA00024575072100001611
Figure BDA00024575072100001612
下当前深度神经网络依照步骤5所选取的推荐充电站;
结合四元组中的
Figure BDA00024575072100001613
陶造损失函数,计算误差;
Figure BDA00024575072100001614
其中,Loss为损失函数,
Figure BDA00024575072100001615
为第pe次用户充电请求的充电收益,γ=0.8表示折扣系数,其值越高表示未来收益占的比重越高,
Figure BDA00024575072100001616
表示当前深度神经网络预估
Figure BDA00024575072100001617
能获未来最大收益的大小,
Figure BDA00024575072100001618
表示当前深度神经网络根据
Figure BDA00024575072100001619
计算的未来收益大小,即预估第pe次用户充电请求的未来收益;
依照当前计算的误差通过反向传播得到优化后深度神经网络中各层权重及偏置,即
Figure BDA00024575072100001620
及各层偏置bi,i∈[2,M-1];
其中,
Figure BDA00024575072100001621
为神经网络第i层第j个神经元连接i+1层第r个神经元的权重值,mi为第i层包含神经元数,M=5为神经网络层数,bi为第i层偏置。
经过h次参数调整,结束本次系统优化,调整完毕的各层权重表示为:
Figure BDA0002457507210000171
各层偏置表示为
Figure BDA0002457507210000172
其中,
Figure BDA0002457507210000173
为神经网络本次系统优化后第i层第j个神经元连接i+1层第r个神经元的权重值,mi为第i层包含神经元数,M=5为神经网络层数,
Figure BDA0002457507210000174
为系统优化后第i层偏置。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于深度强化学习的智能充电站优化选择方法,其特征在于,包括以下步骤:
步骤1:中心服务器管理多个充电站,将管理区域划分成多个区域,将一天划分成多个时间损耗等级时段;
步骤2:信息获取终端通过充电桩检测模块实时检测可用充电桩数量,通过车辆识别系统统计进出站车辆数,建立排队车辆数量与可用充电桩数量之间关系模型,进一步构建充电站的排队状态,在充电站的排队状态发生改变或每隔一定时间将充电站的排队状态无线传输至中心服务器;
步骤3:微处理器将用户充电请求、用户车辆的经度、用户车辆的纬度、用户车辆的已使用电量通过车辆无线通信模块无线传输至所述中心服务器;
步骤4:中心服务器记录第n次请求时间;并根据用户车辆的经度、用户车辆的纬度判定用户车辆所属区域;且将当前时刻转换成时间损耗;通过用户车辆所属区域、用户车辆的已使用电量、时间损耗、所有充电站的排队状态构建用户充电请求的输入状态;
步骤5:构建深度神经网络,随机初始化其参数,深度神经网络根据用户充电请求的输入状态估计充电站的未来总收益,进一步得到推荐充电站,将推荐充电站无线传输至触摸屏显示,待用户车辆在推荐充电站充电完成计算充电收益,等待下一次用户充电请求到来构建下一次用户充电请求的输入状态以及四元组,并将四元组作为训练数保存至经验池中;
步骤6:中心服务器从经验池中随机提取一定数量四元组构建训练集,依次将训练集中每个四元组提供给深度神经网络计算损失函数,优化深度神经网络的参数。
2.根据权利要求1所述的基于深度强化学习的智能充电站优化选择方法,其特征在于:
步骤1所述充电站的数量为K;
步骤1所述管理区域划分成多个区域为:
管理区域划分成L个区域,具体为:
area1、area2、...、areaL
其中,areal,l∈[1,L]为第l个区域;
且areal,l∈[1,L]内任意不同两点,到达另一区域所用时间相同;
且一个区域内至多存在一个充电站,则K≤L;
步骤1所述将一天划分成多个时间损耗等级时段为:
中心服务器将一天划分成T个时间损耗等级时段;
t,t∈[1,T]表示第t个时间损耗等级时段,t越高,则第t个时间损耗等级时段内用户车辆去往充电站时间损耗越多。
3.根据权利要求1所述的基于深度强化学习的智能充电站优化选择方法,其特征在于:
步骤2所述可用充电桩数量为:
pk∈[1,Pk]k∈[1,K]
其中,pk表示第k个充电站的可用充电桩数量,Pk表示第k个充电站的充电桩数量总数,K为充电站的数量;
步骤2所述统计进出站车辆数为:
需要充电车辆入站排队充电,入口车辆识别系统每识别一辆车辆,站内车辆数d加1;出口车辆识别系统每识别一辆车辆,站内车辆数d减1;
步骤2所述排队车辆数量为:
ck=max(0,d-Pk+pk)k∈[1,K]
其中,ck表示第k个充电站的排队车辆数量,d表示站内车辆数,Pk表示第k个充电站的充电桩数量总数,pk表示第k个充电站的可用充电桩数量,K为充电站的数量;
步骤2所述建立排队车辆数量与可用充电桩数量之间关系模型为:
ck>0→pk=0
pk>0→ck=0
步骤2所述进一步构建充电站的排队状态为:
根据排队车辆数量与可用充电桩数量之间关系模型构建充电站的排队状态,具体定义为:
Figure FDA0002457507200000021
其中,mk表示第k个充电站的排队状态,pk表示第k个充电站的可用充电桩数量,ck表示第k个充电站的排队车辆数量,K为充电站的数量;
步骤2所述在充电站的排队状态发生改变或每隔一定时间将充电站的排队状态无线传输至中心服务器为:
所述信息获取终端在充电站的排队状态发生改变即mk的值发生变化或每隔一定时间时,通过充电站无线通信模块将充电站的排队状态即mk无线传输至所述中心服务器。
4.根据权利要求1所述的基于深度强化学习的智能充电站优化选择方法,其特征在于:
步骤3所述用户充电请求为第n次用户充电请求,n=H+1;
其中,H为中心服务器经验池中保存训练数据数量;
步骤3所述用户车辆的经度为xn,即第n次用户充电请求时用户车辆的经度;
步骤3所述用户车辆的纬度为yn,即第n次用户充电请求时用户车辆的纬度;
步骤3所述用户车辆的已使用电量为vn,即第n次用户充电请求时用户车辆的已使用电量。
5.根据权利要求1所述的基于深度强化学习的智能充电站优化选择方法,其特征在于:
步骤4所述记录第n次请求时间,存储为requestn
步骤4所述根据用户车辆的经度、用户车辆的纬度判定用户车辆所属区域:
中心服务器将用户车辆经纬度,与步骤1划分区域经纬度范围进行比对,确定用户车辆所在区域即areal,n
步骤4所述将当前时刻转换成时间损耗:
中心服务器将当前时刻与步骤1划分的时间损耗等级的时间范围进行对比,确定当前时刻的时间损耗tn,作为第n次用户请求的时间损耗;
步骤4所述用户充电请求的输入状态为:
Sn={areal,n,vn,tn,totaln}
totaln=(mn,1,mn,2,...,mn,K)
其中,aeral,n表示第n次用户充电请求时用户车辆所属区域,vn表示第n次用户充电请求时用户车辆的已使用电量,tn表示第n次用户充电请求时的时间损耗等级时段,totaln表示第n次用户充电请求时所有充电站的排队状态,mn,kk∈[1,K]表示第n次用户充电请求时第k个充电站的排队状态。
6.根据权利要求1所述的基于深度强化学习的智能充电站优化选择方法,其特征在于:
步骤5所述构建深度神经网络,随机初始化其参数具体为:
深度神经网络共M层,第i层有mi个神经元;
第1层为输入层,共K+3个神经元,即m1=K+3,对应第n次用户充电请求的输入状态,即Sn={aeral,n,vn,tn,(mn,1,mn,2,...,mn,K)};
第2~M-1层为隐藏层,层内神经元数满足:
mi>K+3
i∈[2,M-1]
并另设偏置单元,单元值为1;
第M层为输出层,共K个神经元,即mM=K,对应Qn=(qn,1,qn,1,...,qn,K);
Qn=(qn,1,qn,1,...,qn,K)表示步骤5所述充电站的未来总收益为:
Qn=(qn,1,qn,1,...,qn,K)
其中,Qn表示第n次用户充电请求时充电站的未来总收益,qn,kk∈[1,K]表示第n次用户充电请求时选择第k充电站的未来总收益,K表示充电站的数量;
所述神经网络层间各神经元之间全连接,第i层中第j个神经元对第i+1层中第r个神经元的权重表示为
Figure FDA0002457507200000041
第i层的偏置表示为bi,i∈[2,M-1];
所述权重、偏置在初始化时随机赋值,后在系统优化阶段中调整;步骤5所述进一步得到推荐充电站为:
Qn=(qn,1,qn,1,...,qn,K)中选择qn,kk∈[1,K]的最大值,对应的充电站为第n次用户充电请求时推荐充电站即an
步骤5所述将推荐充电站无线传输至触摸屏显示为:
将an无线传输至所述车辆无线通信模块,进一步传输至所述微处理器,所述微处理器控制所述触摸屏显示推荐充电站即an
步骤5所述待用户车辆在推荐充电站充电完成计算充电收益为:
用户车辆驶往推荐充电站an,排队、充电,直到充电完成,用户车辆向中心服务器发送本次充电完成,中心服务器记录第n次充电完成时间为completen
中心服务器接收到第n次充电请求充电完成后,根据记录的用户充电请求完成时间计算第n次充电请求的总耗时costn,并计算第n次充电请求的充电收益rn,定义如下:
costn=completen-requestn
Figure FDA0002457507200000051
其中,requestn为第n次请求时间,completen为第n次充电完成时间,rn为第n次用户充电请求的充电收益,c为定值,costn为第n次用户充电请求的总耗时;
步骤5所述等待下一次用户充电请求到来构建下一次用户充电请求的输入状态以及四元组,并保存四元组至经验池中为:
中心服务器等待第n+1次用户充电充电请求到来,通过步骤4构建第n+1次用户充电请求的输入状态Sn+1
步骤5所述四元组为:(Sn,an,rn,Sn+1);
其中,Sn第n次用户充电请求的输入状态,Sn+1表示第n+1次用户充电请求的输入状态,rn为第n次用户充电请求的充电收益,costn为第n次用户充电请求的总耗时;
步骤5所述经验池为中心服务器存储四元组的空间,其存储四元组数量为H;
步骤5所述经验池内存储四元组为:
(S1,a1,r1,S2)、(S2,a2,r2,S3)、...、(SH,aH,rH,SH+1)。
7.根据权利要求1所述的基于深度强化学习的智能充电站优化选择方法,其特征在于:
步骤6所述中心服务器从经验池中随机提取一定数量四元组构建训练集为:
中心服务器从经验池中提取h个四元组作为本次系统优化阶段训练集,认定经验池后b项为新经验纪录,被提取概率大,第1~H-b项认定旧经验,被提取概率小,第p项被提取概率表示为:
Figure FDA0002457507200000061
其中,Prob(p)为经验池中第p项被提取的概率,b为新经验纪录个数;
步骤6所述提取作为训练集的四元组为:
Figure FDA0002457507200000062
其中,
Figure FDA00024575072000000616
为训练集中第e个四元组,对应经验池内存储四元组中第pe个四元组;
步骤6所述依次将训练集中每个四元组中第pe次用户充电请求的输入状态即
Figure FDA0002457507200000064
和第pe+1次用户充电请求的输入状态即
Figure FDA0002457507200000065
输入至深度神经网络,遍历h个训练集中四元组,计算损失函数,调整参数;
深度神经网络在本次系统优化阶段共调整参数h次;
步骤6所述计算损失函数优化深度神经网络的参数为:
深度神经网络输入四元组
Figure FDA0002457507200000066
中的
Figure FDA0002457507200000067
计算
Figure FDA0002457507200000068
即深度神经网络预估
Figure FDA0002457507200000069
的未来收益大小;
将四元组
Figure FDA00024575072000000610
Figure FDA00024575072000000611
输入到深度神经网络中计算
Figure FDA00024575072000000612
其中
Figure FDA00024575072000000613
Figure FDA00024575072000000614
下当前深度神经网络依照步骤5所选取的推荐充电站;
结合四元组中的
Figure FDA00024575072000000615
构造损失函数,计算误差;
Figure FDA0002457507200000071
其中,Loss为损失函数,
Figure FDA0002457507200000072
为第pe次用户充电请求的充电收益,γ表示折扣系数,其值越高表示未来收益占的比重越高,
Figure FDA0002457507200000073
表示当前深度神经网络预估
Figure FDA0002457507200000074
能获未来最大收益的大小,
Figure FDA0002457507200000075
表示当前深度神经网络根据
Figure FDA0002457507200000076
计算的未来收益大小,即预估第pe次用户充电请求的未来收益;
依照当前计算的误差通过反向传播得到优化后深度神经网络中各层权重及偏置,即
Figure FDA0002457507200000077
及各层偏置bi,i∈[2,M-1];
其中,
Figure FDA0002457507200000078
为神经网络第i层第j个神经元连接i+1层第r个神经元的权重值,mi为第i层包含神经元数,M为神经网络层数,bi为第i层偏置;
经过h次参数调整,结束本次系统优化,调整完毕的各层权重表示为:
Figure FDA0002457507200000079
各层偏置表示为
Figure FDA00024575072000000710
其中,
Figure FDA00024575072000000711
为神经网络本次系统优化后第i层第j个神经元连接i+1层第r个神经元的权重值,mi为第i层包含神经元数,M为神经网络层数,
Figure FDA00024575072000000712
为系统优化后第i层偏置。
8.一种基于深度强化学习的智能充电站优化选择装置应用于权利要求1-7任意所述的基于深度强化学习的智能充电站优化选择方法,其特征在于,包括:
微处理器、触摸屏、GPS定位模块、电量检测模块、车辆无线通信模块、车辆识别系统、充电桩检测模块、信息获取终端、充电站无线通信模块、中心服务器;
所述GPS定位模块与所述微处理器通过有线方式连接;所述电量检测模块与所述微处理器通过有线方式连接;所述触摸屏与所述微处理器通过有线方式连接;所述微处理器与所述车辆无线通信模块通过有线方式连接;所述车辆无线通信模块与所述中心服务器通过无线方式连接;所述充电桩检测装置与所述信息获取终端通过有线方式连接;所述车辆识别系统与所述信息获取终端通过有线方式连接;所述信息获取终端与所述充电站无线通信模块通过有线方式连接;所述充电站无线通信模块与中心服务器通过无线方式连接;
所述的微处理器、触摸屏、GPS定位模块、电量检测模块、车辆无线通信模块部署于用户车辆上;所述充电桩检测装置部署于充电桩上;所述的车辆识别系统、信息获取终端、充电站无线通信模块均部署于充电站里;
所述微处理器协调控制所述的GPS定位模块、电量检测模块、车辆无线通信模块;所述微处理器控制所述的触摸屏实现人机交互;
所述GPS定位模块采集用户车辆的经度、用户车辆的纬度,将用户车辆的经度、用户车辆的纬度传输至所述微处理器;
所述电量检测模块实时采集用户车辆的已使用电量,将用户车辆的已使用电量传输至所述微处理器;
在用户车辆需要充电时,用户通过所述触摸屏输入用户充电请求并传输至所述微处理器,所述微处理器将用户充电请求、用户车辆的经度、用户车辆的纬度、用户车辆的已使用电量通过车辆无线通信模块无线传输至所述中心服务器;
所述充电桩检测模块实时检测可用充电桩数量,将可用充电桩数量有线传输到信息获取终端;
所述车辆识别系统,以站内摄像头加图像处理为主,刷卡入站为辅的方式识别进出站车辆,将站内车辆变化有线传输到信息获取终端;
所述信息获取终端根据站内车辆变化计算排队车辆数量,并依照可用充电桩数量、排队车辆数量得到充电站的排队状态,通过充电站无线通信模块将充电站的排队状态无线传输至所述中心服务器;
所述中心服务器根据用户充电请求时的时间、用户车辆的经度、用户车辆的纬度、用户车辆的已使用电量、充电站状态,通过一种基于深度强化学习的智能充电站优化选择方法实现充电站优化选择;
所述中心服务器记录用户相关充电信息作为训练数据保存至经验池中,系统优化阶段从经验池提取数据构建训练集,对系统进行调整优化。
CN202010310702.5A 2020-04-20 2020-04-20 一种基于深度强化学习的智能充电站优化选择系统 Active CN111523722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010310702.5A CN111523722B (zh) 2020-04-20 2020-04-20 一种基于深度强化学习的智能充电站优化选择系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010310702.5A CN111523722B (zh) 2020-04-20 2020-04-20 一种基于深度强化学习的智能充电站优化选择系统

Publications (2)

Publication Number Publication Date
CN111523722A true CN111523722A (zh) 2020-08-11
CN111523722B CN111523722B (zh) 2022-04-12

Family

ID=71902106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010310702.5A Active CN111523722B (zh) 2020-04-20 2020-04-20 一种基于深度强化学习的智能充电站优化选择系统

Country Status (1)

Country Link
CN (1) CN111523722B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112097783A (zh) * 2020-08-14 2020-12-18 广东工业大学 基于深度强化学习的电动出租车充电导航路径规划方法
CN112418742A (zh) * 2021-01-20 2021-02-26 南方电网数字电网研究院有限公司 信息物理融合的电动汽车换电站网络双层控制方法
CN112465338A (zh) * 2020-11-25 2021-03-09 东软睿驰汽车技术(沈阳)有限公司 一种充电桩分配方法及其相关设备
CN112632382A (zh) * 2020-12-25 2021-04-09 北京百度网讯科技有限公司 用于为车辆推荐站点的方法、装置、设备以及存储介质
CN112632380A (zh) * 2020-12-24 2021-04-09 北京百度网讯科技有限公司 兴趣点推荐模型的训练方法和推荐兴趣点的方法
CN112819576A (zh) * 2021-01-27 2021-05-18 北京百度网讯科技有限公司 充电站推荐模型的训练方法、装置、及充电站的推荐方法
CN112819203A (zh) * 2021-01-12 2021-05-18 湖北追日电气股份有限公司 一种基于深度学习的充电管理系统及方法
CN113335125A (zh) * 2021-07-01 2021-09-03 广州锐速智能科技股份有限公司 车辆充电方法、装置、系统、充电模型训练方法
CN113362460A (zh) * 2021-04-28 2021-09-07 北京理工大学 全域新能源汽车充电地图构建与推荐方法
CN113891238A (zh) * 2021-09-29 2022-01-04 昆明理工大学 一种基于drl的wsn中单对多移动能量补充方法
WO2022143802A1 (zh) * 2020-12-31 2022-07-07 奥动新能源汽车科技有限公司 换电站排队车辆的数量识别方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492927A (zh) * 2018-11-22 2019-03-19 上海电机学院 充电桩智能调度管理方法
US20190178678A1 (en) * 2017-12-08 2019-06-13 Ford Global Technologies, Llc Electric vehicle cloud-based optimal charge route estimation
KR20190109324A (ko) * 2019-07-26 2019-09-25 엘지전자 주식회사 로봇 충전대의 위치를 추천하기 위한 방법, 장치 및 시스템
CN110549896A (zh) * 2019-08-28 2019-12-10 哈尔滨工程大学 一种基于强化学习的充电站选择方法
CN110888908A (zh) * 2019-11-01 2020-03-17 广州大学 一种可持续深度学习的充电站/桩推荐系统及推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190178678A1 (en) * 2017-12-08 2019-06-13 Ford Global Technologies, Llc Electric vehicle cloud-based optimal charge route estimation
CN109492927A (zh) * 2018-11-22 2019-03-19 上海电机学院 充电桩智能调度管理方法
KR20190109324A (ko) * 2019-07-26 2019-09-25 엘지전자 주식회사 로봇 충전대의 위치를 추천하기 위한 방법, 장치 및 시스템
CN110549896A (zh) * 2019-08-28 2019-12-10 哈尔滨工程大学 一种基于强化学习的充电站选择方法
CN110888908A (zh) * 2019-11-01 2020-03-17 广州大学 一种可持续深度学习的充电站/桩推荐系统及推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
朱颖: "电动汽车智能充电服务优化模型的研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *
杜明秋等: "电动汽车充电控制的深度增强学习优化方法", 《中国电机工程学报》 *
程骏: "电动汽车充电站运行调度策略研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112097783B (zh) * 2020-08-14 2022-05-20 广东工业大学 基于深度强化学习的电动出租车充电导航路径规划方法
CN112097783A (zh) * 2020-08-14 2020-12-18 广东工业大学 基于深度强化学习的电动出租车充电导航路径规划方法
CN112465338A (zh) * 2020-11-25 2021-03-09 东软睿驰汽车技术(沈阳)有限公司 一种充电桩分配方法及其相关设备
CN112632380A (zh) * 2020-12-24 2021-04-09 北京百度网讯科技有限公司 兴趣点推荐模型的训练方法和推荐兴趣点的方法
CN112632382B (zh) * 2020-12-25 2024-04-12 北京百度网讯科技有限公司 用于为车辆推荐站点的方法、装置、设备以及存储介质
CN112632382A (zh) * 2020-12-25 2021-04-09 北京百度网讯科技有限公司 用于为车辆推荐站点的方法、装置、设备以及存储介质
WO2022143802A1 (zh) * 2020-12-31 2022-07-07 奥动新能源汽车科技有限公司 换电站排队车辆的数量识别方法、系统、设备及介质
CN112819203A (zh) * 2021-01-12 2021-05-18 湖北追日电气股份有限公司 一种基于深度学习的充电管理系统及方法
CN112418742A (zh) * 2021-01-20 2021-02-26 南方电网数字电网研究院有限公司 信息物理融合的电动汽车换电站网络双层控制方法
CN112819576A (zh) * 2021-01-27 2021-05-18 北京百度网讯科技有限公司 充电站推荐模型的训练方法、装置、及充电站的推荐方法
CN113362460A (zh) * 2021-04-28 2021-09-07 北京理工大学 全域新能源汽车充电地图构建与推荐方法
CN113335125A (zh) * 2021-07-01 2021-09-03 广州锐速智能科技股份有限公司 车辆充电方法、装置、系统、充电模型训练方法
CN113891238A (zh) * 2021-09-29 2022-01-04 昆明理工大学 一种基于drl的wsn中单对多移动能量补充方法
CN113891238B (zh) * 2021-09-29 2022-10-14 昆明理工大学 一种基于drl的wsn中单对多移动能量补充方法

Also Published As

Publication number Publication date
CN111523722B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN111523722B (zh) 一种基于深度强化学习的智能充电站优化选择系统
US11315170B2 (en) Methods and systems for order processing
CN105849998B (zh) 电力需求预测装置及预测方法、供电系统及记录介质
CN109190802B (zh) 云储能环境下基于发电预测的多微网博弈优化方法
CN108564391B (zh) 一种考虑主客观信息的共享电动汽车需求预测方法及系统
CN111476588A (zh) 订单需求预测方法、装置、电子设备及可读存储介质
CN110555990A (zh) 一种基于lstm神经网络的有效停车时空资源预测方法
CN107194491A (zh) 一种基于公交客流和站间行程时间预测的动态调度方法
CN115643285A (zh) 智慧城市停车场推荐方法和物联网系统、装置、存储介质
US20220188851A1 (en) Multi-objective distributional reinforcement learning for large-scale order dispatching
CN106063067A (zh) 电力需求预测装置、供电系统、电力需求预测方法及程序
CN109800917A (zh) 一种电动汽车停车场的规划方法、装置和计算设备
CN112785029B (zh) 一种基于深度聚类模型的充电站用电量预测方法
CN111832869A (zh) 一种车辆调度方法、装置、电子设备及存储介质
CN111292105B (zh) 一种业务需求确定方法以及装置
CN114119159A (zh) 一种网约车实时订单匹配和空闲车辆调度方法及系统
CN108596664B (zh) 一种电子车票的单边交易费用确定方法、系统及装置
CN113672797A (zh) 一种内容推荐方法及装置
CN109345048B (zh) 预测方法、装置、电子设备及计算机可读存储介质
CN116665482A (zh) 一种基于智慧停车的停车位推荐方法及装置
CN116777685A (zh) 景区引导系统、方法、装置及管理服务器
CN111798283A (zh) 订单派发方法、装置、电子设备及计算机可读存储介质
CN112765493B (zh) 一种用于兴趣点推荐的获取时间偏好融合序列偏好的方法
CN111260383B (zh) 注册概率预估方法及装置、概率预估模型构建方法及装置
Guo et al. How to pay less: a location‐specific approach to predict dynamic prices in ride‐on‐demand services

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant