CN113159578B - 基于强化学习的大型电动汽车充电站的充电优化调度方法 - Google Patents
基于强化学习的大型电动汽车充电站的充电优化调度方法 Download PDFInfo
- Publication number
- CN113159578B CN113159578B CN202110437101.5A CN202110437101A CN113159578B CN 113159578 B CN113159578 B CN 113159578B CN 202110437101 A CN202110437101 A CN 202110437101A CN 113159578 B CN113159578 B CN 113159578B
- Authority
- CN
- China
- Prior art keywords
- charging
- electric vehicle
- time
- electric
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000005457 optimization Methods 0.000 title claims abstract description 9
- 230000002787 reinforcement Effects 0.000 title claims abstract description 8
- 230000009471 action Effects 0.000 claims abstract description 57
- 230000006870 function Effects 0.000 claims abstract description 53
- 238000012360 testing method Methods 0.000 claims abstract description 30
- 238000003062 neural network model Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000005611 electricity Effects 0.000 claims description 18
- 210000004027 cell Anatomy 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000003111 delayed effect Effects 0.000 claims description 3
- 230000005284 excitation Effects 0.000 claims description 3
- 210000002364 input neuron Anatomy 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000012887 quadratic function Methods 0.000 claims description 3
- 230000001172 regenerating effect Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000008859 change Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
- Y02T90/10—Technologies relating to charging of electric vehicles
- Y02T90/12—Electric charging stations
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Educational Administration (AREA)
- Electric Propulsion And Braking For Vehicles (AREA)
- Charge And Discharge Circuits For Batteries Or The Like (AREA)
Abstract
本发明提供了一种基于强化学习的大型电动汽车充电站的充电优化调度方法。首先在当下实际的电动汽车充电站采集数据,并根据状态空间、动作空间及目标函数的定义对采集的数据进行处理,然后运用处理后的数据进行神经网络模型的训练及测试,在保证所用模型的有效性的前提下,将充电站的实际情况作为模型的输入,以模型的输出作为电动汽车充电的参考策略进行实际的充电操作。有效了解决了充电环境下的不确定性问题,而且本发明的方法并不受限于充电站的规模以及充电站达到的电动汽车的数量,训练所得的模型更具有通用性,适用于不同规模下的电动汽车充电站。为电动汽车充电站解决充电调度模型的通用性以及最大化能源和经济效益问题。
Description
技术领域
本发明涉及一种基于强化学习的大型电动汽车充电站的充电优化调度方法,属于智能优化调度技术领域。
背景技术
当今社会随着人们对环境问题的日益关切,能源需求逐渐增大,日常能源消耗量也日益增大,电动汽车作为新型交通工具,凭借其污染轻、噪声小和驾驶成本低等特性取得了长足的发展。但是大规模电动汽车接入电网会对电力系统的平稳运行造成极大的影响。与燃油汽车能够迅速加油瞬间完成能量的补充不同,电动汽车的充电过程具有一定的周期性,考虑到大多数用户选择在无出行需求的时段将汽车暂放于充电站充电以及不同时段电价的变化等实际情况,对电动汽车充电站的充电调度方法进行研究。
目前传统的充电站还采用人工调度的方案,大多充电站采取先到先充电策略,并未充分考虑电网的负载以及电价的实时变化,经济效益以及充电效率低下。而在电动汽车充电调度策略领域的学术研究主要采用模型预测控制,但是在充电汽车的实际环境中,对于充电站而言,电动汽车的达到时间具有不确定性,客户的主动行为具有随机性(如延迟取车,提前取消订单),因而运用的固定的调度模型求解获取调度方案效果有限,而且对于不同的规模的充电站不具备通用性。因而当下怎样解决调度模型的通用性以及最大化能源和经济效益是各个电动汽车充电站迫切需要解决的问题。
发明内容
本发明目的在于提出了一种基于强化学习的大型电动汽车充电站的电动汽车充电优化调度方法。
本发明具体包括如下步骤:
步骤一、数据集准备:
直接采集充电站内历史数据,为状态空间矩阵和动作空间矩阵的创建做准备;所需要的数据主要包括电动汽车的到达充电站的时间tarrival、离开充电站的时间Δtdepart以及其充电需求W;为方便计量,将充电需求转化为电动汽车充满所需要的充电时间Δtcharge;
步骤二、定义状态空间:
电动汽车充电特征:电动汽车到达时间、电动汽车离开时间、需要的充电量和电动汽车充电率;由于未来电动汽车的到达时间未知,因此在当前的电动汽车表示中不包括到达时间;如果电动汽车的充电率ws,则充电量转换为完成充电所需的时间为:
Δtcharge=W/ws (1);
如果系统中有Ns辆电动汽车,则其特征V表示为如下所示集合:
每个状态空间s=(t,Xs),Xs表示总需求矩阵,t∈{1,…,Smax}表示时隙,其中Smax表示按照给定的时间间隙Δtslot划分的一天中的最大决策时间段数;每个给定时隙Δtslot的总需求通过合并算法获得,需求可以使用二维网格表示,即矩阵Xs,一个轴表示汽车的离开时间Δtdepart,另一个轴表示汽车的充电时间Δtcharge;所得总需求矩阵Xs具有尺寸Smax×Smax,最大的决策时间段数Smax取决于最大连接时间Hmax,即电动汽车连接到充电站的最长持续时间:Smax=Hmax/Δtslot;确保最大电动汽车数量Nmax不会影响状态空间的大小;
根据电动汽车的离开时间和所需充电量,将电动汽车的允许调度空间即充电灵活性表示为Δtflex=Δtdepart-Δtcharge,从Xs的对角线推断出:
根据上述公式,矩阵Xs主对角线上的单元中的电动汽车的灵活性为零;而Xs上对角线上的单元中的电动汽车可调度安排,即充电可延迟;负Δtflex对应于Xs中较低对角线,表示无法满足其充电需求的电动汽车;
步骤三、定义动作空间:
将状态空间s=(t,Xs)采取的动作表示是否对当前连接的电动汽车充电Z,将基于充电灵活性Δtflex做出决策;步骤二中具有相同充电灵活性Δtflex的电动汽车会被合并到Xs的相同对角线上的单元中;将Xs的每个对角线表示为Xs(d),其中d=0,…,Smax-1,Xs(0)是主对角线,Xs(d)表示矩阵上三角的第d条对角线,而Xs(-d)是Xs的下三角的第d对角线;将表示为单元中第d对角线上的电动汽车总数;当电动汽车的充电需求全部满足,并且汽车的充电状态不会变成下三角对角线的单元格所属的情况,在状态空间s下采取的动作被定义为长度为Smax的向量us;只需要对在Xs的主对角线和上对角线上对汽车采取充电或者延迟的策略;其中在每个时隙Δtslot中,动作向量us的第d个元素取值范围在[0,1],us(d)表示动作向量us的第d个元素的值,us(d)=0表示电动汽车均不充电,us(d)=1表示电动汽车全部处于充电状态;Us表示状态空间s能采取的动作的集合;
步骤四、建立动作价值函数:
为使得一组电动汽车的充电负载保持平稳,同时确保在每辆电动汽车离开前已完成充电需求及尽可能的降低电价成本;通过动作us从状态s过渡到s'价值函数包括三部分:
C(s,us,s')=Cdemand(Xs,us)+Cpenalty(Xs')+CElectricity(Ns,P,St) (4);
其中,Cdemand(Xs,us)是时隙中所有已连接的电动汽车的总功耗成本,Cpenalty(Xs')是未完成充电的惩罚函数,CElectricity(Ns,P,St)为当前时隙下的电价成本;
为了实现负载均衡,选择Cdemand作为时隙总功耗的二次函数;所有电动汽车的充电率均相同,因此时隙中的总功耗与要充电的电动汽车数量成正比;因此,C(s,us,s')转换价值函数的第一部分为:
由于在当前状态s=(t,Xs)中采取动作生成下一个状态s'=(t+1,Xs');价值函数的第二项是跟下一个状态s'=(t+1,Xs')有关的一个惩罚项,故价值函数的第二部分为:
根据当前的实时的电价水平、目前状态下充电桩的连接个数以及电桩的平均充电功率,设计电站的分时电价成本,故价值函数的第三部分为:
式子(6)中Ns表示在状态s下充电桩被连接的数量,P表示充电桩的平均充电功率,St表示t时刻的电价;
步骤五、数据处理:
根据步骤二、步骤三及步骤四对于状态空间和动作空间的定义以及价值函数模型的建立,对步骤一所采集的数据进行处理,以一天上午某时刻充电站的车辆情况作为当前状态s,以晚上某时刻作为一天的最后一个状态;随机的采取动作us,并以元组(s,us,s',C(s,us,s'))的形式记录组成数据集;并将数据集分为两个部分,一部分数据作为神经网络训练集,另一部分数据作为神经网络测试集;
步骤六、神经网络训练:
首先构建一个含有一个输入神经元,两个具有激励函数的隐藏层以及一个输出层的神经网络,然后将步骤五所整理的训练数据集元组中的状态动作对(s,u)以长度为的形式作为神经网络的输入,并设置最大迭代次数T和时间间隙Δtslot;输出为Qn(s,us),Qn(s,us)计算公式为:
其中Qn(s,us)的初始迭代值为C(s,us,s'),每次的输出均可以保证整体的动作价值函数的累加和为最小,为了稳定学习过程,使用Huber损失代替均方差误差;循环迭代T次后,神经网络隐藏层之间的权重相对固定,自此神经网络模型训练结束;
步骤七、利用测试集元组数据测试模型:
根据步骤六所训练的神经网络模型,运用步骤五所得的测试集数据对模型进行测试;在对模型测试时,构造评价函数,用于评价神经网络模型的有效性;评价函数如下:
其中βtest表示测试集数据长度,e为测试集数据的子集,为神经网络的输出,为充电站采用先到先充策略的价值函数值,通过实际的充电站数据直接计算;当所有的测试集数据中Cπ的值均小于1时,表示神经网络模型的结果优于目前充电站所采用的充电策略的价值函数结果;
步骤八、调度方案生成:
充电站根据当下充电站所到达的电动汽车的离开时间和充电需求,作为神经网络的输入,经过神经网络模型的迭代循环,最终得到该输入条件下最优的价值函数;提取每次迭代得到的价值函数所采取的动作,迭代结束后将所有的动作整合成最优动作集π*={u1,u2,…,uT},π*即为当前充电站所到达电动汽车的最优充电策略;
步骤九、执行调度方案:
当上述步骤执行完毕后,按照所生成的调度方案π*,对充电站内的电动汽车进行充电;如果有新的到达车辆,则返回步骤8,根据当前车站内各个电动汽车的离开时间和充电需求,如果在此之前有些电动汽车已经充电一段时间了,则其充电需求为剩余充电时间;重新生成神经网络模型输入元组,迭代运算得到最优价值函数;迭代结束后将所有的动作整合成最优动作集π*(π*={u1,u2,…,uT}),再根据该策略,对当前充电站内的电动汽车充电。
本发明以最小化电网负载和电价成本为优化目标,采用了基于强化学习的神经网络模型构建方法,根据充电站大量历史数据,训练模型,并通过测试集数据测试模型的有效性,然后根据每天到达充电站的车辆情况,确定输入变量,通过神经网络的迭代运算得到最优的目标函数值,并从迭代过程中提取每次状态迭代变化所采取的动作,最终所得的动作集即为最优调度策略。因为神经网络模型是通过大量历史数据训练所得,因而有效了解决了充电环境下的不确定性问题,而且相对于固定的预测控制模型而言,本发明的方法并不受限于充电站的规模以及充电站达到的电动汽车的数量,训练所得的模型更具有通用性,适用于不同规模下的电动汽车充电站。
附图说明
图1位本发明的流程图;
图2为本发明的状态空间构成示意图。
具体实施方式
以下结合附图对本发明进行进一步的描述。
如图1所示,一种基于强化学习的大型电动汽车充电站的电动汽车充电优化调度方法,具体包括如下步骤:
步骤一、数据集准备:
本方法所需的数据为充电站历史数据,可在现有的充电站内直接采集,为保证数据的有效性,可采取最近一整年内充电站的数据,为状态空间矩阵和动作空间矩阵的创建做准备。所需要的数据主要包括电动汽车的到达充电站的时间tarrival、离开充电站的时间Δtdepart以及其充电需求W。对于电动汽车的充电需求,本发明将其转化为电动汽车充满所需要的充电时间Δtcharge。
步骤二、定义状态空间:
电动汽车充电特征:(i)电动汽车到达时间,(ii)电动汽车离开时间,(iii)需要的充电量和(iv)电动汽车充电率。对于(i),由于假设不知道未来电动汽车的到达时间,因此在当前的电动汽车表示中不包括到达时间。对于(iii)和(iv),如果电动汽车的充电率ws,则充电量转换为完成充电所需的时间为:
Δtcharge=W/ws (1);
因此,如果系统中有Ns辆电动汽车,则其特征表示为如下所示集合
对于每个状态s使用两个变量表示:时隙(t∈{1,…,Smax})和总需求(Xs),其中Smax表示按照给定的时间间隙Δtslot划分的一天中的最大决策时间段数,因此状态空间s=(t,Xs)。每个给定时隙Δtslot的总需求通过合并算法获得,需求可以使用二维网格表示,即矩阵Xs,一个轴表示汽车的离开时间Δtdepart,另一个轴表示汽车的充电时间Δtcharge,如图2所示。所得总需求矩阵Xs具有尺寸Smax×Smax,最大的决策时间段数Smax取决于最大连接时间Hmax,即电动汽车连接到充电站的最长持续时间:Smax=Hmax/Δtslot。这确保了最大电动汽车数量Nmax不会影响状态空间的大小。
本方法的状态表示具有可扩展性优点,它以紧凑和可比较的形式表示电动汽车的总需求(按照Δtdepart和Δtcharge的形式),而且电动汽车的允许调度空间即充电灵活性(表示为Δtflex=Δtdepart-Δtcharge),可以很容易地从Xs的对角线推断出:
根据上述公式,矩阵Xs主对角线上的单元(即x=y)中的电动汽车的灵活性为零,而Xs上对角线上的单元中的电动汽车是可调度安排的(即充电可延迟)。负Δtflex对应于Xs中较低对角线,表示无法满足其充电需求的电动汽车。
步骤三、定义动作空间:
在状态s=(t,Xs)采取的动作表示是否对当前连接的电动汽车充电。将基于充电灵活性Δtflex做出决策。步骤2所述,具有相同充电灵活性Δtflex的电动汽车会被合并到Xs的相同对角线上的单元中。将Xs的每个对角线表示为Xs(d),其中d=0,…,Smax-1,Xs(0)是主对角线,Xs(d)表示矩阵上三角的第d条对角线,而Xs(-d)是Xs的下三角的第d对角线。将表示为单元中第d对角线上的电动汽车总数。由于假设电动汽车的充电需求全部给予满足,并且汽车的充电状态不会变成下三角对角线的单元格所属的情况,因此在状态s下采取的动作被定义为长度为Smax的向量us。因而只需要对在Xs的主对角线和上对角线上对汽车采取充电或者延迟的策略。这种设计选择使动作空间相对较小,因此更易于探索。其中在每个时隙Δtslot中,动作向量us的第d个元素取值范围在[0,1],us(d)表示动作向量us的第d个元素的值,us(d)=0表示电动汽车均不充电,us(d)=1表示电动汽车全部处于充电状态。Us表示状态s可能采取的动作的集合。
步骤四、建立动作价值函数:
考虑的目标是使一组电动汽车的充电负载保持平稳,同时确保在每辆电动汽车离开前已完成充电需求及尽可能的降低电价成本。因此,通过动作us从状态s过渡到s'价值函数包括三部分:
C(s,us,s')=Cdemand(Xs,us)+Cpenalty(Xs')+CElectricity(Ns,P,St) (4);
其中,Cdemand(Xs,us)是时隙中所有已连接的电动汽车的总功耗成本,Cpenalty(Xs')是未完成充电的惩罚函数,CElectricity(Ns,P,St)为当前时隙下的电价成本。
为了实现负载均衡,选择Cdemand作为时隙总功耗的二次函数。由于假设所有电动汽车的充电率均相同,因此时隙中的总功耗与要充电的电动汽车数量成正比。因此,C(s,us,s')转换价值函数的第一部分为:
由于在当前状态s=(t,Xs)中采取动作生成下一个状态s'=(t+1,Xs')。价值函数的第二项是跟下一个状态s'=(t+1,Xs')有关的一个惩罚项,故价值函数的第二部分为:
根据当前的实时的电价水平、目前状态下充电桩的连接个数以及电桩的平均充电功率,设计电站的分时电价成本,故价值函数的第三部分为:
式子(6)中Ns表示在状态s下充电桩被连接的数量,P表示充电桩的平均充电功率,St表示t时刻的电价。
步骤五、数据处理:
根据步骤2、步骤3及步骤4对于状态空间和动作空间的定义以及价值函数模型的建立,对步骤1所采集的数据进行处理,以一天上午6点充电站的车辆情况作为当前状态s,以晚上12点作为一天的最后一个状态。随机的采取动作us,并以元组(s,us,s',C(s,us,s'))的形式记录组成数据集。并将数据集分为两个部分,前四分之三的数据为神经网络训练集,后四分之一的数据为神经网络测试集。
步骤六、神经网络训练:
首先构建一个含有一个输入神经元,两个具有激励函数的隐藏层以及一个输出层的神经网络,然后将步骤5所整理的训练数据集元组中的状态动作对(s,u)以长度为的形式作为神经网络的输入,并设置最大迭代次数T,可设置时间间隙,Δtslot为2,则一天中最大决策时间段数Smax为12,即T也为12。输出为Qn(s,us),Qn(s,us)计算公式为:
其中Qn(s,us)的初始迭代值为C(s,us,s'),每次的输出均可以保证整体的动作价值函数的累加和为最小,为了稳定学习过程,使用Huber损失代替均方差误差。循环迭代T次后,神经网络隐藏层之间的权重相对固定,自此神经网络模型训练结束。
步骤七、利用测试集元组数据测试模型:
根据步骤6所训练的神经网络模型,运用步骤5所得的测试集数据对模型进行测试。在对模型测试时,本方法构造了评价函数,用于评价神经网络模型的有效性。评价函数如下:
其中βtest表示测试集数据长度,e为测试集数据的子集,为神经网络的输出,为充电站采用先到先充策略的价值函数值,可通过实际的充电站数据直接计算。当所有的测试集数据中Cπ的值均小于1时,表示神经网络模型的结果优于目前充电站所采用的充电策略的价值函数结果,进而证明了本发明的有效性。
步骤八、调度方案生成:
充电站根据当下充电站所到达的电动汽车的离开时间和充电需求,作为神经网络的输入,经过神经网络模型的迭代循环,最终得到该输入条件下最优的价值函数。提取每次迭代得到的价值函数所采取的动作,迭代结束后将所有的动作整合成最优动作集π*(π*={u1,u2,…,uT}),π*即为当前充电站所到达电动汽车的最优充电策略。
步骤九、执行调度方案:
当上述步骤执行完毕后,按照所生成的调度方案π*,对充电站内的电动汽车进行充电。如果有新的到达车辆,则返回步骤8,根据当前车站内各个电动汽车的离开时间和充电需求(如果在此之前有些电动汽车已经充电一段时间了,则其充电需求为剩余充电时间),重新生成神经网络模型输入元组,迭代运算得到最优价值函数。迭代结束后将所有的动作整合成最优动作集π*(π*={u1,u2,…,uT}),再根据该策略,对当前充电站内的电动汽车充电。
Claims (1)
1.基于强化学习的大型电动汽车充电站的充电优化调度方法,其特征根在于:具体包括如下步骤:
步骤一、数据集准备:
直接采集充电站内历史数据,为状态空间矩阵和动作空间矩阵的创建做准备;所需要的数据包括电动汽车的到达充电站的时间tarrival、离开充电站的时间Δtdepart以及其充电需求W;为方便计量,将充电需求转化为电动汽车充满所需要的充电时间Δtcharge;
步骤二、定义状态空间:
电动汽车充电特征:电动汽车到达时间、电动汽车离开时间、需要的充电量和电动汽车充电率;由于未来电动汽车的到达时间未知,因此在当前的电动汽车表示中不包括到达时间;如果电动汽车的充电率ws,则充电量转换为完成充电所需的时间为:
Δtcharge=W/ws (1);
如果系统中有Ns辆电动汽车,则其特征V表示为如下所示集合:
每个状态空间s=(t,Xs),Xs表示总需求矩阵,t∈{1,…,Smax}表示时隙,其中Smax表示按照给定的时间间隙Δtslot划分的一天中的最大决策时间段数;每个给定时隙Δtslot的总需求通过合并算法获得,总需求使用二维网格表示,即矩阵Xs,一个轴表示汽车的离开时间Δtdepart,另一个轴表示汽车的充电时间Δtcharge;所得总需求矩阵Xs具有尺寸Smax×Smax,最大的决策时间段数Smax取决于最大连接时间Hmax,即电动汽车连接到充电站的最长持续时间:Smax=Hmax/Δtslot;确保最大电动汽车数量Nmax不会影响状态空间的大小;
根据电动汽车的离开时间和所需充电量,将电动汽车的允许调度空间即充电灵活性表示为Δtflex=Δtdepart-Δtcharge,从Xs的对角线推断出:
根据上述公式,矩阵Xs主对角线上的单元中的电动汽车的灵活性为零;而Xs上对角线上的单元中的电动汽车可调度安排,即充电可延迟;负Δtflex对应于Xs中较低对角线,表示无法满足充电需求的电动汽车;
步骤三、定义动作空间:
将状态空间s=(t,Xs)采取的动作表示是否对当前连接的电动汽车充电,将基于充电灵活性Δtflex做出决策;步骤二中具有相同充电灵活性Δtflex的电动汽车会被合并到Xs的同一对角线上的单元中;将Xs的每个对角线表示为Xs(d),其中d=0,…,Smax-1,Xs(0)是主对角线,Xs(d)表示矩阵上三角的第d条对角线,而Xs(-d)是Xs的下三角的第d对角线;将表示为单元中第d对角线上的电动汽车总数;当电动汽车的充电需求全部满足,并且汽车的充电状态不会变成下三角对角线的单元格所属的情况,在状态空间s下采取的动作被定义为长度为Smax的向量us;只需要对在Xs的主对角线和上对角线上对汽车采取充电或者延迟的策略;其中在每个时隙Δtslot中,动作向量us的第d个元素取值范围在[0,1],us(d)表示动作向量us的第d个元素的值,us(d)=0表示电动汽车均不充电,us(d)=1表示电动汽车全部处于充电状态;Us表示状态空间s能采取的动作的集合;
步骤四、建立动作价值函数:
为使得一组电动汽车的充电负载保持平稳,同时确保在每辆电动汽车离开前已完成充电需求及尽可能的降低电价成本;通过动作us从状态s过渡到s'价值函数包括三部分:
C(s,us,s')=Cdemand(Xs,us)+Cpenalty(Xs')+CElectricity(Ns,P,St) (4);
其中,Cdemand(Xs,us)是时隙中所有已连接的电动汽车的总功耗成本,Cpenalty(Xs')是未完成充电的惩罚函数,CElectricity(Ns,P,St)为当前时隙下的电价成本;
为了实现负载均衡,选择Cdemand作为时隙总功耗的二次函数;所有电动汽车的充电率均相同,因此时隙中的总功耗与要充电的电动汽车数量成正比;因此,C(s,us,s')转换价值函数的第一部分为:
由于在当前状态s=(t,Xs)中采取动作生成下一个状态s'=(t+1,Xs');价值函数的第二项是跟下一个状态s'=(t+1,Xs')有关的一个惩罚项,故价值函数的第二部分为:
根据当前的实时的电价水平、目前状态下充电桩的连接个数以及电桩的平均充电功率,设计电站的分时电价成本,故价值函数的第三部分为:
式子(6)中Ns表示在状态s下充电桩被连接的数量,P表示充电桩的平均充电功率,St表示t时刻的电价;
步骤五、数据处理:
根据步骤二、步骤三及步骤四对于状态空间和动作空间的定义以及价值函数模型的建立,对步骤一所采集的数据进行处理,以一天上午某时刻充电站的车辆情况作为当前状态s,以晚上某时刻作为一天的最后一个状态;随机的采取动作us,并以元组(s,us,s',C(s,us,s'))的形式记录组成数据集;并将数据集分为两个部分,一部分数据作为神经网络训练集,另一部分数据作为神经网络测试集;
步骤六、神经网络训练:
首先构建一个含有一个输入神经元,两个具有激励函数的隐藏层以及一个输出层的神经网络,然后将步骤五所整理的训练数据集元组中的状态动作对(s,us)以长度为的形式作为神经网络的输入,并设置最大迭代次数T和时间间隙Δtslot;输出为Qn(s,us),Qn(s,us)计算公式为:
其中Qn(s,us)的初始迭代值为C(s,us,s'),每次的输出均可以保证整体的动作价值函数的累加和为最小,为了稳定学习过程,使用Huber损失代替均方差误差;循环迭代T次后,神经网络隐藏层之间的权重相对固定,自此神经网络模型训练结束;
步骤七、利用测试集元组数据测试模型:
根据步骤六所训练的神经网络模型,运用步骤五所得的测试集数据对模型进行测试;在对模型测试时,构造评价函数,用于评价神经网络模型的有效性;评价函数如下:
其中βtest表示测试集数据长度,e为测试集数据的子集,为神经网络的输出,为充电站采用先到先充策略的价值函数值,通过实际的充电站数据直接计算;当所有的测试集数据中Cπ的值均小于1时,表示神经网络模型的结果优于目前充电站所采用的充电策略的价值函数结果;
步骤八、调度方案生成:
充电站根据当下充电站所到达的电动汽车的离开时间和充电需求构建状态动作对(s,us),并将其作为神经网络的输入,经过神经网络模型的迭代循环,最终得到该输入条件下最优的价值函数;提取每次迭代得到的价值函数所采取的动作,迭代结束后将所有的动作整合成最优动作集π*={u1,u2,…,uT},π*即为当前充电站所到达电动汽车的最优充电策略;
步骤九、执行调度方案:
当上述步骤执行完毕后,按照所生成的调度方案π*,对充电站内的电动汽车进行充电;如果有新的到达车辆,则返回步骤八,根据当前车站内各个电动汽车的离开时间和充电需求,如果在此之前有些电动汽车已经充电一段时间了,则其充电需求为剩余充电时间;重新生成神经网络模型输入元组,迭代运算得到最优价值函数;迭代结束后将所有的动作整合成最优动作集π*(π*={u1,u2,…,uT}),再根据该策略,对当前充电站内的电动汽车充电。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110437101.5A CN113159578B (zh) | 2021-04-22 | 2021-04-22 | 基于强化学习的大型电动汽车充电站的充电优化调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110437101.5A CN113159578B (zh) | 2021-04-22 | 2021-04-22 | 基于强化学习的大型电动汽车充电站的充电优化调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113159578A CN113159578A (zh) | 2021-07-23 |
CN113159578B true CN113159578B (zh) | 2022-05-20 |
Family
ID=76869522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110437101.5A Active CN113159578B (zh) | 2021-04-22 | 2021-04-22 | 基于强化学习的大型电动汽车充电站的充电优化调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159578B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113935580A (zh) * | 2021-09-13 | 2022-01-14 | 杭州电子科技大学 | 一种电动汽车协调充电优化调度系统 |
TWI767868B (zh) * | 2021-11-08 | 2022-06-11 | 國立清華大學 | 基於強化學習的充電站能源使用規劃方法及裝置 |
CN114444802B (zh) * | 2022-01-29 | 2024-06-04 | 福州大学 | 基于图神经网络强化学习的电动汽车充电引导优化方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015082893A (ja) * | 2013-10-22 | 2015-04-27 | 株式会社豊田自動織機 | 充電システム、及び電気車両用の充電ステーション |
JP2017143634A (ja) * | 2016-02-09 | 2017-08-17 | トヨタ自動車株式会社 | 充電制御システム |
CN109308541A (zh) * | 2018-08-02 | 2019-02-05 | 华南理工大学 | 一种基于场景分析的电动汽车充电负荷预测方法 |
CN109713696A (zh) * | 2018-11-09 | 2019-05-03 | 杭州电子科技大学 | 考虑用户行为的电动汽车光伏充电站优化调度方法 |
CN110549896A (zh) * | 2019-08-28 | 2019-12-10 | 哈尔滨工程大学 | 一种基于强化学习的充电站选择方法 |
CN111242362A (zh) * | 2020-01-07 | 2020-06-05 | 杭州电子科技大学 | 基于充电站综合状态预测的电动汽车实时充电调度方法 |
CN111934335A (zh) * | 2020-08-18 | 2020-11-13 | 华北电力大学 | 一种基于深度强化学习的集群电动汽车充电行为优化方法 |
CN112330028A (zh) * | 2020-11-08 | 2021-02-05 | 国网天津市电力公司 | 基于谱聚类和lstm神经网络的电动公交车充电负荷预测方法 |
-
2021
- 2021-04-22 CN CN202110437101.5A patent/CN113159578B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015082893A (ja) * | 2013-10-22 | 2015-04-27 | 株式会社豊田自動織機 | 充電システム、及び電気車両用の充電ステーション |
JP2017143634A (ja) * | 2016-02-09 | 2017-08-17 | トヨタ自動車株式会社 | 充電制御システム |
CN109308541A (zh) * | 2018-08-02 | 2019-02-05 | 华南理工大学 | 一种基于场景分析的电动汽车充电负荷预测方法 |
CN109713696A (zh) * | 2018-11-09 | 2019-05-03 | 杭州电子科技大学 | 考虑用户行为的电动汽车光伏充电站优化调度方法 |
CN110549896A (zh) * | 2019-08-28 | 2019-12-10 | 哈尔滨工程大学 | 一种基于强化学习的充电站选择方法 |
CN111242362A (zh) * | 2020-01-07 | 2020-06-05 | 杭州电子科技大学 | 基于充电站综合状态预测的电动汽车实时充电调度方法 |
CN111934335A (zh) * | 2020-08-18 | 2020-11-13 | 华北电力大学 | 一种基于深度强化学习的集群电动汽车充电行为优化方法 |
CN112330028A (zh) * | 2020-11-08 | 2021-02-05 | 国网天津市电力公司 | 基于谱聚类和lstm神经网络的电动公交车充电负荷预测方法 |
Non-Patent Citations (2)
Title |
---|
基于云计算的神经网络在电动汽车充电站调度中的应用;林琳等;《陕西电力》;20161120(第11期);全文 * |
电动汽车充电负荷的时空双层优化调度策略;潘胤吉等;《南方电网技术》;20180520(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113159578A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113159578B (zh) | 基于强化学习的大型电动汽车充电站的充电优化调度方法 | |
CN111769600B (zh) | 一种基于灵活性裕度的电力系统源荷储协调滚动调度方法 | |
CN109462231A (zh) | 居民微电网的负荷优化调度方法、系统和存储介质 | |
CN105160451B (zh) | 一种含电动汽车的微电网多目标优化调度方法 | |
CN105868942B (zh) | 电动汽车的有序充电调度方法 | |
CN112103946A (zh) | 一种基于粒子群算法的微电网储能优化配置方法 | |
CN113642787A (zh) | 基于配售电竞争态势下区域配电网网格化负荷区间预测方法 | |
CN114219212B (zh) | 一种计及泛在电力物联与边缘计算的需求侧资源柔性调度方法 | |
CN112488362A (zh) | 一种协调电动汽车参与辅助服务市场的储能优化配置方法 | |
CN107590607A (zh) | 一种基于光伏预测的微电网优化调度系统和方法 | |
CN109910670B (zh) | 一种配电网电动汽车时空充放电电价制定方法 | |
CN112183882B (zh) | 一种基于电动汽车快充需求的智慧充电站充电优化方法 | |
CN105896596B (zh) | 一种考虑需求侧响应的风电功率分层平滑系统及其方法 | |
CN113326467B (zh) | 基于多重不确定性的多站融合综合能源系统多目标优化方法、存储介质及优化系统 | |
CN113935580A (zh) | 一种电动汽车协调充电优化调度系统 | |
CN108921331A (zh) | 一种计及v2g功能的电动汽车与新能源的调度优化建模及算法 | |
CN114676941A (zh) | 园区综合能源系统电-热负荷联合自适应预测方法及装置 | |
CN117353355A (zh) | 一种计及电动汽车调控潜力的含风电系统优化调度方法 | |
CN106096285A (zh) | 一种储能系统应对高风电渗透率系统调频需求效用评估方法 | |
CN114784838A (zh) | 计及供需两侧的充放电调度方法 | |
CN112508241A (zh) | 一种智能电网能量优化调度方法 | |
CN117175579A (zh) | 一种电动汽车充放电分群调度方法及系统 | |
CN115330062A (zh) | 一种社区场景下的新能源汽车有序充电服务调度优化方法 | |
CN113675866B (zh) | 一种规模化电动汽车的动态网格化金字塔调度方法 | |
CN115456205A (zh) | 一种大规模多目标机组检修优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |