CN114619907A - 基于分布式深度强化学习的协调充电方法及协调充电系统 - Google Patents

基于分布式深度强化学习的协调充电方法及协调充电系统 Download PDF

Info

Publication number
CN114619907A
CN114619907A CN202011470610.XA CN202011470610A CN114619907A CN 114619907 A CN114619907 A CN 114619907A CN 202011470610 A CN202011470610 A CN 202011470610A CN 114619907 A CN114619907 A CN 114619907A
Authority
CN
China
Prior art keywords
neural network
network
state
representing
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011470610.XA
Other languages
English (en)
Other versions
CN114619907B (zh
Inventor
张子霖
秦家虎
万艳妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011470610.XA priority Critical patent/CN114619907B/zh
Publication of CN114619907A publication Critical patent/CN114619907A/zh
Application granted granted Critical
Publication of CN114619907B publication Critical patent/CN114619907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L53/00Methods of charging batteries, specially adapted for electric vehicles; Charging stations or on-board charging equipment therefor; Exchange of energy storage elements in electric vehicles
    • B60L53/60Monitoring or controlling charging stations
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L53/00Methods of charging batteries, specially adapted for electric vehicles; Charging stations or on-board charging equipment therefor; Exchange of energy storage elements in electric vehicles
    • B60L53/60Monitoring or controlling charging stations
    • B60L53/63Monitoring or controlling charging stations in response to network capacity
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L53/00Methods of charging batteries, specially adapted for electric vehicles; Charging stations or on-board charging equipment therefor; Exchange of energy storage elements in electric vehicles
    • B60L53/60Monitoring or controlling charging stations
    • B60L53/64Optimising energy costs, e.g. responding to electricity rates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/60Other road transportation technologies with climate change mitigation effect
    • Y02T10/70Energy storage systems for electromobility, e.g. batteries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/60Other road transportation technologies with climate change mitigation effect
    • Y02T10/7072Electromobility specific charging systems or methods for batteries, ultracapacitors, supercapacitors or double-layer capacitors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02T90/10Technologies relating to charging of electric vehicles
    • Y02T90/12Electric charging stations

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基于分布式深度强化学习的协调充电方法及协调充电系统,其中,该方法为基于深度强化学习的分布式调度算法,避免了集中式调度算法带来的可扩展性较差以及在大量智能体接入电网时,信息收集和处理的时间和成本激增的问题,提高了分布式协调充电方法的稳定性和可扩展性。此外,所述基于分布式深度强化学习的协调充电方法还根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息,进一步提高了该方法的收敛速度和运算效率。

Description

基于分布式深度强化学习的协调充电方法及协调充电系统
技术领域
本申请涉及计算机应用技术领域,更具体地说,涉及一种基于分布式深度强化学习的协调充电方法及协调充电系统。
背景技术
新能源汽车是指采用非常规的车用燃料作为动力来源,综合车辆的动力控制和驱动方面的先进技术,形成的技术原理先进、具有新技术、新结构的汽车。目前主流的新能源汽车为以动力电池为全部或部分能量来源的电动汽车。
随着电动汽车数量的不断增加,电动汽车带来的能源需求对电网的影响很大,在没有任何充电控制的情况下,多个电动汽车接入电网后自动充电可能会造成电网拥堵。因此,在多个电动汽车接入电网的情况下的协调充电问题成为相关技术人员的研究方向之一。
现有的协调充电方法存在可扩展性较差以及在大量电动汽车接入时,信息收集和处理的时间和成本激增的问题。
发明内容
为解决上述技术问题,本申请提供了一种基于分布式深度强化学习的协调充电方法及协调充电系统,以解决现有的协调充电方法存在的可扩展性较差以及在大量智能体接入电网时,信息收集和处理的时间和成本激增的问题。
为实现上述技术目的,本申请实施例提供了如下技术方案:
一种基于分布式深度强化学习的协调充电方法,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电方法包括:
基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息;
根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息;
基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
一种基于分布式深度强化学习的协调充电系统,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电系统包括:
信息获取模块,用于基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息;
电价预测模块,用于根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息;
参数更新模块,用于基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
从上述技术方案可以看出,本申请实施例提供了一种基于分布式深度强化学习的协调充电方法及协调充电系统,其中,所述基于分布式深度强化学习的协调充电方法基于通信模型获取各个智能体的状态信息,并基于所述智能体的状态信息以及基于状态信息获取的电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,所述深度强化学习网络包括第一神经网络和第二神经网络,即本申请实施例提供的协调充电方法为基于深度强化学习的分布式调度算法,避免了集中式调度算法带来的可扩展性较差以及在大量智能体接入电网时,信息收集和处理的时间和成本激增的问题,提高了分布式协调充电方法的稳定性和可扩展性,此外,所述基于分布式深度强化学习的协调充电方法还根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息,进一步提高了该方法的收敛速度和运算效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请的一个实施例提供的一种基于分布式深度强化学习的协调充电方法的流程示意图;
图2为本申请的一个实施例提供的一种CommNet模型的模型图;
图3为本申请的一个实施例提供的CommNet模型中模块
Figure BDA0002833671140000031
的具体结构示意图;
图4为本申请的一个实施例提供的长短时记忆网络的结构示意图;
图5为本申请的另一个实施例提供的一种基于分布式深度强化学习的协调充电方法的流程示意图;
图6为本申请的一个实施例提供的一种对深度神经网络的网络参数的更新过程的流程示意图;
图7为本申请的一个实施例提供的一种第二神经网络的结构图。
具体实施方式
正如背景技术中所述,现有技术中的协调充电方法大多是集中式的,在集中式架构下,每个电动汽车的充电策略由直接聚合器决定,它收集所有电动汽车的充电需求,然后求解一个优化问题,以确定每辆电动汽车的充电行为,并将基于优化的充电计划反馈给电动汽车的车主。因此,每个车主在最终实际运行的充电策略上放弃了个人的部分自主权。当电动汽车的数量很大时,就会需要更长的时间和成本进行信息的收集和处理。
另外,集中式协调充电方法通常假设配电站遵循某一控制算法并与电动汽车交互,或所有电动汽车遵循同一控制算法。首先,这会导致可扩展性问题。其次,电动汽车车主会担心传输到聚合器的信息隐私泄露。此外,聚合器上的单节点故障可能会导致整个系统崩溃,从而产生对备份系统的需求。
为了解决这一问题,本申请实施例提供了一种基于分布式深度强化学习的协调充电方法,该方法为基于深度强化学习的分布式调度算法,避免了集中式调度算法带来的可扩展性较差以及在大量智能体接入电网时,信息收集和处理的时间和成本激增的问题,提高了基于分布式深度强化学习的协调充电方法的稳定性和可扩展性,此外,所述基于分布式深度强化学习的协调充电方法还根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息,进一步提高了该方法的收敛速度和运算效率。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种基于分布式深度强化学习的协调充电方法,如图1所示,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电方法包括:
S101:基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息。
所述智能体获取的历史电价信息是指所述智能体获取的该智能体所在地从当前时刻起,过去一段时间内的电价信息,例如可以是目标地所在地过去24小时内的电价信息,或者还可以是目标地所在地过去36小时或48小时等时间段内的电价信息。
所述通信模型可选为CommNet模型,第一神经网络的分布式调度过程利用了该通信模型,每个智能体将各自的状态信息作为通信消息发送到信道,然后通过访问广播通信结构来共享信息,而来自其他智能体的状态平均值作为下一层的输入之一。智能体之间存在通信交互的系统能在具有大规模数据的场景中有良好表现。
参考图2,图2示出了CommNet模型的模型图,在CommNet的完整模型中,输入每个智能体的状态信息,通过两个通信步骤,将所有智能体的状态信息映射到它们的行为。在每个通信步骤T1,T2中,模块
Figure BDA0002833671140000051
Figure BDA0002833671140000052
传播它们的内部状态h,同时在公共信道上广播通信向量c。具体过程为,每个模块
Figure BDA0002833671140000053
接收两个输入向量:隐藏状态向量
Figure BDA0002833671140000054
和通信向量
Figure BDA0002833671140000055
并输出向量
Figure BDA0002833671140000056
它们的计算如下:
Figure BDA0002833671140000057
Figure BDA0002833671140000058
其中mean表示取隐藏状态向量的平均值获得通信向量;而
Figure BDA0002833671140000059
的具体结构如图3所示,即
Figure BDA00028336711400000510
其中Hm,Cm为相应的系数。输出层为softmax激活函数:
Figure BDA00028336711400000511
输出output表示在t时刻观察到第n个智能体状态为
Figure BDA00028336711400000512
时选择行为
Figure BDA00028336711400000513
的概率,从而选择各自的行为。
除所述智能体获取的历史电价信息之外,在本申请的一些实施例中,所述智能体的状态信息还可以包括智能体的荷电状态、变压器负载状态、智能体位置状态等信息。
S102:根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息。
在本申请的一个可选实施例中,步骤S102具体包括:将所述智能体获取的历史电价信息输入预先训练的长短时记忆网络(Long Short-Term Memory,LSTM)中,以获取所述预先训练的长短时记忆网络输出的与所述智能体对应的电价预测信息。
长短时记忆网络也可称为长短期记忆人工神经网络,是一种时间循环神经网络,参考图4,图4示出了本申请实施例中使用的长短时记忆网络的结构示意图,采取长短时记忆网络的目的是为了利用历史电价信息这样的连续信息,来提取包含未来电价趋势信息的特征。仍然参考图2,它的输入是过去24小时的电价Pt,输出为特征Ft={ft n(n=1,2,…,5)}(t=1,…,T),完整序列的长短时记忆网络展开是23层神经网络,每一层神经网络在图2中以LSTM Cell表示。在图4中,具体来说,第一层神经网络的输入为dt-22=pt-22-pt-23,其中pt-22和pt-23分别表示智能体在t-22,t-23时刻获取到的电价。yt-22为第一层神经网络的输出,它包含了过去的电价信息,ct-22为它的单元状态。然后yt-22和ct-22被传递到第二层神经网络,以此类推,此过程一直重复到最后一层神经网络。
对于具有不确定性的电价进行特征提取,获得对未来价格趋势的预测信息,能在下面的步骤S103中更好地逼近第二神经网络中的行为价值函数,使方法的收敛性能得到进一步提升。
S103:基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
所述深度强化学习网络包括actor网络和critic网络,其中,actor(玩家)网络只要负责动作(Action)生成并和环境交互,critic(评委)网络主要负责评估actor网络的表现,并指导actor网络下一阶段的动作。
本实施例中提供的基于分布式深度强化学习的协调充电方法的“分布式”这一特征的实现主要是指用于多个智能体上的分布式计算,该分布式计算通过第一神经网络实现,即将智能体之间的通信交互建立为CommNet等通信模型,然后在该通信模型上进行分布式计算来获取最优策略。
此外,本申请实施例提供的基于分布式深度强化学习的协调充电方法在避免电网过载的前提下,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值(即保证每个智能体的电池电量充足)。
在最小化能源成本这一目的的实现过程中,除了依靠更新深度强化学习网络的网络参数之外,还依靠了所述电价预测信息,电价预测信息中可包含电价趋势信息的特征,利用这些特征提出的调度策略可使充电成本最小。在更新深度强化学习网络的网络参数使损失函数最小和预期回报最大的过程即最大化总奖励的过程,而能源成本与总奖励的分量成反比,故实现了最小化能源成本的目的。
保证每个智能体的电池电量大于预设阈值的目的主要依靠训练深度强化学习网络的网络参数来实现。更新深度强化学习网络的网络参数以使损失函数最小和预期回报最大,即最大化总奖励,而保证智能体具有足够电池电量这一目标通过总奖励的分量来量化表征,且与总奖励的分量成正比,因此,最大化总奖励就可以实现保证智能体具有足够电池电量的目的。
在具体执行步骤S103之前,通常需要进行深度神经网络的初始化过程,参考图5,所述基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数之前还包括:
S104:初始化所述第一神经网络的权重以及所述第二神经网络的权重;
在本实施例中,所述第一神经网络的权重以θμ表示,所述第二神经网络的权重以θQ表示。步骤S104的具体可行执行方式可包括:用Xavier初始化器来初始化权重θQμ
S105:利用所述第一神经网络的权重初始化所述第一神经网络的目标网络的权重;
S106:利用所述第二神经网络的权重初始化所述第二神经网络的目标网络的权重;
步骤S105和步骤S106的具体可行执行方式可包括:用
Figure BDA0002833671140000071
Figure BDA0002833671140000072
初始化权重
Figure BDA0002833671140000073
S107:初始化外循环的迭代次数,令外循环的迭代次数episode=0。
在初始化完成后,下面对深度神经网络的网络参数的更新过程的可行执行步骤进行描述。
在本申请的一个实施例中,参考图6,所述基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数包括:
S1031:外循环开始,episode=episode+1,初始化当前时刻t=1;
S1032:基于各个所述智能体的状态信息,初始化状态空间,所述状态空间表示为:
Figure BDA0002833671140000081
其中,
Figure BDA0002833671140000082
表示第n个智能体在t时刻的状态,Bt∈(0,1)表示智能体在t时刻的荷电状态,Lt={0,1}表示智能体在t时刻的位置,且0表示在家,1表示出行,ζt∈(0.6,1.2)表示变压器在t时刻的负载占最大期望负载的百分比,Pt=[pt×pt-1×…×pt-23]表示智能体在t,t-1,…,t-23时刻获取的电价;
所述状态空间中以向量的方式存储各个所述智能体的状态信息,如前文所述,所述智能体的状态信息至少包括智能体荷电状态、变压器负载状态、智能体位置状态以及智能体获取的历史电价信息。举例来说,
Figure BDA0002833671140000083
的值可以是[0.8,0.6,0,18.52,15.46,…,16.58],分别指当前智能体的荷电量为充满电的80%且智能体此刻在家;变压器负载为最大期望负载的60%;当前电价为18.52元/千瓦时,前一小时为15.46元/千瓦时,前23小时为16.58元/千瓦时。
内循环开始;
S1033:所述内循环包括:根据
Figure BDA0002833671140000084
为所有智能体的状态
Figure BDA0002833671140000085
选择对应的行为空间
Figure BDA0002833671140000086
其中
Figure BDA0002833671140000087
表示第n个智能体在t时刻执行的行为,且0表示充电,1表示不充电;
Figure BDA0002833671140000088
表示
Figure BDA0002833671140000089
通过所述第一神经网络计算出的行为选择概率;
S1034:在仿真环境中实施所述行为空间对应的行为,并观察奖励空间以及下一时刻的状态空间St+1,所述奖励空间表示为:
Figure BDA00028336711400000810
Figure BDA00028336711400000811
其中,
Figure BDA00028336711400000812
表示第n个智能体在t时刻得到的奖励,rb,t=50*Bt表示智能体所有者对t时刻电池电量的满意度奖励;
Figure BDA00028336711400000813
Figure BDA00028336711400000814
表示对能源成本最小化程度的奖励,且pt表示智能体在t时刻获取到的电价,ct表示智能体在t时刻消耗的电量;ro,t={0,50}表示对避免变压器过载的奖励,且0表示变压器过载时的奖励,50表示变压器负载在期望范围内的奖励;
智能体在t时刻得到的奖励是指在每种状态下某个动作的累积回报,它将对动作的评价量化,可理解为一种用数值大小评价动作好坏的方式,无论具体取什么数据,对应的奖励种类都是一个数值,数值大小代表着对此动作的评价程度。
S1035:基于状态空间、行为空间、奖励空间和下一时刻的状态空间获取转移对,并将所述转移对存储到缓存区中,所述转移对表示为:ξ=(St,At,Rt,St+1);
S1036:判断所述缓存区是否满足更新开始条件,如果否,则令t=t+1,并返回根据
Figure BDA0002833671140000091
为所有智能体的状态
Figure BDA0002833671140000092
选择对应的行为空间
Figure BDA0002833671140000093
的步骤;如果是,则更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重;
所述更新开始条件包括缓存区存储的转移对数量达到缓存区的最大存储量,即在缓存区存储的转移对数量达到缓存区的最大存储量时,判定所述缓存区满足更新开始条件,缓存区可以用Φ表示。
S1037:判断内循环的迭代次数是否大于或等于第一预设次数,如果否,则令t=t+1,并返回内循环开始的步骤,以进行新一次的内循环,如果是,则判断外循环的迭代次数是否大于第二预设次数,若是,则外循环结束,若否,则返回外循环开始的步骤,以进行新一次的外循环;
所述第一神经网络的权重以θμ表示,所述第二神经网络的权重以θQ表示,所述第一神经网络的目标网络的权重以
Figure BDA0002833671140000094
表示,所述第二神经网络的目标权重以
Figure BDA0002833671140000095
表示。
其中,所述更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重包括:
S10361:从缓存区中随机采集数量为预设数量的样本,所述样本表示为:ξi=(Si,t,Ai,t,Ri,t,Si,t+1),i=1,2,…,minibatch;并计算目标值
Figure BDA0002833671140000096
Figure BDA0002833671140000097
其中,Si,t表示t时刻第i个样本中的状态空间,Ai,t表示t时刻第i个样本中的行为空间,Ri,t表示t时刻第i个样本中的奖励空间,Si,t+1表示t时刻第i个样本中的下一时刻的状态空间,minibatch表示所述预设数量,δ表示第二神经网络更新的折扣因素;
Figure BDA0002833671140000101
表示在状态Si,t+1通过第一神经网络的目标网络计算出的行为选择概率;
Figure BDA0002833671140000102
表示在状态Si,t+1通过第二神经网络的目标网络执行行为
Figure BDA0002833671140000103
后的行为价值函数;
S10362:利用随机梯度下降,针对第二神经网络的损失函数
Figure BDA0002833671140000104
Figure BDA0002833671140000105
来更新第二神经网络的权重θQ;其中,
Figure BDA0002833671140000106
表示所述预设数量;Q(Si,t,Ai,tQ)表示在状态Si,t通过第二神经网络执行行为Ai,t后的行为价值函数。
S10363:利用随机梯度上升,针对第一神经网络的梯度
Figure BDA0002833671140000107
Figure BDA0002833671140000108
来更新第一神经网络的权重θμ;其中
Figure BDA0002833671140000109
表示在状态Si,t通过第二神经网络执行行为μ(Si,tμ)后的行为价值函数的梯度;
Figure BDA00028336711400001010
表示状态Si,t通过第一神经网络计算出的行为选择概率的梯度;
S10364:用第二神经网络的权重θQ、第一神经网络的权重θμ来更新对应的目标网络权重
Figure BDA00028336711400001011
即步骤S10373可表示为:
Figure BDA00028336711400001012
Figure BDA00028336711400001013
其中τ∈(0,1)表示学习速率。
在图6所示的算法中,参考图7,图7示出了该算法中第二神经网络的结构图,从原始状态数据中提取电价特征是改善行为价值函数逼近的关键步骤。利用这些特征,最终选取的调度策略可以最小化奖励之一的充电成本。在critic网络的完整模型中,输入量为包含未来电价趋势信息的特征Ft、St中的Btt,Lt以及At,通过三层全连接神经网络以一致逼近函数Q(St,At),其中W为神经网络的权值。
下面对本申请实施例提供的基于分布式深度强化学习的协调充电系统进行描述,下文描述的基于分布式深度强化学习的协调充电系统可与上文描述的基于分布式深度强化学习的协调充电方法相互对应参照。
相应的,本申请实施例提供了一种基于分布式深度强化学习的协调充电系统,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电系统包括:
信息获取模块,用于基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息;
电价预测模块,用于根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息;
参数更新模块,用于基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
可选的,所述电价预测模块具体用于,将所述智能体获取的历史电价信息输入预先训练的长短时记忆网络中,以获取所述预先训练的长短时记忆网络输出的与所述智能体对应的电价预测信息。
可选的,还包括:
初始化模块,用于初始化所述第一神经网络的权重以及所述第二神经网络的权重;
利用所述第一神经网络的权重初始化所述第一神经网络的目标网络的权重;
利用所述第二神经网络的权重初始化所述第二神经网络的目标网络的权重;
初始化外循环的迭代次数,令外循环的迭代次数episode=0。
可选的,所述参数更新模块具体用于,外循环开始,episode=episode+1,初始化当前时刻t=1;
基于各个所述智能体的状态信息,初始化状态空间,所述状态空间表示为:
Figure BDA0002833671140000111
其中,
Figure BDA0002833671140000112
表示第n个目标体在t时刻的状态,Bt∈(0,1)表示智能体在t时刻的荷电状态,Lt={0,1}表示智能体在t时刻的位置,且0表示在家,1表示出行,ζt∈(0.6,1.2)表示变压器在t时刻的负载占最大期望负载的百分比,Pt=[pt×pt-1×…×pt-23]表示目标体在t,t-1,…,t-23时刻获取的电价;
内循环开始;
所述内循环包括:
根据
Figure BDA0002833671140000121
为所有智能体的状态
Figure BDA0002833671140000122
选择对应的行为空间
Figure BDA0002833671140000123
其中
Figure BDA0002833671140000124
表示第n个智能体在t时刻执行的行为,且0表示充电,1表示不充电;
Figure BDA0002833671140000125
表示
Figure BDA0002833671140000126
通过actor网络计算出的行为选择概率;
在仿真环境中实施所述行为空间对应的行为,并观察奖励空间以及下一时刻的状态空间St+1,所述奖励空间表示为:
Figure BDA0002833671140000127
Figure BDA0002833671140000128
其中,
Figure BDA0002833671140000129
表示第n个智能体在t时刻得到的奖励,rb,t=50*Bt表示智能体所有者对t时刻电池电量的满意度奖励;
Figure BDA00028336711400001210
表示对能源成本最小化程度的奖励,且pt表示智能体在t时刻获取到的电价,ct表示智能体在t时刻消耗的电量;ro,t={0,50}表示对避免变压器过载的奖励,且0表示变压器过载时的奖励,50表示变压器负载在期望范围内的奖励;
基于状态空间、行为空间、奖励空间和下一时刻的状态空间获取转移对,并将所述转移对存储到缓存区中,所述转移对表示为:ξ=(St,At,Rt,St+1);
判断所述缓存区是否满足更新开始条件,如果否,则令t=t+1,并返回根据
Figure BDA00028336711400001211
为所有智能体的状态
Figure BDA00028336711400001212
选择对应的行为空间
Figure BDA00028336711400001213
的步骤;如果是,则更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重;
判断内循环的迭代次数是否大于或等于第一预设次数,如果否,则令t=t+1,并返回内循环开始的步骤,以进行新一次的内循环,如果是,则判断外循环的迭代次数是否大于第二预设次数,若是,则外循环结束,若否,则返回外循环开始的步骤,以进行新一次的外循环;
所述第一神经网络的权重以θμ表示,所述第二神经网络的权重以θQ表示,所述第一神经网络的目标网络的权重以
Figure BDA0002833671140000131
表示,所述第二神经网络的目标权重以
Figure BDA0002833671140000132
表示。
可选的,所述参数更新模块更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重的过程具体包括:
从缓存区中随机采集数量为预设数量的样本,所述样本表示为:ξi=(Si,t,Ai,t,Ri,t,Si,t+1),i=1,2,…,minibatch;并计算目标值
Figure BDA0002833671140000133
Figure BDA0002833671140000134
其中,Si,t表示t时刻第i个样本中的状态空间,Ai,t表示t时刻第i个样本中的行为空间,Ri,t表示t时刻第i个样本中的奖励空间,Si,t+1表示t时刻第i个样本中的下一时刻的状态空间,minibatch表示所述预设数量,δ表示第二神经网络更新的折扣因素;
Figure BDA0002833671140000135
表示在状态Si,t+1通过第一神经网络的目标网络计算出的行为选择概率;
Figure BDA0002833671140000136
表示在状态Si,t+1通过第二神经网络的目标网络执行行为
Figure BDA0002833671140000137
后的行为价值函数;
利用随机梯度下降,针对第二神经网络的损失函数
Figure BDA0002833671140000138
Figure BDA0002833671140000139
来更新第二神经网络的权重θQ
利用随机梯度上升,针对第一神经网络的梯度
Figure BDA00028336711400001310
Figure BDA00028336711400001311
来更新第一神经网络的权重θμ;其中
Figure BDA00028336711400001312
表示在状态Si,t通过第二神经网络执行行为μ(Si,tμ)后的行为价值函数的梯度;
Figure BDA00028336711400001313
表示状态Si,t通过第一神经网络计算出的行为选择概率的梯度;
用第二神经网络的权重θQ、第一神经网络的权重θμ来更新对应的目标网络权重
Figure BDA00028336711400001314
综上所述,本申请实施例提供了一种基于分布式深度强化学习的协调充电方法及协调充电系统,其中,所述基于分布式深度强化学习的协调充电方法基于通信模型获取各个智能体的状态信息,并基于所述智能体的状态信息以及基于状态信息获取的电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,所述深度强化学习网络包括第一神经网络和第二神经网络,即本申请实施例提供的协调充电方法为基于深度强化学习的分布式调度算法,避免了集中式调度算法带来的可扩展性较差以及在大量智能体接入电网时,信息收集和处理的时间和成本激增的问题,提高了基于分布式深度强化学习的协调充电方法的稳定性和可扩展性,此外,所述基于分布式深度强化学习的协调充电方法还根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息,进一步提高了该方法的收敛速度和运算效率。
本说明书中各实施例中记载的特征可以相互替换或者组合,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于分布式深度强化学习的协调充电方法,其特征在于,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电方法包括:
基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息;
根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息;
基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
2.根据权利要求1所述的方法,其特征在于,所述根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息包括:
将所述智能体获取的历史电价信息输入预先训练的长短时记忆网络中,以获取所述预先训练的长短时记忆网络输出的与所述智能体对应的电价预测信息。
3.根据权利要求1所述的方法,其特征在于,所述基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数之前还包括:
初始化所述第一神经网络的权重以及所述第二神经网络的权重;
利用所述第一神经网络的权重初始化所述第一神经网络的目标网络的权重;
利用所述第二神经网络的权重初始化所述第二神经网络的目标网络的权重;
初始化外循环的迭代次数,令外循环的迭代次数episode=0。
4.根据权利要求3所述的方法,其特征在于,所述基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数包括:
外循环开始,episode=episode+1,初始化当前时刻t=1;
基于各个所述智能体的状态信息,初始化状态空间,所述状态空间表示为:
Figure FDA0002833671130000021
其中,
Figure FDA0002833671130000022
表示第n个目标体在t时刻的状态,Bt∈(0,1)表示智能体在t时刻的荷电状态,Lt={0,1}表示智能体在t时刻的位置,且0表示在家,1表示出行,ζt∈(0.6,1.2)表示变压器在t时刻的负载占最大期望负载的百分比,Pt=[pt×pt-1×…×pt-23]表示目标体在t,t-1,…,t-23时刻获取的电价;
内循环开始;
所述内循环包括:
根据
Figure FDA0002833671130000023
为所有智能体的状态
Figure FDA0002833671130000024
选择对应的行为空间
Figure FDA0002833671130000025
其中
Figure FDA0002833671130000026
表示第n个智能体在t时刻执行的行为,且0表示充电,1表示不充电;
Figure FDA0002833671130000027
表示
Figure FDA0002833671130000028
通过actor网络计算出的行为选择概率;
在仿真环境中实施所述行为空间对应的行为,并观察奖励空间以及下一时刻的状态空间St+1,所述奖励空间表示为:
Figure FDA0002833671130000029
Figure FDA00028336711300000210
其中,
Figure FDA00028336711300000211
表示第n个智能体在t时刻得到的奖励,rb,t=50*Bt表示智能体所有者对t时刻电池电量的满意度奖励;
Figure FDA00028336711300000212
表示对能源成本最小化程度的奖励,且pt表示智能体在t时刻获取到的电价,ct表示智能体在t时刻消耗的电量;ro,t={0,50}表示对避免变压器过载的奖励,且0表示变压器过载时的奖励,50表示变压器负载在期望范围内的奖励;
基于状态空间、行为空间、奖励空间和下一时刻的状态空间获取转移对,并将所述转移对存储到缓存区中,所述转移对表示为:ξ=(St,At,Rt,St+1);
判断所述缓存区是否满足更新开始条件,如果否,则令t=t+1,并返回根据
Figure FDA00028336711300000213
为所有智能体的状态
Figure FDA00028336711300000214
选择对应的行为空间
Figure FDA00028336711300000215
的步骤;如果是,则更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重;
判断内循环的迭代次数是否大于或等于第一预设次数,如果否,则令t=t+1,并返回内循环开始的步骤,以进行新一次的内循环,如果是,则判断外循环的迭代次数是否大于第二预设次数,若是,则外循环结束,若否,则返回外循环开始的步骤,以进行新一次的外循环;
所述第一神经网络的权重以θμ表示,所述第二神经网络的权重以θQ表示,所述第一神经网络的目标网络的权重以
Figure FDA0002833671130000031
表示,所述第二神经网络的目标权重以
Figure FDA0002833671130000032
表示。
5.根据权利要求4所述的方法,其特征在于,所述更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重包括:
从缓存区中随机采集数量为预设数量的样本,所述样本表示为:ξi=(Si,t,Ai,t,Ri,t,Si,t+1),i=1,2,…,minibatch;并计算目标值
Figure FDA0002833671130000033
Figure FDA0002833671130000034
其中,Si,t表示t时刻第i个样本中的状态空间,Ai,t表示t时刻第i个样本中的行为空间,Ri,t表示t时刻第i个样本中的奖励空间,Si,t+1表示t时刻第i个样本中的下一时刻的状态空间,minibatch表示所述预设数量,δ表示第二神经网络更新的折扣因素;
Figure FDA0002833671130000035
表示在状态Si,t+1通过第一神经网络的目标网络计算出的行为选择概率;
Figure FDA0002833671130000036
表示在状态Si,t+1通过第二神经网络的目标网络执行行为
Figure FDA0002833671130000037
后的行为价值函数;
利用随机梯度下降,针对第二神经网络的损失函数
Figure FDA0002833671130000038
Figure FDA0002833671130000039
来更新第二神经网络的权重θQ
利用随机梯度上升,针对第一神经网络的梯度
Figure FDA00028336711300000310
Figure FDA00028336711300000311
来更新第一神经网络的权重θμ;其中
Figure FDA00028336711300000312
表示在状态Si,t通过第二神经网络执行行为μ(Si,tμ)后的行为价值函数的梯度;
Figure FDA00028336711300000313
表示状态Si,t通过第一神经网络计算出的行为选择概率的梯度;
用第二神经网络的权重θQ、第一神经网络的权重θμ来更新对应的目标网络权重
Figure FDA0002833671130000041
6.一种基于分布式深度强化学习的协调充电系统,其特征在于,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电系统包括:
信息获取模块,用于基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息;
电价预测模块,用于根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息;
参数更新模块,用于基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
7.根据权利要求6所述的系统,其特征在于,所述电价预测模块具体用于,将所述智能体获取的历史电价信息输入预先训练的长短时记忆网络中,以获取所述预先训练的长短时记忆网络输出的与所述智能体对应的电价预测信息。
8.根据权利要求6所述的系统,其特征在于,还包括:
初始化模块,用于初始化所述第一神经网络的权重以及所述第二神经网络的权重;
利用所述第一神经网络的权重初始化所述第一神经网络的目标网络的权重;
利用所述第二神经网络的权重初始化所述第二神经网络的目标网络的权重;
初始化外循环的迭代次数,令外循环的迭代次数episode=0。
9.根据权利要求8所述的系统,其特征在于,所述参数更新模块具体用于,外循环开始,episode=episode+1,初始化当前时刻t=1;
基于各个所述智能体的状态信息,初始化状态空间,所述状态空间表示为:
Figure FDA0002833671130000051
其中,
Figure FDA0002833671130000052
表示第n个目标体在t时刻的状态,Bt∈(0,1)表示智能体在t时刻的荷电状态,Lt={0,1}表示智能体在t时刻的位置,且0表示在家,1表示出行,ζt∈(0.6,1.2)表示变压器在t时刻的负载占最大期望负载的百分比,Pt=[pt×pt-1×…×pt-23]表示目标体在t,t-1,…,t-23时刻获取的电价;
内循环开始;
所述内循环包括:
根据
Figure FDA0002833671130000053
为所有智能体的状态
Figure FDA0002833671130000054
选择对应的行为空间
Figure FDA0002833671130000055
其中
Figure FDA0002833671130000056
表示第n个智能体在t时刻执行的行为,且0表示充电,1表示不充电;
Figure FDA0002833671130000057
表示
Figure FDA0002833671130000058
通过actor网络计算出的行为选择概率;
在仿真环境中实施所述行为空间对应的行为,并观察奖励空间以及下一时刻的状态空间St+1,所述奖励空间表示为:
Figure FDA0002833671130000059
Figure FDA00028336711300000510
其中,
Figure FDA00028336711300000511
表示第n个智能体在t时刻得到的奖励,rb,t=50*Bt表示智能体所有者对t时刻电池电量的满意度奖励;
Figure FDA00028336711300000512
表示对能源成本最小化程度的奖励,且pt表示智能体在t时刻获取到的电价,ct表示智能体在t时刻消耗的电量;ro,t={0,50}表示对避免变压器过载的奖励,且0表示变压器过载时的奖励,50表示变压器负载在期望范围内的奖励;
基于状态空间、行为空间、奖励空间和下一时刻的状态空间获取转移对,并将所述转移对存储到缓存区中,所述转移对表示为:ξ=(St,At,Rt,St+1);
判断所述缓存区是否满足更新开始条件,如果否,则令t=t+1,并返回根据
Figure FDA00028336711300000513
为所有智能体的状态
Figure FDA00028336711300000514
选择对应的行为空间
Figure FDA00028336711300000515
的步骤;如果是,则更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重;
判断内循环的迭代次数是否大于或等于第一预设次数,如果否,则令t=t+1,并返回内循环开始的步骤,以进行新一次的内循环,如果是,则判断外循环的迭代次数是否大于第二预设次数,若是,则外循环结束,若否,则返回外循环开始的步骤,以进行新一次的外循环;
所述第一神经网络的权重以θμ表示,所述第二神经网络的权重以θQ表示,所述第一神经网络的目标网络的权重以
Figure FDA0002833671130000061
表示,所述第二神经网络的目标权重以
Figure FDA0002833671130000062
表示。
10.根据权利要求9所述的系统,其特征在于,所述参数更新模块更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重的过程具体包括:
从缓存区中随机采集数量为预设数量的样本,所述样本表示为:ξi=(Si,t,Ai,t,Ri,t,Si,t+1),i=1,2,…,minibatch;并计算目标值
Figure FDA0002833671130000063
Figure FDA0002833671130000064
其中,Si,t表示t时刻第i个样本中的状态空间,Ai,t表示t时刻第i个样本中的行为空间,Ri,t表示t时刻第i个样本中的奖励空间,Si,t+1表示t时刻第i个样本中的下一时刻的状态空间,minibatch表示所述预设数量,δ表示第二神经网络更新的折扣因素;
Figure FDA0002833671130000065
表示在状态Si,t+1通过第一神经网络的目标网络计算出的行为选择概率;
Figure FDA0002833671130000066
表示在状态Si,t+1通过第二神经网络的目标网络执行行为
Figure FDA0002833671130000067
后的行为价值函数;
利用随机梯度下降,针对第二神经网络的损失函数
Figure FDA0002833671130000068
Figure FDA0002833671130000069
来更新第二神经网络的权重θQ;其中,
Figure FDA00028336711300000610
表示所述预设数量;Q(Si,t,Ai,tQ)表示在状态Si,t通过第二神经网络执行行为Ai,t后的行为价值函数;
利用随机梯度上升,针对第一神经网络的梯度
Figure FDA00028336711300000611
Figure FDA00028336711300000612
来更新第一神经网络的权重θμ;其中
Figure FDA00028336711300000613
表示在状态Si,t通过第二神经网络执行行为μ(Si,tμ)后的行为价值函数的梯度;
Figure FDA00028336711300000614
表示状态Si,t通过第一神经网络计算出的行为选择概率的梯度;
用第二神经网络的权重θQ、第一神经网络的权重θμ来更新对应的目标网络权重
Figure FDA0002833671130000071
CN202011470610.XA 2020-12-14 2020-12-14 基于分布式深度强化学习的协调充电方法及协调充电系统 Active CN114619907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011470610.XA CN114619907B (zh) 2020-12-14 2020-12-14 基于分布式深度强化学习的协调充电方法及协调充电系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011470610.XA CN114619907B (zh) 2020-12-14 2020-12-14 基于分布式深度强化学习的协调充电方法及协调充电系统

Publications (2)

Publication Number Publication Date
CN114619907A true CN114619907A (zh) 2022-06-14
CN114619907B CN114619907B (zh) 2023-10-20

Family

ID=81896971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011470610.XA Active CN114619907B (zh) 2020-12-14 2020-12-14 基于分布式深度强化学习的协调充电方法及协调充电系统

Country Status (1)

Country Link
CN (1) CN114619907B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997935A (zh) * 2022-07-19 2022-09-02 东南大学溧阳研究院 一种基于内点策略优化的电动汽车充放电策略优化方法
CN116691419A (zh) * 2023-08-03 2023-09-05 浙江大学 弱链接通信下深度强化学习的电动汽车自主充电控制方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100179704A1 (en) * 2009-01-14 2010-07-15 Integral Analytics, Inc. Optimization of microgrid energy use and distribution
CN103456099A (zh) * 2013-08-26 2013-12-18 东南大学 一种基于实时电价的插入式电动汽车充电控制方法
CN110248839A (zh) * 2016-12-19 2019-09-17 法国电力公司 适用于电动汽车充电的系统
CN110309968A (zh) * 2019-06-28 2019-10-08 万帮充电设备有限公司 一种基于桩群预测充电量的动态定价系统及方法
CN110374804A (zh) * 2019-07-03 2019-10-25 西安交通大学 一种基于深度确定性策略梯度补偿的变桨距控制方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110945542A (zh) * 2018-06-29 2020-03-31 东莞理工学院 一种基于智能电网的多智能体深度强化学习代理方法
CN111725836A (zh) * 2020-06-18 2020-09-29 上海电器科学研究所(集团)有限公司 一种基于深度强化学习的需求响应控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100179704A1 (en) * 2009-01-14 2010-07-15 Integral Analytics, Inc. Optimization of microgrid energy use and distribution
CN103456099A (zh) * 2013-08-26 2013-12-18 东南大学 一种基于实时电价的插入式电动汽车充电控制方法
CN110248839A (zh) * 2016-12-19 2019-09-17 法国电力公司 适用于电动汽车充电的系统
CN110945542A (zh) * 2018-06-29 2020-03-31 东莞理工学院 一种基于智能电网的多智能体深度强化学习代理方法
CN110309968A (zh) * 2019-06-28 2019-10-08 万帮充电设备有限公司 一种基于桩群预测充电量的动态定价系统及方法
CN110374804A (zh) * 2019-07-03 2019-10-25 西安交通大学 一种基于深度确定性策略梯度补偿的变桨距控制方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN111725836A (zh) * 2020-06-18 2020-09-29 上海电器科学研究所(集团)有限公司 一种基于深度强化学习的需求响应控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YIJUN CHENG, JUN PENG, XIN GU, FU JIANG, HENG LI, WEIRONG LIU, ZHIWU HUANG: "Optimal Energy Management of Energy Internet: A Distributed Actor-Critic Reinforcement Learning Method", 2020 AMERICAN CONTROL CONFERENCE, pages 521 - 526 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997935A (zh) * 2022-07-19 2022-09-02 东南大学溧阳研究院 一种基于内点策略优化的电动汽车充放电策略优化方法
CN116691419A (zh) * 2023-08-03 2023-09-05 浙江大学 弱链接通信下深度强化学习的电动汽车自主充电控制方法
CN116691419B (zh) * 2023-08-03 2023-11-14 浙江大学 弱链接通信下深度强化学习的电动汽车自主充电控制方法

Also Published As

Publication number Publication date
CN114619907B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN111934335B (zh) 一种基于深度强化学习的集群电动汽车充电行为优化方法
Tuchnitz et al. Development and evaluation of a smart charging strategy for an electric vehicle fleet based on reinforcement learning
Liang et al. Mobility-aware charging scheduling for shared on-demand electric vehicle fleet using deep reinforcement learning
CN109347149B (zh) 基于深度q值网络强化学习的微电网储能调度方法及装置
CN110659796B (zh) 一种可充电群车智能中的数据采集方法
CN110774929A (zh) 一种电动汽车有序充电的实时控制策略及优化方法
CN113627993A (zh) 一种基于深度强化学习的智能电动汽车充放电决策方法
CN113515884A (zh) 分散式电动汽车实时优化调度方法、系统、终端及介质
CN116001624A (zh) 基于深度强化学习的一桩多联电动汽车有序充电方法
CN112633571A (zh) 源网荷互动环境下基于lstm的超短期负荷预测方法
CN114619907B (zh) 基于分布式深度强化学习的协调充电方法及协调充电系统
CN111798121B (zh) 一种面向电动汽车能源管理调度的分布式协同优化方法
CN114997631B (zh) 一种电动汽车充电调度方法、装置、设备及介质
CN113326994A (zh) 一种考虑源荷储互动的虚拟电厂能量协同优化方法
Tao et al. Data-driven on-demand energy supplement planning for electric vehicles considering multi-charging/swapping services
CN117565727B (zh) 基于人工智能的无线充电自动控制方法及系统
Zhang et al. A safe reinforcement learning-based charging strategy for electric vehicles in residential microgrid
CN117543581A (zh) 考虑电动汽车需求响应的虚拟电厂优化调度方法及其应用
CN117117878A (zh) 基于人工神经网络和多智能体强化学习的电网需求侧响应潜力评估及负荷调控方法
CN114611811B (zh) 基于ev负荷参与度的低碳园区优化调度方法及系统
CN114154729A (zh) 一种混合动力汽车复合储能系统能量管理系统及方法
CN114548644A (zh) 基于电动汽车与充电设施动态匹配的配电网双层调度方法及系统
Dedeoglu et al. Federated Learning Based Demand Reshaping for Electric Vehicle Charging
CN111049125B (zh) 一种基于机器学习的电动车智能接入控制方法
CN109094418B (zh) 基于逐层优化策略的电动汽车主动排序充电控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Qin Jiahu

Inventor after: Zhang Zilin

Inventor after: Wan Yanni

Inventor before: Zhang Zilin

Inventor before: Qin Jiahu

Inventor before: Wan Yanni

CB03 Change of inventor or designer information