CN117709671A - 一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法 - Google Patents
一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法 Download PDFInfo
- Publication number
- CN117709671A CN117709671A CN202311811238.8A CN202311811238A CN117709671A CN 117709671 A CN117709671 A CN 117709671A CN 202311811238 A CN202311811238 A CN 202311811238A CN 117709671 A CN117709671 A CN 117709671A
- Authority
- CN
- China
- Prior art keywords
- station
- intelligent energy
- data center
- energy station
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 title claims abstract description 88
- 229910052799 carbon Inorganic materials 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000005259 measurement Methods 0.000 title claims abstract description 26
- 238000005457 optimization Methods 0.000 title claims abstract description 23
- 238000006386 neutralization reaction Methods 0.000 title claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 20
- 230000002787 reinforcement Effects 0.000 claims abstract description 14
- 239000003795 chemical substances by application Substances 0.000 claims description 74
- 230000009471 action Effects 0.000 claims description 30
- 238000010248 power generation Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000001186 cumulative effect Effects 0.000 claims description 9
- 238000005265 energy consumption Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 230000006854 communication Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000007599 discharging Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000013257 coordination network Substances 0.000 claims description 4
- 238000011217 control strategy Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000009916 joint effect Effects 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims description 3
- 230000005012 migration Effects 0.000 claims description 3
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 claims description 3
- 238000005057 refrigeration Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 10
- 230000000694 effects Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101150020966 Acta2 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Landscapes
- Charge And Discharge Circuits For Batteries Or The Like (AREA)
Abstract
本发明公开了一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法,包括以下步骤:S1、构建智慧能源站中数据中心和电动汽车充电站碳排放函数;S2、将多智慧能源站碳排放最优调度问题描述为基于分布式部分可观测马尔科夫决策过程;S3、根据多智慧能源站内多参量广域量测数据信息,提出多智慧能源站碳排放最优马尔科夫决策过程参数;S4、采用多智能体深度强化学习算法完成对多智慧能源站各决策时刻的最佳调度策略。本发明采用上述一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法,可以有效减少多智慧能源站整体总碳排放量。
Description
技术领域
本发明涉及智慧能源站能源管理与调度技术领域,尤其涉及一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法。
背景技术
现阶段社会城市化发展水平不断提高,已有多个包含数据中心和电动汽车充电站的智慧能源站投入试点运营。针对智慧能源站内数据中心与电动汽车充电站高额的碳排放管理,使其努力摆脱传统化石能源依赖并尽早实现碳中和已经成为当前主要研究重点。多参量广域量测数据的应用成为能源站运营和管理中不可忽视的重要组成部分,为能源站提供了更为全面的实时监测与分析手段。然而,在当前的传统调度策略中,对这些多维度数据的充分利用并未得到完备考虑。
目前,传统的能量管理策略通常采用基于优化算法的集中式调度方法。这些算法在已知环境和固定参数的情况下工作良好,但在处理多目标复杂交互的变化场景效果不佳,特别是在应对高阶不确定性的决策模型时,由于其集中管理方式无法有效处理多目标之间的相互作用和信息共享,导致无法充分利用系统整体性能,最终无法取得多目标最优的调度结果。此外,传统的调度策略通常涉及用户信息的全面上传,也未考虑可能导致的信息隐私泄露的潜在风险。
在此背景下,人工智能特别是强化学习技术,为智慧能源站的能源管理和碳中和优化调度提供了新的视角。与传统调度方法不同,强化学习算法依靠其自主学习和训练能力,在复杂的多主体环境和决策空间中优化能耗和碳排放等多目标问题。然而,这种方法面临着其固有的挑战:由于在训练过程中其他智能体策略的不断变化,单个智能体的最优策略也随之需要调整,导致所处环境的非平稳性和策略的收敛性及一致性差。因此,基于深度强化学习为碳中和目标下的多智慧能源站开发优化调度方法,是一个高度复杂且具有挑战性的任务。
发明内容
本发明的目的是提供一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法,可以有效降低多智慧能源站整体总碳排放量。
为实现上述目的,本发明提供了一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法,包括以下步骤:
S1、构建智慧能源站中数据中心和电动汽车充电站碳排放函数;
S2、将多智慧能源站碳排放最优调度问题描述为基于分布式部分可观测马尔科夫决策过程;
S3、根据多智慧能源站内多参量广域量测数据信息,提出多智慧能源站碳排放最优马尔科夫决策过程参数;
S4、采用多智能体深度强化学习算法完成对多智慧能源站各决策时刻的最佳调度策略。
优选的,步骤S1中,假设其他(制冷系统、照明系统、网络传输设备等)功耗是数据中心站服务器功耗的线性函数,用电能使用效率 (Power Usage Efficiency, PUE)来进行衡量,其定义为数据中心总能耗与服务器的能耗之比,得到数据中心n在第t个控制时段的总功耗P n DC,t 表示为:
(1)
其中,P n cluster,t 为数据中心服务器集群的功耗。
优选的,步骤S1中,数据中心站的碳排放由电网火电、同站的风力供电和太阳能供电。计及风力发电和光伏发电的全生命周期碳足迹,当不考虑传输线路的功率损失时,时段t内数据中心n的总碳排放Ccyber(t)为:
(2)
其中,β G e为火力发电碳排放供电基准值、β W e为风电的碳排放供电基准值,β V e为太阳能光伏的碳排放供电基准值,P n DC,t 为数据中心n在第t个控制时段的总功耗,Δt G为火力发电时间段,Δt W为风力发电时间段,Δt V为太阳能光伏发电时间段。
优选的,步骤S1中,电动汽车站可由变电站和同站的风电、光伏充电站向其供电,而每辆电动汽车的使用阶段的碳排放为其火电出力和可再生能源出力的碳排放之和,因此电动汽车站内M辆电动汽车t时段的总碳排放Cev(t)为:
(3)
其中,P c,j为第j辆新能汽车的充电功率;
进一步地,含数据中心站和电动汽车充电站的智慧能源站在时段t产生的碳排放总和C sum(t)为:
(4)
优选的,步骤S2中,将多智慧能源站碳排放最优调度问题描述为基于分布式部分可观测马尔科夫决策过程,包括:
对多个智慧能源站进行碳排放优化调度,并在观测信息的部分考虑用户信息的隐私性,各智慧能源站只有本地的用户信息,用户原始信息如某电动汽车离站时间等无须汇总上传到控制中心,多个智慧能源站分别根据本地观测到的多参量广域量测数据信息在约束条件下做出调度决策并协调配合达到整体总碳排放的最优,将多智慧能源站碳排放最优调度问题描述为基于分布式部分可观测马尔科夫决策过程如下形式:
(5)
其中,N是智能体数量,将每个智慧能源站配置为一个智能体,S是多智能体的联合状态,所有智能体的状态联合在一起组成了全局联合状态向量,{A i }N i=1为智能体的优化调度动作集合;{O i }N i=1为智能体的有限观测集合;τ为状态转移函数,表示为系统当前状态s下采取行动a到状态s’的转移概率分布;{R i }N i=1为智能体奖励函数集合,表示环境给出的奖励。
优选的,步骤S2中,在系统某一状态s t 确定时,协同控制动作a t 的优劣程度可以使用全局价值函数Q π(s, a)来评估,全局价值函数表示为:
(6)
其中,E π(·)为策略π下的期望,r为获得的奖励值,γ为折扣因子,表示未来某一时刻的奖励在累积奖励中所占的影响比重,γ∈[0, 1];
进一步地,多智能体能源站优化调度的目标是找到最优控制策略π*以最大化动作值函数,因此,多智慧能源站碳排放最优调度问题转化为寻找最优状态价值函数Q*(s, a),并表示为:
(7)
多智慧能源站的最优调度动作为:
(8)。
优选的,步骤S3中,根据多智慧能源站内多参量广域量测数据信息,提出多智慧能源站碳排放最优马尔科夫决策过程参数,包括:
状态空间: O i,t ∈S表示单个智能体i在t时段的观测到的智慧能源站状态,为保护智慧能源站用户数据隐私每个智能体只能观测到其自身智慧能源站的情况,因此状态空间具体包括数据中心站功率P n DC,t ,数据中心内任务情况M n k,t 、充电站功率P n EV,t ,充电站中连接充电桩的电动汽车荷电状态SOCt、用户电动汽车离开时间T evdl、光伏发电功率P v,t和风力发电功率P w,t,状态空间表示为:O i,t ={P n DC,t ,M n k,t , P n EV,t , SOCt, T evdl, P v,t , P w,t};
动作空间:{A i }={ A 1 i , A 2 i }为智能体i的数据中心动作A 1和电动汽车充电站动作A 2的联合行动集合。
优选的,步骤S3中,数据中心动作A 1包括:
由于数据中心的服务器集群每时每刻都要应对大量的用户计算任务请求,多个智慧能源站根据站内用户计算任务数量,新能源出力情况、电动汽车充放电实际情况灵活转移任务并选择碳排放最小的策略执行任务A1 i动作为将本数据中心用户的计算任务迁移到第n个智慧能源站的数据中心A1 i={a 1 1,i , a 1 2,i ,…a 1 d,i ,…, a 1 D,i },d≠i,a 1 1,i 表示数据中心i迁移到数据中心1的任务数量,a 1 2,i 表示数据中心i迁移到数据中心2的任务数量,若a 1 d,i =0则表示不迁移。
优选的,步骤S3中,电动汽车充电站动作A 2包括:
A 2为用户的电动汽车充放电动作,A 2 =(a c,j,a d,j),a c,j表示电动汽车充电站内的电动汽车j以额定功率充电,a d,j表示电动汽车j以额定功率向数据中心供电;
奖励函数{R i }N i=1:在满足物理约束的数据中心动作选择和充电动作选择下,将各智慧能源站智能体在时段t获得的奖励函数{R i } N i=1设置为:
(9)
优选的,步骤S4中,采用多智能体深度强化学习算法完成对多智慧能源站各决策时刻的最佳调度策略,包括:
在各智慧能源站的智能体i上部署一个策略网络π(a i | o i ; θ i ), 和一个价值神经网络q(o|a; ξ i ), 神经网络的参数分别记为θ i 和ξ i 。采用多智能体深度强化学习算法,以actor-critic算法作为去中心化框架的基础,利用双向协调网络BiCNet通过训练的方式定义多智能体间的通讯过程,用来连接每个智慧能源站智能体个体的策略和价值网络,使多个智能体能在真实的复杂环境中互相配合。
优选的,步骤S4中,BicNet中所有的智能体都拥有独立的回报函数以及Q-network以及policy network,在训练过程中,每个智能体i的目标是最大化其累积回报J(θ),表示为:
(10)
优选的,步骤S4中,为了获得更大的期望累积回报,使用当前观测信息来最大化,使用随机梯度下降方法(SGD)来寻找最大值。对累计回报J(θ)求偏导得到策略更新梯度θ表示为:
(11)
对于价值神经网络参数ξ,根据BicNet中的多智能体梯度算法,利用下面多智能体梯度算法计算 更新价值网络参数,价值神经网络的梯度表示为:
(12)
在每个调度时段t,区域智能体i根据本站观测的状态O i t ,利用策略网络得到优化调度动作a i t ,根据所有智能体调度决策获得的奖励Q i *(s, a),沿着使累计奖励θ←θ+α▽ θ J(θ)最大化的方向不断更新θ i 和ζ i ,获得每个决策点的最佳调度策略π(a i | o i ; θ i )。
本发明采用上述一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法,其技术效果如下:
(1)本发明聚焦于多智慧能源站内数据中心和电动汽车充电站的高能耗所造成的碳排放问题,建立数据中心和电动汽车充电站的碳排放模型,充分利用多智慧能源站内数据中心负荷和电动汽车充电负荷在空间和时域调度的灵活性,实现多个智慧能源站中数据中心与电动汽车充电站的协同优化,最小化多智慧能源站的碳排放,使之趋向于碳中和;
(2)本发明的优点在于,本发明采用多智能体深度强化学习的方法解决多智慧能源站的最优碳排放调度问题,基于多参量广域量测数据信息,利用双向协调网络BiCNet通过训练的方式定义多智能体间的通讯过程,多个智能体在BicNet上交换的参数信息不再是用户的原始数据,既保证了用户的隐私性,又克服了多个智能体因信息不完全出现的环境非平稳问题,实现多个智慧能源站碳排放最优的分布式协同优化。
附图说明
图1是本发明实施例提供的一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法的流程示意图。
图2是本发明实施例中智慧能源站协同调控BiCNet结构示意图。
图3是本发明实施例中智慧能源站24小时运行情况统计图。
图4是本发明实施例中多智慧能源站不同方法下总碳排放结果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例提供的一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法的流程示意图,本发明实施例提供了一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法,应用于智慧能源站优化调度,所述方法步骤如下所示:
S1、构建智慧能源站中数据中心和电动汽车充电站碳排放函数;
S2、将多智慧能源站碳排放最优调度问题描述为基于分布式部分可观测马尔科夫决策过程;
S3、根据多智慧能源站内多参量广域量测数据信息,提出多智慧能源站碳排放最优马尔科夫决策过程参数;
S4、采用多智能体深度强化学习算法完成对多智慧能源站各决策时刻的最佳调度策略。
按步骤S1,构建智慧能源站中数据中心和电动汽车充电站碳排放函数;
假设其他(制冷系统、照明系统、网络传输设备等)功耗是数据中心站服务器功耗的线性函数,用电能使用效率 (Power Usage Efficiency, PUE)来进行衡量,其定义为数据中心总能耗与服务器的能耗之比,得到数据中心n在第t个控制时段的总功耗P n DC,t 表示为:
(1)
其中,P n cluster,t 为数据中心服务器集群的功耗;
数据中心站的碳排放由电网火电、同站的风力供电和太阳能供电。计及风力发电和光伏发电的全生命周期碳足迹,当不考虑传输线路的功率损失时,时段t内数据中心n的总碳排放Ccyber(t)为:
(2)
其中,β G e为火力发电碳排放供电基准值、β W e为风电的碳排放供电基准值,β V e为太阳能光伏的碳排放供电基准值,P n DC,t 为数据中心n在第t个控制时段的总功耗,Δt G为火力发电时间段,Δt W为风力发电时间段,Δt V为太阳能光伏发电时间段。
电动汽车站可由变电站和同站的风电、光伏充电站向其供电,而每辆电动汽车的使用阶段的碳排放为其火电出力和可再生能源出力的碳排放之和,因此电动汽车站内M辆电动汽车t时段的总碳排放Cev(t)为:
(3)
其中,P c,j为第j辆新能汽车的充电功率;
进一步地,含数据中心站和电动汽车充电站的智慧能源站在时段t产生的碳排放总和C sum(t)为:
(4)
之后有步骤S2,本发明实施例将多智慧能源站碳排放最优调度问题描述为基于分布式部分可观测马尔科夫决策过程如下形式:
(5)
其中将每个智慧能源站配置为一个智能体,智能体总数量为4个,S是多智能体的联合状态,所有智能体的状态联合在一起组成了全局联合状态向量,{A i }4 i=1为智能体的优化调度动作集合;{O i }4 i=1为智能体的有限观测集合;τ为状态转移函数,表示为系统当前状态s下采取行动a到状态s’的转移概率分布;{R i }4 i=1为智能体奖励函数集合,表示环境给出的奖励。
在系统某一状态s t 确定时,协同控制动作a t 的优劣程度可以使用全局价值函数Q π(s, a)来评估,全局价值函数表示为:
(6)
其中,E π(·)为策略π下的期望,r为获得的奖励值,γ为折扣因子,表示未来某一时刻的奖励在累积奖励中所占的影响比重,γ∈[0, 1]。
进一步地,多智能体能源站优化调度的目标是找到最优控制策略π*以最大化动作值函数,因此,多智慧能源站碳排放最优调度问题转化为寻找最优状态价值函数Q*(s, a),并表示为:
(7)
多智慧能源站的最优调度动作为:
(8)。
优选的,按照步骤S3,根据多智慧能源站内多参量广域量测数据信息,提出多智慧能源站碳排放最优马尔科夫决策过程参数,包括:
状态空间: O i,t ∈S表示单个智能体i在t时段的观测到的智慧能源站状态,状态空间具体包括数据中心站功率P n DC,t ,数据中心内任务情况M n k,t 、充电站功率P n EV,t ,充电站中连接充电桩的电动汽车荷电状态SOCt、用户电动汽车离开时间T evdl、光伏发电功率P v,t和风力发电功率P w,t,状态空间表示为:O i,t ={ P n DC,t , M n k,t , P n EV,t , SOCt, T evdl, P v,t , P w,t };
动作空间:{A i }={ A 1 i , A 2 i }为智能体i的数据中心动作A 1和电动汽车充电站动作A 2的联合行动集合。其中,数据中心动作A1 i={a 1 1,i , a 1 2,i , a 1 3,i , a 1 4,i },d≠i,a 1 1,i 表示数据中心i迁移到数据中心1的任务数量,a 1 2,i 表示数据中心i迁移到数据中心2的任务数量,若a 1 d,i =0则表示不迁移。电动汽车充电站动作A 2=(a c,j,a d,j),a c,j表示电动汽车充电站内的电动汽车j以额定功率充电,a d,j表示电动汽车j以额定功率向数据中心供电;
奖励函数{R i }4 i=1:在满足物理约束的数据中心动作选择和充电动作选择下,将各智慧能源站智能体在时段t获得的奖励函数{R i }4 i=1设置为:
(9)
之后按照步骤S4,采用多智能体深度强化学习算法完成对多智慧能源站各决策时刻的最佳调度策略,在各智慧能源站的智能体i上部署一个策略网络π(a i | o i ; θ i ), 和一个价值神经网络q(o|a; ξ i ), 神经网络的参数分别记为θ i 和ξ i 。
在训练过程中,每个智能体i的目标是最大化其累积回报J(θ),表示为:
(10)
为了获得更大的期望累积回报,使用当前观测信息来最大化,使用随机梯度下降方法(SGD)来寻找最大值。对累计回报J(θ)求偏导得到策略更新梯度θ表示为:
(11)
对于价值神经网络参数ξ,根据BicNet中的多智能体梯度算法,利用下面多智能体梯度算法计算更新价值网络参数,价值神经网络的梯度表示为:
(12)
在每个调度时段t,区域智能体i根据本站观测的状态O i t ,利用策略网络得到优化调度动作a i t ,根据所有智能体调度决策获得的奖励Q i *(s, a),沿着使累计奖励θ←θ+α▽ θ J(θ)最大化的方向不断更新θ i 和ζ i ,获得每个决策点的最佳调度策略π(a i | o i ; θ i )。
发明实施例以4个多站融合智慧能源站作为评估对象,优化调度周期为24h,以5min为一个调度时段,将每天分为288个调度时段,每个智慧能源站智能体的策略网络和价值网络结构相同。每个策略网络和价值网络由三部分组成,前置多层编码器、中部BiCNet通信层和后置多层编码器,多层编码器有4层隐含层,各层神经元数量为300,300,150和150;中部BiCNet通信层由单层的LSTM双向协调网络构成,神经元数量为150;后置多层编码器有4层隐含层,各层神经元数量为150,150,150和2。
发明实例对比了四种调控策略的减排效果:方法一无任何优化方法,方法二执行基于混合整数优化的电动汽车有序充电调控方法,方法三执行基于动态规划算法的电动汽车有序充放电V2G方法,方法四执行本发明所提出的面向碳中和多智慧能源站的深度强化学习优化调度方法。由实验结果分析可得,采用本发明提出的调度方法,相较于方法三执行基于动态规划算法的电动汽车充放电V2G方法优化多智慧能源站的碳排放减少64.01%,比采用方法二执行基于混合整数优化的电动汽车有序充电调控方法的碳排放减少71.25%,而比方法一无任何优化方法时减少73.69%,结果证明本专利所提方法有效减少了多智慧能源站总碳排放量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (5)
1.一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法,其特征在于,包括以下步骤:
S1、构建智慧能源站中数据中心和电动汽车充电站碳排放函数;
S2、将多智慧能源站碳排放最优调度问题描述为基于分布式部分可观测马尔科夫决策过程;
S3、根据多智慧能源站内多参量广域量测数据信息,提出多智慧能源站碳排放最优马尔科夫决策过程参数;
S4、采用多智能体深度强化学习算法完成对多智慧能源站各决策时刻的最佳调度策略。
2.根据权利要求1所述的一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法,其特征在于,步骤S1中,假设其他(制冷系统、照明系统、网络传输设备等)功耗是数据中心站服务器功耗的线性函数,用电能使用效率 (Power Usage Efficiency, PUE)来进行衡量,其定义为数据中心总能耗与服务器的能耗之比,得到数据中心n在第t个控制时段的总功耗P n DC,t 表示为:
(1)
其中,P n cluster,t 为数据中心服务器集群的功耗;
数据中心站的碳排放由电网火电、同站的风力供电和太阳能供电。计及风力发电和光伏发电的全生命周期碳足迹,当不考虑传输线路的功率损失时,时段t内数据中心n的总碳排放Ccyber(t)为:
(2)
其中,β G e为火力发电碳排放供电基准值、β W e为风电的碳排放供电基准值,β V e为太阳能光伏的碳排放供电基准值,P n DC,t 为数据中心n在第t个控制时段的总功耗,Δt G为火力发电时间段,Δt W为风力发电时间段,Δt V为太阳能光伏发电时间段;
电动汽车站可由变电站和同站的风电、光伏充电站向其供电,而每辆电动汽车的使用阶段的碳排放为其火电出力和可再生能源出力的碳排放之和,因此电动汽车站内M辆电动汽车t时段的总碳排放Cev(t)为:
(3)
其中,P c,j为第j辆新能汽车的充电功率;
含数据中心站和电动汽车充电站的智慧能源站在时段t产生的碳排放总和C sum(t)为:
(4)。
3.根据权利要求2所述的一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法,其特征在于,步骤S2中,将多智慧能源站碳排放最优调度问题描述为基于分布式部分可观测马尔科夫决策过程如下形式:
(5)
其中,N是智能体数量,将每个智慧能源站配置为一个智能体,S是多智能体的联合状态,所有智能体的状态联合在一起组成了全局联合状态向量,{A i }N i=1为智能体的优化调度动作集合;{O i }N i=1为智能体的有限观测集合;τ为状态转移函数,表示为系统当前状态s下采取行动a到状态s’的转移概率分布;{R i }N i=1为智能体奖励函数集合,表示环境给出的奖励;
在系统某一状态s t 确定时,协同控制动作a t 的优劣程度可以使用全局价值函数Q π(s,a)来评估,全局价值函数表示为:
(6)
其中,E π(·)为策略π下的期望,r为获得的奖励值,γ为折扣因子,表示未来某一时刻的奖励在累积奖励中所占的影响比重,γ∈[0, 1];
多智能体能源站优化调度的目标是找到最优控制策略π*以最大化动作值函数,因此,多智慧能源站碳排放最优调度问题转化为寻找最优状态价值函数Q*(s, a),并表示为:
(7)
多智慧能源站的最优调度动作为:
(8)。
4.如权利要求3所述的一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法,其特征在于,步骤S3中,根据多智慧能源站内多参量广域量测数据信息,提出多智慧能源站碳排放最优马尔科夫决策过程参数,包括:1) 状态空间: O i,t ∈S表示单个智能体i在t时段的观测到的智慧能源站状态,为保护智慧能源站用户数据隐私每个智能体只能观测到其自身智慧能源站的情况,因此状态空间具体包括数据中心站功率P n DC,t ,数据中心内任务情况M n k,t 、充电站功率P n EV,t ,充电站中连接充电桩的电动汽车荷电状态SOCt、用户电动汽车离开时间T evdl、光伏发电功率P v,t和风力发电功率P w,t,状态空间表示为:O i,t ={P n DC,t ,M n k,t , P n EV,t , SOCt, T evdl, P v,t , P w,t}。2) 动作空间:{A i }={A 1 i , A 2 i }为智能体i的数据中心动作A 1和电动汽车充电站动作A 2的联合行动集合;
数据中心动作A 1具体为:由于数据中心的服务器集群每时每刻都要应对大量的用户计算任务请求,多个智慧能源站根据站内用户计算任务数量,新能源出力情况、电动汽车充放电实际情况灵活转移任务并选择碳排放最小的策略执行任务A 1 i 动作为将本数据中心用户的计算任务迁移到第n个智慧能源站的数据中心A 1 i ={ a 1 1,i , a 1 2,i ,…a 1 d,i ,…, a 1 D,i },d≠i,a 1 1,i 表示数据中心i迁移到数据中心1的任务数量,a 1 2,i 表示数据中心i迁移到数据中心2的任务数量,若a 1 d,i =0则表示不迁移;
电动汽车充电站动作A 2具体为:A 2为用户的电动汽车充放电动作,A 2 =(a c,j,a d,j),a c,j表示电动汽车充电站内的电动汽车j以额定功率充电,a d,j表示电动汽车j以额定功率向数据中心供电;
在满足物理约束的数据中心动作选择和充电动作选择下,将各智慧能源站智能体在时段t获得的奖励函数{R i }N i=1设置为:
(9)。
5.如权利要求4所述的一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法,其特征在于,步骤S4中,采用多智能体深度强化学习算法完成对多智慧能源站各决策时刻的最佳调度策略。在各智慧能源站的智能体i上部署一个策略网络π(a i | o i ; θ i ),和一个价值神经网络q(o|a; ξ i ), 神经网络的参数分别记为θ i 和ξ i 。采用多智能体深度强化学习算法,以actor-critic算法作为去中心化框架的基础,利用双向协调网络BiCNet通过训练的方式定义多智能体间的通讯过程,用来连接每个智慧能源站智能体个体的策略和价值网络,使多个智能体能在真实的复杂环境中互相配合。BicNet中所有的智能体都拥有独立的回报函数以及Q-network以及policy network,在训练过程中,每个智能体i的目标是最大化其累积回报J(θ),表示为:
(10)
为了获得更大的期望累积回报,使用当前观测信息来最大化,使用随机梯度下降方法(SGD)来寻找最大值。对累计回报J(θ)求偏导得到策略更新梯度θ表示为:
(11)
对于价值神经网络参数ξ,根据BicNet中的多智能体梯度算法,利用下面多智能体梯度算法计算 更新价值网络参数,价值神经网络的梯度表示为:
(12)
在每个调度时段t,区域智能体i根据本站观测的状态O i t ,利用策略网络得到优化调度动作a i t ,根据所有智能体调度决策获得的奖励Q i *(s, a),沿着使累计奖励θ←θ+α▽ θ J(θ)最大化的方向不断更新θ i 和ζ i ,获得每个决策点的最佳调度策略π(a i | o i ; θ i )。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311811238.8A CN117709671A (zh) | 2023-12-27 | 2023-12-27 | 一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311811238.8A CN117709671A (zh) | 2023-12-27 | 2023-12-27 | 一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117709671A true CN117709671A (zh) | 2024-03-15 |
Family
ID=90147881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311811238.8A Pending CN117709671A (zh) | 2023-12-27 | 2023-12-27 | 一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117709671A (zh) |
-
2023
- 2023-12-27 CN CN202311811238.8A patent/CN117709671A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Motevasel et al. | Multi-objective energy management of CHP (combined heat and power)-based micro-grid | |
CN108347062B (zh) | 基于势博弈的微电网能量管理分布式多目标协同优化算法 | |
Li et al. | A novel bi-level robust game model to optimize a regionally integrated energy system with large-scale centralized renewable-energy sources in Western China | |
CN114091879A (zh) | 基于深度强化学习的多园区能源调度方法和系统 | |
CN105071389B (zh) | 计及源网荷互动的交直流混合微电网优化运行方法及装置 | |
Kunya et al. | Review of economic dispatch in multi-area power system: State-of-the-art and future prospective | |
Wang et al. | Coordinated electric vehicle active and reactive power control for active distribution networks | |
CN112633571A (zh) | 源网荷互动环境下基于lstm的超短期负荷预测方法 | |
CN110518580A (zh) | 一种考虑微网主动优化的主动配电网运行优化方法 | |
Padmanaban et al. | Electric vehicles and IoT in smart cities | |
CN116001624A (zh) | 基于深度强化学习的一桩多联电动汽车有序充电方法 | |
CN114331059A (zh) | 电氢互补的园区多楼宇供能系统及其协调调度方法 | |
Dong et al. | Optimal scheduling framework of electricity-gas-heat integrated energy system based on asynchronous advantage actor-critic algorithm | |
Erick et al. | Energy trading in grid-connected PV-battery electric vehicle charging station | |
CN111682536A (zh) | 虚拟电厂参与日前双重市场的随机-鲁棒优化运行方法 | |
Ren et al. | Electric vehicle charging and discharging scheduling strategy based on dynamic electricity price | |
CN113807564A (zh) | 基于两阶段强化学习的园区微网负荷优化调度方法及系统 | |
Fu et al. | Research on the stackelberg game method of building micro-grid with electric vehicles | |
Wang et al. | Coordinated scheduling of integrated energy microgrid with multi-energy hubs based on MADDPG and two-layer game | |
CN117595392A (zh) | 计及光伏消纳与光储充配置的配电网联合优化方法及系统 | |
CN117709671A (zh) | 一种基于多参量广域量测数据的智慧能源站碳中和优化调度方法 | |
Wang et al. | An intelligent network approach to renewable energy management decisions: A comparative study of integrated energy system | |
Xi et al. | Q-learning algorithm based multi-agent coordinated control method for microgrids | |
Yu et al. | A fuzzy Q-learning algorithm for storage optimization in islanding microgrid | |
Kaczorowska et al. | Smart control of energy storage system in residential photovoltaic systems for economic and technical efficiency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |