CN105023056A - 基于群智能强化学习的电网最优碳能复合流获取方法 - Google Patents

基于群智能强化学习的电网最优碳能复合流获取方法 Download PDF

Info

Publication number
CN105023056A
CN105023056A CN201510369060.5A CN201510369060A CN105023056A CN 105023056 A CN105023056 A CN 105023056A CN 201510369060 A CN201510369060 A CN 201510369060A CN 105023056 A CN105023056 A CN 105023056A
Authority
CN
China
Prior art keywords
main body
action
colony
load
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510369060.5A
Other languages
English (en)
Other versions
CN105023056B (zh
Inventor
张孝顺
郭乐欣
余涛
王思橦
谭敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201510369060.5A priority Critical patent/CN105023056B/zh
Publication of CN105023056A publication Critical patent/CN105023056A/zh
Application granted granted Critical
Publication of CN105023056B publication Critical patent/CN105023056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于群智能强化学习的电网最优碳能复合流获取方法,步骤为:S1、建立多目标最优碳能复合流模型目标函数;S2、根据目标函数设置奖励函数;S3、根据资格迹来更新每个主体的Qi值矩阵;S4、计算每个主体的贪婪动作;S5、更新每个主体的动作概率矩阵;S6、随机选择每个主体当前状态下的预判动作;S7、协同输入多个主体,求解群体最优动作;S8、更新得到修正后的动作值;S9、确定控制变量矩阵,进行潮流计算;S10、潮流计算后,判断Q值矩阵是否收敛,若是,将最后一次潮流计算得到结果作为电网最优碳能复合流;否则回S2。本发明方法使电网中的能量流和碳排放流损耗量达到最小,在保证较好全局寻优能力的同时,明显提高算法的收敛速度。

Description

基于群智能强化学习的电网最优碳能复合流获取方法
技术领域
本发明涉及电网无功优化技术领域,特别涉及一种基于群智能强化学习的电网最优碳能复合流获取方法。
背景技术
随着温室效应给环境带来的影响日益严重,低碳经济逐渐成为各能耗工业的重点发展方向。其中,电力工业作为最大的CO2排放企业,将在低碳经济发展中担任重要的角色。现有很多关于低碳电力的相关研究,包括最优潮流、经济调度、机组组合、碳储存和碳捕捉等问题。然而,这些研究主要是对发电侧的碳排放进行优化,而缺少对如何降低电力网络的碳排放量进行相关研究。
为此,通过建立电网碳排放流的计算模型,有学者提出了一种多步回溯Q(λ)学习算法,解决了电网侧的最优碳流问题。期刊《电力系统自动化》第38卷第17期中公开了《基于多步回溯Q(λ)学习的电网多目标最优碳流算法》的文章,该文章中所用的最优碳流模型并不能清晰地解释电力网络中能量流和碳排放流的分布情况。虽然与其它经典优化算法和人工智能优化算法相比较,Q(λ)算法收敛鲁棒性更强,但是该算法只依靠单个主体进行寻优,收敛时间较长,难以满足复杂电网碳流在线滚动优化的实时要求。
群智能(Swarm Intelligence,SI)是人工智能的一个分支学科,受社会昆虫、动物集体行为的启发,已经衍生出蚁群、粒子群、蜂群等智能算法,在电力系统领域得到了很好的应用。在群智能算法中,每个群体都会有多个主体,各个主体之间会进行信息交流或任务分工,从而实现协同优化,有效缩短了寻优时间。很自然地,有学者会联想到把强化学习与粒子群、蚁群算法进行结合,也陆续出现了一般改进性的群智能算法,但这些方法都仅仅停留把群体优化与强化学习在算法流程上进行简单串行结合,两类不同性质的算法优势并未实现真正融合发挥。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种快速、有效的基于群智能强化学习的电网最优碳能复合流获取方法。该方法能够在满足系统运行和安全约束的前提下,通过对电网的无功进行优化,使得电网中的能量流和碳排放流损耗量达到最小,并且能在保证较好全局寻优能力的同时,明显提高算法的收敛速度。
本发明的目的通过下述技术方案实现:一种基于群智能强化学习的电网最优碳能复合流获取方法,步骤如下:
S1、根据电网负荷节点系统构建群智能强化学习系统,然后建立群智能强化学习系统的多目标最优碳能复合流模型目标函数;
S2、在群智能强化学习系统群体的主体更新迭代过程中,根据步骤S1中建立的多目标最优碳能复合流模型目标函数,设置奖励函数;
S3、按照负荷消耗的能量的差别,把负荷离散化划分成不同的断面,根据断面负荷消耗的能量值确定每个主体i的状态si,然后根据多步回溯Q(λ)学习的资格迹来更新每个主体i的Qi值矩阵;
S4、计算每个主体i的贪婪动作ai g
S5、根据步骤S4每个主体i更新后的Qi值矩阵,再更新每个主体i的动作概率矩阵Pi
S6、根据步骤S4每个主体i更新后的动作概率矩阵Pi,随机选择每个主体i当前状态si k下的预判动作ai kp,其中k为群体的当前迭代次数;
S7、根据负荷值确定的状态s,并协同输入多个主体,将贪婪动作ai g视为各主体i最优动作,然后求解群体最优动作ai b
S8、根据步骤S6得到的每个主体i当前状态下si k的预判动作ai kp以及步骤S7求解得到的群体最优动作ai b,更新得到修正后的动作值ai k
y i k = c 1 r 1 ( a i g - a i k p ) + c 2 r 2 ( a i b - a i k p ) ,
a i k = a i k p + y i k ;
其中为每个主体i的动作修正偏差,c1、c2为学习因子,r1和r2是权重系数; 
S9、确定群智能强化学习系统的控制变量矩阵,然后结合步骤S8更新得到群体中各主体i修正后的动作值ai k进行潮流计算;进入步骤S10;
S10、潮流计算后,判断每个主体i的Qi值矩阵是否收敛,即Qi值矩阵是否在本次潮流计算过程中保持不变;
若是,则将群体最后一次潮流计算得到的结果作为电网最优碳能复合流;
若否,则回到步骤S2,并且将群体的当前迭代次数加1。
优选的,所述步骤S1中群智能强化学习系统多目标最优碳能复合流模型目标函数为:
minμ1f1(x)+μ2f2(x)+(1-μ12)Vd
其中x为控制变量,f1(x)为非线性函数描述的碳排放损耗分量,f2(x)为非线性函数描述的有功网损分量;Vd为电网负荷节点系统中电压稳定分量;μ1、μ2为权重系数,μ1∈[0,1],μ2∈[0,1],μ12≤1;
其中电网负荷节点系统中电压稳定分量Vd为:
V d = Σ j = 1 n | 2 V j - V j m a x - V j m i n V j m a x - V j m i n | ;
其中n为电网负荷节点系统中负荷节点的数量,Vj为负荷节点j的负荷节点电压,Vj max和Vj min分别是负荷节点j的最大、最小电压限制。
优选的,所述步骤S2中设置的奖励函数Ri(k)为:
Ri(k)=C-[μ1Cds(k)+μ2Ploss(k)+(1-μ12)Vd(k)+N(k)],i∈N;
其中C为用于保证奖励函数值为正数的常数,Cds(k)为碳排放损耗,Ploss(k)为网损,Vd(k)为电压稳定分量,μ1、μ2为目标系数,N(k)是不满足不等式约束的个数,N为群体集合。
优选的,所述步骤S3中根据多步回溯Q(λ)学习的资格迹更新得到每个主体i在当前迭代次数k时的Qi值矩阵:
Q i k ( s i , a i ) = Q i k - 1 ( s i , a i ) + αδ i k - 1 e i k - 1 ( s i , a i ) , i ∈ N ;
Q i k ( s i k , a i k ) = Q i k ( s i k - 1 , a i k - 1 ) + αρ i k - 1 , i ∈ N ;
其中:
ρ i k - 1 = R i ( k - 1 ) + γQ i k - 1 ( s i k , a i g ) - Q i k - 1 ( s i k - 1 , a i k - 1 ) , i ∈ N ;
δ i k - 1 = R i ( k - 1 ) + γQ i k - 1 ( s i k , a i g ) - Q i k - 1 ( s i k - 1 , a i g ) , i ∈ N ;
其中si是每个主体i的任意状态,是每个主体i第k次迭代的状态,即每个主体i的当前状态;ai是每个主体i的任意动作,是每个主体i第k次迭代的动作,即每个主体i的当前动作,就是指每个主体i第k次迭代后的Qi值矩阵; 每个主体i在第k次迭代时,在状态下执行动作的函数值,是Qi值矩阵中的一个元素;Ri(k-1)为每个主体i在第k-1次迭代时获得的立即奖励值,α为学习速率,决定了算法的收敛速度,0≤α≤1,N为群体集合;
其中:
e i k - 1 ( s i , a i ) = { γλe i k - 2 ( s i , a i ) + 1 ( s i , a i ) = ( s i k - 1 , a i k - 1 ) γλe i k - 2 ( s i , a i ) ( s i , a i ) ≠ ( s i k - 1 , a i k - 1 ) , i ∈ N ;
其中是主体i在当前迭代次数k-1时的状态动作对,γ是折扣因子,0≤γ≤1,决定将来奖励信号对现在的作用;λ是资格迹衰退系数,0≤λ≤1,N为群体集合。
更进一步的,所述步骤S4中每个主体i的贪婪动作ai g求解如下:
a i g = arg m a x a i ∈ A Q i k ( s i k , a i ) , i ∈ N ;
其中A为动作集合,N为群体集合,是每个主体i在第k次迭代时,在状态下的Qi值矩阵。
优选的,所述步骤S5中每个主体i的动作概率矩阵Pi的更新公式如下:
{ P i ( s i k , a i g ) = P i ( s i k , a i g ) + β ( 1 - P i ( s i k , a i g ) ) P i ( s i k , a i ) = P i ( s i k , a i ) ( 1 - β ) ∀ a i ∈ A , a i ≠ a i g P i ( s i , a i ) = P i ( s i , a i ) ∀ a i ∈ A , ∀ s i ∈ S , s i ≠ s i k , i ∈ N ;
其中为每个主体i当前状态下贪婪动作ai g对应的概率,表示每个主体i当前状态下其他每个可选非最优动作ai对应的概率,Pi(si,ai)表示每个主体i除当前状态外其他可能状态si下动作对应的概率,β为动作搜索速度,A为动作集合,S为状态集合,N为群体集合。
更进一步的,所述步骤S7群体最优动作ai b为:
a i b = arg m a x a i ∈ A , i ∈ N Q i k ( s , a i ) , s = s i k ;
其中N为群体集合。 
优选的,所述步骤S9中确定的群智能强化学习系统的控制变量矩阵x为:
x=[V,θ,kt,Qc]T
其中V为电网负荷节点系统中各负荷节点电压值,θ为电网负荷节点系统中各负荷节点相角,kt为电网负荷节点系统中有载调压变压器变比,Qc为电网负荷节点系统中无功补偿容量。
优选的,所述步骤S9中学习因子c1、c2分别为0.18和1.2。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明有机结合了电网能流和碳排放流传输特性,首次提出了电网最优碳能复合流的概念,针对于电网负荷节点系统构建群智能强化学习系统,并 且结合多步回溯Q(λ)学习算法,采用多主体强化学习获取到电网最优碳能复合流,本发明方法能够在满足系统运行和安全约束的前提下,通过对电网的无功进行优化,使得电网中的能量流和碳排放流损耗量达到最小,得到最优碳能复合流,并且能在保证较好全局寻优能力的同时,明显提高算法的收敛速度。
(2)本发明在传统单主体Q(λ)算法的基础上,结合了群智能优化方法,大大提高了传统Q(λ)算法寻优的速度,更加符合实际大规模复杂电网的碳-能复合流在线滚动优化实时性要求。
(3)本发明群智能强化学习算法的收敛稳定性高,能更高效地找到碳能复合流的全局最优解,能在保证电压安全稳定的同时,有效降低电网的碳排放损耗和有功功率损耗。
附图说明
图1是本发明方法流程图。
图2是本发明方法中电网负荷节点系统碳能复合流示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本实施例公开了一种基于群智能强化学习的电网最优碳能复合流获取方法,本实施例针对IEEE118电网负荷节点系统,获取电网最优碳能复合流,其中该IEEE118电网负荷节点系统包括54个机组和186条支路,根据《2006年IPCC国家温室气体清单指南》,获取到电网负荷节点系统中各机组碳排放强度。如图1所示,本实施例中该电网负荷节点系统基于群智能强化学习的电网最优碳能复合流获取方法具体步骤如下:
S1、根据电网负荷节点系统构建群智能强化学习系统,如图2所示为本实施例中电网负荷节点系统碳能复合流示意图;然后综合考虑电网运行经济性和电网安全稳定性,建立群智能强化学习系统多目标最优碳能复合流模型目标函数;其中多目标最优碳能复合流模型目标函数为:
minμ1f1(x)+μ2f2(x)+(1-μ12)Vd
其中x为控制变量,f1(x)为非线性函数描述的碳排放损耗分量,f2(x)为非线 性函数描述的有功网损分量;Vd为电网负荷节点系统中电压稳定分量;μ1、μ2为权重系数,μ1∈[0,1],μ2∈[0,1],μ12≤1;控制变量x=[V,θ,kt,Qc]T,V为电网负荷节点系统中各负荷节点电压值,θ为电网负荷节点系统中各负荷节点相角,kt为电网负荷节点系统中有载调压变压器变比,Qc为电网负荷节点系统中无功补偿容量;
电网负荷节点系统中电压稳定分量Vd为:
V d = Σ j = 1 n | 2 V j - V j m a x - V j m i n V j m a x - V j min | ;
其中n为电网负荷节点系统中负荷节点的数量,Vj为负荷节点j的负荷节点电压,Vj max和Vj min分别是负荷节点j的最大、最小电压限制。
S2、在群智能强化学习系统群体的主体更新迭代过程中,根据步骤S1中建立的多目标最优碳能复合流模型目标函数,设置奖励函数;本步骤中设置的奖励函数Ri(k)为:
Ri(k)=C-[μ1Cds(k)+μ2Ploss(k)+(1-μ12)Vd(k)+N(k)],i∈N;
其中C为用于保证奖励函数值为正数的常数,Cds(k)为碳排放损耗,Ploss(k)为网损;Vd(k)为电压稳定分量,μ1、μ2为目标系数,μ1较大时,则表明电网企业更加偏好于碳排放,μ2较大时,则表明电网企业更加偏好于网损,而在本实例中,奖励函数的权重系数μ1、μ2都取1/3;N(k)是不满足不等式约束的个数,其中引入这个参数是为了保证最终选定的最优动作能够满足电网潮流计算的不等式约束;N为群体集合;
S3、对电网负荷节点系统中的负荷进行离散化,根据负荷大小划分为不同的区间范围,然后按照负荷消耗的能量的差别,把负荷离散化划分成不同的断面,根据断面负荷消耗的能量值确定每个主体i的状态si,然后根据多步回溯Q(λ)学习的资格迹来更新每个主体i的Qi值矩阵;本步骤中根据多步回溯Q(λ)学习的资格迹更新得到每个主体i在当前迭代次数k时的Qi值矩阵:
Q i k ( s i , a i ) = Q i k - 1 ( s i , a i ) + αδ i k - 1 e i k - 1 ( s i , a i ) , i ∈ N ;
Q i k ( s i k , a i k ) = Q i k - 1 ( s i k - 1 , a i k - 1 ) + αρ i k - 1 , i ∈ N ;
其中:
ρ i k - 1 = R i ( k - 1 ) + γQ i k - 1 ( s i k , a i g ) - Q i k - 1 ( s i k - 1 , a i k - 1 ) , i ∈ N ;
δ i k - 1 = R i ( k - 1 ) + γQ i k - 1 ( s i k , a i g ) - Q i k - 1 ( s i k - 1 , a i g ) , i ∈ N ;
其中si是每个主体i的任意状态,是每个主体i第k次迭代的状态,即当前状态,ai是每个主体i的任意动作,是每个主体i第k次迭代的动作,即当前动作,就是指每个主体i第k次迭代后的Qi值矩阵;每个主体i在第k次迭代时,在状态下执行动作的函数值,是是Qi值矩阵中的一个元素;Ri(k-1)为每个主体i在第k-1次迭代时获得的立即奖励值,α为学习速率,决定了算法的收敛速度,0≤α≤1,本实施例中α取0.1;N为群体集合。为每个主体i的贪婪动作。
其中:
e i k - 1 ( s i , a i ) = γλe i k - 2 ( s i , a i ) + 1 ( s i , a i ) = ( s i k - 1 , a i k - 1 ) γλe i k - 2 ( s i , a i ) ( s i , a i ) ≠ ( s i k - 1 , a i k - 1 ) , i ∈ N ;
其中是主体i在当前迭代次数k-1时的状态-动作对,γ是折扣因子,0≤γ≤1,决定将来奖励信号对现在的作用,本实施例中γ取值为0.49;λ是资格迹衰退系数,0≤λ≤1,本实例中λ取值为0.3;N为群体集合。
S4、计算每个主体i的贪婪动作ai g;本步骤中每个主体i的贪婪动作ai g求解如下:
a i g = arg m a x a i ∈ A Q i k ( s i k , a i ) , i ∈ N ;
其中A为动作集合,N为群体集合。贪婪动作ai g是每个主体自身Qi值动作的最大值,是每个主体i在第k次迭代时,在状态下的Qi值矩阵。
S5、根据步骤S3每个主体i更新后的Qi值矩阵,再更新每个主体i的动作概率矩阵Pi,本步骤中每个主体i的动作概率矩阵Pi的更新公式如下:
{ P i ( s i k , a i g ) = P i ( s i k , a i g ) + β ( 1 - P i ( s i k , a i g ) ) P i ( s i k , a i ) = P i ( s i k , a i ) ( 1 - β ) ∀ a i ∈ A , a i ≠ a i g P i ( s i , a i ) = P i ( s i , a i ) ∀ a i ∈ A , ∀ s i ∈ S , s i ≠ s i k , i ∈ N ;
其中为每个主体i当前状态下贪婪动作ai g对应的概率,表示每个主体i当前状态下其他每个可选非最优动作ai对应的概率,Pi(si,ai)表示每个主体i除当前状态外其他可能状态si下动作对应的概率,β为动作搜索速度,β越小,算法越慢收敛,收敛效果越好,在本实例中β取0.5。A为动作集合,S为状态集合,N为群体集合。
S6、根据步骤S4每个主体i更新后的动作概率矩阵Pi,随机选择每个主体i当前状态下si k的预判动作ai kp,其中k为群体的当前迭代次数。其中预判动作类似于粒子群的每个主体位置,需要对其进行修正。
S7、根据负荷值确定的状态s,并协同输入多个主体,将贪婪动作ai g视为各主体i最优动作,然后求解群体最优动作ai b;本步骤中群体最优动作ai b为:
a i b = arg m a x a i ∈ A , i ∈ N Q i k ( s , a i ) , s = s i k ;
其中N为群体集合。其中主体与主体是平等协作的,协同输入多主体,是说把各个主体的信息进行交互,各个主体同时寻优,并获得整个群体能够找到的最优动作信息。ai b是个群体最优动作,是群体所有每个主体在状态时的Q值中最大的一个对应的动作。
S8、根据步骤S6得到的每个主体i当前状态下si k的预判动作ai kp以及步骤S7求解得到的群体最优动作ai b,更新得到修正后的动作值ai k作为主体的i在当前迭代次数k以及当前状态下si k的动作:
y i k = c 1 r 1 ( a i g - a i k p ) + c 2 r 2 ( a i b - a i k p ) ,
a i k = a i k p + y i k ;
其中为主体i的动作修正偏差,c1、c2为学习因子;本实施例中学习因子c1、c2分别为0.18和1.2。
S9、确定群智能强化学习系统的控制变量矩阵,然后结合步骤S8更新得到群体中各主体i修正后的动作值ai k进行潮流计算,得到电网负荷节点系统的运行状态;进入步骤S10;本实施例中,动作值ai k与系统的控制变量矩阵x中元素一一对应,代入对应动作值ai k的控制变量在Matlab7.10仿真平台的Matpower4.1软件包潮流计算程序,进行潮流计算。
其中本步骤中确定的群智能强化学习系统的控制变量矩阵x为:
x=[V,θ,kt,Qc]T
其中V为电网负荷节点系统中各负荷节点电压值,θ为电网负荷节点系统中各负荷节点相角,kt为电网负荷节点系统中有载调压变压器变比,Qc为电网负荷节点系统中无功补偿容量。
在本实例中,选定的可控变量是节点45、79、105的无功补偿容量和线路8-5、26-25、30-17、63-59、64-61的有载调压变压器分接头位置。其中无功补偿容量分成5档,分别对应正常值的-40%、-20%、0%、20%、40%,有载调压变压器变比分成3档,分别0.98(p.u.)、1.00(p.u.)、1.02(p.u.)。则动作空间总共有5×5×5×3×3×3×3×3=30375个动作,不等式约束的个数为:54+1+64=119,分别对应发电机无功出力,发电机平衡节点有功出力和负荷节点的电压。
S10、潮流计算后,判断多目标最优碳能复合流模型目标函数Q值矩阵是否 收敛,即Q值矩阵是否在本次潮流计算过程中保持不变;其中Q值矩阵为群体中每主体i的Qi值矩阵所构成的矩阵;
若是,则将群体最后一次潮流计算得到的结果作为电网最优碳能复合流;
若否,则回到步骤S2,并且将群体的当前迭代次数加1。
本实施例在Matlab7.10仿真平台上借助Matpower4.1软件包中的潮流计算程序,并在CPU为3.1GHz内存为4GB的计算机上对IEEE118负荷节点标准算例进行的仿真。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于群智能强化学习的电网最优碳能复合流获取方法,其特征在于,步骤如下:
S1、根据电网负荷节点系统构建群智能强化学习系统,然后建立群智能强化学习系统的多目标最优碳能复合流模型目标函数;
S2、在群智能强化学习系统群体的主体更新迭代过程中,根据步骤S1中建立的多目标最优碳能复合流模型目标函数,设置奖励函数;
S3、按照负荷消耗的能量的差别,把负荷离散化划分成不同的断面,根据断面负荷消耗的能量值确定每个主体i的状态si,然后根据多步回溯Q(λ)学习的资格迹来更新每个主体i的Qi值矩阵;
S4、计算每个主体i的贪婪动作ai g
S5、根据步骤S4每个主体i更新后的Qi值矩阵,再更新每个主体i的动作概率矩阵Pi
S6、根据步骤S4每个主体i更新后的动作概率矩阵Pi,随机选择每个主体i当前状态si k下的预判动作ai kp,其中k为群体的当前迭代次数;
S7、根据负荷值确定的状态s,并协同输入多个主体,将贪婪动作ai g视为各主体i最优动作,然后求解群体最优动作ai b
S8、根据步骤S6得到的每个主体i当前状态下si k的预判动作ai kp以及步骤S7求解得到的群体最优动作ai b,更新得到修正后的动作值ai k
y i k = c 1 r 1 ( a i g - a i k p ) + c 2 r 2 ( a i b - a i k p ) ,
a i k = a i k p + y i k ;
其中为每个主体i的动作修正偏差,c1、c2为学习因子,r1和r2是权重系数;
S9、确定群智能强化学习系统的控制变量矩阵,然后结合步骤S8更新得到群体中各主体i修正后的动作值ai k进行潮流计算;进入步骤S10;
S10、潮流计算后,判断每个主体i的Qi值矩阵是否收敛,即Qi值矩阵是否在本次潮流计算过程中保持不变;
若是,则将群体最后一次潮流计算得到的结果作为电网最优碳能复合流;
若否,则回到步骤S2,并且将群体的当前迭代次数加1。
2.根据权利要求1所述的基于群智能强化学习的电网最优碳能复合流获取方法,其特征在于,所述步骤S1中群智能强化学习系统多目标最优碳能复合流模型目标函数为:
minμ1f1(x)+μ2f2(x)+(1-μ12)Vd
其中x为控制变量,f1(x)为非线性函数描述的碳排放损耗分量,f2(x)为非线性函数描述的有功网损分量;Vd为电网负荷节点系统中电压稳定分量;μ1、μ2为权重系数,μ1∈[0,1],μ2∈[0,1],μ12≤1;
其中电网负荷节点系统中电压稳定分量Vd为:
V d = Σ j = 1 n | 2 V j - V j m a x - V j m i n V j m a x - V j m i n | ;
其中n为电网负荷节点系统中负荷节点的数量,Vj为负荷节点j的负荷节点电压,Vjmax和Vjmin分别是负荷节点j的最大、最小电压限制。
3.根据权利要求1所述的基于群智能强化学习的电网最优碳能复合流获取方法,其特征在于,所述步骤S2中设置的奖励函数Ri(k)为:
Ri(k)=C-[μ1Cds(k)+μ2Ploss(k)+(1-μ12)Vd(k)+N(k)],i∈N;
其中C为用于保证奖励函数值为正数的常数,Cds(k)为碳排放损耗,Ploss(k)为网损,Vd(k)为电压稳定分量,μ1、μ2为目标系数,N(k)是不满足不等式约束的个数,N为群体集合。
4.根据权利要求1所述的基于群智能强化学习的电网最优碳能复合流获取方法,其特征在于,
所述步骤S3中根据多步回溯Q(λ)学习的资格迹更新得到每个主体i在当前迭代次数k时的Qi值矩阵:
Q i k ( s i , a i ) = Q i k - 1 ( s i , a i ) + αδ i k - 1 e i k - 1 ( s i , a i ) , i ∈ N ;
Q i k ( s i k , a i k ) = Q i k ( s i k - 1 , a i k - 1 ) + αρ i k - 1 , i ∈ N ;
其中:
ρ i k - 1 = R i ( k - 1 ) + γQ i k - 1 ( s i k , a i g ) - Q i k - 1 ( s i k - 1 , a i k - 1 ) , i ∈ N ;
δ i k - 1 = R i ( k - 1 ) + γQ i · k - 1 ( s i k , a i g ) - Q i k - 1 ( s i k - 1 , a i g ) , i ∈ N ;
其中si是每个主体i的任意状态,是每个主体i第k次迭代的状态,即每个主体i的当前状态;ai是每个主体i的任意动作,是每个主体i第k次迭代的动作,即每个主体i的当前动作,就是指每个主体i第k次迭代后的Qi值矩阵;每个主体i在第k次迭代时,在状态下执行动作的函数值,是Qi值矩阵中的一个元素;Ri(k-1)为每个主体i在第k-1次迭代时获得的立即奖励值,α为学习速率,决定了算法的收敛速度,0≤α≤1,N为群体集合;
其中:
e i k - 1 ( s i , a i ) = γλe i k - 2 ( s i , a i ) + 1 ( s i , a i ) = ( s i k - 1 , a i k - 1 ) γλe i k - 2 ( s i , a i ) ( s i , a i ) ≠ ( s i k - 1 , a i k - 1 ) , i ∈ N ;
其中是主体i在当前迭代次数k-1时的状态动作对,γ是折扣因子,0≤γ≤1,决定将来奖励信号对现在的作用;λ是资格迹衰退系数,0≤λ≤1,N为群体集合。
5.根据权利要求4所述的基于群智能强化学习的电网最优碳能复合流获取方法,其特征在于,所述步骤S4中每个主体i的贪婪动作ai g求解如下:
a i g = arg m a x a i ∈ A Q i k ( s i k , a i ) , i ∈ N ;
其中A为动作集合,N为群体集合,是每个主体i在第k次迭代时,在状态下的Qi值矩阵。
6.根据权利要求1所述的基于群智能强化学习的电网最优碳能复合流获取方法,其特征在于,所述步骤S5中每个主体i的动作概率矩阵Pi的更新公式如下:
{ P i ( s i k , a i g ) = P i ( s i k , a i g ) + β ( 1 - P ( s i k , a i g ) ) P i ( s i k , a i ) = P i ( s i k , a i ) ( 1 - β ) ∀ a i ∈ A , a i ≠ a i g P i ( s i , a i ) = P i ( s i , a i ) ∀ a i ∈ A , ∀ s i ∈ S , s i ≠ s i k , i ∈ N ;
其中为每个主体i当前状态下贪婪动作ai g对应的概率,表示每个主体i当前状态下其他每个可选非最优动作ai对应的概率,Pi(si,ai)表示每个主体i除当前状态外其他可能状态si下动作对应的概率,β为动作搜索速度,A为动作集合,S为状态集合,N为群体集合。
7.根据权利要求4所述的基于群智能强化学习的电网最优碳能复合流获取方法,其特征在于,所述步骤S7群体最优动作ai b为:
a i b = arg m a x a i ∈ A , i ∈ N Q i k ( s , a i ) , s = s i k ;
其中N为群体集合。
8.根据权利要求1所述的基于群智能强化学习的电网最优碳能复合流获取方法,其特征在于,所述步骤S9中确定的群智能强化学习系统的控制变量矩阵x为:
x=[V,θ,kt,Qc]T
其中V为电网负荷节点系统中各负荷节点电压值,θ为电网负荷节点系统中各负荷节点相角,kt为电网负荷节点系统中有载调压变压器变比,Qc为电网负荷节点系统中无功补偿容量。
9.根据权利要求1所述的基于群智能强化学习的电网最优碳能复合流获取方法,其特征在于,所述步骤S9中学习因子c1、c2分别为0.18和1.2。
CN201510369060.5A 2015-06-26 2015-06-26 基于群智能强化学习的电网最优碳能复合流获取方法 Active CN105023056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510369060.5A CN105023056B (zh) 2015-06-26 2015-06-26 基于群智能强化学习的电网最优碳能复合流获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510369060.5A CN105023056B (zh) 2015-06-26 2015-06-26 基于群智能强化学习的电网最优碳能复合流获取方法

Publications (2)

Publication Number Publication Date
CN105023056A true CN105023056A (zh) 2015-11-04
CN105023056B CN105023056B (zh) 2018-10-30

Family

ID=54413009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510369060.5A Active CN105023056B (zh) 2015-06-26 2015-06-26 基于群智能强化学习的电网最优碳能复合流获取方法

Country Status (1)

Country Link
CN (1) CN105023056B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296044A (zh) * 2016-10-08 2017-01-04 南方电网科学研究院有限责任公司 电力系统风险调度方法和系统
CN107256440A (zh) * 2017-06-01 2017-10-17 南方电网科学研究院有限责任公司 一种基于帝国主义竞争算法的碳‑能复合流求解方法
CN108512220A (zh) * 2018-03-22 2018-09-07 华南理工大学 一种基于人工智能的船舶电网动态重构方法
CN109460890A (zh) * 2018-09-21 2019-03-12 浙江大学 一种基于强化学习与控制性能监测的智能自愈方法
CN110048461A (zh) * 2019-05-16 2019-07-23 广东电网有限责任公司 一种多虚拟电厂分散自律优化方法
CN110994620A (zh) * 2019-11-16 2020-04-10 国网浙江省电力有限公司台州供电公司 一种基于Q-Learning算法的电网潮流智能调整方法
CN112086958A (zh) * 2020-07-29 2020-12-15 国家电网公司西南分部 一种基于多步回溯强化学习算法的输电网扩展规划方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040158417A1 (en) * 2002-11-06 2004-08-12 Bonet Antonio Trias System and method for monitoring and managing electrical power transmission and distribution networks
CN104036329A (zh) * 2014-05-16 2014-09-10 浙江大学 一种基于多智能体协同寻优的含光伏微源主动配网拓扑重构方法
CN104391919A (zh) * 2014-11-20 2015-03-04 上海交通大学 智能电网地理可视化实现系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040158417A1 (en) * 2002-11-06 2004-08-12 Bonet Antonio Trias System and method for monitoring and managing electrical power transmission and distribution networks
CN104036329A (zh) * 2014-05-16 2014-09-10 浙江大学 一种基于多智能体协同寻优的含光伏微源主动配网拓扑重构方法
CN104391919A (zh) * 2014-11-20 2015-03-04 上海交通大学 智能电网地理可视化实现系统及方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ABIDO M A: "Optimal design of power system stabilizers using particle swarm optimization", 《IEEE POWER ENGINEERING REVIEW》 *
YU T,ZHOU B,CHAN K W,ET AL: "Stochastic optimal relaxed automatic generation control in non-markov environment based on multi-step Q(λ) learning", 《IEEE TRANSACTIONS ON POWER SYSTEMS》 *
余涛,刘靖,胡细兵: "基于分布式多步回溯Q(λ)学习的复杂电网最优潮流算法", 《电工技术学报》 *
张孝顺,郑理民,余涛: "基于多步回溯Q(λ)学习的电网多目标最优碳流算法", 《电力系统自动化》 *
谢光强,陈学松: "一种新的基于蚁群优化的模糊强化学习算法", 《计算机应用研究》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296044A (zh) * 2016-10-08 2017-01-04 南方电网科学研究院有限责任公司 电力系统风险调度方法和系统
CN106296044B (zh) * 2016-10-08 2023-08-25 南方电网科学研究院有限责任公司 电力系统风险调度方法和系统
CN107256440A (zh) * 2017-06-01 2017-10-17 南方电网科学研究院有限责任公司 一种基于帝国主义竞争算法的碳‑能复合流求解方法
CN108512220A (zh) * 2018-03-22 2018-09-07 华南理工大学 一种基于人工智能的船舶电网动态重构方法
CN109460890A (zh) * 2018-09-21 2019-03-12 浙江大学 一种基于强化学习与控制性能监测的智能自愈方法
CN109460890B (zh) * 2018-09-21 2021-08-06 浙江大学 一种基于强化学习与控制性能监测的智能自愈方法
CN110048461A (zh) * 2019-05-16 2019-07-23 广东电网有限责任公司 一种多虚拟电厂分散自律优化方法
CN110048461B (zh) * 2019-05-16 2021-07-02 广东电网有限责任公司 一种多虚拟电厂分散自律优化方法
CN110994620A (zh) * 2019-11-16 2020-04-10 国网浙江省电力有限公司台州供电公司 一种基于Q-Learning算法的电网潮流智能调整方法
CN112086958A (zh) * 2020-07-29 2020-12-15 国家电网公司西南分部 一种基于多步回溯强化学习算法的输电网扩展规划方法
CN112086958B (zh) * 2020-07-29 2022-02-08 国家电网公司西南分部 一种基于多步回溯强化学习算法的输电网扩展规划方法

Also Published As

Publication number Publication date
CN105023056B (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
CN105023056A (zh) 基于群智能强化学习的电网最优碳能复合流获取方法
CN103326353B (zh) 基于改进多目标粒子群算法的环境经济发电调度求解方法
CN107579518A (zh) 基于mhba的电力系统环境经济调度方法和装置
CN104636801A (zh) 一种基于优化bp神经网络的预测输电线路可听噪声方法
CN104037761B (zh) 一种agc功率多目标随机优化分配方法
Zhang et al. Equilibrium-inspired multiagent optimizer with extreme transfer learning for decentralized optimal carbon-energy combined-flow of large-scale power systems
Mason et al. Applying multi-agent reinforcement learning to watershed management
CN107516892A (zh) 基于处理有功优化约束条件提高电能质量的方法
Liu et al. Spatial assessment of China’s green governance efficiency in the period of high-quality development
CN113872213B (zh) 一种配电网电压自主优化控制方法及装置
Li et al. Multiobjective optimization of cloud manufacturing service composition with improved particle swarm optimization algorithm
Liu et al. Collaborative optimization of dynamic grid dispatch with wind power
Sarkar et al. Concurrent Carbon Footprint Reduction (C2FR) Reinforcement Learning Approach for Sustainable Data Center Digital Twin
Ouyang Construction and application of economic management fuzzy decision model based on fuzzy relevance method
CN115528750B (zh) 一种面向电网安全稳定的数据模型混合驱动机组组合方法
Lau et al. Optimisation of costs and carbon savings in relation to the economic dispatch problem as associated with power system operation
Yu et al. Application of fuzzy spiking neural dP systems in energy coordinated control of multi-microgrid
Yang et al. Hierarchical Multi-Agent Deep Reinforcement Learning for Multi-Objective Dispatching in Smart Grid
Li et al. Multiagent deep meta reinforcement learning for sea computing-based energy management of interconnected grids considering renewable energy sources in sustainable cities
Chen et al. Emergency load-shedding optimization control method based on reinforcement learning assistance
Shi et al. Short-term generation scheduling with reliability constraint using ant colony optimization algorithm
Zhao et al. Combination Optimization Method of Grid Section Based on Deep Reinforcement Learning with Accelerated Convergence Speed
Du et al. Application of Intelligent Optimization Algorithms in the Distribution Network Planning and Evaluation Models
Bo et al. An improved 2-OPT optimisation scheme for Hamilton loop
Zhang et al. Graph Convolution Network for Carbon Emission Factor Forecast of Power Grid

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant