CN105023056A

CN105023056A - 基于群智能强化学习的电网最优碳能复合流获取方法

Info

Publication number: CN105023056A
Application number: CN201510369060.5A
Authority: CN
Inventors: 张孝顺; 郭乐欣; 余涛; 王思橦; 谭敏
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2015-06-26
Filing date: 2015-06-26
Publication date: 2015-11-04
Anticipated expiration: 2035-06-26
Also published as: CN105023056B

Abstract

本发明公开了一种基于群智能强化学习的电网最优碳能复合流获取方法，步骤为：S1、建立多目标最优碳能复合流模型目标函数；S2、根据目标函数设置奖励函数；S3、根据资格迹来更新每个主体的Q_i值矩阵；S4、计算每个主体的贪婪动作；S5、更新每个主体的动作概率矩阵；S6、随机选择每个主体当前状态下的预判动作；S7、协同输入多个主体，求解群体最优动作；S8、更新得到修正后的动作值；S9、确定控制变量矩阵，进行潮流计算；S10、潮流计算后，判断Q值矩阵是否收敛，若是，将最后一次潮流计算得到结果作为电网最优碳能复合流；否则回S2。本发明方法使电网中的能量流和碳排放流损耗量达到最小，在保证较好全局寻优能力的同时，明显提高算法的收敛速度。

Description

基于群智能强化学习的电网最优碳能复合流获取方法

技术领域

本发明涉及电网无功优化技术领域，特别涉及一种基于群智能强化学习的电网最优碳能复合流获取方法。

背景技术

随着温室效应给环境带来的影响日益严重，低碳经济逐渐成为各能耗工业的重点发展方向。其中，电力工业作为最大的CO2排放企业，将在低碳经济发展中担任重要的角色。现有很多关于低碳电力的相关研究，包括最优潮流、经济调度、机组组合、碳储存和碳捕捉等问题。然而，这些研究主要是对发电侧的碳排放进行优化，而缺少对如何降低电力网络的碳排放量进行相关研究。

为此，通过建立电网碳排放流的计算模型，有学者提出了一种多步回溯Q(λ)学习算法，解决了电网侧的最优碳流问题。期刊《电力系统自动化》第38卷第17期中公开了《基于多步回溯Q(λ)学习的电网多目标最优碳流算法》的文章，该文章中所用的最优碳流模型并不能清晰地解释电力网络中能量流和碳排放流的分布情况。虽然与其它经典优化算法和人工智能优化算法相比较，Q(λ)算法收敛鲁棒性更强，但是该算法只依靠单个主体进行寻优，收敛时间较长，难以满足复杂电网碳流在线滚动优化的实时要求。

群智能(Swarm Intelligence，SI)是人工智能的一个分支学科，受社会昆虫、动物集体行为的启发，已经衍生出蚁群、粒子群、蜂群等智能算法，在电力系统领域得到了很好的应用。在群智能算法中，每个群体都会有多个主体，各个主体之间会进行信息交流或任务分工，从而实现协同优化，有效缩短了寻优时间。很自然地，有学者会联想到把强化学习与粒子群、蚁群算法进行结合，也陆续出现了一般改进性的群智能算法，但这些方法都仅仅停留把群体优化与强化学习在算法流程上进行简单串行结合，两类不同性质的算法优势并未实现真正融合发挥。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种快速、有效的基于群智能强化学习的电网最优碳能复合流获取方法。该方法能够在满足系统运行和安全约束的前提下，通过对电网的无功进行优化，使得电网中的能量流和碳排放流损耗量达到最小，并且能在保证较好全局寻优能力的同时，明显提高算法的收敛速度。

本发明的目的通过下述技术方案实现：一种基于群智能强化学习的电网最优碳能复合流获取方法，步骤如下：

S1、根据电网负荷节点系统构建群智能强化学习系统，然后建立群智能强化学习系统的多目标最优碳能复合流模型目标函数；

S2、在群智能强化学习系统群体的主体更新迭代过程中，根据步骤S1中建立的多目标最优碳能复合流模型目标函数，设置奖励函数；

S3、按照负荷消耗的能量的差别，把负荷离散化划分成不同的断面，根据断面负荷消耗的能量值确定每个主体i的状态s_i，然后根据多步回溯Q(λ)学习的资格迹来更新每个主体i的Q_i值矩阵；

S4、计算每个主体i的贪婪动作a_i ^g；

S5、根据步骤S4每个主体i更新后的Q_i值矩阵，再更新每个主体i的动作概率矩阵P_i；

S6、根据步骤S4每个主体i更新后的动作概率矩阵P_i，随机选择每个主体i当前状态s_i ^k下的预判动作a_i ^kp，其中k为群体的当前迭代次数；

S7、根据负荷值确定的状态s，并协同输入多个主体，将贪婪动作a_i ^g视为各主体i最优动作，然后求解群体最优动作a_i ^b；

S8、根据步骤S6得到的每个主体i当前状态下s_i ^k的预判动作a_i ^kp以及步骤S7求解得到的群体最优动作a_i ^b，更新得到修正后的动作值a_i ^k：

y_{i}^{k} = c_{1} r_{1} (a_{i}^{g} - a_{i}^{k p}) + c_{2} r_{2} (a_{i}^{b} - a_{i}^{k p}),

a_{i}^{k} = a_{i}^{k p} + y_{i}^{k};

其中为每个主体i的动作修正偏差，c₁、c₂为学习因子，r₁和r₂是权重系数；

S9、确定群智能强化学习系统的控制变量矩阵，然后结合步骤S8更新得到群体中各主体i修正后的动作值a_i ^k进行潮流计算；进入步骤S10；

S10、潮流计算后，判断每个主体i的Q_i值矩阵是否收敛，即Q_i值矩阵是否在本次潮流计算过程中保持不变；

若是，则将群体最后一次潮流计算得到的结果作为电网最优碳能复合流；

若否，则回到步骤S2，并且将群体的当前迭代次数加1。

优选的，所述步骤S1中群智能强化学习系统多目标最优碳能复合流模型目标函数为：

minμ₁f₁(x)+μ₂f₂(x)+(1-μ₁-μ₂)V_d；

其中x为控制变量，f₁(x)为非线性函数描述的碳排放损耗分量，f₂(x)为非线性函数描述的有功网损分量；V_d为电网负荷节点系统中电压稳定分量；μ₁、μ₂为权重系数，μ₁∈[0,1]，μ₂∈[0,1]，μ₁+μ₂≤1；

其中电网负荷节点系统中电压稳定分量V_d为：

V_{d} = Σ_{j = 1}^{n} | \frac{2 V_{j} - V_{j m a x} - V_{j m i n}}{V_{j m a x} - V_{j m i n}} |;

其中n为电网负荷节点系统中负荷节点的数量，V_j为负荷节点j的负荷节点电压，V_j max和V_j min分别是负荷节点j的最大、最小电压限制。

优选的，所述步骤S2中设置的奖励函数R_i(k)为：

R_i(k)＝C-[μ₁C_ds(k)+μ₂P_loss(k)+(1-μ₁-μ₂)V_d(k)+N(k)]，i∈N；

其中C为用于保证奖励函数值为正数的常数，C_ds(k)为碳排放损耗，P_loss(k)为网损，V_d(k)为电压稳定分量，μ₁、μ₂为目标系数，N(k)是不满足不等式约束的个数，N为群体集合。

优选的，所述步骤S3中根据多步回溯Q(λ)学习的资格迹更新得到每个主体i在当前迭代次数k时的Q_i值矩阵：

Q_{i}^{k} (s_{i}, a_{i}) = Q_{i}^{k - 1} (s_{i}, a_{i}) + {αδ}_{i}^{k - 1} e_{i}^{k - 1} (s_{i}, a_{i}), i &Element; N;

Q_{i}^{k} (s_{i}^{k}, a_{i}^{k}) = Q_{i}^{k} (s_{i}^{k - 1}, a_{i}^{k - 1}) + {αρ}_{i}^{k - 1}, i &Element; N;

其中：

ρ_{i}^{k - 1} = R_{i} (k - 1) + {γQ}_{i}^{k - 1} (s_{i}^{k}, a_{i}^{g}) - Q_{i}^{k - 1} (s_{i}^{k - 1}, a_{i}^{k - 1}), i &Element; N;

δ_{i}^{k - 1} = R_{i} (k - 1) + {γQ}_{i}^{k - 1} (s_{i}^{k}, a_{i}^{g}) - Q_{i}^{k - 1} (s_{i}^{k - 1}, a_{i}^{g}), i &Element; N;

其中s_i是每个主体i的任意状态，是每个主体i第k次迭代的状态，即每个主体i的当前状态；a_i是每个主体i的任意动作，是每个主体i第k次迭代的动作，即每个主体i的当前动作，就是指每个主体i第k次迭代后的Q_i值矩阵；每个主体i在第k次迭代时，在状态下执行动作的函数值，是Q_i值矩阵中的一个元素；R_i(k-1)为每个主体i在第k-1次迭代时获得的立即奖励值，α为学习速率，决定了算法的收敛速度，0≤α≤1，N为群体集合；

其中：

e_{i}^{k - 1} (s_{i}, a_{i}) = {\begin{matrix} {γλe}_{i}^{k - 2} (s_{i}, a_{i}) + 1 & (s_{i}, a_{i}) = (s_{i}^{k - 1}, a_{i}^{k - 1}) \\ {γλe}_{i}^{k - 2} (s_{i}, a_{i}) & (s_{i}, a_{i}) &NotEqual; (s_{i}^{k - 1}, a_{i}^{k - 1}) \end{matrix}, i &Element; N;

其中是主体i在当前迭代次数k-1时的状态动作对，γ是折扣因子，0≤γ≤1，决定将来奖励信号对现在的作用；λ是资格迹衰退系数，0≤λ≤1，N为群体集合。

更进一步的，所述步骤S4中每个主体i的贪婪动作a_i ^g求解如下：

a_{i}^{g} = \arg \underset{a_{i} &Element; A}{m a x} Q_{i}^{k} (s_{i}^{k}, a_{i}), i &Element; N;

其中A为动作集合，N为群体集合，是每个主体i在第k次迭代时，在状态下的Q_i值矩阵。

优选的，所述步骤S5中每个主体i的动作概率矩阵P_i的更新公式如下：

{\begin{matrix} P_{i} (s_{i}^{k}, a_{i}^{g}) = P_{i} (s_{i}^{k}, a_{i}^{g}) + β (1 - P_{i} (s_{i}^{k}, a_{i}^{g})) \\ \begin{matrix} P_{i} (s_{i}^{k}, a_{i}) = P_{i} (s_{i}^{k}, a_{i}) (1 - β) & &ForAll; a_{i} &Element; A, a_{i} &NotEqual; a_{i}^{g} \end{matrix} \\ \begin{matrix} P_{i} (s_{i}, a_{i}) = P_{i} (s_{i}, a_{i}) & &ForAll; a_{i} &Element; A, &ForAll; s_{i} &Element; S, s_{i} &NotEqual; s_{i}^{k} \end{matrix} \end{matrix}, i &Element; N;

其中为每个主体i当前状态下贪婪动作a_i ^g对应的概率，表示每个主体i当前状态下其他每个可选非最优动作a_i对应的概率，P_i(s_i,a_i)表示每个主体i除当前状态外其他可能状态s_i下动作对应的概率，β为动作搜索速度，A为动作集合，S为状态集合，N为群体集合。

更进一步的，所述步骤S7群体最优动作a_i ^b为：

a_{i}^{b} = \arg \underset{a_{i} &Element; A, i &Element; N}{m a x} Q_{i}^{k} (s, a_{i}), s = s_{i}^{k};

其中N为群体集合。

优选的，所述步骤S9中确定的群智能强化学习系统的控制变量矩阵x为：

x＝[V,θ,k_t,Q_c]^T；

其中V为电网负荷节点系统中各负荷节点电压值，θ为电网负荷节点系统中各负荷节点相角，k_t为电网负荷节点系统中有载调压变压器变比，Q_c为电网负荷节点系统中无功补偿容量。

优选的，所述步骤S9中学习因子c₁、c₂分别为0.18和1.2。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明有机结合了电网能流和碳排放流传输特性，首次提出了电网最优碳能复合流的概念，针对于电网负荷节点系统构建群智能强化学习系统，并且结合多步回溯Q(λ)学习算法，采用多主体强化学习获取到电网最优碳能复合流，本发明方法能够在满足系统运行和安全约束的前提下，通过对电网的无功进行优化，使得电网中的能量流和碳排放流损耗量达到最小，得到最优碳能复合流，并且能在保证较好全局寻优能力的同时，明显提高算法的收敛速度。

(2)本发明在传统单主体Q(λ)算法的基础上，结合了群智能优化方法，大大提高了传统Q(λ)算法寻优的速度，更加符合实际大规模复杂电网的碳-能复合流在线滚动优化实时性要求。

(3)本发明群智能强化学习算法的收敛稳定性高，能更高效地找到碳能复合流的全局最优解，能在保证电压安全稳定的同时，有效降低电网的碳排放损耗和有功功率损耗。

附图说明

图1是本发明方法流程图。

图2是本发明方法中电网负荷节点系统碳能复合流示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例公开了一种基于群智能强化学习的电网最优碳能复合流获取方法，本实施例针对IEEE118电网负荷节点系统，获取电网最优碳能复合流，其中该IEEE118电网负荷节点系统包括54个机组和186条支路，根据《2006年IPCC国家温室气体清单指南》，获取到电网负荷节点系统中各机组碳排放强度。如图1所示，本实施例中该电网负荷节点系统基于群智能强化学习的电网最优碳能复合流获取方法具体步骤如下：

S1、根据电网负荷节点系统构建群智能强化学习系统，如图2所示为本实施例中电网负荷节点系统碳能复合流示意图；然后综合考虑电网运行经济性和电网安全稳定性，建立群智能强化学习系统多目标最优碳能复合流模型目标函数；其中多目标最优碳能复合流模型目标函数为：

minμ₁f₁(x)+μ₂f₂(x)+(1-μ₁-μ₂)V_d；

其中x为控制变量，f₁(x)为非线性函数描述的碳排放损耗分量，f₂(x)为非线性函数描述的有功网损分量；V_d为电网负荷节点系统中电压稳定分量；μ₁、μ₂为权重系数，μ₁∈[0,1]，μ₂∈[0,1]，μ₁+μ₂≤1；控制变量x＝[V,θ,k_t,Q_c]^T，V为电网负荷节点系统中各负荷节点电压值，θ为电网负荷节点系统中各负荷节点相角，k_t为电网负荷节点系统中有载调压变压器变比，Q_c为电网负荷节点系统中无功补偿容量；

电网负荷节点系统中电压稳定分量V_d为：

V_{d} = Σ_{j = 1}^{n} | \frac{2 V_{j} - V_{j m a x} - V_{j m i n}}{V_{j m a x} - V_{j \min}} |;

S2、在群智能强化学习系统群体的主体更新迭代过程中，根据步骤S1中建立的多目标最优碳能复合流模型目标函数，设置奖励函数；本步骤中设置的奖励函数R_i(k)为：

R_i(k)＝C-[μ₁C_ds(k)+μ₂P_loss(k)+(1-μ₁-μ₂)V_d(k)+N(k)]，i∈N；

其中C为用于保证奖励函数值为正数的常数，C_ds(k)为碳排放损耗，P_loss(k)为网损；V_d(k)为电压稳定分量，μ₁、μ₂为目标系数，μ₁较大时，则表明电网企业更加偏好于碳排放，μ₂较大时，则表明电网企业更加偏好于网损，而在本实例中，奖励函数的权重系数μ₁、μ₂都取1/3；N(k)是不满足不等式约束的个数，其中引入这个参数是为了保证最终选定的最优动作能够满足电网潮流计算的不等式约束；N为群体集合；

S3、对电网负荷节点系统中的负荷进行离散化，根据负荷大小划分为不同的区间范围，然后按照负荷消耗的能量的差别，把负荷离散化划分成不同的断面，根据断面负荷消耗的能量值确定每个主体i的状态s_i，然后根据多步回溯Q(λ)学习的资格迹来更新每个主体i的Q_i值矩阵；本步骤中根据多步回溯Q(λ)学习的资格迹更新得到每个主体i在当前迭代次数k时的Q_i值矩阵：

Q_{i}^{k} (s_{i}, a_{i}) = Q_{i}^{k - 1} (s_{i}, a_{i}) + {αδ}_{i}^{k - 1} e_{i}^{k - 1} (s_{i}, a_{i}), i &Element; N;

Q_{i}^{k} (s_{i}^{k}, a_{i}^{k}) = Q_{i}^{k - 1} (s_{i}^{k - 1}, a_{i}^{k - 1}) + {αρ}_{i}^{k - 1}, i &Element; N;

其中：

ρ_{i}^{k - 1} = R_{i} (k - 1) + {γQ}_{i}^{k - 1} (s_{i}^{k}, a_{i}^{g}) - Q_{i}^{k - 1} (s_{i}^{k - 1}, a_{i}^{k - 1}), i &Element; N;

δ_{i}^{k - 1} = R_{i} (k - 1) + {γQ}_{i}^{k - 1} (s_{i}^{k}, a_{i}^{g}) - Q_{i}^{k - 1} (s_{i}^{k - 1}, a_{i}^{g}), i &Element; N;

其中s_i是每个主体i的任意状态，是每个主体i第k次迭代的状态，即当前状态，a_i是每个主体i的任意动作，是每个主体i第k次迭代的动作，即当前动作，就是指每个主体i第k次迭代后的Q_i值矩阵；每个主体i在第k次迭代时，在状态下执行动作的函数值，是是Q_i值矩阵中的一个元素；R_i(k-1)为每个主体i在第k-1次迭代时获得的立即奖励值，α为学习速率，决定了算法的收敛速度，0≤α≤1，本实施例中α取0.1；N为群体集合。为每个主体i的贪婪动作。

其中：

e_{i}^{k - 1} (s_{i}, a_{i}) = \{\begin{matrix} {γλe}_{i}^{k - 2} (s_{i}, a_{i}) + 1 & (s_{i}, a_{i}) = (s_{i}^{k - 1}, a_{i}^{k - 1}) \\ {γλe}_{i}^{k - 2} (s_{i}, a_{i}) & (s_{i}, a_{i}) &NotEqual; (s_{i}^{k - 1}, a_{i}^{k - 1}) \end{matrix}, i &Element; N;

其中是主体i在当前迭代次数k-1时的状态-动作对，γ是折扣因子，0≤γ≤1，决定将来奖励信号对现在的作用，本实施例中γ取值为0.49；λ是资格迹衰退系数，0≤λ≤1，本实例中λ取值为0.3；N为群体集合。

S4、计算每个主体i的贪婪动作a_i ^g；本步骤中每个主体i的贪婪动作a_i ^g求解如下：

a_{i}^{g} = \arg \underset{a_{i} &Element; A}{m a x} Q_{i}^{k} (s_{i}^{k}, a_{i}), i &Element; N;

其中A为动作集合，N为群体集合。贪婪动作a_i ^g是每个主体自身Q_i值动作的最大值，是每个主体i在第k次迭代时，在状态下的Q_i值矩阵。

S5、根据步骤S3每个主体i更新后的Q_i值矩阵，再更新每个主体i的动作概率矩阵P_i，本步骤中每个主体i的动作概率矩阵P_i的更新公式如下：

{\begin{matrix} P_{i} (s_{i}^{k}, a_{i}^{g}) = P_{i} (s_{i}^{k}, a_{i}^{g}) + β (1 - P_{i} (s_{i}^{k}, a_{i}^{g})) \\ \begin{matrix} P_{i} (s_{i}^{k}, a_{i}) = P_{i} (s_{i}^{k}, a_{i}) (1 - β) & &ForAll; a_{i} &Element; A, a_{i} &NotEqual; a_{i}^{g} \end{matrix} \\ \begin{matrix} P_{i} (s_{i}, a_{i}) = P_{i} (s_{i}, a_{i}) & &ForAll; a_{i} &Element; A, &ForAll; s_{i} &Element; S, s_{i} &NotEqual; s_{i}^{k} \end{matrix} \end{matrix}, i &Element; N;

其中为每个主体i当前状态下贪婪动作a_i ^g对应的概率，表示每个主体i当前状态下其他每个可选非最优动作a_i对应的概率，P_i(s_i,a_i)表示每个主体i除当前状态外其他可能状态s_i下动作对应的概率，β为动作搜索速度，β越小，算法越慢收敛，收敛效果越好，在本实例中β取0.5。A为动作集合，S为状态集合，N为群体集合。

S6、根据步骤S4每个主体i更新后的动作概率矩阵P_i，随机选择每个主体i当前状态下s_i ^k的预判动作a_i ^kp，其中k为群体的当前迭代次数。其中预判动作类似于粒子群的每个主体位置，需要对其进行修正。

S7、根据负荷值确定的状态s，并协同输入多个主体，将贪婪动作a_i ^g视为各主体i最优动作，然后求解群体最优动作a_i ^b；本步骤中群体最优动作a_i ^b为：

a_{i}^{b} = \arg \underset{a_{i} &Element; A, i &Element; N}{m a x} Q_{i}^{k} (s, a_{i}), s = s_{i}^{k};

其中N为群体集合。其中主体与主体是平等协作的，协同输入多主体，是说把各个主体的信息进行交互，各个主体同时寻优，并获得整个群体能够找到的最优动作信息。a_i ^b是个群体最优动作，是群体所有每个主体在状态时的Q值中最大的一个对应的动作。

S8、根据步骤S6得到的每个主体i当前状态下s_i ^k的预判动作a_i ^kp以及步骤S7求解得到的群体最优动作a_i ^b，更新得到修正后的动作值a_i ^k作为主体的i在当前迭代次数k以及当前状态下s_i ^k的动作：

y_{i}^{k} = c_{1} r_{1} (a_{i}^{g} - a_{i}^{k p}) + c_{2} r_{2} (a_{i}^{b} - a_{i}^{k p}),

a_{i}^{k} = a_{i}^{k p} + y_{i}^{k};

其中为主体i的动作修正偏差，c₁、c₂为学习因子；本实施例中学习因子c₁、c₂分别为0.18和1.2。

S9、确定群智能强化学习系统的控制变量矩阵，然后结合步骤S8更新得到群体中各主体i修正后的动作值a_i ^k进行潮流计算，得到电网负荷节点系统的运行状态；进入步骤S10；本实施例中，动作值a_i ^k与系统的控制变量矩阵x中元素一一对应，代入对应动作值a_i ^k的控制变量在Matlab7.10仿真平台的Matpower4.1软件包潮流计算程序，进行潮流计算。

其中本步骤中确定的群智能强化学习系统的控制变量矩阵x为：

x＝[V,θ,k_t,Q_c]^T；

在本实例中，选定的可控变量是节点45、79、105的无功补偿容量和线路8-5、26-25、30-17、63-59、64-61的有载调压变压器分接头位置。其中无功补偿容量分成5档，分别对应正常值的-40％、-20％、0％、20％、40％，有载调压变压器变比分成3档，分别0.98(p.u.)、1.00(p.u.)、1.02(p.u.)。则动作空间总共有5×5×5×3×3×3×3×3＝30375个动作，不等式约束的个数为：54+1+64＝119，分别对应发电机无功出力，发电机平衡节点有功出力和负荷节点的电压。

S10、潮流计算后，判断多目标最优碳能复合流模型目标函数Q值矩阵是否收敛，即Q值矩阵是否在本次潮流计算过程中保持不变；其中Q值矩阵为群体中每主体i的Q_i值矩阵所构成的矩阵；

若否，则回到步骤S2，并且将群体的当前迭代次数加1。

本实施例在Matlab7.10仿真平台上借助Matpower4.1软件包中的潮流计算程序，并在CPU为3.1GHz内存为4GB的计算机上对IEEE118负荷节点标准算例进行的仿真。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于群智能强化学习的电网最优碳能复合流获取方法，其特征在于，步骤如下：

S4、计算每个主体i的贪婪动作a_i ^g；

y_{i}^{k} = c_{1} r_{1} (a_{i}^{g} - a_{i}^{k p}) + c_{2} r_{2} (a_{i}^{b} - a_{i}^{k p}),

a_{i}^{k} = a_{i}^{k p} + y_{i}^{k};

若否，则回到步骤S2，并且将群体的当前迭代次数加1。

2.根据权利要求1所述的基于群智能强化学习的电网最优碳能复合流获取方法，其特征在于，所述步骤S1中群智能强化学习系统多目标最优碳能复合流模型目标函数为：

minμ₁f₁(x)+μ₂f₂(x)+(1-μ₁-μ₂)V_d；

其中电网负荷节点系统中电压稳定分量V_d为：

V_{d} = Σ_{j = 1}^{n} | \frac{2 V_{j} - V_{j m a x} - V_{j m i n}}{V_{j m a x} - V_{j m i n}} |;

其中n为电网负荷节点系统中负荷节点的数量，V_j为负荷节点j的负荷节点电压，V_jmax和V_jmin分别是负荷节点j的最大、最小电压限制。

3.根据权利要求1所述的基于群智能强化学习的电网最优碳能复合流获取方法，其特征在于，所述步骤S2中设置的奖励函数R_i(k)为：

R_i(k)=C-[μ₁C_ds(k)+μ₂P_loss(k)+(1-μ₁-μ₂)V_d(k)+N(k)]，i∈N；

4.根据权利要求1所述的基于群智能强化学习的电网最优碳能复合流获取方法，其特征在于，

所述步骤S3中根据多步回溯Q(λ)学习的资格迹更新得到每个主体i在当前迭代次数k时的Q_i值矩阵：

Q_{i}^{k} (s_{i}, a_{i}) = Q_{i}^{k - 1} (s_{i}, a_{i}) + {αδ}_{i}^{k - 1} e_{i}^{k - 1} (s_{i}, a_{i}), i &Element; N;

Q_{i}^{k} (s_{i}^{k}, a_{i}^{k}) = Q_{i}^{k} (s_{i}^{k - 1}, a_{i}^{k - 1}) + {αρ}_{i}^{k - 1}, i &Element; N;

其中：

ρ_{i}^{k - 1} = R_{i} (k - 1) + {γQ}_{i}^{k - 1} (s_{i}^{k}, a_{i}^{g}) - Q_{i}^{k - 1} (s_{i}^{k - 1}, a_{i}^{k - 1}), i &Element; N;

δ_{i}^{k - 1} = R_{i} (k - 1) + {γQ}_{\overset{\cdot}{i}}^{k - 1} (s_{i}^{k}, a_{i}^{g}) - Q_{i}^{k - 1} (s_{i}^{k - 1}, a_{i}^{g}), i &Element; N;

其中：

e_{i}^{k - 1} (s_{i}, a_{i}) = \{\begin{matrix} {γλe}_{i}^{k - 2} (s_{i}, a_{i}) + 1 & (s_{i}, a_{i}) = (s_{i}^{k - 1}, a_{i}^{k - 1}) \\ {γλe}_{i}^{k - 2} (s_{i}, a_{i}) & (s_{i}, a_{i}) &NotEqual; (s_{i}^{k - 1}, a_{i}^{k - 1}) \end{matrix}, i &Element; N;

5.根据权利要求4所述的基于群智能强化学习的电网最优碳能复合流获取方法，其特征在于，所述步骤S4中每个主体i的贪婪动作a_i ^g求解如下：

a_{i}^{g} = \arg \underset{a_{i} &Element; A}{m a x} Q_{i}^{k} (s_{i}^{k}, a_{i}), i &Element; N;

6.根据权利要求1所述的基于群智能强化学习的电网最优碳能复合流获取方法，其特征在于，所述步骤S5中每个主体i的动作概率矩阵P_i的更新公式如下：

{\begin{matrix} P_{i} (s_{i}^{k}, a_{i}^{g}) = P_{i} (s_{i}^{k}, a_{i}^{g}) + β (1 - P (s_{i}^{k}, a_{i}^{g})) \\ \begin{matrix} P_{i} (s_{i}^{k}, a_{i}) = P_{i} (s_{i}^{k}, a_{i}) (1 - β) & &ForAll; a_{i} &Element; A, a_{i} &NotEqual; a_{i}^{g} \end{matrix} \\ \begin{matrix} P_{i} (s_{i}, a_{i}) = P_{i} (s_{i}, a_{i}) & &ForAll; a_{i} &Element; A, &ForAll; s_{i} &Element; S, s_{i} &NotEqual; s_{i}^{k} \end{matrix} \end{matrix}, i &Element; N;

7.根据权利要求4所述的基于群智能强化学习的电网最优碳能复合流获取方法，其特征在于，所述步骤S7群体最优动作a_i ^b为：

a_{i}^{b} = \arg \underset{a_{i} &Element; A, i &Element; N}{m a x} Q_{i}^{k} (s, a_{i}), s = s_{i}^{k};

其中N为群体集合。

8.根据权利要求1所述的基于群智能强化学习的电网最优碳能复合流获取方法，其特征在于，所述步骤S9中确定的群智能强化学习系统的控制变量矩阵x为：

x=[V,θ,k_t,Q_c]^T；

9.根据权利要求1所述的基于群智能强化学习的电网最优碳能复合流获取方法，其特征在于，所述步骤S9中学习因子c₁、c₂分别为0.18和1.2。