CN112381146B

CN112381146B - 虚拟电厂下的分布式资源自组织聚合与协同控制方法

Info

Publication number: CN112381146B
Application number: CN202011278673.5A
Authority: CN
Inventors: 何光宇; 周欢; 肖居承; 吴清; 李志勇; 邵洁; 潘迪涵; 宁道龙; 温蜀陇
Original assignee: Shanghai Qianguan Energy Saving Technology Co ltd; Hainan Electric Power School Hainan Electric Power Technical School; Shanghai Jiaotong University
Current assignee: Shanghai Qianguan Energy Saving Technology Co ltd; Hainan Electric Power School Hainan Electric Power Technical School; Shanghai Jiaotong University
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2024-05-21
Anticipated expiration: 2040-11-16
Also published as: CN112381146A; US20220158487A1

Abstract

本发明涉及电气工程及其自动化技术领域，具体提出了一种虚拟电厂下的分布式资源自组织聚合与协同控制方法，通过自组织聚合实现各个适应性主体间的相互协作，驱动整体朝节能降耗，提升虚拟电厂整体运行效率的方向演化，最终实现对海量分布式能源资源的动态耦合与协同控制；本方法能够通过主体的自组织聚合，实现资源的优化组合与协同控制，降低整体调控成本，显著提升虚拟电厂的运行效率；同时提出了虚拟电厂的多层级自组织聚合方法，为揭示系统的涌现机理提供了底层机制；且本方法提出了适应性主体自组织聚合的实现方法，能够快速、准确的求解适应性主体组合的最优联合行为及收益，加速自组织聚合的收敛过程，提升整体决策效率。

Description

虚拟电厂下的分布式资源自组织聚合与协同控制方法

技术领域

本发明涉及电气工程及其自动化技术领域，具体涉及一种虚拟电厂下的分布式资源自组织聚合与协同控制方法。

背景技术

现有的分布式能源资源协同控制方法一类是从博弈的角度研究分布式能源资源的相互作用，还有一类则采用分散式协同控制的方法实现分布式能源资源的相互协调。

现有方法存在以下缺点：(1)大多只关注系统最终收敛的“稳态”条件，且假设分布式能源资源具备完全信息且完全理性，在系统不均衡时会主动改变行为直到共同将系统推向稳态为止；(2)对于分布式能源资源相互作用的动态过程刻画不足，且没有将个体的状态、行为与环境特征有机结合，难以揭示系统质变的涌现机理。

基于上述问题的存在，本方案建立一种虚拟电厂下的分布式资源自组织聚合与协同控制方法。

发明内容

本发明的目的在于提供一种虚拟电厂下的分布式资源自组织聚合与协同控制方法，通过自组织聚合实现各个适应性主体间的相互协作，驱动整体朝节能降耗，提升虚拟电厂整体运行效率的方向演化。最终实现对海量分布式能源资源的动态耦合与协同控制。

为实现上述目的，本发明提供如下技术方案，虚拟电厂下的分布式资源自组织聚合与协同控制方法，包括以下步骤：

步骤一：定义适应性主体的自组织聚合的基本规则；

以两个主体为例，定义：

规则1：最小适应度聚合：

式中μ_A和μ_B分别表示未聚合前A和B的环境适应度，和/>分别表示聚合后A和B的环境适应度；

规则2：最大适应度聚合：

表示聚合后最大适应度个体得到提升；

规则3：平均适应度聚合：

表示聚合后整体的平均适应度得到提升；

规则4：自定义适应度聚合：

f_μ为适应度的某个自定义函数，表示聚合后适应性主体朝既定的方向提升

基于所述基本原则，适应性主体能够实现从简单的个体聚合成为复杂的个体，即介主体；

步骤二：建立适应性主体动态自组织层级结构；

基于上述4条规则，适应性主体能够实现从简单的个体聚合成为复杂的个体，在CAS中称为介主体(Meta-Agents)。此时介主体之间、介主体与环境之间的相互作用发生了变化，介主体与介主体将继续聚合形成更大的主体，从而实现自下而上，逐级聚合的层级结构；

假设虚拟电厂是一个由适应性主体自组织形成的m层结构，则：

式中L(i)表示第i层结构，是由其下一层级L(i-1)的适应性主体按照一定规则形成的聚合体，x表示层级中的某个适应性主体；

定义第i层的聚合规则R(i)表示为：

式中Rule_i代表是的是第i条规则，λ_k为第k条规则的权重系数，取值范围[0,1]，且代数和为1。

步骤三：通过观察训练主体动态自组织层级结构，实现虚拟电厂下的资源的优化组合与协同控制。

当采用自下而上、自组织的方式对分布式能源资源进行聚合，虚拟电厂本身就可以视为一个分布式能源资源经过若干层级的聚合后形成的适应性主体，并且这种层级和组合方式都是动态变化的。虚拟电厂能够展现出多大的灵活性取决于下层个体如何联系、如何耦合、如何适应。因此，将虚拟电厂对分布式能源资源的控制这一优化问题转换成多主体协同演化的模拟问题，即通过观察分布式能源资源的演化过程实现分布式能源资源协同控制的目标。

与现有技术相比，本发明的有益效果是：

(1)本方法能够通过主体的自组织聚合，实现资源的优化组合与协同控制，降低整体调控成本，显著提升虚拟电厂的运行效率；

(2)提出了虚拟电厂的多层级自组织聚合方法，为揭示系统的涌现机理提供了底层机制；

(3)提出了适应性主体自组织聚合的实现方法，能够快速、准确的求解适应性主体组合的最优联合行为及收益，加速自组织聚合的收敛过程，提升整体决策效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中适应性主体协同演化示意图；

图2为本发明中适应性主体多层级自组织体系结构；

图3为基于QMIX算法的适应性主体自组织聚合训练过程；

图4为基于QMIX算法的适应性主体在线自组织聚合流程。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

步骤1建立多主体协同演化模型

以度电成本为基础构建适应性主体适应性测度函数，定义：

式中E为某时段适应性主体的用电量，B为该时段的发电收益，且有B＝E·P_c，P_c为该时段的电价；C为调控成本，取值与调控量为严格的凸函数关系；L为运维、惩罚等其他成本；R为环境的奖励值；ε为一个较大的正常数，确保分母不小于0；f(A)为适应性主体在某时段内的度电成本，为方便理解，取其倒数使得度电成本越低时，适应度越大。

步骤2基于QMIX算法的自组织聚合优化

2.1基于马尔科夫博弈的自组织过程

分布式能源资源的状态变化只依赖于当前时段的状态与行为，因此适应性主体的演化是一个马尔科夫过程；

采用马尔科夫博弈刻画适应性主体的自组织聚合，以如下五元组对该过程进行定义：

＜N,S,A₁，…,A_n,T,R₁,…R_n＞ (7)

其中N＝{1,2,…,n}表示n个适应性主体，S为适应性主体组合的联合状态空间，A_i表示第i个适应性主体的动作空间，T为联合行为的状态转移矩阵，R_i为第i个适应性主体所得的回报。

2.2多主体强化学习目标

多主体强化学习的目标可以表示为下式：

式中：s∈S，代表适应性主体组合后某种状态组合，π_i(s,a_i)代表第i个适应性主体在状态为s的情况下采取策略π_i的动作为a_i；V_i(s)为第i种组合在状态为s的条件下的状态值函数，Q_i(s)则为该状态下的动作值函数，在分布式能源资源的自组织聚合问题中，Q值为组织中个体适应度的代数和，即*号代表该值的理论最优值，γ为折扣因子。

2.3QMIX算法及训练流程

QMIX算法是由Tabish Rashid提出的一种高效的值函数分解算法，算法在VDN算法的基础上，采用一个混合网络对适应性主体局部值函数进行合并，并在训练学习过程中加入全局状态信息辅助提高算法性能。

基于QMIX算法的训练过程如图3，主要包括基于DRQN的适应性主体代理网络训练和基于混合网络的全局训练两部分；

1)基于DRQN的适应性主体代理网络训练

首先，单个适应性主体无法获得完整全局状态，是一个部分可观马尔科夫决策过程，采用DRQN对部分可观测条件下适应性主体的决策行为及Q值进行求解；算法的基本功能可以表述为：

即通过输入为当前的观测即组合中其他适应性主体采取的动作，以及上一时刻的自身的动作/>来得到当前时刻的动作/>和Q值，并记录样本；其中/>为第i个适应性主体从初始状态开始，适应性主体动作-观测的样本记录；

DRQN在DQN的结构上，将卷积层最后一层的全连接层替换为LSTM模型的变种GRU，并通过h_t记录t时段隐藏层的状态参数。

2)基于混合网络的全局训练

QMIX采用集中式学习的方法得到分布式策略，联合动作值函数的训练过程并不记录每一个适应性主体的值，只需要确保联合值函数上执行的最优行为和每个适应性主体上执行的最优行为集产生相同的结果：

式中argmaxQ_i为第i个适应性主体动作值函数的最大Q值，argmaxQ_tot为联合值函数的最大Q值；如此，每个适应性主体在训练过程中只需要采用贪婪策略选择动作aⁱ使得argmaxQ_i最大化来参与分散决策过程；

为使式(10)成立，QMIX将其转换成单调性约束，并采用混合网络来实现：

混合网络的基本功能可以表述为：

即混合网络通过输入各适应性主体在t时段采取的最优动作Q值以及系统的状态s_t；输出为混合网络的权值W_j和偏移量b；为确保权值非负，采用线性网络以及绝对值激活函数保证输出不为负，混合网络最后一层的偏移量通过两层网络以及ReLU激活函数得到非线性映射网络；

QMIX的全局训练损失函数为：

式中为第i个全局样本，θ为网络参数；

通过上述集中训练方法，任意适应性主体组合在判断“融合”还是“分裂”时，能够快速的求得该组合的最大适应度及对应的最优联合行为，适应性主体在线自组织聚合的基本流程如图4。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.虚拟电厂下的分布式资源自组织聚合与协同控制方法，其特征在于，包括以下步骤：

步骤一：定义适应性主体的自组织聚合的基本规则；

步骤二：建立适应性主体动态自组织层级结构；

基于步骤一，介主体之间、介主体与环境之间的相互作用发生了变化，设计聚合规则，使得介主体与介主体之间继续聚合形成更大的主体，从而形成自下而上，逐级聚合的层级结构；

步骤三：通过观察训练主体动态自组织层级结构，实现虚拟电厂下的资源的优化组合与协同控制；

步骤一中，以度电成本为基础构建适应性主体适应性测度函数，定义：

式中E为某时段适应性主体的用电量，B为该时段的发电收益，且有B＝E·P_c，P_c为该时段的电价；C为调控成本，取值与调控量为严格的凸函数关系；L为运维、惩罚成本；R为环境的奖励值；ε为一个较大的正常数，确保分母不小于0；f(A)为适应性主体在某时段内的度电成本，为方便理解，取其倒数使得度电成本越低时，适应度越大；

步骤二中，设计聚合规则，其步骤如下；

定义第i层的聚合规则R(i)表示为：

式中Rule_i代表是的是第i条规则，λ_k为第k条规则的权重系数，取值范围[0,1]，且代数和为1；

步骤三中，采用QMIX算法对适应性主体进行训练，主要包括基于DRQN的适应性主体代理网络训练和基于混合网络的全局训练两部分；

基于DRQN的适应性主体代理网络训练的过程如下：

DRQN在DQN的结构上，将卷积层最后一层的全连接层替换为LSTM模型的变种GRU，并通过h_t记录t时段隐藏层的状态参数；

基于混合网络的全局训练的步骤如下：

混合网络的基本功能可以表述为：

QMIX的全局训练损失函数为：

式中为第i个全局样本，θ为网络参数；

通过式(9)-(13)的训练方法，任意适应性主体组合在判断“融合”还是“分裂”时，能够快速的求得该组合的最大适应度及对应的最优联合行为。

2.根据权利要求1所述的虚拟电厂下的分布式资源自组织聚合与协同控制方法，其特征在于：

步骤一中，定义适应性主体相互作用的基本规则，以两个主体为例，定义：

规则一：最小适应度聚合：

规则二：最大适应度聚合：

表示聚合后最大适应度个体得到提升；

规则三：平均适应度聚合：

表示聚合后整体的平均适应度得到提升；

规则四：自定义适应度聚合：

f_μ为适应度的某个自定义函数，表示聚合后适应性主体朝既定的方向提升。

3.根据权利要求2所述的虚拟电厂下的分布式资源自组织聚合与协同控制方法，其特征在于，采用马尔科夫博弈刻画适应性主体的自组织聚合，以如下五元组对该过程进行定义：

＜N,S,A₁，…,A_n,T,R₁,…R_n＞ (7)

4.根据权利要求3所述的虚拟电厂下的分布式资源自组织聚合与协同控制方法，其特征在于，多主体强化学习的目标可以表示为下式：