CN117151308A - 基于联邦强化学习的综合能源系统优化调度方法及系统 - Google Patents
基于联邦强化学习的综合能源系统优化调度方法及系统 Download PDFInfo
- Publication number
- CN117151308A CN117151308A CN202311412348.7A CN202311412348A CN117151308A CN 117151308 A CN117151308 A CN 117151308A CN 202311412348 A CN202311412348 A CN 202311412348A CN 117151308 A CN117151308 A CN 117151308A
- Authority
- CN
- China
- Prior art keywords
- training
- federal
- local model
- reinforcement learning
- value data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000002787 reinforcement Effects 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 66
- 230000009471 action Effects 0.000 claims abstract description 41
- 238000005457 optimization Methods 0.000 claims abstract description 18
- 239000003795 chemical substances by application Substances 0.000 claims description 75
- 230000008569 process Effects 0.000 claims description 31
- 238000005516 engineering process Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 238000004146 energy storage Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 238000010248 power generation Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000009194 climbing Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 239000007789 gas Substances 0.000 description 10
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 10
- 229910052799 carbon Inorganic materials 0.000 description 9
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 7
- 239000003345 natural gas Substances 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/091—Active learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06313—Resource planning in a project environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- Bioethics (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
Abstract
本发明公开了基于联邦强化学习的综合能源系统优化调度方法及系统,包括在配电网区域内划分若干分布式智能体;设计每个分布式智能体对应的本地模型;对各本地模型进行训练得到对应的状态值数据、动作值数据和奖励值数据;对各本地模型参数进行保护和隐私处理;根据状态值、动作值和奖励值数据,进行Actor网络和Critic网络的训练并将训练好的模型参数上传至联邦服务器;基于联邦平均算法更新全局模型参数并下发,以供对应的各本地模型在下一轮训练中使用;在满足条件时完成训练。本发明提供的基于联邦强化学习的综合能源系统优化调度方法及系统,将联邦学习与强化学习相结合,智能体在学习中既通过交换经验和模型参数来共同提升性能,又保护了数据的隐私。
Description
技术领域
本发明涉及综合能源系统优化调度技术领域,尤其是涉及基于联邦强化学习的综合能源系统优化调度方法及系统。
背景技术
综合能源系统是多种能源形式(如电能、天然气、热能等)和能源需求(如供电、供电、供气等)进行耦合和优化配置的系统,旨在实现能源的高效、稳定供应,同时能最小化经济成本和碳排放,该系统将不同形式的能源进行转换和储存,能源系统被视为高度灵活、互补性强的整体,包括能源供应、转换、储存和需求等各个环节,但由于引入了新能源(如风能、光能),导致电力系统存在较高的不确定性,不仅如此,本地的数据也存在信息泄露的风险。
传统的优化方法例如动态规划、飞蛾扑火算法等,虽然可以解决在某个特定场景下的调度问题,对于综合能源系统中负荷不确定性和新能源的时变性仍存在不足,因为它们无法做到动态地对负荷和新能源的随机变化做出快速响应。
针对这些方法的缺陷,随着人工智能、大数据等机器学习方法的发展,基于数据驱动的强化学习在处理不确定模型、复杂的问题上具有较大优势。数据驱动的方法主要通过综合能源系统的历史数据,以训练神经网络的方法实现对系统的优化调度。但是数据驱动的方法涉及到大量隐私数据,因此如何既保证强化学习的模型性能,又能够对隐私数据进行保护,已成为本领域技术人员所要亟待解决的技术问题。
发明内容
本发明提供基于联邦强化学习的综合能源系统优化调度方法及系统,将联邦学习与强化学习相结合,智能体在学习中既通过交换经验和模型参数来共同提升性能,又保护了数据的隐私。
为了解决上述技术问题,本发明实施例提供了一种基于联邦强化学习的综合能源系统优化调度方法,包括:
在配电网区域内划分若干个分布式智能体,各个所述分布式智能体用于表征对应区域内的综合能源系统;
在强化学习过程中,分别设计每个所述分布式智能体对应的本地模型,并设计各个所述本地模型对应的状态空间、动作空间、惩罚项和奖励函数;
根据神经网络学习技术,使用本地数据对各个所述本地模型进行训练,通过在当前的状态值数据训练得到各个所述本地模型对应的动作值数据和奖励值数据;
基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理;
根据所述状态值,进行Actor网络和Critic网络的训练得到动作值和奖励值数据,并将训练后的本地模型参数上传至联邦服务器,其中,所述联邦服务器用于协调各个所述分布式智能体的学习过程;
所述联邦服务器基于联邦平均算法更新全局模型参数,并将更新后的所述全局模型参数下发至每一所述分布式智能体,以供对应的每一所述本地模型在下一轮训练中使用;
在满足停止训练条件时,完成强化学习训练。
作为其中一种优选方案,所述方法还包括:
为每一所述分布式智能体设定缓冲区,所述缓冲区用于储存自身的本地模型对应的训练数据以及其他的本地模型对应的动作信息。
作为其中一种优选方案,所述基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理,具体包括:
在每个所述分布式智能体的本地训练过程中,应用差分隐私保护机制对各个本地模型参数进行处理,以实现参数的随机化。
作为其中一种优选方案,所述状态值数据包括电负荷需求量、热负荷需求量、气负荷需求量、光伏发电功率、风力发电功率、电储能的荷电状态以及对应的调度时段;
所述动作值数据包括每一能源设备对应的出力;
所述奖励值数据包括满足设定的约束条件时的系统经济成本项和不满足设定的约束条件时的惩罚项。
作为其中一种优选方案,所述约束条件包括功率平衡约束、设备运行约束、爬坡约束和储能单元约束。
本发明另一实施例提供了一种基于联邦强化学习的综合能源系统优化调度系统,包括处理器,所述处理器被配置为:
在配电网区域内划分若干个分布式智能体,各个所述分布式智能体用于表征对应区域内的综合能源系统;
在强化学习过程中,分别设计每个所述分布式智能体对应的本地模型,并设计各个所述本地模型对应的状态空间、动作空间、惩罚项和奖励函数;
根据神经网络学习技术,使用本地数据对各个所述本地模型进行训练,通过在当前的状态值数据训练得到各个所述本地模型对应的动作值数据和奖励值数据;
基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理;
根据所述状态值,进行Actor网络和Critic网络的训练得到动作值和奖励值数据,并将训练后的本地模型参数上传至联邦服务器,其中,所述联邦服务器用于协调各个所述分布式智能体的学习过程;
所述联邦服务器基于联邦平均算法更新全局模型参数,并将更新后的所述全局模型参数下发至每一所述分布式智能体,以供对应的每一所述本地模型在下一轮训练中使用;
在满足停止训练条件时,完成强化学习训练。
作为其中一种优选方案,所述处理器还被配置为:
为每一所述分布式智能体设定缓冲区,所述缓冲区用于储存自身的本地模型对应的训练数据以及其他的本地模型对应的动作信息。
作为其中一种优选方案,所述基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理,具体包括:
在每个所述分布式智能体的本地训练过程中,应用差分隐私保护机制对各个本地模型参数进行处理,以实现参数的随机化。
作为其中一种优选方案,所述状态值数据包括电负荷需求量、热负荷需求量、气负荷需求量、光伏发电功率、风力发电功率、电储能的荷电状态以及对应的调度时段;
所述动作值数据包括每一能源设备对应的出力;
所述奖励值数据包括满足设定的约束条件时的系统经济成本项和不满足设定的约束条件时的惩罚项。
作为其中一种优选方案,所述约束条件包括功率平衡约束、设备运行约束、爬坡约束和储能单元约束。
相比于现有技术,本发明实施例的有益效果在于以下所述中的至少一点:
(1)采用差分隐私能够保护客户端的原始数据隐私,确保个体数据不被泄露。联邦学习框架运用到强化学习MADDPG上,它运行不同的综合能源系统之间共享模型,促进之间的知识交流,但不会直接共享原始数据。
(2)在强化学习MADDPG算法中,每个智能体之间可收集其他智能体的信息来做出决策,以集中训练分散执行的方式快速求解综合能源系统模型不确定性的复杂问题。而且更是在联邦学习框架的基础上允许智能体在不共享原始数据的情况下进行模型更新,可以协作地学习全局模型,从而获得更好的性能,也增强了其泛化能力。
附图说明
图1是本发明其中一种实施例中的基于联邦强化学习的综合能源系统优化调度方法的流程示意图;
图2是本发明其中一种实施例中的基于联邦强化学习的综合能源系统优化调度方法的流程框图;
图3是本发明其中一种实施例中建立的单区域综合能源系统模型建构图;
图4是本发明其中一种实施例中的基于联邦强化学习的综合能源系统优化调度系统的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请描述中,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。本文所使用的术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”以及类似的表述只是为了说明的目的,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
在本申请的描述中,需要说明的是,除非另有定义,本发明所使用的所有的技术和科学术语与属于本的技术领域的技术人员通常理解的含义相同。本发明中说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明,对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
本发明一实施例提供了一种基于联邦强化学习的综合能源系统优化调度方法,具体的,请参见图1~图2,图1示出为本发明其中一种实施例中的基于联邦强化学习的综合能源系统优化调度方法的流程示意图,图2示出为本发明其中一种实施例中的基于联邦强化学习的综合能源系统优化调度方法的流程框图,基于联邦强化学习的综合能源系统优化调度方法具体包括步骤S1~S7:
S1、在配电网区域内划分若干个分布式智能体,各个所述分布式智能体用于表征对应区域内的综合能源系统;
S2、在强化学习过程中,分别设计每个所述分布式智能体对应的本地模型,并设计各个所述本地模型对应的状态空间、动作空间、惩罚项和奖励函数;
S3、根据神经网络学习技术,使用本地数据对各个所述本地模型进行训练,通过在当前的状态值数据训练得到各个所述本地模型对应的动作值数据和奖励值数据;
S4、基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理;
S5、根据所述状态值,进行Actor网络和Critic网络的训练得到动作值和奖励值数据,并将训练后的本地模型参数上传至联邦服务器,其中,所述联邦服务器用于协调各个所述分布式智能体的学习过程;
S6、所述联邦服务器基于联邦平均算法更新全局模型参数,并将更新后的所述全局模型参数下发至每一所述分布式智能体,以供对应的每一所述本地模型在下一轮训练中使用;
S7、在满足停止训练条件时,完成强化学习训练。
具体来说,为了克服多种能源资源、动态负载需求和高度动态的环境,首先,本发明收集综合能源系统的各种状态参数,这包括能源供给、需求情况、环境因素等。具体的,请参见图3,图3示出为本发明其中一种实施例中的建立的单区域综合能源系统模型建构图,每个分布式智能体代表一个能源子系统,将本地的状态参数传送到本地的Actor神经网络中,以选取适当的行动。基于选定的动作,系统更新下一时间步的状态参数。在此刻,进行约束条件的检查,以验证是否满足能源系统的要求。若满足约束条件则计算代价函数作为奖励值,若不满足则将惩罚函数作为奖励值。Actor和Critic神经网络从经验池中提取样本数据,包括当前时刻和下一时刻的状态参数、动作参数以及奖励值。这些数据用于反向传播算法,以调整神经网络的权重和参数。这个过程在分布式环境中进行,各个分布式智能体独立学习,并且不需要共享原始数据,而只是共享其模型参数。此外,环境中的动态变化会导致状态参数的变化,本发明通过将下一时刻的状态参数引入到当前时刻来更新环境参数。同时,在每个时间步检查回合是否结束,如果没有结束,智能体将继续选择动作以进行下一时刻的学习。
具体的,请参见如下步骤:
步骤1、初始化环境及全局服务器模型参数,具体包括:
步骤1-1、创建并初始化一个联邦服务器glabal_model,用于协调各个分布式智能体的学习和通信。
步骤1-2、定义多个智能体,将配电网分为N个区域,每个区域代表一个智能体,各区域含有本地热电联供机组、电锅炉、电转气设备、燃气锅炉、储能、光伏、风电和负荷。综合能源系统中的各种能源之间相互耦合,运行优化的首要目标是提升系统的经济效益,即在满足用户负荷需求的前提下,以最优经济运行为目标,有效地安排各设备在每个时间段出力。
步骤1-3、上传每个智能体环境下的训练数据,设计各自的状态空间、动作空间、惩罚项和奖励函数。强化学习地基本组成部分包括表征环境状态的集合S、智能体动作的动作集合A及对智能体的奖励R。在t时刻,环境向智能体提供状态,智能体基于自身的策略将状态/>映射得到动作/>。
在这其中,综合能源系统的状态集合包括用户电负荷需求量、热负荷、气负荷需求量、光伏和风力发电功率、电储能的荷电状态以及所处的调度时段。对于综合能源系统,其状态表示为:
在t时刻,综合能源系统的动作集合可由一些设备的出力大小来表示,由于设备出力可由效率公式得到,且等式约束也可减少动作的维度,则动作集合可表示为:
在t时刻的奖励R由两部分组成,一部分是满足约束时系统经济成本C的负数,和不满足约束所加入的惩罚项P。即其中/>为惩罚系数。
所述的基于联邦强化学习的综合能源系统优化调度方法,所描述的综合能源系统经济低碳优化模型的目标函数,将目标函数的负数作为其奖励值,设计如下:
式中,包括t时刻的配电网所划分的N个区域总成本,具体包含向主电网购售电成本、天然气网购气成本、系统的运维成本、购买碳配额成本。其函数如下:
(1)主电网电力交易成本表示为:
式中,为与主电网交易时的分时电价,/>为与主电网在t时刻的交互的电功率。
(2)天然气网购气成本表示为:
式中,为t时刻购买天然气的价格,/>为在t时刻向天然气网的购气量。
(3)系统的运维成本表示为:
式中,为t时刻设备i单位容量的运维成本,/>为t时刻设备i的功率。
(4)碳交易市场购买的碳配额成本表示为:
式中,为热电联产机组CHP碳交易的成本,/>为燃气锅炉GB碳交易成本,为电转气装置P2G碳交易成本。
将以下有关的综合能源系统经济低碳优化模型的不等式约束函数设定为惩罚项:
(1)功率平衡约束:在t时刻,综合能源系统模型的功率平衡约束可表示为:
式中,、/>、/>为t时刻的电负荷、热负荷、气负荷,/>、/>为t时刻的光伏发电和风力发电功率。对于热电联供机组,一般设定热电比,用k表示,即/>。
(2)设备运行约束
综合能源系统的每个设备均有运行的上下限约束,其热电联供机组、电锅炉、电转气设备、燃气锅炉的功率输出范围可表示为:
式中,,/>为热电联供机组耗气量的上下限;/>,/>为电转气设备输出功率的上下限;/>,/>为电锅炉输出功率的上下限;/>,/>为燃气锅炉输出功率上下限。
(3)爬坡约束
各类的爬坡约束可类似的表示为:
式中,,/>分别表示为设备的滑坡率和爬坡率。
(4)储能单元约束
对于充放能设备,还需要避免深度充放能对储能的损害,因此储能的荷电状态要求限定在一定范围内,可表示为:
式中,,/>分别为储能荷电状态上下限。
下一时刻的储能状态可表示为:
其中,,/>分别为t时刻的充能和放能,/>,/>分别对应各自的系数,其充放功率大小的上下限为:
式中,为放能最大值,/>为充能最大值。
步骤1-4、为智能体设定缓冲区,用于储存智能体本地训练数据以及其他智能体的状态信息。
在智能体训练过程中,经验池的数据可有效打断其数据间的相关性,更有益于模型的收敛。
步骤2、使用差分隐私噪声技术对智能体的本地模型参数进行保护和隐私处理。在本地智能体训练过程中,依靠储能充放电的动作作为隐私预算。在每个本地智能体的训练过程中,将本地的模型参数应用差分隐私机制(拉普拉斯机制)以实现参数的随机化。
步骤3、每个智能体训练的本地Actor网络和Critic网络。使用本地状态、动作和奖励值数据,进行Actor网络和Critic网络的训练。Actor网络的训练旨在最大化奖励值,以更好地选择动作。Critic网络的训练旨在减小奖励值与Critic网络估计的Q值之间的差距。训练后定期将各个智能体的本地模型参数上传至联邦服务器,在联邦服务器接收来自所有智能体的本地模型参数,在联邦服务器上执行参数联邦平均算法。联邦服务器更新全局模型的参数,其反映了所有智能体的共享知识。
步骤4、将更新后的全局模型下发到每一个智能体,返回步骤2继续本地训练,以供它们在下一轮本地训练中使用,满足停止要求后,完成训练。
具体的,请参见图4,图4示出为本发明其中一种实施例中的基于联邦强化学习的综合能源系统优化调度系统的流程示意图,基于联邦强化学习的综合能源系统优化调度系统包括处理器,所述处理器被配置为:
在配电网区域内划分若干个分布式智能体,各个所述分布式智能体用于表征对应区域内的综合能源系统;
在强化学习过程中,分别设计每个所述分布式智能体对应的本地模型,并设计各个所述本地模型对应的状态空间、动作空间、惩罚项和奖励函数;
根据神经网络学习技术,使用本地数据对各个所述本地模型进行训练,得到各个所述本地模型在当前一轮训练对应的状态值数据、动作值数据和奖励值数据;
基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理;
根据所述状态值、所述动作值和所述奖励值数据,进行Actor网络和Critic网络的训练,并将训练后的本地模型参数上传至联邦服务器,其中,所述联邦服务器用于协调各个所述分布式智能体的学习过程;
所述联邦服务器基于联邦平均算法更新全局模型参数,并将更新后的所述全局模型参数下发至每一所述分布式智能体,以供对应的每一所述本地模型在下一轮训练中使用;
在满足停止训练条件时,完成强化学习训练。
进一步地, 在上述实施例中,所述处理器还被配置为:
为每一所述分布式智能体设定缓冲区,所述缓冲区用于储存自身的本地模型对应的训练数据以及其他的本地模型对应的状态信息。
进一步地, 在上述实施例中,所述基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理,具体包括:
在每个所述分布式智能体的本地训练过程中,应用差分隐私保护机制对各个本地模型参数进行处理,以实现参数的随机化。
进一步地, 在上述实施例中,所述状态值数据包括电负荷需求量、热负荷需求量、气负荷需求量、光伏发电功率、风力发电功率、电储能的荷电状态以及对应的调度时段;
所述动作值数据包括每一能源设备对应的出力;
所述奖励值数据包括满足设定的约束条件时的系统经济成本项和不满足设定的约束条件时的惩罚项。
进一步地, 在上述实施例中,所述约束条件包括功率平衡约束、设备运行约束、爬坡约束和储能单元约束。
本发明实施例提供的基于联邦强化学习的综合能源系统优化调度方法及系统,有益效果在于以下所述中的至少一点:
(1)采用差分隐私能够保护客户端的原始数据隐私,确保个体数据不被泄露。联邦学习框架运用到强化学习MADDPG上,它运行不同的综合能源系统之间共享模型,促进之间的知识交流,但不会直接共享原始数据。
(2)在强化学习MADDPG算法中,每个智能体之间可收集其他智能体的信息来做出决策,以集中训练分散执行的方式快速求解综合能源系统模型不确定性的复杂问题。而且更是在联邦学习框架的基础上允许智能体在不共享原始数据的情况下进行模型更新,可以协作地学习全局模型,从而获得更好的性能,也增强了其泛化能力。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于联邦强化学习的综合能源系统优化调度方法,其特征在于,包括:
在配电网区域内划分若干个分布式智能体,各个所述分布式智能体用于表征对应区域内的综合能源系统;
在强化学习过程中,分别设计每个所述分布式智能体对应的本地模型,并设计各个所述本地模型对应的状态空间、动作空间、惩罚项和奖励函数;
根据神经网络学习技术,使用本地数据对各个所述本地模型进行训练,通过在当前的状态值数据训练得到各个所述本地模型对应的动作值数据和奖励值数据;
基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理;
根据所述状态值,进行Actor网络和Critic网络的训练得到动作值和奖励值数据,并将训练后的本地模型参数上传至联邦服务器,其中,所述联邦服务器用于协调各个所述分布式智能体的学习过程;
所述联邦服务器基于联邦平均算法更新全局模型参数,并将更新后的所述全局模型参数下发至每一所述分布式智能体,以供对应的每一所述本地模型在下一轮训练中使用;
在满足停止训练条件时,完成强化学习训练。
2.如权利要求1所述的基于联邦强化学习的综合能源系统优化调度方法,其特征在于,所述方法还包括:
为每一所述分布式智能体设定缓冲区,所述缓冲区用于储存自身的本地模型对应的训练数据以及其他的本地模型对应的动作信息。
3.如权利要求2所述的基于联邦强化学习的综合能源系统优化调度方法,其特征在于,所述基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理,具体包括:
在每个所述分布式智能体的本地训练过程中,应用差分隐私保护机制对各个本地模型参数进行处理,以实现参数的随机化。
4.如权利要求3所述的基于联邦强化学习的综合能源系统优化调度方法,其特征在于,所述状态值数据包括电负荷需求量、热负荷需求量、气负荷需求量、光伏发电功率、风力发电功率、电储能的荷电状态以及对应的调度时段;
所述动作值数据包括每一能源设备对应的出力;
所述奖励值数据包括满足设定的约束条件时的系统经济成本项和不满足设定的约束条件时的惩罚项。
5.如权利要求4所述的基于联邦强化学习的综合能源系统优化调度方法,其特征在于,所述约束条件包括功率平衡约束、设备运行约束、爬坡约束和储能单元约束。
6.一种基于联邦强化学习的综合能源系统优化调度系统,其特征在于,包括处理器,所述处理器被配置为:
在配电网区域内划分若干个分布式智能体,各个所述分布式智能体用于表征对应区域内的综合能源系统;
在强化学习过程中,分别设计每个所述分布式智能体对应的本地模型,并设计各个所述本地模型对应的状态空间、动作空间、惩罚项和奖励函数;
根据神经网络学习技术,使用本地数据对各个所述本地模型进行训练,通过在当前的状态值数据训练得到各个所述本地模型对应的动作值数据和奖励值数据;
基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理;
根据所述状态值,进行Actor网络和Critic网络的训练得到动作值和奖励值数据,并将训练后的本地模型参数上传至联邦服务器,其中,所述联邦服务器用于协调各个所述分布式智能体的学习过程;
所述联邦服务器基于联邦平均算法更新全局模型参数,并将更新后的所述全局模型参数下发至每一所述分布式智能体,以供对应的每一所述本地模型在下一轮训练中使用;
在满足停止训练条件时,完成强化学习训练。
7.如权利要求6所述的基于联邦强化学习的综合能源系统优化调度系统,其特征在于,所述处理器还被配置为:
为每一所述分布式智能体设定缓冲区,所述缓冲区用于储存自身的本地模型对应的训练数据以及其他的本地模型对应的动作信息。
8.如权利要求7所述的基于联邦强化学习的综合能源系统优化调度系统,其特征在于,所述基于差分隐私噪声技术对每个本地模型参数进行保护和隐私处理,具体包括:
在每个所述分布式智能体的本地训练过程中,应用差分隐私保护机制对各个本地模型参数进行处理,以实现参数的随机化。
9.如权利要求8所述的基于联邦强化学习的综合能源系统优化调度系统,其特征在于,所述状态值数据包括电负荷需求量、热负荷需求量、气负荷需求量、光伏发电功率、风力发电功率、电储能的荷电状态以及对应的调度时段;
所述动作值数据包括每一能源设备对应的出力;
所述奖励值数据包括满足设定的约束条件时的系统经济成本项和不满足设定的约束条件时的惩罚项。
10.如权利要求9所述的基于联邦强化学习的综合能源系统优化调度系统,其特征在于,所述约束条件包括功率平衡约束、设备运行约束、爬坡约束和储能单元约束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311412348.7A CN117151308A (zh) | 2023-10-30 | 2023-10-30 | 基于联邦强化学习的综合能源系统优化调度方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311412348.7A CN117151308A (zh) | 2023-10-30 | 2023-10-30 | 基于联邦强化学习的综合能源系统优化调度方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117151308A true CN117151308A (zh) | 2023-12-01 |
Family
ID=88884700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311412348.7A Pending CN117151308A (zh) | 2023-10-30 | 2023-10-30 | 基于联邦强化学习的综合能源系统优化调度方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117151308A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350410A (zh) * | 2023-12-06 | 2024-01-05 | 中国科学院电工研究所 | 基于多智能体联邦强化学习的微网群协同运行优化方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091879A (zh) * | 2021-11-15 | 2022-02-25 | 浙江华云电力工程设计咨询有限公司 | 基于深度强化学习的多园区能源调度方法和系统 |
CN114285075A (zh) * | 2021-12-22 | 2022-04-05 | 浙江工业大学 | 一种基于分布式深度强化学习的微电网能量在线优化方法 |
CN115983598A (zh) * | 2023-01-16 | 2023-04-18 | 浙江大学 | 基于分布式深度强化学习的微网隐私保护与能量调度方法 |
CN116054285A (zh) * | 2022-12-30 | 2023-05-02 | 国网湖北省电力有限公司经济技术研究院 | 一种基于联邦强化学习算法的输配调频资源协同控制方法 |
-
2023
- 2023-10-30 CN CN202311412348.7A patent/CN117151308A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114091879A (zh) * | 2021-11-15 | 2022-02-25 | 浙江华云电力工程设计咨询有限公司 | 基于深度强化学习的多园区能源调度方法和系统 |
CN114285075A (zh) * | 2021-12-22 | 2022-04-05 | 浙江工业大学 | 一种基于分布式深度强化学习的微电网能量在线优化方法 |
CN116054285A (zh) * | 2022-12-30 | 2023-05-02 | 国网湖北省电力有限公司经济技术研究院 | 一种基于联邦强化学习算法的输配调频资源协同控制方法 |
CN115983598A (zh) * | 2023-01-16 | 2023-04-18 | 浙江大学 | 基于分布式深度强化学习的微网隐私保护与能量调度方法 |
Non-Patent Citations (1)
Title |
---|
蒋杰等: "《腾讯大数据构建之道》", 30 April 2022, pages: 336 - 339 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350410A (zh) * | 2023-12-06 | 2024-01-05 | 中国科学院电工研究所 | 基于多智能体联邦强化学习的微网群协同运行优化方法 |
CN117350410B (zh) * | 2023-12-06 | 2024-02-20 | 中国科学院电工研究所 | 基于多智能体联邦强化学习的微网群协同运行优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zeng et al. | A potential game approach to distributed operational optimization for microgrid energy management with renewable energy and demand response | |
CN112529256B (zh) | 考虑多重不确定性的分布式电源集群日前调度方法和系统 | |
CN111242443B (zh) | 基于深度强化学习的能源互联网中虚拟电厂经济调度方法 | |
CN108347062A (zh) | 基于势博弈的微电网能量管理分布式多目标协同优化算法 | |
CN111682536B (zh) | 虚拟电厂参与日前双重市场的随机-鲁棒优化运行方法 | |
CN107634547B (zh) | 基于新能源出力预测误差的电气联合系统出电控制方法 | |
CN112036934A (zh) | 考虑热电协调运行的负荷聚合商参与需求响应的报价方法 | |
CN109884888B (zh) | 一种基于非合作博弈的多楼宇微网模型预测调控方法 | |
CN112068436B (zh) | 工业园区的综合能源系统分层分布式控制方法及系统 | |
CN111799822B (zh) | 一种基于虚拟储能的综合能源系统用能协调控制方法 | |
CN117151308A (zh) | 基于联邦强化学习的综合能源系统优化调度方法及系统 | |
CN114648165B (zh) | 一种基于多智能体博弈的多热源供热系统优化调度方法 | |
CN116451880B (zh) | 一种基于混合学习的分布式能源优化调度方法及装置 | |
Mohammadi et al. | A multi-objective fuzzy optimization model for electricity generation and consumption management in a micro smart grid | |
CN112202206A (zh) | 一种基于势博弈的多能源微网分布式调度方法 | |
CN115907232B (zh) | 区域综合能源系统集群协同优化方法、系统、设备及介质 | |
Wang et al. | Electric vehicle charging scheduling strategy for supporting load flattening under uncertain electric vehicle departures | |
CN115147245A (zh) | 一种工业负荷参与调峰辅助服务的虚拟电厂优化调度方法 | |
CN114204549B (zh) | 一种考虑储能共享的风光储集群联合优化运行的方法 | |
CN116432862A (zh) | 一种面向可再生能源微电网的多主体博弈优化方法及装置 | |
CN114417695A (zh) | 多园区综合能源系统经济调度方法 | |
CN107579545B (zh) | 基于改进径向移动算法的含风电场电力系统经济调度方法 | |
CN117829538A (zh) | 一种考虑欺诈博弈和多场景的能源枢纽网系统的优化方法 | |
CN115983598A (zh) | 基于分布式深度强化学习的微网隐私保护与能量调度方法 | |
CN114462727B (zh) | 基于多主体联合的新能源系统能源优化调度方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |