CN116681269B - 一种电网交互型高效居民建筑智能协同运行优化方法 - Google Patents
一种电网交互型高效居民建筑智能协同运行优化方法 Download PDFInfo
- Publication number
- CN116681269B CN116681269B CN202310968502.2A CN202310968502A CN116681269B CN 116681269 B CN116681269 B CN 116681269B CN 202310968502 A CN202310968502 A CN 202310968502A CN 116681269 B CN116681269 B CN 116681269B
- Authority
- CN
- China
- Prior art keywords
- residential building
- time slot
- network
- building
- slave
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000005457 optimization Methods 0.000 title claims abstract description 33
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 29
- 230000002787 reinforcement Effects 0.000 claims abstract description 7
- 239000003795 chemical substances by application Substances 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 40
- 238000004146 energy storage Methods 0.000 claims description 39
- 230000000875 corresponding effect Effects 0.000 claims description 36
- 230000009471 action Effects 0.000 claims description 30
- 230000007613 environmental effect Effects 0.000 claims description 30
- 238000004378 air conditioning Methods 0.000 claims description 16
- 230000009977 dual effect Effects 0.000 claims description 16
- 238000010438 heat treatment Methods 0.000 claims description 16
- 238000009423 ventilation Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 13
- 210000002569 neuron Anatomy 0.000 claims description 12
- 230000014509 gene expression Effects 0.000 claims description 9
- 238000007599 discharging Methods 0.000 claims description 6
- 238000005265 energy consumption Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 229910052799 carbon Inorganic materials 0.000 claims description 4
- 230000005611 electricity Effects 0.000 claims description 4
- 101150023527 actA gene Proteins 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 101150030499 lnt gene Proteins 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06313—Resource planning in a project environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Water Supply & Treatment (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种电网交互型高效居民建筑智能协同运行优化方法,包括以下步骤:在满足用户热舒适性和电网服务需求的前提下,建立居民建筑群运行成本最小化问题,并将其分解为一个主问题和多个从问题;将每个从问题建模为马尔可夫决策过程;利用深度强化学习算法对每个马尔可夫决策过程相关的智能体进行训练;将训练得到的智能体策略作为从问题的求解器;在交替方向乘子法框架下迭代求解从问题和主问题;迭代结束后,将从问题的解作为运行决策进行部署。与现有基于学习的方法相比,本发明方法支持分布式训练和分布式执行协同,具有更高的可扩展性、更强的建筑能源隐私信息保护能力、更优质的电网服务提供能力和更大的运行成本节省潜力。
Description
技术领域
本发明涉及一种电网交互型高效居民建筑智能协同运行优化方法,属于居民建筑协同运行与人工智能交叉技术领域。
背景技术
当前电网面临多方面的压力,如不断增长的电力需求、不断增加的新能源占比、有限的输配电容量等。为了缓解电网压力,一种有前景的方法是将建筑纳入到电网运行和规划中。建筑作为一个国家的电力消耗大户,其占比高达40%-70%。而且,建筑负荷需求具有非常高的灵活性。在上述背景下,电网交互型高效建筑的概念被提出,它旨在利用智能技术和建筑内部的分布式能量资源提供需求灵活性,进而实现建筑能量成本、用户舒适性和电网服务的联合优化。通过参与电网服务,电网交互型高效建筑可帮助电网提升可靠性、电能质量、分布式能源资源的占比,降低输配电成本、碳排放等。而且,建筑拥有者通过获得电网给予的经济补偿降低能量成本。因此,非常有必要设计智能的协同策略优化电网交互型高效建筑的运行。
现有关于电网交互型高效建筑的运行方法大致可分为两类:基于模型的运行方法和基于学习的运行方法。前者需要知晓明确的建筑热动态性模型,而后者对建筑热动态性模型的形式无任何要求。基于模型的运行方法主要包括主对偶算法、基于凸优化的算法、分布式模型预测控制及分布式滑模控制等。基于学习的运行方法主要基于多智能体软行动者评论家算法、零阶梯度估计策略优化算法、确定性策略梯度算法等。虽然上述基于学习的运行方法取得了一定的效果,但它们均未考虑多个居民建筑协同运行提供电网发电容量服务并联合优化各自的能量成本和用户舒适性。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种电网交互型高效居民建筑智能协同运行优化方法,能够在于在满足用户热舒适性和电网服务需求的前提下,最小化大规模居民建筑运行成本。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种电网交互型高效居民建筑智能协同运行优化方法,包括如下步骤:
在满足室内温度和空气质量在目标范围和电网服务需求的前提下,建立居民建筑群的协同运行成本最小化问题;
采用交替方向乘子法框架将协同运行成本最小化问题分解为一个主问题和多个从问题;
对主问题和多个从问题进行迭代求解,获取主问题和多个从问题的最终求解结果;
将多个从问题的最终求解结果作为运行决策部署到电网交互型高效居民建筑群的运行环境中;
其中,所述主问题的求解包括:采用凸优化理论对主问题进行求解,获取主问题的闭式解;
所述从问题的求解包括:将每个从问题重新建模为马尔可夫决策过程,并构建每个马尔可夫决策过程相关的智能体;采用深度强化学习算法对每个马尔可夫决策过程相关的智能体进行训练;通过每个训练好的智能体策略对相应的从问题进行求解,获取每个从问题的策略解。
可选的,所述协同运行成本最小化问题包括决策变量、约束条件以及目标函数;
所述决策变量包括居民建筑i在时隙t的储能系统充/放电功率fi,t,居民建筑i的暖通空调系统在时隙t的输入功率ei,t;
所述约束条件包括:
式中,Ti,t为居民建筑i在时隙t的室内温度,和/>分别为居民建筑i目标范围的最低室内温度与最高室内温度;/>为居民建筑i的暖通空调系统的额定功率;/>为居民建筑的热动态性模型,Ti,t+1为居民建筑i在时隙t+1的室内温度,/>为在时隙t的室外温度,ωi,t为居民建筑i在时隙t的热扰动;Bi,t为居民建筑i在时隙t的储能系统能级,和/>为居民建筑i的储能系统最低能级和最高能级;当fi,t<0时,fi,t=di,t,ci,t=0,fi,t为居民建筑i在时隙t的储能系统放电功率;当fi,t≥0时,fi,t=ci,t,di,t=0,fi,t为居民建筑i在时隙t的储能系统充电功率;ci,t为居民建筑i在时隙t的充电功率、di,t为居民建筑i在时隙t的放电功率、ηi,c为居民建筑i的储能系统充电效率,ηi,d为居民建筑i的储能系统放电效率,/>为居民建筑i的储能系统最大放电功率,/>为居民建筑i的储能系统最大充电功率;pi,t为居民建筑i在时隙t的可再生能源的发电输出;bi,t为居民建筑i在时隙t的固定负载需求,/>为所有居民建筑在时隙t协同提供电网服务需求所需满足的功率需求上限;N为居民建筑的数量;
所述目标函数为:
式中,为期望运算符,T为时隙总数,Φi,t为居民建筑i在时隙t的运行成本。
可选的,所述主问题表达式为:
每个所述从问题对应一个居民建筑,对于居民建筑i,其从问题表达式为:
式中,ρ>0为正常数,ze,i,t为与ei,t相关的辅助变量,zf,i,t为与fi,t相关的辅助变量,ye,i,t为与辅助约束ze,i,t=ei,t相关的对偶变量,yf,i,t为与辅助约束zf,i,t=fi,t相关的对偶变量。
可选的,所述采用凸优化理论对主问题进行求解包括:
判断下式是否成立:
若成立,则主问题的闭式解为:
ze,i,t=ei,t+ye,i,t
zf,i,t=fi,t+yf,i,t
若不成立,则主问题的闭式解为:
可选的,所述马尔可夫决策过程中环境状态、动作、奖励函数的表达式为:
ai,t=(ei,t,fi,t)
ri,t+1=-βiC1,i,t(si,t,ai,t)-C2,i,t(si,t)-ζiC3,i,t(si,t,ai,t)
式中,si,t、ai,t、ri,t+1分别为与居民建筑i相关的智能体在时隙t的环境状态、动作和奖励函数;vt为时隙t的购电电价,t′为时隙t的当前绝对时间在一天内的相对时间序号,ze,i,t-ye,i,t和zf,i,t-yf,i,t分别为与ei,t和fi,t相关的辅助变量与对偶变量差值;C1,i,t为居民建筑i在时隙t与暖通空调系统能耗和储能系统折损相关的惩罚成本,C2,i,t为居民建筑i在时隙t与室内温度偏离相关的惩罚成本,C3,i,t为在时隙t居民建筑i对应的从问题中二次型惩罚项相关的惩罚成本;βi为居民建筑i的暖通空调系统能耗和储能系统折损导致的惩罚成本相对于室内温度偏离导致的惩罚成本的重要性系数,ζi为在时隙t居民建筑i对应的从问题中二次型惩罚项相对于室内温度偏离惩罚成本的重要性系数。
可选的,所述智能体包括行动者网络、目标行动者网络、评论家网络、目标评论家网络;所述行动者网络和目标行动者网络的结构相同,所述评论家网络和目标评论家网络的结构相同;
所述行动者网络输入为环境状态,输出高斯分布均值和协方差矩阵乔列斯基分解得到的下三角矩阵所有元素;所述行动者网络包括一个输入层、多个隐藏层和一个输出层;所述行动者网络的输入层的神经元个数与环境状态的分量数目相同,所述行动者网络的输出层的神经元个数为na+na(na+1)/2,na表示动作ai,t的分量数目;
所述评论家网络输入为环境状态和相应的动作,输出为Q值函数,所述Q值函数为智能体在环境状态下采取相应的动作后的累积折扣奖励期望值;所述评论家网络包括两个输入层、多个隐藏层和一个输出层,所述评论家网络的两个输入层的神经元个数分别与环境状态和相应的动作的分量数目相同,所述评论家网络的输出层的神经元个数为1。
可选的,所述采用深度强化学习算法对每个马尔可夫决策过程相关的智能体进行训练包括:
针对居民建筑i对应的马尔可夫决策过程相关的智能体,初始化电网交互型高效居民建筑的运行环境、时隙t=1,重复执行预设的训练迭代步骤直至t>WT,W为预设的训练片段数;
所述训练迭代步骤包括:
获取居民建筑i相关的智能体在时隙t的环境状态si,t;
基于环境状态si,t,居民建筑i相关的智能体输出动作ai,t;
将动作ai,t应用于电网交互型高效居民建筑的运行环境得到时隙t+1的环境状态si,t+1和时隙t的奖励函数ri,t+1;
将构建四元组(si,t,ai,t,ri,t+1,si,t+1)存储到经验池Di中,并令t=t+1;
若t/K=0,K为预设常数,则从经验池Di中提取小批量四元组作为训练样本,利用最大后验策略优化算法对居民建筑i相关的智能体的行动者网络和评论家网络进行训练。
可选的,所述智能体中评论家网络通过最小化损失函数进行更新,所述最小化损失函数为:
式中,θi、θi ′为居民建筑i相关的智能体中评论家网络和目标评论家网络的参数,J为评论家网络对应的训练样本的数量,训练样本j为 为参数θi、θi ′下的状态动作值函数,γ为折扣系数,πi,old为居民建筑i相关的智能体中目标行动者网络输出对应的策略,a表示根据策略πi,old采取的动作;
所述目标评论家网络的参数更新为:
式中,为取值在0到1范围内的常数。
可选的,所述智能体中行动者网络的更新包括:
初始化居民建筑i相关的智能体中目标行动者网络输出对应的策略Φi为居民建筑i相关的智能体中行动者网络的参数,重复执行预设的更新迭代步骤直至更新迭代次数u>U,U为预设的更新迭代最大次数;
所述更新迭代步骤包括:
居民建筑i相关的智能体从经验池Di抽取L个训练样本,训练样本l为
获得非参数化策略:
式中,am为环境状态根据策略/>采取的动作m,1≤m≤M,M为环境状态/>根据策略πi,Φ ' 采取的动作的数量;exp为指数函数;Φi '为居民建筑i相关的智能体中目标行动者网络的参数;
为熵减少限制系数,η为中间变量;
更新参数化策略:
构建数据集基于构建的数据集获取更新后的参数化策略:
式中,πi,new为居民建筑i相关的智能体更新后的参数化策略,κπ为限制参数化策略变化的系数,KL为KL散度函数,为拉格朗日系数;
所述目标行动者网络的参数更新为:
式中,为取值在0到1范围内的常数。
可选的,所述对主问题和多个从问题进行迭代求解包括:
初始化时隙t=1,重复执行预设的测试迭代步骤直至t>HT,H为预设的测试片段数;
所述测试迭代步骤包括:
初始化迭代步数k=0、辅助变量对偶变量/>环境状态/>重复执行预设的交替方向乘子法框架迭代步骤直至k>K,K为预设的交替方向乘子法最大迭代步数;
所述交替方向乘子法框架迭代步骤包括:
利用训练好的智能体策略根据输入的环境状态输出动作/>
将动作带入主问题,采用凸优化理论对主问题进行求解,获取辅助变量/>
根据动作和辅助变量/>计算对偶变量:
判断是否成立,ε为预设阈值:
若成立,则将动作作为居民建筑i在时隙t对应从问题的最终求解结果,辅助变量/>作为居民建筑i在时隙t对应主问题的最终求解结果;令t=t+1,并重置测试迭代步骤;
若不成立,则根据辅助变量和对偶变量/>更新环境状态生成环境状态/>令k=k+1。
与现有技术相比,本发明所达到的有益效果:
本发明提供的一种电网交互型高效居民建筑智能协同运行优化方法,采用交替方向乘子法将上述运行成本最小化问题分解成主问题和从问题,其中主问题可采用凸优化理论直接求解,从问题为与每个居民建筑相关的运行优化问题,可采用深度强化学习算法进行求解;通过在交替方向乘子法框架下交替求解从问题和主问题,最终得到原始运行优化问题的解;该发明方法无需预测任何不确定性参数、无需知晓明确的建筑热动态特性模型、具有低计算复杂度、可保护每个建筑能源隐私信息、具有高可扩展性、运行成本节省潜力大等优势。
附图说明
图1是本发明实施例一提供的电网交互型居民建筑智能协同运行优化方法流程图。
图2是本发明实施例一提供的多种方案的平均每个居民建筑运行成本对比图。
图3是本发明实施例一提供的多种方案的平均温度偏离对比图。
图4是本发明实施例一提供的多种方案的电网发电类型服务需求的功率限制偏离对比图。
图5是本发明实施例一提供的多种方案的提供电网服务细节图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,本发明实施例提供了一种电网交互型高效居民建筑智能协同运行优化方法,包括如下步骤:
S1、在满足室内温度和空气质量在目标范围和电网服务需求的前提下,建立居民建筑群的协同运行成本最小化问题。
协同运行成本最小化问题包括决策变量、约束条件以及目标函数:
(1)决策变量包括居民建筑i在时隙t的储能系统充/放电功率fi,t,居民建筑i的暖通空调系统在时隙t的输入功率ei,t。
(2)约束条件包括:
式中,Ti,t为居民建筑i在时隙t的室内温度,和/>分别为居民建筑i目标范围的最低室内温度与最高室内温度;/>为居民建筑i的暖通空调系统的额定功率;/>为居民建筑的热动态性模型,Ti,t+1为居民建筑i在时隙t+1的室内温度,/>为在时隙t的室外温度,ωi,t为居民建筑i在时隙t的热扰动;Bi,t为居民建筑i在时隙t的储能系统能级,和/>为居民建筑i的储能系统最低能级和最高能级;当fi,t<0时,fi,t=di,t,ci,t=0,fi,t为居民建筑i在时隙t的储能系统放电功率;当fi,t≥0时,fi,t=ci,t,di,t=0,fi,t为居民建筑i在时隙t的储能系统充电功率;ci,t为居民建筑i在时隙t的充电功率、di,t为居民建筑i在时隙t的放电功率、ηi,c为居民建筑i的储能系统充电效率,ηi,d为居民建筑i的储能系统放电效率,/>为居民建筑i的储能系统最大放电功率,/>为居民建筑i的储能系统最大充电功率;pi,t为居民建筑i在时隙t的可再生能源的发电输出;bi,t为居民建筑i在时隙t的固定负载需求,/>为所有居民建筑在时隙t协同提供电网服务需求所需满足的功率需求上限;N为居民建筑的数量;
式中,χ为居民建筑为电网提供发电类型服务的时间段,λ为取值在0到1范围内的常数。
(3)目标函数为:
式中,为期望运算符,T为时隙总数,Φi,t为居民建筑i在时隙t的运行成本。
S2、采用交替方向乘子法框架将协同运行成本最小化问题分解为一个主问题和多个从问题;
(1)主问题表达式为:
(2)每个从问题对应一个居民建筑,对于居民建筑i,其从问题表达式为:
式中,ρ>0为正常数,ze,i,t为与ei,t相关的辅助变量,zf,i,t为与fi,t相关的辅助变量,ye,i,t为与辅助约束ze,i,t=ei,t相关的对偶变量,yf,i,t为与辅助约束zf,i,t=fi,t相关的对偶变量。
S3、对主问题和多个从问题进行迭代求解,获取主问题和多个从问题的最终求解结果;
主问题的求解包括:采用凸优化理论对主问题进行求解,获取主问题的闭式解;具体的,采用凸优化理论对主问题进行求解包括:
判断下式是否成立:
若成立,则主问题的闭式解为:
ze,i,t=ei,t+ye,i,t
zf,i,t=fi,t+yf,i,t
若不成立,则主问题的闭式解为:
从问题的求解包括:
A、将每个从问题重新建模为马尔可夫决策过程,并构建每个马尔可夫决策过程相关的智能体;
A.1、马尔可夫决策过程中环境状态、动作、奖励函数的表达式为:
ai,t=(ei,t,fi,t)
ri,t+1=-βiC1,i,t(si,t,ai,t)-C2,i,t(si,t)-ζiC3,i,t(si,t,ai,t)
式中,si,t、ai,t、ri,t+1分别为与居民建筑i相关的智能体在时隙t的环境状态、动作和奖励函数;vt为时隙t的购电电价,t′为时隙t的当前绝对时间在一天内的相对时间序号,ze,i,t-ye,i,t和zf,i,t-yf,i,t分别为与ei,t和fi,t相关的辅助变量与对偶变量差值;C1,i,t为居民建筑i在时隙t与暖通空调系统能耗和储能系统折损相关的惩罚成本,C2,i,t为居民建筑i在时隙t与室内温度偏离相关的惩罚成本,C3,i,t为在时隙t居民建筑i对应的从问题中二次型惩罚项相关的惩罚成本;βi为居民建筑i的暖通空调系统能耗和储能系统折损导致的惩罚成本相对于室内温度偏离导致的惩罚成本的重要性系数,ζi为在时隙t居民建筑i对应的从问题中二次型惩罚项相对于室内温度偏离惩罚成本的重要性系数;
式中,ut为时隙t的售电电价,ψ为储能系统的折旧成本;gi,t=(bi,t+ei,t+fi,t-pi,t)表示从电网买电功率(实施例中假定每个时隙的长度为1个小时,因此功率等价于能量),[·]+表示对大括号内的值取正(小于0则为0,大于等于0则值不变);
A.2、智能体包括行动者网络、目标行动者网络、评论家网络、目标评论家网络;行动者网络和目标行动者网络的结构相同,评论家网络和目标评论家网络的结构相同;
行动者网络输入为环境状态,输出高斯分布均值和协方差矩阵乔列斯基分解得到的下三角矩阵所有元素;行动者网络包括一个输入层、多个隐藏层和一个输出层;行动者网络的输入层的神经元个数与环境状态的分量数目相同,行动者网络的输出层的神经元个数为na+na(na+1)/2,na表示动作ai,t的分量数目;
评论家网络输入为环境状态和相应的动作,输出为Q值函数,Q值函数为智能体在环境状态下采取相应的动作后的累积折扣奖励期望值;评论家网络包括两个输入层、多个隐藏层和一个输出层,评论家网络的两个输入层的神经元个数分别与环境状态和相应的动作的分量数目相同,评论家网络的输出层的神经元个数为1。
B、采用深度强化学习算法对每个马尔可夫决策过程相关的智能体进行训练;具体包括:
B.1、针对居民建筑i对应的马尔可夫决策过程相关的智能体,初始化电网交互型高效居民建筑的运行环境、时隙t=1,重复执行预设的训练迭代步骤直至t>WT,W为预设的训练片段数;
训练迭代步骤包括:
获取居民建筑i相关的智能体在时隙t的环境状态si,t;
基于环境状态si,t,居民建筑i相关的智能体输出动作ai,t;
将动作ai,t应用于电网交互型高效居民建筑的运行环境得到时隙t+1的环境状态si,t+1和时隙t的奖励函数ri,t+1;
将构建四元组(si,t,ai,t,ri,t+1,si,t+1)存储到经验池Di中,并令t=t+1;
若t/K=0,K为预设常数,则从经验池Di中提取小批量四元组作为训练样本,利用最大后验策略优化算法对居民建筑i相关的智能体的行动者网络和评论家网络进行训练。
B.2、智能体中评论家网络通过最小化损失函数进行更新,最小化损失函数为:
式中,θi、θ′i为居民建筑i相关的智能体中评论家网络和目标评论家网络的参数,J为评论家网络对应的训练样本的数量,训练样本j为 为参数θi、θ′i下的状态动作值函数,γ为折扣系数,πi,old为居民建筑i相关的智能体中目标行动者网络输出对应的策略,a表示根据策略πi,old采取的动作;
目标评论家网络的参数更新为:
式中,为取值在0到1范围内的常数。
B.3、智能体中行动者网络的更新包括:
初始化居民建筑i相关的智能体中目标行动者网络输出对应的策略Φi为居民建筑i相关的智能体中行动者网络的参数,重复执行预设的更新迭代步骤直至更新迭代次数u>U,U为预设的更新迭代最大次数;
更新迭代步骤包括:
居民建筑i相关的智能体从经验池Di抽取L个训练样本,训练样本l为
获得非参数化策略:
式中,am为环境状态根据策略/>采取的动作m,1≤m≤M,M为环境状态/>根据策略πi,Φ ' 采取的动作的数量;exp为指数函数;Φi '为居民建筑i相关的智能体中目标行动者网络的参数;
为熵减少限制系数,η为中间变量;
更新参数化策略:
构建数据集基于构建的数据集获取更新后的参数化策略:
式中,πi,new为居民建筑i相关的智能体更新后的参数化策略,κπ为限制参数化策略变化的系数,KL为KL散度函数,为拉格朗日系数;
目标行动者网络的参数更新为:
式中,为取值在0到1范围内的常数。
C、通过每个训练好的智能体策略对相应的从问题进行求解,获取每个从问题的策略解,具体包括:
初始化时隙t=1,重复执行预设的测试迭代步骤直至t>HT,H为预设的测试片段数;
测试迭代步骤包括:
初始化迭代步数k=0、辅助变量对偶变量/>环境状态/>重复执行预设的交替方向乘子法框架迭代步骤直至k>K,K为预设的交替方向乘子法最大迭代步数;
交替方向乘子法框架迭代步骤包括:
利用训练好的智能体策略根据输入的环境状态输出动作/>
将动作带入主问题,采用凸优化理论对主问题进行求解,获取辅助变量/>
根据动作和辅助变量/>计算对偶变量:
判断是否成立,ε为预设阈值:
若成立,则将动作作为居民建筑i在时隙t对应从问题的最终求解结果,辅助变量/>作为居民建筑i在时隙t对应主问题的最终求解结果;令t=t+1,并重置测试迭代步骤;
若不成立,则根据辅助变量和对偶变量/>更新环境状态/>生成环境状态/>令k=k+1。
S4、将多个从问题的最终求解结果作为运行决策部署到电网交互型高效居民建筑群的运行环境中。
为了展示本发明所提方法的有效性,引入四组对比方案。方案B1采用传统的开/关方式对居民建筑暖通空调系统和储能系统进行控制。以制冷模式为例,当室内温度高于舒适温度带上限时,暖通空调系统的输入功率设置为最大;当室内温度低于舒适温度带下限时,关闭暖通空调系统;其他时候下的暖通空调系统保持原输入功率。当可再生能源产出量超出消耗量时,优先将多余的能源存入储能系统,若储能系统已满,则将剩余的电能卖给大电网。当消耗量超出可再生能源产出量时,储能系统放电。若储能系统已空,则直接从电网买入。方案B2表示采用基于多智能体深度确定性策略梯度算法得到的运行方法,方案B3表示采用多智能体近端策略优化算法得到的运行方法。方案B4采取与本专利相同的方法,但在测试阶段不进行协同,即不提供电网服务。方案Proposed为本专利方法。在本实施例中,居民建筑数N=10,总时隙数T=480。
不同方案的性能比较如图2、图3、图4所示。可以观察到,B1的性能最差。与方案B1相比,所提出的算法可分别降低运行成本,温度偏移,电网服务需求限制偏移10.47%、81.45%和81.79%。此外,当温度偏移小于0.08时,所提出的算法可以实现比方案B2和方案B3更低的运行成本和电网服务需求偏移。具体而言,与方案B2相比,所提出的方法可分别降低运行成本4.71%和电网服务需求限制偏移65.06%。与方案B3相比,所提出的方法可分别降低运行成本5.13%和电网服务需求限制偏移74.5%。通过比较方案B4和所提方法可知,所提方法能在牺牲较小平均温度偏离和平均能量成本的同时显著降低电网服务需求限制偏移,这表明本发明方法可通过执行协同实现更好地提供电网服务。
图5是本发明方法实施例和其他方案提供电网服务细节图。相比于方案B1、方案B2和方案B3,所提出的方法能更好地满足电网服务需求。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (7)
1.一种电网交互型高效居民建筑智能协同运行优化方法,其特征在于,包括如下步骤:
在满足室内温度和空气质量在目标范围和电网服务需求的前提下,建立居民建筑群的协同运行成本最小化问题;
采用交替方向乘子法框架将协同运行成本最小化问题分解为一个主问题和多个从问题;
对主问题和多个从问题进行迭代求解,获取主问题和多个从问题的最终求解结果;
将多个从问题的最终求解结果作为运行决策部署到电网交互型高效居民建筑群的运行环境中;
其中,所述主问题的求解包括:采用凸优化理论对主问题进行求解,获取主问题的闭式解;
所述从问题的求解包括:将每个从问题重新建模为马尔可夫决策过程,并构建每个马尔可夫决策过程相关的智能体;采用深度强化学习算法对每个马尔可夫决策过程相关的智能体进行训练;通过每个训练好的智能体策略对相应的从问题进行求解,获取每个从问题的策略解;
其中,所述协同运行成本最小化问题包括决策变量、约束条件以及目标函数;
所述决策变量包括居民建筑i在时隙t的储能系统充/放电功率fi,t,居民建筑i的暖通空调系统在时隙t的输入功率ei,t;
所述约束条件包括:
式中,Ti,t为居民建筑i在时隙t的室内温度,Ti min和Ti max分别为居民建筑i目标范围的最低室内温度与最高室内温度;为居民建筑i的暖通空调系统的额定功率;/>为居民建筑的热动态性模型,Ti,t+1为居民建筑i在时隙t+1的室内温度,/>为在时隙t的室外温度,ωi,t为居民建筑i在时隙t的热扰动;Bi,t为居民建筑i在时隙t的储能系统能级,/>和为居民建筑i的储能系统最低能级和最高能级;当fi,t<0时,fi,t=di,t,ci,t=0,fi,t为居民建筑i在时隙t的储能系统放电功率;当fi,t≥0时,fi,t=ci,t,di,t=0,fi,t为居民建筑i在时隙t的储能系统充电功率;ci,t为居民建筑i在时隙t的充电功率、di,t为居民建筑i在时隙t的放电功率、ηi,c为居民建筑i的储能系统充电效率,ηi,d为居民建筑i的储能系统放电效率,/>为居民建筑i的储能系统最大放电功率,/>为居民建筑i的储能系统最大充电功率;pi,t为居民建筑i在时隙t的可再生能源的发电输出;bi,t为居民建筑i在时隙t的固定负载需求,/>为所有居民建筑在时隙t协同提供电网服务需求所需满足的功率需求上限;N为居民建筑的数量;
所述目标函数为:
式中,为期望运算符,T为时隙总数,Φi,t为居民建筑i在时隙t的运行成本;
其中,所述主问题表达式为:
每个所述从问题对应一个居民建筑,对于居民建筑i,其从问题表达式为:
式中,ρ>0为正常数,ze,i,t为与ei,t相关的辅助变量,zf,i,t为与fi,t相关的辅助变量,ye,i,t为与辅助约束ze,i,t=ei,t相关的对偶变量,yf,i,t为与辅助约束zf,i,t=fi,t相关的对偶变量;
其中,所述采用凸优化理论对主问题进行求解包括:
判断下式是否成立:
若成立,则主问题的闭式解为:
ze,i,t=ei,t+ye,i,t
zf,i,t=fi,t+yf,i,t
若不成立,则主问题的闭式解为:
2.根据权利要求1所述的电网交互型高效居民建筑智能协同运行优化方法,其特征在于,所述马尔可夫决策过程中环境状态、动作、奖励函数的表达式为:
ai,t=(ei,t,fi,t)
ri,t+1=-βiC1,i,t(si,t,ai,t)-C2,i,t(si,t)-ζiC3,i,t(si,t,ai,t)
式中,si,t、ai,t、ri,t+1分别为与居民建筑i相关的智能体在时隙t的环境状态、动作和奖励函数;vt为时隙t的购电电价,t′为时隙t的当前绝对时间在一天内的相对时间序号,ze,i,t-ye,i,t和zf,i,t-yf,i,t分别为与ei,t和fi,t相关的辅助变量与对偶变量差值;C1,i,t为居民建筑i在时隙t与暖通空调系统能耗和储能系统折损相关的惩罚成本,C2,i,t为居民建筑i在时隙t与室内温度偏离相关的惩罚成本,C3,i,t为在时隙t居民建筑i对应的从问题中二次型惩罚项相关的惩罚成本;βi为居民建筑i的暖通空调系统能耗和储能系统折损导致的惩罚成本相对于室内温度偏离导致的惩罚成本的重要性系数,ζi为在时隙t居民建筑i对应的从问题中二次型惩罚项相对于室内温度偏离惩罚成本的重要性系数。
3.根据权利要求2所述的电网交互型高效居民建筑智能协同运行优化方法,其特征在于,所述智能体包括行动者网络、目标行动者网络、评论家网络、目标评论家网络;所述行动者网络和目标行动者网络的结构相同,所述评论家网络和目标评论家网络的结构相同;
所述行动者网络输入为环境状态,输出高斯分布均值和协方差矩阵乔列斯基分解得到的下三角矩阵所有元素;所述行动者网络包括一个输入层、多个隐藏层和一个输出层;所述行动者网络的输入层的神经元个数与环境状态的分量数目相同,所述行动者网络的输出层的神经元个数为na+na(na+1)/2,na表示动作ai,t的分量数目;
所述评论家网络输入为环境状态和相应的动作,输出为Q值函数,所述Q值函数为智能体在环境状态下采取相应的动作后的累积折扣奖励期望值;所述评论家网络包括两个输入层、多个隐藏层和一个输出层,所述评论家网络的两个输入层的神经元个数分别与环境状态和相应的动作的分量数目相同,所述评论家网络的输出层的神经元个数为1。
4.根据权利要求3所述的电网交互型高效居民建筑智能协同运行优化方法,其特征在于,所述采用深度强化学习算法对每个马尔可夫决策过程相关的智能体进行训练包括:
针对居民建筑i对应的马尔可夫决策过程相关的智能体,初始化电网交互型高效居民建筑的运行环境、时隙t=1,重复执行预设的训练迭代步骤直至t>WT,W为预设的训练片段数;
所述训练迭代步骤包括:
获取居民建筑i相关的智能体在时隙t的环境状态si,t;
基于环境状态si,t,居民建筑i相关的智能体输出动作ai,t;
将动作ai,t应用于电网交互型高效居民建筑的运行环境得到时隙t+1的环境状态si,t+1和时隙t的奖励函数ri,t+1;
将构建四元组(si,t,ai,t,ri,t+1,si,t+1)存储到经验池Di中,并令t=t+1;
若t/K=0,K为预设常数,则从经验池Di中提取小批量四元组作为训练样本,利用最大后验策略优化算法对居民建筑i相关的智能体的行动者网络和评论家网络进行训练。
5.根据权利要求4所述的电网交互型高效居民建筑智能协同运行优化方法,其特征在于,所述智能体中评论家网络通过最小化损失函数进行更新,所述最小化损失函数为:
式中,θi、θi ′为居民建筑i相关的智能体中评论家网络和目标评论家网络的参数,J为评论家网络对应的训练样本的数量,训练样本j为 为参数θi、θi ′下的状态动作值函数,γ为折扣系数,πi,old为居民建筑i相关的智能体中目标行动者网络输出对应的策略,a表示根据策略πi,old采取的动作;
所述目标评论家网络的参数更新为:
式中,为取值在0到1范围内的常数。
6.根据权利要求4所述的一种电网交互型高效居民建筑智能协同运行优化方法,其特征在于,所述智能体中行动者网络的更新包括:
初始化居民建筑i相关的智能体中目标行动者网络输出对应的策略Φi为居民建筑i相关的智能体中行动者网络的参数,重复执行预设的更新迭代步骤直至更新迭代次数u>U,U为预设的更新迭代最大次数;
所述更新迭代步骤包括:
居民建筑i相关的智能体从经验池Di抽取L个训练样本,训练样本l为
获得非参数化策略:
式中,am为环境状态根据策略/>采取的动作m,1≤m≤M,M为环境状态/>根据策略采取的动作的数量;exp为指数函数;Φi ' 为居民建筑i相关的智能体中目标行动者网络的参数;
为熵减少限制系数,η为中间变量;
更新参数化策略:
构建数据集基于构建的数据集获取更新后的参数化策略:
式中,πi,new为居民建筑i相关的智能体更新后的参数化策略,κπ为限制参数化策略变化的系数,KL为KL散度函数,为拉格朗日系数;
所述目标行动者网络的参数更新为:
式中,为取值在0到1范围内的常数。
7.根据权利要求2所述的电网交互型高效居民建筑智能协同运行优化方法,其特征在于,所述对主问题和多个从问题进行迭代求解包括:
初始化时隙t=1,重复执行预设的测试迭代步骤直至t>HT,H为预设的测试片段数;
所述测试迭代步骤包括:
初始化迭代步数k=0、辅助变量对偶变量/>环境状态/>重复执行预设的交替方向乘子法框架迭代步骤直至k>K,K为预设的交替方向乘子法最大迭代步数;
所述交替方向乘子法框架迭代步骤包括:
利用训练好的智能体策略根据输入的环境状态输出动作/>
将动作带入主问题,采用凸优化理论对主问题进行求解,获取辅助变量/>
根据动作和辅助变量/>计算对偶变量:
判断是否成立,ε为预设阈值:
若成立,则将动作作为居民建筑i在时隙t对应从问题的最终求解结果,辅助变量/>作为居民建筑i在时隙t对应主问题的最终求解结果;令t=t+1,并重置测试迭代步骤;
若不成立,则根据辅助变量和对偶变量/>更新环境状态/>生成环境状态/>令k=k+1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310968502.2A CN116681269B (zh) | 2023-08-03 | 2023-08-03 | 一种电网交互型高效居民建筑智能协同运行优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310968502.2A CN116681269B (zh) | 2023-08-03 | 2023-08-03 | 一种电网交互型高效居民建筑智能协同运行优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116681269A CN116681269A (zh) | 2023-09-01 |
CN116681269B true CN116681269B (zh) | 2023-10-13 |
Family
ID=87782267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310968502.2A Active CN116681269B (zh) | 2023-08-03 | 2023-08-03 | 一种电网交互型高效居民建筑智能协同运行优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116681269B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886603A (zh) * | 2017-03-03 | 2017-06-23 | 东南大学 | 一种需求响应资源组合优化的分层分布式体系架构和方法 |
CN112923533A (zh) * | 2021-03-10 | 2021-06-08 | 浙江大学 | 基于多智能体的中央空调系统层级分布式优化控制方法 |
CN113283649A (zh) * | 2021-05-25 | 2021-08-20 | 西安交通大学 | 供需协同运行能效控制方法、装置、设备和介质 |
CN115204442A (zh) * | 2022-04-29 | 2022-10-18 | 广东电网有限责任公司广州供电局 | 一种电网-充电运营商协同运行优化方法及系统 |
CN116485044A (zh) * | 2023-06-21 | 2023-07-25 | 南京邮电大学 | 一种电网交互型高效商业建筑智能运行优化方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8761953B2 (en) * | 2012-04-30 | 2014-06-24 | Innovari, Inc. | Grid optimization resource dispatch scheduling |
-
2023
- 2023-08-03 CN CN202310968502.2A patent/CN116681269B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886603A (zh) * | 2017-03-03 | 2017-06-23 | 东南大学 | 一种需求响应资源组合优化的分层分布式体系架构和方法 |
CN112923533A (zh) * | 2021-03-10 | 2021-06-08 | 浙江大学 | 基于多智能体的中央空调系统层级分布式优化控制方法 |
CN113283649A (zh) * | 2021-05-25 | 2021-08-20 | 西安交通大学 | 供需协同运行能效控制方法、装置、设备和介质 |
CN115204442A (zh) * | 2022-04-29 | 2022-10-18 | 广东电网有限责任公司广州供电局 | 一种电网-充电运营商协同运行优化方法及系统 |
CN116485044A (zh) * | 2023-06-21 | 2023-07-25 | 南京邮电大学 | 一种电网交互型高效商业建筑智能运行优化方法 |
Non-Patent Citations (3)
Title |
---|
Distributed Control of Multizone HVAC Systems Considering Indoor Air Quality;Yu Yang等;《IEEE Transactions on Control Systems Technology》;第29卷(第6期);2586-2597 * |
Multi-Agent Deep Reinforcement Learning for HVAC Control in Commercial Buildings;Yu, Liang等;《IEEE Transactions on Smart Grid》;第12卷(第01期);407-419 * |
基于多智能体深度强化学习的分布式协同干扰功率分配算法;饶宁等;《电子学报》;第50卷(第06期);1319-1330 * |
Also Published As
Publication number | Publication date |
---|---|
CN116681269A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | A cooperative coevolution algorithm for multi-objective fuzzy distributed hybrid flow shop | |
Li et al. | A reinforcement learning based RMOEA/D for bi-objective fuzzy flexible job shop scheduling | |
Ren et al. | An asynchronous parallel disassembly planning based on genetic algorithm | |
CN107578124B (zh) | 基于多层改进gru神经网络的短期电力负荷预测方法 | |
Liu et al. | Coordinating the operations of smart buildings in smart grids | |
Ren et al. | A novel forecasting based scheduling method for household energy management system based on deep reinforcement learning | |
CN113572157B (zh) | 一种基于近端策略优化的用户实时自治能量管理优化方法 | |
Xu et al. | Look-ahead risk-constrained scheduling for an energy hub integrated with renewable energy | |
Chen et al. | Effective hot rolling batch scheduling algorithms in compact strip production | |
Remani et al. | Load scheduling with maximum demand using binary particle swarm optimization | |
CN116451880B (zh) | 一种基于混合学习的分布式能源优化调度方法及装置 | |
Tarkesh et al. | Facility layout design using virtual multi-agent system | |
Du et al. | Energy-cost-aware resource-constrained project scheduling for complex product system with activity splitting and recombining | |
Wang et al. | A cooperative memetic algorithm for energy-aware distributed welding shop scheduling problem | |
Khaki et al. | Nonparametric user behavior prediction for distributed ev charging scheduling | |
Sun et al. | Learning based bidding strategy for HVAC systems in double auction retail energy markets | |
de Mars et al. | Reinforcement learning and A* search for the unit commitment problem | |
Wang et al. | Optimal scheduling for integrated energy system considering scheduling elasticity of electric and thermal loads | |
CN116706917A (zh) | 基于快速交替方向乘子法的智慧园区协同调控方法及系统 | |
CN116227883A (zh) | 一种基于深度强化学习的智能家庭能量管理系统预测决策一体化调度方法 | |
Chu et al. | Optimal home energy management strategy: A reinforcement learning method with actor-critic using Kronecker-factored trust region | |
CN110348623B (zh) | 基于设计结构矩阵的复杂产品开发时间预测及优化方法 | |
Liu et al. | Multi-agent quantum-inspired deep reinforcement learning for real-time distributed generation control of 100% renewable energy systems | |
Quan et al. | Multi-objective optimization scheduling for manufacturing process based on virtual workflow models | |
Darshi et al. | Decentralized energy management system for smart microgrids using reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |