CN114498649A - 主动配电网建筑热负荷控制方法、装置、电子设备和存储介质 - Google Patents

主动配电网建筑热负荷控制方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114498649A
CN114498649A CN202210003746.2A CN202210003746A CN114498649A CN 114498649 A CN114498649 A CN 114498649A CN 202210003746 A CN202210003746 A CN 202210003746A CN 114498649 A CN114498649 A CN 114498649A
Authority
CN
China
Prior art keywords
active power
distribution network
power distribution
building
load
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210003746.2A
Other languages
English (en)
Inventor
陈卓旭
刘昊天
吴文传
杨胜春
李亚平
高冠中
毛文博
荆江平
叶婷
笪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Tsinghua University
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Jiangsu Electric Power Co Ltd filed Critical Tsinghua University
Priority to CN202210003746.2A priority Critical patent/CN114498649A/zh
Publication of CN114498649A publication Critical patent/CN114498649A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/04Circuit arrangements for ac mains or ac distribution networks for connecting networks of the same frequency but supplied from different sources
    • H02J3/06Controlling transfer of power between connected networks; Controlling sharing of load between connected networks
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24DDOMESTIC- OR SPACE-HEATING SYSTEMS, e.g. CENTRAL HEATING SYSTEMS; DOMESTIC HOT-WATER SUPPLY SYSTEMS; ELEMENTS OR COMPONENTS THEREFOR
    • F24D19/00Details
    • F24D19/10Arrangement or mounting of control or safety devices
    • F24D19/1096Arrangement or mounting of control or safety devices for electric heating systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/18Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/04Power grid distribution networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/08Thermal analysis or thermal optimisation
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2310/00The network for supplying or distributing electric power characterised by its spatial reach or by the load
    • H02J2310/50The network for supplying or distributing electric power characterised by its spatial reach or by the load for selectively controlling the operation of the loads
    • H02J2310/56The network for supplying or distributing electric power characterised by its spatial reach or by the load for selectively controlling the operation of the loads characterised by the condition upon which the selective controlling is based
    • H02J2310/58The condition being electrical
    • H02J2310/60Limiting power consumption in the network or in one section of the network, e.g. load shedding or peak shaving
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2310/00The network for supplying or distributing electric power characterised by its spatial reach or by the load
    • H02J2310/50The network for supplying or distributing electric power characterised by its spatial reach or by the load for selectively controlling the operation of the loads
    • H02J2310/56The network for supplying or distributing electric power characterised by its spatial reach or by the load for selectively controlling the operation of the loads characterised by the condition upon which the selective controlling is based
    • H02J2310/62The condition being non-electrical, e.g. temperature

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computer Hardware Design (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Strategic Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Algebra (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Power Engineering (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Thermal Sciences (AREA)
  • Chemical & Material Sciences (AREA)

Abstract

本公开涉及一种主动配电网建筑热负荷控制方法、装置、电子设备和存储介质,属于电力系统运行和控制技术领域。其中,所述方法包括:根据预设的建筑围护结构的传热学模型和主动配电网潮流方程,建立主动配电网建筑热负荷最优控制模型;将所述主动配电网建筑热负荷最优控制模型转换为马尔可夫决策过程模型;对所述马尔可夫决策过程的模型进行训练,得到主动配电网建筑热负荷控制最优策略函数;根据所述主动配电网建筑热负荷控制最优策略函数,实现主动配电网建筑热负荷控制。本公开可在缺少完备热学模型的情况下保证建筑中暖通空调系统的高效稳定运行,在满足用户热舒适度的前提下,为电网提供调峰辅助服务,同时减小网络的运行损耗。

Description

主动配电网建筑热负荷控制方法、装置、电子设备和存储介质
技术领域
本公开属于电力系统运行和控制技术领域,特别涉及一种主动配电网建筑热负荷控制方法、装置、电子设备和存储介质。
背景技术
随着社会经济的快速发展,热负荷设备对于提高建筑能效、促进环境保护、减少温室气体排放的重要作用逐渐凸显。我国的建筑能耗约占全国总能耗的四分之一,并且受城市化、人口增长等因素的影响,这种增长趋势在未来还将保持很长一段时间。尤其是在建筑的采暖和制冷方面,暖通空调(HVAC)设备作为建筑终端设备的大量使用,导致了电力负荷峰谷差的进一步拉大。因此,对终端用户实施有效的能量管理能够在很大程度上提高电力系统的灵活性,进而带来经济性、安全性、可持续性等方面的巨大效益。
电力企业可以通过直接的技术手段或间接的管理手段实现削峰填谷,实现平滑负荷曲线、减少机组设备投资、增强电网运行的稳定性的目的。空调负荷作为一种重要的分布式资源,具有可调性强、调控成本低、调峰潜力大等特点。因此,以居民或小型商业用户中的HVAC等具有储热能力的温控负荷为被控对象,实施直接负荷控制(DLC)能够有效降低系统高峰负荷,充分利用需求侧资源,对保证电力系统安全经济运行有积极作用。
在主动配电网或虚拟电厂的实际应用场景下,负荷聚合商(LA)能够将区域内居民或商业用户的空调负荷整合并参与辅助服务市场,利用配电网中的基础设施实现集中式的实时功率管控。通过先进的量测技术实时监测并上传配网运行状态,能量管理系统可以针对系统需求采取相应的控制策略,可控热负荷接收控制命令后快速参与响应。
然而,精确的配电系统与建筑热负荷模型往往难以获得,其复杂性限制了基于模型的传统优化方法的性能,导致在实际操作过程中,量测参数的偏差可能会引起被控负荷的误动,进而出现偏离最优运行状态的结果。
发明内容
本公开的目的是为克服已有技术的不足之处,提出一种主动配电网建筑热负荷控制方法、装置、电子设备和存储介质。本公开可在缺少完备热学模型的情况下保证建筑中暖通空调系统的高效稳定运行,在满足用户热舒适度的前提下,为电网提供调峰辅助服务,同时减小网络的运行损耗。
本公开第一方面实施例提出一种主动配电网建筑热负荷控制方法,包括:
根据预设的建筑围护结构的传热学模型和主动配电网潮流方程,建立主动配电网建筑热负荷最优控制模型;
将所述主动配电网建筑热负荷最优控制模型转换为马尔可夫决策过程模型;
对所述马尔可夫决策过程模型进行训练,得到主动配电网建筑热负荷控制最优策略函数;
根据所述主动配电网建筑热负荷控制最优策略函数,实现主动配电网建筑热负荷控制。
在本公开的一个具体实施例中,所述建筑围护结构的传热学模型,包括:
1)计算主动配电网中的热负荷用户墙体围护结构热阻:
Figure BDA0003454624130000021
其中,Rj为用户j的墙体围护结构热阻,
Figure BDA0003454624130000022
分别为用户j围护结构室内、室外空气层的热阻,Lj为用户j墙体的总层数,δj,l、λj,l分别为用户j墙体第l层材料的厚度与热导率;
2)计算热负荷用户墙体围护结构热容:
Figure BDA0003454624130000023
其中,Cj为用户j的墙体围护结构热容,cj,l、ρj,l分别为用户j墙体第l层材料的比热容与密度;
3)建立用户消耗的有功功率与热功率的绝对值的关系如下:
Figure BDA0003454624130000024
其中,ηj为用户j的热负荷设备的能效比,
Figure BDA0003454624130000025
为t时刻用户j的热负荷设备消耗的有功功率,Qj,s,t为用户j的热源s在t时刻产生的热功率,SHVAC为可控热负荷设备构成的热源集合;
4)建立空气温度方程;
Figure BDA0003454624130000026
其中,Δt为离散采样周期;
Figure BDA0003454624130000031
分别为用户j在t时刻的室内气温、室外气温,Aj为用户j围护结构表面积,Qj,s,t为用户j的热源s在t时刻产生的热功率,S为用户j处所有热源的集合,
Figure BDA0003454624130000032
在本公开的一个具体实施例中,所述主动配电网潮流方程的构建方法为:
1)建立主动配电网电网仿真模型,构建主动配电网络拓扑结构:
其中,令所述主动配电网为一个无向图G,共包含n个节点;记节点0为主动配电网与外电网相连的公共连接点,将节点0作为为参考节点;
2)在极坐标系下构造主动配电网的潮流方程:
Figure BDA0003454624130000033
Figure BDA0003454624130000034
其中,Vi为节点i的电压幅值,Pi sp
Figure BDA0003454624130000035
分别为节点i的有功功率和无功功率,Gij、Bij、θij分别为节点i和节点j之间支路ij的电导、电纳和相角差。
在本公开的一个具体实施例中,所述建立主动配电网建筑热负荷最优控制模型,包括:
1)建立主动配电网建筑热负荷最优控制模型的目标函数:
minR=CtcRtc+CasRas+CplRpl (7)
其中,Rtc表示总体热舒适度评价指标,Ras表示总体调峰能力评价指标,Rpl表示总体网络损耗评价指标;Ctc,Cas,Cpl>0为各指标对应的权重;
其中,
Figure BDA0003454624130000036
其中,m为主动配电网中热负荷用户总数,Hj表示对于用户j室内气温超出舒适度范围的惩罚函数;
Figure BDA0003454624130000037
其中,
Figure BDA0003454624130000041
分别为用户j热舒适度范围的上限和下限;
Figure BDA0003454624130000042
其中,
Figure BDA0003454624130000043
为节点0的发电机注入有功功率,
Figure BDA0003454624130000044
为标准化后的外电网有功负荷功率,表达式如下:
Figure BDA0003454624130000045
其中,Pt e为t时刻外电网的有功负荷功率,
Figure BDA0003454624130000046
分别为外电网有功负荷功率的上限和下限;
Figure BDA0003454624130000047
其中,Pi g、Pi d分别表示节点i的发电机注入有功功率和负荷注入有功功率;
2)建立主动配电网建筑热负荷最优控制模型的约束条件;
Figure BDA0003454624130000048
其中,
Figure BDA0003454624130000049
分别为用户j的热负荷有功功率的上限和下限。
在本公开的一个具体实施例中,所述将所述主动配电网建筑热负荷最优控制模型转换为马尔可夫决策过程模型,包括:
1)构建主动配电网热负荷状态变量:
st=(Pg,Pd,Pl,Ta,Tr)t (14)
其中,st表示主动配电网t时刻的热负荷状态变量,Pg为发电机注入有功功率矩阵,Pd为负荷注入有功功率矩阵,Pl为热负荷功率矩阵,Ta为室外气温矩阵,Tr为室内气温矩阵;在任一t时刻,Pg由n个节点的
Figure BDA00034546241300000410
构成,Pd由n个节点的
Figure BDA00034546241300000411
构成,Pl由m个用户的
Figure BDA00034546241300000412
构成,Ta由m个用户的
Figure BDA00034546241300000413
构成,Tr由m个用户的
Figure BDA00034546241300000414
构成;
2)构建主动配电网热负荷控制动作变量:
at=(Pl)t (15)
其中,at表示主动配电网t时刻的热负荷控制动作变量;
3)构建热负荷调控的马尔可夫决策过程元组<S,A,P,R,γ>;其中,状态变量矩阵S由st构成,动作变量矩阵A由at构成,P为状态转移概率矩阵,R为奖励函数矩阵,γ为奖励函数的折扣率;建立强化学习的仿真环境E;
4)基于建筑热负荷最优控制模型,建立奖励函数如下:
r(st,at,st+1)=-CtcRtc(st,at,st+1)-CasRas(st,at,st+1)-CplRpl(st,at,st+1) (16)
5)构建执行策略π如下所示:
π(at|st)=P(A=at|S=st) (17)
6)给定折扣率γ∈[0,1),构建t时刻的回报函数Gt
Figure BDA0003454624130000051
当回报函数期望J最大时,得到的策略为最优策略,表达式如下:
Figure BDA0003454624130000052
其中,G0为初始时刻t=0时的回报函数;
Figure BDA0003454624130000053
为状态st和奖励rt从环境E中获取、动作at从策略π中获取时G0的期望值。
在本公开的一个具体实施例中,所述对所述马尔可夫决策过程模型进行训练,得到主动配电网建筑热负荷控制最优策略函数,包括:
1)初始化离散时间变量t=0,令离散采样周期为Δt;
2)设定训练过程的离散时间步长T;
3)构造策略函数神经网络μ(s|θμ),该神经网络参数为θμ
4)构建评价函数神经网络Q(s,a|θQ),该神经网络参数为θQ,所述评价函数神经网络包括两个评价函数子神经网络,分别记为
Figure BDA0003454624130000054
Figure BDA0003454624130000055
该两个子神经网络参数分别为
Figure BDA0003454624130000056
Figure BDA0003454624130000057
5)分别构造策略目标神经网络μ′(s|θμ′)和评价目标神经网络Q′(s,a|θQ′),该两个神经网络参数分别为θμ′、θQ′
其中,μ′(s|θμ′)的初始参数与μ(s|θμ)的初始参数相同,Q′(s,a|θQ′)的初始参数与Q(s,a|θQ)的初始参数相同;
6)在t时刻,向策略函数神经网络μ(s|θμ)中添加的随机噪声;
其中,随机噪声表达式如下:
μ′(stμ′)=μ(stμ)+ξt (21)
其中,ξt为t时刻的随机噪声,服从均值为0、标准差为σt的高斯分布:
Figure BDA0003454624130000061
设定随机噪声的初始标准差为σ0,每经过N个时刻,噪声的标准差σt以设定的衰减因子β逐渐衰减,其中N为噪声衰减的时间步长;
σt的更新表达式如下:
Figure BDA0003454624130000062
7)创建经验回放池D,将每个时刻的(st,at,rt,st+1)作为一个样本存储于D中;
8)从经验回放池D中随机抽取一批样本组成集合Dk,集合大小为k;
9)构建状态st下采取策略μ并执行动作at后的回报函数:
yt=r(st,at)+γQ′(st+1,μ′(st+1μ′)|θQ′) (24)
10)构建评价函数神经网络的损失函数:
Figure BDA0003454624130000063
11)构建策略函数神经网络网络的损失函数:
Figure BDA0003454624130000064
12)通过梯度下降的方法最小化损失函数LQ、Lμ
Figure BDA0003454624130000065
更新网络参数
Figure BDA0003454624130000066
θμ
13)对目标网络参数进行更新:
θμ′←τθμ+(1-τ)θμ′ (28)
θQ′←τθQ+(1-τ)θQ′ (29)
其中,τ为更新过程的衰减因子;
14)每轮训练后,根据式计算损失函数LQQ),当评价函数神经网络的损失函数值小于设定的收敛阈值ε时,训练终止,得到最优评价神经网络
Figure BDA0003454624130000071
和最优策略函数神经网络
Figure BDA0003454624130000072
在本公开的一个具体实施例中,所述根据所述主动配电网建筑热负荷控制最优策略函数,实现主动配电网建筑热负荷控制,包括:
获取待进行控制的t时刻的主动配电网热负荷状态变量st
将st输入最优策略函数神经网络
Figure BDA0003454624130000073
生成主动配电网t时刻的热负荷控制动作变量at,at中包含各用户热负荷的最优控制动作;
将最优控制动作下发至对应用户的热负荷设备,实现主动配电网建筑热负荷控制。
本公开第二方面实施例提出一种主动配电网建筑热负荷控制装置,包括:
热负荷最优控制模型构建模块,用于根据预设的建筑围护结构的传热学模型和主动配电网潮流方程,建立主动配电网建筑热负荷最优控制模型;
马尔可夫决策过程模型构建模块,用于将所述主动配电网建筑热负荷最优控制模型转换为马尔可夫决策过程模型;
马尔可夫决策过程模型训练模块,用于对所述马尔可夫决策过程模型进行训练,得到主动配电网建筑热负荷控制最优策略函数;
热负荷控制模块,用于根据所述主动配电网建筑热负荷控制最优策略函数,实现主动配电网建筑热负荷控制。
本公开第三方面实施例提出一种电子设备,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述一种主动配电网建筑热负荷控制方法。
本公开第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述一种主动配电网建筑热负荷控制方法。
本公开的优点及有益效果在于:
1.本公开基于无模型的深度强化学习算法,不需要建立完备的主动配电网热负荷模型,而是通过历史数据自动学习电网特性进行优化以实现自适应最优化控制;
2.本公开综合考虑了热舒适度、辅助服务质量和网络损耗三个方面进行多目标优化,能够在保证用户舒适度不受影响的前提下,向电网提供削峰填谷的辅助服务,同时降低网损;
3.本公开对现有的基于深度强化学习的热负荷控制方法进行了改进,通过一种高样本效率的深度强化学习算法,在主动配电网或虚拟电厂的实际应用范围内,对居民或商业用户的热负荷进行调控,持续采集暖通空调系统中数字控制器的控制数据,各控制器根据量测数据在近场端执行控制策略;将只与状态有关的Q网络单独进行训练,具有更高的样本效率,在应用中可以用更少的步数实现收敛,从而达到更好的控制效果。
附图说明
图1为本公开实施例中一种主动配电网建筑热负荷控制方法的整体流程图。
具体实施方式
本公开实施例提出一种主动配电网建筑热负荷控制方法、装置、电子设备和存储介质,下面结合附图和具体实施例进一步详细说明如下。
本公开第一方面实施例提出一种主动配电网建筑热负荷控制方法,整体流程如图1所示,包括以下步骤:
1)根据主动配电网建筑热负荷特性,建立建筑围护结构的传热学模型,提供强化学习仿真训练环境;本公开实施例中,所述建筑围护结构的传热学模型包括:
1-1)采用电阻-电容等效模型对围护结构热传导过程进行描述。
计算主动配电网中的热负荷用户墙体围护结构热阻,如式(1)所示。
Figure BDA0003454624130000081
其中,Rj为用户j的墙体围护结构热阻,
Figure BDA0003454624130000082
分别为用户j围护结构室内、室外空气层的热阻,Lj为用户j墙体的总层数,δj,l、λj,l分别为用户j墙体第l层材料的厚度与热导率。
需要说明的是,本公开中的热负荷用户可为居民或商业用户。
1-2)计算热负荷用户墙体围护结构热容,如式(2)所示:
Figure BDA0003454624130000083
其中,Cj为用户j的墙体围护结构热容,cj,l、ρj,l分别为用户j墙体第l层材料的比热容与密度。
1-3)假设用户j的热负荷设备的能效比(COP)为一定值ηj,则在t时刻用户j的热负荷设备消耗的有功功率
Figure BDA0003454624130000091
与制冷或制热功率的绝对值|Qj,s,t|的关系如式(3)所示:
Figure BDA0003454624130000092
其中,Qj,s,t为用户j的热源s在t时刻产生的热功率,SHVAC为可控热负荷设备构成的热源集合。
1-4)根据传热学过程的热阻-热容模型,列出以空气温度为状态变量的一阶差分方程,表示被控热负荷设备对室内空气温度的影响,如式(4)所示;
Figure BDA0003454624130000093
其中,Δt为离散采样周期,训练过程中应采用每步迭代的时间间隔;
Figure BDA0003454624130000094
分别为用户j在t时刻的室内气温、室外气温,Aj为用户j围护结构表面积,Qj,s,t为用户j的热源s在t时刻产生的热功率。S为用户j处所有热源的集合,
Figure BDA0003454624130000095
包括热负荷设备制冷或制热、太阳热辐射、人体热辐射等,其中制热功率为正值、制冷功率为负值。
2)根据主动配电网的网络拓扑结构,构建主动配电网潮流方程,包括:
2-1)建立主动配电网电网仿真模型,构建配电网络拓扑结构:
根据电气元件之间的拓扑连接关系,将主动配电网抽象为一个无向图G,共包含n个节点。将节点0指定为主动配电网与外电网相连的公共连接点。在潮流计算中,将节点0视为参考节点,给定参考节点的电压幅值和相角,求解注入的有功功率和无功功率。因此,节点0的发电机注入有功功率
Figure BDA0003454624130000096
反映了主动配电网对外部电网的等效负荷需求。
2-2)在极坐标系下构造主动配电网的潮流方程,如式(5)、(6)所示:
Figure BDA0003454624130000097
Figure BDA0003454624130000098
其中,n为主动配电网中节点的总数;Vi为节点i的电压幅值,Pi sp
Figure BDA0003454624130000099
分别为节点i的有功功率和无功功率,Gij、Bij、θij分别为节点i和节点j之间支路ij的电导、电纳和相角差。
本公开实施例中,通过潮流计算程序调用牛顿-拉夫逊法等迭代方法,对交流潮流问题进行求解,能够得到主动配电网的各节点电压与各支路功率。
3)根据优化变量、目标函数与约束条件,建立主动配电网建筑热负荷最优控制模型,实现满足用户热舒适度条件、响应调峰辅助服务需求、减小网络有功损耗的综合控制目标;具体步骤如下:
3-1)根据建筑热负荷综合控制目标,即满足用户热舒适度要求、提供调峰辅助服务、减小网络有功损耗,建立主动配电网建筑热负荷最优控制模型的目标函数,表达式如式所示:
minR=CtcRtc+CasRas+CplRpl (7)
其中,Rtc,Ras,Rpl分别为目标函数的三个分量,Rtc表示总体热舒适度评价指标,Ras表示总体调峰能力评价指标,Rpl表示总体网络损耗评价指标;Ctc,Cas,Cpl>0为各分量的线性权重。其中,
Figure BDA0003454624130000101
其中,m为主动配电网中可控热负荷的总数(即热负荷用户的总数),Hj表示对于用户j室内气温超出舒适度范围的惩罚函数。
Figure BDA0003454624130000102
其中,
Figure BDA0003454624130000103
分别为用户j热舒适度范围的上限和下限;本公开一个具体实施例中,考虑到人体最适温度为24℃,将每个用户的热舒适度范围的上限和下限分别取为25℃、23℃。需要说明的是,每个用户的热舒适度范围的上下限可不同,但本实施例均取相同。
Figure BDA0003454624130000104
其中,
Figure BDA0003454624130000105
为步骤1)得到的节点0的发电机注入有功功率,
Figure BDA0003454624130000106
为标准化后的外电网有功负荷功率。前者反映主动配电网对外的相对负荷需求,后者反映了外电网的相对负荷水平。
当外电网处于负荷高峰时段
Figure BDA0003454624130000111
时,注入功率P1 g减小使得惩罚函数Ras减小;当外电网处于负荷低谷
Figure BDA0003454624130000112
时段时,P1 g增大使得Ras减小。因此,最小化Ras能够实现削峰填谷的目的。
其中,
Figure BDA0003454624130000113
的表达式如下:
Figure BDA0003454624130000114
其中,Pt e为t时刻外电网的有功负荷功率。通过对Pt e进行线性伸缩变换得到
Figure BDA0003454624130000115
将数值范围从
Figure BDA0003454624130000116
映射至[-1,1]。其中,
Figure BDA0003454624130000117
分别为外电网有功负荷功率的上限和下限。
Figure BDA0003454624130000118
构成的负荷曲线即为主动配电网进行削峰填谷的调控对象,其跨度等于训练步长T。通常采用包含96个采样点的典型日负荷曲线,在之后的训练阶段中使用典型历史负荷曲线,在实际运行阶段可使用通过短期预测得到的负荷预测曲线。
Figure BDA0003454624130000119
其中,n为主动配电网中节点的总数,Pi g、Pi d分别表示节点i的发电机注入有功功率和负荷注入有功功率。
3-2)建立主动配电网建筑热负荷最优控制模型的约束条件;
具体地,负荷运行功率上下限约束:
Figure BDA00034546241300001110
其中,
Figure BDA00034546241300001111
分别为用户j的热负荷有功功率的上限和下限。
4)将步骤3)建立的主动配电网建筑热负荷最优控制模型转换为马尔可夫决策过程模型;具体步骤如下:
4-1)对应各系统量测数据,构建主动配电网热负荷状态变量:
st=(Pg,Pd,Pl,Ta,Tr)t (14)
其中,st表示主动配电网t时刻的热负荷状态变量,Pg为发电机注入有功负荷功率矩阵,Pd为负荷注入有功负荷功率矩阵,Pl为热负荷功率矩阵,Ta为室外气温矩阵,Tr为室内气温矩阵。在任一t时刻,Pg由n个节点的发电机注入有功功率
Figure BDA00034546241300001112
构成,Pd由n个节点的负荷注入有功功率
Figure BDA0003454624130000121
构成,Pl由m个用户的热负荷消耗有功功率
Figure BDA0003454624130000122
构成,Ta由m个用户的室外气温
Figure BDA0003454624130000123
构成,Tr由m个用户的室内气温
Figure BDA0003454624130000124
构成;
需要说明的是,本公开实施例中认为主动配电网为完全观测系统,即状态变量均可由观测得到。
4-2)构建主动配电网热负荷控制动作变量:
at=(Pl)t (15)
其中,at表示主动配电网t时刻的热负荷控制动作变量;
4-3)构建热负荷调控问题的马尔可夫决策过程,用元组<S,A,P,R,γ>表示智能体与环境的交互。其中,状态变量矩阵S由st构成,动作变量矩阵A由at构成,P为状态转移概率矩阵,R为奖励函数矩阵,γ为奖励函数的折扣率。
4-4)对于任一时刻t,可观测到状态st∈S,执行动作at∈A后,转移至下一状态st+1∈S,同时返回奖励r(st,at,st+1)∈R,直到到达终止状态sT,T为训练过程的离散时间步长。建立强化学习的仿真环境E。
基于建筑热负荷最优控制模型,将奖励函数定义为主动配电网建筑热负荷最优控制模型最小化目标函数的负值:
r(st,at,st+1)=-CtcRtc(st,at,st+1)-CasRas(st,at,st+1)-CplRpl(st,at,st+1) (16)
其中,Rtc,Ras,Rpl为根据式(8)、(10)、(12)中目标函数的定义,由当前状态st、执行动作at、下一时刻状态st+1表达出的奖励函数;Ctc,Cas,Cpl表示各分量的线性权重,,应根据三个分量的重要程度与数值范围给出取值,并通过实际训练的结果进行相应调整。本公开一个具体实施例中Ctc,Cas,Cpl分别取值为1、80、100,能够得到较为均衡的训练结果。
4-5)构建智能体执行策略如下所示:
π(at|st)=P(A=at|S=st) (17)
4-6)给定折扣率γ∈[0,1),构建t时刻的回报函数Gt,计算t时刻之后未来的奖励之和:
Figure BDA0003454624130000131
其中,基于强化学习算法,当回报函数期望J最大时,得到的策略为最优策略。
Figure BDA0003454624130000132
其中,G0为初始时刻t=0时的回报函数;
Figure BDA0003454624130000133
为状态st和奖励rt从环境E中获取、动作at从策略π中获取时G0的期望值。
5)基于深度强化学习算法对步骤4)转化后得到的马尔可夫决策过程模型进行训练,,得到主动配电网建筑热负荷控制最优策略函数;具体步骤如下:
5-1)初始化离散时间变量t=0,令离散采样周期为Δt,Δt可根据本地控制器的量测及指令速度确定,本公开一个具体实施例中的典型值为智能电表的采集周期15min;
5-2)设定训练过程的离散时间步长T,即每间隔TΔt时间完成一轮与环境的交互过程。在训练过程中,T和Δt保持不变。
本公开一个具体实施例中,每步的时间间隔Δt=15min,采取长度为一典型日的负荷曲线作为调峰对象,则T=24×4=96。
5-3)构造策略函数神经网络μ(s|θμ),该神经网络参数为θμ,包含若干隐藏层(本公开一个具体实施例中为2个隐藏层),每个隐藏层包含若干神经元(本公开一个具体实施例中为256个神经元),激活函数为线性整流单元。
5-4)构建评价函数神经网络Q(s,a|θQ),该神经网络参数为θQ,所述评价函数神经网络包括两个评价函数子神经网络分别记为Q1(s,a|θ1 Q)和
Figure BDA0003454624130000134
该两个子神经网络参数分别为θ1 Q
Figure BDA0003454624130000135
每个评价函数子神经网络中包含若干隐藏层(本公开一个具体实施例中为2个隐藏层),每个隐藏层包含若干神经元(本公开一个具体实施例中为256个神经元),激活函数为线性整流单元。该两个子神经网络的隐藏层等参数不需要保持一致。其中,Q1表示与状态、动作均有关的评价函数子神经网络;Q2表示只与状态有关的评价函数子神经网络,如热舒适度只取决于当前温度,而与当前负荷出力无关。
分别训练参数θ1 Q
Figure BDA0003454624130000136
通过求和得到评价函数神经网络Q,表达式如下:
Figure BDA0003454624130000137
5-5)分别构造策略目标神经网络μ′(s|θμ′)和评价目标神经网络Q′(s,a|θQ′),该两个神经网络参数分别为θμ′、θQ′,μ′(s|θμ′)用于对策略函数神经网络μ(s|θμ)的参数进行冻结,Q′(s,a|θQ′)用于对评价函数神经网络Q(s,a|θQ)的参数进行冻结,避免频繁更新带来的不稳定性问题。在初始化时,通过对网络μ和Q进行深拷贝得到目标网络μ′和Q′,即原网络与目标网络的初始参数相同。
5-6)在t时刻向策略函数神经网络μ(s|θμ)中添加的随机噪声,以实现动作空间中的连续探索过程;
其中,随机噪声表达式如下:
μ′(stμ′)=μ(stμ)+ξt (21)
其中,ξt为t时刻的随机噪声,服从均值为0、标准差为σt的高斯分布:
Figure BDA0003454624130000141
随机噪声的初始标准差σ0典型值为0.10,每经过N个时刻(本公开一个具体实施例中N=T=96(需要说明的是,N和T取值可以不一样,但为了方便,本公开一个具体实施例中在每轮训练结束后进行噪声的衰减),噪声的标准差σt以设定的衰减因子β逐渐衰减(本公开一个具体实施例中取值为0.99),以防止噪声扰动叠加造成的学习过程收敛缓慢,其中N为噪声衰减的时间步长。
σt的更新表达式如下:
Figure BDA0003454624130000142
5-7)初始化经验回放池D:
创建有限大小的存储区D进行经验回放(本公开一个具体实施例中,经验回放池容量典型值为1×106),将每个时刻的状态、动作、奖励与下一时刻的状态(st,at,rt,st+1)作为一个样本存储于D中。
本公开一个具体实施例中,当训练步长T=96时,进行200轮智能体与环境的交互过程,则回放池容量能满足进行19,200次迭代的需求。若实际应用时经验回放池容量用尽,则用新样本替代经验回放池中最早的样本。
5-8)对过去的状态转移过程进行随机抽样,避免经验数据的相关性和非平稳分布问题。
从经验回放池D中随机抽取一批样本组成集合Dk,集合大小为k(典型值取64),用于更新状态变量后,选取一个批次进行训练并对网络参数进行更新。
5-9)构建状态st下采取策略μ并执行动作at后的回报函数:
yt=r(st,at)+γQ′(st+1,μ′(st+1μ′)|θQ′) (24)
其中,折扣率γ典型值为0.99。
5-10)在均方损失意义下,构建评价函数神经网络的损失函数:
Figure BDA0003454624130000151
5-11)在均方损失意义下,构建策略函数神经网络的损失函数:
Figure BDA0003454624130000152
5-12)使用自适应矩估计优化器,通过梯度下降的方法最小化损失函数LQ、Lμ
Figure BDA0003454624130000153
同时对网络参数
Figure BDA0003454624130000154
θμ进行更新。
5-13)对目标网络参数进行缓慢更新:
θμ′←τθμ+(1-τ)θμ′ (28)
θQ′←τθQ+(1-τ)θQ′ (29)
其中,τ为更新过程的衰减因子(典型值为0.005)。
5-14)进行强化学习训练,直到达到收敛状态:
经过上述训练过程,实现智能体与环境的多轮交互。
根据式计算损失函数LQQ),当评价函数神经网络的损失函数值小于设定的收敛阈值ε时,认为达到强化学习的收敛条件,训练过程终止。收敛判据需要根据预训练的结果进行确定,若经过200轮交互过程后损失函数仍明显不收敛,则需要调整折扣率、衰减因子等参数重新进行训练。
根据强化学习训练结果,得到热负荷最优控制策略:
在收敛状态下,得到最优评价神经网络
Figure BDA0003454624130000155
和最优策略函数神经网络
Figure BDA0003454624130000156
6)根据最优策略函数神经网络,实现主动配电网建筑热负荷控制;
获取待进行控制的t时刻的主动配电网热负荷状态变量st
将st输入最优策略函数神经网络
Figure BDA0003454624130000161
生成主动配电网t时刻的热负荷控制动作变量at,at中包含各用户热负荷的最优控制动作:
Figure BDA0003454624130000162
将最优控制动作通过通信系统下发给被控设施,即主动配电网中居民或小型商业用户的建筑热负荷设备。热负荷设备对控制信号做出快速响应,实时改变制冷或制热出力,在不影响用户热舒适、不增大网络有功损耗的前提下,对外提供削峰填谷的辅助服务。
为实现上述实施例,本公开第二方面实施例提出一种主动配电网建筑热负荷控制装置,包括:
热负荷最优控制模型构建模块,用于根据预设的建筑围护结构的传热学模型和主动配电网潮流方程,建立主动配电网建筑热负荷最优控制模型;
马尔可夫决策过程模型构建模块,用于将所述主动配电网建筑热负荷最优控制模型转换为马尔可夫决策过程模型;
马尔可夫决策过程模型训练模块,用于对所述马尔可夫决策过程模型进行训练,得到主动配电网建筑热负荷控制最优策略函数;
热负荷控制模块,用于根据所述主动配电网建筑热负荷控制最优策略函数,实现主动配电网建筑热负荷控制。
为实现上述实施例,本公开第三方面实施例提出一种电子设备,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述一种主动配电网建筑热负荷控制方法。
为实现上述实施例,本公开第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行一种主动配电网建筑热负荷控制方法。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例的一种主动配电网建筑热负荷控制方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种主动配电网建筑热负荷控制方法,其特征在于,包括:
根据预设的建筑围护结构的传热学模型和主动配电网潮流方程,建立主动配电网建筑热负荷最优控制模型;
将所述主动配电网建筑热负荷最优控制模型转换为马尔可夫决策过程模型;
对所述马尔可夫决策过程模型进行训练,得到主动配电网建筑热负荷控制最优策略函数;
根据所述主动配电网建筑热负荷控制最优策略函数,实现主动配电网建筑热负荷控制。
2.根据权利要求1所述的方法,其特征在于,所述建筑围护结构的传热学模型,包括:
1)计算主动配电网中的热负荷用户墙体围护结构热阻:
Figure FDA0003454624120000011
其中,Rj为用户j的墙体围护结构热阻,
Figure FDA0003454624120000012
分别为用户j围护结构室内、室外空气层的热阻,Lj为用户j墙体的总层数,δj,l、λj,l分别为用户j墙体第l层材料的厚度与热导率;
2)计算热负荷用户墙体围护结构热容:
Figure FDA0003454624120000013
其中,Cj为用户j的墙体围护结构热容,cj,l、ρj,l分别为用户j墙体第l层材料的比热容与密度;
3)建立用户消耗的有功功率与热功率的绝对值的关系如下:
Figure FDA0003454624120000014
其中,ηj为用户j的热负荷设备的能效比,
Figure FDA0003454624120000015
为t时刻用户j的热负荷设备消耗的有功功率,Qj,s,t为用户j的热源s在t时刻产生的热功率,SHVAC为可控热负荷设备构成的热源集合;
4)建立空气温度方程;
Figure FDA0003454624120000016
其中,Δt为离散采样周期;
Figure FDA0003454624120000021
分别为用户j在t时刻的室内气温、室外气温,Aj为用户j围护结构表面积,Qj,s,t为用户j的热源s在t时刻产生的热功率,S为用户j处所有热源的集合,
Figure FDA0003454624120000026
3.根据权利要求2所述的方法,其特征在于,所述主动配电网潮流方程的构建方法为:
1)建立主动配电网电网仿真模型,构建主动配电网络拓扑结构:
其中,令所述主动配电网为一个无向图G,共包含n个节点;记节点0为主动配电网与外电网相连的公共连接点,将节点0作为为参考节点;
2)在极坐标系下构造主动配电网的潮流方程:
Figure FDA0003454624120000022
Figure FDA0003454624120000023
其中,Vi为节点i的电压幅值,Pi sp
Figure FDA0003454624120000024
分别为节点i的有功功率和无功功率,Gij、Bij、θij分别为节点i和节点j之间支路ij的电导、电纳和相角差。
4.根据权利要求3所述的方法,其特征在于,所述建立主动配电网建筑热负荷最优控制模型,包括:
1)建立主动配电网建筑热负荷最优控制模型的目标函数:
minR=CtcRtc+CasRas+CplRpl (7)
其中,Rtc表示总体热舒适度评价指标,Ras表示总体调峰能力评价指标,Rpl表示总体网络损耗评价指标;Ctc,Cas,Cpl>0为各指标对应的权重;
其中,
Figure FDA0003454624120000025
其中,m为主动配电网中热负荷用户总数,Hj表示对于用户j室内气温超出舒适度范围的惩罚函数;
Figure FDA0003454624120000031
其中,
Figure FDA0003454624120000032
分别为用户j热舒适度范围的上限和下限;
Figure FDA0003454624120000033
其中,
Figure FDA0003454624120000034
为节点0的发电机注入有功功率,
Figure FDA0003454624120000035
为标准化后的外电网有功负荷功率,表达式如下:
Figure FDA0003454624120000036
其中,Pt e为t时刻外电网的有功负荷功率,
Figure FDA0003454624120000037
分别为外电网有功负荷功率的上限和下限;
Figure FDA0003454624120000038
其中,Pi g、Pi d分别表示节点i的发电机注入有功功率和负荷注入有功功率;
2)建立主动配电网建筑热负荷最优控制模型的约束条件;
Figure FDA0003454624120000039
其中,
Figure FDA00034546241200000310
分别为用户j的热负荷有功功率的上限和下限。
5.根据权利要求4所述的方法,其特征在于,所述将所述主动配电网建筑热负荷最优控制模型转换为马尔可夫决策过程模型,包括:
1)构建主动配电网热负荷状态变量:
st=(Pg,Pd,Pl,Ta,Tr)t (14)
其中,st表示主动配电网t时刻的热负荷状态变量,Pg为发电机注入有功功率矩阵,Pd为负荷注入有功功率矩阵,Pl为热负荷功率矩阵,Ta为室外气温矩阵,Tr为室内气温矩阵;在任一t时刻,Pg由n个节点的
Figure FDA00034546241200000311
构成,Pd由n个节点的
Figure FDA00034546241200000312
构成,Pl由m个用户的
Figure FDA00034546241200000313
构成,Ta由m个用户的
Figure FDA00034546241200000314
构成,Tr由m个用户的
Figure FDA00034546241200000315
构成;
2)构建主动配电网热负荷控制动作变量:
at=(Pl)t (15)
其中,at表示主动配电网t时刻的热负荷控制动作变量;
3)构建热负荷调控的马尔可夫决策过程元组<S,A,P,R,γ>;其中,状态变量矩阵S由st构成,动作变量矩阵A由at构成,P为状态转移概率矩阵,R为奖励函数矩阵,γ为奖励函数的折扣率;建立强化学习的仿真环境E;
4)基于建筑热负荷最优控制模型,建立奖励函数如下:
r(st,at,st+1)=-CtcRtc(st,at,st+1)-CasRas(st,at,st+1)-CplRpl(st,at,st+1) (16)
5)构建执行策略π如下所示:
π(at|st)=P(A=at|S=st) (17)
6)给定折扣率γ∈[0,1),构建t时刻的回报函数Gt
Figure FDA0003454624120000041
当回报函数期望J最大时,得到的策略为最优策略,表达式如下:
Figure FDA0003454624120000042
其中,G0为初始时刻t=0时的回报函数;
Figure FDA0003454624120000043
为状态st和奖励rt从环境E中获取、动作at从策略π中获取时G0的期望值。
6.根据权利要求5所述的方法,其特征在于,所述对所述马尔可夫决策过程模型进行训练,得到主动配电网建筑热负荷控制最优策略函数,包括:
1)初始化离散时间变量t=0,令离散采样周期为Δt;
2)设定训练过程的离散时间步长T;
3)构造策略函数神经网络μ(s|θμ),该神经网络参数为θμ
4)构建评价函数神经网络Q(s,a|θQ),该神经网络参数为θQ,所述评价函数神经网络包括两个评价函数子神经网络,分别记为
Figure FDA0003454624120000044
Figure FDA0003454624120000045
该两个子神经网络参数分别为
Figure FDA0003454624120000046
Figure FDA0003454624120000047
5)分别构造策略目标神经网络μ′(s|θμ′)和评价目标神经网络Q′(s,a|θQ′),该两个神经网络参数分别为θμ′、θQ′
其中,μ′(s|θμ′)的初始参数与μ(s|θμ)的初始参数相同,Q′(s,a|θQ′)的初始参数与Q(s,a|θQ)的初始参数相同;
6)在t时刻,向策略函数神经网络μ(s|θμ)中添加的随机噪声;
其中,随机噪声表达式如下:
μ′(stμ′)=μ(stμ)+ξt (21)
其中,ξt为t时刻的随机噪声,服从均值为0、标准差为σt的高斯分布:
Figure FDA0003454624120000051
设定随机噪声的初始标准差为σ0,每经过N个时刻,噪声的标准差σt以设定的衰减因子β逐渐衰减,其中N为噪声衰减的时间步长;
σt的更新表达式如下:
Figure FDA0003454624120000052
7)创建经验回放池D,将每个时刻的(st,at,rt,st+1)作为一个样本存储于D中;
8)从经验回放池D中随机抽取一批样本组成集合Dk,集合大小为k;
9)构建状态st下采取策略μ并执行动作at后的回报函数:
yt=r(st,at)+γQ′(st+1,μ′(st+1μ′)|θQ′) (24)
10)构建评价函数神经网络的损失函数:
Figure FDA0003454624120000053
11)构建策略函数神经网络网络的损失函数:
Figure FDA0003454624120000054
12)通过梯度下降的方法最小化损失函数LQ、Lμ
Figure FDA0003454624120000061
更新网络参数
Figure FDA0003454624120000062
13)对目标网络参数进行更新:
θμ′←τθμ+(1-τ)θμ′ (28)
θQ′←τθQ+(1-τ)θQ′ (29)
其中,τ为更新过程的衰减因子;
14)每轮训练后,根据式计算损失函数LQQ),当评价函数神经网络的损失函数值小于设定的收敛阈值ε时,训练终止,得到最优评价神经网络
Figure FDA0003454624120000063
和最优策略函数神经网络
Figure FDA0003454624120000065
7.根据权利要求6所述的方法,其特征在于,所述根据所述主动配电网建筑热负荷控制最优策略函数,实现主动配电网建筑热负荷控制,包括:
获取待进行控制的t时刻的主动配电网热负荷状态变量st
将st输入最优策略函数神经网络
Figure FDA0003454624120000064
生成主动配电网t时刻的热负荷控制动作变量at,at中包含各用户热负荷的最优控制动作;
将最优控制动作下发至对应用户的热负荷设备,实现主动配电网建筑热负荷控制。
8.一种主动配电网建筑热负荷控制装置,其特征在于,包括:
热负荷最优控制模型构建模块,用于根据预设的建筑围护结构的传热学模型和主动配电网潮流方程,建立主动配电网建筑热负荷最优控制模型;
马尔可夫决策过程模型构建模块,用于将所述主动配电网建筑热负荷最优控制模型转换为马尔可夫决策过程模型;
马尔可夫决策过程模型训练模块,用于对所述马尔可夫决策过程模型进行训练,得到主动配电网建筑热负荷控制最优策略函数;
热负荷控制模块,用于根据所述主动配电网建筑热负荷控制最优策略函数,实现主动配电网建筑热负荷控制。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7任一项所述的方法。
CN202210003746.2A 2022-01-04 2022-01-04 主动配电网建筑热负荷控制方法、装置、电子设备和存储介质 Pending CN114498649A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210003746.2A CN114498649A (zh) 2022-01-04 2022-01-04 主动配电网建筑热负荷控制方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210003746.2A CN114498649A (zh) 2022-01-04 2022-01-04 主动配电网建筑热负荷控制方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114498649A true CN114498649A (zh) 2022-05-13

Family

ID=81509810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210003746.2A Pending CN114498649A (zh) 2022-01-04 2022-01-04 主动配电网建筑热负荷控制方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114498649A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115268270A (zh) * 2022-07-29 2022-11-01 华能伊敏煤电有限责任公司 一种多源热网加热器优化调度方法、系统、设备及介质
CN117193034A (zh) * 2023-11-07 2023-12-08 湖南恒意智能工程有限公司 一种楼宇智能化控制方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115268270A (zh) * 2022-07-29 2022-11-01 华能伊敏煤电有限责任公司 一种多源热网加热器优化调度方法、系统、设备及介质
CN117193034A (zh) * 2023-11-07 2023-12-08 湖南恒意智能工程有限公司 一种楼宇智能化控制方法及系统
CN117193034B (zh) * 2023-11-07 2024-02-02 湖南恒意智能工程有限公司 一种楼宇智能化控制方法及系统

Similar Documents

Publication Publication Date Title
Mocanu et al. On-line building energy optimization using deep reinforcement learning
Li et al. Efficient experience replay based deep deterministic policy gradient for AGC dispatch in integrated energy system
CN114498649A (zh) 主动配电网建筑热负荷控制方法、装置、电子设备和存储介质
Li et al. Reinforcement learning of room temperature set-point of thermal storage air-conditioning system with demand response
CN113112077B (zh) 基于多步预测深度强化学习算法的hvac控制系统
Wang et al. Consensus control strategy of an inverter air conditioning group for renewable energy integration based on the demand response
CN111561732B (zh) 基于人工智能的换热站供热调节方法及系统
CN110380444B (zh) 一种基于变结构Copula的多场景下分散式风电有序接入电网的容量规划方法
CN113572157A (zh) 一种基于近端策略优化的用户实时自治能量管理优化方法
CN114623569B (zh) 一种基于深度强化学习的集群空调负荷差异化调控方法
CN114696351A (zh) 一种电池储能系统动态优化方法、装置、电子设备和存储介质
CN111478349B (zh) 基于用电设备智能网络调控物联网的电力三相平衡策略方法
CN116989442A (zh) 一种中央空调负荷预测方法及系统
Fu et al. Predictive control of power demand peak regulation based on deep reinforcement learning
Yu et al. Improved Elman neural network short-term residents load forecasting considering human comfort index
Gao et al. Multi-energy sharing optimization for a building cluster towards net-zero energy system
CN112560160A (zh) 模型和数据驱动的暖通空调最优设定温度获取方法及设备
CN107846039A (zh) 考虑风速相关性的集群风电并网建模分析方法及系统
CN117172499A (zh) 一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质
Shaad et al. A basic load following control strategy in a direct load control program
CN113435042B (zh) 一种建筑空调系统需求响应的强化学习建模方法
CN115511218A (zh) 基于多任务学习与深度学习的间歇型电器负荷预测方法
CN115526504A (zh) 泵站供水系统节能调度方法、系统、电子设备及存储介质
Qin et al. Exploring new building energy saving control strategy application under the energy internet of things
Groumpos et al. New advanced technology methods for energy efficiency of buildings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination