CN116362471A - 考虑储能参与的柔性深度强化学习建筑负荷需求响应方法 - Google Patents

考虑储能参与的柔性深度强化学习建筑负荷需求响应方法 Download PDF

Info

Publication number
CN116362471A
CN116362471A CN202310038198.1A CN202310038198A CN116362471A CN 116362471 A CN116362471 A CN 116362471A CN 202310038198 A CN202310038198 A CN 202310038198A CN 116362471 A CN116362471 A CN 116362471A
Authority
CN
China
Prior art keywords
load
building
network
time
energy storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310038198.1A
Other languages
English (en)
Inventor
谢东日
明东岳
彭涛
丁黎
傅晨
樊立攀
刘俊
聂永欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Metering Center of State Grid Hubei Electric Power Co Ltd
Original Assignee
Metering Center of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Metering Center of State Grid Hubei Electric Power Co Ltd filed Critical Metering Center of State Grid Hubei Electric Power Co Ltd
Priority to CN202310038198.1A priority Critical patent/CN116362471A/zh
Publication of CN116362471A publication Critical patent/CN116362471A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Biophysics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)

Abstract

本发明公开了一种考虑储能参与的柔性深度强化学习建筑负荷需求响应方法,该发明主要包括以下步骤:首先,收集多类型建筑的历史负荷数据和储能系统数据,建立负荷模型,提取动作空间和观测空间;其次,设计奖励函数,并对建筑物的需求响应过程建立马尔可夫过程模型;第三,建立动作价值网络,目标价值网络和策略网络;最后,使用历史负荷数据和储能系统数据训练上述网络模型,训练后的网络可根据当前建筑物的负荷状态输出负荷动作序列和负荷可调潜力。本发明考虑到储能系统的参与会增加需求响应动作空间的维度并且引入离散化变量,在更新状态价值网络和策略网络参数的过程中引入动作熵,提高了收敛速度,可实时评估负荷可调潜力。

Description

考虑储能参与的柔性深度强化学习建筑负荷需求响应方法
技术领域
本发明涉及电力系统控制技术领域,具体涉及考虑储能参与的柔性深度强化学习建筑负荷需求响应方法。
背景技术
需求响应是指当电力批发市场价格升高或系统可靠性受威胁时,电力用户接收到供电方发出的诱导性减少负荷的直接补偿通知或者电力价格上升信号后,改变其固有的习惯用电模式,达到减少或者推移某时段的用电负荷而响应电力供应,从而保障电网稳定,并抑制电价上升的短期行为,其作为一种重要的电力需求管理方法逐渐引起了国内外研究人员的关注。
目前有很多技术可实现需求响应的建模和应用,包括深度学习,强化学习和区块链技术。需求响应系统的建模一般从以下几个方面考虑:用户用电负荷的建模,用户用电画像,需求响应价格策略,用户负荷的响应策略,新能源的消纳。
深度强化学习作为一种能够与环境交互的智能算法,成为需求响应这一领域新的研究趋势。由于深度强化学习通过不断与环境交互来提取优化知识,当环境变化时,其提取到的优化知识也能在线更新,自动适应被控系统的不确定性,自动探索到最优解。
但是,传统的离散型深度学习算法在面对高维度的动作空间时,常常会出现无法收敛或者收敛速度过慢的结果,同时也极易陷入局部最优。
发明内容
为了克服上述现有技术存在的问题,本发明的目的在于提供一种考虑储能参与的柔性深度强化学习建筑负荷需求响应方法,解决了用户用电习惯随时间变化后,需求响应策略无法及时适配用户用电习惯变化的问题。
为解决上述技术问题,本发明所采取的技术方案为:
考虑储能参与的柔性深度强化学习建筑负荷需求响应方法,该方法需要收集历史负荷数据,建立负荷模型,根据负荷模型构建强化学习环境,设计奖励函数,对需求响应过程建立马尔可夫过程模型,使用深度强化学习算法训练动作价值网络,目标价值网络和策略网络,包括以下步骤:
S1收集电力系统内建筑物的负荷可调参数和负荷静态参数的范围与量纲,同时收集电力系统内所有建筑物的历史负荷数据和储能系统数据,确定建筑物内不同种类负荷的负荷模型与负荷静态参数,根据负荷模型和历史负荷数据确定需求响应的动作空间和状态空间;
S2根据电力系统的稳定性要求和用户舒适度要求设计不同观测空间的状态对应的奖励函数,并定义折扣回报,对需求响应过程建立马尔可夫过程模型,并构建深度强化学习环境;
S3依据马尔可夫过程模型建立动作价值网络、目标价值网络和策略网络,参考柔性Actor-Critic算法推导状态价值网络的柔性Bellman残差和动作价值网络的KL散度。
S4使用状态价值网络的柔性Bellman残差和动作价值网络的KL散度更新网络参数,用于更新网络参数的数据为历史负荷数据,参数更新收敛条件为整个需求响应时期的折扣回报稳定;训练得到的策略网络根据建筑物负荷状态输出负荷响应动作,目标价值网络根据建筑物负荷状态评估建筑物负荷可调潜力,动作价值网络对建筑物的负荷动作进行负荷可调潜力评估。
所述S1中负荷模型包括不响应负荷模型、温控负荷模型和储能系统负荷模型;其中,温控负荷模型包括空调系统负荷模型和供暖系统负荷模型;
所述不响应负荷模型为:
Figure BDA0004049362190000031
其中,
Figure BDA0004049362190000032
指编号为i的建筑物t时刻不响应负荷的功率,/>
Figure BDA0004049362190000033
指编号为i的建筑物在开启时刻/>
Figure BDA0004049362190000034
到关闭时刻/>
Figure BDA0004049362190000035
之间的平均功率,/>
Figure BDA0004049362190000036
指电力系统内所有建筑物不响应负荷的总功率;
所述空调系统负荷模型为:
Figure BDA0004049362190000037
其中,Cin指建筑物室内等效热容,Rout指建筑物室外的等效热阻,
Figure BDA0004049362190000038
指建筑物t时刻空调系统的总功率,ηAC指空调系统的等效能源效率,Tin,t指t时刻建筑物的等效室内温度,Tout,t指t时刻建筑物的等效室外温度,t指时间,单位为小时;
所述供暖系统负荷模型为:
Figure BDA0004049362190000041
其中,m代表供暖系统内流体的质量,C代表供暖系统循环水管内流体的比热容,(mC)in表示供暖系统散热器内流体的储热系数,t代表时间,单位为小时,Up和Ap分别为循环水管的等效传热系数和接触面积,Ur和Ar表示散热器的等效传热系数和等效面积,Uwall和Awall表示建筑物外墙的等效传热系数和等效面积,Uwin和Awin表示建筑物窗户的等效传热系数和等效面积,Tr表示散热器内流体的等效温度,Tout表示建筑物室外的环境温度,Tin表示建筑物室内的环境温度,Qs指其他设备产生的热能,等于不响应负荷在单位时间内产生的热能。
所述储能系统的负荷模型为:
Figure BDA0004049362190000042
其中,SOCt指储能系统在t时刻的荷电状态,SOCt-1指储能系统在t-1时刻的荷电状态,
Figure BDA0004049362190000043
表示储能系统在t-1时刻的充电功率,/>
Figure BDA0004049362190000044
表示储能系统在t-1时刻的输出功率,ηcharge和ηoutput表示储能系统的充电效率指数和放电效率指数,ηloss指储能系统荷电状态随时间降低的损耗指数,Δt指t-1时刻和t时刻之间的时间间隔。
所述S1中需求响应的动作空间由建筑物的负荷可调参数组成,所述S2中观测空间由收集的历史负荷数据组成,分别包含以下参数:
Figure BDA0004049362190000051
其中,Si,t表示i栋建筑在t时刻的负荷数据观测值,Ai,t表示i栋建筑在t时刻的负荷可调参数,
Figure BDA0004049362190000052
表示电力系统内建筑物i不响应负荷的总功率,Tout指建筑物的室外温度,Tin指建筑物的室内温度,Qs指其他设备产生的热能,/>
Figure BDA0004049362190000053
指建筑物t时刻的空调系统的总功率,/>
Figure BDA0004049362190000054
指储能系统的充电功率,/>
Figure BDA0004049362190000055
指储能系统的输出功率,/>
Figure BDA0004049362190000056
表示t时刻编号为i的建筑物空调系统的可调参数,/>
Figure BDA0004049362190000057
表示t时刻编号为i的建筑物供暖系统的可调参数,/>
Figure BDA0004049362190000058
表示t时刻编号为i的建筑物储能系统的可调参数。
所述S2中的奖励函数包括:负荷响应奖励和越限惩罚,即
Figure BDA0004049362190000059
其中,
Figure BDA00040493621900000510
表示t时刻的负荷响应奖励,/>
Figure BDA00040493621900000511
表示t时刻的越限惩罚;
t时刻的负荷响应奖励为:
Figure BDA00040493621900000512
其中,
Figure BDA00040493621900000513
为电力系统总负荷功率,/>
Figure BDA00040493621900000514
指i栋建筑物与电网交互的净功率:
Figure BDA00040493621900000515
其中,
Figure BDA00040493621900000516
为编号为i的建筑物t时刻不响应负荷的功率,/>
Figure BDA00040493621900000517
为编号为i的建筑物t时刻空调系统负荷的功率,/>
Figure BDA00040493621900000518
指编号为i的建筑物t时刻供暖系统负荷的功率,/>
Figure BDA00040493621900000519
指编号为i的建筑物t时刻储能系统负荷的功率;
越限惩罚为:
Figure BDA0004049362190000061
其中,
Figure BDA0004049362190000062
表示i栋建筑t时刻的越限惩罚,/>
Figure BDA0004049362190000063
表示i栋建筑t时刻的空调系统的越限惩罚,/>
Figure BDA0004049362190000064
表示i栋建筑t时刻的供暖系统的越限惩罚,/>
Figure BDA0004049362190000065
表示i栋建筑t时刻温控系统的浪费惩罚,/>
Figure BDA0004049362190000066
表示i栋建筑t时刻的储能系统的越限惩罚;
空调系统的越限惩罚为:
Figure BDA0004049362190000067
其中,σ表示越限惩罚系数,Tset表示温控系统的设定温度,Tmin表示温控系统的最小设定温度,Tout表示建筑物室外的环境温度;
供暖系统的越限惩罚为:
Figure BDA0004049362190000068
温控系统的浪费惩罚为:
Figure BDA0004049362190000069
其中,Kp表示越限惩罚系数,
Figure BDA00040493621900000610
表示t-1时刻编号为i的建筑物供暖系统的可调参数,/>
Figure BDA00040493621900000611
表示t-1时刻编号为i的建筑物空调系统的可调参数;
储能系统的越限惩罚为:
Figure BDA0004049362190000071
其中,SOCmin表示储能系统最小荷电状态,SOCmax表示储能系统最大荷电状态;
根据奖励函数、动作空间和状态空间建立马尔可夫过程模型,即建筑物下一时刻的负荷状态空间只与上一时刻的负荷状态空间有关,与之前时刻的负荷状态空间无关,且负荷状态空间的转换过程不随时间的变化而变化;依据马尔可夫过程模型以及建筑物负荷模型构建深度强化学习环境。
所述S3中的依据马尔可夫过程模型建立1个策略网络,2个动作价值网络,2个目标价值网络;策略网络的网络架构为三层卷积神经网络与两层全连接神经网络,动作价值网络的网络架构为三层卷积神经网络,两层全连接神经网络与一层池化层,目标价值网络的网络架构为三层卷积神经网络,两层全连接神经网络与一层池化层。
所述S3中的参考柔性Actor-Critic算法推导状态价值网络的柔性Bellman残差和动作价值网络的KL散度;
状态价值网络的柔性Bellman残差为:
Figure BDA0004049362190000072
其中,JQ(φ)指状态价值函数的柔性Bellman残差,Qπ(St,At)指状态价值函数,γ表示折扣化系数,Q(St,At)指目标价值函数,αlogπθ(At|St)指策略πθ的动作熵,
Figure BDA0004049362190000073
表示期望,R(St,At)表示在环境在状态空间St和动作空间At下获得的奖励值;状态价值网络和目标价值网络输出状态价值函数和目标价值函数的期望;
动作价值网络的KL散度为:
Figure BDA0004049362190000081
其中,Jπ(θ)表示动作价值函数的KL散度,策略网络输出动作价值函数的期望。
所述S4中网络参数的更新公式如下:
Figure BDA0004049362190000082
Figure BDA0004049362190000083
ε←(1-τ)φ+τε
其中,φ表示状态价值网络的参数,θ表示策略网络的参数,ε表示目标价值网络的参数,λQ指训练状态价值网络的学习率,λπ表示训练策略网络的学习率,τ表示目标价值网络的更新参数,JQ(φ)指状态价值函数的柔性Bellman残差;
更新流程如下:策略网络输入当前时刻的建筑物的负荷数据,输出可调参数,可调参数作用于环境得到下一个时刻的建筑物负荷数据,建筑物将下一时刻的建筑物负荷数据输入目标价值网络,目标价值网络输出下一时刻目标值,将下一时刻目标值与当前时刻的建筑物负荷数据输入两个状态价值网络,取两个状态价值网络的输出值中较小的作为当前时刻建筑物的状态价值,根据当前时刻建筑物的状态价值和可调参数计算当前时刻负荷可调参数的动作熵,使用动作熵计算得到的KL散度更新动作价值网络,使用动作熵计算得到的柔性Bellman残差更新状态价值网络,最后使用更新后的动作价值网络和状态价值网络的输出值更新目标价值网络
本发明以智能电网,需求响应技术和强化学习技术为基础,以独立建筑物为单位,建立了考虑用户负荷曲线特征的需求响应系统。该系统通过对建筑物中负荷模型的调度,降低系统总的负荷功率峰值,平抑负荷功率波动。
特别地,本发明针对建筑物的需求响应策略由于负荷动作空间维度较大且大多为连续变量导致使用传统离散方法训练神经网络导致的无法收敛,收敛速度较慢的问题,使用柔性深度强化学习算法,使用引入动作熵的柔性Bellman残差和KL散度更新状态价值网络和动作价值网络,提高了训练的收敛速度,同时优化了需求响应策略的“削峰填谷”效果,使得需求响应技术可以更快速地发掘建筑物负荷的响应能力。
附图说明
图1为本发明方法流程图。
图2为神经网络参数更新示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
在本实施例中,系统内参与需求响应的建筑物有九栋,主要包括一个中型写字楼,一个快餐店,一栋移动零售百货,一栋综合购物广场和五栋中型多户住宅。所有建筑位于同一地级市,处于相同的气候区。以往的负荷数据时间跨度为5年,时间单位为小时。图1是基于深度强化学习Actor-Critic算法考虑储能参与的建筑负荷需求响应方法的流程图。如图1所示,包括以下步骤:
步骤S1,收集电力系统内建筑物中负荷可调参数和负荷静态参数的范围与量纲,同时收集电力系统内所有建筑物的历史负荷数据,确定建筑物内不同种类负荷的负荷模型与负荷静态参数,根据负荷模型和历史负荷数据确定需求响应的动作空间和状态空间。
由于收集的负荷数据维度和数据量较大,这里展示负荷数据的主要特征:
表1某地级市数据集建筑物历史负荷数据特征
Figure BDA0004049362190000101
强化学习环境参数收集如下:
表2负荷静态参数(强化学习环境参数)
负荷参数 参数设置值
建筑物室内的等效传热面积 5000m3
建筑物室内的等效传热系数 0.8555
建筑物外墙的等效传热面积 15000m3
建筑物外墙的等效传热系数 0.9533
建筑物窗户的等效传热面积 1000m3
建筑物窗户的等效传热系数 0.9123
中央空调等效能源效率 0.466
所有建筑物中均包含不响应负荷和温控负荷。通过智能电网,调度平台可以获得数据类型有:建筑物的供暖功率,空调系统功率,供暖系统容量,室内温度,室外温度,不响应负荷功率,储能系统的荷电状态。
步骤S2,根据电力系统的稳定性要求和用户舒适度要求设计不同观测空间的状态对应的奖励函数,并定义折扣回报,对需求响应过程建立马尔可夫过程模型,并构建深度强化学习环境。
负荷响应的奖励的需要首先计算总负荷功率和建筑物与电力系统净交换负荷功率,计算当前时刻总负荷功率与过去一天负荷功率平均值的差值,可以得到目前电力系统处于峰值还是谷值状态,对应建筑物需要提高建筑物功率还是降低负荷功率,根据所需动作设置奖励值,帮助建筑物中的储能系统在系统负荷处于谷值时快速充电。
负荷动态参数范围与量纲如下表所示:
表3负荷动态参数范围和量纲
负荷参数 参数设置值
空调系统最大功率 100kW
空调系统最大功率 10kW
供暖系统最大功率 100kW
供暖系统最大功率 10kW
储能系统最大荷电状态 0.99
储能系统最小荷电状态 0.10
奖励函数中越限惩罚的设计参考上述表格。
步骤S3,依据马尔可夫过程模型建立动作价值网络、目标价值网络和策略网络,参考柔性Actor-Critic算法推导状态价值网络的柔性Bellman残差和动作价值网络的KL散度。
策略网络的网络架构为三层卷积神经网络与两层全连接神经网络,动作价值网络的网络架构为三层卷积神经网络,两层全连接神经网络与一层池化层,目标价值网络的网络架构为三层卷积神经网络,两层全连接神经网络与一层池化层。
步骤S4,使用状态价值网络的柔性Bellman残差和动作价值网络的KL散度更新网络参数,用于更新网络参数的数据为历史负荷数据,参数更新收敛条件为整个需求响应时期的折扣回报稳定。训练得到的策略网络可根据建筑物负荷状态输出负荷响应动作,目标价值网络可根据建筑物负荷状态评估建筑物负荷可调潜力,动作价值网络可对建筑物的负荷动作进行负荷可调潜力评估。
图2是价值网络,目标价值网络和策略网络参数更新流程。参数更新流程如下:策略网络输入当前时刻的建筑物的负荷数据,输出可调参数,可调参数作用于环境得到下一个时刻的建筑物负荷数据,建筑物将下一时刻的建筑物负荷数据输入目标价值网络,目标价值网络输出下一时刻目标值,将下一时刻目标值与当前时刻的建筑物负荷数据输入两个状态价值网络,取两个状态价值网络的输出值中较小的作为当前时刻建筑物的状态价值,根据当前时刻建筑物的状态价值和可调参数计算当前时刻负荷可调参数的动作熵,使用动作熵计算得到的KL散度更新动作价值网络,使用动作熵计算得到的柔性Bellman残差更新状态价值网络,最后使用更新后的动作价值网络和状态价值网络的输出值更新目标价值网络。。
网络中超参数设定如下:
表4深度强化学习超参数设置
参数类型 参数设置值
学习率 3×10-4
衰减系数 5×10-3
折扣系数 0.99
目标熵 2×10-4
最终,神经网络经过历史负荷数据的训练,可以输出需求响应策略,该策略可在保证电力系统稳定性的前提下,降低电力系统的负荷波动,得到电力系统在引入电力需求响应方法前后的负荷曲线的特征值对比结果如下:
表5加入需求响应系统前后的负荷特征对比
无需求响应系统 有需求响应系统
负荷曲线坡度 0.941 0.912
峰谷因数 1.078 0.921
平均日均净需求量峰值 1.071 0.939
最高峰值 1.221 0.989
在没有需求响应参与的情况下,所有建筑物一年的总能耗为6696×103kWh,而采用本方法后,所有建筑物一年的总能耗为6291×103kWh,下降了6%。
具体而言,发明中的需求响应系统采用“集中训练+集中调度”的调度模式,需求响应系统收集用户数据,使用系统内所有建筑物的数据进行训练,以获得针对系统内全部建筑的负荷响应策略,最终的优化目标为在不破坏电力系统稳定性的前提下,系统全部的建筑物的折扣回报(即当前时刻与未来所有时刻的折扣化奖励的和)最大。
特别地,本发明针对建筑物的需求响应策略由于负荷动作空间维度较大且大多为连续变量导致使用传统离散方法训练神经网络导致的无法收敛,收敛速度较慢的问题,使用柔性深度强化学习算法,使用引入动作熵的柔性Bellman残差和KL散度更新状态价值网络和动作价值网络,提高了训练的收敛速度,同时优化了需求响应策略的“削峰填谷”效果,使得需求响应技术可以更快速地发掘建筑物负荷的响应能力。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.考虑储能参与的柔性深度强化学习建筑负荷需求响应方法,其特征在于,该方法需要收集历史负荷数据,建立负荷模型,根据负荷模型构建强化学习环境,设计奖励函数,对需求响应过程建立马尔可夫过程模型,使用深度强化学习算法训练动作价值网络,目标价值网络和策略网络,包括以下步骤:
S1收集电力系统内建筑物的负荷可调参数和负荷静态参数的范围与量纲,同时收集电力系统内所有建筑物的历史负荷数据和储能系统数据,确定建筑物内不同种类负荷的负荷模型与负荷静态参数,根据负荷模型和历史负荷数据确定需求响应的动作空间和状态空间;
S2根据电力系统的稳定性要求和用户舒适度要求设计不同观测空间的状态对应的奖励函数,并定义折扣回报,对需求响应过程建立马尔可夫过程模型,并构建深度强化学习环境;
S3依据马尔可夫过程模型建立动作价值网络、目标价值网络和策略网络,参考柔性Actor-Critic算法推导状态价值网络的柔性Bel lman残差和动作价值网络的KL散度。
S4使用状态价值网络的柔性Bel lman残差和动作价值网络的KL散度更新网络参数,用于更新网络参数的数据为历史负荷数据,参数更新收敛条件为整个需求响应时期的折扣回报稳定;训练得到的策略网络根据建筑物负荷状态输出负荷响应动作,目标价值网络根据建筑物负荷状态评估建筑物负荷可调潜力,动作价值网络对建筑物的负荷动作进行负荷可调潜力评估。
2.如权利要求1所述的方法,其特征在于,所述S1中负荷模型包括不响应负荷模型、温控负荷模型和储能系统负荷模型;其中,温控负荷模型包括空调系统负荷模型和供暖系统负荷模型;
所述不响应负荷模型为:
Figure FDA0004049362180000021
Figure FDA0004049362180000022
其中,
Figure FDA0004049362180000023
指编号为i的建筑物t时刻不响应负荷的功率,/>
Figure FDA0004049362180000024
指编号为i的建筑物在开启时刻/>
Figure FDA0004049362180000025
到关闭时刻/>
Figure FDA0004049362180000026
之间的平均功率,/>
Figure FDA0004049362180000027
指电力系统内所有建筑物不响应负荷的总功率;
所述空调系统负荷模型为:
Figure FDA0004049362180000028
其中,Cin指建筑物室内等效热容,Rout指建筑物室外的等效热阻,
Figure FDA0004049362180000029
指建筑物t时刻空调系统的总功率,ηAC指空调系统的等效能源效率,Tin,t指t时刻建筑物的等效室内温度,Tout,t指t时刻建筑物的等效室外温度,t指时间,单位为小时;
所述供暖系统负荷模型为:
Figure FDA0004049362180000031
其中,m代表供暖系统内流体的质量,C代表供暖系统循环水管内流体的比热容,(mC)in表示供暖系统散热器内流体的储热系数,t代表时间,单位为小时,Up和Ap分别为循环水管的等效传热系数和接触面积,Ur和Ar表示散热器的等效传热系数和等效面积,Uwall和Awall表示建筑物外墙的等效传热系数和等效面积,Uwin和Awin表示建筑物窗户的等效传热系数和等效面积,Tr表示散热器内流体的等效温度,Tout表示建筑物室外的环境温度,Tin表示建筑物室内的环境温度,QS指其他设备产生的热能,等于不响应负荷在单位时间内产生的热能。
所述储能系统的负荷模型为:
Figure FDA0004049362180000032
其中,SOCt指储能系统在t时刻的荷电状态,SOCt-1指储能系统在t-1时刻的荷电状态,
Figure FDA0004049362180000033
表示储能系统在t-1时刻的充电功率,/>
Figure FDA0004049362180000034
表示储能系统在t-1时刻的输出功率,ηcharge和ηoutput表示储能系统的充电效率指数和放电效率指数,ηloss指储能系统荷电状态随时间降低的损耗指数,Δt指t-1时刻和t时刻之间的时间间隔。
3.如权利要求1所述的方法,其特征在于,所述S1中需求响应的动作空间由建筑物的负荷可调参数组成,所述S2中观测空间由收集的历史负荷数据组成,分别包含以下参数:
Figure FDA0004049362180000041
Figure FDA0004049362180000042
其中,Si,t表示i栋建筑在t时刻的负荷数据观测值,Ai,t表示i栋建筑在t时刻的负荷可调参数,
Figure FDA0004049362180000043
表示电力系统内建筑物i不响应负荷的总功率,Tout指建筑物的室外温度,Tin指建筑物的室内温度,QS指其他设备产生的热能,/>
Figure FDA0004049362180000044
指建筑物t时刻的空调系统的总功率,
Figure FDA0004049362180000045
指储能系统的充电功率,/>
Figure FDA0004049362180000046
指储能系统的输出功率,/>
Figure FDA0004049362180000047
表示t时刻编号为i的建筑物空调系统的可调参数,/>
Figure FDA0004049362180000048
表示时刻编号为i的建筑物供暖系统的可调参数,/>
Figure FDA0004049362180000049
表示t时刻编号为i的建筑物储能系统的可调参数。
4.如权利要求1所述的方法,其特征在于,所述S2中的奖励函数包括:负荷响应奖励和越限惩罚,即
Figure FDA00040493621800000410
其中,
Figure FDA00040493621800000411
表示t时刻的负荷响应奖励,/>
Figure FDA00040493621800000412
表示t时刻的越限惩罚;
t时刻的负荷响应奖励为:
Figure FDA00040493621800000413
其中,
Figure FDA00040493621800000414
为电力系统总负荷功率,/>
Figure FDA00040493621800000415
指i栋建筑物与电网交互的净功率:
Figure FDA00040493621800000416
其中,
Figure FDA00040493621800000417
为编号为i的建筑物t时刻不响应负荷的功率,/>
Figure FDA00040493621800000418
为编号为i的建筑物t时刻空调系统负荷的功率,/>
Figure FDA00040493621800000419
指编号为i的建筑物t时刻供暖系统负荷的功率,/>
Figure FDA00040493621800000420
指编号为i的建筑物t时刻储能系统负荷的功率;
越限惩罚为:
Figure FDA0004049362180000051
其中,
Figure FDA0004049362180000052
表示i栋建筑t时刻的越限惩罚,/>
Figure FDA0004049362180000053
表示i栋建筑t时刻的空调系统的越限惩罚,/>
Figure FDA0004049362180000054
表示i栋建筑t时刻的供暖系统的越限惩罚,/>
Figure FDA0004049362180000055
表示i栋建筑t时刻温控系统的浪费惩罚,/>
Figure FDA0004049362180000056
表示i栋建筑t时刻的储能系统的越限惩罚;
空调系统的越限惩罚为:
Figure FDA0004049362180000057
其中,σ表示越限惩罚系数,Tset表示温控系统的设定温度,Tmin表示温控系统的最小设定温度,Tout表示建筑物室外的环境温度;
供暖系统的越限惩罚为:
Figure FDA0004049362180000058
温控系统的浪费惩罚为:
Figure FDA0004049362180000059
其中,Kp表示越限惩罚系数,
Figure FDA00040493621800000510
表示t-1时刻编号为i的建筑物供暖系统的可调参数,/>
Figure FDA00040493621800000511
表示t-1时刻编号为i的建筑物空调系统的可调参数;
储能系统的越限惩罚为:
Figure FDA0004049362180000061
其中,SOCmin表示储能系统最小荷电状态,SOCmax表示储能系统最大荷电状态;
根据奖励函数、动作空间和状态空间建立马尔可夫过程模型,即建筑物下一时刻的负荷状态空间只与上一时刻的负荷状态空间有关,与之前时刻的负荷状态空间无关,且负荷状态空间的转换过程不随时间的变化而变化;依据马尔可夫过程模型以及建筑物负荷模型构建深度强化学习环境。
5.如权利要求1所述的方法,其特征在于,所述S3中的依据马尔可夫过程模型建立1个策略网络,2个动作价值网络,2个目标价值网络;策略网络的网络架构为三层卷积神经网络与两层全连接神经网络,动作价值网络的网络架构为三层卷积神经网络,两层全连接神经网络与一层池化层,目标价值网络的网络架构为三层卷积神经网络,两层全连接神经网络与一层池化层。
6.如权利要求1所述的方法,其特征在于,所述S3中的参考柔性Actor-Critic算法推导状态价值网络的柔性Bellman残差和动作价值网络的KL散度;
状态价值网络的柔性Bellman残差为:
Figure FDA0004049362180000062
其中,JQ(φ)指状态价值函数的柔性Bellman残差,Qπ(St,At)指状态价值函数,γ表示折扣化系数,Q(St,At)指目标价值函数,αlogπθ(At|St)指策略πθ的动作熵,
Figure FDA0004049362180000063
表示期望,R(St,At)表示在环境在状态空间St和动作空间At下获得的奖励值;状态价值网络和目标价值网络输出状态价值函数和目标价值函数的期望;
动作价值网络的KL散度为:
Figure FDA0004049362180000071
其中,Jπ(θ)表示动作价值函数的KL散度,策略网络输出动作价值函数的期望。
7.如权利要求1所述的方法,其特征在于,所述S4中网络参数的更新公式如下:
Figure FDA0004049362180000072
Figure FDA0004049362180000073
ε←(1-τ)φ+τε
其中,φ表示状态价值网络的参数,θ表示策略网络的参数,ε表示目标价值网络的参数,λQ指训练状态价值网络的学习率,λπ表示训练策略网络的学习率,τ表示目标价值网络的更新参数,JQ(φ)指状态价值函数的柔性Bellman残差;
更新流程如下:策略网络输入当前时刻的建筑物的负荷数据,输出可调参数,可调参数作用于环境得到下一个时刻的建筑物负荷数据,建筑物将下一时刻的建筑物负荷数据输入目标价值网络,目标价值网络输出下一时刻目标值,将下一时刻目标值与当前时刻的建筑物负荷数据输入两个状态价值网络,取两个状态价值网络的输出值中较小的作为当前时刻建筑物的状态价值,根据当前时刻建筑物的状态价值和可调参数计算当前时刻负荷可调参数的动作熵,使用动作熵计算得到的KL散度更新动作价值网络,使用动作熵计算得到的柔性Bellman残差更新状态价值网络,最后使用更新后的动作价值网络和状态价值网络的输出值更新目标价值网络。
CN202310038198.1A 2023-01-10 2023-01-10 考虑储能参与的柔性深度强化学习建筑负荷需求响应方法 Pending CN116362471A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310038198.1A CN116362471A (zh) 2023-01-10 2023-01-10 考虑储能参与的柔性深度强化学习建筑负荷需求响应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310038198.1A CN116362471A (zh) 2023-01-10 2023-01-10 考虑储能参与的柔性深度强化学习建筑负荷需求响应方法

Publications (1)

Publication Number Publication Date
CN116362471A true CN116362471A (zh) 2023-06-30

Family

ID=86905374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310038198.1A Pending CN116362471A (zh) 2023-01-10 2023-01-10 考虑储能参与的柔性深度强化学习建筑负荷需求响应方法

Country Status (1)

Country Link
CN (1) CN116362471A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726143A (zh) * 2024-02-07 2024-03-19 山东大学 基于深度强化学习的环境友好型微网优化调度方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726143A (zh) * 2024-02-07 2024-03-19 山东大学 基于深度强化学习的环境友好型微网优化调度方法及系统
CN117726143B (zh) * 2024-02-07 2024-05-17 山东大学 基于深度强化学习的环境友好型微网优化调度方法及系统

Similar Documents

Publication Publication Date Title
CN110458443B (zh) 一种基于深度强化学习的智慧家庭能量管理方法及系统
CN110866641B (zh) 计及源储荷协同的多能互补系统两级优化调度方法及系统
Lissa et al. Deep reinforcement learning for home energy management system control
Korkas et al. Grid-connected microgrids: Demand management via distributed control and human-in-the-loop optimization
CN110460040B (zh) 一种考虑智能建筑热平衡特性的微电网运行调度方法
CN104850013B (zh) 一种家用电器的智能用电方法
CN113572157B (zh) 一种基于近端策略优化的用户实时自治能量管理优化方法
CN113112077B (zh) 基于多步预测深度强化学习算法的hvac控制系统
Li et al. Reinforcement learning of room temperature set-point of thermal storage air-conditioning system with demand response
Ali et al. Optimized power control methodology using genetic algorithm
Zhang et al. Optimal scheduling model for smart home energy management system based on the fusion algorithm of harmony search algorithm and particle swarm optimization algorithm
CN110007613A (zh) 用于储热式电暖器的用暖预测方法、系统及存储介质
CN116362471A (zh) 考虑储能参与的柔性深度强化学习建筑负荷需求响应方法
CN115907350B (zh) 一种建筑综合能源系统的能量管理方法及系统
Amasyali et al. Hierarchical model-free transactional control of building loads to support grid services
Ma et al. Two-stage stochastic robust optimization model of microgrid day-ahead dispatching considering controllable air conditioning load
Fu et al. Predictive control of power demand peak regulation based on deep reinforcement learning
CN112560160B (zh) 模型和数据驱动的暖通空调最优设定温度获取方法及设备
CN116231670B (zh) 计及占用影响的集成楼宇hvac负荷群配电网优化方法
Shen et al. Advanced control framework of regenerative electric heating with renewable energy based on multi-agent cooperation
CN117172499A (zh) 一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质
Gong et al. Analysis of electricity consumption behavior of air conditioning based on the perspective of power demand response
CN113435042B (zh) 一种建筑空调系统需求响应的强化学习建模方法
Long et al. Model predictive control for household energy management based on individual habit
CN115169839A (zh) 一种基于数据-物理-知识联合驱动的供暖负荷调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination