CN116362471A - 考虑储能参与的柔性深度强化学习建筑负荷需求响应方法 - Google Patents
考虑储能参与的柔性深度强化学习建筑负荷需求响应方法 Download PDFInfo
- Publication number
- CN116362471A CN116362471A CN202310038198.1A CN202310038198A CN116362471A CN 116362471 A CN116362471 A CN 116362471A CN 202310038198 A CN202310038198 A CN 202310038198A CN 116362471 A CN116362471 A CN 116362471A
- Authority
- CN
- China
- Prior art keywords
- load
- building
- network
- time
- energy storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 title claims abstract description 61
- 238000004146 energy storage Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000002787 reinforcement Effects 0.000 title claims abstract description 26
- 230000009471 action Effects 0.000 claims abstract description 53
- 230000006870 function Effects 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000013500 data storage Methods 0.000 claims abstract description 3
- 238000010438 heat treatment Methods 0.000 claims description 24
- 238000004378 air conditioning Methods 0.000 claims description 23
- 238000012546 transfer Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 239000012530 fluid Substances 0.000 claims description 8
- 230000003068 static effect Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000005338 heat storage Methods 0.000 claims description 2
- 239000002699 waste material Substances 0.000 claims description 2
- 230000001965 increasing effect Effects 0.000 abstract description 4
- 230000005611 electricity Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000005265 energy consumption Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011438 discrete method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 235000013410 fast food Nutrition 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Biophysics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
Abstract
本发明公开了一种考虑储能参与的柔性深度强化学习建筑负荷需求响应方法,该发明主要包括以下步骤:首先,收集多类型建筑的历史负荷数据和储能系统数据,建立负荷模型,提取动作空间和观测空间;其次,设计奖励函数,并对建筑物的需求响应过程建立马尔可夫过程模型;第三,建立动作价值网络,目标价值网络和策略网络;最后,使用历史负荷数据和储能系统数据训练上述网络模型,训练后的网络可根据当前建筑物的负荷状态输出负荷动作序列和负荷可调潜力。本发明考虑到储能系统的参与会增加需求响应动作空间的维度并且引入离散化变量,在更新状态价值网络和策略网络参数的过程中引入动作熵,提高了收敛速度,可实时评估负荷可调潜力。
Description
技术领域
本发明涉及电力系统控制技术领域,具体涉及考虑储能参与的柔性深度强化学习建筑负荷需求响应方法。
背景技术
需求响应是指当电力批发市场价格升高或系统可靠性受威胁时,电力用户接收到供电方发出的诱导性减少负荷的直接补偿通知或者电力价格上升信号后,改变其固有的习惯用电模式,达到减少或者推移某时段的用电负荷而响应电力供应,从而保障电网稳定,并抑制电价上升的短期行为,其作为一种重要的电力需求管理方法逐渐引起了国内外研究人员的关注。
目前有很多技术可实现需求响应的建模和应用,包括深度学习,强化学习和区块链技术。需求响应系统的建模一般从以下几个方面考虑:用户用电负荷的建模,用户用电画像,需求响应价格策略,用户负荷的响应策略,新能源的消纳。
深度强化学习作为一种能够与环境交互的智能算法,成为需求响应这一领域新的研究趋势。由于深度强化学习通过不断与环境交互来提取优化知识,当环境变化时,其提取到的优化知识也能在线更新,自动适应被控系统的不确定性,自动探索到最优解。
但是,传统的离散型深度学习算法在面对高维度的动作空间时,常常会出现无法收敛或者收敛速度过慢的结果,同时也极易陷入局部最优。
发明内容
为了克服上述现有技术存在的问题,本发明的目的在于提供一种考虑储能参与的柔性深度强化学习建筑负荷需求响应方法,解决了用户用电习惯随时间变化后,需求响应策略无法及时适配用户用电习惯变化的问题。
为解决上述技术问题,本发明所采取的技术方案为:
考虑储能参与的柔性深度强化学习建筑负荷需求响应方法,该方法需要收集历史负荷数据,建立负荷模型,根据负荷模型构建强化学习环境,设计奖励函数,对需求响应过程建立马尔可夫过程模型,使用深度强化学习算法训练动作价值网络,目标价值网络和策略网络,包括以下步骤:
S1收集电力系统内建筑物的负荷可调参数和负荷静态参数的范围与量纲,同时收集电力系统内所有建筑物的历史负荷数据和储能系统数据,确定建筑物内不同种类负荷的负荷模型与负荷静态参数,根据负荷模型和历史负荷数据确定需求响应的动作空间和状态空间;
S2根据电力系统的稳定性要求和用户舒适度要求设计不同观测空间的状态对应的奖励函数,并定义折扣回报,对需求响应过程建立马尔可夫过程模型,并构建深度强化学习环境;
S3依据马尔可夫过程模型建立动作价值网络、目标价值网络和策略网络,参考柔性Actor-Critic算法推导状态价值网络的柔性Bellman残差和动作价值网络的KL散度。
S4使用状态价值网络的柔性Bellman残差和动作价值网络的KL散度更新网络参数,用于更新网络参数的数据为历史负荷数据,参数更新收敛条件为整个需求响应时期的折扣回报稳定;训练得到的策略网络根据建筑物负荷状态输出负荷响应动作,目标价值网络根据建筑物负荷状态评估建筑物负荷可调潜力,动作价值网络对建筑物的负荷动作进行负荷可调潜力评估。
所述S1中负荷模型包括不响应负荷模型、温控负荷模型和储能系统负荷模型;其中,温控负荷模型包括空调系统负荷模型和供暖系统负荷模型;
所述不响应负荷模型为:
所述空调系统负荷模型为:
其中,Cin指建筑物室内等效热容,Rout指建筑物室外的等效热阻,指建筑物t时刻空调系统的总功率,ηAC指空调系统的等效能源效率,Tin,t指t时刻建筑物的等效室内温度,Tout,t指t时刻建筑物的等效室外温度,t指时间,单位为小时;
所述供暖系统负荷模型为:
其中,m代表供暖系统内流体的质量,C代表供暖系统循环水管内流体的比热容,(mC)in表示供暖系统散热器内流体的储热系数,t代表时间,单位为小时,Up和Ap分别为循环水管的等效传热系数和接触面积,Ur和Ar表示散热器的等效传热系数和等效面积,Uwall和Awall表示建筑物外墙的等效传热系数和等效面积,Uwin和Awin表示建筑物窗户的等效传热系数和等效面积,Tr表示散热器内流体的等效温度,Tout表示建筑物室外的环境温度,Tin表示建筑物室内的环境温度,Qs指其他设备产生的热能,等于不响应负荷在单位时间内产生的热能。
所述储能系统的负荷模型为:
其中,SOCt指储能系统在t时刻的荷电状态,SOCt-1指储能系统在t-1时刻的荷电状态,表示储能系统在t-1时刻的充电功率,/>表示储能系统在t-1时刻的输出功率,ηcharge和ηoutput表示储能系统的充电效率指数和放电效率指数,ηloss指储能系统荷电状态随时间降低的损耗指数,Δt指t-1时刻和t时刻之间的时间间隔。
所述S1中需求响应的动作空间由建筑物的负荷可调参数组成,所述S2中观测空间由收集的历史负荷数据组成,分别包含以下参数:
其中,Si,t表示i栋建筑在t时刻的负荷数据观测值,Ai,t表示i栋建筑在t时刻的负荷可调参数,表示电力系统内建筑物i不响应负荷的总功率,Tout指建筑物的室外温度,Tin指建筑物的室内温度,Qs指其他设备产生的热能,/>指建筑物t时刻的空调系统的总功率,/>指储能系统的充电功率,/>指储能系统的输出功率,/>表示t时刻编号为i的建筑物空调系统的可调参数,/>表示t时刻编号为i的建筑物供暖系统的可调参数,/>表示t时刻编号为i的建筑物储能系统的可调参数。
所述S2中的奖励函数包括:负荷响应奖励和越限惩罚,即
t时刻的负荷响应奖励为:
越限惩罚为:
其中,表示i栋建筑t时刻的越限惩罚,/>表示i栋建筑t时刻的空调系统的越限惩罚,/>表示i栋建筑t时刻的供暖系统的越限惩罚,/>表示i栋建筑t时刻温控系统的浪费惩罚,/>表示i栋建筑t时刻的储能系统的越限惩罚;
空调系统的越限惩罚为:
其中,σ表示越限惩罚系数,Tset表示温控系统的设定温度,Tmin表示温控系统的最小设定温度,Tout表示建筑物室外的环境温度;
供暖系统的越限惩罚为:
温控系统的浪费惩罚为:
储能系统的越限惩罚为:
其中,SOCmin表示储能系统最小荷电状态,SOCmax表示储能系统最大荷电状态;
根据奖励函数、动作空间和状态空间建立马尔可夫过程模型,即建筑物下一时刻的负荷状态空间只与上一时刻的负荷状态空间有关,与之前时刻的负荷状态空间无关,且负荷状态空间的转换过程不随时间的变化而变化;依据马尔可夫过程模型以及建筑物负荷模型构建深度强化学习环境。
所述S3中的依据马尔可夫过程模型建立1个策略网络,2个动作价值网络,2个目标价值网络;策略网络的网络架构为三层卷积神经网络与两层全连接神经网络,动作价值网络的网络架构为三层卷积神经网络,两层全连接神经网络与一层池化层,目标价值网络的网络架构为三层卷积神经网络,两层全连接神经网络与一层池化层。
所述S3中的参考柔性Actor-Critic算法推导状态价值网络的柔性Bellman残差和动作价值网络的KL散度;
状态价值网络的柔性Bellman残差为:
其中,JQ(φ)指状态价值函数的柔性Bellman残差,Qπ(St,At)指状态价值函数,γ表示折扣化系数,Q(St,At)指目标价值函数,αlogπθ(At|St)指策略πθ的动作熵,表示期望,R(St,At)表示在环境在状态空间St和动作空间At下获得的奖励值;状态价值网络和目标价值网络输出状态价值函数和目标价值函数的期望;
动作价值网络的KL散度为:
其中,Jπ(θ)表示动作价值函数的KL散度,策略网络输出动作价值函数的期望。
所述S4中网络参数的更新公式如下:
ε←(1-τ)φ+τε
其中,φ表示状态价值网络的参数,θ表示策略网络的参数,ε表示目标价值网络的参数,λQ指训练状态价值网络的学习率,λπ表示训练策略网络的学习率,τ表示目标价值网络的更新参数,JQ(φ)指状态价值函数的柔性Bellman残差;
更新流程如下:策略网络输入当前时刻的建筑物的负荷数据,输出可调参数,可调参数作用于环境得到下一个时刻的建筑物负荷数据,建筑物将下一时刻的建筑物负荷数据输入目标价值网络,目标价值网络输出下一时刻目标值,将下一时刻目标值与当前时刻的建筑物负荷数据输入两个状态价值网络,取两个状态价值网络的输出值中较小的作为当前时刻建筑物的状态价值,根据当前时刻建筑物的状态价值和可调参数计算当前时刻负荷可调参数的动作熵,使用动作熵计算得到的KL散度更新动作价值网络,使用动作熵计算得到的柔性Bellman残差更新状态价值网络,最后使用更新后的动作价值网络和状态价值网络的输出值更新目标价值网络
本发明以智能电网,需求响应技术和强化学习技术为基础,以独立建筑物为单位,建立了考虑用户负荷曲线特征的需求响应系统。该系统通过对建筑物中负荷模型的调度,降低系统总的负荷功率峰值,平抑负荷功率波动。
特别地,本发明针对建筑物的需求响应策略由于负荷动作空间维度较大且大多为连续变量导致使用传统离散方法训练神经网络导致的无法收敛,收敛速度较慢的问题,使用柔性深度强化学习算法,使用引入动作熵的柔性Bellman残差和KL散度更新状态价值网络和动作价值网络,提高了训练的收敛速度,同时优化了需求响应策略的“削峰填谷”效果,使得需求响应技术可以更快速地发掘建筑物负荷的响应能力。
附图说明
图1为本发明方法流程图。
图2为神经网络参数更新示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
在本实施例中,系统内参与需求响应的建筑物有九栋,主要包括一个中型写字楼,一个快餐店,一栋移动零售百货,一栋综合购物广场和五栋中型多户住宅。所有建筑位于同一地级市,处于相同的气候区。以往的负荷数据时间跨度为5年,时间单位为小时。图1是基于深度强化学习Actor-Critic算法考虑储能参与的建筑负荷需求响应方法的流程图。如图1所示,包括以下步骤:
步骤S1,收集电力系统内建筑物中负荷可调参数和负荷静态参数的范围与量纲,同时收集电力系统内所有建筑物的历史负荷数据,确定建筑物内不同种类负荷的负荷模型与负荷静态参数,根据负荷模型和历史负荷数据确定需求响应的动作空间和状态空间。
由于收集的负荷数据维度和数据量较大,这里展示负荷数据的主要特征:
表1某地级市数据集建筑物历史负荷数据特征
强化学习环境参数收集如下:
表2负荷静态参数(强化学习环境参数)
负荷参数 | 参数设置值 |
建筑物室内的等效传热面积 | 5000m3 |
建筑物室内的等效传热系数 | 0.8555 |
建筑物外墙的等效传热面积 | 15000m3 |
建筑物外墙的等效传热系数 | 0.9533 |
建筑物窗户的等效传热面积 | 1000m3 |
建筑物窗户的等效传热系数 | 0.9123 |
中央空调等效能源效率 | 0.466 |
所有建筑物中均包含不响应负荷和温控负荷。通过智能电网,调度平台可以获得数据类型有:建筑物的供暖功率,空调系统功率,供暖系统容量,室内温度,室外温度,不响应负荷功率,储能系统的荷电状态。
步骤S2,根据电力系统的稳定性要求和用户舒适度要求设计不同观测空间的状态对应的奖励函数,并定义折扣回报,对需求响应过程建立马尔可夫过程模型,并构建深度强化学习环境。
负荷响应的奖励的需要首先计算总负荷功率和建筑物与电力系统净交换负荷功率,计算当前时刻总负荷功率与过去一天负荷功率平均值的差值,可以得到目前电力系统处于峰值还是谷值状态,对应建筑物需要提高建筑物功率还是降低负荷功率,根据所需动作设置奖励值,帮助建筑物中的储能系统在系统负荷处于谷值时快速充电。
负荷动态参数范围与量纲如下表所示:
表3负荷动态参数范围和量纲
负荷参数 | 参数设置值 |
空调系统最大功率 | 100kW |
空调系统最大功率 | 10kW |
供暖系统最大功率 | 100kW |
供暖系统最大功率 | 10kW |
储能系统最大荷电状态 | 0.99 |
储能系统最小荷电状态 | 0.10 |
奖励函数中越限惩罚的设计参考上述表格。
步骤S3,依据马尔可夫过程模型建立动作价值网络、目标价值网络和策略网络,参考柔性Actor-Critic算法推导状态价值网络的柔性Bellman残差和动作价值网络的KL散度。
策略网络的网络架构为三层卷积神经网络与两层全连接神经网络,动作价值网络的网络架构为三层卷积神经网络,两层全连接神经网络与一层池化层,目标价值网络的网络架构为三层卷积神经网络,两层全连接神经网络与一层池化层。
步骤S4,使用状态价值网络的柔性Bellman残差和动作价值网络的KL散度更新网络参数,用于更新网络参数的数据为历史负荷数据,参数更新收敛条件为整个需求响应时期的折扣回报稳定。训练得到的策略网络可根据建筑物负荷状态输出负荷响应动作,目标价值网络可根据建筑物负荷状态评估建筑物负荷可调潜力,动作价值网络可对建筑物的负荷动作进行负荷可调潜力评估。
图2是价值网络,目标价值网络和策略网络参数更新流程。参数更新流程如下:策略网络输入当前时刻的建筑物的负荷数据,输出可调参数,可调参数作用于环境得到下一个时刻的建筑物负荷数据,建筑物将下一时刻的建筑物负荷数据输入目标价值网络,目标价值网络输出下一时刻目标值,将下一时刻目标值与当前时刻的建筑物负荷数据输入两个状态价值网络,取两个状态价值网络的输出值中较小的作为当前时刻建筑物的状态价值,根据当前时刻建筑物的状态价值和可调参数计算当前时刻负荷可调参数的动作熵,使用动作熵计算得到的KL散度更新动作价值网络,使用动作熵计算得到的柔性Bellman残差更新状态价值网络,最后使用更新后的动作价值网络和状态价值网络的输出值更新目标价值网络。。
网络中超参数设定如下:
表4深度强化学习超参数设置
参数类型 | 参数设置值 |
学习率 | 3×10-4 |
衰减系数 | 5×10-3 |
折扣系数 | 0.99 |
目标熵 | 2×10-4 |
最终,神经网络经过历史负荷数据的训练,可以输出需求响应策略,该策略可在保证电力系统稳定性的前提下,降低电力系统的负荷波动,得到电力系统在引入电力需求响应方法前后的负荷曲线的特征值对比结果如下:
表5加入需求响应系统前后的负荷特征对比
无需求响应系统 | 有需求响应系统 | |
负荷曲线坡度 | 0.941 | 0.912 |
峰谷因数 | 1.078 | 0.921 |
平均日均净需求量峰值 | 1.071 | 0.939 |
最高峰值 | 1.221 | 0.989 |
在没有需求响应参与的情况下,所有建筑物一年的总能耗为6696×103kWh,而采用本方法后,所有建筑物一年的总能耗为6291×103kWh,下降了6%。
具体而言,发明中的需求响应系统采用“集中训练+集中调度”的调度模式,需求响应系统收集用户数据,使用系统内所有建筑物的数据进行训练,以获得针对系统内全部建筑的负荷响应策略,最终的优化目标为在不破坏电力系统稳定性的前提下,系统全部的建筑物的折扣回报(即当前时刻与未来所有时刻的折扣化奖励的和)最大。
特别地,本发明针对建筑物的需求响应策略由于负荷动作空间维度较大且大多为连续变量导致使用传统离散方法训练神经网络导致的无法收敛,收敛速度较慢的问题,使用柔性深度强化学习算法,使用引入动作熵的柔性Bellman残差和KL散度更新状态价值网络和动作价值网络,提高了训练的收敛速度,同时优化了需求响应策略的“削峰填谷”效果,使得需求响应技术可以更快速地发掘建筑物负荷的响应能力。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.考虑储能参与的柔性深度强化学习建筑负荷需求响应方法,其特征在于,该方法需要收集历史负荷数据,建立负荷模型,根据负荷模型构建强化学习环境,设计奖励函数,对需求响应过程建立马尔可夫过程模型,使用深度强化学习算法训练动作价值网络,目标价值网络和策略网络,包括以下步骤:
S1收集电力系统内建筑物的负荷可调参数和负荷静态参数的范围与量纲,同时收集电力系统内所有建筑物的历史负荷数据和储能系统数据,确定建筑物内不同种类负荷的负荷模型与负荷静态参数,根据负荷模型和历史负荷数据确定需求响应的动作空间和状态空间;
S2根据电力系统的稳定性要求和用户舒适度要求设计不同观测空间的状态对应的奖励函数,并定义折扣回报,对需求响应过程建立马尔可夫过程模型,并构建深度强化学习环境;
S3依据马尔可夫过程模型建立动作价值网络、目标价值网络和策略网络,参考柔性Actor-Critic算法推导状态价值网络的柔性Bel lman残差和动作价值网络的KL散度。
S4使用状态价值网络的柔性Bel lman残差和动作价值网络的KL散度更新网络参数,用于更新网络参数的数据为历史负荷数据,参数更新收敛条件为整个需求响应时期的折扣回报稳定;训练得到的策略网络根据建筑物负荷状态输出负荷响应动作,目标价值网络根据建筑物负荷状态评估建筑物负荷可调潜力,动作价值网络对建筑物的负荷动作进行负荷可调潜力评估。
2.如权利要求1所述的方法,其特征在于,所述S1中负荷模型包括不响应负荷模型、温控负荷模型和储能系统负荷模型;其中,温控负荷模型包括空调系统负荷模型和供暖系统负荷模型;
所述不响应负荷模型为:
所述空调系统负荷模型为:
其中,Cin指建筑物室内等效热容,Rout指建筑物室外的等效热阻,指建筑物t时刻空调系统的总功率,ηAC指空调系统的等效能源效率,Tin,t指t时刻建筑物的等效室内温度,Tout,t指t时刻建筑物的等效室外温度,t指时间,单位为小时;
所述供暖系统负荷模型为:
其中,m代表供暖系统内流体的质量,C代表供暖系统循环水管内流体的比热容,(mC)in表示供暖系统散热器内流体的储热系数,t代表时间,单位为小时,Up和Ap分别为循环水管的等效传热系数和接触面积,Ur和Ar表示散热器的等效传热系数和等效面积,Uwall和Awall表示建筑物外墙的等效传热系数和等效面积,Uwin和Awin表示建筑物窗户的等效传热系数和等效面积,Tr表示散热器内流体的等效温度,Tout表示建筑物室外的环境温度,Tin表示建筑物室内的环境温度,QS指其他设备产生的热能,等于不响应负荷在单位时间内产生的热能。
所述储能系统的负荷模型为:
3.如权利要求1所述的方法,其特征在于,所述S1中需求响应的动作空间由建筑物的负荷可调参数组成,所述S2中观测空间由收集的历史负荷数据组成,分别包含以下参数:
4.如权利要求1所述的方法,其特征在于,所述S2中的奖励函数包括:负荷响应奖励和越限惩罚,即
t时刻的负荷响应奖励为:
越限惩罚为:
其中,表示i栋建筑t时刻的越限惩罚,/>表示i栋建筑t时刻的空调系统的越限惩罚,/>表示i栋建筑t时刻的供暖系统的越限惩罚,/>表示i栋建筑t时刻温控系统的浪费惩罚,/>表示i栋建筑t时刻的储能系统的越限惩罚;
空调系统的越限惩罚为:
其中,σ表示越限惩罚系数,Tset表示温控系统的设定温度,Tmin表示温控系统的最小设定温度,Tout表示建筑物室外的环境温度;
供暖系统的越限惩罚为:
温控系统的浪费惩罚为:
储能系统的越限惩罚为:
其中,SOCmin表示储能系统最小荷电状态,SOCmax表示储能系统最大荷电状态;
根据奖励函数、动作空间和状态空间建立马尔可夫过程模型,即建筑物下一时刻的负荷状态空间只与上一时刻的负荷状态空间有关,与之前时刻的负荷状态空间无关,且负荷状态空间的转换过程不随时间的变化而变化;依据马尔可夫过程模型以及建筑物负荷模型构建深度强化学习环境。
5.如权利要求1所述的方法,其特征在于,所述S3中的依据马尔可夫过程模型建立1个策略网络,2个动作价值网络,2个目标价值网络;策略网络的网络架构为三层卷积神经网络与两层全连接神经网络,动作价值网络的网络架构为三层卷积神经网络,两层全连接神经网络与一层池化层,目标价值网络的网络架构为三层卷积神经网络,两层全连接神经网络与一层池化层。
6.如权利要求1所述的方法,其特征在于,所述S3中的参考柔性Actor-Critic算法推导状态价值网络的柔性Bellman残差和动作价值网络的KL散度;
状态价值网络的柔性Bellman残差为:
其中,JQ(φ)指状态价值函数的柔性Bellman残差,Qπ(St,At)指状态价值函数,γ表示折扣化系数,Q(St,At)指目标价值函数,αlogπθ(At|St)指策略πθ的动作熵,表示期望,R(St,At)表示在环境在状态空间St和动作空间At下获得的奖励值;状态价值网络和目标价值网络输出状态价值函数和目标价值函数的期望;
动作价值网络的KL散度为:
其中,Jπ(θ)表示动作价值函数的KL散度,策略网络输出动作价值函数的期望。
7.如权利要求1所述的方法,其特征在于,所述S4中网络参数的更新公式如下:
ε←(1-τ)φ+τε
其中,φ表示状态价值网络的参数,θ表示策略网络的参数,ε表示目标价值网络的参数,λQ指训练状态价值网络的学习率,λπ表示训练策略网络的学习率,τ表示目标价值网络的更新参数,JQ(φ)指状态价值函数的柔性Bellman残差;
更新流程如下:策略网络输入当前时刻的建筑物的负荷数据,输出可调参数,可调参数作用于环境得到下一个时刻的建筑物负荷数据,建筑物将下一时刻的建筑物负荷数据输入目标价值网络,目标价值网络输出下一时刻目标值,将下一时刻目标值与当前时刻的建筑物负荷数据输入两个状态价值网络,取两个状态价值网络的输出值中较小的作为当前时刻建筑物的状态价值,根据当前时刻建筑物的状态价值和可调参数计算当前时刻负荷可调参数的动作熵,使用动作熵计算得到的KL散度更新动作价值网络,使用动作熵计算得到的柔性Bellman残差更新状态价值网络,最后使用更新后的动作价值网络和状态价值网络的输出值更新目标价值网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310038198.1A CN116362471A (zh) | 2023-01-10 | 2023-01-10 | 考虑储能参与的柔性深度强化学习建筑负荷需求响应方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310038198.1A CN116362471A (zh) | 2023-01-10 | 2023-01-10 | 考虑储能参与的柔性深度强化学习建筑负荷需求响应方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116362471A true CN116362471A (zh) | 2023-06-30 |
Family
ID=86905374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310038198.1A Pending CN116362471A (zh) | 2023-01-10 | 2023-01-10 | 考虑储能参与的柔性深度强化学习建筑负荷需求响应方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116362471A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726143A (zh) * | 2024-02-07 | 2024-03-19 | 山东大学 | 基于深度强化学习的环境友好型微网优化调度方法及系统 |
-
2023
- 2023-01-10 CN CN202310038198.1A patent/CN116362471A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726143A (zh) * | 2024-02-07 | 2024-03-19 | 山东大学 | 基于深度强化学习的环境友好型微网优化调度方法及系统 |
CN117726143B (zh) * | 2024-02-07 | 2024-05-17 | 山东大学 | 基于深度强化学习的环境友好型微网优化调度方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458443B (zh) | 一种基于深度强化学习的智慧家庭能量管理方法及系统 | |
CN110866641B (zh) | 计及源储荷协同的多能互补系统两级优化调度方法及系统 | |
Lissa et al. | Deep reinforcement learning for home energy management system control | |
Zhou et al. | Using long short-term memory networks to predict energy consumption of air-conditioning systems | |
Korkas et al. | Grid-connected microgrids: Demand management via distributed control and human-in-the-loop optimization | |
Luo et al. | A multistage home energy management system with residential photovoltaic penetration | |
CN110460040B (zh) | 一种考虑智能建筑热平衡特性的微电网运行调度方法 | |
CN104850013B (zh) | 一种家用电器的智能用电方法 | |
CN113572157B (zh) | 一种基于近端策略优化的用户实时自治能量管理优化方法 | |
CN113112077B (zh) | 基于多步预测深度强化学习算法的hvac控制系统 | |
Ali et al. | Optimized power control methodology using genetic algorithm | |
Li et al. | Reinforcement learning of room temperature set-point of thermal storage air-conditioning system with demand response | |
Zhang et al. | Optimal scheduling model for smart home energy management system based on the fusion algorithm of harmony search algorithm and particle swarm optimization algorithm | |
CN110007613A (zh) | 用于储热式电暖器的用暖预测方法、系统及存储介质 | |
CN116362471A (zh) | 考虑储能参与的柔性深度强化学习建筑负荷需求响应方法 | |
CN114862252A (zh) | 可调负荷多层聚合调度潜力分析方法、系统、设备及介质 | |
Georgiou et al. | Implementing artificial neural networks in energy building applications—A review | |
Amasyali et al. | Hierarchical model-free transactional control of building loads to support grid services | |
CN117172499A (zh) | 一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质 | |
Fu et al. | Predictive control of power demand peak regulation based on deep reinforcement learning | |
CN116231670B (zh) | 计及占用影响的集成楼宇hvac负荷群配电网优化方法 | |
CN109343461A (zh) | 一种楼宇自动化控制系统的节能控制方法 | |
CN112560160A (zh) | 模型和数据驱动的暖通空调最优设定温度获取方法及设备 | |
Gong et al. | Analysis of electricity consumption behavior of air conditioning based on the perspective of power demand response | |
CN113435042B (zh) | 一种建筑空调系统需求响应的强化学习建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |