CN113850503A - 一种电热水器需求响应优化方法、设备及介质 - Google Patents

一种电热水器需求响应优化方法、设备及介质 Download PDF

Info

Publication number
CN113850503A
CN113850503A CN202111125770.5A CN202111125770A CN113850503A CN 113850503 A CN113850503 A CN 113850503A CN 202111125770 A CN202111125770 A CN 202111125770A CN 113850503 A CN113850503 A CN 113850503A
Authority
CN
China
Prior art keywords
water heater
electric water
control action
reinforcement learning
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111125770.5A
Other languages
English (en)
Inventor
杨雨瑶
冯浩洋
李经儒
潘峰
马键
张捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Measurement Center of Guangdong Power Grid Co Ltd
Metrology Center of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Measurement Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Measurement Center of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202111125770.5A priority Critical patent/CN113850503A/zh
Publication of CN113850503A publication Critical patent/CN113850503A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Heat-Pump Type And Storage Water Heaters (AREA)

Abstract

本发明公开了一种电热水器需求响应优化方法、设备及介质,该方法包括:根据获取的相关数据确定电热水器需求响应优化的知识规则以及构建强化学习模型,结合电热水器控制周期的电价趋势指示信号,对应生成电热水器需求响应优化的第一控制动作以及第二控制动作,并输入预设的控制动作选择器进行处理,根据预设的概率选择第一控制动作与第二控制动作中的一种执行仿真,并结合强化学习状态量以及预设的强化学习回报函数以确定强化学习样本,将强化学习样本输入强化学习模型进行训练至收敛,由其输出的第三控制动作以控制实际电热水器运行。本发明通过结合知识规则和强化学习,以提高电热水器需求响应优化的效率。

Description

一种电热水器需求响应优化方法、设备及介质
技术领域
本发明涉及电力系统优化技术领域,尤其涉及一种电热水器需求响应优化方法、设备及介质。
背景技术
日益重视节能减排的情况下,电力需求响应作为节能减排的重要措施,推行力度越来越大,家用热水器是重要的电力负荷,也是需求响应重要的推行对象,这就要求电热水器具有响应电价信号调整加热时间的能力,进而达到降低电费的目的。家用热水器安装于居民住宅内,居民对打搅敏感,不宜通过人工调节的方式实现需求响应,因此要求热水器自动适应电价、环境水温、热水需求等各种不确定性,实现需求响应自动化。
当前家用实际热水器常用的控制方式是“最大化用户舒适性”,不考虑电价波动,让电热水器中的热水温度总是维持在特定值。这种方法具有全自动化的特点,不需要为每台热水器开发特定的控制方案,然而在需求响应的环境下电价动态变化,而这种方式不区分电价波动,将造成用户电费支出多,与此同时,电力系统根据负荷平衡的要求制定电价,由于这种方法不响应电价,可能消耗电力系统资源平衡负荷,造成社会总能耗增加。
现有技术针对热水器的需求响应进行了大量的研究,这些研究大体上分成三类。第一类是基于规则的需求响应优化,这类研究主要根据未来数小时电价的变化趋势和当前热水温度等信息,用一定规则决策热水器的加热时间,这类方法具有简单、自动化的优点,但这种方法对热水器热力学特性考虑不足,难以得到全局优化解。第二类是基于最优化方法的需求响应优化,这种方法建立热水器热力学数学模型,结合预测的未来一段时间电价、环境水温、热水需求量、环境温度等信息,采用数学方法求解优化方程,得到最优解,这种方法能获得全局优化解,但这种方法具有用户针对性,属于逐例解决的方式,难以推广到千家万户。第三类是学习型的需求响应优化,这类方法的总体思路是获取热水器需求响应优化运行数据,然后用这些数据训练机器学习网络,网络收敛后,用于该热水器需求响应优化,这种方法具有自适应系统不确定性的优点,便于实现需求响应自动化,但电热水器需求响应的优化解非常稀疏,目前,如何高效探索到优化解,从而降低样本采集代价、保证优化的实时性,仍旧是难点问题。
发明内容
本发明目的在于,提供一种电热水器需求响应优化方法、设备及介质,以解决目前针对电热水器需求响应优化效率低且成本较高的问题。
为实现上述目的,本发明提供一种电热水器需求响应优化方法,包括:
根据目标调度日的起始热水温度、目标调度日逐时段电价、目标调度日逐时段环境水温以及目标调度日逐时段热水需求量,确定电热水器需求响应优化的知识规则以及构建强化学习模型;
获取电热水器控制周期的电价趋势指示信号,并结合所述电热水器需求响应优化的知识规则以及所述构建强化学习模型,对应生成电热水器需求响应优化的第一控制动作以及第二控制动作;
将所述第一控制动作与所述第二控制动作输入预设的控制动作选择器进行处理,以使所述控制动作选择器根据预设的概率输出所述第一控制动作与所述第二控制动作中的一种;
根据所述控制动作选择器输出的控制动作输入到数据驱动的电热水器模型执行仿真,并结合强化学习状态量以及预设的强化学习回报函数,确定强化学习样本;
将所述强化学习样本输入所述强化学习模型进行训练至收敛,由其输出的第三控制动作以控制实际电热水器运行。
优选地,所述生成电热水器需求响应优化的第一控制动作,包括:
根据电热水器的控制周期对目标调度日进行时间分段并依次编号;
根据获取第n时段的电价与预设时段的电价确定所述电价趋势指示信号;
参照所述电热水器需求响应优化的知识规则,根据所述电价趋势指示信号、第n时段电热水器热水温度以及用户舒适热水温度区间中心值确定所述第一控制动作。
优选地,所述根据获取第n时段的电价与预设时段的电价确定所述电价趋势指示信号,包括:
获取所述预设时段的电价的平均值;
比较所述第n时段的电价与所述预设时段的电价的平均值的大小,获取所述电价趋势指示信号,所述电价趋势指示信号包括第一电价趋势指示信号、第二电价趋势指示信号与第三电价趋势指示信号中的任一种;其中,
若所述第n时段的电价大于所述预设时段的电价的平均值,则获取所述第一电价趋势指示信号;
若所述第n时段的电价小于所述预设时段的电价的平均值,则获取所述第二电价趋势指示信号;
若所述第n时段的电价等于所述预设时段的电价的平均值,则获取所述第三电价趋势指示信号。
优选地,所述参照所述电热水器需求响应优化的知识规则,根据所述电价趋势指示信号、第n时段电热水器热水温度以及用户舒适热水温度区间中心值确定所述第一控制动作,包括:
比较所述第n时段电热水器热水温度与所述用户舒适热水温度区间中心值的大小,并结合所述电价趋势指示信号与预设时段的热水需求的平均值,确定所述第一控制动作,其中,所述第一控制动作包括电热水器以额定功率加热指令或电热水器不加热指令;
若所述第n时段电热水器热水温度小于所述用户舒适热水温度区间中心值、结合所述电价趋势指示信号且所述预设时段的热水需求的平均值不为零,则获取所述电热水器以额定功率加热指令,否则,获取所述电热水器不加热指令。
优选地,所述若所述第n时段电热水器热水温度小于所述用户舒适热水温度区间中心值、结合所述电价趋势指示信号且所述预设时段的热水需求的平均值不为零,则获取所述电热水器以额定功率加热指令,包括:
所述预设时段的热水需求的平均值包括第n时段至第G1时段的热水需求的平均值或第n时段至第G2时段的热水需求的平均值,其中,
G1=n+N0
Figure BDA0003277009830000031
式中,N0表示时间窗口长度,
Figure BDA0003277009830000032
表示第n时段的环境水温,Winc表示电热水器上升的温度,Wset表示所述用户舒适热水温度区间中心值;
若所述第n时段电热水器热水温度小于所述用户舒适热水温度区间中心值、结合所述第二电价趋势指示信号且所述第n时段至第G1时段的热水需求的平均值不为零,则获取所述电热水器以额定功率加热指令;
若所述第n时段电热水器热水温度小于所述用户舒适热水温度区间中心值、结合所述电价趋势指示信号中非所述第二电价趋势指示信号中的一种,且所述第n时段至第G2时段的热水需求的平均值不为零,则获取所述电热水器以额定功率加热指令。
优选地,将所述第一控制动作与所述第二控制动作输入预设的控制动作选择器进行处理,以使所述控制动作选择器根据预设的概率输出所述第一控制动作与所述第二控制动作中的一种,包括:
将所述第一控制动作与所述第二控制动作输入预设的控制动作选择器进行处理,根据预设的概率P1确定所述第一控制动作,根据预设的概率P2确定所述第二控制动作;其中,P2=1-P1,所述预设的概率P1和所述预设的概率P2的取值受控于强化学习进程。
优选地,所述将所述强化学习样本输入所述强化学习模型进行训练,包括:
所述强化学习样本包括:第n时段的强化学习状态量、第n+1时段的强化学习状态量、所述第一控制动作以及根据所述第一控制动作生成的预设的强化学习回报函数;
将所述强化学习样本输入预设的样本池及其管理规则,获取M个所述强化学习样本,将M个所述强化学习样本输入所述强化学习模型进行训练。
优选地,所述将所述强化学习样本输入所述强化学习模型进行训练至收敛后,输出第三控制动作以控制实际电热水器运行,包括:
所述强化学习模型包括目标网络与评估网络;
将M个所述强化学习样本输入所述目标网络获取评估网络参数;
根据将所述评估网络参数、所述第n时段的状态量输入所述评估网络判定所述评估网络是否收敛,收敛后输出第三控制动作以控制实际电热水器运行。
本发明还提供一种终端设备,包括:
一个或多个处理器;
存储器,与所述处理器耦接,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上任一项所述的电热水器需求响应优化方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行实现如上任一项所述的电热水器需求响应优化方法。
相对于现有技术,本发明的有益效果在于:
根据电热水器的加热控制信号构建电热水器需求响应优化的知识规则,获取第一控制动作,根据预设的电热水器需求响应优化的强化学习模型,获取第二控制动作,根据预设的概率选取第一控制动作与第二控制动作中的一种,输入预设的数据驱动的电热水器模型执行仿真,并结合强化学习状态量以及预设的强化学习回报函数确定强化学习样本,将强化学习样本输入强化学习模型进行训练至收敛后,输出第三控制动作以控制实际电热水器运行。通过将知识规则和强化学习的结合,高精度、自动、高效率适应电价、环境水温的不确定性,降低用户的电热水器电费。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明某一实施例提供的电热水器需求响应优化方法的流程示意图;
图2是本发明另一实施例提供的知识与强化学习融合机制示意图;
图3是本发明又一实施例提供的已收敛的强化学习模型工作原理图;
图4是本发明某一实施例提供的基于DQN的电热水器需求响应优化的强化学习模型示意图;
图5是本发明另一实施例提供的目标网络和评估网络的结构图;
图6是本发明某一实施例提供的计算机终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,本发明某一实施例提供一种电热水器需求响应优化方法,包括以下步骤:
S101:根据目标调度日的起始热水温度、目标调度日逐时段电价、目标调度日逐时段环境水温以及目标调度日逐时段热水需求量,确定电热水器需求响应优化的知识规则以及构建强化学习模型。
S102:获取电热水器控制周期的电价趋势指示信号,并结合所述电热水器需求响应优化的知识规则以及所述构建强化学习模型,对应生成电热水器需求响应优化的第一控制动作以及第二控制动作。
具体的,获取目标调度日的以下信息,起始时段的热水温度、24小时逐时段电价、24小时逐时段环境水温,24小时逐时段热水需求量,并获取电热水器额定功率、电热水器额定容积,以降低电热水器的电费支出为目标,建立电热水器需求响应优化的知识规则。
获取起始时段的热水温度、24小时逐时段电价、24小时逐时段环境水温,24小时逐时段热水需求量,以满足用户舒适性要求且电热水器未来24小时电费最少为目标,建立基于DQN的电热水器需求响应优化的强化学习模型。
根据电热水器的控制周期对时间进行分段并依次编号,根据获取第n时段的电价与预设时段的电价确定电价趋势指示信号,根据电价趋势指示信号、第n时段电热水器热水温度以及用户舒适热水温度区间中心值,获取第一控制动作。具体的,假设电热水器的控制周期为t0,也就是一个时段长t0,t0值不大于1.5小时且不小于0.25小时,默认值为1小时,以t0为间隔对时间进行分段、按自然数顺序对时段依次编号。
获取预设时段的电价的平均值,比较第n时段的电价与预设时段的电价的平均值的大小,获取电价趋势指示信号,电价趋势指示信号包括第一电价趋势指示信号、第二电价趋势指示信号与第三电价趋势指示信号中的任一种。电价趋势指示信号cp的生成,第一电价趋势指示信号、第二电价趋势指示信号与第三电价趋势指示信号,其值分别为-1、0和1,确定cp值的具体方法为,如果设当前处理的是第n时段,则按顺序执行下列规则生成cp
若第n时段的电价大于预设时段的电价的平均值,则获取第一电价趋势指示信号,具体为:如果第n时段的电价Pn大于时段G1的电价的平均值,则令cp=-1,其中N0表示时间窗口长度,N0为大于1的整数,G1覆盖的时间不小于3小时,不大于23小时,N0默认值取6,其中,G1=n+N0
若第n时段的电价小于预设时段的电价的平均值,则获取第二电价趋势指示信号,如果Pn小于时段G1的电价的平均值,则令cp=1。
若第n时段的电价等于预设时段的电价的平均值,则获取第三电价趋势指示信号,cp=0。
电热水器加热控制的知识规则生成,具体方法是:设当前时间是第n个时段,则按顺序执行下列规则生成基于知识规则的第n个时段电热水器的加热控制信号
Figure BDA0003277009830000061
为1表示第n时段电热水器以额定功率加热指令,
Figure BDA0003277009830000062
为0表示第n时段电热水器不加热指令。比较第n时段电热水器热水温度与用户舒适热水温度区间中心值的大小,并结合电价趋势指示信号与预设时段的热水需求的平均值,确定第一控制动作,其中,第一控制动作包括电热水器以额定功率加热指令或电热水器不加热指令。
若第n时段电热水器热水温度小于用户舒适热水温度区间中心值、结合电价趋势指示信号且预设时段的热水需求的平均值不为零,则获取电热水器以额定功率加热指令,否则,获取电热水器不加热指令。预设时段的热水需求的平均值包括第n时段至第G1时段[n,n+N0]的热水需求的平均值或第n时段至第G2时段[n,n+N1]的热水需求的平均值,其中G1、G2表示如下:
G1=n+N0
Figure BDA0003277009830000071
式中,N0表示时间窗口长度,
Figure BDA0003277009830000072
表示第n时段的环境水温,Winc是电热水器以额定功率对该电热水器额定容积的水量加热t0时间上升的温度,int表示四舍五入法取整,t0是电热水器控制周期,Wset表示用户舒适热水温度区间中心值。
若第n时段电热水器热水温度小于用户舒适热水温度区间中心值、结合第二电价趋势指示信号且第n时段至第G1时段的热水需求的平均值不为零,则获取电热水器以额定功率加热指令,具体的,如果
Figure BDA0003277009830000073
且cp=1,且第n时段至第G1时段上热水需求的平均值不为0,则令
Figure BDA0003277009830000074
其中,
Figure BDA0003277009830000075
为第n时段电热水器热水温度,Wset是用户舒适热水温度区间中心值,Wset=0.5(Wmax+Wmin),其中Wmin、Wmax分别为用户舒适性要求的热水温度下限、上限。
若第n时段电热水器热水温度小于用户舒适热水温度区间中心值、结合电价趋势指示信号中非第二电价趋势指示信号中的一种,且第n时段至第G2时段的热水需求的平均值不为零,则获取电热水器以额定功率加热指令,具体的,如果
Figure BDA0003277009830000076
且cp≠1,且第n时段至第G2时段上热水需求的平均值不为0,则令
Figure BDA0003277009830000077
否则令
Figure BDA0003277009830000078
S103:将所述第一控制动作与所述第二控制动作输入预设的控制动作选择器进行处理,以使所述控制动作选择器根据预设的概率输出所述第一控制动作与所述第二控制动作中的一种。
S104:根据所述控制动作选择器输出的控制动作输入到数据驱动的电热水器模型执行仿真,并结合强化学习状态量以及预设的强化学习回报函数,确定强化学习样本。
请参阅图2和图3,具体的,根据预设的概率P1确定第一控制动作,并输入数据驱动的电热水器模型执行仿真,并结合强化学习状态量以及预设的强化学习回报函数,获取强化学习样本,根据预设的概率P2确定第二控制动作,并输入数据驱动的电热水器模型执行仿真,并结合强化学习状态量以及预设的强化学习回报函数,获取强化学习样本,其中,P2=1-P1。
基于目标调度日的以下信息:起始时段的热水温度、24小时逐时段电价、24小时逐时段环境水温,24小时逐时段热水需求量,以满足用户舒适性要求且电热水器未来24小时电费最少为目标,建立基于DQN的电热水器需求响应优化的强化学习模型,其中DQN是指deep Q network,即深度Q网络。
请参阅图4,所建立的基于DQN的电热水器需求响应优化的强化学习模型,按如下步骤进行:
1)设计强化学习状态量,第n时段的状态量sn设计为
Figure BDA0003277009830000081
其中N为24小时涵盖的时段总数,N=int(24/t0),dn表示第n时段的热水需求量,P1
Figure BDA0003277009830000082
d1的下标1指一个训练回合的起始时段,n=1也表示一个训练回合的起始时段。
2)设计强化学习动作空间,用xn表示第n个时段的控制动作,对应的动作空间为xn=0及xn=1,其中,xn为1表示第n时段电热水器以额定功率加热,xn为0表示第n时段电热水器不加热。
3)设计强化学习的回报函数,立即回报的组成要素为电热水器产生的电费、热水温度不满足用户舒适性要求的惩罚,用rn表示第n个时段控制动作产生的立即回报,则rn=-PnxnPrateto-αCn,其中Prate为电热水器额定功率,Cn为第n个时段温度不满足用户舒适性要求的标志,当
Figure BDA0003277009830000083
Figure BDA0003277009830000084
时Cn=1,当
Figure BDA0003277009830000085
时Cn=0,α是惩罚系数,取正数,默认值取20PnPrateto
4)基于DQN设计电热水器需求响应优化的强化学习模型的深度强化学习网络,所设计的强化学习网络的特征在于,整个深度强化学习网络基于DNN构建,其中DNN是指DeepNeural Networks,即深度神经网络,深度强化学习网络由评估网络和目标网络两个部分组成,评估网络和目标网络两者结构相同,这两个网络的结构特征均为:
网络为DNN是一个4层的前馈神经网络,其中1个输入层,2个隐藏层,1个输出层,按输入层、隐藏层1、隐藏层2、输出层顺序排列,输入层有3N+2个神经元,如果执行预测的时间为第n时段,则输入层的每个神经元一对一的依次连接sn中的一个元素,即n时刻各神经元的输入依次为P1,P2,…,PN,
Figure BDA0003277009830000086
d1,d2,…,dN,n,
Figure BDA0003277009830000087
隐藏层1具有int[(3N+2)/2]个神经元,隐藏层1与输入层之间全连接,隐藏层1与隐藏层2全连接,与其他层无连接,int表示四舍五入法取整。隐藏层2具有int[(3N+2)/2]个神经元,隐藏层2与隐藏层1之间全连接,隐藏层2与输出层之间全连接,与其他层无连接。输出层含有2个神经元,输出层与隐藏层2之间全连接,与其他层无连接,如果所处理的时间段为第n个时段,两个输出分别对应Q(sn,xn|xn=0),Q(sn,xn|xn=0),其中Q(sn,xn)是在sn状态下控制动作xn的价值表达式Q(sn,xn)=rn+γmaxQ(sn+1,xn+1),其中γ∈(0,1)是折扣因子,max是指选取最大值。
S105:将所述强化学习样本输入所述强化学习模型进行训练至收敛后,输出第三控制动作以控制实际电热水器运行。
请参阅图5,具体的,强化学习样本包括第n时段的状态量、第n+1时段的状态量、控制动作选择器输出的控制动作以及该控制动作生成的回报函数,将强化学习样本输入预设的样本池及其管理规则,获取M个强化学习样本,将M个强化学习样本输入强化学习模型进行训练,强化学习模型包括目标网络与评估网络,将M个强化学习样本输入目标网络获取评估网络参数,根据将评估网络参数、第n时段的状态量输入评估网络判定评估网络已收敛,输出第三控制动作以控制实际电热水器运行,基于强化学习模型执行以下训练步骤。
训练算法步骤1:随机初始化评估网络参数θ,复制θ到目标网络参数θ′,基于步骤S101中的电热水器需求响应优化的知识规则,结合数据驱动的电热水器模型,生成2M个强化学习样本(sn,xn,rn,sn+1)初始化样本池,其中M是强化学习每批取样的样本数,M为不小于20的整数,M默认值取60,初始化工作时段n=1,初始化训练回合数k=1。
训练算法步骤2:优势策略动作选取及评估网络收敛性判断,如下:
1)获取并记录评估网络的优势策略控制动作,如果当前是第n时段,则第n时段优势策略控制动作
Figure BDA0003277009830000091
为:
Figure BDA0003277009830000092
其中,argmaxQ(sn,xn)表示在状态sn下,能让Q取得最大值的控制动作,并计算第n时段优势策略控制动作回报
Figure BDA0003277009830000093
其公式为
Figure BDA0003277009830000094
2)评估网络收敛性判断,计算各训练回合优势策略控制动作总回报,第k个训练回合优势策略控制动作总回报
Figure BDA0003277009830000095
的计算公式为
Figure BDA0003277009830000096
如果连续Cnc个训练回合
Figure BDA0003277009830000097
的变化量不超过rth且Cn值均为0,则判定评估网络已收敛,否则,判定评估网络未收敛,其中rth是回报变化幅度阈值,取不大于0.02PnPrateto的正数,默认值取0.02PnPrateto,Cnc连续稳定回合数,取不小于10的自然数,默认值取10。
3)如果第n时段评估网络已收敛,则退出强化学习训练,并将
Figure BDA0003277009830000098
发送到实际电热水器,支配实际电热水器的工作。
4)如果第n时段评估网络未收敛,则执行以下训练算法。
训练算法步骤3:从样本池及其管理规则模块获取M个样本,其方法为先向样本池及其管理规则模块申请样本M个,然后由样本池及其管理规则模块返回样本M个,取样的方法内置在样本池及其管理规则模块中。
训练算法步骤4:探索与利用协调,如果用
Figure BDA0003277009830000099
表示第n时段电热水器需求响应优化的强化学习模型的输出,则以概率ε令
Figure BDA00032770098300000910
以(1-ε)概率使
Figure BDA00032770098300000911
随机从0、1中取一个值,并将
Figure BDA00032770098300000912
发送到控制动作选择器供后续处理,其中ε是选择优势策略的概率,取值范围为[0.8,1],默认值取0.9,
Figure BDA00032770098300000913
值为1表示第n时段电热水器以额定功率加热,
Figure BDA00032770098300000914
为0表示第n时段电热水器不加热。
训练算法步骤5:基于目标网络的输出计算第i个样本(si,xi,ri,si+1)的目标值yi,其计算公式:若i是终止步,则yi=ri,若i为其他,则yi=ri+γmaxQ'(si+1,xi+1),其中Q′(si+1,xi+1)是目标网络在输入si+1时的输出。
训练算法步骤6:计算损失函数L,其计算公式为
Figure BDA0003277009830000101
其中Q(si,xi)是评估网络在输入si时,指令xi对应的输出。
训练算法步骤7:用θv表示第v次迭代得到的评估网络的参数集,ρ表示学习率,按梯度反向传播算法更新网络参数,网络参数更新公式为:
Figure BDA0003277009830000102
训练算法步骤8:令n=n+1,如果n>N则顺序执行以下训练算法9,否则跳转到上述训练算法步骤2。
训练算法步骤9:令n=1,k=k+1,当k/Ce2t结果为整数时,用评估网络的参数θ更新目标网络的参数θ′,并跳转到训练算法步骤2,当k/Ce2t结果不为整数时,直接跳转到训练算法步骤2,其中Ce2t是目标网络更新周期,取不小于10的正整数,默认值取15。
建立控制动作选择器,用于在每个控制动作步骤中,按预设的概率从电热水器需求响应优化的知识规则生成的第一控制动作、电热水器需求响应优化的强化学习模型生成的第二控制动作中选择一个送往数据驱动的电热水器模型,该预设的概率的特征在于,该概率受控于强化学习进程,其中概率控制方法是:按概率P1=e-βk选择电热水器需求响应优化的知识规则生成的第一控制动作,按概率P2=1-e-βk选择电热水器需求响应优化的强化学习模型生成的第二控制动作,即:在第n时段,按概率e-βk选择
Figure BDA0003277009830000103
按概率(1-e-βk)选择
Figure BDA0003277009830000104
输入后续环节的xn是控制动作选择器输出的控制动作,其中,β是概率控制因子,取正数,默认值取0.005。
选用热水温度仿真平均相对误差不大于8%的数据驱动的热水器模型,根据控制动作选择器输出的控制动作,以及当前电热水器的热水温度、环境水温、热水需求量,仿真出热水器下一时段的温度,并生成强化学习样本,将样本发送到样本池及其管理规则模块,具体包括以下步骤:
1)为目标电热水器选用热水温度仿真误差不大于8%的数据驱动的电热水器模型,其输入为当前控制动作、当前电热水器的热水温度、当前环境水温、当前热水需求量时,输出为下个时段开始时的热水温度。
2)发起仿真:如果发起仿真的时段为n,从sn中取
Figure BDA0003277009830000105
dn,结合xn,用数据驱动的电热水器模型仿真出
Figure BDA0003277009830000106
并根据仿真结果得到
Figure BDA0003277009830000107
3)根据rn=-PnxnPrateto-αCn计算立即回报rn
4)构建强化学习样本(sn,xn,rn,sn+1),发送给样本池及其管理规则模块。
建立样本池及其管理规则,该模块接收并管理来自数据驱动的电热水器模型仿真输出的强化学习样本,样本池管理规则的特征在于,按先入先出的规则进行样本池管理,新样本写在样本池的顶部,当样本池容量不够时,进入样本池越早的样本越先从样本池中删除,收到面向电热水器需求响应优化的强化学习模型的样本申请后,自样本池顶部向下取样本申请指定的样本数量,并将样本返回给强化学习模型。电热水器需求响应优化的强化学习模型训练到收敛后,由该强化学习模型向实际电热水器输出控制动作,支配实际电热水器的工作。
本实施例通过在强化学习初期,以较高概率利用知识规则生成的近优样本进行强化学习网络训练,使强化学习网络迅速提取出热水器需求响应知识规则中的知识,与传统强化学习用于电热水器需求响应优化相比,有更快的收敛速度,在强化学习后期,以较高的概率利用自由探索生成的样本进行强化学习网络训练,与传统的基于规则的电热水器需求响应优化难以获得全局最优解相比,本发明通过自由探索具有获得全局最优解的能力,基于电热水器模型实现强化学习网络的学习,避免强化学习因试错需要而频繁干扰热水器的运行,有效保证了用户的舒适性和电热水器的安全性,且本实施例所要求的数据驱动的电热水器模型精度不高,容易获取。本发明能实现电热水器需求响应自动化,能应用到不同家庭的电热水器,在电价、环境水温、用户热水需求的变化时,自动优化电热水器的电费。
请参阅图6,本发明某一实施例提供一种终端设备,包括:
一个或多个处理器;
存储器,与所述处理器耦接,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的电热水器需求响应优化方法。
处理器用于控制该计算机终端设备的整体操作,以完成上述的电热水器需求响应优化方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该计算机终端设备的操作,这些数据例如可以包括用于在该计算机终端设备上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在一示例性实施例中,计算机终端设备可以被一个或多个应用专用集成电路(Application Specific 1ntegrated Circuit,简称AS1C)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的电热水器需求响应优化方法,并达到如上述方法一致的技术效果。
在另一示例性实施例中,还提供了一种包括计算机程序的计算机可读存储介质,该计算机程序被处理器执行时实现上述任意一个实施例中的电热水器需求响应优化方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由计算机终端设备的处理器执行以完成上述的电热水器需求响应优化方法,并达到如上述方法一致的技术效果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种电热水器需求响应优化方法,其特征在于,包括:
根据目标调度日的起始热水温度、目标调度日逐时段电价、目标调度日逐时段环境水温以及目标调度日逐时段热水需求量,确定电热水器需求响应优化的知识规则以及构建强化学习模型;
获取电热水器控制周期的电价趋势指示信号,并结合所述电热水器需求响应优化的知识规则以及所述构建强化学习模型,对应生成电热水器需求响应优化的第一控制动作以及第二控制动作;
将所述第一控制动作与所述第二控制动作输入预设的控制动作选择器进行处理,以使所述控制动作选择器根据预设的概率输出所述第一控制动作与所述第二控制动作中的一种;
根据所述控制动作选择器输出的控制动作输入到数据驱动的电热水器模型执行仿真,并结合强化学习状态量以及预设的强化学习回报函数,确定强化学习样本;
将所述强化学习样本输入所述强化学习模型进行训练至收敛,由其输出的第三控制动作以控制实际电热水器运行。
2.根据权利要求1所述的电热水器需求响应优化方法,其特征在于,所述生成电热水器需求响应优化的第一控制动作,包括:
根据电热水器的控制周期对目标调度日进行时间分段并依次编号;
根据获取第n时段的电价与预设时段的电价确定所述电价趋势指示信号;
参照所述电热水器需求响应优化的知识规则,根据所述电价趋势指示信号、第n时段电热水器热水温度以及用户舒适热水温度区间中心值确定所述第一控制动作。
3.根据权利要求2所述的电热水器需求响应优化方法,其特征在于,所述根据获取第n时段的电价与预设时段的电价确定所述电价趋势指示信号,包括:
获取所述预设时段的电价的平均值;
比较所述第n时段的电价与所述预设时段的电价的平均值的大小,获取所述电价趋势指示信号,所述电价趋势指示信号包括第一电价趋势指示信号、第二电价趋势指示信号与第三电价趋势指示信号中的任一种;其中,
若所述第n时段的电价大于所述预设时段的电价的平均值,则获取所述第一电价趋势指示信号;
若所述第n时段的电价小于所述预设时段的电价的平均值,则获取所述第二电价趋势指示信号;
若所述第n时段的电价等于所述预设时段的电价的平均值,则获取所述第三电价趋势指示信号。
4.根据权利要求3所述的电热水器需求响应优化方法,其特征在于,所述参照所述电热水器需求响应优化的知识规则,根据所述电价趋势指示信号、第n时段电热水器热水温度以及用户舒适热水温度区间中心值确定所述第一控制动作,包括:
比较所述第n时段电热水器热水温度与所述用户舒适热水温度区间中心值的大小,并结合所述电价趋势指示信号与预设时段的热水需求的平均值,确定所述第一控制动作,其中,所述第一控制动作包括电热水器以额定功率加热指令或电热水器不加热指令;
若所述第n时段电热水器热水温度小于所述用户舒适热水温度区间中心值、结合所述电价趋势指示信号且所述预设时段的热水需求的平均值不为零,则获取所述电热水器以额定功率加热指令,否则,获取所述电热水器不加热指令。
5.根据权利要求4所述的电热水器需求响应优化方法,其特征在于,所述若所述第n时段电热水器热水温度小于所述用户舒适热水温度区间中心值、结合所述电价趋势指示信号且所述预设时段的热水需求的平均值不为零,则获取所述电热水器以额定功率加热指令,包括:
所述预设时段的热水需求的平均值包括第n时段至第G1时段的热水需求的平均值或第n时段至第G2时段的热水需求的平均值,其中,
G1=n+N0
Figure FDA0003277009820000021
式中,N0表示时间窗口长度,
Figure FDA0003277009820000022
表示第n时段的环境水温,Winc表示电热水器上升的温度,Wset表示所述用户舒适热水温度区间中心值;
若所述第n时段电热水器热水温度小于所述用户舒适热水温度区间中心值、结合所述第二电价趋势指示信号且所述第n时段至第G1时段的热水需求的平均值不为零,则获取所述电热水器以额定功率加热指令;
若所述第n时段电热水器热水温度小于所述用户舒适热水温度区间中心值、结合所述电价趋势指示信号中非所述第二电价趋势指示信号中的一种,且所述第n时段至第G2时段的热水需求的平均值不为零,则获取所述电热水器以额定功率加热指令。
6.根据权利要求1所述的电热水器需求响应优化方法,其特征在于,将所述第一控制动作与所述第二控制动作输入预设的控制动作选择器进行处理,以使所述控制动作选择器根据预设的概率输出所述第一控制动作与所述第二控制动作中的一种,包括:
将所述第一控制动作与所述第二控制动作输入预设的控制动作选择器进行处理,根据预设的概率P1确定所述第一控制动作,根据预设的概率P2确定所述第二控制动作;其中,P2=1-P1,所述预设的概率P1和所述预设的概率P2的取值受控于强化学习进程。
7.根据权利要求1所述的电热水器需求响应优化方法,其特征在于,所述将所述强化学习样本输入所述强化学习模型进行训练,包括:
所述强化学习样本包括:第n时段的强化学习状态量、第n+1时段的强化学习状态量、所述第一控制动作以及根据所述第一控制动作生成的预设的强化学习回报函数;
将所述强化学习样本输入预设的样本池及其管理规则,获取M个所述强化学习样本,将M个所述强化学习样本输入所述强化学习模型进行训练。
8.根据权利要求7所述的电热水器需求响应优化方法,其特征在于,所述将所述强化学习样本输入所述强化学习模型进行训练至收敛后,输出第三控制动作以控制实际电热水器运行,包括:
所述强化学习模型包括目标网络与评估网络;
将M个所述强化学习样本输入所述目标网络获取评估网络参数;
根据将所述评估网络参数、所述第n时段的状态量输入所述评估网络判定所述评估网络是否收敛,收敛后输出第三控制动作以控制实际电热水器运行。
9.一种计算机终端设备,其特征在于,包括:
一个或多个处理器;
存储器,与所述处理器耦接,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至8任一项所述的电热水器需求响应优化方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的电热水器需求响应优化方法。
CN202111125770.5A 2021-09-24 2021-09-24 一种电热水器需求响应优化方法、设备及介质 Pending CN113850503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111125770.5A CN113850503A (zh) 2021-09-24 2021-09-24 一种电热水器需求响应优化方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111125770.5A CN113850503A (zh) 2021-09-24 2021-09-24 一种电热水器需求响应优化方法、设备及介质

Publications (1)

Publication Number Publication Date
CN113850503A true CN113850503A (zh) 2021-12-28

Family

ID=78980006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111125770.5A Pending CN113850503A (zh) 2021-09-24 2021-09-24 一种电热水器需求响应优化方法、设备及介质

Country Status (1)

Country Link
CN (1) CN113850503A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564964A (zh) * 2022-02-24 2022-05-31 杭州中软安人网络通信股份有限公司 一种基于k近邻对比学习的未知意图检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564964A (zh) * 2022-02-24 2022-05-31 杭州中软安人网络通信股份有限公司 一种基于k近邻对比学习的未知意图检测方法
CN114564964B (zh) * 2022-02-24 2023-05-26 杭州中软安人网络通信股份有限公司 一种基于k近邻对比学习的未知意图检测方法

Similar Documents

Publication Publication Date Title
Li et al. Intelligent multi-zone residential HVAC control strategy based on deep reinforcement learning
Lissa et al. Deep reinforcement learning for home energy management system control
CN111795484B (zh) 一种智慧空调控制方法和系统
CN112614009B (zh) 一种基于深度期望q-学习的电网能量管理方法及系统
CN113112077B (zh) 基于多步预测深度强化学习算法的hvac控制系统
Zhang et al. Building energy management with reinforcement learning and model predictive control: A survey
Mbuwir et al. Reinforcement learning for control of flexibility providers in a residential microgrid
CN110781969B (zh) 基于深度强化学习的空调风量控制方法、装置以及介质
Peirelinck et al. Domain randomization for demand response of an electric water heater
CN112460741B (zh) 一种楼宇暖通空调系统控制方法
Lissa et al. Transfer learning applied to DRL-Based heat pump control to leverage microgrid energy efficiency
CN106991507A (zh) 一种SCR入口NOx浓度在线预测方法及装置
CN113850503A (zh) 一种电热水器需求响应优化方法、设备及介质
Atiyha et al. An improved cost estimation for unit commitment using back propagation algorithm
Zhang et al. Data-driven model predictive and reinforcement learning based control for building energy management: A survey
CN112510719B (zh) 一种基于深度强化学习的智能电热水器保温档负荷控制方法
CN114384931B (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
CN113435042B (zh) 一种建筑空调系统需求响应的强化学习建模方法
CN115587905A (zh) 一种基于强化学习的楼宇低碳能量管理方法
CN114909707A (zh) 一种基于智能平衡装置和强化学习的供热二级网调控方法
Cao et al. Load scheduling for an electric water heater with forecasted price using deep reinforcement learning
KR20230006173A (ko) 실시간 시뮬레이터를 이용한 강화학습 기반 공장 에너지 관리 방법 및 이를 이용한 시스템
Dey et al. Reinforcement Learning Building Control: An Online Approach with Guided Exploration using Surrogate Models
CN115879362A (zh) 一种基于强化学习的变容热水器需求响应优化方法
Amasyali et al. Deep Reinforcement Learning for Autonomous Water Heater Control. Buildings 2021, 11, 548

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination