CN113850503A

CN113850503A - 一种电热水器需求响应优化方法、设备及介质

Info

Publication number: CN113850503A
Application number: CN202111125770.5A
Authority: CN
Inventors: 杨雨瑶; 冯浩洋; 李经儒; 潘峰; 马键; 张捷
Original assignee: Guangdong Power Grid Co Ltd; Measurement Center of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Measurement Center of Guangdong Power Grid Co Ltd; Metrology Center of Guangdong Power Grid Co Ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-28

Abstract

本发明公开了一种电热水器需求响应优化方法、设备及介质，该方法包括：根据获取的相关数据确定电热水器需求响应优化的知识规则以及构建强化学习模型，结合电热水器控制周期的电价趋势指示信号，对应生成电热水器需求响应优化的第一控制动作以及第二控制动作，并输入预设的控制动作选择器进行处理，根据预设的概率选择第一控制动作与第二控制动作中的一种执行仿真，并结合强化学习状态量以及预设的强化学习回报函数以确定强化学习样本，将强化学习样本输入强化学习模型进行训练至收敛，由其输出的第三控制动作以控制实际电热水器运行。本发明通过结合知识规则和强化学习，以提高电热水器需求响应优化的效率。

Description

一种电热水器需求响应优化方法、设备及介质

技术领域

本发明涉及电力系统优化技术领域，尤其涉及一种电热水器需求响应优化方法、设备及介质。

背景技术

日益重视节能减排的情况下，电力需求响应作为节能减排的重要措施，推行力度越来越大，家用热水器是重要的电力负荷，也是需求响应重要的推行对象，这就要求电热水器具有响应电价信号调整加热时间的能力，进而达到降低电费的目的。家用热水器安装于居民住宅内，居民对打搅敏感，不宜通过人工调节的方式实现需求响应，因此要求热水器自动适应电价、环境水温、热水需求等各种不确定性，实现需求响应自动化。

当前家用实际热水器常用的控制方式是“最大化用户舒适性”，不考虑电价波动，让电热水器中的热水温度总是维持在特定值。这种方法具有全自动化的特点，不需要为每台热水器开发特定的控制方案，然而在需求响应的环境下电价动态变化，而这种方式不区分电价波动，将造成用户电费支出多，与此同时，电力系统根据负荷平衡的要求制定电价，由于这种方法不响应电价，可能消耗电力系统资源平衡负荷，造成社会总能耗增加。

现有技术针对热水器的需求响应进行了大量的研究，这些研究大体上分成三类。第一类是基于规则的需求响应优化，这类研究主要根据未来数小时电价的变化趋势和当前热水温度等信息，用一定规则决策热水器的加热时间，这类方法具有简单、自动化的优点，但这种方法对热水器热力学特性考虑不足，难以得到全局优化解。第二类是基于最优化方法的需求响应优化，这种方法建立热水器热力学数学模型，结合预测的未来一段时间电价、环境水温、热水需求量、环境温度等信息，采用数学方法求解优化方程，得到最优解，这种方法能获得全局优化解，但这种方法具有用户针对性，属于逐例解决的方式，难以推广到千家万户。第三类是学习型的需求响应优化，这类方法的总体思路是获取热水器需求响应优化运行数据，然后用这些数据训练机器学习网络，网络收敛后，用于该热水器需求响应优化，这种方法具有自适应系统不确定性的优点，便于实现需求响应自动化，但电热水器需求响应的优化解非常稀疏，目前，如何高效探索到优化解，从而降低样本采集代价、保证优化的实时性，仍旧是难点问题。

发明内容

本发明目的在于，提供一种电热水器需求响应优化方法、设备及介质，以解决目前针对电热水器需求响应优化效率低且成本较高的问题。

为实现上述目的，本发明提供一种电热水器需求响应优化方法，包括：

根据目标调度日的起始热水温度、目标调度日逐时段电价、目标调度日逐时段环境水温以及目标调度日逐时段热水需求量，确定电热水器需求响应优化的知识规则以及构建强化学习模型；

获取电热水器控制周期的电价趋势指示信号，并结合所述电热水器需求响应优化的知识规则以及所述构建强化学习模型，对应生成电热水器需求响应优化的第一控制动作以及第二控制动作；

将所述第一控制动作与所述第二控制动作输入预设的控制动作选择器进行处理，以使所述控制动作选择器根据预设的概率输出所述第一控制动作与所述第二控制动作中的一种；

根据所述控制动作选择器输出的控制动作输入到数据驱动的电热水器模型执行仿真，并结合强化学习状态量以及预设的强化学习回报函数，确定强化学习样本；

将所述强化学习样本输入所述强化学习模型进行训练至收敛，由其输出的第三控制动作以控制实际电热水器运行。

优选地，所述生成电热水器需求响应优化的第一控制动作，包括：

根据电热水器的控制周期对目标调度日进行时间分段并依次编号；

根据获取第n时段的电价与预设时段的电价确定所述电价趋势指示信号；

参照所述电热水器需求响应优化的知识规则，根据所述电价趋势指示信号、第n时段电热水器热水温度以及用户舒适热水温度区间中心值确定所述第一控制动作。

优选地，所述根据获取第n时段的电价与预设时段的电价确定所述电价趋势指示信号，包括：

获取所述预设时段的电价的平均值；

比较所述第n时段的电价与所述预设时段的电价的平均值的大小，获取所述电价趋势指示信号，所述电价趋势指示信号包括第一电价趋势指示信号、第二电价趋势指示信号与第三电价趋势指示信号中的任一种；其中，

若所述第n时段的电价大于所述预设时段的电价的平均值，则获取所述第一电价趋势指示信号；

若所述第n时段的电价小于所述预设时段的电价的平均值，则获取所述第二电价趋势指示信号；

若所述第n时段的电价等于所述预设时段的电价的平均值，则获取所述第三电价趋势指示信号。

优选地，所述参照所述电热水器需求响应优化的知识规则，根据所述电价趋势指示信号、第n时段电热水器热水温度以及用户舒适热水温度区间中心值确定所述第一控制动作，包括：

比较所述第n时段电热水器热水温度与所述用户舒适热水温度区间中心值的大小，并结合所述电价趋势指示信号与预设时段的热水需求的平均值，确定所述第一控制动作，其中，所述第一控制动作包括电热水器以额定功率加热指令或电热水器不加热指令；

若所述第n时段电热水器热水温度小于所述用户舒适热水温度区间中心值、结合所述电价趋势指示信号且所述预设时段的热水需求的平均值不为零，则获取所述电热水器以额定功率加热指令，否则，获取所述电热水器不加热指令。

优选地，所述若所述第n时段电热水器热水温度小于所述用户舒适热水温度区间中心值、结合所述电价趋势指示信号且所述预设时段的热水需求的平均值不为零，则获取所述电热水器以额定功率加热指令，包括：

所述预设时段的热水需求的平均值包括第n时段至第G1时段的热水需求的平均值或第n时段至第G2时段的热水需求的平均值，其中，

G1＝n+N₀；

式中，N₀表示时间窗口长度，

表示第n时段的环境水温，W_inc表示电热水器上升的温度，W_set表示所述用户舒适热水温度区间中心值；

若所述第n时段电热水器热水温度小于所述用户舒适热水温度区间中心值、结合所述第二电价趋势指示信号且所述第n时段至第G1时段的热水需求的平均值不为零，则获取所述电热水器以额定功率加热指令；

若所述第n时段电热水器热水温度小于所述用户舒适热水温度区间中心值、结合所述电价趋势指示信号中非所述第二电价趋势指示信号中的一种，且所述第n时段至第G2时段的热水需求的平均值不为零，则获取所述电热水器以额定功率加热指令。

优选地，将所述第一控制动作与所述第二控制动作输入预设的控制动作选择器进行处理，以使所述控制动作选择器根据预设的概率输出所述第一控制动作与所述第二控制动作中的一种，包括：

将所述第一控制动作与所述第二控制动作输入预设的控制动作选择器进行处理，根据预设的概率P1确定所述第一控制动作，根据预设的概率P2确定所述第二控制动作；其中，P2＝1-P1，所述预设的概率P1和所述预设的概率P2的取值受控于强化学习进程。

优选地，所述将所述强化学习样本输入所述强化学习模型进行训练，包括：

所述强化学习样本包括：第n时段的强化学习状态量、第n+1时段的强化学习状态量、所述第一控制动作以及根据所述第一控制动作生成的预设的强化学习回报函数；

将所述强化学习样本输入预设的样本池及其管理规则，获取M个所述强化学习样本，将M个所述强化学习样本输入所述强化学习模型进行训练。

优选地，所述将所述强化学习样本输入所述强化学习模型进行训练至收敛后，输出第三控制动作以控制实际电热水器运行，包括：

所述强化学习模型包括目标网络与评估网络；

将M个所述强化学习样本输入所述目标网络获取评估网络参数；

根据将所述评估网络参数、所述第n时段的状态量输入所述评估网络判定所述评估网络是否收敛，收敛后输出第三控制动作以控制实际电热水器运行。

本发明还提供一种终端设备，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上任一项所述的电热水器需求响应优化方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行实现如上任一项所述的电热水器需求响应优化方法。

相对于现有技术，本发明的有益效果在于：

根据电热水器的加热控制信号构建电热水器需求响应优化的知识规则，获取第一控制动作，根据预设的电热水器需求响应优化的强化学习模型，获取第二控制动作，根据预设的概率选取第一控制动作与第二控制动作中的一种，输入预设的数据驱动的电热水器模型执行仿真，并结合强化学习状态量以及预设的强化学习回报函数确定强化学习样本，将强化学习样本输入强化学习模型进行训练至收敛后，输出第三控制动作以控制实际电热水器运行。通过将知识规则和强化学习的结合，高精度、自动、高效率适应电价、环境水温的不确定性，降低用户的电热水器电费。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的电热水器需求响应优化方法的流程示意图；

图2是本发明另一实施例提供的知识与强化学习融合机制示意图；

图3是本发明又一实施例提供的已收敛的强化学习模型工作原理图；

图4是本发明某一实施例提供的基于DQN的电热水器需求响应优化的强化学习模型示意图；

图5是本发明另一实施例提供的目标网络和评估网络的结构图；

图6是本发明某一实施例提供的计算机终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，本发明某一实施例提供一种电热水器需求响应优化方法，包括以下步骤：

S101：根据目标调度日的起始热水温度、目标调度日逐时段电价、目标调度日逐时段环境水温以及目标调度日逐时段热水需求量，确定电热水器需求响应优化的知识规则以及构建强化学习模型。

S102：获取电热水器控制周期的电价趋势指示信号，并结合所述电热水器需求响应优化的知识规则以及所述构建强化学习模型，对应生成电热水器需求响应优化的第一控制动作以及第二控制动作。

具体的，获取目标调度日的以下信息，起始时段的热水温度、24小时逐时段电价、24小时逐时段环境水温，24小时逐时段热水需求量，并获取电热水器额定功率、电热水器额定容积，以降低电热水器的电费支出为目标，建立电热水器需求响应优化的知识规则。

获取起始时段的热水温度、24小时逐时段电价、24小时逐时段环境水温，24小时逐时段热水需求量，以满足用户舒适性要求且电热水器未来24小时电费最少为目标，建立基于DQN的电热水器需求响应优化的强化学习模型。

根据电热水器的控制周期对时间进行分段并依次编号，根据获取第n时段的电价与预设时段的电价确定电价趋势指示信号，根据电价趋势指示信号、第n时段电热水器热水温度以及用户舒适热水温度区间中心值，获取第一控制动作。具体的，假设电热水器的控制周期为t₀，也就是一个时段长t₀，t₀值不大于1.5小时且不小于0.25小时，默认值为1小时，以t₀为间隔对时间进行分段、按自然数顺序对时段依次编号。

获取预设时段的电价的平均值，比较第n时段的电价与预设时段的电价的平均值的大小，获取电价趋势指示信号，电价趋势指示信号包括第一电价趋势指示信号、第二电价趋势指示信号与第三电价趋势指示信号中的任一种。电价趋势指示信号c_p的生成，第一电价趋势指示信号、第二电价趋势指示信号与第三电价趋势指示信号，其值分别为-1、0和1，确定c_p值的具体方法为，如果设当前处理的是第n时段，则按顺序执行下列规则生成c_p。

若第n时段的电价大于预设时段的电价的平均值，则获取第一电价趋势指示信号，具体为：如果第n时段的电价P_n大于时段G1的电价的平均值，则令c_p＝-1，其中N₀表示时间窗口长度，N₀为大于1的整数，G1覆盖的时间不小于3小时，不大于23小时，N₀默认值取6，其中，G1＝n+N₀。

若第n时段的电价小于预设时段的电价的平均值，则获取第二电价趋势指示信号，如果P_n小于时段G1的电价的平均值，则令c_p＝1。

若第n时段的电价等于预设时段的电价的平均值，则获取第三电价趋势指示信号，c_p＝0。

电热水器加热控制的知识规则生成，具体方法是：设当前时间是第n个时段，则按顺序执行下列规则生成基于知识规则的第n个时段电热水器的加热控制信号

为1表示第n时段电热水器以额定功率加热指令，

为0表示第n时段电热水器不加热指令。比较第n时段电热水器热水温度与用户舒适热水温度区间中心值的大小，并结合电价趋势指示信号与预设时段的热水需求的平均值，确定第一控制动作，其中，第一控制动作包括电热水器以额定功率加热指令或电热水器不加热指令。

若第n时段电热水器热水温度小于用户舒适热水温度区间中心值、结合电价趋势指示信号且预设时段的热水需求的平均值不为零，则获取电热水器以额定功率加热指令，否则，获取电热水器不加热指令。预设时段的热水需求的平均值包括第n时段至第G1时段[n,n+N₀]的热水需求的平均值或第n时段至第G2时段[n,n+N₁]的热水需求的平均值，其中G1、G2表示如下：

G1＝n+N₀；

式中，N₀表示时间窗口长度，

表示第n时段的环境水温，W_inc是电热水器以额定功率对该电热水器额定容积的水量加热t₀时间上升的温度，int表示四舍五入法取整，t₀是电热水器控制周期，W_set表示用户舒适热水温度区间中心值。

若第n时段电热水器热水温度小于用户舒适热水温度区间中心值、结合第二电价趋势指示信号且第n时段至第G1时段的热水需求的平均值不为零，则获取电热水器以额定功率加热指令，具体的，如果

且c_p＝1，且第n时段至第G1时段上热水需求的平均值不为0，则令

其中，

为第n时段电热水器热水温度，W_set是用户舒适热水温度区间中心值，W_set＝0.5(W_max+W_min)，其中W_min、W_max分别为用户舒适性要求的热水温度下限、上限。

若第n时段电热水器热水温度小于用户舒适热水温度区间中心值、结合电价趋势指示信号中非第二电价趋势指示信号中的一种，且第n时段至第G2时段的热水需求的平均值不为零，则获取电热水器以额定功率加热指令，具体的，如果

且c_p≠1，且第n时段至第G2时段上热水需求的平均值不为0，则令

否则令

S103：将所述第一控制动作与所述第二控制动作输入预设的控制动作选择器进行处理，以使所述控制动作选择器根据预设的概率输出所述第一控制动作与所述第二控制动作中的一种。

S104：根据所述控制动作选择器输出的控制动作输入到数据驱动的电热水器模型执行仿真，并结合强化学习状态量以及预设的强化学习回报函数，确定强化学习样本。

请参阅图2和图3，具体的，根据预设的概率P1确定第一控制动作，并输入数据驱动的电热水器模型执行仿真，并结合强化学习状态量以及预设的强化学习回报函数，获取强化学习样本，根据预设的概率P2确定第二控制动作，并输入数据驱动的电热水器模型执行仿真，并结合强化学习状态量以及预设的强化学习回报函数，获取强化学习样本，其中，P2＝1-P1。

基于目标调度日的以下信息：起始时段的热水温度、24小时逐时段电价、24小时逐时段环境水温，24小时逐时段热水需求量，以满足用户舒适性要求且电热水器未来24小时电费最少为目标，建立基于DQN的电热水器需求响应优化的强化学习模型，其中DQN是指deep Q network，即深度Q网络。

请参阅图4，所建立的基于DQN的电热水器需求响应优化的强化学习模型，按如下步骤进行：

1)设计强化学习状态量，第n时段的状态量s_n设计为

其中N为24小时涵盖的时段总数，N＝int(24/t₀)，d_n表示第n时段的热水需求量，P₁、

d₁的下标1指一个训练回合的起始时段，n＝1也表示一个训练回合的起始时段。

2)设计强化学习动作空间，用x_n表示第n个时段的控制动作，对应的动作空间为x_n＝0及x_n＝1，其中，x_n为1表示第n时段电热水器以额定功率加热，x_n为0表示第n时段电热水器不加热。

3)设计强化学习的回报函数，立即回报的组成要素为电热水器产生的电费、热水温度不满足用户舒适性要求的惩罚，用r_n表示第n个时段控制动作产生的立即回报，则r_n＝-P_nx_nP_ratet_o-αC_n，其中P_rate为电热水器额定功率，C_n为第n个时段温度不满足用户舒适性要求的标志，当

或

时C_n＝1，当

时C_n＝0，α是惩罚系数，取正数，默认值取20P_nP_ratet_o。

4)基于DQN设计电热水器需求响应优化的强化学习模型的深度强化学习网络，所设计的强化学习网络的特征在于，整个深度强化学习网络基于DNN构建，其中DNN是指DeepNeural Networks，即深度神经网络，深度强化学习网络由评估网络和目标网络两个部分组成，评估网络和目标网络两者结构相同，这两个网络的结构特征均为：

网络为DNN是一个4层的前馈神经网络，其中1个输入层，2个隐藏层，1个输出层，按输入层、隐藏层1、隐藏层2、输出层顺序排列，输入层有3N+2个神经元，如果执行预测的时间为第n时段，则输入层的每个神经元一对一的依次连接s_n中的一个元素，即n时刻各神经元的输入依次为P₁,P₂,…,P_N,

d₁,d₂,…,d_N,n,

隐藏层1具有int[(3N+2)/2]个神经元，隐藏层1与输入层之间全连接，隐藏层1与隐藏层2全连接，与其他层无连接，int表示四舍五入法取整。隐藏层2具有int[(3N+2)/2]个神经元，隐藏层2与隐藏层1之间全连接，隐藏层2与输出层之间全连接，与其他层无连接。输出层含有2个神经元，输出层与隐藏层2之间全连接，与其他层无连接，如果所处理的时间段为第n个时段，两个输出分别对应Q(s_n,x_n|x_n＝0)，Q(s_n,x_n|x_n＝0)，其中Q(s_n,x_n)是在s_n状态下控制动作x_n的价值表达式Q(s_n,x_n)＝r_n+γmaxQ(s_n+1,x_n+1)，其中_γ∈(0,1)是折扣因子，max是指选取最大值。

S105：将所述强化学习样本输入所述强化学习模型进行训练至收敛后，输出第三控制动作以控制实际电热水器运行。

请参阅图5，具体的，强化学习样本包括第n时段的状态量、第n+1时段的状态量、控制动作选择器输出的控制动作以及该控制动作生成的回报函数，将强化学习样本输入预设的样本池及其管理规则，获取M个强化学习样本，将M个强化学习样本输入强化学习模型进行训练，强化学习模型包括目标网络与评估网络，将M个强化学习样本输入目标网络获取评估网络参数，根据将评估网络参数、第n时段的状态量输入评估网络判定评估网络已收敛，输出第三控制动作以控制实际电热水器运行，基于强化学习模型执行以下训练步骤。

训练算法步骤1：随机初始化评估网络参数θ，复制θ到目标网络参数θ′，基于步骤S101中的电热水器需求响应优化的知识规则，结合数据驱动的电热水器模型，生成2M个强化学习样本(s_n,x_n,r_n,s_n+1)初始化样本池，其中M是强化学习每批取样的样本数，M为不小于20的整数，M默认值取60，初始化工作时段n＝1，初始化训练回合数k＝1。

训练算法步骤2：优势策略动作选取及评估网络收敛性判断，如下：

1)获取并记录评估网络的优势策略控制动作，如果当前是第n时段，则第n时段优势策略控制动作

为：

其中，argmaxQ(s_n,x_n)表示在状态s_n下，能让Q取得最大值的控制动作，并计算第n时段优势策略控制动作回报

其公式为

2)评估网络收敛性判断，计算各训练回合优势策略控制动作总回报，第k个训练回合优势策略控制动作总回报

的计算公式为

如果连续C_nc个训练回合

的变化量不超过r_th且C_n值均为0，则判定评估网络已收敛，否则，判定评估网络未收敛，其中r_th是回报变化幅度阈值，取不大于0.02P_nP_ratet_o的正数，默认值取0.02P_nP_ratet_o，C_nc连续稳定回合数，取不小于10的自然数，默认值取10。

3)如果第n时段评估网络已收敛，则退出强化学习训练，并将

发送到实际电热水器，支配实际电热水器的工作。

4)如果第n时段评估网络未收敛，则执行以下训练算法。

训练算法步骤3：从样本池及其管理规则模块获取M个样本，其方法为先向样本池及其管理规则模块申请样本M个，然后由样本池及其管理规则模块返回样本M个，取样的方法内置在样本池及其管理规则模块中。

训练算法步骤4：探索与利用协调，如果用

表示第n时段电热水器需求响应优化的强化学习模型的输出，则以概率ε令

以(1-ε)概率使

随机从0、1中取一个值，并将

发送到控制动作选择器供后续处理，其中ε是选择优势策略的概率，取值范围为[0.8,1]，默认值取0.9，

值为1表示第n时段电热水器以额定功率加热，

为0表示第n时段电热水器不加热。

训练算法步骤5：基于目标网络的输出计算第i个样本(s_i,x_i,r_i,s_i+1)的目标值y_i，其计算公式：若i是终止步，则y_i＝r_i，若i为其他，则y_i＝r_i+γmaxQ'(s_i+1,x_i+1)，其中Q′(s_i+1,x_i+1)是目标网络在输入s_i+1时的输出。

训练算法步骤6：计算损失函数L，其计算公式为

其中Q(s_i,x_i)是评估网络在输入s_i时，指令x_i对应的输出。

训练算法步骤7：用θ_v表示第v次迭代得到的评估网络的参数集，ρ表示学习率，按梯度反向传播算法更新网络参数，网络参数更新公式为：

训练算法步骤8：令n＝n+1，如果n>N则顺序执行以下训练算法9，否则跳转到上述训练算法步骤2。

训练算法步骤9：令n＝1，k＝k+1，当k/C_e2t结果为整数时，用评估网络的参数θ更新目标网络的参数θ′，并跳转到训练算法步骤2，当k/C_e2t结果不为整数时，直接跳转到训练算法步骤2，其中C_e2t是目标网络更新周期，取不小于10的正整数，默认值取15。

建立控制动作选择器，用于在每个控制动作步骤中，按预设的概率从电热水器需求响应优化的知识规则生成的第一控制动作、电热水器需求响应优化的强化学习模型生成的第二控制动作中选择一个送往数据驱动的电热水器模型，该预设的概率的特征在于，该概率受控于强化学习进程，其中概率控制方法是：按概率P1＝e^-βk选择电热水器需求响应优化的知识规则生成的第一控制动作，按概率P2＝1-e^-βk选择电热水器需求响应优化的强化学习模型生成的第二控制动作，即：在第n时段，按概率e-^βk选择

按概率(1-e-^βk)选择

输入后续环节的x_n是控制动作选择器输出的控制动作，其中，β是概率控制因子，取正数，默认值取0.005。

选用热水温度仿真平均相对误差不大于8％的数据驱动的热水器模型，根据控制动作选择器输出的控制动作，以及当前电热水器的热水温度、环境水温、热水需求量，仿真出热水器下一时段的温度，并生成强化学习样本，将样本发送到样本池及其管理规则模块，具体包括以下步骤：

1)为目标电热水器选用热水温度仿真误差不大于8％的数据驱动的电热水器模型，其输入为当前控制动作、当前电热水器的热水温度、当前环境水温、当前热水需求量时，输出为下个时段开始时的热水温度。

2)发起仿真：如果发起仿真的时段为n，从s_n中取

d_n，结合x_n，用数据驱动的电热水器模型仿真出

并根据仿真结果得到

3)根据r_n＝-P_nx_nP_ratet_o-αC_n计算立即回报r_n。

4)构建强化学习样本(s_n,x_n,r_n,s_n+1)，发送给样本池及其管理规则模块。

建立样本池及其管理规则，该模块接收并管理来自数据驱动的电热水器模型仿真输出的强化学习样本，样本池管理规则的特征在于，按先入先出的规则进行样本池管理，新样本写在样本池的顶部，当样本池容量不够时，进入样本池越早的样本越先从样本池中删除，收到面向电热水器需求响应优化的强化学习模型的样本申请后，自样本池顶部向下取样本申请指定的样本数量，并将样本返回给强化学习模型。电热水器需求响应优化的强化学习模型训练到收敛后，由该强化学习模型向实际电热水器输出控制动作，支配实际电热水器的工作。

本实施例通过在强化学习初期，以较高概率利用知识规则生成的近优样本进行强化学习网络训练，使强化学习网络迅速提取出热水器需求响应知识规则中的知识，与传统强化学习用于电热水器需求响应优化相比，有更快的收敛速度，在强化学习后期，以较高的概率利用自由探索生成的样本进行强化学习网络训练，与传统的基于规则的电热水器需求响应优化难以获得全局最优解相比，本发明通过自由探索具有获得全局最优解的能力，基于电热水器模型实现强化学习网络的学习，避免强化学习因试错需要而频繁干扰热水器的运行，有效保证了用户的舒适性和电热水器的安全性，且本实施例所要求的数据驱动的电热水器模型精度不高，容易获取。本发明能实现电热水器需求响应自动化，能应用到不同家庭的电热水器，在电价、环境水温、用户热水需求的变化时，自动优化电热水器的电费。

请参阅图6，本发明某一实施例提供一种终端设备，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的电热水器需求响应优化方法。

处理器用于控制该计算机终端设备的整体操作，以完成上述的电热水器需求响应优化方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该计算机终端设备的操作，这些数据例如可以包括用于在该计算机终端设备上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

在一示例性实施例中，计算机终端设备可以被一个或多个应用专用集成电路(Application Specific 1ntegrated Circuit，简称AS1C)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的电热水器需求响应优化方法，并达到如上述方法一致的技术效果。

在另一示例性实施例中，还提供了一种包括计算机程序的计算机可读存储介质，该计算机程序被处理器执行时实现上述任意一个实施例中的电热水器需求响应优化方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器，上述程序指令可由计算机终端设备的处理器执行以完成上述的电热水器需求响应优化方法，并达到如上述方法一致的技术效果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种电热水器需求响应优化方法，其特征在于，包括：

2.根据权利要求1所述的电热水器需求响应优化方法，其特征在于，所述生成电热水器需求响应优化的第一控制动作，包括：

3.根据权利要求2所述的电热水器需求响应优化方法，其特征在于，所述根据获取第n时段的电价与预设时段的电价确定所述电价趋势指示信号，包括：

获取所述预设时段的电价的平均值；

4.根据权利要求3所述的电热水器需求响应优化方法，其特征在于，所述参照所述电热水器需求响应优化的知识规则，根据所述电价趋势指示信号、第n时段电热水器热水温度以及用户舒适热水温度区间中心值确定所述第一控制动作，包括：

5.根据权利要求4所述的电热水器需求响应优化方法，其特征在于，所述若所述第n时段电热水器热水温度小于所述用户舒适热水温度区间中心值、结合所述电价趋势指示信号且所述预设时段的热水需求的平均值不为零，则获取所述电热水器以额定功率加热指令，包括：

G1＝n+N₀；

式中，N₀表示时间窗口长度，

6.根据权利要求1所述的电热水器需求响应优化方法，其特征在于，将所述第一控制动作与所述第二控制动作输入预设的控制动作选择器进行处理，以使所述控制动作选择器根据预设的概率输出所述第一控制动作与所述第二控制动作中的一种，包括：

7.根据权利要求1所述的电热水器需求响应优化方法，其特征在于，所述将所述强化学习样本输入所述强化学习模型进行训练，包括：

8.根据权利要求7所述的电热水器需求响应优化方法，其特征在于，所述将所述强化学习样本输入所述强化学习模型进行训练至收敛后，输出第三控制动作以控制实际电热水器运行，包括：

所述强化学习模型包括目标网络与评估网络；

9.一种计算机终端设备，其特征在于，包括：

一个或多个处理器；

存储器，与所述处理器耦接，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至8任一项所述的电热水器需求响应优化方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的电热水器需求响应优化方法。