CN114623569B

CN114623569B - 一种基于深度强化学习的集群空调负荷差异化调控方法

Info

Publication number: CN114623569B
Application number: CN202111301293.3A
Authority: CN
Inventors: 虞思城; 潘红武; 魏星; 张国平; 盛建雄; 张云峰; 叶韵; 李凌雁
Original assignee: Huzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Huzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2023-09-29
Anticipated expiration: 2041-11-04
Also published as: CN114623569A

Abstract

本发明提出了一种基于深度强化学习的集群空调负荷差异化调控方法。包括：构建空调负荷基础模型，基于LSTM神经网络预测用户用能需求，模拟单个用户行为特性；根据用户行为模拟，引入用能行为相似度来量化用户差异化用能需求的切合程度；建立差异化用能需求的集群空调负荷调控模型；利用基于DDQN的集群空调负荷差异化调控算法优化控制策略。本发明通过建立负荷调控模型、搭建神经网络与深度学习网络，切实考虑与量化用户差异用能需求，设计了基于DDQN的差异化负荷调控优化方法，解决了既降低用户用能成本又满足各用户的差异化舒适需求的问题，并有效降低了峰谷差。为节约能源、需求侧管理的精细化以及制定用户个性化用能策略方面提供了一种可行的方法。

Description

一种基于深度强化学习的集群空调负荷差异化调控方法

技术领域

本发明涉及智能电网中的需求侧资源管理负荷调控技术领域，具体涉及一种基于深度强化学习的集群空调负荷差异化调控方法。

背景技术

需求响应(demand response,DR)可以使需求侧资源以更低的成本和更灵活的方式参与到电网的调度中，辅助电网削峰填谷，促进电力系统稳定。而为应对日益复杂的经济形势和能源局势，国网浙江省电力有限公司首次建设的能源互联网下多元融合的高弹性电网，可有利于唤醒海量资源、增强源网荷储柔性互动，充分打造高承载、高互动、高自愈、高效能的电力网络，提升电网安全及运行效率。但目前，浙江占比达25％的风光核等电源基本不参与调峰，调节能力不足问题凸显，电网仍呈现“源随荷动”的半刚性特征，市场条件不成熟，需求侧联动手段匮乏，大量负荷侧资源仍在沉睡，未参与互动；规划、设计、运行、用电等多个环节的安全裕度交叉重叠，逐渐形成了以冗余保障电网安全的现实状况，缺乏裕度释放的有效手段。高弹性电网下多方资源的灵活调度是提高电网安全水平和提升电网运行效率的基础，将需求侧资源管理负荷合理调度应用于高弹性电网中成为未来的可行发展趋势之一。

其中，以空调、电热水器为主的温控负荷(thermostatically controlled load,TCL)因其较高的调节容量和较快的响应速度，常常被选为主要的DR资源。由于建筑物的蓄热特性，TCL可在不影响用户舒适度的条件下改变负荷的时空分布特性，具有虚拟储能的特性，其调节能力可通过大规模聚合方式应用于电网的调峰调频中。常用的温控负荷控制方法分为队列控制、传统多目标优化算法和智能强化学习算法三类，不同的控制方式下，DR的成本和效果存在差异，TCL也体现出差异化的响应特性。曾璐琨等研究者利用状态队列的方式控制TCL以快速响应电网调控指令，将温度作为指标，对用户进行优先级排序，并根据优先级依次控制TCL的通断；孙毅等研究者采用自适应粒子群优化算法，避免负荷调控频率过高，提高用户体验；而严干贵团队则引入深度强化学习，解决了由于控制规模激增导致的维数灾难问题，相对于队列控制和启发式优化算法其控制效率和算法性能均得到有效提高，近年来在负荷调控领域广受关注。在考虑用户用能偏好方面，JAZAERI J团队与祁兵团队都采用将用户偏好温度范围视为固定范围或随机划分的方法；田丰团队和杨欢红团队以总用电量偏差作为用户不满意度成本；王志强等研究者采用离散选择模型模拟用户的差异化响应行为，但是其特性曲线仍是采用群体用能曲线聚类而得，多数研究均缺乏用户的个性化和精细化分析。

然而，上述集群温控负荷控制策略侧重满足群体的总需求，但考虑到个体用户的差异化行为偏好与习惯的较少，易造成工作型用户的能源浪费与成本增加。同时，传统的启发式优化算法的优化结果受初值影响大，且迭代收敛过程过于缓慢，难以实现在同样场景重复多次快速应用的策略匹配功能，算法的鲁棒性和扩展性差。

因此，需要一种可以针对不同用户在不同时段的空调差异化用电需求，面向差异化需求的用能优化策略，更切合用户的实际需求，避免能源浪费。同时，深度强化学习具有自主识别与决策能力，可根据场景参数调整和改进调度策略，在负荷调控领域也得到广泛应用。

例如，一种在中国专利文献上公开的“一种多风扇差异化调控装置”，其公告号CN209265293U，包括多个温度检测器，每个温度检测器对应一个发热电子模块，用于检测发热电子模块的温度；多个风扇控制芯片，每个风扇控制芯片对应一个风扇，且每个风扇控制芯片均通过总线和与其对应的温度检测器连接；通信模块，其分别与上述风扇控制芯片电连接，与并用于与外部管理模块进行数据交互；电源模块，用于为上述温度检测器、风扇控制芯片以及通信模块提供电源。上述考虑到个体用户的差异化行为偏好与习惯的较少，易造成工作型用户的能源浪费与成本增加。

发明内容

针对上述问题，本发明以集群空调负荷为例，提出了一种基于深度强化学习的集群空调负荷差异化调控方法。基于长短时记忆(Long short-termmemory，LSTM)神经网络预测用户用能需求，进而模拟用户行为特性，引入用能行为相似度量化用户差异化需求切合程度，为强化学习提供策略指导，保障用户的用能需求和用电经济性，同时辅助电网实现削峰填谷，提高电力系统的稳定性和灵活性。

为了解决上述问题，本发明提供了一种基于深度强化学习的集群空调负荷差异化调控方法，包括如下步骤：

步骤S1、根据空调负荷基础模型，基于LSTM神经网络预测用户用能需求，模拟用户行为特性；

步骤S2、根据用户行为特性模拟，引入用能行为相似度来量化用户差异化用能需求的切合程度；

步骤S3、建立差异化用能需求的集群空调负荷调控模型；

步骤S4、利用基于DDQN的集群空调负荷差异化调控算法优化控制策略。

作为优选，所述步骤S1中，所述处理如下：

步骤S11、采用一阶ETP参数模型作为空调负荷基础模型；

步骤S12、采用LSTM神经网络，根据已有的历史负荷数据对历史用户用电行为曲线进行用能特性提取，进而基于用户特性模拟其用能行为，构建LSTM遗忘门函数；

步骤S13、构建LSTM输入门函数与神经网络长期记忆函数；

步骤S14、构建LSTM输出门函数以及输出向量。

作为优选，所述步骤s11中，表征空调负荷的基础模型为：

T_t+1＝θ_t+1-sηP_NR-(θ_t+1-sηP_NR-T_t)e^-Δk/RC

其中，T为室内温度，单位℃；θ为室外温度，单位℃；P_N为空调制冷时的额定功率，单位kW；R为建筑等效热阻，单位℃/kW；C为建筑等效热容，单位kJ/℃；η为空调的制冷效率；t为采样时刻；Δk为采样时间间隔，单位min；s为空调的开关函数；所述步骤S12中，表征LSTM遗忘门函数的公式如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

其中，W_f为权重系数向量，h_t为t时刻的网络输出向量；b_f为偏置系数向量；

所述步骤S13中，表征LSTM输入门函数公式如下：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

其中，W_i为权重系数向量，b_i为偏置系数向量；

神经网络长期记忆函数的公式如下：

c_t＝f_t·c_t-1+i_t·c_1t

其中，c_1t为tanh层计算最终输入到长期记忆中的候选信息，其表征式为：

c_1t＝tanh(W_c·[h_t-1,x_t]+b_c)

其中，W_c为权重系数向量，b_c为偏置系数向量。

作为优选，所述步骤S14中，表征LSTM输出门函数的公式如下：

ο_t＝σ(W_o·[h_t-1,x_t]+b_o)

其中，W_o为权重系数向量，b_o为偏置系数向量；

表征最终输出向量为：

h_t＝o_t·tanh(c_t)

根据输出向量即可获得LSTM网络所模拟的用能行为功率P_r,i。

作为优选，所述步骤S2中，采用皮尔逊相关系数量化用户调控用电曲线与步骤S1中用户用能行为模拟之间的相似度，进而得出用户差异化用能需求的切合程度。

作为优选，所述步骤S3中，所述处理如下：

步骤S61、建立所有集群空调的环境状态模型；

步骤S62、根据不同负荷下的设备实时用电功率，建立集群空调负荷的动作集；

步骤S63、针对用户与电网，根据用户成本构成因素以及用电曲线峰谷标准差，建立奖励函数计算公式。

作为优选，所述步骤S61中，表征集群空调的环境状态模型：

S＝[Γ(t),Θ(t)]

Γ(t)为t时段的分时电价；Θ(t)为t时段的室外温度。

作为优选，所述步骤S62中，表征集群空调负荷的动作集模型：

A＝[P_i(t)]

其中，对于负荷i，其动作是t时段设备的用电功率P_i(t)。

作为优选，所述步骤S63中，表征集群空调负荷的奖励函数计算公式：

其中，α、β、λ为权重系数；C_i,s为t时段内用户i的温度不满意成本，为t时刻室内温度T_t与用户行为特性模拟温度T_d,t偏差的二次线性函数，其表征式为：

C_i,s(t)＝β₁(T_t-T_d,t)²+β₂(T_t-T_d,t)+β₃，β₁、β₂、β₃为成本系数；

S_p为用电曲线峰谷标准差，当用户用电序列的采样点个数为96时，其表征式为：

作为优选，所述步骤S4中，基于DDQN的集群空调负荷差异化调控算法优化控制策略的逻辑的描述：

步骤S101、构建目标Q值的计算公式y_i为：

其中，S'_i为第i个样本的新状态，C_i为奖励，w为Q网络的参数；γ为衰减因子，w'为目标Q网络参数；

步骤S102、随机初始化所有的状态S、动作对应的价值Q、当前Q网络的所有参数w，初始化目标Q网络Q′的参数w'＝w；清空经验回放的集合D；

步骤S103、基于负荷初始状态开始运行，得到Q网络的所有动作对应的Q值输出；并基于ε-贪婪法在当前Q值输出中选择对应的动作A：

其中，m为所有可选行为；π(a|s)即为最优策略，选择其对应的动作作为所求动作A；

步骤S104、在状态S执行当前动作A,得到新状态S′、奖励C，判断S′是否为终止状态，并将{S,A,C,S'}存入经验回放集合D；

步骤S105、判定S′是否为终止状态，若S′不为终止状态，则更新状态S＝S′；

步骤S106、从经验回放集合D中采样m个样本,{S_j,A_j,C_j,S'_j}，j＝1,2,...,m,并计算当前目标Q值y_j；

步骤S107、使用均方差损失函数通过神经网络的梯度反向传播来更新Q网络的所有参数w；且如果T％C＝1,则更新目标Q网络参数w'＝w；

步骤S108、重复步骤S103-S108，直至S′达到终止状态，即当前轮迭代完毕，完成训练，输出Q网络参数与最终动作。

综上所述，本发明具有一下有益效果：

1.本发明以集群空调为例，通过建立基于LSTM神经网络与DDQN算法、能够实时分析、科学决策和精准执行的用能需求负荷优化调控策略，优化了用户用能成本，满足了用户个性化用能需求。

2.考虑到用户用能需求的差异性与实际性，避免盲目维持室内恒温，达到了节约资源、促进了需求侧管理的精细化的目的。且采用DDQN强化学习，具有更好的收敛性与稳定性，实现了更高的性能与效率。

附图说明

图1为一种基于深度强化学习的集群空调负荷差异化调控方法架构图；

图2为一种基于深度强化学习的集群空调负荷差异化调控方法的步骤流程图。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图、附表及具体实施例进行详细描述。

如图1所示，是本发明智能电网中一种基于深度强化学习的集群空调负荷差异化调控方法架构图，包括如下步骤：

步骤S2、根据用户行为模拟，引入用能行为相似度来量化用户差异化用能需求的切合程度；步骤S3、建立差异化用能需求的集群空调负荷调控模型；

如图2所示，以集群空调为例，讲述整个集群温控负荷系统下的差异调控策略及本发明解决的问题，具体步骤如下：

步骤S10、构建空调负荷基础模型，采用一阶ETP参数模型作为物理模型，其微分方程表示为：

T_t+1＝θ_t+1-sηP_NR-(θ_t+1-sηP_NR-T_t)e^-Δk/RC (1)

式中：T为室内温度，单位℃；θ为室外温度，单位℃；P_N为空调制冷时的额定功率，单位kW；R为建筑等效热阻，单位℃/kW；C为建筑等效热容，单位kJ/℃；η为空调的制冷效率；t为采样时刻；Δk为采样时间间隔，单位min；s为空调的开关函数；

S11、采用LSTM神经网络，根据已有的历史负荷数据对历史用户用电行为曲线进行用能特性提取，进而基于用户特性模拟其用能行为。LSTM神经网络包括遗忘门、输入门和输出门；输入t时刻的用户用电历史数据x_t，结合上个时刻的数据，遗忘门选择性遗忘和保留一部分信息，遗忘门函数如式(2)所示：

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (2)

其中，W_f为权重系数向量，h_t为t时刻的网络输出向量；b_f为偏置系数向量。

S12、输入门决定当前时刻信息的保留部分，函数如式(3)所示：

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (3)

其中，W_i为权重系数向量，b_i为偏置系数向量；

tanh层计算最终输入到长期记忆中的候选信息c_1t，如式(4)所示：

c_1t＝tanh(W_c·[h_t-1,x_t]+b_c) (4)

其中，W_c为权重系数向量，b_c为偏置系数向量；

网络长期记忆如式(5)计算；

c_t＝f_t·c_t-1+i_t·c_1t (5)

S13、输出门ο_t决定长期记忆输出到输出向量h_t的比例，同样也在0-1内取值，输出函数如式(6)所示。

ο_t＝σ(W_o·[h_t-1,x_t]+b_o) (6)

其中，W_o为权重系数向量，b_o为偏置系数向量；

最终输出向量如式(7)所示；

h_t＝o_t·tanh(c_t) (7)

根据输出向量即可获得LSTM网络所模拟的用能行为功率P_r,i。

步骤S20、采用皮尔逊相关系数，基于用户行为模拟，计算用户i调控用电曲线P_d,i与用户用能行为模拟P_r,i之间的相似度r，如式(8)所示。r越大，则用户调控用电与用户用能行为相似度越高，用户用能需求切合度越高；

式中，P_d,i,t和P_r,i,t别为t时刻用户i调控用电功率和用户用电行为模拟功率；T为用户用电序列中的采样点个数；和/>分别为t时刻用户i调控用电功率和用户用电行为模拟功率的均值。

步骤S30、建立差异化用能需求的集群空调负荷调控模型。智能体与环境的互动采用马尔科夫决策过程(S,A,C,π)表示，其中S为智能体所处环境中感知到的所有状态的集合；A为智能体所有可执行动作集；C为奖励函数，表示智能体在状态执行该动作时能够获得的即时奖励；π为智能体的策略集；

S31、对于集群空调，环境提供给智能体的信息一般为分时电价和外界的温度。因此集群空调模型的状态空间定义如式(9)所示：

S＝[Γ(t),Θ(t)] (9)

其中，Γ(t)为t时段的分时电价；Θ(t)为t时段的室外温度；

S32、智能体观测到环境的状态信息后，根据自身策略集π在动作集A中选择一个动作。对于负荷i，其动作是t时段设备的用电功率P_i(t)。因此集群空调负荷的动作集如式(10)所示：

A＝[P_i(t)] (10)

S33、为避免过度满足用户需求导致的用电高峰和过度忽视用户需求导致的负荷反弹高峰，本发明结合环境因素计算集群用户的需求成本，综合考虑用电峰谷差成本，作为DDQN的奖励函数，不断迭代以求取最优解，在保障用户经济舒适用电的同时也降低电网峰谷差。

针对用户，成本主要来自于向电网购电的成本、温度和用能需求的不满意度成本；针对电网，其目标主要为削峰填谷，即降低电力负荷用电的峰谷差。因此，奖励函数计算如式(11)：

式中，C_i,s为t时段内用户i的温度不满意成本，为t时刻室内温度T_t与用户行为特性模拟温度T_d,t偏差的二次线性函数，其计算如式(12)所示；

C_i,s(t)＝β₁(T_t-T_d,t)²+β₂(T_t-T_d,t)+β₃ (12)

其中，用户行为T_d,t基于式(1)与用户用能行为模拟共同计算而得；β₁、β₂、β₃为成本系数。

S_p为用电曲线峰谷标准差，当用户用电序列的采样点个数为96时，计算如式(13)所示；

r(P_d,i,P_r,i)为用户i的用电调控曲线与用户模拟用电曲线间的相似度，其计算如式(8)所示，相似度越高，则用户不满意成本越低，奖励越高；α、β、λ为权重系数。

由上可知，奖励函数实质设为负奖励函数，成本越高，C值越低，即鼓励低成本调控行为。

步骤S40、基于DDQN优化负荷调控策略。相较于Nature DQN，DDQN通过解耦目标Q值动作的选择和目标Q值的计算这两步，来消除过度估计的问题。

S41、构建目标Q值的计算公式y_i。

先在当前Q网络中先找出最大Q值对应的动作a^max(S'_i,w)∈A，如式(14)所示：

式中，S'_i为第i个样本的新状态，w为Q网络的参数。

然后利用这个选择出来的动作a^max(S'_i,w)在目标网络里面去计算目标Q值，如式(15)所示：

y_i＝C_i+γQ'(S'_i，a^max(S'_i,w)，w') (15)

式中，γ为衰减因子，w'为目标Q网络参数,C_i为第i个样本的奖励。

综上所述，构建的目标Q值的计算公式如式(16)所示：

S42、参数初始化。随机初始化所有的状态S、动作对应的价值Q、当前Q网络的所有参数w,初始化目标Q网络Q′的参数w'＝w。清空经验回放的集合D。

S43、基于负荷初始状态开始运行，得到Q网络的所有动作对应的Q值输出。用ε-贪婪法，通过设置一个较小的ε值，在当前Q值输出中选择对应的动作A，如式(17)所示：

其中m为所有可选行为；π(a|s)即为最优策略，选择其对应的动作作为所求动作A。

S44、在状态S执行当前动作A,得到新状态S′、奖励C，判断S′是否为终止状态，并将{S,A,C,S'}存入经验回放集合D。

S45、若S′不为终止状态，则更新状态S＝S’。

S46、从经验回放集合D中采样m个样本,{S_j,A_j,C_j,S'_j}，j＝1,2,...,m,基于上述式(16)计算当前目标Q值y_j。

S47、使用均方差损失函数通过神经网络的梯度反向传播来更新Q网络的所有参数w。且如果T％C＝1,则更新目标Q网络参数w'＝w。

S48、重复步骤S43-S48，直至S′达到终止状态，即当前轮迭代完毕，完成训练，输出Q网络参数与最终动作。

本发明实施例的有益效果在于：本发明以集群空调负荷为例，基于LSTM神经网络模拟用户行为，引入相似度量化用户差异化用能需求的切合程度，并利用DDQN算法求解最终动作，达到优化了用户用能成本的目的，满足了用户个性化用能需求。本发明的方法根据空调负荷基础模型，首先利用LSTM神经网络通过预测用户用能需求来模拟用户行为特性，实现了更精准的模拟，更符合实际情况。其次，引入相似度来量化用户差异化用能需求的切合程度，用户调控用电与用户用能行为的相似度越高，用户用能需求切合度越高，由此更贴切地满足各用户的用能需求，避免盲目耗能。最后，基于DDQN对集群空调负荷进行差异化优化调控，在提升训练效率的同时也提升了训练的稳定性，迭代更新求解出最优动作，有效的解决了降低用户用能成本的同时满足各用户的差异化舒适需求的问题，达到了节约资源、促进了需求侧管理的精细化的目的。

已经通过参考少量实施方式描述了本发明，然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同的落在本发明的范围内。

Claims

1.一种基于深度强化学习的集群空调负荷差异化调控方法，其特征在于，包括如下步骤：

步骤S3、建立差异化用能需求的集群空调负荷调控模型；

步骤S4、利用基于DDQN的集群空调负荷差异化调控算法优化控制策略；其中，用能行为相似度为用户i调控用电功率P_d,i与用户i用电行为模拟功率P_r,i之间的相似度r。

2.根据权利要求1所述的一种基于深度强化学习的集群空调负荷差异化调控方法，其特征在于，所述步骤S1如下：

步骤S11、采用一阶ETP参数模型作为空调负荷基础模型；

步骤S13、构建LSTM输入门函数与神经网络长期记忆函数；

步骤S14、构建LSTM输出门函数以及输出向量。

3.根据权利要求2所述的一种基于深度强化学习的集群空调负荷差异化调控方法，其特征在于，所述步骤s11中，表征空调负荷的基础模型为：

T_t+1＝θ_t+1-sηP_NR-(θ_t+1-sηP_NR-T_t)e^-Δk/RC

其中，T为室内温度，单位℃；θ为室外温度，单位℃；PN为空调制冷时的额定功率，单位kW；R为建筑等效热阻，单位℃/kW；C为建筑等效热容，单位kJ/℃；η为空调的制冷效率；t为采样时刻；Δk为采样时间间隔，单位min；s为空调的开关函数；所述步骤S12中，表征LSTM遗忘门函数的公式如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

其中，W_f为权重系数向量，h_t为t时刻的网络输出向量；b_f为偏置系数向量；x_t为用户用电历史数据；

所述步骤S13中，表征LSTM输入门函数公式如下：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

其中，W_i为权重系数向量，b_i为偏置系数向量；

神经网络长期记忆函数的公式如下：

c_t＝f_t·c_t-1+i_t·c_1t

c_1t＝tanh(W_c·[h_t-1,x_t]+b_c)

其中，W_c为权重系数向量，b_c为偏置系数向量。

4.根据权利要求3所述的一种基于深度强化学习的集群空调负荷差异化调控方法，其特征在于，所述步骤S14中，表征LSTM输出门函数的公式如下：

ο_t＝σ(W_o·[h_t-1,x_t]+b_o)

其中，W_o为权重系数向量，b_o为偏置系数向量；

表征最终输出向量为：

h_t＝o_t·tanh(c_t)

根据输出向量即可获得LSTM网络所模拟的用户i用电行为模拟功率P_r,i。

5.根据权利要求1所述的一种基于深度强化学习的集群空调负荷差异化调控方法，其特征在于，所述步骤S2中，采用皮尔逊相关系数量化用户调控用电曲线与步骤S1中用户用能行为模拟之间的相似度，进而得出用户差异化用能需求的切合程度。

6.根据权利要求1所述的一种基于深度强化学习的集群空调负荷差异化调控方法，其特征在于，所述步骤S3如下：

步骤S61、建立所有集群空调的环境状态模型；

7.根据权利要求6所述的一种基于深度强化学习的集群空调负荷差异化调控方法，其特征在于，所述步骤S61中，表征集群空调的环境状态模型：

S＝[Γ(t),Θ(t)]

Γ(t)为t时段的分时电价；Θ(t)为t时段的室外温度。

8.据权利要求6所述的一种基于深度强化学习的集群空调负荷差异化调控方法，其特征在于，所述步骤S62中，表征集群空调负荷的动作集模型：

A＝[P_i(t)]

其中，对于负荷i，其动作是t时段设备的用电功率P_i(t)。

9.据权利要求6所述的一种基于深度强化学习的集群空调负荷差异化调控方法，其特征在于，所述步骤S63中，表征集群空调负荷的奖励函数计算公式：

其中，γ为衰减因子；Γ(t)为t时段的分时电价；对于负荷i，其动作是t时段设备的用电功率P_i(t)；r(P_d,i,P_r,i)为用户i的用电调控曲线与用户模拟用电曲线间的相似度；α、β、λ为权重系数；C_i,s为t时段内用户i的温度不满意成本，为t时刻室内温度T_t与用户行为特性模拟温度T_d,t偏差的二次线性函数，其表征式为：

S_p为用电曲线峰谷标准差，当用户用电序列的采样点个数为96时，其表征式为：P_d,t和/>分别为t时刻的调控用电功率和调控用电功率的均值。

10.据权利要求1所述的一种基于深度强化学习的集群空调负荷差异化调控方法，其特征在于，所述步骤S4中，基于DDQN的集群空调负荷差异化调控算法优化控制策略的逻辑的描述：

步骤S101、构建目标Q值的计算公式y_i为：