CN114881688B

CN114881688B - 一种考虑分散式资源互动响应的配电网智能化定价方法

Info

Publication number: CN114881688B
Application number: CN202210443209.XA
Authority: CN
Inventors: 高红均; 卿竹雨; 安锐; 贺帅佳; 刘俊勇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2023-09-22
Anticipated expiration: 2042-04-25
Also published as: CN114881688A

Abstract

本发明涉及一种考虑分散式资源互动响应的配电网智能化定价方法，属于配电网定价技术领域，该方法基于配电网与分散式资源互动框架，具体分析考虑调峰容量、响应速度、响应诚信度的分散式资源差异化补偿机制；建立基于循环神经网络(RNN)的分散式资源响应行为预测模型，通过特征映射将资源在次日外部环境中的价格响应具体化；建立以配电网运营收益最大化和调峰偏差量最小化为目标函数的响应价格制定模型；所提模型采用针对定价模型更新改进的强化学习智能化算法求解，加速训练快速收敛，最终得到响应价格制定方案。

Description

一种考虑分散式资源互动响应的配电网智能化定价方法

技术领域

本发明属于配电网定价技术领域，具体涉及一种考虑分散式资源互动响应的配电网智能化定价方法。

背景技术

大规模清洁能源接入带来高度的不确定性，源荷不平衡问题凸显，社会经济快速发展下电力系统峰值负荷亦日渐升高，现有灵活性调节资源难以满足未来的调峰需求。用户侧分散式资源的响应潜力是解决新型电力系统调峰需求的一种思路。分散式资源协调方式灵活多样，目前调峰相关研究大多直接调控分散式资源参与辅助服务，针对某一调峰任务进行单方电力调度，尚未深入挖掘分散式资源的互动行为与响应特性。部分研究对价格响应进行了一定探讨，而不同分散式资源用能行为存在差异性，对各类分散式资源响应进行差异化定价将有利于提高分散式资源的响应综合性能和参与积极性。

如何通过价格引导分散式资源响应调峰，并制定有效的分散式资源调峰定价策略，对于提升经济性和风险应对能力有着重要影响。同时，分散式资源响应行为不确定性增加了传统数值方法求解难度，分散式资源数量庞大时模型运算压力巨大。

因此，现阶段需设计一种考虑分散式资源互动响应的配电网智能化定价方法，来解决以上问题。

发明内容

本发明目的在于提供一种考虑分散式资源互动响应的配电网智能化定价方法，用于解决上述现有技术中存在的技术问题，如何通过价格引导分散式资源响应调峰，并制定有效的分散式资源调峰定价策略，对于提升经济性和风险应对能力有着重要影响。同时，分散式资源响应行为不确定性增加了传统数值方法求解难度，分散式资源数量庞大时模型运算压力巨大。

为实现上述目的，本发明的技术方案是：

一种考虑分散式资源互动响应的配电网智能化定价方法，包括以下步骤：

S1：针对有意参与调峰服务并具有调峰潜力的分散式资源，具体分析包含响应容量、响应速度、响应诚信度的分散式资源参与响应的补偿机制；

S2：采集历史用电信息数据集，并对历史用电信息进行数据预处理；建立基于RNN的分散式资源响应行为预测模型，获得在次日预测外部环境中补偿价格下的响应量；

S3：建立以配电网运营收益最大化和调峰偏差量最小化为目标函数的响应价格制定模型，同时配置储能设备进行调峰偏差弥补；

S4：引入强化学习智能化算法求解问题，设置动作空间与奖励函数，分析运行环境信息并做出最优定价决策；采用深层Q网络算法，针对最优定价决策进行更新改进，加快训练速度和结果收敛。

进一步的，步骤S1中分散式资源参与响应的补偿机制，根据响应容量进行补偿，同时分散式资源响应结算价格与资源调峰响应速度、响应诚信度和制定基础响应价格三个部分相关。

进一步的，资源响应结算价格：

式中，为资源i的响应结算价格；为制定的响应价格；k_i为资源i的响应速度激励系数；α_i为资源i的响应诚信系数。

进一步的，资源响应速度激励系数：

式中，v_i为资源调峰速度；v_N为资源调峰速度考核标准。

进一步的，资源响应诚信系数：

式中，为分散式资源i的异常次数；n^HN为异常容限次数；k^D、n^D为诚信度扣减系数；tanh为双曲正切函数。

进一步的，步骤S1中分散式资源为可调节负荷。

进一步的，步骤S3中，响应价格制定模型的目标函数为：

式中，F₁为调峰总收益；F₂为调峰偏差；T^R为调峰时段数；R_t为分散式资源参与调峰市场获得的应调峰量；为调峰市场出清价格；为对分散式资源的总响应补偿费用；为储能设备运行成本；为响应偏差惩罚；P_t ^UB为调峰偏差功率；

分散式资源总响应补偿费用：

N^all＝N^AC+N^WH+N^DR

式中，N^all为参与响应的资源总数量；为对资源i的响应补偿；N^AC、N^WH、N^DR分别为参与响应的各类资源数量；为资源i的响应结算价格；为资源i的调峰响应量，由RNN响应行为预测获得；Δt为单位时间；

响应偏差惩罚：当日实际响应量不能满足调峰市场要求时，结算阶段需要承担一定响应偏差惩罚费用；将偏差惩罚费用分段设置，当偏差小于某一设定值时惩罚费用按二次方快速减小，促使调峰性能提升：

W_t ^UB＝P_t ^UBΔt

式中，为调峰响应的偏差惩罚成本系数；W_t ^UB为调峰偏差电量；为偏差考核分段设定值；u^UB为响应偏差考核比例；

储能设备运行成本：配置储能设备进行调峰偏差弥补，减少偏差惩罚费用，储能设备的运行成本为：

式中，为储能设备与电网交互的实时购售电价；ΔP_t ^ESS为储能设备的弥补量；λ^ESS为储能运维系数；

调峰功率平衡约束：响应结果需要维持与市场交互和分散式资源响应的功率平衡，实际响应与调峰目标之间的不平衡量即为响应偏差值：

P_t ^UB＝|ΔP_t ^all-R_t|

ΔP_t ^all＝ΔP_t ^AC+ΔP_t ^WH+ΔP_t ^DR+ΔP_t ^ESS

式中，ΔP_t ^all为分散式资源的实际调峰功率；ΔP_t ^AC、ΔP_t ^WH、ΔP_t ^DR分别为各类资源的实际响应功率；

响应价格调整约束需考虑响应价格制定的合理区间范围：

式中，分别为t时段最小、最大调峰响应价格；

储能设备响应偏差弥补约束：

储能设备在弥补响应偏差时充放电功率受到以下运行约束限制，

式中，分别储能设备偏差弥补时充放电的最小、最大限制；

调峰容量约束：

分散式资源参与调峰的容量受基本用电情况和可响应能力限制，

式中，为资源i的最大响应功率；为资源基本用电功率；分别为资源用电功率最小、最大限制。

进一步的，步骤S4的强化学习智能化算法能自适应不确定环境，智能体在与环境空间的不断交互、数据反馈的过程中学习和改进动作策略，避免对不确定性的直接建模；在强化学习中，马尔可夫决策过程表示为一个元组：

M＝<S,A,P,R>

其中，S表示状态空间；A表示动作策略集合；P表示状态转移概率；R表示奖励函数；

所述状态空间S：

状态空间向量s为智能体关于其行为选择对环境状态影响的反馈信号，具体包含：

式中，分别为制定响应价格后空调系统、电热水器、其他可调负荷的用电功率改变量以及储能设备的响应弥补量；为动作选择的调峰收益；为调峰偏差量；t^R为当前调峰时段；

动作策略集合A：

包含两部分：调峰目标量R的动作集合A₁、制定响应价格price^C所有可能的动作集合A₂；将响应价格动作空间A₂均匀离散为K个动作选择：

式中，为均匀离散动作空间的第k个价格制定动作；为响应价格最小值；为响应价格最大值；

状态转移概率P：

由当前状态s采取动作a后转移到下一个状态s′的概率表示为：

奖励函数R：

基于动作选择前后的经济特性，以调峰收益为奖励计算值r₁，并考虑响应量与调峰目标量的偏差情况r₂，将控制分散式资源的响应精度在合理的范围之内：

式中，F_1,a、F_2,a分别为在响应价格策略a下的调峰收益以及调峰偏差；

将r₁、r₂作归一化处理，综合得到强化学习训练目标：

式中，α_r1、α_r2为奖励权重系数；为归一化的奖励函数；M为一个正实数，将综合奖励函数进行放大处理；

DQN算法及改进：

通过构建DQN模型适应强化学习的无标签样本数据，从环境信息中不断调整自身参数，在线寻求最优策略以满足最大回报；强化学习采用状态-动作对值函数Q(s_t,a_t)进行迭代更新得到最优解，在状态s_t经过动作a转移到状态s_t+1时对值函数Q进行更新；设置每训练回合存储目前探索获得的最大奖励，对每次动作值对进行更新判断：

式中，分别为更新前后的奖励值；为目前探索回合获得的最大奖励，初始值设定为0；k^d为缩放比例。

与现有技术相比，本发明所具有的有益效果为：

本方案其中一个有益效果在于，本发明考虑分散式资源用电特性和调峰市场要求，以RNN预测模型映射分散式资源响应行为特征，建立以收益最大化和调峰偏差量最小化为目标函数的响应价格制定模型，采用更新改进的强化学习智能化算法能较快获取价格制定结果，可以充分调动分散式资源的调峰潜力，缓解调峰压力。

附图说明

图1为本发明配电网智能化定价方法流程示意图。

图2为本发明配电网与分散式资源互动机理示意图。

图3为本发明响应价格求解流程。

图4为本发明分散式资源响应预测网络结构。

图5为本发明强化学习训练过程。

图6为本发明调峰时段各类资源响应情况。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

而且，术语“包括”，“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程，方法，物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程，方法，物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程，方法，物品或者设备中还存在另外的相同要素。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例：

如图1所示，图1为配电网智能化定价方法流程示意图，针对有意参与调峰服务并具有调峰潜力的分散式资源，建立基于资源用能特性与调峰市场要求构建与分散式资源互动框架；采集大量历史用电信息并进行数据预处理，建立基于RNN的资源响应行为预测模型，将资源在次日外部环境中的价格响应具体化；基于以上互动机理和响应预测，以经济收益最大化和调峰偏差最小化为目标函数建立定价模型；引入强化学习智能化算法求解问题，采用DQN算法，针对定价策略进行更新改进，并通过仿真分析和对比验证所提方法的有效性。

如图2所示，分散式资源依据所制定价格响应调峰，并以实际用电行为反过来影响整体调峰效果，配电网与分散式资源之间存在信息流、业务流、电力流的双向交互，其间互动机理具体如下所示：

1)次日用电曲线上报。资源上报次日基本用电曲线，根据汇总的用电曲线数据集预计能在调峰市场获得的最佳响应量，以参与投标报价。

2)用电行为异常提醒。对每日上报情况进行审查并与历史数据对比，数据多次异常则会影响资源的响应诚信系数。

3)对内响应价格下发。在市场获得次日目标响应量和市场价格后，考虑资源响应行为，制定响应价格并通过智能交互终端下发以激励响应。

4)运行储能设备弥补偏差。响应结果与目标响应量存在偏差时，可调控储能进行偏差弥补，以减少结算时的惩罚费用。

5)每日响应收益计算与结果储存。资源参与调峰所得收益在每日结束后进行结算，并将响应结果存入交互信息记忆库中，用于响应预测更新。

所述分散式资源响应补偿机制：以响应容量为基础进行补偿，响应量越大获得补偿越多，同时分散式资源响应结算价格与资源调峰响应速度、响应诚信度和制定基础响应价格三个部分相关，不同资源的调峰响应速度和响应诚信度存在差异。

所述资源响应结算价格：

所述资源响应速度激励系数：

式中，v_i为资源调峰速度；v_N为资源调峰速度考核标准。

所述资源响应诚信系数：

所述响应价格制定模型：

建立以配电网运营收益最大化和调峰偏差量最小化为目标函数的响应价格制定模型。

调峰收益最大化：

式中，F₁为调峰总收益；F₂为调峰偏差；T^R为调峰时段数；R_t为分散式资源参与调峰市场获得的应调峰量；为调峰市场出清价格；为对分散式资源的总响应补偿费用；为储能设备运行成本；为响应偏差惩罚。

其中，分散式资源总响应补偿费用：

N^all＝N^AC+N^WH+N^DR

式中，N^all为参与响应的资源总数量；为对资源i的响应补偿；N^AC、N^WH、N^DR分别为参与响应的各类资源数量；为资源i的响应结算价格；ΔP_t ⁱ为资源i的调峰响应量，由RNN响应行为预测获得；Δt为单位时间。

其中，储能设备运行成本：配置储能设备进行调峰偏差弥补，储能设备的运行成本为：

式中，为储能设备与电网交互的实时购售电价；ΔP_t ^ESS为储能设备的弥补量；λ^ESS为储能运维系数。

其中，响应偏差惩罚：当实际响应量不能满足调峰市场要求时，需要支付一定的响应偏差惩罚费用。将偏差惩罚费用分段设置，当偏差小于某一设定值时惩罚费用按二次方快速减小：

W_t ^UB＝P_t ^UBΔt

式中，为调峰响应的偏差惩罚成本系数；W_t ^UB为调峰偏差电量；为偏差考核分段设定值；u^UB为响应偏差考核比例。

调峰偏差最小化：

式中，P_t ^UB为调峰偏差功率。

P_t ^UB＝|ΔP_t ^all-R_t|

ΔP_t ^all＝ΔP_t ^AC+ΔP_t ^WH+ΔP_t ^DR+ΔP_t ^ESS

式中，ΔP_t ^all为分散式资源的实际调峰功率；ΔP_t ^AC、ΔP_t ^WH、ΔP_t ^DR分别为各类资源的实际响应功率。

响应价格调整约束：为了限制响应价格过度调整，需要考虑响应价格制定区间：

式中，分别为t时段最小、最大调峰响应价格。

储能设备响应偏差弥补约束：为了更接近实际情况，对储能的弥补作用进行限制，储能设备在弥补响应偏差时充放电功率受到以下运行约束限制：

式中，分别储能设备偏差弥补时充放电的最小、最大限制。

调峰容量约束：分散式资源参与调峰的容量受可响应能力限制：

如图3所示，RNN响应行为预测网络考虑多类环境影响因素，以日期标签、响应价格、分散式资源初始用电情况以及各类环境信息为输入，通过训练输出给定响应价格信号下分散式资源的调峰响应量。

RNN模型结构：在RNN结构中，输入层和输出层之间存在多个隐藏层，每个隐藏层由神经元联结组成，模型从输入数据中提取足够的相关特征，构造输入输出之间的映射变换：

式中，y_s,k,l、x_s,l,j分别为输出和输入；ω_k,l,j、b_k.l分别为输入的权重值和偏斜值。

RNN训练算法：在RNN中采用反向传播算法计算求解网络参数ω和b，设定损失函数作为RNN训练目标，以衡量RNN训练输出准确性，在响应价格制定问题中采用均方误差作为损失函数：

式中，N^S为神经网络训练样本数量；T^R为参与调峰的时段数；为在第t个时间间隔内的响应量；P_s,t为在第t个时间间隔内通过神经网络获得的响应估计量。

配电网分散式资源中存在负荷变化、响应波动等不确定性，直接影响调峰结果，训练集中这类异常值会导致过拟合问题，失去模型的泛化能力。因此，对损失函数正则化处理，以此得到损失函数对权重比和偏斜量的一阶偏导数，用于变量更新：

式中，α为正则化系数，且α大于零；ω为偏导数。新增的惩罚项对权重比参数进行限制，不会因适应异常值或噪声而过快增长。

如图4所示，响应价格制定策略采用强化学习方法进行求解，对定价策略不断修改更新以达到最优。获取资源历史用电数据，数据包含不同价格和不同环境信息下用户响应行为，并对数据进行预处理形成样本集，以提高模型泛化能力；选取样本数据进行离线训练，建立内部资源调峰响应模型；根据在调峰市场中所获得目标调峰量以及当日环境信息制定响应价格，对选择动作进行越限判断，并确定回报值函数，完成强化学习价格制定策略；保存运行的最终数据，并进行结果分析。

所述强化学习方法求解：

进一步的，所述步骤(4)的强化学习智能化算法能自适应不确定环境，智能体在与环境空间的不断交互、数据反馈的过程中学习和改进动作策略，避免对不确定性的直接建模，由此得到响应价格制定策略。在强化学习中，马尔可夫决策过程(MDP)是一个智能体采取行动从而改变自己的状态获得奖励、与环境发生交互的循环过程，MDP的策略完全取决于当前状态，可以简单表示为一个元组：

M＝<S,A,P,R>

其中，S表示状态空间；A表示动作策略集合；P表示状态转移概率；R表示奖励函数。

所述状态空间S：

式中，分别为制定响应价格后空调系统、电热水器、其他可调负荷的用电功率改变量以及储能设备的响应弥补量；为动作选择的调峰收益；为调峰偏差量；t^R为当前调峰时段。

所述动作策略集合A：

动作包含两部分：调峰目标量R的动作集合A₁、制定响应价格price^C所有可能的动作集合A₂。为简化分析，将响应价格动作空间A₂均匀离散为K个动作选择：

式中，为均匀离散动作空间的第k个价格制定动作；为响应价格最小值；为响应价格最大值。

所述状态转移概率P：

所述奖励函数R：

基于动作选择前后的经济特性，以调峰收益为奖励计算值r₁，并考虑响应量与调峰目标量的偏差情况r₂，以控制分散式资源的响应精度在合理的范围之内：

式中，F_1,a、F_2,a分别为在响应价格策略a下的调峰收益以及调峰偏差。

将r₁、r₂作归一化处理，综合得到强化学习训练目标：

式中，α_r1、α_r2为奖励权重系数；为归一化的奖励函数；M为一个较大的正实数，为了达到更好的学习效果，将综合奖励函数进行放大处理。

所述DQN算法及改进：

通过构建DQN模型适应强化学习的无标签样本数据，从环境信息中不断调整自身参数，在线寻求最优策略以满足最大回报。强化学习采用状态-动作对值函数Q(s_t,a_t)进行迭代更新得到最优解，在状态s_t经过动作a转移到状态s_t+1时对值函数Q进行更新。

为了加快训练速度和结果收敛，储存并更新每训练回合中当前探索所得最大奖励，并对每次动作值对进行比较，若所得奖励值大于或等于所储存最大值，则修改储存值并按所得值进行后续步骤；反之，则按照既定比例缩放，以此对每次动作值对进行对比和更新判断：

式中，r_t ⁱ、r_t ⁿ分别为更新前后的奖励值；r_t ^s为目前探索回合获得的最大奖励，初始值设定为0；k^d为缩放比例。

所述算例验证分析：

本发明以空调系统、电热水器，以及其他多类可调节资源(总称为其他可调负荷)参与调峰响应为例进行验证。

如图5所示，为调峰时段的强化学习训练过程。基于所获得基本调峰信息，开始强化学习训练，软更新因子设定为0.01，梯度下降优化器采用Adam Optimizer，模型训练2000个回合。基于不同动作网络的学习效率和贪婪度组合，对模型分别进行了6次训练。训练初期的智能体探索性较强，曲线波动相对较大，在训练中段训练效果迅速上升，最后达到收敛。

调峰时段响应结果具体如表1所示，各类分散式资源响应情况具体如图6所示。

表1调峰时段总响应结果

如表1和图6所示，在该日下午时段，调峰响应主要由空调系统和其他可调负荷完成，晚间时段的调峰响应主要由空调系统完成。在各调峰时段内，资源响应量与在市场获取的目标值略有偏差，储能设备进行了充放电的双向弥补，最终结果各时段内偏差较小，结算时惩罚费用较低。相比下午调峰时段，晚间调峰所制定的响应价格较高，甚至高过了同时段的储能设备运维成本，故倾向于运行储能设备至较大响应状态，再进行分散式资源的调峰。在此次调峰中，晚间时段调峰需求量整体相对较大，而响应意愿较低，为了激励分散式资源参与响应制定了较高的响应价格，此时段市场价格也相对高，因此晚间时段获得了较大的调峰收益。

同时设置以下场景进行对比分析：场景1直接调控，按照固定价格对分散式资源进行补偿；场景2直接调控，按照阶梯式调峰价格对分散式资源进行补偿；场景3与分散式资源进行互动，制定响应价格仅考虑调峰收益；场景4与分散式资源进行互动，偏差制定响应价格考虑调峰收益和调峰偏差。不同场景下的调峰结果具体如表2所示：

表2不同场景下调峰结果

如表2所示，场景1不考虑互动而直接调控，调峰不存在偏差，但调峰收益较低；场景2按照阶梯式调峰价格进行补偿，在此场景中市场调峰成本较低，调峰收益不高；场景3中能获得最大调峰收益，而调峰偏差相对较大；场景4中总收益虽然相较场景3下降，但调峰偏差大幅减小，总体调峰效果最佳。

为了验证本发明所提方法有效性，同时采用遗传算法(GA)、粒子群优化算法(PSO)和商业软件CPLEX对模型进行求解计算响应价格，将四种计算方法进行对比分析。其中所建立模型并不能由CPLEX直接求解，为此将响应行为通过预测模型转为价格与外部环境因素的神经网络映射，进而将模型转为价格的高阶非线性函数，再通过微分增量分段化，分段函数线性化，以此实现模型转化。最终结果对比具体如表3所示。

表3方法对比结果

由表3所示，四种方法求解结果略有差异。在RL、GA和PSO三种智能算法中，RL所得结果最好，且耗费时间最少。CPLEX求解过程中模型转换时间较长，且存在精度损失，模型转换后求解所得的结果为近似最优解，CPLEX求解结果与RL的数值相近。由四种方法分别对模型进行计算求解，通过对比验证了本发明所采用的强化学习方法对求解本发明响应价格制定问题的有效性。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种考虑分散式资源互动响应的配电网智能化定价方法，其特征在于，包括以下步骤：

S4：引入强化学习智能化算法求解问题，设置动作空间与奖励函数，分析运行环境信息并做出最优定价决策；采用深层Q网络算法，针对最优定价决策进行更新改进，加快训练速度和结果收敛；

步骤S1中分散式资源参与响应的补偿机制，根据响应容量进行补偿，同时分散式资源响应结算价格与资源调峰响应速度、响应诚信度和制定基础响应价格三个部分相关；

资源响应结算价格：

式中，为资源i的响应结算价格；为制定的响应价格；k_i为资源i的响应速度激励系数；α_i为资源i的响应诚信系数；

资源响应速度激励系数：

式中，v_i为资源调峰速度；v_N为资源调峰速度考核标准；

资源响应诚信系数：

式中，为分散式资源i的异常次数；n^HN为异常容限次数；k^D、n^D为诚信度扣减系数；tanh为双曲正切函数；

步骤S1中分散式资源为可调节负荷；

步骤S3中，响应价格制定模型的目标函数为：

分散式资源总响应补偿费用：

N^all＝N^AC+N^WH+N^DR

式中，N^all为参与响应的资源总数量；为对资源i的响应补偿；N^AC、N^WH、N^DR分别为参与响应的各类资源数量；为资源i的响应结算价格；ΔP_t ⁱ为资源i的调峰响应量，由RNN响应行为预测获得；Δt为单位时间；

W_t ^UB＝P_t ^UBΔt

P_t ^UB＝|ΔP_t ^all-R_t|

ΔP_t ^all＝ΔP_t ^AC+ΔP_t ^WH+ΔP_t ^DR+ΔP_t ^ESS

响应价格调整约束需考虑响应价格制定的合理区间范围：

式中，分别为t时段最小、最大调峰响应价格；

储能设备响应偏差弥补约束：

式中，分别储能设备偏差弥补时充放电的最小、最大限制；

调峰容量约束：

式中，为资源i的最大响应功率；为资源基本用电功率；分别为资源用电功率最小、最大限制；

步骤S4的强化学习智能化算法能自适应不确定环境，智能体在与环境空间的不断交互、数据反馈的过程中学习和改进动作策略，避免对不确定性的直接建模；在强化学习中，马尔可夫决策过程表示为一个元组：

M＝＜S,A,P,R>

所述状态空间S：

动作策略集合A：

状态转移概率P：

奖励函数R：

将r₁、r₂作归一化处理，综合得到强化学习训练目标：

DQN算法及改进：