CN117371681A

CN117371681A - 电力资源调度方法、装置、设备及存储介质

Info

Publication number: CN117371681A
Application number: CN202311166862.7A
Authority: CN
Inventors: 李鑫
Original assignee: Zhejiang Anji Zhidian Holding Co Ltd
Current assignee: Zhejiang Anji Zhidian Holding Co Ltd
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2024-01-09

Abstract

本申请公开了一种电力资源调度方法、装置、设备及存储介质，涉及电力资源调度技术领域，以至少解决因调度策略并不能适应复杂多变的环境，以不能对电力资源进行有效调度，从而降低能源系统对电力资源的利用率问题。该方法包括：根据第一实际环境参数、实际调度参数、第一实际环境参数下采用实际调度参数的实际收益和第二实际环境参数，对在当前环境参数下多个当前待调度参数对应的收益进行预测，得到多个预测收益；将多个预测收益中，符合预期收益条件的预测收益对应的当前待调度参数，作为目标调度参数；按照目标调度参数，对可控资源进行调度。

Description

电力资源调度方法、装置、设备及存储介质

技术领域

本申请涉及电力资源调度技术领域，尤其涉及一种电力资源调度方法、装置、设备及存储介质。

背景技术

随着新能源向可再生、清洁和高效方向发展的发展趋势，智能电网将成为未来能源系统的重要组成部分。通过应用资源信息处理技术对电力资源进行合理调度，智能电网可以实现对电力资源的利用、供应和需求响应，从而提高能源系统的可靠性和可持续性。

然而，目前在对电力资源的调度过程中，采用的调度策略并不能适应复杂多变的环境，以不能对电力资源进行有效调度，降低能源系统对电力资源的利用率和降低能源系统对电力资源的供应能力，从而使得能源系统不能及时响应市场对电力资源需求。

发明内容

本发明提供一种电力资源调度方法、装置、设备及存储介质，以至少解决因调度策略并不能适应复杂多变的环境，以不能对电力资源进行有效调度，从而降低能源系统对电力资源的利用率问题。本发明的技术方案如下：

根据本发明实施例的第一方面，提供了一种电力资源调度方法，该方法包括：根据第一实际环境参数、实际调度参数、第一实际环境参数下采用实际调度参数的实际收益和第二实际环境参数，对在当前环境参数下多个当前待调度参数对应的收益进行预测，得到多个预测收益；其中，第二实际环境参数为采用实际调度参数对可控资源进行调度完成时所处实际环境的实际环境参数；将多个预测收益中，符合预期收益条件的预测收益对应的当前待调度参数，作为目标调度参数；按照目标调度参数，对可控资源进行调度。

可以理解的是，第一实际环境参数为采用实际调度参数对可控资源进行调度时所处实际环境的实际环境参数。

在一种可能的实现方式中，根据第一实际环境参数、实际调度参数、第一实际环境参数下采用实际调度参数的实际收益和第二实际环境参数，对在当前环境参数下多个当前待调度参数对应的收益进行预测，得到多个预测收益，包括：将预设模型与实际环境的交互，获取交互过程中不同获取时刻的第一实际环境参数、实际调度参数、实际收益和第二实际环境参数；预设模型包括非可控资源的环境参数和可控资源的调度参数与收益之间的映射关系；根据第一实际环境参数、实际调度参数、实际收益和第二实际环境参数，对预设模型进行优化，得到目标模型；将非可控资源的当前环境参数和可控资源的多个当前待调度参数输入至目标模型，得到多个预测收益；其中，多个当前待调度参数是与当前环境参数相匹配的调度参数。

在另一种可能的实现方式中，根据第一实际环境参数、实际调度参数、实际收益和第二实际环境参数，对预设模型进行优化，得到目标模型，包括：将不同获取时刻对应的第一实际环境参数、实际调度参数、实际收益和第二实际环境参数，按照获取时刻分类后分别放入经验池中，得到多个获取时刻对应的多组经验参数；根据从经验池中随机抽取的经验参数，对预设模型进行优化，得到目标模型。

在另一种可能的实现方式中，预测模型为神经网络模型；在将预设模型与实际环境的交互之前，该方法还包括：将历史环境参数和历史调度参数标记为输入样本，以及将历史环境参数下历史调度参数产生的历史收益标记为输出样本，对初始模型的网络参数进行有监督的训练，得到训练完成的预测模型。

在另一种可能的实现方式中，预设模型还用于对符合预期收益条件的预测收益对应的当前待调度参数进行提取。

在另一种可能的实现方式中，预期收益条件为当前环境参数下预设时长内收益总和最大，预设时长为非可控资源的环境参数从当前环境参数到发生预设次参数变化的时长；将多个预测收益中，符合预期收益条件的预测收益对应的当前待调度参数，作为目标调度参数，包括：将多个预测收益中，预设时长内的预测收益总和最大的预测收益对应的当前待调度参数，作为目标调度参数。

在另一种可能的实现方式中，预期收益条件为当前环境参数对应的预测收益最大；将多个预测收益中，符合预期收益条件的预测收益对应的当前待调度参数，作为目标调度参数，包括：将多个预测收益中，最大的预测收益对应的当前待调度参数，作为目标调度参数。

在另一种可能的实现方式中，非可控资源的环境参数包括：光伏发电设备的发电功率；现货电价、需求响应电价、需求响应电量、刚性负荷；可控资源的调度参数包括：储能设备的储能功率和充电桩的充电功率。

根据本发明实施例的第二方面，提供了一种电力资源调度装置，该装置包括：预测单元，用于根据第一实际环境参数、实际调度参数、第一实际环境参数下采用实际调度参数的实际收益和第二实际环境参数，对在当前环境参数下多个当前待调度参数对应的收益进行预测，得到多个预测收益；其中，第二实际环境参数为采用实际调度参数对可控资源进行调度完成时所处实际环境的实际环境参数；比较单元，用于将多个预测收益中，符合预设收益条件预期收益条件的预测收益对应的当前待调度参数，作为目标调度参数；调度单元，用于按照目标调度参数，对可控制资源进行调度。

在一种可能的实现方式中，：预测单元具体用于：将预设模型与实际环境的交互，获取交互过程中不同获取时刻的第一实际环境参数、实际调度参数、实际收益和第二实际环境参数；预设模型包括非可控资源的环境参数和可控资源的调度参数与收益之间的映射关系；根据第一实际环境参数、实际调度参数、实际收益和第二实际环境参数，对预设模型进行优化，得到目标模型；将非可控资源的当前环境参数和可控资源的多个当前待调度参数输入至目标模型，得到多个预测收益；其中，多个当前待调度参数是与当前环境参数相匹配的调度参数。

在另一种可能的实现方式中，预测单元具体还用于：将不同获取时刻对应的第一实际环境参数、实际调度参数、实际收益和第二实际环境参数，按照获取时刻分类后分别放入经验池中，得到多个获取时刻对应的多组经验参数；根据从经验池中随机抽取的经验参数，对预设模型进行优化，得到目标模型。

在另一种可能的实现方式中，预测模型为神经网络模型；在将预设模型与实际环境的交互之前，该装置还用于：将历史环境参数和历史调度参数标记为输入样本，以及将历史环境参数下历史调度参数产生的历史收益标记为输出样本，对初始模型的网络参数进行有监督的训练，得到训练完成的预测模型。

在另一种可能的实现方式中，预期收益条件为当前环境参数下预设时长内收益总和最大，预设时长为非可控资源的环境参数从当前环境参数到发生预设次参数变化的时长；比较单元具体用于：将多个预测收益中，预设时长内的预测收益总和最大的预测收益对应的当前待调度参数，作为目标调度参数。

在另一种可能的实现方式中，预期收益条件为当前环境参数对应的预测收益最大；比较单元具体还用于：将多个预测收益中，最大的预测收益对应的当前待调度参数，作为目标调度参数。

根据本发明实施例的第三方面，提供了一种电力设备，包括：处理器和用于存储处理器可执行指令的存储器；其中，处理器被配置为执行可执行指令，以实现如第一方面及其任一种可能的实现方式的电力资源调度方法。

根据本发明实施例的第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有指令，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面及其任一种可能的实现方式的的电力资源调度方法。

根据本申请实施例的第五方面，提供一种计算机程序产品，计算机程序产品包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述第一方面及其任一种可能的实现方式的电力资源调度方法。

本发明的实施例提供的技术方案至少带来以下有益效果：考虑了实际环境参数的变化趋势对收益的影响，通过第一实际环境参数、实际调度参数、第一实际环境参数下采用实际调度参数的实际收益和第二实际环境参数之间的关联关系，反应了调度参数与环境变化和收益之间的映射关系。并根据此映射关系，对当前环境参数下不同当前待调度参数对应的收益进行预测，以从多个预测收益中，确定出符合预期收益条件的目标预测收益。并将用于预测目标预测收益的当前待调度参数，确定为目标调度参数，以按照该目标调度参数对可控资源进行合理调度。

如此，上述基于不同实际调度参数对可控资源调度时和调度后所处环境的参数变化情况，对不同当前待调度参数对应的收益进行预测，并按照预期收益条件对预测收益进行筛选，得到能适应复杂多变的环境的调度策略(即，目标调度参数)，从而按照该调度策略对可控资源进行有效调度，以提高对电力资源的利用率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理，并不构成对本申请的不当限定。

图1是根据一示例性实施例示出的一种电力资源调度方法的流程图一；

图2是根据一示例性实施例示出的一种参数状态转移示意图；

图3是根据一示例性实施例示出的一种电力资源调度方法的流程图二；

图4是根据一示例性实施例示出的一种电力资源调度方法的流程图；

图5是根据一示例性实施例示出的一种电力资源调度装置的框图；

图6是根据一示例性实施例示出的一种电子设备的示意图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

并且，以下本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

在对本申请实施例提供的电力资源调度方法进行详细介绍之前，先对本申请实施例涉及的应用场景进行简单介绍。

示例性的，目前主流的新能源汽车为以动力电池为全部或部分能量来源的电动汽车。随着电动汽车数量的不断增加，电动汽车带来的能源需求对电网的影响很大，在对充电桩和储能设备的电力资源不能合理调度的情况下，多个电动汽车接入电网后自动充电可能会造成电网拥堵。

针对上述问题，本申请提供了一种电力资源调度方法，考虑了实际环境参数的变化趋势对收益的影响，通过第一实际环境参数、实际调度参数、第一实际环境参数下采用实际调度参数的实际收益和第二实际环境参数之间的关联关系，反应了调度参数与环境变化和收益之间的映射关系。并根据此映射关系，对当前环境参数下不同当前待调度参数对应的收益进行预测，以从多个预测收益中，确定出符合预期收益条件的目标预测收益。并将用于预测目标预测收益的当前待调度参数，确定为目标调度参数，以按照该目标调度参数对可控资源进行合理调度。

为了便于理解，以下结合附图对本申请提供的电力资源调度方法进行具体介绍。该电力资源调度方法可用于电力资源调度系统或能源系统或智能体等。

图1是根据一示例性实施例示出的一种电力资源调度方法的流程图，如图1所示，该电力资源调度方法包括以下步骤。

S11，根据第一实际环境参数、实际调度参数、第一实际环境参数下采用实际调度参数的实际收益和第二实际环境参数，对在当前环境参数下多个当前待调度参数对应的收益进行预测，得到多个预测收益。

其中，第一实际环境参数为采用实际调度参数对可控资源进行调度时所处实际环境的实际环境参数；第二实际环境参数为采用实际调度参数对可控资源进行调度完成时所处实际环境的实际环境参数。

可理解的是，基于第一实际环境参数、实际调度参数、第一实际环境参数下采用实际调度参数的实际收益和第二实际环境参数之间指示的调度参数与环境变化和收益之间的映射关系，对当前环境参数下不同当前待调度参数对应的收益进行预测。

上述第一实际环境参数、实际调度参数、实际收益和第二实际环境参数一一对应，上述各个实际参数组成一组实际参数组。通常采用多组实际参数组来对当前环境参数下的收益进行预测。

在一些实施方式中，上述多组实际参数组中的各个实际参数来源于智能体，即，是智能体与实际环境交互过程产生的第一实际环境参数、实际调度参数、实际收益和第二实际环境参数等实际参数。

第一实际环境参数、第二实际环境参数和当前环境参数，均表征不同时间的非可控资源的环境参数。该非可控资源的环境参数可以包括：光伏发电设备的发电功率；现货电价、需求响应电价、需求响应电量、刚性负荷。上述实际调度参数和当前调度参数均表征不同时间的可控资源的调度参数。该可控资源的调度参数包括：储能设备的储能功率和充电桩的充电功率。

作为一种实际参数的获取方式，从第一历史时刻的第一实际环境参数到第二历史时刻的第二实际环境参数过程中，先在第一历史时刻对第一实际环境参数、对可控资源的实际调度参数(即调度策略)。一定时间后，在产生对应的实际收益的第二历史时刻，对实际收益和该时刻的环境参数进行采集。

具体地，如图2所示的参数状态转移示意图，将从时刻1至时刻96中各个时刻对应的光伏发电设备的发电功率、现货电价、需求响应电价、需求响应电量和刚性负荷作为状态空间。以及将从时刻1至时刻96中各个时刻对应的储能设备的储能功率和充电桩的充电功率，作为动作空间。

S12，将多个预测收益中，符合预期收益条件的预测收益对应的当前待调度参数，作为目标调度参数。

在一种可能实施场景一中，考虑到后续环境参数的变化的影响，基于当前环境参数和后续预测的所有环境参数的收益总和，来筛选最优的调度策略，以提高电力资源的利用率。具体地，将预期收益条件为当前环境参数下预设时长内收益总和最大，预设时长为非可控资源的环境参数从当前环境参数到发生预设次参数变化的时长。

可理解为，针对任一当前环境参数，对当前环境参数的收益进行预测的同时，还对当前环境参数的下一个环境参数进行预测。基于预测的下一个环境参数，对预测的下一个环境参数的收益进行预测的同时，还对预测的下一个环境参数的下一个环境参数进行预测；如此，按照上述预测方式依次对预测到的下一个环境参数的收益进行预测的同时，也对预测的下一个环境参数的下一个环境参数进行预测参数进行预测；直至到达预设时长或达到预设次数时。停止上述依次预测的过程。因此，当前环境参数下预设时长内收益总和为上述当前环境参数对应的预测收益与多个下一个环境参数对应的多个下一预测收益的收益总和。

上述预测次数，可理解为，预测的次数。

可选的，上述预测次数设置为预设周期的个数。按照预设周期，对预测环境参数的收益预测的同时，也预测下一个环境参数。故，预设时长包括多个预设周期，一个预设周期为环境参数发生一次参数变化的时长。

基于此场景一，上述S12步骤中确定目标调度参数的过程如下：将多个预测收益中，预设时长内的预测收益总和最大时对应的预测收益，作为目标预设收益，并将产生目标预设收益关联的当前待调度参数，作为目标调度参数。

在一种可能实施场景二中，因为针对环境参数变化稳定情况，且每次对当前环境参数的收益进行预测时考虑到后续环境参数的变化的影响，为了保证确定目标调度参数快速性，将预期收益条件设置为当前环境参数对应的预测收益最大。

基于此场景二，上述S12步骤中确定目标调度参数的过程如下：将多个预测收益中，最大的预测收益对应的当前待调度参数，作为目标调度参数。

S13，按照目标调度参数，对可控资源进行调度。

可理解的是，将可控资源的调度参数设置为目标调度参数。

通过上述实施方式，基于不同实际调度参数对可控资源调度时和调度后所处环境的参数变化情况，对不同当前待调度参数对应的收益进行预测，并按照预期收益条件对预测收益进行筛选，得到能适应复杂多变的环境的目标调度参数，从而按照该目标调度参数指示的目标调度策略对可控资源进行有效调度，以提高对电力资源的利用率。

作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体施过程，本申请实施例提供了另一些电力资源调度实施方式。

在一种实施方式中，预设模型能指示非可控资源的环境参数和可控资源的调度参数与收益之间的映射关系。该预测模型通常为神经网络模型。

作为一种预测模型的获取方式，具体如下：将历史环境参数和历史调度参数标记为输入样本，以及将历史环境参数下历史调度参数产生的历史收益标记为输出样本，对初始模型的网络参数进行有监督的训练，得到训练完成的预测模型。

示例性的，以历史现货价格、历史需求响应价格、历史需求响应电量、历史刚性负荷、历史光伏功率作为历史环境；以调节可控资源的控制参数作为动作，如此，获取得到多个历史环境中，各个历史环境下针对不同动作得到不同的历史收益(即，奖励)。

在上述监督的训练过程中，模型输出的输出值与对应的输出样本之间的差值的绝对值小于预设差值或方差的绝对值小于预设差值时，停止训练，即该情况到达了对模型停止训练的收敛条件。故，该预测模型为对初始模型训练过程中达到收敛条件时得到的模型。

上述通过预训练和迁移学习等方式构成的深度学习方法，获取的预测模型，能快速适应于新问题，同时可以处理大规模的非线性和动态问题，对于数据挖掘和预测等问题表现出色，以保护获取的各个参数处于一个稳定的状态。因此，采用有监督学习方法对初始模型的网络参数进行调整和优化，使得到调整后的目标模型具有优化的网络参数，从而使得目标模型既保留了环境参数、收益和调度参数等参数的提取能力，又降低了模型的训练难度。

上述深度学习(DeepLearning，DL)方法是是一个复杂的机器学习算法。具体地，深度学习方法是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

可理解的是，上述实施方式中是采用有监督学习方法对初始模型的网络参数的确定。具体地，将历史环境和不同动作标记为深度强化模型的输入，并将对应的历史收益标记为输出，对初始深度强化模型进行训练得到目标网络参数，从而得到目标网络参数对应的深度强化模型(即，预设模型)。

基于上述实施方式，结合图1，如图3所示，上述S12可以通过以下步骤具体实施。

S121，将预设模型与实际环境的交互，获取交互过程中不同获取时刻的第一实际环境参数、实际调度参数、实际收益和第二实际环境参数。

通常是通过智能体将预设模型与实际环境进行交互获得知识和经验，以此来改善预设模型的预测行为并实现既定的预测目标。

需要说明的是，上述第一实际环境参数、实际调度参数、实际收益和第二实际环境参数，可以理解为，预设模型在第一实际环境参数下，采用实际调度参数产生的实际收益；以及在采用实际调度参数调度完成时实际环境的环境参数变为第二实际环境参数。

上述第一实际环境参数、实际调度参数、实际收益和第二实际环境参数，也可以依次称为：第一历史实际环境参数、历史实际调度参数、历史实际收益和第二历史实际环境参数。

上述实施方式可理解为强化学习过程。强化学习(Reinforcement learning，RL)是机器学习领域之一，受到行为心理学的启发，主要关注智能体如何在环境中采取不同的行动，以最大限度地提高累积奖励。

S122，根据第一实际环境参数、实际调度参数、实际收益和第二实际环境参数，对预设模型进行优化，得到目标模型。

目标模型包括深度强化学习算法，也可称为深度强化模型。

该实施方式中，采用无监督学习方法预设模型对模型的策略网络进行训练。

在一种实施方式中，为了保证避免训练样本相关性对模型精准度的影响，基于经验池对预设模型进行优化。具体地，将不同获取时刻对应的第一实际环境参数、实际调度参数、实际收益和第二实际环境参数，按照获取时刻分类后分别放入经验池中，得到多个获取时刻对应的多组经验参数，即，多组实际参数组。基于该经验池存储的经验参数，能便于后续的机器学习中对经验参数的重复使用。进一步地，根据从经验池中随机抽取的经验参数，对预设模型进行优化，得到目标模型。

可以理解的是，智能体中的神经网络模型，经历了上述从初始模型到预设模型再到目标模型的训练过程。

具体地，经验池通常使用队列或者优先级队列的形式来组织存储的经验参数，智能体可以从中随机抽取经验数据作为经验样本来进行学习。智能体从经验池中随机选择经验样本进行学习，通过反复迭代，不断优化模型自身的动作策略，以逐渐提升性能。经验池在强化学习中扮演了重要的角色，帮助智能体的目标模型更好地利用过去的经验，实现更高水平的决策能力。

示例性的，结合图2，如图4所示，对智能体中神经网络模型，从初始模型到预设模型再到目标模型的训练过程作如下说明。该目标模型具有对满足预期收益条件的目标调度参数进行筛选的功能。

以实际现货价格、实际需求响应价格、实际需求响应电量、实际刚性负荷、实际光伏功率作为实际环境；以调节可控资源的实际调度参数作为动作。并且，将观察得到各个实际环境中，各个实际环境下针对不同动作得到不同的实际收益作为奖励。将产生收益的实际环境设置为环境t-1；环境t-1下采用的动作的收益记为奖励；产生收益时对应的实际环境设置为环境t。

将环境t-1和与环境t-1对应的一系列动作输入至神经网络模型，输出满足预期收益条件的目标动作(即，目标调度参数)以及该动作(即，目标调度参数)对应的奖励。并同时采集环境参数：环境t。将环境t-1、采用的动作、环境t和对应的奖励存储在经验池中。基于经验池中的参数对神经网络模型的网络进行网络训练。

具体地，预设模型为具有强化学习功能和深度学习功能的神经网络模型。将储能设备和充电桩作为可控资源，对应的强化学习场景下的动作为环境对应的调度参数，即动作为[储能设备的储能功率，充电桩的充电功率]，其中，储能设备的储能功率即为储能设备的充电功率；充电桩的充电功率即为充电桩放电功率。

并且，动作的选取需要满足下列条件：(1)储能功率受限与充放电功率的限制，充放电前后储能设备储能的SOC均在0％～100％，即，储能功率的绝对值≤充放电限制的第一功率阈值P1。(2)充电桩充电功率不仅受使用充电桩的使用设备(如，车)的充电功率的限制，也受充电桩的自身充电功率的限制；即，0≤充电桩充电功率≤min(使用设备最大充电功率，充电桩最大充电功率)。将使用设备最大充电功率与充电桩最大充电功率较小的功率设为P2。

将上述功率限制划分为N等份，以构成离散动作序列。

储能设备的储能功率从以下离散序列区间[-P1，-P1*(N-1)/N，...，0，P1*(N-1)/N，P1]构成(2N+1)个可选参数中选取任意一个，即储能设备的储能功率的功率选择有(2N+1)种。其中，正数为充电，负数为放电。

充电桩的充电功率可从以下离散序列区间[0，...，P2*(N-1)/N，P2]构成(N+1)个可选参数中选取任意一个，即充电桩的充电功率的功率选择有(N+1)种。

其中，N为动作颗粒度，选取越大，神经网络模型输出动作越精细，但是网络收敛速度变慢，难度变大。

可选取的动作个数(即，实际调节参数的选择)为(2N+1)与(N+1)乘积，即(2N+1)*(N+1)种。

上述奖励＝充电桩的收益+需求响应收益+现货市场收益。

其中，充电桩的收益＝充电桩充电功率*充电价格*时间，以及，需求响应收益＝需求响应电量*需求响应电价*时间，以及，现货市场收益＝(刚性负荷+充电桩负荷-光伏发电设备发电功率-储能设备放电量+储能设备充电量)*现货电价。

充电桩负荷是充电桩工作状态下所需的电力能力。

刚性负荷是用户生活工作必须满足的负荷,不能够接受电网的调控,受控程度很低。

上述实施方式，通过随机抽取经验参数，可以减少连续采集与环境交互的经验参数之间的相关性，从而提高目标模型的学习效率。

S123，将非可控资源的当前环境参数和可控资源的多个当前待调度参数输入至目标模型，得到多个预测收益。

其中，多个当前待调度参数是与当前环境参数相匹配的调度参数。可理解的是，针对任一环境参数，对应设置了不同的当前待调度参数。

上述实施方式中，将通过与环境交互的方式学习最佳策略的强化学习算法设置在目标模型中，使得目标模型能在实际环境中不断更新策略，具有较好的鲁棒性和对于不确定性的容忍能力。因此，上述基于深度学习和强化学习的资源调度方法能快速地解决复杂的非线性和动态问题，且具有较好的鲁棒性。

可选的，预设模型还用于对符合预期收益条件的预测收益对应的当前待调度参数进行提取。对应的，目标模型也还用于对符合预期收益条件的预测收益对应的当前待调度参数(即，目标调度参数)进行提取。

上述将提取策略设置于预设模型中，能保证对目标调度参数提取的快速性和准确性。基于此，上述S12还可以通过以下方式实施，将符合预期收益条件的预测收益作为提取策略或任务，设置在预测模型中。采用预设模型，对多个预测收益中，符合预期收益条件的预测收益对应的当前待调度参数进行提取，并将提取的当前待调度参数作为目标调度参数。

作为一种实施方式，为了保证经验池中经验参数的实时性，以确保训练的目标模型的精准度，采集记录当前环境参数以及目标调度参数，并在当前环境参数采用目标调度参数对可控资源调度完成时，对在当前环境参数下目标调度参数产生的实际收益进行采集，以及，对在当前环境参数下目标调度参数产生的实际收益时或在当前环境参数采用目标调度参数对可控资源调度完成时的下一目标环境参数进行采集。将采集的当前环境参数、目标调度参数、下一目标环境参数和当前环境参数下目标调度参数产生的实际收益，存储在经验池中。

为了实现上述功能，电力资源调度装置包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例还提供一种如图5所示的电力资源调度装置，该装置包括：预测单元501、比较单元502和调度单元503。

预测单元501，用于根据第一实际环境参数、实际调度参数、第一实际环境参数下采用实际调度参数的实际收益和第二实际环境参数，对在当前环境参数下多个当前待调度参数对应的收益进行预测，得到多个预测收益；其中，第二实际环境参数为采用实际调度参数对可控资源进行调度完成时所处实际环境的实际环境参数。

比较单元502，用于将多个预测收益中，符合预设收益条件预期收益条件的预测收益对应的当前待调度参数，作为目标调度参数。

调度单元503，用于按照目标调度参数，对可控制资源进行调度。

在一种可能的实现方式中，预测单元501具体用于：将预设模型与实际环境的交互，获取交互过程中不同获取时刻的第一实际环境参数、实际调度参数、实际收益和第二实际环境参数；预设模型包括非可控资源的环境参数和可控资源的调度参数与收益之间的映射关系；根据第一实际环境参数、实际调度参数、实际收益和第二实际环境参数，对预设模型进行优化，得到目标模型；将非可控资源的当前环境参数和可控资源的多个当前待调度参数输入至目标模型，得到多个预测收益；其中，多个当前待调度参数是与当前环境参数相匹配的调度参数。

在另一种可能的实现方式中，预测单元501具体还用于：将不同获取时刻对应的第一实际环境参数、实际调度参数、实际收益和第二实际环境参数，按照获取时刻分类后分别放入经验池中，得到多个获取时刻对应的多组经验参数；根据从经验池中随机抽取的经验参数，对预设模型进行优化，得到目标模型。

在另一种可能的实现方式中，预期收益条件为当前环境参数下预设时长内收益总和最大，预设时长为非可控资源的环境参数从当前环境参数到发生预设次参数变化的时长；比较单元502具体用于：将多个预测收益中，预设时长内的预测收益总和最大的预测收益对应的当前待调度参数，作为目标调度参数。

在另一种可能的实现方式中，预期收益条件为当前环境参数对应的预测收益最大；比较单元502具体还用于：将多个预测收益中，最大的预测收益对应的当前待调度参数，作为目标调度参数。

关于上述实施例中的装置，其中各个单元模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是本申请提供的一种电子设备的示意图。如图6，该电子设备60可以包括至少一个处理器601以及用于存储处理器可执行指令的存储器603。其中，处理器601被配置为执行存储器603中的指令，以实现以下实施例中的电力资源调度方法。

另外，电子设备60还可以包括通信总线602、至少一个通信接口604、输入设备606和输出设备605。

处理器601可以是一个处理器(central processing units，CPU)，微处理单元，ASIC，或一个或多个用于控制本申请方案程序执行的集成电路。

通信总线602可包括一通路，在上述组件之间传送信息。

通信接口604，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

输入设备606用于接收输入信号和输出设备605用于输出信号。

存储器603可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。

其中，存储器603用于存储执行本申请方案的指令，并由处理器601来控制执行。处理器601用于执行存储器603中存储的指令，从而实现本申请方法中的功能。

在具体实现中，作为一种实施例，处理器601可以包括一个或多个CPU，例如图6中的CPU0和CPU1。

在具体实现中，作为一种实施例，电子设备60可以包括多个处理器，例如图6中的处理器601和处理器607。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

该电子设备如图6所示包括：处理器601和用于存储处理器601可执行指令的存储器603；其中，处理器601被配置为执行可执行指令，以实现如上述任一种可能的实施方式的电力资源调度方法。且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，当计算机可读存储介质中的指令由电力资源调度装置或电子设备的处理器执行时，使得电力资源调度装置或电子设备能够执行如上述任一种可能的实施方式的电力资源调度方法。且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供一种计算机程序产品，包括计算机程序或指令，计算机程序或指令被处理器执行如上述任一种可能的实施方式的电力资源调度方法。且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种电力资源调度方法，其特征在于，所述方法包括：

根据第一实际环境参数、实际调度参数、所述第一实际环境参数下采用所述实际调度参数的实际收益和第二实际环境参数，对在当前环境参数下多个当前待调度参数对应的收益进行预测，得到多个预测收益；其中，所述第二实际环境参数为采用实际调度参数对可控资源进行调度完成时所处实际环境的实际环境参数；

将所述多个预测收益中，符合预设收益条件预期收益条件的所述预测收益对应的当前待调度参数，作为目标调度参数；

按照所述目标调度参数，对所述可控制资源进行调度。

2.根据权利要求1所述的方法，其特征在于，所述根据第一实际环境参数、实际调度参数、所述第一实际环境参数下采用所述实际调度参数的实际收益和第二实际环境参数，对在当前环境参数下多个当前待调度参数对应的收益进行预测，得到多个预测收益，包括：

将预设模型与实际环境的交互，获取交互过程中不同获取时刻的所述第一实际环境参数、所述实际调度参数、所述实际收益和所述第二实际环境参数；所述预设模型包括非可控资源的环境参数和可控资源的调度参数与收益之间的映射关系；

根据所述第一实际环境参数、所述实际调度参数、所述实际收益和第二实际环境参数，对所述预设模型进行优化，得到目标模型；

将所述非可控资源的当前环境参数和所述可控资源的多个当前待调度参数输入至所述目标模型，得到所述多个预测收益；其中，所述多个当前待调度参数是与所述当前环境参数相匹配的调度参数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一实际环境参数、所述实际调度参数、所述实际收益和第二实际环境参数，对所述预设模型进行优化，得到目标模型，包括：

将不同获取时刻对应的所述第一实际环境参数、所述实际调度参数、所述实际收益和所述第二实际环境参数，按照获取时刻分类后分别放入经验池中，得到多个所述获取时刻对应的多组经验参数；

根据从所述经验池中随机抽取的经验参数，对所述预设模型进行优化，得到所述目标模型。

4.根据权利要求2所述的方法，其特征在于，所述预测模型为神经网络模型；在所述将预设模型与实际环境的交互之前，所述方法还包括：

将所述历史环境参数和所述历史调度参数标记为输入样本，以及将所述历史环境参数下所述历史调度参数产生的历史收益标记为输出样本，对初始模型的网络参数进行有监督的训练，得到训练完成的所述预测模型。

5.根据权利要求2所述的方法，其特征在于，所述预设模型还用于对符合所述预期收益条件的所述预测收益对应的当前待调度参数进行提取。

6.根据权利要求5所述的方法，其特征在于，所述预期收益条件为所述当前环境参数下预设时长内收益总和最大，预设时长为非可控资源的环境参数从所述当前环境参数到发生预设次参数变化的时长；所述将所述多个预测收益中，符合预期收益条件的预测收益对应的当前待调度参数，作为目标调度参数，包括：

将所述多个预测收益中，预设时长内的预测收益总和最大的预测收益对应的当前待调度参数，作为所述目标调度参数。

7.根据权利要求5所述的方法，其特征在于，所述预期收益条件为所述当前环境参数对应的预测收益最大；所述将所述多个预测收益中，符合预期收益条件的预测收益对应的当前待调度参数，作为目标调度参数，包括：

将所述多个预测收益中，最大的所述预测收益对应的当前待调度参数，作为所述目标调度参数。

8.一种电力资源调度装置，其特征在于，所述装置包括：

预测单元，用于根据第一实际环境参数、实际调度参数、所述第一实际环境参数下采用所述实际调度参数的实际收益和第二实际环境参数，对在当前环境参数下多个当前待调度参数对应的收益进行预测，得到多个预测收益；其中，所述第二实际环境参数为采用实际调度参数对可控资源进行调度完成时所处实际环境的实际环境参数；

比较单元，用于将所述多个预测收益中，符合预设收益条件预期收益条件的所述预测收益对应的当前待调度参数，作为目标调度参数；

调度单元，用于按照所述目标调度参数，对所述可控制资源进行调度。

9.一种电力设备，其特征在于，包括：

处理器和用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以实现如权利要求1-7中任一项所述的电力资源调度方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-7中任一项的电力资源调度方法。