CN117394461B

CN117394461B - 用于综合能源系统的供需协同调控系统及方法

Info

Publication number: CN117394461B
Application number: CN202311684444.7A
Authority: CN
Inventors: 肖斌; 彭怀午; 周治; 郜振鑫; 陈康; 牛东圣; 张锦扬; 刘坤
Original assignee: Xian Jiaotong University; PowerChina Northwest Engineering Corp Ltd
Current assignee: Xian Jiaotong University; PowerChina Northwest Engineering Corp Ltd
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-03-15
Anticipated expiration: 2043-12-11
Also published as: CN117394461A

Abstract

本公开提供一种用于综合能源系统的供需协同调控系统及方法；涉及综合能源系统控制技术领域。所述方法包括：根据综合能源系统的历史运行数据构建原始马尔可夫决策模型，并利用双延迟深度确定性策略梯度算法对所述原始马尔可夫决策模型进行求解，以最大化累计奖励为目标函数对所述原始马尔可夫决策模型的参数进行训练，得到目标调控策略；根据所述目标调控策略对所述综合能源系统中的调控决策对象进行调控。本公开实现了对综合能源系统中各个调控决策对象的在线调控，解决了综合能源系统中能源供需不平衡的问题，提高了综合能源系统的运行效率、经济效益和环保效益。

Description

用于综合能源系统的供需协同调控系统及方法

技术领域

本公开涉及综合能源系统控制技术领域，具体而言，涉及一种用于综合能源系统的供需协同调控系统及方法。

背景技术

目前，在综合能源系统内普遍引入综合能源系统，以提升用能主体的负荷需求满足度。在综合能源系统的运行过程中，存在能源需求量大、分布式能源种类多、能源消纳率低、新能源不确定性高、用户负荷峰谷差大、储能时间耦合性和经济环境效率等问题。针对上述问题，在综合能源系统中开展多维度的实时调控研究十分有必要。

相关技术中，针对综合能源系统的调控模型求解方法包括数学规划方法及启发式方法。其中，数学规划方法，用于研究在给定区域中寻找最小化或最大化某一函数的最优解；常用的数学规划方法包括混合整数非线性规划方法（MINLP）和混合整数现象规划方法（MILP）。具体的，在同时考虑可再生能源、不确定参数、需求响应极化和排放的多能源枢纽系统随机调度模型中，运用MILP方法以最小化经济运行成本，或对综合能源系统随机规划框架建立 MINLP 模型，并通过一阶泰勒展开、非凸运行域分解、分支定界等方式对问题进行转换与分解，但常用的数学规划方法在面对大规模问题时全局优化速度慢，求解困难大，甚至可能出现不可解的情况。

启发式方法依赖经验和规则，通过随机搜索的方式寻找满足收敛条件的解，例如：通过建立考虑电池寿命的多目标实时控制模型，运用遗传算法进行分钟级别的滚动优化求解最优的控制策略，或者采用基于机会约束规划的概率优化框架，改进混合人工蜂群和差分进化算法，以提升其在解决并网能源管理方面的优化能力。而启发式方法往往需要依靠专家经验，不依赖模型性质导致求解质量不稳定。

综上，综合能源系统的供需调控过程中，由于传统的调控模型求解方法存在求解难度大，求解质量不稳定，求解速度慢，进而导致综合能源系统的供需调控响应速度慢，无法实现在线调控。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种用于综合能源系统的供需协同调控系统及方法，在一定程度上解决相关技术中调控模型求解质量不稳定及求解速度慢，导致综合能源系统的供需调控响应速度慢，无法在线调控的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的第一方面，提供了一种用于综合能源系统的供需协同调控系统，包括：

目标策略确定模块，用于根据所述综合能源系统的历史运行数据构建原始马尔可夫决策模型，并利用双延迟深度确定性策略梯度算法对所述原始马尔可夫决策模型进行求解，以最大化累计奖励为目标函数对所述原始马尔可夫决策模型的参数进行训练，得到目标马尔可夫模型，将所述综合能源系统的当前观测状态输入到所述目标马尔可夫模型中，生成对应的目标调控策略；

综合能源调控模块，用于根据所述目标调控策略对所述综合能源系统中的调控决策对象进行调控；

其中，所述综合能源系统包括发电系统、外部电网、储能系统和用电系统；所述发电系统包括风电系统、光伏系统和燃气系统；所述调控决策对象包括外部电网的售电功率、发电系统的输出功率、储能系统的充放电功率及用电系统的可控负荷削减量。

在本公开的一种示例性实施例中，所述目标策略确定模块包括：

原始模型构建模块，用于根据所述综合能源系统的历史运行数据生成所述原始马尔可夫决策模型的参数元组，通过所述参数元组构建所述原始马尔可夫决策模型，所述参数元组包括所述综合能源系统的观测状态、调控动作、奖励函数；

原始模型求解模块，用于通过所述双延迟深度确定性策略梯度算法的异策略训练模型对所述原始马尔可夫决策模型进行求解；

目标策略生成模块，用于将所述综合能源系统的当前观测状态输入到所述原始马尔可夫模型中，生成对应的初始调控策略，根据所述初始调控策略生成并发送调控动作至所述综合能源系统，并根据所述综合能源系统的响应对所述初始调控策略进行更新，直到更新次数达到预设更新数值，得到目标调控策略；

其中，所述综合能源系统的响应包括下一时刻所述综合能源系统的观测状态及所述奖励函数。

在本公开的一种示例性实施例中，所述当前观测状态为：

；

其中，为连续的状态空间；/>为当前时刻/>光伏系统的实际出力；/>为当前时刻/>风电系统的实际出力；/>为当前时刻/>储能系统的存储荷电状态；/>为当前时刻/>用电系统的可控负荷值；/>为当前时刻/>用电系统的不可控负荷值。

在本公开的一种示例性实施例中，所述调控动作为：

；

其中，为连续的动作空间；/>为当前时刻/>向外部电网的购电功率；/>为当前时刻/>光伏系统的实际消纳功率；/>为当前时刻/>风电系统的实际消纳功率；/>为当前时刻/>燃气系统的输出功率；/>为当前时刻/>储能系统的充放电功率；/>为当前时刻用电系统的可控负荷削减量。

在本公开的一种示例性实施例中，所述奖励函数为：

；

其中，为向外部电网的购电总成本系数；/>为光伏系统的总成本系数；/>为风电系统的总成本系数；/>为燃气系统的总成本系数；/>为储能系统的总成本系数；/>为用电系统的补偿系数；/>为当前时刻t向外部电网的购电功率；/>为当前时刻/>光伏系统的实际消纳功率；/>为当前时刻/>风电系统的实际消纳功率；/>当前时刻/>燃气系统的输出功率；/>当前时刻/>储能系统的充放电功率；/>当前时刻/>用电系统的可控负荷削减量。

在本公开的一种示例性实施例中，所述双延迟深度确定性策略梯度算法包括策略网络和价值网络；所述原始模型求解模块包括：

网络配置子模块，用于分别为所述策略网络和所述价值网络配置目标策略网络和目标价值网络，并固定所述策略网络和所述价值网络的时间同步参数，以通过所述策略网络、所述价值网络、所述目标策略网络和所述目标价值网络的交互对所述马尔可夫决策模型进行求解。

在本公开的一种示例性实施例中，所述网络配置子模块包括：

策略参数计算单元，用于计算得到所述策略网络的策略参数，以根据所述策略参数对所述策略网络的策略函数进行定义。

在本公开的一种示例性实施例中，所述策略参数为：

；

其中，为所述策略参数；/>为学习率；/>为所述策略参数的期望回报；/>为所述策略参数的期望回报上升梯度；

其中，所述策略参数的期望回报为：

；

其中，为轨迹/>的期望回报；/>为轨迹/>的发生概率；

其中，轨迹的发生概率/>为：

；

其中，为第1观测状态的出现概率；/>为时间分段周期数；/>为轨迹/>在当前时刻/>的调控动作；/>为轨迹/>在当前时刻/>的观测状态；/>为在所述策略参数下，轨迹/>的观测状态/>触发调控动作/>的概率；/>为轨迹/>在下一时刻/>的观测状态；/>为在调控动作/>下，轨迹/>的观测状态/>转移到观测状态/>的概率；

其中，所述轨迹为：

；

其中，为第/>时刻所述综合能源系统的观测状态；/>为第/>时刻所述综合能源系统的观测状态对应的调控动作；

在更新所述策略参数的过程中，策略参数的期望回报上升梯度为：

；

其中，为策略参数的期望回报上升梯度；/>为轨迹/>的期望回报；为轨迹/>的发生概率上升梯度；/>为在所述策略参数下，第/>条轨迹的观测状态/>触发调控动作/>的概率；/>为第/>条轨迹是轨迹/>的回报；为轨迹/>的观测状态/>触发调控动作/>的概率特征梯度；/>为轨迹数量；/>为时间分段数；/>为当前所在轨迹的序号；/>为第/>条轨迹在当前时刻/>的调控动作；为第/>条轨迹在当前时刻/>的观测状态。

在本公开的一种示例性实施例中，所述原始模型求解模块还包括：

训练优化子模块，用于通过确定性策略固定所述观测状态对应的所述调控动作，并引入tanh函数，使得所述调控动作的取值根据所述观测状态进行缩放；

策略优化子模块，用于引入有演员-评论家结构，将所述策略网络作为演员，用于给出所述调控动作选择，并根据所述价值网络的评估更新策略，将所述价值网络作为评论家对所述调控动作进行价值估计，并根据所述综合能源系统的响应更新所述初始调控策略；

算法收敛子模块，用于同时训练所述策略网络、所述价值网络和对应的所述目标策略网络和所述目标价值网络，选择其中较小的目标网络的价值计算得到所述目标策略网络和所述目标价值网络；

延迟更新子模块，用于延迟所述策略网络的更新频率，使得所述策略网络的更新频率低于所述价值网络；

策略平滑子模块，用于对所述目标策略网络的动作进行正则化处理，并加入噪声平滑策略的期望，降低价值误差对所述目标策略网络的影响。

根据本公开实施例的第二方面，提供了一种用于综合能源系统的供需协同调控方法，所述方法包括：

根据所述综合能源系统的历史运行数据构建原始马尔可夫决策模型，并利用双延迟深度确定性策略梯度算法对所述原始马尔可夫决策模型进行求解，以最大化累计奖励为目标函数对所述原始马尔可夫决策模型的参数进行训练，得到目标马尔可夫模型，将所述综合能源系统的当前观测状态输入到所述目标马尔可夫模型中，生成对应的目标调控策略；

根据所述目标调控策略对所述综合能源系统中的调控决策对象进行调控；

本公开示例实施例所提供的用于综合能源系统的供需协同调控系统中，通过目标策略确定模块根据所述综合能源系统的历史运行数据构建原始马尔可夫决策模型，并利用双延迟深度确定性策略梯度算法对所述原始马尔可夫决策模型进行求解，以最大化累计奖励为目标函数对所述原始马尔可夫决策模型的参数进行训练，得到目标马尔可夫模型，将所述综合能源系统的当前观测状态输入到所述目标马尔可夫模型中，生成对应的目标调控策略；通过综合能源调控模块根据所述目标调控策略对所述综合能源系统中的调控决策对象进行调控。本公开通过优化调控策略，实现了对综合能源系统中各个调控决策对象的在线调控，解决了综合能源系统中能源供需不平衡的问题，提高了综合能源系统的运行效率、经济效益和环保效益。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本公开的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开实施例中一种用于综合能源系统的供需协同调控系统的示意图。

图2示出了本公开实施例中一种协同调控网络的系统架构图。

图3示出了本公开实施例的双延迟深度确定性策略梯度算法的算法框架示意图。

附图标记说明如下：

21、综合能源系统；

211、发电系统；2111、风电系统；2112、光伏系统；2113、燃气系统；

212、外部电网；

213、储能系统；

214、用电系统；

22、协同调控智能体。

具体实施方式

现在将参考附图更全面地描述本公开实施例中的示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其他的方法、组元、装置、步骤等。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

接下来对本公开实施例进行详细说明。

图1示出了本公开实施例中一种用于综合能源系统的供需协同调控系统的示意图。参考图1所示，该用于综合能源系统的供需协同调控系统100可以包括目标策略确定模块110和综合能源调控模块120。

图2示出了本公开实施例中一种协同调控网络的系统架构图，包括综合能源系统21和协同调控智能体22。综合能源系统21可以包括发电系统211、外部电网212、储能系统213和用电系统214。发电系统211、外部电网212和储能系统213均用于为用电系统214供电，其中：

发电系统211可以是将风能、热能或化学能等其他形式的能源转化为电能的设备或系统。发电系统211可以包括用于将风能转化为电能的风电系统2111、用于将热能转化为电能的光伏系统2112和用于将化学能转化为电能的燃气系统2113。在其他示例实施例中，发电系统211还可以包括用于将水能等其他形式的能源转化为电能的设备或系统，本公开对此不做具体限定。

外部电网212用于通过输电线路将电能从发电系统211发送到用电系统214，实现电力的远距离传输。

储能系统213储备电能，在用电系统214需要时为用电系统214提供电力供应，在紧急情况下转换为供电状态，帮助维持电力的稳定性和可靠性。

用电系统214可以是从事生产制造、加工或运输的工业企业，通过发电系统211、外部电网212和储能系统213提供电力，以满足用电系统214的用电需求。

协同调控智能体22是一种通过互相合作和协调行动来解决复杂任务的智能体。在本公开示例性实施例中，协同调控智能体22用于调度综合能源系统21中发电系统211、外部电网212、储能系统213和用电系统214的能源，以实现对综合能源系统21中能源的供需协同调控，解决综合能源系统21中能源供需不平衡的问题。

参考图1-图2所示，本公开示例实施例中用于综合能源系统的供需协同调控系统100可以包括目标策略确定模块110和综合能源调控模块120，其中：

目标策略确定模块110，用于根据所述综合能源系统的历史运行数据构建原始马尔可夫决策模型，并利用双延迟深度确定性策略梯度算法对所述原始马尔可夫决策模型进行求解，以最大化累计奖励为目标函数对所述原始马尔可夫决策模型的参数进行训练，得到目标马尔可夫模型，将所述综合能源系统的当前观测状态输入到所述目标马尔可夫模型中，生成对应的目标调控策略；

综合能源调控模块120，用于根据所述目标调控策略对所述综合能源系统中的调控决策对象进行调控。

其中，综合能源系统21包括发电系统211、外部电网212、储能系统213和用电系统214；发电系统211包括风电系统2111、光伏系统2112和燃气系统2113；调控决策对象包括外部电网212的售电功率、发电系统211的输出功率、储能系统213的充放电功率及用电系统214的可控负荷削减量。

在一种可选的实施方式中，目标策略确定模块110包括：

其中，综合能源系统21的响应包括下一时刻综合能源系统21的观测状态及所述奖励函数。

具体的，通过协同调控智能体22获取综合能源系统21当前时刻的当前观测状态，将当前观测状态/>输入到原始马尔可夫模型中，生成对应的初始调控策略/>，根据初始调控策略/>生成并发送调控动作/>至综合能源系统21。其中，调控动作/>用于触发综合能源系统21执行调控动作/>，并生成响应。响应包括下一时刻所述综合能源系统的观测状态/>及奖励函数/>。根据奖励函数/>，对调控策略/>进行更新，直到更新次数达到预设更新数值。此处的预设数值需要根据经验值来确定。

可以理解的是，协同调控智能体22的主要目标是通过和综合能源系统21的交互，以最大化累计奖励进行策略优化，获得初始调控策略。即在当前观测状态/>下选择调控动作/>，且调控动作/>是连续变化的。当综合能源系统执行调控动作/>时，能够向供需协同调控系统反馈一个响应。其中，响应包括下一个观测状态/>和奖励函数/>；供需协同调控系统与综合能源系统之间的交互过程不断地重复，直至综合能源系统的供需协同调控任务结束。其中，奖励函数/>用于供需协同调控系统更新自身的策略，从而不断改进自身的决策能力，以提高综合能源系统中能源的供需平衡度，从而提升综合能源系统中新能源的利用率，达到降低经济成本的效果。

在本公开示例实施例中，由于综合能源系统21的供需调控过程具有马尔可夫性、状态可观察性和行为可控制性，因此采用马尔可夫模型对供需协同调控系统100的信息交互与策略优化的过程进行描述。

具体的，采用马尔可夫模型对信息交互与策略优化的过程进行描述的过程如下：

观测状态用于描述供需协同调控系统观察到的外界信息及变化；对状态信息进行抽象和筛选，以保证输入状态和累积回报之间的相关性，保证算法的收敛速度和最终性能；其中，综合能源系统21的当前观测状态为：

；

其中，为连续的状态空间；/>为当前时刻/>光伏系统2112的实际出力；/>为当前时刻/>风电系统2111的实际出力；/>为当前时刻/>储能系统213的存储荷电状态；为当前时刻/>用电系统214的可控负荷值；/>为当前时刻/>用电系统214的不可控负荷值。

动作空间的类型是连续式，采用多维向量式动作编码，可以减少供需协同调控系统在环境中探索的状态盲区，保证实现目标的功能完备；具体的，调控动作为：

；

其中，为连续的动作空间；/>为当前时刻/>向外部电网212的购电功率；/>为当前时刻/>光伏系统2112的实际消纳功率；/>为当前时刻/>风电系统2111的实际消纳功率；/>当前时刻/>燃气系统2113的输出功率；/>当前时刻/>储能系统213的充放电功率；当前时刻/>用电系统214的可控负荷削减量。

奖励函数用于引导神经网络对输入的状态信息特征进行深加工，建立深层特征与价值函数和策略的相关性；具体的，奖励函数为：

；

其中，为向外部电网212的购电总成本系数；/>为光伏系统2112的总成本系数；为风电系统2111的总成本系数；/>为燃气系统2113的总成本系数；/>为储能系统213的总成本系数；/>为用电系统214的补偿系数；/>为当前时刻t向外部电网212的购电功率；为当前时刻/>光伏系统2112的实际消纳功率；/>为当前时刻/>风电系统2111的实际消纳功率；/>当前时刻/>燃气系统2113的输出功率；/>当前时刻/>储能系统213的充放电功率；/>当前时刻/>用电系统214的可控负荷削减量。

需要说明的是，向外部电网212的购电总成本、光伏系统2112的总成本、风电系统2111的总成本、燃气系统2113的总成本及储能系统213的总成本包括系统成本、运营成本、环保成本和燃料成本；由于综合能源系统21的供需协同调控问题的目标是得到最小的经济成本；因此，奖励函数的结果为负值。

在一种可选的实施方式中，原始模型求解模块包括：

在一种可选的实施方式中，网络配置子模块包括：

具体的，由于所述马尔可夫模型不完全已知状态转移概率和奖励函数，且调控动作的动作空间为连续的；因此，采用无模型且含策略网络的深度强化学习算法对所述马尔可夫模型进行求解；优选的，利用双延迟深度确定性策略梯度算法（双延迟深度确定性策略梯度算法）对所述马尔可夫模型进行求解；具体的，采用马尔可夫模型对信息交互与策略优化的过程进行描述的过程中，产生的轨迹为：

；

其中，为第/>时刻综合能源系统21的观测状态；/>为第/>时刻综合能源系统21的观测状态对应的调控动作。

策略网络的所述策略参数为：

；

其中，所述策略参数的期望回报为：

；

其中，为轨迹/>的期望回报；/>为轨迹/>的发生概率；

其中，轨迹的发生概率为：

；

对策略参数的期望回报求解策略参数的期望回报上升梯度/>，获得策略参数的期望回报上升梯度/>；

其中，策略参数的期望回报上升梯度为：

；

确定策略参数的期望回报上升梯度后，则可以根据/>对策略参数/>进行更新。

在一种可选的实施方式中，原始模型求解模块还包括：

具体的，参考图3所示，双延迟深度确定性策略梯度算法采用延续PER-CDDQN算法的经验回收方法，并采用异策略训练模型；双延迟深度确定性策略梯度算法为策略网络和价值网络（Q网络）同时配置了目标网络，即为策略网络配置了目标策略网络，为价值网络配置了目标价值网络，并固定时间同步参数；其次，所述双延迟深度确定性策略梯度算法中还引入了确定性策略、演员-评论家结构、截断式双Q网络、延迟策略更新机制及目标策略平滑机制。下面对原始模型求解模块中包括的训练优化子模块、策略优化子模块、算法收敛子模块、延迟更新子模块和策略平滑子模块进行展开描述。

训练优化子模块中使用了确定性策略：

由于供需协同调控问题中动作是连续变化的，是一个连续控制问题；因此，引入确定性策略；其中，所述确定性策略，即当策略网络的策略参数/>固定后，给定某个输入的观测状态时，输出的调控动作是固定的；采用在策略网络上加入tanh函数，以将输出的调控动作控制在/>的范围内，并能够根据问题背景进行动作取值的缩放。

需要说明的是，在经验采用时，在所述调控动作中引入随机探索噪声/>，以赋予算法的探索性能力，且算法的探索性能力的大小由随机探索噪声/>的方差决定；其中，所述调控动作/>为：

；

其中，为调控动作；/>为确定性策略；/>为随机探索噪声。

确定性策略消除了策略优化中的随机性，使得协同调控智能体22能够更加准确地学习到最优的动作选择。此外，确定性策略还可以避免在训练过程中出现探索-开发困境，即在探索新的动作空间和利用已知好的动作之间的权衡。通过使用确定性策略，双延迟深度确定性策略梯度算法能够提高训练的稳定性和效率。

策略优化子模块中引用了演员-评论家结构：

将策略网络作为演员，用于给出调控动作选择，并根据价值网络的评估更新策略；所述价值网络作为评论家对调控动作进行价值估计，并根据综合能源系统的反馈更新评估策略；需要说明的是，通过引入演员-评论家结构，将策略网络作为演员给出动作选择，并根据Q网络的评估更新策略；Q网络作为评论家对输出的动作进行Q值估计，并根据环境的反馈更新评估策略。

所述策略网络的损失函数定义为：

；

其中，为策略网络的损失函数；/>为采样批量的长度；/>为当前时刻/>调控动作/>下采用策略参数/>的值函数；/>为策略网络的策略参数；随着当前时刻/>的变化，对应的调控动作/>及策略参数/>及对应的值函数/>会产生变化，用于对不同时刻的值函数求和。

所述Q网络的损失函数定义为：

；

其中，为当前时刻/>及之前的累计回报；/>为折扣因子系数；为下一时刻/>调控动作/>下采用策略参数/>的值函数；/>为策略网络的策略参数；/>为当前时刻/>调控动作/>下采用策略参数/>的值函数；/>为策略网络的策略参数；由于本公式中不同时刻的/>、/>和/>不同，/>用于对不同时刻的/>的结果求和。

需要说明的是，当Q值取负时，使得最小化损失函数即最大化Q值；通过最小化目标Q值和估计Q值的均方误差，以使算法实现单步更新的目的。

演员-评论家结构中，演员网络负责生成动作，评论家网络负责评估这些动作的质量，并通过更新演员网络来提高策略的性能。演员-评论家结构的引入使得双延迟深度确定性策略梯度算法能够更好地评估和优化策略。

算法收敛子模块中引用了截断式双Q网络：

由于Q值的过估计偏置会导致误差累加，不好的状态被高估会使得算法难以收敛；因此，本公开中为了缓解Q值的过估计偏置，同时训练两个估计网络和两个目标网络，并利用目标选择公式选择其中较小的目标网络的Q值来计算目标，以避免高估的Q值被策略网络传播，同时低方差的估计也会使得训练更稳定。

其中，所述目标选择公式为：

；

其中，为Q值计算模板；/>为下一时刻/>状态为/>且确定性策略为/>的值函数；/>为下一时刻状态为/>且确定性策略为/>的值函数。

在使用单个Q网络进行估计时，可能会导致对Q值的过高估计。这会导致策略网络学习到不准确的动作价值，从而影响训练的效果。截断式双Q网络通过使用两个独立的Q网络来估计动作的价值，并将它们的平均值作为最终的Q值。这样可以有效地减少过高估计的情况，提高训练的稳定性和效果。

延迟更新子模块中引用了延迟策略更新机制：

由于高方差的估计在带来过估计问题的同时，也加剧了策略网络的噪声；本公开中，为了避免策略网络和Q网络的劣化循环，采用延迟更新的方式以使策略网络的更新频率低于Q网络；其中，策略延迟更新过程，采用软更新参数的方式提高训练的稳定性；具体的，所述策略延迟更新过程，按照如下公式进行：

；

其中，为策略网络的策略参数；/>为更新后策略网络的策略参数;/>为权重系数。

延迟策略更新机制通过延迟更新策略网络的频率，将策略网络的更新与评论家网络的更新进行异步操作。延迟策略更新机制可以有效地提高训练的稳定性和效率。它使得策略网络的更新更加充分地利用了评论家网络的信息，从而提高了策略的优化效果。

策略平滑子模块中引用了目标策略平滑机制：

本公开中，为了缓解值函数逼近的误差，采用动作正则化处理公式对目标策略网络的动作进行正则化处理；其中，加入策略噪声平滑策略的期望，避免一些错误的尖峰值的影响，降低Q值误差对策略的影响；具体的，动作正则化处理公式为：

；

其中，为当前时刻/>正则化后的调控动作；/>为新网络的确定性策略；为阈值范围的区间正则化结果；/>为第一门限阈值；/>为第二门限阈值；为阈值范围；/>为策略噪声，策略噪声/>满足正态分布/>。

目标策略平滑机制通过引入一个目标策略网络，在更新策略网络时使用目标策略网络的参数进行计算。目标策略平滑机制可以提高训练的稳定性和收敛性。它能够减少策略网络的更新幅度，使得策略的变化更加平缓，从而提高了训练效果。

双延迟深度确定性策略梯度算法的具体实现过程如下：

步骤一：输入最小批量k，学习率，价值网络与策略网络更新频率比值C,迭代回合数T。

步骤二：随机初始化策略网络，价值网络/>和/>，策略网络参数/>，两个价值网络参数/>和/>，策略目标网络/>，两个价值目标网络/>和，经验回放池/>。

步骤三：观测到状态时，得到特征向量/>；并将下列算法循环到预定次数：加入探索噪声选择动作/>；与环境交互，观测到状态/>，奖励/>，折扣因子/>，终止标记/>；将经验/>存储到H中；从H采样最小批为k的数据/>加入策略噪声选择动作根据 Bellman 方程计算两个目标价值网络的Q 值，取较小值/>更新价值网络/>，可以理解的是，在更新迭代的过程中，更新之前和更新之后的价值网络均可用/>表示。

步骤四：根据确定性策略梯度更新/>，其中

步骤五：计算并更新策略目标网络和价值目标网络/>，可以理解的是，在更新迭代的过程中，更新之前和更新之后的价值目标网络均可用/>表示。

本公开还提供了一种用于综合能源系统的供需协同调控方法，所述方法包括：

其中，所述综合能源系统包括发电系统、外部电网、储能系统和用电系统；所述调控决策对象包括外部电网的售电功率、发电系统的输出功率、储能系统的充放电功率及用电系统的可控负荷削减量。

上述供需协同调控方法的具体细节已经在对应的供需协同调控系统中进行了详细的描述，因此此处不再赘述。上述供需协同调控方法通过优化调控策略，实现了对综合能源系统中各个调控决策对象的在线调控，解决了综合能源系统中能源供需不平衡的问题，提高了综合能源系统的运行效率、经济效益和环保效益。

本公开中，为用于综合能源系统的供需协同调控问题建立基于强化学习的方法架构，由于综合能源系统中出力曲线和充放电曲线的变化都与时序关联，数据在时间维度上具有耦合性；因此，采用强化学习方法适合处理具有时序性的输入数据；储能系统在某时刻的充电策略并不能立刻得到奖励，需要通过未来某时刻的放电行为带来效益，对于综合能源系统决策者而言每个动作都需要考虑未来时刻可能发生的情况，而强化学习方法可以通过将未来时刻的奖励计算纳入当前时刻的回报函数，从而考虑到延迟奖励的情况；针对供需协同调控问题中需要决策的变量多且范围广，没有足够的组合样本数据去判断当前决策的正确与否，而强化学习方法给出一种可以在环境中试错的机制，加以探索和利用实现策略的不断优化；由于综合能源系统中数据维数高计算量大，强化学习方法可以结合深度神经网络解决状态空间大的问题，避免维数灾难，通过模型离线训练和在线调控，提高响应速度和信息复用率。并可以避免精确建模的困难和求解的复杂。

需要说明的是，在能源互联网向去中心化、数字化和零碳化发展的背景下，智能技术的引入越来越重要，综合能源系统通过智能自主决策做到快速响应和高质量调控；本公开中，将深度强化学习引入智能调控方法中，并在综合能源管理系统的应用中；由于深度强化学习不需要一个精确的模型来获得与环境相互作用，具有强大的计算能力和拟合能力，可以自主获取训练样本数据，适合解决具有时间耦合性的序列问题，并且能够通过离线训练、在线调度的方式提高能源系统的实时响应速度。

本公开所述的供需协同调控系统及方法，通过建立强化学习实时供需协同架构，利用马尔可夫决策模型对信息交互与策略优化的过程进行描述；其中，利用确定性策略处理连续动作空间，用带随机噪声的采样方法增强仿真环境以及用储能系统平衡供需；其次，通过改进后的双延迟深度确定性策略梯度算法训练出发电侧和需求侧的实时调控策略，提高综合能源系统的经济效益和环保效益。

本公开中，通过自动化、智能化的实时供需协同控制系统可以提高综合能源系统的决策时效和质量，可以有效平衡新能源出力的不确定性和随机性，降低综合能源系统运营成本和风险；在日前优化的基础上对园区内能源的供需情况进行实时的智能化精细化管理和调控，并和外部能源市场进行互动和协调，以保证园区内部能源的可靠供应，实现新能源的高效利用和生产作业的降本增效。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本公开的其他实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未申请的本技术领域中的公知常识或惯用技术手段。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种用于综合能源系统的供需协同调控系统，其特征在于，包括：

其中，所述综合能源系统包括发电系统、外部电网、储能系统和用电系统；所述发电系统包括风电系统、光伏系统和燃气系统；所述调控决策对象包括外部电网的售电功率、发电系统的输出功率、储能系统的充放电功率及用电系统的可控负荷削减量；

所述目标策略确定模块包括：

目标策略生成模块，用于将所述综合能源系统的当前观测状态输入到所述目标马尔可夫模型中，生成对应的初始调控策略，根据所述初始调控策略生成并发送调控动作至所述综合能源系统，并根据所述综合能源系统的响应对所述初始调控策略进行更新，直到更新次数达到预设更新数值，得到目标调控策略；其中，所述综合能源系统的响应包括下一时刻所述综合能源系统的观测状态及所述奖励函数；

所述当前观测状态为：

；

其中，为连续的状态空间；/>为当前时刻/>光伏系统的实际出力；/>为当前时刻/>风电系统的实际出力；/>为当前时刻/>储能系统的存储荷电状态；/>为当前时刻/>用电系统的可控负荷值；/>为当前时刻/>用电系统的不可控负荷值；

所述调控动作为：

；

其中，为连续的动作空间；/>为当前时刻/>向外部电网的购电功率；/>为当前时刻/>光伏系统的实际消纳功率；/>为当前时刻/>风电系统的实际消纳功率；/>为当前时刻/>燃气系统的输出功率；/>为当前时刻/>储能系统的充放电功率；/>为当前时刻/>用电系统的可控负荷削减量；

所述奖励函数为：

；

其中，为向外部电网的购电总成本系数；/>为光伏系统的总成本系数；/>为风电系统的总成本系数；/>为燃气系统的总成本系数；/>为储能系统的总成本系数；/>为用电系统的补偿系数；/>为当前时刻t向外部电网的购电功率；/>为当前时刻/>光伏系统的实际消纳功率；/>为当前时刻/>风电系统的实际消纳功率；/>当前时刻/>燃气系统的输出功率；当前时刻/>储能系统的充放电功率；/>当前时刻/>用电系统的可控负荷削减量。

2.根据权利要求1所述的供需协同调控系统，其特征在于，所述双延迟深度确定性策略梯度算法包括策略网络和价值网络；所述原始模型求解模块包括：

3.根据权利要求2所述的供需协同调控系统，其特征在于，所述网络配置子模块包括：

4.根据权利要求3所述的供需协同调控系统，其特征在于，所述策略参数为：

；

其中，所述策略参数的期望回报为：

；

其中，为轨迹/>的期望回报；/>为轨迹/>的发生概率；

其中，轨迹的发生概率/>为：

；

其中，为第1观测状态的出现概率；/>为时间分段周期数；/>为轨迹/>在当前时刻的调控动作；/>为轨迹/>在当前时刻/>的观测状态；/>为在所述策略参数下，轨迹/>的观测状态/>触发调控动作/>的概率；/>为轨迹/>在下一时刻/>的观测状态；为在调控动作/>下，轨迹/>的观测状态/>转移到观测状态/>的概率；

其中，所述轨迹为：

；

其中，为策略参数的期望回报上升梯度；/>为轨迹/>的期望回报；/>为轨迹/>的发生概率上升梯度；/>为在所述策略参数下，第/>条轨迹的观测状态/>触发调控动作/>的概率；/>为第/>条轨迹是轨迹/>的回报；/>为轨迹/>的观测状态/>触发调控动作/>的概率特征梯度；/>为轨迹数量；/>为时间分段数；/>为当前所在轨迹的序号；/>为第/>条轨迹在当前时刻/>的调控动作；/>为第/>条轨迹在当前时刻/>的观测状态。

5.根据权利要求2所述的供需协同调控系统，其特征在于，所述原始模型求解模块还包括：

算法收敛子模块，用于同时训练所述策略网络、所述价值网络和对应的所述目标策略网络和所述目标价值网络；

6.一种用于综合能源系统的供需协同调控方法，其特征在于，应用于权利要求1-5任一项所述的供需协同调控系统，所述方法包括：

所述目标策略确定模块包括：

所述当前观测状态为：

；

所述调控动作为：

；

所述奖励函数为：

；