CN112862281A

CN112862281A - 综合能源系统调度模型构建方法、装置、介质及电子设备

Info

Publication number: CN112862281A
Application number: CN202110107505.8A
Authority: CN
Inventors: 乔骥; 王新迎; 蒲天骄
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Tianjin Electric Power Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-28
Also published as: WO2022160705A1

Abstract

本申请实施例公开了一种综合能源系统的调度方法、装置、介质及电子设备。所述方法包括：收集新能源发电功率以及电负荷、天然气负荷的历史数据，作为训练样本；并设置综合能源系统的优化目标；构建深度强化学习模型的元素，所述元素包括状态变量，动作变量、回报函数、折扣因子、记忆库容量；其中，所述深度强化学习模型包括：行动器，在线策略网络及其目标策略网络，评判器，以及在线网络及其目标网络；基于所述深度强化学习模型对训练样本进行迭代，确定调度周期内的调度策略。本技术方案，通过深度神经网络自动、自适应地学习源荷概率分布，训练好的模型，能够在秒级内快速、在线地给出优化调度策略。

Description

综合能源系统调度模型构建方法、装置、介质及电子设备

技术领域

本申请实施例涉及能源互联网综合能源系统优化运行领域，尤其涉及一种综合能源系统调度模型构建方法、装置、介质及电子设备。

背景技术

随着科学技术的不断发展，当前世界范围内日益增长的能源需求与环境生态保护之间矛盾凸显，提高能源利用效率，寻求替代性新能源已成为世界各国能源变革的必经之路。灵活的燃气轮机组为平抑间歇性新能源出力提供了保障；对于电网难以消纳的新能源出力，可将其通过电转气(P2G)技术转化为天然气/氢气大规模存储于天然气管道中。电力系统与天然气系统逐步呈现深度耦合的趋势，通过构建充分协同的电-气互联综合能源系统，提高能源利用效率，以实现系统间的灵活运行与多能互补。

能源互联网综合能源系统的优化运行基础理论及求解问题涉及的控制参量众多，运行状态随机多变，各类状态变量高度耦合，往往为一个复杂的非线性、非凸优化问题。同时，能源互联网集中控制方式随着控制设备的增多，计算量呈指数级增加。因此，采用传统计算方法难以解决能源互联网的优化运行问题。

随着人工智能技术的兴起和发展，强化学习在电力系统的优化控制中越来越受到重视。强化学习模型通过与环境的不断交互，实现经验的逐渐积累和策略的持续改进。尤其是深度神经网络与强化学习结合后的深度强化学习模型，具有更好的自适应学习能力和非凸优化、非线性问题的优化决策能力，适合于解决综合能源系统的优化调度问题。

发明内容

本申请实施例提供一种综合能源系统调度模型构建方法、装置、介质及电子设备，克服传统方法收敛速度慢、决策时间长、无法适应源荷随机性场景、需要大量简化假设等问题，通过深度神经网络自动、自适应地学习源荷概率分布，在秒级内快速、在线地给出优化调度策略。

第一方面，本申请实施例提供了一种综合能源系统调度模型构建方法，所述方法包括：

获取新能源发电功率以及电负荷、天然气负荷的历史数据，作为训练样本；并设置综合能源系统的优化目标；

从训练样本和优化目标中提取状态变量，动作变量、回报函数、折扣因子和记忆库容量，作为深度强化学习模型的训练元素，对深度强化学习模型进行迭代训练；训练后生成针对不同随机调度场景，生成调度策略的调度模型。

本申请提供的综合能源系统调度模型构建方法，通过深度强化学习与环境的不断交互，更新神经网络参数，并自适应学习电-气耦合能源系统的源荷不确定性，无需引入机理简化假设；能够在线、实时地给出优化调度策略。生成连续控制策略，相比于传统离散型强化学习模型，避免了动作离散化导致的计算误差。能够适用于新能源随机多场景下的优化调度策略，且具有良好的可扩展性。

进一步的，所述优化目标包括：运行成本最小、碳排放量最小、新能源消纳率最高中的至少一种。

进一步的，所述深度强化学习模型包括：行动器和评判器；所述对所述深度强化学习模型进行迭代训练，包括：

对构建的深度强化学习模型进行初始化；所述初始化包括设置训练迭代次数和每一次迭代的调度周期；

从调度周期内的第一个时刻开始，计算该时刻的综合能源系统的能流分布，得到系统环境的状态变量，并利用回报函数计算此刻系统的运行成本；

将所述状态变量输入至深度强化学习模型的行动器中，输出调度策略作为动作变量；

所述调度策略叠加一个正态分布的噪声后，作用于综合能源系统，得到下一状态变量；

将所述状态变量、所述动作变量、所述运行成本、所述下一状态变量以及是否为终止状态的5元组，存入强化学习智能体的经验回放单元；并从强化学习智能体的经验回放单元中抽取预设数量的样本，对行动器和评价器进行更新，持续迭代，直至迭代收敛稳定，得到训练好的深度强化学习模型。

在本实施例中，训练时采用深度学习对输入的综合能源系统的状态变量，生成输出策略，将调度策略作用于综合能源后继续生成状态变量，此过程中与环境不断交互，更新网络参数，采用克服传统方法收敛速度慢、决策时间长、无法适应源荷随机性场景、需要大量简化假设等问题，通过深度神经网络自动、自适应地学习源荷概率分布，能够在秒级内快速、在线地给出优化调度策略。

进一步的，所述训练元素中：状态变量，为各时刻系统的能流分布；动作变量，为系统的控制变量，包括常规机组发电功率，燃气轮机功率，电转气功率，储能充放电功率；回报函数，为每时刻系统的优化目标分类；记忆库容量，为强化学习智能体的记忆库容量，当智能体存储的5元组个数超过该容量值时，则随机删除记忆库中的某一个5元组，存储新的5元组。

进一步的，所述针对不同随机调度场景，生成调度策略的调度模型，生成调度策略时包括：

获取未来一个调度周期内的新能源发电功率以及电负荷、天然气负荷需求，在调度周期内的每一时间步，向深度强化学习模型的行动器中输入系统的运行状态，逐个生成各时刻的调度策略。

进一步的，所述行动器包括行动器在线策略网络及其目标策略网络；所述评判器包括在评判器线网络及其目标网络四个神经网络；所述对行动器和评价器进行更新时，包括以下步骤：

设置折扣因子等价式；

将折扣因子等价式代入预设损失函数中计算，采用预设损失函数更新评判器在线网络Q；

采用下式更新行动器的在线策略网络μ

其中，m为随机抽取的样本数量，

表示对策略网络u的网络参数求偏导数，

表示是对输入的动作a求偏导数；θ^μ表示在线对策略网络u的参数；θ^Q为在线网络Q的参数。

采用软更新方式，更新行动器目标网络μ'和评判器目标网络Q'。

进一步，所述预设损失函数采用如下公式：

其中，y_n表示折扣因子等价式；y_n＝r_n+γQ′(s_n+1,μ′(s_n+1|θ^μ′)|θ^Q′),n＝1,2...m；

θ^Q为在线网络Q的参数；S_n为系统状态变量，a_n为调度策略。

第二方面，本申请实施例提供了一种综合能源系统的调度模型构建装置，所述装置包括：

训练样本收集模块，用于获取新能源发电功率以及电负荷、天然气负荷的历史数据，作为训练样本；并设置综合能源系统的优化目标；

模型构建模块，用于构建深度强化学习模型，从训练样本和优化目标中提取状态变量，动作变量、回报函数、折扣因子和记忆库容量，作为深度强化学习模型的训练元素；

调度策略迭代模块，用于对深度强化学习模型进行迭代训练，训练后生成针对不同随机调度场景，生成调度策略的调度模型。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的综合能源系统的调度方法。

第四方面，本申请实施例提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例所述的综合能源系统的调度方法。

本申请实施例所提供的技术方案，收集新能源发电功率以及电负荷、天然气负荷的历史数据，作为训练样本；并设置综合能源系统的优化目标；构建深度强化学习模型的元素，所述元素包括状态变量，动作变量、回报函数、折扣因子、记忆库容量；其中，所述深度强化学习模型包括：行动器，在线策略网络及其目标策略网络，评判器，以及在线网络及其目标网络；基于所述深度强化学习模型对训练样本进行迭代，确定调度周期内的调度策略。该方法能够克服传统方法收敛速度慢、决策时间长、无法适应源荷随机性场景、需要大量简化假设等问题，通过深度神经网络自动、自适应地学习源荷概率分布，训练好的模型，能够在秒级内快速、在线地给出优化调度策略。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本申请实施例提供的综合能源系统的调度模型构建方法的流程图；

图2(a)是本申请实施例提供的一种综合能源系统的调度模型中深度强化学习的示意图；

图2(b)是本申请实施例提供的一种综合能源系统的调度模型构建方法中训练的流程图；

图3是本申请实施例提供的综合能源系统的调度装置的结构示意图；

图4是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

图1是本申请实施例提供的综合能源系统的调度方法的流程图，本实施例可适用于综合能源系统的调度的情况，该方法可以由本申请实施例所提供的综合能源系统的调度装置执行，该装置可以由软件和/或硬件的方式来实现，并可集成于电子设备中。

如图1所示，综合能源系统的调度方法包括：

S110、获取新能源发电功率以及电负荷、天然气负荷的历史数据，作为训练样本；并设置综合能源系统的优化目标。

具体的，收集新能源(光伏、风电等)发电功率以及电负荷、天然气负荷的历史数据，存入数据库中，作为训练样本。

在本实施例中，可选的，所述优化目标包括：运行成本最小、碳排放量最少、新能源消纳率最高中的至少一种。

设置综合能源系统的优化目标(如运行成本最小、碳排放量最小、新能源消纳率最高等)。

S120、从训练样本和优化目标中提取状态变量，动作变量、回报函数、折扣因子和记忆库容量，作为深度强化学习模型的训练元素；

其中，状态变量，为各时刻系统的能流分布；

动作变量，为系统的控制变量，包括常规机组发电功率，燃气轮机功率，电转气功率，储能充放电功率；

回报函数，为每时刻系统的优化目标分类；

记忆库容量，为强化学习智能体的记忆库容量，当智能体存储的5元组个数超过该容量值时，则随机删除记忆库中的某一个5元组，存储新的5元组。

其中，所述深度强化学习模型包括：行动器，在线策略网络及其目标策略网络，评判器，以及在线网络及其目标网络。

面向电-气耦合的综合能源系统，构建相应的深度强化学习模型，包括状态变量S，动作变量A、回报函数R、折扣因子γ、记忆库容量M；强化学习模型包含四个神经网络，分别为行动器(Actor)在线策略网络μ及其目标策略网络μ'，和评判器(Critic)在线网络Q及其目标网络Q'。

在本实施例中，可选的，所述行动器，所述在线策略网络及其目标策略网络，所述评判器，以及所述在线网络及其目标网络均采用全连接神经网络构建。

S130、训练后得到针对不同随机调度场景，生成调度策略的调度模型。

在本方案中，具体的，基于所述深度强化学习模型对训练样本进行迭代，训练过程包括：

按照预设的训练迭代轮数，根据每一轮的调度周期，调度策略生成的时间间隔，确定每一轮调度周期生成调度策略的次数；

如图2(a)所示，从调度周期内的第一个时刻开始，计算该时刻的综合能源系统的能流分布，得到系统环境的状态变量，以及此刻系统的运行成本；

将所述状态变量、所述调度策略、所述下一状态变量、回报函数以及是否为终止状态的5元组，存入强化学习智能体的经验回放单元；并从强化学习智能体的经验回放单元中抽取预设数量的样本，对行动器和评价器进行更新，持续迭代，直至迭代收敛稳定，得到训练好的深度强化学习模型。

设总的训练迭代轮数为N，每一轮的调度周期为T，调度策略生成的时间间隔为λ，则每一轮调度周期共需生成p＝T/λ次调度策略。从调度周期内的第一个时刻t_n(n＝0)开始，计算该时刻的综合能源系统的能流分布，可得到系统环境的状态变量S_n，以及此刻系统的运行成本R_n。S_n输入至强化学习模型的行动器μ中，输出调度策略(动作变量)A_n。A_n控制策略作用于能源系统，得到系统的下一个状态S_n+1。

将当前状态S_n，动作A_n，下一状态S_n+1，奖励R_n，是否为终止状态is_end的5元组存入智能体的经验回放单元。

从智能体的经验回放单元中随机抽取m个样本。

采用样本更新行动器μ和评判器Q。

本方案中，可选的，在对行动器和评价器进行更新之后，所述方法还包括：

持续迭代，直至迭代收敛稳定，得到深度强化学习模型。

上述过程持续进行，直至迭代收敛稳定，保存模型。此时整个调度周期内的累积回报函数R达到最大。

在上述技术方案的基础上，可选的，在得到深度强化学习模型之后，所述方法还包括：

采用训练好的深度强化学习模型进行未来调度策略生成；包括：预测未来一个调度周期内的新能源发电功率以及电负荷、天然气负荷需求，在调度周期内的每一时间步，向深度强化学习模型的行动器中输入系统的运行状态，逐个生成各时刻的调度策略。

采用训练好的模型进行未来调度策略生成。预测未来一个调度周期内的新能源(光伏、风电等)发电功率以及电负荷、天然气负荷需求，在调度周期内的每一时间步，向强化学习的行动器中输入系统的运行状态，逐个生成各时刻的调度策略。

图2(b)是本申请实施例提供的一种综合能源系统的调度方法的流程图。本方案包括以下几个步骤：

所述步骤1具体包括：

步骤101收集新能源(光伏、风电等)发电功率以及电负荷、天然气负荷的历史数据，存入数据库中，作为训练样本。历史数据的采样周期与调度周期一致，例如每一个小时生成一次调度策略，则源荷数据也为每小时一个数据点。

步骤102设置综合能源系统的优化目标，包括系统运行成本、碳排放量、新能源消纳率等。

步骤2为深度强化学习模型的构建过程，具体包括：

步骤201构建强化学习模型的各项元素，包括：状态变量S，即各时刻系统的能流分布；动作变量A，即系统的控制变量，例如常规机组发电功率，燃气轮机功率，电转气(P2G)功率，储能充放电功率等；回报函数R，即每时刻系统的优化目标分类；折扣因子；强化学习智能体的记忆库容量M。

步骤202强化学习模型包含四个神经网络，分别为行动器(Actor)在线策略网络μ及其目标策略网络μ'，和评判器(Critic)在线网络Q及其目标网络Q'，均采用全连接神经网络构建。在线策略网络μ及其目标策略网络μ'结构相同，网络参数分别为θ^μ和θ^μ′，输入层维度为状态变量S的个数，输出为动作的个数；评判器在线网络Q及其目标网络Q'结构相同，网络参数分别为θ^Q和θ^Q′，输出维度为1。

步骤3具体包括：

步骤301设总的训练迭代轮数为N，每一轮的调度周期为T，调度策略生成的时间间隔为λ，则每一轮调度周期共需生成p＝T/λ次调度策略。

步骤302从调度周期内的第一个时刻t_n(n＝0)开始，计算该时刻的综合能源系统的能流分布，可得到系统环境的状态变量S_n，以及此刻系统的运行成本R_n。

步骤304S_n输入至强化学习模型的行动器μ中，输出调度策略(动作变量)A_n。A_n控制策略叠加一个正态分布(正态分布的方程随迭代的进行逐渐减小)的噪声后，作用于能源系统，得到系统的下一个状态S_n+1。

步骤4将当前状态S_n，动作A_n，下一状态S_n+1，奖励R_n，是否为终止状态is_end的5元组{S_n,A_n,S_n+1,R_n,is_end}存入强化学习智能体的经验回放单元。

步骤5从智能体的经验回放单元中随机抽取m个样本。

步骤6是对智能体的评判器Q和行动器μ的神经网络参数更新过程，具体如下：

步骤601设置设置折扣因子等价式；

y_n＝r_n+γQ′(s_n+1,μ′(s_n+1|θ^μ′)|θ^Q′),n＝1,2...m (公式1)

然后，采用如下损失函数更新评判器Q参数

y_n表示折扣因子等价式；θ^Q为在线网络Q的参数；S_n为系统状态变量，a_n为调度策略。

步骤602采用下式更新行动器的在线策略网络μ

m为随机抽取的样本数量，

表示对策略网络u的网络参数求偏导数，

表示是对输入的动作a求偏导数；θ^μ表示在线对策略网络u的参数；θ^Q为在线网络Q的参数。(公式3)

步骤7采用软更新方式，更新行动器目标网络μ'和评判器目标网络Q'，即

θ^Q′←τθ^Q+(1-τ)θ^Q′ (4)

θ^μ′←τθ^μ+(1-τ)θ^μ′ (5)

其中，τ为更新系数，可设置为0.01。

步骤8上述步骤3-7的过程持续进行，直至迭代收敛稳定，保存深度强化学习模型。此时整个调度周期内的累积回报函数R达到最大。

步骤9采用训练好的模型进行未来调度策略生成。预测未来一个调度周期内的新能源(光伏、风电等)发电功率以及电负荷、天然气负荷需求，在调度周期内的每一时间步，向强化学习的行动器μ中输入系统的运行状态，逐个生成各时刻的调度策略。

本发明不依赖于具体的物理模型，因此也不需要进行大量的简化假设，而是直接自适应地学习源荷随机性分布，避免了因随机性简化导致的计算误差。

训练后的强化学习模型能够针对不同的随机调度场景，在线快速给出调度策略，无需重新进行模型训练，策略生成速度更快。

本发明属于无模型的优化方法，具有较好地可扩展性。相比于传统方法，生成的策略为连续控制策略，降低了因为控制动作离散化导致的计算误差。

本方案，通过深度强化学习与环境的不断交互，更新神经网络参数，并自适应学习电-气耦合能源系统的源荷不确定性，无需引入机理简化假设；能够在线、实时地给出优化调度策略。生成连续控制策略，相比于传统离散型强化学习模型，避免了动作离散化导致的计算误差。该方法能够适用于新能源随机多场景下的优化调度策略，且具有良好的可扩展性。

图3是本申请实施例提供的综合能源系统的调度装置的结构示意图。如图3所示，所述装置包括：

训练样本收集模块310，用于获取新能源发电功率以及电负荷、天然气负荷的历史数据，作为训练样本；并设置综合能源系统的优化目标；

模型构建模块320，用于构建深度强化学习模型，从训练样本和优化目标中提取状态变量，动作变量、回报函数、折扣因子和记忆库容量，作为深度强化学习模型的训练元素，所述深度强化学习模型包括：行动器，在线策略网络及其目标策略网络，评判器，以及在线网络及其目标网络四个神经网络；

调度策略迭代模块330，用于对深度强化学习模型进行迭代训练，训练后生成针对不同随机调度场景，生成调度策略的调度模型。上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种综合能源系统的调度方法，该方法包括：

收集新能源发电功率以及电负荷、天然气负荷的历史数据，作为训练样本；并设置综合能源系统的优化目标；

构建深度强化学习模型的元素，所述元素包括状态变量，动作变量、回报函数、折扣因子、记忆库容量；其中，所述深度强化学习模型包括：行动器，在线策略网络及其目标策略网络，评判器，以及在线网络及其目标网络；

基于所述深度强化学习模型对训练样本进行迭代，确定调度周期内的调度策略。存储介质——任何的各种类型的存储器电子设备或存储电子设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的综合能源系统的调度操作，还可以执行本申请任意实施例所提供的综合能源系统的调度方法中的相关操作。

本申请实施例提供了一种电子设备，该电子设备中可集成本申请实施例提供的综合能源系统的调度装置。图4是本申请实施例提供的一种电子设备的结构示意图。如图4所示，本实施例提供了一种电子设备400，其包括：一个或多个处理器420；存储装置410，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器420执行，使得所述一个或多个处理器420实现本申请实施例所提供的综合能源系统的调度方法，该方法包括：

基于所述深度强化学习模型对训练样本进行迭代，确定调度周期内的调度策略。当然，本领域技术人员可以理解，处理器420还实现本申请任意实施例所提供的综合能源系统的调度方法的技术方案。

图4显示的电子设备400仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，该电子设备400包括处理器420、存储装置410、输入装置430和输出装置440；电子设备中处理器420的数量可以是一个或多个，图4中以一个处理器420为例；电子设备中的处理器420、存储装置410、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线450连接为例。

存储装置410作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块单元，如本申请实施例中的综合能源系统的调度方法对应的程序指令。

存储装置410可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置410可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置410可进一步包括相对于处理器420远程设置的存储器，这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字、字符信息或语音信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏、扬声器等电子设备。

上述实施例中提供的综合能源系统的调度装置、介质及电子设备可执行本申请任意实施例所提供的综合能源系统的调度方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的综合能源系统的调度方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种综合能源系统调度模型构建方法，其特征在于，包括：

从训练样本和优化目标中提取状态变量，动作变量、回报函数、折扣因子和记忆库容量，作为深度强化学习模型的训练元素，对深度强化学习模型进行迭代训练；

训练后得到针对不同随机调度场景，生成调度策略的调度模型。

2.根据权利要求1所述的方法，其特征在于，所述优化目标包括：运行成本最小、碳排放量最小、新能源消纳率最高中的至少一种。

3.根据权利要求1所述的方法，其特征在于，所述深度强化学习模型包括：行动器和评判器；所述对所述深度强化学习模型进行迭代训练，包括：

4.根据权利要求3所述的方法，其特征在于，所述行动器包括行动器在线策略网络及其目标策略网络；所述评判器包括在评判器线网络及其目标网络四个神经网络；所述对行动器和评价器进行更新时，包括以下步骤：

设置折扣因子等价式；

采用下式更新行动器的在线策略网络μ，

其中，m为随机抽取的样本数量，

表示对策略网络u的网络参数求偏导数，

表示是对输入的动作a求偏导数；θ^μ表示在线对策略网络u的参数；θ^Q为在线网络Q的参数；

5.根据权利要求4所述的方法，其特征在于，所述预设损失函数采用如下公式：

6.根据权利要求1所述的方法，其特征在于，所述训练元素中：

状态变量，为各时刻系统的能流分布；

回报函数，为每时刻系统的优化目标分类；

7.根据权利要求1所述的方法，其特征在于，所述针对不同随机调度场景，生成调度策略的调度模型，生成调度策略时包括：

8.一种综合能源系统的调度模型构建装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的综合能源系统的调度方法。

10.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的综合能源系统的调度方法。