CN116032020A

CN116032020A - 一种新能源电站智能监盘方法及系统

Info

Publication number: CN116032020A
Application number: CN202310244169.0A
Authority: CN
Inventors: 杨紫阳; 任立兵; 李小翔; 张燧; 邸智; 黄思皖; 朱勇; 王建星; 赵珈卉; 刘承皓
Original assignee: Huaneng Clean Energy Research Institute; Huaneng Lancang River Hydropower Co Ltd
Current assignee: Huaneng Clean Energy Research Institute; Huaneng Lancang River Hydropower Co Ltd
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-04-28

Abstract

本公开提出一种新能源电站智能监盘方法及系统，该方法包括构建训练数据集；构建智能监盘模型，智能监盘模型采用新型值函数优化强化学习算法，其包括目标网络和评估网络，目标网络的输入包括新能源电站设备就地测点的运行数据和反馈参数，目标网络的输出为动作目标值；评估网络基于动作目标值和动作标签值输出反馈参数；利用训练数据集训练智能监盘模型得到训练好的智能监盘模型，将训练好的智能监盘模型中反馈参数恒定设置为零以得到目标智能监盘模型；获取新能源电站设备就地测点的实时运行数据；将实时运行数据输入目标智能监盘模型输出实时的动作目标值，从而实现对新能源电站的智能监盘。根据本公开的方法能够提高模型预测的准确性。

Description

一种新能源电站智能监盘方法及系统

技术领域

本公开属于智能监盘技术领域，尤其涉及一种新能源电站智能监盘方法及系统。

背景技术

为降低机组对传统DCS(Distributed Control System，分散计算机控制系统)运行模式的强依赖性，借助科技手段和人工智能等新兴技术，在提升机组运行安全性的同时降低运行人员的工作负荷，达到预测性维护这一运维方式，火电领域率先提出智能监盘这一概念。智能监盘的理想功能要求主要由生产数据实时传输与处理、智能监视、设备参量突变等问题的智能趋势分析、故障定位等问题的辅助预警、智能巡屏和抄表、自动报表等方面组成。

目前智能监盘技术普遍停留在对传感器数据的集成可视化和简单统计学分析的水平。对于模型这一核心元素，仅有少量场站小范围应用了与预测相关的模型，但应用效果不佳，模型普遍有难以升级、数据清理不及时、模型运行速度缓慢且预测精确度提升不明显等问题。可以说，距离此技术的理想功能要求还有很长的距离需要努力。另一方面来说，智能监盘多集中于火电领域、燃机和水电领域，在新能源电站中并未有系统开展研究。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本公开提供了一种新能源电站智能监盘方法及系统，主要目的在于提高智能监盘时模型预测精确度。

根据本公开的第一方面实施例，提供了一种新能源电站智能监盘方法，包括：

构建训练数据集，所述训练数据集包括新能源电站设备就地测点的历史运行数据、与所述历史运行数据对应的动作标签值；

构建智能监盘模型，所述智能监盘模型采用新型值函数优化强化学习算法，所述新型值函数优化强化学习算法包括目标网络和评估网络，所述目标网络的输入包括新能源电站设备就地测点的运行数据和所述评估网络的输出，所述目标网络的输出为动作目标值；所述评估网络基于所述动作目标值和所述动作标签值输出反馈参数，所述反馈参数包括奖励数据和调整数据；

利用所述训练数据集训练所述智能监盘模型得到训练好的智能监盘模型，将训练好的智能监盘模型中评估网络输出的反馈参数恒定设置为零以得到目标智能监盘模型；

获取新能源电站设备就地测点的实时运行数据；

将所述实时运行数据输入所述目标智能监盘模型输出实时的动作目标值，从而实现对新能源电站的智能监盘。

在本公开的一个实施例中，所述评估网络基于所述动作目标值和所述动作标签值输出反馈参数，包括：若所述动作目标值和所述动作标签值一致，则所述评估网络输出的奖励数据为非零值，所述调整数据为零；若所述动作目标值和所述动作标签值不一致，则所述评估网络获取内置数据库中的运行数据动作组合，基于所述运行数据动作组合、所述动作目标值和所述动作标签值输出反馈参数。

在本公开的一个实施例中，所述基于所述运行数据动作组合、所述动作目标值和所述动作标签值输出反馈参数，包括：在所述运行数据动作组合中查找与所述动作目标值匹配的目标组合；若目标组合不存在，则所述评估网络输出的奖励数据为零，所述调整数据为所述动作目标值和所述动作标签值的差值；若目标组合存在，则所述评估网络输出的奖励数据为非零值，所述调整数据为所述动作目标值和所述动作标签值的差值，并将所述目标组合加入经验回放池中。

在本公开的一个实施例中，利用所述训练数据集训练所述智能监盘模型时采用剪枝算法。

在本公开的一个实施例中，所述剪枝算法为结构稀疏剪枝算法或时间稀疏剪枝算法。

在本公开的一个实施例中，所述新能源电站设备就地测点的运行数据包括运行系统数据和运行环境数据，所述运行系统数据包括厂站整体和单台机组或设备的电压、电流、有功功率、无功功率、全厂上网电量；所述运行环境数据包括气温、辐照度、风速、风向中的至少一种。

根据本公开的第二方面实施例，还提供了一种新能源电站智能监盘系统，包括：

建模模块，用于构建训练数据集，所述训练数据集包括新能源电站设备就地测点的历史运行数据、与所述历史运行数据对应的动作标签值，还用于构建智能监盘模型，所述智能监盘模型采用新型值函数优化强化学习算法，所述新型值函数优化强化学习算法包括目标网络和评估网络，所述目标网络的输入包括新能源电站设备就地测点的运行数据和所述评估网络的输出，所述目标网络的输出为动作目标值；所述评估网络基于所述动作目标值和所述动作标签值输出反馈参数，所述反馈参数包括奖励数据和调整数据；

训练模块，用于利用所述训练数据集训练所述智能监盘模型得到训练好的智能监盘模型，将训练好的智能监盘模型中评估网络输出的反馈参数恒定设置为零以得到目标智能监盘模型；

获取模块，用于获取新能源电站设备就地测点的实时运行数据；

智能监盘模块，用于将所述实时运行数据输入所述目标智能监盘模型输出实时的动作目标值，从而实现对新能源电站的智能监盘。

在本公开的一个实施例中，所述建模模块，具体用于：若所述动作目标值和所述动作标签值一致，则所述评估网络输出的奖励数据为非零值，所述调整数据为零；若所述动作目标值和所述动作标签值不一致，则所述评估网络获取内置数据库中的运行数据动作组合，基于所述运行数据动作组合、所述动作目标值和所述动作标签值输出反馈参数。

在本公开的一个实施例中，所述训练模块利用所述训练数据集训练所述智能监盘模型时采用结构稀疏剪枝算法或时间稀疏剪枝算法。

根据本公开的第三方面实施例，还提供了一种新能源电站智能监盘设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开的第一方面实施例提出的新能源电站智能监盘方法。

在本公开一个或多个实施例中，构建训练数据集，训练数据集包括新能源电站设备就地测点的历史运行数据、与历史运行数据对应的动作标签值；构建智能监盘模型，智能监盘模型采用新型值函数优化强化学习算法，新型值函数优化强化学习算法包括目标网络和评估网络，目标网络的输入包括新能源电站设备就地测点的运行数据和评估网络的输出，目标网络的输出为动作目标值；评估网络基于动作目标值和动作标签值输出反馈参数，反馈参数包括奖励数据和调整数据；利用训练数据集训练智能监盘模型得到训练好的智能监盘模型，将训练好的智能监盘模型中评估网络输出的反馈参数恒定设置为零以得到目标智能监盘模型；获取新能源电站设备就地测点的实时运行数据；将实时运行数据输入目标智能监盘模型输出实时的动作目标值，从而实现对新能源电站的智能监盘。在这种情况下，利用新型值函数优化强化学习算法构建智能监盘模型，在新型值函数优化强化学习算法中目标网络的输入不仅包括新能源电站设备就地测点的运行数据，还包括评估网络输出的反馈参数，该反馈参数利用动作目标值和动作标签值获得，由此，构建的智能监盘模型综合了新能源电站设备就地测点的运行数据、动作标签值、奖励数据和调整数据得到动作目标值，从而提高了模型预测的准确性。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1示出本公开实施例提供的一种新能源电站智能监盘方法的流程示意图；

图2示出本公开实施例提供的新能源电站智能监盘系统的框图；

图3是用来实现本公开实施例的新能源电站智能监盘方法的新能源电站智能监盘设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开实施例的一些方面相一致的装置和方法的例子。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。还应当理解，本公开中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

本公开提供了一种新能源电站智能监盘方法及系统，主要目的在于提高智能监盘时模型预测精确度。

在第一个实施例中，图1示出本公开实施例提供的一种新能源电站智能监盘方法的流程示意图。如图1所示，该新能源电站智能监盘方法，包括：

步骤S11，构建训练数据集，训练数据集包括新能源电站设备就地测点的历史运行数据、与历史运行数据对应的动作标签值。

易于理解地，步骤S11中的新能源电站设备就地测点的历史运行数据指的是历史存储的新能源电站设备就地测点的运行数据。其中新能源电站设备就地测点的运行数据包括运行系统数据和运行环境数据。

在步骤S11中，运行系统数据包括厂站整体和单台机组或设备的电压、电流、有功功率、无功功率、全厂上网电量等电厂生成数据。本公开的实施例中的运行系统数据不限于此。

在步骤S11中，运行环境数据包括气温、辐照度、风速、风向中的至少一种。具体地，运行环境数据指的是电站自带气象站的生产相关的气象数据，例如在光伏场景下气象数据包括气温、辐照度、风速，风电场景下气象数据包括风速、风向等。本公开的实施例中的运行环境数据不限于此。

在步骤S11中，每组历史运行数据有对应的动作标签值，所有组历史运行数据和对应的动作标签值构建得到训练数据集。

步骤S12，构建智能监盘模型，智能监盘模型采用新型值函数优化强化学习算法，新型值函数优化强化学习算法包括目标网络和评估网络，目标网络的输入包括新能源电站设备就地测点的运行数据和评估网络的输出，目标网络的输出为动作目标值；评估网络基于动作目标值和动作标签值输出反馈参数，反馈参数包括奖励数据和调整数据。

在步骤S12中，新型值函数优化强化学习算法可以是指优化后的DQN算法。DQN算法即深度Q网络算法。易于理解地，DQN算法是一种与深度学习结合的值函数优化强化学习算法，是目前常用的深度强化学习算法。在训练中通过对其中值函数的更新，修正学习结果，以达到学习效果。其中，强化学习(Reinforcement learning)是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的常见模型是标准的马尔可夫决策过程(MarkovDecision Process，MDP)。求解强化学习问题所使用的算法可分为策略搜索算法和值函数算法两类。深度学习模型可以在强化学习中得到使用，形成深度强化学习。

在步骤S12中，新型值函数优化强化学习算法包括目标网络和评估网络。

在步骤S12中，目标网络的输入包括新能源电站设备就地测点的运行数据和评估网络的输出，目标网络的输出为动作目标值。具体地，目标网络针对新能源电站设备就地测点的运行数据进行运行模拟输出学习结果，该学习结果即为动作目标值。

在本实施例中，目标网络可以采用卷积神经网络(CNN)，CNN是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)。其是强化学习算法中常用的内嵌神经网络类型。

在步骤S12中，评估网络基于动作目标值和动作标签值输出反馈参数，反馈参数包括奖励数据和调整数据。具体地，评估网络通过后台数据接口程序读取现行控制系统中训练数据集中的动作标签值，将动作标签值与目标网络输出的动作目标值比较，输出不同的反馈参数。

在步骤S12中，评估网络基于动作目标值和动作标签值输出反馈参数，包括：若动作目标值和动作标签值一致，则评估网络输出的奖励数据为非零值，调整数据为零；若动作目标值和动作标签值不一致，则评估网络获取内置数据库中的运行数据动作组合，基于运行数据动作组合、动作目标值和动作标签值输出反馈参数。

在步骤S12中，基于运行数据动作组合、动作目标值和动作标签值输出反馈参数，包括：在运行数据动作组合中查找与动作目标值匹配的目标组合；若目标组合不存在，则评估网络输出的奖励数据为零，调整数据为动作目标值和动作标签值的差值；若目标组合存在，则评估网络输出的奖励数据为非零值，调整数据为动作目标值和动作标签值的差值，并将目标组合加入经验回放池中。

其中，内置数据库中包括多组运行数据动作组合，每组运行数据动作组合包括运行数据和动作目标值。所有的运行数据动作组合包含了所有可能的动作目标值(target)和UI应的运行数据。所有的运行数据动作组合保存在内置数据库时可以使用字典形式进行保存。评估网络判断动作目标值和动作标签值不一致时，说明此时模型预测有偏差，在此时的强化学习情况下奖励数据设置为0，此时，但评估网络借助内置数据库中的运行数据动作组合，从内置数据库中尝试匹配，即在运行数据动作组合中查找与动作目标值匹配的目标组合；若目标组合不存在，即在内置数据库中没有匹配成功，在此场景下是完全的失败学习经历；若目标组合存在，即匹配成功，则通过奖励数据以给予奖励(rewards)，并将目标组合加入DQN算法的自有经验回放池(experience reply pool)以辅助后续决策。在这种情况下，通过对智能体探索成功定义的泛化，增加智能体获得的奖励次数，增加了处理复杂问题的能力，加快了学习进程，改善了强化学习在复杂系统中由于奖励稀疏导致的学习困难的问题。

在步骤S12中，奖励数据例如可以是奖励次数，奖励次数可以通过评估网络中的奖励函数获得。其中奖励函数(Rewards)是强化学习中智能体的目标被形式化表征成的一种特殊信号。奖励函数通过环境传递给智能体(如智能监盘模型)，智能体的目标是最大化其收到的总奖励。奖励函数定义了强化学习中智能体的学习测率：需要最大化的不是当前收益，而是长期的累积收益。

步骤S13，利用训练数据集训练智能监盘模型得到训练好的智能监盘模型，将训练好的智能监盘模型中评估网络输出的反馈参数恒定设置为零以得到目标智能监盘模型。

在步骤S13中，在训练过程中，每一次训练任务中，评估网络将输出的反馈参数(即奖励数据和调整数据)送至目标网络，目标网络在根据此反馈参数在内部自动对值函数进行校准，然后用新权重再次学习提供的新一时刻(即新一次的训练任务)的历史运行数据，再重复上述过程直至训练结束。在训练完成时，智能监盘模型针对设备测点变动具有敏感性。

在步骤S13中，利用训练数据集训练智能监盘模型时采用剪枝算法。

在本实施例中，剪枝算法为结构稀疏剪枝算法或时间稀疏剪枝算法。

具体地，考虑到利用DQN算法学习将使用海量数据且在运行过程中会产生大量数据冗余，随着算法的运行将对其运行速度有越来越严重且严重程度指数增长的减速问题，对于应用在智能监盘上的强化学习算法需要对其模型的数据冗余问题单独设计，使之拥有有效的自剪枝能力。因此本公开的实施例中，在进行训练时DQN优化算法(即优化后的DQN算法)还采用两类优化剪枝算法，使之可以从结构稀疏和时间稀疏两个方向分别进行剪枝。由此，有效降低了神经网络对运算资源的需求，减轻了运行负担，具备现场可尝试性。

对于结构稀疏剪枝算法，本实施例以绝对值(即当一个权重越接近于0此权重的重要度越低)为依据，对每次运算的神经网络的权重进行小比例剪枝，然后将剩余权重重置为初始值。对于剪枝权重，本实施例的算法设置为在10％-20％之间波动，算法根据剪枝效果在此范围内进行一定幅度的自适应，以在持续运算中保持运算速度和运算精准度的平衡。

其中涉及剪枝权重的计算公式如式(1)：

式中，a表示剪枝权重，A表示总权重，剪枝权重作为超参数在算法运行过程中保持一致，i为剪枝迭代次数；

为剪枝率，即每次迭代时修剪权重的百分比。

对于时间稀疏剪枝算法，本实施例通过式(2)实现时间稀疏性：

式中，Δy^k+1(t)为某时刻某层卷积神经网络的变化值，k为当前神经网络层数；t为当前步数，y^k+1为第k+1层神经网络的输出；W^k是在层数k时网络的权重矩阵；y^k为第k层神经网络的输出，同时也是k+1层神经网络的输入；x^k为第k层神经网络的自变量，神经网络将应用法则

求得y^k+1。如式2所示，DQN算法中所含卷积层输出变化值可以通过追踪各层输出进行实时计算。另外在通过式(2)实现神经网络实际更新之前，进行对输出变化值的超前计算，并通过式(3)减轻神经网络当前数据，大幅减轻后续运算量，达到卷积神经网络时间性稀疏剪枝的效果。式(3)满足：

式中，T为在每一轮次加入的阈值，i为当前神经元，只有卷积层的每一神经元的输出变化值

超过此阈值时才开始对后续神经元重新计算。

表示正常的神经元输出公式。Y_prev(t)为减轻后的神经元输出。在这种情况下，由将权重不够高的神经元截断体现，不再计算带来的是神经网络整体运算量的减少，达到算力、时间的节约。

在本实施例中，将训练好的智能监盘模型中评估网络输出的反馈参数恒定设置为零以得到目标智能监盘模型。

在另一些实施例中，可以不设置反馈参数，直接利用训练好的智能监盘模型作为目标智能监盘模型用于实际场景中的智能监盘。

步骤S14，获取新能源电站设备就地测点的实时运行数据。

易于理解地，新能源电站设备就地测点的实时运行数据指的是实时获取的新能源电站设备就地测点的运行数据。步骤S14中的实时运行数据所含数据种类与步骤S11中的历史运行数据所含数据种类一致。

步骤S15，将实时运行数据输入目标智能监盘模型输出实时的动作目标值，从而实现对新能源电站的智能监盘。

在步骤S15中，监测实时的动作目标值以判断新能源电站设备就地测点是否有异常上升或下降的趋势，当出现异常上升或下降的趋势时，提早将结果显示在集控室的显示屏上并进行警报提醒，以便给出运行人员更多反应时间的效果，从而助力于新能源电站的预测性维护。

在步骤S15中，还包括实时监控输出实时的动作目标值与理论动作值的差值，在达到某一阈值时，说明模型的精度降低，然后对智能监盘模型重新投入训练。

在另一些实施例中，本公开实施例的新能源电站智能监盘方法还可以使用基础DQN算法或其他改进DQN算法进行新能源电站智能监盘，另外，本公开实施例的新能源电站智能监盘方法所提出的优化奖励稀疏方法应用在相似问题或场景的；所提出的结构稀疏性剪枝方法应用在相似问题或场景的；提出的时间稀疏性剪枝方法应用在相似问题或场景的；所提出的在时间稀疏性、结构稀疏性剪枝方法，将设计中固定不变的剪枝权重等超参数在算法运行过程中微调的。

在本公开实施例的新能源电站智能监盘方法中，构建训练数据集，训练数据集包括新能源电站设备就地测点的历史运行数据、与历史运行数据对应的动作标签值；构建智能监盘模型，智能监盘模型采用新型值函数优化强化学习算法，新型值函数优化强化学习算法包括目标网络和评估网络，目标网络的输入包括新能源电站设备就地测点的运行数据和评估网络的输出，目标网络的输出为动作目标值；评估网络基于动作目标值和动作标签值输出反馈参数，反馈参数包括奖励数据和调整数据；利用训练数据集训练智能监盘模型得到训练好的智能监盘模型，将训练好的智能监盘模型中评估网络输出的反馈参数恒定设置为零以得到目标智能监盘模型；获取新能源电站设备就地测点的实时运行数据；将实时运行数据输入目标智能监盘模型输出实时的动作目标值，从而实现对新能源电站的智能监盘。在这种情况下，利用新型值函数优化强化学习算法构建智能监盘模型，在新型值函数优化强化学习算法中目标网络的输入不仅包括新能源电站设备就地测点的运行数据，还包括评估网络输出的反馈参数，该反馈参数利用动作目标值和动作标签值获得，由此，构建的智能监盘模型综合了新能源电站设备就地测点的运行数据、动作标签值、奖励数据和调整数据得到动作目标值，从而提高了模型预测的准确性。本公开的智能监盘方法提出了一种从未在发电、能源、工业领域被应用的值函数优化算法，是一种基于新型值函数优化强化学习方法的新能源电站智能监盘方法，基于本公开的智能监盘方法不仅对强化学习在电厂的应用提供了值得尝试的开始；还能够通过对错误探索的深层次利用，泛化智能体探索成功定义，增加智能体获得的奖励次数，从而加快学习进程；而且能够通过自剪枝功能在海量数据长期分析的过程中在保证学习效果的基础上，自我修剪DQN内卷积网络，维持网络结构的相对稀疏，保持DQN算法的运算速度。此剪枝方法带来的另一方面优势在于增强了网络的鲁棒性，进一步优化了算法性能，使强化学习在工业领域学习的学习效率、泛化性提升。

下述为本公开系统实施例，可以用于执行本公开方法实施例。对于本公开系统实施例中未披露的细节，请参照本公开方法实施例。

请参见图2，图2示出本公开实施例提供的新能源电站智能监盘系统的框图。该新能源电站智能监盘系统可以通过软件、硬件或者两者的结合实现成为系统的全部或一部分。该新能源电站智能监盘系统10包括建模模块11、训练模块12、获取模块13和智能监盘模块14，其中：

建模模块11，用于构建训练数据集，训练数据集包括新能源电站设备就地测点的历史运行数据、与历史运行数据对应的动作标签值，还用于构建智能监盘模型，智能监盘模型采用新型值函数优化强化学习算法，新型值函数优化强化学习算法包括目标网络和评估网络，目标网络的输入包括新能源电站设备就地测点的运行数据和评估网络的输出，目标网络的输出为动作目标值；评估网络基于动作目标值和动作标签值输出反馈参数，反馈参数包括奖励数据和调整数据；

训练模块12，用于利用训练数据集训练智能监盘模型得到训练好的智能监盘模型，将训练好的智能监盘模型中评估网络输出的反馈参数恒定设置为零以得到目标智能监盘模型；

获取模块13，用于获取新能源电站设备就地测点的实时运行数据；

智能监盘模块14，用于将实时运行数据输入目标智能监盘模型输出实时的动作目标值，从而实现对新能源电站的智能监盘。

可选地，建模模块11，具体用于：若动作目标值和动作标签值一致，则评估网络输出的奖励数据为非零值，调整数据为零；若动作目标值和动作标签值不一致，则评估网络获取内置数据库中的运行数据动作组合，基于运行数据动作组合、动作目标值和动作标签值输出反馈参数。

可选地，训练模块12利用训练数据集训练智能监盘模型时采用结构稀疏剪枝算法或时间稀疏剪枝算法。

要说明的是，上述实施例提供的新能源电站智能监盘系统在执行新能源电站智能监盘方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将新能源电站智能监盘设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的新能源电站智能监盘系统与新能源电站智能监盘方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

在本公开实施例的新能源电站智能监盘系统，建模模块用于构建训练数据集，训练数据集包括新能源电站设备就地测点的历史运行数据、与历史运行数据对应的动作标签值，还用于构建智能监盘模型，智能监盘模型采用新型值函数优化强化学习算法，新型值函数优化强化学习算法包括目标网络和评估网络，目标网络的输入包括新能源电站设备就地测点的运行数据和评估网络的输出，目标网络的输出为动作目标值；评估网络基于动作目标值和动作标签值输出反馈参数，反馈参数包括奖励数据和调整数据；训练模块用于利用训练数据集训练智能监盘模型得到训练好的智能监盘模型，将训练好的智能监盘模型中评估网络输出的反馈参数恒定设置为零以得到目标智能监盘模型；获取模块用于获取新能源电站设备就地测点的实时运行数据；智能监盘模块用于将实时运行数据输入目标智能监盘模型输出实时的动作目标值，从而实现对新能源电站的智能监盘。在这种情况下，利用新型值函数优化强化学习算法构建智能监盘模型，在新型值函数优化强化学习算法中目标网络的输入不仅包括新能源电站设备就地测点的运行数据，还包括评估网络输出的反馈参数，该反馈参数利用动作目标值和动作标签值获得，由此，构建的智能监盘模型综合了新能源电站设备就地测点的运行数据、动作标签值、奖励数据和调整数据得到动作目标值，从而提高了模型预测的准确性。本公开的智能监盘系统提出了一种从未在发电、能源、工业领域被应用的值函数优化算法，是一种基于新型值函数优化强化学习方法的新能源电站智能监盘系统，基于本公开的智能监盘系统不仅对强化学习在电厂的应用提供了值得尝试的开始；还能够通过对错误探索的深层次利用，泛化智能体探索成功定义，增加智能体获得的奖励次数，从而加快学习进程；而且能够通过自剪枝功能在海量数据长期分析的过程中在保证学习效果的基础上，自我修剪DQN内卷积网络，维持网络结构的相对稀疏，保持DQN算法的运算速度。此剪枝方法带来的另一方面优势在于增强了网络的鲁棒性，进一步优化了算法性能，使强化学习在工业领域学习的学习效率、泛化性提升。

根据本公开的实施例，本公开还提供了一种新能源电站智能监盘设备、一种可读存储介质和一种计算机程序产品。

图3是用来实现本公开实施例的新能源电站智能监盘方法的新能源电站智能监盘设备的框图。新能源电站智能监盘设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。新能源电站智能监盘设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴电子设备和其它类似的计算装置。本公开所示的部件、部件的连接和关系、以及部件的功能仅仅作为示例，并且不意在限制本公开中描述的和/或者要求的本公开的实现。

如图3所示，新能源电站智能监盘设备20包括计算单元21，其可以根据存储在只读存储器(ROM)22中的计算机程序或者从存储单元28加载到随机访问存储器(RAM)23中的计算机程序，来执行各种适当的动作和处理。在RAM 23中，还可存储新能源电站智能监盘设备20操作所需的各种程序和数据。计算单元21、ROM 22以及RAM 23通过总线24彼此相连。输入/输出(I/O)接口25也连接至总线24。

新能源电站智能监盘设备20中的多个部件连接至I/O接口25，包括：输入单元26，例如键盘、鼠标等；输出单元27，例如各种类型的显示器、扬声器等；存储单元28，例如磁盘、光盘等，存储单元28与计算单元21通信连接；以及通信单元29，例如网卡、调制解调器、无线通信收发机等。通信单元29允许新能源电站智能监盘设备20通过诸如因特网的计算机网络和/或各种电信网络与其他新能源电站智能监盘设备交换信息/数据。

计算单元21可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元21的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元21执行上述所描述的各个方法和处理，例如执行新能源电站智能监盘方法。例如，在一些实施例中，新能源电站智能监盘方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元28。在一些实施例中，计算机程序的部分或者全部可以经由ROM 22和/或通信单元29而被载入和/或安装到新能源电站智能监盘设备20上。当计算机程序加载到RAM 23并由计算单元21执行时，可以执行上述描述的新能源电站智能监盘方法的一个或多个步骤。备选地，在其他实施例中，计算单元21可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行新能源电站智能监盘方法。

本公开中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑电子设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或新能源电站智能监盘设备使用或与指令执行系统、装置或新能源电站智能监盘设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或电子设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储电子设备、磁储存电子设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本公开在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种新能源电站智能监盘方法，其特征在于，包括：

获取新能源电站设备就地测点的实时运行数据；

2.如权利要求1所述的新能源电站智能监盘方法，其特征在于，所述评估网络基于所述动作目标值和所述动作标签值输出反馈参数，包括：

若所述动作目标值和所述动作标签值一致，则所述评估网络输出的奖励数据为非零值，所述调整数据为零；

若所述动作目标值和所述动作标签值不一致，则所述评估网络获取内置数据库中的运行数据动作组合，基于所述运行数据动作组合、所述动作目标值和所述动作标签值输出反馈参数。

3.如权利要求2所述的新能源电站智能监盘方法，其特征在于，所述基于所述运行数据动作组合、所述动作目标值和所述动作标签值输出反馈参数，包括：

在所述运行数据动作组合中查找与所述动作目标值匹配的目标组合；

若目标组合不存在，则所述评估网络输出的奖励数据为零，所述调整数据为所述动作目标值和所述动作标签值的差值；

若目标组合存在，则所述评估网络输出的奖励数据为非零值，所述调整数据为所述动作目标值和所述动作标签值的差值，并将所述目标组合加入经验回放池中。

4.如权利要求3所述的新能源电站智能监盘方法，其特征在于，利用所述训练数据集训练所述智能监盘模型时采用剪枝算法。

5.如权利要求4所述的新能源电站智能监盘方法，其特征在于，所述剪枝算法为结构稀疏剪枝算法或时间稀疏剪枝算法。

6.如权利要求1所述的新能源电站智能监盘方法，其特征在于，所述新能源电站设备就地测点的运行数据包括运行系统数据和运行环境数据，所述运行系统数据包括厂站整体和单台机组或设备的电压、电流、有功功率、无功功率、全厂上网电量；所述运行环境数据包括气温、辐照度、风速、风向中的至少一种。

7.一种新能源电站智能监盘系统，其特征在于，包括：

8.如权利要求7所述的新能源电站智能监盘系统，其特征在于，所述建模模块，具体用于：

若所述动作目标值和所述动作标签值一致，则所述评估网络输出的奖励数据为非零值，所述调整数据为零；若所述动作目标值和所述动作标签值不一致，则所述评估网络获取内置数据库中的运行数据动作组合，基于所述运行数据动作组合、所述动作目标值和所述动作标签值输出反馈参数。

9.如权利要求8所述的新能源电站智能监盘系统，其特征在于，所述训练模块利用所述训练数据集训练所述智能监盘模型时采用结构稀疏剪枝算法或时间稀疏剪枝算法。

10.一种新能源电站智能监盘设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的新能源电站智能监盘方法。