CN115943536A

CN115943536A - 用于为控制器生成决策逻辑的方法和计算机系统

Info

Publication number: CN115943536A
Application number: CN202180050942.9A
Authority: CN
Inventors: A·马里纳基斯; Y·C·埃夫雷诺奥卢; I·林佩罗普洛斯; S·申博恩; P·大卫朵夫斯基; J·波兰德
Original assignee: Hitachi Energy Switzerland AG
Current assignee: Hitachi Energy Co ltd
Priority date: 2020-08-19
Filing date: 2021-08-18
Publication date: 2023-04-07
Also published as: US20230378753A1; JP2023538611A; EP4200952A1; WO2022038206A1; EP3958422A1

Abstract

为了生成工业自动化控制系统IACS的控制器(31，32，33)的决策逻辑，执行迭代过程，在该迭代过程中，生成决策逻辑的决策逻辑候选，并计算响应于场景的决策逻辑候选的性能。

Description

用于为控制器生成决策逻辑的方法和计算机系统

技术领域

本发明涉及用于生成工业自动化控制系统(IACS)，特别地，输电、配电或发电系统，的控制器的决策逻辑的方法和设备。更具体地，本发明涉及用于生成该决策逻辑的计算机实施技术。

背景技术

现代工业自动化控制系统(IACS)(诸如发电系统、配电系统、输电系统、电网或变电站、以及现代工业系统)包括大量部件。诸如这种系统的保护继电器的保护设备的决策逻辑决定在什么情况下采取各种动作中的哪个。

为了说明，在电力设施的实时操作中，包括变压器、架空线、地下线缆、串联/并联元件等的输电和配电系统装备通过测量系统(电压、电流)、数字继电器和断路器进行保护。部署在数字继电器中的控制逻辑利用所测量的信号，确定是否存在应当被清除以避免对系统装备的损坏的严重故障，并最终向断路器发送信号以使其断开。快速确定和清除故障对于整个系统的可靠性和安全性至关重要。

针对每个继电器的决策逻辑(即，保护逻辑)以及多个继电器之间的协调方案在预期的电网场景下进行设计和测试。通常，这由人类专家工程师来完成。在设计阶段期间，工程师执行电网中的故障和其它干扰(开关事件)的模拟，以评估和完善保护控制逻辑的性能。对于给定的电网，性能指标通常由占主导地位的实践来设置。一旦部署，保护逻辑就保持不变，直至观察到其性能方面的错误。

由于取代了常规发电机的在时间和空间上给电力供应带来更多随机性的转换器接口发电的剧增以及为需求引入更多随机性的电动交通(e-mobility)，保护系统的设计越来越具有挑战性，因为电网操作更接近其极限。此外，由于缺少短路电流容量和由转换器接口发电机提供的短路电流的不同性质(例如，延迟过零、失真信号等)、以及由于发电空间模式变化而产生的多向电流，因此期望保护系统针对变化的环境进行调节。

因此，保护逻辑的开发变成越来越复杂的任务。此外，由于电网基础设施以及发电/需求模式方面的变化，需要更加频繁地重新评估保护系统的适用性，因此需要更加频繁地执行这个任务。

用于保护逻辑设计的常规实践是针对每个特定的设计情况专家工程师在多个保护功能(诸如过电流、方向、距离、差动保护)或它们的组合中进行选择，并确定与所选择的(多个)功能相关联的设置(即功能参数)。目标是提出一组保护功能和它们之间的逻辑，使得保护系统的安全性(即，在必要时激活保护系统的成功率)和可靠性(即，在不必要时不激活保护系统的成功率)被最大化，同时能够尽可能快地响应任何故障。

专家工程师通过预测与临近的保护设计任务相关的潜在事件(例如，故障和非故障，诸如涌流状况、开关操作等)来实现这一点，并且进行所选择的事件中的每个的数值模拟(例如，电磁瞬态的模拟、故障后稳态短路分析)，以识别所得到的信号，该信号将由保护继电器观察到，基于该信号，在现场运行(多个)保护功能。这允许针对所有所预测的事件限定和测试保护功能、逻辑和设置，以确保正确的决策。通常，这通过遵循由人类工程师调整的一组工程实践来执行。

如果该组常用保护功能不允许可接受的保护系统性能，则需要考虑新的保护功能。通常，这是困难的探索式任务。

CN110417351A公开了一种光伏系统DC侧电弧故障检测系统和检测方法。检测方法包括以下步骤：收集光伏系统DC侧处的交流信号，并提取频域中的信号特征；预判断信号；训练生成性对抗网络(GAN)模型；以及判断DC故障电弧并发送警报信息。为了降低误检率并提高检测系统的鲁棒性，将GAN引入到故障电弧的判断中。

发明内容

需要提供用于生成由工业自动化控制系统IACS(特别地，配电系统、输电系统或发电系统)的控制器执行的决策逻辑的改进的技术。特别地，需要用于决策逻辑的计算机实施的全自动或半自动生成的改进的技术。

根据本发明的实施例，提供了允许利用机器学习用于生成决策逻辑(例如，保护继电器的决策逻辑，但不限于此)的方法和系统。

实施例允许自动执行电力系统操作规划、控制和保护的开发。这些技术可应用于单独的控制器或应用于生成经协调的控制逻辑，其考虑了各种决策逻辑之间的相互作用。

计算系统可以自主地创建决策逻辑，其增强并可选地最大化符合规范的性能，包括执行系统模拟。可以模拟在现场操作中使用决策逻辑时可能出现的场景，其中场景中的至少一些是计算机生成的。对抗性逻辑可以被部署用于改进决策逻辑和用于生成。

所公开的技术允许在系统规范内的各种场景(甚至是在操作期间不经常出现的场景)下测试决策逻辑行为。这允许生成在现场操作中表现良好的决策逻辑，同时自动生成决策逻辑的过程还提供了关于其操作的鲁棒性的信息。

根据实施例的一种为工业自动化控制系统(IACS)的控制器生成决策逻辑的计算机实施的方法包括：迭代过程，该迭代过程包括多个迭代，该多个迭代分别包括自动生成决策逻辑的决策逻辑候选以及计算响应于场景的决策逻辑候选的性能，其中计算性能包括执行系统模拟；以及基于所计算的性能选择并输出决策逻辑候选中的至少一个。

控制器可以是用于电力系统保护或电力系统控制的控制器。

可以根据性能指标或多个性能指标来计算性能。

该方法还可以包括自动选择或自动创建场景中的至少部分。

可以执行场景创建逻辑来创建场景中的至少部分。

场景创建逻辑可以是机器学习模型。

场景创建逻辑可以以导致决策逻辑候选中的至少一个根据性能指标或多个性能指标表现不佳为目标进行学习。

在决策逻辑候选中的至少一个的参数被更新和/或具有不同机器学习模型架构的决策逻辑候选被系统模拟中的场景挑战时，场景创建逻辑可以迭代地学习。

场景创建逻辑可以是决策逻辑生成器的对抗性逻辑，其响应于模拟结果的性能评定来自动修改决策逻辑候选以生成另一决策逻辑候选。

场景创建逻辑和决策逻辑生成器可以是生成性对抗网络(GAN)。

场景创建逻辑可以被约束为仅生成IACS的系统规范内的场景。

该方法还可以包括存储导致具有第一机器学习模型架构的决策逻辑候选表现不佳的一个或多个场景。

对于任何决策逻辑候选，可以存储来自用于利用相应的决策逻辑候选执行系统模拟的一批场景中的导致决策逻辑候选表现出最差性能的场景或一批场景。

该方法还可以包括检索所存储的场景或各批场景，并且响应于所检索的场景，确定具有不同于第一机器学习模型架构的第二机器学习模型架构的至少一个另外的决策逻辑候选的性能。

例如，当决策逻辑架构已经改变时，可以循环地检索所存储的场景或各批场景。

该方法还可以包括自动选择或自动创建场景中的至少部分。

可以仅自动创建场景中的一部分。

可以从场景数据储存库中检索场景中的另一部分。场景数据储存库可以包括由专家指定的场景和/或历史场景。

替代地或附加地，可以从数据库中的具有挑战性的场景储存库中检索场景的另一部分，其存储先前已经被确定为导致决策逻辑候选中的至少一个表现不佳(例如，不满足性能质量标准)的场景。

场景提供模块可以自动输出为其执行模拟的一批有效场景。

场景提供模块可以自动确定哪些场景将被包括在该批有效场景中，并且可以将该批有效场景提供给模拟引擎。

场景提供模块可以动态调节该批有效场景。

场景提供模块可以响应于先前测试的决策逻辑候选的所计算的性能来动态调节该批有效场景。

随着新的决策逻辑候选被迭代地生成，场景提供模块可以不断地调节该批有效场景。

场景提供模块可以在生成决策逻辑的过程中不断调节该批有效场景。

场景提供模块可以将来自场景数据储存库的场景包括到该组有效场景中。

场景数据储存库中的场景可以包括用户限定的场景和/或历史场景。

场景提供模块可以调节该批有效场景使得，在该批有效场景中，在生成决策逻辑的迭代过程中，从场景数据储存库中获取的一部分场景减少，可选地单调减少。

从场景数据储存库中获取的该部分场景可以作为为生成决策逻辑执行的迭代过程的迭代的数量的函数而减少。

场景提供模块可以调节该批有效场景使得，在该批有效场景中，由场景创建逻辑生成的一部分场景在生成决策逻辑的迭代过程中增加，可选地单调增加。

由场景创建逻辑生成的该部分场景可以作为为生成决策逻辑执行的迭代过程的迭代的数量的函数而增加。

场景提供模块可以调节该批有效场景使得，在该批有效场景中，来自具有挑战性的场景储存库的场景被间歇地重新引入到该批有效场景中。将来自具有挑战性的场景储存库的场景重新引入该批有效场景可以由决策逻辑候选的机器学习模型架构的改变来触发。

场景创建逻辑可以输出限定场景的场景参数集。

场景参数集可以是有序参数集，例如M元组，其中M是大于1的整数。

场景创建逻辑可以将至少包括决策逻辑候选的描述的输入映射到场景参数集。

场景创建逻辑可以基于先前在系统模拟中使用的场景和为其计算的决策逻辑性能来学习。

可以完成场景创建逻辑的学习，以朝向场景创建逻辑实现收敛，其成功地挑战它作为输入接收的决策逻辑候选。

场景创建逻辑可以将独立于决策逻辑候选的输入映射到场景参数集。输入可以是静态的或可变的，例如随机的。

场景创建逻辑可以在生成决策逻辑的过程中不断更新。

生成决策逻辑候选可以包括训练一个或多个机器学习模型。

所生成的多个决策逻辑候选可以包括具有两个或更多不同机器学习模型架构的机器学习模型。

随着在生成决策逻辑的过程中生成新的决策逻辑候选，机器学习模型的复杂性(例如，节点和/或层的数量)可以增加。

可以执行渐进式神经架构搜索。

两个或多个不同的机器学习模型架构可以包括在多个节点和/或多个层上彼此不同的人工神经网络架构，但不限于此。

生成决策逻辑候选可以包括选择机器学习模型架构；训练具有机器学习模型架构的决策逻辑候选，直至满足第一终止标准，并存储经训练的决策逻辑候选的性能信息；如果不满足第二终止标准，则对具有不同机器学习模型架构的不同决策逻辑候选重复训练和存储步骤；如果满足第二终止标准，则基于所存储的性能信息选择并输出经训练的决策逻辑候选中的一个。

决策逻辑生成器可以生成多个决策逻辑候选，包括训练一个或多个机器学习模型。

决策逻辑生成器可以为IACS的单个控制器生成决策逻辑候选。

决策逻辑生成器可以生成用于由IACS的多个控制器执行的分布式控制的决策逻辑候选。

可以在决策逻辑生成器以生成在系统模拟中表现更好的决策逻辑候选为目标进行学习的同时，调节决策逻辑生成器的学习率。

决策逻辑生成器的学习率可以基于所计算的性能或计算的性能的变化率来动态调节。

决策逻辑生成器的学习率可以以非单调的方式动态调节。

学习率可以根据所计算的性能来管控由决策逻辑生成器调节的参数的变化率。

学习率可以响应于反馈信号管控人工神经网络(ANN)的权重的变化率。

学习率可以响应于取决于为先前由决策逻辑生成器生成的决策逻辑候选确定的性能的反馈信号管控ANN的权重的变化率。

学习率可以响应于取决于先前由决策逻辑生成器生成的候选决策逻辑的输出和监督学习中已知的正确输出的反馈信号管控ANN的权重的变化率。

决策逻辑生成器可以接收取决于所计算的性能的输入，并且可以基于该输入动态地调节学习率。

决策逻辑生成器可以使用梯度技术来更新人工神经网络的权重。

梯度技术可以是梯度下降技术。

梯度下降技术可以是随机梯度下降技术。

决策逻辑生成器可以执行嵌套搜索，该嵌套搜索具有内部循环和可选的外部循环，在该内部循环中，在不改变机器学习模型架构的情况下训练决策逻辑候选，在该外部循环中，架构被改变。

决策逻辑生成器可以确定作为基于试错搜索、基于模型的搜索、监督学习或强化学习的决策逻辑候选的机器学习模型的参数。

决策逻辑生成器可以确定限定作为基于试错搜索、基于模型的搜索、监督学习或强化学习的决策逻辑候选的机器学习模型的架构的超参数。

决策逻辑生成器可以包括架构监测器，其可操作用于响应于第一终止标准选择经修改的机器学习模型架构。

第一终止标准可以取决于在训练具有固定机器学习模型架构的决策逻辑候选时所计算的性能的变化。

第一终止标准可以取决于在训练具有固定机器学习模型架构的决策逻辑候选时所计算的性能在训练的迭代之间的变化的阈值比较。

替代地或附加地，第一终止标准可以取决于在训练决策逻辑候选时所计算的性能是否满足性能质量标准，例如，性能阈值标准。

替代地或附加地，第一终止标准可以取决于所生成的多个决策逻辑候选是否具有满足第一覆盖标准的机器学习模型架构。第一覆盖标准可以涉及阈值比较，并且可以指示例如已经达到可用于自动测试的一组机器学习模型架构的阈值百分比。第一覆盖标准可以响应于用户输入来设置，可以是固定的，或者可以基于所计算的性能来动态调节。

替代地或附加地，第一终止标准可以取决于场景是否满足第二覆盖标准。第二覆盖标准可以涉及第二阈值比较，并且可以指示例如模拟中使用的场景覆盖了系统规范内的场景参数空间的至少第二阈值百分比的区域。第二覆盖标准可以响应于用户输入来设置，可以是固定的，或者可以基于所计算的性能来动态调节。

架构监测器可以从一组预定义的机器学习模型架构中选择新的机器学习模型架构。

架构监测器可以通过迁移学习使用生成执行与要生成的决策逻辑相似或相同的功能的另一决策逻辑的过程的结果来选择新的机器学习模型架构。

架构监测器可以选择不同于先前已经执行训练的机器学习模型架构的新的机器学习模型架构。

架构监测器可以在超参数空间中执行搜索，以选择新的机器学习模型架构。

超参数空间可以包括限定形成新的机器学习模型架构的ANN的多个层和/或多个节点的超参数。

架构监测器可以选择与先前已经被训练的机器学习模型架构相同的机器学习模型架构，并且该方法可以包括执行系统模拟，并且基于同时被确定为导致其它机器学习模型架构表现不佳的场景来评估性能。

可以根据性能指标或多个性能指标来计算性能。

该方法还可以包括经由接口接收指定该性能指标或多个性能指标的输入。

该方法可以包括自动修改性能指标或多个性能指标。

计算性能可以包括组合为包括多个场景的一批场景的决策逻辑候选确定的至少一个性能指标的所计算的值。

组合所计算的值可以包括基于在IACS的现场操作期间场景在集合中的出现频率对所计算的值进行加权。

(多个)性能指标可以与决策逻辑的控制目标相同。

(多个)性能指标可以包括不同于(可选地独立于)决策逻辑的控制目标的至少一个指标。

该方法可以包括在生成决策逻辑的方法期间动态地改变(多个)性能指标。

(多个)性能指标可以是以下中的任何一个或任何组合：操作成本、未提供的能量、电力价格、系统稳定性、可用电力传输能力、选择性和可靠性、控制器稳定性，但不限于此。

输入可以限定一个或多个关键性能指示符KPI。

一个或多个KPI包括以下中的一个或多个：最小化电力的成本、增加电网电力传输极限、确保电网稳定性、最大化安全性和可靠性的保护目标、将电压和电流保持在限制内、最大化经济效益。

性能指标可以基于由系统模拟中的决策逻辑采取的动作和已知正确的动作之间的所计算的偏差。

偏差可以根据标准来计算。

已知正确的动作可以由专家输入(例如，在监督学习中)来限定，或者可以从历史数据中导出。

执行系统模拟可以包括模拟电力系统的主和/或次设备的行为。

电力系统可以是发电系统、输电系统或配电系统。

执行系统模拟可以包括以下中的一个或多个：功率流模拟、短路计算、电磁暂态计算、最优功率流计算、机组组合分析。

系统模拟可以是或可以包括以下中的任意一个或任意组合：最优功率流(OPF)分析、(多个)模拟干扰、执行短路分析、执行电力市场清算模拟，但不限于此。

可以在时域和/或频域中模拟(多个)干扰。

可以模拟(多个)干扰以评定决策逻辑和/或包括决策逻辑的系统的稳定性。

短路分析可以包括计算由保护继电器使用的信号。

执行电力市场清算模拟可以包括提供节点电力价格。

场景创建逻辑和/或决策逻辑生成器可以是完全数据驱动的。

场景提供模块和/或决策逻辑生成器可以是仅部分数据驱动的。

场景提供模块可以可操作用于通过系统模拟生成场景，其中系统模拟可以利用系统模拟参数来参数化，并且可以确定系统模拟参数的值，使得它们导致(多个)决策逻辑候选表现不佳。

替代地或附加地，诸如决策代理的决策逻辑候选可以是基于模型的具有利用决策逻辑参数进行的参数化，其中确定决策逻辑参数的值以改善(多个)决策逻辑候选的性能。

该方法可以由一个或多个集成电路来执行，该一个或多个集成电路执行：决策逻辑生成器，该决策逻辑生成器生成多个不同的决策逻辑候选并输出多个不同的决策逻辑候选中的决策逻辑候选；场景提供模块，该场景提供模块输出一批有效场景；以及模拟引擎，该模拟引擎耦合到决策逻辑生成器和场景提供模块，并且可操作用于为该批有效场景中包括的场景执行系统模拟。

一个或多个集成电路还可操作用于执行性能评定器，该性能评定器可操作用于为该批有效场景中包括的场景计算多个不同决策逻辑候选的性能。

一个或多个集成电路还可操作用于执行协调器，该协调器可操作用于协调决策逻辑生成器和场景提供模块的操作。

协调器可操作用于响应于计算性能的性能评定器的输出来协调决策逻辑生成器和场景提供模块的操作。

协调器可操作用于控制决策逻辑生成器和场景创建模块的对抗性机器学习模型。

协调器可以控制对抗性机器学习模型的训练。

协调器可以控制决策逻辑生成器和/或场景创建逻辑的训练何时终止。

协调器可以根据性能已经被评估的决策逻辑候选的数量阻止决策逻辑生成器和/或场景创建模块的训练的终止。

协调器可以根据性能已经被评估的决策逻辑候选的数量的阈值比较来防止决策逻辑生成器和/或场景创建逻辑的训练的终止。如果性能已经被评估的决策逻辑候选的数量小于阈值，则可以继续训练。替代地或附加地，如果性能已经被评估的决策逻辑候选没有充分覆盖参数空间或超参数空间中的至少一组不同区，则可以继续训练。

替代地或附加地，协调器可以根据已经由场景创建模块生成的场景防止决策逻辑生成器和/或场景创建模块的训练的终止。

协调器可以根据已经执行系统模拟的场景的数量的阈值比较来防止决策逻辑生成器和/或场景创建逻辑的训练的终止。如果已经执行系统模拟的场景的数量小于阈值，则可以继续训练。替代地或附加地，如果已经执行系统模拟的场景没有充分覆盖场景空间中的至少一组不同区，则可以继续训练。

协调器可以可操作用于终止生成决策逻辑的过程。

当达到平衡时，协调器可以可操作用于终止生成决策逻辑的过程。

替代地或附加地，协调器可操作用于当基于例如关于机器学习中执行的迭代的数量的超时标准和/或迭代阈值标准没有达到平衡时，终止生成决策逻辑的过程。

为了确保决策逻辑的生成不会过早停滞，协调器可操作用于执行以下中的任何一个或任何组合：控制决策逻辑生成器的学习率；不断更新场景提供模块的合并策略；减速、加速和/或冻结新的决策逻辑候选或新场景的生成；选择性地改变性能指标；重新引导决策逻辑生成器或场景创建逻辑的训练过程以防止停滞。

为了终止生成决策逻辑的过程，协调器可以可操作用于确定是否满足以下条件中的任何一个或任何组合：所确定的性能满足性能阈值；所确定的性能没有改善或者所确定的性能的改善率低于率阈值；充分探索限定可能的决策逻辑候选的参数和/或超参数空间；充分探索限定可能场景的参数空间。

如果确定决策逻辑候选具有良好的性能(例如，如果所确定的性能满足性能阈值标准)，则协调器可以可操作用于降低决策逻辑生成器的学习率，可选地冻结决策逻辑候选。协调器可以允许场景提供模块继续输出为其执行模拟的新的有效场景批次，以便继续测试被确定为具有良好性能的决策逻辑候选。替代地或附加地，协调器可以控制场景提供模块来调节，特别地增加，该有效批场景中由场景创建逻辑创建的一部分机器生成场景。

替代地或附加地，如果针对一批场景确定的性能导致决策逻辑候选表现不佳(例如，如果所确定的性能不满足第二性能阈值标准)，则协调器可以可操作用于使决策逻辑生成器的学习率增加。

替代地或附加地，如果针对一批场景确定的性能导致决策逻辑候选表现不佳(例如，如果所确定的性能不满足第二性能阈值标准)，则协调器可以可操作用于使场景创建逻辑的学习率降低，可选地冻结当前场景创建逻辑。场景创建逻辑的学习率可以保持冻结和/或降低，直至决策生成逻辑的继续学习导致相对于由场景创建逻辑创建的场景表现出良好性能(例如，具有满足性能阈值标准的性能)的决策逻辑候选。

替代地或附加地，协调器可以可操作用于使先前已经被确定为导致决策逻辑候选表现不佳的场景被重新引入，特别地循环地引入，到该批有效场景中。协调器可以可操作用于根据决策逻辑候选的相似性指标来触发先前确定的具有挑战性的场景的这种重新引入。假设相似性指标显示第一决策逻辑候选和第二决策逻辑候选足够不同(例如，如果相似性指标具有超过逻辑指标阈值的值)，则被发现对第一决策逻辑候选具有挑战性的场景可以被重新引入到该批有效场景中用于为第二决策逻辑候选执行系统模拟。

替代地或附加地，协调器可以可操作用于平衡探索(例如，可用于决策逻辑候选的场景空间和/或参数和/或超参数空间的探索)和可用资源(例如，计算时间、硬件资源)的利用。

替代地或附加地，协调器可以监控决策逻辑生成器和场景创建逻辑的改进率。基于对决策逻辑生成器和场景创建逻辑的改进率的比较，协调器可以可选地通过冻结决策逻辑生成器或场景创建逻辑来使决策逻辑生成器或场景创建逻辑的学习率降低。如果场景创建逻辑显示出较低的改进率，则协调器可以使决策逻辑生成器的学习率降低。如果场景创建逻辑显示出较低的改进率，则协调器可以使场景创建逻辑的学习率降低。

生成过程的结果可以存储在存储装置中。

存储装置中的每个条目可以包括关于对其执行系统模拟的(多个)场景的信息、关于对其执行系统模拟的决策逻辑候选的信息(包括关于其参数的信息、以及在适用的情况下关于其架构的信息)以及性能指标的相应值。

决策逻辑生成器的架构(例如，ANN的多个层和/或节点)可以由存储在存储装置中的信息来限定，用于为另一控制器生成另一决策逻辑的过程。为了生成决策逻辑，可以确定具有由存储在数据库中的信息限定的架构的决策逻辑生成器的参数，同时保持架构固定。

替代地或附加地，场景创建逻辑的架构(例如，ANN的多个层和/或节点)可以由存储在存储装置中的信息来限定，用于为另一控制器生成另一决策逻辑的过程。为了生成决策逻辑，可以确定具有由存储在数据库中的信息限定的架构的场景创建逻辑的参数，同时保持架构固定。

该方法可以包括使用迁移学习，包括基于存储在数据库中的架构确定决策逻辑候选的架构，用于为另一控制器生成另一决策逻辑的过程。

如果控制器和另一控制器具有相似或相同的功能(诸如过电流保护)并且用于相似或相同的系统拓扑中，则可以选择性地使用迁移学习。

该方法还可以包括将所生成的决策逻辑部署到IACS的控制器，特别地电力系统的控制器。

控制器可以是用于电力系统操作的控制器。

控制器可以是用于电力系统控制的控制器。

控制器可以是保护继电器。

该方法可以包括由控制器执行所选择的决策逻辑。

决策逻辑可以是保护逻辑。

决策逻辑可以是距离保护逻辑。

该方法还可以包括响应于由控制器执行的所选择的决策逻辑的被监控的现场行为，自动修改决策逻辑。

一种用于为工业自动化控制系统IACS的控制器，特别地用于电力系统保护或电力系统控制的控制器，生成决策逻辑的计算系统，包括：一个或多个集成电路，该一个或多个集成电路可操作用于执行包括多个迭代的迭代过程，该多个迭代分别包括自动生成决策逻辑的决策逻辑候选和计算响应于场景的决策逻辑候选的性能，其中计算性能包括执行系统模拟，并基于所计算的性能的结果选择决策逻辑候选中的至少一个；以及输出接口，该输出接口用于输出所选择的至少一个决策逻辑。

计算系统可以可操作用于为用于电力系统保护或电力系统控制的控制器生成决策逻辑。

计算系统可以可操作用于根据性能指标或多个性能指标来计算性能。

计算系统可以可操作用于自动选择或自动创建场景中的至少部分。

计算系统可以可操作用于执行场景创建逻辑来创建场景中的至少部分。

场景创建逻辑可以是机器学习模型。

场景创建逻辑可以被约束为仅生成IACS的系统规范内的场景。

计算系统可以可操作用于使导致具有第一机器学习模型架构的决策逻辑候选表现不佳的一个或多个场景被存储。

计算系统可以可操作用于使对于任何决策逻辑候选，可以存储来自用于利用相应的决策逻辑候选执行系统模拟的一批场景之中导致决策逻辑候选表现出最差性能的场景或一批场景。

计算系统可以可操作用于检索所存储的场景或各批场景，并且响应于所检索的场景，确定具有不同于第一机器学习模型架构的第二机器学习模型架构的至少一个另外的决策逻辑候选的性能。

例如，当决策逻辑架构已经改变时，计算系统可以可操作用于循环检索所存储的场景或各批场景。

计算系统可以可操作用于使得只有场景中的一部分被自动创建。

计算系统可以可操作用于从场景数据储存库中检索场景的另一部分。场景数据储存库可以包括由专家指定的场景和/或历史场景。

替代地或附加地，计算系统可以可操作用于从数据库中的具有挑战性的场景储存库中检索场景的另一部分，该数据库存储先前已经被确定为导致决策逻辑候选中的至少一个表现不佳(例如，不满足性能质量标准)的场景。

计算系统可以可操作用于执行场景提供模块，该场景提供模块可操作用于自动输出为其执行模拟的一批有效场景。

场景提供模块可以可操作用于自动确定哪些场景将被包括在该批有效场景中，并且可以将该批有效场景提供给模拟引擎。

场景提供模块可以可操作用于动态调节该批有效场景。

场景提供模块可以可操作用于响应于先前测试的决策逻辑候选的所计算的性能来动态调节该批有效场景。

场景提供模块可操作用于随着新的决策逻辑候选被迭代地生成而不断调节该批有效场景。

场景提供模块可以可操作用于在生成决策逻辑的过程中不断调节该批有效场景。

场景提供模块可以可操作用于调节该批有效场景，使得在该批有效场景中，在生成决策逻辑的迭代过程中，从场景数据储存库中获取的一部分场景减少，可选地单调减少。

计算系统可以可操作用于使得从场景数据储存库中获取的该部分场景可以作为为生成决策逻辑执行的迭代过程的迭代的数量的函数而减少。

场景提供模块可以可操作用于调节该批有效场景，使得在该批有效场景中，由场景创建逻辑生成的一部分场景在生成决策逻辑的迭代过程中增加，可选地单调增加。

计算系统可以可操作用于使得由场景创建逻辑生成的该部分场景可以作为为生成决策逻辑执行的迭代过程的迭代的数量的函数而增加。

场景提供模块可以可操作用于调节该批有效场景，使得在该批有效场景中，来自具有挑战性的场景储存库的场景被间歇地重新引入到该批有效场景中。将来自具有挑战性的场景储存库的场景重新引入该批有效场景可以由决策逻辑候选的机器学习模型架构的改变来触发。

场景创建逻辑可以可操作用于输出限定场景的场景参数集。

场景创建逻辑可以可操作用于将至少包括决策逻辑候选的描述的输入映射到场景参数集。

场景创建逻辑可以可操作用于基于先前在系统模拟中使用的场景和为其计算的决策逻辑性能来学习。

计算系统可以可操作用于实施场景创建逻辑的学习，以朝向场景创建逻辑实现收敛，其成功地挑战它作为输入接收的决策逻辑候选。

场景创建逻辑可以可操作用于将独立于决策逻辑候选的输入映射到场景参数集。输入可以是静态的或可变的，例如随机的。

场景创建逻辑可以可操作用于在生成决策逻辑的过程中不断更新。

生成决策逻辑候选可以包括训练一个或多个机器学习模型。

计算系统可以可操作用于使得随着在生成决策逻辑的过程中生成新的决策逻辑候选，机器学习模型的复杂性(例如，节点和/或层的数量)增加。

计算系统可以可操作用于执行渐进式神经架构搜索，以增加作为决策逻辑候选工作的机器学习模型的复杂性。

计算系统可以可操作用于使得生成决策逻辑候选可以包括选择机器学习模型架构；训练具有机器学习模型架构的决策逻辑候选，直至满足第一终止标准，并存储经训练的决策逻辑候选的性能信息；如果不满足第二终止标准，则对具有不同机器学习模型架构的不同决策逻辑候选重复训练和存储步骤；如果满足第二终止标准，则基于所存储的性能信息选择并输出经训练的决策逻辑候选中的一个。

计算系统可以可操作用于执行决策逻辑生成器，该决策逻辑生成器可以可操作用于生成多个决策逻辑候选，包括训练一个或多个机器学习模型。

决策逻辑生成器可以可操作用于为IACS的单个控制器生成决策逻辑候选。

决策逻辑生成器可以可操作用于生成用于由IACS的多个控制器执行的分布式控制的决策逻辑候选。

计算系统可以可操作用于在决策逻辑生成器以生成在系统模拟中表现更好的决策逻辑候选为目标进行学习的同时调节决策逻辑生成器的学习率。

计算系统可以可操作用于基于所计算的性能或所计算的性能的变化率来动态调节决策逻辑生成器的学习率。

计算系统可以可操作用于以非单调的方式动态调节决策逻辑生成器的学习率。

计算系统可以可操作用于使得学习率根据所计算的性能来管控由决策逻辑生成器调节的参数的变化率。

计算系统可以可操作用于使得学习率响应于反馈信号来管控人工神经网络(ANN)的权重的变化率。

计算系统可以可操作用于使得学习率响应于取决于为先前由决策逻辑生成器生成的决策逻辑候选确定的性能的反馈信号管控ANN的权重的变化率。

计算系统可以可操作用于使得学习率响应于取决于先前由决策逻辑生成器生成的候选决策逻辑的输出和监督学习中已知的正确输出的反馈信号管控ANN的权重的变化率。

决策逻辑生成器可以可操作用于接收取决于所计算的性能的输入，并且可以基于该输入动态地调节学习率。

决策逻辑生成器可以可操作用于使用梯度技术来更新人工神经网络的权重。

梯度技术可以是梯度下降技术。

梯度下降技术可以是随机梯度下降技术。

决策逻辑生成器可以可操作用于执行嵌套搜索，该嵌套搜索具有内部循环和可选的外部循环，在该内部循环中，在不改变机器学习模型架构的情况下训练决策逻辑候选，在该外部循环中，架构被改变。

决策逻辑生成器可以可操作用于确定作为基于试错搜索、基于模型的搜索、监督学习或强化学习的决策逻辑候选的机器学习模型的参数。

决策逻辑生成器可以可操作用于确定限定作为基于试错搜索、基于模型的搜索、监督学习或强化学习的决策逻辑候选的机器学习模型的架构的超参数。

替代地或附加地，第一终止标准可以取决于在训练决策逻辑候选时所计算的性能是否满足性能质量标准，例如性能阈值标准。

替代地或附加地，第一终止标准可以取决于场景是否满足第二覆盖标准。第二覆盖标准可以涉及第二阈值比较，并且可以指示例如模拟中使用的场景覆盖了至少系统规范内的场景参数空间的第二阈值百分比的区域。第二覆盖标准可以响应于用户输入来设置，可以是固定的，或者可以基于所计算的性能来动态调节。

架构监测器可以可操作用于从一组预定义的机器学习模型架构中选择新的机器学习模型架构。

架构监测器可以可操作用于通过迁移学习使用生成执行与要生成的决策逻辑相似或相同的功能的另一决策逻辑的过程的结果来选择新的机器学习模型架构。

架构监测器可以可操作用于选择不同于先前已经执行训练的机器学习模型架构的新的机器学习模型架构。

架构监测器可以可操作用于在超参数空间中执行搜索，以选择新的机器学习模型架构。

架构监测器可以可操作用于选择与先前已经被训练的机器学习模型架构相同的机器学习模型架构，并且执行系统模拟并基于同时被确定为导致其它机器学习模型架构表现不佳的场景来评估性能。

计算系统可以可操作用于经由接口接收指定性能指标或多个性能指标的输入。

计算系统可以可操作用于自动修改性能指标或多个性能指标。

计算系统可以可操作用于通过组合为包括多个场景的一批场景的决策逻辑候选确定的至少一个性能指标的所计算的值来计算性能。

(多个)性能指标可以与决策逻辑的控制目标相同。

计算系统可以可操作用于在生成决策逻辑期间动态地改变(多个)性能指标。

输入可以限定一个或多个关键性能指示符KPI。

计算系统可以可操作用于根据标准计算偏差。

计算系统可以可操作用于接收限定通过专家输入(例如，在监督学习中)已知正确的动作的用户输入。

计算系统可以可操作用于从历史数据中导出已知正确的动作。

计算系统可以可操作用于在系统模拟中模拟电力系统的主和/或次设备的行为。

电力系统可以是发电系统、输电系统或配电系统。

计算系统可以可操作用于使得执行系统模拟可以包括以下中的一个或多个：功率流模拟、短路计算、电磁暂态计算、最优功率流计算、机组组合分析。

可以在时域和/或频域中模拟(多个)干扰。

短路分析可以包括计算由保护继电器使用的信号。

执行电力市场清算模拟可以包括提供节点电力价格。

计算系统可以可操作用于使得场景创建逻辑和/或决策逻辑生成器可以是完全数据驱动的。

计算系统可以可操作用于使得场景提供模块和/或决策逻辑生成器可以是仅部分数据驱动的。

计算系统可以可操作用于使得场景提供模块可以可操作用于通过系统模拟生成场景，其中系统模拟可以利用系统模拟参数来参数化，并且可以确定系统模拟参数的值，使得它们导致(多个)决策逻辑候选表现不佳。

替代地或附加地，计算系统可以可操作用于使得诸如决策代理的决策逻辑候选可以是基于模型的具有利用决策逻辑参数进行的参数化，其中决策逻辑参数的值被确定以改善(多个)决策逻辑候选的性能。

计算系统可以执行：决策逻辑生成器，该决策逻辑生成器生成多个不同的决策逻辑候选并输出多个不同的决策逻辑候选中的决策逻辑候选；场景提供模块，该场景提供模块输出一批有效场景；以及模拟引擎，该模拟引擎耦合到决策逻辑生成器和场景提供模块并且可操作用于为该批有效场景中包括的场景执行系统模拟。

协调器可以可操作用于控制对抗性机器学习模型的训练。

协调器可以可操作用于控制决策逻辑生成器和/或场景创建逻辑的训练何时终止。

协调器可以可操作用于根据性能已经被评估的决策逻辑候选的数量阻止决策逻辑生成器和/或场景创建模块的训练的终止。

协调器可以可操作用于根据性能已经被评估的决策逻辑候选的数量的阈值比较来防止决策逻辑生成器和/或场景创建逻辑的训练的终止。如果性能已经被评估的决策逻辑候选的数量小于阈值，则可以继续训练。替代地或附加地，如果性能已经被评估的决策逻辑候选没有充分覆盖参数空间或超参数空间中的至少一组不同区，则可以继续训练。

替代地或附加地，协调器可以可操作用于根据已经由场景创建模块生成的场景防止决策逻辑生成器和/或场景创建模块的训练的终止。

协调器可以可操作用于根据已经执行系统模拟的场景的数量的阈值比较来防止决策逻辑生成器和/或场景创建逻辑的训练的终止。如果已经执行系统模拟的场景的数量小于阈值，则可以继续训练。替代地或附加地，如果已经执行系统模拟的场景没有充分覆盖场景空间中的至少一组不同区，则可以继续训练。

协调器可以可操作用于终止生成决策逻辑的过程。

为了确保决策逻辑的生成不会过早停滞，协调器可操作用于执行以下中的任何一个或任何组合：控制决策逻辑生成器的学习率；继续更新场景提供模块的合并策略；减速、加速和/或冻结新的决策逻辑候选或新场景的生成；选择性地改变性能指标；重新引导决策逻辑生成器或场景创建逻辑的训练过程以防止停滞。

替代地或附加地，如果针对一批场景确定的性能导致决策逻辑候选表现不佳(例如，如果所确定的性能不满足第二性能阈值标准)，则协调器可以可操作用于使得场景创建逻辑的学习率降低，可选地冻结当前场景创建逻辑。场景创建逻辑的学习率可以保持冻结和/或降低，直至决策生成逻辑的继续学习导致相对于由场景创建逻辑创建的场景表现出良好性能(例如，具有满足性能阈值标准的性能)的决策逻辑候选。

替代地或附加地，协调器可以可操作用于使得先前已经被确定为导致决策逻辑候选表现不佳的场景被重新引入，特别地循环地引入，到该批有效场景中。协调器可以可操作用于根据决策逻辑候选的相似性指标来触发先前确定的具有挑战性的场景的这种重新引入。假设相似性指标显示第一决策逻辑候选和第二决策逻辑候选足够不同(例如，如果相似性指标具有超过逻辑指标阈值的值)，则被发现对第一决策逻辑候选具有挑战性的场景可以被重新引入到该批有效场景中用于为第二决策逻辑候选执行系统模拟。

替代地或附加地，协调器可以可操作用于监控决策逻辑生成器和场景创建逻辑的改进率。基于对决策逻辑生成器和场景创建逻辑的改进率的比较，协调器可以可选地通过冻结决策逻辑生成器或场景创建逻辑来使决策逻辑生成器或场景创建逻辑的学习率降低。如果场景创建逻辑显示较低的改进率，则协调器可以可操作用于使决策逻辑生成器的学习率降低。如果场景创建逻辑显示较低的改进率，则协调器可以使场景创建逻辑的学习率降低。

计算系统可以可操作用于将生成过程的结果存储在存储装置中。

计算系统可以可操作用于使得存储装置中的每个条目可以包括关于对其执行系统模拟的(多个)场景的信息、关于对其执行系统模拟的决策逻辑候选的信息(包括关于其参数的信息、以及在适用的情况下关于其架构的信息)以及性能指标的相应值。

计算系统可以可操作用于使用迁移学习，包括基于存储在数据库中的架构确定决策逻辑候选的架构，用于为另一控制器生成另一决策逻辑的过程。

如果控制器和另一控制器具有相似或相同的功能(诸如过电流保护)并且用于相似或相同的系统拓扑中，则计算系统可以可操作用于选择性地使用迁移学习。

计算系统可以可操作用于将所生成的决策逻辑部署到IACS的控制器，特别地电力系统的控制器。

控制器可以是用于电力系统操作的控制器。

控制器可以是用于电力系统控制的控制器。

控制器可以是保护继电器。

该方法可以包括由控制器执行所选择的决策逻辑。

决策逻辑可以是保护逻辑。

决策逻辑可以是距离保护逻辑。

根据另一实施例，提供了可操作用于执行所生成的决策逻辑的控制器。

根据另一实施例，提供了一种电力系统，该电力系统包括可操作用于执行所生成的决策逻辑的控制器。

根据另一实施例的一种为工业自动化控制系统(IACS)的控制器生成决策逻辑的计算机实施的方法包括：执行生成性对抗网络GAN，该生成性对抗网络生成(i)决策逻辑候选和(ii)决策逻辑候选的场景；以及基于决策逻辑候选在针对所生成的场景的系统模拟中的性能，选择并输出决策逻辑候选中的一个。

GAN可以提供彼此是对抗性的的两个逻辑，即场景创建逻辑和决策逻辑生成器。场景创建逻辑和决策逻辑生成器可以以表现超过另一对抗性逻辑为目标进行学习。

场景创建逻辑可以创建至少对其执行系统模拟的一部分场景。

决策逻辑生成器可以在生成决策逻辑的过程中确定参数，或者可选地确定决策逻辑候选的架构和参数两者。

控制器可以是电力操作系统的或电力保护系统的控制器。

可以在系统模拟中针对决策逻辑候选确定性能，这些系统模拟在所生成的场景中模拟系统的系统行为，但是也可以在从场景数据储存库中检索的其它场景中模拟系统的系统行为。场景数据储存库可以包括由专家指定的场景和/或历史场景。

对其执行模拟的一批有效场景可以被自动确定并输出到模拟引擎。

该批有效场景可以被动态调节。

可以响应于先前测试的决策逻辑候选的所计算的性能来调节该批有效场景。

随着新的决策逻辑候选被迭代地生成，该批有效场景可以被不断地调节。

可以动态调节该批有效场景，使得在该批有效场景中，从场景数据储存库中获取的一部分场景减少，可选地单调减少。

可以动态调节该批有效场景，使得在该批有效场景中，在生成决策逻辑的迭代过程中，由GAN生成的一部分场景增加，可选地单调增加。

由GAN生成的该部分场景可以作为生成决策逻辑执行的迭代过程的迭代的数量的函数而增加。

可以动态调节该批有效场景，使得在该批有效场景中，来自具有挑战性的场景储存库的场景被间歇地重新引入到该批有效场景中。将来自具有挑战性的场景储存库的场景重新引入到该批有效场景可以由决策逻辑候选的机器学习模型架构的改变来触发。

GAN可以包括场景创建逻辑，该场景创建逻辑可以输出限定场景的场景参数集。

场景创建逻辑可以在生成决策逻辑的过程中不断更新。

决策逻辑生成器可以生成可能具有两个或更多个不同架构的多个决策逻辑候选。

随着在生成决策逻辑的过程中生成新的决策逻辑候选，机器学习模型的复杂性(例如，节点和/或层的数量)可能增加。

可以执行渐进式神经架构搜索，以生成具有增加的复杂性的决策逻辑候选。

决策逻辑生成器可以为IACS的单个控制器生成决策逻辑候选。

决策逻辑生成器的学习率可以以非单调的方式动态调节。

学习率可以响应于反馈信号管控ANN的权重的变化率。

梯度技术可以是梯度下降技术。

梯度下降技术可以是随机梯度下降技术。

决策逻辑生成器可以可操作用于响应于第一终止标准来选择修改的机器学习模型架构。

决策逻辑生成器可以从一组预定义的机器学习模型架构中选择新的机器学习模型架构。

决策逻辑生成器可以通过迁移学习使用生成执行与要生成的决策逻辑相似或相同的功能的另一决策逻辑的过程的结果来选择新的机器学习模型架构。

决策逻辑生成器可以选择不同于先前已经执行训练的机器学习模型架构的新的机器学习模型架构。

决策逻辑生成器可以在超参数空间中执行搜索，以选择新的机器学习模型架构。

决策逻辑生成器可以选择与先前已经被训练的机器学习模型架构相同的机器学习模型架构，并且该方法可以包括执行系统模拟，并且基于同时被确定为导致其它机器学习模型架构表现不佳的场景来评估性能。

可以根据性能指标或多个性能指标来计算性能。

该方法可以包括自动修改性能指标或多个性能指标。

(多个)性能指标可以与决策逻辑的控制目标相同。

输入可以限定一个或多个关键性能指示符KPI。

偏差可以根据标准来计算。

系统模拟可以包括模拟电力系统的主和/或次设备的行为。

电力系统可以是发电系统、输电系统或配电系统。

系统模拟可以包括以下中的一个或多个：功率流模拟、短路计算、电磁暂态计算、最优功率流计算、机组组合分析。

可以在时域和/或频域中模拟(多个)干扰。

短路分析可以包括计算由保护继电器使用的信号。

执行电力市场清算模拟可以包括提供节点电力价格。

控制器可以是用于电力系统操作的控制器。

控制器可以是用于电力系统控制的控制器。

控制器可以是保护继电器。

该方法可以包括由控制器执行所选择的决策逻辑。

决策逻辑可以是保护逻辑。

决策逻辑可以是距离保护逻辑。

根据另一实施例的用于为工业自动化控制系统(IACS)的控制器生成决策逻辑的计算系统包括一个或多个集成电路，该一个或多个集成电路可操作用于：执行生成性对抗网络GAN，其生成(i)决策逻辑候选和(ii)决策逻辑候选的场景；以及基于针对所生成的场景的决策逻辑候选在系统模拟中的性能，选择并输出决策逻辑候选中的至少一个。

计算系统可以可操作用于执行根据任何实施例的方法。

根据另一实施例，提供了机器可读指令代码，其在由至少一个集成电路执行时，使得计算系统执行根据实施例的方法。

根据实施例的一种为工业自动化控制系统(IACS)的控制器生成决策逻辑的计算机实施的方法包括：执行迭代过程，在该迭代过程中，响应于系统模拟的结果，至少一个决策逻辑候选被迭代地修改，其中该迭代过程包括确定导致决策逻辑候选中的至少一些表现不佳的具有挑战性的场景；以及选择并输出决策逻辑候选中的一个作为控制器的决策逻辑。

确定具有挑战性的场景可以包括确定至少一个决策逻辑候选的性能。

控制器可以是电力操作系统或电力保护系统的控制器。

可以在系统模拟中针对决策逻辑候选确定性能，该系统模拟在一批有效场景中模拟系统的系统行为。

该批次中的场景中的一部分可以由场景创建逻辑自动创建。

具有挑战性的场景可以存储在具有挑战性的场景储存库中。

场景提供模块可以自动输出为其执行模拟的一批有效场景。

场景提供模块可以动态调节该批有效场景。

随着决策逻辑候选被迭代地修改，场景提供模块可以不断调节该批有效场景。

场景提供模块可以调节该批有效场景，使得在该批有效场景中，在生成决策逻辑的迭代过程中，从场景数据储存库中获取的一部分场景减少，可选地单调减少。

场景提供模块可以调节该批有效场景，使得在该批有效场景中，由场景创建逻辑生成的一部分场景在生成决策逻辑的迭代过程中增加，可选地单调增加。

场景提供模块可以调节该批有效场景，使得所确定的具有挑战性的场景中的至少一些被循环地重新引入到该批有效场景中。

将具有挑战性的场景重新引入到该批有效场景可以由决策逻辑候选的机器学习模型架构的改变来触发。

场景创建逻辑可以输出限定场景的场景参数集。

在生成决策逻辑的过程中，可以不断修改场景创建逻辑。

可以改变场景创建逻辑的学习率。

场景创建逻辑的学习率可以响应于系统模拟中至少一个候选决策逻辑的性能和/或系统模拟中至少一个候选决策逻辑的性能的变化而自动改变。

可以通过改变参数和/或架构来修改至少一个决策逻辑候选。

修改至少一个决策逻辑候选可以由决策逻辑生成器自动执行，该决策逻辑生成器可以具有本文公开的功能中的任何一种。

可以根据性能指标或多个性能指标来计算性能。

该方法可以包括自动修改性能指标或多个性能指标。

(多个)性能指标可以与决策逻辑的控制目标相同。

输入可以限定一个或多个关键性能指示符KPI。

偏差可以根据标准来计算。

电力系统可以是发电系统、输电系统或配电系统。

可以在时域和/或频域中模拟(多个)干扰。

短路分析可以包括计算由保护继电器使用的信号。

执行电力市场清算模拟可以包括提供节点电力价格。

控制器可以是用于电力系统操作的控制器。

控制器可以是用于电力系统控制的控制器。

控制器可以是保护继电器。

该方法可以包括由控制器执行所选择的决策逻辑。

决策逻辑可以是保护逻辑。

决策逻辑可以是距离保护逻辑。

根据另一实施例的一种用于为工业自动化控制系统(IACS)的控制器生成决策逻辑的计算系统包括一个或多个集成电路，该一个或多个集成电路可操作用于：执行迭代过程，在该迭代过程中，响应于系统模拟的结果，至少一个决策逻辑候选被迭代地修改，其中该迭代过程包括确定导致决策逻辑候选中的至少一些表现不佳的具有挑战性的场景；以及选择并输出决策逻辑候选中的至少一个作为控制器的决策逻辑。

计算系统可以可操作用于执行根据任何实施例的方法。

根据另一实施例，提供了机器可读指令代码，该机器可读指令代码在由至少一个集成电路执行时，使得计算系统执行根据实施例的方法。

根据实施例的一种为工业自动化控制系统(IACS)的控制器生成决策逻辑的计算机实施的方法包括：执行决策逻辑生成器以自动生成决策逻辑的多个决策逻辑候选；通过对多个场景执行系统模拟来计算多个不同决策逻辑候选的性能；控制决策逻辑生成器和/或多个场景的场景提供模块；并且基于所计算的性能选择和输出决策逻辑候选中的至少一个。

该方法还可以包括由场景提供模块的场景创建逻辑生成多个场景的至少部分。

场景创建逻辑和决策逻辑生成器可以由GAN实施。

控制决策逻辑生成器和/或场景提供模块可以包括控制决策逻辑生成器和场景创建模块的对抗性机器学习模型。

控制决策逻辑生成器和/或场景提供模块可以包括控制决策逻辑生成器的学习率和/或控制场景提供模块的场景创建逻辑的学习率。

可以执行协调器来控制决策逻辑生成器和/或场景提供模块。

协调器可以可操作用于终止生成决策逻辑的过程。

场景创建逻辑和/或决策逻辑生成器可以如本文公开的其它实施例中的任何一个中所描述的那样实施。

(多个)性能指标可以与决策逻辑的控制目标相同。

输入可以限定一个或多个关键性能指示符KPI。

偏差可以根据标准来计算。

电力系统可以是发电系统、输电系统或配电系统。

可以在时域和/或频域中模拟(多个)干扰。

短路分析可以包括计算由保护继电器使用的信号。

执行电力市场清算模拟可以包括提供节点电力价格。

控制器可以是用于电力系统操作的控制器。

控制器可以是用于电力系统控制的控制器。

控制器可以是保护继电器。

该方法可以包括由控制器执行所选择的决策逻辑。

决策逻辑可以是保护逻辑。

决策逻辑可以是距离保护逻辑。

根据另一实施例的一种用于为工业自动化控制系统(IACS)的控制器生成决策逻辑的计算系统包括一个或多个集成电路，该一个或多个集成电路可操作用于：执行决策逻辑生成器以自动生成决策逻辑的多个决策逻辑候选；通过对多个场景执行系统模拟来计算多个不同决策逻辑候选的性能；控制决策逻辑生成器和/或多个场景的场景提供模块；并且基于所计算的性能选择和输出决策逻辑候选中的至少一个。

根据实施例的一种为工业自动化控制系统(IACS)的控制器生成决策逻辑的计算机实施的方法包括：训练决策逻辑候选，该决策逻辑候选是ANN，包括计算该决策逻辑候选在系统模拟中针对多个场景的性能；改变ANN的架构以生成另外的决策逻辑候选；训练另外的决策逻辑候选，包括计算另外的决策逻辑候选在系统模拟中针对多个场景的性能；以及基于所计算的性能选择并输出决策逻辑候选中的至少一个。

改变架构、训练另外的决策逻辑候选和计算另外的决策逻辑候选的性能的步骤可以迭代重复，直至满足终止标准。

改变架构可以包括改变ANN的层的数量和/或节点的数量。

改变架构可以包括增加ANN的层的数量和/或节点的数量。

改变架构可以包括渐进式神经架构搜索。

训练决策逻辑候选和训练另外的决策逻辑候选可以包括改变ANN的权重以提高系统模拟中的性能。

该方法可以包括自动生成多个场景的至少部分。

可以执行决策创建逻辑来自动生成多个场景的至少部分。

可以管控权重的变化率的学习率可以在训练期间自动调节。

学习率可以响应于反馈信号管控权重的变化率。

学习率可以响应于取决于为先前由决策逻辑生成器生成的决策逻辑候选确定的性能的反馈信号管控权重的变化率。

学习率可以响应于取决于先前由决策逻辑生成器生成的候选决策逻辑的输出和监督学习中已知的正确输出的反馈信号管控权重的变化率。

可以使用梯度技术来改变权重。

梯度技术可以是梯度下降技术。

梯度下降技术可以是随机梯度下降技术。

可以基于试错搜索、基于模型的搜索、监督学习或强化学习来改变权重。

电力系统可以是发电系统、输电系统或配电系统。

可以在时域和/或频域中模拟(多个)干扰。

短路分析可以包括计算由保护继电器使用的信号。

执行电力市场清算模拟可以包括提供节点电力价格。

控制器可以是用于电力系统操作的控制器。

控制器可以是用于电力系统控制的控制器。

控制器可以是保护继电器。

该方法可以包括由控制器执行所选择的决策逻辑。

决策逻辑可以是保护逻辑。

决策逻辑可以是距离保护逻辑。

根据实施例的一种用于为工业自动化控制系统(IACS)的控制器生成决策逻辑的计算系统包括一个或多个集成电路，该一个或多个集成电路可操作用于：训练决策逻辑候选，该决策逻辑候选是ANN，包括计算该决策逻辑候选在系统模拟中针对多个场景的性能；改变ANN的架构以生成另外的决策逻辑候选；训练另外的决策逻辑候选，包括计算另外的决策逻辑候选在系统模拟中针对多个场景的性能；以及基于所计算的性能选择并输出决策逻辑候选中的至少一个。

根据实施例的一种为工业自动化控制系统(IACS)的控制器生成决策逻辑的计算机实施的方法包括：自动生成决策逻辑的多个决策逻辑候选，其中使用迁移学习来确定决策逻辑候选中的至少一个的架构；计算响应于场景的多个不同决策逻辑候选的性能，包括执行系统模拟；以及基于所计算的性能选择并输出决策逻辑候选中的至少一个。

可以基于在机器学习程序中获得的用于IACS的另一控制器的另一决策逻辑的决策逻辑架构来确定决策逻辑候选中的至少一个的架构。

该方法可以包括从数据储存库中检索关于在机器学习程序中获得的用于IACS的另一控制器的另一决策逻辑的决策逻辑架构的信息。

该方法可以包括基于将由决策逻辑执行的功能并且可选地基于系统拓扑，确定数据储存库中的其它决策逻辑。

另一决策逻辑可以具有与要生成的决策逻辑的功能相同或相似的功能。

另一决策逻辑可以由部署在系统拓扑中的另一控制器执行，当使用相似性指标时，该系统拓扑被确定为与其中部署该控制器的网络拓扑相同或相似。

该方法可以包括执行决策逻辑生成器，该决策逻辑生成器修改决策逻辑候选中的至少一个的参数以生成其它决策逻辑候选。

与通过迁移学习确定的架构相比，决策逻辑生成器可以可选地修改架构(例如，ANN的层和/或节点的数量)。

决策逻辑生成器可以可选地增加架构的复杂性(例如，通过增加ANN的层和/或节点的数量)以提高在迭代过程中候选决策逻辑的性能。

该方法可以包括执行场景创建逻辑以生成系统模拟中使用的场景的至少部分。

场景创建逻辑和决策逻辑生成器可以是对抗性逻辑。

可以执行GAN来实施场景创建逻辑和决策逻辑生成器。

电力系统可以是发电系统、输电系统或配电系统。

可以在时域和/或频域中模拟(多个)干扰。

短路分析可以包括计算由保护继电器使用的信号。

执行电力市场清算模拟可以包括提供节点电力价格。

控制器可以是用于电力系统操作的控制器。

控制器可以是用于电力系统控制的控制器。

控制器可以是保护继电器。

该方法可以包括由控制器执行所选择的决策逻辑。

决策逻辑可以是保护逻辑。

决策逻辑可以是距离保护逻辑。

根据另一实施例的一种用于为工业自动化控制系统(IACS)的控制器生成决策逻辑的计算系统包括一个或多个集成电路，该一个或多个集成电路可操作用于：自动生成决策逻辑的多个决策逻辑候选，其中使用迁移学习来确定决策逻辑候选中的至少一个的架构；计算响应于场景的多个不同决策逻辑候选的性能，包括执行系统模拟；以及基于所计算的性能选择并输出决策逻辑候选中的至少一个。

根据实施例的一种为电力系统的控制器生成闭环控制逻辑的计算机实施的方法包括：自动生成控制逻辑的多个控制逻辑候选；计算响应于场景的多个不同控制逻辑候选的性能，包括执行系统模拟；以及基于所计算的性能选择并输出至少一个控制逻辑候选。

控制器可以是用于输电系统的控制器。

控制器可以是用于预防性安全的控制器。

控制器可以是用于校正性安全的控制器。

场景可以分别限定电力系统的操作点。

操作点可以包括以下中的任何一个或任何组合：电力源(发电机和/或能量存储装置)的P和Q注入、节点处的P和Q消耗、HVDC换流站的P和Q注入、FACTS设备、并联部件(电容器、电抗器)、移相器、LVR和OLTC的设置、开关的状态、电网支路(诸如线路、线缆、变压器、换流站等)中的所得到的P和Q功率流。

系统模拟中使用的场景可以包括限定操作点的参数。

替代地或附加地，系统模拟中使用的场景可以包括意外事件或事件(例如，线路中的故障)。

替代地或附加地，系统模拟中使用的场景可以包括外源性变量。外源性变量可以包括影响电力生成或电力消耗的环境状况。外源性变量可以包括温度、风速、太阳辐照度、时间、季节中的一个或多个。

替代地或附加地，系统模拟中使用的场景可以包括预测，诸如负载预测和/或可再生能源发电预测。

计算性能可以包括在系统模拟中确定由控制逻辑候选建议的动作产生的操作点，以及确定由所建议的动作产生的操作点是否是可接受的。

确定由所建议的动作产生的操作点是否是可接受的可以包括确定操作点是否导致不稳定性。不稳定性可以通过特征值分析来量化。确定由所建议的动作产生的操作点是否是可接受的可以包括确定离最近的可接受操作点的距离。

计算性能可以包括计算成本，至少在由所建议的动作产生的操作点是可接受的情况下。成本可以取决于电力传输损失和/或由可再生能源产生的总电力。成本可以是财务成本。成本可以是控制动作的成本。成本可以包括所模拟意外事件之前的操作点的成本。可以使用查找表或使用市场清算优化来确定所模拟的意外事件之前的操作点的成本。

系统模拟可以包括时域和/或频域中的电力系统模拟，其可以可操作用于模拟电力系统的动态行为，包括由控制逻辑候选触发的动作。

系统模拟可以包括预测可再生能源发电和/或预测需求。

系统模拟可以包括AC功率流分析。

系统模拟可以包括市场清算模拟。

可以执行场景创建逻辑来创建场景中的至少部分。

场景创建逻辑可以是机器学习模型。

在控制逻辑候选中的至少一个的参数被更新和/或具有不同机器学习模型架构的控制逻辑候选被系统模拟中的场景挑战时，场景创建逻辑可以迭代地学习。

场景创建逻辑可以是决策逻辑生成器的对抗性逻辑，其响应于模拟结果的性能评定来自动修改控制逻辑候选以生成另一控制逻辑候选。

场景创建逻辑可以被约束为仅生成电力系统的系统规范内的场景。

该方法还可以包括存储导致具有第一机器学习模型架构的控制逻辑候选表现不佳的一个或多个具有挑战性的场景。

导致先前测试的控制逻辑候选表现不佳(例如，具有低于性能阈值的性能)的具有挑战性的场景可以被循环地重新引入到对其执行系统模拟的一批有效场景中。

将一个或多个具有挑战性的场景重新引入到该批有效场景可以由控制逻辑候选的架构的改变(例如，ANN的层的数量和/或节点的数量的改变)来触发。

可以动态调节该批有效场景，使得在该批有效场景中，在计算控制逻辑候选的性能时，由场景创建逻辑生成的一部分场景增加，可选地单调增加。

随着在生成控制逻辑的过程中生成新的控制逻辑候选，控制逻辑候选的复杂性(例如，节点和/或层的数量)可以增加。

可以使用根据本文公开的实施例中的任何一个的决策逻辑生成器来执行修改控制逻辑候选。

场景创建逻辑可以可如结合本文公开的实施例中的任何一个所描述的那样操作。

协调器可以用于协调决策逻辑生成器和场景创建逻辑的操作，其可以可如结合本文公开的实施例中的任何一个所描述的那样操作。

决策逻辑生成器和/或场景创建逻辑的学习率可以根据计算性能的演变动态调节。

如果在由场景创建模块生成的场景的系统模拟中，控制逻辑候选始终表现出满足性能质量标准的性能，则可选地通过冻结决策逻辑生成器，可以降低决策逻辑生成器的学习率。

如果在由场景创建模块生成的场景的系统模拟中，控制逻辑候选始终表现出不满足性能质量标准的性能，则可选地通过冻结场景创建逻辑，可以降低场景创建逻辑的学习率。

该方法还可以包括将所生成的控制逻辑部署到电力系统的控制器。

该方法可以包括由控制器执行所选择的控制逻辑。

该方法还可以包括响应于由控制器执行的所选择的控制逻辑的被监控的现场行为，自动修改控制逻辑。

根据另一实施例的一种用于为电力系统的控制器生成闭环控制逻辑的计算系统包括一个或多个集成电路，该一个或多个集成电路可操作用于：自动生成控制逻辑的多个控制逻辑候选；计算响应于场景的多个不同控制逻辑候选的性能，包括执行系统模拟；以及基于所计算的性能选择并输出至少一个控制逻辑候选。

根据实施例的一种为电力系统的控制器生成保护逻辑的计算机实施的方法包括：自动生成保护逻辑的多个保护逻辑候选；计算响应于场景的多个不同保护逻辑候选的性能，包括执行系统模拟；以及基于所计算的性能选择并输出保护逻辑候选中的至少一个。

控制器可以是用于输电系统的控制器。

控制器可以是用于配电系统的控制器。

控制器可以是保护继电器。

系统模拟中使用的场景可以包括以下中任何一个或任何组合：

-一种类型的故障(需要动作)或切换事件(不需要动作)；这可以包括但不限于沿输电/配电线路的单相接地、相间、三相故障；母线故障；发电机/负载切换；

-故障起始角(即故障发生时刻：故障发生在过零点还是在电流最大值处)；

-系统中的负载水平；

-沿着输电/配电线路的故障位置；

-当负载主要由常规发电供电时或当负载主要由转换器接口发电供电时，系统中的发电模式；

-系统的正常操作期间可能遇到的拓扑。

在上述中的一个或多个中，不同的场景可能彼此不同。

所有场景可以在电力系统的系统规范内。

计算性能可以包括系统模拟中保护逻辑候选的计算速度、可靠性和安全性。

性能可以被计算为速度、可靠性和安全性的加权和。

系统模拟可以包括AC短路分析。

系统模拟可以包括AC功率流分析。

可以执行场景创建逻辑来创建场景中的至少部分。

场景创建逻辑可以是机器学习模型。

在保护逻辑候选中的至少一个的参数被更新和/或具有不同机器学习模型架构的保护逻辑候选被系统模拟中的场景挑战时，场景创建逻辑可以迭代地学习。

场景创建逻辑可以是决策逻辑生成器的对抗性逻辑，其响应于模拟结果的性能评定来自动修改保护逻辑候选以生成另一保护逻辑候选。

该方法还可以包括存储导致具有第一机器学习模型架构的保护逻辑候选表现不佳的一个或多个具有挑战性的场景。

导致先前测试的保护逻辑候选表现不佳(例如，具有低于性能阈值的性能)的具有挑战性的场景可以被循环地重新引入到对其执行系统模拟的一批有效场景中。

将一个或多个具有挑战性的场景重新引入到该批有效场景可以由保护逻辑候选的架构的改变(例如，ANN的层的数量和/或节点的数量的改变)来触发。

可以动态调节该批有效场景，使得在该批有效场景中，在计算保护逻辑候选的性能时，由场景创建逻辑生成的一部分场景增加，可选地单调增加。

随着在生成保护逻辑的过程中生成新的控制逻辑候选，保护逻辑候选的复杂性(例如，节点和/或层的数量)可以增加。

可以使用根据本文公开的实施例中的任何一个的决策逻辑生成器来执行修改保护逻辑候选。

如果在由场景创建模块生成的场景的系统模拟中，保护逻辑候选始终表现出满足性能质量标准的性能，则可选地通过冻结决策逻辑生成器，可以降低决策逻辑生成器的学习率。

如果在由场景创建模块生成的场景的系统模拟中，保护逻辑候选始终表现出不满足性能质量标准的性能，则可选地通过冻结场景创建逻辑，可以降低场景创建逻辑的学习率。

该方法还可以包括将所生成的保护逻辑部署到电力系统的控制器。

该方法可以包括由控制器执行所选择的保护逻辑。

该方法还可以包括响应于由控制器执行的所选择的保护逻辑的被监控的现场行为，自动修改保护逻辑。

根据实施例的一种用于为电力系统的控制器生成保护逻辑的计算系统包括一个或多个集成电路，该一个或多个集成电路可操作用于：自动生成保护逻辑的多个保护逻辑候选；计算响应于场景的多个不同保护逻辑候选的性能，包括执行系统模拟；以及基于所计算的性能选择和输出保护逻辑候选中的至少一个。

通过根据实施例的方法和系统获得了各种效果。

为了说明，根据实施例的方法和系统便于使设计决策逻辑的过程自动化。人类专家工程师可以影响该过程，例如通过选择在学习中使用的经标记的训练数据或者通过指定性能指标。

根据实施例的方法和系统还便于生成在现场操作中提供鲁棒性的决策逻辑。可以生成各种各样的场景，包括在决策逻辑的现场操作期间不经常出现并且因此可能不包括在历史数据或专家限定的数据中的场景，以在产生决策逻辑的计算机实施的过程期间评定决策逻辑的性能。

根据实施例的方法、计算系统、控制器和系统可以用于发电、输电或配电系统的控制器，但不限于此。

附图说明

将参考附图中示出的优选示例性实施例更详细地说明本发明的主题，在附图中：

图1是包括用于生成决策逻辑的计算系统的系统的示意性表示。

图2是系统的示意性表示。

图3是用于生成决策逻辑的系统的框图。

图4是流程图。

图5是用于生成决策逻辑的系统的框图。

图6是用于生成决策逻辑的系统的框图。

图7是方法的流程图。

图8是方法的流程图。

图9是决策逻辑生成器的框图。

图10是方法的流程图。

图11是用于生成决策逻辑的系统的框图。

图12至图16是用于说明用于生成决策逻辑的系统的操作的图。

图17是场景提供模块的框图。

图18是场景提供模块的框图。

图19和图20是用于说明场景创建逻辑的操作的图。

图21是用于生成决策逻辑的系统的框图。

图22是系统的框图。

图23是通过场景参数跨越的空间的截面的示意性表示。

图24是用于说明协调器的操作的示意性表示。

图25至图28是方法的流程图。

具体实施方式

将参照附图描述本发明的示例实施例，在附图中，相同或相似的附图标记表示相同或相似的元件。尽管将在发电系统或配电系统的背景下描述一些实施例，但是下面详细描述的方法和设备可以用于多种系统。

除非特别指出，否则实施例的特征可以彼此组合。

根据本发明的实施例，机器学习(诸如监督机器学习或强化学习)用于生成工业自动化控制系统(IACS)(诸如电力系统)的控制器的决策逻辑。电力系统(诸如发电或输电系统)中的保护功能是这种决策逻辑的示例。为了说明，本文公开的技术可以用于使用机器学习技术来生成数字保护继电器的决策逻辑，但不限于此。

图1是根据实施例的系统的示意性表示。

系统包括一个或多个控制器31、32、33，统称为控制器30。控制器31、32、33可以响应于来自传感器、合并单元、智能电子设备(IED)或提供与IACS、发电系统、输电系统或配电系统的操作相关的数据的其它设备的信号，分别可操作用于执行功能，诸如保护功能。为了说明，控制器31、32、33中的一个或多个可以是数字保护继电器，其确定断路器(CB)是否要跳闸，以及跳闸是立即跳闸还是延迟跳闸。

计算系统20可操作用于自动生成由控制器31执行的决策逻辑或由多个控制器31至33执行的多个决策逻辑。经训练的ML模型可以被部署到相应的控制器31、32、33，用于在IACS的现场操作(例如电力系统的操作)期间执行。

决策逻辑是专门为其部署的控制器以及由该控制器执行的(多个)功能而设计的。如果控制器执行多个不同的功能，则可以在该控制器中部署多个不同的决策逻辑。

通常，第一控制器31可以具有部署在其中的第一决策逻辑。

第二控制器32可以具有部署在其中的第二决策逻辑，第二决策逻辑可以与第一决策逻辑不同地操作。为了说明，第二决策逻辑的决策逻辑输入和/或决策逻辑输出可以不同于第一决策逻辑的决策逻辑输入和/或决策逻辑输出。替代地或附加地，即使当第一和第二决策逻辑接收相同的决策逻辑输入和/或生成相同类型的决策逻辑输出信号时，第二决策逻辑的决策边界也可以不同于第一决策逻辑的决策边界。替代地或附加地，第二决策逻辑的架构(例如，用于作为第二决策逻辑操作的人工神经网络(ANN)的层、节点的数量和/或链接的权重)可以不同于第一决策逻辑的架构。

第三控制器33可以具有部署在其中的第三决策逻辑，第三决策逻辑可以与第一和第二决策逻辑不同地操作。为了说明，第三决策逻辑的决策逻辑输入和/或决策逻辑输出可以不同于第一和第二决策逻辑的决策逻辑输入和/或决策逻辑输出。替代地或附加地，即使当第一、第二和第三决策逻辑接收相同的决策逻辑输入和/或生成相同类型的决策逻辑输出信号时，第三决策逻辑的决策边界也可以不同于第一和第二决策逻辑的决策边界。替代地或附加地，第三决策逻辑的架构(例如，用于作为第三决策逻辑操作的人工神经网络(ANN)的层、节点的数量和/或链接的权重)可以不同于第一和第二决策逻辑的架构。

如本文所用，术语“决策逻辑”特别地可以指，当由电力系统(或另一IACS)的控制器31、32、33执行时，引起控制器确定响应于由一个或多个数据源(传感器、合并单元等)提供的信号采取哪个控制动作的逻辑。决策逻辑可以是分类器，其输出一组离散的控制动作中的一个，但不限于此。

控制器31、32、33可以包括其中部署有决策逻辑35的一个或多个本地控制器。根据本发明的由管理系统监控的本地控制器可以从由以下各项组成的群组中选择：本地控制器可以从由以下组成的群组中选择：保护继电器、发电机的控制系统(例如，调速器和激励/自动电压调节器)、(多个)高压直流(HVDC)设备的控制系统、(多个)灵活交流输电系统(FACTS)设备的控制系统、开关电容器和/或电抗器的决策逻辑、低频减载继电器和欠压减载继电器，但不限于此。

控制器31、32、33可以包括其中部署有由计算系统20生成的决策逻辑的一个或多个中央控制器。由管理系统监控的中央控制器可以从由以下组成的群组中选择：能量管理系统(EMS)/配电管理系统(DMS)，例如，用于二次频率控制的决策逻辑、用于发电再调度的决策逻辑、用于利用需求灵活性的决策逻辑、用于重合闸操作的决策逻辑、用于通过无功功率再调度进行的二次电压控制的决策逻辑、协调电网上的动作的决策逻辑，诸如在通常需要在干扰后激活的系统保护方案或补救动作方案的情况下，但不限于此。

可控量可以从由以下组成的群组中选择：全部发电机和能量存储系统的有功(P)和无功(Q)功率注入；DC链路或背靠背DC的P/Q注入；FACTS设备(诸如静态VAR补偿器(SVC)或静态同步补偿器(STATCOM))的Q注入；功率流控制设备；电容器组、电抗器和OLTC的抽头位置；需求；由电动车队(e-fleets)进行的P/Q注入；开关/重合开关的状态等，但不限于此。

诸如能量存储设备、电动车辆和各种分布式能源(DER)的部件可以以本地和/或集中的方式被控制(例如，DER的聚集使用或电动车辆车队的控制，提供各种电网可控性服务)。本文描述的技术适用于监控DER和/或能量存储设备的控制器，但不限于此。

决策逻辑可以是以下中的任何一种，但不限于此：(i)FACTS或HVDC设备或发电机的控制系统中的逻辑，(ii)继电器中的保护逻辑，(iii)用于切换电容器/电抗器或用于减载的决策逻辑，(iv)SCADA/EMS/DMS水平的决策逻辑，例如，用于频率/电压控制、重合闸操作、发电再调度或需求灵活性的利用，(v)位点(建筑物、工厂、微电网等)的EMS/BMS处的决策逻辑，(vi)对接诸如PV或能量存储装置的资源的转换器的控制逻辑。

部署在控制器中的决策逻辑响应于输入做出决策。输入是通过依靠系统可观测量获得的。根据情况，可观测性可以是局部的(例如，连接(多个)灵活交流输电系统(FACTS)设备的母线处的电压和电流)、区域性的或系统范围的(例如，来自一组网络总线的同步相量测量)。除了电测量之外，由决策逻辑作为输入接收的可观测量可以包括设备的状态(诸如开关的状态，或者各种控制设定点)，或者更一般地包括动态网络拓扑。由决策逻辑作为输入接收的可观测量可以包括来自电力系统的外源性的输入，诸如所观察到的或预报的天气、电力价格、日期、时间、交通状况等。控制器31、32、33可以配备有一个以上的设置群组，使得控制器相对于所观察到的环境的状况的变化而在这些设置之间自动切换。

经常地，本地控制器基于本地可用测量做出决策，而中央控制器基于系统范围的可观测性做出决策，并控制遍及电力系统的致动器。然而，可能存在这样的情况，其中本地控制器基于来自系统中的(多个)远程位置的输入信号操作，或者系统范围的控制动作基于本地测量启动。第一情况的示例是基于远程测量(位于它们提供最佳可观测性的地方)启动用于机电振荡阻尼的FACTS控制器(位于它具有最有效影响的地方)。第二情况的示例是通过发电再调度进行的线路/变压器的拥塞缓解。本文公开的决策逻辑的监控操作的技术适用于全部这些情况。

当新的控制器要被调试时，控制器31、32、33的决策逻辑被开发。在设计阶段期间，执行电网中的各种状况(诸如故障、开关事件、负载变化等)的模拟以评估和改进决策逻辑的性能。这个过程由计算系统20以计算机实施的方式执行。

计算系统20可以由(多个)计算机、(多个)服务器或分布式计算系统来实施。计算系统20包括至少一个集成电路21。至少一个集成电路21可以包括处理器、微处理器、微控制器和专用集成电路(ASIC)或其任意组合。

至少一个集成电路21可以可操作用于执行决策逻辑生成系统40。决策逻辑生成系统40可以可操作用于执行监督机器学习或强化学习，以确定决策逻辑的参数，并且可选地，确定决策逻辑的架构和参数。

如本文所用，“训练”决策逻辑或决策逻辑候选是指确定决策逻辑或决策逻辑候选的参数的参数值的过程。为了说明，训练决策逻辑候选可以包括确定ANN的权重。

决策逻辑生成系统40不仅可以可操作用于确定决策逻辑的参数，还可用于确定决策逻辑的架构(例如，作为决策逻辑部署的ANN的层和/或节点的数量)。

决策逻辑生成系统40使用的数据可以存储在数据储存库中，其可以在存储设备22中是本地的或者远离(多个)IC 21。数据储存库23可以包括历史数据(表示先前的操作状况和控制动作)或由人类工程师限定的数据。数据储存库23中的数据可以包括用于执行监督机器学习的经标记的数据。应理解，大量合适的经标记的数据25可以从历史记录中获得。

数据储存库23还可以在其中存储有可以被选择来训练的一组可能的决策逻辑架构。该组可能的决策逻辑架构可以本地存储在数据存储设备22中或者远程存储。计算系统20可以自动选择可能的决策逻辑架构中的一个或多个用于训练。关于电力系统(例如，发电、配电或输电系统)的拓扑的信息可以用于选择可能的决策逻辑架构用于训练。(多个)集成电路21可以适于分析电力系统的标准化配置描述，诸如SCD文件，以确定要训练多个可能的决策逻辑架构中的哪一个(哪些)。

可能的决策逻辑架构可以在例如不同人工神经网络、层或其中使用的节点的布置和数量、人工神经网络的前馈功能、层的数量等方面彼此不同。

计算系统20具有用户接口25。用户接口25可以包括光学输出设备。计算系统20可以可操作用于通过用户接口25输出允许人类操作员检查、验证或以其它方式评定由决策逻辑生成系统40确定的具有期望性能特性的决策逻辑如何表现的信息。为了说明，计算系统20的(多个)集成电路21可以适于经由用户接口25生成和输出图形，以说明所生成的决策逻辑如何表现。

计算系统20可以具有用于输出所生成的决策逻辑的接口24。接口24可以例如经由通信集线器19通信耦合到控制器31、32、33。

根据在其中使用相应控制器的发电、配电或输电系统的配置和拓扑，不同的决策逻辑将被输出到控制器31、32、33中的每个控制器。

计算系统20可以被适配为使得除了所生成的决策逻辑的性能之外，将ML模型的中间信号与ML模型输入和/或ML模型输出相关的信息的复杂性也可以被考虑为所生成的决策逻辑适于部署到控制器中的一个的总和的标准。以这样的方式，可以只输出具有高性能同时符合可解释性标准的所生成的决策逻辑。

在发电、配电或输电网的操作期间，控制器31、32、33可以执行部署在其上的决策逻辑。控制器31、32、33中的一个或多个可以使用该决策逻辑来处理信号(诸如电流、电压、或在时域或频域中从其导出的量)，以确定要执行哪个控制或其它动作。根据控制器31、32、33的期望用途，可以执行断路器(CB)跳闸或其它控制动作。

可选地，控制器31、32、33可以向计算系统20提供操作数据。操作数据可以用于执行性能评定和/或用于存储在数据存储设备22中。在被标记时，该数据可以用于未来决策逻辑生成过程。

图2是示出与电力系统的部件结合使用的计算系统20和执行由计算系统20自动生成的决策逻辑的控制器31的示意图。为了说明，变电站的间隔可以包括开关QB1、QB2、QC2、AQ1、QB9和QC9、用于电流感测的变压器BC1、BC2和用于电压感测的变压器BA1。传感器设备被部署为生成原始信号，这些原始信号可以可选地经由合并单元、网关或其它单元提供给控制器31。

计算系统20适于自动生成并且可选地自动部署由控制器31执行的决策逻辑，如本文更详细地描述的那样。

在现场操作中，由控制器31执行的决策逻辑可以接收电流和电压作为时域频域中的原始信号。可选地，可以执行预处理。为了说明，附加于或替代于原始电压和电流测量，决策逻辑生成系统40可以依赖于不同类型的输入信号，这取决于所寻求的保护的类型(例如，距离继电保护、(欠/过)频率继电保护等)。输入信号的来源不必局限于本地仪器，也可以是广域仪器以及中央SCADA。这适用于监督机器学习和相应控制器31、32、33中的决策逻辑的现场操作。

图4是示出决策逻辑生成系统40的可能的实施方式的框图。

决策逻辑生成系统40可以包括决策逻辑生成器41。决策逻辑生成器41可操作用于生成多个不同的决策逻辑候选。多个不同的决策逻辑候选可以在参数(例如，PID闭环控制器的系数或ANN的权重)方面彼此不同。多个不同的决策逻辑候选可以在决策逻辑架构(例如，ANN、支持向量机(SVM)、其它机器学习模型、PID控制器等)方面相互区分。决策逻辑生成器可以向模拟引擎43输出多个不同决策逻辑候选中的决策逻辑候选。

决策逻辑生成系统40可以包括场景提供模块42。场景提供模块42可以可操作用于输出执行系统模拟的一批有效场景。该批有效场景可以包括生成新场景的场景创建逻辑，如将在下面更详细地说明的那样。

决策逻辑生成系统40可以包括耦合到决策逻辑生成器41和场景提供模块42的模拟引擎43。模拟引擎43可以可操作用于为该批有效场景中包括的场景执行系统模拟。

由模拟引擎43执行的系统模拟不限于确定候选决策逻辑对特定场景的响应，还包括模拟系统(例如，发电、配电或输电系统)如何响应于由候选决策逻辑在系统模拟中采取的动作。系统模拟可以包括计算电力系统中的电流、电压、相量、同步相量等，其源于在系统模拟中由候选决策逻辑采取的决策。

模拟引擎43可以可操作用于分别针对一批有效场景为多个候选决策逻辑中的每个执行系统模拟。如本文其它地方更详细地说明的那样，可以迭代地修改该批有效场景。

决策逻辑生成系统40可以包括性能评定器44。性能评定器可以可操作用于针对该批有效场景中包括的场景计算每个决策逻辑候选的性能。

性能评定器44可以计算一个或多个KPI，该一个或多个KPI可以是用户指定的。一个或多个KPI可以组合成性能值，该性能值可以是标量值。可以为该批有效场景中的场景中的每个计算一个或多个KPI。可以进行加权(例如，通过KPI或性能值的加权求和)以考虑到一些场景在现场操作中比其它场景更频繁地出现。

决策逻辑生成系统40可以包括协调器。协调器可以可操作用于响应于性能评定器的输出来协调决策逻辑生成器41和场景提供模块42的操作。

决策逻辑生成系统40允许为一个或多个控制器生成决策逻辑的过程自动化。这在电力系统操作规划、控制和保护的复杂任务中帮助人类专家。决策逻辑生成系统40可以是自主的，从而实施决策逻辑的自设计。

决策逻辑生成系统40可以用于生成由控制器31、32、33单独执行的决策逻辑，或者用于生成经协调的控制逻辑，该经协调的控制逻辑考虑了不同的控制器31、32、33中的各种决策块之间的交互。

决策逻辑生成系统40可以用于各种不同的目标，诸如(不限于)：

-在各种未来时间范围内确定电网操作限制，并生成允许放宽这些限制的决策逻辑(决策逻辑可以包括干扰前和干扰后控制动作)，

-生成保护系统以及SIPS(系统完整性保护方案)，

-确定新的保护功能的需求并生成新的保护功能，

-为本地FACTS/HVDC控制器生成逻辑，

-生成整个电网中的许多设备(诸如FACTS、HVDC、发电机有功需求、存储装置)的协调控制，

-生成DER的控制(直接地，或通过聚合器或分配系统操作者)，

-生成电网中的分布式控制，

-生成用于调度资产维护/替换的逻辑，

-生成用于电力系统恢复的逻辑，

-生成用于提议电力系统升级和扩展的逻辑。

控制逻辑也可以在次要级别下起作用，从而向设备的主控制器提供设定点。

决策逻辑生成系统40还可以可操作用于确定所需的可观测性(即，可用于控制逻辑的输入信号)，或者可用的可观测性可以是由决策逻辑生成系统40作为输入接收的规范的一部分。

决策逻辑生成系统40可以在决策逻辑的现场操作之前离线执行。决策逻辑生成系统40可以在现场操作期间接收关于部署在控制器中的决策逻辑的性能的反馈。反馈可以触发决策逻辑的重新生成以部署到控制器和/或可以用于改进生成其它决策逻辑的过程。

决策逻辑生成系统40可以并行执行两个任务。决策逻辑生成系统40可以可操作用于

-确定所期望的决策逻辑(即，其参数以及，可选地，架构)，以及

-通过识别具有代表性以及具有挑战性的场景，即，控制逻辑失败或表现不佳的场景，确保决策逻辑的鲁棒性。

决策逻辑生成系统40可以可操作用于在迭代过程中生成决策逻辑。

图4是可以由决策逻辑生成系统40执行的方法50的流程图。

在步骤51处，决策逻辑生成系统40可以给所有参数分配值，其限定系统规范内的特定决策逻辑候选。为了说明，如果所选择的控制器是P控制器，则应该将值分配给增益；如果控制器是神经网络，则应选择特定的架构，并且所有传递函数和权重应设置为特定值。应注意，决策逻辑生成系统40可以从一组候选架构或其组合中选择架构。根据规格，决策逻辑生成系统40还可以选择输入信号和受控致动器。

在步骤52处，决策逻辑生成系统40可以选择或创建场景或一批场景来模拟(并因此测试)所选择的决策逻辑候选的行为。在一般情况下，将由决策逻辑生成系统40来确定哪些场景应该被考虑以最终设计优化性能指标的决策逻辑。场景中的一些或全部可以由人类专家预先设置。这种方法的缺点在于，预先确定要评估哪些场景通常是非常困难的任务。为了缓解这个问题，决策逻辑生成系统40可以包括场景创建逻辑，该场景创建逻辑可以创建执行系统模拟的新场景。

在步骤53处，决策逻辑生成系统40可以根据性能指标来量化被测试的决策逻辑的性能。性能指标可以由用户输入限定。

计算性能可以包括测试(多个)场景的决策逻辑候选，例如通过模拟、使用机器学习模型等。性能指标可以包括决策逻辑的控制目标，或者可以与其不同。

基于来自步骤53的信息(以及通常来自先前迭代的性能信息)，如果在步骤54处确定不满足终止标准，则决策逻辑生成系统40可以返回到步骤51和52。当返回到步骤51、52时，分别选择要测试的新的决策逻辑候选和要模拟的(多个)新场景。

“新的决策逻辑候选”可以指在参数(例如，增益的值和/或ANN的权重)或架构方面不同于先前决策逻辑候选的决策逻辑候选。

过程根据步骤54处的终止标准终止。终止标准的示例包括在容限内没有改善的性能、所达到的最大迭代数量等中的任何一个或任何组合。

这些技术使用相互作用的两个子系统。一个子系统负责确定期望的决策逻辑候选(即，其参数和，可选地，架构)，另一子系统负责通过确定具有挑战性的场景来确保决策逻辑的鲁棒性。两个子系统可以由用户输入指定的性能指标来驱动。决策逻辑生成系统40协调这两个子系统。

在实施方式中，相互竞争的两个子系统可以通过生成性对抗网络(GAN)来实施。

如图5所示，决策逻辑生成系统40可以以各种方式与人类工程师交互。

决策逻辑生成系统40可以接收限定要设计的决策逻辑的规范、潜在的边界条件以及测量决策逻辑的性能的方法(例如，一组关键性能指示符KPI)的输入。性能指标或一组性能指标指导生成决策逻辑的自主过程。规范和边界条件可以包括：可控设备、可控性限制、由决策逻辑使用的输入信号、可用的可观测性和通信限制、可用的计算资源等。所接收的规范中的部分可以指定决策逻辑的架构(例如，PID控制器、基于优化的决策、神经网络等)。

人类工程师可以为决策逻辑生成系统40提供模拟引擎。这可以包括(i)要考虑的各种部件和现象的模型，(ii)模拟场景的软件工具，以及(iii)对于需要控制逻辑执行的最佳性能的历史数据和场景。

术语“模拟”应以广泛的含义理解。它应包括可以用于量化决策逻辑的性能的任何方法(例如，数值模拟、微分方程或优化问题的解、统计和/或数据驱动模型的使用、与基准的比较等)。

决策逻辑生成系统40通过利用模拟引擎根据规范自主地生成决策逻辑，该决策逻辑具有依照性能质量标准(例如，大于性能阈值的性能)的性能(即，KPI)。这通常需要生成信息(诸如新场景)或其它新数据，其可以用于评定所生成的决策逻辑的鲁棒性。

决策逻辑生成系统40可以通过用户接口输出关于所生成的决策逻辑的信息。人类工程师可以检查结果。决策逻辑生成系统40可以接收用户输入，该用户输入(i)指示所生成的决策逻辑被接受，或者(ii)修改或添加规范、KPI或模型，并请求由决策逻辑生成系统40重新设计。

图6示出了决策逻辑生成系统40的实施方式的总体架构。

决策逻辑生成系统40可以包括决策逻辑生成器60、场景提供模块70、性能评定器90和协调器100。决策逻辑生成系统40还可以包括模拟引擎80或者与模拟引擎交互。决策逻辑生成器60、场景提供模块70、性能评定器90和模拟引擎80可以如参考图3所说明的那样操作。

协调器100可以协调决策逻辑生成器60和场景提供模块70的操作。协调器100可以可操作用于调节在决策逻辑生成器60和场景提供模块70中实施的机器学习模型的学习率。替代地或附加地，协调器100可以控制具有给定架构的决策逻辑候选的训练过程的终止，从而实现架构的改变，可以控制决策逻辑生成过程的终止，和/或可以引起已经被确定为对于第一决策逻辑候选具有挑战性的场景被重新引入到用于具有不同架构的第二决策逻辑候选的性能计算中。

决策逻辑生成系统40可以包括历史记录110，该历史记录存储在生成决策逻辑的过程中生成的数据。历史记录110可以在本地存储介质、远程存储系统或分布式存储系统中实施。

下面将详细描述决策逻辑生成系统40的各个块的特征。这些特征不仅可以组合使用，而且可以单独使用。

性能评定器和模拟引擎

性能评定器90可操作用于量化当前有效的决策逻辑候选的性能。基于有效场景或一批有效场景79的(一批)模拟结果，根据一个或多个指标来计算性能。决策逻辑生成器60逐步设计决策逻辑候选，使得性能被改善，在理想情况下性能被最大化，并且场景提供模块70提出场景(测试案例)以确保性能指标的鲁棒性。将在后面描述两个子系统。

性能指标(以及，可选地，计算它的手段)可以由人类工程师的输入来限定。(多个)性能指标可以是“函数”，即，由对模拟引擎80的输出执行的一组计算组成。

性能指标可以是以下中的一个或组合(不限于此)：“操作成本”、“未提供的能量”、“电力价格”、“系统稳定性”、“可用的电力传输能力”、“选择性和可靠性”、“控制器稳定性”等。

不同的性能指标可能需要不同类型的模拟。这些由模拟引擎80执行。模拟引擎80使用电网和相关部件的数学模型82。例如，对于频率稳定性模拟在时域中需要发电机的高阶动态模型，而对于经济调度模拟发电机的简化的恒电力模型就足够了。这些模型可以由人类工程师限定，或者可以由决策逻辑生成系统40生成。

模拟引擎80可以包括使用模拟模型82执行系统模拟的模拟逻辑81。

选择模拟引擎80，使得它提供计算性能指标所需的信息。例如，模拟引擎80可操作用于：

-清算电力市场，以及因此提供节点电力价格，

-运行短路分析，以及因此计算由保护继电器使用的全部信号，

-模拟干扰(时域或频域中)，以及因此允许评估控制器或整个系统的稳定性。

术语“模拟”在本文中以其更广泛的含义使用。模拟引擎80可以但不必要执行数值模拟。模拟引擎80可以由接收决策逻辑候选69和(一组)场景79作为输入并生成性能评定器90评估决策逻辑候选69的必要信息的任何过程组成。例如，模拟引擎80可以包括统计模型或可以由统计模型组成，或者由先前解决的示例的数据集组成。

模拟引擎80可操作用于：时域/频域中的数值模拟(例如，功率流、短路计算、电磁瞬态)，(ii)优化问题的解(例如，最优功率流、机组组合)，或(iii)允许量化控制逻辑的性能的任何其它数学/算法计算(诸如特征值分析)。

执行系统模拟的模拟引擎80是可用的，包括使用诸如平衡负载流的技术在各种场景下计算电流、电压、相量、同步相量。这种模拟引擎80通常用于测试由人类专家建立的决策逻辑。根据实施例，该模拟引擎80可以与决策逻辑生成器60和场景提供模块70联合使用，以测试计算机生成的候选决策逻辑69，并且针对各种候选决策逻辑69和各批有效场景79迭代地进行。

执行系统模拟的一批有效场景79中的有效场景可以对应于决策逻辑要面对的不同操作状况和事件，诸如发电、需求和天气模式、故障(即，短路)、计划停电、拓扑配置、新部件的添加、需求的演变、存储和可再生能源发电。

图7是可以由模拟引擎80执行的方法120的流程图。

在步骤121处，可以检索关于系统拓扑的信息。可以通过用户接口(UI)25接收与电网相关的信息，该信息特别地可以包括拓扑信息。替代地或附加地，计算系统20或网络拓扑分析系统可以处理配置描述(诸如变电站配置描述(SCD)文件)以确定电力系统拓扑，确定电力系统部件，和/或电力系统的与监督控制器相关的部分中的各种主和/或次设备。

在步骤122处，执行系统模拟。系统模拟可以包括模拟电力系统的主和次部件的行为。系统模拟可以包括模拟电力系统的线路、线缆、母线中的电流、电压、相量、同步相量等。系统模拟可以包括在频域和/或时域中模拟电抗器或变压器的响应。系统模拟可以包括响应于候选决策逻辑69响应于包括在一批有效场景79中的各种场景而采取的决策来模拟这些量。

图8是方法130的流程图。方法130可以由性能评定器90执行。

在步骤131处，性能评定器90计算一个或多个KPI。一个或多个KPI可以从包括以下或由以下组成的群组中选择：操作成本、未提供的能量、电力价格、系统稳定性、可用的电力传输能力、选择性和可靠性、控制器稳定性，但不限于此。

一个或多个KPI可以分别取决于由候选决策逻辑69采取的决策引起的系统响应，如由模拟引擎80模拟的那样。一个或多个KPI也可以分别取决于在系统模拟中由其中部署有决策逻辑69的控制器和由IACS中的其它控制器采取的所模拟的控制动作。

在步骤132处，可以例如通过计算KPI的加权和来组合多个KPI，从而根据(多个)性能指标来计算性能的值。

为了说明，场景的候选决策逻辑的性能可以被计算为：

在等式(1)中，m＝1,…M的dip表示候选决策逻辑的参数。候选决策逻辑的参数可以包括P控制器或PID控制器的增益、ANN的权重、SVM的决策边界或其它参数。

在等式(1)中，j＝1,…J的KPI_j表示不同的关键性能指示符，以及w_KPI,j是加权求和中的加权因子。权重可能根据KPI而不同。为了说明，反映短响应时间、可靠性和/或鲁棒性的KPI可以以相对高的权重来加权，而反映财务成本的KPI可以以相对低的权重来加权。

KPI取决于系统响应，该系统响应可以由一组系统响应参数sp_n(诸如电压、电流、相量、同步相量、阻抗、电抗等)来限定。KPI可以取决于场景，该场景可以由一组场景参数p_n(诸如模拟故障或事件发生时电力系统中的操作状况，诸如模拟消耗或发电或天气状况、故障或事件的位置等的环境状况)来限定。

为了简明起见，在下文中参数集将以向量表示书写，应理解，参数可以以任何有序元组组合。

可以基于针对一批场景的系统模拟来计算性能。为了说明，性能可以计算为：

在等式(2)中，pv(·)表示针对由M元组参数限定的候选决策逻辑的一批有效场景确定的性能值。

表示为该批次中第i个场景确定的性能，其可以由K元组场景参数限定。不同场景用i标记。加权因子w_scen,i是用于根据场景进行加权的加权因子。

不同的场景可以对应于控制逻辑要面对的不同操作状况和事件，诸如发电、需求和天气模式、故障(即，短路)、计划停电、拓扑配置、新部件的添加、需求的演变、存储和可再生能源发电。

加权因子w_scen,i可以取决于所生成的决策逻辑如何面对相应场景和/或取决于对于相应场景来说错误决策的结果将有多严重。为了说明，对于在现场操作期间偶尔发生的场景，权重w_scen,i可以在第一数值范围内。对于在现场操作期间频繁发生的情况，权重w_scen,i可以在第二数值范围内，该第二数值范围由超过第一数值范围内的所有值的数值组成。

对于在现场操作期间不经常发生但具有挑战性的场景，权重w_scen,i可以在第三数值范围内，该第三数值范围可以不同于第一和第二数值范围。

尽管等式(1)和(2)提供了用于计算由参数化限定的决策逻辑候选的性能的示例，但是等式(1)和(2)仍然类似地适用于不仅参数而且决策逻辑候选的架构(例如，超参数)在生成决策逻辑的整个过程中可以变化的情况。在后一种情况下，性能不仅取决于决策逻辑候选的参数，还取决于其架构。

尽管性能指标可以是函数(数值的，或者由算法步骤组成)，但是性能指标可以以其它方式指定。为了说明，决策逻辑生成系统40可以可操作用于接收预期决策逻辑如何表现的一组示例。然后，性能指标可以包括评估给定场景中的决策逻辑候选69的行为与由决策逻辑生成系统40接收的示例中的决策逻辑的行为有多相似。

性能指标不需要对应于现场使用中决策逻辑的实际目标。性能指标可以仅用于生成决策逻辑的目标。在生成决策逻辑的过程期间，性能指标甚至不需要固定，而是可以动态地改变。为了说明，并且如本文其它地方更详细地描述的那样，可以由协调器100调节性能指标，以将设计过程驱动到最优解，同时防止在仅作为较差的全局解的局部最优中过早停止。决策逻辑的实际控制目标也可以用作性能指标。

除了计算性能之外，性能评定器90可以确定该批79中的哪些场景对于有效决策逻辑候选69最具挑战性(即，它们导致根据性能指标计算的性能的显著降低)。性能评定器90可以在将它们存储在历史记录110中之前对这些“决策逻辑候选-具有挑战性的场景”对贴标签。如本文其它地方所述，该信息可以由协调器和/或场景提供模块70使用。

决策逻辑生成器

该决策逻辑生成器60可以可操作用于以增强或最终优化性能为目标依次生成决策逻辑候选69。为了实现这个目标，决策逻辑生成器60可操作用于迭代地修改被馈送到模拟引擎80的有效决策逻辑候选69。最终，决策逻辑候选69由性能评定器90评定，该性能评定器计算性能(该性能可以是标量值)。

决策逻辑生成器60可以具有各种配置。决策逻辑生成器60可以可操作用于确定具有固定的预定架构的决策逻辑的一个或多个参数(诸如P或PID控制器的增益，或者具有固定的层和节点数量的ANN的权重)。替代地或附加地，决策逻辑生成器60可以可操作用于确定决策逻辑的架构(例如，通过从一组候选架构中选择和/或通过调节超参数，诸如ANN的层和/或节点的数量)。

决策逻辑生成器60可以包括GAN的生成器网络，其可以可操作用于以提高由性能评定器基于系统模拟计算的性能为目标调节被馈送到模拟引擎80的决策逻辑候选69的参数并且可选地调节架构。

可以适应决策逻辑的不同结构。这些技术不限于为单个控制器设计一个单个决策逻辑，而是可以以协调的方式为多个控制器设计决策逻辑。为了说明：

-没有由用户输入为决策逻辑规定特定的架构。决策逻辑生成器60确定参数(例如，P或PID控制器的增益，或者通过训练ANN来确定ANN的权重)和架构以执行决策任务。

-通过用户输入为决策逻辑规定特定的架构。决策逻辑生成器60在不改变架构的情况下确定参数的值。

-集中控制：决策逻辑生成器60设计将被部署在单个控制器中的决策逻辑，其中IACS中的其它控制器的决策逻辑是已知的并且在生成过程中被使用。

-分布式控制：决策逻辑生成器60同时为多个本地控制器设计决策逻辑，使得它们以协调的方式操作。

示例：决策逻辑候选是(多个)ANN

决策逻辑生成器60可以包括训练模块62，该训练模块可操作用于训练ANN或任何其它数据驱动的机器学习模型。经训练的ANN作为决策逻辑被部署用于现场使用。

ANN的架构可以由人类工程师预先选择，或者由决策逻辑生成器60作为生成过程的一部分来确定。在后一种情况下，由决策逻辑生成器60和/或协调器100来确定是继续更新当前“有效”ANN架构的权重(即，训练ANN)，还是尝试另一架构。

ANN的架构可以由以下中的任何一个或任何组合来限定：隐藏层的数量、每层中的节点的数量、循环回路、门或任何其它结构元件。这些元件的数量、互连和接口由更高层级的“参数”(称为“超参数”)表示。可以由决策逻辑生成器60自动调节超参数中的一个或多个。

图9示出了决策逻辑生成器60的实施方式。决策逻辑生成器60可以包括两个模块：架构监测器61和训练模块62。架构监测器61是可选的，因为许多成功的ANN应用以固定的架构工作。

架构监测器61负责选择ANN架构。这个任务主要包括选择一组超参数的值(框5)。架构监测器61的目标是确定最合适的超参数值，即，确定在被适当训练时(即，当其相对应的权重被优化时)允许性能指标被最大化的架构。通常，这种“架构适用性”指标应该与诸如“较小架构复杂性”的标准组合，使得ANN可以很好地普及到训练阶段期间未见过的情况，并且与诸如“计算效率”的标准组合，使得足够快地训练ANN。

架构监测器61可以执行参数搜索以确定合适的架构，例如通过确定超参数。可以由架构监测器61使用的技术在下面的“参数搜索”中进行更详细的描述。

架构监测器61可以确保超参数值对于几次迭代保持恒定。在通过改变参数来训练“有效”ANN架构时，架构监测器61可以观察其性能的演变。架构监测器61可以使用这个信息来选择是继续训练(并因此改进)有效架构还是通过修改超参数值来尝试另一架构。

决策逻辑生成器60可以执行一个或两个循环(外部循环是可选的)：

-“内部循环”，其中ANN架构保持不变并且ANN权重迭代更新，以及

-可选的“外部循环”，由架构监测器61控制，其包括修改ANN超参数，即，改变有效ANN架构。

以下最终产生经训练的ANN的许多内部循环迭代可以被称为“完整训练周期”。

图10是方法140的流程图。方法140可以由决策逻辑生成系统40执行，特别地由决策逻辑生成器60执行。

在步骤141处，选择ML模型架构。选择ML模型架构可以基于指定ML模型架构或ML模型架构的类型(诸如ANN或SVM)的输入。选择ML模型架构可以包括从数据存储装置中选择多个候选架构中的一个。选择ML模型架构可以基于迁移学习、使用为另一控制器自动生成另一决策逻辑的过程所获得的结果。

在步骤142和143处，执行内部循环，其中训练具有所选择的架构的ML模型，直至满足第一终止标准。这可以包括响应于针对架构的(多个)先前参数化所确定的性能，迭代地改变ML模型的一个或多个参数。可以继续利用所选择的架构训练ML模型，直至在步骤143处确定满足第一终止标准。

在步骤144处，当满足第一终止标准时，该方法可以确定是否要测试另一ML模型架构。这可以包括确定是否满足第二终止标准。如果不满足第二终止标准，则在步骤145处选择另一ML模型架构，并且该方法返回到步骤142和143以训练具有另一ML模型架构的ML模型。

如果满足第二终止标准，则在步骤146处选择并输出候选决策逻辑中的一个。这可以包括选择经训练的ML模型中的在系统模拟中表现出最佳性能的一个。

在步骤146处输出决策逻辑可以包括经由UI 25提供关于决策逻辑的信息和/或经由接口24将决策逻辑部署到控制器，可选地响应于在UI 25处接收的用户确认。

步骤143处的第一终止标准可以取决于在训练具有固定机器学习模型架构的决策逻辑候选时所计算的性能的变化。

替代地或附加地，步骤143处的第一终止标准可以取决于训练决策逻辑候选时所计算的性能是否满足性能质量标准，例如性能阈值标准。

替代地或附加地，步骤143处的第一终止标准可以取决于是否已经生成具有参数(诸如权重)的所生成的多个决策逻辑候选，其充分覆盖了由架构提供的参数空间(例如，参数空间中的所测试的决策逻辑参数的密度是否超过阈值和/或决策逻辑参数是否被包括在参数空间中的一组预定义区中的每个中)。

替代地或附加地，步骤143处的第一终止标准可以取决于场景是否满足第二覆盖标准。第二覆盖标准可以涉及第二阈值比较，并且可以指示例如模拟中使用的场景覆盖至少系统规范内的场景参数空间的第二阈值百分比的区域。第二覆盖标准可以响应于用户输入来设置，可以是固定的，或者可以基于所计算的性能来动态调节。

步骤144处的第二终止标准可以取决于是否有尚未被训练的另外的决策逻辑架构可用。步骤144处的第二终止标准可以取决于先前改变ML模型架构时获得的性能的变化的阈值比较。

替代地或附加地，步骤144处的第二终止标准可以取决于训练决策逻辑候选时所计算的性能是否满足性能质量标准，例如性能阈值标准。

替代地或附加地，步骤144处的第二终止标准可以取决于是否已经生成具有足够覆盖超参数空间的超参数(诸如层和/或节点的数量)的所生成的多个决策逻辑候选(例如，超参数空间中所测试的决策逻辑超参数的密度是否超过阈值和/或决策逻辑超参数是否被包括在超参数空间中的一组预定义区中的每个中)。

如本文其它地方更详细地说明的那样，当在步骤145处选择另一ML模型架构时，这可能导致先前已经被确定为导致经训练的ML模型表现不佳的具有挑战性的场景被重新引入到该批有效场景79中。

如上所述，在图10的方法中，具有步骤144、145的外部循环是可选的。

决策逻辑生成器60可以接收为先前参数化(内部循环)和/或架构(外部循环)确定的性能值PV作为输入。决策逻辑生成器60可以响应于所接收的性能或在多个先前迭代中的性能的演变来生成新的参数化。

通常，决策逻辑生成器60可以基于针对至少第s迭代以及可选地第(s+1)迭代之前的多个迭代的先前的(多)组参数所获得的(多个)性能，为给定架构的训练的第(s+1)迭代确定新的一组参数(dlp_1,s+1,…,dlp_M,s+1)。在下文中，为了简明起见，将使用向量符号(其中

指定迭代s等的M元组参数)，应理解，可以使用任何其它有序的M元组。

决策逻辑生成器60可以根据以下为新的决策逻辑候选确定新的一组参数

限定决策逻辑候选的该组参数的更新

可以取决于先前确定的性能，或者可选地，取决于决策逻辑候选的多个先前组参数的先前确定的性能：

该组参数的更新

可以基于梯度技术来确定，诸如(随机)梯度下降，但不限于此。

在生成决策逻辑的过程期间，

对其(多个)变量的函数依赖性可能变化。为了说明，

可以被间歇地设置为零和/或可以引入比例因子，该比例因子确定决策逻辑候选的参数变化多快：

该组参数的比例因子sf(LR)和/或更新函数

可以取决于决策逻辑候选的参数在训练中，即在内部循环中，演变得多快。可以以非单调的方式选择性地改变比例因子，以调节学习率。如果决策逻辑生成器60和场景提供模块70使用对抗性逻辑(诸如GAN的生成器和鉴别器)，则调节学习率可能非常有用。可以响应于控制学习率的学习率参数LR来调节比例因子。如本文其它地方所述，学习率参数LR可以由协调器100生成。

决策逻辑生成器60的比例因子sf(LR)和/或更新函数

可以被调节，同时决策逻辑生成器60以生成系统模拟中表现更好的决策逻辑候选为目标进行学习。决策逻辑生成器60的比例因子sf(LR)和/或更新函数

可以基于所计算的性能或所计算的性能的变化率来动态调节。

决策逻辑生成器60的比例因子sf(LR)和/或更新函数

可以以非单调的方式动态调节。比例因子sf(LR)和/或更新函数

根据所计算的性能来管控由决策逻辑生成器60调节的参数的变化率，诸如响应于反馈信号的人工神经网络(ANN)的权重的变化率。

决策逻辑生成器60的比例因子sf(LR)和/或更新函数

可以间歇地减小和/或设置为零，以允许场景提供模块70提供更具挑战性的场景。如果训练导致决策逻辑候选具有良好的性能(例如，满足性能阈值标准的性能)和/或如果性能不再显著提高，则决策逻辑生成器60的比例因子sf(LR)和/或更新函数

可以间歇地减小和/或设置为零。

学习率可以由学习率管理器来控制。如图11所示，学习率管理器101可以包括在控制器100中。学习率管理器可以监控性能的演变，并且可以确定是否要响应于图10中的方法的多次迭代中的性能的演变来调节决策逻辑生成器60的学习率(和/或可选地，场景创建逻辑的学习率)。

训练ANN

每次内部循环迭代，可以更新ANN权重。训练模块62可以利用梯度技术，特别地梯度下降，用于更新。

可以利用ANN的某些输出标准相对于ANN权重的梯度。梯度可以用于应用于一批训练数据的(随机)梯度下降。

图12示出了当基于梯度的技术用于更新ML模型参数时，决策逻辑生成器60的操作。ML模型参数可以是ANN权重。

在监督学习设置中，输出标准可以是图12中的输出误差ErrorANN。输出误差ErrorANN可以是具有其当前参数化的ANN在模拟CL_output中作为输出提供的内容与该输出在理想情况下应为的内容(在下文中称为“正确的ANN输出”(例如“真值(ground truth)”))之间的差异。该“正确的ANN输出”用作监督学习信号，并且可以由性能评定器90提供。

这种情况的示例是保护系统的生成，其中在模拟之后可以确定每个保护继电器要采取的适当的决策(跳闸/不跳闸；或者立即跳闸/延迟跳闸/不跳闸)。

监督学习并不总是可能的。如图13所示，可以由决策逻辑生成器60执行参数搜索以更新ML模型参数。

性能评定器90可以通过评估决策逻辑候选对系统的影响(例如，电力系统在干扰后是否稳定)来量化决策逻辑候选的性能，而不必明确评定其输出。在没有ML模型输出误差的情况下，基于如以下参数搜索部分中所述的性能指标的值(图13)来指导ML模型训练的方法(即，更新其权重的值)可以用于更新ML模型参数(诸如ANN权重)。

在ANN训练的情况下，可以被确定的参数可以包括ANN权重或者可以由ANN权重组成。

对ANN训练过程的输入可以是学习率，其对应于最后训练样本对ANN权重更新的影响。学习率越高，就越多地根据由最新(一组)样本计算的梯度修改ANN权重。

在生成决策逻辑的过程期间，可以动态地修改学习率，使得ML模型参数化通过使用较大的学习率更快地远离表现不佳的解，或者ML模型参数化训练通过使用小的学习率花费更多的迭代来进一步改善看起来表现良好的解。

替代地或附加地，将ML模型参数化固定在(或围绕)被评定为在训练过程中目前为止有效的解允许场景提供模块70确定能够挑战当前有效决策逻辑的场景。这个新信息可以用于最终增加当前ML模型参数化的鲁棒性(通过相应地调整权重)或证明其是无效的，并因此触发新的一组迭代，其中决策逻辑生成器60使用较大的学习率来确定表现更好的ML模型参数化。

如图11所示，协调器100可以可操作用于在生成决策逻辑的过程期间动态地修改学习率，使得以尽可能少的计算工作量(例如，模拟花费的时间和/或所需的计算资源)获得最佳决策逻辑。协调器100的特征在本文的其它地方进行了更详细的描述。

确定ANN架构

架构监测器61可以在完整的训练周期内监控有效ANN性能的演变，并且可以决定何时停止训练周期，即停止进一步改进ANN解。当ANN性能不再显著提高时，或者如果有效的ANN架构似乎不能达到期望的性能水平(例如，如果所观察到的性能明显不如已经由另一架构获得的性能，并且训练似乎没有收敛到接近该性能)，则可以停止训练周期。

在训练周期结束时(例如，在包括图10的方法的步骤142、143的迭代过程结束时)，(i)经训练的ANN可以可选地被存储在历史记录110中，以及(ii)架构监测器61可以通过使用新的一组超参数值、通过迁移学习、或通过从数据储存库中选择另一候选决策逻辑来选择新的架构。此外，在决策逻辑生成过程正在进行时，架构监测器61可以重新选择已经训练的架构并进一步调整它。

该过程可以根据第二终止标准(例如，收敛到足够好的性能指标、达到最大训练周期数等)终止，并且从历史记录110中选择决策逻辑的最佳架构以及其参数化。

架构监测器61可以可操作用于选择新的架构。这可以用各种方式来完成，以有效地搜索超参数空间和/或一组可能的候选架构。

与均匀采样相比，为了减少计算负荷，架构监测器61可以执行以下中的任何一项或任何组合：

-减小问题的大小：架构选择可以通过考虑更简单、更小的目标问题来完成，使得循环可以运行得更快。然后，可以使用原始的较大问题来训练具有所选择的架构的ANN。适当的“较小的”(但代表性的)问题的确定可以取决于应用。例如，如果需要电力系统数值模拟来训练决策逻辑，问题减小可以包括进行部件建模和/或拓扑简化。

-利用下面参数搜索中呈现的参数搜索方法中的一个。

-逐步扩展ML模型的复杂性(例如，ANN架构)：第一训练周期可以使用小的ANN架构，使得可以利用相对低的计算量来训练决策逻辑候选。可以选择这些小的架构中的最有前途的(在性能指标方面)用于进一步的架构扩展(即，将节点、层和操作附加到小的架构)。可以使用如C.Liu等在“Progressive Neural Architecture Search”，EuropeanConference on Computer Vision(ECCV)，Munich，Germany，October 2018中提出的渐进式神经架构搜索。

架构监测器61可以i)为临近的任务在不同的ANN架构中进行选择，或者ii)依赖于来自类似任务的过去的解中的迁移学习，以便为临近的任务确定适当的超参数。这方面的更多信息将在本文稍后提供。

图14和图15示出了决策逻辑生成器60的操作，其可操作用于确定决策逻辑的架构和参数两者。架构监测器61可以执行参数搜索以确定架构，诸如ANN的超参数。可以使用试错搜索、基于模型的搜索、监督学习或强化学习。

训练模块62可以使用监督学习(图14)或者可以执行参数搜索(图15)来更新决策逻辑候选的参数(诸如ANN的权重)。

完全和部分数据驱动的场景创建和/或决策逻辑生成

场景创建逻辑和/或决策逻辑生成器可以是完全数据驱动的。然而，可以提供其它实施方式。

为了说明，场景提供模块(例如，场景创建逻辑)和/或决策逻辑生成器可以仅是部分数据驱动的。如上所述，场景提供模块(例如，场景创建逻辑)和/或决策逻辑生成器可以是基于模型的，并且可以确定相应模型的参数。

为了说明，场景提供模块(例如，场景提供模块的场景创建逻辑)可以可操作用于通过(系统)模拟生成场景。系统模拟可以利用系统模拟参数进行参数化。可以确定系统模拟参数的值，使得它们导致(多个)决策逻辑候选表现不佳。系统模拟参数的值可以从可以被预定义的范围中选择。场景创建逻辑的训练可以以使决策逻辑候选(例如，决策代理)表现不佳为目标来执行。

替代地或附加地，诸如决策代理的决策逻辑候选可以是基于模型的具有利用决策逻辑参数进行的参数化，其中决策逻辑参数的值可以被确定以改善(多个)决策逻辑候选的性能。可以通过优化来递增地调节决策逻辑候选。基于模型的决策逻辑候选可以是模型预测控制(MPC)控制器。决策逻辑候选的基础模型可以被参数化，并且决策逻辑候选的训练可以通过朝向更好的性能优化基础模型参数来执行。

可以在改进决策逻辑候选的过程中使用多场景优化。为了说明，可以使用多个基础模型。可以执行鲁棒或随机优化，以朝向可以被输出的决策逻辑迭代地改进决策逻辑候选。

基础模型可以覆盖作为控制器的系统的所有相关方面。为了说明，基础模型可以覆盖系统动态情况、随机外部干扰和/或非随机外部干扰，但不限于此。

示例：针对固定架构的决策逻辑生成

决策逻辑生成器60可以可操作用于确定决策逻辑的参数，其中架构是固定的。

对于各种类型的控制器，行业已经趋同于依赖特定应用的决策逻辑的传统结构。这种结构的示例是：(i)运行最优功率流(OPF)控制，用于输电网操作中的实时决策，(ii)调谐保护功能，诸如过流、距离、欠频等，(iii)电力系统部件的基于传递函数的控制器，诸如自动电压调节器(AVR)、管控器、FACTS设备和HVDC的控制等。

在这种情况下，决策逻辑生成器60的目标是确定与决策逻辑结构相关的一组参数的值。

具有给定架构的决策逻辑候选的各种参数可以基于由性能评定器90在(一批)系统模拟之后计算的性能指标来更新。由于相对于决策逻辑参数计算性能指标的梯度可能具有挑战性，因此可以利用参数搜索方法，如下面参数搜索部分中所提出的那样。

为了说明，OPF控制是优化问题，其中服从与电网及其部件相关的约束操作成本被最小化，即，OPF依赖于电网的第一性原理建模。向OPF中嵌入完全代表性的分析电力系统模型(例如，结合代表稳态和动态状态行为的电磁和机电模型)实际上是不可能的，因为这样的模型是高度非线性的并且非常大。因此，传统OPF通常只考虑稳态行为。甚至，OPF通常基于围绕操作点(即，DC-OPF)的电网模型的线性化而被进一步简化，从而允许对大系统进行更快的计算。在这种情况下，OPF不仅不考虑动态行为，甚至不适合用于电压调整，因为公式中完全忽略了无功功率。

为了克服OPF建模的缺陷，同时保持其计算效率，R.Z.Minano等的“SecuringTransient Stability Using Time-Domain Simulations Within an Optimal PowerFlow”，IEEE Trans.On Power Systems，vol.25，no.1，February 2010，和F.Capitanescu等的“Coupling Optimization and Dynamic Simulation for Preventive-CorrectiveControl of Voltage Instability”，IEEE Trans.on Power Systems，vol.24，no.2，May2009提出利用一组约束来增强原始的OPF公式，这些约束被选择为使得它们强制OPF解关于相关的一组动态现象是鲁棒的。这些技术可以用于其中决策逻辑包括或包含在求解OPF的情况。

图16示出了其中决策逻辑执行OPF的情况。求解OPF可能是约束优化问题，其可以根据上面引用的参考文献来表述。参数搜索可以利用替代模型，如将参照图21说明的那样。

约束可能使得它们捕获OPF中使用的模型的不明确部分。本文公开的技术可以用于自动确定正确的约束。一组约束可以被参数化，并且然后这些参数的适当值可以被确定为生成决策逻辑的自主过程的一部分。这种参数化约束的示例可以是w₁P₁₊w₂P₂+w₃P₃≤P，其中，P_i是第i线路上的有功功率流，w₁、w₂、w₃、P是约束参数，其中，线路1、2和3构成两个互连区域之间的关口。因此，决策逻辑生成器60的任务可以操作用于确定这些参数。

示例：分布式控制系统的决策逻辑生成

决策逻辑生成系统40可以生成分布式决策逻辑，即，整个电网中的一组设备/装备的决策逻辑，其中每个设备具有其自己的决策逻辑。

使用集中式程序来同时生成多个决策逻辑的好处是以协调的方式考虑了跨控制器的互操作性。如果在其环境中的其它控制器的行为在生成过程中被建模和考虑，特别地由模拟引擎80，则决策逻辑生成系统40在为控制器中的仅一个生成决策逻辑时也可以考虑跨控制器互操作性。

分布式决策逻辑的协调生成可以以与单个决策逻辑的设计相似的方式来执行。基于每(批)模拟计算的性能指标的值，迭代更新部署在各种不同控制器中的各种决策逻辑的参数，如本文其它地方所述。类似于单个决策逻辑的生成，每个控制器可以具有决策逻辑架构，该决策逻辑架构可以是ANN或者可以具有由人类工程师指定的结构(例如，PID类型的控制器)或通过迁移学习建立的结构。

不同的控制器可以具有不同架构的决策逻辑，但是仍然可以由决策逻辑生成系统40同时生成。为了说明，可以部署决策逻辑生成器60的多个示例，每个示例与分散式控制系统的决策逻辑中的不同的一个相关联。

决策逻辑生成系统40可以根据哪些控制器对性能指标具有更大影响(即可控性)来执行分布式控制系统的决策逻辑的加权。决策逻辑生成系统40可以接收关于各种控制设备的更平衡贡献的规范的信息。这可以通过在性能指标上反映这样的要求来实施。

可以由决策逻辑生成系统40生成的协同分布式决策逻辑的示例包括(但不限于)：

-生成保护系统(基于所观察到的电压和电流测量在多个保护继电器中的每个中运行的决策逻辑)，

-生成FACTS或HVDC设备的协调控制(基于本地或系统范围的测量在每个FACTS控制器中运行的决策逻辑)，

-生成设备的决策逻辑，其嵌入在分布式能源中或由MV/LV电网中的现场管理系统操作。这种协调的设计过程可以考虑当今操作实践以及不同的范例，其中MV/LV电网的操作完全自主，从而实现零售级(retail-level)能量交易。

场景提供模块

场景提供模块70可操作用于向模拟引擎80馈送针对其评定决策逻辑候选的性能的场景。模拟适当场景的系统响应对于设计决策逻辑至关重要，其在被部署时将在各种状况下表现良好。

通常，需要考虑两类场景：

-覆盖预期决策逻辑经常面对的场景(例如，对应于正常电力系统操作的场景)。

-很少发生但具有挑战性的场景，对于该场景决策逻辑应该是鲁棒的。

对应于正常操作状况的场景可以被反映为性能指标中的成本分量。最可能的场景在性能指标的计算中可能具有较高的权重。这可以使用参考等式(2)说明的加权来实现，但不限于此。

很少发生但具有挑战性的场景可以由性能评定器90以二元方式评估。为了说明，性能评定器90可以根据决策逻辑候选是否仍然能够做出正确的决策来评定很少发生但具有挑战性的场景。为了说明，在这种场景下决策逻辑可能不接受不能通过测试(例如，决策逻辑相对于干扰的不稳定行为)。

创建一批场景的一种技术是在自主决策逻辑生成过程之前由人类工程师选择场景，并且决策逻辑生成系统40构建决策逻辑，使得控制目标对于那些场景是最优的。该批有效场景69可以在生成决策逻辑的整个自主过程中保持恒定，并且唯一有效的子系统可以是决策逻辑生成器60。

因为对于人类工程师来说，预先确定要模拟哪些场景和/或确保对决策逻辑的鲁棒性或有效性的更彻底的评估是具有挑战性的，所以可以利用不由人类工程师限定或选择的附加场景。

在选择大的场景组以覆盖理论上所有可能性所导致的计算效率低与获得使用较小的组的预选场景所导致的稳健性的难度之间存在权衡。可以使用主动学习方法，从而允许决策逻辑生成系统40根据表现评定来生成和改变场景。

场景提供模块70可以可操作用于保持和动态调节用于在模拟引擎80中执行模拟的一批有效场景79。场景提供模块70可以使用来自两个或更多不同源71至73的场景以包括到该批有效场景79中。源71至73可以包括历史和/或用户限定的场景的储存库。源71至73可以包括生成计算机生成的场景的逻辑，其既不包括在历史数据中也不由人类专家限定。

场景提供模块可以调节该批有效场景79，使得在该批有效场景79中，历史和/或用户限定的场景的一部分在生成决策逻辑的迭代过程中减少，可选地单调减少。

场景提供模块可以调节该批有效场景，使得在该批有效场景79中，由场景创建逻辑生成的一部分场景在生成决策逻辑的迭代过程中增加，可选地单调增加。

图17示出了场景提供模块70的实施方式。场景提供模块70可以组合来自三个源的场景：

-外源性场景71：由人类工程师在执行自主决策逻辑生成过程之前提供和/或从历史数据中选择的被认为是关键的和/或最可能的一组场景。

-场景创建逻辑72：作为主动学习方法的一部分，可以不断生成新场景。

-要重新考虑的场景73：已经用于测试决策逻辑的具有挑战性或关键的场景可以在测试新的决策逻辑时循环使用。这些具有挑战性的场景可以从历史记录110中检索。

场景提供模块70可以从三个源71至73中选择场景，并且可以将所得到的批次馈送给模拟引擎80。这种选择可以以多种方式进行。例如：

-在生成决策逻辑的过程开始时，场景提供模块70可以向模拟引擎80馈送在外源性场景71中选择的场景批次。

-在生成决策逻辑的过程期间，场景提供模块70可以从协调器100接收指示是否已经由决策逻辑生成器60获得了目前为止表现良好的决策逻辑的信号。响应于此，场景提供模块70可以选择由场景创建逻辑72创建的更多场景，以挑战有效决策逻辑69。

-场景提供模块70可以跟踪触发决策逻辑候选的更新，特别地架构的更新，的具有挑战性的场景。这些场景可以被标记为要重新考虑的场景。场景提供模块70可以从要重新考虑的场景的列表中循环选择场景，以确保随着决策逻辑候选演变，它们仍然能够处理先前确定的具有挑战性的场景。

场景提供模块70可以以随机方式或使用特定选择标准从要重新考虑的挑战场景的组中选择场景。为了说明，场景提供模块70可以被逐步训练以学习具有挑战性的场景的列表中哪些场景最有可能影响决策逻辑，并且更频繁地选择这样的场景来包括在一批有效场景79中。

场景创建逻辑

场景创建逻辑72可操作用于挑战有效决策逻辑69，即，确定导致决策逻辑候选表现不佳的合理场景。

如本文所用，如果由性能评定器90确定的性能不满足基于性能的质量标准，例如，如果其未通过性能阈值测试，则可以认为决策逻辑候选表现不佳。

场景创建逻辑72的输出可以包括由分配给限定场景的所有参数的值组成，诸如需求和发电水平/模式、意外事件、故障、拓扑等。这些参数可以被认为是场景向量或任何其它场景参数元组。

如图18所示，场景创建逻辑72可以包括ML模型74或者可以由ML模型74来实施，诸如示意性所示的ANN(或者通常任何其它ML模型)。

ML模型74可以可操作用于生成参数值组(诸如参数向量)。场景创建逻辑72的输出可以在生成决策逻辑的整个过程中不断变化。ML模型74可以可操作用于生成有用的具有挑战性的场景。建立ML模型74使得其输出对应于合理场景，即，电力系统的系统规范内的场景。

如图19和图20所示，场景创建逻辑72的ML模型74可以以各种方式实施。

ML模型74可以是GAN的鉴别器，其中在决策逻辑生成器60中提供有GAN的生成器。

图19示出了场景创建逻辑72的实施方式，其中ML模型74作为将输入映射到一组场景参数的(可能地随机的)函数来工作。

输入可以包括当前决策逻辑的描述(并且可能地包括从历史记录110获得的先前迭代的描述)。

场景创建逻辑72的ML模型74可以在决策逻辑生成期间学习，使得所生成的场景将是其中决策逻辑候选可预测地显示低性能的具有挑战性的场景。作为自主决策逻辑生成过程的一部分，可以通过利用先前模拟的场景和相对的控制器性能(其可以从历史记录110接收)来训练场景创建逻辑72，其通过其架构和其参数值(例如，ANN权重)内部描述。

学习过程的目标是使得场景创建逻辑72的ML模型74收敛到经训练的模型，该经训的练模型可以为给定的决策逻辑候选69创建具有挑战性的场景。限定场景创建逻辑72的参数值在自主决策逻辑生成过程开始时变化得更快，直至收敛到表现良好的场景创建逻辑72。随着自主决策逻辑生成过程进行，场景创建逻辑72的ML模型74的参数可能变化很小。

图20示出了场景创建逻辑72的实施方式，其中ML模型74在决策逻辑生成过程期间不断自我更新(例如，ANN权重不断变化)。与上述选项1相反，这种方法的目标不是收敛到一组参数。参数将不断变化，使得在设计过程的每个示例，场景创建逻辑72创建“有用的具有挑战性”的场景。

在这种情况下，对场景创建逻辑72的输入不来自决策逻辑生成过程。可以使用预先选择的输入向量，该向量可能相当小。这个输入向量可以是静态的(即恒定的)或随机变化的(在统计分布内)。为了说明，如果场景创建逻辑72是ANN，则通过ANN内部操作和隐藏层将这个输入向量转换成ANN输出层处的场景向量的方式可以随着ANN权重被更新而变化。

场景创建逻辑72的架构(以及在图20中的架构的情况下所需的输入向量)可以由人类工程师在决策逻辑生成过程之前提供，或者在生成过程期间通过求助于参考决策逻辑生成器60所描述的架构管理器来自动确定。

参数搜索方法

决策逻辑生成器60和/或场景创建逻辑72可以可操作用于确定一组参数(可能地包括超参数)的良好或最佳值。这些参数/超参数可以包括但不限于：

-ANN的权重，

-决策逻辑架构的超参数(例如，隐藏层的数量、每层中的节点的数量、循环回路、门或任何其它结构元素)，或

-具有预定义结构的决策逻辑候选的参数(为了说明，如上所述确定OPF控制的约束)。

例如，作为生成决策逻辑的自主过程的一部分，可以由决策逻辑生成器60和/或场景创建逻辑72使用以下技术中的任何一种。对最佳参数值的搜索本质上是优化问题。

可能存在经历优化的离散或连续的决策变量(或两种类型的混合)。决策变量的种类和数量(即搜索空间的维度)对优化问题的难度、最佳优化方法和预期的优化结果的质量具有影响。尽管对于低维或凸连续高维问题，全局优化是可实现的，但在其它情况下，通常只有局部优化是可能的。

可以总是应用试错搜索，因为它不需要任何分析信息(诸如梯度)来指导参数空间的搜索。它仅要求可以评估参数集的性能，这在本文公开的技术中总是如此，因为性能评定器90的角色是通过使用模拟引擎80的结果(例如，通过一批有效场景69的模拟)来执行评估。一组参数的评估可以被称为“回报信号”。建立的试错搜索方法包括进化和遗传算法、爬山算法、模拟退火法和其它启发式方法。试错搜索方法的缺点是低的时间效率。为了解决或减轻这点，可以根据情况使用其它方法，如下文所说明的那样。

基于模型的搜索依赖于模型(分析的或基于机器学习的)的可用性，其评估参数的选择的预期性能，从而绕过为了计算性能指标而模拟(一批)场景的需要。如果这个模型先前从各批场景的多个模拟中确定，则这个模型称为替代模型。如果替代模型是解析的，则可以采用形式优化方法来确定最佳参数。如果所讨论的参数空间是低维的，则基于替代模型的优化可能是优选方法。

下面参考图69提供了在自主决策逻辑生成过程期间如何确定和利用(基于机器学习的)替代模型的示例。

为了优化ANN的参数，可以使用如下所述的监督学习和强化学习(RL)。

监督学习可以用于通过(随机)梯度下降来优化ANN的参数。它需要监督学习信号(即“正确的ANN输出”)是可用的。如果决策逻辑通过监督学习来训练，则这被称为模仿学习，因为决策者学习以模仿另一决策者。只有当性能评定器90或模拟引擎80能够确定“正确的ANN输出”时，利用监督学习才是适用的，因此这用作基准决策。为了使模仿学习成功，具有挑战性的场景将被包括在训练数据中。这由场景提供模块70执行，并且具体地，由它的场景创建逻辑72执行。

如果没有监督学习信号可用，但是回报信号可用，则可以应用强化学习(RL)。即，与监督/模仿学习中的情况相反，性能评定器90不能确定给定场景中的控制动作应该是什么，但是它可以评估控制动作的结果(即，计算性能标)。可以基于性能指标来限定回报信号；因此它总是可用的。利用RL可能比试错搜索更有时间效率。

大量的RL算法是可用的，特别地用于学习基于ANN的决策逻辑。现代RL方法(其具有最先进的性能并且因此优选用于各种实施例)具有以下特性：

-决策逻辑可以利用值函数的评估器来补充，其是给定当前状态和动作的(折扣的(discounted))累积预期未来回报。因此，梯度是在改善决策逻辑的长期性能的方向上移动决策逻辑参数，而不是基于实际回报的短视梯度。

-参数的更新在包括观察(输入到决策逻辑)和决策的数据的历史轨迹上执行。对于这样的轨迹，仅执行若干训练阶段，这减少了计算工作量并且同时对于训练稳定性是必要的。

图21示出了(基于机器学习的)替代模型65如何可以与基于OPF的决策逻辑共存并更新其参数的示例。

对于这种实施方式，重要的是在自主设计过程期间在如何更新决策逻辑参数

(其是替代模型的输入)和如何训练替代模型本身(即，如何更新ANN的内部权重

)之间进行区分。为了使决策逻辑生成器60确定新的一组参数

通过使用替代模型来计算性能指标相对于每个参数

的梯度(可以理解，导数是梯度的简称，即，PM相对于向量

的向量分量的偏导数)。

决策逻辑生成器60可以使用这些梯度(例如执行随机梯度下降)来计算

的新值，然后这些值在约束

中使用，从而改变决策逻辑候选。

新的决策逻辑候选可以相对于各批场景模拟，并且其性能可以如已经说明的那样被评定。该评定不仅可以用于更新参数

的值，还可用于更新替代模型本身(即，神经网络的权重)。经更新的替代模型可以用于计算将由决策逻辑生成器60尝试的下一组

值。在生成决策逻辑的自主过程期间，目标决策逻辑本身和替代模型两者彼此并行地(更具体地，轮流地)训练。

上述学习过程的动态本质上朝向收敛到足够精确的替代模型65和具有高性能的决策逻辑而稳定。

如果替代模型足够好，则所得到的

将在正确的方向上，从而改善控制逻辑性能。另一方面，如果替代模型不够好，则所得到的

将不一定会改善控制逻辑。然而，这样的步骤对于算法仍然是有益的，因为它将生成新的数据样本，这些数据样本将用于升级替代模型，从而最终达到足够好的精度水平。

类似地，替代模型65可以在设计过程期间被训练，并用于更新ANN的权重和/或超参数，如例如参考图9至图16以及图18至图20所说明的那样。

例如，对于ANN超参数更新，相对于通过运行训练阶段来评估有效ANN架构的性能，也可以训练替代模型65来评估一组超参数的预期性能。替代模型65可以是可以被训练来接收超参数向量作为输入并且预测相应的架构的性能的另一ANN。由架构监测器61使用它来确定最有希望的架构，使得只有这些架构通过耗时的完整训练阶段进行测试。

替代模型65可以在决策逻辑生成过程期间使用已经训练的各种架构的性能指标评定来逐步构建。该过程可以从没有可用的这种替代模型65开始，或者，它可以从在先前解决的决策逻辑生成过程中训练的替代模型65开始。

决策逻辑生成器60可以包括监管模块，该监管模块可操作用于确保遵循主动学习方法，以便指导替代模型65的训练(例如，通过RL)。

协调器

当决策逻辑生成系统40包括具有对抗性目标的决策逻辑生成器60和场景提供模块70时，应该提供协调以确保以时间高效的方式收敛到期望的解。

如图6和图11所示，协调器100可以可操作用于控制决策逻辑生成器60和场景提供模块70(特别地，场景创建逻辑72)。协调器100可以响应于模拟结果。协调器100可以生成控制信号并将其输出到决策逻辑生成器60和场景提供模块70(特别地，场景创建逻辑72)。协调器100可以生成控制信号并将其输出到决策逻辑生成器60和场景提供模块70(特别地，场景创建逻辑72)，以协调和调整生成决策逻辑候选的过程以及用于挑战决策逻辑候选的场景。

协调器100可以控制决策逻辑生成器60和/或场景创建逻辑72的学习率，其确定参数响应于反馈信号而改变的速率。

由决策逻辑生成系统40执行的生成决策逻辑的自主过程是动态过程。该过程可以

-收敛到平衡，即，其中由场景创建逻辑72生成的场景不挑战有效决策逻辑候选69，并且同时由决策逻辑生成器60生成的决策逻辑更新不显著改善性能指标的情况，或者

-不是及时地收敛到平衡，而是决策逻辑生成器和场景提供模块不断产生决策逻辑更新和新场景。

的作用

在第一种情况下，有可能但不能保证对应于这种平衡的决策逻辑是期望的决策逻辑。然而，如果收敛太快，而没有适当地探索控制逻辑和场景的可行选项，则过程可能在不期望的平衡处停滞(诸如在本领域中的“模式瓦解”和“梯度减小”问题中)。

例如，决策逻辑候选69可能过快地变好，以至于生成过程被驱动到其中场景创建逻辑72不能生成明显挑战决策逻辑的，即，导致相当不同的性能指标的，任何场景的平衡。这种情况的影响是场景创建逻辑72的训练循环中的梯度信息没有提供朝向创建更具挑战性的场景的足够指导，即，场景创建逻辑72不能学习如何生成新的具有挑战性的场景，即使这些场景可能仍然存在并且需要被确定，以便决策逻辑生成过程最终在期望的决策逻辑处终止。

协调器100可以可操作用于

-确保自主决策逻辑生成过程不在没有适当地探索决策逻辑候选和场景的可行选项的情况下停滞在过早的平衡处，以及

-终止自主决策逻辑生成过程(处于平衡或未达到平衡)。

协调器100可以主动控制决策逻辑生成器60和场景创建逻辑72的操作，以确保自主决策逻辑生成过程不在没有适当地探索决策逻辑候选和场景的可行选项的情况下停滞在过早的平衡处。

为了说明，协调器100可以可操作用于执行以下中的任何一个或任何组合：

-驱动决策逻辑生成器60的学习率，

-更新(例如，持续更新)场景提供模块70的场景选择策略(这可以包括触发场景提供模块70以增加由该批有效场景79中的场景创建逻辑创建的计算机生成的场景的数量)，

-减速(例如，甚至通过冻结)和/或加速决策逻辑生成器60和/或场景创建逻辑72的(多个)学习率，和/或减速(例如，甚至通过冻结)和/或加速将由场景创建逻辑创建的新场景添加到该批有效场景79的过程，使得另一过程可以演变，

-确定是否必须修改性能评定器90使用的性能指标，如果是，则修改性能指标，以及

-确定整个决策逻辑生成过程是否在次优解处停滞，并且如果过程停滞，则重新定位和/或重新引导学习过程，使得停滞的情况被避免。

协调器100可以根据以下标准中的任何一个或任何组合来引起决策逻辑生成过程的终止：

-由可以在UI 25处从人类工程师接收的输入限定的性能阈值被满足(例如，低于期望值的电网操作成本、满足意外事件前和意外事件后操作约束、满足保护KPI等)。

-性能不再提高，或者只略微提高(例如，通过决策逻辑更新，电网操作成本不再降低)。

-决策逻辑架构和/或参数化的空间被充分探索。探索的水平可以通过评定已经测试过的决策逻辑示例的统计覆盖，并将其映射到设计选项的空间来测量。

-潜在场景的空间被充分覆盖。探索的水平可以通过评定已经测试过的场景示例的统计覆盖，并将其映射到设计选项的空间来测量。

图22是根据实施例的协调器100的框图。协调器100可以包括性能处理模块102。性能处理模块102可以可操作用于监控由性能评定器确定的性能的演变。性能处理模块102可以可操作用于确定性能的变化率。

协调器100可以包括终止控制模块103。终止控制模块103可以响应于性能处理模块102的输出，例如，响应于迭代生成过程中所计算的性能的变化率。

终止控制模块103可以可操作用于控制何时终止具有所选择的架构的决策逻辑候选的训练，以及何时选择另一架构。终止控制模块103可以触发决策逻辑生成器60选择另一决策逻辑架构，例如通过改变超参数。

替代地或附加地，终止控制模块103可以可操作用于测试不同决策逻辑架构和训练这些架构的整个过程何时终止。

终止控制模块103可以根据性能已经被评估的决策逻辑候选的数量阻止决策逻辑生成器和/或场景创建模块的训练的终止。

终止控制模块103可以根据性能已经被评估的决策逻辑候选的数量的阈值比较来阻止决策逻辑生成器和/或场景创建逻辑的训练的终止。如果性能已经被评估的决策逻辑候选的数量小于阈值，则可以继续训练。替代地或附加地，如果性能已经被评估的决策逻辑候选没有充分覆盖参数空间或超参数空间中的至少一组不同区，则可以继续训练。

替代地或附加地，终止控制模块103可以根据已经由场景创建模块生成的场景防止决策逻辑生成器和/或场景创建模块的训练的终止。

终止控制模块103可以根据已经执行系统模拟的场景的数量的阈值比较来防止决策逻辑生成器和/或场景创建逻辑的训练的终止。如果已经执行系统模拟的场景的数量小于阈值，则可以继续训练。替代地或附加地，如果已经执行系统模拟的场景没有充分覆盖场景空间中的至少一组不同区，则可以继续训练。

图23示出了场景参数空间中的平面。场景151、152表示已经被包括在用于决策逻辑候选69中的至少一个的一批有效场景69中的场景。空间的探索的水平可以通过评定已经被测试的场景示例的统计覆盖并将其映射到可能场景的空间来测量。替代地或附加地，场景参数空间可以包括需要被覆盖的区域153。可以防止决策逻辑生成过程的终止，直至(多个)区域153中的至少一些场景已经被测试。协调器100可以主动指导场景创建逻辑72在该区域153内创建场景。

图24示出了可以由终端控制器103处理的输入。终止控制可以根据已经获得的(多个)性能161、(多个)性能的变化率162、场景空间覆盖163和/或决策逻辑覆盖164来触发和/或阻止决策逻辑候选架构的训练或从一个架构或另一架构的改变的终止，其中该决策逻辑覆盖可以量化决策逻辑参数空间或决策逻辑超参数空间中的覆盖。

协调器100可以可操作用于使用以下方式中的任何一个或任何组合来引导收敛过程：

1.如果决策逻辑候选生成器60已经确定具有良好性能的决策逻辑候选69，则协调器100可以降低决策逻辑候选生成器60的学习率(或者甚至可以完全冻结决策逻辑候选生成器60)。这可以允许场景提供模块70，以及特别地场景创建逻辑72，通过选择或生成适当的场景来充分地挑战这个决策逻辑候选69。附加地或替代地，协调器100可以向场景提供模块60发送调节信号，以例如通过增加由场景创建逻辑72创建的场景的一部分来改变该批次79中的有效场景的混合。

2.如果场景提供模块70，以及特别地场景创建逻辑72，已经确定导致决策逻辑候选69表现不佳的一组具有挑战性的场景，则协调器100可以增加决策逻辑候选生成器60的学习率，以允许它更有效地修改决策逻辑候选69。

3.当场景创建逻辑72已经创建了成功挑战决策逻辑候选69的一组场景时，协调器100可以冻结生成新场景的过程，使得决策逻辑生成器60可以尝试构建能够处理有效批次中的场景的新的决策逻辑候选69。

为了说明，当决策逻辑生成器60已经生成在给定的一组场景79下表现良好的决策逻辑候选69时，该过程可以被冻结，该决策逻辑候选被认为是“有效的”，并且场景创建模块72可以以确定将挑战有效控制逻辑69的一批场景为目标继续操作。这可以包括场景生成ANN 74的另外的训练。

在另一迭代期间，当场景创建模块72已经创建成功挑战有效决策逻辑候选69的一组场景时，生成新场景的过程可以被冻结，这样的场景被视为“有效场景批次”79。决策逻辑生成器60以构建可以处理有效批次79中的场景的新的决策逻辑候选69为目标进行操作。

4.协调器100可以通过场景提供模块70将已经导致先前测试的决策逻辑候选表现不佳的先前确定的具有挑战性的场景循环地重新引入到有效场景批次中。在自主决策逻辑生成过程期间，协调器100可以评估或执行规则以决定应该重新考虑先前具有挑战性的场景中的哪些。做这种决策的方式是，每当有效决策逻辑候选69与先前由性能评定器确定并存储在历史记录110中的相应决策逻辑候选-挑战场景对中的决策逻辑候选69相比显著变化时，重新引入具有挑战性的场景。

先前测试的场景可以基于相似性指标进行聚类。可以由协调器100利用这个信息来确保来自不同群集的场景被重新考虑。

5.为了及时达到期望的决策逻辑，自主生成过程可以包括(场景和决策逻辑候选69选项的)探索和利用(或诸如可用时间、计算基础设施、软件许可等资源)之间的权衡。

决策逻辑生成器60和场景提供模块70目标是

i.分别探索决策逻辑候选69设计和场景79的空间，以确保充分覆盖所有选项，同时ii.将可用资源集中于最有希望的决策逻辑候选69设计以及集中于使用最有用的场景(即，具有挑战性和代表性)进行测试。

决策逻辑生成器60和场景提供模块70可以具有内在机制来平衡探索与利用权衡。替代地或附加地，可以实现折衷，即，协调器100可以向性能评定器90发送信号，以降低作为性能指标的一部分的一些约束的权重。

6.为了防止自主决策逻辑生成过程停滞，协调器100可以监控决策逻辑生成器60和场景创建逻辑72的改进率。基于决策逻辑生成器60和场景创建逻辑72的改进率的比较，可以调节决策逻辑生成器60和场景创建逻辑72的(多个)学习率。为了说明，如果决策逻辑生成器60和场景创建逻辑72中的一个比另一个提高得快得多，则协调器100可以降低其学习率，以允许另一子系统自身也提高。

图25是方法170的流程图。方法170可以由协调器100执行。

在步骤171处，可以监控性能演变。这可以包括监控由性能评定器90在迭代过程中确定的性能的演变，在该迭代过程中，训练决策逻辑候选(即，改变其参数)和/或改变决策逻辑候选的架构。

在步骤172处，决策逻辑生成器60或场景创建逻辑72的学习率可以基于性能的演变而选择性地降低。为了说明，如果决策逻辑生成器60和场景创建逻辑72中的一个比另一个提高得快得多，则协调器100可以降低其学习率，以允许另一子系统自身也提高。决策逻辑生成器60与场景创建逻辑72相比的改进可以通过在场景79下有效决策逻辑候选69的性能的改进来反映，如性能评定器所确定的那样。场景创建逻辑72与决策逻辑生成器60相比的改进可以通过在场景79下有效决策逻辑候选69的性能的改进来反映，如性能评定器所确定的那样。

在步骤173处，可以继续监控性能演变。

在步骤174处，先前已经降低的学习率可以再次增加。这可以作为在步骤173处监控的性能演变的函数来完成。为了说明，如果决策逻辑生成器60以降低的学习率操作，则场景创建逻辑72比决策逻辑生成器60提高得更快，并且由性能评定器90确定的性能将降低。当由性能评定器90确定的性能已经降低时(例如，降低到阈值或低于阈值)，协调器100可以再次增加决策逻辑生成器60的学习率。

降低学习率可以包括冻结决策逻辑生成器60或场景创建逻辑72。

为了说明，当决策逻辑生成器60已经生成在给定的一组场景79下表现良好的决策逻辑候选69时，修改决策逻辑候选69的过程可以被冻结，决策逻辑候选69被认为是“有效的”。场景创建逻辑72操作以确定用于挑战有效决策逻辑候选69的一组场景79。这可以包括场景生成ANN 74的另外的训练。

当场景创建逻辑72已经创建了成功挑战决策逻辑候选69的一组场景79时，可以冻结创建新场景和/或通过学习提高场景创建逻辑72的过程。当前有效场景可以被用作“有效场景批次”70。决策逻辑生成器60操作以生成可以处理有效批次79中的场景的新的决策逻辑候选69。

图26是方法180的流程图。方法180可以由控制器100自动执行。

在步骤181处，控制器100可以至少监控正在使用的候选决策逻辑的架构并且可选地监控由性能评定器100确定的性能。

在步骤182处，确定由决策逻辑生成器60训练的决策逻辑候选的架构是否已经改变。架构的这种改变可以由控制器100本身和/或性能评定器90触发。

在步骤183处，响应于由决策逻辑生成器60训练的决策逻辑候选的变化，协调器100可以触发场景提供模块60将具有挑战性的场景循环地重新引入到该批有效场景中。这些具有挑战性的场景可以从历史记录110中检索。这些具有挑战性的场景可以是已经被确定为导致另一决策逻辑架构表现不佳的场景，即使在训练之后。

历史记录

历史记录110可以是存储设备或存储系统。历史记录110可以本地或远程提供，例如作为分布式存储系统。

历史记录110可以可操作用于存储在决策逻辑生成过程期间生成的数据。可以检索数据中的一些来确定表现最佳的(多个)决策逻辑候选和/或用于在训练其它决策逻辑候选中使用。

历史记录110中的条目可以包括关于决策逻辑候选、已经对其测试了决策逻辑候选的(一批)场景、以及所得到的性能指标值的信息。

为了说明，历史记录110中的每个条目可以包括：

-场景向量(或一批场景向量)

-一个特定的决策逻辑候选(即，限定决策逻辑架构及其相关联的参数的所有特定值)

-性能指标的相应值。

标签可以可选地包括在历史记录110中。为了说明，条目中的一些可以被标记以指示它们包括已经导致相应的决策逻辑候选表现不佳的一个或多个具有挑战性的场景。

迁移学习

对于不同的情况(诸如不同的输电或配电网、不同的项目等)，可能遇到类似或相同的决策逻辑生成任务(例如，保护逻辑的或FACTS/HVC决策逻辑的生成)。

每个新的决策逻辑生成过程可以建立在来自先前设计的决策逻辑的知识上，以加速决策逻辑生成过程并且可能地导致甚至表现更好的新决策逻辑。这种提高可能既涉及所生成的决策逻辑，也涉及决策逻辑生成器60和/或场景创建逻辑72。

在先前的决策逻辑生成过程中生成的数据的利用可能涉及迁移学习技术。为了说明，对于给定的系统拓扑、控制器规范和决策逻辑目标，决策逻辑、决策逻辑生成器60和/或场景创建逻辑72的架构可以通过迁移学习来预先限定。自主决策逻辑生成过程可以仅关注限定相关联的参数。

示例：电力系统闭环控制的自主设计

决策逻辑生成系统40可以用于传输系统。为了说明，决策逻辑生成系统40允许由传输系统运营商(TSO)使用的控制器被配置或调试。决策逻辑生成系统40可以用于生成控制方案，其允许电网约束的瓶颈效应被减小或最小化。这反过来允许电网在接近其极限下操作。可以在各种提前时间范围(例如，提前一天、提前一小时等)安排/调度成本更低且更环保的发电。

在现场操作中，所设计的(多个)决策逻辑可以监控电网，并生成和发布适当的控制动作。控制方案可以是集中式的(其中各种电网部件由一个决策实体(通常在控制中心处)控制)，也可以是分布式的(其中本地控制器独立地朝着共同的目标起作用)。另一选项是，控制方案是虚拟控制方案，充当TSO的人工智能(AI)助手。在现场操作期间，可以向TSO实时建议动作，但不需要自动致动。控制方案建议和/或发布电网的有效操作点的修改。

控制动作不限于纠正动作(例如，用于缓解所监控的热过载或使电压在期望的限制内)，然而它们也可以是预防性的，即确保操作点将能够承受一组候选意外事件中的任何一个。

为了说明，在电力传输系统中，可用的电力传输容量受到N-1标准约束，即，电力系统能够承受任何意外情况(即，N-1安全)的要求。这导致N-1安全性的附加控制目标。后者可以是“预防性的”或者“纠正性的”。如本文所用，如果任何所考虑的干扰导致到新的可行操作点的可行且稳定的动态轨迹，而没有来自设计下的决策逻辑的任何动作(设备的主控制器可能正在采取动作)，则操作点是“预防性安全的”。如本文所用，如果设计下的决策逻辑能够在任何所考虑的干扰之后采取控制动作，使得确保到新的可行操作点的可行且稳定的动态轨迹(设备的主控制器也可以与设计下的决策逻辑并行采取动作)，则操作点是“纠正性安全的”。

“操作点”可以(典型地，但不是详尽地)由发电机和能量存储装置的P和Q注入、各种节点处的P和Q消耗、HVDC换流站的P和Q注入、FACTS设备、并联部件(电容器、电抗器)、移相器、LVR和OLTC的设置、开关的状态、以及电网分支(线路、线缆、变压器、换流站等)中的所得到的P和Q功率流来限定。控制方案可以可操作用于计算上述全部或子集(例如，仅发电再调度或仅FACTS控制)的修改。为了决定动作，控制方案可以基于电网可观察性的水平。除了前面提及的可控部件的状态之外，典型地，可观测性还包括从节点接收V和I测量(时间同步或不同步)。

这种控制方案有各种益处。在实时现场操作中，它增加了电网可靠性，降低了失去负载的可能性；和/或降低了电网操作成本，因为它提出了最佳动作。在未来使用中，当在未来(例如，日前)中安排电力交易时，它是可以依赖的，即，使更高的电网传送能力可用于电力市场。

决策逻辑生成系统40可以用于生成这样的控制方案。由决策逻辑生成系统40生成的决策逻辑是控制方案。

场景

场景可以由以下参数中的全部或部分来限定，但不限于此：

-限定操作点的所有变量(如上限定)，

-一个(或多个或没有)意外情况/事件(例如，线路中的故障)，

-外源性变量，诸如温度、风速、太阳辐照度、时间、季节等，

-预测，诸如负载或可再生能源发电预测。

性能指标

目标是开发总是确保可行且稳定/安全的操作点，并且以尽可能低的成本实现这样的操作点。

如下所述，在模拟引擎中计算给定场景中由控制方案建议的动作导致的操作点。

性能评定器100可以将“可接受性”和“成本”组合成一个性能指标，该性能指标由决策逻辑生成器60、场景提供模块70和协调器100使用。

决策逻辑生成系统40可以可操作用于找到这个性能指标的极值(对于以下示例为：最小值)：

1)如果操作点不可接受(例如，不稳定，或者电压或电流不在限制内)，则“不可接受性”可以通过例如测量操作点距可接受有多接近来定量地确定。

为了说明，如果控制方案在模拟干扰后不能保持稳定性，则不稳定性在模拟中出现的时间越短，“不可接受性”的程度就越高。不可接受性可以量化干扰后达到不稳定性的时间。不稳定性的“出现”的定义可以视情况而定。例如，它可以是振荡增长超过阈值的时刻，或者是网络方程的解花费超过一定量时间的时刻(指示接近不可行性/奇异性)。

不稳定性可以以分析的方式测量，例如通过特征值分析。

如果在由决策逻辑候选的所模拟的决策产生的操作点处，一个(或多个)节点电压或分支电流在可接受的阈值之外，则“不可接受性”可以被测量为距最接近的可接受值的距离(例如，欧几里德)。

“不可接受性”的值(通常乘以足够大的比例因子)可以是性能指标中的一个被加数。

2)如果操作点是可接受的，则相应的“成本”可以作为另一被加数添加到性能指标中。成本可以通过一些操作特征(例如，电力传输损耗或由可再生能源产生的总功率)来衡量，或者其也可以是实际的货币成本。成本可以对应于以下中的任何一个或任何组合，但不限于此：

-控制动作可以与一些成本相关联，诸如发电再调度或负荷减少。例如，这种控制动作的成本可以通过借助日内和附属服务市场的先前清算来评估。

-控制方案的成功允许实现更经济的操作点。为了说明，控制方案可以成功地采取在干扰/事件之后发布的纠正性动作(如上所述)，以确保意外事件后电力系统的可行性和/或稳定性。意外事件后动作的成本由以上项覆盖。然而，性能指标应反映这样事实，即通过依靠纠正性动作，可以安排更多的经济操作点，如下所说明的那样。

因此，当通过控制方案模拟并成功处理意外事件时，性能指标可以包括意外事件前操作点的成本。这可能是导致所模拟的操作点(即，所模拟的发电注入和负载提取)的市场清算的总成本。市场清算的总成本可以使用例如以下中的一个或组合来确定：

-基于历史数据，可以在自主决策逻辑生成过程之前创建查找表，并将其提供给性能评定器90。查找表可以将操作点映射到其对应的成本。

-可以修改场景的限定，使得它包括提供给市场清算优化的输入。为了说明，场景可以包括市场参与者(发电机、能量存储参与者、大用户、负荷聚合器)的出价。市场清算可以在模拟引擎80中根据对应于(多个)有效场景79的(多个)意外事件前操作点来执行。

模拟引擎

模拟引擎80可以包括可操作用于计算上述性能指标的全部工具、软件和算法。为了说明，模拟引擎80可以包括以下中的任何一个或任何组合：

-市场清算模拟器(可选地，如上所讨论的那样)

-风能/太阳能/需求预测技术，其允许模拟它们在各种场景下的演变。

-过去操作点/市场清算的数据集，以及可以将后者映射到前者和/或计算给定操作点的可能性的算法(以便将这种可能性反映在性能指标中)

-AC功率流分析，包括连续功率流。AC功率流分析允许模拟电力系统的稳态行为(意外事件前或意外事件后)，包括控制方案发布的动作。

-电力系统(时域或频域中)数值模拟模块。电力系统数值模拟模块可以允许模拟电力系统的动态行为(意外事件前和意外事件后)，包括由控制方案发出的动作和/或要执行的稳定性分析。

示例：电力系统保护

决策逻辑生成系统40可以被公用事业、传输系统运营商(TSO)、顾问和服务提供商用来为给定的传输或配电网设计保护系统。这可以包括确定和创建相关模拟的电网和部件模型，确定和创建给定电网的拓扑以及发电和需求场景，执行数值模拟、保护功能和保护算法的类型的选择、继电器的协调、继电器设置的确定、以及测试所选择的保护功能和算法。

在实时操作中，传输和分配系统装备(包括变压器、架空线、地下线缆、串联/并联元件等)通过(电压、电流)测量系统、(多个)数字继电器和(多个)断路器进行保护。部署在数字继电器中的控制逻辑可以处理所测量的信号，确定是否存在应当被清除以避免对系统装备的损坏的严重故障，并且最终可以向断路器输出信号以断开。快速确定和清除故障对于整个系统的可靠性和安全性至关重要。

每个继电器的控制逻辑以及多个继电器之间的协调方案可以在预期的电网场景下设计和测试。由于转换器接口发电的激增(其在时间和空间上给电力供应带来了更多随机性，取代了常规发电机)、以及给需求带来更多随机性的电动交通，发电保护系统已成为日益复杂的任务。此外，由于缺少由转换器接口发电机提供的短路电流容量以及该容量的不同性质，可以预期保护系统针对变化的环境进行调节，要求它们具有适应性。

基于所观察的电力系统状况，所设计的保护逻辑在在线模式中具有适应性的能力可以是控制逻辑设计规范的一部分。

决策逻辑生成系统40可以用于设计这样的保护系统。

场景

场景可以由以下参数中的全部或部分来限定，但不限于此：

-故障(要求动作)或开关事件(不要求采取行动)的类型；包括但不限于沿传输/分配线路的单相接地、相间、三相故障；母线故障；发电机/负载切换

-不同故障起始角(即故障发生时刻：故障发生在过零点还是在电流最大值处)；

-系统中不同负载水平

-沿传输/分配线路的不同故障位置

-当负载主要由常规发电供电时或当负载主要由转换器接口发电供电时，系统中的不同发电模式

-系统的正常操作期间可能遇到的不同拓扑。

场景向量的每个条目可以将(多个)继电器的预期动作的信息包括为跳闸或不跳闸。

性能指标

目标是开发保护逻辑，该保护逻辑是：

-快速的(即，在一个周期内确定故障并启动动作)，

-可靠的(即，在应该采取动作的时候采取动作)，

-安全的(即在不应该采取动作时不采取动作)。

性能指标可以反映这三个要求。例如，性能指标可以由速度、可靠性和安全性的加权和组成。为了让性能评定器90评估可靠性和安全性，模拟一批场景。

模拟引擎

模拟引擎80可以包括允许计算上述性能指标的全部工具、软件和算法。这些可以包括：

-AC短路分析：这个模块可以可操作用于计算故障后短路电流。

-AC功率流分析：这个模块可以可操作用于模拟电力系统的稳态行为(故障前或故障后)，包括由保护方案发出的动作。这个软件可以是短路分析软件的一部分。

-电力系统(时域或频域中)数值模拟：这个模块可以可操作用于模拟电力系统的动态行为(故障前和故障后)，包括由保护方案发出的动作。它还可以可操作用于执行稳定性分析。电力系统数值模拟工具可以精确地模拟短路期间变流器接口发电的行为。与仅提供短路电流的幅值的AC短路分析不同，电力系统数值模拟工具可以可操作用于提供短路电流随时间的精确演变，使得保护设计考虑到在存在转换器接口发电的情况下短路电流的模式的变化。

用于现场使用的部署和/或现场使用后的修改

由决策逻辑生成系统40生成的决策逻辑被部署到控制器以便用于现场使用。可以监控现场使用期间所部署的决策逻辑的操作。响应于现场使用中的决策逻辑的行为和/或响应于其中使用决策逻辑的拓扑的变化，可以触发自动生成经修订的决策逻辑的过程。

图27是方法190的流程图。方法190可以由决策逻辑生成系统40执行。

在步骤191处，生成决策逻辑。

在步骤192处，可以执行决策逻辑的可选的另外的测试。测试决策逻辑可以使用存储在历史记录110中的数据中的一些。可以使用模拟引擎80和/或场景提供模块60在附加场景下测试所生成的决策逻辑，而不进一步修改决策逻辑。由此，可以获得关于鲁棒性的附加信息。

在步骤193处，确定所生成的决策逻辑的性能是否是可接受的。这个确定可以至少部分地基于存储在历史记录110中的数据。可以考虑可选的附加标准。为了说明，关于所生成的决策逻辑的信息可以通过UI 25输出给人类工程师。响应于拒绝/接受决策，该方法可以返回到步骤191(如果所生成的决定逻辑被拒绝)或者前进到步骤194(如果所生成的决定逻辑被接受)。当该方法返回到步骤191时，可以使用不同的性能指标和/或决策逻辑的(多个)不同架构来重新运行生成决策逻辑的过程。

在步骤194处，可以部署决策逻辑。决策逻辑可以被部署为机器可读指令，这些机器可读指令由已经为其生成决策逻辑的控制器的一个或多个IC来执行。

在步骤195处，可以生成并输出关于所生成的决策逻辑的鲁棒性的信息。

图28是方法200的流程图。方法200可以由决策逻辑生成系统40结合部署在现场的(多个)监控设备来执行。

在步骤201处，生成并部署决策逻辑。

在步骤202处，电力系统的控制器执行所生成的决策逻辑。执行所生成的决策逻辑可以包括由控制器从(多个)传感器、(多个)合并单元或网关接收输入信号，根据决策逻辑处理输入信号，并基于该处理生成和输出结果。

在步骤203处，可以监控现场使用中的决策逻辑的性能。监控可以由一个或多个现场监控设备来执行。监控现场使用中的决策逻辑可以包括处理由执行决策逻辑的控制器生成的输出以及它们对电力系统的影响。(多个)监控设备可以与决策逻辑生成系统40通信耦合。

在步骤204处，确定是否执行用于重新生成决策逻辑的触发标准。所生成的决策逻辑的性能是可接受的。用于重新生成决策逻辑的触发标准可能涉及现场使用期间决策逻辑的性能的劣化。这种性能劣化可能具有各种原因，诸如意外的环境状况和/或拓扑变化。如果用于重新生成决策逻辑的触发标准，则在步骤203处继续监控。

在步骤205处，如果满足用于重新生成决策逻辑的触发标准，则可以再次开始生成决策逻辑的过程。当重新生成决策逻辑时，可以使用在决策逻辑的现场使用期间收集的数据。

通过本发明获得了各种效果和优点。为了说明，用于生成决策逻辑的计算机实施的过程在配置电力系统或其变电站的复杂任务中帮助人类专家工程师。增强了决策逻辑的鲁棒性。可以生成各种各样的场景，包括在决策逻辑的现场操作期间不经常出现并且因此可能不包括在历史数据或专家限定的数据中的场景，以在产生决策逻辑的计算机实施的过程期间评定决策逻辑的性能。

尽管已经在保护继电器或其它电力系统控制器的背景下描述了实施例，但是方法和计算机系统不限于生成发电、配电或输电系统的保护继电器的决策逻辑。更准确地，所公开的方法和计算机系统可以用于生成IACS的控制器或多个控制器的决策逻辑。

尽管已经在附图和前面的描述中详细描述了本发明，但是这些描述被认为是说明性的或示例性的，而不是限制性的。通过研究附图、公开内容和所附权利要求，可以由本领域技术人员和实践所要求保护的发明的人员理解和实现所公开的实施例的变型。在权利要求中，词语“包括”不排除其它元件或步骤，并且不定冠词“一”或“一个”不排除多个。在不同的权利要求中列举某些元素或步骤的事实并不指示这些元素或步骤的组合不能被有利地使用，具体地，除了实际的权利要求从属关系之外，任何另外的有意义的权利要求组合都应该被认为是所公开的。

Claims

1.一种为工业自动化控制系统IACS的控制器(31，32，33)，特别地为电力系统保护或电力系统控制的控制器(31，32，33)，生成决策逻辑的计算机实施的方法，所述方法包括：

迭代过程，所述迭代过程包括多个迭代，所述多个迭代分别包括

自动生成所述决策逻辑的决策逻辑候选(69)；计算所述决策逻辑候选(69)的响应于场景(79)的性能，其中，计算所述性能包括执行系统模拟；

以及基于所计算的性能的结果选择并输出所述决策逻辑候选(69)中的至少一个。

2.根据权利要求1所述的方法，其中，执行场景创建逻辑(72)以创建在所述迭代过程中使用的所述场景(79)的至少部分。

3.根据权利要求2所述的方法，其中，所述场景创建逻辑(72)是在所述迭代过程中自动生成所述决策逻辑候选(69)的决策逻辑生成器(41；60)的对抗性逻辑，和/或其中，所述场景创建逻辑(72)是机器学习模型(74)或包括机器学习模型(74)。

4.根据权利要求2或3所述的方法，

其中，所述场景创建逻辑(72)在更新所述决策逻辑候选(69)中的至少一个的参数的同时迭代地学习，和/或具有不同的机器学习模型架构的决策逻辑候选(69)被所述系统模拟中的所述场景(79)挑战，和/或

其中，所述场景创建逻辑(72)以导致所述决策逻辑候选(69)中的至少一个根据性能指标或多个性能指标表现不佳为目标进行学习。

5.根据权利要求2至4中任一项所述的方法，其中，所述场景创建逻辑(72)被约束为仅生成在所述IACS的系统规范内的场景(79)。

6.根据前述权利要求中任一项所述的方法，还包括：

存储导致具有第一机器学习模型架构的决策逻辑候选(69)表现不佳的场景(79)；

检索所存储的场景中的至少一些；以及

响应于所检索的场景，确定具有不同于所述第一机器学习模型架构的第二机器学习模型架构的至少一个另外的决策逻辑候选的性能。

7.根据前述权利要求中任一项所述的方法，其中，计算所述性能包括组合为一批场景(79)的决策逻辑候选确定的至少一个性能指标的所计算的值，可选地，其中，组合所计算的值包括基于所述批次中所述场景(79)在所述IACS的现场操作期间出现的频率对所计算的值进行加权。

8.根据前述权利要求中任一项所述的方法，其中，生成所述决策逻辑候选(69)包括训练机器学习模型，

可选地，其中，所述迭代过程中使用的所述场景(79)的至少部分由场景创建逻辑(72)创建，并且所述场景创建逻辑(72)和所述决策逻辑生成器(41；60)是生成性对抗网络。

9.根据权利要求8所述的方法，其中，在所述迭代过程中生成的所述决策逻辑候选(69)包括具有两个或更多不同机器学习模型架构的机器学习模型，可选地，其中，所述两个或更多不同机器学习模型架构包括在节点的数量和/或层的数量方面彼此不同的人工神经网络架构。

10.根据权利要求8或9所述的方法，其中，在所述迭代过程中生成决策逻辑候选(69)包括：

选择机器学习模型架构；

训练具有所述机器学习模型架构的决策逻辑候选，直至满足第一终止标准；

存储为具有所述机器学习模型架构的所述经训练的决策逻辑候选计算的性能；

如果不满足第二终止标准，则对具有不同机器学习模型架构的不同决策逻辑候选重复所述训练和存储步骤；

如果满足第二终止标准，则基于所存储的性能选择并输出所述决策逻辑候选(69)中的一个。

11.根据前述权利要求中任一项所述的方法，其中，用作决策逻辑候选的机器学习模型的复杂性随着生成所述决策逻辑的过程中生成新的决策逻辑候选而增加。

12.根据前述权利要求中任一项所述的方法，还包括所述决策逻辑生成器(41；60)以生成在所述系统模拟中表现更好的决策逻辑候选为目标进行学习的同时调节生成所述决策逻辑候选(69)的决策逻辑生成器(41；60)的学习率。

13.根据前述权利要求中任一项所述的方法，其中，所述性能根据性能指标或多个性能指标来计算。

14.根据权利要求13所述的方法，还包括

经由接口(25)接收指定所述性能指标或所述多个性能指标的输入，和/或

在生成所述决策逻辑的方法期间，动态地改变所述性能指标或多个性能指标。

15.根据权利要求13或14所述的方法，其中，所述性能指标或多个性能指标包括以下中的一个或多个：最小化电力的成本、增加电网电力传输极限、确保电网稳定性、最大化安全性和可靠性的保护目标、将电压和电流保持在限制内、最大化经济效益。

16.根据前述权利要求中任一项所述的方法，其中，执行所述系统模拟包括：

模拟电力系统的主和/或次设备的行为，

可选地，其中，执行所述系统模拟包括以下中的一个或多个：功率流模拟、短路计算、电磁暂态计算、最优功率流计算、机组组合分析。

17.根据前述权利要求中任一项所述的方法，其中，所述系统模拟包括电力系统的线路、线缆、母线中的电流、电压、相量、同步相量。

18.根据前述权利要求中任一项所述的方法，其中，所述方法由一个或多个集成电路执行，所述一个或多个集成电路执行：

决策逻辑生成器(41；60)，所述决策逻辑生成器生成并输出所述决策逻辑候选(69)；

场景提供模块(42；70)，所述场景提供模块输出一批有效场景(79)，其中，所述场景提供模块(42；70)包括场景创建逻辑(72)；

模拟引擎(43；80)，所述模拟引擎耦合到所述决策逻辑生成器(41；60)和所述场景提供模块(42；70)，并且可操作用于使用所述决策逻辑候选为所述批次有效场景(79)中包括的场景(79)执行所述系统模拟；

性能评定器(44；90)，所述性能评定器为所述批次有效场景(79)中包括的所述场景(79)计算所述决策逻辑候选(69)的性能；以及

协调器(100)，所述协调器响应于所述性能评定器(44；90)的输出协调所述决策逻辑生成器(41；60)和所述场景提供模块(42；70)的操作，可选地，其中，所述协调器可操作用于控制所述决策逻辑生成器(41；60)和所述场景提供模块(42；70)的对抗性机器学习模型，另外可选地，其中，所述协调器(100)控制所述决策逻辑生成器(41；60)和所述场景提供模块(42；70)的对抗性机器学习模型的学习率。

19.根据前述权利要求中任一项所述的方法，还包括：

由所述IACS的所述控制器(31，32，33)执行所选择的决策逻辑；

可选地，还包括响应于由所述控制器(31，32，33)执行的所选择的决策逻辑的所监控的现场行为，自动修改所选择的决策逻辑。

20.一种为工业自动化控制系统IACS的控制器(31，32，33)，特别地为电力系统保护或电力系统控制的控制器(31，32，33)，生成决策逻辑的计算系统，包括：

一个或多个集成电路，所述一个或多个集成电路能够操作用于：

执行具有迭代的迭代过程，所述迭代分别包括

自动生成所述决策逻辑的决策逻辑候选(69)；

计算响应于场景(79)的所述决策逻辑候选(69)的性能，包括执行系统模拟；

基于所计算的性能的结果选择所述决策逻辑候选(69)中的至少一个；以及输出接口(24)，所述输出接口能够操纵用于输出所选择的至少一个决策逻辑。