CN113159341A

CN113159341A - 融合深度强化学习和专家经验的配电网辅助决策方法及系统

Info

Publication number: CN113159341A
Application number: CN202110444248.7A
Authority: CN
Inventors: 闫冬; 张伟; 彭国政; 谈元鹏; 高海龙; 肖学权; 阚久辉
Original assignee: China Electric Power Research Institute Co Ltd CEPRI; Xuzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: China Electric Power Research Institute Co Ltd CEPRI; Xuzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-23

Abstract

本发明提供一种融合深度强化学习和专家经验的配电网辅助决策方法及系统，基于典型场景使用优化算法得到的初步优化的专家控制策略，将专家控制策略提供给智能体并结合深度强化学习算法进行训练，使智能体快速适应典型场景，在典型场景中加入随机量以增加智能体面对随机情况的泛化性，通过算例验证了方法有效性。

Description

融合深度强化学习和专家经验的配电网辅助决策方法及系统

技术领域

本发明涉及智能配电技术领域，尤其涉及一种融合深度强化学习和专家经验的配电网辅助决策方法及系统。

背景技术

随着越来越多的分布式可再生能源以高渗透率接入配电网，如风能、光伏等，使得配电网的结构愈发复杂，各种大功率机组、大功率电气设备等不断地投入直流配电网运行，增加了配电网短路电流带来的危害。而不同于交流系统，直流系统作为低惯性系统在发生故障后会迅速产生高额的短路电流，危害电网设备的安全，因此需要快速地对故障进行精确检测，以便及时采取相应的措施。而直流配电网存在众多的故障类型，其往往通过并网换流站接入交流大电网，因此不仅有直流侧接地故障和极间故障，交流侧故障也会通过换流器影响到直流系统的稳定。在检测出故障后，需要对故障类型进行精确辨识以确定保护的动作情况。为了保证保护的可靠动作，对故障的精确识别就显得尤为重要。

然而，目前的深度强化学习技术普遍存在以下问题，其一、在解决状态耦合关系度低及无模型探索难度大的决策问题时难以获得有效经验，模型难以学习有效的策略以完成既定目标；另一方面，混合整数线性优化算法及群智优化算法：传统优化算法可以在规定的约束条件下计算出最优策略，但这依赖对未来不确定性的精准预测，所得结果对偏离预测结果的状态没有反馈修正，在随机性强的场景中不适用。

发明内容

为了解决以上问题，本发明提供一种融合深度强化学习和专家经验的配电网辅助决策方法，基于专家经验提升智能体训练效率的深度强化学习算法。具体的，基于典型场景使用优化算法得到的初步优化的专家控制策略，将专家控制策略提供给智能体并结合深度强化学习算法进行训练，使智能体快速适应典型场景，在典型场景中加入随机量以增加智能体面对随机情况的泛化性。通过算例验证了方法有效性。

本发明提供一种融合深度强化学习和专家经验的配电网辅助决策方法，包括获取电网实时数据，形成实时数据样本；将实时数据样本输入多次迭代训练后的深度强化学习模型中；所述深度强化学习模型进行多次迭代训练时的数据样本包括专家经验样本和交互样本；所述专家经验样本和交互样本的占比跟随训练需求调整；利用迭代训练形成的最终网络参数，输出控制策略。

在本实施例中，基于典型场景使用优化算法得到的初步优化的专家控制策略，将专家控制策略提供给智能体并结合深度强化学习算法进行训练，使智能体快速适应典型场景，具有更好的自适应学习能力和非凸非线性问题的优化决策能力。

优选的，所述专家经验样本为根据专家控制策略按照四元组规则整理得出；所述专家控制策略为在设立优化的典型边界条件内，根据Bellman最优性原理，计算得出的满足约束条件的最优解。

在上述任意一项实施例中优选的，所述典型边界条件按照应用业务场景设定，所述应用业务场景包括能源场景、配电站场景；所述业务场景为能源场景时，所述典型边界条件包括负荷数据、光伏出力数据。

在本实施例中，采用应用业务场景设定典型边界条件，并在典型场景中加入随机量以增加智能体面对随机情况的泛化性。

在上述任意一项实施例中优选的，所述深度强化学习模型采用如下方法进行构建，包括离线获取历史数据，形成数据样本；

在数据样本中提取控制动作，形成动作空间；提取根据执行控制动作形成的工作状态，形成状态空间；设置奖励函数，为每一次执行控制动作匹配奖励值；设定经验库，存储由当前状态s，控制动作a，执行控制动作的奖励值r，以及执行控制动作后得到的下一状态s’形成的四元组样本(s，a，r，s’)对智能体进行训练；设定状态动作值函数Q作为评价指标，评判当前状态下执行控制动作的优劣；设置Actor网络和Critic网络，接收批次输入的四元组，并按照设定的状态动作值函数Q分别使用Adam优化器计算梯度，反馈更新Actor网络和Critic网络的网络参数。

在上述任意一项实施例中优选的，所述动作空间的控制动作包括母线连接开关、变压器分接头的选择；所述状态空间的状态包括母线负荷状态、母线节点状态、无功设备的投切状态。所述经验库中的四元组样本包括，初始时预设的数据样本，以及训练时，由智能体所作决策产生的四元组样本当经验库满时，新采集的样本替代旧采集样本。

在上述任意一项实施例中优选的，所述奖励函数采用如下公式表示：

r＝-ar^*+b

式中，r*代表补偿后的总成本，C_i代表控制成本，α_i表示控制成本系数，s_i代表控制变量百分比，P_imax表示控制变量上限；T_j表示决策超限的成本补偿值，c_j表示对应状态或动作超限的补偿系数，x_j表示对应状态或动作的输出决策值，x_s表示对应状态或动作的限值；r为奖励值；a和b分别为线性系数。

在上述任意一项实施例中优选的，每次训练时，应用下式计算评估状态优劣的R值

其中，r_t+n为t+n时刻执行控制动作a的奖励值，γ为折扣因子。

在上述任意一项实施例中优选的，所述深度强化学习模型在进行多次迭代训练时，包括如下方法：

提取部分数据样本，根据优化算法形成专家控制策略，根据专家控制策略整理为专家经验样本；将剩余数据样本作为交互样本与专家经验样本混合后，按如下两阶段对智能体进行训练：

第一训练阶段，将专家经验样本输入智能体中，对智能体进行迭代训练，每次训练时，计算状态动作值函数Q对当前状态下执行控制动作进行评价，并更新Actor网络和Critic网络的网络参数；

第二训练阶段，多次迭代后，采用专家经验样本和交互样本的混合样本，输入智能体中，网络具备正确决策能力后，提升训练中交互样本的占比；在固定的边界条件加入随机波动的典型负荷进行继续训练。

本发明还提供一种融合深度强化学习和专家经验的配电网辅助决策系统，包括数据获取模块、深度强化学习模块；

所述数据获取模块用于获取电网实时数据，形成实时数据样本；

所述深度强化学习模块，用于获取实时数据样本，并利用多次迭代训练后形成的最终网络参数，输出控制策略；

所述深度强化学习模型进行多次迭代训练时的数据样本包括专家经验样本和交互样本；所述专家经验样本和交互样本的占比根据训练需求调整。

优选的，所述深度强化学习模型包括动作空间、状态空间、经验库、评价指标和Actor网络和Critic网络；

所述动作空间包括在数据样本中提取的控制动作；

所述状态空间包括提取根据执行控制动作形成的工作状态；

所述经验库用于存储由当前状态s，控制动作a，执行控制动作的奖励值r，以及执行控制动作后得到的下一状态s’形成的四元组样本(s，a，r，s’)对智能体进行训练；

所述评价指标用于根据设定的状态动作值函数Q值，评判当前状态下执行控制动作的优劣；

所述Actor网络和Critic网络，用于根据接收批次输入的四元组，并按照设定的状态动作值函数Q分别使用Adam优化器计算梯度，反馈网络参数，

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明提供的融合深度强化学习和专家经验的配电网辅助决策方法的流程框图；

图2为本发明提供的融合深度强化学习和专家经验的配电网辅助决策方法的运算逻辑图；

图3(a)为本发明实施例的融合深度强化学习和专家经验的配电网辅助决策方法的智能体训练过程中Actor网络Loss值曲线图；

图3(b)为本发明实施例的融合深度强化学习和专家经验的配电网辅助决策方法的智能体训练过程中Critic2网络Loss值曲线图；

图3(c)为本发明实施例的融合深度强化学习和专家经验的配电网辅助决策方法的智能体训练过程中训练奖励函数值曲线图；

图3(d)为本发明实施例的融合深度强化学习和专家经验的配电网辅助决策方法的智能体训练过程中随机探索概率的温度系数曲线图；

图4为本发明实施例的融合深度强化学习和专家经验的配电网辅助决策系统的连接框图；

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

本发明提供一种融合深度强化学习和专家经验的配电网辅助决策方法，如图1所示，包括

S1、获取电网实时数据，形成实时数据样本；

S2、将实时数据样本输入多次迭代训练后的深度强化学习模型中；所述深度强化学习模型进行多次迭代训练时的数据样本包括专家经验样本和交互样本；所述专家经验样本和交互样本的占比根据训练需求调整；

需要说明的是，深度强化学习作为最复杂的机器学习算法的一种，对于样本量和超参数设定条件的要求更为苛刻。在诸如大规模配电网环境下，信息复杂度高、信息维度高等均使算法在模型训练初期难以学习到有用的信息。换言之，只有当模型能够恰巧碰到有效的解时，它才能学会有效的策略；如果一个智能体一直在错误或无效的样本环境中进行学习，它几乎无法学到任何有意义的信息。

因此，引入专家样本让智能体(神经网络)快速接触到一部分有效的解进行学习，减少接触无意义的信息使网络参数发生震荡。在面对大规模复杂决策场景时，一般在训练初期完全使用专家样本(100％)来是决策网络收敛到专家决策上，之后让智能体与场景交互，产生一系列交互样本。这时，交互样本中有效的信息比例相对初始化网络有了很大提升，所以之后的训练我们可以将一部分自交互产生的样本与专家样本混合，以丰富决策网络面对的信息量，提升模型泛化性。此时，专家样本可能从100％逐步下降到0％。如果某些场景有严格的边界限制，则表征边界的专家样本应一直保留，即专家样本比例不降至0％。

训练需求(基础信息)包括场景复杂度、决策可靠性、专家样本相对数量等；当场景复杂度越高时，训练初期专家比例应越高，常设为100％；当决策可靠性要求高时，训练末期保留的专家样本比例应越高，数值根据边界限制制定；专家样本相对数量少时，往往一直保留全部样本在样本库中。

S3、利用迭代训练形成的最终网络参数，输出控制策略。

专家经验样本为根据专家控制策略按照四元组规则整理得出；所述专家控制策略，在设立优化的典型边界条件内，根据Bellman最优性原理，计算得出的满足约束条件的最优解。所述典型边界条件按照应用业务场景设定，所述应用业务场景包括能源场景、配电站场景；所述业务场景为能源场景时，所述典型边界条件包括负荷数据、光伏出力数据。在本实施例中，采用应用业务场景设定典型边界条件，并在典型场景中加入随机量以增加智能体面对随机情况的泛化性。以能源场景为例，典型负荷数据作为边界条件的重要组成部分，负荷数据及光伏出力数据可以通过历史样本集获得，可以根据冬季、夏季、过渡季来分别构建典型曲线获得初始化的专家经验。为提升智能体学习效率，可以以典型边界为基础随机加入噪声形成多组需求曲线并采用优化算法求解，使专家经验数据量足以支持模型训练启动。

在数据样本中提取控制动作，形成动作空间；

提取根据执行控制动作形成的工作状态，形成状态空间；

设置奖励函数，为每一次执行控制动作匹配奖励值；

设定经验库，存储由当前状态s，控制动作a，执行控制动作的奖励值r，以及执行控制动作后得到的下一状态s’形成的四元组样本(s，a，r，s’)对智能体进行训练；

设定状态动作值函数Q作为评价指标，评判当前状态下执行控制动作的优劣；

设置Actor网络和Critic网络，接收批次输入的四元组，并按照设定的状态动作值函数Q分别使用Adam优化器计算梯度，反馈更新Actor网络和Critic网络的网络参数。

需要说明的是，动作空间的变量a可定义为自变量或自变量增量的归一化形式。具体的，所述动作空间的控制动作包括母线连接开关、变压器分接头的选择；所述状态空间的状态包括母线负荷状态、母线节点状态、无功设备的投切状态。以控制能源设备出力为例，若装机容量为100MW，实际功率为50MW，则此时的动作变量可定义为实际出力与额定功率的比值，取值为0.5。这类变量往往具有边界限制，如控制量的增量不能过大或控制量不能超过某经验上限。动作空间如下式所示：

a＝[a₁,a₂,…,a_i]

式中，a₁,a₂,…,a_i代表系统控制量的归一化形式(-1到1之间)，往往通过激活函数选型限定神经网络输出实现。

所述经验库中的四元组样本包括，初始时预设的专家经验样本，以及训练时，由智能体所作决策产生的四元组样本当经验库满时，新采集的样本替代旧采集样本；

奖励函数计算的奖励值需要衡量控制成本及对模型随机探索学习产生的不良决策进行惩罚。控制成本主要通过控制量a乘以成本系数来表达，成本约高效果越差。这些成本可按照实际运行成本值进行计算。对模型随机探索学习产生的不良决策进行惩罚，指模型生成的决策值不满足模型约束条件或不符合实际时降低获得的奖励，以能源设备控制为例，光伏决策出力大于实际最大出力、电负荷等式约束不满足、冷热负荷未满足及设备处理值变化量过大等均需设置惩罚项。惩罚值的大小正比于决策值和目标值的差的绝对值，若决策值为0.6，实际最大值为0.5，则惩罚值为c1|0.6-0.5|。系数c应根据实际应用案例调整尝试，惩罚取值应尽量大，使模型快速学习避免违规动作。特别的，由于需要实时平衡的决策量，对于机器学习而言难度过大，应适当设置近似范围放宽控制限制，降低学习探索难度。综上所述，奖励函数参考值为决策运行成本值与违规惩罚值之和。由于算法的目标是使奖励函数取值尽量大，考虑到避免过大的奖励函数值影响模型训练方差，故在奖励函数参考值的基础上取其负值，并作线性变换，使最终奖励范围落在0附近，奖励形式如下式所示：

r＝-ar^*+b

式中，r*代表补偿后的总成本。Ci代表控制成本，α_i表示控制成本系数，si代表控制变量百分比，Pimax表示控制变量上限；Tj表示决策超限的成本补偿值，cj表示对应状态或动作超限的补偿系数，xj表示对应状态或动作的输出决策值，xs表示对应状态或动作的限值。r为奖励值；a和b分别为线性系数a*和b用于将r*线性变换为可用于学习提升的r值，通常使r取值范围限制在[-50,50]。

每次产生新的策略后，状态空间值需进行更新。其中，独立状态值可以按照一定分布随机采样更新，其中一些具有经验取值的独立变量，可以在经验值上加入随机噪声，形成符合经验分布的多样化状态数据以增强模型泛化性；受动作空间直接影响的状态按照动作空间取值对应更新；

如图2所示，所述深度强化学习模型在进行训练时，包括如下方法：

提取部分数据样本，根据优化算法形成专家控制策略，根据专家控制策略整理为专家经验样本；

将剩余数据样本作为交互样本与专家经验样本混合后，按如下两阶段对智能体进行训练：

优化得到的结果往往是非归一化的，对于状态空间，按照模型定义状态s和动作a的标准形式处理；奖励函数按照步骤10定义的方式对每个时间t(0-T)进行r值计算，然后应用下式计算用于评估状态优劣的R

其中，r_t+n为t+n时刻执行控制动作a的奖励值，γ为折扣因子。每次训练后整理为{saRs’}的决策链。

经验库是维度为(N，4)的数组，N为经验池最大容量，4为四元组的维度。经过15处理的专家样本四元组会一直保存在经验池中，供智能体采样学习。传统算法启动初期依靠随机采样的方式获得基础样本，在本问题建模的条件下，随机采样的结果很不理想，多数的决策动作无法满足调度约束，产生大量无效学习甚至影响后续训练效果。本发明将随机探索学习部分替换为专家样本学习，即模型启动初期通过反复学习专家四元组实现模型对于固定的边界条件的近似最优决策。在初期经验学习轮次过后，按照加入随机波动的典型负荷进行继续训练，经验库开始采集由智能体所作决策产生的四元组样本以填充经验库空余位置。当经验库满时，新采集的样本替代旧采集样本，专家样本一直保留在经验库中。

经验库中采样得到的批次样本会分别输入Actor和Critic网络求得输出值，并按照目标函数式分别使用Adam优化器计算梯度反馈更新两个网络参数，网络更新逻辑和具体算法有关，仅以SAC算法的目标函数具体解释专家样本的作用，其中：

式中θ表示Critic网络参数，φ表示Actor网络参数，α为熵值温度系数。计算两个目标函数所需的变量值包括s_t，s_t+1，a_t，a_t+1均以在专家样本中给出，π_φ的对数计算需要依靠Actor网络输出(正态分布的均值μ和方差σ)计算联合分布在at(at+1)处取值的对数以反应专家动作在决策网络中的真实概率。此时Q_θ，r(s,a)，π_φ均可基于专家样本和网络参数计算，可以进行网络参数更新实现智能体学习。

如图3(a)-图3(d)所示，在如下实施例中，按照下表1设置深度强化学习模型的各项参数；选取的配电站场景，通过使用优化求解器可以得到满足当前需求的最优组合，将最优解整理为强化学习可用四元组专家经验样本后，放入图中经验回放单元中，并一直保留不被后续补充样本替换。

γ：价值函数折扣因子	0.9
		Actor-Lr：策略网络学习步长	0.0003
Critic-Lr：评价网络学习步长	0.001
		α：熵值温度系数	0.2
Batch-size：批量样本	256
		Hidden-layer：隐藏层数	2
Hidden-layer-size：隐藏层神经元数	128
		Training-Step：训练轮数	200000
Sampling-start-step：采样起始步数	10000

表1实施例超参数设定

使用深度强化学习算法训练智能体的过程参数如图3所示，可以看到，Actor和Critic网络的Loss值都趋于收敛，控制模型随机探索概率的温度系数也降至0附近，说明策略已接近收敛不再需要随机探索，奖励函数在训练初期提升很快，这是反复对专家经验进行学习的结果，整体的训练效果符合预期。

本发明还提供一种融合深度强化学习和专家经验的配电网辅助决策系统，如图4所示，用于实施上述配电网辅助决策方法，包括数据获取模块、深度强化学习模块；

所述数据获取模块用于获取电网实时数据，根据实时数据形成实时数据样本；

所述深度强化学习模型，用于对智能体利用数据样本进行训练；完成Actor网络和Critic网络的网络参数更新；并根据输入的实时数据样本中当前运行状态和控制动作，利用迭代训练形成的最终网络参数，输出控制策略。

优选的，所述控制策略生成模块，生成专家控制策略时，在设立优化的典型边界条件内，根据Bellman最优性原理，计算得出的满足约束条件的最优解；所述典型边界条件按照应用业务场景设定，所述应用业务场景包括能源场景、配电站场景；所述业务场景为能源场景时，所述典型边界条件包括负荷数据、光伏出力数据。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种融合深度强化学习和专家经验的配电网辅助决策方法，其特征在于，包括

获取电网实时数据，形成实时数据样本；

将实时数据样本输入多次迭代训练后的深度强化学习模型中；所述深度强化学习模型进行多次迭代训练时的数据样本包括专家经验样本和交互样本；所述专家经验样本和交互样本的占比根据训练需求调整；

利用多次迭代训练形成的最终网络参数，输出控制策略。

2.根据权利要求1所述的配电网辅助决策方法，其特征在于，所述专家经验样本为根据专家控制策略按照四元组规则整理得出；所述专家控制策略为在设立优化的典型边界条件内，根据Bellman最优性原理，计算得出的满足约束条件的最优解。

3.根据权利要求2所述的配电网辅助决策方法，其特征在于，所述典型边界条件按照应用业务场景设定，所述应用业务场景包括能源场景、配电站场景；所述业务场景为能源场景时，所述典型边界条件包括负荷数据、光伏出力数据。

4.根据权利要求1所述的配电网辅助决策方法，其特征在于，所述深度强化学习模型采用如下方法进行构建，包括：

离线获取历史数据，形成数据样本；

在数据样本中提取控制动作，形成动作空间；

提取根据执行控制动作形成的工作状态，形成状态空间；

设置奖励函数，为每一次执行控制动作匹配奖励值；

5.根据权利要求4所述的配电网辅助决策方法，其特征在于，所述动作空间的控制动作包括母线连接开关、变压器分接头的选择；所述状态空间的状态包括母线负荷状态、母线节点状态、无功设备的投切状态。

6.根据权利要求4所述的配电网辅助决策方法，其特征在于，所述奖励函数采用如下公式表示：

r＝-ar^*+b

7.根据权利要求6所述的配电网辅助决策方法，其特征在于，每次训练时，应用下式计算评估状态优劣的R值：

8.根据权利要求1所述的配电网辅助决策方法，其特征在于，所述深度强化学习模型在进行多次迭代训练时，包括如下方法：

9.一种融合深度强化学习和专家经验的配电网辅助决策系统，其特征在于，包括数据获取模块、深度强化学习模块；

所述深度强化学习模块，用于将实时数据样本输入多次迭代训练后的深度强化学习模型中，并利用多次迭代训练后形成的最终网络参数，输出控制策略；

10.根据权利要求9所述的配电网辅助决策系统，其特征在于，所述深度强化学习模型包括动作空间、状态空间、经验库、评价指标和Actor网络和Critic网络；

所述动作空间包括在数据样本中提取的控制动作；

所述状态空间包括提取根据执行控制动作形成的工作状态；

所述Actor网络和Critic网络，用于根据接收批次输入的四元组，并按照设定的状态动作值函数Q分别使用Adam优化器计算梯度，反馈网络参数。