CN116523327A

CN116523327A - 一种基于强化学习的配电网运行策略智能生成方法及设备

Info

Publication number: CN116523327A
Application number: CN202310173423.2A
Authority: CN
Inventors: 伍臣周; 李强; 赵峰; 庄莉; 王秋琳; 宋立华
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-08-01

Abstract

本发明涉及一种基于强化学习的配电网运行策略智能生成方法，包括如下步骤：定义智能体的运行环境及参数因子；构建基于强化学习的智能体的训练样本池；制定基于强化学习的智能体的网络模型结构；执行基于强化学习的智能体的训练和评估；应用智能体实时生成下一时刻配电网运行调控策略。本发明还设计一种运行策略智能生成设备。本发明的优点在于：基于所有机组和负荷的有功实际出力数据，新能源机组有功预测出力数据等配电网历史运行数据，设置了线路越限情况、新能源机组消纳量、机组运行费用等奖励项，运用Deep Q Network深度强化学习算法，在电网仿真环境中训练出智能体，能够快速给出电网运行方式调整策略。

Description

一种基于强化学习的配电网运行策略智能生成方法及设备

技术领域

本发明涉及领域电网调度运行领域，尤其涉及一种基于强化学习的配电网运行策略智能生成方法。

背景技术

电网运行方式制定是保证电网调度安全稳定运行的重要环节。通常的做法是运行专家利用典型的运行方式，对电网进行建模与安全稳定分析，依据少量的仿真样本寻找描述和影响电网安全的关键特征，并结合专家经验离线制定运行规则，包括编制电网断面及其极限传输容量。然而，这一方式存在的问题在于：1)依赖专家经验、时效性差；2)无法适应复杂多变的电网运行方式，存在安全隐患；运行规则过于保守、经济性差。随着高比例新能源、储能以及海量柔性负荷广泛接入，电力系统的技术基础、控制基础和运行机理发生深刻变化，配电网能源单向流动模式改为潮流与故障电流双向流动模式，运行方式的复杂性和波动性不断攀升，基于传统的机理建模及分析方法难以满足新能源、柔性负荷等大规模接入后调控需求，采用人工智能技术智能生成配电网运行策略辅助调度决策变得非常迫切。

公开号为CN112580801A的中国发明专利“一种强化学习训练方法及基于强化学习的决策方法”。该方法提出了一种基于历史状态数据的强化学习模型训练方法，并且应用于航空开舱决策，通过多个平行航班的销售量、剩余座位量、多个平行航班距离起飞的时间以及多个舱价位数据，训练出航空开舱决策模型，从而根据航班信息智能生成航空开舱决策数据。该方法通过增加强化学习模型训练样本量，提高强化学习效果，提高动态决策规划结果的准确性，但是应用于航空领域，然后电网运行调度领域业务复杂，实时性、稳定性要求高，涉及的数据不同，强化学习模型训练方法及应用也会不同。

公开号为CN113098007A的中国发明专利“基于分层强化学习的微电网分布式在线调度方法及系统”。该方法基于实时电价信息、每一个微电网的总交易电量、可调度机组在每一个微电网中的功率输出、电池储能系统的输出功率以及充/放电效率数据，训练强化学习模型，智能生成微电网整体运行成本最低的最优调度策略。但是该方法以微电网整体运行成本最低为目标，为考虑微电网新能源消纳比例、碳排放等因素，不能有效地支撑“碳达峰、碳中和”目标落地实现。

公开号为CN110929948A的中国发明专利“基于深度强化学习的完全分布式智能电网经济调度方法”。该方法通过获取网络拓扑结构，建立基于负荷分配和机组组合的经济调度模型，运用深度强化学习模型获得电网经济调度最优解，从而实现智能电网经济调度运行。该方法不仅能够在数据量大、网络结构复杂的智能电网环境下，实现经济调度最优化，而且不依赖于明确的目标函数，能适应分布式能源的“即插即用”特性。但，该方法仍然以电网经济调度运行为目标，为考虑“碳达峰、碳中和”目标下，在确保电网安全稳定运行前提下，即能经济运行又需消纳高比例新能源，从而实现节能降碳目标。

综上所述，目前，电网运行策略制定主要还是依靠行业专家基于自身经验，结合电网历史运行数据和实时运行数据进行策略制定，该方式一是依赖专家经验、时效性差，二是无法适应复杂多变的电网运行方式，存在安全隐患；三是运行规则过于保守、经济性差。也有运用人工智能技术(如机器学习、强化学习)辅助电网经济调度运行，该方式在保障电网安全稳定运行前提下，以电网运行的经济性为调度目标，为考虑“碳达峰、碳中和”目标下，新能源广泛接入后新能源高比例消纳、节能减排等因素。

发明内容

为了解决上述问题，本发明专利提出的一种基于强化学习的配电网运行策略智能生成方法，面对高比例新能源、储能以及海量柔性负荷广泛接入配电网，基于配电网收敛的交流潮流断面及预测数据，综合考虑电网安全、低碳、经济三大因素，利用强化学习技术实现配电网源网荷储协同控制决策和运行方式自动调整，解决基于传统的机理建模及分析方法难以满足新能源、柔性负荷等大规模接入后配电网安全、低碳、经济运行调控需求问题，有效地支撑“碳达峰、碳中和”目标落地实现。

为实现上述目的，本发明采用以下技术方案：

一种基于强化学习的配电网运行策略智能生成方法，包括如下步骤：定义智能体的运行环境及参数因子；构建基于强化学习的智能体的训练样本池；制定基于强化学习的智能体的网络模型结构；执行基于强化学习的智能体的训练和评估；应用智能体实时生成下一时刻配电网运行调控策略。

更优地，所述定义智能体的运行环境及参数因子，具体为：基于配电网历史运行数据，梳理并定义在所述智能体中其状态空间、动作空间、奖励的影响集。

更优地，所述状态空间集合S由电网运行状态变量组成，表达为：S＝

{s|s_t＝(G_pt，G_qt，L_pt，L_qt，GL_t，CRGM_pt，NRGM_pt+1，NL_pt+1，...)}，其中包括机组有功出力G_pt、机组无功出力G_qt、负荷有功L_pt、负荷无功L_qt、电网损耗GL_t、当前时间步新能源机组的最大有功出力CRGM_pt、下一时间步新能源机组的最大有功出力NRGM_pt+1、下一时间步的负荷预测值NL_pt+1，所述状态空间集合S是根据实际配电网运行调度决策所涉及的状态变量决定，且可调整。

更优地，所述动作空间集合A由调控动作离散量α_i组成，表达式为：A＝{α₁，α₂，…，α_n}。

更优地，所述奖励集合R由正奖励和负奖励组成，其中正奖励包括线路越限情况和新能源机组消纳量，所述负奖励包括平衡机功率越限、机组运行费用、无功出力越限以及节点电压越限。

更优地，所述智能体的网络模型结构为：智能体是由两个神经网络模块组成，包括行动网络Q(s_t，α_t，θ)和评估网络Q(s_t，α_t，θ^-)，其中，θ和θ^-网络参数；在模型训练的过程中，行动网络根据环境当前状态s_t，选择一个具有最大价值函数的动作α_t+1，评估网络会对选的动作进行评估，计算出在下一个状态s_t+1选择动作α_t+1得到的值Q；进一步计算目标值计算公式为：/>然后计算误差函数L(θ)，并通过梯度下降法更新行动网络参数θ，每个固定迭代步数，将行动网络参数同步给评估网络；误差函数计算公式为：

更优地，所述基于强化学习的智能体的模型评估方式为：利用电网仿真模拟器验证所述智能体的决策有效性，从电网安全、低碳、经济三个方面对决策执行效果进行量化评估，同时考虑决策耗时，综合量化评分，具体地，通过计算模型在N个回合中获取的奖励作为评估指标，计算公式如下：

其中s_i表示第i回合的得分，N表示回合数，R_t表示智能体在t时刻获得的奖励大小，t_over表示回合结束的最后时刻，|tover|表示该回合结束时的总时刻个数；每个回合的评分包含所述正奖励和负奖励；回合结束条件为：1)潮流不收敛，由仿真环境返回当前时刻潮流的收敛情况；2)训练达到最大时间步数；3)读取到csv格式的状态变量数据文件中的最后一个断面。

更优地，所述应用智能体实时生成下一时刻配电网运行调控策略，过程如下：智能体从配电网系统中状态空间集合S中获取实时运行状态参数，然后从预先设定的动作空间A中选择一个具有最大价值函数的动作α_t，评估网络会对选的动作α_t使用预先设定的奖励R进行综合评估，计算出在下一个状态选择动作α_t+1，然后通过所述误差函数计算行动网络选择的配电网执行动作α_t和评估网络选择的配电网执行动作α_t+1之间的误差，并通过梯度下降法对更新行动网络参数，从中推荐出配电网下一时刻运行最优调整动作返回给配电网系统。

本发明还提供一种基于强化学习的配电网运行策略智能生成设备。

技术方案如下：

一种基于强化学习的配电网运行策略智能生成设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述基于强化学习的配电网运行策略智能生成方法。

本发明具有如下有益效果：

本发明创新性地提出了基于强化学习的配电网运行策略智能生成方法，基于所有机组和负荷的有功实际出力数据，新能源机组有功预测出力数据等配电网历史运行数据，设置了线路越限情况、新能源机组消纳量、机组运行费用等奖励项，运用Deep Q Network深度强化学习算法，在电网仿真环境中训练出智能体，面对新能源、柔性负荷等大规模接入后给配电网的电力平衡、安全运行、运行控制等方面带来的严峻挑战，在联络线阻塞、联络线N-1故障、源荷剧烈波动、新能源限电等电网运行异常场景中，能够快速给出电网运行方式调整策略，辅助调度人员高效制定及执行调度策略，在保证电网安全运行条件下最大程度消纳新能源。本发明基于强化学习的调度策略智能生成方法可为新形势下的配电网安全稳定运行调度提供了强有力的辅助手段。

附图说明

图1为本发明的整体结构示意图；

图2为本发明的基于强化学习的网络模型结构；

图3为本发明基于强化学习的配电网运行策略智能生成模型应用流程图；

图4为本发明基于强化学习的配电网运行策略智能生成模型结构图。

具体实施方式

以下结合附图和具体实施例对本发明做进一步详细说明：

实施例一

请参阅图1，本发明实施过程为：首先，定义智能体的运行环境及参数因子，所述智能体为配电网运行策略智能生成模型。基于配电网历史运行数据，梳理并定义在智能体中其状态空间、动作空间、奖励的参数集合；其次，构建模型训练样本池，梳理配电网中基于在不同运行场景中的新能源发电功率、储能装置储电量及充放电状态、用电负荷量等数据，并按照深度强化学习训练数据集格式要求进行整合，放入样本池中供模型训练、评估使用；然后，设计强化学习模型的网络模型结构；接着，开展基于强化学习的智能体训练和评估；最后开展基于智能体的应用。

较优地，定义智能体的运行环境及参数因子的过程为：强化学习算法应用到配电网运行智能调度时，需要确定该应用背景下智能体的状态空间、动作空间以及外部环境返回的奖励。其中，对于状态空间集合S，由电网运行状态变量组成，包括有功出力G_pt、机组无功出力G_qt、负荷有功L_pt、负荷无功L_qt、电网损耗(网损值)GL_t、当前时间步新能源机组的最大有功出力CRGM_pt、下一时间步新能源机组的最大有功出力NRGM_pt+1、下一时间步的负荷预测值NL_pt+1等，如以下公式所示：

S＝{s|s_t＝(G_pt，G_qt，L_pt，L_qt，GL_t，CRGM_pt，NRGM_pt+1，NL_pt+1，...)}

本发明所涉及的全部状态变量如表1，可以根据实际配电网运行调度决策所涉及的数据动态调整状态空间集合S中的变量。

表1本发明涉及的全部状态变量：

对于动作空间集合A：在强化学习模型智能生成调度决策模式下，智能体直接输出t+1时刻配电网运行需要完成的动作(调控)指令。因此，动作空间集合A由配电网针对外部环境变化进行机组有功出力调整值、机组电压调整值等调控动作的n个等离散量α_i组成，表达式为：

A＝{α₁，α₂，…，α_n}。

针对配电网不同运行状态，智能体动态地在动作空间中选择能使配电网能够长期安全稳定运行和最大程度消纳新能源。

对于，奖励集合R：在学习环节中，强化学习算法需要根据外部环境返回的奖励来确定控制器参数的更新方向与幅度。本发明中，外部环境指配电网仿真环境或实际运行环境；奖励(reward)作为智能体算法的优化目标，具体形式可由基于不同地理位置的配电网进行自义，其可分为正奖励和负奖励，每类奖励计算方式不同，可涉及如下奖励：

(1)线路越限情况(正奖励)

其中，n_line表示电网支路个数，I_i和T_i表示支路i的电流和热极限，∈为一常数取值为0.1，避免出现分母为零的情况。

(2)新能源机组消纳量(正奖励)

其中，n_new表示新能源机组个数，p_i表示新能源机组i的实际有功出力，表示新能源机组i在当前时间步的最大出力。

(3)平衡机功率越限(负奖励)

其中，n_balanced表示平衡机个数，p_i表示平衡机i的实际有功出力，表示平衡机的出力上限。

(4)机组运行费用(负奖励)

其中，n_gen表示机组总数，p_i表示机组i的实际有功出力，a，b，c表示系数。新能源和平衡机没有关机状态，一直保持开机。火电机组的关机状态通过判断机组有功出力是否为零来确定。

(5)无功出力越限(负奖励)

其中，n_gen表示机组总个数，q_i表示机组的实际无功出力，表示机组的无功出力上限，/>表示机组的无功出力下限。

(6)节点电压越限(负奖励)

其中，n_sub表示电网节点个数，v_i表示节点i的电压值，表示节点i的电压上限，/>表示节点i的电压下限。

对奖励项r₄、r₅、r₆进行归一化，公式如下：

r＝e^r-1

综上所述，奖励项r₁、r₂的域值为[0，1]，奖励项r₃、r₄、r₅、r₆的域值为[-1，0]。

默认使用的奖励，公式如下：

R＝a₁r₁+a₂r₂+a₃r₃+a₄r₄+a₅r₅+a₆r₆

其中r_i表示归一化后的各奖励项，a_i表示各奖励项系数，根据电网运行考验侧重点进行取值，默认取值如下：

a₁＝1，a₂＝2，a₃＝4，a₄＝1，a₅＝1，a₆＝1

较优地，所述构建模型训练样本池的过程为：梳理配电网在不同运行场景中的运行调度数据以及预测数据，例如，样本池中包括新能源发电功率、储能装置储电量及充放电状态、用电负荷量、新能源发电功率预测数据等数据，然后按照深度强化学习训练数据集格式要求进行整合，放入样本池中供模型训练、评估使用。本实施例的训练数据集包括所有机组和负荷的有功实际出力数据，新能源机组有功预测出力数据、所有机组和负荷的无功出力数据等，间隔5分钟，共106820个断面，以文件(CSV格式)提供。机组有功实际出力数据文件名为gen_p.csv，负荷实际有功数据文件名为load_p.csv，新能源机组有功预测出力数据文件名为max_renewable_gen_p.csv。此外，可根据配电网运行调度涉及的数据进行扩充样本池数据，也可选择其他合适的文件存储训练数据。本实施中各数据样例如表2至6所示。机组有功出力数据样例如表2所示，机组无功出力数据样例如表3所示，负荷有功数据样例如表4所示，负荷无功数据样例如表5所示，新能源机组的最大有功出力数据样例如表6所示。

表2机组有功出力数据样例：

bus.119.gen	bus.4.gen	bus.6.gen	bus.8.gen	bus.10.gen	bus.12.gen	bus.15.gen	...
								42.4454	39.7933	19.4461	48.5332	29.0926	45.7806	22.0707	...
37.148	44.747	20.3658	47.4539	28.1896	46.8318	23.0179	...
								38.9992	43.3768	20.4394	47.3854	25.9792	44.7304	23.5793	...
40.1064	41.4658	20.7466	47.4318	29.2467	46.7307	24.1113	...
								38.2258	45.4724	21.0794	46.3818	28.0512	46.665	24.7876	...

表3机组无功出力数据样例：

bus.119.gen	bus.4.gen	bus.6.gen	bus.8.gen	bus.10.gen	bus.12.gen	bus.15.gen	...
								-11.7885	7.30425	4.2435	24.8199	1.20636	33.0045	13.8005	...
-9.60847	3.32728	4.38788	25.6982	1.26281	27.7218	11.9094	...
								-10.0913	3.13964	0.739671	25.7179	1.40313	27.2904	12.2701	...
-11.1651	6.455	4.35677	24.8861	1.19678	33.2274	13.9639	...
								-9.78648	5.69276	3.57732	24.3554	1.2715	34.4442	12.2887	...
-10.2673	4.47333	5.94144	25.2923	1.29172	32.5484	12.107	...

表4负荷有功数据样例：

bus.1.ld	bus.2.ld	bus.3.ld	bus.4.ld	bus.6.ld	bus.7.ld	bus.11.ld	...
								8.06735	23.7957	30.2204	-9.97588	6.49284	9.36401	44.0779	...
7.87554	23.9146	29.9169	-10.963	6.50718	9.40344	28.8993	...
								7.17284	23.9481	30.0651	-12.1922	6.35421	8.92063	28.4649	...
5.78177	23.5364	30.0101	-11.692	6.32015	8.638	35.0868	...
								8.09185	23.7013	29.51	-12.5883	6.36736	9.66397	37.8223	...
5.12508	23.543	29.1323	-13.156	6.39723	8.6386	40.3559	...

表5负荷无功数据样例：

bus.1.ld	bus.2.ld	bus.3.ld	bus.4.ld	bus.6.ld	bus.7.ld	bus.11.ld	...
								-4.24072	-5.86244	4.21383	6.71512	-5.52244	0.851491	11.6908	...
-2.63574	-5.96701	4.18097	7.1083	-4.97689	0.944706	8.29262	...
								-2.46604	-6.01481	4.19471	7.52897	-8.16535	0.489981	6.98939	...
-3.1783	-6.31238	4.02023	7.59948	-4.56877	0.433812	13.8784	...
								-2.45887	-5.74353	4.02023	7.76739	-5.72381	0.889733	14.5799	...
-2.65307	-4.98944	3.68979	7.59709	-3.77883	1.39644	14.5076	...

表6新能源机组的最大有功出力数据样例

请参阅图2，更优地，所述基于强化学习的智能体的网络模型结构设计过程为：本实施例中的智能体是由两个神经网络模块组成，即行动网络Q(s_t，α_t，θ)和评估网络Q(s_t，α_t，θ^-)。其中，θ和θ^-网络参数，主要包含神经网络各层的“权重、偏置”等具体参数值，是DQN算法内部的参数变量。在模型训练的过程中，行动网络根据环境当前状态s_t，采用ε-greedy策略，即贪心策略，选择一个具有最大价值函数的动作α_t+1，评估网络会对选的动作进行评估，计算出在下一个状态s_t+1选择动作α_t+1得到的值Q。目标值计算公式为：

通过行动网络计算的价值和评估网络计算价值计算出误差函数L(θ)，根据误差函数计算结果，利用梯度下降法更新行动网络参数，每个固定迭代步数，将行动网络参数同步给评估网络。误差函数计算公式为：

所述ε-greedy策略如下：

输入：状态集S、动作集A、奖励r、折扣系统γ、探索率ε

输出：最优的动作价值函数q^*、最优策略c^*；

步骤1：初始化所有的动作价值f(s，a)＝0，状态次数N(s，α)＝0，采用次数k＝0，随机初始化一个策略c

步骤2：k＝k+1，基于策略c产生完整的episold序列：

S₁，A₁，r₂，S₂，A₂，r₃，...S_t，A_t，r_t+1，...，S_T，A_T，r_T+1

步骤3：对于序列出现的每一对q(S_t，A_t)，计算其收获G_t，更新其计数N(S_t)及动作价值函数：

Gt＝r_t+1+γr_t+2+Y²r_t+3+...+γ^T-1r_t+T

N(S_t)＝N(S_t)+1

q(S_t，A_t)＝q(S_t，A_t)+a(G_t-q(S_t-1，A_t-1))

步骤4：基于新计算出的动作价值，更新当前的ε-greedy策略：

步骤5：如果所有的q(S_t，A_t)收敛，则对应的所有q(S_t,A_t)即为最优的动作价值函数q^*。对应的策略c(α|s)即为最优策略c^*。否则转到步骤2。

需要说明的是：ε-greedy策略中q*、c*对应的动作就是本实施例中的动作α_t+1。

DQN(深度强化学习)引入的另一技术是经验回放策略，它将训练过程中与环境交互获得的数据以四元组<s_t，α_t，r_t，s_t+1>的形式存储在样本池(存放智能体所学习到的经验数据)中，通过统一采样样本对神经网络进行训练。由于强化学习连续的经验样本在时间上具有相关性，需要通过小批量采样进行学习提高训练效率。神经网络也需要大量的数据进行训练以达到收敛状态，经验回放机制可以对经验样本重复利用，加快算法的收敛速度。

更优地，选择合适的深度强化学习算法，开展模型训练，具体过程为：强化学习算法主要包含Q-learning、Sarsa、Deep Q Network(DQN)、Policy Grandient等。本实施例选择基于经验回放的DQN深度强化学习算法进行模型训练，为了加快模型训练速度，选择在带GPU服务器上开展模型训练。该算法伪代码如下：

初始化样本池D，样本池容量N，∈参数，折扣系数γ，学习率α，训练回合数M，每回合步数T

初始化神经网络Q-NetWord(行动网络)、Target-Network(评估网络)，网络参数θ和θ^-

for episode＝1，M do

初始化仿真环境，初始化s_t

for t＝1，T do

根据ε-greedy策略，以概率ε从动作空间选择一个随机动作α_t

否则Q-Network根据选择动作

执行动作α_t，智能体从环境得到奖励r_t和新的状态s_t+1

将经验样本e＝<s_t，α_t，r_t，s_t+1>存储在经验缓冲池D中

从经验缓冲池D中抽取数量为minibatch的经验样本<s_j，α_j，r_j，s_j+1>

根据损失函数通过梯度下降算法更新Q-NetWord的网络参数θ

每隔C步更新Target-Network网络参数θ^-，θ←θ^-

更优地，所述基于强化学习的智能体的模型评估方式过程为：本实施例利用电网仿真模拟器验证智能体决策有效性，从电网安全、低碳、经济三个方面对决策执行效果进行量化评估，同时考虑决策耗时，综合量化评分。可通过计算模型在N个回合中获取的奖励作为评估指标，计算公式如下：

其中s_i表示第i回合的得分，N表示回合数，R_t表示智能体在t时刻获得的奖励大小，t_over表示回合结束的最后时刻，|tover|表示该回合结束时的总时刻个数。较优地，score总分可以设置为100，由于每个回合的奖励项有正有负，回合得分不一致。当回合结束后，可以计算出总平均得分，平均得分越接近100，说明模型性能越好。

每个回合的评分包含以下奖励项：(1)线路越限情况(正奖励)、(2)新能源机组消纳量(正奖励)、(3)机组运行费用(负奖励)、(4)平衡机功率越限(负奖励)、(5)无功出力越限(负奖励)、(6)节点电压越限(负奖励)。回合结束条件：1)潮流不收敛，由仿真环境返回当前时刻潮流的收敛情况；潮流计算收敛就是在矩阵迭代求解的时候，能够在有限的次数内达到目标，求得方程的解，若潮流不收敛，即潮流计算无结果；2)训练达到最大时间步数；3)读取到csv格式的状态变量数据文件中的最后一个断面。

请参阅图3和图4，更优地，在电网仿真环境中完成智能体训练及评估后，可将智能体部署在配电网运行调控系统中，接入配电网实时运行数据(如与D5000系统集成)，实时生成下一时刻配电网运行调控策略。策略生成过程如下：

智能体从配电网系统中(如D5000)获取配电网实时运行状态参数集合S，包含但不限机组有功出力、机组无功出力、负荷有功、负荷无功、电网损耗(网损值)、当前时间步新能源机组的最大有功出力、下一时间步新能源机组的最大有功出力、下一时间步的负荷预测值等数据，从预先设定的动作空间A，包含但不限机组有功出力调整动作、机组电压调整动作等中选择一个具有最大价值函数的动作α_t，评估网络会对选的动作α_t使用预先设定的奖励R，包含但不限线路越限情况、新能源机组消纳量、平衡机功率越限、机组运行费用、无功出力越限、节点电压越限等进行综合评估，计算出在下一个状态选择动作α_t+1。然后通过时序差分方法(DQN误差函数)计算行动网络选择的配电网执行动作α_t和评估网络选择的配电网执行动作α_t+1之间的误差，并通过梯度下降法对更新行动网络参数，从中推荐出配电网下一时刻运行最优调整动作返回给配电网系统。同时保存电网当前运行状态S、执行动作α、奖励R、下一时刻运行状态S_t等信息，并在每个固定迭代步数时，将行动网络参数同步给评估网络网络。

由于智能体生成的运行调控策略无法达到100％准确性，以及电网运行调控高安全、高稳定性要求，相关调控策略还需调度人员审核后再执行。智能体可辅助调度人员开展配电网运行调度决策，提升调度人员应对新能源、柔性负荷等大规模接入后联络线阻塞、联络线N-1故障、源荷剧烈波动、新能源限电等配电网运行典型场景下调度决策效率和效益。

基于相同的发明构思，本发明还提供一种执行实施例一所述方法的设备。

实施例二

请参阅图1至图4，一种基于强化学习的配电网运行策略智能生成设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述基于强化学习的配电网运行策略智能生成方法。

本实施例未详尽描述的实施方式与实施例一相同。

本实施例具有与实施例一相同的有益效果。

以上所述仅为本发明的具体实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于强化学习的配电网运行策略智能生成方法，其特征在于：包括如下步骤：

定义智能体的运行环境及参数因子，所述智能体为配电网运行策略智能生成模型；

构建基于强化学习的智能体的训练样本池；

制定基于强化学习的智能体的网络模型结构；

执行基于强化学习的智能体的训练和评估；

应用智能体实时生成下一时刻配电网运行调控策略。

2.根据权利要求1所述的一种基于强化学习的配电网运行策略智能生成方法，其特征在于：所述定义智能体的运行环境及参数因子，具体为：基于配电网历史运行数据，梳理并定义在所述智能体中其状态空间、动作空间、奖励的参数集合。

3.根据权利要求2所述的一种基于强化学习的配电网运行策略智能生成方法，其特征在于：所述状态空间集合S由电网运行状态变量组成，所述状态空间集合S是根据实际配电网运行调度决策所涉及的状态变量决定，且所包含的状态变量可调整。

4.根据权利要求2所述的一种基于强化学习的配电网运行策略智能生成方法，其特征在于：所述动作空间集合A由调控动作离散量α_i组成，表达式为：A＝{α₁，α₂，...，α_n}。

5.根据权利要求2所述的一种基于强化学习的配电网运行策略智能生成方法，其特征在于：所述奖励集合R由正奖励和负奖励组成，其中正奖励包括线路越限情况和新能源机组消纳量，所述负奖励包括平衡机功率越限、机组运行费用、无功出力越限以及节点电压越限。

6.根据权利要求2所述的一种基于强化学习的配电网运行策略智能生成方法，其特征在于：所述智能体的网络模型结构为：智能体是由两个神经网络模块组成，包括行动网络和评估网络/>其中，θ和θ^-网络参数；在模型训练的过程中，行动网络根据环境当前状态s_t，选择一个具有最大价值函数的动作α_t+1，评估网络会对选的动作进行评估，计算出在下一个状态s_t+1选择动作α_t+1得到的值Q；进一步计算目标值Υ_t ^DQN，计算公式为：/>然后计算误差函数L(θ)，并通过梯度下降法更新行动网络参数θ，每个固定迭代步数，将行动网络参数同步给评估网络；误差函数计算公式为：

7.根据权利要求1所述的一种基于强化学习的配电网运行策略智能生成方法，其特征在于：所述基于强化学习的智能体的模型评估方式为：利用电网仿真模拟器验证所述智能体的决策有效性，从电网安全、低碳、经济三个方面对决策执行效果进行量化评估，同时考虑决策耗时，综合量化评分，具体地，通过计算模型在N个回合中获取的奖励作为评估指标，计算公式如下：

其中s_i表示第i回合的得分，N表示回合数，R_t表示智能体在t时刻获得的奖励大小，t_over表示回合结束的最后时刻，|tover|表示该回合结束时的总时刻个数；每个回合的评分包含所述正奖励和负奖励；回合结束条件为：

1)潮流不收敛，由仿真环境返回当前时刻潮流的收敛情况；

2)训练达到最大时间步数；

3)读取到csv格式的状态变量数据文件中的最后一个断面。

8.根据权利要求6所述的一种基于强化学习的配电网运行策略智能生成方法，其特征在于：所述应用智能体实时生成下一时刻配电网运行调控策略，过程如下：智能体从配电网系统中状态空间集合S中获取实时运行状态参数，然后从预先设定的动作空间A中选择一个具有最大价值函数的动作α_t，评估网络会对选的动作α_t使用预先设定的奖励R进行综合评估，计算出在下一个状态选择动作α_t+1，然后通过所述误差函数计算行动网络选择的配电网执行动作α和评估网络选择的配电网执行动作α_t+1之间的误差，并通过梯度下降法对更新行动网络参数，从中推荐出配电网下一时刻运行最优调整动作返回给配电网系统。

9.一种基于强化学习的配电网运行策略智能生成设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8任意一项所述的基于强化学习的配电网运行策略智能生成方法。