CN114243718B

CN114243718B - 一种基于ddpg算法的电网无功电压协调控制方法

Info

Publication number: CN114243718B
Application number: CN202111587985.9A
Authority: CN
Inventors: 李刚; 王志扬; 李鹏
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2023-08-01
Anticipated expiration: 2041-12-23
Also published as: CN114243718A

Abstract

本发明公开了一种基于DDPG算法的电网无功电压协调控制方法，包括以下步骤：根据电网的物理结构和电气参数，构建电网的拓扑结构描述矩阵；基于DDPG算法模型，将拓扑结构描述矩阵的电网断面数据作为输入数据进行训练直至模型收敛，构建无功电压控制模型，无功电压控制模型用于对电网的进行无功电压控制；本发明中所设计的电网无功电压协调控制方法仅需要少量电网断面数据，相比于其它的控制方法而言，该方法适应性好，泛用性强，适合各种不同类型的电网的无功电压控制需求。

Description

一种基于DDPG算法的电网无功电压协调控制方法

技术领域

本发明涉及电网电压控制领域，具体为一种基于DDPG算法的电网无功电压协调控制方法调控制方法。

背景技术

随着电网规模的日益增大及内部结构的复杂度增加，协调控制大型电网的无功电压成为了重要的研究方向。传统的针对无功电压控制的策略如基于控制区域划分的控制、专家系统等基于人工经验的方法需要人为划分区域或者设置部分参数，主观性较强；模糊控制、全网实时电压自动控制及其相关改进算法等基于实时计算的方法需要指数规模的算力支持。此外，电网的强时变性，强非线性，随机不确定性、局部可观测性等特征使得上述传统分析控制方法难以满足日益膨胀的电网规模的需求。

电网的运行与控制呈现高复杂性与不确定性，相比于传统的基于规则的方法，人工智能技术等方法应用于电网调控策略更具有优势。基于深度学习、强化学习、迁移学习等的电网控制策略是当前电网控制方面较为热门的研究课题。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，通过多层网络的组合，使用“简单模型”即可完成复杂的分类等学习任务。强化学习强调在与环境的交互中学习，利用评价性的反馈信号实现决策的优化。深度强化学习(Deep Reinforce Learning,DRL)将深度学习的感知能力和强化学习的决策能力相结合，通过高维感知输入的学习来控制行为，为复杂系统的感知决策问题提供了解决方案。深度强化学习中，基于深度确定性策略梯度(Deep DeterministicPolicy Gradient，DDPG)算法能够很好地解决连续动作空间下的控制问题，适用于求解电网无功电压协调控制问题。

发明内容

为了解决上述问题，本发明的目的是提供一种DDPG算法的电网无功电压协调控制方法，有效解决大型复杂电网的无功电压控制问题。

为了实现上述技术目的，本申请提供了一种基于DDPG算法的电网无功电压协调控制方法，包括以下步骤：

根据电网的物理结构和电气参数，构建电网的拓扑结构描述矩阵；

基于DDPG算法模型，将拓扑结构描述矩阵的电网断面数据作为输入数据进行训练直至模型收敛，构建无功电压控制模型，无功电压控制模型用于对电网的进行无功电压控制。

优选地，在构建拓扑结构描述矩阵的过程中，拓扑结构描述矩阵包括电网的拓扑结构图和设备电气参数；

电网拓扑结构图包括母线/节点信息和联络线参数；

母线/节点信息用于表示同一条母线下的所有设备视为在同一个节点下，每一条母线视为一个节点，拥有一个唯一的节点编号；

联络线参数用于表示联络线起止节点信息和电气参数，其中，联络线上的变压器的电气参数归算到联络线参数中；

设备电气参数包括发电设备和用电设备的电气信息；

发电设备包括发电机、储能装置、无功补偿装置、新能源，以及为电网提供有功或无功的装置；

用电设备用于表示负荷；

用电设备的电气信息包括用电设备所在母线编号和设备电气参数信息；

用电设备的功率限额为后续使用高斯噪声模拟负载变化提供参考标准，其中，训练模型时，使用高斯噪声模拟负载变化情况，包括，对于每一个用电设备，根据其最大有功/无功功率和最小有功/无功功率，使用高斯噪声按比例增减负荷的有功和无功。

优选地，在将电网断面数据作为输入数据进行训练的过程中，电网包括m个母线/节点，n条联络线；

电网断面数据包括母线信息矩阵、联络线信息矩阵、发电设备信息矩阵、用电设备信息矩阵，其中，

母线信息矩阵的维度为m*3，其中，每一行表示一条母线信息；

联络线信息矩阵的维度为n*5，其中，每一行表示一条联络线信息；

发电设备信息矩阵的维度为G*3，其中，G表示电网的发电设备总数，计算公式为：g_i为第i条母线上发电设备的个数；

用电设备信息矩阵的维度为E*3。其中，E表示电网的用电设备总数，计算公式为：e_i为第i条母线上用电设备的个数。

优选地，在构建无功电压控制模型的过程中，DDPG算法模型包括策略网络和价值网络；

策略网络用于输出确定性的动作；

价值网络用于评价动作优劣；

通过DPG更新策略网络，用于增加动作的动作分数，其中DPG表示策略梯度；

通过TD算法更新价值网络，用于使评价更接近真实价值。

优选地，在构建无功电压控制模型的过程中，使用评价函数对每一步动作的结果做出评价，评价函数表示为：

其中，节点i的电压偏差百分比绝对值为δ_i，发电机j功率偏差为τ_j。

优选地，策略网络表示为a＝π(s；θ)，其中，s表示当前状态信息，s的维度为V_s＝5m+7n+2G+2E，θ表示策略网络的神经网络参数，a表示策略网络π根据s与θ计算得到的动作，a的维度为V_a＝2G；

策略网络的输入层的维度与s的维度相等；

策略网络的输出层的维度与a的维度相等；

策略网络的隐含层神经网络层数为lnV_aV_s，每层维度为4(V_a+V_s)；

价值网络表示为v＝q(s，a；w)，其中，w表示价值网络的神经网络参数，v表示价值网络q基于状态s对动作a的评分，v的大小用于表示当前价值网络a的折扣回报；

折扣评价的定义为从开始到t时刻的所有回报的加权求和，计算公式如下：

其中，γ为评价的折扣率；

价值网络的输入层维度为V_a+V_s；

价值网络的输出层维度为1；

价值网络的隐含层神经网络层数为ln(V_a+V_s)；每层维度为5(V_a+V_s)。

优选地，在构建无功电压控制模型的过程中，策略网络和价值网络的网络参数均采用随机初始化策略，以及使用权重正则化防止梯度爆炸，使用dropout防止过拟合现象的发生；

对策略网络和价值网络均采用Target网络来缓解自举现象，其中，将Target网络分别初始化成，与策略网络和价值网络的结构相同网络，并随着训练的进行，定期将策略网络和价值网络的θ和w，分别复制到Target网络的参数θ′和w′。

优选地，通过TD算法更新价值网络的网络参数w，更新的方法为：

δ_t＝q_t-f_t＝q_t-(r_t+q_t+1)

q_t＝q(s_t，a_t；w)

q_t+1＝q(s_t+1，a′_t+1；w′)

a′_t+1＝π(s_t+1；θ′)

其中，α为价值网络的学习率，s_t表示t时刻下状态信息；a_t表示t时刻下使用策略网络π根据s_t与θ计算得到的动作；r_t表示使用上述评价函数对当前动作结果的评价；s_t+1表示s_t应用了动作a_t后的结果；

通过DPG更新策略网络的网络参数w，更新的方法为：

其中，β为策略网络的学习率。

优选地，在将模型训练至收敛的过程中，在执行若干轮计算后，将现有的网络参数θ和w同步给Target网络：

w′←τ*w+(1-τ)*w′

θ′←τ*θ+(1-τ)*θ′

其中，τ∈[0，1]，表示网络同步的加权平均参数。

优选地，在将模型训练至收敛的过程中，使用经验回放技术提升DDPG的训练速度和效果，包括以下步骤：

构建经验池的保存部分Transition用于提高Transition的利用率；

采用经验池与非均匀抽样打破Transition序列之间的相关性；

在模型训练开始时，将断面数据放入经验池作为最初的经验进行模型训练。

本发明公开了以下技术效果：

1、本发明中所设计的基于DDPG算法的电网无功电压协调控制方法无需大量实际运行数据。同时，模型最初即采集目标电网的拓扑结构和电气参数特征，模型也是在此模型上的训练结果，使用方便，易推广，更加符合不同用户类型的需求；

2、当前各种无功电压控制方案多是基于专家经验或是大量实时运算，控制效果不够及时，本发明中所提出的协调控制方法在这一难题上有明显的改善，其基于DDPG算法的电网无功电压协调控制方法不依赖专家经验。并且在训练完模型后，后期输出控制方案仅需要极低的运算力即可完成。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述的包含Target网络和经验回放的DDPG算法示意图；

图2为本发明所述的多线程训练过程示意图；

图3为本发明所述的IEEE 9节点电网连接图；

图4为本发明所述的方法流程示意图。

具体实施方式

下为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1-4所示，本发明提供了一种基于DDPG算法的电网无功电压协调控制方法，包括如下步骤：

S1、根据电网的物理结构和电气参数构建电网的拓扑结构描述矩阵.

S2、然后基于上述拓扑结构，以电网断面数据训练无功电压控制深度强化学习模型直至模型收敛.

S3、最后将训练好的无功电压控制模型应用于实际电网，进行电网的无功电压控制。

根据上述技术方案，发明中使用所有电气量均为已经归算到基准下。所述S1中电网拓扑结构矩阵包含两类数据：电网的拓扑结构图和设备电气参数。其中，电网拓扑结构图主要包括母线/节点信息和联络线参数；设备电气参数主要包含发电设备和用电设备的电气信息。

电网拓扑结构图主包含两部分信息：母线/节点信息和联络线参数。同一条母线下的所有设备视为在同一个节点下，每一条母线视为一个节点，拥有一个唯一的节点编号。母线/节点参数信息的数据定义如表1所示：

表1

联络线参数主要包括：联络线起止节点信息和电气参数。其中，联络线上的变压器的电气参数需要归算到联络线参数中。联络线参数数据定义如表2：

表2

列序号	列名	单位	含义
				1	lineId		联络线编号
2	fbus		起始母线编号
				3	tbus		终止母线编号
4	r	p.u.	支路电阻
				5	x	p.u.	支路电抗
6	b		支路电纳
				7	rateA	MVA	支路长期运行允许的功率
8	rateB	MVA	支路短期运行允许的功率
				9	rateC	MVA	支路紧急运行允许的功率
10	ratio		支路上变压器的变比
				11	angle	degree	支路上变压器的转角
12	angmin	degree	支路最小相角差
				13	angmax	degree	支路最大相角差

设备电气参数包括包含两类设备：发电设备和用电设备。发电设备不仅包含传统的发电机，还包含储能装置、无功补偿装置、新能源等可以为电网提供有功或无功的装置。用电设备即指负荷。

发电设备电气参数信息的数据定义如表3：

表3

列序号	列名	单位	含义
				1	genId		设备编号
2	busId		设备所在母线的编号
				3	Qmax	MVar	设备的最大无功功率输出
4	Qmin	MVar	设备的最小无功功率输出
				5	Vg	p.u.	设备的工作电压幅值
6	mBase	MVA	设备的功率基准值
				7	Pmax	MW	设备的最大有功功率输出
8	Pmin	MW	设备的最小有功功率输出

用电设备电气参数信息包括其所在母线编号和设备电气参数信息。其中，设备的功率限额(最大功率、最小功率)为后续使用高斯噪声模拟负载变化提供参考标准。用电设备电气参数信息的数据定义如表4：

表4

列序号	列名	单位	含义
				1	eqId		设备编号
2	busId		设备所在节点的编号
				3	Qmax	MVar	设备的最大无功功率
4	Qmin	MVar	设备的最小无功功率
				5	Pmax	MW	设备的最大有功功率
6	Pmin	MW	设备的最小有功功率

根据上述技术方案，所述S2中电网断面数据是指电网实际运行过程中某一时刻的真实稳态数据。使用此断面数据作为训练无功电压控制深度强化学习模型的初始数据。断面数据包含的字段如表5所不：

表5

设共有m个母线/节点，n条联络线，则断面数据包含如下信息：

母线信息矩阵，维度：m*3，其中，每一行表示一条母线信息；每列含义与表5中类型为母线/节点对应。

联络线信息矩阵，维度：n*5，其中，每一行表示一条联络线信息；每列含义与表5中类型为联络线对应。

发电设备信息矩阵，维度：G*3，其中，G表示当前电网的发电设备总数，计算公式为：gi为第i条母线上发电设备的个数；每列含义与表5中类型为发电设备对应。

用电设备信息矩阵，维度：E*3，其中，E表示当前电网的用电设备总数，计算公式为：e_i为第i条母线上用电设备的个数；每列含义与表5中类型为用电设备对应。

DDPG是基于Actor-Critic方法的深度强化学习策略，包含一个策略网络(PolicyNetwork)与一个价值网络(Value Network)。策略网络用于输出确定性的动作，价值网络用于评价动作优劣。用策略梯度DPG更新策略网络，使动作分数更高。用TD算法更新价值网络，使评价更接近真实价值。通过不断迭代训练，最终达到逼近最优动作和准确评价网络状态的目的。

在模型的构建过程中，使用评价函数对每一步动作的结果做出评价，即评价动作应用后电网的状态。其评价函数为：

策略网络指导选择动作，记为：a＝π(s；θ)，其中，s表示当前状态信息，是一个多维向量，其维度为上述四类数据的部分数据列拼接而成，选择的列信息如表6所示，s的维度为：

V_s＝5m+7n+2G+2E；

表6

数据名称	s选取列
		母线/节点	表1(2，3，4)+表5(2，3)
联络线	表2(4，5，6)+表5(5，6，7，8)
		发电设备	表5(10，11)
用电设备	表5(13，14)

θ表示策略网络的神经网络参数；a表示策略网络π根据s与θ计算得到的动作。a是一个多维向量，其维度等于当前电网转化为控制问题后的自由度，选择的列信息如表7所示，a的维度为：V_a＝2G，

表7

数据名称	a选取列
		发电设备	表5(10，11)

θ作为策略网络的神经网络参数，其输入层的维度与s的维度相等；输出层的维度与a的维度相等。隐含层神经网络层数为：ln V_aV_s；每层维度为：4(V_a+V_s)。

价值网络评价Agent在当前状态下的采取的动作的优劣程度，记为：v＝q(s，a；w)，

其中，s表示当前状态信息，a表示策略网络π计算得到的动作，其定义与上述策略网络中的相同。w表示价值网络的神经网络参数，v表示价值网络q基于状态s对动作a的评分。v是一个标量，其大小表示当前价值网络a的折扣回报。折扣评价的定义为从开始到t时刻的所有回报的加权求和，计算公式如下：

其中，γ为评价的折扣率。

w作为价值网络的神经网络参数，其输入层维度为：V_a+V_s，输出层维度为1，隐含层神经网络层数为：ln(V_a+V_s)；每层维度为：5(V_a+V_s)。

策略网络和价值网络的网络参数均采用随机初始化策略，同时使用权重正则化防止梯度爆炸，使用dropout防止过拟合现象的发生。

对策略网络和价值网络均采用Target网络来缓解自举(Bootstrapping)现象，Target网络初始化成原网络相同的网络。随着训练的进行，Target网络参数θ′和w′分别定期从原网络的θ和w复制。因此，本发明共计使用4个神经网络：策略网络(参数θ)、策略Target网络(参数θ′)、价值网络(参数w)、价值Target网络(参数w′)。

对于价值网络q，采用TD算法更新其网络参数w。定义Transition：(s_t，a_t，r_t，s_t+1)，其中，s_t表示t时刻下状态信息；a_t表示t时刻下使用策略网络π根据s_t与θ计算得到的动作；r_t表示使用上述评价函数对当前动作结果的评价；s_t+1表示s_t应用了动作a_t后的结果。对于每一条Transition，可以使用价值网络q计算当前时刻t动作a_t的动作价值，记为q_t：q_t＝q(s_t，a_t；w)；

使用Target网络来计算下一时刻t+1时的状态，可以写出一条Transition：(s_t+1，a′_t+1，r_t+1，s_t+2)，则t+1的价值q_t+1可记为：

qt+1＝q(st+1，a′t+1；w′)

其中，a′_t+1为策略网络π基于s_t+1预测的动作：a′_t+1＝π(s_t+1；θ′)

动作a′_t+1是一个假想动作，表示当处于s_t+1状态时，策略网络π选取的最优动作。这个动作仅用于计算q_t+1。这里a′_t+1和q_t+1均采用Target网络的网络参数进行计算。

TD-Target可记为：f_t＝r_t+q_t+1；

TD-error可记为：δ_t＝q_t-f_t＝q_t-(r_t+q_t+1)；

由于TD-Target中包含部分真实观测的信息r_t，因此有理由认为f_t比q_t更接近真实值，即前者相对真实值的差距比后者更小。在难以求出真实值的情况下，应当使动作价值q_t尽量接近真实的TD-Target，即TD-error尽可能地小。因此，可以根据TD-error，通过梯度下降方法更新价值网络的网络参数w：

其中，α为价值网络的学习率。这样就完成了一次价值网络的网络参数w的更新。

对于确定的状态s和确定的价值网络参数w，唯一会影响价值q_t的因素是策略网络的网络参数θ。希望q_t变得更大即意味着动作的评价变得更好，可以更新θ。计算q_t关于θ的梯度，使用梯度上升更新θ。这个确定策略梯度被称为(DPG)，记为：

θ←θ+β*g

其中，β为策略网络的学习率。这样就完成了一次策略网络的网络参数θ的更新。

在执行若干轮计算后，将现有的网络参数θ和w同步给Target网络：

w′←τ*w+(1-τ)*w′

θ′←τ*θ+(1-τ)*θ′

其中，τ∈[0，1]，为网络同步的加权平均参数。

使用经验回放(Experience Replay)技术提升DDPG的训练速度和效果。建立经验池保存部分Transition提高Transition的利用率，采用经验池与非均匀抽样打破Transition序列之间的相关性。在训练最开始时，将上述的断面数据放入经验池作为最初的经验。

训练模型时使用高斯噪声模拟负载变化情况。对于每一个用电设备，根据其最大有功/无功功率和最小有功/无功功率，使用高斯噪声按比例增减负荷的有功和无功。

使用多线程技术训练模型，分为CPU线程和GPU线程：

根据上述技术方案，所述S3将S2训练好的无功电压控制模型应用于实际电网，根据设置周期性采集电网断面数据，将断面数据输入模型，输出结果即为电网需要控制和调整的部分。

实施例1：如图1所示，本发明提供技术方案，一种基于DDPG的电网无功电压协调控制方法，包括如下步骤：

用例说明：采用IEEE 9节点电网模型进行说明；

根据S1，基准功率为100MVA，基准电压为345KV。根据连接图构建电网的拓扑结构图和设备电气参数信息如表8、表9、表10、表11所示。

表8

busId	type	Gs	Bs	baseKV	Vmax	Vmin
							1	3	0	0	345	1.1	0.9
2	2	0	0	345	1.1	0.9
							3	2	0	0	345	1.1	0.9
4	1	0	0	345	1.1	0.9
							5	1	0	0	345	1.1	0.9
6	1	0	0	345	1.1	0.9
							7	1	0	0	345	1.1	0.9
8	1	0	0	345	1.1	0.9
							9	1	0	0	345	1.1	0.9

表9.

lineId	fbus	tbus	r	x	b	rateA	rateB	rateC	ratio	angle	angmin	angmax
													1	1	4	0	0.0576	0	250	250	250	0	0	-360	360
2	4	5	0.017	0.092	0.158	250	250	250	0	0	-360	360
													3	5	6	0.039	0.17	0.358	150	150	150	0	0	-360	360
4	3	6	0	0.0586	0	300	300	300	0	0	-360	360
													5	6	7	0.0119	0.1008	0.209	150	150	150	0	0	-360	360
6	7	8	0.0085	0.072	0.149	250	250	250	0	0	-360	360
													7	8	2	0	0.0625	0	250	250	250	0	0	-360	360
8	8	9	0.032	0.161	0.306	250	250	250	0	0	-360	360
													9	9	4	0.01	0.085	0.176	250	250	250	0	0	-360	360

表10

genId	busId	Qmax	Qmin	Vg	mBase	Pmax	Pmin
								1	1	300	-300	1	100	250	10
2	2	300	-300	1	100	300	10
								3	3	300	-300	1	100	270	10

表11

eqId	busId	Qmax	Qmin	Pmax	Pmin
						1	5	25	35	85	95
2	7	30	40	95	105
						3	9	45	55	120	130

断面数据中的母线/节点信息矩阵、联络线信息矩阵、发电设备信息矩阵、用电设备信息矩阵如表12、表13、表14、表15所示：

表12

表13

lineId	Pf	Qf	Pt	Qt
					1	71.9547	24.06896	-71.9547	-20.753
2	30.72828	-0.58585	-30.5547	-13.688
					3	-59.4453	-16.312	60.89387	-12.4275
4	85	-3.64903	-85	7.890678
					5	24.10613	4.536791	-24.0106	-24.4008
6	-75.9894	-10.5992	76.49556	0.256239
					7	-163	2.27619	163	14.46012
8	86.50444	-2.53243	-84.0399	-14.282
					9	-40.9601	-35.718	41.22642	21.3389

表14

genId	Pg	Qg
			1	71	24
2	163	14
			3	85	-3

表15

根据S2，深度强化学习超参数设置如下：策略网络和评价网络的学习率为0.001，Target网络的更新率为0.02，评价的折扣系数为0.99，经验池大小为100000，batch size为4096，高斯噪声σ＝0.02。训练轮数为3000轮，每轮训练10000步。

根据断面数据和连接图构建策略网络和价值网络模型。策略网络及其Target网络的输入为120维，输出为6维，隐含层层数7，每层神经元个数为504，使用dropout和参数正则化；评价网络及其Target网络的输入为126维，输出1维，隐含层层数为5，每层神经元个数为630，使用dropout和参数正则化。

以此参数训练DDPG模型，经2135轮训练后，模型输出结果稳定，以此时模型为最终训练结果。

将断面数据输入训练好的模型中，得到的动作为表16所示：

表16

genId	Pg	Qg
			1	69.32	22.33
2	163.25	13.59
			3	87.00	-0.42

应用此动作，得到仿真结果如表17所示：

表17

/>

与初始断面数据中的电压情况做对比，此时结果中部分节点电压有改善：5节点电压标幺值由0.975上升到0.984；9节点电压标幺值由0.955上升到了0.978。由此可以证明模型对于节点电压调整是具有较好效果。

本发明中所设计的电网无功电压协调控制方法仅需要少量电网断面数据，相比于其它的控制方法而言，该方法适应性好，泛用性强，适合各种不同类型的电网的无功电压控制需求。

Claims

1.一种基于DDPG算法的电网无功电压协调控制方法，其特征在于，包括以下步骤：

根据电网的物理结构和电气参数，构建所述电网的拓扑结构描述矩阵；

基于DDPG算法模型，将所述拓扑结构描述矩阵的电网断面数据作为输入数据进行训练直至模型收敛，构建无功电压控制模型，所述无功电压控制模型用于对所述电网的进行无功电压控制；

在构建拓扑结构描述矩阵的过程中，所述拓扑结构描述矩阵包括所述电网的拓扑结构图和设备电气参数；

所述电网拓扑结构图包括母线/节点信息和联络线参数；

所述母线/节点信息用于表示同一条母线下的所有设备视为在同一个节点下，每一条母线视为一个节点，拥有一个唯一的节点编号；

所述联络线参数用于表示联络线起止节点信息和电气参数，其中，所述联络线上的变压器的电气参数归算到所述联络线参数中；

所述设备电气参数包括发电设备和用电设备的电气信息；

所述发电设备包括发电机、储能装置、无功补偿装置、新能源，以及为所述电网提供有功或无功的装置；

所述用电设备用于表示负荷；

所述用电设备的所述电气信息包括所述用电设备所在母线编号和设备电气参数信息；

所述用电设备的功率限额为后续使用高斯噪声模拟负载变化提供参考标准，其中，训练模型时，使用所述高斯噪声模拟负载变化情况，包括，对于每一个用电设备，根据其最大有功/无功功率和最小有功/无功功率，使用所述高斯噪声按比例增减负荷的有功和无功；

在将电网断面数据作为输入数据进行训练的过程中，所述电网包括m个母线/节点，n条联络线；

所述电网断面数据包括母线信息矩阵、联络线信息矩阵、发电设备信息矩阵、用电设备信息矩阵，其中，

所述母线信息矩阵的维度为m*3，其中，每一行表示一条母线信息；

所述联络线信息矩阵的维度为n*5，其中，每一行表示一条联络线信息；

所述发电设备信息矩阵的维度为G*3，其中，G表示所述电网的发电设备总数，计算公式为：g_i为第i条母线上发电设备的个数；

所述用电设备信息矩阵的维度为E*3，其中，E表示所述电网的用电设备总数，计算公式为：e_i为第i条母线上用电设备的个数；

在构建无功电压控制模型的过程中，所述DDPG算法模型包括策略网络和价值网络；

所述策略网络用于输出确定性的动作；

所述价值网络用于评价动作优劣；

通过DPG更新所述策略网络，用于增加所述动作的动作分数，其中DPG表示策略梯度；

通过TD算法更新所述价值网络，用于使评价更接近真实价值；

在构建无功电压控制模型的过程中，使用评价函数对每一步动作的结果做出评价，所述评价函数表示为：

2.根据权利要求1所述一种基于DDPG算法的电网无功电压协调控制方法，其特征在于：

所述策略网络表示为a＝π(s；θ)，其中，s表示当前状态信息，s的维度为V_s＝5m+7n+2G+2E，θ表示策略网络的神经网络参数，a表示策略网络π根据s与θ计算得到的动作，a的维度为V_a＝2G；

所述策略网络的输入层的维度与s的维度相等；

所述策略网络的输出层的维度与a的维度相等；

所述策略网络的隐含层神经网络层数为lnV_aV_s，每层维度为4(V_a+V_s)；

所述价值网络表示为v＝q(s，a；w)，其中，w表示价值网络的神经网络参数，v表示价值网络q基于状态s对动作a的评分，v的大小用于表示当前价值网络a的折扣回报；

其中，γ为评价的折扣率；

所述价值网络的输入层维度为V_a+V_s；

所述价值网络的输出层维度为1；

所述价值网络的隐含层神经网络层数为ln(V_a+V_s)；每层维度为5(V_a+V_s)。

3.根据权利要求2所述一种基于DDPG算法的电网无功电压协调控制方法，其特征在于：

在构建无功电压控制模型的过程中，所述策略网络和所述价值网络的网络参数均采用随机初始化策略，以及使用权重正则化防止梯度爆炸，使用dropout防止过拟合现象的发生；

对所述策略网络和所述价值网络均采用Target网络来缓解自举现象，其中，将所述Target网络分别初始化成，与所述策略网络和所述价值网络的结构相同网络，并随着训练的进行，定期将所述策略网络和所述价值网络的θ和w，分别复制到所述Target网络的参数θ′和w′。

4.根据权利要求3所述一种基于DDPG算法的电网无功电压协调控制方法，其特征在于：

通过TD算法更新所述价值网络的网络参数w，更新的方法为：

δ_t＝q_t-f_t＝q_t-(r_t+q_t+1)

q_t＝q(s_t，a_t；w)

q_t+1＝q(s_t+1，a′_t+1；w′)

a′_t+1＝π(s_t+1；θ′)

通过DPG更新所述策略网络的网络参数w，更新的方法为：

θ←θ+β*g

其中，β为策略网络的学习率。

5.根据权利要求4所述一种基于DDPG算法的电网无功电压协调控制方法，其特征在于：

在将模型训练至收敛的过程中，在执行若干轮计算后，将现有的网络参数θ和w同步给所述Target网络：

w′←τ*w+(1-τ)*w′

θ′←τ*θ+(1-τ)*θ′

其中，τ∈[0，1]，表示网络同步的加权平均参数。

6.根据权利要求5所述一种基于DDPG算法的电网无功电压协调控制方法，其特征在于：

在将模型训练至收敛的过程中，使用经验回放技术提升DDPG的训练速度和效果，包括以下步骤：

构建经验池的保存部分Transition用于提高Transition的利用率；

采用所述经验池与非均匀抽样打破Transition序列之间的相关性；

在模型训练开始时，将所述断面数据放入所述经验池作为最初的经验进行模型训练。