CN116937605A

CN116937605A - 基于深度强化学习的城市配电网电压控制方法及系统

Info

Publication number: CN116937605A
Application number: CN202310652748.9A
Authority: CN
Inventors: 陈明辉; 刘奇; 王斐; 曾顺奇; 李东旭; 许中; 周凯; 徐艳; 黄维家; 王富友
Original assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-10-24

Abstract

本发明公开了一种基于深度强化学习的城市配电网电压控制方法，方法包括下述步骤：采用树状结构对配电网进行建模，得到配电网的功率潮流函数；对配电网母线电压偏差进行建模，得到功率潮流函数的有功功率损耗函数以及母线电压偏差函数；以母线电压偏差函数、有功功率损耗函数和功率潮流函数为元素，结合桶形电压势垒函数，设置配电网总奖励目标函数，构建配电网的分布式电压控制模型；通过信息通信将分布式电压控制模型建立为部分马尔科夫博弈模型，设置部分马尔科夫博弈模型的奖励函数、观察空间和行动空间，采用多智能体深度确定性策略梯度算法对部分马尔科夫博弈模型进行求解。本发明可以给出实时的电压调节决策，并能有效减少电压波动。

Description

基于深度强化学习的城市配电网电压控制方法及系统

技术领域

本发明属于配电网电压控制的技术领域，具体涉及一种基于深度强化学习的城市配电网电压控制方法及系统。

背景技术

随着经济的发展和科技的进步，工业化和城市化程度不断加深，电力产业发展飞速。虽然化石能源满足了人类的发展需求，但其消耗产生了大量的污染性气体，导致全球环境恶化，极端天气发生频繁，对其他物种也造成了影响，进而影响了生态平衡，使人类对自身生存环境的担忧不断增加。化石能源的枯竭使人们对清洁、绿色的能源需求变得紧迫，发展绿色清洁能源逐渐成为世界各国的共识。因此，可再生能源发展已经成为必然趋势。在此基础上，开发利用光伏、风能、太阳能等可再生能源，对不同能源之间的结构加以调整，加大清洁能源的比重，是缓解改善当下问题的主要途径；由此，分布式发电技术成为新的热点。

基于光伏、风能以及太阳能等可再生能源发电的分布式电源大力发展，以及储能技术日益成熟，大量分布式电源接入电网中进行联合供电，使传统电网一定程度上摆脱只能通过从主网获取电能的状况。随着对生活品质要求的提升，针对于分布式电源接入电网的供电质量要求也逐步提升，对复杂的电力系统如何能稳定安全运行的问题也提出了挑战。例如，传统电网的潮流一般是从高压侧流向低压侧，但是接入分布式电源可能会使潮流分布发生改变，甚至可能会出现潮流反向等问题；同时以风、光为代表的分布式电源也受季节，气候和时间等因素的影响，出力的不稳定性会危及电网的安全运行；局部电压增加可能会超出限定范围，还可能会造成电压波动与闪变等影响。针对性的分析分布式电源接入电网后的影响，是保证供电可靠性的主要方式，因此研究配电网新能源和储能协同控制策略具有重要意义。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于深度强化学习的城市配电网电压控制方法，通过构建配电网的分布式电压控制模型，将分布式电压控制模型建立为部分马尔科夫博弈模型，再采用多智能体深度确定性策略梯度算法进行求解，实时获取电压调节决策，有效减少电压波动。

为了达到上述目的，本发明采用以下技术方案：

一方面，提供一种基于深度强化学习的城市配电网电压控制方法，所述配电网包括光伏系统和储能系统，包括下述步骤：

S1、采用树状结构对配电网进行建模，得到配电网的功率潮流函数；

S2、对配电网母线电压偏差进行建模，得到功率潮流函数的有功功率损耗函数以及母线电压偏差函数；

S3、以母线电压偏差函数、有功功率损耗函数和功率潮流函数为元素，结合桶形电压势垒函数，设置配电网总奖励目标函数，构建配电网的分布式电压控制模型；

S4、通过信息通信将分布式电压控制模型建立为部分马尔科夫博弈模型，设置部分马尔科夫博弈模型的奖励函数、观察空间和行动空间，采用多智能体深度确定性策略梯度算法对部分马尔科夫博弈模型进行求解。

作为优选的技术方案，所述得到配电网的功率潮流函数具体为：

在一个含双母线的的配电网中，以树状结构G＝(N,B)对配电网进行建模，其中，B＝{1,2,...,n)表示一组分支，N＝{0,1,...,n}表示一组节点，即母线；所述节点0被设置为与主网连接，用于平衡配电网的有功功率和无功功率；

对于每个节点i∈N，v_i表示节点i的电压大小，θ_i表示节点i的电压相位，则配电网的功率潮流函数定义为：

S_i＝p_i+jq_i

其中，S_i表示节点i的复合功率输入，p_i为配电网节点i的电压有功功率，j为虚部，q_i为配电网节点i的电压无功功率，分别定义为：

式中，N_i是一组与节点i相连的节点索引，v_i和v_j分别表示节点i和节点j的电压大小，p_i和q_i分别表示节点i的电压有功功率和无功功率，θ_ij是节点i和节点j之间的相位差，g_ij和b_ij分别代表节点i与节点j形成的支路(i,j)上的电导和电纳。

作为优选的技术方案，所述得到功率潮流函数的有功功率损耗函数以及母线电压偏差函数，具体为：

配电网节点i的压降Δv_i用母线电压偏差函数表示为：

其中，r_i和x_i分别表示节点i所连接支路上的电阻和电抗，共同形成阻抗z_i；为节点i的有功功率，/>为节点i的无功功率，v_i表示配电网中节点i的电压；/>表示储能系统输入到节点i的有功功率，/>为光伏系统输出到节点i的有功功率，/>表示光伏系统输出到节点i的无功功率；

则功率潮流函数的有功功率损耗函数表示为：

作为优选的技术方案，所述配电网的分布式电压控制模型表示为：

min r

v_i,min≤v_i≤v_i,max,i∈N&i≠0

v₀＝v_ref

其中，r为分布式电压控制模型的总奖励目标函数；v₀＝v_ref为参考电压给定值；N^PV为装有光伏系统支路的节点集，N^ESS为装有储能系统支路的母线集；s_i代表装有光伏系统支路中光伏逆变器在节点i的边界容量，定义为装有光伏系统支路中节点i的最大光伏可调无功功率；/>为装有储能系统支路中节点i的充电功率最小值；/>为装有储能系统支路中节点i的充电功率；/>为装有储能系统支路中节点i的充电功率最大值；/>为装有储能系统支路中节点i的放电功率；/>为装有储能系统支路中节点i的放电功率最大值；v_i,min为配电网中节点i的参考电压最小值；v_i,max为配电网中节点i的参考电压最大值。

作为优选的技术方案，所述分布式电压控制模型的总奖励目标函数由平均电压偏差函数、归一化后的总线路损耗函数和无功发电损耗函数构成，表示为：

其中，ω、μ分别为权重系数，f^Δv、f^loss和f^qL分别是平均电压偏差函数、归一化后的总线路损耗函数和无功发电损耗函数；

所述归一化后的总线路损耗函数表示为：

其中，α表示总线损函数的归一化系数，r_ij为节点i与节点j形成的支路(i,j)上的阻抗，x_ij为节点i与节点j形成的支路(i,j)上的感抗，E为节点i与节点j形成的支路集；

所述无功发电损耗函数表示为：

其中，λ表示无功发电损耗函数的归一化系数；

所述平均电压偏差函数采用桶形电压势垒函数进行设置，表示为：

其中，β表示平均电压偏差函数的归一化系数，V为配电网母线的归一化电压，

l_v为桶形电压势垒函数，表示为：

其中，v_a为节点a的初始电压；v_ref为参考电压给定值。

作为优选的技术方案，步骤S4中，具体为：

S401、基于配电网的网络划分，通过信息通信将分布式电压控制模型建立为多智能体马尔可夫决策过程模型，即部分马尔科夫博弈模型；所述部分马尔科夫博弈模型包括M个代理、观察空间O₁,...,O_i,...,O_M和动作空间A₁,...,A_i,...,A_M；

S402、设置部分马尔科夫博弈模型的奖励函数、观察空间和行动空间；所述观测空间由配电网中一系列动态信息构成，包括：v_i,t，和/>其中，v_i,t表示节点i在时刻t的电压，/>和/>分别表示节点i在时刻t的有功功率和无功功率，/>表示装有光伏系统支路中节点i在时刻t的有功功率，/>表示装有储能系统支路中节点i在时刻t的放电功率；所述行动空间由每个代理的连续控制决策构成，包括：/>和/>其中，表示装有光伏系统支路中节点i在时刻t的无功功率，/>表示为装有储能系统支路中节点i在时刻t的充电功率；

S403、采用多智能体深度确定性策略梯度算法求解部分马尔科夫博弈模型，得到配电网电压控制方法。

另一方面，提供一种基于深度强化学习的城市配电网电压控制系统，应用于上述的基于深度强化学习的城市配电网电压控制方法，所述系统包括函数获取模块、模型构建模块及模型求解模块；

所述函数获取模块用于采用树状结构对配电网进行建模，得到配电网的功率潮流函数；对配电网母线电压偏差进行建模，得到功率潮流函数的有功功率损耗函数以及母线电压偏差函数；

所述模型构建模块用于以母线电压偏差函数、有功功率损耗函数和功率潮流函数为元素，结合桶形电压势垒函数，设置配电网总奖励目标函数，构建配电网的分布式电压控制模型；

所述模型求解模块用于通过信息通信将分布式电压控制模型建立为部分马尔科夫博弈模型，设置部分马尔科夫博弈模型的奖励函数、观察空间和行动空间，采用多智能体深度确定性策略梯度算法对部分马尔科夫博弈模型进行求解。

还一方面，提供一种电子设备，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于深度强化学习的城市配电网电压控制方法。

还一方面，提供一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现上述的基于深度强化学习的城市配电网电压控制方法。

本发明与现有技术相比，具有如下优点和有益效果：

本发明针对可再生能源普及率高的配电网实时最优分布式电压控制问题，公开一种基于深度强化学习的城市配电网电压控制方法，基于配电网的网络划分将光伏逆变器无功功率输出和储能系统有功功率输出协调优化的电压控制方法表述为每个子网络的马尔可夫决策过程；然后，通过信息通信将分布式电压控制模型建立为部分马尔科夫博弈模型；最后，并采用多智能体深度确定性策略梯度算法来有效地求解所构建的模型；通过数值模拟表明，该方法可以给出实时的电压调节决策，并能有效减少电压波动。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于深度强化学习的城市配电网电压控制方法的整体流程图。

图2为本发明实施例中含双母线的配电网系统结构图。

图3为本发明实施例中桶形电压势垒函数图。

图4为本发明实施例中深度强化学习电压控制的多智能体深度确定性策略梯度算法的流程图。

图5为本发明实施例中对U型、V型和桶形电压势垒函数的性能图。

图6为本发明实施例中深度确定性策略梯度、沙普利Q值深度确定性策略梯度算法和多智能体深度确定性策略梯度算法的比较图。

图7为本发明实施例中基于深度强化学习的城市配电网电压控制系统的示意图。

图8为本发明实施例中一种电子设备的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例1

如图1所示，本实施例提供一种基于深度强化学习的城市配电网电压控制方法，包括下述步骤：

S4、通过设置奖励函数、观察空间和行动空间，采用多智能体深度确定性策略梯度算法对分布式电压控制模型进行求解。

进一步的，请参阅图2，构建配电网的功率潮流函数具体为：

在一个含双母线的配电网中，以树状结构G＝(N,B)对配电网进行建模，其中，B＝{1,2,...,n)表示一组分支，N＝{0,1,...,n}表示一组节点，即母线；其中节点0被设置为与主网连接，用于平衡配电网的有功功率和无功功率；

S_i＝p_i+jq_i

式中，N_i是一组与节点i相连的节点索引(即母线索引)，v_i和v_j分别表示节点i和节点j的电压大小，p_i和q_i分别表示节点i的电压有功功率和无功功率，θ_ij是节点i和j之间的相位差，g_ij和b_ij分别代表节点i与节点j形成的支路(i,j)上的电导和电纳。

功率潮流函数适用于整个配电网，通过求解功率潮流函数方程可得母线电压v_i∠θ_i，∠表示相角，即得到母线电压(节点电压)v_i的相角θ_i；由于计算量巨大，一般使用计算机来求解方程，方法一般为牛顿-拉斐逊迭代法或高斯-塞德尔迭代法；出于安全原因，通常允许5％的电压偏差，具体为v_i,max＝1.05v_ref和v_i,min＝0.95v_ref；当夜间负载较重时，某些节点的电压可能小于0.95p.u。

进一步的，得到功率潮流函数的有功功率损耗函数以及母线电压偏差函数，具体为：

为了直观地看到母线电压随光伏出力的变化，并解释光伏逆变器和储能系统如何参与电压控制，配电网节点i的压降Δv_i用母线电压偏转函数可近似表示为：

其中，r_i和x_i分别表示节点i所连接支路上的电阻和电抗，共同形成阻抗z_i；为节点i的有功功率，/>为节点i的无功功率，v_i表示配电网中节点i的电压；/>表示储能系统输入到节点i的有功功率，/>为光伏系统输出到节点i的有功功率，/>表示光伏系统输出到节点i的无功功率。

则功率潮流函数的有功功率损耗函数表示为：

由上式可以直观地看出：白天期间，当配电网母线电压(节点电压)随着光伏系统输入有功功率的增加而增加时，光伏系统中光伏逆变器同时吸收无功功率以降低电压；在夜间，光伏系统中光伏逆变器的全容量用于调节电压波动。为了尽可能减少储能系统动作的数量，设定为当光伏系统中光伏逆变器的无功功率调节能力达到其极限且母线电压(节点电压)仍不能达到适当范围时，储能系统动作参与平衡电压波动。

进一步的，配电网的分布式电压控制模型表示为：

min r

v_i,min≤v_i≤v_i,max,i∈N&i≠0

v₀＝v_ref

其中，r为分布式电压控制模型的总奖励目标函数；v₀＝v_ref为参考电压给定值；N^PV为装有光伏系统支路的节点集，N^ESS为装有储能系统支路的母线集(节点集)；s_i代表装有光伏系统支路中光伏逆变器在节点i的边界容量，定义为装有光伏系统支路中节点i的最大光伏可调无功功率；/>为装有储能系统支路中节点i的充电功率最小值；/>为装有储能系统支路中节点i的充电功率；/>为装有储能系统支路中节点i的充电功率最大值；/>为装有储能系统支路中节点i的放电功率；/>为装有储能系统支路中节点i的放电功率最大值；v_i,min为配电网中节点i的参考电压最小值；v_i,max为配电网中节点i的参考电压最大值。

进一步的，分布式电压控制模型的总奖励目标函数由平均电压偏差函数、归一化后的总线路损耗函数和无功发电损耗函数构成，表示为：

其中，归一化后的总线路损耗函数表示为：

无功发电损耗函数表示为：

其中，λ表示无功发电损耗函数的归一化系数；

最后，设置平均电压偏差函数，需要将电压控制在5％的偏差范围内，平均电压偏差函数采用桶形电压势垒函数进行设置，表示为：

请参阅图3，桶形电压势垒函数l_v在安全范围内具有较缓的梯度，能获得更好的电压条件，同时减少无功发电损失，表示为：

其中，v_a为节点a的初始电压；v_ref为参考电压给定值。

进一步的，请参阅图4，步骤S4中，具体为：

S401、首先，基于配电网的网络划分，通过信息通信将分布式电压控制模型建立为多智能体马尔可夫决策过程(MDP)模型，即部分马尔科夫博弈(POMG)模型；与传统的马尔可夫决策模型不同，部分马尔科夫博弈模型包括M个代理、观察空间O₁,...,O_i,...,O_M和动作空间A₁,...,A_i,...,A_M；根据从当前状态S获得的观测空间O_i，每个代理i选择其自己的动作A_i及其策略π_i；下一个状态S'是基于所有代理行动后的转移函数获得的，这意味着基于确定的行动从状态S到下一状态S'的概率矩阵，然后每个代理获得相应的奖励和更新的观察结果，代理的目标是在一段时间内最大化其预期回报；

S402、接着，通过设置部分马尔科夫博弈模型的奖励函数、观察空间和行动空间；其中配电网中的一系列动态信息构成了观测空间，包括：v_i,t，和/>其中，v_i,t表示节点i在时刻t的电压，/>和/>分别表示节点i在时刻t的有功功率和无功功率，/>表示装有光伏系统支路中节点i在时刻t的有功功率，/>表示装有储能系统支路中节点i在时刻t的放电功率；每个代理的连续控制决策构成了行动空间，包括：/>和其中，/>表示装有光伏系统支路中节点i在时刻t的无功功率，/>表示为装有储能系统支路中节点i在时刻t的充电功率。如果光伏系统中光伏逆变器动作值在-1和1之间(不包括1和1)，则储能动作值可以为0；如果逆变器的动作值等于1或1，则储能器此时的动作值将与光伏逆变器动作值相同；将在状态中重新计算操作值。

S403、最后采用多智能体深度确定性策略梯度算法求解部分马尔科夫博弈模型，得到配电网电压控制方法。

请参阅附图5，分别在U型、V型和桶形三个电压势垒函数下训练模型，每个电压势垒函数都在400个事件中进行训练，分别计算有功损耗、无功发电损耗和平均电压，由附图5可知：桶形电压势垒函数具有较低的无功功率发电损耗，同时具有非慢速的指导，它完全吸收了上面提到的V型和U型的优点。

请参阅附图6，为了证明多智能体深度确定性策略梯度算法(MADDPG)的性能，选择深度确定性策略梯度(DDPG)和沙普利Q值深度确定性策略梯度算法(SQDDPG)作为训练测试的对比，所有的训练都是在桶形电压势垒函数下进行的，同样的总奖励目标函数被用于训练；总共进行了400次训练，每20次训练后进行10次测试以获得平均值。通过观察可以得出结论，多智能体深度确定性策略梯度算法的收敛速度明显快于其他两种算法。

请参阅表1，从所有数据中随机选择15天的数据作为测试样本，在800次训练后测试模型，总共进行了10次测试，求得10次测试的平均结果。调节前的模型用于比较，试验结果见下表1。

表1.测试结果

通过实验结果可知：平均电压从电压调节前的1.0254下降到电压调节后的1.0015，平均电压偏差显著减小。同时最大电压从1.1286下降到1.0517，电压波动范围也显著减小，电压稳定性大大提高。总有功功率损失和平均无功发电损失也与平均电压相似，分别从0.2132降至0.0527和从0.0551降至0.0307。

实施例2

基于上述实施例中基于深度强化学习的城市配电网电压控制方法，请参阅图7，本实施例提供一种基于深度强化学习的城市配电网电压控制系统，包括函数获取模块、模型构建模块及模型求解模块；

其中，函数获取模块用于采用树状结构对配电网进行建模，得到配电网的功率潮流函数；对配电网母线电压偏差进行建模，得到功率潮流函数的有功功率损耗函数以及母线电压偏差函数；

模型构建模块用于以母线电压偏差函数、有功功率损耗函数和功率潮流函数为元素，结合桶形电压势垒函数，设置配电网总奖励目标函数，构建配电网的分布式电压控制模型；

模型求解模块用于通过信息通信将分布式电压控制模型建立为部分马尔科夫博弈模型，设置部分马尔科夫博弈模型的奖励函数、观察空间和行动空间，采用多智能体深度确定性策略梯度算法对部分马尔科夫博弈模型进行求解。

需要说明的是，本发明的基于深度强化学习的城市配电网电压控制系统与本发明的基于深度强化学习的城市配电网电压控制方法一一对应，在上述基于深度强化学习的城市配电网电压控制方法的实施例阐述的技术特征及其有益效果均适用于基于深度强化学习的城市配电网电压控制系统的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

实施例3

请参阅图8，在本实施例中，提供了一种实现基于深度强化学习的城市配电网电压控制方法的电子设备，所述电子设备可以包括第一处理器、第一存储器和总线，还可以包括存储在所述第一存储器中并可在所述第一处理器上运行的计算机程序，如基于深度强化学习的城市配电网电压控制程序。

其中，所述第一存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器在一些实施例中可以是电子设备的内部存储单元，例如该电子设备的移动硬盘。所述第一存储器在另一些实施例中也可以是电子设备的外部存储设备，例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述第一存储器还可以既包括电子设备的内部存储单元也包括外部存储设备。所述第一存储器不仅可以用于存储安装于电子设备的应用软件及各类数据，例如基于深度强化学习的城市配电网电压控制程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述第一处理器在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器是所述电子设备的控制核心(ControlUnit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述第一存储器内的程序或者模块，以及调用存储在所述第一存储器内的数据，以执行电子设备的各种功能和处理数据。

图8仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图8示出的结构并不构成对所述电子设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

所述电子设备中的所述第一存储器存储的基于深度强化学习的城市配电网电压控制程序是多个指令的组合，在所述第一处理器中运行时，可以实现：

以上所述，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制；凡本行业的普通技术人员均可按说明书附图所示和以上所述而顺畅地实施本发明；但是，凡熟悉本专业的技术人员在不脱离本发明技术方案范围内，利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时，凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等，均仍属于本发明的技术方案的保护范围之内。

Claims

1.基于深度强化学习的城市配电网电压控制方法，所述配电网包括光伏系统和储能系统，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于深度强化学习的城市配电网电压控制方法，其特征在于，所述得到配电网的功率潮流函数具体为：

S_i＝p_i+jq_i

3.根据权利要求2所述的一种基于深度强化学习的城市配电网电压控制方法，其特征在于，所述得到功率潮流函数的有功功率损耗函数以及母线电压偏差函数，具体为：

配电网节点i的压降Δv_i用母线电压偏差函数表示为：

则功率潮流函数的有功功率损耗函数表示为：

4.根据权利要求3所述的基于深度强化学习的城市配电网电压控制方法，其特征在于，所述配电网的分布式电压控制模型表示为：

min r

v_i,min≤v_i≤v_i,max,i∈N&i≠0

v₀＝v_ref

5.根据权利要求4所述的基于深度强化学习的城市配电网电压控制方法，其特征在于，所述分布式电压控制模型的总奖励目标函数由平均电压偏差函数、归一化后的总线路损耗函数和无功发电损耗函数构成，表示为：

所述归一化后的总线路损耗函数表示为：

所述无功发电损耗函数表示为：

其中，λ表示无功发电损耗函数的归一化系数；

l_v为桶形电压势垒函数，表示为：

其中，v_a为节点a的初始电压；v_ref为参考电压给定值。

6.根据权利要求4所述的基于深度强化学习的城市配电网电压控制方法，其特征在于，步骤S4中，具体为：

S402、设置部分马尔科夫博弈模型的奖励函数、观察空间和行动空间；所述观测空间由配电网中一系列动态信息构成，包括：v_i,t，和/>其中，v_i,t表示节点i在时刻t的电压，/>和/>分别表示节点i在时刻t的有功功率和无功功率，/>表示装有光伏系统支路中节点i在时刻t的有功功率，/>表示装有储能系统支路中节点i在时刻t的放电功率；所述行动空间由每个代理的连续控制决策构成，包括：/>和/>其中，/>表示装有光伏系统支路中节点i在时刻t的无功功率，/>表示为装有储能系统支路中节点i在时刻t的充电功率；

7.基于深度强化学习的城市配电网电压控制系统，其特征在于，应用于权利要求1-6任一项所述的基于深度强化学习的城市配电网电压控制方法，所述系统包括函数获取模块、模型构建模块及模型求解模块；

8.一种电子设备，其特征在于，所述电子设备包括：

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-6中任意一项所述的基于深度强化学习的城市配电网电压控制方法。

9.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-6中任一项所述的基于深度强化学习的城市配电网电压控制方法。