CN113988356A

CN113988356A - 一种基于dqn的5g融合智能配电网能量管理方法

Info

Publication number: CN113988356A
Application number: CN202111025762.3A
Authority: CN
Inventors: 周振宇; 贾璐瑞; 廖海君; 李从非; 卢文冰
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2022-01-28

Abstract

发明涉及一种基于DQN的5G融合智能配电网能量管理方法，属于通信技术领域。本发明提出的基于DQN具有能量队列感知的任务卸载方法能够有效的处理高维复杂的环境状态信息。并通过深度强化学习做出最优的能量管理决策，实现5G基站降本增效与供电稳定性的性能的有效折衷。促进新能源消纳、维持电网能量供需平衡，同时提升5G基站降本增效效果。能够同时考虑供电稳定性性能和电力业务差异化QoS需求，考虑了信息流与能量流间的耦合关系，即考虑了传输时延、误码率等通信需求对储能系统电池状态的影响，使得储能运行商在保障基站供电稳定性的同时学习到长期最优的能量管理策略，满足电力业务数据稳定、可靠传输的通信需求。

Description

一种基于DQN的5G融合智能配电网能量管理方法

技术领域

本发明涉及一种基于DQN的5G融合智能配电网能量管理方法，属于通信技术领域。

背景技术

随着5G移动通信网络的快速发展，大量的储能单元被广泛部署在规模化建成的5G基站上。一方面，5G所提供的丰富储能资源在保障配电网电量供需平衡方面发挥着重要作用，同时5G移动通信技术以其广域覆盖、超低时延和超高可靠的特点为配电网提供先进的通信和计算能力。另一方面，配电网能够为5G基站提供丰富的电力资源，协同调度二者所具有的能量有助于5G基站实现降本增效目标。5G融合智能配电网成为了一个新的研究热点，对实时、智能的能量管理方案提出了更高的要求。具体来说，如何协同利用5G融合智能配电网中的“源、网、荷、储”资源，根据新能源出力情况、电网的分时电价政策和负荷波动等情况，使储能系统对具有出力不确定性的新能源做出响应，从而在提高新能源消纳率并提供电网辅助业务的同时实现5G基站的降本增效是一个值得研究的问题。

传统的能量管理方法面向单一的配电网或5G网络系统，多采用确定性模型构建能量管理问题。然而，5G融合智能配电网是一个动态、复杂、大规模且异构的系统，其能量管理的对象也具有多主体、异构等特点，单一面向配电网或5G网络系统的能量管理方法很难满足能量管理的实时性和智能性要求。利用人工智能算法实现5G融合智能配电网能量管理带来了一种全新的范式，即通过协同调度5G融合智能配电网的“源、网、荷、储”四部分资源，满足配电网能量供需平衡及电力业务差异化QoS需求，同时实现5G基站的降本增效目标。但是5G融合智能配电网能量管理仍面临着一些技术挑战，具体总结如下：

第一，5G基站负载的波动性、可再生能源的间歇性、庞大的信令开销及安全隐私问题等使得5G融合智能配电网系统获得全局状态几乎是不可能的。同时，5G基站的大幅增多和网络的动态变化为能源管理优化求解带来数维灾难问题，即，5G融合智能配电网系统的异构性和动态性加剧了优化复杂度。

第二，能量管理决策面向的“源、网、荷、储”四部分资源以及各主体间的优化决策是耦合的，比如，基站与智能配电网之间的能量交换决策是相互影响的，因此其能量管理问题无法用传统的基于模型的优化方法解决。

第三，在智能能源管理过程需要关注实时性消息传递，而基站的可靠运行需要长时间稳定的能量供应，传统的能量管理优化方法往往忽略了能量流与信息流的耦合关系，忽略了电力数据需稳定传输这一长时约束，无法保证基站稳定的供电能力。

因此，迫切需要设计一种基于DQN的5G融合智能配电网能量管理方法，通过机器学习对5G基站决策进行动态优化，在全局信息不可知的前提下大幅度提升5G基站的能量交互和信息交互能力，满足配电网能量供需平衡及电力业务差异化QoS需求。

有鉴于上述的缺陷，本发明以期创设一种基于DQN的5G融合智能配电网能量管理方法，使其更具有产业上的利用价值。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于DQN的5G融合智能配电网能量管理方法。

本发明的一种基于DQN的5G融合智能配电网能量管理方法，包括以下步骤：

S1、构建系统模型框架；

采用时隙模型，将整个优化时间划分为T个时隙，其集合定义为T＝{1,...,t,...,T}；

能量管理模型包括如下四个主体：

(1)部署有分布式可再生能源和储能元件的一体化5G基站，用BS_i表示；

(2)拥有丰富电力资源的电网；

(3)储能聚合商，能量管理决策由储能聚合商制定并下发给BS_i，同时与电网相连；

(4)电信运营商，定义在第t个时隙，基站可选的能量交换方式包括向电网出售能量和从电网购买能量，其对应的交换电量大小分别用B_i(t)、S_i(t)表示；

S2、模型的细化；

(1)分布式光伏能量模型构建；

(2)基站负荷能量模型构建；

(3)储能模型构建；

(4)能量交换策略制定；

S3、提出高可靠低时延约束与优化问题；

(1)能量队列稳定性约束；

(2)供电稳定性约束；

(3)优化问题的提出；

S4、进行优化问题的转化并引入马尔科夫决策过程；

(1)优化问题的转化；

(2)马尔科夫决策过程相关概念的定义；

S5、提出基于DQN的具有能量队列感知的能量管理算法。

进一步的，S1中所述构建系统模型框架可从信息域和能量域两方面描述；

能量域架构主要用于描述能量流的流动过程，包含“源、网、荷、储”四个部分，源是指新能源，网是指配电网，荷是指5G基站的负荷，储是指5G基站的储能系统；其中，源也可以以分布式能源的方式部署在5G基站内部；

信息域架构主要用于描述信息流的流动过程，采用软件定义网络架构，数据层包含各类可编程器件以及系统中用于数据采集和传输的元素；控制层包含两个主要部分，即信息控制器和能量控制器，分别负责将电信数据流和电气数据流转发到管理层；管理层包含储能聚合服务商和电信运营商，储能聚合运营商用于制定能量管理决策，并将决策下发给各个基站执行；电信运营商负责完成系统中的通信功能；应用层包含5G融合智能配电网的各类应用，包括分布式自动化业务、精准负荷控制、以及分布式可再生能源消纳。

进一步的，S2模型的细化中所述(1)分布式光伏能量模型构建的具体内容为：

将分布式光伏在t时隙提供给基站的能量表示为：

PV(t)＝[PV₁(t),PV₂(t),...,PV_I(t)],t∈T

分布式光伏能量具有如下约束：

PV_i,min＜PV_i(t)＜PV_i,max

其中，PV_i，min表示分布式光伏能提供的小发电量；PV_i，max表示分布式光伏所能提供能量的上限；

所述(2)基站负荷能量模型构建的具体内容为：

将BS_i在t时隙满足自身负荷需求所需要的能量表示为：

L(t)＝[L₁(t),L₂(t),...,L_I(t)],t∈T

基站负荷由系统负荷与制冷负荷两部分组成，具体如下所述：

①系统负荷

用于维持基站正常工作的系统负荷分为传输功耗和计算功耗，传输功耗与BS_i覆盖范围内的电力业务总数以及电力业务差异化QoS需求有关，其中，电力业务用n表示；BS_i覆盖范围内的电力业务总数用n_i(t)，

表示，不同基站不同时隙间的用户到达总数不同；电力业务差异化QoS需求用数据传输时延τ_i,n表示，则基站系统负荷中的传输功耗表示为：

其中，B为信号带宽；N₀为噪声功率；g_i,n为信道增益；K_i,n＝-1.5/log(5BER_i,n)，BER_i,n表示BS_i向电力业务n传输信号的误码率要求；

计算功耗指BBU进行信号处理以及与其他基站等通信所消耗的功率，表示为

②制冷负荷

制冷负荷用于维持基站内部环境温度稳定，表示为

各基站的制冷负荷一般在2KW左右浮动；

因此，第t时隙内用于满足BS_i负荷需求所需要的能量为：

L_i(t)具有如下约束：

L_i，min＜L_i(t)＜L_i，max

其中，L_i，min表示满足BS_i负荷需求所需的能量下限，L_i，max表示BS_i能耗上限；

所述(3)储能模型构建的具体内容为：

将BS_i在t时隙的储能能量表示为：

E(t)＝[E₁(t),E₂(t),...,E_I(t)],t∈T

为防止5G基站储能元件过度充放电导致使用周期减少，引入“一次下电”和“二次下电”概念，“一次下电”是指当储能元件电池容量下降到电池最高容量的60％时，切断对次要主设备的供电，从而延长储能元件对重要主设备的供电时长；“二次下电”是指在一次下电后，当储能元件电池容量继续下降到电池最高容量的40％时，储能系统会进一步切断对重要主设备的供电，从而保护储能元件使用周期，在上述理论基础上，对BS_i的储能系统容量作如下约束：

φ_iE_i,max＜E_i(t)＜E_i,max

其中，E_i,max表示BS_i的最高储能容量，由储能系统电池自身特性决定；φ_i为触发二次下电的电池容量；

进一步构建能量队列，队列长度即为BS_i的储能系统剩余能量，其模型如下：

E_i(t+1)＝E_i(t)+B_i(t)+PV_i(t)-S_i(t)-L_i(t)

其中，进入队列的能量分为两部分：从电网购买的电量B_i(t)和部署在基站上光伏板自给的能量PV_i(t)；流出队列的能量分为两部分：向电网出售的能量S_i(t)和满足基站运行负荷所需的能量L_i(t)；

所述(4)能量交换策略的具体内容为：

主要通过基站和电网的能量交易的方式实现智能、实时地能量管理；

将BS_i向电网购买的电量表示为：

B(t)＝[B₁(t),B₂(t),...,B_I(t)],t∈T

基站无法无限地向电网购买电量，将买电量的上限定义为B_i,max，定义买电量的约束为：

0＜B_i(t)＜B_i,max

在实际应用中，将买电量离散成N个等级，即：

将BS_i向电网售出的电量表示为：

S(t)＝[S₁(t),S₂(t),...,S_I(t)],t∈T

基站无法无限地向电网出售电量，将买电量的上限定义为S_i,max，定义买电量的约束为：

0＜S_i(t)＜S_i,max

在实际应用中，将卖电量离散成M个等级，即：

由于同一个时隙t内，购电与售电不能同时发生，因此有如下约束：

B_i(t)S_i(t)＝0

定义BS_i在t时隙向电网购买电量的价格为：c_b(t)，向电网出售电量的价格为c_S(t)；特别地，本发明考虑电网采取分时电价经营策略，因此c_b(t)和c_S(t)会随时间在一定范围内波动。

进一步的，S3中(1)能量队列稳定性约束内容为：

当储能能量队列模型满足：

则能量队列是平均速率稳定的，保证能量队列稳定，即保证BS_i储能系统中的能量不会被无限期积累，同时能够被最大程度地有效利用；

(2)供电稳定性约束的内容为：

为保证基站的稳定运行，对一次下电的发生概率进行约束十分必要，将一次下电不被触发的概率描述为“供电稳定性能”，用

表示，

越大，代表基站储能系统的稳定供电能力越好；

定义事件函数：

If{E_i(t)≤λ_iE_i,max},λ_i∈{0,1}

其中，λ_i是一个百分数，表示触发一次下电的电池剩余容量；If{x}代表指示函数，If{x}＝1表示事件成立，即一次下电事件发生，If{x}＝0表示事件不成立，即一次下电事件没有发生；

定义BS_i到第T时隙为止的供电稳定性能为：

其中，T为时隙总数；

定义系统允许的供电稳定性能下限为

则定义系统对供电稳定性的要求为：

(3)优化问题的提出具体内容为：

优化问题P1定义为：

P1：

s.t.C₁：φ_iE_i,max＜E_i(t)＜E_i,max,

C₂：B_i(t)S_i(t)＝0,

C₃：

C₄：

C₅：

C₆：

其中，C₁保证了基站储能能量不会低于二次下电发生阈值且不大于电池最高容量；C₂保证了买电卖电行为不会同时发生；C₃和C₄将买电量和卖电量离散化；C₅保证了能量队列稳定；C₆保证了基站的稳定供电性能满足需求下限。

进一步的，S4中(1)优化问题的转化的方式为：

基于李雅普诺夫优化理论中的虚拟队列概念，将约束C₂转换为虚拟队列，其公式如下：

基于上述建立的虚拟队列，把长期的基站运营成本最小化问题转化为短期的确定性优化子问题，同时保证供电稳定性约束，因此，优化问题P1可以转化为P2：

P2：

s.t.C₁：φ_iE_i,max＜E_i(t)＜E_i,max,

C₂：B_i(t)S_i(t)＝0,

C₃：

C₄：

C₅：

C₆：

其中R_i(t)表示基站高成本和供电稳定性约束偏差的加权和，计算公式为：

R_i(t)＝R(B_i(t),S_i(t))＝-S_i(t)[E_i(t)+PV_i(t)]

+Z_i(t)I{E_i(t)≤λ_iE_i,max}

+B_i(t)[E_i(t)+PV_i(t)]

+V(c_b(t)B_i(t)-c_s(t)S_i(t))

其中V是基站运营成本的权重，V是用来平衡“罚函数”和“队列稳定性”的参数，即用于实现“供电稳定性”和“基站运营成本”的折中；通过虚拟队列相关理论，将P1中的约束C₆转化到了P2的优化目标之中，从而保证了电力业务的稳定供电需求；

(2)马尔科夫决策过程(MDP)相关概念的定义

利用李雅普诺夫优化将长期约束转化为一个稳定供电赤字虚拟队列，该虚拟队列的积压表示一次下电累计发生概率与稳定供电需求的偏差，因此，将优化问题P2建模为一个马尔科夫决策过程(MDP)，主要包括以下四个概念：

1)状态S：在任一决策时刻对当前系统状态的描述，并将系统的所有状态称为状态空间S_i(t)，在本发明中，状态空间包括与决策相关的所有信息，定义为：S_i(t)＝{E_i(t),Z_i(t),PV_i(t),L_i(t),R_i(t),c_b(t),c_s(t),A_i(t)}；

其中，E_i(t)表示5G基站的储能情况；Z_i(t)表示稳定供电赤字队列信息；PV_i(t)表示光伏出力的经验信息，PV_i(t)＝{PV_i(1),PV_i(2),...,PV_i(t-1)}；L_i(t)表示满足5G基站负荷所需能量的经验信息，L_i(t)＝{L_i(1),L_i(2),...,L_i(t-1)}；R_i(t)基站运营成本的经验信息，R_i(t)＝{R_i(1),R_i(2),...,R_i(t-1)}；c_b(t)和c_s(t)分别代表基站从电网购买电量的价格和基站向电网出售电量的价格；A_i(t)表示稳定供电性能的经验信息，A_i(t)＝{α_i(1),α_i(2),...,α_i(t-1)}；

2)动作A：在任一决策时刻，观察者在当前系统状态下可做出的动作，并将所有动作称为动作空间A_i(t)；在本文中，动作空间包括基站从电网购买电量和基站向电网售出电量；在每个时隙开始时，储能聚合服务商决定基站所能够与电网交易的电量，由于买卖电行为不能同时发生，因此B_i(t)和S_i(t)在同一时隙内总有一个为0，所以将动作空间定义为：A_i(t)＝{(B_i(t),S_i(t))}；其中，B_i(t)为基站从电网购买的电量，共有N个等级；S_i(t)为基站从电网售出的电量，共有M个等级，因此经过优化得到的电量共有(M+N+1)种等级；

3)转移概率T：任一决策时刻，系统在当前状态s_m(t)下采取动作a_m(t)之后，会以一定的状态转移概率转移到下一状态s_m(t+1)，用符号π表示从状态空间S_i(t)到动作空间A_i(t)的一个映射；将转移概率定义为π(a|s)＝P(a_t＝a|s_t＝s)；

4)奖励R：奖励是一个目标为最小化基站运营成本的方程，即P3；奖励方程描述为基站运营成本与能量队列、虚拟赤字队列的加权和，从而能够权衡基站运营成本与供电稳定性；具体来说，当能量队列积压较大，储能聚合商会倾向于让基站出售更多能量给电网从而降低运营成本；但与此同时，出售更多电量会增大虚拟赤字队列积压，从而驱使基站购买更多电量以提高供电稳定性；基于上述能量队列与动作的相互影响作用，EDQN获得了队列感知能力。

进一步的，S5提出基于DQN的具有能量队列感知的能量管理算法的方法是：

在一个时隙t内，根据下列公式选择一个动作，即

DQN可以估计在状态s选择动作a的价值，即Q值，其公式为：

其中ψ，R，γ∈[0,1]，s′分别是学习速率，奖励，折扣因子和下一状态，在每个时隙中，Q学习法基于当前的Q值，利用ε-贪婪算法选择一个动作。

进一步的，通过不断的学习更新神经网络参数w，使得深度Q网络逼近状态-动作对和它们的Q值之间的映射关系，具体公式如下：

进一步的，假设共T个时隙，基于DQN的具有能量队列感知的任务卸载算法具体步骤如下：

(1)初始化经验回放池和小批经验数据；

(2)输入网络状态s_m(t)；

(3)储能聚合服务商基于每个时隙t中的估计Q值，利用ε-贪婪算法选择每个基站的动作a_i(t)，其公式表达如下：

(4)每个基站执行该动作，观察运行成本和电池充电状态，更新积压的能量队列E_i(t)和稳定供电赤字队列Z_i(t)，计算奖励函数R_i(t)，并将I_i(t)＝(S_i(t),a_i(t),θ_i,t,S_i(t+1))上传给储能聚合服务商，然后系统转移到下一状态S_i(t+1)；

(5)储能聚合服务商根据最新I_i(t)更新重放内存池，并随机抽样一小批经验数据，然后利用采样数据计算损失函数：

(6)利用损失函数更新神经网络参数w，更新公式为：

其中，ψ′为网络更新的学习速率；

并周期性地同步目标网络，其公式表达如下：

ω’＝ω

重复从步骤(2)到步骤(6)的迭代，直到总优化周期结束。

借由上述方案，本发明至少具有以下优点：

1.能够在动态复杂的状态信息环境下进行有效的能量管理决策

本发明提出的具有能量队列感知能力的基于深度Q学习网络(Energy queue-aware Deep Q-learning Network，EDQN)的能量管理方法，可以有效的处理高维度复杂的环境状态信息，通过深度学习作出最优的能量管理决策。

2.能够调动多种类型资源实现实时、智能、高效的能量管理

本发明提出的能量管理算法综合考虑5G融合智能配电网系统中“源、网、荷、储”四类型资源，构建储能能量队列，基于深度强化学习设计具有能量感知能力的能量管理算法，使得储能系统能够实时、智能地对具有出力不确定性的新能源和具有波动性的负荷做出响应，从而促进新能源消纳、维持电网能量供需平衡，同时提升5G基站降本增效效果。

3.在保障供电稳定性的同时满足电力业务差异化QoS需求

本发明提出的能量管理方法能够同时考虑供电稳定性性能和电力业务差异化QoS需求，考虑了信息流与能量流间的耦合关系，即考虑了传输时延、误码率等通信需求对储能系统电池状态的影响，使得储能运行商在保障基站供电稳定性的同时学习到长期最优的能量管理策略，满足电力业务数据稳定、可靠传输的通信需求。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某个实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明能量队列积压与累积运营成本关系示意图；

图2是本发明电力业务时延要求、供电稳定性与累积基站运营成本关系折线图；

图3是本发明构建系统模型框架结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明的整个技术方案主要包括五个步骤：(1)构建系统模型框架；(2)模型的细化；(3)提出高可靠低时延约束与优化问题；(4)进行优化问题的转化并引入马尔科夫决策过程；(5)提出基于DQN的具有能量队列感知的能量管理算法。具体介绍如下：

1.构建系统模型框架

如图3所示，框架可从信息域和能量域两方面描述。能量域架构主要用于描述能量流的流动过程，包含“源、网、荷、储”四个部分。源是指新能源，网是指配电网，荷是指5G基站的负荷，储是指5G基站的储能系统。其中，源也可以以分布式能源的方式部署在5G基站内部。信息域架构主要用于描述信息流的流动过程，采用软件定义网络(Software DefinedNetwork，SDN)架构，数据层包含各类可编程器件以及系统中用于数据采集和传输的元素；控制层包含两个主要部分，即信息控制器和能量控制器，分别负责将电信数据流和电气数据流转发到管理层；管理层包含储能聚合服务商和电信运营商。储能聚合运营商用于制定能量管理决策，并将决策下发给各个基站执行；电信运营商负责完成系统中的通信功能；应用层包含5G融合智能配电网的各类应用，例如，分布式自动化业务、精准负荷控制、以及分布式可再生能源消纳等等。本发明利用5G基站储能系统中的剩余能量参与电网的能量调度，一方面，5G基站能够以辅助服务的方式为电网调峰、调压等，从而维持电力资源供需平衡，促进新能源消纳，提高电网的应急处置能力，满足电网的能量管理需求；另一方面，5G基站能够通过与电网买卖电量的方式获取额外收益的方式满足自身降本增效的需求。本发明的目标是在满足供电稳定性的同时，尽可能的降低5G基站的建设成本。

本发明采用时隙模型，将整个优化时间划分为T个时隙，其集合定义为T＝{1,...,t,...,T}。在每一个时隙内，基站储能系统的储能信息以及购电、售电的电价信息保持不变；而在不同的时隙之间，系统储能信息会发生改变；由于分布式光伏能量、基站负荷受光照、用电峰谷期的影响，同时考虑了分时电价等能量管理策略，因此在不同的时隙间，光伏出力、基站运行消耗能量以及电价信息也会发生变化。

本能量管理模型主要考虑如下四个主体：首先是部署有分布式可再生能源和储能元件的一体化5G基站，用BS_i表示；第二是拥有丰富电力资源的电网；第三是储能聚合商，能量管理决策由储能聚合商制定并下发给BS_i，同时与电网相连；最后是电信运营商。定义在第t个时隙，基站可选的能量交换方式包括向电网出售能量和从电网购买能量，其对应的交换电量大小分别用B_i(t)、S_i(t)表示。

2.模型的细化

(1)分布式光伏能量模型

将分布式光伏在t时隙提供给基站的能量表示为：

PV(t)＝[PV₁(t),PV₂(t),...,PV_I(t)],t∈T. (2-1)

分布式光伏能量具有如下约束：

PV_i,min＜PV_i(t)＜PV_i,max. (2-2)

其中，PV_i，min表示分布式光伏能提供的小发电量；PV_i，max表示分布式光伏所能提供能量的上限。

(2)基站负荷能量模型

将BS_i在t时隙满足自身负荷需求所需要的能量表示为：

L(t)＝[L₁(t),L₂(t),...,L_I(t)],t∈T. (2-3)

基站负荷由系统负荷与制冷负荷两部分组成，具体如下所述。

①系统负荷

用于维持基站正常工作的系统负荷分为传输功耗和计算功耗。传输功耗与BS_i覆盖范围内的电力业务总数以及电力业务差异化QoS需求有关。其中，电力业务用n表示；BS_i覆盖范围内的电力业务总数用n_i(t)，

表示，不同基站不同时隙间的用户到达总数不同；电力业务差异化QoS需求用数据传输时延τ_i,n表示。则基站系统负荷中的传输功耗表示为：

其中，B为信号带宽；N₀为噪声功率；g_i,n为信道增益；K_i,n＝-1.5/log(5BER_i,n)，BER_i,n表示BS_i向电力业务n传输信号的误码率要求。

②制冷负荷

制冷负荷用于维持基站内部环境温度稳定，表示为

各基站的制冷负荷一般在2KW左右浮动。

因此，第t时隙内用于满足BS_i负荷需求所需要的能量为：

L_i(t)具有如下约束：

L_i，min＜L_i(t)＜L_i，max. (2-6)

其中，L_i，min表示满足BS_i负荷需求所需的能量下限，L_i，max表示BS_i能耗上限。

(3)储能模型

将BS_i在t时隙的储能能量表示为：

E(t)＝[E₁(t),E₂(t),...,E_I(t)],t∈T. (2-7)

为防止5G基站储能元件过度充放电导致使用周期减少，引入“一次下电”和“二次下电”概念。“一次下电”是指当储能元件电池容量下降到电池最高容量的60％时，切断对次要主设备(例如BBU)的供电，从而延长储能元件对重要主设备的供电时长；“二次下电”是指在一次下电后，当储能元件电池容量继续下降到电池最高容量的40％时，储能系统会进一步切断对重要主设备(例如传输设备)的供电，从而保护储能元件使用周期。在上述理论基础上，对BS_i的储能系统容量作如下约束：

φ_iE_i,max＜E_i(t)＜E_i,max. (2-8)

其中，E_i,max表示BS_i的最高储能容量，由储能系统电池自身特性决定；φ_i为触发二次下电的电池容量。

E_i(t+1)＝E_i(t)+B_i(t)+PV_i(t)-S_i(t)-L_i(t). (2-9)

其中，进入队列的能量分为两部分：从电网购买的电量B_i(t)和部署在基站上光伏板自给的能量PV_i(t)；流出队列的能量分为两部分：向电网出售的能量S_i(t)和满足基站运行负荷所需的能量L_i(t)。

(4)能量交换策略

本发明主要通过基站和电网的能量交易的方式实现智能、实时地能量管理。

将BS_i向电网购买的电量表示为：

B(t)＝[B₁(t),B₂(t),…,B_I(t)],t∈T. (2-10)

0＜B_i(t)＜B_i,max. (2-11)

在实际应用中，将买电量离散成N个等级，即：

将BS_i向电网售出的电量表示为：

S(t)＝[S₁(t),S₂(t),…,S_I(t)],t∈T. (2-12)

0＜S_i(t)＜S_i,max. (2-13)

在实际应用中，将卖电量离散成M个等级，即：

B_i(t)S_i(t)＝0. (2-14)

定义BS_i在t时隙向电网购买电量的价格为：c_b(t)，向电网出售电量的价格为c_S(t)。特别地，本发明考虑电网采取分时电价经营策略，因此c_b(t)和c_S(t)会随时间在一定范围内波动。

3.能量与供电稳定性约束与优化问题的提出

为使储能运营商在保障基站供电稳定性的同时学习到长期最优的能量管理策略，将长期的储能能量解耦为短时能量队列稳定性约束，其次提出供电稳定性约束，具体如下所述。

(1)能量队列稳定性约束

当储能能量队列模型满足：

则能量队列是平均速率稳定的。保证能量队列稳定，即保证BS_i储能系统中的能量不会被无限期积累，同时能够被最大程度地有效利用。

(2)供电稳定性约束

为保证基站的稳定运行，对一次下电的发生概率进行约束十分必要。本发明将一次下电不被触发的概率描述为“供电稳定性能”，用

表示，

越大，代表基站储能系统的稳定供电能力越好。

定义事件函数：

If{E_i(t)≤λ_iE_i,max},λ_i∈{0,1}. (3-2)

其中，λ_i是一个百分数，表示触发一次下电的电池剩余容量；If{x}代表指示函数，If{x}＝1表示事件成立，即一次下电事件发生，If{x}＝0表示事件不成立，即一次下电事件没有发生。

定义BS_i到第T时隙为止的供电稳定性能为：

其中，T为时隙总数。

定义系统允许的供电稳定性能下限为

则定义系统对供电稳定性的要求为：

(3)优化问题的提出

基于上述建立的模型与约束，本发明解决的优化问题为：在供电稳定性约束下最小化基站的运营成本。因此，优化问题P1定义为：

P1：

s.t.C₁：φ_iE_i,max＜E_i(t)＜E_i,max,

C₂：B_i(t)S_i(t)＝0,

C₃：

C₄：

C₅：

C₆：

4.优化问题的转化与马尔科夫决策过程

(1)优化问题的转化

首先基于李雅普诺夫优化理论中的虚拟队列概念，将上述约束C₂转换为虚拟队列，其公式如下：

基于上述建立的虚拟队列，本发明把长期的基站运营成本最小化问题转化为短期的确定性优化子问题，同时保证供电稳定性约束。因此，优化问题P1可以转化为P2：

P2：

s.t.C₁：φ_iE_i,max＜E_i(t)＜E_i,max,

C₂：B_i(t)S_i(t)＝0,

C₃：

C₄：

C₅：

C₆：

R_i(t)＝R(B_i(t),S_i(t))＝-S_i(t)[E_i(t)+PV_i(t)]

+Z_i(t)I{E_i(t)≤λ_iE_i,max}

+B_i(t)[E_i(t)+PV_i(t)]

+V(c_b(t)B_i(t)-c_s(t)S_i(t)). (4-3)

其中V是基站运营成本的权重(正数值权重)，V是用来平衡“罚函数”和“队列稳定性”的参数，即用于实现“供电稳定性”和“基站运营成本”的折中。通过虚拟队列相关理论，

本发明将P1中的约束C₆转化到了P2的优化目标之中，从而保证了电力业务的稳定供电需求。

(2)马尔科夫决策过程(MDP)相关概念的定义

本发明利用李雅普诺夫优化将长期约束转化为一个稳定供电赤字虚拟队列，该虚拟队列的积压表示一次下电累计发生概率与稳定供电需求的偏差。因此，本发明将优化问题P2建模为一个马尔科夫决策过程(MDP)，主要包括以下四个概念：

1)状态S：在任一决策时刻对当前系统状态的描述，并将系统的所有状态称为状态空间S_i(t)。在本发明中，状态空间包括与决策相关的所有信息，定义为：S_i(t)＝{E_i(t),Z_i(t),PV_i(t),L_i(t),R_i(t),c_b(t),c_s(t),A_i(t)}。

其中，E_i(t)表示5G基站的储能情况；Z_i(t)表示稳定供电赤字队列信息；PV_i(t)表示光伏出力的经验信息，PV_i(t)＝{PV_i(1),PV_i(2),...,PV_i(t-1)}；L_i(t)表示满足5G基站负荷所需能量的经验信息，L_i(t)＝{L_i(1),L_i(2),...,L_i(t-1)}；R_i(t)基站运营成本的经验信息，R_i(t)＝{R_i(1),R_i(2),...,R_i(t-1)}；c_b(t)和c_s(t)分别代表基站从电网购买电量的价格和基站向电网出售电量的价格；A_i(t)表示稳定供电性能的经验信息，A_i(t)＝{α_i(1),α_i(2),...,α_i(t-1)}。

2)动作A：在任一决策时刻，观察者在当前系统状态下可做出的动作，并将所有动作称为动作空间A_i(t)。在本文中，动作空间包括基站从电网购买电量和基站向电网售出电量。在每个时隙开始时，储能聚合服务商决定基站所能够与电网交易的电量，由于买卖电行为不能同时发生，因此B_i(t)和S_i(t)在同一时隙内总有一个为0，所以将动作空间定义为：A_i(t)＝{(B_i(t),S_i(t))}。其中，B_i(t)为基站从电网购买的电量，共有N个等级；S_i(t)为基站从电网售出的电量，共有M个等级，因此经过优化得到的电量共有(M+N+1)种等级。

3)转移概率T：任一决策时刻，系统在当前状态s_m(t)下采取动作a_m(t)之后，会以一定的状态转移概率转移到下一状态s_m(t+1)，用符号π表示从状态空间S_i(t)到动作空间A_i(t)的一个映射。在本文中，我们将转移概率定义为π(a|s)＝P(a_t＝a|s_t＝s)。

4)奖励R：奖励是一个目标为最小化基站运营成本的方程，即P3。奖励方程描述为基站运营成本与能量队列、虚拟赤字队列的加权和，从而能够权衡基站运营成本与供电稳定性。具体来说，当能量队列积压较大，储能聚合商会倾向于让基站出售更多能量给电网从而降低运营成本；但与此同时，出售更多电量会增大虚拟赤字队列积压，从而驱使基站购买更多电量以提高供电稳定性。基于上述能量队列与动作的相互影响作用，EDQN获得了队列感知能力。

5.基于Deep Q-learning Network(DQN)的具有能量队列感知的能量管理算法

由于深度Q网络(Deep Q-learning Network，DQN)在处理高维度复杂的环境状态信息具有巨大的潜力，故本发明采用DQN解决带有维度灾难的随机决策问题。在一个时隙t内，根据(5-1)式选择一个动作，即

DQN可以估计在状态s选择动作a的价值，即Q值，其公式为：

其中ψ，R，γ∈[0,1]，s′分别是学习速率，奖励，折扣因子和下一状态(即在当前状态s下，采取动作a后转移到的下一个状态)。在每个时隙中，Q学习法基于当前的Q值，利用ε-贪婪算法选择一个动作(即以ε概率随机选择一个动作，以1-ε的概率选择当前Q值最大的动作)。

随着环境规模的扩大，需要大量的存储资源来存储每个状态-动作对的所有Q值，降低了实用性和效率。为了处理维度灾难的问题，本发明利用深度Q网络逼近状态-动作对和它们的Q值之间的映射关系，也就是利用深度Q网络来存储状态-动作对的Q值，这样就可以避免采用列表存储Q值带来的实用性差、效率低和存储空间需求大等问题。具体地说，通过不断的学习更新神经网络参数w，从而使得深度Q网络可以很好的逼近状态-动作对和它们的Q值之间的映射关系。具体公式如下：

本发明利用的深度Q网络由主网络和目标网络组成。主网络的作用是在每个时间段做出能源管理决策。目标网络与主网络具有相同的结构，使用过去的经验数据进行训练，这有助于减少训练数据之间的相关性，提高算法的稳定性。同时，本发明采用经验重放的方法进一步提高算法稳定性和最优性，其概念是维护一个重放内存池来存储过去的经验数据，并随机抽取一小批经验数据来定期训练主网。

假设共T个时隙，本发明提出的基于DQN的具有能量队列感知的任务卸载算法具体步骤如下：

(1)初始化经验回放池和小批经验数据。

(2)输入网络状态s_m(t)。

(4)每个基站执行该动作，观察运行成本和电池充电状态，更新积压的能量队列E_i(t)和稳定供电赤字队列Z_i(t)，计算奖励函数R_i(t)，并将I_i(t)＝(S_i(t),a_i(t),θ_i,t,S_i(t+1))上传给储能聚合服务商。然后系统转移到下一状态S_i(t+1)。

(5)储能聚合服务商根据最新I_i(t)更新重放内存池，并随机抽样一小批经验数据。然后利用采样数据计算损失函数：

(6)利用损失函数更新神经网络参数w，更新公式为：

其中，ψ′为网络更新的学习速率。

并周期性地同步目标网络，其公式表达如下：

ω'＝ω (5-7)

重复从步骤2到步骤6的迭代，直到总优化周期结束。

仿真验证

以下为通过仿真验证，得到的本发明能够带来的有益效果：

首先构建仿真场景，考虑的仿真场景主要包括电网从基站购买电量、基站向电网出售电量两种情况。其次，设置优化周期的总长度为24小时，包含100个时隙，即每个时隙的持续时间为0.24小时。同时考虑分布式光伏板与基站是一体化部署的，过剩的光伏出力将被储存在基站储能元件中。依据对基站储能元件电池容量大小的调研，将基站的每个储能元件电池容量设置为50KWh；当电池容量分别下降到总容量的60％和40％时会发生一次下电和二次下电事件，则发生一次下电和二次下电事件的容量阈值分别为30KWh和20KWh。约定基站向电网出售电量的价格不随时间波动，从电网购买电量的价格根据分时电价策略随时间波动，即在用电高峰时刻价格较高、低谷时刻价格较低。

本发明对上述提出的EDQN能量管理算法，进行了如下的仿真对比实验。其中，对比算法采用基于Lyapunov的自适应电力调度(AES)算法，未考虑能源供应稳定性的长期约束，无法有效保证稳定供电问题。

仿真结果如下：

图1描述电价和光伏出力随时间的变化、在上述电价和光伏动态变化的基础上基站做出的购买/出售能量策略、能量队列积压状态以及累积基站运营成本情况，从而体现能量队列积压和累积基站运营成本在随时间波动的光伏出力、分时电价和不稳定负荷影响下的变化，体现本发明在基站降本增效和能量供需平衡方面的先进性。

在光伏出力较小、从电网购买能量价格较低的用电低谷时刻(例如午夜或者清晨)，基站倾向于以较低价格从电网购买能量来降低运营成本；相对地，在光伏出力充足甚至过剩的用电高峰时刻(例如正午)，基站倾向于将储能系统中多余的能量出售给电网以获得收益。基于上述分析，能量队列积压大小和累积基站运营成本也随时间呈现动态变化特点。能量队列积压在光伏出力不足时较小，并随着“买电”策略以及光伏出力随时间增大而增大；本发明所提算法能够使能量队列基本保持在一次下电容量阈值附近或其上，具有较好的稳定供电性能。同时，在能量队列积压较大，即稳定供电能力较好时，基站的运营成本较高，因此需要具有能量队列感知能力的能量管理算法来实现基站稳定供电性能与运营成本的动态折衷。仿真结果表明，与AES算法相比，本文所提出的EDQN算法能够减少一次下电事件的发生概率40％，降低基站的累积运营成本26.37％。

图2体现了基站累积运营成本、稳定供电性能和电力业务QoS需求三者之间的关系，从而反映了本发明在处理能量流与信息流耦合时的有效性。

仿真时以时延反应电力业务QoS需求。由仿真结果可知，累积基站运营成本随着时延要求和供电稳定性能的上升而上升。其原因有两个，第一，由公式(2-4)可知，当传输时延减小，基站的传输功率会呈指数型增长，因此需要购买更多电量来满足负荷需求，从而增大了基站运营成本。第二，为了保持较高的供电稳定性，基站会倾向于不选择向电网卖电的策略，同时因此无法获得卖电所带来的收益。仿真结果表明，当稳定供电性指标要求为0.9且时延从110ms上升到120ms，及时延增大9.09％时，基站累积运营成本将下降22.92％；当时延要求为120ms且供电稳定性指标要求从0.95上升到0.99，即供电稳定性要求上升4.21％时，基站的累积运营成本上升了15.79％。

综合仿真结果可以看出，本发明提出的基于DQN具有能量队列感知的任务卸载方法能够有效的处理高维复杂的环境状态信息。并通过深度强化学习做出最优的能量管理决策，实现5G基站降本增效与供电稳定性的性能的有效折衷。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于DQN的5G融合智能配电网能量管理方法，其特征在于包括以下步骤：

S1、构建系统模型框架；

能量管理模型包括如下四个主体：

(2)拥有丰富电力资源的电网；

S2、模型的细化；

(1)分布式光伏能量模型构建；

(2)基站负荷能量模型构建；

(3)储能模型构建；

(4)能量交换策略制定；

S3、提出高可靠低时延约束与优化问题；

(1)能量队列稳定性约束；

(2)供电稳定性约束；

(3)优化问题的提出；

S4、进行优化问题的转化并引入马尔科夫决策过程；

(1)优化问题的转化；

(2)马尔科夫决策过程相关概念的定义；

S5、提出基于DQN的具有能量队列感知的能量管理算法。

2.根据权利要求1所述的一种基于DQN的5G融合智能配电网能量管理方法，其特征在于：S1中所述构建系统模型框架可从信息域和能量域两方面描述；

3.根据权利要求1所述的一种基于DQN的5G融合智能配电网能量管理方法，其特征在于：S2模型的细化中所述(1)分布式光伏能量模型构建的具体内容为：

将分布式光伏在t时隙提供给基站的能量表示为：

PV(t)＝[PV₁(t),PV₂(t),...,PV_I(t)],t∈T

分布式光伏能量具有如下约束：

PV_i,min＜PV_i(t)＜PV_i,max

所述(2)基站负荷能量模型构建的具体内容为：

将BS_i在t时隙满足自身负荷需求所需要的能量表示为：

L(t)＝[L₁(t),L₂(t),...,L_I(t)],t∈T

①系统负荷

②制冷负荷

制冷负荷用于维持基站内部环境温度稳定，表示为

各基站的制冷负荷一般在2KW左右浮动；

因此，第t时隙内用于满足BS_i负荷需求所需要的能量为：

L_i(t)具有如下约束：

L_i，min＜L_i(t)＜L_i，max

所述(3)储能模型构建的具体内容为：

将BS_i在t时隙的储能能量表示为：

E(t)＝[E₁(t),E₂(t),...,E_I(t)],t∈T

φ_iE_i,max＜E_i(t)＜E_i,max

E_i(t+1)＝E_i(t)+B_i(t)+PV_i(t)-S_i(t)-L_i(t)

所述(4)能量交换策略的具体内容为：

将BS_i向电网购买的电量表示为：

B(t)＝[B₁(t),B₂(t),…,B_I(t)],t∈T

0＜B_i(t)＜B_i,max

在实际应用中，将买电量离散成N个等级，即：

将BS_i向电网售出的电量表示为：

S(t)＝[S₁(t),S₂(t),...,S_I(t)],t∈T

0＜S_i(t)＜S_i,max

在实际应用中，将卖电量离散成M个等级，即：

B_i(t)S_i(t)＝0

4.根据权利要求1所述的一种基于DQN的5G融合智能配电网能量管理方法，其特征在于：S3中(1)能量队列稳定性约束内容为：

当储能能量队列模型满足：

(2)供电稳定性约束的内容为：

表示，

越大，代表基站储能系统的稳定供电能力越好；

定义事件函数：

If{E_i(t)≤λ_iE_i,max},λ_i∈{0,1}

定义BS_i到第T时隙为止的供电稳定性能为：

其中，T为时隙总数；

定义系统允许的供电稳定性能下限为

则定义系统对供电稳定性的要求为：

(3)优化问题的提出具体内容为：

优化问题P1定义为：

P1：

s.t.C₁：φ_iE_i,max＜E_i(t)＜E_i,max,

C₂：B_i(t)S_i(t)＝0,

5.根据权利要求1所述的一种基于DQN的5G融合智能配电网能量管理方法，其特征在于：S4中(1)优化问题的转化的方式为：

P2：

s.t.C₁：φ_iE_i,max＜E_i(t)＜E_i,max,

C₂：B_i(t)S_i(t)＝0,

R_i(t)＝R(B_i(t),S_i(t))＝-S_i(t)[E_i(t)+PV_i(t)]+Z_i(t)I{E_i(t)≤λ_iE_i,max}+B_i(t)[E_i(t)+PV_i(t)]+V(c_b(t)B_i(t)-c_s(t)S_i(t))

(2)马尔科夫决策过程(MDP)相关概念的定义

6.根据权利要求1所述的一种基于DQN的5G融合智能配电网能量管理方法，其特征在于：S5提出基于DQN的具有能量队列感知的能量管理算法的方法是：

在一个时隙t内，根据下列公式选择一个动作，即

DQN可以估计在状态s选择动作a的价值，即Q值，其公式为：

7.根据权利要求6所述的一种基于DQN的5G融合智能配电网能量管理方法，其特征在于：通过不断的学习更新神经网络参数w，使得深度Q网络逼近状态-动作对和它们的Q值之间的映射关系，具体公式如下：

8.根据权利要求6所述的一种基于DQN的5G融合智能配电网能量管理方法，其特征在于：假设共T个时隙，基于DQN的具有能量队列感知的任务卸载算法具体步骤如下：

(1)初始化经验回放池和小批经验数据；

(2)输入网络状态s_m(t)；

(6)利用损失函数更新神经网络参数w，更新公式为：

其中，ψ′为网络更新的学习速率；

并周期性地同步目标网络，其公式表达如下：

ω′＝ω

重复从步骤(2)到步骤(6)的迭代，直到总优化周期结束。