CN111953510B

CN111953510B - 一种基于强化学习的智能电网切片无线资源分配方法及系统

Info

Publication number: CN111953510B
Application number: CN202010412340.0A
Authority: CN
Inventors: 王智慧; 王继业; 汪洋; 汤亿则; 孟萨出拉; 刘明月; 吴赛; 杨德龙; 杨鸿珍; 邱兰馨
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2024-02-02
Anticipated expiration: 2040-05-15
Also published as: CN111953510A

Abstract

本发明公开了一种基于强化学习的智能电网切片无线资源分配方法及系统，其中方法包括：基于智能电网场景下的不同电力业务的需求对所述电力业务进行分类，并为多个所述电力业务设置优先级；按照所述电力业务的分类将所述电力业务与电网切片进行关联；建立电网业务资源分配的强化学习优化模型，根据所述强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作，基于最小成本原则为电网业务分配电网切片；其中优先级高的电力业务优先分配电网切片。

Description

一种基于强化学习的智能电网切片无线资源分配方法及系统

技术领域

本发明涉及电力通信的频谱资源分配技术领域，更具体地，涉及一种基于强化学习的智能电网切片无线资源分配方法及系统。

背景技术

在能源和电力需求增长的驱动下，电力业务正在向分布式配电自动化、遥视、电力物联网、人工智能等未来方向发展，世界电网以崭新的面貌从传统网络进入了以智能电网为标志的新阶段。电网涵盖发、输、变、配、用等环节，各类业务众多，分布式电源、用电信息采集、精准负荷控制、移动巡检等业务都迫切需要低时延、大连接、大带宽的5G网络来支撑，通过提高网络容量，加强无线网络广深覆盖能力，降低业务时延，全面深度感知源网荷储设备运行、状态和环境信息，优化调度来实现跨区域送受端协调控制，实现提升新能源消纳能力，通过输变电、配用电设备广泛互联、信息深度采集，提升故障就地处理、精准主动抢修、三相不平衡治理和区域能源自治水平，提高供电可靠性，降低大电网运行风险，提升电网安全经济运行水平。

网络切片被认为是5G网络的重要关键技术之一，其将单个物理网络分成多个独立的逻辑网络，以支持各种垂直的多服务网络，并根据其特性，分配于不同的业务场景中，以适应不同的服务需求。利用网络切片技术能够大大节省部署的成本并减少网络的占有率。网络切片技术可为不同的应用提供定制化的服务，考虑到电力服务业务的多样性，将网络切片应用于智能电网是一个很好的选择。5G网络切片的技术特性对于承载面向电网的无线业务应用具备切片可定制化、切片间安全可靠隔离及切片统一管理的特点，并且具备快速组网、高效经济的优势，在电力系统中有着广阔应用前景。5G增强型移动宽带(eMBB)、超高可靠超低时延通信(uRLLC)和海量机器类通信(mMTC)三大应用场景可良好适配智能电网的电网控制类、信息采集类和移动应用三大类业务。由于5G切片技术与电力业务融合的逐渐深入，电力业务正向分布式配电自动化、遥视、能源集线、电力物联网、人工智能等未来方向发展。

发明内容

本发明技术方案提供一种基于强化学习的智能电网切片无线资源分配方法及系统，以解决如何基于强化学习对智能电网切片进行无线资源分配的问题。

为了解决上述问题，本发明提供了一种基于强化学习的智能电网切片无线资源分配方法，所述方法包括：

基于智能电网场景下的不同电力业务的需求对所述电力业务进行分类，并为多个所述电力业务设置优先级；

按照所述电力业务的分类将所述电力业务与电网切片进行关联；

建立电网业务资源分配的强化学习优化模型，根据所述强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作，基于最小成本原则为电网业务分配电网切片；其中优先级高的电力业务优先分配电网切片。

优选地，将多个所述电网切片按需求进行联合，通过切片管理器管理对应的切片。

优选地，所述电力业务的类别包括：电网控制类、信息采集类和移动应用类；

所述电力业务的需求包括时延、速率、可靠性。

优选地，所述建立电网业务资源分配的强化学习优化模型，包括：

所述状态空间为：

电网切片m在第n个状态下的当前状态s_m用于指示当前所有可用于承载相关电力业务的切片的状态空间；

每个用户的需求d_k＝d₁，d₂，...，d_K；

系统的频谱效率可定义为：

其中，B是基站n的系统带宽，R是传输速率，b_k是分配给用户k的带宽；σ²表示热噪声功率，表示信道增益，基站n的发射功率用p_n表示，N为系统中的基站总数量，l为系统中的某个基站；

用户体验质量QoE定义为：

∑_s∈Mμ_s＝1

其中R为传输速率；为单位时间内用户的最大传输速率；/>是用户实际速率与最大速率的比值；μ_s表示用户的优先级，基于用户体验质量QoE确定电力业务的优先级；

所述奖励函数为：

Reward＝λ·SE+γ·QoE，

其中，λ，γ分别代表SE和QoE的权重系数；SE代表频谱效率，QoE表示用户体验质量。

优选地，所述强化学习优化模型的算法为：

设置状态空间为S＝{S₁，S₂，...，S_n}，动作空间为A＝{a₁，a₂，...，a_n}，奖励函数为Reward＝{s_t，a_t}，P(s_t，s_t+1)表示从状态s_t转移到s_t+1的转移概率；

策略π：S→A，从状态空间到动作空间的映射，代表从状态s_t进行a_t的动作，变换到下一状态s_t+1；强化学习算法通过定义值函数得到最优策略，值函数定义为下式：

V代表值函数，γ是表示未来效用对当前效用的重要性的一个系数,r_i代表第i次奖励函数的值，最优策略对应着最大值函数，即：

根据Q-learning算法，切片控制器通过迭代学习到最优的Q值；在任意时刻，处于状态s的切片控制器选择动作a，得到奖励Reward(s，a)，同时也会转移到下一个状态s′；

其中，α代表学习率；Q(s，a)表示状态为s,动作为a时的Q值；

通过调整α和γ的值，保证Q(s，a)最终可以收敛到最优策略时候的值，即 Q^*(s，a)。

基于本发明的另一方面，本发明提供一种基于强化学习的智能电网切片无线资源分配系统，所述系统包括：

初始单元，用于基于智能电网场景下的不同电力业务的需求对所述电力业务进行分类，并为多个所述电力业务设置优先级；

执行单元，用于按照所述电力业务的分类将所述电力业务与电网切片进行关联；

分配单元，用于建立电网业务资源分配的强化学习优化模型，根据所述强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作，基于最小成本原则为电网业务分配电网切片；其中优先级高的电力业务优先分配电网切片。

所述电力业务的需求包括时延、速率、可靠性。

优选地，所述分配单元用于建立电网业务资源分配的强化学习优化模型，包括：

所述状态空间为：

每个用户的需求d_k＝d₁，d₂，...，d_K；

系统的频谱效率可定义为：

用户体验质量QoE定义为：

∑_s∈Mμ_s＝1

所述奖励函数为：

Reward＝λ·SE+γ·QoE，

优选地，所述强化学习优化模型的算法为：

其中，α代表学习率；Q(s，a)表示状态为s,动作为a时的Q值；

本发明技术方案提供一种基于强化学习的智能电网切片无线资源分配方法及系统，其中方法包括：基于智能电网场景下的不同电力业务的需求对电力业务进行分类；按照电力业务的分类将电力业务与电网切片进行关联；建立电网业务资源分配的强化学习优化模型，根据强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作，基于最小成本原则为电网业务分配电网切片。本发明技术方案实现了在新一代电网的飞速发展下，面对智能电网业务种类的繁多，有效地进行资源管理，最小化网络部署成本。本发明技术方案适应多类电力业务的各个不同的需求，得到让人满意的服务质量。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明优选实施方式的一种基于强化学习的智能电网切片无线资源分配方法流程图；

图2为根据本发明优选实施方式的智能电网场景下接入网切片系统结构图；

图3为根据本发明优选实施方式的网络编排层资源分配示意图；

图4为根据本发明优选实施方式的业务分配的优先级；

图5为根据本发明优选实施方式的迭代次数-频谱效率关系图；

图6为根据本发明优选实施方式的迭代次数-用户体验质量关系图；

图7为根据本发明优选实施方式的迭代次数-训练成本关系图；

图8为根据本发明优选实施方式的迭代次数-收益值关系图；以及

图9为根据本发明优选实施方式的一种基于强化学习的智能电网切片无线资源分配系统结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明优选实施方式的一种基于强化学习的智能电网切片无线资源分配方法流程图。对于在智能电网场景下，应用5G网络切片技术进行资源的分配的研究还处于发展阶段。智能电网通过与应用设备的双向交互来分配和管理资源，由于智能电网用户较多，管理大量设备会产生大量的需求请求，因此对于资源的需求并非是确定的，即各项业务流都有自己的带宽需求、可靠性要求以及延迟容忍度。

本发明为智能电网场景下接入网切片的架构以及网络编排层承载的基于强化学习算法的无线资源分配方法。强化学习算法可实现动态的资源分配。本发明将强化学习用于切片场景，根据频谱资源利用率(SE)与用户体验质量(QoE)，不断进行迭代，通过此方法来优化电力业务的无线资源分配。本发明设计思路如图2、图3所示。

发明依托的智能电网切片整体框架，该架构旨在有效地协调智能电网中的切片。架构示意图如图2，包括数据平面、电力业务平面和网络编排平面。其中，数据平面主要由执行虚拟化智能电网流程所需的物理资源和切片组成。物理资源包括电力设备终端、计算设备、存储设备和网络硬件等等，除了传统的数据中心组件外，还包括传感和驱动设备。不同切片之间可以通过切片联合接口按需联合，使不同切片之间可以互通，形成切片群。每个切片实例对应一个特定的切片管理器，切片管理器一方面使UE 快速发现网络切片所对应的接入网节点，完成初始接入，关联到实际需要的网络切片。

电力业务平面主要包括三大类电力业务：电网控制类、信息采集类和移动应用类。不同的业务有不同的QoS要求，如时延、速率、可靠性等。因此，不同的电力业务应有不同的服务优先级。

如图1所示，本发明提供一种基于强化学习的智能电网切片无线资源分配方法，方法包括：

优选地，在步骤101：基于智能电网场景下的不同电力业务的需求对电力业务进行分类，并为多个电力业务设置优先级。优选地，电力业务的类别包括：电网控制类、信息采集类和移动应用类；电力业务的需求包括时延、速率、可靠性。

优选地，在步骤102：按照电力业务的分类将电力业务与电网切片进行关联。优选地，将多个电网切片按需求进行联合，通过切片管理器管理对应的切片。

优选地，在步骤103：建立电网业务资源分配的强化学习优化模型，根据强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作，基于最小成本原则为电网业务分配电网切片；其中优先级高的电力业务优先分配电网切片。

优选地，建立电网业务资源分配的强化学习优化模型，包括：

状态空间为：

每个用户的需求d_k＝d₁，d₂，...，d_K；

系统的频谱效率可定义为：

用户体验质量QoE定义为：

∑_s∈mμ_s＝1

奖励函数为：

Reward＝λ·SE+γ·QoE，

优选地，强化学习优化模型的算法为：

其中，α代表学习率；Q(s，a)表示状态为s,动作为a时的Q值；

编排控制平面，本发明引入接入网SDN控制器，负责接入网的网络功能(NF)管理和协调(如服务迁移和部署)，相当于代理。RAN侧网络切片由相应的SDN控制器进行管理，负责执行其网络侧的算法，也就是本发明提出的基于强化学习的智能电网切片分配策略。

本发明提出的综合考虑频谱效率和用户体验质量的无线资源分配优化模型，具体包括：

对系统模型进行假设，本发明中，主要考虑RAN网络切片中下行链路的带宽分配。SE和QoE是主要的评价指标。在网络中，我们假设有一组切片表示为M＝{1，2，...，M}，一组用户表示为K＝{1，...，K}。切片m 的用户用K_m表示，k_m表示切片m的单个用户。强化学习是从环境状态到行动的映射。因此，我们首先定义了基于DRL的框架的状态空间、动作空间和奖励函数如下。

A：状态空间

状态空间由两个分量组成，切片m在第n个状态下的当前状态和每个用户的需求d_k＝d₁，d₂，...，d_K。s_m用于指示当前所有可用于承载相关电力业务的切片的状态，d_k表示智能电网的业务流。

B：动作空间

当遇到未知的电力业务时，强化学习的代理(Agent)应该提供合适的带宽资源，以最大限度地满足QoE和SE的要求。代理可以根据当前切片状态和奖励函数来决定在下一个状态下执行什么动作。动作空间定义为 {a_n}，其中第n个元素表示为a_n。我们定义a_n∈{0，1}，是一个二进制变量。

C：奖励函数

代理将特定的切片分配给某智能电网业务后，会得到一个综合收益，我们将此综合收益作为系统的奖励。

电网控制类业务涉及电网安全稳定运行，主要用于故障隔离、自愈控制、精准对时等，具有典型的低时延、高可靠业务特征，时延要求为30ms-1s。信息采集类业务涉及海量通信终端，且广泛分布于电网各个环节，具有典型的广覆盖、大连接业务特征，连接密度上百个/平方公里。移动应用类业务主要有基建全过程综合数字化管理、无人机巡检、输配变机器人巡检、移动办公、移动视频会商等，该类业务对网络带宽及移动性有明显需求，具有典型的大带宽、灵活接入业务特征，单终端带宽要求不得低于2Mbps。在RAN侧由于频谱资源有限，在分配切片时应当选取最优策略以最大化满足用户的QoS需求。

本发明主要考虑下行链路的情况。系统的频谱效率可定义为：

其中B是基站n的系统带宽，R是传输速率，b_k是分配给用户k的带宽。σ²表示热噪声功率，表示信道增益，基站n的发射功率用p_n表示， N为系统中的基站总数量，l为系统中的某个基站；

在配电自动化，应急通信、精准负荷控制等高质量电力业务需求的驱动下，需要有合适的用户体验质量相匹配。QoE是通过用户的有效吞吐量来度量，并且根据用户的最大需求数据速率进行归一化处理。因此，低优先级的业务的资源应尽可能少，仅需要满足其基本的服务质量QoS即可，将资源留给高优先级的业务。我们将QoE定义为：

∑_s∈Mμ_s＝1,

其中R为传输速率；为单位时间内用户的最大传输速率；其中/>是用户每秒最大的传输速率，μ_s表示用户的优先级，这取决于它所服务的业务类型。我们根据各自的QoS要求来定义电力业务的优先级。图4显示了各类电力业务的优先级别。优先级越高，μ_s越大。本发明中，μ₁，μ₂，μ₃分别代表控制类业务、移动应用类业务和信息采集类业务的优先级。

本发明定义学习代理的奖励如下：

Reward＝λ·SE+γ·QoE，

其中，λ，γ分别代表SE和QoE。

argmaxE{Reward(d，b)}

＝argmaxE{λ·SE(d，b)+γ·QoE(d，b)}

s.t.：C1：0≤b＜B

C2：b₁+b₂+…+b_K＝B

C4：0＜P_n＜P_max

(1)基于强化学习算法的接入网侧资源分配方法

强化学习算法(Reinforce Learning,RL)是一种重要的机器学习方法,在智能控制、机器人及分析预测等领域有许多应用。本发明主要提出一种基于Q-learning算法的RAN侧的的强化学习算法。我们统一状态空间为 S＝{s₁，s₂，...，s_n}，动作空间为A＝{a₁，a₂，...，a_n}，奖励函数为Reward＝{s_t，a_t}，P(s_t，s_t+1) 表示从状态s_t转移到s_t+1的转移概率。策略π：S→A，从状态到行为的映射，代表从状态s_t,进行a_t的动作，变换到下一状态s_t+1。RL算法通过定义值函数得到最优策略，最普遍的值函数定义为下式：

这是对一组效用函数的加权和期望，其中λ是个影响因子，它描述了未来效用对当前效用的重要程度。根据值函数的定义，最优策略对应着最大值函数，即

根据Q-learning算法，切片控制器可以基于已有的信息，通过迭代学习到最优的Q值。在任意时刻，处于状态s的切片控制器可以选择动作a，这时得到奖励Reward(s，a)，同时也会转移到下一个状态s′。这个过程可以描述为：

其中，α代表学习率。

代理可以通过在足够长的持续时间内更新Q值，并通过调整α和γ的值，保证Q(s，a)最终可以收敛到最优策略时候的值，即Q^*(s，a)。

整个切片策略由下列的算法给出。初始时，Q值被设定为0。在Q-learning 算法应用之前，切片控制器基于每个切片的电力业务流量需求估计对不同切片执行初始切片分配，这样做是为了不同切片的状态初始化。现有的接入网侧无线资源切片解决方案使用基于带宽的供应来将无线资源分配给不同的接入网切片。

本发明基于分层架构，对网络编排层功能具体化。本发明基于一个分层接入网网络切片逻辑架构。其中电力业务层源源不断产生业务流，网络编排层中对来自电力业务层业务流的各种信息进行分析，包括电力业务的类型以及业务需求(时延、吞吐量、可靠性等等)。对这些业务进行切片分类，大致上分为eMBB、uRLLC、mMTC三大类切片，分别对应具有高吞吐量、低时延高可靠、海量终端接入特性的三大类电力业务，不同的业务对应不同的优先级，进而执行相应的算法，选择效用高的业务进行优先分配资源。

本发明提出了频谱效率和用户体验质量的联合优化资源分配方法。电力无线业务主要分为工业控制类、信息采集类和移动应用类，其中工业控制类业务主要属于uRLLC场景，注重超高可靠超低时延；移动应用类业务主要是eMBB场景，侧重大带宽；信息采集类业务主要属于mMTC切片，对时延和带宽要求一般，但连接数量巨大。业务产生后加入业务缓存队列，根据业务分级和业务需求，定义效用函数，并使用强化学习算法将 RAN侧无线资源合理分配给各个业务接入的切片，使切片能保证满足用户体验质量要求，且最大化频谱效率，以优化切片在一定服务时间内的服务性能。

图9为根据本发明优选实施方式的一种基于强化学习的智能电网切片无线资源分配系统结构图。本发明为智能电网场景下接入网切片的架构以及网络编排层承载的基于强化学习算法的无线资源分配方法。强化学习算法可实现动态的资源分配。本发明将强化学习用于切片场景，根据频谱资源利用率(SE)与用户体验质量(QoE)，不断进行迭代，通过此方法来优化电力业务的无线资源分配。本发明设计思路如图2、图3所示。

如图9所示，本发明提供一种基于强化学习的智能电网切片无线资源分配系统，系统包括：

初始单元901，用于基于智能电网场景下的不同电力业务的需求对电力业务进行分类，并为多个电力业务设置优先级。优选地，电力业务的类别包括：电网控制类、信息采集类和移动应用类；电力业务的需求包括时延、速率、可靠性。

执行单元902，用于按照电力业务的分类将电力业务与电网切片进行关联；优选地，将多个电网切片按需求进行联合，通过切片管理器管理对应的切片。

分配单元903，用于建立电网业务资源分配的强化学习优化模型，根据强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作，基于最小成本原则为电网业务分配电网切片；其中优先级高的电力业务优先分配电网切片。

优选地，分配单元用于建立电网业务资源分配的强化学习优化模型，包括：

状态空间为：

每个用户的需求d_k＝d₁，d₂，...，d_K；

系统的频谱效率可定义为：

用户体验质量QoE定义为：

∑_s∈Mμ_s＝1

奖励函数为：

Reward＝λ·SE+γ·QoE，

优选地，强化学习优化模型的算法为：

其中，α代表学习率；Q(s，a)表示状态为s,动作为a时的Q值；

A：状态空间

B：动作空间

C：奖励函数

∑_s∈Mμ_s＝1,

其中R为传输速率；为单位时间内用户的最大传输速率；

其中是用户每秒最大的传输速率，μ_s表示用户的优先级，这取决于它所服务的业务类型。我们根据各自的QoS要求来定义电力业务的优先级。图4显示了各类电力业务的优先级别。优先级越高，μ_s越大。本发明中，μ₁，μ₂，μ₃分别代表控制类业务、移动应用类业务和信息采集类业务的优先级。

本发明定义学习代理的奖励如下：

Reward＝λ·SE+γ·QoE，

其中，λ，γ分别代表SE和QoE。

argmaxE{Reward(d，b)}

＝argmaxE{λ·SE(d，b)+γ·QoE(d，b)}

s.t.：C1：0≤b＜B

C2：b₁+b₂+…+b_K＝B

C4：0＜P_n＜P_max

(2)基于强化学习算法的接入网侧资源分配方法

其中，α代表学习率。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

Claims

1.一种基于强化学习的智能电网切片无线资源分配方法，所述方法包括：

建立电网业务资源分配的强化学习优化模型，根据所述强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作，基于最小成本原则为电网业务分配电网切片；其中优先级高的电力业务优先分配电网切片；所述建立电网业务资源分配的强化学习优化模型，包括：

状态空间为：

每个用户的需求d_k＝d₁，d₂，...，d_K；

系统的频谱效率SE可定义为：

用户体验质量QoE定义为：

∑_s∈Mμ_s＝1

其中R为传输速率；为单位时间内用户的最大传输速率；/>是用户实际速率与最大速率的比值；μ_s表示用户的优先级；

所述奖励函数为：

Reward＝λ·SE+γ·QoE，

2.根据权利要求1所述的方法，将多个所述电网切片按需求进行联合，通过切片管理器管理对应的切片。

3.根据权利要求1所述的方法，所述电力业务的类别包括：电网控制类、信息采集类和移动应用类；

所述电力业务的需求包括时延、速率、可靠性。

4.一种基于强化学习的智能电网切片无线资源分配系统，所述系统包括：

分配单元，用于建立电网业务资源分配的强化学习优化模型，根据所述强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作，基于最小成本原则为电网业务分配电网切片；其中优先级高的电力业务优先分配电网切片；所述分配单元用于建立电网业务资源分配的强化学习优化模型，包括：

状态空间为：

每个用户的需求d_k＝d₁，d₂，...，d_K；

系统的频谱效率可定义为：

用户体验质量QoE定义为：

∑_s∈Mμ_s＝1

所述奖励函数为：

Reward＝λ•SE+γ•Q0E，

5.根据权利要求4所述的系统，将多个所述电网切片按需求进行联合，通过切片管理器管理对应的切片。

6.根据权利要求4所述的系统，所述电力业务的类别包括：电网控制类、信息采集类和移动应用类；

所述电力业务的需求包括时延、速率、可靠性。