CN111953510B - 一种基于强化学习的智能电网切片无线资源分配方法及系统 - Google Patents
一种基于强化学习的智能电网切片无线资源分配方法及系统 Download PDFInfo
- Publication number
- CN111953510B CN111953510B CN202010412340.0A CN202010412340A CN111953510B CN 111953510 B CN111953510 B CN 111953510B CN 202010412340 A CN202010412340 A CN 202010412340A CN 111953510 B CN111953510 B CN 111953510B
- Authority
- CN
- China
- Prior art keywords
- power
- grid
- service
- user
- slice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 66
- 238000013468 resource allocation Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000006870 function Effects 0.000 claims abstract description 55
- 238000005457 optimization Methods 0.000 claims abstract description 28
- 230000009471 action Effects 0.000 claims abstract description 26
- 230000005540 biological transmission Effects 0.000 claims description 31
- 230000003595 spectral effect Effects 0.000 claims description 15
- 238000007726 management method Methods 0.000 claims description 13
- 230000007704 transition Effects 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 9
- 230000033001 locomotion Effects 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000002955 isolation Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/16—Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/56—Allocation or scheduling criteria for wireless resources based on priority criteria
Abstract
本发明公开了一种基于强化学习的智能电网切片无线资源分配方法及系统,其中方法包括:基于智能电网场景下的不同电力业务的需求对所述电力业务进行分类,并为多个所述电力业务设置优先级;按照所述电力业务的分类将所述电力业务与电网切片进行关联;建立电网业务资源分配的强化学习优化模型,根据所述强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作,基于最小成本原则为电网业务分配电网切片;其中优先级高的电力业务优先分配电网切片。
Description
技术领域
本发明涉及电力通信的频谱资源分配技术领域,更具体地,涉及一种 基于强化学习的智能电网切片无线资源分配方法及系统。
背景技术
在能源和电力需求增长的驱动下,电力业务正在向分布式配电自动化、 遥视、电力物联网、人工智能等未来方向发展,世界电网以崭新的面貌从 传统网络进入了以智能电网为标志的新阶段。电网涵盖发、输、变、配、 用等环节,各类业务众多,分布式电源、用电信息采集、精准负荷控制、 移动巡检等业务都迫切需要低时延、大连接、大带宽的5G网络来支撑, 通过提高网络容量,加强无线网络广深覆盖能力,降低业务时延,全面深 度感知源网荷储设备运行、状态和环境信息,优化调度来实现跨区域送受端协调控制,实现提升新能源消纳能力,通过输变电、配用电设备广泛互 联、信息深度采集,提升故障就地处理、精准主动抢修、三相不平衡治理 和区域能源自治水平,提高供电可靠性,降低大电网运行风险,提升电网 安全经济运行水平。
网络切片被认为是5G网络的重要关键技术之一,其将单个物理网络 分成多个独立的逻辑网络,以支持各种垂直的多服务网络,并根据其特性, 分配于不同的业务场景中,以适应不同的服务需求。利用网络切片技术能 够大大节省部署的成本并减少网络的占有率。网络切片技术可为不同的应用提供定制化的服务,考虑到电力服务业务的多样性,将网络切片应用于 智能电网是一个很好的选择。5G网络切片的技术特性对于承载面向电网的无线业务应用具备切片可定制化、切片间安全可靠隔离及切片统一管理的 特点,并且具备快速组网、高效经济的优势,在电力系统中有着广阔应用 前景。5G增强型移动宽带(eMBB)、超高可靠超低时延通信(uRLLC)和海 量机器类通信(mMTC)三大应用场景可良好适配智能电网的电网控制类、信息采集类和移动应用三大类业务。由于5G切片技术与电力业务融合的 逐渐深入,电力业务正向分布式配电自动化、遥视、能源集线、电力物联 网、人工智能等未来方向发展。
发明内容
本发明技术方案提供一种基于强化学习的智能电网切片无线资源分配 方法及系统,以解决如何基于强化学习对智能电网切片进行无线资源分配 的问题。
为了解决上述问题,本发明提供了一种基于强化学习的智能电网切片 无线资源分配方法,所述方法包括:
基于智能电网场景下的不同电力业务的需求对所述电力业务进行分 类,并为多个所述电力业务设置优先级;
按照所述电力业务的分类将所述电力业务与电网切片进行关联;
建立电网业务资源分配的强化学习优化模型,根据所述强化学习优化 模型的当前切片状态和奖励函数确定下一个状态执行的动作,基于最小成 本原则为电网业务分配电网切片;其中优先级高的电力业务优先分配电网 切片。
优选地,将多个所述电网切片按需求进行联合,通过切片管理器管理 对应的切片。
优选地,所述电力业务的类别包括:电网控制类、信息采集类和移动 应用类;
所述电力业务的需求包括时延、速率、可靠性。
优选地,所述建立电网业务资源分配的强化学习优化模型,包括:
所述状态空间为:
电网切片m在第n个状态下的当前状态sm用于指 示当前所有可用于承载相关电力业务的切片的状态空间;
每个用户的需求dk=d1,d2,...,dK;
系统的频谱效率可定义为:
其中,B是基站n的系统带宽,R是传输速率,bk是分配给用户k的 带宽;σ2表示热噪声功率,表示信道增益,基站n的发射功率用pn表 示,N为系统中的基站总数量,l为系统中的某个基站;
用户体验质量QoE定义为:
∑s∈Mμs=1
其中R为传输速率;为单位时间内用户的最大传输速率;/>是 用户实际速率与最大速率的比值;μs表示用户的优先级,基于用户体验质 量QoE确定电力业务的优先级;
所述奖励函数为:
Reward=λ·SE+γ·QoE,
其中,λ,γ分别代表SE和QoE的权重系数;SE代表频谱效率,QoE表示用户 体验质量。
优选地,所述强化学习优化模型的算法为:
设置状态空间为S={S1,S2,...,Sn},动作空间为A={a1,a2,...,an},奖励函数为Reward={st,at},P(st,st+1)表示从状态st转移到st+1的转移概率;
策略π:S→A,从状态空间到动作空间的映射,代表从状态st进行at的动 作,变换到下一状态st+1;强化学习算法通过定义值函数得到最优策略,值 函数定义为下式:
V代表值函数,γ是表示未来效用对当前效用的重要性的一个系数,ri代表第i次奖励函数的值,最优策略对应着最大值函数,即:
根据Q-learning算法,切片控制器通过迭代学习到最优的Q值;在任意 时刻,处于状态s的切片控制器选择动作a,得到奖励Reward(s,a),同时也会转移到下一个状态s′;
其中,α代表学习率;Q(s,a)表示状态为s,动作为a时的Q值;
通过调整α和γ的值,保证Q(s,a)最终可以收敛到最优策略时候的值,即 Q*(s,a)。
基于本发明的另一方面,本发明提供一种基于强化学习的智能电网切 片无线资源分配系统,所述系统包括:
初始单元,用于基于智能电网场景下的不同电力业务的需求对所述电 力业务进行分类,并为多个所述电力业务设置优先级;
执行单元,用于按照所述电力业务的分类将所述电力业务与电网切片 进行关联;
分配单元,用于建立电网业务资源分配的强化学习优化模型,根据所 述强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动 作,基于最小成本原则为电网业务分配电网切片;其中优先级高的电力业 务优先分配电网切片。
优选地,将多个所述电网切片按需求进行联合,通过切片管理器管理 对应的切片。
优选地,所述电力业务的类别包括:电网控制类、信息采集类和移动 应用类;
所述电力业务的需求包括时延、速率、可靠性。
优选地,所述分配单元用于建立电网业务资源分配的强化学习优化模 型,包括:
所述状态空间为:
电网切片m在第n个状态下的当前状态sm用于指 示当前所有可用于承载相关电力业务的切片的状态空间;
每个用户的需求dk=d1,d2,...,dK;
系统的频谱效率可定义为:
其中,B是基站n的系统带宽,R是传输速率,bk是分配给用户k的 带宽;σ2表示热噪声功率,表示信道增益,基站n的发射功率用pn表 示,N为系统中的基站总数量,l为系统中的某个基站;
用户体验质量QoE定义为:
∑s∈Mμs=1
其中R为传输速率;为单位时间内用户的最大传输速率;/>是 用户实际速率与最大速率的比值;μs表示用户的优先级,基于用户体验质 量QoE确定电力业务的优先级;
所述奖励函数为:
Reward=λ·SE+γ·QoE,
其中,λ,γ分别代表SE和QoE的权重系数;SE代表频谱效率,QoE表示用户 体验质量。
优选地,所述强化学习优化模型的算法为:
设置状态空间为S={s1,s2,...,sn},动作空间为A={a1,a2,...,an},奖励函数为Reward={st,at},P(st,st+1)表示从状态st转移到st+1的转移概率;
策略π:S→A,从状态空间到动作空间的映射,代表从状态st进行at的动 作,变换到下一状态st+1;强化学习算法通过定义值函数得到最优策略,值 函数定义为下式:
V代表值函数,γ是表示未来效用对当前效用的重要性的一个系数,ri代表第i次奖励函数的值,最优策略对应着最大值函数,即:
根据Q-learning算法,切片控制器通过迭代学习到最优的Q值;在任意 时刻,处于状态s的切片控制器选择动作a,得到奖励Reward(s,a),同时也会 转移到下一个状态s′;
其中,α代表学习率;Q(s,a)表示状态为s,动作为a时的Q值;
通过调整α和γ的值,保证Q(s,a)最终可以收敛到最优策略时候的值,即 Q*(s,a)。
本发明技术方案提供一种基于强化学习的智能电网切片无线资源分配 方法及系统,其中方法包括:基于智能电网场景下的不同电力业务的需求 对电力业务进行分类;按照电力业务的分类将电力业务与电网切片进行关 联;建立电网业务资源分配的强化学习优化模型,根据强化学习优化模型 的当前切片状态和奖励函数确定下一个状态执行的动作,基于最小成本原则为电网业务分配电网切片。本发明技术方案实现了在新一代电网的飞速 发展下,面对智能电网业务种类的繁多,有效地进行资源管理,最小化网 络部署成本。本发明技术方案适应多类电力业务的各个不同的需求,得到 让人满意的服务质量。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明优选实施方式的一种基于强化学习的智能电网切片 无线资源分配方法流程图;
图2为根据本发明优选实施方式的智能电网场景下接入网切片系统结 构图;
图3为根据本发明优选实施方式的网络编排层资源分配示意图;
图4为根据本发明优选实施方式的业务分配的优先级;
图5为根据本发明优选实施方式的迭代次数-频谱效率关系图;
图6为根据本发明优选实施方式的迭代次数-用户体验质量关系图;
图7为根据本发明优选实施方式的迭代次数-训练成本关系图;
图8为根据本发明优选实施方式的迭代次数-收益值关系图;以及
图9为根据本发明优选实施方式的一种基于强化学习的智能电网切片 无线资源分配系统结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许 多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例 是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分 传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是 对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的 技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典 限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应 该被理解为理想化的或过于正式的意义。
图1为根据本发明优选实施方式的一种基于强化学习的智能电网切片 无线资源分配方法流程图。对于在智能电网场景下,应用5G网络切片技 术进行资源的分配的研究还处于发展阶段。智能电网通过与应用设备的双向交互来分配和管理资源,由于智能电网用户较多,管理大量设备会产生 大量的需求请求,因此对于资源的需求并非是确定的,即各项业务流都有 自己的带宽需求、可靠性要求以及延迟容忍度。
本发明为智能电网场景下接入网切片的架构以及网络编排层承载的基 于强化学习算法的无线资源分配方法。强化学习算法可实现动态的资源分 配。本发明将强化学习用于切片场景,根据频谱资源利用率(SE)与用户 体验质量(QoE),不断进行迭代,通过此方法来优化电力业务的无线资源 分配。本发明设计思路如图2、图3所示。
发明依托的智能电网切片整体框架,该架构旨在有效地协调智能电网 中的切片。架构示意图如图2,包括数据平面、电力业务平面和网络编排 平面。其中,数据平面主要由执行虚拟化智能电网流程所需的物理资源和 切片组成。物理资源包括电力设备终端、计算设备、存储设备和网络硬件 等等,除了传统的数据中心组件外,还包括传感和驱动设备。不同切片之 间可以通过切片联合接口按需联合,使不同切片之间可以互通,形成切片 群。每个切片实例对应一个特定的切片管理器,切片管理器一方面使UE 快速发现网络切片所对应的接入网节点,完成初始接入,关联到实际需要 的网络切片。
电力业务平面主要包括三大类电力业务:电网控制类、信息采集类和 移动应用类。不同的业务有不同的QoS要求,如时延、速率、可靠性等。 因此,不同的电力业务应有不同的服务优先级。
如图1所示,本发明提供一种基于强化学习的智能电网切片无线资源 分配方法,方法包括:
优选地,在步骤101:基于智能电网场景下的不同电力业务的需求对 电力业务进行分类,并为多个电力业务设置优先级。优选地,电力业务的 类别包括:电网控制类、信息采集类和移动应用类;电力业务的需求包括 时延、速率、可靠性。
优选地,在步骤102:按照电力业务的分类将电力业务与电网切片进 行关联。优选地,将多个电网切片按需求进行联合,通过切片管理器管理 对应的切片。
优选地,在步骤103:建立电网业务资源分配的强化学习优化模型, 根据强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的 动作,基于最小成本原则为电网业务分配电网切片;其中优先级高的电力 业务优先分配电网切片。
优选地,建立电网业务资源分配的强化学习优化模型,包括:
状态空间为:
电网切片m在第n个状态下的当前状态sm用于指 示当前所有可用于承载相关电力业务的切片的状态空间;
每个用户的需求dk=d1,d2,...,dK;
系统的频谱效率可定义为:
其中,B是基站n的系统带宽,R是传输速率,bk是分配给用户k的 带宽;σ2表示热噪声功率,表示信道增益,基站n的发射功率用pn表 示,N为系统中的基站总数量,l为系统中的某个基站;
用户体验质量QoE定义为:
∑s∈mμs=1
其中R为传输速率;为单位时间内用户的最大传输速率;/>是 用户实际速率与最大速率的比值;μs表示用户的优先级,基于用户体验质 量QoE确定电力业务的优先级;
奖励函数为:
Reward=λ·SE+γ·QoE,
其中,λ,γ分别代表SE和QoE的权重系数;SE代表频谱效率,QoE表示用户 体验质量。
优选地,强化学习优化模型的算法为:
设置状态空间为S={s1,s2,...,sn},动作空间为A={a1,a2,...,an},奖励函数为Reward={st,at},P(st,st+1)表示从状态st转移到st+1的转移概率;
策略π:S→A,从状态空间到动作空间的映射,代表从状态st进行at的动 作,变换到下一状态st+1;强化学习算法通过定义值函数得到最优策略,值 函数定义为下式:
V代表值函数,γ是表示未来效用对当前效用的重要性的一个系数,ri代表第i次奖励函数的值,最优策略对应着最大值函数,即:
根据Q-learning算法,切片控制器通过迭代学习到最优的Q值;在任意 时刻,处于状态s的切片控制器选择动作a,得到奖励Reward(s,a),同时也会转移到下一个状态s′;
其中,α代表学习率;Q(s,a)表示状态为s,动作为a时的Q值;
通过调整α和γ的值,保证Q(s,a)最终可以收敛到最优策略时候的值,即 Q*(s,a)。
编排控制平面,本发明引入接入网SDN控制器,负责接入网的网络功 能(NF)管理和协调(如服务迁移和部署),相当于代理。RAN侧网络切片 由相应的SDN控制器进行管理,负责执行其网络侧的算法,也就是本发明 提出的基于强化学习的智能电网切片分配策略。
本发明提出的综合考虑频谱效率和用户体验质量的无线资源分配优化 模型,具体包括:
对系统模型进行假设,本发明中,主要考虑RAN网络切片中下行链路 的带宽分配。SE和QoE是主要的评价指标。在网络中,我们假设有一组 切片表示为M={1,2,...,M},一组用户表示为K={1,...,K}。切片m 的用户用Km表示,km表示切片m的单个用户。强化学习是从环境状态到行 动的映射。因此,我们首先定义了基于DRL的框架的状态空间、动作空间 和奖励函数如下。
A:状态空间
状态空间由两个分量组成,切片m在第n个状态下的当前状态和每个用户的需求dk=d1,d2,...,dK。sm用于指示当前所有可用于 承载相关电力业务的切片的状态,dk表示智能电网的业务流。
B:动作空间
当遇到未知的电力业务时,强化学习的代理(Agent)应该提供合适的 带宽资源,以最大限度地满足QoE和SE的要求。代理可以根据当前切片 状态和奖励函数来决定在下一个状态下执行什么动作。动作空间定义为 {an},其中第n个元素表示为an。我们定义an∈{0,1},是一个二进制变量。
C:奖励函数
代理将特定的切片分配给某智能电网业务后,会得到一个综合收益, 我们将此综合收益作为系统的奖励。
电网控制类业务涉及电网安全稳定运行,主要用于故障隔离、自愈控 制、精准对时等,具有典型的低时延、高可靠业务特征,时延要求为30ms-1s。 信息采集类业务涉及海量通信终端,且广泛分布于电网各个环节,具有典 型的广覆盖、大连接业务特征,连接密度上百个/平方公里。移动应用类业 务主要有基建全过程综合数字化管理、无人机巡检、输配变机器人巡检、 移动办公、移动视频会商等,该类业务对网络带宽及移动性有明显需求,具有典型的大带宽、灵活接入业务特征,单终端带宽要求不得低于2Mbps。 在RAN侧由于频谱资源有限,在分配切片时应当选取最优策略以最大化满足用户的QoS需求。
本发明主要考虑下行链路的情况。系统的频谱效率可定义为:
其中B是基站n的系统带宽,R是传输速率,bk是分配给用户k的带 宽。σ2表示热噪声功率,表示信道增益,基站n的发射功率用pn表示, N为系统中的基站总数量,l为系统中的某个基站;
在配电自动化,应急通信、精准负荷控制等高质量电力业务需求的驱 动下,需要有合适的用户体验质量相匹配。QoE是通过用户的有效吞吐量 来度量,并且根据用户的最大需求数据速率进行归一化处理。因此,低优 先级的业务的资源应尽可能少,仅需要满足其基本的服务质量QoS即可, 将资源留给高优先级的业务。我们将QoE定义为:
∑s∈Mμs=1,
其中R为传输速率;为单位时间内用户的最大传输速率;其中/>是用户每秒最大的传输速率,μs表示用户的优先级,这取决于它所服务的 业务类型。我们根据各自的QoS要求来定义电力业务的优先级。图4显示了各类电力业务的优先级别。优先级越高,μs越大。本发明中,μ1,μ2,μ3分别 代表控制类业务、移动应用类业务和信息采集类业务的优先级。
本发明定义学习代理的奖励如下:
Reward=λ·SE+γ·QoE,
其中,λ,γ分别代表SE和QoE。
argmaxE{Reward(d,b)}
=argmaxE{λ·SE(d,b)+γ·QoE(d,b)}
s.t.:C1:0≤b<B
C2:b1+b2+…+bK=B
C4:0<Pn<Pmax
(1)基于强化学习算法的接入网侧资源分配方法
强化学习算法(Reinforce Learning,RL)是一种重要的机器学习方法,在 智能控制、机器人及分析预测等领域有许多应用。本发明主要提出一种基 于Q-learning算法的RAN侧的的强化学习算法。我们统一状态空间为 S={s1,s2,...,sn},动作空间为A={a1,a2,...,an},奖励函数为Reward={st,at},P(st,st+1) 表示从状态st转移到st+1的转移概率。策略π:S→A,从状态到行为的映射, 代表从状态st,进行at的动作,变换到下一状态st+1。RL算法通过定义值函数 得到最优策略,最普遍的值函数定义为下式:
这是对一组效用函数的加权和期望,其中λ是个影响因子,它描述了未 来效用对当前效用的重要程度。根据值函数的定义,最优策略对应着最大值函数,即
根据Q-learning算法,切片控制器可以基于已有的信息,通过迭代学习到最 优的Q值。在任意时刻,处于状态s的切片控制器可以选择动作a,这时得 到奖励Reward(s,a),同时也会转移到下一个状态s′。这个过程可以描述为:
其中,α代表学习率。
代理可以通过在足够长的持续时间内更新Q值,并通过调整α和γ的值, 保证Q(s,a)最终可以收敛到最优策略时候的值,即Q*(s,a)。
整个切片策略由下列的算法给出。初始时,Q值被设定为0。在Q-learning 算法应用之前,切片控制器基于每个切片的电力业务流量需求估计对不同 切片执行初始切片分配,这样做是为了不同切片的状态初始化。现有的接 入网侧无线资源切片解决方案使用基于带宽的供应来将无线资源分配给不 同的接入网切片。
本发明基于分层架构,对网络编排层功能具体化。本发明基于一个分 层接入网网络切片逻辑架构。其中电力业务层源源不断产生业务流,网络 编排层中对来自电力业务层业务流的各种信息进行分析,包括电力业务的 类型以及业务需求(时延、吞吐量、可靠性等等)。对这些业务进行切片分 类,大致上分为eMBB、uRLLC、mMTC三大类切片,分别对应具有高 吞吐量、低时延高可靠、海量终端接入特性的三大类电力业务,不同的业务对应不同的优先级,进而执行相应的算法,选择效用高的业务进行优先 分配资源。
本发明提出了频谱效率和用户体验质量的联合优化资源分配方法。电 力无线业务主要分为工业控制类、信息采集类和移动应用类,其中工业控 制类业务主要属于uRLLC场景,注重超高可靠超低时延;移动应用类业 务主要是eMBB场景,侧重大带宽;信息采集类业务主要属于mMTC切 片,对时延和带宽要求一般,但连接数量巨大。业务产生后加入业务缓存 队列,根据业务分级和业务需求,定义效用函数,并使用强化学习算法将 RAN侧无线资源合理分配给各个业务接入的切片,使切片能保证满足用户 体验质量要求,且最大化频谱效率,以优化切片在一定服务时间内的服务性能。
图9为根据本发明优选实施方式的一种基于强化学习的智能电网切片 无线资源分配系统结构图。本发明为智能电网场景下接入网切片的架构以 及网络编排层承载的基于强化学习算法的无线资源分配方法。强化学习算 法可实现动态的资源分配。本发明将强化学习用于切片场景,根据频谱资源利用率(SE)与用户体验质量(QoE),不断进行迭代,通过此方法来 优化电力业务的无线资源分配。本发明设计思路如图2、图3所示。
发明依托的智能电网切片整体框架,该架构旨在有效地协调智能电网 中的切片。架构示意图如图2,包括数据平面、电力业务平面和网络编排 平面。其中,数据平面主要由执行虚拟化智能电网流程所需的物理资源和 切片组成。物理资源包括电力设备终端、计算设备、存储设备和网络硬件 等等,除了传统的数据中心组件外,还包括传感和驱动设备。不同切片之 间可以通过切片联合接口按需联合,使不同切片之间可以互通,形成切片群。每个切片实例对应一个特定的切片管理器,切片管理器一方面使UE 快速发现网络切片所对应的接入网节点,完成初始接入,关联到实际需要 的网络切片。
电力业务平面主要包括三大类电力业务:电网控制类、信息采集类和 移动应用类。不同的业务有不同的QoS要求,如时延、速率、可靠性等。 因此,不同的电力业务应有不同的服务优先级。
如图9所示,本发明提供一种基于强化学习的智能电网切片无线资源 分配系统,系统包括:
初始单元901,用于基于智能电网场景下的不同电力业务的需求对电 力业务进行分类,并为多个电力业务设置优先级。优选地,电力业务的类 别包括:电网控制类、信息采集类和移动应用类;电力业务的需求包括时 延、速率、可靠性。
执行单元902,用于按照电力业务的分类将电力业务与电网切片进行 关联;优选地,将多个电网切片按需求进行联合,通过切片管理器管理对 应的切片。
分配单元903,用于建立电网业务资源分配的强化学习优化模型,根 据强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动 作,基于最小成本原则为电网业务分配电网切片;其中优先级高的电力业 务优先分配电网切片。
优选地,分配单元用于建立电网业务资源分配的强化学习优化模型, 包括:
状态空间为:
电网切片m在第n个状态下的当前状态sm用于指 示当前所有可用于承载相关电力业务的切片的状态空间;
每个用户的需求dk=d1,d2,...,dK;
系统的频谱效率可定义为:
其中,B是基站n的系统带宽,R是传输速率,bk是分配给用户k的 带宽;σ2表示热噪声功率,表示信道增益,基站n的发射功率用pn表 示,N为系统中的基站总数量,l为系统中的某个基站;
用户体验质量QoE定义为:
∑s∈Mμs=1
其中R为传输速率;为单位时间内用户的最大传输速率;/>是 用户实际速率与最大速率的比值;μs表示用户的优先级,基于用户体验质 量QoE确定电力业务的优先级;
奖励函数为:
Reward=λ·SE+γ·QoE,
其中,λ,γ分别代表SE和QoE的权重系数;SE代表频谱效率,QoE表示用户 体验质量。
优选地,强化学习优化模型的算法为:
设置状态空间为S={s1,s2,...,sn},动作空间为A={a1,a2,...,an},奖励函数为Reward={st,at},P(st,st+1)表示从状态st转移到st+1的转移概率;
策略π:S→A,从状态空间到动作空间的映射,代表从状态st进行at的动 作,变换到下一状态st+1;强化学习算法通过定义值函数得到最优策略,值 函数定义为下式:
V代表值函数,γ是表示未来效用对当前效用的重要性的一个系数,ri代表第i次奖励函数的值,最优策略对应着最大值函数,即:
根据Q-learning算法,切片控制器通过迭代学习到最优的Q值;在任意 时刻,处于状态s的切片控制器选择动作a,得到奖励Reward(s,a),同时也会 转移到下一个状态s′;
其中,α代表学习率;Q(s,a)表示状态为s,动作为a时的Q值;
通过调整α和γ的值,保证Q(s,a)最终可以收敛到最优策略时候的值,即 Q*(s,a)。
编排控制平面,本发明引入接入网SDN控制器,负责接入网的网络功 能(NF)管理和协调(如服务迁移和部署),相当于代理。RAN侧网络切片 由相应的SDN控制器进行管理,负责执行其网络侧的算法,也就是本发明 提出的基于强化学习的智能电网切片分配策略。
本发明提出的综合考虑频谱效率和用户体验质量的无线资源分配优化 模型,具体包括:
对系统模型进行假设,本发明中,主要考虑RAN网络切片中下行链路 的带宽分配。SE和QoE是主要的评价指标。在网络中,我们假设有一组 切片表示为M={1,2,...,M},一组用户表示为K={1,...,K}。切片m 的用户用Km表示,km表示切片m的单个用户。强化学习是从环境状态到行 动的映射。因此,我们首先定义了基于DRL的框架的状态空间、动作空间 和奖励函数如下。
A:状态空间
状态空间由两个分量组成,切片m在第n个状态下的当前状态和每个用户的需求dk=d1,d2,...,dK。sm用于指示当前所有可用于 承载相关电力业务的切片的状态,dk表示智能电网的业务流。
B:动作空间
当遇到未知的电力业务时,强化学习的代理(Agent)应该提供合适的 带宽资源,以最大限度地满足QoE和SE的要求。代理可以根据当前切片 状态和奖励函数来决定在下一个状态下执行什么动作。动作空间定义为 {an},其中第n个元素表示为an。我们定义an∈{0,1},是一个二进制变量。
C:奖励函数
代理将特定的切片分配给某智能电网业务后,会得到一个综合收益, 我们将此综合收益作为系统的奖励。
电网控制类业务涉及电网安全稳定运行,主要用于故障隔离、自愈控 制、精准对时等,具有典型的低时延、高可靠业务特征,时延要求为30ms-1s。 信息采集类业务涉及海量通信终端,且广泛分布于电网各个环节,具有典 型的广覆盖、大连接业务特征,连接密度上百个/平方公里。移动应用类业 务主要有基建全过程综合数字化管理、无人机巡检、输配变机器人巡检、 移动办公、移动视频会商等,该类业务对网络带宽及移动性有明显需求,具有典型的大带宽、灵活接入业务特征,单终端带宽要求不得低于2Mbps。 在RAN侧由于频谱资源有限,在分配切片时应当选取最优策略以最大化满足用户的QoS需求。
本发明主要考虑下行链路的情况。系统的频谱效率可定义为:
其中B是基站n的系统带宽,R是传输速率,bk是分配给用户k的带 宽。σ2表示热噪声功率,表示信道增益,基站n的发射功率用pn表示, N为系统中的基站总数量,l为系统中的某个基站;
在配电自动化,应急通信、精准负荷控制等高质量电力业务需求的驱 动下,需要有合适的用户体验质量相匹配。QoE是通过用户的有效吞吐量 来度量,并且根据用户的最大需求数据速率进行归一化处理。因此,低优 先级的业务的资源应尽可能少,仅需要满足其基本的服务质量QoS即可, 将资源留给高优先级的业务。我们将QoE定义为:
∑s∈Mμs=1,
其中R为传输速率;为单位时间内用户的最大传输速率;
其中是用户每秒最大的传输速率,μs表示用户的优先级,这取决于它 所服务的业务类型。我们根据各自的QoS要求来定义电力业务的优先级。 图4显示了各类电力业务的优先级别。优先级越高,μs越大。本发明中,μ1,μ2,μ3分别代表控制类业务、移动应用类业务和信息采集类业务的优先级。
本发明定义学习代理的奖励如下:
Reward=λ·SE+γ·QoE,
其中,λ,γ分别代表SE和QoE。
argmaxE{Reward(d,b)}
=argmaxE{λ·SE(d,b)+γ·QoE(d,b)}
s.t.:C1:0≤b<B
C2:b1+b2+…+bK=B
C4:0<Pn<Pmax
(2)基于强化学习算法的接入网侧资源分配方法
强化学习算法(Reinforce Learning,RL)是一种重要的机器学习方法,在 智能控制、机器人及分析预测等领域有许多应用。本发明主要提出一种基 于Q-learning算法的RAN侧的的强化学习算法。我们统一状态空间为 S={s1,s2,...,sn},动作空间为A={a1,a2,...,an},奖励函数为Reward={st,at},P(st,st+1) 表示从状态st转移到St+1的转移概率。策略π:S→A,从状态到行为的映射, 代表从状态st,进行at的动作,变换到下一状态st+1。RL算法通过定义值函数 得到最优策略,最普遍的值函数定义为下式:
这是对一组效用函数的加权和期望,其中λ是个影响因子,它描述了未 来效用对当前效用的重要程度。根据值函数的定义,最优策略对应着最大 值函数,即
根据Q-learning算法,切片控制器可以基于已有的信息,通过迭代学习到最 优的Q值。在任意时刻,处于状态s的切片控制器可以选择动作a,这时得 到奖励Reward(s,a),同时也会转移到下一个状态s′。这个过程可以描述为:
其中,α代表学习率。
代理可以通过在足够长的持续时间内更新Q值,并通过调整α和γ的值, 保证Q(s,a)最终可以收敛到最优策略时候的值,即Q*(s,a)。
整个切片策略由下列的算法给出。初始时,Q值被设定为0。在Q-learning 算法应用之前,切片控制器基于每个切片的电力业务流量需求估计对不同 切片执行初始切片分配,这样做是为了不同切片的状态初始化。现有的接 入网侧无线资源切片解决方案使用基于带宽的供应来将无线资源分配给不 同的接入网切片。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所 公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他 的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常 含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装 置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除 非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
Claims (6)
1.一种基于强化学习的智能电网切片无线资源分配方法,所述方法包括:
基于智能电网场景下的不同电力业务的需求对所述电力业务进行分类,并为多个所述电力业务设置优先级;
按照所述电力业务的分类将所述电力业务与电网切片进行关联;
建立电网业务资源分配的强化学习优化模型,根据所述强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作,基于最小成本原则为电网业务分配电网切片;其中优先级高的电力业务优先分配电网切片;所述建立电网业务资源分配的强化学习优化模型,包括:
状态空间为:
电网切片m在第n个状态下的当前状态sm用于指示当前所有可用于承载相关电力业务的切片的状态空间;
每个用户的需求dk=d1,d2,...,dK;
系统的频谱效率SE可定义为:
其中,B是基站n的系统带宽,R是传输速率,bk是分配给用户k的带宽;σ2表示热噪声功率,表示信道增益,基站n的发射功率用pn表示,n为系统中的基站总数量,l为系统中的某个基站;
用户体验质量QoE定义为:
∑s∈Mμs=1
其中R为传输速率;为单位时间内用户的最大传输速率;/>是用户实际速率与最大速率的比值;μs表示用户的优先级;
所述奖励函数为:
Reward=λ·SE+γ·QoE,
其中,λ,γ分别代表SE和QoE的权重系数;SE代表频谱效率,QoE表示用户体验质量。
2.根据权利要求1所述的方法,将多个所述电网切片按需求进行联合,通过切片管理器管理对应的切片。
3.根据权利要求1所述的方法,所述电力业务的类别包括:电网控制类、信息采集类和移动应用类;
所述电力业务的需求包括时延、速率、可靠性。
4.一种基于强化学习的智能电网切片无线资源分配系统,所述系统包括:
初始单元,用于基于智能电网场景下的不同电力业务的需求对所述电力业务进行分类,并为多个所述电力业务设置优先级;
执行单元,用于按照所述电力业务的分类将所述电力业务与电网切片进行关联;
分配单元,用于建立电网业务资源分配的强化学习优化模型,根据所述强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作,基于最小成本原则为电网业务分配电网切片;其中优先级高的电力业务优先分配电网切片;所述分配单元用于建立电网业务资源分配的强化学习优化模型,包括:
状态空间为:
电网切片m在第n个状态下的当前状态sm用于指示当前所有可用于承载相关电力业务的切片的状态空间;
每个用户的需求dk=d1,d2,...,dK;
系统的频谱效率可定义为:
其中,B是基站n的系统带宽,R是传输速率,bk是分配给用户k的带宽;σ2表示热噪声功率,表示信道增益,基站n的发射功率用pn表示,N为系统中的基站总数量,l为系统中的某个基站;
用户体验质量QoE定义为:
∑s∈Mμs=1
其中R为传输速率;为单位时间内用户的最大传输速率;/>是用户实际速率与最大速率的比值;μs表示用户的优先级;
所述奖励函数为:
Reward=λ•SE+γ•Q0E,
其中,λ,γ分别代表SE和QoE的权重系数;SE代表频谱效率,QoE表示用户体验质量。
5.根据权利要求4所述的系统,将多个所述电网切片按需求进行联合,通过切片管理器管理对应的切片。
6.根据权利要求4所述的系统,所述电力业务的类别包括:电网控制类、信息采集类和移动应用类;
所述电力业务的需求包括时延、速率、可靠性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010412340.0A CN111953510B (zh) | 2020-05-15 | 2020-05-15 | 一种基于强化学习的智能电网切片无线资源分配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010412340.0A CN111953510B (zh) | 2020-05-15 | 2020-05-15 | 一种基于强化学习的智能电网切片无线资源分配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111953510A CN111953510A (zh) | 2020-11-17 |
CN111953510B true CN111953510B (zh) | 2024-02-02 |
Family
ID=73337543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010412340.0A Active CN111953510B (zh) | 2020-05-15 | 2020-05-15 | 一种基于强化学习的智能电网切片无线资源分配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111953510B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112615731B (zh) * | 2020-11-23 | 2022-01-07 | 北京邮电大学 | 一种用于分配多运营商联合网络切片资源的方法和装置 |
CN112583566B (zh) * | 2020-12-03 | 2023-03-31 | 国网甘肃省电力公司信息通信公司 | 一种基于空天地一体化系统的网络资源分配方法 |
CN112737813A (zh) * | 2020-12-11 | 2021-04-30 | 广东电力通信科技有限公司 | 一种基于5g网络切片的电力业务管理方法及系统 |
CN112888069B (zh) * | 2021-01-12 | 2022-10-11 | 温州科技职业学院 | 一种服务城市中心环境的5g网络切片系统 |
CN112911715B (zh) * | 2021-02-03 | 2024-02-13 | 南京南瑞信息通信科技有限公司 | 一种虚拟无线网络中吞吐量最大化的功率分配方法及装置 |
CN113240020B (zh) * | 2021-05-19 | 2022-11-01 | 浙江凡双科技有限公司 | 一种基于超图分割的5g无线通信网络切片分类方法 |
CN113225759B (zh) * | 2021-05-28 | 2022-04-15 | 广东电网有限责任公司广州供电局 | 一种面向于5g智能电网的网络切片安全与决策管理方法 |
CN113840333B (zh) * | 2021-08-16 | 2023-11-10 | 国网河南省电力公司信息通信公司 | 电网资源分配的方法、装置、电子设备及存储介质 |
CN114629804A (zh) * | 2022-04-19 | 2022-06-14 | 华北电力大学 | 一种适配毫秒级源网荷切负荷的5g切片编排方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107295609A (zh) * | 2016-03-30 | 2017-10-24 | 中兴通讯股份有限公司 | 网络切片处理方法及装置、终端、基站 |
CN109451534A (zh) * | 2018-12-17 | 2019-03-08 | 东南大学 | 一种用于5G系统会话管理中QoS流的动态控制方法和装置 |
CN109600262A (zh) * | 2018-12-17 | 2019-04-09 | 东南大学 | Urllc传输网络切片中资源自配置和自优化方法及装置 |
CN110149646A (zh) * | 2019-04-10 | 2019-08-20 | 中国电力科学研究院有限公司 | 一种基于时延和吞吐量的智能电网资源管理方法及系统 |
CN110381541A (zh) * | 2019-05-28 | 2019-10-25 | 中国电力科学研究院有限公司 | 一种基于强化学习的智能电网切片分配方法及装置 |
WO2020078552A1 (en) * | 2018-10-18 | 2020-04-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Link change decision-making using reinforcement learning based on tracked rewards and outcomes in a wireless communication system |
-
2020
- 2020-05-15 CN CN202010412340.0A patent/CN111953510B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107295609A (zh) * | 2016-03-30 | 2017-10-24 | 中兴通讯股份有限公司 | 网络切片处理方法及装置、终端、基站 |
WO2020078552A1 (en) * | 2018-10-18 | 2020-04-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Link change decision-making using reinforcement learning based on tracked rewards and outcomes in a wireless communication system |
CN109451534A (zh) * | 2018-12-17 | 2019-03-08 | 东南大学 | 一种用于5G系统会话管理中QoS流的动态控制方法和装置 |
CN109600262A (zh) * | 2018-12-17 | 2019-04-09 | 东南大学 | Urllc传输网络切片中资源自配置和自优化方法及装置 |
CN110149646A (zh) * | 2019-04-10 | 2019-08-20 | 中国电力科学研究院有限公司 | 一种基于时延和吞吐量的智能电网资源管理方法及系统 |
CN110381541A (zh) * | 2019-05-28 | 2019-10-25 | 中国电力科学研究院有限公司 | 一种基于强化学习的智能电网切片分配方法及装置 |
Non-Patent Citations (1)
Title |
---|
5G网络切片技术在智能电网的应用研究;夏旭等;《电子技术应用》;20200106(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111953510A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111953510B (zh) | 一种基于强化学习的智能电网切片无线资源分配方法及系统 | |
Wang et al. | Intelligent cognitive radio in 5G: AI-based hierarchical cognitive cellular networks | |
CN110381541B (zh) | 一种基于强化学习的智能电网切片分配方法及装置 | |
Sun et al. | Autonomous resource slicing for virtualized vehicular networks with D2D communications based on deep reinforcement learning | |
Qian et al. | Survey on reinforcement learning applications in communication networks | |
CN111093203B (zh) | 一种基于环境感知的服务功能链低成本智能部署方法 | |
CN111246586A (zh) | 一种基于遗传算法的分配智能电网资源的方法及系统 | |
Zhang et al. | Federated deep reinforcement learning for resource allocation in O-RAN slicing | |
CN109982434B (zh) | 无线资源调度一体智能化控制系统及方法、无线通信系统 | |
Salh et al. | Smart packet transmission scheduling in cognitive IoT systems: DDQN based approach | |
Zhou et al. | Learning from peers: Deep transfer reinforcement learning for joint radio and cache resource allocation in 5G RAN slicing | |
Gao et al. | Joint vehicular and static users multiplexing transmission with hierarchical modulation for throughput maximization in vehicular networks | |
Hlophe et al. | QoS provisioning and energy saving scheme for distributed cognitive radio networks using deep learning | |
CN104770036A (zh) | 用于实现无线系统中最佳效率-Jain公平性的系统和方法 | |
Salh et al. | Refiner GAN algorithmically enabled deep-RL for guaranteed traffic packets in real-time URLLC B5G communication systems | |
CN114885420A (zh) | 一种noma-mec系统中的用户分组和资源分配方法及装置 | |
Xing et al. | Task classification unloading algorithm for mobile edge computing in smart grid | |
Beshley et al. | Energy-efficient QoE-driven radio resource management method for 5G and beyond networks | |
Lotfi et al. | Attention-based open RAN slice management using deep reinforcement learning | |
Boutiba et al. | Optimal radio resource management in 5G NR featuring network slicing | |
WO2023222061A1 (zh) | 意图驱动的无线网络资源冲突解决方法及其装置 | |
Andrabi et al. | The model of conjoint servicing of real time traffic of surveillance cameras and elastic traffic devices with access control | |
Stan et al. | 5G radio resource allocation for communication and computation offloading | |
Elhattab et al. | Distributed device association for multiservice heterogeneous cellular networks with QoS provisioning | |
CN108540246B (zh) | 一种基于认知无线电的资源分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |