CN109195186A - 一种基于演化博弈的网络切片接入强化学习方法 - Google Patents

一种基于演化博弈的网络切片接入强化学习方法 Download PDF

Info

Publication number
CN109195186A
CN109195186A CN201811080690.0A CN201811080690A CN109195186A CN 109195186 A CN109195186 A CN 109195186A CN 201811080690 A CN201811080690 A CN 201811080690A CN 109195186 A CN109195186 A CN 109195186A
Authority
CN
China
Prior art keywords
network
network slice
strategy
slice access
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811080690.0A
Other languages
English (en)
Inventor
吴国民
盛子明
佘亚威
谭国平
蒋德富
田心阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201811080690.0A priority Critical patent/CN109195186A/zh
Publication of CN109195186A publication Critical patent/CN109195186A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于演化博弈的网络切片接入强化学习方法,包括以下步骤:S1、选择初始网络切片接入策略,得到网络初始状态;S2、计算初始状态下采用初始网络切片接入策略获得的累计回报Q值;S3、利用ε‑Greedy算法选择下一个阶段的网络切片策略;S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值;S5、重复步骤S3、S4,提高系统网络效用。本发明方法可以准确找到合适的网络切片接入用户终端,既保证了用户的使用体验,又为运营商提供了帮助,减低运营商运营成本,简化网络接入操作。

Description

一种基于演化博弈的网络切片接入强化学习方法
技术领域
本发明属于5G无线网络领域的网络切片选择技术领域,主要涉及到一种基于演化博弈的网络切片接入强化学习方法。
背景技术
现如今网络信息技术发展越来越快,随着5G网络商用在即,整个无线通信网络的运营进入了铁塔模式,运营商们将共享不断成立的铁塔公司的基站服务,根据性能要求最大化其承载负载。
网络切片技术作为5G网络提供的一种重要手段,引起了业界和学术界的极大兴趣。网络切片主要运用网络功能虚拟化和软件自定义网络技术构建一个用户需要的逻辑网络,该技术能够解决最大化网络容量的问题。网络切片技术可以针对不同网络用户的需求提供不同的网络服务功能,它还可以使网络拥有高安全性、低时延、高吞吐量等特性;另外,网络切片技术可以延长网络的运营周期,便于网络管理,有效降低运营商的投入成本。
目前针对网络切片技术的研究越来越多,一些国际专家提出了一种基于生物发育和进化机制来调节无线接入点的方法,针对多租户异构云无线接入网(H-CRAN)的网络切片研究也已经处于起步阶段,为了解决网络切片和访问控制的问题,部分专家提出基于三个步骤的启发式算法:频谱分配,访问控制,以及空间复用。在CRAN架构的公开空口和灵活SDN控制器上设计和实现网络切片的原型系统。但是网络切片技术还存在诸多实现难点,比如:如何有效地实现无线网络的资源虚拟化;如何接入不同的运营商切片网络切片等。
发明内容
针对多运营商网络接入问题,本发明提供了一种基于演化博弈的网络切片接入强化学习方法,通过分布式Q_Learning强化学习不断更新系统Q值,提高网络效用,使用户获得更好的体验。
为解决上述技术问题,本发明采用了如下技术手段:
一种基于演化博弈的网络切片接入强化学习方法,在多运营商无线网络场景下,用户终端可以选择单个或多个网络切片接入,所有的网络切片接入策略构成一个网络切片接入策略集合K,K={k1,...,ki,...,kT},ki表示选择网络切片i,ki∈K,i=1,...,T,T是网络切片总个数。本方法具体包括以下步骤:
S1、选择初始网络切片接入策略,得到网络初始状态;
S2、计算初始状态下采用初始网络切片接入策略获得的累计回报Q值;
S3、利用ε-Greedy算法选择下一个阶段的网络切片策略;
S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值;
S5、重复步骤S3、S4,提高系统的网络效用。
进一步的,通过基于演化博弈的复制动态分布式强化学习算法选择步骤S1中的初始网络切片接入策略,具体步骤如下:
S11、根据吞吐量和功耗计算网络切片接入后用户获得的期望效用
其中,是用户选择策略ki时获得的期望效用,是用户选择策略ki时对应的吞吐量,是用户选择策略ki时对应的功耗,参数λ用以对吞吐量进行归一化,参数μ用以对功耗值进行归一化;
S12、计算用户获得的平均效用Uk_i
其中,Pi是用户选择网络切片i的概率;
S13、基于演化博弈理论构建网络切片接入的复制动态方程,计算复制动态方程的均衡点;
S14、采用雅可比矩阵局部稳定性分析方法获得整个网络切片接入的演化均衡解。
进一步的,所述的步骤S13中的复制动态方程如下:
其中,t表示当前阶段,ε是策略调整因子,ε∈[0,1]。
进一步的,所述的步骤S4更新Q值的方程为:
其中,Qt+1(st+1,kj)表示t+1阶段状态st+1下采用策略kj获得的累积回报,Qt(st,ki)表示t阶段状态st下采用策略ki获得的累积回报,kj∈K,j=1,...,T,αt是学习速率,αt∈[0,1],rt是采用策略ki对应的短期回报,γ是折扣系数,γ∈[0,1],表示当前阶段对应的下一阶段中最大的Q值。
采用以上技术手段后可以获得以下优势:
本发明公开了一种基于演化博弈的网络切片接入强化学习方法,通过复制动态方程的进化均衡解获得网络切片初始策略,在初始策略和初始状态下通过分布式Q_Learning强化学习算法不断更新系统Q值,最大化网络切片接入得到的网络效用,使用户获得更好的体验。本发明方法可以准确找到合适的网络切片接入用户终端,既保证了用户的使用体验,又为运营商提供了帮助,减低运营商运营成本,简化网络接入操作。
附图说明
图1为本发明一种基于演化博弈的网络切片接入强化学习方法的流程示意图。
图2为本发明无线网络多个运营商的网络切片场景示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明:
一种基于演化博弈的网络切片接入强化学习方法,如图1所示,具体包括以下步骤:
S1、选择初始网络切片接入策略,得到网络初始状态;
S2、计算初始状态下采用初始网络切片接入策略获得的累计回报Q值;
S3、利用ε-Greedy算法选择下一个阶段的网络切片策略;
S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值;
S5、重复步骤S3、S4,提高系统的网络效用。
本发明无线网络多个运营商的网络切片场景如图2所示,为了方便下面的算法评估,用户终端随机分布在网络场景中且静止的,某个网络终端可以选择一个或多个网络切片来接入网络。当有T个网络切片可以选择,用户选择网络切片的策略集合为K,K={k1,...,ki,...,kT},ki表示选择网络切片i,ki∈K,i=1,...,T;比如,有网络切片1和网络切片2,用户选择网络的策略集合为K={网络切片1,网络切片2}。
本发明方法通过基于演化博弈的复制动态分布式强化学习算法选择初始网络切片接入策略,将所有的网络切片接入策略随机划分成两两一组进行比较,效果好的策略再进行比较,以此类推,知道找到效果最好的策略。下面通过网络切片1和网络切片2的对比来具体分析:
S11、根据吞吐量和功耗计算网络切片接入后用户获得的期望效用,用户选择网络切片1的期望效果为:
用户选择网络切片2的期望效果为:
其中,分别表示用户选择策略网络切片1和网络切片2时对应的吞吐量,分别表示用户选择网络切片1和网络切片2时对应的功耗,参数λ用以对吞吐量进行归一化,参数μ用以对功耗值进行归一化;
S12、在这一组对比计算中,用户选择网络切片1的概率为P1,用户选择网络切片2的概率为P2=1-P1,用户获得的平均效用为:
S13、基于演化博弈理论构建网络切片接入的复制动态方程,计算复制动态方程的均衡点;
用户选择网络切片1的复制动态方程为:
同理可知,用户选择切片2的复制动态方程为:
其中,t表示当前阶段,ε是策略调整因子,ε∈[0,1]。当时,可以得到均衡点(P1,P2):(0,1)和(1,0)。
S14、采用雅可比矩阵局部稳定性分析方法获得整个网络切片接入的演化均衡解;在复制动态方程中,当其均衡点等于局部渐进稳定点,则这个均衡点就是这个动态体系的进化均衡点ESS。
雅克比矩阵如下:
其中,
当均衡点同时满足行列式det(JAC)>0和迹tr(JAC)<0,该均衡点就是进化均衡点ESS,即满足:
在确定了初始网络切片接入策略之后,计算初始状态下采用初始网络切片接入策略获得的累计回报Q值,接着本发明方法利用ε-Greedy算法选择下一个阶段的网络切片策略,在该算法中,每个状态下有ε的概率随机选取行动,否则会选取当前状态下Q值较大的动作。
马尔可夫决策过程(MDP)是一个网络中的终端用户总体与提供服务的网络切片之间进行互相作用的循环过程。马尔可夫决策过程由一个五元组<S,A,P,R,γ>表示,其中,S表示网络中所有可能状态的集合,A表示所有用户针对当前状态选择动作的集合,P表示马尔可夫状态转变的概率,R表示网络效用改善的用户数量,γ是折扣系数,γ∈[0,1]。
在本发明方法中,通过基于MDP的分布式Q_Learning强化学习算法更新Q值,我们可以将网络切片的整体选择情况视为状态s,将整体选择策略视为行动a,将网络效益改善的用户数量视为奖励r,得到下列公式:
其中,Qt+1(st+1,kj)表示t+1阶段状态st+1下采用策略kj获得的累积回报,Qt(st,ki)表示t阶段状态st下采用策略ki获得的累积回报,kj∈K,j=1,...,T,αt是学习速率,αt∈[0,1],rt是采用策略ki对应的短期回报,表示当前阶段对应的下一阶段中最大的Q值。
上面结合附图对本发明的实施方式作了详细地说明,但是本发明并不局限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (4)

1.一种基于演化博弈的网络切片接入强化学习方法,其特征在于,包括以下步骤:
S1、选择初始网络切片接入策略,得到网络初始状态;
S2、计算初始状态下采用初始网络切片接入策略获得的累计回报Q值;
S3、利用ε-Greedy算法选择下一个阶段的网络切片策略;
S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值;
S5、重复步骤S3、S4,提高系统的网络效用。
2.根据权利要求1所述的一种基于演化博弈的网络切片接入强化学习方法,其特征在于,通过基于演化博弈的复制动态分布式强化学习算法选择步骤S1中的初始网络切片接入策略,具体步骤如下:
S11、根据吞吐量和功耗计算网络切片接入后用户获得的期望效用
其中,是用户选择策略ki时获得的期望效用,是用户选择策略ki时对应的吞吐量,是用户选择策略ki时对应的功耗,ki表示选择网络切片i,ki∈K,K={k1,...,ki,...,kT},i=1,...,T,T是网络切片总个数,参数λ用以对吞吐量进行归一化,参数μ用以对功耗值进行归一化;
S12、计算用户获得的平均效用Uk_i
其中,Pi是用户选择网络切片i的概率;
S13、基于演化博弈理论构建网络切片接入的复制动态方程,计算复制动态方程的均衡点;
S14、采用雅可比矩阵局部稳定性分析方法获得整个网络切片接入的演化均衡解。
3.根据权利要求2所述的一种基于演化博弈的网络切片接入强化学习方法,其特征在于,所述的步骤S13中的复制动态方程如下:
其中,t表示当前阶段,ε是策略调整因子,ε∈[0,1]。
4.根据权利要求1所述的一种基于演化博弈的网络切片接入强化学习方法,其特征在于,所述的步骤S4更新Q值的方程为:
其中,Qt+1(st+1,kj)表示t+1阶段状态st+1下采用策略kj获得的累积回报,Qt(st,ki)表示t阶段状态st下采用策略ki获得的累积回报,ki∈K,kj∈K,K={k1,...,ki,...,kT},i=1,...,T,j=1,...,T,αt是学习速率,αt∈[0,1],rt是采用策略ki对应的短期回报,γ是折扣系数,γ∈[0,1],表示当前阶段对应的下一阶段中最大的Q值。
CN201811080690.0A 2018-09-17 2018-09-17 一种基于演化博弈的网络切片接入强化学习方法 Pending CN109195186A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811080690.0A CN109195186A (zh) 2018-09-17 2018-09-17 一种基于演化博弈的网络切片接入强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811080690.0A CN109195186A (zh) 2018-09-17 2018-09-17 一种基于演化博弈的网络切片接入强化学习方法

Publications (1)

Publication Number Publication Date
CN109195186A true CN109195186A (zh) 2019-01-11

Family

ID=64911366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811080690.0A Pending CN109195186A (zh) 2018-09-17 2018-09-17 一种基于演化博弈的网络切片接入强化学习方法

Country Status (1)

Country Link
CN (1) CN109195186A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111277437A (zh) * 2020-01-17 2020-06-12 全球能源互联网研究院有限公司 一种智能电网的网络切片资源分配方法
CN112887999A (zh) * 2021-01-27 2021-06-01 重庆邮电大学 一种基于分布式a-c的智能接入控制与资源分配方法
WO2021254349A1 (zh) * 2020-06-15 2021-12-23 武汉理工大学 一种基于竞争博弈的多用户切片资源分配方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103888360A (zh) * 2014-03-19 2014-06-25 西安交通大学 基于贪婪算法的集合覆盖方法获取sdn网中服务节点的方法
US8909509B2 (en) * 2010-10-01 2014-12-09 Rockwell Automation Technologies, Inc. Dynamically selecting master clock to manage non-linear simulation clocks
CN105120468A (zh) * 2015-07-13 2015-12-02 华中科技大学 一种基于演化博弈论的动态无线网络选择方法
US20170318468A1 (en) * 2016-04-27 2017-11-02 Kabushiki Kaisha Toshiba Radio resource slicing in a radio access network
CN107644370A (zh) * 2017-09-29 2018-01-30 中国电力科学研究院 一种自增强学习的撮合竞价方法及系统
CN108512837A (zh) * 2018-03-16 2018-09-07 西安电子科技大学 一种基于攻防演化博弈的网络安全态势评估的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8909509B2 (en) * 2010-10-01 2014-12-09 Rockwell Automation Technologies, Inc. Dynamically selecting master clock to manage non-linear simulation clocks
CN103888360A (zh) * 2014-03-19 2014-06-25 西安交通大学 基于贪婪算法的集合覆盖方法获取sdn网中服务节点的方法
CN105120468A (zh) * 2015-07-13 2015-12-02 华中科技大学 一种基于演化博弈论的动态无线网络选择方法
US20170318468A1 (en) * 2016-04-27 2017-11-02 Kabushiki Kaisha Toshiba Radio resource slicing in a radio access network
CN107644370A (zh) * 2017-09-29 2018-01-30 中国电力科学研究院 一种自增强学习的撮合竞价方法及系统
CN108512837A (zh) * 2018-03-16 2018-09-07 西安电子科技大学 一种基于攻防演化博弈的网络安全态势评估的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
尹彦: "《知识型企业知识创新演化模型及其评价》", 31 May 2014 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111277437A (zh) * 2020-01-17 2020-06-12 全球能源互联网研究院有限公司 一种智能电网的网络切片资源分配方法
WO2021254349A1 (zh) * 2020-06-15 2021-12-23 武汉理工大学 一种基于竞争博弈的多用户切片资源分配方法
US11716748B2 (en) 2020-06-15 2023-08-01 Wuhan University Of Technology Multi-user slice resource allocation method based on competitive game
CN112887999A (zh) * 2021-01-27 2021-06-01 重庆邮电大学 一种基于分布式a-c的智能接入控制与资源分配方法
CN112887999B (zh) * 2021-01-27 2022-04-01 重庆邮电大学 一种基于分布式a-c的智能接入控制与资源分配方法

Similar Documents

Publication Publication Date Title
Apostolopoulos et al. Data offloading in UAV-assisted multi-access edge computing systems under resource uncertainty
Yu et al. Toward resource-efficient federated learning in mobile edge computing
Crawford et al. Parameter tuning of a choice-function based hyperheuristic using particle swarm optimization
CN103631657B (zh) 一种基于MapReduce的任务调度方法
CN104901989B (zh) 一种现场服务提供系统及方法
CN107172166A (zh) 面向工业智能化服务的云雾计算系统
CN109002358A (zh) 基于深度强化学习的移动终端软件自适应优化调度方法
US20180176103A1 (en) Cooperative coverage method of information perception for distributed network
CN109195186A (zh) 一种基于演化博弈的网络切片接入强化学习方法
CN103888371B (zh) 一种虚拟网络映射的方法和装置
CN103678004A (zh) 一种基于非监督特征学习的主机负载预测方法
CN109803292A (zh) 一种基于强化学习的多次级用户移动边缘计算的方法
CN109255546A (zh) 基于多启发信息蚁群系统的柔性作业车间调度方法
CN111611062A (zh) 云边协同分层计算方法及云边协同分层计算系统
CN107566535B (zh) 基于Web地图服务并发访问时序规则的自适应负载均衡方法
Han et al. Interference-aware online multicomponent service placement in edge cloud networks and its ai application
CN103699443A (zh) 任务分发方法及扫描器
CN107105455A (zh) 一种基于自回程感知的用户接入负载均衡方法
CN106465296A (zh) 用于在无线通信系统中实时传输功率控制的方法和设备
Jiang et al. Neural combinatorial optimization for energy-efficient offloading in mobile edge computing
Chen et al. Joint caching and computing service placement for edge-enabled IoT based on deep reinforcement learning
CN116166381A (zh) 一种多云管理平台中基于iaco算法的资源调度
US20240155356A1 (en) Resolution method for intent-based wireless network resource conflicts and apparatus thereof
CN114371925A (zh) 一种保障边云负载比的边云协同多任务调度方法和系统
CN109379747A (zh) 无线网络多控制器部署和资源分配方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190111

WD01 Invention patent application deemed withdrawn after publication