CN109195186A

CN109195186A - 一种基于演化博弈的网络切片接入强化学习方法

Info

Publication number: CN109195186A
Application number: CN201811080690.0A
Authority: CN
Inventors: 吴国民; 盛子明; 佘亚威; 谭国平; 蒋德富; 田心阳
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2019-01-11

Abstract

本发明公开了一种基于演化博弈的网络切片接入强化学习方法，包括以下步骤：S1、选择初始网络切片接入策略，得到网络初始状态；S2、计算初始状态下采用初始网络切片接入策略获得的累计回报Q值；S3、利用ε‑Greedy算法选择下一个阶段的网络切片策略；S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值；S5、重复步骤S3、S4，提高系统网络效用。本发明方法可以准确找到合适的网络切片接入用户终端，既保证了用户的使用体验，又为运营商提供了帮助，减低运营商运营成本，简化网络接入操作。

Description

一种基于演化博弈的网络切片接入强化学习方法

技术领域

本发明属于5G无线网络领域的网络切片选择技术领域，主要涉及到一种基于演化博弈的网络切片接入强化学习方法。

背景技术

现如今网络信息技术发展越来越快，随着5G网络商用在即，整个无线通信网络的运营进入了铁塔模式，运营商们将共享不断成立的铁塔公司的基站服务，根据性能要求最大化其承载负载。

网络切片技术作为5G网络提供的一种重要手段，引起了业界和学术界的极大兴趣。网络切片主要运用网络功能虚拟化和软件自定义网络技术构建一个用户需要的逻辑网络，该技术能够解决最大化网络容量的问题。网络切片技术可以针对不同网络用户的需求提供不同的网络服务功能，它还可以使网络拥有高安全性、低时延、高吞吐量等特性；另外，网络切片技术可以延长网络的运营周期，便于网络管理，有效降低运营商的投入成本。

目前针对网络切片技术的研究越来越多，一些国际专家提出了一种基于生物发育和进化机制来调节无线接入点的方法，针对多租户异构云无线接入网(H-CRAN)的网络切片研究也已经处于起步阶段，为了解决网络切片和访问控制的问题，部分专家提出基于三个步骤的启发式算法：频谱分配，访问控制，以及空间复用。在CRAN架构的公开空口和灵活SDN控制器上设计和实现网络切片的原型系统。但是网络切片技术还存在诸多实现难点，比如：如何有效地实现无线网络的资源虚拟化；如何接入不同的运营商切片网络切片等。

发明内容

针对多运营商网络接入问题，本发明提供了一种基于演化博弈的网络切片接入强化学习方法，通过分布式Q_Learning强化学习不断更新系统Q值，提高网络效用，使用户获得更好的体验。

为解决上述技术问题，本发明采用了如下技术手段：

一种基于演化博弈的网络切片接入强化学习方法，在多运营商无线网络场景下，用户终端可以选择单个或多个网络切片接入，所有的网络切片接入策略构成一个网络切片接入策略集合K，K＝{k₁,...,k_i,...,k_T}，k_i表示选择网络切片i，k_i∈K，i＝1,...,T，T是网络切片总个数。本方法具体包括以下步骤：

S1、选择初始网络切片接入策略，得到网络初始状态；

S2、计算初始状态下采用初始网络切片接入策略获得的累计回报Q值；

S3、利用ε-Greedy算法选择下一个阶段的网络切片策略；

S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值；

S5、重复步骤S3、S4，提高系统的网络效用。

进一步的，通过基于演化博弈的复制动态分布式强化学习算法选择步骤S1中的初始网络切片接入策略，具体步骤如下：

S11、根据吞吐量和功耗计算网络切片接入后用户获得的期望效用

其中，是用户选择策略k_i时获得的期望效用，是用户选择策略k_i时对应的吞吐量，是用户选择策略k_i时对应的功耗，参数λ用以对吞吐量进行归一化，参数μ用以对功耗值进行归一化；

S12、计算用户获得的平均效用U_{k_i}：

其中，P_i是用户选择网络切片i的概率；

S13、基于演化博弈理论构建网络切片接入的复制动态方程，计算复制动态方程的均衡点；

S14、采用雅可比矩阵局部稳定性分析方法获得整个网络切片接入的演化均衡解。

进一步的，所述的步骤S13中的复制动态方程如下：

其中，t表示当前阶段，ε是策略调整因子，ε∈[0,1]。

进一步的，所述的步骤S4更新Q值的方程为：

其中，Q_t+1(s_t+1,k_j)表示t+1阶段状态s_t+1下采用策略k_j获得的累积回报，Q_t(s_t,k_i)表示t阶段状态s_t下采用策略k_i获得的累积回报，k_j∈K，j＝1,...,T，α_t是学习速率，α_t∈[0,1]，r_t是采用策略k_i对应的短期回报，γ是折扣系数，γ∈[0,1]，表示当前阶段对应的下一阶段中最大的Q值。

采用以上技术手段后可以获得以下优势：

本发明公开了一种基于演化博弈的网络切片接入强化学习方法，通过复制动态方程的进化均衡解获得网络切片初始策略，在初始策略和初始状态下通过分布式Q_Learning强化学习算法不断更新系统Q值，最大化网络切片接入得到的网络效用，使用户获得更好的体验。本发明方法可以准确找到合适的网络切片接入用户终端，既保证了用户的使用体验，又为运营商提供了帮助，减低运营商运营成本，简化网络接入操作。

附图说明

图1为本发明一种基于演化博弈的网络切片接入强化学习方法的流程示意图。

图2为本发明无线网络多个运营商的网络切片场景示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明：

一种基于演化博弈的网络切片接入强化学习方法，如图1所示，具体包括以下步骤：

S1、选择初始网络切片接入策略，得到网络初始状态；

S3、利用ε-Greedy算法选择下一个阶段的网络切片策略；

S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值；

S5、重复步骤S3、S4，提高系统的网络效用。

本发明无线网络多个运营商的网络切片场景如图2所示，为了方便下面的算法评估，用户终端随机分布在网络场景中且静止的，某个网络终端可以选择一个或多个网络切片来接入网络。当有T个网络切片可以选择，用户选择网络切片的策略集合为K，K＝{k₁,...,k_i,...,k_T}，k_i表示选择网络切片i，k_i∈K，i＝1,...,T；比如，有网络切片1和网络切片2，用户选择网络的策略集合为K＝{网络切片1，网络切片2}。

本发明方法通过基于演化博弈的复制动态分布式强化学习算法选择初始网络切片接入策略，将所有的网络切片接入策略随机划分成两两一组进行比较，效果好的策略再进行比较，以此类推，知道找到效果最好的策略。下面通过网络切片1和网络切片2的对比来具体分析：

S11、根据吞吐量和功耗计算网络切片接入后用户获得的期望效用，用户选择网络切片1的期望效果为：

用户选择网络切片2的期望效果为：

其中，和分别表示用户选择策略网络切片1和网络切片2时对应的吞吐量，和分别表示用户选择网络切片1和网络切片2时对应的功耗，参数λ用以对吞吐量进行归一化，参数μ用以对功耗值进行归一化；

S12、在这一组对比计算中，用户选择网络切片1的概率为P₁，用户选择网络切片2的概率为P₂＝1-P₁，用户获得的平均效用为：

用户选择网络切片1的复制动态方程为：

同理可知，用户选择切片2的复制动态方程为：

其中，t表示当前阶段，ε是策略调整因子，ε∈[0,1]。当时，可以得到均衡点(P₁,P₂)：(0,1)和(1,0)。

S14、采用雅可比矩阵局部稳定性分析方法获得整个网络切片接入的演化均衡解；在复制动态方程中，当其均衡点等于局部渐进稳定点,则这个均衡点就是这个动态体系的进化均衡点ESS。

雅克比矩阵如下：

其中，

当均衡点同时满足行列式det(JAC)>0和迹tr(JAC)<0，该均衡点就是进化均衡点ESS，即满足：

在确定了初始网络切片接入策略之后，计算初始状态下采用初始网络切片接入策略获得的累计回报Q值，接着本发明方法利用ε-Greedy算法选择下一个阶段的网络切片策略，在该算法中，每个状态下有ε的概率随机选取行动，否则会选取当前状态下Q值较大的动作。

马尔可夫决策过程(MDP)是一个网络中的终端用户总体与提供服务的网络切片之间进行互相作用的循环过程。马尔可夫决策过程由一个五元组<S，A，P，R，γ>表示，其中，S表示网络中所有可能状态的集合，A表示所有用户针对当前状态选择动作的集合，P表示马尔可夫状态转变的概率，R表示网络效用改善的用户数量，γ是折扣系数，γ∈[0,1]。

在本发明方法中，通过基于MDP的分布式Q_Learning强化学习算法更新Q值，我们可以将网络切片的整体选择情况视为状态s，将整体选择策略视为行动a，将网络效益改善的用户数量视为奖励r，得到下列公式：

其中，Q_t+1(s_t+1,k_j)表示t+1阶段状态s_t+1下采用策略k_j获得的累积回报，Q_t(s_t,k_i)表示t阶段状态s_t下采用策略k_i获得的累积回报，k_j∈K，j＝1,...,T，α_t是学习速率，α_t∈[0,1]，r_t是采用策略k_i对应的短期回报，表示当前阶段对应的下一阶段中最大的Q值。

上面结合附图对本发明的实施方式作了详细地说明，但是本发明并不局限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于演化博弈的网络切片接入强化学习方法，其特征在于，包括以下步骤：

S1、选择初始网络切片接入策略，得到网络初始状态；

S3、利用ε-Greedy算法选择下一个阶段的网络切片策略；

S4、基于演化博弈的分布式Q_Learning强化学习算法更新Q值；

S5、重复步骤S3、S4，提高系统的网络效用。

2.根据权利要求1所述的一种基于演化博弈的网络切片接入强化学习方法，其特征在于，通过基于演化博弈的复制动态分布式强化学习算法选择步骤S1中的初始网络切片接入策略，具体步骤如下：

其中，是用户选择策略k_i时获得的期望效用，是用户选择策略k_i时对应的吞吐量，是用户选择策略k_i时对应的功耗，k_i表示选择网络切片i，k_i∈K，K＝{k₁,...,k_i,...,k_T}，i＝1,...,T，T是网络切片总个数，参数λ用以对吞吐量进行归一化，参数μ用以对功耗值进行归一化；

S12、计算用户获得的平均效用U_{k_i}：

其中，P_i是用户选择网络切片i的概率；

3.根据权利要求2所述的一种基于演化博弈的网络切片接入强化学习方法，其特征在于，所述的步骤S13中的复制动态方程如下：

其中，t表示当前阶段，ε是策略调整因子，ε∈[0,1]。

4.根据权利要求1所述的一种基于演化博弈的网络切片接入强化学习方法，其特征在于，所述的步骤S4更新Q值的方程为：

其中，Q_t+1(s_t+1,k_j)表示t+1阶段状态s_t+1下采用策略k_j获得的累积回报，Q_t(s_t,k_i)表示t阶段状态s_t下采用策略k_i获得的累积回报，k_i∈K，k_j∈K，K＝{k₁,...,k_i,...,k_T}，i＝1,...,T，j＝1,...,T，α_t是学习速率，α_t∈[0,1]，r_t是采用策略k_i对应的短期回报，γ是折扣系数，γ∈[0,1]，表示当前阶段对应的下一阶段中最大的Q值。