CN113242589A

CN113242589A - 一种基于Nash Q-Learning的多智能异构网络选择方法

Info

Publication number: CN113242589A
Application number: CN202110229667.9A
Authority: CN
Inventors: 卢为党; 李晨凯; 翁丽霞; 曹江; 王双双; 孔德照; 高原
Original assignee: Zhejiang University of Technology ZJUT; Research Institute of War of PLA Academy of Military Science
Current assignee: Zhejiang University of Technology ZJUT; Research Institute of War of PLA Academy of Military Science
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-08-10

Abstract

一种基于Nash Q‑Learning的多智能异构网络选择方法，在该方法中，网络和分属于不同业务类型的用户朝目标区域移动，各个用户根据候选网络的覆盖情况和自身的业务需求通过基于NashQ‑Learning的方法选择合适的网络。本发明在Nash Q‑Learning算法的回报函数中同时考虑了用户侧和网络侧的性能，改进了回报函数的设置，将用户侧的时延和传输速率需求和网络侧的负载均衡需求综合考虑作为Nash Q‑Learning中即时回报的相关参数，可以根据不同业务类型的用户的不同需求选择合适的网络，在满足用户需求的同时控制三个网络的负载均衡度，充分利用异构无线网络的资源。

Description

一种基于Nash Q-Learning的多智能异构网络选择方法

技术领域

本发明属于无线通信领域中的异构网络选择技术领域，尤其是一种基于强化学习的网络选择方法。

背景技术

异构网络作为5G移动通信系统的关键技术之一，要充分发挥其功效，必须要解决的是异构网络中不同类型网络的融合问题。网络选择是异构网络融合的关键一步。在异构网络环境中，用户要能够根据其需求和偏好始终连接到最佳无线网络。在异构网络的选择中需要考虑不同接入网络之间的差异，因此需要考虑的因素很多，如接收信号的强度、数据传输速率、覆盖范围、实时性和用户的移动性等，这些都是从用户角度考虑的。如果从网络角度考虑，就会涉及到系统的容量，网络的负载以及阻塞率等。

在目前提出的异构网络选择算法中，由于研究和优化目标的不同，有多种针对性不同的算法。现有的网络选择方法包括基于多属性决策的网络选择算法和基于强化学习的网络选择算法等，这些方法都只考虑了用户和网络静止且用户都能被所有网络覆盖的情况，并且只侧重了用户和网络其中一侧的性能。

发明内容

针对现有的方法考虑的网络选择模型单一，优化的性能侧重在用户或网络一侧的问题，本发明提供了一种基于Nash Q-Learning的多智能体异构网络选择算法，该算法能够同时兼顾用户端和网络端性能。通过考虑用户不同业务接入偏好和网络的负载均衡，将用户侧的时延和传输速率需求与网络侧的负载均衡需求综合考虑作为即时回报的相关参数，将异构网络的选择过程建模为多个智能体代理，通过基于Nash Q-Learning的算法进行学习，训练分析得出异构网络选择接入的模型。

为了解决上述技术问题，本发明提供如下的技术方案：

一种基于Nash Q-Learning的多智能异构网络选择算法，网络包含5G客户终端设备(5G Customer Premise Equipment,5G CPE)网络、 5G无人机网络和Wi-Fi网络，其中Wi-Fi网络和5G无人机网络搭载在同一架无人机上，5G CPE网络由地面上的一个用户携带，网络中包含了M个用户，N种业务类型；

各个网络的覆盖范围有限，且覆盖区域随着时间变化，各个用户能被覆盖到的网络也在实时发生变化，用户从当前时刻其能接入的网络中选择网络接入，每个用户一次最多只能接入一个网络，此外，每个网络设有一个其能接入的最大负载值，分别表示为TL₁,TL₂,TL₃，当网络已接入的用户数达到其负载上限时，别的用户将无法再接入该网络，所述基于Nash Q-Learning的多智能异构网络选择方法包括以下步骤：

1)网络中属于同一业务类型的用户视为同一智能体，N种业务类型对应N个智能体，各智能体中用户随机排成一个队列。智能体根据环境的情况判断当前处于状态空间S中的哪一状态，并根据当前所处的状态从动作空间A中选择一个动作执行，得到环境给出的回报R，智能体根据得到的回报更新Q值表，以优化未来的动作选择；

2)在每个智能体中创建N个Q值表，并将它们的初始值设为0。给出参数学习率α，折扣因子β，贪婪算法探索率ε的值；

3)各智能体队列中第一个用户首先判断自身所处位置的网络覆盖情况，然后根据当前状态s按照贪婪算法，以ε的概率随机地选择动作，以1-ε的概率用基于Nash Q-Learning的方法选择动作，智能体根据环境给出的即时回报，更新Q值表，并移除队列中的第一个用户；

4)循环至步骤3)，直至各智能体队列中的所有用户都已完成网络选择；

进一步，所述步骤1)中，智能体的状态空间S＝{l₁,l₂,l₃}，分别为三个网络的负载占用率经过离散量化后的值，其离散量化方法为负载占用率在[0,0.5]内时量化为1，在(0.5,0.75]内时量化为2，在(0.75,0.875] 内时量化为3，在(0.875,1]内时量化为4；

智能体的动作空间为A＝{a_i,a_i∈{1,2,3}}，其中，i∈{1,2,...,N}，a_i＝1 表示智能体i接入5G客户终端设备网络，a_i＝2表示智能体i接入5G 无人机网络，a_i＝3表示智能体i接入Wi-Fi网络；

智能体i的回报函数定义为

R_i＝ω_id+θ_ie+μf，i∈{1,2,...,N} (1)

其中，ω_i和θ_i分别表示智能体i对时延和传输速率的偏好，μ表示系统对网络负载均衡的偏好，d，e，f分别表示属性规范化处理后的时延，速率，负载占用率方差；

效益型属性和成本型属性的规范化公式不同，其规范化公式分别为：

再进一步，所述步骤3)中，在Nash Q-Learning算法中，与环境进行交互的是多个智能体的联合动作，若系统中共有N个智能体，N 个智能体不分先后地在同一时刻做出各自的动作，这一时刻的联合动作定义为(a₁,a₂,...,a_N)，在多智能体场景下的最优策略是实现智能体整体策略的Nash均衡，Nash均衡策略表示为

满足：

其中V为状态-动作对的价值函数，表示在Nash均衡点处，每个智能体的策略是在其他智能体策略下的最优策略；

每个智能体都存有N个Q值表，每个Q值表对应当前系统中的一个智能体，各智能体根据以下公式更新Q值：

其中，

s′是智能体在环境状态s下执行联合动作(a₁,a₂,...,a_N)后环境转移至的状态，π_i,i＝1,2,..,N是智能体i在状态s′下执行的动作，N个智能体的动作π₁(s′)…π_N(s′)为在状态s′下满足Nash均衡的联合动作，

为t时刻智能体i在转移状态s′下执行满足Nash均衡的联合动作后的收益。

本发明的技术构思为：现有的异构网络选择算法考虑的网络选择模型单一，且优化的性能侧重在用户或网络一侧，缺少对网络覆盖情况对网络选择影响的研究以及对用户和网络两侧性能的兼顾。

本发明提供了一种基于Nash Q-Learning的多智能体异构选择算法，该算法能够同时兼顾用户端和网络端性能。通过考虑用户不同业务接入偏好和网络的负载均衡，将用户侧的时延和传输速率需求与网络侧的负载均衡需求综合考虑作为即时回报的相关参数，将异构网络的选择过程建模为多个智能体代理，不断学习最终得到异构网络选择的策略。

本发明的有益效果主要表现在：在用户和网络在移动的情况下，不同业务类型的用户可以根据自身对属性的不同需求选择合适的网络，并且可以在满足业务需求的同时控制三个网络间的负载均衡度。

附图说明

图1是本发明方法的异构网络选择的系统模型示意图；

图2是本发明中考虑的三种业务类型对各个属性的偏好值；

图3是本发明在学习过程中三种业务类型选择三种网络比例的变化图，其中(a)表示话音类业务选择三种网络的比例变化，(b)表示视频类业务选择三种网络的比例变化，(c)表示文本类业务选择三种网络的比例变化；

图4是本发明在不同负载占用率偏好值下的网络负载占用率仿真图；

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种兼顾用户端性能和网络端性能的基于Nash Q-Learning的多智能异构网络选择方法，是基于移动状态下的异构网络选择模型实现的，网络包含5G客户终端设备(5G Customer Premise Equipment,5G CPE)网络、5G无人机网络和Wi-Fi网络，其中 Wi-Fi网络和5G无人机网络搭载在同一架无人机上，5G CPE网络则由地面上的一名成员携带，网络中包含了M个用户，N种业务类型；

本实施方式的方法中，异构网络选择过程建模为基于Nash Q-Learning的多智能体代理。网络中属于同一业务类型的用户视为同一智能体，各智能体中用户随机排成一个队列。智能体根据环境的情况判断当前处于状态空间S中的哪一状态，并根据当前所处的状态从动作空间A中选择一个动作执行，得到环境给出的回报R。智能体根据得到的回报更新Q值表，以优化未来的动作选择；

M个用户初始位置均匀分布在给定区域内，在此区域外存在一个目标区域，用户移动的目标点随机分布在目标区域内，M个用户朝着各自目标点的方向以一定的速度移动，搭载有5G网络和Wi-Fi网络的无人机和携带5G CPE的成员同样朝着目标区域以一定的速度移动。

将三个网络的负载占用率按照[0,0.5]、(0.5,0.75]、(0.75,0.875]、 (0.875,1]四个等级进行离散量化，分别对应量化值1、2、3、4，得到三个网络负载占用率经过离散量化后的值l₁、l₂和l₃。智能体的状态空间S＝{l₁,l₂,l₃}，表示三个网络经过离散量化后的负载占用率值。

在每个智能体中创建N个Q值表，并将它们的初始值均设为0。给定算法中的学习率α，折扣因子β，贪婪算法探索率ε三个参数的值。

各智能体队列中第一个用户首先判断自身所处位置的网络覆盖情况，然后使用贪婪算法，以ε的概率随机地选择动作，以1-ε的概率用基于Nash Q-Learning的方法选择动作。

智能体的动作空间为A＝{a_i,a_i∈{1,2,3}}，其中，i∈{1,2,...,N}，a_i＝1 表示智能体i接入5G CPE网络，a_i＝2表示智能体i接入5G无人机网络，a_i＝3表示智能体i接入Wi-Fi网络。

在多智能体场景下的最优策略是实现智能体整体策略的Nash均衡。Nash均衡策略表示为

满足：

其中V为状态-动作对的价值函数，表示在Nash均衡点处，每个智能体的策略是在其他智能体策略下的最优策略。

智能体在执行动作后，会得到环境给出的即时回报，智能体i的回报函数定义为

R_i＝ω_id+θ_ie+μf，i∈{1,2,...,N} (1)

其中，ω_i和θ_i分别表示智能体i对时延和传输速率的偏好，μ表示系统对网络负载均衡的偏好。d，e，f分别表示属性规范化处理后的时延，速率，负载占用率方差。

效益型属性和成本型属性的规范化公式不同，分别为：

每个智能体都存有N个Q值表，每个Q值表对应当前系统中的一个智能体，各智能体利用得到的即时回报，根据以下公式更新Q值：

其中，

s′是智能体在环境状态s下执行联合动作(a₁,a₂,...,a_N)后环境转移至的状态。π_i,i＝1,2,..,N是智能体i在状态s′下执行的动作。N个智能体的动作π₁(s′)…π_N(s′)为在状态s′下满足Nash均衡的联合动作。

更新完Q值之后，移除各个队列当中第一个用户，开始下一次的网络选择和学习过程。

本实施方法中，考虑了用户和网络的移动性，以及移动性带来的对网络覆盖情况的影响，利用基于Nash Q-Learning的多智能体异构选择算法，将用户侧的时延和传输速率需求与网络侧的负载均衡需求综合考虑作为即时回报的相关参数，不断学习最终得到异构网络选择的策略。在用户和网络在移动的情况下，不同业务类型的用户可以根据自身对属性的不同需求选择合适的网络，并且可以在满足业务需求的同时控制三个网络间的负载均衡度。

在本实施方式中，用户随机均匀分布在400m×400m的正方形区域内，目标区域为一个100m×100m的正方形区域。M个用户从以朝着各自目标点的方向为中心的90°方向区间内随机选择一个方向以3～6m/s 的速度移动。5G CPE、5G无人机和Wi-Fi三个网络的覆盖半径分别为150m、300m和100m。三个网络中心的移动速度均为3～6m/s。网络的负载上限{TL₁,TL₂,TL₃}设为{25,25,25}。学习率α设为0.1，折扣因子β设为0.8，探索率ε设为0.4。业务类型数N为3，分别是话音类业务、视频类业务和文本类业务。假设每种业务类型的用户数相等，均为M/3。在计算回报r时，各种业务类型对回报参考属性(负载占用率方差、时延、传输速率)的偏好值不同，具体的偏好值如图2所示。根据图中的偏好值可算出对应的权重值。5GCPE的时延为 20～45ms，传输速率为1.2～1.4Gbps。5G无人机的时延为10～30ms，传输速率为1.4～1.6Gbps。5G CPE的时延为40～70ms，传输速率为 1.7～1.9Gbps。图3显示了各业务类型选择三种网络的比例变化图。图 4显示了随着负载占用率方差偏好值的增加，三个网络负载占用率的差距逐渐减小，负载均衡的效果逐渐提升。根据图4，用户根据需求选择合适的负载占用率方差偏好值。

Claims

1.一种基于Nash Q-Learning的多智能异构网络选择方法，异构网络包含5G客户终端设备网络、5G无人机网络和Wi-Fi网络，其中Wi-Fi网络和5G无人机网络搭载在同一架无人机上，5G客户终端设备网络由地面上的一名成员携带，网络中包含M个用户，N种业务类型；

用户从当前时刻其能接入的网络中选择网络接入，每个用户一次最多只能接入一个网络；每个网络设有一个其能接入的最大负载值，分别表示为TL₁,TL₂,TL₃，当网络已接入的用户数达到其负载上限时，别的用户将无法再接入该网络；

其特征在于，所述基于Nash Q-Learning的多智能异构网络选择方法包括以下步骤：

1)网络中属于同一业务类型的用户视为同一智能体，N种业务类型对应N个智能体，各智能体中用户随机排成一个队列，智能体根据环境的情况判断当前处于状态空间S中的哪一状态，并根据当前所处的状态从动作空间A中选择一个动作执行，得到环境给出的回报R，智能体根据得到的回报更新Q值表，以优化未来的动作选择；

2)在每个智能体中创建N个Q值表，并将它们的初始值设为0，给出参数学习率α，折扣因子β，贪婪算法探索率ε的值；

4)循环至步骤3)，直至各智能体队列中的所有用户都已完成网络选择。

2.如权利要求1所述的基于Nash Q-Learning的多智能异构网络选择算法，其特征在于：所述步骤1)中，智能体的状态空间S＝{l₁,l₂,l₃}，分别为三个网络的负载占用率经过离散量化后的值，其离散量化方法为负载占用率在[0,0.5]内时量化为1，在(0.5,0.75]内时量化为2，在(0.75,0.875]内时量化为3，在(0.875,1]内时量化为4；

智能体的动作空间为A＝{a_i,a_i∈{1,2,3}}，其中，i∈{1,2,...,N}，a_i＝1表示智能体i接入5G客户终端设备网络，a_i＝2表示智能体i接入5G无人机网络，a_i＝3表示智能体i接入Wi-Fi网络；

智能体i的回报函数定义为

R_i＝ω_id+θ_ie+μf，i∈{1,2,...,N} (1)

3.如权利要求1或2所述的基于Nash Q-Learning的多智能异构网络选择算法，其特征在于：所述步骤3)中，在Nash Q-Learning算法中，与环境进行交互的是多个智能体的联合动作，若系统中共有N个智能体，N个智能体不分先后地在同一时刻做出各自的动作，这一时刻的联合动作定义为(a₁,a₂,...,a_N)，在多智能体场景下的最优策略是实现智能体整体策略的Nash均衡，Nash均衡策略表示为

满足：

其中，