CN113242589A - 一种基于Nash Q-Learning的多智能异构网络选择方法 - Google Patents

一种基于Nash Q-Learning的多智能异构网络选择方法 Download PDF

Info

Publication number
CN113242589A
CN113242589A CN202110229667.9A CN202110229667A CN113242589A CN 113242589 A CN113242589 A CN 113242589A CN 202110229667 A CN202110229667 A CN 202110229667A CN 113242589 A CN113242589 A CN 113242589A
Authority
CN
China
Prior art keywords
network
agent
nash
action
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110229667.9A
Other languages
English (en)
Inventor
卢为党
李晨凯
翁丽霞
曹江
王双双
孔德照
高原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Research Institute of War of PLA Academy of Military Science
Original Assignee
Zhejiang University of Technology ZJUT
Research Institute of War of PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT, Research Institute of War of PLA Academy of Military Science filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110229667.9A priority Critical patent/CN113242589A/zh
Publication of CN113242589A publication Critical patent/CN113242589A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • H04W48/18Selecting a network or a communication service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • H04W48/02Access restriction performed under specific conditions
    • H04W48/06Access restriction performed under specific conditions based on traffic conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)

Abstract

一种基于Nash Q‑Learning的多智能异构网络选择方法,在该方法中,网络和分属于不同业务类型的用户朝目标区域移动,各个用户根据候选网络的覆盖情况和自身的业务需求通过基于NashQ‑Learning的方法选择合适的网络。本发明在Nash Q‑Learning算法的回报函数中同时考虑了用户侧和网络侧的性能,改进了回报函数的设置,将用户侧的时延和传输速率需求和网络侧的负载均衡需求综合考虑作为Nash Q‑Learning中即时回报的相关参数,可以根据不同业务类型的用户的不同需求选择合适的网络,在满足用户需求的同时控制三个网络的负载均衡度,充分利用异构无线网络的资源。

Description

一种基于Nash Q-Learning的多智能异构网络选择方法
技术领域
本发明属于无线通信领域中的异构网络选择技术领域,尤其是一种基于强化学习的网络选择方法。
背景技术
异构网络作为5G移动通信系统的关键技术之一,要充分发挥其功效,必须要解决的是异构网络中不同类型网络的融合问题。网络选择是异构网络融合的关键一步。在异构网络环境中,用户要能够根据其需求和偏好始终连接到最佳无线网络。在异构网络的选择中需要考虑不同接入网络之间的差异,因此需要考虑的因素很多,如接收信号的强度、数据传输速率、覆盖范围、实时性和用户的移动性等,这些都是从用户角度考虑的。如果从网络角度考虑,就会涉及到系统的容量,网络的负载以及阻塞率等。
在目前提出的异构网络选择算法中,由于研究和优化目标的不同,有多种针对性不同的算法。现有的网络选择方法包括基于多属性决策的网络选择算法和基于强化学习的网络选择算法等,这些方法都只考虑了用户和网络静止且用户都能被所有网络覆盖的情况,并且只侧重了用户和网络其中一侧的性能。
发明内容
针对现有的方法考虑的网络选择模型单一,优化的性能侧重在用户或网络一侧的问题,本发明提供了一种基于Nash Q-Learning的多智能体异构网络选择算法,该算法能够同时兼顾用户端和网络端性能。通过考虑用户不同业务接入偏好和网络的负载均衡,将用户侧的时延和传输速率需求与网络侧的负载均衡需求综合考虑作为即时回报的相关参数,将异构网络的选择过程建模为多个智能体代理,通过基于Nash Q-Learning的算法进行学习,训练分析得出异构网络选择接入的模型。
为了解决上述技术问题,本发明提供如下的技术方案:
一种基于Nash Q-Learning的多智能异构网络选择算法,网络包含5G客户终端设备(5G Customer Premise Equipment,5G CPE)网络、 5G无人机网络和Wi-Fi网络,其中Wi-Fi网络和5G无人机网络搭载在同一架无人机上,5G CPE网络由地面上的一个用户携带,网络中包含了M个用户,N种业务类型;
各个网络的覆盖范围有限,且覆盖区域随着时间变化,各个用户能被覆盖到的网络也在实时发生变化,用户从当前时刻其能接入的网络中选择网络接入,每个用户一次最多只能接入一个网络,此外,每个网络设有一个其能接入的最大负载值,分别表示为TL1,TL2,TL3,当网络已接入的用户数达到其负载上限时,别的用户将无法再接入该网络,所述基于Nash Q-Learning的多智能异构网络选择方法包括以下步骤:
1)网络中属于同一业务类型的用户视为同一智能体,N种业务类型对应N个智能体,各智能体中用户随机排成一个队列。智能体根据环境的情况判断当前处于状态空间S中的哪一状态,并根据当前所处的状态从动作空间A中选择一个动作执行,得到环境给出的回报R,智能体根据得到的回报更新Q值表,以优化未来的动作选择;
2)在每个智能体中创建N个Q值表,并将它们的初始值设为0。给出参数学习率α,折扣因子β,贪婪算法探索率ε的值;
3)各智能体队列中第一个用户首先判断自身所处位置的网络覆盖情况,然后根据当前状态s按照贪婪算法,以ε的概率随机地选择动作,以1-ε的概率用基于Nash Q-Learning的方法选择动作,智能体根据环境给出的即时回报,更新Q值表,并移除队列中的第一个用户;
4)循环至步骤3),直至各智能体队列中的所有用户都已完成网络选择;
进一步,所述步骤1)中,智能体的状态空间S={l1,l2,l3},分别为三个网络的负载占用率经过离散量化后的值,其离散量化方法为负载占用率在[0,0.5]内时量化为1,在(0.5,0.75]内时量化为2,在(0.75,0.875] 内时量化为3,在(0.875,1]内时量化为4;
智能体的动作空间为A={ai,ai∈{1,2,3}},其中,i∈{1,2,...,N},ai=1 表示智能体i接入5G客户终端设备网络,ai=2表示智能体i接入5G 无人机网络,ai=3表示智能体i接入Wi-Fi网络;
智能体i的回报函数定义为
Ri=ωid+θie+μf,i∈{1,2,...,N} (1)
其中,ωi和θi分别表示智能体i对时延和传输速率的偏好,μ表示系统对网络负载均衡的偏好,d,e,f分别表示属性规范化处理后的时延,速率,负载占用率方差;
效益型属性和成本型属性的规范化公式不同,其规范化公式分别为:
Figure RE-GDA0003152042630000031
Figure RE-GDA0003152042630000032
再进一步,所述步骤3)中,在Nash Q-Learning算法中,与环境进行交互的是多个智能体的联合动作,若系统中共有N个智能体,N 个智能体不分先后地在同一时刻做出各自的动作,这一时刻的联合动作定义为(a1,a2,...,aN),在多智能体场景下的最优策略是实现智能体整体策略的Nash均衡,Nash均衡策略表示为
Figure RE-GDA0003152042630000033
满足:
Figure RE-GDA0003152042630000041
其中V为状态-动作对的价值函数,表示在Nash均衡点处,每个智能体的策略是在其他智能体策略下的最优策略;
每个智能体都存有N个Q值表,每个Q值表对应当前系统中的一个智能体,各智能体根据以下公式更新Q值:
Figure RE-GDA0003152042630000042
其中,
Figure RE-GDA0003152042630000043
s′是智能体在环境状态s下执行联合动作(a1,a2,...,aN)后环境转移至的状态,πi,i=1,2,..,N是智能体i在状态s′下执行的动作,N个智能体的动作π1(s′)…πN(s′)为在状态s′下满足Nash均衡的联合动作,
Figure RE-GDA0003152042630000044
为t时刻智能体i在转移状态s′下执行满足Nash均衡的联合动作后的收益。
本发明的技术构思为:现有的异构网络选择算法考虑的网络选择模型单一,且优化的性能侧重在用户或网络一侧,缺少对网络覆盖情况对网络选择影响的研究以及对用户和网络两侧性能的兼顾。
本发明提供了一种基于Nash Q-Learning的多智能体异构选择算法,该算法能够同时兼顾用户端和网络端性能。通过考虑用户不同业务接入偏好和网络的负载均衡,将用户侧的时延和传输速率需求与网络侧的负载均衡需求综合考虑作为即时回报的相关参数,将异构网络的选择过程建模为多个智能体代理,不断学习最终得到异构网络选择的策略。
本发明的有益效果主要表现在:在用户和网络在移动的情况下,不同业务类型的用户可以根据自身对属性的不同需求选择合适的网络,并且可以在满足业务需求的同时控制三个网络间的负载均衡度。
附图说明
图1是本发明方法的异构网络选择的系统模型示意图;
图2是本发明中考虑的三种业务类型对各个属性的偏好值;
图3是本发明在学习过程中三种业务类型选择三种网络比例的变化图,其中(a)表示话音类业务选择三种网络的比例变化,(b)表示视频类业务选择三种网络的比例变化,(c)表示文本类业务选择三种网络的比例变化;
图4是本发明在不同负载占用率偏好值下的网络负载占用率仿真图;
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种兼顾用户端性能和网络端性能的基于Nash Q-Learning的多智能异构网络选择方法,是基于移动状态下的异构网络选择模型实现的,网络包含5G客户终端设备(5G Customer Premise Equipment,5G CPE)网络、5G无人机网络和Wi-Fi网络,其中 Wi-Fi网络和5G无人机网络搭载在同一架无人机上,5G CPE网络则由地面上的一名成员携带,网络中包含了M个用户,N种业务类型;
本实施方式的方法中,异构网络选择过程建模为基于Nash Q-Learning的多智能体代理。网络中属于同一业务类型的用户视为同一智能体,各智能体中用户随机排成一个队列。智能体根据环境的情况判断当前处于状态空间S中的哪一状态,并根据当前所处的状态从动作空间A中选择一个动作执行,得到环境给出的回报R。智能体根据得到的回报更新Q值表,以优化未来的动作选择;
M个用户初始位置均匀分布在给定区域内,在此区域外存在一个目标区域,用户移动的目标点随机分布在目标区域内,M个用户朝着各自目标点的方向以一定的速度移动,搭载有5G网络和Wi-Fi网络的无人机和携带5G CPE的成员同样朝着目标区域以一定的速度移动。
将三个网络的负载占用率按照[0,0.5]、(0.5,0.75]、(0.75,0.875]、 (0.875,1]四个等级进行离散量化,分别对应量化值1、2、3、4,得到三个网络负载占用率经过离散量化后的值l1、l2和l3。智能体的状态空间S={l1,l2,l3},表示三个网络经过离散量化后的负载占用率值。
在每个智能体中创建N个Q值表,并将它们的初始值均设为0。给定算法中的学习率α,折扣因子β,贪婪算法探索率ε三个参数的值。
各智能体队列中第一个用户首先判断自身所处位置的网络覆盖情况,然后使用贪婪算法,以ε的概率随机地选择动作,以1-ε的概率用基于Nash Q-Learning的方法选择动作。
智能体的动作空间为A={ai,ai∈{1,2,3}},其中,i∈{1,2,...,N},ai=1 表示智能体i接入5G CPE网络,ai=2表示智能体i接入5G无人机网络,ai=3表示智能体i接入Wi-Fi网络。
在多智能体场景下的最优策略是实现智能体整体策略的Nash均衡。Nash均衡策略表示为
Figure RE-GDA0003152042630000061
满足:
Figure RE-GDA0003152042630000062
其中V为状态-动作对的价值函数,表示在Nash均衡点处,每个智能体的策略是在其他智能体策略下的最优策略。
智能体在执行动作后,会得到环境给出的即时回报,智能体i的回报函数定义为
Ri=ωid+θie+μf,i∈{1,2,...,N} (1)
其中,ωi和θi分别表示智能体i对时延和传输速率的偏好,μ表示系统对网络负载均衡的偏好。d,e,f分别表示属性规范化处理后的时延,速率,负载占用率方差。
效益型属性和成本型属性的规范化公式不同,分别为:
Figure RE-GDA0003152042630000071
Figure RE-GDA0003152042630000072
每个智能体都存有N个Q值表,每个Q值表对应当前系统中的一个智能体,各智能体利用得到的即时回报,根据以下公式更新Q值:
Figure RE-GDA0003152042630000073
其中,
Figure RE-GDA0003152042630000074
s′是智能体在环境状态s下执行联合动作(a1,a2,...,aN)后环境转移至的状态。πi,i=1,2,..,N是智能体i在状态s′下执行的动作。N个智能体的动作π1(s′)…πN(s′)为在状态s′下满足Nash均衡的联合动作。
Figure RE-GDA0003152042630000075
为t时刻智能体i在转移状态s′下执行满足Nash均衡的联合动作后的收益。
更新完Q值之后,移除各个队列当中第一个用户,开始下一次的网络选择和学习过程。
本实施方法中,考虑了用户和网络的移动性,以及移动性带来的对网络覆盖情况的影响,利用基于Nash Q-Learning的多智能体异构选择算法,将用户侧的时延和传输速率需求与网络侧的负载均衡需求综合考虑作为即时回报的相关参数,不断学习最终得到异构网络选择的策略。在用户和网络在移动的情况下,不同业务类型的用户可以根据自身对属性的不同需求选择合适的网络,并且可以在满足业务需求的同时控制三个网络间的负载均衡度。
在本实施方式中,用户随机均匀分布在400m×400m的正方形区域内,目标区域为一个100m×100m的正方形区域。M个用户从以朝着各自目标点的方向为中心的90°方向区间内随机选择一个方向以3~6m/s 的速度移动。5G CPE、5G无人机和Wi-Fi三个网络的覆盖半径分别为150m、300m和100m。三个网络中心的移动速度均为3~6m/s。网络的负载上限{TL1,TL2,TL3}设为{25,25,25}。学习率α设为0.1,折扣因子β设为0.8,探索率ε设为0.4。业务类型数N为3,分别是话音类业务、视频类业务和文本类业务。假设每种业务类型的用户数相等,均为M/3。在计算回报r时,各种业务类型对回报参考属性(负载占用率方差、时延、传输速率)的偏好值不同,具体的偏好值如图2所示。根据图中的偏好值可算出对应的权重值。5GCPE的时延为 20~45ms,传输速率为1.2~1.4Gbps。5G无人机的时延为10~30ms,传输速率为1.4~1.6Gbps。5G CPE的时延为40~70ms,传输速率为 1.7~1.9Gbps。图3显示了各业务类型选择三种网络的比例变化图。图 4显示了随着负载占用率方差偏好值的增加,三个网络负载占用率的差距逐渐减小,负载均衡的效果逐渐提升。根据图4,用户根据需求选择合适的负载占用率方差偏好值。

Claims (3)

1.一种基于Nash Q-Learning的多智能异构网络选择方法,异构网络包含5G客户终端设备网络、5G无人机网络和Wi-Fi网络,其中Wi-Fi网络和5G无人机网络搭载在同一架无人机上,5G客户终端设备网络由地面上的一名成员携带,网络中包含M个用户,N种业务类型;
用户从当前时刻其能接入的网络中选择网络接入,每个用户一次最多只能接入一个网络;每个网络设有一个其能接入的最大负载值,分别表示为TL1,TL2,TL3,当网络已接入的用户数达到其负载上限时,别的用户将无法再接入该网络;
其特征在于,所述基于Nash Q-Learning的多智能异构网络选择方法包括以下步骤:
1)网络中属于同一业务类型的用户视为同一智能体,N种业务类型对应N个智能体,各智能体中用户随机排成一个队列,智能体根据环境的情况判断当前处于状态空间S中的哪一状态,并根据当前所处的状态从动作空间A中选择一个动作执行,得到环境给出的回报R,智能体根据得到的回报更新Q值表,以优化未来的动作选择;
2)在每个智能体中创建N个Q值表,并将它们的初始值设为0,给出参数学习率α,折扣因子β,贪婪算法探索率ε的值;
3)各智能体队列中第一个用户首先判断自身所处位置的网络覆盖情况,然后根据当前状态s按照贪婪算法,以ε的概率随机地选择动作,以1-ε的概率用基于Nash Q-Learning的方法选择动作,智能体根据环境给出的即时回报,更新Q值表,并移除队列中的第一个用户;
4)循环至步骤3),直至各智能体队列中的所有用户都已完成网络选择。
2.如权利要求1所述的基于Nash Q-Learning的多智能异构网络选择算法,其特征在于:所述步骤1)中,智能体的状态空间S={l1,l2,l3},分别为三个网络的负载占用率经过离散量化后的值,其离散量化方法为负载占用率在[0,0.5]内时量化为1,在(0.5,0.75]内时量化为2,在(0.75,0.875]内时量化为3,在(0.875,1]内时量化为4;
智能体的动作空间为A={ai,ai∈{1,2,3}},其中,i∈{1,2,...,N},ai=1表示智能体i接入5G客户终端设备网络,ai=2表示智能体i接入5G无人机网络,ai=3表示智能体i接入Wi-Fi网络;
智能体i的回报函数定义为
Ri=ωid+θie+μf,i∈{1,2,...,N} (1)
其中,ωi和θi分别表示智能体i对时延和传输速率的偏好,μ表示系统对网络负载均衡的偏好,d,e,f分别表示属性规范化处理后的时延,速率,负载占用率方差;
效益型属性和成本型属性的规范化公式不同,其规范化公式分别为:
Figure RE-FDA0003152042620000021
Figure RE-FDA0003152042620000022
3.如权利要求1或2所述的基于Nash Q-Learning的多智能异构网络选择算法,其特征在于:所述步骤3)中,在Nash Q-Learning算法中,与环境进行交互的是多个智能体的联合动作,若系统中共有N个智能体,N个智能体不分先后地在同一时刻做出各自的动作,这一时刻的联合动作定义为(a1,a2,...,aN),在多智能体场景下的最优策略是实现智能体整体策略的Nash均衡,Nash均衡策略表示为
Figure RE-FDA0003152042620000023
满足:
Figure RE-FDA0003152042620000024
其中V为状态-动作对的价值函数,表示在Nash均衡点处,每个智能体的策略是在其他智能体策略下的最优策略;
每个智能体都存有N个Q值表,每个Q值表对应当前系统中的一个智能体,各智能体根据以下公式更新Q值:
Figure RE-FDA0003152042620000031
其中,
Figure RE-FDA0003152042620000032
s′是智能体在环境状态s下执行联合动作(a1,a2,...,aN)后环境转移至的状态,πi,i=1,2,..,N是智能体i在状态s′下执行的动作,N个智能体的动作π1(s′)…πN(s′)为在状态s′下满足Nash均衡的联合动作,
Figure RE-FDA0003152042620000033
为t时刻智能体i在转移状态s′下执行满足Nash均衡的联合动作后的收益。
CN202110229667.9A 2021-03-02 2021-03-02 一种基于Nash Q-Learning的多智能异构网络选择方法 Withdrawn CN113242589A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110229667.9A CN113242589A (zh) 2021-03-02 2021-03-02 一种基于Nash Q-Learning的多智能异构网络选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110229667.9A CN113242589A (zh) 2021-03-02 2021-03-02 一种基于Nash Q-Learning的多智能异构网络选择方法

Publications (1)

Publication Number Publication Date
CN113242589A true CN113242589A (zh) 2021-08-10

Family

ID=77130177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110229667.9A Withdrawn CN113242589A (zh) 2021-03-02 2021-03-02 一种基于Nash Q-Learning的多智能异构网络选择方法

Country Status (1)

Country Link
CN (1) CN113242589A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114845359A (zh) * 2022-03-14 2022-08-02 中国人民解放军军事科学院战争研究院 一种基于Nash Q-Learning的多智能异构网络选择方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114845359A (zh) * 2022-03-14 2022-08-02 中国人民解放军军事科学院战争研究院 一种基于Nash Q-Learning的多智能异构网络选择方法

Similar Documents

Publication Publication Date Title
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
Fadlullah et al. HCP: Heterogeneous computing platform for federated learning based collaborative content caching towards 6G networks
CN112737837B (zh) 一种高动态网络拓扑下无人机群带宽资源分配方法
Ding et al. Trajectory design and access control for air–ground coordinated communications system with multiagent deep reinforcement learning
CN110531617A (zh) 多无人机3d悬停位置联合优化方法、装置和无人机基站
CN110225535A (zh) 基于深度确定性策略梯度的异构无线网络垂直切换方法
CN112020103A (zh) 一种移动边缘云中的内容缓存部署方法
Wang et al. Regional intelligent resource allocation in mobile edge computing based vehicular network
CN107484209B (zh) 一种考虑用户QoS的网络负载均衡垂直切换方法
WO2023024219A1 (zh) 云边协同网络中时延和频谱占用联合优化方法及系统
CN107889195B (zh) 一种区分业务的自学习异构无线网络接入选择方法
CN112887999B (zh) 一种基于分布式a-c的智能接入控制与资源分配方法
CN112492656B (zh) 一种基于强化学习的无线网络接入点切换方法
CN106912074A (zh) 一种在异构网络中基于回传链路容量的用户关联方法
Xu et al. Deep reinforcement learning based mobility load balancing under multiple behavior policies
CN113242589A (zh) 一种基于Nash Q-Learning的多智能异构网络选择方法
Wu et al. Dynamic handoff policy for RAN slicing by exploiting deep reinforcement learning
Lu et al. An access selection mechanism in 5G network slicing
Mobasheri et al. Toward developing fog decision making on the transmission rate of various IoT devices based on reinforcement learning
CN117221948A (zh) 一种面向密集场景的网络选择和功率控制方法
CN114401192B (zh) 一种多sdn控制器协同训练方法
CN114760646B (zh) 一种基于多层聚合上下文mab的链路决策方法
Wang et al. Evolutionary game based heterogeneous wireless network selection with multiple traffics in 5G
Jin et al. Joint qos control and bitrate selection for video streaming based on multi-agent reinforcement learning
Mansouri et al. A battery level aware MADM combination for the vertical handover decision making

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210810

WW01 Invention patent application withdrawn after publication