CN114845359A

CN114845359A - 一种基于Nash Q-Learning的多智能异构网络选择方法

Info

Publication number: CN114845359A
Application number: CN202210246165.1A
Authority: CN
Inventors: 卢为党; 李晨凯; 翁丽霞; 曹江; 王双双; 孔德照; 高原
Original assignee: Research Institute of War of PLA Academy of Military Science
Current assignee: Research Institute of War of PLA Academy of Military Science
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-08-02

Abstract

一种基于Nash Q‑Learning的多智能异构网络选择方法，在该方法中，用户和网络均处于移动的状态，且朝着目标区域移动，基于Nash Q‑Learning的网络选择方法根据网络的覆盖情况并结合用户的业务类型和偏好为用户选择出合适的网络。本发明中的NashQ‑Learning算法在比较网络优劣的同时还能对网络的可用容量进行控制，将网络的吞吐量和可用容量比例作为环境反馈的回报的参数，此异构网络选择算法可以为不同业务类型的用户根据需求和偏好选择出合适的网络，同时还可以对网络的可用性进行整体控制。

Description

一种基于Nash Q-Learning的多智能异构网络选择方法

技术领域

本发明属于无线通信领域中的异构网络选择技术领域，尤其是一种基于强化学习的网络选择方法。

背景技术

下一代无线网络的主要特征之一就是网络成分的异构性。多种不同类型的网络相互融合，相互补充以求给用户带来更佳的体验。其中，如何在不同类型、不同特征的异构网络当中选择出适合用户的最佳网络，即异构网络选择算法，是异构网络融合的关键之一。在异构网络的选择中，要考虑不同网络之间各种属性的优劣，如接收信号强度、吞吐量、覆盖范围和传输速率等，也要考虑保证网络的可用性，对网络的阻塞率，容量进行控制。另外，在异构网络的选择当中，要从用户的需求和偏好出发，选出最适合用户的网络。

现有的异构网络选择算法，从不同的角度对网络选择算法进行优化，主要有基于单属性决策的网络选择算法、基于多属性的网络选择算法以及基于强化学习的网路选择算法等。这些方法大多只从比较网络优劣和控制网络可用性其中一个角度切入来设计网络选择算法，没有兼顾两个角度来优化算法。同时当用户和网络处于运动状态的情况也没有被考虑。

发明内容

针对现有的方法只考虑了用户和网络静止的情况，且只从比较网络优劣和控制网络可用性其中一个角度切入设计算法，本发明提供了一种基于Nash Q-Learning的多智能异构网络选择方法，该方法可以根据用户业务需求和偏好的不同为用户选择合适的网络，同时对网络的可用容量进行控制，保证各个网络的可用性。该算法将网络的吞吐量和可用容量比例作为环境反馈的回报的参数，根据业务类型将用户划分为多个智能体，利用基于Nash Q-Learning的网络选择算法进行学习和决策。

为了解决上述技术问题，本发明提供如下的技术方案：

一种基于Nash Q-Learning的多智能异构网络选择方法，网络包含Wi-Fi网络、5G车载网络和5G客户终端设备网络，5G客户终端设备网络由一名用户携带，而Wi-Fi网络和5G车载网络则搭载在同一辆车辆上，另外，有K个用户有在异构网络中进行网络连接的需求，他们的业务分属于M中业务类型；

异构网络中的各个网络覆盖范围不同，且其随着网络的移动而发生变化，各用户从当前时刻其所处的位置能被覆盖的网络中选择一个网络接入，若用户某一时刻不处于任何网络的覆盖范围内时，则不进行网络选择，每个网络有其能接入设备的容量，分别表示为C₁,C₂,C₃,当网络的可用容量变为0时，新的用户将无法接入该网络，所述基于Nash Q-Learning的多智能异构网络选择方法包括以下步骤：

1)根据用户的业务类型将所有用户分为M个智能体，其中每个智能体中的用户的业务类型一致，初始化参数贪婪算法探索概率ε，折扣因子γ和学习率λ，同时为每个智能体创建出M个Q值表，初始值均为0；

2)各智能体中的用户将以队列的形式依次进行网络选择，智能体会感知环境所处的状态s并根据此状态从动作空间选择动作a执行，动作执行完成后环境会给予回报r，智能体在得到汇报之后将其积累到学习经验中，更新Q值表，帮助将来做出更准确、有效的判断；

3)各个智能体中队列中的首个用户根据网络覆盖情况和当前时刻环境所处状态s，按照基于Nash Q-Learning的网络选择算法选择动作，其中，用户将以ε的概率随机地选择动作，以探索更多的可能性，以1-ε的概率选择满足Nash均衡的动作，以获得更高的收益，执行完动作之后，各智能体根据得到的回报r更新所有的Q值表，并让队列中的下一个用户开始进行网络选择；

4)循环至步骤3)，直到各个智能体队列中的用户都完成了异构网络选择。

进一步，所述步骤2)中，环境的状态s＝{c₁,c₂,c₃}，分别表示了三个网络的可用容量比例离散量化之后的值，其离散量化规则是可用容量比例处于[0,0.25]，(0.25,0.5]，(0.5,0.75]和(0.75,1]四个区间的值分别1，2，3和4；

动作a_i∈{1,2,3},i∈{1,2,...,N}，其中，i表示第i个智能体，a_i＝1,2,3分别表示智能体i选择了Wi-Fi网络、5G车载网络和5G客户终端设备网络；

智能体i的回报函数定义为

r_i＝ω_ip+θv，i∈{1,2,...,N} (1)

其中，ω_i代表了智能体i也就是业务i对于吞吐量的偏好，θ则代表了系统对于网络可用性的控制程度，p为吞吐量经过规范化处理之后的值，v则是网络可用性指标，这里使用可用容量比例的方差经过规范化处理之后的值；

因为吞吐量和网络可用性指标的量级不同，需要对它们进行规范化处理，它们的规范化公式分别为：

其中，tp_i为吞吐量的值，p_i为吞吐量经过规范化之后的值，tv_i为可用性指标的值，v_i为可用性指标经过规范化之后的值，x＝min(tp)，y＝max(tp)，f＝min(tv)，g＝max(tv)。

再进一步，所述步骤3)中，在基于Nash Q-Learning的网络选择算法中，各个智能体同时执行网络选择动作，且每个智能体中有且只有一个用户执行网络选择动作，也就是说，如果有M个智能体，则共有M个用户在同一时刻一起进行异构网络选择，它们的动作组成一个联合动作(a₁,a₂,...,a_M)，为取得尽可能高的收益，多智能体的联合动作要满足Nash均衡，用Y来表示状态-动作对的价值函数，多智能体的联合动作为符合

的动作

表明在Nash均衡点处，各个智能体的动作是其它智能体动作确定时的最优动作；

各个智能体处均具备M个Q值表，分别对应着M个智能体，当各个智能体接收到回报之后，将按照下面的公式更新Q值：

其中，

(a₁,a₂,...,a_N)是多智能体的联合动作，s是环境当前时刻的状态，s′则是环境在多智能体执行完联合动作之后的下一时刻状态，π_i(s′),i＝1,2,..,N是智能体i在状态s′下满足Nash均衡的动作，

则是智能体i在状态s′下执行满足Nash均衡的联合动作后的收益。

本发明的技术构思为：现有的方法只考虑了用户和网络静止的情况，且只从比较网络优劣和控制网络可用性其中一个角度切入设计算法，缺少对网络运动情况对网络选择影响的研究以及对比较网络优劣和控制网络可用性的兼顾。

本发明提供了一种基于Nash Q-Learning的多智能异构网络选择方法，该算法可以根据用户业务需求和偏好的不同为用户选择合适的网络，同时对网络的可用容量进行控制，保证各个网络的可用性。该算法将网络的吞吐量和可用容量比例作为环境反馈的回报的参数，根据业务类型将用户划分为多个智能体，利用基于Nash Q-Learning的网络选择算法进行学习和决策。

本发明的有益效果主要表现在：对于网络和用户均处于运动状态的情况，此异构网络选择算法可以为不同业务类型的用户根据需求和偏好选择出合适的网络，同时还可以对网络的可用性进行整体控制。

附图说明

图1是本发明方法的异构网络选择的系统模型示意图，其中，1为5G车载网络。2为5G客户终端设备网络；

图2是本发明学习过程中的已用容量比例变化图；

图3是本发明在不同网络可用性控制程度下的可用容量比例仿真图；

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于Nash Q-Learning的多智能异构网络选择方法，是基于网络和用户处于移动状态下的异构网络选择模型实现的，网络包含Wi-Fi网络、5G车载网络和5G客户终端设备网络，5G客户终端设备网络由一名用户携带，而Wi-Fi网络和5G车载网络则搭载在同一辆车辆上，另外，有K个用户有在异构网络中进行网络连接的需求，他们的业务分属于M中业务类型；

本实施方式的方法中，异构网络选择过程建模为基于Nash Q-Learning的多智能体，根据用户的业务类型将所有用户分为M个智能体，其中每个智能体中的用户的业务类型一致，初始化参数贪婪算法探索概率ε，折扣因子γ和学习率λ，同时为每个智能体创建出M个Q值表，初始值均为0；

初始时刻，K个用户随机分布在给定区域，朝着此区域外的目标区域移动，K个用户随机朝着目标区域移动，另外，携带有5G客户终端设备的成员以及搭载有Wi-Fi网络、5G车载网络的车辆也在往目标区域移动。

各智能体中的用户将以队列的形式依次进行网络选择，智能体会感知环境所处的状态s并根据此状态从动作空间选择动作a执行，动作执行完成后环境会给予回报r，智能体在得到汇报之后将其积累到学习经验中，更新Q值表，帮助将来做出更准确、有效的判断；

对三个网络的可用容量比例进行量化，[0,0.25]，(0.25,0.5]，(0.5,0.75]和(0.75,1]四个区间的值分别对应着量化后的值1，2，3和4，环境的状态s＝{c₁,c₂,c₃}，表示了三个网络的可用容量比例离散量化之后的值。

各个智能体中队列中的首个用户根据网络覆盖情况和当前时刻环境所处状态s，按照基于Nash Q-Learning的网络选择算法选择动作，其中，用户将以ε的概率随机地选择动作，以探索更多的可能性，以1-ε的概率选择满足Nash均衡的动作，以获得更高的收益。

动作a_i∈{1,2,3},i∈{1,2,...,N}，其中，i表示第i个智能体，a_i＝1,2,3分别表示智能体i选择了Wi-Fi网络、5G车载网络和5G客户终端设备网络。

为取得尽可能高的收益，多智能体的联合动作要满足Nash均衡，用Y来表示状态-动作对的价值函数，多智能体的联合动作为符合

的动作

智能体在执行联合动作后，会得到环境给出的回报，智能体i的回报函数定义为

r_i＝ω_ip+θv，i∈{1,2,...,N} (1)

其中，ω_i代表了智能体i也就是业务i对于吞吐量的偏好，θ则代表了系统对于网络可用性的控制程度，p为吞吐量经过规范化处理之后的值，v则是网络可用性指标，这里使用可用容量比例的方差经过规范化处理之后的值。

吞吐量和网络可用性指标的规范化公式不同，分别为：

其中，

Q值更新完之后，各智能体队列中的下一个用户将开始新一轮的网络选择。

本实施方法中，引入了用户和网络均处于移动状态的情况，以及由此带来的对覆盖情况的影响，使用基于Nash Q-Learning的多智能异构选择算法，将网络的吞吐量和可用容量比例作为环境反馈的回报的参数，根据业务类型将用户划分为多个智能体，在不断的探索和学习过程中积累历史经验，对于网络和用户均处于运动状态的情况，此异构网络选择算法可以为不同业务类型的用户根据需求和偏好选择出合适的网络，同时还可以对网络的可用性进行整体控制。

在本实施方式中，初始时刻，用户随机分布在一个大小为400m×400m的区域内，并朝着一个大小为100m×100m的目标区域移动，K个用户移动的速度范围为3～6m/s，Wi-Fi网络、5G车载网络和5G客户终端设备网络的覆盖范围半径分别为100m、300m和150m，它们移动的速度范围也为3～6m/s，假设共有M＝3种业务类型，且每种业务类型下的用户数相等，这三种业务类型分别为会话类、流类和交互类业务，各个网络的网络容量C₁,C₂,C₃设为{25,25,25}，贪婪算法探索概率ε＝0.4，折扣因子γ＝0.8，学习率λ＝0.1，另外，Wi-Fi网络、5G车载网络和5G客户终端设备网络的吞吐量范围分别设为1.7～1.9Gbps、1.4～1.6Gbps和1.2～1.4Gbps。图2显示了学习过程中的已用容量比例变化图，图3显示了网络可用性控制程度对可用容量比例的影响，控制程度越高，可用容量比例较低的网络将会减少用户的接入来保证一定的可用性。

本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举，仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式，本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims

1.一种基于Nash Q-Learning的多智能异构网络选择方法，网络包含Wi-Fi网络、5G车载网络和5G客户终端设备网络，5G客户终端设备网络由一名用户携带，而Wi-Fi网络和5G车载网络则搭载在同一辆车辆上，另外，有K个用户有在异构网络中进行网络连接的需求，他们的业务分属于M中业务类型；

各用户从当前时刻其所处的位置能被覆盖的网络中选择一个网络接入，若用户某一时刻不处于任何网络的覆盖范围内时，则不进行网络选择，每个网络有其能接入设备的容量，分别表示为C₁,C₂,C₃,当网络的可用容量变为0时，新的用户将无法接入该网络；

其特征在于，所述基于Nash Q-Learning的多智能异构网络选择方法包括以下步骤：

3)各个智能体中队列中的首个用户根据网络覆盖情况和当前时刻环境所处状态s，按照基于Nash Q-Learning的网络选择算法选择动作，其中，用户将以ε的概率随机地选择动作，以探索更多的可能性，以1-ε的概率选择满足Nash均衡的动作，以获得更高的收益，执行完动作之后，各智能体根据得到的回报更新所有的Q值表，并让队列中的下一个用户开始进行网络选择；

2.如权利要求1所述的基于Nash Q-Learning的多智能异构网络选择方法，其特征在于：所述步骤2)中，环境的状态s＝{c₁,c₂,c₃}，分别表示了三个网络的可用容量比例离散量化之后的值，其离散量化规则是可用容量比例处于[0,0.25]，(0.25,0.5]，(0.5,0.75]和(0.75,1]四个区间的值分别1，2，3和4；

智能体的动作a_i∈{1,2,3},i∈{1,2,...,N}，其中，i表示第i个智能体，a_i＝1,2,3分别表示智能体i选择了Wi-Fi网络、5G车载网络和5G客户终端设备网络；

智能体i的回报函数定义为

r_i＝ω_ip+θv，i∈{1,2,...,N} (1)

3.如权利要求1或2所述的基于Nash Q-Learning的多智能异构网络选择方法，其特征在于：所述步骤3)中，在基于Nash Q-Learning的网络选择算法中，各个智能体同时执行网络选择动作，且每个智能体中有且只有一个用户执行网络选择动作，也就是说，如果有M个智能体，则共有M个用户在同一时刻一起进行异构网络选择，它们的动作组成一个联合动作(a₁,a₂,...,a_M)，为取得尽可能高的收益，多智能体的联合动作要满足Nash均衡，用Y来表示状态-动作对的价值函数，多智能体的联合动作为符合

的动作

其中，