CN105120468B

CN105120468B - 一种基于演化博弈论的动态无线网络选择方法

Info

Publication number: CN105120468B
Application number: CN201510407908.9A
Authority: CN
Inventors: 罗常青; 杨天若; 陈瑾翊
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2019-03-05
Anticipated expiration: 2035-07-13
Also published as: CN105120468A

Abstract

本发明公开了一种基于演化博弈论的动态无线网络选择方法，属于异构无线网络移动性管理技术领域。本发明提出异构无线网络中基于能量效率的动态网络选择机制，在无线网络选择中考虑数据传输的能量消耗，实现基于能量效率的网络选择。应用演化博弈理论对用户的网络选择过程建模，用演化博弈的复制动态方程表示用户之间不断博弈和演化的过程，然后根据复制动态得到演化博弈的均衡点，根据非线性系统的稳定原理得到网络选择的稳定策略。通过改进的Q‑Learning算法实现了用户网络选择的演化博弈过程，把用户选择网络的过程模拟为多智能体的马尔可夫决策过程，解决了基础Q‑Learning算法在多智能体条件下难以收敛的问题。

Description

一种基于演化博弈论的动态无线网络选择方法

技术领域

本发明属于异构无线网络移动性管理技术领域，更具体地，涉及一种基于演化博弈论的动态无线网络选择方法。

背景技术

无线通信网络消耗的能量占信息通信产业的大部分。由于能量消耗，不仅所排放的二氧化碳等污染气体对自然环境造成了重大伤害，而且也增加了网络运营商的运营成本。随着移动互联网的迅猛发展，移动用户数量呈爆炸式增长，将使这一问题变得更加严重。另一方面，无线通信的设备主要是便携的移动设备，其主要供能方式是电池，而电池储存的能量是有限的，这也将极大影响移动通信的发展。当前的无线网络在最初架构设计时没有将能量消耗作为重要的考虑因素，以致很多无线网络的能量消耗偏高，例如WIFI。同时，蜂窝网络在最初架构时对能量的考虑也不够周全，导致能量消耗高，造成巨大的能量和经济损失。

异构无线网络选择是异构无线网络移动性管理方面的重要内容之一。不同的无线通信系统具有不同的优势，多模移动终端设备可以根据不同的衡量标准，例如服务质量、价格、能量效率等，进行无线接入网络选择。

因此，如何在异构无线网络中充分利用不同无线网络的优势，合理调度无线资源、降低能量消耗、提升能量效率，是异构无线网络接入中的一个非常重要的问题。

国内外许多研究小组已经致力于异构无线网络关键技术的研究，异构融合网络技术研究是国内外二十世纪九十年代至今的研究热点。近年来开展的相关研究项目和课题有中国国家863计划通信主题的重大项目未来通信通用环境FuTURE、欧洲电信标准协会的宽带无线接入网标准项目ETSI RAN、欧盟IST的框架结构中的WINE GLASS和BRAIN/MIND项目以及日本的e-Japan计划下的MIRAI项目等。国内外一系列研究已经取得了很多成果，但是还有很多问题需要继续研究。

尽管全球很多研究机构都在探索异构无线网络方面的研究，并且取得了很多成果，但是面对日益增长的无线网络用户数目以及未来多种无线网络与移动终端共存的通信环境，异构无线网络选择研究仍是一个有价值的课题。并且，异构无线网络中基于能量效率的网络选择研究较少，很多研究没有考虑能量因素或者只是把能量因素看作一个常量。因此，在异构无线网络中研究基于能量效率的无线网络接入技术非常有必要。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供一种基于演化博弈论的动态无线网络选择方法，保证用户在异构无线网络中获得总是最好连接(Always BestConnected，ABC)服务的基础上，能够提高异构无线网络的能量效率。

本发明提供一种基于演化博弈论的动态无线网络选择方法，包括以下步骤：

步骤1建立基于IP核心网络的松耦合异构无线网络架构，设定该异构无线网络中的信号传输模型，并针对所述信号传输模型定义能量模型；

步骤2针对所述步骤1建立的网络架构，建立演化博弈模型，包括定义收益模型和所述演化博弈模型参数设定，其中：

所述收益模型定义为：U_j(n)＝f(c_j(n))-g(p_j(n))，其中，n表示选择无线网络j的用户数量；f(c_j(n))和g(p_j(n))分别表示收益函数和代价函数；c_j(n)表示无线网络j的数据率；p_j(n)表示无线网络j的能量消耗；

所述演化博弈模型参数包括：

(1)区域h的群体的策略选择比例用向量表示，其中x_hj表示区域h中选择无线网络j的用户占区域h总用户数的比例；s_n表示可供选择的无线网络总数，并且满足关系式：

(2)区域h的总用户数定义为N_h，其中选择无线网络j的总用户数定义为N_hj，并且满足关系式：N_hj＝N_h·x_hj；

(3)假设无线网络j分配给每个用户的带宽为分配给每个用户的数据率为其中，B_j、C_j分别表示无线网络j的总带宽和总数据率，N_j表示选择无线网络j的用户数；

步骤3针对所述演化博弈论模型，通过复制动态来求解演化博弈的均衡点，使得演化博弈达到的稳定状态；

步骤4不断调整用户选择的网络以获得最好的收益，直至所有用户都达到了所述步骤3的演化博弈稳定状态，整个流程结束。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

(1)建立能量效率模型，通过香农公式推导出无线信道传输的能量消耗模型，而且还综合考虑了用户的接收功率。能量效率定义为数据率和能量消耗的函数，用户根据收益选择最优的网络，使得用户的网络选择综合考虑了用户的服务质量和能量消耗；

(2)应用演化博弈理论对异构融合网络的动态网络选择建模，异构系统中的一个覆盖区域模拟为生物演化论中的一个群体，用户之间通过相互竞争来选择网络，并且不断调整网络选择，淘汰效益低的网络，使整个异构系统各区域的用户收益达到平衡；

(3)改进的Q-Learning算法，把控制理论里的基础Q-Learning算法运用到异构无线网络选择中来，把网络选择过程模拟为一个多Agent的马尔可夫过程，然后用Q-Learning算法实现用户的网络选择过程。

附图说明

图1为本发明基于演化博弈论的动态无线网络选择方法的流程图；

图2为本发明异构无线网络架构示意图；

图3为本发明异构无线网络传输模型示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1所示为基于演化博弈论的动态无线网络选择方法的流程图，具体包括以下步骤：

步骤1建立基于IP核心网络的松耦合异构无线网络架构，设定该异构无线网络中的信号传输模型，并针对该传输模型定义本发明的能量模型。

在本发明实施例中，信号传输模型具体表示为：其中，和分别表示用户i与无线网络j的基站通信的发送功率和接受功率；ch_ij表示用户i和无线网络j的基站的信道参数。

在本发明实施例中，能量模型为基于上述信号传输模型中双方通信数据发送和接收所产生的发送功率和接收功率之和，表示为如下公式：

P_a＝P_tx+P_rx (1)

其中，P_tx、P_rx分别表示发送功率和接收功率。根据香农公式，在高斯白噪声干扰信道中，传输速率可以表示为：

其中，C表示传输速率；B表示信道带宽；σ²表示噪声功率；g表示信道增益，因此发送功率可以表示为：

根据发送功率和接收功率的关系，可以得到接收功率为：

P_rx＝Kd^-λΨP_tx (4)

其中，d、λ分别表示传输距离、路径损耗指数；随机变量Ψ表示衰落过程；在本发明实施例中，系数K可以表示为：

K＝UVW (5)

其中，变量U表示基站和移动终端的因素，例如天线高度、载波频率、传播条件等；变量V、W表示天线模式参数等信息。

步骤2针对步骤1建立的网络架构，对动态网络运用演化博弈论的方法建立演化博弈模型，该模型建立过程包括定义收益模型和模型参数设定两部分。

在本发明实施例中，收益模型包括：用户收益(即数据传输的获得的数据率)和代价(即数据传输对应的能量消耗)。具体的，本发明将收益模型定义为用户选择无线网络j时所获得的收益和代价的凹函数，定义如下：

U_j(n)＝f(c_j(n))-g(p_j(n)) (6)

其中，n表示选择无线网络j的用户数量；f(c_j(n))和g(p_j(n))分别表示用户获得的数据率和消耗的能量，即收益函数和代价函数；c_j(n)表示无线网络j的数据率；p_j(n)表示无线网络j的能量消耗。

收益函数f(c_j(n))定义为：

f(c_j(n))＝α·c_j(n) (7)

其中，α是调整系数。

代价函数g(p_j(n))定义为：

g(p_j(n))＝β·p_j(n) (8)

其中，β也是调整系数。α和β分别是用来规格化收益函数和代价函数(根据实际函数进行取值)。

在本发明实施例中，演化博弈模型参数定义如下：本发明将一个区域里面的所有用户定义为一个群体，每个群体可选择的网络集合为一个策略集，由于地理位置的限制，每个群体能够选择的策略集不同。

几个与演化博弈模型相关的参数定义如下(假定区域总数为m，其中1≤h≤m)：

(1)在区域h，该区域的群体的策略选择比例用向量表示，其中元素x_hj表示区域h中选择无线网络j的用户占区域h总用户数的比例，s_n表示可供选择的无线网络总数(满足1≤j≤s_n)，并且满足关系式：

(2)区域h的总用户数定义为N_h，其中选择无线网络j的总用户数定义为N_hj，并且N_h和N_hj满足关系式：N_hj＝N_h·x_hj。

(3)假设无线网络j分配给每个用户的带宽为b_j，分配给每个用户的数据率为c_j：

其中，B_j、C_j分别表示无线网络j的总带宽和总数据率，N_j表示选择无线网络j的用户数。

步骤3针对步骤2给出的演化博弈论模型，通过复制动态来求解演化博弈的均衡点，使得演化博弈达到的稳定状态。

在本发明实施例中，复制动态为异构无线网络动态选择的复制动态，描述的是整个区域中的用户通过相互竞争选择效益更高的无线网络，这是一个不断重复的过程。每一个时间段，用户会观察与自己处于相同区域的其他用户的收益，并比较自己的收益与平均收益的差异，当自己的收益小于平均收益时，该用户会改变策略，选择另一个无线网络。如果很多用户都选择同一个无线网络，将会导致用户选择这个无线网络的数据率降低，能耗变大，从而收益变小；同样的，别的无线网络由于用户数变少，会使得选择该无线网络的收益变大，整个无线网络由于用户的策略不断改变会一直处于动态变化过程中，直到所有用户的选择了系统的一个稳定策略，系统会到达一个稳定的状态，这时候系统会长期处于稳定状态。

根据演化博弈论的动态方程可以得到异构无线网络进行动态选择的动态方程为：

其中，x_hj(t)、U_j(t)、均是随着时间t变化的变量，x_hj(t)表示区域h中用户选择无线网络j的比例；U_j(t)表示时刻t用户选择无线网络j的收益；表示时刻t区域h的平均收益；μ表示复制动态方程的策略适应度。对于区域h中的用户，如果选择无线网络j的收益高于平均收益，这时同时选择无线网络j的用户数会增多，则如果选择无线网络j的收益低于平均收益，这时同时选择无线网络j的用户数会增多，则因此，对于区域h复制动态满足关系式：

此时即为演化博弈的均衡点，演化博弈达到稳定状态。

步骤4用户通过改进的Q-Learning算法来不断调整自己选择的网络来获得最好的收益，至所有用户都达到了步骤3的演化稳定策略，这时候系统到达一种稳定状态，本发明整个流程结束。

在本发明实施例中，改进的Q-Learning算法是基于基本的Q-Learning算法改进而来，基本的Q-Learning算法是一种基于马尔可夫决策过程(Markov Decision Process，以下简称MDP)模型的强化学习算法，MDP模型定义为(S,A,R,P)，其中，S为状态(State)集合；A为行动(Action)集合；R:S×A→R为奖赏函数；P:S×A→P为状态转移概率。Q-Learning算法适用于马尔可夫状态链下的最优动作选择。对于单个智能体的学习，其基本的Q-Learning公式为：

其中，Q^*(s,a)表示强化学习的主体(智能体，Agent)在状态s下采取行动a所得到的奖赏之和；r(s,a)表示Agent在状态s下采取行动a所得到的奖赏；γ表示折扣因子；p(s'|s,a)表示状态s采取行动a到达下一个状态s'的条件概率；V(s',π^*)表示经过行动a进入下一个状态s'之后，状态s'的所有可选行动里对应的最大Q值；π^*表示状态s下可使用的决策集。在任意初始值下，Agent在时刻t采取行动a，并观察所得到的奖赏r，以此更新其Q值，如下公式所示：

其中，σ∈(0,1)表示学习率，随着时间衰减。

在异构无线网络选择中，可以将每一个用户视为一个Agent，因此网络选择过程可以模拟为一个多用户的强化学习模型。在多Agent中，将MDP模型扩展为多个参与者的分布式决策过程马尔可夫对策过程(S，ω，{Aⁱ}_i∈ω，{Rⁱ}_i∈ω，{Pⁱ}_i∈ω)，其中，ω表示智能体的集合，Aⁱ、Rⁱ、Pⁱ分别表示智能体i的动作集合、收益集合和联合行动转移概率集合。对每一个状态s_k∈S，都存在一个多人对策：

记为多个Agent的一个联合行动策略下，Agent i(在本发明实施例中用户i视为Agent i)所得的收益，则Agent i的最优决策定义为：

多智能体的强化学习公式(15)是根据基本的Q-Learning公式改进的，智能体的每次行动都是基于其他智能体的联合行动而做出的最优动作，如下所示：

其中，aⁱ，a^-i分别表示智能体i的动作和所有其他智能体的动作；γ表示折扣因子；表示混合最优策略下的收益；σ∈(0,1)表示学习率。为了找到最优策略，智能体需要知道其他智能体的行为，但是由于每个智能体所得到的信息并不完备，所以需要采用概率估计的方法来估计其他智能体的行为概率。本发明采用概率统计和Bayes公式的方法来估计其他Agent的混合策略，具体描述如下：

其中，表示智能体i估计其他智能体的混合策略；表示智能体i和智能体i^*采取联合行动后转移到状态s_t+1的条件转移概率；表示智能体i^*采取行动后转移到状态s_t+1的条件转移概率；p(aⁱ)表示智能体i^*对智能体i在状态s采取动作aⁱ的概率估计；表示智能体i^*所选择的网络的总用户数。因此有：

其中，∏πⁱ(s')表示混合策略下的混合概率。

上述步骤4具体包括以下子步骤：

(4-1)初始化参数及信息：

(4-2)用户i根据公式(16)来估计其他用户的策略，计算混合策略下的混合概率∏πⁱ(s')，找到最优的混合策略，用户i采取最优混合策略的动作aⁱ(在本发明实施例中动作表示选择无线网络aⁱ)；

(4-3)用户i根据公式(6)计算自身在当前时刻t获得的收益

(4-4)根据公式(15)更新Q值；

(4-5)根据用户当前选择的网络及公式(16)和(17)更新概率p(aⁱ)；

(4-6)时刻t＝t+1，同时学习率σ衰减，根据步骤三的稳定策略判断网络是否达到稳定状态，是则执行步骤(4-7)，否则执行步骤(4-2)；

(4-7)动态网络选择到达稳定状态，循环结束。

在上述无线网络选择强化学习算法中σ是定义为随用户选择次数递减的学习速率：表示用户i的选择次数。在每一个时间周期，用户根据其他用户的联合策略选择一个合适的网络来接入，在接入之后，用户更新Q值，重新估算联合策略的概率。该算法最终会收敛到稳定状态，所有用户停止网络选择，系统到达稳定态。

下面结合附图及实施例，对本发明进行进一步详细说明。

图2所示为本发明异构无线网络架构示意图。在本发明具体实施例中，选择松耦合方式来设计网络架构，实现方式是利用第三方核心网络(一般是核心IP网络)来间接的实现各无线接入网络之间的互联，然后将IP协议作为异构无线网络之间的互连协议，各无线网络在上层仍然使用自己的协议进行数据交互，在下层通过IP协议进行数据交互，各无线网络通过路由器网关等设备与核心IP网络连接，数据转换是路由器和网关实现的。如图2所示，包括蜂窝网(Cellular Network)、无线局域网(WLAN)、无线城域网(WMAN)和核心IP网，其中蜂窝网络通过无线网络控制器(RNC)接入核心IP网，WLAN通过网关接入核心IP网，WMAN通过路由器接入核心IP网。

根据各种无线网络的地理位置和覆盖范围参数，以及其相互之间的重叠区域，考虑其一般化的覆盖关系，将图2所示场景的三个无线网络覆盖关系一般化之后的覆盖情况如图3所示：WMAN的覆盖范围最大，其次是蜂窝网络，WLAN最小。假设整个区域都被WMAN的信号覆盖，部分地方可以收到蜂窝网络的信号，在蜂窝网络的覆盖范围里面部分区域可以收到WLAN的信号，无线网络总数表示为s_n。根据各个无线网络的覆盖范围把整个区域划分为m个子区域，如果用户在无线网络的覆盖范围下，则可以接入该无线网络(假设移动终端是一个多模终端可以接入不同的无线网络)。假设无线网络j的带宽和数据率分别为B_j、C_j。

在本发明实施例中，具体的传输模型如图3所示，表示为：其中，和分别代表用户i与无线网络j的基站通信的发送功率和接受功率；ch_ij代表用户i和无线网络j的基站的信道参数。

将图3中的区域1的所有用户构成群体1，区域2的所有用户构成群体2，区域3的所有用户构成群体3(分别对应图2中的区域1、2、3)。用户可选择的网络集合为一个策略集，由于地理位置的限制，在图3中群体1、2、3的策略集分别为：{WLAN,Cellular,WMAN},{Cellular,WMAN},{WMAN}。

针对本实施例可以按如下步骤进行：

步骤1：根据无线网络架构建立能量模型；

根据公式(1)可得无线网络j的能量消耗为：

结合上文所述的演化博弈模型及模型参数可以得到，图3中无线网络WLAN的所有用户的总能量消耗为：

无线网络Cellular的所有用户的总能量消耗为：

无线网络WMAN的所有用户的总能量消耗为：

步骤2针对步骤1的无线网络架构建立收益模型；

根据公式(6)可得到各个无线网络的收益分别为：

用户选择无线网络WLAN的收益：

用户选择无线网络Cellular的收益：

用户选择无线网络WMAN的收益：

因此，根据各无线网络的收益，可以分别得到区域1、2、3的平均收益平均收益定义为区域i的所有用户的收益的平均值。

步骤3通过复制动态来求解演化博弈的均衡点，即演化博弈的稳定策略。

根据公式(10)可以得到以下三个动态方程：

其中，表示区域1中选择无线网络Cellular的用户比例的复制动态方程，表示区域1中选择无线网络WMAN的用户比例的动态方程，表示区域3中选择无线网络WMAN的用户比例的动态方程。

动态复制方程时动态方程的解是演化博弈论的均衡点，因此根据上述三个方程可以得到如下几个均衡点：

其中点(2)、(4)、(6)是稳定点，可以得到以下3个稳定状态：

步骤4用户通过改进的Q-Learning算法来不断调整自己选择的网络来获得最好的收益。具体包括以下子步骤：

(4-1)初始化参数及信息：

(4-2)用户i根据公式(16)来估计其他用户的策略，计算各混合策略下的混合概率∏πⁱ(s')，找到最优的混合策略，用户采取最有混合策略的动作aⁱ(在本发明实施例中动作表示选择无线网络aⁱ)；

(4-3)用户i根据步骤2来计算自身在当前时刻t获得的收益

(4-4)根据公式(15)更新Q值；

(4-6)时刻t＝t+1，同时学习率σ衰减，根据步骤3的稳定策略判断网络是否达到稳定状态，是则执行步骤(4-7)，否则执行步骤(4-2)；

(4-7)动态网络选择到达稳定状态，循环结束。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于演化博弈论的动态无线网络选择方法，其特征在于，包括：

所述演化博弈模型参数包括：

步骤4不断调整用户选择的网络以获得最好的收益，直至所有用户都达到了所述步骤3的演化博弈稳定状态，整个流程结束；

所述步骤4包括以下子步骤：

(4-1)参数初始化；

(4-2)用户i根据如下公式来估计其他用户的策略：

其中，表示用户i估计其他用户的混合策略；表示用户i和用户i^*采取联合行动后转移到状态s_t+1的条件转移概率；表示用户i^*采取行动后转移到状态s_t+1的条件转移概率；p(aⁱ)表示用户i^*对用户i在状态s采取动作aⁱ的概率估计；S为MDP模型定义的状态集合；A为MDP模型定义的行动集合，然后计算混合策略下的混合概率Ππⁱ(s')，找到最优的混合策略，用户i采取最有混合策略的动作aⁱ；

(4-3)用户i计算自身在当前时刻t获得的收益

(4-4)根据如下公式更新Q值：

其中，aⁱ，a^-i分别表示用户i的动作和所有其他用户的动作；γ表示折扣因子；表示混合最优策略下的收益；σ表示学习率；

(4-5)根据用户当前选择的网络更新概率其中表示智能体i^*所选择的网络的总用户数；

(4-6)时刻t＝t+1，同时学习率σ衰减，根据所述步骤3的稳定策略判断网络是否达到稳定状态，是则执行步骤(4-7)，否则执行步骤(4-2)；

(4-7)动态网络选择到达稳定状态，循环结束。

2.如权利要求1所述的方法，其特征在于，所述步骤1中设定的所述信号传输模型为：其中，和分别表示用户i与无线网络j的基站通信的发送功率和接受功率；ch_ij表示用户i和无线网络j的基站的信道参数；所述能量模型为：P_a＝P_tx+P_rx，其中，P_tx、P_rx分别表示所述信号传输模型中双方通信数据发送和接收所产生的发送功率和接收功率。

3.如权利要求1所述的方法，其特征在于，所述步骤2中，所述收益函数为f(c_j(n))＝α·c_j(n)，所述代价函数为g(p_j(n))＝β·p_j(n)，其中，α、β是调整系数，用来规格化所述收益函数和所述代价函数。

4.如权利要求1-3中任一项所述的方法，其特征在于，所述步骤3进一步包括根据演化博弈论的动态方程可以得到所述异构无线网络进行动态选择的动态方程为：

其中，x_hj(t)表示区域h中用户选择无线网络j的比例；U_j(t)表示t时刻用户选择无线网络j的收益；表示t时刻区域h的平均收益；μ表示复制动态方程的策略适应度。

5.如权利要求4所述的方法，其特征在于，对于区域h复制动态满足关系式：此时即为演化博弈的均衡点，演化博弈达到稳定状态。

6.如权利要求1所述的方法，其特征在于，所述步骤(4-2)中所述混合策略下的混合概率为