CN107690176A

CN107690176A - 一种基于q学习算法的网络选择方法

Info

Publication number: CN107690176A
Application number: CN201710915293.XA
Authority: CN
Inventors: 李洋; 冯宝; 刘金锁; 赵高峰; 张立武; 蔡世龙; 刘文贵; 完颜绍澎; 卞宇翔; 马涛; 丁晨阳; 胡阳; 蒯本链
Original assignee: Nari Information and Communication Technology Co; Nanjing NARI Group Corp
Current assignee: Nari Information and Communication Technology Co; Nanjing NARI Group Corp
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2018-02-13
Anticipated expiration: 2037-09-30
Also published as: CN107690176B

Abstract

本发明公开了一种基于Q学习算法的网络选择方法，包括以下几个步骤：(1)初始化Q值表，设置折扣因子γ和学习率α；(2)确定设定时刻到达业务的类型k和当前两个网络的负载率BW_i，得到当前的状态s_n；(3)在动作集合A中选择可用动作，并记录该动作以及下一个网络状态s_n+1；(4)根据执行选择动作后的网络状态，计算立即回报函数r；(5)更新Q值函数Q_n(s,a)，学习率α按照反比例函数规律逐渐减小为0；(6)重复步骤(2)‑(5)，直至Q值收敛，即更新前后Q值差值小于门限值；(7)返回步骤(3)选择动作，接入最佳网络。本发明能有效降低语音业务阻塞率和数据业务丢包率，提高网络平均吞吐量。

Description

一种基于Q学习算法的网络选择方法

技术领域

本发明涉及一种基于Q学习算法的网络选择方法，属于电力无线通信技术领域。

背景技术

当前，随着电力行业的发展，电网规模逐渐扩大，网络拓扑日益复杂，当前的以光纤通信为主的电力通信主干网络已经不能满足各种业务的需求。对于远距离接入节点，直接铺设光纤线路费用高昂，缺乏实际价值；在突发性灾害事故下，光纤线路故障难以及时抢修；对于新建变电站，光纤线路建设数量大、工期长，常常会影响到变电站的投产使用。在这些有线通信无法发挥关键作用的领域，无线通信网络技术及其组网系统的应用能够提供优质的通信保障。

因而，无线通信技术在智能电网中发挥越来越重要的作用。目前，电力无线通信采用多种制式，包含230MHz电台专网、WiMax、GPRS公网、CDMA公网、LTE230和LTE1800等多种不同的网络。面对当前用户量大、业务类型复杂等情况，任何单一制式的网络都不能完全满足用户需求，从而表现为多种异构网络共存，优势互补的局面。如何选择一种高可靠、高适应性的无线通信选择方案已成为电力通信领域研究的热点。

常用的网络选择法大都为多属性决策方法，如层次分析法、模糊逻辑法、基于理想排序法和灰度关联法等。虽然多属性决策方法能够比较全面的考虑网络参数，但因其需要根据经验或者专家判断事先确定网络权重，这会导致该类网络选择算法对网络环境的适应性较差，在复杂多变的网络环境下不能动态选择合适的接入网络。

发明内容

针对现有技术存在的不足，本发明目的是提供一种基于Q学习算法的网络选择方法，能有效降低语音业务阻塞率和数据业务丢包率，提高网络平均吞吐量。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明的一种基于Q学习算法的网络选择方法，包括以下几个步骤：

(1)初始化Q值表，设置折扣因子γ和学习率α；

(2)确定设定时刻到达业务的类型k(语音业务或数据业务)和当前230MHz无线网及1.8GHz无线网的负载状态BW_i(i＝1,2)(添加业务类型、网络种类、网络状态说明)，得到当前的网络状态s_n(状态s根据公式(9)得到)；

(3)在动作集合A中选择可用动作，并记录该动作以及下一个网络状态s_n+1；

(4)根据执行选择动作后的负载状态，计算回报函数r；

(5)更新Q值函数Q_n(s,a)，学习率α按照反比例函数规律逐渐减小为0；

(6)重复步骤(2)-(5)，直至Q值收敛，即更新前后Q值差值小于门限值；

(7)返回步骤(3)选择动作，接入最佳网络。

Q学习算法具体方法如下：

假设在第n步，智能体记录当前环境的状态s_n∈S，并根据此时的状态选择动作a_n∈A，在该动作完成后会产生一个即时回报函数r_n(a_n)，该回报由当前状态s_n和选择动作a_n唯一决定；

在搜索策略π:s→a下，状态s的值定义为

其中，π(s)为在状态s下根据策略选择的动作；γ∈[0,1]为折扣因子，反映延时奖赏的相对比例；P_sny[a_n]＝Prob[y_n＝y|s_n,a_n]为在第n步操作中在环境状态s_n和选择动作a_n下，环境状态转移到y_n的概率；y为所有状态y_n的集合；由该式可得，状态s的值的实际含义就是智能体在执行策略π选择的动作后立即得到回报r_n，并以概率P_sy转移一个状态值为V^π(y)的有效状态；

根据DP定理，至少存在一个最佳策略π^*使得状态s的值取到最大值，记为

其中，a和r_s(a)分别表示选择的动作与在状态s下该动作产生的回报值；

对于一个策略π，定义Q值函数为

Q值是对采取设定动作后的回报值的预测估计；

由式(2)和(3)可以看出，

假设此时使得Q值最大的动作为a^*，则最佳策略表示为

π^*(s)＝a^* (5)

智能体学习Q值函数，其选择最佳策略，即执行使Q值最大的动作；

Q值的学习通过迭代来完成，每个迭代过程更新一个Q值Q(s,a)，为了更新所有的Q值，智能体不断与环境交互；当Q值多次迭代后不再发生大改变时，认为Q值收敛，Q学习过程结束；在每一次迭代中，Q值按照式(6)方法更新

Q_n(s,a)＝(1-α_n)Q_n-1(s,a)+α_n(r_n+γmaxQ_n(s',a')) (6)

其中，α∈[0,1)为学习率；s'和a'为采取选择动作后得到的状态，即与其对应的可选择的动作；

当回报函数r_n有界，学习率0≤α_n<1，且满足式(7)时

Q值函数Q(s,a)总以概率1收敛，即

Q学习算法由反映当前环境的网络状态S＝{s₁,s₂,…,s_M}，智能体选择的动作集合A＝{a₁,a₂,…,a_N}，回报函数r以及搜索策略π:S→A构成。

步骤(4)中，所述回报函数r的计算方法如下：

根据230MHz无线专网和1.8GHz无线专网两种网络的负载大小将每个网络的负载状态分为空闲、繁忙和阻塞三个状态，则在考虑到达业务为数据业务和语音业务两种情况下，状态向量表示为

s＝[BW₁,BW₂,k] (9)

其中，BW₁和BW₂为两种网络的负载状态，取值为0，1或2，分别代表网络空闲、繁忙、阻塞；k为到达业务类型，k取值为0或1；故网络共有3×3×2＝18个不同状态。

在网络模型中，用户采取动作集合为其接入的网络，即

A＝{1,2} (10)

其中，1表示用户接入230MHz无线专网；2表示用户接入1.8GHz无线专网；由此可得，Q值函数Q(s,a)为一18行2列的数值列表，在迭代过程中不断更新。

在每个状态下执行动作后就能获得立即回报，如果用户能成功接入网络，请求业务能够执行，则获得立即回报

r(a₁)＝r(a₂)＝1 (11)

若此时网络正忙，不能完成相应业务，则回报为

r(a₁)＝r(a₂)＝0 (12)。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

①迭代更新Q值函数，因而能适应动态变化的网络选择问题；

②最优策略考虑网络负载状态，能有效降低语音阻塞率和数据丢包率，提高网络平均吞吐量。

附图说明

图1是网络覆盖模型；

图2是增强学习算法原理图；

图3是网络选择流程图；

图4是语音阻塞率随业务到达率变化图；

图5是数据丢包率随业务到达率变化图；

图6平均吞吐量随业务到达率变化图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

本发明将Q学习算法与电力无线通信网络选择问题结合，根据当前网络负载状态和业务类型通过迭代逐步构造Q值函数,利用Q学习算法寻找最优策略，选择最佳接入网络。该算法的优点在于能适应动态变化的网络选择问题；此外将最优策略设为网络负载状态的函数，通过Q学习算法的在线学习能力，该算法能够有效提升网络吞吐量，降低业务阻塞率，提高网络选择性能。

一、系统模型

随着能源互联网的发展，为实现电力业务终端全覆盖，迫切需要建设宽窄带融合、广覆盖和深度覆盖结合的电力无线通信网络。因此，无线通信网络选择230MHz无线专网、1.8GHz无线专网两种网络混合分布模型，实现网络覆盖区域互补，如图1所示。考虑电力通信系统中两种常用的业务：语音业务与数据业务。覆盖范围内用户根据其业务需求根据网络选择算法连接至最佳网络。

在设定的网络场景中，230MHz无线专网的覆盖范围大于1.8GHz无线专网。在只有一种网络覆盖区域的用户直接连接至该网络，只考虑在两种网络重叠区域的网络选择问题。在实际环境中，用户业务随机到达，其持续时间以及资源需求量为一个随机变量，因而网络状态也是多变的。若仅仅对两种网络的各种属性加权，利用多属性决策法选择效用函数或判决函数最优的网络，由于该类方法的权值需要根据经验判断或者由专家评定，往往不能反映网络状态的动态变化情况。

为此，通过将Q学习算法引入到网络选择中，使其具有一定的学习能力，能够适应动态变化的网络，在考虑网络负载和业务类型的情况下，为每个会话寻找到最优的网络选择策略。

二、Q学习原理

增强学习是关于智能体通过外部环境的简单标量信号来不断演进，同时分析其动作后果的一系列问题集合。它有着学习主动性和自适应能力强等特点，在自动控制领域以及无线通信领域广泛运用。一般而言，基本的增强学习模型由反映当前环境的状态集合S＝{s₁,s₂,…,s_M}，智能体可以选择的动作集合A＝{a₁,a₂,…,a_N}，回报函数r以及搜索策略π:S→A构成，其基本原理如图2所示。智能体在明确的目标下，通过感知环境信息和搜索策略选择最优的动作，引起环境状态的改变并得到即时回报，更新评估函数，在完成该次学习后随后进行新一轮学习直至满足的条件终止学习。

Q学习算法是由Watkin在1989年提出的一种无模型增强学习算法。假设在第n步，Agent记录当前环境的状态s_n∈S，并根据此时的状态选择动作a_n∈A，在该动作完成后会产生一个即时回报函数r_n(a_n)，该回报由当前状态s_n和选择动作a_n唯一决定。

在搜索策略π下，状态s的值定义为

其中，π(s)为在状态s下根据策略选择的动作；γ∈[0,1]为折扣因子，反映延时奖赏的相对比例；P_sny[a_n]＝Prob[y_n＝y|s_n,a_n]为在第n步操作中在环境状态s_n和选择动作a_n下，环境状态转移到y_n的概率。由该式可得，状态s的值的实际含义就是智能体在执行策略π选择的动作后立即得到回报r_n，并以概率P_sy转移一个状态值为V^π(y)的“有效”状态。

根据DP(Dynamic programming)定理，至少存在一个最佳策略π^*使得状态s的值取到最大值，记为

对于一个策略π，定义Q值函数(也称为动作值函数)为

也就是说，Q值是对采取某个动作后的回报值的预测估计。

由式(2)和(3)可以看出，

假设此时使得Q值最大的动作为a^*，则最佳策略可以表示为

π^*(s)＝a^* (5)

所以，如果智能体能学习Q值函数，则其很容易选择最佳策略，即执行使Q值最大的动作。

在实际过程中，Q值的学习通过迭代来完成。每个迭代过程更新一个Q值Q(s,a)，为了更新所有的Q值，智能体需要不断与环境交互。当Q值多次迭代后不再发生较大改变时，可以认为Q值收敛，Q学习过程结束。在每一次迭代中，Q值可以按照式(6)方法更新

Q_n(s,a)＝(1-α_n)Q_n-1(s,a)+α_n(r_n+γmaxQ_n(s',a')) (6)

其中，α∈[0,1)为学习率；s'和a'为采取选择动作后得到的状态即与其对应的可选择的动作。

当回报函数r_n有界，学习率0≤α_n<1，且满足式(7)时

Q值函数Q(s,a)总以概率1收敛，即

三、Q学习要素设计

本节将上文介绍的Q学习算法运用到图1场景的网络选择问题中，使其能适应动态变化的网络选择问题。

由上文可得，Q学习主要由状态集合s，智能体可以选择的动作集合A，回报函数r以及搜索策略π构成。要将Q学习应用到电力无线通信系统的网络选择问题中，先要将Q学习的各个要素映射到网络模型中。

1)状态空间s

网络状态主要与网络负载状况和到达业务类型有关。根据230MHz无线专网和1.8GHz无线专网两种网络的负载大小将每个网络的负载状态分为空闲、繁忙和阻塞3个状态，则在考虑到达业务为数据业务和语音业务两种情况下，状态向量可以表示为

s＝[BW₁,BW₂,k] (9)

其中，BW₁和BW₂为两种网络的负载状态，取值为0，1或2，分别代表网络空闲、繁忙、阻塞；k为到达业务类型，因为本发明只考虑语音和数据两种业务，所以k取值为0或1。故网络共有3×3×2＝18个不同状态。

2)动作集合A

在图1所示的网络模型中，共考虑两种网络，用户需要根据网络选择算法选择一个最合适的网络接入，所以用户可以采取动作集合为其可以接入的网络，即

A＝{1,2} (10)

其中，1表示用户接入230MHz无线专网；2表示用户接入1.8GHz无线专网。由此可得，Q值函数Q(s,a)为一18行2列的数值列表，在迭代过程中不断更新。

3)回报函数r

在每个状态下执行动作后就能获得立即回报，设立即回报与网络负载状态有关。如果用户能成功接入网络，请求业务能够执行，则获得立即回报

r(a₁)＝r(a₂)＝1 (11)

若此时网络正忙，不能完成相应业务，则回报为

r(a₁)＝r(a₂)＝0 (12)

四、算法流程

考虑网路负载状态和到达业务属性，基于Q学习方法，可以得到230MHz无线网和1.8GHz无线网的网络选择方法，图3是基于Q学习网络选择算法的流程图，其具体步骤如下：

(1)初始化Q值表，设置折扣因子γ和学习率α；

(2)确定某时刻到达业务的类型k和当前两个网络的负载率BW_i，得到当前的状态s_n；

(3)在动作集A中选择可用动作，并记录该动作以及下一个状态s_n+1；

(4)根据执行选择动作后的网络状态，计算立即回报函数r；

(5)根据式(6)更新Q值函数Q_n(s,a)，学习率α按照反比例函数规律逐渐减小为0；

(7)返回步骤(3)选择动作，接入最佳网络。

五、仿真与分析

本发明考虑电力无线通信系统中230MHz无线网和1.8GHz无线网的异构场景，其网络参数如表1所示。Q学习算法中，折扣因子为γ＝0.8；学习因子为α＝0.5。假设语音业务到达间隔服从60s的泊松分布，持续时间服从80s的指数分布，若网络在业务持续时间内没有足够的资源，则该语音业务被阻塞；数据业务到达率间隔从的20s的指数分布，持续时间服从80s的指数分布，若网络不能提供该数据所需的资源，则该数据业务被丢弃。语音业务和数据业务所需带宽分别为12.2kbps和32kbps。

表1网络参数

仿真中使用本发明的Q学习网络选择算法与随机网络选择方法，对比两种网络选择方法的性能。图4显示语音阻塞率随着业务到达率增加的变化趋势。可以看出，随着业务到达率的增加，网络越来越繁忙，语音业务的阻塞率逐渐增加。因为Q学习算法考虑网络负载情况，每次迭代中选择使Q值函数最大的动作，能够更好的适应网络的动态变化，因而能获得较低的语音业务阻塞率。图5显示数据丢包率随着两种业务增加的变化趋势。与语音业务类似，随着业务到达率增加，丢包率逐渐增大，但Q学习算法能有效降低数据业务丢包率，提高网络选择性能。

图6显示网络平均吞吐量随业务增加的变化趋势。因为Q学习算法能动态适应网络的变化情况，降低语音阻塞率和数据丢包率，所以能有效增加网络平均吞吐量，提高网络资源利用率。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于Q学习算法的网络选择方法，其特征在于，包括以下几个步骤：

(1)初始化Q值表，设置折扣因子γ和学习率α；

(2)确定设定时刻到达业务的类型k和当前230MHz无线网及1.8GHz无线网的负载状态BW_i，i＝1,2，得到当前的网络状态s_n；

(4)根据执行选择动作后的负载状态，计算回报函数r；

(7)返回步骤(3)选择动作，接入最佳网络。

2.根据权利要求1所述的基于Q学习算法的网络选择方法，其特征在于，Q学习算法具体方法如下：

在搜索策略π:s→a下，状态s的值定义为

<mrow> <msup> <mi>V</mi> <mi>&pi;</mi> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>r</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>&pi;</mi> <mo>(</mo> <mi>s</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <mi>&gamma;</mi> <munder> <mo>&Sigma;</mo> <mi>y</mi> </munder> <msub> <mi>P</mi> <mrow> <mi>s</mi> <mi>y</mi> </mrow> </msub> <mo>&lsqb;</mo> <mi>&pi;</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <msup> <mi>V</mi> <mi>&pi;</mi> </msup> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中，π(s)为在状态s下根据策略选择的动作；γ∈[0,1]为折扣因子，反映延时奖赏的相对比例；为在第n步操作中在环境状态s_n和选择动作a_n下，环境状态转移到y_n的概率；y为所有状态y_n的集合；由该式可得，状态s的值的实际含义就是智能体在执行策略π选择的动作后立即得到回报r_n，并以概率P_sy转移一个状态值为V^π(y)的有效状态；

<mrow> <msup> <mi>V</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>V</mi> <msup> <mi>&pi;</mi> <mo>*</mo> </msup> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mi>a</mi> </munder> <mo>{</mo> <msub> <mi>r</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&gamma;</mi> <munder> <mo>&Sigma;</mo> <mi>y</mi> </munder> <msub> <mi>P</mi> <mrow> <mi>s</mi> <mi>y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>)</mo> </mrow> <msup> <mi>V</mi> <msub> <mi>&pi;</mi> <mo>*</mo> </msub> </msup> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

对于一个策略π，定义Q值函数为

<mrow> <msup> <mi>Q</mi> <mi>&pi;</mi> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>r</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&gamma;</mi> <munder> <mo>&Sigma;</mo> <mi>y</mi> </munder> <msub> <mi>P</mi> <mrow> <mi>s</mi> <mi>y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>&pi;</mi> <mo>(</mo> <mi>s</mi> <mo>)</mo> <mo>)</mo> </mrow> <msup> <mi>V</mi> <mi>&pi;</mi> </msup> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

Q值是对采取设定动作后的回报值的预测估计；

由式(2)和(3)可以看出，

假设此时使得Q值最大的动作为a^*，则最佳策略表示为

π^*(s)＝a^* (5)

Q_n(s,a)＝(1-α_n)Q_n-1(s,a)+α_n(r_n+γmaxQ_n(s',a')) (6)

当回报函数r_n有界，学习率0≤α_n<1，且满足式(7)时

<mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>&infin;</mi> </munderover> <msubsup> <mi>&alpha;</mi> <mi>n</mi> <mi>i</mi> </msubsup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&infin;</mi> <mo>,</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>&infin;</mi> </munderover> <msup> <mrow> <mo>&lsqb;</mo> <msubsup> <mi>&alpha;</mi> <mi>n</mi> <mi>i</mi> </msubsup> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> <mo><</mo> <mi>&infin;</mi> <mo>,</mo> <mo>&ForAll;</mo> <mi>x</mi> <mo>,</mo> <mi>a</mi> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

Q值函数Q(s,a)总以概率1收敛，即

<mrow> <mi>Q</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>&RightArrow;</mo> <msup> <mi>Q</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>n</mi> <mo>&RightArrow;</mo> <mi>&infin;</mi> <mo>,</mo> <mo>&ForAll;</mo> <mi>x</mi> <mo>,</mo> <mi>a</mi> <mo>.</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

3.根据权利要求1所述的基于Q学习算法的网络选择方法，其特征在于，Q学习算法由反映当前环境的网络状态S＝{s₁,s₂,…,s_M}，智能体选择的动作集合A＝{a₁,a₂,…,a_N}，回报函数r以及搜索策略π:S→A构成。

4.根据权利要求3所述的基于Q学习算法的网络选择方法，其特征在于，步骤(4)中，所述回报函数r的计算方法如下：

s＝[BW₁,BW₂,k] (9)

5.根据权利要求3所述的基于Q学习算法的网络选择方法，其特征在于，在网络模型中，用户采取动作集合为其接入的网络，即

A＝{1,2} (10)

6.根据权利要求3所述的基于Q学习算法的网络选择方法，其特征在于，在每个状态下执行动作后就能获得立即回报，如果用户能成功接入网络，请求业务能够执行，则获得立即回报

r(a₁)＝r(a₂)＝1 (11)

若此时网络正忙，不能完成相应业务，则回报为

r(a₁)＝r(a₂)＝0 (12)。