CN107889195A

CN107889195A - 一种区分业务的自学习异构无线网络接入选择方法

Info

Publication number: CN107889195A
Application number: CN201711133779.4A
Authority: CN
Inventors: 韩萌; 苏俭
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2018-04-06
Anticipated expiration: 2037-11-16
Also published as: CN107889195B

Abstract

本发明公开了一种区分业务的自学习异构无线网络接入选择方法，属于无线网络接入选择技术领域。当移动终端业务到来时，本发明通过接入选择管理器为终端业务接入一个合适的无线网络，不仅能够满足终端的各类业务需求，该方法综合考虑网络服务质量和用户体验，针对不同类型的业务采用不同的接入选择准则，通过赌博机模型的自学习机制，在不中断通信的情况下反映网络状态信息的动态变化，及时调整接入选择。

Description

一种区分业务的自学习异构无线网络接入选择方法

技术领域

本发明属于无线网络接入选择技术领域，特别涉及一种区分业务的自学习异构无线网络接入选择方法。

背景技术

随着无线网络技术多元化趋势日益明显，各类无线网络协作互补所构成的异构无线网络，尤其是3G/4G蜂窝移动通信网络、IEEE802系列的无线局域网和无线城域网等构成的异构无线网络，已经成为无线网络发展融合的必然趋势。合适的接入选择方法是实现异构无线网络资源管理、提升网络容量与用户体验的关键。

现有异构无线网络接入选择方法存在以下问题：网络业务发展趋于多样化，用户个性化需求越来越突出，由此产生的不同类型业务需求也日益明显；现有接入选择方法法多侧重采用QoS作为网络选择标准，强调整体网络性能，忽略了不同用户的具体需求，虽然一般实现了整体网络性能的最优，但不能保证具体用户的体验；网络状态信息的可用性和动态变化未得到充分考虑，传统方法都是对最优网络的一次接入，一旦接入整个业务持续时长内保持接入，实际上并不能保证整个业务持续时长内接入的均为最优网络。

近年来，国内外学者在异构无线网络接入选择问题方面进行了深入的研究与尝试。文献(Q.Song,A.Jamalipour.Network selection in an integrated wireless LANand UMTS environment using mathematical modeling and computing techniques[J].IEEE Wireless Communications,2005,12(3):42-48.)提出的基于层次分析法的灰度关联接入选择算法中，采用典型的多属性决策方法确定业务属性的权重，通过拟合业务权重与网络属性的关联度选取最优接入网络，该方法综合考虑了多种业务属性，同时也区别不同类型的业务设定了针对性的选择标准，但其存在只针对当前网络状态一次决策的缺陷，不能对保证业务始终接入最优网络。文献(C.Sun,E.Stevens-Navarro,V.Shah-Mansouri,et al.A constrained MDP-based vertical handoff decision algorithm for 4Gheterogeneous wireless networks[J].Wireless Networks,2011,57(4):1243-1254.)将其它接入选择的目标作为当前决策目标的约束条件，实现所有当前目标的连续决策，采用值迭代算法实现最大化总回报的网络，即最优网络的选取，该方法实现了最优网络的连续决策，不中断通信的前提下动态感知网络状态变化，通过总回报进行接入反馈，但其缺点是回报函数定义只侧重网络端的Qos属性参数，不能反映用户体验质量。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种区分业务的自学习异构无线网络接入选择方法，当移动终端业务到来时，为终端业务接入一个合适的无线网络，不仅能够满足终端的各类业务需求，该方法综合考虑网络服务质量和用户体验，针对不同类型的业务采用不同的接入选择准则，通过赌博机模型的自学习机制，在不中断通信的情况下反映网络状态信息的动态变化，及时调整接入选择。

本发明的一种区分业务的自学习异构无线网络接入选择方法，包括下列步骤：

步骤1：设置各无线接入点节点信息，并发送给接入选择管理器，所述节点信息包括：网络服务质量属性参数(如带宽、时延、抖动和丢包率等)的上下门限、可捕获的终端的移动速度上下门限和网络接入成本；

步骤2：无线接入点收到来自终端的终端业务请求后，将所述终端业务请求和所述无线接入节点下的当前网络的服务质量参数一同发送给接入选择处理器；

所述终端业务请求包括：终端的可用网络集合(用A_p表示)、终端的移动速度、业务类型(如会话类、流类、交互类和背景类等)，其中系统网络集合A＝{1,2,...,M}，M为系统网络数。

步骤3：接入选择处理器按接收顺序对收到的终端业务请求进行最优网络选择，确定当前最优稳定网络策略：

301：确定当前决策最优网络：

为当前终端业务请求中的业务类型选择当前最优接入网络：若对应业务类型的已处理数量T_s(i)小于系统的网络总数M，则顺序接入当前终端业务请求至终端的可用网络集合中未接入过的网络；否则分别根据公式计算当前决策时，终端的可用网络集合中各网络被选中概率p_m(i)，取p_m(i)最大的网络作为当前终端业务请求的接入网络；其中m为网络标识符，i为当前决策次数，s为业务类型标识符，表示上一决策时将业务类型为s的终端业务请求接入网络m的回报均值，其中首次决策时，上一决策时的回报均值为预设值，e为自然底数，T为表示预置的温度系数，利用T可以实现探索与利用的权衡，T越小，各个臂被选中的概率的差别就越大，T越大，各个臂被选中的概率越趋向于相同；

302：确定当前最优稳定网络策略：

基于当前业务类型s所对应的最优接入网络，在接入策略集中匹配对应的接入策略，得到当前决策的接入策略θ，所述接入策略为业务类型与网络标识符的映射关系，并为每个接入策略设置唯一索引符；

对各接入策略θ的回报均值μ_θ进行遍历，将最大回报均值μ_θ对应的接入策略θ作为当前决策的最优稳定网络策略θ^*，其中回报均值μ_θ为1×K维的矩阵，K表示业务类型数，即回报均值μ_θ的列矢量为不同业务类型的回报均值μ_θ(s)，且μ_θ(s)的初始值为预设值；

步骤4：接入选择管理器根据当前最优接入网络计算当前决策的总回报值r(i)：

分别基于当前最优接入网络，计算终端的移动速度、网络服务质量属性参数和网络接入成本的当前归一化回报值，再对各归一化回报值进行加权求和得到当前决策的总回报值r(i)；

其中归一化回报值的计算公式为：其中a_m网络m的接入选择结果，且a_m∈{0,1}，0表示未接入网络m，1表示接入网络m，a＝(a₁,a₂,…,a_M)^T，m＝1,2,…,M；f_ζ,m表示对应参量ζ的回报函数，其中参量ζ表示终端的移动速度、网络服务质量属性参数或网络成本，当ζ表示网络成本时，f_ζ,m为对应网络m的网络接入成本；当ζ表示终端的移动速度时，若终端的移动速度在移动速度上下门限区间范围以内，则f_ζ,m为第一速度预设值(如设置为)；否则f_ζ,m为第二速度预设值(如设置为负无穷)，且第一速度预设值大于第二速度预设值；当ζ表示网络服务质量属性参数时，基于网络服务质量属性参数的上下门限将网络服务质量属性参数的取值区间分为三段，并为各段设定对应的取值，基于当前最优接入网络的网络服务质量属性参数的取值所属的取值区间，得到对应f_ζ,m值，如其中ζ_m表示当前网络服务质量属性参数，ζ_max,ζ_min表示ζ的上下限；

步骤5：接入选择处理器更新相关统计信息：

更新当前业务类型s的已处理数量T_s(i)；

更新当前业务类型s接入网络m的次数T_m,s(i)；

更新当前业务类型s接入网络m的回报均值更新方式为：其中首次决策时，上一决策时的回报均值为预设值；

更新当前业务类型s对应的接入策略θ的回报均值μ_θ，即更新μ_θ(s)为：μ_θ(s)＝[μ_θ(s)*Tp(idx)+r(i)]/(Tp(idx)+1)，Tp(idx)表示接入策略θ的接入次数，其中idx为接入策略θ的索引符；

更新接入策略θ的决策次数Tp(idx)为：Tp(idx)＝Tp(idx)+1；

更新记录业务类型的序列Tst，将第i次决策的业务类型Tst(i)设置为当前业务类型s；

步骤6：计算当前决策的总后悔值其中，μ^*(Tp_s(t))表示第t次决策的最优稳定网络策略θ^*的回报均值中的业务类型s的回报均值；

判断最近两次决策的总后悔值的插值是否小于预设门限，若是，则将当前最优稳定网络策略θ^*作为无线网络接入选择处理结构；否则，继续执行步骤步骤3。

进一步的，步骤4中，设置各归一化回报值r_ζ(i)的权重具体为：

对终端的移动速度、网络接入成本和总网络服务质量需求的预设重要程度值进行两两比较，获取两者间的重要程度系数，构建第一判决矩阵H₁；

对网络服务质量属性参数预设重要程度值进行两两比较，设置两者间的重要程度系数，构建第二判决矩阵H₂；

分别求解第一、第二判决矩阵的最大特征值和特征向量；

分别计算两个判决矩阵的一致性比例值其中n表示矩阵元素数，R.I.是随矩阵阶数取值不同的预设值，阶数越大，取值越大；

若两个判决矩阵的均小于预设门限，则对两个判决矩阵的最大特征向量进行归一化处理，得到向量η₁和η₂；否则，重新构造两个判决矩阵；

将向量η₁和η₂中对应终端的移动速度、网络服务质量属性参数和网络接入成本的值作为对应的归一化回报值r_ζ(i)的权重。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、综合考虑网络服务质量和用户体验，制定网络接入选择标准。

2、考虑区分业务的接入选择。针对不同类型的业务，区分设定接入选择标准。

3、实现动态调整的自学习接入选择。通过学习机制，在不中断通信的情况下反映网络状态信息的动态变化，及时调整接入选择策略。

附图说明

图1是本发明的多业务异构无线网络接入选择流程图；

图2是各类业务各网络选中率变化曲线示意图；

图3是总后悔值变化曲线示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

实施例

假设异构无线网络环境由LTE、WLAN1、WLAN2三个无线网络覆盖，系统中网络个数M＝3，三个网络的编号m依次为1、2、3，则该异构无线网络的可用网络集合可以表示为A＝{1,2,...,3}，用户终端类型均为单模单待终端，在该无线网络环境下，所有终端都有机会接入任意一个网络，采用离散状态空间表示网络状态信息的变化，将各网络m的Qos属性参数，按照最大最小阈值范围进行区间内等间隔划分，取划分点的值为离散值，与离散值不同的连续值，根据就近约等的原则近似取为离散值，确定各属性的最大单元值即可，各网络对应的Qos属性参数最大单元值以及终端在各网络的移动速度最大单元值见表1。

表1各网络Qos属性参数及终端在各网络的移动速度最大单元值列表

参见图1，对上述实施例的具体处理步骤如下：

S1、定义接入选择处理器处理的业务类型，并对接入选择管理器信息初始化，所述业务类型包括会话类、流类、交互类和背景类四类业务，分别用s＝1,2,3,4来表示，则得到业务类型集合分别用S＝{s|s＝1,2,3,4}来表示，其他相关信息初始化具体为：

将决策次数i的计数初始化为0，

将某类型业务s产生的个数T_s(i)初始化为0，T_s(i)＝0，

将某类型业务s接入网络m的次数T_m,s(i)初始化为0，T_m,s(i)＝0，

将某类型业务s接入网络m的回报统计均值初始化为0，

对策略索引编号为idx的接入策略θ的回报均值μ_θ进行初始化，所述接入策略是以最大化回报均值为目标的业务与网络编号映射关系集合，满足回报均值μ_θ是一个1×|S|维矩阵，μ_θ(s)表示策略θ下各类业务s接入对应网络m的回报均值，即对于μθ(s)的初始值为0，将策略索引编号为idx的接入策略θ的决策次数Tp(idx)初始化为0，对于Tp(idx)的初始值为0，

设置记录每次决策业务类型的变长序列Tst，其中Tst(i)表示第i次决策时的业务类型；

S2、设置各无线接入点相关信息，并向接入选择管理器汇报，具体为：

设置各无线接入点的网络Qos属性参数的最大最小门限，所述网络Qos属性参数包括带宽、时延、抖动、丢包率等，分别用B、D、J、L表示，

设置各Qos属性参数对应的最大最小门限，分别用U_B、L_B、U_D、L_D、U_J、L_J、U_L、L_L表示，Qos属性参数的最大最小门限如表2所示，

表2 Qos属性参数最大最小门限

设置终端移动速度的最大门限V_max＝8，最小门限V_min＝0，

设置各无线接入点对应的归一化网络成本分别为f_C,1＝1.1/1.2，f_C,2＝1，f_C,3＝1；

S3、终端用户产生业务请求，具体为：终端用户向其归属无线网络的无线接入点发送请求，汇报终端用户的可用网络集合A_p、当前终端移动速度v、业务类型s，所述可用网络集合A_p是终端用户根据接收信号强度确定的当前业务的可用网络集合；

S4、各无线接入点汇集终端业务请求，并将其和该无线接入节点下的当前网络相关信息一同汇报至接入选择管理器，具体为：

各无线接入点在收到终端请求后，将该无线接入点下所有终端用户的可用网络集合A_p、业务类型s汇报至接入选择管理器，将移动速度做近似离散处理后的单元值v，汇报至接入选择管理器，

各无线接入点将当前网络m的带宽、时延、抖动、丢包率做近似离散处理，将离散处理后的单元值β_m、τ_m、γ_m、l_m，汇报至接入选择管理器；

S5、接入选择管理器按序处理S4所述的终端业务请求，进行最优网络选择，并确定当前最优稳定策略，

所述最优稳定策略θ^*是具有最大回报均值的策略θ，满足其中，θ^*是1×|S|维矩阵，θ^*(s)表示任意业务s对应的最优网络编号，

具体实现步骤如下：

S51、确定当前决策最优网络，具体为：

对于当前请求中的业务类型s，

若满足T_s(i)＜M，即系统中已处理的类型为s的业务个数小于网络个数，则顺序接入当前业务s至未接入过的网络(可用网络集合A_p内的)；

若不满足T_s(i)＜M，则按照的概率选择网络接入，其中，p_m(i)是第i次决策网络m被选中的概率，是当前类型业务s接入网络m的回报均值，温度系数T是算法本身的参数，利用T可以实现探索与利用的权衡，T越小，各个臂被选中的概率的差别就越大，T越大，各个臂被选中的概率越趋向于相同，选择最大p_m(i)的网络作为对应的接入网络，从而确定接入网络的编号m；

S52、确定当前最优稳定策略，具体为：

对当前决策的各接入策略θ对应的回报均值μ_θ进行遍历，最大回报均值对应的策略即为最优策略θ^*，即由于|S|＝4，M＝3，则该系统中存在M^|S|＝81组策略，接入策略θ与策略索引编号idx之间的映射关系表可以表示为表3，实际应用中确定最优策略索引编号idx^*，再通过映射关系表获取具体的最优策略θ^*；

S6、接入选择管理器根据接入结果计算当前回报值，具体为：

S61、接入选择管理器确定接入选择影响属性，包括带宽、时延、抖动、丢包等网络Qos属性参数以及终端移动速度，网络成本等，计算各属性的归一化回报值，具体为：

多模移动终端在网络覆盖范围内自由移动，将当前接入结果定义为a＝(a₁,...,a_m,...,a_M)^T，其中，对于0表示未接入该网络，1表示接入该网络，结合S5所确定的接入网络编号m，当前接入结果可以表示为a＝(0,...,0,1,0,...,0)^T，其中a_m＝1，其他位置为0，

将当前请求终端的移动速度v和接入结果a，代入终端移动速度归一化回报函数中，计算当前移动速度的归一化回报值r_v(i)，其中，是网络m下终端移动速度v的回报函数，V_max和V_min是S2所确定的终端移动速度的最大最小门限。

表3策略对照表

将接入结果a代入网络成本归一化回报函数计算归一化回报函数值r_C(i)，其中c＝(f_C,1,...,f_C,m,...,f_C,M)是S2所确定的各个接入点汇报至接入选择管理器的网络成本，

将当前各网络的带宽属性β和接入结果a，代入带宽归一化回报函数中，计算带宽归一化回报值r_B(i)，其中，表示网络m的带宽回报函数，β＝(β₁,···,β_m,···,β_M)表示各网络当前决策的带宽，U_B和L_B是S2所确定的带宽最大最小门限，

将当前各网络的时延属性τ和接入结果a，代入时延归一化回报函数计算时延归一化回报值r_D(i)，其中表示网络m的时延回报函数，τ＝(τ₁,···,τ_m,···,τ_M)表示各网络当前决策的时延，U_D和是S2所确定的时延最大最小门限，

将当前各网络的抖动属性γ和接入结果a，代入抖动归一化回报函数中，计算抖动归一化回报值r_J(i)，其中表示网络m的抖动回报函数，γ＝(γ₁,···,γ_m,···,γ_M)表示各网络当前决策的抖动，U_J和L_J是S2所确定的抖动的最大最小门限，

将当前各网络的丢包率属性l和接入结果a，代入丢包率归一化回报函数中，计算丢包率归一化回报值r_L(i)，其中表示网络m的丢包率回报函数，l＝(l₁,···,l_m,···,l_M)表示各网络当前决策的丢包率，U_L和L_L是S2所确定的丢包率的最大最小门限；

S62、根据S61所述的接入选择影响属性，接入选择管理器确定各属性相对重要程度，建立判决矩阵，计算各属性权重；

进一步地，S62所述影响接入选择属性的权重的计算过程为

步骤A、根据属性的重要性是否与业务类型相关，将影响接入选择的属性分为两类，第一类属性与业务类型无关，包括终端移动速度、网络成本等，第二类属性中，不同类型的业务会对其有不同需求，包括带宽、时延、抖动、丢包率等网络Qos属性参数；

步骤B、对两类属性分别建立判决矩阵，具体为：

与业务无关的终端移动速度、网络成本等属性和总QoS需求相结合，将上述各属性的重要程度两两做比较，采用0-9标度的方式来标识各属性两两之间的重要程度，数值越大表示重要程度越高，根据具体的属性重要程度，构造判决矩阵各属性在判断矩阵H中的行列关系如表3，h_ij表示第i个属性与第j个属性之间的重要程度关系，如，h₁₁＝1表示网络成本和自身相比重要性相同，h₂₃＝4表示总QoS需求比移动速度重要，重要程度系数是4，其中，判决矩阵H满足如下约束条件：1)h_ij＞0，2)h_ji＝1/h_ij，3)h_ii＝1，

表3判断矩阵H中各属性的行列关系

与业务相关的带宽、时延、抖动和丢包率等Qos属性参数，可以根据当前业务类型s的具体网络QoS需求，将上述各属性的重要程度两两做比较，构造判决矩阵H_s，H₁H₂H₃H₄分别表示会话类、流类、交互类和背景类的QoS判决矩阵，四种业务典型的QoS判决矩阵分别如表4-表7所示，当前业务类型对应的QoS判决矩阵同样满足上述的约束条件；

表4会话类Qos属性参数判断矩阵

表5流类Qos属性参数判断矩阵

表6交互类Qos属性参数判断矩阵

表7背景类Qos属性参数判断矩阵

步骤C、对步骤B所述的判决矩阵H和H_s，分别求解最大特征值和特征向量，

其中，通过求解H可得，对应的最大特征值λ_max＝3，接入成本、总QoS、移动速度的权重(ω_v,ω_C,ω_QoS)＝(0.1176,0.7059,0.1765)，记为η，

根据当前的业务类型s，根据H_s求取Qos属性参数权重η_s，

对于会话类，通过求解判决矩阵H₁可得，会话类最大特征值λ_{max_1}＝4.0104，时延、抖动、丢包、带宽的权重(ω_{B_1},ω_{D_1},ω_{J_1},ω_{L_1})＝(0.5132,0.2751,0.1376,0.0741)，记为η₁，代入一致性比例值公式C.R.≈0.0039＜0.1满足一致性检验，其中R.I.是随矩阵阶数取值不同的固定值，满足表8，

对于流类，通过求解判决矩阵H₂可得，流类最大特征值λ_{max_2}＝4.0104，时延、抖动、丢包、带宽的权重(ω_{B_2},ω_{D_2},ω_{J_2},ω_{L_2})＝(0.0651,0.2418,0.02418,0.4512)，记为η₂，代入一致性比例值公式C.R.≈0.0039＜0.1满足一致性检验，

表8不同阶判断矩阵随机一致性参数

对于交互类，通过求解判决矩阵H₃可得，流类最大特征值λ_{max_3}＝4.1861，时延、抖动、丢包、带宽的权重(ω_{B_3},ω_{D_3},ω_{J_3},ω_{L_3})＝(0.3618,0.0491,0.440,0.1451)，记为η₃，代入一致性比例值公式C.R.≈0.0697＜0.1满足一致性检验，

对于背景类，通过求解判决矩阵H₄可得，流类最大特征值λ_{max_3}＝4.0328，时延、抖动、丢包、带宽的权重(ω_{B_4},ω_{D_4},ω_{J_4},ω_{L_4})＝(0.0751,0.0751,0.5168,0.3329)，记为η₄，代入一致性比例值公式C.R.≈0.0123＜0.1满足一致性检验，

当前决策的移动速度、网络成本、带宽、时延、抖动、丢包率的权重(ω_v,ω_C,ω_B,ω_D,ω_J,ω_L)

可以表示为(η(1),η(2)·η_s,η(3))＝(ω_v,ω_QoS(ω_{B_s},ω_{D_s},ω_{J_s},ω_{L_s}),ω_C)，

若不满足C.R.<0.1，转入S62步骤B，对不满足一致性判断的各属性重新构造判决矩阵；

S63、根据S61所述的各属性的归一化回报值、S62所述的各属性权重，进行加权求和，r(i)＝ω_Cr_C(i)+ω_Vr_v(i)+ω_Br_B(i)+ω_Dr_D(i)+ω_Jr_J(i)+ω_Lr_L(i)所得即为当前决策的总回报值；

S7、接入选择管理器更新用于后续接入选择的有用信息，具体为：

接入选择管理器对于当前业务类型s，更新T_s(i)＝T_s(i)+1，

更新当前类型业务s接入网络m的次数T_m,s(i)＝T_m,s(i)+1，

更新业务s接入网络m的回报均值所述回报均值的更新方式可以表示为

更新当前业务s接入S51所得的网络m所满足的所有接入策略θ对应的回报均值μ_θ，

所述μ_θ的更新方式可以表示为μ_θ(s)＝[μ_θ(s)*Tp(idx)+r(i)]/(Tp(idx)+1)，其中，μ_θ(s)表示策略θ下，当前业务s接入对应网络θ(s)的回报均值Tp(idx)是S1所述的编号为idx的策略θ的接入次数，idx与θ之间的映射关系可通过S52所述的映射关系表获取，r(i)是S63所得的当前决策的回报值，

更新策略索引编号为idx的接入策略θ的决策次数Tp(idx)，令Tp(idx)＝Tp(idx)+1，

更新记录业务类型的序列Tst，令Tst(i)为当前业务类型s；

S8、判断当前接入选择结果是否收敛为最优稳定策略，具体为：

判断当前决策的总后悔值R(i)与上一决策的总后悔值R(i-1)的差值是否小于某一门限值，如|R(i)-R(i-1)|≤0.001，所述总后悔值是最优稳定策略接入结果与实际接入结果的回报差值，第i次决策的总后悔值R(i)可以表示为其中，μ^*是S52所确定的最优接入策略θ^*对应的回报均值μ^*，Tst(t)是S7所更新的业务类型的序列Tst中的元素，表示第t次决策的业务类型，μ^*(Tp_s(t))表示第t次决策最优稳策略下，业务类型s对应的回报均值，

若不满足上述门限条件，在下一决策跳转到S5，继续接入选择，

若满足上述门限条件，则收敛，结束循环，此时对应的策略即为最优稳定策略。

对以上方法进行仿真：比较10000次决策过程中，各类业务的各网络选中率变化曲线和总后悔值变化曲线如图2、3所示，本发明综合考虑网络服务质量和用户体验，针对不同类型的业务采用不同的接入选择准则，通过赌博机模型的自学习机制，在不中断通信的情况下反映网络状态信息的动态变化，及时调整接入选择。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种区分业务的自学习异构无线网络接入选择方法，其特征在于，包括下列步骤：

步骤1：设置各无线接入点节点信息，并发送给接入选择管理器，所述节点信息包括：网络服务质量属性参数的上下门限、可捕获的终端的移动速度上下门限和网络接入成本；

所述终端业务请求包括：终端的可用网络集合、终端的移动速度、业务类型；

301：确定当前决策最优网络：

为当前终端业务请求中的业务类型选择当前最优接入网络：若对应业务类型的已处理数量T_s(i)小于系统的网络总数M，则顺序接入当前终端业务请求至终端的可用网络集合中未接入过的网络；否则分别根据公式计算当前决策时，终端的可用网络集合中各网络被选中概率p_m(i)，取p_m(i)最大的网络作为当前终端业务请求的接入网络；其中m为网络标识符，i为当前决策次数，s为业务类型标识符，表示上一决策时将业务类型为s的终端业务请求接入网络m的回报均值，其中首次决策时，上一决策时的回报均值为预设值，e为自然底数，T为表示预置的温度系数；

302：确定当前最优稳定网络策略：

其中归一化回报值的计算公式为：其中a_m网络m的接入选择结果，且a_m∈{0,1}，0表示未接入网络m，1表示接入网络m，a＝(a₁,a₂,…,a_M)^T，上标T表示转置符号，m＝1,2,…,M；f_ζ,m表示对应参量ζ的回报函数，其中参量ζ表示终端的移动速度、网络服务质量属性参数或网络成本，当ζ表示网络成本时，f_ζ,m为对应网络m的网络接入成本；当ζ表示终端的移动速度时，若终端的移动速度在移动速度上下门限区间范围以内，则f_ζ,m为第一速度预设值；否则f_ζ,m为第二速度预设值，且第一速度预设值大于第二速度预设值；当ζ表示网络服务质量属性参数时，基于网络服务质量属性参数的上下门限将网络服务质量属性参数的取值区间分为三段，并为各段设定对应的取值，基于当前最优接入网络的网络服务质量属性参数的取值所属的取值区间，得到对应f_ζ,m值；

步骤5：接入选择处理器更新相关统计信息：

更新当前业务类型s的已处理数量T_s(i)；

更新当前业务类型s接入网络m的次数T_m,s(i)；

更新接入策略θ的决策次数Tp(idx)为：Tp(idx)＝Tp(idx)+1；

2.如权利要求1所述的方法，其特征在于，步骤4中，设置各归一化回报值r_ζ(i)的权重具体为：

分别求解第一、第二判决矩阵的最大特征值和特征向量；

3.如权利要求1或2所述的方法，其特征在于，步骤4中，第一速度预设值为

4.如权利要求3所述的方法，其特征在于，步骤4中，第二速度预设值为负无穷。

5.如权利要求1或2所述的方法，其特征在于，步骤4中，当ζ表示网络服务质量属性参数时，其中ζ_m表示当前网络服务质量属性参数，ζ_max,ζ_min表示ζ的上下限。

6.如权利要求1或2所述的方法，其特征在于，业务类型包括会话类、流类、交互类和背景类。

7.如权利要求1或2所述的方法，其特征在于，网络服务质量属性参数包括带宽、时延、抖动和丢包率。