CN111586809B - 一种基于sdn的异构无线网络接入选择方法及系统 - Google Patents

一种基于sdn的异构无线网络接入选择方法及系统 Download PDF

Info

Publication number
CN111586809B
CN111586809B CN202010271361.5A CN202010271361A CN111586809B CN 111586809 B CN111586809 B CN 111586809B CN 202010271361 A CN202010271361 A CN 202010271361A CN 111586809 B CN111586809 B CN 111586809B
Authority
CN
China
Prior art keywords
network
neural network
decision
target
observation data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010271361.5A
Other languages
English (en)
Other versions
CN111586809A (zh
Inventor
陈彦萍
吕宁
黄宇航
夏虹
高聪
王忠民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Posts and Telecommunications
Original Assignee
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Posts and Telecommunications filed Critical Xian University of Posts and Telecommunications
Priority to CN202010271361.5A priority Critical patent/CN111586809B/zh
Publication of CN111586809A publication Critical patent/CN111586809A/zh
Application granted granted Critical
Publication of CN111586809B publication Critical patent/CN111586809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • H04W48/18Selecting a network or a communication service
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于SDN的异构无线网络接入选择方法及系统,该方法包括步骤:在目标观测时间长度下,获取每个时刻环境中的目标观测数据;利用预设神经网络对目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取,得到当前时刻的状态向量;使用初始Q网络对状态向量进行处理,并对预设神经网络和初始Q网络进行训练,得到训练好的预设神经网络和目标Q网络;利用训练好的预设神经网络和目标Q网络计算当前时刻每个决策的评估值,并根据评估值选取目标决策,输出并执行目标决策。该接入选择方法可以使得任何一个移动设备都能够根据当前环境状况与自身状态选择最优的网络进行接入,从而满足确定性低时延,以保证用户的业务体验。

Description

一种基于SDN的异构无线网络接入选择方法及系统
技术领域
本发明属于通信技术领域,具体涉及一种基于SDN的异构无线网络接入选择方法及系统。
背景技术
工业互联网是推动未来网络发展的一个典型应用场景,是驱动未来互联网发展的关键动力之一,无论是5G时代还是后5G时代,其中确定性低时延是关键的技术需求。当前基于IETF(Internet Engineering Task Force,国际互联网工程任务组)的TCP/IP协议栈的互联网,其提供“尽力而为”的网络传送服务以及有限的QoS(Quality of Service,服务质量)保证。但在未来的工业连接上,不仅要提供确定的、及时的传送服务(in time,时延短),而且要提供确定的、准时的传送服务(on time,抖动小)。由于5G在室内覆盖上成本高,终端兼容性弱的限制,而新一代Wi-Fi 6在室内覆盖上已经克服了大带宽、大容量、低时延的挑战,可以支持VR/4K/AGV等大带宽低时延的关键应用,所以Wi-Fi网络与5G网络在大部分的场景里是可以相互协同,使得整个接入系统的服务最优。而由于移动终端业务的多样性、无线网络信道传输质量的差异性、无线网络信号的重叠性等因素,需要依靠网络接入选择算法保障用户能够接入到最适合的网络进行业务处理,而由于传统无线网络的封闭结构,使得接入选择方法难以部署。无线终端的移动性和无线信道的时变性,更是使得无线网络的接入选择面临的情况较为复杂。此外,传统架构中无线访问接入点(WirelessAccessPoint,AP)具有独立性,只能获取到与自身关联的终端信息,不同AP间缺少同步信息。
而基于深度Q学习网络DQN(Deep Q-learning Network)的异构无线网络接入选择算法,将终端的吞吐量作为DQN的奖励值,使用AP接收到终端的RSSI(Received SignalStrength Indication,接收的信号强度指示)信息表征终端在网络中所处的状态;通过将算法放置到实际的网络环境或者仿真平台进行训练,从而得到适用于对应的网络场景的切换判决策略。由于该算法所提供的切换判决算法采用了强化学习的方法,因此其具有针对不同网络环境的普适性以及应对网络变化的自适应性。基于DQN的切换判决算法与传统的切换判决算法相比,能够做出最佳的切换决策,并明显地提高终端在切换过程中的吞吐量。
然而,由于该算法只考虑了终端的RSSI因素作为终端在网络中所处的状态,而单一的RSSI指标并不能确切反映出网络中的实际状况,因此在该接入选择算法下,不能使得终端满足确定性低时延,且传统的DQN算法存在过估计(overestimate)问题,导致无法获得稳定有效的策略。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于SDN的异构无线网络接入选择方法及系统。本发明要解决的技术问题通过以下技术方案实现:
本发明实施例提供了一种基于SDN的异构无线网络接入选择方法,包括步骤:
S1、在目标观测时间长度下,获取每个时刻环境中的目标观测数据,输出所述目标观测数据;其中,所述目标观测数据包括若干属性;
S2、利用预设神经网络对所述目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取,得到当前时刻的状态向量;
S3、使用初始Q网络对所述状态向量进行处理,并利用Double DQN算法对所述预设神经网络和所述初始Q网络进行训练,得到训练好的预设神经网络和目标Q网络;
S4、利用训练好的所述预设神经网络和所述目标Q网络计算当前时刻每个决策的评估值,并根据所述评估值选取目标决策,输出所述目标决策;
S5、执行所述目标决策。
在本发明的一个实施例中,步骤S1包括:
S11、从环境中获取第j个接入点上的第一观测数据Pj
Figure BDA0002443268950000031
其中,Pj表示第j个接入点上的第一观测数据,n表示第一观测数据包括的属性个数,fk表示第一观测数据中第k个属性的值;
S12、获取在第i时刻环境中所有接入点上的第二观测数据Oi
Figure BDA0002443268950000032
其中,Oi表示在第i时刻的第二观测数据,m表示环境中的接入点的数量;
S13、输出由所述第二观测数据形成的目标观测数据O:
Figure BDA0002443268950000033
其中,O表示目标观测数据,l表示目标观测时间长度。
在本发明的一个实施例中,所述若干属性包括终端侧接收信号的强度、无线接入点的连接用户数、无线接入点的当前负载中的一种或多种。
在本发明的一个实施例中,步骤S2包括:
S21、利用多属性神经网络对所述目标观测数据进行多属性特征提取,得到属性特征B:
B=fANN(O;θANN)
其中,B表示属性特征,fANN表示多属性神经网络的非线性映射函数,θANN表示多属性神经网络中的可变参数;
S22、利用卷积神经网络对所述多属性特征进行空间特征提取,得到空间特征C;
C=fCNN(B;θCNN)
其中,C表示空间特征,fCNN表示卷积神经网络的非线性映射函数,θCNN表示卷积神经网络中的可变参数;
S23、利用循环神经网络对所述空间特征进行时序特征进行提取,得到状态向量S:
S=fRNN(C;θRNN)
其中,S表示状态向量,fRNN表示循环神经网络的非线性映射函数,θRNN表示循环神经网络中的可变参数。
在本发明的一个实施例中,步骤S3包括:
S31、根据环境中接入点的数量和每个设备接入的决策定义决策空间A:
Figure BDA0002443268950000041
其中,A表示决策空间,t表示环境中的接入点的数量,ai表示选择第i个设备接入的决策;
S32、使用所述初始Q网络对所述状态向量进行处理,得到当前时刻决策空间中每个决策的评估值;
S33、根据随机概率和当前时刻所述每个决策的评估值,从所述决策空间选取第一决策;
S34、获取当前时刻终端执行所述第一决策时的奖励值和下一时刻的目标观测数据;
S35、根据所述奖励值和所述下一时刻的目标观测数据计算所述Double DQN算法的损失函数;
S36、根据所述损失函数,使用随机梯度下降的方法更新所述预设神经网络中的可变参数和所述初始Q网络中的可变参数,得到训练好的预设神经网络和目标Q网络。
本发明的另一个实施例还提供了一种基于SDN的异构无线网络接入选择系统,包括环境模块、特征模块和策略模块,其中,
所述环境模块用于在目标观测时间长度下,获取每个时刻环境中的目标观测数据,输出所述目标观测数据,其中,所述目标观测数据包括若干属性;所述环境模块还用于检测并执行所述策略模块输出的策略行为;
所述特征模块连接所述环境模块,用于利用预设神经网络对所述目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取,得到当前时刻的状态向量;
所述策略模块连接所述环境模块和所述特征模块,用于使用初始Q网络对所述状态向量进行处理,并利用Double DQN算法对所述预设神经网络和所述初始Q网络进行训练,得到训练好的预设神经网络和目标Q网络,然后利用训练好的所述预设神经网络和所述目标Q网络计算当前时刻每个决策的评估值,根据所述评估值选取目标决策,并输出所述策略行为至所述环境模块。
在本发明的一个实施例中,所述若干属性包括终端接收信号的强度、无线接入点的连接用户数、无线接入点的当前负载中的一种或多种。
在本发明的一个实施例中,所述特征模块包括多属性神经网络模块、卷积神经网络模块和循环神经网络模块,其中,
所述多属性神经网络模块用于利用多属性神经网络对所述目标观测数据进行多属性特征提取,得到属性特征;
所述卷积神经网络模块用于利用卷积神经网络对所述多属性特征进行空间特征提取,得到空间特征;
所述循环神经网络模块用于利用循环神经网络对所述空间特征进行时序特征进行提取,得到所述状态向量。
与现有技术相比,本发明的有益效果:
本发明的接入选择方法通过对若干属性因素依次进行多属性特征提取、空间特征提取和时序特征进行提取,并使用Double DQN算法实现网络接入选择方法的训练,可以使得任何一个移动设备在一个5G和WIFI网络覆盖的区域内都能够根据当前的环境状况与自身的状态,选择最优的网络进行接入,从而满足确定性低时延,以保证用户的业务体验。
附图说明
图1为本发明实施例提供的一种基于SDN的异构无线网络接入选择方法的流程示意图;
图2为本发明实施例提供的一种基于SDN的异构无线网络接入选择系统的结构示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
软件定义网络(Software Defined Networking,SDN)的网络架构能够为WLAN提供一个集中管理平面。SDN控制器具有全局网络视角,可以获取所有AP及与之关联的终端的状态信息,如每个AP连接的客户端数目、流量负载、平均数据速率、平均接收信号强度(Received Signal Strength Indication,RSSI)值、运行模式及相邻AP等,为解决无线网络接入选择问题提供了新的方案。因此,本发明实施例以SDN架构下5G与WIFI网络之间的接入选择方法和系统为例进行说明。
实施例一
请参见图1,图1为本发明实施例提供的一种基于SDN的异构无线网络接入选择方法的流程示意图。该方法包括步骤:
S1、在目标观测时间长度下,获取每个时刻环境中的目标观测数据,输出目标观测数据;其中,目标观测数据包括若干属性。具体地,获取目标观测数据的过程为:
S11、从环境中获取第j个接入点上的第一观测数据Pj
Figure BDA0002443268950000071
其中,Pj表示第j个接入点上的第一观测数据,n表示第一观测数据包括的属性个数,fk表示第一观测数据中第k个属性的值。
本实施例中选择终端接收信号的强度(RSSI)、无线接入点(AP)的连接用户数、AP的当前负载作为Pj,Pj主要用来表征网络中的实际情况。
S12、获取在第i时刻环境中所有接入点上的第二观测数据Oi
Figure BDA0002443268950000081
其中,Oi表示在第i时刻的第二观测数据,m表示环境中的接入点的数量。
S13、输出由第二观测数据形成的目标观测数据O:
Figure BDA0002443268950000082
其中,O表示目标观测数据,l表示观测时间长度(代表选取并输出多长时间的观测数据)。
S2、利用预设神经网络对目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取,得到当前时刻的状态向量。
预设神经网络可以由一个复合神经网络组成,采用复合神经网络对目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取;也可以由依次连接的多属性神经网络、卷积神经网络和循环神经网络形成,采用依次连接的三个神经网络对目标观测数据进行多属性特征提取、空间特征提取和时序特征提取。本实施例中,采用依次连接的三个神经网络进行特征提取。具体包括步骤:
S21、利用多属性神经网络对目标观测数据进行多属性特征提取,得到属性特征。
本实施例中,多属性神经网络可以为人工神经网络。
具体地,多属性神经网络的传输公式定义为B:
B=fANN(O;θANN)
其中,B表示属性特征,fANN表示多属性神经网络的非线性映射函数,θANN表示多属性神经网络中的可变参数。
通过属性特征B可以从目标观测数据中反映出各个属性重要性。
本实施例中引入了包括终端侧接收信号的强度、无线接入点的连接用户数、无线接入点的当前负载的多属性因素进行判决,并且构建多属性神经网络对多属性神经因素进行特征提取,能保证终端在5G与WIFI共存的场景下选择最优的网络接入,以满足确定性低时延。
S22、利用卷积神经网络对多属性特征进行空间特征提取,得到空间特征。具体地,卷积神经网络的传输公式定义为C:
C=fCNN(B;θCNN)
其中,C表示空间特征,fCNN表示卷积神经网络的非线性映射函数,θCNN表示卷积神经网络中的可变参数。
空间特征C在B的基础上可以从目标观测数据中反映出各个接入设备的位置信息。
S23、利用循环神经网络对空间特征进行时序特征进行提取,得到时序特征。循环神经网络的传输公式定义为S:
S=fRNN(C;θRNN)
其中,S表示时序特征,fRNN表示循环神经网络的非线性映射函数,θRNN表示循环神经网络中的可变参数。
时序特征S在C的基础上可以从目标观测数据中反映出终端的运动信息。
时序特征S即为最终的状态向量,作为策略模块的输入。
S3、使用初始Q网络对状态向量进行处理,并对预设神经网络和初始Q网络进行训练,得到训练好的预设神经网络和目标Q网络。包括步骤:
S31、根据环境中接入点的数量和每个设备接入的决策定义决策空间A为:
Figure BDA0002443268950000101
其中,t表示环境中的接入点的数量,ai表示选择第i个设备接入的决策。
S32、使用初始Q网络中对状态向量进行处理,得到当前时刻决策空间中每个决策的评估值。
本实施例中,使用全连接神经网络来近似强化学习方法Q-learning中Q值评估函数,Q值评估函数Q(S,ai;θ)定义如下:
Q(S,ai;θ)=fDNN(S,ai;θ)ai∈A
其中fDNN表示全连接神经网络的非线性映射函数,θ表示全连接神经网络中的可变参数,Q(S,ai;θ)表示在已知θ的前提下,当输入状态向量S时,策略网络选择决策ai的概率。由Q值评估函数Q(S,ai;θ)形成初始Q网络。
除了初始Q网络以外,本实施例还定义了一个目标Q值评估函数Q'(S,ai;θ'),其网络结构和表征含义与Q(S,ai;θ)完全一样,仅仅是网络参数不同,从而形成目标Q网络。
在已知θ和状态向量S时,Q值评估函数会计算出决策空间A中每个决策ai的概率即每个决策的评估值,每个决策的评估值反映该决策的好坏程度。
进一步地,整个策略最后的决策a的计算如下:
at=maxQ(S,ai;θ)ai∈A
S33、根据随机概率和当前时刻每个决策的评估值,从决策空间选取第一决策。
在选取第一决策时,以ε(0<ε<1)的随机概率从决策空间A中选择一个第一决策at,否则选取第一决策at=maxQ(St,ai;θ)ai∈A。
具体地,对于第一个时刻(即第一个目标观测时间长度)的目标观测数据O,计算得到S1后,此时,以ε的随机概率从决策空间A中选择一个第一决策a1;对于第二个时刻(即第二个目标观测时间长度)的目标观测数据O,计算得到S2后,若Q未被更新,则以ε的随机概率从决策空间A中选择一个第一决策a2,若Q被更新,则从决策空间A中取第一决策a2=maxQ(S2,ai;θ)ai∈A;对于第三个时刻(即第三个目标观测时间长度)的目标观测数据O,计算得到S3后,若Q未被更新,则以ε的随机概率从决策空间A中选择一个第一决策a3,若Q被更新,则从决策空间A中取第一决策a3=maxQ(S3,ai;θ)ai∈A;依此类推。
S34、获取当前时刻终端执行第一决策时的奖励值和下一时刻的目标观测数据。
本实施例中,当前时刻是指当前目标观测时间长度,下一时刻是指下一目标观测时间长度。
具体地,当环境模块接收到第一决策at时,会对实际环境即终端进行操作;由于本实施例的优化目标是使得终端满足确定性低时延,因此将终端的时延作为奖励值R。进一步地,对于第一个时刻(即第一个目标观测时间长度)的第一决策a1,获取终端执行该第一决策a1时的时延作为奖励值R1,同时获取第二个时刻(即第二个目标观测时间长度)的目标观测数据O;对O进行处理后得到第二个时刻的第一决策a2,获取终端执行该第一决策a2时的时延作为奖励值R2,同时获取第三个时刻(即第三个目标观测时间长度)的目标观测数据O,对O进行处理后得到第三个时刻的第一决策a3;以此类推进行循环。
S35、根据奖励值和下一时刻的目标观测数据计算Double DQN算法的损失函数。
首先根据下一时刻的目标观测数据Ot+1计算下一时刻的状态向量St+1
接着定义经验回放池D:
Figure BDA0002443268950000121
其中,u是经验池的最大容量,下标t表示着第t个时刻的经验。
然后,将信息(St,at,Rt,St+1)保存到经验回放池D中。
例如,对于第三个时刻的目标观测数据O进行处理后得到S3,根据S3选取得到第一决策a3,执行a3后得到奖励值R3,同时获取得到第四个时刻的目标观测数据O,对其处理后得到S4,此时,将(S3,a3,R3,S4)保存到经验回放池D中。
接着,从经验回放池D中随机采样lb个样本,组成一个小的经验集合d;并且在奖励值R和经验回放池D的基础上定义损失函数L(θ):
L(θ)=Ed[(Rt+γQ'(St+1,argmaxa'Q(St+1,a';θ);θ')-Q(St,at;θ))2]
其中,γ是长期奖励值的一个衰减因子。
S36、根据损失函数,使用随机梯度下降的方法更新预设神经网络中的可变参数和初始Q网络中的可变参数,得到训练好的预设神经网络和目标Q网络。
具体地,在对预设神经网络进行反向传播之前,其中的可变参数为初始化参数;而在每一次的训练步骤里,通过计算
Figure BDA0002443268950000122
来进行梯度的反向传播,从而进一步使用随机梯度下降的方法更新预设神经网络中的可变参数和初始Q网络中的可变参数,即更新多属性神经网络中的可变参数θANN、卷积神经网络中的可变参数θCNN、循环神经网络中的可变参数θRNN和初始Q网络的可变参数θ。并且每训练C(C为大于1的整数,例如50)步,对θ'进行更新,即θ'=θ,同时对目标Q网络进行更新Q'=Q,得到训练好的预设神经网络和目标Q网络。
S4、利用训练好的预设神经网络和目标Q网络计算当前时刻每个决策的评估值,并根据评估值选取目标决策,输出并执行目标决策。
具体地,对于第一个时刻的目标观测数据O,利用更新可变参数后的、训练好的多属性神经网络、卷积神经网络和循环神经网络依次进行特征提取,得到状态向量S1,然后根据S1选取目标决策a1=maxQ(S1,ai;θ)ai∈A,并将该目标决策a1输出至环境中以执行该a1,同时从环境中读取第一个时刻的奖励值和第二个时刻的目标观测数据O。对于第二个时刻的目标观测数据O,利用训练好的多属性神经网络、卷积神经网络和循环神经网络依次进行特征提取,得到状态向量S2,然后根据S2选取目标决策a2=max Q(S2,ai;θ)ai∈A,并将该目标决策a2输出至环境中以执行该a2,同时从环境中读取第二个时刻的奖励值和第三个时刻的目标观测数据O。
以此类推。
综上,本实施例基于SDN的异构无线网络接入选择方法一共包括两个阶段:训练阶段和决策阶段。
训练阶段的算法可以概括如下:
Figure BDA0002443268950000131
Figure BDA0002443268950000141
决策阶段的算法如下:
Figure BDA0002443268950000142
本实施例的接入选择方法通过对若干属性因素依次进行多属性特征提取、空间特征提取和时序特征进行提取,并使用Double DQN算法实现网络接入选择方法的训练,可以使得任何一个移动设备在一个5G和WIFI网络覆盖的区域内都能够根据当前的环境状况与自身的状态,选择最优的网络进行接入,从而满足确定性低时延,以保证用户的业务体验。
实施例二
在实施例一的基础上,本实施例提供了一种基于SDN的异构无线网络接入选择系统。请参见图2,图2为本发明实施例提供的一种基于SDN的异构无线网络接入选择系统的结构示意图。该异构无线网络接入选择系统包括环境模块201、特征模块202和策略模块203。
环境模块201用于在目标观测时间长度下,获取每个时刻环境中的目标观测数据,输出目标观测数据;其中,目标观测数据包括若干属性;环境模块201还用于检测并执行策略模块203输出的策略行为。
具体地,环境模块201负责从实际环境中收集所有的必要信息,例如:终端的RSSI、无线接入点的连接用户数、可用带宽和无线接入点的当前负载等属性信息;环境模块201将目标观测时间长度下收集到的信息形成目标观测数据,发送到SDN控制器,作为特征模块202的输入;同时,环境模块201还实时监听来自策略模块203的策略输出,一旦检测到有策略行为(包括目标决策和训练过程中的第一决策),就会对环境(如终端)进行控制和操作。
特征模块202连接环境模块201,用于利用预设神经网络对目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取,得到当前时刻的状态向量。特征模块202是SDN最核心的模块,其功能为从环境模块201读取目标观测数据;对目标观测数据进行特征提取,并输出一个特征向量到策略模块203。
具体地,特征模块202包括三个子模块:多属性神经网络模块、卷积神经网络模块和循环神经网络模块;其中,多属性神经网络模块由人工神经网络构成,用于利用多属性神经网络对目标观测数据进行多属性特征提取得到属性特征;卷积神经网络模块用于利用卷积神经网络对多属性特征进行空间特征提取得到空间特征;循环神经网络模块用于利用循环神经网络对空间特征进行时序特征进行提取得到时序特征,该时序特征即为输出到策略模块203的状态向量。
进一步地,特征模块202还用于根据策略模块203回传的残差(损失函数),在多属性神经网络、卷积神经网络和循环神经网络中执行反向传播算法,完成上述三个神经网络的训练(即完成每个神经网络中可变参数的更新),从而得到训练好的神经网络。
策略模块203连接环境模块201和特征模块202,用于使用全连接神经网络作为初始Q网络对状态向量进行处理,并利用Double DQN算法对预设神经网络和初始Q网络进行训练,得到训练好的预设神经网络和目标Q网络,并且利用训练好的预设神经网络和目标Q网络计算当前时刻每个决策的评估值,根据评估值选取目标决策,输出目标决策。
策略模块203是由一个前向全连接神经网络组成,以Double DQN为核心架构,其功能为从特征模块202读取特征向量,作为状态输入;使用Q值函数,输出每个决策的评估值;从环境模块201中读取奖励值,用于计算Q学习算法的损失函数,并在前向全连接神经网络中执行反向传播算法,完成相关神经网络的训练以及参数的更新;根据每个决策的评估值选择最好的决策即目标决策,并将目标决策传输到环境模块201。
环境模块201、特征模块202和策略模块203的具体执行过程请参见实施例一,本实施例不再赘述。
本实施例基于深度强化学习理论,提出了适用于软件定义的异构无线网络中的接入选择方法,该接入选择方法能够以网络管理应用的形式运行在集中的控制器上,对终端在网络中的切换进行决策管理,从而使得终端在切换过程中满足确定性低时延的要求,保证终端的业务体验。
本实施例在特征模块中引入多属性神经网络模块,对控制器观测到的多属性因素进行特征提取,能保证终端在5G与WIFI共存的场景下选择最优的网络接入,以满足确定性低时延。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种基于SDN的异构无线网络接入选择方法,其特征在于,包括步骤:
S1、在目标观测时间长度下,获取每个时刻环境中的目标观测数据,输出所述目标观测数据;其中,所述目标观测数据包括若干属性;
S2、利用预设神经网络对所述目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取,得到当前时刻的状态向量;包括步骤:
利用多属性神经网络对所述目标观测数据进行多属性特征提取,得到属性特征;利用卷积神经网络对所述属性特征进行空间特征提取,得到空间特征;利用循环神经网络对所述空间特征进行时序特征进行提取,得到所述状态向量;
S3、使用初始Q网络对所述状态向量进行处理,并利用Double DQN算法对所述预设神经网络和所述初始Q网络进行训练,得到训练好的预设神经网络和目标Q网络;包括步骤:
根据环境中接入点的数量和每个设备接入的决策定义决策空间;使用所述初始Q网络对所述状态向量进行处理,得到当前时刻决策空间中每个决策的评估值;根据随机概率和当前时刻所述每个决策的评估值,从所述决策空间选取第一决策;获取当前时刻终端执行所述第一决策时的奖励值和下一时刻的目标观测数据;根据所述奖励值和所述下一时刻的目标观测数据计算所述Double DQN算法的损失函数;根据所述损失函数,使用随机梯度下降的方法更新所述预设神经网络中的可变参数和所述初始Q网络中的可变参数,得到训练好的预设神经网络和目标Q网络;
S4、利用训练好的所述预设神经网络和所述目标Q网络计算当前时刻每个决策的评估值,并根据所述评估值选取目标决策,输出所述目标决策;
S5、执行所述目标决策。
2.如权利要求1所述的基于SDN的异构无线网络接入选择方法,其特征在于,步骤S1包括:
S11、从环境中获取第j个接入点上的第一观测数据Pj
Figure FDA0003517188640000021
其中,Pj表示第j个接入点上的第一观测数据,n表示第一观测数据包括的属性个数,fk表示第一观测数据中第k个属性的值;
S12、获取在第i时刻环境中所有接入点上的第二观测数据Oi
Figure FDA0003517188640000022
其中,Oi表示在第i时刻的第二观测数据,m表示环境中的接入点的数量;
S13、输出由所述第二观测数据形成的目标观测数据O:
Figure FDA0003517188640000023
其中,O表示目标观测数据,l表示目标观测时间长度。
3.如权利要求1所述的基于SDN的异构无线网络接入选择方法,其特征在于,所述若干属性包括终端侧接收信号的强度、无线接入点的连接用户数、无线接入点的当前负载中的一种或多种。
4.如权利要求1所述的基于SDN的异构无线网络接入选择方法,其特征在于,所述属性特征B为:
B=fANN(O;θANN)
其中,B表示属性特征,fANN表示多属性神经网络的非线性映射函数,θANN表示多属性神经网络中的可变参数;
所述空间特征C为;
C=fCNN(B;θCNN)
其中,C表示空间特征,fCNN表示卷积神经网络的非线性映射函数,θCNN表示卷积神经网络中的可变参数;
所述状态向量S:
S=fRNN(C;θRNN)
其中,S表示状态向量,fRNN表示循环神经网络的非线性映射函数,θRNN表示循环神经网络中的可变参数。
5.如权利要求1所述的基于SDN的异构无线网络接入选择方法,其特征在于,所述决策空间A为:
Figure FDA0003517188640000031
其中,A表示决策空间,t表示环境中的接入点的数量,ai表示选择第i个设备接入的决策。
6.一种基于SDN的异构无线网络接入选择系统,其特征在于,包括环境模块、特征模块和策略模块,其中,
所述环境模块用于在目标观测时间长度下,获取每个时刻环境中的目标观测数据,输出所述目标观测数据,其中,所述目标观测数据包括若干属性;所述环境模块还用于检测并执行所述策略模块输出的策略行为;
所述特征模块连接所述环境模块,用于利用预设神经网络对所述目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取,得到当前时刻的状态向量;所述特征模块包括多属性神经网络模块、卷积神经网络模块和循环神经网络模块,所述多属性神经网络模块用于利用多属性神经网络对所述目标观测数据进行多属性特征提取,得到属性特征;所述卷积神经网络模块用于利用卷积神经网络对所述多属性特征进行空间特征提取,得到空间特征;所述循环神经网络模块用于利用循环神经网络对所述空间特征进行时序特征进行提取,得到所述状态向量;
所述策略模块连接所述环境模块和所述特征模块,用于使用初始Q网络对所述状态向量进行处理,并利用Double DQN算法对所述预设神经网络和所述初始Q网络进行训练,得到训练好的预设神经网络和目标Q网络,然后利用训练好的所述预设神经网络和所述目标Q网络计算当前时刻每个决策的评估值,根据所述评估值选取目标决策,并输出所述策略行为至所述环境模块;使用初始Q网络对所述状态向量进行处理,并利用Double DQN算法对所述预设神经网络和所述初始Q网络进行训练,得到训练好的预设神经网络和目标Q网络,包括:根据环境中接入点的数量和每个设备接入的决策定义决策空间;使用所述初始Q网络对所述状态向量进行处理,得到当前时刻决策空间中每个决策的评估值;根据随机概率和当前时刻所述每个决策的评估值,从所述决策空间选取第一决策;获取当前时刻终端执行所述第一决策时的奖励值和下一时刻的目标观测数据;根据所述奖励值和所述下一时刻的目标观测数据计算所述Double DQN算法的损失函数;根据所述损失函数,使用随机梯度下降的方法更新所述预设神经网络中的可变参数和所述初始Q网络中的可变参数,得到训练好的预设神经网络和目标Q网络。
7.如权利要求6所述的一种基于SDN的异构无线网络接入选择系统,其特征在于,所述若干属性包括终端接收信号的强度、无线接入点的连接用户数、无线接入点的当前负载中的一种或多种。
CN202010271361.5A 2020-04-08 2020-04-08 一种基于sdn的异构无线网络接入选择方法及系统 Active CN111586809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010271361.5A CN111586809B (zh) 2020-04-08 2020-04-08 一种基于sdn的异构无线网络接入选择方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010271361.5A CN111586809B (zh) 2020-04-08 2020-04-08 一种基于sdn的异构无线网络接入选择方法及系统

Publications (2)

Publication Number Publication Date
CN111586809A CN111586809A (zh) 2020-08-25
CN111586809B true CN111586809B (zh) 2022-05-10

Family

ID=72118650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010271361.5A Active CN111586809B (zh) 2020-04-08 2020-04-08 一种基于sdn的异构无线网络接入选择方法及系统

Country Status (1)

Country Link
CN (1) CN111586809B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367683B (zh) * 2020-11-17 2022-07-01 重庆邮电大学 基于改进深度q学习的网络选择方法
CN112990013B (zh) * 2021-03-15 2024-01-12 西安邮电大学 一种基于稠密边界时空网络的时序行为检测方法
CN116419416A (zh) * 2021-12-30 2023-07-11 华为技术有限公司 信道接入方式确定方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110545568A (zh) * 2019-10-15 2019-12-06 中国联合网络通信集团有限公司 异构网络切换方法、切换装置、控制设备及存储介质
CN110809306A (zh) * 2019-11-04 2020-02-18 电子科技大学 一种基于深度强化学习的终端接入选择方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110601916A (zh) * 2019-08-14 2019-12-20 天津大学 一种基于机器学习的流量采样和应用感知的系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110545568A (zh) * 2019-10-15 2019-12-06 中国联合网络通信集团有限公司 异构网络切换方法、切换装置、控制设备及存储介质
CN110809306A (zh) * 2019-11-04 2020-02-18 电子科技大学 一种基于深度强化学习的终端接入选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"AIF: An Artificial Intelligence Framework for";gang cao;《IEEE Communications Letters》;20171123;全文 *
"基于DQN的异构无线网络接入研究与实现";曹刚;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20181115;全文 *

Also Published As

Publication number Publication date
CN111586809A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN111586809B (zh) 一种基于sdn的异构无线网络接入选择方法及系统
CN109862610B (zh) 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
WO2022022334A1 (zh) 基于人工智能的通信方法和通信装置
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN112491714B (zh) SDN环境下基于深度强化学习的智能QoS路由优化方法、系统
CN110581808A (zh) 一种基于深度强化学习的拥塞控制方法及系统
Piamrat et al. QoE-aware vertical handover in wireless heterogeneous networks
CN109068350B (zh) 一种无线异构网络的终端自主选网系统及方法
CN111050330A (zh) 移动网络自优化方法、系统、终端及计算机可读存储介质
CN109286958B (zh) 一种无线网络切换管理方法及系统
CN108391298A (zh) 一种网络自动切换的系统及电子设备
CN111629452A (zh) 一种数据传输控制方法、装置、存储介质及电子设备
CN111629024A (zh) 一种数据传输控制方法、装置、存储介质及电子设备
Yang et al. Deep reinforcement learning based wireless network optimization: A comparative study
CN103597884B (zh) 用于对uicc的电力管理的方法和装置
CN107105455A (zh) 一种基于自回程感知的用户接入负载均衡方法
CN101534535B (zh) 基于终端和网络信息融合的无线网络切换方法
Xu et al. Deep reinforcement learning based mobility load balancing under multiple behavior policies
CN113766576A (zh) 服务质量管理方法、电子设备以及存储介质
Carvalho et al. Q-learning adr agent for lorawan optimization
Iturria-Rivera et al. Competitive multi-agent load balancing with adaptive policies in wireless networks
Iturria-Rivera et al. Cooperate or not Cooperate: Transfer Learning with Multi-Armed Bandit for Spatial Reuse in Wi-Fi
CN105430700B (zh) 基于多虚拟接入点关联接入的无线局域网移动性管理方法
CN110224861A (zh) 基于学习的自适应动态异构网络选择策略的实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200825

Assignee: Xi'an Weiqin Network Technology Co.,Ltd.

Assignor: XI'AN University OF POSTS & TELECOMMUNICATIONS

Contract record no.: X2022980017945

Denomination of invention: A SDN Based Heterogeneous Wireless Network Access Selection Method and System

Granted publication date: 20220510

License type: Common License

Record date: 20221011