CN111586809B

CN111586809B - 一种基于sdn的异构无线网络接入选择方法及系统

Info

Publication number: CN111586809B
Application number: CN202010271361.5A
Authority: CN
Inventors: 陈彦萍; 吕宁; 黄宇航; 夏虹; 高聪; 王忠民
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2022-05-10
Anticipated expiration: 2040-04-08
Also published as: CN111586809A

Abstract

本发明涉及一种基于SDN的异构无线网络接入选择方法及系统，该方法包括步骤：在目标观测时间长度下，获取每个时刻环境中的目标观测数据；利用预设神经网络对目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取，得到当前时刻的状态向量；使用初始Q网络对状态向量进行处理，并对预设神经网络和初始Q网络进行训练，得到训练好的预设神经网络和目标Q网络；利用训练好的预设神经网络和目标Q网络计算当前时刻每个决策的评估值，并根据评估值选取目标决策，输出并执行目标决策。该接入选择方法可以使得任何一个移动设备都能够根据当前环境状况与自身状态选择最优的网络进行接入，从而满足确定性低时延，以保证用户的业务体验。

Description

一种基于SDN的异构无线网络接入选择方法及系统

技术领域

本发明属于通信技术领域，具体涉及一种基于SDN的异构无线网络接入选择方法及系统。

背景技术

工业互联网是推动未来网络发展的一个典型应用场景，是驱动未来互联网发展的关键动力之一，无论是5G时代还是后5G时代，其中确定性低时延是关键的技术需求。当前基于IETF(Internet Engineering Task Force，国际互联网工程任务组)的TCP/IP协议栈的互联网，其提供“尽力而为”的网络传送服务以及有限的QoS(Quality of Service，服务质量)保证。但在未来的工业连接上，不仅要提供确定的、及时的传送服务(in time，时延短)，而且要提供确定的、准时的传送服务(on time，抖动小)。由于5G在室内覆盖上成本高，终端兼容性弱的限制，而新一代Wi-Fi 6在室内覆盖上已经克服了大带宽、大容量、低时延的挑战，可以支持VR/4K/AGV等大带宽低时延的关键应用，所以Wi-Fi网络与5G网络在大部分的场景里是可以相互协同，使得整个接入系统的服务最优。而由于移动终端业务的多样性、无线网络信道传输质量的差异性、无线网络信号的重叠性等因素，需要依靠网络接入选择算法保障用户能够接入到最适合的网络进行业务处理，而由于传统无线网络的封闭结构，使得接入选择方法难以部署。无线终端的移动性和无线信道的时变性，更是使得无线网络的接入选择面临的情况较为复杂。此外，传统架构中无线访问接入点(WirelessAccessPoint,AP)具有独立性，只能获取到与自身关联的终端信息，不同AP间缺少同步信息。

而基于深度Q学习网络DQN(Deep Q-learning Network)的异构无线网络接入选择算法，将终端的吞吐量作为DQN的奖励值，使用AP接收到终端的RSSI(Received SignalStrength Indication，接收的信号强度指示)信息表征终端在网络中所处的状态；通过将算法放置到实际的网络环境或者仿真平台进行训练，从而得到适用于对应的网络场景的切换判决策略。由于该算法所提供的切换判决算法采用了强化学习的方法，因此其具有针对不同网络环境的普适性以及应对网络变化的自适应性。基于DQN的切换判决算法与传统的切换判决算法相比，能够做出最佳的切换决策，并明显地提高终端在切换过程中的吞吐量。

然而，由于该算法只考虑了终端的RSSI因素作为终端在网络中所处的状态，而单一的RSSI指标并不能确切反映出网络中的实际状况，因此在该接入选择算法下，不能使得终端满足确定性低时延，且传统的DQN算法存在过估计(overestimate)问题，导致无法获得稳定有效的策略。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于SDN的异构无线网络接入选择方法及系统。本发明要解决的技术问题通过以下技术方案实现：

本发明实施例提供了一种基于SDN的异构无线网络接入选择方法，包括步骤：

S1、在目标观测时间长度下，获取每个时刻环境中的目标观测数据，输出所述目标观测数据；其中，所述目标观测数据包括若干属性；

S2、利用预设神经网络对所述目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取，得到当前时刻的状态向量；

S3、使用初始Q网络对所述状态向量进行处理，并利用Double DQN算法对所述预设神经网络和所述初始Q网络进行训练，得到训练好的预设神经网络和目标Q网络；

S4、利用训练好的所述预设神经网络和所述目标Q网络计算当前时刻每个决策的评估值，并根据所述评估值选取目标决策，输出所述目标决策；

S5、执行所述目标决策。

在本发明的一个实施例中，步骤S1包括：

S11、从环境中获取第j个接入点上的第一观测数据P_j：

其中，P_j表示第j个接入点上的第一观测数据，n表示第一观测数据包括的属性个数，f_k表示第一观测数据中第k个属性的值；

S12、获取在第i时刻环境中所有接入点上的第二观测数据O_i：

其中，O_i表示在第i时刻的第二观测数据，m表示环境中的接入点的数量；

S13、输出由所述第二观测数据形成的目标观测数据O：

其中，O表示目标观测数据，l表示目标观测时间长度。

在本发明的一个实施例中，所述若干属性包括终端侧接收信号的强度、无线接入点的连接用户数、无线接入点的当前负载中的一种或多种。

在本发明的一个实施例中，步骤S2包括：

S21、利用多属性神经网络对所述目标观测数据进行多属性特征提取，得到属性特征B：

B＝f_ANN(O；θ_ANN)

其中，B表示属性特征，f_ANN表示多属性神经网络的非线性映射函数，θ_ANN表示多属性神经网络中的可变参数；

S22、利用卷积神经网络对所述多属性特征进行空间特征提取，得到空间特征C；

C＝f_CNN(B；θ_CNN)

其中，C表示空间特征，f_CNN表示卷积神经网络的非线性映射函数，θ_CNN表示卷积神经网络中的可变参数；

S23、利用循环神经网络对所述空间特征进行时序特征进行提取，得到状态向量S：

S＝f_RNN(C；θ_RNN)

其中，S表示状态向量，f_RNN表示循环神经网络的非线性映射函数，θ_RNN表示循环神经网络中的可变参数。

在本发明的一个实施例中，步骤S3包括：

S31、根据环境中接入点的数量和每个设备接入的决策定义决策空间A：

其中，A表示决策空间，t表示环境中的接入点的数量，a_i表示选择第i个设备接入的决策；

S32、使用所述初始Q网络对所述状态向量进行处理，得到当前时刻决策空间中每个决策的评估值；

S33、根据随机概率和当前时刻所述每个决策的评估值，从所述决策空间选取第一决策；

S34、获取当前时刻终端执行所述第一决策时的奖励值和下一时刻的目标观测数据；

S35、根据所述奖励值和所述下一时刻的目标观测数据计算所述Double DQN算法的损失函数；

S36、根据所述损失函数，使用随机梯度下降的方法更新所述预设神经网络中的可变参数和所述初始Q网络中的可变参数，得到训练好的预设神经网络和目标Q网络。

本发明的另一个实施例还提供了一种基于SDN的异构无线网络接入选择系统，包括环境模块、特征模块和策略模块，其中，

所述环境模块用于在目标观测时间长度下，获取每个时刻环境中的目标观测数据，输出所述目标观测数据，其中，所述目标观测数据包括若干属性；所述环境模块还用于检测并执行所述策略模块输出的策略行为；

所述特征模块连接所述环境模块，用于利用预设神经网络对所述目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取，得到当前时刻的状态向量；

所述策略模块连接所述环境模块和所述特征模块，用于使用初始Q网络对所述状态向量进行处理，并利用Double DQN算法对所述预设神经网络和所述初始Q网络进行训练，得到训练好的预设神经网络和目标Q网络，然后利用训练好的所述预设神经网络和所述目标Q网络计算当前时刻每个决策的评估值，根据所述评估值选取目标决策，并输出所述策略行为至所述环境模块。

在本发明的一个实施例中，所述若干属性包括终端接收信号的强度、无线接入点的连接用户数、无线接入点的当前负载中的一种或多种。

在本发明的一个实施例中，所述特征模块包括多属性神经网络模块、卷积神经网络模块和循环神经网络模块，其中，

所述多属性神经网络模块用于利用多属性神经网络对所述目标观测数据进行多属性特征提取，得到属性特征；

所述卷积神经网络模块用于利用卷积神经网络对所述多属性特征进行空间特征提取，得到空间特征；

所述循环神经网络模块用于利用循环神经网络对所述空间特征进行时序特征进行提取，得到所述状态向量。

与现有技术相比，本发明的有益效果：

本发明的接入选择方法通过对若干属性因素依次进行多属性特征提取、空间特征提取和时序特征进行提取，并使用Double DQN算法实现网络接入选择方法的训练，可以使得任何一个移动设备在一个5G和WIFI网络覆盖的区域内都能够根据当前的环境状况与自身的状态，选择最优的网络进行接入，从而满足确定性低时延，以保证用户的业务体验。

附图说明

图1为本发明实施例提供的一种基于SDN的异构无线网络接入选择方法的流程示意图；

图2为本发明实施例提供的一种基于SDN的异构无线网络接入选择系统的结构示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

软件定义网络(Software Defined Networking，SDN)的网络架构能够为WLAN提供一个集中管理平面。SDN控制器具有全局网络视角，可以获取所有AP及与之关联的终端的状态信息，如每个AP连接的客户端数目、流量负载、平均数据速率、平均接收信号强度(Received Signal Strength Indication，RSSI)值、运行模式及相邻AP等，为解决无线网络接入选择问题提供了新的方案。因此，本发明实施例以SDN架构下5G与WIFI网络之间的接入选择方法和系统为例进行说明。

实施例一

请参见图1，图1为本发明实施例提供的一种基于SDN的异构无线网络接入选择方法的流程示意图。该方法包括步骤：

S1、在目标观测时间长度下，获取每个时刻环境中的目标观测数据，输出目标观测数据；其中，目标观测数据包括若干属性。具体地，获取目标观测数据的过程为：

S11、从环境中获取第j个接入点上的第一观测数据P_j：

其中，P_j表示第j个接入点上的第一观测数据，n表示第一观测数据包括的属性个数，f_k表示第一观测数据中第k个属性的值。

本实施例中选择终端接收信号的强度(RSSI)、无线接入点(AP)的连接用户数、AP的当前负载作为P_j，P_j主要用来表征网络中的实际情况。

S12、获取在第i时刻环境中所有接入点上的第二观测数据O_i：

其中，O_i表示在第i时刻的第二观测数据，m表示环境中的接入点的数量。

S13、输出由第二观测数据形成的目标观测数据O：

其中，O表示目标观测数据，l表示观测时间长度(代表选取并输出多长时间的观测数据)。

S2、利用预设神经网络对目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取，得到当前时刻的状态向量。

预设神经网络可以由一个复合神经网络组成，采用复合神经网络对目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取；也可以由依次连接的多属性神经网络、卷积神经网络和循环神经网络形成，采用依次连接的三个神经网络对目标观测数据进行多属性特征提取、空间特征提取和时序特征提取。本实施例中，采用依次连接的三个神经网络进行特征提取。具体包括步骤：

S21、利用多属性神经网络对目标观测数据进行多属性特征提取，得到属性特征。

本实施例中，多属性神经网络可以为人工神经网络。

具体地，多属性神经网络的传输公式定义为B：

B＝f_ANN(O；θ_ANN)

其中，B表示属性特征，f_ANN表示多属性神经网络的非线性映射函数，θ_ANN表示多属性神经网络中的可变参数。

通过属性特征B可以从目标观测数据中反映出各个属性重要性。

本实施例中引入了包括终端侧接收信号的强度、无线接入点的连接用户数、无线接入点的当前负载的多属性因素进行判决，并且构建多属性神经网络对多属性神经因素进行特征提取，能保证终端在5G与WIFI共存的场景下选择最优的网络接入，以满足确定性低时延。

S22、利用卷积神经网络对多属性特征进行空间特征提取，得到空间特征。具体地，卷积神经网络的传输公式定义为C：

C＝f_CNN(B；θ_CNN)

其中，C表示空间特征，f_CNN表示卷积神经网络的非线性映射函数，θ_CNN表示卷积神经网络中的可变参数。

空间特征C在B的基础上可以从目标观测数据中反映出各个接入设备的位置信息。

S23、利用循环神经网络对空间特征进行时序特征进行提取，得到时序特征。循环神经网络的传输公式定义为S：

S＝f_RNN(C；θ_RNN)

其中，S表示时序特征，f_RNN表示循环神经网络的非线性映射函数，θ_RNN表示循环神经网络中的可变参数。

时序特征S在C的基础上可以从目标观测数据中反映出终端的运动信息。

时序特征S即为最终的状态向量，作为策略模块的输入。

S3、使用初始Q网络对状态向量进行处理，并对预设神经网络和初始Q网络进行训练，得到训练好的预设神经网络和目标Q网络。包括步骤：

S31、根据环境中接入点的数量和每个设备接入的决策定义决策空间A为：

其中，t表示环境中的接入点的数量，a_i表示选择第i个设备接入的决策。

S32、使用初始Q网络中对状态向量进行处理，得到当前时刻决策空间中每个决策的评估值。

本实施例中，使用全连接神经网络来近似强化学习方法Q-learning中Q值评估函数，Q值评估函数Q(S,a_i；θ)定义如下：

Q(S,a_i；θ)＝f_DNN(S,a_i；θ)a_i∈A

其中f_DNN表示全连接神经网络的非线性映射函数，θ表示全连接神经网络中的可变参数，Q(S,a_i；θ)表示在已知θ的前提下，当输入状态向量S时，策略网络选择决策a_i的概率。由Q值评估函数Q(S,a_i；θ)形成初始Q网络。

除了初始Q网络以外，本实施例还定义了一个目标Q值评估函数Q'(S,a_i；θ')，其网络结构和表征含义与Q(S,a_i；θ)完全一样，仅仅是网络参数不同，从而形成目标Q网络。

在已知θ和状态向量S时，Q值评估函数会计算出决策空间A中每个决策a_i的概率即每个决策的评估值，每个决策的评估值反映该决策的好坏程度。

进一步地，整个策略最后的决策a的计算如下：

a_t＝maxQ(S,a_i；θ)a_i∈A

S33、根据随机概率和当前时刻每个决策的评估值，从决策空间选取第一决策。

在选取第一决策时，以ε(0＜ε＜1)的随机概率从决策空间A中选择一个第一决策a_t，否则选取第一决策a_t＝maxQ(S_t,a_i；θ)a_i∈A。

具体地，对于第一个时刻(即第一个目标观测时间长度)的目标观测数据O，计算得到S₁后，此时，以ε的随机概率从决策空间A中选择一个第一决策a₁；对于第二个时刻(即第二个目标观测时间长度)的目标观测数据O，计算得到S₂后，若Q未被更新，则以ε的随机概率从决策空间A中选择一个第一决策a₂，若Q被更新，则从决策空间A中取第一决策a₂＝maxQ(S₂,a_i；θ)a_i∈A；对于第三个时刻(即第三个目标观测时间长度)的目标观测数据O，计算得到S₃后，若Q未被更新，则以ε的随机概率从决策空间A中选择一个第一决策a₃，若Q被更新，则从决策空间A中取第一决策a₃＝maxQ(S₃,a_i；θ)a_i∈A；依此类推。

S34、获取当前时刻终端执行第一决策时的奖励值和下一时刻的目标观测数据。

本实施例中，当前时刻是指当前目标观测时间长度，下一时刻是指下一目标观测时间长度。

具体地，当环境模块接收到第一决策a_t时，会对实际环境即终端进行操作；由于本实施例的优化目标是使得终端满足确定性低时延，因此将终端的时延作为奖励值R。进一步地，对于第一个时刻(即第一个目标观测时间长度)的第一决策a₁，获取终端执行该第一决策a₁时的时延作为奖励值R₁，同时获取第二个时刻(即第二个目标观测时间长度)的目标观测数据O；对O进行处理后得到第二个时刻的第一决策a₂，获取终端执行该第一决策a₂时的时延作为奖励值R₂，同时获取第三个时刻(即第三个目标观测时间长度)的目标观测数据O，对O进行处理后得到第三个时刻的第一决策a₃；以此类推进行循环。

S35、根据奖励值和下一时刻的目标观测数据计算Double DQN算法的损失函数。

首先根据下一时刻的目标观测数据O_t+1计算下一时刻的状态向量S_t+1。

接着定义经验回放池D：

其中，u是经验池的最大容量，下标t表示着第t个时刻的经验。

然后，将信息(S_t,a_t,R_t,S_t+1)保存到经验回放池D中。

例如，对于第三个时刻的目标观测数据O进行处理后得到S₃，根据S₃选取得到第一决策a₃，执行a₃后得到奖励值R₃，同时获取得到第四个时刻的目标观测数据O，对其处理后得到S₄，此时，将(S₃,a₃,R₃,S₄)保存到经验回放池D中。

接着，从经验回放池D中随机采样l_b个样本，组成一个小的经验集合d；并且在奖励值R和经验回放池D的基础上定义损失函数L(θ)：

L(θ)＝E_d[(R_t+γQ'(S_t+1,argmax_a'Q(S_t+1,a'；θ)；θ')-Q(S_t,a_t；θ))²]

其中，γ是长期奖励值的一个衰减因子。

S36、根据损失函数，使用随机梯度下降的方法更新预设神经网络中的可变参数和初始Q网络中的可变参数，得到训练好的预设神经网络和目标Q网络。

具体地，在对预设神经网络进行反向传播之前，其中的可变参数为初始化参数；而在每一次的训练步骤里，通过计算

来进行梯度的反向传播，从而进一步使用随机梯度下降的方法更新预设神经网络中的可变参数和初始Q网络中的可变参数，即更新多属性神经网络中的可变参数θ_ANN、卷积神经网络中的可变参数θ_CNN、循环神经网络中的可变参数θ_RNN和初始Q网络的可变参数θ。并且每训练C(C为大于1的整数，例如50)步，对θ'进行更新，即θ'＝θ，同时对目标Q网络进行更新Q'＝Q，得到训练好的预设神经网络和目标Q网络。

S4、利用训练好的预设神经网络和目标Q网络计算当前时刻每个决策的评估值，并根据评估值选取目标决策，输出并执行目标决策。

具体地，对于第一个时刻的目标观测数据O，利用更新可变参数后的、训练好的多属性神经网络、卷积神经网络和循环神经网络依次进行特征提取，得到状态向量S₁，然后根据S₁选取目标决策a₁＝maxQ(S₁,a_i；θ)a_i∈A，并将该目标决策a₁输出至环境中以执行该a₁，同时从环境中读取第一个时刻的奖励值和第二个时刻的目标观测数据O。对于第二个时刻的目标观测数据O，利用训练好的多属性神经网络、卷积神经网络和循环神经网络依次进行特征提取，得到状态向量S₂，然后根据S₂选取目标决策a₂＝max Q(S₂,a_i；θ)a_i∈A，并将该目标决策a₂输出至环境中以执行该a₂，同时从环境中读取第二个时刻的奖励值和第三个时刻的目标观测数据O。

以此类推。

综上，本实施例基于SDN的异构无线网络接入选择方法一共包括两个阶段：训练阶段和决策阶段。

训练阶段的算法可以概括如下：

决策阶段的算法如下：

本实施例的接入选择方法通过对若干属性因素依次进行多属性特征提取、空间特征提取和时序特征进行提取，并使用Double DQN算法实现网络接入选择方法的训练，可以使得任何一个移动设备在一个5G和WIFI网络覆盖的区域内都能够根据当前的环境状况与自身的状态，选择最优的网络进行接入，从而满足确定性低时延，以保证用户的业务体验。

实施例二

在实施例一的基础上，本实施例提供了一种基于SDN的异构无线网络接入选择系统。请参见图2，图2为本发明实施例提供的一种基于SDN的异构无线网络接入选择系统的结构示意图。该异构无线网络接入选择系统包括环境模块201、特征模块202和策略模块203。

环境模块201用于在目标观测时间长度下，获取每个时刻环境中的目标观测数据，输出目标观测数据；其中，目标观测数据包括若干属性；环境模块201还用于检测并执行策略模块203输出的策略行为。

具体地，环境模块201负责从实际环境中收集所有的必要信息，例如：终端的RSSI、无线接入点的连接用户数、可用带宽和无线接入点的当前负载等属性信息；环境模块201将目标观测时间长度下收集到的信息形成目标观测数据，发送到SDN控制器，作为特征模块202的输入；同时，环境模块201还实时监听来自策略模块203的策略输出，一旦检测到有策略行为(包括目标决策和训练过程中的第一决策)，就会对环境(如终端)进行控制和操作。

特征模块202连接环境模块201，用于利用预设神经网络对目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取，得到当前时刻的状态向量。特征模块202是SDN最核心的模块，其功能为从环境模块201读取目标观测数据；对目标观测数据进行特征提取，并输出一个特征向量到策略模块203。

具体地，特征模块202包括三个子模块：多属性神经网络模块、卷积神经网络模块和循环神经网络模块；其中，多属性神经网络模块由人工神经网络构成，用于利用多属性神经网络对目标观测数据进行多属性特征提取得到属性特征；卷积神经网络模块用于利用卷积神经网络对多属性特征进行空间特征提取得到空间特征；循环神经网络模块用于利用循环神经网络对空间特征进行时序特征进行提取得到时序特征，该时序特征即为输出到策略模块203的状态向量。

进一步地，特征模块202还用于根据策略模块203回传的残差(损失函数)，在多属性神经网络、卷积神经网络和循环神经网络中执行反向传播算法，完成上述三个神经网络的训练(即完成每个神经网络中可变参数的更新)，从而得到训练好的神经网络。

策略模块203连接环境模块201和特征模块202，用于使用全连接神经网络作为初始Q网络对状态向量进行处理，并利用Double DQN算法对预设神经网络和初始Q网络进行训练，得到训练好的预设神经网络和目标Q网络，并且利用训练好的预设神经网络和目标Q网络计算当前时刻每个决策的评估值，根据评估值选取目标决策，输出目标决策。

策略模块203是由一个前向全连接神经网络组成，以Double DQN为核心架构，其功能为从特征模块202读取特征向量，作为状态输入；使用Q值函数，输出每个决策的评估值；从环境模块201中读取奖励值，用于计算Q学习算法的损失函数，并在前向全连接神经网络中执行反向传播算法，完成相关神经网络的训练以及参数的更新；根据每个决策的评估值选择最好的决策即目标决策，并将目标决策传输到环境模块201。

环境模块201、特征模块202和策略模块203的具体执行过程请参见实施例一，本实施例不再赘述。

本实施例基于深度强化学习理论，提出了适用于软件定义的异构无线网络中的接入选择方法，该接入选择方法能够以网络管理应用的形式运行在集中的控制器上，对终端在网络中的切换进行决策管理，从而使得终端在切换过程中满足确定性低时延的要求，保证终端的业务体验。

本实施例在特征模块中引入多属性神经网络模块，对控制器观测到的多属性因素进行特征提取，能保证终端在5G与WIFI共存的场景下选择最优的网络接入，以满足确定性低时延。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于SDN的异构无线网络接入选择方法，其特征在于，包括步骤：

S2、利用预设神经网络对所述目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取，得到当前时刻的状态向量；包括步骤：

利用多属性神经网络对所述目标观测数据进行多属性特征提取，得到属性特征；利用卷积神经网络对所述属性特征进行空间特征提取，得到空间特征；利用循环神经网络对所述空间特征进行时序特征进行提取，得到所述状态向量；

S3、使用初始Q网络对所述状态向量进行处理，并利用Double DQN算法对所述预设神经网络和所述初始Q网络进行训练，得到训练好的预设神经网络和目标Q网络；包括步骤：

根据环境中接入点的数量和每个设备接入的决策定义决策空间；使用所述初始Q网络对所述状态向量进行处理，得到当前时刻决策空间中每个决策的评估值；根据随机概率和当前时刻所述每个决策的评估值，从所述决策空间选取第一决策；获取当前时刻终端执行所述第一决策时的奖励值和下一时刻的目标观测数据；根据所述奖励值和所述下一时刻的目标观测数据计算所述Double DQN算法的损失函数；根据所述损失函数，使用随机梯度下降的方法更新所述预设神经网络中的可变参数和所述初始Q网络中的可变参数，得到训练好的预设神经网络和目标Q网络；

S5、执行所述目标决策。

2.如权利要求1所述的基于SDN的异构无线网络接入选择方法，其特征在于，步骤S1包括：

S11、从环境中获取第j个接入点上的第一观测数据P_j：

S12、获取在第i时刻环境中所有接入点上的第二观测数据O_i：

S13、输出由所述第二观测数据形成的目标观测数据O：

其中，O表示目标观测数据，l表示目标观测时间长度。

3.如权利要求1所述的基于SDN的异构无线网络接入选择方法，其特征在于，所述若干属性包括终端侧接收信号的强度、无线接入点的连接用户数、无线接入点的当前负载中的一种或多种。

4.如权利要求1所述的基于SDN的异构无线网络接入选择方法，其特征在于，所述属性特征B为：

B＝f_ANN(O；θ_ANN)

所述空间特征C为；

C＝f_CNN(B；θ_CNN)

所述状态向量S：

S＝f_RNN(C；θ_RNN)

5.如权利要求1所述的基于SDN的异构无线网络接入选择方法，其特征在于，所述决策空间A为：

其中，A表示决策空间，t表示环境中的接入点的数量，a_i表示选择第i个设备接入的决策。

6.一种基于SDN的异构无线网络接入选择系统，其特征在于，包括环境模块、特征模块和策略模块，其中，

所述特征模块连接所述环境模块，用于利用预设神经网络对所述目标观测数据依次进行多属性特征提取、空间特征提取和时序特征提取，得到当前时刻的状态向量；所述特征模块包括多属性神经网络模块、卷积神经网络模块和循环神经网络模块，所述多属性神经网络模块用于利用多属性神经网络对所述目标观测数据进行多属性特征提取，得到属性特征；所述卷积神经网络模块用于利用卷积神经网络对所述多属性特征进行空间特征提取，得到空间特征；所述循环神经网络模块用于利用循环神经网络对所述空间特征进行时序特征进行提取，得到所述状态向量；

所述策略模块连接所述环境模块和所述特征模块，用于使用初始Q网络对所述状态向量进行处理，并利用Double DQN算法对所述预设神经网络和所述初始Q网络进行训练，得到训练好的预设神经网络和目标Q网络，然后利用训练好的所述预设神经网络和所述目标Q网络计算当前时刻每个决策的评估值，根据所述评估值选取目标决策，并输出所述策略行为至所述环境模块；使用初始Q网络对所述状态向量进行处理，并利用Double DQN算法对所述预设神经网络和所述初始Q网络进行训练，得到训练好的预设神经网络和目标Q网络，包括：根据环境中接入点的数量和每个设备接入的决策定义决策空间；使用所述初始Q网络对所述状态向量进行处理，得到当前时刻决策空间中每个决策的评估值；根据随机概率和当前时刻所述每个决策的评估值，从所述决策空间选取第一决策；获取当前时刻终端执行所述第一决策时的奖励值和下一时刻的目标观测数据；根据所述奖励值和所述下一时刻的目标观测数据计算所述Double DQN算法的损失函数；根据所述损失函数，使用随机梯度下降的方法更新所述预设神经网络中的可变参数和所述初始Q网络中的可变参数，得到训练好的预设神经网络和目标Q网络。

7.如权利要求6所述的一种基于SDN的异构无线网络接入选择系统，其特征在于，所述若干属性包括终端接收信号的强度、无线接入点的连接用户数、无线接入点的当前负载中的一种或多种。