CN110809306A

CN110809306A - 一种基于深度强化学习的终端接入选择方法

Info

Publication number: CN110809306A
Application number: CN201911064928.5A
Authority: CN
Inventors: 黄晓燕; 成泽坤; 杨宁; 冷甦鹏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2020-02-18
Anticipated expiration: 2039-11-04
Also published as: CN110809306B

Abstract

本发明公开一种基于深度强化学习的终端接入选择方法，应用于通信领域，针对异构网络中终端的移动造成的信号接入切换问题，本发明综合考虑不同类型业务的服务质量需求、不同类型接入节点的服务质量保证能力等多方面因素，采用Deep‑Q‑Learning深度强化学习算法对当前网络环境进行感知决策，从而实现基于环境与资源感知的终端智能接入选择决策。有效改善用户的通信体验，并且该算法具有自适应性和在线学习能力。

Description

一种基于深度强化学习的终端接入选择方法

技术领域

本发明属于通信网络领域，特别涉及一种无线异构网络中的终端切换接入技术。

背景技术

随着移动终端数量与流量的爆炸式增长，单一网络已经不能满足高覆盖率，低时延，高宽带等性能要求。因此新一代网络会融合已有的异构网络来发挥网络性能与效率，在此网络基础上，终端的接入策略就是一个期待解决的问题。

由于终端业务的多样性，终端对于信号强度，时延，信噪比等需求不尽相同。网络提供服务的终端不仅包括智能手机，还有智能家居，车载智能终端等物联网设备，这些终端的需求囊括了视频，音频等多种信息交互，在终端与基站日益密集的场景下，终端智能的选择哪个网络来接入，不仅能够有效提升用户体验，还能提高研究时段内的吞吐量，提高通信效率。

目前已有研究中，已出现许多网络接入算法的研究，但是大多数在复杂情况下依然会出现严重的乒乓效应，致使终端在切换接入基站时吞吐量严重下降。并且对于其他现实因素，例如网络的异构性和业务需求考虑不足，适应性相对较差。近年来，基于强化学的研究越来越广泛，强化学习是一种在线学习算法，智能体和外部环境通过奖励机制进行交互，根据在环境中得到的奖励值来调整自身行为，使得智能体学习并适应外部环境，促使智能体选择能够在环境中获得使自身最大奖励的行为。但是强化学习虽然具有较强的决策能力，面对感知问题解决能力有所不足，深度学习具有较强的感知能力，但是缺乏一定的决策能力。因此，将两者结合起来，优势互补，为复杂系统的感知决策问题提供了解决思路，可将深度强化学习运用到移动终端在异构网络中的网络节点切换上，使得决策网络具有自适应性与通用性。

发明内容

为解决异构网络中终端的移动造成的信号接入切换问题，本发明提出了一种基于深度强化学习的终端接入选择方法，基于终端自学习实现异构网络接入选择。

本发明采用的技术方案为：一种基于深度强化学习的终端接入选择方法，终端环境代理模块将收集的异构网络环境的状态以及各终端与异构网络进行交互的信息作为输入信息，将输入信息送往深度强化学习网络，深度强化学习网络输出终端在移动过程中最优的连接节点；

终端环境代理模块将收集的异构网络环境的状态以及各终端与异构网络进行交互的信息作为输入信息，将输入信息送往基于DQN的深度强化学习决策模块，从而输出终端在移动过程中最优的连接节点；

所述深度强化学习网络实现过程包括以下步骤：

S1、将终端环境代理模块收集得到的输入信息整合为当前状态S_t；

S2、采用ε-greedy决策策略确定连接节点决策a_t；

S3、将a_t发送给终端环境代理模块执行连接动作；

S4、终端代理模块收集包括待连接基站类型、带宽、连接人数的基础数据；

并计算环境奖励值R_t与执行连接动作后的下一状态S_t+1；

S5、终端代理模块将决策后用户网络状态(S_t,a_t,R_t,S_t+1)进行保存并更新深度强化学习网络。

进一步地，所述输入信息包括：基站的信号强度、时延、丢包率、抖动，上一次策略获得的环境奖励值。

进一步地，S_t的表达式为：

其中，N_t表示网络环境状态，τ_t表示用户移动状态，

表示t时刻用户业务需求。

更进一步地，

包括四项属性，分别为：业务u所期望的最低带宽需求、业务u所期望的最低时延需求、业务u所期望的最低抖动需求以及业务u所期望的最低丢包率需求。

进一步地，步骤S4所述R_t的计算式为：

R_t(S_t,a_t)＝α(a_t)Q(S_t,a_t)

其中，α(a_t)表示a_t的函数，q(S_t,a_t)表示采取动作a_t后业务需求的满足程度，a_t∈{1,2,3,…,m}表示t时刻用户连接动作，其中动作a_t＝i表示智能终端连接到了节点i上。

进一步地，步骤S5包括以下分步骤：

S51、终端代理模块将决策后用户网络状态(S_t,a_t,R_t,S_t+1)存入经验池，若存入后经验池中经验数量满足K组样本，其中，K表示经验池容量，一般取1000～5000组，根据场景规模确定，执行步骤S52，否则转至步骤S1；

S52、从经验池中随机采样minibatch组样本来组成经验集合d，其中，minibatch表示每次从经验池中取出的样本数量，一般取32～64组，根据场景规模确定，计算训练目的值z_j，并更新Q-估计神经网络，其中，z_j表示时刻j的训练目的值，表示该动作对当前及之后的终端连接质量的综合评估价值，并在前向全连接神经网络中与深度强化学习神经网络输出构建损失函数，执行反向传播算法，完成相关神经网络的训练及参数的更新，最后还会通过前向全连接神经网络回传的残差传输回特征提取器模块；

S53、每训练C步更新Q-现实神经网络。

更进一步地，步骤S52所述训练目的值z_j的计算过程为：将当前网络环境反馈激励R_j与未来Q-函数价值进行加权计算，若终端位置位于异构网络边界，且其方向向量指向异构网络外部，则

z_j＝R_j

若终端位置位于异构网络内部或终端位置位于异构网络边界，且其方向向量指向异构网络内部，则

其中，j＝1,2,3,…,minibatch，α表示学习率，0≤α≤1，γ为折扣因子，表示对未来奖励的衰减值，0≤γ≤1，Q′(S_j+1,a′_j；θ)表示网络在未进行更新时对状态S_j+1采取a′_j动作获取的Q价值。

进一步地，步骤S51还包括：若终端代理模块将决策后用户网络状态(S_t,a_t,R_t,S_t+1)存入经验池之前，经验池中经验数量不足K组样本，则直接将决策后用户网络状态(S_t,a_t,R_t,S_t+1)存入经验池；否则将决策后用户网络状态(S_t,a_t,R_t,S_t+1)随机覆盖经验池中的某项样本。

本发明的有益效果：本发明的一种基于深度强化学习的终端接入选择方法，综合考量了业务需求，终端移动与网络资源开销，追求业务需求与节省网络资源上的平衡；本发明在实际训练时维护两个网络，一个网络用于前向全连接深度强化学习网络的参数训练与更新，另一个负责输出步骤S2中动作决策，兼顾了训练与实际使用，降低了决策延迟；本发明的方法相较于基于RSSI阈值比较算法，在密集异构蜂窝无线网络中平均传输速率提高了20％左右，传输稳定性提高了30％左右。并且在多用户无规则移动介入的密集异构蜂窝无线网络中减轻了网络负担，提高了资源利用率。

附图说明

图1为本发明实施例场景示意图

图2为本发明实施例提供的方案流程图。

表1为本发明与相较与基于RSSI阈值比较算法性能提升

具体实施方式

为了便于本领域的普通技术人员理解本发明，首先对以下技术术语进行定义：

1、Q-Learning

一种强化学习算法，智能体通过在环境中执行动作获得一定的奖励来感知环境，从而学习到由状态到动作的映射策略来最大化奖励值。

2、Deep-Q-Learning(DQN)

DQN是第一个将深度学习模型与强化学习结合在一起从而成功地直接从高维的输入学习控制策略。通过引进期望的延迟回报的方法，解决了缺乏信息条件下的MDP(马尔可夫决策过程，Markov Decision Process)问题，可以认为DQN学习基于瞬时策略，是一个独立模型的特殊的深度强化学习方法。

3、自适应

根据处理数据的数据特征自动调整处理方法、处理顺序、处理参数、边界条件或约束条件，使其与所处理数据的统计分布特征、结构特征相适应，以取得最佳的处理效果的过程。

4、Fixed Q-targets

是一种打乱相关性的机理，如果使用fixed Q-targets，就会在DQN中使用到两个结构相同但参数不同的神经网络，预测Q-估计的神经网络具备最新的参数，而预测Q-现实的神经网络使用的参数则是很久以前的。

5、异构蜂窝网络

异构网络(Heterogeneous Network)是一种类型的网络，其是由不同制造商生产的计算机，网络设备和系统组成的，大部分情况下运行在不同的协议上支持不同的功能或应用。其中本实施例中仅包含宏基站，微基站。

下面结合附图1-2对本发明内容进一步阐释。

如图1所示，假设在一个通信区域内，在密集异构网络下用户智能终端UE(UserEquipment)在移动过程中策略网络针对终端的移动趋势，信号强度与节点服务水平的差异性来主动选择接入节点，根据业务类型的不同智能考虑连接的速率，时延，丢包率等因素最后造成的服务水平差异，选择对于当前终端业务最优的接入策略，减少频繁切换带来的乒乓效应；同时考虑网络的利用率等信息，通过连接到合适的网络达到最佳的网络服务体验；在移动过程中忽略外界干扰因素仅考虑密集异构网络节点之间的干扰情况。

本发明内容主要包括三个部分：异构网络环境、终端环境代理与基于DQN的深度学习决策模块，这三个模块通过前期强化训练决策过程，输出终端在移动过程中最适宜的连接节点。

终端环境代理的基本作用相当于强化学习中agent角色，属于终端内部算法模块。在策略网络输出策略后将其应用到实际环境中，建立终端与基站的连接。在训练过程中，终端环境代理不断地收集异构网络环境的状态以及终端和异构网络进行交互的信息，其中包括收集基站的信号强度，时延，丢包率，抖动等数据，以及收集上一次策略获得的反馈奖励协助训练深度强化学习网络，其中，反馈奖励初始值置0。当收集好数据后，终端环境代理会将异构网络环境数据连同终端的业务需求，终端的位置信息作为用户状态，将用户状态作为输入送往深度强化学习网络。

基于DQN的深度学习决策模块是系统主要功能模块，用于输入用户与异构网络当前的状态，根据当前状态选择满足业务的最优决策。

首先，定义框架中环境代理模块从实际环境平台读取的观测数据

为终端环境代理模块t时刻从第i个接入设备上读取的原始观测数据。这个观测数据需要根据不同的场景和优化目标进行设置。此处选择t时刻RSSI作为

主要反映的是接入设备能检测到的节点信号强度，一定程度上体现网络环境状态，同时，由于需要考虑用户在移动过程中的信号节点切换。因此系统输入中需要包含用户在t时刻的位置信息与运动状态，该数据由终端环境代理给出，分别记录为p_t和v_t，其中，p_t可表示为坐标位置，在用户移动中有初始移动坐标与最终移动坐标，分别定义为在通信小区范围的初始进入位置与最终离开位置，而v_t可表示为t时刻的速度向量，为方便表示使用τ_t＝{p_t,v_t}表征用户移动状态。

环境代理模块在时刻t∈T所观测到的全局数据N_t定义为

其中，

表示节点i在t时刻服务的终端数量，i∈{1,2,…m}，m表示节点的数量，且借点服务的终端数量服从环境代理模块的输出是一个观测数据列表，其定义为N＝{N₁,N₂,…,N_l}，其中l是终端环境代理的观测时间长度，其代表着选取多长时间的观测数据来用于提取相应的时序特征。此参数值决定着提取时序特征的时间尺度，一般情况下，取终端移动5-10m距离的时间为尺度，具体需要根据实际情况进行选择。

终端环境代理在研究时段内做出的动作集合可表示为如下所示：

其中，

表示终端状态S_t到一种动作的映射。使用P来表示π的集合，如果策略π被使用了，那么相应的终端状态使用

来表示。

由此所希望的目标即为从时间t从1到l通过接入策略π使得奖励函数取得最大值。

其中，ρ为折现因子且ρ∈[0,1]。最优策略代表定义问题的最佳解决方案。注意，为了实现全局最佳，每个特定时间t的动作应该考虑关于当前和未来的预期成本。

在定义深度Q-Learing网络中的动作a＝i即选择第i个接入设备进行链接，Q-Learing的Q值评估函数可以使用以下公示表示：

其中，

表示完成该动作之后下一个状态动作Q值。

在深度学习中可以通过深度神经网路学习Q函数：

Q(S,a_i；θ)＝f_DNN(S,a_i；θ) (4)

本发明实施例提供了一种基于深度强化学习的终端接入选择方法，在训练过程中使用Fixed Q-targets策略，用户终端UE到达决策时间t且网络相对位置相对为τ_t时，首先获取用户与网络节点状态并将其作为输入得到Q-估计网络的Q值，并根据最大Q值选择相应网络节点，为了避免训练的相关性，将决策后的网络用户状态连同当前状态、当前决策以及Q-现实网络中对未来状态的Q值计算作为经验存入，训练时随机取出训练池中一部分经验进行训练，并将未来Q值作为激励函数中一部分来提升终端UE在整个移动过程中的决策能力，具体流程如图2所示，包括以下步骤：

S1、环境代理收集数据并整合为状态

S2、采用ε-greedy决策策略确定连接节点决策a_t；

S3、将决策a_t发送给环境代理模块执行连接动作；

S4、终端代理模块收集并采用策略计算环境奖励值R_t与采取动作后下一状态S_t+1；

S5、终端代理模块将决策后用户网络状态(S_t,a_t,R_t,S_t+1)保存并更新决策网络；

在本实例中步骤S1的实施过程如下所示：

S11、若深度强化学习网络不存在，利用Fixed Q-targets机制初始化Q-估计与Q-现实深度强化学习网络，网络的输入为UE状态，输出为选择并初始化经验池AP_i，其中，下标i表示网络内所有AP(Access Point，接入点)的索引，经验池P的表达式如下：

P＝{…,(S_t,a_t,R_t,S_t+1),…} (5)

其中，(S_t,a_t,R_t,S_t+1)表示着t时刻的经验历史。

S12、当终端UE到达决策时间t且网络相对位置相对为τ_t时，综合考虑网络环境状态N_t，用户移动状态τ_t与用户的业务需求，最终将策略网络时刻t的输入定义为

其中，

表示t时刻用户业务需求，为区分不同业务并表征当前业务需求，

可表示为

其中，b_u,d_u,j_u,l_u分别表示业务所期望的最低带宽需求，最低时延需求，最低抖动需求与最低丢包率需求，的设置可根据实际应用场景与应用业务种类来设定。进一步的，代理模块将整合好的S_t输入到网络中。

在本实例中步骤S2的实施过程如下所示：

S21、在Q-估计网络中完成对Q值输出列表的计算，在t时刻上根据终端的环境代理所采取的接入动作a_t与状态S_t，可以获取到相应的回报作为奖励，该奖励函数的设定可以通过最终用户业务的满足程度来计算，同时考虑网络异构性，在对业务满足程度式中对连接节点的种类进行区分，如下式所示：

其中，α为基站选择的偏好值且α为a_t的函数，q(S_t,a_t)表示采取动作a_t后业务需求的满足程度，

表示业务u的各属性相应权重，i∈{1,2,…,5}，C_u,b_u,d_u,j_u,l_u分别为业务u对于传输速率，带宽，时延，抖动与丢包率的最低需求，C_u,b_u,d_u,j_u,l_u需要考虑网络利用率与实际环境综合得出。

表示终端在t时刻采取动作a_t＝i后获得的传输速率，

表示节点i带宽大小，

表示连接时节点服务的终端数量，

表示终端到节点i的信道增益，表示节点i的发射功率，

表示连接节点i的噪声功率。

S22、终端UE代理模块按照ε-greedy决策策略来采取行动，即以1-ε的概率随机进行节点选择，目的是适应网络状态动态变化的特点，有助于丰富训练集成分；以ε的概率选择优先级最大的节点a_t，将待连接节点与连接操作统称为a_t，a_t的优先级由估计Q-网络的输出确定，其表达式为：

在本实例中步骤S4的实施过程为：收集待连接基站类型，带宽，连接人数等基础数据，并计算外界反馈激励R_t，计算表达式为：

R_t(S_t,a_t)＝α(a_t)Q(S_t,a_t) (9)

终端代理模块收集并采用策略a_t计算环境奖励值R_t与采取动作后下一状态S_t+1。

在本实例中步骤S5的实施过程如下所示：

S51、将UE代理将信息(S_t,a_t,R_t,S_t+1)存入经验池P，若存入后经验池P中经验数量不足K组样本，则不进行步骤S52，继续进行终端移动决策步骤，直到满足P容量需求再进行训练，若存入后经验池P中经验数量满足K组样本，则新的经验(S_t,a_t,R_t,S_t+1)随机覆盖经验池P中某项样本；

S52、从P中随机采样minibatch组样本来组成经验集合d，在奖励值R和经验回放池P的基础上对损失函数定义如下：

其中，a_i′表示Q-现实网络输入S_t+1，θ′表示Q-现实网络参数，θ表示Q-估计网络参数，γ为一个长期奖励的衰减因子。在每一步训练步骤中会计算

来进行梯度反向传播，从而进一步使用梯度下降方法来更新Q-估计神经网络的参数，包括θ，θ_CNN，θ_RNN，CNN全拼为Convolutional Neural Network表示卷积神经网络，RNN全拼为Recurrent NeuralNetworks表示循环神经网络，并且每训练C步会对Q-现实神经网络参数Q′进行更新，即θ＝θ′，其中，C为超参数，一般取值为200～500，根据网络结构规模确定C大小，C过大，Q-现实网络更新速度越慢，易造成训练速度缓慢，C过小则会导致网络提早收敛。

S53、若成功接入，则数据被传送，结束本轮切换感知；否则循环S1-S4直到检测到可用节点成功接入或达到最大检测次数宣告网络阻塞。

如表1所示，本发明的基于DQN的切换决策算法，相比于现有的基于信号强度的切换决策算法平均传输速率提高了15％以上，传输稳定性提高了20％以上。

表1相同场景下算法对比

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于深度强化学习的终端接入选择方法，其特征在于，终端环境代理模块将收集的异构网络环境的状态以及各终端与异构网络进行交互的信息作为输入信息，将输入信息送往深度强化学习网络，深度强化学习网络输出终端在移动过程中最优的连接节点；

所述深度强化学习网络实现过程包括以下步骤：

S2、采用ε-greedy决策策略确定连接节点决策a_t；

S3、将a_t发送给终端环境代理模块执行连接动作；

并计算环境奖励值R_t与执行连接动作后的下一状态S_t+1；

2.根据权利要求1所述的一种基于深度强化学习的终端接入选择方法，其特征在于，所述输入信息包括：基站的信号强度、时延、丢包率、抖动，上一次策略获得的环境奖励值。

3.根据权利要求1所述的一种基于深度强化学习的终端接入选择方法，其特征在于，S_t的表达式为：

其中，N_t表示网络环境状态，τ_t表示用户移动状态，

表示t时刻用户业务需求。

4.根据权利要求3所述的一种基于深度强化学习的终端接入选择方法，其特征在于，

5.根据权利要求1所述的一种基于深度强化学习的终端接入选择方法，其特征在于，步骤S4所述R_t的计算式为：

R_t(S_t,a_t)＝α(a_t)Q(S_t,a_t)

其中，α(a_t)表示a_t的函数，q(S_t,a_t)表示采取动作a_t后业务需求的满足程度，a_t表示t时刻用户连接动作。

6.根据权利要求1所述的一种基于深度强化学习的终端接入选择方法，其特征在于，步骤S5包括以下分步骤：

S51、终端代理模块将决策后用户网络状态(S_t,a_t,R_t,S_t+1)存入经验池，若存入后经验池中经验数量满足K组样本，则执行步骤S52，否则转至步骤S1；

其中，K表示经验池容量；

S52、从经验池中随即采样minibatch组样本来组成经验集合d，计算训练目的值z_j，并更新Q-估计神经网络；

其中，minibatch表示每次从经验池中取出的样本数量，z_j表示时刻j的训练目的值；

S53、每训练C步更新Q-现实神经网络。

7.根据权利要求6所述的一种基于深度强化学习的终端接入选择方法，其特征在于，步骤S52所述训练目的值z_j的计算过程为：将当前网络环境反馈激励R_j与未来Q-函数价值进行加权计算，若终端位置位于异构网络边界，且其方向向量指向异构网络外部，则

z_j＝R_j

其中，j＝1,2,3,…,minibatch，α表示学习率，0≤α≤1，γ为折扣因子，0≤γ≤1，Q′(S_j+1,a′_j；θ)表示网络在未进行更新时对状态S_j+1采取a′_j动作获取的Q价值。

8.根据权利要求6所述的一种基于深度强化学习的终端接入选择方法，其特征在于，步骤S51还包括：若终端代理模块将决策后用户网络状态(S_t,a_t,R_t,S_t+1)存入经验池之前，经验池中经验数量不足K组样本，则直接将决策后用户网络状态(S_t,a_t,R_t,S_t+1)存入经验池；否则将决策后用户网络状态(S_t,a_t,R_t,S_t+1)随机覆盖经验池中的某项样本。