CN110809306A - 一种基于深度强化学习的终端接入选择方法 - Google Patents

一种基于深度强化学习的终端接入选择方法 Download PDF

Info

Publication number
CN110809306A
CN110809306A CN201911064928.5A CN201911064928A CN110809306A CN 110809306 A CN110809306 A CN 110809306A CN 201911064928 A CN201911064928 A CN 201911064928A CN 110809306 A CN110809306 A CN 110809306A
Authority
CN
China
Prior art keywords
terminal
network
reinforcement learning
deep reinforcement
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911064928.5A
Other languages
English (en)
Other versions
CN110809306B (zh
Inventor
黄晓燕
成泽坤
杨宁
冷甦鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911064928.5A priority Critical patent/CN110809306B/zh
Publication of CN110809306A publication Critical patent/CN110809306A/zh
Application granted granted Critical
Publication of CN110809306B publication Critical patent/CN110809306B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • H04W48/08Access restriction or access information delivery, e.g. discovery data delivery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • H04W48/16Discovering, processing access restriction or access information

Abstract

本发明公开一种基于深度强化学习的终端接入选择方法,应用于通信领域,针对异构网络中终端的移动造成的信号接入切换问题,本发明综合考虑不同类型业务的服务质量需求、不同类型接入节点的服务质量保证能力等多方面因素,采用Deep‑Q‑Learning深度强化学习算法对当前网络环境进行感知决策,从而实现基于环境与资源感知的终端智能接入选择决策。有效改善用户的通信体验,并且该算法具有自适应性和在线学习能力。

Description

一种基于深度强化学习的终端接入选择方法
技术领域
本发明属于通信网络领域,特别涉及一种无线异构网络中的终端切换接入技术。
背景技术
随着移动终端数量与流量的爆炸式增长,单一网络已经不能满足高覆盖率,低时延,高宽带等性能要求。因此新一代网络会融合已有的异构网络来发挥网络性能与效率,在此网络基础上,终端的接入策略就是一个期待解决的问题。
由于终端业务的多样性,终端对于信号强度,时延,信噪比等需求不尽相同。网络提供服务的终端不仅包括智能手机,还有智能家居,车载智能终端等物联网设备,这些终端的需求囊括了视频,音频等多种信息交互,在终端与基站日益密集的场景下,终端智能的选择哪个网络来接入,不仅能够有效提升用户体验,还能提高研究时段内的吞吐量,提高通信效率。
目前已有研究中,已出现许多网络接入算法的研究,但是大多数在复杂情况下依然会出现严重的乒乓效应,致使终端在切换接入基站时吞吐量严重下降。并且对于其他现实因素,例如网络的异构性和业务需求考虑不足,适应性相对较差。近年来,基于强化学的研究越来越广泛,强化学习是一种在线学习算法,智能体和外部环境通过奖励机制进行交互,根据在环境中得到的奖励值来调整自身行为,使得智能体学习并适应外部环境,促使智能体选择能够在环境中获得使自身最大奖励的行为。但是强化学习虽然具有较强的决策能力,面对感知问题解决能力有所不足,深度学习具有较强的感知能力,但是缺乏一定的决策能力。因此,将两者结合起来,优势互补,为复杂系统的感知决策问题提供了解决思路,可将深度强化学习运用到移动终端在异构网络中的网络节点切换上,使得决策网络具有自适应性与通用性。
发明内容
为解决异构网络中终端的移动造成的信号接入切换问题,本发明提出了一种基于深度强化学习的终端接入选择方法,基于终端自学习实现异构网络接入选择。
本发明采用的技术方案为:一种基于深度强化学习的终端接入选择方法,终端环境代理模块将收集的异构网络环境的状态以及各终端与异构网络进行交互的信息作为输入信息,将输入信息送往深度强化学习网络,深度强化学习网络输出终端在移动过程中最优的连接节点;
终端环境代理模块将收集的异构网络环境的状态以及各终端与异构网络进行交互的信息作为输入信息,将输入信息送往基于DQN的深度强化学习决策模块,从而输出终端在移动过程中最优的连接节点;
所述深度强化学习网络实现过程包括以下步骤:
S1、将终端环境代理模块收集得到的输入信息整合为当前状态St
S2、采用ε-greedy决策策略确定连接节点决策at
S3、将at发送给终端环境代理模块执行连接动作;
S4、终端代理模块收集包括待连接基站类型、带宽、连接人数的基础数据;
并计算环境奖励值Rt与执行连接动作后的下一状态St+1
S5、终端代理模块将决策后用户网络状态(St,at,Rt,St+1)进行保存并更新深度强化学习网络。
进一步地,所述输入信息包括:基站的信号强度、时延、丢包率、抖动,上一次策略获得的环境奖励值。
进一步地,St的表达式为:
Figure BDA0002259021280000021
其中,Nt表示网络环境状态,τt表示用户移动状态,
Figure BDA0002259021280000022
表示t时刻用户业务需求。
更进一步地,
Figure BDA0002259021280000023
包括四项属性,分别为:业务u所期望的最低带宽需求、业务u所期望的最低时延需求、业务u所期望的最低抖动需求以及业务u所期望的最低丢包率需求。
进一步地,步骤S4所述Rt的计算式为:
Rt(St,at)=α(at)Q(St,at)
其中,α(at)表示at的函数,q(St,at)表示采取动作at后业务需求的满足程度,at∈{1,2,3,…,m}表示t时刻用户连接动作,其中动作at=i表示智能终端连接到了节点i上。
进一步地,步骤S5包括以下分步骤:
S51、终端代理模块将决策后用户网络状态(St,at,Rt,St+1)存入经验池,若存入后经验池中经验数量满足K组样本,其中,K表示经验池容量,一般取1000~5000组,根据场景规模确定,执行步骤S52,否则转至步骤S1;
S52、从经验池中随机采样minibatch组样本来组成经验集合d,其中,minibatch表示每次从经验池中取出的样本数量,一般取32~64组,根据场景规模确定,计算训练目的值zj,并更新Q-估计神经网络,其中,zj表示时刻j的训练目的值,表示该动作对当前及之后的终端连接质量的综合评估价值,并在前向全连接神经网络中与深度强化学习神经网络输出构建损失函数,执行反向传播算法,完成相关神经网络的训练及参数的更新,最后还会通过前向全连接神经网络回传的残差传输回特征提取器模块;
S53、每训练C步更新Q-现实神经网络。
更进一步地,步骤S52所述训练目的值zj的计算过程为:将当前网络环境反馈激励Rj与未来Q-函数价值进行加权计算,若终端位置位于异构网络边界,且其方向向量指向异构网络外部,则
zj=Rj
若终端位置位于异构网络内部或终端位置位于异构网络边界,且其方向向量指向异构网络内部,则
Figure BDA0002259021280000031
其中,j=1,2,3,…,minibatch,α表示学习率,0≤α≤1,γ为折扣因子,表示对未来奖励的衰减值,0≤γ≤1,Q′(Sj+1,a′j;θ)表示网络在未进行更新时对状态Sj+1采取a′j动作获取的Q价值。
进一步地,步骤S51还包括:若终端代理模块将决策后用户网络状态(St,at,Rt,St+1)存入经验池之前,经验池中经验数量不足K组样本,则直接将决策后用户网络状态(St,at,Rt,St+1)存入经验池;否则将决策后用户网络状态(St,at,Rt,St+1)随机覆盖经验池中的某项样本。
本发明的有益效果:本发明的一种基于深度强化学习的终端接入选择方法,综合考量了业务需求,终端移动与网络资源开销,追求业务需求与节省网络资源上的平衡;本发明在实际训练时维护两个网络,一个网络用于前向全连接深度强化学习网络的参数训练与更新,另一个负责输出步骤S2中动作决策,兼顾了训练与实际使用,降低了决策延迟;本发明的方法相较于基于RSSI阈值比较算法,在密集异构蜂窝无线网络中平均传输速率提高了20%左右,传输稳定性提高了30%左右。并且在多用户无规则移动介入的密集异构蜂窝无线网络中减轻了网络负担,提高了资源利用率。
附图说明
图1为本发明实施例场景示意图
图2为本发明实施例提供的方案流程图。
表1为本发明与相较与基于RSSI阈值比较算法性能提升
具体实施方式
为了便于本领域的普通技术人员理解本发明,首先对以下技术术语进行定义:
1、Q-Learning
一种强化学习算法,智能体通过在环境中执行动作获得一定的奖励来感知环境,从而学习到由状态到动作的映射策略来最大化奖励值。
2、Deep-Q-Learning(DQN)
DQN是第一个将深度学习模型与强化学习结合在一起从而成功地直接从高维的输入学习控制策略。通过引进期望的延迟回报的方法,解决了缺乏信息条件下的MDP(马尔可夫决策过程,Markov Decision Process)问题,可以认为DQN学习基于瞬时策略,是一个独立模型的特殊的深度强化学习方法。
3、自适应
根据处理数据的数据特征自动调整处理方法、处理顺序、处理参数、边界条件或约束条件,使其与所处理数据的统计分布特征、结构特征相适应,以取得最佳的处理效果的过程。
4、Fixed Q-targets
是一种打乱相关性的机理,如果使用fixed Q-targets,就会在DQN中使用到两个结构相同但参数不同的神经网络,预测Q-估计的神经网络具备最新的参数,而预测Q-现实的神经网络使用的参数则是很久以前的。
5、异构蜂窝网络
异构网络(Heterogeneous Network)是一种类型的网络,其是由不同制造商生产的计算机,网络设备和系统组成的,大部分情况下运行在不同的协议上支持不同的功能或应用。其中本实施例中仅包含宏基站,微基站。
下面结合附图1-2对本发明内容进一步阐释。
如图1所示,假设在一个通信区域内,在密集异构网络下用户智能终端UE(UserEquipment)在移动过程中策略网络针对终端的移动趋势,信号强度与节点服务水平的差异性来主动选择接入节点,根据业务类型的不同智能考虑连接的速率,时延,丢包率等因素最后造成的服务水平差异,选择对于当前终端业务最优的接入策略,减少频繁切换带来的乒乓效应;同时考虑网络的利用率等信息,通过连接到合适的网络达到最佳的网络服务体验;在移动过程中忽略外界干扰因素仅考虑密集异构网络节点之间的干扰情况。
本发明内容主要包括三个部分:异构网络环境、终端环境代理与基于DQN的深度学习决策模块,这三个模块通过前期强化训练决策过程,输出终端在移动过程中最适宜的连接节点。
终端环境代理的基本作用相当于强化学习中agent角色,属于终端内部算法模块。在策略网络输出策略后将其应用到实际环境中,建立终端与基站的连接。在训练过程中,终端环境代理不断地收集异构网络环境的状态以及终端和异构网络进行交互的信息,其中包括收集基站的信号强度,时延,丢包率,抖动等数据,以及收集上一次策略获得的反馈奖励协助训练深度强化学习网络,其中,反馈奖励初始值置0。当收集好数据后,终端环境代理会将异构网络环境数据连同终端的业务需求,终端的位置信息作为用户状态,将用户状态作为输入送往深度强化学习网络。
基于DQN的深度学习决策模块是系统主要功能模块,用于输入用户与异构网络当前的状态,根据当前状态选择满足业务的最优决策。
首先,定义框架中环境代理模块从实际环境平台读取的观测数据
Figure BDA0002259021280000054
为终端环境代理模块t时刻从第i个接入设备上读取的原始观测数据。这个观测数据需要根据不同的场景和优化目标进行设置。此处选择t时刻RSSI作为
Figure BDA0002259021280000053
主要反映的是接入设备能检测到的节点信号强度,一定程度上体现网络环境状态,同时,由于需要考虑用户在移动过程中的信号节点切换。因此系统输入中需要包含用户在t时刻的位置信息与运动状态,该数据由终端环境代理给出,分别记录为pt和vt,其中,pt可表示为坐标位置,在用户移动中有初始移动坐标与最终移动坐标,分别定义为在通信小区范围的初始进入位置与最终离开位置,而vt可表示为t时刻的速度向量,为方便表示使用τt={pt,vt}表征用户移动状态。
环境代理模块在时刻t∈T所观测到的全局数据Nt定义为
Figure BDA0002259021280000051
其中,
Figure BDA0002259021280000052
表示节点i在t时刻服务的终端数量,i∈{1,2,…m},m表示节点的数量,且借点服务的终端数量服从环境代理模块的输出是一个观测数据列表,其定义为N={N1,N2,…,Nl},其中l是终端环境代理的观测时间长度,其代表着选取多长时间的观测数据来用于提取相应的时序特征。此参数值决定着提取时序特征的时间尺度,一般情况下,取终端移动5-10m距离的时间为尺度,具体需要根据实际情况进行选择。
终端环境代理在研究时段内做出的动作集合可表示为如下所示:
其中,
Figure BDA0002259021280000062
表示终端状态St到一种动作的映射。使用P来表示π的集合,如果策略π被使用了,那么相应的终端状态使用
Figure BDA0002259021280000063
来表示。
由此所希望的目标即为从时间t从1到l通过接入策略π使得奖励函数取得最大值。
Figure BDA0002259021280000064
其中,ρ为折现因子且ρ∈[0,1]。最优策略代表定义问题的最佳解决方案。注意,为了实现全局最佳,每个特定时间t的动作应该考虑关于当前和未来的预期成本。
在定义深度Q-Learing网络中的动作a=i即选择第i个接入设备进行链接,Q-Learing的Q值评估函数可以使用以下公示表示:
Figure BDA0002259021280000065
其中,
Figure BDA0002259021280000066
表示完成该动作之后下一个状态动作Q值。
在深度学习中可以通过深度神经网路学习Q函数:
Q(S,ai;θ)=fDNN(S,ai;θ) (4)
本发明实施例提供了一种基于深度强化学习的终端接入选择方法,在训练过程中使用Fixed Q-targets策略,用户终端UE到达决策时间t且网络相对位置相对为τt时,首先获取用户与网络节点状态并将其作为输入得到Q-估计网络的Q值,并根据最大Q值选择相应网络节点,为了避免训练的相关性,将决策后的网络用户状态连同当前状态、当前决策以及Q-现实网络中对未来状态的Q值计算作为经验存入,训练时随机取出训练池中一部分经验进行训练,并将未来Q值作为激励函数中一部分来提升终端UE在整个移动过程中的决策能力,具体流程如图2所示,包括以下步骤:
S1、环境代理收集数据并整合为状态
S2、采用ε-greedy决策策略确定连接节点决策at
S3、将决策at发送给环境代理模块执行连接动作;
S4、终端代理模块收集并采用策略计算环境奖励值Rt与采取动作后下一状态St+1
S5、终端代理模块将决策后用户网络状态(St,at,Rt,St+1)保存并更新决策网络;
在本实例中步骤S1的实施过程如下所示:
S11、若深度强化学习网络不存在,利用Fixed Q-targets机制初始化Q-估计与Q-现实深度强化学习网络,网络的输入为UE状态,输出为选择并初始化经验池APi,其中,下标i表示网络内所有AP(Access Point,接入点)的索引,经验池P的表达式如下:
P={…,(St,at,Rt,St+1),…} (5)
其中,(St,at,Rt,St+1)表示着t时刻的经验历史。
S12、当终端UE到达决策时间t且网络相对位置相对为τt时,综合考虑网络环境状态Nt,用户移动状态τt与用户的业务需求,最终将策略网络时刻t的输入定义为
Figure BDA0002259021280000072
Figure BDA0002259021280000073
其中,
Figure BDA0002259021280000074
表示t时刻用户业务需求,为区分不同业务并表征当前业务需求,
Figure BDA0002259021280000075
可表示为
Figure BDA0002259021280000076
其中,bu,du,ju,lu分别表示业务所期望的最低带宽需求,最低时延需求,最低抖动需求与最低丢包率需求,的设置可根据实际应用场景与应用业务种类来设定。进一步的,代理模块将整合好的St输入到网络中。
在本实例中步骤S2的实施过程如下所示:
S21、在Q-估计网络中完成对Q值输出列表的计算,在t时刻上根据终端的环境代理所采取的接入动作at与状态St,可以获取到相应的回报作为奖励,该奖励函数的设定可以通过最终用户业务的满足程度来计算,同时考虑网络异构性,在对业务满足程度式中对连接节点的种类进行区分,如下式所示:
Figure BDA0002259021280000078
Figure BDA0002259021280000079
其中,α为基站选择的偏好值且α为at的函数,q(St,at)表示采取动作at后业务需求的满足程度,
Figure BDA0002259021280000081
表示业务u的各属性相应权重,i∈{1,2,…,5},Cu,bu,du,ju,lu分别为业务u对于传输速率,带宽,时延,抖动与丢包率的最低需求,Cu,bu,du,ju,lu需要考虑网络利用率与实际环境综合得出。
Figure BDA0002259021280000082
表示终端在t时刻采取动作at=i后获得的传输速率,
Figure BDA0002259021280000083
表示节点i带宽大小,
Figure BDA0002259021280000084
表示连接时节点服务的终端数量,
Figure BDA0002259021280000085
表示终端到节点i的信道增益,表示节点i的发射功率,
Figure BDA0002259021280000087
表示连接节点i的噪声功率。
S22、终端UE代理模块按照ε-greedy决策策略来采取行动,即以1-ε的概率随机进行节点选择,目的是适应网络状态动态变化的特点,有助于丰富训练集成分;以ε的概率选择优先级最大的节点at,将待连接节点与连接操作统称为at,at的优先级由估计Q-网络的输出确定,其表达式为:
Figure BDA0002259021280000088
在本实例中步骤S4的实施过程为:收集待连接基站类型,带宽,连接人数等基础数据,并计算外界反馈激励Rt,计算表达式为:
Rt(St,at)=α(at)Q(St,at) (9)
终端代理模块收集并采用策略at计算环境奖励值Rt与采取动作后下一状态St+1
在本实例中步骤S5的实施过程如下所示:
S51、将UE代理将信息(St,at,Rt,St+1)存入经验池P,若存入后经验池P中经验数量不足K组样本,则不进行步骤S52,继续进行终端移动决策步骤,直到满足P容量需求再进行训练,若存入后经验池P中经验数量满足K组样本,则新的经验(St,at,Rt,St+1)随机覆盖经验池P中某项样本;
S52、从P中随机采样minibatch组样本来组成经验集合d,在奖励值R和经验回放池P的基础上对损失函数定义如下:
Figure BDA0002259021280000089
其中,ai′表示Q-现实网络输入St+1,θ′表示Q-现实网络参数,θ表示Q-估计网络参数,γ为一个长期奖励的衰减因子。在每一步训练步骤中会计算
Figure BDA00022590212800000810
来进行梯度反向传播,从而进一步使用梯度下降方法来更新Q-估计神经网络的参数,包括θ,θCNN,θRNN,CNN全拼为Convolutional Neural Network表示卷积神经网络,RNN全拼为Recurrent NeuralNetworks表示循环神经网络,并且每训练C步会对Q-现实神经网络参数Q′进行更新,即θ=θ′,其中,C为超参数,一般取值为200~500,根据网络结构规模确定C大小,C过大,Q-现实网络更新速度越慢,易造成训练速度缓慢,C过小则会导致网络提早收敛。
S53、若成功接入,则数据被传送,结束本轮切换感知;否则循环S1-S4直到检测到可用节点成功接入或达到最大检测次数宣告网络阻塞。
如表1所示,本发明的基于DQN的切换决策算法,相比于现有的基于信号强度的切换决策算法平均传输速率提高了15%以上,传输稳定性提高了20%以上。
表1相同场景下算法对比
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (8)

1.一种基于深度强化学习的终端接入选择方法,其特征在于,终端环境代理模块将收集的异构网络环境的状态以及各终端与异构网络进行交互的信息作为输入信息,将输入信息送往深度强化学习网络,深度强化学习网络输出终端在移动过程中最优的连接节点;
终端环境代理模块将收集的异构网络环境的状态以及各终端与异构网络进行交互的信息作为输入信息,将输入信息送往基于DQN的深度强化学习决策模块,从而输出终端在移动过程中最优的连接节点;
所述深度强化学习网络实现过程包括以下步骤:
S1、将终端环境代理模块收集得到的输入信息整合为当前状态St
S2、采用ε-greedy决策策略确定连接节点决策at
S3、将at发送给终端环境代理模块执行连接动作;
S4、终端代理模块收集包括待连接基站类型、带宽、连接人数的基础数据;
并计算环境奖励值Rt与执行连接动作后的下一状态St+1
S5、终端代理模块将决策后用户网络状态(St,at,Rt,St+1)进行保存并更新深度强化学习网络。
2.根据权利要求1所述的一种基于深度强化学习的终端接入选择方法,其特征在于,所述输入信息包括:基站的信号强度、时延、丢包率、抖动,上一次策略获得的环境奖励值。
3.根据权利要求1所述的一种基于深度强化学习的终端接入选择方法,其特征在于,St的表达式为:
Figure FDA0002259021270000011
其中,Nt表示网络环境状态,τt表示用户移动状态,
Figure FDA0002259021270000012
表示t时刻用户业务需求。
4.根据权利要求3所述的一种基于深度强化学习的终端接入选择方法,其特征在于,
Figure FDA0002259021270000013
包括四项属性,分别为:业务u所期望的最低带宽需求、业务u所期望的最低时延需求、业务u所期望的最低抖动需求以及业务u所期望的最低丢包率需求。
5.根据权利要求1所述的一种基于深度强化学习的终端接入选择方法,其特征在于,步骤S4所述Rt的计算式为:
Rt(St,at)=α(at)Q(St,at)
其中,α(at)表示at的函数,q(St,at)表示采取动作at后业务需求的满足程度,at表示t时刻用户连接动作。
6.根据权利要求1所述的一种基于深度强化学习的终端接入选择方法,其特征在于,步骤S5包括以下分步骤:
S51、终端代理模块将决策后用户网络状态(St,at,Rt,St+1)存入经验池,若存入后经验池中经验数量满足K组样本,则执行步骤S52,否则转至步骤S1;
其中,K表示经验池容量;
S52、从经验池中随即采样minibatch组样本来组成经验集合d,计算训练目的值zj,并更新Q-估计神经网络;
其中,minibatch表示每次从经验池中取出的样本数量,zj表示时刻j的训练目的值;
S53、每训练C步更新Q-现实神经网络。
7.根据权利要求6所述的一种基于深度强化学习的终端接入选择方法,其特征在于,步骤S52所述训练目的值zj的计算过程为:将当前网络环境反馈激励Rj与未来Q-函数价值进行加权计算,若终端位置位于异构网络边界,且其方向向量指向异构网络外部,则
zj=Rj
若终端位置位于异构网络内部或终端位置位于异构网络边界,且其方向向量指向异构网络内部,则
Figure FDA0002259021270000021
其中,j=1,2,3,…,minibatch,α表示学习率,0≤α≤1,γ为折扣因子,0≤γ≤1,Q′(Sj+1,a′j;θ)表示网络在未进行更新时对状态Sj+1采取a′j动作获取的Q价值。
8.根据权利要求6所述的一种基于深度强化学习的终端接入选择方法,其特征在于,步骤S51还包括:若终端代理模块将决策后用户网络状态(St,at,Rt,St+1)存入经验池之前,经验池中经验数量不足K组样本,则直接将决策后用户网络状态(St,at,Rt,St+1)存入经验池;否则将决策后用户网络状态(St,at,Rt,St+1)随机覆盖经验池中的某项样本。
CN201911064928.5A 2019-11-04 2019-11-04 一种基于深度强化学习的终端接入选择方法 Expired - Fee Related CN110809306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911064928.5A CN110809306B (zh) 2019-11-04 2019-11-04 一种基于深度强化学习的终端接入选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911064928.5A CN110809306B (zh) 2019-11-04 2019-11-04 一种基于深度强化学习的终端接入选择方法

Publications (2)

Publication Number Publication Date
CN110809306A true CN110809306A (zh) 2020-02-18
CN110809306B CN110809306B (zh) 2021-03-16

Family

ID=69501041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911064928.5A Expired - Fee Related CN110809306B (zh) 2019-11-04 2019-11-04 一种基于深度强化学习的终端接入选择方法

Country Status (1)

Country Link
CN (1) CN110809306B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111526527A (zh) * 2020-04-17 2020-08-11 东南大学 一种无线通信中性能切换与用户服务质量联合优化方法
CN111586809A (zh) * 2020-04-08 2020-08-25 西安邮电大学 一种基于sdn的异构无线网络接入选择方法及系统
CN111654835A (zh) * 2020-06-05 2020-09-11 全球能源互联网研究院有限公司 一种边缘弹性接入的物联网系统及方法
CN111698745A (zh) * 2020-06-24 2020-09-22 塔盾信息技术(上海)有限公司 Ai公专融合与无人智能设备组网方法、系统及装备
CN112272353A (zh) * 2020-10-09 2021-01-26 山西大学 一种基于强化学习的设备到设备的邻近服务方法
CN112367683A (zh) * 2020-11-17 2021-02-12 重庆邮电大学 基于改进深度q学习的网络选择方法
CN113055229A (zh) * 2021-03-05 2021-06-29 北京工业大学 一种基于ddqn的无线网络自选择协议的方法
CN113613339A (zh) * 2021-07-10 2021-11-05 西北农林科技大学 基于深度强化学习的多优先级无线终端的信道接入方法
CN113727420A (zh) * 2021-09-03 2021-11-30 重庆邮电大学 一种多模接入网络选择装置及方法
CN113840306A (zh) * 2020-06-24 2021-12-24 中国人民解放军陆军工程大学 基于网络局部信息交互的分布式无线网络接入决策方法
CN114040321A (zh) * 2021-10-18 2022-02-11 北京邮电大学 用于混合网络的自适应无缝切换方法及系统
CN114679759A (zh) * 2022-03-29 2022-06-28 西北工业大学宁波研究院 一种基于强化学习的可穿戴心电监测网络切换方法
CN115361717A (zh) * 2022-07-12 2022-11-18 华中科技大学 一种基于vr用户视点轨迹的毫米波接入点选择方法及系统
CN115442315A (zh) * 2022-07-25 2022-12-06 互赢科技(东莞)有限公司 一种基于深度学习的多源异构网络接入方法
WO2023216914A1 (zh) * 2022-05-10 2023-11-16 华为技术有限公司 测量方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228314A (zh) * 2016-08-11 2016-12-14 电子科技大学 基于深度增强学习的工作流调度方法
US20180260708A1 (en) * 2015-11-12 2018-09-13 Deepmind Technologies Limited Asynchronous deep reinforcement learning
CN108632860A (zh) * 2018-04-17 2018-10-09 浙江工业大学 一种基于深度强化学习的移动边缘计算速率最大化方法
CN109195135A (zh) * 2018-08-06 2019-01-11 同济大学 Lte-v中基于深度强化学习的基站选择方法
CN109474980A (zh) * 2018-12-14 2019-03-15 北京科技大学 一种基于深度增强学习的无线网络资源分配方法
CN109688597A (zh) * 2018-12-18 2019-04-26 北京邮电大学 一种基于人工智能的雾无线接入网络组网方法及装置
CN109710741A (zh) * 2018-12-27 2019-05-03 中山大学 一种面向在线问答平台的基于深度强化学习的问题标注方法
CN110225535A (zh) * 2019-06-04 2019-09-10 吉林大学 基于深度确定性策略梯度的异构无线网络垂直切换方法
CN111726217A (zh) * 2020-06-29 2020-09-29 中南大学 基于深度强化学习的宽带无线通信自主选频方法及系统
CN111815369A (zh) * 2020-07-31 2020-10-23 上海交通大学 一种基于深度强化学习的多能源系统能量调度方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180260708A1 (en) * 2015-11-12 2018-09-13 Deepmind Technologies Limited Asynchronous deep reinforcement learning
CN106228314A (zh) * 2016-08-11 2016-12-14 电子科技大学 基于深度增强学习的工作流调度方法
CN108632860A (zh) * 2018-04-17 2018-10-09 浙江工业大学 一种基于深度强化学习的移动边缘计算速率最大化方法
CN109195135A (zh) * 2018-08-06 2019-01-11 同济大学 Lte-v中基于深度强化学习的基站选择方法
CN109474980A (zh) * 2018-12-14 2019-03-15 北京科技大学 一种基于深度增强学习的无线网络资源分配方法
CN109688597A (zh) * 2018-12-18 2019-04-26 北京邮电大学 一种基于人工智能的雾无线接入网络组网方法及装置
CN109710741A (zh) * 2018-12-27 2019-05-03 中山大学 一种面向在线问答平台的基于深度强化学习的问题标注方法
CN110225535A (zh) * 2019-06-04 2019-09-10 吉林大学 基于深度确定性策略梯度的异构无线网络垂直切换方法
CN111726217A (zh) * 2020-06-29 2020-09-29 中南大学 基于深度强化学习的宽带无线通信自主选频方法及系统
CN111815369A (zh) * 2020-07-31 2020-10-23 上海交通大学 一种基于深度强化学习的多能源系统能量调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹刚: "基于DQN的异构无线网络接入研究与实现", 《北京邮电大学硕士学位论文》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586809B (zh) * 2020-04-08 2022-05-10 西安邮电大学 一种基于sdn的异构无线网络接入选择方法及系统
CN111586809A (zh) * 2020-04-08 2020-08-25 西安邮电大学 一种基于sdn的异构无线网络接入选择方法及系统
CN111526527A (zh) * 2020-04-17 2020-08-11 东南大学 一种无线通信中性能切换与用户服务质量联合优化方法
CN111654835A (zh) * 2020-06-05 2020-09-11 全球能源互联网研究院有限公司 一种边缘弹性接入的物联网系统及方法
CN111654835B (zh) * 2020-06-05 2022-12-06 全球能源互联网研究院有限公司 一种边缘弹性接入的物联网系统及方法
CN111698745A (zh) * 2020-06-24 2020-09-22 塔盾信息技术(上海)有限公司 Ai公专融合与无人智能设备组网方法、系统及装备
CN113840306B (zh) * 2020-06-24 2023-07-21 中国人民解放军陆军工程大学 基于网络局部信息交互的分布式无线网络接入决策方法
CN113840306A (zh) * 2020-06-24 2021-12-24 中国人民解放军陆军工程大学 基于网络局部信息交互的分布式无线网络接入决策方法
CN112272353A (zh) * 2020-10-09 2021-01-26 山西大学 一种基于强化学习的设备到设备的邻近服务方法
CN112272353B (zh) * 2020-10-09 2021-09-28 山西大学 一种基于强化学习的设备到设备的邻近服务方法
CN112367683A (zh) * 2020-11-17 2021-02-12 重庆邮电大学 基于改进深度q学习的网络选择方法
CN112367683B (zh) * 2020-11-17 2022-07-01 重庆邮电大学 基于改进深度q学习的网络选择方法
CN113055229A (zh) * 2021-03-05 2021-06-29 北京工业大学 一种基于ddqn的无线网络自选择协议的方法
CN113055229B (zh) * 2021-03-05 2023-10-27 北京工业大学 一种基于ddqn的无线网络自选择协议的方法
CN113613339A (zh) * 2021-07-10 2021-11-05 西北农林科技大学 基于深度强化学习的多优先级无线终端的信道接入方法
CN113613339B (zh) * 2021-07-10 2023-10-17 西北农林科技大学 基于深度强化学习的多优先级无线终端的信道接入方法
CN113727420A (zh) * 2021-09-03 2021-11-30 重庆邮电大学 一种多模接入网络选择装置及方法
CN113727420B (zh) * 2021-09-03 2023-05-23 重庆邮电大学 一种多模接入网络选择装置及方法
CN114040321A (zh) * 2021-10-18 2022-02-11 北京邮电大学 用于混合网络的自适应无缝切换方法及系统
CN114679759A (zh) * 2022-03-29 2022-06-28 西北工业大学宁波研究院 一种基于强化学习的可穿戴心电监测网络切换方法
CN114679759B (zh) * 2022-03-29 2023-06-09 西北工业大学宁波研究院 一种基于强化学习的可穿戴心电监测网络切换方法
WO2023216914A1 (zh) * 2022-05-10 2023-11-16 华为技术有限公司 测量方法及装置
CN115361717A (zh) * 2022-07-12 2022-11-18 华中科技大学 一种基于vr用户视点轨迹的毫米波接入点选择方法及系统
CN115361717B (zh) * 2022-07-12 2024-04-19 华中科技大学 一种基于vr用户视点轨迹的毫米波接入点选择方法及系统
CN115442315A (zh) * 2022-07-25 2022-12-06 互赢科技(东莞)有限公司 一种基于深度学习的多源异构网络接入方法
CN115442315B (zh) * 2022-07-25 2023-10-24 互赢科技(东莞)有限公司 一种基于深度学习的多源异构网络接入方法

Also Published As

Publication number Publication date
CN110809306B (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN109862610B (zh) 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN111414252B (zh) 一种基于深度强化学习的任务卸载方法
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN111050330B (zh) 移动网络自优化方法、系统、终端及计算机可读存储介质
CN111666149A (zh) 基于深度强化学习的超密边缘计算网络移动性管理方法
Han et al. Artificial intelligence-based handoff management for dense WLANs: A deep reinforcement learning approach
US20210326695A1 (en) Method and apparatus employing distributed sensing and deep learning for dynamic spectrum access and spectrum sharing
CN112383922A (zh) 一种基于优先经验重放的深度强化学习频谱共享方法
CN114390057B (zh) Mec环境下基于强化学习的多接口自适应数据卸载方法
CN110213776B (zh) 一种基于Q学习和多属性决策的WiFi卸载方法
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
CN110753319A (zh) 异构车联网中面向异质业务的分布式资源分配方法及系统
Yang et al. Deep reinforcement learning based wireless network optimization: A comparative study
CN115052325B (zh) 适用于变电站业务的多频异构无线通信网络接入选择方法
CN111586809B (zh) 一种基于sdn的异构无线网络接入选择方法及系统
CN110267274A (zh) 一种根据用户间社会信誉度选择传感用户的频谱共享方法
Karam et al. Performance analysis of ranking for QoS handover algorithm for selection of access network in heterogeneous wireless networks
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
Xu et al. Deep reinforcement learning based mobility load balancing under multiple behavior policies
CN112492656B (zh) 一种基于强化学习的无线网络接入点切换方法
Iturria-Rivera et al. Cooperate or not Cooperate: Transfer Learning with Multi-Armed Bandit for Spatial Reuse in Wi-Fi
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
CN110224861A (zh) 基于学习的自适应动态异构网络选择策略的实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210316

Termination date: 20211104

CF01 Termination of patent right due to non-payment of annual fee