CN111083767A - 一种基于深度强化学习的异构网络选择方法 - Google Patents

一种基于深度强化学习的异构网络选择方法 Download PDF

Info

Publication number
CN111083767A
CN111083767A CN201911338954.2A CN201911338954A CN111083767A CN 111083767 A CN111083767 A CN 111083767A CN 201911338954 A CN201911338954 A CN 201911338954A CN 111083767 A CN111083767 A CN 111083767A
Authority
CN
China
Prior art keywords
network
represented
users
state
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911338954.2A
Other languages
English (en)
Other versions
CN111083767B (zh
Inventor
魏守明
于盛
何晨光
孟维晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201911338954.2A priority Critical patent/CN111083767B/zh
Publication of CN111083767A publication Critical patent/CN111083767A/zh
Application granted granted Critical
Publication of CN111083767B publication Critical patent/CN111083767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • H04W48/18Selecting a network or a communication service
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的异构网络选择方法。步骤1:业务类型提取特征;步骤2:提取距离特征;步骤3:根据整体网络环境,提取用户特征;步骤4:获得用户当前状态特征;步骤5:建立异构网络,通过马尔科夫决策实现;步骤6:将步骤1‑步骤3提取的特征代入深度强化学习模型;步骤7:根据移动性特征和业务属性特征,定义强化学习的即时奖励;步骤8:利用DQN求解异构网络选择问题。本发明在充分考虑到网络负载情况的同时,对会话的业务属性和终端的移动性以及终端在网络中所处位置的不同进行区分,通过与外界网络环境不断的试错学习能够不断调整自身的动作选择策略。

Description

一种基于深度强化学习的异构网络选择方法
技术领域
本发明属于异构网络选择技术领域;具体涉及一种基于深度强化学习的异构网络选择方法。
背景技术
随着无线通信技术的快速发展,出现了多种无线接入技术并存的局面,由于这些无线接入系统都是专门针对某些特定的业务类型和用户群体而设计的,所以在网络的覆盖范围、可用带宽、资费水平、对用户移动性的支持和服务质量(Quality ofService,QoS)保证等方面都存在一定的差异性,这种针对特定业务类型而专门设计的无线接入系统已经无法再满足用户日益复杂多变的业务需求。因此,整合不同的无线网络,联合管理有限的资源已经成为不可逆转的趋势。如何才能在兼顾服务质量和资源利用率的情况下选择最佳的网络给用户提供服务,这是异构无线网络中所需要解决的关键问题之一,为此人们提出了很多联合无线资源管理(Joint Radio Resource Management,JRRM)的方法(如负载均衡、异构网络选择等),但是现有的好多方法都不是从网络接入的自主性出发,并且对动态多变的无线网络环境的适应性不好,而这正是未来复杂的无线环境中及其重要的问题。
强化学习是学习代理通过与环境互动进行学习的方法。RL的目标是学习在每个状态采取何种动作来最大化一个特定的指标。学习代理通过反复与控制环境进行交互,通过奖励来评价其性能,从而达到一个最优决策。RL广泛应用于机器人和自动控制,同时因其灵活性和自适应性也被引入到无线通信系统的资源管理上。Q学习是RL的一种方法,利用学习代理逐步构建一个Q函数,试图估计未来折扣代价以便于学习代理在当前状态采取一定动作。
发明内容
本发明为了使网络选择能够适应动态变化的无线环境,适时地为每个会话选择最佳的网络,提出了一种基于深度Q学习的无线异构网络接入选择方法,该方法在充分考虑到网络负载情况的同时,还对会话的业务属性和终端的移动性以及终端在网络中所处位置的不同进行区分,通过与外界网络环境不断的试错学习能够不断调整自身的动作选择策略。
本发明通过以下技术方案实现:
一种基于深度强化学习的异构网络选择方法,所述异构网络选择方法包括以下步骤:
步骤1:根据用户请求业务类型,提取特征进行独热编码;
步骤2:根据终端到不同网络基站的距离,提取距离特征;
步骤3:根据整体网络环境,获取不同网络中不同业务的用户数,提取用户特征;
步骤4:通过步骤1-步骤3提取的特征进行特征组合,获得用户当前状态特征;
步骤5:建立异构网络,通过马尔科夫决策实现;
步骤6:将步骤1-步骤3提取的特征代入深度强化学习模型;
步骤7:根据移动性特征和业务属性特征,定义强化学习的即时奖励;
步骤8:利用DQN求解异构网络选择问题。
进一步的,所述步骤1中用户请求业务类型包括数据业务和语音业务:当选择数据业务时,特征B=[0,1],当选择语音业务时,特征B=[1,0]。
进一步的,所述步骤2中终端到不同基站的距离特征为D=[d1,d2],其中d1表示终端到B-TrunC基站到距离,d2表示终端到PDT基站的距离。
进一步的,所述步骤3中不同网络中不同业务的用户数用N表示,
Figure BDA0002331730740000021
其中
Figure BDA0002331730740000022
表示B-TrunC网络中数据业务的用户数,
Figure BDA0002331730740000023
表示B-TrunC网络中语音业务的用户数,
Figure BDA0002331730740000024
表示PDT网路中数据业务的用户数,
Figure BDA0002331730740000025
表示PDT网路中语音业务的用户数。
进一步的,所述步骤4具体为:任务决定下一个用户选择的网络,对相应的决策过程建模为具有奖励和行动的MDP;MDP由一个元组(s,A,P,R,γ)表示,其中,状态空间用s表示,包含了用户业务,终端到不同基站的距离,不同网络中不同业务的用户数;动作空间用A表示,它对应将用户分配给不同网络;状态转移概率函数用P(s,a,s')=P[st+1=s'|st=s,at=a]表示,状态转移概率是由单位时间内断开连接的用户数的决定的,在单位时间中,用户的离开个数是随机的;在行动a下,从状态s过渡到状态s'的直接奖励用R(s,a,s')表示;γ表示用来计算未来的奖励折算到现在的价值,γ∈[0,1)。
进一步的,所述步骤8具体为,神经网络的输入是状态S,而输出是每个动作的Q值,θ表示神经网络参数,则θ下的作用值函数可用Q(s,a;θ)表示,DQN最小化损失函数定义为:
Figure BDA0002331730740000026
反向传播的更新公式定义为:
Figure BDA0002331730740000031
式中,
Figure BDA0002331730740000032
表示Q相对于θ的梯度;
DQN使用单独的网络生成目标Q值,其网络参数用θ-表示;每经过Nu步网络Q的参数会被克隆到目标网络
Figure BDA0002331730740000033
则网络参数更新为:
Figure BDA0002331730740000034
网络参数更新后再进行迭代,迭代轮数表示为T,状态特征维度表示为n,动作空间用A表示,步长表示为α,衰减因子表示为γ,探索率表示为∈,当前Q网络表示为Q,目标Q网络表表示为Q′,批量梯度下降的样数表示为m,目标Q网络参数更新频率表示为C;
目标Q网络参数更新通过如下步骤实现:
步骤8.1:随机初始化所有的状态和动作对应的Q值;
步骤8.2:通过Q值选择合适动作,反复与环境进行交互,再去更新整个网络。
进一步的,所述步骤8.2具体为:
步骤8.2.1:将当前网络状态,包括不同网络中不同业务的用户个数,待接入网络用户需要的业务,待接入用户到达不同网络基站的距离,获得到其向量s;
步骤8.2.2:在Q网络中使用s作为输入,得到Q网络的所有动作对应的Q值输出,用∈-贪婪法在当前Q值输出中选择对应的动作a;
步骤8.2.3:在状态s当前动作a得到新状态对应的特征向量s′和奖励r;
步骤8.2.4:将{s,a,r,s'}这个四元组存入经验回放集合D;
步骤8.2.5:令s=s′;
步骤8.2.6:从经验回放集合D中采样m个样本{sj,aj,rj,s'j},j=1,2…m,计算当前目标Q时值yj时:yj=rj+γmaxa'Q(s'j,a'j,θ)
式中maxa'Q(s'j,a'j,θ)为下一个状态对应的最大的Q值;
步骤8.2.7:使用均方差损失函数
Figure BDA0002331730740000035
通过神经网络的梯度反向传播来更新Q网络的所有参数;
步骤8.2.8:若T%Nu=1,则更新目标Q网络参数θ-=θ,
式中,Nu为目标Q网络参数更新的周期。
附图说明
图1本发明异构网路选择马尔科夫决策过程示意图。
图2本发明DQN神经网络示意图。
图3本发明网络选择DQN方法示意图。
图4本发明两种业务在两种网络中的分布情况示意图。
图5本发明两种移动性用户在两个网络中的分布情况示意图。
图6本发明阻塞率性能对比示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
由于这些无线接入系统都是专门针对某些特定的业务类型和用户群体而设计的,所以在网络的覆盖范围、可用带宽、资费水平、对用户移动性的支持和服务质量保证等方面都存在一定的差异性,这种针对特定业务类型而专门设计的无线接入系统已经无法再满足用户日益复杂多变的业务需求。本发明主要针对目前的网络选择无法适应动态变化的无线环境的问题而提出。
一种基于深度强化学习的异构网络选择方法,所述异构网络选择方法包括以下步骤:
步骤1:根据用户请求业务类型,提取特征进行独热编码;
步骤2:根据终端到不同网络基站的距离,提取距离特征;
步骤3:根据整体网络环境,获取不同网络中不同业务的用户数,提取用户特征;
步骤4:通过步骤1-步骤3提取的特征进行特征组合,获得用户当前状态特征;
步骤5:建立异构网络,通过马尔科夫决策实现;
步骤6:将步骤1-步骤3提取的特征代入深度强化学习模型;
步骤7:根据移动性特征和业务属性特征,定义强化学习的即时奖励;
步骤8:利用DQN求解异构网络选择问题。
进一步的,所述步骤1中用户请求业务类型包括数据业务和语音业务:当选择数据业务时,特征B=[0,1],当选择语音业务时,特征B=[1,0]。
进一步的,所述步骤2中终端到不同基站的距离提取特征为D=[d1,d2],其中d1表示终端到B-TrunC基站到距离,d2表示终端到PDT基站的距离。
进一步的,所述步骤3中不同网络中不同业务的用户数用N表示,
Figure BDA0002331730740000056
其中
Figure BDA0002331730740000051
表示B-TrunC网络中数据业务的用户数,
Figure BDA0002331730740000052
表示B-TrunC网络中语音业务的用户数,
Figure BDA0002331730740000053
表示PDT网路中数据业务的用户数,
Figure BDA0002331730740000054
表示PDT网路中语音业务的用户数。
进一步的,所述步骤4具体为:任务决定下一个用户选择的网络,对相应的决策过程建模为具有奖励和行动的MDP;MDP由一个元组(s,A,P,R,γ)表示,其中,状态空间用s表示,包含了用户业务,终端到不同基站的距离,不同网络中不同业务的用户数;动作空间用A表示,它对应将用户分配给不同网络;状态转移概率函数用P(s,a,s')=P[st+1=s'|st=s,at=a]表示,状态转移概率是由单位时间内断开连接的用户数的决定的,在单位时间中,用户的离开个数是随机的;在行动a下,从状态s过渡到状态s'的直接奖励用R(s,a,s')表示;γ表示用来计算未来的奖励折算到现在的价值,γ∈[0,1)。
对语音业务而言,若所选网络与业务属性和终端移动性相匹配则频谱效用最大,否则便较小;对于数据业务不仅要考虑以上匹配性,还要根据终端到两个基站的不同距离保证终端所选择的动作能获得的带宽最大,此时称频谱效用最大,否则便较小;因此频谱效用的定义因业务不同而不同,对于语音业务和数据业务的频谱效用定义如下:
Figure BDA0002331730740000055
其中,sud表示数据业务,suy表示语音业务,ηser表示业务属性与网络的匹配系数,ηmob表示移动性与网络的匹配系数,B表示终端接入网络时所获得的带宽与ηser和ηmob在大小上平衡之后的带宽因子:
B=B/150
其中B表示终端接入网络时所获得带宽,150Kbps表示数据业务的最小带宽,即小于该最小带宽,本次呼叫将被阻塞,回报函数可以定义为:
Figure BDA0002331730740000061
状态由用户业务,终端到不同网络基站的距离,不同终端不同业务的用户数构成,由于考虑了终端到基站的距离,状态空间为一个连续空间,因此借助DQN,可以处理连续大规模的状态空间。
进一步的,所述步骤9具体为,如图3所示,神经网络的输入是状态S,而输出是每个动作的Q值,θ表示神经网络参数,则θ下的作用值函数可用Q(s,a;θ)表示,DQN最小化损失函数定义为:
Figure BDA0002331730740000062
反向传播的更新公式定义为:
Figure BDA0002331730740000063
式中,
Figure BDA0002331730740000064
是Q的梯度;
使用按时间顺序生成的数据<s0,a0,r1,s1,…st,at,rt+1,st+1>,则输入数据之间的相关性很高,这将影响神经网络的性能,在这种情况下,可以使用经验重放来打破数据之间的相关性。网络选择可分为经验元组(s,a,r,s'),如图3所示,经验元组存储在回放存储器中,用DB表示,然后,对神经网络的训练数据进行均匀随机的DB采样,通常,DB只能存储最后m个经验元组。
为了进一步降低输入数据之间的相关性,建立了一个目标网络来处理TD误差,如图3所示,用于计算目标
Figure BDA0002331730740000065
的网络参数θ与动作值函数q(s,a;θ)相同,增加q(s,a;θ)的更新也会增加q(s',a';θ)的更新,因此带来相关性,并可能导致政策的振荡或发散;为了进一步降低相关性,DQN使用单独的网络生成目标,其网络参数用θ-表示;每经过Nu步网络Q的参数会被克隆到目标网络
Figure BDA0002331730740000066
网络参数更新为:
Figure BDA0002331730740000067
进一步的,所述步骤8具体为,网络参数更新后再进行迭代,迭代轮数表示为T,状态特征维度表示为n,动作空间用A表示,步长表示为α,衰减因子表示为γ,探索率表示为∈,当前Q网络表示为Q,目标Q网络表表示为Q′,批量梯度下降的样数表示为m,目标Q网络参数更新频率表示为C;
目标Q网络参数更新通过如下步骤实现:
步骤8.1:随机初始化所有的状态和动作对应的Q值;
步骤8.2:通过Q值选择合适动作,反复与环境进行交互,再去更新整个网络;
根据权利要求8所述的异构网络选择方法,其特征在于,所述步骤8.2具体为:
步骤8.2.1:将当前网络状态,包括不同网络中不同业务的用户个数,待接入网络用户需要的业务,待接入用户到达不同网络基站的距离,获得到其向量s;
步骤8.2.2:在Q网络中使用s作为输入,得到Q网络的所有动作对应的Q值输出。用∈-贪婪法在当前Q值输出中选择对应的动作a;
步骤8.2.3:在状态s当前动作a得到新状态对应的特征向量s′和奖励r;
步骤8.2.4:将{s,a,r,s'}这个四元组存入经验回放集合D;
步骤8.2.5:令s=s′;
步骤8.2.6:从经验回放集合D中采样m个样本{sj,aj,rj,s'j},j=1,2…m,计算当前目标Q值yj时:yj=rj+γmaxa'Q(φ(s'j),a'j,θ),
式中maxa'Q(s'j,a'j,θ)为下一个状态对应的最大的Q值;
步骤8.2.7:使用均方差损失函数
Figure BDA0002331730740000071
通过神经网络的梯度反向传播来更新Q网络的所有参数;
步骤8.2.8:若T%Nu=1,则更新目标Q网络参数θ-=θ,式中,Nu为目标Q网络参数更新的周期。
实施例2
假设整个重叠覆盖小区的会话到达率服从参数为λ0=800h-1泊松分布,语音和数据业务在其中均匀分布。语音业务的会话持续时间服从参数为1/μ1=120s的指数分布,数据业务所要下载的数据的大小服从参数为1/μ2=8Mb的指数分布,数据业务的最小速率设定为150Kbps,若这个速率达不到,该会话将被阻塞。
图4是学习前后两种业务在两个网络的分布情况。可以很明显地看出,在仿真的初始阶段,两种业务在两个网络基本是平均分配的,这显然不是想要的结果,但是学习到最后,语音业务多数选择接入到PDT而数据业务则多数选择接入到B-TrunC,这正好与B-TrunC网络适合于数据业务而PDT网络适合于语音业务的属性相吻合,是想要达到的效果。
图5是学习前后两种移动性用户在两个网络的分布情况。可以明显地看出在学习的初始阶段两个网络的两种用户数基本是平均分布,但是随着学习的进行,使得选择动作的最佳策略不断调整,使用B-TrunC的用户中静止终端用户数多于移动终端用户数,使用PDT的用户中移动用户数多于静止终端用户数。但由于B-TrunC网络带宽的优势导致更多的用户倾向于选择B-TrunC,因此无论是用户移动状态还是用户静止状态,B-TrunC的网络接入数都要大于PDT的网络接入数。
图6是区分终端在网络所处位置与不区分的情况下,小区的会话阻塞率变化情况。前期迭代过程,不区分终端网络所在位置的阻塞率收敛较快是因为不考虑终端所在位置相当于神经网络的输入层少了两个参数,这导致神经网络相较于考虑终端所在位置的收敛较快。随着迭代次数增加,当区分终端在网络所处位置时,阻塞率能够收敛到较小的状态,不区分终端在网络所处位置时虽然也会有所收敛,但是阻塞率始终要比区分终端位置的情况大。这是因为位置不同,终端到网络基站的距离不同,由于路径损耗的原因造成每个网络所能提供的最大吞吐量也就不同,所以若不考虑距离的不同,所有终端都按照基站中心的最大吞吐量来计算各自所能获得的最大带宽显然是不符合实际的。

Claims (7)

1.一种基于深度强化学习的异构网络选择方法,其特征在于,所述异构网络选择方法包括以下步骤:
步骤1:根据用户请求业务类型,提取特征进行独热编码;
步骤2:根据终端到不同网络基站的距离,提取距离特征;
步骤3:根据整体网络环境,获取不同网络中不同业务的用户数,提取用户特征;
步骤4:通过步骤1-步骤3提取的特征进行特征组合,获得用户当前状态特征;
步骤5:建立异构网络,通过马尔科夫决策实现;
步骤6:将步骤1-步骤3提取的特征代入深度强化学习模型;
步骤7:根据移动性特征和业务属性特征,定义强化学习的即时奖励;
步骤8:利用DQN求解异构网络选择问题。
2.根据权利要求1所述的异构网络选择方法,其特征在于,所述步骤1中用户请求业务类型包括数据业务和语音业务:当选择数据业务时,特征B=[0,1],当选择语音业务时,特征B=[1,0]。
3.根据权利要求1所述的异构网络选择方法,其特征在于,所述步骤2中终端到不同基站的距离特征为D=[d1,d2],其中d1表示终端到B-TrunC基站到距离,d2表示终端到PDT基站的距离。
4.根据权利要求1所述的异构网络选择方法,其特征在于,所述步骤3中不同网络中不同业务的用户数用N表示,
Figure FDA0002331730730000011
其中
Figure FDA0002331730730000012
表示B-TrunC网络中数据业务的用户数,
Figure FDA0002331730730000013
表示B-TrunC网络中语音业务的用户数,
Figure FDA0002331730730000014
表示PDT网路中数据业务的用户数,
Figure FDA0002331730730000015
表示PDT网路中语音业务的用户数。
5.根据权利要求1所述的异构网络选择方法,其特征在于,所述步骤4具体为:任务决定下一个用户选择的网络,对相应的决策过程建模为具有奖励和行动的MDP;MDP由一个元组(s,A,P,R,γ)表示,其中,状态空间用s表示,包含了用户业务,终端到不同基站的距离,不同网络中不同业务的用户数;动作空间用A表示,它对应将用户分配给不同网络;状态转移概率函数用P(s,a,s')=P[st+1=s'|st=s,at=a]表示,状态转移概率是由单位时间内断开连接的用户数的决定的,在单位时间中,用户的离开个数是随机的;在行动a下,从状态s过渡到状态s'的直接奖励用R(s,a,s')表示;γ表示用来计算未来的奖励折算到现在的价值,γ∈[0,1)。
6.根据权利要求1所述的异构网络选择方法,其特征在于,所述步骤8具体为,神经网络的输入是状态S,而输出是每个动作的Q值,θ表示神经网络参数,则θ下的作用值函数可用Q(s,a;θ)表示,DQN最小化损失函数定义为:
Figure FDA0002331730730000021
反向传播的更新公式定义为:
Figure FDA0002331730730000022
式中,▽Q(s,a;θ)的含义Q的梯度;
用于计算目标
Figure FDA0002331730730000023
的网络参数θ与动作值函数q(s,a;θ)相同,增加q(s,a;θ)的更新也会增加q(s',a';θ)的更新,DQN使用单独的网络生成目标,其网络参数用θ-表示;每经过Nu步网络Q的参数会被克隆到目标网络
Figure FDA0002331730730000024
则网络参数更新为:
Figure FDA0002331730730000025
网络参数更新后再进行迭代,迭代轮数表示为T,状态特征维度表示为n,动作空间用A表示,步长表示为α,衰减因子表示为γ,探索率表示为∈,当前Q网络表示为Q,目标Q网络表表示为Q′,批量梯度下降的样数表示为m,目标Q网络参数更新频率表示为C;
目标Q网络参数更新通过如下步骤实现:
步骤8.1:随机初始化所有的状态和动作对应的Q值;
步骤8.2:通过Q值选择合适动作,反复与环境进行交互,再去更新整个网络。
7.根据权利要求6所述的异构网络选择方法,其特征在于,所述步骤8.2具体为:
步骤8.2.1:将当前网络状态,包括不同网络中不同业务的用户个数,待接入网络用户需要的业务,待接入用户到达不同网络基站的距离,获得到其向量s;
步骤8.2.2:在Q网络中使用s作为输入,得到Q网络的所有动作对应的Q值输出,用∈-贪婪法在当前Q值输出中选择对应的动作a;
步骤8.2.3:在状态s当前动作a得到新状态对应的特征向量s′和奖励r;
步骤8.2.4:将{s,a,r,s'}这个四元组存入经验回放集合D;
步骤8.2.5:令s=s′;
步骤8.2.6:从经验回放集合D中采样m个样本{sj,aj,rj,s'j},j=1,2…m,计算当前目标Q时值yj时:yj=rj+γmaxa'Q(s'j,a'j,θ)
式中maxa'Q(s'j,a'j,θ)为下一个状态对应的最大的Q值;
步骤8.2.7:使用均方差损失函数
Figure FDA0002331730730000031
通过神经网络的梯度反向传播来更新Q网络的所有参数;
步骤8.2.8:若T%Nu=1,则更新目标Q网络参数θ-=θ,
式中,Nu为目标Q网络参数更新的周期。
CN201911338954.2A 2019-12-23 2019-12-23 一种基于深度强化学习的异构网络选择方法 Active CN111083767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911338954.2A CN111083767B (zh) 2019-12-23 2019-12-23 一种基于深度强化学习的异构网络选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911338954.2A CN111083767B (zh) 2019-12-23 2019-12-23 一种基于深度强化学习的异构网络选择方法

Publications (2)

Publication Number Publication Date
CN111083767A true CN111083767A (zh) 2020-04-28
CN111083767B CN111083767B (zh) 2021-07-27

Family

ID=70316906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911338954.2A Active CN111083767B (zh) 2019-12-23 2019-12-23 一种基于深度强化学习的异构网络选择方法

Country Status (1)

Country Link
CN (1) CN111083767B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111757427A (zh) * 2020-06-05 2020-10-09 东方通信股份有限公司 一种基于信道质量评估的宽窄融合终端首选网络选择方法
CN111931485A (zh) * 2020-08-12 2020-11-13 北京建筑大学 一种基于跨网络表示学习的多模异质关联实体识别方法
CN112367683A (zh) * 2020-11-17 2021-02-12 重庆邮电大学 基于改进深度q学习的网络选择方法
CN113613301A (zh) * 2021-08-04 2021-11-05 北京航空航天大学 一种基于dqn的空天地一体化网络智能切换方法
CN114845359A (zh) * 2022-03-14 2022-08-02 中国人民解放军军事科学院战争研究院 一种基于Nash Q-Learning的多智能异构网络选择方法
WO2023054776A1 (ko) * 2021-10-01 2023-04-06 엘지전자 주식회사 엣지 인퍼런스를 위한 프로그레시브 피처 전송 방법 및 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103327556A (zh) * 2013-07-04 2013-09-25 中国人民解放军理工大学通信工程学院 异构无线网络中优化用户QoE的动态网络选择方法
CN109195135A (zh) * 2018-08-06 2019-01-11 同济大学 Lte-v中基于深度强化学习的基站选择方法
CN109743210A (zh) * 2019-01-25 2019-05-10 电子科技大学 基于深度强化学习的无人机网络多用户接入控制方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110225535A (zh) * 2019-06-04 2019-09-10 吉林大学 基于深度确定性策略梯度的异构无线网络垂直切换方法
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103327556A (zh) * 2013-07-04 2013-09-25 中国人民解放军理工大学通信工程学院 异构无线网络中优化用户QoE的动态网络选择方法
CN109195135A (zh) * 2018-08-06 2019-01-11 同济大学 Lte-v中基于深度强化学习的基站选择方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN109743210A (zh) * 2019-01-25 2019-05-10 电子科技大学 基于深度强化学习的无人机网络多用户接入控制方法
CN110225535A (zh) * 2019-06-04 2019-09-10 吉林大学 基于深度确定性策略梯度的异构无线网络垂直切换方法
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘建伟 等: "基于值函数和策略梯度的深度强化学习综述", 《计算机学报》 *
郭宪: "基于DQN的机械臂控制策略的研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111757427A (zh) * 2020-06-05 2020-10-09 东方通信股份有限公司 一种基于信道质量评估的宽窄融合终端首选网络选择方法
CN111757427B (zh) * 2020-06-05 2022-11-04 东方通信股份有限公司 一种基于信道质量评估的宽窄融合终端首选网络选择方法
CN111931485A (zh) * 2020-08-12 2020-11-13 北京建筑大学 一种基于跨网络表示学习的多模异质关联实体识别方法
CN111931485B (zh) * 2020-08-12 2021-03-23 北京建筑大学 一种基于跨网络表示学习的多模异质关联实体识别方法
CN112367683A (zh) * 2020-11-17 2021-02-12 重庆邮电大学 基于改进深度q学习的网络选择方法
CN112367683B (zh) * 2020-11-17 2022-07-01 重庆邮电大学 基于改进深度q学习的网络选择方法
CN113613301A (zh) * 2021-08-04 2021-11-05 北京航空航天大学 一种基于dqn的空天地一体化网络智能切换方法
CN113613301B (zh) * 2021-08-04 2022-05-13 北京航空航天大学 一种基于dqn的空天地一体化网络智能切换方法
WO2023054776A1 (ko) * 2021-10-01 2023-04-06 엘지전자 주식회사 엣지 인퍼런스를 위한 프로그레시브 피처 전송 방법 및 장치
CN114845359A (zh) * 2022-03-14 2022-08-02 中国人民解放军军事科学院战争研究院 一种基于Nash Q-Learning的多智能异构网络选择方法

Also Published As

Publication number Publication date
CN111083767B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN111083767B (zh) 一种基于深度强化学习的异构网络选择方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN111050330B (zh) 移动网络自优化方法、系统、终端及计算机可读存储介质
CN101516115A (zh) 基于需求预测和优先级的群组业务自适应优化切换方法
US11653267B2 (en) Radio access network intelligent controller-based dynamic time division duplex communication in a radio communication network
CN113365312B (zh) 强化学习和监督学习相结合的移动负载均衡方法
US11871251B2 (en) Method of association of user equipment in a cellular network according to a transferable association policy
Ojima et al. Resource management for mobile edge computing using user mobility prediction
Bisio et al. Fast multiattribute network selection technique for vertical handover in heterogeneous emergency communication systems
Giri et al. Deep Q-learning based optimal resource allocation method for energy harvested cognitive radio networks
Garg et al. Content placement learning for success probability maximization in wireless edge caching networks
Wang et al. Context-driven power management in cache-enabled base stations using a Bayesian neural network
Chen et al. Distributed task offloading game in multiserver mobile edge computing networks
Nassar et al. Reinforcement learning-based resource allocation in fog RAN for IoT with heterogeneous latency requirements
Pervaiz et al. User adaptive QoS aware selection method for cooperative heterogeneous wireless systems: A dynamic contextual approach
Cao et al. Mobility-aware routing and caching: A federated learning assisted approach
Lin et al. Online task offloading in udn: A deep reinforcement learning approach with incomplete information
Rostampoor et al. Dynamic caching in a hybrid millimeter-wave/microwave C-RAN
CN114598655A (zh) 基于强化学习的移动性负载均衡方法
Yao et al. Attention cooperative task offloading and service caching in edge computing
Ge et al. Multi-server intelligent task caching strategy for edge computing
Kirsal et al. Performability modelling of handoff in wireless cellular networks with channel failures and recovery
Yin et al. Multi-cell cooperative outage compensation in cloud-RANs based 5G public safety network
US20050250513A1 (en) Method and system for predicting blocking in a network
US20240152820A1 (en) Adaptive learning in distribution shift for ran ai/ml models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant