CN113784410A - 基于强化学习td3算法的异构无线网络垂直切换方法 - Google Patents

基于强化学习td3算法的异构无线网络垂直切换方法 Download PDF

Info

Publication number
CN113784410A
CN113784410A CN202111120444.5A CN202111120444A CN113784410A CN 113784410 A CN113784410 A CN 113784410A CN 202111120444 A CN202111120444 A CN 202111120444A CN 113784410 A CN113784410 A CN 113784410A
Authority
CN
China
Prior art keywords
network
actor
current
critic
switching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111120444.5A
Other languages
English (en)
Other versions
CN113784410B (zh
Inventor
杨晓萍
刘水
王雪
丛玉良
钱志鸿
谢明桐
张菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202111120444.5A priority Critical patent/CN113784410B/zh
Publication of CN113784410A publication Critical patent/CN113784410A/zh
Application granted granted Critical
Publication of CN113784410B publication Critical patent/CN113784410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/14Reselecting a network or an air interface
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/0005Control or signalling for completing the hand-off
    • H04W36/0083Determination of parameters used for hand-off, e.g. generation or modification of neighbour cell lists
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明专利公开了基于强化学习TD3算法的异构无线网络垂直切换方法,具体涉及通讯技术领域。包括如下步骤:采用熵权法计算网络状态参数的权重,构造奖励函数;初始化策略网络以及两个估计网络,对上述网络对应的目标网络初始化,并初始化经验池;演员当前网络根据网络状态参数做出切换决策,求得奖励值;采用梯度下降法训练评论家当前网络,采用梯度上升法训练演员当前网络,更新演员目标网络参数和评论家目标网络参数;在每个决策时刻进行S4‑S5的操作步骤,训练更新网络参数;根据训练好的策略网络来确定最优的切换策略。采用本发明技术方案解决了深度强化学习汇总网络参数状态动作值过高估计的问题,可用于快速选出最优切换决策。

Description

基于强化学习TD3算法的异构无线网络垂直切换方法
技术领域
本发明涉及通讯技术领域,特别涉及基于强化学习TD3算法的异构无线网络垂直切换方法。
背景技术
在过去的几年里,伴随着社会经济的迅猛发展、科学技术的不断突破,人们对高水平、高质量的信息通信提出了更多的需求,为了符合广大用户的用户体验,第五代移动通信系统(5G)应运而生,在实现“万物互联”的目标下,高带宽、低时延的通信需求被放在提升的首位。与此同时,单一的网络不再符合广大用户日益多样化的业务需求,为满足通信业务发展的需要,以及支持用户更高的业务需求,异构网络之间的融合成为新一代网络发展的必然趋势。
截止到目前为止,已经出现了很多异构无线网络关于垂直切换方面的研究,同时也提出了许多不同的垂直切换算法,垂直切换算法主要可以分为以下五种:1、基于绝对RSS的垂直切换算法;2、基于模糊逻辑和神经网络的垂直切换算法;3、基于代价函数的垂直切换算法;4、基于多属性决策的垂直切换算法;5、基于强化学习的垂直切换算法。
基于强化学习的垂直切换算法是把异构无线网络垂直切换问题转化成马尔科夫斯基决策问题,使用熵权法来确定进行垂直切换时的权重大小,并通过网络切换的具体情况来构造奖励函数,其中智能体可以与环境进行交互,并且可以通过环境的控制来获得最大奖励值来优化动作,进而获取到最优切换策略。
双延迟深度确定性策略梯度算法(TD3)是一种离线的用于连续动作空间基于演员评论家模式的深度强化学习算法。系统状态通过策略网络(演员网络)对输入的动作做出相应的决策,估计网络(评论家网络)对输入的状态动作进行相应的决策,不断对这个过程进行迭代。TD3算法中在估计网络的部分采用了两个评论家网络,目的是防止像深度强化学习DDPG算法中评论家网络出现的过高估计动作状态值的问题,做法是在状态动作输出时采用其较小的值,从而降低过估计问题,获取动作最优决策。
发明内容
本发明意在提供基于强化学习TD3算法的异构无线网络垂直切换方法,通过智能体与环境的进行交互,使移动终端学习怎样去处理较为复杂的异构网络环境,对应做出最优的切换策略,同时能够有效地减少切换次数,提高系统资源利用率。
为了达到上述目的,本发明的技术方案如下:基于强化学习TD3算法的异构无线网络垂直切换方法,包括如下步骤:
S1、采用熵权法计算网络状态参数的权重,并根据所述权重构造奖励函数;
S2、初始化TD3算法中的策略网络以及两个估计网络,再对所述策略网络和两个估计网络对应的目标网络进行初始化,同时初始化一个经验池;
S3、所述策略网络包括演员当前网络和演员目标网络,所述估计网络包括评论家当前网络和评论家目标网络;
S4、所述演员当前网络根据所述网络状态参数做出切换决策,然后,通过所述奖励函数求得一个奖励值,同时得到演员当前网络的下一个状态,并将所述策略网络中做出的切换决策数据存储到所述经验池中;
S5、采用梯度下降法训练评论家当前网络,更新评论家当前网络参数后,采用梯度上升法训练演员当前网络,更新演员当前网络参数后,使用软更新方式,更新演员目标网络参数和评论家目标网络参数;
S6、进行L次循环迭代,每次循环迭代从初始时刻开始,得到初始化网络状态,直到循环结束;在每个决策时刻进行S4-S5的操作步骤,训练更新网络参数;
S7、根据训练好的策略网络来确定最优的切换策略。
优选的,步骤S1中,所述熵权法计算网络状态参数权重的具体步骤为:
所述网络状态参数包括:可用带宽(B)、时延(D)、误码率(E)和时延抖动(J);
根据不同的网络状态参数在切换判决中所占的比重构造实时业务和非实时业务的决策矩阵Z:
Z=(zij)4×4,zij为第i个备选网络的第j个网络参数的值,
将矩阵Z标准化得到矩阵H:
H=(hij)4×4,其中
Figure BDA0003276880450000021
将矩阵H进行归一化得到矩阵P:
P=(pij)4×4,其中
Figure BDA0003276880450000031
对于第j个网络参数而言,计算信息熵得到矩阵E:
Figure BDA0003276880450000032
其中j=1,2,3,4,k=(lnn)-1,信息效用值dj=1-ej,将dj进行归一化,得到每个网络参数的客观权重βj
Figure BDA0003276880450000033
其中j=1,2,3,4。
优选的,步骤S1中,所述奖励函数的构造步骤为:
奖励函数表示为:R(s,a)=βBRB(s,a)+βDRD(s,a)+βERE(s,a)+βJRJ(s,a);其中,β为网络参数的权重因子并与客观权重βj保持一致,并且(0≤β≤1);RB(s,a)为可用宽带的奖励函数、RD(s,a)为时延的奖励函数、RE(s,a)为误码率的奖励函数、RJ(s,a)为时延抖动的奖励函数。
优选的,步骤S2-S3中,所述策略网络和估计网络的组建步骤为:
所述演员当前网络、演员目标网络、评论家当前网络、评价目标网络均由输入层、隐藏层和输出层构成;
所述策略当前网络和策略目标网络的网络参数分别用θ和θ’表示;评论家当前网络和评论家目标网络的网络参数分别用w1,w2和w’1,w’2表示;
所述策略网络中的演员当前网络通过梯度上升法更新当前网络,在神经网络作用下进行网络状态到切换动作的映射得到切换策略:π(s;θ);估计网络中的评论家当前网络,通过神经网络近似Q函数得到Q值:Q(s,a;w);演员目标网络和评论家目标网络在延时学习作用下,通过软更新的方式,获取π(s;θ’)和Q(s,a;w’)。
优选的,步骤S4的将所述策略网络中做出的决策数据存储到经验池中,其具体步骤为:
假设在异构无线网络区域内有k个备选网络,记为N={1,2,....k},si(t)表示备选网络i在时刻t的状态,在每个决策时刻,移动终端只能接入到一个备选网络,切换决策数据为(si,ai,ri,s’i),si代表此时的网络状态,si表示为:
si=[B1,D1,E1,J1,B2,D2,E2,J2,...,Bk,Dk,Ek,Jk,n,m],
其中,Bk为备选网络k的可用带宽,Dk为备选网络k的时延,Ek为备选网络k的误码率,Jk为备选网络k的时延抖动,m为业务类型,m=0时表示实时业务,m=1时表示为非实时业务,n为在当前移动终端用户连接的网络,其中n∈{0,1,2,...,k};
在策略网络中的演员当前网络作用下,状态si选择一个切换动作ai并执行,进而输出确定性切换策略,其中,ai=πφ1,2(si,θ)+σi,πφ1,2(si,θ)为切换策略,σi为一个扰动,将切换动作决策从一个确定性过程变成一个随机过程;执行动作ai后,通过神经网络得到网络的下一个状态s’i和对应的奖励ri,将数据样本(si,ai,ri,s’i)存储到经验池中。
优选的,步骤S5中,所述评论家当前网络的训练步骤为:
以随机采样方式从经验池B中抽取部分切换样本,在每次训练神经网络时,作为状态评论家当前网络和演员当前网络的训练数据,使用均方差模型构造损失函数,通过梯度下降法迭代求解损失函数的最小化极值,更新评论家当前网络;损失函数为:
Loss=N-1i(y-Q(si,ai;w))2
其中,Q(si,ai;w)为估计值,即为评论家当前网络输出,y为样本真实值,N为训练时的取样次数,定义为:
Figure BDA0003276880450000041
使用贝尔曼方程算出两个动作估值,并取其最小值;γ(0≤γ≤1)为折扣因子,表示对之后得到的奖励的重视程度,公式中的si为演员目标网络的输入,a’i=π(s’i;θ’);s’和ai为评论家目标网络的输入值,评论家目标网络的输出值s’和ai对应的Q值:Q(s’i,ai;w’)。
优选的,步骤S5中,所述演员当前网络的训练步骤为:
在评论家当前网络更新后,使用梯度上升法,对演员当前网络进行更新,即:
Figure BDA0003276880450000042
评论家当前网络输入的是si和a=π(si;θ),目标状态动作的输出为
Figure BDA0003276880450000043
其中,输出值为
Figure BDA0003276880450000044
中较小的值;
评论家目标网络的参数使用软更新的方式,其公式为:
w’←αw+(1-α)w’,
演员目标网络的参数使用软更新的方式,其公式为:
θ’←αθ+(1-α)θ’;
其中,α为学习率。
与现有技术相比,本方案的有益效果:
本方案采用熵权法来确定网络状态参数的权重,利用权重来构建奖励函数;与现有的深度强化学习算法相比,TD3算法使用两个评论家目标网络估计网络参数状态动作值,并选择其中较小的网络状态参数状态动作值进行参数训练,解决了深度强化学习汇总网络参数状态动作值过高估计的缺点,从而选择出最优切换决策,降低时延,提高系统的资源利用率。
附图说明
图1是本发明基于强化学习TD3算法的异构无线网络垂直切换方法的流程图;
图2是本发明基于强化学习TD3算法的异构无线网络垂直切换方法的系统模型图。
具体实施方式
下面通过具体实施方式对本发明作进一步详细的说明:
实施例
如附图1所示,基于强化学习TD3算法的异构无线网络垂直切换方法,包括如下步骤:
S1、采用熵权法计算网络状态参数的权重,并根据权重构造奖励函数。
S2、初始化TD3算法中的策略网络以及两个估计网络,再对所述策略网络和两个估计网络对应的目标网络进行初始化,同时初始化一个经验池B。
S3、策略网络包括演员当前网络和演员目标网络,估计网络包括评论家当前网络和评论家目标网络;
S4、演员当前网络根据网络状态参数做出切换决策,然后,通过奖励函数求得一个奖励值,同时得到演员当前网络的下一个状态,并将策略网络中做出的切换决策数据存储到经验池B中。
S5、采用梯度下降法训练评论家当前网络,更新评论家当前网络参数后,采用梯度上升法训练演员当前网络,更新演员当前网络参数后,使用软更新方式,更新演员目标网络参数和评论家目标网络参数。
S6、进行L次循环迭代,每次循环迭代从初始时刻开始,得到初始化网络状态,直到循环结束;在每个决策时刻进行S4-S5的操作步骤,训练更新网络参数。
S7、根据训练好的策略网络来确定最优的切换策略。
需要了解的是:熵权法是一种多属性决策算法,同时也是一种客观赋权法,它根据指标的变异程度,观察其所反映的信息量的多少,计算出与之相对应的权重值,进而反映出对各个属性的重视程度。
在步骤S1中,利用熵权法分别计算实时业务和非实时业务的网络参数权重值,并依据得到的权重值构造奖励函数。步骤S1具体包括:
利用熵权法确定网络参数的客观权重,选取影响垂直切换的四个网络参数:可用带宽、时延、误码率和时延抖动。
根据不同的网络状态参数在切换判决中所占的比重构造实时业务和非实时业务的决策矩阵Z:
Z=(zij)4×4,zij为第i个备选网络的第j个网络参数的值,
接着将矩阵Z标准化得到矩阵H:
H=(hij)4×4,其中
Figure BDA0003276880450000061
将矩阵H进行归一化得到矩阵P:
P=(pij)4×4,其中
Figure BDA0003276880450000062
对于第j个网络参数而言,计算信息熵得到矩阵E:
Figure BDA0003276880450000063
其中j=1,2,3,4,k=(lnn)-1,信息效用值dj=1-ej,将dj进行归一化,得到每个网络参数的客观权重βj
Figure BDA0003276880450000064
其中j=1,2,3,4。
在步骤S1中,基于网络状态参数的权重值构造奖励函数可以表示为:
奖励函数表示为:R(s,a)=βBRB(s,a)+βDRD(s,a)+βERE(s,a)+βJRJ(s,a);
其中,β为网络参数的权重因子并与客观权重βj保持一致,并且(0≤β≤1);RB(s,a)为可用宽带的奖励函数、RD(s,a)为时延的奖励函数、RE(s,a)为误码率的奖励函数、RJ(s,a)为时延抖动的奖励函数。
需要了解的是:基于强化学习TD3算法的异构无线网络垂直切换方法,通过智能体与环境的进行交互训练神经网络,使移动终端学习怎样去处理较为复杂的异构网络环境,并通过训练好的神经网络做出最优的切换策略。
如附图2所示,在步骤S2-S7中确定最优切换策略,假设异构无线网络环境中存在三种备选网络,分别是UMTS、LTE、WLAN。在异构网络区域内随机产生200个移动终端,其运动方向每隔一段时间随机发生变化。终端随机产生实时业务和非实时业务,实时业务和非实时业务的到达均服从泊松分布,服务时间服从负指数分布。
此处设定存在三个备选网络,即k=3,则移动终端网络的网络状态si表示为:
si=[B1,D1,E1,J1,B2,D2,E2,J2,B3,D3,E3,J3,n,m]
此时,开始构建TD3网络,TD3网络包括一个演员当前网络、一个演员目标网络、两个评论家当前网络和两个评论家目标网络。
初始化TD3网络参数,循环迭代L次,经验池B,折扣因子γ,软更新因子α,两个评论家当前网络参数w1、w2,两个评论家目标网络参数w’1、w’2,演员当前网络参数θ,演员目标网络参数θ’,评论家目标网络比评论家当前网络的权重参数更新的要慢一些,同时,演员目标网络比演员当前网络的权重参数更新的要慢一些。
移动终端与环境进行交互:在初始状态下,将策略网络输出的确定性策略转化为随机动作ai,输入此动作后,得到对应的奖励ri和网络的下一个状态s’i,紧接着开始L轮循环迭代,在此过程中产生的数据存储到经验池B中。当存储在经验池B中的样本数量达到数据量的需求时,以随机采样方式从经验池B中抽取部分切换样本,在每次训练神经网络时,作为状态评论家当前网络和演员当前网络的训练数据。使用均方差模型构造损失函数,通过梯度下降法迭代求解损失函数的最小化极值,更新评论家当前网络;损失函数为:
Loss=N-1i(y-Q(si,ai;w))2
其中,Q(si,ai;w)为估计值,即为评论家当前网络输出,y为样本真实值,N为训练时的取样次数,定义为:
Figure BDA0003276880450000071
使用贝尔曼方程算出两个动作估值,并取其最小值;γ(0≤γ≤1)为折扣因子,表示对之后得到的奖励的重视程度,公式中的si为演员目标网络的输入,a’i=π(s’i;θ’);s’和ai为评论家目标网络的输入值,评论家目标网络的输出值s’和ai对应的Q值:Q(s’i,ai;w’)。
在评论家当前网络更新后,使用梯度上升法,对演员当前网络进行更新,即:
Figure BDA0003276880450000072
评论家当前网络输入的是si和a=π(si;θ),目标状态动作的输出为
Figure BDA0003276880450000073
其中,输出值为
Figure BDA0003276880450000074
中较小的值。
评论家目标网络的参数使用软更新的方式,其公式为:
w’←αw+(1-α)w’,
演员目标网络的参数使用软更新的方式,其公式为:
θ’←αθ+(1-α)θ’;
其中,α为学习率,一般取值为0.001。
在进行L轮循环迭代后,会得到一个训练到最佳状态的网络,通过训练好的策略网络输出确定性切换策略,为移动终端用户选择出最优的切换网络。
以上的仅是本发明的实施例,方案中公知的具体结构和/或特性等常识在此未作过多描述。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (7)

1.基于强化学习TD3算法的异构无线网络垂直切换方法,其特征在于:包括如下步骤:
S1、采用熵权法计算网络状态参数的权重,并根据所述权重构造奖励函数;
S2、初始化TD3算法中的策略网络以及两个估计网络,再对所述策略网络和两个估计网络对应的目标网络进行初始化,同时初始化一个经验池;
S3、所述策略网络包括演员当前网络和演员目标网络,所述估计网络包括评论家当前网络和评论家目标网络;
S4、所述演员当前网络根据所述网络状态参数做出切换决策,然后,通过所述奖励函数求得一个奖励值,同时得到演员当前网络的下一个状态,并将所述策略网络中做出的切换决策数据存储到所述经验池中;
S5、采用梯度下降法训练评论家当前网络,更新评论家当前网络参数后,采用梯度上升法训练演员当前网络,更新演员当前网络参数后,使用软更新方式,更新演员目标网络参数和评论家目标网络参数;
S6、进行L次循环迭代,每次循环迭代从初始时刻开始,得到初始化网络状态,直到循环结束;在每个决策时刻进行S4-S5的操作步骤,训练更新网络参数;
S7、根据训练好的策略网络来确定最优的切换策略。
2.根据权利要求1所述的基于强化学习TD3算法的异构无线网络垂直切换方法,其特征在于:步骤S1中,所述熵权法计算网络状态参数权重的具体步骤为:
所述网络状态参数包括:可用带宽(B)、时延(D)、误码率(E)和时延抖动(J);
根据不同的网络状态参数在切换判决中所占的比重构造实时业务和非实时业务的决策矩阵Z:
Z=(zij)4×4,zij为第i个备选网络的第j个网络参数的值,
将矩阵Z标准化得到矩阵H:
H=(hij)4×4,其中
Figure FDA0003276880440000011
将矩阵H进行归一化得到矩阵P:
P=(pij)4×4,其中
Figure FDA0003276880440000012
对于第j个网络参数而言,计算信息熵得到矩阵E:
Figure FDA0003276880440000021
其中j=1,2,3,4,k=(lnn)-1,信息效用值dj=1-ej,将dj进行归一化,得到每个网络参数的客观权重βj
Figure FDA0003276880440000022
其中j=1,2,3,4。
3.根据权利要求2所述的基于强化学习TD3算法的异构无线网络垂直切换方法,其特征在于:步骤S1中,所述奖励函数的构造步骤为:
奖励函数表示为:R(s,a)=βBRB(s,a)+βDRD(s,a)+βERE(s,a)+βJRJ(s,a);其中,β为网络参数的权重因子并与客观权重βj保持一致,并且(0≤β≤1);RB(s,a)为可用宽带的奖励函数、RD(s,a)为时延的奖励函数、RE(s,a)为误码率的奖励函数、RJ(s,a)为时延抖动的奖励函数。
4.根据权利要求2所述的基于强化学习TD3算法的异构无线网络垂直切换方法,其特征在于:步骤S2-S3中,所述策略网络和估计网络的组建步骤为:
所述演员当前网络、演员目标网络、评论家当前网络、评价目标网络均由输入层、隐藏层和输出层构成;
所述策略当前网络和策略目标网络的网络参数分别用θ和θ'表示;所述评论家当前网络和评论家目标网络的网络参数分别用w1,w2和w'1,w'2表示;
所述策略网络中的演员当前网络通过梯度上升法更新当前网络,在神经网络作用下进行网络状态到切换动作的映射得到切换策略:π(s;θ);估计网络中的评论家当前网络,通过神经网络近似Q函数得到Q值:Q(s,a;w);演员目标网络和评论家目标网络在延时学习作用下,通过软更新的方式,获取π(s;θ')和Q(s,a;w')。
5.根据权利要求4所述的基于强化学习TD3算法的异构无线网络垂直切换方法,其特征在于:步骤S4的将所述策略网络中做出的决策数据存储到经验池中,其具体步骤为:
假设在异构无线网络区域内有k个备选网络,记为N={1,2,....k},si(t)表示备选网络i在时刻t的状态,在每个决策时刻,移动终端只能接入到一个备选网络,切换决策数据为(si,ai,ri,s'i),si代表此时的网络状态,si表示为:
si=[B1,D1,E1,J1,B2,D2,E2,J2,...,Bk,Dk,Ek,Jk,n,m],
其中,Bk为备选网络k的可用带宽,Dk为备选网络k的时延,Ek为备选网络k的误码率,Jk为备选网络k的时延抖动,m为业务类型,m=0时表示实时业务,m=1时表示为非实时业务,n为在当前移动终端用户连接的网络,其中n∈{0,1,2,...,k};
在策略网络中的演员当前网络作用下,状态si选择一个切换动作ai并执行,进而输出确定性切换策略,其中,
Figure FDA0003276880440000031
Figure FDA0003276880440000032
为切换策略,σi为一个扰动,将切换动作决策从一个确定性过程变成一个随机过程;执行动作ai后,通过神经网络得到网络的下一个状态s'i和对应的奖励ri,将数据样本(si,ai,ri,s'i)存储到经验池中。
6.根据权利要求5所述的基于强化学习TD3算法的异构无线网络垂直切换方法,其特征在于:步骤S5中,所述评论家当前网络的训练步骤为:
以随机采样方式从经验池B中抽取部分切换样本,在每次训练神经网络时,作为状态评论家当前网络和演员当前网络的训练数据,使用均方差模型构造损失函数,通过梯度下降法迭代求解损失函数的最小化极值,更新评论家当前网络;损失函数为:
Loss=N-1i(y-Q(si,ai;w))2
其中,Q(si,ai;w)为估计值,即为评论家当前网络输出,y为样本真实值,N为训练时的取样次数,定义为:
Figure FDA0003276880440000033
使用贝尔曼方程算出两个动作估值,并取其最小值;γ(0≤γ≤1)为折扣因子,表示对之后得到的奖励的重视程度,公式中的si为演员目标网络的输入,a'i=π(s'i;θ');s'和ai为评论家目标网络的输入值,评论家目标网络的输出值s'和ai对应的Q值:Q(s'i,ai;w')。
7.根据权利要求5所述的基于强化学习TD3算法的异构无线网络垂直切换方法,其特征在于:步骤S5中,所述演员当前网络的训练步骤为:
在评论家当前网络更新后,使用梯度上升法,对演员当前网络进行更新,即:
Figure FDA0003276880440000034
评论家当前网络输入的是si和a=π(si;θ),目标状态动作的输出为
Figure FDA0003276880440000035
其中,输出值为
Figure FDA0003276880440000036
中较小的值;
评论家目标网络的参数使用软更新的方式,其公式为:
w'←αw+(1-α)w',
演员目标网络的参数使用软更新的方式,其公式为:
θ'←αθ+(1-α)θ';
其中,α为学习率。
CN202111120444.5A 2021-09-24 2021-09-24 基于强化学习td3算法的异构无线网络垂直切换方法 Active CN113784410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111120444.5A CN113784410B (zh) 2021-09-24 2021-09-24 基于强化学习td3算法的异构无线网络垂直切换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111120444.5A CN113784410B (zh) 2021-09-24 2021-09-24 基于强化学习td3算法的异构无线网络垂直切换方法

Publications (2)

Publication Number Publication Date
CN113784410A true CN113784410A (zh) 2021-12-10
CN113784410B CN113784410B (zh) 2022-09-23

Family

ID=78853143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111120444.5A Active CN113784410B (zh) 2021-09-24 2021-09-24 基于强化学习td3算法的异构无线网络垂直切换方法

Country Status (1)

Country Link
CN (1) CN113784410B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115802465A (zh) * 2023-02-01 2023-03-14 中国传媒大学 基于强化学习框架的d2d边缘缓存网络能耗管理方法
CN115801110A (zh) * 2023-02-06 2023-03-14 中国航空工业集团公司西安飞行自动控制研究所 一种基于机器学习的无线电选台优化方法
CN116233895A (zh) * 2023-05-04 2023-06-06 合肥工业大学 基于强化学习的5g配网节点通信优化方法、设备及介质
CN116661294A (zh) * 2023-08-02 2023-08-29 南京航空航天大学 基于强化学习的阀控液压缸分数阶控制方法及控制系统
CN117580132A (zh) * 2024-01-16 2024-02-20 杭州海康威视数字技术股份有限公司 基于强化学习的移动设备异构网络接入方法、装置及设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102644A (zh) * 2017-06-22 2017-08-29 华南师范大学 基于深度强化学习的水下机器人轨迹控制方法及控制系统
CN108235390A (zh) * 2017-12-01 2018-06-29 吉林大学 一种异构无线网络中基于贝叶斯决策的垂直切换方法
WO2018193361A1 (en) * 2017-04-17 2018-10-25 Cerebras Systems Inc. Microthreading for accelerated deep learning
CN110059100A (zh) * 2019-03-20 2019-07-26 广东工业大学 基于演员-评论家网络的sql语句构造方法
US20190244103A1 (en) * 2018-02-07 2019-08-08 Royal Bank Of Canada Robust pruned neural networks via adversarial training
CN110225535A (zh) * 2019-06-04 2019-09-10 吉林大学 基于深度确定性策略梯度的异构无线网络垂直切换方法
CN112215364A (zh) * 2020-09-17 2021-01-12 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的敌-友深度确定性策略方法及系统
CN112600869A (zh) * 2020-11-11 2021-04-02 南京邮电大学 基于td3算法的计算卸载分配方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018193361A1 (en) * 2017-04-17 2018-10-25 Cerebras Systems Inc. Microthreading for accelerated deep learning
CN107102644A (zh) * 2017-06-22 2017-08-29 华南师范大学 基于深度强化学习的水下机器人轨迹控制方法及控制系统
CN108235390A (zh) * 2017-12-01 2018-06-29 吉林大学 一种异构无线网络中基于贝叶斯决策的垂直切换方法
US20190244103A1 (en) * 2018-02-07 2019-08-08 Royal Bank Of Canada Robust pruned neural networks via adversarial training
CN110059100A (zh) * 2019-03-20 2019-07-26 广东工业大学 基于演员-评论家网络的sql语句构造方法
CN110225535A (zh) * 2019-06-04 2019-09-10 吉林大学 基于深度确定性策略梯度的异构无线网络垂直切换方法
CN112215364A (zh) * 2020-09-17 2021-01-12 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的敌-友深度确定性策略方法及系统
CN112600869A (zh) * 2020-11-11 2021-04-02 南京邮电大学 基于td3算法的计算卸载分配方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115802465A (zh) * 2023-02-01 2023-03-14 中国传媒大学 基于强化学习框架的d2d边缘缓存网络能耗管理方法
CN115801110A (zh) * 2023-02-06 2023-03-14 中国航空工业集团公司西安飞行自动控制研究所 一种基于机器学习的无线电选台优化方法
CN115801110B (zh) * 2023-02-06 2023-07-18 中国航空工业集团公司西安飞行自动控制研究所 一种基于机器学习的无线电选台优化方法
CN116233895A (zh) * 2023-05-04 2023-06-06 合肥工业大学 基于强化学习的5g配网节点通信优化方法、设备及介质
CN116233895B (zh) * 2023-05-04 2023-07-18 合肥工业大学 基于强化学习的5g配网节点通信优化方法、设备及介质
CN116661294A (zh) * 2023-08-02 2023-08-29 南京航空航天大学 基于强化学习的阀控液压缸分数阶控制方法及控制系统
CN116661294B (zh) * 2023-08-02 2023-11-07 南京航空航天大学 基于强化学习的阀控液压缸分数阶控制方法及控制系统
CN117580132A (zh) * 2024-01-16 2024-02-20 杭州海康威视数字技术股份有限公司 基于强化学习的移动设备异构网络接入方法、装置及设备
CN117580132B (zh) * 2024-01-16 2024-04-12 杭州海康威视数字技术股份有限公司 基于强化学习的移动设备异构网络接入方法、装置及设备

Also Published As

Publication number Publication date
CN113784410B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN113784410B (zh) 基于强化学习td3算法的异构无线网络垂直切换方法
CN110225535B (zh) 基于深度确定性策略梯度的异构无线网络垂直切换方法
CN111625361B (zh) 一种基于云端服务器和IoT设备协同的联合学习框架
Wei et al. Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN107665230A (zh) 用于智能家居控制的用户行为预测模型的训练方法及装置
CN111367657B (zh) 一种基于深度强化学习的计算资源协同合作方法
CN110995487B (zh) 多服务质量预测方法、装置、计算机设备及可读存储介质
CN110809306A (zh) 一种基于深度强化学习的终端接入选择方法
CN112685165B (zh) 一种基于联合强化学习策略的多目标云工作流调度方法
CN107948083B (zh) 一种基于增强学习的sdn数据中心拥塞控制方法
CN113852432B (zh) 基于rcs-gru模型的频谱预测感知方法
CN113098714A (zh) 一种基于深度强化学习的低时延网络切片的方法
CN111917642B (zh) 分布式深度强化学习的sdn网络智慧路由数据传输方法
Fan et al. Dnn deployment, task offloading, and resource allocation for joint task inference in iiot
CN111355633A (zh) 一种基于pso-delm算法的比赛场馆内手机上网流量预测方法
CN108733921A (zh) 基于模糊信息粒化的变压器绕组热点温度波动范围预测方法
CN115065728A (zh) 一种基于多策略强化学习的多目标内容存储方法
Yu et al. User-centric heterogeneous-action deep reinforcement learning for virtual reality in the metaverse over wireless networks
CN116614394A (zh) 一种基于多目标深度强化学习的服务功能链放置方法
CN113887748B (zh) 在线联邦学习任务分配方法、装置、联邦学习方法及系统
CN113613332B (zh) 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统
CN113891327A (zh) 一种基于深度多用户drqn的动态频谱接入方法
CN111767991B (zh) 一种基于深度q学习的测控资源调度方法
CN114449536B (zh) 一种基于深度强化学习的5g超密集网络多用户接入选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant