CN115065728A - 一种基于多策略强化学习的多目标内容存储方法 - Google Patents

一种基于多策略强化学习的多目标内容存储方法 Download PDF

Info

Publication number
CN115065728A
CN115065728A CN202210660932.3A CN202210660932A CN115065728A CN 115065728 A CN115065728 A CN 115065728A CN 202210660932 A CN202210660932 A CN 202210660932A CN 115065728 A CN115065728 A CN 115065728A
Authority
CN
China
Prior art keywords
network
strategy
action
reinforcement learning
base station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210660932.3A
Other languages
English (en)
Other versions
CN115065728B (zh
Inventor
陈由甲
郭伯杨
蔡粤楷
胡锦松
郑海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202210660932.3A priority Critical patent/CN115065728B/zh
Publication of CN115065728A publication Critical patent/CN115065728A/zh
Application granted granted Critical
Publication of CN115065728B publication Critical patent/CN115065728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开一种基于多策略强化学习的多目标内容存储方法,包括以下步骤:步骤S1:提出基于视频文件传输的协同缓存无线网络体系结构,定义了异构无线基站的状态空间和动作空间;步骤S2:动态内容缓存更新算法应用于各智能体,实现计算资源利用率最大化。步骤S3:利用权重映射网络来确定对于卸载流量的偏好权重,以帮助智能体实现策略选择过程,同时在协调器中引入混合网络来捕获各个智能体的信息,训练全局策略更新参数,并将结果反馈给各个无线基站进行各智能体的局部策略更新。本技术方案能够通过多策略方法学习一系列备选策略,为网络实现当前流量和视频质量之间的权衡。

Description

一种基于多策略强化学习的多目标内容存储方法
技术领域
本发明涉及无线通信领域和计算机技术领域,特别是一种基于多策略强化学习的多目标内容存储方法。
背景技术
随着5G的商业化,移动数据流量会迎来急剧增长,尤其是视频数据流量随着移动无线通信、视频数据需求呈指数级增长,而边缘计算服务器性能的不断提高,也使得实时视频点播服务服务在5G通信网络中逐渐成为主要业务。为了满足不同用户对视频质量的要求,快速适应无线网络的波动,可伸缩视频编码作为H.265标准的一部分已经成视频编码的有力候选,在无线基站中缓存用户所需的视频文件,被认为是另一种流量解决方案,更有效地利用有限的缓存存储来满足用户[9]的各种视频需求。为了捕捉用户请求内容和无线环境的动态特性,策略决策算法框架被引入无线缓存领域,其中深度强化学习结合了深度神经网络和强化学习学习,在解决复杂控制问题方面表现出了优异的性能,此外,由于大规模无线基站的布局,如何通过多个无线基站间的协作提高无线网络的整体服务性能得到了越来越多的关注。
发明内容
有鉴于此,本发明的目的在于提供一种基于多策略强化学习的多目标内容存储方法,提出利用无线网络的协调器嵌入混合网络计算的全局策略更新参数,传递给各个无线基站进行各智能体的局部策略更新;通过神经网络参数的不断迭代更新,来使得所生成的帕累托前沿的策略集合越来越准确,从而通过权重映射网络来得到全局最佳的缓存策略。
为实现上述目的,本发明采用如下技术方案:一种基于多策略强化学习的多目标内容存储方法,包括如下步骤:
步骤S1:提出一种半分布式协同缓存的视频传输系统,在视频传输系统中定义各个功能不同的基站各自的状态空间和动作空间,联合状态空间和联合动作空间,以及基于优化目标设计的奖励函数,实现卸载后的视频流量与用户视频体验之间的帕累托最优性;
步骤S2:设计符合应用场景的多智能体深度强化学习算法,将其应用于每个无线基站的缓存策略决策中;提出一种基于D3QN的动态内容缓存更新算法应用于各智能体,每个智能体利用两个D3QN网络实现对卸载流量和用户体验质量的估计,并且最终通过协调器接收全局策略更新参数来迭代更新神经网络的参数以使全局收敛;其中D3QN网络采用优势函数,通过目标Q值选择的动作来选择目标Q值;基于D3QN的动态内容缓存更新算法如算法一;
其中,算法一:(1)初始化所有智能体中的D3QN网络;
(2)初始化强化学习中的所有参数;
(3)在时隙t=0;
(4)在智能体m=1;
(5)从环境中得到状态,并观察;
(6)以1-ε的概率使用基于Hypervolume的策略选择动作,或以ε的概率随机选择动作;
(7)将当前状态、最优动作以及Q值,目标Q值传输给边缘服务器;
(8)计算当前的奖励;
(9)存储当前时刻全局状态、动作、奖励以及下一时刻的全局状态;
(10)将当前时刻的全局状态输入到协调器中,并得到一个总Q值;
(11)从经验回放库中采集样本,并与得到的总Q值计算损失函数,然后作梯度下降;
(12)将梯度结果回传给各个智能体中来更新它们的评估网络;
(13)每过一段时隙用所有评估网络的参数更新其相应的目标网络。
步骤S3:构建基于QMIX结构的半分布式多智能体系统,QMIX结构包含有一个混合网络,这个混合网络部署在协调器来汇总全局信息,其中混合网络中包含有超网络生成网络中间层神经元的权重和偏置,协调器首先计算系统奖励,然后将每个智能体的动作价值函数作为输入,利用混合网络计算全局策略更新参数,最后将结果反馈给各个无线基站进行各智能体的局部策略更新。
在一较佳的实施例中:首先,
Figure BDA0003690424310000031
表示为一个簇内的基站集合,其中0代表边缘服务器即协调器,
Figure BDA0003690424310000032
表示归属于无线基站m的用户集,文件集合
Figure BDA0003690424310000033
质量最高层数L,二进制变量δmvl表示无线基站m是否缓存第v个视频的第l层;另外还给出单位接入时延ω1,ω2,ω3和ω4分别表示本不同传输路径的传输损耗,同时,还定义了用户请求视频变量
Figure BDA0003690424310000034
和服务质量变量puv
在一较佳的实施例中:构建缓存模型的性能指标,包括所减少的视频传输损耗o1和用户体验质量o2
Figure BDA0003690424310000041
Figure BDA0003690424310000042
并基于这两个目标优化问题构建最终优化目标,即奖励函数,
Figure BDA0003690424310000043
还定义用户请求变量,用户请求质量还有无线基站缓存变量为状态空间,不同的基站由于设备功能性的差异状态空间会不一样,同时定义下一个时刻的无线缓存策略为个个智能体的动作。
在一较佳的实施例中:利用基于多目标的两个D3QN网络来分析关于用户的请求信息或当前缓存信息,将其作为深度强化学习算法的状态空间,来评估当前各缓存决策对于两个目标的性能表现,每个无线基站在下一个时间周期对缓存内容和对用户服务质量的决策,然后将所有信息打包发送给协调器进行统一的汇总,并获取新的网络更新参数。
在一较佳的实施例中:获取新的网络更新参数具体可以通过如下方式获取:
1)在无线网络中针对每个异构的无线基站定义出它们各自的状态空间及动作空间,采用深度强化学习的的方法,通过定义动作价值函数,进行网络参数的不断迭代,最终每个无线基站能够得到各个不同状态下的最优缓存策略的帕累托集合;
2)D3QN网络额外使用双网络机制来稳定,双网络机制采取一个延迟更新的结构完全一致的神经网络来提升算法稳定性;确保在不同的用户视频点播需求下都有最优的缓存决策实现,通过利用多个独立的D3QN网络来实现对视频传输系统不同目标的评估,不同于传统的单个网络的动作选择,额外提出一种基于Hypervolume的动作选择机制来选取多目标下的执行动作;这种动作选择机制通过评估Hypervolume的值来比较每个不同缓存决策对于帕累托前沿是否具有正向的贡献,从而筛选出对于前沿贡献最大的动作,执行该动作,并依靠这样的迭代实现最终对于帕累托前沿的逼近和收敛。
在一较佳的实施例中:D3QN网络分别进行对两个目标的动作价值函数评估,其最后输出的动作值函数向量表示为
Figure BDA0003690424310000051
协调器首先收集所有智能体的状态和奖励构建联合状态
Figure BDA0003690424310000052
和联合动作
Figure BDA0003690424310000053
并从中然后计算出整个系统的奖励值,此外,协调器还通过混合网络计算全局动作价值函数
Figure BDA0003690424310000054
其中elu(·)表示激活函数,μ,η分别表示混合网络产生的权重和偏置,同理,
Figure BDA0003690424310000055
也易于获得。
在一较佳的实施例中:集合奖励函数构建一个损失函数以计算全局策略更新参数,
Figure BDA0003690424310000056
训练得到的全局策略更新参数可以反向传递回无线基站群内的各个无线基站,以便于他们针对自身的神经网络用
Figure BDA0003690424310000057
进行更新,得到更好的策略。
在一较佳的实施例中:引入一个协调器,用来指挥智能体进行策略选取,并收集不同无线基站的状态和动作,以此计算出整个视频传输系统的奖励,协调器中部署有混合网络,其包含有超网络生成网络中间层神经元的权重和偏差,同时收集各个无线基站策略执行之后的动作价值函数,进而构建损失函数计算出全局策略更新参数,并将全局策略更新参数返回给各个无线基站进行决策网络的更新。
在一较佳的实施例中:引入基于hypervolumn的动作选择机制,其中定义动作Q值向量中非支配的Q向量为帕累托集合,
Figure BDA0003690424310000061
其中
Figure BDA0003690424310000062
表示非支配关系,并且我们针对这种非支配Q向量组成的帕累托集合,定义它的hypervolumn指标为
Figure BDA0003690424310000063
其中Λ(·)应表示勒贝格测度,因此最优动作选择是选择让hypervolume指标最大的动作,在状态s'下,我们有
Figure BDA0003690424310000064
在一较佳的实施例中:在协调器中引入一个权重映射网络来反应当前流量下对第一个目标,即卸载传输流量的偏好,该网络以当前系统流量为输入,以第一个目标的权重为输出,其中
Figure BDA0003690424310000065
其中k和k'分别表示当前系统流量和网络流量阈值。
与现有技术相比,本发明具有以下有益效果:本发明提出的一种基于多策略强化学习的多目标内容存储方法,利用QMIX结构能够促进多智能体间的协作,同时利用动作选择机制和权重映射网络,解决了在真实无线网络环境中的多目标决策问题,从而提高了移动无线边缘缓存的服务能力。
附图说明
图1是本发明优选实施例中协同缓存无线网络体系结构示意图;
图2是本发明优选实施例中视频传输系统缓存决策过程的示意图;
图3是本发明优选实施例中不同算法的hypervolume对比图;
图4是本发明优选实施例中的算法在不同文件数下的帕累托前沿对比图;
图5是本发明优选实施例中的的算法在不同层数下的帕累托前沿对比图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式;如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
一种基于多策略强化学习的多目标内容存储方法,具体按照如下步骤实现,
步骤S1:提出协同缓存无线网络体系结构,定义了各个智能体状态空间、动作空间和基于卸载流量和用户体验设计的奖励函数,目的是以最大限度地提升本地无线基站的服务质量;
1)首先,
Figure BDA0003690424310000071
表示为一个簇内的基站集合,其中0代表边缘服务器即协调器,
Figure BDA0003690424310000072
表示归属于无线基站m的用户集,文件集合
Figure BDA0003690424310000073
质量最高层数L,二进制变量δmvl表示无线基站m是否缓存了第v个视频的第l层。另外还给出了单位接入时延ω1,ω2,ω3和ω4分别表示本不同传输路径的传输损耗,同时,为了构造优化问题我们还定义了用户请求视频变量
Figure BDA0003690424310000081
和服务质量变量puv
2)构建缓存模型的性能指标,包括所减少的视频传输损耗o1和用户体验质量o2如下,
Figure BDA0003690424310000082
Figure BDA0003690424310000083
并基于这两个目标优化问题构建最终优化目标,也就是我们的奖励函数,
Figure BDA0003690424310000084
此外我们还定义用户请求变量,用户请求质量还有无线基站缓存变量为状态空间,不同的基站由于设备功能性的差异状态空间会不一样,同时我们定义下一个时刻的无线缓存策略为个个智能体的动作。
步骤S2:我们通过构建基于D3QN和QMIX结构的模型来做缓存决策并协调各个无线基站的协作,在协调器中,我们收集和分析关于各个无线基站的信息,并将智能体的动作价值函数作为混合网络的输入,输出为整个系统的全局动作价值函数以及全局策略更新参数,并将结果反馈回整个半分布式系统中,提升无线边缘缓存的协作性能;其中D3QN网络采用优势函数,使其在收集离散动作的数据后,能够更加准确的去估算Q值,选择更加合适的动作,并通过目标Q值选择的动作来选择目标Q值,从而消除Q值过高估计的问题。具体的基于D3QN的动态内容缓存更新算法如算法一;
其中,算法一:基于QMIX的半分步式协作缓存的传输算法
(1)初始化所有智能体中的D3QN网络;
(2)初始化强化学习中的所有参数;
(3)在时隙t=0;
(4)在智能体m=1;
(5)从环境中得到状态,并观察;
(6)以1-ε的概率使用基于Hypervolume的策略选择动作,或以ε的概率随机选择动作;
(7)将当前状态、最优动作以及Q值,目标Q值传输给边缘服务器;
(8)计算当前的奖励;
(9)存储当前时刻全局状态、动作、奖励以及下一时刻的全局状态;
(10)将当前时刻的全局状态输入到协调器中,并得到一个总Q值;
(11)从经验回放库中采集样本,并与得到的总Q值计算损失函数,然后作梯度下降;
(12)将梯度结果回传给各个智能体中来更新它们的评估网络;
(13)每过一段时隙用所有评估网络的参数更新其相应的目标网络。
1)我们利用两个独立的D3QN网络分别进行对两个目标的动作价值函数评估,其最后输出的动作值函数向量可以表示为
Figure BDA0003690424310000091
为了无线基站间能够更好的协作,我们在协调器中引入了一个新的模块叫混合网络,协调器首先能收集所有智能体的状态和奖励构建联合状态
Figure BDA0003690424310000092
和联合动作
Figure BDA0003690424310000093
并从中然后计算出整个系统的奖励值,此外,协调器还能通过混合网络计算全局动作价值函数
Figure BDA0003690424310000094
其中elu(·)表示激活函数,μ,η分别表示混合网络产生的权重和偏置,同理,
Figure BDA0003690424310000095
也易于获得。
2)根据前面所计算出来的整个系统的全局动作价值函数,我们集合奖励函数构建了一个损失函数以计算全局策略更新参数,
Figure BDA0003690424310000101
训练得到的全局策略更新参数可以反向传递回无线基站群内的各个无线基站,以便于他们针对自身的神经网络用
Figure BDA0003690424310000102
进行更新,得到更好的策略,更新后的策略在协作性上和预测性上都会有更好的性能表现。
步骤S3:考虑到无线网络的动态性,我们希望智能体能够在各种不同的网络状态下都选取最优策略,因此我们利用权重映射网络和动作选择机制来额外辅助智能体实现决策过程。
由于引入双D3QN网络,我们的动作Q值变为以向量的形式存在,但是智能体训练过程中又需要保证选取其中一个最优动作,因此我们引入了基于hypervolumn的动作选择机制,其中我们定义动作Q值向量中非支配的Q向量为帕累托集合,
Figure BDA0003690424310000103
其中
Figure BDA0003690424310000104
表示非支配关系,并且我们针对这种非支配Q向量组成的帕累托集合,我们定义它的hypervolumn指标为
Figure BDA0003690424310000105
其中Λ(·)应表示勒贝格测度,因此我们的最优动作选择便是选择能让hypervolume指标最大的动作,例如在状态s'下,我们有
Figure BDA0003690424310000106
有了训练过程中的动作选择机制,我们还需要对训练结束后的智能体的决策做出定义,因为每个时刻无线网络的环境都有可能发生变化,因此我们在协调器中引入一个权重映射网络来反应当前流量下对第一个目标,即卸载传输流量的偏好,该网络以当前系统流量为输入,以第一个目标的权重为输出,其中
Figure BDA0003690424310000111
其中k和k'分别表示当前系统流量和网络流量阈值。
为了让本领域技术人员进一步了解本发明所提出的一种基于多策略强化学习的多目标内容存储方法,下面结合具体实施例作详细说明。本实施例以本发明技术方案为前提进行实施。
如图1所示,为协同缓存无线网络体系结构示意图。
该模型主要有无线基站、协调器、远程视频服务器、核心网等组成,介绍了无线基站下的用户缓存模型,以及用户间协作模型,每个无线基站都可以通过回程链路在源服务器上下载文件,并在本地缓存文件,直接为小区内的用户服务。
如图2所示,是视频传输系统缓存决策过程的示意图。
由于无线网络的动态特性,流量和视频质量之间的权衡是不断波动的。因此,在动态网络中,传统的单一策略方法在没有事先权值知识的情况下无法很好地解决这一问题。因此,我们提出了一种多策略方法来学习一系列最优解决方案,然后根据当前的网络环境执行决策。
如图3所示,是本发明实施例中不同算法的hypervolume对比图。
我们将不同算法中多策略方法所逼近的帕累托策略集合所形成的hypervolume指标进行了对比,其中hypervolume指标表示帕累托前沿的所有点到参考点之间形成的超体积。实现展示我们的算法对比传统的VDN方法能够更加逼近帕累托前沿,形成更好的策略合集。
如图4所示,是本发明实施例中的算法在不同文件数下的帕累托前沿对比图。
通过实验结果我们可以得知,我们的算法不仅能够在不同的复杂度下都能够很好的找到一个全局策略集合,同时随着视频文件数的降低,我们的帕累托前沿合集能够获得更高的卸载流量和更高的用户体验质量。
如图5所示,是本发明实例中的的算法在不同层数下的帕累托前沿对比图。
对比于传统的多智能体算法,我们引入的多策略多目标强化学习方法在3视频层,4视频层和5视频层的情况下都能收敛到最优策略集合,这表示我们的算法能够在不同场景下都迅速定位一个全局最优策略。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (10)

1.一种基于多策略强化学习的多目标内容存储方法,其特征在于,包括如下步骤:
步骤S1:提出一种半分布式协同缓存的视频传输系统,在视频传输系统中定义各个功能不同的基站各自的状态空间和动作空间,联合状态空间和联合动作空间,以及基于优化目标设计的奖励函数,实现卸载后的视频流量与用户视频体验之间的帕累托最优性;
步骤S2:设计符合应用场景的多智能体深度强化学习算法,将其应用于每个无线基站的缓存策略决策中;提出一种基于D3QN的动态内容缓存更新算法应用于各智能体,每个智能体利用两个D3QN网络实现对卸载流量和用户体验质量的估计,并且最终通过协调器接收全局策略更新参数来迭代更新神经网络的参数以使全局收敛;其中D3QN网络采用优势函数,通过目标Q值选择的动作来选择目标Q值;基于D3QN的动态内容缓存更新算法如算法一;
其中,算法一:(1)初始化所有智能体中的D3QN网络;
(2)初始化强化学习中的所有参数;
(3)在时隙t=0;
(4)在智能体m=1;
(5)从环境中得到状态,并观察;
(6)以1-ε的概率使用基于Hypervolume的策略选择动作,或以ε的概率随机选择动作;
(7)将当前状态、最优动作以及Q值,目标Q值传输给边缘服务器;
(8)计算当前的奖励;
(9)存储当前时刻全局状态、动作、奖励以及下一时刻的全局状态;
(10)将当前时刻的全局状态输入到协调器中,并得到一个总Q值;
(11)从经验回放库中采集样本,并与得到的总Q值计算损失函数,然后作梯度下降;
(12)将梯度结果回传给各个智能体中来更新它们的评估网络;
(13)每过一段时隙用所有评估网络的参数更新其相应的目标网络;
步骤S3:构建基于QMIX结构的半分布式多智能体系统,QMIX结构包含有一个混合网络,这个混合网络部署在协调器来汇总全局信息,其中混合网络中包含有超网络生成网络中间层神经元的权重和偏置,协调器首先计算系统奖励,然后将每个智能体的动作价值函数作为输入,利用混合网络计算全局策略更新参数,最后将结果反馈给各个无线基站进行各智能体的局部策略更新。
2.根据权利要求1所述的一种基于多策略强化学习的多目标内容存储方法,其特征在于:首先,
Figure FDA0003690424300000021
表示为一个簇内的基站集合,其中0代表边缘服务器即协调器,
Figure FDA0003690424300000022
表示归属于无线基站m的用户集,文件集合
Figure FDA0003690424300000023
质量最高层数L,二进制变量δmvl表示无线基站m是否缓存第v个视频的第l层;另外还给出单位接入时延ω1,ω2,ω3和ω4分别表示本不同传输路径的传输损耗,同时,还定义了用户请求视频变量
Figure FDA0003690424300000024
和服务质量变量puv
3.根据权利要求2所述的一种基于多策略强化学习的多目标内容存储方法,其特征在于:构建缓存模型的性能指标,包括所减少的视频传输损耗o1和用户体验质量o2
Figure FDA0003690424300000031
Figure FDA0003690424300000032
并基于这两个目标优化问题构建最终优化目标,即奖励函数,
Figure FDA0003690424300000033
还定义用户请求变量,用户请求质量还有无线基站缓存变量为状态空间,不同的基站由于设备功能性的差异状态空间会不一样,同时定义下一个时刻的无线缓存策略为个个智能体的动作。
4.根据权利要求1所述的一种基于多策略强化学习的多目标内容存储方法,其特征在于:利用基于多目标的两个D3QN网络来分析关于用户的请求信息或当前缓存信息,将其作为深度强化学习算法的状态空间,来评估当前各缓存决策对于两个目标的性能表现,每个无线基站在下一个时间周期对缓存内容和对用户服务质量的决策,然后将所有信息打包发送给协调器进行统一的汇总,并获取新的网络更新参数。
5.根据权利要求4所述的一种基于多策略强化学习的多目标内容存储方法,其特征在于:获取新的网络更新参数具体可以通过如下方式获取:
1)在无线网络中针对每个异构的无线基站定义出它们各自的状态空间及动作空间,采用深度强化学习的的方法,通过定义动作价值函数,进行网络参数的不断迭代,最终每个无线基站能够得到各个不同状态下的最优缓存策略的帕累托集合;
2)D3QN网络额外使用双网络机制来稳定,双网络机制采取一个延迟更新的结构完全一致的神经网络来提升算法稳定性;确保在不同的用户视频点播需求下都有最优的缓存决策实现,通过利用多个独立的D3QN网络来实现对视频传输系统不同目标的评估,不同于传统的单个网络的动作选择,额外提出一种基于Hypervolume的动作选择机制来选取多目标下的执行动作;这种动作选择机制通过评估Hypervolume的值来比较每个不同缓存决策对于帕累托前沿是否具有正向的贡献,从而筛选出对于前沿贡献最大的动作,执行该动作,并依靠这样的迭代实现最终对于帕累托前沿的逼近和收敛。
6.根据权利要求5所述的一种基于多策略强化学习的多目标内容存储方法,其特征在于:D3QN网络分别进行对两个目标的动作价值函数评估,其最后输出的动作值函数向量表示为
Figure FDA0003690424300000041
协调器首先收集所有智能体的状态和奖励构建联合状态
Figure FDA0003690424300000042
和联合动作
Figure FDA0003690424300000043
并从中然后计算出整个系统的奖励值,此外,协调器还通过混合网络计算全局动作价值函数
Figure FDA0003690424300000044
其中elu(·)表示激活函数,μ,η分别表示混合网络产生的权重和偏置,同理,
Figure FDA0003690424300000045
也易于获得。
7.根据权利要求6所述的一种基于多策略强化学习的多目标内容存储方法,其特征在于:集合奖励函数构建一个损失函数以计算全局策略更新参数,
Figure FDA0003690424300000046
训练得到的全局策略更新参数可以反向传递回无线基站群内的各个无线基站,以便于他们针对自身的神经网络用
Figure FDA0003690424300000047
进行更新,得到更好的策略。
8.根据权利要求6所述的一种基于多策略强化学习的多目标内容存储方法,其特征在于:引入一个协调器,用来指挥智能体进行策略选取,并收集不同无线基站的状态和动作,以此计算出整个视频传输系统的奖励,协调器中部署有混合网络,其包含有超网络生成网络中间层神经元的权重和偏差,同时收集各个无线基站策略执行之后的动作价值函数,进而构建损失函数计算出全局策略更新参数,并将全局策略更新参数返回给各个无线基站进行决策网络的更新。
9.根据权利要求5所述的一种基于多策略强化学习的多目标内容存储方法,其特征在于:引入基于hypervolumn的动作选择机制,其中定义动作Q值向量中非支配的Q向量为帕累托集合,
Figure FDA0003690424300000051
其中
Figure FDA0003690424300000052
表示非支配关系,并且我们针对这种非支配Q向量组成的帕累托集合,定义它的hypervolumn指标为
Figure FDA0003690424300000053
其中Λ(·)应表示勒贝格测度,因此最优动作选择是选择让hypervolume指标最大的动作,在状态s'下,我们有
Figure FDA0003690424300000054
10.根据权利要求8所述的一种基于多策略强化学习的多目标内容存储方法,其特征在于:在协调器中引入一个权重映射网络来反应当前流量下对第一个目标,即卸载传输流量的偏好,该网络以当前系统流量为输入,以第一个目标的权重为输出,其中
Figure FDA0003690424300000055
其中k和k'分别表示当前系统流量和网络流量阈值。
CN202210660932.3A 2022-06-13 2022-06-13 一种基于多策略强化学习的多目标内容存储方法 Active CN115065728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210660932.3A CN115065728B (zh) 2022-06-13 2022-06-13 一种基于多策略强化学习的多目标内容存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210660932.3A CN115065728B (zh) 2022-06-13 2022-06-13 一种基于多策略强化学习的多目标内容存储方法

Publications (2)

Publication Number Publication Date
CN115065728A true CN115065728A (zh) 2022-09-16
CN115065728B CN115065728B (zh) 2023-12-08

Family

ID=83200031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210660932.3A Active CN115065728B (zh) 2022-06-13 2022-06-13 一种基于多策略强化学习的多目标内容存储方法

Country Status (1)

Country Link
CN (1) CN115065728B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238527A (zh) * 2022-09-21 2022-10-25 水利部交通运输部国家能源局南京水利科学研究院 雨水收集系统存储容积测定方法及系统
CN115860135A (zh) * 2022-11-16 2023-03-28 中国人民解放军总医院 使用超网解决异构联邦学习的方法、设备及介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019007388A1 (en) * 2017-07-06 2019-01-10 Huawei Technologies Co., Ltd. SYSTEM AND METHOD FOR DEEP LEARNING AND WIRELESS NETWORK OPTIMIZATION USING DEEP LEARNING
WO2020000399A1 (zh) * 2018-06-29 2020-01-02 东莞理工学院 一种基于智能电网的多智能体深度强化学习代理方法
US20200160168A1 (en) * 2018-11-16 2020-05-21 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
CN111565419A (zh) * 2020-06-15 2020-08-21 河海大学常州校区 一种超密集网络中面向延迟优化的协作式边缘缓存算法
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
US20210153219A1 (en) * 2019-11-19 2021-05-20 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method for associating user equipment in a cellular network via multi-agent reinforcement learning
WO2021156516A1 (en) * 2020-02-07 2021-08-12 Deepmind Technologies Limited Multi-objective reinforcement learning using objective-specific action-value functions
CN113382059A (zh) * 2021-06-08 2021-09-10 东南大学 一种雾无线接入网中基于联邦强化学习的协作缓存方法
WO2021233053A1 (zh) * 2020-05-22 2021-11-25 华为技术有限公司 计算卸载的方法和通信装置
CN113779302A (zh) * 2021-09-09 2021-12-10 福州大学 基于值分解网络和多智能体强化学习的半分布式协作存储方法
CN113993168A (zh) * 2021-10-27 2022-01-28 东南大学 一种雾无线接入网中基于多智能体强化学习的协作缓存方法
CN114386620A (zh) * 2021-12-29 2022-04-22 北京工业大学 一种基于动作约束的离线多智能体强化学习方法
WO2022093084A1 (en) * 2020-10-28 2022-05-05 Telefonaktiebolaget Lm Ericsson (Publ) Central node and a method for reinforcement learning in a radio access network
WO2022095278A1 (zh) * 2020-11-09 2022-05-12 中国船舶重工集团公司第七一六研究所 基于qmix强化学习算法的船舶多机械臂焊点协同焊接方法
CN114598667A (zh) * 2022-03-04 2022-06-07 重庆邮电大学 一种基于联邦学习的高效设备选择与资源分配方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019007388A1 (en) * 2017-07-06 2019-01-10 Huawei Technologies Co., Ltd. SYSTEM AND METHOD FOR DEEP LEARNING AND WIRELESS NETWORK OPTIMIZATION USING DEEP LEARNING
WO2020000399A1 (zh) * 2018-06-29 2020-01-02 东莞理工学院 一种基于智能电网的多智能体深度强化学习代理方法
US20200160168A1 (en) * 2018-11-16 2020-05-21 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
US20210153219A1 (en) * 2019-11-19 2021-05-20 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method for associating user equipment in a cellular network via multi-agent reinforcement learning
WO2021156516A1 (en) * 2020-02-07 2021-08-12 Deepmind Technologies Limited Multi-objective reinforcement learning using objective-specific action-value functions
WO2021233053A1 (zh) * 2020-05-22 2021-11-25 华为技术有限公司 计算卸载的方法和通信装置
CN111565419A (zh) * 2020-06-15 2020-08-21 河海大学常州校区 一种超密集网络中面向延迟优化的协作式边缘缓存算法
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
WO2022093084A1 (en) * 2020-10-28 2022-05-05 Telefonaktiebolaget Lm Ericsson (Publ) Central node and a method for reinforcement learning in a radio access network
WO2022095278A1 (zh) * 2020-11-09 2022-05-12 中国船舶重工集团公司第七一六研究所 基于qmix强化学习算法的船舶多机械臂焊点协同焊接方法
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法
CN113382059A (zh) * 2021-06-08 2021-09-10 东南大学 一种雾无线接入网中基于联邦强化学习的协作缓存方法
CN113779302A (zh) * 2021-09-09 2021-12-10 福州大学 基于值分解网络和多智能体强化学习的半分布式协作存储方法
CN113993168A (zh) * 2021-10-27 2022-01-28 东南大学 一种雾无线接入网中基于多智能体强化学习的协作缓存方法
CN114386620A (zh) * 2021-12-29 2022-04-22 北京工业大学 一种基于动作约束的离线多智能体强化学习方法
CN114598667A (zh) * 2022-03-04 2022-06-07 重庆邮电大学 一种基于联邦学习的高效设备选择与资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YOUJIA CHEN等: "Performance Analysis of Wireless Networks with Intelligent Reflecting Surfaces", 《 2021 IEEE WIRELESS COMMUNICATIONS AND NETWORKING CONFERENCE (WCNC)》, pages 378 - 180 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238527A (zh) * 2022-09-21 2022-10-25 水利部交通运输部国家能源局南京水利科学研究院 雨水收集系统存储容积测定方法及系统
CN115238527B (zh) * 2022-09-21 2022-12-02 水利部交通运输部国家能源局南京水利科学研究院 雨水收集系统存储容积测定方法及系统
CN115860135A (zh) * 2022-11-16 2023-03-28 中国人民解放军总医院 使用超网解决异构联邦学习的方法、设备及介质
CN115860135B (zh) * 2022-11-16 2023-08-01 中国人民解放军总医院 基于超网的异构联邦学习方法、设备及介质

Also Published As

Publication number Publication date
CN115065728B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
Li et al. Deep reinforcement learning approaches for content caching in cache-enabled D2D networks
Qi et al. Knowledge-driven service offloading decision for vehicular edge computing: A deep reinforcement learning approach
Wei et al. Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning
Obayiuwana et al. Network selection in heterogeneous wireless networks using multi-criteria decision-making algorithms: a review
CN115065728A (zh) 一种基于多策略强化学习的多目标内容存储方法
CN111585816B (zh) 一种基于自适应遗传算法的任务卸载决策方法
CN111866954B (zh) 一种基于联邦学习的用户选择和资源分配方法
CN110809306A (zh) 一种基于深度强化学习的终端接入选择方法
Zhang et al. Joint optimization of cooperative edge caching and radio resource allocation in 5G-enabled massive IoT networks
CN112383922A (zh) 一种基于优先经验重放的深度强化学习频谱共享方法
CN103108382A (zh) 一种基于网络层次分析法的异构网络多属性决策方法
CN114554459B (zh) 一种近端策略优化辅助的车联网联邦学习客户端选择方法
CN109787699B (zh) 一种基于混合深度模型的无线传感器网络路由链路状态预测方法
CN113779302B (zh) 基于值分解网络和多智能体的半分布式协作存储方法
CN114896899B (zh) 一种基于信息交互的多智能体分散式决策方法及系统
CN113727306B (zh) 一种基于深度强化学习的解耦c-v2x网络切片方法
Yang et al. Deep reinforcement learning based wireless network optimization: A comparative study
CN113784410A (zh) 基于强化学习td3算法的异构无线网络垂直切换方法
Qi et al. Vehicular edge computing via deep reinforcement learning
Chua et al. Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach
CN116489712B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
Tang et al. Adaptive inference reinforcement learning for task offloading in vehicular edge computing systems
CN113993168A (zh) 一种雾无线接入网中基于多智能体强化学习的协作缓存方法
Jeong et al. Deep reinforcement learning-based task offloading decision in the time varying channel
CN116663644A (zh) 一种多压缩版本的云边端dnn协同推理加速方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant