CN111586146B - 基于概率转移深度强化学习的无线物联网资源分配方法 - Google Patents

基于概率转移深度强化学习的无线物联网资源分配方法 Download PDF

Info

Publication number
CN111586146B
CN111586146B CN202010363929.6A CN202010363929A CN111586146B CN 111586146 B CN111586146 B CN 111586146B CN 202010363929 A CN202010363929 A CN 202010363929A CN 111586146 B CN111586146 B CN 111586146B
Authority
CN
China
Prior art keywords
model
decision
state
reward
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010363929.6A
Other languages
English (en)
Other versions
CN111586146A (zh
Inventor
彭迪栎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN202010363929.6A priority Critical patent/CN111586146B/zh
Publication of CN111586146A publication Critical patent/CN111586146A/zh
Application granted granted Critical
Publication of CN111586146B publication Critical patent/CN111586146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于概率转移深度强化学习的无线物联网资源分配方法,该方法将决策agent分布式地放在每一个边缘服务器中,这样每个agent仅需要对其所服务的用户进行决策即可,极大程度地减小了决策变量空间,还降低了决策时延,同时提出一种基于分布式部分可观测马尔科夫决策过程的服务迁移模型,克服了因为每个agent所能观测的状态信息有限,使得决策不能达到最优解的问题。

Description

基于概率转移深度强化学习的无线物联网资源分配方法
技术领域
本发明涉及网络及物联网技术领域,特别涉及一种基于概率转移深度强化学习的无线物联网资源分配方法。
背景技术
MEC(Multi-access Edge Computing)是一个边缘云平台,通过与运营商网络结合(数据面功能是结合点),提供一种新的网络架构,利用无线接入网络就近提供电信用户所需IT服务和云端计算功能,从而创造出一个具备高性能、低延迟与高带宽的电信级服务环境,让消费者能够享有高质量的业务体验。
如图1所示,某一应用场景的MEC网络由N个沿固定方向行驶的汽车用户
Figure BDA0002476051660000011
M个基站
Figure BDA0002476051660000012
和每个基站所属的边缘服务器
Figure BDA0002476051660000013
组成。汽车与基站之间的通信方式为无线通信,例如4G/5G网络,因此汽车可以在各个小区之间做跨区切换。基站与边缘服务器,边缘服务器之间都是由光纤连接的。每个用户都在执行连续性的任务 Ti(di,fi L,fi r,hii max),其中di表示一个时刻需要处理的数据大小,fi L表示用户的计算能力(例如CPU时钟频率),fi r表示完成这个任务所需要的计算周期数,hi表示用户与所在小区基站之间的信道质量,
Figure BDA0002476051660000014
表示完成当前任务允许的最大时延。由于用户本地的计算能力可能不足以完成任务Ti,因此需要将任务卸载至边缘服务器el执行。此时可以考虑任务卸载模型为部分卸载,即将一个任务以卸载率ai(η)卸载到边缘服务器el,剩余的1-ai(η)部分任务则同时在用户ui本地处理完成。
但在具体的应用实践中,研究人员发现,使用普通的强化学习方法对整个系统的服务迁移action进行决策需要知道整个系统的状态信息。这样的方式存在两个问题,
(1)决策变量空间会随着用户数量的增加而线性增加,使得算法难以收敛。
(2)决策变量的增加还会使得决策时延急剧增加,不能保证系统的实时性。
(3)每次决策都需要全局的信息使得系统必须有一个中心节点来实时搜集所有设备的状态信息,这无疑会增加网络的传输负担和状态信息搜索时延。
一种可行的方案是将决策agent分布式地放在每一个边缘服务器中,这样每个agent 仅需要对其所服务的用户进行决策即可,极大程度地减小了决策变量空间,还降低了决策时延。但随之而来的问题在于每个agent所能观测的状态信息有限,使得决策不能达到最优解。为了解决这些问题有需要提出了一种基于分布式部分可观测马尔科夫决策过程的服务迁移方法。
发明内容
有鉴于此,本发明的第一方面的目的是提供一种基于概率转移深度强化学习的无线物联网资源分配方法,能够解决上述问题。
本发明的第一方面的目的是通过以下技术方案实现的:
该基于概率转移深度强化学习的无线物联网资源分配方法,包括以下步骤:
步骤S1:在每个边缘服务器el中设置一个做服务迁移决策的代理服务模块agentl,该 agent l只对当前时刻与el相连接的用户进行服务迁移决策,即决策对象为集合
Figure BDA0002476051660000021
设 agent l所能观测到的距离信息矩阵
Figure BDA0002476051660000022
是全局观测矩阵Dτ的子集,定义
Figure BDA0002476051660000023
为集合
Figure BDA0002476051660000024
中的用户
Figure BDA0002476051660000025
与所有服务器的距离,则
Figure BDA0002476051660000026
同理可以定义边缘服务器el所观测到的任务矩阵为
Figure BDA0002476051660000027
为全局任务矩阵Tτ的子集,定义
Figure BDA0002476051660000028
为集合
Figure BDA0002476051660000029
中的用户
Figure BDA00024760516600000210
的任务信息,则
Figure BDA00024760516600000211
每个服务器消耗少量的通信资源将自己的剩余计算资源信息广播给其他服务器,则Agentl所观测到的服务器剩余资源信息为全局的
Figure BDA00024760516600000212
定义Agentl所能观测到的信息为
Figure BDA00024760516600000213
步骤S2:Agentl根据历史观测信息
Figure BDA00024760516600000214
和历史决策信息
Figure BDA00024760516600000215
作出当前时刻的决策
Figure BDA00024760516600000216
Figure BDA00024760516600000217
是全局actionAτ的子集,得到部分可观测马尔科夫决策模型;
步骤S3:通过基于概率转移深度强化学习环境建模的智能服务迁移算法,得到交叉熵规划模块和环境建模模块,环境建模模块用于设计出递归状态空间模型,用于在潜在空间中预测未来的状态信息以及奖励值,所述递归状态空间模型包括环境转换模型、奖励模型和观测模型,通过环境转换模型得到循环状态空间模型:
步骤S4:在系统的部分可观测马尔科夫决策模型已知的情况下,首先用多维正态分布初始化一个策略分布Aτ:τ+K~π(μτ:τ+Kτ:τ+K),并将当前时刻的观测状态oτ输入循环状态空间模型的一个encoder模型中得到当前时刻的隐藏状态sτ
步骤S5:通过交叉熵规划模块,采用交叉熵方法根据τ时刻的隐藏状态sτ和策略分布π(μττ)采样τ时刻的actionAτ
步骤S6:使用转换模型p(sτ|hτ)和hτ=f(hτ-1,sτ-1,Aτ-1)得到下一个时刻的隐藏状态sτ+1,同时使用reward模型p(rτ|hτ,sτ)得到当前action的环境奖励值rτ
步骤S7:重复步骤S5和步骤S6,直到规划到第τ+K步,得到一条状态转移路径 si=sτ:τ+K+1、决策路径Ai=Aτ:τ+K以及相应的环境奖励值ri=rτ:τ+K-1,然后使用公式(1)计算该决策路径的累积奖励值,作为该决策路径的整体奖励值Ri
Figure BDA0002476051660000031
步骤S8:回到步骤S4的隐藏状态sτ,再重复步骤S5和步骤S6 I次得到I条决策路径和相应的累积奖励值集合
Figure BDA0002476051660000032
步骤S9:选出其中奖励值最大的I条路径。
Figure BDA0002476051660000033
步骤S10:使用公式(2)和(3)更新策略分布;
Figure BDA0002476051660000034
Figure BDA0002476051660000035
步骤S11:重复步骤S4到步骤S10 J次得到最终的策略分布,取策略分布的均值序列作为最优的决策路径A*=Aτ:τ+K-1=μτ:τ+K-1,最后仅把Aτ反馈给环境执行。
特别地,所述步骤S2中,部分可观测马尔科夫决策模型的决策过程如下:
转换模型:
Figure BDA0002476051660000036
观察状态:
Figure BDA0002476051660000037
奖励模型:
Figure BDA0002476051660000038
策略:
Figure BDA0002476051660000039
译码器:
Figure BDA00024760516600000310
执行策略πl的目标是去最大化累积奖励值
Figure BDA00024760516600000311
特别地,所述步骤S3中,所述交叉熵规划模块根据当前时刻的观测状态oτ和环境模型生成一条τ到τ+K时刻的action路径Aτ:τ+K,然后根据环境模型在潜在空间中得到模型转换路径sτ:τ+K,与对应的奖励序列rτ:τ+K,重复生成多条这样的路径,然后选择奖励值最大的一条路径作为最佳规划路径,取Aτ作为当前时刻的最佳action,然后输入环境中执行,得到奖励值 rτ。将序列
Figure BDA0002476051660000041
加入经验池中作为环境模型的训练数据集。
特别地,所述步骤S3中,所述环境转换模型包括随机转换模型和确定性转换模型,通过融合确定性模型和随机性模型得到了循环状态空间模型。
特别地,所述随机转换模型表示为:
Transition model:sτ~p(sτ|sτ-1,Aτ-1)
Observation model:oτ~p(oτ|sτ)
Reward model:rr~p(rr|sτ,Aτ)
Encoder model:sτ~q(sτ|sτ-1,Aτ-1,oτ);
所述确定性转换模型表示为:
Transition model:hτ=f(hτ-1,Aτ-1)
Observation model:oτ~p(oτ|hτ)
Reward model:rr~p(rr|hτ,Aτ)
Encoder model:hτ=f(hτ|hτ-1,Aτ-1,oτ);
所述循环状态空间模型表示为:
Deterministic state transition model:hτ=f(hτ-1,sτ-1,Aτ-1)
Stochastic state transition model:sτ~p(sτ|hτ)
Observation model:oτ~p(oτ|hτ,sτ)
Reward model:rr~p(rr|hτ,sτ)
Encoder model:sτ~q(sτ|hτ,oτ)。
本发明的第二方面的目的是提供一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面的方法。
本发明的第三方面的目的是提供一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面的方法。
本发明的有益效果是:本发明将决策agent分布式地放在每一个边缘服务器中,这样每个agent仅需要对其所服务的用户进行决策即可,极大程度地减小了决策变量空间,还降低了决策时延,同时提出一种基于分布式部分可观测马尔科夫决策过程的服务迁移模型,克服了因为每个agent所能观测的状态信息有限,使得决策不能达到最优解的问题。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为汽车与基站之间的通信连接示意图;
图2为智能服务迁移算法的算法结构图;
图3为随机转换模型的示意图;
图4为确定性转换模型的示意图;
图5为融合的确定性模型和随机性模型得到的循环状态空间模型示意图;
图6为交叉熵规划算法的步骤示意图。
图7为一个详细的观测模型神经网络示意图。
具体实施方式
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
如图1所示,该场景当中,考虑任务卸载模型为部分卸载,即将一个任务以卸载率ai(η) 卸载到边缘服务器el,剩余的1-ai(η)部分任务则同时在用户ui本地处理完成。需要考虑的任务计算和传输模型如下:
1)本地计算模型:
Figure BDA0002476051660000051
2)任务卸载模型:
每个用户的任务卸载action定义为ai={ai(IP),ai(fe),ai(η)},其中ai(IP)定义为用户ui提供边缘计算服务的服务器地址。ai(fe)表示给当前任务分配的服务器计算资源比率。ai(η)表示任务卸载率。
假设用户与基站之间的信道是瑞利信道:
Figure BDA0002476051660000061
无线通信传输时间为:
Figure BDA0002476051660000062
基站与服务器之间通过光纤连接,传输速率为
Figure BDA0002476051660000063
并且满足
Figure BDA0002476051660000064
光纤通信传输时间为:
Figure BDA0002476051660000065
服务器端计算时间为:
Figure BDA0002476051660000066
任务总消耗时间为:
Figure BDA0002476051660000067
3)任务迁移模型:
首先定义连接到基站bj的所有用户的集合为Bj={ui,j},其中ui,j表示用户ui与基站 bj相连。然后定义服务器el服务的所有用户的集合为
Figure BDA0002476051660000068
其中
Figure BDA0002476051660000069
表示由服务器el所服务的用户ui
由于用户ui是移动的,如果用户已经远离了当前提供计算服务的边缘服务器el,则用户与服务器之间的通信时延
Figure BDA00024760516600000610
将会增大,使得任务的总时间ti增大。此时就需要考虑将任务从当前服务器el迁移到新的服务器el′,把迁移action也定义为 ai={ai(IP),ai(fe),ai(η)},即给用户重新分配卸载率、边缘服务器及其计算资源。这里考虑服务器把任务处理完之后直接将处理结果返回给用户,而不需要存储历史数据。因此在做任务迁移的时候只需要在当前时刻的任务处理完之后切换到新的服务器处理下一个时刻的任务即可。
在对用户ui进行任务迁移的时候必然会影响其他用户对服务器资源的使用,因此在进行任务迁移决策时需要联合所有用户
Figure BDA00024760516600000611
进行决策得到任务迁移action A={a1,a2,...,aN}。这样得到的action才能使得整个系统的性能最优。
对任务的迁移以时序τ=0,1,...,∞进行,两个时刻之间的时隙大小定义为Δ。任务迁移决策的优化目标定义为P,其中
Figure BDA00024760516600000612
表示τ时刻对所有用户进行任务迁移后的平均时延大小。Aτ={a1,a2,...,aN}表示τ时刻所有用户的迁移决策集合。C1表示每个用户的时延ti必须小于完成任务所允许的最大时延
Figure BDA0002476051660000071
C2表示任务卸载率ai(η)和服务器计算资源比率ai(fe)的取值范围为[0,1]。C3限制了迁移到服务器el的所有用户
Figure BDA0002476051660000072
分得的计算资源比率之和不能超过服务器所拥有的计算资源。
P:
Figure BDA0002476051660000073
s.t.C1:
Figure BDA0002476051660000074
C2:
Figure BDA0002476051660000075
C3:
Figure BDA0002476051660000076
在τ时刻可以从系统中观测到状态信息
Figure BDA0002476051660000077
其中,Dτ=[d1,d2,...,dN]T表示所有用户与所有边缘服务器的相对位置矩阵,di=[di,1,di,2,...,diL]表示用户ui分别与边缘服务器
Figure BDA0002476051660000078
的距离信息。Tτ=[T1,T2,...,TN]T为所有用户的任务信息。
Figure BDA0002476051660000079
为所有边缘服务器的剩余计算资源信息。然后将状态信息
Figure BDA00024760516600000710
作为迁移决策算法的输入,得到决策Aτ。再迁移决策Aτ反馈给系统执行,则在τ+1时刻可以观测到新的状态
Figure BDA00024760516600000711
和对上一个时刻决策Aτ的评估值 Rτ(Sτ,Aτ)。可以把系统的状态转移概率定义为P(Sτ+1|Sτ,Aτ)。因此可以把MEC系统中的服务迁移决策过程建模为一个马尔科夫决策过程(MDP)。
前述的优化问题只是针对单一时刻时一种局部优化,而对于马尔科夫决策过程,可以提出一个全局优化函数
Figure BDA00024760516600000712
即优化目标是找到一个决策序列A0,A1,...,Aτ使得系统的整体期望奖励值达到最大。
有鉴于此,本发明提供了一种基于概率转移深度强化学习的无线物联网资源分配方法,包括以下步骤:
步骤S1:步骤S1:在每个边缘服务器el中设置一个做服务迁移决策的代理服务模块 agentl,该agentl只对当前时刻与el相连接的用户进行服务迁移决策,即决策对象为集合
Figure BDA0002476051660000081
设agentl为第l个agent,所能观测到的距离信息矩阵
Figure BDA0002476051660000082
是全局观测矩阵Dτ的子集,定义
Figure BDA0002476051660000083
为集合
Figure BDA0002476051660000084
中的用户
Figure BDA0002476051660000085
与所有服务器的距离,则
Figure BDA0002476051660000086
同理可以定义边缘服务器el所观测到的任务矩阵为
Figure BDA0002476051660000087
为全局任务矩阵Tτ的子集,定义
Figure BDA0002476051660000088
为集合
Figure BDA0002476051660000089
中的用户
Figure BDA00024760516600000810
的任务信息,则
Figure BDA00024760516600000811
每个服务器消耗少量的通信资源将自己的剩余计算资源信息广播给其他服务器,则Agent l所观测到的服务器剩余资源信息为全局的
Figure BDA00024760516600000812
定义Agentl所能观测到的信息为
Figure BDA00024760516600000813
步骤S2:Agentl根据历史观测信息
Figure BDA00024760516600000814
和历史决策信息
Figure BDA00024760516600000815
作出当前时刻的决策
Figure BDA00024760516600000816
Figure BDA00024760516600000817
是全局actionAτ的子集,得到部分可观测马尔科夫决策模型;
部分可观测马尔科夫决策模型的决策过程如下:
转换模型:
Figure BDA00024760516600000818
观察状态:
Figure BDA00024760516600000819
奖励模型:
Figure BDA00024760516600000820
策略:
Figure BDA00024760516600000821
译码器:
Figure BDA00024760516600000822
执行策略πl的目标是去最大化累积奖励值
Figure BDA00024760516600000823
步骤S3:通过基于概率转移深度强化学习环境建模的智能服务迁移算法(intelligent Service Migration Algorithm,简写为iSMA),得到交叉熵规划模块和环境建模模块,环境建模模块用于设计出递归状态空间模型,用于在潜在空间中预测未来的状态信息以及奖励值,所述递归状态空间模型包括环境转换模型、奖励模型和观测模型,通过环境转换模型得到循环状态空间模型:
具体而言,交叉熵规划模块根据当前时刻的观测状态oτ和环境模型生成一条τ到τ+K时刻的action路径Aτ:τ+K,然后根据环境模型在潜在空间中得到模型转换路径sτ:τ+K,与对应的奖励序列rτ:τ+K,重复生成多条这样的路径,然后选择奖励值最大的一条路径作为最佳规划路径,取Aτ作为当前时刻的最佳action,然后输入环境中执行,得到奖励值rτ。将序列
Figure DEST_PATH_FDA0002476051650000031
加入经验池中作为环境模型的训练数据集。
步骤S4:如图6所示,在系统的部分可观测马尔科夫决策模型已知的情况下,首先用多维正态分布初始化一个策略分布Aτ:τ+K~π(μτ:τ+Kτ:τ+K),并将当前时刻的观测状态oτ输入循环状态空间模型的一个encoder模型中得到当前时刻的隐藏状态sτ
步骤S5:通过交叉熵规划模块,采用交叉熵方法根据τ时刻的隐藏状态sτ和策略分布π(μττ)采样τ时刻的actionAτ
步骤S6:使用转换模型p(sτ|hτ)和hτ=f(hτ-1,sτ-1,Aτ-1)得到下一个时刻的隐藏状态sτ+1,同时使用reward模型p(rτ|hτ,sτ)得到当前action的环境奖励值rτ
步骤S7:重复步骤S5和步骤S6,直到规划到第τ+K步,得到一条状态转移路径 si=sτ:τ+K+1、决策路径Ai=Aτ:τ+K以及相应的环境奖励值ri=rτ:τ+K-1,然后使用公式(1)计算该决策路径的累积奖励值,作为该决策路径的整体奖励值Ri
Figure BDA0002476051660000091
步骤S8:回到步骤S4的隐藏状态sτ,再重复步骤S5和步骤S6 I次得到I条决策路径和相应的累积奖励值集合
Figure BDA0002476051660000092
步骤S9:选出其中奖励值最大的I条路径。
Figure BDA0002476051660000093
步骤S10:使用公式(2)和(3)更新策略分布;
Figure BDA0002476051660000094
Figure BDA0002476051660000095
步骤S11:重复步骤S4到步骤S10 J次得到最终的策略分布,取策略分布的均值序列作为最优的决策路径A*=Aτ:τ+K-1=μτ:τ+K-1,最后仅把Aτ反馈给环境执行。
需要进一步进行说明的是,如图2所示,在步骤S3中,递归状态空间模型(Recurrent State Space Model,RSSM)可以在潜在空间中预测未来的状态信息以及奖励值。整个模型包含三个部分:环境转换模型、奖励模型、观测模型。观测模型在实际规划中是不需要的,但是在模型训练阶段时不可缺少的。转换模型中的随机路径和确定性路径对于环境建模都是至关重要的。如图3所示,随机路径表示环境隐藏状态的转换是一个完全可观测的马尔科夫决策过程,即当前的隐藏状态仅由前一个状态和action所决定。环境转换模型包括随机转换模型和确定性转换模型,通过融合确定性模型和随机性模型得到了循环状态空间模型,如图5 所示。
随机转换模型可表示为:
Transition model:sτ~p(sτ|sτ-1,Aτ-1)
Observation model:oτ~p(oτ|sτ)
Reward model:rr~p(rr|sτ,Aτ)
Encoder model:sτ~q(sτ|sτ-1,Aτ-1,oτ)
这里的隐藏状态空间建模为多维高斯分布。传输模型由一个输出均值和方差向量的全连接神经网络建模。观测模型由一个输出观测状态均值的全连接神经网络建模,观测状态方差为单位对角矩阵。奖励模型由一个输出标量均值的全连接神经网络建模,奖励分布的方差为 1。
从环境中只能直接得到观测状态oτ,而模型的转换是在隐藏状态空间中进行的,因此我需要一个编码器模型q(sτ|sτ-1,Aτ-1,oτ),将观测状态转换为隐藏状态。编码器模型由一个输出隐藏状态均值和方差的全连接神经网络建模。
网络的优化目标是已知决策路径的条件下最大化观测路径和奖励路径的对数似然函数之和。
Figure BDA0002476051660000101
如图4所示,确定性路径表示隐藏状态的转换由前面多个时刻的隐藏状态和action所决定。
所述随机转换模型表示为:
Transition model:sτ~p(sτ|sτ-1,Aτ-1)
Observation model:oτ~p(oτ|sτ)
Reward model:rr~p(rr|sτ,Aτ)
Encoder model:sτ~q(sτ|sτ-1,Aτ-1,oτ);
所述确定性转换模型表示为:
Transition model:hτ=f(hτ-1,Aτ-1)
Observation model:oτ~p(oτ|hτ)
Reward model:rr~p(rr|hτ,Aτ)
Encoder model:hτ=f(hτ|hτ-1,Aτ-1,oτ);
所述循环状态空间模型表示为:
Deterministic state transition model:hτ=f(hτ-1,sτ-1,Aτ-1)
Stochastic state transition model:sτ~p(sτ|hτ)
Observation model:oτ~p(oτ|hτ,sτ)
Reward model:rr~p(rr|hτ,sτ)
Encoder model:sτ~q(sτ|hτ,oτ)。
这里的确定性状态建模为一个固定值,随机性状态建模为多维高斯分布。确定性状态转换模型由LSTM网络建模,hτ-1为cell state,sτ-1,Aτ-1为每个cell的输入信息。随机状态转换模型由一个全连接神经网络建模,以当前时刻的确定性状态hτ作为输入,输出随机状态的均值和方差向量。hτ中包含了上一时刻的确定性状态信息、随机状态信息和action,以此融合确定性状态信息和随机状态信息。如图7所示,观测模型是一个以随机和确定性状态信息作为输入然后输出观测状态均值的全连接神经网络,方差为单位对角矩阵。奖励模型是一个全连接神经网络输出奖励均值,奖励方差为1。此时建模编码器的全连接神经网络以当前时刻的确定性状态和观测状态为输入,输出隐藏随机状态的均值和方差。
和图5相比,图7给出了具体的信息交互和融汇方式。首先图7详细说明了从 h0->h1->h2…的时候,中间可以利用一个GRU模块(Gated Recurrent Unit)来做信息融合,(图5没有详细说信息如何合并)。其次从观察节点o1到状态s0可以用一个post 神经网络来进行特征提取。从h1->s1,可以用一个Tran神经网络来进行信息传递。从 s1->o1可以用一个obs神经网络进行信息恢复。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.基于概率转移深度强化学习的无线物联网资源分配方法,其特征在于:所述方法包括以下步骤:
步骤S1:在每个边缘服务器el中设置一个做服务迁移决策的代理服务模块agent l,该agent l只对当前时刻与el相连接的用户进行服务迁移决策,即决策对象为集合
Figure FDA0002476051650000011
设agent l所能观测到的距离信息矩阵
Figure FDA0002476051650000012
是全局观测矩阵Dτ的子集,定义
Figure FDA0002476051650000013
为集合
Figure FDA0002476051650000014
中的用户
Figure FDA0002476051650000015
与所有服务器的距离,则
Figure FDA0002476051650000016
同理可以定义边缘服务器el所观测到的任务矩阵为
Figure FDA0002476051650000017
为全局任务矩阵Tτ的子集,定义
Figure FDA0002476051650000018
为集合
Figure FDA0002476051650000019
中的用户
Figure FDA00024760516500000110
的任务信息,则
Figure FDA00024760516500000111
每个服务器消耗少量的通信资源将自己的剩余计算资源信息广播给其他服务器,则agent l所观测到的服务器剩余资源信息为全局的
Figure FDA00024760516500000112
定义agent l所能观测到的信息为
Figure FDA00024760516500000113
步骤S2:agent l根据历史观测信息
Figure FDA00024760516500000114
和历史决策信息
Figure FDA00024760516500000115
作出当前时刻的决策
Figure FDA00024760516500000116
Figure FDA00024760516500000117
是全局action Aτ的子集,得到部分可观测马尔科夫决策模型;
步骤S3:通过基于概率转移深度强化学习环境建模的智能服务迁移算法,得到交叉熵规划模块和环境建模模块,环境建模模块用于设计出递归状态空间模型,用于在潜在空间中预测未来的状态信息以及奖励值,所述递归状态空间模型包括环境转换模型、奖励模型和观测模型,通过环境转换模型得到循环状态空间模型;
步骤S4:在系统的部分可观测马尔科夫决策模型已知的情况下,首先用多维正态分布初始化一个策略分布Aτ:τ+K~π(μτ:τ+Kτ:τ+K),并将当前时刻的观测状态oτ输入循环状态空间模型的一个encoder模型中得到当前时刻的隐藏状态sτ
步骤S5:通过交叉熵规划模块,采用交叉熵方法根据τ时刻的隐藏状态sτ和策略分布π(μττ)采样τ时刻的action Aτ
步骤S6:使用转换模型p(sτ|hτ)和hτ=f(hτ-1,sτ-1,Aτ-1)得到下一个时刻的隐藏状态sτ+1,同时使用reward模型p(rτ|hτ,sτ)得到当前action的环境奖励值rτ
步骤S7:重复步骤S5和步骤S6,直到规划到第τ+K步,得到一条状态转移路径si=sτ:τ+K+1、决策路径Ai=Aτ:τ+K以及相应的环境奖励值ri=rτ:τ+K-1,然后使用公式(1)计算该决策路径的累积奖励值,作为该决策路径的整体奖励值Ri
Figure FDA0002476051650000021
步骤S8:回到步骤S4的隐藏状态sτ,再重复步骤S5和步骤S6 I次得到I条决策路径和相应的累积奖励值集合
Figure FDA0002476051650000022
步骤S9:选出其中奖励值最大的I条路径;
Figure 1
步骤S10:使用公式(2)和(3)更新策略分布;
Figure FDA0002476051650000024
Figure FDA0002476051650000025
步骤S11:重复步骤S4到步骤S10 J次得到最终的策略分布,取策略分布的均值序列作为最优的决策路径A*=Aτ:τ+K-1=μτ:τ+K-1,最后仅把Aτ反馈给环境执行。
2.根据权利要求1所述的基于概率转移深度强化学习的无线物联网资源分配方法,其特征在于:所述步骤S2中,部分可观测马尔科夫决策模型的决策过程如下:
转换模型:
Figure FDA0002476051650000026
观察状态:
Figure FDA0002476051650000027
奖励模型:
Figure FDA0002476051650000028
策略:
Figure FDA0002476051650000029
译码器:
Figure FDA00024760516500000210
执行策略πl的目标是去最大化累积奖励值
Figure FDA00024760516500000211
3.根据权利要求1或2所述的基于概率转移深度强化学习的无线物联网资源分配方法,其特征在于:所述步骤S3中,所述交叉熵规划模块根据当前时刻的观测状态oτ和环境模型生成一条τ到τ+K时刻的action路径Aτ:τ+K,然后根据环境模型在潜在空间中得到模型转换路径sτ:τ+K,与对应的奖励序列rτ:τ+K,重复生成多条这样的路径,然后选择奖励值最大的一条路径作为最佳规划路径,取Aτ作为当前时刻的最佳action,然后输入环境中执行,得到奖励值rτ,将序列
Figure FDA0002476051650000031
加入经验池中作为环境模型的训练数据集。
4.根据权利要求1所述的基于概率转移深度强化学习的无线物联网资源分配方法,其特征在于:所述步骤S3中,所述环境转换模型包括随机转换模型和确定性转换模型,通过融合确定性模型和随机性模型得到了循环状态空间模型。
5.根据权利要求4所述的基于概率转移深度强化学习的无线物联网资源分配方法,其特征在于:所述随机转换模型表示为:
Transition model:sτ~p(sτ|sτ-1,Aτ-1)
Observation model:oτ~p(oτ|sτ)
Reward model:rr~p(rr|sτ,Aτ)
Encoder model:sτ~q(sτ|sτ-1,Aτ-1,oτ)。
6.根据权利要求4所述的基于概率转移深度强化学习的无线物联网资源分配方法,其特征在于:所述确定性转换模型表示为:
Transition model:hτ=f(hτ-1,Aτ-1)
Observation model:oτ~p(oτ|hτ)
Reward model:rr~p(rr|hτ,Aτ)
Encoder model:hτ=f(hτ|hτ-1,Aτ-1,oτ)。
7.根据权利要求4所述的基于概率转移深度强化学习的无线物联网资源分配方法,其特征在于:所述循环状态空间模型表示为:
Deterministic state transition model:hτ=f(hτ-1,sτ-1,Aτ-1)
Stochastic state transition model:sτ~p(sτ|hτ)
Observation model:oτ~p(oτ|hτ,sτ)
Reward model:rr~p(rr|hτ,sτ)
Encoder model:sτ~q(sτ|hτ,oτ)。
8.一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的方法。
9.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的方法。
CN202010363929.6A 2020-04-30 2020-04-30 基于概率转移深度强化学习的无线物联网资源分配方法 Active CN111586146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010363929.6A CN111586146B (zh) 2020-04-30 2020-04-30 基于概率转移深度强化学习的无线物联网资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010363929.6A CN111586146B (zh) 2020-04-30 2020-04-30 基于概率转移深度强化学习的无线物联网资源分配方法

Publications (2)

Publication Number Publication Date
CN111586146A CN111586146A (zh) 2020-08-25
CN111586146B true CN111586146B (zh) 2022-04-22

Family

ID=72111817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010363929.6A Active CN111586146B (zh) 2020-04-30 2020-04-30 基于概率转移深度强化学习的无线物联网资源分配方法

Country Status (1)

Country Link
CN (1) CN111586146B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115987B (zh) * 2020-08-31 2024-05-03 南京航空航天大学 一种基于马尔科夫决策过程的自适应系统更新与修复方法
CN112866939A (zh) * 2021-01-15 2021-05-28 大连理工大学 一种基于边缘智能的5g-u物联网协同资源分配方法
CN114385359B (zh) * 2022-01-07 2024-05-14 重庆邮电大学 一种物联网云边端任务时序协同方法
CN114928568B (zh) * 2022-06-16 2023-06-09 中国联合网络通信集团有限公司 一种路由路径选择方法、装置及计算机可读存储介质
CN115334076A (zh) * 2022-07-08 2022-11-11 电子科技大学 一种边缘服务器的服务迁移方法、系统及边缘服务器设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107592327A (zh) * 2016-07-07 2018-01-16 普天信息技术有限公司 一种V2X网络中sidelink的资源分配方法以及装置
WO2018042002A1 (en) * 2016-09-02 2018-03-08 Telefonaktiebolaget Lm Ericsson (Publ) Systems and methods of managing computational resources
CN108156226A (zh) * 2017-12-15 2018-06-12 南京邮电大学 一种云雾融合的工业物联网认知能源管理系统及计算方法
CN110290011A (zh) * 2019-07-03 2019-09-27 中山大学 边缘计算中基于Lyapunov控制优化的动态服务放置方法
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN110505099A (zh) * 2019-08-28 2019-11-26 重庆邮电大学 一种基于迁移a-c学习的服务功能链部署方法
CN110677858A (zh) * 2019-10-25 2020-01-10 国家电网有限公司 基于物联网任务迁移周期的传输功率与计算资源分配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294692A1 (en) * 2006-06-16 2007-12-20 Microsoft Corporation Task Assignment Among Multiple Devices
US11412052B2 (en) * 2018-12-28 2022-08-09 Intel Corporation Quality of service (QoS) management in edge computing environments

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107592327A (zh) * 2016-07-07 2018-01-16 普天信息技术有限公司 一种V2X网络中sidelink的资源分配方法以及装置
WO2018042002A1 (en) * 2016-09-02 2018-03-08 Telefonaktiebolaget Lm Ericsson (Publ) Systems and methods of managing computational resources
CN108156226A (zh) * 2017-12-15 2018-06-12 南京邮电大学 一种云雾融合的工业物联网认知能源管理系统及计算方法
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN110290011A (zh) * 2019-07-03 2019-09-27 中山大学 边缘计算中基于Lyapunov控制优化的动态服务放置方法
CN110505099A (zh) * 2019-08-28 2019-11-26 重庆邮电大学 一种基于迁移a-c学习的服务功能链部署方法
CN110677858A (zh) * 2019-10-25 2020-01-10 国家电网有限公司 基于物联网任务迁移周期的传输功率与计算资源分配方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Deep reinforcement learning based computation offloading and resource allocation for MEC;LI J et al;《 IEEE WCNC》;20181231;全文 *
基于移动边缘计算任务卸载的资源分配算法研究;邵华;《中国硕士学位论文全文数据库》;20190915;全文 *
移动边缘计算环境下的服务迁移策略设计与实现;陈建业;《中国硕士学位论文全文数据库》;20181115;全文 *
移动边缘计算网络联合计算迁移决策与资源分配算法研究;肖骞;《中国优秀硕士学位论文全文数据库》;20190415;全文 *

Also Published As

Publication number Publication date
CN111586146A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111586146B (zh) 基于概率转移深度强化学习的无线物联网资源分配方法
CN109948944B (zh) 一种卫星任务调度方法及系统
CN112685165B (zh) 一种基于联合强化学习策略的多目标云工作流调度方法
CN108122032A (zh) 一种神经网络模型训练方法、装置、芯片和系统
CN113346944A (zh) 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN109819032B (zh) 一种联合考虑基站选择与计算迁移的云机器人任务分配方法
CN113064671A (zh) 基于多智能体的边缘云可扩展任务卸载方法
CN114261400B (zh) 一种自动驾驶决策方法、装置、设备和存储介质
CN112528160B (zh) 智能推荐、模型训练方法、装置、电子设备及存储介质
Shen et al. Adaptive artificial intelligence for resource-constrained connected vehicles in cybertwin-driven 6g network
Rosalie et al. Bayesian optimisation to select Rössler system parameters used in Chaotic Ant Colony Optimisation for Coverage
Jung et al. Performance models for large scale multiagent systems: using distributed POMDP building blocks
Pereira et al. Towards the self-regulation of personality-based social exchange processes in multiagent systems
CN117014389A (zh) 算网资源配置方法及系统、电子设备、存储介质
Ozalp et al. Cooperative multi-task assignment for heterogonous UAVs
Rejiba et al. Computation task assignment in vehicular fog computing: A learning approach via neighbor advice
CN115330556B (zh) 充电站的信息调整模型的训练方法、装置及产品
CN116149855A (zh) 一种微服务架构下中性能资源成本优化方法及系统
CN115150335B (zh) 一种基于深度强化学习的最优流量分割的方法和系统
CN113992520B (zh) 一种虚拟网络资源的部署方法和系统
CN116089083A (zh) 一种多目标数据中心资源调度方法
CN115016911A (zh) 面向大规模联邦学习的任务编排方法、装置、设备和介质
CN115660245A (zh) 业务编排方法及装置、电子设备、存储介质
CN113240189B (zh) 基于信誉值的动态车辆任务与算力匹配方法
Zhong et al. Multiobjective African Vulture Scheduling Algorithm in Green Mobile Edge Computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Peng Dili

Inventor after: Dong Wu

Inventor after: Cai Cheng

Inventor before: Peng Dili