CN111586146B - 基于概率转移深度强化学习的无线物联网资源分配方法 - Google Patents
基于概率转移深度强化学习的无线物联网资源分配方法 Download PDFInfo
- Publication number
- CN111586146B CN111586146B CN202010363929.6A CN202010363929A CN111586146B CN 111586146 B CN111586146 B CN 111586146B CN 202010363929 A CN202010363929 A CN 202010363929A CN 111586146 B CN111586146 B CN 111586146B
- Authority
- CN
- China
- Prior art keywords
- model
- decision
- state
- reward
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/51—Discovery or management thereof, e.g. service location protocol [SLP] or web services
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于概率转移深度强化学习的无线物联网资源分配方法,该方法将决策agent分布式地放在每一个边缘服务器中,这样每个agent仅需要对其所服务的用户进行决策即可,极大程度地减小了决策变量空间,还降低了决策时延,同时提出一种基于分布式部分可观测马尔科夫决策过程的服务迁移模型,克服了因为每个agent所能观测的状态信息有限,使得决策不能达到最优解的问题。
Description
技术领域
本发明涉及网络及物联网技术领域,特别涉及一种基于概率转移深度强化学习的无线物联网资源分配方法。
背景技术
MEC(Multi-access Edge Computing)是一个边缘云平台,通过与运营商网络结合(数据面功能是结合点),提供一种新的网络架构,利用无线接入网络就近提供电信用户所需IT服务和云端计算功能,从而创造出一个具备高性能、低延迟与高带宽的电信级服务环境,让消费者能够享有高质量的业务体验。
如图1所示,某一应用场景的MEC网络由N个沿固定方向行驶的汽车用户M个基站和每个基站所属的边缘服务器组成。汽车与基站之间的通信方式为无线通信,例如4G/5G网络,因此汽车可以在各个小区之间做跨区切换。基站与边缘服务器,边缘服务器之间都是由光纤连接的。每个用户都在执行连续性的任务 Ti(di,fi L,fi r,hi,δi max),其中di表示一个时刻需要处理的数据大小,fi L表示用户的计算能力(例如CPU时钟频率),fi r表示完成这个任务所需要的计算周期数,hi表示用户与所在小区基站之间的信道质量,表示完成当前任务允许的最大时延。由于用户本地的计算能力可能不足以完成任务Ti,因此需要将任务卸载至边缘服务器el执行。此时可以考虑任务卸载模型为部分卸载,即将一个任务以卸载率ai(η)卸载到边缘服务器el,剩余的1-ai(η)部分任务则同时在用户ui本地处理完成。
但在具体的应用实践中,研究人员发现,使用普通的强化学习方法对整个系统的服务迁移action进行决策需要知道整个系统的状态信息。这样的方式存在两个问题,
(1)决策变量空间会随着用户数量的增加而线性增加,使得算法难以收敛。
(2)决策变量的增加还会使得决策时延急剧增加,不能保证系统的实时性。
(3)每次决策都需要全局的信息使得系统必须有一个中心节点来实时搜集所有设备的状态信息,这无疑会增加网络的传输负担和状态信息搜索时延。
一种可行的方案是将决策agent分布式地放在每一个边缘服务器中,这样每个agent 仅需要对其所服务的用户进行决策即可,极大程度地减小了决策变量空间,还降低了决策时延。但随之而来的问题在于每个agent所能观测的状态信息有限,使得决策不能达到最优解。为了解决这些问题有需要提出了一种基于分布式部分可观测马尔科夫决策过程的服务迁移方法。
发明内容
有鉴于此,本发明的第一方面的目的是提供一种基于概率转移深度强化学习的无线物联网资源分配方法,能够解决上述问题。
本发明的第一方面的目的是通过以下技术方案实现的:
该基于概率转移深度强化学习的无线物联网资源分配方法,包括以下步骤:
步骤S1:在每个边缘服务器el中设置一个做服务迁移决策的代理服务模块agentl,该 agent l只对当前时刻与el相连接的用户进行服务迁移决策,即决策对象为集合设 agent l所能观测到的距离信息矩阵是全局观测矩阵Dτ的子集,定义为集合中的用户与所有服务器的距离,则同理可以定义边缘服务器el所观测到的任务矩阵为为全局任务矩阵Tτ的子集,定义为集合中的用户的任务信息,则每个服务器消耗少量的通信资源将自己的剩余计算资源信息广播给其他服务器,则Agentl所观测到的服务器剩余资源信息为全局的定义Agentl所能观测到的信息为
步骤S3:通过基于概率转移深度强化学习环境建模的智能服务迁移算法,得到交叉熵规划模块和环境建模模块,环境建模模块用于设计出递归状态空间模型,用于在潜在空间中预测未来的状态信息以及奖励值,所述递归状态空间模型包括环境转换模型、奖励模型和观测模型,通过环境转换模型得到循环状态空间模型:
步骤S4:在系统的部分可观测马尔科夫决策模型已知的情况下,首先用多维正态分布初始化一个策略分布Aτ:τ+K~π(μτ:τ+K,στ:τ+K),并将当前时刻的观测状态oτ输入循环状态空间模型的一个encoder模型中得到当前时刻的隐藏状态sτ;
步骤S5:通过交叉熵规划模块,采用交叉熵方法根据τ时刻的隐藏状态sτ和策略分布π(μτ,στ)采样τ时刻的actionAτ;
步骤S6:使用转换模型p(sτ|hτ)和hτ=f(hτ-1,sτ-1,Aτ-1)得到下一个时刻的隐藏状态sτ+1,同时使用reward模型p(rτ|hτ,sτ)得到当前action的环境奖励值rτ;
步骤S7:重复步骤S5和步骤S6,直到规划到第τ+K步,得到一条状态转移路径 si=sτ:τ+K+1、决策路径Ai=Aτ:τ+K以及相应的环境奖励值ri=rτ:τ+K-1,然后使用公式(1)计算该决策路径的累积奖励值,作为该决策路径的整体奖励值Ri;
步骤S9:选出其中奖励值最大的I条路径。
步骤S10:使用公式(2)和(3)更新策略分布;
步骤S11:重复步骤S4到步骤S10 J次得到最终的策略分布,取策略分布的均值序列作为最优的决策路径A*=Aτ:τ+K-1=μτ:τ+K-1,最后仅把Aτ反馈给环境执行。
特别地,所述步骤S2中,部分可观测马尔科夫决策模型的决策过程如下:
执行策略πl的目标是去最大化累积奖励值
特别地,所述步骤S3中,所述交叉熵规划模块根据当前时刻的观测状态oτ和环境模型生成一条τ到τ+K时刻的action路径Aτ:τ+K,然后根据环境模型在潜在空间中得到模型转换路径sτ:τ+K,与对应的奖励序列rτ:τ+K,重复生成多条这样的路径,然后选择奖励值最大的一条路径作为最佳规划路径,取Aτ作为当前时刻的最佳action,然后输入环境中执行,得到奖励值 rτ。将序列加入经验池中作为环境模型的训练数据集。
特别地,所述步骤S3中,所述环境转换模型包括随机转换模型和确定性转换模型,通过融合确定性模型和随机性模型得到了循环状态空间模型。
特别地,所述随机转换模型表示为:
Transition model:sτ~p(sτ|sτ-1,Aτ-1)
Observation model:oτ~p(oτ|sτ)
Reward model:rr~p(rr|sτ,Aτ)
Encoder model:sτ~q(sτ|sτ-1,Aτ-1,oτ);
所述确定性转换模型表示为:
Transition model:hτ=f(hτ-1,Aτ-1)
Observation model:oτ~p(oτ|hτ)
Reward model:rr~p(rr|hτ,Aτ)
Encoder model:hτ=f(hτ|hτ-1,Aτ-1,oτ);
所述循环状态空间模型表示为:
Deterministic state transition model:hτ=f(hτ-1,sτ-1,Aτ-1)
Stochastic state transition model:sτ~p(sτ|hτ)
Observation model:oτ~p(oτ|hτ,sτ)
Reward model:rr~p(rr|hτ,sτ)
Encoder model:sτ~q(sτ|hτ,oτ)。
本发明的第二方面的目的是提供一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面的方法。
本发明的第三方面的目的是提供一种计算机可读存储介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面的方法。
本发明的有益效果是:本发明将决策agent分布式地放在每一个边缘服务器中,这样每个agent仅需要对其所服务的用户进行决策即可,极大程度地减小了决策变量空间,还降低了决策时延,同时提出一种基于分布式部分可观测马尔科夫决策过程的服务迁移模型,克服了因为每个agent所能观测的状态信息有限,使得决策不能达到最优解的问题。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为汽车与基站之间的通信连接示意图;
图2为智能服务迁移算法的算法结构图;
图3为随机转换模型的示意图;
图4为确定性转换模型的示意图;
图5为融合的确定性模型和随机性模型得到的循环状态空间模型示意图;
图6为交叉熵规划算法的步骤示意图。
图7为一个详细的观测模型神经网络示意图。
具体实施方式
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
如图1所示,该场景当中,考虑任务卸载模型为部分卸载,即将一个任务以卸载率ai(η) 卸载到边缘服务器el,剩余的1-ai(η)部分任务则同时在用户ui本地处理完成。需要考虑的任务计算和传输模型如下:
1)本地计算模型:
2)任务卸载模型:
每个用户的任务卸载action定义为ai={ai(IP),ai(fe),ai(η)},其中ai(IP)定义为用户ui提供边缘计算服务的服务器地址。ai(fe)表示给当前任务分配的服务器计算资源比率。ai(η)表示任务卸载率。
任务总消耗时间为:
3)任务迁移模型:
由于用户ui是移动的,如果用户已经远离了当前提供计算服务的边缘服务器el,则用户与服务器之间的通信时延将会增大,使得任务的总时间ti增大。此时就需要考虑将任务从当前服务器el迁移到新的服务器el′,把迁移action也定义为 ai={ai(IP),ai(fe),ai(η)},即给用户重新分配卸载率、边缘服务器及其计算资源。这里考虑服务器把任务处理完之后直接将处理结果返回给用户,而不需要存储历史数据。因此在做任务迁移的时候只需要在当前时刻的任务处理完之后切换到新的服务器处理下一个时刻的任务即可。
在对用户ui进行任务迁移的时候必然会影响其他用户对服务器资源的使用,因此在进行任务迁移决策时需要联合所有用户进行决策得到任务迁移action A={a1,a2,...,aN}。这样得到的action才能使得整个系统的性能最优。
对任务的迁移以时序τ=0,1,...,∞进行,两个时刻之间的时隙大小定义为Δ。任务迁移决策的优化目标定义为P,其中表示τ时刻对所有用户进行任务迁移后的平均时延大小。Aτ={a1,a2,...,aN}表示τ时刻所有用户的迁移决策集合。C1表示每个用户的时延ti必须小于完成任务所允许的最大时延C2表示任务卸载率ai(η)和服务器计算资源比率ai(fe)的取值范围为[0,1]。C3限制了迁移到服务器el的所有用户分得的计算资源比率之和不能超过服务器所拥有的计算资源。
在τ时刻可以从系统中观测到状态信息其中,Dτ=[d1,d2,...,dN]T表示所有用户与所有边缘服务器的相对位置矩阵,di=[di,1,di,2,...,diL]表示用户ui分别与边缘服务器的距离信息。Tτ=[T1,T2,...,TN]T为所有用户的任务信息。为所有边缘服务器的剩余计算资源信息。然后将状态信息作为迁移决策算法的输入,得到决策Aτ。再迁移决策Aτ反馈给系统执行,则在τ+1时刻可以观测到新的状态和对上一个时刻决策Aτ的评估值 Rτ(Sτ,Aτ)。可以把系统的状态转移概率定义为P(Sτ+1|Sτ,Aτ)。因此可以把MEC系统中的服务迁移决策过程建模为一个马尔科夫决策过程(MDP)。
前述的优化问题只是针对单一时刻时一种局部优化,而对于马尔科夫决策过程,可以提出一个全局优化函数
即优化目标是找到一个决策序列A0,A1,...,Aτ使得系统的整体期望奖励值达到最大。
有鉴于此,本发明提供了一种基于概率转移深度强化学习的无线物联网资源分配方法,包括以下步骤:
步骤S1:步骤S1:在每个边缘服务器el中设置一个做服务迁移决策的代理服务模块 agentl,该agentl只对当前时刻与el相连接的用户进行服务迁移决策,即决策对象为集合设agentl为第l个agent,所能观测到的距离信息矩阵是全局观测矩阵Dτ的子集,定义为集合中的用户与所有服务器的距离,则同理可以定义边缘服务器el所观测到的任务矩阵为为全局任务矩阵Tτ的子集,定义为集合中的用户的任务信息,则每个服务器消耗少量的通信资源将自己的剩余计算资源信息广播给其他服务器,则Agent l所观测到的服务器剩余资源信息为全局的定义Agentl所能观测到的信息为
部分可观测马尔科夫决策模型的决策过程如下:
执行策略πl的目标是去最大化累积奖励值
步骤S3:通过基于概率转移深度强化学习环境建模的智能服务迁移算法(intelligent Service Migration Algorithm,简写为iSMA),得到交叉熵规划模块和环境建模模块,环境建模模块用于设计出递归状态空间模型,用于在潜在空间中预测未来的状态信息以及奖励值,所述递归状态空间模型包括环境转换模型、奖励模型和观测模型,通过环境转换模型得到循环状态空间模型:
具体而言,交叉熵规划模块根据当前时刻的观测状态oτ和环境模型生成一条τ到τ+K时刻的action路径Aτ:τ+K,然后根据环境模型在潜在空间中得到模型转换路径sτ:τ+K,与对应的奖励序列rτ:τ+K,重复生成多条这样的路径,然后选择奖励值最大的一条路径作为最佳规划路径,取Aτ作为当前时刻的最佳action,然后输入环境中执行,得到奖励值rτ。将序列加入经验池中作为环境模型的训练数据集。
步骤S4:如图6所示,在系统的部分可观测马尔科夫决策模型已知的情况下,首先用多维正态分布初始化一个策略分布Aτ:τ+K~π(μτ:τ+K,στ:τ+K),并将当前时刻的观测状态oτ输入循环状态空间模型的一个encoder模型中得到当前时刻的隐藏状态sτ;
步骤S5:通过交叉熵规划模块,采用交叉熵方法根据τ时刻的隐藏状态sτ和策略分布π(μτ,στ)采样τ时刻的actionAτ;
步骤S6:使用转换模型p(sτ|hτ)和hτ=f(hτ-1,sτ-1,Aτ-1)得到下一个时刻的隐藏状态sτ+1,同时使用reward模型p(rτ|hτ,sτ)得到当前action的环境奖励值rτ;
步骤S7:重复步骤S5和步骤S6,直到规划到第τ+K步,得到一条状态转移路径 si=sτ:τ+K+1、决策路径Ai=Aτ:τ+K以及相应的环境奖励值ri=rτ:τ+K-1,然后使用公式(1)计算该决策路径的累积奖励值,作为该决策路径的整体奖励值Ri;
步骤S9:选出其中奖励值最大的I条路径。
步骤S10:使用公式(2)和(3)更新策略分布;
步骤S11:重复步骤S4到步骤S10 J次得到最终的策略分布,取策略分布的均值序列作为最优的决策路径A*=Aτ:τ+K-1=μτ:τ+K-1,最后仅把Aτ反馈给环境执行。
需要进一步进行说明的是,如图2所示,在步骤S3中,递归状态空间模型(Recurrent State Space Model,RSSM)可以在潜在空间中预测未来的状态信息以及奖励值。整个模型包含三个部分:环境转换模型、奖励模型、观测模型。观测模型在实际规划中是不需要的,但是在模型训练阶段时不可缺少的。转换模型中的随机路径和确定性路径对于环境建模都是至关重要的。如图3所示,随机路径表示环境隐藏状态的转换是一个完全可观测的马尔科夫决策过程,即当前的隐藏状态仅由前一个状态和action所决定。环境转换模型包括随机转换模型和确定性转换模型,通过融合确定性模型和随机性模型得到了循环状态空间模型,如图5 所示。
随机转换模型可表示为:
Transition model:sτ~p(sτ|sτ-1,Aτ-1)
Observation model:oτ~p(oτ|sτ)
Reward model:rr~p(rr|sτ,Aτ)
Encoder model:sτ~q(sτ|sτ-1,Aτ-1,oτ)
这里的隐藏状态空间建模为多维高斯分布。传输模型由一个输出均值和方差向量的全连接神经网络建模。观测模型由一个输出观测状态均值的全连接神经网络建模,观测状态方差为单位对角矩阵。奖励模型由一个输出标量均值的全连接神经网络建模,奖励分布的方差为 1。
从环境中只能直接得到观测状态oτ,而模型的转换是在隐藏状态空间中进行的,因此我需要一个编码器模型q(sτ|sτ-1,Aτ-1,oτ),将观测状态转换为隐藏状态。编码器模型由一个输出隐藏状态均值和方差的全连接神经网络建模。
网络的优化目标是已知决策路径的条件下最大化观测路径和奖励路径的对数似然函数之和。
如图4所示,确定性路径表示隐藏状态的转换由前面多个时刻的隐藏状态和action所决定。
所述随机转换模型表示为:
Transition model:sτ~p(sτ|sτ-1,Aτ-1)
Observation model:oτ~p(oτ|sτ)
Reward model:rr~p(rr|sτ,Aτ)
Encoder model:sτ~q(sτ|sτ-1,Aτ-1,oτ);
所述确定性转换模型表示为:
Transition model:hτ=f(hτ-1,Aτ-1)
Observation model:oτ~p(oτ|hτ)
Reward model:rr~p(rr|hτ,Aτ)
Encoder model:hτ=f(hτ|hτ-1,Aτ-1,oτ);
所述循环状态空间模型表示为:
Deterministic state transition model:hτ=f(hτ-1,sτ-1,Aτ-1)
Stochastic state transition model:sτ~p(sτ|hτ)
Observation model:oτ~p(oτ|hτ,sτ)
Reward model:rr~p(rr|hτ,sτ)
Encoder model:sτ~q(sτ|hτ,oτ)。
这里的确定性状态建模为一个固定值,随机性状态建模为多维高斯分布。确定性状态转换模型由LSTM网络建模,hτ-1为cell state,sτ-1,Aτ-1为每个cell的输入信息。随机状态转换模型由一个全连接神经网络建模,以当前时刻的确定性状态hτ作为输入,输出随机状态的均值和方差向量。hτ中包含了上一时刻的确定性状态信息、随机状态信息和action,以此融合确定性状态信息和随机状态信息。如图7所示,观测模型是一个以随机和确定性状态信息作为输入然后输出观测状态均值的全连接神经网络,方差为单位对角矩阵。奖励模型是一个全连接神经网络输出奖励均值,奖励方差为1。此时建模编码器的全连接神经网络以当前时刻的确定性状态和观测状态为输入,输出隐藏随机状态的均值和方差。
和图5相比,图7给出了具体的信息交互和融汇方式。首先图7详细说明了从 h0->h1->h2…的时候,中间可以利用一个GRU模块(Gated Recurrent Unit)来做信息融合,(图5没有详细说信息如何合并)。其次从观察节点o1到状态s0可以用一个post 神经网络来进行特征提取。从h1->s1,可以用一个Tran神经网络来进行信息传递。从 s1->o1可以用一个obs神经网络进行信息恢复。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.基于概率转移深度强化学习的无线物联网资源分配方法,其特征在于:所述方法包括以下步骤:
步骤S1:在每个边缘服务器el中设置一个做服务迁移决策的代理服务模块agent l,该agent l只对当前时刻与el相连接的用户进行服务迁移决策,即决策对象为集合设agent l所能观测到的距离信息矩阵是全局观测矩阵Dτ的子集,定义为集合中的用户与所有服务器的距离,则同理可以定义边缘服务器el所观测到的任务矩阵为为全局任务矩阵Tτ的子集,定义为集合中的用户的任务信息,则每个服务器消耗少量的通信资源将自己的剩余计算资源信息广播给其他服务器,则agent l所观测到的服务器剩余资源信息为全局的定义agent l所能观测到的信息为
步骤S3:通过基于概率转移深度强化学习环境建模的智能服务迁移算法,得到交叉熵规划模块和环境建模模块,环境建模模块用于设计出递归状态空间模型,用于在潜在空间中预测未来的状态信息以及奖励值,所述递归状态空间模型包括环境转换模型、奖励模型和观测模型,通过环境转换模型得到循环状态空间模型;
步骤S4:在系统的部分可观测马尔科夫决策模型已知的情况下,首先用多维正态分布初始化一个策略分布Aτ:τ+K~π(μτ:τ+K,στ:τ+K),并将当前时刻的观测状态oτ输入循环状态空间模型的一个encoder模型中得到当前时刻的隐藏状态sτ;
步骤S5:通过交叉熵规划模块,采用交叉熵方法根据τ时刻的隐藏状态sτ和策略分布π(μτ,στ)采样τ时刻的action Aτ;
步骤S6:使用转换模型p(sτ|hτ)和hτ=f(hτ-1,sτ-1,Aτ-1)得到下一个时刻的隐藏状态sτ+1,同时使用reward模型p(rτ|hτ,sτ)得到当前action的环境奖励值rτ;
步骤S7:重复步骤S5和步骤S6,直到规划到第τ+K步,得到一条状态转移路径si=sτ:τ+K+1、决策路径Ai=Aτ:τ+K以及相应的环境奖励值ri=rτ:τ+K-1,然后使用公式(1)计算该决策路径的累积奖励值,作为该决策路径的整体奖励值Ri;
步骤S9:选出其中奖励值最大的I条路径;
步骤S10:使用公式(2)和(3)更新策略分布;
步骤S11:重复步骤S4到步骤S10 J次得到最终的策略分布,取策略分布的均值序列作为最优的决策路径A*=Aτ:τ+K-1=μτ:τ+K-1,最后仅把Aτ反馈给环境执行。
4.根据权利要求1所述的基于概率转移深度强化学习的无线物联网资源分配方法,其特征在于:所述步骤S3中,所述环境转换模型包括随机转换模型和确定性转换模型,通过融合确定性模型和随机性模型得到了循环状态空间模型。
5.根据权利要求4所述的基于概率转移深度强化学习的无线物联网资源分配方法,其特征在于:所述随机转换模型表示为:
Transition model:sτ~p(sτ|sτ-1,Aτ-1)
Observation model:oτ~p(oτ|sτ)
Reward model:rr~p(rr|sτ,Aτ)
Encoder model:sτ~q(sτ|sτ-1,Aτ-1,oτ)。
6.根据权利要求4所述的基于概率转移深度强化学习的无线物联网资源分配方法,其特征在于:所述确定性转换模型表示为:
Transition model:hτ=f(hτ-1,Aτ-1)
Observation model:oτ~p(oτ|hτ)
Reward model:rr~p(rr|hτ,Aτ)
Encoder model:hτ=f(hτ|hτ-1,Aτ-1,oτ)。
7.根据权利要求4所述的基于概率转移深度强化学习的无线物联网资源分配方法,其特征在于:所述循环状态空间模型表示为:
Deterministic state transition model:hτ=f(hτ-1,sτ-1,Aτ-1)
Stochastic state transition model:sτ~p(sτ|hτ)
Observation model:oτ~p(oτ|hτ,sτ)
Reward model:rr~p(rr|hτ,sτ)
Encoder model:sτ~q(sτ|hτ,oτ)。
8.一种计算机装置,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的方法。
9.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010363929.6A CN111586146B (zh) | 2020-04-30 | 2020-04-30 | 基于概率转移深度强化学习的无线物联网资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010363929.6A CN111586146B (zh) | 2020-04-30 | 2020-04-30 | 基于概率转移深度强化学习的无线物联网资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111586146A CN111586146A (zh) | 2020-08-25 |
CN111586146B true CN111586146B (zh) | 2022-04-22 |
Family
ID=72111817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010363929.6A Active CN111586146B (zh) | 2020-04-30 | 2020-04-30 | 基于概率转移深度强化学习的无线物联网资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111586146B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115987B (zh) * | 2020-08-31 | 2024-05-03 | 南京航空航天大学 | 一种基于马尔科夫决策过程的自适应系统更新与修复方法 |
CN112866939A (zh) * | 2021-01-15 | 2021-05-28 | 大连理工大学 | 一种基于边缘智能的5g-u物联网协同资源分配方法 |
CN114385359B (zh) * | 2022-01-07 | 2024-05-14 | 重庆邮电大学 | 一种物联网云边端任务时序协同方法 |
CN114928568B (zh) * | 2022-06-16 | 2023-06-09 | 中国联合网络通信集团有限公司 | 一种路由路径选择方法、装置及计算机可读存储介质 |
CN115334076A (zh) * | 2022-07-08 | 2022-11-11 | 电子科技大学 | 一种边缘服务器的服务迁移方法、系统及边缘服务器设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107592327A (zh) * | 2016-07-07 | 2018-01-16 | 普天信息技术有限公司 | 一种V2X网络中sidelink的资源分配方法以及装置 |
WO2018042002A1 (en) * | 2016-09-02 | 2018-03-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Systems and methods of managing computational resources |
CN108156226A (zh) * | 2017-12-15 | 2018-06-12 | 南京邮电大学 | 一种云雾融合的工业物联网认知能源管理系统及计算方法 |
CN110290011A (zh) * | 2019-07-03 | 2019-09-27 | 中山大学 | 边缘计算中基于Lyapunov控制优化的动态服务放置方法 |
CN110312231A (zh) * | 2019-06-28 | 2019-10-08 | 重庆邮电大学 | 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法 |
CN110505099A (zh) * | 2019-08-28 | 2019-11-26 | 重庆邮电大学 | 一种基于迁移a-c学习的服务功能链部署方法 |
CN110677858A (zh) * | 2019-10-25 | 2020-01-10 | 国家电网有限公司 | 基于物联网任务迁移周期的传输功率与计算资源分配方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294692A1 (en) * | 2006-06-16 | 2007-12-20 | Microsoft Corporation | Task Assignment Among Multiple Devices |
US11412052B2 (en) * | 2018-12-28 | 2022-08-09 | Intel Corporation | Quality of service (QoS) management in edge computing environments |
-
2020
- 2020-04-30 CN CN202010363929.6A patent/CN111586146B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107592327A (zh) * | 2016-07-07 | 2018-01-16 | 普天信息技术有限公司 | 一种V2X网络中sidelink的资源分配方法以及装置 |
WO2018042002A1 (en) * | 2016-09-02 | 2018-03-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Systems and methods of managing computational resources |
CN108156226A (zh) * | 2017-12-15 | 2018-06-12 | 南京邮电大学 | 一种云雾融合的工业物联网认知能源管理系统及计算方法 |
CN110312231A (zh) * | 2019-06-28 | 2019-10-08 | 重庆邮电大学 | 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法 |
CN110290011A (zh) * | 2019-07-03 | 2019-09-27 | 中山大学 | 边缘计算中基于Lyapunov控制优化的动态服务放置方法 |
CN110505099A (zh) * | 2019-08-28 | 2019-11-26 | 重庆邮电大学 | 一种基于迁移a-c学习的服务功能链部署方法 |
CN110677858A (zh) * | 2019-10-25 | 2020-01-10 | 国家电网有限公司 | 基于物联网任务迁移周期的传输功率与计算资源分配方法 |
Non-Patent Citations (4)
Title |
---|
Deep reinforcement learning based computation offloading and resource allocation for MEC;LI J et al;《 IEEE WCNC》;20181231;全文 * |
基于移动边缘计算任务卸载的资源分配算法研究;邵华;《中国硕士学位论文全文数据库》;20190915;全文 * |
移动边缘计算环境下的服务迁移策略设计与实现;陈建业;《中国硕士学位论文全文数据库》;20181115;全文 * |
移动边缘计算网络联合计算迁移决策与资源分配算法研究;肖骞;《中国优秀硕士学位论文全文数据库》;20190415;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111586146A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111586146B (zh) | 基于概率转移深度强化学习的无线物联网资源分配方法 | |
CN109948944B (zh) | 一种卫星任务调度方法及系统 | |
CN112685165B (zh) | 一种基于联合强化学习策略的多目标云工作流调度方法 | |
CN108122032A (zh) | 一种神经网络模型训练方法、装置、芯片和系统 | |
CN113346944A (zh) | 空天地一体化网络中时延最小化计算任务卸载方法及系统 | |
CN109819032B (zh) | 一种联合考虑基站选择与计算迁移的云机器人任务分配方法 | |
CN113064671A (zh) | 基于多智能体的边缘云可扩展任务卸载方法 | |
CN114261400B (zh) | 一种自动驾驶决策方法、装置、设备和存储介质 | |
CN112528160B (zh) | 智能推荐、模型训练方法、装置、电子设备及存储介质 | |
Shen et al. | Adaptive artificial intelligence for resource-constrained connected vehicles in cybertwin-driven 6g network | |
Rosalie et al. | Bayesian optimisation to select Rössler system parameters used in Chaotic Ant Colony Optimisation for Coverage | |
Jung et al. | Performance models for large scale multiagent systems: using distributed POMDP building blocks | |
Pereira et al. | Towards the self-regulation of personality-based social exchange processes in multiagent systems | |
CN117014389A (zh) | 算网资源配置方法及系统、电子设备、存储介质 | |
Ozalp et al. | Cooperative multi-task assignment for heterogonous UAVs | |
Rejiba et al. | Computation task assignment in vehicular fog computing: A learning approach via neighbor advice | |
CN115330556B (zh) | 充电站的信息调整模型的训练方法、装置及产品 | |
CN116149855A (zh) | 一种微服务架构下中性能资源成本优化方法及系统 | |
CN115150335B (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 | |
CN113992520B (zh) | 一种虚拟网络资源的部署方法和系统 | |
CN116089083A (zh) | 一种多目标数据中心资源调度方法 | |
CN115016911A (zh) | 面向大规模联邦学习的任务编排方法、装置、设备和介质 | |
CN115660245A (zh) | 业务编排方法及装置、电子设备、存储介质 | |
CN113240189B (zh) | 基于信誉值的动态车辆任务与算力匹配方法 | |
Zhong et al. | Multiobjective African Vulture Scheduling Algorithm in Green Mobile Edge Computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Peng Dili Inventor after: Dong Wu Inventor after: Cai Cheng Inventor before: Peng Dili |