CN111586146B

CN111586146B - 基于概率转移深度强化学习的无线物联网资源分配方法

Info

Publication number: CN111586146B
Application number: CN202010363929.6A
Authority: CN
Inventors: 彭迪栎
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2022-04-22
Anticipated expiration: 2040-04-30
Also published as: CN111586146A

Abstract

本发明公开了一种基于概率转移深度强化学习的无线物联网资源分配方法，该方法将决策agent分布式地放在每一个边缘服务器中，这样每个agent仅需要对其所服务的用户进行决策即可，极大程度地减小了决策变量空间，还降低了决策时延，同时提出一种基于分布式部分可观测马尔科夫决策过程的服务迁移模型，克服了因为每个agent所能观测的状态信息有限，使得决策不能达到最优解的问题。

Description

基于概率转移深度强化学习的无线物联网资源分配方法

技术领域

本发明涉及网络及物联网技术领域，特别涉及一种基于概率转移深度强化学习的无线物联网资源分配方法。

背景技术

MEC(Multi-access Edge Computing)是一个边缘云平台，通过与运营商网络结合(数据面功能是结合点)，提供一种新的网络架构，利用无线接入网络就近提供电信用户所需IT服务和云端计算功能，从而创造出一个具备高性能、低延迟与高带宽的电信级服务环境，让消费者能够享有高质量的业务体验。

如图1所示，某一应用场景的MEC网络由N个沿固定方向行驶的汽车用户

M个基站

和每个基站所属的边缘服务器

组成。汽车与基站之间的通信方式为无线通信，例如4G/5G网络，因此汽车可以在各个小区之间做跨区切换。基站与边缘服务器，边缘服务器之间都是由光纤连接的。每个用户都在执行连续性的任务 T_i(d_i,f_i ^L,f_i ^r,h_i,δ_i ^max),其中d_i表示一个时刻需要处理的数据大小，f_i ^L表示用户的计算能力(例如CPU时钟频率)，f_i ^r表示完成这个任务所需要的计算周期数，h_i表示用户与所在小区基站之间的信道质量，

表示完成当前任务允许的最大时延。由于用户本地的计算能力可能不足以完成任务T_i，因此需要将任务卸载至边缘服务器e_l执行。此时可以考虑任务卸载模型为部分卸载，即将一个任务以卸载率a_i(η)卸载到边缘服务器e_l，剩余的1-a_i(η)部分任务则同时在用户u_i本地处理完成。

但在具体的应用实践中，研究人员发现，使用普通的强化学习方法对整个系统的服务迁移action进行决策需要知道整个系统的状态信息。这样的方式存在两个问题，

(1)决策变量空间会随着用户数量的增加而线性增加，使得算法难以收敛。

(2)决策变量的增加还会使得决策时延急剧增加，不能保证系统的实时性。

(3)每次决策都需要全局的信息使得系统必须有一个中心节点来实时搜集所有设备的状态信息，这无疑会增加网络的传输负担和状态信息搜索时延。

一种可行的方案是将决策agent分布式地放在每一个边缘服务器中，这样每个agent 仅需要对其所服务的用户进行决策即可，极大程度地减小了决策变量空间，还降低了决策时延。但随之而来的问题在于每个agent所能观测的状态信息有限，使得决策不能达到最优解。为了解决这些问题有需要提出了一种基于分布式部分可观测马尔科夫决策过程的服务迁移方法。

发明内容

有鉴于此，本发明的第一方面的目的是提供一种基于概率转移深度强化学习的无线物联网资源分配方法，能够解决上述问题。

本发明的第一方面的目的是通过以下技术方案实现的：

该基于概率转移深度强化学习的无线物联网资源分配方法，包括以下步骤：

步骤S1：在每个边缘服务器e_l中设置一个做服务迁移决策的代理服务模块agentl，该 agent l只对当前时刻与e_l相连接的用户进行服务迁移决策，即决策对象为集合

设 agent l所能观测到的距离信息矩阵

是全局观测矩阵D_τ的子集，定义

为集合

中的用户

与所有服务器的距离，则

同理可以定义边缘服务器e_l所观测到的任务矩阵为

为全局任务矩阵T_τ的子集，定义

为集合

中的用户

的任务信息，则

每个服务器消耗少量的通信资源将自己的剩余计算资源信息广播给其他服务器，则Agentl所观测到的服务器剩余资源信息为全局的

定义Agentl所能观测到的信息为

步骤S2：Agentl根据历史观测信息

和历史决策信息

作出当前时刻的决策

是全局actionA_τ的子集，得到部分可观测马尔科夫决策模型；

步骤S3：通过基于概率转移深度强化学习环境建模的智能服务迁移算法，得到交叉熵规划模块和环境建模模块，环境建模模块用于设计出递归状态空间模型，用于在潜在空间中预测未来的状态信息以及奖励值，所述递归状态空间模型包括环境转换模型、奖励模型和观测模型，通过环境转换模型得到循环状态空间模型：

步骤S4：在系统的部分可观测马尔科夫决策模型已知的情况下，首先用多维正态分布初始化一个策略分布A_τ:τ+K～π(μ_τ:τ+K,σ_τ:τ+K)，并将当前时刻的观测状态o_τ输入循环状态空间模型的一个encoder模型中得到当前时刻的隐藏状态s_τ；

步骤S5：通过交叉熵规划模块，采用交叉熵方法根据τ时刻的隐藏状态s_τ和策略分布π(μ_τ,σ_τ)采样τ时刻的actionA_τ；

步骤S6：使用转换模型p(s_τ|h_τ)和h_τ＝f(h_τ-1,s_τ-1,A_τ-1)得到下一个时刻的隐藏状态s_τ+1，同时使用reward模型p(r_τ|h_τ,s_τ)得到当前action的环境奖励值r_τ；

步骤S7：重复步骤S5和步骤S6，直到规划到第τ+K步，得到一条状态转移路径 sⁱ＝s_τ:τ+K+1、决策路径Aⁱ＝A_τ:τ+K以及相应的环境奖励值rⁱ＝r_τ:τ+K-1,然后使用公式(1)计算该决策路径的累积奖励值，作为该决策路径的整体奖励值Rⁱ；

步骤S8：回到步骤S4的隐藏状态s_τ，再重复步骤S5和步骤S6 I次得到I条决策路径和相应的累积奖励值集合

步骤S9：选出其中奖励值最大的I条路径。

步骤S10：使用公式(2)和(3)更新策略分布；

步骤S11：重复步骤S4到步骤S10 J次得到最终的策略分布，取策略分布的均值序列作为最优的决策路径A^*＝A_τ:τ+K-1＝μ_τ:τ+K-1，最后仅把A_τ反馈给环境执行。

特别地，所述步骤S2中，部分可观测马尔科夫决策模型的决策过程如下：

转换模型:

观察状态:

奖励模型:

策略:

译码器:

执行策略π^l的目标是去最大化累积奖励值

特别地，所述步骤S3中，所述交叉熵规划模块根据当前时刻的观测状态o_τ和环境模型生成一条τ到τ+K时刻的action路径A_τ:τ+K，然后根据环境模型在潜在空间中得到模型转换路径s_τ:τ+K，与对应的奖励序列r_τ:τ+K，重复生成多条这样的路径，然后选择奖励值最大的一条路径作为最佳规划路径，取A_τ作为当前时刻的最佳action，然后输入环境中执行，得到奖励值 r_τ。将序列

加入经验池中作为环境模型的训练数据集。

特别地，所述步骤S3中，所述环境转换模型包括随机转换模型和确定性转换模型，通过融合确定性模型和随机性模型得到了循环状态空间模型。

特别地，所述随机转换模型表示为：

Transition model:s_τ～p(s_τ|s_τ-1,A_τ-1)

Observation model:o_τ～p(o_τ|s_τ)

Reward model:r_r～p(r_r|s_τ,A_τ)

Encoder model：s_τ～q(s_τ|s_τ-1,A_τ-1,o_τ)；

所述确定性转换模型表示为：

Transition model:h_τ＝f(h_τ-1,A_τ-1)

Observation model:o_τ～p(o_τ|h_τ)

Reward model:r_r～p(r_r|h_τ,A_τ)

Encoder model：h_τ＝f(h_τ|h_τ-1,A_τ-1,o_τ)；

所述循环状态空间模型表示为：

Deterministic state transition model:h_τ＝f(h_τ-1,s_τ-1,A_τ-1)

Stochastic state transition model:s_τ～p(s_τ|h_τ)

Observation model:o_τ～p(o_τ|h_τ,s_τ)

Reward model:r_r～p(r_r|h_τ,s_τ)

Encoder model：s_τ～q(s_τ|h_τ,o_τ)。

本发明的第二方面的目的是提供一种计算机装置，包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面的方法。

本发明的第三方面的目的是提供一种计算机可读存储介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面的方法。

本发明的有益效果是：本发明将决策agent分布式地放在每一个边缘服务器中，这样每个agent仅需要对其所服务的用户进行决策即可，极大程度地减小了决策变量空间，还降低了决策时延，同时提出一种基于分布式部分可观测马尔科夫决策过程的服务迁移模型，克服了因为每个agent所能观测的状态信息有限，使得决策不能达到最优解的问题。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为汽车与基站之间的通信连接示意图；

图2为智能服务迁移算法的算法结构图；

图3为随机转换模型的示意图；

图4为确定性转换模型的示意图；

图5为融合的确定性模型和随机性模型得到的循环状态空间模型示意图；

图6为交叉熵规划算法的步骤示意图。

图7为一个详细的观测模型神经网络示意图。

具体实施方式

以下将参照附图，对本发明的优选实施例进行详细的描述。应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

如图1所示，该场景当中，考虑任务卸载模型为部分卸载，即将一个任务以卸载率a_i(η) 卸载到边缘服务器e_l，剩余的1-a_i(η)部分任务则同时在用户u_i本地处理完成。需要考虑的任务计算和传输模型如下：

1)本地计算模型：

2)任务卸载模型：

每个用户的任务卸载action定义为a_i＝{a_i(IP),a_i(f^e),a_i(η)}，其中a_i(IP)定义为用户u_i提供边缘计算服务的服务器地址。a_i(f^e)表示给当前任务分配的服务器计算资源比率。a_i(η)表示任务卸载率。

假设用户与基站之间的信道是瑞利信道：

无线通信传输时间为：

基站与服务器之间通过光纤连接，传输速率为

并且满足

光纤通信传输时间为：

服务器端计算时间为：

任务总消耗时间为：

3)任务迁移模型：

首先定义连接到基站b_j的所有用户的集合为B_j＝{u_i,j}，其中u_i,j表示用户u_i与基站 b_j相连。然后定义服务器e_l服务的所有用户的集合为

其中

表示由服务器e_l所服务的用户u_i。

由于用户u_i是移动的，如果用户已经远离了当前提供计算服务的边缘服务器e_l，则用户与服务器之间的通信时延

将会增大，使得任务的总时间t_i增大。此时就需要考虑将任务从当前服务器e_l迁移到新的服务器e_l′，把迁移action也定义为 a_i＝{a_i(IP),a_i(f^e),a_i(η)}，即给用户重新分配卸载率、边缘服务器及其计算资源。这里考虑服务器把任务处理完之后直接将处理结果返回给用户，而不需要存储历史数据。因此在做任务迁移的时候只需要在当前时刻的任务处理完之后切换到新的服务器处理下一个时刻的任务即可。

在对用户u_i进行任务迁移的时候必然会影响其他用户对服务器资源的使用，因此在进行任务迁移决策时需要联合所有用户

进行决策得到任务迁移action A＝{a₁,a₂,...,a_N}。这样得到的action才能使得整个系统的性能最优。

对任务的迁移以时序τ＝0,1,...,∞进行，两个时刻之间的时隙大小定义为Δ。任务迁移决策的优化目标定义为P,其中

表示τ时刻对所有用户进行任务迁移后的平均时延大小。A_τ＝{a₁,a₂,...,a_N}表示τ时刻所有用户的迁移决策集合。C₁表示每个用户的时延t_i必须小于完成任务所允许的最大时延

C₂表示任务卸载率a_i(η)和服务器计算资源比率a_i(f^e)的取值范围为[0,1]。C₃限制了迁移到服务器e_l的所有用户

分得的计算资源比率之和不能超过服务器所拥有的计算资源。

P:

s.t.C₁:

C₂:

C₃:

在τ时刻可以从系统中观测到状态信息

其中，D_τ＝[d₁,d₂,...,d_N]^T表示所有用户与所有边缘服务器的相对位置矩阵，d_i＝[d_i,1,d_i,2,...,d_iL]表示用户u_i分别与边缘服务器

的距离信息。T_τ＝[T₁,T₂,...,T_N]^T为所有用户的任务信息。

为所有边缘服务器的剩余计算资源信息。然后将状态信息

作为迁移决策算法的输入，得到决策A_τ。再迁移决策A_τ反馈给系统执行，则在τ+1时刻可以观测到新的状态

和对上一个时刻决策A_τ的评估值 R_τ(S_τ,A_τ)。可以把系统的状态转移概率定义为P(S_τ+1|S_τ,A_τ)。因此可以把MEC系统中的服务迁移决策过程建模为一个马尔科夫决策过程(MDP)。

前述的优化问题只是针对单一时刻时一种局部优化，而对于马尔科夫决策过程，可以提出一个全局优化函数

即优化目标是找到一个决策序列A₀,A₁,...,A_τ使得系统的整体期望奖励值达到最大。

有鉴于此，本发明提供了一种基于概率转移深度强化学习的无线物联网资源分配方法，包括以下步骤：

步骤S1：步骤S1：在每个边缘服务器e_l中设置一个做服务迁移决策的代理服务模块 agentl，该agentl只对当前时刻与e_l相连接的用户进行服务迁移决策，即决策对象为集合

设agentl为第l个agent，所能观测到的距离信息矩阵

是全局观测矩阵D_τ的子集，定义

为集合

中的用户

与所有服务器的距离，则

同理可以定义边缘服务器e_l所观测到的任务矩阵为

为全局任务矩阵T_τ的子集，定义

为集合

中的用户

的任务信息，则

每个服务器消耗少量的通信资源将自己的剩余计算资源信息广播给其他服务器，则Agent l所观测到的服务器剩余资源信息为全局的

定义Agentl所能观测到的信息为

步骤S2：Agentl根据历史观测信息

和历史决策信息

作出当前时刻的决策

是全局actionA_τ的子集，得到部分可观测马尔科夫决策模型；

部分可观测马尔科夫决策模型的决策过程如下：

转换模型:

观察状态:

奖励模型:

策略:

译码器:

执行策略π^l的目标是去最大化累积奖励值

步骤S3：通过基于概率转移深度强化学习环境建模的智能服务迁移算法(intelligent Service Migration Algorithm，简写为iSMA)，得到交叉熵规划模块和环境建模模块，环境建模模块用于设计出递归状态空间模型，用于在潜在空间中预测未来的状态信息以及奖励值，所述递归状态空间模型包括环境转换模型、奖励模型和观测模型，通过环境转换模型得到循环状态空间模型：

具体而言，交叉熵规划模块根据当前时刻的观测状态o_τ和环境模型生成一条τ到τ+K时刻的action路径A_τ:τ+K，然后根据环境模型在潜在空间中得到模型转换路径s_τ:τ+K，与对应的奖励序列r_τ:τ+K，重复生成多条这样的路径，然后选择奖励值最大的一条路径作为最佳规划路径，取A_τ作为当前时刻的最佳action，然后输入环境中执行，得到奖励值r_τ。将序列

加入经验池中作为环境模型的训练数据集。

步骤S4：如图6所示，在系统的部分可观测马尔科夫决策模型已知的情况下，首先用多维正态分布初始化一个策略分布A_τ:τ+K～π(μ_τ:τ+K,σ_τ:τ+K)，并将当前时刻的观测状态o_τ输入循环状态空间模型的一个encoder模型中得到当前时刻的隐藏状态s_τ；

步骤S9：选出其中奖励值最大的I条路径。

步骤S10：使用公式(2)和(3)更新策略分布；

需要进一步进行说明的是，如图2所示，在步骤S3中，递归状态空间模型(Recurrent State Space Model,RSSM)可以在潜在空间中预测未来的状态信息以及奖励值。整个模型包含三个部分：环境转换模型、奖励模型、观测模型。观测模型在实际规划中是不需要的，但是在模型训练阶段时不可缺少的。转换模型中的随机路径和确定性路径对于环境建模都是至关重要的。如图3所示，随机路径表示环境隐藏状态的转换是一个完全可观测的马尔科夫决策过程，即当前的隐藏状态仅由前一个状态和action所决定。环境转换模型包括随机转换模型和确定性转换模型，通过融合确定性模型和随机性模型得到了循环状态空间模型，如图5 所示。

随机转换模型可表示为：

Transition model:s_τ～p(s_τ|s_τ-1,A_τ-1)

Observation model:o_τ～p(o_τ|s_τ)

Reward model:r_r～p(r_r|s_τ,A_τ)

Encoder model：s_τ～q(s_τ|s_τ-1,A_τ-1,o_τ)

这里的隐藏状态空间建模为多维高斯分布。传输模型由一个输出均值和方差向量的全连接神经网络建模。观测模型由一个输出观测状态均值的全连接神经网络建模，观测状态方差为单位对角矩阵。奖励模型由一个输出标量均值的全连接神经网络建模，奖励分布的方差为 1。

从环境中只能直接得到观测状态o_τ，而模型的转换是在隐藏状态空间中进行的，因此我需要一个编码器模型q(s_τ|s_τ-1,A_τ-1,o_τ)，将观测状态转换为隐藏状态。编码器模型由一个输出隐藏状态均值和方差的全连接神经网络建模。

网络的优化目标是已知决策路径的条件下最大化观测路径和奖励路径的对数似然函数之和。

如图4所示，确定性路径表示隐藏状态的转换由前面多个时刻的隐藏状态和action所决定。

所述随机转换模型表示为：

Transition model:s_τ～p(s_τ|s_τ-1,A_τ-1)

Observation model:o_τ～p(o_τ|s_τ)

Reward model:r_r～p(r_r|s_τ,A_τ)

Encoder model：s_τ～q(s_τ|s_τ-1,A_τ-1,o_τ)；

所述确定性转换模型表示为：

Transition model:h_τ＝f(h_τ-1,A_τ-1)

Observation model:o_τ～p(o_τ|h_τ)

Reward model:r_r～p(r_r|h_τ,A_τ)

Encoder model：h_τ＝f(h_τ|h_τ-1,A_τ-1,o_τ)；

所述循环状态空间模型表示为：

Deterministic state transition model:h_τ＝f(h_τ-1,s_τ-1,A_τ-1)

Stochastic state transition model:s_τ～p(s_τ|h_τ)

Observation model:o_τ～p(o_τ|h_τ,s_τ)

Reward model:r_r～p(r_r|h_τ,s_τ)

Encoder model：s_τ～q(s_τ|h_τ,o_τ)。

这里的确定性状态建模为一个固定值，随机性状态建模为多维高斯分布。确定性状态转换模型由LSTM网络建模，h_τ-1为cell state，s_τ-1,A_τ-1为每个cell的输入信息。随机状态转换模型由一个全连接神经网络建模，以当前时刻的确定性状态h_τ作为输入，输出随机状态的均值和方差向量。h_τ中包含了上一时刻的确定性状态信息、随机状态信息和action，以此融合确定性状态信息和随机状态信息。如图7所示，观测模型是一个以随机和确定性状态信息作为输入然后输出观测状态均值的全连接神经网络，方差为单位对角矩阵。奖励模型是一个全连接神经网络输出奖励均值，奖励方差为1。此时建模编码器的全连接神经网络以当前时刻的确定性状态和观测状态为输入，输出隐藏随机状态的均值和方差。

和图5相比，图7给出了具体的信息交互和融汇方式。首先图7详细说明了从 h0->h1->h2…的时候，中间可以利用一个GRU模块(Gated Recurrent Unit)来做信息融合，(图5没有详细说信息如何合并)。其次从观察节点o1到状态s0可以用一个post 神经网络来进行特征提取。从h1->s1，可以用一个Tran神经网络来进行信息传递。从 s1->o1可以用一个obs神经网络进行信息恢复。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于概率转移深度强化学习的无线物联网资源分配方法，其特征在于：所述方法包括以下步骤：

步骤S1：在每个边缘服务器e_l中设置一个做服务迁移决策的代理服务模块agent l，该agent l只对当前时刻与e_l相连接的用户进行服务迁移决策，即决策对象为集合

设agent l所能观测到的距离信息矩阵

是全局观测矩阵D_τ的子集，定义

为集合

中的用户

与所有服务器的距离，则

同理可以定义边缘服务器e_l所观测到的任务矩阵为

为全局任务矩阵T_τ的子集，定义

为集合

中的用户

的任务信息，则

定义agent l所能观测到的信息为

步骤S2：agent l根据历史观测信息

和历史决策信息

作出当前时刻的决策

是全局action A_τ的子集，得到部分可观测马尔科夫决策模型；

步骤S3：通过基于概率转移深度强化学习环境建模的智能服务迁移算法，得到交叉熵规划模块和环境建模模块，环境建模模块用于设计出递归状态空间模型，用于在潜在空间中预测未来的状态信息以及奖励值，所述递归状态空间模型包括环境转换模型、奖励模型和观测模型，通过环境转换模型得到循环状态空间模型；

步骤S5：通过交叉熵规划模块，采用交叉熵方法根据τ时刻的隐藏状态s_τ和策略分布π(μ_τ,σ_τ)采样τ时刻的action A_τ；

步骤S7：重复步骤S5和步骤S6，直到规划到第τ+K步，得到一条状态转移路径sⁱ＝s_τ:τ+K+1、决策路径Aⁱ＝A_τ:τ+K以及相应的环境奖励值rⁱ＝r_τ:τ+K-1,然后使用公式(1)计算该决策路径的累积奖励值，作为该决策路径的整体奖励值Rⁱ；

步骤S9：选出其中奖励值最大的I条路径；

步骤S10：使用公式(2)和(3)更新策略分布；

2.根据权利要求1所述的基于概率转移深度强化学习的无线物联网资源分配方法，其特征在于：所述步骤S2中，部分可观测马尔科夫决策模型的决策过程如下：

转换模型:

观察状态:

奖励模型:

策略:

译码器:

执行策略π^l的目标是去最大化累积奖励值

3.根据权利要求1或2所述的基于概率转移深度强化学习的无线物联网资源分配方法，其特征在于：所述步骤S3中，所述交叉熵规划模块根据当前时刻的观测状态o_τ和环境模型生成一条τ到τ+K时刻的action路径A_τ:τ+K，然后根据环境模型在潜在空间中得到模型转换路径s_τ:τ+K，与对应的奖励序列r_τ:τ+K，重复生成多条这样的路径，然后选择奖励值最大的一条路径作为最佳规划路径，取A_τ作为当前时刻的最佳action，然后输入环境中执行，得到奖励值r_τ，将序列

加入经验池中作为环境模型的训练数据集。

4.根据权利要求1所述的基于概率转移深度强化学习的无线物联网资源分配方法，其特征在于：所述步骤S3中，所述环境转换模型包括随机转换模型和确定性转换模型，通过融合确定性模型和随机性模型得到了循环状态空间模型。

5.根据权利要求4所述的基于概率转移深度强化学习的无线物联网资源分配方法，其特征在于：所述随机转换模型表示为：

Transition model:s_τ～p(s_τ|s_τ-1,A_τ-1)

Observation model:o_τ～p(o_τ|s_τ)

Reward model:r_r～p(r_r|s_τ,A_τ)

Encoder model：s_τ～q(s_τ|s_τ-1,A_τ-1,o_τ)。

6.根据权利要求4所述的基于概率转移深度强化学习的无线物联网资源分配方法，其特征在于：所述确定性转换模型表示为：

Transition model:h_τ＝f(h_τ-1,A_τ-1)

Observation model:o_τ～p(o_τ|h_τ)

Reward model:r_r～p(r_r|h_τ,A_τ)

Encoder model：h_τ＝f(h_τ|h_τ-1,A_τ-1,o_τ)。

7.根据权利要求4所述的基于概率转移深度强化学习的无线物联网资源分配方法，其特征在于：所述循环状态空间模型表示为：

Deterministic state transition model:h_τ＝f(h_τ-1,s_τ-1,A_τ-1)

Stochastic state transition model:s_τ～p(s_τ|h_τ)

Observation model:o_τ～p(o_τ|h_τ,s_τ)

Reward model:r_r～p(r_r|h_τ,s_τ)

Encoder model：s_τ～q(s_τ|h_τ,o_τ)。

8.一种计算机装置，包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述的方法。

9.一种计算机可读存储介质，其上储存有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的方法。