CN114727316A

CN114727316A - 一种基于深度确定性策略的物联网传输方法以及装置

Info

Publication number: CN114727316A
Application number: CN202210319016.3A
Authority: CN
Inventors: 吴琼; 朱洪彪; 茅正冲
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-07-08
Anticipated expiration: 2042-03-29
Also published as: CN114727316B

Abstract

本发明公开了一种基于深度确定性策略的物联网传输方法、装置、设备以及计算机可读存储介质包括：基于物联网系统模型建立信息年龄模型和能耗模型；以最小化的信息年龄和能耗为优化目标，以基站和物联网设备的采样决策和发射功率为优化变量，建立了优化问题；将优化问题中的采样决策和发射功率两个优化变量简化为只有发射功率一个优化变量，建立状态空间、动作空间以及奖励函数，得到深度强化学习框架；利用DDPG算法得到最优传输功率分配策略。本发明所提供的方法，通过DDPG算法解决物联网系统中传输功率的时效性和能耗的问题，求得物联网设备的最优发射功率策略，以及最小的信息年龄和能耗。

Description

一种基于深度确定性策略的物联网传输方法以及装置

技术领域

本发明涉及物联网技术领域，特别是涉及一种基于深度确定性策略的物联网传输方法、装置、设备以及计算机可读存储介质。

背景技术

物联网(Internet of Things，IoT)是连接物理世界与信息与通信科技(Information and Communication,ICT)的代表部分。分析师预测在2025年，物联网工业相关的经济体量可以达到11兆美元，物联网设备数目预测会达到5000亿。到2030年，物联网可以影响整个经济体系。

有一种典型的物联网系统构架，包含三层结构，即感知层，网络层和应用层。其中感知层包含装有传感器的的物联网设备(IoT device，IoTD)，传感器可以采样关于物理特征的信息，如湿度，温度，车辆的路径或者速度。

在网络层，可以采用多输入多输出非正交多址接入(Multi-input Multi-outputand Non-orthogonal Multiple Access,MIMO-NOMA)技术，以提高频谱效益以及信道容量。具体来说，每个物联网设备同时地接入信道共享整个频谱和未划分的带宽，并传输到一个多天线的在应用层的接收器。但是，因为同时接入的物联网设备之间的干扰和随机衰落，信道状态是具有不去确定性的。另外，采用串行干扰消除(Successive InterferenceCancellation，SIC)于MIMO-NOMA信号接收端的解码过程，串行干扰消除将接收信号的功率以降序的方式依次解码接收信号，并将其他物联网设备的信号作为干扰，而这个过程又会进一步的增加不确定性。比如，如果一个物联网设备的发射器以较高的发射功率发射，其会被优先解码而其他设备的信号会被作为干扰，太多的干扰会降低传输效率，另一方面，如果一个物联网设备的发射器以较低的发射功率发射，其会被在其他有更高接收功率的物联网设备解码完后解码，虽然没有太多干扰，但是因为其发射功率较低，仍然传输效率较低。所以物联网设备以不同的发射功率通过具有不确定性的MIMO-NOMA信道和串行干扰消除过程发射信息时，会导致不同的传输效率，因此传输效率和功率与时效性和能耗相关，进而由MIMO-NOMA和串行干扰消除过程带来的不确定性会影响时效性和能耗。

根据解码后的信息，应用层可以提供各种服务。比如应用层可以从解码后的信息中提取控制决策。这些控制决策需要传输信息被接受时的时效性去确保控制决策的准确度。信息年龄(Age of Information，AoI)可以作为性能指标去衡量接收信息的时效性。区别于传统的性能指标衡量如队列时延、传输时延和吞吐量发射端的时效性，信息年龄衡量从发射端到接收端的信息的新鲜程度，其从信息被采样的时刻开始计时到信息被接收的时刻。如果信息年龄较大，说明由应用层接收的信息比较老旧，而从中获取的控制决策可能会不够准确。另外，许多物联网设备是有能量限制的，因此设计一个功率传输功率和采样机制考虑到MIMO-NOMA物联网系统的不确定性去保证较低的信息年龄和能耗。

综上所述可以看出，如何设计物联网设备与基站之间的传输功率和采样决策，以最小化MIMO-NOMA物联网系统中物联网设备的信息年龄和能耗是目前有待解决的问题。

发明内容

本发明的目的是提供一种基于深度确定性策略的物联网传输方法、装置、设备以及计算机可读存储介质，以现有技术中未采用信息年龄和能耗去调节物联网设备与基站之间的传输功率和采样决策。

为解决上述技术问题，本发明提供一种基于深度确定性策略的物联网传输方法，包括：

基于物联网系统模型建立基站与物联网设备之间的网络模型、信息年龄和能耗模型；

其中，所述信息年龄模型根据所述基站在各个时隙成功接收到所有物联网设备采样并发射新鲜信息包的平均加和信息年龄的而建立；

所述能耗模型根据所述所有物联网设备在各个时隙采样、生成以及发射所述新鲜信息包所需能耗的平均加和而建立；

以最小化所述所有物联网设备信息年龄和能耗的平均加权和为优化目标，以所述所有物联网设备采样决策和发射功率为优化变量，建立优化问题；

基于采样决策和发射功率之间的关系定理，将以所述所有物联网设备的采样决策变量和发射功率为优化变量的优化问题简化为仅以所述所有物联网设备发射功率为优化变量的优化问题，定义状态空间、动作空间以及奖励函数，建立深度强化学习框架；

利用DDPG算法求解所述所有物联网设备的最优发射功率策略；

其中，所述采样决策和发射功率之间的关系定理为：给定物联网设备m在时隙t的最优发射功率

则所述物联网设备m在时隙t的最优采样决策为：

式中，C_m，t，1＝γ_eC_s-γ_au_m，t(φ_m，t-1+τ)，γ_e和γ_a是非负的权重因子，φ_m，t-1为所述物联网设备m在时隙t-1的信息年龄，τ为每个时隙的时隙间隔，u_m，t为物联网设备在时隙t的传输采样决策，C_s为采样生成新鲜信息包的能耗。

优选地，所述物联网系统模型包括：

将所述物联网设备发射器通过MIMO-NOMA信道传输到所述基站的时间划分为T个等长的时隙，每个时隙的间隙时间为τ，时隙的集合记为

其中，任意时隙t的开始，所述基站通过发送请求告知所述物联网设备采样决策s_t＝{s_1，t，…，s_m，t，…，s_M，t}和发射功率p_t＝{p_1，t，…，p_m，t，…，p_M，t}，基站接收到传输包后采用串行干扰消除的方式对接收到的信号进行解码；

其中，s_m，t，p_m，t为物联网设备

在时隙t的采样决策和发射功率，s_m，t＝1代表所述物联网设备m在时隙t被所述基站选中采样新鲜信息，s_m，t＝0，则不采样，然后所述物联网m设备根据传输功率p_m，t去传输包。优选地，

所述基站与物联网设备之间的网络模型包括：

所述物联网设备m在时隙t与所述基站的信道矢量为：

其中，h_r为所述基站与所述物联网设备通信距离为1米时的参照信道增益，d_m为所述基站和所述物联网设备m之间的通信距离，η为路径损耗指数，

为随机小尺度衰落信道增益；

式中，ρ_m为归一化信道相关系数，e(t)为服从复高斯分布的误差向量；

则所述基站接收到的信号为：

其中，cm为偏差为1的复数信号，

为方差为

的高斯白噪声；

所述基站接收到的所述物联网设备m信号为：Γ_m，t(p_m，t)＝p_m，t||h_m(t)||²；

所述物联网设备m的信噪比为：

其中，

为接收信号弱于物联网设备m的其他物联网设备信号集合，

勾未解码的信号集合；

所述物联网设备m在时隙t的传输速率由香农公式计算为：

π_m，t(p_m，t)＝W log₂(1+γ_m，t(p_m，t))；

其中，W为所述物联网系统模型的宽带。

优选地，所述根据所述基站在时隙t接收到所有物联网设备采样并发射信息的新鲜度建立所述所有物联网设备平均加和的信息年龄模型包括：

所述物联网设备m在时隙t的信息年龄为：

其中，如果所述物联网设备m在时隙t采样新鲜信息即s_m，t＝1，则在时隙t的起始生成一个包，φ_m，t减少到0；如果不采样，即s_m，t＝0，则φ_m，t相比于φ_m，t-1增加τ；

所述物联网设备在时隙t传输表达式为：

式中，Q_m为所述基站在一个时隙内需要接受的包的尺寸，令u_m，t＝1表示所述物联网设备m在时隙t的传输成功，u_m，t＝0表示所述物联网设备m在时隙t的传输失败；

所述物联网设备m在所述基站的信息年龄的表达式为：

式中，l_m，t为所述物联网设备m在时隙t的传输时延，可以计算为

所述所有物联网设备m的平均加和信息年龄为：

优选地，

所述能耗模型根据所述所有物联网设备在各个时隙采样、生成以及发射所述新鲜信息包所需能耗的平均加和而建立包括：

所述物联网设备m在时隙t的能耗定义为：

ε_m，t(s_m，t，p_m，t)＝s_m，tC_s+p_m，tl_m，t；

其中，C_s为采样生成新鲜信息包的能耗。，p_m，tl_m，t为传输包的能耗；

所述所有物联网设备的平均加和能耗为：

优选地，所述以最小化所述所有物联网设备信息年龄和能耗的平均加权和为优化目标，以所述所有物联网设备采样决策和发射功率为优化变量，建立优化问题包括：

以最小化所述所有物联网设备的信息年龄和能耗的加权平均加和，以所述所有物联网设备采样决策s_t和发射功率p_t为优化变量，建立的优化问题为：

其中，γ_a和γ_e是非负的权重因子。

优选地，所述基于采样决策和发射功率之间的关系定理，将以所述所有物联网设备的采样决策变量和发射功率为优化变量的优化问题简化为仅以所述所有物联网设备发射功率为优化变量的优化问题，定义状态空间、动作空间以及奖励函数，建立深度强化学习框架包括：

所述采样决策和发射功率之间的关系定理：给定

所述物联网设备m在时隙t的最优采样决策

为：

其中，C_m，t，1＝γ_eC_s-γ_au_m，t(φ_m，t-1+τ)；

则所述优化问题可以简化为：

并定义所有物联网设备的发生功率p_t为动作空间，其中，C_m，t，1＝γ_eC_s-γ_au_m，t(φ_m，t-1+τ)；

利用时隙t-1的所述物联网设备m在所述基站处是否采样u_m，t-1、信噪比γ_m，t-1以及所述物联网设备在所述基站处的信息年龄Φ_m，t-1，表征所述基站对所述物联网设备m在时隙t观察而得到的状态空间o_m，t＝[u_m，t-1，γ_m，t-1，Φ_m，t-1]，则所述基站对所述所有物联网设备在时隙t的状态空间为o_t＝[o_1，t，…，o_m，t，…，o_M，t]；

建立所述物联网设备时隙t的奖励函数

所述物联网系统模型长期折扣奖励的期望函数为：

其中，β∈[0，1]是折扣因子，p_t＝μ(o_t)代表时隙t的动作p_t是根据策略在μ在当前是时隙下的状态o_t确定的；

构建所述所有物联网设备服从策略μ_θ(o_t|θ)在状态o_t和动作p_t下的动作价值函数

优选地，利用DDPG算法求解所述所有物联网设备的最优发射功率策略包括：

S801：随机初始化actor网络参数θ及critic网络参数ζ，将θ和ζ赋值给θ′和ζ′，以完成target actor网络参数θ′和target critic的网络参数的初始化ζ′，建立经验回放缓冲

S802：将训练片段数e初始化为1；

S803：初始化物联网系统参数，观察初始状态o₁；

S804：将片段e中的时隙t初始化为1；

S805：对于时隙t，将状态o_t输入所述actor网络，输出μ_θ(o_t|θ)，随机生成噪声Δ_t，得到所述所有物联网设备的传输功率为p_t＝μ_θ(o_t|θ)+Δ_t，所有物联网设备根据p_t传输信息，返回奖励r_t和到下一状态o_t+1，得到元组[o_t，p_t，r_t，o_t+1]，并将所述元组[o_t，p_t，r_t，o_t+1]存储到所述经验回放缓冲

中；

S806：判断所述回放缓冲中的元组数

是否小于等于I，若小于等于I，则t＝t+1，返回执行步骤S804直至所述回放缓冲

中的元组数目大于I；

S807：当所述回放缓冲

中的元组数目大于I后，从所述回放缓冲池

中根据均匀分布随机抽取一个包含I个元组构成的样本包；

S808：所述回放缓冲将所述样本包中的每个元组输入至所述target actor网络、所述target critic网络和所述critic网络；

S809：对于所述样本包中的第i个元组(o_i，p_i，r_i，o′_i)，i＝1，2，…，I，将o′_i输入所述target actor网络，输出动作p′_i＝μ_θ′(o′_i|θ′)，将o′_i和p′_i输入所述target critic网络，输出动作价值函数Q^ζ′(o′_i，p′_i)，计算目标值

将o_i和p_i输入至所述critic网络输出动作价值函数Q^ζ(o_i，p_i)并计算所有元组的损失

S8010：通过损失函数的梯度下降来更新所述critic网络的参数ζ，通过梯度上升更新所述actor网络的参数θ；

S811：分别根据θ′←κ_aθ+(1-κ_a)θ′和ζ′←κ_aζ+(1-κ_a)ζ′更新所述target actor网络的参数θ′和所述target critic网络的参数ζ′，其中，κ_a＜＜1和κ_a＜＜1为常数；

S812：判断t＜T是否成立，若成立，则令t＝t+1，返回执行步骤S805，若不成立，则执行步骤S8113；

S813：判断e＜E是否成立，若成立，则令e＝e+1，返回执行步骤S803，若不成立，则输出所述最优传输功率分配策略。

本发明还提供了一种基于深度确定性策略的物联网传输装置，包括：

建立网络模型模块，用于基于物联网系统模型建立基站与物联网设备之间的网络模型、信息年龄模型和能耗模型；

建立信息年龄模型模块，用于所述信息年龄模型根据所述基站在各个时隙成功接收到所有物联网设备采样并发射信息包的平均加和信息年龄而建立；

建立能耗模型模块，用于所述能耗模型根据所述所有物联网设备在各个时隙采样、生成以及发射所述新鲜信息包所需能耗的平均加和而建立；

建立优化问题模块，用于以最小化所述所有物联网设备信息年龄和能耗的平均加权和为优化目标，以所述所有物联网设备采样决策和发射功率为优化变量，建立优化问题；

简化变量模块，用于基于采样决策和发射功率之间的关系定理，将以所述所有物联网设备的采样决策和发射功率为优化变量的优化问题简化为仅以所述所有物联网设备发射功率为优化变量的优化问题，定义状态空间、动作空间以及奖励函数，建立深度强化学习框架；

策略优化模块，用于利用DDPG算法求解所述所有物联网设备的最优发射功率策略；

则所述物联网设备m在时隙t的最优采样决策为：

式中，C_m，t，1＝γ_eC_s-γ_au_m，t(φ_m，t-1+τ)，γ_e和γ_a是非负的权重因子，φ_m，t-1为所述物联网设备m在时隙t-1的信息年龄，τ为每个时隙的时隙间隔，u_m，t为物联网设备在时隙t的传输，C_s为采样新鲜信息的和生成包的能耗。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于深度确定性策略的物联网传输方法的步骤。

本发明所提供的基于深度确定性策略的物联网传输方法，已解决物联网设备以不同的发射功率通过具有不确定性的MIMO-NOMA信道和串行干扰消除过程发射信息时，会导致不同的传输；首先基于系统模型建立网络模型，根据基站接收到物联网设备采样并发射信息的新鲜度建立信息年龄模型，根据采用和发射的能耗建立能耗模型，以信息年龄模型衡量传输信息的时效性，能耗模型衡量能耗，以最小化信息年龄和能耗为优化目标，以物联网设备的采样决策和发射功率为优化变量，建立优化问题。由于采样决策为离散空间，不适用与DDPG算法计算，引入采样决策和发射功率之间的关系定理，将所述优化问题中的采样决策变量和发射功率变量简化为一个发射功率变量的优化问题，建立状态空间、动作空间以及奖励函数；最后通过深度强化学习来求所有物联网设备最优发射功率，以最小化信息年龄和能耗，避免MIMO-NOMA信道和串行干扰消除过程中的不确定性影响物联网设备发射功率。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的基于深度确定性策略的物联网传输方法的第一种具体实施例的流程图；

图2为系统场景示意图；

图3为训练过程示意图；

图4为系统中有不同数目物联网设备时的训练阶段的学习曲线；

图5为最优策略和随机策略下不同物联网设备数目时的

对比示意图；

图6为最优策略和随机策略下不同物联网设备数目时的

对比示意图；

图7为最优策略下的平均奖励示意图；

图8为不同包大小下的

示意图；

图9为不同包大小下的

示意图；

图10为本发明实施例提供的一种基于深度确定性策略的物联网传输的装置的结构框图。

具体实施方式

本发明的核心是提供一种基于深度确定性策略的物联网传输方法、装置、设备以及计算机可读存储介质，利用深度学习DDPG解决物联网系统中传输功率优化问题，以达到最小的信息年龄和能耗。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的基于深度确定性策略的物联网传输方法的第一种具体实施例的流程图；具体操作步骤如下：

步骤S101：基于物联网系统模型建立基站与物联网设备之间的网络模型；

物联网系统模型如图2所示系统场景示意图。其中物联网系统包括一个装有K个天线的基站(Base Station，BS)，若干单天线物联网设备(IoT Device，IoTD)，设这些物联网设备集合为

其中每一个物联网设备装有一个传感器和发射器，这些传感器采样新鲜信息然后生成一个包，然后通过发射器将包通过MIMO-NOMA信道传输给基站。时间被离散成T个等长时隙，每一个时隙的间隙时间为τ，这些时隙的集合记为

在任意时隙t的开始，基站通过发送请求告知物联网设备采样决策s_t＝{s_1，t，…，s_m，t，…，s_M，t}和发射功率p_t＝{p_1，t，…，p_m，t，…，p_M，t}，其中s_m，t，p_m，t为用户m在时隙t的采样决策和发射功率，s_m，t＝1代表物联网设备m在时隙t被基站选中采样新鲜信息，s_m，t＝0则反之不采样，然后设备m根据p_m，t去传输包。基站接收到传输包后采用串行干扰消除(Successive Interference Cancellation，SIC)的方式对接收到的信号进行解码。

1)网络模型：

设

为基站与M个物联网设备之间在时隙t的信道矩阵，其中h_m(t)h_m(t)为基站与物联网设备m之间的信道向量。则基站接收到的信号可以表示为：

c_m为偏差为1的复数信号，

勾方差为

的高斯白噪声。此外，h_m(t)由随机小尺度衰落信道增益

和路径损耗组成：

其中h_r是在通信距离为1米时的参照信道增益，d_m为基站和物联网设备m之间的通信距离，ηη为路径损耗指数。此外，小尺度衰落通过自回归模型去建模：

其中ρ_m为归一化信道相关系数，e(t)为服从复高斯分布的误差向量。

基站采用SIC方式去解码物联网设备的信号。记物联网设备m在基站的接收到信号为

Γ_m，t(p_m，t)＝p_m，t||h_m(t)||²， (4)

并且设

为未解码的信号集合。串行干扰消除方法会通过循环的方式去解码所有物联网设备的信号。循环开始前，

会被初始化为

随后进入循环，在循环里，基站解码在

里最大接收功率的接收信号，并将其他物联网设备的信号作为干扰，之后被解码接收信号会被移除的

然后进入下一次循环。因此如果设

为接收信号弱于物联网设备m的其他物联网设备集合，则物联网设备m的信噪比可计算为：

则物联网设备m在时隙t的传输速率可以有香农公式计算：

π_m，t(p_m，t)＝W log₂(1+γ_m，t(p_m，t)) (6)

其中W为物联网系统的带宽。

步骤S102：根据所述基站在各个时隙成功接收到所有物联网设备采样并发射的新鲜信息包的平均加和而建立信息年龄模型；

2)信息年龄模型：

令φ_m，tφ_m，t为物联网设备m在时隙t的信息年龄，则

从公式(7)中，可以看到如果物联网设备在时隙t采样新鲜信息，即s_m，t＝1，则在时隙t的起始生成一个包，φ_m，tφ_m，t减少到0；如果不采样，即s_m，t＝0，则φ_m，t相比于φ_m，t-1增加τ。

之后，发射器将生成的包以发射功率p_t上传，基站如果在一个时隙内能接收到尺寸为Q_m的包，则为传输成功。令u_m，t＝1表示物联网设备m在时隙t的传输成功，u_m，t＝0表示物联网设备m在时隙t的传输失败，即

令u_t＝{u_1，t，…，u_m，t，…，u_M，t}表示所有物联网设备的传输成功与否。则物联网设备m在基站的信息年龄可以表示为

其中l_m，t为物联网设备m在时隙t的传输时延，可以计算为

因为基站接收所有物联网网络中的所有物联网设备的包，所以采用所有物联网设备的平均加和信息年龄去衡量物联网网络中的信息新鲜度，平均加和信息年龄被定义为：

步骤S103：根据所述所有物联网设备在各个时隙采样、生成以及发射所述新鲜信息包所需能耗的平均加和而建立能耗模型；

3)能耗模型：

对于物联网设备m在时隙t的能耗定义为：

ε_m，t(s_m，t，p_m，t)＝s_m，tC_s+p_m，tl_m，t， (12)

其中C_s是采样新鲜信息的和生成包的能耗，p_m，tl_m，t为传输包的能耗。因为基站一般有足够的能量供给，所以不考虑基站的能耗，因此定义所有物联网设备的平均加和能耗：

来衡量物联网系统的能耗。

步骤S104：以最小化所述所有物联网设备信息年龄和能耗的平均加权和为优化目标，以所述所有物联网设备采样决策和发射功率为优化变量，建立优化问题；

根据定义的系统模型建立优化问题，目的在于最小化所有物联网设备的加权平均加和。因为基站通过p_t和s_t来选择设备来采样信息并上传包，因此优化问题的变量为p_t和s_t，然后最优问题可以写为：

其中γ_a和γ_e是非负的权重因子。

步骤S105：基于采样决策和发射功率之间的关系定理，将所述优化问题中所述所有物联网设备的采样决策变量和发射功率变量简化为仅有所述所有物联网设备发射功率变量的优化问题，建立状态空间、动作空间以及奖励函数，得到深度强化学习框架；

定义运行DRL算法的智能体为基站。具体来说，在每一个时隙，由基站做出其中包含采样选择，发射功率的决策。定义运行DRL算法的智能体为基站，具体来说，在每一个时隙，由基站做出其中包含采样选择，发射功率的决策。

在系统模型中，由智能体在时隙t观察的状态定义为

o_t＝[o_1，t，…，o_m，t，…，o_M，t]， (3)

其中o_m，t代表着智能体对物联网设备m在时隙t的观察，定义为

o_m，t＝[u_m，t-1，γ_m，t-1，Φ_m，t-1]， (4)

其中u_mm，t-1，γ_m，t-1γ_m，t-1以及Φ_m，t-1Φ_m，t-1可以由基站的信号接收历史记录中得到。

有两种常用的DRL算法，深度Q学习(Deep Q Learning，DQN)和DDPG，其中DDPG适用于连续动作空间，而DQN只适用于离散空间。从公式(14)中可以看出，优化问题中的变量为s_t和p_t，因此动作空间应该包含s_t和p_t，其中s_t∈{0，1}为离散空间，p_t∈[0，P_m，max]。因为p_t是连续空间，因此DQN不适用去解决公式(14)中的问题。另外一方面，DDPG也不适用于解决公式(14)中的问题因为s_t是离散空间。为了解决这个困境，引入以下定理：

定理1：给定

物联网设备m在时隙t的最优的采样决策

可以为：

其中，C_m，t，1＝γ_eC_s-γ_au_m，t(φ_mm，t-1+τ).

证明：为了求得在给定

下的

首先需要建立p_m，t与s_m，t之间的关系。为此，代入公式(9)，(11)，(12)，(13)，所有物联网设备的加权平均加和可以写为(18)：

然后带入公式(7)，物联网设备m在时隙t的加权信息年龄与能耗之和可以写为(19)：

γ_aΦ_m，t(s_m，t，p_m，t)+γ_eε_m，t(s_m，t，p_m，t)

＝γ_au_m，t(1-s_m，t)(φ_m，t-1+τ)+γ_es_m，tC_s+γ_a[(1-u_m，t)(Φ_m，t-1+τ)+u_m，tl_m，t]+γ_ep_m， _tl_m，t

＝s_m，t[γ_eC_s-γ_au_m，t(φ_m，t-1+τ)]+γ_au_m，t(φ_m，t-1+τ)+γa[(1-u_m，t)(Φ_m，t-1+τ)+u_m， _tl_m，t]+γ_ep_m，tl_m，t

＝s_m，t[γ_eC_s-γ_au_m，t(φ_m，t-1+τ)]+γ_a[u_m，t(φ_m，t-1+τ)+(1-u_m，t)(Φ_m，t-1+τ)+u_m， _tl_m，t]+γ_ep_m，tl_m，t

＝s_m，tC_m，t，1+C_m，t，2

在公式(19)中，C_m，t，2＝γ_a[u_m，t(φ_m，t-1+τ)+(1-u_m，t)(Φ_m，t-1+τ)+u_m，tl_m，t]+γ_ep_m， _tl_m，t而C_m，t，1＝γ_eC_s-γ_au_m，t(φ_m，t-1+τ)。

在C_m，t，1和C_m，t，2中，当p_m，t给定后，Φ_m，t-1φ_m，t-1可以根据基站的历史的采样决策求得，Φ_m，t-1Φ_m，t-1和l_m，t可以由基站根据公式(9)和公式(10)来分别计算。因此，求取

的优化问题可以表示为：

因此可以有最优的采样决策为：

证毕。

由定理1，公式(14)可以被改写为

s.t.(14a)，(17). (21a)

由公式(22)可以看到，只有需要连续的变量p_t去最小化所有物联网设备的加权平均加和。

至此可以定义p_t为动作空间，并采用DDPG为优化算法。

基站的目标为最小化所有物联网设备的加权平均加和，因此时隙t的奖励函数可以定义为：

这里注意奖励函数里有一个负号，因此r_t(o_t，p_t)随着所有物联网设备的加权平均加和的减少而增加。

步骤S106：利用DDPG算法求解所述所有物联网设备的最优发射功率。

DDPG采用了演员-评论家(Actor-Critic)构架，其中演员(Actor)被采用来近似策略和提升策略，评论家(Critic)被采用来评估策略，最优策略在提升近似的策略和评估近似的策略之间的迭代中求得。在DDPG算法中，深度神经网络(Deep Neural Network，DNN)被Actor和Critic采用，因此形成Actor网络以及Critic网络，这两个网络也叫做主要网络。除了主要网络以外，还有目标网络(Target Networks)，目标网络包括目标演员网络(TargetActor-Network)以及目标评论家网络(Target Critic-Network)，目标网络与主要网络有着相同的构架。令θ，ζ，θ′和ζ′分别为Actor网络，Critic网络，目标Actor网络(TargetActor-Network)，目标Critic网络(Target Critic-Network)的参数，Δ_t为在时隙t叠加在动作上的探索噪声。

物联网系统长期折扣奖励的期望被定义为：

其中β∈[0，1]是折扣因子，p_t＝μ(o_t)代表时隙t的动作p_t是根据策略在μ在当前是时隙下的状态o_t确定的。然后通过DDPG去求得最优的策略来最小化J(μ)。

最后得到的最优发射功率传输策略，利用最优传输策略求取最优的采样。得到最优的物联网传输策略。

本实施例采用深度学习来解决物联网系统传输的问题，根据物联网系统模型构建信息年龄和能耗模型，然后建立以采样决策和发射功率为优化变量的优化问题，将优化问题中的采样决策变量和发射功率变量简化为仅有发射功率变量的优化问题，利用DDPG来获取物联网设备的最优发射功率传输策略，以最小化物联网系统的信息年龄和能耗。

基于上述实施例参考图3，图3为所示的算法流程示意图，在本实施例中，具体解释说明利用DDPG算法得到最优传输的过程。设θ和ζ分别为actor和critic网络的参数，θ′和ζ′分别为target actor和target critic的网络参数。

S301：随机初始化actor网络参数θ及critic网络参数ζ，将θ和ζ赋值给θ′和ζ′，以完成target actor网络参数θ′和target critic的网络参数的初始化ζ′，建立回放缓冲

初始化参数，建立一个经验回放缓冲

用于缓冲状态转移。

S302：将训练片段数e初始化为1；

算法会循环E个片段，在每个片段的开始，系统模型的仿真参数会重置。具体来说，对于任意物联网设备m，u_m，t＝0，Φ_m，0＝0，h_m(0)随机初始化，而Actor网络根据随机的θ输出p₀，有了p₀，SINRγ_m，0可以根据公式(5)计算，就有了o_m，1＝[u_m，0，γ_m，0Φ_m，0]可以被智能体观察到，进而在时隙1的状态o₁可以被智能体观察到。

S303：将片段e中的时隙t初始化为1；

S304：将状态o_t输入所述actor网络，输出μ_θ(o_t|θ)，随机生成噪声Δ_t，以便所述物联网设备的传输功率为p_t＝μ_θ(o_t|θ)+Δ_t，并获取奖励r_t，同时转化到下一状态o_t+1，得到元组[o_t，p_t，r_t，o_t+1]，并将所述元组[o_t，p_t，r_t，o_t+1]存储到所述经验回放缓冲

中；

算法从时隙1到时隙T进行循环，具体来说，对于任意时隙t，将时隙t的状态输入Actor网络然后输出为μ_θ(o_t|θ)，然后探索噪声Δ_t会叠加在此输出上，然后所有物联网设备的传输功率可以为p_t＝μ_θ(o_t|θ)+Δ_t。给定p_t，智能体分别根据公式(8)，(17)和(5)计算物联网设备m的u_m，t，s_m，t和γ_m，t。给定u_m，t，s_m，t和p_m，t，随后可根据公式(9)和(12)来计算Φ_m，t(s_m，t，u_m，t)和ε_m，t(s_m，t，p_m，t)则r_t可以由公式(19)来确定。接下来，由u_m，t，γ_m，t和Φ_m，tΦ_m，t，智能体可以根据公式(15)观察到时隙t+1的状态o_t+1，并将元组[o_t，p_t，r_t，o_t+1]存储到经验回放缓冲中。当

时，智能体将o_t+1输入Actor网络开始下一个时隙的循环。

S305：判断所述回放缓冲中的元组数

是否小于等于I，若小于等于I，则t＝t+1，返回执行步骤S704直至所述回放缓冲

中的元组数目大于I；

S306：当所述回放缓冲

中的元组数目大于I后，将片段E中的时隙t初始化为1；

当

后，对于每个时隙，参数θ，ζ，θ′和ζ′通过迭代地方式更新来最大化。其中θ朝着梯度

的方向更新。记

为在o_t和p_t下的动作价值函数，计算为从时隙t开始的长期折扣奖励的期望：

解

可以被替换为解

但是因为动作空间时连续的，所以在公式(25)中的

不能被由贝尔曼方程计算。为了解决这个问题，Critic网络采用以ζ为参数的深度神经网络去近似动作价值函数

由Critic网络近似的动作价值函数记为Q^ζ(o_t，p_t)。

经验

后的具体参数更新过程如下。智能体首先服从均匀分布地从

中抽取一个由I个元组构成的样本包(Mini-batch)，对于样本包中的第i个元组(o_i，p_i，r_i，o′_i)(i∈{1，2，…，I})，智能体计算目标值(Target Value)为：

其中p′_i＝μ_θ′(o′_i|θ′)是目标Actor网络输入o′_i后输出，Q^ζ′(o′_i，p′_i)是目标Critic网络输入o′_i和p′_i后的输出。有了y_i，智能体可以如下地计算损失函数：

其中Q^ζ(o_i，p_i)是Critic网络输入o_i和p_i后的输出，然后Critic网络根据损失函数的梯度通过梯度下降的方法更新参数。

S307：从所述回放缓冲池

中根据均匀分布随机抽取一个由I个元组构成的样本包，将所述样本包中的每个元组输入至所述target actor网络、所述target critic网络和所述critic网络；

S308：对于所述样本包中的第i个元组(o_i，p_i，r_i，o′_i)，i＝1，2，…，I，将o′_i输入所述target actor网络，输出动作p′_i＝μ_θ′(o′_i|θ′)，将o′_i和p′_i输入所述target critic网络，输出动作价值函数Q^ζ′(o′_i，p′_i)，计算目标值

S309：通过损失函数的梯度下降来更新所述critic网络的参数ζ，通过梯度上升更新所述actor网络的参数θ；

S310：分别根据θ′←κ_aθ+(1-κ_a)θ′和ζ′←κ_aζ+(1-κ_a)ζ′更新所述target actor网络的参数θ′和所述target critic网络的参数ζ′，其中，κ_a＜＜1和κ_a＜＜1为常数；

由Critic网络近似的动作价值函数，

可以计算为

则Actor网络根据

采用梯度上升的方法更新网络参数。到这里，主要网络的参数已经更新完毕。

接下来目标网络会根据主要网络的参数来更新参数：

其中κ为远小于1的常数。

S311：判断t＜T是否成立，若成立，则令t＝t+1，返回执行步骤S707，若不成立，则执行步骤S710；

S312：判断e＜E是否成立，若成立，则令e＝e+1，返回执行步骤S703，若不成立，则得到所述最优传输功率分配策略。

本实施例中，整个算法在循环E个片段后结束，输出优化后的actor网络、critic网络、target actor网络，target critic网络的参数。这时意味着训练阶段已经结束，最优发射功率传输策略已经得到。

图4系统中有不同数目物联网设备时的训练阶段的学习曲线。

每个曲线反映了不同片段里所有时隙的平均奖励。可以看到，在0至150片段里，不同曲线的平均奖励都在上升或者波动，这反映着智能体正在朝着能最大化奖励的方向学习策略。在150个片段后，有一些波动，这是因为探索噪声让智能体调整策略避免收敛到局部最优，并尝试探索到更好地策略。在此之后，学习曲线开始变得平稳，相比于未训练前有着更高的奖励，说明智能体已经学到了最优策略。同时也可以看到在结尾的片段训练趋于稳定后中，物联网设备数目越多学习曲线越低，这是因为根据公式(19)，更多的物联网设备会使奖励的项增加从而使奖励下降。

在测试阶段引入了随机策略作为对比，其中随机策略随机地在[0，P_m，max]分配功率，采样决策由公式(17)决定。

图5对比了在最优策略和随机策略下不同物联网设备数目时的

可以看到，在两种策略下，

会随着物联网设备数目的增加而增加，这是因为

中包含所有物联网设备的信息年龄，根据公式(5)，更多的物联网设备会引入更多的干扰，由公式(10)传输速率会降低且传输时延增加，因此接收到的信息会更加老旧，信息年龄会增加。另外可以看到的是，最优策略在信息年龄性能上优于随机策略，这是因为最优策略可以自适应地根据观察到的状态进行功率分配。

图6对比了在最优策略和随机策略下不同物联网设备数目时的

可以看到在两种策略下，随着物联网设备数目的增长

也会增长，如图4的解释中所述，更多的物联网物设备会引入更多的干扰，导致信息年龄的上升，而根据公式(16)智能体可以观察信息年龄去做功率分配，为了保证更低的信息年龄，需要消耗发更多的能量去采样和发射。另外可以看到，最优策略在能耗性能上总是优于随即策略，这是由于智能体自适应调节功率分配的原因。

图7比较了在最优策略下的平均奖励，其中平均奖励是从每个时隙的测试结果中平均出来的。可以看到平均奖励随着物联网设备数目的增长而增长，这是因为奖励函数由

和

组成，而两者都会随着物联网设备数目的增长而增长。另外可以看到的是，最优策略的奖励始终比随即策略的高，说明我们的优化目标达到了预期的效果。

图8和图9对比了在不同包大小下的

和

可以看到在不同的包大小下，最优策略在

和

性能上仍然具有优越性。

设置如下的实验参数

表1实验参数

这里对实验实施进一步的解释。实验工具为Python3.6。对于Actor网络和Critic网络都使用了四层全连接的深度神经网络，中间的两层隐藏层神经元个数分别为400、300个。探索噪声Δ_t由衰减率为0.15和方差为0.004的Ornstein-Uhlenbeck噪声生成。采用了Adam优化方法以10^-3和10^-4的学习率来更新Critic网络和Actor网络的参数。物联网设备被随机安放在距离基站[50，100]米的位置。

请参考图10，图10为本发明实施例提供的一种基于深度确定性策略的物联网传输的装置的结构框图；具体装置可以包括：

建立网络模型模块100，用于基于物联网系统模型建立基站与物联网设备之间的网络模型、信息年龄模型和能耗模型；

建立信息年龄模型模块200，用于所述信息年龄模型根据所述基站在各个时隙成功接收到所有物联网设备采样并发射信息包的平均加和信息年龄而建立；

建立能耗模型模块300，用于所述能耗模型根据所述所有物联网设备在各个时隙采样、生成以及发射所述新鲜信息包所需能耗的平均加和而建立；

建立优化问题模块400，用于以最小化所述所有物联网设备信息年龄和能耗的平均加权和为优化目标，以所述所有物联网设备采样决策和发射功率为优化变量，建立优化问题；

简化变量模块500，用于基于采样决策和发射功率之间的关系定理，将以所述所有物联网设备的采样决策和发射功率为优化变量的优化问题简化为仅以所述所有物联网设备发射功率为优化变量的优化问题，定义状态空间、动作空间以及奖励函数，建立深度强化学习框架；

策略优化模块600，用于利用DDPG算法求解所述所有物联网设备的最优发射功率策略；

则所述物联网设备m在时隙t的最优采样决策为：

本实施例的一种基于深度确定性策略的物联网传输装置用于实现前述的一种基于深度确定性策略的物联网传输方法，因此一种基于深度确定性策略的物联网传输的装置中的具体实施方式可见前文中的一种基于深度确定性策略的物联网传输方法的实施例部分，例如，建立网络模型模块100，建立信息年龄模型模块200，建立能耗模型模块300，建立优化模型模块400，简化变量模块500，策略优化模块600，分别用于实现上述一种基于深度确定性策略的物联网传输方法中步骤S101，S102，S103，S104，S105和S106，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于深度确定性策略的物联网传方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种基于深度确定性策略的物联网传输方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。