CN114727316A - 一种基于深度确定性策略的物联网传输方法以及装置 - Google Patents

一种基于深度确定性策略的物联网传输方法以及装置 Download PDF

Info

Publication number
CN114727316A
CN114727316A CN202210319016.3A CN202210319016A CN114727316A CN 114727316 A CN114727316 A CN 114727316A CN 202210319016 A CN202210319016 A CN 202210319016A CN 114727316 A CN114727316 A CN 114727316A
Authority
CN
China
Prior art keywords
internet
things
time slot
base station
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210319016.3A
Other languages
English (en)
Other versions
CN114727316B (zh
Inventor
吴琼
朱洪彪
茅正冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202210319016.3A priority Critical patent/CN114727316B/zh
Publication of CN114727316A publication Critical patent/CN114727316A/zh
Application granted granted Critical
Publication of CN114727316B publication Critical patent/CN114727316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度确定性策略的物联网传输方法、装置、设备以及计算机可读存储介质包括:基于物联网系统模型建立信息年龄模型和能耗模型;以最小化的信息年龄和能耗为优化目标,以基站和物联网设备的采样决策和发射功率为优化变量,建立了优化问题;将优化问题中的采样决策和发射功率两个优化变量简化为只有发射功率一个优化变量,建立状态空间、动作空间以及奖励函数,得到深度强化学习框架;利用DDPG算法得到最优传输功率分配策略。本发明所提供的方法,通过DDPG算法解决物联网系统中传输功率的时效性和能耗的问题,求得物联网设备的最优发射功率策略,以及最小的信息年龄和能耗。

Description

一种基于深度确定性策略的物联网传输方法以及装置
技术领域
本发明涉及物联网技术领域,特别是涉及一种基于深度确定性策略的物联网传输方法、装置、设备以及计算机可读存储介质。
背景技术
物联网(Internet of Things,IoT)是连接物理世界与信息与通信科技(Information and Communication,ICT)的代表部分。分析师预测在2025年,物联网工业相关的经济体量可以达到11兆美元,物联网设备数目预测会达到5000亿。到2030年,物联网可以影响整个经济体系。
有一种典型的物联网系统构架,包含三层结构,即感知层,网络层和应用层。其中感知层包含装有传感器的的物联网设备(IoT device,IoTD),传感器可以采样关于物理特征的信息,如湿度,温度,车辆的路径或者速度。
在网络层,可以采用多输入多输出非正交多址接入(Multi-input Multi-outputand Non-orthogonal Multiple Access,MIMO-NOMA)技术,以提高频谱效益以及信道容量。具体来说,每个物联网设备同时地接入信道共享整个频谱和未划分的带宽,并传输到一个多天线的在应用层的接收器。但是,因为同时接入的物联网设备之间的干扰和随机衰落,信道状态是具有不去确定性的。另外,采用串行干扰消除(Successive InterferenceCancellation,SIC)于MIMO-NOMA信号接收端的解码过程,串行干扰消除将接收信号的功率以降序的方式依次解码接收信号,并将其他物联网设备的信号作为干扰,而这个过程又会进一步的增加不确定性。比如,如果一个物联网设备的发射器以较高的发射功率发射,其会被优先解码而其他设备的信号会被作为干扰,太多的干扰会降低传输效率,另一方面,如果一个物联网设备的发射器以较低的发射功率发射,其会被在其他有更高接收功率的物联网设备解码完后解码,虽然没有太多干扰,但是因为其发射功率较低,仍然传输效率较低。所以物联网设备以不同的发射功率通过具有不确定性的MIMO-NOMA信道和串行干扰消除过程发射信息时,会导致不同的传输效率,因此传输效率和功率与时效性和能耗相关,进而由MIMO-NOMA和串行干扰消除过程带来的不确定性会影响时效性和能耗。
根据解码后的信息,应用层可以提供各种服务。比如应用层可以从解码后的信息中提取控制决策。这些控制决策需要传输信息被接受时的时效性去确保控制决策的准确度。信息年龄(Age of Information,AoI)可以作为性能指标去衡量接收信息的时效性。区别于传统的性能指标衡量如队列时延、传输时延和吞吐量发射端的时效性,信息年龄衡量从发射端到接收端的信息的新鲜程度,其从信息被采样的时刻开始计时到信息被接收的时刻。如果信息年龄较大,说明由应用层接收的信息比较老旧,而从中获取的控制决策可能会不够准确。另外,许多物联网设备是有能量限制的,因此设计一个功率传输功率和采样机制考虑到MIMO-NOMA物联网系统的不确定性去保证较低的信息年龄和能耗。
综上所述可以看出,如何设计物联网设备与基站之间的传输功率和采样决策,以最小化MIMO-NOMA物联网系统中物联网设备的信息年龄和能耗是目前有待解决的问题。
发明内容
本发明的目的是提供一种基于深度确定性策略的物联网传输方法、装置、设备以及计算机可读存储介质,以现有技术中未采用信息年龄和能耗去调节物联网设备与基站之间的传输功率和采样决策。
为解决上述技术问题,本发明提供一种基于深度确定性策略的物联网传输方法,包括:
基于物联网系统模型建立基站与物联网设备之间的网络模型、信息年龄和能耗模型;
其中,所述信息年龄模型根据所述基站在各个时隙成功接收到所有物联网设备采样并发射新鲜信息包的平均加和信息年龄的而建立;
所述能耗模型根据所述所有物联网设备在各个时隙采样、生成以及发射所述新鲜信息包所需能耗的平均加和而建立;
以最小化所述所有物联网设备信息年龄和能耗的平均加权和为优化目标,以所述所有物联网设备采样决策和发射功率为优化变量,建立优化问题;
基于采样决策和发射功率之间的关系定理,将以所述所有物联网设备的采样决策变量和发射功率为优化变量的优化问题简化为仅以所述所有物联网设备发射功率为优化变量的优化问题,定义状态空间、动作空间以及奖励函数,建立深度强化学习框架;
利用DDPG算法求解所述所有物联网设备的最优发射功率策略;
其中,所述采样决策和发射功率之间的关系定理为:给定物联网设备m在时隙t的最优发射功率
Figure BDA0003570815250000031
则所述物联网设备m在时隙t的最优采样决策为:
Figure BDA0003570815250000032
式中,Cm,t,1=γeCsaum,tm,t-1+τ),γe和γa是非负的权重因子,φm,t-1为所述物联网设备m在时隙t-1的信息年龄,τ为每个时隙的时隙间隔,um,t为物联网设备在时隙t的传输采样决策,Cs为采样生成新鲜信息包的能耗。
优选地,所述物联网系统模型包括:
将所述物联网设备发射器通过MIMO-NOMA信道传输到所述基站的时间划分为T个等长的时隙,每个时隙的间隙时间为τ,时隙的集合记为
Figure BDA0003570815250000033
其中,任意时隙t的开始,所述基站通过发送请求告知所述物联网设备采样决策st={s1,t,…,sm,t,…,sM,t}和发射功率pt={p1,t,…,pm,t,…,pM,t},基站接收到传输包后采用串行干扰消除的方式对接收到的信号进行解码;
其中,sm,t,pm,t为物联网设备
Figure BDA0003570815250000034
在时隙t的采样决策和发射功率,sm,t=1代表所述物联网设备m在时隙t被所述基站选中采样新鲜信息,sm,t=0,则不采样,然后所述物联网m设备根据传输功率pm,t去传输包。优选地,
所述基站与物联网设备之间的网络模型包括:
所述物联网设备m在时隙t与所述基站的信道矢量为:
Figure BDA0003570815250000041
其中,hr为所述基站与所述物联网设备通信距离为1米时的参照信道增益,dm为所述基站和所述物联网设备m之间的通信距离,η为路径损耗指数,
Figure BDA0003570815250000042
为随机小尺度衰落信道增益;
Figure BDA0003570815250000043
式中,ρm为归一化信道相关系数,e(t)为服从复高斯分布的误差向量;
则所述基站接收到的信号为:
Figure BDA0003570815250000044
Figure BDA0003570815250000045
其中,cm为偏差为1的复数信号,
Figure BDA0003570815250000046
为方差为
Figure BDA0003570815250000047
的高斯白噪声;
所述基站接收到的所述物联网设备m信号为:Γm,t(pm,t)=pm,t||hm(t)||2
所述物联网设备m的信噪比为:
Figure BDA0003570815250000048
其中,
Figure BDA0003570815250000049
为接收信号弱于物联网设备m的其他物联网设备信号集合,
Figure BDA00035708152500000410
勾未解码的信号集合;
所述物联网设备m在时隙t的传输速率由香农公式计算为:
πm,t(pm,t)=W log2(1+γm,t(pm,t));
其中,W为所述物联网系统模型的宽带。
优选地,所述根据所述基站在时隙t接收到所有物联网设备采样并发射信息的新鲜度建立所述所有物联网设备平均加和的信息年龄模型包括:
所述物联网设备m在时隙t的信息年龄为:
Figure BDA0003570815250000051
其中,如果所述物联网设备m在时隙t采样新鲜信息即sm,t=1,则在时隙t的起始生成一个包,φm,t减少到0;如果不采样,即sm,t=0,则φm,t相比于φm,t-1增加τ;
所述物联网设备在时隙t传输表达式为:
Figure BDA0003570815250000052
式中,Qm为所述基站在一个时隙内需要接受的包的尺寸,令um,t=1表示所述物联网设备m在时隙t的传输成功,um,t=0表示所述物联网设备m在时隙t的传输失败;
所述物联网设备m在所述基站的信息年龄的表达式为:
Figure BDA0003570815250000053
式中,lm,t为所述物联网设备m在时隙t的传输时延,可以计算为
Figure BDA0003570815250000054
所述所有物联网设备m的平均加和信息年龄为:
Figure BDA0003570815250000055
优选地,
所述能耗模型根据所述所有物联网设备在各个时隙采样、生成以及发射所述新鲜信息包所需能耗的平均加和而建立包括:
所述物联网设备m在时隙t的能耗定义为:
εm,t(sm,t,pm,t)=sm,tCs+pm,tlm,t
其中,Cs为采样生成新鲜信息包的能耗。,pm,tlm,t为传输包的能耗;
所述所有物联网设备的平均加和能耗为:
Figure BDA0003570815250000061
优选地,所述以最小化所述所有物联网设备信息年龄和能耗的平均加权和为优化目标,以所述所有物联网设备采样决策和发射功率为优化变量,建立优化问题包括:
以最小化所述所有物联网设备的信息年龄和能耗的加权平均加和,以所述所有物联网设备采样决策st和发射功率pt为优化变量,建立的优化问题为:
Figure BDA0003570815250000062
Figure BDA00035708152500000610
Figure BDA0003570815250000063
其中,γa和γe是非负的权重因子。
优选地,所述基于采样决策和发射功率之间的关系定理,将以所述所有物联网设备的采样决策变量和发射功率为优化变量的优化问题简化为仅以所述所有物联网设备发射功率为优化变量的优化问题,定义状态空间、动作空间以及奖励函数,建立深度强化学习框架包括:
所述采样决策和发射功率之间的关系定理:给定
Figure BDA0003570815250000064
所述物联网设备m在时隙t的最优采样决策
Figure BDA0003570815250000065
为:
Figure BDA0003570815250000066
其中,Cm,t,1=γeCsaum,tm,t-1+τ);
则所述优化问题可以简化为:
Figure BDA0003570815250000067
Figure BDA0003570815250000068
Figure BDA0003570815250000069
并定义所有物联网设备的发生功率pt为动作空间,其中,Cm,t,1=γeCsaum,tm,t-1+τ);
利用时隙t-1的所述物联网设备m在所述基站处是否采样um,t-1、信噪比γm,t-1以及所述物联网设备在所述基站处的信息年龄Φm,t-1,表征所述基站对所述物联网设备m在时隙t观察而得到的状态空间om,t=[um,t-1,γm,t-1,Φm,t-1],则所述基站对所述所有物联网设备在时隙t的状态空间为ot=[o1,t,…,om,t,…,oM,t];
建立所述物联网设备时隙t的奖励函数
Figure BDA0003570815250000071
所述物联网系统模型长期折扣奖励的期望函数为:
Figure BDA0003570815250000072
其中,β∈[0,1]是折扣因子,pt=μ(ot)代表时隙t的动作pt是根据策略在μ在当前是时隙下的状态ot确定的;
构建所述所有物联网设备服从策略μθ(ot|θ)在状态ot和动作pt下的动作价值函数
Figure BDA0003570815250000073
优选地,利用DDPG算法求解所述所有物联网设备的最优发射功率策略包括:
S801:随机初始化actor网络参数θ及critic网络参数ζ,将θ和ζ赋值给θ′和ζ′,以完成target actor网络参数θ′和target critic的网络参数的初始化ζ′,建立经验回放缓冲
Figure BDA0003570815250000074
S802:将训练片段数e初始化为1;
S803:初始化物联网系统参数,观察初始状态o1
S804:将片段e中的时隙t初始化为1;
S805:对于时隙t,将状态ot输入所述actor网络,输出μθ(ot|θ),随机生成噪声Δt,得到所述所有物联网设备的传输功率为pt=μθ(ot|θ)+Δt,所有物联网设备根据pt传输信息,返回奖励rt和到下一状态ot+1,得到元组[ot,pt,rt,ot+1],并将所述元组[ot,pt,rt,ot+1]存储到所述经验回放缓冲
Figure BDA0003570815250000081
中;
S806:判断所述回放缓冲中的元组数
Figure BDA0003570815250000082
是否小于等于I,若小于等于I,则t=t+1,返回执行步骤S804直至所述回放缓冲
Figure BDA0003570815250000083
中的元组数目大于I;
S807:当所述回放缓冲
Figure BDA0003570815250000084
中的元组数目大于I后,从所述回放缓冲池
Figure BDA0003570815250000085
中根据均匀分布随机抽取一个包含I个元组构成的样本包;
S808:所述回放缓冲将所述样本包中的每个元组输入至所述target actor网络、所述target critic网络和所述critic网络;
S809:对于所述样本包中的第i个元组(oi,pi,ri,o′i),i=1,2,…,I,将o′i输入所述target actor网络,输出动作p′i=μθ′(o′i|θ′),将o′i和p′i输入所述target critic网络,输出动作价值函数Qζ′(o′i,p′i),计算目标值
Figure BDA0003570815250000086
将oi和pi输入至所述critic网络输出动作价值函数Qζ(oi,pi)并计算所有元组的损失
Figure BDA0003570815250000087
Figure BDA0003570815250000088
S8010:通过损失函数的梯度下降来更新所述critic网络的参数ζ,通过梯度上升更新所述actor网络的参数θ;
S811:分别根据θ′←κaθ+(1-κa)θ′和ζ′←κaζ+(1-κa)ζ′更新所述target actor网络的参数θ′和所述target critic网络的参数ζ′,其中,κa<<1和κa<<1为常数;
S812:判断t<T是否成立,若成立,则令t=t+1,返回执行步骤S805,若不成立,则执行步骤S8113;
S813:判断e<E是否成立,若成立,则令e=e+1,返回执行步骤S803,若不成立,则输出所述最优传输功率分配策略。
本发明还提供了一种基于深度确定性策略的物联网传输装置,包括:
建立网络模型模块,用于基于物联网系统模型建立基站与物联网设备之间的网络模型、信息年龄模型和能耗模型;
建立信息年龄模型模块,用于所述信息年龄模型根据所述基站在各个时隙成功接收到所有物联网设备采样并发射信息包的平均加和信息年龄而建立;
建立能耗模型模块,用于所述能耗模型根据所述所有物联网设备在各个时隙采样、生成以及发射所述新鲜信息包所需能耗的平均加和而建立;
建立优化问题模块,用于以最小化所述所有物联网设备信息年龄和能耗的平均加权和为优化目标,以所述所有物联网设备采样决策和发射功率为优化变量,建立优化问题;
简化变量模块,用于基于采样决策和发射功率之间的关系定理,将以所述所有物联网设备的采样决策和发射功率为优化变量的优化问题简化为仅以所述所有物联网设备发射功率为优化变量的优化问题,定义状态空间、动作空间以及奖励函数,建立深度强化学习框架;
策略优化模块,用于利用DDPG算法求解所述所有物联网设备的最优发射功率策略;
其中,所述采样决策和发射功率之间的关系定理为:给定物联网设备m在时隙t的最优发射功率
Figure BDA0003570815250000101
则所述物联网设备m在时隙t的最优采样决策为:
Figure BDA0003570815250000102
式中,Cm,t,1=γeCsaum,tm,t-1+τ),γe和γa是非负的权重因子,φm,t-1为所述物联网设备m在时隙t-1的信息年龄,τ为每个时隙的时隙间隔,um,t为物联网设备在时隙t的传输,Cs为采样新鲜信息的和生成包的能耗。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于深度确定性策略的物联网传输方法的步骤。
本发明所提供的基于深度确定性策略的物联网传输方法,已解决物联网设备以不同的发射功率通过具有不确定性的MIMO-NOMA信道和串行干扰消除过程发射信息时,会导致不同的传输;首先基于系统模型建立网络模型,根据基站接收到物联网设备采样并发射信息的新鲜度建立信息年龄模型,根据采用和发射的能耗建立能耗模型,以信息年龄模型衡量传输信息的时效性,能耗模型衡量能耗,以最小化信息年龄和能耗为优化目标,以物联网设备的采样决策和发射功率为优化变量,建立优化问题。由于采样决策为离散空间,不适用与DDPG算法计算,引入采样决策和发射功率之间的关系定理,将所述优化问题中的采样决策变量和发射功率变量简化为一个发射功率变量的优化问题,建立状态空间、动作空间以及奖励函数;最后通过深度强化学习来求所有物联网设备最优发射功率,以最小化信息年龄和能耗,避免MIMO-NOMA信道和串行干扰消除过程中的不确定性影响物联网设备发射功率。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的基于深度确定性策略的物联网传输方法的第一种具体实施例的流程图;
图2为系统场景示意图;
图3为训练过程示意图;
图4为系统中有不同数目物联网设备时的训练阶段的学习曲线;
图5为最优策略和随机策略下不同物联网设备数目时的
Figure BDA0003570815250000111
对比示意图;
图6为最优策略和随机策略下不同物联网设备数目时的
Figure BDA0003570815250000112
对比示意图;
图7为最优策略下的平均奖励示意图;
图8为不同包大小下的
Figure BDA0003570815250000113
示意图;
图9为不同包大小下的
Figure BDA0003570815250000114
示意图;
图10为本发明实施例提供的一种基于深度确定性策略的物联网传输的装置的结构框图。
具体实施方式
本发明的核心是提供一种基于深度确定性策略的物联网传输方法、装置、设备以及计算机可读存储介质,利用深度学习DDPG解决物联网系统中传输功率优化问题,以达到最小的信息年龄和能耗。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的基于深度确定性策略的物联网传输方法的第一种具体实施例的流程图;具体操作步骤如下:
步骤S101:基于物联网系统模型建立基站与物联网设备之间的网络模型;
物联网系统模型如图2所示系统场景示意图。其中物联网系统包括一个装有K个天线的基站(Base Station,BS),若干单天线物联网设备(IoT Device,IoTD),设这些物联网设备集合为
Figure BDA0003570815250000121
其中每一个物联网设备装有一个传感器和发射器,这些传感器采样新鲜信息然后生成一个包,然后通过发射器将包通过MIMO-NOMA信道传输给基站。时间被离散成T个等长时隙,每一个时隙的间隙时间为τ,这些时隙的集合记为
Figure BDA0003570815250000122
在任意时隙t的开始,基站通过发送请求告知物联网设备采样决策st={s1,t,…,sm,t,…,sM,t}和发射功率pt={p1,t,…,pm,t,…,pM,t},其中sm,t,pm,t为用户m在时隙t的采样决策和发射功率,sm,t=1代表物联网设备m在时隙t被基站选中采样新鲜信息,sm,t=0则反之不采样,然后设备m根据pm,t去传输包。基站接收到传输包后采用串行干扰消除(Successive Interference Cancellation,SIC)的方式对接收到的信号进行解码。
1)网络模型:
Figure BDA0003570815250000123
为基站与M个物联网设备之间在时隙t的信道矩阵,其中hm(t)hm(t)为基站与物联网设备m之间的信道向量。则基站接收到的信号可以表示为:
Figure BDA0003570815250000124
cm为偏差为1的复数信号,
Figure BDA0003570815250000125
勾方差为
Figure BDA0003570815250000126
的高斯白噪声。此外,hm(t)由随机小尺度衰落信道增益
Figure BDA0003570815250000127
和路径损耗组成:
Figure BDA0003570815250000128
其中hr是在通信距离为1米时的参照信道增益,dm为基站和物联网设备m之间的通信距离,ηη为路径损耗指数。此外,小尺度衰落通过自回归模型去建模:
Figure BDA0003570815250000131
其中ρm为归一化信道相关系数,e(t)为服从复高斯分布的误差向量。
基站采用SIC方式去解码物联网设备的信号。记物联网设备m在基站的接收到信号为
Γm,t(pm,t)=pm,t||hm(t)||2, (4)
并且设
Figure BDA0003570815250000132
为未解码的信号集合。串行干扰消除方法会通过循环的方式去解码所有物联网设备的信号。循环开始前,
Figure BDA0003570815250000133
会被初始化为
Figure BDA0003570815250000134
随后进入循环,在循环里,基站解码在
Figure BDA0003570815250000135
里最大接收功率的接收信号,并将其他物联网设备的信号作为干扰,之后被解码接收信号会被移除的
Figure BDA0003570815250000136
然后进入下一次循环。因此如果设
Figure BDA0003570815250000137
为接收信号弱于物联网设备m的其他物联网设备集合,则物联网设备m的信噪比可计算为:
Figure BDA0003570815250000138
则物联网设备m在时隙t的传输速率可以有香农公式计算:
πm,t(pm,t)=W log2(1+γm,t(pm,t)) (6)
其中W为物联网系统的带宽。
步骤S102:根据所述基站在各个时隙成功接收到所有物联网设备采样并发射的新鲜信息包的平均加和而建立信息年龄模型;
2)信息年龄模型:
令φm,tφm,t为物联网设备m在时隙t的信息年龄,则
Figure BDA0003570815250000141
从公式(7)中,可以看到如果物联网设备在时隙t采样新鲜信息,即sm,t=1,则在时隙t的起始生成一个包,φm,tφm,t减少到0;如果不采样,即sm,t=0,则φm,t相比于φm,t-1增加τ。
之后,发射器将生成的包以发射功率pt上传,基站如果在一个时隙内能接收到尺寸为Qm的包,则为传输成功。令um,t=1表示物联网设备m在时隙t的传输成功,um,t=0表示物联网设备m在时隙t的传输失败,即
Figure BDA0003570815250000142
令ut={u1,t,…,um,t,…,uM,t}表示所有物联网设备的传输成功与否。则物联网设备m在基站的信息年龄可以表示为
Figure BDA0003570815250000143
其中lm,t为物联网设备m在时隙t的传输时延,可以计算为
Figure BDA0003570815250000144
因为基站接收所有物联网网络中的所有物联网设备的包,所以采用所有物联网设备的平均加和信息年龄去衡量物联网网络中的信息新鲜度,平均加和信息年龄被定义为:
Figure BDA0003570815250000145
步骤S103:根据所述所有物联网设备在各个时隙采样、生成以及发射所述新鲜信息包所需能耗的平均加和而建立能耗模型;
3)能耗模型:
对于物联网设备m在时隙t的能耗定义为:
εm,t(sm,t,pm,t)=sm,tCs+pm,tlm,t, (12)
其中Cs是采样新鲜信息的和生成包的能耗,pm,tlm,t为传输包的能耗。因为基站一般有足够的能量供给,所以不考虑基站的能耗,因此定义所有物联网设备的平均加和能耗:
Figure BDA0003570815250000151
来衡量物联网系统的能耗。
步骤S104:以最小化所述所有物联网设备信息年龄和能耗的平均加权和为优化目标,以所述所有物联网设备采样决策和发射功率为优化变量,建立优化问题;
根据定义的系统模型建立优化问题,目的在于最小化所有物联网设备的加权平均加和。因为基站通过pt和st来选择设备来采样信息并上传包,因此优化问题的变量为pt和st,然后最优问题可以写为:
Figure BDA0003570815250000152
Figure BDA0003570815250000153
Figure BDA0003570815250000154
其中γa和γe是非负的权重因子。
步骤S105:基于采样决策和发射功率之间的关系定理,将所述优化问题中所述所有物联网设备的采样决策变量和发射功率变量简化为仅有所述所有物联网设备发射功率变量的优化问题,建立状态空间、动作空间以及奖励函数,得到深度强化学习框架;
定义运行DRL算法的智能体为基站。具体来说,在每一个时隙,由基站做出其中包含采样选择,发射功率的决策。定义运行DRL算法的智能体为基站,具体来说,在每一个时隙,由基站做出其中包含采样选择,发射功率的决策。
在系统模型中,由智能体在时隙t观察的状态定义为
ot=[o1,t,…,om,t,…,oM,t], (3)
其中om,t代表着智能体对物联网设备m在时隙t的观察,定义为
om,t=[um,t-1,γm,t-1,Φm,t-1], (4)
其中umm,t-1,γm,t-1γm,t-1以及Φm,t-1Φm,t-1可以由基站的信号接收历史记录中得到。
有两种常用的DRL算法,深度Q学习(Deep Q Learning,DQN)和DDPG,其中DDPG适用于连续动作空间,而DQN只适用于离散空间。从公式(14)中可以看出,优化问题中的变量为st和pt,因此动作空间应该包含st和pt,其中st∈{0,1}为离散空间,pt∈[0,Pm,max]。因为pt是连续空间,因此DQN不适用去解决公式(14)中的问题。另外一方面,DDPG也不适用于解决公式(14)中的问题因为st是离散空间。为了解决这个困境,引入以下定理:
定理1:给定
Figure BDA0003570815250000161
物联网设备m在时隙t的最优的采样决策
Figure BDA0003570815250000166
可以为:
Figure BDA0003570815250000163
其中,Cm,t,1=γeCsaum,tmm,t-1+τ).
证明:为了求得在给定
Figure BDA0003570815250000164
下的
Figure BDA0003570815250000165
首先需要建立pm,t与sm,t之间的关系。为此,代入公式(9),(11),(12),(13),所有物联网设备的加权平均加和可以写为(18):
Figure BDA0003570815250000171
然后带入公式(7),物联网设备m在时隙t的加权信息年龄与能耗之和可以写为(19):
γaΦm,t(sm,t,pm,t)+γeεm,t(sm,t,pm,t)
=γaum,t(1-sm,t)(φm,t-1+τ)+γesm,tCsa[(1-um,t)(Φm,t-1+τ)+um,tlm,t]+γepm, tlm,t
=sm,teCsaum,tm,t-1+τ)]+γaum,tm,t-1+τ)+γa[(1-um,t)(Φm,t-1+τ)+um, tlm,t]+γepm,tlm,t
=sm,teCsaum,tm,t-1+τ)]+γa[um,tm,t-1+τ)+(1-um,t)(Φm,t-1+τ)+um, tlm,t]+γepm,tlm,t
=sm,tCm,t,1+Cm,t,2
在公式(19)中,Cm,t,2=γa[um,tm,t-1+τ)+(1-um,t)(Φm,t-1+τ)+um,tlm,t]+γepm, tlm,t而Cm,t,1=γeCsaum,tm,t-1+τ)。
在Cm,t,1和Cm,t,2中,当pm,t给定后,Φm,t-1φm,t-1可以根据基站的历史的采样决策求得,Φm,t-1Φm,t-1和lm,t可以由基站根据公式(9)和公式(10)来分别计算。因此,求取
Figure BDA0003570815250000172
的优化问题可以表示为:
Figure BDA0003570815250000173
因此可以有最优的采样决策为:
Figure BDA0003570815250000174
证毕。
由定理1,公式(14)可以被改写为
Figure BDA0003570815250000175
s.t.(14a),(17). (21a)
由公式(22)可以看到,只有需要连续的变量pt去最小化所有物联网设备的加权平均加和。
至此可以定义pt为动作空间,并采用DDPG为优化算法。
基站的目标为最小化所有物联网设备的加权平均加和,因此时隙t的奖励函数可以定义为:
Figure BDA0003570815250000181
这里注意奖励函数里有一个负号,因此rt(ot,pt)随着所有物联网设备的加权平均加和的减少而增加。
步骤S106:利用DDPG算法求解所述所有物联网设备的最优发射功率。
DDPG采用了演员-评论家(Actor-Critic)构架,其中演员(Actor)被采用来近似策略和提升策略,评论家(Critic)被采用来评估策略,最优策略在提升近似的策略和评估近似的策略之间的迭代中求得。在DDPG算法中,深度神经网络(Deep Neural Network,DNN)被Actor和Critic采用,因此形成Actor网络以及Critic网络,这两个网络也叫做主要网络。除了主要网络以外,还有目标网络(Target Networks),目标网络包括目标演员网络(TargetActor-Network)以及目标评论家网络(Target Critic-Network),目标网络与主要网络有着相同的构架。令θ,ζ,θ′和ζ′分别为Actor网络,Critic网络,目标Actor网络(TargetActor-Network),目标Critic网络(Target Critic-Network)的参数,Δt为在时隙t叠加在动作上的探索噪声。
物联网系统长期折扣奖励的期望被定义为:
Figure BDA0003570815250000182
其中β∈[0,1]是折扣因子,pt=μ(ot)代表时隙t的动作pt是根据策略在μ在当前是时隙下的状态ot确定的。然后通过DDPG去求得最优的策略来最小化J(μ)。
最后得到的最优发射功率传输策略,利用最优传输策略求取最优的采样。得到最优的物联网传输策略。
本实施例采用深度学习来解决物联网系统传输的问题,根据物联网系统模型构建信息年龄和能耗模型,然后建立以采样决策和发射功率为优化变量的优化问题,将优化问题中的采样决策变量和发射功率变量简化为仅有发射功率变量的优化问题,利用DDPG来获取物联网设备的最优发射功率传输策略,以最小化物联网系统的信息年龄和能耗。
基于上述实施例参考图3,图3为所示的算法流程示意图,在本实施例中,具体解释说明利用DDPG算法得到最优传输的过程。设θ和ζ分别为actor和critic网络的参数,θ′和ζ′分别为target actor和target critic的网络参数。
S301:随机初始化actor网络参数θ及critic网络参数ζ,将θ和ζ赋值给θ′和ζ′,以完成target actor网络参数θ′和target critic的网络参数的初始化ζ′,建立回放缓冲
Figure BDA0003570815250000191
初始化参数,建立一个经验回放缓冲
Figure BDA0003570815250000192
用于缓冲状态转移。
S302:将训练片段数e初始化为1;
算法会循环E个片段,在每个片段的开始,系统模型的仿真参数会重置。具体来说,对于任意物联网设备m,um,t=0,Φm,0=0,hm(0)随机初始化,而Actor网络根据随机的θ输出p0,有了p0,SINRγm,0可以根据公式(5)计算,就有了om,1=[um,0,γm,0Φm,0]可以被智能体观察到,进而在时隙1的状态o1可以被智能体观察到。
S303:将片段e中的时隙t初始化为1;
S304:将状态ot输入所述actor网络,输出μθ(ot|θ),随机生成噪声Δt,以便所述物联网设备的传输功率为pt=μθ(ot|θ)+Δt,并获取奖励rt,同时转化到下一状态ot+1,得到元组[ot,pt,rt,ot+1],并将所述元组[ot,pt,rt,ot+1]存储到所述经验回放缓冲
Figure BDA0003570815250000204
中;
算法从时隙1到时隙T进行循环,具体来说,对于任意时隙t,将时隙t的状态输入Actor网络然后输出为μθ(ot|θ),然后探索噪声Δt会叠加在此输出上,然后所有物联网设备的传输功率可以为pt=μθ(ot|θ)+Δt。给定pt,智能体分别根据公式(8),(17)和(5)计算物联网设备m的um,t,sm,t和γm,t。给定um,t,sm,t和pm,t,随后可根据公式(9)和(12)来计算Φm,t(sm,t,um,t)和εm,t(sm,t,pm,t)则rt可以由公式(19)来确定。接下来,由um,t,γm,t和Φm,tΦm,t,智能体可以根据公式(15)观察到时隙t+1的状态ot+1,并将元组[ot,pt,rt,ot+1]存储到经验回放缓冲中。当
Figure BDA0003570815250000201
时,智能体将ot+1输入Actor网络开始下一个时隙的循环。
S305:判断所述回放缓冲中的元组数
Figure BDA0003570815250000202
是否小于等于I,若小于等于I,则t=t+1,返回执行步骤S704直至所述回放缓冲
Figure BDA0003570815250000203
中的元组数目大于I;
S306:当所述回放缓冲
Figure BDA00035708152500002113
中的元组数目大于I后,将片段E中的时隙t初始化为1;
Figure BDA0003570815250000211
后,对于每个时隙,参数θ,ζ,θ′和ζ′通过迭代地方式更新来最大化。其中θ朝着梯度
Figure BDA0003570815250000212
的方向更新。记
Figure BDA0003570815250000213
为在ot和pt下的动作价值函数,计算为从时隙t开始的长期折扣奖励的期望:
Figure BDA0003570815250000214
Figure BDA0003570815250000215
可以被替换为解
Figure BDA0003570815250000216
但是因为动作空间时连续的,所以在公式(25)中的
Figure BDA0003570815250000217
不能被由贝尔曼方程计算。为了解决这个问题,Critic网络采用以ζ为参数的深度神经网络去近似动作价值函数
Figure BDA0003570815250000218
由Critic网络近似的动作价值函数记为Qζ(ot,pt)。
经验
Figure BDA0003570815250000219
后的具体参数更新过程如下。智能体首先服从均匀分布地从
Figure BDA00035708152500002110
中抽取一个由I个元组构成的样本包(Mini-batch),对于样本包中的第i个元组(oi,pi,ri,o′i)(i∈{1,2,…,I}),智能体计算目标值(Target Value)为:
Figure BDA00035708152500002111
其中p′i=μθ′(o′i|θ′)是目标Actor网络输入o′i后输出,Qζ′(o′i,p′i)是目标Critic网络输入o′i和p′i后的输出。有了yi,智能体可以如下地计算损失函数:
Figure BDA00035708152500002112
其中Qζ(oi,pi)是Critic网络输入oi和pi后的输出,然后Critic网络根据损失函数的梯度通过梯度下降的方法更新参数。
S307:从所述回放缓冲池
Figure BDA0003570815250000221
中根据均匀分布随机抽取一个由I个元组构成的样本包,将所述样本包中的每个元组输入至所述target actor网络、所述target critic网络和所述critic网络;
S308:对于所述样本包中的第i个元组(oi,pi,ri,o′i),i=1,2,…,I,将o′i输入所述target actor网络,输出动作p′i=μθ′(o′i|θ′),将o′i和p′i输入所述target critic网络,输出动作价值函数Qζ′(o′i,p′i),计算目标值
Figure BDA0003570815250000222
将oi和pi输入至所述critic网络输出动作价值函数Qζ(oi,pi)并计算所有元组的损失
Figure BDA0003570815250000223
Figure BDA0003570815250000224
S309:通过损失函数的梯度下降来更新所述critic网络的参数ζ,通过梯度上升更新所述actor网络的参数θ;
S310:分别根据θ′←κaθ+(1-κa)θ′和ζ′←κaζ+(1-κa)ζ′更新所述target actor网络的参数θ′和所述target critic网络的参数ζ′,其中,κa<<1和κa<<1为常数;
由Critic网络近似的动作价值函数,
Figure BDA0003570815250000225
可以计算为
Figure BDA0003570815250000231
则Actor网络根据
Figure BDA0003570815250000232
采用梯度上升的方法更新网络参数。到这里,主要网络的参数已经更新完毕。
接下来目标网络会根据主要网络的参数来更新参数:
Figure BDA0003570815250000233
其中κ为远小于1的常数。
S311:判断t<T是否成立,若成立,则令t=t+1,返回执行步骤S707,若不成立,则执行步骤S710;
S312:判断e<E是否成立,若成立,则令e=e+1,返回执行步骤S703,若不成立,则得到所述最优传输功率分配策略。
本实施例中,整个算法在循环E个片段后结束,输出优化后的actor网络、critic网络、target actor网络,target critic网络的参数。这时意味着训练阶段已经结束,最优发射功率传输策略已经得到。
图4系统中有不同数目物联网设备时的训练阶段的学习曲线。
每个曲线反映了不同片段里所有时隙的平均奖励。可以看到,在0至150片段里,不同曲线的平均奖励都在上升或者波动,这反映着智能体正在朝着能最大化奖励的方向学习策略。在150个片段后,有一些波动,这是因为探索噪声让智能体调整策略避免收敛到局部最优,并尝试探索到更好地策略。在此之后,学习曲线开始变得平稳,相比于未训练前有着更高的奖励,说明智能体已经学到了最优策略。同时也可以看到在结尾的片段训练趋于稳定后中,物联网设备数目越多学习曲线越低,这是因为根据公式(19),更多的物联网设备会使奖励的项增加从而使奖励下降。
在测试阶段引入了随机策略作为对比,其中随机策略随机地在[0,Pm,max]分配功率,采样决策由公式(17)决定。
图5对比了在最优策略和随机策略下不同物联网设备数目时的
Figure BDA0003570815250000241
可以看到,在两种策略下,
Figure BDA0003570815250000242
会随着物联网设备数目的增加而增加,这是因为
Figure BDA0003570815250000243
中包含所有物联网设备的信息年龄,根据公式(5),更多的物联网设备会引入更多的干扰,由公式(10)传输速率会降低且传输时延增加,因此接收到的信息会更加老旧,信息年龄会增加。另外可以看到的是,最优策略在信息年龄性能上优于随机策略,这是因为最优策略可以自适应地根据观察到的状态进行功率分配。
图6对比了在最优策略和随机策略下不同物联网设备数目时的
Figure BDA00035708152500002411
可以看到在两种策略下,随着物联网设备数目的增长
Figure BDA00035708152500002412
也会增长,如图4的解释中所述,更多的物联网物设备会引入更多的干扰,导致信息年龄的上升,而根据公式(16)智能体可以观察信息年龄去做功率分配,为了保证更低的信息年龄,需要消耗发更多的能量去采样和发射。另外可以看到,最优策略在能耗性能上总是优于随即策略,这是由于智能体自适应调节功率分配的原因。
图7比较了在最优策略下的平均奖励,其中平均奖励是从每个时隙的测试结果中平均出来的。可以看到平均奖励随着物联网设备数目的增长而增长,这是因为奖励函数由
Figure BDA00035708152500002413
Figure BDA0003570815250000245
组成,而两者都会随着物联网设备数目的增长而增长。另外可以看到的是,最优策略的奖励始终比随即策略的高,说明我们的优化目标达到了预期的效果。
图8和图9对比了在不同包大小下的
Figure BDA00035708152500002414
Figure BDA0003570815250000247
可以看到在不同的包大小下,最优策略在
Figure BDA00035708152500002415
Figure BDA0003570815250000249
性能上仍然具有优越性。
设置如下的实验参数
表1实验参数
Figure BDA00035708152500002410
Figure BDA0003570815250000251
这里对实验实施进一步的解释。实验工具为Python3.6。对于Actor网络和Critic网络都使用了四层全连接的深度神经网络,中间的两层隐藏层神经元个数分别为400、300个。探索噪声Δt由衰减率为0.15和方差为0.004的Ornstein-Uhlenbeck噪声生成。采用了Adam优化方法以10-3和10-4的学习率来更新Critic网络和Actor网络的参数。物联网设备被随机安放在距离基站[50,100]米的位置。
请参考图10,图10为本发明实施例提供的一种基于深度确定性策略的物联网传输的装置的结构框图;具体装置可以包括:
建立网络模型模块100,用于基于物联网系统模型建立基站与物联网设备之间的网络模型、信息年龄模型和能耗模型;
建立信息年龄模型模块200,用于所述信息年龄模型根据所述基站在各个时隙成功接收到所有物联网设备采样并发射信息包的平均加和信息年龄而建立;
建立能耗模型模块300,用于所述能耗模型根据所述所有物联网设备在各个时隙采样、生成以及发射所述新鲜信息包所需能耗的平均加和而建立;
建立优化问题模块400,用于以最小化所述所有物联网设备信息年龄和能耗的平均加权和为优化目标,以所述所有物联网设备采样决策和发射功率为优化变量,建立优化问题;
简化变量模块500,用于基于采样决策和发射功率之间的关系定理,将以所述所有物联网设备的采样决策和发射功率为优化变量的优化问题简化为仅以所述所有物联网设备发射功率为优化变量的优化问题,定义状态空间、动作空间以及奖励函数,建立深度强化学习框架;
策略优化模块600,用于利用DDPG算法求解所述所有物联网设备的最优发射功率策略;
其中,所述采样决策和发射功率之间的关系定理为:给定物联网设备m在时隙t的最优发射功率
Figure BDA0003570815250000261
则所述物联网设备m在时隙t的最优采样决策为:
Figure BDA0003570815250000262
式中,Cm,t,1=γeCsaum,tm,t-1+τ),γe和γa是非负的权重因子,φm,t-1为所述物联网设备m在时隙t-1的信息年龄,τ为每个时隙的时隙间隔,um,t为物联网设备在时隙t的传输,Cs为采样新鲜信息的和生成包的能耗。
本实施例的一种基于深度确定性策略的物联网传输装置用于实现前述的一种基于深度确定性策略的物联网传输方法,因此一种基于深度确定性策略的物联网传输的装置中的具体实施方式可见前文中的一种基于深度确定性策略的物联网传输方法的实施例部分,例如,建立网络模型模块100,建立信息年龄模型模块200,建立能耗模型模块300,建立优化模型模块400,简化变量模块500,策略优化模块600,分别用于实现上述一种基于深度确定性策略的物联网传输方法中步骤S101,S102,S103,S104,S105和S106,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于深度确定性策略的物联网传方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种基于深度确定性策略的物联网传输方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种基于深度确定性策略的物联网传输方法,其特征在于,包括:
基于物联网系统模型建立基站与物联网设备之间的网络模型、信息年龄和能耗模型;
其中,所述信息年龄模型根据所述基站在各个时隙成功接收到所有物联网设备采样并发射新鲜信息包的平均加和信息年龄的而建立;
所述能耗模型根据所述所有物联网设备在各个时隙采样、生成以及发射所述新鲜信息包所需能耗的平均加和而建立;
以最小化所述所有物联网设备信息年龄和能耗的平均加权和为优化目标,以所述所有物联网设备采样决策和发射功率为优化变量,建立优化问题;
基于采样决策和发射功率之间的关系定理,将以所述所有物联网设备的采样决策变量和发射功率为优化变量的优化问题简化为仅以所述所有物联网设备发射功率为优化变量的优化问题,定义状态空间、动作空间以及奖励函数,建立深度强化学习框架;
利用DDPG算法求解所述所有物联网设备的最优发射功率策略;
其中,所述采样决策和发射功率之间的关系定理为:给定物联网设备m在时隙t的最优发射功率
Figure FDA0003570815240000011
则所述物联网设备m在时隙t的最优采样决策为:
Figure FDA0003570815240000012
式中,Cm,t,1=γeCsaum,tm,t-1+τ),γe和γa是非负的权重因子,φm,t-1为所述物联网设备m在时隙t-1的信息年龄,τ为每个时隙的时隙间隔,um,t为物联网设备在时隙t的传输采样决策,Cs为采样生成新鲜信息包的能耗。
2.如权利要求1所述的方法,其特征在于,所述物联网系统模型包括:
将所述物联网设备发射器通过MIMO-NOMA信道传输到所述基站的时间划分为T个等长的时隙,每个时隙的间隙时间为τ,时隙的集合记为
Figure FDA0003570815240000021
其中,任意时隙t的开始,所述基站通过发送请求告知所述物联网设备采样决策st={s1,t,…,sm,t,…,sM,t}和发射功率pt={p1,t,…,pm,t,…,pM,t},基站接收到传输包后采用串行干扰消除的方式对接收到的信号进行解码;
其中,sm,t,pm,t为物联网设备
Figure FDA0003570815240000022
在时隙t的采样决策和发射功率,sm,t=1代表所述物联网设备m在时隙t被所述基站选中采样新鲜信息,sm,t=0,则不采样,然后所述物联网m设备根据传输功率pm,t去传输包。
3.如权利要求2所述的方法,其特征在于,所述基站与物联网设备之间的网络模型包括:
所述物联网设备m在时隙t与所述基站的信道矢量为:
Figure FDA0003570815240000023
其中,hr为所述基站与所述物联网设备通信距离为1米时的参照信道增益,dm为所述基站和所述物联网设备m之间的通信距离,η为路径损耗指数.
Figure FDA0003570815240000024
为随机小尺度衰落信道增益;
Figure FDA0003570815240000025
式中,ρm为归一化信道相关系数,e(t)为服从复高斯分布的误差向量;
则所述基站接收到的信号为:
Figure FDA0003570815240000026
Figure FDA0003570815240000027
其中,cm为偏差为1的复数信号,
Figure FDA0003570815240000028
为方差为
Figure FDA0003570815240000029
的高斯白噪声;
所述基站接收到的所述物联网设备m信号为:Γm,t(pm,t)=pm,t||hm(t)||2
所述物联网设备m的信噪比为:
Figure FDA00035708152400000210
其中,
Figure FDA00035708152400000211
为接收信号弱于物联网设备m的其他物联网设备信号集合,
Figure FDA0003570815240000031
为未解码的信号集合;
所述物联网设备m在时隙t的传输速率由香农公式计算为:
πm,t(pm,t)=W log2(1+γm,t(pm,t));
其中,W为所述物联网系统模型的宽带。
4.如权利要求3所述的方法,其特征在于,所述根据所述基站在时隙t接收到所有物联网设备采样并发射信息的新鲜度建立所述所有物联网设备平均加和的信息年龄模型包括:
所述物联网设备m在时隙t的信息年龄为:
Figure FDA0003570815240000032
其中,如果所述物联网设备m在时隙t采样新鲜信息即sm,t=1,则在时隙t的起始生成一个包,φm,t减少到0;如果不采样,即sm,t=0,则φm,t相比于φm,t-1增加τ;
所述物联网设备在时隙t传输表达式为:
Figure FDA0003570815240000033
式中,Qm为所述基站在一个时隙内需要接受的包的尺寸,令um,t=1表示所述物联网设备m在时隙t的传输成功,um,t=0表示所述物联网设备m在时隙t的传输失败;
所述物联网设备m在所述基站的信息年龄的表达式为:
Figure FDA0003570815240000034
式中,lm,t为所述物联网设备m在时隙t的传输时延,可以计算为
Figure FDA0003570815240000035
所述所有物联网设备m的平均加和信息年龄为:
Figure FDA0003570815240000041
5.如权利要求4所述的方法,其特征在于,所述能耗模型根据所述所有物联网设备在各个时隙采样、生成以及发射所述新鲜信息包所需能耗的平均加和而建立包括:
所述物联网设备m在时隙t的能耗定义为:
εm,t(sm,t,pm,t)=sm,tCs+pm,tlm,t
其中,Cs为采样生成新鲜信息包的能耗。,pm,tlm,t为传输包的能耗;
所述所有物联网设备的平均加和能耗为:
Figure FDA0003570815240000042
6.如权利要求5所述的方法,其特征在于,所述以最小化所述所有物联网设备信息年龄和能耗的平均加权和为优化目标,以所述所有物联网设备采样决策和发射功率为优化变量,建立优化问题包括:
以最小化所述所有物联网设备的信息年龄和能耗的加权平均加和,以所述所有物联网设备采样决策st和发射功率pt为优化变量,建立的优化问题为:
Figure FDA0003570815240000043
Figure FDA0003570815240000044
Figure FDA0003570815240000045
其中,γa和γe是非负的权重因子。
7.如权利要求6所述的方法,其特征在于,所述基于采样决策和发射功率之间的关系定理,将以所述所有物联网设备的采样决策变量和发射功率为优化变量的优化问题简化为仅以所述所有物联网设备发射功率为优化变量的优化问题,定义状态空间、动作空间以及奖励函数,建立深度强化学习框架包括:
所述采样决策和发射功率之间的关系定理:给定
Figure FDA0003570815240000046
所述物联网设备m在时隙t的最优采样决策
Figure FDA0003570815240000051
为:
Figure FDA0003570815240000052
其中,Cm,t,1=γeCsaum,tm,t-1+τ);
则所述优化问题可以简化为:
Figure FDA0003570815240000053
Figure FDA0003570815240000054
Figure FDA0003570815240000055
并定义所有物联网设备的发生功率pt为动作空间,其中,Cm,t,1=γeCsaum,tm,t-1+τ);
利用时隙t-1的所述物联网设备m在所述基站处是否采样um,t-1、信噪比γm,t-1以及所述物联网设备在所述基站处的信息年龄Φm,t-1,表征所述基站对所述物联网设备m在时隙t观察而得到的状态空间om,t=[um,t-1,γm,t-1,Φm,t-1],则所述基站对所述所有物联网设备在时隙t的状态空间为ot=[o1,t,…,om,t,…,oM,t];
建立所述物联网设备时隙t的奖励函数
Figure FDA0003570815240000056
所述物联网系统模型长期折扣奖励的期望函数为:
Figure FDA0003570815240000057
其中,β∈[0,1]是折扣因子,pt=μ(ot)代表时隙t的动作pt是根据策略在μ在当前是时隙下的状态ot确定的;
构建所述所有物联网设备服从策略μθ(ot|θ)在状态ot和动作pt下的动作价值函数
Figure FDA0003570815240000058
8.如权利要求7所述的方法,其特征在于,利用DDPG算法求解所述所有物联网设备的最优发射功率策略包括:
S801:随机初始化actor网络参数θ及critic网络参数ζ,将θ和ζ赋值给θ′和ζ′,以完成target actor网络参数θ′和target critic的网络参数的初始化ζ′,建立经验回放缓冲
Figure FDA0003570815240000066
S802:将训练片段数e初始化为1;
S803:初始化物联网系统参数,观察初始状态o1
S804:将片段e中的时隙t初始化为1;
S805:对于时隙t,将状态ot输入所述actor网络,输出μθ(ot|θ),随机生成噪声Δt,得到所述所有物联网设备的传输功率为pt=μθ(ot|θ)+Δt,所有物联网设备根据pt传输信息,返回奖励rt和到下一状态ot+1,得到元组[ot,pt,rt,ot+1],并将所述元组[ot,pt,rt,ot+1]存储到所述经验回放缓冲
Figure FDA0003570815240000061
中;
S806:判断所述回放缓冲中的元组数
Figure FDA0003570815240000062
是否小于等于I,若小于等于I,则t=t+1,返回执行步骤S804直至所述回放缓冲
Figure FDA0003570815240000063
中的元组数目大于I;
S807:当所述回放缓冲
Figure FDA0003570815240000064
中的元组数目大于I后,从所述回放缓冲池
Figure FDA0003570815240000065
中根据均匀分布随机抽取一个包含I个元组构成的样本包;
S808:所述回放缓冲将所述样本包中的每个元组输入至所述target actor网络、所述target critic网络和所述critic网络;
S809:对于所述样本包中的第i个元组(oi,pi,ri,o′i),i=1,2,…,I,将o′i输入所述target actor网络,输出动作p′i=μθ′(o′i|θ′),将o′i和p′i输入所述target critic网络,输出动作价值函数Qζ′(o′i,p′i),计算目标值
Figure FDA0003570815240000071
将oi和pi输入至所述critic网络输出动作价值函数Qζ(oi,pi)并计算所有元组的损失
Figure FDA0003570815240000072
Figure FDA0003570815240000073
S8010:通过损失函数的梯度下降来更新所述critic网络的参数ζ,通过梯度上升更新所述actor网络的参数θ;
S811:分别根据θ′←κaθ+(1-κa)θ′和ζ′←κaζ+(1-κa)ζ′更新所述target actor网络的参数θ′和所述target critic网络的参数ζ′,其中,κa<<1和κa<<1为常数;
S812:判断t<T是否成立,若成立,则令t=t+1,返回执行步骤S805,若不成立,则执行步骤S8113;
S813:判断e<E是否成立,若成立,则令e=e+1,返回执行步骤S803,若不成立,则输出所述最优传输功率分配策略。
9.一种基于深度确定性策略的物联网传输装置,其特征在于,包括:
建立网络模型模块,用于基于物联网系统模型建立基站与物联网设备之间的网络模型、信息年龄模型和能耗模型;
建立信息年龄模型模块,用于所述信息年龄模型根据所述基站在各个时隙成功接收到所有物联网设备采样并发射信息包的平均加和信息年龄而建立;
建立能耗模型模块,用于所述能耗模型根据所述所有物联网设备在各个时隙采样、生成以及发射所述新鲜信息包所需能耗的平均加和而建立;
建立优化问题模块,用于以最小化所述所有物联网设备信息年龄和能耗的平均加权和为优化目标,以所述所有物联网设备采样决策和发射功率为优化变量,建立优化问题;
简化变量模块,用于基于采样决策和发射功率之间的关系定理,将以所述所有物联网设备的采样决策和发射功率为优化变量的优化问题简化为仅以所述所有物联网设备发射功率为优化变量的优化问题,定义状态空间、动作空间以及奖励函数,建立深度强化学习框架;
策略优化模块,用于利用DDPG算法求解所述所有物联网设备的最优发射功率策略;
其中,所述采样决策和发射功率之间的关系定理为:给定物联网设备m在时隙t的最优发射功率
Figure FDA0003570815240000081
则所述物联网设备m在时隙t的最优采样决策为:
Figure FDA0003570815240000082
式中,Cm,t,1=γeCsaum,tm,t-1+τ),γe和γa是非负的权重因子,φm,t-1为所述物联网设备m在时隙t-1的信息年龄,τ为每个时隙的时隙间隔,um,t为物联网设备在时隙t的传输,Cs为采样新鲜信息的和生成包的能耗。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种基于深度确定性策略的物联网传输方法的步骤。
CN202210319016.3A 2022-03-29 2022-03-29 一种基于深度确定性策略的物联网传输方法以及装置 Active CN114727316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210319016.3A CN114727316B (zh) 2022-03-29 2022-03-29 一种基于深度确定性策略的物联网传输方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210319016.3A CN114727316B (zh) 2022-03-29 2022-03-29 一种基于深度确定性策略的物联网传输方法以及装置

Publications (2)

Publication Number Publication Date
CN114727316A true CN114727316A (zh) 2022-07-08
CN114727316B CN114727316B (zh) 2023-01-06

Family

ID=82238842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210319016.3A Active CN114727316B (zh) 2022-03-29 2022-03-29 一种基于深度确定性策略的物联网传输方法以及装置

Country Status (1)

Country Link
CN (1) CN114727316B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115714793A (zh) * 2022-11-08 2023-02-24 大连海事大学 一种工业物联网中感知信息按需传输方法
CN116828510A (zh) * 2023-08-31 2023-09-29 华南师范大学 基于物联网的功率分配方法以及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
US20200359297A1 (en) * 2018-12-28 2020-11-12 Beijing University Of Posts And Telecommunications Method of Route Construction of UAV Network, UAV and Storage Medium thereof
CN113115368A (zh) * 2021-04-02 2021-07-13 南京邮电大学 基于深度强化学习的基站缓存替换方法、系统及存储介质
CN113760511A (zh) * 2021-09-07 2021-12-07 江南大学 一种基于深度确定性策略的车辆边缘计算任务卸载方法
CN114065963A (zh) * 2021-11-04 2022-02-18 湖北工业大学 一种电力物联网中基于深度强化学习的计算任务卸载方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200359297A1 (en) * 2018-12-28 2020-11-12 Beijing University Of Posts And Telecommunications Method of Route Construction of UAV Network, UAV and Storage Medium thereof
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN113115368A (zh) * 2021-04-02 2021-07-13 南京邮电大学 基于深度强化学习的基站缓存替换方法、系统及存储介质
CN113760511A (zh) * 2021-09-07 2021-12-07 江南大学 一种基于深度确定性策略的车辆边缘计算任务卸载方法
CN114065963A (zh) * 2021-11-04 2022-02-18 湖北工业大学 一种电力物联网中基于深度强化学习的计算任务卸载方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XU, XIAOXIA等: "Graph-Embedded Multi-Agent Learning for Smart Reconfigurable THz MIMO-NOMA Networks", 《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》 *
陈巍等: "基于信道和队列状态信息的跨层最优功率分配", 《通信学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115714793A (zh) * 2022-11-08 2023-02-24 大连海事大学 一种工业物联网中感知信息按需传输方法
CN115714793B (zh) * 2022-11-08 2023-09-15 大连海事大学 一种工业物联网中感知信息按需传输方法
CN116828510A (zh) * 2023-08-31 2023-09-29 华南师范大学 基于物联网的功率分配方法以及装置
CN116828510B (zh) * 2023-08-31 2024-01-09 华南师范大学 基于物联网的功率分配方法以及装置

Also Published As

Publication number Publication date
CN114727316B (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
CN114727316B (zh) 一种基于深度确定性策略的物联网传输方法以及装置
CN109862610B (zh) 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN113434212B (zh) 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN109639760B (zh) 一种基于深度强化学习的d2d网络中的缓存策略方法
CN112118601B (zh) 一种减少6g数字孪生边缘计算网络任务卸载延迟的方法
Zhan et al. An incentive mechanism design for efficient edge learning by deep reinforcement learning approach
CN111556461B (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN111754000A (zh) 质量感知的边缘智能联邦学习方法及系统
CN112202928A (zh) 传感边缘云区块链网络可信卸载协作节点选择系统及方法
CN110336620B (zh) 一种基于mac层公平接入的ql-uacw退避方法
CN113760511B (zh) 一种基于深度确定性策略的车辆边缘计算任务卸载方法
Li et al. Deep reinforcement learning-based mobility-aware robust proactive resource allocation in heterogeneous networks
CN114528042A (zh) 基于深度强化学习的节能型自动互联车辆服务卸载方法
CN116708443A (zh) 多层次算力网络任务调度方法及装置
CN116187483A (zh) 模型训练方法、装置、设备、介质和程序产品
Gong et al. Hierarchical deep reinforcement learning for age-of-information minimization in IRS-aided and wireless-powered wireless networks
Modi et al. QoS driven channel selection algorithm for opportunistic spectrum access
CN114090108A (zh) 算力任务执行方法、装置、电子设备及存储介质
Kaur et al. Deep Recurrent Reinforcement Learning-Based Distributed Dynamic Spectrum Access in Multichannel Wireless Networks with Imperfect Feedback
CN116596059A (zh) 一种基于优先级经验共享的多智能体强化学习方法
CN114449584A (zh) 基于深度强化学习的分布式计算卸载方法及装置
Li et al. Dynamic multi-channel access in wireless system with deep reinforcement learning
Cai et al. A Multi-objective Optimization Approach to Resource Allocation for Edge-Based Digital Twin
Yang et al. Multi-objective Deep Reinforcement Learning for Mobile Edge Computing
Zhou et al. Deep reinforcement learning with experience sharing for power control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant