CN115622603A - 一种辅助传输信息年龄最小化优化方法 - Google Patents
一种辅助传输信息年龄最小化优化方法 Download PDFInfo
- Publication number
- CN115622603A CN115622603A CN202211223295.XA CN202211223295A CN115622603A CN 115622603 A CN115622603 A CN 115622603A CN 202211223295 A CN202211223295 A CN 202211223295A CN 115622603 A CN115622603 A CN 115622603A
- Authority
- CN
- China
- Prior art keywords
- irs
- controller
- link
- energy
- destination node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000005457 optimization Methods 0.000 title claims abstract description 16
- 230000007774 longterm Effects 0.000 claims abstract description 12
- 230000002787 reinforcement Effects 0.000 claims abstract description 9
- 238000009826 distribution Methods 0.000 claims abstract description 8
- 230000009471 action Effects 0.000 claims description 38
- 241000209094 Oryza Species 0.000 claims description 10
- 235000007164 Oryza sativa Nutrition 0.000 claims description 10
- 238000005562 fading Methods 0.000 claims description 10
- 235000009566 rice Nutrition 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000010363 phase shift Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 29
- 238000010295 mobile communication Methods 0.000 abstract description 5
- 238000013461 design Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000003306 harvesting Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/145—Passive relay systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/391—Modelling the propagation channel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W76/00—Connection management
- H04W76/10—Connection setup
- H04W76/14—Direct-mode setup
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Electromagnetism (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及无线移动通信领域,且公开了一种辅助传输信息年龄最小化优化方法,提出了传输通信协议设计方案以及基于深度强化学习DQN方法,在该协议中,系统可以工作于三种模式,其中a模式:源节点发送一个更新包到目的节点,此时IRS仅收集能量;b模式:中继链路和直接链路协同传输一个更新包到目的节点,其中利用IRS控制器转发更新包到目的节点使用的能量是来自于IRS控制器之前收集的能量;c模式:IRS控制器只能够处于充电状态,该算法以最小化端到端的长期平均AoI为目标,对于系统的工作模式、两阶段的中继接收和转发的时间和功率分配、IRS控制器的功率、IRS的相位进行了联合优化。
Description
技术领域
本发明涉及无线移动通信领域,具体为一种辅助传输信息年龄最小化优化方法。
背景技术
目前,无线移动通信技术在全球范围经历着快速的发展,现在无线通信成为人们传输信息的主要方式之一。
在面向实时应用的物联网系统中,设备需要实时感知周围物理环境并监测系统状态,从而为智能决策和控制提供及时、有效的信息。对于此类时间敏感信息,若决策端获取的是过时信息,将会导致无效决策甚至错误控制,并造成巨大的安全问题。此外,在未来第六代移动通信网络中,新业务和新应用对信息新鲜度的要求越来越高。为了有效地刻画信息新鲜度,学术界提出了信息年龄(Age of Information,AoI)的概念。目前,AoI已迅速成为无线通信系统新的性能指标和研究热点之一。
无线中继技术可以低成本地扩展无线通信距离,是5G无线通信系统采用的一项关键技术。由于5G技术方案存在一定的局限性,迫切需要开发具有突破性的新技术,以较低成本、复杂度和能耗实现未来移动网络容量的可持续增长。此外,实现超可靠无线通信的根本挑战来自于实时变化的无线衰落信道。因此学者们提出一种新技术IRS,可以实现对无线传播环境的智能控制,以实现超高吞吐量和超可靠无线通信。此外,与传统的电池供电网络相比,使用无线能量传输的通信网络无需手动更换电池或给电池充电,可以有效降低运营成本并且提高通信性能,此外,无线能量传输的通信网络可以完全控制其功率传输,通过对射频信号的发射功率、波形、传输时间、频率等进行调整,可以在不同的物理条件和服务要求下提供稳定的能量供应。
基于无线中继、IRS技术和无线能量传输的上述优点,本课题拟通过在端到端传输的无线通信系统中引入无线中继、IRS技术和无线能量传输技术,即针对射频供能智能反射面与无线中继辅助传输的无线通信系统,研究相应的降低端到端传输信息年龄的方案,提高数据采集的新鲜度。
现有技术问题:
在面向实时应用的物联网系统中,设备需要实时感知周围物理环境并监测系统状态,从而为智能决策和控制提供及时、有效的信息。对于此类时间敏感信息,若决策端获取的是过时信息,将会导致无效决策甚至错误控制,并造成巨大的安全问题。此外,在未来第六代移动通信网络中,新业务和新应用对信息新鲜度的要求越来越高。为了有效地刻画信息新鲜度,学术界提出了信息年龄(Age of Information,AoI)的概念。目前,AoI已迅速成为无线通信系统新的性能指标和研究热点之一;目前以AoI为性能指标的研究有典型的由源节点和目的节点组成的实时监控系统、两跳能量收集的通信网络以及两跳解码转发中继系统等。以往的工作已经在AoI为性能指标的无线通信系统中取得了不少的成果。例如,文献1[M.A.Abd-Elmagid,H.S.Dhillon and N.Pappas,"A Reinforcement LearningFramework for Optimizing Age of Information in RF-Powered CommunicationSystems,"in IEEE Transactions on Communications,vol.68,no.8,pp.4747-4760,Aug.2020,doi:10.1109/TCOMM.2020.2991992.]为典型的由源节点和目的节点组成的实时监控系统,由于未引入中继,覆盖范围是有限的。文献2[A.Arafa and S.Ulukus,"TimelyUpdates in Energy Harvesting Two-Hop Networks:Offline and Online Policies,"inIEEE Transactions on Wireless Communications,vol.18,no.8,pp.4017-4030,Aug.2019,doi:10.1109/TWC.2019.2920351.]引入了一个中继,考虑了一个两跳能量收集的通信网络。文献3[M.Xie,J.Gong and X.Ma,"Age and Energy Tradeoff for ShortPacket Based Two-Hop Decode-and-Forward Relaying Networks,2021IEEE WirelessCommunications and Networking Conference(WCNC),2021,pp.1-6,doi:10.1109/WCNC49053.2021.9417497.]引入多个中继,考虑了部分中继选择和最大-最小终极选择方案的对比,将两种方案进行了年龄-能量的权衡分析,并首次应用了关于AoI作为性能指标的两跳解码转发中继系统。然而,上述工作没有结合IRS技术提升系统性能。特别地,如何在无线通信系统中结合IRS技术和无线中继技术在扩展通信覆盖范围的同时,获得良好的AoI性能,尚未有相关研究。
为了提升结合无线中继技术的无线通信系统性能,在文献4[B.Zheng andR.Zhang,"IRS Meets Relaying:Joint Resource Allocation and Passive BeamformingOptimization,"in IEEE Wireless Communications Letters,vol.10,no.9,pp.2080-2084,Sept.2021,doi:10.1109/LWC.2021.3092222.]中,研究了无线中继和IRS的无线通信系统。然而,其系统性能指标为端到端信息传输可达速率,其研究方法和结果无法适用于以AoI作为性能指标的IRS辅助通信无线中继系统。而且,文献4也没有考虑中继和IRS进行能量收集的情况。因此,当中继和IRS使用射频能收集方式工作时,如何获得良好的AoI性能,也有待进一步探讨,为此我们提出了一种辅助传输信息年龄最小化优化方法。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种辅助传输信息年龄最小化优化方法,解决了上述的问题。
(二)技术方案
为实现上述所述目的,本发明提供如下技术方案:一种辅助传输信息年龄最小化优化方法,包括以下步骤:
第一步:依据信道的时变性,开发了一种新的协议;
第二步:基于所开发的协议,将系统建模为具有有限状态空间和动作空间的平均成本马尔可夫决策问题,基于此,提出一种深度强化学习算法—DQN,得到射频供能智能反射面与无线中继辅助传输信息年龄最小化。
优选的,所述第一步包括以下步骤:
S1:建立信道模型;
S2:协议设计,在k时隙的开始时刻,考虑源端是否可以发送更新包以及IRS控制器是否可以利用之前收集到的能量来转发更新包;
S3:能量模型;
IRS控制器能量Birs_c(k)的变化可以表示为:
S4:信息年龄模型;
令A(k)∈{1,2,...,Amax}表示k时隙目的端的AoI,Amax分别表示目的端的AoI的上界,则AoI的变化可以表示为:
∑θi(k)=1,i∈{a,b,c} (3)
S5:优化问题;
令π={x(0),x(1),...,x(K)}∈∏表示源端采取一个确定性决策,它决定源端每个时隙的状态采样,其中x(k)为k时隙源端采取的某个状态采样动作,∏为所有可能的策略集合,若源端采取策略π,则目的端的长期平均AoI可以表示为:
寻找年龄最优策略π*对应于求解以下问题(P0):
s.t.
-Pirs(k)T-Pirs_c(k)(1-α(k))T]+[θa(k)+θc(k)]*min{Birs_c(k)+ηPS(k)hSC(k)T,Bmax} (7)
A(k+1)=[θa(k)+Θb(k)]+θc(k)*min{Amax,A(k)+1} (8)
∑θi(k)=1,i∈{a,b,c} (9)
策略:∏={π(0),π(1),...,x(K)}
优选的,所述信道模型包括以下内容:
SD链路第k个时隙中的信道系数表示为hSD(k),并将其建模为其中ρ0是参考距离d0=1m处的路径损耗,αSD是SD信道链路的相应路径损耗指数,dSD表示为源节点S与目的节点D之间的距离,以及表示由具有零均值和单位方差的复高斯分布建模的随机散射分量;
从源节点到IRS的链路,将其建模为:其中ζSI是与小尺度衰落相关的莱斯因子,是ULA的阵列响应向量,φSI(k)表示为相应信号的到达角度或离开角度,(·)T表示为转置操作,是莱斯衰落信道中的非直射分量,每个元素表示为随机散射分量;
对于ID链路,即从IRS到目的节点的链路,将其建模为:
优选的,所述S2中系统工作方式有三种模式,a模式:源节点发送一个更新包到目的节点,此时IRS仅收集能量;
b模式:中继链路和直接链路协同传输一个更新包到目的节点,其中利用IRS控制器转发更新包到目的节点使用的能量是来自于IRS控制器之前收集的能量;
c模式:由于直接链路无法发送一个状态更新包,而且通过中继链路也无法辅助转发一个状态更新包到目的节点,因为IRS控制器收集的能量不足以传输一个状态更新包,因此IRS控制器只能够处于充电状态。
优选的,所述第二步的具体步骤为:
S1:最优决策策略;
S2:由于信道增益;
随时间变化的独立性以及IRS控制器端的电池能量、目的端的信息年龄A(k)动态变化过程的马尔可夫性,因此可以将最小化长期平均AoI问题建模为无限时域的MDP问题,基于上述问题提出一种深度强化学习算法—DQN;
在每个时隙中,源端将以ε的概率选择随机动作,以1-ε的概率选择最优动作。
在数学上,遵循ε贪婪策略的动作选择可以表示为:
其中,pr~u(0,1)为当前时隙下随机生成的概率,xrd表示随机选择的动作。特别地,在给定状态动作对(s,X)下。
优选的,所述S2中的一种深度强化学习算法—DQN包括以下内容:
1.初始化环境变量,初始化记忆库D;
2.初始化更新网络的权重β,初始化目标神经网络的权重β'=β;
3.遍历多条轨迹(1:n);
4.初始化状态s(0);
5.步骤1:生成训练数据;
6.遍历轨迹中的每一步(1:N);
8.执行动作a(k),获得下一个状态s(k+1)和即时奖励A(k);
9.存储{s(k),a(k),A(k),s(k+1)}在记忆库中,储存满了就替换之前的经验;
10.结束遍历轨迹中的每一步(1:N);
11.判断如果记忆库是满的;
12.步骤2:更新预测网络;
13.在遍历的每一步中取出一个样本集合Np;
15.结束样本集合的遍历;
16.更新Q目标网络的梯度,ANN权重的梯度为:
17.每隔固定步数更新一次目标神经网络的权重系数:β'=β;
18.令s(k+1)=s(k);
19.结束多条轨迹的遍历。
(三)有益效果
与现有技术相比,本发明提供了一种辅助传输信息年龄最小化优化方法,具备以下有益效果:
1、该辅助传输信息年龄最小化优化方法,与传统的IRS技术相比,IRS结合IRS控制器设备是为了在目的节点所在的位置观察到接收源节点发送的状态数据包尽量保持最新,可以提高目的节点观察源节点发送状态数据包的新鲜度,让它更加及时地观察到源节点采集到的信息。
2、该辅助传输信息年龄最小化优化方法,与现有的相关技术相比,提出一种新型的IRS辅助通信系统,除了其仅调谐IRS元件反射的常规作用外,还通过IRS控制器来控制中继信息。本发明的方案可进一步体现出IRS及IRS控制器的优势,更加起到降低端到端的长期平均AoI。
3、该辅助传输信息年龄最小化优化方法,利用IRS控制器的收集的能量进行信息的传输,而不是使用固定发射功率。
附图说明
图1为网络模型示意图;
图2为b模式状态更新模式示意图;
图3为本发明流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所要解决的技术问题主要是如何在实时监控系统中,观察不同的物理过程,如温度或湿度。假设每个源节点通过随时间发送状态更新包来保持其在目的节点处观察到过程的信息状态是新鲜的,即使得端到端的的长期平均信息年龄加权和(AoI)最小化。该技术问题属于无线通信优化设计领域。针对此问题,需要解决以下的问题:1)利用信道的随机性,设计基于射频供能智能反射面与无线中继辅助传输信息年龄最小化优化系统的新协议;2)根据新协议对基于射频供能智能反射面与无线中继辅助传输信息年龄最小化提出算法。
考虑如图1所示的IRS辅助实时监测通信系统,其中从源节点到目的节点的传输由IRS辅助,该IRS由M个无源反射原件通过有线链路连接到IRS控制器(相当于中继)。该网络由源端(S)、带有IRS控制器的智能反射面(IRS)和目的地节点(D)组成,在源节点和目的地节点之间具有直接链路模式和中继链路模式。源节点配备有射频能量RF收集电路作为其唯一的能量源,源节点通过采集周围数据信息,将周围的数据信息以状态更新数据包的形式发送到目的节点以提高其在目的地节点处观察到过程的信息状态采集的新鲜度。
在所考虑的系统中,假设系统时间被划分为具有索引k=0,1,...,K的单位时隙。不失一般性,假设每个时隙的持续时间为1秒。源端S将在每个时隙的开始时刻决定采样动作和更新模式,并且状态采样和更新传输可以在一个时隙内完成。此外,文本考虑忽略源端的状态采样的时间成本和能量成本。
令分别表示k时隙S到D、S到IRS、S到IRS控制器、IRS到IRS控制器、IRS到D和IRS控制器到D的信道链路增益。假设它们受到准静态平坦衰落的影响,这意味着信道状态将在一个时隙内保持不变,在不同时隙之间独立变化。
一种辅助传输信息年龄最小化优化方法,包括以下步骤:
S1、依据信道的时变性,为了提高端到端的数据采集的新鲜度,开发了一种新的协议。
具体的,所述步骤S1包括以下步骤:
S11、信道模型
从源节点到目的节点的每一次任务是在单独的一个时隙的基础上执行的。也就是说,在源节点S采样更新包的每个时隙开始时,IRS控制器决定是否收集够足够能量将所采集的更新包传输到目的节点D。此外,假设所考虑的IRS辅助系统中的信道在一个时隙内不变,但它们可以在不同的时隙中独立变化。
如上所述,对于SD链路第k个时隙中的信道系数表示为hSD(k),并将其建模为瑞利衰落,如:其中ρ0是参考距离d0=1m处的路径损耗,αSD是SD信道链路的相应路径损耗指数,dSD表示为源节点S与目的节点D之间的距离,以及表示由具有零均值和单位方差的复高斯分布建模的随机散射分量。对于CD链路,即从IRS控制器到目的节点的链路,将其建模为瑞利衰落,如:对于SI链路,即从源节点到IRS的链路,将其建模为莱斯分布,如:其中ζSI是与小尺度衰落相关的莱斯因子,是ULA的阵列响应向量,φSI(k)表示为相应信号的到达角度或离开角度,然后(·)T表示为转置操作,是莱斯衰落信道中的非直射分量,每个元素表示为随机散射分量。对于SC链路,即从源节点到IRS控制器的链路,将其建模为莱斯分布,如:对于IC链路,即从IRS到IRS控制器的链路,将其建模为莱斯分布,如:对于ID链路,即从IRS到目的节点的链路,将其建模为莱斯分布,如:
S12、协议设计
在本小节中,考虑一种混合采样的更新策略,即在k时隙的开始时刻,考虑源端是否可以发送更新包以及IRS控制器是否可以利用之前收集到的能量来转发更新包。系统工作方式有三种模式。a模式:源节点发送一个更新包到目的节点,此时IRS仅收集能量;b模式:中继链路和直接链路协同传输一个更新包到目的节点,其中利用IRS控制器转发更新包到目的节点使用的能量是来自于IRS控制器之前收集的能量;c模式:由于直接链路无法发送一个状态更新包,而且通过中继链路也无法辅助转发一个状态更新包到目的节点,因为IRS控制器收集的能量不足以传输一个状态更新包,因此IRS控制器只能够处于充电状态。其中b模式状态更新模式示意图如图2所示。
S13、能量模型
假设源端以ps恒定功率向目的节点传输更新包,同时,IRS控制器可以进行能量的收集,能量效率为η,将能量储存在Bmax的电池中,用于在未来进行更新包的传输。本协议采用TS协议,其中设a(k)T为IRS控制器在中继转发之前的运行时间,(1-a(k))T为将更新包从IRS控制器转发到目的节点的运行时间。本协议采用PS协议,其中ρ(k)为IRS控制器转发更新包之前进行能量收集的功率因子,1-ρ(k)为IRS控制器进行信息解码的功率因子。因此IRS控制器能量Birs_c(k)的变化可以表示为:
S14、信息年龄模型
AoI定义由自源端生成的最新更新包到达目的地所经历的时间。令A(k)∈{1,2,...,Amax}表示k时隙目的端的AoI,Amax分别表示目的端的AoI的上界。则AoI的变化可以表示为:
∑θi(k)=1,i∈{a,b,c} (3)
S15、优化问题
令π={x(0),x(1),...,x(K)}∈∏表示源端采取一个确定性决策,它决定源端每个时隙的状态采样。其中x(k)为k时隙源端采取的某个状态采样动作,∏为所有可能的策略集合。若源端采取策略π,则目的端的长期平均AoI可以表示为:
本文的目标是通过寻找年龄最优策略π*来最小化目的端的长期平均AoI。因此,寻找年龄最优策略π*对应于求解以下问题(P0):
s.t.
-Pirs(k)T-Pirs_c(k)(1-α(k))T]+[θa(k)+θc(k)]*min{Birs_c(k)+ηPS(k)hSC(k)T,Bmax} (7)
A(k+1)=[θa(k)+Θb(k)]+θc(k)*min{Amax,A(k)+1} (8)
∑θi(k)=1,i∈{a,b,c} (9)
策略:∏={π(0),π(1),...,x(K)}
S2、基于所开发的协议,将系统建模为具有有限状态空间和动作空间的平均成本马尔可夫决策(MDP)问题,基于此,提出一种深度强化学习算法—DQN,得到射频供能智能反射面与无线中继辅助传输信息年龄最小化。
S21、最优决策策略
信道状态随时间的独立性导致了IRS控制器的能量状态及其能量状态转换的不确定性,因此最小化长期平均AoI问题是一个随机优化问题。为了求解这个问题,本文首先将其转换为MDP问题,针对环境状态信息未知的情况,提出了一个深度学习DQN算法求解问题。
S22、马尔可夫决策过程
由于信道增益随时间变化的独立性以及IRS控制器端的电池能量、目的端的信息年龄A(k)动态变化过程的马尔可夫性,因此可以将最小化长期平均AoI问题建模为无限时域的MDP问题。下面对MDP的主要组成成分进行详细的介绍。
a)状态空间:由于实际的信道增益是连续随机变量,因此本文采用FSMC模型,将信道增益等概率划分为K个离散信道增益。在这种情况下,可以定义k时隙的系统状态为其中S是包含所有可能系统状态的状态空间,它是一个有限集合。
b)动作空间:在k时隙,系统一共有三种模式,因此在s(k)状态下IRS控制器采取的动作可以表示为:
c)收益:A(k+1)表示k+1时隙目的端的AoI。系统状态s(k)下采取动作X(k)的即时成本,则A(k+1)可以定义为:
∑θi(k)=1,i∈{a,b,c} (13)
3、基于建模的MDP问题,提出一种深度强化学习算法—DQN,得到射频供能智能反射面与无线中继辅助传输信息年龄最小化。
S31、DQN算法
在实际环境中,信道状态的转移概率通常是难以获得的,因此本文采用一种无模型的DQN学习算法求解问题(P0),寻找最优策略。具体的来说,在DQN学习的算法过程中,源端通过不断地与环境进行试错交互,估计和学习最优的动作值函数;然后源端将根据学习到的Q值选择当前状态下的动作。为了保证估计的动作值函数最终能够收敛到最优动作值函数,本文使用ε贪婪策略来权衡探索和利用,它能保证探索到足够丰富的环境状态,同时能利用探索到的状态信息来最小化系统的长期平均AoI。因此,在每个时隙中,源端将以ε的概率选择随机动作,以1-ε的概率选择最优动作。
在数学上,遵循ε贪婪策略的动作选择可以表示为:
其中,pr~u(0,1)为当前时隙下随机生成的概率,xrd表示随机选择的动作。特别地,在给定状态动作对(s,X)下,k时隙处DQN的算法的详细步骤如算法1所示。算法1DQN学习算法
1.初始化环境变量,初始化记忆库D;
2.初始化更新网络的权重β,初始化目标神经网络的权重β'=β;
3.遍历多条轨迹(1:n);
4.初始化状态s(0);
5.步骤1:生成训练数据;
6.遍历轨迹中的每一步(1:N);
8.执行动作a(k),获得下一个状态s(k+1)和即时奖励A(k);
9.存储{s(k),a(k),A(k),s(k+1)}在记忆库中,储存满了就替换之前的经验;
10.结束遍历轨迹中的每一步(1:N);
11.判断如果记忆库是满的;
12.步骤2:更新预测网络;
13.在遍历的每一步中取出一个样本集合Np;
15.结束样本集合的遍历;
16.更新Q目标网络的梯度,ANN权重的梯度为:
17.每隔固定步数更新一次目标神经网络的权重系数:β'=β;
18.令s(k+1)=s(k);
19.结束多条轨迹的遍历。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种辅助传输信息年龄最小化优化方法,其特征在于,包括以下步骤:
第一步:依据信道的时变性,开发了一种新的协议;
第二步:基于所开发的协议,将系统建模为具有有限状态空间和动作空间的平均成本马尔可夫决策问题,基于此,提出一种深度强化学习算法—DQN,得到射频供能智能反射面与无线中继辅助传输信息年龄最小化。
2.根据权利要求1所述的一种辅助传输信息年龄最小化优化方法,其特征在于:所述第一步包括以下步骤:
S1:建立信道模型;
S2:协议设计,在k时隙的开始时刻,考虑源端是否可以发送更新包以及IRS控制器是否可以利用之前收集到的能量来转发更新包;
S3:能量模型;
IRS控制器能量Birs_c(k)的变化可以表示为:
S4:信息年龄模型;
令A(k)∈{1,2,...,Amax}表示k时隙目的端的AoI,Amax分别表示目的端的AoI的上界,则AoI的变化可以表示为:
∑θi(k)=1,i∈{a,b,c} (3)
S5:优化问题;
令π={x(0),x(1),...,x(K)}∈∏表示源端采取一个确定性决策,它决定源端每个时隙的状态采样,其中x(k)为k时隙源端采取的某个状态采样动作,∏为所有可能的策略集合,若源端采取策略π,则目的端的长期平均AoI可以表示为:
寻找年龄最优策略π*对应于求解以下问题(P0):
s.t.
A(k+1)=[θa(k)+Θb(k)]+θc(k)*min{Amax,A(k)+1} (8)
∑θi(k)=1,i∈{a,b,c} (9)
策略:∏={π(0),π(1),...,x(K)}
3.根据权利要求2所述的一种辅助传输信息年龄最小化优化方法,其特征在于:所述信道模型包括以下内容:
SD链路第k个时隙中的信道系数表示为hSD(k),并将其建模为其中ρ0是参考距离d0=1m处的路径损耗,αSD是SD信道链路的相应路径损耗指数,dSD表示为源节点S与目的节点D之间的距离,以及表示由具有零均值和单位方差的复高斯分布建模的随机散射分量;
从源节点到IRS的链路,将其建模为:其中ζSI是与小尺度衰落相关的莱斯因子,是ULA的阵列响应向量,φSI(k)表示为相应信号的到达角度或离开角度,(·)T表示为转置操作,是莱斯衰落信道中的非直射分量,每个元素表示为随机散射分量;
对于ID链路,即从IRS到目的节点的链路,将其建模为:
4.根据权利要求2所述的一种辅助传输信息年龄最小化优化方法,其特征在于:所述S2中系统工作方式有三种模式,a模式:源节点发送一个更新包到目的节点,此时IRS仅收集能量;
b模式:中继链路和直接链路协同传输一个更新包到目的节点,其中利用IRS控制器转发更新包到目的节点使用的能量是来自于IRS控制器之前收集的能量;
c模式:由于直接链路无法发送一个状态更新包,而且通过中继链路也无法辅助转发一个状态更新包到目的节点,因为IRS控制器收集的能量不足以传输一个状态更新包,因此IRS控制器只能够处于充电状态。
6.根据权利要求5所述的一种辅助传输信息年龄最小化优化方法,其特征在于:所述S2中的一种深度强化学习算法—DQN包括以下内容:
1.初始化环境变量,初始化记忆库D;
2.初始化更新网络的权重β,初始化目标神经网络的权重β'=β;
3.遍历多条轨迹(1:n);
4.初始化状态s(0);
5.步骤1:生成训练数据;
6.遍历轨迹中的每一步(1:N);
8.执行动作a(k),获得下一个状态s(k+1)和即时奖励A(k);
9.存储{s(k),a(k),A(k),s(k+1)}在记忆库中,储存满了就替换之前的经验;
10.结束遍历轨迹中的每一步(1:N);
11.判断如果记忆库是满的;
12.步骤2:更新预测网络;
13.在遍历的每一步中取出一个样本集合Np;
15.结束样本集合的遍历;
16.更新Q目标网络的梯度,ANN权重的梯度为:
17.每隔固定步数更新一次目标神经网络的权重系数:β'=β;
18.令s(k+1)=s(k);
19.结束多条轨迹的遍历。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211223295.XA CN115622603A (zh) | 2022-10-08 | 2022-10-08 | 一种辅助传输信息年龄最小化优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211223295.XA CN115622603A (zh) | 2022-10-08 | 2022-10-08 | 一种辅助传输信息年龄最小化优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115622603A true CN115622603A (zh) | 2023-01-17 |
Family
ID=84860922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211223295.XA Pending CN115622603A (zh) | 2022-10-08 | 2022-10-08 | 一种辅助传输信息年龄最小化优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115622603A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116456372A (zh) * | 2023-06-12 | 2023-07-18 | 合肥工业大学 | 基于动态缩减策略空间的无线监测网络调度方法和系统 |
CN116647857A (zh) * | 2023-04-24 | 2023-08-25 | 重庆邮电大学 | 车联网通信接入模式下的信息年龄优化方法和系统 |
CN116647931A (zh) * | 2023-05-31 | 2023-08-25 | 中国人民解放军陆军工程大学 | 一种上行随机接入系统中基于信息年龄的状态更新方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020183064A1 (en) * | 2001-05-08 | 2002-12-05 | Nandu Gopalakrishnan | Method to control uplink transmissions in a wireless communication system |
CN108885722A (zh) * | 2016-03-25 | 2018-11-23 | 索尼公司 | 信息处理设备 |
CN112752337A (zh) * | 2020-12-16 | 2021-05-04 | 南京航空航天大学 | 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法 |
CN113438315A (zh) * | 2021-07-02 | 2021-09-24 | 中山大学 | 基于双网络深度强化学习的物联网信息新鲜度优化方法 |
CN114637330A (zh) * | 2022-03-22 | 2022-06-17 | 西北农林科技大学 | 一种最小化信息年龄的无人机路径动态规划方法 |
-
2022
- 2022-10-08 CN CN202211223295.XA patent/CN115622603A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020183064A1 (en) * | 2001-05-08 | 2002-12-05 | Nandu Gopalakrishnan | Method to control uplink transmissions in a wireless communication system |
CN108885722A (zh) * | 2016-03-25 | 2018-11-23 | 索尼公司 | 信息处理设备 |
CN112752337A (zh) * | 2020-12-16 | 2021-05-04 | 南京航空航天大学 | 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法 |
CN113438315A (zh) * | 2021-07-02 | 2021-09-24 | 中山大学 | 基于双网络深度强化学习的物联网信息新鲜度优化方法 |
CN114637330A (zh) * | 2022-03-22 | 2022-06-17 | 西北农林科技大学 | 一种最小化信息年龄的无人机路径动态规划方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116647857A (zh) * | 2023-04-24 | 2023-08-25 | 重庆邮电大学 | 车联网通信接入模式下的信息年龄优化方法和系统 |
CN116647931A (zh) * | 2023-05-31 | 2023-08-25 | 中国人民解放军陆军工程大学 | 一种上行随机接入系统中基于信息年龄的状态更新方法 |
CN116456372A (zh) * | 2023-06-12 | 2023-07-18 | 合肥工业大学 | 基于动态缩减策略空间的无线监测网络调度方法和系统 |
CN116456372B (zh) * | 2023-06-12 | 2023-08-11 | 合肥工业大学 | 基于动态缩减策略空间的无线监测网络调度方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
She et al. | A tutorial on ultrareliable and low-latency communications in 6G: Integrating domain knowledge into deep learning | |
Liu et al. | Cooperative offloading and resource management for UAV-enabled mobile edge computing in power IoT system | |
Huang et al. | Multi-agent reinforcement learning-based buffer-aided relay selection in IRS-assisted secure cooperative networks | |
CN115622603A (zh) | 一种辅助传输信息年龄最小化优化方法 | |
Zhang et al. | Joint optimization of cooperative edge caching and radio resource allocation in 5G-enabled massive IoT networks | |
Han et al. | Time-varying topology model for dynamic routing in LEO satellite constellation networks | |
CN109947545A (zh) | 一种基于用户移动性的任务卸载及迁移的决策方法 | |
CN113727306B (zh) | 一种基于深度强化学习的解耦c-v2x网络切片方法 | |
Dai et al. | Routing optimization meets Machine Intelligence: A perspective for the future network | |
Chen et al. | ALBLP: Adaptive Load‐Balancing Architecture Based on Link‐State Prediction in Software‐Defined Networking | |
CN116248164A (zh) | 基于深度强化学习的完全分布式路由方法和系统 | |
Kahraman et al. | Age of information in internet of things: A survey | |
CN115173923A (zh) | 一种低轨卫星网络能效感知路由优化方法和系统 | |
Tao et al. | A traffic scheduling scheme for load balancing in SDN-based space-air-ground integrated networks | |
Gu et al. | AI-Enhanced Cloud-Edge-Terminal Collaborative Network: Survey, Applications, and Future Directions | |
Jaiswal et al. | Age-of-information minimization via opportunistic sampling by an energy harvesting source | |
Chen et al. | Profit-aware cooperative offloading in uav-enabled mec systems using lightweight deep reinforcement learning | |
Meer et al. | Mobility Management for Cellular-Connected UAVs: Model Based Versus Learning Based Approaches for Service Availability | |
Bhaskar et al. | Deep Neural Network Algorithm to Improve Link Reliability in Wireless Sensor Networks | |
Meng et al. | Intelligent routing orchestration for ultra-low latency transport networks | |
Sonti et al. | Enhanced fuzzy C‐means clustering based cooperative spectrum sensing combined with multi‐objective resource allocation approach for delay‐aware CRNs | |
Li et al. | An Intelligent SDWN Routing Algorithm Based on Network Situational Awareness and Deep Reinforcement Learning. | |
CN116980028A (zh) | 一种基于星地融合网络的用户终端网络切换接入方法 | |
Cui et al. | Hierarchical learning approach for age-of-information minimization in wireless sensor networks | |
Dai et al. | Intelligent reflecting surfaces aided task offloading in digital twin edge networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |