CN115622603A - 一种辅助传输信息年龄最小化优化方法 - Google Patents

一种辅助传输信息年龄最小化优化方法 Download PDF

Info

Publication number
CN115622603A
CN115622603A CN202211223295.XA CN202211223295A CN115622603A CN 115622603 A CN115622603 A CN 115622603A CN 202211223295 A CN202211223295 A CN 202211223295A CN 115622603 A CN115622603 A CN 115622603A
Authority
CN
China
Prior art keywords
irs
controller
link
energy
destination node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211223295.XA
Other languages
English (en)
Inventor
黄高飞
易春花
赵赛
郑晖
唐冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202211223295.XA priority Critical patent/CN115622603A/zh
Publication of CN115622603A publication Critical patent/CN115622603A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/145Passive relay systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W76/00Connection management
    • H04W76/10Connection setup
    • H04W76/14Direct-mode setup

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及无线移动通信领域,且公开了一种辅助传输信息年龄最小化优化方法,提出了传输通信协议设计方案以及基于深度强化学习DQN方法,在该协议中,系统可以工作于三种模式,其中a模式:源节点发送一个更新包到目的节点,此时IRS仅收集能量;b模式:中继链路和直接链路协同传输一个更新包到目的节点,其中利用IRS控制器转发更新包到目的节点使用的能量是来自于IRS控制器之前收集的能量;c模式:IRS控制器只能够处于充电状态,该算法以最小化端到端的长期平均AoI为目标,对于系统的工作模式、两阶段的中继接收和转发的时间和功率分配、IRS控制器的功率、IRS的相位进行了联合优化。

Description

一种辅助传输信息年龄最小化优化方法
技术领域
本发明涉及无线移动通信领域,具体为一种辅助传输信息年龄最小化优化方法。
背景技术
目前,无线移动通信技术在全球范围经历着快速的发展,现在无线通信成为人们传输信息的主要方式之一。
在面向实时应用的物联网系统中,设备需要实时感知周围物理环境并监测系统状态,从而为智能决策和控制提供及时、有效的信息。对于此类时间敏感信息,若决策端获取的是过时信息,将会导致无效决策甚至错误控制,并造成巨大的安全问题。此外,在未来第六代移动通信网络中,新业务和新应用对信息新鲜度的要求越来越高。为了有效地刻画信息新鲜度,学术界提出了信息年龄(Age of Information,AoI)的概念。目前,AoI已迅速成为无线通信系统新的性能指标和研究热点之一。
无线中继技术可以低成本地扩展无线通信距离,是5G无线通信系统采用的一项关键技术。由于5G技术方案存在一定的局限性,迫切需要开发具有突破性的新技术,以较低成本、复杂度和能耗实现未来移动网络容量的可持续增长。此外,实现超可靠无线通信的根本挑战来自于实时变化的无线衰落信道。因此学者们提出一种新技术IRS,可以实现对无线传播环境的智能控制,以实现超高吞吐量和超可靠无线通信。此外,与传统的电池供电网络相比,使用无线能量传输的通信网络无需手动更换电池或给电池充电,可以有效降低运营成本并且提高通信性能,此外,无线能量传输的通信网络可以完全控制其功率传输,通过对射频信号的发射功率、波形、传输时间、频率等进行调整,可以在不同的物理条件和服务要求下提供稳定的能量供应。
基于无线中继、IRS技术和无线能量传输的上述优点,本课题拟通过在端到端传输的无线通信系统中引入无线中继、IRS技术和无线能量传输技术,即针对射频供能智能反射面与无线中继辅助传输的无线通信系统,研究相应的降低端到端传输信息年龄的方案,提高数据采集的新鲜度。
现有技术问题:
在面向实时应用的物联网系统中,设备需要实时感知周围物理环境并监测系统状态,从而为智能决策和控制提供及时、有效的信息。对于此类时间敏感信息,若决策端获取的是过时信息,将会导致无效决策甚至错误控制,并造成巨大的安全问题。此外,在未来第六代移动通信网络中,新业务和新应用对信息新鲜度的要求越来越高。为了有效地刻画信息新鲜度,学术界提出了信息年龄(Age of Information,AoI)的概念。目前,AoI已迅速成为无线通信系统新的性能指标和研究热点之一;目前以AoI为性能指标的研究有典型的由源节点和目的节点组成的实时监控系统、两跳能量收集的通信网络以及两跳解码转发中继系统等。以往的工作已经在AoI为性能指标的无线通信系统中取得了不少的成果。例如,文献1[M.A.Abd-Elmagid,H.S.Dhillon and N.Pappas,"A Reinforcement LearningFramework for Optimizing Age of Information in RF-Powered CommunicationSystems,"in IEEE Transactions on Communications,vol.68,no.8,pp.4747-4760,Aug.2020,doi:10.1109/TCOMM.2020.2991992.]为典型的由源节点和目的节点组成的实时监控系统,由于未引入中继,覆盖范围是有限的。文献2[A.Arafa and S.Ulukus,"TimelyUpdates in Energy Harvesting Two-Hop Networks:Offline and Online Policies,"inIEEE Transactions on Wireless Communications,vol.18,no.8,pp.4017-4030,Aug.2019,doi:10.1109/TWC.2019.2920351.]引入了一个中继,考虑了一个两跳能量收集的通信网络。文献3[M.Xie,J.Gong and X.Ma,"Age and Energy Tradeoff for ShortPacket Based Two-Hop Decode-and-Forward Relaying Networks,2021IEEE WirelessCommunications and Networking Conference(WCNC),2021,pp.1-6,doi:10.1109/WCNC49053.2021.9417497.]引入多个中继,考虑了部分中继选择和最大-最小终极选择方案的对比,将两种方案进行了年龄-能量的权衡分析,并首次应用了关于AoI作为性能指标的两跳解码转发中继系统。然而,上述工作没有结合IRS技术提升系统性能。特别地,如何在无线通信系统中结合IRS技术和无线中继技术在扩展通信覆盖范围的同时,获得良好的AoI性能,尚未有相关研究。
为了提升结合无线中继技术的无线通信系统性能,在文献4[B.Zheng andR.Zhang,"IRS Meets Relaying:Joint Resource Allocation and Passive BeamformingOptimization,"in IEEE Wireless Communications Letters,vol.10,no.9,pp.2080-2084,Sept.2021,doi:10.1109/LWC.2021.3092222.]中,研究了无线中继和IRS的无线通信系统。然而,其系统性能指标为端到端信息传输可达速率,其研究方法和结果无法适用于以AoI作为性能指标的IRS辅助通信无线中继系统。而且,文献4也没有考虑中继和IRS进行能量收集的情况。因此,当中继和IRS使用射频能收集方式工作时,如何获得良好的AoI性能,也有待进一步探讨,为此我们提出了一种辅助传输信息年龄最小化优化方法。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种辅助传输信息年龄最小化优化方法,解决了上述的问题。
(二)技术方案
为实现上述所述目的,本发明提供如下技术方案:一种辅助传输信息年龄最小化优化方法,包括以下步骤:
第一步:依据信道的时变性,开发了一种新的协议;
第二步:基于所开发的协议,将系统建模为具有有限状态空间和动作空间的平均成本马尔可夫决策问题,基于此,提出一种深度强化学习算法—DQN,得到射频供能智能反射面与无线中继辅助传输信息年龄最小化。
优选的,所述第一步包括以下步骤:
S1:建立信道模型;
第k个时隙中SIC链路的信道系数表示为
Figure BDA0003878894590000031
其中对角矩阵
Figure BDA0003878894590000032
IRS控制器经由IRS到目的节点链路的信道系数表示为:
Figure BDA0003878894590000041
S2:协议设计,在k时隙的开始时刻,考虑源端是否可以发送更新包以及IRS控制器是否可以利用之前收集到的能量来转发更新包;
S3:能量模型;
IRS控制器能量Birs_c(k)的变化可以表示为:
Figure BDA0003878894590000042
S4:信息年龄模型;
令A(k)∈{1,2,...,Amax}表示k时隙目的端的AoI,Amax分别表示目的端的AoI的上界,则AoI的变化可以表示为:
Figure BDA0003878894590000043
∑θi(k)=1,i∈{a,b,c} (3)
Figure BDA0003878894590000044
S5:优化问题;
令π={x(0),x(1),...,x(K)}∈∏表示源端采取一个确定性决策,它决定源端每个时隙的状态采样,其中x(k)为k时隙源端采取的某个状态采样动作,∏为所有可能的策略集合,若源端采取策略π,则目的端的长期平均AoI可以表示为:
Figure BDA0003878894590000045
寻找年龄最优策略π*对应于求解以下问题(P0):
Figure BDA0003878894590000051
s.t.
Figure BDA00038788945900000512
-Pirs(k)T-Pirs_c(k)(1-α(k))T]+[θa(k)+θc(k)]*min{Birs_c(k)+ηPS(k)hSC(k)T,Bmax} (7)
A(k+1)=[θa(k)+Θb(k)]+θc(k)*min{Amax,A(k)+1} (8)
∑θi(k)=1,i∈{a,b,c} (9)
Figure BDA0003878894590000052
策略:∏={π(0),π(1),...,x(K)}
模式选择:
Figure BDA0003878894590000053
Figure BDA0003878894590000054
Figure BDA0003878894590000055
优选的,所述信道模型包括以下内容:
SD链路第k个时隙中的信道系数表示为hSD(k),并将其建模为
Figure BDA0003878894590000056
其中ρ0是参考距离d0=1m处的路径损耗,αSD是SD信道链路的相应路径损耗指数,dSD表示为源节点S与目的节点D之间的距离,以及
Figure BDA0003878894590000057
表示由具有零均值和单位方差的复高斯分布建模的随机散射分量;
从IRS控制器到目的节点的CD链路,将其建模:
Figure BDA0003878894590000058
从源节点到IRS的链路,将其建模为:
Figure BDA0003878894590000059
其中ζSI是与小尺度衰落相关的莱斯因子,
Figure BDA00038788945900000510
是ULA的阵列响应向量,φSI(k)表示为相应信号的到达角度或离开角度,(·)T表示为转置操作,
Figure BDA00038788945900000511
是莱斯衰落信道中的非直射分量,每个元素表示为随机散射分量;
从源节点到IRS控制器的链路,将其建模为:
Figure BDA0003878894590000061
对于IC链路,即从IRS到IRS控制器的链路,将其建模为:
Figure BDA0003878894590000062
对于ID链路,即从IRS到目的节点的链路,将其建模为:
Figure BDA0003878894590000063
Figure BDA0003878894590000064
表示IRS在时隙k中的等效反射向量,其中θμ,m(k)是第m个反射单元的相移,
Figure BDA0003878894590000065
并且将时隙k中每个反射单元的反射系数振幅设置为最大值,以使信号反射功率最大化,即
Figure BDA0003878894590000066
优选的,所述S2中系统工作方式有三种模式,a模式:源节点发送一个更新包到目的节点,此时IRS仅收集能量;
b模式:中继链路和直接链路协同传输一个更新包到目的节点,其中利用IRS控制器转发更新包到目的节点使用的能量是来自于IRS控制器之前收集的能量;
c模式:由于直接链路无法发送一个状态更新包,而且通过中继链路也无法辅助转发一个状态更新包到目的节点,因为IRS控制器收集的能量不足以传输一个状态更新包,因此IRS控制器只能够处于充电状态。
优选的,所述第二步的具体步骤为:
S1:最优决策策略;
S2:由于信道增益;
Figure BDA0003878894590000071
随时间变化的独立性以及IRS控制器端的电池能量、目的端的信息年龄A(k)动态变化过程的马尔可夫性,因此可以将最小化长期平均AoI问题建模为无限时域的MDP问题,基于上述问题提出一种深度强化学习算法—DQN;
在每个时隙中,源端将以ε的概率选择随机动作,以1-ε的概率选择最优动作。
在数学上,遵循ε贪婪策略的动作选择可以表示为:
Figure BDA0003878894590000072
其中,pr~u(0,1)为当前时隙下随机生成的概率,xrd表示随机选择的动作。特别地,在给定状态动作对(s,X)下。
优选的,所述S2中的一种深度强化学习算法—DQN包括以下内容:
1.初始化环境变量,初始化记忆库D;
2.初始化更新网络的权重β,初始化目标神经网络的权重β'=β;
3.遍历多条轨迹(1:n);
4.初始化状态s(0);
5.步骤1:生成训练数据;
6.遍历轨迹中的每一步(1:N);
7.选择一个动作a(k),以1-ε概率选择
Figure BDA0003878894590000073
其中βk是人工神经网络的权重;否则以概率ε选择随机动作a(k)=X(s(k));
8.执行动作a(k),获得下一个状态s(k+1)和即时奖励A(k);
9.存储{s(k),a(k),A(k),s(k+1)}在记忆库中,储存满了就替换之前的经验;
10.结束遍历轨迹中的每一步(1:N);
11.判断如果记忆库是满的;
12.步骤2:更新预测网络;
13.在遍历的每一步中取出一个样本集合Np;
14.计算出对应样本集合的价值
Figure BDA0003878894590000074
Figure BDA0003878894590000075
15.结束样本集合的遍历;
16.更新Q目标网络的梯度,ANN权重的梯度为:
Figure BDA0003878894590000081
17.每隔固定步数更新一次目标神经网络的权重系数:β'=β;
18.令s(k+1)=s(k);
19.结束多条轨迹的遍历。
(三)有益效果
与现有技术相比,本发明提供了一种辅助传输信息年龄最小化优化方法,具备以下有益效果:
1、该辅助传输信息年龄最小化优化方法,与传统的IRS技术相比,IRS结合IRS控制器设备是为了在目的节点所在的位置观察到接收源节点发送的状态数据包尽量保持最新,可以提高目的节点观察源节点发送状态数据包的新鲜度,让它更加及时地观察到源节点采集到的信息。
2、该辅助传输信息年龄最小化优化方法,与现有的相关技术相比,提出一种新型的IRS辅助通信系统,除了其仅调谐IRS元件反射的常规作用外,还通过IRS控制器来控制中继信息。本发明的方案可进一步体现出IRS及IRS控制器的优势,更加起到降低端到端的长期平均AoI。
3、该辅助传输信息年龄最小化优化方法,利用IRS控制器的收集的能量进行信息的传输,而不是使用固定发射功率。
附图说明
图1为网络模型示意图;
图2为b模式状态更新模式示意图;
图3为本发明流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所要解决的技术问题主要是如何在实时监控系统中,观察不同的物理过程,如温度或湿度。假设每个源节点通过随时间发送状态更新包来保持其在目的节点处观察到过程的信息状态是新鲜的,即使得端到端的的长期平均信息年龄加权和(AoI)最小化。该技术问题属于无线通信优化设计领域。针对此问题,需要解决以下的问题:1)利用信道的随机性,设计基于射频供能智能反射面与无线中继辅助传输信息年龄最小化优化系统的新协议;2)根据新协议对基于射频供能智能反射面与无线中继辅助传输信息年龄最小化提出算法。
考虑如图1所示的IRS辅助实时监测通信系统,其中从源节点到目的节点的传输由IRS辅助,该IRS由M个无源反射原件通过有线链路连接到IRS控制器(相当于中继)。该网络由源端(S)、带有IRS控制器的智能反射面(IRS)和目的地节点(D)组成,在源节点和目的地节点之间具有直接链路模式和中继链路模式。源节点配备有射频能量RF收集电路作为其唯一的能量源,源节点通过采集周围数据信息,将周围的数据信息以状态更新数据包的形式发送到目的节点以提高其在目的地节点处观察到过程的信息状态采集的新鲜度。
在所考虑的系统中,假设系统时间被划分为具有索引k=0,1,...,K的单位时隙。不失一般性,假设每个时隙的持续时间为1秒。源端S将在每个时隙的开始时刻决定采样动作和更新模式,并且状态采样和更新传输可以在一个时隙内完成。此外,文本考虑忽略源端的状态采样的时间成本和能量成本。
Figure BDA0003878894590000091
分别表示k时隙S到D、S到IRS、S到IRS控制器、IRS到IRS控制器、IRS到D和IRS控制器到D的信道链路增益。假设它们受到准静态平坦衰落的影响,这意味着信道状态将在一个时隙内保持不变,在不同时隙之间独立变化。
一种辅助传输信息年龄最小化优化方法,包括以下步骤:
S1、依据信道的时变性,为了提高端到端的数据采集的新鲜度,开发了一种新的协议。
具体的,所述步骤S1包括以下步骤:
S11、信道模型
从源节点到目的节点的每一次任务是在单独的一个时隙的基础上执行的。也就是说,在源节点S采样更新包的每个时隙开始时,IRS控制器决定是否收集够足够能量将所采集的更新包传输到目的节点D。此外,假设所考虑的IRS辅助系统中的信道在一个时隙内不变,但它们可以在不同的时隙中独立变化。
如上所述,对于SD链路第k个时隙中的信道系数表示为hSD(k),并将其建模为瑞利衰落,如:
Figure BDA0003878894590000101
其中ρ0是参考距离d0=1m处的路径损耗,αSD是SD信道链路的相应路径损耗指数,dSD表示为源节点S与目的节点D之间的距离,以及
Figure BDA0003878894590000102
表示由具有零均值和单位方差的复高斯分布建模的随机散射分量。对于CD链路,即从IRS控制器到目的节点的链路,将其建模为瑞利衰落,如:
Figure BDA0003878894590000103
对于SI链路,即从源节点到IRS的链路,将其建模为莱斯分布,如:
Figure BDA0003878894590000104
其中ζSI是与小尺度衰落相关的莱斯因子,
Figure BDA0003878894590000105
是ULA的阵列响应向量,φSI(k)表示为相应信号的到达角度或离开角度,然后(·)T表示为转置操作,
Figure BDA0003878894590000106
是莱斯衰落信道中的非直射分量,每个元素表示为随机散射分量。对于SC链路,即从源节点到IRS控制器的链路,将其建模为莱斯分布,如:
Figure BDA0003878894590000107
对于IC链路,即从IRS到IRS控制器的链路,将其建模为莱斯分布,如:
Figure BDA0003878894590000108
对于ID链路,即从IRS到目的节点的链路,将其建模为莱斯分布,如:
Figure BDA0003878894590000109
此外,
Figure BDA0003878894590000111
表示IRS在时隙k中的等效反射向量,其中θμ,m(k)是第m个反射单元的相移,
Figure BDA0003878894590000112
并且将时隙k中每个反射单元的反射系数振幅设置为最大值,以使信号反射功率最大化,即
Figure BDA0003878894590000113
其中为了简化分析,第k个时隙中SIC链路的信道系数可以表示为
Figure BDA0003878894590000114
其中对角矩阵
Figure BDA0003878894590000115
因此,IRS控制器经由IRS到目的节点链路的信道系数可以表示为:
Figure BDA0003878894590000116
S12、协议设计
在本小节中,考虑一种混合采样的更新策略,即在k时隙的开始时刻,考虑源端是否可以发送更新包以及IRS控制器是否可以利用之前收集到的能量来转发更新包。系统工作方式有三种模式。a模式:源节点发送一个更新包到目的节点,此时IRS仅收集能量;b模式:中继链路和直接链路协同传输一个更新包到目的节点,其中利用IRS控制器转发更新包到目的节点使用的能量是来自于IRS控制器之前收集的能量;c模式:由于直接链路无法发送一个状态更新包,而且通过中继链路也无法辅助转发一个状态更新包到目的节点,因为IRS控制器收集的能量不足以传输一个状态更新包,因此IRS控制器只能够处于充电状态。其中b模式状态更新模式示意图如图2所示。
S13、能量模型
假设源端以ps恒定功率向目的节点传输更新包,同时,IRS控制器可以进行能量的收集,能量效率为η,将能量储存在Bmax的电池中,用于在未来进行更新包的传输。本协议采用TS协议,其中设a(k)T为IRS控制器在中继转发之前的运行时间,(1-a(k))T为将更新包从IRS控制器转发到目的节点的运行时间。本协议采用PS协议,其中ρ(k)为IRS控制器转发更新包之前进行能量收集的功率因子,1-ρ(k)为IRS控制器进行信息解码的功率因子。因此IRS控制器能量Birs_c(k)的变化可以表示为:
Figure BDA0003878894590000121
S14、信息年龄模型
AoI定义由自源端生成的最新更新包到达目的地所经历的时间。令A(k)∈{1,2,...,Amax}表示k时隙目的端的AoI,Amax分别表示目的端的AoI的上界。则AoI的变化可以表示为:
Figure BDA0003878894590000122
∑θi(k)=1,i∈{a,b,c} (3)
Figure BDA0003878894590000123
S15、优化问题
令π={x(0),x(1),...,x(K)}∈∏表示源端采取一个确定性决策,它决定源端每个时隙的状态采样。其中x(k)为k时隙源端采取的某个状态采样动作,∏为所有可能的策略集合。若源端采取策略π,则目的端的长期平均AoI可以表示为:
Figure BDA0003878894590000124
本文的目标是通过寻找年龄最优策略π*来最小化目的端的长期平均AoI。因此,寻找年龄最优策略π*对应于求解以下问题(P0):
Figure BDA0003878894590000131
s.t.
Figure BDA0003878894590000137
-Pirs(k)T-Pirs_c(k)(1-α(k))T]+[θa(k)+θc(k)]*min{Birs_c(k)+ηPS(k)hSC(k)T,Bmax} (7)
A(k+1)=[θa(k)+Θb(k)]+θc(k)*min{Amax,A(k)+1} (8)
∑θi(k)=1,i∈{a,b,c} (9)
Figure BDA0003878894590000132
策略:∏={π(0),π(1),...,x(K)}
模式选择:
Figure BDA0003878894590000133
Figure BDA0003878894590000134
Figure BDA0003878894590000135
S2、基于所开发的协议,将系统建模为具有有限状态空间和动作空间的平均成本马尔可夫决策(MDP)问题,基于此,提出一种深度强化学习算法—DQN,得到射频供能智能反射面与无线中继辅助传输信息年龄最小化。
S21、最优决策策略
信道状态随时间的独立性导致了IRS控制器的能量状态及其能量状态转换的不确定性,因此最小化长期平均AoI问题是一个随机优化问题。为了求解这个问题,本文首先将其转换为MDP问题,针对环境状态信息未知的情况,提出了一个深度学习DQN算法求解问题。
S22、马尔可夫决策过程
由于信道增益
Figure BDA0003878894590000136
随时间变化的独立性以及IRS控制器端的电池能量、目的端的信息年龄A(k)动态变化过程的马尔可夫性,因此可以将最小化长期平均AoI问题建模为无限时域的MDP问题。下面对MDP的主要组成成分进行详细的介绍。
a)状态空间:由于实际的信道增益是连续随机变量,因此本文采用FSMC模型,将信道增益等概率划分为K个离散信道增益。在这种情况下,可以定义k时隙的系统状态为
Figure BDA0003878894590000141
其中S是包含所有可能系统状态的状态空间,它是一个有限集合。
b)动作空间:在k时隙,系统一共有三种模式,因此在s(k)状态下IRS控制器采取的动作可以表示为:
Figure BDA0003878894590000142
其中,χ(s)表示系统状态s(k)下的动作空间。
c)收益:A(k+1)表示k+1时隙目的端的AoI。系统状态s(k)下采取动作X(k)的即时成本,则A(k+1)可以定义为:
Figure BDA0003878894590000143
∑θi(k)=1,i∈{a,b,c} (13)
Figure BDA0003878894590000144
3、基于建模的MDP问题,提出一种深度强化学习算法—DQN,得到射频供能智能反射面与无线中继辅助传输信息年龄最小化。
S31、DQN算法
在实际环境中,信道状态的转移概率通常是难以获得的,因此本文采用一种无模型的DQN学习算法求解问题(P0),寻找最优策略。具体的来说,在DQN学习的算法过程中,源端通过不断地与环境进行试错交互,估计和学习最优的动作值函数;然后源端将根据学习到的Q值选择当前状态下的动作。为了保证估计的动作值函数最终能够收敛到最优动作值函数,本文使用ε贪婪策略来权衡探索和利用,它能保证探索到足够丰富的环境状态,同时能利用探索到的状态信息来最小化系统的长期平均AoI。因此,在每个时隙中,源端将以ε的概率选择随机动作,以1-ε的概率选择最优动作。
在数学上,遵循ε贪婪策略的动作选择可以表示为:
Figure BDA0003878894590000145
其中,pr~u(0,1)为当前时隙下随机生成的概率,xrd表示随机选择的动作。特别地,在给定状态动作对(s,X)下,k时隙处DQN的算法的详细步骤如算法1所示。算法1DQN学习算法
1.初始化环境变量,初始化记忆库D;
2.初始化更新网络的权重β,初始化目标神经网络的权重β'=β;
3.遍历多条轨迹(1:n);
4.初始化状态s(0);
5.步骤1:生成训练数据;
6.遍历轨迹中的每一步(1:N);
7.选择一个动作a(k),以1-ε概率选择
Figure BDA0003878894590000151
其中βk是人工神经网络的权重;否则以概率ε选择随机动作a(k)=X(s(k));
8.执行动作a(k),获得下一个状态s(k+1)和即时奖励A(k);
9.存储{s(k),a(k),A(k),s(k+1)}在记忆库中,储存满了就替换之前的经验;
10.结束遍历轨迹中的每一步(1:N);
11.判断如果记忆库是满的;
12.步骤2:更新预测网络;
13.在遍历的每一步中取出一个样本集合Np;
14.计算出对应样本集合的价值
Figure BDA0003878894590000152
Figure BDA0003878894590000153
15.结束样本集合的遍历;
16.更新Q目标网络的梯度,ANN权重的梯度为:
Figure BDA0003878894590000154
17.每隔固定步数更新一次目标神经网络的权重系数:β'=β;
18.令s(k+1)=s(k);
19.结束多条轨迹的遍历。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种辅助传输信息年龄最小化优化方法,其特征在于,包括以下步骤:
第一步:依据信道的时变性,开发了一种新的协议;
第二步:基于所开发的协议,将系统建模为具有有限状态空间和动作空间的平均成本马尔可夫决策问题,基于此,提出一种深度强化学习算法—DQN,得到射频供能智能反射面与无线中继辅助传输信息年龄最小化。
2.根据权利要求1所述的一种辅助传输信息年龄最小化优化方法,其特征在于:所述第一步包括以下步骤:
S1:建立信道模型;
第k个时隙中SIC链路的信道系数表示为
Figure FDA0003878894580000011
其中对角矩阵
Figure FDA0003878894580000012
IRS控制器经由IRS到目的节点链路的信道系数表示为:
Figure FDA0003878894580000013
S2:协议设计,在k时隙的开始时刻,考虑源端是否可以发送更新包以及IRS控制器是否可以利用之前收集到的能量来转发更新包;
S3:能量模型;
IRS控制器能量Birs_c(k)的变化可以表示为:
Figure FDA0003878894580000014
S4:信息年龄模型;
令A(k)∈{1,2,...,Amax}表示k时隙目的端的AoI,Amax分别表示目的端的AoI的上界,则AoI的变化可以表示为:
Figure FDA0003878894580000021
∑θi(k)=1,i∈{a,b,c} (3)
Figure FDA0003878894580000022
S5:优化问题;
令π={x(0),x(1),...,x(K)}∈∏表示源端采取一个确定性决策,它决定源端每个时隙的状态采样,其中x(k)为k时隙源端采取的某个状态采样动作,∏为所有可能的策略集合,若源端采取策略π,则目的端的长期平均AoI可以表示为:
Figure FDA0003878894580000023
寻找年龄最优策略π*对应于求解以下问题(P0):
Figure FDA0003878894580000024
s.t.
Figure FDA0003878894580000025
A(k+1)=[θa(k)+Θb(k)]+θc(k)*min{Amax,A(k)+1} (8)
∑θi(k)=1,i∈{a,b,c} (9)
Figure FDA0003878894580000026
策略:∏={π(0),π(1),...,x(K)}
模式选择:
Figure FDA0003878894580000027
Figure FDA0003878894580000028
Figure FDA0003878894580000029
Figure FDA00038788945800000210
3.根据权利要求2所述的一种辅助传输信息年龄最小化优化方法,其特征在于:所述信道模型包括以下内容:
SD链路第k个时隙中的信道系数表示为hSD(k),并将其建模为
Figure FDA0003878894580000031
其中ρ0是参考距离d0=1m处的路径损耗,αSD是SD信道链路的相应路径损耗指数,dSD表示为源节点S与目的节点D之间的距离,以及
Figure FDA0003878894580000032
表示由具有零均值和单位方差的复高斯分布建模的随机散射分量;
从IRS控制器到目的节点的CD链路,将其建模:
Figure FDA0003878894580000033
从源节点到IRS的链路,将其建模为:
Figure FDA0003878894580000034
其中ζSI是与小尺度衰落相关的莱斯因子,
Figure FDA0003878894580000035
是ULA的阵列响应向量,φSI(k)表示为相应信号的到达角度或离开角度,(·)T表示为转置操作,
Figure FDA0003878894580000036
是莱斯衰落信道中的非直射分量,每个元素表示为随机散射分量;
从源节点到IRS控制器的链路,将其建模为:
Figure FDA0003878894580000037
对于IC链路,即从IRS到IRS控制器的链路,将其建模为:
Figure FDA0003878894580000038
对于ID链路,即从IRS到目的节点的链路,将其建模为:
Figure FDA0003878894580000039
Figure FDA00038788945800000310
表示IRS在时隙k中的等效反射向量,其中θμ,m(k)是第m个反射单元的相移,
Figure FDA00038788945800000311
并且将时隙k中每个反射单元的反射系数振幅设置为最大值,以使信号反射功率最大化,即
Figure FDA0003878894580000041
4.根据权利要求2所述的一种辅助传输信息年龄最小化优化方法,其特征在于:所述S2中系统工作方式有三种模式,a模式:源节点发送一个更新包到目的节点,此时IRS仅收集能量;
b模式:中继链路和直接链路协同传输一个更新包到目的节点,其中利用IRS控制器转发更新包到目的节点使用的能量是来自于IRS控制器之前收集的能量;
c模式:由于直接链路无法发送一个状态更新包,而且通过中继链路也无法辅助转发一个状态更新包到目的节点,因为IRS控制器收集的能量不足以传输一个状态更新包,因此IRS控制器只能够处于充电状态。
5.根据权利要求1所述的一种辅助传输信息年龄最小化优化方法,其特征在于:所述第二步的具体步骤为:
S1:最优决策策略;
S2:由于信道增益;
Figure FDA0003878894580000042
随时间变化的独立性以及IRS控制器端的电池能量、目的端的信息年龄A(k)动态变化过程的马尔可夫性,因此可以将最小化长期平均AoI问题建模为无限时域的MDP问题,基于上述问题提出一种深度强化学习算法—DQN;
在每个时隙中,源端将以ε的概率选择随机动作,以1-ε的概率选择最优动作。
在数学上,遵循ε贪婪策略的动作选择可以表示为:
Figure FDA0003878894580000043
其中,pr~u(0,1)为当前时隙下随机生成的概率,xrd表示随机选择的动作。特别地,在给定状态动作对(s,X)下。
6.根据权利要求5所述的一种辅助传输信息年龄最小化优化方法,其特征在于:所述S2中的一种深度强化学习算法—DQN包括以下内容:
1.初始化环境变量,初始化记忆库D;
2.初始化更新网络的权重β,初始化目标神经网络的权重β'=β;
3.遍历多条轨迹(1:n);
4.初始化状态s(0);
5.步骤1:生成训练数据;
6.遍历轨迹中的每一步(1:N);
7.选择一个动作a(k),以1-ε概率选择
Figure FDA0003878894580000051
其中βk是人工神经网络的权重;否则以概率ε选择随机动作a(k)=X(s(k));
8.执行动作a(k),获得下一个状态s(k+1)和即时奖励A(k);
9.存储{s(k),a(k),A(k),s(k+1)}在记忆库中,储存满了就替换之前的经验;
10.结束遍历轨迹中的每一步(1:N);
11.判断如果记忆库是满的;
12.步骤2:更新预测网络;
13.在遍历的每一步中取出一个样本集合Np;
14.计算出对应样本集合的价值
Figure FDA0003878894580000052
Figure FDA0003878894580000053
15.结束样本集合的遍历;
16.更新Q目标网络的梯度,ANN权重的梯度为:
Figure FDA0003878894580000054
Figure FDA0003878894580000055
17.每隔固定步数更新一次目标神经网络的权重系数:β'=β;
18.令s(k+1)=s(k);
19.结束多条轨迹的遍历。
CN202211223295.XA 2022-10-08 2022-10-08 一种辅助传输信息年龄最小化优化方法 Pending CN115622603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211223295.XA CN115622603A (zh) 2022-10-08 2022-10-08 一种辅助传输信息年龄最小化优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211223295.XA CN115622603A (zh) 2022-10-08 2022-10-08 一种辅助传输信息年龄最小化优化方法

Publications (1)

Publication Number Publication Date
CN115622603A true CN115622603A (zh) 2023-01-17

Family

ID=84860922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211223295.XA Pending CN115622603A (zh) 2022-10-08 2022-10-08 一种辅助传输信息年龄最小化优化方法

Country Status (1)

Country Link
CN (1) CN115622603A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116456372A (zh) * 2023-06-12 2023-07-18 合肥工业大学 基于动态缩减策略空间的无线监测网络调度方法和系统
CN116647857A (zh) * 2023-04-24 2023-08-25 重庆邮电大学 车联网通信接入模式下的信息年龄优化方法和系统
CN116647931A (zh) * 2023-05-31 2023-08-25 中国人民解放军陆军工程大学 一种上行随机接入系统中基于信息年龄的状态更新方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020183064A1 (en) * 2001-05-08 2002-12-05 Nandu Gopalakrishnan Method to control uplink transmissions in a wireless communication system
CN108885722A (zh) * 2016-03-25 2018-11-23 索尼公司 信息处理设备
CN112752337A (zh) * 2020-12-16 2021-05-04 南京航空航天大学 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法
CN113438315A (zh) * 2021-07-02 2021-09-24 中山大学 基于双网络深度强化学习的物联网信息新鲜度优化方法
CN114637330A (zh) * 2022-03-22 2022-06-17 西北农林科技大学 一种最小化信息年龄的无人机路径动态规划方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020183064A1 (en) * 2001-05-08 2002-12-05 Nandu Gopalakrishnan Method to control uplink transmissions in a wireless communication system
CN108885722A (zh) * 2016-03-25 2018-11-23 索尼公司 信息处理设备
CN112752337A (zh) * 2020-12-16 2021-05-04 南京航空航天大学 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法
CN113438315A (zh) * 2021-07-02 2021-09-24 中山大学 基于双网络深度强化学习的物联网信息新鲜度优化方法
CN114637330A (zh) * 2022-03-22 2022-06-17 西北农林科技大学 一种最小化信息年龄的无人机路径动态规划方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116647857A (zh) * 2023-04-24 2023-08-25 重庆邮电大学 车联网通信接入模式下的信息年龄优化方法和系统
CN116647931A (zh) * 2023-05-31 2023-08-25 中国人民解放军陆军工程大学 一种上行随机接入系统中基于信息年龄的状态更新方法
CN116456372A (zh) * 2023-06-12 2023-07-18 合肥工业大学 基于动态缩减策略空间的无线监测网络调度方法和系统
CN116456372B (zh) * 2023-06-12 2023-08-11 合肥工业大学 基于动态缩减策略空间的无线监测网络调度方法和系统

Similar Documents

Publication Publication Date Title
She et al. A tutorial on ultrareliable and low-latency communications in 6G: Integrating domain knowledge into deep learning
Liu et al. Cooperative offloading and resource management for UAV-enabled mobile edge computing in power IoT system
Huang et al. Multi-agent reinforcement learning-based buffer-aided relay selection in IRS-assisted secure cooperative networks
CN115622603A (zh) 一种辅助传输信息年龄最小化优化方法
Zhang et al. Joint optimization of cooperative edge caching and radio resource allocation in 5G-enabled massive IoT networks
Han et al. Time-varying topology model for dynamic routing in LEO satellite constellation networks
CN109947545A (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN113727306B (zh) 一种基于深度强化学习的解耦c-v2x网络切片方法
Dai et al. Routing optimization meets Machine Intelligence: A perspective for the future network
Chen et al. ALBLP: Adaptive Load‐Balancing Architecture Based on Link‐State Prediction in Software‐Defined Networking
CN116248164A (zh) 基于深度强化学习的完全分布式路由方法和系统
Kahraman et al. Age of information in internet of things: A survey
CN115173923A (zh) 一种低轨卫星网络能效感知路由优化方法和系统
Tao et al. A traffic scheduling scheme for load balancing in SDN-based space-air-ground integrated networks
Gu et al. AI-Enhanced Cloud-Edge-Terminal Collaborative Network: Survey, Applications, and Future Directions
Jaiswal et al. Age-of-information minimization via opportunistic sampling by an energy harvesting source
Chen et al. Profit-aware cooperative offloading in uav-enabled mec systems using lightweight deep reinforcement learning
Meer et al. Mobility Management for Cellular-Connected UAVs: Model Based Versus Learning Based Approaches for Service Availability
Bhaskar et al. Deep Neural Network Algorithm to Improve Link Reliability in Wireless Sensor Networks
Meng et al. Intelligent routing orchestration for ultra-low latency transport networks
Sonti et al. Enhanced fuzzy C‐means clustering based cooperative spectrum sensing combined with multi‐objective resource allocation approach for delay‐aware CRNs
Li et al. An Intelligent SDWN Routing Algorithm Based on Network Situational Awareness and Deep Reinforcement Learning.
CN116980028A (zh) 一种基于星地融合网络的用户终端网络切换接入方法
Cui et al. Hierarchical learning approach for age-of-information minimization in wireless sensor networks
Dai et al. Intelligent reflecting surfaces aided task offloading in digital twin edge networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination