CN115622603A

CN115622603A - 一种辅助传输信息年龄最小化优化方法

Info

Publication number: CN115622603A
Application number: CN202211223295.XA
Authority: CN
Inventors: 黄高飞; 易春花; 赵赛; 郑晖; 唐冬
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-01-17

Abstract

本发明涉及无线移动通信领域，且公开了一种辅助传输信息年龄最小化优化方法，提出了传输通信协议设计方案以及基于深度强化学习DQN方法，在该协议中，系统可以工作于三种模式，其中a模式：源节点发送一个更新包到目的节点，此时IRS仅收集能量；b模式:中继链路和直接链路协同传输一个更新包到目的节点，其中利用IRS控制器转发更新包到目的节点使用的能量是来自于IRS控制器之前收集的能量；c模式：IRS控制器只能够处于充电状态，该算法以最小化端到端的长期平均AoI为目标，对于系统的工作模式、两阶段的中继接收和转发的时间和功率分配、IRS控制器的功率、IRS的相位进行了联合优化。

Description

一种辅助传输信息年龄最小化优化方法

技术领域

本发明涉及无线移动通信领域，具体为一种辅助传输信息年龄最小化优化方法。

背景技术

目前，无线移动通信技术在全球范围经历着快速的发展，现在无线通信成为人们传输信息的主要方式之一。

在面向实时应用的物联网系统中，设备需要实时感知周围物理环境并监测系统状态，从而为智能决策和控制提供及时、有效的信息。对于此类时间敏感信息，若决策端获取的是过时信息，将会导致无效决策甚至错误控制，并造成巨大的安全问题。此外，在未来第六代移动通信网络中，新业务和新应用对信息新鲜度的要求越来越高。为了有效地刻画信息新鲜度，学术界提出了信息年龄(Age of Information，AoI)的概念。目前，AoI已迅速成为无线通信系统新的性能指标和研究热点之一。

无线中继技术可以低成本地扩展无线通信距离，是5G无线通信系统采用的一项关键技术。由于5G技术方案存在一定的局限性，迫切需要开发具有突破性的新技术，以较低成本、复杂度和能耗实现未来移动网络容量的可持续增长。此外，实现超可靠无线通信的根本挑战来自于实时变化的无线衰落信道。因此学者们提出一种新技术IRS，可以实现对无线传播环境的智能控制，以实现超高吞吐量和超可靠无线通信。此外，与传统的电池供电网络相比，使用无线能量传输的通信网络无需手动更换电池或给电池充电，可以有效降低运营成本并且提高通信性能，此外，无线能量传输的通信网络可以完全控制其功率传输，通过对射频信号的发射功率、波形、传输时间、频率等进行调整，可以在不同的物理条件和服务要求下提供稳定的能量供应。

基于无线中继、IRS技术和无线能量传输的上述优点，本课题拟通过在端到端传输的无线通信系统中引入无线中继、IRS技术和无线能量传输技术，即针对射频供能智能反射面与无线中继辅助传输的无线通信系统，研究相应的降低端到端传输信息年龄的方案，提高数据采集的新鲜度。

现有技术问题：

在面向实时应用的物联网系统中，设备需要实时感知周围物理环境并监测系统状态，从而为智能决策和控制提供及时、有效的信息。对于此类时间敏感信息，若决策端获取的是过时信息，将会导致无效决策甚至错误控制，并造成巨大的安全问题。此外，在未来第六代移动通信网络中，新业务和新应用对信息新鲜度的要求越来越高。为了有效地刻画信息新鲜度，学术界提出了信息年龄(Age of Information，AoI)的概念。目前，AoI已迅速成为无线通信系统新的性能指标和研究热点之一；目前以AoI为性能指标的研究有典型的由源节点和目的节点组成的实时监控系统、两跳能量收集的通信网络以及两跳解码转发中继系统等。以往的工作已经在AoI为性能指标的无线通信系统中取得了不少的成果。例如，文献1[M.A.Abd-Elmagid，H.S.Dhillon and N.Pappas，"A Reinforcement LearningFramework for Optimizing Age of Information in RF-Powered CommunicationSystems，"in IEEE Transactions on Communications，vol.68，no.8，pp.4747-4760，Aug.2020，doi:10.1109/TCOMM.2020.2991992.]为典型的由源节点和目的节点组成的实时监控系统，由于未引入中继，覆盖范围是有限的。文献2[A.Arafa and S.Ulukus，"TimelyUpdates in Energy Harvesting Two-Hop Networks:Offline and Online Policies，"inIEEE Transactions on Wireless Communications，vol.18，no.8，pp.4017-4030，Aug.2019，doi:10.1109/TWC.2019.2920351.]引入了一个中继，考虑了一个两跳能量收集的通信网络。文献3[M.Xie，J.Gong and X.Ma，"Age and Energy Tradeoff for ShortPacket Based Two-Hop Decode-and-Forward Relaying Networks，2021IEEE WirelessCommunications and Networking Conference(WCNC)，2021，pp.1-6，doi:10.1109/WCNC49053.2021.9417497.]引入多个中继，考虑了部分中继选择和最大-最小终极选择方案的对比，将两种方案进行了年龄-能量的权衡分析，并首次应用了关于AoI作为性能指标的两跳解码转发中继系统。然而，上述工作没有结合IRS技术提升系统性能。特别地，如何在无线通信系统中结合IRS技术和无线中继技术在扩展通信覆盖范围的同时，获得良好的AoI性能，尚未有相关研究。

为了提升结合无线中继技术的无线通信系统性能，在文献4[B.Zheng andR.Zhang，"IRS Meets Relaying:Joint Resource Allocation and Passive BeamformingOptimization，"in IEEE Wireless Communications Letters，vol.10，no.9，pp.2080-2084，Sept.2021，doi:10.1109/LWC.2021.3092222.]中，研究了无线中继和IRS的无线通信系统。然而，其系统性能指标为端到端信息传输可达速率，其研究方法和结果无法适用于以AoI作为性能指标的IRS辅助通信无线中继系统。而且，文献4也没有考虑中继和IRS进行能量收集的情况。因此，当中继和IRS使用射频能收集方式工作时，如何获得良好的AoI性能，也有待进一步探讨，为此我们提出了一种辅助传输信息年龄最小化优化方法。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种辅助传输信息年龄最小化优化方法，解决了上述的问题。

(二)技术方案

为实现上述所述目的，本发明提供如下技术方案：一种辅助传输信息年龄最小化优化方法，包括以下步骤：

第一步：依据信道的时变性，开发了一种新的协议；

第二步：基于所开发的协议，将系统建模为具有有限状态空间和动作空间的平均成本马尔可夫决策问题，基于此，提出一种深度强化学习算法—DQN，得到射频供能智能反射面与无线中继辅助传输信息年龄最小化。

优选的，所述第一步包括以下步骤：

S1：建立信道模型；

第k个时隙中SIC链路的信道系数表示为

其中对角矩阵

IRS控制器经由IRS到目的节点链路的信道系数表示为:

S2：协议设计，在k时隙的开始时刻，考虑源端是否可以发送更新包以及IRS控制器是否可以利用之前收集到的能量来转发更新包；

S3：能量模型；

IRS控制器能量B_{irs_c}(k)的变化可以表示为：

S4：信息年龄模型；

令A(k)∈{1,2,...,A_max}表示k时隙目的端的AoI，A_max分别表示目的端的AoI的上界，则AoI的变化可以表示为：

∑θ_i(k)＝1,i∈{a,b,c} (3)

S5：优化问题；

令π＝{x(0),x(1),...,x(K)}∈∏表示源端采取一个确定性决策，它决定源端每个时隙的状态采样，其中x(k)为k时隙源端采取的某个状态采样动作，∏为所有可能的策略集合，若源端采取策略π，则目的端的长期平均AoI可以表示为：

寻找年龄最优策略π^*对应于求解以下问题(P0)：

s.t.

-P_irs(k)T-P_{irs_c}(k)(1-α(k))T]+[θ_a(k)+θ_c(k)]*min{B_{irs_c}(k)+ηP_S(k)h_SC(k)T,B_max} (7)

A(k+1)＝[θ_a(k)+Θ_b(k)]+θ_c(k)*min{A_max,A(k)+1} (8)

∑θ_i(k)＝1,i∈{a,b,c} (9)

策略：∏＝{π(0),π(1),...,x(K)}

模式选择：

优选的，所述信道模型包括以下内容：

SD链路第k个时隙中的信道系数表示为h_SD(k)，并将其建模为

其中ρ₀是参考距离d₀＝1m处的路径损耗，α_SD是SD信道链路的相应路径损耗指数，d_SD表示为源节点S与目的节点D之间的距离，以及

表示由具有零均值和单位方差的复高斯分布建模的随机散射分量；

从IRS控制器到目的节点的CD链路，将其建模：

从源节点到IRS的链路，将其建模为：

其中ζ_SI是与小尺度衰落相关的莱斯因子，

是ULA的阵列响应向量，φ_SI(k)表示为相应信号的到达角度或离开角度，(·)^T表示为转置操作，

是莱斯衰落信道中的非直射分量，每个元素表示为随机散射分量；

从源节点到IRS控制器的链路，将其建模为：

对于IC链路，即从IRS到IRS控制器的链路，将其建模为：

对于ID链路，即从IRS到目的节点的链路，将其建模为：

表示IRS在时隙k中的等效反射向量，其中θ_μ,m(k)是第m个反射单元的相移，

并且将时隙k中每个反射单元的反射系数振幅设置为最大值，以使信号反射功率最大化，即

优选的，所述S2中系统工作方式有三种模式，a模式：源节点发送一个更新包到目的节点，此时IRS仅收集能量；

b模式:中继链路和直接链路协同传输一个更新包到目的节点，其中利用IRS控制器转发更新包到目的节点使用的能量是来自于IRS控制器之前收集的能量；

c模式：由于直接链路无法发送一个状态更新包，而且通过中继链路也无法辅助转发一个状态更新包到目的节点，因为IRS控制器收集的能量不足以传输一个状态更新包，因此IRS控制器只能够处于充电状态。

优选的，所述第二步的具体步骤为：

S1：最优决策策略；

S2：由于信道增益；

随时间变化的独立性以及IRS控制器端的电池能量、目的端的信息年龄A(k)动态变化过程的马尔可夫性，因此可以将最小化长期平均AoI问题建模为无限时域的MDP问题，基于上述问题提出一种深度强化学习算法—DQN；

在每个时隙中，源端将以ε的概率选择随机动作，以1-ε的概率选择最优动作。

在数学上，遵循ε贪婪策略的动作选择可以表示为：

其中，p_r～u(0,1)为当前时隙下随机生成的概率，x_rd表示随机选择的动作。特别地，在给定状态动作对(s,X)下。

优选的，所述S2中的一种深度强化学习算法—DQN包括以下内容：

1.初始化环境变量，初始化记忆库D；

2.初始化更新网络的权重β，初始化目标神经网络的权重β'＝β；

3.遍历多条轨迹(1:n)；

4.初始化状态s(0)；

5.步骤1：生成训练数据；

6.遍历轨迹中的每一步(1:N)；

7.选择一个动作a(k)，以1-ε概率选择

其中β_k是人工神经网络的权重；否则以概率ε选择随机动作a(k)＝X(s(k))；

8.执行动作a(k)，获得下一个状态s(k+1)和即时奖励A(k)；

9.存储{s(k),a(k),A(k),s(k+1)}在记忆库中，储存满了就替换之前的经验；

10.结束遍历轨迹中的每一步(1:N)；

11.判断如果记忆库是满的；

12.步骤2：更新预测网络；

13.在遍历的每一步中取出一个样本集合Np；

14.计算出对应样本集合的价值

15.结束样本集合的遍历；

16.更新Q目标网络的梯度，ANN权重的梯度为：

17.每隔固定步数更新一次目标神经网络的权重系数：β'＝β；

18.令s(k+1)＝s(k)；

19.结束多条轨迹的遍历。

(三)有益效果

与现有技术相比，本发明提供了一种辅助传输信息年龄最小化优化方法，具备以下有益效果：

1、该辅助传输信息年龄最小化优化方法，与传统的IRS技术相比，IRS结合IRS控制器设备是为了在目的节点所在的位置观察到接收源节点发送的状态数据包尽量保持最新，可以提高目的节点观察源节点发送状态数据包的新鲜度，让它更加及时地观察到源节点采集到的信息。

2、该辅助传输信息年龄最小化优化方法，与现有的相关技术相比，提出一种新型的IRS辅助通信系统，除了其仅调谐IRS元件反射的常规作用外，还通过IRS控制器来控制中继信息。本发明的方案可进一步体现出IRS及IRS控制器的优势，更加起到降低端到端的长期平均AoI。

3、该辅助传输信息年龄最小化优化方法，利用IRS控制器的收集的能量进行信息的传输，而不是使用固定发射功率。

附图说明

图1为网络模型示意图；

图2为b模式状态更新模式示意图；

图3为本发明流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所要解决的技术问题主要是如何在实时监控系统中，观察不同的物理过程，如温度或湿度。假设每个源节点通过随时间发送状态更新包来保持其在目的节点处观察到过程的信息状态是新鲜的，即使得端到端的的长期平均信息年龄加权和(AoI)最小化。该技术问题属于无线通信优化设计领域。针对此问题，需要解决以下的问题：1)利用信道的随机性，设计基于射频供能智能反射面与无线中继辅助传输信息年龄最小化优化系统的新协议；2)根据新协议对基于射频供能智能反射面与无线中继辅助传输信息年龄最小化提出算法。

考虑如图1所示的IRS辅助实时监测通信系统，其中从源节点到目的节点的传输由IRS辅助，该IRS由M个无源反射原件通过有线链路连接到IRS控制器(相当于中继)。该网络由源端(S)、带有IRS控制器的智能反射面(IRS)和目的地节点(D)组成，在源节点和目的地节点之间具有直接链路模式和中继链路模式。源节点配备有射频能量RF收集电路作为其唯一的能量源，源节点通过采集周围数据信息，将周围的数据信息以状态更新数据包的形式发送到目的节点以提高其在目的地节点处观察到过程的信息状态采集的新鲜度。

在所考虑的系统中，假设系统时间被划分为具有索引k＝0,1,...,K的单位时隙。不失一般性，假设每个时隙的持续时间为1秒。源端S将在每个时隙的开始时刻决定采样动作和更新模式，并且状态采样和更新传输可以在一个时隙内完成。此外，文本考虑忽略源端的状态采样的时间成本和能量成本。

令

分别表示k时隙S到D、S到IRS、S到IRS控制器、IRS到IRS控制器、IRS到D和IRS控制器到D的信道链路增益。假设它们受到准静态平坦衰落的影响，这意味着信道状态将在一个时隙内保持不变，在不同时隙之间独立变化。

一种辅助传输信息年龄最小化优化方法，包括以下步骤：

S1、依据信道的时变性，为了提高端到端的数据采集的新鲜度，开发了一种新的协议。

具体的，所述步骤S1包括以下步骤：

S11、信道模型

从源节点到目的节点的每一次任务是在单独的一个时隙的基础上执行的。也就是说，在源节点S采样更新包的每个时隙开始时，IRS控制器决定是否收集够足够能量将所采集的更新包传输到目的节点D。此外，假设所考虑的IRS辅助系统中的信道在一个时隙内不变，但它们可以在不同的时隙中独立变化。

如上所述，对于SD链路第k个时隙中的信道系数表示为h_SD(k)，并将其建模为瑞利衰落，如：

表示由具有零均值和单位方差的复高斯分布建模的随机散射分量。对于CD链路，即从IRS控制器到目的节点的链路，将其建模为瑞利衰落，如：

对于SI链路，即从源节点到IRS的链路，将其建模为莱斯分布，如：

其中ζ_SI是与小尺度衰落相关的莱斯因子，

是ULA的阵列响应向量，φ_SI(k)表示为相应信号的到达角度或离开角度，然后(·)^T表示为转置操作，

是莱斯衰落信道中的非直射分量，每个元素表示为随机散射分量。对于SC链路，即从源节点到IRS控制器的链路，将其建模为莱斯分布，如：

对于IC链路，即从IRS到IRS控制器的链路，将其建模为莱斯分布，如：

对于ID链路，即从IRS到目的节点的链路，将其建模为莱斯分布，如：

此外，

其中为了简化分析，第k个时隙中SIC链路的信道系数可以表示为

其中对角矩阵

因此，IRS控制器经由IRS到目的节点链路的信道系数可以表示为:

S12、协议设计

在本小节中，考虑一种混合采样的更新策略，即在k时隙的开始时刻，考虑源端是否可以发送更新包以及IRS控制器是否可以利用之前收集到的能量来转发更新包。系统工作方式有三种模式。a模式：源节点发送一个更新包到目的节点，此时IRS仅收集能量；b模式:中继链路和直接链路协同传输一个更新包到目的节点，其中利用IRS控制器转发更新包到目的节点使用的能量是来自于IRS控制器之前收集的能量；c模式：由于直接链路无法发送一个状态更新包，而且通过中继链路也无法辅助转发一个状态更新包到目的节点，因为IRS控制器收集的能量不足以传输一个状态更新包，因此IRS控制器只能够处于充电状态。其中b模式状态更新模式示意图如图2所示。

S13、能量模型

假设源端以p_s恒定功率向目的节点传输更新包，同时，IRS控制器可以进行能量的收集，能量效率为η，将能量储存在B_max的电池中，用于在未来进行更新包的传输。本协议采用TS协议，其中设a(k)T为IRS控制器在中继转发之前的运行时间，(1-a(k))T为将更新包从IRS控制器转发到目的节点的运行时间。本协议采用PS协议，其中ρ(k)为IRS控制器转发更新包之前进行能量收集的功率因子，1-ρ(k)为IRS控制器进行信息解码的功率因子。因此IRS控制器能量B_{irs_c}(k)的变化可以表示为：

S14、信息年龄模型

AoI定义由自源端生成的最新更新包到达目的地所经历的时间。令A(k)∈{1,2,...,A_max}表示k时隙目的端的AoI，A_max分别表示目的端的AoI的上界。则AoI的变化可以表示为：

∑θ_i(k)＝1,i∈{a,b,c} (3)

S15、优化问题

令π＝{x(0),x(1),...,x(K)}∈∏表示源端采取一个确定性决策，它决定源端每个时隙的状态采样。其中x(k)为k时隙源端采取的某个状态采样动作，∏为所有可能的策略集合。若源端采取策略π，则目的端的长期平均AoI可以表示为：

本文的目标是通过寻找年龄最优策略π^*来最小化目的端的长期平均AoI。因此，寻找年龄最优策略π^*对应于求解以下问题(P0)：

s.t.

A(k+1)＝[θ_a(k)+Θ_b(k)]+θ_c(k)*min{A_max,A(k)+1} (8)

∑θ_i(k)＝1,i∈{a,b,c} (9)

策略：∏＝{π(0),π(1),...,x(K)}

模式选择：

S2、基于所开发的协议，将系统建模为具有有限状态空间和动作空间的平均成本马尔可夫决策(MDP)问题，基于此，提出一种深度强化学习算法—DQN，得到射频供能智能反射面与无线中继辅助传输信息年龄最小化。

S21、最优决策策略

信道状态随时间的独立性导致了IRS控制器的能量状态及其能量状态转换的不确定性，因此最小化长期平均AoI问题是一个随机优化问题。为了求解这个问题，本文首先将其转换为MDP问题，针对环境状态信息未知的情况，提出了一个深度学习DQN算法求解问题。

S22、马尔可夫决策过程

由于信道增益

随时间变化的独立性以及IRS控制器端的电池能量、目的端的信息年龄A(k)动态变化过程的马尔可夫性，因此可以将最小化长期平均AoI问题建模为无限时域的MDP问题。下面对MDP的主要组成成分进行详细的介绍。

a)状态空间：由于实际的信道增益是连续随机变量，因此本文采用FSMC模型，将信道增益等概率划分为K个离散信道增益。在这种情况下，可以定义k时隙的系统状态为

其中S是包含所有可能系统状态的状态空间，它是一个有限集合。

b)动作空间：在k时隙，系统一共有三种模式，因此在s(k)状态下IRS控制器采取的动作可以表示为：

其中，χ(s)表示系统状态s(k)下的动作空间。

c)收益：A(k+1)表示k+1时隙目的端的AoI。系统状态s(k)下采取动作X(k)的即时成本，则A(k+1)可以定义为：

∑θ_i(k)＝1,i∈{a,b,c} (13)

3、基于建模的MDP问题，提出一种深度强化学习算法—DQN，得到射频供能智能反射面与无线中继辅助传输信息年龄最小化。

S31、DQN算法

在实际环境中，信道状态的转移概率通常是难以获得的，因此本文采用一种无模型的DQN学习算法求解问题(P0)，寻找最优策略。具体的来说，在DQN学习的算法过程中，源端通过不断地与环境进行试错交互，估计和学习最优的动作值函数；然后源端将根据学习到的Q值选择当前状态下的动作。为了保证估计的动作值函数最终能够收敛到最优动作值函数，本文使用ε贪婪策略来权衡探索和利用，它能保证探索到足够丰富的环境状态，同时能利用探索到的状态信息来最小化系统的长期平均AoI。因此，在每个时隙中，源端将以ε的概率选择随机动作，以1-ε的概率选择最优动作。