CN115361734B

CN115361734B - 基于信息时效性的功率和irs相移联合优化方法及装置

Info

Publication number: CN115361734B
Application number: CN202210825377.5A
Authority: CN
Inventors: 刘龙; 许晓东; 陈昊; 秦晓琦; 马楠; 张平
Original assignee: Beijing University of Posts and Telecommunications; Peng Cheng Laboratory
Current assignee: Beijing University of Posts and Telecommunications; Peng Cheng Laboratory
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2024-05-14
Anticipated expiration: 2042-07-14
Also published as: CN115361734A

Abstract

本发明所提供的基于信息时效性的功率和IRS相移联合优化方法及装置，包括获取峰值信息年龄违规概率；对峰值信息年龄违规概率进行随机网络演算处理，得到峰违规限制条件；获取IRS信息，根据信号信息、信道信息以及IRS信息计算有效容量，根据有效容量和违规限制条件构建有效容量优化模型；将有效容量优化模型求解过程转化为马尔科夫决策过程；基于双延迟DDPG方法求解马尔科夫决策过程，确定IRS相移值以及源节点的发送功率值。本发明利用峰值信息年龄违规概率量化信息时效性保障需求，在信息时效性保障需求下，联合控制设备功率和IRS相移以最优化IRS辅助的短包数据传输系统中的有效容量，且不会产生复杂的计算。

Description

基于信息时效性的功率和IRS相移联合优化方法及装置

技术领域

本发明涉及深度学习技术领域，尤其涉及的是基于信息时效性的功率和IRS相移联合优化方法及装置。

背景技术

关于有效容量优化问题，主要是通过设计优化方案在满足数据传输时延限制条件下最优化有效容量。然而，信息时效性不同于传统通信时延，传统通信时延是针对单一数据包来说，而信息时效性的对象是信息流，即一系列数据包。传统时延通常是对单一数据包在网络中的传输进行优化来减小延时，而信息时效性与数据的采样和传输都有关，这样，传统通信时延的有效容量优化方案并不适用于信息时效性限制条件下最优化有效容量。

因此，现有技术存在缺陷，有待改进与发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供基于信息时效性的功率和IRS相移联合优化方法及装置，旨在解决现有技术中传统通信时延的有效容量优化方案并不适用于信息时效性限制条件下最优化有效容量的问题。

本发明解决技术问题所采用的技术方案如下：

一种基于信息时效性的功率和IRS相移联合优化方法，包括：

获取源节点上待发送的状态更新数据包对应的信号信息以及信道信息，根据所述信号信息和所述信道信息得到所述状态更新数据包对应的峰值信息年龄违规概率；

对所述峰值信息年龄违规概率进行随机网络演算处理，得到所述峰值信息年龄违规概率的违规限制条件；

获取IRS信息，根据所述信号信息、所述信道信息以及所述IRS信息计算有效容量，根据所述有效容量和所述违规限制条件构建有效容量优化模型；

将所述有效容量优化模型求解过程转化为马尔科夫决策过程；

基于双延迟DDPG方法求解所述马尔科夫决策过程，确定IRS相移值以及所述源节点的发送功率值。

在一种实现方式中，所述获取源节点上待发送的状态更新数据包对应的信号信息以及信道信息，根据所述信号信息和所述信道信息得到所述状态更新数据包对应的峰值信息年龄违规概率，包括：

获取源节点上待发送的状态更新数据包对应的信号信息以及信道信息；

根据所述信号信息，得到所述状态更新数据包对应的峰值信息年龄；

根据所述信道信息以及所述峰值信息年龄，得到所述状态更新数据包对应的峰值信息年龄违规概率；

其中，所述信号信息包括前一个状态更新数据包与当前状态更新数据包之间的生成间隔时间，以及当前状态更新数据包的总停留时间；所述信道信息包括信道数。

在一种实现方式中，第n个状态更新数据包对应的峰值信息年龄表示为P_AoI(n)＝T^I(n-1,n)+T(n)；

其中，所述T^I(n-1,n)表示第(n-1)个状态更新数据包和第n个状态更新数据包生成间隔时间，所述T(n)表示第n个状态更新数据包的总停留时间；

第n个状态更新数据包对应的峰值信息年龄违规概率表示为

其中，Pr{x}表示事件x成立的概率，所述A_th表示峰值信息年龄的预设门限值，所述L表示信道数。

在一种实现方式中，对所述峰值信息年龄违规概率进行随机网络演算处理，得到所述峰值信息年龄违规概率的违规限制条件，包括：

对所述峰值信息年龄违规概率进行随机网络演算处理，得到所述峰值信息年龄违规概率的违规上界；

对所述违规上界进行限制处理，得到所述峰值信息年龄违规概率的违规限制条件。

在一种实现方式中，所述峰值信息年龄违规概率的违规上界表示为

其中，所述表示一个常数，所述A_th表示峰值信息年龄的第一预设门限值，所述L表示信道数，所述T^I(n-1,n)表示在指数域第(n-1)个状态更新数据包和第n个状态更新数据包达到时间间隔，所述T^S(n)表示在指数域第n个状态更新数据包的服务时间，所述表示T^I(n-1,n)的梅林变换，所述/>表示T^S(n)的梅林变换；

所述峰值信息年龄违规概率的违规限制条件表示为

其中，所述ε_th表示峰值信息年龄违规概率的预设违规概率门限值。

在一种实现方式中，所述信号信息还包括传输状态更新数据包的信号；所述信道信息还包括源节点和IRS之间的信道增益，以及IRS和目的节点之间的信道增益；所述IRS信息包括IRS的对角线相移矩阵；

获取IRS信息，根据所述信号信息、所述信道信息以及所述IRS信息计算有效容量，根据所述有效容量和所述违规限制条件构建有效容量优化模型，包括：

根据传输状态更新数据包的信号、源节点和IRS之间的信道增益、IRS和目的节点之间的信道增益以及IRS的对角线相移矩阵，得到源节点发送状态更新数据包时接收到的信号；

根据源节点发送状态更新数据包时接收到的信号，得到传输状态更新数据包的信噪比；

根据所述信噪比得到传输状态更新数据包的解码错误概率函数；

根据所述信噪比和所述解码错误概率函数得到对应的有效容量；

根据所述有效容量和所述违规限制条件构建有效容量优化模型。

在一种实现方式中，源节点发送第n个状态更新数据包时接收到的信号表示为

其中，所述h_SI(n)∈C^F×1表示源节点和IRS之间的信道增益，所述H表示矩阵的共轭转置运算，所述表示IRS的对角线相移矩阵，所述h_ID(n)∈C^F×1表示IRS和目的节点之间的信道增益，所述P(n)表示传输第n个状态更新数据包的传输功率，所述s(n)表示传输第n个状态更新数据包的信号，所述s(n)信号的功率值为1，所述n₀表示目的节点处的高斯白噪声；

传输第n个状态更新数据包时的信噪比表示为其中，所述σ²表示噪声的功率；

传输第n个状态更新数据包的解码错误概率函数表示为

其中，所述C(γ(n))＝log₂(1+γ(n))，所述所述M表示状态更新数据包的bit数，所述L表示信道数；

IRS辅助的短包数据传输系统中的有效容量表示为

其中，E(·)表示期望，所述γ(n)表示传输第n个状态更新数据包时信噪比，所述ε(γ(n))表示传输第n个状态更新数据包的解码错误概率函数，所述M表示第n个状态更新数据包的大小；

所述有效容量优化模型表示为

γ(n)≥γ_th

P_min≤P(n)≤P_max；

其中，所述γ_th表示传输状态更新数据包信噪比的预设信噪比门限值，P_min表示数据包传输功率的预设最小值，P_max表示数据包传输功率的预设最大值。

在一种实现方式中，将所述有效容量优化模型求解过程转化为马尔科夫决策过程，包括：

将所述有效容量优化模型对应的短包数据传输系统作为一个智能体，将所述智能体的决策过程建模为一个离散的MDP；

所述MDP在迭代次数t时行动空间表示为：

a_t＝[P(n)_t,θ₁(n)_t,L,θ_f(n)_t,L,θ_F(n)_t]；

其中，所述t表示迭代次数，所述P(n)_t表示传输第n个状态更新数据包的功率值，θ₁(n)_t,L,θ_f(n)_t,L,θ_F(n)_t分别表示IRS的第1个子单元到第F个子单元的相移；P(n)_t的取值范围为P_min≤P(n)_t≤P_max，每个f子单元的相移取值范围为[0,2π]；

所述MDP在迭代次数t时状态空间表示为：

其中，所述表示迭代次数(t-1)的有效容量值；

所述MDP在迭代次数t时奖励值表示为

且需满足和γ(n)≥γ_th，否则奖励r_t＝0。

在一种实现方式中，所述基于双延迟DDPG方法求解所述马尔科夫决策过程，确定IRS相移值以及所述源节点的发送功率值，包括：

利用Actor网络根据所述MDP的当前状态信息输出一个动作，并根据所述当前状态信息和所述动作获得奖励和下一个状态信息；

利用两个Critics网络学习Q函数值，两个所述Critics网络分别学习得到Q函数值，将两个Q函数值的最小值作为每个Q函数更新的Q函数值；

将所述动作中加入噪声，平滑所述Q函数沿着不同动作的变化；

更新策略和所述Q函数，直至达到最大迭代次数，得到IRS相移值以及所述源节点的发送功率值。

在一种实现方式中，所述基于双延迟DDPG方法求解所述马尔科夫决策过程，确定IRS相移值以及所述源节点的发送功率值之后，还包括：

将所述IRS相移值发送至IRS控制器，以及将所述发送功率值发送至源节点。

本发明还提供一种基于信息时效性的功率和IRS相移联合优化装置，包括：

获取模块，用于获取源节点上待发送的状态更新数据包对应的信号信息以及信道信息，根据所述信号信息和所述信道信息得到所述状态更新数据包对应的峰值信息年龄违规概率；

演算模块，用于对所述峰值信息年龄违规概率进行随机网络演算处理，得到所述峰值信息年龄违规概率的违规限制条件；

构建模块，用于获取IRS信息，根据所述信号信息、所述信道信息以及所述IRS信息计算有效容量，根据所述有效容量和所述违规限制条件构建有效容量优化模型；

转化模块，用于将所述有效容量优化模型求解过程转化为马尔科夫决策过程；

求解模块，用于基于双延迟DDPG方法求解所述马尔科夫决策过程，确定IRS相移值以及所述源节点的发送功率值。

本发明还提供一种终端，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于信息时效性的功率和IRS相移联合优化程序，所述基于信息时效性的功率和IRS相移联合优化程序被所述处理器执行时实现如上所述的基于信息时效性的功率和IRS相移联合优化方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序能够被执行以用于实现如上所述的基于信息时效性的功率和IRS相移联合优化方法的步骤。

本发明所提供的基于信息时效性的功率和IRS相移联合优化方法及装置，所述基于信息时效性的功率和IRS相移联合优化方法包括：获取源节点上待发送的状态更新数据包对应的信号信息以及信道信息，根据所述信号信息和所述信道信息得到所述状态更新数据包对应的峰值信息年龄违规概率；对所述峰值信息年龄违规概率进行随机网络演算处理，得到所述峰值信息年龄违规概率的违规限制条件；获取IRS信息，根据所述信号信息、所述信道信息以及所述IRS信息计算有效容量，根据所述有效容量和所述违规限制条件构建有效容量优化模型；将所述有效容量优化模型求解过程转化为马尔科夫决策过程；基于双延迟DDPG方法求解所述马尔科夫决策过程，确定IRS相移值以及所述源节点的发送功率值。本发明利用峰值信息年龄违规概率量化信息时效性保障需求，构建出有效容量优化模型，利用双延迟DDPG的深度强化学习算法求解有效容量优化模型，进而在信息时效性保障需求下，联合控制设备功率和IRS相移以最优化IRS辅助的短包数据传输系统中的有效容量，且优化过程中不会产生复杂的计算。

附图说明

图1是本发明中基于信息时效性的功率和IRS相移联合优化方法较佳实施例的流程图。

图2是本发明中IRS辅助的短包数据传输系统的示意图。

图3是本发明中基于信息时效性的功率和IRS相移联合优化方法较佳实施例中步骤S100的具体流程图。

图4是本发明中峰值AoI的示例图。

图5是本发明中基于信息时效性的功率和IRS相移联合优化方法较佳实施例中步骤S200的具体流程图。

图6是本发明中基于信息时效性的功率和IRS相移联合优化方法较佳实施例中步骤S300的具体流程图。

图7是本发明中基于信息时效性的功率和IRS相移联合优化方法较佳实施例中步骤S500的具体流程图。

图8是本发明中基于双延迟DDPG方法求解所述马尔科夫决策过程的示意图。

图9是本发明中基于信息时效性的功率和IRS相移联合优化装置较佳实施例的功能原理框图。

图10是本发明中终端的较佳实施例的功能原理框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明是针对在智能反射平面(Intelligent Reflecting Surface,IRS)辅助的短包数据传输系统，利用基于深度强化学习的设备功率和IRS相移联合优化方法，以保障信息时效性统计保障需求情况下最大化IRS辅助的短包数据传输系统中的有效容量(Effective Capacity,EC)。

具体地，由于信息时效性不同于传统通信时延，传统时延是针对单一数据包来说，而信息时效性的对象是信息流，即一系列数据包。并且信息的时效性与数据的采样和传输都有关，通常对数据在网络中的传输进行优化来减小延时，而对信息时效性进行优化，需要联合优化数据包的产生(即数据的采样)和数据的传输。因此，在信息时效性统计保障需求下有效容量优化问题是一个亟需研究的问题。

并且，在IRS辅助的通信系统中，信息时效性统计保障下有效容量优化问题需要联合优化设备的功率和IRS相移，在满足信息时效性需求下最大化有效容量。但是，由于限制条件和目标函数的非凸性和恒模约束，利用半正定松弛法(Semidefinite Relaxation)、穷搜法等求解上述优化问题将会产生较复杂的计算。特别对于大规模网络，这将是不切实际的。

本发明是为了解决IRS辅助的短包数据传输系统中基于信息时效性的设备功率和IRS相移联合优化存在的问题，由于深度强化学习的优势特点，利用其方法求解非凸优化问题将具有很大的优势。但是，考虑到传统的深度强化学习的缺陷，比如深度Q网络(Deep QNetwork,DQN)对于动作连续的情况效率不高，以及深度确定性策略梯度(DDPG,DeepDeterministic Policy Gradient)学习的Q函数通常会被高估，使得学到的策略失效。这样基于深度强化学习的设备功率和IRS相移联合优化方案设计将是具有挑战性的问题。

请参见图1，图1是本发明中基于信息时效性的功率和IRS相移联合优化方法的流程图。如图1所示，本发明实施例所述的基于信息时效性的功率和IRS相移联合优化方法包括以下步骤：

步骤S100、获取源节点上待发送的状态更新数据包对应的信号信息以及信道信息，根据所述信号信息和所述信道信息得到所述状态更新数据包对应的峰值信息年龄违规概率。

具体地，如图2所示，本发明的短包数据传输系统包括一个源节点S和目的节点D，并且源节点S和目的节点D之间无法建立直接链路，由IRS协助源节点S和目的节点D之间建立通信链路。这是由于源节点S和目的节点D之间直接链路信道状态较差，通过改变IRS每个子单元的相移改变源节点S到目的节点D之间的信道状态，从而提升两者的通信质量。IRS包括F＝F_x×F_y个相移器，并且全部的相移器由IRS控制器进行配置。源节点S检测某个物理过程的状态，向目的节点发送N个状态更新数据包用于更新目的节点D处关于源节点S处的信息。目的节点可以是基站，无线接入节点等终端。在本发明中，目的节点运行本发明的方法步骤程序得到IRS相移和功率控制决策。

在一种实现方式中，如图3所示，所述步骤S100具体包括：

步骤S110、获取源节点上待发送的状态更新数据包对应的信号信息以及信道信息；

步骤S120、根据所述信号信息，得到所述状态更新数据包对应的峰值信息年龄；

步骤S130、根据所述信道信息以及所述峰值信息年龄，得到所述状态更新数据包对应的峰值信息年龄违规概率。

其中，所述信号信息包括前一个状态更新数据包与当前状态更新数据包之间的生成间隔时间，以及当前状态更新数据包的总停留时间，所述总停留时间是指排队时间与服务时间之和；所述信道信息包括信道数。

在短数据包通信中，数据包的长度通常较短。然而，传统的香农公式是描述编码分组长度趋近于无穷时实现无失真数据传输的最大传输速率，这将无法正确描述有限码长传输的系统性能。并且，在香农公式中，假设数据包为无限长，且解码误差为0，但是，由于检测算法的能力有限以及调制和解码方案的影响，在短数据包通信中不能忽略解码错误概率。在本发明中，解码错误概率将会影响数据包传输成功与否，进而影响数据包传输的时延以及数据包的信息时效性。另外，解码错误概率和系统有效容量受到数据包传输功率和IRS每个子单位相移的控制。因此，本发明联合优化设备传输功率和IRS每个子单元的相移，在保障信息时效性需求下，最大化系统有效容量。

具体地，本发明利用峰值信息年龄(Age of Information,AoI)违规概率量化信息时效性保障需求。

在一种实施例中，首先根据信息年龄定义获取峰值AoI违规概率，如图4所示，源节点设备将会发送N个状态更新数据包，发送第n个状态更新数据包的峰值AoI包括第(n-1)个状态更新数据包和第n个状态更新数据包生成间隔时间以及第n个状态更新数据包的服务时间，其可以表示为：P_AoI(n)＝T^I(n-1,n)+T(n)；其中，T^I(n-1,n)表示第(n-1)个状态更新数据包和第n个状态更新数据包生成间隔时间，T(n)表示第n个状态更新数据包的总停留时间；第n个状态更新数据包对应的峰值信息年龄违规概率表示为其中，Pr{x}表示事件x成立的概率，所述A_th表示峰值信息年龄的预设门限值，可以是根据经验预先设置的门限值，所述L表示信道数。

所述步骤S100之后为：步骤S200、对所述峰值信息年龄违规概率进行随机网络演算处理，得到所述峰值信息年龄违规概率的违规限制条件。

也就是说，基于随机网络演算理论获得峰值AoI违规概率的违规限制条件。

在一种实现方式中，如图5所示，所述步骤S200具体包括：

步骤S210、对所述峰值信息年龄违规概率进行随机网络演算处理，得到所述峰值信息年龄违规概率的违规上界；

步骤S220、对所述违规上界进行限制处理，得到所述峰值信息年龄违规概率的违规限制条件。

在一种实施例中，首先，根据随机网络演算理论得到峰值AoI违规概率的违规上界，其可以表示为：所述峰值信息年龄违规概率的违规上界表示为

其中，所述表示一个常数，所述A_th表示峰值信息年龄的第一预设门限值，所述L表示信道数，所述T^I(n-1,n)表示在指数域第(n-1)个状态更新数据包和第n个状态更新数据包达到时间间隔，所述T^S(n)表示在指数域第n个状态更新数据包的服务时间，所述表示T^I(n-1,n)的梅林变换，所述/>表示T^S(n)的梅林变换。另外，对于任意数据包n，第(n-1)个状态更新数据包和第n个状态更新数据包达到时间间隔，以及第n个状态更新数据包的服务时间都是独立同分布。

然后通过限制峰值AoI的上界得到峰值AoI违规概率的违规限制条件，其可以表示为：其中，所述ε_th表示峰值信息年龄违规概率的预设违规概率门限值，所述预设违规概率门限值可以由经验值得到。

所述步骤S200之后为：步骤S300、获取IRS信息，根据所述信号信息、所述信道信息以及所述IRS信息计算有效容量，根据所述有效容量和所述违规限制条件构建有效容量优化模型。

具体地，根据有效容量定义获得IRS辅助的短包数据传输系统中的有效容量。

在一种实现方式中，所述信号信息还包括传输状态更新数据包的信号；所述信道信息还包括源节点和IRS之间的信道增益，以及IRS和目的节点之间的信道增益；所述IRS信息包括IRS的对角线相移矩阵。如图6所示，所述步骤S300具体包括：

步骤S310、根据传输状态更新数据包的信号、源节点和IRS之间的信道增益、IRS和目的节点之间的信道增益以及IRS的对角线相移矩阵，得到源节点发送状态更新数据包时接收到的信号；

步骤S320、根据源节点发送状态更新数据包时接收到的信号，得到传输状态更新数据包的信噪比；

步骤S330、根据所述信噪比得到传输状态更新数据包的解码错误概率函数；

步骤S340、根据所述信噪比和所述解码错误概率函数得到对应的有效容量；

步骤S350、根据所述有效容量和所述违规限制条件构建有效容量优化模型。

在一种实施例中，源节点发送第n个状态更新数据包时，目的节点接收到的信号表示为其中，所述h_SI(n)∈C^F×1表示源节点和IRS之间的信道增益；C表示复数集合，F×1表示F行，一列的矩阵，F表示IRS的子单元个数；所述H表示矩阵的共轭转置运算，所述/>表示IRS的对角线相移矩阵，所述h_ID(n)∈C^F×1表示IRS和目的节点之间的信道增益，所述P(n)表示传输第n个状态更新数据包的传输功率，所述s(n)表示传输第n个状态更新数据包的信号，所述s(n)信号的功率值为1，所述n₀表示目的节点处的高斯白噪声。并且，源节点的设备功率P(n)和IRS的每个子单元相移θ₁(n),L,θ_f(n),L,θ_F(n)是决策变量，其目的是在保障信息时效性需求下提升系统的有效容量。

传输第n个状态更新数据包时的信噪比表示为其中，所述σ²表示噪声的功率。

传输第n个状态更新数据包的解码错误概率函数表示为其中，所述C(γ(n))＝log₂(1+γ(n))，所述/>所述M表示状态更新数据包的bit数，所述L表示信道数(时域)；C函数表示信道容量，V函数表示信道色散，Q表示高斯Q函数。

IRS辅助的短包数据传输系统中的有效容量表示为

其中，E(·)表示期望，所述γ(n)表示传输第n个状态更新数据包时信噪比，所述ε(γ(n))表示传输第n个状态更新数据包的解码错误概率函数，所述M表示第n个状态更新数据包的大小，单位为bit。

这样，获得信息时效性保障需求下有效容量最大化问题，即有效容量优化模型，将其表示为：

γ(n)≥γ_th

P_min≤P(n)≤P_max；

所述步骤S300之后为：步骤S400、将所述有效容量优化模型求解过程转化为马尔科夫决策过程。

在一种实现方式中，将所述有效容量优化模型求解过程转化为马尔科夫决策过程具体为：将所述有效容量优化模型对应的短包数据传输系统作为一个智能体，将所述智能体的决策过程建模为一个离散的MDP。

所述MDP在迭代次数t时行动空间表示为：

a_t＝[P(n)_t,θ₁(n)_t,L,θ_f(n)_t,L,θ_F(n)_t]；

所述MDP在迭代次数t时状态空间表示为：

其中，所述表示迭代次数(t-1)的有效容量值；

所述MDP在迭代次数t时奖励值表示为

此时需要满足和γ(n)≥γ_th，否则奖励r_t＝0。

所述步骤S400之后为：步骤S500、基于双延迟DDPG方法求解所述马尔科夫决策过程，确定IRS相移值以及所述源节点的发送功率值。

在一种实现方式中，如图7所示，所述步骤S500具体包括：

步骤S510、利用Actor网络根据所述MDP的当前状态信息输出一个动作，并根据所述当前状态信息和所述动作获得奖励和下一个状态信息；

步骤S520、利用两个Critics网络学习Q函数值，两个所述Critics网络分别学习得到Q函数值，将两个Q函数值的最小值作为每个Q函数更新的Q函数值；

步骤S530、将所述动作中加入噪声，平滑所述Q函数沿着不同动作的变化；

步骤S540、更新策略和所述Q函数，直至达到最大迭代次数，得到IRS相移值以及所述源节点的发送功率值。

如图8所示，双延迟DDPG(TwinDelayed DDPG)一种深度强化学习算法，包括一个Actor(演员)，两个Critics(评论家)，Actor网络的功能是输出一个动作，这个动作输入到Critic后能够获得最大的Q函数值，Critic网络的功能是预估Q函数值，将Actor得到的动作和状态值输入到Critic对Actor网络得到的动作进行评判。利用Actor(演员)网络根据MDP当前的状态信息(s_t)输出一个动作(a_t)，并且根据当前的状态信息和动作获得奖励(r_t)和下一个状态信息(s_t+1)。利用两个Critics(评论家)网络学习Q函数值，其中，两个评论家网络分别学习得到Q函数值，将两个Q函数值的最小值作为每个Q函数更新的Q函数值。将动作中加入噪声，通过平滑Q函数沿着不同动作的变化，使得策略不易受到Q函数的错误的影响。更新策略和Q函数，策略更新的频率要低于Q函数的更新频率。Q函数更新多次，策略网络才更新一次。

具体地，强化学习过程是智能体与环境的交互过程，智能体通过每次的决策，积累经验，使往后的决策获得更好的奖励，Q函数值是指累计的奖赏值。智能体得到决策并且执行决策后，更新策略和Q函数，直到程序设定的最大智能体与环境的交互次数。更新完毕之后，优化了发送状态更新数据包时IRS的相移和设备发送功率值，进而满足信息时效性需求下提升有效容量。

在一种实现方式中，所述步骤S500之后还包括：步骤S600、将所述IRS相移值发送至IRS控制器，以及将所述发送功率值发送至源节点。

具体地，当源节点要发送状态更新数据包时，目的节点经过上述步骤优化后，得到IRS相移值和发送功率值决策，即，目的节点会告知IRS控制器按照决策出的所述IRS相移值调控IRS相移，以及告知源节点设备按照所述发送功率值发送状态更新数据包。通过调整IRS的相移能够改变信道状态，控制源节点设备的发送功率能够提升通信质量。

本发明提出了IRS辅助的短包数据传输系统中在满足信息时效性保障需求下最优化有效容量的研究方法，即，首先利用峰值信息年龄违规概率以量化信息时效性保障需求，并且利用随机网络演算理论推导出峰值AoI违规概率的上界以及根据有效容量定义得到IRS辅助的短包数据传输系统中的有效容量，进而构建满足信息时效性保障需求的有效容量最大化问题；还提出了基于信息时效性的功率和IRS相移联合优化方法，即，利用双延迟DDPG(TwinDelayed DDPG)的深度强化学习算法，提出基于深度强化学习的设备功率和IRS相移联合优化方案，以求解所构建的有效容量最大化问题，进而实现可行且高效的优化方案。

进一步地，如图9所示，基于上述基于信息时效性的功率和IRS相移联合优化方法，本发明还相应提供了一种基于信息时效性的功率和IRS相移联合优化装置，包括：

获取模块100，用于获取源节点上待发送的状态更新数据包对应的信号信息以及信道信息，根据所述信号信息和所述信道信息得到所述状态更新数据包对应的峰值信息年龄违规概率；

演算模块200，用于对所述峰值信息年龄违规概率进行随机网络演算处理，得到所述峰值信息年龄违规概率的违规限制条件；

构建模块300，用于获取IRS信息，根据所述信号信息、所述信道信息以及所述IRS信息计算有效容量，根据所述有效容量和所述违规限制条件构建有效容量优化模型；

转化模块400，用于将所述有效容量优化模型求解过程转化为马尔科夫决策过程；

求解模块500，用于基于双延迟DDPG方法求解所述马尔科夫决策过程，确定IRS相移值以及所述源节点的发送功率值。

进一步地，如图10所示，基于上述基于信息时效性的功率和IRS相移联合优化方法，本发明还相应提供了一种终端，如基站、无线接入节点，包括：存储器20、处理器10及存储在所述存储器20上并可在所述处理器10上运行的基于信息时效性的功率和IRS相移联合优化程序30，所述基于信息时效性的功率和IRS相移联合优化程序30被所述处理器10执行时实现如上所述的基于信息时效性的功率和IRS相移联合优化方法的步骤。

综上所述，本发明公开的基于信息时效性的功率和IRS相移联合优化方法及装置，所述基于信息时效性的功率和IRS相移联合优化方法包括：获取源节点上待发送的状态更新数据包对应的信号信息以及信道信息，根据所述信号信息和所述信道信息得到所述状态更新数据包对应的峰值信息年龄违规概率；对所述峰值信息年龄违规概率进行随机网络演算处理，得到所述峰值信息年龄违规概率的违规限制条件；获取IRS信息，根据所述信号信息、所述信道信息以及所述IRS信息计算有效容量，根据所述有效容量和所述违规限制条件构建有效容量优化模型；将所述有效容量优化模型求解过程转化为马尔科夫决策过程；基于双延迟DDPG方法求解所述马尔科夫决策过程，确定IRS相移值以及所述源节点的发送功率值。本发明利用峰值信息年龄违规概率量化信息时效性保障需求，构建出有效容量优化模型，利用双延迟DDPG的深度强化学习算法求解有效容量优化模型，进而在信息时效性保障需求下，联合控制设备功率和IRS相移以最优化IRS辅助的短包数据传输系统中的有效容量，且优化过程中不会产生复杂的计算。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于信息时效性的功率和IRS相移联合优化方法，其特征在于，包括：

基于双延迟DDPG方法求解所述马尔科夫决策过程，确定IRS相移值以及所述源节点的发送功率值；

所述获取源节点上待发送的状态更新数据包对应的信号信息以及信道信息，根据所述信号信息和所述信道信息得到所述状态更新数据包对应的峰值信息年龄违规概率，包括：

其中，所述信号信息包括前一个状态更新数据包与当前状态更新数据包之间的生成间隔时间，以及当前状态更新数据包的总停留时间；所述信道信息包括信道数；

第n个状态更新数据包对应的峰值信息年龄表示为P_AoI(n)＝T^I(n-1,n)+T(n)；

其中，所述T^I(n-1,n)表示第(n-1)个状态更新数据包和第n个状态更新数据包生成的间隔时间，所述T(n)表示第n个状态更新数据包的总停留时间；

第n个状态更新数据包对应的峰值信息年龄违规概率表示为

其中，Pr{x}表示事件x成立的概率，所述A_th表示峰值信息年龄的预设门限值，所述L表示信道数；

对所述峰值信息年龄违规概率进行随机网络演算处理，得到所述峰值信息年龄违规概率的违规限制条件，包括：

对所述违规上界进行限制处理，得到所述峰值信息年龄违规概率的违规限制条件；

所述峰值信息年龄违规概率的违规上界表示为

其中，所述表示一个常数，所述A_th表示峰值信息年龄的预设门限值，所述L表示信道数，所述/>表示第(n-1)个状态更新数据包和第n个状态更新数据包生成的间隔时间，所述/>表示在指数域第n个状态更新数据包的服务时间，所述/>表示的梅林变换，所述/>表示/>的梅林变换；

所述峰值信息年龄违规概率的违规限制条件表示为

其中，所述ε_th表示峰值信息年龄违规概率的预设违规概率门限值；

所述信号信息还包括传输状态更新数据包的信号；所述信道信息还包括源节点和IRS之间的信道增益，以及IRS和目的节点之间的信道增益；所述IRS信息包括IRS的对角线相移矩阵；

根据所述有效容量和所述违规限制条件构建有效容量优化模型；

源节点发送第n个状态更新数据包时接收到的信号表示为

其中，所述表示源节点和IRS之间的信道增益，所述H表示矩阵的共轭转置运算，所述/>表示IRS的对角线相移矩阵，所述/>表示IRS和目的节点之间的信道增益，所述P(n)表示传输第n个状态更新数据包的传输功率，所述s(n)表示传输第n个状态更新数据包的信号，所述s(n)信号的功率值为1，所述n₀表示目的节点处的高斯白噪声；

传输第n个状态更新数据包的解码错误概率函数表示为

其中，所述C(γ(n))＝log₂(1+γ(n))，所述所述M表示第n个状态更新数据包的大小，所述L表示信道数；

IRS辅助的短包数据传输系统中的有效容量表示为

其中，表示期望，所述γ(n)表示传输第n个状态更新数据包时信噪比，所述ε(γ(n))表示传输第n个状态更新数据包的解码错误概率函数，所述M表示第n个状态更新数据包的大小；

所述有效容量优化模型表示为

γ(n)≥γ_th

P_min≤P(n)≤P_max；

其中，所述γ_th表示传输状态更新数据包信噪比的预设信噪比门限值，P_min表示数据包传输功率的预设最小值，P_max表示数据包传输功率的预设最大值；

将所述有效容量优化模型求解过程转化为马尔科夫决策过程，包括：

所述MDP在迭代次数t时行动空间表示为：

a_t＝[P(n)_t,θ₁(n)_t,…,θ_f(n)_t,…,θ_F(n)_t]；

其中，所述t表示迭代次数，所述P(n)_t表示传输第n个状态更新数据包的功率值，θ₁(n)_t,…,θ_f(n)_t,…,θ_F(n)_t分别表示IRS的第1个子单元到第F个子单元的相位值；P(n)_t的取值范围为P_min≤P(n)_t≤P_max，每个f子单元的相移取值范围为[0,2π]；

所述MDP在迭代次数t时状态空间表示为：

其中，所述表示迭代次数(t-1)的有效容量值；

所述MDP在迭代次数t时奖励值表示为

且需满足和γ(n)≥γ_th，否则奖励r_t＝0；

所述基于双延迟DDPG方法求解所述马尔科夫决策过程，确定IRS相移值以及所述源节点的发送功率值，包括：

2.根据权利要求1所述的基于信息时效性的功率和IRS相移联合优化方法，其特征在于，所述基于双延迟DDPG方法求解所述马尔科夫决策过程，确定IRS相移值以及所述源节点的发送功率值之后，还包括：

3.一种基于信息时效性的功率和IRS相移联合优化装置，其特征在于，包括：

求解模块，用于基于双延迟DDPG方法求解所述马尔科夫决策过程，确定IRS相移值以及所述源节点的发送功率值；

第n个状态更新数据包对应的峰值信息年龄违规概率表示为

所述峰值信息年龄违规概率的违规上界表示为

所述峰值信息年龄违规概率的违规限制条件表示为

源节点发送第n个状态更新数据包时接收到的信号表示为

传输第n个状态更新数据包的解码错误概率函数表示为

IRS辅助的短包数据传输系统中的有效容量表示为

所述有效容量优化模型表示为

γ(n)≥γ_th

P_min≤P(n)≤P_max；

所述MDP在迭代次数t时行动空间表示为：

a_t＝[P(n)_t,θ₁(n)_t,…,θ_f(n)_t,…,θ_F(n)_t]；

所述MDP在迭代次数t时状态空间表示为：

其中，所述表示迭代次数(t-1)的有效容量值；

所述MDP在迭代次数t时奖励值表示为

且需满足和γ(n)≥γ_th，否则奖励r_t＝0；

4.一种终端，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于信息时效性的功率和IRS相移联合优化程序，所述基于信息时效性的功率和IRS相移联合优化程序被所述处理器执行时实现如权利要求1～2任意一项所述的基于信息时效性的功率和IRS相移联合优化方法的步骤。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序能够被执行以用于实现如权利要求1～2任意一项所述的基于信息时效性的功率和IRS相移联合优化方法的步骤。