CN112752337B

CN112752337B - 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法

Info

Publication number: CN112752337B
Application number: CN202011484805.XA
Authority: CN
Inventors: 黄赞奇; 苏悦悦; 黄叶婷; 戚楠; 刘一甲; 王伟
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-09-28
Anticipated expiration: 2040-12-16
Also published as: CN112752337A

Abstract

本发明公开了一种基于Q学习的无人机中继协助保持信息新鲜度的系统和方法，所述系统包括一个收发对用户和一个无人机中继；源节点A在每个传输时隙开始采集实时状态信息，并将更新数据包发送给目的节点B；所述系统使用AoI作为评估状态信息更新的及时性的一个度量指标；一阶马尔可夫过程来表示衰落信道上数据传输成功/失败的过程；源节点通过一个控制信道获得当前状态信息，并利用这些信息，基于Q学习算法来优化状态包传输模式选择策略，即中继传输/直接传输，其中回报定义为AoI和无人机能量成本的负加权值。本发明提出的基于Q学习的状态包传输选择方案显著降低了平均信息年龄和无人机能源消耗。

Description

一种基于Q学习的无人机中继协助保持信息新鲜度的系统和方法

技术领域

本发明属于无线通信技术领域，具体涉及一种基于Q学习的无人机中继协助保持信息新鲜度的系统和方法。

背景技术

现如今，在实时物联网应用中，过时的状态信息可能会导致物联网设备做出错误的决策。尤其在时间敏感性的无线传感器网络中，状态信息的及时更新至关重要。物联网中的传统性能指标，如吞吐量和时延，并不能有效地刻画系统中的状态信息更新的及时性。因此，信息年龄(Age of Information,AoI)作为一种新的时延指标用于量化信息的新鲜程度而受到广泛研究。

目前已有很多基于信息新鲜度系统状态更新方面研究成果。有研究工作将AoI定义为自上次状态信息更新以来所经过的时间(参考文献M.A.Abd-Elmagid,N.Pappas andH.S.Dhillon.On the Role of Age of Information in the Internet of Things,IEEECommun.Mag,vol.57,no.12,December 2019,pp.72-77)。研究工作表明，AoI在基于IoT-based的监测系统中起着至关重要的作用(参考文献Buyukates,Baturalp,Alkan Soysal,and Sennur Ulukus.Age of information in multihop multicast networks,J.Commun.Netw 21.3(2019):pp.256-267)。Y.Zhao在2019年提出了一种基于结构感知算法的分组中继方案，该方案能够最小化认知无线电网络中用户AoI的平均值(参考文献Y.Zhao,B.Zhou,W.Saad and X.Luo.Age of Information Analysis for DynamicSpectrum Sharing,Proc.of IEEE Global Conference on Signal and InformationProcessing,Ottawa,ON,Canada,2019,pp.1-5)。

以上工作均假设状态信息的传递成功概率是固定的，但在实际应用中，在非视距(Non Line of Sight,NLoS)通信场景，如城市通信网络中直传链路的质量很差，很可能导致状态信息传输失败。因此，无人机中继通信技术被提出用于辅助状态包传输。无人机中继通信技术能够充分利用无人机的灵活、机动性和视距(Line of Sight,LoS)主导信道等固有优势以辅助状态信息传输。有研究工作通过优化无人机中继的轨迹，研究了总体AoI的最小化问题(参考文献M.A.Abd-Elmagid and H.S.Dhillon.Average Peak Age-of-Information Minimization in UAV-Assisted IoT Networks,IEEE Trans.Veh.Technol,vol.68,no.2,Feb.2019,pp.2003-2008.)。但事实上，通常很难获得完整的信道状态信息，为了描述衰落信道的动态特性，M.Zorzi在1995年研究了一阶马尔可夫过程模型，该模型表示衰落信道上数据传输成功(或失败)的过程(参考文献M.Zorzi,R.R.Rao andL.B.Milstein.On the accuracy of a first-order Markov model for datatransmission on fading channels,in Proc.IEEE ICUPC,Tokyo,Japan,Nov.1995,pp.211–215.)。

综上所述，现有保持信息新鲜度的方法存在一定的问题：

(1)现有大多工作都只考虑节点之间直接通信传输，然而在非视距(NLoS,NonLine of Sight)通信场景，如城市通信网络中，直接通信链路的质量比较差，这可能导致状态更新失败，导致状态信息年龄增加；(2)现有大多工作假设状态信息的传输成功概率是固定的，然而信道具有随机性和动态性，传输是否成功，需要根据过去的状态信息对信道衰落情况进行预测，从而优化传输策略选择。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于Q学习的无人机中继协助保持信息新鲜度的系统和方法，以提升状态信息传输成功概率，从而保持信息新鲜度。

为实现上述技术目的，本发明采取的技术方案为：

一种基于Q学习的无人机中继协助保持信息新鲜度的系统，包括：

所述系统包括一个收发对用户和一个无人机中继；

源节点A在每个传输时隙开始采集实时状态信息，并将更新数据包发送给目的节点B；

定义l为源节点A与目的节点B之间的水平距离，UAV中继C在源节点A和目的节点B的中间以固定高度h盘旋；

所述系统使用AoI作为评估状态信息更新的及时性的一个度量指标，其定义为自从上一次状态更新以来经过的时间，并引入无人机中继通信以辅助更新状态包传输；

一阶马尔可夫过程来表示衰落信道上数据传输成功/失败的过程；

源节点通过一个控制信道获得当前状态信息，并利用这些信息，基于Q学习算法来优化状态包传输模式选择策略，即中继传输/直接传输，其中回报定义为AoI和无人机能量成本的负加权值。

基于其更新状态和当前衰落环境对传输策略进行优化，以最大限度地提高累积预期回报。

本发明进一步公开了以下方案：

上述的系统的传输模式包括：直接传输和无人机中继传输；

假设源节点A和目的节点B之间有一个可靠的反馈信道，反馈信息包括接收信噪比，用于计算当前信道传输质量；

假设在一个成功的一跳传输中，信息以固定速率R传输，那么，每个成功的一跳传输需要一个单位时隙T_h＝I/R，其中I为一个状态包中的信息量；

相应地，在无人机中继传输模式下有两跳传输，共需要两个时隙；

考虑到中继引起的时延，将目的节点B在k时隙的AoI定义为A_t(k)，表示为：

其中

为AoI的最大值，表示一个信息年龄超过了这个阈值的数据包是无效的。

上述的系统采用块衰落信道模型，其信道幅值在一个传输时隙中是恒定的，而在不同时隙中不断变化；

将J_k＝J(kT_h)定义为衰落信道系数的离散时间过程，并将其表示为：

|J_k|²＝d^-θ·|β_k|²

其中d为通信节点之间的距离，θ为路径损耗指数，β_k服从Nakagami-m密度分布函数。

上述的系统的状态信息更新失败或成功过程为一阶马尔可夫过程H(k)＝{0,1}，表示为：

其中1/W为信道衰减裕度；

定义

为一个阈值，定义

和

直接传输和无人机中继传输对应的衰落信道状态分别表示为H_d(k)和H_r(k)，分别对应地对地信道和地对空信道，m_d,m_r分别为地对地信道和地对空信道的衰落程度参数；

令a(k)表示为源节点在k时隙内选择的传输方式，其表达式为：

定义

为传输模式选择动作，其中

表示动作可行空间；则将用户即时奖励函数定义为AoI惩罚函数与无人机能量成本的负值：

r(k)＝D-f_p(A_t(k))-[a(k)-1]·B

式中，设置常数D为避免r(k)小于零，B为无人机中继传输信号所消耗的能量；

f_p(A_t(k))为非线性指数AoI惩罚函数，表达式如下：

f_p(A_t(k))＝exp(z·A_t(k))-1

其中z是一个正常数，用来表示信息的时间敏感程度。

将

表示为期望算子，则系统最优的模式选择为优化问题：

采用Q-learning算法对信息传输方式选择策略进行优化：

第k个时隙中的系统状态定义为S_k(H_d(k),H_r(k),A_t(k))，其中A_t(k)为接收方的AoI；

设q₁(k)和q₂(k)＝1-q₁(k)分别表示a(k)＝1和a(k)＝2的概率；

定义k时隙内用户传输模式选择概率向量q(k)＝{q₁(k),q₂(k)}；

用户的Q值更新表达式为：

其中，μ为学习率，γ为折扣因子，r_k为奖励；

给定玻尔兹曼系数λ，用户策略q(k)＝{q₁(k),q₂(k)}的更新公式为：

一种基于Q学习的无人机中继协助保持信息新鲜度的方法，包括：

步骤一、初始化系统状态为S₀(H_d(0)＝1,H_r(0)＝1,A_t(0)＝1),Q值表为全零矩阵以及源节点传输模式选择概率为q₁(0)＝q₂(0)＝0.5，迭代次数为k＝0；

步骤二、源节点以的概率q(k)＝{q₁(k),q₂(k)}做出传输模式选择，并传输更新状态数据包；

步骤三、通过反馈信道得到当前通信信噪比，更新下一个时刻状态S_k+1(H_d(k),H_r(k),A_t(k),并根据以下公式更新Q值表:

其中，μ为学习率，γ为折扣因子，r_k为奖励；

步骤四、根据更新Q值表调整传输模式选择概率向量，具体如下:

k＝k+1，返回步骤二，直到k＞K_max，K_max为最大迭代次数。

本发明具有以下有益效果：

本发明使用信息年龄作为评估状态信息更新及时性的一个度量指标，引入了无人机中继通信以辅助更新状态包传输；同时提出了一阶马尔可夫过程来表示衰落信道上数据传输成功/失败的过程；设计了基于Q学习算法来优化传输模式选择策略，即中继传输/直接传输，其中回报定义为AoI和无人机能量成本的负加权值。

仿真结果表明，与目前已有的其他技术方案相比，本发明提出的基于Q学习的状态包传输选择方案显著降低了平均信息年龄和无人机能源消耗。

附图说明

图1是本发明方法流程图；

图2为本发明系统模型；

图3为实施例所述两种状态下的Q值曲线图；

图4为实施例所述两种状态下的传输模式选择概率曲线图；

图5为不同传输方案下的回报比较图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

参见图2，一种基于Q学习的无人机中继协助保持信息新鲜度的系统，包括：

所述系统包括一个收发对(一对源-目的收发对)用户和一个无人机中继；

源节点A在每个传输时隙开始立即采集实时状态信息，并将更新数据包发送给目的节点B；

定义l为源节点A与目的节点B之间的水平距离。此外，UAV中继C在源节点A和目的节点B的中间以固定高度h盘旋；

所述系统使用信息年龄(Age of Information,AoI)作为评估状态信息更新的及时性的一个度量指标，其定义为自从上一次状态更新以来经过的时间，并引入无人机中继通信以辅助更新状态包传输；

此外考虑到在实际通信环境中信道状态具有随机性和动态性，提出了一阶马尔可夫过程来表示衰落信道上数据传输成功/失败的过程；

然后设计了源节点通过一个控制信道获得当前状态信息，并利用这些信息，基于Q学习算法来优化状态包传输模式选择策略，即中继传输/直接传输，其中回报定义为AoI和无人机能量成本的负加权值。

在所提出的方案下，基于其更新状态和当前衰落环境对传输策略进行优化，以最大限度地提高累积预期回报。

相关参数设置如表1所示。

表1

参数	值	参数	值	参数	值
						l	1000m	d	100m	τ	10dB
θ	2	D	6	B	1
						m<sub>d</sub>	1	m<sub>r</sub>	2.5～4	λ	0.2
γ	0.3	μ	0.15	z	0.5

实施例中，所述系统的传输模式包括：直接传输和无人机中继传输；

假设源节点A和目的节点B之间有一个可靠的反馈信道，反馈信息包括接收信噪比(Signal Noise Ratio，SNR)，用于计算当前信道传输质量；

相应地，在无人机中继传输模式下有两跳传输，共需要两个时隙。因此，考虑到中继引起的时延，将目的节点B在k时隙的AoI定义为A_t(k)，表示为：

其中

实施例中，所述系统采用块衰落信道模型，则其信道幅值在一个传输时隙中可以认为是恒定的，而在不同时隙中不断变化；

|J_k|²＝d^-θ·|β_k|²

实施例中，定义所述系统的状态信息更新失败或成功过程为一阶马尔可夫过程H(k)＝{0,1}，表示为：

其中1/W为信道衰减裕度；

定义

为一个阈值，定义

和

实施例中，考虑到空对地信道的质量不同于地对地信道，Nakagami-m分布可以很好地表征不同的衰落环境。所述Nakagami-m密度分布函数表示为：

其中Γ(m)是标准的伽玛函数，m为衰落程度系数；

当m＝1时，Nakagami-m分布近似于瑞利分布，对应于地对地信道；当m＞1时，Nakagami-m分布近似于莱斯分布，对应于地对空信道。

实施例中，设P_1→1和P_0→0分别表示状态从H(k-1)＝1到H(k)＝1,H(k-1)＝0到H(k-1)＝0的概率，则P_1→0和P_0→1分别为1-P_1→1和1-P_1→0；

衰落信道状态从H(k-1)到H(k)的转移概率计算如下：

其中

式中，f_β(x)与F_β(x)分别为β_k的概率密度函数和累积分布函数，

和

分别为β_k-1和β_k的联合概率密度函数和联合累积分布函数。其中F_β(τ)推导如下：

进一步的，基于广义Marcum-Q函数轮廓积分表达式与矩量母函数的应用，可以得到

表达式为：

其中

φ_ξ为ξ的矩量母函数，其表达式在文献(参考文献C.Tellambura,A.Annamalai,and V.K.Bhargava.Contour integral representation forgeneralized Marcum-Q function and its application to unified analysis ofdual-branch selection diversity over correlated Nakagami-m fading channels,Proc.IEEE VTC’2000,pp.1031-1034,2000.)中给出.

综合以上表达式，给定衰落程度系数m的值，转移概率矩阵P(m)表示为：

实施例中，直接传输和无人机中继传输对应的衰落信道状态分别表示为H_d(k)和H_r(k)，分别对应地对地信道和地对空信道，m_d,m_r分别为地对地信道和地对空信道的衰落程度参数；

定义

为传输模式选择动作，其中

r(k)＝D-f_p(A_t(k))-[a(k)-1]·B

由于状态信息随着信息年龄增加价值急剧下降，因此将f_p(A_t(k))设计为非线性指数AoI惩罚函数，表达式如下：

f_p(A_t(k))＝exp(z·A_t(k))-1

其中z是一个正常数，用来表示信息的时间敏感程度。

实施例中，本发明的目标是寻找最优的模式选择策略，使累积期望回报最大化；

将

表示为期望算子，则系统最优的模式选择为优化问题：

实施例中，采用Q-learning算法对信息传输方式选择策略进行优化：

设q₁(k)和q₂(k)＝1-q₁(k)分别表示a(k)＝1和a(k)＝2的概率；

定义k时隙内用户传输模式选择概率向量q(k)＝{q₁(k),q₂(k)}；

用户的Q值更新表达式为：

其中，μ为学习率，γ为折扣因子，r_k为奖励；

参见图1，一种基于Q学习的无人机中继协助保持信息新鲜度方法，包括：

其中，μ为学习率，γ为折扣因子，r_k为奖励；

k＝k+1，返回步骤二，直到k＞K_max，K_max为最大迭代次数。

图3示出了在S(H_d＝1,H_r＝1,A_t＝2)和S(H_d＝1,H_r＝1,A_t＝3)两种状态下，直接传输和无人机中继传输的Q值曲线。其显示在大约75次迭代后Q值收敛到一个稳定值。

图4示出了在S(H_d＝1,H_r＝1,A_t＝2)和S(H_d＝1,H_r＝1,A_t＝3)两种状态下，直接传输和无人机中继传输的选择概率曲线。其显示在大约75次迭代后收敛到一个稳定值，源节点A以1的概率选择Q值较高的传输方式。此外，源节点A在状态A_t＝1时选择直接模式，因为此时状态更新并不紧急，直接传输可以避免额外的无人机传输能量消耗。此外，当A_t增加时，例如A_t＝3时，源节点A选择无人机中继模式以避免过多AoI惩罚。原因是无人机中继模式更新状态比直接模式更可靠，具有较好的AoI性能。

图5示出了不同传输方案下的回报比较图。其显示所提出的Q-learning学习方案想比较于其他现有方案具有更高的回报值，表明所提方案可以有效地利用衰落信道的历史状态信息以及当前信息年龄状态来做出最优的传输方式决策。此外，无人机中继方案的回报随着中继信道衰落程度参数m的增加而增加。这是因为，m越大表示信道质量越好，数据传输成功率越高。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。