CN112752337B - 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法 - Google Patents

一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法 Download PDF

Info

Publication number
CN112752337B
CN112752337B CN202011484805.XA CN202011484805A CN112752337B CN 112752337 B CN112752337 B CN 112752337B CN 202011484805 A CN202011484805 A CN 202011484805A CN 112752337 B CN112752337 B CN 112752337B
Authority
CN
China
Prior art keywords
transmission
information
relay
channel
aerial vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011484805.XA
Other languages
English (en)
Other versions
CN112752337A (zh
Inventor
黄赞奇
苏悦悦
黄叶婷
戚楠
刘一甲
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202011484805.XA priority Critical patent/CN112752337B/zh
Publication of CN112752337A publication Critical patent/CN112752337A/zh
Application granted granted Critical
Publication of CN112752337B publication Critical patent/CN112752337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W64/00Locating users or terminals or network equipment for network management purposes, e.g. mobility management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices
    • H04W88/04Terminal devices adapted for relaying to or from another terminal or user

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Radio Relay Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于Q学习的无人机中继协助保持信息新鲜度的系统和方法,所述系统包括一个收发对用户和一个无人机中继;源节点A在每个传输时隙开始采集实时状态信息,并将更新数据包发送给目的节点B;所述系统使用AoI作为评估状态信息更新的及时性的一个度量指标;一阶马尔可夫过程来表示衰落信道上数据传输成功/失败的过程;源节点通过一个控制信道获得当前状态信息,并利用这些信息,基于Q学习算法来优化状态包传输模式选择策略,即中继传输/直接传输,其中回报定义为AoI和无人机能量成本的负加权值。本发明提出的基于Q学习的状态包传输选择方案显著降低了平均信息年龄和无人机能源消耗。

Description

一种基于Q学习的无人机中继协助保持信息新鲜度的系统和 方法
技术领域
本发明属于无线通信技术领域,具体涉及一种基于Q学习的无人机中继协助保持信息新鲜度的系统和方法。
背景技术
现如今,在实时物联网应用中,过时的状态信息可能会导致物联网设备做出错误的决策。尤其在时间敏感性的无线传感器网络中,状态信息的及时更新至关重要。物联网中的传统性能指标,如吞吐量和时延,并不能有效地刻画系统中的状态信息更新的及时性。因此,信息年龄(Age of Information,AoI)作为一种新的时延指标用于量化信息的新鲜程度而受到广泛研究。
目前已有很多基于信息新鲜度系统状态更新方面研究成果。有研究工作将AoI定义为自上次状态信息更新以来所经过的时间(参考文献M.A.Abd-Elmagid,N.Pappas andH.S.Dhillon.On the Role of Age of Information in the Internet of Things,IEEECommun.Mag,vol.57,no.12,December 2019,pp.72-77)。研究工作表明,AoI在基于IoT-based的监测系统中起着至关重要的作用(参考文献Buyukates,Baturalp,Alkan Soysal,and Sennur Ulukus.Age of information in multihop multicast networks,J.Commun.Netw 21.3(2019):pp.256-267)。Y.Zhao在2019年提出了一种基于结构感知算法的分组中继方案,该方案能够最小化认知无线电网络中用户AoI的平均值(参考文献Y.Zhao,B.Zhou,W.Saad and X.Luo.Age of Information Analysis for DynamicSpectrum Sharing,Proc.of IEEE Global Conference on Signal and InformationProcessing,Ottawa,ON,Canada,2019,pp.1-5)。
以上工作均假设状态信息的传递成功概率是固定的,但在实际应用中,在非视距(Non Line of Sight,NLoS)通信场景,如城市通信网络中直传链路的质量很差,很可能导致状态信息传输失败。因此,无人机中继通信技术被提出用于辅助状态包传输。无人机中继通信技术能够充分利用无人机的灵活、机动性和视距(Line of Sight,LoS)主导信道等固有优势以辅助状态信息传输。有研究工作通过优化无人机中继的轨迹,研究了总体AoI的最小化问题(参考文献M.A.Abd-Elmagid and H.S.Dhillon.Average Peak Age-of-Information Minimization in UAV-Assisted IoT Networks,IEEE Trans.Veh.Technol,vol.68,no.2,Feb.2019,pp.2003-2008.)。但事实上,通常很难获得完整的信道状态信息,为了描述衰落信道的动态特性,M.Zorzi在1995年研究了一阶马尔可夫过程模型,该模型表示衰落信道上数据传输成功(或失败)的过程(参考文献M.Zorzi,R.R.Rao andL.B.Milstein.On the accuracy of a first-order Markov model for datatransmission on fading channels,in Proc.IEEE ICUPC,Tokyo,Japan,Nov.1995,pp.211–215.)。
综上所述,现有保持信息新鲜度的方法存在一定的问题:
(1)现有大多工作都只考虑节点之间直接通信传输,然而在非视距(NLoS,NonLine of Sight)通信场景,如城市通信网络中,直接通信链路的质量比较差,这可能导致状态更新失败,导致状态信息年龄增加;(2)现有大多工作假设状态信息的传输成功概率是固定的,然而信道具有随机性和动态性,传输是否成功,需要根据过去的状态信息对信道衰落情况进行预测,从而优化传输策略选择。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种基于Q学习的无人机中继协助保持信息新鲜度的系统和方法,以提升状态信息传输成功概率,从而保持信息新鲜度。
为实现上述技术目的,本发明采取的技术方案为:
一种基于Q学习的无人机中继协助保持信息新鲜度的系统,包括:
所述系统包括一个收发对用户和一个无人机中继;
源节点A在每个传输时隙开始采集实时状态信息,并将更新数据包发送给目的节点B;
定义l为源节点A与目的节点B之间的水平距离,UAV中继C在源节点A和目的节点B的中间以固定高度h盘旋;
所述系统使用AoI作为评估状态信息更新的及时性的一个度量指标,其定义为自从上一次状态更新以来经过的时间,并引入无人机中继通信以辅助更新状态包传输;
一阶马尔可夫过程来表示衰落信道上数据传输成功/失败的过程;
源节点通过一个控制信道获得当前状态信息,并利用这些信息,基于Q学习算法来优化状态包传输模式选择策略,即中继传输/直接传输,其中回报定义为AoI和无人机能量成本的负加权值。
基于其更新状态和当前衰落环境对传输策略进行优化,以最大限度地提高累积预期回报。
本发明进一步公开了以下方案:
上述的系统的传输模式包括:直接传输和无人机中继传输;
假设源节点A和目的节点B之间有一个可靠的反馈信道,反馈信息包括接收信噪比,用于计算当前信道传输质量;
假设在一个成功的一跳传输中,信息以固定速率R传输,那么,每个成功的一跳传输需要一个单位时隙Th=I/R,其中I为一个状态包中的信息量;
相应地,在无人机中继传输模式下有两跳传输,共需要两个时隙;
考虑到中继引起的时延,将目的节点B在k时隙的AoI定义为At(k),表示为:
Figure BDA0002839054530000031
其中
Figure BDA0002839054530000032
为AoI的最大值,表示一个信息年龄超过了这个阈值的数据包是无效的。
上述的系统采用块衰落信道模型,其信道幅值在一个传输时隙中是恒定的,而在不同时隙中不断变化;
将Jk=J(kTh)定义为衰落信道系数的离散时间过程,并将其表示为:
|Jk|2=d·|βk|2
其中d为通信节点之间的距离,θ为路径损耗指数,βk服从Nakagami-m密度分布函数。
上述的系统的状态信息更新失败或成功过程为一阶马尔可夫过程H(k)={0,1},表示为:
Figure BDA0002839054530000033
其中1/W为信道衰减裕度;
定义
Figure BDA0002839054530000034
为一个阈值,定义
Figure BDA0002839054530000035
Figure BDA0002839054530000036
直接传输和无人机中继传输对应的衰落信道状态分别表示为Hd(k)和Hr(k),分别对应地对地信道和地对空信道,md,mr分别为地对地信道和地对空信道的衰落程度参数;
令a(k)表示为源节点在k时隙内选择的传输方式,其表达式为:
Figure BDA0002839054530000037
定义
Figure BDA0002839054530000038
为传输模式选择动作,其中
Figure BDA0002839054530000039
表示动作可行空间;则将用户即时奖励函数定义为AoI惩罚函数与无人机能量成本的负值:
r(k)=D-fp(At(k))-[a(k)-1]·B
式中,设置常数D为避免r(k)小于零,B为无人机中继传输信号所消耗的能量;
fp(At(k))为非线性指数AoI惩罚函数,表达式如下:
fp(At(k))=exp(z·At(k))-1
其中z是一个正常数,用来表示信息的时间敏感程度。
Figure BDA0002839054530000041
表示为期望算子,则系统最优的模式选择为优化问题:
采用Q-learning算法对信息传输方式选择策略进行优化:
第k个时隙中的系统状态定义为Sk(Hd(k),Hr(k),At(k)),其中At(k)为接收方的AoI;
设q1(k)和q2(k)=1-q1(k)分别表示a(k)=1和a(k)=2的概率;
定义k时隙内用户传输模式选择概率向量q(k)={q1(k),q2(k)};
用户的Q值更新表达式为:
Figure BDA0002839054530000042
其中,μ为学习率,γ为折扣因子,rk为奖励;
给定玻尔兹曼系数λ,用户策略q(k)={q1(k),q2(k)}的更新公式为:
Figure BDA0002839054530000043
一种基于Q学习的无人机中继协助保持信息新鲜度的方法,包括:
步骤一、初始化系统状态为S0(Hd(0)=1,Hr(0)=1,At(0)=1),Q值表为全零矩阵以及源节点传输模式选择概率为q1(0)=q2(0)=0.5,迭代次数为k=0;
步骤二、源节点以的概率q(k)={q1(k),q2(k)}做出传输模式选择,并传输更新状态数据包;
步骤三、通过反馈信道得到当前通信信噪比,更新下一个时刻状态Sk+1(Hd(k),Hr(k),At(k),并根据以下公式更新Q值表:
Figure BDA0002839054530000044
其中,μ为学习率,γ为折扣因子,rk为奖励;
步骤四、根据更新Q值表调整传输模式选择概率向量,具体如下:
Figure BDA0002839054530000051
k=k+1,返回步骤二,直到k>Kmax,Kmax为最大迭代次数。
本发明具有以下有益效果:
本发明使用信息年龄作为评估状态信息更新及时性的一个度量指标,引入了无人机中继通信以辅助更新状态包传输;同时提出了一阶马尔可夫过程来表示衰落信道上数据传输成功/失败的过程;设计了基于Q学习算法来优化传输模式选择策略,即中继传输/直接传输,其中回报定义为AoI和无人机能量成本的负加权值。
仿真结果表明,与目前已有的其他技术方案相比,本发明提出的基于Q学习的状态包传输选择方案显著降低了平均信息年龄和无人机能源消耗。
附图说明
图1是本发明方法流程图;
图2为本发明系统模型;
图3为实施例所述两种状态下的Q值曲线图;
图4为实施例所述两种状态下的传输模式选择概率曲线图;
图5为不同传输方案下的回报比较图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
参见图2,一种基于Q学习的无人机中继协助保持信息新鲜度的系统,包括:
所述系统包括一个收发对(一对源-目的收发对)用户和一个无人机中继;
源节点A在每个传输时隙开始立即采集实时状态信息,并将更新数据包发送给目的节点B;
定义l为源节点A与目的节点B之间的水平距离。此外,UAV中继C在源节点A和目的节点B的中间以固定高度h盘旋;
所述系统使用信息年龄(Age of Information,AoI)作为评估状态信息更新的及时性的一个度量指标,其定义为自从上一次状态更新以来经过的时间,并引入无人机中继通信以辅助更新状态包传输;
此外考虑到在实际通信环境中信道状态具有随机性和动态性,提出了一阶马尔可夫过程来表示衰落信道上数据传输成功/失败的过程;
然后设计了源节点通过一个控制信道获得当前状态信息,并利用这些信息,基于Q学习算法来优化状态包传输模式选择策略,即中继传输/直接传输,其中回报定义为AoI和无人机能量成本的负加权值。
在所提出的方案下,基于其更新状态和当前衰落环境对传输策略进行优化,以最大限度地提高累积预期回报。
相关参数设置如表1所示。
表1
参数 参数 参数
l 1000m d 100m τ 10dB
θ 2 D 6 B 1
m<sub>d</sub> 1 m<sub>r</sub> 2.5~4 λ 0.2
γ 0.3 μ 0.15 z 0.5
实施例中,所述系统的传输模式包括:直接传输和无人机中继传输;
假设源节点A和目的节点B之间有一个可靠的反馈信道,反馈信息包括接收信噪比(Signal Noise Ratio,SNR),用于计算当前信道传输质量;
假设在一个成功的一跳传输中,信息以固定速率R传输,那么,每个成功的一跳传输需要一个单位时隙Th=I/R,其中I为一个状态包中的信息量;
相应地,在无人机中继传输模式下有两跳传输,共需要两个时隙。因此,考虑到中继引起的时延,将目的节点B在k时隙的AoI定义为At(k),表示为:
Figure BDA0002839054530000061
其中
Figure BDA0002839054530000062
为AoI的最大值,表示一个信息年龄超过了这个阈值的数据包是无效的。
实施例中,所述系统采用块衰落信道模型,则其信道幅值在一个传输时隙中可以认为是恒定的,而在不同时隙中不断变化;
将Jk=J(kTh)定义为衰落信道系数的离散时间过程,并将其表示为:
|Jk|2=d·|βk|2
其中d为通信节点之间的距离,θ为路径损耗指数,βk服从Nakagami-m密度分布函数。
实施例中,定义所述系统的状态信息更新失败或成功过程为一阶马尔可夫过程H(k)={0,1},表示为:
Figure BDA0002839054530000071
其中1/W为信道衰减裕度;
定义
Figure BDA0002839054530000072
为一个阈值,定义
Figure BDA0002839054530000073
Figure BDA0002839054530000074
实施例中,考虑到空对地信道的质量不同于地对地信道,Nakagami-m分布可以很好地表征不同的衰落环境。所述Nakagami-m密度分布函数表示为:
Figure BDA0002839054530000075
其中Γ(m)是标准的伽玛函数,m为衰落程度系数;
当m=1时,Nakagami-m分布近似于瑞利分布,对应于地对地信道;当m>1时,Nakagami-m分布近似于莱斯分布,对应于地对空信道。
实施例中,设P1→1和P0→0分别表示状态从H(k-1)=1到H(k)=1,H(k-1)=0到H(k-1)=0的概率,则P1→0和P0→1分别为1-P1→1和1-P1→0
衰落信道状态从H(k-1)到H(k)的转移概率计算如下:
Figure BDA0002839054530000076
Figure BDA0002839054530000077
其中
Figure BDA0002839054530000081
Figure BDA0002839054530000082
式中,fβ(x)与Fβ(x)分别为βk的概率密度函数和累积分布函数,
Figure BDA0002839054530000083
Figure BDA0002839054530000084
分别为βk-1和βk的联合概率密度函数和联合累积分布函数。其中Fβ(τ)推导如下:
Figure BDA0002839054530000085
进一步的,基于广义Marcum-Q函数轮廓积分表达式与矩量母函数的应用,可以得到
Figure BDA0002839054530000086
表达式为:
Figure BDA0002839054530000087
其中
Figure BDA0002839054530000088
φξ为ξ的矩量母函数,其表达式在文献(参考文献C.Tellambura,A.Annamalai,and V.K.Bhargava.Contour integral representation forgeneralized Marcum-Q function and its application to unified analysis ofdual-branch selection diversity over correlated Nakagami-m fading channels,Proc.IEEE VTC’2000,pp.1031-1034,2000.)中给出.
综合以上表达式,给定衰落程度系数m的值,转移概率矩阵P(m)表示为:
Figure BDA0002839054530000089
实施例中,直接传输和无人机中继传输对应的衰落信道状态分别表示为Hd(k)和Hr(k),分别对应地对地信道和地对空信道,md,mr分别为地对地信道和地对空信道的衰落程度参数;
令a(k)表示为源节点在k时隙内选择的传输方式,其表达式为:
Figure BDA00028390545300000810
定义
Figure BDA0002839054530000091
为传输模式选择动作,其中
Figure BDA0002839054530000092
表示动作可行空间;则将用户即时奖励函数定义为AoI惩罚函数与无人机能量成本的负值:
r(k)=D-fp(At(k))-[a(k)-1]·B
式中,设置常数D为避免r(k)小于零,B为无人机中继传输信号所消耗的能量;
由于状态信息随着信息年龄增加价值急剧下降,因此将fp(At(k))设计为非线性指数AoI惩罚函数,表达式如下:
fp(At(k))=exp(z·At(k))-1
其中z是一个正常数,用来表示信息的时间敏感程度。
实施例中,本发明的目标是寻找最优的模式选择策略,使累积期望回报最大化;
Figure BDA0002839054530000093
表示为期望算子,则系统最优的模式选择为优化问题:
Figure BDA0002839054530000094
实施例中,采用Q-learning算法对信息传输方式选择策略进行优化:
第k个时隙中的系统状态定义为Sk(Hd(k),Hr(k),At(k)),其中At(k)为接收方的AoI;
设q1(k)和q2(k)=1-q1(k)分别表示a(k)=1和a(k)=2的概率;
定义k时隙内用户传输模式选择概率向量q(k)={q1(k),q2(k)};
用户的Q值更新表达式为:
Figure BDA0002839054530000095
其中,μ为学习率,γ为折扣因子,rk为奖励;
给定玻尔兹曼系数λ,用户策略q(k)={q1(k),q2(k)}的更新公式为:
Figure BDA0002839054530000096
参见图1,一种基于Q学习的无人机中继协助保持信息新鲜度方法,包括:
步骤一、初始化系统状态为S0(Hd(0)=1,Hr(0)=1,At(0)=1),Q值表为全零矩阵以及源节点传输模式选择概率为q1(0)=q2(0)=0.5,迭代次数为k=0;
步骤二、源节点以的概率q(k)={q1(k),q2(k)}做出传输模式选择,并传输更新状态数据包;
步骤三、通过反馈信道得到当前通信信噪比,更新下一个时刻状态Sk+1(Hd(k),Hr(k),At(k),并根据以下公式更新Q值表:
Figure BDA0002839054530000101
其中,μ为学习率,γ为折扣因子,rk为奖励;
步骤四、根据更新Q值表调整传输模式选择概率向量,具体如下:
Figure BDA0002839054530000102
k=k+1,返回步骤二,直到k>Kmax,Kmax为最大迭代次数。
图3示出了在S(Hd=1,Hr=1,At=2)和S(Hd=1,Hr=1,At=3)两种状态下,直接传输和无人机中继传输的Q值曲线。其显示在大约75次迭代后Q值收敛到一个稳定值。
图4示出了在S(Hd=1,Hr=1,At=2)和S(Hd=1,Hr=1,At=3)两种状态下,直接传输和无人机中继传输的选择概率曲线。其显示在大约75次迭代后收敛到一个稳定值,源节点A以1的概率选择Q值较高的传输方式。此外,源节点A在状态At=1时选择直接模式,因为此时状态更新并不紧急,直接传输可以避免额外的无人机传输能量消耗。此外,当At增加时,例如At=3时,源节点A选择无人机中继模式以避免过多AoI惩罚。原因是无人机中继模式更新状态比直接模式更可靠,具有较好的AoI性能。
图5示出了不同传输方案下的回报比较图。其显示所提出的Q-learning学习方案想比较于其他现有方案具有更高的回报值,表明所提方案可以有效地利用衰落信道的历史状态信息以及当前信息年龄状态来做出最优的传输方式决策。此外,无人机中继方案的回报随着中继信道衰落程度参数m的增加而增加。这是因为,m越大表示信道质量越好,数据传输成功率越高。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (3)

1.一种基于Q学习的无人机中继协助保持信息新鲜度的系统,其特征在于,包括:
所述系统包括一个收发对用户和一个无人机中继;
源节点A在每个传输时隙开始采集实时状态信息,并将更新数据包发送给目的节点B;
定义l为源节点A与目的节点B之间的水平距离,UAV中继C在源节点A和目的节点B的中间以固定高度h盘旋;
所述系统使用信息年龄AoI作为评估状态信息更新的及时性的一个度量指标,其定义为自从上一次状态更新以来经过的时间,并引入无人机中继通信以辅助更新状态包传输;
一阶马尔可夫过程来表示衰落信道上数据传输成功/失败的过程;
源节点通过一个控制信道获得当前状态信息,并利用这些信息,基于Q学习算法来优化状态包传输模式选择策略,即中继传输/直接传输,其中回报定义为AoI和无人机能量成本的负加权值;
基于其更新状态和当前衰落环境对传输策略进行优化,以最大限度地提高累积预期回报;
所述系统的传输模式包括:直接传输和无人机中继传输;
假设源节点A和目的节点B之间有一个可靠的反馈信道,反馈信息包括接收信噪比,用于计算当前信道传输质量;
假设在一个成功的一跳传输中,信息以固定速率R传输,那么,每个成功的一跳传输需要一个单位时隙Th=I/R,其中I为一个状态包中的信息量;
相应地,在无人机中继传输模式下有两跳传输,共需要两个时隙;
考虑到中继引起的时延,将目的节点B在k时隙的AoI定义为At(k),表示为:
Figure FDA0003219202570000011
其中
Figure FDA0003219202570000012
为AoI的最大值,表示一个信息年龄超过了这个阈值的数据包是无效的;
所述系统采用块衰落信道模型,其信道幅值在一个传输时隙中是恒定的,而在不同时隙中不断变化;
将Jk=J(kTh)定义为衰落信道系数的离散时间过程,并将其表示为:
|Jk|2=d·|βk|2
其中d为通信节点之间的距离,θ为路径损耗指数,βk服从Nakagami-m密度分布函数;
所述系统的状态信息更新失败或成功过程为一阶马尔可夫过程H(k)={0,1},表示为:
Figure FDA0003219202570000021
其中1/W为信道衰减裕度;
定义
Figure FDA0003219202570000022
为一个阈值,定义
Figure FDA0003219202570000023
Figure FDA0003219202570000024
直接传输和无人机中继传输对应的衰落信道状态分别表示为Hd(k)和Hr(k),分别对应地对地信道和地对空信道,md,mr分别为地对地信道和地对空信道的衰落程度参数;
令a(k)表示为源节点在k时隙内选择的传输方式,其表达式为:
Figure FDA0003219202570000025
定义
Figure FDA0003219202570000026
为传输模式选择动作,其中
Figure FDA0003219202570000027
表示动作可行空间;
则将用户即时奖励函数定义为AoI惩罚函数与无人机能量成本的负值:
r(k)=D-fp(At(k))-[a(k)-1]·B
式中,设置常数D为避免r(k)小于零,B为无人机中继传输信号所消耗的能量;
fp(At(k))为非线性指数AoI惩罚函数,表达式如下:
fp(At(k))=exp(z·At(k))-1
其中z是一个正常数,用来表示信息的时间敏感程度;
采用Q-learning算法对信息传输方式选择策略进行优化:
第k个时隙中的系统状态定义为Sk(Hd(k),Hr(k),At(k)),其中At(k)为接收方的AoI;
设q1(k)和q2(k)=1-q1(k)分别表示a(k)=1和a(k)=2的概率;
定义k时隙内用户传输模式选择概率向量q(k)={q1(k),q2(k)};
用户的Q值更新表达式为:
Figure FDA0003219202570000028
其中,μ为学习率,γ为折扣因子,rk为奖励;
给定玻尔兹曼系数λ,用户策略q(k)={q1(k),q2(k)}的更新公式为:
Figure FDA0003219202570000031
2.根据权利要求1所述的一种基于Q学习的无人机中继协助保持信息新鲜度的系统,其特征在于,将
Figure FDA0003219202570000032
表示为期望算子,则系统最优的模式选择为优化问题:
Figure FDA0003219202570000033
3.根据权利要求1或2所述的一种基于Q学习的无人机中继协助保持信息新鲜度的系统的基于Q学习的无人机中继协助保持信息新鲜度的方法,其特征在于,包括:
步骤一、初始化系统状态为S0(Hd(0)=1,Hr(0)=1,At(0)=1),Q值表为全零矩阵以及源节点传输模式选择概率为q1(0)=q2(0)=0.5,迭代次数为k=0;
步骤二、源节点以的概率q(k)={q1(k),q2(k)}做出传输模式选择,并传输更新状态数据包;
步骤三、通过反馈信道得到当前通信信噪比,更新下一个时刻状态Sk+1(Hd(k),Hr(k),At(k),并根据以下公式更新Q值表:
Figure FDA0003219202570000034
其中,μ为学习率,γ为折扣因子,rk为奖励;
步骤四、根据更新Q值表调整传输模式选择概率向量,具体如下:
Figure FDA0003219202570000035
k=k+1,返回步骤二,直到k>Kmax,Kmax为最大迭代次数。
CN202011484805.XA 2020-12-16 2020-12-16 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法 Active CN112752337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011484805.XA CN112752337B (zh) 2020-12-16 2020-12-16 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011484805.XA CN112752337B (zh) 2020-12-16 2020-12-16 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法

Publications (2)

Publication Number Publication Date
CN112752337A CN112752337A (zh) 2021-05-04
CN112752337B true CN112752337B (zh) 2021-09-28

Family

ID=75648060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011484805.XA Active CN112752337B (zh) 2020-12-16 2020-12-16 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法

Country Status (1)

Country Link
CN (1) CN112752337B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113438315B (zh) * 2021-07-02 2023-04-21 中山大学 基于双网络深度强化学习的物联网信息新鲜度优化方法
CN113316215B (zh) * 2021-07-13 2022-10-11 山东协和学院 基于无线能量的数据传输方法及系统
CN114039918B (zh) * 2021-10-09 2023-07-18 广东技术师范大学 一种信息年龄优化方法、装置、计算机设备及存储介质
CN114142972B (zh) * 2021-11-02 2023-06-06 中国人民解放军陆军工程大学 一种大规模多用户mimo系统中用户状态信息的更新方法
CN114626306B (zh) * 2022-03-22 2023-01-24 华北电力大学 一种园区分布式能源调控信息新鲜度保障方法及系统
CN115037638B (zh) * 2022-06-14 2023-10-20 北京邮电大学 低能耗和高时效性的无人机网络数据采集与传输控制方法
CN115622603A (zh) * 2022-10-08 2023-01-17 广州大学 一种辅助传输信息年龄最小化优化方法
CN115877868B (zh) * 2022-12-01 2024-01-26 南京航空航天大学 无人机在物联网数据收集中抵抗恶意干扰的路径规划方法
CN116193367B (zh) * 2023-04-27 2023-07-25 北京航空航天大学 一种无人机自组网可靠传输时效性评估与计算方法
CN116634469B (zh) * 2023-07-21 2023-09-19 南京源兴智达信息科技有限公司 一种基于多LoRa节点的数据传输管理系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109640370A (zh) * 2019-02-02 2019-04-16 北京邮电大学 一种基于信息新鲜度的车联网传输方法及装置
CN110417456A (zh) * 2019-07-24 2019-11-05 北京交通大学 基于无人机的信息采集方法
CN111586633A (zh) * 2020-05-18 2020-08-25 大连海事大学 一种面向海洋环境感知的无人船协作传输方法
CN111953397A (zh) * 2020-05-20 2020-11-17 南京航空航天大学 一种面向自由信道的全双工无人机中继通信方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3012049A1 (en) * 2016-01-20 2017-07-27 Ez3D, Llc System and method for structural inspection and construction estimation using an unmanned aerial vehicle
US11423332B2 (en) * 2019-09-27 2022-08-23 Intel Corporation Distributed machine learning in an information centric network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109640370A (zh) * 2019-02-02 2019-04-16 北京邮电大学 一种基于信息新鲜度的车联网传输方法及装置
CN110417456A (zh) * 2019-07-24 2019-11-05 北京交通大学 基于无人机的信息采集方法
CN111586633A (zh) * 2020-05-18 2020-08-25 大连海事大学 一种面向海洋环境感知的无人船协作传输方法
CN111953397A (zh) * 2020-05-20 2020-11-17 南京航空航天大学 一种面向自由信道的全双工无人机中继通信方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
6G 时代信息新鲜度优先的无线网络设计;熊轲;《物联网学报》;20200331;全文 *
Average Peak Age-of-Information Minimization in UAV-Assisted IoT Networks;Mohamed A. Abd-Elmagid;<IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY>;20190228;全文 *
Deep Reinforcement Learning for Minimizing Age-of-Information in UAV-Assisted Networks;Mohamed A. Abd-Elmagid;<2019 IEEE Global Communications Conference (GLOBECOM)>;20191213;全文 *
Deep RL-based Trajectory Planning for AoI Minimization in UAV-assisted IoT;Conghao Zhou;<2019 11th International Conference on Wireless Communications and Signal Processing (WCSP)>;20191025;全文 *
车联网频谱捷变机制研究;吴启晖,戚楠;《北京交通大学学报》;20190228;全文 *

Also Published As

Publication number Publication date
CN112752337A (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN112752337B (zh) 一种基于q学习的无人机中继协助保持信息新鲜度的系统和方法
CN110324805B (zh) 一种无人机辅助的无线传感器网络数据收集方法
CN115173923B (zh) 一种低轨卫星网络能效感知路由优化方法和系统
CN116261202A (zh) 农田数据机会传输方法、装置、电子设备及介质
Srinivasa Gowda et al. Hybrid salp swarm–firefly algorithm‐based routing protocol in wireless multimedia sensor networks
CN113255218A (zh) 无线自供电通信网络的无人机自主导航及资源调度方法
Khalil et al. Bit error rate performance analysis in amplify-and-forward relay networks
CN110149140B (zh) 卫星机会式网络的转发方法
CN112867090B (zh) 一种军事作战通信链路选择机制度量方法
CN117614507A (zh) 一种高动态拓扑天地一体化网络的自适应流量卸载方法
Jain et al. An adaptive neuro fuzzy inference system (anfis) based relay selection scheme for cooperative wireless sensor network
CN115412157B (zh) 一种面向应急救援的卫星携能物联网资源优化分配方法
CN116633422A (zh) 面向IoT任务卸载的低轨卫星网络多维资源调度方法
Prasad et al. Deep learning based integrated information and energy relaying in RF powered communication
CN109873765B (zh) 一种隧道环境下无线传感器网络能量有效的路由决策方法
Khalil Delay and energy balance for unmanned aerial vehicle networks
Prema et al. Effective Routing Using Multi-Objective Levy flight-Artificial Rabbit Optimization Algorithm for Wireless Mesh Networks.
Jadhav et al. Impairment Impact on the Wireless Communication System
Wardihani et al. Bandwidth constrained distributed estimation for wireless sensor networks
KR102644441B1 (ko) 중계기를 사용한 다중 송신 다중 수신 통신 시스템에서 심층 학습 기법을 적용한 송수신 신호 처리 방법 및 시스템
Sanada et al. Routing Redundancy Reducing Method for U-Bus Air Using Cloud Cooperation
CN113163478B (zh) 一种无人机数据链基于距离信息的下行功率控制方法及系统
Milocco et al. Energy-efficient forwarding strategies for wireless sensor networks in fading channels
Haj Seyed Javadi et al. Localization of sensor nodes in the Internet of Things using fuzzy logic and learning automata
Yang et al. Dynamic routing path selection algorithm using reinforcement learning in wireless Ad-Hoc networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant