CN114172599A - 一种时限约束下的能量收集认知无线电网络接入方法 - Google Patents

一种时限约束下的能量收集认知无线电网络接入方法 Download PDF

Info

Publication number
CN114172599A
CN114172599A CN202111530900.3A CN202111530900A CN114172599A CN 114172599 A CN114172599 A CN 114172599A CN 202111530900 A CN202111530900 A CN 202111530900A CN 114172599 A CN114172599 A CN 114172599A
Authority
CN
China
Prior art keywords
time
time slot
state
equal
observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111530900.3A
Other languages
English (en)
Other versions
CN114172599B (zh
Inventor
张一晋
张凯
沈世林
林艳
邹骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202111530900.3A priority Critical patent/CN114172599B/zh
Publication of CN114172599A publication Critical patent/CN114172599A/zh
Application granted granted Critical
Publication of CN114172599B publication Critical patent/CN114172599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种时限约束下的能量收集认知无线电网络接入方法,包括确定部分观测马尔可夫决策过程的相关参数,确定次用户吞吐率指标,进而利用Q函数马尔可夫决策过程(Q‑functions Markov Decision Process,QMDP)算法确定感知接入动作。本发明旨在提供一种时限约束下的能量收集认知无线电网络接入方法,以对固定传输时限约束下多信道能量收集认知无线电网络中次用户的感知接入策略进行优化,提高了通信场景下传输的吞吐率。

Description

一种时限约束下的能量收集认知无线电网络接入方法
技术领域
本发明涉及无线网络通信技术领域,具体为一种时限约束下的能量收集认知无线电网络接入方法。
背景技术
近年来,现有通信系统可用的有限频谱资源越来越难以满足各种通信带宽需求,因此需要使用认知无线电技术对频谱管理方法加以改进,使得非授权用户(亦称为次用户)机会式地探测并使用授权用户(亦称为主用户)未在使用的频谱,从而显著提高频谱利用率。次用户通常由于成本受限或环境受限而缺乏固定能量源,需要使用电池供电以及自然界或射频能量收集技术以解决能量供应问题。另一方面,各类实时通信场景的数据业务往往要求每个数据包在严格传输时限内被传输。因此,次用户信道接入需要兼顾主用户活跃规律、严格传输时限约束和能量收集约束。这三个因素的互相耦合则进一步给次用户信道接入策略设计带来了严峻挑战。针对此问题,Bae与Baek考虑次用户在单信道射频能量收集场景下以固定概率决定感知主信道以传输数据或进行能量收集,通过简化的马尔可夫链推导了次用户状态的稳态分布,刻画了信道参数对次用户及时传输概率和数据包逗留时间的影响,但仅建立了静态理论分析模型,而缺少对次用户接入行为的动态优化。
发明内容
本发明旨在提供一种时限约束下的能量收集认知无线电网络接入方法,以对固定传输时限约束下多信道能量收集认知无线电网络中次用户的感知接入策略进行优化。
实现本发明目的的技术方案为:一种时限约束下的能量收集认知无线电网络接入方法,具体步骤为:
步骤1、确定部分观测马尔可夫决策过程的相关参数,所述相关参数包括:描述在时隙t开始时刻次发送端的状态st、描述时隙t的开始时刻状态处于st时,次用户选择的动作at、描述次发送端在状态st=s∈S时采取任意动作at=(x,y)∈As转移到状态st+1=s′∈S的转移概率Pr(s′|s,x,y)、描述次发送端在时隙t开始时刻的观测ot、描述次发送端在状态st=s∈S采取动作at=(x,y)∈As转移到状态st+1=s′∈S时得到观测ot=o的观测函数Pr(o|s,x,y,s')、描述基于时隙t之前所有历史信息和观测的条件下时隙t开始时刻次发送端状态的置信状态It、描述在时隙t开始时刻置信状态It=I时,次发送端采取动作at=(x,y)∈As所获得的即时奖励Rt(I,x,y)、描述一系列从当前置信状态映射到当前时隙动作的策略π。
步骤2、基于决策过程Zt,确定次用户吞吐率指标ψ(π);
步骤3、基于决策过程Zt,利用QMDP算法确定感知接入动作at
本发明与现有技术相比,其显著优点为:全面并充分考虑了信道状态的马尔可夫时变性和部分观测性,引入POMDP进行建模和策略求解,而非简单地基于所有信道的静态统计特性采用MDP建模,并且根据每个时隙的信道观测与奖励反馈动态优化信道接入策略,而非采用固定的接入参数,从而极大提高了通信场景下传输的吞吐率。
附图说明
图1为本发明的流程图。
图2为实施例1中两种方案随传输成功概率ps变化的吞吐率性能示意图。
图3为实施例1中两种方案随传输时限D变化的吞吐率性能示意图。
具体实施方式
本发明应用在一个能量收集认知无线电网络场景下,网络包含N个配对通信的具有固定能量源的主用户组和一个配对通信的依赖于射频能量的次用户组。对于每个主用户组n∈{1,2,K,N},主发送端n通过信道n发送数据至主接收端n;而次发送端则通过机会式地接入主用户组暂时不使用的信道发送数据至次接收端。每个信道n的时间轴均被等长地划分为若干个时隙t,t∈{1,2,K},且每个信道的时隙边界均互相对齐。假设任一信道n的状态在任一时隙t内维持不变。在每个时隙的开始时刻,数据包到达次发送端数据队列的概率为0<λ<1,其传输时间占据一个时隙。假设信道空闲时传输未发生信道错误即数据包成功传输的概率为0<ps≤1。每个数据包具有严格的传输时限D,即如果在数据队列逗留时间超过D个时隙仍未被成功发送则会被移出队列。可见,次发送端的数据队列长度最大值为D。为了能够获得足够能量进行及时的数据发送,在每个时隙开始时刻,次发送端可以选择以下信道接入模式:(1)能量收集模式:选择一个信道收集射频能量,若所选择信道状态为忙碌则将在此时隙末成功收集h≥1个能量单元,并将其储存于容量为L≥1个能量单元的能量储存器中。可见,次发送端可以通过是否成功收集能量获知所选择信道状态。(2)数据传输模式:选择一个信道进行感知(消耗1个能量单元),若感知所选择的信道状态为空闲则发送数据包(消耗m≥1个能量单元)。因此,当能量储存器中的能量少于m+1或数据队列为空时,次发送端不能选择数据传输模式。
一种时限约束下的能量收集认知无线电网络接入方法,具体步骤为:
步骤1、确定部分观测马尔可夫决策过程的相关参数,所述相关参数包括:描述在时隙t开始时刻次发送端的状态st、描述时隙t的开始时刻状态处于st时,次用户选择的动作at、描述次发送端在状态st=s∈S时采取任意动作at=(x,y)∈As转移到状态st+1=s′∈S的转移概率Pr(s′|s,x,y)、描述次发送端在时隙t开始时刻的观测ot、描述次发送端在状态st=s∈S采取动作at=(x,y)∈As转移到状态st+1=s′∈S时得到观测ot=o的观测函数Pr(o|s,x,y,s')、描述基于时隙t之前所有历史信息和观测的条件下时隙t开始时刻次发送端状态的置信状态It、描述在时隙t开始时刻置信状态It=I时,次发送端采取动作at=(x,y)∈As所获得的即时奖励、描述一系列从当前置信状态映射到当前时隙动作的策略π。
步骤2、基于决策过程Zt,确定次用户吞吐率指标ψ(π);
步骤3、基于决策过程Zt,利用QMDP算法确定感知接入动作at
优选地,所述部分观测马尔可夫决策过程的相关参数的确定方法具体为:
步骤1-1、确定部分观测马尔可夫决策过程{Zt,t=0,1,L},即无限时域马尔可夫决策过程,次发送端在每个时隙开始时刻做出决策;
步骤1-2、确定状态st,st满足
Figure BDA0003411457590000031
,其中it∈{-1,0,L,D-1},当0≤it≤D-1时其表示时隙t开始时刻次发送端队首数据包的逗留时间,D为数据包的传输时限,it=-1表示时隙t开始时刻次发送端数据队列为空;jt∈{0,1,L,L}表示时隙t开始时刻次发送端所具有的能量单元数目,L为储存能量单元的能量储存器的容量;
Figure BDA0003411457590000032
则表示时隙t开始时刻的信道n状态。将st所有可能取值组成的集合称之为状态空间,并标记为S。
步骤1-3、确定行为at,at满足:
Figure BDA0003411457590000033
其中,Xt为次发送端在时隙t开始时刻可选工作模式(0表示表示能量收集模式、1表示数据传输模式)的集合,当0≤jt≤m或it=-1时Xt={0},而当m+1≤jt≤L且it≥0时Xt={0,1};Yt={1,2,L,N}表示次发送端用于传输数据或收集能量的信道标号的集合。
步骤1-4、确定状态转移概率Pr(s′|s,x,y),其计算公式为:
Figure BDA0003411457590000034
其中
Figure BDA0003411457590000035
表示信道n的状态从cn转移到cn'的概率,记C0,0(n)为αn,C1,0(n)为βn;Pr(i',j'|i,j,x,y,cn)为信道n在时隙t开始时刻的状态
Figure BDA0003411457590000036
时次发送端采取动作at=(x,y)∈As、次发送端状态从it=i,jt=j转移到it+1=i′,jt+1=j′的概率。
给定信道n在时隙t开始时刻的状态
Figure BDA0003411457590000037
以及动作at=(x,y)∈As时,将次发送端数据分组及能量储存状态的转移概率矩阵标记为Px,y,并在下面分情况详细列出。
①当x=0,y=n即次发送端选择能量收集模式时,
Figure BDA0003411457590000041
其中,Px,y的每一行均对应于队首数据包的逗留时间,Bi,i′(n)代表队首数据包的逗留时间从当前时隙的i转移到下一时隙的i′,而Bi,i′(n)每一行均对应能量储存器中能量单元的数目。
Bi,i′(n)可分为i=-1和i≥0两种情况进行考虑。
当i=-1即次发送端在当前时隙开始时刻无数据包等待发送时,下一时隙开始时刻的队首数据包逗留时间i'=-1或1,并且次发送端所储存能量将不会减少,因此可获得:
Figure BDA0003411457590000042
Figure BDA0003411457590000043
当i≥0即次发送端在当前时隙开始时刻有数据包等待发送时,Bi,i′(n)可进一步分为两种情况进行考虑:当0≤i≤D-2即队首数据包逗留时间在下一时隙开始时刻未到达传输时限时,能量仅在选择信道状态为忙碌时会有所增加,而队首数据包逗留时间i′=i+1,因此可获得:
Figure BDA0003411457590000044
而当i=D-1即队首数据包逗留时间在下一时隙开始时刻已到达传输时限时,当前时隙的队首数据包在下一时隙开始时刻必被移出队列,从而只需关注队列第二个数据包于何时到达,因此可通过几何分布推导得:
Figure BDA0003411457590000045
②当x=1,y=n即次发送端选择数据传输模式时,
Figure BDA0003411457590000051
Bi,i′(n)可分为以下三种情况进行考虑。
当0≤i≤D-2,m+1≤j≤L、信道忙碌或信道错误导致传输失败,队首数据包逗留时间i′=i+1,因此可得:
Figure BDA0003411457590000052
当0≤i≤D-2,m+1≤j≤L时,信道状态空闲且未发生信道错误时,队首数据包传输成功,队首数据包逗留时间i′=i-k,其中0≤k≤i+1,因此可得:
Figure BDA0003411457590000053
其中λ-1=1,当t>l时
Figure BDA0003411457590000054
当i=D-1即队首数据包逗留时间在下一时隙开始时刻已到达传输时限时,当前时隙的队首数据包在下一时隙开始时刻必被移出队列,进而使得队首数据包逗留时间将由i=D-1转移至i′=D-1-k,其中0≤k≤D,因此可得:
Figure BDA0003411457590000061
步骤1-5、确定观测ot,ot满足:
Figure BDA0003411457590000062
其中
Figure BDA0003411457590000063
表示次发送端对时隙t开始时刻队首数据包逗留时间的观测;
Figure BDA0003411457590000064
表示次发送端对时隙t开始时刻所储存能量单元数目的观测;
Figure BDA0003411457590000065
表示次发送端对时隙t开始时刻信道n状态的观测,
Figure BDA0003411457590000066
表示观测结果为空闲;
Figure BDA0003411457590000067
表示观测结果为忙碌;
Figure BDA0003411457590000068
表示无观测。
步骤1-6、确定观测函数Pr(o|s,x,y,s'),Pr(o|s,x,y,s')计算公式为:
Figure BDA0003411457590000069
其中
Figure BDA00034114575900000610
为信道n的观测函数,
Figure BDA00034114575900000611
为队首数据包逗留时间和能量储存器能量单元数目的观测函数。由于
Figure BDA00034114575900000612
都是完全观测,与动作无关,因此可得:
Figure BDA00034114575900000613
而次发送端仅能观测所选择信道状态,因此信道观测函数为:
Figure BDA00034114575900000614
步骤1-7、确定置信状态It,It满足:
It@[bt(s1),bt(s2),...,bt(s|S|)]
对于任意s∈S,bt(s)∈[0,1]且∑s∈Sbt(s)=1。时隙t+1开始时刻的置信状态It+1由时隙t开始时刻的置信状态It、时隙t时次发送端的动作at=(x,y)∈At以及时隙t时次发送端的观测ot=o按照贝叶斯法则进行如下更新:
It+1@f(It,x,y,o)
Figure BDA0003411457590000071
步骤1-8、确定奖励Rt(I,x,y),Rt(I,x,y)的计算公式为:
Rt(I,x,y)@∑s∈Sbt(s)rt(s,x,y)
其中rt(s,x,y)为时隙t开始时刻st=s∈S时,次发送端采取动作at=(x,y)∈As所获得的即时奖励,即
Figure BDA0003411457590000072
由上式可看出,Rt(I,x,y)和rt(s,x,y)与时隙t无关,因此可简写为R(I,x,y)、r(s,x,y)。步骤1-9、信道接入策略π由一系列从当前置信状态到当前时隙动作的映射函数得出,即:
π@[μ1,L,μt,L],whereμt:It→Ast,
可见π属于确定性策略。将所有可能π的集合标记为Π。
优选地,所述次用户吞吐率指标ψ(π)的计算公式为:
Figure BDA0003411457590000073
优选地,所述利用QMDP算法确定感知接入动作at的方法为:由于无限时域POMDP无法精确求解,只可应用有限时域精确价值迭代算法求解近优策略,然而置信状态空间随着时间呈指数增长,导致计算复杂度也随指数增长,仍难以应用于实际场景。故本发明采用基于QMDP算法的次优策略求解,其具体步骤如下:
步骤2-1、设置t=T,对于所有s∈S,a=(x,y)∈As,计算QT
QT(s,x,y)=r(s,x,y)
步骤2-2、若t=1,执行步骤2-4。否则,设置t=t-1,执行步骤2-3。
步骤2-3、对于所有s∈S,a=(x,y)∈As,根据下式计算Qt,之后返回执行步骤2-2。
Figure BDA0003411457590000074
步骤2-4、对于任意时隙t与置信状态It,获得πsub在置信状态It时的动作at=(xsub,ysub):
Figure BDA0003411457590000081
如图1所示,本发明确定部分观测马尔可夫决策过程的相关参数,确定次用户吞吐率指标,进而利用QMDP算法确定感知接入动作。
实施例1
本发明采用MATLAB软件对所述方法进行实施,仿真实验设置能量队列最大值L=8,单次收集能量单元数目h=4,网络中信道个数N=2,信道状态转移参数设置为α1=α2=α,β1=β2=β。考虑以下两种接入策略。本发明方案:时隙开始时刻对队首数据包逗留时间、能量单元数目、信道状态进行观测,从而更新置信状态,再利用QMDP算法确定感知接入动作。对比方案:等概率选择两个信道,在队列中有数据包且能量充足时等概率选择数据传输或能量收集模式,在能量不足以传输或队列为空时固定选择能量收集模式。
图2在数据包到达概率λ=0.5,数据包传输时限D=4,传输消耗能量m=1以及不同数据包成功传输概率ps的情况下对比了两种方案的次用户吞吐率。可以发现本发明方案在不同α,β取值情况下吞吐率均优于对比方案。此现象说明,本发明所提供的时限约束下能量收集认知无线电网络信道接入方法能获得更高吞吐率。
图3在数据包到达概率λ=0.5,数据包成功传输概率ps=0.9,传输消耗能量m=1以及不同数据包传输时限D的情况下对比了两种方案的次用户吞吐率。可以发现吞吐率性能随着传输时限的增加而增加,但传输时限的增加对吞吐率性能提升越来越小。其原因为:当传输时限越大,次发送端拥有更多具备足够能量进行数据传输的机会,但当传输时限增加到一定值之后,次用户吞吐率已接近了次发送端具备足够能量进行数据传输的能力上限。

Claims (4)

1.一种时限约束下的能量收集认知无线电网络接入方法,其特征在于,具体步骤为:
步骤1、确定部分观测马尔可夫决策过程的相关参数,所述相关参数包括:描述在时隙t开始时刻次发送端的状态st、描述时隙t的开始时刻状态处于st时,次发送端选择的动作at、描述次发送端在状态st=s∈S时采取动作at=(x,y)∈As转移到状态st+1=s′∈S的转移概率Pr(s′|s,x,y)、描述次发送端在时隙t开始时刻的观测ot、描述次发送端在状态st=s∈S采取动作at=(x,y)∈As转移到状态st+1=s′∈S时得到观测ot=o的观测函数Pr(o|s,x,y,s')、描述基于时隙t之前所有历史信息和观测的条件下时隙t开始时刻次发送端状态的置信状态It、描述在时隙t开始时刻置信状态It=I时,次发送端采取动作at=(x,y)∈As所获得的即时奖励Rt(I,x,y)、描述一系列从当前置信状态映射到当前时隙动作的策略π。
步骤2、基于决策过程Zt,确定次用户吞吐率指标ψ(π);
步骤3、基于决策过程Zt,利用QMDP算法确定感知接入动作at
2.根据权利要求1所述的时限约束下的能量收集认知无线电网络接入方法,其特征在于,步骤1中的部分观测马尔可夫决策过程的相关参数的确定方法具体为:
步骤1-1、确定部分观测马尔可夫决策过程{Zt,t=0,1,L},即无限时域马尔可夫决策过程,次发送端在每个时隙开始时刻做出决策;
步骤1-2、确定状态st,st满足st@
Figure FDA0003411457580000011
其中it∈{-1,0,L,D-1},当0≤it≤D-1时其表示时隙t开始时刻次发送端队首数据包的逗留时间,D为数据包的传输时限,it=-1表示时隙t开始时刻次发送端数据队列为空;jt∈{0,1,L,L}表示时隙t开始时刻次发送端所具有的能量单元数目,L为储存能量单元的能量储存器的容量;
Figure FDA0003411457580000012
则表示时隙t开始时刻的信道n状态。将st所有可能取值组成的集合称之为状态空间,并标记为S。
步骤1-3、确定行为at,at满足:
Figure FDA0003411457580000013
其中,Xt为次发送端在时隙t开始时刻可选工作模式(0表示表示能量收集模式、1表示数据传输模式)的集合,当0≤jt≤m或it=-1时Xt={0},而当m+1≤jt≤L且it≥0时Xt={0,1};Yt={1,2,L,N}表示次发送端用于传输数据或收集能量的信道标号的集合。
步骤1-4、确定状态转移概率Pr(s′|s,x,y),其计算公式为:
Figure FDA0003411457580000014
其中
Figure FDA0003411457580000015
表示信道n的状态从cn转移到cn'的概率,记C0,0(n)为αn,C1,0(n)为βn;Pr(i',j'|i,j,x,y,cn)为信道n在时隙t开始时刻的状态
Figure FDA0003411457580000016
时次发送端采取动作at=(x,y)∈As、次发送端状态从it=i,jt=j转移到it+1=i′,jt+1=j′的概率。
给定信道n在时隙t开始时刻的状态
Figure FDA0003411457580000021
以及动作at=(x,y)∈As时,将次发送端数据分组及能量储存状态的转移概率矩阵标记为Px,y,并在下面分情况详细列出。
①当x=0,y=n即次发送端选择能量收集模式时,
Figure FDA0003411457580000022
其中,Px,y的每一行均对应于队首数据包的逗留时间,Bi,i′(n)代表队首数据包的逗留时间从当前时隙的i转移到下一时隙的i′,而Bi,i′(n)每一行均对应能量储存器中能量单元的数目。
Bi,i′(n)可分为i=-1和i≥0两种情况进行考虑。
当i=-1即次发送端在当前时隙开始时刻无数据包等待发送时,下一时隙开始时刻的队首数据包逗留时间i'=-1或1,并且次发送端所储存能量将不会减少,因此可获得:
Figure FDA0003411457580000023
Figure FDA0003411457580000024
当i≥0即次发送端在当前时隙开始时刻有数据包等待发送时,Bi,i′(n)可进一步分为两种情况进行考虑:当0≤i≤D-2即队首数据包逗留时间在下一时隙开始时刻未到达传输时限时,能量仅在选择信道状态为忙碌时会有所增加,而队首数据包逗留时间i′=i+1,因此可获得:
Figure FDA0003411457580000025
而当i=D-1即队首数据包逗留时间在下一时隙开始时刻已到达传输时限时,当前时隙的队首数据包在下一时隙开始时刻必被移出队列,从而只需关注队列第二个数据包于何时到达,因此可通过几何分布推导得:
Figure FDA0003411457580000031
②当x=1,y=n即次发送端选择数据传输模式时,
Figure FDA0003411457580000032
Bi,i′(n)可分为以下三种情况进行考虑。
当0≤i≤D-2,m+1≤j≤L、信道忙碌或信道错误导致传输失败,队首数据包逗留时间i′=i+1,因此可得:
Figure FDA0003411457580000033
当0≤i≤D-2,m+1≤j≤L时,信道状态空闲且未发生信道错误时,队首数据包传输成功,队首数据包逗留时间i′=i-k,其中0≤k≤i+1,因此可得:
Figure FDA0003411457580000034
其中λ-1=1,当t>l时
Figure FDA0003411457580000035
当i=D-1即队首数据包逗留时间在下一时隙开始时刻已到达传输时限时,当前时隙的队首数据包在下一时隙开始时刻必被移出队列,进而使得队首数据包逗留时间将由i=D-1转移至i′=D-1-k,其中0≤k≤D,因此可得:
Figure FDA0003411457580000041
步骤1-5、确定观测ot,ot满足:
Figure FDA0003411457580000042
其中
Figure FDA0003411457580000043
表示次发送端对时隙t开始时刻队首数据包逗留时间的观测;
Figure FDA0003411457580000044
表示次发送端对时隙t开始时刻所储存能量单元数目的观测;
Figure FDA0003411457580000045
表示次发送端对时隙t开始时刻信道n状态的观测,
Figure FDA0003411457580000046
表示观测结果为空闲;
Figure FDA0003411457580000047
表示观测结果为忙碌;
Figure FDA0003411457580000048
表示无观测。
步骤1-6、确定观测函数Pr(o|s,x,y,s'),Pr(o|s,x,y,s')计算公式为:
Figure FDA0003411457580000049
其中
Figure FDA00034114575800000410
为信道n的观测函数,
Figure FDA00034114575800000411
为队首数据包逗留时间和能量储存器能量单元数目的观测函数。由于
Figure FDA00034114575800000412
都是完全观测,与动作无关,因此可得:
Figure FDA00034114575800000413
而次发送端仅能观测所选择信道状态,因此信道观测函数为:
Figure FDA00034114575800000414
步骤1-7、确定置信状态It,It满足:
It@[bt(s1),bt(s2),...,bt(s|S|)]
对于任意s∈S,bt(s)∈[0,1]且∑s∈Sbt(s)=1。时隙t+1开始时刻的置信状态It+1由时隙t开始时刻的置信状态It、时隙t时次发送端的动作at=(x,y)∈At以及时隙t时次发送端的观测ot=o按照贝叶斯法则进行如下更新:
It+1@f(It,x,y,o)
Figure FDA0003411457580000051
步骤1-8、确定奖励Rt(I,x,y),Rt(I,x,y)的计算公式为:
Rt(I,x,y)@∑s∈Sbt(s)rt(s,x,y)
其中rt(s,x,y)为时隙t开始时刻st=s∈S时,次发送端采取动作at=(x,y)∈As所获得的即时奖励,即
Figure FDA0003411457580000052
由上式可看出,Rt(I,x,y)和rt(s,x,y)与时隙t无关,因此可简写为R(I,x,y)、r(s,x,y)。
步骤1-9、信道接入策略π由一系列从当前置信状态到当前时隙动作的映射函数得出,即:
π@[μ1,L,μt,L],whereμt:It→Ast,
可见π属于确定性策略。将所有可能π的集合标记为Π。
3.根据权利要求1所述的时限约束下的能量收集认知无线电网络接入方法,其特征在于,次用户吞吐率指标ψ(π)的计算公式为:
Figure FDA0003411457580000053
4.根据权利要求1所述的时限约束下的能量收集认知无线电网络接入方法,其特征在于,利用QMDP算法确定感知接入动作at的方法为:由于无限时域POMDP无法精确求解,只可应用有限时域精确价值迭代算法求解近优策略,然而置信状态空间随着时间呈指数增长,导致计算复杂度也随指数增长,仍难以应用于实际场景。故本发明采用基于QMDP算法的次优策略求解,其具体步骤如下:
步骤2-1、设置t=T,对于所有s∈S,a=(x,y)∈As,计算QT
QT(s,x,y)=r(s,x,y)
步骤2-2、若t=1,执行步骤2-4。否则,设置t=t-1,执行步骤2-3。
步骤2-3、对于所有s∈S,a=(x,y)∈As,根据下式计算Qt,之后返回执行步骤2-2。
Figure FDA0003411457580000054
步骤2-4、对于任意时隙t与置信状态It,获得πsub在置信状态It时的动作at=(xsub,ysub):
Figure FDA0003411457580000061
CN202111530900.3A 2021-12-15 2021-12-15 一种时限约束下的能量收集认知无线电网络接入方法 Active CN114172599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111530900.3A CN114172599B (zh) 2021-12-15 2021-12-15 一种时限约束下的能量收集认知无线电网络接入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111530900.3A CN114172599B (zh) 2021-12-15 2021-12-15 一种时限约束下的能量收集认知无线电网络接入方法

Publications (2)

Publication Number Publication Date
CN114172599A true CN114172599A (zh) 2022-03-11
CN114172599B CN114172599B (zh) 2024-09-27

Family

ID=80486612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111530900.3A Active CN114172599B (zh) 2021-12-15 2021-12-15 一种时限约束下的能量收集认知无线电网络接入方法

Country Status (1)

Country Link
CN (1) CN114172599B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115002816A (zh) * 2022-04-14 2022-09-02 南京理工大学 一种传输时限下aloha网络吞吐率的简单分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107889115A (zh) * 2017-11-20 2018-04-06 上海微波技术研究所(中国电子科技集团公司第五十研究所) 基于马氏决策的机会频谱接入方法
CN113365311A (zh) * 2021-06-03 2021-09-07 南京理工大学 一种时限及能量约束下的分布式无线传输方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107889115A (zh) * 2017-11-20 2018-04-06 上海微波技术研究所(中国电子科技集团公司第五十研究所) 基于马氏决策的机会频谱接入方法
CN113365311A (zh) * 2021-06-03 2021-09-07 南京理工大学 一种时限及能量约束下的分布式无线传输方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
房婷: "一种传输时限下认知无线电网络的动态广播策略", 《计算机科学》, 8 July 2021 (2021-07-08) *
杨健;赵杭生;陈曦;: "认知无线网络中频谱预测的协作策略设计", 计算机工程与应用, no. 15, 1 August 2017 (2017-08-01) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115002816A (zh) * 2022-04-14 2022-09-02 南京理工大学 一种传输时限下aloha网络吞吐率的简单分析方法

Also Published As

Publication number Publication date
CN114172599B (zh) 2024-09-27

Similar Documents

Publication Publication Date Title
Zhu et al. BLOT: Bandit learning-based offloading of tasks in fog-enabled networks
Mastronarde et al. Joint physical-layer and system-level power management for delay-sensitive wireless communications
Ko et al. Joint client selection and bandwidth allocation algorithm for federated learning
CN111628855B (zh) 基于深度强化学习的工业5g动态多优先级多接入方法
Xie et al. Dynamic computation offloading in IoT fog systems with imperfect channel-state information: A POMDP approach
Gregori et al. Energy-efficient transmission for wireless energy harvesting nodes
Srivastava et al. Energy optimal transmission scheduling in wireless sensor networks
CN109672570A (zh) 一种流量自适应的水声认知传感器网络多址接入方法
Sakulkar et al. Online learning schemes for power allocation in energy harvesting communications
CN112218313A (zh) 一种基于能量调度的通信系统及其通信吞吐量优化方法
CN114172599A (zh) 一种时限约束下的能量收集认知无线电网络接入方法
CN114126021B (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
Xie et al. Power allocation of energy harvesting cognitive radio based on deep reinforcement learning
CN113543085B (zh) 一种基于能量收集技术的d2d通信网络中时间分配和用户调度方法
CN115567978A (zh) 多约束边环境下计算卸载与资源分配联合优化系统及方法
Abuzainab et al. Robust Bayesian learning for wireless RF energy harvesting networks
Liu et al. POMDP-based energy cooperative transmission policy for multiple access model powered by energy harvesting
Wen et al. Transmission power scheduling and control co-design for wireless sensor networks
Toorchi et al. Fast and low-complexity reinforcement learning for delay-sensitive energy harvesting wireless visual sensing systems
Jiao et al. Queue performance of energy harvesting cognitive radio sensor networks with cooperative spectrum sharing
CN113365311B (zh) 一种时限及能量约束下的分布式无线传输方法
Dongare et al. Deep reinforcement learning for task allocation in energy harvesting mobile crowdsensing
Zhu et al. Minimizing age of information in the uplink multi-user networks via dynamic bandwidth allocation
Song et al. Adaptive generalized proportional fair scheduling with deep reinforcement learning
Du et al. Joint time and power control of energy harvesting CRN based on PPO

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant