CN114172599A - 一种时限约束下的能量收集认知无线电网络接入方法 - Google Patents
一种时限约束下的能量收集认知无线电网络接入方法 Download PDFInfo
- Publication number
- CN114172599A CN114172599A CN202111530900.3A CN202111530900A CN114172599A CN 114172599 A CN114172599 A CN 114172599A CN 202111530900 A CN202111530900 A CN 202111530900A CN 114172599 A CN114172599 A CN 114172599A
- Authority
- CN
- China
- Prior art keywords
- time
- time slot
- state
- equal
- observation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000001149 cognitive effect Effects 0.000 title claims abstract description 18
- 230000005540 biological transmission Effects 0.000 claims abstract description 43
- 230000009471 action Effects 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 15
- OGMLFMFQMCOJPL-UHFFFAOYSA-M trimethyl-[2-[(4-methylphenyl)-phenylmethoxy]ethyl]azanium;iodide Chemical compound [I-].C1=CC(C)=CC=C1C(OCC[N+](C)(C)C)C1=CC=CC=C1 OGMLFMFQMCOJPL-UHFFFAOYSA-M 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004146 energy storage Methods 0.000 claims description 6
- 238000003306 harvesting Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 2
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 7
- 230000008447 perception Effects 0.000 abstract description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/382—Monitoring; Testing of propagation channels for resource allocation, admission control or handover
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Electromagnetism (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供了一种时限约束下的能量收集认知无线电网络接入方法,包括确定部分观测马尔可夫决策过程的相关参数,确定次用户吞吐率指标,进而利用Q函数马尔可夫决策过程(Q‑functions Markov Decision Process,QMDP)算法确定感知接入动作。本发明旨在提供一种时限约束下的能量收集认知无线电网络接入方法,以对固定传输时限约束下多信道能量收集认知无线电网络中次用户的感知接入策略进行优化,提高了通信场景下传输的吞吐率。
Description
技术领域
本发明涉及无线网络通信技术领域,具体为一种时限约束下的能量收集认知无线电网络接入方法。
背景技术
近年来,现有通信系统可用的有限频谱资源越来越难以满足各种通信带宽需求,因此需要使用认知无线电技术对频谱管理方法加以改进,使得非授权用户(亦称为次用户)机会式地探测并使用授权用户(亦称为主用户)未在使用的频谱,从而显著提高频谱利用率。次用户通常由于成本受限或环境受限而缺乏固定能量源,需要使用电池供电以及自然界或射频能量收集技术以解决能量供应问题。另一方面,各类实时通信场景的数据业务往往要求每个数据包在严格传输时限内被传输。因此,次用户信道接入需要兼顾主用户活跃规律、严格传输时限约束和能量收集约束。这三个因素的互相耦合则进一步给次用户信道接入策略设计带来了严峻挑战。针对此问题,Bae与Baek考虑次用户在单信道射频能量收集场景下以固定概率决定感知主信道以传输数据或进行能量收集,通过简化的马尔可夫链推导了次用户状态的稳态分布,刻画了信道参数对次用户及时传输概率和数据包逗留时间的影响,但仅建立了静态理论分析模型,而缺少对次用户接入行为的动态优化。
发明内容
本发明旨在提供一种时限约束下的能量收集认知无线电网络接入方法,以对固定传输时限约束下多信道能量收集认知无线电网络中次用户的感知接入策略进行优化。
实现本发明目的的技术方案为:一种时限约束下的能量收集认知无线电网络接入方法,具体步骤为:
步骤1、确定部分观测马尔可夫决策过程的相关参数,所述相关参数包括:描述在时隙t开始时刻次发送端的状态st、描述时隙t的开始时刻状态处于st时,次用户选择的动作at、描述次发送端在状态st=s∈S时采取任意动作at=(x,y)∈As转移到状态st+1=s′∈S的转移概率Pr(s′|s,x,y)、描述次发送端在时隙t开始时刻的观测ot、描述次发送端在状态st=s∈S采取动作at=(x,y)∈As转移到状态st+1=s′∈S时得到观测ot=o的观测函数Pr(o|s,x,y,s')、描述基于时隙t之前所有历史信息和观测的条件下时隙t开始时刻次发送端状态的置信状态It、描述在时隙t开始时刻置信状态It=I时,次发送端采取动作at=(x,y)∈As所获得的即时奖励Rt(I,x,y)、描述一系列从当前置信状态映射到当前时隙动作的策略π。
步骤2、基于决策过程Zt,确定次用户吞吐率指标ψ(π);
步骤3、基于决策过程Zt,利用QMDP算法确定感知接入动作at。
本发明与现有技术相比,其显著优点为:全面并充分考虑了信道状态的马尔可夫时变性和部分观测性,引入POMDP进行建模和策略求解,而非简单地基于所有信道的静态统计特性采用MDP建模,并且根据每个时隙的信道观测与奖励反馈动态优化信道接入策略,而非采用固定的接入参数,从而极大提高了通信场景下传输的吞吐率。
附图说明
图1为本发明的流程图。
图2为实施例1中两种方案随传输成功概率ps变化的吞吐率性能示意图。
图3为实施例1中两种方案随传输时限D变化的吞吐率性能示意图。
具体实施方式
本发明应用在一个能量收集认知无线电网络场景下,网络包含N个配对通信的具有固定能量源的主用户组和一个配对通信的依赖于射频能量的次用户组。对于每个主用户组n∈{1,2,K,N},主发送端n通过信道n发送数据至主接收端n;而次发送端则通过机会式地接入主用户组暂时不使用的信道发送数据至次接收端。每个信道n的时间轴均被等长地划分为若干个时隙t,t∈{1,2,K},且每个信道的时隙边界均互相对齐。假设任一信道n的状态在任一时隙t内维持不变。在每个时隙的开始时刻,数据包到达次发送端数据队列的概率为0<λ<1,其传输时间占据一个时隙。假设信道空闲时传输未发生信道错误即数据包成功传输的概率为0<ps≤1。每个数据包具有严格的传输时限D,即如果在数据队列逗留时间超过D个时隙仍未被成功发送则会被移出队列。可见,次发送端的数据队列长度最大值为D。为了能够获得足够能量进行及时的数据发送,在每个时隙开始时刻,次发送端可以选择以下信道接入模式:(1)能量收集模式:选择一个信道收集射频能量,若所选择信道状态为忙碌则将在此时隙末成功收集h≥1个能量单元,并将其储存于容量为L≥1个能量单元的能量储存器中。可见,次发送端可以通过是否成功收集能量获知所选择信道状态。(2)数据传输模式:选择一个信道进行感知(消耗1个能量单元),若感知所选择的信道状态为空闲则发送数据包(消耗m≥1个能量单元)。因此,当能量储存器中的能量少于m+1或数据队列为空时,次发送端不能选择数据传输模式。
一种时限约束下的能量收集认知无线电网络接入方法,具体步骤为:
步骤1、确定部分观测马尔可夫决策过程的相关参数,所述相关参数包括:描述在时隙t开始时刻次发送端的状态st、描述时隙t的开始时刻状态处于st时,次用户选择的动作at、描述次发送端在状态st=s∈S时采取任意动作at=(x,y)∈As转移到状态st+1=s′∈S的转移概率Pr(s′|s,x,y)、描述次发送端在时隙t开始时刻的观测ot、描述次发送端在状态st=s∈S采取动作at=(x,y)∈As转移到状态st+1=s′∈S时得到观测ot=o的观测函数Pr(o|s,x,y,s')、描述基于时隙t之前所有历史信息和观测的条件下时隙t开始时刻次发送端状态的置信状态It、描述在时隙t开始时刻置信状态It=I时,次发送端采取动作at=(x,y)∈As所获得的即时奖励、描述一系列从当前置信状态映射到当前时隙动作的策略π。
步骤2、基于决策过程Zt,确定次用户吞吐率指标ψ(π);
步骤3、基于决策过程Zt,利用QMDP算法确定感知接入动作at。
优选地,所述部分观测马尔可夫决策过程的相关参数的确定方法具体为:
步骤1-1、确定部分观测马尔可夫决策过程{Zt,t=0,1,L},即无限时域马尔可夫决策过程,次发送端在每个时隙开始时刻做出决策;
步骤1-2、确定状态st,st满足,其中it∈{-1,0,L,D-1},当0≤it≤D-1时其表示时隙t开始时刻次发送端队首数据包的逗留时间,D为数据包的传输时限,it=-1表示时隙t开始时刻次发送端数据队列为空;jt∈{0,1,L,L}表示时隙t开始时刻次发送端所具有的能量单元数目,L为储存能量单元的能量储存器的容量;则表示时隙t开始时刻的信道n状态。将st所有可能取值组成的集合称之为状态空间,并标记为S。
步骤1-3、确定行为at,at满足:其中,Xt为次发送端在时隙t开始时刻可选工作模式(0表示表示能量收集模式、1表示数据传输模式)的集合,当0≤jt≤m或it=-1时Xt={0},而当m+1≤jt≤L且it≥0时Xt={0,1};Yt={1,2,L,N}表示次发送端用于传输数据或收集能量的信道标号的集合。
步骤1-4、确定状态转移概率Pr(s′|s,x,y),其计算公式为:
其中表示信道n的状态从cn转移到cn'的概率,记C0,0(n)为αn,C1,0(n)为βn;Pr(i',j'|i,j,x,y,cn)为信道n在时隙t开始时刻的状态时次发送端采取动作at=(x,y)∈As、次发送端状态从it=i,jt=j转移到it+1=i′,jt+1=j′的概率。
①当x=0,y=n即次发送端选择能量收集模式时,
其中,Px,y的每一行均对应于队首数据包的逗留时间,Bi,i′(n)代表队首数据包的逗留时间从当前时隙的i转移到下一时隙的i′,而Bi,i′(n)每一行均对应能量储存器中能量单元的数目。
Bi,i′(n)可分为i=-1和i≥0两种情况进行考虑。
当i=-1即次发送端在当前时隙开始时刻无数据包等待发送时,下一时隙开始时刻的队首数据包逗留时间i'=-1或1,并且次发送端所储存能量将不会减少,因此可获得:
当i≥0即次发送端在当前时隙开始时刻有数据包等待发送时,Bi,i′(n)可进一步分为两种情况进行考虑:当0≤i≤D-2即队首数据包逗留时间在下一时隙开始时刻未到达传输时限时,能量仅在选择信道状态为忙碌时会有所增加,而队首数据包逗留时间i′=i+1,因此可获得:
而当i=D-1即队首数据包逗留时间在下一时隙开始时刻已到达传输时限时,当前时隙的队首数据包在下一时隙开始时刻必被移出队列,从而只需关注队列第二个数据包于何时到达,因此可通过几何分布推导得:
②当x=1,y=n即次发送端选择数据传输模式时,
Bi,i′(n)可分为以下三种情况进行考虑。
当0≤i≤D-2,m+1≤j≤L、信道忙碌或信道错误导致传输失败,队首数据包逗留时间i′=i+1,因此可得:
当0≤i≤D-2,m+1≤j≤L时,信道状态空闲且未发生信道错误时,队首数据包传输成功,队首数据包逗留时间i′=i-k,其中0≤k≤i+1,因此可得:
当i=D-1即队首数据包逗留时间在下一时隙开始时刻已到达传输时限时,当前时隙的队首数据包在下一时隙开始时刻必被移出队列,进而使得队首数据包逗留时间将由i=D-1转移至i′=D-1-k,其中0≤k≤D,因此可得:
步骤1-5、确定观测ot,ot满足:其中表示次发送端对时隙t开始时刻队首数据包逗留时间的观测;表示次发送端对时隙t开始时刻所储存能量单元数目的观测;表示次发送端对时隙t开始时刻信道n状态的观测,表示观测结果为空闲;表示观测结果为忙碌;表示无观测。
步骤1-6、确定观测函数Pr(o|s,x,y,s'),Pr(o|s,x,y,s')计算公式为:
而次发送端仅能观测所选择信道状态,因此信道观测函数为:
步骤1-7、确定置信状态It,It满足:
It@[bt(s1),bt(s2),...,bt(s|S|)]
对于任意s∈S,bt(s)∈[0,1]且∑s∈Sbt(s)=1。时隙t+1开始时刻的置信状态It+1由时隙t开始时刻的置信状态It、时隙t时次发送端的动作at=(x,y)∈At以及时隙t时次发送端的观测ot=o按照贝叶斯法则进行如下更新:
It+1@f(It,x,y,o)
步骤1-8、确定奖励Rt(I,x,y),Rt(I,x,y)的计算公式为:
Rt(I,x,y)@∑s∈Sbt(s)rt(s,x,y)
其中rt(s,x,y)为时隙t开始时刻st=s∈S时,次发送端采取动作at=(x,y)∈As所获得的即时奖励,即
由上式可看出,Rt(I,x,y)和rt(s,x,y)与时隙t无关,因此可简写为R(I,x,y)、r(s,x,y)。步骤1-9、信道接入策略π由一系列从当前置信状态到当前时隙动作的映射函数得出,即:
π@[μ1,L,μt,L],whereμt:It→Ast,
可见π属于确定性策略。将所有可能π的集合标记为Π。
优选地,所述次用户吞吐率指标ψ(π)的计算公式为:
优选地,所述利用QMDP算法确定感知接入动作at的方法为:由于无限时域POMDP无法精确求解,只可应用有限时域精确价值迭代算法求解近优策略,然而置信状态空间随着时间呈指数增长,导致计算复杂度也随指数增长,仍难以应用于实际场景。故本发明采用基于QMDP算法的次优策略求解,其具体步骤如下:
步骤2-1、设置t=T,对于所有s∈S,a=(x,y)∈As,计算QT,
QT(s,x,y)=r(s,x,y)
步骤2-2、若t=1,执行步骤2-4。否则,设置t=t-1,执行步骤2-3。
步骤2-3、对于所有s∈S,a=(x,y)∈As,根据下式计算Qt,之后返回执行步骤2-2。
步骤2-4、对于任意时隙t与置信状态It,获得πsub在置信状态It时的动作at=(xsub,ysub):
如图1所示,本发明确定部分观测马尔可夫决策过程的相关参数,确定次用户吞吐率指标,进而利用QMDP算法确定感知接入动作。
实施例1
本发明采用MATLAB软件对所述方法进行实施,仿真实验设置能量队列最大值L=8,单次收集能量单元数目h=4,网络中信道个数N=2,信道状态转移参数设置为α1=α2=α,β1=β2=β。考虑以下两种接入策略。本发明方案:时隙开始时刻对队首数据包逗留时间、能量单元数目、信道状态进行观测,从而更新置信状态,再利用QMDP算法确定感知接入动作。对比方案:等概率选择两个信道,在队列中有数据包且能量充足时等概率选择数据传输或能量收集模式,在能量不足以传输或队列为空时固定选择能量收集模式。
图2在数据包到达概率λ=0.5,数据包传输时限D=4,传输消耗能量m=1以及不同数据包成功传输概率ps的情况下对比了两种方案的次用户吞吐率。可以发现本发明方案在不同α,β取值情况下吞吐率均优于对比方案。此现象说明,本发明所提供的时限约束下能量收集认知无线电网络信道接入方法能获得更高吞吐率。
图3在数据包到达概率λ=0.5,数据包成功传输概率ps=0.9,传输消耗能量m=1以及不同数据包传输时限D的情况下对比了两种方案的次用户吞吐率。可以发现吞吐率性能随着传输时限的增加而增加,但传输时限的增加对吞吐率性能提升越来越小。其原因为:当传输时限越大,次发送端拥有更多具备足够能量进行数据传输的机会,但当传输时限增加到一定值之后,次用户吞吐率已接近了次发送端具备足够能量进行数据传输的能力上限。
Claims (4)
1.一种时限约束下的能量收集认知无线电网络接入方法,其特征在于,具体步骤为:
步骤1、确定部分观测马尔可夫决策过程的相关参数,所述相关参数包括:描述在时隙t开始时刻次发送端的状态st、描述时隙t的开始时刻状态处于st时,次发送端选择的动作at、描述次发送端在状态st=s∈S时采取动作at=(x,y)∈As转移到状态st+1=s′∈S的转移概率Pr(s′|s,x,y)、描述次发送端在时隙t开始时刻的观测ot、描述次发送端在状态st=s∈S采取动作at=(x,y)∈As转移到状态st+1=s′∈S时得到观测ot=o的观测函数Pr(o|s,x,y,s')、描述基于时隙t之前所有历史信息和观测的条件下时隙t开始时刻次发送端状态的置信状态It、描述在时隙t开始时刻置信状态It=I时,次发送端采取动作at=(x,y)∈As所获得的即时奖励Rt(I,x,y)、描述一系列从当前置信状态映射到当前时隙动作的策略π。
步骤2、基于决策过程Zt,确定次用户吞吐率指标ψ(π);
步骤3、基于决策过程Zt,利用QMDP算法确定感知接入动作at。
2.根据权利要求1所述的时限约束下的能量收集认知无线电网络接入方法,其特征在于,步骤1中的部分观测马尔可夫决策过程的相关参数的确定方法具体为:
步骤1-1、确定部分观测马尔可夫决策过程{Zt,t=0,1,L},即无限时域马尔可夫决策过程,次发送端在每个时隙开始时刻做出决策;
步骤1-2、确定状态st,st满足st@其中it∈{-1,0,L,D-1},当0≤it≤D-1时其表示时隙t开始时刻次发送端队首数据包的逗留时间,D为数据包的传输时限,it=-1表示时隙t开始时刻次发送端数据队列为空;jt∈{0,1,L,L}表示时隙t开始时刻次发送端所具有的能量单元数目,L为储存能量单元的能量储存器的容量;则表示时隙t开始时刻的信道n状态。将st所有可能取值组成的集合称之为状态空间,并标记为S。
步骤1-3、确定行为at,at满足:其中,Xt为次发送端在时隙t开始时刻可选工作模式(0表示表示能量收集模式、1表示数据传输模式)的集合,当0≤jt≤m或it=-1时Xt={0},而当m+1≤jt≤L且it≥0时Xt={0,1};Yt={1,2,L,N}表示次发送端用于传输数据或收集能量的信道标号的集合。
步骤1-4、确定状态转移概率Pr(s′|s,x,y),其计算公式为:
其中表示信道n的状态从cn转移到cn'的概率,记C0,0(n)为αn,C1,0(n)为βn;Pr(i',j'|i,j,x,y,cn)为信道n在时隙t开始时刻的状态时次发送端采取动作at=(x,y)∈As、次发送端状态从it=i,jt=j转移到it+1=i′,jt+1=j′的概率。
①当x=0,y=n即次发送端选择能量收集模式时,
其中,Px,y的每一行均对应于队首数据包的逗留时间,Bi,i′(n)代表队首数据包的逗留时间从当前时隙的i转移到下一时隙的i′,而Bi,i′(n)每一行均对应能量储存器中能量单元的数目。
Bi,i′(n)可分为i=-1和i≥0两种情况进行考虑。
当i=-1即次发送端在当前时隙开始时刻无数据包等待发送时,下一时隙开始时刻的队首数据包逗留时间i'=-1或1,并且次发送端所储存能量将不会减少,因此可获得:
当i≥0即次发送端在当前时隙开始时刻有数据包等待发送时,Bi,i′(n)可进一步分为两种情况进行考虑:当0≤i≤D-2即队首数据包逗留时间在下一时隙开始时刻未到达传输时限时,能量仅在选择信道状态为忙碌时会有所增加,而队首数据包逗留时间i′=i+1,因此可获得:
而当i=D-1即队首数据包逗留时间在下一时隙开始时刻已到达传输时限时,当前时隙的队首数据包在下一时隙开始时刻必被移出队列,从而只需关注队列第二个数据包于何时到达,因此可通过几何分布推导得:
②当x=1,y=n即次发送端选择数据传输模式时,
Bi,i′(n)可分为以下三种情况进行考虑。
当0≤i≤D-2,m+1≤j≤L、信道忙碌或信道错误导致传输失败,队首数据包逗留时间i′=i+1,因此可得:
当0≤i≤D-2,m+1≤j≤L时,信道状态空闲且未发生信道错误时,队首数据包传输成功,队首数据包逗留时间i′=i-k,其中0≤k≤i+1,因此可得:
当i=D-1即队首数据包逗留时间在下一时隙开始时刻已到达传输时限时,当前时隙的队首数据包在下一时隙开始时刻必被移出队列,进而使得队首数据包逗留时间将由i=D-1转移至i′=D-1-k,其中0≤k≤D,因此可得:
步骤1-5、确定观测ot,ot满足:其中表示次发送端对时隙t开始时刻队首数据包逗留时间的观测;表示次发送端对时隙t开始时刻所储存能量单元数目的观测;表示次发送端对时隙t开始时刻信道n状态的观测,表示观测结果为空闲;表示观测结果为忙碌;表示无观测。
步骤1-6、确定观测函数Pr(o|s,x,y,s'),Pr(o|s,x,y,s')计算公式为:
而次发送端仅能观测所选择信道状态,因此信道观测函数为:
步骤1-7、确定置信状态It,It满足:
It@[bt(s1),bt(s2),...,bt(s|S|)]
对于任意s∈S,bt(s)∈[0,1]且∑s∈Sbt(s)=1。时隙t+1开始时刻的置信状态It+1由时隙t开始时刻的置信状态It、时隙t时次发送端的动作at=(x,y)∈At以及时隙t时次发送端的观测ot=o按照贝叶斯法则进行如下更新:
It+1@f(It,x,y,o)
步骤1-8、确定奖励Rt(I,x,y),Rt(I,x,y)的计算公式为:
Rt(I,x,y)@∑s∈Sbt(s)rt(s,x,y)
其中rt(s,x,y)为时隙t开始时刻st=s∈S时,次发送端采取动作at=(x,y)∈As所获得的即时奖励,即
由上式可看出,Rt(I,x,y)和rt(s,x,y)与时隙t无关,因此可简写为R(I,x,y)、r(s,x,y)。
步骤1-9、信道接入策略π由一系列从当前置信状态到当前时隙动作的映射函数得出,即:
π@[μ1,L,μt,L],whereμt:It→Ast,
可见π属于确定性策略。将所有可能π的集合标记为Π。
4.根据权利要求1所述的时限约束下的能量收集认知无线电网络接入方法,其特征在于,利用QMDP算法确定感知接入动作at的方法为:由于无限时域POMDP无法精确求解,只可应用有限时域精确价值迭代算法求解近优策略,然而置信状态空间随着时间呈指数增长,导致计算复杂度也随指数增长,仍难以应用于实际场景。故本发明采用基于QMDP算法的次优策略求解,其具体步骤如下:
步骤2-1、设置t=T,对于所有s∈S,a=(x,y)∈As,计算QT,
QT(s,x,y)=r(s,x,y)
步骤2-2、若t=1,执行步骤2-4。否则,设置t=t-1,执行步骤2-3。
步骤2-3、对于所有s∈S,a=(x,y)∈As,根据下式计算Qt,之后返回执行步骤2-2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111530900.3A CN114172599B (zh) | 2021-12-15 | 2021-12-15 | 一种时限约束下的能量收集认知无线电网络接入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111530900.3A CN114172599B (zh) | 2021-12-15 | 2021-12-15 | 一种时限约束下的能量收集认知无线电网络接入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114172599A true CN114172599A (zh) | 2022-03-11 |
CN114172599B CN114172599B (zh) | 2024-09-27 |
Family
ID=80486612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111530900.3A Active CN114172599B (zh) | 2021-12-15 | 2021-12-15 | 一种时限约束下的能量收集认知无线电网络接入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114172599B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115002816A (zh) * | 2022-04-14 | 2022-09-02 | 南京理工大学 | 一种传输时限下aloha网络吞吐率的简单分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107889115A (zh) * | 2017-11-20 | 2018-04-06 | 上海微波技术研究所(中国电子科技集团公司第五十研究所) | 基于马氏决策的机会频谱接入方法 |
CN113365311A (zh) * | 2021-06-03 | 2021-09-07 | 南京理工大学 | 一种时限及能量约束下的分布式无线传输方法 |
-
2021
- 2021-12-15 CN CN202111530900.3A patent/CN114172599B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107889115A (zh) * | 2017-11-20 | 2018-04-06 | 上海微波技术研究所(中国电子科技集团公司第五十研究所) | 基于马氏决策的机会频谱接入方法 |
CN113365311A (zh) * | 2021-06-03 | 2021-09-07 | 南京理工大学 | 一种时限及能量约束下的分布式无线传输方法 |
Non-Patent Citations (2)
Title |
---|
房婷: "一种传输时限下认知无线电网络的动态广播策略", 《计算机科学》, 8 July 2021 (2021-07-08) * |
杨健;赵杭生;陈曦;: "认知无线网络中频谱预测的协作策略设计", 计算机工程与应用, no. 15, 1 August 2017 (2017-08-01) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115002816A (zh) * | 2022-04-14 | 2022-09-02 | 南京理工大学 | 一种传输时限下aloha网络吞吐率的简单分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114172599B (zh) | 2024-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | BLOT: Bandit learning-based offloading of tasks in fog-enabled networks | |
Mastronarde et al. | Joint physical-layer and system-level power management for delay-sensitive wireless communications | |
Ko et al. | Joint client selection and bandwidth allocation algorithm for federated learning | |
CN111628855B (zh) | 基于深度强化学习的工业5g动态多优先级多接入方法 | |
Xie et al. | Dynamic computation offloading in IoT fog systems with imperfect channel-state information: A POMDP approach | |
Gregori et al. | Energy-efficient transmission for wireless energy harvesting nodes | |
Srivastava et al. | Energy optimal transmission scheduling in wireless sensor networks | |
CN109672570A (zh) | 一种流量自适应的水声认知传感器网络多址接入方法 | |
Sakulkar et al. | Online learning schemes for power allocation in energy harvesting communications | |
CN112218313A (zh) | 一种基于能量调度的通信系统及其通信吞吐量优化方法 | |
CN114172599A (zh) | 一种时限约束下的能量收集认知无线电网络接入方法 | |
CN114126021B (zh) | 一种基于深度强化学习的绿色认知无线电的功率分配方法 | |
Xie et al. | Power allocation of energy harvesting cognitive radio based on deep reinforcement learning | |
CN113543085B (zh) | 一种基于能量收集技术的d2d通信网络中时间分配和用户调度方法 | |
CN115567978A (zh) | 多约束边环境下计算卸载与资源分配联合优化系统及方法 | |
Abuzainab et al. | Robust Bayesian learning for wireless RF energy harvesting networks | |
Liu et al. | POMDP-based energy cooperative transmission policy for multiple access model powered by energy harvesting | |
Wen et al. | Transmission power scheduling and control co-design for wireless sensor networks | |
Toorchi et al. | Fast and low-complexity reinforcement learning for delay-sensitive energy harvesting wireless visual sensing systems | |
Jiao et al. | Queue performance of energy harvesting cognitive radio sensor networks with cooperative spectrum sharing | |
CN113365311B (zh) | 一种时限及能量约束下的分布式无线传输方法 | |
Dongare et al. | Deep reinforcement learning for task allocation in energy harvesting mobile crowdsensing | |
Zhu et al. | Minimizing age of information in the uplink multi-user networks via dynamic bandwidth allocation | |
Song et al. | Adaptive generalized proportional fair scheduling with deep reinforcement learning | |
Du et al. | Joint time and power control of energy harvesting CRN based on PPO |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |