CN114172599A

CN114172599A - 一种时限约束下的能量收集认知无线电网络接入方法

Info

Publication number: CN114172599A
Application number: CN202111530900.3A
Authority: CN
Inventors: 张一晋; 张凯; 沈世林; 林艳; 邹骏
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-11
Anticipated expiration: 2041-12-15
Also published as: CN114172599B

Abstract

本发明提供了一种时限约束下的能量收集认知无线电网络接入方法，包括确定部分观测马尔可夫决策过程的相关参数，确定次用户吞吐率指标，进而利用Q函数马尔可夫决策过程(Q‑functions Markov Decision Process,QMDP)算法确定感知接入动作。本发明旨在提供一种时限约束下的能量收集认知无线电网络接入方法，以对固定传输时限约束下多信道能量收集认知无线电网络中次用户的感知接入策略进行优化，提高了通信场景下传输的吞吐率。

Description

一种时限约束下的能量收集认知无线电网络接入方法

技术领域

本发明涉及无线网络通信技术领域，具体为一种时限约束下的能量收集认知无线电网络接入方法。

背景技术

近年来，现有通信系统可用的有限频谱资源越来越难以满足各种通信带宽需求，因此需要使用认知无线电技术对频谱管理方法加以改进，使得非授权用户(亦称为次用户)机会式地探测并使用授权用户(亦称为主用户)未在使用的频谱，从而显著提高频谱利用率。次用户通常由于成本受限或环境受限而缺乏固定能量源，需要使用电池供电以及自然界或射频能量收集技术以解决能量供应问题。另一方面，各类实时通信场景的数据业务往往要求每个数据包在严格传输时限内被传输。因此，次用户信道接入需要兼顾主用户活跃规律、严格传输时限约束和能量收集约束。这三个因素的互相耦合则进一步给次用户信道接入策略设计带来了严峻挑战。针对此问题，Bae与Baek考虑次用户在单信道射频能量收集场景下以固定概率决定感知主信道以传输数据或进行能量收集，通过简化的马尔可夫链推导了次用户状态的稳态分布，刻画了信道参数对次用户及时传输概率和数据包逗留时间的影响，但仅建立了静态理论分析模型，而缺少对次用户接入行为的动态优化。

发明内容

本发明旨在提供一种时限约束下的能量收集认知无线电网络接入方法，以对固定传输时限约束下多信道能量收集认知无线电网络中次用户的感知接入策略进行优化。

实现本发明目的的技术方案为：一种时限约束下的能量收集认知无线电网络接入方法，具体步骤为：

步骤1、确定部分观测马尔可夫决策过程的相关参数，所述相关参数包括：描述在时隙t开始时刻次发送端的状态s_t、描述时隙t的开始时刻状态处于s_t时，次用户选择的动作a_t、描述次发送端在状态s_t＝s∈S时采取任意动作a_t＝(x,y)∈A_s转移到状态s_t+1＝s′∈S的转移概率Pr(s′|s,x,y)、描述次发送端在时隙t开始时刻的观测o_t、描述次发送端在状态s_t＝s∈S采取动作a_t＝(x,y)∈A_s转移到状态s_t+1＝s′∈S时得到观测o_t＝o的观测函数Pr(o|s,x,y,s')、描述基于时隙t之前所有历史信息和观测的条件下时隙t开始时刻次发送端状态的置信状态I_t、描述在时隙t开始时刻置信状态I_t＝I时，次发送端采取动作a_t＝(x,y)∈A_s所获得的即时奖励R_t(I,x,y)、描述一系列从当前置信状态映射到当前时隙动作的策略π。

步骤2、基于决策过程Z_t，确定次用户吞吐率指标ψ(π)；

步骤3、基于决策过程Z_t，利用QMDP算法确定感知接入动作a_t。

本发明与现有技术相比，其显著优点为：全面并充分考虑了信道状态的马尔可夫时变性和部分观测性，引入POMDP进行建模和策略求解，而非简单地基于所有信道的静态统计特性采用MDP建模，并且根据每个时隙的信道观测与奖励反馈动态优化信道接入策略，而非采用固定的接入参数，从而极大提高了通信场景下传输的吞吐率。

附图说明

图1为本发明的流程图。

图2为实施例1中两种方案随传输成功概率p_s变化的吞吐率性能示意图。

图3为实施例1中两种方案随传输时限D变化的吞吐率性能示意图。

具体实施方式

本发明应用在一个能量收集认知无线电网络场景下，网络包含N个配对通信的具有固定能量源的主用户组和一个配对通信的依赖于射频能量的次用户组。对于每个主用户组n∈{1,2,K,N}，主发送端n通过信道n发送数据至主接收端n；而次发送端则通过机会式地接入主用户组暂时不使用的信道发送数据至次接收端。每个信道n的时间轴均被等长地划分为若干个时隙t，t∈{1,2,K}，且每个信道的时隙边界均互相对齐。假设任一信道n的状态在任一时隙t内维持不变。在每个时隙的开始时刻，数据包到达次发送端数据队列的概率为0＜λ＜1，其传输时间占据一个时隙。假设信道空闲时传输未发生信道错误即数据包成功传输的概率为0＜p_s≤1。每个数据包具有严格的传输时限D，即如果在数据队列逗留时间超过D个时隙仍未被成功发送则会被移出队列。可见，次发送端的数据队列长度最大值为D。为了能够获得足够能量进行及时的数据发送，在每个时隙开始时刻，次发送端可以选择以下信道接入模式：(1)能量收集模式：选择一个信道收集射频能量，若所选择信道状态为忙碌则将在此时隙末成功收集h≥1个能量单元，并将其储存于容量为L≥1个能量单元的能量储存器中。可见，次发送端可以通过是否成功收集能量获知所选择信道状态。(2)数据传输模式：选择一个信道进行感知(消耗1个能量单元)，若感知所选择的信道状态为空闲则发送数据包(消耗m≥1个能量单元)。因此，当能量储存器中的能量少于m+1或数据队列为空时，次发送端不能选择数据传输模式。

一种时限约束下的能量收集认知无线电网络接入方法，具体步骤为：

步骤1、确定部分观测马尔可夫决策过程的相关参数，所述相关参数包括：描述在时隙t开始时刻次发送端的状态s_t、描述时隙t的开始时刻状态处于s_t时，次用户选择的动作a_t、描述次发送端在状态s_t＝s∈S时采取任意动作a_t＝(x,y)∈A_s转移到状态s_t+1＝s′∈S的转移概率Pr(s′|s,x,y)、描述次发送端在时隙t开始时刻的观测o_t、描述次发送端在状态s_t＝s∈S采取动作a_t＝(x,y)∈A_s转移到状态s_t+1＝s′∈S时得到观测o_t＝o的观测函数Pr(o|s,x,y,s')、描述基于时隙t之前所有历史信息和观测的条件下时隙t开始时刻次发送端状态的置信状态I_t、描述在时隙t开始时刻置信状态I_t＝I时，次发送端采取动作a_t＝(x,y)∈A_s所获得的即时奖励、描述一系列从当前置信状态映射到当前时隙动作的策略π。

步骤2、基于决策过程Z_t，确定次用户吞吐率指标ψ(π)；

优选地，所述部分观测马尔可夫决策过程的相关参数的确定方法具体为：

步骤1-1、确定部分观测马尔可夫决策过程{Z_t,t＝0,1,L}，即无限时域马尔可夫决策过程，次发送端在每个时隙开始时刻做出决策；

步骤1-2、确定状态s_t，s_t满足

，其中i_t∈{-1,0,L,D-1}，当0≤i_t≤D-1时其表示时隙t开始时刻次发送端队首数据包的逗留时间，D为数据包的传输时限，i_t＝-1表示时隙t开始时刻次发送端数据队列为空；j_t∈{0,1,L,L}表示时隙t开始时刻次发送端所具有的能量单元数目，L为储存能量单元的能量储存器的容量；

则表示时隙t开始时刻的信道n状态。将s_t所有可能取值组成的集合称之为状态空间，并标记为S。

步骤1-3、确定行为a_t，a_t满足：

其中，X_t为次发送端在时隙t开始时刻可选工作模式(0表示表示能量收集模式、1表示数据传输模式)的集合，当0≤j_t≤m或i_t＝-1时X_t＝{0}，而当m+1≤j_t≤L且i_t≥0时X_t＝{0,1}；Y_t＝{1,2,L,N}表示次发送端用于传输数据或收集能量的信道标号的集合。

步骤1-4、确定状态转移概率Pr(s′|s,x,y)，其计算公式为：

其中

表示信道n的状态从cⁿ转移到cⁿ'的概率，记C_0,0(n)为α_n,C_1,0(n)为β_n；Pr(i',j'|i,j,x,y,cⁿ)为信道n在时隙t开始时刻的状态

时次发送端采取动作a_t＝(x,y)∈A_s、次发送端状态从i_t＝i,j_t＝j转移到i_t+1＝i′,j_t+1＝j′的概率。

给定信道n在时隙t开始时刻的状态

以及动作a_t＝(x,y)∈A_s时，将次发送端数据分组及能量储存状态的转移概率矩阵标记为P_x,y，并在下面分情况详细列出。

①当x＝0,y＝n即次发送端选择能量收集模式时，

其中，P_x,y的每一行均对应于队首数据包的逗留时间，B_i,i′(n)代表队首数据包的逗留时间从当前时隙的i转移到下一时隙的i′，而B_i,i′(n)每一行均对应能量储存器中能量单元的数目。

B_i,i′(n)可分为i＝-1和i≥0两种情况进行考虑。

当i＝-1即次发送端在当前时隙开始时刻无数据包等待发送时，下一时隙开始时刻的队首数据包逗留时间i'＝-1或1，并且次发送端所储存能量将不会减少，因此可获得：

当i≥0即次发送端在当前时隙开始时刻有数据包等待发送时，B_i,i′(n)可进一步分为两种情况进行考虑：当0≤i≤D-2即队首数据包逗留时间在下一时隙开始时刻未到达传输时限时，能量仅在选择信道状态为忙碌时会有所增加，而队首数据包逗留时间i′＝i+1，因此可获得：

而当i＝D-1即队首数据包逗留时间在下一时隙开始时刻已到达传输时限时，当前时隙的队首数据包在下一时隙开始时刻必被移出队列，从而只需关注队列第二个数据包于何时到达，因此可通过几何分布推导得：

②当x＝1,y＝n即次发送端选择数据传输模式时，

B_i,i′(n)可分为以下三种情况进行考虑。

当0≤i≤D-2,m+1≤j≤L、信道忙碌或信道错误导致传输失败，队首数据包逗留时间i′＝i+1，因此可得：

当0≤i≤D-2,m+1≤j≤L时，信道状态空闲且未发生信道错误时，队首数据包传输成功，队首数据包逗留时间i′＝i-k，其中0≤k≤i+1，因此可得：

其中λ_-1＝1，当t＞l时

当i＝D-1即队首数据包逗留时间在下一时隙开始时刻已到达传输时限时，当前时隙的队首数据包在下一时隙开始时刻必被移出队列，进而使得队首数据包逗留时间将由i＝D-1转移至i′＝D-1-k，其中0≤k≤D，因此可得：

步骤1-5、确定观测o_t，o_t满足：

其中

表示次发送端对时隙t开始时刻队首数据包逗留时间的观测；

表示次发送端对时隙t开始时刻所储存能量单元数目的观测；

表示次发送端对时隙t开始时刻信道n状态的观测，

表示观测结果为空闲；

表示观测结果为忙碌；

表示无观测。

步骤1-6、确定观测函数Pr(o|s,x,y,s')，Pr(o|s,x,y,s')计算公式为：

其中

为信道n的观测函数，

为队首数据包逗留时间和能量储存器能量单元数目的观测函数。由于

都是完全观测，与动作无关，因此可得：

而次发送端仅能观测所选择信道状态，因此信道观测函数为：

步骤1-7、确定置信状态I_t，I_t满足：

I_t@[b_t(s₁),b_t(s₂),...,b_t(s_|S|)]

对于任意s∈S，b_t(s)∈[0,1]且∑_s∈Sb_t(s)＝1。时隙t+1开始时刻的置信状态I_t+1由时隙t开始时刻的置信状态I_t、时隙t时次发送端的动作a_t＝(x,y)∈A_t以及时隙t时次发送端的观测o_t＝o按照贝叶斯法则进行如下更新：

I_t+1@f(I_t,x,y,o)

步骤1-8、确定奖励R_t(I,x,y)，R_t(I,x,y)的计算公式为：

R_t(I,x,y)@∑_s∈Sb_t(s)r_t(s,x,y)

其中r_t(s,x,y)为时隙t开始时刻s_t＝s∈S时，次发送端采取动作a_t＝(x,y)∈A_s所获得的即时奖励，即

由上式可看出，R_t(I,x,y)和r_t(s,x,y)与时隙t无关，因此可简写为R(I,x,y)、r(s,x,y)。步骤1-9、信道接入策略π由一系列从当前置信状态到当前时隙动作的映射函数得出，即：

π@[μ₁,L,μ_t,L],whereμ_t:I_t→A_st,

可见π属于确定性策略。将所有可能π的集合标记为Π。

优选地，所述次用户吞吐率指标ψ(π)的计算公式为：

优选地，所述利用QMDP算法确定感知接入动作a_t的方法为：由于无限时域POMDP无法精确求解，只可应用有限时域精确价值迭代算法求解近优策略，然而置信状态空间随着时间呈指数增长，导致计算复杂度也随指数增长，仍难以应用于实际场景。故本发明采用基于QMDP算法的次优策略求解，其具体步骤如下：

步骤2-1、设置t＝T，对于所有s∈S，a＝(x,y)∈A_s，计算Q_T，

Q_T(s,x,y)＝r(s,x,y)

步骤2-2、若t＝1，执行步骤2-4。否则，设置t＝t-1，执行步骤2-3。

步骤2-3、对于所有s∈S，a＝(x,y)∈A_s，根据下式计算Q_t，之后返回执行步骤2-2。

步骤2-4、对于任意时隙t与置信状态I_t，获得π_sub在置信状态I_t时的动作a_t＝(x^sub,y^sub)：

如图1所示，本发明确定部分观测马尔可夫决策过程的相关参数，确定次用户吞吐率指标，进而利用QMDP算法确定感知接入动作。

实施例1

本发明采用MATLAB软件对所述方法进行实施，仿真实验设置能量队列最大值L＝8，单次收集能量单元数目h＝4,网络中信道个数N＝2，信道状态转移参数设置为α₁＝α₂＝α,β₁＝β₂＝β。考虑以下两种接入策略。本发明方案：时隙开始时刻对队首数据包逗留时间、能量单元数目、信道状态进行观测，从而更新置信状态，再利用QMDP算法确定感知接入动作。对比方案：等概率选择两个信道，在队列中有数据包且能量充足时等概率选择数据传输或能量收集模式，在能量不足以传输或队列为空时固定选择能量收集模式。

图2在数据包到达概率λ＝0.5，数据包传输时限D＝4，传输消耗能量m＝1以及不同数据包成功传输概率p_s的情况下对比了两种方案的次用户吞吐率。可以发现本发明方案在不同α,β取值情况下吞吐率均优于对比方案。此现象说明，本发明所提供的时限约束下能量收集认知无线电网络信道接入方法能获得更高吞吐率。

图3在数据包到达概率λ＝0.5，数据包成功传输概率p_s＝0.9，传输消耗能量m＝1以及不同数据包传输时限D的情况下对比了两种方案的次用户吞吐率。可以发现吞吐率性能随着传输时限的增加而增加，但传输时限的增加对吞吐率性能提升越来越小。其原因为：当传输时限越大，次发送端拥有更多具备足够能量进行数据传输的机会，但当传输时限增加到一定值之后，次用户吞吐率已接近了次发送端具备足够能量进行数据传输的能力上限。

Claims

1.一种时限约束下的能量收集认知无线电网络接入方法，其特征在于，具体步骤为：

步骤1、确定部分观测马尔可夫决策过程的相关参数，所述相关参数包括：描述在时隙t开始时刻次发送端的状态s_t、描述时隙t的开始时刻状态处于s_t时，次发送端选择的动作a_t、描述次发送端在状态s_t＝s∈S时采取动作a_t＝(x,y)∈A_s转移到状态s_t+1＝s′∈S的转移概率Pr(s′|s,x,y)、描述次发送端在时隙t开始时刻的观测o_t、描述次发送端在状态s_t＝s∈S采取动作a_t＝(x,y)∈A_s转移到状态s_t+1＝s′∈S时得到观测o_t＝o的观测函数Pr(o|s,x,y,s')、描述基于时隙t之前所有历史信息和观测的条件下时隙t开始时刻次发送端状态的置信状态I_t、描述在时隙t开始时刻置信状态I_t＝I时，次发送端采取动作a_t＝(x,y)∈A_s所获得的即时奖励R_t(I,x,y)、描述一系列从当前置信状态映射到当前时隙动作的策略π。

步骤2、基于决策过程Z_t，确定次用户吞吐率指标ψ(π)；

2.根据权利要求1所述的时限约束下的能量收集认知无线电网络接入方法，其特征在于，步骤1中的部分观测马尔可夫决策过程的相关参数的确定方法具体为：

步骤1-2、确定状态s_t，s_t满足s_t@

其中i_t∈{-1,0,L,D-1}，当0≤i_t≤D-1时其表示时隙t开始时刻次发送端队首数据包的逗留时间，D为数据包的传输时限，i_t＝-1表示时隙t开始时刻次发送端数据队列为空；j_t∈{0,1,L,L}表示时隙t开始时刻次发送端所具有的能量单元数目，L为储存能量单元的能量储存器的容量；

步骤1-3、确定行为a_t，a_t满足：

步骤1-4、确定状态转移概率Pr(s′|s,x,y)，其计算公式为：

其中

给定信道n在时隙t开始时刻的状态

①当x＝0,y＝n即次发送端选择能量收集模式时，

B_i,i′(n)可分为i＝-1和i≥0两种情况进行考虑。

②当x＝1,y＝n即次发送端选择数据传输模式时，

B_i,i′(n)可分为以下三种情况进行考虑。

其中λ_-1＝1，当t＞l时

步骤1-5、确定观测o_t，o_t满足：

其中

表示次发送端对时隙t开始时刻队首数据包逗留时间的观测；

表示次发送端对时隙t开始时刻所储存能量单元数目的观测；

表示次发送端对时隙t开始时刻信道n状态的观测，

表示观测结果为空闲；

表示观测结果为忙碌；

表示无观测。

步骤1-6、确定观测函数Pr(o|s,x,y,s')，Pr(o|s,x,y,s')计算公式为：

其中

为信道n的观测函数，

都是完全观测，与动作无关，因此可得：

步骤1-7、确定置信状态I_t，I_t满足：

I_t@[b_t(s₁),b_t(s₂),...,b_t(s_|S|)]

I_t+1@f(I_t,x,y,o)

步骤1-8、确定奖励R_t(I,x,y)，R_t(I,x,y)的计算公式为：

R_t(I,x,y)@∑_s∈Sb_t(s)r_t(s,x,y)

由上式可看出，R_t(I,x,y)和r_t(s,x,y)与时隙t无关，因此可简写为R(I,x,y)、r(s,x,y)。

步骤1-9、信道接入策略π由一系列从当前置信状态到当前时隙动作的映射函数得出，即：

π@[μ₁,L,μ_t,L],whereμ_t:I_t→A_st,

可见π属于确定性策略。将所有可能π的集合标记为Π。

3.根据权利要求1所述的时限约束下的能量收集认知无线电网络接入方法，其特征在于，次用户吞吐率指标ψ(π)的计算公式为：

。

4.根据权利要求1所述的时限约束下的能量收集认知无线电网络接入方法，其特征在于，利用QMDP算法确定感知接入动作a_t的方法为：由于无限时域POMDP无法精确求解，只可应用有限时域精确价值迭代算法求解近优策略，然而置信状态空间随着时间呈指数增长，导致计算复杂度也随指数增长，仍难以应用于实际场景。故本发明采用基于QMDP算法的次优策略求解，其具体步骤如下：

步骤2-1、设置t＝T，对于所有s∈S，a＝(x,y)∈A_s，计算Q_T，

Q_T(s,x,y)＝r(s,x,y)

。