CN110351886A

CN110351886A - 基于边带观测信息多臂老虎机模型的机会频谱接入方法

Info

Publication number: CN110351886A
Application number: CN201910581275.1A
Authority: CN
Inventors: 张周; 邓宝松; 赵维维; 闫野; 蒋品; 付军峰
Original assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2019-06-29
Filing date: 2019-06-29
Publication date: 2019-10-18

Abstract

本发明公开了一种基于边带观测信息多臂老虎机模型的机会频谱接入方法。该方法为：首先针对认知网络信道信息未知且信道感知不完美情况下的次用户接入问题，将对N个信道进行探测感知、选择适合接入的信道问题建模为MABP‑SI模型；然后次用户感知所有授权信道，记录感知观察结果，更新概率向量，并记录感知为空闲的信道集合；创建空间概率向量估计值的候选集合，选取空闲概率向量的估计值；接着判断时隙t时空闲信道集合是否为空：集合为空，则次用户不要接入任何信道，集合不为空则选择系数最大的k个授权信道进行接入；最后将t更新为t+1，进行循环。本发明减小了统计渐近条件下信道接入的收益损失，具有统计渐近有效性的优点。

Description

基于边带观测信息多臂老虎机模型的机会频谱接入方法

技术领域

本发明涉及频谱接入技术领域，特别是一种基于边带观测信息多臂老虎机模型的机会频谱接入方法。

背景技术

近年来，无线网络快速发展，频谱资源更加拥挤且利用率低下的用频矛盾日趋突出，如何通过频谱机会接入提升现在资源的利用率成为研究热点。频谱机会接入的核心思想是在认知无线网络里，次用户在不影响拥有频谱授权用户正常工作的前提下，利用其实时感知频谱能力，根据感知结果，识别和优先空闲信道进行伺机接入，以实现提高频谱利用率的目的，有效缓解无线频谱资源匮乏的问题。

与传统的统计信息已知的认知通信频谱接入方法相比，授权信道统计信息未知情况下的信道感知接入问题研究还处于初步阶段，其面临的主要挑战是如何进行信道感知识别，即感知多个信道以估计其统计信息，和如何利用信道，即利用观察到的实时机会和基于历史信息的机会预测，判定最优频谱机会。传统方法是先假设次用户已知授权信道的空闲信息，次用户始终选择最优的信道集合进行感知并接入所有感知空闲信道。但实际情况下，为了准确获得信道统计信息，需要经过长时间的信道数据测量和数据分析过程，在紧急条件或敌对环境下这类信息很难及时获取，甚至不能预先获得，因此，次用户将面临统计信息未知情况下的最优信道感知和接入问题，需要在充分探测最优信道集的同时感知足够次数的非最优信道，以有效区分最优和次优的待接入授权信道。由于信道探测过程必须经历一定时长的收敛过程，且非最优信道的接入存在次用户与授权用户接入冲突，导致信息传输失败，与统计信息已知的理想情况相比，次用户传输收益存在较大损失，设计信道感知接入方法以实现最小收益损失，是现有技术尚未解决的难题。

当前认知通信的信道感知接入方法存在以下缺点：

1、实际环境适应性差。现有方法绝大多数为统计信息已知下的感知接入方法，在统计信息未知或难以及时获得的问题里无法运行。已有方法的前提是感知和接入信道的一致性，即感知和接入数量一致，而实际情况下，次用户接收和发射能量的较大差异使得在功率能量受限情况下存在感知多个信道，选择优选部分信道接入的情况，传统方法没有考虑该情况。

2、方法渐近统计特性差。现有统计信息未知下的感接入方法是基于经典的多臂老虎机模型来进行信道接入方法设计的。受到统计模型限制，最优性能主要以累积收益损失为时间对数函数为目标，信道感知和接入过程的平衡效率不高，对实际问题的特性研究不足。

发明内容

本发明的目的在于提供一种能够在统计渐近条件下减小信道接入收益损失的基于边带观测信息多臂老虎机模型的机会频谱接入方法。

实现本发明目的的技术解决方案为：一种基于边带观测信息多臂老虎机模型的机会频谱接入方法，其特征在于，包括以下步骤：

步骤1、针对认知网络信道信息未知且信道感知不完美情况下的次用户接入问题，将对N个信道进行探测感知、选择适合接入的信道问题建模为MABP-SI模型；

步骤2、次用户感知所有授权信道，记录感知观察结果，更新概率向量，并记录感知为空闲的空闲信道集合I(t)；

步骤3、创建空闲概率向量Θ估计值的候选集合C(t)；

步骤4、随机选取向量作为空闲概率向量Θ的估计值，判断时隙t时空闲信道集合I(t)是否为空：

如果时隙t时空闲信道集合I(t)为空，次用户不接入任何信道，并进入步骤5；

如果时隙t时空闲信道集合I(t)不为空，则选择系数最大且i∈I(t)的k个授权信道进行接入，并进入步骤5，其中表示的期望，即条件收益；S_i(j)表示主信道i在时隙j时的状态；x_i(j)表示感知信道i在时隙j时的状态；X(j)表示时隙j下N个信道的感知结果向量，x_i(j)是集合X(j)的一个元素；

步骤5、将时隙t更新为t+1，跳转至步骤2进行循环。

本发明与现有技术相比，其显著优点在于：(1)更贴近真实场景，采用MABP-SI模型对次用户未知信道统计信息条件下的信道接入问题进行数学建模，并提出了高效的动态信道感知与机会接入方法；(2)收益损失相比统计信息已知条件下的基准是有限的，当时间足够长的情况下，次用户收益损失收敛为有限值。

附图说明

图1是本发明基于边带观测信息多臂老虎机模型的机会频谱接入方法的流程示意图。

图2是本发明中信道时隙的结构示意图。

图3是本发明中授权用户信道的结构示意图。

图4是本发明实施例中同构信道感知下方法收益损失R(t)曲线图。

图5是本发明实施例中异构信道感知下方法收益损失R(t)曲线图。

具体实施方式

本发明针对认知无线通信网络中，次用户在授权用户信道占用统计信息位置条件下，利用信道动态感知信息和频谱空穴，精确识别最优频谱机会进行信道接入，在不干扰授权用户下完成高效数据传输。

对于非完美授权信道感知情况，次用户在一个预先划分时隙内可同时感知所有潜在的主用户信道，并动态接入其中部分感知为空闲的信道完成数据传输。本发明用边带观测信息多臂老虎机问题(Multi-Armed Bandit Problem with Side Information，MABP-SI)的统计学模型建立次用户对授权信道的感知和接入过程模型，首先对本发明中用到的术语做出如下说明：

不完美信道感知：实际认知网络里，由于次要用户接收信道和采集信号的信噪比变化，次用户信道感知通常是不完美的，可能存在对授权信道状态识别错误。

MABP：多臂老虎机问题。假设老虎机有多个可选择机臂，拉动每个机臂会产生随机数值的收益。对于玩家来说，老虎机机臂后收益统计信息是未知的，老虎机的运转可看做黑箱，并不能做出直接判断选择哪个机臂可以获得最优收益。因此，玩家需要通过样本采集和分析动态估计统计特性，并基于已获得信息实时做出决策，选择机臂并拉动获得收益，确保能获得最大收益。

MABP-SI：边带观测信息多臂老虎机问题。这是经典的MABP问题基础上衍生出的统计学问题，假设可观测信息与真实信息存在一定统计相关性。玩家可利用观测信息及其相关性，设计及优化老虎机机臂选择方法，提高方法统计性能。

授权用户：授权接入频谱的用户。

次用户：不影响主用户情况下，接入频谱的用户。

本发明基于边带观测信息多臂老虎机模型的机会频谱接入方法，包括以下步骤：

步骤3、创建空闲概率向量Θ估计值的候选集合C(t)；任意一个向量如果该向量内部的各个元素为非负数，而且总和等于1，则此向量称为概率向量；

步骤5、将时间t更新为t+1，跳转至步骤2进行循环。

进一步地，步骤1所述的针对认知网络信道信息未知且信道感知不完美情况下的次用户接入问题，将对N个信道进行探测感知、选择适合接入的信道问题建模为MABP-SI模型，具体如下：

设定一个时隙内，次用户能够感知网络内所有授权信道；将信道感知接入的时间划分为时隙，持续时间为T；网络拥有N个授权用户，分别为信道1,2,...,N；对于每个时隙，授权信道i的空闲概率，即没有主用户活动的概率为θ_i∈(0,1)，次用户的空闲概率未知；使用S_i(j)＝1、S_i(j)＝0分别表示授权信道即规划给主用户使用的信道i在时隙j处于空闲、忙碌状态，每个授权信道i的空闲、忙碌状态独立于时隙变化，且不同授权信道状态相互独立；

将每个时隙分为时长为τ的次用户信道感知阶段和时长为T-τ的信道接入阶段，信道感知阶段，次用户感知所授权信道，在实际信道条件下，信道感知可能存在错误；信道接入阶段，次用户能够在所有感知空闲的信道里选择部分信道，即最多小于N的K个信道进行机会接入传输数据；对于每个时隙内成功的信道机会接入，设定用户收益为接入信道成功传输的数据量，并将用户收益归一化为1；

对于时隙j的信道感知阶段，使用X(j)＝(x₁(j),x₂(j),...,x_N(j))表示N个信道的感知结果向量，其中x_i(j)＝1表示信道感知空闲，x_i(j)＝0表示信道感知繁忙；使用表示次用户对信道i空闲的检测概率，使用表示信道i的虚警概率，则时隙j内信道i被感知为空闲，即x_i(j)＝1的概率计算为时隙j内信道i被感知为空闲的条件下，次用户接入信道i的时隙j，获得的条件收益为

认知网络接入过程里，次用户的决策为基于信道感知结果，选择接入K个信道机会完成信息传输；为充分保护授权用户不受有害干扰，只能接入感知空闲的信道；由于次用户对信道统计信息即空闲概率向量Θ＝(θ₁,θ₂,...,θ_N)未知，需要通过在线学习以动态估计未知的空闲概率向量Θ；

将对于N个信道的探测感知，择优选择适合接入的信道这个问题建模MABP-SI模型，以期望收益与先知辅助方法最大收益之间的差值为选择接入标准，公式表示为：

式中，t表示当前时隙，j表示统计开始的时隙一直到当前时隙的累加；I(j)表示在时隙j时感知空闲的信道集合；I[ψ(j)＝i]表示在时隙j时接入信道i是感知空闲的集合，其中ψ是任一自适应分配方法。

其中，感知结果定义为感知空闲的信道集合，感知信道过程中，存在2^N个可能的感知结果；时隙t时，次用户维持更新2^N个感知结果的样本平均概率向量，包含2^N个元素，表示为设定Θ'＝(θ′₁,θ′₂,...,θ'_N)为授权信道空闲概率向量，对应有表示大小为2^N的感知结果概率向量。

进一步地，步骤2所述的次用户感知所有授权信道，记录感知观察结果，更新概率向量，并记录感知为空闲的空闲信道集合I(t)，具体如下：

次用户感知所有授权信道，记录感知观察结果X(j)＝(x₁(j),x₂(j),...,x_N(j))，更新概率向量其中其中x_n(t)表示时隙t时信道n感知空闲，P_s,l表示第l个感知结果的样本平均概率，表达式为(时隙前出现第个感知结果的时隙数)/t，记录感知为空闲信道集合为I(t)。

记录感知为空闲信道集合为I(t)。

进一步地，步骤3所述的创建空闲概率向量Θ估计值的候选集合C(t)，具体如下：

创建空间概率向量Θ估计值的候选集合C(t)，公式为：

式中，||·||₂表示向量L₂范数，且对于向量x，表达式为inf表示下确界，即任给一数集E，称E的最大下界为E的下确界，记为infE。其中，Θ⁺表示主信道空闲概率向量的估计量；表示由Θ⁺计算得到的相关向量；P_s是基于样本均值计算得到的概率向量；Θ'表示授权信道空闲概率向量；P_Θ'表示感知结果概率向量。

下面结合附图及具体实施例对本发明作进一步详细说明。

实施例

结合图1，本发明一种基于边带观测信息多臂老虎机模型的机会频谱接入方法，其特征在于，包括以下步骤：

步骤1、针对认知网络信道信息未知且信道感知不完美的情况下的次用户接入问题，将对N个信道进行探测感知，选择适合接入的信道问题建模为MABP-SI模型，具体为：

结合图2，认知网络里次用户按照授权用户时隙进行动态信道接入。设定一个时隙内，次用户可感知网络内所有授权信道；将信道感知接入的时间被划分为时隙，持续时间为T；网络拥有N个授权用户，分别记为信道1,2,...,N，如图3所示，对于每个时隙，授权信道i空闲概率，即没有主用户活动的概率为θ_i∈(0,1)，次用户空闲概率未知；使用S_i(j)＝1和S_i(j)＝0分别表示授权信道i在时隙j处于空闲和忙碌状态，每个授权信道的忙-闲状态独立于时隙变化，且不同授权信道状态相互独立；

如图2所示，每个时隙分为两个阶段，分别为时长为τ的次用户信道感知阶段和时长为T-τ的信道接入阶段。信道感知阶段，次用户感知所授权信道，在实际信道条件下，信道感知可能存在错误；信道接入阶段，次用户可在所有感知空闲的信道里选择部分信道，即最多K个信道(K＜N)，进行机会接入传输数据；对于每个时隙内成功的信道机会接入，设定用户收益为接入信道成功传输的数据量。为简化数学表达形式，将用户收益归一化为1。

对于时隙j的信道感知阶段，使用X(j)＝(x₁(j),x₂(j),...,x_N(j))表示N个信道的感知结果向量，其中x_i(j)＝1表示信道感知空闲，x_i(j)＝0表示信道感知繁忙；使用表示次用户对信道i空闲的检测概率，使用表示信道i的虚警概率，则时隙j内信道i被感知为空闲，即x_i(j)＝1的概率计算为时隙j内信道i被感知为空闲的条件下，次用户接入信道i的时隙j，可获得的条件收益计算为

认知网络接入过程里，次用户的决策为基于信道感知结果，选择接入K个信道机会完成信息传输；为充分保护授权用户不受有害干扰，只能接入感知空闲的信道；由于次用户对信道统计信息Θ＝(θ₁,θ₂,...,θ_N)未知，需要通过在线学习动态的估计未知的统计信息Θ；

将对于N个信道的探测感知，择优选择适合接入的信道这个问题建模MABP-SI模型，提出具有渐近有限收益损失的方法，以期望收益与先知辅助方法最大收益之间的差值为选择接入标准，公式可表示为：

其中，感知结果定义为感知空闲的信道集合，感知信道过程中，存在2^N个可能的感知结果；时隙t时，次用户维持更新2^N个感知结果的样本平均概率向量，包含2^N个元素，表示为设定Θ'＝(θ′₁,θ′₂,...,θ'_N)为授权信道空闲概率向量，对应有其表示大小为2^N的感知结果概率向量

步骤2、次用户感知所有授权信道，记录感知观察结果，更新概率向量，并记录感知为空闲的信道集合I(t)，具体如下：

次用户感知所有授权信道，记录感知观察结果X(j)＝(x₁(j),x₂(j),...,x_N(j))，更新概率向量其中记录感知为空闲的信道集合为I(t)；

步骤3、创建空间概率向量估计值的候选集合C(t)，公式为：

式中，||·||₂表示向量L₂范数，且对于向量x，表达式为

步骤4、随机选取向量作为空闲概率向量Θ的估计值；

步骤5、如果时隙t时集合I(t)为空，则次用户不接入任何信道；

步骤6、如果时隙t时空闲信道集合I(t)不为空，则选择系数最大且i∈I(t)的k个授权信道进行接入；

步骤7、将时间t更新为t+1，跳转至步骤2进行循环。

进一步地，步骤4中基于信道空闲概率向量的估计值，得出信道i的条件收益为其中是的第i个元素；通过信道机会前的全信道感知过程，该算法取得非常好的收益损失收敛性能。

为解析评估信道感知接入方法的性能，采用先知辅助信息方法为所提方法的性能基准进行性能分析。由于先知辅助方法是在次用户已知信道统计信息Θ的条件下进行信道接入，所以可以证明获得最大收益统计期望值。具体地，使用I(j)表示时隙j时次用户感知为空闲的信道集合，次用户基于已知信Θ，以最大条件期望为标准选择接入K个最优信道。此方法下，如果所接入的信道i被感知空闲，次用户可获得的期望收益为E[S_i(j)|x_i(j)＝1]。次用户因此以最大条件收益接入感知空闲的信道，即max_i∈I(j)E[S_i(j)|x_i(j)＝1]。根据信道状态与时隙独立的特性，时隙t之前，先知辅助方法获得期望收益为其中外部统计期望针对I(j)计算，内部统计期望针对信道i的忙闲状态计算。

对于未知信道信息条件下的方法，记为ψ，ψ(j)＝i表示次用户决定时隙j内接入信道i。时隙t之前，次用户可获得期望收益为

时隙t之前方法ψ的收益损失，即ψ的期望收益与先知辅助方法最大收益之间的差值，可表示为

上述收益损失函数可用于准确评估次用户未知信道信息条件下信道感知接入的统计学性能。利用该性能函数，可以证明，本发明所提方法满足渐进收敛性能，即时间t足够大或t→∞条件下，方法的收益损失收敛，存在有限的上界值。

本发明的一个具体实施例，设定认知无线电网络分别具有5至8个授权信道，同构信道感知下和其他参数见表1。

表1仿真参数列表

在上述网路参数配置下针对所提方法开展仿真实验，图4和图5分别为同构信道(授权信道检测感知参数一致)和异构信道(授权信道检测感知参数不同)条件下所提方法的收益损失函数性能曲线。可以看出，随着时间t增加，收益损失R(t)呈收敛趋势。

Claims

1.一种基于边带观测信息多臂老虎机模型的机会频谱接入方法，其特征在于，包括以下步骤：

步骤3、创建空闲概率向量Θ估计值的候选集合C(t)；

步骤5、将时隙t更新为t+1，跳转至步骤2进行循环。

2.根据权利要求1所述的基于边带观测信息多臂老虎机模型的机会频谱接入方法，其特征在于，步骤1所述的针对认知网络信道信息未知且信道感知不完美情况下的次用户接入问题，将对N个信道进行探测感知、选择适合接入的信道问题建模为MABP-SI模型，具体如下：

其中，t表示当前时隙，j表示统计开始的时隙一直到当前时隙的累加；I(j)表示在时隙j时感知空闲的信道集合；I[ψ(j)＝i]表示在时隙j时接入信道i是感知空闲的集合，其中ψ是任一自适应分配方法；

其中，感知结果定义为感知空闲的信道集合，感知信道过程中，存在2^N个可能的感知结果；时隙t时，次用户维持更新2^N个感知结果的样本平均概率向量，包含2^N个元素，表示为设定Θ'＝(θ'₁,θ'₂,...,θ'_N)为授权信道空闲概率向量，对应有表示大小为2^N的感知结果概率向量。

3.根据权利要求1所述的基于边带观测信息多臂老虎机模型的机会频谱接入方法，其特征在于，步骤2所述的次用户感知所有授权信道，记录感知观察结果，更新概率向量，并记录感知为空闲的空闲信道集合I(t)，具体如下：

4.根据权利要求1所述的基于边带观测信息多臂老虎机模型的机会频谱接入方法，其特征在于，步骤3所述的创建空闲概率向量Θ估计值的候选集合C(t)，具体如下：

创建空间概率向量Θ估计值的候选集合C(t)，公式为：

式中，||·||₂表示向量L₂范数，且对于向量x，表达式为inf表示下确界，即任给一数集E，称E的最大下界为E的下确界，记为infE；Θ⁺表示主信道空闲概率向量的估计量；表示由Θ⁺计算得到的相关向量；P_s是基于样本均值计算得到的概率向量；Θ'表示授权信道空闲概率向量；P_Θ'表示感知结果概率向量。