CN108809452B

CN108809452B - 动态频谱接入系统中最佳感知信道选择方法

Info

Publication number: CN108809452B
Application number: CN201810410210.6A
Authority: CN
Inventors: 韩光洁; 李傲寒
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2021-04-06
Anticipated expiration: 2038-05-02
Also published as: CN108809452A

Abstract

本发明设计出一种基于模糊Q学习方法的最佳感知信道选择方法，该方法中非授权用户通过学习方法在感知信道选择过程中不断摸索，以获得最佳的感知信道集。该方法包括两层学习过程：最佳感知信道选择学习过程以及信道状态学习过程。最佳感知信道选择过程选择将要进行感知的感知信道集输入给信道状态学习过程。信道状态学习过程对其输入的信道集中信道的真实状态进行学习。信道状态学习过程学习到的空闲信道的数量将作为最佳感知信道选择过程的奖赏。通过不断的学习过程，最佳感知信道选择方法可以选择出最佳的感知信道集，即选择的感知信道集中空闲信道的数量最大。

Description

动态频谱接入系统中最佳感知信道选择方法

技术领域

本发明涉及一种动态频谱接入系统中最佳感知信道选择方法，属于无线电网络技术领域。

背景技术

随着5G及超越5G无线通信的迫近，大量的无线设备终端及无线应用将以爆发式的增长速度被部署。为了能够支撑未来无线通信网络中数据的高速实时正确传输，无线领域研究者们正在积极地致力于未来通信技术的研究。其中主要的研究领域包括：毫米波，大规模多输入多输出天线，物联网以及动态频谱接入等等。动态频谱接入技术旨在提升频谱利用效率。在当前无线通信网络中，频谱资源是由频谱资源管理机构管理分配的。频谱资源分为授权频谱和非授权频谱。授权频谱是专门授权给特定用户使用的频谱。例如分配给电视广播使用的频谱。非授权频谱可供无线用户自由使用。因此，可自由使用的非授权频段得到商家的青睐。随着越来越多的使用非授权频段的设备及应用的开发与部署，非授权频段上的通信变的越来越加拥挤。然而，分配给特定用户使用的授权频段却没有被充分的使用。为了更加有效地使用频谱资源来保证更多设备及应用的正常运行，动态频谱接入技术被提出。动态频谱接入是指非授权用户在不干扰授权用户正常通信的情况下可以机会主义的使用授权频谱。

在动态频谱接入系统中，非授权用户可以通过频谱感知技术感知到未被授权用户使用的授权频谱。从而，可以在不干扰授权用户正常通信的情况下，机会主义的使用授权频谱资源。频谱感知和频谱接入被视为动态频谱接入技术实施的重要基础。在实际的动态频谱接入系统中，由于硬件的限制，非授权用户面临着感知能力受限及接入能力受限的问题。感知能力受限是指非授权用户在特定给定的时间内无法感知所有的授权频段的状态。非授权用户只可以在给定时间内感知到部分授权频段的状态。接入能力受限是指非授权用户不能同时接入所有可以使用的授权频段。通常情况下，非授权用户可以在给定时间内感知到的非授权频段的个数小于非授权频段的总的个数。此外，非授权用户可同时接入的授权频段的个数通常小于其可感知的授权频段个数。感知信道集及接入信道集的选择直接关系到通信的质量。因此，如何制定高效的感知信道集及接入信道集策略是值得深入研究的。本发明旨在感知信道集选择策略的研究。即如何制定感知信道集选择策略从而使得选择的感知信道集中具有较高数量的空闲信道。

目前针对动态频谱接入系统中的感知信道选择的相关研究文献如下：

1.Tianyi Xiong等人在2018年的《IEEE Transaction on WirelessCommunications》上发表的文章“Multiband Spectrum Sensing in Cognitive RadioNetworks with Secondary Users Hardware Limitation:Random and AdaptiveSpectrum Sensing Strategies”中针对具有硬件限制的非授权用户的频谱感知问题进行了深入的研究。在非授权用户硬件的限制下，非授权用户在可以在一个给定的时间阶段感知部分授权频段。这一研究设计了感知频段选择机制用以选择在一个给定的时间阶段将要进行感知的频段。这一研究所设计的感知频段选择机制包括：随机频谱感知策略及适应频谱感知策略。随机频谱感知策略即以随机的方式选择将要感知的频谱集。适应频谱感知策略即以适应性的方式来决定将要感知的频谱集。在适应频谱感知策略中，非授权用户可以根据授权用户的状态转移模型及授权用户的传输向量决定下一时刻是否停留在当前的感知信道集还是随机地选择其他的感知信道集。适应频谱感知策略可以使得被选择的将要进行频谱感知的频谱更倾向于可利用的状态。

2.Nazanin Rastegardoost等人在2015年的《IEEE WCNC》上发表的文章“OnChannel Selection Schemes for Spectrum Sensing in Cognitive Radio Networks”中提出一种基于评估信道可用性概率的感知频段选择方法。在此方法中，信道的可用性概率由之前感知到的此信道的可利用次数及被选择为感知信道的次数的比值来衡量。非授权用户根据信道的可用性概率来选择感知信道集合。

3.Lingcen Wu等人在2012年的《IEEE Globecom》上发表的文章“A Rollout-basedJoint Spectrum Sensing and Access Policy for Cognitive Radio Networks withHardware Limitations”中将频谱感知信道选择问题建立为一个部分可观察马尔科夫决策过程，并且提出了两种启发式的解决方法来获得近似的累计收益值。非授权用户基于获得的累计收益值，计算近似的频谱感知行为，即对频谱进行感知或者不对频谱进行感知。

4.Lincen Wu等人在2012年的《IEEE WCNC》上发表的文章“A POMDP-basedOptimal Spectrum Sensing Access Scheme for Cognitive Radio Networks withHardware Limitation”中同样将频谱感知信道选择问题建立为一个部分可观察马尔科夫决策过程。在此文中，为了获得部分可观察马尔科夫决策策略的回报函数从而选择最优的感知策略，理论演义方法被用于评估信道切换概率。在部分可观察马尔科夫决策策略下，此文提出了最佳的感知策略来最小化信道切换的次数。

5.Lifeng Lai等人在2011年的《IEEE Transactions on Mobile Computing》上发表的文章“Cognitive Medium Access:Exploration,Exploitation,and Competition”将感知频谱选择问题建立成了赌博机模型，并且分析了不同场景下的感知信道选择问题。主要的场景包括：单非授权用户单感知信道，单非授权用户多感知信道，多非授权用户单信道以及多非授权用户多信道。在第一个场景下，通过最大化期望吞吐量来选择感知信道。在第二个场景下，此文提出了一种低复杂度顺序优化的感知信道选择方法。在第三个场景下，在选择感知信道的同时，非授权用户之间的竞争同样被充分考虑。在第四个场景下，此文提出了一个优化的低复杂度的频谱感知信道决策算法。

在总结这些研究的基础上，可以看出当前动态频谱接入系统中最佳感知信道选择方法的设计中存在以下主要问题：

1.很多文章假设非授权用户在同一时隙只可以感知一个非授权信道。然而，在真实认知无线电网络中，随着认知设备的发展，非授权用户在同一时隙可以感知多个授权信道。

2.大部分文章都认为非授权用户在进行频谱感知后便可获得频谱的真实状态。然后根据频谱感知结果决定接下来将要感知的信道。然而，频谱感知阶段感知到的频谱状态不一定完全与真实的频谱状态相同。频谱感知过程中存在频谱感知错误问题。

3.大部分文章中的感知信道选择方法都无法获得全局最优性能。因为大部分文章中的感知信道选择算法只专注于某一个授权频段的性能，并没有综合考虑所有的可感知的频段。

发明内容

技术问题：本发明设计出一种基于模糊Q学习方法的最佳感知信道选择方法，该方法中非授权用户通过学习方法在感知信道选择过程中不断摸索，以获得最佳的感知信道集。该方法包括两层学习过程：最佳感知信道选择学习过程以及信道状态学习过程。最佳感知信道选择过程选择将要进行感知的感知信道集输入给信道状态学习过程。信道状态学习过程对其输入的信道集中信道的真实状态进行学习。信道状态学习过程学习到的空闲信道的数量将作为最佳感知信道选择过程的奖赏。通过不断的学习过程，最佳感知信道选择方法可以选择出最佳的感知信道集，即选择的感知信道集中空闲信道的数量最大。

本发明的技术方案如下：

一种动态频谱接入系统中最佳感知信道选择方法，包括如下步骤：

(1)、最佳感知信道学习过程

非授权用户根据信道的状态信息在授权频段中选择部分最佳的频谱感知信道集进行信道感知。最佳感知信道学习过程中的奖赏由信道感知结果即信道是否空闲决定。非授权用户根据其选择的感知信道集及其对应的奖赏选择下一时刻将要感知的信道集。通过不断地从感知信道集选择及其获得的奖赏中对动态频谱接入系统进行学习，最终非授权用户可以在不同状态下选择出最佳的感知信道集。

(2)、信道状态学习过程

非授权用户在最佳感知信道学习过程中所选择的感知信道集作为最佳感知信道学习过程的输出以及信道状态学习过程的输入。然后，非授权用户在信道状态学习过程中，对在最佳感知信道学习过程选择的频谱感知信道集中的信道状态进行判断。非授权用户在信道状态学习过程中可以通过不断地学习到信道的真实状态。感知信道集中信道的真实状态作为信道状态学习过程的输出，并且反馈给最佳感知信道学习过程作为信道状态学习过程的输入。

上述步骤(1)中，在动态频谱接入系统中包含个N个授权频段，表示为N＝{1，2，…，j，…，N}。非授权用户可以在一个给定的时间同时感知N_S个授权频段，N_S＜N。

上述步骤(1)中，非授权用户最佳感知信道学习过程中主要元素包括：状态，动作及奖赏。其中此学习过程中的状态是连续的，用信道的空闲概率来表征，即

为信道j为空闲状态的概率。动作为选择其为感知信道或者不选择其为感知信道，即A^t＝{A₁，A₂，…，A_j，…A_N}。其中，A_j＝[0,1]，A_j＝0表示信道j未被选为感知信道；A_j＝1表示信道j被选为感知信道。奖赏R^t为其选择的感知信道集中空闲信道数量的总和。

上述步骤(1)中，最佳感知信道学习过程是基于模糊Q-学习方法的，其包括如下步骤：

(a)初始化所有规则及动作所对应的所有q值q(Lⁱ,Aⁱ)。其中，Lⁱ为信道状态在第i个规则中的模糊标签。在最佳感知信道学习过程中包括三种规则，即L＝{L₁,L₂,L₃}。Aⁱ为对应于第i个规则选择的动作，。即由第i个规则选择的感知信道集。

(b)非授权用户使用ε贪婪算法来选择其动作，即感知信道集。在每个规则中的非授权用户的动作按照如下方法选择动作：将信道按照其q值进行排序。以ε概率选择依次选择q值最高的N_S个信道组成感知信道集。在每个信道选择的过程中，以1-ε随机选择感知信道。

(c)根据三个规则所选择的动作及各个规则的真实度来决定最终的动作。第i个规则的真实度的计算方法为：

其中，

为隶属函数。此发明中的隶属函数使用常用的标准高斯隶属函数。

为规则i所选择的感知信道集中第j个信道的状态即空闲概率。最终的动作由各个规则推断出的动作的加权平均值获得。其计算方法为：

(d)更新q值。q值按如下方法进行更新：

其中，β为模糊Q学习的学习速率，ΔQ^t为Q函数增量。ΔQ^t＝R^t/N_S+χV(b)-Q(b,a(b))，其中χ为折扣因子。V(b)为三个规则执行最佳动作可获得的平均Q值的加权平均值，其计算方法为：

其中，

为规则i中Q值最大的N_S个信道的Q值的平均值，其计算方法为：

为规则i中Q值最大的N_S个信道组成的信道集中第k个信道的Q值。Q(b,a(b))为各个规则所选择的动作中可获得的平均Q值的加权平均值，其计算方法为：

其中，

为规则i中所选择的N_S个感知信道的Q值的平均值，其计算方法为：

为规则i中所选择的N_S个感知信道组成的信道集中第k个信道的Q值。

(e)在非授权用户决策期间循环执行(a)～(d)的步骤。

上述步骤(2)中，信道状态主要由授权用户以及恶意攻击者决定。信道状态主要包括以下几个状态：

(a)授权用户使用信道，恶意攻击者攻击信道。

(b)授权用户使用信道，恶意攻击者没有攻击信道。

(c)授权用户没有使用信道，恶意攻击者攻击信道。

(d)授权用户没有使用信道，恶意攻击者没有攻击信道。

只有当信道没有被授权用户占用并且不受恶意攻击者攻击时，信道才为可用信道。因此，在上述几个状态中，当信道的状态处于(a)、(b)、(c)所表示的状态时，信道处于不可用状态。当信道状态处于(d)所表示的状态是，信道为空闲信道即可用信道。

上述步骤(2)中，信道状态由信道空闲的概率来表征。

本发明所达到的有益效果：

(1)本发明所设计的最佳感知信道选择方法能够在非授权用户硬件条件限制下，选择最佳的合适数量的信道进行感知。因此，此方法解决了非授权用户在给定时间内只可以感知一个信道以及需要基础设施来进行最佳感知信道选择的决策问题。本发明设计的方法更加适合真实的动态频谱接入系统。

(2)本发明所设计的基于模糊Q学习方法的最佳感知信道选择方法通过不断的学习过程选择空闲概率最高的部分信道进行感知。此方法在学习过程中，能够达到最佳的状态。即通过此方法选择的感知信道集具有最高的空闲概率。因此，此方法可以大大减小不必要的信道感知所带来的花费。

(3)本发明所设计的最佳感知信道选择方法考虑了全局优化的问题。在此方法中，非授权用户对各个授权信道根据其空闲概率进行排序。然后，从中选择空闲概率最高的部分信道进行感知。因此，可以获得全局最佳的感知信道集。

附图说明

图1为本发明的整体结构框图；

图2为在硬件限制条件下非授权用户的频谱接入示意图；

图3为最佳感知信道感知学习过程框图；

图4为最佳感知信道学习过程的算法流程图；

图5为信道状态示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，一种动态频谱接入系统中最佳感知信道选择方法，包括如下步骤：

(1)、最佳感知信道学习过程

(2)、信道状态学习过程

非授权用户在最佳感知信道学习过程中所选择的感知信道集作为最佳感知信道学习过程的输出以及信道状态学习过程的输入。然后，非授权用户在信道状态学习过程中，对在最佳感知信道学习过程选择的频谱感知信道集中的信道状态进行判断。非授权用户在信道状态学习过程中可以通过不断地学习到信道的真实状态。感知信道集中信道的真实状态作为信道状态学习过程的输出，并且反馈给最佳感知信道学习过程作为信道状态学习过程的输入。其中，信道状态由信道空闲的概率来表征。

如图2所示，在动态频谱接入系统中包含个N个授权频段，表示为N＝{1，2，…，j，…，N}。非授权用户可以在一个给定的时间同时感知N_S个授权频段，N_S＜N。

如图3所示，在最佳感知信道学习过程中，非授权用户根据信道的状态信息在授权频段中选择部分最佳的频谱感知信道集进行信道感知。最佳感知信道学习过程中的奖赏由信道感知结果即信道是否空闲决定。非授权用户根据其选择的感知信道集及其对应的奖赏选择下一时刻将要感知的信道集。通过不断地从感知信道集选择及其获得的奖赏中对动态频谱接入系统进行学习，最终非授权用户可以在不同状态下选择出最佳的感知信道集。

非授权用户最佳感知信道学习过程中主要元素包括：状态，动作及奖赏。其中此学习过程中的状态是连续的，用信道的空闲概率来表征，即

如图4所示，最佳感知信道学习过程是基于模糊Q-学习方法的，其包括如下步骤：

其中，

(d)更新q值。q值按如下方法进行更新：

其中，

其中，

(e)在非授权用户决策期间循环执行(a)～(d)的步骤。

如图5所示，信道状态主要由授权用户以及恶意攻击者决定。信道状态主要包括以下几个状态：

(a)授权用户使用信道，恶意攻击者攻击信道。

(b)授权用户使用信道，恶意攻击者没有攻击信道。

(c)授权用户没有使用信道，恶意攻击者攻击信道。

(d)授权用户没有使用信道，恶意攻击者没有攻击信道。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种动态频谱接入系统中最佳感知信道选择方法，其特征在于包括如下步骤：

(1)、最佳感知信道学习过程

非授权用户根据信道的状态信息在授权频段中选择部分最佳频谱感知信道集进行信道感知；最佳感知信道学习过程中的奖赏由信道感知结果即信道是否空闲决定；非授权用户根据其选择的频谱感知信道集及其对应的奖赏选择下一时刻将要感知的信道集，通过不断地从频谱感知信道集选择及其获得的奖赏中对动态频谱接入系统进行学习，最终非授权用户在不同状态下选择出最佳的感知信道集；

所述步骤(1)中对动态频谱接入系统进行学习的具体步骤如下：

(a)初始化所有规则及动作所对应的所有q值q(Lⁱ,Aⁱ)，其中，Lⁱ为信道状态在第i个规则中的模糊标签，在最佳感知信道学习过程中包括三种规则，即L＝{L₁,L₂,L₃}；其中，L_i为最佳感知信道选择方法中的第i个规则，i＝1,2,...n，Aⁱ为对应于第i个规则选择的动作，即由第i个规则选择的感知信道集；

(b)非授权用户使用ε贪婪算法来选择其动作，即感知信道集，在每个规则中的非授权用户的动作按照如下方法选择动作：将信道按照其q值进行排序，以ε概率选择依次选择q值最高的N_S个信道组成感知信道集，在每个信道选择的过程中，以1-ε随机选择感知信道；

(c)根据三个规则所选择的动作及各个规则的真实度来决定最终的动作；第i个规则的真实度的计算方法为：

其中，

为隶属函数,使用常用的标准高斯隶属函数；

为规则i所选择的感知信道集中第j个信道的状态即空闲概率；最终的动作由各个规则推断出的动作的加权平均值获得；其计算方法为：

(d)更新q值；

q值按如下方法进行更新：

其中，β为模糊Q学习的学习速率，ΔQ^t为Q函数增量；

为在第^t个决策时刻，第i个规则对应的第j个信道的q值；

ΔQ^t＝R^t/N_S+χV(b)-Q(b,a(b))

R^t为在第t个决策时刻，非授权用户执行所选动作所获得的奖赏,其中χ为折扣因子；V(b)为三个规则执行最佳动作可获得的平均Q值的加权平均值，其计算方法为：

其中，

为规则i中Q值最大的N_S个感知信道组成的感知信道集中第k个信道的Q值；

Q(b,a(b))为各个规则所选择的动作中可获得的平均Q值的加权平均值，其计算方法为：

其中，

为规则i中所选择的N_S个感知信道组成的感知信道集中第k个信道的Q值；

(e)在非授权用户决策期间循环执行(a)～(d)的步骤；

(2)、信道状态学习过程

非授权用户在最佳感知信道学习过程中所选择的频谱感知信道集作为最佳感知信道学习过程的输出以及信道状态学习过程的输入；然后，非授权用户在信道状态学习过程中，对在最佳感知信道学习过程选择的频谱感知信道集中的信道状态进行判断，在此过程中，非授权用户通过不断的学习，最终获得信道的真实状态；频谱感知信道集中信道的真实状态作为信道状态学习过程的输出，并且反馈给最佳感知信道学习过程作为信道状态学习过程的输入。

2.根据权利要求1所述的动态频谱接入系统中最佳感知信道选择方法，其特征在于所述步骤(1)中，在动态频谱接入系统中包含个N个授权频段，表示为N＝{1，2，…，j，…，N}；非授权用户能够在任意给定的时间同时感知N_S个授权频段，N_S＜N。

3.根据权利要求1所述的动态频谱接入系统中最佳感知信道选择方法，其特征在于所述步骤(1)中，非授权用户最佳感知信道学习过程包括如下元素：状态，动作及奖赏；

所述状态是连续的，用感知信道的空闲概率来表征，即

为信道j为空闲状态的概率；

所述动作为选择其为感知信道或者不选择其为感知信道，即A^t＝{A₁，A₂，…，A_j，…A_N}，其中，A_j＝[0,1]，A_j＝0表示信道j未被选为感知信道；A_j＝1表示信道j被选为感知信道；

所述奖赏表示为R^t，为其选择的感知信道集中空闲信道数量的总和。

4.根据权利要求1所述的动态频谱接入系统中最佳感知信道选择方法，其特征在于所述步骤(2)中的信道状态由授权用户以及恶意攻击者决定，信道状态包括以下几个状态：

(a)授权用户使用信道，恶意攻击者攻击信道；

(b)授权用户使用信道，恶意攻击者没有攻击信道；

(c)授权用户没有使用信道，恶意攻击者攻击信道；

(d)授权用户没有使用信道，恶意攻击者没有攻击信道；

当信道的状态处于(a)、(b)、(c)所表示的状态时，信道处于不可用状态；当信道状态处于(d)所表示的状态是，信道为空闲信道即可用信道。

5.根据权利要求1所述的动态频谱接入系统中最佳感知信道选择方法，其特征在于所述步骤(2)中的信道状态由步骤(c)所述的空闲概率来表征。