CN108809452B - 动态频谱接入系统中最佳感知信道选择方法 - Google Patents

动态频谱接入系统中最佳感知信道选择方法 Download PDF

Info

Publication number
CN108809452B
CN108809452B CN201810410210.6A CN201810410210A CN108809452B CN 108809452 B CN108809452 B CN 108809452B CN 201810410210 A CN201810410210 A CN 201810410210A CN 108809452 B CN108809452 B CN 108809452B
Authority
CN
China
Prior art keywords
channel
sensing
state
channels
learning process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810410210.6A
Other languages
English (en)
Other versions
CN108809452A (zh
Inventor
韩光洁
李傲寒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201810410210.6A priority Critical patent/CN108809452B/zh
Publication of CN108809452A publication Critical patent/CN108809452A/zh
Application granted granted Critical
Publication of CN108809452B publication Critical patent/CN108809452B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明设计出一种基于模糊Q学习方法的最佳感知信道选择方法,该方法中非授权用户通过学习方法在感知信道选择过程中不断摸索,以获得最佳的感知信道集。该方法包括两层学习过程:最佳感知信道选择学习过程以及信道状态学习过程。最佳感知信道选择过程选择将要进行感知的感知信道集输入给信道状态学习过程。信道状态学习过程对其输入的信道集中信道的真实状态进行学习。信道状态学习过程学习到的空闲信道的数量将作为最佳感知信道选择过程的奖赏。通过不断的学习过程,最佳感知信道选择方法可以选择出最佳的感知信道集,即选择的感知信道集中空闲信道的数量最大。

Description

动态频谱接入系统中最佳感知信道选择方法
技术领域
本发明涉及一种动态频谱接入系统中最佳感知信道选择方法,属于无线电网络技术领域。
背景技术
随着5G及超越5G无线通信的迫近,大量的无线设备终端及无线应用将以爆发式的增长速度被部署。为了能够支撑未来无线通信网络中数据的高速实时正确传输,无线领域研究者们正在积极地致力于未来通信技术的研究。其中主要的研究领域包括:毫米波,大规模多输入多输出天线,物联网以及动态频谱接入等等。动态频谱接入技术旨在提升频谱利用效率。在当前无线通信网络中,频谱资源是由频谱资源管理机构管理分配的。频谱资源分为授权频谱和非授权频谱。授权频谱是专门授权给特定用户使用的频谱。例如分配给电视广播使用的频谱。非授权频谱可供无线用户自由使用。因此,可自由使用的非授权频段得到商家的青睐。随着越来越多的使用非授权频段的设备及应用的开发与部署,非授权频段上的通信变的越来越加拥挤。然而,分配给特定用户使用的授权频段却没有被充分的使用。为了更加有效地使用频谱资源来保证更多设备及应用的正常运行,动态频谱接入技术被提出。动态频谱接入是指非授权用户在不干扰授权用户正常通信的情况下可以机会主义的使用授权频谱。
在动态频谱接入系统中,非授权用户可以通过频谱感知技术感知到未被授权用户使用的授权频谱。从而,可以在不干扰授权用户正常通信的情况下,机会主义的使用授权频谱资源。频谱感知和频谱接入被视为动态频谱接入技术实施的重要基础。在实际的动态频谱接入系统中,由于硬件的限制,非授权用户面临着感知能力受限及接入能力受限的问题。感知能力受限是指非授权用户在特定给定的时间内无法感知所有的授权频段的状态。非授权用户只可以在给定时间内感知到部分授权频段的状态。接入能力受限是指非授权用户不能同时接入所有可以使用的授权频段。通常情况下,非授权用户可以在给定时间内感知到的非授权频段的个数小于非授权频段的总的个数。此外,非授权用户可同时接入的授权频段的个数通常小于其可感知的授权频段个数。感知信道集及接入信道集的选择直接关系到通信的质量。因此,如何制定高效的感知信道集及接入信道集策略是值得深入研究的。本发明旨在感知信道集选择策略的研究。即如何制定感知信道集选择策略从而使得选择的感知信道集中具有较高数量的空闲信道。
目前针对动态频谱接入系统中的感知信道选择的相关研究文献如下:
1.Tianyi Xiong等人在2018年的《IEEE Transaction on WirelessCommunications》上发表的文章“Multiband Spectrum Sensing in Cognitive RadioNetworks with Secondary Users Hardware Limitation:Random and AdaptiveSpectrum Sensing Strategies”中针对具有硬件限制的非授权用户的频谱感知问题进行了深入的研究。在非授权用户硬件的限制下,非授权用户在可以在一个给定的时间阶段感知部分授权频段。这一研究设计了感知频段选择机制用以选择在一个给定的时间阶段将要进行感知的频段。这一研究所设计的感知频段选择机制包括:随机频谱感知策略及适应频谱感知策略。随机频谱感知策略即以随机的方式选择将要感知的频谱集。适应频谱感知策略即以适应性的方式来决定将要感知的频谱集。在适应频谱感知策略中,非授权用户可以根据授权用户的状态转移模型及授权用户的传输向量决定下一时刻是否停留在当前的感知信道集还是随机地选择其他的感知信道集。适应频谱感知策略可以使得被选择的将要进行频谱感知的频谱更倾向于可利用的状态。
2.Nazanin Rastegardoost等人在2015年的《IEEE WCNC》上发表的文章“OnChannel Selection Schemes for Spectrum Sensing in Cognitive Radio Networks”中提出一种基于评估信道可用性概率的感知频段选择方法。在此方法中,信道的可用性概率由之前感知到的此信道的可利用次数及被选择为感知信道的次数的比值来衡量。非授权用户根据信道的可用性概率来选择感知信道集合。
3.Lingcen Wu等人在2012年的《IEEE Globecom》上发表的文章“A Rollout-basedJoint Spectrum Sensing and Access Policy for Cognitive Radio Networks withHardware Limitations”中将频谱感知信道选择问题建立为一个部分可观察马尔科夫决策过程,并且提出了两种启发式的解决方法来获得近似的累计收益值。非授权用户基于获得的累计收益值,计算近似的频谱感知行为,即对频谱进行感知或者不对频谱进行感知。
4.Lincen Wu等人在2012年的《IEEE WCNC》上发表的文章“A POMDP-basedOptimal Spectrum Sensing Access Scheme for Cognitive Radio Networks withHardware Limitation”中同样将频谱感知信道选择问题建立为一个部分可观察马尔科夫决策过程。在此文中,为了获得部分可观察马尔科夫决策策略的回报函数从而选择最优的感知策略,理论演义方法被用于评估信道切换概率。在部分可观察马尔科夫决策策略下,此文提出了最佳的感知策略来最小化信道切换的次数。
5.Lifeng Lai等人在2011年的《IEEE Transactions on Mobile Computing》上发表的文章“Cognitive Medium Access:Exploration,Exploitation,and Competition”将感知频谱选择问题建立成了赌博机模型,并且分析了不同场景下的感知信道选择问题。主要的场景包括:单非授权用户单感知信道,单非授权用户多感知信道,多非授权用户单信道以及多非授权用户多信道。在第一个场景下,通过最大化期望吞吐量来选择感知信道。在第二个场景下,此文提出了一种低复杂度顺序优化的感知信道选择方法。在第三个场景下,在选择感知信道的同时,非授权用户之间的竞争同样被充分考虑。在第四个场景下,此文提出了一个优化的低复杂度的频谱感知信道决策算法。
在总结这些研究的基础上,可以看出当前动态频谱接入系统中最佳感知信道选择方法的设计中存在以下主要问题:
1.很多文章假设非授权用户在同一时隙只可以感知一个非授权信道。然而,在真实认知无线电网络中,随着认知设备的发展,非授权用户在同一时隙可以感知多个授权信道。
2.大部分文章都认为非授权用户在进行频谱感知后便可获得频谱的真实状态。然后根据频谱感知结果决定接下来将要感知的信道。然而,频谱感知阶段感知到的频谱状态不一定完全与真实的频谱状态相同。频谱感知过程中存在频谱感知错误问题。
3.大部分文章中的感知信道选择方法都无法获得全局最优性能。因为大部分文章中的感知信道选择算法只专注于某一个授权频段的性能,并没有综合考虑所有的可感知的频段。
发明内容
技术问题:本发明设计出一种基于模糊Q学习方法的最佳感知信道选择方法,该方法中非授权用户通过学习方法在感知信道选择过程中不断摸索,以获得最佳的感知信道集。该方法包括两层学习过程:最佳感知信道选择学习过程以及信道状态学习过程。最佳感知信道选择过程选择将要进行感知的感知信道集输入给信道状态学习过程。信道状态学习过程对其输入的信道集中信道的真实状态进行学习。信道状态学习过程学习到的空闲信道的数量将作为最佳感知信道选择过程的奖赏。通过不断的学习过程,最佳感知信道选择方法可以选择出最佳的感知信道集,即选择的感知信道集中空闲信道的数量最大。
本发明的技术方案如下:
一种动态频谱接入系统中最佳感知信道选择方法,包括如下步骤:
(1)、最佳感知信道学习过程
非授权用户根据信道的状态信息在授权频段中选择部分最佳的频谱感知信道集进行信道感知。最佳感知信道学习过程中的奖赏由信道感知结果即信道是否空闲决定。非授权用户根据其选择的感知信道集及其对应的奖赏选择下一时刻将要感知的信道集。通过不断地从感知信道集选择及其获得的奖赏中对动态频谱接入系统进行学习,最终非授权用户可以在不同状态下选择出最佳的感知信道集。
(2)、信道状态学习过程
非授权用户在最佳感知信道学习过程中所选择的感知信道集作为最佳感知信道学习过程的输出以及信道状态学习过程的输入。然后,非授权用户在信道状态学习过程中,对在最佳感知信道学习过程选择的频谱感知信道集中的信道状态进行判断。非授权用户在信道状态学习过程中可以通过不断地学习到信道的真实状态。感知信道集中信道的真实状态作为信道状态学习过程的输出,并且反馈给最佳感知信道学习过程作为信道状态学习过程的输入。
上述步骤(1)中,在动态频谱接入系统中包含个N个授权频段,表示为N={1,2,…,j,…,N}。非授权用户可以在一个给定的时间同时感知NS个授权频段,NS<N。
上述步骤(1)中,非授权用户最佳感知信道学习过程中主要元素包括:状态,动作及奖赏。其中此学习过程中的状态是连续的,用信道的空闲概率来表征,即
Figure BDA0001647801420000051
Figure BDA0001647801420000052
为信道j为空闲状态的概率。动作为选择其为感知信道或者不选择其为感知信道,即At={A1,A2,…,Aj,…AN}。其中,Aj=[0,1],Aj=0表示信道j未被选为感知信道;Aj=1表示信道j被选为感知信道。奖赏Rt为其选择的感知信道集中空闲信道数量的总和。
上述步骤(1)中,最佳感知信道学习过程是基于模糊Q-学习方法的,其包括如下步骤:
(a)初始化所有规则及动作所对应的所有q值q(Li,Ai)。其中,Li为信道状态在第i个规则中的模糊标签。在最佳感知信道学习过程中包括三种规则,即L={L1,L2,L3}。Ai为对应于第i个规则选择的动作,。即由第i个规则选择的感知信道集。
(b)非授权用户使用ε贪婪算法来选择其动作,即感知信道集。在每个规则中的非授权用户的动作按照如下方法选择动作:将信道按照其q值进行排序。以ε概率选择依次选择q值最高的NS个信道组成感知信道集。在每个信道选择的过程中,以1-ε随机选择感知信道。
(c)根据三个规则所选择的动作及各个规则的真实度来决定最终的动作。第i个规则的真实度的计算方法为:
Figure BDA0001647801420000061
其中,
Figure BDA0001647801420000062
为隶属函数。此发明中的隶属函数使用常用的标准高斯隶属函数。
Figure BDA0001647801420000063
为规则i所选择的感知信道集中第j个信道的状态即空闲概率。最终的动作由各个规则推断出的动作的加权平均值获得。其计算方法为:
Figure BDA0001647801420000064
(d)更新q值。q值按如下方法进行更新:
Figure BDA0001647801420000065
其中,β为模糊Q学习的学习速率,ΔQt为Q函数增量。ΔQt=Rt/NS+χV(b)-Q(b,a(b)),其中χ为折扣因子。V(b)为三个规则执行最佳动作可获得的平均Q值的加权平均值,其计算方法为:
Figure BDA0001647801420000066
其中,
Figure BDA0001647801420000067
为规则i中Q值最大的NS个信道的Q值的平均值,其计算方法为:
Figure BDA0001647801420000068
Figure BDA0001647801420000069
为规则i中Q值最大的NS个信道组成的信道集中第k个信道的Q值。Q(b,a(b))为各个规则所选择的动作中可获得的平均Q值的加权平均值,其计算方法为:
Figure BDA00016478014200000610
其中,
Figure BDA00016478014200000611
为规则i中所选择的NS个感知信道的Q值的平均值,其计算方法为:
Figure BDA00016478014200000612
Figure BDA00016478014200000613
为规则i中所选择的NS个感知信道组成的信道集中第k个信道的Q值。
(e)在非授权用户决策期间循环执行(a)~(d)的步骤。
上述步骤(2)中,信道状态主要由授权用户以及恶意攻击者决定。信道状态主要包括以下几个状态:
(a)授权用户使用信道,恶意攻击者攻击信道。
(b)授权用户使用信道,恶意攻击者没有攻击信道。
(c)授权用户没有使用信道,恶意攻击者攻击信道。
(d)授权用户没有使用信道,恶意攻击者没有攻击信道。
只有当信道没有被授权用户占用并且不受恶意攻击者攻击时,信道才为可用信道。因此,在上述几个状态中,当信道的状态处于(a)、(b)、(c)所表示的状态时,信道处于不可用状态。当信道状态处于(d)所表示的状态是,信道为空闲信道即可用信道。
上述步骤(2)中,信道状态由信道空闲的概率来表征。
本发明所达到的有益效果:
(1)本发明所设计的最佳感知信道选择方法能够在非授权用户硬件条件限制下,选择最佳的合适数量的信道进行感知。因此,此方法解决了非授权用户在给定时间内只可以感知一个信道以及需要基础设施来进行最佳感知信道选择的决策问题。本发明设计的方法更加适合真实的动态频谱接入系统。
(2)本发明所设计的基于模糊Q学习方法的最佳感知信道选择方法通过不断的学习过程选择空闲概率最高的部分信道进行感知。此方法在学习过程中,能够达到最佳的状态。即通过此方法选择的感知信道集具有最高的空闲概率。因此,此方法可以大大减小不必要的信道感知所带来的花费。
(3)本发明所设计的最佳感知信道选择方法考虑了全局优化的问题。在此方法中,非授权用户对各个授权信道根据其空闲概率进行排序。然后,从中选择空闲概率最高的部分信道进行感知。因此,可以获得全局最佳的感知信道集。
附图说明
图1为本发明的整体结构框图;
图2为在硬件限制条件下非授权用户的频谱接入示意图;
图3为最佳感知信道感知学习过程框图;
图4为最佳感知信道学习过程的算法流程图;
图5为信道状态示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种动态频谱接入系统中最佳感知信道选择方法,包括如下步骤:
(1)、最佳感知信道学习过程
(2)、信道状态学习过程
非授权用户在最佳感知信道学习过程中所选择的感知信道集作为最佳感知信道学习过程的输出以及信道状态学习过程的输入。然后,非授权用户在信道状态学习过程中,对在最佳感知信道学习过程选择的频谱感知信道集中的信道状态进行判断。非授权用户在信道状态学习过程中可以通过不断地学习到信道的真实状态。感知信道集中信道的真实状态作为信道状态学习过程的输出,并且反馈给最佳感知信道学习过程作为信道状态学习过程的输入。其中,信道状态由信道空闲的概率来表征。
如图2所示,在动态频谱接入系统中包含个N个授权频段,表示为N={1,2,…,j,…,N}。非授权用户可以在一个给定的时间同时感知NS个授权频段,NS<N。
如图3所示,在最佳感知信道学习过程中,非授权用户根据信道的状态信息在授权频段中选择部分最佳的频谱感知信道集进行信道感知。最佳感知信道学习过程中的奖赏由信道感知结果即信道是否空闲决定。非授权用户根据其选择的感知信道集及其对应的奖赏选择下一时刻将要感知的信道集。通过不断地从感知信道集选择及其获得的奖赏中对动态频谱接入系统进行学习,最终非授权用户可以在不同状态下选择出最佳的感知信道集。
非授权用户最佳感知信道学习过程中主要元素包括:状态,动作及奖赏。其中此学习过程中的状态是连续的,用信道的空闲概率来表征,即
Figure BDA0001647801420000091
Figure BDA0001647801420000092
为信道j为空闲状态的概率。动作为选择其为感知信道或者不选择其为感知信道,即At={A1,A2,…,Aj,…AN}。其中,Aj=[0,1],Aj=0表示信道j未被选为感知信道;Aj=1表示信道j被选为感知信道。奖赏Rt为其选择的感知信道集中空闲信道数量的总和。
如图4所示,最佳感知信道学习过程是基于模糊Q-学习方法的,其包括如下步骤:
(a)初始化所有规则及动作所对应的所有q值q(Li,Ai)。其中,Li为信道状态在第i个规则中的模糊标签。在最佳感知信道学习过程中包括三种规则,即L={L1,L2,L3}。Ai为对应于第i个规则选择的动作,。即由第i个规则选择的感知信道集。
(b)非授权用户使用ε贪婪算法来选择其动作,即感知信道集。在每个规则中的非授权用户的动作按照如下方法选择动作:将信道按照其q值进行排序。以ε概率选择依次选择q值最高的NS个信道组成感知信道集。在每个信道选择的过程中,以1-ε随机选择感知信道。
(c)根据三个规则所选择的动作及各个规则的真实度来决定最终的动作。第i个规则的真实度的计算方法为:
Figure BDA0001647801420000093
其中,
Figure BDA0001647801420000094
为隶属函数。此发明中的隶属函数使用常用的标准高斯隶属函数。
Figure BDA0001647801420000095
为规则i所选择的感知信道集中第j个信道的状态即空闲概率。最终的动作由各个规则推断出的动作的加权平均值获得。其计算方法为:
Figure BDA0001647801420000096
(d)更新q值。q值按如下方法进行更新:
Figure BDA0001647801420000097
其中,β为模糊Q学习的学习速率,ΔQt为Q函数增量。ΔQt=Rt/NS+χV(b)-Q(b,a(b)),其中χ为折扣因子。V(b)为三个规则执行最佳动作可获得的平均Q值的加权平均值,其计算方法为:
Figure BDA0001647801420000101
其中,
Figure BDA0001647801420000102
为规则i中Q值最大的NS个信道的Q值的平均值,其计算方法为:
Figure BDA0001647801420000103
Figure BDA0001647801420000104
为规则i中Q值最大的NS个信道组成的信道集中第k个信道的Q值。Q(b,a(b))为各个规则所选择的动作中可获得的平均Q值的加权平均值,其计算方法为:
Figure BDA0001647801420000105
其中,
Figure BDA0001647801420000106
为规则i中所选择的NS个感知信道的Q值的平均值,其计算方法为:
Figure BDA0001647801420000107
Figure BDA0001647801420000108
为规则i中所选择的NS个感知信道组成的信道集中第k个信道的Q值。
(e)在非授权用户决策期间循环执行(a)~(d)的步骤。
如图5所示,信道状态主要由授权用户以及恶意攻击者决定。信道状态主要包括以下几个状态:
(a)授权用户使用信道,恶意攻击者攻击信道。
(b)授权用户使用信道,恶意攻击者没有攻击信道。
(c)授权用户没有使用信道,恶意攻击者攻击信道。
(d)授权用户没有使用信道,恶意攻击者没有攻击信道。
只有当信道没有被授权用户占用并且不受恶意攻击者攻击时,信道才为可用信道。因此,在上述几个状态中,当信道的状态处于(a)、(b)、(c)所表示的状态时,信道处于不可用状态。当信道状态处于(d)所表示的状态是,信道为空闲信道即可用信道。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种动态频谱接入系统中最佳感知信道选择方法,其特征在于包括如下步骤:
(1)、最佳感知信道学习过程
非授权用户根据信道的状态信息在授权频段中选择部分最佳频谱感知信道集进行信道感知;最佳感知信道学习过程中的奖赏由信道感知结果即信道是否空闲决定;非授权用户根据其选择的频谱感知信道集及其对应的奖赏选择下一时刻将要感知的信道集,通过不断地从频谱感知信道集选择及其获得的奖赏中对动态频谱接入系统进行学习,最终非授权用户在不同状态下选择出最佳的感知信道集;
所述步骤(1)中对动态频谱接入系统进行学习的具体步骤如下:
(a)初始化所有规则及动作所对应的所有q值q(Li,Ai),其中,Li为信道状态在第i个规则中的模糊标签,在最佳感知信道学习过程中包括三种规则,即L={L1,L2,L3};其中,Li为最佳感知信道选择方法中的第i个规则,i=1,2,...n,Ai为对应于第i个规则选择的动作,即由第i个规则选择的感知信道集;
(b)非授权用户使用ε贪婪算法来选择其动作,即感知信道集,在每个规则中的非授权用户的动作按照如下方法选择动作:将信道按照其q值进行排序,以ε概率选择依次选择q值最高的NS个信道组成感知信道集,在每个信道选择的过程中,以1-ε随机选择感知信道;
(c)根据三个规则所选择的动作及各个规则的真实度来决定最终的动作;第i个规则的真实度的计算方法为:
Figure FDA0002764733380000011
其中,
Figure FDA0002764733380000012
为隶属函数,使用常用的标准高斯隶属函数;
Figure FDA0002764733380000013
为规则i所选择的感知信道集中第j个信道的状态即空闲概率;最终的动作由各个规则推断出的动作的加权平均值获得;其计算方法为:
Figure FDA0002764733380000021
(d)更新q值;
q值按如下方法进行更新:
Figure FDA0002764733380000022
其中,β为模糊Q学习的学习速率,ΔQt为Q函数增量;
Figure FDA0002764733380000023
为在第t个决策时刻,第i个规则对应的第j个信道的q值;
ΔQt=Rt/NS+χV(b)-Q(b,a(b))
Rt为在第t个决策时刻,非授权用户执行所选动作所获得的奖赏,其中χ为折扣因子;V(b)为三个规则执行最佳动作可获得的平均Q值的加权平均值,其计算方法为:
Figure FDA0002764733380000024
其中,
Figure FDA0002764733380000025
为规则i中Q值最大的NS个信道的Q值的平均值,其计算方法为:
Figure FDA0002764733380000026
Figure FDA0002764733380000027
为规则i中Q值最大的NS个感知信道组成的感知信道集中第k个信道的Q值;
Q(b,a(b))为各个规则所选择的动作中可获得的平均Q值的加权平均值,其计算方法为:
Figure FDA0002764733380000028
其中,
Figure FDA0002764733380000029
为规则i中所选择的NS个感知信道的Q值的平均值,其计算方法为:
Figure FDA00027647333800000210
Figure FDA00027647333800000211
为规则i中所选择的NS个感知信道组成的感知信道集中第k个信道的Q值;
(e)在非授权用户决策期间循环执行(a)~(d)的步骤;
(2)、信道状态学习过程
非授权用户在最佳感知信道学习过程中所选择的频谱感知信道集作为最佳感知信道学习过程的输出以及信道状态学习过程的输入;然后,非授权用户在信道状态学习过程中,对在最佳感知信道学习过程选择的频谱感知信道集中的信道状态进行判断,在此过程中,非授权用户通过不断的学习,最终获得信道的真实状态;频谱感知信道集中信道的真实状态作为信道状态学习过程的输出,并且反馈给最佳感知信道学习过程作为信道状态学习过程的输入。
2.根据权利要求1所述的动态频谱接入系统中最佳感知信道选择方法,其特征在于所述步骤(1)中,在动态频谱接入系统中包含个N个授权频段,表示为N={1,2,…,j,…,N};非授权用户能够在任意给定的时间同时感知NS个授权频段,NS<N。
3.根据权利要求1所述的动态频谱接入系统中最佳感知信道选择方法,其特征在于所述步骤(1)中,非授权用户最佳感知信道学习过程包括如下元素:状态,动作及奖赏;
所述状态是连续的,用感知信道的空闲概率来表征,即
Figure FDA0002764733380000031
Figure FDA0002764733380000032
为信道j为空闲状态的概率;
所述动作为选择其为感知信道或者不选择其为感知信道,即At={A1,A2,…,Aj,…AN},其中,Aj=[0,1],Aj=0表示信道j未被选为感知信道;Aj=1表示信道j被选为感知信道;
所述奖赏表示为Rt,为其选择的感知信道集中空闲信道数量的总和。
4.根据权利要求1所述的动态频谱接入系统中最佳感知信道选择方法,其特征在于所述步骤(2)中的信道状态由授权用户以及恶意攻击者决定,信道状态包括以下几个状态:
(a)授权用户使用信道,恶意攻击者攻击信道;
(b)授权用户使用信道,恶意攻击者没有攻击信道;
(c)授权用户没有使用信道,恶意攻击者攻击信道;
(d)授权用户没有使用信道,恶意攻击者没有攻击信道;
当信道的状态处于(a)、(b)、(c)所表示的状态时,信道处于不可用状态;当信道状态处于(d)所表示的状态是,信道为空闲信道即可用信道。
5.根据权利要求1所述的动态频谱接入系统中最佳感知信道选择方法,其特征在于所述步骤(2)中的信道状态由步骤(c)所述的空闲概率来表征。
CN201810410210.6A 2018-05-02 2018-05-02 动态频谱接入系统中最佳感知信道选择方法 Expired - Fee Related CN108809452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810410210.6A CN108809452B (zh) 2018-05-02 2018-05-02 动态频谱接入系统中最佳感知信道选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810410210.6A CN108809452B (zh) 2018-05-02 2018-05-02 动态频谱接入系统中最佳感知信道选择方法

Publications (2)

Publication Number Publication Date
CN108809452A CN108809452A (zh) 2018-11-13
CN108809452B true CN108809452B (zh) 2021-04-06

Family

ID=64093653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810410210.6A Expired - Fee Related CN108809452B (zh) 2018-05-02 2018-05-02 动态频谱接入系统中最佳感知信道选择方法

Country Status (1)

Country Link
CN (1) CN108809452B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109861773B (zh) * 2019-03-01 2021-05-07 军事科学院系统工程研究院网络信息研究所 一种基于在线学习的多用户多信道网络动态频谱接入方法
CN110536480B (zh) * 2019-09-24 2021-06-22 京信通信系统(中国)有限公司 频谱管理方法、装置、计算机设备和存储介质
CN111211831A (zh) * 2020-01-13 2020-05-29 东方红卫星移动通信有限公司 一种多波束低轨卫星智能动态信道资源分配方法
CN111225380A (zh) * 2020-01-13 2020-06-02 东方红卫星移动通信有限公司 一种空天地海一体化多用户协作学习动态接入方法
CN112637914B (zh) * 2020-12-10 2023-04-07 天津(滨海)人工智能军民融合创新中心 在双通道环境下基于dqn算法的信道切换系统及方法
CN113316174B (zh) * 2021-05-26 2022-07-08 重庆邮电大学 一种非授权频谱智能接入方法
CN113572500B (zh) * 2021-06-25 2022-09-02 西安电子科技大学 一种混合贪婪和禁忌搜索策略的noma多用户检测算法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101466111A (zh) * 2009-01-13 2009-06-24 中国人民解放军理工大学通信工程学院 基于政策规划约束q学习的动态频谱接入方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105515698B (zh) * 2015-11-25 2017-11-07 宁波大学 基于动态调整的多频段协作频谱感知方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101466111A (zh) * 2009-01-13 2009-06-24 中国人民解放军理工大学通信工程学院 基于政策规划约束q学习的动态频谱接入方法

Also Published As

Publication number Publication date
CN108809452A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108809452B (zh) 动态频谱接入系统中最佳感知信道选择方法
Liang et al. Spectrum sharing in vehicular networks based on multi-agent reinforcement learning
Wang et al. Learn to compress CSI and allocate resources in vehicular networks
CN109947740B (zh) 区块链系统的性能优化方法及装置
Shi et al. How to Attack and Defend NextG Radio Access Network Slicing with Reinforcement Learning
Tlouyamma et al. Channel selection algorithm optimized for improved performance in cognitive radio networks
Balieiro et al. A multi-objective genetic optimization for spectrum sensing in cognitive radio
CN110868723B (zh) 一种基于功率方差比较的多频带迭代频谱感知方法
Eisen et al. Large scale wireless power allocation with graph neural networks
Lai et al. CQI-based interference detection and resource allocation with QoS provision in LTE-U systems
Montana et al. Optimizing parameters of a mobile ad hoc network protocol with a genetic algorithm
Cohen et al. Calibrating AI models for wireless communications via conformal prediction
CN108449151B (zh) 一种基于机器学习的认知无线电网络中频谱接入方法
Thien et al. A transfer games actor–critic learning framework for anti-jamming in multi-channel cognitive radio networks
Yadav et al. Deep Q-network based reinforcement learning for distributed dynamic spectrum access
Ye et al. Genetic spectrum assignment model with constraints in cognitive radio networks
Malon et al. Q-learning based radio channels utility evaluation algorithm for the local dynamic spectrum management in mobile ad-hoc networks
CN113467903B (zh) 一种面向能耗与安全感知的服务工作流调度方法
Bizhani et al. Joint admission control and channel selection based on multi response learning automata (MRLA) in cognitive radio networks
Tong et al. Qoe-fairness tradeoff scheme for dynamic spectrum allocation based on deep reinforcement learning
Li et al. Learning to Transmit with Provable Guarantees in Wireless Federated Learning
Zhang et al. Experience-driven wireless D2D network link scheduling: A deep learning approach
Chen et al. A Dueling Deep Recurrent Q‐Network Framework for Dynamic Multichannel Access in Heterogeneous Wireless Networks
Noh et al. Stochastic multichannel sensing for cognitive radio systems: Optimal channel selection for sensing with interference constraints
Sun et al. Deep Reinforcement Learning for Energy Minimization in Multi-RIS-Aided Cell-Free MEC Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210406