CN114554497A - 基于lstm优化dqn网络的多约束频谱分配方法 - Google Patents

基于lstm优化dqn网络的多约束频谱分配方法 Download PDF

Info

Publication number
CN114554497A
CN114554497A CN202210271164.2A CN202210271164A CN114554497A CN 114554497 A CN114554497 A CN 114554497A CN 202210271164 A CN202210271164 A CN 202210271164A CN 114554497 A CN114554497 A CN 114554497A
Authority
CN
China
Prior art keywords
frequency band
network
devices
spectrum allocation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210271164.2A
Other languages
English (en)
Inventor
齐佩汉
郭昊
王丹洋
张正宇
孟永超
李赞
关磊
周小雨
李鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210271164.2A priority Critical patent/CN114554497A/zh
Publication of CN114554497A publication Critical patent/CN114554497A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/24Negotiating SLA [Service Level Agreement]; Negotiating QoS [Quality of Service]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于LSTM优化DQN网络的多约束频谱分配方法,在前处理阶段获取系统内各项设备参数指标与频段资源数据并计算各功能矩阵;初始化DQN网络并完成前期预处理结果与网络元素的映射;设置仿真阶段数episode并记为e,将网络的训练过程分为多个e;更新搜索概率pt;在集中式分配的基础上采用局部分布方式依次对环境内设备Di进行动作,即频段的选取工作,并最终汇总为整体动作at;整体网络迭代学习;收集并更新历史最优整体动作at,并将其作为最优的频谱分配方案输出,将依次为各设备分给具体频段资源。本发明在满足不同设备优先顺序的约束下,对允许资源复用的无模型随机环境内所有设备各项信息进行综合分析。

Description

基于LSTM优化DQN网络的多约束频谱分配方法
技术领域
本发明属于电磁频谱相关通信技术,具体涉及一种基于LSTM优化DQN网络的多约束频谱分配方法。
背景技术
联合作战是未来信息化战争的基本作战形式,各种力量通过科学合理的编组,可形成功能互补,发挥出最大的作战效能。随着科学技术的迅猛发展,未来战争的作战区域已经由陆、海、空三维战场扩展到了陆、海、空、天、电磁等多维战场空间;而大量通信、雷达、电子战设备甚至电磁脉冲设备,在短时间内大批量投入战场,必定会在区域战场内形成极为复杂的电磁环境,极有可能会造成设备间干扰问题严重或大量设备无法分配可用频段进而出现瘫痪的情况;因此,联合作战要求指挥体系能够在极短的时间内,根据整个战场态势的变化,对遍布各个空间的战场资源进行统一协调、规划,并进行调度,从而使战场电磁等资源高效地运转,最终实现联合作战的目标。由此看来,电磁频谱资源的合理分配在信息化战场上已经成为了我方制电磁权、制信息权的重要参考指标,会极大地影响我方战事的最终结果,然而伴随着人工智能领域技术的不断提高,利用该领域知识解决频谱资源分配问题已经有了部分研究成果。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于LSTM优化DQN网络的多约束频谱分配方法。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供一种基于LSTM优化DQN网络的多约束频谱分配方法,该方法包括:
在前处理阶段获取系统内各项设备参数指标与频段资源数据并计算各功能矩阵;
初始化DQN网络并完成前期预处理结果与网络元素的映射;
设置仿真阶段数episode并记为e,将网络的训练过程分为多个e;
更新搜索概率pt
在集中式分配的基础上采用局部分布方式依次对环境内设备Di进行动作,即频段的选取工作,并最终汇总为整体动作at
整体网络迭代学习;
收集并更新历史最优整体动作at,并将其作为最优的频谱分配方案输出,将依次为各设备分给具体频段资源。
上述方案中,所述在前处理阶段获取系统内各项参数指标与频段资源数据,具体为:当前可用频段总长度为F,F∈[fmin,fmax],区域内全部设备Di的内部信息,如工作频段、带宽、时间、部署位置等信息,i=1,2,3,...,m,总频段F内被限制使用的保护频段fi及其位置Li与时间ti情况,i=1,2,3,...,r,不同设备间的频段使用优先级别情况Pi,i=1,2,3,...,p,当前频段占用情况Oi,其中Oi为一数组,以0和1记录频段F内观测频点的占用情况;
所述计算各功能矩阵,具体为:所述各功能矩阵包括可用频段矩阵Ma和干扰矩阵Mi,其中干扰判别涉及到的自由空间损耗公式如下所示:LS=32.45+20lnf+20lnd;
计算干扰矩阵Mi,根据所述设备Di的信息得到其可工作频段与工作带宽,从而将可用频段F分为k个子频段并给予其特定的频段号ki,进而生成一个m行 k列的,针对所有设备的可用频段矩阵Ma,矩阵元素均为二元,即由0代表设备 Di在该频段不可用,而1则代表Di在该频段可用,其中,在生成Ma各元素时,确定可用频段是否与环境内限制时间、区域重叠,如果重叠,将被判定为不可用,根据整体频段的占用情况,如果频段已被占用,则同样被判定为不可用;
计算干扰矩阵Mi,根据所述设备Di的信息得到其发射功率与接收机灵敏度,根据可用频段矩阵Ma产生一个m×m×k的三维干扰矩阵Mi,其中元素同样为二元,在固定某频段时,如果对设备Di,满足下方自由空间损耗公式,同时两设备工作时间有所重叠,则此时元素设置为1,即为产生干扰,否则设为0,不干扰,自由空间损耗公式如下所示:LS=32.45+20lnf+20lnd,其中,空间损耗LS的单位为dB,f为设备的使用频率,单位为MHz,d为设备间的距离,单位为km,当设备的发射功率经过衰减后的值仍大于另一设备的接收灵敏度时,则判定两设备存在干扰情况。
上述方案中,所述完成前期预处理结果与网络元素的映射,具体为:动作at即为设备在某时刻下选择的具体频段情况,并作为后续步骤整体方案的组成部分;状态st则为用户选择的动作、全频段的复用情况及表示分配成功与否的0/1 信号等三部分共同组成的行向量;奖励rt则是与所有设备选择动作后得到的整体方案中失败设备与整体设备之比相关的函数,其定义如下:
Figure RE-GDA0003602950920000031
Figure RE-GDA0003602950920000032
其中,α和p分别代表设备i的权重系数与优先级情况。
上述方案中,所述更新搜索概率pt,具体为:
Figure RE-GDA0003602950920000033
其中, pt为某时刻的搜索概率,pstart与pend分别为起始与终止的搜索概率,rdecay为其衰减速度。
上述方案中,所述在集中式分配的基础上采用局部分布方式依次对环境内设备Di进行动作,即频段的选取工作,并最终汇总为整体动作at,具体为:通信环境内各待分配设备Di依照搜索概率pt进行at的判断选择;将历史状态数据 st送入LSTM网络学习长距离依赖关系,即对输入的历史数据进行有选择性地保留或遗忘;Q网络根据输出数据获取相应值Qt,以此选择动作at,并结合环境获得相应的奖励rt,此时环境状态转移至st+1,同时将当前时刻的各项元素以 (st,at,rt,st+1)的形式组合起来存放在经验回放池中。
上述方案中,所述通信环境内各待分配设备Di依照搜索概率pt进行at的判断选择,具体为:各待分配设备Di依照搜索概率pt进行动作at,即具体可用频段的判断选择,引入随机量rconst,若pt≥rconst,在Ma中对应的可用频段中随机选择;若不满足以上条件,则需根据状态观测值对应的最大Q值进行选择,其公式如下所示:at=argmaxaQ(φ(st),ai;θ)。
上述方案中,所述Q网络根据输出数据获取相应值Qt,以此选择动作at,并结合环境获得相应的奖励rt,此时环境状态转移至st+1,同时将当前时刻的各项元素以(st,at,rt,st+1)的形式组合起来存放在经验回放池中,具体为:将LSTM网络输出的阶段性数据作为整体网络后续全连接部分的输入数据并依此进行Q值计算,设备Di的每个可选频段均有一个Q值与其对应;根据规则选择该时刻的动作,即频段方案ai;在本时刻所有设备均完成动作选取后,将所有动作ai组成整体动作at,根据下方所示公式与状态情况获得最终奖励rt
Figure RE-GDA0003602950920000041
Figure RE-GDA0003602950920000042
环境内各设备Di根据所述动作更新整体频段使用情况及本次动作选取导致的分配成功与否的信号标识,进一步更新其自身未来时刻的状态 st+1;将当前时刻与未来时刻所有设备Di的状态分别组合为整体的st和st+1,并将这两项数据与整体动作方案的at和奖励rt合并存入经验回放池中。
上述方案中,所述整体网络迭代学习,具体为:从经验回放池的历史数据中随机抽取数目为batch_size的小样本batch并记为bi,每个样本bi均为形如步骤7.5中四项数据组成的数据体;对每个样本bi,依次对抽取其内部
Figure RE-GDA0003602950920000043
Figure RE-GDA0003602950920000044
等信息;将多个样本bi中的状态
Figure RE-GDA0003602950920000048
进行组合并作为网络输入,在得到的众多Q 值中选择与设备所选频段动作
Figure RE-GDA0003602950920000049
对应的值
Figure RE-GDA0003602950920000045
对样本bi,Q网络将计算出未来时刻状态
Figure RE-GDA0003602950920000046
可能涉及的Q值的最大值,并利用公式
Figure RE-GDA0003602950920000047
计算出目标Q值;通过目标Q值与当前Q值利用公式
Figure RE-GDA0003602950920000051
计算网络的损失值并更新网络参数;其中,Nb为 batch_size,意为每个批次抽取的样本数量;重复上述步骤,直至学习过程结束,生成结果。
与现有技术相比,本发明提供的基于LSTM优化DQN网络的多约束频谱分配技术,利用人工智能方法,收集与整理区域内无模型的随机环境及随机设备等各项数据,丰富了复杂实用场景的可行性,在满足不同设备优先顺序的约束下,对允许资源复用的无模型随机环境内所有设备各项信息进行综合分析,在提高设备正常接入数量的前提下,逐渐减少环境内所产生的干扰,最终产生有广泛适应性的最优化频谱分配方案;本发明提出的方法针对不同的任务场景有良好的广泛应用性,同时符合战场设备的实际参数架构,是一种符合实际的高效、快速、干扰程度低的频谱分配方法。
附图说明
此处所说明的附图用来公开对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明全部过程的流程示意图;
图2是整体DQRN网络的基本构型图;
图3是本发明实施例中各(模拟)设备内部数据情况图;
图4是本发明实施例中外部限制条件情况图;
图5是本发明算法产生的结果图;
图6是本发明相比于基本DQN网络的提升对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、物品或者装置中还存在另外的相同要素。
本发明提供了一种基于LSTM优化DQN网络的多约束频谱分配方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明对区域战场环境下分配频段的步骤如下:
步骤1,利用如图3、图4所示数据,在前处理阶段获取系统内各项数据并计算各功能矩阵:
步骤1.1:获取各项参数指标。其中,当前可用频段总长度为F, F∈[fmin,fmax]。区域内全部设备Di的内部信息,如工作频段、带宽、时间、部署位置等信息,i=1,2,3,...,m。总频段F内被限制使用的保护频段fi及其位置Li与时间ti情况,i=1,2,3,...,r。不同设备间的频段使用优先级别情况Pi,i=1,2,3,...,p。当前频段占用情况Oi,其中Oi为一数组,以0和1记录频段F内观测频点的占用情况;
步骤1.2:计算可用频段矩阵Ma。根据步骤1获得的设备Di的信息得到其可工作频段与工作带宽,从而将可用频段F或分为k个子频段并给予其特定的频段号ki,进而生成一个m行k列的,针对所有设备的可用频段矩阵Ma,矩阵元素均为二元,即由0代表设备Di在该频段不可用,而1则代表Di在该频段可用。
其中,在生成Ma各元素时,需要同时考虑其可用频段是否与环境内限制时间、区域重叠,如果重叠,同样将被判定为不可用。整体频段的占用情况,如果频段已被占用,则同样被判定为不可用;
步骤1.3:计算干扰矩阵Mi。根据设备Di的信息得到其发射功率与接收机灵敏度,从而可根据可用频段矩阵Ma产生一个m×m×k的三维干扰矩阵Mi,其中元素同样为二元。在固定某频段时,如果对设备Di,满足下方自由空间损耗公式,同时两设备工作时间有所重叠,则此时元素设置为1,即为产生干扰,否则设为0,不干扰。自由空间损耗公式如下所示:
LS=32.45+20lnf+20lnd
其中,空间损耗LS的单位为dB,f为设备的使用频率,单位为MHz,d为设备间的距离,单位为km。当设备的发射功率经过衰减后的值仍大于另一设备的接收灵敏度时,则判定两设备存在干扰情况。
步骤2,初始化结构中的DRQN网络并完成前期预处理结果与网络元素的映射:
步骤2.1:对经验回放池(Experience Replay)进行初始化,对其容量大小进行赋值;
步骤2.2:对影响动作at选择的Q值网络Q-Network进行初始化,并赋予其参数θ;
步骤2.3:如图2所示将LSTM网络嵌入到整体网络中形成DRQN网络,以便利用LSTM网络合理解决长时期信息带来的性能消耗与依赖问题;
其中,LSTM网络设计了三类“门”的概念,通过各个门的协同工作实现对网络中不同时期信息的合理处理。其中,门的输入是一个向量,而输出是一个0 到1之间的实数向量,可表示为:
g(x)=σ(Wx+b)
其中,W是门的权重向量,b是偏置项,σ为Sigmoid函数。LSTM网络的三类内部门结构分别为;
(1)输入门(input gate):控制当前时刻需要保存到单元状态ct的输入数据xt的规模,其作用函数如下所示:
Figure RE-GDA0003602950920000071
it=σ(Wi[ht-1,xt]+bi)
Figure RE-GDA0003602950920000072
(2)遗忘门(forget gate):控制t-1时刻单元状态ct-1到t时刻单元状态ct的保留程度,决定某部分数据是否可被LSTM系统所舍弃,其作用函数如下所示;
ft=σ(Wf[ht-1,xt]+bf)
(3)输出门(output gate):控制t时刻单元状态ct可成功在当前时刻的输出值ht中保存规模,其作用函数如下所示;
Ot=σ(Wo[ht-1,xt]+bo)
ht=Ot*tanh(Ct)
步骤2.5:将前期预处理结果和其他频谱分配相关概念与网络元素相映射,其中,动作at即为设备在某时刻下选择的具体频段情况,并作为后续步骤整体方案的组成部分;状态st则为用户选择的动作、全频段的复用情况及表示分配成功与否的0/1信号等三部分共同组成的行向量;奖励rt则是与所有设备选择动作后得到的整体方案中失败设备与整体设备之比相关的函数,其定义如下:
Figure RE-GDA0003602950920000081
Figure RE-GDA0003602950920000082
其中,α和p分别代表设备i的权重系数与优先级情况。
步骤3,设置仿真阶段数episode并记为e。为充分地反映网络不断优化的过程,DQN算法一般将网络的训练过程分为多个e,以下步骤均限制在e中进行;
步骤4,更新搜索概率pt。其中搜索概率pt的定义如下:
Figure RE-GDA0003602950920000083
其中,pt为某时刻的搜索概率,pstart与pend分别为起始与终止的搜索概率, rdecay为其衰减速度。由上式可知,搜索概率随训练次数增长而逐渐下降。
自步骤5至步骤7,以下步骤将在集中式分配的基础上采用局部分布方式依次对环境内设备Di进行动作,即频段的选取工作,并最终汇总为整体动作at
步骤5,用频环境内各待分配设备Di依照搜索概率pt进行判断的选择:
步骤5.1:各待分配设备Di依照搜索概率pt进行动作at,即具体可用频段的判断选择。为保证灵活性,引入随机量rconst。若pt≥rconst,则可在Ma中对应的可用频段中随机选择;
步骤5.2:若不满足以上条件,则需根据状态观测值对应的最大Q值进行选择,其公式如下所示:
at=argmaxaQ(φ(st),ai;θ)
步骤6,获取历史数据并交由LSTM网络处理:
步骤6.1,设置变量step_size并记为Nstep,将t,t-1,...,t-Nstep+1等时刻的一段历史状态st数据作为步骤2中在整体网络中搭建的LSTM网络的输入并获取阶段结果output。其中输出output代表了LSTM结构中的ht数据,其决定了应当选择性地保留或遗忘某些长期数据,从而一定程度上提升算法处理性能;
步骤7,获取Q值并转移状态:
步骤7.1:将步骤6.1中LSTM网络输出的阶段性数据作为整体网络后续全连接部分的输入数据并依此进行Q值计算,设备Di的每个可选频段均有一个Q值与其对应;
步骤7.2:根据步骤5中所示规则选择此时刻的动作,即频段方案ai
步骤7.3:在本时刻所有设备均完成动作选取后,将所有动作ai组成整体动作at,根据下方所示公式与状态情况获得最终奖励rt
Figure RE-GDA0003602950920000091
Figure RE-GDA0003602950920000092
步骤7.4:环境内各设备Di根据步骤7.3中所得动作更新整体频段使用情况及本次动作选取导致的分配成功与否的信号标识,进一步更新其自身未来时刻的状态st+1
步骤7.5:将当前时刻与未来时刻所有设备Di的状态分别组合为整体的st和st+1,并将这两项数据与7.3中整体动作方案的at和奖励rt合并存入经验回放池中;
自步骤8开始,整体网络迭代学习:
步骤8.1:从经验回放池的历史数据中随机抽取数目为batch_size的小样本batch并记为bi,每个样本bi均为形如步骤7.5中四项数据组成的数据体;
步骤8.2:对每个样本bi,依次对抽取其内部
Figure RE-GDA0003602950920000101
等信息;
步骤8.3:将上一步获取的多个样本bi中的状态
Figure RE-GDA0003602950920000102
进行组合并作为网络输入,在得到的众多Q值中选择与设备所选频段动作
Figure RE-GDA0003602950920000103
对应的值
Figure RE-GDA0003602950920000104
步骤9,计算目标Q值。对步骤8.2中的样本bi,Q网络将计算出未来时刻状态
Figure RE-GDA0003602950920000105
可能涉及的Q值的最大值,并利用公式
Figure RE-GDA0003602950920000106
计算出目标Q值;
步骤10,通过以上步骤获取的目标Q值与当前Q值利用公式
Figure RE-GDA0003602950920000107
计算网络的损失值并更新网络参数;
其中,Nb为batch_size,意为每个批次抽取的样本数量。
步骤11,重复上述步骤,直至学习过程结束,生成如图5所示结果;
由图5所示,本方法预处理阶段将全频段资源按照图3中设备间最大工作带宽作为切割标尺,将40MHz的整体频段资源分配8段,由于实施例数据设置了设备间相互干扰且可相互争夺资源的极端状态,因此预期最优结果必须为每个设备均独占一个频段号,即独占一块5MHz的频段资源,最终经本发明方法多产生的多个结果均与预期结果相符,在此结果下,所有设备均完成接入并最大限度地降低了整体环境的干扰情况。
步骤12,收集并更新历史最优整体动作at,并将其作为最优的频谱分配方案输出,将依次为各设备分给具体频段资源。
由于在步骤11的学习过程中的各时刻均会产生一个整体动作at,即整体分配方案,且不排除多个不同时刻的at即可成为最优解,因此在步骤12中,需收集并更新综合奖励值最高的历史整体动作,即作为输出给决策层的最佳方案,最终由决策部门综合评定后将at中位置与某设备对应的频段分配给该设备。
针对利用LSTM优化的DQN网络性能,如图6反映了其与基本DQN网络得到结果的性能与时间对比曲线图。
仿真条件
如图3、图4所示,现假设整个频谱环境内需要被分配频率的设备总数Di为 8,并使各设备间能共同选择8个频段,增大系统内冲突效果。同时,其余参数如下所示:
(1)迭代次数共100000次,每5000次为1次episode,将展示1次优化曲线;
(2)基本DQN中神经网络的隐藏层设置为128,利用ReLu函数作为整体的激活函数;
(3)batch_size设为16;
(4)LSTM网络的隐藏层设置为96,step_size设置为15;
(5)经验回放池Experience Replay的容量设为3000;
(6)探索概率explore_p的值pt随迭代次数t的增长逐渐由0.5衰减为 0.1;
(7)学习率为0.01;
(8)折扣因子γ为0.02;
仿真结果
如图5所示,本方法在仿真数据指定设备间相互干扰的情况下,为各设备进行了唯一频段的分配,最大限度地减少了整体干扰并提升了分配成功的设备数量,基本解决了复杂场景下有优先级多约束场景的分配问题,达到了预期结果。而在图6中,无论是LSTM_DQN亦或是基本DQN算法,其整体累积分配失败数量均呈下降状态,经由多次学习,两算法分别将用户累计分配失败个数下降至4100 与5000左右。对整体学习效果而言,两算法都能够成功解决本文设置的模拟战场环境下构建的资源环境模型的频谱分配问题,但总体上基于LSTM优化的网络对数据的处理更好,且最终整体提升效率在18%左右。而在所耗时间问题中,基于LSTM优化的DQN架构,其收敛时间基本处于episode阶段为10的情况,相较于基础DQN架构,本发明所示结果有针对收敛时间领先3个episode阶段,且在优化过程中,前者也基本保持着2到3个episode的领先优势,说明理论设计中LSTM 的快速性功能基本实现。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (8)

1.一种基于LSTM优化DQN网络的多约束频谱分配方法,其特征在于,该方法包括:
在前处理阶段获取系统内各项设备参数指标与频段资源数据并计算各功能矩阵;
初始化DQN网络并完成前期预处理结果与网络元素的映射;
设置仿真阶段数episode并记为e,将网络的训练过程分为多个e;
更新搜索概率pt
在集中式分配的基础上采用局部分布方式依次对环境内设备Di进行动作,即频段的选取工作,并最终汇总为整体动作at
整体网络迭代学习;
收集并更新历史最优整体动作at,并将其作为最优的频谱分配方案输出,将依次为各设备分给具体频段资源。
2.根据权利要求1所述的基于LSTM优化DQN网络的多约束频谱分配方法,其特征在于,所述在前处理阶段获取系统内各项参数指标与频段资源数据,具体为:当前可用频段总长度为F,F∈[fmin,fmax],区域内全部设备Di的内部信息,如工作频段、带宽、时间、部署位置等信息,i=1,2,3,...,m,总频段F内被限制使用的保护频段fi及其位置Li与时间ti情况,i=1,2,3,...,r,不同设备间的频段使用优先级别情况Pi,i=1,2,3,...,p,当前频段占用情况Oi,其中Oi为一数组,以0和1记录频段F内观测频点的占用情况。
所述计算各功能矩阵,具体为:所述各功能矩阵包括可用频段矩阵Ma和干扰矩阵Mi,其中干扰判别涉及到的自由空间损耗公式如下所示:
LS=32.45+20lnf+20lnd;
计算干扰矩阵Mi,根据所述设备Di的信息得到其可工作频段与工作带宽,从而将可用频段F分为k个子频段并给予其特定的频段号ki,进而生成一个m行k列的,针对所有设备的可用频段矩阵Ma,矩阵元素均为二元,即由0代表设备Di在该频段不可用,而1则代表Di在该频段可用,其中,在生成Ma各元素时,确定可用频段是否与环境内限制时间、区域重叠,如果重叠,将被判定为不可用,根据整体频段的占用情况,如果频段已被占用,则同样被判定为不可用;
计算干扰矩阵Mi,根据所述设备Di的信息得到其发射功率与接收机灵敏度,根据可用频段矩阵Ma产生一个m×m×k的三维干扰矩阵Mi,其中元素同样为二元,在固定某频段时,如果对设备Di,满足下方自由空间损耗公式,同时两设备工作时间有所重叠,则此时元素设置为1,即为产生干扰,否则设为0,不干扰,自由空间损耗公式如下所示:LS=32.45+20lnf+20lnd,其中,空间损耗LS的单位为dB,f为设备的使用频率,单位为MHz,d为设备间的距离,单位为km,当设备的发射功率经过衰减后的值仍大于另一设备的接收灵敏度时,则判定两设备存在干扰情况。
3.根据权利要求1或2所述的基于LSTM优化DQN网络的多约束频谱分配方法,其特征在于,所述完成前期预处理结果与网络元素的映射,具体为:动作at即为设备在某时刻下选择的具体频段情况,并作为后续步骤整体方案的组成部分;状态st则为用户选择的动作、全频段的复用情况及表示分配成功与否的0/1信号等三部分共同组成的行向量;奖励rt则是与所有设备选择动作后得到的整体方案中失败设备与整体设备之比相关的函数,其定义如下:
Figure FDA0003553311650000021
Figure FDA0003553311650000022
其中,α和p分别代表设备i的权重系数与优先级情况。
4.根据权利要求3所述的基于LSTM优化DQN网络的多约束频谱分配方法,其特征在于,所述更新搜索概率pt,具体为:
Figure FDA0003553311650000023
其中,pt为某时刻的搜索概率,pstart与pend分别为起始与终止的搜索概率,rdecay为其衰减速度。
5.根据权利要求4所述的基于LSTM优化DQN网络的多约束频谱分配方法,其特征在于,所述在集中式分配的基础上采用局部分布方式依次对环境内设备Di进行动作,即频段的选取工作,并最终汇总为整体动作at,具体为:通信环境内各待分配设备Di依照搜索概率pt进行at的判断选择;将历史状态数据st送入LSTM网络学习长距离依赖关系,即对输入的历史数据进行有选择性地保留或遗忘;Q网络根据输出数据获取相应值Qt,以此选择动作at,并结合环境获得相应的奖励rt,此时环境状态转移至st+1,同时将当前时刻的各项元素以(st,at,rt,st+1)的形式组合起来存放在经验回放池中。
6.根据权利要求5所述的基于LSTM优化DQN网络的多约束频谱分配方法,其特征在于,所述通信环境内各待分配设备Di依照搜索概率pt进行at的判断选择,具体为:各待分配设备Di依照搜索概率pt进行动作at,即具体可用频段的判断选择,引入随机量rconst,若pt≥rconst,在Ma中对应的可用频段中随机选择;若不满足以上条件,则需根据状态观测值对应的最大Q值进行选择,其公式如下所示:at=argmaxaQ(φ(st),ai;θ)。
7.根据权利要求6所述的基于LSTM优化DQN网络的多约束频谱分配方法,其特征在于,所述Q网络根据输出数据获取相应值Qt,以此选择动作at,并结合环境获得相应的奖励rt,此时环境状态转移至st+1,同时将当前时刻的各项元素以(st,at,rt,st+1)的形式组合起来存放在经验回放池中,具体为:将LSTM网络输出的阶段性数据作为整体网络后续全连接部分的输入数据并依此进行Q值计算,设备Di的每个可选频段均有一个Q值与其对应;根据规则选择该时刻的动作,即频段方案ai;在本时刻所有设备均完成动作选取后,将所有动作ai组成整体动作at,根据下方所示公式与状态情况获得最终奖励rt
Figure FDA0003553311650000031
Figure FDA0003553311650000032
环境内各设备Di根据所述动作更新整体频段使用情况及本次动作选取导致的分配成功与否的信号标识,进一步更新其自身未来时刻的状态st+1;将当前时刻与未来时刻所有设备Di的状态分别组合为整体的st和st+1,并将这两项数据与整体动作方案的at和奖励rt合并存入经验回放池中。
8.根据权利要求7所述的基于LSTM优化DQN网络的多约束频谱分配方法,其特征在于,所述整体网络迭代学习,具体为:从经验回放池的历史数据中随机抽取数目为batch_size的小样本batch并记为bi,每个样本bi均为形如步骤7.5中四项数据组成的数据体;对每个样本bi,依次对抽取其内部
Figure FDA0003553311650000041
等信息;将多个样本bi中的状态
Figure FDA0003553311650000042
进行组合并作为网络输入,在得到的众多Q值中选择与设备所选频段动作
Figure FDA0003553311650000043
对应的值
Figure FDA0003553311650000044
对样本bi,Q网络将计算出未来时刻状态
Figure FDA0003553311650000045
可能涉及的Q值的最大值,并利用公式
Figure FDA0003553311650000046
计算出目标Q值;通过目标Q值与当前Q值利用公式
Figure FDA0003553311650000047
计算网络的损失值并更新网络参数;其中,Nb为batch_size,意为每个批次抽取的样本数量;重复上述步骤,直至学习过程结束,生成结果。
CN202210271164.2A 2022-03-18 2022-03-18 基于lstm优化dqn网络的多约束频谱分配方法 Pending CN114554497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210271164.2A CN114554497A (zh) 2022-03-18 2022-03-18 基于lstm优化dqn网络的多约束频谱分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210271164.2A CN114554497A (zh) 2022-03-18 2022-03-18 基于lstm优化dqn网络的多约束频谱分配方法

Publications (1)

Publication Number Publication Date
CN114554497A true CN114554497A (zh) 2022-05-27

Family

ID=81665357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210271164.2A Pending CN114554497A (zh) 2022-03-18 2022-03-18 基于lstm优化dqn网络的多约束频谱分配方法

Country Status (1)

Country Link
CN (1) CN114554497A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114980254A (zh) * 2022-08-02 2022-08-30 中国人民解放军国防科技大学 基于决斗深度循环q网络的动态多信道接入方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114980254A (zh) * 2022-08-02 2022-08-30 中国人民解放军国防科技大学 基于决斗深度循环q网络的动态多信道接入方法和装置
CN114980254B (zh) * 2022-08-02 2022-10-25 中国人民解放军国防科技大学 基于决斗深度循环q网络的动态多信道接入方法和装置

Similar Documents

Publication Publication Date Title
CN108388958B (zh) 一种二维姿态机动卫星任务规划技术研究的方法及装置
CN111538950B (zh) 一种多无人平台干扰资源分配方法
CN111783937A (zh) 一种神经网络构建方法以及系统
CN111313957B (zh) 基于分类多目标优化的混合卫星通信系统资源分配方法
CN114554497A (zh) 基于lstm优化dqn网络的多约束频谱分配方法
CN113608546A (zh) 量子海狮机制的无人机群任务分配方法
CN113537365A (zh) 一种基于信息熵动态赋权的多任务学习自适应平衡方法
CN114841055A (zh) 一种基于生成对抗网络的无人机集群任务预分配方法
CN113869615B (zh) 一种基于目标态势感知的干扰资源调度优化方法及装置
CN114049242A (zh) 一种基于深度强化学习的武器目标智能分配方法
CN112149805B (zh) 基于框架搜索的深度神经网络的加速与压缩方法及系统
Aref et al. Robust deep reinforcement learning for interference avoidance in wideband spectrum
CN107995027B (zh) 改进的量子粒子群优化算法及应用于预测网络流量的方法
CN116563683A (zh) 一种基于卷积神经网络和多层感知机的遥感影像场景分类方法
CN113657592B (zh) 一种软件定义卫星自适应剪枝模型压缩方法
CN116505998A (zh) 基于深度强化学习的多波束卫星通信资源分配系统及方法
Helmi et al. Recent advances of nature-inspired metaheuristic optimization
CN114337875A (zh) 面向多辐射源追踪的无人机群飞行轨迹优化方法
CN112383965B (zh) 基于drqn和多传感器模型的认知无线电功率分配方法
CN112926729B (zh) 人机对抗智能体策略制定方法
Sun et al. Multiple-preys pursuit based on biquadratic assignment problem
US20230289563A1 (en) Multi-node neural network constructed from pre-trained small networks
NAIDU et al. Particles swarm optimization techniques: principle, comparison & application
CN116824281B (zh) 一种隐私保护的图像分类方法及装置
EP4198829A1 (en) Method and device for data classification based on artificial intelligence implemented on fpga

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination