CN114554497A

CN114554497A - 基于lstm优化dqn网络的多约束频谱分配方法

Info

Publication number: CN114554497A
Application number: CN202210271164.2A
Authority: CN
Inventors: 齐佩汉; 郭昊; 王丹洋; 张正宇; 孟永超; 李赞; 关磊; 周小雨; 李鹏飞
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-05-27

Abstract

本发明公开了一种基于LSTM优化DQN网络的多约束频谱分配方法，在前处理阶段获取系统内各项设备参数指标与频段资源数据并计算各功能矩阵；初始化DQN网络并完成前期预处理结果与网络元素的映射；设置仿真阶段数episode并记为e，将网络的训练过程分为多个e；更新搜索概率p_t；在集中式分配的基础上采用局部分布方式依次对环境内设备D_i进行动作，即频段的选取工作，并最终汇总为整体动作a_t；整体网络迭代学习；收集并更新历史最优整体动作a_t，并将其作为最优的频谱分配方案输出，将依次为各设备分给具体频段资源。本发明在满足不同设备优先顺序的约束下，对允许资源复用的无模型随机环境内所有设备各项信息进行综合分析。

Description

基于LSTM优化DQN网络的多约束频谱分配方法

技术领域

本发明属于电磁频谱相关通信技术，具体涉及一种基于LSTM优化DQN网络的多约束频谱分配方法。

背景技术

联合作战是未来信息化战争的基本作战形式，各种力量通过科学合理的编组，可形成功能互补，发挥出最大的作战效能。随着科学技术的迅猛发展，未来战争的作战区域已经由陆、海、空三维战场扩展到了陆、海、空、天、电磁等多维战场空间；而大量通信、雷达、电子战设备甚至电磁脉冲设备，在短时间内大批量投入战场，必定会在区域战场内形成极为复杂的电磁环境，极有可能会造成设备间干扰问题严重或大量设备无法分配可用频段进而出现瘫痪的情况；因此，联合作战要求指挥体系能够在极短的时间内，根据整个战场态势的变化，对遍布各个空间的战场资源进行统一协调、规划，并进行调度，从而使战场电磁等资源高效地运转，最终实现联合作战的目标。由此看来，电磁频谱资源的合理分配在信息化战场上已经成为了我方制电磁权、制信息权的重要参考指标，会极大地影响我方战事的最终结果，然而伴随着人工智能领域技术的不断提高，利用该领域知识解决频谱资源分配问题已经有了部分研究成果。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于LSTM优化DQN网络的多约束频谱分配方法。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提供一种基于LSTM优化DQN网络的多约束频谱分配方法，该方法包括：

在前处理阶段获取系统内各项设备参数指标与频段资源数据并计算各功能矩阵；

初始化DQN网络并完成前期预处理结果与网络元素的映射；

设置仿真阶段数episode并记为e，将网络的训练过程分为多个e；

更新搜索概率p_t；

在集中式分配的基础上采用局部分布方式依次对环境内设备D_i进行动作，即频段的选取工作，并最终汇总为整体动作a_t；

整体网络迭代学习；

收集并更新历史最优整体动作a_t，并将其作为最优的频谱分配方案输出，将依次为各设备分给具体频段资源。

上述方案中，所述在前处理阶段获取系统内各项参数指标与频段资源数据，具体为：当前可用频段总长度为F，F∈[f_min,f_max]，区域内全部设备D_i的内部信息，如工作频段、带宽、时间、部署位置等信息，i＝1,2,3,...,m，总频段F内被限制使用的保护频段f_i及其位置L_i与时间t_i情况，i＝1,2,3,...,r，不同设备间的频段使用优先级别情况P_i，i＝1,2,3,...,p，当前频段占用情况O_i，其中O_i为一数组，以0和1记录频段F内观测频点的占用情况；

所述计算各功能矩阵，具体为：所述各功能矩阵包括可用频段矩阵M_a和干扰矩阵M_i，其中干扰判别涉及到的自由空间损耗公式如下所示：LS＝32.45+20lnf+20lnd；

计算干扰矩阵M_i，根据所述设备D_i的信息得到其可工作频段与工作带宽，从而将可用频段F分为k个子频段并给予其特定的频段号k_i，进而生成一个m行 k列的，针对所有设备的可用频段矩阵M_a，矩阵元素均为二元，即由0代表设备 D_i在该频段不可用，而1则代表D_i在该频段可用，其中，在生成M_a各元素时，确定可用频段是否与环境内限制时间、区域重叠，如果重叠，将被判定为不可用，根据整体频段的占用情况，如果频段已被占用，则同样被判定为不可用；

计算干扰矩阵M_i，根据所述设备D_i的信息得到其发射功率与接收机灵敏度，根据可用频段矩阵M_a产生一个m×m×k的三维干扰矩阵M_i，其中元素同样为二元，在固定某频段时，如果对设备D_i，满足下方自由空间损耗公式，同时两设备工作时间有所重叠，则此时元素设置为1，即为产生干扰，否则设为0，不干扰，自由空间损耗公式如下所示：LS＝32.45+20lnf+20lnd，其中，空间损耗LS的单位为dB，f为设备的使用频率，单位为MHz，d为设备间的距离，单位为km，当设备的发射功率经过衰减后的值仍大于另一设备的接收灵敏度时，则判定两设备存在干扰情况。

上述方案中，所述完成前期预处理结果与网络元素的映射，具体为：动作a_t即为设备在某时刻下选择的具体频段情况，并作为后续步骤整体方案的组成部分；状态s_t则为用户选择的动作、全频段的复用情况及表示分配成功与否的0/1 信号等三部分共同组成的行向量；奖励r_t则是与所有设备选择动作后得到的整体方案中失败设备与整体设备之比相关的函数，其定义如下：

其中，α和p分别代表设备i的权重系数与优先级情况。

上述方案中，所述更新搜索概率p_t，具体为：

其中， p_t为某时刻的搜索概率，p_start与p_end分别为起始与终止的搜索概率，r_decay为其衰减速度。

上述方案中，所述在集中式分配的基础上采用局部分布方式依次对环境内设备D_i进行动作，即频段的选取工作，并最终汇总为整体动作a_t，具体为：通信环境内各待分配设备D_i依照搜索概率p_t进行a_t的判断选择；将历史状态数据 s_t送入LSTM网络学习长距离依赖关系，即对输入的历史数据进行有选择性地保留或遗忘；Q网络根据输出数据获取相应值Q_t，以此选择动作a_t，并结合环境获得相应的奖励r_t，此时环境状态转移至s_t+1，同时将当前时刻的各项元素以 (s_t,a_t,r_t,s_t+1)的形式组合起来存放在经验回放池中。

上述方案中，所述通信环境内各待分配设备D_i依照搜索概率p_t进行a_t的判断选择，具体为：各待分配设备D_i依照搜索概率p_t进行动作a_t，即具体可用频段的判断选择，引入随机量r_const，若p_t≥r_const，在M_a中对应的可用频段中随机选择；若不满足以上条件，则需根据状态观测值对应的最大Q值进行选择，其公式如下所示：a_t＝argmax_aQ(φ(s_t),a_i；θ)。

上述方案中，所述Q网络根据输出数据获取相应值Q_t，以此选择动作a_t，并结合环境获得相应的奖励r_t，此时环境状态转移至s_t+1，同时将当前时刻的各项元素以(s_t,a_t,r_t,s_t+1)的形式组合起来存放在经验回放池中，具体为：将LSTM网络输出的阶段性数据作为整体网络后续全连接部分的输入数据并依此进行Q值计算，设备D_i的每个可选频段均有一个Q值与其对应；根据规则选择该时刻的动作，即频段方案a_i；在本时刻所有设备均完成动作选取后，将所有动作a_i组成整体动作a_t，根据下方所示公式与状态情况获得最终奖励r_t：

环境内各设备D_i根据所述动作更新整体频段使用情况及本次动作选取导致的分配成功与否的信号标识，进一步更新其自身未来时刻的状态 s_t+1；将当前时刻与未来时刻所有设备D_i的状态分别组合为整体的s_t和s_t+1，并将这两项数据与整体动作方案的a_t和奖励r_t合并存入经验回放池中。

上述方案中，所述整体网络迭代学习，具体为：从经验回放池的历史数据中随机抽取数目为batch_size的小样本batch并记为b_i，每个样本b_i均为形如步骤7.5中四项数据组成的数据体；对每个样本b_i，依次对抽取其内部

等信息；将多个样本b_i中的状态

进行组合并作为网络输入，在得到的众多Q 值中选择与设备所选频段动作

对应的值

对样本b_i，Q网络将计算出未来时刻状态

可能涉及的Q值的最大值，并利用公式

计算出目标Q值；通过目标Q值与当前Q值利用公式

计算网络的损失值并更新网络参数；其中，N_b为 batch_size，意为每个批次抽取的样本数量；重复上述步骤，直至学习过程结束，生成结果。

与现有技术相比，本发明提供的基于LSTM优化DQN网络的多约束频谱分配技术，利用人工智能方法，收集与整理区域内无模型的随机环境及随机设备等各项数据，丰富了复杂实用场景的可行性，在满足不同设备优先顺序的约束下，对允许资源复用的无模型随机环境内所有设备各项信息进行综合分析，在提高设备正常接入数量的前提下，逐渐减少环境内所产生的干扰，最终产生有广泛适应性的最优化频谱分配方案；本发明提出的方法针对不同的任务场景有良好的广泛应用性，同时符合战场设备的实际参数架构，是一种符合实际的高效、快速、干扰程度低的频谱分配方法。

附图说明

此处所说明的附图用来公开对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明全部过程的流程示意图；

图2是整体DQRN网络的基本构型图；

图3是本发明实施例中各(模拟)设备内部数据情况图；

图4是本发明实施例中外部限制条件情况图；

图5是本发明算法产生的结果图；

图6是本发明相比于基本DQN网络的提升对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、物品或者装置中还存在另外的相同要素。

本发明提供了一种基于LSTM优化DQN网络的多约束频谱分配方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明对区域战场环境下分配频段的步骤如下：

步骤1，利用如图3、图4所示数据，在前处理阶段获取系统内各项数据并计算各功能矩阵：

步骤1.1：获取各项参数指标。其中，当前可用频段总长度为F， F∈[f_min,f_max]。区域内全部设备D_i的内部信息，如工作频段、带宽、时间、部署位置等信息，i＝1,2,3,...,m。总频段F内被限制使用的保护频段f_i及其位置L_i与时间t_i情况，i＝1,2,3,...,r。不同设备间的频段使用优先级别情况P_i，i＝1,2,3,...,p。当前频段占用情况O_i，其中O_i为一数组，以0和1记录频段F内观测频点的占用情况；

步骤1.2：计算可用频段矩阵M_a。根据步骤1获得的设备D_i的信息得到其可工作频段与工作带宽，从而将可用频段F或分为k个子频段并给予其特定的频段号k_i，进而生成一个m行k列的，针对所有设备的可用频段矩阵M_a，矩阵元素均为二元，即由0代表设备D_i在该频段不可用，而1则代表D_i在该频段可用。

其中，在生成M_a各元素时，需要同时考虑其可用频段是否与环境内限制时间、区域重叠，如果重叠，同样将被判定为不可用。整体频段的占用情况，如果频段已被占用，则同样被判定为不可用；

步骤1.3：计算干扰矩阵M_i。根据设备D_i的信息得到其发射功率与接收机灵敏度，从而可根据可用频段矩阵M_a产生一个m×m×k的三维干扰矩阵M_i，其中元素同样为二元。在固定某频段时，如果对设备D_i，满足下方自由空间损耗公式，同时两设备工作时间有所重叠，则此时元素设置为1，即为产生干扰，否则设为0，不干扰。自由空间损耗公式如下所示：

LS＝32.45+20lnf+20lnd

其中，空间损耗LS的单位为dB，f为设备的使用频率，单位为MHz，d为设备间的距离，单位为km。当设备的发射功率经过衰减后的值仍大于另一设备的接收灵敏度时，则判定两设备存在干扰情况。

步骤2，初始化结构中的DRQN网络并完成前期预处理结果与网络元素的映射：

步骤2.1：对经验回放池(Experience Replay)进行初始化，对其容量大小进行赋值；

步骤2.2：对影响动作a_t选择的Q值网络Q-Network进行初始化，并赋予其参数θ；

步骤2.3：如图2所示将LSTM网络嵌入到整体网络中形成DRQN网络，以便利用LSTM网络合理解决长时期信息带来的性能消耗与依赖问题；

其中，LSTM网络设计了三类“门”的概念，通过各个门的协同工作实现对网络中不同时期信息的合理处理。其中，门的输入是一个向量，而输出是一个0 到1之间的实数向量，可表示为：

g(x)＝σ(Wx+b)

其中，W是门的权重向量，b是偏置项，σ为Sigmoid函数。LSTM网络的三类内部门结构分别为；

(1)输入门(input gate)：控制当前时刻需要保存到单元状态c_t的输入数据x_t的规模，其作用函数如下所示：

i_t＝σ(W_i[h_t-1,x_t]+b_i)

(2)遗忘门(forget gate)：控制t-1时刻单元状态c_t-1到t时刻单元状态c_t的保留程度，决定某部分数据是否可被LSTM系统所舍弃，其作用函数如下所示；

f_t＝σ(W_f[h_t-1,x_t]+b_f)

(3)输出门(output gate)：控制t时刻单元状态c_t可成功在当前时刻的输出值h_t中保存规模，其作用函数如下所示；

O_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝O_t*tanh(C_t)

步骤2.5：将前期预处理结果和其他频谱分配相关概念与网络元素相映射，其中，动作a_t即为设备在某时刻下选择的具体频段情况，并作为后续步骤整体方案的组成部分；状态s_t则为用户选择的动作、全频段的复用情况及表示分配成功与否的0/1信号等三部分共同组成的行向量；奖励r_t则是与所有设备选择动作后得到的整体方案中失败设备与整体设备之比相关的函数，其定义如下：

其中，α和p分别代表设备i的权重系数与优先级情况。

步骤3，设置仿真阶段数episode并记为e。为充分地反映网络不断优化的过程，DQN算法一般将网络的训练过程分为多个e，以下步骤均限制在e中进行；

步骤4，更新搜索概率p_t。其中搜索概率p_t的定义如下：

其中，p_t为某时刻的搜索概率，p_start与p_end分别为起始与终止的搜索概率， r_decay为其衰减速度。由上式可知，搜索概率随训练次数增长而逐渐下降。

自步骤5至步骤7，以下步骤将在集中式分配的基础上采用局部分布方式依次对环境内设备D_i进行动作，即频段的选取工作，并最终汇总为整体动作a_t。

步骤5，用频环境内各待分配设备D_i依照搜索概率p_t进行判断的选择：

步骤5.1：各待分配设备D_i依照搜索概率p_t进行动作a_t，即具体可用频段的判断选择。为保证灵活性，引入随机量r_const。若p_t≥r_const，则可在M_a中对应的可用频段中随机选择；

步骤5.2：若不满足以上条件，则需根据状态观测值对应的最大Q值进行选择，其公式如下所示：

a_t＝argmax_aQ(φ(s_t),a_i；θ)

步骤6，获取历史数据并交由LSTM网络处理：

步骤6.1，设置变量step_size并记为N_step，将t,t-1,...,t-N_step+1等时刻的一段历史状态s_t数据作为步骤2中在整体网络中搭建的LSTM网络的输入并获取阶段结果output。其中输出output代表了LSTM结构中的h_t数据，其决定了应当选择性地保留或遗忘某些长期数据，从而一定程度上提升算法处理性能；

步骤7，获取Q值并转移状态：

步骤7.1：将步骤6.1中LSTM网络输出的阶段性数据作为整体网络后续全连接部分的输入数据并依此进行Q值计算，设备D_i的每个可选频段均有一个Q值与其对应；

步骤7.2：根据步骤5中所示规则选择此时刻的动作，即频段方案a_i；

步骤7.3：在本时刻所有设备均完成动作选取后，将所有动作a_i组成整体动作a_t，根据下方所示公式与状态情况获得最终奖励r_t：

步骤7.4：环境内各设备D_i根据步骤7.3中所得动作更新整体频段使用情况及本次动作选取导致的分配成功与否的信号标识，进一步更新其自身未来时刻的状态s_t+1；

步骤7.5：将当前时刻与未来时刻所有设备D_i的状态分别组合为整体的s_t和s_t+1，并将这两项数据与7.3中整体动作方案的a_t和奖励r_t合并存入经验回放池中；

自步骤8开始，整体网络迭代学习：

步骤8.1：从经验回放池的历史数据中随机抽取数目为batch_size的小样本batch并记为b_i，每个样本b_i均为形如步骤7.5中四项数据组成的数据体；

步骤8.2：对每个样本b_i，依次对抽取其内部

等信息；

步骤8.3：将上一步获取的多个样本b_i中的状态

进行组合并作为网络输入，在得到的众多Q值中选择与设备所选频段动作

对应的值

步骤9，计算目标Q值。对步骤8.2中的样本b_i，Q网络将计算出未来时刻状态

可能涉及的Q值的最大值，并利用公式

计算出目标Q值；

步骤10，通过以上步骤获取的目标Q值与当前Q值利用公式

计算网络的损失值并更新网络参数；

其中，N_b为batch_size，意为每个批次抽取的样本数量。

步骤11，重复上述步骤，直至学习过程结束，生成如图5所示结果；

由图5所示，本方法预处理阶段将全频段资源按照图3中设备间最大工作带宽作为切割标尺，将40MHz的整体频段资源分配8段，由于实施例数据设置了设备间相互干扰且可相互争夺资源的极端状态，因此预期最优结果必须为每个设备均独占一个频段号，即独占一块5MHz的频段资源，最终经本发明方法多产生的多个结果均与预期结果相符，在此结果下，所有设备均完成接入并最大限度地降低了整体环境的干扰情况。

步骤12，收集并更新历史最优整体动作a_t，并将其作为最优的频谱分配方案输出，将依次为各设备分给具体频段资源。

由于在步骤11的学习过程中的各时刻均会产生一个整体动作a_t，即整体分配方案，且不排除多个不同时刻的a_t即可成为最优解，因此在步骤12中，需收集并更新综合奖励值最高的历史整体动作，即作为输出给决策层的最佳方案，最终由决策部门综合评定后将a_t中位置与某设备对应的频段分配给该设备。

针对利用LSTM优化的DQN网络性能，如图6反映了其与基本DQN网络得到结果的性能与时间对比曲线图。

仿真条件

如图3、图4所示，现假设整个频谱环境内需要被分配频率的设备总数D_i为 8，并使各设备间能共同选择8个频段，增大系统内冲突效果。同时，其余参数如下所示：

(1)迭代次数共100000次，每5000次为1次episode，将展示1次优化曲线；

(2)基本DQN中神经网络的隐藏层设置为128，利用ReLu函数作为整体的激活函数；

(3)batch_size设为16；

(4)LSTM网络的隐藏层设置为96，step_size设置为15；

(5)经验回放池Experience Replay的容量设为3000；

(6)探索概率explore_p的值p_t随迭代次数t的增长逐渐由0.5衰减为 0.1；

(7)学习率为0.01；

(8)折扣因子γ为0.02；

仿真结果

如图5所示，本方法在仿真数据指定设备间相互干扰的情况下，为各设备进行了唯一频段的分配，最大限度地减少了整体干扰并提升了分配成功的设备数量，基本解决了复杂场景下有优先级多约束场景的分配问题，达到了预期结果。而在图6中，无论是LSTM_DQN亦或是基本DQN算法，其整体累积分配失败数量均呈下降状态，经由多次学习，两算法分别将用户累计分配失败个数下降至4100 与5000左右。对整体学习效果而言，两算法都能够成功解决本文设置的模拟战场环境下构建的资源环境模型的频谱分配问题，但总体上基于LSTM优化的网络对数据的处理更好，且最终整体提升效率在18％左右。而在所耗时间问题中，基于LSTM优化的DQN架构，其收敛时间基本处于episode阶段为10的情况，相较于基础DQN架构，本发明所示结果有针对收敛时间领先3个episode阶段，且在优化过程中，前者也基本保持着2到3个episode的领先优势，说明理论设计中LSTM 的快速性功能基本实现。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种基于LSTM优化DQN网络的多约束频谱分配方法，其特征在于，该方法包括：

初始化DQN网络并完成前期预处理结果与网络元素的映射；

更新搜索概率p_t；

整体网络迭代学习；

2.根据权利要求1所述的基于LSTM优化DQN网络的多约束频谱分配方法，其特征在于，所述在前处理阶段获取系统内各项参数指标与频段资源数据，具体为：当前可用频段总长度为F，F∈[f_min,f_max]，区域内全部设备D_i的内部信息，如工作频段、带宽、时间、部署位置等信息，i＝1,2,3,...,m，总频段F内被限制使用的保护频段f_i及其位置L_i与时间t_i情况，i＝1,2,3,...,r，不同设备间的频段使用优先级别情况P_i，i＝1,2,3,...,p，当前频段占用情况O_i，其中O_i为一数组，以0和1记录频段F内观测频点的占用情况。

所述计算各功能矩阵，具体为：所述各功能矩阵包括可用频段矩阵M_a和干扰矩阵M_i，其中干扰判别涉及到的自由空间损耗公式如下所示：

LS＝32.45+20lnf+20lnd；

计算干扰矩阵M_i，根据所述设备D_i的信息得到其可工作频段与工作带宽，从而将可用频段F分为k个子频段并给予其特定的频段号k_i，进而生成一个m行k列的，针对所有设备的可用频段矩阵M_a，矩阵元素均为二元，即由0代表设备D_i在该频段不可用，而1则代表D_i在该频段可用，其中，在生成M_a各元素时，确定可用频段是否与环境内限制时间、区域重叠，如果重叠，将被判定为不可用，根据整体频段的占用情况，如果频段已被占用，则同样被判定为不可用；

3.根据权利要求1或2所述的基于LSTM优化DQN网络的多约束频谱分配方法，其特征在于，所述完成前期预处理结果与网络元素的映射，具体为：动作a_t即为设备在某时刻下选择的具体频段情况，并作为后续步骤整体方案的组成部分；状态s_t则为用户选择的动作、全频段的复用情况及表示分配成功与否的0/1信号等三部分共同组成的行向量；奖励r_t则是与所有设备选择动作后得到的整体方案中失败设备与整体设备之比相关的函数，其定义如下：

其中，α和p分别代表设备i的权重系数与优先级情况。

4.根据权利要求3所述的基于LSTM优化DQN网络的多约束频谱分配方法，其特征在于，所述更新搜索概率p_t，具体为：

其中，p_t为某时刻的搜索概率，p_start与p_end分别为起始与终止的搜索概率，r_decay为其衰减速度。

5.根据权利要求4所述的基于LSTM优化DQN网络的多约束频谱分配方法，其特征在于，所述在集中式分配的基础上采用局部分布方式依次对环境内设备D_i进行动作，即频段的选取工作，并最终汇总为整体动作a_t，具体为：通信环境内各待分配设备D_i依照搜索概率p_t进行a_t的判断选择；将历史状态数据s_t送入LSTM网络学习长距离依赖关系，即对输入的历史数据进行有选择性地保留或遗忘；Q网络根据输出数据获取相应值Q_t，以此选择动作a_t，并结合环境获得相应的奖励r_t，此时环境状态转移至s_t+1，同时将当前时刻的各项元素以(s_t,a_t,r_t,s_t+1)的形式组合起来存放在经验回放池中。

6.根据权利要求5所述的基于LSTM优化DQN网络的多约束频谱分配方法，其特征在于，所述通信环境内各待分配设备D_i依照搜索概率p_t进行a_t的判断选择，具体为：各待分配设备D_i依照搜索概率p_t进行动作a_t，即具体可用频段的判断选择，引入随机量r_const，若p_t≥r_const，在M_a中对应的可用频段中随机选择；若不满足以上条件，则需根据状态观测值对应的最大Q值进行选择，其公式如下所示：a_t＝argmax_aQ(φ(s_t),a_i；θ)。

7.根据权利要求6所述的基于LSTM优化DQN网络的多约束频谱分配方法，其特征在于，所述Q网络根据输出数据获取相应值Q_t，以此选择动作a_t，并结合环境获得相应的奖励r_t，此时环境状态转移至s_t+1，同时将当前时刻的各项元素以(s_t,a_t,r_t,s_t+1)的形式组合起来存放在经验回放池中，具体为：将LSTM网络输出的阶段性数据作为整体网络后续全连接部分的输入数据并依此进行Q值计算，设备D_i的每个可选频段均有一个Q值与其对应；根据规则选择该时刻的动作，即频段方案a_i；在本时刻所有设备均完成动作选取后，将所有动作a_i组成整体动作a_t，根据下方所示公式与状态情况获得最终奖励r_t：

环境内各设备D_i根据所述动作更新整体频段使用情况及本次动作选取导致的分配成功与否的信号标识，进一步更新其自身未来时刻的状态s_t+1；将当前时刻与未来时刻所有设备D_i的状态分别组合为整体的s_t和s_t+1，并将这两项数据与整体动作方案的a_t和奖励r_t合并存入经验回放池中。

8.根据权利要求7所述的基于LSTM优化DQN网络的多约束频谱分配方法，其特征在于，所述整体网络迭代学习，具体为：从经验回放池的历史数据中随机抽取数目为batch_size的小样本batch并记为b_i，每个样本b_i均为形如步骤7.5中四项数据组成的数据体；对每个样本b_i，依次对抽取其内部

等信息；将多个样本b_i中的状态

对应的值

对样本b_i，Q网络将计算出未来时刻状态

可能涉及的Q值的最大值，并利用公式

计算出目标Q值；通过目标Q值与当前Q值利用公式

计算网络的损失值并更新网络参数；其中，N_b为batch_size，意为每个批次抽取的样本数量；重复上述步骤，直至学习过程结束，生成结果。