CN114980254B

CN114980254B - 基于决斗深度循环q网络的动态多信道接入方法和装置

Info

Publication number: CN114980254B
Application number: CN202210923594.8A
Authority: CN
Inventors: 赵海涛; 陈海涛; 魏急波; 张姣; 靳增源; 刘兴光; 雷婵
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-10-25
Anticipated expiration: 2042-08-02
Also published as: CN114980254A

Abstract

本申请涉及一基于决斗深度循环Q网络的动态多信道接入方法和装置。所述方法包括：构建包括一个中心基站、多个不同类型的无线网络以及一个智能节点分时隙的多信道异构无线网络；根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型；训练决斗深度循环Q网络模型，得到训练好的决斗深度循环Q网络模型；将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型，输出信道接入结果，智能节点根据信道接入结果进行信道接入。采用本方法不需要获取系统先验信息，通过与环境的不断交互来学习和预测信道状态的变化规律，从而实现智能节点合理高效的信道接入。

Description

基于决斗深度循环Q网络的动态多信道接入方法和装置

技术领域

本申请涉及无线通信技术领域，特别是涉及一种基于决斗深度循环Q网络的动态多信道接入方法和装置。

背景技术

一方面，近年来新兴的网络类型以及不同制式网络设备的爆发式增长使得现代无线网络呈现网络异构化，频谱复杂化等诸多特征；另一方面，随着海量的无线设备接入无线网络，迅猛增长的无线业务需求同紧缺的无线频谱资源之间的矛盾日益突出。在各种异构无线网络并存的电磁空间中，频谱资源的封闭式静态管理和条块分割使用进一步加剧了这种矛盾。因此如何对频谱资源进行高效的智能化管理，在满足通信业务的服务质量（Quality of Service, QoS）要求下，提高频谱资源的利用效率，是未来无线通信亟待解决的一个难题。

动态多信道接入被认为是提高无线网络吞吐量，缓解频谱短缺问题的关键技术之一，但是在异构无线网络场景下的多信道接入面临两个严峻的挑战。第一，在异构网络中，不同网络的网络行为、接入方式各不相同，无法获取关于整个网络的系统先验信息。第二，由于获取全局的频谱状态信息需要大量的通信开销和处理成本，因此在实际网络场景中，节点通常只能获得关于网络频谱状态的局部观测信息。这使得异构无线网络中的多信道接入问题变得十分复杂。

传统的多信道接入方法，例如近视（Myopic）接入策略和惠特尔指数（Whittleindex）接入策略，都是基于模型的方法，这些方法需要获取完整的系统先验信息以建立准确系统模型，然后根据系统模型求解最优的信道接入策略。一旦系统先验信息无法获取时，这些方法的性能就会大打折扣。另外，在传统的方法中，通常都假设信道状态遵循两状态马尔可夫变化，并且需要预先知道每个信道确切的状态转移概率。而在实际系统中，准确获取每个信道的状态转移概率是十分困难的。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效的提高多信道接入成功率和网络频谱利用效率的基于决斗深度循环Q网络的动态多信道接入方法和装置。

一种基于决斗深度循环Q网络的动态多信道接入方法，所述方法包括：

构建分时隙的多信道异构无线网络，多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点；

根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型；其中，评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层；

将智能节点当前时隙的状态输入评价Q网络进行处理，输出评价Q值，将智能节点下一时隙的状态输入目标Q网络进行处理，输出目标Q值；

根据评价Q值和目标Q值计算损失函数，根据损失函数训练决斗深度循环Q网络模型，得到训练好的决斗深度循环Q网络模型；

将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型，输出信道接入结果，智能节点根据信道接入结果进行信道接入。

在其中一个实施例中，构建分时隙的多信道异构无线网络，包括：

构建包括一个中心基站、多个不同类型的无线网络以及一个智能节点的分时隙的多信道异构无线网络；

中心基站将整个频谱划分为多条正交的信道，并将信道分配给多个不同类型的无线网络；其中，每个无线网络包括不同类型的网络节点；

不同类型的网络节点通过采用不同的信道接入策略接入对应的信道，根据对应的信道与中心基站进行通信；

智能节点对整个频谱中的空闲频谱进行信道接入，根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。

在其中一个实施例中，根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型，包括：

将智能节点的动作、状态、奖励和状态转移概率描述为部分可观测马尔可夫过程；

根据部分可观测马尔可夫过程智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。

在其中一个实施例中，评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层，包括：

根据输入层输入智能节点的状态，其中，输入层的神经元个数与智能节点的状态向量的长度一致；

根据长短时记忆网络层中的遗忘门、输入门和输出门分别对智能节点所有时隙的状态进行加权和偏置处理，得到长短时记忆网络层的输出；

根据全连接层对长短时记忆网络层的输出进行融合，得到全连接层的输出；

根据决斗层对全连接层的输出进行采样，得到决斗层的输出；

根据输出层对决斗层的输出进行汇总，输出Q值，其中，Q值包括评价Q值和目标Q值。

在其中一个实施例中，根据决斗层对全连接层的输出进行采样，得到决斗层的输出，包括：

决斗层的输出表示为

其中，

为在状态

下采取动作

的Q值，

为神经网络参数，

为执行动作

带来的预期状态价值，

表示在状态

下采取动作

的动作价值函数，

表示在状态

下采取其他动作

的平均动作价值，

为所有动作空间，且

。

在其中一个实施例中，将智能节点当前时隙的状态输入评价Q网络进行处理，输出评价Q值之前，还包括：

根据经验重放策略建立经验重放池，对经验重放池中进行随机采样，得到

组数据集

，其中，

表示每组数据集中智能节点当前时隙的状态，

表示每组数据集中智能节点当前时隙的信道接入动作，

表示每组数据集中智能节点当前时隙执行信道接入动作

后获得的奖励，

表示每组数据集中智能节点下一时隙的状态；

将每组数据集中智能节点当前时隙的状态

输入评价Q网络进行处理，得到每组数据的评价Q值，表示为

，其中，

为

到

的一个映射，即

，

为评价Q网络的神经网络参数。

在其中一个实施例中，根据经验重放策略建立经验重放池，包括：

将智能节点当前时隙的状态

输入评价Q网络，输出状态

下所有动作

的Q值集合

；

设定探索概率为

，通过自适应

策略选择信道接入动作

；

根据信道接入动作

计算观测向量

和智能节点当前时隙执行信道接入动作

后获得的奖励

，根据智能节点当前时隙的状态

计算智能节点下一时隙的状态

；

将

、

、

和

进行联合，得到一组数据集

；

将数据集

保存至经验重放池中，直至达到经验重放池的容量阈值。

在其中一个实施例中，将智能节点下一时隙的状态输入目标Q网络进行处理，输出目标Q值，包括：

将每组数据集中智能节点下一时隙的状态

输入目标Q网络进行处理，得到目标Q值，表示为

，其中，

为目标 Q网络的神经网络参数，

为折扣因子且

，

表示每组数据集中智能节点下一时隙的信道接入动作。

在其中一个实施例中，根据评价Q值和目标Q值计算损失函数，根据损失函数训练决斗深度循环Q网络模型，得到训练好的决斗深度循环Q网络模型，包括：

根据评价Q值和目标Q值计算均方误差损失函数，表示为

其中，

为期望运算符；

根据均方误差损失函数训练决斗深度循环Q网络模型中的评价Q网络，并根据

更新评价Q网络中的神经网络参数，其中，

为时隙

时的神经网络参数，

为时隙

时的神经网络参数，

为学习率，且

，

表示对

求梯度；

重复迭代K次训练直至均方误差损失函数收敛时，将评价Q网络中的神经网络参数复制到目标Q网络中，得到训练好的决斗深度循环Q网络模型。

一种基于决斗深度循环Q网络的动态多信道接入装置，所述装置包括：

多信道异构无线网络构建模块，用于构建分时隙的多信道异构无线网络，多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点；

决斗深度循环Q网络模型构建模块，用于根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型；其中，评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层；

模型训练模块，用于将智能节点当前时隙的状态输入评价Q网络进行处理，输出评价Q值，将智能节点下一时隙的状态输入目标Q网络进行处理，输出目标Q值；根据评价Q值和目标Q值计算损失函数，根据损失函数训练决斗深度循环Q网络模型，得到训练好的决斗深度循环Q网络模型；

测试模块，用于将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型，输出信道接入结果，智能节点根据信道接入结果进行信道接入。

上述基于决斗深度循环Q网络的动态多信道接入方法和装置，通过构建分时隙的多信道异构无线网络将多信道接入问题转换为智能节点的信道接入问题，智能节点在进行信道接入时不需要获取系统先验信息，只需通过与环境的不断交互来学习和预测信道状态的变化规律并进行合理的信道接入；根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型，并根据网络模型中的长短时记忆网络层和决斗层分别以克服频谱状态部分可观测问题和神经网络在面对动态环境时动作采样的冗余问题，智能节点可以通过训练好的决斗深度循环Q网络模型选择合适的信道接入策略来利用空闲频谱，从而有效提高信道的接入成功率和网络频谱的利用效率。

附图说明

图1为一个实施例中基于决斗深度循环Q网络的动态多信道接入方法的流程示意图；

图2为一个实施例中分时隙的多信道异构无线网络模型示意图；

图3为一个实施例中多信道异构无线网络的复杂频谱状态示意图；

图4为一个实施例中决斗深度循环Q网络模型的结构框图；

图5为一个实施例中长短时记忆网络层的结构框图；

图6为一个实施例中决斗层的结构框图；

图7为一个实施例中复杂异构环境Ⅰ下不同接入策略的归一化吞吐量对比示意图；

图8为一个实施例中复杂异构环境Ⅱ下不同接入策略的归一化吞吐量对比示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于决斗深度循环Q网络的动态多信道接入方法，包括以下步骤：

步骤102，构建分时隙的多信道异构无线网络，多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点。

可以理解，通过构建分时隙的多信道异构无线网络将多信道接入问题转换为智能节点的信道接入问题，智能节点内部部署决斗深度循环Q网络（Dueling DRQN）算法，根据决斗深度循环Q网络，智能节点可以只需观察局部的频谱状态来选择合适的信道接入策略，从而有效利用空闲频谱，同时避免与其他节点发生碰撞。

步骤104，根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型；其中，评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层。

可以理解，由于智能节点不需要获取系统先验信息，只需观测到局部的频谱状态信息进行信道接入，因此可以采用部分可观测马尔可夫过程来对智能节点的信道接入问题进行建模，部分可观测马尔可夫过程通常用智能节点的动作、状态、奖励、状态转移概率来描述。

可以理解，在决斗深度循环Q网络模型中通过引入长短时记忆网络层来聚合多个时隙的历史观察信息可以克服频谱状态部分可观测问题，通过引入决斗层来减少神经网络在面对动态环境时动作采样的冗余，提高收敛速度。

步骤106，将智能节点当前时隙的状态输入评价Q网络进行处理，输出评价Q值，将智能节点下一时隙的状态输入评价Q网络进行处理，输出目标Q值。

可以理解，评价Q网络和评价Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层，评价Q网络和评价Q网络的区别仅是网络参数不同，评价Q网络输出的评价Q值可以理解为Q估计，目标Q网络输出的目标Q值可以理解为Q现实。

步骤108，根据评价Q值和目标Q值计算损失函数，根据损失函数训练决斗深度循环Q网络模型，得到训练好的决斗深度循环Q网络模型。

可以理解，经过多次迭代训练直至损失函数收敛时，将评价Q网络的神经网络参数复制给目标Q网络，从而得到训练好的决斗深度循环Q网络模型。

步骤110，将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型，输出信道接入结果，智能节点根据信道接入结果进行信道接入。

可以理解，训练好的决斗深度循环Q网络模型的神经网络参数已经固定，只要收集当前时隙待接入智能节点的状态输入训练好的神经网络模型中就能输出信道接入结果，智能节点根据输出的信道接入结果进行信道接入。

上述基于决斗深度循环Q网络的动态多信道接入方法，通过构建分时隙的多信道异构无线网络将多信道接入问题转换为智能节点的信道接入问题，智能节点在进行信道接入时不需要获取系统先验信息，只需通过与环境的不断交互来学习和预测信道状态的变化规律并进行合理的信道接入；根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型，并根据网络模型中的长短时记忆网络层和决斗层分别以克服频谱状态部分可观测问题和神经网络在面对动态环境时动作采样的冗余采样问题，智能节点可以通过训练好的决斗深度循环Q网络模型选择合适的信道接入策略来利用空闲频谱，从而有效提高信道的接入成功率和网络频谱的利用效率。

在其中一个实施例中，构建如图2所示的分时隙的多信道异构无线网络，其中多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点的分时隙的多信道异构无线网络；

中心基站将整个频谱划分为多条正交的信道，并将信道分配给多个不同类型的无线网络，中心基站可以在每个时隙的不同信道上与无线网络中的任何节点进行通信，并在时隙结束时广播一个确认字符信号 (ACKnowledge Character，ACK）用来表明本次通信是否成功；

每个无线网络中包含若干个网络节点，来自不同无线网络中的不同类型的网络节点使用不同的信道接入策略接入对应的信道，根据对应的信道与中心基站进行通信，其中不同的无线网络之间相互独立、互不干扰；

具体地，来自不同无线网络中的不同类型的网络节点使用不同的信道接入策略接入对应的信道是指来自不同无线网络中的任意一个网络节点只能选择一条信道进行接入，不同网络节点的信道接入策略包括：

授权节点：固定占用一条信道，并一直与中心基站进行通信；

时分复用( Time Division Multiple Access，TDMA）节点：周期性的占用一条信道，在由Y个时隙构成的一个帧中，选择X个特定时隙中与中心基站进行通信；

跳频节点：按照固定的跳频图案动态地占用多条信道，并在当前时隙与中心基站进行通信，在一个时隙中，一个跳频节点只能占用一条信道；

q-ALOHA节点：固定占用一条信道，但在每个时隙中以q的概率与中心基站进行通信，以1-q的概率不与基站通信；

两状态马尔可夫节点：固定占用一条信道，并以两状态马尔可夫转移概率与中心基站进行通信。

可以理解，如图3所示，不同无线网络中的网络节点选择不同的信道接入策略进行信道接入造成了高度复杂、动态的频谱状态，而固定的信道分配方式又使得许多空闲频谱没有得到充分利用，因此，本发明在智能节点内部部署Dueling DRQN算法，智能节点可以只需观察局部的频谱状态来选择合适的信道接入策略，从而有效利用空闲频谱，同时避免与其他节点发生碰撞。

在其中一个实施例中，根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型，包括：将智能节点的动作、状态、奖励和状态转移概率描述为部分可观测马尔可夫过程，根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。

具体地，智能节点的动作为：动作表示智能节点选择哪一条信道进行接入，在时隙t时，智能节点的动作被定义为一个长度为N的向量，即

，其中

所有可能动作构成了整个动作空间

，

；

智能节点的状态为：由于不同网络节点的接入策略各不相同，导致频谱状态在每个时隙中都会动态地发生变化，定义在时隙

时，整个网络的频谱状态为

，

，其中

当智能节点执行动作

后会得到一个观察信息

，

。例如智能节点选择第i条信道进行接入，那么有

由于智能节点只知道它选择接入信道的信道状态，因此对于

中

的其他元素，

；

将智能节点在时隙

时的状态定义为到当前时隙为止的过去长度为l的动作-观察向量

，即

。

智能节点的奖励为：在时隙t时，当智能节点采取动作

后，智能节点的状态从

转移到

并返回一个奖励

，

与时隙t智能体通信成功与否密切相关，即

当智能节点选择接入的信道处于空闲状态时，本次通信成功；反之，本次通信失败；

智能节点的状态转移概率为：在时隙t时，状态转移概率被定义为智能节点采取动作

后，状态从

转移到

的概率，用

来表示，随着智能节点与环境不断交互，

将通过最大化长期累计奖励逐渐收敛至最优的

，即

,

其中，

为折扣因子，且

，折扣因子决定了未来的奖励相对于当前时刻的奖励的重要性，当折扣因子趋于0时，意味着智能节点更注重当前时刻的奖励，反之，当折扣因子趋于1时，则意味着智能节点更注重未来时刻的奖励。

在其中一个实施例中，在如图4所示包括评价Q网络和目标Q网络的决斗深度循环Q网络模型，评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层，包括：

根据输入层（Input layer）输入智能节点的状态，其中，输入层的网络参数为

，其中

表示输入层神经元个数，并等于智能节点的状态向量

长度，

表示输入层网络权重，

表示输入层网络偏置；

根据全连接层对长短时记忆网络层的输出进行融合，得到全连接层的输出，其中，全连接层网络参数为

，其中

表示全连接层神经元个数，

表示全连接层网络权重，

表示全连接层网络偏置；

根据输出层对决斗层的输出进行汇总，输出Q值，其中，Q值包括评价Q值和目标Q 值，输出层的网络参数为

，其中

表示输出层神经元个数，并等于智能节点动作向量

长度，

表示输出层网络权重，

表示输出层网络偏置。

具体地，长短时记忆网络层的结构如图5所示，长短时记忆网络层中引入了一个新的内部状态

专门进行线性的循环信息传递，同时非线性地将输出信息传给外部状态

，内部状态

和外部状态

的计算方式为

其中

、

、

分别是长短时记忆网络中的遗忘门(Forget gate)、输入门(Input gate)以及输出门(Output gate)，其取值在

之间，表示以一定的比例允许信息通过，长短时记忆网络层通过引入门控机制来控制信息传递的路径，

为向量元素点乘，

为双曲正切函数，

为以

为底的指数函数，

为上一时刻的内部状态，

为内部候选状态，内部候选状态包含有新的信息，

的计算方式为

其中

为

的计算权重，

为

的计算偏置，

是上一个时刻的外部状态；

在长短时记忆网络层中，遗忘门

、输入门

、输出门

的作用分别是：遗忘门

控制上一个时刻的内部状态

需要遗忘多少信息，输入门

控制当前时刻的候选状态

有多少信息需要保存，输出门

控制当前时刻的内部状态

有多少信息需要输出给外部状态

；

遗忘门

、输入门

、输出门

的计算方式分别为：

其中

，

和

分别为遗忘门

的计算权重和计算偏置；

和

分别为输入门

的计算权重和计算偏置；

和

分别为输出门

的计算权重和计算偏置。

可以理解，在长短时记忆网络层中，内部状态

能够聚合多个时刻的历史观察，并推理和分析某些潜在的关键信息，且能将这些关键信息保存一定的时间间隔来指导智能节点的决策，非常有利于克服频谱状态的部分可观测问题。

在其中一个实施例中，根据如图6所示的决斗层对全连接层的输出进行采样，得到决斗层的输出，包括：

决斗层由输入层、隐藏层、全连接层、V层、A层以及输出层组成；

决斗层的输出表示为

其中，

为在状态

下采取动作

的Q值，

为神经网络参数，

为执行动作

带来的预期状态价值，

表示在状态

下采取动作

的动作价值函数，

表示在状态

下采取其他动作

的平均动作价值，

为所有动作空间，且

。

可以理解，通才决斗层的分层处理可以减少神经网络在面对动态环境时动作采样的冗余采样，提高收敛速度，从而高效准确地获取Q值。

组数据集

，其中，

表示每组数据集中智能节点当前时隙的状态，

表示每组数据集中智能节点当前时隙的信道接入动作，

表示每组数据集中智能节点当前时隙执行信道接入动作

后获得的奖励，

表示每组数据集中智能节点下一时隙的状态；

将每组数据集中智能节点当前时隙的状态

输入评价Q网络进行处理，得到每组数据的评价Q值，表示为

，其中，

为

到

的一个映射，即

，

为评价Q网络的神经网络参数。

可以理解，经验重放池用于存放包括智能节点所有时隙的状态、动作、奖励和下一个状态的多个数据集，在每次进行决斗深度循环Q网络的训练时，通过随机抽取（minibatch）的方式进行学习，不仅可以打乱数据集之间的相关性，还可以提高学习效率。

将智能节点当前时隙的状态

输入评价Q网络，输出状态

下所有动作

的Q值集合

；

设定探索概率为

，通过自适应

策略选择信道接入动作

；

根据信道接入动作

计算观测向量

和智能节点当前时隙执行信道接入动作

后获得的奖励

，根据智能节点当前时隙的状态

计算智能节点下一时隙的状态

；

将

、

、

和

进行联合，得到一组数据集

；

将数据集

保存至经验重放池中，直至达到经验重放池的容量阈值。

将每组数据集中智能节点下一时隙的状态

输入目标Q网络进行处理，得到目标Q值，表示为

，其中，

为目标 Q网络的神经网络参数，

为折扣因子且

，

表示每组数据集中智能节点下一时隙的信道接入动作。

根据评价Q值和目标Q值计算均方误差损失函数，表示为

其中，

为期望运算符；

更新评价Q网络中的神经网络参数，其中，

为时隙

时的神经网络参数，

为时隙

时的神经网络参数，

为学习率，且

，

表示对

求梯度；

在一个具体的实施例中，决斗深度循环Q网络模型的训练过程包括以下步骤：

将智能节点当前时隙的状态

输入评价Q网络，输出状态

下所有动作

的

Q值集合

；

设定探索概率为

，通过自适应

策略选择信道接入动作

，自适应

策略表示为

即以

的概率随机选择动作向量，即接入的信道，或者以

的概率选择Q值最大(即

)的动作向量，即接入信道，并使用以下计算方法更新探索概率

其中

和

分别是探索概率的最大值和最小值，

为衰减因子；

根据信道接入动作

计算观测向量

和智能节点当前时隙执行信道接入动作

后获得的奖励

，根据智能节点当前时隙的状态

计算智能节点下一时隙的状态

；

将

、

、

和

进行联合，得到一组数据集

，将数据集

保存至经验重放池中；

判断经验重放池的容量是否达到指定阈值，若达到，则进入下一步骤；若未达到，则重复上述步骤；

采用随机抽样的方式从经验重放池中随机抽取

组数据集

，将每组数据集中智能节点当前时隙的状态

输入评价Q 网络进行处理，得到每组数据集的评价Q值，表示为

，其中

为评价Q网络的神经网络参数，并将每组数据集中智能节点下一时隙的状态

输入目标 Q网络获得目标Q值

，其中

为目标Q网络的神经网络参数，并根据以下计算方法计算均方误差损失函数

其中，

为期望运算符，并根据

更新评价Q网络中的神经网络参数，其中，

为时隙

时的神经网络参数，

为时隙

时的神经网络参数，

为学习率，且

，

表示对

求梯度；

重复迭代K次评价Q网络后，将评价Q网络中的神经网络参数复制给目标Q网络；

重复迭代上述步骤直至均方误差损失函数收敛。

可以理解，当均方误差损失函数收敛时就意味着神经网络模型训练完成，神经网络参数都已经固定，只要收集当前时隙智能节点的状态输入训练好的神经网络模型中就能输出信道接入结果，智能节点根据输出的信道接入结果进行信道接入。

为了进一步验证本发明的有益效果，在两种异构网络场景下将本发明所提方法与深度Q网络（Deep Q Network，DQN）接入策略，惠特尔指数(Whittle index）接入策略，随机接入策略(Random access)、最优接入策略(Optimal access policy)进行了横向对比，并将信道接入的性能指标定义为归一化吞吐量，归一化吞吐量为每个阶段中智能节点接入信道并成功与中心基站通信的概率，具体定义为

其中

为智能节点在时隙t获得的奖励，L表示一个回合中的时隙总数。

两种异构网络场景分别设置为：

异构场景Ⅰ：网络中总信道数为16，整个异构无线网络中包括两个授权节点、两个 TDMA节点、三个跳频节点和八个q-ALOHA节点。两个授权节点分别占用信道1和信道16，并且一直与中心基站进行通信。两个TDMA节点分别占用信道6和信道15，其中占用信道6的TDMA 节点在

个时隙构成的一个帧内传输

个时隙，另一个占用信道15的TDMA节点在

个时隙构成的一个帧内传输

个时隙。三个跳频节点分别动态地占用信道2、3、4、5，并遵循跳频图案：C2C3C4

C3C4C5

C4C5C2

C5C2C3

C2C3C4，其中C代表信道，如C2C3C4表示三个跳频节点分别占用信道2、信道3、信道4。八个q-ALOHA节点占用信道7、8、9、10、11、12、13、14，每个q-ALOHA节点在不同信道上的传输概率依次是0.2、0.3、 0.4、0.5、0.6、0.7、0.8、0.9。

异构场景Ⅱ：网络中总信道数为16，整个异构无线网络中包括两个授权节点、两个 TDMA节点、三个跳频节点和八个两状态马尔可夫节点。两个授权节点分别占用信道1和信道 16，并且一直与中心基站进行通信。两个TDMA节点分别占用信道6和信道15，其中占用信道6 的TDMA节点在

个时隙构成的一个帧内传输

个时隙，另一个占用信道15的 TDMA节点在

个时隙构成的一个帧内传输

C3C4C5

C4C5C2

C5C2C3

C2C3C4，其中C代表信道，如C2C3C4表示三个跳频节点分别占用信道2、信道3、信道4。八个两状态马尔可夫节点占用信道7、8、9、10、11、12、13、14，每个两状态马尔可夫节点在不同信道上的传输概率遵循两状态马尔可夫概率转移，即

其中

为第n条信道上的状态转移概率；

表示已知前一时隙在第n条信道上进行传输，当前时隙也在该信道上进行传输的概率；

表示已知前一时隙在第n条信道上进行传输，当前时隙不在该信道上进行传输的概率；

表示已知前一时隙不在第n条信道上进行传输，当前时隙在该信道上进行传输的概率；

表示已知前一时隙不在第n条信道上进行传输，这一时隙也不在该信道上进行传输的概率。

图7为五种接入策略在复杂异构环境Ⅰ下的性能比较，可以看出本发明所提方案和深度Q网络接入策略在经历几个阶段之后就能达到收敛，但是本发明所提方案的收敛速度明显快于深度Q网络接入策略，而且最终收敛性能也优于深度Q网络接入策略。这是由于本发明引入了长短时记忆网络层来聚合多个时隙的历史观察信息，并能够较准确的预测每个时隙中的空闲信道，而决斗层减少了神经网络对状态-动作对的冗余采样，可以提高算法的收敛速度。相较于惠特尔指数接入策略，本发明所提方案不需要系统先验信息，而惠特尔指数接入策略需要获取完整的系统先验信息。本发明所提方案相较于深度Q网络接入策略、惠特尔指数接入策略，随机接入策略性能提升分别为20%、45%、70%。最优接入策略指的是智能节点在获取异构无线网络所有系统信息以及整个频谱状态的前提下所能做出最佳接入，所以最优的归一化吞吐量为1。

图8为五种接入策略在复杂异构环境Ⅱ下的性能比较，可以看出本发明所提方案仍能收敛至最佳性能，收敛时归一化吞吐量为92%，性能明显优于深度Q网络接入策略、惠特尔指数接入策略和随机接入策略，性能提升分别为17%、24%、62%。而且本发明所提方案不需要系统先验信息，在整个频谱状态部分可观测的前提下，通过与环境的不断交互来学习最佳的接入策略，最终实现最优的信道接入。

综上所述，本发明提出一种基于决斗深度循环Q网络的动态多信道接入方法，通过引入长短时记忆网络层来充分利用历史观测数据，并推理频谱状态的变化规律，克服了异构无线网络中频谱状态部分可观测问题；通过引入决斗层来减少神经网络对状态-动作对的冗余采样，高效准确的估计Q值并提高所提方案的收敛速度。仿真结果表明，本发明所提方案在性能上明显优于现有技术方案，并且不需要获取系统先验信息。本发明能够适应多个不同类型网络并存的复杂异构网络场景，可以作为现在主流多信道接入方法的一种有效补充方案。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行的，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种基于决斗深度循环Q网络的动态多信道接入装置，所述装置包括：

关于基于决斗深度循环Q网络的动态多信道接入装置的具体限定可以参见上文中对于基于决斗深度循环Q网络的动态多信道接入方法的限定，在此不再赘述。上述基于决斗深度循环Q网络的动态多信道接入装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于决斗深度循环Q网络的动态多信道接入方法，其特征在于，所述方法包括：

构建分时隙的多信道异构无线网络，所述多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点；

根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型；其中，所述评价Q网络和所述目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层；

将所述智能节点当前时隙的状态输入所述评价Q网络进行处理，输出评价Q值，将所述智能节点下一时隙的状态输入所述目标Q网络进行处理，输出目标Q值；

根据所述评价Q值和目标Q值计算损失函数，根据所述损失函数训练所述决斗深度循环Q网络模型，得到训练好的决斗深度循环Q网络模型；

将待接入智能节点的状态输入所述训练好的决斗深度循环Q网络模型，输出信道接入结果，所述智能节点根据所述信道接入结果进行信道接入；

所述构建分时隙的多信道异构无线网络，包括：

所述中心基站将整个频谱划分为多条正交的信道，并将所述信道分配给多个不同类型的无线网络；其中，每个所述无线网络包括不同类型的网络节点；

不同类型的所述网络节点通过采用不同的信道接入策略接入对应的信道，根据对应的信道与所述中心基站进行通信；

所述智能节点对整个频谱中的空闲频谱进行信道接入，根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。

2.根据权利要求1所述的方法，其特征在于，根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型，包括：

将所述智能节点的动作、状态、奖励和状态转移概率描述为所述部分可观测马尔可夫过程；

根据所述部分可观测马尔可夫过程所述智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。

3.根据权利要求1所述的方法，其特征在于，所述评价Q网络和所述目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层，包括：

根据所述输入层输入所述智能节点的状态，其中，所述输入层的神经元个数与所述智能节点的状态向量的长度一致；

根据所述长短时记忆网络层中的遗忘门、输入门和输出门分别对所述智能节点所有时隙的状态进行加权和偏置处理，得到所述长短时记忆网络层的输出；

根据所述全连接层对所述长短时记忆网络层的输出进行融合，得到所述全连接层的输出；

根据所述决斗层对所述全连接层的输出进行采样，得到所述决斗层的输出；

根据所述输出层对所述决斗层的输出进行汇总，输出Q值，其中，所述Q值包括评价Q值和目标Q值。

4.根据权利要求3所述的方法，其特征在于，根据所述决斗层对所述全连接层的输出进行采样，得到所述决斗层的输出，包括：

所述决斗层的输出表示为

其中，

为在状态

下采取动作

的Q值，

为神经网络参数，

为执行动作

带来的预期状态价值，

表示在状态

下采取动作

的动作价值函数，

表示在状态

下采取其他动作

的平均动作价值，

为所有动作空间，且

。

5.根据权利要求1至4任意一项所述的方法，其特征在于，将所述智能节点当前时隙的状态输入所述评价Q网络进行处理，输出评价Q值之前，还包括：

根据经验重放策略建立经验重放池，对所述经验重放池中进行随机采样，得到

组数据集

，其中，

表示每组数据集中所述智能节点当前时隙的状态，

表示每组数据集中所述智能节点当前时隙的信道接入动作，

表示每组数据集中所述智能节点当前时隙执行信道接入动作

后获得的奖励，

表示每组数据集中所述智能节点下一时隙的状态；

将每组数据集中所述智能节点当前时隙的状态

输入评价Q网络进行处理，得到每组数据的评价Q值，表示为

，其中，

为

到

的一个映射，即

，

为所述评价Q网络的神经网络参数。

6.根据权利要求5所述的方法，其特征在于，根据经验重放策略建立经验重放池，包括：

将所述智能节点当前时隙的状态

输入评价Q网络，输出状态

下所有动作

的Q值集合

，

为所有动作空间；

设定探索概率为

，通过自适应

策略选择所述信道接入动作

；

根据所述信道接入动作

计算观测向量

和所述智能节点当前时隙执行信道接入动作

后获得的奖励

，根据所述智能节点当前时隙的状态

计算所述智能节点下一时隙的状态

；

将所述

、

、

和

进行联合，得到一组数据集

；

将所述数据集

保存至所述经验重放池中，直至达到所述经验重放池的容量阈值。

7.根据权利要求1所述的方法，其特征在于，将所述智能节点下一时隙的状态输入所述目标Q网络进行处理，输出目标Q值，包括：

将每组数据集中所述智能节点下一时隙的状态

输入所述目标Q网络进行处理，得到目标Q值，表示为

，其中，

为所述目标Q网络的神经网络参数，

为折扣因子且

，

表示每组数据集中所述智能节点下一时隙的信道接入动作，

表示每组数据集中智能节点当前时隙执行信道接入动作

后获得的奖励，

表示每组数据集中智能节点下一时隙的状态，

为每组数据集中智能节点当前时隙的状态

到每组数据集中智能节点当前时隙的信道接入动作

的一个映射，

为所有动作空间。

8.根据权利要求1所述的方法，其特征在于，根据所述评价Q值和目标Q值计算损失函数，根据所述损失函数训练所述决斗深度循环Q网络模型，得到训练好的决斗深度循环Q网络模型，包括：

根据所述评价Q值和目标Q值计算均方误差损失函数，表示为

其中，

为期望运算符，

表示每组数据集中智能节点当前时

隙的状态，

表示每组数据集中智能节点当前时隙的信道接入动作，

表示每组数据集中智能节点当前时隙执行信道接入动作

后获得的奖励，

表示每组数据集中智能节点下一时隙的状态，

表示评价Q值，

表示目标Q值，

表示数据集组数；

根据所述均方误差损失函数训练所述决斗深度循环Q网络模型中的评价Q网络，并根据

更新所述评价Q网络中的神经网络参数，其中，

为时隙

时的神经网络参数，

为时隙

时的神经网络参数，

为学习率，且

，

表示对

求梯度；

重复迭代K次训练直至所述均方误差损失函数收敛时，将所述评价Q网络中的神经网络参数复制到所述目标Q网络中，得到训练好的决斗深度循环Q网络模型。

9.一种基于决斗深度循环Q网络的动态多信道接入装置，其特征在于，所述装置包括：

多信道异构无线网络构建模块，用于构建分时隙的多信道异构无线网络，所述多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点；

决斗深度循环Q网络模型构建模块，用于根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模，建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型；其中，所述评价Q网络和所述目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层；

模型训练模块，用于将所述智能节点当前时隙的状态输入所述评价Q网络进行处理，输出评价Q值，将所述智能节点下一时隙的状态输入所述目标Q网络进行处理，输出目标Q值；根据所述评价Q值和目标Q值计算损失函数，根据所述损失函数训练所述决斗深度循环Q网络模型，得到训练好的决斗深度循环Q网络模型；

测试模块，用于将待接入智能节点的状态输入所述训练好的决斗深度循环Q网络模型，输出信道接入结果，所述智能节点根据所述信道接入结果进行信道接入；

所述多信道异构无线网络构建模块，还包括：