CN112637914A

CN112637914A - 在双通道环境下基于dqn算法的信道切换系统及方法

Info

Publication number: CN112637914A
Application number: CN202011436120.8A
Authority: CN
Inventors: 张周; 赵润森; 秦伟; 闫野; 桂健钧; 郄志鹏; 王彤彤; 谢佳
Original assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-04-09
Anticipated expiration: 2040-12-10
Also published as: CN112637914B

Abstract

本发明提供了一种在双通道环境下基于DQN算法的信道切换系统及方法。每个簇的次用户节点用于进行信道切换的系统结构包括频谱感知模块、频谱任务处理器、强化学习模块。首先建网并寻找当前工作信道；进行信道切换的判决：每个感知时隙内频谱感知模块对当前工作信道进行频谱感知，如果当前工作信道空闲，则当前信道进行数据传输，强化学习模块初始化，频谱感知信息经过处理放入经验池作为训练样本集，强化学习模块实时调取样本进行学习并更新权重参数；如果忙碌，则当前信道参数作为强化学习模块输入并进行最优信道预测，上传优选信道至频谱管理器并进行信道切换决策。本发明提高了信道切换的实时性和所选信道的质量，保障了通信业务的持续进行。

Description

在双通道环境下基于DQN算法的信道切换系统及方法

技术领域

本发明属于无线通信技术领域，特别是一种在双通道环境下基于DQN算法的信道切换系统及方法。

背景技术

现有的信道切换技术，其主要分为主动信道切换和被动信道切换两类。主动式信道切换是通过次用户对主用户过去的活动规律进行统计与总结，并进行归纳，从而预测当前环境下当前时刻主用户对信道的占用情况，在传输过程中每隔一定的周期就主动的发起信道切换。被动式频谱切换是次用户在主用户回归的时候才会发起切换，在每一次信道切换发生前对当前环境下的各个信道进行频谱感知，找到空闲信道之后，再执行切换，如果没有找到合适的空闲信道，将会导致次用户发生通信中断现象。

基于现有的主动信道切换方法，有以下两方面的缺点：1)此方法需要当前工作信道的先验统计信息，需要进行不断的统计分析。先验信息不够好时容易导致预测不够准确。2)此方法对频谱感知的能力要求较高，并且周期性的频谱切换会对次用户的通信业务连续性造成一定的影响。

基于现有的被动信道切换，有以下两方面的缺点：1)每次切换过程次用户和主用户的碰撞不可避免。2)寻找空闲信道时间不可估计，感知可用信道时间超过一定时间将会导致通信中断现象，严重影响次用户服务质量和系统性能。

发明内容

本发明的目的在于提供一种在双通道环境下基于DQN算法的信道切换系统及方法，提高信道切换的实时性和所选信道的质量，保障通信业务的持续进行。

实现本发明目的的技术解决方案为：一种在双通道环境下基于DQN算法的信道切换系统，对于每个簇的次用户节点，用于进行信道切换的系统结构包括频谱感知模块、频谱任务处理器、强化学习模块，具体如下：

频谱任务处理器存在于整个簇中所有次用户节点，是一个控制实体，控制频谱感知模块，同时负责次用户节点各模块间的信息交流；

频谱感知模块是物理层模块，负责空穴检测，以及信号类型、信号调制方式、信号强度、信号信噪比这些参数的检测，并提供数据给频谱任务处理器和强化学习模块使用；

强化学习模块即RL模块为整个系统的主体模块，RL模块又分为经验池、DQN算法、预测三部分：

经验池部分，用于存储训练样本集，为频谱感知模块提供样本数据，并提供给DQN算法部分用于训练神经网络；

DQN算法部分，基于马尔科夫决策过程即MDP进行建模，包括两个神经网络结构，分别为Q神经网络和目标Q神经网络，使用DQN算法进行神经网络权值参数的更新；

预测部分包括一个神经网络结构，该神经网络完全实时的复制DQN算法部分的Q神经网络，当需要进行信道切换时激活该部分，进行最优信道的预测，并将预测结果返还至频谱管理器，用于次用户进行信道切换。

进一步地，当次用户节点为簇首时，信道切换系统还包括频谱管理器，频谱管理器位于簇首中的MAC层，是簇子网运行的关键，负责信道切换、管理信道以及整个簇中所有次用户节点的频谱协同；频谱任务处理器执行频谱管理器的命令。

本发明一种在双通道环境下基于DQN算法的信道切换方法，步骤如下：

步骤1，初始建网：整个网络所有次用户节点进行簇首选举，确定节点所属簇，以及节点是否为簇首；

步骤2，寻找当前工作信道；

步骤3，对是否需要信道切换进行判决：在确定工作信道后，根据帧结构设计，每个感知时隙内频谱感知模块首先对当前工作信道进行频谱感知，如果当前工作信道空闲，则不进行信道切换，跳转至步骤4；如果当前工作信道忙碌，则需要进行信道切换，跳转至步骤8；

步骤4，当前信道进行数据传输；

步骤5，强化学习模块初始化；

步骤6，频谱感知信息经过处理放入经验池作为训练样本集；

步骤7，强化学习模块在该时隙剩余时间内不断的实时调取样本进行学习并更新权重参数，实现模块中神经网络权重参数实时的随外界环境改变而智能的进行调整，当强化学习模块预测部分激活时提供此时最新权重参数实现最优信道的预测；

步骤8，当前信道参数作为强化学习模块预测部分输入并进行最优信道预测；

步骤9，上传优选信道至频谱管理器并进行信道切换决策；

步骤10，信道切换完成，并返回步骤3。

进一步地，步骤2所述寻找当前工作信道，具体如下：

簇首中频谱管理器启动工作，进行网络初始化；读取本地的信道配置参数：

如果存在备选信道，则使用备选信道作为工作信道；

如果不存在备选信道，则初始化频谱任务处理器，进行信道感知：如果存在空闲可用信道，则选择空闲可用信道为工作信道；否则频谱感知模块重新进行感知，直到找到可用信道；

簇首选择工作信道后下发信息，簇节点接收信息，工作在同一信道，此时该簇完成初始建网。

进一步地，步骤5所述强化学习模块初始化，具体如下：

强化学习模块初始化经验池容量为D，该容量根据具体硬件条件进行设置，用于存储神经网络的训练样本；初始化Q神经网络，并随机初始化该网络的权重参数θ；初始化目标Q神经网络，仍初始化对应的权重参数为θ；设定神经网络每次学习的最小样本量为M。

进一步地，步骤6所述频谱感知信息经过处理放入经验池作为训练样本集，具体如下：

在当前信道进行正常通信工作的同时，强化学习模块向频谱任务处理器发出进行实时学习更新的请求，节点的频谱感知模块在另一个通道上遵循频谱任务处理器指令对所有N个信道根据编号1～N进行感知；其中在一个时隙内频谱感知模块依次对所有信道进行检测，当一轮感知结束，当前时隙时间仍未结束，将会重复继续对所有信道依次进行感知，直到时隙结束；

与此同时强化学习模块将频谱感知模块感知结果归一化并统一格式，作为强化学习模块的输入，统一输入格式为(s_t、Z_i(t)、RSSI_i、SNR_i)，采用贪心策略ε-greedy算法得到动作a_t：

a_t＝argmax_aQ_t(s_t,a；θ)1-ε的概率执行

a_t＝random(a)ε的概率执行

其中s_t为所感知信道编号，Z_i(t)表示信道的可用状态，即对当前工作信道进行频谱感知的能量检测结果；RSSI_i为无线信号强度；SNR_i是当前信道的信噪比；a_t为在当前状态s_t下将要采取的动作值；Q_t(s_t,a；θ)为当前状态经过Q神经网络预测得出的Q值；a为所有动作的集合；ε为探索值；

执行当前状态s_t下所选择的动作a_t，根据奖励计算公式和状态转移计算公式得到对应的奖励r_t和下一状态s_t+1，重置s_t＝s_t+1，用于下一次循环的输入状态，公式如下：

r_t＝(1-Z_i(t))×(RSSI_i×ω1+SNR_i×ω2)

s_t+1＝[N']，N'＝a_t

其中r_t为当前状态s_t下执行动作a_t所获得的奖励；s_t+1为下一状态值；ω1为无线信号强度RSSI_i的权重参数；ω2为当前信道信噪比SNR_i的权重参数；

将(s_t、a_t、r_t、s_t+1)四个参数作为一个样本存入经验池中，因此每次感知一个信道即有一个样本存入经验池。

进一步地，步骤7所述强化学习模块实时调取样本进行学习并更新权重参数，具体如下：

通过步骤6经验池累积了样本，强化学习模块的DQN算法部分即开始进行实时的学习，通过经验池中样本的不断更新，在经验池中的样本数量满足预先设置的数量时，随机从经验池中取出最小样本量mini batch个样本作为目标Q神经网络的输入，得到当前目标Q值y_j：

其中y_j为输入样本j时的目标Q值；r_j为当前输入样本j的回报值；γ为权重参数；

为输入样本j时目标Q神经网络的预测输出；

DQN算法中损失函数定义为：

其中y_j为目标Q神经网络的输出值，Q(s_j,a_j；θ)为输入样本j时Q神经网络的输出值，通过最优化损失函数，利用神经网络的梯度反向传播更新Q神经网络中的权重参数θ；

采用上述方法，每经过100次的迭代更新，复制此时的Q神经网络的参数作为目标Q神经网络的参数；

通过将步骤6、步骤7重复循环，DQN算法部分实现与外界环境进行交互学习，其中Q神经网络和目标Q神经网络保持自身权重参数的不断更新，从而保证在强化学习模块中预测部份激活需要复制Q神经网络权重参数时，得到与外界环境相匹配的最新权重参数。

进一步地，步骤8所述当前信道参数作为强化学习模块输入并进行最优信道预测，具体如下：

当次用户节点正常工作时，频谱感知模块感知当前信道结果为信道忙碌时，即信道切换判决为1，次用户节点上传信道切换需求；频谱管理器下发指令激活强化学习模块的预测部分，频谱感知模块根据频谱管理器指令将当前信道感知信息，即信道状态参数(s_t、Z_i(t)、RSSI_i、SNR_i)作为输入送至强化学习模块的预测部分，并采取如下的动作选择算法得到最佳动作a_t：

a_t＝argmax_a Q_t(s_t,a；θ)

其中Q_t(s_t,a；θ)为强化学习模块预测部份的输出Q值集合；

最优信道s_t+1＝a_t，强化学习模块将最优信道上传至频谱管理器。

进一步地，步骤9所述上传优选信道至频谱管理器并进行信道切换决策，具体如下：

位于簇首的频谱管理器根据各子结点强化学习模块上传的最优信道信息做出融合判决，选择出现次数占比最高的优选信道作为最终的切换信道，频谱管理器下发切换指令，次用户节点进行信道切换。

进一步地，步骤10所述信道切换完成，并返回步骤3，具体如下：

信道切换完成，当前信道为信道s_t+1，返回步骤3，在该信道上，次用户节点对当前信道s_t+1再次进行频谱感知。

本发明与现有技术相比，其显著优点为：(1)利用强化学习结合神经网络，通过获取当前感知信道的状态数据，实现RL模块与环境的实时交互学习，从而在未知信道的先验信息和统计信息的情况下，实现最优信道的预测；(2)在环境发生变化后，由于模型的实时学习特性，可以很快的更新自身神经网络参数，根据新的参数做出新的预测；随着样本的训练最优信道的预测正确率不断上升，可达到很高的正确率；(3)无需进行空闲信道搜索，因此空闲信道搜索时间由RL模块计算时间代替，所用时间大大缩短。

附图说明

图1是信道切换方法对应的系统结构图。

图2是场景一对应的系统模型示意图。

图3是场景二对应的系统模型示意图。

图4是本发明在双通道环境下基于DQN算法的信道切换方法流程图。

图5是空穴搜索时间仿真图。

图6是优选信道正确率仿真图。

具体实施方式

当无线网络环境中次用户节点当前工作信道的主用户返回，亦或当前信道指标降低以及节点移动导致脱离信道可用范围不能满足节点正常通信的需要时，节点需要进行信道切换，常规的信道切换技术会导致通信的不稳定和不确定性，还会造成一定的切换时延，更有可能影响网络结构造成通信中断，为克服上述问题，本发明提出一种在双通道环境下基于DQN算法的信道切换系统及方法。

本发明采用强化学习技术同信道切换技术结合，建立一种信道切换系统如图1所示，包括频谱感知模块、频谱任务处理器、强化学习模块、频谱管理器四部分，其中只有当次用户节点为簇首时才具有频谱管理器这一模块。

其中频谱管理器位于簇首中的MAC层，是簇子网运行的关键，负责信道切换、管理信道以及整个簇中所有节点的频谱协同等。

频谱任务处理器存在于整个簇中所有次用户节点，是一个控制实体，控制频谱感知模块并执行频谱管理器的命令，同时负责次用户节点各模块间的信息交流。

频谱感知模块是物理层模块，负责空穴检测，信号类型、信号调制方式、信号强度、信号信噪比等一系列参数的检测，以提供数据给频谱任务处理器和强化学习模块使用。

强化学习模块(RL模块)为本发明主体模块，该模块又分为三部分：

首先是经验池部分，该部分主要用于存储训练样本集，主要为频谱感知模块提供的样本数据，以提供给DQN算法部分用于训练神经网络。

其次是DQN算法部分，该部分基于马尔科夫决策过程即MDP进行建模，其主要包括两个神经网络结构，分别为Q神经网络和目标Q神经网络(Target Q神经网络)，使用DQN算法进行神经网络权值参数的更新。

最后为预测部分，该部分主要包括一个神经网络结构，该神经网络完全实时的复制Q神经网络，当需要进行信道切换时，会激活该部分，进行最优信道的预测，并将结果返还至频谱管理器，用于次用户进行信道切换。

步骤1：初始建网。整个网络所有次用户节点进行簇首选举，确定节点所属簇，以及节点是否为簇首。

步骤2：寻找当前工作信道。簇首中频谱管理器启动工作，进行网络初始化。读取本地的信道配置参数，如果存在备选信道，则使用备选信道作为工作信道。否则初始化频谱任务处理器，进行信道感知，如果存在空闲可用信道，则选择其为工作信道，否则频谱感知模块重新进行感知，直到找到可用信道，簇首选择工作信道后，下发信息，簇节点接收信息，工作在同一信道，此时该簇完成初始建网。

步骤3：是否需要信道切换进行判决。在确定工作信道后，根据帧结构设计，每个感知时隙内频谱感知模块首先对当前工作信道进行频谱感知。可能出现以下两种情况：

1)能量检测结果Z_i(t)＝0，即当前工作信道空闲，信道切换判决为0，不进行切换，此时跳转至步骤4。

2)能量检测结果Z_i(t)＝1，即当前工作信道忙碌，信道切换判决为1，需要进行信道切换，此时跳转至步骤8。

步骤4：当前信道进行数据传输。信道切换判决为0，无需进行信道切换，当前信道可进行正常的通信工作，开始数据传输。

步骤5：强化学习模块初始化。强化学习模块初始化经验池(replay memory)容量为D(该容量可根据具体硬件条件进行设置)，用于存储神经网络的训练样本；初始化Q神经网络，并随机初始化该网络的权重参数θ。初始化target Q神经网络，仍初始化其权重参数为θ。设定神经网络每次学习的最小样本量(mini batch)为M，本发明中设定M为36。

步骤6：频谱感知信息经过处理放入经验池作为训练样本集。在当前信道进行正常通信工作的同时，强化学习模块向频谱任务处理器发出进行实时的学习更新的请求，节点的频谱感知模块在富裕的通道2上遵循频谱任务处理器指令对所有信道(1～N)根据编号进行感知。其中在一个时隙内频谱感知模块依次对所有信道进行检测，当一轮感知结束，当前时隙时间仍未结束，将会重复继续对所有信道依次进行感知，直到时隙结束。

与此同时强化学习模块将频谱感知模块感知结果归一化并统一格式，作为强化学习模块的输入，统一输入格式为(s_t、Z_i(t)、RSSI_i、SNR_i)，采用贪心策略(ε-greedy)算法即：

a_t＝argmax_aQ_t(s_t,a；θ)(1-ε)的概率执行

a_t＝random(a)ε的概率执行

得到动作a_t，其中s_t为所感知信道编号，a_t为在当前状态s_t下将要采取的动作值；Q_t(s_t,a；θ)为当前状态经过Q神经网络预测得出的Q值；a为所有动作的集合；ε为探索值，常使用0.5。

执行当前状态s_t下所选择的动作a_t，根据奖励计算公式和状态转移计算公式：

r_t＝(1-Z_i(t))×(RSSI_i×ω1+SNR_i×ω2)

s_t+1＝[N']，N'＝a_t

得到对应的奖励r_t和下一状态s_t+1，重置s_t＝s_t+1，用于下一次循环的输入状态。其中r_t为当前状态s_t下执行动作a_t所获得的奖励；Z_i(t)表示信道的可用状态，参数RSSI_i为无线信号强度；参数SNR_i是当前信道的信噪比；s_t+1为下一状态值；ω1为无线信号强度RSSI_i的权重参数；ω2为当前信道信噪比SNR_i的权重参数。

将(s_t、a_t、r_t、s_t+1)四个参数作为一个样本存入经验池中。因此每次感知一个信道即有一个样本存入经验池。

步骤7：强化学习模块实时调取样本进行学习并更新权重参数。通过步骤6经验池累积了样本，强化学习模块的DQN算法部分即可开始进行实时的学习，通过经验池中样本的不断更新，在经验池中的样本数量满足预先设置的数量时，随机从经验池中取出最小样本量(mini batch)个样本作为目标Q神经网络的输入，得到当前目标Q值y_j：

为输入样本j时目标Q神经网络的预测输出。

DQN算法中损失函数定义为：

其中y_j为目标Q神经网络的输出值，Q(s_j,a_j；θ)为输入样本j时Q神经网络的输出值。通过最优化损失函数，利用神经网络的梯度反向传播来更新Q神经网络中的权重参数θ。

通过上述方法，每经过100次的迭代更新，我们复制此时的Q神经网络的参数作为目标Q神经网络的参数。通过将步骤6、步骤7不断地重复循环，DQN算法部分实现与外界环境进行交互学习，其中Q神经网络和目标Q神经网络保持自身权重参数的不断更新，从而在保证强化学习模块中预测部份激活需要复制Q神经网络权重参数时，可以得到与外界环境相匹配的最新权重参数。

步骤8：当前信道参数作为强化学习模块输入并进行最优信道预测。当次用户节点正常工作时，频谱感知模块感知当前信道结果为信道忙碌时，即信道切换判决为1，次用户节点上传信道切换需求。频谱管理器下发指令激活强化学习模块的预测部分，频谱感知模块根据频谱管理器指令将当前信道感知信息，即信道状态参数(s_t、Z_i(t)、RSSI_i、SNR_i)作为输入送至强化学习模块的预测部份，并采取如下的动作选择算法：

a_t＝argmax_aQ_t(s_t,a；θ)

得到最佳动作a_t，其中Q_t(s_t,a；θ)为强化学习模块预测部份的输出Q值集合。最优信道s_t+1＝a_t，强化学习模块将最优信道上传至频谱管理器。

步骤9：上传优选信道至频谱管理器并进行信道切换决策。位于簇首的频谱管理器根据各子结点强化学习模块上传的最优信道信息做出融合判决，选择出现次数占比最高的优选信道作为最终的切换信道，频谱管理器下发切换指令，次用户节点进行信道切换；

步骤10：信道切换完成，当前信道为信道s_t+1。在该信道上，次用户节点对当前信道s_t+1再次进行频谱感知，以减少与主用户发生碰撞的几率。如信道s_t+1空闲，即可进行正常通信，并跳至步骤4继续进行强化学习模块的学习；如信道s_t+1忙碌，则继续执行信道切换，跳至步骤8。

使用本发明所提方法，次用户使用主用户返回之前通信过程中空闲的通道资源实时的与环境进行交互并训练模型，可在未知当前环境的先验信息和统计信息的条件下经过短时间的与无线网络环境的交互学习选出当前空闲概率大且信道质量最优的信道，进行信道切换，有效的提高了切换的实时性和所选信道的质量，保障了通信业务的持续进行。

下面结合附图及具体实施例对本发明做进一步详细说明。

实施例

针对次用户在一定的条件下需要进行信道切换的问题，本实施例设计了一种在双通道环境下基于DQN算法的信道切换方法。本实施例考虑的系统模型如图1所示。模型描述了在多信道环境下基于硬件具有富裕通道的基础条件上进行信道切换过程。系统模型图只列出典型的单个次用户节点(即SU₁)的信道切换系统结构，对于多个次用户节点的环境，只需要简单的对每个次用户节点应用此结构即可。该方法下，次用户的信道切换状态分为两种场景。

场景一如图2所示，对应图4信道切换判决结果为“否”的流程，即次用户当前工作信道处于空闲状态。首先次用户感知当前信道，使用能量检测的方法进行频谱感知，结果为0，该信道空闲，可以继续进行通信数据的传播；同时根据能量检测结果，信道切换判决为0，即不激活强化学习的实时预测模块，而是在节点富裕通道上继续进行实时的强化学习过程；因此根据指令在第一通道次用户感知完成进行通信的同时，第二通道上强化学习模块指导频谱感知模块对所有信道(1—N)不断进行频谱感知；每次感知后都会将感知信息(包括该信道忙闲状态、该信道RSSI以及该信道的信噪比)作为训练样本传入至RL模块，强化学习模块则根据实时的样本数据更新自身神经网络参数，从而做到跟外界环境同时进行变化，随时做好推选最优信道的准备。

场景二如图3所示，对应图4信道切换判决结果为“是”的流程，即次用户当前工作信道处于忙碌状态。首先次用户感知当前信道，感知结果为1，即该信道不可用，需要进行信道切换，信道切换判决为1，激活强化学习的实时预测模块，此时会将当前工作信道的感知信息作为输入，强化学习预测模块会给出当前环境下的最优切换信道k，以供信道切换。当一次信道切换完成，当前信道为k，在该信道上次用户节点会重复上述感知步骤，再次根据感知结果选择符合的场景，从而选择进行通信或继续切换信道。

其中外界网络环境为多信道环境，包含N个信道，每个信道的空闲概率是独立同分布的。该方法针对周期性信号效果最好，因为周期性信号主用户的出现较为规律且可以在较长时间内保持不变，因此强化学习模块可以具有充足的训练时间。

为便于描述，首先对网络环境中的信道基本参数做出定义如下：

1)网络环境中存在N个主用户信道，并按照一定的频率范围将信道进行编号(1，2，3...N)，主用户PU数量为N，次用户SU数量理论上可为任意多个；

2)每个信道的状态均为两种：①空闲状态，即感知结果Z_i(t)＝0，信道切换判决为0；②忙碌状态，即感知结果Z_i(t)＝1，信道切换判决为1。其中i为信道标号，取值范围为(1～N)，t为一个时隙中的最小感知的时间的计数。

3)其中该网络下的每个信道的空闲概率均是独立同分布的，需要指出，本发明方法对于各种典型无线信道都适用。

无线多信道网络环境中，本发明所设计的双通道环境下基于DQN算法的信道切换方法中强化学习模块基于马尔可夫决策过程MDP进行建模，并采用DQN算法进行模型的训练。其模型的主要元素包括状态空间、动作空间、奖励函数、状态转移概率。

①状态空间

s＝[N]，其中N为无线网络环境中信道的编号，取值范围s＝(1、2、3…N)。

②动作空间

动作空间根据总信道数目决定，取值范围a＝(1、2、3…N)，不同的动作选择表示切换至不同的信道。

③奖励函数

r＝(1-Z_i(t))×(RSSI_i×ω1+SNR_i×ω2)

其中参数Z_i(t)表示信道的可用状态，Z_i(t)＝1或0。当所感知的信道忙碌时，Z_i(t)＝1，奖励值R＝0，当所感知信道空闲时，Z_i(t)＝0时，奖励值为正值，使用此参数降低了选择忙碌状态信道的概率，减小了次用户与主用户发生碰撞的机会。

参数RSSI_i由当时所对应信道的能量检测模块提供，RSSI以-90dBm为基准，实际测量值为RSSI除以基准，因此权重

参数SNR_i是当前信道的信噪比，该值越大越有利于次用户节点通信，因此权重参数ω2为正值。

最终奖励值信道由当前感知信道的参数Z_i(t)、RSSI_i和SNR_i共同决定。

4)状态转移概率P(s'|s,a)

s'＝[N']，在本模型中，下一状态s'是可以通过计算得到的，其中N'＝a，即下一状态由当前状态和当前动作值决定。

整体系统的具体实现步骤如图4所示，具体描述如下：

步骤5：强化学习模块初始化。强化学习模块初始化经验池(replay memory)容量为D(该容量可根据具体硬件条件进行设置)，用于存储神经网络的训练样本；初始化Q神经网络，并随机初始化该网络的权重参数θ。初始化target Q神经网络，仍初始化其权重参数为θ。设定神经网络每次学习的最小样本量(mini batch)为M，本实施例中设定M为36。

a_t＝argmax_aQ_t(s_t,a；θ)(1-ε)的概率执行

a_t＝random(a)ε的概率执行

r_t＝(1-Z_i(t))×(RSSI_i×ω1+SNR_i×ω2)

s_t+1＝[N']，N'＝a_t

为输入样本j时目标Q神经网络的预测输出。

DQN算法中损失函数定义为：

a_t＝argmax_aQ_t(s_t,a；θ)

本发明经过仿真测试，通过计算机模拟验证本发明所提方法的有效性。

首先在空穴搜索时间方面。传统方法对一个信道进行一次能量检测的时间约为1ms，传统方法进行空穴搜索的时间随信道数目的增加而递增，对20个信道进行一遍空穴搜索时间可达到20ms，。本发明所提方法在节点需要进行切换时无需再对频谱进行空穴检测，只需进行一次RL模块的计算，空闲信道搜索时延和信道数量无关，在350μs左右浮动，处于微秒级别，相较于传统方法时间短。在各信道信噪比SNR、接收信号强度RSSI、信道忙碌状态保持不变的情况下，统计信道数量不同时下空穴搜索时间的变化，其仿真结果如图5所示。

另一方面，在信道优选方面。传统方法寻找空闲信道的正确性很高，但是只是采用最先检测到的处于空闲状态的信道。在信道总数为20的无线网络环境中，各信道信噪比SNR在-15db～20db的范围取值，接收信号强度RSSI在0～70取值，信道忙闲状态用0，1表示，已知各信道感知信息和最优信道的前提下，在不同的学习次数时统计RL模块进行100次信道优选的结果，计算信道优选的正确率，可以看出本发明所提方法可以在未知信道先验信息和统计信息的情况下，经过短时间的与环境的交互学习就达到很高的优选信道正确率。从而在需要进行信道切换时选出当前空闲概率大且信道质量最优的信道。其仿真结果如图6所示。

综上可知，本发明的关键技术方案如下：①本发明设计了一种基于多通道的信道切换方案。在一个感知时隙内，节点首先对当前工作信道进行感知，根据感知结果该模型分为两种场景，当节点检测当前工作信道空闲进行正常的通信业务时，通过使用多余的通道资源对全频域信道进行频谱感知，并将获取的感知数据用于强化学习模型的学习训练。当节点检测当前工作信道忙碌，暂停通信业务，通过调用当前信道状态参数和强化学习预测模块选举出当前环境下最优的信道，并进行信道切换。在新的信道上重新执行频谱感知，根据感知结果选择信道切换模型对应的情况继续执行，直到该时隙结束。

②本发明设计了一种基于DQN算法的信道切换方法，其中信道切换系统中的强化学习模块基于马尔科夫决策MDP进行建模，并使用DQN算法进行强化学习模块中的各个神经网络的参数权重更新。具体为首先强化学习模块实时获取信道各项感知结果，经过处理存入经验池作为样本集，为神经网络的结构提供训练样本；其次DQN算法部分调用样本数据集进行训练，达到与外界环境交互实时更新神经网络参数的；最后通过DQN算法结构的设计实现能够预测最优信道的神经网络。当次用户节点需要进行信道切换时，通过频谱感知模块输入当前信道感知信息至强化学习模块的预测部份，即可选出当前环境下的最优的信道。

Claims

1.一种在双通道环境下基于DQN算法的信道切换系统，其特征在于，对于每个簇的次用户节点，用于进行信道切换的系统结构包括频谱感知模块、频谱任务处理器、强化学习模块，具体如下：

2.根据权利要求1所述的在双通道环境下基于DQN算法的信道切换系统，其特征在于，当次用户节点为簇首时，信道切换系统还包括频谱管理器，频谱管理器位于簇首中的MAC层，是簇子网运行的关键，负责信道切换、管理信道以及整个簇中所有次用户节点的频谱协同；频谱任务处理器执行频谱管理器的命令。

3.一种在双通道环境下基于DQN算法的信道切换方法，其特征在于，步骤如下：

步骤2，寻找当前工作信道；

步骤4，当前信道进行数据传输；

步骤5，强化学习模块初始化；

步骤6，频谱感知信息经过处理放入经验池作为训练样本集；

步骤9，上传优选信道至频谱管理器并进行信道切换决策；

步骤10，信道切换完成，并返回步骤3。

4.根据权利要求3所述的在双通道环境下基于DQN算法的信道切换方法，其特征在于，步骤2所述寻找当前工作信道，具体如下：

如果存在备选信道，则使用备选信道作为工作信道；

5.根据权利要求3所述的在双通道环境下基于DQN算法的信道切换方法，其特征在于，步骤5所述强化学习模块初始化，具体如下：

6.根据权利要求5所述的在双通道环境下基于DQN算法的信道切换方法，其特征在于，步骤6所述频谱感知信息经过处理放入经验池作为训练样本集，具体如下：

a_t＝argmax_aQ_t(s_t,a；θ) 1-ε的概率执行

a_t＝random(a) ε的概率执行

r_t＝(1-Z_i(t))×(RSSI_i×ω1+SNR_i×ω2)

s_t+1＝[N']，N'＝a_t

7.根据权利要求6所述的在双通道环境下基于DQN算法的信道切换方法，其特征在于，步骤7所述强化学习模块实时调取样本进行学习并更新权重参数，具体如下：

为输入样本j时目标Q神经网络的预测输出；

DQN算法中损失函数定义为：

8.根据权利要求7所述的在双通道环境下基于DQN算法的信道切换方法，其特征在于，步骤8所述当前信道参数作为强化学习模块输入并进行最优信道预测，具体如下：

a_t＝argmax_aQ_t(s_t,a；θ)

其中Q_t(s_t,a；θ)为强化学习模块预测部份的输出Q值集合；

9.根据权利要求8所述的在双通道环境下基于DQN算法的信道切换方法，其特征在于，步骤9所述上传优选信道至频谱管理器并进行信道切换决策，具体如下：

10.根据权利要求9所述的在双通道环境下基于DQN算法的信道切换方法，其特征在于，步骤10所述信道切换完成，并返回步骤3，具体如下：