CN110856268A

CN110856268A - 一种无线网络动态多信道接入方法

Info

Publication number: CN110856268A
Application number: CN201911047777.2A
Authority: CN
Inventors: 刘帅; 吴佳韵; 张尧; 洪彩霞; 吴吉鑫; 肖温; 何静
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-28
Anticipated expiration: 2039-10-30
Also published as: CN110856268B

Abstract

本发明公开了一种无线网络动态多信道接入方法，针对无线传感网络中信道的高度相关建立遵循马尔科夫联合分布条件下的动态多信道问题模型，从而解决外部干扰对动态多信道接入的影响，针对指数级计算量问题将动态多信道问题模型通过深度强化学习方法进行求解，把DQN算法中的神经网络看作逼近函数来近似Q值，由此避免了庞大的Q表格带来的指数级计算量；通过双控制器在不同维度层级上提取特征值，近似出不同Q值，再通过两者之间的相互制约以及它们与环境的交互不断训练神经网络，以达到最优的接入信道策略。本发明信道遵循马尔科夫联合分布，在保障主用户通信质量的前提下，考虑信道之间的相关度，提高频谱的利用率。

Description

一种无线网络动态多信道接入方法

技术领域

本发明属于本无线网络中动态频谱接入技术领域，具体涉及一种无线网络动态多信道接入方法。

背景技术

在认知无线电研究的背景下，一个标准的假设是次用户可能搜索和使用没有被主用户使用的空闲频道。为了提高无线网络频谱利用率、满足日益增长的容量需求，针对作为认知无线电关键技术之一的动态频谱接入技术的研究正在展开。

信道独立且同分布的情况下，短视策略(Myopic policy)具有简单、鲁棒的循环结构，除了正相关和负相关外，不需要知道转移概率。信道独立，但遵循不同分布时，动态多信道问题也可以建模为Restless Multi-armed bandit(RMAB)问题，目标是随着时间的推移使总期望奖励最大化。信道相同分布但不独立的情况下，Whittle Index策略具有与短视策略相同的简单半通用结构和最优性结果。

虽然现有的许多研究都集中在动态频谱接入技术的算法设计和实现上，但是仍然存在以下问题：1)现有的研究大多是在信道相互独立的前提下进行的，忽略了外部干扰会导致无线传感器网络中的信道高度相关；(N个相关信道，联合分布)；2)由于用户只能在每个时隙中观察所选的信道，所以问题可以看作为一个部分可观察的马尔科夫决策过程(POMDP)，但是找到精确的解需要指数计算，复杂度高；从而导致频谱资源利用率低，降低了主用户通信质量。

发明内容

本发明的目的在于提供一种无线网络动态多信道接入方法，以克服现有技术频谱资源利用率低、主用户通信质量差的问题，本发明能够在保障主用户通信质量的前提下，考虑信道之间的相关度，提高频谱的利用率，在没有先验知识和状态维度极大情况下，实现良好的动态多信道接入。

为达到上述目的，本发明采用如下技术方案：

一种无线网络动态多信道接入方法，包括以下步骤：

步骤1)，建立遵循马尔科夫联合分布条件下的动态多信道问题模型，动态多信道问题模型包括信道环境中的多个信道状态信息；

步骤2)、基于双控制器深度强化学习方法获取信道环境重多个信道状态信息误差最小信道信息，以多个信道状态信息误差最小信道信息所对应的信道信息作为接入信道，从而实现动态网络接入最优信道。

进一步的，针对无线传感网络中信道的高度相关问题，建立遵循马尔科夫联合分布条件下的动态多信道问题模型；

遵循马尔科夫联合分布条件下的动态多信道问题模型为：

C2：S_i＝[S_i1，...，S_ik，...，S_iN]

C3：

C4：

C5：

C6：

其中，C1为马尔科夫链的状态空间，C2是长度为N的向量，S_ik是信道k状态的二进制表示：好的(1)或坏的(0)；C3为信念向量，

是包含历史信息的状态条件概率，P为马尔科夫链的转移矩阵；C4为信念向量的更新，C5为预期累计折扣回报，π(Ω(t))为当前时隙t信念向量为Ω(t)时的策略，R_π(Ω(t))为策略的相应奖励，γ为折扣因子，C6为最大预期累计折扣回报。

进一步的，双控制器包括元控制器和子控制器。

进一步的，元控制器通过估计值函数获取信道编号信息，元控制器获取的信道编号信息作为子控制器的输入，子控制器通过估计值函数获取新的信道编号信息作为输出，若子控制器获取新的信道编号信息输出满足目标要求，则完成目标的多信道接入，若子控制器获取新的信道编号信息输出不满足目标要求，则重复上述步骤：通过元控制器重新获取信道编号信息，直至子控制器获取新的信道编号信息输出满足目标要求。

进一步的，具体包括以下步骤：

1)、首先初始化子控制器和元控制器的经验缓存{d₁，d₂}、深度神经网络{Q₁，Q₂}、搜索概率{ε1，ε2}、折扣因子γ、迭代次数和信道环境；

2)、通过元控制器从信道环境中随机获取一个信道的初始状态S，同时生成一个随机数εi2，如果随机数εi2小于元控制器初始化后的搜索概率ε2，则从元控制器的动作集中随机获取一个目标动作g做为子控制器的输入，如果随机数εi大于等于元控制器初始化后的搜索概率ε2，则通过元控制器神经网络给出的最大θ₂(s，g；θ_2，i)值得到的目标动作g做为子控制器的输入；

3)、元控制器将获取的初始状态S赋值给子控制器，子控制器同时生成一个随机数εi1，如果随机数εi1小于子控制器初始化后的搜索概率ε1，则从子控制器的动作集中随机获取一个目标动作a做为子控制器的输出，如果随机数εi1大于等于子控制器初始化后的搜索概率ε1，则通过子控制器神经网络给出的最大Q₁(s,a；θ_1,i，g)值得到子控制器的输出a；

4)、如果子控制器的输出a得到的信道良好，则完成目标的多信道接入，如果子控制器的输出a得到的信道占用，则返回步骤2)，直至子控制器的输出a得到的信道良好，完成目标的多信道接入。

进一步的，步骤4)中，根据子控制器的输出a，从信道环境中获取下一个非子控制器输出信道信息的下一个信道状态s'，获取内部奖励r，将{s,a,r，s'}存入子控制器经验缓存d₁中；同时更新元控制器神经网络的参数θ₂和子控制器神经网络的参数θ₁；同时从环境获得外部奖励f，累加外部奖励f为得到累加奖励F'，将{s₀,g,F'，s'}存入元控制器经验缓存d₂中，完成一次信道信息选择；获取内部奖励r具体为：如果子控制器的输出a得到的信道良好，则传输成功，内部奖励为正奖励，如果子控制器的输出a得到的信道占用，则传输失败，内部奖励为负奖励。

进一步的，元控制器通过估计值函数获取信道编号信息具体如下式：

C11：

C12：L₂(θ_2,i)＝E[(y_2,i-Q₂(s,g；θ_2,i))²]

C11为元控制器的实际输出值，C12为元控制器的损失函数，g为元控制器输出的目标动作，θ₂元控制器神经网络的参数，y_1,i为依据子控制器下一时隙的估计Q值得出的实际Q值，y_2,i为依据元控制器下一时隙的估计Q值得出的实际Q值。

进一步的，步骤4)中，同时更新元控制器神经网络的参数θ₂和子控制器神经网络的参数θ₁；元控制器神经网络的参数θ₂和子控制器神经网络的参数θ₁分别通过式13和式16更新：

C13：

C16：

L₁(θ_1,i)为子控制器实际Q值和估计Q值之间的误差期望，C16是对C15的梯度下降；L₂(θ_2,i)为元控制器实际Q值和估计Q值之间的误差期望，C13是对C12的梯度下降。

进一步的，子控制器通过估计值函数获取信道编号信息如下式：

C14：

C15：L₁(θ_1,i)＝E[(y_1,i-Q₁(s,a；θ_1,i,g))²]

C14为子控制器的实际输出值，C15为控制器的损失函数。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种无线网络动态多信道接入方法，通过建立遵循马尔科夫联合分布条件下的动态多信道问题模型，动态多信道问题模型包括信道环境中的多个信道状态信息；基于双控制器深度强化学习方法获取信道环境重多个信道状态信息误差最小信道信息，以多个信道状态信息误差最小信道信息所对应的信道信息作为接入信道，从而实现动态网络接入最优信道，本发明针对无线传感网络中信道的高度相关建立遵循马尔科夫联合分布条件下的动态多信道问题模型，从而解决外部干扰对动态多信道接入的影响，针对指数级计算量问题将动态多信道问题模型通过深度强化学习方法进行求解，把DQN算法中的神经网络看作逼近函数来近似Q值，由此避免了庞大的Q表格带来的指数级计算量；通过双控制器在不同维度层级上提取特征值，近似出不同Q值，再通过两者之间的相互制约以及它们与环境的交互不断训练神经网络，以达到最优的接入信道策略。本发明信道遵循马尔科夫联合分布，在保障主用户通信质量的前提下，考虑信道之间的相关度，提高频谱的利用率。

进一步的，针对不同层级上的隐特征值影响问题将深度强化学习问题通过引入控制器与子控制器进行求解，控制器与子控制器分别为两个不相干的深度神经网络，在深度强化学习能很好的解决动态多信道接入问题的情况下，优化性能。

附图说明

图1为本发明流程示意图。

图2为本发明Episode 0时Q损失与迭代次数的关系图；

图3为本发明中训练次数与奖励的关系图；

图4为采用DQN算法得出的训练次数与奖励之间实验结果图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

本发明考虑的动态多信道访问问题，一个用户动态从N个信道中选择一个来传输数据包；每个信道可以处于两种状态之一：好的(1)或坏的(0)。由于信道可能是相互关联的，所以整个系统可以描述为一个2^N状态的马尔科夫链；在每个时隙的开始，用户选择一个信道来检查和传输数据包；如果信道良好，则传输成功，用户获得正的奖励(+1)；否则传输失败，用户获得负的奖励(-1)。目标是使预期的长期回报最大化。

如图1所示，具体地，一种无线网络动态多信道接入方法，包括如下步骤：

动态多信道问题模型即：一个用户动态的从N个信道中选择一个信道来传输数据包，每个信道为空闲和占用两种状态，多个信道之间是相互关联的，所以整个多信道系统描述为一个2N状态的马尔科夫链，在每个时隙的开始，用户选择一个信道来检查和传输数据包，如果信道良好，则传输成功，用户获得正的奖励(+1)；否则传输失败，用户获得负的奖励(-1)；目标是使预期的长期回报最大化。

具体的，针对无线传感网络中信道的高度相关问题，建立遵循马尔科夫联合分布条件下的动态多信道问题模型；

遵循马尔科夫联合分布条件下的动态多信道问题模型为：

C2：S_i＝[S_i1，...，S_ik，...，S_iN]

C3：

C4：

C5：

C6：

元控制器通过估计值函数获取信道编号信息，满足元控制器获得最大化预期未来外在奖励，元控制器获取的信道编号信息作为子控制器的输入，子控制器通过估计值函数获取新的信道编号信息作为输出，满足子控制器最大化预期未来内在奖励，若子控制器获取新的信道编号信息输出满足目标要求，即新的信道编号信息传输成功，则完成目标的多信道接入，若子控制器获取新的信道编号信息输出不满足目标要求，即新的信道编号信息传输失败，则重复上述步骤，通过元控制器重新获取信道编号信息，直至子控制器获取新的信道编号信息输出满足目标要求。

具体包括以下步骤：双控制器包括元控制器和子控制器；

2)、通过元控制器从信道环境中随机获取一个信道的初始状态S，同时生成一个随机数εi2，如果随机数εi2小于元控制器初始化后的搜索概率ε2，则从元控制器的动作集中随机获取一个目标动作g做为子控制器的输入，即随机生成信道编号作为子控制器的输入，如果随机数εi大于等于元控制器初始化后的搜索概率ε2，则通过元控制器神经网络给出的最大θ₂(s，g；θ_2，i)值得到的目标动作g做为子控制器的输入；

3)、元控制器将获取的初始状态S赋值给子控制器，子控制器同时生成一个随机数εi1，如果随机数εi1小于子控制器初始化后的搜索概率ε1，则从子控制器的动作集中随机获取一个目标动作a做为子控制器的输出，即最终接入的信道编号，如果随机数εi1大于等于子控制器初始化后的搜索概率ε1，则通过子控制器神经网络给出的最大Q₁(s,a；θ_1,i，g)值得到子控制器的输出a；

4)、如果子控制器的输出a得到的信道良好，则传输成功，则完成目标的多信道接入，如果子控制器的输出a得到的信道占用，则传输失败，则返回步骤2)，直至子控制器的输出a得到的信道良好，完成目标的多信道接入。

步骤4)中，根据子控制器的输出a，获取内部奖励r，将{s,a,r，s'}存入子控制器经验缓存d₁中；同时更新元控制器神经网络的参数θ₂和子控制器神经网络的参数θ₁；同时从环境获得外部奖励f，累加外部奖励f为得到累加奖励F'，将{s₀,g,F'，s'}存入元控制器经验缓存d₂中，完成一次信道信息选择。获取内部奖励r具体为：如果子控制器的输出a得到的信道良好，则传输成功，内部奖励为正奖励，如果子控制器的输出a得到的信道占用，则传输失败，内部奖励为负奖励。

具体的，元控制器神经网络的参数θ₂和子控制器神经网络的参数θ₁分别通过式13和式16更新：

C13：

C16：

元控制器通过估计值函数获取信道编号信息具体如下式：

C11：

C12：L₂(θ_2,i)＝E[(y_2,i-Q₂(s,g；θ_2,i))²]

C11为元控制器的实际输出值，C12为元控制器的损失函数，g为元控制器输出的目标动作，θ₂元控制器神经网络的参数。

子控制器通过估计值函数获取信道编号信息如下式：

C14：

C15：L₁(θ_1,i)＝E[(y_1,i-Q₁(s,a；θ_1,i,g))²]

C14为子控制器的实际输出值，C15为控制器的损失函数。

r为内部奖励，γ为折扣因子，s为目标动作，a为子控制器输出的当前动作，s’为下一个信道状态，a’为子控制器输出的下一动作，θ_1,i为i时隙时子控制器神经网络的参数，θ_2,i为i时隙元控制器神经网络的参数，g为当前目标，y_1,i为依据子控制器下一时隙的估计Q值得出的实际Q值，L₁(θ_1,i)为子控制器实际Q值和估计Q值之间的误差期望，C16是对C15的梯度下降，y_2,i为依据元控制器下一时隙的估计Q值得出的实际Q值，L₂(θ_2,i)为元控制器实际Q值和估计Q值之间的误差期望，C13是对C12的梯度下降。

实验台由IEEE 802.15.4无线TelosB节点组成。设计了一对相距约20米的尘埃作为发射器/接收器。发射机定期地向16个可用信道中的每一个发送一个数据包，接收机记录成功和失败的尝试。根据真实的数据跟踪，采用发明提供的方法进行实验得到数据结果图。如图2所示，Episode 0时随着迭代次数的增加Q损失快速收敛。

将采用本发明提供的方法进行的实验得到的训练次数和奖励关系图与采用DQN方法进行实验得到的训练次数和奖励关系图进行比较，如图3和图4所示，图3代表本发明的实验结果，图4代表采用DQN方法的实验结果。本发明中相同训练次数，得到的奖励更大，即用户动态多信道接入成功的次数更多，性能得到提升。

Claims

1.一种无线网络动态多信道接入方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种无线网络动态多信道接入方法，其特征在于，针对无线传感网络中信道的高度相关问题，建立遵循马尔科夫联合分布条件下的动态多信道问题模型；

遵循马尔科夫联合分布条件下的动态多信道问题模型为：

C1：

C2：S_i＝[S_i1，...，S_ik，...，S_iN]

C3：

C4：

C5：

C6：

3.根据权利要求1所述的一种无线网络动态多信道接入方法，其特征在于，双控制器包括元控制器和子控制器。

4.根据权利要求3所述的一种无线网络动态多信道接入方法，其特征在于，元控制器通过估计值函数获取信道编号信息，元控制器获取的信道编号信息作为子控制器的输入，子控制器通过估计值函数获取新的信道编号信息作为输出，若子控制器获取新的信道编号信息输出满足目标要求，则完成目标的多信道接入，若子控制器获取新的信道编号信息输出不满足目标要求，则重复上述步骤：通过元控制器重新获取信道编号信息，直至子控制器获取新的信道编号信息输出满足目标要求。

5.根据权利要求4所述的一种无线网络动态多信道接入方法，其特征在于，具体包括以下步骤：

2)、通过元控制器从信道环境中随机获取一个信道的初始状态S，同时生成一个随机数εi2，如果随机数εi2小于元控制器初始化后的搜索概率ε2，则从元控制器的动作集中随机获取一个目标动作g做为子控制器的输入，如果随机数εi大于等于元控制器初始化后的搜索概率ε2，则通过元控制器神经网络给出的最大Q₂(s，g；θ_2，i)值得到的目标动作g做为子控制器的输入；

3)、元控制器将获取的初始状态S赋值给子控制器，子控制器同时生成一个随机数εi1，如果随机数εi1小于子控制器初始化后的搜索概率ε1，则从子控制器的动作集中随机获取一个目标动作a做为子控制器的输出，如果随机数εi1大于等于子控制器初始化后的搜索概率ε1，则通过子控制器神经网络给出的最大Q₁(s，a；θ_1，i，g)值得到子控制器的输出a；

6.根据权利要求5所述的一种无线网络动态多信道接入方法，其特征在于，步骤4)中，根据子控制器的输出a，从信道环境中获取下一个非子控制器输出信道信息的下一个信道状态s’，获取内部奖励r，将{s，a，r，s’}存入子控制器经验缓存d₁中；同时更新元控制器神经网络的参数θ₂和子控制器神经网络的参数θ₁；同时从环境获得外部奖励f，累加外部奖励f为得到累加奖励F’，将{s₀，g，F’，s’}存入元控制器经验缓存d₂中，完成一次信道信息选择。

7.根据权利要求5所述的一种无线网络动态多信道接入方法，其特征在于，获取内部奖励r具体为：如果子控制器的输出a得到的信道良好，则传输成功，内部奖励为正奖励，如果子控制器的输出a得到的信道占用，则传输失败，内部奖励为负奖励。

8.根据权利要求5所述的一种无线网络动态多信道接入方法，其特征在于，元控制器通过估计值函数获取信道编号信息具体如下式：

C11：

C12：L₂(θ_2，i)＝E[(y_2，i-Q₂(s，g；θ_2，i))²]

C11为元控制器的实际输出值，C12为元控制器的损失函数，g为元控制器输出的目标动作，θ₂元控制器神经网络的参数，y_1，i为依据子控制器下一时隙的估计Q值得出的实际Q值，y_2，i为依据元控制器下一时隙的估计Q值得出的实际Q值。

9.根据权利要求8所述的一种无线网络动态多信道接入方法，其特征在于，步骤4)中，同时更新元控制器神经网络的参数θ₂和子控制器神经网络的参数θ₁；元控制器神经网络的参数θ₂和子控制器神经网络的参数θ₁分别通过式13和式16更新：

C13：

C16：

L₁(θ_1，i)为子控制器实际Q值和估计Q值之间的误差期望，C16是对C15的梯度下降；L₂(θ_2，i)为元控制器实际Q值和估计Q值之间的误差期望，C13是对C12的梯度下降。

10.根据权利要求5所述的一种无线网络动态多信道接入方法，其特征在于，子控制器通过估计值函数获取信道编号信息如下式：

C14：

C15：L₁(θ_1，i)＝E[(y_1，i-Q₁(s，a；θ_1，i，g))²]

C14为子控制器的实际输出值，C15为控制器的损失函数。