CN114449629B

CN114449629B - 一种边缘智能驱动的无线多跳网络信道资源优化方法

Info

Publication number: CN114449629B
Application number: CN202210082401.0A
Authority: CN
Inventors: 尚凤军; 王颖; 雷建军
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2023-07-21
Anticipated expiration: 2042-01-24
Also published as: CN114449629A

Abstract

本发明涉及无线网络通信领域，涉及一种边缘智能驱动的无线多跳网络信道资源优化方法；所述方法包括将系统时间划分为多个连续的超帧，每个超帧包括控制周期和数据传输周期；在控制周期内，所有无线节点工作在同一信道以获取或传输控制消息，并按照集中式学习者反馈的模型参数配置出本地信道分配决策模型进行信道分配；在数据传输周期内，需进行数据传输的无线节点根据基于接入编号的自适应休眠唤醒机制被唤醒，按照交错调度机制将数据在从K个非重叠信道中选择的信道上进行并行数据传输；本发明将边缘计算与深度强化学习算法相结合，在保证低功耗、低时延、高准确率和隐私安全性的同时，使资源受限的终端节点拥有执行智能算法的能力。

Description

一种边缘智能驱动的无线多跳网络信道资源优化方法

技术领域

本发明涉及无线网络通信领域，具体而言，涉及一种边缘智能驱动的无线多跳网络信道资源优化方法。

背景技术

随着无线通信技术的飞速发展，无线多跳通信技术已广泛应用于住宅、商业和公共服务等领域，已经渗透到人们生活和工作的方方面面，发挥着越来越重要的作用。无线多跳网络技术作为物联网(Internet of Things,IoT)的主要底层支撑技术近年来引起了学术界和工业界广泛的关注。与传统的有线监控系统相比，无线网络具有自配置、自组织的特点，在降低部署成本、增强灵活性等方面具有巨大的潜力，已广泛应用于工业自动化、物流、智能城市、医疗卫生等复杂的工业应用领域。随着无线终端节点的爆炸式增长，传统的单信道部署已无法满足端到端时延和高可靠性数据传输的要求，无法保证系统健壮性和网络性能。

多信道通信技术作为一种极具潜力的解决方案可有效地缓解节点之间的干扰，并提高数据传输的可靠性，目前已被广泛应用于各种无线网络体系结构中。然而，多信道技术的应用在提高网络容量的同时，也对多跳无线网络中信道分配算法的设计带来了新的挑战。大量专家学者针对多信道分配算法进行了深入研究，旨在降低节点间的干扰和优化信道利用率，包括基于专用信道分配、并行信道协商机制和基于伪随机序列跳频的信道分配算法。然而，这些算法需要频繁的信道协商和信道切换，并且在高负载情况下，未进一步考虑多跳网络中信道资源利用不合理和节点的能耗问题。

采用休眠-唤醒机制能够有效解决网络中的能耗问题，缩小有限的能源供应和应用寿命之间的差距，而节点休眠是保存能耗的最佳途径。在休眠模式中，节点关闭无线电，进入休眠状态已保存能量。然而休眠时间过长则可能无法实现实时数据传输；休眠时间太短会导致节点收发机频繁切换。因此，如何设置休眠时间成为关键。目前，大多数休眠策略是静态(即节点采用固定休眠时间)，或需要收发节点进行频繁的控制消息交互，这些策略没有充分考虑动态环境问题和节点剩余能量约束等问题，不能实现最优的休眠唤醒策略尤其是在动态且复杂的网络环境中。因此，设计自适应、低开销的休眠唤醒机制是进一步延长网络寿命实现低功耗数据传输的有效途径。

强化学习(reinforcement learning,RL)是机器学习的重要分支之一，通过智能体(Agent)与环境进行交互：Agent根据其当前状态选择相应的动作，环境将相应的奖励值反馈给Agent以进一步指导Agent的行动。因此，Agent根据观察到的信息调整策略，直到智能体的策略接近最佳策略为止。传统的RL算法不能解决大规模的状态和动作空间中的决策问题。DRL引入深度神经网络(Deep Neural Networks,DNNs)从原始数据中提取特征来逼近行为值函数来实现在大规模网络环境下状态到行为的映射。尽管DNN已经改善了提高RL在复杂环境下的学习能力，但由于多跳无线网络中节点的部分可观测特性，训练多个分布式DRL智能体仍然是不可行尤其是在对于高维的状态空间场景下。而异步优势演员批评家网络(A3C)采用异步训练框架来优化网络结构，打破了经验之间的相关性的同时，提高了网络收敛速度。然而，其不能直接部署在只有一个CPU的无线终端节点上。此外，考虑到有些无线终端设备，如传感器节点，由于其有限的计算能力、能量和存储能力，无法完成高级应用的计算任务。此外无线终端设备在计算、能量和性能上都有一定的局限性这导致其在运行计算密集型任务时性能较差。

目前，针对信道分配算法的研究主要包括：基于静态信道分配、基于动态信道分配和基于混合信道分配方法。静态信道分配是指节点一旦分配完信道后就基本保持不变，或者在较长时间间隔才进行信道切换。基于静态信道的分配算法仅适用于网络拓扑稳定的场景，对于动态变化的网络拓扑场景，静态信道分配算法并不能达到很好的效果。而动态信道分配方案允许节点基于网络状态分布式切换信道以解决动态网络拓扑问题。因此，基于动态信道的分配方案的信道分配算法虽然能够根据网络的实时情况变换信道，增强了算法的灵活性。但是，频繁的信道切换对节点间的协作问题带来了新的挑战，此外，也对增加网络延迟，致使网络获取消息滞后，导致信道分配性能低下。混合信道的分配方法结合了静态信道分配和动态信道分配算法，既具备静态信道分配算法的易实现性又有动态信道分配方案的灵活性。此外，随着计算技术的飞速发展，越来越多基于群体智能的信道分配算法也随之出现，这些智能的信道分配方案实现了更好的网络性能。上述基于网络拓扑、干扰图、伪随机码的信道分配算法大多只关注频域上的信息。然而，在无线多跳网络中特定信道上的隐藏终端和暴露终端问题，以及无线多跳网络中的能耗问题不可忽略。

此外，针对低功耗的休眠唤醒机制，专利CN105025585A公开了一种基于多址接入方法，其整个系统时间划分为多个信标周期，在信标周期的第一个时段内所有终端设备进入唤醒状态并侦听网关设备发送的预约消息以通知控制消息；此后，所有终端设备进入休眠状态，与预约消息的传输相应的终端设备在所预约的传输时间独立地唤醒旨在构建低成本、低功耗、低延迟、大规模、高效率的网络。然而该专利没有考虑到单射频多信道无线多跳网络中的干扰问题，并且在大规模网络部署场景下可能会带来很大的数据传输延时。

发明内容

为克服现有技术中的不足，本发明提供了一种边缘智能驱动的无线多跳网络信道资源优化方法，其将整个系统时间划分为多个连续的超帧。每个超帧包括控制周期和数据传输周期，其中控制周期和数据传输周期的长度随网络环境自适应优化：在控制周期内，所有的无线节点工作在同一信道以获取或传输相关控制消息，并且在每个控制周期，所述无线节点基于本地信道分配决策模型实现分布式的信道分配。而在数据传输周期内，系统提供K个非重叠的数据子信道以支持并行数据传输，同时采用交错调度机制解决了单射频多信道无线多跳网络数据传输中的消失节点问题；此外，设计基于接入编号的自适应休眠唤醒机制进一步优化数据传输可靠性和能耗问题。本发明进一步分析了信道分配和休眠机制之间的相互关系，并提出一种信道分配和休眠机制进行联合优化以进一步降低网络中的干扰和数据冲突，提高信道的利用率和系统吞吐量，以保证无线节点之间数据业务传输的可靠性。

相对于现有技术而言，本发明具有以下有益效果：

本发明提出一种边缘智能驱动的无线多跳网络信道资源优化方法，将边缘计算与深度强化学习算法相结合，在保证低功耗、低时延、高准确率和隐私安全性的同时，使资源受限的终端节点拥有执行智能算法的能力。本发明提出的基于DDPG的异步深度强化学习模型，采用分布式交互和集中式训练来解决资源受限的终端智能化信道分配问题。此外，相比传统的深度强化学习模型，本发明所采用的异步深度强化学习模型能够提供更加多样的经验以此加速了模型收敛，此外，该模型适用于动态网络场景，具有较强的可扩展性；因此，在控制周期，将信道分配决策模型下沉到无线节点的终端进行部署，结合本地数据与算法的决策能力，解决了资源受限和实时处理问题。在数据传输期间，本发明采用基于接入编号的自适应休眠唤醒机制减少了不必要的控制开销的同时实现了低功耗的数据传输，有效地解决了单射频多信道高密度无线多跳网络中的消失节点、隐藏终端和暴露终端等问题。此外，本发明进一步将信道分配决策和休眠机制进行协作优化，将休眠机制中得到的与信道分配决策有关的参数反馈到决策模型优化中，进一步提升节点的能量效率和数据传输的可靠性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例提供的系统架构图；

图2是本发明实施例提供的信道资源优化方法流程图；

图3是本发明实施例提供的自适应超帧结构图；

图4是本发明实施例提供的基于异步深度强化学习的信道分配架构图；

图5是本发明实施例提供的数据传输周期结构图；

图6是本发明实施例提供的交错调度机制工作原理图；

图7是本发明实施例提供的休眠-唤醒机制工作原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明实施例中的技术方法进行清楚、完整地描述。所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。应注意到：相似的标号和字母下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

图1是本发明实施例的信道资源优化的系统结构图，如图1所示，在本发明实施例中，所述系统架构包括物理设备层、计算层和网络服务层。其中，物理设备层由随机部署在网络中的多个无线节点组成一个无线多跳网络，每个无线节点可以是温度传感器、湿度传感器等等各类传感器节点，其为具有感知和通信功能的无线节点，在无线多跳网络中负责监控目标区域并获取数据，以及完成与其他无线节点的通信，同时，这些无线节点构成的多信道无线多跳环境中，在控制周期，无线节点执行信道分配决策，在数据传输周期，无线节点执行信道接入机制，这里的信道接入机制包括交错调度、确定性访问和自适应休眠和感知等机制；在周期过程中，这些数据将与上层的计算层进行交互，通过计算层的计算结果，指导完成信道分配和信道接入；计算层的汇聚节点和集中式学习者负责数据传输、数据分析、网络处理来自无线多跳网络中的无线节点的数据，并将数据在DDPG深度强化学习模型上进行训练，定期将训练后的模型参数下发给无线节点，无线节点根据下发的模型参数更新信道分配决策模型进行对应的信道分配。其中，集中式学习者根据节点采集的经验训练用于信道分配的深度强化学习模型。因此，网络中的无线节点只需定期从集中式学习者处获取最新的决策模型参数和上传与环境交互采集的经验给集中式学习者即可；网络服务层包括信息服务器、管理服务器、管理系统和显示器，网络服务层可以支持一些特定应用；这些设备组成的网络服务层能够随时调用计算层的移动边缘平台中的各类数据，当然在一些实施例中，也可以不需要网络服务层。

基于上述分析，本实施例提供了一种边缘智能驱动的无线多跳网络信道资源优化方法，如图2所示，所述方法包括：

101、将系统时间划分为多个连续的超帧，每个超帧包括控制周期和数据传输周期；

在本发明实施例中，其将整个系统时间划分为多个连续的超帧。每个超帧包括控制周期和数据传输周期，其中控制周期和数据传输周期的长度随网络环境自适应优化。

具体地，图3示出了本发明实施例中的自适应超帧结构，其中整个系统时间被划分为多个连续的超帧，其中超帧周期随网络环境如最大节点跳数、总节点数和数据流密度由集中式控制器自适应优化，并通过信标帧B将相关参数发送给所有的无线节点。其中，每个超帧包括信标帧(Beacon Frame,B)、控制周期(Control Period,CP)和数据传输周期(DataTransmission Period,DTP)。控制周期采用一个公共的控制信道来传输相关控制信息，如无线节点的信道分配决策、路由和时间同步等；每个数据传输周期包含多个数据传输子周期，而每个数据控制子周期只有一些特定的无线节点可以传输数据，并且每个数据传输子周期包含多个数据传输时隙。具体地，在数据传输阶段每个无线节点只有三种信道状态：传输、接收和休眠。此外，当无线节点有数据要发送时，需切换到其父节点的工作信道以保证数据成功被父节点接收。

102、在控制周期内，所有无线节点工作在同一信道以获取或传输控制消息，并按照集中式学习者反馈的模型参数配置出本地信道分配决策模型进行信道分配；

在本发明实施例中，控制周期采用一个公共的控制信道来传输相关控制信息，无线节点会从集中式学习者定期获取最新的模型参数，并按照获取的模型参数配置出本地信道分配决策模型，按照当前观测到的网络状态来获取信道分配信息，并进行相应的信道分配，若节点在下一数据周期需要切换信道，则该节点需要在控制信道上广播该信道信息。

具体地，图4示出了本发明实施例中的信道分配决策模型，该分配决策模型是一种基于边缘智能驱动的异步深度强化学习模型，该模型用于解决无线多跳网络中的信道分配问题，旨在减少由于信道分配不合理导致的同频干扰问题。其中，在本发明中，所述信道决策分配模型采用改进的DDPG深度强化学习模型架构，主要包括集中式训练模块和分布式交互模块，该模型结合了DQN和A3C网络的优势，增强了模型的函数逼近能力，并且解决了DQN不适合于高维动作空间和MAS问题，而异步经验采集策略进一步打破了经验之间的相关性，显著地提高了网络的收敛速度。此外，每个无线节点上只需部署该DDPG模型的一部分(即动作模型中的目标模型)作为其决策模型与环境进行交互和经验采集，该决策模型的参数只需定期从集中式学习者更新即可。

其中，分布式交互模块(微学习)允许所有无线节点使用本地观测到的网络状态以异步方式来选择信道资源。集中式训练模块(宏学习)通过调整操作参数来训练异步DRL模型，从而引导系统朝着特定于全局优化目标(例如，最大化数据传输的可靠性)前进。因此，本发明改进后的DDPG深度强化学习模型能够有效地解决资源受限的节点无法进行大模型训练和计算问题。

具体地，分布式交互模块部署在每个无线节点上，每个无线节点在数据传输周期分布式地与环境进行交互，并从无线多跳网络中获取环境的反馈信息，即采集用于训练信道分配模型的经验信息。当所述信道分配模型未收敛时，无线节点需要传输该经验信息给集中式学习者。

其中，所述经验信息包括<s,a,r,s’>，即状态s，动作a，奖励r和下一个状态值s’信息。其中，状态信息s包括信道的使用情况、邻居节点数等；动作a表示节点欲切换的信道编号；考虑到节点在数据传输周期的性能受信道分配的影响，故本发明实施例将节点在所分配信道上的接入性能p作为奖励函数的一部分，以此进一步指导节点的信道分配决策。

本发明实施例将多信道分配问题建模为部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process，简称：POMDP)问题，其可以由五个元组组成：M＝<S,A,P,R,γ>，状态S、动作A、状态转移概率P、奖励函数R和折扣因子γ。智能实体观察当前网络状态S并在相应的时间步t(第t个控制周期)执行动作a(节点基于本地信道决策模块和局部观测状态选择当前最优信道)，从环境中获得奖励R_t(在第t个数据周期结束后计算)，并以一定的折扣因子γ进行计算。

状态空间，其中，K是可用信道数量，也指的是每种状态的维度，N是指节点数量。对于特定的无线节点i，在第t个周期时，为了便于描述以下变量中将省略下标i。则相应的状态向量，S_t∈S，可表示为：

S_t＝[S_t,1,...,S_t,K,S_t,K+1]

其中，S_t,k,j∈[1,K]表示信道的占用情况，S_t,k＝1表示无线节点i的邻居节点占用了信道k；反之，S_t,k＝0。S_t,K+1＝n_i,0是无线节点i的邻居节点总数。

动作空间，A＝{a₁,...,a_k,...,a_K}，k∈[1,K]。其中，a_k用于表示无线节点i在下一数据传输周期欲切换的信道编号，a_k＝ch_i,t,k。

奖励函数，R。当无线节点i在第t个数据周期，执行动作s_t，并切换到信道a_t＝ch_i,t,k时，在该数据传输周期结束后，环境会返回给该无线节点一个奖励值，R(s_t,a_t),该奖励函数值可根据不同网络场景调整，以最大化特定网络性能。

状态转移函数P：是指当节点在状态s下执行动作a，转移到下一状态s'的概率；

折扣因子γ∈[0,1]：用来调节近远期影响，即agent做决策时考虑多长远。γ越大agent更偏重于未来的收益；γ越小agent越注重当前收益。

具体地，集中式训练模块部署在集中式学习者指边缘服务器；集中式训练模块通过采集分布式交互模块的经验反馈信息，来更新动作模型和评估模型，并将更新后的模型参数反馈至无线节点中的分布式交互模块中。

在本发明实施例中，所述集中式学习者基于网络中每个无线节点分布式异步采集的经验信息集中式地训练用于信道分配的深度强化学习模型，并把更新后的网络模型参数发送给节点。

所述异步DRL模型中采用DDPG模型，其包括四个网络。其中，Actor模型包括main策略网络和Target策略网络，Critic包括模型main Q网络和Target Q网络。2个Actor模型网络的结构相同，2个Critic模型网络的结构相同。每个无线节点上部署一个决策模型，该模型Actor Target策略网络相同。

Actor main策略网络：即主策略网络，负责策略网络参数θ的迭代更新；

Actor Target策略网络：即目标策略网络，负责根据经验回放池中采样的下一状态s′选择最优下一动作a′。策略网络的参数θ′，从Actor main策略网络中定期复制；

Critic main Q网络：即主Q网络，负责价值网络参数ω的迭代更新，负责计算当前Q值，Q(s,a；ω)，ω是Critic main Q网络的参数；

Critic Target Q网络：即目标Q网络，用于计算Q_target,即Y_i＝R+γQ(s,a；ω’)，其中，ω’是Critic Target Q网络的参数，该参数定期从Critic main Q中复制。

基于上述分析，本发明中所述集中式学习者在基于DDPG的异步深度强化学习模型中，利用所述经验信息进行集中式训练的过程如下：

1)汇聚网络中无线节点采集的经验，并存放到集中式学习者的经验回放池中，更新经验池；

2)集中式学习者从经验回放池中采样m(mini-batch)个样本，e_j＝<s_j,a_j,r_j,s′_j>,j＝1,2,...,m；

3)计算Target Q值：

4)计算均方误差：基于深度网络的梯度反向传播更新Critic main网络参数ω；

5)计算通过神经网络的梯度反向传播来更新Actormain策略网络的参数；

6)每运行C轮，更新Actor Target策略网络和Critic Target Q网络参数：

θ′←αθ+(1-α)θ′

ω′←αω+(1-α)ω′

7)网络中的无线节点定期从集中式学习者处获取最新的网络参数θ′，并与环境进行交互和采集经验。

在一些优选实施例中，可以重复上述过程使网络达到稳定状态，达到稳定状态的网络参数可以发送给无线节点，供无线节点配置出网络模型来进行信道分配决策。

103、在数据传输周期内，需进行数据传输的无线节点根据基于接入编号的自适应休眠唤醒机制被唤醒，按照交错调度机制将数据在从K个非重叠信道中基于信道分配决策模型选择的信道上进行并行数据传输；

此外，本发明针对单射频多信道无线多跳网络中的消失节点、数据冲突和能耗问题，提出了一种基于交错调度和确定性退避的休眠机制。在高密度场景和能量受限的无线网络中，无线节点不必要的空闲侦听会加速网络死亡。因此，本发明实施例提出了一种基于交错调度和确定性退避的休眠唤醒机制。

所述数据传输周期包括多个数据传输子周期，每个数据传输子周期包括多个数据调度时隙，每个数据调度时隙可以完成一次数据包传输，其中数据传输子周期数和数据调度时隙数与环境有关并随网络环境自适应优化。当所述网络系统处于数据传输周期时，所述无线节点可以基于其距离sink无线节点的跳数，并根据奇偶跳数原则划分为两个不同组，从而可以采用交错调度策略进行调度；在每个数据传输子周期当奇数跳节点处于数据传输状态时，偶数跳节点处于数据接收状态；反之亦然。因此，本发明可避免单射频多信道无线网络中的消失节点问题。

在一些特定的数据传输子周期中，每个有数据要传输的无线节点会根据其分配到的接入时隙编号在特定地时隙唤醒并进行数据传输；其中，无线节点的接入时隙编号与其入网顺序和当前父节点的子节点总数有关。这些子节点只需在特定的时隙唤醒并传输数据，该确定性信道接入时隙编号可保证同一父节点的子节点间实现无冲突的数据传输。

在所述无线多跳网络中，工作在同一信道上的两个父节点的子节点可能存在冲突。因此，当所述节点在特定时隙唤醒发送数据并且发送冲突时，则该节点会在下一数据传输子周期中特定的时隙唤醒并再次发送数据；所述父节点由于在该时隙没有接收到来自该节点的数据包，则会在属于该节点发送的下一特定时隙唤醒并接收数据。

如图5所示，每个数据传输周期，包括n_dp个数据传输子周期，而每个数据传输子周期又包括h_max个数据传输时隙，可以表示为：

h_max＝H_max

其中，H_max表示网络中的最大网络跳数，以此保证在一个数据传输子周期中，叶子节点的数据能够尽快地传输给Sink节点。每个数据传输时隙包括n_mn个微时隙，n_mn可根据网络需求进行设置，如n_mn可以设置为网络中所有父节点的子节点数的众数、平均数(每个微时隙指节点可成功传输一个数据包的时间)。当网络环境发生变化时，即n_dp，H_max和n_mn改变时，超帧结构会随之自适应优化。

为了解决单射频多信道无线多跳网络中的消失节点问题，本发明实施例采用交错调度机制，即网络中的节点根据其自身到Sink节点的跳数分为两个不同的数据传输组。(跳数为奇数的节点分为一组，G1；跳数为偶数的节点分为一组,G2)。如图5所示，当奇数/偶数跳节点处于发送状态时，偶数/奇数跳节点处于接收状态，以避免子父节点同时处于发送状态导致数据丢包和网络拥塞。

数据传输和休眠：每个数据传输子时隙包括n_mn个微时隙，即每个数据传输子时隙可支持n_mn个无线节点在特定信道上相应的微时隙传输数据。在本发明实施例中，每个父节点会为其每个子节点分配一个唯一的信道接入编号，b_o∈[1,n_f]，n_f是其父节点的子节点总数。R_n是正整数，避免同一父节点的子节点选择相同的可接入微时隙编号，R_n＝1,2,3,...。因此，子节点可计算其在当前数据传输周期可接入信道的所有微时隙编号集合B_o。

B_o＝{b_o+R_n*n_f}

在所述无线多跳网络中，每个节点分布式地维护一个计数器，且该计数器在每个数据传输周期开始时均重置为0。特别地，只有在当前微时隙分配给该节点所在组中的节点时，所有该组中的节点每过一个微时隙将其计数器值加1；反之，节点冻结其计算器。基于此，无线节点可以根据本地计算器、缓冲区队列数和信道接入微时隙编号集合，在特定的微时隙决定是否唤醒和发送数据。

如图6所示，父节点F和父节点I为其所有的子节点A-E和h-g分配不同的信道接入编号，因此，节点A-E和g-h可以在其对应的B_o中任意微时隙向其父节点发送数据。同一父节点的所有的子节点的信道接入时隙值不同，因此节点A-E会在不同的时隙唤醒并在F的工作信道上发送数据，这些节点之间数据传输不会发生冲突。此外，当节点A成功传输数据给F，且该节点A还有更多的数据需要发送时，节点A和节点F均会在节点A的下一信道接入时隙时唤醒，进行数据传输和接收；当节点E无更多的数据传输时，则节点E会在其下一数据传输时隙处于休眠状态。此外，如图6所示在高密度场景下，可能存在相邻节点使用相同信道的情况(节点F和节点I工作在相同的数据信道上)，并且节点D的数据传输会对节点I造成干扰，所以节点h到节点I的传输因为节点D的干扰而失败，则节点h转入休眠状态并在其下一信道接入时隙唤醒来发送数据。

信道分配和休眠机制协作优化策略：所述信道分配策略会产生不同的信道评估参数(如信道接入概率，成功传输概率，冲突率，PDR等)，这些参数直接影响信道接入性能。因此，本发明实施例将上述参数映射为信道分配强化学习模型的奖励值r，即r＝R(p_tr,p_s,p_c,...)，以进一步优化信道分配策略，同时提升信道接入性能。如图7所示，在控制阶段的信道分配过程具有更高的优先级，并提供全局信息来指导数据传输阶段的优化过程。在数据传输周期过程中，提出的休眠唤醒机制在优化信道时提供细粒度的信道接入参数，并将信道质量反馈给信道分配决策模型。基于此，可以进一步优化信道分配策略，并且智能体可以在下一个DTP中选择更好的信道进行数据传输(具有更低的干扰和更高的信道接入成功概率的信道)。重复此过程，直到迭代次数达到最大或网络收敛。

此外，本发明实施例易于在计算和存储能力有限的传感器节点中实现。终端只需要定期获取最新的网络参数，而不需要单独训练网络模型，其中昂贵的计算(如训练阶段)由一个强大的集中式服务器完成。此外，当网络处于稳定状态时，以及在实际实施中，很少需要更新DRL模型(例如，仅当环境特征发生显著变化或网络性能急剧下降时)，模型训练阶段可以关闭，以减少收敛后的开销，因此每个智能体基于下沉的智能模型和本地数据执行信道分配策略和信道接入。

本发明实施例提出的信道分配和休眠机制，首先从不同的层面上优化网络性能，所述信道分配算法通过优化信道分配策略从频域上减少同频干扰，所述休眠机制通过自适应休眠和唤醒机制从时域上减少冲突的同时，进一步降低节点能耗。此外，本发明实施例提出信道分配和休眠机制联合优化策略进一步地降低网络干扰和节点能耗问题。

本发明提出了一种适用于资源受限无线多跳网络中基于深度强化学习的信道分配方法，该方法基于边缘计算技术和经验共享的多智能体深度强化学习模型推进了资源受限无线网络终端设备的智能化；本发明所设计的数控解耦的自适应超帧结构将所提出的多智能体深度强化学习模型与无线网络中的信道分配问题深度融合，采用基于边缘计算的集中式训练和资源受限终端的分布式交互架构；本发明考虑了单射频无线多跳网络中消失节点和多跳传输特性，为提升节点在数据传输周期的性能，设计了基于网络环境的自适应超帧结构，并提出基于奇偶分组的交错调度机制和基于确定性退避的休眠唤醒机制，旨在减少同频干扰和节点的能耗。

基于上述方案，本发明将信道分配和休眠机制协作优化以进一步提升网络性能和降低节点功耗。本发明在无线多跳网络中引入边缘计算和人工智能算法，为资源受限的终端的边缘智能提供了新的思路，将模型的训练任务卸载到边缘服务器上在保证低功耗、低时延、模型收敛速度快和隐私安全保证的同时，使终端设备拥有智能智能算法的能力。所采用异步深度强化学习模型在传统DDPG算法的基础上结合集中式训练和分布式交互架构，进一步打破了经验之间的相关性，为模型的训练提供了更加多样的经验信息，加快了经验采集和模型的收敛速度。此外，该模型也适用于动态网络场景。本发明的分布式的自适应休眠唤醒机制采用交错调度和确定性接入时隙结合显著地减少了节点之间的控制消息，进一步降低了节点功耗；信道分配和休眠机制协作优化以进一步提升网络性能和降低节点功耗。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种边缘智能驱动的无线多跳网络信道资源优化方法，其特征在于，所述方法包括：

将系统时间划分为多个连续的超帧，每个超帧包括控制周期和数据传输周期；

在控制周期内，所有无线节点工作在同一信道以获取或传输控制消息，并按照边缘服务器即集中式学习者反馈的模型参数配置出本地信道分配决策模型进行信道分配；

在数据传输周期内，需进行数据传输的无线节点根据基于接入编号的自适应休眠唤醒机制被唤醒，按照交错调度机制将数据在从K个非重叠信道中选择的数据信道上进行并行数据传输；

所述基于接入编号的自适应休眠唤醒机制包括按照无线节点的入网顺序及其父节点所对应的子节点总数确定出当前无线节点在当前数据传输周期可接入信道的所有微时隙编号集合；当前无线节点根据本地计数器、缓冲区队列数和信道接入微时隙编号集合，在特定的微时隙决定是否唤醒并进行数据传输；

当前无线节点在当前数据传输周期可接入信道的所有微时隙编号集合的确定方式表示为：

B_o＝{b_o+R_n*n_f}

其中，B_o表示当前无线节点在当前数据传输周期可接入信道的所有微时隙编号集合；b_o表示当前无线节点的父节点会为其每个子节点分配一个唯一的信道接入编号集合，b_o∈[1,n_f]；n_f表示当前无线节点的父节点的子节点总数，R_n是正整数，避免同一父节点的子节点选择相同的可接入微时隙编号，R_n＝1,2,3,...；

所述当前无线节点根据本地计数器、缓冲区队列数和信道接入微时隙编号集合，在特定的微时隙决定是否唤醒并进行数据传输包括每个无线节点分布式地维护一个计数器，且该计数器在每个数据传输周期开始时均重置为0；在当前微时隙分配给该无线节点所在数据传输组中的任一节点时，该数据传输组中所有无线节点每过一个微时隙则将对应的计数器值加1；否则，无线节点冻结对应的计数器；

所述交错调度机制包括无线多跳网络中的无线节点根据其自身到汇聚节点的跳数的奇偶性分为两个不同的数据传输组，即跳数为奇数的节点分为一组G₁；跳数为偶数的节点分为一组G₂；当数据传输组G₁的无线节点处于发送状态时，数据传输组G₂的无线节点处于接收状态，当数据传输组G₂的无线节点处于发送状态时，数据传输组G₁的无线节点处于接收状态；

其中，每个无线节点异步地在数据传输周期与环境进行分布式交互，获取无线多跳网络的环境反馈，并将环境反馈和状态动作信息即经验信息传输给集中式学习者；所述集中式学习者利用所述经验信息进行集中式模型训练，并更新信道分配决策模型，定期向无线节点反馈更新后的模型参数；

所述集中式学习者利用所述经验信息进行集中式训练，并更新信道分配决策模型，定期向无线节点反馈更新后的模型参数包括在所述集中式学习者中采用深度确定性策略梯度的深度强化学习模型，包括Actor main网络、Actor Target网络、Critic main网络和Critic target网络，用于产生信道分配决策；其中，无线节点上只需部署Actor main网络作为本地决策模式，用于信道选择；该深度强化模型的奖励函数值是指节点使用所选择的信道进行数据传输所获取的网络性能评估参数的映射函数；该奖励值和节点的状态动作信息将反馈给集中式学习者来优化深度强化学习模型，完成对信道分配决策模型集中式训练；

3)计算Target Q值：

5)计算通过神经网络的梯度反向传播来更新Actor main策略网络的参数；

θ′←αθ+(1-α)θ′

ω′←αω+(1-α)ω′

网络中的无线节点定期从集中式学习者处获取最新的网络参数θ′，并与环境进行交互和采集经验。

2.根据权利要求1所述的一种边缘智能驱动的无线多跳网络信道资源优化方法，其特征在于，所述超帧还包括信标帧，所述超帧随网络环境由集中式控制器进行自适应优化，并通过所述信标帧将优化后的参数发送给所有的无线节点。