CN110753384A

CN110753384A - 基于自适应边界的分布式强化学习稳定拓扑生成方法

Info

Publication number: CN110753384A
Application number: CN201910968053.5A
Authority: CN
Inventors: 黄庆东; 石斌宇; 杜昭强
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-02-04
Anticipated expiration: 2039-10-12
Also published as: CN110753384B

Abstract

本发明公开一种基于自适应边界的分布式强化学习稳定拓扑生成方法，解决了路由中链路节点联接持续性和稳定性差的问题。实现包括：在移动自组织网络中节点动态拓扑构建；划分自适应强化学习区间及Q值表初始化；接收信号强度值分区间处理；自适应区间内强化学习，用自适应奖励函数更新Q值，联接状态稳定性判断；直接决策区间状态判断；自适应区间边界自适应更新；生成分布式自适应的稳定联接拓扑。本发明将接收信号强度值与强化学习结合，自适应区间边界更新与自适应奖励函数更新结合，准确实现动态拓扑变化过程中的稳定拓扑链路，减少节点能量消耗，避免较大网络开销，学习速率快，复杂度低。用于移动自组织网络分布式拓扑生成。

Description

基于自适应边界的分布式强化学习稳定拓扑生成方法

技术领域

本发明属于通信技术领域，涉及移动自组织网络的稳定拓扑生成，具体是一种移动自组织网络的基于自适应边界的分布式强化学习稳定拓扑生成方法，用于移动自组织分布式网络。

背景技术

移动自组织网络(mobileAdhoc networks,MANET)作为一种特殊的无线移动网络，由于其无需架设网络设施、可快速展开、网络节点可随意移动并且能以任意方式相互通信等特点，被广泛应用于民用和现代军事通信中。移动自组织网络是一种多交叉学科结合的综合技术，如何构建安全、稳定、可靠的移动自组织网络是当前通信领域待解决的方面。移动节点对移动自组织网络构建稳定拓扑结构的影响，使节点之间构建稳定的拓扑结构进行信息传输成为MANET要解决的重要问题。

目前，基于深度学习和机器学习方法对节点的运动轨迹、位置或链路质量进行预测来选择最可靠路径进行信息传输，使得节点传输过程中链路联接保持较长时间。这些方法在判定链路稳定性方面与传统的方法判定链路稳定性相比虽然效果较好，但都存在一定的局限性。现有的方法分为以下几个方面：1.)通过节点的移动特性来预测网络中链路联接的稳定性程度和网络拓扑结构，基于自适应神经模糊系统来预测节点的运动轨迹选择链路节点进行传输，但是在预测过程中节点之间产生的大量的控制信息造成过大的能耗和运算大的开销；2.)对节点接收信号强度收集，对其进行深度学习训练预测出节点的运动，根据运动轨迹来构建稳定性链路联接，在预测位置的过程中仅考虑节点的相对移动特性不能及时反映节点移动特性的变化，并且采集数据仅采用某个时期的运动参数不能很好反映节点当前的运动特性；3.)根据接收信号强度选择稳定路径的方法，将一段时间内节点接收信号强度平均值把链路分为强联接和弱联接两类，设定阈值选择某一阈值内的链路进行路由传输，但是该方法没有考虑其它因素对链路的综合影响。

现有方法在信息采集过程中，当移动节点个数多时会产生网络通信阻塞、节点运算量大、节点能耗高等缺点，会在链路稳定性判定环节会因为信息通信不流畅使信息不能及时传递或造成节点传输信息丢失，造成分布式MANET拓扑不能高效的进行链路稳定性预测，或者是能够做出链路预测但是稳定性没有保障、可靠性差，且方法执行时间较长。

以上缺陷，限制了MANET的性能，导致能耗增加，生命周期缩短和网络延迟增大，从而影响了链路稳定性预测方法在MANET中的应用。

发明内容

本发明目的在于克服上述已有技术的不足，提供一种稳定性有保障且能自适应边界的移动自组织网络基于自适应边界的分布式拓扑生成方法。

本发明是一种基于自适应边界的分布式强化学习稳定拓扑生成方法，其特征在于，包括有以下步骤：

步骤1动态拓扑构建：在一块区域内布置N个节点，各节点根据移动自组织网络(mobile Ad hoc networks,MANET)中随机游走移动模型(random walk mobility model,RWM)的方式在区域内进行随机移动，形成MANET的动态拓扑结构，定义每个节点都存在一个自适应强化学习的区间[a,b]；

步骤2划分自适应强化学习区间及Q值表初始化：在构建的MANET中，各节点初始化，设各节点的初始归一化发射功率为0dBm，节点与其邻居节点间的稳定拓扑联接临界归一化强度值为d_windBm，初始设置各节点学习区间[a,b]中上界a与下界b的值都等于d_windBm；节点接收到邻居节点的接收信号强度值(RSSI)，按接收信号强度值划分的三个区间[0,a)、[a,b]、(b,-∞)分别进行拓扑联接稳定性处理；区间[a,b]为Q-learning强化学习方法的拓扑稳定性学习区间，简称为自适应区间，在自适应区间内采用Q-learning方法进行拓扑稳定性自适应强化学习和预测；区间[0,a)、(b,-∞)内进行状态的直接决策，简称直接决策区间，即节点直接判断其与邻居节点的拓扑联接稳定性；随着Q-learning方法的执行，自适应区间[a,b]的边界值会自适应更新，进行自适应区间扩展；网络中每个节点会初始化建立一个Q值表，表中元素对应其与每一邻居节点在不同状态和动作下的强化学习Q值；设置状态集S＝{s₁,s₂}，状态s₁为当前节点与某邻居节点处于稳定联接状态，状态s₂为当前节点与某邻居节点处于非稳定联接状态；设置动作集A＝{a₁,a₂}，动作a₁为预判稳定状态，动作a₂为预判非稳定状态；节点根据与各个邻居节点所处的联接状态s_i以及所采用策略π(s_i,a_j)选择动作a_j，i状态序号取值为1、2，j为动作序号1、2；针对节点与邻居节点在t时刻对应元素Q值表中的Q_t(s_i,a_j)进行强化学习更新，得到下一时刻Q值表中Q_t+1(s_i,a_j)，其中s_i∈S,a_j∈A；在自适应区间内，节点将针对其各个邻居节点采用自适应强化学习更新公式逐一进行Q-learning方法强化学习；

步骤3当前节点根据RSSI进行分区间处理：当前节点接收到邻居节点的接收信号强度值(RSSI)进行分区间处理，当RSSI值落入区间[a,b]则执行步骤4，进行自适应强化学习及状态预测；否则，执行步骤5，进行直接决策区间状态判断；

步骤4自适应区间内强化学习与联接状态稳定性判断：在MANET中，节点接收到某邻居节点的RSSI值处于区间[a,b]内时，该节点按照强化学习方法进行自适应强化学习与联接状态稳定性预测，并利用自适应奖励函数对Q值表进行更新，更新后得到下一传输时刻节点与其邻居节点的稳定联接状态预测选择；之后执行步骤7；

步骤5直接决策区间状态判断：节点接收到邻居节点的RSSI值处于区间[0,a)内，直接判决该邻居节点的联接状态为稳定联接状态s₁，之后执行步骤6；节点接收到邻居节点的RSSI值处于区间(b,-∞)内，直接判决该邻居节点的联接状态为非稳定联接状态s₂，之后执行步骤6；

步骤6对自适应区间边界进行自适应更新：直接决策区间的边界a和边界b同时也为自适应区间的上界a和下界b，将稳定联接临界归一化强度值d_win作为判定阈值，如果当前时刻节点接收到某邻居节点的RSSI，邻居节点的接收信号强度指示大于阈值判定为稳定联接状态s₁；邻居节点的接收信号强度指示小于阈值判定为非稳定联接状态s₂当RSSI值处于直接决策区间时，根据如下状态判断公式进行判断：

式中：s为节点与邻居节点的联接变量状态；且将状态s作为下一传输时刻节点与邻居节点的联接变量状态预测

假设下一传输时刻节点接收到该邻居节点的接收信号强度为RSSI′,又根据上述状态判断公式判定下一时刻实际联接状态为s′；根据自适应区间边界的自适应更新公式对自适应区间上界a或自适应区间下界b进行更新；

步骤7生成分布式自适应的稳定联接拓扑：针对不同时刻，各个节点按照步骤3～6根据接收到邻居节点的RSSI值进行自适应区间内的强化学习与联接状态稳定性预测、直接决策区间状态判断、自适应边界更新，得到每一传输时刻节点与稳定联接状态邻居节点建立稳定拓扑联接关系，实现分布式自适应的稳定联接拓扑。

本发明是一种基于自适应边界的分布式强化学习稳定拓扑生成方法，该方法用于移动自组织网络在路由过程中生成稳定拓扑结构来增强网络中链路的联接时间。在不耗费额外的网络能耗的前提下，能够降低网络任务的复杂程度，提升网络通信质量，增强移动自组织网络中节点之间的链路联接时间。

本发明中各个节点相互独立，可以异步分布式执行稳定拓扑生成，网络中各个节点独立按照上述方法进行自主学习决策。每个节点对其各邻居节点进行联接状态稳定关系判定，最终由稳定联接状态的邻居节点构成此节点的稳定邻居集。由相互稳定联接的节点形成移动无线自组织网络的稳态拓扑。

与现有技术相比，本发明具有如下优点：

减少了节点的能量消耗，避免了较大的网络开销：本发明在数据收集的过程当中，将各个节点信息交互过程中携带的RSSI值作为测量数据，把RSSI值作为强化学习方法中节点进行迭代更新学习的量值，有机的将接收信号强度值RSSI与强化学习方法相结合，高效的反映出节点之间的链路连接的状态，避免额外的信息测量数据的收集，有效的减少了节点的能量消耗，避免了较大的网络开销。

增强网络中节点的自适应环境性能：MANET拓扑结构的动态变化对稳定性拓扑结构的建立带来巨大的挑战，基于传统的链路稳定性的测量方法和基于深度学习的节点运动轨迹的预测方法对于网络情况复杂，以及高动态运动的节点的链路情况下效果甚佳。在实际的情况下，网络不能满足相关的性能要求与预期的模拟性能存在很大的偏差，而强化学习方法适用于解决分布式系统中各种数据传输之间的的相关优化问题。因此，本发明应用自适应区间方法和强化学习方法相结合解决MANET网络中链路联接之间的稳定性问题，强化学习方法可以与环境进行交互学习，不断的通过反馈学习来得到当前稳定拓扑联接的预测选择，从而有效的选择出最优的行为，适应于复杂度高且高度变化的移动无线自组织网络的稳定链路联接选择。

高效数据预测效果：本发明中应用了在线学习的强化学习方法，相比与传统的方法和深度学习方法而言，本发明为实时的模型更新。传统的方法和深度学习方法在处理数据前，都需要进行一段时间的数据收集，对于动态的拓扑结构而言，不能够很好的表现出当前动态拓扑结构的特性。本发明通过建立移动自组织网络进行强化学习多代理Agent协作系统的模型、合理设置学习区间和自适应边界系数、设置奖励函数与状态结构，尤其对自适应边界系数的设置，将自适应边界调整的过程进行合理的规划，有效的降低对收集数据不能实时表现出当前动态拓扑结构的特性，增强预测数据过程中各个节点的稳定性。本发明高效实时的在线更新数据以及方法的预测模型，使当前的预测结果达到最佳状态。

增加效率和精度：本发明在研究设计的过程中，根据本发明方法执行过程，合理的设计了自适应区间方法分类处理接收信号强度值，进行自适应区间方法进行分区间处理从而将本发明的数据处理进行了优化，减少了学习区间外的接收信号强值对学习区间内的接收信号强度值的干扰，提高了本发明执行的效率和精度。

提升预测稳定性：在强化学习方法执行的阶段，设置合理的奖励函数值和奖励函数的自适应系数共同构成了自适应奖励函数，该函数可以让强化学习方法快速得到期望状态的动作策略，并且有效的提升了预测准确率的稳定性，使各个节点预测准确率区间降低到了一个较小的范围，提升整个网络的稳定性。本发明在设计的过程中将每个代理Agent的奖励值设置为3类值，并且对3类奖赏值设置了奖励函数的自适应系数，有效的覆盖了每个节点的所有状态转移动作的情况，且增强了代理Agent的学习能力，将强化学习的过程合理高效综合起来，最大化的发挥本发明的性能。

附图说明:

图1是本发明方法的流程示意图；

图2是MANET的移动场景示意图；

图3是本发明中自适应区间划分的结构示意图；

图4是本发明中强化学习方法状态转移示意图；

图5是本发明中不同学习率α下对方法预测准确率影响的图；

图6是本发明与现有Q-learning学习方法的预测准确率对比曲线图；

图7为采用本发明对某一节点的预测拓扑结构图；

图8为本发明在图7基础上节点真实运动过程中稳定联接的拓扑图。

具体实施方式：

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明做详细说明。

实施例1

移动自组织网络在无基础设施的通信网络中发挥重要作用，网络无基础设施的支撑，每一个移动节点都兼有路由器和主机两种功能，可以通过无线联接构成任意的网络拓扑。移动自组织网络在军事通信、移动网络、连接个域网络、紧急服务和灾难恢复、无线传感器网络等方面具有广阔的应用前景。因此，移动自组织网络也成为当前研究的热点方向之一。移动自组织网络中节点的移动性导致整个无线信道形成的网络拓扑结构随时发生变化，为了能够有效的减少动态拓扑变化的影响，现有的方法通过节点的移动性来预测网络中链路联接的稳定性程度和网络拓扑结构来减小动态拓扑变化的影响。但是现有方法都存在一定局限性，其中大多都是仅考虑节点相对移动，或者只采集节点某个时期的运动参数，这些参数不能及时反映出节点移动特性变化，也没有考虑参数对链路稳定性的综合影响。

针对现有方法一些不足方面，本发明力图提供一种新的路径，经过研究与开发提出一种基于自适应边界的分布式强化学习稳定拓扑生成方法，参见图1，包括有以下步骤：

步骤1动态拓扑生成：在一块区域内布置N个节点，根据移动自组织网络MANET中随机游走移动模型(random walk mobility model,RWM)的方式在区域内进行随机移动，生成MANET的动态拓扑结构，动态拓扑结构参见图2，图2是MANET的移动场景示意图，也是本发明使用的移动场景示意图，图2中存在B、C、D组成节点A的联接拓扑区域，用来简单示意节点的移动场景，节点A要向节点D发送数据包，需要通过节点B或节点C作为转发节点，图中节点B表示快速移动节点，节点C表示缓慢移动节点。本发明为了有效的结合强化学习方法定义每个节点都存在一个自适应强化学习的区间[a,b]。

步骤2划分自适应强化学习区间及Q值表初始化：在构建的MANET中，各节点初始化，设各节点的初始归一化发射功率为0dBm，节点与其邻居节点间的稳定拓扑联接临界归一化强度值为d_windBm，初始设置各节点学习区间[a,b]中上界a与下界b的值都等于d_windBm。节点接收到邻居节点的接收信号强度值(RSSI)，按接收信号强度值划分的三个区间[0,a)、[a,b]、(b,-∞)分别进行拓扑联接稳定性处理。区间[a,b]为Q-learning强化学习方法的拓扑稳定性学习区间，简称为自适应区间，在自适应区间内采用Q-learning方法进行拓扑稳定性自适应强化学习和预测。区间[0,a)、(b,-∞)内进行状态的直接决策，简称直接决策区间，即节点直接判断其与邻居节点的拓扑联接稳定性。本发明中随着Q-learning方法的执行，自适应区间[a,b]的边界a和边界b的值会自适应更新，进行自适应区间扩展。网络中每个节点会初始化建立一个Q值表，表中元素对应其与每一邻居节点在不同状态和动作下的强化学习Q值。本发明设置状态集S＝{s₁,s₂}，状态s₁为当前节点与某邻居节点处于稳定联接状态，状态s₂为当前节点与某邻居节点处于非稳定联接状态。设置动作集A＝{a₁,a₂}，动作a₁为预判稳定状态，动作a₂为预判非稳定状态。当前节点根据与各个邻居节点所处的联接状态s_i以及所采用策略π(s_i,a_j)选择动作a_j，i状态序号取值为1、2，j为动作序号1、2。针对节点与邻居节点在t时刻对应元素Q值表中的Q_t(s_i,a_j)进行强化学习更新，得到下一时刻Q值表中Q_t+1(s_i,a_j)，其中s_i∈S,a_j∈A。在自适应区间内，节点将针对其各个邻居节点采用自适应强化学习更新公式逐一进行Q-learning方法强化学习。整个强化学习区间的结构图，参见图3，本发明根据当前节点与邻居节点的RSSI值划分出三个区间，区间[a,b]为自适应强化学习区间，在区间[a,b]中进行拓扑稳定性学习，在区间[0,a)、(b,-∞)为直接决策区间，在直接决策区间内进行直接决策和区间边界a或区间边界b的自适应更新。

步骤3当前节点根据RSSI进行分区间处理：当前节点接收到邻居节点的接收信号强度值(RSSI)进行分区间处理，当RSSI值落入区间[a,b]则执行步骤4，进行自适应强化学习及状态预测；否则，执行步骤5，进行直接决策区间状态判断。

步骤4自适应区间内强化学习与联接状态稳定性判断：在MANET中，节点接收到某邻居节点的RSSI值处于区间[a,b]内时，该节点按照强化学习方法进行自适应强化学习与联接状态稳定性预测，并利用自适应奖励函数对Q值表进行更新，更新后得到下一传输时刻节点与其邻居节点的稳定联接状态预测选择；之后执行步骤7。本发明在自适应区间强化学习的过程中，将接收信号强度值RSSI作为强化学习更迭代的量值，实时的反映出当前链路联接的状态，通过自适应奖励系数对Q值更新，有效的提升强化学习方法预测链路联接状态的稳定性能，通过学习和预测得到节点与其邻居节点的稳定联接预测选择，使本发明的预测更加准确。本发明的自适应奖励函数可以让强化学习方法快速得到期望状态的动作策略。

步骤5直接决策区间状态判断：节点接收到邻居节点的RSSI值处于区间[0,a)内，直接判决该邻居节点的联接状态为稳定联接状态s₁，之后执行步骤6；节点接收到邻居节点的RSSI值处于区间(b,-∞)内，直接判决该邻居节点的联接状态为非稳定联接状态s₂，之后执行步骤6。

步骤6对学习区间自适应边界更新处理：直接决策区间的边界a和边界b同时也为自适应区间的上界a和下界b，将稳定联接临界归一化强度值d_win作为判定阈值，如果当前时刻节点接收到某邻居节点的RSSI，邻居节点的接收信号强度指示大于阈值判定为稳定联接状态s₁；邻居节点的接收信号强度指示小于阈值判定为非稳定联接状态s₂；当RSSI值处于直接决策区间时，根据如下状态判断公式进行判断：

式中：s为当前节点与邻居节点的联接变量状态；将状态s作为下一传输时刻节点与邻居节点的联接变量状态预测，具体表示为

假设下一传输时刻当前节点接收到该邻居节点的接收信号强度为RSSI′,又根据上述状态判断公式判定下一时刻实际联接变量状态为s′。根据自适应区间边界的自适应更新公式对自适应区间上界a或自适应区间下界b进行更新。本发明的自适应边界系数有效的提升了自适应边界调整的稳定性，通过设置自适应边界系数合理的归纳出边界调整的范围，使自适应区间和直接决策区间的变化更加合理，提升了本发明方法的稳定性。

步骤7生成分布式自适应的稳定联接拓扑：针对不同时刻，各个节点重复执行步骤3～步骤6，遍历所有节点，根据接收到邻居节点的RSSI值进行自适应区间内的强化学习与联接状态稳定性预测、直接决策区间状态判断、自适应边界更新，得到每一传输时刻节点与稳定联接状态邻居节点建立稳定拓扑联接关系，实现分布式自适应的稳定联接拓扑。

本发明提出了一种基于自适应边界的分布式强化学习稳定拓扑生成方法整体的技术方案。

本发明经过试验与研究发现，现有技术在以下方面可以改进：

1)由于现有的预测链路稳定性的方法中，大多数的方法是通过节点的相对移动性，或仅采用某个时期的运动参数对数据进行处理，根据数据之间的相关性来预测未来链路的稳定性，而这些参数在采集的过程中很大程度上不能够及时的反映出节点的运动特性，并且也没有考虑对链路稳定性的综合影响。

2)通常在预测节点的未来移动性时要大量的测量数据以及控制信息，这些因素在信息交互过程中会形成大量的开销，从而造成网络拥塞，降低网络的整体性能，增大网络中各个节点的能耗，实时性以及节点能耗的问题不能很好的解决。

3)在预测节点的位置和链路稳定性的过程中，节点的运动特性是假设不变的，但是在节点的实际运动过程中，节点的运动状态实时发生变化，现有方法在一些特定的情况下不能很好的自适应网络环境的变化，自适应性不能很好的体现。

本发明的技术思路是：将接收信号强度与强化学习方法结合，合理的设置了区间边界自适应系数因子、自适应区间边界调整的方法、奖励函数自适应系数，对接收数据进行实时处理的设计，不断的更新预测模型的数据，在自适应学习区间内进行自适应强化学习得到最优联接，自适应学习区间外进行直接决策。通过上述思想本发明能够有效的减少信息传输过程中由于节点的运动特性导致移动自组织网络的链路快速断裂的问题，增强网络的整体性能因素，降低网络的复杂程度以及节点能量消耗，提高网络的通信质量。

无线移动自组织网络应用于无基础设施的网络通信，在节点移动过程中导致整个无线信道形成的网络拓扑结构随时发生变化。为了能够有效的减少动态拓扑变化的影响，本发明根据节点信息交互过程中携带的接收信号强度值(RSSI)对现有的连接链路的稳定性情况进行学习累积，先对链路的稳定性情况做出自适应的判断，再进行强化学习的过程，将接受到RSSI处于自适应区间内的值进行强化学习更新，根据不断迭代更新得到的下一传输时刻最优稳定性策略预测出在未来一个传输时间间隔内的链路质量，选择能够组成稳定拓扑的邻居节点形成分布式自适应稳定拓扑，本发明适用于所有的移动自组织网络。

自适应边界调整和奖励函数的自适应系数的设置有效的增强了本发明方法中预测拓扑联接的稳定性，自适应边界调整减少了区间在扩展过程中的不稳定性，有效的归纳出自适应调整边界的比例变化，使本发明中各个节点的预测准确稳定性提升。奖励函数的自适应系数增强了当前节点学习链路联接的稳定性能力，通过自适应强化学习中的奖励值显著的加快了节点对当前状态的学习，为本发明方法的高效执行奠定了基础。

实施例2

基于自适应边界的分布式强化学习稳定拓扑生成方法同实施例1，本发明中步骤4中所述的强化学习方法，具体实现过程包括有如下步骤：

步骤4.1确定强化学习方法的整体结构：在区间[a,b]中，将移动自组织网络中每个节点视为一个代理Agent，MANET的动态变化可以看作是一个分布式多Agent的协作系统。对于每一个分布式代理Agent假设其环境状态集为S，动作集为A，奖赏函数为

动作选择策略为π(s_i,a_j)。

本发明在移动自组织网络中构建强化学习的模型，将网络看做是多代理Agent的协作系统，将移动自组织网络的场景与强化学习方法进行有效的结合，解决了MANET中动态拓扑变化过程导致链路联接差的问题，有效的减少了网络开销，增强了网络中节点与邻居节点联接稳定性，提高了MANET的通信质量。

步骤4.2判断每个代理Agent状态集S：状态集S由离散状态构成：

S＝{s₁,s₂}

式中：状态s₁为根据当前接收到某邻居节点RSSI，节点与某邻居节点处于稳定联接状态；状态s₂为根据当前接收到某邻居节点RSSI，与某邻居节点处于非稳定联接状态。

步骤4.3判断每个代理Agent的动作集A：每个代理Agent采取的动作分为两个类型：预判为稳定联接状态；预判为非稳定联接状态；动作集A表示为：

A＝{a₁,a₂}

式中：a₁为预判稳定状态；a₂为预判非稳定状态。

步骤4.4设置奖励函数：

设置奖励函数

奖励函数

中，s_i表示当前节点的状态；s′_i表示执行动作后转移到的状态；a_j表示在s_i状态下执行的动作；s_i→s′_i表示前后时刻的实际状态转移关系；

表示奖励函数的自适应系数adaptive_reward，即当前节点执行当前动作类型的次数与节点执行动作的总次数比值；强化学习过程中，奖励函数是代理Agent在状态s_i下采取行动a_j预判状态，参照实际转移状态s′_i后的奖惩值；表明在特定状态下采取动作决策的好坏程度。

将移动自组织网络进行强化学习多代理Agent协作系统的模型建立、设置合理的学习区间、奖励函数与状态结构，从而能够有效的降低对收集数据不能后有效表现出当前动态拓扑结构的状态，高效实时的在线更新数据以及方法的预测模型，使当前的预测结果达到最佳状态。

步骤4.5确定代理Agent的动作选择策略：

节点每次选择Q值表中对于邻居节点在s_i状态下对应的Q值最大的动作a_j，选择策略公式为：

式中：π(s_i,a_j)为在状态s_i下选择对应Q值最大动作a_j的动作选择策略。

步骤4.6采用自适应强化学习更新公式对Q值表进行更新：节点根据与各个邻居节点，在所处的联接状态s_i下采用策略π(s_i,a_j)选择动作a_j采用自适应强化学习更新公式进行Q值强化学习更新，得到下一时刻Q值Q_t+1(s_i,a_j)，节点针对其各个邻居节点逐一进行Q-learning方法强化学习和更新。自适应强化学习更新公式如下：

式中：α为学习率，0＜α＜1；γ为奖励折扣因子，0＜γ＜1；a_j为t时刻动作，s_i为t时刻状态，s′_i∈S为s_i执行动作a_j后转移到的状态；a′_j∈A为Q值表中对于此邻居节点在s′_i状态上对应的最大Q值动作；

为在状态s_i下执行动作a_j后转移到状态s′_i得到的奖励值。表示Q值表中对于此邻居节点在s′_i状态上对应的最大Q值，它代表当前策略π(s′_i,a′_j)取得的新状态对Q值的最佳预期影响。

图4为本发明中强化学习方法的状态转移示意图，参见图4，图4中表明了节点的两种状态之间的状态转换关系，节点的每个状态分别存在4中不同的状态转换关系。

经过上述步骤4.1～步骤4.6的过程和分析，可以得到本发明中强化学习方法的状态转移图，图4中所示为每个节点的两种状态转换：s₁为节点接收到邻居节点RSSI值处稳定联接状态；s₂为节点接收到邻居节点RSSI值处于非稳定联接状态。例如状态s₁存在发生4种状态的变化：当前节点处于联接状态s₁，执行动作a₁后，节点的联接状态由s₁状态变换到s₁状态，产生的奖励值为+1；当前节点处于联接状态s₁，执行动作a₂后，节点的联接状态由s₁状态变换到s₁状态，产生的奖励值为-1；当前节点处于联接状态s₁，执行动作a₁后，节点的联接状态由s₁状态变换到s₂状态，产生的奖励值为-5；当前节点处于联接状态s₁，执行动作a₂后，节点的联接状态由s₁状态变换到s₂状态，执行动作后从当前状态转移到下一状态的奖励值，产生的奖励值为+1。

同理，s₂状态下同样存在4种状态转换。

本发明的在线强化学习方法与传统的方法和深度学习方法相比，具有实时的模型更新方式。传统方法和深度学习方法在处理数据前，都需要进行一段时间的数据收集，对于动态的拓扑结构而言，不能够很好的表现出当前动态拓扑结构的特性。本发明对移动自组织网络进行强化学习，包括模型建立、设置合理的学习区间、奖励函数与状态结构等。本发明通过实时的采集数据以及实时的数据更新当前的模型，能够有效的降低数据收集不能及时进行模型更新，以及多种原因导致综合因素的影响，使当前的预测准确度效果最佳。

实施例3

基于自适应边界的分布式强化学习稳定拓扑生成方法同实施例1-2，本发明步骤6中的自适应区间边界更新公式，具体如下：

式中：a为区间上边界；b为区间下边界；RSSI为邻居节点的接收信号强度指示值；s′为下一时刻该节点与邻居节点的实际联接变量状态；

为下一时刻节点与邻居节点联接变量状态的预测；本发明中设定adaptive_rate为自适应边界调整的比例系数，即当前节点预测的下一传输时刻的联接状态预测出错次数与预测总次数的比值。若

a＜RSSI且adaptive_rate>0.1时，则调整自适应边界a＝RSSI；若

b＞RSSI且adaptive_rate>0.1时，则调整自适应边界b＝RSSI；若

自适应边界保持不变。在自适应区间边界更新过程中，只有在当前节点的预测联接变量状态与实际联接变量状态不相同的条件下，根据当前区间变化的自适应系数的取值来判断是否自适应的更改区间的上边界a或下边界b。

本发明设置的adaptive_rate为自适应系数，即发生预测错误的次数与预测总次数的比值。在研究的中对区间更新的过程没有依据发生预测的状态与实际状态发生错误就进行区间调整，通过设置发生错误的比例系数来调整区间边界，使自适应区间的扩展更加精确。

本发明在研究和实验过程中总结出自适应区间边界的更新公式，为本发明的高精度的状态判断预测奠定了基础。自适应区间边界更新方法中，将自适应边界系数设置为发生预测错误的次数与预测总次数的比值，降低了区间边界自适应变化的比例，使本发明方法的稳定性有了提升。同时，自适应区间边界有效的区分出学习区间和直接决策区间，使本发明方法在高度变化的环境中快速适应环境的变换，避免了对任意状态的情况都进行累积性的学习。经过多次的研究实验以及分析，得出有效的自适应区间边界更新公式，与其它方法相比本发明的自适应区间边界更新方法将节点的实时动态变化有效归类，提升了本发明的性能。

实施例4

基于自适应边界的分布式强化学习稳定拓扑生成方法同实施例1-3，步骤4.4中所述的奖励函数，是根据节点在网络中的运动状态分析得到的，奖励函数的定义式：

奖励函数定义式：

上式中

表示状态s_i下采取动作a_j，状态由s_i转移到状态s′_i；式中在

条件或

条件下，其奖励值

或

为-5；同理可得其它条件的奖励值；

为自适应奖励系数adaptive_reward的值，其中

表示从当前状态s_i下采取动作a_j，状态由s_i转移到状态s′_i的次数；T_count表示采取动作的总次数。

本发明通过设置不同状态转移的奖励函数值和奖励函数的自适应系数共同构成自适应奖励函数，使本发明的强化学习方法快速得到期望状态的动作策略。在设计本发明方法奖励函数的过程中，将每个代理Agent的奖励值根据不同的状态转移设置为3类值作为代理Agent的基本奖励。为了将当前节点执行动作后转移到下一状态的奖励值有效的体现在强化学习的过程中，通过研究和实验总结出奖励函数的自适应系数。

自适应奖励函数的设置将节点近期的状态变化的过程进行最大化的学习，有效的增强了节点自适应强化学习的迭代效率，使节点在预测下一传输时刻的稳定性联接状态过程中会更多的参考节点近期的状态变化的情况，提高了节点预测的准确度，加快强化学习的过程。

奖励函数自适应系数的设置有效的降低了各个节点在预测过程中准确率之间的差异，并且使得各个节点的预测稳定性增加，每个节点的预测精准度都缩小在一个小范围内，整个移动自组织网络的拓扑联接具有高可靠性和稳定性。

下面给出一个更加详实的例子，对本发明进一步说明

实施例5

基于自适应边界的分布式强化学习稳定拓扑生成方法同实施例1-4，本发明是一种移动自组织网络的基于自适应边界稳定拓扑生成方法，其主要实现步骤包括有：

步骤1动态拓扑构建：在一块区域内按照如图所示的网络内布置15个节点，根据MANET中随机游走移动模型的方式在150×150(m²)的区域内15个节点进行随机移动，假设两个节点的通信距离最大为r，构建MANET的动态拓扑结构。参见图2，图2是本发明中MANET的移动场景图，图2中节点A预向D发送数据包，所以节点A广播路由请求分组并发现要发送数据包到D必须经过节点B或C。此时节点B正迅速远离A和D节点，而节点C缓慢向A移动。如果节点A选择B作为转发节点，由于B的快速移动性，会导致(A,B)链路不稳定，很容易断开。而此时，由于C是以同样的方向缓慢移动，未来是向接近A节点的位置移动，所以在传输的过程中(A,C)链路相比(A,B)将会有更长的时间保持好稳定联接。本发明跟据当前传输时刻内节点的移动情况，确定出各个节点的邻居节点以及各个节点当前接受信号强度值进行稳定性选择的技术方案，A选择C作为下一跳传输节点转发到D更有助于信息的可靠网络传输。定义每一个节点都存在一个自适应强化学习的区间[a,b]。

步骤2划分自适应强化学习区间及Q值表初始化：在构建的MANET中，各节点初始化，设各节点的初始归一化发射功率为0dBm，节点与其邻居节点间的稳定拓扑联接临界归一化强度值为d_windBm，初始设置各节点学习区间[a,b]中上界a与下界b的值都等于d_windBm。节点接收到邻居节点的接收信号强度值(RSSI)，按接收信号强度值划分的三个区间[0,a)、[a,b]、(b,-∞)分别进行拓扑联接稳定性处理。区间[a,b]为Q-learning强化学习方法的拓扑稳定性学习区间，简称为自适应区间，本发明在自适应区间内采用Q-learning方法进行拓扑稳定性自适应强化学习和预测。在区间[0,a)、(b,-∞)内进行状态的直接决策，简称直接决策区间，即节点直接判断其与邻居节点的拓扑联接稳定性。本发明中随着Q-learning方法的执行，自适应区间[a,b]的边界值会自适应更新，进行自适应区间扩展。在移动自组织网络中每个节点会初始化建立一个Q值表，表中元素对应其与每一邻居节点在不同状态和动作下的强化学习Q值。设置状态集S＝{s₁,s₂}，状态s₁为当前节点与某邻居节点处于稳定联接状态，状态s₂为当前节点与某邻居节点处于非稳定联接状态。设置动作集A＝{a₁,a₂}，动作a₁为预判稳定状态，动作a₂为预判非稳定状态。节点根据与各个邻居节点所处的联接状态s_i以及所采用策略π(s_i,a_j)选择动作a_j，i状态序号取值为1、2，j为动作序号1、2。针对节点与邻居节点在t时刻对应元素Q值表中的Q_t(s_i,a_j)进行强化学习更新，得到下一时刻Q值表中Q_t+1(s_i,a_j)，其中s_i∈S,a_j∈A。在自适应区间内，节点将针对其各个邻居节点采用自适应强化学习更新公式逐一进行Q-learning方法强化学习。

步骤3当前节点根据RSSI进行分区间处理：当前节点接收到邻居节点的接收信号强度值(RSSI)进行分区间处理，当RSSI值落入区间[a,b]则执行步骤4，进行自适应强化学习及状态预测；否则，执行步骤5，进行直接决策区间状态判断，参见图3，图3是本发明自适应区间方法的结构图，图3中，如果当前节点接收到某个邻居节点RSSI值处于自适应区间内[a,b]内，则执行自适应区间内强化学习与连接状态稳定性判断，否则，当前节点接收到RSSI值处于区间[0,a)或(b,-∞)中时，执行步骤5，进行直接决策区间状态判断。

步骤4自适应区间内强化学习与联接状态稳定性判断：在MANET中，节点接收到某邻居节点的RSSI值处于区间[a,b]内时，该节点按照强化学习方法进行自适应强化学习与联接状态稳定性预测，并用自适应奖励函数对Q值表进行更新，更新后得到下一传输时刻节点与邻居节点的稳定联接状态预测选择；执行步骤7；自适应强化学习更新公式如下：

为在状态s_i下执行动作a_j后转移到状态s′_i得到的奖励值。

表示Q值表中对于此邻居节点在s′_i状态上对应的最大Q值，它代表当前策略π(s′_i,a′_j)取得的新状态对Q值的最佳预期影响。

步骤5直接决策区间状态判断：节点接收到邻居节点的RSSI值处于区间[0,a)内，直接判决该邻居节点的联接状态为稳定联接状态s₁，之后执行步骤6。节点接收到邻居节点的RSSI值处于区间(b,-∞)内，直接判决该邻居节点的联接状态为非稳定联接状态s₂，之后执行步骤6。只有当节点接收信号强度值落在区间[a,b]内时，节点才会在区间内进行拓扑稳定性自适应强化学习和预测。

步骤6对自适应区间边界进行自适应更新：将稳定联接临界归一化强度值作为判定阈值，如果当前时刻节点接收到某邻居节点的RSSI，邻居节点的接收信号强度指示大于阈值判定为稳定联接状态s₁；邻居节点的接收信号强度指示小于阈值判定为非稳定联接状态s₂；当RSSI值处于直接决策区间时，根据如下状态判断公式进行判断：

式中：s为节点与邻居节点的联接状态变量；且将状态s作为下一传输时刻节点与邻居节点的联接状态预测

假设下一传输时刻节点接收到该邻居节点的接收信号强度为RSSI′,又根据上述状态判断公式判定下一时刻实际联接状态为s′；设定adaptive_rate为自适应边界调整的比例系数，即当前节点预测的下一传输时刻的联接状态预测出错次数与预测总次数的比值；若

上边界a＜RSSI且adaptive_rate>0.1时，则调整边界a＝RSSI；若

b＞RSSI且adaptive_rate>0.1时，则调整下边界b＝RSSI；若

自适应区间边界保持不变；自适应区间更新公式如下所示：

步骤7生成分布式自适应的稳定联接拓扑：针对不同时刻，各个节点重复执行步骤3～步骤6，遍历移动自组织网络中所有节点，根据接收到邻居节点的RSSI值进行自适应区间内的强化学习与联接状态稳定性预测、直接决策区间状态判断、自适应边界更新，得到每一传输时刻节点与稳定联接状态邻居节点建立稳定拓扑联接关系，实现分布式自适应的稳定联接拓扑。

本发明在移动自组织网络动态拓扑构建过程中，根据节点信息交互过程中携带的接受信号强度值(RSSI)对现有的联接链路的稳定性情况进行学习累积，先对链路的稳定性情况做出自适应的判断，再进行强化学习的过程，将接受到邻居节点的RSSI处于自适应区间内的值进行强化学习更新，根据不断迭代更新得到的下一传输时刻稳定性联接策略，预测出在下一个传输时间间隔内的链路质量以及可以构成稳定拓扑联接的邻居节点。本发明将接收信号强度值(RSSI)与强化学习方法和自适应区间方法有效的结合，设置了合理的自适应区间边界方法和奖励值函数，产生出一种高效自适应的强化学习的方法。有效的解决了移动自组织网络动态拓扑变化过程中稳定拓扑链路联接的问题。

以下通过仿真实验结果对本发明的技术效果进行说明。

实施例6

移动自组织网络基于自适应边界的分布式强化学习稳定拓扑生成方法同实施例1-5。

仿真条件：

仿真条件如下：在一个区域内随机生成15个节点，15个节点分别按照随机游走移动模型来构建MANET动态拓扑结构。实验设定了每个节点之间的运动互不影响，在本发明方法开始执行前，设定初始的学习迭代次数为200轮、通过学习200轮之后得到策略表以及强化学习区间，对测试数据进行100轮预测来计算准确率，将100轮预测的联接状态结果与节点在实际移动过程中各个节点联接状态进行统计平均，计算出每个节点在100轮预测过程中的准确率。

仿真内容及仿真结果：

仿真1，本发明在动态不规则网络拓扑下进行仿真，通过设定不同的学习率α的值来检测最优的学习率参数值，分别设定了学习率α为0.1，0.5，0.7的准确率对比图。仿真的具体结果参见图5，图5是本发明中不同学习率α下对预测准确率影响的曲线图。

在移动自组织网络中，节点预测链路的准确率对整个网络生成稳定拓扑结构具又重要的意义，移动自组织网络中稳定的拓扑传输结构有效的增强网络性能因素。据图5中不同学习率α对准确率的影响曲线分析可知，当学习率α的取值为0.1时所有节点的准确率值均维持在0.97左右，并且各个节点之间的预测准确率变化值相差不大，整个曲线变化平缓，且没有准确率之间的起伏差异；在学习率α取值为0.5或0.7时准确率比0.1时均有所下降，并且各个节点的预测准确率相差变大，曲线的变化程度较明显。出现该现象是由于在执行本发明进行预测的过程中，节点主要根据邻居节点过去运动经验来判断下一传输时刻联接的状态程度，如果学习率α增大将增加Agent的探索过程，则对节点的运动经验的取值变小，从而导致节点的预测错误的几率增加。但是在不同学习率α的影响下本发明的准确率均维持在0.8-0.97左右，证明了本发明方法的稳定性。因此，实验过程中均选取学习率α为0.1作为发明方法中的参数。

合理的设置强化学习的学习率α参数值，能够有效的提升强化学习的学习速率，增强本发明方法预测的准确度。本发明利用了MANET中节点的有限的计算和能量资源，最大程度的解决在节点移动过程中导致的网络拓扑结构的频繁断裂产生的通信质量差，网络复杂程度高的问题。有效的利用了节点信息交互过程中携带的接受信号强度(RSSI)与强化学习方法的特性相结合，通过在线实时学习不断的调整模型的输出精准度，使得各个节点都能够选择出有效的稳定联接链路节点，组成稳定的拓扑传输结构，提高整个网络的性能。

实施例7

移动自组织网络基于自适应边界的分布式强化学习稳定拓扑生成方法同实施例1-5，仿真条件同实施例6。

仿真2，为了验证本发明的有效性，通过在相同的实验条件下分别在动态拓扑结构下应用本发明的解决方案与没有采用本发明自适应边界分布式处理的Q-learning解决方案做一个准确性的对比，分别统计测试数据100轮中每个节点预测连接状态的准确次数率。参见图6，图6是本发明与现有Q-learning学习方法的预测准确率对比曲线图。图6中，现有Q-learning学习方法的预测准确率曲线最佳预测为0.8，且每个节点的预测效果起伏相对较大，稳定性较差，准确的跨度相差0.4，不能很好预测出稳定拓扑联接，而本发明的预测准确率几乎都维持在0.97左右，准确率的跨度相差不超过0.05，且每个节点的预测准确率起伏均较小，整体非常稳定，实现了高稳定性拓扑联接。

根据图6显示出本发明在链路稳定性的预测方面的性能整体优于现有技术的解决方案，准确性方面整体也高于Q-learning方法的30％。由于本发明各个节点通过自适应的强化学习区间的更新不断将每次的学习变化范围扩大，自适应区间外直接判断联接状态，自适应区间内随着不断的强化学习经验的积累做出更加精确的预测，不仅精度和准确度得以提升，同时也保证了本发明的稳定性和可靠性，为本发明稳定拓扑结构生成方法的高精度执行提供了有效的保障。

实施例8

仿真3，为了明显的表示出本发明在拓扑连接建立过程中的有效性，设置了一组仿真实验，在100组的预测数据中，随机的抽取出一组预测出的能够稳定联接的拓扑结构，与真实的下一传输时刻的联接关系进行比较，参见图7和图8，图7为采用本发明对某一节点的预测拓扑结构图，图8本发明在图7基础上节点真实运动过程中稳定连接的拓扑图。图7所示，采用本发明预测1号节点能够稳定联接的拓扑结构方案。因为本发明采用自适应强化学习的方法对处于学习区间内节点进行强化学习以及下一传输时刻稳定联接拓扑结构的节点预测，所以可以产生精度较高的预测准确度。

图7中可见，在1号节点的通信范围内，存在节点4、9、10、13、15可联接的节点，根据1号节点当前的累积性的学习得到在下一传输时刻与节点4、10、13、15能够形成稳定联接，而9号节点为不能进行稳定联接的链路节点。参见图8所示，根据下一传输时刻实际的拓扑联接关系验证，9号节点在下一传输时刻运动出了1号节点的通信范围，证明了本发明预测联接关系与实际联接关系相一致，有效的证明了本发明在解决传输时形成稳定拓扑联接链路的情况有很好的预测效果。

简而言之，本发明公开一种移动自组织自适应边界的分布式强化学习稳定拓扑生成方法，解决了移动自组织网络在路由过程中链路节点联接持续性差、稳定性差的问题。具体实现包括：在移动自组织网络中节点动态拓扑构建；自适应强化学习区间及Q值表初始化；自适应区间内强化学习，用自适应奖励函数更新Q值，联接状态稳定性判断；更新自适应区间的边界；对自适应区间外的状态直接决策判断；自适应区间边界自适应更新；生成分布式自适应的稳定联接拓扑。本发明将接收信号强度值(RSSI)与强化学习方法结合，自适应区间边界更新与自适应奖励函数更新结合，研发出一种高效自适应的强化学习的方法，具有实际的应用价值。本发明减少了节点的能量消耗，避免了较大的网络开销，学习速率快，复杂度低。用于移动自组织网络分布式拓扑生成。

Claims

1.一种基于自适应边界的分布式强化学习稳定拓扑生成方法，其特征在于：包括有以下步骤：

步骤1动态拓扑构建：在一块区域内布置N个节点，各节点根据移动自组织网络MANET中随机游走移动模型的方式在区域内进行随机移动，形成MANET的动态拓扑结构，定义每个节点都存在一个自适应强化学习的区间[a,b]；

步骤2划分自适应强化学习区间及Q值表初始化：在构建的MANET中，各节点初始化，设各节点的初始归一化发射功率为0dBm，节点与其邻居节点间的稳定拓扑联接临界归一化强度值为d_windBm，初始设置各节点学习期间[a,b]中上界a与下界b的值都等于d_windBm；节点接收到邻居节点的接收信号强度值RSSI，按接收信号强度值划分的三个区间[0,a)、[a,b]、(b,-∞)分别进行拓扑联接稳定性处理；区间[a,b]为Q-learning强化学习方法的拓扑稳定性学习区间，简称为自适应区间，在自适应区间内采用Q-learning方法进行拓扑稳定性自适应强化学习和预测；区间[0,a)、(b,-∞)内进行状态的直接决策，简称直接决策区间，即节点直接判断其与邻居节点的拓扑联接稳定性；随着Q-learning方法的执行，自适应区间[a,b]的边界值会自适应更新，进行自适应区间扩展；网络中每个节点会初始化建立一个Q值表，表中元素对应其与每一邻居节点在不同状态和动作下的强化学习Q值；设置状态集S＝{s₁,s₂}，状态s₁为当前节点与某邻居节点处于稳定联接状态，状态s₂为当前节点与某邻居节点处于非稳定联接状态；设置动作集A＝{a₁,a₂}，动作a₁为预判稳定状态，动作a₂为预判非稳定状态；节点根据与各个邻居节点所处的联接状态s_i以及所采用策略π(s_i,a_j)选择动作a_j，i状态序号取值为1、2，j为动作序号1、2；针对节点与邻居节点在t时刻对应元素Q值表中的Q_t(s_i,a_j)进行强化学习更新，得到下一时刻Q值表中Q_t+1(s_i,a_j)，其中s_i∈S,a_j∈A；在自适应区间内，节点将针对其各个邻居节点采用自适应强化学习更新公式逐一进行Q-learning方法强化学习；

步骤4自适应区间内强化学习与联接状态稳定性判断：在MANET中，节点接收到某邻居节点的RSSI值处于区间[a,b]内时，该节点按照强化学习方法进行自适应强化学习与联接状态稳定性预测，并利用自适应奖励函数对Q值表进行更新，更新后得到下一传输时刻节点与其邻居节点的稳定联接状态预测选择；执行步骤7；

步骤6对自适应区间边界进行自适应更新：直接决策区间的边界a和边界b同时也为自适应区间的上界a和下界b，将稳定联接临界归一化强度值d_win作为判定阈值，如果当前时刻节点接收到某邻居节点的RSSI，邻居节点的接收信号强度指示大于阈值判定为稳定联接状态s₁；邻居节点的接收信号强度指示小于阈值判定为非稳定联接状态s₂；当RSSI值处于直接决策区间时，根据如下状态判断公式进行判断：

假设下一传输时刻当前节点接收到该邻居节点的接收信号强度为RSSI′,又根据上述状态判断公式判定下一时刻实际联接变量状态为s′；根据自适应区间边界的自适应更新公式对自适应区间上界a或自适应区间下界b进行更新；

2.如权利要求1所述的一种基于自适应边界的分布式强化学习稳定拓扑生成方法，其特征在于：步骤4中所述的强化学习方法，具体实现过程包括有如下步骤：

步骤4.1确定强化学习方法的整体结构：在区间[a,b]中将移动自组织网络中每个节点视为一个代理Agent，MANET的动态变化可以看作是一个分布式多Agent的协作系统；对于每一个分布式代理Agent假设其环境状态集为S，动作集为A，奖赏函数为

动作选择策略为π(s_i,a_j)；

步骤4.2判断每个代理Agent状态集S：状态集S由离散状态构成：

S＝{s₁,s₂}

式中：状态s₁为根据当前接收到某邻居节点RSSI，节点与某邻居节点处于稳定联接状态；状态s₂为根据当前接收到某邻居节点RSSI，与某邻居节点处于非稳定联接状态；

步骤4.3判断每个代理Agent的动作集A：每代理Agent采取的动作分为两个类型：预判为稳定联接状态；预判为非稳定联接状态；动作集A表示为：

A＝{a₁,a₂}

式中：a₁为预判稳定状态；a₂为预判非稳定状态；

步骤4.4设置自适应奖励函数：设置奖励函数

奖励函数

表示奖励函数的自适应系数adaptive_reward，即执行当前节点执行当前动作类型的次数与及节点执行动作的总次数比值；强化学习过程中，奖励函数是代理Agent在状态s_i下采取行动a_j预判状态，参照实际转移状态s′_i后的奖惩值；表明在特定状态下采取动作决策的好坏程度；

步骤4.5确定代理Agent的动作选择策略：节点每次选择Q值表中对于邻居节点在s_i状态下对应的Q值最大的动作a_j，选择策略公式为：

式中：π(s_i,a_j)为在状态s_i下选择对应Q值最大动作a_j的动作选择策略；

步骤4.6采用自适应强化学习更新公式对Q值表进行更新：节点根据与各个邻居节点，在所处的联接状态s_i下采用策略π(s_i,a_j)选择动作a_j采用自适应强化学习更新公式进行Q值强化学习更新，得到下一时刻Q值Q_t+1(s_i,a_j)，节点针对其各个邻居节点逐一进行Q-learning方法强化学习和更新。

3.如权利要求1所述的一种基于自适应边界的分布式强化学习稳定拓扑生成方法，其特征在于：步骤2及步骤4.6中提及的自适应强化学习更新公式，公式如下：

式中：α为学习率，0＜α＜1；γ为奖励折扣因子，0＜γ＜1；a_j为t时刻动作，s_i为t时刻状态，s′_i∈S为s_i执行动作a_j后转移到的状态；a′_j∈A为Q值表中对于此邻居节点在s_i′状态上对应的最大Q值动作；

为在状态s_i下执行动作a_j后转移到状态s′_i得到的奖励值。

4.如权利要求1所述的一种基于自适应边界的分布式强化学习稳定拓扑生成方法，其特征在于，步骤6中所述的自适应区间边界的自适应更新公式，具体如下：

式中：a为区间上边界；b为区间下边界；RSSI为邻居节点的接收信号强度指示值；s′为下一时刻该节点与邻居节点的实际联接状态；

为下一时刻节点与邻居节点联接状态的预测；设定adaptive_rate为自适应边界调整的比例系数，即当前节点预测的下一传输时刻的联接状态预测出错次数与预测总次数的比值；若

a＜RSSI且adaptive_rate大于0.1时，则调整自适应边界a＝RSSI；若b＞RSSI且adaptive_rate大于0.1时，则调整自适应边界b＝RSSI；若

强化学习区间自适应边界保持不变。

5.如权利要求2所述的一种基于自适应边界的分布式强化学习稳定拓扑生成方法，其特征在于，步骤4.4中所述的奖励函数，是根据节点在网络中的运动状态分析得到的，奖励函数的定义式为：

上式中表示状态s_i下采取动作a_j，状态由s_i转移到状态s′_i；式中

在

条件或

条件下，其奖励值或为-5；同理可得其它条件的奖励值；自适应奖励值系数adaptive_reward为其中

表示从当前状态s_i下采取动作a_j，状态由s_i转移到状态s′_i的次数；其中T_count表示采取动作的总次数。