CN110719201B

CN110719201B - 基于强化学习的分布式自适应稳定拓扑生成方法

Info

Publication number: CN110719201B
Application number: CN201910968096.3A
Authority: CN
Inventors: 黄庆东; 石斌宇; 蒋彦渊
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2022-04-12
Anticipated expiration: 2039-10-12
Also published as: CN110719201A

Abstract

本发明公开一种基于强化学习的分布式自适应稳定拓扑生成方法，解决了移动自组织网络在路由过程中链路节点联接持续性差的问题。具体实现包括：在移动自组织网络中节点动态拓扑构建；划分自适应强化学习区间及Q值表初始化；接收信号强度值进行分区间处理；自适应区间内强化学习与联接状态稳定性判断；直接决策区间状态判断；自适应区间边界更新；生成分布式自适应的稳定联接拓扑。本发明将接收信号强度值与强化学习方法和自适应区间方法结合，准确实现了移动自组织网络动态拓扑变化过程中的稳定拓扑链路，本发明减少了节点的能量消耗，避免了较大的网络开销，学习速率快，复杂度低。用于移动自组织网络分布式拓扑生成。

Description

基于强化学习的分布式自适应稳定拓扑生成方法

技术领域

本发明属于通信技术领域，涉及移动自组织网络的稳定拓扑生成，具体是一种移动自组织网络的基于强化学习的分布式自适应稳定拓扑生成方法，用于一种移动自组织分布式网络。

背景技术

移动自组织网络(mobile Ad hoc networks,MANET)综合了无线通信技术、嵌入式计算技术、传感器技术、分布式信息处理技术等，能够通过集成化的移动接收装置协作不同场景下的信息采集和传输。当移动自组织网络运行在环境较差的条件下时，经常会受到外界因素和移动节点自身因素的影响，特别是在能量和存储资源有限、以及高度的移动性的情况下，怎样降低能耗和增强网络的通信质量是MANET当前要解决的重要问题。因此，构建稳定的拓扑结构进行信息传输是保证MANET有效运行的重要条件。

采用分布式机制处理的MANET可以根据网络内各个节点的信息交互来处理整个网络的连接关系和信息传输过程。分布式处理利用本地网络节点的有限计算能力和存储空间对各个节点的运动状态过程进行分布式的自主学习，根据各个节点在网络信息交互过程中的接收信号强度值(RSSI),对每个节点与邻居节点之间的链路连接关系进行有效的分析和预测，得到稳定拓扑结构，进而充分利用了节点的自身信息资源最大化的提升整个网络的性能因素。目前，基于深度学习和机器学习方法对节点的运动轨迹、位置或链路质量进行预测来选择最可靠路径进行信息传输，使得节点传输过程中链路联接保持较长时间。这些方法在判定链路稳定性方面与传统的方法判定链路稳定性相比虽然效果较好，但都存在一定的局限性。现有的方法分为以下几个方面：1.)通过节点的移动特性来预测网络中链路联接的稳定性程度和网络拓扑结构，基于自适应神经模糊系统来预测节点的运动轨迹选择链路节点进行传输，但是在预测过程中节点之间产生的大量的控制信息造成过大的能耗和运算大的开销；2.)对节点接收信号强度收集，对其进行深度学习训练预测出节点的运动，根据运动轨迹来构建稳定性链路联接，在预测位置的过程中仅考虑节点的相对移动特性不能及时反映节点移动特性的变化，并且采集数据仅采用某个时期的运动参数不能很好反映节点当前的运动特性；3.)根据接收信号强度选择稳定路径的方法，将一段时间内节点接收信号强度平均值把链路分为强联接和弱联接两类，设定阈值选择某一阈值内的链路进行路由传输，但是该方法没有考虑其它因素对链路的综合影响。

综上，现有方法在信息采集过程中，当节点个数多时会产生网络通信阻塞、节点运算量大、节点能耗高等缺点，进而会在链路稳定性判定环节会因为信息通信不流畅使信息不能及时传递或造成信息丢失，导致分布式MANET拓扑稳定性预测方法不能高效的进行链路稳定性预测等缺点。

以上的缺陷，限制了MANET的性能，导致节点能耗增加，生命周期缩短和网络延迟增大，从而影响了链路稳定性预测方法在MANET中的应用。

发明内容

本发明目的在于克服上述已有技术的不足，提供一种稳定性有保障的移动自组织网络分布式自适应拓扑生成方法。

本发明是一种基于强化学习的分布式自适应稳定拓扑生成方法，其特征在于，包括有以下步骤：

步骤1动态拓扑构建：在一块区域内布置N个节点，各节点根据移动自组织网络(mobile Ad hoc networks,MANET)中随机游走移动模型(random walk mobility model,RWM)的方式在区域内进行随机移动，形成MANET的动态拓扑结构，定义每个节点都存在一个自适应强化学习的区间[a,b]；

步骤2划分自适应强化学习区间及Q值表初始化：在构建的MANET中，各节点初始化，设各节点的初始归一化发射功率为0dBm，节点与其邻居节点间的稳定拓扑联接临界归一化强度值为d_win dBm，初始设置各节点学习区间[a,b]中上界a与下界b的值都等于d_windBm；节点接收到邻居节点的接收信号强度值(RSSI)，按接收信号强度值划分的三个区间[0,a)、[a,b]、(b,-∞)分别进行拓扑联接稳定性处理；区间[a,b]为Q-learning强化学习方法的拓扑稳定性学习区间，简称为自适应区间，在自适应区间内采用Q-learning方法进行拓扑稳定性自适应强化学习和预测；区间[0,a)、(b,-∞)内进行状态的直接决策，简称直接决策区间，即节点直接判断其与邻居节点的拓扑联接稳定性；随着Q-learning方法的执行，自适应区间[a,b]的边界值会自适应更新，进行自适应区间扩展；网络中每个节点会初始化建立一个Q值表，表中元素对应其与每一邻居节点在不同状态和动作下的强化学习Q值；设置状态集S＝{s₁,s₂}，状态s₁为当前节点与某邻居节点处于稳定联接状态，状态s₂为当前节点与某邻居节点处于非稳定联接状态；设置动作集A＝{a₁,a₂}，动作a₁为预判稳定状态，动作a₂为预判非稳定状态；节点根据与各个邻居节点所处的联接状态s_i以及所采用策略π(s_i,a_j)选择动作a_j，i状态序号取值为1、2，j为动作序号1、2；针对节点与邻居节点在t时刻对应元素Q值表中的Q_t(s_i,a_j)进行强化学习更新，得到下一时刻Q值表中Q_t+1(s_i,a_j)，其中s_i∈S,a_j∈A；在自适应区间内，节点将针对其各个邻居节点采用自适应强化学习更新公式逐一进行Q-learning方法强化学习；

步骤3当前节点根据强度值(RSSI)进行分区间处理：当前节点接收到邻居节点的接收信号强度值(RSSI)进行分区间处理，当RSSI值落入区间[a,b]则执行步骤4，进行自适应强化学习及状态预测；否则，执行步骤5，进行直接决策区间状态判断；

步骤4自适应区间内强化学习与联接状态稳定性判断：在MANET中，当前节点接收到某邻居节点的RSSI值处于区间[a,b]内时，该节点首先按照强化学习方法进行自适应强化学习并对Q值表进行更新，之后对该节点稳定性进行预测选择，得到下一传输时刻节点与该邻居节点的联接状态的稳定预测；之后执行步骤7；

步骤5直接决策区间状态判断：当前节点接收到邻居节点的RSSI值处于区间[0,a)内，直接判决该邻居节点的联接状态为稳定联接状态s₁，之后执行步骤6；节点接收到邻居节点的RSSI值处于区间(b,-∞)内，直接判决该邻居节点的联接状态为非稳定联接状态s₂，之后执行步骤6；

步骤6更新自适应区间边界：将稳定联接临界归一化强度值d_win作为判定阈值，如果当前时刻节点接收到某邻居节点的RSSI，邻居节点的接收信号强度指示大于阈值判定为稳定联接状态s₁；邻居节点的接收信号强度指示小于阈值判定为非稳定联接状态s₂；当RSSI值处于直接决策区间时，根据如下状态判断公式进行判断：

式中：s为当前节点与邻居节点的联接变量状态；将状态s作为下一传输时刻节点与邻居节点的联接变量状态预测，具体表示为

假设下一传输时刻当前节点接收到该邻居节点的接收信号强度为RSSI′,又根据上述状态判断公式判定下一时刻实际联接变量状态为s′；若

且边界a＜RSSI，则调整边界a＝RSSI；若

且b＞RSSI，则调整边界b＝RSSI；若

自适应区间边界保持不变；

步骤7生成分布式自适应的稳定联接拓扑：针对不同时刻，各个节点重复执行步骤3～6，遍历所有节点，根据接收到邻居节点的RSSI值进行自适应区间内的强化学习与联接状态稳定性预测、直接决策区间状态判断、自适应边界更新，得到每一传输时刻节点与稳定联接状态邻居节点建立稳定拓扑联接关系，实现分布式自适应的稳定联接拓扑。

本发明中各个节点相互独立，可以异步分布式执行稳定拓扑生成，网络中各个节点独立按照上述方法进行自主学习决策。每个节点对其各邻居节点进行联接状态稳定关系判定，最终由稳定联接状态的邻居节点构成此节点的稳定邻居集。由相互稳定联接的节点形成移动无线自组织网络的稳态拓扑。本发明用于移动自组织网络在路由过程中生成稳定拓扑结构来延长网络中链路的联接时间。在不耗费额外的网络能耗的前提下，能够降低网络任务的复杂程度，增强网络通信质量，提升移动自组织网络中节点之间的稳定拓扑联接。

与现有技术相比，本发明具有如下优点：

减少了节点的能量消耗，避免了较大的网络开销：本发明在数据收集的过程中，将各个节点信息交互过程中携带的RSSI值作为测量数据，把RSSI值作为强化学习方法中节点进行迭代更新学习的量值，高效的反映出节点之间的链路联接的状态，避免额外的信息测量数据的收集，有效的减少了节点的能量消耗，避免了较大的网络开销。

增强网络中节点的自适应环境性能：MANET拓扑结构的动态变化对稳定性拓扑结构的建立带来巨大的挑战，基于传统的链路稳定性的测量方法和基于深度学习的节点运动轨迹的预测方法对于网络情况复杂，以及高动态运动的节点的链路情况下效果甚佳。在实际的情况下，网络不能满足相关的性能要求与预期的模拟性能存在很大的偏差，而强化学习方法适用于解决分布式系统中各种数据传输之间的的相关优化问题。因此，本发明应用自适应区间方法和强化学习方法相结合解决MANET网络中链路联接之间的稳定性问题，强化学习方法可以与环境进行交互学习，不断的通过反馈学习来得到当前稳定拓扑联接的预测选择，从而有效的选择出最优的行为，适应于复杂度高且高度变化的移动无线自组织网络的稳定链路联接选择。

高效数据预测效果：本发明中应用了在线学习的强化学习方法，相比与传统的方法和深度学习方法而言，更具有实时的模型更新方式。传统的方法和深度学习方法在处理数据前，都需要进行一段时间的数据收集，对于动态的拓扑结构而言，不能够很好的表现出当前动态拓扑结构的特性。因此本发明方法将移动自组织网络进行强化学习多代理Agent协作系统的模型建立、设置合理的学习区间、奖励函数与状态结构，从而能够有效的降低对收集数据不能后有效表现出当前动态拓扑结构的状态，高效实时的在线更新数据以及方法的预测模型，使当前的预测结果达到最佳状态。

增加效率和精度：本发明在研究设计的过程中，根据本发明方法执行过程合理的设计了自适应区间方法分类处理接收信号强度值，进行自适应区间方法进行分区间处理从而将本发明的数据处理进行了优化，减少了学习区间外的接收信号强值对学习区间内的接收信号强度值的干扰，提高了本发明执行的效率和精度。

加快强化学习的效率：在强化学习方法执行的阶段，设置合理的奖励函数值可以让强化学习方法快速得到期望状态的动作策略。本发明在设计的过程中将每个代理Agent的奖励值设置为3类值，有效的覆盖了每个节点的所有状态转移动作的情况，将强化学习的过程合理高效综合起来，最大化的发挥本发明的性能。

附图说明:

图1是本发明方法的流程示意图；

图2是本发明中MANET的移动场景示意图；

图3是本发明中自适应区间划分的结构示意图；

图4是本发明中强化学习方法状态转移示意图；

图5是本发明中不同学习率α下对预测准确率影响的曲线图；

图6是本发明与现有Q-learning学习方法的预测准确率对比曲线图；

图7为采用本发明对某一节点的预测拓扑结构图；

图8为本发明在图7基础上节点真实运动过程中稳定联接的拓扑图。

具体实施方式：

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明做详细说明。

实施例1

移动自组织网络在无基础设施的通信网络中发挥重要作用，网络无基础设施的支撑，每一个移动节点都兼有路由器和主机两种功能，可以通过无线联接构成任意的网络拓扑。移动自组织网络在军事通信、移动网络、连接个域网络、紧急服务和灾难恢复、无线传感器网络等方面具有广阔的应用前景。因此，移动自组织网络也成为当前研究的热点方向之一。移动自组织网络中节点的移动性导致整个无线信道形成的网络拓扑结构随时发生变化，为了能够有效的减少动态拓扑变化的影响，现有的方法通过节点的移动性来预测网络中链路联接的稳定性程度和网络拓扑结构来减小动态拓扑变化的影响。但是现有方法都存在一定局限性，其中大多都是仅考虑节点相对移动，或者只采集节点某个时期的运动参数，这些参数不能及时反映出节点移动特性变化，也没有考虑参数对链路稳定性的综合影响。

针对现有方法一些不足方面，本发明力图提供一种新的路径，经过研究与开发提出一种基于强化学习的分布式自适应稳定拓扑生成方法，参见图1，包括有以下步骤：

步骤1动态拓扑生成：在一块区域内布置N个节点，根据移动自组织网络MANET中随机游走移动模型(random walk mobility model,RWM)的方式在区域内进行随机移动，生成MANET的动态拓扑结构，动态拓扑结构参见图2，定义每个节点都存在一个自适应强化学习的区间[a,b]。

步骤2划分自适应强化学习区间及Q值表初始化：在构建的MANET中，各节点初始化，设各节点的初始归一化发射功率为0dBm，节点与其邻居节点间的稳定拓扑联接临界归一化强度值为d_win dBm，初始设置各节点学习区间[a,b]中上界a与下界b的值都等于d_windBm。节点接收到邻居节点的接收信号强度值(RSSI)，按接收信号强度值划分的三个区间[0,a)、[a,b]、(b,-∞)分别进行拓扑联接稳定性处理。区间[a,b]为Q-learning强化学习方法的拓扑稳定性学习区间，简称为自适应区间，在自适应区间内采用Q-learning方法进行拓扑稳定性自适应强化学习和预测。区间[0,a)、(b,-∞)内进行状态的直接决策，简称直接决策区间，即节点直接判断其与邻居节点的拓扑联接稳定性。随着Q-learning方法的执行，自适应区间[a,b]的边界值会自适应更新，进行自适应区间扩展。网络中每个节点会初始化建立一个Q值表，表中元素对应其与每一邻居节点在不同状态和动作下的强化学习Q值。本发明设置状态集S＝{s₁,s₂}，状态s₁为当前节点与某邻居节点处于稳定联接状态，状态s₂为当前节点与某邻居节点处于非稳定联接状态。设置动作集A＝{a₁,a₂}，动作a₁为预判稳定状态，动作a₂为预判非稳定状态。当前节点根据与各个邻居节点所处的联接状态s_i以及所采用策略π(s_i,a_j)选择动作a_j，i为状态序号取值为1、2，j为动作序号取值为1、2。针对当前节点与邻居节点在t时刻对应元素Q值表中的Q_t(s_i,a_j)进行强化学习更新，得到下一时刻Q值表中Q_t+1(s_i,a_j)，其中s_i∈S,a_j∈A。在自适应区间内，当前节点将针对其各个邻居节点采用自适应强化学习更新公式逐一进行Q-learning方法强化学习。整个强化学习区间的结构图，参见图3，本发明根据当前节点与邻居节点的RSSI值划分出三个区间，区间[a,b]为自适应强化学习区间，区间[0,a)、(b,-∞)为直接决策区间。

步骤3当前节点根据强度值(RSSI)进行分区间处理：当前节点接收到邻居节点的接收信号强度值(RSSI)进行分区间处理，当RSSI值落入区间[a,b]则执行步骤4，进行自适应强化学习及状态预测。否则，执行步骤5，进行直接决策区间状态判断。

步骤4自适应区间内强化学习与联接状态稳定性判断：在MANET中，当前节点接收到某邻居节点的RSSI值处于区间[a,b]内时，该节点首先按照强化学习方法进行自适应强化学习并对Q值表进行更新，并对该节点稳定性进行预测选择，得到下一传输时刻节点与该邻居节点的联接状态的稳定预测；之后执行步骤7，结合自适应强化学习得到稳定性预测，生成分布式自适应的稳定联接拓扑。

步骤5直接决策区间状态判断：节点接收到邻居节点的RSSI值处于区间[0,a)内，直接判决该邻居节点的联接状态为稳定联接状态s₁，之后执行步骤6；节点接收到邻居节点的RSSI值处于区间(b,-∞)内，直接判决该邻居节点的联接状态为非稳定联接状态s₂，之后执行步骤6，进行自适应区间边界调节，确定自适应区间边界。

步骤6更新自适应区间边界：将稳定联接临界归一化强度值d_win作为判定阈值，如果当前时刻节点接收到某邻居节点的RSSI，当RSSI值处于直接决策区间时，根据如下状态判断公式进行判断：

式中：s为当前节点与邻居节点的联接变量状态；邻居节点的接收信号强度指示大于阈值d_win，判定为稳定联接变量状态s₁；邻居节点的接收信号强度指示小于阈值d_win，判定为非稳定联接变量状态s₂；将状态s作为下一传输时刻节点与邻居节点的联接状态预测

假设下一传输时刻节点接收到该邻居节点的接收信号强度为RSSI′,又根据上述状态判断公式判定下一时刻实际联接状态为s′；若

且a＜RSSI，则调整边界a＝RSSI；若

且b＞RSSI，则调整边界b＝RSSI；若

自适应区间边界保持不变。通过以上方案设计，实现了当前节点自适应区间边界的确定。

本发明提出了一种基于强化学习的分布式自适应稳定拓扑生成方法整体的技术方案。

本发明经过试验与研究发现，现有技术在以下方面可以改进：

1)由于现有的预测链路稳定性的方法中，大多数的方法是通过节点的相对移动性，或仅采用某个时期的运动参数对数据进行处理，根据数据之间的相关性来预测未来链路的稳定性，而这些参数在采集的过程中很大程度上不能够及时的反映出节点的运动特性，并且也没有考虑对链路稳定性的综合影响。

2)通常在预测节点的未来移动性时要大量的测量数据以及控制信息，这些因素在信息交互过程中会形成大量的开销，从而造成网络拥塞，降低网络的整体性能，增大网络中各个节点的能耗，实时性以及节点能耗的问题不能很好的解决。

3)在预测节点的位置和链路稳定性的过程中，节点的运动特性是假设不变的，但是在节点的实际运动过程中，节点的运动状态实时发生变化，现有方法在一些特定情况下不能很好的自适应网络环境的变化，自适应性不能很好的体现。

本发明的技术思路是：将接收信号强度与强化学习方法结合，合理的设置了区间自适应方法，对接收数据进行实时处理的设计，不断的更新预测模型的数据，在自适应学习区间内进行自适应强化学习预测得到稳定拓扑联接，自适应学习区间外进行直接决策。通过上述思想本发明能够有效的减少信息传输过程中由于节点的运动特性导致移动自组织网络的链路快速断裂的问题，生成稳定拓扑结构，增强网络的整体性能因素，降低网络的复杂程度以及节点能量消耗，提高网络的通信质量。

无线移动自组织网络应用于无基础设施的网络通信，在节点移动过程中导致整个无线信道形成的网络拓扑结构随时发生变化。为了能够有效的减少动态拓扑变化的影响，本发明根据节点信息交互过程中携带的接收信号强度值(RSSI)对现有的联接链路的稳定性情况进行学习累积，先对链路的稳定性情况做出自适应的判断，再进行强化学习的过程，将接受到RSSI处于自适应区间内的值进行强化学习更新，根据不断迭代更新得到的下一传输时刻稳定性策略，预测出在未来一个传输时间间隔内的链路质量，选择能够组成稳定拓扑的邻居节点形成分布式自适应稳定拓扑，本发明适用于所有的移动自组织网络。

实施例2

基于强化学习的分布式自适应稳定拓扑生成方法同实施例1，本发明中步骤4中所述的强化学习，当前节点接收到邻居节点的接收信号强度值(RSSI)需要进行进行分区间处理，只有当RSSI值落入区间[a,b]需要进行自适应强化学习，具体包括有如下步骤：

步骤4.1确定强化学习的整体结构：强化学习模型整体结构为，在区间[a,b]中每一个移动节点视为一个Agent，这样整个网络的动态变化都可认为是一个分布式多代理Agent协作系统。对于每个分布式代理Agent，假设其环境状态集为S，动作集为A，奖赏函数为

动作选择策略为π(s_i,a_j)。

本发明在移动自组织网络中构建强化学习的模型，将网络看作是多代理Agent的协作系统，将移动自组织网络的场景与强化学习方法进行有效的结合，解决了移动自组织网络中动态拓扑变化过程导致链路联接差的问题，避免了较大的网络开销，有效的增强了网络中节点与邻居节点联接稳定性，提高网络的通信质量。

步骤4.2判断每个代理Agent状态集S：本发明中状态集S由离散状态构成：

S＝{s₁,s₂}

式中：状态s₁为根据当前接收到某邻居节点RSSI，当前节点与某邻居节点处于稳定联接状态；状态s₂为根据当前接收到某邻居节点RSSI，与某邻居节点处于非稳定联接状态。

步骤4.3判断每个代理Agent的动作集A：每个代理Agent采取的动作分为两个类型：预判为稳定联接状态；预判为非稳定联接状态；其中，动作集A表示为：

A＝{a₁,a₂}

式中：a₁为预判稳定状态；a₂为预判非稳定状态。

步骤4.4设置奖励函数：

设置奖励函数

奖励函数

中，s_i表示当前节点的状态；s′_i表示执行动作后转移到的状态；a_j表示在s_i状态下执行的动作；s_i→s′_i表示前后时刻的实际状态转移关系；强化学习过程中，奖励函数是代理Agent在状态s_i下采取行动a_j预判状态，参照实际转移状态s′_i后的奖惩值；表明在特定状态下采取动作决策的好坏程度。

本发明将移动自组织网络进行强化学习多代理Agent协作系统的模型建立、设置合理的学习区间、奖励函数与状态结构，能够有效的降低对收集数据不能后有效表现出当前动态拓扑结构的状态，高效实时的在线更新数据以及方法的预测模型，使当前的预测结果达到最优状态。

步骤4.5确定代理Agent的动作选择策略：

节点每次选择Q值表中对于邻居节点在s_i状态下对应的Q值最大的动作a_j，选择策略公式为：

式中：π(s_i,a_j)为在状态s_i下选择对应Q值最大动作a_j的动作选择策略。

步骤4.6采用自适应强化学习更新公式对Q值表进行更新：节点根据与各个邻居节点，在所处的联接状态s_i下采用策略π(s_i,a_j)选择动作a_j采用自适应强化学习更新公式进行Q值强化学习更新，得到下一时刻Q值Q_t+1(s_i,a_j)，节点针对其各个邻居节点逐一进行Q-learning方法强化学习和更新。自适应强化学习更新公式如下：

式中：α为学习率，0＜α＜1；γ为奖励折扣因子，0＜γ＜1；a_j为t时刻动作，s_i为t时刻状态，s′_i∈S为s_i执行动作a_j后转移到的状态；a′_j∈A为Q值表中对于此邻居节点在s′_i状态上对应的最大Q值动作；

为在状态s_i下执行动作a_j后转移到状态s′_i得到的奖励值。

表示Q值表中对于此邻居节点在s′_i状态上对应的最大Q值，它代表当前策略π(s′_i,a′_j)取得的新状态对Q值的最佳预期影响。

图4为本发明中强化学习方法的状态转移示意图，参见图4，图4中表明了节点的两种状态之间的状态转换关系，节点的每个状态分别存在4种不同的状态转换关系。经过上述步骤4.1～步骤4.6的过程和分析，可以得到本发明中强化学习方法的状态转移图，图4中所示为每个节点的两种状态转换：s₁为节点接收到邻居节点RSSI值处稳定联接状态；s₂为节点接收到邻居节点RSSI值处于非稳定联接状态。例如状态s₁存在发生4种状态的变化：当前节点处于联接状态s₁，执行动作a₁后，节点的联接状态由s₁状态变换到s₁状态，产生的奖励值为+1；当前节点处于联接状态s₁，执行动作a₂后，节点的联接状态由s₁状态变换到s₁状态，产生的奖励值为-1；当前节点处于联接状态s₁，执行动作a₁后，节点的联接变量状态由s₁状态变换到s₂状态，产生的奖励值为-5；当前节点处于联接状态s₁，执行动作a₂后，节点的联接状态由s₁状态变换到s₂状态，执行动作后从当前状态转移到下一状态的奖励值，产生的奖励值为+1。

同理，s₂状态下同样存在4中状态转换。

本发明的在线强化学习方法，相比与传统的方法和深度学习方法，具有实时的模型更新方式。传统方法和深度学习方法在处理采集数据前，都需要进行一段时间的数据收集，对于动态的拓扑结构，不能够很好的表现出当前动态拓扑结构的特性。本发明将移动自组织网络进行自适应强化学习方法处理，包括模型建立、设置合理的学习区间、奖励函数与状态结构等，能够有效的降低数据收集不能及时更新，以及多种原因导致综合因素的影响，使当前的预测准确度效果最佳。

实施例3

基于强化学习的分布式自适应稳定拓扑生成方法同实施例1-2，本发明步骤6中所述的自适应区间的更新公式，具体如下：

式中：a为区间上边界；b为区间下边界；RSSI为邻居节点的接收信号强度指示值；s′为下一时刻该节点与邻居节点的实际联接变量状态；

为下一时刻节点与邻居节点联接变量状态的预测。本发明在自适应区间更新过程中，首先需要满足的条件为

表明当前节点的预测与实际联接变量状态不符，也说明节点在边界调整过程中已经发生错误。在此基础上，当节点接收到的RSSI值大于自适应更新区间的上界a时，更新上界a；当节点接收到的RSSI值小于自适应更新区间的下界b时，更新下界b。

本发明在研究和实验过程中总结出自适应区间的更新公式，为本发明的高精度状态判断预测奠定了基础，自适应区间更新公式有效的区分出学习区间和直接决策区间，使本发明自适应区间更新在高度变化的环境中有效的适应环境的变换，避免了对任意状态的情况都进行累计性的学习过程，减少了额外的信息测量数据的收集，有效的降低了节点的能量消耗，避免了较大的网络开销。经过多次的研究分析，本发明得出有效的自适应区间更新公式，与其它方法相比本发明中自适应区间边界进行不断更新和自适应处理更加符合节点在实际运动过程中的情况。

实施例4

基于强化学习的分布式自适应稳定拓扑生成方法同实施例1-3，步骤4.4中所述的奖励函数，是根据节点在网络中的运动状态分析得到的，奖励函数的奖励值表和定义式，奖励函数的奖励值参见表1：

表1：奖励函数的奖励值

奖励函数定义式：

上式中

表示状态s_i下采取动作a_j，状态由s_i转移到状态s′_i；式中

在

条件或

条件下，其奖励值

或

为-5；同理可得其它条件的奖励值。

本发明通过设置不同状态转移的奖励函数值，可以让强化学习方法快速得到期望状态的动作策略。本发明在设计的过程中将每个代理Agent的奖励值，根据运动状态设置为3类值，有效的覆盖了当前每个节点的所有转移动作的情况，将强化学习的过程高效合理综合起来，可以最大化的发挥本发明的性能。在本发明研究设计的过程中，最初根据采取动作后，期望状态与转移后得到的状态是否一致设计了两类奖赏值，经过试验验证发现在该种模式下学习得到的结果与预期的结果存在一定差距，所以通过多次试验后发现，将出错状态转换奖赏值设置调整后，得到强化学习的结果与预期的结果相符。

下面给出一个更加详实的例子，对本发明进一步说明实施例5

基于强化学习的分布式自适应稳定拓扑生成方法同实施例1-4，本发明是一种移动自组织网络的稳定拓扑生成方法，其主要实现步骤包括有：

步骤1动态拓扑构建：在一块区域内布置15个节点，根据MANET中随机游走移动模型的方式在150×150(m²)的区域内15个节点进行随机移动，假设两个节点的通信距离最大为r，构建MANET的动态拓扑结构。参见图2，图2是本发明中MANET的移动场景图，图2中节点A预向D发送数据包，所以节点A广播路由请求分组并发现要发送数据包到D必须经过节点B或C。此时节点B正迅速远离A和D节点，而节点C缓慢向A移动。如果节点A选择B作为转发节点，由于B的快速移动性，会导致(A,B)链路不稳定，很容易断开。而此时，由于C是以同样的方向缓慢移动，未来是向接近A节点的位置移动，所以在传输的过程中(A,C)链路相比(A,B)将会有更长的时间保持好稳定联接。本发明跟据当前传输时刻内节点的移动情况，确定出各个节点的邻居节点以及各个节点当前接受信号强度值进行稳定性选择的技术方案，A选择C作为下一跳传输节点转发到D更有助于信息的可靠网络传输。定义每一个节点都存在一个自适应强化学习的区间[a,b]。

步骤2划分自适应强化学习区间及Q值表初始化：在构建的MANET中，各节点初始化，设各节点的初始归一化发射功率为0dBm，节点与其邻居节点间的稳定拓扑联接临界归一化强度值为d_windBm，初始设置各节点学习区间[a,b]中上界a与下界b的值都等于d_windBm。节点接收到邻居节点的接收信号强度值(RSSI)，按接收信号强度值划分的三个区间[0,a)、[a,b]、(b,-∞)分别进行拓扑联接稳定性处理。区间[a,b]为Q-learning强化学习方法的拓扑稳定性学习区间，简称为自适应区间，在自适应区间内采用Q-learning方法进行拓扑稳定性自适应强化学习和预测。区间[0,a)、(b,-∞)内进行状态的直接决策，简称直接决策区间，即节点直接判断其与邻居节点的拓扑联接稳定性。随着Q-learning方法的执行，自适应区间[a,b]的边界值会自适应更新，进行自适应区间扩展；网络中每个节点会初始化建立一个Q值表，表中元素对应其与每一邻居节点在不同状态和动作下的强化学习Q值。设置状态集S＝{s₁,s₂}，状态s₁为节点与某邻居节点处于稳定联接状态，状态s₂为节点与某邻居节点处于非稳定联接状态。设置动作集A＝{a₁,a₂}，动作a₁为预判稳定状态，动作a₂为预判非稳定状态。节点根据与各个邻居节点所处的联接状态s_i以及所采用策略π(s_i,a_j)选择动作a_j，i状态序号取值为1、2，j为动作序号1、2。针对节点与邻居节点在t时刻对应元素Q值表中的Q_t(s_i,a_j)进行强化学习更新，得到下一时刻Q值表中Q_t+1(s_i,a_j)，其中s_i∈S,a_j∈A。在自适应区间内，节点将针对其各个邻居节点采用自适应强化学习更新公式逐一进行Q-learning方法强化学习。

步骤3当前节点根据RSSI进行分区间处理：当前节点接收到邻居节点的接收信号强度值(RSSI)进行分区间处理，当RSSI值落入区间[a,b]则执行步骤4，进行自适应强化学习及状态预测；否则，执行步骤5，进行直接决策区间状态判断，参见图3，图3是本发明自适应区间方法的结构图，图3中，如果当前节点接收到某个邻居节点RSSI值处于自适应区间内[a,b]内，则执行自适应区间内强化学习与联接状态稳定性判断，否则，当前节点接收到RSSI值处于区间[0,a)或(b,-∞)中时，执行步骤5，进行直接决策区间状态判断。

步骤4自适应区间内强化学习与联接状态稳定性判断：在MANET中，节点接收到某邻居节点的RSSI值处于区间[a,b]内时，该节点按照强化学习方法进行自适应强化学习与联接状态稳定性预测，并用自适应强化学习更新公式对Q值表进行更新，更新后得到下一传输时刻节点与邻居节点的稳定联接状态预测选择，进入步骤7；自适应强化学习更新公式如下：

为在状态s_i下执行动作a_j后转移到状态s′_i得到的奖励值。

步骤5直接决策区间状态判断：节点接收到邻居节点的RSSI值处于区间[0,a)内，直接判决该邻居节点的联接状态为稳定联接状态s₁，之后执行步骤6；节点接收到邻居节点的RSSI值处于区间(b,-∞)内，直接判决该邻居节点的联接状态为非稳定联接状态s₂，之后执行步骤6。

式中：s为节点与邻居节点的联接变量状态；将状态s作为下一传输时刻节点与邻居节点的联接变量状态预测

假设下一传输时刻节点接收到该邻居节点的接收信号强度为RSSI′,又根据上述状态判断公式判定下一时刻实际联接状态为s′。若

且a＜RSSI，则调整边界a＝RSSI。若

且b＞RSSI，则调整边界b＝RSSI。若

自适应区间边界保持不变。自适应区间更新公式如下所示：

步骤7生成分布式自适应的稳定联接拓扑：针对不同时刻，各个节点重复执行步骤3～6，遍历所有节点，根据接收到邻居节点的RSSI值处在不同区间，或进行自适应区间内的强化学习与联接状态稳定性预测、或直接决策区间状态判断，自适应边界更新，得到每一传输时刻节点与稳定联接状态邻居节点建立稳定拓扑联接关系，实现分布式自适应的稳定联接拓扑。

本发明在移动自组织网络动态拓扑构建过程中，根据节点信息交互时所携带的接受信号强度值(RSSI)对现有联接链路的稳定性情况进行学习累积，先对链路的稳定性情况做出自适应的判断，再进行强化学习的过程，将接收到邻居节点的RSSI处于自适应区间内的值进行强化学习更新，根据不断迭代更新得到的下一传输时刻稳定性联接策略，预测出在下一个传输时间间隔内的链路质量以及可以构成稳定拓扑联接的邻居节点。本发明的创新点在于将接收信号强度值(RSSI)与强化学习方法和自适应区间方法有效的结合起来，产生出一种高效自适应的强化学习的方法。有效的解决了移动自组织网络动态拓扑变化过程中稳定拓扑链路联接的问题。

以下通过仿真实验结果对本发明的技术效果进行说明。

实施例6

基于强化学习的分布式自适应稳定拓扑生成方法同实施例1-5。

仿真条件：

仿真条件如下：在一个区域内随机生成15个节点，15个节点分别按照随机游走移动模型来构建MANET动态拓扑结构。实验设定了每个节点之间的运动互不影响，在本发明开始执行前，设定初始的学习迭代次数为200轮、通过学习200轮之后得到策略表以及强化学习区间，对测试数据进行100轮预测来计算准确率，将100轮预测的联接状态结果与节点在实际移动过程中各个节点联接状态进行统计平均，计算出每个节点在100轮预测过程中的准确率。

仿真内容及仿真结果：

仿真1，本发明在动态不规则网络拓扑下进行仿真，通过设定不同的学习率α的值来检测最优的学习率参数值，分别设定了学习率α为0.1，0.5，0.7的准确率值对比图。仿真的具体结果参见图5，图5是本发明中不同学习率α下对预测准确率影响的曲线图。

在移动自组织网络中，节点预测链路的准确率对整个网络生成稳定拓扑结构具有重要的作用，稳定的拓扑结构决定了移动自组织网络的整体性能。据图5中不同学习率α对准确率的影响曲线分析可知，当学习率α的取值为0.1时所有节点的准确率值均维持在93％左右，并且各个节点之间的预测准确率变化值相差不大，整个曲线变化比较平缓；在学习率α取值为0.5或0.7时准确率比0.1时均有所下降，并且各个节点的预测准确率相差变大，曲线的变化程度较明显。出现该现象是由于在执行本发明进行预测的过程中，节点主要根据邻居节点过去运动经验来判断下一传输时刻联接的状态程度，如果学习率α增大将增加Agent的探索过程，则对节点的运动经验的取值变小，从而导致节点的预测错误的几率增加。但是在不同学习率α的影响下本发明的准确率均维持在0.8-0.95左右，证明了本发明方法的稳定性。因此，实验过程中均选取学习率α为0.1作为发明方法中的参数。

本发明利用了MANET中节点有限的计算和能量资源，最大程度的解决在节点移动过程中导致的网络拓扑结构的频繁断裂产生的通信质量差，网络复杂程度高的问题。有效的利用了节点信息交互过程中携带的接受信号强度(RSSI)与强化学习方法的特性相结合，通过在线实时学习不断的调整模型的输出精准度，使得各个节点都能够选择出有效的稳定联接链路节点，组成稳定的拓扑传输结构，提高整个网络的性能。

实施例7

基于强化学习的分布式自适应稳定拓扑生成方法同实施例1-5，仿真条件同实施例6。

仿真2，为了验证本发明的有效性，通过在相同的实验条件下分别在动态拓扑结构下应用本发明的解决方案与没有采用本发明分布式自适应处理的Q-learning解决方案做一个准确性的对比，分别统计测试数据100轮中每个节点预测联接状态的准确次数率。参见图6，图6是本发明与现有Q-learning学习方法的预测准确率对比曲线图。图6中，现有Q-learning学习方法的预测准确率曲线最佳预测为0.8，且每个节点的预测效果起伏相对较大，稳定性较差，不能很好预测出稳定拓扑联接，而本发明的预测准确率几乎都维持在0.95左右，且每个节点的预测准确率起伏较小，相对较稳定。

根据图6显示出本发明在链路稳定性预测方面的性能整体优于现有技术的解决方案，准确性方面整体也高于Q-learning方法的30％。由于本发明各个节点通过自适应的强化学习区间的更新不断将每次的学习变化范围扩大，自适应区间外直接判断联接状态，自适应区间内随着不断的强化学习经验的积累做出更加精确的预测，不仅精度和准确度得以提升，同时也保证了本发明的稳定性和可靠性，提升本发明方法的性能。

实施例8

仿真3，为了明显的表示出本发明在拓扑联接建立过程中的有效性，设置了一组仿真实验，在100组的预测数据中，随机的抽取出一组预测出的能够稳定联接的拓扑结构，与真实的下一传输时刻的联接关系进行比较，参见图7和图8，图7为采用本发明对某一节点的预测拓扑结构图，图8本发明在图7基础上节点真实运动过程中稳定联接的拓扑图。图7所示，采用本发明预测1号节点能够稳定联接的拓扑结构方案。因为本发明采用自适应强化学习的方法对处于学习区间内节点进行强化学习以及下一传输时刻稳定联接拓扑结构的节点预测，所以可以产生精度较高的预测准确度。

图7中可见，在1号节点的通信范围内，存在节点4、9、10、13、15可联接的节点，根据1号节点当前的累积性的学习得到在下一传输时刻与节点4、10、13、15能够形成稳定联接，而9号节点为未能稳定联接的链路节点。参见图8所示，根据下一传输时刻实际的拓扑联接关系验证，9号节点在下一传输时刻运动出了1号节点的通信范围，证明了本发明预测联接关系与实际联接关系相一致，再一次有效的证明了本发明在解决传输时形成稳定拓扑联接链路的情况有很好的效果。

本发明提供的一种基于强化学习的分布式自适应稳定拓扑生成方法，解决了移动自组织网络在路由过程中链路节点联接持续性差的问题。具体实现包括：在移动自组织网络中节点动态拓扑构建；划分自适应强化学习区间及Q值表初始化；接收信号强度值(RSSI)进行分区间处理；自适应区间内强化学习与联接状态稳定性判断；直接决策区间状态判断；自适应区间边界更新；生成分布式自适应的稳定联接拓扑。本发明将接收信号强度值(RSSI)与强化学习方法和自适应区间方法有效的结合起来，研发出一种高效自适应的强化学习的方法。准确实现了移动自组织网络动态拓扑变化过程中的稳定拓扑链路联接。本发明减少了节点的能量消耗，避免了较大的网络开销，学习速率快，复杂度低。用于移动自组织网络分布式拓扑生成。

Claims

1.一种基于强化学习的分布式自适应稳定拓扑生成方法，其特征在于：包括有以下步骤：

步骤1动态拓扑构建：在一块区域内布置N个节点，各节点根据移动自组织网络MANET中随机游走移动模型的方式在区域内进行随机移动，形成MANET的动态拓扑结构，定义每个节点都存在一个自适应强化学习的区间[a,b]；

步骤2划分自适应强化学习区间及Q值表初始化：在构建的MANET中，各节点初始化，设各节点的初始归一化发射功率为0dBm，节点与其邻居节点间的稳定拓扑联接临界归一化强度值为d_win，初始设置各节点学习区间[a,b]中上界a与下界b的值都等于d_win；节点接收到邻居节点的接收信号强度RSSI，按接收信号强度划分的三个区间[0,a)、[a,b]、(b,-∞)分别进行拓扑联接稳定性处理；区间[a,b]为Q-learning强化学习方法的拓扑稳定性学习区间，简称为自适应区间，在自适应区间内采用Q-learning方法进行拓扑稳定性自适应强化学习和预测；区间[0,a)、(b,-∞)内进行状态的直接决策，简称直接决策区间，即节点直接判断其与邻居节点的拓扑联接稳定性；随着Q-learning方法的执行，自适应区间[a,b]的边界值会自适应更新，进行自适应区间扩展；网络中每个节点会初始化建立一个Q值表，表中元素对应其与每一邻居节点在不同状态和动作下的强化学习Q值；设置状态集S＝{s₁,s₂}，状态s₁为当前节点与某邻居节点处于稳定联接状态，状态s₂为当前节点与某邻居节点处于非稳定联接状态；设置动作集A＝{a₁,a₂}，动作a₁为预判稳定状态，动作a₂为预判非稳定状态；节点根据与各个邻居节点所处的联接状态s_i以及所采用策略π(s_i,a_j)选择动作a_j，i状态序号取值为1、2，j为动作序号1、2；针对节点与邻居节点在t时刻对应元素Q值表中的Q_t(s_i,a_j)进行强化学习更新，得到下一时刻Q值表中Q_t+1(s_i,a_j)，其中s_i∈S,a_j∈A；在自适应区间内，节点将针对其各个邻居节点采用自适应强化学习更新公式逐一进行Q-learning方法强化学习；

步骤3当前节点根据RSSI进行分区间处理：当前节点接收到邻居节点的接收信号强度RSSI进行分区间处理，当RSSI值落入区间[a,b]则执行步骤4，进行自适应强化学习及状态预测；否则，执行步骤5，进行直接决策区间状态判断；

步骤4自适应区间内强化学习与联接状态稳定性判断：在MANET中，当前节点接收到某邻居节点的RSSI值处于区间[a,b]内时，节点首先按照强化学习方法进行自适应强化学习并对Q值表进行更新，之后对该节点稳定性进行预测选择，得到下一传输时刻节点与该邻居节点的联接状态的稳定预测；之后执行步骤7；

步骤5直接决策区间状态判断：节点接收到邻居节点的RSSI值处于区间[0,a)内，直接判决该邻居节点的联接状态为稳定联接状态s₁，之后执行步骤6；节点接收到邻居节点的RSSI值处于区间(b,-∞)内，直接判决该邻居节点的联接状态为非稳定联接状态s₂，之后执行步骤6；

步骤6更新自适应区间边界：直接决策区间的边界a和边界b同时也为自适应区间的上界a和下界b，将稳定联接临界归一化强度值d_win作为判定阈值，如果当前时刻节点接收到某邻居节点的RSSI，邻居节点的接收信号强度指示大于阈值判定为稳定联接状态s₁；邻居节点的接收信号强度指示小于阈值判定为非稳定联接状态s₂；当RSSI值处于直接决策区间时，根据如下状态判断公式进行判断：

式中：s为当前节点与邻居节点的联接变量状态；将状态s作为下一传输时刻节点与邻居节点的联接变量状态预测

具体表示为

且边界a＜RSSI，则调整边界a＝RSSI；若

且b＞RSSI，则调整边界b＝RSSI；若

自适应区间边界保持不变；

步骤7生成分布式自适应的稳定联接拓扑：针对不同时刻，各个节点重复执行步骤3～步骤6，遍历所有节点，根据接收到邻居节点的RSSI值进行自适应区间内的强化学习与联接状态稳定性预测、直接决策区间状态判断、自适应边界更新，得到每一传输时刻节点与稳定联接状态邻居节点建立稳定拓扑联接关系，实现分布式自适应的稳定联接拓扑。

2.如权利要求1所述的一种基于强化学习的分布式自适应稳定拓扑生成方法，其特征在于：步骤4中所述的强化学习方法，具体实现过程包括有如下步骤：

步骤4.1确定强化学习方法的整体结构：在区间[a,b]中每一个移动节点视为一个代理Agent，这样整个网络的动态变化都可认为是一个分布式多代理Agent协作系统；对于每个分布式代理Agent，假设其环境状态集为S，动作集为A，奖赏函数为

动作选择策略为π(s_i,a_j)；

步骤4.2判断每个代理Agent状态集S：状态集S由离散状态构成：

S＝{s₁,s₂}

式中：状态s₁为根据当前接收到某邻居节点RSSI，节点与某邻居节点处于稳定联接状态；状态s₂为根据当前接收到某邻居节点RSSI，与某邻居节点处于非稳定联接状态；

步骤4.3判断每个代理Agent的动作集A：每个代理Agent采取的动作分为两个类型：预判为稳定联接状态；预判为非稳定联接状态；动作集A表示为：

A＝{a₁,a₂}

式中：a₁为预判稳定状态；a₂为预判非稳定状态；

步骤4.4设置奖励函数：设置奖励函数

奖励函数

中，s_i表示当前节点的状态；s′_i表示执行动作后转移到的状态；a_j表示在s_i状态下执行的动作；s_i→s′_i表示前后时刻的实际状态转移关系；强化学习过程中，奖励函数是代理Agent在状态s_i下采取行动a_j预判状态，参照实际转移状态s′_i后的奖励值；表明动作决策的好坏程度；

步骤4.5确定代理Agent的动作选择策略：

式中：π(s_i,a_j)为在状态s_i下选择对应Q值最大动作a_j的动作选择策略；

步骤4.6采用自适应强化学习更新公式对Q值表进行更新：节点根据与各个邻居节点，在所处的联接状态s_i下采用策略π(s_i,a_j)选择动作a_j采用自适应强化学习更新公式进行Q值强化学习更新，得到下一时刻Q值Q_t+1(s_i,a_j)，节点针对其各个邻居节点逐一进行Q-learning方法强化学习和更新。

3.如权利要求1所述的一种基于强化学习的分布式自适应稳定拓扑生成方法，其特征在于：步骤2及步骤4.6中提及的自适应强化学习更新公式，公式如下：