CN110336620A

CN110336620A - 一种基于mac层公平接入的ql-uacw退避方法

Info

Publication number: CN110336620A
Application number: CN201910640233.0A
Authority: CN
Inventors: 张文波; 冯永新; 孙敬怡; 谭小波
Original assignee: Shenyang Ligong University
Current assignee: Shenyang Ligong University
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2019-10-15
Anticipated expiration: 2039-07-16
Also published as: CN110336620B

Abstract

本发明公开了一种基于MAC层公平接入的QL‑UACW退避方法，节点学习整个水下自组织网络环境，根据一个随机策略选择某个动作执行调整增大或减小竞争窗口，获得一个新竞争窗口状态值，节点根据竞争窗口值进行退避竞争，然后接入水声信道发送数据，并利用返回的奖赏值，更新一个竞争窗口状态对应的累积奖赏值函数，评估所选动作，不断学习迭代更新，学习经历所有的状态动作对，使得累积奖赏值最大的动作为最优动作。本发明使得用户能够使水下自组织网络在节点竞争接入信道时提高节点间公平性，降低数据包冲突的同时提高信道利用率和网络吞吐量，从而使得大量水下自组织网络节点发送数据更加公平。

Description

一种基于MAC层公平接入的QL-UACW退避方法

技术领域

本发明涉及一种基于MAC层公平接入的QL-UACW退避方法，属于水下自组织网络MAC层接入技术领域。

背景技术

随着水声通信领域的研究发展，水下自组织网络的研究日益深入。目前国内外水下自组织网络的研究主要集中在网络协议、水声通信同步、数据处理以及调制方式等问题。而在网络中，网络协议的重要组成就是节点接入MAC协议，其主要是协调各个节点接入通信共享信道，在解决多个节点发送数据时遇到的数据包冲突问题的同时保证低通信时延、高吞吐量、以及节点间公平性等问题。在针对多个节点竞争信道如何充分利用该信道资源同时避免冲突发生的问题上，节点的竞争退避机制尤为重要。

发明内容

针对多个节点竞争信道如何充分利用该信道资源同时避免冲突发生的问题，本发明提供一种基于MAC层公平接入的QL-UACW退避方法，保证节点公平接入信道。

一种基于MAC层公平接入的QL-UACW退避方法，应用于水下自组织网络中，将水下自组织网络环境设定为Q-learning学习的环境，节点学习整个水下自组织网络环境，根据一个随机策略选择某个动作执行调整增大或减小竞争窗口，获得一个新竞争窗口状态值x，节点根据竞争窗口状态值x 进行退避竞争，然后接入水声信道发送数据，若节点成功发送数据帧，则环境给予节点一个正的奖赏值，若数据发送失败，则给予一个负的奖赏值，利用返回的奖赏值，更新一个竞争窗口状态对应的状态值函数，评估所选动作，不断学习迭代更新，学习经历所有的状态动作对，使得累积奖赏值最大的动作为最优动作，其具体步骤如下所示：

步骤1：设置状态-动作对映射，针对连续竞争窗口状态空间X，设置一个竞争窗口连续状态集(CW_min，CW_max)，以及包含多个调节幅度动作的竞争窗口调整动作集{累加，倍乘，递减，倍除，保持}，其中，累加表示以一定步长增大竞争窗口，倍乘表示以一定倍数增大竞争窗口；倍除表示以倍数减小竞争窗口；递减表示以步长减小竞争窗口，保持表示竞争窗口不变，节点每执行一个动作，环境状态就会发生改变；

步骤2：状态动作初始化，选择竞争窗口状态x初始值为CW_min，设置对应状态的状态值函数V(x)初始值为0，其中，状态值函数V(x)表示从竞争窗口连续状态集(CW_min，CW_max)中所取值的竞争窗口状态x出发，节点通过在数据包信息交互环境中不断调整竞争窗口值所学得策略所带来的累积奖赏；

步骤3：动作执行，在水下自组织网络环境中节点根据随机策略π’从竞争窗口调整动作集{累加，倍乘，递减，倍除，保持}中选择一个对应动作执行，调整竞争窗口状态值，获得新的竞争窗口状态值为CW₁，节点根据新的竞争窗口状态值CW₁进行退避竞争然后接入信道发送数据，根据发送结果，环境给予节点一个奖赏值，若节点成功发送数据帧，则环境给予节点一个正的奖赏值，若数据发送失败，则给予一个负的奖赏值；

步骤4：更新状态值函数V(x)，根据奖赏值和对应的调整前后的两个竞争窗口状态值，更新累积奖赏值，使得累积奖赏值最大的动作为最优动作；

步骤5：迭代更新动作和状态值函数，最终获得最优策略π，得到最佳竞争窗口。

优选地，所述步骤(1)中所述的状态-动作对映射表示如下：

水下自组织网络中节点在(CW_min，CW_max)区间内能取到的所有竞争窗口集，即学习环境中的状态空间，将状态空间X设置一个连续集合(CW_min，CW_max)，其中,最小值CW_min为4，最大值CW_max为1024，根据环境动态变化而选择相应动作执行得到连续函数上最优的映射值；同时针对信道不同的竞争激烈程度，设置执行不同调节幅度的动作，以更适应于此时的信道环境，设置每一个节点可执行的动作，包括累加、倍乘、保持、倍除、递减，针对竞争窗口状态值选择调整动作进行执行。

优选地，所述步骤(2)中设置竞争窗口状态x初始值CW_min为4，状态值函数V(x)初始值为0，节点通过在数据包信息交互的环境中不断尝试调整 CW值而学得一个策略π，所述策略π即针对竞争窗口CW的最优调整方案；调整过程为在状态x下利用随机策略π’从竞争窗口调整动作集{累加，倍乘，递减，倍除，保持}中选择动作a＝π’(x)，通过选择动作返回的奖赏值，对连续状态空间的状态值函数V(x)进行更新，来评估奖赏值和所选动作，最终学得最优调整策略π。

优选地，所述步骤4中状态值函数的具体更新步骤如下：

步骤4-1：定义估计值函数V_θ(x)，如式(1)所示：

V_θ(x)＝θ^Tx (1)；

其中，x为状态向量，θ为参数向量；

步骤4-2：计算估计值函数和真实值函数的误差

最终学习获得的估计值函数要无限接近真实的值函数V^π，近似程度用最小二乘误差来度量，误差函数如公式(2)所示：

E_θ＝E_x～π[(V^π(x)-V_θ(x))²] (2)；

其中，E_x～π表示由策略π所采样而得的状态上的误差期望；

通过梯度下降方法对误差期望进行优化，对误差函数求负导数，如式 (3)所示：

获得对单个样本的更新规则，如式(4)所示：

θ＝θ+α(V^π(x)-V_θ(x))x (4)；

策略的真实值函数不可知，根据时序差分学习，基于V^π(x)＝r+γV^π(x′)用当前的估计值函数代替真实值函数，如公式(5)所示：

V^π(x)＝r+γV_θ(x')

＝r+γθ^Tx' (5)；

其中，r为x对应的奖赏值，γ为折扣因子，x′为下一状态；

步骤4-3：更新迭代获得最优参数值θ

水下自组织网络环境中，节点采用QL-UACW算法发送MAC数据帧的过程中，通过对线性近似对象为状态值函数的参数向量θ进行更新迭代，并利用奖赏作为估计函数选择最优策略，节点每发送一次数据帧，参数向量θ更新一次，通过多次迭代学习得到最优参数向量，进而逼近最优值函数，更新参数向量θ的表达式，时序差分学习需要状态-动作值函数以便获得策略，令θ作用于表示状态和动作的联合向量上，将式(1)中的x替换为(x；a)，如式(6)所示：

θ←θ+α(r+γθ^T(x′；a′)-θ^T(x；a))(x；a) (6)；

其中，α为学习率，是节点在环境中的学习步长，γ为折扣因子，表示执行一个动作后环境给予的奖赏值，且γ∈[0,1)。

优选地，所述步骤5获得最优策略的具体步骤如下：

步骤5-1：水下节点在自组织网络中初次接入信道发送数据时，首先初始化估计值函数V_θ(x)的值；

步骤5-2：根据随机策略π‘在状态x下选择动作a，得到下一状态x′及其奖赏值r；

步骤5-3：根据步骤4中得到的更新参数值θ的表达式(6)更新估计值函数参数向量θ，循环执行步骤5-2以及5-3，直到达到最优参数值或达到迭代次数上限，进而得到最优估计值函数，从而获得最优策略，所述最优策略表达式如式(7)所示：

优选地，步骤5-2中所述的奖赏值r的计算公式如(8)所示：

其中，r_cw表示，选择当前的CW值接入信道，数据发送成功，获得的正奖赏值；如果水下节点数据发送失败，则从网络环境中获得的奖赏值为-1；若当前节点正在发送数据，则返回获得的奖赏值为0；对于奖赏值r_cw的设置，成功发送数据所选的CW值越小，得到的奖赏值就越大；

定义竞争窗口状态x与奖赏值r_cw的对应关系为指数关系，如式(9)所示：

r_cw＝a*exp(b*x) (9)；

其中，a和b为指数关系的参数，x为竞争窗口状态值，r_cw为数据发送成功对应的奖赏值。

优选地，所述步骤4-3中，学习率α取值为0.7，折扣因子γ取值为0.9。

有益效果：本发明提供一种基于MAC层公平接入的QL-UACW退避方法，使得用户能够使水下自组织网络在节点竞争接入信道时提高节点间公平性，降低数据包冲突的同时提高信道利用率和网络吞吐量，从而使得大量水下自组织网络节点发送数据更加公平。

具体实施方式

下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

优选地，所述步骤(1)中所述的状态-动作对映射表示如下：

优选地，所述步骤4中状态值函数的具体更新步骤如下：

步骤4-1：定义估计值函数V_θ(x)，如式(1)所示：

V_θ(x)＝θ^Tx (1)；

其中，x为状态向量，θ为参数向量；

步骤4-2：计算估计值函数和真实值函数的误差

E_θ＝E_x～π[(V^π(x)-V_θ(x))²] (2)；

其中，E_x～π表示由策略π所采样而得的状态上的误差期望；

获得对单个样本的更新规则，如式(4)所示：

θ＝θ+α(V^π(x)-V_θ(x))x (4)；

V^π(x)＝r+γV_θ(x')

＝r+γθ^Tx' (5)；

其中，r为x对应的奖赏值，γ为折扣因子，x′为下一状态；

步骤4-3：更新迭代获得最优参数值θ

θ←θ+α(r+γθ^T(x′；a′)-θ^T(x；a))(x；a) (6)；

优选地，所述步骤5获得最优策略的具体步骤如下：

优选地，步骤5-2中所述的奖赏值r的计算公式如(8)所示：

r_cw＝a*exp(b*x) (9)；

本发明的设计原理如下主要包括四个部分：

1基于强化学习的竞争退避初步模型

Q-learning算法，是强化学习算法中最典型的一种，不需要环境模型， Agent在动态环境中通过交互试错来调整行为。Agent不断探索环境，在每一环境状态和可能的动作之间建立一个Q值列表(Q表)，它学习的是每个状态动作对的评价值——Q值(Q(x_t,a_t))，Q(x_t,a_t)值是Agent在状态x_t下根据策略选择执行动作a_t，并循环执行所得到的累积奖赏值。Q-Learning算法的最优策略是使Q(x_t,a_t)的累积奖赏值最大化，所以Q学习的最优策略表达式如下所示：

水下自组织网络中，利用Q-learning算法学习的思想，节点即Agent，学习整个水下自组织网络环境，根据一个随机策略选择某个动作执行调整增大或减小竞争窗口，获得一个新的竞争窗口状态值，节点根据新的竞争窗口值进行退避竞争，然后接入信道发送数据。若节点成功发送数据帧，则环境给予节点一个正的奖赏值，若数据发送失败，则给予一个负的奖赏值。利用返回的奖赏值，更新一个竞争窗口状态对应的累积奖赏值函数，评估所选动作。不断学习迭代更新，学习经历所有的状态动作对，使得累积奖赏值最大的动作为最优动作。在网络负载较低时，节点利用学习所得的最佳策略选择调整以较小的CW接入信道避免增加时延；网络负载较高时，则利用较大的CW接入信道防止碰撞。针对网络环境动态调整竞争窗口，保证节点间公平接入信道。算法基本思路如下：

1)状态动作映射。设置一个竞争窗口有限状态集(CW_min，CW_max)，竞争窗口调整动作集{累加，倍乘，递减，倍除，保持}。

2)状态动作初始化。选择竞争窗口初始值CW_min，设置对应状态的值函数 V(X)初始值为0。

3)动作执行。在环境中根据随机策略π‘选择一个对应动作执行，调整竞争窗口值，获得新的状态值，节点退避发送数据帧，根据发送结果，环境给予一个奖赏值。

4)更新状态值函数。根据奖赏值和对应的竞争窗口值，更新累积奖赏值，使得累积奖赏值最大的动作为最优动作。

5)迭代更新动作和累积奖赏值函数，最终获得最优策略。

2QL-UACW算法的状态—动作对映射过程

在水下自组织网络中，整个通信网络即Agent学习的环境，网络中的每个节点即Agent，节点在接入信道时对应信道情况所采用的竞争窗口就是 Agent学习环境的状态，节点在(CW_min,CW_max)区间内能取到的所有竞争窗口集，即Agent的状态学习环境的状态空间。根据已有的对水下自组织网络退避算法竞争窗口值研究，取竞争窗口初始值CW_min为4，最大值CW_max为1024。节点Agent通过在数据包信息交互的环境中不断尝试调整CW值而学得一个策略π，策略π即针对竞争窗口CW的调整方案。根据这个策略，在状态x下可知其对应执行的动作a＝π(x)，由于水声信道具有长传播时延，所以在研究学习周围环境，选择要采取的动作时，针对信道不同的竞争激烈程度，设置执行不同调节幅度的动作，获得更优的CW状态，以更适应于此时的信道环境，避免碰撞的同时提高信道利用率和节点接入公平性。所以设置每一个Agent可执行的动作：累加(lp)、倍乘(lm)、保持(k)、倍除(dv)、递减(ds)。累加和倍乘分别表示以一定步长和倍数增大竞争窗口，倍除和递减则分别以倍数和步长减小竞争窗口，保持即竞争窗口不变。节点每执行一个动作，环境状态就会发生改变。

节点对状态(竞争窗口CW)选择使得累积奖赏值最大的动作执行，每发送完一个MAC帧后，节点从网络环境中获得一个奖赏值，若发送成功，节点获得一个正的奖赏值，若发送失败，节点获得一个负的奖赏值。利用执行动作a返回的奖赏值r以及执行动作后转移到的状态x更新状态值函数，评估策略，迭代学习更新，最终获得最优策略。节点自适应调整竞争窗口大小，其总选择能使得累积奖赏值最大的动作为最优动作执行，得到最优的CW状态值。

QL-UACW算法的适应性映射：

1)结合水声信道复杂性和时延变化，算法改进Q学习中的有限离散状态值，将竞争窗口状态空间设置为一个连续集合，针对连续状态值利用值函数近似更新迭代得到最优调整策略。

2)在更新选择可执行动作时，结合水声信道长时延性，针对连续竞争窗口状态空间，对复杂变化的环境加入包含多个不同调节幅度动作的动作空间，得到的CW值更适合当前水声信道数据传输。

3)在数据发送成功后的奖赏值r_cw值的设置上，由于状态空间设置为连续，所以在奖赏值的设置上，考虑状态和奖赏的指数关系，将奖赏值设置为对应状态的连续函数。

3、QL-UACW算法的状态值函数更新过程

在Agent与环境不断交互学习的过程中，节点接入信道可能执行的动作有：累加(lp)、倍乘(lm)、保持(k)、倍除(dv)、递减(ds)。由于考虑水声信道环境状态的动态变化，将状态空间CW设置一个连续集合，集合取值在初始最小值CW_min＝4，以及最大值CW_max＝1024的范围内，以根据环境动态变化而选择相应动作执行得到连续函数上最优的映射值。当竞争窗口为最小值时，竞争窗口无法继续减小；当竞争窗口为最大值时，竞争窗口无法继续增加。在针对连续的状态空间X，无法直接获得状态值与动作对应的值映射Q表，所以采取直接对连续状态空间的值函数V(x)进行学习。

状态—动作值函数Q(x_t,a_t)是一个有限状态空间的表格值函数，而本发明的水下自组织网络环境中，水声信道环境动态变化，状态空间X不是离散的，同时更改一个状态上的值可能会影响其他状态上的值，所以连续状态空间无法用表格值函数来记录状态值。因此，本发明直接对连续状态空间的值函数V(x)进行学习，状态的值函数V(x)表示从状态x出发，使用策略π 所带来的累积奖赏。其是一个状态的长期最优化价值，即在这个状态下考虑后续的所有可能发生的动作，并都挑选最优动作来执行。此时的值函数 V(x)难以像有限状态空间精确记录每个离散状态的值，所以对状态值函数 V(x)的求解就是通过求一个真实函数的近似值V_θ(x)，对估计值函数进行学习使其无限逼近状态真实值函数的过程，即更新值函数的状态参数过程。更新过程如下：

1)定义估计值函数V_θ(x)

对于状态值x和值函数之间的关系，考虑节点竞争窗口值越小，接入信道的概率越大，在网络负载低时数据包发送成功率越大，在网络负载高时，节点更新竞争窗口值越快，同样奖赏值反馈越快，其累积奖赏值越容易收敛，所以在定义本次估计值函数模型中，考虑状态值和策略的累积奖赏值为线性关系，值函数能表达为状态的线性函数，如式(1)所示：

V_θ(x)＝θ^Tx (1)

其中x为状态向量，θ为参数向量。

2)估计值函数和真实值函数的误差

通过公式学得的估计值值函数尽可能接近真实的值函数V^π，近似程度用最小二乘误差来度量：

E_θ＝E_x～π[(V^π(x)-V_θ(x))²] (2)；

其中，E_x～π表示由策略π所采样而得的状态上的期望。通过梯度下降方法对误差期望进行优化，对误差函数求负导数：

获得对单个样本的更新规则：

θ＝θ+α(V^π(x)-V_θ(x))x (4)；

策略的真实值函数不可知，可以借助时序差分学习，基于 V^π(x)＝r+γV^π(x′)用当前的估计值函数代替真实值函数，即

V^π(x)＝r+γV_θ(x')

＝r+γθ^Tx' (5)；

3)更新迭代获得最优参数值θ

水下自组织网络中，节点采用QL-UACW算法发送MAC数据帧的过程中，通过对线性近似对象为状态—动作值函数的参数θ进行更新迭代，并利用奖赏作为估计函数选择最优策略。节点每发送一次数据帧，参数θ更新一次，通过多次迭代学习得到最优参数值，进而逼近最优值函数，更新参数θ的表达式，如下：

θ←θ+α(r+γθ^T(x′；a′)-θ^T(x；a))(x；a) (6)；

其中α为学习率，是Agent在环境中的学习步长，0.7足以反映水声信道网络环境的变化程度，设置α为0.7。γ为折扣因子，γ∈[0,1)，其值体现了Agent对环境以后所给予奖励的重视程度，设置γ为0.9。γ表示执行一个动作后环境给予的奖赏值。

水下节点在自组织网络中初次接入信道发送数据时，会首先初始化奖赏值函数V^π(x)的值，然后根据探索策略在状态x下选择动作a，得到下一状态 x′及其奖赏值r，之后通过式6更新估计值函数参数θ，一直循环执行直到实现目标状态或达到迭代次数上限，进而得到最优估计值函数,获得最优策略。

其中奖赏值r计算如下：

其中，r_cw表示，选择当前的CW值接入信道，数据发送成功，获得的正奖赏值。如果水下节点数据发送失败，则从网络环境中获得的奖赏值为-1；若当前节点正在发送数据，则返回获得的奖赏值为0；对于奖赏值r_cw的设置，成功发送数据所选的CW值越小，得到的奖赏值就越大。根据奖赏值来执行下一次动作，获得一个新的CW值，按照此CW值进行退避，发送数据，根据数据发送情况，获得一个新的奖赏值。

数据发送成功后r_cw的取值与CW的值相关，且CW值越小，获得的奖赏值越大。所以数据发送成功条件下，CW与r_cw之间映射为一个反比关系，且随着竞争窗口越大，其退避时间越长，节点发送数据所用时间越长，信道占用时间越长，所以趋近于正在发送数据的状态时，r_cw的递减速率也减慢。所以定义竞争窗口CW值x与奖赏值r_cw的对应关系为指数关系，如(9)所示：

r_cw＝a*exp(b*x) (9)；

其中a和b为指数关系的参数，x为竞争窗口状态值，r_cw为数据发送成功对应的奖赏值。

4)QL-UACW算法整体更新过程

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于MAC层公平接入的QL-UACW退避方法，应用于水下自组织网络中，其特征在于，将水下自组织网络环境设定为Q-learning学习的环境，节点学习整个水下自组织网络环境，根据一个随机策略选择某个动作执行调整增大或减小竞争窗口，获得一个新竞争窗口状态值x，节点根据竞争窗口状态值x进行退避竞争，然后接入水声信道发送数据，若节点成功发送数据帧，则环境给予节点一个正的奖赏值，若数据发送失败，则给予一个负的奖赏值，利用返回的奖赏值，更新一个竞争窗口状态对应的状态值函数，评估所选动作，不断学习迭代更新，学习经历所有的状态动作对，使得累积奖赏值最大的动作为最优动作，其具体步骤如下所示：

2.根据权利要求1所示的一种基于MAC层公平接入的QL-UACW退避方法，其特征在于，所述步骤(1)中所述的状态-动作对映射表示如下：

3.根据权利要求2所述的基于MAC层公平接入的QL-UACW退避方法，其特征在于：所述步骤(2)中设置竞争窗口状态x初始值CW_min为4，状态值函数V(x)初始值为0，节点通过在数据包信息交互的环境中不断尝试调整CW值而学得一个策略π，所述策略π即针对竞争窗口CW的最优调整方案；调整过程为在状态x下利用随机策略V(x)从竞争窗口调整动作集{累加，倍乘，递减，倍除，保持}中选择动作a＝π’(x)，通过选择动作返回的奖赏值，对连续状态空间的状态值函数V(x)进行更新，来评估奖赏值和所选动作，最终学得最优调整策略π。

4.根据权利要求3所述的基于MAC层公平接入的QL-UACW退避方法，其特征在于：所述步骤4中状态值函数的具体更新步骤如下：

步骤4-1：定义估计值函数V_θ(x)，如式(1)所示：

V_θ(x)＝θ^Tx (1)；

其中，x为状态向量，θ为参数向量；

步骤4-2：计算估计值函数和真实值函数的误差

E_θ＝E_x～π[(V^π(x)-V_θ(x))²] (2)；

其中，E_x～π表示由策略π所采样而得的状态上的误差期望；

通过梯度下降方法对误差期望进行优化，对误差函数求负导数，如式(3)所示：

获得对单个样本的更新规则，如式(4)所示：

θ＝θ+α(V^π(x)-V_θ(x))x (4)；

V^π(x)＝r+γV_θ(x')

＝r+γθ^Tx' (5)；

其中，r为x对应的奖赏值，γ为折扣因子，x′为下一状态；

步骤4-3：更新迭代获得最优参数值θ

θ←θ+α(r+γθ^T(x′；a′)-θ^T(x；a))(x；a) (6)；

5.根据权利要求4所述的基于MAC层公平接入的QL-UACW退避方法，其特征在于：所述步骤5获得最优策略的具体步骤如下：

步骤5-2：根据随机策略π’在状态x下选择动作a，得到下一状态x′及其奖赏值r；

6.根据权利要求5所述的基于MAC层公平接入的QL-UACW退避方法，其特征在于：步骤5-2中所述的奖赏值r的计算公式如(8)所示：

r_cw＝a*exp(b*x) (9)；

7.根据权利要求4所述的基于MAC层公平接入的QL-UACW退避方法，其特征在于：所述步骤4-3中，学习率α取值为0.7，折扣因子γ取值为0.9。