CN110336620A - 一种基于mac层公平接入的ql-uacw退避方法 - Google Patents
一种基于mac层公平接入的ql-uacw退避方法 Download PDFInfo
- Publication number
- CN110336620A CN110336620A CN201910640233.0A CN201910640233A CN110336620A CN 110336620 A CN110336620 A CN 110336620A CN 201910640233 A CN201910640233 A CN 201910640233A CN 110336620 A CN110336620 A CN 110336620A
- Authority
- CN
- China
- Prior art keywords
- value
- state
- movement
- node
- competition window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 116
- 230000033001 locomotion Effects 0.000 claims abstract description 78
- 238000009825 accumulation Methods 0.000 claims abstract description 21
- 230000009471 action Effects 0.000 claims abstract description 19
- 230000005540 biological transmission Effects 0.000 claims abstract description 16
- 230000000875 corresponding effect Effects 0.000 claims description 25
- 230000001186 cumulative effect Effects 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 6
- 230000004308 accommodation Effects 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 102000006479 Heterogeneous-Nuclear Ribonucleoproteins Human genes 0.000 claims 1
- 108010019372 Heterogeneous-Nuclear Ribonucleoproteins Proteins 0.000 claims 1
- 238000005259 measurement Methods 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 description 13
- 238000004891 communication Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000002860 competitive effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 108700026140 MAC combination Proteins 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B13/00—Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
- H04B13/02—Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W74/00—Wireless channel access
- H04W74/08—Non-scheduled access, e.g. ALOHA
- H04W74/0833—Random access procedures, e.g. with 4-step access
- H04W74/0841—Random access procedures, e.g. with 4-step access with collision treatment
- H04W74/085—Random access procedures, e.g. with 4-step access with collision treatment collision avoidance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W84/00—Network topologies
- H04W84/18—Self-organising networks, e.g. ad-hoc networks or sensor networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于MAC层公平接入的QL‑UACW退避方法,节点学习整个水下自组织网络环境,根据一个随机策略选择某个动作执行调整增大或减小竞争窗口,获得一个新竞争窗口状态值,节点根据竞争窗口值进行退避竞争,然后接入水声信道发送数据,并利用返回的奖赏值,更新一个竞争窗口状态对应的累积奖赏值函数,评估所选动作,不断学习迭代更新,学习经历所有的状态动作对,使得累积奖赏值最大的动作为最优动作。本发明使得用户能够使水下自组织网络在节点竞争接入信道时提高节点间公平性,降低数据包冲突的同时提高信道利用率和网络吞吐量,从而使得大量水下自组织网络节点发送数据更加公平。
Description
技术领域
本发明涉及一种基于MAC层公平接入的QL-UACW退避方法,属于 水下自组织网络MAC层接入技术领域。
背景技术
随着水声通信领域的研究发展,水下自组织网络的研究日益深入。目 前国内外水下自组织网络的研究主要集中在网络协议、水声通信同步、数 据处理以及调制方式等问题。而在网络中,网络协议的重要组成就是节点 接入MAC协议,其主要是协调各个节点接入通信共享信道,在解决多个节 点发送数据时遇到的数据包冲突问题的同时保证低通信时延、高吞吐量、 以及节点间公平性等问题。在针对多个节点竞争信道如何充分利用该信道资源同时避免冲突发生的问题上,节点的竞争退避机制尤为重要。
发明内容
针对多个节点竞争信道如何充分利用该信道资源同时避免冲突发生的 问题,本发明提供一种基于MAC层公平接入的QL-UACW退避方法,保 证节点公平接入信道。
一种基于MAC层公平接入的QL-UACW退避方法,应用于水下自组织网 络中,将水下自组织网络环境设定为Q-learning学习的环境,节点学习整 个水下自组织网络环境,根据一个随机策略选择某个动作执行调整增大或 减小竞争窗口,获得一个新竞争窗口状态值x,节点根据竞争窗口状态值x 进行退避竞争,然后接入水声信道发送数据,若节点成功发送数据帧,则 环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏值,利用返回的奖赏值,更新一个竞争窗口状态对应的状态值函数,评估所选 动作,不断学习迭代更新,学习经历所有的状态动作对,使得累积奖赏值 最大的动作为最优动作,其具体步骤如下所示:
步骤1:设置状态-动作对映射,针对连续竞争窗口状态空间X,设置 一个竞争窗口连续状态集(CWmin,CWmax),以及包含多个调节幅度动作的竞 争窗口调整动作集{累加,倍乘,递减,倍除,保持},其中,累加表示以 一定步长增大竞争窗口,倍乘表示以一定倍数增大竞争窗口;倍除表示以 倍数减小竞争窗口;递减表示以步长减小竞争窗口,保持表示竞争窗口不 变,节点每执行一个动作,环境状态就会发生改变;
步骤2:状态动作初始化,选择竞争窗口状态x初始值为CWmin,设置对 应状态的状态值函数V(x)初始值为0,其中,状态值函数V(x)表示从竞争 窗口连续状态集(CWmin,CWmax)中所取值的竞争窗口状态x出发,节点通过 在数据包信息交互环境中不断调整竞争窗口值所学得策略所带来的累积奖 赏;
步骤3:动作执行,在水下自组织网络环境中节点根据随机策略π’从竞 争窗口调整动作集{累加,倍乘,递减,倍除,保持}中选择一个对应动作 执行,调整竞争窗口状态值,获得新的竞争窗口状态值为CW1,节点根据新 的竞争窗口状态值CW1进行退避竞争然后接入信道发送数据,根据发送结果, 环境给予节点一个奖赏值,若节点成功发送数据帧,则环境给予节点一个 正的奖赏值,若数据发送失败,则给予一个负的奖赏值;
步骤4:更新状态值函数V(x),根据奖赏值和对应的调整前后的两个 竞争窗口状态值,更新累积奖赏值,使得累积奖赏值最大的动作为最优动 作;
步骤5:迭代更新动作和状态值函数,最终获得最优策略π,得到最佳 竞争窗口。
优选地,所述步骤(1)中所述的状态-动作对映射表示如下:
水下自组织网络中节点在(CWmin,CWmax)区间内能取到的所有竞争窗口 集,即学习环境中的状态空间,将状态空间X设置一个连续集合(CWmin,CWmax), 其中,最小值CWmin为4,最大值CWmax为1024,根据环境动态变化而选择相应 动作执行得到连续函数上最优的映射值;同时针对信道不同的竞争激烈程 度,设置执行不同调节幅度的动作,以更适应于此时的信道环境,设置每 一个节点可执行的动作,包括累加、倍乘、保持、倍除、递减,针对竞争窗口状态值选择调整动作进行执行。
优选地,所述步骤(2)中设置竞争窗口状态x初始值CWmin为4,状态 值函数V(x)初始值为0,节点通过在数据包信息交互的环境中不断尝试调整 CW值而学得一个策略π,所述策略π即针对竞争窗口CW的最优调整方案; 调整过程为在状态x下利用随机策略π’从竞争窗口调整动作集{累加,倍乘, 递减,倍除,保持}中选择动作a=π’(x),通过选择动作返回的奖赏值,对 连续状态空间的状态值函数V(x)进行更新,来评估奖赏值和所选动作,最 终学得最优调整策略π。
优选地,所述步骤4中状态值函数的具体更新步骤如下:
步骤4-1:定义估计值函数Vθ(x),如式(1)所示:
Vθ(x)=θTx (1);
其中,x为状态向量,θ为参数向量;
步骤4-2:计算估计值函数和真实值函数的误差
最终学习获得的估计值函数要无限接近真实的值函数Vπ,近似程度用 最小二乘误差来度量,误差函数如公式(2)所示:
Eθ=Ex~π[(Vπ(x)-Vθ(x))2] (2);
其中,Ex~π表示由策略π所采样而得的状态上的误差期望;
通过梯度下降方法对误差期望进行优化,对误差函数求负导数,如式 (3)所示:
获得对单个样本的更新规则,如式(4)所示:
θ=θ+α(Vπ(x)-Vθ(x))x (4);
策略的真实值函数不可知,根据时序差分学习,基于Vπ(x)=r+γVπ(x′)用 当前的估计值函数代替真实值函数,如公式(5)所示:
Vπ(x)=r+γVθ(x')
=r+γθTx' (5);
其中,r为x对应的奖赏值,γ为折扣因子,x′为下一状态;
步骤4-3:更新迭代获得最优参数值θ
水下自组织网络环境中,节点采用QL-UACW算法发送MAC数据帧 的过程中,通过对线性近似对象为状态值函数的参数向量θ进行更新迭代, 并利用奖赏作为估计函数选择最优策略,节点每发送一次数据帧,参数向 量θ更新一次,通过多次迭代学习得到最优参数向量,进而逼近最优值函数, 更新参数向量θ的表达式,时序差分学习需要状态-动作值函数以便获得策 略,令θ作用于表示状态和动作的联合向量上,将式(1)中的x替换为(x;a), 如式(6)所示:
θ←θ+α(r+γθT(x′;a′)-θT(x;a))(x;a) (6);
其中,α为学习率,是节点在环境中的学习步长,γ为折扣因子, 表示执行一个动作后环境给予的奖赏值,且γ∈[0,1)。
优选地,所述步骤5获得最优策略的具体步骤如下:
步骤5-1:水下节点在自组织网络中初次接入信道发送数据时,首先初 始化估计值函数Vθ(x)的值;
步骤5-2:根据随机策略π‘在状态x下选择动作a,得到下一状态x′及 其奖赏值r;
步骤5-3:根据步骤4中得到的更新参数值θ的表达式(6)更新估计 值函数参数向量θ,循环执行步骤5-2以及5-3,直到达到最优参数值或达 到迭代次数上限,进而得到最优估计值函数,从而获得最优策略,所述最 优策略表达式如式(7)所示:
优选地,步骤5-2中所述的奖赏值r的计算公式如(8)所示:
其中,rcw表示,选择当前的CW值接入信道,数据发送成功,获得的正 奖赏值;如果水下节点数据发送失败,则从网络环境中获得的奖赏值为-1; 若当前节点正在发送数据,则返回获得的奖赏值为0;对于奖赏值rcw的设 置,成功发送数据所选的CW值越小,得到的奖赏值就越大;
定义竞争窗口状态x与奖赏值rcw的对应关系为指数关系,如式(9)所 示:
rcw=a*exp(b*x) (9);
其中,a和b为指数关系的参数,x为竞争窗口状态值,rcw为数据发送 成功对应的奖赏值。
优选地,所述步骤4-3中,学习率α取值为0.7,折扣因子γ取值为0.9。
有益效果:本发明提供一种基于MAC层公平接入的QL-UACW退避方 法,使得用户能够使水下自组织网络在节点竞争接入信道时提高节点间公 平性,降低数据包冲突的同时提高信道利用率和网络吞吐量,从而使得大 量水下自组织网络节点发送数据更加公平。
具体实施方式
下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发 明的技术方案,而不能以此来限制本发明的保护范围。
一种基于MAC层公平接入的QL-UACW退避方法,应用于水下自组织网 络中,将水下自组织网络环境设定为Q-learning学习的环境,节点学习整 个水下自组织网络环境,根据一个随机策略选择某个动作执行调整增大或 减小竞争窗口,获得一个新竞争窗口状态值x,节点根据竞争窗口状态值x 进行退避竞争,然后接入水声信道发送数据,若节点成功发送数据帧,则 环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏值,利用返回的奖赏值,更新一个竞争窗口状态对应的状态值函数,评估所选 动作,不断学习迭代更新,学习经历所有的状态动作对,使得累积奖赏值 最大的动作为最优动作,其具体步骤如下所示:
步骤1:设置状态-动作对映射,针对连续竞争窗口状态空间X,设置 一个竞争窗口连续状态集(CWmin,CWmax),以及包含多个调节幅度动作的竞 争窗口调整动作集{累加,倍乘,递减,倍除,保持},其中,累加表示以 一定步长增大竞争窗口,倍乘表示以一定倍数增大竞争窗口;倍除表示以 倍数减小竞争窗口;递减表示以步长减小竞争窗口,保持表示竞争窗口不 变,节点每执行一个动作,环境状态就会发生改变;
步骤2:状态动作初始化,选择竞争窗口状态x初始值为CWmin,设置对 应状态的状态值函数V(x)初始值为0,其中,状态值函数V(x)表示从竞争 窗口连续状态集(CWmin,CWmax)中所取值的竞争窗口状态x出发,节点通过 在数据包信息交互环境中不断调整竞争窗口值所学得策略所带来的累积奖 赏;
步骤3:动作执行,在水下自组织网络环境中节点根据随机策略π’从竞 争窗口调整动作集{累加,倍乘,递减,倍除,保持}中选择一个对应动作 执行,调整竞争窗口状态值,获得新的竞争窗口状态值为CW1,节点根据新 的竞争窗口状态值CW1进行退避竞争然后接入信道发送数据,根据发送结果, 环境给予节点一个奖赏值,若节点成功发送数据帧,则环境给予节点一个 正的奖赏值,若数据发送失败,则给予一个负的奖赏值;
步骤4:更新状态值函数V(x),根据奖赏值和对应的调整前后的两个 竞争窗口状态值,更新累积奖赏值,使得累积奖赏值最大的动作为最优动 作;
步骤5:迭代更新动作和状态值函数,最终获得最优策略π,得到最佳 竞争窗口。
优选地,所述步骤(1)中所述的状态-动作对映射表示如下:
水下自组织网络中节点在(CWmin,CWmax)区间内能取到的所有竞争窗口 集,即学习环境中的状态空间,将状态空间X设置一个连续集合(CWmin,CWmax), 其中,最小值CWmin为4,最大值CWmax为1024,根据环境动态变化而选择相应 动作执行得到连续函数上最优的映射值;同时针对信道不同的竞争激烈程 度,设置执行不同调节幅度的动作,以更适应于此时的信道环境,设置每 一个节点可执行的动作,包括累加、倍乘、保持、倍除、递减,针对竞争窗口状态值选择调整动作进行执行。
优选地,所述步骤(2)中设置竞争窗口状态x初始值CWmin为4,状态 值函数V(x)初始值为0,节点通过在数据包信息交互的环境中不断尝试调整 CW值而学得一个策略π,所述策略π即针对竞争窗口CW的最优调整方案; 调整过程为在状态x下利用随机策略π’从竞争窗口调整动作集{累加,倍乘, 递减,倍除,保持}中选择动作a=π’(x),通过选择动作返回的奖赏值,对 连续状态空间的状态值函数V(x)进行更新,来评估奖赏值和所选动作,最 终学得最优调整策略π。
优选地,所述步骤4中状态值函数的具体更新步骤如下:
步骤4-1:定义估计值函数Vθ(x),如式(1)所示:
Vθ(x)=θTx (1);
其中,x为状态向量,θ为参数向量;
步骤4-2:计算估计值函数和真实值函数的误差
最终学习获得的估计值函数要无限接近真实的值函数Vπ,近似程度用 最小二乘误差来度量,误差函数如公式(2)所示:
Eθ=Ex~π[(Vπ(x)-Vθ(x))2] (2);
其中,Ex~π表示由策略π所采样而得的状态上的误差期望;
通过梯度下降方法对误差期望进行优化,对误差函数求负导数,如式 (3)所示:
获得对单个样本的更新规则,如式(4)所示:
θ=θ+α(Vπ(x)-Vθ(x))x (4);
策略的真实值函数不可知,根据时序差分学习,基于Vπ(x)=r+γVπ(x′)用 当前的估计值函数代替真实值函数,如公式(5)所示:
Vπ(x)=r+γVθ(x')
=r+γθTx' (5);
其中,r为x对应的奖赏值,γ为折扣因子,x′为下一状态;
步骤4-3:更新迭代获得最优参数值θ
水下自组织网络环境中,节点采用QL-UACW算法发送MAC数据帧 的过程中,通过对线性近似对象为状态值函数的参数向量θ进行更新迭代, 并利用奖赏作为估计函数选择最优策略,节点每发送一次数据帧,参数向 量θ更新一次,通过多次迭代学习得到最优参数向量,进而逼近最优值函数, 更新参数向量θ的表达式,时序差分学习需要状态-动作值函数以便获得策 略,令θ作用于表示状态和动作的联合向量上,将式(1)中的x替换为(x;a), 如式(6)所示:
θ←θ+α(r+γθT(x′;a′)-θT(x;a))(x;a) (6);
其中,α为学习率,是节点在环境中的学习步长,γ为折扣因子, 表示执行一个动作后环境给予的奖赏值,且γ∈[0,1)。
优选地,所述步骤5获得最优策略的具体步骤如下:
步骤5-1:水下节点在自组织网络中初次接入信道发送数据时,首先初 始化估计值函数Vθ(x)的值;
步骤5-2:根据随机策略π‘在状态x下选择动作a,得到下一状态x′及 其奖赏值r;
步骤5-3:根据步骤4中得到的更新参数值θ的表达式(6)更新估计 值函数参数向量θ,循环执行步骤5-2以及5-3,直到达到最优参数值或达 到迭代次数上限,进而得到最优估计值函数,从而获得最优策略,所述最 优策略表达式如式(7)所示:
优选地,步骤5-2中所述的奖赏值r的计算公式如(8)所示:
其中,rcw表示,选择当前的CW值接入信道,数据发送成功,获得的正 奖赏值;如果水下节点数据发送失败,则从网络环境中获得的奖赏值为-1; 若当前节点正在发送数据,则返回获得的奖赏值为0;对于奖赏值rcw的设 置,成功发送数据所选的CW值越小,得到的奖赏值就越大;
定义竞争窗口状态x与奖赏值rcw的对应关系为指数关系,如式(9)所 示:
rcw=a*exp(b*x) (9);
其中,a和b为指数关系的参数,x为竞争窗口状态值,rcw为数据发送 成功对应的奖赏值。
优选地,所述步骤4-3中,学习率α取值为0.7,折扣因子γ取值为0.9。
本发明的设计原理如下主要包括四个部分:
1基于强化学习的竞争退避初步模型
Q-learning算法,是强化学习算法中最典型的一种,不需要环境模型, Agent在动态环境中通过交互试错来调整行为。Agent不断探索环境,在每 一环境状态和可能的动作之间建立一个Q值列表(Q表),它学习的是每个 状态动作对的评价值——Q值(Q(xt,at)),Q(xt,at)值是Agent在状态xt下根据 策略选择执行动作at,并循环执行所得到的累积奖赏值。Q-Learning算法 的最优策略是使Q(xt,at)的累积奖赏值最大化,所以Q学习的最优策略表达 式如下所示:
水下自组织网络中,利用Q-learning算法学习的思想,节点即Agent, 学习整个水下自组织网络环境,根据一个随机策略选择某个动作执行调整 增大或减小竞争窗口,获得一个新的竞争窗口状态值,节点根据新的竞争 窗口值进行退避竞争,然后接入信道发送数据。若节点成功发送数据帧, 则环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏 值。利用返回的奖赏值,更新一个竞争窗口状态对应的累积奖赏值函数, 评估所选动作。不断学习迭代更新,学习经历所有的状态动作对,使得累 积奖赏值最大的动作为最优动作。在网络负载较低时,节点利用学习所得 的最佳策略选择调整以较小的CW接入信道避免增加时延;网络负载较高时, 则利用较大的CW接入信道防止碰撞。针对网络环境动态调整竞争窗口,保 证节点间公平接入信道。算法基本思路如下:
1)状态动作映射。设置一个竞争窗口有限状态集(CWmin,CWmax),竞争 窗口调整动作集{累加,倍乘,递减,倍除,保持}。
2)状态动作初始化。选择竞争窗口初始值CWmin,设置对应状态的值函数 V(X)初始值为0。
3)动作执行。在环境中根据随机策略π‘选择一个对应动作执行,调整 竞争窗口值,获得新的状态值,节点退避发送数据帧,根据发送结果,环 境给予一个奖赏值。
4)更新状态值函数。根据奖赏值和对应的竞争窗口值,更新累积奖赏 值,使得累积奖赏值最大的动作为最优动作。
5)迭代更新动作和累积奖赏值函数,最终获得最优策略。
2QL-UACW算法的状态—动作对映射过程
在水下自组织网络中,整个通信网络即Agent学习的环境,网络中的每 个节点即Agent,节点在接入信道时对应信道情况所采用的竞争窗口就是 Agent学习环境的状态,节点在(CWmin,CWmax)区间内能取到的所有竞争窗口集, 即Agent的状态学习环境的状态空间。根据已有的对水下自组织网络退避 算法竞争窗口值研究,取竞争窗口初始值CWmin为4,最大值CWmax为1024。节 点Agent通过在数据包信息交互的环境中不断尝试调整CW值而学得一个策 略π,策略π即针对竞争窗口CW的调整方案。根据这个策略,在状态x下可 知其对应执行的动作a=π(x),由于水声信道具有长传播时延,所以在研究 学习周围环境,选择要采取的动作时,针对信道不同的竞争激烈程度,设 置执行不同调节幅度的动作,获得更优的CW状态,以更适应于此时的信道 环境,避免碰撞的同时提高信道利用率和节点接入公平性。所以设置每一 个Agent可执行的动作:累加(lp)、倍乘(lm)、保持(k)、倍除(dv)、递减(ds)。累加和倍乘分别表示以一定步长和倍数增大竞争窗口,倍除和递减则分别 以倍数和步长减小竞争窗口,保持即竞争窗口不变。节点每执行一个动作, 环境状态就会发生改变。
节点对状态(竞争窗口CW)选择使得累积奖赏值最大的动作执行,每发 送完一个MAC帧后,节点从网络环境中获得一个奖赏值,若发送成功,节 点获得一个正的奖赏值,若发送失败,节点获得一个负的奖赏值。利用执 行动作a返回的奖赏值r以及执行动作后转移到的状态x更新状态值函数, 评估策略,迭代学习更新,最终获得最优策略。节点自适应调整竞争窗口 大小,其总选择能使得累积奖赏值最大的动作为最优动作执行,得到最优 的CW状态值。
QL-UACW算法的适应性映射:
1)结合水声信道复杂性和时延变化,算法改进Q学习中的有限离散状 态值,将竞争窗口状态空间设置为一个连续集合,针对连续状态值利用值 函数近似更新迭代得到最优调整策略。
2)在更新选择可执行动作时,结合水声信道长时延性,针对连续竞争 窗口状态空间,对复杂变化的环境加入包含多个不同调节幅度动作的动作 空间,得到的CW值更适合当前水声信道数据传输。
3)在数据发送成功后的奖赏值rcw值的设置上,由于状态空间设置为连 续,所以在奖赏值的设置上,考虑状态和奖赏的指数关系,将奖赏值设置 为对应状态的连续函数。
3、QL-UACW算法的状态值函数更新过程
在Agent与环境不断交互学习的过程中,节点接入信道可能执行的动作 有:累加(lp)、倍乘(lm)、保持(k)、倍除(dv)、递减(ds)。由于考虑水声信道 环境状态的动态变化,将状态空间CW设置一个连续集合,集合取值在初始 最小值CWmin=4,以及最大值CWmax=1024的范围内,以根据环境动态变化而 选择相应动作执行得到连续函数上最优的映射值。当竞争窗口为最小值时, 竞争窗口无法继续减小;当竞争窗口为最大值时,竞争窗口无法继续增加。 在针对连续的状态空间X,无法直接获得状态值与动作对应的值映射Q表, 所以采取直接对连续状态空间的值函数V(x)进行学习。
状态—动作值函数Q(xt,at)是一个有限状态空间的表格值函数,而本发明 的水下自组织网络环境中,水声信道环境动态变化,状态空间X不是离散 的,同时更改一个状态上的值可能会影响其他状态上的值,所以连续状态 空间无法用表格值函数来记录状态值。因此,本发明直接对连续状态空间 的值函数V(x)进行学习,状态的值函数V(x)表示从状态x出发,使用策略π 所带来的累积奖赏。其是一个状态的长期最优化价值,即在这个状态下考虑后续的所有可能发生的动作,并都挑选最优动作来执行。此时的值函数 V(x)难以像有限状态空间精确记录每个离散状态的值,所以对状态值函数 V(x)的求解就是通过求一个真实函数的近似值Vθ(x),对估计值函数进行学习 使其无限逼近状态真实值函数的过程,即更新值函数的状态参数过程。更 新过程如下:
1)定义估计值函数Vθ(x)
对于状态值x和值函数之间的关系,考虑节点竞争窗口值越小,接入信 道的概率越大,在网络负载低时数据包发送成功率越大,在网络负载高时, 节点更新竞争窗口值越快,同样奖赏值反馈越快,其累积奖赏值越容易收 敛,所以在定义本次估计值函数模型中,考虑状态值和策略的累积奖赏值 为线性关系,值函数能表达为状态的线性函数,如式(1)所示:
Vθ(x)=θTx (1)
其中x为状态向量,θ为参数向量。
2)估计值函数和真实值函数的误差
通过公式学得的估计值值函数尽可能接近真实的值函数Vπ,近似程度用 最小二乘误差来度量:
Eθ=Ex~π[(Vπ(x)-Vθ(x))2] (2);
其中,Ex~π表示由策略π所采样而得的状态上的期望。通过梯度下降方 法对误差期望进行优化,对误差函数求负导数:
获得对单个样本的更新规则:
θ=θ+α(Vπ(x)-Vθ(x))x (4);
策略的真实值函数不可知,可以借助时序差分学习,基于 Vπ(x)=r+γVπ(x′)用当前的估计值函数代替真实值函数,即
Vπ(x)=r+γVθ(x')
=r+γθTx' (5);
3)更新迭代获得最优参数值θ
水下自组织网络中,节点采用QL-UACW算法发送MAC数据帧的过程中, 通过对线性近似对象为状态—动作值函数的参数θ进行更新迭代,并利用奖 赏作为估计函数选择最优策略。节点每发送一次数据帧,参数θ更新一次, 通过多次迭代学习得到最优参数值,进而逼近最优值函数,更新参数θ的表 达式,如下:
θ←θ+α(r+γθT(x′;a′)-θT(x;a))(x;a) (6);
其中α为学习率,是Agent在环境中的学习步长,0.7足以反映水声信 道网络环境的变化程度,设置α为0.7。γ为折扣因子,γ∈[0,1),其值体现 了Agent对环境以后所给予奖励的重视程度,设置γ为0.9。γ表示执行一 个动作后环境给予的奖赏值。
水下节点在自组织网络中初次接入信道发送数据时,会首先初始化奖赏 值函数Vπ(x)的值,然后根据探索策略在状态x下选择动作a,得到下一状态 x′及其奖赏值r,之后通过式6更新估计值函数参数θ,一直循环执行直到 实现目标状态或达到迭代次数上限,进而得到最优估计值函数,获得最优策 略。
其中奖赏值r计算如下:
其中,rcw表示,选择当前的CW值接入信道,数据发送成功,获得的正 奖赏值。如果水下节点数据发送失败,则从网络环境中获得的奖赏值为-1; 若当前节点正在发送数据,则返回获得的奖赏值为0;对于奖赏值rcw的设 置,成功发送数据所选的CW值越小,得到的奖赏值就越大。根据奖赏值来 执行下一次动作,获得一个新的CW值,按照此CW值进行退避,发送数据, 根据数据发送情况,获得一个新的奖赏值。
数据发送成功后rcw的取值与CW的值相关,且CW值越小,获得的奖赏值 越大。所以数据发送成功条件下,CW与rcw之间映射为一个反比关系,且随 着竞争窗口越大,其退避时间越长,节点发送数据所用时间越长,信道占 用时间越长,所以趋近于正在发送数据的状态时,rcw的递减速率也减慢。 所以定义竞争窗口CW值x与奖赏值rcw的对应关系为指数关系,如(9)所示:
rcw=a*exp(b*x) (9);
其中a和b为指数关系的参数,x为竞争窗口状态值,rcw为数据发送成 功对应的奖赏值。
4)QL-UACW算法整体更新过程
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普 通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改 进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (7)
1.一种基于MAC层公平接入的QL-UACW退避方法,应用于水下自组织网络中,其特征在于,将水下自组织网络环境设定为Q-learning学习的环境,节点学习整个水下自组织网络环境,根据一个随机策略选择某个动作执行调整增大或减小竞争窗口,获得一个新竞争窗口状态值x,节点根据竞争窗口状态值x进行退避竞争,然后接入水声信道发送数据,若节点成功发送数据帧,则环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏值,利用返回的奖赏值,更新一个竞争窗口状态对应的状态值函数,评估所选动作,不断学习迭代更新,学习经历所有的状态动作对,使得累积奖赏值最大的动作为最优动作,其具体步骤如下所示:
步骤1:设置状态-动作对映射,针对连续竞争窗口状态空间X,设置一个竞争窗口连续状态集(CWmin,CWmax),以及包含多个调节幅度动作的竞争窗口调整动作集{累加,倍乘,递减,倍除,保持},其中,累加表示以一定步长增大竞争窗口,倍乘表示以一定倍数增大竞争窗口;倍除表示以倍数减小竞争窗口;递减表示以步长减小竞争窗口,保持表示竞争窗口不变,节点每执行一个动作,环境状态就会发生改变;
步骤2:状态动作初始化,选择竞争窗口状态x初始值为CWmin,设置对应状态的状态值函数V(x)初始值为0,其中,状态值函数V(x)表示从竞争窗口连续状态集(CWmin,CWmax)中所取值的竞争窗口状态x出发,节点通过在数据包信息交互环境中不断调整竞争窗口值所学得策略所带来的累积奖赏;
步骤3:动作执行,在水下自组织网络环境中节点根据随机策略π’从竞争窗口调整动作集{累加,倍乘,递减,倍除,保持}中选择一个对应动作执行,调整竞争窗口状态值,获得新的竞争窗口状态值为CW1,节点根据新的竞争窗口状态值CW1进行退避竞争然后接入信道发送数据,根据发送结果,环境给予节点一个奖赏值,若节点成功发送数据帧,则环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏值;
步骤4:更新状态值函数V(x),根据奖赏值和对应的调整前后的两个竞争窗口状态值,更新累积奖赏值,使得累积奖赏值最大的动作为最优动作;
步骤5:迭代更新动作和状态值函数,最终获得最优策略π,得到最佳竞争窗口。
2.根据权利要求1所示的一种基于MAC层公平接入的QL-UACW退避方法,其特征在于,所述步骤(1)中所述的状态-动作对映射表示如下:
水下自组织网络中节点在(CWmin,CWmax)区间内能取到的所有竞争窗口集,即学习环境中的状态空间,将状态空间X设置一个连续集合(CWmin,CWmax),其中,最小值CWmin为4,最大值CWmax为1024,根据环境动态变化而选择相应动作执行得到连续函数上最优的映射值;同时针对信道不同的竞争激烈程度,设置执行不同调节幅度的动作,以更适应于此时的信道环境,设置每一个节点可执行的动作,包括累加、倍乘、保持、倍除、递减,针对竞争窗口状态值选择调整动作进行执行。
3.根据权利要求2所述的基于MAC层公平接入的QL-UACW退避方法,其特征在于:所述步骤(2)中设置竞争窗口状态x初始值CWmin为4,状态值函数V(x)初始值为0,节点通过在数据包信息交互的环境中不断尝试调整CW值而学得一个策略π,所述策略π即针对竞争窗口CW的最优调整方案;调整过程为在状态x下利用随机策略V(x)从竞争窗口调整动作集{累加,倍乘,递减,倍除,保持}中选择动作a=π’(x),通过选择动作返回的奖赏值,对连续状态空间的状态值函数V(x)进行更新,来评估奖赏值和所选动作,最终学得最优调整策略π。
4.根据权利要求3所述的基于MAC层公平接入的QL-UACW退避方法,其特征在于:所述步骤4中状态值函数的具体更新步骤如下:
步骤4-1:定义估计值函数Vθ(x),如式(1)所示:
Vθ(x)=θTx (1);
其中,x为状态向量,θ为参数向量;
步骤4-2:计算估计值函数和真实值函数的误差
最终学习获得的估计值函数要无限接近真实的值函数Vπ,近似程度用最小二乘误差来度量,误差函数如公式(2)所示:
Eθ=Ex~π[(Vπ(x)-Vθ(x))2] (2);
其中,Ex~π表示由策略π所采样而得的状态上的误差期望;
通过梯度下降方法对误差期望进行优化,对误差函数求负导数,如式(3)所示:
获得对单个样本的更新规则,如式(4)所示:
θ=θ+α(Vπ(x)-Vθ(x))x (4);
策略的真实值函数不可知,根据时序差分学习,基于Vπ(x)=r+γVπ(x′)用当前的估计值函数代替真实值函数,如公式(5)所示:
Vπ(x)=r+γVθ(x')
=r+γθTx' (5);
其中,r为x对应的奖赏值,γ为折扣因子,x′为下一状态;
步骤4-3:更新迭代获得最优参数值θ
水下自组织网络环境中,节点采用QL-UACW算法发送MAC数据帧的过程中,通过对线性近似对象为状态值函数的参数向量θ进行更新迭代,并利用奖赏作为估计函数选择最优策略,节点每发送一次数据帧,参数向量θ更新一次,通过多次迭代学习得到最优参数向量,进而逼近最优值函数,更新参数向量θ的表达式,时序差分学习需要状态-动作值函数以便获得策略,令θ作用于表示状态和动作的联合向量上,将式(1)中的x替换为(x;a),如式(6)所示:
θ←θ+α(r+γθT(x′;a′)-θT(x;a))(x;a) (6);
其中,α为学习率,是节点在环境中的学习步长,γ为折扣因子,表示执行一个动作后环境给予的奖赏值,且γ∈[0,1)。
5.根据权利要求4所述的基于MAC层公平接入的QL-UACW退避方法,其特征在于:所述步骤5获得最优策略的具体步骤如下:
步骤5-1:水下节点在自组织网络中初次接入信道发送数据时,首先初始化估计值函数Vθ(x)的值;
步骤5-2:根据随机策略π’在状态x下选择动作a,得到下一状态x′及其奖赏值r;
步骤5-3:根据步骤4中得到的更新参数值θ的表达式(6)更新估计值函数参数向量θ,循环执行步骤5-2以及5-3,直到达到最优参数值或达到迭代次数上限,进而得到最优估计值函数,从而获得最优策略,所述最优策略表达式如式(7)所示:
6.根据权利要求5所述的基于MAC层公平接入的QL-UACW退避方法,其特征在于:步骤5-2中所述的奖赏值r的计算公式如(8)所示:
其中,rcw表示,选择当前的CW值接入信道,数据发送成功,获得的正奖赏值;如果水下节点数据发送失败,则从网络环境中获得的奖赏值为-1;若当前节点正在发送数据,则返回获得的奖赏值为0;对于奖赏值rcw的设置,成功发送数据所选的CW值越小,得到的奖赏值就越大;
定义竞争窗口状态x与奖赏值rcw的对应关系为指数关系,如式(9)所示:
rcw=a*exp(b*x) (9);
其中,a和b为指数关系的参数,x为竞争窗口状态值,rcw为数据发送成功对应的奖赏值。
7.根据权利要求4所述的基于MAC层公平接入的QL-UACW退避方法,其特征在于:所述步骤4-3中,学习率α取值为0.7,折扣因子γ取值为0.9。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910640233.0A CN110336620B (zh) | 2019-07-16 | 2019-07-16 | 一种基于mac层公平接入的ql-uacw退避方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910640233.0A CN110336620B (zh) | 2019-07-16 | 2019-07-16 | 一种基于mac层公平接入的ql-uacw退避方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110336620A true CN110336620A (zh) | 2019-10-15 |
CN110336620B CN110336620B (zh) | 2021-05-07 |
Family
ID=68145219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910640233.0A Active CN110336620B (zh) | 2019-07-16 | 2019-07-16 | 一种基于mac层公平接入的ql-uacw退避方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110336620B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111132370A (zh) * | 2019-12-26 | 2020-05-08 | 华南理工大学 | 一种基于强化学习的动态概率退避水声媒介接入控制方法 |
CN111163530A (zh) * | 2019-11-18 | 2020-05-15 | 浙江万胜智能科技股份有限公司 | 一种基于神经网络算法的无线局域网性能增强方法 |
CN111245541A (zh) * | 2020-03-07 | 2020-06-05 | 重庆邮电大学 | 一种基于强化学习的信道多址接入方法 |
CN112054973A (zh) * | 2020-08-28 | 2020-12-08 | 西北工业大学 | 一种最小均方误差稀疏水声信道估计方法 |
CN112637965A (zh) * | 2020-12-30 | 2021-04-09 | 上海交通大学 | 基于博弈的q学习竞争窗口调整方法、系统及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102263597A (zh) * | 2011-07-24 | 2011-11-30 | 哈尔滨工程大学 | 水声传感器网络节点间的信息发送方法 |
US9191304B1 (en) * | 2013-08-12 | 2015-11-17 | The United States Of America As Represented By The Secretary Of The Navy | Reinforcement learning-based distributed network routing method utilizing integrated tracking and selective sweeping |
CN105306176A (zh) * | 2015-11-13 | 2016-02-03 | 南京邮电大学 | 一种基于q学习的车载网mac协议的实现方法 |
CN107864480A (zh) * | 2017-09-27 | 2018-03-30 | 枣庄学院 | 一种基于认知声技术的mac协议 |
CN108924944A (zh) * | 2018-07-19 | 2018-11-30 | 重庆邮电大学 | 基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法 |
US10581533B2 (en) * | 2015-10-16 | 2020-03-03 | Universita Degli Studi Di Roma “La Sapienza” | Method for managing in an adaptive and joint way the routing policy and the retransmission policy of a node in an underwater network, and means for its implementation |
-
2019
- 2019-07-16 CN CN201910640233.0A patent/CN110336620B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102263597A (zh) * | 2011-07-24 | 2011-11-30 | 哈尔滨工程大学 | 水声传感器网络节点间的信息发送方法 |
US9191304B1 (en) * | 2013-08-12 | 2015-11-17 | The United States Of America As Represented By The Secretary Of The Navy | Reinforcement learning-based distributed network routing method utilizing integrated tracking and selective sweeping |
US10581533B2 (en) * | 2015-10-16 | 2020-03-03 | Universita Degli Studi Di Roma “La Sapienza” | Method for managing in an adaptive and joint way the routing policy and the retransmission policy of a node in an underwater network, and means for its implementation |
CN105306176A (zh) * | 2015-11-13 | 2016-02-03 | 南京邮电大学 | 一种基于q学习的车载网mac协议的实现方法 |
CN107864480A (zh) * | 2017-09-27 | 2018-03-30 | 枣庄学院 | 一种基于认知声技术的mac协议 |
CN108924944A (zh) * | 2018-07-19 | 2018-11-30 | 重庆邮电大学 | 基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111163530A (zh) * | 2019-11-18 | 2020-05-15 | 浙江万胜智能科技股份有限公司 | 一种基于神经网络算法的无线局域网性能增强方法 |
CN111132370A (zh) * | 2019-12-26 | 2020-05-08 | 华南理工大学 | 一种基于强化学习的动态概率退避水声媒介接入控制方法 |
CN111245541A (zh) * | 2020-03-07 | 2020-06-05 | 重庆邮电大学 | 一种基于强化学习的信道多址接入方法 |
CN111245541B (zh) * | 2020-03-07 | 2021-11-16 | 重庆邮电大学 | 一种基于强化学习的信道多址接入方法 |
CN112054973A (zh) * | 2020-08-28 | 2020-12-08 | 西北工业大学 | 一种最小均方误差稀疏水声信道估计方法 |
CN112637965A (zh) * | 2020-12-30 | 2021-04-09 | 上海交通大学 | 基于博弈的q学习竞争窗口调整方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110336620B (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110336620A (zh) | 一种基于mac层公平接入的ql-uacw退避方法 | |
Wei et al. | Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning | |
CN113573324B (zh) | 工业物联网中协作式任务卸载和资源分配的联合优化方法 | |
CN110809306B (zh) | 一种基于深度强化学习的终端接入选择方法 | |
CN109639760B (zh) | 一种基于深度强化学习的d2d网络中的缓存策略方法 | |
Wang et al. | Learning decentralized wireless resource allocations with graph neural networks | |
CN109862610A (zh) | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 | |
CN107690176A (zh) | 一种基于q学习算法的网络选择方法 | |
CN107040948A (zh) | 一种基于优先级的csma/ca优化方法 | |
CN113595923A (zh) | 一种网络拥塞控制方法及装置 | |
CN112929900B (zh) | 水声网络中基于深度强化学习实现时域干扰对齐的mac协议 | |
CN113423110A (zh) | 基于深度强化学习的多用户多信道动态频谱接入方法 | |
CN114501667A (zh) | 一种考虑业务优先级的多信道接入建模及分布式实现方法 | |
CN114090108B (zh) | 算力任务执行方法、装置、电子设备及存储介质 | |
KR20230071969A (ko) | Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법 | |
Dutta et al. | Towards multi-agent reinforcement learning for wireless network protocol synthesis | |
CN111917529A (zh) | 一种基于改进exp3算法的水声ofdm资源分配方法 | |
Chen et al. | The contract net based task allocation algorithm for wireless sensor network | |
CN115150335A (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 | |
CN113747386A (zh) | 认知无线电网络频谱共享中的智能功率控制方法 | |
Liu et al. | A Joint Allocation Algorithm of Computing and Communication Resources Based on Reinforcement Learning in MEC System. | |
CN106921413B (zh) | 基于动态博弈的低压电力线通信局域网性能优化方法 | |
CN116233895B (zh) | 基于强化学习的5g配网节点通信优化方法、设备及介质 | |
CN110233762B (zh) | 一种利用mab提升全双工csma网络吞吐量的方法 | |
CN113300970B (zh) | 基于深度学习的tcp拥塞动态控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |