CN111278161B - 基于能量采集与深度强化学习的wlan协议设计与优化方法 - Google Patents

基于能量采集与深度强化学习的wlan协议设计与优化方法 Download PDF

Info

Publication number
CN111278161B
CN111278161B CN202010060946.2A CN202010060946A CN111278161B CN 111278161 B CN111278161 B CN 111278161B CN 202010060946 A CN202010060946 A CN 202010060946A CN 111278161 B CN111278161 B CN 111278161B
Authority
CN
China
Prior art keywords
sta
energy
intelligent
period
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010060946.2A
Other languages
English (en)
Other versions
CN111278161A (zh
Inventor
杨鲲
赵毅哲
谢安娜
胡杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010060946.2A priority Critical patent/CN111278161B/zh
Publication of CN111278161A publication Critical patent/CN111278161A/zh
Application granted granted Critical
Publication of CN111278161B publication Critical patent/CN111278161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0808Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA]
    • H04W74/0816Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA] with collision avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于能量采集与深度强化学习的WLAN协议设计与优化方法,包括以下步骤:S1、基于能量采集技术构建WLAN模型场景;S2、根据传统CSMA/CA协议设计基于能量采集的分布式AEH‑CSMA/CA协议;S3、针对网络中的智能STA进行基于深度强化学习的优化决策。本发明将能量采集技术与无线通信技术相结合,有效的解决了未来物联网海量设备的能源供应问题,实现绿色网络的愿景。同时基于深度强化学习技术,为网络中的智能STA进行智能的决策,以降低其能量中断概率并且提高数据发送量,使得无线网络更加智能化。

Description

基于能量采集与深度强化学习的WLAN协议设计与优化方法
技术领域
本发明属于无线通信网络技术领域,特别设计一种基于能量采集与深度强化学习的WLAN协议设计与优化方法。
背景技术
随着无线通信技术的飞速发展,越来越多的网络设备正在逐渐加入到这个万物互联的网络,为了更好的感知周围环境并且为提高通信质量做出相应的决策(如资源分配等),海量的微型传感器也分布在随处可见的空间内。由于设备数量巨大,因此除了保证其通信需求外,如何为其进行持续的能量供应也就成为了一个比较严峻的问题。如果通过人为的更换电池或者有源充电,由于消耗的人力成本与设备数量呈指数增长的关系,因此是及其得不偿失的。因此,就需要采用一种其他的便捷式充电技术,也就是为所有的低功耗设备配置能量采集模块,以帮助它们随时的采集周围环境中的能量。周围环境的能量采集技术主要针对于太阳能、风能、热能等可持续发展能源,通过持续的采集周围环境的能量,低功耗设备可以实现无源工作的愿景。但是,由于周围环境能量具有一定的不确定性,例如晚上就没有了太阳无法采集太阳能,因此这些设备的工作也深受周围环境的影响。为了有效的提高网络的通信性能,就需要更加智能的对周围环境进行一定的感知,进而进行一定的决策。
近年来,人工智能技术正炙手可热。其凭借可以使得机器设备等像人类一样比较智能的感知与学习环境并且做出一定的反馈的特性,目前已经被各大领域加以应用。在通信领域,人工智能技术也被应用于各个通信层。例如,物理层可以采用深度学习进行智能的调制与编码,MAC层可以依据强化学习进行一定的资源分配,而网络层则可以智能的帮助各个设备寻找最优路由。通信与机器学习的结合,正在使得网络更加智能化。
对于拥有众多低功耗传感器的家庭网络,由于设备数量较多,因此采用分布式的竞争协议则相对更为适合。为了实现绿色节能通信,各个设备也配置能量采集模块从周围环境采集能量来为自身的数据发送供能。但是,各个设备的能量状态不同,也会影响到自身的数据发送状态。如果用户能量较多,则有可能更为频繁的尝试发送,因此导致不必要的数据碰撞,也会极大的提高能量中断概率。由于周围环境感知的复杂性,因此如果使用传统的建模方法则会较为困难。因此,我们可以借助于人工智能,采用深度强化学习的方式替节点感知周围环境信息,进而做出合理的决策。
发明内容
本发明的目的在于克服现有技术物联网海量设备的能量供应不足的问题,提供一种将能量采集技术与无线通信技术相结合,同时基于深度强化学习技术,为网络中的智能STA进行智能的决策,以降低其能量中断概率并且提高数据发送量,使得无线网络更加智能化的基于能量采集与深度强化学习的WLAN协议设计与优化方法。
本发明的目的是通过以下技术方案来实现的:基于能量采集与深度强化学习的WLAN协议设计与优化方法,包括以下步骤:
S1、基于能量采集技术构建WLAN模型场景;
S2、根据传统CSMA/CA协议设计基于能量采集的分布式AEH-CSMA/CA协议;
S3、针对网络中的智能STA进行基于深度强化学习的优化决策。
进一步地,步骤S1具体实现方法为:假设WLAN场景中包含一个AP与N个STA,每个STA都配置有用于采集周围环境中能量的能量采集模块;在N个STA中,设置有一个具有在自身运行深度强化学习算法功能的智能STA,其余普通STA只能进行协议操作;智能STA能够通过调节自身的退避窗口大小来控制自身的数据发送与能量消耗状态;
AP与所有STA之间的无线信道均为时间相关的;在第l个周期,AP与智能STA之间的信道质量表示为hl,每个周期假设时间长度为T;
设智能STA的电池最大容量为Emax,在第l个周期内,智能STA的能量采集速率为
Figure BDA0002374447180000021
AP端在解调数据信息时候的最低信噪比门限为γth;如果接受信噪比低于此门限,则认为AP端无法正确解调出数据信息;因此,在第l个周期,为了保证数据的正确解调,智能STA的最小数据发送需要消耗的能量为:
Figure BDA0002374447180000022
其中,TPCK为每个数据包的传输时间,σ2则代表噪声方差;智能STA仅仅在自身能量不低于
Figure BDA0002374447180000023
的时候才会尝试发送数据,每次发送数据消耗
Figure BDA0002374447180000024
能量;
在第l+1个周期起始时刻,智能STA自身的能量状态表示为:
Figure BDA0002374447180000025
其中,
Figure BDA0002374447180000026
表示第l个周期内成功发送的数据包数量,EHl代表第l个周期内的能量采集量,即
Figure BDA0002374447180000027
进一步地,所述步骤S2具体实现方法为:在WLAN中,所有STA同时竞争信道以向AP发送数据包,包括以下子步骤:
S21、在最初始时刻,每个STA根据自身当时的退避窗口大小,随机选取一个退避计数器值进行退避;
S22、判断是否有STA退避计数器减为0,若某个STA退避计数器减为0,则其首先检测该STA的能量是否足够,如果能量不足则保持待机状态;如果该STA的能量足够,则向AP发送一个RTS请求帧;对于退避计数器不为0的STA,则返回步骤S21;
S23、判断AP是否收到RTS帧,如果AP没有收到RTS帧,则保持待机;如果AP收到一个RTS帧,则对收到的RTS进行解调,然后向发送RTS帧的STA回复一个CTS帧,该STA在收到CTS帧后便开始准备向AP发送自身的数据包,在发送成功后AP则回复一个ACK确认帧;若AP收到多个RTS帧,则会由于多帧碰撞解调失败,判定为同时存在多个STA尝试发送进而产生了碰撞,则STA将自身的退避窗口翻倍,然后返回步骤S21。
进一步地,所有STA在进行退避的同时也在进行能量采集。
进一步地,所述步骤S3包括以下子步骤:
S31、确定智能STA的等效吞吐量,建立优化模型;
智能STA的等效吞吐量定义为:
Figure BDA0002374447180000031
其中,
Figure BDA0002374447180000032
表示在第l个周期内成功发送的数据包数量,DPCK表示每个数据包的长度,
Figure BDA0002374447180000033
表示在第l个周期内发生能量中断的次数,
Figure BDA0002374447180000034
表示能量中断门限;该等效吞吐量即为如果在周期内发生能量中断的次数不大于门限,则认为等效吞吐量就是实际吞吐量,如果大于门限则认为等效吞吐量为0;
优化模型表示为:
Figure BDA0002374447180000035
即最大化总的折扣等效吞吐量,其中γ为折扣因子;
S32、确定智能STA的深度强化学习的状态值与状态空间;通过深度强化学习来优化步骤S31得到的优化模型;其中,在第l个周期时,智能STA的状态值定义为一个三元组Sl={hl,El,EHl-1},即当前周期的无线信道质量hl,当前时刻的能量状态El,以及上一时刻的能量采集量EHl-1;其中三个状态值均为连续;
S33、确定智能STA的深度强化学习的动作值与动作空间;在第l个周期时,智能STA在周期起始时刻可以采取的动作即为选取第l个周期的退避窗口大小,动作空间记为
Figure BDA0002374447180000041
S34、确定智能STA的深度强化学习的回报函数;在第l+1个周期起始时刻,其相应的回报函数Rl+1为上一周期的等效吞吐量,即Rl+1=Γl
S35、在能量采集的WLAN中对智能STA进行深度强化学习并决策;智能STA自身维护两个深度神经网络,分别为动作网络与目标网络,目标网络负责对系统回报进行估计,动作网络则负责选取一定的动作值;
在第l个周期起始,智能STA首先输入自身当前状态Sl至动作网络,动作网络输出每个动作的预期回报值,智能STA选取预期回报值最大的动作;然后智能STA开始在第l个周期退避并且发送数据;在该周期结束后,得到相应的数据包发送量以及能量中断次数,求得该周期的等效吞吐量也即下一周期的回报函数;然后智能STA将本周期状态-动作-回报-下一周期状态组Sl,Al,Rl+1,Sl+1存入记忆缓存;从缓存中选取一定mini-batch的数据进行神经网络学习,进而更新动作网络与目标网络的参数。
本发明的有益效果是:本发明将能量采集技术与无线通信技术相结合,有效的解决了未来物联网海量设备的能源供应问题,实现绿色网络的愿景。同时基于深度强化学习技术,为网络中的智能STA进行智能的决策,以降低其能量中断概率并且提高数据发送量,使得无线网络更加智能化。
附图说明
图1为本发明的基于能量采集与深度强化学习的WLAN协议设计与优化方法的流程图;
图2为本发明的WLAN场景示意图;
图3为本发明的AEH-CSMA/CA协议流程图;
图4为本发明的深度强化学习算法框架图。
具体实施方式
在介绍本发明提供的方案之前,首先对本发明中出现的一些名词的释义进行说明:
WLAN:无线局域网。
AP:中心接入点。
STA:用户设备节点。
CSMA/CA:载波侦听多址/碰撞避免。
AEH-CSMA/CA:基于周围环境能量采集技术的CSMA/CA。
RTS:请求发送帧,用于向目的节点告知自己将要向其发送数据包。
CTS:确定发送帧,用于目的节点向源节点告知其可以发送数据包。
ACK:确认帧,用于目的节点向源节点告知数据包以成功接收。
下面结合附图进一步说明本发明的技术方案。
如图1所示,本发明的一种基于能量采集与深度强化学习的WLAN协议设计与优化方法,包括以下步骤:
S1、基于能量采集技术构建WLAN模型场景;具体实现方法为:假设WLAN场景中包含一个AP与N个STA,如图2所示。每个STA都配置有用于采集周围环境中能量的能量采集模块,其可以持续的从周围环境中采集相应的能量(如太阳能),进而将自身采集到的能量用于数据信息的发送;在N个STA中,设置有一个具有在自身运行深度强化学习算法功能的智能STA,其余普通STA只能进行协议操作;智能STA能够通过调节自身的退避窗口大小来控制自身的数据发送与能量消耗状态;
AP与所有STA之间的无线信道均为时间相关的,为了更加实际化,每个STA与AP之间的信道假设为时变信道,即此时刻的信道质量与之前若干个周期的信道质量相关;在第l个周期,AP与智能STA之间的信道质量表示为hl,每个周期假设时间长度为T;由于时间相关性,我们假设信道质量hl与之前周期的信道质量hl-1,hl-2,…,hl-Δl相关,其中Δl表示信道相关周期数。
设智能STA的电池最大容量为Emax,在第l个周期内,智能STA的能量采集速率为
Figure BDA0002374447180000051
(单位为J/s);与无线信道相似,智能STA的能量采集过程也是时间相关的,即
Figure BDA0002374447180000052
也与之前的若干个周期相关。
为了能够正确恢复STA的数据包,AP端在解调数据信息的时候需要一个最低的信噪比门限,记为γth。如果接受信噪比低于此门限,则认为AP端无法正确解调出数据信息;因此,在第l个周期,为了保证数据的正确解调,智能STA的最小数据发送需要消耗的能量为:
Figure BDA0002374447180000053
其中,TPCK为每个数据包的传输时间,σ2则代表噪声方差;智能STA仅仅在自身能量不低于
Figure BDA0002374447180000054
的时候才会尝试发送数据;为了节省能量,假设每次发送数据消耗
Figure BDA0002374447180000055
能量;
在第l+1个周期起始时刻,智能STA自身的能量状态表示为:
Figure BDA0002374447180000061
其中,
Figure BDA0002374447180000062
表示第l个周期内成功发送的数据包数量,EHl代表第l个周期内的能量采集量,即
Figure BDA0002374447180000063
S2、根据传统CSMA/CA协议设计基于能量采集的分布式AEH-CSMA/CA协议;具体实现方法为:在WLAN中,所有STA同时竞争信道以向AP发送数据包,包括以下子步骤:
S21、在最初始时刻,每个STA根据自身当时的退避窗口大小,随机选取一个退避计数器值进行退避;
S22、判断是否有STA退避计数器减为0,若某个STA退避计数器减为0,则其首先检测该STA的能量是否足够,如果能量不足则保持待机状态直至自身能量充足;如果该STA的能量足够,则向AP发送一个RTS请求帧;对于退避计数器不为0的STA,则返回步骤S21;
S23、判断AP是否收到RTS帧,如果AP没有收到RTS帧,则保持待机;如果AP收到一个RTS帧,则对收到的RTS进行解调,然后向发送RTS帧的STA回复一个CTS帧,该STA在收到CTS帧后便开始准备向AP发送自身的数据包,在发送成功后AP则回复一个ACK确认帧;若AP收到多个RTS帧,则会由于多帧碰撞解调失败,判定为同时存在多个STA尝试发送进而产生了碰撞,则STA将自身的退避窗口翻倍,然后返回步骤S21。AEH-CSMA/CA协议的运行流程图如图3所示。
S3、针对网络中的智能STA进行基于深度强化学习的优化决策;包括以下子步骤:
S31、确定智能STA的等效吞吐量,建立优化模型;本发明目的是通过控制退避窗口大小,提高智能STA的数据发送量,同时降低其能量中断概率。当退避窗口相对较大时,智能STA更趋于选择较大的退避计数值,因此在每次发送前都会等待较多的时长,使得数据发送量降低,但是由于尝试发送的次数变少,使得该节点更加不容易耗尽能量,从而降低相应的能量中断概率。由此可见,数据发送量与能量中断概率是一个矛盾的关系,在提升其中一个性能的同时,必然会降低另外一个性能。因此需要合理的折中二者之间的关系。
为了联合数据发送量与能量中断概率性能,定义智能STA的等效吞吐量定义为:
Figure BDA0002374447180000064
其中,
Figure BDA0002374447180000065
表示在第l个周期内成功发送的数据包数量,DPCK表示每个数据包的长度,
Figure BDA0002374447180000066
表示在第l个周期内发生能量中断的次数,
Figure BDA0002374447180000067
表示能量中断门限;该等效吞吐量即为如果在周期内发生能量中断的次数不大于门限,则认为等效吞吐量就是实际吞吐量,如果大于门限则认为等效吞吐量为0;
使用等效吞吐量即可以在保证能量中断概率的前提下提高数据发送量。进而得到优化模型表示为:
Figure BDA0002374447180000071
即最大化总的折扣等效吞吐量,其中γ为折扣因子;
S32、确定智能STA的深度强化学习的状态值与状态空间;通过深度强化学习来优化步骤S31得到的优化模型;其中,在第l个周期时,智能STA的状态值定义为一个三元组Sl={hl,El,EHl-1},即当前周期的无线信道质量hl,当前时刻的能量状态El,以及上一时刻的能量采集量EHl-1;其中三个状态值均为连续;
S33、确定智能STA的深度强化学习的动作值与动作空间;在第l个周期时,智能STA在周期起始时刻可以采取的动作即为选取第l个周期的退避窗口大小,动作空间记为
Figure BDA0002374447180000072
S34、确定智能STA的深度强化学习的回报函数;在第l+1个周期起始时刻,其相应的回报函数Rl+1为上一周期的等效吞吐量,即Rl+1=Γl
S35、在能量采集的WLAN中对智能STA进行深度强化学习并决策;智能STA自身维护两个深度神经网络,分别为动作网络与目标网络,目标网络负责对系统回报进行估计,动作网络则负责选取一定的动作值;
在第l个周期起始,智能STA首先输入自身当前状态Sl至动作网络θ,动作网络θ输出每个动作的预期回报值
Figure BDA0002374447180000073
智能STA选取预期回报值最大的动作;然后智能STA开始在第l个周期退避并且发送数据;在该周期结束后,得到相应的数据包发送量以及能量中断次数,求得该周期的等效吞吐量也即下一周期的回报函数;然后智能STA将本周期状态-动作-回报-下一周期状态组Sl,Al,Rl+1,Sl+1存入记忆缓存;从缓存中选取一定mini-batch的数据进行神经网络学习,进而更新动作网络与目标网络的参数。智能STA的深度强化学习流程如图4所示。本实施方案中的动作网络与目标网络均为深度为4的神经网络,输入层神经元个数为Sl={hl,El,EHl-1}状态空间的状态数量,即3;中间两层的神经元个数为8;输出层的神经元个数为
Figure BDA0002374447180000074
动作空间的动作数量,即为5。假设第k(1≤k≤4)层神经网络的输出表示为yk,第一层神经网络y1为输入层,第四层神经网络y4为输出层。yk(2≤k≤4)的具体值可以通过以下求得:
yk=wk-1,kyk-1+bk
其中,wk-1,k为第k-1层与第k层之间的权重因子矩阵,bk为第k层的贝叶斯参数。通过梯度下降法来对神经网络的两个重要参数wk-1,k与bk进行优化,最终可以得到一个最优的参数。
Figure BDA0002374447180000081
表示目标网络根据当前回报
Figure BDA0002374447180000082
以及下一步状态
Figure BDA0002374447180000083
预估的累积衰减回报值,其中
Figure BDA0002374447180000084
表示在状态
Figure BDA0002374447180000085
下采取动作a时的未来累积衰减回报值,θ-即为目标网络的参数wk-1,k与bk的统称。
所有STA在进行退避的同时也在进行能量采集,因此,如果某个STA此时能量不足,其在经过一段时间后能量便可以充满进而尝试发送自身的数据包。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (3)

1.基于能量采集与深度强化学习的WLAN协议设计与优化方法,其特征在于,包括以下步骤:
S1、基于能量采集技术构建WLAN模型场景;具体实现方法为:假设WLAN场景中包含一个AP与N个STA,每个STA都配置有用于采集周围环境中能量的能量采集模块;在N个STA中,设置有一个具有在自身运行深度强化学习算法功能的智能STA,其余普通STA只能进行协议操作;智能STA能够通过调节自身的退避窗口大小来控制自身的数据发送与能量消耗状态;
AP与所有STA之间的无线信道均为时间相关的;在第l个周期,AP与智能STA之间的信道质量表示为hl,每个周期假设时间长度为T;
设智能STA的电池最大容量为Emax,在第l个周期内,智能STA的能量采集速率为
Figure FDA0003138727130000011
AP端在解调数据信息时候的最低信噪比门限为γth;如果接受信噪比低于此门限,则认为AP端无法正确解调出数据信息;因此,在第l个周期,为了保证数据的正确解调,智能STA的最小数据发送需要消耗的能量为:
Figure FDA0003138727130000012
其中,TPCK为每个数据包的传输时间,σ2则代表噪声方差;智能STA仅仅在自身能量不低于
Figure FDA0003138727130000013
的时候才会尝试发送数据,每次发送数据消耗
Figure FDA0003138727130000014
能量;
在第l+1个周期起始时刻,智能STA自身的能量状态表示为:
Figure FDA0003138727130000015
其中,
Figure FDA0003138727130000016
表示第l个周期内成功发送的数据包数量,EHl代表第l个周期内的能量采集量,即
Figure FDA0003138727130000017
S2、根据传统CSMA/CA协议设计基于能量采集的分布式AEH-CSMA/CA协议;
S3、针对网络中的智能STA进行基于深度强化学习的优化决策;包括以下子步骤:
S31、确定智能STA的等效吞吐量,建立优化模型;
智能STA的等效吞吐量定义为:
Figure FDA0003138727130000018
其中,
Figure FDA0003138727130000019
表示在第l个周期内成功发送的数据包数量,DPCK表示每个数据包的长度,
Figure FDA00031387271300000110
表示在第l个周期内发生能量中断的次数,
Figure FDA0003138727130000021
表示能量中断门限;该等效吞吐量即为如果在周期内发生能量中断的次数不大于门限,则认为等效吞吐量就是实际吞吐量,如果大于门限则认为等效吞吐量为0;
优化模型表示为:
Figure FDA0003138727130000022
即最大化总的折扣等效吞吐量,其中γ为折扣因子;
S32、确定智能STA的深度强化学习的状态值与状态空间;通过深度强化学习来优化步骤S31得到的优化模型;其中,在第l个周期时,智能STA的状态值定义为一个三元组Sl={hl,El,EHl-1},即当前周期的无线信道质量hl,当前时刻的能量状态El,以及上一时刻的能量采集量EHl-1;其中三个状态值均为连续;
S33、确定智能STA的深度强化学习的动作值与动作空间;
S34、确定智能STA的深度强化学习的回报函数;在第l+1个周期起始时刻,其相应的回报函数Rl+1为上一周期的等效吞吐量,即Rl+1=Γl
S35、在能量采集的WLAN中对智能STA进行深度强化学习并决策;智能STA自身维护两个深度神经网络,分别为动作网络与目标网络,目标网络负责对系统回报进行估计,动作网络则负责选取一定的动作值;
在第l个周期起始,智能STA首先输入自身当前状态Sl至动作网络,动作网络输出每个动作的预期回报值,智能STA选取预期回报值最大的动作;然后智能STA开始在第l个周期退避并且发送数据;在该周期结束后,得到相应的数据包发送量以及能量中断次数,求得该周期的等效吞吐量也即下一周期的回报函数;然后智能STA将本周期状态-动作-回报-下一周期状态组Sl,Al,Rl+1,Sl+1存入记忆缓存;从缓存中选取一定mini-batch的数据进行神经网络学习,进而更新动作网络与目标网络的参数。
2.根据权利要求1所述的基于能量采集与深度强化学习的WLAN协议设计与优化方法,其特征在于,所述步骤S2具体实现方法为:在WLAN中,所有STA同时竞争信道以向AP发送数据包,包括以下子步骤:
S21、在最初始时刻,每个STA根据自身当时的退避窗口大小,随机选取一个退避计数器值进行退避;
S22、判断是否有STA退避计数器减为0,若某个STA退避计数器减为0,则其首先检测该STA的能量是否足够,如果能量不足则保持待机状态;如果该STA的能量足够,则向AP发送一个RTS请求帧;对于退避计数器不为0的STA,则返回步骤S21;
S23、判断AP是否收到RTS帧,如果AP没有收到RTS帧,则保持待机;如果AP收到一个RTS帧,则对收到的RTS进行解调,然后向发送RTS帧的STA回复一个CTS帧,该STA在收到CTS帧后便开始准备向AP发送自身的数据包,在发送成功后AP则回复一个ACK确认帧;若AP收到多个RTS帧,则会由于多帧碰撞解调失败,判定为同时存在多个STA尝试发送进而产生了碰撞,则STA将自身的退避窗口翻倍,然后返回步骤S21。
3.根据权利要求1所述的基于能量采集与深度强化学习的WLAN协议设计与优化方法,其特征在于,所有STA在进行退避的同时也在进行能量采集。
CN202010060946.2A 2020-01-19 2020-01-19 基于能量采集与深度强化学习的wlan协议设计与优化方法 Active CN111278161B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010060946.2A CN111278161B (zh) 2020-01-19 2020-01-19 基于能量采集与深度强化学习的wlan协议设计与优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010060946.2A CN111278161B (zh) 2020-01-19 2020-01-19 基于能量采集与深度强化学习的wlan协议设计与优化方法

Publications (2)

Publication Number Publication Date
CN111278161A CN111278161A (zh) 2020-06-12
CN111278161B true CN111278161B (zh) 2021-08-31

Family

ID=71003455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010060946.2A Active CN111278161B (zh) 2020-01-19 2020-01-19 基于能量采集与深度强化学习的wlan协议设计与优化方法

Country Status (1)

Country Link
CN (1) CN111278161B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111867139B (zh) * 2020-07-06 2022-03-01 上海交通大学 基于q学习的深度神经网络自适应退避策略实现方法及系统
CN112416561B (zh) * 2020-12-07 2022-11-25 西北大学 一种面向目标计数任务场景的资源动态调度与管理方法
CN113747384B (zh) * 2021-08-11 2023-04-07 中山大学 基于深度强化学习的工业物联网能量可持续性决策机制

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10542477B2 (en) * 2016-12-14 2020-01-21 The Boeing Company Multi-hop networking protocol for wide-area energy harvesting sensor network deployments
CN106713346B (zh) * 2017-01-13 2021-01-12 电子科技大学 基于无线射频能量传输的wlan协议设计与分析方法
CN107426826A (zh) * 2017-04-27 2017-12-01 成都瑞沣信息科技有限公司 基于射频能量收集的无线传感器网络mac协议设计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于强化学习的M2M网络自适应媒体接入控制协议";徐昶;《应用科学学报》;20170530;全文 *

Also Published As

Publication number Publication date
CN111278161A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111278161B (zh) 基于能量采集与深度强化学习的wlan协议设计与优化方法
Singh et al. Performance evaluation of an IEEE 802.15. 4 sensor network with a star topology
CN106559177B (zh) 射频充电传感节点的帧长和编码冗余度动态调整方法
CN107820309B (zh) 低功耗通信设备的唤醒策略和时隙寻优算法
CN110602798B (zh) Lte网络机器通信随机接入最优参数分布式确定方法
Zhao et al. Deep reinforcement learning aided intelligent access control in energy harvesting based WLAN
CN111491358A (zh) 基于能量采集的自适应调制和功率控制系统与优化方法
Li et al. Distributed opportunistic scheduling for energy harvesting based wireless networks: A two-stage probing approach
CN106162798A (zh) 无线传感网络能量采集节点协作传输的联合功率分配和中继选择方法
CN109660375B (zh) 一种高可靠的自适应mac层调度方法
Kumari Investigation: life-time and stability period in wireless sensor network
CN115766089A (zh) 一种能量采集认知物联网络抗干扰最优传输方法
CN102238709B (zh) 无线传感器网络的自适应抗干扰方法
Wang et al. Energy-efficient and delay-guaranteed routing algorithm for software-defined wireless sensor networks: A cooperative deep reinforcement learning approach
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN110213088A (zh) 一种传输时限下aloha网络可靠性的优化方法
CN113543085A (zh) 一种基于能量收集技术的d2d通信网络中时间分配和用户调度方法
CN105813178A (zh) 体域网中数据发送方法和系统
Cheng et al. An opportunistic routing in energy-harvesting wireless sensor networks with dynamic transmission power
CN115315020A (zh) 基于区分服务的ieee 802.15.4协议的智能csma/ca退避方法
CN106507425A (zh) 适用于异构无线传感网的改进型分布式能量有效成簇方法
Xie et al. An energy-efficient TDMA protocol for clustered wireless sensor networks
CN111601387B (zh) 一种面向数能一体化无线传感器网络的介质访问控制机制
CN107105438A (zh) 一种基于QoS的数能一体传输策略设计方法
Zheng et al. Adaptive MAC schemes in dynamic MANETs: parameter adjustment versus mechanism combination on real-time

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant