CN111315005B - 一种无线传感器网络自适应休眠方法 - Google Patents

一种无线传感器网络自适应休眠方法 Download PDF

Info

Publication number
CN111315005B
CN111315005B CN202010108300.7A CN202010108300A CN111315005B CN 111315005 B CN111315005 B CN 111315005B CN 202010108300 A CN202010108300 A CN 202010108300A CN 111315005 B CN111315005 B CN 111315005B
Authority
CN
China
Prior art keywords
terminal node
node
time
state
time slot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010108300.7A
Other languages
English (en)
Other versions
CN111315005A (zh
Inventor
李云
严朝阳
黄巍
吴广富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile IoT Co Ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010108300.7A priority Critical patent/CN111315005B/zh
Publication of CN111315005A publication Critical patent/CN111315005A/zh
Application granted granted Critical
Publication of CN111315005B publication Critical patent/CN111315005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0225Power saving arrangements in terminal devices using monitoring of external events, e.g. the presence of a signal
    • H04W52/0248Power saving arrangements in terminal devices using monitoring of external events, e.g. the presence of a signal dependent on the time of the day, e.g. according to expected transmission activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及无线传感器网络领域,特别涉及一种无线传感器网络自适应休眠方法,包括终端节点与网关构成星形网络,终端节点负责信息采集、处理并转发信息,网关则负责将终端节点的信息上传到云端;终端节点基于强化学习的预测方法预测出终端节点自身性能最佳的活跃时隙并进行自适应休眠,即:终端节点划分离散的时间周期,时间周期进一步划分成时隙,并在每一个周期开始时基于强化学习的预测方法预测出活跃时隙时间;在活跃时隙中,终端节点采用CSMA/CA方式竞争信道与网关通信,通信时间由预测出的活跃时隙时间决定;本发明优化了网络性能,改进了周期性占空比休眠和线性占空比休眠不能灵活快速适应网络负载流量的问题。

Description

一种无线传感器网络自适应休眠方法
技术领域
本发明涉及无线传感器网络领域,特别涉及一种无线传感器网络自适应休眠方法。
背景技术
无线传感器网络(Wireless Sensor Network,WSN)是由部署在监测区域内的大型传感器节点组成,终端节点能够实时感知,测量和收集覆盖区域中的被监测对象信息,并进行存储转发。WSN具有监测精度高,覆盖区域广,容错性好等优点,特别适合部署在环境信息监测、军事侦察、工业控制、医疗健康等多个领域,是当前热门研究领域之一。
鉴于终端节点的微小型化特点,其大多数终端节点能量有限,不可更换电源,如何有效利用节点能量,以最大化WSN能量效率和吞吐量作为评价网络质量的关键因素。终端节点各部分能量消耗情况主要集中在无线通信模块,其中节点处于空间侦听状态时,由于终端节点不知邻居节点或者汇聚节点何时向自己发送数据,将射频模块一直处于接收状态,消耗了大量的能量,故适时适当的调度WSN中节点进入休眠状态可以延长网络寿命。
发明内容
本发明针对无线传感器网络中,终端节点能量有限,周期性占空比不能应对流量快速变化的情况,线性调整幅度又不够精确,无法匹配最佳的流量情形,提出一种无线传感器网络自适应休眠方法,包括:
在本发明中,采用了基于强化学习的终端节点自适应调整占空比的方法将终端节点活跃时隙预留问题用马尔科夫决策过程进行描述,以优化系统性能,例如能量有效性、时延、吞吐量为目标,利用Q-Learning预测算法进行活跃时隙的预测。在每一周期到来时,根据当前的网络负载情况,匹配最佳的占空比;终端节点每个周期由活跃时隙和休眠时隙组成,终端节点在活跃阶段完成发送、接收以及侦听任务,在休眠阶段进入休眠状态,节省能量。
附图说明
图1为本发明一种无线传感器网络自适应休眠方法采用的无线传感器网络拓扑图;
图2为本发明一种无线传感器网络自适应休眠方法自适应休眠算法帧结构;
图3为本发明一种无线传感器网络自适应休眠方法Q-Learning算法设计流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种无线传感器网络自适应休眠方法,一个典型的无线传感器网络拓扑如图1所示,由众多节点组成,其中终端节点与网关构成一个星型网络,终端节点负责采集、处理并转发信息,网关则负责将终端节点信息上传云端,终端节点基于强化学习的预测方法,预测出终端节点自身性能最佳的活跃时隙,具体包括以下步骤:
终端节点划分离散的时间周期,时间周期进一步划分成时隙,并在每一个周期开始时基于强化学习的预测方法预测出活跃时隙时间;
在活跃时隙中,终端节点采用CSMA/CA方式竞争信道与网关通信,通信时间由预测出的活跃时隙时间决定;
当活跃时隙时间结束后,终端节点立即进入睡眠状态以降低功耗。
终端节点划分离散的时间周期,时间周期进一步划分成时隙时,将时间被划分为周期性帧fk,fk帧长度固定。每一帧进一步被划分为更细的时间段fr,在本实施例中,将一个周期性帧fk划分为30个时隙,若射频发射一次需要的时间为107.5ms,为保证在一个活跃中也能完成一次射频发送,优选的,本发明采用fr=120ms,因此本发明fk取固定值3.6s;需要说明的是每个时间段fr根据发射一次射频的时间设置,该时间段为保证在一个活跃中也能完成一次射频发送应该稍大于射频发射的时间。
在每一帧中终端节点划分为活跃时隙和休眠时隙,在活跃时隙中终端节点有3种状态:侦听/发送/接收,在休眠时隙中,终端节点进入休眠降低能耗。
帧结构如图2所示,第k帧(frame k,简称fk)包括活跃时隙(Active,简称A)以及休眠时隙(Sleep,简称S)。
终端节点采用基于强化学习的预测方法预测得到活跃时隙数,在活跃时隙中,终端节点侦听信道并尝试与其邻居交换数据包。活跃时间过期时,终端节点转入休眠状态以降低功耗。具体通过Q-learning算法预留活跃时隙,减少终端节点处于活跃时隙中空闲侦听的时间,从而节省能耗。因此将活跃时隙预留的问题表示为马尔科夫决策MDP。
MDP是指决策者通过离散地或者连续的观察具有马尔科夫性的随机的动态系统,再根据特定的的策略做出决策。简单来说就是智能体根据每个时刻的状态,在动作集中根据某种策略选择某个状态,系统状态转移概率具有马尔科夫性,即下一时刻的状态只和当前状态有关,与之前的状态无关。
MDP模型定义了四元组(S,A,P,R),其中,S为包含所有状态的有限集合;A为包含所有动作的有限集合;P为状态转移概率,表示为P:S*A*S→[0,1],R是奖赏函数,表示为R:S*A→R,R是指在状态s下通过某种策略执行动作a后产生的奖赏,由目标函数决定。
π为状态空间映射到动作空间的决策策略,即π:S→A。MDP可以描述为:假设在某时刻k,有状态sk=s∈S,根据策略π选择动作ak=a∈A,以概率Pss′(a)转移到下一个状态sk+1=s′∈S,并得到奖励RK(s,a)的过程。
当前状态值函数Vπ(s)用来描述在某个策略下最终得到的回报,每个状态的值函数不仅由当前状态决定还要由后面状态决定,通过贝尔曼方程求解马尔科夫决策过程的最佳决策序列,所以状态的累计奖励求期望可得出当前sk的状态值函数:
Figure BDA0002389086020000041
其中,γ(0≤γ≤1),γ越接近于1代表它越有远见会着重考虑后续状态的的价值,当γ接近0的时候就会变得只考虑当前的利益的影响。进一步化简可得:
Figure BDA0002389086020000042
则最优累计期望用V*(s)表示,可得最优值函数就是V*(s)=maxπVπ(s),可化简为:V*(s)=R(s,a)+maxγ∑s′∈sPss′Vπ(s′)。状态动作值函数Qπ(s,a)表示从状态s出发,执行动作a后再使用策略π带来的累计奖赏,其贝尔曼方程定义如下:
Figure BDA0002389086020000043
其中s∈S,a∈A,R(s,a)表示状态s下执行动作a将得到的立即回报,γ表示折扣因子,决定时间的远近对回报的影响程度。最优Q值可表示为Q*,其定义是执行相关的动作并按照最优策略执行下去,将得到的回报的总和,其贝尔曼最优方程定义如下:
Figure BDA0002389086020000044
智能计算已经在智能控制、工业设计、机器人、生物统计学领域都广泛应用,并取得了很好的研究成果。其中随着对强化学习方法的深入研究,应用强化学习方法实现智能体对环境的自适应已经成为WSN中的研究热点,在强化学习中智能体通过与动态环境进行不断交互,从而在“尝试-错误”过程中学习正确行为的问题研究。
在本发明中,根据网络性能进行优化,智能终端决策的目标包括3部分:(1)最大化能效,减少终端节点处于空闲侦听的时间,从而提高能效(2)减少延时(3)提高吞吐量。在无线传感器网络中,能量消耗和吞吐量以及时延都是很重要的指标,牺牲吞吐量和时延来节省能耗显然是不可取的。本发明中预留时隙应该是终端节点流量负载条件的函数。
在本实施例中,动作空间(A)、状态空间(S)、奖赏函数(R)是Q-Learning算法进行预测的三要素。状态空间代表智能体处于状态的集合,动作空间代表智能体在某种状态s下,执行动作a所有可能,奖赏函数代表智能体在状态s下执行动作a所带来的回报值。因此终端节点与环境的交互过程可以通过如下三元组形式表示:
Figure BDA0002389086020000051
智能终端的状态空间对应强化学习中环境状态,终端节点的活跃和休眠状态都是根据当前节点的网络负载情况进行判断的,在本设计中,用缓存队列中数据包的个数代表网络负载情况。在帧开始时,用
Figure BDA0002389086020000052
表示当前节点所处状态,即第k个周期内,节点ni缓存队列中数据包的个数,表征当前节点的数据流量情况,由节点ni所处的所有状态构成了一个离散的状态集,即
Figure BDA0002389086020000053
(N≤16)。
动作空间
Figure BDA0002389086020000054
表示节点ni在当前状态下根据某种π:S→A所采取的动作,即在第k个周期内,节点ni的活跃时隙数。节点ni在当前状态
Figure BDA0002389086020000055
可采取的所有可能的动作构成了一个离散动作集,
Figure BDA0002389086020000056
Figure BDA0002389086020000057
表示对于节点ni在当前状态
Figure BDA0002389086020000058
下根据贪心策略,采取动作
Figure BDA0002389086020000059
后收到的当前节点的立即回报。在活跃时隙内,终端节点有3种状态接收、发送、以及空闲侦听,当节点处于空闲侦听时消耗的能量和接收状态下消耗的能量接近。因此为了提高能量有效性,利用有效发送/接收时间与总保留活动时间之比来衡量,即读取节点成功发送的数据包个数ns和节点成功接收的数据包nr与传输时间tp的乘积占预留的活跃时隙的比例。由于终端节点处于休眠状态时,会使终端节点队列中数据不能发送出去,因此会降低吞吐量,在回报函数中网络吞吐量利用终端节点发送速率vs与发送总时间ts的乘积来标识,终端节点进入休眠状态,关闭收发射频,因此节点的数据收发会带来时延,在每帧开始时,获取当前队列中数据包的个数来衡量节点的时延。综上回报函数定义如下:
Figure BDA0002389086020000061
其中,m、n、p分别指对能效、吞吐量、和时延赋予的权重。
Q-Learning是强化学习算法中Value-based的算法,采用无模型的学习方法,它提供智能体在马尔可夫环境中利用经历的动作序列选择最优动作的一种学习能力,学习模型如图1所示。Q-Learning可以不用知道某个环境的模型也可以对动作进行期望值比较,即智能体当前所处的状态和所选择的动作,决定一个固定的状态转移概率分布、下一个状态、并得到一个即时回报。Q-Learning基于的一个关键假设是智能体和环境的交互可作为一个MDP,它可以在MDP问题中寻找一个最优的动作选择策略。它通过一个动作-价值函数来进行学习,并且最终能够根据当前状态及最优策略给出期望的动作。Q-Learning中,每个Q(s,a)对应一个相应的Q值,在学习过程中根据Q值,选择动作。
智能体的每一次学习过程可以看作是从一个随机状态开始,采用一个策略来选择动作,本发明中选择ε贪心策略,每个状态有ε的概率进行探索,即以均匀概率随机选取一个动作,1-ε的概率进行利用,即选择当前平均奖赏最高的动作。在Q-learning算法中都是利用时间差分方法来更新Q函数,时间差分方法结合了蒙特卡罗的采样方法和动态规划方法的利用后继状态的值函数估计当前值函数,可以适用于无模型的算法并且是单步更新,速度更快。值函数计算方式如下:
V(s)←V(s)+α(R+γV(s′))-V(s))
其中,V(s)表示当前状态值函数,α表示学习速率,R表示回报值,γ表示折扣因子,V(s′)表示下一状态值函数;R+γV(s′)被称为TD目标,δt=R+γV(s′)-V(s)称为TD偏差。将Q值更新计算带入上式,即可得到:
Q(s,a)←Q(s,a)+α[R(s,a)+γmaxQ(s′,a′)-Q(s,a)]
从上式可以看出,学习速率α越大,保留之前训练的效果就越少,γ越大,越看重长远利益,γ越小,代表眼前利益越重要。
在本发明中,Q-Learning算法采用贪心策略,ε的概率进行探索,即以概率ε从动作空间中均匀选择活跃时隙;1-ε的概率进行利用,即以1-ε的概率选取满足
Figure BDA0002389086020000071
的活跃时隙,记录选择的活跃时隙后,智能体处于新状态
Figure BDA0002389086020000072
最终使得节点总的回报函数的期望最大;即在每一个周期开始时基于强化学习的预测方法预测出活跃时隙数表示为:
Figure BDA0002389086020000073
由于流量负载和组网条件有所不同,因此我们采用恒定的学习率α=0.1。我们还注意到,如果流量负载在相当长的一段时间内保持恒定,则排队的数据包长度将集中在一定范围内,从而极大地加快了学习过程。Q-Learning算法流程如图3所示。
Q-Learning算法描述如下:
1、初始化状态集S,动作集A,定义α,γ,ε;
2、设置好回报函数R,初始化动作-状态价值函数
Figure BDA0002389086020000074
Figure BDA0002389086020000075
3、循环遍历次数T,进行迭代
a)初始化s为当前状态序列的第一个状态;
b)用ε贪婪法在当前状态S中选择动作A;
c)在状态s执行前动作a,的得到新状态s′和奖励R;
d)更新动作-价值函数:
Figure BDA0002389086020000076
e)s=s′,更新为新的状态;
如果s′是终止状态,当前迭代完毕,否则跳转到b)。
在第k周期,节点首先根据预测出活跃时隙,在活跃时隙内,节点采用CSMA/CA方式竞争信道成功,与网关进行数据通信,当活跃时间结束后,不管节点缓存中是否还有数据没来得及发送,都立即进入睡眠阶段。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种无线传感器网络自适应休眠方法,其特征在于,终端节点与网关构成星形网络,终端节点负责信息采集、处理并转发信息,网关则负责将终端节点的信息上传到云端;终端节点基于强化学习的预测方法预测出终端节点自身性能最佳的活跃时隙并进行自适应休眠,该过程具体包括:
终端节点划分离散的时间周期,时间周期进一步划分成时隙,并在每一个周期开始时基于强化学习的预测方法预测出活跃时隙时间,表示为:
Figure FDA0003727719830000011
其中,
Figure FDA0003727719830000012
表示终端节点处于第k个周期内,处于状态
Figure FDA0003727719830000013
时采取的动作
Figure FDA0003727719830000014
并得到新的状态即
Figure FDA0003727719830000015
Figure FDA0003727719830000016
表示当前节点所处状态,即第k个周期内,节点ni缓存队列中数据包的个数,在帧开始时,用
Figure FDA0003727719830000017
表示当前节点所处状态,即第k个周期内,节点ni缓存队列中数据包的个数,表征当前节点的数据流量情况,由节点ni所处的所有状态构成了一个离散的状态集,即
Figure FDA0003727719830000018
Figure FDA0003727719830000019
在第k个周期内,节点ni的活跃时隙数;α表示学习效率,初始值为0.1;
Figure FDA00037277198300000110
表示终端节点处于
Figure FDA00037277198300000111
时采取的动作
Figure FDA00037277198300000112
的收益;γ表示折扣因子,初始值为0.5;
Figure FDA00037277198300000113
表示终端节点处于第k+1个周期内,处于状态
Figure FDA00037277198300000114
时采取的动作
Figure FDA00037277198300000115
终端节点处于
Figure FDA00037277198300000116
时采取的动作
Figure FDA00037277198300000117
的收益
Figure FDA00037277198300000118
表示为:
Figure FDA00037277198300000119
其中,ns表示终端节点成功发送的数据包个数;nr表示终端节点成功接收的数据包个数;tp表示数据包传输时间;vs表示终端节点的发送速率;m、n、p分别指对能效、吞吐量、和时延赋予的权重;
在活跃时隙中,终端节点采用CSMA/CA方式竞争信道与网关通信,通信时间由预测出的活跃时隙时间决定;
当活跃时隙时间结束后,终端节点立即进入睡眠状态以降低功耗。
2.根据权利要求1所述的一种无线传感器网络自适应休眠方法,其特征在于,所述终端节点划分离散的时间周期,时间周期进一步划分成时隙包括将按照周期性方式将时间划分为周期性帧fk,周期性帧fk的帧长固定,并将每一帧划分为更细的时间段;在每一帧中将终端节点划分为活跃时隙和休眠时隙。
3.根据权利要求2所述的一种无线传感器网络自适应休眠方法,其特征在于,周期性帧fk帧长为3.6s,将每一帧划分的0.120ms的时间段。
4.根据权利要求2所述的一种无线传感器网络自适应休眠方法,其特征在于,在活跃时隙中,终端节点包括侦听、发送以及接收三个状态,即终端节点侦听信号并尝试与其邻近的终端节点交换数据包,并且终端节点在活跃时隙过期时转入休眠状态。
5.根据权利要求1所述的一种无线传感器网络自适应休眠方法,其特征在于,终端节点ni的状态空间
Figure FDA0003727719830000021
中包括第k个周期内终端节点ni缓存队列中数据包的个数,表征当前终端节点的数据流量情况,由终端节点ni所处的所有状态构成了一个离散的状态集,即
Figure FDA0003727719830000022
6.根据权利要求1所述的一种无线传感器网络自适应休眠方法,其特征在于,终端节点ni的动作空间
Figure FDA0003727719830000023
表示终端节点ni在当前状态
Figure FDA0003727719830000024
下采取的活跃时隙时间,终端节点ni在当前状态
Figure FDA0003727719830000025
可采取的所有可能的动作构成了一个离散动作集,表示为
Figure FDA0003727719830000026
其中,tr表示一个活跃时隙,fk表示终端节点周期。
CN202010108300.7A 2020-02-21 2020-02-21 一种无线传感器网络自适应休眠方法 Active CN111315005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010108300.7A CN111315005B (zh) 2020-02-21 2020-02-21 一种无线传感器网络自适应休眠方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010108300.7A CN111315005B (zh) 2020-02-21 2020-02-21 一种无线传感器网络自适应休眠方法

Publications (2)

Publication Number Publication Date
CN111315005A CN111315005A (zh) 2020-06-19
CN111315005B true CN111315005B (zh) 2022-08-19

Family

ID=71162170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010108300.7A Active CN111315005B (zh) 2020-02-21 2020-02-21 一种无线传感器网络自适应休眠方法

Country Status (1)

Country Link
CN (1) CN111315005B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114423061B (zh) * 2022-01-20 2024-05-07 重庆邮电大学 一种基于注意力机制和深度强化学习的无线路由优化方法
CN115226056A (zh) * 2022-07-12 2022-10-21 东南大学 一种远程状态估计系统中能量有效的传感器休眠调度方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104955107A (zh) * 2015-05-06 2015-09-30 南昌大学 一种无线传感网络占空比自适应调整方法
CN106231660A (zh) * 2016-08-30 2016-12-14 重庆邮电大学 一种基于长短休眠周期的基站关断机制
CN109462858A (zh) * 2017-11-08 2019-03-12 北京邮电大学 一种无线传感器网络参数自适应调节方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11540221B2 (en) * 2017-02-01 2022-12-27 Qualcomm Incorporated Adaptive power save with reinforcement learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104955107A (zh) * 2015-05-06 2015-09-30 南昌大学 一种无线传感网络占空比自适应调整方法
CN106231660A (zh) * 2016-08-30 2016-12-14 重庆邮电大学 一种基于长短休眠周期的基站关断机制
CN109462858A (zh) * 2017-11-08 2019-03-12 北京邮电大学 一种无线传感器网络参数自适应调节方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Q学习的无线传感器网络自组织方法研究;章 韵;《传感技术学报》;20101130;第23卷(第11期);全文 *
基于强化学习的无线传感器网络节点休眠调度策略研究;黄福川;《中国优秀硕士学位论文全文数据库》;20190430;第3-4章,第4.3.2节 *

Also Published As

Publication number Publication date
CN111315005A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
Fanian et al. Memetic fuzzy clustering protocol for wireless sensor networks: Shuffled frog leaping algorithm
Wu et al. Resource allocation for delay-sensitive vehicle-to-multi-edges (V2Es) communications in vehicular networks: A multi-agent deep reinforcement learning approach
CN111315005B (zh) 一种无线传感器网络自适应休眠方法
Zhao et al. Deep reinforcement learning aided intelligent access control in energy harvesting based WLAN
CN104955107B (zh) 一种无线传感网络占空比自适应调整方法
CN109672570A (zh) 一种流量自适应的水声认知传感器网络多址接入方法
Wang et al. Joint optimization of power control and time slot allocation for wireless body area networks via deep reinforcement learning
CN109660375B (zh) 一种高可靠的自适应mac层调度方法
Pujol–Roigl et al. Deep reinforcement learning for cell on/off energy saving on wireless networks
US20230156794A1 (en) Unslotted csmaca optimization method and devices in wi-sun using reinforcement learning
CN114501667A (zh) 一种考虑业务优先级的多信道接入建模及分布式实现方法
Wang et al. Energy-efficient and delay-guaranteed routing algorithm for software-defined wireless sensor networks: A cooperative deep reinforcement learning approach
Song et al. Deep Reinforcement Learning Based Age-of-Information-Aware Low-Power Active Queue Management for IoT Sensor Networks
US20240089863A1 (en) Systems and methods for deep reinforcement learning for optimal power control in wireless networks
Mazandarani et al. Self-sustaining multiple access with continual deep reinforcement learning for dynamic metaverse applications
Azim et al. A relay node based hybrid low energy adaptive clustering hierarchy for wireless sensor networks
Poirot et al. Dimmer: self-adaptive network-wide flooding with reinforcement learning
Chen et al. The contract net based task allocation algorithm for wireless sensor network
CN113938978B (zh) 一种基于强化学习的异构无线传感器寻路方法
CN115866706A (zh) 一种基于节点重要性的无线传感网分级调度方法
Niu Self-learning scheduling approach for wireless sensor network
Zhou et al. Dynamic power management strategies for a sensor node optimised by reinforcement learning
CN115580900A (zh) 一种基于深度强化学习的无人机辅助协作式任务卸载方法
Song et al. Adaptive generalized proportional fair scheduling with deep reinforcement learning
CN107949042B (zh) 能量采集型无线传感网络的低存储自适应传输调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230327

Address after: 401336 Yuen Road, Nanan District, Chongqing City, No. 8

Patentee after: CHINA MOBILE IOT Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS