CN109936865B - 一种基于深度强化学习算法的移动sink路径规划方法 - Google Patents

一种基于深度强化学习算法的移动sink路径规划方法 Download PDF

Info

Publication number
CN109936865B
CN109936865B CN201910316246.2A CN201910316246A CN109936865B CN 109936865 B CN109936865 B CN 109936865B CN 201910316246 A CN201910316246 A CN 201910316246A CN 109936865 B CN109936865 B CN 109936865B
Authority
CN
China
Prior art keywords
network
neural network
deep
value
sink
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910316246.2A
Other languages
English (en)
Other versions
CN109936865A (zh
Inventor
司鹏搏
刘雯琪
张正
徐广书
郝国超
于航
张延华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Publication of CN109936865A publication Critical patent/CN109936865A/zh
Application granted granted Critical
Publication of CN109936865B publication Critical patent/CN109936865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/04Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/044Network management architectures or arrangements comprising hierarchical management structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/24Connectivity information management, e.g. connectivity discovery or connectivity update
    • H04W40/32Connectivity information management, e.g. connectivity discovery or connectivity update for defining a routing cluster membership
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明公开一种基于深度强化学习算法的移动sink路径规划方法,利用深度强化学习的方法来完成移动sink的路径规划,将栅格化的网络状态映射为RGB图像输入到深度卷积神经网络中,通过训练不断更新网络参数。在实际应用过程中,只需将实际的网络状态输入到训练好的神经网络中,即可得到sink的最佳行走路径。本发明方法能够综合考虑无线传感器网络的数据时延要求及网络能耗,相比于传统的无线传感器网络,该发明能够有效均衡网络能耗,同时提高能量效率。将网络状态进行栅格化处理,降低了网络状态的复杂度。

Description

一种基于深度强化学习算法的移动sink路径规划方法
技术领域
本发明属于无线传感器网络技术领域,尤其涉及一种基于深度强化学习算法的移动sink路径规划方法。
背景技术
无线传感器网络是由部署在网络区域内大量的传感器节点、采集信息的汇聚节点以及管理节点组成,传感器节点之间以多跳的方式进行通信,形成了多跳自组织网络。无线传感器网络能够对区域内数据进行采集、处理及传输,在网络覆盖区域内,传感器节点采集并处理数据,并转发给其他传感器节点或sink节点。
在传统的无线传感器网络中,所有节点的位置都固定不变,并且传感器节点大都由电池供电,一旦部署就很难更换电池。在WSN中,最典型的数据收集方式是传感器节点数据以多跳的方式传送到基站或sink节点,靠近基站或sink的传感器节点承载了更多的转发任务,能量消耗较快,导致出现能量空洞以及热点等问题。移动sink的引入有效的解决了以上问题,即在sink节点上配备移动装置,通过sink的移动,使得向sink转发数据的节点持续发生变化,均衡节点负载,降低网络能耗。
在基于移动sink的无线传感器网络中,sink按照一定的轨迹在网络区域内移动并采集传感器节点的数据,sink的移动路径和方式影响着整个网络的性能和工作效率。因此合理规划sink的移动路径,使得无线传感器网络数据能够在数据时延要求内被采集,同时保证网络能耗达到最低是这个问题的关键。本发明提出一种基于深度强化学习算法的sink路径规划方法,能够有效提高数据收集效率和网络能效。
发明内容
本发明所要解决的技术问题是针对背景技术提出一种基于深度强化学习算法的移动sink在无线传感器网络区域内的路径规划方法,能够综合考虑数据时延要求及网络能耗。本发明通过对网络环境的图形化处理以及建模,并使用深度强化学习算法进行动作决策,具有较强的实时性。
本发明为解决上述问题采用以下技术方案,具体步骤如下:
步骤1:将无线传感器网络区域近似为一个正方形区域,并做栅格化处理,形成N◇N个大小相等的正方形栅格;
步骤2:无线传感器节点随机散布在网络区域内,每个栅格内随机分布有一定数量的传感器节点,并且假设每个栅格内传感器节点携带的数据类型(时延要求等)相同;
步骤3:按照一定规则在每个栅格内选举出一个汇聚节点,sink收集所在栅格内汇聚节点的数据;
步骤4:根据每个栅格内数据的时延要求及网络能效对栅格内数据进行优先级划分;
步骤5:将栅格化的网络模型映射为一个RGB图像,不同的颜色代表不同的优先级;
步骤6:将RGB图像作为状态输入到深度卷积神经网络中,并做如下处理:
步骤6.1:构建一个多层卷积神经网络,其中包括输入层、4层卷积层、改进的全连接层和输出层,其中,将传统的全连接层分为两部分,分别计算出状态价值及动作优势,并将两者相加作为输出Q值;
步骤6.2:移动sink在当前状态s下,从可行动作值列表中随机选取一个动作值并执行该动作,得到完成动作后的奖励值r以及网络的下一状态s′,获得样本值(s,a,r,s′);持续采集样本,并存储在经验回放存储器中,形成样本集D;
步骤6.3:构建两个网络:深度卷积神经网络和目标深度卷积神经网络,并初始化权重,在样本集D中随机采样样本(s,a,r,s′),将状态s以RGB图像的形式输入到深度卷积神经网络中,并计算出所有可行动作的Q值,并将对应的s′输入到目标深度卷积神经网络中计算出对应的最大Q值;
步骤6.4:不断迭代,更新深度卷积神经网络和目标深度卷积神经网络的参数,达到收敛后,得到训练好的网络参数;
步骤7:将网络状态映射为RGB图像后输入到训练好的网络中,得到sink的最优路径。
作为本发明一种基于深度强化学习算法的移动sink路径规划方法的进一步优选方案,在步骤1中,规划的无线传感器网络的区域大小为100◇100m,划分为10◇10个单元格。
作为本发明一种基于深度强化学习算法的移动sink路径规划方法的进一步优选方案,在步骤4中,数据优先级划分规则为:数据时延要求越严格,优先级越高;在时延要求的基础上,按照CP缓存的数据量的多少进行划分,数据量越多,优先级越高;并划分为6个优先级。
作为本发明一种基于深度强化学习算法的移动sink路径规划方法的进一步优选方案,在步骤6中,通过深度卷积神经网络对不同颜色特征进行学习和识别;深度强化学习算法更新公式为Q(s,a)=r+γ(max(Q(s′,a′))),其中s表示当前状态,a表示当前采取的动作值,r表示采取动作a之后获得的奖励值,s′表示在当前状态s下采取动作值a后得到得下一状态值,a′为当前状态的下一动作值;γ为折扣因子。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明提出的基于深度强化学习的移动sink路径规划方法使用图像和栅格法相结合的方法对网络环境进行处理,降低了网络状态的复杂度,简化了环境处理流程;同时采用数据优先级划分的方法,综合考虑了数据时延及网络能耗,相比于其他方法,实时性更好,网络效率更高。
附图说明
图1:栅格化的网络结构图
图2:基于WSN的RGB图像
图3:系统动作空间
图4:基于深度强化学习的sink路径规划算法流程图
具体实施方式
下面结合附图对本发明作进一步说明。
本发明采用深度强化学习算法对移动sink路径进行实时规划,下面对深度强化学习算法的过程进行说明:
本发明使用贪婪策略来对sink的动作进行选择,即动作值有一定的概率随机产生。通过不断减小贪婪策略产生动作值的概率,同时由策略网络产生动作值的概率不断增大,这样做能够避免策略网络陷入局部最优。
本发明的状态即为一个RGB图像,由整个无线传感器网络区域划分的栅格(如图1所示)根据数据优先级映射而成,如图2所示,网络状态复杂度较低。
本发明的动作空间即sink处于某一状态时,可采取的所有动作值,本发明中sink可向其周围的8个方向的栅格移动,因此动作空间为8个方向,如图3所示。
本发明的奖赏函数根据栅格的数据优先级来定义,栅格的数据优先级越高,奖励值越高。
如图4所示,本发明的算法流程如下所示:
步骤1:将无线传感器网络区域近似为一个正方形区域,并做栅格化处理,形成N◇N个大小相等的正方形栅格;
步骤2:无线传感器节点随机散布在网络区域内,每个栅格内随机分布有一定数量的传感器节点,并且假设每个栅格内传感器节点携带的数据类型(时延要求等)相同;
步骤3:按照一定规则在每个栅格内选举出一个汇聚节点,sink收集所在栅格内汇聚节点的数据;
步骤4:根据每个栅格内数据的时延要求及网络能效对栅格内数据进行优先级划分:数据时延要求越严格,优先级越高;在时延要求的基础上,按照CP缓存的数据量的多少进行划分,数据量越多,优先级越高;
步骤5:将栅格化的网络模型映射为一个RGB图像,不同的颜色代表不同的优先级;
步骤6:将RGB图像作为状态输入到深度卷积神经网络中,并做如下处理:
步骤6.1:构建一个多层卷积神经网络,其中包括输入层、4层卷积层、改进的全连接层和输出层,其中,将传统的全连接层分为两部分,分别计算出状态价值及动作优势,并将两者相加作为输出Q值;
步骤6.2:移动sink在当前状态s下,从可行动作值列表中随机选取一个动作值并执行该动作,得到完成动作后的奖励值r以及网络的下一状态s′,获得样本值(s,a,r,s′);持续采集样本,并存储在经验回放存储器中,形成样本集D;
步骤6.3:构建两个网络:深度卷积神经网络和目标深度卷积神经网络,并初始化权重,在样本集D中随机采样样本(s,a,r,s′),将状态s以RGB图像的形式输入到深度卷积神经网络中,并计算出所有可行动作的Q值,并将对应的s′输入到目标深度卷积神经网络中计算出对应的最大Q值;
步骤6.4:不断迭代,更新深度卷积神经网络和目标深度卷积神经网络的参数,达到收敛后,得到训练好的网络参数;
步骤7:将网络状态映射为RGB图像后输入到训练好的网络中,得到sink的最优路径。

Claims (3)

1.一种基于深度强化学习算法的移动sink路径规划方法,其特征在于,包含以下步骤:
步骤1:将无线传感器网络区域近似为一个正方形区域,并做栅格化处理,形成N*N个大小相等的正方形栅格;
步骤2:无线传感器节点随机散布在网络区域内,每个栅格内随机分布有预设数量的传感器节点,并且假设每个栅格内传感器节点携带的数据类型相同;
步骤3:在每个栅格内选举出一个汇聚节点,sink收集所在栅格内汇聚节点的数据;
步骤4:根据每个栅格内数据的时延要求及网络能效对栅格内数据进行优先级划分;
步骤5:将栅格化的网络模型映射为一个RGB图像,不同的颜色代表不同的优先级;
步骤6:将RGB图像作为状态输入到深度卷积神经网络中,以训练深度卷积神经网络;
步骤6.1:构建一个多层卷积神经网络,其中包括输入层、4层卷积层、改进的全连接层和输出层,其中,将传统的全连接层分为两部分,分别计算出状态价值及动作优势,并将两者相加作为输出Q值;
步骤6.2:移动sink在当前状态s下,从可行动作值列表中随机选取一个动作值并执行该动作,得到完成动作后的奖励值r以及网络的下一状态s′,获得样本值(s,a,r,s′);持续采集样本,并存储在经验回放存储器中,形成样本集D,a为动作值;
步骤6.3:构建两个网络:深度卷积神经网络和目标深度卷积神经网络,并初始化权重,在样本集D中随机采样样本(s,a,r,s′),将状态s以RGB图像的形式输入到深度卷积神经网络中,并计算出所有可行动作的Q值,并将对应的s′输入到目标深度卷积神经网络中计算出对应的最大Q值;
步骤6.4:不断迭代,更新深度卷积神经网络和目标深度卷积神经网络的参数,达到收敛后,得到训练好的网络参数;
步骤7:将网络状态映射为RGB图像后输入到训练好的深度卷积神经网络中,得到sink的最优路径。
2.如权利要求1所述的基于深度强化学习算法的移动sink路径规划方法,其特征在于,在步骤1中,规划的无线传感器网络的区域大小为100*100m,划分为10*10个单元格。
3.如权利要求1所述的基于深度强化学习算法的移动sink路径规划方法,其特征在于,在步骤6中,通过深度卷积神经网络对不同颜色特征进行学习和识别;深度强化学习算法更新公式为Q(s,a)=r+γ(max(Q(s′,a′))),其中,s表示当前状态,a表示当前采取的动作值,r表示采取动作a之后获得的奖励值,s′表示在当前状态s下采取动作值a后得到得下一状态值,a′为当前状态的下一动作值;γ为折扣因子。
CN201910316246.2A 2018-06-30 2019-04-19 一种基于深度强化学习算法的移动sink路径规划方法 Active CN109936865B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810702377.XA CN108924897A (zh) 2018-06-30 2018-06-30 一种基于深度强化学习算法的移动sink路径规划方法
CN201810702377X 2018-06-30

Publications (2)

Publication Number Publication Date
CN109936865A CN109936865A (zh) 2019-06-25
CN109936865B true CN109936865B (zh) 2021-01-15

Family

ID=64422487

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201810702377.XA Withdrawn CN108924897A (zh) 2018-06-30 2018-06-30 一种基于深度强化学习算法的移动sink路径规划方法
CN201910316246.2A Active CN109936865B (zh) 2018-06-30 2019-04-19 一种基于深度强化学习算法的移动sink路径规划方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201810702377.XA Withdrawn CN108924897A (zh) 2018-06-30 2018-06-30 一种基于深度强化学习算法的移动sink路径规划方法

Country Status (1)

Country Link
CN (2) CN108924897A (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726676B (zh) * 2018-12-28 2020-07-07 苏州大学 自动驾驶系统的规划方法
CN109754075B (zh) * 2019-01-16 2021-07-02 中南民族大学 无线传感器网络节点的调度方法、设备、存储介质及装置
CN110351754B (zh) * 2019-07-15 2022-05-24 北京工业大学 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法
CN110417664B (zh) * 2019-07-31 2022-02-25 国家电网有限公司信息通信分公司 基于电力通信网的业务路由分配方法及装置
CN110703766B (zh) * 2019-11-07 2022-01-11 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN111413974B (zh) * 2020-03-30 2021-03-30 清华大学 一种基于学习采样式的汽车自动驾驶运动规划方法及系统
CN112188428B (zh) * 2020-09-28 2024-01-30 广西民族大学 一种传感云网络中Sink节点的能效最优化方法
CN112867023B (zh) * 2020-12-30 2021-11-19 北京理工大学 一种通过动态调度无人终端最小化感知数据获取时延方法
CN113867357B (zh) * 2021-10-12 2022-04-26 河南嘉晨智能控制股份有限公司 一种工业车辆的低时延路径规划算法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2360629A3 (en) * 2005-05-07 2012-04-11 Stephen L. Thaler Device for the autonomous bootstrapping of useful information
CN104698838A (zh) * 2014-12-23 2015-06-10 清华大学 基于论域动态划分和学习的模糊调度规则挖掘方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
WO2018027210A1 (en) * 2016-08-05 2018-02-08 Neu Robotics, Inc, Mobile platform eg drone / uav performing localization and mapping using video
CN107894773A (zh) * 2017-12-15 2018-04-10 广东工业大学 一种移动机器人的导航方法、系统及相关装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10191495B2 (en) * 2015-12-17 2019-01-29 Board Of Trustees Of The University Of Arkansas Distributed ceiling-mounted smart cameras for multi-unmanned ground vehicle routing and coordination

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2360629A3 (en) * 2005-05-07 2012-04-11 Stephen L. Thaler Device for the autonomous bootstrapping of useful information
CN104698838A (zh) * 2014-12-23 2015-06-10 清华大学 基于论域动态划分和学习的模糊调度规则挖掘方法
WO2018027210A1 (en) * 2016-08-05 2018-02-08 Neu Robotics, Inc, Mobile platform eg drone / uav performing localization and mapping using video
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107894773A (zh) * 2017-12-15 2018-04-10 广东工业大学 一种移动机器人的导航方法、系统及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Energy Function Inspired Value Priority Based》;Reza Yousefian;《IEEE TRANSACTIONS ON SMART GRID》;20180331;全文 *
《基于强化学习的移动机器人路径规划研究》;许亚;《中国优秀硕士论文全文数据库》;20131231;全文 *

Also Published As

Publication number Publication date
CN108924897A (zh) 2018-11-30
CN109936865A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN109936865B (zh) 一种基于深度强化学习算法的移动sink路径规划方法
Li et al. A deep learning method based on an attention mechanism for wireless network traffic prediction
Zhang et al. Optimizing federated learning in distributed industrial IoT: A multi-agent approach
Chen et al. iRAF: A deep reinforcement learning approach for collaborative mobile edge computing IoT networks
CN110856134B (zh) 一种基于无人机的大规模无线传感器网络数据收集方法
CN109753751B (zh) 一种基于机器学习的mec随机任务迁移方法
Cao et al. Swarm intelligence-based performance optimization for mobile wireless sensor networks: survey, challenges, and future directions
Oda et al. Design and implementation of a simulation system based on deep Q-network for mobile actor node control in wireless sensor and actor networks
CN107808212A (zh) 基于灰色神经网络的太阳能收集功率预测方法
CN108075975B (zh) 一种物联网环境中的路由传输路径的确定方法及确定系统
Liu et al. Green mobility management in UAV-assisted IoT based on dueling DQN
Wang et al. Distributed reinforcement learning for age of information minimization in real-time IoT systems
CN106102079A (zh) 基于改进pso的c‑ran载波迁移资源需求预测方法
Manalastas et al. Where to go next?: A realistic evaluation of AI-assisted mobility predictors for HetNets
Liu et al. Dynamic multichannel sensing in cognitive radio: Hierarchical reinforcement learning
Xia et al. Digital Twin and Artificial Intelligence for Intelligent Planning and Energy-Efficient Deployment of 6G Networks in Smart Factories
CN103237312B (zh) 一种无线传感器网络节点覆盖优化方法
CN116867025A (zh) 无线传感器网络中传感器节点分簇方法及装置
CN104702497A (zh) 一种基于Sarsa算法和蚁群优化的路由控制算法
TWI748794B (zh) 基於類神經網路的波束選擇方法及管理伺服器
US20240086715A1 (en) Training and using a neural network for managing an environment in a communication network
CN107872809A (zh) 一种基于移动节点辅助的软件定义传感网络拓扑控制方法
CN114599069A (zh) 一种基于能量自收集的水下无线传感器网络路由方法
CN113840306B (zh) 基于网络局部信息交互的分布式无线网络接入决策方法
Wang et al. Technical report for trend prediction based intelligent UAV trajectory planning for large-scale dynamic scenarios

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant