CN112788560B - 一种基于深度强化学习的时空充电调度方法 - Google Patents

一种基于深度强化学习的时空充电调度方法 Download PDF

Info

Publication number
CN112788560B
CN112788560B CN202011506914.7A CN202011506914A CN112788560B CN 112788560 B CN112788560 B CN 112788560B CN 202011506914 A CN202011506914 A CN 202011506914A CN 112788560 B CN112788560 B CN 112788560B
Authority
CN
China
Prior art keywords
charging
node
energy
time
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011506914.7A
Other languages
English (en)
Other versions
CN112788560A (zh
Inventor
冯勇
王艺均
李英娜
钱谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202011506914.7A priority Critical patent/CN112788560B/zh
Publication of CN112788560A publication Critical patent/CN112788560A/zh
Application granted granted Critical
Publication of CN112788560B publication Critical patent/CN112788560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/38Services specially adapted for particular environments, situations or purposes for collecting sensor information
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J50/00Circuit arrangements or systems for wireless supply or distribution of electric power
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J50/00Circuit arrangements or systems for wireless supply or distribution of electric power
    • H02J50/60Circuit arrangements or systems for wireless supply or distribution of electric power responsive to the presence of foreign objects, e.g. detection of living beings
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J50/00Circuit arrangements or systems for wireless supply or distribution of electric power
    • H02J50/80Circuit arrangements or systems for wireless supply or distribution of electric power involving the exchange of data, concerning supply or distribution of electric power, between transmitting devices and receiving devices
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J7/00Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries
    • H02J7/00032Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries characterised by data exchange
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B40/00Technologies aiming at improving the efficiency of home appliances, e.g. induction cooking or efficient technologies for refrigerators, freezers or dish washers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Power Engineering (AREA)
  • Signal Processing (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开一种基于深度强化学习的时空充电调度方法,涉及无线可充电传感器网络技术领域。本发明基于深度强化学习从在线模式的基础上考虑时间和空间两个维度设计了无线可充电传感网中MC对节点的充电方案。首先传感器节点根据自身剩余电量和能耗速度预估死亡时间,当剩余生存时间低于给定的阈值时向基站发送充电请求,MC根据请求节点信息规划充电序列和充电时间为低能量节点及时的补充能量。本发明基于深度强化学习从节点的充电序列和充电时长两个维度优化充电方案,最终输出一条避开障碍物的具体路线并且在充电过程中动态调整每个节点的充电时间,最小化网络中节点的失效率,达到延长网络生存时间,维护整个网络正常运行的目的。

Description

一种基于深度强化学习的时空充电调度方法
技术领域
本发明涉及利用无线充电技术延长无线可充电传感器网络生存周期技术领域,具体的涉及一种无线可充电传感网中基于深度强化学习的时空充电调度方法。
背景技术
无线传感网(Wireless sensor network,WSN)由三大部分构成,包括传感器节点、传感网络和基站。作为实现物联网的重要基础设施,近年来发展迅速,并被广泛应用于电气自动化、农业、建筑物状态监控等领域。传感器节点电池能量限制使网络生存时间有限,而一些应用场景中希望WSN无期限工作。随着无线充电技术的日趋成熟,无线可充电传感网(Wireless rechargeable sensor network,WRSN)应运而生,有效改善了网络的生存时间。
无线可充电传感网在WSN的基础上增加了可移动充电装置(Mobile chargingunit,MC),通过充电算法的调度,MC自行移动到传感器节点位置为其进行无线充电。WRSN相较于WSN大大提高了网络的生存时间,因此需要考虑在WRSN中如何有效的调度MC为节点补充能量。
Chao Sha等学者于2019年在IEEE Transactions on Vehicular Technology发表的“Research on Cost-Balanced Mobile Energy Replenishment Strategy forWireless Rechargeable Sensor Networks”提出了一种成本均衡的移动能量补充策略。首先,将节点按照剩余生命周期进行分组,保证在每个时隙中只对剩余能量较低的节点进行再充电。然后,以移动距离和能量消耗为约束条件,均衡多基站间的能量消耗,得到最优轨迹分配方案。
Jianxin Ma等学者于2019年在International Conference on ArtificialIntelligence for Communications and Networks发表的“Path Optimization withMachine-Learning Based Prediction for Wireless Sensor Networks”提出了一种基于机器学习的能量消耗预测方法(ML-ECP),该方法利用机器学习预测无线传感器网络的能量消耗率。在此基础上,将传感器节点划分为多个簇,得到移动节点的最优轨迹。移动节点在网络中周期性地采集信息和充电时提高了传感器节点充电和数据采集的能量效率。
从出版的文献中,尚无这样的研究工作来利用深度强化学习技术来解决无线可充电传感网中对移动充电器调度策略的优化。现有无线了充电传感网中的能量补充方法大多只考虑对MC移动路径和节点充电序列的优化,而忽略了对节点充电时间的优化,只考虑了充电调度的空间维度,没有考虑到时间维度,因此对于充电调度方案还有可改进之处。为了提高网络生成时间,提高充电效率,本发明结合深度强化学习技术对时间和空间进行协同优化。
深度强化学习近期来发展迅速,并在机器学习领域得到了很多的关注。传统的强化学习局限于动作空间和样本空间较小,且一般是离散的情境下。然而比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间。实现端到端的控制也是要求能处理高维数据,如图像、声音等的数据输入。而现有的深度学习,刚好可以应对高维的输入,将两者结合,使智能体同时拥有深度学习的理解能力和强化学习的决策能力。深度强化学习可以解决有着高维或连续动作空间的情境。它包含一个策略网络来生成动作,一个价值网络来评判动作的好坏,在动作输出方面采用一个网络来拟合策略函数,直接输出动作,可以应对连续动作的输出及大的动作空间。
为了解决WRSN中传感器节点的能量补充问题,本发明通过引入深度强化学习对其问题进行解决。传感器节点可以根据自身能耗预测剩余工作时间,在电量低于最小能量阈值时,节点向基站B发送请求,MC根据基于深度强化学习的时空充电算法规划充电序列和每个节点的充电时间。
发明内容
针对现有技术存在的上述问题,本发明提供了一种基于深度强化学习的时空充电调度方法,本发明的时空充电方案(Spatio-temporal charging scheme based on deepreinforcement learning,简称SCSDRL)的深度强化学习调度算法,在考虑路径成本最小的基础上特别考虑了充电时间对充电效果的影响,基于时间和空间两个维度对充电序列进行协同优化,通过对充电时间的动态调整,避免下一节点因等待时间多长而饥饿死亡,从而提高整个无线可充电传感网的生存时间。
为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现:
一种基于深度强化学习的时空充电调度方法,包括以下步骤:
S1:构建无线可充电传感器网络模型,使得MC(移动充电装置)是具有自主移动能力和计算能力的独立设备,可自行规划充电序列和在移动过程中避障,由基站为MC补充能量;
S2:以最小化充电成本和减少节点死亡率为目标,设计基于深度强化学习的时空充电方案(SCSDRL);
S3:使用SCSDRL算法生成充电序列后,根据MC当前位置坐标(xm,ym)和目标节点的二维坐标(xi,yi),使用Q-learning算法规划路径,MC在移动过程中按照规划的路径避开障碍物访问每个节点为其进行一对一无线充电;
S4:完成一轮充电调度规划后,MC前往基站补充为自身补充能量,为下次调度做准备。
进一步的,所述S1无线可充电传感器网络模型的构建是在规划好的有障碍物的目标区域内按需求部署一定数量的传感器节点,XI(0<I<N)为传感器节点构成的集合,节点和障碍物固定且位置已知;
Cs为传感器节点电池最大容量,每个传感器节点装有相同容量的电池;Ei(t)表示节点i在当前时刻t的剩余电量;Si是包含位置、能量需求和剩余生存时间的元组,表示为
Figure GDA0002989336860000031
LI给出了传感器节点i的二维坐标,
Figure GDA0002989336860000032
为其能量需求;
Figure GDA0002989336860000033
为节点i的平均剩余生存时间,根据节点i的平均能耗率计算;D(t)=(Si,...,Sn)为t时刻待充电节点的请求集合;基站B按实际需求部署在合适的位置,网络中部署一个可移动充电装置MC在网络区域内可自由移动,携带电池容量为CM;速度为VM/S;移动过程中的能耗为QEJ/M;在t时刻MC的剩余电量为Em(t);
整个无线可充电传感器网络部署在二维有障碍物的目标区域内,无线可充电传感器网络由三个部分组成,在一个二维平面区域内布置有一个基站(B),一个负责为节点充电的可移动充电装置(MC)和若干用来收集和传输数据的传感器节点,每个传感器节点装有相同容量的电池,传感器节点负责收集和传输数据并将数据通过多跳的方式转发到基站,由基站负责存储数据,且基站B通过远距离通信(如4G/5G通信技术)与MC传输数据以及为MC补充能量,MC从基站出发,根据节点的充电请求依次遍历传感器节点进行无线充电,并在一轮充电完成后返回基站为下次调度补充能量。
进一步的,所述S2时空充电方案是:每个传感器节点可根据能耗速率计算自身剩余能量和平均剩余存活时间;当传感器节点剩余能量低于最小能量阈值时向基站发送充电请求,由MC首先根据充电请求中的节点信息进行充电序列的规划,再由规划的充电序列判断序列中的每个节点的平均剩余生存时间,通过后一节点的剩余生存时间动态调整前一节点的充电时间。
进一步的,所述S2的传感器节点的能耗模型为:
Figure GDA0002989336860000034
其中fi,j(1≤j≤n)kbps是节点i传输到节点j的数据;在t时刻节点的剩余能量为:
Figure GDA0002989336860000041
传感器节点按照剩余能量分为两种状态,当剩余能量小于0时节点被标记死亡:
Figure GDA0002989336860000042
节点计算出当前剩余能量后,当
Figure GDA0002989336860000043
时,节点i向基站发送充电请求,需要补充的能量为:
Figure GDA0002989336860000044
其中λ(0<λ≤1)为充电参数,决定MC是为节点i进行完全或部分充电。
进一步的,所述S2的MC的剩余能量计算公式为:
Figure GDA0002989336860000045
Figure GDA0002989336860000046
上式中La,i为上一节点a到当前节点I的距离,Lm,B为MC当前位置到基站B的距离,当MC剩余能量小于下一待充电节点能量需求与自身行驶消耗能量之和时停止为节点补充能量,从当前位置返回基站充电,准备下一次调度。
进一步的,所述S3中的SCSDRL算法具体步骤为:
首先根据t时刻待充电节点的请求集合D(t)=(Si,...,Sn)为节点规划充电序列,引入深度强化学习(DRL)对充电序列进行优化,将问题抽象为马尔科夫决策过程(MDP),其最优解视为一个决策序列,使用DRL通过增加解码序列的概率来逼近最优解;SCSDRL算法可由元组{S,A,R,S′}定义,S是状态空间;A为动作空间;R为MC执行该行为后的奖励;S′是执行动作后的环境状态;
在SCSDRL中,智能体是MC,负责做出充电决策;系统的状态空间包括基站和所有传感器节点的位置和待充电节点的能量需求,表示为S=Si,i=1,...,n;
Figure GDA0002989336860000047
LI给出了传感器节点i的二维坐标,
Figure GDA0002989336860000048
为其能量需求,
Figure GDA0002989336860000049
为节点i的平均剩余生存时间,根据节点i的平均能耗率计算;
策略由表达式a=π(s)表示,是从输入状态S到输出动作a的映射,SCSDRL的目标是找出一种最优策略来规划MC的充电序列;
在SCSDRL中,为了提高WRSN的充电效率,包括通过优化MC的充电路径来避免传感器故障和降低充电成本,SCSDRL以MC的总行程长度和死节点数作为奖励信号,把奖励定义为:
Figure GDA0002989336860000051
状态的具体更新过程如下:假设MC在0时刻位于基站B处;在每个步骤中,MC从传感器节点或基站B中选择下一步要访问的节点;访问传感器节点i后,更新传感器节点的需求和MC的剩余能量如下:
Figure GDA0002989336860000052
Figure GDA0002989336860000053
其次,SCSDRL中的网络模型为两个神经网络:其一是带有参数θu的Actor网络,其输出为可选动作空间的动作概率分布,其二是带有参数θQ的Critic网络;可以在当前WRSN环境下从MC执行动作序列中的动作a中得到一个奖励R;根据当前的统计数据从Critic网络中得到V值,进而更新Actor和具有R和V的误差准则函数的Critic网络;
接着,根据t时刻待充电节点的请求集合D(t)=(Si,...,Sn)为节点规划充电序列,引入深度强化学习对充电序列进行优化;将充电序列的规划抽象为VRP(Vehicle routingproblem)问题,此类问题为NP-hard问题,使用深度强化算法来接近最优解;
同时,由于随着充电时间的增加,电池接收的能量不是线性增加的,充电效率具有边际效应;若所有请求节点都进行完全充电,将影响充电效率;故在生成MC移动距离最短的充电序列后,判断为节点进行完全充电或部分充电,充电时间划分和电池获得能量计算如下:
Figure GDA0002989336860000054
在充电序列的基础上动态调整每个节点的充电时长;
最后,基于策略梯度,使用预期奖励的梯度对策略参数的估计来迭代地改进策略使得奖励最大化,从而生成近似最优解。
进一步的,所述S3中用于规划路径的Q-learning算法具体步骤为:
首先将无线可充电传感网区域转化为二维网格地图,其中基站、传感器节点、MC的位置均已知;将路径规划问题抽象为马尔科夫决策过程,由元组{Sp,Ap,Rp,S′p}定义,Sp是状态空间;Ap为动作空间;Rp为MC执行该动作后的奖励;S′p为执行后的环境状态。将目标位置奖励设置为最大正奖励,将障碍物和其他节点位置设置为最大负奖励,通过Q函数进行学习;求解最优路径就是求得一条到达终点获得最大奖励的策略,最优价值动作函数定义为:
Figure GDA0002989336860000061
根据Q值进行学习,采用时间差分方法进行Q-table的更新,更新过程如下:
Q(s,a)←Q(s,a)+α[r+γmaxa'Q(s',a')-Q(s,a)]
通过Q-learning算法为MC规划出避开障碍物到达目标节点的路径,并自行避开障碍物移动到节点位置为其进行一对一无线充电。
本发明的有益效果是:
本发明通过对无线可充电传感网中传感器节点充电序列和充电时间的优化,尤其是使用深度强化学习方法同时从时间和空间两个维度对MC的充电规划进行协同优化,在减少MC在移动过程中能量损耗的同时,动态调整节点的充电时间,避免下一节点因等待时间过长而失效死亡。该方法可以有效的适应节点能耗不平衡的无线可充电传感器网络,提高整个无线可充电传感网的生存时间,避免因节点死亡带来的不良影响。
附图说明
图1是无线可充电传感网络模型图;
图2是充电曲线示意图;
图3是SCSDRL网络结构图;
图4是避障路径规划图。
图5是基于深度强化学习的时空充电调度方法原理图。
具体实施方式
为了更详细的描述本发明和便于本领域人员的理解,下面结合附图以及实施例对本发明做进一步的描述,本部分的实施例用于解释本发明,便于理解的目的,不以此来限制本发明。
实施例1
如图1-5所示,无线可充电传感网中一种基于深度强化学习的时空充电调度方法,包括如下步骤:
S1:建立无线可充电传感器网络模型:在规划好的有障碍物的目标区域内按需求部署一定数量的传感器节点,XI(0<I<N)为传感器节点构成的集合,节点和障碍物固定且位置已知;Cs为传感器节点电池最大容量,每个传感器节点装有相同容量的电池;Ei(t)表示节点i在当前时刻t的剩余电量;Si是包含位置、能量需求和剩余生存时间的元组,表示为
Figure GDA0002989336860000071
LI给出了传感器节点i的二维坐标,
Figure GDA0002989336860000072
为其能量需求;
Figure GDA0002989336860000073
为节点i的平均剩余生存时间,根据节点i的平均能耗率计算;D(t)=(Si,...,Sn)为t时刻待充电节点的请求集合;基站B按实际需求部署在合适的位置,网络中部署一个可移动充电装置MC在网络区域内可自由移动,携带电池容量为CM;速度为VM/S;移动过程中的能耗为QEJ/M;在t时刻MC的剩余电量为Em(t);
整个无线可充电传感器网络部署在二维有障碍物的目标区域内,传感器节点负责收集和传输数据并将数据通过多跳的方式转发到基站,由基站负责存储数据。基站B通过远距离通信(如4G/5G通信技术)与MC传输数据,MC是具有自主移动能力和计算能力的独立设备,可自行规划充电序列和在移动过程中避障,由基站为MC补充能量。
S2:以最小化充电成本和减少节点死亡率为目标,设计一种基于深度强化学习的时空充电方案(Spatio-temporal charging scheme based on deep reinforcementlearning,简称SCSDRL),该方案的工作过程是:每个传感器节点可根据能耗速率计算自身剩余能量和平均剩余存活时间;当传感器节点剩余能量低于最小能量阈值时向基站发送充电请求,由MC首先根据充电请求中的节点信息进行充电序列的规划,再由规划的充电序列判断序列中的每个节点的平均剩余生存时间,通过后一节点的剩余生存时间动态调整前一节点的充电时间。
如图2所示,随着充电时间的增加,电池接收的能量不是线性增加的,充电效率具有边际效应。若所有请求节点都进行完全充电,将影响充电效率。故在生成MC移动距离最短的充电序列后,判断为节点进行完全充电或部分充电。
S3:使用SCSDRL算法生成充电序列后,根据MC当前位置坐标(xm,ym)和目标节点的二维坐标(xi,yi),使用Q-learning算法规划路径,MC在移动过程中按照规划的路径避开障碍物访问每个节点为其进行一对一无线充电。至此完成一轮充电调度规划;完成一轮充电后MC前往基站补充为自身补充能量,为下次调度做准备。
具体地,传感器节点的能耗模型为:
Figure GDA0002989336860000081
其中fi,j(1≤j≤n)kbps是节点i传输到节点j的数据。在t时刻节点的剩余能量为:
Figure GDA0002989336860000082
传感器节点按照剩余能量分为两种状态,当剩余能量小于0时节点被标记死亡:
Figure GDA0002989336860000083
节点计算出当前剩余能量后,当
Figure GDA0002989336860000084
时,节点i向基站发送充电请求,需要补充的能量为:
Figure GDA0002989336860000085
其中λ(0<λ≤1)为充电参数,决定MC是为节点i进行完全或部分充电。
具体地,所述Step3中MC的剩余能量计算公式为:
Figure GDA0002989336860000086
Figure GDA0002989336860000087
上式中La,i为上一节点a到当前节点I的距离,Lm,B为MC当前位置到基站B的距离,当MC剩余能量小于下一待充电节点能量需求与自身行驶消耗能量之和时停止为节点补充能量,从当前位置返回基站充电,准备下一次调度。
首先根据t时刻待充电节点的请求集合D(t)=(Si,...,Sn)为节点规划充电序列。引入深度强化学习(DRL)对充电序列进行优化,将问题抽象为马尔科夫决策过程(MDP),其最优解视为一个决策序列,使用DRL通过增加解码序列的概率来逼近最优解。SCSDRL算法可由元组{S,A,R,S′}定义,S是状态空间;A为动作空间;R为MC执行该行为后的奖励;S′是执行动作后的环境状态。
在SCSDRL中,为了提高WRSN的充电效率,包括通过优化MC的充电路径来避免传感器故障和降低充电成本。SCSDRL以MC的总行程长度和死节点数作为奖励信号。把奖励定义为:
Figure GDA0002989336860000088
状态空间更新:状态的具体更新过程如下:假设MC在0时刻位于基站B处。在每个步骤中,MC从传感器节点或基站B中选择下一步要访问的节点。访问传感器节点i后,更新传感器节点的需求和MC的剩余能量如下:
Figure GDA0002989336860000091
Figure GDA0002989336860000092
根据t时刻待充电节点的请求集合D(t)=(Si,...,Sn)为节点规划充电序列,引入深度强化学习对充电序列进行优化。将充电序列的规划抽象为VRP(Vehicle routingproblem)问题,此类问题为NP-hard问题,使用深度强化算法来接近最优解。
在生成MC移动距离最短的充电序列后,判断为节点进行完全充电或部分充电,充电时间划分和电池获得能量计算如下:
Figure GDA0002989336860000093
在充电序列的基础上动态调整每个节点的充电时长。
如图3所示,SCSDRL中的网络模型为两个神经网络:其一是带有参数θu的Actor网络,其输出为可选动作空间的动作概率分布,其二是带有参数θQ的Critic网络。然后可以在当前WRSN环境下从MC执行动作序列中的动作a中得到一个奖励R。根据当前的统计数据从Critic网络中得到V值。最后,进而更新Actor和具有R和V的误差准则函数的Critic网络。
基于策略梯度,使用预期奖励的梯度对策略参数的估计来迭代地改进策略使得奖励最大化,从而生成最优解。
如图4所示,网络区域内有位置固定的障碍物,使用Q-learning算法为框架为MC在移动过程中进行避障规划,从而输出具体移动路径。具体步骤如下:
首先将无线可充电传感网区域转化为二维网格地图,其中基站、传感器节点、MC的位置均已知;将路径规划问题抽象为马尔科夫决策过程,由元组{Sp,Ap,Rp,S′p}定义,Sp是状态空间;Ap为动作空间;Rp为MC执行该动作后的奖励;S′p为执行后的环境状态。将目标位置奖励设置为最大正奖励,将障碍物和其他节点位置设置为最大负奖励,通过Q函数进行学习。
求解最优路径就是求得一条到达终点获得最大奖励的策略,最优价值动作函数定义为:
Figure GDA0002989336860000101
根据Q值进行学习,采用时间差分方法进行Q-table的更新,更新过程如下:
Q(s,a)←Q(s,a)+α[r+γmaxa'Q(s',a')-Q(s,a)].
实施例2
如图2所示,例如在一定时间内,四个低能量传感器节点n1,n2,n3,n4在剩余生存时间小于60分钟时分别发送充电请求
Figure GDA0002989336860000102
并且构成集合D(t1)=(S1,S2,S3,S4),根据节点坐标生成初始充电序列,由于节点能耗不均衡致使节点剩余电量不同,此时四个节点充满能量所需的时间分别为30min,25min,15min,20min。此时若按照完全充电模式无论怎样规划充电序列,都会有节点因等待时间过久而饥饿死亡,SCSDRL模型同时对充电序列和充电时长动态调整,首先根据请求集合中的位置信息规划充电序列,生成序列n1→n3→n4→n2,此时四个节点的等待时间分别为0、65、30、45(分钟),其中节点n2将饥饿死亡,通过SCSDRL对节点n4的充电时长动态调整,为其补充70%能量,避免节点n2饥饿死亡。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种。

Claims (5)

1.一种基于深度强化学习的时空充电调度方法,其特征在于,包括以下步骤:
S1:构建无线可充电传感器网络模型,使得移动充电装置MC是具有自主移动能力和计算能力的独立设备,可自行规划充电序列和在移动过程中避障,由基站为MC补充能量;
S2:以最小化充电成本和减少节点死亡率为目标,设计基于深度强化学习的时空充电方案SCSDRL;
S3:使用SCSDRL算法生成充电序列后,根据MC当前位置坐标(xm,ym)和目标节点的二维坐标(xi,yi),使用Q-learning算法规划路径,MC在移动过程中按照规划的路径避开障碍物访问每个节点为其进行一对一无线充电;
S4:完成一轮充电调度规划后,MC前往基站补充为自身补充能量,为下次调度做准备;
所述S2时空充电方案是:每个传感器节点可根据能耗速率计算自身剩余能量和平均剩余存活时间;当传感器节点剩余能量低于最小能量阈值时向基站发送充电请求,由MC首先根据充电请求中的节点信息进行充电序列的规划,再由规划的充电序列判断序列中的每个节点的平均剩余生存时间,通过后一节点的剩余生存时间动态调整前一节点的充电时间;
S3中的SCSDRL算法具体步骤为:
首先根据t时刻待充电节点的请求集合D(t)=(Si,...,Sn;i=1,...,n-1)为节点规划充电序列,引入深度强化学习DRL对充电序列进行优化,将问题抽象为马尔科夫决策过程MDP,其最优解视为一个决策序列,使用DRL通过增加解码序列的概率来逼近最优解;SCSDRL算法可由元组{S,A,R,S′}定义,S是状态空间;A为动作空间;R为MC 执行一个决策序列后的奖励;S′是执行动作后的环境状态;
在SCSDRL中,智能体是MC,负责做出充电决策;系统的状态空间包括基站和所有传感器节点的位置和待充电节点的能量需求,表示为S=Si,i=1,...,n;
Figure FDA0003442283290000021
li给出了传感器节点i的二维坐标,
Figure FDA0003442283290000022
为其能量需求,
Figure FDA0003442283290000023
为节点i的平均剩余生存时间,根据节点i的平均能耗率计算;
策略由表达式a=π(s)表示,是从输入状态S到输出动作a的映射,SCSDRL的目标是找出一种最优策略来规划MC的充电序列;
在SCSDRL中,为了提高WRSN的充电效率,包括通过优化MC的充电路径来避免传感器故障和降低充电成本,SCSDRL以MC的总行程长度和死节点数作为奖励信号,把奖励定义为:
Figure FDA0003442283290000024
状态的具体更新过程如下:假设MC在0时刻位于基站B处;在每个步骤中,MC从传感器节点或基站B中选择下一步要访问的节点;访问传感器节点i后,更新传感器节点的需求和MC的剩余能量如下:
Figure FDA0003442283290000025
Figure FDA0003442283290000026
其次,SCSDRL中的网络模型为两个神经网络:其一是带有参数θu的Actor网络,其输出为可选动作空间的动作概率分布,其二是带有参数θQ的Critic网络;在当前WRSN环境下从MC执行动作序列中的动作a中得到一个奖励R;根据当前的统计数据从Critic网络中得到V值,进而更新Actor和具有R和V的误差准则函数的Critic网络;
接着,根据t时刻待充电节点的请求集合D(t)=(Si,...,Sn)为节点规划充电序列,引入深度强化学习对充电序列进行优化;将充电序列的规划抽象为VRP(Vehicle routingproblem)问题,此类问题为NP-hard问题,使用深度强化算法来接近最优解;
同时,由于随着充电时间的增加,电池接收的能量不是线性增加的,充电效率具有边际效应;若所有请求节点都进行完全充电,将影响充电效率;故在生成MC移动距离最短的充电序列后,判断为节点进行完全充电或部分充电,充电时间划分和电池获得能量计算如下:
Figure FDA0003442283290000031
在充电序列的基础上动态调整每个节点的充电时长;
最后,基于策略梯度,使用预期奖励的梯度对策略参数的估计来迭代地改进策略使得奖励最大化,从而生成近似最优解。
2.如权利要求1所述的基于深度强化学习的时空充电调度方法,其特征在于:所述S1无线可充电传感器网络模型的构建是在规划好的有障碍物的目标区域内按需求部署一定数量的传感器节点,xi,0<i<n为传感器节点构成的集合,节点和障碍物固定且位置已知;
Cs为传感器节点电池最大容量,每个传感器节点装有相同容量的电池;Ei(t)表示节点i在当前时刻t的剩余电量;Si是包含位置、能量需求和剩余生存时间的元组,表示为
Figure FDA0003442283290000032
li给出了传感器节点i的二维坐标,
Figure FDA0003442283290000033
为其能量需求;
Figure FDA0003442283290000034
为节点i的平均剩余生存时间,根据节点i的平均能耗率计算;
D(t)=(Si,...,Sn)为t时刻待充电节点的请求集合;基站B按实际需求部署在合适的位置,网络中部署一个可移动充电装置MC在网络区域内可自由移动,携带电池容量为Cm;速度为vm/s;移动过程中的能耗为qmJ/m;在t时刻MC的剩余电量为Em(t);
整个无线可充电传感器网络部署在二维有障碍物的目标区域内,传感器节点负责收集和传输数据并将数据通过多跳的方式转发到基站,由基站负责存储数据,且基站B通过远距离通信与MC传输数据。
3.如权利要求1所述的基于深度强化学习的时空充电调度方法,其特征在于:所述S2的传感器节点的能耗模型为:
Figure FDA0003442283290000041
其中fi,j,1≤j≤n,kbps是节点i传输到节点j的数据;在t时刻节点的剩余能量为:
Figure FDA0003442283290000042
传感器节点按照剩余能量分为两种状态,当剩余能量小于0时节点被标记死亡:
Figure FDA0003442283290000043
节点计算出当前剩余能量后,当
Figure FDA0003442283290000044
时,节点i向基站发送充电请求,需要补充的能量为:
Figure FDA0003442283290000045
其中λ,0<λ≤1,为充电参数,决定MC是为节点i进行完全或部分充电。
4.如权利要求1所述的基于深度强化学习的时空充电调度方法,其特征在于:所述S2的MC的剩余能量计算公式为:
Figure FDA0003442283290000046
Figure FDA0003442283290000047
上式中La,i为上一节点a到当前节点i的距离,Lm,B为MC当前位置到基站B的距离,当MC剩余能量小于下一待充电节点能量需求与自身行驶消耗能量之和时停止为节点补。
5.如权利要求1所述的基于深度强化学习的时空充电调度方法,其特征在于:所述S3中用于规划路径的Q-learning算法具体步骤为:
首先将无线可充电传感网区域转化为二维网格地图,其中基站、传感器节点、MC的位置均已知;将路径规划问题抽象为马尔科夫决策过程,由元组{Sp,Ap,Rp,S′p}定义,Sp是状态空间;Ap为动作空间;Rp为MC执行该动作后的奖励;S′p为执行后的环境状态;将目标位置奖励设置为最大正奖励,将障碍物和其他节点位置设置为最大负奖励,通过Q函数进行学习;求解最优路径就是求得一条到达终点获得最大奖励的策略,最优价值动作函数定义为:
Q*(s,a)=maxπQ*(s,a)
=∑s′P(s′|s,a)(R(s,a,s′)+γmaxa′Q*(s′,a′))
根据Q值进行学习,采用时间差分方法进行Q-table的更新,更新过程如下:
Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)-Q(s,a)]
通过Q-learning算法为MC规划出避开障碍物到达目标节点的路径,并自行避开障碍物移动到节点位置为其进行一对一无线充电。
CN202011506914.7A 2020-12-18 2020-12-18 一种基于深度强化学习的时空充电调度方法 Active CN112788560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011506914.7A CN112788560B (zh) 2020-12-18 2020-12-18 一种基于深度强化学习的时空充电调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011506914.7A CN112788560B (zh) 2020-12-18 2020-12-18 一种基于深度强化学习的时空充电调度方法

Publications (2)

Publication Number Publication Date
CN112788560A CN112788560A (zh) 2021-05-11
CN112788560B true CN112788560B (zh) 2022-02-08

Family

ID=75751246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011506914.7A Active CN112788560B (zh) 2020-12-18 2020-12-18 一种基于深度强化学习的时空充电调度方法

Country Status (1)

Country Link
CN (1) CN112788560B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837452B (zh) * 2021-09-07 2023-06-23 中国海洋大学 一种面向水下无线传感器网络的移动充电路径规划方法
CN113887138B (zh) * 2021-10-09 2024-08-06 昆明理工大学 一种基于图神经网络和强化学习的wrsn充电调度方法
CN114202168A (zh) * 2021-11-18 2022-03-18 中山大学 一种基于多智能体强化学习的协同充电方法
CN114676909B (zh) * 2022-03-25 2024-04-09 东南大学 基于深度强化学习的无人车充电路径规划方法
CN117689096B (zh) * 2024-01-25 2024-04-19 武汉科技大学 一种具有避障功能的移动充电调度方法
CN118709877A (zh) * 2024-08-29 2024-09-27 中国铁塔股份有限公司江西省分公司 基于深度强化学习的无人机铁塔巡检和充电调度方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107800542A (zh) * 2017-09-04 2018-03-13 昆明理工大学 一种基于虚拟力的无线传感器网络移动能量补充方法
CN108924895A (zh) * 2018-07-13 2018-11-30 国网四川省电力公司技能培训中心 一种无线传感器网络移动充电模型及路由优化方法
CN109982452A (zh) * 2019-03-18 2019-07-05 华南理工大学 一种基于拟阵的无线可充电传感器网络充电调度方法
CN110445718A (zh) * 2019-08-14 2019-11-12 昆明理工大学 一种充电路径与部分充电相结合的wsan能量补充方法
CN110730486A (zh) * 2019-09-09 2020-01-24 南京理工大学 基于Q-Learning算法获取无线体域网最优路径的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170230916A1 (en) * 2014-10-01 2017-08-10 Analog Devices, Inc. Wireless network power distribution and data aggregation system topology
KR101799355B1 (ko) * 2016-08-12 2017-11-21 중앙대학교 산학협력단 무선 센서 네트워크에서의 충전 효율을 고려한 클러스터 구성 방법 및 장치
CN107592604B (zh) * 2017-08-11 2020-09-08 杭州电子科技大学 基于离线模型的无线可充电传感器网络移动数据收集方法
CN108966330A (zh) * 2018-09-21 2018-12-07 西北大学 一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107800542A (zh) * 2017-09-04 2018-03-13 昆明理工大学 一种基于虚拟力的无线传感器网络移动能量补充方法
CN108924895A (zh) * 2018-07-13 2018-11-30 国网四川省电力公司技能培训中心 一种无线传感器网络移动充电模型及路由优化方法
CN109982452A (zh) * 2019-03-18 2019-07-05 华南理工大学 一种基于拟阵的无线可充电传感器网络充电调度方法
CN110445718A (zh) * 2019-08-14 2019-11-12 昆明理工大学 一种充电路径与部分充电相结合的wsan能量补充方法
CN110730486A (zh) * 2019-09-09 2020-01-24 南京理工大学 基于Q-Learning算法获取无线体域网最优路径的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Efficient Mobile Energy Replenishment Scheme Based on Hybrid Mode for Wireless Rechargeable Sensor Networks;Yong Feng等;《IEEE Sensors Journal》;20190711;全文 *
基于深度强化学习的无人机数据采集和路径规划研究;牟治宇等;《物联网学报》;20200819;摘要、第1-3节 *
无线可充电传感器网络中能量饥饿避免的移动充电;朱金奇等;《软件学报》;20170712;全文 *

Also Published As

Publication number Publication date
CN112788560A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112788560B (zh) 一种基于深度强化学习的时空充电调度方法
Lei et al. Deep reinforcement learning for autonomous internet of things: Model, applications and challenges
Zhao et al. Spatiotemporal charging scheduling in wireless rechargeable sensor networks
Yang et al. Dynamic charging scheme problem with actor–critic reinforcement learning
CN112738752A (zh) 一种基于强化学习的wrsn多移动充电器优化调度方法
CN113887138B (zh) 一种基于图神经网络和强化学习的wrsn充电调度方法
Wei et al. Multi-MC charging schedule algorithm with time windows in wireless rechargeable sensor networks
Chen et al. Learning aided joint sensor activation and mobile charging vehicle scheduling for energy-efficient WRSN-based industrial IoT
Yu et al. Charging strategy and scheduling algorithm for directional wireless power transfer in WRSNs
Xu et al. A wireless sensor network recharging strategy by balancing lifespan of sensor nodes
CN116702635A (zh) 基于深度强化学习的多智能体移动充电调度方法及装置
CN115314943B (zh) 无线传感器网络中基于深度强化学习的一对多能量补充方法
CN111787500B (zh) 一种基于能量优先的移动充电车辆多目标充电调度方法
Almagrabi Fair energy division scheme to permanentize the network operation for wireless rechargeable sensor networks
Jia et al. Energy saving in heterogeneous wireless rechargeable sensor networks
Zhao et al. UAV dispatch planning for a wireless rechargeable sensor network for bridge monitoring
CN117689096B (zh) 一种具有避障功能的移动充电调度方法
Shan et al. Multi-UAV WRSN charging path planning based on improved heed and IA-DRL
Lei et al. An energy urgency priority based mobile charging scheme in Wireless Rechargeable Sensor Network
Wei et al. A novel on-demand charging strategy based on swarm reinforcement learning in WRSNs
Zhao et al. Directional charging-based scheduling strategy for multiple mobile chargers in wireless rechargeable sensor networks
Zhao et al. Hybrid scheduling strategy of multiple mobile charging vehicles in wireless rechargeable sensor networks
Wang et al. Charging path optimization for wireless rechargeable sensor network
Yi et al. Energy balancing and path plan strategy for rechargeable underwater sensor network
CN112702688A (zh) 结合能量补充和数据收集的移动小车规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant