CN112738752A - 一种基于强化学习的wrsn多移动充电器优化调度方法 - Google Patents
一种基于强化学习的wrsn多移动充电器优化调度方法 Download PDFInfo
- Publication number
- CN112738752A CN112738752A CN202011572919.XA CN202011572919A CN112738752A CN 112738752 A CN112738752 A CN 112738752A CN 202011572919 A CN202011572919 A CN 202011572919A CN 112738752 A CN112738752 A CN 112738752A
- Authority
- CN
- China
- Prior art keywords
- node
- charging
- sensor
- mobile charger
- mobile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000002787 reinforcement Effects 0.000 title claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 30
- 238000005265 energy consumption Methods 0.000 claims description 19
- 230000034994 death Effects 0.000 claims description 14
- 231100000517 death Toxicity 0.000 claims description 14
- 230000004083 survival effect Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 239000013589 supplement Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 description 24
- 238000005457 optimization Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/38—Services specially adapted for particular environments, situations or purposes for collecting sensor information
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J7/00—Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries
- H02J7/0013—Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries acting upon several batteries simultaneously or sequentially
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/04—Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources
- H04W40/10—Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources based on available power or energy
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02B—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
- Y02B40/00—Technologies aiming at improving the efficiency of home appliances, e.g. induction cooking or efficient technologies for refrigerators, freezers or dish washers
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Power Engineering (AREA)
- Mobile Radio Communication Systems (AREA)
- Charge And Discharge Circuits For Batteries Or The Like (AREA)
Abstract
本发明公开一种基于强化学习的WRSN多移动充电器优化调度方法,属于物联网无线可充电传感器网络领域。本发明将神经网络和多智能体强化学习方法引入到无线可充电传感器网络多移动充电器场景下的充电路径规划中,主要利用多智能体强化学习来解决无线可充电传感器网络中多个移动充电器的高效协同和优化调度问题。在移动充电器和传感器能量受限的情况下,多个移动充电器通过相互协作,优化各充电器的充电路径,及时对电量较低的传感器节点进行充电。在保证传感器节点不因缺电死亡的前提下,使各个移动充电器总的移动路径达到最短,从整体上实现充电效率的优化。
Description
技术领域
本发明涉及一种基于强化学习的WRSN多移动充电器优化调度方法,属于无线可充电传感器网络领域。
背景技术
无线传感器网络(WSN)由许多能量有限的传感器组成,传感器可以感知周围环境中的温度、湿度与污染物含量等,被广泛应用于空气质量监测、森林火灾防控等领域。但是无线传感器网络的性能尤其受到电池容量的限制。为了尽可能延长网络的寿命,使用配备有充电设备的移动车辆(称为移动充电器MC)为传感器充电成为解决这一问题的有效方案。
近年来无线能量传输技术的突破性进展为解决无线传感器网络中的能量约束问题提供了一个新的机会,基于无线能量传输技术,无线可充电传感器网络(WRSNs)已经出现。目前为止,已经提出了多种无线可充电传感器网络的移动充电方案。现有的充电方法主要分为两大类,分别为离线充电方案和在线充电方案。在离线充电方案中,移动充电器沿着预定路径以周期性方式向节点充电,但是此类方法往往无法适应传感器能耗的动态变化而导致大量节点失效。在在线充电方案中,移动充电器能够及时响应传感器发送的充电请求,并根据传感器节点的剩余能量情况做出实时充电决策,但是此类方法并没有从整体上考虑充电路径的优化,缺乏全局最优性而导致节点失效以及移动充电器做出许多不必要的移动。
无线充电技术的突破性进展为无线可充电传感器网络的传感器能量受限问题提供了一个解决方案;当无线可充电传感器网络的规模较大时,单个移动充电器无法满足网络中节点的充电需求,使用多个移动充电器成为自然的选择;但是现有的基于传统优化方法的多移动充电器调度存在着问题建模、求解和实现的困难,往往难以得到优化的充电调度方案,导致其充电效率较低不适合支持大规模的无线可充电传感器网络。
发明内容
为了解决背景技术中存在的问题,本发明的目的在于提供一种基于MADDPG深度强化学习框架的WRSN(可充电传感器网络)多充电器充电调度算法;主要利用多智能体强化学习来解决无线可充电传感器网络中的多个移动充电设备调度问题,在移动充电器和传感器能量受限的情况下,多个移动充电器通过协作及时对电量较低的传感器节点进行充电,目标是保证无线传感器网络的持续运行;在最小化节点死亡数的同时使各个移动充电器的移动路径达到最短,节省充电成本,这类组合优化问题可以表述为强化学习中的奖励值最大化问题。
本发明采用的技术方案是:一种基于强化学习的无线可充电传感器网络多充电器调度方法,具体步骤如下:
Step1:建立一个无线传感器网络模型:在一个确定的区域Ω内随机部署N个传感器节点,传感器节点的位置均为确定且已知的;这N个传感器节点标记为O={o1,o2,...,on},传感器节点的电池电量为b,能耗率为Pw J/s;传感器节点的能量主要用于传输数据,当节点发送或接收k bits的消息时,传感器节点的能耗如下:
其中Pelec表示发送或接收每个比特的能量消耗;dij表示发送节点与接收节点之间的距离;μ表示信号放大器的能量消耗。
等待调度的M个移动充电器分别标记为C={c1,c2,...,cm},充电器可以在区域内自由移动,对传感器节点进行一对一充电,移动充电器的电池电量为
B,移动速度为v m/s,移动能耗率为Pm J/s,为传感器充电的效率为Pc J/s。
基站处于区域的正中心,负责收集各传感器传输的数据,对数据进行处理,同时为移动充电器进行能量补充,基站为移动充电器的充电效率为Ps J/s。
为传感器节点设置发送充电请求的阈值,传感器会在自身电量低于此阈值时向基站发送充电请求,同时发送自身剩余电量rei以及节点位置坐标Ci信息。
Step2:基站将收集到的充电请求进行处理,根据节点的剩余电量与节点坐标位置计算该请求节点的剩余生存时间,再将充电请求放入充电服务池,并由此确定候选的充电节点,服务池定时更新。
候选充电节点的选择:
传感器节点在自身电量低于设定的阈值时会向基站持续发送充电请求,基站在收到传感器的充电请求后会计算每个请求节点的剩余生存时间,根据节点的剩余生存时间依次放入充电服务池,由此构建充电队列;传感器节点的剩余生存时间可以表示为:
rei表示节点i在t时刻的剩余能量,Pwi为节点i的能量消耗率,ts(i)为节点i发送充电请求的时间戳;为了避免传感器节点死亡,需要在节点剩余生存时间内对传感器节点进行能量补充;如果有任一个传感器的剩余生存时间小于或等于零,则被记录为一次死亡。
Step3:检测网络中空闲状态的移动充电器:
移动充电器有两种状态:空闲状态与忙碌状态,空闲状态时可以即时响应基站的调度指令,忙碌状态指正在为传感器进行充电或自身电量较低需要回到基站进行能量补充,此时移动充电器无法响应基站的调度指令;
计算移动充电器的剩余电量是否能够能完成下一个传感器节点的充电操作;对于每个移动充电器,在为一个节点进行充电后,移动充电器的剩余能量可表示为:
C(i)与C(i+1)表示当前充电传感器节点与下一个充电传感器节点的二维坐标,τi表示移动充电器对节点i的充电时间;移动充电器需要保证在完成下一个传感器节点充电任务后自身的剩余能量足够让自己回到基站处;于是有:
Step4:多充电器充电路径规划。
Step4.1:在无线可充电传感器网络模型中加入强化学习框架;强化学习是机器学习领域的一个分支,在解决组合优化问题上展现出巨大的潜力。在强化学习中,Agent(智能体)通过与环境的不断交互,以获得最大的累积回报;强化学习框架设定如下:
Agent(智能体):主体,与环境交互的对象,动作的执行者;即无线可充电传感器网络模型中的移动充电器;Action(动作):动作是智能体与环境相互作用的行为;在无线可充电传感器网络模型中,动作代表移动充电器去向哪一个节点进行充电;State(状态):环境状态的集合;在无线可充电传感器网络模型中,状态由两部分组成,移动充电器的剩余能量信息和网络中所有传感器节点的状态;状态集可表示为:S={li,Edemand(oi),Eresidual(cj)},i,j=1,2,...,n。
为节点i的二维坐标,Edemand(oi)为节点i需要补充的电量,Eresidual(cj)为移动充电器j的剩余电量;Reward(奖励):奖励是指智能体在执行一项行动后获得的回报;有了反馈,训练过程才能迭代,才会学习到策略链。
目标是为每个移动充电器在无线传感器网络中找到一条最优的收费路径,从而使充电获得的总奖励最大化;最大化总充电奖励意味着最小化移动充电器的移动距离与传感器节点的死亡数;因此,对传感器节点进行高效率充电的问题就转化为对收到的充电奖励值进行最大化的问题。
为了减少节点死亡率,优化充电路径提高充电效率,将对单个MC的奖励函数定义如下:
(Mi,x,Mi,y)为第i个MC的坐标位置,(Li,x,Lj,x)为该MC要前往的传感器的节点坐标位置。
设定节点死亡奖励函数Rd=(-γ)·Nd
Nd为死亡节点的数量。当传感器节点的剩余生存时间为0时,节点会被记录一次死亡,节点死亡时会返回一个惩罚给所有MC。
对于第i个MC,从上一个节点充电结束到完成下一个节点充电,可获得的奖励为:
Nc为MC碰撞次数。
移动充电器的每一步动作都会被评价并返回给移动充电器一个奖励,让环境过渡到一个新的状态。
Step4.2:系统学习与训练过程。
在MADDPG算法采用了集中训练、分散执行的框架实现寻找最优联合策略的目标;具体过程如下:每个智能体根据自身策略得到当前状态执行的动作:在与环境交互后获得经验存入自身的经验缓存池,其中表示所有智能体自身观测值的集合;待所有智能体与环境交互后,每个智能体从经验池中随机抽取经验训练各自的神经网络;每个智能体的Critic网络输入是相同的,均包括了其他智能体的观测值、采取的动作、以及奖励;即Critic网络Q=Q(sj,a1,a2,...,aj,θQ),策略损失的计算公式为:
然后,通过梯度下降法计算更新动作网络的参数,梯度计算公式为:
移动充电器持续进行下一步的动作探索,然后获得相应的奖励值,并根据奖励值不断优化自己的下一步动作;学习后的移动充电器会尽可能地获取更高的奖励,即总奖励最大化,构建最佳的充电调度方案。
本发明的有益效果是:
为了提升具有动态能耗的无线传感器网络的性能,提出了一种基于MADDPG深度强化学习的充电路径规划算法;经过学习与训练后的移动充电器会根据传感器节点的实时能量变化选择合理的候选充电节点,规划出最有效的多充电器充电方案;该方法可以适应能量消耗动态变化的网络环境,同时最小化死亡节点数和移动充电器的移动能量消耗;可以解决现有的充电方案的局部最优问题,使充电效用最大化。
附图说明
图1为无线可充电传感器模型图;
图2为传统充电调度方案;
图3为考虑节点剩余生存时间的充电调度方案;
图4为MADDPG算法训练过程图;
图5为本发明的原理图。
具体实施方式
为了更详细的描述本发明和便于本领域人员的理解,下面结合附图以及实施例对本发明做进一步的描述,本部分的实施例用于解释说明本发明,便于理解的目的,不以此来限制本发明。
实施例1
一种基于强化学习的WRSN多移动充电器优化调度方法,包括如下步骤:
Step1:建立一个无线传感器网络模型,如图1所示:在一个确定的区域Ω内随机部署N个传感器节点,传感器节点的位置均为确定且已知的;这N个传感器节点标记为O={o1,o2,...,on},传感器节点的电池电量为b,能耗率为Pw J/s;传感器节点的能量主要用于传输数据,当节点发送或接收k bits的消息时,传感器节点的能耗如下:
其中Pelec表示发送或接收每个比特的能量消耗;dij表示发送节点与接收节点之间的距离;μ表示信号放大器的能量消耗。
等待调度的M个移动充电器分别标记为C={c1,c2,...,cm},充电器可以在区域内自由移动,对传感器节点进行一对一充电,移动充电器的电池电量为
,移动速度为v m/s,移动能耗率为Pm J/s,为传感器充电的效率为Pc J/s。
基站处于区域的正中心,负责收集各传感器传输的数据,对数据进行处理,同时为移动充电器进行能量补充,基站为移动充电器的充电效率为PsJ/s。
Step2:充电候选节点选择:
为传感器节点设置发送充电请求的阈值,传感器会在自身电量低于此阈值时向基站发送充电请求,同时发送自身剩余电量rei以及节点位置坐标L(i)信息。由于我们的目标是最小化死亡节点数,基站将收集到的充电请求进行处理,根据节点的剩余电量与节点坐标位置计算该请求节点的剩余生存时间,根据节点的剩余生存时间依次放入充电服务池,剩余生存时间少的节点优先放入,由此构建充电队列,确定候选的充电节点;为了避免传感器节点死亡,需要在节点剩余生存时间内对传感器节点进行能量补充;如果有任一个传感器的剩余生存时间小于或等于零,则被记录为一次死亡。
如图2所示,传统的充电方案不考虑节点的剩余电量,易导致传感器节点因为电量耗尽而失效;本发明引入节点的剩余生存时间,移动充电器优先对剩余生存时间较少的节点进行充电,从而降低节点死亡率。
本实施例所述传感器节点的剩余生存时间可以表示为:
rei表示节点i在t时刻的剩余能量,Pwi为节点i的能量消耗率,ts(i)为节点i发送充电请求的时间戳;为了避免传感器节点死亡,MC需要在节点剩余生存时间内对传感器节点进行能量补充;如果有任一个传感器的剩余生存时间小于或等于零,则被记录为一次死亡。
Step3:检测网络中空闲状态的移动充电器,向空闲状态的移动充电器发送充电队列;移动充电器有两种状态:空闲状态与忙碌状态;空闲状态时可以即时响应基站的调度指令,忙碌状态指正在为传感器进行充电或自身电量较低需要回到基站进行能量补充,此时移动充电器无法响应基站的调度指令。
移动充电器是否为空闲状态的检测步骤如下:
计算移动充电器的剩余电量是否能够能完成下一个传感器节点的充电操作;对于每个移动充电器,在为一个节点进行充电后,移动充电器的剩余能量可表示为:
L(i)与L(i+1)表示当前充电传感器节点与下一个充电传感器节点的二维坐标,τi表示移动充电器对节点i的充电时间;移动充电器需要保证在完成下一个传感器节点充电任务后自身的剩余能量足够让自己回到基站处;于是有:
Step4:多充电器充电路径规划。
Step4.1:在无线可充电传感器网络模型中加入强化学习框架;强化学习机器学习领域的一个分支,在解决组合优化问题上展现出巨大的潜力;在强化学习中Agent(智能体)通过与环境的不断交互,以获得最大的累积回报;强化学习框架设定如下:
Agent(智能体):主体,与环境交互的对象,动作的执行者;即无线可充电传感器网络模型中的移动充电器;Action(动作):动作是智能体与环境相互作用的行为;在无线可充电传感器网络模型中,动作代表移动充电器去向哪一个节点进行充电;State(状态):环境状态的集合;在无线可充电传感器网络模型中,状态由两部分组成,移动充电器的剩余能量信息和网络中所有传感器节点的状态。状态集可表示为:S=li,Edemand(oi),Eresidual(cj)},i,j=1,2,...,n。
为节点i的二维坐标,Edemand(oi)为节点i需要补充的电量,Eresidual(cj)为移动充电器j的剩余电量;Reward(奖励):奖励是指智能体在执行一项行动后获得的回报。有了反馈,训练过程才能迭代,才会学习到策略链。
本发明的目标是为移动充电器在无线传感器网络中找到一条最优的收费路径,从而使充电获得的总奖励最大化;最大化总充电奖励意味着最小化移动充电器的移动距离与传感器节点的死亡数;因此,对传感器节点进行高效率充电的问题就转化为对收到的充电奖励值进行最大化的问题。
为了减少节点死亡率,优化充电路径提高充电效率,将对单个MC的奖励函数定义如下:
(Mi,x,Mi,y)为第i个MC的坐标位置,(Li,x,Lj,x)为该MC要前往的传感器的节点坐标位置。
设定节点死亡奖励函数Rd=(-γ)·Nd
Nd为死亡节点的数量;当传感器节点的剩余生存时间为0时,节点会被记录一次死亡,节点死亡时会返回一个惩罚给所有MC。
对于第i个MC,从上一个节点充电结束到完成下一个节点充电,可获得的奖励为:
Nc为MC碰撞次数。
移动充电器的每一步动作都会被评价并返回给移动充电器一个奖励,并让环境过渡到一个新的状态。
Step4.2:系统学习与训练过程。
如图4所示,在MADDPG算法采用了集中训练、分散执行的框架实现寻找最优联合策略的目标;具体过程如下:每个智能体根据自身策略得到当前状态执行的动作:在与环境交互后获得经验存入自身的经验缓存池,其中表示所有智能体自身观测值的集合。待所有智能体与环境交互后,每个智能体从经验池中随机抽取经验训练各自的神经网络;每个智能体的Critic网络输入是相同的,均包括了其他智能体的观测值、采取的动作、以及奖励;即Critic网络Q=Q(sj,a1,a2,...,aj,θQ),策略损失的计算公式为:
然后,通过梯度下降法计算更新动作网络的参数,梯度计算公式为:
移动充电器持续进行下一步的动作探索,然后获得相应的奖励值,并根据奖励值不断优化自己的下一步动作;一种基于强化学习的WRSN多移动充电器优化调度方法学习后的移动充电器会尽可能地获取更高的奖励,即总奖励最大化,构建最佳的充电调度方案。
以上所述仅是本发明的具体思路,以便于该领域研究人员理解,但本发明的实施方式并不只限于上述所述,本领域相关技术人员均可基于本发明做出改进或变形,一切利用本发明构想的改进或变形视为本发明的保护范围。
Claims (4)
1.一种基于强化学习的WRSN多移动充电器优化调度方法,其特征在于,包括如下步骤:
Step1:建立无线传感器网络模型:在一个确定的区域Ω内随机部署N个传感器节点,传感器节点的位置均为确定且已知的;这N个传感器节点标记为O={o1,o2,...,on},传感器节点的电池电量为b,能耗率为PwJ/s;传感器节点的能量主要用于传输数据,当节点发送或接收kbits的消息时,传感器节点的能耗如下:
其中Pelec表示发送或接收每个比特的能量消耗;dij表示发送节点与接收节点之间的距离;μ表示信号放大器的能量消耗;
等待调度的M个移动充电器分别标记为C={c1,c2,...,cm},充电器可以在区域内自由移动,对传感器节点进行一对一充电,移动充电器的电池电量为B,移动速度为vm/s,移动能耗率为PmJ/s,传感器充电的效率为PcJ/s;
基站处于区域的正中心,负责收集各传感器传输的数据,对数据进行处理,同时为移动充电器进行能量补充,基站为移动充电器充电的效率为PsJ/s;
Step2:为传感器节点设置发送充电请求的阈值,传感器会在自身电量低于此阈值时向基站发送充电请求,同时发送自身剩余电量rei以及节点位置坐标li信息;基站将收集到的充电请求进行处理,根据节点的剩余电量与节点坐标位置计算该请求节点的剩余生存时间,根据节点的剩余生存时间依次放入充电服务池,由此构建充电队列,充电队列确定后,各个MC会选择最优的候选的充电节点;为了避免传感器节点由于电量耗尽而死亡,MC需要在传感器节点的剩余生存时间内对传感器节点进行能量补充;如果有任一个传感器的剩余生存时间小于或等于零,则被记录为一次死亡;
Step3:基站检测网络中空闲状态的移动充电器,随后向空闲状态的移动充电器发送充电服务队列;移动充电器有两种状态:空闲状态与忙碌状态,空闲状态时可以即时响应基站的调度指令,忙碌状态指正在为传感器进行充电或自身电量较低需要回到基站进行能量补充,此时移动充电器无法响应基站的调度指令;
Step4:多充电器充电路径规划:
①在无线可充电传感器网络模型中加入强化学习框架,为每个移动充电器在无线传感器网络中找到一条最优的充电路径,从而使充电获得的总奖励最大化;
②系统学习与训练:采用了集中训练、分散执行的框架实现寻找最优联合策略的目标;
为减少节点死亡率,优化充电路径提高充电效率,将对单个MC的奖励函数定义如下:
(Mi,x,Mi,y)为第i个MC的坐标位置,(Li,x,Lj,x)为该MC要前往的传感器的节点坐标位置;
设定节点死亡奖励函数Rd=(-γ)·Nd
Nd为死亡节点的数量;当传感器节点的剩余生存时间为0时,节点会被记录一次死亡,节点死亡时会返回一个惩罚给所有MC;
对于第i个MC,从上一个节点充电结束到完成下一个节点充电,可获得的奖励为:
Nc为MC碰撞次数;
移动充电器的每一步动作都会被评价并返回给移动充电器一个奖励,让环境过渡到一个新的状态,移动充电器持续进行下一步的动作探索,然后获得相应的奖励值,并根据奖励值不断优化自己的下一步动作,学习后的移动充电器会尽可能地获取更高的奖励,即总奖励最大化,构建最佳的充电调度方案。
3.根据权利要求1所述基于强化学习的WRSN多移动充电器优化调度方法,其特征在于:步骤step3中移动充电器是否为空闲状态的检测步骤如下:
计算移动充电器的剩余电量是否能够能完成下一个传感器节点的充电操作。对于每个移动充电器,在为一个节点进行充电后,移动充电器的剩余能量表示为:
l(i)与l(i+1)表示当前充电传感器节点与下一个充电传感器节点的二维坐标,τi表示移动充电器对节点i的充电时间;移动充电器需要保证在完成下一个传感器节点充电任务后自身的剩余能量足够让自己回到基站处;于是有:
4.根据权利要求1所述基于强化学习的WRSN多移动充电器优化调度方法,其特征在于:系统学习与训练的具体过程为:
每个智能体根据自身策略得到当前状态执行的动作:在与环境交互后获得经验存入自身的经验缓存池,其中表示所有智能体自身观测值的集合;待所有智能体与环境交互后,每个智能体从经验池中随机抽取经验训练各自的神经网络;每个智能体的Critic网络输入是相同的,均包括了所有智能体的观测值、采取的动作、以及奖励,即Critic网络Q=Q(sj,a1,a2,...,aj,θQ),策略损失的计算公式为:
然后,通过梯度下降法计算更新动作网络的参数,梯度计算公式为:
移动充电器持续进行下一步的动作探索,然后获得相应的奖励值,并根据奖励值不断优化自己的下一步动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011572919.XA CN112738752B (zh) | 2020-12-24 | 2020-12-24 | 一种基于强化学习的wrsn多移动充电器优化调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011572919.XA CN112738752B (zh) | 2020-12-24 | 2020-12-24 | 一种基于强化学习的wrsn多移动充电器优化调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112738752A true CN112738752A (zh) | 2021-04-30 |
CN112738752B CN112738752B (zh) | 2023-04-28 |
Family
ID=75616977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011572919.XA Active CN112738752B (zh) | 2020-12-24 | 2020-12-24 | 一种基于强化学习的wrsn多移动充电器优化调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112738752B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113630737A (zh) * | 2021-08-04 | 2021-11-09 | 西安电子科技大学 | 一种无线可充电传感器网络中移动充电器的部署方法 |
CN113891238A (zh) * | 2021-09-29 | 2022-01-04 | 昆明理工大学 | 一种基于drl的wsn中单对多移动能量补充方法 |
CN114202168A (zh) * | 2021-11-18 | 2022-03-18 | 中山大学 | 一种基于多智能体强化学习的协同充电方法 |
CN114827931A (zh) * | 2022-04-12 | 2022-07-29 | 电子科技大学 | 基于多智能体增强学习的wsn能量效率优化路由方法 |
CN115278704A (zh) * | 2022-07-31 | 2022-11-01 | 昆明理工大学 | 基于drl的无线传感器网络中单对多充电驻点规划方法 |
CN115759505A (zh) * | 2023-01-10 | 2023-03-07 | 南京邮电大学 | 一种面向任务的多移动充电车调度方法 |
CN116702635A (zh) * | 2023-08-09 | 2023-09-05 | 北京科技大学 | 基于深度强化学习的多智能体移动充电调度方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110061538A (zh) * | 2019-03-22 | 2019-07-26 | 中山大学 | 一种wsn节点智能分簇及移动充电设备路径规划方法 |
CN110300418A (zh) * | 2019-06-05 | 2019-10-01 | 云南电网有限责任公司丽江供电局 | 一种无线可充电传感器网络中按需充电的时空调度算法 |
US20190385042A1 (en) * | 2019-07-26 | 2019-12-19 | Lg Electronics Inc. | Method, apparatus and system for recommending location of robot charging station |
-
2020
- 2020-12-24 CN CN202011572919.XA patent/CN112738752B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110061538A (zh) * | 2019-03-22 | 2019-07-26 | 中山大学 | 一种wsn节点智能分簇及移动充电设备路径规划方法 |
CN110300418A (zh) * | 2019-06-05 | 2019-10-01 | 云南电网有限责任公司丽江供电局 | 一种无线可充电传感器网络中按需充电的时空调度算法 |
US20190385042A1 (en) * | 2019-07-26 | 2019-12-19 | Lg Electronics Inc. | Method, apparatus and system for recommending location of robot charging station |
Non-Patent Citations (3)
Title |
---|
XIAOLU ZHANG: "Maximum_Throughput_Under_Admission_Control_With_Unknown_Queue-Length_in_Wireless_Sensor_Networks", 《IEEE SENSORS JOURNAL》 * |
YONGFENG: "Efficient_Mobile_Energy_Replenishment_Scheme_Based_on_Hybrid_Mode_for_Wireless_Rechargeable_Sensor_Networks", 《IEEE SENSORS JOURNAL》 * |
张昊: "基于强化学习的无线可充电传感网移动充电路径优化", 《计算机科学》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113630737A (zh) * | 2021-08-04 | 2021-11-09 | 西安电子科技大学 | 一种无线可充电传感器网络中移动充电器的部署方法 |
CN113891238A (zh) * | 2021-09-29 | 2022-01-04 | 昆明理工大学 | 一种基于drl的wsn中单对多移动能量补充方法 |
CN113891238B (zh) * | 2021-09-29 | 2022-10-14 | 昆明理工大学 | 一种基于drl的wsn中单对多移动能量补充方法 |
CN114202168A (zh) * | 2021-11-18 | 2022-03-18 | 中山大学 | 一种基于多智能体强化学习的协同充电方法 |
CN114827931A (zh) * | 2022-04-12 | 2022-07-29 | 电子科技大学 | 基于多智能体增强学习的wsn能量效率优化路由方法 |
CN114827931B (zh) * | 2022-04-12 | 2023-03-10 | 电子科技大学 | 基于多智能体增强学习的wsn能量效率优化路由方法 |
CN115278704A (zh) * | 2022-07-31 | 2022-11-01 | 昆明理工大学 | 基于drl的无线传感器网络中单对多充电驻点规划方法 |
CN115278704B (zh) * | 2022-07-31 | 2024-01-12 | 昆明理工大学 | 基于drl的无线传感器网络中单对多充电驻点规划方法 |
CN115759505A (zh) * | 2023-01-10 | 2023-03-07 | 南京邮电大学 | 一种面向任务的多移动充电车调度方法 |
CN115759505B (zh) * | 2023-01-10 | 2023-07-11 | 南京邮电大学 | 一种面向任务的多移动充电车调度方法 |
CN116702635A (zh) * | 2023-08-09 | 2023-09-05 | 北京科技大学 | 基于深度强化学习的多智能体移动充电调度方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112738752B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112738752B (zh) | 一种基于强化学习的wrsn多移动充电器优化调度方法 | |
Liu et al. | Distributed and energy-efficient mobile crowdsensing with charging stations by deep reinforcement learning | |
CN107657374B (zh) | 一种基于能耗和距离动态变化的按需充电调度方法 | |
CN109495945B (zh) | 一种WSNs中基于聚类分簇的协同充电方法 | |
Zhao et al. | Spatiotemporal charging scheduling in wireless rechargeable sensor networks | |
CN108448731B (zh) | 一种协作式无线传感网能量补充方法及其无线传感网 | |
CN112788560B (zh) | 一种基于深度强化学习的时空充电调度方法 | |
CN113887138A (zh) | 一种基于图神经网络和强化学习的wrsn充电调度方法 | |
CN116702635A (zh) | 基于深度强化学习的多智能体移动充电调度方法及装置 | |
CN111787500B (zh) | 一种基于能量优先的移动充电车辆多目标充电调度方法 | |
Xu et al. | Research on computing offloading strategy based on Genetic Ant Colony fusion algorithm | |
CN107708086A (zh) | 一种无线传感器和执行器网络的移动能量补充方法 | |
Fu et al. | Research on online scheduling and charging strategy of robots based on shortest path algorithm | |
Zhao et al. | Dronesense: Leveraging drones for sustainable urban-scale sensing of open parking spaces | |
Han et al. | Dynamic collaborative charging algorithm for mobile and static nodes in Industrial Internet of Things | |
Zhao et al. | Hybrid scheduling strategy of multiple mobile charging vehicles in wireless rechargeable sensor networks | |
CN112702688A (zh) | 结合能量补充和数据收集的移动小车规划方法 | |
Singh et al. | An efficient approach for wireless rechargeable sensor networks for vehicle charging | |
Wei et al. | A novel on-demand charging strategy based on swarm reinforcement learning in WRSNs | |
Zhao et al. | Directional charging-based scheduling strategy for multiple mobile chargers in wireless rechargeable sensor networks | |
CN115334165A (zh) | 一种基于深度强化学习的水下多无人平台调度方法及系统 | |
CN115190560A (zh) | 基于簇的自适应充电路径优化方法 | |
CN113038569B (zh) | 基于pfcm的无线传感网节点充电方法及系统 | |
Niu et al. | A novel hierarchical charging algorithm for the AGV dispatching problem in a multi-robot system | |
Shan et al. | UAV-assisted WRSN Online Charging Strategy Based on Dynamic Queue and Improved K-means |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |