CN112738752A

CN112738752A - 一种基于强化学习的wrsn多移动充电器优化调度方法

Info

Publication number: CN112738752A
Application number: CN202011572919.XA
Authority: CN
Inventors: 冯勇; 唐拓; 李英娜; 付晓东
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-30
Anticipated expiration: 2040-12-24
Also published as: CN112738752B

Abstract

本发明公开一种基于强化学习的WRSN多移动充电器优化调度方法，属于物联网无线可充电传感器网络领域。本发明将神经网络和多智能体强化学习方法引入到无线可充电传感器网络多移动充电器场景下的充电路径规划中，主要利用多智能体强化学习来解决无线可充电传感器网络中多个移动充电器的高效协同和优化调度问题。在移动充电器和传感器能量受限的情况下，多个移动充电器通过相互协作，优化各充电器的充电路径，及时对电量较低的传感器节点进行充电。在保证传感器节点不因缺电死亡的前提下，使各个移动充电器总的移动路径达到最短，从整体上实现充电效率的优化。

Description

一种基于强化学习的WRSN多移动充电器优化调度方法

技术领域

本发明涉及一种基于强化学习的WRSN多移动充电器优化调度方法，属于无线可充电传感器网络领域。

背景技术

无线传感器网络(WSN)由许多能量有限的传感器组成，传感器可以感知周围环境中的温度、湿度与污染物含量等，被广泛应用于空气质量监测、森林火灾防控等领域。但是无线传感器网络的性能尤其受到电池容量的限制。为了尽可能延长网络的寿命，使用配备有充电设备的移动车辆(称为移动充电器MC)为传感器充电成为解决这一问题的有效方案。

近年来无线能量传输技术的突破性进展为解决无线传感器网络中的能量约束问题提供了一个新的机会，基于无线能量传输技术，无线可充电传感器网络(WRSNs)已经出现。目前为止，已经提出了多种无线可充电传感器网络的移动充电方案。现有的充电方法主要分为两大类，分别为离线充电方案和在线充电方案。在离线充电方案中，移动充电器沿着预定路径以周期性方式向节点充电，但是此类方法往往无法适应传感器能耗的动态变化而导致大量节点失效。在在线充电方案中，移动充电器能够及时响应传感器发送的充电请求，并根据传感器节点的剩余能量情况做出实时充电决策，但是此类方法并没有从整体上考虑充电路径的优化，缺乏全局最优性而导致节点失效以及移动充电器做出许多不必要的移动。

无线充电技术的突破性进展为无线可充电传感器网络的传感器能量受限问题提供了一个解决方案；当无线可充电传感器网络的规模较大时，单个移动充电器无法满足网络中节点的充电需求，使用多个移动充电器成为自然的选择；但是现有的基于传统优化方法的多移动充电器调度存在着问题建模、求解和实现的困难，往往难以得到优化的充电调度方案，导致其充电效率较低不适合支持大规模的无线可充电传感器网络。

发明内容

为了解决背景技术中存在的问题，本发明的目的在于提供一种基于MADDPG深度强化学习框架的WRSN(可充电传感器网络)多充电器充电调度算法；主要利用多智能体强化学习来解决无线可充电传感器网络中的多个移动充电设备调度问题，在移动充电器和传感器能量受限的情况下，多个移动充电器通过协作及时对电量较低的传感器节点进行充电，目标是保证无线传感器网络的持续运行；在最小化节点死亡数的同时使各个移动充电器的移动路径达到最短，节省充电成本，这类组合优化问题可以表述为强化学习中的奖励值最大化问题。

本发明采用的技术方案是：一种基于强化学习的无线可充电传感器网络多充电器调度方法，具体步骤如下：

Step1：建立一个无线传感器网络模型：在一个确定的区域Ω内随机部署N个传感器节点，传感器节点的位置均为确定且已知的；这N个传感器节点标记为O＝{o₁，o₂，...，o_n}，传感器节点的电池电量为b，能耗率为P_w J/s；传感器节点的能量主要用于传输数据，当节点发送或接收k bits的消息时，传感器节点的能耗如下：

其中P_elec表示发送或接收每个比特的能量消耗；d_ij表示发送节点与接收节点之间的距离；μ表示信号放大器的能量消耗。

等待调度的M个移动充电器分别标记为C＝{c₁，c₂，...，c_m},充电器可以在区域内自由移动，对传感器节点进行一对一充电，移动充电器的电池电量为

B，移动速度为v m/s，移动能耗率为P_m J/s,为传感器充电的效率为P_c J/s。

基站处于区域的正中心，负责收集各传感器传输的数据，对数据进行处理，同时为移动充电器进行能量补充，基站为移动充电器的充电效率为P_s J/s。

为传感器节点设置发送充电请求的阈值，传感器会在自身电量低于此阈值时向基站发送充电请求，同时发送自身剩余电量re_i以及节点位置坐标C_i信息。

Step2：基站将收集到的充电请求进行处理，根据节点的剩余电量与节点坐标位置计算该请求节点的剩余生存时间,再将充电请求放入充电服务池，并由此确定候选的充电节点，服务池定时更新。

候选充电节点的选择：

传感器节点在自身电量低于设定的阈值时会向基站持续发送充电请求，基站在收到传感器的充电请求后会计算每个请求节点的剩余生存时间，根据节点的剩余生存时间依次放入充电服务池，由此构建充电队列；传感器节点的剩余生存时间可以表示为：

re_i表示节点i在t时刻的剩余能量，P_wi为节点i的能量消耗率,t_s(i)为节点i发送充电请求的时间戳；为了避免传感器节点死亡，需要在节点剩余生存时间内对传感器节点进行能量补充；如果有任一个传感器的剩余生存时间小于或等于零，则被记录为一次死亡。

Step3：检测网络中空闲状态的移动充电器：

移动充电器有两种状态：空闲状态与忙碌状态，空闲状态时可以即时响应基站的调度指令，忙碌状态指正在为传感器进行充电或自身电量较低需要回到基站进行能量补充，此时移动充电器无法响应基站的调度指令；

计算移动充电器的剩余电量是否能够能完成下一个传感器节点的充电操作；对于每个移动充电器，在为一个节点进行充电后，移动充电器的剩余能量可表示为：

C(i)与C(i+1)表示当前充电传感器节点与下一个充电传感器节点的二维坐标，τ_i表示移动充电器对节点i的充电时间；移动充电器需要保证在完成下一个传感器节点充电任务后自身的剩余能量足够让自己回到基站处；于是有：

为移动充电器j到基站的距离，

为移动充电器j到传感器节点i的距离；在上式满足时，移动充电器可以响应基站的充电调度指令。

Step4：多充电器充电路径规划。

Step4.1：在无线可充电传感器网络模型中加入强化学习框架；强化学习是机器学习领域的一个分支，在解决组合优化问题上展现出巨大的潜力。在强化学习中，Agent(智能体)通过与环境的不断交互，以获得最大的累积回报；强化学习框架设定如下：

Agent(智能体)：主体，与环境交互的对象，动作的执行者；即无线可充电传感器网络模型中的移动充电器；Action(动作)：动作是智能体与环境相互作用的行为；在无线可充电传感器网络模型中，动作代表移动充电器去向哪一个节点进行充电；State(状态)：环境状态的集合；在无线可充电传感器网络模型中，状态由两部分组成，移动充电器的剩余能量信息和网络中所有传感器节点的状态；状态集可表示为：S＝{l_i，E_demand(o_i)，E_residual(c_j)}，i，j＝1，2，...，n。

为节点i的二维坐标，E_demand(o_i)为节点i需要补充的电量，E_residual(c_j)为移动充电器j的剩余电量；Reward(奖励)：奖励是指智能体在执行一项行动后获得的回报；有了反馈，训练过程才能迭代，才会学习到策略链。

目标是为每个移动充电器在无线传感器网络中找到一条最优的收费路径，从而使充电获得的总奖励最大化；最大化总充电奖励意味着最小化移动充电器的移动距离与传感器节点的死亡数；因此，对传感器节点进行高效率充电的问题就转化为对收到的充电奖励值进行最大化的问题。

为了减少节点死亡率，优化充电路径提高充电效率，将对单个MC的奖励函数定义如下：

设定碰撞奖励函数

式中

为第i个MC与第j个MC之间的距离。

设定距离奖励函数

(M_i,x,M_i,y)为第i个MC的坐标位置，(L_i,x,L_j,x)为该MC要前往的传感器的节点坐标位置。

设定节点死亡奖励函数R_d＝(-γ)·N_d

N_d为死亡节点的数量。当传感器节点的剩余生存时间为0时，节点会被记录一次死亡，节点死亡时会返回一个惩罚给所有MC。

对于第i个MC，从上一个节点充电结束到完成下一个节点充电，可获得的奖励为：

N_c为MC碰撞次数。

移动充电器的每一步动作都会被评价并返回给移动充电器一个奖励，让环境过渡到一个新的状态。

Step4.2：系统学习与训练过程。

在MADDPG算法采用了集中训练、分散执行的框架实现寻找最优联合策略的目标；具体过程如下：每个智能体根据自身策略得到当前状态执行的动作：

在与环境交互后获得经验

存入自身的经验缓存池，其中

表示所有智能体自身观测值的集合；待所有智能体与环境交互后，每个智能体从经验池中随机抽取经验训练各自的神经网络；每个智能体的Critic网络输入是相同的，均包括了其他智能体的观测值、采取的动作、以及奖励；即Critic网络Q＝Q(s_j,a₁,a₂,...,a_j,θ^Q),策略损失的计算公式为：

然后，通过梯度下降法计算更新动作网络的参数，梯度计算公式为：

移动充电器持续进行下一步的动作探索，然后获得相应的奖励值，并根据奖励值不断优化自己的下一步动作；学习后的移动充电器会尽可能地获取更高的奖励，即总奖励最大化，构建最佳的充电调度方案。

本发明的有益效果是：

为了提升具有动态能耗的无线传感器网络的性能，提出了一种基于MADDPG深度强化学习的充电路径规划算法；经过学习与训练后的移动充电器会根据传感器节点的实时能量变化选择合理的候选充电节点，规划出最有效的多充电器充电方案；该方法可以适应能量消耗动态变化的网络环境，同时最小化死亡节点数和移动充电器的移动能量消耗；可以解决现有的充电方案的局部最优问题，使充电效用最大化。

附图说明

图1为无线可充电传感器模型图；

图2为传统充电调度方案；

图3为考虑节点剩余生存时间的充电调度方案；

图4为MADDPG算法训练过程图；

图5为本发明的原理图。

具体实施方式

为了更详细的描述本发明和便于本领域人员的理解，下面结合附图以及实施例对本发明做进一步的描述，本部分的实施例用于解释说明本发明，便于理解的目的，不以此来限制本发明。

实施例1

一种基于强化学习的WRSN多移动充电器优化调度方法，包括如下步骤：

Step1：建立一个无线传感器网络模型，如图1所示：在一个确定的区域Ω内随机部署N个传感器节点，传感器节点的位置均为确定且已知的；这N个传感器节点标记为O＝{o₁，o₂，...，o_n}，传感器节点的电池电量为b，能耗率为P_w J/s；传感器节点的能量主要用于传输数据，当节点发送或接收k bits的消息时，传感器节点的能耗如下：

，移动速度为v m/s，移动能耗率为P_m J/s,为传感器充电的效率为P_c J/s。

基站处于区域的正中心，负责收集各传感器传输的数据，对数据进行处理，同时为移动充电器进行能量补充，基站为移动充电器的充电效率为P_sJ/s。

Step2：充电候选节点选择：

为传感器节点设置发送充电请求的阈值，传感器会在自身电量低于此阈值时向基站发送充电请求，同时发送自身剩余电量re_i以及节点位置坐标L(i)信息。由于我们的目标是最小化死亡节点数，基站将收集到的充电请求进行处理，根据节点的剩余电量与节点坐标位置计算该请求节点的剩余生存时间,根据节点的剩余生存时间依次放入充电服务池，剩余生存时间少的节点优先放入，由此构建充电队列，确定候选的充电节点；为了避免传感器节点死亡，需要在节点剩余生存时间内对传感器节点进行能量补充；如果有任一个传感器的剩余生存时间小于或等于零，则被记录为一次死亡。

如图2所示，传统的充电方案不考虑节点的剩余电量，易导致传感器节点因为电量耗尽而失效；本发明引入节点的剩余生存时间，移动充电器优先对剩余生存时间较少的节点进行充电，从而降低节点死亡率。

本实施例所述传感器节点的剩余生存时间可以表示为：

re_i表示节点i在t时刻的剩余能量，P_wi为节点i的能量消耗率,t_s(i)为节点i发送充电请求的时间戳；为了避免传感器节点死亡，MC需要在节点剩余生存时间内对传感器节点进行能量补充；如果有任一个传感器的剩余生存时间小于或等于零，则被记录为一次死亡。

Step3：检测网络中空闲状态的移动充电器，向空闲状态的移动充电器发送充电队列；移动充电器有两种状态：空闲状态与忙碌状态；空闲状态时可以即时响应基站的调度指令，忙碌状态指正在为传感器进行充电或自身电量较低需要回到基站进行能量补充，此时移动充电器无法响应基站的调度指令。

移动充电器是否为空闲状态的检测步骤如下：

L(i)与L(i+1)表示当前充电传感器节点与下一个充电传感器节点的二维坐标，τ_i表示移动充电器对节点i的充电时间；移动充电器需要保证在完成下一个传感器节点充电任务后自身的剩余能量足够让自己回到基站处；于是有：

为移动充电器j到基站的距离，

Step4：多充电器充电路径规划。

Step4.1：在无线可充电传感器网络模型中加入强化学习框架；强化学习机器学习领域的一个分支，在解决组合优化问题上展现出巨大的潜力；在强化学习中Agent(智能体)通过与环境的不断交互，以获得最大的累积回报；强化学习框架设定如下：

Agent(智能体)：主体，与环境交互的对象，动作的执行者；即无线可充电传感器网络模型中的移动充电器；Action(动作)：动作是智能体与环境相互作用的行为；在无线可充电传感器网络模型中，动作代表移动充电器去向哪一个节点进行充电；State(状态)：环境状态的集合；在无线可充电传感器网络模型中，状态由两部分组成，移动充电器的剩余能量信息和网络中所有传感器节点的状态。状态集可表示为：S＝l_i，E_demand(o_i)，E_residual(c_j)}，i，j＝1，2，...，n。

为节点i的二维坐标，E_demand(o_i)为节点i需要补充的电量，E_residual(c_j)为移动充电器j的剩余电量；Reward(奖励)：奖励是指智能体在执行一项行动后获得的回报。有了反馈，训练过程才能迭代，才会学习到策略链。

本发明的目标是为移动充电器在无线传感器网络中找到一条最优的收费路径，从而使充电获得的总奖励最大化；最大化总充电奖励意味着最小化移动充电器的移动距离与传感器节点的死亡数；因此，对传感器节点进行高效率充电的问题就转化为对收到的充电奖励值进行最大化的问题。

设定碰撞奖励函数

式中

为第i个MC与第j个MC之间的距离。

设定距离奖励函数

设定节点死亡奖励函数R_d＝(-γ)·N_d

N_d为死亡节点的数量；当传感器节点的剩余生存时间为0时，节点会被记录一次死亡，节点死亡时会返回一个惩罚给所有MC。

N_c为MC碰撞次数。

移动充电器的每一步动作都会被评价并返回给移动充电器一个奖励，并让环境过渡到一个新的状态。

Step4.2：系统学习与训练过程。

如图4所示，在MADDPG算法采用了集中训练、分散执行的框架实现寻找最优联合策略的目标；具体过程如下：每个智能体根据自身策略得到当前状态执行的动作：

在与环境交互后获得经验

存入自身的经验缓存池，其中

表示所有智能体自身观测值的集合。待所有智能体与环境交互后，每个智能体从经验池中随机抽取经验训练各自的神经网络；每个智能体的Critic网络输入是相同的，均包括了其他智能体的观测值、采取的动作、以及奖励；即Critic网络Q＝Q(s_j,a₁,a₂,...,a_j,θ^Q),策略损失的计算公式为：

移动充电器持续进行下一步的动作探索，然后获得相应的奖励值，并根据奖励值不断优化自己的下一步动作；一种基于强化学习的WRSN多移动充电器优化调度方法学习后的移动充电器会尽可能地获取更高的奖励，即总奖励最大化，构建最佳的充电调度方案。

以上所述仅是本发明的具体思路，以便于该领域研究人员理解，但本发明的实施方式并不只限于上述所述，本领域相关技术人员均可基于本发明做出改进或变形，一切利用本发明构想的改进或变形视为本发明的保护范围。

Claims

1.一种基于强化学习的WRSN多移动充电器优化调度方法，其特征在于，包括如下步骤：

Step1：建立无线传感器网络模型：在一个确定的区域Ω内随机部署N个传感器节点，传感器节点的位置均为确定且已知的；这N个传感器节点标记为O＝{o₁，o₂，...，o_n}，传感器节点的电池电量为b，能耗率为P_wJ/s；传感器节点的能量主要用于传输数据，当节点发送或接收kbits的消息时，传感器节点的能耗如下：

其中P_elec表示发送或接收每个比特的能量消耗；d_ij表示发送节点与接收节点之间的距离；μ表示信号放大器的能量消耗；

等待调度的M个移动充电器分别标记为C＝{c₁，c₂，...，c_m},充电器可以在区域内自由移动，对传感器节点进行一对一充电，移动充电器的电池电量为B，移动速度为vm/s，移动能耗率为P_mJ/s,传感器充电的效率为P_cJ/s；

基站处于区域的正中心，负责收集各传感器传输的数据，对数据进行处理，同时为移动充电器进行能量补充，基站为移动充电器充电的效率为P_sJ/s；

Step2：为传感器节点设置发送充电请求的阈值，传感器会在自身电量低于此阈值时向基站发送充电请求，同时发送自身剩余电量re_i以及节点位置坐标l_i信息；基站将收集到的充电请求进行处理，根据节点的剩余电量与节点坐标位置计算该请求节点的剩余生存时间,根据节点的剩余生存时间依次放入充电服务池，由此构建充电队列，充电队列确定后，各个MC会选择最优的候选的充电节点；为了避免传感器节点由于电量耗尽而死亡，MC需要在传感器节点的剩余生存时间内对传感器节点进行能量补充；如果有任一个传感器的剩余生存时间小于或等于零，则被记录为一次死亡；

Step3：基站检测网络中空闲状态的移动充电器，随后向空闲状态的移动充电器发送充电服务队列；移动充电器有两种状态：空闲状态与忙碌状态，空闲状态时可以即时响应基站的调度指令，忙碌状态指正在为传感器进行充电或自身电量较低需要回到基站进行能量补充，此时移动充电器无法响应基站的调度指令；

Step4：多充电器充电路径规划：

①在无线可充电传感器网络模型中加入强化学习框架，为每个移动充电器在无线传感器网络中找到一条最优的充电路径，从而使充电获得的总奖励最大化；

②系统学习与训练：采用了集中训练、分散执行的框架实现寻找最优联合策略的目标；

为减少节点死亡率，优化充电路径提高充电效率，将对单个MC的奖励函数定义如下：

设定碰撞奖励函数