CN113887138A

CN113887138A - 一种基于图神经网络和强化学习的wrsn充电调度方法

Info

Publication number: CN113887138A
Application number: CN202111174665.0A
Authority: CN
Inventors: 冯勇; 王艺均; 李英娜; 张晶
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2022-01-04

Abstract

本发明涉及一种基于图神经网络和强化学习的WRSN充电调度方法，属于利用无线充电技术延长无线传感器网络生存周期的研究领域。大规模WRSN中单个可移动充电器(MC)显然不能应对繁重的充电任务，而常规的多MC充电调度方案中MCs能量利用率低下且各个MC的充电负载不均衡，制约了整个网络的充电效率。本发明将WRSN中的多MC充电调度问题建模为多目标优化问题，并将传感器节点分配问题建模为多旅行商问题(MTSP)。提出了一种基于图神经网络和强化学习的充电调度方法(GRCS)，建立了多MC协同的充电模型，并采用强化学习训练模型从而为充电调度问题生成近似最优解。本发明在提高MCs能量利用率的同时均衡各个MC的充电负载，在延长网络生存时间的同时显著提高了充电效率。

Description

一种基于图神经网络和强化学习的WRSN充电调度方法

技术领域

本发明涉及一种基于图神经网络和强化学习的WRSN充电调度方法，属于利于无线充电技术延长无线传感器网络生存期的研究领域。

背景技术

无线传感器网络(WSN)被广泛应用于物联网的各个场景，但由于传感器节点采用电池供电，有限的电池容量使传感器不能长时间有效的工作，阻碍了WSN的大规模部署。无线能量传输的迅速发展为解决WSN中节点的能量限制问题提供了新思路，使得无线可充电传感器网络(WRSN)应运而生，其中配备有谐振线圈的可移动充电装置(MC)用于将能量无线传输到传感器节点，使WSN的生存时间不再受限于传感器的电池容量。理想情况下，WRSN的寿命可以达到无限长。

无线可充电传感器网络(WRSN)由三类成员组成:一个基站(BS)、n个传感器节点和m个移动充电设备(MCs)。其中传感器节点和基站固定不动且位置已知，基站作为最终的数据采集器不受能量限制，MCs和传感器节点电池容量有限，MCs是一种具有自主移动、计算和通信能力的设备，例如智能小车或移动机器人，并带有无线能量传输装置为传感器节点补充能量，其自身可通过BS快速更换电池。而在WRSN中如何高效的调度MCs为节点补充能量是当前的最大挑战，并受到了国内外研究者的广泛研究。

Lei Mo等学者于2019年在IEEE internet of things journal发表的“Energy-Aware Multiple Mobile Chargers Coordination for Wireless Rechargeable SensorNetworks”研究了WRSN中多MC充电过程中的协调问题，将MCs协调问题描述为一个混合整数线性规划，将充电调度问题分为MC调度子问题和MC移动时间、充电时间子问题，并提出一种新的分解方法来求解，提高了充电效率。

T Liu等学者于2020年在IEEE Conference on Computer Communications发表的“An Effective Multi-node Charging Scheme for Wireless Rechargeable SensorNetworks”提出了一种多节点时空部分充电算法(MTSPC)在减少节点死亡率的同时最大化MC充电效率。MC以部分充电的方式为节点充电，且在同一充电范围内的多个传感器节点可同时得到能量补充。

从出版的文献中，尚无这样的研究工作来利用图神经网络和强化学习技术来解决WRSN中对多个移动充电器调度策略的优化。现有的多MC充电规划研究大多仅考虑单一性能指标，并未考虑到MCs承担充电任务的均衡性。考虑MCs充电任务的均衡性一方面可以提高MCs整体充电效率,减少MC数量；另一方面可以避免单个MC负载较重而造成节点饥饿死亡的问题，提升整个网络的生存时间。WRSN中的充电调度被证明是NP-hard问题，对于NP-hard问题没有可用于监督学习的最优标签。目前已有的研究工作大多基于传统的优化方法，如枚举策略,近似算法和启发式算法等。传统方法对于NP-hard问题一般不容易得到满足实际需求的最优方案，很难适应复杂多变的环境，甚至把问题过于简单化。因此充电调度工作仍需进一步优化。

发明内容

针对上述现有技术存在的问题，本发明提供了一种基于图神经网络和强化学习的WRSN充电调度方法，提出一种高效的多MC充电调度方法GRCS，建立了多MC协同的充电模型，采用强化学习训练模型从而为充电调度问题生成近似最优解，使得MC之间的充电负载均衡，提高充电效率。

为实现上述技术目的，达到上述技术效果，本发明采用的技术方案包括以下步骤：

Step1：构建无线可充电传感器网络模型，整个移动能量补给系统部署在二维平面区域内，不考虑障碍物的影响，由三类成员组成：一个基站(BS)、n个传感器节点和m个移动充电设备(MCs)。其中传感器节点和基站固定不动且位置已知，基站作为最终的数据采集器不受能量限制，MCs和传感器节点电池容量有限，MCs是一种具有自主移动、计算和通信能力的设备例如智能小车或移动机器人，并带有无线能量传输装置为传感器节点补充能量，其自身可通过BS快速更换电池；

在WRSN中的MCs规格相同初始时位于BS，速度为vm/s可在WRSN区域内自由移动，能耗为q_mJ/m，通过远距离通信(如4G/5G通信技术)直接受基站BS调度。并可通过GPS等定位技术实时获取自身位置，MCs只有在到达某个节点位置时为其单独补充能量，充电功率为q_c/w，MC携带电池的最大容量为E_mJ。

Step2：在延长网络生存时间的前提下以最大化充电效率和均衡MC之间的充电负载为目标将多MC充电调度问题建模为多目标优化问题。

Step3：基于图神经网络和强化学习设计一种称为GRCS的高效移动能量补充框架，提出最短充电回路生成算法，求解Step2中的多目标优化问题，其工作流程为：首先对WRSN中所有传感器节点进行划分，每个MC负责相应的节点。将传感器节点的划分过程抽象为多旅行商问题(MTSP)，求得m条最短哈密顿回路。每个MC负责一条充电回路，回路中的节点能量低于设定阈值时发送充电请求，在每个充电周期中MC严格按照短哈密顿回路中的顺序删除能量充足的节点，为待充电节点生成最优充电序列，MC按照最优充电序列为节点补充能量，如此循环工作，以保障网络的持续运行。

具体地，在充电过程MC的能量消耗包括三个部分：(1)有效能量，即传感器节点获取到的能量；(2)机械能，即MC移动过程的能量损耗；以及(3)无线传输过程的能量损耗。所述Step2中充电效率为有效能量与总能量之比。充电调度方法可用MC充电效率进行评估，本发明的目的为最大化MC充电效率。

具体地，所述Step2中MC的充电负载定义为每个MC负责充电的传感器数量，使得每个MC执行的充电任务尽可能的均衡。

具体地，所述Step3中，GRCS的工作过程具体为：

首先将WRSN运行时间划分为多个连续的充电周期，节点实时检查自身当前剩余能量

当

低于阈值E_th时向BS发送充电请求，请求消息表示为

其中id是传感器的唯一标识，

是当前剩余能量，r为节点能耗率，ts是当前时间戳。对于传感器节点i，其能耗p_i(t)、当前剩余能量

和能耗率r计算如下：

其中t表示当前充电回合，ρ是节点接收1kbps数据的能耗，f_i，j(1≤j≤n+1)是节点x_i到x_j的数据流，当j＝n+1时表示x_i到BS的数据流，c_i，j表示传输数据时的功耗。α是一个比例因子用于调整r_i对实时能耗的敏感程度，Δ用于将时间划分为连续的周期，[r_i]是上一充电周期的能耗率。请求消息通过多跳无线传输被传送到基站，在每个充电周期开始时MCs接受BS调度为节点补充能量。

对于整个WRSN的充电调度，首先为m个MC划分充电任务，以BS为起点为传感器集合N＝{s₁，s₂，…s_n}划分m个最短哈密顿回路，即充电回路。将构建充电回路的过程抽象为多旅行商问题(MTSP)。每个MC负责一条充电回路中的传感器节点，，在每条充电回路中按顺序为节点重新编号。一条充电回路可以表示为ChargingCircuit₁＝BS，n₁，n₂，…，n₈其中n₁，n₂，…，n₈表示按照最短哈密顿回路中顺序重新标号的传感器节点，每个MC负责一条充电回路。

上一充电周期内节点发送的充电请求Q存储在充电服务池P中，在当前周期开始前每个MC根据服务池中的请求信息为自身规划充电序列，MC从BS出发按照充电回路中的节点顺序构建最优充电序列，并依次访问待充电节点，如此循环工作。

具体地，所述Step3中，最优充电序列定义为：MC从BS出发遍历所有待充电节点至少一次后并返回BS的最短路径。从最短充电回路中删除任意x(0≤x＜n)个节点得到具有N-x个节点组成的最短充电路径，即最短充电回路的子路径也是最短充电回路。

具体地，所述Step3中，最短充电回路生成算法的具体步骤为：

Step6.1：将为MC分配传感器节点的过程定义在图G中，其定义为节点和边的集合，传感器为节点，传感器节点之间的路径为边。

Step6.2：使用图神经网络对Step6.1的过程进行优化，通过图嵌入将图中高维稠密矩阵映射为低维稠密向量。采用组合消息传递神经网络(CMPNN)框架，通过相邻连接节点的消息传递为每个传感器节点i，i∈{1，2，…n}计算p维特征嵌入f_i。在基于CMPNN框架的图神经网络中，节点嵌入的更新过程如下：

f_i ^t+1为更新的节点嵌入，其中relu为线性整流函数relu(z)＝max{0，z}应用于其输入元素，N(i)表示节点i所有的相邻节点，θ_e为所有边的共享参数，θ₁，θ₂为所有节点的共享参数，

为上一步中节点i，j的特征嵌入。

Step6.3：分布式策略网络的设计分为两个阶段：在第一个阶段，每个MC通过使用全局信息和图中的节点嵌入，独立构建自己的嵌入。第二个阶段，每个节点根据全局嵌入为自身分配一个MC。

除BS以外的所有节点只能由一个MC访问，而BS则由所有MC访问。采用注意力机制计算节点对于编号为a，a∈{1，2，…，m}的MC，即MC_a的重要性，注意力机制中三个固定参数q_a，k_ai，v_ai计算如下：

其中d_k和d_v为key和value的维度，θ_ak和θ_av为神经网络参数，用于将嵌入映射到d_k维，f_c为上下文嵌入，f_i ^p是节点i的p维特征嵌入，p为节点嵌入的维度。然后计算MC_a关联的query与所有节点的匹配程度u_ai：

其中T为迭代次数，采用softmax计算注意力权重w_ai∈[0，1]：

由权重w_ai构造MC的特征嵌入h_a：

对于将MC分配给节点i的策略过程，我们首先计算每个MC对于节点i的重要性，对于MC_a，其中三个参数q′_a，k′_ai，u′_ai：

d′_k是新keys的维度；θ_ak′和θ_aq′为神经网络参数，用于将嵌入映射到d′_k维。在求出u′_ai后，使用tan h函数将结果限制在[-C，C](C＝10)，从而求出节点i对于MC_a的重要性imp_ai：

imp_ai＝C tan h(u′_ai)，i＝{2，3，…，n} (9)

每个节点都必须有一个MC访问，该MC对该节点的重要性将用于决定指定哪个MC访问该节点，引入softmax评估MC访问某个节点的概率。

p_ai是编号为a的MC访问节点i的概率。

Step6.4：引入强化学习评估模型中的参数θ，使得预期奖励L_R(θ)最大化，θ^*为θ的目标值。

θ^*＝arg_θmaxL_R(θ) (11)

其中

是训练集；λ为分配给MC_a的节点；R(λ)是分配λ后获得的奖励；π_θ(λ)是θ赋值的分布：

π_θ(λ)＝Π_{i∈{1，...，n}}pai (13)

在训练过程中使用ORTools快速计算一组较小规模的TSP，并返回所有MC的最大行程长度的负数作为任务的奖励，从而求出m条最短充电回路。

本发明的有益效果是：本发明通过对WRSN中充电调度问题的分析，尤其对采用多MC执行充电任务时MC之间的协调问题进行深入考虑，来尽量保证MC之间的充电负载均衡，通过对传感器节点的划分，使得每个MC尽可能的执行等量的充电任务，提高每个充电周期中MCs的利用率。

总之，采用图神经网络和强化学习建立了一种高效的WRSN多MC充电调度方案，在对充电路径优化的同时对充电模型进行优化，均衡了MC之间的充电负载，提高了充电效率，实现了对传感器节点的高效能量补充，延长了网络的整体生存时间。

附图说明

图1是无线可充电传感器网络模型；

图2是传感器节点划分过程；

图3是最优充电路径构造；

图4是GRCS算法流程图。

具体实施方式

为了更详细的描述本发明和便于本领域人员的理解，下面结合附图以及实施例对本发明做进一步的描述，本部分的实施例用于解释本发明，便于理解的目的，不以此来限制本发明。

实施例1：如图1-4所示，一种基于图神经网络和强化学习的WRSN充电调度方法，包括如下步骤：

Step1：构建无线可充电传感器网络模型，整个移动能量补给系统部署在二维平面区域内，不考虑障碍物的影响，由三类成员组成：一个基站(BS)、n个传感器节点和m个移动充电设备(MC)。其中传感器节点和基站固定不动且位置已知，基站作为最终的数据采集器不受能量限制，MC和传感器节点电池容量有限，其自身可通过BS快速更换电池；

在WRSN中的MCs规格相同初始时位于BS，速度为vm/s可在WRSN区域内自由移动，能耗为q_mJ/m，通过远距离通信直接受基站BS调度。并可通过GPS定位技术实时获取自身位置，MC只有在到达某个节点位置时为其单独补充能量，充电功率为q_c/w，MC携带电池的最大容量为E_mJ。

进一步地，所述Step2中在充电过程MC的能量消耗包括三个部分：(1)有效能量，即传感器节点获取到的能量；(2)机械能，即MC移动过程的能量损耗；以及(3)无线传输过程的能量损耗。充电调度方法可用MC充电效率进行评估，充电效率定义为有效能量与总能量之比。本发明的目的为最大化MCs充电效率。

进一步地，所述Step2中MC的充电负载定义为每个MC负责充电的传感器数量，使得每个MC执行的充电任务尽可能的均衡。

从图2可以看出，每个MC负责这样一条最短充电回路，在执行充电任务时尽可能缩短每个MC之间移动距离的差距，使得充电负载均衡提高整体充电效率。

进一步地，所述Step3中，GRCS的工作过程具体为：

当

低于阈值E_th时向BS发送充电请求，请求消息表示为

其中id是传感器的唯一标识，

和能耗率r计算如下：

如图3所示，在求出的最短充电回路中，删除不需要充电的节点，构建出一条最优充电回路，经过证明最短充电路径的子路径也是最短充电路径，即最优充电路径。

进一步地，所述Step3中，最优充电序列定义为：MC从BS出发遍历所有待充电节点至少一次后并返回BS的最短路径。从最短充电回路中删除任意x(0≤x＜n)个节点得到具有N-x个节点组成的最短充电路径，即最短充电回路的子路径也是最短充电回路。

进一步地，所述Step3中，最短充电回路生成算法的具体步骤为：

为上一步中节点i，j的特征嵌入。

其中T为迭代次数，采用softmax计算注意力权重w_ai∈[0，1]：

由权重w_ai构造MC的特征嵌入h_a：

d′_k是新keys的维度；θ_ak′和θ_aa′为神经网络参数，用于将嵌入映射到d′_k维。在求出u′_ai后，使用tanh函数将结果限制在[-C，C](C＝10)，从而求出节点i对于MC_a的重要性imp_ai：

imp_ai＝C tan h(u′_ai)，i＝{2，3，…，n} (9)

p_ai是编号为a的MC访问节点i的概率。

θ^*＝arg_θmaxL_R(θ) (11)

其中

π_θ(λ)＝∏_{i∈{1，...，n}}P_ai (13)

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于图神经网络和强化学习的WRSN充电调度方法，其特征在于，包括以下步骤：

Step1：构建无线可充电传感器网络模型，整个移动能量补给系统部署在二维平面区域内，不考虑障碍物的影响，由三类成员组成：一个基站BS、n个传感器节点和m个移动充电设备MC，其中传感器节点和基站固定不动且位置已知，基站作为最终的数据采集器不受能量限制，MC和传感器节点电池容量有限，其自身可通过BS快速更换电池；

在WRSN中的MC规格相同初始时位于BS，速度为vm/s，可在WRSN区域内自由移动，能耗为q_mJ/m，通过远距离通信直接受基站BS调度，并可通过GPS定位技术实时获取自身位置，MC只有在到达某个节点位置时为其单独补充能量，充电功率为q_c/w，MC携带电池的最大容量为E_mJ；

Step2：在延长网络生存时间的前提下以最大化充电效率和均衡MC之间的充电负载为目标将多MC充电调度建模为多目标优化问题；

Step3：基于图神经网络和强化学习设计一种称为GRCS的高效移动能量补充框架，提出最短充电回路生成算法，求解Step2中的多目标优化问题，其工作流程为：首先对WRSN中所有传感器节点进行划分，每个MC负责相应的节点，将传感器节点的划分过程抽象为多旅行商问题MTSP，求得m条最短哈密顿回路，每个MC负责一条充电回路，回路中的节点能量低于设定阈值时发送充电请求，在每个充电周期中MC严格按照短哈密顿回路中的顺序删除能量充足的节点，为待充电节点生成最优充电序列，MC按照最优充电序列为节点补充能量，如此循环工作，以保障网络的持续运行。

2.根据权利要求1所述的基于图神经网络和强化学习的WRSN充电调度方法，其特征在于：在充电过程MC的能量消耗包括三个部分：(1)有效能量，即传感器节点获取到的能量；(2)机械能，即MC移动过程的能量损耗；以及(3)无线传输过程的能量损耗，所述Step2中充电效率为有效能量与总能量之比，充电调度方法可用MC充电效率进行评估。

3.根据权利要求1所述的基于图神经网络和强化学习的WRSN充电调度方法，其特征在于：Step2中MC的充电负载定义为每个MC负责充电的传感器节点的数量。

4.根据权利要求1所述的基于图神经网络和强化学习的WRSN充电调度方法，其特征在于：所述Step3中，GRCS的工作过程具体为：

当

低于阈值E_th时向BS发送充电请求，请求消息表示为

其中id是传感器的唯一标识，

是当前剩余能量，r为节点能耗率，ts是当前时间戳，对于传感器节点i，其能耗p_i(t)、当前剩余能量

阳能耗率r计算如下：

其中t表示当前充电回合，ρ是节点接收1kbps数据的能耗，f_i，j是节点x_i到x_j的数据流，1≤j≤n+1，当j＝n+1时表示x_i到BS的数据流，c_i，j表示传输数据时的功耗，α是一个比例因子用于调整r_i对实时能耗的敏感程度，Δ用于将时间划分为连续的周期，[r_i]是上一充电周期的能耗率，请求消息通过多跳无线传输被传送到基站，在每个充电周期开始时MCs接受BS调度为节点补充能量；

对于整个WRSN的充电调度，首先为m个MC划分充电任务，以BS为起点为传感器集合N＝{s₁，s₂，…s_n}划分m个最短哈密顿回路，即充电回路，将构建充电回路的过程抽象为多旅行商问题MTSP，每个MC负责一条充电回路中的传感器节点，在每条充电回路中按顺序为节点重新编号，一条充电回路可以表示为ChargingCircuit₁＝BS，n₁，n₂，…，n₈，其中n₁，n₂，…，n₈表示按照最短哈密顿回路中顺序重新标号的传感器节点，每个MC负责一条充电回路；

5.根据权利要求1所述的基于图神经网络和强化学习的WRSN充电调度方法，其特征在于：所述Step3中，最优充电序列定义为：MC从BS出发遍历所有待充电节点至少一次后并返回BS的最短路径，从最短充电回路中删除任意x个节点得到具有N-x个节点组成的最短充电路径，即最短充电回路的子路径也是最短充电回路，0≤x＜n。

6.根据权利要求1所述的基于图神经网络和强化学习的WRSN充电调度方法，其特征在于：所述Step3中，最短充电回路生成算法的具体步骤为：

Step6.1：将为MC分配传感器节点的过程定义在图G中，其定义为节点和边的集合，传感器为节点，传感器节点之间的路径为边；

Step6.2：使用图神经网络对Step6.1的过程进行优化，通过图嵌入将图中高维稠密矩阵映射为低维稠密向量，采用组合消息传递神经网络CMPNN框架，通过相邻连接节点的消息传递为每个传感器节点i，i∈{1，2，…n}计算p维特征嵌入f_i，在基于CMPNN框架的图神经网络中，节点嵌入的更新过程如下：

f_i ^t+1为更新的节点嵌入，其中relu为线性整流函数relu(z)＝max{0，z}应用于其输入元素，N(i)表示节点i所有的相邻节点，θ_e为所有边的共享参数，θ₁，θ₂为所有节点的共享参数，f_i ^t，

为上一步中节点i，j的特征嵌入；

Step6.3：分布式策略网络的设计分为两个阶段：在第一个阶段，每个MC通过使用全局信息和图中的节点嵌入，独立构建自己的嵌入，第二个阶段，每个节点根据全局嵌入为自身分配一个MC；

除BS以外的所有节点只能由一个MC访问，而BS则由所有MC访问，采用注意力机制计算节点对于编号为a，a∈{1，2，…，m}的MC，即MC_a的重要性，注意力机制中三个固定参数q_a，k_ai，v_ai计算如下：

其中d_k和d_v为key和value的维度，θ_ak和θ_av为神经网络参数，用于将嵌入映射到d_k维，f_c为上下文嵌入，f_i ^p是节点i的p维特征嵌入，p为节点嵌入的维度，然后计算MC_a关联的query与所有节点的匹配程度u_ai：

其中T为迭代次数，采用softmax计算注意力权重w_ai∈[0，1]：

由权重w_ai构造MC的特征嵌入h_a：

d′_k是新keys的维度；θ_ak′和θ_aq′为神经网络参数，用于将嵌入映射到d′_k维，在求出u′_ai后，使用tanh函数将结果限制在[-C，C]，C＝10，从而求出节点i对于MC_a的重要性imp_ai：

imp_ai＝C tan h(u′_ai)，i＝{2，3，…，n} (9)

每个节点都必须有一个MC访问，该MC对该节点的重要性将用于决定指定哪个MC访问该节点，引入softmax评估MC访问某个节点的概率；

p_ai是编号为a的MC访问节点i的概率；

Step6.4：引入强化学习评估模型中的参数θ，使得预期奖励L_R(θ)最大化，θ^*为θ的目标值，

θ^*＝arg_θmaxL_R(θ) (11)

其中

π_θ(λ)＝Π_{i∈{1，…，n}}pai (13)