CN109754075B

CN109754075B - 无线传感器网络节点的调度方法、设备、存储介质及装置

Info

Publication number: CN109754075B
Application number: CN201910042094.1A
Authority: CN
Inventors: 刘晶; 韩峥嵘; 雷建云; 孙翀; 夏梦; 莫海芳
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2021-07-02
Anticipated expiration: 2039-01-16
Also published as: CN109754075A

Abstract

本发明公开了一种无线传感器网络节点的调度方法、设备、存储介质及装置，所述方法包括：强化学习获取无线传感器网络节点的样本环境状态及对应的样本最优任务；根据所述样本环境状态和所述样本最优任务之间的对应关系对预设卷积神经网络模型进行训练，以获得任务调度模型；获取所述无线传感器网络节点的当前环境状态，并根据所述当前环境状态和所述任务调度模型对所述无线传感器网络节点进行任务调度。由于通过强化学习获得样本环境状态及其对应的样本最优任务，并通过预设卷积神经网络模型对样本进行降维，能够灵活地根据环境状态的变化进行任务调度，降低内存占用率，并提高无线传感器网络节点的调度效率。

Description

无线传感器网络节点的调度方法、设备、存储介质及装置

技术领域

本发明涉及任务调度技术领域，尤其涉及一种无线传感器网络节点的调度方法、设备、存储介质及装置。

背景技术

无线传感器网络(Wireless Sensor Networks,WSN)是由大量静止的或移动的传感器节点以自组织和多跳的方式构成的无线网络，以协作地感知、采集以及处理和传输网络覆盖地理区域内被感知对象的信息，并最终把这些信息发送给网络所有者，无线传感器网络具有低功耗、低成本、分布式和自组织的特点。

目前，无线传感器网络广泛用于军事应用、辅助农业生产、生态监测、基础设施状态监测、智能交通以及医疗系统等领域，而对无线传感器网络中的传感器节点进行任务调度时，传统任务调度算法仅仅按照静态给定次序来调度任务，不能通过学习来适应环境变化，存在资源环境利用率较低、应用性能较差等问题；传统的强化学习(Q-learning，reinforcement learning)算法中，数据基于Q表(Q-table)进行存储，占用空间过大，对于大规模部署的传感器节点来说，在节点调度过程中遍历Q表需要消耗大量时间，从而导致无线传感器网络节点的调度效率低下。

发明内容

本发明的主要目的在于提供一种无线传感器网络节点的调度方法、设备、存储介质及装置，旨在解决现有技术中无线传感器网络中数据占用内存大且节点的调度效率低下的技术问题。

为实现上述目的，本发明提供一种无线传感器网络节点的调度方法，所述方法包括以下步骤：

通过强化学习获取无线传感器网络节点的样本环境状态及对应的样本最优任务；

根据所述样本环境状态和所述样本最优任务之间的对应关系对预设卷积神经网络模型进行训练，以获得任务调度模型；

获取所述无线传感器网络节点的当前环境状态，并根据所述当前环境状态和所述任务调度模型对所述无线传感器网络节点进行任务调度。

优选地，所述通过强化学习获取无线传感器网络节点的样本环境状态及对应的样本最优任务，具体包括：

获取无线传感器网络节点的马尔科夫五元组，从所述马尔科夫五元组中提取样本环境状态、预设回报函数和样本任务；

根据所述预设回报函数和所述样本任务对所述样本环境状态进行值迭代，以获得所述样本环境状态对应的样本最优任务。

优选地，所述根据所述预设回报函数和所述样本任务对所述样本环境状态进行值迭代，以获得所述样本环境状态对应的样本最优任务，具体包括：

根据所述预设回报函数和所述样本任务计算所述样本环境状态对应的样本最优回报；

获取所述预设回报函数的反函数，根据所述反函数和所述样本最优回报计算所述样本环境状态对应的样本最优任务。

优选地，所述根据所述预设回报函数和所述样本任务计算所述样本环境状态对应的样本最优回报，具体包括：

遍历所述样本环境状态，根据所述预设回报函数计算在所述样本环境状态下执行不同样本任务达到下一环境状态获得的期望回报；

将数值最大的期望回报作为所述样本环境状态的当前最优回报，将所述当前最优回报对应的样本任务作为当前最优样本任务；

判断所述当前最优回报是否收敛；

若所述当前最优回报未收敛，则将执行所述当前最优样本任务所达到的下一环境状态作为新的样本环境状态，并返回所述遍历所述样本环境状态下的样本任务的步骤；

若所述当前最优回报收敛，则将所述当前最优回报作为所述样本环境状态的样本最优回报。

优选地，所述遍历所述样本环境状态，根据所述预设回报函数计算在所述样本环境状态下执行不同样本任务达到下一环境状态获得的期望回报，具体包括：

遍历所述样本环境状态，根据所述预设回报函数计算在所述样本环境状态下执行不同样本任务达到下一环境状态获得的任务回报和所述下一环境状态的回报估值；

将所述任务回报和所述回报估值的和作为所述样本环境状态对应的期望回报。

优选地，所述根据所述样本环境状态和所述样本最优任务之间的对应关系对预设卷积神经网络模型进行训练，以获得任务调度模型，具体包括：

将所述样本环境状态和所述样本最优任务之间的对应关系存储于预设经验池中；

在所述预设经验池中随机抽取所述对应关系中的样本环境状态，并将抽取到的样本环境状态输入至预设卷积神经网络模型中，获取所述预设卷积神经网络模型输出的最优任务；

将所述预设卷积神经网络模型输出的最优任务与所述组对应关系中的样本最优任务进行对比；

根据对比结果调整所述预设卷积神经网络模型的参数，获得任务调度模型。

优选地，所述获取所述无线传感器网络节点的当前环境状态，并根据所述当前环境状态和所述任务调度模型对所述无线传感器网络节点进行任务调度，具体包括：

获取所述无线传感器网络节点的当前环境状态，在所述任务调度模型中查找所述当前环境状态对应的当前最优任务，并根据所述当前最优任务对所述无线传感器网络节点进行任务调度。

此外，为实现上述目的，本发明还提供一种无线传感器网络节点的调度设备，所述无线传感器网络节点的调度设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的无线传感器网络节点的调度程序，所述无线传感器网络节点的调度程序被所述处理器执行时实现如上文所述无线传感器网络节点的调度方法的步骤。

此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有无线传感器网络节点的调度程序，所述无线传感器网络节点的调度程序被处理器执行时实现如上文所述无线传感器网络节点的调度方法的步骤。

此外，为实现上述目的，本发明还提供一种无线传感器网络节点的调度装置，所述无线传感器网络节点的调度装置包括：

样本获取模块，用于通过强化学习获取无线传感器网络节点的样本环境状态及对应的样本最优任务；

模型训练模块，用于根据所述样本环境状态和所述样本最优任务之间的对应关系对预设卷积神经网络模型进行训练，以获得任务调度模型；

任务调度模块，用于获取所述无线传感器网络节点的当前环境状态，并根据所述当前环境状态和所述任务调度模型对所述无线传感器网络节点进行任务调度。

在本发明中，通过强化学习获取无线传感器网络节点的样本环境状态及对应的样本最优任务；根据所述样本环境状态和所述样本最优任务之间的对应关系对预设卷积神经网络模型进行训练，以获得任务调度模型；获取所述无线传感器网络节点的当前环境状态，并根据所述当前环境状态和所述任务调度模型对所述无线传感器网络节点进行任务调度。由于通过强化学习获得样本环境状态及其对应的样本最优任务，并通过预设卷积神经网络模型对样本进行降维，能够灵活地根据环境状态的变化进行任务调度，降低内存占用率，并提高无线传感器网络节点的调度效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的无线传感器网络节点的调度设备结构示意图；

图2为本发明无线传感器网络节点的调度方法第一实施例的流程示意图；

图3为本发明无线传感器网络节点的调度方法第二实施例的流程示意图；

图4为本发明无线传感器网络节点的调度方法第三实施例的流程示意图；

图5为本发明无线传感器网络节点的调度装置第一实施例的功能模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的无线传感器网络节点的调度设备结构示意图。

如图1所示，所述无线传感器网络节点的调度设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对所述无线传感器网络节点的调度设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及无线传感器网络节点的调度程序。

在图1所示的无线传感器网络节点的调度设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接外设；所述无线传感器网络节点的调度设备通过处理器1001调用存储器1005中存储的无线传感器网络节点的调度程序，并执行本发明实施例提供的无线传感器网络节点的调度方法。

所述无线传感器网络节点的调度设备通过处理器1001调用存储器1005中存储的无线传感器网络节点的调度程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的无线传感器网络节点的调度程序，还执行以下操作：

判断所述当前最优回报是否收敛；

在本实施例中，通过强化学习获取无线传感器网络节点的样本环境状态及对应的样本最优任务；根据所述样本环境状态和所述样本最优任务之间的对应关系对预设卷积神经网络模型进行训练，以获得任务调度模型；获取所述无线传感器网络节点的当前环境状态，并根据所述当前环境状态和所述任务调度模型对所述无线传感器网络节点进行任务调度。由于通过强化学习获得样本环境状态及其对应的样本最优任务，并通过预设卷积神经网络模型对样本进行降维，能够灵活地根据环境状态的变化进行任务调度，降低内存占用率，并提高无线传感器网络节点的调度效率。

基于上述硬件结构，提出本发明无线传感器网络节点的调度方法的实施例。

参照图2，图2为本发明无线传感器网络节点的调度方法第一实施例的流程示意图。

在第一实施例中，所述无线传感器网络节点的调度方法包括以下步骤：

步骤S10：通过强化学习获取无线传感器网络节点的样本环境状态及对应的样本最优任务。

需要说明的是，本实施例的执行主体是无线传感器网络节点的调度设备，所述无线传感器网络节点的调度设备可以是个人电脑或者服务器等电子设备，本实施例对此不加以限制。所述无线传感器网络节点为部署于无线传感器网络中的传感器节点，所述无线传感器网络节点的特征信息包含环境状态和任务，所述环境状态包括节点能量和节点位置信息，随着所述无线传感器网络节点的运行，所述无线传感器网络节点的环境状态发生变化，例如能量消耗后降低。所述任务包括睡眠、目标跟踪、信息发送、信息接收和信息处理等任务，其中，睡眠任务是指将无线传感器网络节点的探测模块、通信模块和计算模块等置于睡眠模式，以节省节点的能量消耗；目标跟踪任务是指持续跟踪探测半径内的移动目标，获得探测包，并添加至发送队列；信息发送任务是指将发送队列中的探测包发送至与移动方向最一致的邻居节点，若无该邻居节点，则将探测包发送至下一跳；信息接收任务是指接收邻居节点或上一跳的包，按照包类型分别添加至接收队列或写作信息队列；信息处理任务是指将接收队列和发送队列中相同的探测包分析处理成新的探测包，重新添加至发送队列。

可以理解的是，所述样本环境状态为所述无线传感器网络节点的各种环境状态；在同一环境状态下执行不同的任务所获得的回报并不相同，因此，将在同一环境状态下执行地能够获得最大回报的任务称为该环境状态下的最优任务，所述样本最优任务为所述无线传感器网络节点在所述样本环境状态下执行并且能够获得最大回报的任务。强化学习算法是智能体(Agent)通过与环境进行交互而学习出一个从环境状态到最优任务的映射，学习的目标是在环境状态下执行最优任务所获得的回报最大。获取所述无线传感器网络节点的样本环境状态，对所述样本环境状态进行强化学习，可获取所述无线传感器网络节点在所述样本环境状态下能产生最大回报的样本最优任务。

步骤S20：根据所述样本环境状态和所述样本最优任务之间的对应关系对预设卷积神经网络模型进行训练，以获得任务调度模型。

需要说明的是，获得所述样本环境状态和所述样本最优任务之间的对应关系后，可依据该对应关系包含样本环境状态及其对应的样本最优任务，可应用于实际任务调度场景中，以通过实际任务调度场景下的实际环境状态在所述对应关系中查找实际最优任务，然而，单纯的强化学习算法使用表格保存所述样本环境状态和所述样本最优任务之间的对应关系，由于表格所能存储的状态和任务有限，当所述样本环境状态和所述样本最优任务数量较大时，将占用较大的内存，难以快速地查找出实际最优任务。

可以理解的是，深度强化学习(DQN，deep reinforcement learning)算法是强化学习算法和卷积神经网络(CNN，Convolutional Neural Networks)算法的结合，本实施例将通过深度强化学习算法创建任务调度模型，具体包括：通过强化学习获得大量样本，并通过预设卷积神经网络对样本进行训练，以获得具有较高预测准确率的任务调度模型。预设卷积神经网络还能降低样本维数，从而降低内存使用率，提高资源利用率。根据所述样本环境状态和所述样本最优任务之间的对应关系对预设卷积神经网络模型进行训练，反复调整所述预设卷积神经网络的参数，不断提高预测精度，从而获得任务调度模型。

步骤S30：获取所述无线传感器网络节点的当前环境状态，并根据所述当前环境状态和所述任务调度模型对所述无线传感器网络节点进行任务调度。

需要说明的是，在获取所述任务调度模型之后，由于所述任务调度模型能够根据环境状态预测对应的最优任务，将获取所述无线传感器网络节点的当前环境状态，并根据所述任务调度模型对所述当前环境状态进行预测，获得所述当前环境状态对应的当前最优任务，为所述当前环境状态下的无线传感器网络节点分配所述当前最优任务，从而实现任务调度。

在本实施例中，通过强化学习获得样本环境状态及其对应的样本最优任务，并通过预设卷积神经网络模型对样本进行降维，能够灵活地根据环境状态的变化进行任务调度，降低内存占用率，并提高无线传感器网络节点的调度效率。

参照图3，图3为本发明无线传感器网络节点的调度方法第二实施例的流程示意图，基于上述图2所示的实施例，提出本发明无线传感器网络节点的调度方法的第二实施例。

在第二实施例中，所述步骤S10，具体包括：

需要说明的是，所述马尔科夫五元组包括样本环境状态、预设回报函数和样本任务等，所述样本任务为所述样本环境状态对应的全部任务，所述值迭代用于根据回报值进行迭代以获得状态对应的最大回报，在本实施例中，根据所述预设回报函数和所述样本任务对所述样本环境状态进行值迭代，以获得所述样本环境状态对应的样本最优任务。

在本实施例中，所述步骤S10，具体包括：

步骤S101：获取无线传感器网络节点的马尔科夫五元组，从所述马尔科夫五元组中提取样本环境状态、预设回报函数和样本任务。

可以理解的是，所述马尔科夫五元组为(S，A，P_SA，γ，R)，其中，S为样本环境状态，A为样本任务，P_SA为状态转移概率，γ为折扣因子，取值在0-1之间，R为样本环境状态下执行样本任务的预设回报函数。所述预设回报函数为所述样本环境状态与样本最优回报之间的映射关系，所述预设回报函数为：

其中，V*(s)为样本最优回报函数值，π为样本任务，V^π(s)为在样本环境状态下执行样本任务获得的回报，R(s,a)为在状态s下执行任务a获得的回报，P(s,a,s')为执行任务a后从状态s转移至状态s'的概率。

步骤S102：根据所述预设回报函数和所述样本任务计算所述样本环境状态对应的样本最优回报。

需要说明的是，所述样本最优回报为在所述样本环境状态下执行样本最优任务所获得的回报，由于在样本环境状态下执行样本最优任务而获得样本最优回报，因此样本最优任务与样本最优回报之间互为反函数，本实施例先计算出所述样本最优回报，后根据样本最优任务与样本最优回报之间的反函数关系计算样本最优任务。

步骤S103：获取所述预设回报函数的反函数，根据所述反函数和所述样本最优回报计算所述样本环境状态对应的样本最优任务。

可以理解的是，在计算出所述样本最优回报后，将获取所述预设回报函数的反函数，并根据所述反函数和所述样本最优回报计算所述样本环境状态对应的样本最优任务，所述预设回报函数的反函数为：

π^*(s)＝argV^*(s)，

其中，π*(s)为样本最优任务。

进一步地，所述步骤S102，具体包括：

判断所述当前最优回报是否收敛；

需要说明的是，对每一个当前样本环境状态s，对每个可能的任务a，均计算执行该任务后到达的下一个状态的期望回报。判断哪个任务可以到达的下一状态的期望回报最大，就将这个最大的期望回报作为当前样本环境状态的当前最优回报v^*(s)，循环执行这个步骤，直到当前最优回报收敛，得到样本最优回报。

进一步地，所述遍历所述样本环境状态，根据所述预设回报函数计算在所述样本环境状态下执行不同样本任务达到下一环境状态获得的期望回报，具体包括：

在本实施例中，通过样本最优任务与样本最优回报之间互为反函数，计算出所述样本最优回报，从而根据样本最优任务与样本最优回报之间的反函数关系计算样本最优任务。

参照图4，图4为本发明无线传感器网络节点的调度方法第三实施例的流程示意图，基于上述图3所示的实施例，提出本发明无线传感器网络节点的调度方法的第三实施例。

在第三实施例中，所述步骤S20，具体包括：

步骤S201：将所述样本环境状态和所述样本最优任务之间的对应关系存储于预设经验池中。

需要说明的是，所述预设经验池用于存储样本数据，一般为查询表的形式存储所述样本环境状态和所述样本最优任务之间的对应关系。

步骤S202：在所述预设经验池中随机抽取所述对应关系中的样本环境状态，并将抽取到的样本环境状态输入至预设卷积神经网络模型中，获取所述预设卷积神经网络模型输出的最优任务。

步骤S203：将所述预设卷积神经网络模型输出的最优任务与所述对应关系中的样本最优任务进行对比。

步骤S204：根据对比结果调整所述预设卷积神经网络模型的参数，获得任务调度模型。

可以理解的是，在所述预设卷积神经网络模型的训练过程中，将各组对应关系依次输入至所述预设卷积神经网络模型中，以使所述预设卷积神经网络模型对输入的样本环境状态进行卷积，并输出对应的最优任务，将输出的最优任务与所述对应关系中的样本最优任务进行对比，从而根据对比结果调整预设卷积神经网络的参数，通过多组对应关系的训练，将逐步提高所述卷积神经网络的预测准确度，当该预测准确度达到阈值时，将获得任务调度模型。

进一步地，所述步骤S30，具体包括：

在本实施例中，通过预设卷积神经网络模型对样本数据进行训练，能够准确地预测不同环境状态对应的最优任务，从而实现灵活地根据环境状态的变化进行任务调度，提高了无线传感器网络节点的调度效率。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有无线传感器网络节点的调度程序，所述无线传感器网络节点的调度程序被处理器执行时实现如下操作：

进一步地，所述无线传感器网络节点的调度程序被处理器执行时还实现如下操作：

判断所述当前最优回报是否收敛；

参照图5，图5为本发明无线传感器网络节点的调度装置第一实施例的功能模块图，基于所述无线传感器网络节点的调度方法，提出本发明无线传感器网络节点的调度装置的第一实施例。

在本实施例中，所述无线传感器网络节点的调度装置包括：

样本获取模块10，用于通过强化学习获取无线传感器网络节点的样本环境状态及对应的样本最优任务。

需要说明的是，所述无线传感器网络节点为部署于无线传感器网络中的传感器节点，所述无线传感器网络节点的特征信息包含环境状态和任务，所述环境状态包括节点能量和节点位置信息，随着所述无线传感器网络节点的运行，所述无线传感器网络节点的环境状态发生变化，例如能量消耗后降低。所述任务包括睡眠、目标跟踪、信息发送、信息接收和信息处理等任务，其中，睡眠任务是指将无线传感器网络节点的探测模块、通信模块和计算模块等置于睡眠模式，以节省节点的能量消耗；目标跟踪任务是指持续跟踪探测半径内的移动目标，获得探测包，并添加至发送队列；信息发送任务是指将发送队列中的探测包发送至与移动方向最一致的邻居节点，若无该邻居节点，则将探测包发送至下一跳；信息接收任务是指接收邻居节点或上一跳的包，按照包类型分别添加至接收队列或写作信息队列；信息处理任务是指将接收队列和发送队列中相同的探测包分析处理成新的探测包，重新添加至发送队列。

模型训练模块20，用于根据所述样本环境状态和所述样本最优任务之间的对应关系对预设卷积神经网络模型进行训练，以获得任务调度模型。

可以理解的是，深度强化学习(DQN，deep reinforcement learning)算法是强化学习算法和卷积神经网络(CNN，Convolutional Neural Networks)算法的结合，本实施例将通过所述预设卷积神经网络降低样本维数，以降低内存使用率，提高资源利用率。根据所述样本环境状态和所述样本最优任务之间的对应关系对预设卷积神经网络模型进行训练，反复调整所述预设卷积神经网络的参数，不断提高预测精度，从而获得任务调度模型。

任务调度模块30，用于获取所述无线传感器网络节点的当前环境状态，并根据所述当前环境状态和所述任务调度模型对所述无线传感器网络节点进行任务调度。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

单词第一、第二、以及第三等的使用不表示任何顺序，可将这些单词解释为名称。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种无线传感器网络节点的调度方法，其特征在于，所述无线传感器网络节点的调度方法包括以下步骤：

通过强化学习获取无线传感器网络节点的样本环境状态及对应的样本最优任务，其中，所述无线传感器网络节点为部署于无线传感器网络中的传感器节点，所述样本环境状态为所述无线传感器网络节点的各种环境状态，所述各种环境状态包括节点能量和节点位置信息；

根据所述样本环境状态和所述样本最优任务之间的对应关系通过预设卷积神经网络对预设卷积神经网络模型进行训练，以获得任务调度模型；

获取所述无线传感器网络节点的当前环境状态，并根据所述当前环境状态和所述任务调度模型对所述无线传感器网络节点进行任务调度；

其中，所述通过强化学习获取无线传感器网络节点的样本环境状态及对应的样本最优任务的步骤包括：

判断所述当前最优回报是否收敛；

若所述当前最优回报收敛，则将所述当前最优回报作为所述样本环境状态的样本最优回报；

获取所述预设回报函数的反函数，根据所述反函数和所述样本最优回报计算所述样本环境状态对应的样本最优任务；

其中，所述遍历所述样本环境状态，根据所述预设回报函数计算在所述样本环境状态下执行不同样本任务达到下一环境状态获得的期望回报，具体包括：

2.如权利要求1所述的无线传感器网络节点的调度方法，其特征在于，所述根据所述样本环境状态和所述样本最优任务之间的对应关系通过预设卷积神经网络对预设卷积神经网络模型进行训练，以获得任务调度模型，具体包括：

将所述预设卷积神经网络模型输出的最优任务与所述对应关系中的样本最优任务进行对比；

3.如权利要求1所述的无线传感器网络节点的调度方法，其特征在于，所述获取所述无线传感器网络节点的当前环境状态，并根据所述当前环境状态和所述任务调度模型对所述无线传感器网络节点进行任务调度，具体包括：

4.一种无线传感器网络节点的调度设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的无线传感器网络节点的调度程序，所述无线传感器网络节点的调度程序被所述处理器执行时实现如权利要求1至3 中任一项所述的无线传感器网络节点的调度方法的步骤。

5.一种存储介质，其特征在于，所述存储介质上存储有无线传感器网络节点的调度程序，所述无线传感器网络节点的调度程序被处理器执行时实现如权利要求1至3中任一项所述的无线传感器网络节点的调度方法的步骤。

6.一种无线传感器网络节点的调度装置，其特征在于，所述无线传感器网络节点的调度装置包括：

样本获取模块，用于通过强化学习获取无线传感器网络节点的样本环境状态及对应的样本最优任务，其中，所述无线传感器网络节点为部署于无线传感器网络中的传感器节点，所述样本环境状态为所述无线传感器网络节点的各种环境状态，所述各种环境状态包括节点能量和节点位置信息；

模型训练模块，用于根据所述样本环境状态和所述样本最优任务之间的对应关系通过预设卷积神经网络对预设卷积神经网络模型进行训练，以获得任务调度模型；

任务调度模块，用于获取所述无线传感器网络节点的当前环境状态，并根据所述当前环境状态和所述任务调度模型对所述无线传感器网络节点进行任务调度；

所述样本获取模块，还用于获取无线传感器网络节点的马尔科夫五元组，从所述马尔科夫五元组中提取样本环境状态、预设回报函数和样本任务；

所述样本获取模块，还用于遍历所述样本环境状态，根据所述预设回报函数计算在所述样本环境状态下执行不同样本任务达到下一环境状态获得的期望回报；

所述样本获取模块，还用于将数值最大的期望回报作为所述样本环境状态的当前最优回报，将所述当前最优回报对应的样本任务作为当前最优样本任务；

所述样本获取模块，还用于判断所述当前最优回报是否收敛；

所述样本获取模块，还用于若所述当前最优回报未收敛，则将执行所述当前最优样本任务所达到的下一环境状态作为新的样本环境状态，并返回所述遍历所述样本环境状态下的样本任务的步骤；

所述样本获取模块，还用于若所述当前最优回报收敛，则将所述当前最优回报作为所述样本环境状态的样本最优回报；

所述样本获取模块，还用于获取所述预设回报函数的反函数，根据所述反函数和所述样本最优回报计算所述样本环境状态对应的样本最优任务；

所述样本获取模块，还用于遍历所述样本环境状态，根据所述预设回报函数计算在所述样本环境状态下执行不同样本任务达到下一环境状态获得的任务回报和所述下一环境状态的回报估值；

所述样本获取模块，还用于将所述任务回报和所述回报估值的和作为所述样本环境状态对应的期望回报。