CN109861720A

CN109861720A - 基于强化学习的wsn抗干扰方法、装置、设备和介质

Info

Publication number: CN109861720A
Application number: CN201910198676.9A
Authority: CN
Inventors: 唐玮圣; 马皛源; 魏建明
Original assignee: Shanghai Advanced Research Institute of CAS; University of Chinese Academy of Sciences
Current assignee: Shanghai Advanced Research Institute of CAS; University of Chinese Academy of Sciences
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-06-07
Anticipated expiration: 2039-03-15
Also published as: CN109861720B

Abstract

本申请提供的一种基于强化学习的WSN抗干扰方法、装置、设备和介质，通过预设初始跳频序列；初始化预设神经网络模型中的权重和偏置，并定义强化学习方法的参数；令待测WSN网络中所有节点依据所述初始跳频序列以测试数据进行发送或接收，并获取对应各所述节点传输情况的观察值；依据观察值采用随机梯度下降法、及反向传递放算法更新权重和参数、及参数，据以调整初始跳频序列并重复上一步骤，直至获得稳定的对应待测WSN网络的最终跳频序列。本申请能够针对无线传感网中节点的受干扰情况，逐渐学习到最佳的跳频序列以用于避开环境中干扰较强的信道，达到抗干扰的效果，同时可以将源节点的信息用尽量少的时间传递到目的节点，同时保证传输的可靠性。

Description

基于强化学习的WSN抗干扰方法、装置、设备和介质

技术领域

本申请涉及无线传感器网络通信技术领域。尤其是涉及一种基于强化学习的WSN抗干扰方法、装置、设备和介质。

背景技术

低功耗的无线传感器网(Wireless Sensor Network，WSN)在农业、工业自动化、环境监测、军事、智能家居等许多领域都得到了广泛的应用，并且开始越来越多地应用在对网络可靠性要求更高的应用上，例如车联网、智慧城市、智慧医疗等方面。然而，针对网络可靠性需求高的应用，无线传感网面对的一大挑战是越来越拥挤的免费ISM频段(是各国挪出某一段频段主要开放给工业，科学和医学机构使用，应用这些频段无需许可证或费用，只需要遵守一定的发射功率，并且不要对其它频段造成干扰即可)。和无线传感网设备处于同一频段的其他设备会对网络造成很大的干扰，造成网络的丢包率增加，时延和能耗显著提高。此外，各种网络攻击方式的出现，甚至可能会造成无线传感网完全无法发送数据。如何抵抗干扰，保持网络的较高可靠性成为了一个亟待解决的问题。

目前，大部分无线传感器网络采用经典的介质访问控制(Medium AccessControl,MAC) 方法CSMA/CA(Carrier-Sense Multiple Access with CollisionAvoidance)。在CSMA/CA下，如果有两个节点同时传输数据，由于这两个信号发生碰撞，接收节点会无法接收到有效信息。发生碰撞之后，发送节点会继续监听信道，并在等待一段随机时间之后重新发送信息。但是，如果网络中持续存在干扰信号，发送节点无法监听到空闲的信道，或是在发送信号之后，信号在接收节点处遭遇干扰信号，都会造成数据发送失败。

针对这个问题，目前比较有效的解决方法是采用并发传输和跳频的方法，许多节点按照预先设定的跳频序列跳到指定的信道上同时发送数据包，这样可以在某一个信道上产生一个强度更大的信号，根据Capture Effect原理，这个强度明显大于其他信号的信号将会被接收节点成功接收。

目前并发传输和跳频的方法在一定程度上可以抵抗周围的干扰信号。如针对特定种类的干扰信号通过设置对应的跳频序列，能够使无线传感器网络对这些特定种类的干扰信号或某些种类的干扰有非常好的抵抗效果。但是由于采用预先设定的跳频序列，其对整个网络环境中的其他种类干扰信号并不能都做到有效抵抗，例如对刚好分布在预设的跳频信道上的干扰，则抵抗效果则会不佳。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供一种基于强化学习的WSN抗干扰方法、装置、设备和介质，用于解决现有技术中跳频抗干扰机制的不足的问题。

为实现上述目的及其他相关目的，本申请提供一种基于强化学习的WSN抗干扰方法，所述方法包括：预设初始跳频序列；初始化预设神经网络模型中的权重和偏置，并定义强化学习方法的参数以作为所述神经网络模型中的变量；令待测WSN网络中所有节点依据所述初始跳频序列以测试数据进行发送或接收，并获取对应各所述节点传输情况的观察值；依据各所述观察值采用随机梯度下降法、及反向传递放算法更新所述神经网络模型的权重和参数、及强化学习方法的参数，据以调整所述初始跳频序列并重复上一步骤，直至获得稳定的对应所述待测WSN网络的最终跳频序列。

于本申请的一实施例中，所述参数包括：动作、状态、回报、及回合结束条件中任意一种或多种组合。

于本申请的一实施例中，定义所述待测WSN网络中各节点在下一个时隙选择的某一信道动作作为所述强化学习方法中的动作。

于本申请的一实施例中，定义观测得到的当前信道是否被占用的状态作为所述强化学习方法中的状态。

于本申请的一实施例中，定义发送测试数据时是否发生碰撞作为所述强化学习方法中的回报的依据；若发送测试数据时没有发生碰撞则所述回报为+1；若发送测试数据时发生碰撞则所述回报为-1。

于本申请的一实施例中，定义所述强化学习方法中所述回合结束条件为：在一定数量时隙内发生碰撞的时隙数量达到阈值，或所述待测WSN网络中的目的节点接收到所述待测 WSN网络中的源节点发来的测试数据。

于本申请的一实施例中，所述参数还包括：Q值、贪婪因子、折扣因子、学习率、及隐藏层数中任意一种或多种组合。于本申请的一实施例中，令待测WSN网络中所有节点依据所述初始跳频序列以测试数据进行发送或接收的方法还包括：依据所述初始跳频序列由所述待测WSN网络中的源节点发送测试数据；所述源节点传输范围内的各中继节点在接收到所述测试数据后，从下一个时隙开始转发以形成并发传输，并逐渐将所述测试数据广播到整个所述待测WSN网络，直至所述目的节点。

于本申请的一实施例中，所述方法还包括：在每一个时隙中，所有节点都处于依据初始跳频序列确定的同一信道中；和/或，各所述中继节点对于同一个所述测试数据连续发送不超过一定次数。

于本申请的一实施例中，所述神经网络模型包括：第一网络，用于获取对应各所述节点传输情况的观察值；第二网络，用于更新并保存所述神经网络模型的权重和偏置；记忆库，用于依据经验回放方法加快强化学习的速度并防止过拟合。

于本申请的一实施例中，所述第一网络与第二网络为包含3个全连接层的神经网络，并采用ReLU、SeLU、TanH、及Sigmoid中任意一个作为激活函数。

为实现上述目的及其他相关目的，本申请提供一种基于强化学习的WSN抗干扰装置，所述装置包括：神经网络模块，用于预设初始跳频序列；初始化预设神经网络模型中的权重和偏置，并定义强化学习方法的参数以作为所述神经网络模型中的变量；处理模块，用于令待测WSN网络中所有节点依据所述初始跳频序列以测试数据进行发送与接收，并获取对应各所述节点传输情况的观察值；依据各所述观察值采用随机梯度下降法、及反向传递放算法更新所述神经网络模型的权重和参数、及强化学习方法的参数，据以调整所述初始跳频序列并重复上一步骤，直至获得稳定的对应所述待测WSN网络的最终跳频序列。

于本申请的一实施例中，所述参数还包括：Q值、贪婪因子、折扣因子、学习率、及隐藏层数中任意一种或多种组合。。

于本申请的一实施例中，令待测WSN网络中所有节点依据所述初始跳频序列以测试数据进行发送或接收的功能还包括：依据所述初始跳频序列由所述待测WSN网络中的源节点发送测试数据；所述源节点传输范围内的各中继节点在接收到所述测试数据后，从下一个时隙开始转发以形成并发传输，并逐渐将所述测试数据广播到整个所述待测WSN网络，直至所述目的节点。

于本申请的一实施例中，所述功能还包括：在每一个时隙中，所有节点都处于依据初始跳频序列确定的同一信道中；和/或，各所述中继节点对于同一个所述测试数据连续发送不超过一定次数。

为实现上述目的及其他相关目的，本申请提供一种基于强化学习的WSN抗干扰设备，所述设备包括：存储器、处理器、及通信器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行时实现如上所述的基于强化学习的WSN抗干扰方法；所述通信器，用于与待测WSN网络中的各节点通信连接。

为实现上述目的及其他相关目的，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的基于强化学习的WSN抗干扰方法。

如上所述，本申请的一种基于强化学习的WSN抗干扰方法、装置、设备和介质，通过预设初始跳频序列；初始化预设神经网络模型中的权重和偏置，并定义强化学习方法的参数以作为所述神经网络模型中的变量；令待测WSN网络中所有节点依据所述初始跳频序列以测试数据进行发送或接收，并获取对应各所述节点传输情况的观察值；依据各所述观察值采用随机梯度下降法、及反向传递放算法更新所述神经网络模型的权重和参数、及强化学习方法的参数，据以调整所述初始跳频序列并重复上一步骤，直至获得稳定的对应所述待测WSN 网络的最终跳频序列。

具有以下有益效果：

能够针对无线传感网中节点的受干扰情况，逐渐学习到最佳的跳频序列以用于避开环境中干扰较强的信道，达到抗干扰的效果，并结合并发传输，可以将源节点的信息用尽量少的时间传递到目的节点，同时保证传输的可靠性。

附图说明

图1显示为本申请于一实施例中的基于强化学习的WSN抗干扰方法的流程示意图。

图2显示为本申请于一实施例中的基于强化学习的WSN抗干扰装置的模块示意图。

图3显示为本申请于一实施例中的基于强化学习的WSN抗干扰设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本申请的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本申请。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在本申请中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或” 被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C” 意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

无线传感器网络(Wireless Sensor Networks，WSN)是一种分布式传感网络，它的末梢是可以感知和检查外部世界的传感器。WSN中的传感器通过无线方式通信，因此网络设置灵活，设备位置可以随时更改，还可以跟互联网进行有线或无线方式的连接。通过无线通信方式形成的一个多跳自组织网络。WSN的发展得益于微机电系统(Micro-Electro-Mechanical System, MEMS)、片上系统(System on Chip,SoC)、无线通信和低功耗嵌入式技术的飞速发展。

鉴于如上所述WSN网络中存在的干扰问题，本申请提供一种基于强化学习的WSN抗干扰方法、装置、设备和介质，通过对WSN网络中存在的干扰情况进行学习，建立针对性的信道选择策略，并用于跳频序列之中，以此避开干扰较强的信道，选择最佳信道进行传输，以提高网络的包传递率和时延等性能，从而解决上述问题。

如图1所示，展示为本申请于一实施例中的基于强化学习的WSN抗干扰方法的流程示意图。如图所示，所述方法包括：

步骤S101：预设初始跳频序列。

用于控制载波频率跳变的地址码序列称为跳频序列，或称为跳频码。跳频序列的作用在于：1)控制频率跳变以实现频谱扩展；2)跳频组网时，采用不同的跳频序列作为地址码,发送端根据要通信的对象选择相应的地址码。当许多用户在同一频段同时跳频工作时，跳频序列是区分每个用户的唯一标志。

于本实施例中，预设初始跳频序列，可以随机预设初始跳频序列，具体的，可以在1-26 信道中抽取5个信道作为初始跳频序列，以用于初始的学习。

需要说明的是，由于本申请所述方法能够针对任意WSN网络通过神经网络的学习以获得抵抗对应该WSN网络的干扰信号，所以初始调频序列并无过多限制，可以是已针对某种类干扰信号特定的调频序列，也可以是通用或常见的调频序列，其仅作为初始的调频序列以用于初始学习。

步骤S102：初始化预设神经网络模型中的权重和偏置，并定义强化学习方法的参数以作为所述神经网络模型中的变量。

于本实施例中，强化学习方法的参数，在神经网络中是作为一个变量。例如state是神经网络的输入，动作action和Q值是神经网络的输出，而回报reward是计算Q值的公式中会用到。

于本申请的一实施例中，所述神经网络模型包括：

第一网络eval_net，用于获取对应各所述节点传输情况的观察值。具体地，可对应步骤 S103的流程。

第二网络target_net，用于更新并保存所述神经网络模型的权重和偏置。具体地，所述第二网络可以在若干个回合保存一次所述参数及其权重数值。

这里主要用于更新并保存神经网络模型的权重和偏置，而其他的初始化参数，例如学习率、隐藏层数等，不需要更新。

记忆库，用于依据经验回放(Experience replay)方法加快强化学习的速度并防止过拟合。

于本实施例中，所述记忆库的大小为可存储2000个训练样本的记忆库。具体来说，是训练过程中产生的强化学习方法的参数，如动作、状态、回报、回合结束条件、Q值等。

通常来讲，权重(参数)表征不同单元之间连接的强度。例如，如果从节点1到节点2的权重有较大量级，即意味着神经元1对神经元2有较大的影响力。相反如有权重为教小量级，则降低了输入值的重要性。权重近于0意味着改变这一输入将不会改变输出。负权重意味着增加这一输入将会降低输出。权重决定着输入对输出的影响力。

于本申请的一实施例中，所述第一网络与第二网络为包含3个全连接层的神经网络，并采用Relu作为激活函数。

具体来说，所述神经网络包括：输入层、隐藏层、及输出层。

所述输入层为神经网络的第一层。它接收输入信号(值)并将其传递至下一层，但不对输入信号(值)执行任何运算。它没有自己的权重值和偏置值。

所述隐藏层为隐藏层的神经元(节点)通过不同方式转换输入数据。一个隐藏层是一个垂直堆栈的神经元集。如假设有5个隐藏层，第1个隐藏层有4个神经元(节点)，第2 个5个神经元，第3个6个神经元，第4个4个神经元，第5个3个神经元。最后一个隐藏层把值传递给输出层。隐藏层中所有的神经元彼此连接，下一层的每个神经元也是同样情况，从而得到一个全连接的隐藏层。

所述输出层为神经网络的最后一层，接收来自最后一个隐藏层的输入。通过它可以得到合理范围内的理想数值。如神经网络的输出层有3个神经元，分别输出y1、y2、y3。

激活函数(迁移函数)负责为神经网络引入非线性特征。其把值压缩到一个更小范围，例如一个Sigmoid激活函数的值区间为[0,1]。深度学习中有很多激活函数，例如ReLU、SeLU、 TanH较Sigmoid更为常用。

强化学习(reinforcement learning)，又称再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。

但在传统的机器学习分类中没有提到过强化学习，而在连接主义学习中，把学习算法分为三种类型，即非监督学习(unsupervised learning)、监督学习(supervisedleaning)和强化学习。

于本申请的一实施例中，所述参数包括：动作(Action)、状态(State)、回报(Reward)、及回合结束条件(End Condition)中任意一种或多种组合。

于本实施例中，在每一个时隙中，所有节点都处于依据初始跳频序列或修改的初始跳频序列所确定的同一信道中。例如，上述举例中在1-26信道中抽取5个信道中的一个。

举例来说，节点的动作可记为a∈[1,N]，其中动作a表示选择编号为某一编号的信道进行通信，N表示可用的信道数量。例如，针对无线传感网通常的使用场景，这里N＝26。

于本申请的一实施例中定义观测得到的当前信道是否被占用的状态作为所述强化学习方法中的状态。

举例来说，定义回合结束条件为在过去10个时隙中有3个时隙发生碰撞。

需要说明的是，诸如所述待测WSN网络中各节点在下一个时隙选择的某一信道动作，观测得到的当前信道是否被占用的状态，发送测试数据时是否发生碰撞以及在一定数量时隙内发生碰撞的时隙数量达到阈值，所述待测WSN网络中的目的节点接收到所述待测WSN网络中的源节点发来的测试数据，这些信息均为所述步骤S103中对应各所述节点传输情况的观察值所涵盖的范畴。

于本申请的一实施例中，所述强化学习方法中的参数还包括：Q值、贪婪因子、及折扣因子中任意一种或多种组合。

于本实施例中，所述Q值通过对应动作作为输出对[动作值，Q值]，可以先将所有动作对应的Q值都初始化为0；初始化贪婪因子可以先初始化为0.9，折扣因子可以先初始化为 0.9。

于本实施例中，在实际测试中，当学习超过200回合之后，节点可以得到较为稳定的跳频序列，可以很好的避开干扰较强的信道。

步骤S103：令待测WSN网络中所有节点依据所述初始跳频序列以测试数据进行发送或接收，并获取对应各所述节点传输情况的观察值。

在完成步骤S101、及S102后，则通过待测WSN网络的数据传输测试或训练来进行学习。

具体测试或训练如下：

A、依据所述初始跳频序列由所述待测WSN网络中的源节点发送测试数据；

B、所述源节点传输范围内的各中继节点在接收到所述测试数据后，从下一个时隙开始转发以形成并发传输，并逐渐将所述测试数据广播到整个所述待测WSN网络，直至所述目的节点。

需要说明的是，步骤B中的并发传输也是申请所述方法中重要的一个策略，所述并发传输策略采用基于Constructive Interference(相长干涉)的并发传输机制，针对源节点采集到的信息，网络中的所有中继节点根据跳频序列在每一个时隙中跳频到指定的信道中同时发送数据包，由于Constructive Interference的效果，将会在指定信道中合成一个强度非常大的信号，根据Capture Effect原理，当这个信号的强度比所有干扰信号的强度之和大3dB以上时，接收节点就可以正确地解析出信号的内容，以此来达到抗干扰的效果。

并发是看起来是同时进行了，但实际是处理器在多个任务之间的高速来回移动。在两波重叠时，合成波的振幅大于成分波的振幅者，称为相长干涉或建设性干涉。若两波刚好同相干涉，会产生最大的振幅，称为完全相长干涉或完全建设性干涉(fullyconstructive interference)，其公式为：W₁+W₂＝2A cos(kx-wt)。物理含义上,相长干涉可以认为两个一样地波向着同一个方向传播。

Capture Effect，捕获效应是指在一个FM系统中，当两个信号在接收端具有几乎相等的幅度时，发生的一种现象。相对幅度的较小差别会使得两个信号中较强的一个占据支配地位，在解调输出端取代另一个信号。当收听存在远距离FM基站发射的具有共信道干扰信号时，就可以感受到这种影响。

故本申请所述方法结合并发传输，可以将源节点的信息用尽量少的时间传递到目的节点，从而保证传输的可靠性。

于本实施例中，所述步骤S102中所提到诸如所述待测WSN网络中各节点在下一个时隙选择的某一信道动作，观测得到的当前信道是否被占用的状态，发送测试数据时是否发生碰撞以及在一定数量时隙内发生碰撞的时隙数量达到阈值，所述待测WSN网络中的目的节点接收到所述待测WSN网络中的源节点发来的测试数据，这些信息均为所述步骤S103中对应各所述节点传输情况的观察值所涵盖的范畴。

具体地，通过与所述待测WSN网络中各通信节点(传感器节点)通信连接，实现实时获取对应各所述节点传输情况的观察值。

于本申请的一实施例中，所述步骤S103还包括：

在每一个时隙中，所有节点都处于依据初始跳频序列确定的同一信道中；和/或，各所述中继节点对于同一个所述测试数据连续发送不超过一定次数。

举例来说，各所述中继节点对于同一个所述测试数据连续发送不超过3次。

步骤S104：依据各所述观察值采用随机梯度下降法、及反向传递放算法更新所述神经网络模型的权重和参数、及强化学习方法的参数，据以调整所述初始跳频序列并重复上一步骤，直至获得稳定的对应所述待测WSN网络的最终跳频序列。

每次更新都需要遍历所有数据，当数据量太大或者一次无法获取全部数据时，这种方法并不可行。解决这个问题基本思路是：只通过一个随机选取的数据来获取“梯度”，以此进行更新。这种优化方法叫做随机梯度下降。

需要说明的是，在前向传播之后得到一个输出值，即预测值。为了计算误差我们对比了带有真实输出值的预测值。常使用一个损失函数计算误差值，接着计算出每个误差值的导数和神经网络的每个权重。而反向传播或反向传递运用微分学中的链式法则，其中，首先计算最后一层中每个误差值的导数。调用这些导数、梯度，并使用这些梯度值计算倒数第二层的梯度，并重复这一过程直到获得梯度以及每个权重。接着从权重值中减去这一梯度值以降低误差。通过这种方式我们不断接近局部最小值(即最小损失)。

举例来说，在t＝0的时刻，由源节点开始发送测试数据。待测WSN网络中所有节点使用初始跳频序列进行测试数据的发送和接收，在每一个时隙中，所有节点都处于根据初始跳频序列确定的同一信道中。在源节点传输范围内的中继节点在接收到数据之后，从下一个时隙开始转发，形成并发传输，逐渐将数据包广播到全网。每个节点对于同一个数据包连续发送 3次。

从t＝0时刻开始学习过程。这里使用强化学习的DQN方法(Deep Q Network)，具体学习步骤包括：

(1)在t时刻，节点记录根据跳频序列选择的当前信道是否被占用，作为状态s_t，并根据Q函数选择相应的动作a_t。此处根据贪婪因子，有0.9的概率选择Q值更大的动作作为下一个动作，有0.1的概率随机选取其他动作；

(2)Q值的更新根据公式

Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+1+γmax Q(s_t+1,a_t+1)-Q(s_t,a_t)]；

其中，a是采取的动作(Action)，s是观察到的所处状态(State)，r是获得的回报(Reward)， Q(s_t,α_t)是t时刻的Q值，α是学习率，γ是折扣因子，maxQ(s_t+1,a_t+1)在下一个时间点(状态s_t+1时)采取了动作a_t+1之后，最大的期望回报；

(3)损失函数定义为loss＝(r_t+γmax Q(s_t+1,a_t+1,w)-Q(s_t,a_t,w))²；

(4)将s_t、a_t、r_t、s_t+1序列存入所述神经网络模块的记忆库中，并随机从记忆库中取样进行再次学习；

(5)每隔200步，使用第二网络eval_net的最新参数值更新第一网络target_net的参数。

综上，采用随机梯度下降法，利用神经网络的反向传递更新权重参数，直到学习到稳定的跳频序列。网络中的节点使用学习到的跳频序列，可以避开干扰较大的信道。从而实现针对性地选择跳频序列，达到最佳的抗干扰效果，并通过使用最佳信道进行传输来提高网络的包传递率和时延等性能。

在一些实施方式中，所述基于强化学习的WSN抗干扰方法可应用于控制器，例如：ARM 控制器、FPGA控制器、SoC控制器、DSP控制器、或者MCU控制器等等。在一些实施方式中，所述基于强化学习的WSN抗干扰方法也可应用于包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O) 子系统、显示屏、其他输出或控制设备，以及外部端口等组件的计算机；所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal DigitalAssistant，简称PDA)等个人电脑。在另一些实施方式中，所述基于强化学习的WSN 抗干扰方法还可应用于服务器，所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上，也可以由分布的或集中的服务器集群构成。

如图2所示，展示本申请实施例中的基于强化学习的WSN抗干扰装置的模块示意图。如图所示，所述装置200包括：

神经网络模块201，用于预设初始跳频序列；初始化预设神经网络模型中的权重和偏置，并定义强化学习方法的参数以作为所述神经网络模型中的变量；

处理模块202，用于令待测WSN网络中所有节点依据所述初始跳频序列以测试数据进行发送与接收，并获取对应各所述节点传输情况的观察值；依据各所述观察值采用随机梯度下降法、及反向传递放算法更新所述神经网络模型的权重和参数、及强化学习方法的参数，据以调整所述初始跳频序列并重复上一步骤，直至获得稳定的对应所述待测WSN网络的最终跳频序列。

需要说明的是，本实施例的基于强化学习的WSN抗干扰装置的实施方式，与上文中基于强化学习的WSN抗干扰方法的实施方式类似，故不再赘述。

应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，处理模块202可以为单独设立的处理元件，也可以集成在上述系统的某一个芯片中实现，此外，处理模块202也可以以程序代码的形式存储于上述系统的存储器中，由上述系统的某一个处理元件调用并执行以上分类器模型训练模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统 (system-on-a-chip，简称SOC)的形式实现。

如图3所示，展示本申请一实施例中基于强化学习的WSN抗干扰设备的结构示意图。所述设备300包括：存储器301及处理器302，所述存储器301存储有计算机程序，所述处理器302用于执行所述存储器301存储的计算机程序，以使所述设备执行时实现如图1所述的基于强化学习的WSN抗干扰方法；所述通信器303，用于与待测WSN网络中的各节点通信连接。

于本实施例中，所述待测WSN网络中的各节点具体为传感器节点。通过与各节点通信以实施获取对应各所述节点传输情况的观察值。

包括多种类型的传感器节点。例如，可探测包括地震、电磁、温度、湿度、噪声、光强度、压力、土壤成分、移动物体的大小、速度和方向等周边环境中多种多样的现象，并且还包括一些能够采集更加丰富的视频、音频、图像等信息的传感器节点。

所述存储器301可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

所述处理器302可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable GateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

所述通信器303用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信连接。所述通信器303可包含一组或多组不同通信方式的模块。所述通信连接可以是一个或多个有线/无线通讯方式及其组合。通信方式包括：互联网、CAN、内联网、广域网 (WAN)、局域网(LAN)、无线网络、数字用户线(DSL)网络、帧中继网络、异步传输模式(ATM) 网络、虚拟专用网络(VPN)和/或任何其它合适的通信网络中的任何一个或多个。例如：WIFI、蓝牙、NFC、GPRS、GSM、及以太网中任意一种及多种组合。

为实现上述目的及其他相关目的，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如图1所述的基于强化学习的WSN抗干扰方法。

所述计算机可读存储介质，本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请的一种基于强化学习的WSN抗干扰方法、装置、设备和介质，通过预设初始跳频序列；初始化预设神经网络模型中的权重和偏置，并定义强化学习方法的参数以作为所述神经网络模型中的变量；令待测WSN网络中所有节点依据所述初始跳频序列以测试数据进行发送或接收，并获取对应各所述节点传输情况的观察值；依据各所述观察值采用随机梯度下降法、及反向传递放算法更新所述神经网络模型的权重和参数、及强化学习方法的参数，据以调整所述初始跳频序列并重复上一步骤，直至获得稳定的对应所述待测WSN 网络的最终跳频序列。

本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于强化学习的WSN抗干扰方法，其特征在于，所述方法包括：

预设初始跳频序列；

初始化预设神经网络模型中的权重和偏置，并定义强化学习方法的参数以作为所述神经网络模型中的变量；

令待测WSN网络中所有节点依据所述初始跳频序列以测试数据进行发送或接收，并获取对应各所述节点传输情况的观察值；

依据各所述观察值采用随机梯度下降法、及反向传递放算法更新所述神经网络模型的权重和参数、及强化学习方法的参数，据以调整所述初始跳频序列并重复上一步骤，直至获得稳定的对应所述待测WSN网络的最终跳频序列。

2.根据权利要求1所述的基于强化学习的WSN抗干扰方法，其特征在于，所述参数包括：动作、状态、回报、及回合结束条件中任意一种或多种组合。

3.根据权利要求2所述的基于强化学习的WSN抗干扰方法，其特征在于，定义所述待测WSN网络中各节点在下一个时隙选择的某一信道动作作为所述强化学习方法中的动作。

4.根据权利要求2所述的基于强化学习的WSN抗干扰方法，其特征在于，定义观测得到的当前信道是否被占用的状态作为所述强化学习方法中的状态。

5.根据权利要求2所述的基于强化学习的WSN抗干扰方法，其特征在于，定义发送测试数据时是否发生碰撞作为所述强化学习方法中的回报的依据；若发送测试数据时没有发生碰撞则所述回报为+1；若发送测试数据时发生碰撞则所述回报为-1。

6.根据权利要求2所述的基于强化学习的WSN抗干扰方法，其特征在于，定义所述强化学习方法中所述回合结束条件为：在一定数量时隙内发生碰撞的时隙数量达到阈值，或所述待测WSN网络中的目的节点接收到所述待测WSN网络中的源节点发来的测试数据。

7.根据权利要求1所述的基于强化学习的WSN抗干扰方法，其特征在于，所述参数还包括：Q值、贪婪因子、折扣因子、学习率、及隐藏层数中任意一种或多种组合。

8.根据权利要求1所述的基于强化学习的WSN抗干扰方法，其特征在于，令待测WSN网络中所有节点依据所述初始跳频序列以测试数据进行发送或接收的方法还包括：

依据所述初始跳频序列由所述待测WSN网络中的源节点发送测试数据；

所述源节点传输范围内的各中继节点在接收到所述测试数据后，从下一个时隙开始转发以形成并发传输，并逐渐将所述测试数据广播到整个所述待测WSN网络，直至所述目的节点。

9.根据权利要求8所述的基于强化学习的WSN抗干扰方法，其特征在于，所述方法还包括：

10.根据权利要求1所述的基于强化学习的WSN抗干扰方法，其特征在于，所述神经网络模型包括：

第一网络，用于获取对应各所述节点传输情况的观察值；

第二网络，用于更新并保存所述神经网络模型的权重和偏置；

记忆库，用于依据经验回放方法加快强化学习的速度并防止过拟合。

11.根据权利要求10所述的基于强化学习的WSN抗干扰方法，其特征在于，所述第一网络与第二网络为包含3个全连接层的神经网络，并采用ReLU、SeLU、TanH、及Sigmoid中任意一个作为激活函数。

12.一种基于强化学习的WSN抗干扰装置，其特征在于，所述装置包括：

神经网络模块，用于预设初始跳频序列；初始化预设神经网络模型中的权重和偏置，并定义强化学习方法的参数以作为所述神经网络模型中的变量；

处理模块，用于令待测WSN网络中所有节点依据所述初始跳频序列以测试数据进行发送与接收，并获取对应各所述节点传输情况的观察值；依据各所述观察值采用随机梯度下降法、及反向传递放算法更新所述神经网络模型的权重和参数、及强化学习方法的参数，据以调整所述初始跳频序列并重复上一步骤，直至获得稳定的对应所述待测WSN网络的最终跳频序列。

13.根据权利要求12所述的基于强化学习的WSN抗干扰装置，其特征在于，所述参数包括：动作、状态、回报、及回合结束条件中任意一种或多种组合。

14.根据权利要求13所述的基于强化学习的WSN抗干扰装置，其特征在于，定义所述待测WSN网络中各节点在下一个时隙选择的某一信道动作作为所述强化学习方法中的动作。

15.根据权利要求13所述的基于强化学习的WSN抗干扰装置，其特征在于，定义观测得到的当前信道是否被占用的状态作为所述强化学习方法中的状态。

16.根据权利要求13所述的基于强化学习的WSN抗干扰装置，其特征在于，定义发送测试数据时是否发生碰撞作为所述强化学习方法中的回报的依据；若发送测试数据时没有发生碰撞则所述回报为+1；若发送测试数据时发生碰撞则所述回报为-1。

17.根据权利要求13所述的基于强化学习的WSN抗干扰装置，其特征在于，定义所述强化学习方法中所述回合结束条件为：在一定数量时隙内发生碰撞的时隙数量达到阈值，或所述待测WSN网络中的目的节点接收到所述待测WSN网络中的源节点发来的测试数据。

18.根据权利要求12所述的基于强化学习的WSN抗干扰装置，其特征在于，所述参数还包括：Q值、贪婪因子、折扣因子、学习率、及隐藏层数中任意一种或多种组合。

19.根据权利要求12所述的基于强化学习的WSN抗干扰装置，其特征在于，令待测WSN网络中所有节点依据所述初始跳频序列以测试数据进行发送或接收的功能还包括：

20.根据权利要求19所述的基于强化学习的WSN抗干扰装置，其特征在于，所述功能还包括：

21.根据权利要求12所述的基于强化学习的WSN抗干扰装置，其特征在于，所述神经网络模型包括：

第一网络，用于获取对应各所述节点传输情况的观察值；

22.根据权利要求21所述的基于强化学习的WSN抗干扰装置，其特征在于，所述第一网络与第二网络为包含3个全连接层的神经网络，并采用ReLU、SeLU、TanH、及Sigmoid中任意一个作为激活函数。

23.一种基于强化学习的WSN抗干扰设备，其特征在于，所述设备包括：存储器、处理器、及通信器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行时实现如权利要求1至11中任意一项所述的基于强化学习的WSN抗干扰方法；所述通信器，用于与待测WSN网络中的各节点通信连接。

24.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至11中任意一项所述的基于强化学习的WSN抗干扰方法。