CN113938978B

CN113938978B - 一种基于强化学习的异构无线传感器寻路方法

Info

Publication number: CN113938978B
Application number: CN202111495257.5A
Authority: CN
Inventors: 王登辉; 赵军辉; 杨辰月; 易玉萍; 万娜
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2023-12-12
Anticipated expiration: 2041-12-08
Also published as: CN113938978A

Abstract

本发明公开了一种基于强化学习的异构无线传感器寻路方法，涉及车联网数据传输技术领域，以网格形式均匀划分车联网无线传感器网络，获得虚拟网格，选取每个虚拟网格内服务质量最高的传感器节点，以该传感器节点作为对应虚拟网格的簇头，连接各个虚拟网格的簇头，得到安全系数高、能耗较少的路径。通过构建一种基于车联网感知层的信任评估模型进行信任度的评估，量化了节点传输信息的行为，并采用了自身上报和环境评估并重的方式进行信任评估，在信任评估完成后，依据反馈系统对节点的信任度进行实时更新，并通过路由协议，根据信任度与传输距离为节点传递信息选出安全系数高、能耗较少的路径，从而实现车联网消息的安全传输。

Description

一种基于强化学习的异构无线传感器寻路方法

技术领域

本发明涉及车联网数据传输技术领域，特别涉及一种基于强化学习的异构无线传感器寻路方法。

背景技术

近年来，随着计算机技术、传感技术以及信息技术的发展，车联网的应用得到广泛开发，如交通效率与管理、驾驶员行驶安全以及满足驾驶人和乘客的商业娱乐等方面的应用。为了保障上述应用的实行，车联网借助于各种传感技术、无线通信等技术实现实时、高效、能耗低的安全数据传输，相比于传统的网络节点，车联网中负责感知与通信的无线传感器节点具有功能与通信场景多样化等特点，但现有的车联网数据传输的安全保障并没有达到实际应用的要求，其节点也存在受到攻击的风险，给异构无线传感器网络HWSN的安全防护带来了新的挑战。

传统手段中的信任度的计算或是偏重于考虑传统同构无线传感器网络，仅设计与该场景相适应的信任评估和聚合算法，又或是部分或局部忽略了对传输过程中能耗，QoS等的考虑，而不适用于车联网的异构环境。在车联网网络环境下，为了确保节点的信任值的准确性，往往需要引入多个信任因子对节点进行全面评价，而评估中考虑的信任因子越多，给网络中信誉中心与节点带来的计算与存储的负担越大，现有路由协议中缺乏一种平衡考虑多方因素且适用于车联网无线传感器网络HWSN中的方案。

为了满足现有的大规模、节点种类多样的车联网架构以及车联网对于数据安全性的要求，本申请提出了一种基于强化学习的异构无线传感器寻路方法，采用信任评估模型量化节点传输信息的行为，采用了自身上报和环境评估并重的方式进行信任评估，并通过路由协议，根据信任度与传输距离为节点传递信息选出安全系数高、能耗较少的路径，从而实现车联网消息的安全传输。

发明内容

本发明的目的在于提供一种基于强化学习的异构无线传感器寻路方法，采用信任评估模型量化节点传输信息的行为，采用了自身上报和环境评估并重的方式进行信任评估，并通过路由协议，根据信任度与传输距离为节点传递信息选出安全系数高、能耗较少的路径，从而实现车联网消息的安全传输。

本发明提供了一种基于强化学习的异构无线传感器寻路方法，包括以下步骤：

设置车联网无线传感器网络的异构网络环境；

以网格形式均匀划分车联网无线传感器网络，获得若干个虚拟网格；

选取每个虚拟网格内服务质量最高的传感器节点，以该传感器节点作为对应虚拟网格的簇头；

采用两层分簇网络结构的信任评估模型进行簇头的信任度评估，得到簇头的信任度；

基于信任度与传输距离最小化原则，为传感器节点传递信息选取路径，连接路径上各个虚拟网格的簇头。

进一步地，所述选取每个虚拟网格内服务质量最高的传感器节点，以该传感器节点作为对应虚拟网格的簇头，包括：

采用无模型的强化学习算法选取每个虚拟网格内服务质量最高的传感器节点；

以选取出的传感器节点作为对应虚拟网格的簇头。

进一步地，所述采用无模型的强化学习算法选取每个虚拟网格内服务质量最高的传感器节点的步骤，包括：

选定传感器节点作为强化学习算法的代理；

确定和代理不断进行交互反馈的外部环境，所述外部环境包括无线传感器网络的无线信道特性和数据流；

代理与外部环境持续进行交互，获得交互的动作和状态；

代理选择动作执行；

外部环境针对选择的动作产生新的状态和奖赏；

外部环境将新的状态返还给代理，将奖赏返回给代理；

代理根据返回的奖赏确定服务质量最高的节点。

进一步地，所述以网格形式均匀划分车联网无线传感器网络，获得虚拟网格的步骤，包括：

车联网无线传感器网络的传感器节点处均设置GPS定位模块；

以网格形式均匀划分车联网无线传感器网络，得到若干个均等的虚拟网格。

进一步地，还包括：

若干个均等的虚拟网格均设置标识网络序号GID和簇头GC，所述簇头GC用于网格间的数据传播与管理。

进一步地，还包括：

划分车联网无线传感器网络内所有传感器节点的初始能量，得到三个能级。

进一步地，所述划分车联网无线传感器网络内所有传感器节点的初始能量，得到三个能级，包括：

第1能级1-energy-level，采用E₁表示，E₁节点用于接收和发送文本信息，E₁节点的初始能量设置为E_init-1；

第2能级2-energy-level，采用E₂表示，E₂节点用于传输文本信息，和用于提供图像和视频信息，E₂节点的初始能量设置为E_init-2；

第3能级3-energy-level，采用E₃表示，E₃节点用于处理传输高分辨率的图片，E₃节点的初始能量设置为E_init-3。

进一步地，还包括：

任意两个邻近的网格之间的长度均不超过节点的最大覆盖范围。

与现有技术相比，本发明具有如下显著优点：

本发明提供了一种基于强化学习的异构无线传感器寻路方法，以网格形式均匀划分车联网无线传感器网络，获得虚拟网格，选取每个虚拟网格内服务质量最高的传感器节点，以该传感器节点作为对应虚拟网格的簇头，连接各个虚拟网格的簇头，得到安全系数高、能耗较少的路径。通过构建一种基于车联网感知层的信任评估模型进行信任度的评估，该模型在信任计算方面综合考虑了节点自身上报与周围环境评估所得信任因子，并以其为信任度计算的依据，使用了较少的能量资源，从而延长网络寿命。该模型相较于传统信任评估模型能够减少节点对于簇中的其他节点的信任评估所需要的存储与计算，从而减少了其计算任务与存储负担，降低HWSN整体能耗，并提升传感器网络的安全与性能，根据信任度与传输距离为节点传递信息选出安全系数高、能耗较少的路径，从而实现车联网消息的安全传输。

附图说明

图1为本发明实施例提供的一种基于强化学习的异构无线传感器寻路方法的网格划分图；

图2为本发明实施例提供的网格长度与节点最大覆盖范围关系图；

图3为本发明实施例提供的强化学习框架图；

图4为本发明实施例提供的传统分簇图；

图5为本发明实施例提供的强化学习分簇图；

图6为本发明实施例提供的恶意节点数量的直方图；

图7为本发明实施例提供的E1和E2节点占75％的模拟图一；

图8为本发明实施例提供的E1和E2节点的模拟图二；

图9为本发明实施例提供的E1和E2节点的模拟图三。

具体实施方式

下面结合本发明中的附图，对本发明实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

由于城市车联网中多种跨网接入并存、节点跨网移动交互使得节点间的信任关系充满不确定性。

本申请提供的信任评估模型信任度评估体系综合考虑了节点的行为、消息和环境等因素，量化了节点传输信息的行为，并采用了自身上报和环境评估并重的方式进行信任评估，且自身上报和环境评估的权重可以根据节点自身的状态自行调整，在信任评估完成后，依据反馈系统对节点的信任度进行实时更新，并通过路由协议，根据信任度与传输距离为节点传递信息选出安全系数高、能耗较少的路径，从而实现车联网消息的安全传输。

异构环境作为车联网的传感设备，车联网感知层拥有各类用于感知的技术，其中使用最多的是无线多媒体传感器网络(Wireless Multimedia Sensor Networks，简称WMSN)技术。

WMSN就是在原有的无线传感器网络上添加了多媒体感知器来感知音视频等信息的新型网络。因此，WMSN具有大量丰富的传感信息，能达到细粒度、高精准度的监控，可以将其应用在智能监测、医护治疗、目标追踪等场景。

WMSN开拓了广阔的应用市场，因此许多研究者在提高WMSN网络效率、优化WMSN网络能耗、保障WMSN服务质量(Quality ofService，简称QoS)等方面开展了研究。特别是，为满足不同网络服务要求而出现的QoS一直是WMSN研究的重点。然而，WMSN因其添加了多媒体信息，从而造成了网络的异构环境。

参照图1-图9，本发明提供了一种基于强化学习的异构无线传感器寻路方法，包括以下步骤：

步骤1：设置车联网无线传感器网络的异构网络环境，无线传感器网络WMSN的节点随机地散布在网络中，每一个节点都有一个全向天线；

步骤2：参照图1，以网格形式均匀划分车联网无线传感器网络，获得若干个虚拟网格，其中，任意两个邻近的网格之间的长度均不超过节点的最大覆盖范围，网格的大小可通过实际需求自行进行调整，如图2所示，节点可以直接与它相邻的8个网格单元之间进行通信；获得虚拟网格的步骤，包括：

步骤201：车联网无线传感器网络的传感器节点处均设置GPS定位模块，获取虚拟的定位信息；

步骤202：以网格形式均匀划分车联网无线传感器网络，得到若干个均等的虚拟网格。

步骤203：若干个均等的虚拟网格均设置标识网络序号(Grid IdentificationNumber，简称GID)和簇头GC，所述簇头GC用于网格间的数据传播与管理，负责在其他簇头中传播数据并且管理其网格中的所有节点成员。节点均可利用GPS确定其GID，处于同一个网格内的节点GID相同。

假设节点的最大覆盖范围是R，网格的长度L可用下式来表示：

使用一对数字对来表征网格的GID，将sink节点所处的位置设置为虚拟坐标上的原点，则其他节点可根据与sink节点的相对地理位置来获取自己的虚拟坐标。经由广播将sink节点和每一个网格中心点的所处的位置通告给网格内的全部节点，然后将各节点的位置和sink节点进行对照，便能得到节点k的相对位置。节点k的GID可利用下式得到：

式中：L表示网格的长度；(x_k，y_k)表示节点k的坐标；(X，Y)表示节点k的GID。节点k可以将自己所属网格几何中心的地理位置信息及其GID广播到其传输范围内的所有邻居节点。

步骤3：选取每个虚拟网格内服务质量最高的传感器节点，以该传感器节点作为对应虚拟网格的簇头；包括：

步骤301：采用无模型的强化学习算法，即Q-learning算法选取每个虚拟网格内服务质量最高的传感器节点，可以用于寻找有限马尔可夫决策过程中的最优动作策略，即使代理事先不知道其动作对环境的影响；选取步骤包括：

步骤3011：选定传感器节点作为强化学习算法的代理；

步骤3012：确定和代理不断进行交互反馈的外部环境，所述外部环境包括无线传感器网络的无线信道特性和数据流；

步骤3013：代理与外部环境持续进行交互，获得交互的动作和状态，动作定义为：Action(a)：A＝{a}，a∈{IS_CLUSTER，NOT_CLUSTER}，式中：A表示所有可能的动作集，IS_CLUSTER表示该节点被选为簇头，NOT_CLUSTER表示该节点没有被选出簇头。状态定义为：State(s)：S＝{s}，s∈[1，65]，式中：S表示所有可能的状态集；

步骤3014：代理选择动作执行；

步骤3015：外部环境针对选择的动作产生新的状态和奖赏；

步骤3016：外部环境将新的状态返还给代理，将奖赏返回给代理；

步骤3017：代理根据返回的奖赏确定服务质量最高的节点。

步骤302：以选取出的传感器节点作为对应虚拟网格的簇头。

簇头节点是连接整个网络数据传输的关键，其主要任务是进行簇内传输以及簇间通信，因此，选举簇头是分簇路由算法中最重要的步骤。传统的分簇方法不能很好地适应这种复杂多变的异构环境拓扑结构，因此本申请采用轻量级的强化学习算法来动态地选举网格簇头，使其在提高服务质量QoS的同时更加适应异构环境。

强化学习是在交互中学习的一个过程。它没有被告知什么动作应该要被做，而是通过不断地试错来发现选择什么样的动作可以产生最大的奖赏值，这也是它与监督学习最大的差异。即强化学习不存在所谓的标签值，而是通过在实践中自主寻找地最佳行动方案。

强化学习是机器学习的一个领域，涉及代理如何从与其环境的直接互动中学习，而不依赖于示范性的监督或完整的模型环境，以实现长期目标。它在人工智能、机器学习、自动控制等领域得到了广泛的研究和应用。

强化学习使用一个正式的框架来定义学习代理与其环境在状态、行动和奖励方面的相互作用。随着时间的推移，代理可以利用其经验来提高其性能。

强化学习代理及其环境通过一系列离散时间步骤相互作用。在每个时步t，代理接收环境状态s_t∈S的表达式，其中S是可能的状态集，并在此基础上选择一个动作a_t∈A(s_t)，其中A(s_t)是在状态S_t下所有可能的动作集。一个单位时步后，作为动作的结果，代理将收到一个奖励r_t+1∈R并发现其处于一个新的状态。

所有的强化学习算法都是基于代价函数评判它的好坏。策略π是代理选择动作作为状态函数的规则。

策略是从每个状态S_t∈S到在状态st下采取动作a_t∈A(s_t)的概率π(s_t，a_t)的映射。根据策略π(s_t，a_t)在状态S_t下采取动作a_t的值，表示为Q^π(s_t，a_t)：

其中E_π{}表示代理根据策略π的期望，γ是一个参数，被称为决定未来奖励的折扣因子，0≤γ≤1。

代理的目标是为了使长期获得的总奖励值最大化，因此需要找到所有的能实现在长期获得大量奖励的最优策略π^*。最优策略的最优动作一状态值函数相同，表示为Q^*，定义为：

参照图3，展现了强化学习框架。在该框架中，学习者被叫作代理，和代理不断地进行交互反馈的外部事物则被叫作环境。强化学习的过程就是代理与环境之间持续地进行交互的过程：代理选择一个动作并执行它，然后环境会对该动作做出相应的反应并将一个新的状态返还给代理。与此同时，环境也将奖赏返回给代理。因此，强化学习系统中最关键的五要素分别为：代理、环境、动作、状态及奖赏。

步骤4：采用两层分簇网络结构的信任评估模型进行簇头的信任度评估，得到簇头的信任度；

步骤5：基于信任度与传输距离最小化原则，为传感器节点传递信息选取路径，连接路径上各个虚拟网格的簇头。

实施例1

划分车联网无线传感器网络内所有传感器节点的初始能量，得到三个能级，包括：

节点的能级越高，其能力就越强。相同能级的节点最开始的能量均是一样的，每个节点都知道自己的能级以及它在任意给定时刻的剩余能量，且节点可以根据能量消耗来决定是否进入待机睡眠模式。在该类状况下，网络的拓扑是在持续动态改变的，因此选举固定不变的节点作为网格簇头是不可能的。

在无线传感器网络WMSN中，其整体能耗E定义如下：

E＝N₁E_{e_1}+N₂E_{e_2}+N₃E_{e_3}

式中：E_{e_1}为E₁节点的能耗；E_{e_2}为E₂节点的能耗；E_{e_3}为E₃节点的能耗，N₁表示E₁节点的数量；N₂表示E₂节点的数量；N₃表示E₃节点的数量。

当传输s比特(bit)的数据包时，E₁节点所需的能耗可以表示为：

E_{e_1}＝s(E_receive+E_send)+E_RL

式中：E_receive表示接收单位bit数据所需的能量；E_send表示发送单位bit数据所需的能量；E_RL表示运行强化学习所需的能量。

实施例2

选取每个虚拟网格内服务质量最高的传感器节点，以该传感器节点作为对应虚拟网格的簇头：

具体包括65种状态，表示仿真区域被均分成了64个等同的虚拟网格，其中网格序号分别是从1到64，每个代理的初始状态就是其所属网格的网格序号，当网格内所有的节点都循环遍历一遍之后，该代理的目标状态变为网格序号加1，表示循环遍历下一个网格内全部的节点。因此当状态s＝65时，表示所有网格内的节点都循环遍历过一遍，此时每个网格内都已经选出簇头，终止算法。

Q-leaning算法以Q值表的方式来呈现，它可以表示为Q(s，a)，代表在状态s下行动a所能带来的长期奖赏值。因此，根据上面所提出的系统，可得到一个2×65大小的Q值表。首先，初始化Q值表，然后再依据动作的奖赏值来更新Q值表内的相应值。

在学习阶段，代理采取一个动作a，它的状态就会从s变为s′。例如，当代理所属的网格序号为1时，其初始状态s也为1，它可以选择一个动作a来决定是否成为簇头，如果成为簇头，则下一个状态s′变为2，表示该网格内已经选出簇头，将为下一个网格选簇头；如果该网格内仍没有簇头，则下一个状态s′仍为1，表示继续为该网格选簇头。

代理在选择执行动作时，并非随便选择，而是按照特定的行动选择策略来选择的。Q-learning遵照的是ε_-贪心法则来选择动作，这是一种在决策中常见的策略。它用于选择具有较高的估计动作值的动作，即以随机、均匀、独立于动作值估计的方式选择动作。ε_-贪心法则表示以ε的几率随机来选择动作，以1-ε的几率选择目前状态下影响力最大的动作。例如，当ε＝0.1时，表明以0.9的几率依据Q值表的最大值来选择执行的动作，而剩下的0.1的几率将随机地选定实施的行动。

当选定动作之后，代理将根据选定的动作得到奖赏。出于所研究的是异构WMSN的考虑，因此，奖赏函数r的表达式如下：

式中：λ₁表示E₁节点的折扣因子，λ₂表示E₂节点的折扣因子，λ₃表示E₃节点的折扣因子，C_rel表示节点的可靠性，C_del表示节点的时延。

节点的可靠性C_rel可以用接收到的数据包数与总数据包数之比(即丢包率)来表示：

式中：P_receive表示接收到的数据包数，P_N表示总数据包数。C_rel是0到1之间的实数。

节点的时延D可以用下式来表示：

D＝D_s+D_L+D_t+D_r

式中：D_s表示发送时延，D_t表示传播时延，D_L表示处理时延，D_r表示排队时延。其中，D_s可通过数据包长度和数据率计算获得，D_L可通过链路长度和传输率计算获得，而D_r和D_t可通过计时器计时获得。

通过上式得到的时延D需通过标准化才可以作为衡量延迟的标准，其公式如下：

式中：C_del ^*表示标准化后的时延，D表示原始时延，D_min表示最小时延，D_max表示最大时延。

考虑到时延越小越好，因此在将其化成计量标准时，使用其用1减后的差值来表示：

C_del＝1-C_del ^*

式中：C_del表示时延的最后形式。此时，Cdel也是介于0到1之间的实数。

由于QoS仅仅用可靠性和时延这两个指标来衡量，故QoS表示为：

C_QoS＝ζ₁*C_rel+ζ₂*C_del

式中：C_QoS表示节点的QoS，ζ₁、ζ₂表示常数，表示可靠性和延迟所占的比例，这里ζ₁＝ζ₂＝0.5。

然后，Q值表可以根据下式更新：

式中：γ表示折扣率，a表示当前动作，a′表示下一动作，s表示当前状态，s′表示下一状态，r表示奖赏值，α表示学习率。

上式被称为贝尔曼方程，表示对给定行动的预期长期奖赏值等于当前奖赏值加上在下一状态下带来最佳预期奖赏所采取动作的相对应的奖赏值。

Q-learning算法的更新准则是基于对现有部分的估计，这也是它不需要环境模型的原因。

实施例3

基于本发明公开了一种基于强化学习的异构无线传感器寻路方法进行仿真。参照图4，是使用传统方法的均匀网格分簇效果图。以第3组节点的参数为例，从图中可以看出，将400个传感器节点任意地分布在200×200m²的仿真网络内，其中蓝色圆点表示E₁节点，绿色圆点表示E2节点，紫色圆点表示E₃节点。通过计算可知，整个仿真区域被均分为8×8个大小均等的虚拟网格，且其中每一个网格内距网格的中心点最近的节点被选为簇头。图5是基于强化学习的均匀网格分簇效果图，不同于传统的基于节点能级的均匀网格分簇，三种节点均可以成为簇头。

参照图6，其结果是两种协议对不同恶意节点比例所筛选的恶意节点数量的直方图。恶意节点的比例分别为15％、30％、45％和60％。为了使恶意节点的解析更加准确，在每个比率下运行5次，将结果平均得到结果。从图中可以看出，当恶意节点比例为15％时，本申请提出的协议数据传输成功率为76％，而传统协议的数据传输成功率为49％，本申请协议数据传输成功率提高了27％。当恶意节点比例增加到60％时，本申请提出的协议数据传输成功率为28％，传统协议为25％。可以看出，随着恶意节点比例的逐渐增加，两种协议的数据传输成功率也越来越接近。但总体而言，本申请提出的路由协议在数据安全传输方面优于传统协议。

表1

Case	E1	E2	E3	E4	E5
						1	0.40	0.35	0.05	0.10	0.10
2	0.20	0.20	0.20	0.20	0.20
						3	0.10	0.15	0.25	0.40	0.10

在表1中，Case1中E1与E2类无固定电源的低能耗节点分布较为普遍，可模拟异构网络的情况，Case2为各类节点分布均衡的情况，Case3则可模拟E3、E4这类拥有稳定电源类型的节点所占比重大的情况。

参照图7-图9，显示了这两种协议在三种情况下的能耗。没有稳定电源类型的E1和E2节点在评估过程中逐渐死亡，网络能耗曲线趋于稳定。与情况2和情况3相比，情况1模拟了E1和E2节点占75％的比例，接近异构车辆网络节点的分布特征。通过比较可知，与其他两种情况相比，本文提出的协议在异构车载网络环境下，与传统协议相比，在能耗方面具有显著优势。可以得出，在其他环境(情况2和情况3)中，本申请路由协议的能耗接近于传统协议中提出的协议能耗，而在异构网络环境中，可以节省更多的能耗。因此，本申请提出的路由协议更适用于异构网络环境。

相反,该协议提出了可以选择性地启用节点通过过去行为的节点自我报告的信任程度,同时考虑多个异构节点的因素。本申请的基础上考虑PDR和QoS,将结构的复杂性和节点识别到异构无线传感器网络信任评估的范围,并减少能源消耗的节点之间相互评估,同时保证数据的安全传输。因此，与传统协议相比，本申请提出的协议可以在异构网络环境中建立更安全、更低能耗的路由。

根据以上对仿真结果的分析，该模型相较于现有信任评估模型能够在保证数据成功传输率的前提下减少节点对于簇中的其他节点的信任评估所需要的计算所消耗的能量，在保障网络能量高效利用下同时有效提升整个网络的安全性。

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于强化学习的异构无线传感器寻路方法，其特征在于，包括以下步骤：

设置车联网无线传感器网络的异构网络环境；

基于信任度与传输距离最小化原则，为传感器节点传递信息选取路径，连接路径上各个虚拟网格的簇头；

所述选取每个虚拟网格内服务质量最高的传感器节点，以该传感器节点作为对应虚拟网格的簇头，包括：

以选取出的传感器节点作为对应虚拟网格的簇头；

所述采用无模型的强化学习算法选取每个虚拟网格内服务质量最高的传感器节点的步骤，包括：

选定传感器节点作为强化学习算法的代理；

代理与外部环境持续进行交互，获得交互的动作和状态；

代理选择动作执行；

外部环境针对选择的动作产生新的状态和奖赏；

外部环境将新的状态返还给代理，将奖赏返回给代理；

代理根据返回的奖赏确定服务质量最高的节点；

所述以网格形式均匀划分车联网无线传感器网络，获得若干个虚拟网格的步骤，包括：

车联网无线传感器网络的传感器节点处均设置GPS定位模块；

以网格形式均匀划分车联网无线传感器网络，得到若干个均等的虚拟网格；

一种基于强化学习的异构无线传感器寻路方法，还包括：

若干个均等的虚拟网格均设置标识网络序号GID和簇头GC，所述簇头GC用于网格间的数据传播与管理；

一种基于强化学习的异构无线传感器寻路方法，还包括：

划分车联网无线传感器网络内所有传感器节点的初始能量，得到三个能级；

所述划分车联网无线传感器网络内所有传感器节点的初始能量，得到三个能级，包括：

第3能级3-energy-level，采用E₃表示，E₃节点用于处理传输高分辨率的图片，E₃节点的初始能量设置为E_init-3；

一种基于强化学习的异构无线传感器寻路方法，还包括：

任意两个邻近的网格之间的长度均不超过节点的最大覆盖范围；

一种基于强化学习的异构无线传感器寻路方法，还包括：

当选定动作之后，代理根据选定的动作得到奖赏；出于所研究的是异构WMSN的考虑，因此，奖赏函数r的表达式如下：

式中：λ₁表示E₁节点的折扣因子，λ₂表示E₂节点的折扣因子，λ₃表示E₃节点的折扣因子，C_rel表示节点的可靠性，C_del表示节点的时延；

节点的可靠性C_rel用接收到的数据包数与总数据包数之比，即丢包率来表示：

式中：P_receive表示接收到的数据包数，P_N表示总数据包数，C_rel是0到1之间的实数；

节点的时延D用下式来表示：

D＝D_s+D_L+D_t+D_r

式中：D_s表示发送时延，D_t表示传播时延，D_L表示处理时延，D_r表示排队时延；其中，D_s通过数据包长度和数据率计算获得，D_L通过链路长度和传输率计算获得，而D_r和D_t通过计时器计时获得；

通过上式得到的时延D通过标准化作为衡量延迟的标准，其公式如下：

式中：C_del ^*表示标准化后的时延，D表示原始时延，D_min表示最小时延，D_max表示最大时延；

C_del＝1-C_del ^*

式中：C_del表示时延的最后形式，此时，C_del也是介于0到1之间的实数；

由于QoS用可靠性和时延这两个指标来衡量，故QoS表示为：

C_QoS＝ζ₁*C_rel+ζ₂*C_del