CN113207124B

CN113207124B - 一种车载自组网络数据包传送方法及装置

Info

Publication number: CN113207124B
Application number: CN202110287656.6A
Authority: CN
Inventors: 杨树杰; 许长桥; 沈嘉浩; 张焘; 张丙驰; 纪伟潇
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-11-01
Anticipated expiration: 2041-03-17
Also published as: CN113207124A

Abstract

本发明提供一种车载自组网络数据包传送方法及装置，包括：根据车载自组网络的当前状态信息，结合马尔科夫决策过程模型，构建当前网格的状态空间和当前网格的动作空间；其中，所述当前网格中包括数据包发送节点；根据所述状态空间和所述动作空间，结合联合估计Q学习算法模型，获取所述当前网格中数据包发送节点的最大动作价值收益值，以根据所述最大动作价值收益值确定目标安全网格；基于最小角度选择策略，在所述目标安全网格中选取中继节点，通过所述中继节点进行数据包传送。本发明通过联合估计Q学习算法模型，得到一种安全有效的车载自组网络数据包传送策略，可以抵御多种形式的丢包攻击，提升网络的安全性。

Description

一种车载自组网络数据包传送方法及装置

技术领域

本发明涉及网络数据传输技术领域，尤其涉及一种车载自组网络数据包传送方法及装置。

背景技术

车载自组网络(Vehicular Ad-hoc Networks；VANET)是由车辆、路边单元(RoadSide Unit；RSU)和基站(Base Station；BS)等异构节点所组成的分布式系统，这些异构节点之间可以交换数据，且支持关键信息、多媒体数据等内容的分发。面对日益增长的网络威胁，VANET中的安全和隐私等问题显得至关重要。然而，受制于固有的分布式机制以及节点的高度移动性和异构性，VANET容易遭受网络中恶意节点的丢包攻击，其安全问题一直得不到有效解决。现有的安全机制主要采用多路径路由和基于信任的路由，前者具有较高的能耗，后者需要对网络节点进行信任评估，这在实践中较难实现。

因此，如何解决现有技术中由于VANET容易遭受恶意路由的攻击，导致网络安全性不高的缺陷已成为业界日益关注的研究重点。

发明内容

本发明提供一种车载自组网络数据包传送方法及装置，用以解决现有技术中由于VANET容易遭受恶意路由的攻击，导致网络安全性不高的缺陷。

本发明提供一种车载自组网络数据包传送方法，包括：

根据车载自组网络的当前状态信息，结合马尔科夫决策过程模型，构建当前网格的状态空间和当前网格的动作空间；其中，所述当前网格中包括数据包发送节点；

根据所述状态空间和所述动作空间，结合联合估计Q学习算法模型，获取所述当前网格中数据包发送节点的最大动作价值收益值，以根据所述最大动作价值收益值确定目标安全网格；

基于最小角度选择策略，在所述目标安全网格中选取中继节点，通过所述中继节点进行数据包传送。

根据本发明提供的一种车载自组网络数据包传送方法，所述根据所述状态空间和所述动作空间，结合联合估计Q学习算法模型，获取所述当前网格中数据包发送节点的最大动作价值收益值的步骤，具体包括：

在所述数据包发送节点为车辆节点的情况下，根据所述状态空间和所述动作空间，通过车辆节点联合估计Q学习算法模型，确定所述车辆节点的最优动作价值收益值；

在所述数据包发送节点为路边单元节点的情况下，根据所述状态空间和所述动作空间，通过路边单元节点联合估计Q学习算法模型，确定所述路边单元节点的最优动作价值收益值；

将所述车辆节点的最优动作价值收益值和所述路边单元节点的最优动作价值收益值中的最大值，作为所述数据包发送节点的最大动作价值收益值。

根据本发明提供的一种车载自组网络数据包传送方法，所述确定所述车辆节点的最优动作价值收益值的步骤，具体包括：

所述车辆节点基于所述状态空间和所述动作空间，选择执行的动作，观察所述动作执行后的结果奖励值；

其中，所述动作指的是所述车辆随机选择的动作或所述车辆节点从相邻车辆节点学习的最优动作；

观察统计所述车辆节点的相邻车辆节点的所述动作选择概率，并得到所述动作选择概率的第一归一化结果；

根据所述第一归一化结果，获取所述动作的第一联合估计动作价值收益值；

根据所述第一联合估计动作价值收益值，更新所述车辆节点的动作价值收益值；

根据所述结果奖励值和所述车辆节点的动作价值收益值，基于贝尔曼方程，获取当前网格的车辆节点的最优动作价值收益值。

根据本发明提供的一种车载自组网络数据包传送方法，所述确定所述路边单元节点的最优动作价值收益值的步骤，具体包括：

所述路边单元节点基于所述状态空间和所述动作空间，选择执行的动作；

其中，所述动作指的是所述路边单元节点从相邻车辆节点学习的最优动作；

统计观察所述路边单元节点的相邻车辆节点的所述动作选择概率，并得到所述动作选择概率的第二归一化结果；

根据所述第二归一化结果，获取所述动作的第二联合估计动作价值收益值；

根据所述第二联合估计动作价值收益值，更新所述路边单元节点的动作价值收益值，作为当前网格的路边单元节点的最优动作价值收益值。

根据本发明提供的一种车载自组网络数据包传送方法，所述基于最小角度选择策略，在所述目标安全网格中选取中继节点，通过所述中继节点进行数据包传送的步骤，具体包括：

根据目标安全网格中各个车辆节点的运动矢量和各个车辆节点的目标地理矢量，构建矢量夹角；

其中，所述各个车辆节点的目标地理矢量，是指所述车辆节点到数据包目标节点的地理矢量；

在所述矢量夹角小于预设角度的情况下，将所述矢量夹角最小的车辆节点作为中继节点来传输数据包；

在所述矢量夹角大于或等于预设角度的情况下，将所述目标安全网格中的路边单元节点作为中继节点来传输数据包。

根据本发明提供的一种车载自组网络数据包传送方法，所述构建当前网格的状态空间和当前网格的动作空间的步骤，具体包括：

根据车载自组网络的网络节点集合和无线链路集合，构建所述车载自组网络的无向图；

结合曼哈顿模型，按照预设尺寸，将所述无向图划分成大小相同的正方形网格；

根据当前数据包发送节点的位置信息，确定当前网格，并根据所述网络节点集合的位置信息和所述网络节点集合的通信半径信息，构建所述当前网格的状态空间；

根据与所述当前网格相邻的网格，构建所述当前网格的动作空间。

根据本发明提供的一种车载自组网络数据包传送方法，所述基于最小角度选择策略，在所述目标安全网格中选取中继节点的步骤，还包括：

在所述目标安全网格中仅存在唯一车辆节点或唯一路边单元节点的情况下，将所述唯一车辆节点或唯一路边单元节点作为所述目标安全网格中的中继节点。

本发明还提供一种车载自组网络数据包传送装置，包括：

状态-动作空间构建单元，用于根据车载自组网络的当前状态信息，结合马尔科夫决策过程模型，构建当前网格的状态空间和当前网格的动作空间；其中，所述当前网格中包括数据包发送节点；

目标安全网格确定单元，用于根据所述状态空间和所述动作空间，结合联合估计Q学习算法模型，获取所述当前网格中数据包发送节点的最大动作价值收益值，以根据所述最大动作价值收益值确定目标安全网格；

中继节点确定单元，用于基于最小角度选择策略，在所述目标安全网格中选取中继节点，通过所述中继节点进行数据包传送。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述车载自组网络数据包传送方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述车载自组网络数据包传送方法的步骤。

本发明提供的车载自组网络数据包传送方法及装置，基于马尔科夫决策过程模型，构建出数据包发送节点所处当前网格的状态空间和动作空间，通过联合估计Q学习算法模型，当前网格中数据包发送节点可以从同一网格中的相邻数据包发送节点学习到最优动作，进而基于贝尔曼方程迭代更新，获得最大动作价值收益值，以确定目标安全网格，并通过最小角度选择策略，在目标安全网格中选取中继节点来传送数据包，提高数据包传送效率，从而实现对恶意路由多种形式丢包攻击的抵御，提升网络的安全性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的车载自组网络数据包传送方法的流程示意图；

图2是本发明提供的车载自组网络数据包传送方法的分层路由的结构示意图；

图3是本发明提供的网格场景下多智能体强化学习过程的示意图；

图4是本发明提供的车载自组网络数据包传送装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的车载自组网络数据包传送方法的流程示意图，如图1所示，包括：

步骤S110，根据车载自组网络的当前状态信息，结合马尔科夫决策过程模型，构建当前网格的状态空间和当前网格的动作空间；其中，所述当前网格中包括数据包发送节点。

具体地，本发明中所描述的车载自组网络指的是由车辆节点、路边单元(RoadSide Unit；RSU)节点和基站(Base Station；BS)节点组成的网络节点集合以及连接网络节点的无线链路集合；

本发明中所描述的车载自组网络的当前状态信息指的是VANET中的车辆节点、BS节点和RSU节点拥有不同的通信半径，使用GPS设备可以获取各个网络节点的位置信息及每个车辆节点实时的位置、方向和速度等信息。

马尔科夫决策过程(Markov Decision Process；MDP)模型是序贯决策的数学模型，用于在系统状态具有马尔可夫性质的环境中模拟可实现的随机性策略与回报。

本发明所描述的数据包发送节点指的是VANET中有数据包发送任务的网络节点，主要包括车辆节点和RSU节点。

进一步地，在本发明中，为了降低由车辆节点流动性引起的观测复杂性，对于车辆节点的数据包转发过程，将其公式化为MDP模型。进而根据VANET的当前状态信息，构建数据包发送节点所在的当前网格的状态空间。

其中，本发明中的状态空间指的是根据VANET的当前状态信息，在当前网格中全部可能状态的集合。

在本发明的方法中，数据包发送节点在学习的过程中，将下一跳相邻网格的选择视为动作，基于MDP模型，构建数据包发送节点所在的当前网格的动作空间。

其中，本发明中的动作空间指的是处于当前网格中的数据包发送节点，从相邻网格中选择下一跳网格的全部可能动作的集合。

通过步骤S110，基于MDP模型，构建出当前网格的状态空间和当前网格的动作空间，为后续当前网格中的数据包发送节点之间的联合估计Q学习做准备。

步骤S120，根据所述状态空间和所述动作空间，结合联合估计Q学习算法模型，获取所述当前网格中数据包发送节点的最大动作价值收益值，以根据所述最大动作价值收益值确定目标安全网格。

具体地，本发明所描述的联合估计Q学习算法模型为基于MDP模型，将路由跳变技术和多智能体强化学习算法相结合，提出的一种新颖在线自适应学习算法。在本发明的联合估计Q学习算法模型中，数据包发送节点可以通过参数共享来调整自己的Q值，从而加快收敛速度。

进一步地，根据当前网格的状态空间和所述动作空间，结合联合估计Q学习算法模型，通过观察与数据包发送节点所在同一网格中其它节点的最优选择动作，获得联合估计Q值，从而可以有效地更新自己的Q值。最后，根据Bellman方程迭代更新Q值，确定当前网格中数据包发送节点的最大动作价值收益值。

根据最大动作价值收益值，可以进一步确定出下一跳目标安全网格。

通过步骤S120，根据当前网格的状态空间和所述动作空间，结合联合估计Q学习算法模型，当前网格中数据包发送节点可获取最大动作价值收益值，以确定下一跳目标安全网格的最佳策略，从而可以在安全网格中选取中继节点来发送数据包。

步骤S130，基于最小角度选择策略，在所述目标安全网格中选取中继节点，通过所述中继节点进行数据包传送。

需要说明的是，通过步骤S120，可以确定下一跳目标安全网格，但是如何选择网格内部的中继节点仍然未知。为了选出具有最大数据包传输成功概率的中继节点，本发明提出了一种选择特定车辆节点或RSU节点的策略，即最小角度选择策略。

具体地，本发明中的最小角度选择策略指的是一种使用角度来衡量运动矢量和地理矢量之间相似性的策略，通过判断车辆节点的运动矢量与目标地理矢量之间的夹角，确定目标安全网格中发送数据包的中继节点。其中，目标地理矢量指的是车辆节点到数据包目标节点的地理矢量；数据包目标节点指的是数据包发送后，最终对数据包进行接收的目标网络节点。

进一步地，在VANET中，可以根据目标安全网格中各个车辆节点的运动矢量和各个车辆节点的目标地理矢量，通过矢量计算，得到该运动矢量和该地理矢量之间的矢量夹角。

由此，通过矢量夹角大小可以判断出数据包发送节点到数据包目标节点的距离，具有最小矢量夹角的网络节点更有可能成功传输数据包。因此，本发明选择矢量夹角最小的网络节点作为中继节点，通过该中继节点进行数据包传送。

通过步骤S130，基于最小角度选择策略，在目标安全网格中选取中继节点，通过该中继节点进行数据包传送，可提高数据包传送的效率。

通过本发明的实施例，基于MDP模型，构建出数据包发送节点所处当前网格的状态空间和动作空间，通过联合估计Q学习算法模型，当前网格中数据包发送节点可以从同一网格中的相邻数据包发送节点学习到最优动作，进而基于Bellman方程迭代更新，获得最大动作价值收益值，以确定目标安全网格，并通过最小角度选择策略，在目标安全网格中选取中继节点来传送数据包，提高数据包传送效率，从而实现对恶意路由多种形式丢包攻击的抵御，提升网络的安全性。

基于上述任一实施例，根据所述状态空间和所述动作空间，结合联合估计Q学习算法模型，获取所述当前网格中数据包发送节点的最大动作价值收益值的步骤，具体包括：

具体地，本发明中的车辆节点联合估计Q学习算法模型指的是在数据包发送节点为车辆节点情况下的联合估计Q学习算法模型；路边单元节点联合估计Q学习算法模型指的是在数据包发送节点为RSU节点情况下的联合估计Q学习算法模型。

进一步地，在数据包发送节点为车辆节点的情况下，根据当前网格的状态空间和动作空间，通过车辆节点联合估计Q学习算法模型，车辆节点会与同一网格中的相邻车辆节点进行合作学习，从相邻车辆节点学习到联合估计Q值，并使用联合估计Q值来更新自己的Q值。最后，根据Bellman方程更新Q值，从而确定车辆节点的最优动作价值收益值。

在本发明中，由于RSU节点不能移动，其只需从同一网格中的相邻车辆节点获得联合估计Q值，因此不需要自己学习。

具体地，在数据包发送节点为RSU节点的情况下，根据当前网格的状态空间和动作空间，通过RSU节点联合估计Q学习算法模型，RSU节点可以从同一网格中的相邻车辆节点直接获得联合估计Q值，并使用联合估计Q值来更新自己的Q值，从而确定RSU节点的最优动作价值收益值。

进一步地，将上述车辆节点的最优动作价值收益值和上述RSU节点的最优动作价值收益值作比较，选取其中的最大值，作为数据包发送节点的最大动作价值收益值。

通过本发明的实施例，根据状态空间和动作空间，通过车辆节点联合估计Q学习算法模型，确定车辆节点的最优动作价值收益值；通过RSU节点联合估计Q学习算法模型，确定RSU节点的最优动作价值收益值；选取车辆节点的最优动作价值收益值和RSU节点的最优动作价值收益值中的最大值，作为数据包发送节点的最大动作价值收益值，以确定下一跳目标安全网格。

基于上述任一实施例，所述确定所述车辆节点的最优动作价值收益值的步骤，具体包括：

具体地，本发明中所描述的结果奖励值是通过奖励函数得来的。在本发明中，分别考虑了三个因素来定义车辆节点

的奖励函数R_i(t)，包括丢弃数据包、交付数据包和地理信息等，如下所示：

其中，

表示数据包是否被传送到目标所在的网格，如果数据包被传送到数据包目标节点所在的网格，则

否则

其中，C₀是正常数。

表示t时刻数据包是否丢失，如果数据包丢失，则

否则

其中，Ψ是当前车辆节点的跳数，C₁是负常数。如果基站节点(BS)没有按时为源节点提供服务，这表示数据包在某处发生丢失，这可能是由于恶意攻击、TTL过期或者无线通信失效所导致的。为了将数据包快速传送到目的地，同时避免死锁循环，本发明还考虑了地理信息，令

其中σ_i是车辆节点

的系数，D(v_i-1,v_d)是上一跳到目的地的距离，D(v_i,v_d)是当前节点到目的地的距离。如果数据包到目的地的距离变短了，则

为正，否则为负数。

其中，本发明中所描述的目的地指的是数据包目标节点所在的网格区域。

进一步地，根据MDP模型，每一个车辆节点或RSU节点的目的是要学习一个策略π来最大化预期收益，其中策略π是从状态空间到动作选择概率的映射，状态价值函数

表示车辆节点

的预期收益，可以定义为：

其中，E表示期望，R_i(t+k)是即时奖励，γ是一个介于0到1之间的衰减因子。

对于车辆节点

而言，其最优策略π^*可以定义为：

如果

可以求得，则可以通过穷举所有的状态来找到最优策略。然而在VANET场景下，转移动态很难用数学方法追踪，因此，当

无法求解时，强化学习(RL)可以被用于学习最优策略，其中，Q学习算法是一种无模型的算法，可以有效地评估状态动作价值(Q值)，基于Bellman方程，Q值的更新过程如下所示：

其中，δ是TD误差，

表示

在t时刻的Q值，α是学习率。然而，Q学习算法的典型应用场景是单智能体，它不适用于多智能体协作的系统中，因此，本发明结合多智能体强化学习对Q值的更新过程进行修改，以适应分布式数据包的转发过程。由于车辆节点的状态不受数据包转发的影响，因此，本发明将状态转移定义为数据包从一个网格发送到另一个网格的过程。

其中，在本发明中，智能体指的是具有数据包发送任务的网络节点，主要包括车辆节点和RSU节点。

进一步地，在本发明的方法中，车辆节点之间通过共享联合估计Q值进行合作学习。设

是具有网络状态

且数据包队列非空的车辆节点，

是与

同一网格中的相邻车辆节点的集合，

是下一跳网格。

为了从其他模型中学习经验模型，每个车辆节点设置了一个计数器

表示车辆节点

观察到车辆节点

选择动作

的次数，对于每一个车辆节点

车辆节点

在t时刻选择动作

的概率为：

其中，

是由车辆节点

选择的动作总数。然后，车辆节点

评估

归一化后的概率，其表达式为：

其中，

是

归一化后的概率，然后车辆节点

可以根据其他车辆节点的Q值计算联合估计Q值的，其表达式为：

其中，

是

的联合估计概率，通过

车辆节点

可以更新自己的Q值，其表达式为：

如果车辆节点

移动到一个之前从未到过的网格，它就会使用联合估计Q值来加快迭代速度。为了自适应地调整更新速率，本发明引入动态参数θ_t，它取决于车辆节点通过当前网格的次数。

可以理解的是，车辆节点通过一个网格的次数越少，其所需的更新系数也就越大。为了选择合适的θ_t来更新Q值，本发明选择Sigmoid函数来表征其变化，将

表示

在时隙t之前通过网格

的次数，定义平均次数为

其中W表示网格

中的相邻车辆节点的总数，则θ_t可以定义为：

显然，

越大于

θ_t的值就会越接近1，这意味着车辆节点更新Q值的速度越快。否则，

越小于

θ_t的值就会越接近0，这意味着车辆节点更新Q值的速度越慢。

进而，根据当前网格的状态空间和动作空间，车辆节点会使用贪婪策略从动作空间中随机选择动作或者是从相邻车辆节点学习到最优动作，执行该选择的动作发送数据包后，车辆节点会得到相应结果奖励值R_i(t)。待数据包交付后，车辆节点会统计观察相邻车辆节点的动作策略，根据上述公式(6)和(7)，得到相邻车辆节点选择相同动作的概率以及对应的归一化概率，进而根据上述公式(8)得到该动作的联合估计Q值。根据该联合估计Q值，车辆节点可以更新自己Q值。结合得到的结果奖励值R_i(t)，基于Bellman方程，车辆节点可以得到最优动作价值收益值。

在本发明中，由于车辆节点经常运动，因此可以探索不同的网络状态。将学习率设为α＝1/τ，贪婪因子设为ε＝δ^τ，其中

ξ为常数。在本发明中，将时间划分成等长的间隔，长度为ΔT，可以用索引t∈{0,1,2,…}来表示不同的时隙。车辆节点从初始状态开始，在T个时间内探索不同的状态，这代表了一次学习过程。在VANET中，每个车辆节点都有一个数据包队列来缓冲到达或生成的数据包，如果数据包队列不为空，则车辆节点需要在每个时隙将数据包转发到下一跳网格。

车辆节点联合估计Q学习算法，具体如下所示。

通过本发明的方法，车辆节点基于联合估计Q学习算法模型，可以从相邻车辆节点学习到最优动作，以获得最优动作的联合估计Q值，并基于Bellman方程进行Q值迭代，获得当前网格的车辆节点的最优动作价值收益值。

基于上述任一实施例，所述确定所述路边单元节点的最优动作价值收益值的步骤，具体包括：

具体地，通过路边单元节点联合估计Q学习算法模型，根据当前网格的状态空间和动作空间，RSU节点会从相邻车辆节点直接获取到最优动作。与上述车辆节点一样，RSU节点会统计观察相邻车辆节点，根据上述公式(6)和(7)，得到相邻车辆节点选择相同动作的概率以及对应的归一化概率，进而根据上述公式(8)，得到该动作的联合估计Q值。根据此联合估计Q值，RSU节点更新自己的Q值，并将该Q值作为最优动作价值收益值。

本发明通过路边单元节点联合估计Q学习算法模型，确定RSU节点的最优动作价值收益值。RSU节点联合估计Q学习算法，具体如下所示。

通过本发明的方法，RSU节点基于联合估计Q学习算法模型，可以从同一网格中相邻车辆节点学习到最优动作，以获得最优动作的联合估计Q值，根据该联合估计Q值更新自己的Q值，从而获得当前网格的RSU节点的最优动作价值收益值。基于上述任一实施例，所述基于最小角度选择策略，在所述目标安全网格中选取中继节点，通过所述中继节点进行数据包传送的步骤，具体包括：

可以理解的是，通过前面所述，可以确定出目标安全网格，但是如何选择网格内部的中继节点仍然未知，因此，本发明提出了一种选择特定车辆节点或RSU节点的策略。

具体地，取

表示v_i所选网格

中q个节点的集合，当前数据包的起点和终点的坐标分别为(x_s,y_s)和(x_d,y_d)。类似的，可以将网格

中的节点v_j(1≤j≤q)的坐标表示为(x_j,y_j)。在曼哈顿移动模型中，车辆节点在沿道路行驶不能频繁地改变方向，因此，将节点v_j的运动矢量表示为

同时，从节点v_j到终点v_d的地理矢量表示为

这里，本发明使用角度来衡量运动矢量和地理矢量之间的相似性，得到运动矢量与地理矢量之间的夹角公式，如下所示：

在本发明中，由于RSU不能移动，故可以将其预设角度值设置为90°。当θ_j小于90°时，从节点v_j到终点v_d的距离会缩短，并且节点v_j更有可能成功传输数据包。因此，通过比较每个节点的θ，可以选择出具有最小角度的数据包发送节点，从而确定出中继节点，进而通过该中继节点进行数据包传输。

在本发明中，当矢量夹角大于或等于90°时，本发明将选择目标安全网格中的路边单元节点作为中继节点，并通过该中继节点来传输数据包。

本发明的最小角度选择策略算法的详细描述如下所示，为了防止死锁循环，每个数据包都有一个TTL字段，数据包每走一跳，TTL就会减1。如果TTL大于0，则按照设计的策略传输数据包，如果TTL过期，则数据包将被丢弃。

具体算法如下所示：

在本发明中，在选择下一跳目标安全网格后，在此网格内选择中继节点时，需要考虑如下三种情况：如果目标安全网格内有车辆节点或RSU节点，则车辆节点

将根据最小角度选择策略将数据包转发到特定的车辆节点或RSU节点；如果目标安全网格内没有车辆节点或RSU节点，则

将重新选择次优网格；如果

的邻居网格中找不到任何车辆节点或RSU节点，它将保留数据包等待下一次的转发机会。

通过本发明的方法，在确定出目标安全网格的情况下，基于最小角度选择策略，在目标安全网格中选取中继节点，并通过该中继节点进行数据包传送，以提高数据包传送的效率。

基于上述任一实施例，所述构建当前网格的状态空间和当前网格的动作空间的步骤，具体包括：

具体地，本发明的VANET中，有N个车辆节点、M个BS节点和L个RSU节点，这样可以构建无向图G＝(V,E)，其中V是由车辆节点、BS节点和RSU节点组成的网络节点集合，其中v_i(1≤i≤N+M+L)。E是连接节点v_i和v_j的无线链路集合，其中v_i,v_j∈V。

根据曼哈顿模型，按照预设尺寸，将无向图中地理区域划分成大小相同的正方形网格，将所选的区域划分为H×H个网格。

本发明所描述的预设尺寸指的是针对车载自组网络的无向图网格划分，预先设定的网格划分尺寸。

其中，在本发明实施例中，预设尺寸有3×2个网格、5×5个网格、6×6个网格、8×8个网格等。

进一步地，根据数据包发送节点的当前位置信息，可以确定数据包发送节点所在的当前网格；同时，网络节点集合的位置信息和网络节点集合的通信半径信息，包括：车辆节点、BS节点和RSU节点拥有不同的通信半径，因此需要多跳转发与不在通信范围内的网络节点进行通信，分别定义为R^V、R^B和R^R；此外，V2V和V2I通信均启动，以支持网络中任意一对节点之间的数据交换。根据上述信息，对于车辆节点的转发过程，将其公式化为MDP模型。

为使车辆节点运动而引发的环境动态性大大降低，在本发明中，车辆节点进行水平和纵向移动，RSU节点和BS节点均匀地分布在其中。将每个网格当做网络状态S_z(1≤z≤H×H)，车辆节点

的状态集合可以表示为

每个车辆节点只能观察同一网格中的相邻车辆节点。由此，构建当前网格的状态空间。

进一步地，数据包发送节点将当前网格对相邻网格的选择视为动作，表示为

因此车辆节点

在网络状态

的动作集合表示为

由此，构建当前网格的动作空间。

在本发明的实施例中，通过构建车载自组网络的无向图，结合曼哈顿模型和MDP模型，根据车载自组网络当前状态信息，构建当前网格的状态空间和当前网格的动作空间。

基于上述任一实施例，所述基于最小角度选择策略，在所述目标安全网格中选取中继节点的步骤，还包括：

具体地，在确定好下一跳目标安全网格后，还需要在目标安全网格选择特定的中继节点来进行数据包传送。如果在下一跳目标安全网格中，仅存在唯一车辆节点或者唯一RSU节点，那么，唯一车辆节点或者唯一RSU节点将被选作特定的中继节点，通过该中继节点来传送数据包。

图2是本发明提供的车载自组网络数据包传送方法的分层路由的结构示意图，如图2所示，VANET中分层路由包括两层结构，即物理层结构和网络层结构。

继续参照图2，在基于VANET场景构建的模型中，物理层结构是由车辆节点、RSU节点和BS节点构成的网络节点集合及连接各节点的无线链路集合组成的，这些异构节点之间可以进行数据交换，且支持关键信息、多媒体数据等内容的分发。

网络层结构是由车辆节点路由、RSU节点路由和BS节点路由及恶意节点路由组成的。对于任意数据包而言，从起点(Source)到终点(Destination)，包含了一系列的网络节点和无线链路。

其中，本发明中所描述的恶意节点路由指的是恶意RSU节点路由。

在本发明中，通过引入威胁模型，在威胁模型中引入了恶意RSU的行为。在本发明的威胁模型中，端到端的路由链路已经通过对称秘钥进行加密。因此，如果攻击者不是接收者，则无法通过无线信道解密任何的密文。其次，攻击者可以是位于VANET无线信号范围内的外部人员，或者攻击者可以先破坏一个或者多个RSU，然后再充当内部人员。如果攻击者是外部人员，将对特定的RSU发动DDoS攻击，从而导致这些RSU上的数据包被丢弃。这里，攻击者只能对RSU发动攻击，因为RSU的位置都是公开的，且安全级别低于BS。

无论攻击者是外部人员，还是内部人员，任何经过受攻击的RSU的端到端路由都会导致数据包的丢失，设概率为Pd。如果Pd＝1，则是黑洞攻击(BHA)，即典型的丢包攻击，否则是灰洞攻击(GHA)。此外，如果攻击者足够狡猾，可以将虚假的消息发送至上一跳的节点，从而造成受损的RSU完成数据转发的假象。

通过本发明的实施例，数据包从起点传送，总能找到最佳路径进行传送，以避开存在恶意节点路由的网格，直至数据包完好地传送到目标节点，达到完成数据包传送任务的目的。

图3是本发明提供的网格场景下多智能体强化学习过程的示意图，如图3所示，为了简化场景，本发明的实施例中，每个网格中都有一个固定的智能体，并且智能体之间可以互相观察Q值，箭头表示转发数据包到邻居网格的动作，每个箭头上方的值表示此操作的Q值。本发明定义了四个动作，即上、下、左、右。由于每个网格中只有一个智能体，所以可以忽视网格内部的选择过程。

在本发明的实施例中，定义将数据包发送到目的地的奖励为100，由于恶意节点而导致数据包丢失的奖励为-100，对于其他操作的奖励均为0。同时，设置折扣因子γ＝0.9，学习因子α＝1。如图3中的(a)所示，如果S₃是目标所在的网格，则相邻网格S₂和S₆中的智能体可以通过一跳路由将数据包发送至目的地。如图3中的(b)，根据前面所述的公式(5)，可以计算出Q⁽²⁾(S₂,A_2→3)＝100，Q⁽⁶⁾(S₆,A_6→3)＝100。所示，当S₅中的智能体转发数据包时，可以选择S₂或者S₆中的智能体，如图3中的(c)所示，则有Q⁽⁵⁾(S₅,A_5→2)＝0+0.9max{-100,100}＝90，Q⁽⁵⁾(S₅,A_5→6)＝0+0.9max{-100,100}＝90。如图3中的(d)所示，反复迭代更新Q值，直到收敛为止，达到图3中的(e)显示的最终状态。因此，从图3中的(f)可以明显看出，对于给定的起点S₄和终点S₃，有两条安全可行的路由可以传送数据包，即S₄→S₅→S₂→S₃和S₄→S₅→S₆→S₃。

图4是本发明提供的车载自组网络数据包传送装置的结构示意图，如图4所示，包括：

状态-动作空间构建单元410，用于根据车载自组网络的当前状态信息，结合马尔科夫决策过程模型，构建当前网格的状态空间和当前网格的动作空间；其中，所述当前网格中包括数据包发送节点；

目标安全网格确定单元420，用于根据所述状态空间和所述动作空间，结合联合估计Q学习算法模型，获取所述当前网格中数据包发送节点的最大动作价值收益值，以根据所述最大动作价值收益值确定目标安全网格；

中继节点确定单元430，用于基于最小角度选择策略，在所述目标安全网格中选取中继节点，通过所述中继节点进行数据包传送。

本发明提供的车载自组网络数据包传送装置，通过结合马尔科夫决策过程模型，构建出数据包发送节点所处当前网格的状态空间和动作空间，基于联合估计Q学习算法模型，当前网格中数据包发送节点可以从相邻数据包发送节点学习到最优动作，获取最大动作价值收益值，以根据最大动作价值收益值确定出目标安全网格，并通过最小角度选择策略，在目标安全网格中选取中继节点来传送数据包，提高数据包传送效率，从而实现对恶意路由多种形式丢包攻击的抵御，提升网络的安全性。

根据本发明提供的车载自组网络数据包传送装置，所述根据所述状态空间和所述动作空间，结合联合估计Q学习算法模型，获取所述当前网格中数据包发送节点的最大动作价值收益值的步骤，具体包括：

根据本发明提供的车载自组网络数据包传送装置，所述确定所述车辆节点的最优动作价值收益值的步骤，具体包括：

其中，所述动作指的是所述车辆节点随机选择的动作或所述车辆节点从相邻车辆节点学习的最优动作；

根据本发明提供的车载自组网络数据包传送装置，所述确定所述路边单元节点的最优动作价值收益值的步骤，具体包括：

根据本发明提供的车载自组网络数据包传送装置，所述基于最小角度选择策略，在所述目标安全网格中选取中继节点，通过所述中继节点进行数据包传送的步骤，具体包括：

根据本发明提供的车载自组网络数据包传送装置，所述构建当前网格的状态空间和当前网格的动作空间的步骤，具体包括：

根据本发明提供的车载自组网络数据包传送装置，所述基于最小角度选择策略，在所述目标安全网格中选取中继节点的步骤，还包括：

本发明描述的车载自组网络数据包传送装置与上文描述的车载自组网络数据包传送方法可相互对应参照，故此处不再赘述。

图5是本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行所述车载自组网络数据包传送方法，该方法包括：根据车载自组网络的当前状态信息，结合马尔科夫决策过程模型，构建当前网格的状态空间和当前网格的动作空间；其中，所述当前网格中包括数据包发送节点；根据所述状态空间和所述动作空间，结合联合估计Q学习算法模型，获取所述当前网格中数据包发送节点的最大动作价值收益值，以根据所述最大动作价值收益值确定目标安全网格；基于最小角度选择策略，在所述目标安全网格中选取中继节点，通过所述中继节点进行数据包传送。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的所述车载自组网络数据包传送方法，该方法包括：根据车载自组网络的当前状态信息，结合马尔科夫决策过程模型，构建当前网格的状态空间和当前网格的动作空间；其中，所述当前网格中包括数据包发送节点；根据所述状态空间和所述动作空间，结合联合估计Q学习算法模型，获取所述当前网格中数据包发送节点的最大动作价值收益值，以根据所述最大动作价值收益值确定目标安全网格；基于最小角度选择策略，在所述目标安全网格中选取中继节点，通过所述中继节点进行数据包传送。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的所述车载自组网络数据包传送方法，该方法包括：根据车载自组网络的当前状态信息，结合马尔科夫决策过程模型，构建当前网格的状态空间和当前网格的动作空间；其中，所述当前网格中包括数据包发送节点；根据所述状态空间和所述动作空间，结合联合估计Q学习算法模型，获取所述当前网格中数据包发送节点的最大动作价值收益值，以根据所述最大动作价值收益值确定目标安全网格；基于最小角度选择策略，在所述目标安全网格中选取中继节点，通过所述中继节点进行数据包传送。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种车载自组网络数据包传送方法，其特征在于，包括：

基于最小角度选择策略，在所述目标安全网格中选取中继节点，通过所述中继节点进行数据包传送；

其中，所述根据所述状态空间和所述动作空间，结合联合估计Q学习算法模型，获取所述当前网格中数据包发送节点的最大动作价值收益值的步骤，具体包括：

将所述车辆节点的最优动作价值收益值和所述路边单元节点的最优动作价值收益值中的最大值，作为所述数据包发送节点的最大动作价值收益值；

其中，所述确定所述车辆节点的最优动作价值收益值的步骤，具体包括：

所述车辆节点基于所述状态空间和所述动作空间，选择执行的动作，观察所述动作执行后的结果奖励值；所述动作指的是所述车辆节点随机选择的动作或所述车辆节点从相邻车辆节点学习的最优动作；

观察统计所述车辆节点的相邻车辆节点的动作选择概率，并得到所述动作选择概率的第一归一化结果；

2.根据权利要求1所述车载自组网络数据包传送方法，其特征在于，所述确定所述路边单元节点的最优动作价值收益值的步骤，具体包括：

3.根据权利要求1所述的车载自组网络数据包传送方法，其特征在于，所述基于最小角度选择策略，在所述目标安全网格中选取中继节点，通过所述中继节点进行数据包传送的步骤，具体包括：

4.根据权利要求1所述的车载自组网络数据包传送方法，其特征在于，所述构建当前网格的状态空间和当前网格的动作空间的步骤，具体包括：

5.根据权利要求1所述的车载自组网络数据包传送方法，其特征在于，所述基于最小角度选择策略，在所述目标安全网格中选取中继节点的步骤，还包括：

6.一种车载自组网络数据包传送装置，其特征在于，包括：

中继节点确定单元，用于基于最小角度选择策略，在所述目标安全网格中选取中继节点，通过所述中继节点进行数据包传送；

其中，所述目标安全网格确定单元，包括：

第一处理子单元，用于在所述数据包发送节点为车辆节点的情况下，根据所述状态空间和所述动作空间，通过车辆节点联合估计Q学习算法模型，确定所述车辆节点的最优动作价值收益值；

第二处理子单元，用于在所述数据包发送节点为路边单元节点的情况下，根据所述状态空间和所述动作空间，通过路边单元节点联合估计Q学习算法模型，确定所述路边单元节点的最优动作价值收益值；

第三处理子单元，用于将所述车辆节点的最优动作价值收益值和所述路边单元节点的最优动作价值收益值中的最大值，作为所述数据包发送节点的最大动作价值收益值；

其中，所述第一处理子单元，具体还用于：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述车载自组网络数据包传送方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述车载自组网络数据包传送方法的步骤。