CN113726664B

CN113726664B - 一种基于双更新策略的车联网节点转发效用学习方法

Info

Publication number: CN113726664B
Application number: CN202110886162.XA
Authority: CN
Inventors: 王桐; 王希波; 刘逸伦; 高山; 曹越
Original assignee: Harbin Juche Technology Co ltd; Harbin Engineering University
Current assignee: Harbin Juche Technology Co ltd; Harbin Engineering University
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2022-10-28
Anticipated expiration: 2041-08-03
Also published as: CN113726664A

Abstract

本发明是一种基于双更新策略的车联网节点转发效用学习方法。本发明涉及移动机会网络通信技术领域，基于车辆节点间信息交互过程中的信息更新，确定学习过程中基本要素；确定节点接触新鲜度系数，确定节点接触概率，建立车载机会网络中节点转发先用学习模型；根据车载机会网络的路由需求和节点机会接触特性，确定转发效用学习更新模型，建立转发效用值数据包转发更新策略，获取发送节点从上一节点中接收该数据包的时刻，建立转发效用值节点接触更新策略，在更新过程中采用与转发更新过程不同的学习系数。本发明提高车载机会网络的传输性能，包括提高数据包投递成功率和降低数据包传输时延。

Description

一种基于双更新策略的车联网节点转发效用学习方法

技术领域

本发明涉及移动机会网络通信技术领域，是一种基于双更新策略的车联网节点转发效用学习方法。

背景技术

工业自动化的发展浪潮推动着信息传感、数据通信以及数据处理等高新技术的发展不断前进，大量具备信息感知处理能力、短距离信息无线传输能力的智能设备被应用于如城市智能交通、海洋环境监测、野生动物迁移追踪等众多领域，社会发展逐步进入物联网信息时代。为了满足物联网/车联网泛在互联、全面感知需求，智能设备之间需要进行组网互联，因此设备间组网技术日益成为物联网研究领域的焦点。高动态自组织网络/车联网实际应用中，往往会面临城市中节点分布稀疏、网络拓扑变化快等问题，不能保障网络的连通性，因此传统的移动自组织网络通信协议不再适用于这些复杂场景。因为这些传统通信协议应用的条件是保证网络中任意节点对间完整连通的端到端链路不能少于一条，而在实际的自组织网络中这一条件很难得到满足，所以很难保证网络的传输性能，使得车联网在现实应用中难以得到推广。

车载移动机会网络/车联网在原有五层网络体系结构基础上，在应用层和运输层之间引进束层(Bundle Layer)，如附图1所示。束层使得网络节点原有的“存储-转发”(Storeand Forward) 数据通信方式转变为“存储-携带-转发”(Store-Carry-Forward)通信方式，将网络拓扑动态变化这一劣势转化为可应用特征，依靠车辆节点移动产生的机会接触，选择中继节点进行数据包转发，直到数据包到达目的节点。附图2为车载移动机会中网络数据包传输过程。数据包从节点S产生，然后向D传递的整个过程。假设在T₁时刻，在节点S上产生了目的节点为D的数据包，而两个节点间并不存在完整端到端链路，而节点S传递范围内也没有合适的邻近节点被选作中继节点，因此节点S继续携着数据包在网络中移动；在T₂时刻，节点S遇到节点R，而且节点R具有更大的传输潜力，因此S将数据包转发给节点R，R携带该数据包在网络中移动；在T₃时刻，节点R移动进入目的节点D的通信区域，因此R将该数据包传给节点D，完成数据传递任务。

对于车载移动机会网络来说，选择合适的中继节点来携带数据包对于网络传输的性能至关重要。而在中继节点选择过程中，根据车载移动机会网络的网络特性以及节点特征为其制定合理并且有效的转发节点效用计算方法的作用尤为重要。

发明内容

本发明利用车辆节点间信息交互(数据包在节点间传递产生的信息交互、网络中节点相遇接触产生的信息交互)进行强化学习状态-动作值的更新，使得网络节点可以随强化学习的学习过程逐步获取节点对数据包的转发效用，提高移动机会网络的传输性能。在车载机会网络中，车辆通过车载WIFI、蓝牙或者短程专用通信设备进行通信，实现车间通信。本发明提供了一种基于双更新策略的车联网节点转发效用学习方法，本发明提供了以下技术方案：

一种基于双更新策略的车联网节点转发效用学习方法，包括以下步骤：

步骤1：基于车辆节点间信息交互过程中的信息更新，确定学习过程中基本要素，；

步骤2：基于车辆节点间信息交互过程中的信息更新，确定节点接触新鲜度系数，

步骤3：确定节点接触概率，建立车载机会网络中节点转发先用学习模型；

步骤4：根据车载机会网络的路由需求和节点机会接触特性，确定转发效用学习更新模型，所述模型包括动态折扣因子；

步骤5：建立转发效用值数据包转发更新策略，获取发送节点从上一节点中接收该数据包的时刻，并确定两个节点间经历的时间长度，并带入更新模型中确定状态-动作值

步骤6：建立转发效用值节点接触更新策略，在更新过程中采用与转发更新过程不同的学习系数。

优选地，所述步骤1具体为：

确定学习过程中所需要的基本要素，所述要素包括：环境、智能体、状态空间、动作空间和立即回报；定义节点更新信息表，所述节点更新信息表包括节点接触信息表和节点状态- 动作值表；

环境为数据包从源节点向目的节点的投递过程中，随着数据包的转发城市中整个车载机会网络提供所需信息，将车载机会网络视为学习模型的环境；

智能体为从源节点向目的节点传递的数据包作为学习算法的智能体；

状态空间为网络中所有车辆节点作为数据包的存储节点，网络中所有节点的集合为智能体的状态空间；

动作空间为节点向下一跳节点转发数据包构成智能体的动作空间，在车载机会网络中，节点具有“存储-携带-转发”功能，转发节点选择范围包括所有接触过的节点；

立即回报为当数据包成功转发到下一跳节点后，智能体从环境中获得即时回报值，用于状态-动作值的更新；

节点接触信息表为在节点间接触进行信息交互的时候更新接触信息，通过节点接触信息计算节点s与其他节点间的平均接触间隔和接触新鲜度系数，从而估计节点间的接触概率；

节点状态-动作值表为将对应节点作为下一跳投递节点能够得到的累计回报值，当回报值值越大表明选择节点作为下一跳投递节点对于数据包的传递性能越好。

优选地，所述步骤2具体为:

接触新鲜度系数F_A,B为节点A和B之间的接触信息新鲜程度，表征当前接触概率的时效性强度，在节点A和B没有接触时，设置接触新鲜度系数F_A,B等于零；当节点A和B建立链接后，通过下式进行更新公式：

F_A,B＝F_A,B+(1-F_A,B)*P_int

其中，P_int为一个固定常数，设置P_int等于0.85；

当节点A和B长时间没有接触，则两个节点间接触信息的新鲜度降低，需要对较长时间未接触的节点接触新鲜度系数进行衰减，通过下式进行衰减更新：

其中，η为衰减因子，取值为0.95；μ_A,B表示距离节点A和B上次接触断开时刻所经过的时间单位的个数，时间单位的长度为节点A和B的平均接触间隔时间。

优选地，所述步骤3具体为：

步骤3.1：确定节点接触概率，城市中车辆节点间的接触间隔时间近似服从负指数分布，以此来估计节点间的接触概率，通过下式表示接触概率：

其中，P_A,B(T)表示节点A和节点B的在时间T内接触的概率，θ_A,B表示节点A和B接触间隔负指数分布的均值；

步骤3.2：利用节点接触间隔的统计平均来估算接触间隔指数分布的分布均值，则节点A 和B在时间T内的接触概率通过下式表示：

其中，

N表示节点A和B的接触次数，t₁为第一次接触的时刻，t_2i+1为第i+1次的接触开始时刻，t_2i为第i次接触的断开时刻；

步骤3.3：引入接触新鲜度系数后，通过下式表示节点A和B的接触概率：

优选地，所述步骤4具体为：

根据车载机会网络的路由需求和节点机会接触特性，确定转发效用学习更新模型，所述模型包括动态折扣因子，立即回报函数，并将节点接触概率引入更新模型；

立即回报值R_d(s,x)通过下式表示：

其中

表示目的节点为d的数据包从进入节点s到转发进入节点x所经历的时间长度；

动态折扣因子γ_d(s,x)的通过下式表示：

其中，γ为折扣因子常数，0<γ≤1；

转发效用Q值更新公式通过下式所示：

其中，Q_d(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的状态-动作值，即s向x转发目的节点为d的数据包对应的转发效用Q值；α为学习系数，0≤α≤1； R_d(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的立即回报值； γ_d(s,x)为在节点s中向节点x转发目的节点为d的数据包所对应的动态折扣因子；N_x表示节点的接触节点集合，该集合包含所有节点x移动过程中遇到的所有节点；Q_d′(x,y)为适应针对车载机会网络动态变化特性引入的节点接触概率的状态-动作值。

优选地，所述步骤5具体为：

在车载机会网络中，当数据包被成功转发后，接收数据包的节点会向发送数据包的节点发送接收确认信息；当发送数据的节点在收到数据发送确认后，提取出接收节点的ID、数据包对应的目的节点ID、接收数据包的时刻Time以及对应数据包在接收节点中最大的引入接触概率的状态-动作值；通过获取发送节点从上一节点中接收该数据包的时刻，计算数据包在两个节点间经历的时间长度，代入到更新公式计算状态-动作值。

优选地，所述步骤6具体为：通过节点接触交互信息的发送一方面使得节点间的接触信息得到更新，包括接触时间的更新、接触次数的更新、累计接触间隔时长的更新以及节点间接触新鲜度系数的更新，从而实现节点间接触概率的计算；

通过获取接触交互信息中包含的Q值列表信息，实现状态-动作值的节点接触更新，在节点接触更新过程中，不同于转发更新过程，立即回报值函数和折扣因子函数所用的节点数据包传输时长被节点间数据包传输时长的平均值代替，在更新过程中采用与转发更新过程不同的学习系数。

本发明具有以下有益效果：

本发明提供的基于双更新策略的车载机会网络转发效用学习模型，利用节点间的接触信息计算节点接触新鲜度系数和节点间接触概率，在节点接触概率预测的基础上结合分布式Q 学习框架进行节点转发能力的学习，并利用数据包转发更新和节点接触更新双更新策略加速节点转发效用值得学习过程，使得节点可以随学习过程逐步获取节点对数据包的转发效用。转发效用学习模型有助于数据包转发节点的选取，提高车载机会网络的传输性能，包括提高数据包投递成功率和降低数据包传输时延。

附图说明

图1是车载机会网络体系结构示意图；

图2是车载机会中网络数据包传输过程示意图；

图3是转发效用学习模型设计过程整体框架示意图；

图4是节点s与其他节点的节点接触信息示意图；

图5是节点s中存储的状态-动作值映射示意图；

图6是节点A和B在网络运行期间的接触序列图示意图；

图7是效用学习模型在确认信息示意图；

图8是车辆节点A和B转发数据包后的状态-动作值更新过程示意图；

图9是节点接触时的交互信息内容示意图；

图10是车辆节点A和B接触进行信息交互过程示意图。

具体实施方式

以下结合具体实施例，对本发明进行了详细说明。

具体实施例一：

根据图3至图10所示，本发明提供一种基于双更新策略的车联网节点转发效用学习方法，一种基于双更新策略的车联网节点转发效用学习方法，包括以下步骤：

步骤1：基于车辆节点间信息交互过程中的信息更新，确定学习过程中基本要素；

所述步骤1具体为：

步骤2：基于车辆节点间信息交互过程中的信息更新，确定节点接触新鲜度系数；

所述步骤2具体为:

F_A,B＝F_A,B+(1-F_A,B)*P_int

其中，P_int为一个固定常数，设置P_int等于0.85；

所述步骤3具体为：

其中，

所述步骤4具体为：

立即回报值R_d(s,x)通过下式表示：

其中

动态折扣因子γ_d(s,x)的通过下式表示：

其中，γ为折扣因子常数，0<γ≤1；

转发效用Q值更新公式通过下式所示：

步骤5：建立转发效用值数据包转发更新策略，获取发送节点从上一节点中接收该数据包的时刻，并确定两个节点间经历的时间长度，并带入更新模型中确定状态-动作值；

所述步骤5具体为：

所述步骤6具体为：通过节点接触交互信息的发送一方面使得节点间的接触信息得到更新，包括接触时间的更新、接触次数的更新、累计接触间隔时长的更新以及节点间接触新鲜度系数的更新，从而实现节点间接触概率的计算；

具体实施例二：

附图3所示为本发明中转发效用学习模型设计过程整体框架。节点机会接触是车载机会网络数据包转发的前提，也是节点转发效用更新的必要条件。节点接触可以使得节点对间接触新鲜度系数和接触概率得到更新，而接触新鲜度系数可以用于节点接触概率新鲜度的动态调整；转发效用学习模型更新公式的关键组成部分包括节点接触概率、立即回报函数和动态折扣因子；转发效用的学习过程主要是包括利用Q学习策略实现数据包在车载机会网络节点间传递过程中的学习和节点接触过程中的学习，利用转发效用学习模型更新公式进行节点对数据包转发效用Q值的更新，可以用于数据包的转发过程。

车载机会网络中节点转发效用学习模型建立阶段实现过程如下：

步骤一：确定学习过程中所需要的基本要素，包括环境、智能体、状态空间、动作空间和立即回报，定义节点更新信息表，包括节点接触信息表和节点状态-动作值表。

环境：数据包从源节点向目的节点的投递过程中，随着数据包的转发整个车载机会网络都能为其提供所需信息，所以将整个车载机会网络视为学习模型的环境。

智能体：从源节点向目的节点传递的数据包作为学习算法的智能体。

状态空间：网络中所有节点都可以作为数据包的存储节点，因此网络中所有节点的集合为智能体的状态空间。

动作空间：节点向下一跳节点转发数据包构成智能体的动作空间，在车载机会网络中，节点具有“存储-携带-转发”功能，因此转发节点选择范围包括所有接触过的节点。

立即回报：当数据包成功转发到下一跳节点后，智能体会从环境中获得即时回报值，用于状态-动作值的更新。

节点接触信息表：在节点间接触进行信息交互的时候更新接触信息，通过节点接触信息可以计算节点s与其他节点间的平均接触间隔、接触新鲜度系数，从而可以估计节点间的接触概率。附图4所示为节点s与其他节点的节点接触信息图表，

节点状态-动作值表：附图5所示为节点s中存储的状态-动作值映射。其中，节点s为数据包所在的状态，深色竖排表示的是数据包的目的节点，深色横排表示的是节点s移动过程接触过的节点，

为其中一个数据元组，

表示节点s向节点A转发目的节点为D的数据包的次数，

表示节点s向节点A传输目的节点D的数据包经历的平均时间，Q_D(s,A)表示目的节点为D的数据包在节点s中选择节点A作为下一跳投递节点能够得到的累计回报值，该值越大表明选择节点A作为下一跳投递节点对于数据包的传递性能越好。

步骤二：定义节点接触新鲜度系数。

接触新鲜度系数F_A,B：节点A和B之间的接触信息新鲜程度，能够表征当前接触概率的时效性强度。在节点A和B没有接触时，设置接触新鲜度系数F_A,B等于零；当节点A和B建立链接后，该系数的更新公式如下。其中，P_int为一个固定常数，设置P_int等于0.85。

F_A,B＝F_A,B+(1-F_A,B)*P_int (1)

当节点A和B长时间没有接触，则两个节点间接触信息的新鲜度就应该降低，因此需要对较长时间未接触的节点接触新鲜度系数进行衰减，其衰减更新公式如下所示。其中，η为衰减因子，取值为0.95；μ_A,B表示距离节点A和B上次接触断开时刻所经过的时间单位的个数，时间单位的长度为节点A和B的平均接触间隔时间。

步骤三：确定节点接触概率

附图6所示节点A和B在网络运行期间的接触序列图，一个接触周期包括三个时间节点：接触终止时刻t_2(i-1)、接触开始时刻t_2i-1和接触终止时刻t_2i。灰色区域表示两个节点处于链接断开状态，白色区域表示两个节点处于连接状态，A和B的第一个接触周期中，0表示网络运行开始时刻，t₁为接触开始时刻，t₂为接触终止时刻，t₃为第二次接触周期中的接触开始时刻。 T(A,B)＝t₂为节点A和B第一个接触周期的时间长度。两节点间的接触周期越短，则两个节点接触越频繁。D(A,B)＝t₂-t₁为节点A和B第一个接触周期中的节点接触持续时长。两节点接触时间越长，则两节点的链路越稳定，能够传输的数据流量越多。T(A,B)-D(A,B)＝t₁为节点A和B第一个接触周期的接触间隔时长。两节点接触间隔越大，则两个节点接触的概率越小，传输数据包的可能性也越小。

节点间的接触间隔时间近似服从负指数分布，以此来估计节点间的接触概率，接触概率如下式所示。其中，P_A,B(T)表示节点A和节点B的在时间T内接触的概率，θ_A,B表示节点A 和B接触间隔负指数分布的均值。

利用节点接触间隔的统计平均来估算接触间隔指数分布的分布均值，则节点A和B在时间T内的接触概率如下式所示。

其中，

N表示节点A和B的接触次数，t₁为第一次接触的时刻，t_2i+1为第i+1次的接触开始时刻，t_2i为第i次接触的断开时刻。

引入接触新鲜度系数后，节点A和B的接触概率公式如下式所示。

步骤四：根据车载机会网络的路由需求和节点机会接触特性，定义转发效用学习更新公式，包括动态折扣因子，立即回报函数，并将节点接触概率引入更新公式。

立即回报值R_d(s,x)定义如下式所示。其中

表示目的节点为d的数据包从进入节点s 到转发进入节点x所经历的时间长度。

动态折扣因子γ_d(s,x)的定义如下式所示。其中，γ为折扣因子常数，0<γ≤1；

表示目的节点为d的数据包从进入节点s到转发进入节点x所经历的时间长度。

转发效用Q值更新公式定义如下式所示。其中，Q_d(s,x)为目的节点为d的数据包在节点 s中选择节点x作为下一跳转发节点的状态-动作值，即s向x转发目的节点为d的数据包对应的转发效用Q值；α为学习系数，0≤α≤1；R_d(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的立即回报值；γ_d(s,x)为在节点s中向节点x转发目的节点为d的数据包所对应的动态折扣因子；N_x表示节点的接触节点集合，该集合包含所有节点x 移动过程中遇到的所有节点；Q_d′(x,y)为适应针对车载机会网络动态变化特性引入的节点接触概率的状态-动作值。

(2)数据包转发更新和节点接触更新双更新策略

步骤一：转发效用值数据包转发更新策略。

在车载机会网络中，当数据包被成功转发后，接收数据包的节点会向发送数据包的节点发送接收确认信息，附图7为效用学习模型在确认信息中包含的内容。

附图8为节点A和B转发数据包后的状态-动作值更新过程，其中，A为数据发送节点， B为数据接收节点，数据包的目的节点为D。

当节点B接收到从A转发来的数据包，记录接收该数据包的时刻并判断该数据包的目的节点是否为自己。如果B为数据包的目的节点，即D＝B，则数据包转发过程进入终止态。在数据包接收确认信息中只需要接收节点的ID、数据包ID和接收数据包的时刻Time，字段Q 值设置为空，节点A收到B发送的确认信息后按照公式(6)计算立即回报值R_D(A,D)，并按照公式(9)更新状态-动作值列表中对应的Q值Q_D(A,D)。

如果B不是数据包的目的节点，则节点B在数据包接收确认信息中需要接收节点的ID、数据包ID、接收数据包的时刻Time以及数据包在接收节点中最大的引入接触概率的Q值

Q_D′(B,y)计算公式如(10)所示，按照公式(7)计算动态折扣因子γ_D(A,B)，并按照公式(11)更新状态-动作值列表中对应的Q值Q_D(A,B)。同时，节点A接收到接收确认后需要将目的节点为D转发给节点B的数据包记录次数加1，并将数据包在A和B两个节点之间所经历的时间长度加入到目的节点D的累计传输时间长度中，用来计算平均传输间隔时长。

步骤二：转发效用值节点接触更新策略。

附图9所示为效用学习模型中设计的节点接触时的交互信息内容，通过接触交互信息的发送一方面使得节点间的接触信息可以得到更新，包括接触时间的更新、接触次数的更新、累计接触间隔时长的更新以及节点间接触新鲜度系数的更新，从而实现节点间接触概率的计算；另一方面通过获取接触交互信息中包含的Q值列表信息，可以实现状态-动作值的节点接触更新。

附图10节点A和B接触进行信息交互的过程。节点A和B进入彼此连通范围并建立通信连接，两个节点分别向对方发送交互信息。当A接收到B的交互信息后，首先更新A与B的接触信息表，包括A与B的最新接触时刻、A与B的接触次数以及与节点B的接触间隔累计时间，同时更新节点A和B的接触新鲜度系数F_A,B；然后查看A是否向B发送过目的节点为B 的数据包，如果发送过则计算此类数据包从A到B经历时间长度的平均值

其中

为此类数据包发送的次数，将该均值代替数据包传输时长代入公式(9)更新状态-动作值列表中对应的Q值Q_B(A,B)，如果没发送过则不更新；最后，按照节点B发送的交互信息中的Q值列表与节点A的状态-动作值表进行对照逐条更新，例如对(d_n,maxQ)来讲，如果节点A的状态-动作值表中含有对应目的节点d_n转发节点B的Q值，则计算目的节点为d_n的数据包从节点A到节点B经历时间长度的平均值

其中

为目的节点为d_n的数据包从节点A发送到节点B的次数，将该平均值和对应的maxQ代入到公式(11)更新状态-动作值列表中对应的Q值，如果节点A不含有Q值则不进行更新。

以上所述仅是一种基于双更新策略的车联网节点转发效用学习方法的优选实施方式，一种基于双更新策略的车联网节点转发效用学习方法的保护范围并不仅局限于上述实施例，凡属于该思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的技术人员来说，在不脱离本发明原理前提下的若干改进和变化，这些改进和变化也应视为本发明的保护范围。

Claims

1.一种基于双更新策略的车联网节点转发效用学习方法，其特征是：包括以下步骤：

步骤3：确定节点接触概率，建立车载机会网络中节点转发效用学习模型；

步骤6：建立转发效用值节点接触更新策略，在更新过程中采用与转发更新过程不同的学习系数；

所述步骤2具体为:

F_A,B＝F_A,B+(1-F_A,B)*P_int

其中，P_int为一个固定常数，设置P_int等于0.85；

当节点A和B长时间没有接触，则两个节点间接触信息的新鲜度降低，需要对长时间未接触的节点接触新鲜度系数进行衰减，通过下式进行衰减更新：

其中，η为衰减因子，取值为0.95；μ_A,B表示距离节点A和B上次接触断开时刻所经过的时间单位的个数，时间单位的长度为节点A和B的平均接触间隔时间；

所述步骤3具体为：

步骤3.1：确定节点接触概率，城市中车辆节点间的接触间隔时间服从负指数分布，以此来估计节点间的接触概率，通过下式表示接触概率：

步骤3.2：利用节点接触间隔的统计平均来估算接触间隔指数分布的分布均值，则节点A和B在时间T内的接触概率通过下式表示：

其中，

所述步骤4具体为：

立即回报值R_d(s,x)通过下式表示：

其中

动态折扣因子γ_d(s,x)的通过下式表示：

其中，γ为折扣因子常数，0<γ≤1；

转发效用Q值更新公式通过下式所示：

其中，Q_d(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的状态-动作值，即s向x转发目的节点为d的数据包对应的转发效用Q值；α为学习系数，0≤α≤1；R_d(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的立即回报值；γ_d(s,x)为在节点s中向节点x转发目的节点为d的数据包所对应的动态折扣因子；N_x表示节点的接触节点集合，该集合包含所有节点x移动过程中遇到的所有节点；Q_d′(x,y)为适应针对车载机会网络动态变化特性引入的节点接触概率的状态-动作值；

2.根据权利要求1所述的一种基于双更新策略的车联网节点转发效用学习方法，其特征是：所述步骤1具体为：

确定学习过程中所需要的基本要素，所述要素包括：环境、智能体、状态空间、动作空间和立即回报；定义节点更新信息表，所述节点更新信息表包括节点接触信息表和节点状态-动作值表；

智能体为从源节点向目的节点传递的数据包作为学习方法的智能体；

3.根据权利要求1所述的一种基于双更新策略的车联网节点转发效用学习方法，其特征是：所述步骤5具体为：