CN113726664B - 一种基于双更新策略的车联网节点转发效用学习方法 - Google Patents

一种基于双更新策略的车联网节点转发效用学习方法 Download PDF

Info

Publication number
CN113726664B
CN113726664B CN202110886162.XA CN202110886162A CN113726664B CN 113726664 B CN113726664 B CN 113726664B CN 202110886162 A CN202110886162 A CN 202110886162A CN 113726664 B CN113726664 B CN 113726664B
Authority
CN
China
Prior art keywords
node
contact
nodes
data packet
forwarding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110886162.XA
Other languages
English (en)
Other versions
CN113726664A (zh
Inventor
王桐
王希波
刘逸伦
高山
曹越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Juche Technology Co ltd
Harbin Engineering University
Original Assignee
Harbin Juche Technology Co ltd
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Juche Technology Co ltd, Harbin Engineering University filed Critical Harbin Juche Technology Co ltd
Priority to CN202110886162.XA priority Critical patent/CN113726664B/zh
Publication of CN113726664A publication Critical patent/CN113726664A/zh
Application granted granted Critical
Publication of CN113726664B publication Critical patent/CN113726664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/46Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/24Connectivity information management, e.g. connectivity discovery or connectivity update
    • H04W40/248Connectivity information update
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明是一种基于双更新策略的车联网节点转发效用学习方法。本发明涉及移动机会网络通信技术领域,基于车辆节点间信息交互过程中的信息更新,确定学习过程中基本要素;确定节点接触新鲜度系数,确定节点接触概率,建立车载机会网络中节点转发先用学习模型;根据车载机会网络的路由需求和节点机会接触特性,确定转发效用学习更新模型,建立转发效用值数据包转发更新策略,获取发送节点从上一节点中接收该数据包的时刻,建立转发效用值节点接触更新策略,在更新过程中采用与转发更新过程不同的学习系数。本发明提高车载机会网络的传输性能,包括提高数据包投递成功率和降低数据包传输时延。

Description

一种基于双更新策略的车联网节点转发效用学习方法
技术领域
本发明涉及移动机会网络通信技术领域,是一种基于双更新策略的车联网节点转发效用 学习方法。
背景技术
工业自动化的发展浪潮推动着信息传感、数据通信以及数据处理等高新技术的发展不断 前进,大量具备信息感知处理能力、短距离信息无线传输能力的智能设备被应用于如城市智 能交通、海洋环境监测、野生动物迁移追踪等众多领域,社会发展逐步进入物联网信息时代。 为了满足物联网/车联网泛在互联、全面感知需求,智能设备之间需要进行组网互联,因此设 备间组网技术日益成为物联网研究领域的焦点。高动态自组织网络/车联网实际应用中,往往 会面临城市中节点分布稀疏、网络拓扑变化快等问题,不能保障网络的连通性,因此传统的 移动自组织网络通信协议不再适用于这些复杂场景。因为这些传统通信协议应用的条件是保 证网络中任意节点对间完整连通的端到端链路不能少于一条,而在实际的自组织网络中这一 条件很难得到满足,所以很难保证网络的传输性能,使得车联网在现实应用中难以得到推广。
车载移动机会网络/车联网在原有五层网络体系结构基础上,在应用层和运输层之间引 进束层(Bundle Layer),如附图1所示。束层使得网络节点原有的“存储-转发”(Storeand Forward) 数据通信方式转变为“存储-携带-转发”(Store-Carry-Forward)通信方式,将网络拓扑动态变化 这一劣势转化为可应用特征,依靠车辆节点移动产生的机会接触,选择中继节点进行数据包 转发,直到数据包到达目的节点。附图2为车载移动机会中网络数据包传输过程。数据包从 节点S产生,然后向D传递的整个过程。假设在T1时刻,在节点S上产生了目的节点为D的 数据包,而两个节点间并不存在完整端到端链路,而节点S传递范围内也没有合适的邻近节 点被选作中继节点,因此节点S继续携着数据包在网络中移动;在T2时刻,节点S遇到节点R, 而且节点R具有更大的传输潜力,因此S将数据包转发给节点R,R携带该数据包在网络中 移动;在T3时刻,节点R移动进入目的节点D的通信区域,因此R将该数据包传给节点D, 完成数据传递任务。
对于车载移动机会网络来说,选择合适的中继节点来携带数据包对于网络传输的性能至 关重要。而在中继节点选择过程中,根据车载移动机会网络的网络特性以及节点特征为其制 定合理并且有效的转发节点效用计算方法的作用尤为重要。
发明内容
本发明利用车辆节点间信息交互(数据包在节点间传递产生的信息交互、网络中节点相 遇接触产生的信息交互)进行强化学习状态-动作值的更新,使得网络节点可以随强化学习的 学习过程逐步获取节点对数据包的转发效用,提高移动机会网络的传输性能。在车载机会网 络中,车辆通过车载WIFI、蓝牙或者短程专用通信设备进行通信,实现车间通信。本发明提 供了一种基于双更新策略的车联网节点转发效用学习方法,本发明提供了以下技术方案:
一种基于双更新策略的车联网节点转发效用学习方法,包括以下步骤:
步骤1:基于车辆节点间信息交互过程中的信息更新,确定学习过程中基本要素,;
步骤2:基于车辆节点间信息交互过程中的信息更新,确定节点接触新鲜度系数,
步骤3:确定节点接触概率,建立车载机会网络中节点转发先用学习模型;
步骤4:根据车载机会网络的路由需求和节点机会接触特性,确定转发效用学习更新模 型,所述模型包括动态折扣因子;
步骤5:建立转发效用值数据包转发更新策略,获取发送节点从上一节点中接收该数据 包的时刻,并确定两个节点间经历的时间长度,并带入更新模型中确定状态-动作值
步骤6:建立转发效用值节点接触更新策略,在更新过程中采用与转发更新过程不同的 学习系数。
优选地,所述步骤1具体为:
确定学习过程中所需要的基本要素,所述要素包括:环境、智能体、状态空间、动作空 间和立即回报;定义节点更新信息表,所述节点更新信息表包括节点接触信息表和节点状态- 动作值表;
环境为数据包从源节点向目的节点的投递过程中,随着数据包的转发城市中整个车载机 会网络提供所需信息,将车载机会网络视为学习模型的环境;
智能体为从源节点向目的节点传递的数据包作为学习算法的智能体;
状态空间为网络中所有车辆节点作为数据包的存储节点,网络中所有节点的集合为智能 体的状态空间;
动作空间为节点向下一跳节点转发数据包构成智能体的动作空间,在车载机会网络中, 节点具有“存储-携带-转发”功能,转发节点选择范围包括所有接触过的节点;
立即回报为当数据包成功转发到下一跳节点后,智能体从环境中获得即时回报值,用于 状态-动作值的更新;
节点接触信息表为在节点间接触进行信息交互的时候更新接触信息,通过节点接触信息 计算节点s与其他节点间的平均接触间隔和接触新鲜度系数,从而估计节点间的接触概率;
节点状态-动作值表为将对应节点作为下一跳投递节点能够得到的累计回报值,当回报 值值越大表明选择节点作为下一跳投递节点对于数据包的传递性能越好。
优选地,所述步骤2具体为:
接触新鲜度系数FA,B为节点A和B之间的接触信息新鲜程度,表征当前接触概率的时效 性强度,在节点A和B没有接触时,设置接触新鲜度系数FA,B等于零;当节点A和B建立链接后,通过下式进行更新公式:
FA,B=FA,B+(1-FA,B)*Pint
其中,Pint为一个固定常数,设置Pint等于0.85;
当节点A和B长时间没有接触,则两个节点间接触信息的新鲜度降低,需要对较长时间 未接触的节点接触新鲜度系数进行衰减,通过下式进行衰减更新:
Figure BDA0003194203030000031
其中,η为衰减因子,取值为0.95;μA,B表示距离节点A和B上次接触断开时刻所经过的时间单位的个数,时间单位的长度为节点A和B的平均接触间隔时间。
优选地,所述步骤3具体为:
步骤3.1:确定节点接触概率,城市中车辆节点间的接触间隔时间近似服从负指数分布, 以此来估计节点间的接触概率,通过下式表示接触概率:
Figure BDA0003194203030000032
其中,PA,B(T)表示节点A和节点B的在时间T内接触的概率,θA,B表示节点A和B接触间隔负指数分布的均值;
步骤3.2:利用节点接触间隔的统计平均来估算接触间隔指数分布的分布均值,则节点A 和B在时间T内的接触概率通过下式表示:
Figure BDA0003194203030000033
其中,
Figure BDA0003194203030000041
N表示节点A和B的接触次数,t1为第一次接触的时刻,t2i+1为第i+1次的接触开始时刻,t2i为第i次接触的断开时刻;
步骤3.3:引入接触新鲜度系数后,通过下式表示节点A和B的接触概率:
Figure BDA0003194203030000042
优选地,所述步骤4具体为:
根据车载机会网络的路由需求和节点机会接触特性,确定转发效用学习更新模型,所述 模型包括动态折扣因子,立即回报函数,并将节点接触概率引入更新模型;
立即回报值Rd(s,x)通过下式表示:
Figure BDA0003194203030000043
其中
Figure BDA0003194203030000044
表示目的节点为d的数据包从进入节点s到转发进入节点x所经历的时间长度;
动态折扣因子γd(s,x)的通过下式表示:
Figure BDA0003194203030000045
其中,γ为折扣因子常数,0<γ≤1;
Figure BDA0003194203030000046
表示目的节点为d的数据包从进入节点s到转 发进入节点x所经历的时间长度;
转发效用Q值更新公式通过下式所示:
Figure BDA0003194203030000047
其中,Qd(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的状 态-动作值,即s向x转发目的节点为d的数据包对应的转发效用Q值;α为学习系数,0≤α≤1; Rd(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的立即回报值; γd(s,x)为在节点s中向节点x转发目的节点为d的数据包所对应的动态折扣因子;Nx表示 节点的接触节点集合,该集合包含所有节点x移动过程中遇到的所有节点;Qd′(x,y)为适应 针对车载机会网络动态变化特性引入的节点接触概率的状态-动作值。
优选地,所述步骤5具体为:
在车载机会网络中,当数据包被成功转发后,接收数据包的节点会向发送数据包的节点 发送接收确认信息;当发送数据的节点在收到数据发送确认后,提取出接收节点的ID、数据 包对应的目的节点ID、接收数据包的时刻Time以及对应数据包在接收节点中最大的引入接触 概率的状态-动作值;通过获取发送节点从上一节点中接收该数据包的时刻,计算数据包在两 个节点间经历的时间长度,代入到更新公式计算状态-动作值。
优选地,所述步骤6具体为:通过节点接触交互信息的发送一方面使得节点间的接触信 息得到更新,包括接触时间的更新、接触次数的更新、累计接触间隔时长的更新以及节点间 接触新鲜度系数的更新,从而实现节点间接触概率的计算;
通过获取接触交互信息中包含的Q值列表信息,实现状态-动作值的节点接触更新,在 节点接触更新过程中,不同于转发更新过程,立即回报值函数和折扣因子函数所用的节点数 据包传输时长被节点间数据包传输时长的平均值代替,在更新过程中采用与转发更新过程不 同的学习系数。
本发明具有以下有益效果:
本发明提供的基于双更新策略的车载机会网络转发效用学习模型,利用节点间的接触信 息计算节点接触新鲜度系数和节点间接触概率,在节点接触概率预测的基础上结合分布式Q 学习框架进行节点转发能力的学习,并利用数据包转发更新和节点接触更新双更新策略加速 节点转发效用值得学习过程,使得节点可以随学习过程逐步获取节点对数据包的转发效用。 转发效用学习模型有助于数据包转发节点的选取,提高车载机会网络的传输性能,包括提高 数据包投递成功率和降低数据包传输时延。
附图说明
图1是车载机会网络体系结构示意图;
图2是车载机会中网络数据包传输过程示意图;
图3是转发效用学习模型设计过程整体框架示意图;
图4是节点s与其他节点的节点接触信息示意图;
图5是节点s中存储的状态-动作值映射示意图;
图6是节点A和B在网络运行期间的接触序列图示意图;
图7是效用学习模型在确认信息示意图;
图8是车辆节点A和B转发数据包后的状态-动作值更新过程示意图;
图9是节点接触时的交互信息内容示意图;
图10是车辆节点A和B接触进行信息交互过程示意图。
具体实施方式
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
根据图3至图10所示,本发明提供一种基于双更新策略的车联网节点转发效用学习方 法,一种基于双更新策略的车联网节点转发效用学习方法,包括以下步骤:
步骤1:基于车辆节点间信息交互过程中的信息更新,确定学习过程中基本要素;
所述步骤1具体为:
确定学习过程中所需要的基本要素,所述要素包括:环境、智能体、状态空间、动作空 间和立即回报;定义节点更新信息表,所述节点更新信息表包括节点接触信息表和节点状态- 动作值表;
环境为数据包从源节点向目的节点的投递过程中,随着数据包的转发城市中整个车载机 会网络提供所需信息,将车载机会网络视为学习模型的环境;
智能体为从源节点向目的节点传递的数据包作为学习算法的智能体;
状态空间为网络中所有车辆节点作为数据包的存储节点,网络中所有节点的集合为智能 体的状态空间;
动作空间为节点向下一跳节点转发数据包构成智能体的动作空间,在车载机会网络中, 节点具有“存储-携带-转发”功能,转发节点选择范围包括所有接触过的节点;
立即回报为当数据包成功转发到下一跳节点后,智能体从环境中获得即时回报值,用于 状态-动作值的更新;
节点接触信息表为在节点间接触进行信息交互的时候更新接触信息,通过节点接触信息 计算节点s与其他节点间的平均接触间隔和接触新鲜度系数,从而估计节点间的接触概率;
节点状态-动作值表为将对应节点作为下一跳投递节点能够得到的累计回报值,当回报 值值越大表明选择节点作为下一跳投递节点对于数据包的传递性能越好。
步骤2:基于车辆节点间信息交互过程中的信息更新,确定节点接触新鲜度系数;
所述步骤2具体为:
接触新鲜度系数FA,B为节点A和B之间的接触信息新鲜程度,表征当前接触概率的时效 性强度,在节点A和B没有接触时,设置接触新鲜度系数FA,B等于零;当节点A和B建立链接后,通过下式进行更新公式:
FA,B=FA,B+(1-FA,B)*Pint
其中,Pint为一个固定常数,设置Pint等于0.85;
当节点A和B长时间没有接触,则两个节点间接触信息的新鲜度降低,需要对较长时间 未接触的节点接触新鲜度系数进行衰减,通过下式进行衰减更新:
Figure BDA0003194203030000071
其中,η为衰减因子,取值为0.95;μA,B表示距离节点A和B上次接触断开时刻所经过的时间单位的个数,时间单位的长度为节点A和B的平均接触间隔时间。
步骤3:确定节点接触概率,建立车载机会网络中节点转发先用学习模型;
所述步骤3具体为:
步骤3.1:确定节点接触概率,城市中车辆节点间的接触间隔时间近似服从负指数分布, 以此来估计节点间的接触概率,通过下式表示接触概率:
Figure BDA0003194203030000072
其中,PA,B(T)表示节点A和节点B的在时间T内接触的概率,θA,B表示节点A和B接触间隔负指数分布的均值;
步骤3.2:利用节点接触间隔的统计平均来估算接触间隔指数分布的分布均值,则节点A 和B在时间T内的接触概率通过下式表示:
Figure BDA0003194203030000073
其中,
Figure BDA0003194203030000074
N表示节点A和B的接触次数,t1为第一次接触的时刻,t2i+1为第i+1次的接触开始时刻,t2i为第i次接触的断开时刻;
步骤3.3:引入接触新鲜度系数后,通过下式表示节点A和B的接触概率:
Figure BDA0003194203030000075
步骤4:根据车载机会网络的路由需求和节点机会接触特性,确定转发效用学习更新模 型,所述模型包括动态折扣因子;
所述步骤4具体为:
根据车载机会网络的路由需求和节点机会接触特性,确定转发效用学习更新模型,所述 模型包括动态折扣因子,立即回报函数,并将节点接触概率引入更新模型;
立即回报值Rd(s,x)通过下式表示:
Figure BDA0003194203030000081
其中
Figure BDA0003194203030000082
表示目的节点为d的数据包从进入节点s到转发进入节点x所经历的时间长度;
动态折扣因子γd(s,x)的通过下式表示:
Figure BDA0003194203030000083
其中,γ为折扣因子常数,0<γ≤1;
Figure BDA0003194203030000084
表示目的节点为d的数据包从进入节点s到转 发进入节点x所经历的时间长度;
转发效用Q值更新公式通过下式所示:
Figure BDA0003194203030000085
其中,Qd(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的状 态-动作值,即s向x转发目的节点为d的数据包对应的转发效用Q值;α为学习系数,0≤α≤1; Rd(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的立即回报值; γd(s,x)为在节点s中向节点x转发目的节点为d的数据包所对应的动态折扣因子;Nx表示 节点的接触节点集合,该集合包含所有节点x移动过程中遇到的所有节点;Qd′(x,y)为适应 针对车载机会网络动态变化特性引入的节点接触概率的状态-动作值。
步骤5:建立转发效用值数据包转发更新策略,获取发送节点从上一节点中接收该数据 包的时刻,并确定两个节点间经历的时间长度,并带入更新模型中确定状态-动作值;
所述步骤5具体为:
在车载机会网络中,当数据包被成功转发后,接收数据包的节点会向发送数据包的节点 发送接收确认信息;当发送数据的节点在收到数据发送确认后,提取出接收节点的ID、数据 包对应的目的节点ID、接收数据包的时刻Time以及对应数据包在接收节点中最大的引入接触 概率的状态-动作值;通过获取发送节点从上一节点中接收该数据包的时刻,计算数据包在两 个节点间经历的时间长度,代入到更新公式计算状态-动作值。
步骤6:建立转发效用值节点接触更新策略,在更新过程中采用与转发更新过程不同的 学习系数。
所述步骤6具体为:通过节点接触交互信息的发送一方面使得节点间的接触信息得到更 新,包括接触时间的更新、接触次数的更新、累计接触间隔时长的更新以及节点间接触新鲜 度系数的更新,从而实现节点间接触概率的计算;
通过获取接触交互信息中包含的Q值列表信息,实现状态-动作值的节点接触更新,在 节点接触更新过程中,不同于转发更新过程,立即回报值函数和折扣因子函数所用的节点数 据包传输时长被节点间数据包传输时长的平均值代替,在更新过程中采用与转发更新过程不 同的学习系数。
具体实施例二:
附图3所示为本发明中转发效用学习模型设计过程整体框架。节点机会接触是车载机会 网络数据包转发的前提,也是节点转发效用更新的必要条件。节点接触可以使得节点对间接 触新鲜度系数和接触概率得到更新,而接触新鲜度系数可以用于节点接触概率新鲜度的动态 调整;转发效用学习模型更新公式的关键组成部分包括节点接触概率、立即回报函数和动态 折扣因子;转发效用的学习过程主要是包括利用Q学习策略实现数据包在车载机会网络节点 间传递过程中的学习和节点接触过程中的学习,利用转发效用学习模型更新公式进行节点对 数据包转发效用Q值的更新,可以用于数据包的转发过程。
车载机会网络中节点转发效用学习模型建立阶段实现过程如下:
步骤一:确定学习过程中所需要的基本要素,包括环境、智能体、状态空间、动作空间 和立即回报,定义节点更新信息表,包括节点接触信息表和节点状态-动作值表。
环境:数据包从源节点向目的节点的投递过程中,随着数据包的转发整个车载机会网络 都能为其提供所需信息,所以将整个车载机会网络视为学习模型的环境。
智能体:从源节点向目的节点传递的数据包作为学习算法的智能体。
状态空间:网络中所有节点都可以作为数据包的存储节点,因此网络中所有节点的集合 为智能体的状态空间。
动作空间:节点向下一跳节点转发数据包构成智能体的动作空间,在车载机会网络中, 节点具有“存储-携带-转发”功能,因此转发节点选择范围包括所有接触过的节点。
立即回报:当数据包成功转发到下一跳节点后,智能体会从环境中获得即时回报值,用 于状态-动作值的更新。
节点接触信息表:在节点间接触进行信息交互的时候更新接触信息,通过节点接触信息 可以计算节点s与其他节点间的平均接触间隔、接触新鲜度系数,从而可以估计节点间的接 触概率。附图4所示为节点s与其他节点的节点接触信息图表,
节点状态-动作值表:附图5所示为节点s中存储的状态-动作值映射。其中,节点s为 数据包所在的状态,深色竖排表示的是数据包的目的节点,深色横排表示的是节点s移动过 程接触过的节点,
Figure BDA0003194203030000101
为其中一个数据元组,
Figure BDA0003194203030000102
表示节点s向节点A转 发目的节点为D的数据包的次数,
Figure BDA0003194203030000103
表示节点s向节点A传输目的节点D的数据包经历的 平均时间,QD(s,A)表示目的节点为D的数据包在节点s中选择节点A作为下一跳投递节点 能够得到的累计回报值,该值越大表明选择节点A作为下一跳投递节点对于数据包的传递性 能越好。
步骤二:定义节点接触新鲜度系数。
接触新鲜度系数FA,B:节点A和B之间的接触信息新鲜程度,能够表征当前接触概率的 时效性强度。在节点A和B没有接触时,设置接触新鲜度系数FA,B等于零;当节点A和B建立链接后,该系数的更新公式如下。其中,Pint为一个固定常数,设置Pint等于0.85。
FA,B=FA,B+(1-FA,B)*Pint (1)
当节点A和B长时间没有接触,则两个节点间接触信息的新鲜度就应该降低,因此需要 对较长时间未接触的节点接触新鲜度系数进行衰减,其衰减更新公式如下所示。其中,η为 衰减因子,取值为0.95;μA,B表示距离节点A和B上次接触断开时刻所经过的时间单位的个 数,时间单位的长度为节点A和B的平均接触间隔时间。
Figure BDA0003194203030000104
步骤三:确定节点接触概率
附图6所示节点A和B在网络运行期间的接触序列图,一个接触周期包括三个时间节点: 接触终止时刻t2(i-1)、接触开始时刻t2i-1和接触终止时刻t2i。灰色区域表示两个节点处于链接 断开状态,白色区域表示两个节点处于连接状态,A和B的第一个接触周期中,0表示网络运 行开始时刻,t1为接触开始时刻,t2为接触终止时刻,t3为第二次接触周期中的接触开始时刻。 T(A,B)=t2为节点A和B第一个接触周期的时间长度。两节点间的接触周期越短,则两个节 点接触越频繁。D(A,B)=t2-t1为节点A和B第一个接触周期中的节点接触持续时长。两节 点接触时间越长,则两节点的链路越稳定,能够传输的数据流量越多。T(A,B)-D(A,B)=t1为 节点A和B第一个接触周期的接触间隔时长。两节点接触间隔越大,则两个节点接触的概率 越小,传输数据包的可能性也越小。
节点间的接触间隔时间近似服从负指数分布,以此来估计节点间的接触概率,接触概率 如下式所示。其中,PA,B(T)表示节点A和节点B的在时间T内接触的概率,θA,B表示节点A 和B接触间隔负指数分布的均值。
Figure BDA0003194203030000111
利用节点接触间隔的统计平均来估算接触间隔指数分布的分布均值,则节点A和B在时 间T内的接触概率如下式所示。
Figure BDA0003194203030000112
其中,
Figure BDA0003194203030000113
N表示节点A和B的接触次数,t1为第一次接触的时刻,t2i+1为第i+1次的接触开始时刻,t2i为第i次接触的断开时刻。
引入接触新鲜度系数后,节点A和B的接触概率公式如下式所示。
Figure BDA0003194203030000114
步骤四:根据车载机会网络的路由需求和节点机会接触特性,定义转发效用学习更新公 式,包括动态折扣因子,立即回报函数,并将节点接触概率引入更新公式。
立即回报值Rd(s,x)定义如下式所示。其中
Figure BDA0003194203030000115
表示目的节点为d的数据包从进入节点s 到转发进入节点x所经历的时间长度。
Figure BDA0003194203030000116
动态折扣因子γd(s,x)的定义如下式所示。其中,γ为折扣因子常数,0<γ≤1;
Figure BDA0003194203030000117
表示 目的节点为d的数据包从进入节点s到转发进入节点x所经历的时间长度。
Figure BDA0003194203030000121
转发效用Q值更新公式定义如下式所示。其中,Qd(s,x)为目的节点为d的数据包在节点 s中选择节点x作为下一跳转发节点的状态-动作值,即s向x转发目的节点为d的数据包对 应的转发效用Q值;α为学习系数,0≤α≤1;Rd(s,x)为目的节点为d的数据包在节点s中 选择节点x作为下一跳转发节点的立即回报值;γd(s,x)为在节点s中向节点x转发目的节点 为d的数据包所对应的动态折扣因子;Nx表示节点的接触节点集合,该集合包含所有节点x 移动过程中遇到的所有节点;Qd′(x,y)为适应针对车载机会网络动态变化特性引入的节点接 触概率的状态-动作值。
Figure BDA0003194203030000122
(2)数据包转发更新和节点接触更新双更新策略
步骤一:转发效用值数据包转发更新策略。
在车载机会网络中,当数据包被成功转发后,接收数据包的节点会向发送数据包的节点 发送接收确认信息,附图7为效用学习模型在确认信息中包含的内容。
附图8为节点A和B转发数据包后的状态-动作值更新过程,其中,A为数据发送节点, B为数据接收节点,数据包的目的节点为D。
当节点B接收到从A转发来的数据包,记录接收该数据包的时刻并判断该数据包的目的 节点是否为自己。如果B为数据包的目的节点,即D=B,则数据包转发过程进入终止态。在 数据包接收确认信息中只需要接收节点的ID、数据包ID和接收数据包的时刻Time,字段Q 值设置为空,节点A收到B发送的确认信息后按照公式(6)计算立即回报值RD(A,D),并按照 公式(9)更新状态-动作值列表中对应的Q值QD(A,D)。
Figure BDA0003194203030000123
Figure BDA0003194203030000124
如果B不是数据包的目的节点,则节点B在数据包接收确认信息中需要接收节点的ID、 数据包ID、接收数据包的时刻Time以及数据包在接收节点中最大的引入接触概率的Q值
Figure BDA0003194203030000125
QD′(B,y)计算公式如(10)所示,按照公式(7)计算动态折扣因子γD(A,B), 并按照公式(11)更新状态-动作值列表中对应的Q值QD(A,B)。同时,节点A接收到接收确认 后需要将目的节点为D转发给节点B的数据包记录次数加1,并将数据包在A和B两个节点 之间所经历的时间长度加入到目的节点D的累计传输时间长度中,用来计算平均传输间隔时 长。
Figure BDA0003194203030000131
步骤二:转发效用值节点接触更新策略。
附图9所示为效用学习模型中设计的节点接触时的交互信息内容,通过接触交互信息的 发送一方面使得节点间的接触信息可以得到更新,包括接触时间的更新、接触次数的更新、 累计接触间隔时长的更新以及节点间接触新鲜度系数的更新,从而实现节点间接触概率的计 算;另一方面通过获取接触交互信息中包含的Q值列表信息,可以实现状态-动作值的节点接 触更新。
附图10节点A和B接触进行信息交互的过程。节点A和B进入彼此连通范围并建立通信 连接,两个节点分别向对方发送交互信息。当A接收到B的交互信息后,首先更新A与B的接触信息表,包括A与B的最新接触时刻、A与B的接触次数以及与节点B的接触间隔累计 时间,同时更新节点A和B的接触新鲜度系数FA,B;然后查看A是否向B发送过目的节点为B 的数据包,如果发送过则计算此类数据包从A到B经历时间长度的平均值
Figure RE-GDA0003279416970000132
Figure RE-GDA0003279416970000133
其中
Figure RE-GDA0003279416970000134
为此类数据包发送的次数,将该均值代替数据包传输时长代入公式(9)更新状态-动作值列表中对应的Q值QB(A,B),如果没发送过则不更新;最后,按照节点B发送的交互信息中的Q值列表与节点A的状态-动作值表进行对照逐条更新,例如对(dn,maxQ)来讲,如果节点A的状态-动作值表中含有对应目的节点dn转发节点B的Q值,则 计算目的节点为dn的数据包从节点A到节点B经历时间长度的平均值
Figure RE-GDA0003279416970000135
Figure RE-GDA0003279416970000136
其中
Figure RE-GDA0003279416970000137
为目的节点为dn的数据包从节点A发送到节点B的次数,将该平均值和对应的maxQ代入到公式(11)更新状态-动作值列表中对应的Q值,如果节点A不含有Q值则不进行更新。
以上所述仅是一种基于双更新策略的车联网节点转发效用学习方法的优选实施方式,一 种基于双更新策略的车联网节点转发效用学习方法的保护范围并不仅局限于上述实施例,凡 属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说, 在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。

Claims (3)

1.一种基于双更新策略的车联网节点转发效用学习方法,其特征是:包括以下步骤:
步骤1:基于车辆节点间信息交互过程中的信息更新,确定学习过程中基本要素;
步骤2:基于车辆节点间信息交互过程中的信息更新,确定节点接触新鲜度系数,
步骤3:确定节点接触概率,建立车载机会网络中节点转发效用学习模型;
步骤4:根据车载机会网络的路由需求和节点机会接触特性,确定转发效用学习更新模型,所述模型包括动态折扣因子;
步骤5:建立转发效用值数据包转发更新策略,获取发送节点从上一节点中接收该数据包的时刻,并确定两个节点间经历的时间长度,并带入更新模型中确定状态-动作值;
步骤6:建立转发效用值节点接触更新策略,在更新过程中采用与转发更新过程不同的学习系数;
所述步骤2具体为:
接触新鲜度系数FA,B为节点A和B之间的接触信息新鲜程度,表征当前接触概率的时效性强度,在节点A和B没有接触时,设置接触新鲜度系数FA,B等于零;当节点A和B建立链接后,通过下式进行更新公式:
FA,B=FA,B+(1-FA,B)*Pint
其中,Pint为一个固定常数,设置Pint等于0.85;
当节点A和B长时间没有接触,则两个节点间接触信息的新鲜度降低,需要对长时间未接触的节点接触新鲜度系数进行衰减,通过下式进行衰减更新:
Figure FDA0003851457430000011
其中,η为衰减因子,取值为0.95;μA,B表示距离节点A和B上次接触断开时刻所经过的时间单位的个数,时间单位的长度为节点A和B的平均接触间隔时间;
所述步骤3具体为:
步骤3.1:确定节点接触概率,城市中车辆节点间的接触间隔时间服从负指数分布,以此来估计节点间的接触概率,通过下式表示接触概率:
Figure FDA0003851457430000012
其中,PA,B(T)表示节点A和节点B的在时间T内接触的概率,θA,B表示节点A和B接触间隔负指数分布的均值;
步骤3.2:利用节点接触间隔的统计平均来估算接触间隔指数分布的分布均值,则节点A和B在时间T内的接触概率通过下式表示:
Figure FDA0003851457430000021
其中,
Figure FDA0003851457430000022
N表示节点A和B的接触次数,t1为第一次接触的时刻,t2i+1为第i+1次的接触开始时刻,t2i为第i次接触的断开时刻;
步骤3.3:引入接触新鲜度系数后,通过下式表示节点A和B的接触概率:
Figure FDA0003851457430000023
所述步骤4具体为:
根据车载机会网络的路由需求和节点机会接触特性,确定转发效用学习更新模型,所述模型包括动态折扣因子,立即回报函数,并将节点接触概率引入更新模型;
立即回报值Rd(s,x)通过下式表示:
Figure FDA0003851457430000024
其中
Figure FDA0003851457430000025
表示目的节点为d的数据包从进入节点s到转发进入节点x所经历的时间长度;
动态折扣因子γd(s,x)的通过下式表示:
Figure FDA0003851457430000026
其中,γ为折扣因子常数,0<γ≤1;
Figure FDA0003851457430000027
表示目的节点为d的数据包从进入节点s到转发进入节点x所经历的时间长度;
转发效用Q值更新公式通过下式所示:
Figure FDA0003851457430000028
其中,Qd(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的状态-动作值,即s向x转发目的节点为d的数据包对应的转发效用Q值;α为学习系数,0≤α≤1;Rd(s,x)为目的节点为d的数据包在节点s中选择节点x作为下一跳转发节点的立即回报值;γd(s,x)为在节点s中向节点x转发目的节点为d的数据包所对应的动态折扣因子;Nx表示节点的接触节点集合,该集合包含所有节点x移动过程中遇到的所有节点;Qd′(x,y)为适应针对车载机会网络动态变化特性引入的节点接触概率的状态-动作值;
所述步骤6具体为:通过节点接触交互信息的发送一方面使得节点间的接触信息得到更新,包括接触时间的更新、接触次数的更新、累计接触间隔时长的更新以及节点间接触新鲜度系数的更新,从而实现节点间接触概率的计算;
通过获取接触交互信息中包含的Q值列表信息,实现状态-动作值的节点接触更新,在节点接触更新过程中,不同于转发更新过程,立即回报值函数和折扣因子函数所用的节点数据包传输时长被节点间数据包传输时长的平均值代替,在更新过程中采用与转发更新过程不同的学习系数。
2.根据权利要求1所述的一种基于双更新策略的车联网节点转发效用学习方法,其特征是:所述步骤1具体为:
确定学习过程中所需要的基本要素,所述要素包括:环境、智能体、状态空间、动作空间和立即回报;定义节点更新信息表,所述节点更新信息表包括节点接触信息表和节点状态-动作值表;
环境为数据包从源节点向目的节点的投递过程中,随着数据包的转发城市中整个车载机会网络提供所需信息,将车载机会网络视为学习模型的环境;
智能体为从源节点向目的节点传递的数据包作为学习方法的智能体;
状态空间为网络中所有车辆节点作为数据包的存储节点,网络中所有节点的集合为智能体的状态空间;
动作空间为节点向下一跳节点转发数据包构成智能体的动作空间,在车载机会网络中,节点具有“存储-携带-转发”功能,转发节点选择范围包括所有接触过的节点;
立即回报为当数据包成功转发到下一跳节点后,智能体从环境中获得即时回报值,用于状态-动作值的更新;
节点接触信息表为在节点间接触进行信息交互的时候更新接触信息,通过节点接触信息计算节点s与其他节点间的平均接触间隔和接触新鲜度系数,从而估计节点间的接触概率;
节点状态-动作值表为将对应节点作为下一跳投递节点能够得到的累计回报值,当回报值值越大表明选择节点作为下一跳投递节点对于数据包的传递性能越好。
3.根据权利要求1所述的一种基于双更新策略的车联网节点转发效用学习方法,其特征是:所述步骤5具体为:
在车载机会网络中,当数据包被成功转发后,接收数据包的节点会向发送数据包的节点发送接收确认信息;当发送数据的节点在收到数据发送确认后,提取出接收节点的ID、数据包对应的目的节点ID、接收数据包的时刻Time以及对应数据包在接收节点中最大的引入接触概率的状态-动作值;通过获取发送节点从上一节点中接收该数据包的时刻,计算数据包在两个节点间经历的时间长度,代入到更新公式计算状态-动作值。
CN202110886162.XA 2021-08-03 2021-08-03 一种基于双更新策略的车联网节点转发效用学习方法 Active CN113726664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110886162.XA CN113726664B (zh) 2021-08-03 2021-08-03 一种基于双更新策略的车联网节点转发效用学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110886162.XA CN113726664B (zh) 2021-08-03 2021-08-03 一种基于双更新策略的车联网节点转发效用学习方法

Publications (2)

Publication Number Publication Date
CN113726664A CN113726664A (zh) 2021-11-30
CN113726664B true CN113726664B (zh) 2022-10-28

Family

ID=78674696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110886162.XA Active CN113726664B (zh) 2021-08-03 2021-08-03 一种基于双更新策略的车联网节点转发效用学习方法

Country Status (1)

Country Link
CN (1) CN113726664B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112954769A (zh) * 2021-01-25 2021-06-11 哈尔滨工程大学 基于强化学习的水下无线传感器网络路由方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2835942B1 (en) * 2013-08-05 2019-10-09 Alcatel Lucent Dynamic interest forwarding mechanism for information centric networking
CN103781141B (zh) * 2013-10-24 2018-02-13 深圳市金溢科技股份有限公司 车载自组织网络的单播路由转发方法、芯片及通信系统
CN110049530B (zh) * 2019-05-24 2022-03-04 西安电子科技大学 车载自组织网络中基于q学习和信任模型的路由方法
US11146479B2 (en) * 2019-10-10 2021-10-12 United States Of America As Represented By The Secretary Of The Navy Reinforcement learning-based intelligent control of packet transmissions within ad-hoc networks
CN110809303B (zh) * 2019-11-11 2022-06-10 华中师范大学 一种基于节点地理位置的移动机会网络路由方法
CN111246438B (zh) * 2020-01-15 2023-03-24 南京邮电大学 一种基于强化学习的m2m通信中中继节点的选择方法
CN111343608B (zh) * 2020-02-24 2022-11-29 南京邮电大学 一种基于位置信息的车联网强化学习路由方法
CN111416771B (zh) * 2020-03-20 2022-02-25 深圳市大数据研究院 基于多智能体强化学习路由策略控制路由动作的方法
AU2021101685A4 (en) * 2021-04-01 2021-05-20 Arun Singh Chouhan Design and development of real time automated routing algorithm for computer networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112954769A (zh) * 2021-01-25 2021-06-11 哈尔滨工程大学 基于强化学习的水下无线传感器网络路由方法

Also Published As

Publication number Publication date
CN113726664A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
Kumar et al. Dual reinforcement Q-routing: An on-line adaptive routing algorithm
CN111479306A (zh) 一种基于Q-learning的飞行自组网QoS路由方法
US8213352B2 (en) Wireless communication system, wireless communication device, wireless communication method, and program
CN110753319B (zh) 异构车联网中面向异质业务的分布式资源分配方法及系统
CN108513330B (zh) 一种基于网络情境感知的路由协议分布式自适应切换方法
CN108684063B (zh) 一种基于网络拓扑变化的按需路由协议改进方法
CN111343608B (zh) 一种基于位置信息的车联网强化学习路由方法
Guo et al. A receiver-forwarding decision scheme based on Bayesian for NDN-VANET
CN109547351A (zh) Ad Hoc网络中基于Q学习和信任模型的路由方法
Wu et al. Packet size-aware broadcasting in VANETs with fuzzy logic and RL-based parameter adaptation
CN108462983B (zh) 基于改进蚁群aodv协议的多机器人通信组网方法
CN109802773B (zh) 一种社交信任度感知的协作无线网络数据传输方法
Din et al. Beaconless traffic-aware geographical routing protocol for intelligent transportation system
CN106656795A (zh) 一种无线传感器执行器网络分簇路由选择方法
CN101969322B (zh) 无线传感器网络多时间尺度链路估计方法
CN108401274B (zh) 机会网络的数据传输方法
Dzung et al. To transmit now or not to transmit now
CN113726664B (zh) 一种基于双更新策略的车联网节点转发效用学习方法
CN111641923B (zh) 基于雾计算的社交车联网双模式兴趣标签转发系统及方法
CN110417572B (zh) 一种基于目标节点相遇概率预测消息传递节点的方法
CN107295596B (zh) 一种基于干扰感知的车联网跨层路由方法
CN116113008A (zh) 一种无人机自组织网络多智能体路由算法
CN113923743A (zh) 电力地下管廊的路由选择方法、装置、终端及存储介质
KR102308799B1 (ko) 사물 인터넷 네트워크 환경에서 mac 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법, 이를 수행하기 위한 기록 매체 및 장치
Hou et al. Deep-Reinforcement-Learning-Aided Loss-Tolerant Congestion Control for 6LoWPAN Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant