CN115843083B - 基于多智能体强化学习的水下无线传感器网络路由方法 - Google Patents

基于多智能体强化学习的水下无线传感器网络路由方法 Download PDF

Info

Publication number
CN115843083B
CN115843083B CN202310159756.XA CN202310159756A CN115843083B CN 115843083 B CN115843083 B CN 115843083B CN 202310159756 A CN202310159756 A CN 202310159756A CN 115843083 B CN115843083 B CN 115843083B
Authority
CN
China
Prior art keywords
node
value
data
nodes
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310159756.XA
Other languages
English (en)
Other versions
CN115843083A (zh
Inventor
刘帅
王景景
杨星海
徐金云
施威
徐凌伟
王海红
杨清
牛秋娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University of Science and Technology
Original Assignee
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Science and Technology filed Critical Qingdao University of Science and Technology
Priority to CN202310159756.XA priority Critical patent/CN115843083B/zh
Publication of CN115843083A publication Critical patent/CN115843083A/zh
Application granted granted Critical
Publication of CN115843083B publication Critical patent/CN115843083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于多智能体强化学习的水下无线传感器网络路由方法,属于水下无线传感器网络路由技术领域。本发明首先将水下环境中的每个传感器节点看作单独的智能体,使其与环境信息进行交互,根据环境交互信息设计全局奖励函数和局部奖励函数,还提出了一种考虑地理位置信息的Q值初始化方法。然后通过分布式值函数计算并更新节点的Q值,当源节点在本地缓存足够的数据包时,根据Q值来选择下一跳路由。最后为防止数据转发过程中的冲突,给出了最优路由数据保持时间的计算函数,并设计了路由转发数据包的格式。本发明能够有效确定水下无线传感器网络数据转发的最优路径,减少网络中的数据冲突,提高水下无线传感器网络中的路由效率。

Description

基于多智能体强化学习的水下无线传感器网络路由方法
技术领域
本发明属于水下无线传感器网络路由技术领域,具体地说,涉及一种基于多智能体强化习的水下无线传感器网络路由方法。
背景技术
随着海洋技术的快速发展和开发海洋资源的需要,水下无线传感器网络在海洋领域发挥越来越重要的作用。然而,由于水下环境中网络能耗大和延迟高的特性,设计水下无线传感器网络的路由协议是一个巨大的挑战。
近年来,随着人工智能技术的发展,强化学习技术已经被应用到水下无线传感器网络路由决策中,在基于强化学习的智能路由策略中,智能体能够水下网络环境中学习路由策略,以最大限度地提高奖励,但是由于其通常初始Q值设置为零,这会增多算法的迭代次数,使得算法不易收敛。路由数据保持时间的大小也会影响路由协议的性能,如果设计的过长会导致更长的端到端延迟,那些具有较低优先级的节点更有可能被具有较高优先级的节点抑制。相反,如果节点的保持时间过短,会导致网络中节点能耗变高。此外,由于奖励函数的设计决定了智能体的行为和性能,但是海水信道环境复杂多变,考虑单一因素影响的奖励函数不能使得智能体做出最优决策,所以其也是目前水下无线传感器网络路由协议设计中的难题。
综上所述,目前基于强化学习的路由协议存在算法的迭代次数过多不易收敛、网络能量消耗不平衡、最优路由保持时间不易确定等问题,这些问题加大了水下无线传感器网络路由设计的难度。
因此,设计一种节能、低延迟和高可靠的水下无线传感器网络路由协议成为亟待解决的关键问题。
发明内容
本发明的目的是提出一种基于多智能体强化学习的水下无线传感器网络路由方法,以弥补现有技术的不足。
为实现上述发明目的,本发明采用下述技术方案予以实现。
一种基于多智能体强化学习的水下无线传感器网络路由方法,包括以下步骤:
S1:水下布设无线传感器网络,获得该传感器网络中的每个传感器节点信息,基于强化学习算法进行传感器网络路由的确定;
S2:在所述强化学习算法中,为加快强化学习算法的收敛速度,使用考虑地理位置信息的Q值初始化方法进行该算法的初始化;
S3:将所述每个传感器节点看作单独的智能体,使其与环境信息进行交互,根据环境交互信息设计全局奖励函数和局部奖励函数;
S4:再通过分布式值函数计算并更新传感器节点的Q值,当源节点在本地缓存足够的数据包时,根据Q值来选择下一跳路由;
S5:为防止数据转发过程中的冲突,规定了路由转发数据包的格式,接收到数据的传感器节点会根据公式计算最优路由数据保持时间,若达到数据保持时间便根据Q值选择下一跳路由,反之则继续等待,即得到传感器网络路由,以最终完成传感器网络的数据有效传输。
进一步的,所述S2具体如下:
每个传感器节点及其邻居节点之间的Q值由初始节点部署的位置确定,Q值初始化计算公式为:
;其中,表示节点和节点距离汇聚节点的相对距离,表示为底的指数函数;节点和节点距离汇聚节点的相对距离计算公式为:
;其中,表示节点距离汇聚节点的距离,表示节点距离汇聚节点的距离。
更进一步的,例如,当时,则下一跳远离汇聚节点,此时获得较小的值;当时,则下一跳靠近汇聚节点,此时获得较大的值;当时,表示下一跳便是目的地,此时初始具有最大值。
进一步的,所述S3具体如下:
S3-1:多智能体与环境信息进行交互:
将水下无线传感器网络构建为多代理系统,将每一个传感器节点看作一个智能体,其支持节点之间的信息交互,每个智能体在运行期间会感知环境中邻居节点的剩余能量、末端延迟、节点深度、链路质量等计算奖励函数所需的必要参数,为路由决策奠定基础;
S3-2:根据环境交互信息设计局部奖励函数:
局部奖励函数考虑环境中邻居节点的剩余能量、末端延迟、节点深度、链路质量;局部奖励函数的计算公式为:
;其中,通信过程中占用信道带宽产生的恒定成本,是考虑环境中邻居节点剩余能量和当前节点的剩余能量相关成本,是与环境相关的成本;是平衡两个成本的系数,其满足
S3-3:根据环境交互信息设计全局奖励函数:
智能体产生的一个动作必然会导致环境的变化,进而导致网络中的所有节点都会受到变化的影响,所以应该考虑本地网络中所有邻居的反馈。本方法中设计了一种全局奖励函数,以表示数据包的传输方向(执行动作的质量),全局奖励函数计算公式为:
;其中,表示环境中邻居节点的剩余能量,表示环境中节点的初始能量。
更进一步的,能量相关成本的计算公式为:
;其中,表示环境中节点的初始能量,表示邻居节点的剩余能量,表示当前节点的剩余能量,表示邻居节点接收数据消耗的能量,表示当前节点发送数据所消耗的能量。拥有更多的剩余能量意味着其具有更低的成本,选择具有更多剩余能量的节点作为下一跳可以平衡能量分布,从而延长水下无线传感器网络的生命周期。包括末端延迟的相关成本、链路质量相关的成本和节点深度相关的成本,的计算公式为:
;其中,是平衡三个成本的系数,其满足是网络末端延迟的相关成本,的计算公式为:
;其中,表示相邻节点中缓冲区的分组的数量;当相邻节点的缓冲区中有更多的分组时,数据分组从该相邻节点成功传输到下一跳的等待时间会更长,这使得数据分组在队列中等待的时间更长;因此,在这种情况下,的成本更高。是分组传递过程中链路质量的相关成本,的计算公式为:;其中,表示声学信号衰减模型估计出的分组传递率;具有分组传递率成本的节点被认为在分组传输中更可靠,因此该节点被选择为转发器的可能性更大。是传感器节点深度的相关成本,的计算公式为:
;其中,是当前节点与其候选相邻节点之间的深度差;表示节点信号传输范围;显然,当候选相邻节点的深度小于当前节点,即,则大于零,此时该成本被当作奖励;否则,,则小于零,此时该成本被当作惩罚。
更进一步的,例如,网络中消息的传输方向取决于前一节点和当前节点到汇聚节点的距离。当从前一节点到汇聚节点的长度大于当前节点和汇聚节点的长度时,这意味着分组传输方向是有利的(更近),这个时候使用正反馈来奖励节点,并且选择剩余能量越多的节点作为下一跳得到的奖励值越大。若从前一节点到汇聚节点的长度小于当前节点和汇聚节点的长度时,这意味着分组传输方向是不利的(更远),这个时候使用负反馈来惩罚节点。
进一步的,所述S4具体为:
S4-1:通过分布式值函数计算并更新节点的Q值,将智能体本阶段的Q值记为,下一阶段的Q值记为,则的计算更新公式为:
;其中,表示状态值函数,用来估计下一状态和其他邻居节点的状态表示节点在时间t采取动作之后在时间t+1时刻所获得的直接奖励;表示动作的全局奖励函数,代表学习率,表示折扣系数;w1和w2表示节点x从所选节点y和x的其他邻居节点(除了y)获得的长期奖励的权重;状态值函数的计算公式为:
;其中,是节点y执行动作的集合,表示节点y在t时刻执行动作a达到状态后所获得的最大Q值;状态值函数的计算公式为:
;其中,是其他邻居节点执行动作的集合,表示其他邻居节点在t时刻执行动作a达到状态后所获得的最大Q值;
S4-2:当源节点(待发送数据的节点)在本地缓存足够的数据包时,待发送数据的节点会选择Q值最大的传感器节点作为下一跳路由。
进一步的,所述S5具体如下:
S5-1:规定路由转发数据包的格式:
包头和数据构成路由转发的数据包格式,其中包头又分为两部分:第一部分是和转发数据包相关的字段,第二部分是和节点本身状态信息相关的字段;传感器节点接收到来自其他节点转发的数据包分组,它就会从分组报头及其邻居表中检索相关信息;然后基于强化学习技术计算其邻居节点的相关成本和Q值,将信息更新到带转发的数据包的相关字段中,并等待数据转发;否则,节点只需在更新其本地信息后丢弃数据包;路由转发数据包结构的另一部分是数据,它是可选的;当有效载荷数据不存在时,该部分就包含来自上层协议的数据;否则,该部分仅用于节点间的信息交换;
S5-2:计算最优路由数据保持时间:
对于节点x,保持时间是根据优先级列表中的序号n计算的,该序号可以表示节点x的优先级;具有不同优先级的节点将具有不同的保持时间;保持时间用于调度数据包转发,最优路由数据保持时间使用n的线性函数表示,其计算公式为:
;其中,k是待定系数,b是常数,n是优先级列表中的序号。
更进一步的,所述S5-1中转发数据包相关的字段包括数据包的唯一ID和数据包应发送到的目标地址;节点本身状态信息相关的字段包括源节点ID、剩余能量、Q值、缓冲状态、节点深度、可用邻居、节点优先级和保持时间:
(1)源节点ID:当前待发送数据包的传感器节点ID号。
(2)剩余能量:当前节点的剩余能量。
(3)Q值:当前节点的Q值。
(4)缓冲状态:当前节点的缓冲区中待转发数据包数量。
(5)节点深度:当前节点的深度。
(6)可用邻居:当前节点在传输范围内可作为下一跳节点的数量。
(7)节点优先级:所有适合作为下一跳的节点优先级排序。
(8)保持时间:接收到数据包分组之后传感器节点的等待时长。
更进一步的,所述S5-2中,两个相邻节点的保持时间差需要足够长,以便较低优先级节点能够在其按计划转发分组之前听到较高优先级节点的转发。
因此,应满足以下两个约束条件:
;;;将代入上述约束,则有:
;其中,t1和t2是一段容忍时间,是数据包传播时间,n1和n2是优先级列表两个不同的序号,待定系数k为正实数;设v0表示水中声波的速度,R表示最大值传感器节点的传输范围,则表示路由一跳的最大传播延迟;因此有;将其带入,则有:
;设,其中h为正整数;当,不等式成立,此时可以保证节点x1可以比x2更早地发送数据包,并防止x2转发相同的数据包;优先级列表中的第一个节点具有最高优先级;为了减少端到端延迟,优先级列表中第一个节点的保持时间应设置为零;因此有:;所以此时,将k和b代入线性函数,得到计算保持时间的公式如下:
;其中,表示路由一跳的最大传播延迟,n为优先级列表中的序号,h为正整数,k为待定系数,如果选择一个较大的k,节点将具有更长的保持时间,这会导致更长的端到端延迟,那些具有较低优先级的节点更有可能被具有较高优先级的节点抑制;因此,选择一个较大的k可以减少冗余传输,从而降低能耗;相反,如果k设置为小值,则节点的保持时间更短,这会导致端到端延迟更短,但能耗更高。
本发明的优点和技术效果如下。
本发明首先将水下环境中的每个传感器节点看作单独的智能体,使其与环境信息进行交互,根据环境交互信息设计全局奖励函数和局部奖励函数;并提出了一种考虑地理位置信息的Q值初始化方法,有效减少了强化学习算法的迭代次数。其次,通过分布式值函数计算并更新节点的Q值,根据Q值来选择下一跳路由,有效确定出水下无线传感器网络数据转发的最优路径。最后,提出并验证了最优路由数据保持时间的计算函数,且设计了路由转发数据包的格式,大大减少了数据转发过程中的数据包冲突。
本发明能够有效确定水下无线传感器网络数据转发的最优路径,减少网络中的数据冲突,提高水下无线传感器网络中的路由效率。
附图说明
图1是本发明的一种实施例的整体流程图。
图2是本发明的一种实施例的多智能体与环境信息进行交互模型。
图3是本发明的一种实施例的路由协议转发数据包的结构格式图。
图4是本发明的一种实施例的最优路由数据保持时间的示意图。
图5是本发明的一种实施例的强化学习路由算法的收敛性能仿真结果图。
图6是本发明的一种实施例的本方法和传统路由算法数据包交付率随网络节点个数的变化情况仿真结果对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下将结合附图和实施例,对本发明作进一步详细说明。
实施例
近年来,随着人工智能技术的发展,强化学习技术已经被应用到水下无线传感器网络路由决策中。
在基于强化学习的智能路由策略中,智能体能够水下网络环境中学习路由策略,以最大限度地提高奖励,但是由于其通常初始Q值设置为零,这会增多算法的迭代次数,使得算法不易收敛。此外,路由数据保持时间的大小也会影响路由协议的性能,如果设计的过长会导致更长的端到端延迟,那些具有较低优先级的节点更有可能被具有较高优先级的节点抑制。相反,如果节点的保持时间过短,会导致网络中节点能耗变高。最后,由于奖励函数的设计决定了智能体的行为和性能,但是海水信道环境复杂多变,考虑单一因素影响的奖励函数不能使得智能体做出最优决策,所以其也是目前水下无线传感器网络路由协议设计中的难题。
如何有效确定水下无线传感器网络数据转发的最优路径,减少网络中的数据冲突,降低网络能耗和延迟,提高水下无线传感器网络中的路由效率,是本实施例所要解决的技术问题。
本实施例提出了一种基于多智能体强化学习的水下无线传感器网络路由方法,其整体流程图如图1所示,包括以下步骤:
S1:水下布设无线传感器网络,为加快强化学习算法的收敛速度,使用考虑地理位置信息的Q值初始化方法进行算法初始化,具体步骤如下:
每个传感器节点及其邻居节点之间的Q值由初始节点部署的位置确定,Q值初始化计算公式为:
;其中,表示节点和节点距离汇聚节点的相对距离,表示为底的指数函数。节点和节点距离汇聚节点的相对距离计算公式为:;其中,表示节点距离汇聚节点的距离,表示节点距离汇聚节点的距离。例如,当时,则下一跳远离汇聚节点,此时获得较小的值;当时,则下一跳靠近汇聚节点,此时获得较大的值;当时,表示下一跳便是目的地,此时初始具有最大值。
S2:将水下环境中的每个传感器节点看作单独的智能体,使其与环境信息进行交互,根据环境交互信息设计全局奖励函数和局部奖励函数,具体步骤如下:
S2-1:多智能体与环境信息进行交互:将水下无线传感器网络构建为多代理系统,将每一个传感器节点看作一个智能体,其支持节点之间的信息交互,每个智能体在运行期间会感知环境中邻居节点的剩余能量、末端延迟、节点深度、链路质量等计算奖励函数所需的必要参数,为路由决策奠定基础。
多智能体与环境信息进行交互的模型如图2所示,传感器节点被视为智能体x(x=1,2,...,i,...,n),本地环境会从水下无线传感器网络中获取所有节点的状态信息,而水下无线传感器网络会从环境中获取计算奖励函数所需要的参数,并通过通信交换本地信息。智能体从水下通信环境中获得网络的当前状态S和奖励R,然后智能体通过一系列决策过程获得下一个动作A,最后将该动作A反馈给环境。
S2-2:根据环境交互信息设计局部奖励函数:
局部奖励函数考虑环境中邻居节点的剩余能量、末端延迟、节点深度、链路质量。局部奖励函数的计算公式为:
;其中,通信过程中占用信道带宽产生的恒定成本,是考虑环境中邻居节点剩余能量和当前节点的剩余能量相关成本,是与环境相关的成本。是平衡两个成本的系数,其满足。其中,能量相关成本的计算公式为:
;其中,表示环境中节点的初始能量,表示邻居节点的剩余能量,表示当前节点的剩余能量,表示邻居节点接收数据消耗的能量,表示当前节点发送数据所消耗的能量。拥有更多的剩余能量意味着其具有更低的成本,选择具有更多剩余能量的节点作为下一跳可以平衡能量分布,从而延长水下无线传感器网络的生命周期。是与环境相关的成本,具体包括末端延迟的相关成本、链路质量相关的成本和节点深度相关的成本,的计算公式为:;其中,是平衡三个成本的系数,其满足是网络末端延迟的相关成本,的计算公式为:
;其中,表示相邻节点中缓冲区的分组的数量;当相邻节点的缓冲区中有更多的分组时,数据分组从该相邻节点成功传输到下一跳的等待时间会更长,这使得数据分组在队列中等待的时间更长。因此,在这种情况下,的成本更高。是分组传递过程中链路质量的相关成本,的计算公式为:;其中,表示声学信号衰减模型估计出的分组传递率。具有分组传递率成本的节点被认为在分组传输中更可靠,因此该节点被选择为转发器的可能性更大。
是传感器节点深度的相关成本,的计算公式为:
;其中,是当前节点与其候选相邻节点之间的深度差。表示节点信号传输范围。显然,当候选相邻节点的深度小于当前节点,即,则大于零,此时该成本被当作奖励。否则,,则小于零,此时该成本被当作惩罚。
S2-3:根据环境交互信息设计全局奖励函数:
智能体产生的一个动作必然会导致环境的变化,进而导致网络中的所有节点都会受到变化的影响,所以应该考虑本地网络中所有邻居的反馈。本方法中设计了一种全局奖励函数,以表示数据包的传输方向(执行动作的质量),全局奖励函数计算公式为:
;其中,表示环境中邻居节点的剩余能量,表示环境中节点的初始能量。
例如,网络中消息的传输方向取决于前一节点和当前节点到汇聚节点的距离。当从前一节点到汇聚节点的长度大于当前节点和汇聚节点的长度时,这意味着分组传输方向是有利的(更近),这个时候使用正反馈来奖励节点,并且选择剩余能量越多的节点作为下一跳得到的奖励值越大。若从前一节点到汇聚节点的长度小于当前节点和汇聚节点的长度时,这意味着分组传输方向是不利的(更远),这个时候使用负反馈来惩罚节点。
S3:通过分布式值函数计算并更新节点的Q值,当源节点在本地缓存足够的数据包时,根据Q值来选择下一跳路由,具体步骤如下:
将智能体本阶段的Q值记为,下一阶段的Q值记为,则的计算更新公式为:
;其中,表示状态值函数,用来估计下一状态和其他邻居节点的状态表示节点在时间t采取动作之后在时间t+1时刻所获得的直接奖励。表示动作的全局奖励函数,代表学习率,表示折扣系数。w1和w2表示节点x从所选节点y和x的其他邻居节点(除了y)获得的长期奖励的权重。状态值函数的计算公式为:;其中,是节点y执行动作的集合,表示节点y在t时刻执行动作a达到状态后所获得的最大Q值。状态值函数的计算公式为:
;其中,是其他邻居节点执行动作的集合,表示其他邻居节点在t时刻执行动作a达到状态后所获得的最大Q值。
最后,当源节点(待发送数据的节点)在本地缓存足够的数据包时,待发送数据的节点会选择Q值最大的传感器节点作为下一跳路由。
S4:为防止数据转发过程中的冲突,规定了路由转发数据包的格式,接收到数据的传感器节点会根据公式计算最优路由数据保持时间,若达到数据保持时间便根据Q值选择下一跳,反之则继续等待,具体步骤如下:
S4-1:规定路由转发数据包的格式:路由协议转发数据包的结构格式如图3所示,包头和数据构成路由转发的数据包格式,其中包头又分为两部分:第一部分是和转发数据包相关的字段,第二部分是和节点本身状态信息相关的字段。转发数据包相关的字段包括数据包的唯一ID和数据包应发送到的目标地址;节点本身状态信息相关的字段包括源节点ID、剩余能量、Q值、缓冲状态、节点深度、可用邻居、节点优先级和保持时间,其中:
(1)源节点ID:当前待发送数据包的传感器节点ID号。
(2)剩余能量:当前节点的剩余能量。
(3)Q值:当前节点的Q值。
(4)缓冲状态:当前节点的缓冲区中待转发数据包数量。
(5)节点深度:当前节点的深度。
(6)可用邻居:当前节点在传输范围内可作为下一跳节点的数量。
(7)节点优先级:所有适合作为下一跳的节点优先级排序。
(8)保持时间:接收到数据包分组之后传感器节点的等待时长。
一旦传感器节点接收到来自其他节点转发的数据包分组,它就会从分组报头及其邻居表中检索相关信息。然后基于强化学习技术计算其邻居节点的相关成本和Q值,将信息更新到带转发的数据包的相关字段中,并等待数据转发。否则,节点只需在更新其本地信息后丢弃数据包。
路由转发数据包结构的另一部分是数据,它是可选的。当有效载荷数据不存在时,该部分就包含来自上层协议的数据。否则,该部分仅用于节点间的信息交换。
S4-2:计算最优路由数据保持时间:
对于节点x,保持时间是根据优先级列表中的序号n计算的,该序号可以表示节点x的优先级。具有不同优先级的节点将具有不同的保持时间。保持时间用于调度数据包转发,最优路由数据保持时间使用n的线性函数表示,其计算公式为:
;其中,k是待定系数,b是常数,n是优先级列表中的序号。
最优路由数据保持时间的示意图如图4所示。当x发送数据包时,x1、x2和x3将接收该数据包,因为它们都是x的邻居。节点x3的深度低于x节点,因此它会丢弃该数据包。节点x1和x2都是合格的候选节点。假设x1在时间t1接收分组,x2在时间t2接收分组,x1和x2之间的传播延迟表示为tprop。假设Q(x,x1)>Q(x、x2)。因此,x1优选转发分组;如果x2在按计划转发数据包之前偷听到x1发送的数据包,则x2将放弃转发。
设n1和n2分别是优先级列表中节点x1和x2的序列号,两个相邻节点的保持时间差需要足够长,以便较低优先级节点能够在其按计划转发分组之前听到较高优先级节点的转发。因此,应满足以下两个约束条件:;;;将代入上述约束,则有:
;其中,t1和t2是一段容忍时间,是数据包传播时间,n1和n2是优先级列表中两个不同的序号,待定系数k为正实数。设v0表示水中声波的速度,R表示最大值传感器节点的传输范围,则表示路由一跳的最大传播延迟。因此有。将其带入,则有:;设,其中h为正整数。当,不等式成立,此时可以保证节点x1可以比x2更早地发送数据包,并防止x2转发相同的数据包。优先级列表中的第一个节点具有最高优先级。为了减少端到端延迟,优先级列表中第一个节点的保持时间应设置为零。因此有:
;所以此时,将k和b代入线性函数,我们可以得到计算保持时间的公式如下:
;其中,表示路由一跳的最大传播延迟,n为优先级列表中的序号,h为正整数,k为待定系数,如果选择一个较大的k,节点将具有更长的保持时间,这会导致更长的端到端延迟,那些具有较低优先级的节点更有可能被具有较高优先级的节点抑制。因此,选择一个较大的k可以减少冗余传输,从而降低能耗。相反,如果k设置为小值,则节点的保持时间更短,这会导致端到端延迟更短,但能耗更高。
本发明提出的强化学习路由算法的收敛性能仿真如图5所示。从仿真结果可以看出,所提出的强化学习路由算法在与环境交互过程中获得了最优的策略(Q值)。算法在经历2000轮迭代后的收敛,有效减少了传统强化学习路由算法的迭代次数。
本发明提出的强化学习路由算法和传统路由算法数据包交付率随网络节点个数的变化情况仿真结果对比如图6所示。传统的路由算法有基于矢量转发的路由协议(VBF)、基于深度的路由协议(DBR)和基于洪泛的路由协议(ARP)。
我们在Aqua-Sim(基于NS-2的水下传感器网络模拟器)中完成仿真模拟,将本方法与基于深度的路由协议(DBR)和基于洪泛的路由协议(ARP)做了仿真对比实验,本实验的仿真参数如表1所示。
表1 仿真参数
仿真参数 数值
网络的大小 800×800×600
声信号速度 1.5Km/s
节点数量 100-500
数据包大小 5Kb
节点通信范围 50m
节点初始能量 5000J
节点的数据传输速率 4kbps
节点的数据接收速率 5kbps
从实验仿真结果可以看出,当网络节点规模在100-200左右时,本强化学习路由算法的数据包交付率优于传统的DBR与ARP路由算法,并且随着网络规模的提升,这种趋势愈加明显。当网络节点数量达到200-500之间时,本强化学习路由算法数据包交付率稳定在98%左右,比ARP路由算法提升了6%左右的数据包交付率。综上所述,本强化学习路由算法能够减少网络中的数据冲突,从而提高水下无线传感器网络中的路由数据包的交付率。
以上实施例仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施例对本发明进行了详细的说明,对于本领域的普通技术人员来说,依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。

Claims (6)

1.一种基于多智能体强化学习的水下无线传感器网络路由方法,其特征在于,该方法包括以下步骤:
S1:水下布设无线传感器网络,获得该传感器网络中的每个传感器节点信息,基于强化学习算法进行传感器网络路由的确定;
S2:在所述强化学习算法中,为加快强化学习算法的收敛速度,使用考虑地理位置信息的Q值初始化方法进行该算法的初始化;具体如下:
每个传感器节点及其邻居节点之间的Q值由初始节点部署的位置确定,Q值初始化计算公式为:
其中,DER(x,y)表示节点x和节点y距离汇聚节点的相对距离,exp表示e为底的指数函数;节点x和节点y距离汇聚节点gathering的相对距离DER(x,y)计算公式为:
其中,d(x,gathering)表示节点x距离汇聚节点gathering的距离,d(y,gathering)表示节点y距离汇聚节点gathering的距离;
S3:将所述每个传感器节点看作单独的智能体,使其与环境信息进行交互,根据环境交互信息设计全局奖励函数和局部奖励函数;具体如下:
S3-1:多智能体与环境信息进行交互:
每个智能体在运行期间会感知环境中邻居节点的剩余能量Ey、末端延迟Dy、节点深度Ty、链路质量Qy等计算奖励函数所需的必要参数,为路由决策奠定基础;
S3-2:根据环境交互信息设计局部奖励函数:
局部奖励函数考虑环境中邻居节点的剩余能量Ey、末端延迟Dy、节点深度Ty、链路质量Qy;局部奖励函数的计算公式为:
其中,R0通信过程中占用信道带宽产生的恒定成本,C(Ey)是考虑环境中邻居节点剩余能量Ey和当前节点Ex的剩余能量相关成本,C(Env)是与环境相关的成本;γ1和γ2是平衡两个成本的系数,其满足γ12=1;
S3-3:根据环境交互信息设计全局奖励函数:全局奖励函数GRE计算公式为:
其中,Ey表示环境中邻居节点的剩余能量,E0表示环境中节点的初始能量;
S4:再通过分布式值函数计算并更新传感器节点的Q值,当源节点在本地缓存足够的数据包时,根据Q值来选择下一跳路由;具体为:
S4-1:通过分布式值函数计算并更新节点的Q值,将智能体本阶段的Q值记为下一阶段的Q值记为的计算更新公式为:
其中,表示状态值函数,用来估计下一状态和其他邻居节点的状态表示节点x在时间t采取动作之后在时间t+1时刻所获得的直接奖励;GRE表示动作的全局奖励函数,ε代表学习率,δ表示折扣系数;w1和w2表示节点x从所选节点y和x的其他邻居节点(除了y)获得的长期奖励的权重;状态值函数的计算公式为:
其中,Ay是节点y执行动作的集合,表示节点y在t时刻执行动作a达到状态后所获得的最大Q值;状态值函数的计算公式为:
其中,Ax′是其他邻居节点x′执行动作的集合,表示其他邻居节点x′在t时刻执行动作a达到状态后所获得的最大Q值;
S4-2:当源节点(待发送数据的节点)在本地缓存足够的数据包时,待发送数据的节点会选择Q值最大的传感器节点作为下一跳路由;
S5:接收到数据的传感器节点会根据公式计算最优路由数据保持时间,若达到数据保持时间便根据Q值选择下一跳路由,反之则继续等待,即得到传感器网络路由,以最终完成传感器网络的数据有效传输。
2.如权利要求1所述水下无线传感器网络路由方法,其特征在于,当DER(x,y)>1时,则下一跳y远离汇聚节点gathering,此时Q(x,y)获得较小的值;当0<DER(x,y)<1时,则下一跳y靠近汇聚节点gathering,此时Q(x,y)获得较大的值;当DER(x,y)=0时,表示下一跳y便是目的地,此时初始Q(x,y)具有最大值。
3.如权利要求1所述水下无线传感器网络路由方法,其特征在于,能量相关成本.C(Ey)的计算公式为:
其中,E0表示环境中节点的初始能量,Ey表示邻居节点的剩余能量,Ex表示当前节点的剩余能量,Er表示邻居节点接收数据消耗的能量,Es表示当前节点发送数据所消耗的能量;
C(Env)包括末端延迟Dy的相关成本、链路质量Qy相关的成本和节点深度Ty相关的成本,C(Env)的计算公式为:
C(Env)=-β1*C(Dy)+β2*C(Qy)+β3*C(Ty)
其中,β1、β2和β3是平衡三个成本的系数,其满足β123=1;C(Dy)是网络末端延迟Dy的相关成本,C(Dy)的计算公式为:
其中,表示相邻节点y中缓冲区的分组的数量;当相邻节点的缓冲区中有更多的分组时,数据分组从该相邻节点成功传输到下一跳的等待时间会更长,这使得数据分组在队列中等待的时间更长;
C(Qy)是分组传递过程中链路质量Qy的相关成本,C(Qy)的计算公式为:
C(Qy)=P(fy,m)
其中,P(fy,m)表示声学信号衰减模型估计出的分组传递率;
C(Ty)是传感器节点深度Ty的相关成本,C(Ty)的计算公式为:
其中,d(nx,ny)是当前节点nx与其候选相邻节点ny之间的深度差;depmax表示节点信号传输范围;显然,当候选相邻节点ny的深度小于当前节点,即d(nx,ny)>0,则C(Ty)大于零,此时该成本被当作奖励;否则,d(nx,ny)<0,则C(Ty)小于零,此时该成本被当作惩罚。
4.如权利要求1所述水下无线传感器网络路由方法,其特征在于,所述S5具体如下:
S5-1:规定路由转发数据包的格式:
包头和数据构成路由转发的数据包格式,其中包头又分为两部分:第一部分是和转发数据包相关的字段,第二部分是和节点本身状态信息相关的字段;传感器节点接收到来自其他节点转发的数据包分组,它就会从分组报头及其邻居表中检索相关信息;然后基于强化学习技术计算其邻居节点的相关成本和Q值,将信息更新到带转发的数据包的相关字段中,并等待数据转发;否则,节点只需在更新其本地信息后丢弃数据包;路由转发数据包结构的另一部分是数据,它是可选的;当有效载荷数据不存在时,该部分就包含来自上层协议的数据;否则,该部分仅用于节点间的信息交换;
S5-2:计算最优路由数据保持时间:
对于节点x,保持时间是根据优先级列表中的序号n计算的,该序号表示节点x的优先级;具有不同优先级的节点将具有不同的保持时间;保持时间用于调度数据包转发,最优路由数据保持时间使用n的线性函数表示,其计算公式为:
其中,k是待定系数,b是常数,n是优先级列表中的序号。
5.如权利要求4所述水下无线传感器网络路由方法,其特征在于,所述S5-1中转发数据包相关的字段包括数据包的唯一ID和数据包应发送到的目标地址;节点本身状态信息相关的字段包括源节点ID、剩余能量、Q值、缓冲状态、节点深度、可用邻居、节点优先级和保持时间:
(1)源节点ID:当前待发送数据包的传感器节点ID号;
(2)剩余能量:当前节点的剩余能量;
(3)Q值:当前节点的Q值;
(4)缓冲状态:当前节点的缓冲区中待转发数据包数量;
(5)节点深度:当前节点的深度;
(6)可用邻居:当前节点在传输范围内可作为下一跳节点的数量;
(7)节点优先级:所有适合作为下一跳的节点优先级排序;
(8)保持时间:接收到数据包分组之后传感器节点的等待时长。
6.如权利要求4所述水下无线传感器网络路由方法,其特征在于,所述S5-2中,还应满足以下两个约束条件:
代入上述约束,则有:
其中,t1和t2是一段容忍时间,tprop是数据包传播时间,n1和n2是优先级列表中两个不同的序号,待定系数k为正实数;设v0表示水中声波的速度,R表示最大值传感器节点的传输范围,则表示路由一跳的最大传播延迟;因此有将其带入则有:
其中h为正整数;当n2-n1≥h,不等式成立,此时保证节点x1比x2更早地发送数据包,并防止x2转发相同的数据包;优先级列表中的第一个节点具有最高优先级;为了减少端到端延迟,优先级列表中第一个节点的保持时间应设置为零;因此有:
所以此时b=-k,将k和b代入线性函数得到计算保持时间的公式如下:
其中,tmax表示路由一跳的最大传播延迟,n为优先级列表中的序号,h为正整数,k为待定系数。
CN202310159756.XA 2023-02-24 2023-02-24 基于多智能体强化学习的水下无线传感器网络路由方法 Active CN115843083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310159756.XA CN115843083B (zh) 2023-02-24 2023-02-24 基于多智能体强化学习的水下无线传感器网络路由方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310159756.XA CN115843083B (zh) 2023-02-24 2023-02-24 基于多智能体强化学习的水下无线传感器网络路由方法

Publications (2)

Publication Number Publication Date
CN115843083A CN115843083A (zh) 2023-03-24
CN115843083B true CN115843083B (zh) 2023-05-12

Family

ID=85580143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310159756.XA Active CN115843083B (zh) 2023-02-24 2023-02-24 基于多智能体强化学习的水下无线传感器网络路由方法

Country Status (1)

Country Link
CN (1) CN115843083B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117336900A (zh) * 2023-09-20 2024-01-02 昆明理工大学 一种无线传感网络避免空洞问题和冗余转发问题的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109362113A (zh) * 2018-11-06 2019-02-19 哈尔滨工程大学 一种水声传感器网络合作探索强化学习路由方法
KR102109771B1 (ko) * 2018-12-05 2020-06-01 영남대학교 산학협력단 사물인터넷을 위한 보안 이동성 적응형 라우팅 방법 및 상기 방법을 수행하기 위한 기록 매체

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105828287B (zh) * 2016-03-11 2019-03-29 南京航空航天大学 一种基于强化学习的无线传感器网络协同跟踪方法
CN110730486B (zh) * 2019-09-09 2022-10-14 南京理工大学 基于Q-Learning算法获取无线体域网最优路径的方法
US11146479B2 (en) * 2019-10-10 2021-10-12 United States Of America As Represented By The Secretary Of The Navy Reinforcement learning-based intelligent control of packet transmissions within ad-hoc networks
CN110913452B (zh) * 2019-11-20 2020-09-29 青海师范大学 一种基于深度与距离的单径路由方法
CN111836327B (zh) * 2020-07-03 2022-05-17 山东大学 一种水下传感器网络路由数据传输方法及水下传感器网络
CN112954769B (zh) * 2021-01-25 2022-06-21 哈尔滨工程大学 基于强化学习的水下无线传感器网络路由方法
CN113141592B (zh) * 2021-04-11 2022-08-19 西北工业大学 一种长生命周期的水声传感器网络自适应多路径路由方法
CN114339936A (zh) * 2021-12-14 2022-04-12 河南科技大学 基于q学习的飞行器自组织网络优化链路状态路由机制

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109362113A (zh) * 2018-11-06 2019-02-19 哈尔滨工程大学 一种水声传感器网络合作探索强化学习路由方法
KR102109771B1 (ko) * 2018-12-05 2020-06-01 영남대학교 산학협력단 사물인터넷을 위한 보안 이동성 적응형 라우팅 방법 및 상기 방법을 수행하기 위한 기록 매체

Also Published As

Publication number Publication date
CN115843083A (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
Su et al. DQELR: An adaptive deep Q-network-based energy-and latency-aware routing protocol design for underwater acoustic sensor networks
Zhou et al. Anypath routing protocol design via Q-learning for underwater sensor networks
Zhu et al. A reinforcement-learning-based opportunistic routing protocol for energy-efficient and Void-Avoided UASNs
CN112202848B (zh) 基于深度强化学习的无人系统网络自适应路由方法和系统
CN115843083B (zh) 基于多智能体强化学习的水下无线传感器网络路由方法
CN115173923B (zh) 一种低轨卫星网络能效感知路由优化方法和系统
CN107809781B (zh) 一种负载均衡的无环路路由选择方法
He et al. A fuzzy logic reinforcement learning-based routing algorithm for flying ad hoc networks
CN113141592A (zh) 一种长生命周期的水声传感器网络自适应多路径路由机制
CN116248164A (zh) 基于深度强化学习的完全分布式路由方法和系统
Fang et al. QLACO: Q-learning aided ant colony routing protocol for underwater acoustic sensor networks
Vengerov et al. A fuzzy reinforcement learning approach to power control in wireless transmitters
Wen et al. Delay‐Constrained Routing Based on Stochastic Model for Flying Ad Hoc Networks
Han et al. FCLR: Fuzzy control-based layering routing protocol for underwater acoustic networks
Geng et al. Deep Q-network-based intelligent routing protocol for underwater acoustic sensor network
Karim et al. QL-EEBDG: QLearning based energy balanced routing in underwater sensor networks
Barki et al. Improving the selection of MPRs in OLSR protocol: a survey of methods and techniques.
Zhao et al. Collaboration-aware relay selection for auv in internet of underwater network: Evolving contextual bandit learning approach
Li et al. WSN10-5: adaptive multi-copy routing for intermittently connected mobile ad hoc networks
Su et al. ACAR: an ant colony algorithm‐based routing protocol for underwater acoustic sensor network
Liu et al. CLORP: Cross-Layer Opportunistic Routing Protocol for Underwater Sensor Networks Based on Multi-Agent Reinforcement Learning
CN111160513B (zh) 一种电力配电网的能量优化方法
Aftab et al. A Deep Reinforcement-Learning-Based Relay Selection for Underwater Sensors Network
Pavitra et al. A Survival Study on Flooding Based Routing Protocols for Underwater Wireless Sensor Networks (UWSNs)
Gao et al. Q-Learning Based Routing Optimization Algorithm for Underwater Sensor Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant