CN113783782B - 一种深度强化学习的机会路由候选集节点排序方法 - Google Patents

一种深度强化学习的机会路由候选集节点排序方法 Download PDF

Info

Publication number
CN113783782B
CN113783782B CN202111053638.8A CN202111053638A CN113783782B CN 113783782 B CN113783782 B CN 113783782B CN 202111053638 A CN202111053638 A CN 202111053638A CN 113783782 B CN113783782 B CN 113783782B
Authority
CN
China
Prior art keywords
node
candidate set
reinforcement learning
deep reinforcement
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111053638.8A
Other languages
English (en)
Other versions
CN113783782A (zh
Inventor
冯晓宁
刘朋
曲立平
兰海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202111053638.8A priority Critical patent/CN113783782B/zh
Publication of CN113783782A publication Critical patent/CN113783782A/zh
Application granted granted Critical
Publication of CN113783782B publication Critical patent/CN113783782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B11/00Transmission systems employing sonic, ultrasonic or infrasonic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B13/00Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
    • H04B13/02Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明属于水下声学传感器网络技术领域,具体涉及一种深度强化学习的机会路由候选集节点排序方法。本发明克服了现有机会路由候选集节点排序算法存在考虑因素单一和适应性差等问题,利用深度强化学习智能体与水下机会路由网络模型进行交互,使用深度神经网络拟合候选集节点信息与节点转发优先级的关系。本发明结合了深度学习和强化学习的优势,智能体通过与水下机会路由网络模型交互来自动学到一个机会路由候选集节点排序算法,此过程极少依赖人工经验和外部数据信息。本发明使得候选集节点排序更加智能,且适应性更好。

Description

一种深度强化学习的机会路由候选集节点排序方法
技术领域
本发明属于水下声学传感器网络技术领域,具体涉及一种深度强化学习的机会路由候选集节点排序方法。
背景技术
海洋面积占地球表面积70%以上,其中蕴含着丰富的资源,随着陆上资源的不断减少,各国对海洋权益的重视日益加深,人们迫切需要新的技术去探索广阔的水下未知世界。由于无线电信号在水中衰减迅速,传输距离短,而声信号可以在水下进行远距离传输,所以水下声学传感器网络受到越来越多的关注。在水下使用声信号进行传输会带来高时延、高误码率、低带宽、低传输速率和多径效应等挑战,这些挑战使得现有陆上的路由协议无法适用于水下环境,为水下声学传感器网络路由协议的设计带来了新的机遇和挑战。
在水下路由协议中,机会路由协议利用声信号的广播特性,提高了网络的可靠性和吞吐量,所以被广泛应用。在机会路由协议中,每次转发通常有多个节点接收到数据包,机会路由候选集排序算法负责计算这些节点的转发优先级,然后这些节点根据自己的优先级进行机会转发,该算法对网络的延迟,送达率和能耗等有直接的影响,所以研究水下机会路由协议候选集节点排序算法是非常有意义的。
目前在水下机会路由领域,有多种候选集节点排序算法,可以将算法归纳为下面两类:(1)基于单一因素的机会路由候选集排序算法,这类算法只使用一种因素衡量节点的转发优选级,例如Yan等人提出的DBR路由协议使用的候选集排序算法利用节点深度信息来决定转发优先级。(2)基于多种因素的机会路由候选集排序算法,这类算法综合考虑多个因素评估节点的转发优先级,例如TORA和ESEVBF协议使用的候选集排序算法就同时利用剩余能量和距离等因素来评价节点的转发优先级。
现有的机会路由候选集排序算法虽然可以根据环境因素对候选集节点进行排序,但是又分别存在各自的局限性。只考虑单一因素算法实现起来比较简单,但算法的综合性能差。考虑多种因素的排序算法虽然可以弥补考虑单个因素算法的不足,但组合不同因素使用的权重等参数需要通过在特定场景下进行实验,人为总结给出,所以算法的适应性差。
发明内容
本发明的目的在于克服现有机会路由候选集节点排序算法存在考虑因素单一和适应性差等问题,提供一种深度强化学习的机会路由候选集节点排序方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:针对机会路由候选集节点排序问题建立水下机会路由网络模型;
建立水下机会路由网络模型包括对深度强化学习智能体的状态、动作及奖励函数的定义,具体如下:
深度强化学习智能体的状态定义为发送节点的候选集节点信息;对于发送节点i,状态被定义为
Figure BDA0003253654160000021
Ci为节点i的候选集;/>
Figure BDA0003253654160000022
为节点i的候选集节点j的信息,/>
Figure BDA0003253654160000023
其中,Ej代表节点j的剩余能量,Dj代表节点j的深度,/>
Figure BDA0003253654160000024
代表邻居节点j与节点i之间的距离,/>
Figure BDA0003253654160000025
代节点j与sink节点之间的距离,Nj代表节点j的邻居节点个数;状态si是一个二维数组,每一行对应一个/>
Figure BDA0003253654160000026
一共有|Ci|行;
深度强化学习智能体的动作定义为发送节点所采用的一种候选集排序结果,发送节点i采取的动作用ai表示,发送节点的动作空间是该节点候选集所有可能的排列顺序;对于发送节点i,可以选择的动作有|Ci|!种;
奖励函数的定义根据下一时刻转发节点和状态的不同可以分为三种情况
(1)当下一时刻转发节点j是sink节点时,此时获得RSink奖励;
(2)当下一时刻转发节点j的候选集信息为空,j不能将数据包转发出去,此时获得Rnull奖励;
(3)当下一时刻转发节点j可以转发数据包,此时如果j是优先级最高的节点,则获取的这种情况下最大的奖励值Rmax;如果j是优先级最低的节点,则获取的这种情况下最小的奖励值Rmin;否则获取的奖励值根据节点j所在候选集结果中的序号以及候选集节点的个数在Rmax和Rmin之间呈等差数列的形式下降;
步骤2:建立候选集排序深度强化学习算法模型,其中包括策略网络和价值网络;
所述的策略网络将t时刻的状态st作为输入,计算并输出所有候选集节点优先级的概率分布pt,然后根据概率分布生成候选集排序结果即动作at
所述的价值网络根据输入的t时刻状态st,计算并输出该状态对应的价值估计vt
步骤3:对来自水下机会路由网络模型的数据进行解析,得到当前t时刻的候选集节点信息st、候选集节点序号列表Clistt、奖励值rt以及此时发送数据包节点的序号idt;对候选集节点信息st中每个特性进行归一化;
步骤4:利用深度强化学习智能体与水下机会路由网络模型进行交互,采取迭代试错的学习方法训练并保存深度强化学习算法模型;
步骤4.1:深度强化学习智能体与水下机会路由网络模型交互生成决策序列,深度强化学习智能体根据t时刻候选集节点信息st计算得到候选集节点转发优选级分布pt,并且根据pt生成候选集排序结果at,发送节点将排序结果添加到包头中并广播数据包,水下机会路由网络模型根据候选集节点转发情况,反馈给智能体idt+1、rt+1、st+1和Clistt+1信息;深度强化学习智能体通过上述交互方式得到决策序列Ot=<st,pt,At,idt+1,rt+1,st+1>;
其中,idt+1表示候选集中负责实际转发数据包的节点序号;rt+1是在状态st时执行动作at转移到状态st+1获取的奖励;st+1表示转发数据包节点idt+1的候选集信息;Clistt+1表示st+1对应候选集节点序号的列表;
步骤4.2:深度强化学习智能体根据一个完整的决策序列Ot,计算t时刻的时序差分误差δt=rt+1+vt+1-vt,根据价值网络的损失函数LC计算的误差值使用梯度下降算法更新价值网络的参数;
其中,vt和vt+1分别是将st和st+1输入到价值网络中得到的价值估计;价值网络的损失函数LC为:
LC=δtt
步骤4.3:根据策略网络的损失函数LA计算的误差值使用梯度下降算法更新策略网络的参数;
策略网络的损失函数LA为:
Figure BDA0003253654160000031
其中,|At|为t时刻候选集排序结果中节点的个数;yk为根据实际候选集节点转发情况生成的节点K的标签值,是1*|at|维独热编码形式的向量,在yk中实际转发节点idt+1对应的下标为1,其余的下标为零;
步骤4.4:重复步骤4.1到步骤4.3,深度强化学习算法每经过固定次数的更新保存一次算法模型,直到满足预设的最大训练次数或收敛条件,最终得到训练完毕的深度强化学习算法模型;
步骤5:利用训练完毕的深度强化学习算法模型对机会路由候选集节点排序;
深度强化学习智能体从水下机会路由网络模型获取当前发送节点的候选集信息st,然后将st输入到训练完毕的深度强化学习算法模型中的策略网络,策略网络计算得到候选集排序结果at,机会路由网络模型中的发送节点将at添加到数据包包头中并广播数据包,候选集节点根据自己在at的中排序进行机会转发,负责转发数据包的候选集节点同样将自己的候选集信息st+1传输给深度强化学习模型并获取对应的候选集排序结果at+1,如此不断的重复上述过程,最终得到所有水下机会路由网络模型中发送节点的候选集排序结果。
本发明的有益效果在于:
本发明克服了现有机会路由候选集节点排序算法存在考虑因素单一和适应性差等问题,利用深度强化学习智能体与水下机会路由网络模型进行交互,使用深度神经网络拟合候选集节点信息与节点转发优先级的关系。本发明结合了深度学习和强化学习的优势,智能体通过与水下机会路由网络模型交互来自动学到一个机会路由候选集节点排序算法,此过程极少依赖人工经验和外部数据信息。本发明使得候选集节点排序更加智能,且适应性更好。
附图说明
图1为本发明中机会路由候选集节点排序方法的实施流程图。
图2为本发明中深度强化学习算法模型的框架图。
图3为本发明中深度强化学习算法模型中策略网络的结构图。
图4为本发明中深度强化学习算法模型中价值网络的结构图。
图5为本发明中深度强化学习算法的执行流程图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明涉及一种深度强化学习的机会路由候选集节点排序方法,首先需要针对机会路由候选集节点排序问题建立水下机会路由网络模型;然后搭建与之交互的深度强化学习算法模型,该模型包括两个深度神经网络,分别是策略网络和价值网络;接下来,对收集到的水下机会路由网络数据进行预处理,需要先对接收到的数据进行解析,再对数据解析得到的候选集信息进行归一化;更进一步,利用深度强化学习智能体与水下机会路由网络模型交互进行训练和学习,得到训练好的用于机会路由候选集排序的深度强化学习算法模型;最后基于训练完毕的深度强化学习算法模型对机会路由候选集节点排序。本发明不仅能够使得机会路由候选集节点排序过程更加智能,而且技术处理过程简单,此外,使用本发明学到的机会路由候选集排序算法对于不同水下机会路由网络的适应能力更强。
一种深度强化学习的机会路由候选集节点排序方法,包括以下步骤:
S1:针对机会路由候选集节点排序问题建立水下机会路由网络模型;
S2:建立候选集排序深度强化学习算法模型,其中包括策略网络和价值网络;
S3:对来自水下机会路由网络模型的信息进行预处理;
S4:深度强化学习算法模型的训练和保存。深度强化学习智能体与水下机会路由网络模型交互获取数据,采取迭代试错的学习方法训练并保存算法模型;
S5:利用训练完毕的深度强化学习算法模型对机会路由候选集节点排序。
进一步,所述步骤S1中,建立水下机会路由网络模型包括对深度强化学习智能体的状态、动作及奖励函数的定义,具体如下:
S1-1:智能体的状态定义为发送节点的候选集节点信息。例如对于发送节点i,状态被定义为
Figure BDA0003253654160000051
其中Ci为节点i的候选集,/>
Figure BDA0003253654160000052
是节点i的候选集节点j的信息,其中Ej代表节点j的剩余能量,Dj代表节点j的深度,/>
Figure BDA0003253654160000053
代表邻居节点j与节点i之间的距离,/>
Figure BDA0003253654160000054
代节点j与sink节点之间的距离,Nj代表节点j的邻居节点个数。状态si是一个二维数组,每一行对应一个/>
Figure BDA0003253654160000055
一共有|Ci|行。
S1-2:智能体的动作定义为发送节点所采用的一种候选集排序结果。发送节点i采取的动作用ai表示,在本发明中发送节点的动作空间是该节点候选集所有可能的排列顺序。对于发送节点i,可以选择的动作有|Ci|!种。
S1-3:奖励函数的定义根据下一时刻转发节点和状态的不同可以分为三种情况
(1)第一种情况是当下一时刻转发节点j是sink节点时,此时获得RSink奖励。
(2)第二种情况是下一时刻转发节点j的候选集信息为空,j不能将数据包转发出去,此时获得rnull奖励。
(3)第三种情况对应下一时刻转发节点j可以转发数据包,此时如果j是优先级最高的节点,则获取的这种情况下最大的奖励值Rmax,如果j是优先级最低的节点则获取的这种情况下最大的奖励值Rmin,否则获取的奖励值根据节点j所在候选集结果中的序号以及候选集节点的个数在rmax和rmin之间呈等差数列的形式下降。
进一步,所述步骤S2中,候选集排序深度强化学习算法模型包括两个深度神经网络,分别是策略网络和价值网络,具体如下:
S2-1:策略网络将t时刻的状态St作为输入,计算并输出所有候选集节点优先级的概率分布pt,然后根据概率分布生成候选集排序结果即动作at。策略网络的结构由三部分组成,分别是输入层、隐藏层和输出层,其中输入层的神经元的个数为5,输出层神经元的个数为1,代表候选集节点的转发优选级的概率值,输入层和输出层中间有两个隐藏层,每个隐藏层神经元个数都是20个。
S2-2:价值网络可以根据输入的t时刻状态St,计算并输出该状态对应的价值估计Vt。与策略网络的结构类似,价值网络由输入层、隐藏层和输出层三部分组成,该网络同样接收状态信息作为输入,其中输入层的神经元的个为5,输出层神经元的个数为1,将价值网络的输出结果取均值得到对应状态的价值估计,输入层和输出层中间有三个隐藏层,每个隐藏层有30个神经元。
进一步,所述步骤S3中,对来自水下水下机会路由网络模型的信息进行预处理包括数据解析和候选集信息归一化,具体如下:
S3-1:因为智能体从水下机会路由网络模型获得的数据中包含多种信息,所以首先要对接收到的数据进行解析,解析后会得到当前t时刻的候选集节点信息St、候选集节点序号列表Clistt、奖励值rt以及此时发送数据包节点的序号idt
S3-2:因为候选集节点信息st包含多种特征,不同特征之间的取值范围相差较大,甚至不在一个数量级,这会影响神经网络反向传播的效果,所以本发明提出的方法要对候选集节点信息每个特性进行归一化,公式如下:
Figure BDA0003253654160000061
上述公式中Xmax和Xmin对应候选集信息中归一化特性的最大值和最小值,Xi代表节点i对应的特征值。
进一步,所述步骤S4中,需要利用深度强化学习智能体与水下机会路由网络模型进行交互来训练算法模型中的神经网络,具体步骤如下:
S4-1:深度强化学习智能体与水下机会路由网络模型交互生成决策序列。智能体根据t时刻候选集节点信息st计算得到候选集节点转发优选级分布pt,并且根据pt生成候选集排序结果at,发送节点将排序结果添加到包头中并广播数据包,水下机会路由网络模型根据候选集节点转发情况,反馈给智能体idt+1、rt+1、st+1和Clistt+1信息,其中idt+1表示候选集中负责实际转发数据包的节点序号,rt+1是在状态st时执行动作at转移到状态st+1获取的奖励,st+1表示转发数据包节点idt+1的候选集信息,Clistt+1表示st+1对应候选集节点序号的列表,智能体通过上述交互方式得到决策序列Ot=<st,pt,at,idt+1,rt+1,st+1>。
S4-2:智能体根据一个完整的决策序列Ot来更新深度强化学习算法网络参数。首先需要计算t时刻的时序差分误差δt=rt+1+vt+1-vt,其中vt和vt+1分别是将st和st+1输入到价值网络中得到的价值估计。
S4-3:价值网络的损失函数LC中用到了时序差分误差δt,损失函数LC表示为:
LC=δtt
根据损失函数LC计算的误差值使用梯度下降算法更新价值网络的参数。
S4-4:策略网络的损失函数LA不仅用到了时序差分误差,还用到了交叉熵损失。交叉熵损失用来表示概率分布q与概率分布p之间的误差,两个概率分布越接近,交叉熵损失越小,其计算公式为:
H(p,q)=-∑xp(x)logq(x)
利用时序差分误差和交叉熵损失可得到策略网络的损失函数LA,LA表示为:
Figure BDA0003253654160000071
/>
其中|at|为t时刻候选集排序结果中节点的个数,y为根据实际候选集节点转发情况生成的标签值,是1*|at|维的热编码形式的向量,在y中实际转发节点idt+1对应的下标为1,其余的下标为零。策略网络根据损失函数LA计算误差值使用梯度下降方式更新网络参数。
S4-5:重复步骤S4-1到S4-4,深度强化学习算法每经过固定次数的更新保存一次算法模型,直到满足预设的最大训练次数或收敛条件,最终得到训练完毕的算法模型。
进一步,所述步骤S5中,利用训练完毕的深度强化学习模型对机会路由候选集节点排序过程如下:
智能体从水下机会路由网络模型获取当前发送节点的候选集信息st,然后将st输入训练完毕的深度强化学习算法模型中的策略网络,策略网络计算得到候选集排序结果at,机会路由网络模型中的发送节点将at添加到数据包包头中并广播数据包,候选集节点根据自己在at的中排序进行机会转发,负责转发数据包的候选集节点同样将自己的候选集信息st+1传输给深度强化学习模型并获取对应的候选集排序结果at+1,如此不断的重复上述过程,最终使所有水下机会路由网络模型中发送节点的候选集排序结果都由深度强化学习算法模型给出。
由上述本发明的技术方案可以看出,本发明具有如下技术效果:
(1)本发明结合了深度学习和强化学习的优势,智能体通过与水下机会路由网络模型交互来自动学到一个机会路由候选集节点排序算法,此过程极少依赖人工经验和外部数据信息。
(2)深度强化学习模型中的策略网络和价值网络是深度神经网络,具有极强的状态抽象和表征能力,能有效的抽象候选集信息,使得学习到的机会路由候选集节点排序算法在不同的水下机会路由网络中适应性更强。
(3)将训练好的深度强化学习模型用于对水下机会路由候选集节点进行排序,只需要将当前时刻发送节点的候选集信息输入到训练好的深度强化学习模型中即可得到对应的候选集节点排序结果,使得机会路由候选集节点排序过程更加简单、智能。
实施例1:
本发明涉及一种深度强化学习的机会路由候选集节点排序方法,属于水下声学传感器网络领域及机器学习领域。本发明的目的是为克服现有机会路由候选集节点排序算法存在考虑因素单一和适应性差等问题而提供一种基于深度强化学习的机会路由候选集节点排序方法,该方法利用深度强化学习智能体与水下机会路由网络模型进行交互,使用深度神经网络拟合候选集节点信息与节点转发优先级的关系,相对于人为设置权重等参数的算法,本发明所提的方法使得候选集节点排序更加智能,且适应性更好。
本发明提出一种深度强化学习的机会路由候选集节点排序方法,其实施流程如图1所示,包括如下步骤:
S1:针对机会路由候选集节点排序问题建立水下机会路由网络模型,其中包括对深度强化学习智能体的状态、动作及奖励函数的定义,具体如下:
S1-1:智能体的状态定义为发送节点的候选集节点信息,对于发送节点i的状态信息被定义为
Figure BDA0003253654160000081
其中Ci为节点i的候选集,/>
Figure BDA0003253654160000082
是节点i的候选集节点j的信息,其中Ej代表节点j的剩余能量,Dj代表节点j的深度,/>
Figure BDA0003253654160000083
代表邻居节点j与节点i之间的距离,/>
Figure BDA0003253654160000084
代节点j与sink节点之间的距离,Nj代表节点j的邻居节点个数。
因为在水下机会路由网络模型中,每个发送节点可以有多个候选集节点,所以本发明中的si是一个二维数组,si中的每一行对应一个候选集节点信息
Figure BDA0003253654160000085
一共有|Ci|行。当发送节点的候选集不为空时,si也不为空,但当发送节点为sink节点或遇到路由空洞时,si为空。
S1-2:智能体的动作定义为发送节点所采用的一种候选集排序结果。发送节点i采取的动作用ai表示,在本发明中发送节点的动作空间是该节点候选集所有可能的排列顺序。例如发送节点i的候选集Ci中有3个节点,那么节点i可以采取的所以动作有|Ci|!=3*2*1=6种。
S1-3:奖励函数的定义根据下一时刻转发节点和状态的不同可以分为三种情况
(1)第一种情况是当下一时刻转发节点j是sink节点时,此时获得RSink奖励。
(2)第二种情况是下一时刻转发节点j的候选集信息为空,j不能将数据包转发出去,此时获得Rnull奖励。
(3)第三种情况对应下一时刻转发节点j可以转发数据包,此时如果j是优先级最高的节点,则获取的这种情况下最大的奖励值Rmax,如果j是优先级最低的节点则获取的这种情况下最大的奖励值Rmi,否则获取的奖励值根据节点j所在候选集结果中的序号以及候选集节点的个数在Rmax和Rmin之间呈等差数列的形式下降。
S2:深度强化学习算法模型框架如图2所示,其中包括两个深度神经网络,分别是策略网络和价值网络,具体如下:
S2-1:策略网络结构如图3所示,它由输入层、隐藏层和输出层组成,其中输入层的神经元的个数是5个,输入层和输出层中间有两个隐藏层,每个隐藏层神经元个数为20个,最后输出层的神经元个数为1。
深度神经网络为了实现非线性化,会使用非线性函数作为激活函数对每层网络计算的数据进行处理,将处理结果作为下一层网络的输入。在本发明中,使用Leaky ReLU函数作为策略网络中间层的激活函数,对于网络的输出层,先将输出的结果转置,然后使用softrmax激活函数处理得到最终输出。策略网络输的输入为t时刻的状态st,输出为候选集节点的优先级概率分布pt,最后根据pt生成候选集排序结果at
S2-2:价值网络结构如图4所示,价值网络结构由输入层、隐藏层和输出层三部分组成,该网络输入层有5个神经元,有三个隐藏层,每个隐藏层有30个神经元,输出层有1个神经元,激活函数的选择和策略网络一样,使用的是Leaky ReLU函数,最后对价值网络的输出结果取平均得到当前输入状态的价值估计。价值网络的输入为t时刻的状态st,输出为该状态的对应的价值估计。
S3:由于训练深度强化学习算法模型的需要,水下机会路由网络模型会返回多种信息,所以首先要对这些信息进行预处理,包括数据解析和候选集信息归一化:
S3-1:因为智能体从水下机会路由网络模型获得的数据包含多种信息,所以首先要对接收到的数据进行解析,解析后会得到候选集节点信息st、候选集节点序号的列表Clistf、奖励值Rt以及此时发送数据包节点的序号idt
S3-2:因为候选集节点信息st包含多种特征,不同特征之间的取值范围相差较大,甚至不在一个数量级,这会影响神经网络反向传播的效果,所以本发明提出的方法要对候选集节点信息每个特性进行归一化,公式如下:
Figure BDA0003253654160000091
上述公式中Xmax和Xmin对应候选集信息中归一化特性的最大值和最小值,Xi代表节点i对应的特征值。
S4:深度强化学习智能体与网络模型交互获取数据,采取不断试错迭代的学习方法训练并保存算法模型。深度强化学习算法执行流程如图5所示,具体步骤如下:
S4-1:智能体与水下机会路由网络模型交互收集决策序列步骤如下:
首先初始化水下机会路由网络模型,设置t=0,智能体获取当前发送节点候选集信息st和对应的节点列表Clistt
然后将st进行归一化后输入到策略网络中,得到候选集节点的概率分布pt,根据概率分布pt和对应的节点列表Clistt计算得到候选集排序结果at
最后水下机会路由网络模型中发送节点将at作为候选集节点转发优先级,然后将优先级的信息添加到数据包包头中,然后广播数据包,水下机会路由网络模型根据候选集节点实际转发情况,反馈给智能体idt+1、rt+1、st+1和Clistt+1等信息,其中idt+1表示候选集中实际转发数据包的节点序号,rt+1是在状态st时执行动作at转移到状态st+1获取的奖励,st+1表示转发数据包节点idt+1的候选集信息,Clistt+1表示st+1对应的候选集节点序号的列表,至此智能体得到一个决策序列Ot=<st,pt,at,Idt+1,rt+1,st+1>。
S4-2:智能体将决策序列Ot中的st、st+1输入到价值网络中计算得到对应状态的价值估计vt和vt+1,然后根据vt、vt+1和rt+1计算t时刻的时序差分误差δt,计算公式如下:
δt=rt+1+vt+1-vt
S4-3:价值网络的损失函数LC中用到了时序差分误差δt,损失函数LC表示为:
LC=δtt
根据损失函数LC计算误差值使用梯度下降算法更新价值网络的参数。
S4-4:策略网络的损失函数LA不仅用到了时序差分误差,还用到了交叉熵损失。交叉熵损失用来表示概率分布q与概率分布p之间的误差,两个概率分布越接近,交叉熵损失越小,其计算公式为:
H(p,q)=-∑xp(x)logq(x)
利用时序差分误差和交叉熵损失可得到策略网络的损失函数LA,LA表示为:
Figure BDA0003253654160000101
其中|at|为t时刻候选集排序结果中节点的个数,y为根据实际候选集节点转发情况生成的标签值,是1*|at|维的热编码形式的向量,在y中实际转发节点idt+1对应的下标为1,其余的下标为零。策略网络根据损失函数LA计算误差值使用梯度下降方式更新网络参数。
S4-5:重复步骤S4-1到S4-4,深度强化学习算法参数每经过特定次数更新就保存一次算法模型,直到满足收敛条件或到达预设的最大训练次数,最终得到训练完毕的算法模型。
S5:利用训练完毕的深度强化学习算法模型对机会路由候选集节点排序,步骤如下:
首先获取t时刻水下机会路由网络模型发送节点的候选集信息st
然后将st输入到策略网络中,将该网络输出的候选集节点优先级概率分布由大到小排列,得到候选集排序结果at
接下来水下机会路由网络模型中的发送节点将候选集排序结果at添加到数据包包头中并广播数据包,候选集节点根据自己在at的中位置进行机会转发。候选集中负责转发数据包的节点将该节点的候选集信息st+1,传输给深度强化学习算法模型,以同样的方式得到at+1
如此不断重复上述过程,最终使水下机会路由网络模型中所有发送节点的候选集排序结果都由深度强化学习算法模型给出。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种水下声学传感器网络中深度强化学习的机会路由候选集节点排序方法,其特征在于,包括以下步骤:
步骤1:针对机会路由候选集节点排序问题建立水下机会路由网络模型;
建立水下机会路由网络模型包括对深度强化学习智能体的状态、动作及奖励函数的定义,具体如下:
深度强化学习智能体的状态定义为发送节点的候选集节点信息;对于发送节点i,状态被定义为
Figure FDA0004092948610000011
Ci为节点i的候选集;/>
Figure FDA0004092948610000012
为节点i的候选集节点j的信息,
Figure FDA0004092948610000013
其中,Ej代表节点j的剩余能量,Dj代表节点j的深度,/>
Figure FDA0004092948610000014
代表邻居节点j与节点i之间的距离,/>
Figure FDA0004092948610000015
代节点j与sink节点之间的距离,Nj代表节点j的邻居节点个数;状态si是一个二维数组,每一行对应一个/>
Figure FDA0004092948610000016
一共有|Ci|行;
深度强化学习智能体的动作定义为发送节点所采用的一种候选集排序结果,发送节点i采取的动作用ai表示,发送节点的动作空间是该节点候选集所有可能的排列顺序;对于发送节点i,可以选择的动作有|Ci|!种;
奖励函数的定义根据下一时刻转发节点和状态的不同可以分为三种情况
(1)当下一时刻转发节点j是sink节点时,此时获得RSink奖励;
(2)当下一时刻转发节点j的候选集信息为空,j不能将数据包转发出去,此时获得Rnull奖励;
(3)当下一时刻转发节点i可以转发数据包,此时如果j是优先级最高的节点,则获取的这种情况下最大的奖励值Rmax;如果j是优先级最低的节点,则获取的这种情况下最小的奖励值Rmin;否则获取的奖励值根据节点j所在候选集结果中的序号以及候选集节点的个数在Rmax和Rmin之间呈等差数列的形式下降;
步骤2:建立候选集排序深度强化学习算法模型,其中包括策略网络和价值网络;
所述的策略网络将t时刻的状态st作为输入,计算并输出所有候选集节点优先级的概率分布pt,然后根据概率分布生成动作at
所述的价值网络根据输入的t时刻状态st,计算并输出该状态对应的价值估计vt
步骤3:对来自水下机会路由网络模型的数据进行解析,得到当前t时刻的候选集节点信息st、候选集节点序号列表Clistt、奖励值rt以及此时发送数据包节点的序号idt;对候选集节点信息st中每个特性进行归一化;
步骤4:利用深度强化学习智能体与水下机会路由网络模型进行交互,采取迭代试错的学习方法训练并保存深度强化学习算法模型;
步骤4.1:深度强化学习智能体与水下机会路由网络模型交互生成决策序列,深度强化学习智能体根据t时刻候选集节点信息st计算得到候选集节点转发优选级分布pt,并且根据pt生成候选集排序结果at;发送节点将排序结果添加到包头中并广播数据包,水下机会路由网络模型根据候选集节点转发情况,将idt+1、rt+1、st+1和Clistt+1信息反馈给深度强化学习智能体;深度强化学习智能体通过上述交互方式得到决策序列Ot=<st,pt,at,idt+1,rt+1,st+1>;
其中,idt+1表示候选集中负责实际转发数据包的节点序号;rt+1是在状态st时执行动作at转移到状态st+1获取的奖励;st+1表示转发数据包节点idt+1的候选集信息;Clistt+1表示st+1对应候选集节点序号的列表;
步骤4.2:深度强化学习智能体根据一个完整的决策序列Ot,计算t时刻的时序差分误差δt=rt+1+vt+1-vt,根据价值网络的损失函数LC计算的误差值使用梯度下降算法更新价值网络的参数;
其中,vt和vi+1分别是将st和st+1输入到价值网络中得到的价值估计;价值网络的损失函数LC为:
LC=δtt
步骤4.3:根据策略网络的损失函数LA计算的误差值使用梯度下降算法更新策略网络的参数;
策略网络的损失函数LA为:
Figure FDA0004092948610000021
其中,|at|为t时刻候选集排序结果中节点的个数;yk为根据实际候选集节点转发情况生成的节点k的标签值,在yk中实际转发节点idt+1对应的下标为1,其余的下标为零;
步骤4.4:重复步骤4.1到步骤4.3,深度强化学习算法每经过固定次数的更新保存一次算法模型,直到满足预设的最大训练次数或收敛条件,最终得到训练完毕的深度强化学习算法模型;
步骤5:利用训练完毕的深度强化学习算法模型对机会路由候选集节点排序;
深度强化学习智能体从水下机会路由网络模型获取当前发送节点的候选集信息st,然后将st输入到训练完毕的深度强化学习算法模型中的策略网络,策略网络计算得到候选集排序结果at,机会路由网络模型中的发送节点将at添加到数据包包头中并广播数据包,候选集节点根据自己在at的中排序进行机会转发,负责转发数据包的候选集节点同样将自己的候选集信息st+1传输给深度强化学习模型并获取对应的候选集排序结果at+1,如此不断的重复上述过程,最终得到所有水下机会路由网络模型中发送节点的候选集排序结果。
CN202111053638.8A 2021-09-09 2021-09-09 一种深度强化学习的机会路由候选集节点排序方法 Active CN113783782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111053638.8A CN113783782B (zh) 2021-09-09 2021-09-09 一种深度强化学习的机会路由候选集节点排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111053638.8A CN113783782B (zh) 2021-09-09 2021-09-09 一种深度强化学习的机会路由候选集节点排序方法

Publications (2)

Publication Number Publication Date
CN113783782A CN113783782A (zh) 2021-12-10
CN113783782B true CN113783782B (zh) 2023-05-30

Family

ID=78842139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111053638.8A Active CN113783782B (zh) 2021-09-09 2021-09-09 一种深度强化学习的机会路由候选集节点排序方法

Country Status (1)

Country Link
CN (1) CN113783782B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822618A (zh) * 2023-08-30 2023-09-29 北京汉勃科技有限公司 基于动态噪声网络的深度强化学习探索方法及组件

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10154398B2 (en) * 2016-11-02 2018-12-11 Wipro Limited Methods and systems for node selection in multihop wireless sensor networks
CN108848541B (zh) * 2018-07-17 2020-08-11 北京农业信息技术研究中心 节点间数据关联机会路由转发协调方法及系统
CN109362113B (zh) * 2018-11-06 2022-03-18 哈尔滨工程大学 一种水声传感器网络合作探索强化学习路由方法
CN109873677B (zh) * 2019-03-08 2021-09-10 哈尔滨工程大学 一种水声传感器网络机会路由候选集生成方法
CN111065145B (zh) * 2020-01-13 2021-09-21 清华大学 一种面向水下多智能体的q学习蚁群路由方法
CN112188583B (zh) * 2020-10-08 2022-08-02 上海海事大学 一种基于强化学习的海洋水下无线感知网络机会路由方法
CN112491712B (zh) * 2020-11-30 2021-08-17 复旦大学 一种基于多智能体深度强化学习的数据包路由算法
CN112465151A (zh) * 2020-12-17 2021-03-09 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的多智能体联邦协作方法
CN112954769B (zh) * 2021-01-25 2022-06-21 哈尔滨工程大学 基于强化学习的水下无线传感器网络路由方法
CN113255206B (zh) * 2021-04-02 2023-05-12 河海大学 一种基于深度强化学习的水文预报模型参数率定方法

Also Published As

Publication number Publication date
CN113783782A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN111630787B (zh) 基于深度学习的mimo多天线信号传输与检测技术
CN109617584B (zh) 一种基于深度学习的mimo系统波束成形矩阵设计方法
Jin et al. Gralsp: Graph neural networks with local structural patterns
CN111628855B (zh) 基于深度强化学习的工业5g动态多优先级多接入方法
CN107332598A (zh) 一种基于深度学习的mimo系统联合预编码和天线选择方法
CN110336594B (zh) 一种基于共轭梯度下降法的深度学习信号检测方法
CN113381828B (zh) 基于条件生成对抗网络的稀疏码多址接入随机信道建模方法
Hu et al. Channel estimation enhancement with generative adversarial networks
CN111885671B (zh) 一种基于深度强化学习的水下联合中继选择和功率分配方法
Wang et al. A deep learning-based intelligent receiver for improving the reliability of the MIMO wireless communication system
CN113783782B (zh) 一种深度强化学习的机会路由候选集节点排序方法
CN112260733B (zh) 基于多智能体深度强化学习的mu-miso混合预编码设计方法
CN114117945B (zh) 基于用户-服务交互图的深度学习云服务QoS预测方法
CN111010222B (zh) 一种基于深度学习的大规模mimo下行用户调度方法
Ye et al. Bilinear convolutional auto-encoder based pilot-free end-to-end communication systems
Huang et al. Machine learning for underwater acoustic communications
Le-Tran et al. Deep learning-based collaborative constellation design for visible light communication
Liu et al. On sampled reinforcement learning in wireless networks: Exploitation of policy structures
Dong et al. Optimization-driven DRL based joint beamformer design for IRS-aided ITSN against smart jamming attacks
CN114337883A (zh) 协方差矩阵Cholesky分解的CNN协作频谱感知方法及系统
CN112765892A (zh) 一种异构车联网中的智能切换判决方法
Aarts et al. An interpretable determinantal choice model for subset selection
CN113794659B (zh) 一种信道估计与信号检测方法
CN113840306B (zh) 基于网络局部信息交互的分布式无线网络接入决策方法
Othman et al. Sum-rate maximization for wireless seismic data acquisition systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant