CN113783782B

CN113783782B - 一种深度强化学习的机会路由候选集节点排序方法

Info

Publication number: CN113783782B
Application number: CN202111053638.8A
Authority: CN
Inventors: 冯晓宁; 刘朋; 曲立平; 兰海燕
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2023-05-30
Anticipated expiration: 2041-09-09
Also published as: CN113783782A

Abstract

本发明属于水下声学传感器网络技术领域，具体涉及一种深度强化学习的机会路由候选集节点排序方法。本发明克服了现有机会路由候选集节点排序算法存在考虑因素单一和适应性差等问题，利用深度强化学习智能体与水下机会路由网络模型进行交互，使用深度神经网络拟合候选集节点信息与节点转发优先级的关系。本发明结合了深度学习和强化学习的优势，智能体通过与水下机会路由网络模型交互来自动学到一个机会路由候选集节点排序算法，此过程极少依赖人工经验和外部数据信息。本发明使得候选集节点排序更加智能，且适应性更好。

Description

一种深度强化学习的机会路由候选集节点排序方法

技术领域

本发明属于水下声学传感器网络技术领域，具体涉及一种深度强化学习的机会路由候选集节点排序方法。

背景技术

海洋面积占地球表面积70％以上，其中蕴含着丰富的资源，随着陆上资源的不断减少，各国对海洋权益的重视日益加深，人们迫切需要新的技术去探索广阔的水下未知世界。由于无线电信号在水中衰减迅速，传输距离短，而声信号可以在水下进行远距离传输，所以水下声学传感器网络受到越来越多的关注。在水下使用声信号进行传输会带来高时延、高误码率、低带宽、低传输速率和多径效应等挑战，这些挑战使得现有陆上的路由协议无法适用于水下环境，为水下声学传感器网络路由协议的设计带来了新的机遇和挑战。

在水下路由协议中，机会路由协议利用声信号的广播特性，提高了网络的可靠性和吞吐量，所以被广泛应用。在机会路由协议中，每次转发通常有多个节点接收到数据包，机会路由候选集排序算法负责计算这些节点的转发优先级，然后这些节点根据自己的优先级进行机会转发，该算法对网络的延迟，送达率和能耗等有直接的影响，所以研究水下机会路由协议候选集节点排序算法是非常有意义的。

目前在水下机会路由领域，有多种候选集节点排序算法，可以将算法归纳为下面两类：(1)基于单一因素的机会路由候选集排序算法，这类算法只使用一种因素衡量节点的转发优选级，例如Yan等人提出的DBR路由协议使用的候选集排序算法利用节点深度信息来决定转发优先级。(2)基于多种因素的机会路由候选集排序算法，这类算法综合考虑多个因素评估节点的转发优先级，例如TORA和ESEVBF协议使用的候选集排序算法就同时利用剩余能量和距离等因素来评价节点的转发优先级。

现有的机会路由候选集排序算法虽然可以根据环境因素对候选集节点进行排序，但是又分别存在各自的局限性。只考虑单一因素算法实现起来比较简单，但算法的综合性能差。考虑多种因素的排序算法虽然可以弥补考虑单个因素算法的不足，但组合不同因素使用的权重等参数需要通过在特定场景下进行实验，人为总结给出，所以算法的适应性差。

发明内容

本发明的目的在于克服现有机会路由候选集节点排序算法存在考虑因素单一和适应性差等问题，提供一种深度强化学习的机会路由候选集节点排序方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：针对机会路由候选集节点排序问题建立水下机会路由网络模型；

建立水下机会路由网络模型包括对深度强化学习智能体的状态、动作及奖励函数的定义，具体如下：

深度强化学习智能体的状态定义为发送节点的候选集节点信息；对于发送节点i，状态被定义为

C_i为节点i的候选集；/>

为节点i的候选集节点j的信息，/>

其中，E_j代表节点j的剩余能量，D_j代表节点j的深度，/>

代表邻居节点j与节点i之间的距离，/>

代节点j与sink节点之间的距离，N_j代表节点j的邻居节点个数；状态s_i是一个二维数组，每一行对应一个/>

一共有|C_i|行；

深度强化学习智能体的动作定义为发送节点所采用的一种候选集排序结果，发送节点i采取的动作用a_i表示，发送节点的动作空间是该节点候选集所有可能的排列顺序；对于发送节点i，可以选择的动作有|C_i|！种；

奖励函数的定义根据下一时刻转发节点和状态的不同可以分为三种情况

(1)当下一时刻转发节点j是sink节点时，此时获得R_Sink奖励；

(2)当下一时刻转发节点j的候选集信息为空，j不能将数据包转发出去，此时获得R_null奖励；

(3)当下一时刻转发节点j可以转发数据包，此时如果j是优先级最高的节点，则获取的这种情况下最大的奖励值R_max；如果j是优先级最低的节点，则获取的这种情况下最小的奖励值R_min；否则获取的奖励值根据节点j所在候选集结果中的序号以及候选集节点的个数在R_max和R_min之间呈等差数列的形式下降；

步骤2：建立候选集排序深度强化学习算法模型，其中包括策略网络和价值网络；

所述的策略网络将t时刻的状态s_t作为输入，计算并输出所有候选集节点优先级的概率分布p_t，然后根据概率分布生成候选集排序结果即动作a_t；

所述的价值网络根据输入的t时刻状态s_t，计算并输出该状态对应的价值估计v_t；

步骤3：对来自水下机会路由网络模型的数据进行解析，得到当前t时刻的候选集节点信息s_t、候选集节点序号列表Clist_t、奖励值r_t以及此时发送数据包节点的序号id_t；对候选集节点信息s_t中每个特性进行归一化；

步骤4：利用深度强化学习智能体与水下机会路由网络模型进行交互，采取迭代试错的学习方法训练并保存深度强化学习算法模型；

步骤4.1：深度强化学习智能体与水下机会路由网络模型交互生成决策序列，深度强化学习智能体根据t时刻候选集节点信息s_t计算得到候选集节点转发优选级分布p_t，并且根据p_t生成候选集排序结果a_t，发送节点将排序结果添加到包头中并广播数据包，水下机会路由网络模型根据候选集节点转发情况，反馈给智能体id_t+1、r_t+1、s_t+1和Clist_t+1信息；深度强化学习智能体通过上述交互方式得到决策序列O_t＝<s_t,p_t,A_t,id_t+1,r_t+1,s_t+1>；

其中，id_t+1表示候选集中负责实际转发数据包的节点序号；r_t+1是在状态s_t时执行动作a_t转移到状态s_t+1获取的奖励；s_t+1表示转发数据包节点id_t+1的候选集信息；Clist_t+1表示s_t+1对应候选集节点序号的列表；

步骤4.2：深度强化学习智能体根据一个完整的决策序列O_t，计算t时刻的时序差分误差δ_t＝r_t+1+v_t+1-v_t，根据价值网络的损失函数L_C计算的误差值使用梯度下降算法更新价值网络的参数；

其中，v_t和v_t+1分别是将s_t和s_t+1输入到价值网络中得到的价值估计；价值网络的损失函数L_C为：

L_C＝δ_t*δ_t

步骤4.3：根据策略网络的损失函数L_A计算的误差值使用梯度下降算法更新策略网络的参数；

策略网络的损失函数L_A为：

其中，|A_t|为t时刻候选集排序结果中节点的个数；y_k为根据实际候选集节点转发情况生成的节点K的标签值，是1*|a_t|维独热编码形式的向量，在y_k中实际转发节点id_t+1对应的下标为1，其余的下标为零；

步骤4.4：重复步骤4.1到步骤4.3，深度强化学习算法每经过固定次数的更新保存一次算法模型，直到满足预设的最大训练次数或收敛条件，最终得到训练完毕的深度强化学习算法模型；

步骤5：利用训练完毕的深度强化学习算法模型对机会路由候选集节点排序；

深度强化学习智能体从水下机会路由网络模型获取当前发送节点的候选集信息s_t，然后将s_t输入到训练完毕的深度强化学习算法模型中的策略网络，策略网络计算得到候选集排序结果a_t，机会路由网络模型中的发送节点将a_t添加到数据包包头中并广播数据包，候选集节点根据自己在a_t的中排序进行机会转发，负责转发数据包的候选集节点同样将自己的候选集信息s_t+1传输给深度强化学习模型并获取对应的候选集排序结果a_t+1，如此不断的重复上述过程，最终得到所有水下机会路由网络模型中发送节点的候选集排序结果。

本发明的有益效果在于：

本发明克服了现有机会路由候选集节点排序算法存在考虑因素单一和适应性差等问题，利用深度强化学习智能体与水下机会路由网络模型进行交互，使用深度神经网络拟合候选集节点信息与节点转发优先级的关系。本发明结合了深度学习和强化学习的优势，智能体通过与水下机会路由网络模型交互来自动学到一个机会路由候选集节点排序算法，此过程极少依赖人工经验和外部数据信息。本发明使得候选集节点排序更加智能，且适应性更好。

附图说明

图1为本发明中机会路由候选集节点排序方法的实施流程图。

图2为本发明中深度强化学习算法模型的框架图。

图3为本发明中深度强化学习算法模型中策略网络的结构图。

图4为本发明中深度强化学习算法模型中价值网络的结构图。

图5为本发明中深度强化学习算法的执行流程图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明涉及一种深度强化学习的机会路由候选集节点排序方法，首先需要针对机会路由候选集节点排序问题建立水下机会路由网络模型；然后搭建与之交互的深度强化学习算法模型，该模型包括两个深度神经网络，分别是策略网络和价值网络；接下来，对收集到的水下机会路由网络数据进行预处理，需要先对接收到的数据进行解析，再对数据解析得到的候选集信息进行归一化；更进一步，利用深度强化学习智能体与水下机会路由网络模型交互进行训练和学习，得到训练好的用于机会路由候选集排序的深度强化学习算法模型；最后基于训练完毕的深度强化学习算法模型对机会路由候选集节点排序。本发明不仅能够使得机会路由候选集节点排序过程更加智能，而且技术处理过程简单，此外，使用本发明学到的机会路由候选集排序算法对于不同水下机会路由网络的适应能力更强。

一种深度强化学习的机会路由候选集节点排序方法，包括以下步骤：

S1：针对机会路由候选集节点排序问题建立水下机会路由网络模型；

S2：建立候选集排序深度强化学习算法模型，其中包括策略网络和价值网络；

S3：对来自水下机会路由网络模型的信息进行预处理；

S4：深度强化学习算法模型的训练和保存。深度强化学习智能体与水下机会路由网络模型交互获取数据，采取迭代试错的学习方法训练并保存算法模型；

S5：利用训练完毕的深度强化学习算法模型对机会路由候选集节点排序。

进一步，所述步骤S1中，建立水下机会路由网络模型包括对深度强化学习智能体的状态、动作及奖励函数的定义，具体如下：

S1-1：智能体的状态定义为发送节点的候选集节点信息。例如对于发送节点i，状态被定义为

其中C_i为节点i的候选集，/>

是节点i的候选集节点j的信息，其中E_j代表节点j的剩余能量，D_j代表节点j的深度，/>

代表邻居节点j与节点i之间的距离，/>

代节点j与sink节点之间的距离，N_j代表节点j的邻居节点个数。状态s_i是一个二维数组，每一行对应一个/>

一共有|C_i|行。

S1-2：智能体的动作定义为发送节点所采用的一种候选集排序结果。发送节点i采取的动作用a_i表示，在本发明中发送节点的动作空间是该节点候选集所有可能的排列顺序。对于发送节点i，可以选择的动作有|C_i|！种。

S1-3：奖励函数的定义根据下一时刻转发节点和状态的不同可以分为三种情况

(1)第一种情况是当下一时刻转发节点j是sink节点时，此时获得R_Sink奖励。

(2)第二种情况是下一时刻转发节点j的候选集信息为空，j不能将数据包转发出去，此时获得r_null奖励。

(3)第三种情况对应下一时刻转发节点j可以转发数据包，此时如果j是优先级最高的节点，则获取的这种情况下最大的奖励值R_max，如果j是优先级最低的节点则获取的这种情况下最大的奖励值R_min，否则获取的奖励值根据节点j所在候选集结果中的序号以及候选集节点的个数在r_max和r_min之间呈等差数列的形式下降。

进一步，所述步骤S2中，候选集排序深度强化学习算法模型包括两个深度神经网络，分别是策略网络和价值网络，具体如下：

S2-1：策略网络将t时刻的状态S_t作为输入，计算并输出所有候选集节点优先级的概率分布p_t，然后根据概率分布生成候选集排序结果即动作a_t。策略网络的结构由三部分组成，分别是输入层、隐藏层和输出层，其中输入层的神经元的个数为5，输出层神经元的个数为1，代表候选集节点的转发优选级的概率值，输入层和输出层中间有两个隐藏层，每个隐藏层神经元个数都是20个。

S2-2：价值网络可以根据输入的t时刻状态S_t，计算并输出该状态对应的价值估计V_t。与策略网络的结构类似，价值网络由输入层、隐藏层和输出层三部分组成，该网络同样接收状态信息作为输入，其中输入层的神经元的个为5，输出层神经元的个数为1，将价值网络的输出结果取均值得到对应状态的价值估计，输入层和输出层中间有三个隐藏层，每个隐藏层有30个神经元。

进一步，所述步骤S3中，对来自水下水下机会路由网络模型的信息进行预处理包括数据解析和候选集信息归一化，具体如下：

S3-1：因为智能体从水下机会路由网络模型获得的数据中包含多种信息，所以首先要对接收到的数据进行解析，解析后会得到当前t时刻的候选集节点信息S_t、候选集节点序号列表Clist_t、奖励值r_t以及此时发送数据包节点的序号id_t。

S3-2：因为候选集节点信息s_t包含多种特征，不同特征之间的取值范围相差较大，甚至不在一个数量级，这会影响神经网络反向传播的效果，所以本发明提出的方法要对候选集节点信息每个特性进行归一化，公式如下：

上述公式中X_max和X_min对应候选集信息中归一化特性的最大值和最小值，X_i代表节点i对应的特征值。

进一步，所述步骤S4中，需要利用深度强化学习智能体与水下机会路由网络模型进行交互来训练算法模型中的神经网络，具体步骤如下：

S4-1：深度强化学习智能体与水下机会路由网络模型交互生成决策序列。智能体根据t时刻候选集节点信息s_t计算得到候选集节点转发优选级分布p_t，并且根据p_t生成候选集排序结果a_t，发送节点将排序结果添加到包头中并广播数据包，水下机会路由网络模型根据候选集节点转发情况，反馈给智能体id_t+1、r_t+1、s_t+1和Clist_t+1信息，其中id_t+1表示候选集中负责实际转发数据包的节点序号，r_t+1是在状态s_t时执行动作a_t转移到状态s_t+1获取的奖励，s_t+1表示转发数据包节点id_t+1的候选集信息，Clist_t+1表示s_t+1对应候选集节点序号的列表，智能体通过上述交互方式得到决策序列O_t＝<s_t,p_t，a_t，id_t+1，r_t+1，s_t+1>。

S4-2：智能体根据一个完整的决策序列O_t来更新深度强化学习算法网络参数。首先需要计算t时刻的时序差分误差δ_t＝r_t+1+v_t+1-v_t，其中v_t和v_t+1分别是将s_t和s_t+1输入到价值网络中得到的价值估计。

S4-3：价值网络的损失函数L_C中用到了时序差分误差δ_t，损失函数L_C表示为：

L_C＝δ_t*δ_t

根据损失函数L_C计算的误差值使用梯度下降算法更新价值网络的参数。

S4-4：策略网络的损失函数L_A不仅用到了时序差分误差，还用到了交叉熵损失。交叉熵损失用来表示概率分布q与概率分布p之间的误差，两个概率分布越接近，交叉熵损失越小，其计算公式为：

H(p,q)＝-∑_xp(x)logq(x)

利用时序差分误差和交叉熵损失可得到策略网络的损失函数L_A，L_A表示为：

/>

其中|a_t|为t时刻候选集排序结果中节点的个数，y为根据实际候选集节点转发情况生成的标签值，是1*|a_t|维的热编码形式的向量，在y中实际转发节点id_t+1对应的下标为1，其余的下标为零。策略网络根据损失函数L_A计算误差值使用梯度下降方式更新网络参数。

S4-5：重复步骤S4-1到S4-4，深度强化学习算法每经过固定次数的更新保存一次算法模型，直到满足预设的最大训练次数或收敛条件，最终得到训练完毕的算法模型。

进一步，所述步骤S5中，利用训练完毕的深度强化学习模型对机会路由候选集节点排序过程如下：

智能体从水下机会路由网络模型获取当前发送节点的候选集信息s_t，然后将s_t输入训练完毕的深度强化学习算法模型中的策略网络，策略网络计算得到候选集排序结果a_t，机会路由网络模型中的发送节点将a_t添加到数据包包头中并广播数据包，候选集节点根据自己在a_t的中排序进行机会转发，负责转发数据包的候选集节点同样将自己的候选集信息s_t+1传输给深度强化学习模型并获取对应的候选集排序结果a_t+1，如此不断的重复上述过程，最终使所有水下机会路由网络模型中发送节点的候选集排序结果都由深度强化学习算法模型给出。

由上述本发明的技术方案可以看出，本发明具有如下技术效果：

(1)本发明结合了深度学习和强化学习的优势，智能体通过与水下机会路由网络模型交互来自动学到一个机会路由候选集节点排序算法，此过程极少依赖人工经验和外部数据信息。

(2)深度强化学习模型中的策略网络和价值网络是深度神经网络，具有极强的状态抽象和表征能力，能有效的抽象候选集信息，使得学习到的机会路由候选集节点排序算法在不同的水下机会路由网络中适应性更强。

(3)将训练好的深度强化学习模型用于对水下机会路由候选集节点进行排序，只需要将当前时刻发送节点的候选集信息输入到训练好的深度强化学习模型中即可得到对应的候选集节点排序结果，使得机会路由候选集节点排序过程更加简单、智能。

实施例1：

本发明涉及一种深度强化学习的机会路由候选集节点排序方法，属于水下声学传感器网络领域及机器学习领域。本发明的目的是为克服现有机会路由候选集节点排序算法存在考虑因素单一和适应性差等问题而提供一种基于深度强化学习的机会路由候选集节点排序方法，该方法利用深度强化学习智能体与水下机会路由网络模型进行交互，使用深度神经网络拟合候选集节点信息与节点转发优先级的关系，相对于人为设置权重等参数的算法，本发明所提的方法使得候选集节点排序更加智能，且适应性更好。

本发明提出一种深度强化学习的机会路由候选集节点排序方法，其实施流程如图1所示，包括如下步骤：

S1：针对机会路由候选集节点排序问题建立水下机会路由网络模型，其中包括对深度强化学习智能体的状态、动作及奖励函数的定义，具体如下：

S1-1：智能体的状态定义为发送节点的候选集节点信息，对于发送节点i的状态信息被定义为

其中C_i为节点i的候选集，/>

代表邻居节点j与节点i之间的距离，/>

代节点j与sink节点之间的距离，N_j代表节点j的邻居节点个数。

因为在水下机会路由网络模型中，每个发送节点可以有多个候选集节点，所以本发明中的s_i是一个二维数组，s_i中的每一行对应一个候选集节点信息

一共有|C_i|行。当发送节点的候选集不为空时，s_i也不为空，但当发送节点为sink节点或遇到路由空洞时，s_i为空。

S1-2：智能体的动作定义为发送节点所采用的一种候选集排序结果。发送节点i采取的动作用a_i表示，在本发明中发送节点的动作空间是该节点候选集所有可能的排列顺序。例如发送节点i的候选集C_i中有3个节点，那么节点i可以采取的所以动作有|C_i|！＝3*2*1＝6种。

(3)第三种情况对应下一时刻转发节点j可以转发数据包，此时如果j是优先级最高的节点，则获取的这种情况下最大的奖励值R_max，如果j是优先级最低的节点则获取的这种情况下最大的奖励值R_mi，否则获取的奖励值根据节点j所在候选集结果中的序号以及候选集节点的个数在R_max和R_min之间呈等差数列的形式下降。

S2：深度强化学习算法模型框架如图2所示，其中包括两个深度神经网络，分别是策略网络和价值网络，具体如下：

S2-1：策略网络结构如图3所示，它由输入层、隐藏层和输出层组成，其中输入层的神经元的个数是5个，输入层和输出层中间有两个隐藏层，每个隐藏层神经元个数为20个，最后输出层的神经元个数为1。

深度神经网络为了实现非线性化，会使用非线性函数作为激活函数对每层网络计算的数据进行处理，将处理结果作为下一层网络的输入。在本发明中，使用Leaky ReLU函数作为策略网络中间层的激活函数，对于网络的输出层，先将输出的结果转置，然后使用softrmax激活函数处理得到最终输出。策略网络输的输入为t时刻的状态s_t，输出为候选集节点的优先级概率分布p_t，最后根据p_t生成候选集排序结果a_t。

S2-2：价值网络结构如图4所示，价值网络结构由输入层、隐藏层和输出层三部分组成，该网络输入层有5个神经元，有三个隐藏层，每个隐藏层有30个神经元，输出层有1个神经元，激活函数的选择和策略网络一样，使用的是Leaky ReLU函数，最后对价值网络的输出结果取平均得到当前输入状态的价值估计。价值网络的输入为t时刻的状态s_t，输出为该状态的对应的价值估计。

S3：由于训练深度强化学习算法模型的需要，水下机会路由网络模型会返回多种信息，所以首先要对这些信息进行预处理，包括数据解析和候选集信息归一化：

S3-1：因为智能体从水下机会路由网络模型获得的数据包含多种信息，所以首先要对接收到的数据进行解析，解析后会得到候选集节点信息s_t、候选集节点序号的列表Clist_f、奖励值R_t以及此时发送数据包节点的序号id_t。

S4：深度强化学习智能体与网络模型交互获取数据，采取不断试错迭代的学习方法训练并保存算法模型。深度强化学习算法执行流程如图5所示，具体步骤如下：

S4-1：智能体与水下机会路由网络模型交互收集决策序列步骤如下：

首先初始化水下机会路由网络模型，设置t＝0，智能体获取当前发送节点候选集信息s_t和对应的节点列表Clist_t。

然后将s_t进行归一化后输入到策略网络中，得到候选集节点的概率分布p_t，根据概率分布p_t和对应的节点列表Clist_t计算得到候选集排序结果a_t。

最后水下机会路由网络模型中发送节点将a_t作为候选集节点转发优先级，然后将优先级的信息添加到数据包包头中，然后广播数据包，水下机会路由网络模型根据候选集节点实际转发情况，反馈给智能体id_t+1、r_t+1、s_t+1和Clist_t+1等信息，其中id_t+1表示候选集中实际转发数据包的节点序号，r_t+1是在状态s_t时执行动作a_t转移到状态s_t+1获取的奖励，s_t+1表示转发数据包节点id_t+1的候选集信息，Clist_t+1表示s_t+1对应的候选集节点序号的列表，至此智能体得到一个决策序列O_t＝<s_t,p_t,a_t,Id_t+1,r_t+1，s_t+1>。

S4-2：智能体将决策序列O_t中的s_t、s_t+1输入到价值网络中计算得到对应状态的价值估计v_t和v_t+1，然后根据v_t、v_t+1和r_t+1计算t时刻的时序差分误差δ_t，计算公式如下：

δ_t＝r_t+1+v_t+1-v_t

L_C＝δ_t*δ_t

根据损失函数L_C计算误差值使用梯度下降算法更新价值网络的参数。

H(p,q)＝-∑_xp(x)logq(x)

S4-5：重复步骤S4-1到S4-4，深度强化学习算法参数每经过特定次数更新就保存一次算法模型，直到满足收敛条件或到达预设的最大训练次数，最终得到训练完毕的算法模型。

S5：利用训练完毕的深度强化学习算法模型对机会路由候选集节点排序，步骤如下：

首先获取t时刻水下机会路由网络模型发送节点的候选集信息s_t。

然后将s_t输入到策略网络中，将该网络输出的候选集节点优先级概率分布由大到小排列，得到候选集排序结果a_t。

接下来水下机会路由网络模型中的发送节点将候选集排序结果a_t添加到数据包包头中并广播数据包，候选集节点根据自己在a_t的中位置进行机会转发。候选集中负责转发数据包的节点将该节点的候选集信息s_t+1，传输给深度强化学习算法模型，以同样的方式得到a_t+1。

如此不断重复上述过程，最终使水下机会路由网络模型中所有发送节点的候选集排序结果都由深度强化学习算法模型给出。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种水下声学传感器网络中深度强化学习的机会路由候选集节点排序方法，其特征在于，包括以下步骤：

C_i为节点i的候选集；/>

为节点i的候选集节点j的信息，

其中，E_j代表节点j的剩余能量，D_j代表节点j的深度，/>

代表邻居节点j与节点i之间的距离，/>

一共有|C_i|行；

(1)当下一时刻转发节点j是sink节点时，此时获得R_Sink奖励；

(3)当下一时刻转发节点i可以转发数据包，此时如果j是优先级最高的节点，则获取的这种情况下最大的奖励值R_max；如果j是优先级最低的节点，则获取的这种情况下最小的奖励值R_min；否则获取的奖励值根据节点j所在候选集结果中的序号以及候选集节点的个数在R_max和R_min之间呈等差数列的形式下降；

所述的策略网络将t时刻的状态s_t作为输入，计算并输出所有候选集节点优先级的概率分布p_t，然后根据概率分布生成动作a_t；

步骤4.1：深度强化学习智能体与水下机会路由网络模型交互生成决策序列，深度强化学习智能体根据t时刻候选集节点信息s_t计算得到候选集节点转发优选级分布p_t，并且根据p_t生成候选集排序结果a_t；发送节点将排序结果添加到包头中并广播数据包，水下机会路由网络模型根据候选集节点转发情况，将id_t+1、r_t+1、s_t+1和Clist_t+1信息反馈给深度强化学习智能体；深度强化学习智能体通过上述交互方式得到决策序列O_t＝＜s_t，p_t，a_t，id_t+1，r_t+1，s_t+1>；

其中，v_t和v_i+1分别是将s_t和s_t+1输入到价值网络中得到的价值估计；价值网络的损失函数L_C为：

L_C＝δ_t*δ_t

策略网络的损失函数L_A为：

其中，|a_t|为t时刻候选集排序结果中节点的个数；y_k为根据实际候选集节点转发情况生成的节点k的标签值，在y_k中实际转发节点id_t+1对应的下标为1，其余的下标为零；