CN112929900A

CN112929900A - 水声网络中基于深度强化学习实现时域干扰对齐的mac协议

Info

Publication number: CN112929900A
Application number: CN202110081524.8A
Authority: CN
Inventors: 高振国; 赵楠; 姚念民; 卢志茂; 谭国真; 丁男; 李培华; 蔡绍滨
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-06-08
Anticipated expiration: 2041-01-21
Also published as: CN112929900B

Abstract

本发明公开了一种水声网络中基于深度强化学习实现时域干扰对齐的MAC协议，包括以下步骤：构建分时隙模型；将深度强化学习算法DQN应用到水声网络MAC协议，通过训练深度强化学习算法DQN实现时域干扰对齐；使用训练好的DQN来调度节点传输。与现有技术相比，本发明采用深度强化学习方法为节点分配时隙，使用DQN来实现时域干扰对齐，并使用训练好的DQN来调度节点传输；DQNSA‑MAC将干扰在非目的节点处对齐，并保留更多的无干扰时隙用作消息的传输和接收，从而提高吞吐量；此外，基于训练好的DQN，每个节点可以从目前的状态映射到传输动作，有效地解决了由于状态空间大而造成计算开销大的问题。综述，本发明能够提高水声网络MAC协议的吞吐量、成功传输率和公平性等。

Description

水声网络中基于深度强化学习实现时域干扰对齐的MAC协议

技术领域

本发明涉及无线传感器网络通信传输领域，特别是一种水声网络中基于深度强化学习实现时域干扰对齐的MAC协议。

背景技术

辽阔的海洋蕴藏着丰富的金属、能源和生物资源。水声网络(UANs)作为一种探索海洋世界的关键技术被应用于工业、军事和民用领域，如资源勘探和开发、军事情报和收集、海洋环境和气候研究等。要把水声网络的想法变成现实，就必须有效解决媒介接入控制协议(MAC)的问题。

由于水声网络的大传输延迟，地面无线传感器网络中的MAC协议而不能直接应用到UANs中。已经有一些研究致力减轻不可忽略的大传播延迟的不良影响。Liao,Zilong等人提出了一种水声网络中基于握手的有序调度MAC协议(HOSM)。相反，Mandar Chitre等人探索了利用传播延迟使水声网络的吞吐量远远超过没有传播延迟的网络吞吐量的可能性。但算法复杂度随着节点数量的增加呈指数增长。因此，提出的算法在计算上是不可行的。

发明内容

本发明的目的是要解决现有技术中存在的不足，提供一种能够提高吞吐量、成功传输率和公平性的水声网络中基于深度强化学习实现时域干扰对齐的MAC协议。

为达到上述目的，本发明是按照以下技术方案实施的：

一种水声网络中基于深度强化学习实现时域干扰对齐的MAC协议，包括以下步骤：

S1、构建分时隙模型D＝{t_ij|i，j∈N}；其中：

tij表示节点i和节点j之间传输消息需要的时隙个数；v_i表示节点i在网络中的位置向量，c表示水声信道的传播速度；η表示一个时隙的长度；

节点之间的最大传播延迟

用a_i(t)∈{0，1，2，...，N，-1，-2，...，-N}表示节点i在时隙t的动作；其中a_i(t)＝0表示节点i在时隙t处于空闲状态；a_i(t)＝k，当1≤k≤N时，表示节点i在时隙t向节点k传输消息，当-N≤k≤-1时，指节点i在时隙t接收来自节点k的消息；只有目标节点k在传播延迟t_ik后成功接收到消息才表明节点i发送消息传输成功：

用矩阵S(t)表示时隙t的网络状态，矩阵的行数和列数分别代表节点和时隙，矩阵中的元素代表节点的动作，T时间周期内的平均吞吐量P由S(T)中节点接收消息的数量表示：

S2、将深度强化学习算法DQN应用到水声网络MAC协议，通过训练深度强化学习算法DQN实现时域干扰对齐；

S3、使用训练好的DQN来调度节点传输。

进一步地，所述步骤S2中将深度强化学习算法DQN应用到水声网络MAC协议的必要元素包括：

智能体：网络中的节点被看作深度强化学习算法DQN中的智能体；

动作：每个时隙节点从动作集合A＝{0，1，2，...，N}中选择一个动作a_i(t)∈A，动作空间集的大小是N+1；t时隙所有节点的动作表示为a(t)；

状态：s_m(t)表示t时隙在第m-1次传输后网络的状态，在第m次传输动作a_i(t)被执行后，网络状态由S_m(t)转化为S_m+1(t)；当t时隙所有节点的动作都被执行后状态由S(t)转化为s(t+1)；状态集的大小随节点个数和时隙个数的增加呈指数增长；

奖励：节点i在时隙i和状态s_m(t)下执行动作a_i(t)，网络状态由s_m(t)转移为s_m+1(t)，然后节点得到奖励r_m+1(t)；为获得最大化网络吞吐量，用状态s_m+1(t)和状态s_m(t)中的接收消息数量只差来表示奖励：

r_m+1(t)＝H(S_m+1(t))-H(S_m(t))；

其中，H(S_m(t))表示状态S_m(t)中的接收消息数量；

策略：节点i在时隙t的策略ρ_i(t)是从状态S_m(t)映射到动作{0，1，2，...，N}上的概率质量函数，所有节点的策略表示为

值函数：V_ρ(s)表示节点采纳的策略ρ的状态值：

R(t)＝r(t+1)+γr(t+2)+γ²r(t+3)+...；

其中R(t)为累计折扣奖励，0≤γ≤1为折扣因子。

进一步地，所述步骤S2中训练深度强化学习算法DQN的过程为：在深度强化学习算法DQN中，选择动作和计算动作的Q-value都使用max操作符；用DQN1来寻找Q值最大的动作，用DQN2来估计目标Q值；DQN1和DQN2具有相同的网络结构。

进一步地，所述步骤S3中使用训练好的DQN来调度节点传输具体包括：

在每一个时隙t，网络状态被输入被训练好的DQN1，然后所有动作的Q值都会由DQN1生成，节点根据ε-greedy策略选择一个行动，然后网络状态更新。

与现有技术相比，本发明采用深度强化学习方法为节点分配时隙，使用DQN来实现时域干扰对齐，并使用训练好的DQN来调度节点传输；DQNSA-MAC将干扰在非目的节点处对齐，并保留更多的无干扰时隙用作消息的传输和接收，从而提高吞吐量；此外，基于训练好的DQN，每个节点可以从目前的状态映射到传输动作，有效地解决了由于状态空间大而造成计算开销大的问题。综述，本发明能够提高水声网络MAC协议的吞吐量、成功传输率和公平性等。

附图说明

图1为本发明的节点传播延迟示意图。

图2为本发明的时域干扰对齐示意图。

图3为仿真实例中的三种协议在不同网络流量下的数据转发成功率对比图。

图4为仿真实例中的三种协议在不同网络流量下的吞吐量对比图。

图5为仿真实例中的三种协议在不同网络流量下的公平性指标对比图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明，并不用于限定发明。

本实施例的一种水声网络中基于深度强化学习实现时域干扰对齐的MAC协议，包括以下步骤：

S1、构建分时隙模型D＝{t_ij|i，j∈N}；其中：

t_ij表示节点i和节点j之间传输消息需要的时隙个数；v_i表示节点i在网络中的位置向量，c表示水声信道的传播速度；η表示一个时隙的长度；

节点之间的最大传播延迟

将深度强化学习算法DQN应用到水声网络MAC协议的必要元素包括：

r_m+1(t)＝H(S_m+1(t))-H(S_m(t))；

其中，H(S_m(t))表示状态S_m(t)中的接收消息数量；

值函数：V_ρ(s)表示节点采纳的策略ρ的状态值：

R(t)＝r(t+1)+γr(t+2)+γ²r(t+3)+...；

其中R(t)为累计折扣奖励，0≤γ≤1为折扣因子。

在DQN中,每个智能体的目的是找到一个最大化预期累积折扣奖励的最优策略，如

所示。同样，水声网络的目标是找到一个可以最大化吞吐量的调度。因此，我们采用深度强化学习的方法来解决水声网络中的信道调度问题。

如图1所示，为各个节点之间的传播延迟。图2为节点传输实现时域干扰对齐示意图，节点A在时隙3向D发送消息，节点D在时隙4接收来自节点A消息。节点B的消息的目的地不是D，并且该消息在时隙3到达D。所以时隙3是一个被干扰的时隙。为了确保节点D可以成功接收到来自节点A的消息，节点C的消息不能在时隙4到达D，并且最好在被干扰的时隙3到达节点D，从而留下更多的无干扰时隙，因此节点C要在时隙2开始传输。上述时域干扰对准过程是通过训练DQN来实现的。

DQNSA-MAC协议适用于大规模、复杂、多变的水声网络。由于网络状态是由多用户操作决定的，所以传统的DQN在此设置中表现不佳。因此，LSTM被添加到DQN中用作维护内部状态并随着时间的推移累积观察结果。这使网络能够使用历史进程[12]来估计真实状态。这一层负责学习如何随着时间积累经验。

在DQN中，选择动作和计算动作的Q-value都使用max操作符。因此，它倾向于选择过高估计的Q值，这样会降低网络性能。Double DQN(DDQN)通过将动作选择和目标Q的计算两个步骤解耦，消除了估计过高的问题。具体来说，我们用DQN1来寻找Q值最大的动作，用DQN2来估计目标Q值。DQN1和DQN2具有相同的网络结构。

DQNSA-MAC算法的训练过程如下：

S3、使用训练好的DQN来调度节点传输；

在实时情况下，节点使用经过训练的DQN进行传输决策。在每一个时隙t，网络状态被输入被训练好的DQN1，然后所有动作的Q值都会由DQN1生成。节点根据ε-greedy策略选择一个行动，然后网络状态更新。

仿真实例

为了验证本发明的DQNSA-MAC协议的性能，进行如下仿真实验：

使用Python编程语言基于TensorFlow框架实现和模拟DQNSA-MAC协议。在DQNSA-MAC协议中，DQN包括100个单元的LSTM层。minibatch大小设置为200episode，每个episode的步长为50。折扣因子被设置为γ＝0.9。我们对这个网络进行了超过10000次的迭代训练，并且将DQNSA-MAC协议与slotted-Aloha、DPSA协议在吞吐量、消息转发成功率和公平性指数上进行比较。

消息转发成功率(SDR)是指成功接收到的消息数(M_received)与网络中生成的消息总数(M_generated)的比值，如式(10)所示。为了评估底层协议的公平性，我们采用Jain’sFairnessIndex,如式(11)所示,

其中N为网络中的节点数，x_i为节点i的吞吐量，公平性指标的取值范围为[0,1]。当公平性指数接近1时，网络公平性增加。

当节点数为10时，我们通过改变网络流量来比较这三种协议的消息转发成功率。如图3所示，DQNSA-MAC协议的数据转发成功率优于其他两种MAC协议，与Slotted-Aloha协议和DPSA协议相比，分别提高了38.9％和34.37％。随着网络流量的增加，三种协议的消息转发成功率均急剧下降。而DQNSA-MAC协议通过时域干扰对齐有效地减少了消息冲突。与DPSA协议中的严格传输条件不同，DQNSA-MAC在确保减少消息冲突的同时增加了节点传输的机会，提高了消息转发成功率。

然后，在相同设置下比较了三种协议的吞吐量。如图4所示，DQNSA-MAC的吞吐量优于其他两种MAC协议，与Slotted-Aloha协议和DPSA协议相比分别提高了55.23％和19.85％。这是因为与Slotted-Aloha算法相比，DQNSA-MAC算法允许多个节点使用同一时隙发送消息，避免消息在目标节点出发生冲突。在DPSA协议中，选择条件过于严格，导致很多节点无法传输消息，从而导致吞吐量下降。

最后对比了三种协议在相同设置下的公平性指数。如图5所示，DQNSA-MAC的公平性指标优于其他两种MAC协议，与Slotted-Aloha协议和DPSA协议相比分别提高了20.62％和10.73％。DQNSA-MAC协议的公平性指数相对较高且稳定，保持在0.9左右。这是因为在DQNSA-MAC中每个节点的目标都是最大化网络吞吐量。Slotted-Aloha由于即刻发送消息的机制，使得其公平性指标较低且不稳定。在DPSA中，节点能否传输消息取决于节点的位置和网络流量，因此DPSA协议的公平性并不理想。

仿真结果表明，在不同的流量下，DQNSA-MAC在吞吐量、成功传输率和公平性指标方面都有较好的性能。

本发明的技术方案不限于上述具体实施例的限制，凡是根据本发明的技术方案做出的技术变形，均落入本发明的保护范围之内。

Claims

1.一种水声网络中基于深度强化学习实现时域干扰对齐的MAC协议，其特征在于，包括以下步骤：

S1、构建分时隙模型D＝{t_ij|i，j∈N}；其中：

节点之间的最大传播延迟

S3、使用训练好的DQN来调度节点传输。

2.根据权利要求1所述的水声网络中基于深度强化学习实现时域干扰对齐的MAC协议，其特征在于，所述步骤S2中将深度强化学习算法DQN应用到水声网络MAC协议的必要元素包括：

r_m+1(t)＝H(S_m+1(t))-H(S_m(t))；

其中，H(S_m(t))表示状态S_m(t)中的接收消息数量；

值函数：V_ρ(s)表示节点采纳的策略ρ的状态值：

R(t)＝r(t+1)+γr(t+2)+γ²r(t+3)+...；

其中R(t)为累计折扣奖励，0≤γ≤1为折扣因子。

3.根据权利要求2所述的水声网络中基于深度强化学习实现时域干扰对齐的MAC协议，其特征在于，所述步骤S2中训练深度强化学习算法DQN的过程为：在深度强化学习算法DQN中，选择动作和计算动作的Q-value都使用max操作符；用DQN1来寻找Q值最大的动作，用DQN2来估计目标Q值；DQN1和DQN2具有相同的网络结构。

4.根据权利要求3所述的水声网络中基于深度强化学习实现时域干扰对齐的MAC协议，其特征在于，所述步骤S3中使用训练好的DQN来调度节点传输具体包括：