CN112929900A - 水声网络中基于深度强化学习实现时域干扰对齐的mac协议 - Google Patents

水声网络中基于深度强化学习实现时域干扰对齐的mac协议 Download PDF

Info

Publication number
CN112929900A
CN112929900A CN202110081524.8A CN202110081524A CN112929900A CN 112929900 A CN112929900 A CN 112929900A CN 202110081524 A CN202110081524 A CN 202110081524A CN 112929900 A CN112929900 A CN 112929900A
Authority
CN
China
Prior art keywords
node
network
reinforcement learning
state
dqn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110081524.8A
Other languages
English (en)
Other versions
CN112929900B (zh
Inventor
高振国
赵楠
姚念民
卢志茂
谭国真
丁男
李培华
蔡绍滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202110081524.8A priority Critical patent/CN112929900B/zh
Publication of CN112929900A publication Critical patent/CN112929900A/zh
Application granted granted Critical
Publication of CN112929900B publication Critical patent/CN112929900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B11/00Transmission systems employing sonic, ultrasonic or infrasonic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B13/00Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
    • H04B13/02Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W80/00Wireless network protocols or protocol adaptations to wireless operation
    • H04W80/02Data link layer protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种水声网络中基于深度强化学习实现时域干扰对齐的MAC协议,包括以下步骤:构建分时隙模型;将深度强化学习算法DQN应用到水声网络MAC协议,通过训练深度强化学习算法DQN实现时域干扰对齐;使用训练好的DQN来调度节点传输。与现有技术相比,本发明采用深度强化学习方法为节点分配时隙,使用DQN来实现时域干扰对齐,并使用训练好的DQN来调度节点传输;DQNSA‑MAC将干扰在非目的节点处对齐,并保留更多的无干扰时隙用作消息的传输和接收,从而提高吞吐量;此外,基于训练好的DQN,每个节点可以从目前的状态映射到传输动作,有效地解决了由于状态空间大而造成计算开销大的问题。综述,本发明能够提高水声网络MAC协议的吞吐量、成功传输率和公平性等。

Description

水声网络中基于深度强化学习实现时域干扰对齐的MAC协议
技术领域
本发明涉及无线传感器网络通信传输领域,特别是一种水声网络中基于深度强化学习实现时域干扰对齐的MAC协议。
背景技术
辽阔的海洋蕴藏着丰富的金属、能源和生物资源。水声网络(UANs)作为一种探索海洋世界的关键技术被应用于工业、军事和民用领域,如资源勘探和开发、军事情报和收集、海洋环境和气候研究等。要把水声网络的想法变成现实,就必须有效解决媒介接入控制协议(MAC)的问题。
由于水声网络的大传输延迟,地面无线传感器网络中的MAC协议而不能直接应用到UANs中。已经有一些研究致力减轻不可忽略的大传播延迟的不良影响。Liao,Zilong等人提出了一种水声网络中基于握手的有序调度MAC协议(HOSM)。相反,Mandar Chitre等人探索了利用传播延迟使水声网络的吞吐量远远超过没有传播延迟的网络吞吐量的可能性。但算法复杂度随着节点数量的增加呈指数增长。因此,提出的算法在计算上是不可行的。
发明内容
本发明的目的是要解决现有技术中存在的不足,提供一种能够提高吞吐量、成功传输率和公平性的水声网络中基于深度强化学习实现时域干扰对齐的MAC协议。
为达到上述目的,本发明是按照以下技术方案实施的:
一种水声网络中基于深度强化学习实现时域干扰对齐的MAC协议,包括以下步骤:
S1、构建分时隙模型D={tij|i,j∈N};其中:
Figure BDA0002909298490000021
tij表示节点i和节点j之间传输消息需要的时隙个数;vi表示节点i在网络中的位置向量,c表示水声信道的传播速度;η表示一个时隙的长度;
节点之间的最大传播延迟
Figure BDA0002909298490000022
用ai(t)∈{0,1,2,...,N,-1,-2,...,-N}表示节点i在时隙t的动作;其中ai(t)=0表示节点i在时隙t处于空闲状态;ai(t)=k,当1≤k≤N时,表示节点i在时隙t向节点k传输消息,当-N≤k≤-1时,指节点i在时隙t接收来自节点k的消息;只有目标节点k在传播延迟tik后成功接收到消息才表明节点i发送消息传输成功:
Figure BDA0002909298490000023
用矩阵S(t)表示时隙t的网络状态,矩阵的行数和列数分别代表节点和时隙,矩阵中的元素代表节点的动作,T时间周期内的平均吞吐量P由S(T)中节点接收消息的数量表示:
Figure BDA0002909298490000024
S2、将深度强化学习算法DQN应用到水声网络MAC协议,通过训练深度强化学习算法DQN实现时域干扰对齐;
S3、使用训练好的DQN来调度节点传输。
进一步地,所述步骤S2中将深度强化学习算法DQN应用到水声网络MAC协议的必要元素包括:
智能体:网络中的节点被看作深度强化学习算法DQN中的智能体;
动作:每个时隙节点从动作集合A={0,1,2,...,N}中选择一个动作ai(t)∈A,动作空间集的大小是N+1;t时隙所有节点的动作表示为a(t);
状态:sm(t)表示t时隙在第m-1次传输后网络的状态,在第m次传输动作ai(t)被执行后,网络状态由Sm(t)转化为Sm+1(t);当t时隙所有节点的动作都被执行后状态由S(t)转化为s(t+1);状态集的大小随节点个数和时隙个数的增加呈指数增长;
奖励:节点i在时隙i和状态sm(t)下执行动作ai(t),网络状态由sm(t)转移为sm+1(t),然后节点得到奖励rm+1(t);为获得最大化网络吞吐量,用状态sm+1(t)和状态sm(t)中的接收消息数量只差来表示奖励:
rm+1(t)=H(Sm+1(t))-H(Sm(t));
其中,H(Sm(t))表示状态Sm(t)中的接收消息数量;
策略:节点i在时隙t的策略ρi(t)是从状态Sm(t)映射到动作{0,1,2,...,N}上的概率质量函数,所有节点的策略表示为
Figure BDA0002909298490000031
值函数:Vρ(s)表示节点采纳的策略ρ的状态值:
Figure BDA0002909298490000032
R(t)=r(t+1)+γr(t+2)+γ2r(t+3)+...;
其中R(t)为累计折扣奖励,0≤γ≤1为折扣因子。
进一步地,所述步骤S2中训练深度强化学习算法DQN的过程为:在深度强化学习算法DQN中,选择动作和计算动作的Q-value都使用max操作符;用DQN1来寻找Q值最大的动作,用DQN2来估计目标Q值;DQN1和DQN2具有相同的网络结构。
进一步地,所述步骤S3中使用训练好的DQN来调度节点传输具体包括:
在每一个时隙t,网络状态被输入被训练好的DQN1,然后所有动作的Q值都会由DQN1生成,节点根据ε-greedy策略选择一个行动,然后网络状态更新。
与现有技术相比,本发明采用深度强化学习方法为节点分配时隙,使用DQN来实现时域干扰对齐,并使用训练好的DQN来调度节点传输;DQNSA-MAC将干扰在非目的节点处对齐,并保留更多的无干扰时隙用作消息的传输和接收,从而提高吞吐量;此外,基于训练好的DQN,每个节点可以从目前的状态映射到传输动作,有效地解决了由于状态空间大而造成计算开销大的问题。综述,本发明能够提高水声网络MAC协议的吞吐量、成功传输率和公平性等。
附图说明
图1为本发明的节点传播延迟示意图。
图2为本发明的时域干扰对齐示意图。
图3为仿真实例中的三种协议在不同网络流量下的数据转发成功率对比图。
图4为仿真实例中的三种协议在不同网络流量下的吞吐量对比图。
图5为仿真实例中的三种协议在不同网络流量下的公平性指标对比图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明,并不用于限定发明。
本实施例的一种水声网络中基于深度强化学习实现时域干扰对齐的MAC协议,包括以下步骤:
S1、构建分时隙模型D={tij|i,j∈N};其中:
Figure BDA0002909298490000041
tij表示节点i和节点j之间传输消息需要的时隙个数;vi表示节点i在网络中的位置向量,c表示水声信道的传播速度;η表示一个时隙的长度;
节点之间的最大传播延迟
Figure BDA0002909298490000042
用ai(t)∈{0,1,2,...,N,-1,-2,...,-N}表示节点i在时隙t的动作;其中ai(t)=0表示节点i在时隙t处于空闲状态;ai(t)=k,当1≤k≤N时,表示节点i在时隙t向节点k传输消息,当-N≤k≤-1时,指节点i在时隙t接收来自节点k的消息;只有目标节点k在传播延迟tik后成功接收到消息才表明节点i发送消息传输成功:
Figure BDA0002909298490000051
用矩阵S(t)表示时隙t的网络状态,矩阵的行数和列数分别代表节点和时隙,矩阵中的元素代表节点的动作,T时间周期内的平均吞吐量P由S(T)中节点接收消息的数量表示:
Figure BDA0002909298490000052
S2、将深度强化学习算法DQN应用到水声网络MAC协议,通过训练深度强化学习算法DQN实现时域干扰对齐;
将深度强化学习算法DQN应用到水声网络MAC协议的必要元素包括:
智能体:网络中的节点被看作深度强化学习算法DQN中的智能体;
动作:每个时隙节点从动作集合A={0,1,2,...,N}中选择一个动作ai(t)∈A,动作空间集的大小是N+1;t时隙所有节点的动作表示为a(t);
状态:sm(t)表示t时隙在第m-1次传输后网络的状态,在第m次传输动作ai(t)被执行后,网络状态由Sm(t)转化为Sm+1(t);当t时隙所有节点的动作都被执行后状态由S(t)转化为S(t+1);状态集的大小随节点个数和时隙个数的增加呈指数增长;
奖励:节点i在时隙i和状态Sm(t)下执行动作ai(t),网络状态由Sm(t)转移为Sm+1(t),然后节点得到奖励rm+1(t);为获得最大化网络吞吐量,用状态Sm+1(t)和状态Sm(t)中的接收消息数量只差来表示奖励:
rm+1(t)=H(Sm+1(t))-H(Sm(t));
其中,H(Sm(t))表示状态Sm(t)中的接收消息数量;
策略:节点i在时隙t的策略ρi(t)是从状态Sm(t)映射到动作{0,1,2,...,N}上的概率质量函数,所有节点的策略表示为
Figure BDA0002909298490000053
值函数:Vρ(s)表示节点采纳的策略ρ的状态值:
Figure BDA0002909298490000061
R(t)=r(t+1)+γr(t+2)+γ2r(t+3)+...;
其中R(t)为累计折扣奖励,0≤γ≤1为折扣因子。
在DQN中,每个智能体的目的是找到一个最大化预期累积折扣奖励的最优策略,如
Figure BDA0002909298490000062
所示。同样,水声网络的目标是找到一个可以最大化吞吐量的调度。因此,我们采用深度强化学习的方法来解决水声网络中的信道调度问题。
如图1所示,为各个节点之间的传播延迟。图2为节点传输实现时域干扰对齐示意图,节点A在时隙3向D发送消息,节点D在时隙4接收来自节点A消息。节点B的消息的目的地不是D,并且该消息在时隙3到达D。所以时隙3是一个被干扰的时隙。为了确保节点D可以成功接收到来自节点A的消息,节点C的消息不能在时隙4到达D,并且最好在被干扰的时隙3到达节点D,从而留下更多的无干扰时隙,因此节点C要在时隙2开始传输。上述时域干扰对准过程是通过训练DQN来实现的。
DQNSA-MAC协议适用于大规模、复杂、多变的水声网络。由于网络状态是由多用户操作决定的,所以传统的DQN在此设置中表现不佳。因此,LSTM被添加到DQN中用作维护内部状态并随着时间的推移累积观察结果。这使网络能够使用历史进程[12]来估计真实状态。这一层负责学习如何随着时间积累经验。
在DQN中,选择动作和计算动作的Q-value都使用max操作符。因此,它倾向于选择过高估计的Q值,这样会降低网络性能。Double DQN(DDQN)通过将动作选择和目标Q的计算两个步骤解耦,消除了估计过高的问题。具体来说,我们用DQN1来寻找Q值最大的动作,用DQN2来估计目标Q值。DQN1和DQN2具有相同的网络结构。
DQNSA-MAC算法的训练过程如下:
Figure BDA0002909298490000071
S3、使用训练好的DQN来调度节点传输;
在实时情况下,节点使用经过训练的DQN进行传输决策。在每一个时隙t,网络状态被输入被训练好的DQN1,然后所有动作的Q值都会由DQN1生成。节点根据ε-greedy策略选择一个行动,然后网络状态更新。
仿真实例
为了验证本发明的DQNSA-MAC协议的性能,进行如下仿真实验:
使用Python编程语言基于TensorFlow框架实现和模拟DQNSA-MAC协议。在DQNSA-MAC协议中,DQN包括100个单元的LSTM层。minibatch大小设置为200episode,每个episode的步长为50。折扣因子被设置为γ=0.9。我们对这个网络进行了超过10000次的迭代训练,并且将DQNSA-MAC协议与slotted-Aloha、DPSA协议在吞吐量、消息转发成功率和公平性指数上进行比较。
消息转发成功率(SDR)是指成功接收到的消息数(Mreceived)与网络中生成的消息总数(Mgenerated)的比值,如式(10)所示。为了评估底层协议的公平性,我们采用Jain’sFairnessIndex,如式(11)所示,
Figure BDA0002909298490000081
Figure BDA0002909298490000082
其中N为网络中的节点数,xi为节点i的吞吐量,公平性指标的取值范围为[0,1]。当公平性指数接近1时,网络公平性增加。
当节点数为10时,我们通过改变网络流量来比较这三种协议的消息转发成功率。如图3所示,DQNSA-MAC协议的数据转发成功率优于其他两种MAC协议,与Slotted-Aloha协议和DPSA协议相比,分别提高了38.9%和34.37%。随着网络流量的增加,三种协议的消息转发成功率均急剧下降。而DQNSA-MAC协议通过时域干扰对齐有效地减少了消息冲突。与DPSA协议中的严格传输条件不同,DQNSA-MAC在确保减少消息冲突的同时增加了节点传输的机会,提高了消息转发成功率。
然后,在相同设置下比较了三种协议的吞吐量。如图4所示,DQNSA-MAC的吞吐量优于其他两种MAC协议,与Slotted-Aloha协议和DPSA协议相比分别提高了55.23%和19.85%。这是因为与Slotted-Aloha算法相比,DQNSA-MAC算法允许多个节点使用同一时隙发送消息,避免消息在目标节点出发生冲突。在DPSA协议中,选择条件过于严格,导致很多节点无法传输消息,从而导致吞吐量下降。
最后对比了三种协议在相同设置下的公平性指数。如图5所示,DQNSA-MAC的公平性指标优于其他两种MAC协议,与Slotted-Aloha协议和DPSA协议相比分别提高了20.62%和10.73%。DQNSA-MAC协议的公平性指数相对较高且稳定,保持在0.9左右。这是因为在DQNSA-MAC中每个节点的目标都是最大化网络吞吐量。Slotted-Aloha由于即刻发送消息的机制,使得其公平性指标较低且不稳定。在DPSA中,节点能否传输消息取决于节点的位置和网络流量,因此DPSA协议的公平性并不理想。
仿真结果表明,在不同的流量下,DQNSA-MAC在吞吐量、成功传输率和公平性指标方面都有较好的性能。
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。

Claims (4)

1.一种水声网络中基于深度强化学习实现时域干扰对齐的MAC协议,其特征在于,包括以下步骤:
S1、构建分时隙模型D={tij|i,j∈N};其中:
Figure FDA0002909298480000011
tij表示节点i和节点j之间传输消息需要的时隙个数;vi表示节点i在网络中的位置向量,c表示水声信道的传播速度;η表示一个时隙的长度;
节点之间的最大传播延迟
Figure FDA0002909298480000012
用ai(t)∈{0,1,2,...,N,-1,-2,...,-N}表示节点i在时隙t的动作;其中ai(t)=0表示节点i在时隙t处于空闲状态;ai(t)=k,当1≤k≤N时,表示节点i在时隙t向节点k传输消息,当-N≤k≤-1时,指节点i在时隙t接收来自节点k的消息;只有目标节点k在传播延迟tik后成功接收到消息才表明节点i发送消息传输成功:
Figure FDA0002909298480000013
用矩阵S(t)表示时隙t的网络状态,矩阵的行数和列数分别代表节点和时隙,矩阵中的元素代表节点的动作,T时间周期内的平均吞吐量P由S(T)中节点接收消息的数量表示:
Figure FDA0002909298480000014
S2、将深度强化学习算法DQN应用到水声网络MAC协议,通过训练深度强化学习算法DQN实现时域干扰对齐;
S3、使用训练好的DQN来调度节点传输。
2.根据权利要求1所述的水声网络中基于深度强化学习实现时域干扰对齐的MAC协议,其特征在于,所述步骤S2中将深度强化学习算法DQN应用到水声网络MAC协议的必要元素包括:
智能体:网络中的节点被看作深度强化学习算法DQN中的智能体;
动作:每个时隙节点从动作集合A={0,1,2,...,N}中选择一个动作ai(t)∈A,动作空间集的大小是N+1;t时隙所有节点的动作表示为a(t);
状态:Sm(t)表示t时隙在第m-1次传输后网络的状态,在第m次传输动作ai(t)被执行后,网络状态由Sm(t)转化为Sm+1(t);当t时隙所有节点的动作都被执行后状态由S(t)转化为S(t+1);状态集的大小随节点个数和时隙个数的增加呈指数增长;
奖励:节点i在时隙i和状态Sm(t)下执行动作ai(t),网络状态由Sm(t)转移为Sm+1(t),然后节点得到奖励rm+1(t);为获得最大化网络吞吐量,用状态Sm+1(t)和状态Sm(t)中的接收消息数量只差来表示奖励:
rm+1(t)=H(Sm+1(t))-H(Sm(t));
其中,H(Sm(t))表示状态Sm(t)中的接收消息数量;
策略:节点i在时隙t的策略ρi(t)是从状态Sm(t)映射到动作{0,1,2,...,N}上的概率质量函数,所有节点的策略表示为
Figure FDA0002909298480000021
值函数:Vρ(s)表示节点采纳的策略ρ的状态值:
Figure FDA0002909298480000022
R(t)=r(t+1)+γr(t+2)+γ2r(t+3)+...;
其中R(t)为累计折扣奖励,0≤γ≤1为折扣因子。
3.根据权利要求2所述的水声网络中基于深度强化学习实现时域干扰对齐的MAC协议,其特征在于,所述步骤S2中训练深度强化学习算法DQN的过程为:在深度强化学习算法DQN中,选择动作和计算动作的Q-value都使用max操作符;用DQN1来寻找Q值最大的动作,用DQN2来估计目标Q值;DQN1和DQN2具有相同的网络结构。
4.根据权利要求3所述的水声网络中基于深度强化学习实现时域干扰对齐的MAC协议,其特征在于,所述步骤S3中使用训练好的DQN来调度节点传输具体包括:
在每一个时隙t,网络状态被输入被训练好的DQN1,然后所有动作的Q值都会由DQN1生成,节点根据ε-greedy策略选择一个行动,然后网络状态更新。
CN202110081524.8A 2021-01-21 2021-01-21 水声网络中基于深度强化学习实现时域干扰对齐的mac协议 Active CN112929900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110081524.8A CN112929900B (zh) 2021-01-21 2021-01-21 水声网络中基于深度强化学习实现时域干扰对齐的mac协议

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110081524.8A CN112929900B (zh) 2021-01-21 2021-01-21 水声网络中基于深度强化学习实现时域干扰对齐的mac协议

Publications (2)

Publication Number Publication Date
CN112929900A true CN112929900A (zh) 2021-06-08
CN112929900B CN112929900B (zh) 2022-08-02

Family

ID=76164008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110081524.8A Active CN112929900B (zh) 2021-01-21 2021-01-21 水声网络中基于深度强化学习实现时域干扰对齐的mac协议

Country Status (1)

Country Link
CN (1) CN112929900B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666909A (zh) * 2022-04-13 2022-06-24 南华大学 基于准干扰对齐的水声网络传输数据的方法、装置及介质
CN114980178A (zh) * 2022-06-06 2022-08-30 厦门大学马来西亚分校 一种基于强化学习的分布式pd-noma水声网络通信方法及系统
CN115002824A (zh) * 2022-05-25 2022-09-02 厦门大学 基于lstm的水声网络数据实时故障检测及恢复方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITUB20155144A1 (it) * 2015-10-16 2017-04-16 Univ Degli Studi Di Roma La Sapienza Roma ?metodo per gestire in modo adattivo e congiunto la politica di istradamento e la politica di ritrasmissione di un nodo in una rete sottomarina, ed i mezzi per la sua attuazione?
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN110213025A (zh) * 2019-05-22 2019-09-06 浙江大学 基于深度强化学习的专用自组网抗干扰方法
CN110460392A (zh) * 2019-06-24 2019-11-15 高振国 一种基于时域干扰对齐的水声网络mac调度方法
CN111065145A (zh) * 2020-01-13 2020-04-24 清华大学 一种面向水下多智能体的q学习蚁群路由方法
CN111294137A (zh) * 2020-02-17 2020-06-16 华侨大学 一种水声网络中基于时域干扰对齐的多信道传输调度方法
CN111556511A (zh) * 2020-03-30 2020-08-18 西北大学 一种基于智能边缘缓存的部分机会性干扰对齐方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITUB20155144A1 (it) * 2015-10-16 2017-04-16 Univ Degli Studi Di Roma La Sapienza Roma ?metodo per gestire in modo adattivo e congiunto la politica di istradamento e la politica di ritrasmissione di un nodo in una rete sottomarina, ed i mezzi per la sua attuazione?
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN110213025A (zh) * 2019-05-22 2019-09-06 浙江大学 基于深度强化学习的专用自组网抗干扰方法
CN110460392A (zh) * 2019-06-24 2019-11-15 高振国 一种基于时域干扰对齐的水声网络mac调度方法
CN111065145A (zh) * 2020-01-13 2020-04-24 清华大学 一种面向水下多智能体的q学习蚁群路由方法
CN111294137A (zh) * 2020-02-17 2020-06-16 华侨大学 一种水声网络中基于时域干扰对齐的多信道传输调度方法
CN111556511A (zh) * 2020-03-30 2020-08-18 西北大学 一种基于智能边缘缓存的部分机会性干扰对齐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MANDAR CHITRE等: "Throughput of Networks With Large Propagation Delays", 《IEEE JOURNAL OF OCEANIC ENGINEERING》 *
XIAOWEN YE等: "Deep Reinforcement Learning Based MAC Protocol for Underwater Acoustic Networks", 《IEEE TRANSACTIONS ON MOBILE COMPUTING》 *
魏连锁等: "基于信念状态空间的水声传感器网络MAC协议", 《东北石油大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666909A (zh) * 2022-04-13 2022-06-24 南华大学 基于准干扰对齐的水声网络传输数据的方法、装置及介质
CN115002824A (zh) * 2022-05-25 2022-09-02 厦门大学 基于lstm的水声网络数据实时故障检测及恢复方法
CN114980178A (zh) * 2022-06-06 2022-08-30 厦门大学马来西亚分校 一种基于强化学习的分布式pd-noma水声网络通信方法及系统
CN114980178B (zh) * 2022-06-06 2024-08-02 厦门大学马来西亚分校 一种基于强化学习的分布式pd-noma水声网络通信方法及系统

Also Published As

Publication number Publication date
CN112929900B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN112929900B (zh) 水声网络中基于深度强化学习实现时域干扰对齐的mac协议
CN110958680B (zh) 面向能量效率的无人机群多智能体深度强化学习优化方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
US12035380B2 (en) Industrial 5G dynamic multi-priority multi-access method based on deep reinforcement learning
CN111867139A (zh) 基于q学习的深度神经网络自适应退避策略实现方法及系统
Jiang et al. Traffic prediction and random access control optimization: Learning and non-learning-based approaches
CN110336620B (zh) 一种基于mac层公平接入的ql-uacw退避方法
CN111050413B (zh) 一种基于自适应调整策略的无人机csma接入方法
CN113507328B (zh) 水声网络时隙mac协议方法、系统、装置及介质
CN113316174B (zh) 一种非授权频谱智能接入方法
CN113207127B (zh) 一种noma系统中基于分层深度强化学习的动态频谱接入方法
CN113727306A (zh) 一种基于深度强化学习的解耦c-v2x网络切片方法
CN111294137A (zh) 一种水声网络中基于时域干扰对齐的多信道传输调度方法
CN114501667A (zh) 一种考虑业务优先级的多信道接入建模及分布式实现方法
Wang et al. Energy-efficient and delay-guaranteed routing algorithm for software-defined wireless sensor networks: A cooperative deep reinforcement learning approach
Misra et al. An adaptive learning scheme for medium access with channel reservation in wireless networks
CN103634923B (zh) 公交车载网络中最大化有效传输次数的调度决策方法
Zhao et al. An Adaptive MAC Protocol Based on Time-Domain Interference Alignment for UWANs
CN113891287B (zh) 保证车联网中车辆信息年龄公平性的v2i接入方法及系统
Sangeetha et al. Analysis of Communication Protocols with Machine Learning for Smart Cities
CN118741462A (zh) 密集干扰车联网的资源管理方法及系统
Lu et al. Deep Reinforcement Learning for Multiple Access in Dynamic IoT Networks Using Bi-GRU
Park et al. Model-Based Deep Reinforcement Learning Framework for Channel Access in Wireless Networks
Swati et al. ADVANCED NUMERICAL COOPERATIVE SPECTRUM SENSING USING MAYFLY OPTIMIZATION ALGORITHM
CN118525577A (zh) 用于通信网络的分布式学习的装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant