CN114980178A - 一种基于强化学习的分布式pd-noma水声网络通信方法及系统 - Google Patents

一种基于强化学习的分布式pd-noma水声网络通信方法及系统 Download PDF

Info

Publication number
CN114980178A
CN114980178A CN202210630724.9A CN202210630724A CN114980178A CN 114980178 A CN114980178 A CN 114980178A CN 202210630724 A CN202210630724 A CN 202210630724A CN 114980178 A CN114980178 A CN 114980178A
Authority
CN
China
Prior art keywords
node
experience
dqn
noma
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210630724.9A
Other languages
English (en)
Other versions
CN114980178B (zh
Inventor
陈漩楚
林扬
孙海信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University Malaysia Branch
Original Assignee
Xiamen University Malaysia Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University Malaysia Branch filed Critical Xiamen University Malaysia Branch
Priority to CN202210630724.9A priority Critical patent/CN114980178B/zh
Publication of CN114980178A publication Critical patent/CN114980178A/zh
Application granted granted Critical
Publication of CN114980178B publication Critical patent/CN114980178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B13/00Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
    • H04B13/02Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出了一种基于强化学习的分布式PD‑NOMA水声网络通信方法及系统,方法包括:构建节点决策框架,节点决策框架包括两个并联的DQN网络;将全体节点的当前状态分别输入到两个并联的DQN网络中,进行群体分组和功率控制的动作选择;将每个节点获得的群体分组和功率控制的结果发送至CH,CH根据预设的奖励机制回馈不同的奖励;将每个节点的“状态”、“动作”、“奖励”以及“下一状态”作为经验样本存储到经验池中;以及采用经验优选回放算法不断从经验池中抽取经验样本以训练DQN网络。节点可以自主进行分组选择、功率控制,适应水声网络动态变化,以分布式方式获得网络性能的次优解。可以提高网络通信效率,可达高吞吐量、低耗能、低时延。

Description

一种基于强化学习的分布式PD-NOMA水声网络通信方法及 系统
技术领域
本发明属于水声通信的技术领域,具体涉及一种基于强化学习的分布式PD-NOMA水声网络通信方法及系统。
背景技术
用于水下监测、数据收集的水声传感器网络(Underwater Acoustic SensorNetworks,UASN)是水下物联网的重要组成部分。大量配有声调制解调器的传感器节点被密集布放,收集数据并传输给汇聚节点。水声传感器节点的通信距离有限、能量有限,要建立系统大容量、长时间监测、高数据流量的UASN存在一定困难。高效数据采集方案是系统控制、监控、定位等众多应用的基础。
非正交多址接入(Non-Orthogonal Multiple Access,NOMA)以多用户共享传输资源的思想,成为5G大规模机器通信、第四代工业物联网和车联网的候选核心技术。利用NOMA扩展水声网络容量,提升多用户通信效率;同时设计具有自适应学习环境能力的算法,人工智能可结合强大的数据驱动模型,使得水下实体可适应复杂的动态环境,从而实现分布式通信,减少集中式控制网络导致时间延迟。
传统算法需要中心节点的集中式控制调度,掌握所有用户节点的信道状态信息,以此作为控制依据。功率控制算法的计算复杂度高,显然,这种方式对于水声网络不适用。面对时变的水声信道,集中调度导致信令开销较高、不能适应快速变化的水下环境,集中调度具有落后性。
因此,提出一种使节点可以自主进行分组选择、功率控制,适应水声网络动态变化,以分布式方式获得网络性能的次优解,设计融合智能通信策略执行的MAC协议,的基于强化学习的分布式水声PD-NOMA网络通信方法及系统尤为重要。
发明内容
本发明提出一种基于强化学习的分布式PD-NOMA水声网络通信方法及系统,以解决上述背景技术存在的缺点。
根据本发明的一个方面提出了一种基于强化学习的分布式PD-NOMA水声网络通信方法,该方法包括以下步骤:
S1、构建节点决策框架,节点决策框架包括两个并联的DQN网络;
S2、将全体节点的当前状态分别输入到两个并联的DQN网络中,进行群体分组和功率控制的动作选择;
S3、将每个节点获得的群体分组和功率控制的结果发送至CH,CH根据预设的奖励机制回馈不同的奖励;
S4、将每个节点的“状态”、“动作”、“奖励”以及“下一状态”作为经验样本存储到经验池中;以及
S5、采用经验优选回放算法不断从经验池中抽取经验样本以训练DQN网络。
通过上述技术方案,节点可以自主进行分组选择、功率控制,适应水声网络动态变化,以分布式方式获得网络性能的次优解。可以提高网络通信效率,可达高吞吐量、低耗能、低时延。进一步地,使用迁移学习,将训练好的参数模型迁移应用至新场景,可以节约前期训练的时间和能量,加快网络收敛,可实现更低的能耗和端到端时延。
在具体的实施例中,在步骤S2中,当前状态由
Figure 871567DEST_PATH_IMAGE002
个历史观察组成,
Figure 926111DEST_PATH_IMAGE004
其中,历史观察包括节点SN i在时刻t的行为选择、传输结果、误码率和数据速率,
Figure 11748DEST_PATH_IMAGE005
在具体的实施例中,在步骤S3中,预设的奖励机制具体内容如下:
Figure 784532DEST_PATH_IMAGE007
其中,
Figure 794076DEST_PATH_IMAGE009
是传输成功的节点数,
Figure 844072DEST_PATH_IMAGE011
是传输失败的节点数;
成功节点奖励
Figure 975976DEST_PATH_IMAGE013
失败节点奖励
Figure 439318DEST_PATH_IMAGE015
若全局结果为case1,则所有奖励
Figure 173925DEST_PATH_IMAGE017
总数据速率大于当前最大值或首次高于基准值,所有奖励
Figure 203061DEST_PATH_IMAGE019
若全局结果为case2,成功解码但速率不达标节点奖励
Figure 646811DEST_PATH_IMAGE021
若全局结果为case3,失败节点给予负奖励
Figure 331871DEST_PATH_IMAGE022
若全局结果为case4,失败节点给予惩罚
Figure 745534DEST_PATH_IMAGE023
以上
Figure 19390DEST_PATH_IMAGE025
均为超参数。
在具体的实施例中,在步骤S2中,将全体节点的当前状态分别输入到两个并联的DQN网络中,利用循环神经网络进行动作选择,具体包括以下子步骤:
S21、将由M个历史观察组成的二维输入状态输入至循环神经网络的门控循环单元模块;
S22、门控循环单元模块与三层全连接层相连,其中,三层全连接层的前两层激活函数为Relu,最后一层激活函数为Softmax;以及
S23、输出层利用Softmax从全局考虑输入状态更倾向于选择哪一个动作,选取并输出概率最大的动作。
在具体的实施例中,在步骤S5中采用经验优选回放算法不断从经验池中抽取经验样本以训练深度神经网络,具体包括以下子步骤:
S51、利用抽样概率从经验池中抽取E个经验样本,更新经验优选回放算法的指数 β,其中,一个经验e形式为
Figure 696359DEST_PATH_IMAGE027
表示状态,
Figure 665452DEST_PATH_IMAGE029
表示动作,
Figure 758173DEST_PATH_IMAGE031
表示奖励,
Figure 761901DEST_PATH_IMAGE033
表示下一状态;
S52、采用重要性抽样权值对抽样概率进行补偿;
S53、计算目标Q值和DQN损失值,DQN损失值的计算表达式为:
Figure 531143DEST_PATH_IMAGE035
其中,γ为折扣因子,
Figure 190794DEST_PATH_IMAGE037
为目标Q值,
Figure 211840DEST_PATH_IMAGE038
为DQN的参数,
Figure 679861DEST_PATH_IMAGE039
为目标 DQN的参数;
S54、利用随机梯度下降法更新DQN参数
Figure 698633DEST_PATH_IMAGE041
;以及
S55、对于每个经验e,重新计算时序差分偏差后,更新经验优先级。
在具体的实施例中,在步骤S2中将全体节点的当前状态分别输入到两个并联的DQN网络中,进行群体分组和功率控制的动作选择,其中,每个节点根据ε-greedy策略选择动作
Figure 642318DEST_PATH_IMAGE042
其中,
Figure 591688DEST_PATH_IMAGE044
表示动作,
Figure 507692DEST_PATH_IMAGE045
表示应每一种动作a的价值。
在具体的实施例中,在步骤S1中构建节点决策框架,还包括设置分组索引和离散功率控制系数,具体如下:
设置
Figure 228523DEST_PATH_IMAGE047
表示分组索引,分组数
Figure 800450DEST_PATH_IMAGE049
的取值范围为:
Figure 897719DEST_PATH_IMAGE051
其中,
Figure 933808DEST_PATH_IMAGE053
表示节点个数;
设置
Figure 215754DEST_PATH_IMAGE055
表示离散功率控制系数,
Figure 134031DEST_PATH_IMAGE057
是离散功率级个数;
节点SN i 在时间t采取动作
Figure 238253DEST_PATH_IMAGE058
其中
Figure 800953DEST_PATH_IMAGE059
Figure 129166DEST_PATH_IMAGE061
表示在
Figure 472423DEST_PATH_IMAGE063
时刻执行动作
Figure 567286DEST_PATH_IMAGE064
后的传输结果,s表示传输成功解码 成功且达到最低要求速率;f表示传输失败,即解码失败;o表示解码成功,但是数据速率不 满足最低要求。
在具体的实施例中,还包括MAC协议的设计,MAC协议包括以下阶段:
始化阶段,若节点SN有数据包要发送,则发送RSP给CH,CH统计短时间内所有的请求发送的节点个数;
调度阶段,CH根据请求节点个数N安排分组数NC;
数据传输阶段,为使同一分组的节点SN数据包能够同时到达接收端,采用一种延迟传输时间的并发传输机制;以及
统计阶段,当CH接收到所有节点SN的数据包,或者已经到达本轮最大等待时间,CH统计全局结果、计算性能指标,CH根据预设的奖励机制计算此轮奖励值,将奖励值加载到ACK确认包中,反馈奖励值用于节点SN训练决策网络。
根据本发明的另一方面,提出了一种基于强化学习的分布式PD-NOMA水声网络通信系统,系统包括:
节点决策模块,配置用于构建节点决策框架,节点决策框架包括两个并联的DQN网络;
动作选择模块,配置用于将全体节点的当前状态分别输入到两个并联的DQN网络中,进行群体分组和功率控制的动作选择;
奖励模块,配置用于将每个节点获得的群体分组和功率控制的结果发送至CH,CH根据预设的奖励机制回馈不同的奖励;
经验样本存储模块,配置用于将每个节点的“状态”、“动作”、“奖励”以及“下一状态”作为经验样本存储到经验池中;以及
训练DQN网络模块,配置用于采用经验优选回放算法不断从经验池中抽取经验样本以训练DQN网络。
根据本发明的第三方面,提出了一种计算机可读存储介质,介质中存储有计算机程序,在计算机程序被处理器执行时,实施如上述中任一项所述的方法。
与现有技术相比,本发明的有益成果在于:
节点可以自主进行分组选择、功率控制,适应水声网络动态变化,以分布式方式获得网络性能的次优解,并且本发明还设计了融合智能通信策略执行的MAC协议,融合强化学习的 DRL-NOMATD-MAC 协议可以提高网络通信效率,可达高吞吐量、低耗能、低时延。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本发明的一个实施例的一种基于强化学习的分布式PD-NOMA水声网络通信方法的流程图;
图2是单跳簇网络--上行链路 PD-NOMA 系统图;
图3是单节点决策框架图;
图4是用于DQN的RNN神经网络结构示意图;
图5是DRL-NOMA-TD-MAC协议流程图;
图6是DRL-NOMA-TD-MAC协议的进程状态图;
图7是一个具体实施例中短时网络性能随仿真时间变化的情况图;
图8是另一个具体实施例中短时网络性能随仿真时间变化的情况图;
图9是迁移--短时网络性能随仿真时间变化的情况图;
图10是迁移场景某一时刻网络全局性能统计图;
图11是根据本发明的一个实施例的一种基于强化学习的分布式PD-NOMA水声网络通信系统的框架图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请提供了一种种基于强化学习的分布式PD-NOMA水声网络通信方法及系统,图1示出了根据本发明的实施例的一种种基于强化学习的分布式PD-NOMA水声网络通信方法的流程图。如图1所示,该方法包括以下步骤:
S1、构建节点决策框架,节点决策框架包括两个并联的DQN网络;
S2、将全体节点的当前状态分别输入到两个并联的DQN网络中,进行群体分组和功率控制的动作选择;
S3、将每个节点获得的群体分组和功率控制的结果发送至CH,CH根据预设的奖励机制回馈不同的奖励;
S4、将每个节点的“状态”、“动作”、“奖励”以及“下一状态”作为经验样本存储到经验池中;以及
S5、采用经验优选回放算法不断从经验池中抽取经验样本以训练DQN网络。
通过上述技术方案,节点可以自主进行分组选择、功率控制,适应水声网络动态变化,以分布式方式获得网络性能的次优解。可以提高网络通信效率,可达高吞吐量、低耗能、低时延。
在具体的实施例中,在步骤S2中,当前状态由
Figure 312389DEST_PATH_IMAGE066
个历史观察组成,
Figure 811503DEST_PATH_IMAGE068
其中,历史观察包括节点SN i在时刻t的行为选择、传输结果、误码率和数据速率,
Figure 579739DEST_PATH_IMAGE070
在具体的实施例中,在步骤S3中,预设的奖励机制具体内容如下:
Figure 25764DEST_PATH_IMAGE072
其中,
Figure 687689DEST_PATH_IMAGE074
是传输成功的节点数,
Figure 482339DEST_PATH_IMAGE076
是传输失败的节点数;
成功节点奖励
Figure 800188DEST_PATH_IMAGE078
失败节点奖励
Figure 846641DEST_PATH_IMAGE080
若全局结果为case1,则所有奖励
Figure 238439DEST_PATH_IMAGE082
总数据速率大于当前最大值或首次高于基准值,所有奖励
Figure 282619DEST_PATH_IMAGE084
若全局结果为case2,成功解码但速率不达标节点奖励
Figure 150081DEST_PATH_IMAGE086
若全局结果为case3,失败节点给予负奖励
Figure 937908DEST_PATH_IMAGE088
若全局结果为case4,失败节点给予惩罚
Figure 433480DEST_PATH_IMAGE090
以上
Figure 710878DEST_PATH_IMAGE092
均 为超参数。
在具体的实施例中,在步骤S2中,将全体节点的当前状态分别输入到两个并联的DQN网络中,利用循环神经网络进行动作选择,具体包括以下子步骤:
S21、将由M个历史观察组成的二维输入状态输入至循环神经网络的门控循环单元模块;
S22、门控循环单元模块与三层全连接层相连,其中,三层全连接层的前两层激活函数为Relu,最后一层激活函数为Softmax;以及
S23、输出层利用Softmax从全局考虑输入状态更倾向于选择哪一个动作,选取并输出概率最大的动作。
在具体的实施例中,在步骤S5中采用经验优选回放算法不断从经验池中抽取经验样本以训练深度神经网络,具体包括以下子步骤:
S51、利用抽样概率从经验池中抽取E个经验样本,更新经验优选回放算法的指数 β,其中,一个经验e形式为
Figure 737740DEST_PATH_IMAGE094
Figure 266941DEST_PATH_IMAGE096
表示状态,
Figure 695648DEST_PATH_IMAGE098
表示动作,
Figure 878368DEST_PATH_IMAGE100
表示奖励,
Figure 845056DEST_PATH_IMAGE102
表 示下一状态;
S52、采用重要性抽样权值对抽样概率进行补偿;
S53、计算目标Q值和DQN损失值,DQN损失值的计算表达式为:
Figure 974686DEST_PATH_IMAGE103
其中,γ为折扣因子,
Figure 320217DEST_PATH_IMAGE105
为目标Q值,
Figure 814783DEST_PATH_IMAGE107
为DQN的参数,
Figure 816237DEST_PATH_IMAGE109
为目标DQN的 参数;
S54、利用随机梯度下降法更新DQN参数
Figure 811875DEST_PATH_IMAGE111
以及
S55、对于每个经验e,重新计算时序差分偏差后,更新经验优先级。
在具体的实施例中,在步骤S2中将全体节点的当前状态分别输入到两个并联的 DQN网络中,进行群体分组和功率控制的动作选择,其中,每个节点根据ε-greedy策略选择 动作
Figure 949595DEST_PATH_IMAGE113
其中,
Figure 129910DEST_PATH_IMAGE115
表示动作,
Figure 415397DEST_PATH_IMAGE117
表示应每一种动作
Figure 886830DEST_PATH_IMAGE118
的价值。
在具体的实施例中,在步骤S1中构建节点决策框架,还包括设置分组索引和离散功率控制系数,具体如下:
设置
Figure 82319DEST_PATH_IMAGE120
表示分组索引,分组数
Figure 246584DEST_PATH_IMAGE122
的取值范围为:
Figure 19368DEST_PATH_IMAGE124
其中,
Figure 215863DEST_PATH_IMAGE126
表示节点个数;
设置
Figure 593755DEST_PATH_IMAGE128
表示离散功率控制系数,
Figure 725659DEST_PATH_IMAGE130
是离散功率级个数;
节点SN i 在时间t采取动作
Figure 189001DEST_PATH_IMAGE132
其中
Figure 939920DEST_PATH_IMAGE134
Figure 969056DEST_PATH_IMAGE135
表示在
Figure 209544DEST_PATH_IMAGE137
时刻执行动作
Figure 347133DEST_PATH_IMAGE139
后的传输结果,s表示传输成功 解码成功且达到最低要求速率;f表示传输失败,即解码失败;o表示解码成功,但是数据速 率不满足最低要求。
在具体的实施例中,还包括MAC协议的设计,MAC协议包括以下阶段:
始化阶段,若节点SN有数据包要发送,则发送RSP给CH,CH统计短时间内所有的请求发送的节点个数;
调度阶段,CH根据请求节点个数N安排分组数NC;
数据传输阶段,为使同一分组的节点SN数据包能够同时到达接收端,采用一种延迟传输时间的并发传输机制;以及
统计阶段,当CH接收到所有节点SN的数据包,或者已经到达本轮最大等待时间,CH统计全局结果、计算性能指标,CH根据预设的奖励机制计算此轮奖励值,将奖励值加载到ACK确认包中,反馈奖励值用于节点SN训练决策网络。
以下内容具体说明本申请技术方案的开发思路,以及相应的实施例。
图2示出了单跳簇网络--上行链路 PD-NOMA 系统图,如图2所示,利用PD-NOMA对单跳网络内部通信容量进行扩展。
功率域NOMA(Power Domain NOMA, PD-NOMA)是依赖用户之间的功率差异区分用户。NOMA作为一种多址接入方式,MAC协议需要适当控制接入用户数,保证数据解码成功,保证有效吞吐量。同时,又与物理通信层面的发射功率的选择紧密相关,发射功率直接影响解码性能、可达数据速率。为了在水声网络应用PD-NOMA,用户分组、功率控制算法设计,以及MAC协议设计,组成一个水声网络跨层优化问题。
NOMA系统优化建立为跨层优化问题——在保证数据包均正确解码(MAC层吞吐量)、各节点达到最低速率要求的前提下,最优化可实现数据和率,如公式(1)。但在水声传感器网络中的节点部署后很难进行能量补充,所以在同样约束条件下,对能量利用率进行优化以节约能耗,如公式(2)。
Figure 964059DEST_PATH_IMAGE141
目标优化问题建立成如下所示的的多约束问题。
约束条件:
Figure 847702DEST_PATH_IMAGE143
C1中
Figure 462354DEST_PATH_IMAGE145
表示SN i的功率控制系数,最大允许功率P;C2表示每个用户应达到最小 数据速率要求
Figure 634709DEST_PATH_IMAGE147
C3表示同分组内成功解码应大于功率差异清晰度 ;C4表示一个用户 仅能被分给一个组;C5表示当SN i属于第j组时,
Figure 586485DEST_PATH_IMAGE149
传统算法需要中心节点的集中式控制调度,掌握所有用户节点的信道状态信息,以此作为控制依据。功率控制算法的计算复杂度高,显然,这种方式对于水声网络不适用。面对时变的水声信道,集中调度导致信令开销较高、不能适应快速变化的水下环境,集中调度具有落后性。
因此本申请提出一种基于强化学习的分布式水声PD-NOMA网络通信策略,节点可以自主进行分组选择、功率控制,适应水声网络动态变化,以分布式方式获得网络性能的次优解,并相应设计了融合智能通信策略执行的MAC协议。
构建分布式PD-NOMA网络多智能节点的学习模型。
智能体通过观察环境的特征,反复试验积累经验,从而学习最佳策略。在具体的环 境状态下,执行哪些动作才会获得最丰厚的奖励。环境状态特征
Figure 992145DEST_PATH_IMAGE151
是所有状态可 能性的集合。当前时刻t,智能体根据策略
Figure 574436DEST_PATH_IMAGE153
执行动作
Figure 296404DEST_PATH_IMAGE155
策略
Figure 927237DEST_PATH_IMAGE157
是指在当前状态 下采取动作a的概率。当执行动作
Figure 988733DEST_PATH_IMAGE159
后,智能体收到奖励
Figure 69822DEST_PATH_IMAGE161
环境过渡到下一个状态
Figure 216770DEST_PATH_IMAGE163
动作一般影响的不仅仅是即时收益,也会影响下一环境,影响随后的收益。
Q-learning算法需要遍历所有的“状态-动作”对,建立Q值表,不断迭代更新Q值。但是当面临大 “状态-动作”空间,想要遍历所有的可能性,耗费时间长且构成的Q值表十分庞大。把Q值表更新转化为函数拟合问题,深度神经网络适合用于解决此类问题,所以提出深度Q网络(Deep Q Network,DQN),利用神经网络近似动作-价值函数解决该问题。
为了详细的介绍本发明的内容,下面对一些概念进行阐述或者规定:
定义一、单节点学习框架建立
每个节点利用两个并联的DQN网络分别进行群体分组、功率控制,定义为两步DQN 算法。设置
Figure 634981DEST_PATH_IMAGE164
表示分组索引,分组数一般
Figure 613302DEST_PATH_IMAGE166
设置
Figure 802975DEST_PATH_IMAGE167
表示离散功率控制系数,
Figure 109322DEST_PATH_IMAGE169
是离散功率级个数。SN i 在时间t采取动作
Figure 472170DEST_PATH_IMAGE171
其中
Figure 242680DEST_PATH_IMAGE173
Figure 524626DEST_PATH_IMAGE175
表示在
Figure 708483DEST_PATH_IMAGE177
时刻执行动作
Figure 547126DEST_PATH_IMAGE179
后的传输结 果,s表示传输成功解码成功且达到最低要求速率;f表示传输失败,即解码失败;o表示解码 成功,但是数据速率不满足最低要求。单个时间步长内,每个SN的传输结果由CH根据所有SN 的联合行为给定,联合行为是
Figure 375404DEST_PATH_IMAGE181
(3)
SN i在时刻t的观察
Figure 703617DEST_PATH_IMAGE183
(4)
具体的,联合行为由行为选择、传输结果、误码率、数据速率组成。
利用
Figure 46874DEST_PATH_IMAGE185
个历史观察来组成状态
Figure 141738DEST_PATH_IMAGE187
(5)
由于水声信道的时变性,误码率和数据速率不断变化,当前时刻观察的可能性
Figure 886840DEST_PATH_IMAGE189
远多于
Figure 385954DEST_PATH_IMAGE191
种,状态数
Figure 154190DEST_PATH_IMAGE193
过于庞大,无法建立Q 值表,所以应用引入神经网络解决此问题。分组选择网络的输入状态
Figure 334636DEST_PATH_IMAGE195
的行为观测元素
Figure 262141DEST_PATH_IMAGE197
考虑到分组结果会影响到功率选择,所以功率系数控制网络输入状态
Figure 135419DEST_PATH_IMAGE199
中的行为观测
Figure 374639DEST_PATH_IMAGE201
即分组结果作为网络2的输入状态构成因子之一,
Figure 421093DEST_PATH_IMAGE203
每个节点根据ε-greedy策略选择动作
Figure 140787DEST_PATH_IMAGE205
ε 从εmax下降到εmin,衰减率εdecay
图3示出了单节点决策框架图,如图3所示,当收到ACK携带的奖励值
Figure 122649DEST_PATH_IMAGE207
每个节点 (即智能个体)记录
Figure 927794DEST_PATH_IMAGE209
作为经验样本,经验池收录完整的状态
Figure 512359DEST_PATH_IMAGE211
定义二、奖励函数
一般多智能体强化学习采用“集中式训练,分布式执行”的方式,但在水声通信中的能量有限,频繁上传数据信息到云计算中心用于集中训练将产生大量无效的能量耗损,所以在本算法将设计合理的奖励函数,引导智能体为获得更大收益不断更新调整自身深度网络的权重参数,产生的效果越接近优化目标,奖励越大。全体用户节点根据各自历史状态选择动作,联合采取行动后可获得簇头节点的反馈奖励。
对于优化目标
Figure 273511DEST_PATH_IMAGE213
基础奖励设置为总数 据速率
Figure 285329DEST_PATH_IMAGE215
对于优化目标
Figure 312191DEST_PATH_IMAGE217
基础奖励设置为能量利用率
Figure 841393DEST_PATH_IMAGE219
CH掌握全局结果,将其分成以下几种情况:
Figure 66837DEST_PATH_IMAGE221
其中,
Figure 452819DEST_PATH_IMAGE223
是传输成功的节点数,
Figure 153928DEST_PATH_IMAGE225
是传输失败的节点数。
针对四种情况,CH根据每个节点个体的传输选择对优化目标的贡献程度回馈不同的奖励,奖励机制具体如下:
(1)如果全局结果为case1,所有奖励
Figure 345875DEST_PATH_IMAGE227
总数据速率大于当前最大值或首次高于基准值,所有奖励
Figure 629089DEST_PATH_IMAGE229
(2)如果全局结果为case2,成功节点奖励
Figure 389234DEST_PATH_IMAGE231
失败节点奖 励
Figure 187426DEST_PATH_IMAGE233
成功解码但速率不达标节点奖励
Figure 855168DEST_PATH_IMAGE235
(3)如果全局结果为case3,失败节点给予负奖励
Figure 445418DEST_PATH_IMAGE237
(4)如果全局结果为case4,失败节点给予惩罚
Figure 235520DEST_PATH_IMAGE239
以上
Figure 458690DEST_PATH_IMAGE241
均为超参数,本文设置为
Figure 133385DEST_PATH_IMAGE243
引导多节点向优化目标不断靠近。奖励机制意在优化目标与通信质量(BER)之间取得一定 平衡。
定义三、循环神经网络
循环神经网络(Recurrent Neural Network,RNN),是一种特殊的神经网络结构,它是基于过往的记忆提出的,不仅考虑当前状态,也会对前面的信息进行“记忆”,实现全局预测功能。RNN主要是应用在自然语言处理、机器翻译、语音识别等领域。
在本申请中,每个智能节点虽只拥有本地局部信息,但循环神经网络具有从不完整信息中学习的潜能,据此一次性可从多条连续历史经验集成的信息中学习策略。图4示出了用于DQN的RNN神经网络结构示意图。如图4所示,由M个历史观察来组成二维输入状态,输入门控循环单元(Gated Recurrent Unit,GRU)模块。GRU是长短期记忆(Long and ShortTerm Memory,LSTM)网络的简化变体。GRU相对LSTM而言,构造更简单,训练效率更高。GRU模块输出的是隐藏状态“hidden”,与GRU相连的是三层全连接层,前两层的激活函数为Relu,最后一层激活函数是Softmax,最后输出的向量大小是动作数,具体的单个输出值代表该个动作的概率。输出层利用Softmax从全局考虑输入状态更倾向于选择哪一个动作,选取概率最大的动作。
定义四、经验优先回放算法
常规DQN训练网络时从经验池中均匀采样得到样本,经验池中成千上万的样本不是同等重要。有些样本的时序差分(Temporal Difference,TD)偏差大,损失函数值就大,说明当前网络预测精度低,网络提升空间大,这些样本可以让DQN快速收敛。
经验优先回放算法(Prioritized Experience Replay,PER),TD偏差越大的样本被给予更大的采样权重,说明这个样本更需要被学习,优先级越高。PER算法有以下特点:
(1)采用SumTree-树形结构数据存储器来保存优先级和经验样本,节约计算能力,方便采样。
(2)损失函数需要添加重要性采样权重消除优先回放带来的误差。
(3)训练后需要更新样本优先级,因为这时网络更新,每个样本的TD误差也需要更新,优先级储存改变。
定义五、 DQN-PER训练算法
用户通过ACK获取奖励值,记录经验 ,其中 。在PER算法中,一个树形存储器Tree的容量为C;一个新经验e被储存在SumTree,初始优先级pe=1。最小的训练批由E个从Tree中随机选取的经验构成。在回放经验时,DQN1提取的经验形式为 ;DQN2提取的经验形式为 。
训练时,为了解决时间相关性和非静态分布,采用经验回放。
一个经验e的抽样概率为
Figure 391191DEST_PATH_IMAGE245
其中指数α表示使用优先级数,如果α=0对应均匀采样。为了纠正引入优先重放导致的偏差,采用重要性抽样权值进行补偿,即
Figure 352194DEST_PATH_IMAGE247
其中
Figure 249612DEST_PATH_IMAGE248
可以从一个初始值β0开始增加到1。
由于DQN使用价值最高的动作来更新目标函数,该方式虽然可以快速然让Q值向可能优化目标靠近,但是容易导致过估计。利用Double DQN (DDQN)可以解决过估计问题。对比DQN,DDQN仅仅是改变了目标Q值的计算方式,即
Figure 524735DEST_PATH_IMAGE250
在DDQN中不是直接在目标Q网络里面寻找各动作中的最大Q值,而是先在当前Q网络中找出最大Q值对应动作,利用选择出来的动作在目标网络里面计算目标Q值。DQN损失值计算为
Figure 699365DEST_PATH_IMAGE252
随机梯度下降法更新DQN参数 。对于每个经验e,重新计算时序差分偏差TD-error
Figure 34531DEST_PATH_IMAGE254
接着,更新该经验优先级
Figure 904398DEST_PATH_IMAGE256
每学习Fupdate次后,从DQN中复制参数来更 新目标DQN参数。
本申请提供的分布式 PD-NOMA 网络两步 DQN 训练算法归纳如下。
(1)算法:分布式 PD-NOMA 网络两步 DQN 训练算法
1: 初始化每个用户节点的 DQN1, 其中 QNN1 的参数 θ1 和目标 DQN 的参数满足 . 同理可得 DQN2 参数满足 .
2: 初始化每个用户节点的经验存储器 Tree,容量为 C,每个经验初始优先级 pe= 1.
3: G, A, S0, ε, γ ,α , β0, E, Ttrain, Tlearn = 0, Ftrain, Fupdate.
4: for t = 0 : T do 5: for i = 1 : N do
6: 本地状态 S1,t 输入 SNi 的 DQN1 得到 Q1; 7: 以公式从 Q1 选择
Figure 45530DEST_PATH_IMAGE257
1,t,降低 ε;
8: 本地状态 S2,t 输入 SNi 的 DQN2 得到 Q2;
9: 以公式从 Q2 选择
Figure 277928DEST_PATH_IMAGE259
2,t,降低 ε;
10: end for
11: 全体 SN 执行动作,从 CH 得到奖励 rt+1 和传输结果;
12: for i = 1 : N do
13: 过渡到状态 St+1 , 储存经验 <St,at ,rt+1, St+1> 到 SNi 的 Tree;
14: end for
15: if (t > TTRAIN)&&(t%FTRAIN == 0) then
16: Tlearn++;
17: 执行 PER 训练 QNN 更新 QNN1-θ1
18: 执行 PER 训练 QNN 更新 QNN2-θ2
19: end if
20: if Tlearn%Fupdate == 0 then
21: 更新目标 DQN1 参数
Figure 705367DEST_PATH_IMAGE261
22: 更新目标 DQN2 参数
Figure 452743DEST_PATH_IMAGE263
23: end if
24: end for
(2)算法:PER 训练 DQN
1: 选取 E 个经验样本,更新 PER 指数 β
2: for 每个样本
Figure 69669DEST_PATH_IMAGE265
do
3: 抽样概率选取样本,计算补偿采样权重
4: 计算 target-Q,计算 L(θ)
5: 利用随机梯度下降更新 QNN 参数 θ
6: 计算 TD-error ,更新优先级 pe ← |δe|
7: end for
图5示出了DRL-NOMA-TD-MAC协议流程图,在DRL-NOMA系统中,节点能够自主选择分组,分组序号 为传播顺序,融合了DRL-NOMA的基于时间延迟的MAC协议(DRL-NOMA-TD-MAC)流程图如图5所示。
图6示出了由网络仿真器OPNET构建的DRL-NOMA-TD-MAC协议的进程状态图,如图6所示,在具体的实施例中,该DRL-NOMA-TD-MAC协议包括以下阶段:
(1)初始化阶段。如果SN有数据包要发送,发送RSP给CH(注意:上行链路传输,除了 数据包用NOMA,其余消息控制包用OMA),CH统计短时间内所有的请求发送的节点个数。一个 RSP含发送时间
Figure 94257DEST_PATH_IMAGE267
CH可以粗略推算出SN i与自身之间的传播时延
Figure 505647DEST_PATH_IMAGE269
CH维持一个节点时延表。
(2)调度阶段。CH根据请求节点个数N安排分组数NC,广播分组调度包(Group- scheduling packet,GSP),包含发送时间戳
Figure 474740DEST_PATH_IMAGE271
和分组数NC。之后CH进入等待接收 数据包状态。这里需要为CH设定一个等待数据包的最大时长
Figure 82308DEST_PATH_IMAGE273
以免由于数据 包的丢失导致CH无限期等待。
Figure 23719DEST_PATH_IMAGE275
其中
Figure 668327DEST_PATH_IMAGE277
是最大传播时延,
Figure 265661DEST_PATH_IMAGE279
Figure 224390DEST_PATH_IMAGE281
分别是ACK和数据包的传输时间,
Figure 82625DEST_PATH_IMAGE283
是保 护时间。
(3)数据传输阶段。由于水声通信传播时延长,为了使得同一分组的SN数据包能够 同时到达接收端(或者在小时间差异前后到达),采用一种延迟传输时间的并发传输机制。 当SN i收到GSP,提取其中的分组数NC,SN i将本地状态输入分组策略网络选择分组(发送 顺序)
Figure 288347DEST_PATH_IMAGE285
同时利用GSP携带的发送时间戳
Figure 169715DEST_PATH_IMAGE287
计算SN i的传播时延
Figure 994452DEST_PATH_IMAGE289
延迟发送时间为
Figure 910455DEST_PATH_IMAGE291
SN倒计时等待发送数据。发射信号前,由功率控制网络根据本地状态选定发射功 率。数据包包含数据信息和发射时间
Figure 772232DEST_PATH_IMAGE293
(4)统计阶段。当CH接收到所有SN的数据包,或者已经到达本轮最大等待时间,CH统计全局结果、计算性能指标。CH根据所设计的奖励函数计算此轮奖励,将奖励值加载到ACK确认包中,这个反馈奖励值用于SN训练其决策网络。同时,CH收集了各个SN数据包的发射时间,更新时延表。CH预估了簇内数据包传播结束时间,安排ACK发射时间,以保证SN在无邻居数据包的干扰情况下接收到ACK,具体如下:
CH掌握每个SN本轮数据包发射时间
Figure 468792DEST_PATH_IMAGE295
可计算出其传输的结束时间,即
Figure 769324DEST_PATH_IMAGE297
本轮数据包传播结束时间
Figure 461205DEST_PATH_IMAGE299
Figure 884096DEST_PATH_IMAGE301
的最大值。如果某 个SN的数据包丢失,那么其发送时间设置为
Figure 740057DEST_PATH_IMAGE303
ACK发射时间是
Figure 781962DEST_PATH_IMAGE305
是SN到CH的最小传播时延,如 果
Figure 469295DEST_PATH_IMAGE307
小于当前时刻,则立即发送ACK,否则进入倒计时。
ACK包含反馈信息和发送时间戳,SN可以获得最新时延信息和计算下一次发送时 间。第二轮开始的
Figure 771DEST_PATH_IMAGE309
即为上一轮发送ACK的时间点。
将训练好的DQN模型通过多场景的仿真对比进行性能验证,其中仿真参数设置如表1和表2所示
Figure 530978DEST_PATH_IMAGE311
Figure 173312DEST_PATH_IMAGE313
用户数与对应的场景分布以表3为准。
Figure 715152DEST_PATH_IMAGE315
表4:水声 PD-NOMA 网络分布式 MA-DRL 方案,PD-NOMA 网络集中式控制方案,OFDMA 网络 可达数据速率(ASR) 记录
Figure 355212DEST_PATH_IMAGE317
1PD-NOMA 网络分布式 MA-DRL 方案对 4-9 个节点数场景均进行了一次 2000个时间步的训练,ASR 收敛值被记录。
Figure 185765DEST_PATH_IMAGE319
方案的 ASR 与集中式 PD-NOMA 的 ASR 的百分比。
Figure 694106DEST_PATH_IMAGE321
网络用户分组情况与 PD-NOMA 系统集中式控制算法相同,同一分组中 每个用户平均占用系统带宽,用户间无干扰,为了达到最大数据速率,用户以最大发射功率 发送。
表 5: 水声 PD-NOMA 网络分布式 MA-DRL 方案,PD-NOMA 网络集中式优化ASR方案,遍历最优(次优)——能量效率(EE) 记录
Figure 480666DEST_PATH_IMAGE323
Figure 353944DEST_PATH_IMAGE324
网络分布式 MA-DRL 方案对 4-9 个节点数场景均进行了 2000 个 时间步的训练,EE 收敛值被记录。
2可达率:DRL-NOMA 方案的 EE 与遍历最优 EE 的百分比。
3遍历最优 EE:在“集中式 PD-NOMA 优化 ASR”方案的的分组情况下,寻找最优EE。
由上表可看出:在 PD-NOMA 网络中,MA-DRL 以分布式的方式可获得网络优化问题的次优解,网络性能可达到集中式最优解的 80% 以上。
在具体的实施例中,通过以下对比方案,测试本申请提供的DRL-NOMA-TD MAC协议性能。
对比方案:
基于时间延迟的 OMA 协议(OMA-TD-MAC):只要能够无碰撞接入,即认为传输成功,不考虑物理层通信系统性能。为了获得最大的可达速率,将数据包传输功率系数均设置为 1。
基于时间后退的 S-NOMA-ALOHA 协议(NOMA-TD-S-ALOHA):为了配合水声 PD-NOMA 的应用,须采取时间后退的机制。根据下式计算两功率级情况下,PD-NOMA 系统节点的传输概 率,信道最多允许两个以高低功率级发送的数据包同时接入,其中N为节点个数。
Figure 468530DEST_PATH_IMAGE326
基于时间后退的 S-ALOHA OMA 协议(OMA-TD-S-ALOHA):传统的 SALOHA 协议一般是是数据以泊松分布产生,一有数据包就在时隙开始发送,那么在这个仿真场景中,用户处于数据积压的状态,那么此时应当设定每个时隙以服从泊松分布的概率发送数据包。
图7示出了一个具体实施例中短时网络性能随仿真时间变化的情况图,如图7所示,与OMA-TD-MAC协议对比,从短时网络性能来看,经过学习,DRL-NOMA-TDMAC 协议各项性能均优于 OMA-TD-MAC 协议。
图8示出了另一个具体实施例中短时网络性能随仿真时间变化的情况图,如图8所示,NOMA-S-ALOHA 传输成功率低,直接造成平均端到端时延大,甚至远高于 OMA-TD-S-ALOHA,所以将 S-ALOHA 应用于 PD-NOMA 系统没能发挥出 NOMA 的优势,侧面体现出融合深度强化学习的时间延迟 MAC 协议的优点。
图9示出了迁移--短时网络性能随仿真时间变化的情况图,如图9所示,采用模型迁移,DRL-NOMA-TD-MAC(sim2real)协议,大约在 250s 处开始收敛。而 DRL-NOMA-TD-MAC(sim)协议经过 1000s 的训练才开始有收敛趋势。所以,使用 sim2real 大约可以节约 3/4 的学习时间。DRL-NOMA-TD-MAC(sim2real)协议的短时吞吐量可达 4.6pks/s,而 OMA-TD-MAC 协议的短时吞吐量为 2.5pks/s。
图10示出了迁移场景--某一时刻网络全局性能统计图,如图10所示,选取的 ε0值可以使得网络性能收敛的情况下,ε0越小,平均能耗和平均端到端时延就越小。截止500s,DRL-NOMA-TD-MAC(sim2real)协议的平均能耗就已经低于 OMA-TD-MAC 协议。据统计,当系统成功接收 3000个数据包,DRL-NOMA-TD-MAC(sim)协议耗能 71.28J,DRL-NOMA-TD-MAC (sim2real, ε0 = 0.3)耗能 53.83J,节约了 24.5% 的能量;此时,OMA-TD-MAC 耗能 60.98J,DRL-NOMA-TD-MAC(sim2real, ε0 = 0.3)协议节约了 11.72% 能量。
因此,融合强化学习的 DRL-NOMATD-MAC 协议可以提高网络通信效率,可达高吞吐量、低耗能、低时延。进一步地,使用迁移学习,将训练好的参数模型迁移应用至新场景,节约前期训练的时间和能量,加快网络收敛,可实现更低的能耗和端到端时延。
图11示出了根据本发明的一个实施例的一种基于强化学习的分布式PD-NOMA水声网络通信系统的框架图。该系统200包括节点决策模块210、动作选择模块220、奖励模块230、经验样本存储模块240以及训练DQN网络模块250。
节点决策模块210,配置用于构建节点决策框架,节点决策框架包括两个并联的DQN网络;
动作选择模块220,配置用于将全体节点的当前状态分别输入到两个并联的DQN网络中,进行群体分组和功率控制的动作选择;
奖励模块230,配置用于将每个节点获得的群体分组和功率控制的结果发送至CH,CH根据预设的奖励机制回馈不同的奖励;
经验样本存储模块240,配置用于将每个节点的“状态”、“动作”、“奖励”以及“下一状态”作为经验样本存储到经验池中;以及
训练DQN网络模块250,配置用于采用经验优选回放算法不断从经验池中抽取经验样本以训练DQN网络。
本发明的实施例还涉及一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上文中的方法。该计算机程序包含用于执行流程图所示的方法的程序代码。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种基于强化学习的分布式PD-NOMA水声网络通信方法,其特征在于,包括以下步骤:
S1、构建节点决策框架,所述节点决策框架包括两个并联的DQN网络;
S2、将全体节点的当前状态分别输入到所述两个并联的DQN网络中,进行群体分组和功率控制的动作选择;
S3、将每个节点获得的所述群体分组和功率控制的结果发送至CH,所述CH根据预设的奖励机制回馈不同的奖励;
S4、将每个节点的“状态”、“动作”、“奖励”以及“下一状态”作为经验样本存储到经验池中;以及
S5、采用经验优选回放算法不断从所述经验池中抽取经验样本以训练DQN网络。
2.根据权利要求1所述的基于强化学习的分布式PD-NOMA水声网络通信方法,其特征在 于,在步骤S2中,所述当前状态由
Figure 401394DEST_PATH_IMAGE002
个历史观察组成
Figure 725059DEST_PATH_IMAGE004
其中,所述历史观察包括节点SN i在时刻t的行为选择、传输结果、误码率和数据速率,
Figure 239217DEST_PATH_IMAGE006
3.据权利要求1所述的基于强化学习的分布式PD-NOMA水声网络通信方法,其特征在于,在步骤S3中,预设的奖励机制具体内容如下:
Figure 431164DEST_PATH_IMAGE008
其中,
Figure 979957DEST_PATH_IMAGE010
是传输成功的节点数,
Figure 458212DEST_PATH_IMAGE012
是传输失败的节点数;
成功节点奖励
Figure 521983DEST_PATH_IMAGE013
失败节点奖励
Figure 455304DEST_PATH_IMAGE015
若全局结果为case1,则所有奖励,
Figure 796286DEST_PATH_IMAGE017
总数据速率大于当前最大值或首次高于基准值,所有奖励
Figure 320809DEST_PATH_IMAGE019
若全局结果为case2,成功解码但速率不达标节点奖励
Figure 809559DEST_PATH_IMAGE021
若全局结果为case3,失败节点给予负奖励
Figure 467942DEST_PATH_IMAGE022
若全局结果为case4,失败节点给予惩罚
Figure 725748DEST_PATH_IMAGE023
以上
Figure 686751DEST_PATH_IMAGE025
均为超 参数。
4.根据权利要求2所述的基于强化学习的分布式PD-NOMA水声网络通信方法,其特征在于,在步骤S2中,将全体节点的当前状态分别输入到所述两个并联的DQN网络中,利用循环神经网络进行动作选择,具体包括以下子步骤:
S21、将由M个历史观察组成的二维输入状态输入至循环神经网络的门控循环单元模块;
S22、所述门控循环单元模块与三层全连接层相连,其中,所述三层全连接层的前两层激活函数为Relu,最后一层激活函数为Softmax;以及
S23、输出层利用Softmax从全局考虑输入状态更倾向于选择哪一个动作,选取并输出概率最大的动作。
5.根据权利要求1所述的基于强化学习的分布式PD-NOMA水声网络通信方法,其特征在于,在步骤S5中采用经验优选回放算法不断从所述经验池中抽取经验样本以训练深度神经网络,具体包括以下子步骤:
S51、利用抽样概率从所述经验池中抽取E个经验样本,更新经验优选回放算法的指数 β,其中,一个经验e形式为
Figure 600480DEST_PATH_IMAGE026
Figure 610024DEST_PATH_IMAGE028
表示状态,
Figure 50233DEST_PATH_IMAGE030
表示动作,
Figure 41192DEST_PATH_IMAGE032
表示奖励,
Figure 504534DEST_PATH_IMAGE033
表示 下一状态;
S52、采用重要性抽样权值对所述抽样概率进行补偿;
S53、计算目标Q值和DQN损失值,所述DQN损失值的计算表达式为:
Figure 380086DEST_PATH_IMAGE035
其中,γ为折扣因子,
Figure 284588DEST_PATH_IMAGE037
为目标Q值,
Figure 790656DEST_PATH_IMAGE039
为DQN的参数,
Figure DEST_PATH_IMAGE041
为目标DQN的参数;
S54、利用随机梯度下降法更新DQN参数
Figure DEST_PATH_IMAGE043
;以及
S55、对于每个经验e,重新计算时序差分偏差后,更新经验优先级。
6.根据权利要求1所述的基于强化学习的分布式PD-NOMA水声网络通信方法,其特征在于,在步骤S2中将全体节点的当前状态分别输入到所述两个并联的DQN网络中,进行群体分组和功率控制的动作选择,其中,所述每个节点根据ε-greedy策略选择动作
Figure DEST_PATH_IMAGE045
其中,
Figure DEST_PATH_IMAGE047
表示动作,
Figure 459404DEST_PATH_IMAGE048
表示应每一种动作
Figure 14013DEST_PATH_IMAGE050
的价值。
7.根据权利要求1所述的基于强化学习的分布式PD-NOMA水声网络通信方法,其特征在于,在步骤S1中构建节点决策框架,还包括设置分组索引和离散功率控制系数,具体如下:
设置
Figure DEST_PATH_IMAGE051
表示分组索引,分组数
Figure DEST_PATH_IMAGE053
的取值范围为
Figure 553447DEST_PATH_IMAGE055
其中,
Figure 230416DEST_PATH_IMAGE057
表示节点个数;
设置
Figure 465089DEST_PATH_IMAGE059
表示离散功率控制系数,
Figure 292230DEST_PATH_IMAGE061
是离散功率级个数;
节点SN i 在时间t采取动作
Figure DEST_PATH_IMAGE062
其中
Figure DEST_PATH_IMAGE064
Figure DEST_PATH_IMAGE066
Figure DEST_PATH_IMAGE068
表示在
Figure DEST_PATH_IMAGE070
时刻执行动作
Figure DEST_PATH_IMAGE072
后的传输结果,s表示传输成功解码成功 且达到最低要求速率;f表示传输失败,即解码失败;o表示解码成功,但是数据速率不满足 最低要求。
8.根据权利要求1所述的基于强化学习的分布式PD-NOMA水声网络通信方法,其特征在于,还包括MAC协议的设计,所述MAC协议包括以下阶段:
始化阶段,若节点SN有数据包要发送,则发送RSP给CH,所述CH统计短时间内所有的请求发送的节点个数;
调度阶段,所述CH根据请求节点个数N安排分组数NC;
数据传输阶段,为使同一分组的节点SN数据包能够同时到达接收端,采用一种延迟传输时间的并发传输机制;以及
统计阶段,当所述CH接收到所有所述节点SN的数据包,或者已经到达本轮最大等待时间,所述CH统计全局结果、计算性能指标,所述CH根据预设的奖励机制计算此轮奖励值,将所述奖励值加载到ACK确认包中,反馈所述奖励值用于所述节点SN训练决策网络。
9.一种基于强化学习的分布式PD-NOMA水声网络通信系统,其特征在于,所述系统包括:
节点决策模块,配置用于构建节点决策框架,所述节点决策框架包括两个并联的DQN网络;
动作选择模块,配置用于将全体节点的当前状态分别输入到所述两个并联的DQN网络中,进行群体分组和功率控制的动作选择;
奖励模块,配置用于将每个节点获得的所述群体分组和功率控制的结果发送至CH,所述CH根据预设的奖励机制回馈不同的奖励;
经验样本存储模块,配置用于将每个节点的“状态”、“动作”、“奖励”以及“下一状态”作为经验样本存储到经验池中;以及
训练DQN网络模块,配置用于采用经验优选回放算法不断从所述经验池中抽取经验样本以训练DQN网络。
10.一种计算机可读存储介质,所述介质中存储有计算机程序,在所述计算机程序被处理器执行时,实施如权利要求1-8中任一项所述的方法。
CN202210630724.9A 2022-06-06 2022-06-06 一种基于强化学习的分布式pd-noma水声网络通信方法及系统 Active CN114980178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210630724.9A CN114980178B (zh) 2022-06-06 2022-06-06 一种基于强化学习的分布式pd-noma水声网络通信方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210630724.9A CN114980178B (zh) 2022-06-06 2022-06-06 一种基于强化学习的分布式pd-noma水声网络通信方法及系统

Publications (2)

Publication Number Publication Date
CN114980178A true CN114980178A (zh) 2022-08-30
CN114980178B CN114980178B (zh) 2024-08-02

Family

ID=82959417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210630724.9A Active CN114980178B (zh) 2022-06-06 2022-06-06 一种基于强化学习的分布式pd-noma水声网络通信方法及系统

Country Status (1)

Country Link
CN (1) CN114980178B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115696400A (zh) * 2022-10-26 2023-02-03 重庆邮电大学 一种物理层参数的智能决策方法
CN116156228A (zh) * 2023-01-28 2023-05-23 北京邮电大学 一种码率自适应选择方法及装置
CN116419290A (zh) * 2023-05-08 2023-07-11 青岛科技大学 基于跨层设计联合深度q网络的水声通信能量优化方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165602A1 (en) * 2016-12-14 2018-06-14 Microsoft Technology Licensing, Llc Scalability of reinforcement learning by separation of concerns
US20190014488A1 (en) * 2017-07-06 2019-01-10 Futurewei Technologies, Inc. System and method for deep learning and wireless network optimization using deep learning
CN111901862A (zh) * 2020-07-07 2020-11-06 西安交通大学 一种基于深度q网络的用户分簇与功率分配方法、设备和介质
CN112929900A (zh) * 2021-01-21 2021-06-08 华侨大学 水声网络中基于深度强化学习实现时域干扰对齐的mac协议
CN113242601A (zh) * 2021-05-10 2021-08-10 黑龙江大学 一种基于优化样本采样的noma系统资源分配方法及存储介质
CN114189936A (zh) * 2021-10-30 2022-03-15 中南林业科技大学 一种基于深度强化学习的协作边缘计算任务卸载方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165602A1 (en) * 2016-12-14 2018-06-14 Microsoft Technology Licensing, Llc Scalability of reinforcement learning by separation of concerns
US20190014488A1 (en) * 2017-07-06 2019-01-10 Futurewei Technologies, Inc. System and method for deep learning and wireless network optimization using deep learning
CN111901862A (zh) * 2020-07-07 2020-11-06 西安交通大学 一种基于深度q网络的用户分簇与功率分配方法、设备和介质
CN112929900A (zh) * 2021-01-21 2021-06-08 华侨大学 水声网络中基于深度强化学习实现时域干扰对齐的mac协议
CN113242601A (zh) * 2021-05-10 2021-08-10 黑龙江大学 一种基于优化样本采样的noma系统资源分配方法及存储介质
CN114189936A (zh) * 2021-10-30 2022-03-15 中南林业科技大学 一种基于深度强化学习的协作边缘计算任务卸载方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱斐;吴文;刘全;伏玉琛;: "一种最大置信上界经验采样的深度Q网络方法", 计算机研究与发展, no. 08, 15 August 2018 (2018-08-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115696400A (zh) * 2022-10-26 2023-02-03 重庆邮电大学 一种物理层参数的智能决策方法
CN116156228A (zh) * 2023-01-28 2023-05-23 北京邮电大学 一种码率自适应选择方法及装置
CN116419290A (zh) * 2023-05-08 2023-07-11 青岛科技大学 基于跨层设计联合深度q网络的水声通信能量优化方法
CN116419290B (zh) * 2023-05-08 2023-10-27 青岛科技大学 基于跨层设计联合深度q网络的水声通信能量优化方法

Also Published As

Publication number Publication date
CN114980178B (zh) 2024-08-02

Similar Documents

Publication Publication Date Title
CN114980178B (zh) 一种基于强化学习的分布式pd-noma水声网络通信方法及系统
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN109753751B (zh) 一种基于机器学习的mec随机任务迁移方法
WO2021017227A1 (zh) 无人机轨迹优化方法、装置及存储介质
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN111010294A (zh) 一种基于深度强化学习的电力通信网路由方法
CN111367657B (zh) 一种基于深度强化学习的计算资源协同合作方法
CN111491358B (zh) 基于能量采集的自适应调制和功率控制系统与优化方法
Sun et al. Accelerating convergence of federated learning in MEC with dynamic community
CN110856268B (zh) 一种无线网络动态多信道接入方法
CN112492691B (zh) 一种深度确定性策略梯度的下行noma功率分配方法
CN114697229A (zh) 一种分布式路由规划模型的构建方法及应用
CN115099606B (zh) 一种电网调度模型的训练方法及终端
CN115277689A (zh) 一种基于分布式联邦学习的云边网络通信优化方法及系统
CN113784410A (zh) 基于强化学习td3算法的异构无线网络垂直切换方法
CN115314399B (zh) 一种基于逆强化学习的数据中心流量调度方法
CN115022231B (zh) 一种基于深度强化学习的最优路径规划的方法和系统
CN116614394A (zh) 一种基于多目标深度强化学习的服务功能链放置方法
CN114501667A (zh) 一种考虑业务优先级的多信道接入建模及分布式实现方法
CN114154685A (zh) 智能电网中电能数据调度方法
Mishra et al. Raddpg: Resource allocation in cognitive radio with deep reinforcement learning
Tan et al. Toward a task offloading framework based on cyber digital twins in mobile edge computing
Zhou et al. DRL-Based Workload Allocation for Distributed Coded Machine Learning
CN116112934A (zh) 一种基于机器学习的端到端网络切片资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant