CN114980178A - 一种基于强化学习的分布式pd-noma水声网络通信方法及系统 - Google Patents
一种基于强化学习的分布式pd-noma水声网络通信方法及系统 Download PDFInfo
- Publication number
- CN114980178A CN114980178A CN202210630724.9A CN202210630724A CN114980178A CN 114980178 A CN114980178 A CN 114980178A CN 202210630724 A CN202210630724 A CN 202210630724A CN 114980178 A CN114980178 A CN 114980178A
- Authority
- CN
- China
- Prior art keywords
- node
- experience
- dqn
- noma
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 39
- 206010042135 Stomatitis necrotising Diseases 0.000 title claims abstract description 32
- 201000008585 noma Diseases 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000002787 reinforcement Effects 0.000 title claims abstract description 24
- 230000009471 action Effects 0.000 claims abstract description 58
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 230000005540 biological transmission Effects 0.000 claims description 57
- 230000006870 function Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 16
- 108700026140 MAC combination Proteins 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 18
- 238000005265 energy consumption Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 14
- 238000004088 simulation Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 7
- 238000013508 migration Methods 0.000 description 5
- 230000005012 migration Effects 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 230000015654 memory Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000854291 Dianthus carthusianorum Species 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B13/00—Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
- H04B13/02—Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提出了一种基于强化学习的分布式PD‑NOMA水声网络通信方法及系统,方法包括:构建节点决策框架,节点决策框架包括两个并联的DQN网络;将全体节点的当前状态分别输入到两个并联的DQN网络中,进行群体分组和功率控制的动作选择;将每个节点获得的群体分组和功率控制的结果发送至CH,CH根据预设的奖励机制回馈不同的奖励;将每个节点的“状态”、“动作”、“奖励”以及“下一状态”作为经验样本存储到经验池中;以及采用经验优选回放算法不断从经验池中抽取经验样本以训练DQN网络。节点可以自主进行分组选择、功率控制,适应水声网络动态变化,以分布式方式获得网络性能的次优解。可以提高网络通信效率,可达高吞吐量、低耗能、低时延。
Description
技术领域
本发明属于水声通信的技术领域,具体涉及一种基于强化学习的分布式PD-NOMA水声网络通信方法及系统。
背景技术
用于水下监测、数据收集的水声传感器网络(Underwater Acoustic SensorNetworks,UASN)是水下物联网的重要组成部分。大量配有声调制解调器的传感器节点被密集布放,收集数据并传输给汇聚节点。水声传感器节点的通信距离有限、能量有限,要建立系统大容量、长时间监测、高数据流量的UASN存在一定困难。高效数据采集方案是系统控制、监控、定位等众多应用的基础。
非正交多址接入(Non-Orthogonal Multiple Access,NOMA)以多用户共享传输资源的思想,成为5G大规模机器通信、第四代工业物联网和车联网的候选核心技术。利用NOMA扩展水声网络容量,提升多用户通信效率;同时设计具有自适应学习环境能力的算法,人工智能可结合强大的数据驱动模型,使得水下实体可适应复杂的动态环境,从而实现分布式通信,减少集中式控制网络导致时间延迟。
传统算法需要中心节点的集中式控制调度,掌握所有用户节点的信道状态信息,以此作为控制依据。功率控制算法的计算复杂度高,显然,这种方式对于水声网络不适用。面对时变的水声信道,集中调度导致信令开销较高、不能适应快速变化的水下环境,集中调度具有落后性。
因此,提出一种使节点可以自主进行分组选择、功率控制,适应水声网络动态变化,以分布式方式获得网络性能的次优解,设计融合智能通信策略执行的MAC协议,的基于强化学习的分布式水声PD-NOMA网络通信方法及系统尤为重要。
发明内容
本发明提出一种基于强化学习的分布式PD-NOMA水声网络通信方法及系统,以解决上述背景技术存在的缺点。
根据本发明的一个方面提出了一种基于强化学习的分布式PD-NOMA水声网络通信方法,该方法包括以下步骤:
S1、构建节点决策框架,节点决策框架包括两个并联的DQN网络;
S2、将全体节点的当前状态分别输入到两个并联的DQN网络中,进行群体分组和功率控制的动作选择;
S3、将每个节点获得的群体分组和功率控制的结果发送至CH,CH根据预设的奖励机制回馈不同的奖励;
S4、将每个节点的“状态”、“动作”、“奖励”以及“下一状态”作为经验样本存储到经验池中;以及
S5、采用经验优选回放算法不断从经验池中抽取经验样本以训练DQN网络。
通过上述技术方案,节点可以自主进行分组选择、功率控制,适应水声网络动态变化,以分布式方式获得网络性能的次优解。可以提高网络通信效率,可达高吞吐量、低耗能、低时延。进一步地,使用迁移学习,将训练好的参数模型迁移应用至新场景,可以节约前期训练的时间和能量,加快网络收敛,可实现更低的能耗和端到端时延。
在具体的实施例中,在步骤S3中,预设的奖励机制具体内容如下:
在具体的实施例中,在步骤S2中,将全体节点的当前状态分别输入到两个并联的DQN网络中,利用循环神经网络进行动作选择,具体包括以下子步骤:
S21、将由M个历史观察组成的二维输入状态输入至循环神经网络的门控循环单元模块;
S22、门控循环单元模块与三层全连接层相连,其中,三层全连接层的前两层激活函数为Relu,最后一层激活函数为Softmax;以及
S23、输出层利用Softmax从全局考虑输入状态更倾向于选择哪一个动作,选取并输出概率最大的动作。
在具体的实施例中,在步骤S5中采用经验优选回放算法不断从经验池中抽取经验样本以训练深度神经网络,具体包括以下子步骤:
S52、采用重要性抽样权值对抽样概率进行补偿;
S53、计算目标Q值和DQN损失值,DQN损失值的计算表达式为:
S55、对于每个经验e,重新计算时序差分偏差后,更新经验优先级。
在具体的实施例中,在步骤S2中将全体节点的当前状态分别输入到两个并联的DQN网络中,进行群体分组和功率控制的动作选择,其中,每个节点根据ε-greedy策略选择动作
在具体的实施例中,在步骤S1中构建节点决策框架,还包括设置分组索引和离散功率控制系数,具体如下:
在具体的实施例中,还包括MAC协议的设计,MAC协议包括以下阶段:
始化阶段,若节点SN有数据包要发送,则发送RSP给CH,CH统计短时间内所有的请求发送的节点个数;
调度阶段,CH根据请求节点个数N安排分组数NC;
数据传输阶段,为使同一分组的节点SN数据包能够同时到达接收端,采用一种延迟传输时间的并发传输机制;以及
统计阶段,当CH接收到所有节点SN的数据包,或者已经到达本轮最大等待时间,CH统计全局结果、计算性能指标,CH根据预设的奖励机制计算此轮奖励值,将奖励值加载到ACK确认包中,反馈奖励值用于节点SN训练决策网络。
根据本发明的另一方面,提出了一种基于强化学习的分布式PD-NOMA水声网络通信系统,系统包括:
节点决策模块,配置用于构建节点决策框架,节点决策框架包括两个并联的DQN网络;
动作选择模块,配置用于将全体节点的当前状态分别输入到两个并联的DQN网络中,进行群体分组和功率控制的动作选择;
奖励模块,配置用于将每个节点获得的群体分组和功率控制的结果发送至CH,CH根据预设的奖励机制回馈不同的奖励;
经验样本存储模块,配置用于将每个节点的“状态”、“动作”、“奖励”以及“下一状态”作为经验样本存储到经验池中;以及
训练DQN网络模块,配置用于采用经验优选回放算法不断从经验池中抽取经验样本以训练DQN网络。
根据本发明的第三方面,提出了一种计算机可读存储介质,介质中存储有计算机程序,在计算机程序被处理器执行时,实施如上述中任一项所述的方法。
与现有技术相比,本发明的有益成果在于:
节点可以自主进行分组选择、功率控制,适应水声网络动态变化,以分布式方式获得网络性能的次优解,并且本发明还设计了融合智能通信策略执行的MAC协议,融合强化学习的 DRL-NOMATD-MAC 协议可以提高网络通信效率,可达高吞吐量、低耗能、低时延。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本发明的一个实施例的一种基于强化学习的分布式PD-NOMA水声网络通信方法的流程图;
图2是单跳簇网络--上行链路 PD-NOMA 系统图;
图3是单节点决策框架图;
图4是用于DQN的RNN神经网络结构示意图;
图5是DRL-NOMA-TD-MAC协议流程图;
图6是DRL-NOMA-TD-MAC协议的进程状态图;
图7是一个具体实施例中短时网络性能随仿真时间变化的情况图;
图8是另一个具体实施例中短时网络性能随仿真时间变化的情况图;
图9是迁移--短时网络性能随仿真时间变化的情况图;
图10是迁移场景某一时刻网络全局性能统计图;
图11是根据本发明的一个实施例的一种基于强化学习的分布式PD-NOMA水声网络通信系统的框架图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请提供了一种种基于强化学习的分布式PD-NOMA水声网络通信方法及系统,图1示出了根据本发明的实施例的一种种基于强化学习的分布式PD-NOMA水声网络通信方法的流程图。如图1所示,该方法包括以下步骤:
S1、构建节点决策框架,节点决策框架包括两个并联的DQN网络;
S2、将全体节点的当前状态分别输入到两个并联的DQN网络中,进行群体分组和功率控制的动作选择;
S3、将每个节点获得的群体分组和功率控制的结果发送至CH,CH根据预设的奖励机制回馈不同的奖励;
S4、将每个节点的“状态”、“动作”、“奖励”以及“下一状态”作为经验样本存储到经验池中;以及
S5、采用经验优选回放算法不断从经验池中抽取经验样本以训练DQN网络。
通过上述技术方案,节点可以自主进行分组选择、功率控制,适应水声网络动态变化,以分布式方式获得网络性能的次优解。可以提高网络通信效率,可达高吞吐量、低耗能、低时延。
在具体的实施例中,在步骤S3中,预设的奖励机制具体内容如下:
在具体的实施例中,在步骤S2中,将全体节点的当前状态分别输入到两个并联的DQN网络中,利用循环神经网络进行动作选择,具体包括以下子步骤:
S21、将由M个历史观察组成的二维输入状态输入至循环神经网络的门控循环单元模块;
S22、门控循环单元模块与三层全连接层相连,其中,三层全连接层的前两层激活函数为Relu,最后一层激活函数为Softmax;以及
S23、输出层利用Softmax从全局考虑输入状态更倾向于选择哪一个动作,选取并输出概率最大的动作。
在具体的实施例中,在步骤S5中采用经验优选回放算法不断从经验池中抽取经验样本以训练深度神经网络,具体包括以下子步骤:
S52、采用重要性抽样权值对抽样概率进行补偿;
S53、计算目标Q值和DQN损失值,DQN损失值的计算表达式为:
S55、对于每个经验e,重新计算时序差分偏差后,更新经验优先级。
在具体的实施例中,在步骤S1中构建节点决策框架,还包括设置分组索引和离散功率控制系数,具体如下:
在具体的实施例中,还包括MAC协议的设计,MAC协议包括以下阶段:
始化阶段,若节点SN有数据包要发送,则发送RSP给CH,CH统计短时间内所有的请求发送的节点个数;
调度阶段,CH根据请求节点个数N安排分组数NC;
数据传输阶段,为使同一分组的节点SN数据包能够同时到达接收端,采用一种延迟传输时间的并发传输机制;以及
统计阶段,当CH接收到所有节点SN的数据包,或者已经到达本轮最大等待时间,CH统计全局结果、计算性能指标,CH根据预设的奖励机制计算此轮奖励值,将奖励值加载到ACK确认包中,反馈奖励值用于节点SN训练决策网络。
以下内容具体说明本申请技术方案的开发思路,以及相应的实施例。
图2示出了单跳簇网络--上行链路 PD-NOMA 系统图,如图2所示,利用PD-NOMA对单跳网络内部通信容量进行扩展。
功率域NOMA(Power Domain NOMA, PD-NOMA)是依赖用户之间的功率差异区分用户。NOMA作为一种多址接入方式,MAC协议需要适当控制接入用户数,保证数据解码成功,保证有效吞吐量。同时,又与物理通信层面的发射功率的选择紧密相关,发射功率直接影响解码性能、可达数据速率。为了在水声网络应用PD-NOMA,用户分组、功率控制算法设计,以及MAC协议设计,组成一个水声网络跨层优化问题。
NOMA系统优化建立为跨层优化问题——在保证数据包均正确解码(MAC层吞吐量)、各节点达到最低速率要求的前提下,最优化可实现数据和率,如公式(1)。但在水声传感器网络中的节点部署后很难进行能量补充,所以在同样约束条件下,对能量利用率进行优化以节约能耗,如公式(2)。
目标优化问题建立成如下所示的的多约束问题。
约束条件:
C1中 表示SN i的功率控制系数,最大允许功率P;C2表示每个用户应达到最小
数据速率要求 C3表示同分组内成功解码应大于功率差异清晰度 ;C4表示一个用户
仅能被分给一个组;C5表示当SN i属于第j组时,
传统算法需要中心节点的集中式控制调度,掌握所有用户节点的信道状态信息,以此作为控制依据。功率控制算法的计算复杂度高,显然,这种方式对于水声网络不适用。面对时变的水声信道,集中调度导致信令开销较高、不能适应快速变化的水下环境,集中调度具有落后性。
因此本申请提出一种基于强化学习的分布式水声PD-NOMA网络通信策略,节点可以自主进行分组选择、功率控制,适应水声网络动态变化,以分布式方式获得网络性能的次优解,并相应设计了融合智能通信策略执行的MAC协议。
构建分布式PD-NOMA网络多智能节点的学习模型。
智能体通过观察环境的特征,反复试验积累经验,从而学习最佳策略。在具体的环
境状态下,执行哪些动作才会获得最丰厚的奖励。环境状态特征是所有状态可
能性的集合。当前时刻t,智能体根据策略执行动作策略是指在当前状态
下采取动作a的概率。当执行动作后,智能体收到奖励环境过渡到下一个状态动作一般影响的不仅仅是即时收益,也会影响下一环境,影响随后的收益。
Q-learning算法需要遍历所有的“状态-动作”对,建立Q值表,不断迭代更新Q值。但是当面临大 “状态-动作”空间,想要遍历所有的可能性,耗费时间长且构成的Q值表十分庞大。把Q值表更新转化为函数拟合问题,深度神经网络适合用于解决此类问题,所以提出深度Q网络(Deep Q Network,DQN),利用神经网络近似动作-价值函数解决该问题。
为了详细的介绍本发明的内容,下面对一些概念进行阐述或者规定:
定义一、单节点学习框架建立
每个节点利用两个并联的DQN网络分别进行群体分组、功率控制,定义为两步DQN
算法。设置 表示分组索引,分组数一般设置 表示离散功率控制系数, 是离散功率级个数。SN i 在时间t采取动作其中 表示在时刻执行动作后的传输结
果,s表示传输成功解码成功且达到最低要求速率;f表示传输失败,即解码失败;o表示解码
成功,但是数据速率不满足最低要求。单个时间步长内,每个SN的传输结果由CH根据所有SN
的联合行为给定,联合行为是
SN i在时刻t的观察
具体的,联合行为由行为选择、传输结果、误码率、数据速率组成。
由于水声信道的时变性,误码率和数据速率不断变化,当前时刻观察的可能性远多于 种,状态数过于庞大,无法建立Q
值表,所以应用引入神经网络解决此问题。分组选择网络的输入状态的行为观测元素考虑到分组结果会影响到功率选择,所以功率系数控制网络输入状态
中的行为观测即分组结果作为网络2的输入状态构成因子之一,
每个节点根据ε-greedy策略选择动作
ε 从εmax下降到εmin,衰减率εdecay
定义二、奖励函数
一般多智能体强化学习采用“集中式训练,分布式执行”的方式,但在水声通信中的能量有限,频繁上传数据信息到云计算中心用于集中训练将产生大量无效的能量耗损,所以在本算法将设计合理的奖励函数,引导智能体为获得更大收益不断更新调整自身深度网络的权重参数,产生的效果越接近优化目标,奖励越大。全体用户节点根据各自历史状态选择动作,联合采取行动后可获得簇头节点的反馈奖励。
CH掌握全局结果,将其分成以下几种情况:
针对四种情况,CH根据每个节点个体的传输选择对优化目标的贡献程度回馈不同的奖励,奖励机制具体如下:
定义三、循环神经网络
循环神经网络(Recurrent Neural Network,RNN),是一种特殊的神经网络结构,它是基于过往的记忆提出的,不仅考虑当前状态,也会对前面的信息进行“记忆”,实现全局预测功能。RNN主要是应用在自然语言处理、机器翻译、语音识别等领域。
在本申请中,每个智能节点虽只拥有本地局部信息,但循环神经网络具有从不完整信息中学习的潜能,据此一次性可从多条连续历史经验集成的信息中学习策略。图4示出了用于DQN的RNN神经网络结构示意图。如图4所示,由M个历史观察来组成二维输入状态,输入门控循环单元(Gated Recurrent Unit,GRU)模块。GRU是长短期记忆(Long and ShortTerm Memory,LSTM)网络的简化变体。GRU相对LSTM而言,构造更简单,训练效率更高。GRU模块输出的是隐藏状态“hidden”,与GRU相连的是三层全连接层,前两层的激活函数为Relu,最后一层激活函数是Softmax,最后输出的向量大小是动作数,具体的单个输出值代表该个动作的概率。输出层利用Softmax从全局考虑输入状态更倾向于选择哪一个动作,选取概率最大的动作。
定义四、经验优先回放算法
常规DQN训练网络时从经验池中均匀采样得到样本,经验池中成千上万的样本不是同等重要。有些样本的时序差分(Temporal Difference,TD)偏差大,损失函数值就大,说明当前网络预测精度低,网络提升空间大,这些样本可以让DQN快速收敛。
经验优先回放算法(Prioritized Experience Replay,PER),TD偏差越大的样本被给予更大的采样权重,说明这个样本更需要被学习,优先级越高。PER算法有以下特点:
(1)采用SumTree-树形结构数据存储器来保存优先级和经验样本,节约计算能力,方便采样。
(2)损失函数需要添加重要性采样权重消除优先回放带来的误差。
(3)训练后需要更新样本优先级,因为这时网络更新,每个样本的TD误差也需要更新,优先级储存改变。
定义五、 DQN-PER训练算法
用户通过ACK获取奖励值,记录经验 ,其中 。在PER算法中,一个树形存储器Tree的容量为C;一个新经验e被储存在SumTree,初始优先级pe=1。最小的训练批由E个从Tree中随机选取的经验构成。在回放经验时,DQN1提取的经验形式为 ;DQN2提取的经验形式为 。
训练时,为了解决时间相关性和非静态分布,采用经验回放。
一个经验e的抽样概率为
其中指数α表示使用优先级数,如果α=0对应均匀采样。为了纠正引入优先重放导致的偏差,采用重要性抽样权值进行补偿,即
由于DQN使用价值最高的动作来更新目标函数,该方式虽然可以快速然让Q值向可能优化目标靠近,但是容易导致过估计。利用Double DQN (DDQN)可以解决过估计问题。对比DQN,DDQN仅仅是改变了目标Q值的计算方式,即
在DDQN中不是直接在目标Q网络里面寻找各动作中的最大Q值,而是先在当前Q网络中找出最大Q值对应动作,利用选择出来的动作在目标网络里面计算目标Q值。DQN损失值计算为
随机梯度下降法更新DQN参数 。对于每个经验e,重新计算时序差分偏差TD-error
本申请提供的分布式 PD-NOMA 网络两步 DQN 训练算法归纳如下。
(1)算法:分布式 PD-NOMA 网络两步 DQN 训练算法
1: 初始化每个用户节点的 DQN1, 其中 QNN1 的参数 θ1 和目标 DQN 的参数满足 . 同理可得 DQN2 参数满足 .
2: 初始化每个用户节点的经验存储器 Tree,容量为 C,每个经验初始优先级 pe= 1.
3: G, A, S0, ε, γ ,α , β0, E, Ttrain, Tlearn = 0, Ftrain, Fupdate.
4: for t = 0 : T do 5: for i = 1 : N do
8: 本地状态 S2,t 输入 SNi 的 DQN2 得到 Q2;
10: end for
11: 全体 SN 执行动作,从 CH 得到奖励 rt+1 和传输结果;
12: for i = 1 : N do
13: 过渡到状态 St+1 , 储存经验 <St,at ,rt+1, St+1> 到 SNi 的 Tree;
14: end for
15: if (t > TTRAIN)&&(t%FTRAIN == 0) then
16: Tlearn++;
17: 执行 PER 训练 QNN 更新 QNN1-θ1
18: 执行 PER 训练 QNN 更新 QNN2-θ2
19: end if
20: if Tlearn%Fupdate == 0 then
23: end if
24: end for
(2)算法:PER 训练 DQN
1: 选取 E 个经验样本,更新 PER 指数 β
3: 抽样概率选取样本,计算补偿采样权重
4: 计算 target-Q,计算 L(θ)
5: 利用随机梯度下降更新 QNN 参数 θ
6: 计算 TD-error ,更新优先级 pe ← |δe|
7: end for
图5示出了DRL-NOMA-TD-MAC协议流程图,在DRL-NOMA系统中,节点能够自主选择分组,分组序号 为传播顺序,融合了DRL-NOMA的基于时间延迟的MAC协议(DRL-NOMA-TD-MAC)流程图如图5所示。
图6示出了由网络仿真器OPNET构建的DRL-NOMA-TD-MAC协议的进程状态图,如图6所示,在具体的实施例中,该DRL-NOMA-TD-MAC协议包括以下阶段:
(1)初始化阶段。如果SN有数据包要发送,发送RSP给CH(注意:上行链路传输,除了
数据包用NOMA,其余消息控制包用OMA),CH统计短时间内所有的请求发送的节点个数。一个
RSP含发送时间 CH可以粗略推算出SN i与自身之间的传播时延CH维持一个节点时延表。
(2)调度阶段。CH根据请求节点个数N安排分组数NC,广播分组调度包(Group-
scheduling packet,GSP),包含发送时间戳 和分组数NC。之后CH进入等待接收
数据包状态。这里需要为CH设定一个等待数据包的最大时长以免由于数据
包的丢失导致CH无限期等待。
(3)数据传输阶段。由于水声通信传播时延长,为了使得同一分组的SN数据包能够
同时到达接收端(或者在小时间差异前后到达),采用一种延迟传输时间的并发传输机制。
当SN i收到GSP,提取其中的分组数NC,SN i将本地状态输入分组策略网络选择分组(发送
顺序)同时利用GSP携带的发送时间戳 计算SN i的传播时延 延迟发送时间为
(4)统计阶段。当CH接收到所有SN的数据包,或者已经到达本轮最大等待时间,CH统计全局结果、计算性能指标。CH根据所设计的奖励函数计算此轮奖励,将奖励值加载到ACK确认包中,这个反馈奖励值用于SN训练其决策网络。同时,CH收集了各个SN数据包的发射时间,更新时延表。CH预估了簇内数据包传播结束时间,安排ACK发射时间,以保证SN在无邻居数据包的干扰情况下接收到ACK,具体如下:
将训练好的DQN模型通过多场景的仿真对比进行性能验证,其中仿真参数设置如表1和表2所示
用户数与对应的场景分布以表3为准。
表4:水声 PD-NOMA 网络分布式 MA-DRL 方案,PD-NOMA 网络集中式控制方案,OFDMA 网络 可达数据速率(ASR) 记录
1PD-NOMA 网络分布式 MA-DRL 方案对 4-9 个节点数场景均进行了一次 2000个时间步的训练,ASR 收敛值被记录。
表 5: 水声 PD-NOMA 网络分布式 MA-DRL 方案,PD-NOMA 网络集中式优化ASR方案,遍历最优(次优)——能量效率(EE) 记录
2可达率:DRL-NOMA 方案的 EE 与遍历最优 EE 的百分比。
3遍历最优 EE:在“集中式 PD-NOMA 优化 ASR”方案的的分组情况下,寻找最优EE。
由上表可看出:在 PD-NOMA 网络中,MA-DRL 以分布式的方式可获得网络优化问题的次优解,网络性能可达到集中式最优解的 80% 以上。
在具体的实施例中,通过以下对比方案,测试本申请提供的DRL-NOMA-TD MAC协议性能。
对比方案:
基于时间延迟的 OMA 协议(OMA-TD-MAC):只要能够无碰撞接入,即认为传输成功,不考虑物理层通信系统性能。为了获得最大的可达速率,将数据包传输功率系数均设置为 1。
基于时间后退的 S-NOMA-ALOHA 协议(NOMA-TD-S-ALOHA):为了配合水声 PD-NOMA 的应用,须采取时间后退的机制。根据下式计算两功率级情况下,PD-NOMA 系统节点的传输概 率,信道最多允许两个以高低功率级发送的数据包同时接入,其中N为节点个数。
基于时间后退的 S-ALOHA OMA 协议(OMA-TD-S-ALOHA):传统的 SALOHA 协议一般是是数据以泊松分布产生,一有数据包就在时隙开始发送,那么在这个仿真场景中,用户处于数据积压的状态,那么此时应当设定每个时隙以服从泊松分布的概率发送数据包。
图7示出了一个具体实施例中短时网络性能随仿真时间变化的情况图,如图7所示,与OMA-TD-MAC协议对比,从短时网络性能来看,经过学习,DRL-NOMA-TDMAC 协议各项性能均优于 OMA-TD-MAC 协议。
图8示出了另一个具体实施例中短时网络性能随仿真时间变化的情况图,如图8所示,NOMA-S-ALOHA 传输成功率低,直接造成平均端到端时延大,甚至远高于 OMA-TD-S-ALOHA,所以将 S-ALOHA 应用于 PD-NOMA 系统没能发挥出 NOMA 的优势,侧面体现出融合深度强化学习的时间延迟 MAC 协议的优点。
图9示出了迁移--短时网络性能随仿真时间变化的情况图,如图9所示,采用模型迁移,DRL-NOMA-TD-MAC(sim2real)协议,大约在 250s 处开始收敛。而 DRL-NOMA-TD-MAC(sim)协议经过 1000s 的训练才开始有收敛趋势。所以,使用 sim2real 大约可以节约 3/4 的学习时间。DRL-NOMA-TD-MAC(sim2real)协议的短时吞吐量可达 4.6pks/s,而 OMA-TD-MAC 协议的短时吞吐量为 2.5pks/s。
图10示出了迁移场景--某一时刻网络全局性能统计图,如图10所示,选取的 ε0值可以使得网络性能收敛的情况下,ε0越小,平均能耗和平均端到端时延就越小。截止500s,DRL-NOMA-TD-MAC(sim2real)协议的平均能耗就已经低于 OMA-TD-MAC 协议。据统计,当系统成功接收 3000个数据包,DRL-NOMA-TD-MAC(sim)协议耗能 71.28J,DRL-NOMA-TD-MAC (sim2real, ε0 = 0.3)耗能 53.83J,节约了 24.5% 的能量;此时,OMA-TD-MAC 耗能 60.98J,DRL-NOMA-TD-MAC(sim2real, ε0 = 0.3)协议节约了 11.72% 能量。
因此,融合强化学习的 DRL-NOMATD-MAC 协议可以提高网络通信效率,可达高吞吐量、低耗能、低时延。进一步地,使用迁移学习,将训练好的参数模型迁移应用至新场景,节约前期训练的时间和能量,加快网络收敛,可实现更低的能耗和端到端时延。
图11示出了根据本发明的一个实施例的一种基于强化学习的分布式PD-NOMA水声网络通信系统的框架图。该系统200包括节点决策模块210、动作选择模块220、奖励模块230、经验样本存储模块240以及训练DQN网络模块250。
节点决策模块210,配置用于构建节点决策框架,节点决策框架包括两个并联的DQN网络;
动作选择模块220,配置用于将全体节点的当前状态分别输入到两个并联的DQN网络中,进行群体分组和功率控制的动作选择;
奖励模块230,配置用于将每个节点获得的群体分组和功率控制的结果发送至CH,CH根据预设的奖励机制回馈不同的奖励;
经验样本存储模块240,配置用于将每个节点的“状态”、“动作”、“奖励”以及“下一状态”作为经验样本存储到经验池中;以及
训练DQN网络模块250,配置用于采用经验优选回放算法不断从经验池中抽取经验样本以训练DQN网络。
本发明的实施例还涉及一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上文中的方法。该计算机程序包含用于执行流程图所示的方法的程序代码。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种基于强化学习的分布式PD-NOMA水声网络通信方法,其特征在于,包括以下步骤:
S1、构建节点决策框架,所述节点决策框架包括两个并联的DQN网络;
S2、将全体节点的当前状态分别输入到所述两个并联的DQN网络中,进行群体分组和功率控制的动作选择;
S3、将每个节点获得的所述群体分组和功率控制的结果发送至CH,所述CH根据预设的奖励机制回馈不同的奖励;
S4、将每个节点的“状态”、“动作”、“奖励”以及“下一状态”作为经验样本存储到经验池中;以及
S5、采用经验优选回放算法不断从所述经验池中抽取经验样本以训练DQN网络。
4.根据权利要求2所述的基于强化学习的分布式PD-NOMA水声网络通信方法,其特征在于,在步骤S2中,将全体节点的当前状态分别输入到所述两个并联的DQN网络中,利用循环神经网络进行动作选择,具体包括以下子步骤:
S21、将由M个历史观察组成的二维输入状态输入至循环神经网络的门控循环单元模块;
S22、所述门控循环单元模块与三层全连接层相连,其中,所述三层全连接层的前两层激活函数为Relu,最后一层激活函数为Softmax;以及
S23、输出层利用Softmax从全局考虑输入状态更倾向于选择哪一个动作,选取并输出概率最大的动作。
5.根据权利要求1所述的基于强化学习的分布式PD-NOMA水声网络通信方法,其特征在于,在步骤S5中采用经验优选回放算法不断从所述经验池中抽取经验样本以训练深度神经网络,具体包括以下子步骤:
S52、采用重要性抽样权值对所述抽样概率进行补偿;
S53、计算目标Q值和DQN损失值,所述DQN损失值的计算表达式为:
S55、对于每个经验e,重新计算时序差分偏差后,更新经验优先级。
8.根据权利要求1所述的基于强化学习的分布式PD-NOMA水声网络通信方法,其特征在于,还包括MAC协议的设计,所述MAC协议包括以下阶段:
始化阶段,若节点SN有数据包要发送,则发送RSP给CH,所述CH统计短时间内所有的请求发送的节点个数;
调度阶段,所述CH根据请求节点个数N安排分组数NC;
数据传输阶段,为使同一分组的节点SN数据包能够同时到达接收端,采用一种延迟传输时间的并发传输机制;以及
统计阶段,当所述CH接收到所有所述节点SN的数据包,或者已经到达本轮最大等待时间,所述CH统计全局结果、计算性能指标,所述CH根据预设的奖励机制计算此轮奖励值,将所述奖励值加载到ACK确认包中,反馈所述奖励值用于所述节点SN训练决策网络。
9.一种基于强化学习的分布式PD-NOMA水声网络通信系统,其特征在于,所述系统包括:
节点决策模块,配置用于构建节点决策框架,所述节点决策框架包括两个并联的DQN网络;
动作选择模块,配置用于将全体节点的当前状态分别输入到所述两个并联的DQN网络中,进行群体分组和功率控制的动作选择;
奖励模块,配置用于将每个节点获得的所述群体分组和功率控制的结果发送至CH,所述CH根据预设的奖励机制回馈不同的奖励;
经验样本存储模块,配置用于将每个节点的“状态”、“动作”、“奖励”以及“下一状态”作为经验样本存储到经验池中;以及
训练DQN网络模块,配置用于采用经验优选回放算法不断从所述经验池中抽取经验样本以训练DQN网络。
10.一种计算机可读存储介质,所述介质中存储有计算机程序,在所述计算机程序被处理器执行时,实施如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210630724.9A CN114980178B (zh) | 2022-06-06 | 2022-06-06 | 一种基于强化学习的分布式pd-noma水声网络通信方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210630724.9A CN114980178B (zh) | 2022-06-06 | 2022-06-06 | 一种基于强化学习的分布式pd-noma水声网络通信方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114980178A true CN114980178A (zh) | 2022-08-30 |
CN114980178B CN114980178B (zh) | 2024-08-02 |
Family
ID=82959417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210630724.9A Active CN114980178B (zh) | 2022-06-06 | 2022-06-06 | 一种基于强化学习的分布式pd-noma水声网络通信方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114980178B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115696400A (zh) * | 2022-10-26 | 2023-02-03 | 重庆邮电大学 | 一种物理层参数的智能决策方法 |
CN116156228A (zh) * | 2023-01-28 | 2023-05-23 | 北京邮电大学 | 一种码率自适应选择方法及装置 |
CN116419290A (zh) * | 2023-05-08 | 2023-07-11 | 青岛科技大学 | 基于跨层设计联合深度q网络的水声通信能量优化方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165602A1 (en) * | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Scalability of reinforcement learning by separation of concerns |
US20190014488A1 (en) * | 2017-07-06 | 2019-01-10 | Futurewei Technologies, Inc. | System and method for deep learning and wireless network optimization using deep learning |
CN111901862A (zh) * | 2020-07-07 | 2020-11-06 | 西安交通大学 | 一种基于深度q网络的用户分簇与功率分配方法、设备和介质 |
CN112929900A (zh) * | 2021-01-21 | 2021-06-08 | 华侨大学 | 水声网络中基于深度强化学习实现时域干扰对齐的mac协议 |
CN113242601A (zh) * | 2021-05-10 | 2021-08-10 | 黑龙江大学 | 一种基于优化样本采样的noma系统资源分配方法及存储介质 |
CN114189936A (zh) * | 2021-10-30 | 2022-03-15 | 中南林业科技大学 | 一种基于深度强化学习的协作边缘计算任务卸载方法 |
-
2022
- 2022-06-06 CN CN202210630724.9A patent/CN114980178B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165602A1 (en) * | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Scalability of reinforcement learning by separation of concerns |
US20190014488A1 (en) * | 2017-07-06 | 2019-01-10 | Futurewei Technologies, Inc. | System and method for deep learning and wireless network optimization using deep learning |
CN111901862A (zh) * | 2020-07-07 | 2020-11-06 | 西安交通大学 | 一种基于深度q网络的用户分簇与功率分配方法、设备和介质 |
CN112929900A (zh) * | 2021-01-21 | 2021-06-08 | 华侨大学 | 水声网络中基于深度强化学习实现时域干扰对齐的mac协议 |
CN113242601A (zh) * | 2021-05-10 | 2021-08-10 | 黑龙江大学 | 一种基于优化样本采样的noma系统资源分配方法及存储介质 |
CN114189936A (zh) * | 2021-10-30 | 2022-03-15 | 中南林业科技大学 | 一种基于深度强化学习的协作边缘计算任务卸载方法 |
Non-Patent Citations (1)
Title |
---|
朱斐;吴文;刘全;伏玉琛;: "一种最大置信上界经验采样的深度Q网络方法", 计算机研究与发展, no. 08, 15 August 2018 (2018-08-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115696400A (zh) * | 2022-10-26 | 2023-02-03 | 重庆邮电大学 | 一种物理层参数的智能决策方法 |
CN116156228A (zh) * | 2023-01-28 | 2023-05-23 | 北京邮电大学 | 一种码率自适应选择方法及装置 |
CN116419290A (zh) * | 2023-05-08 | 2023-07-11 | 青岛科技大学 | 基于跨层设计联合深度q网络的水声通信能量优化方法 |
CN116419290B (zh) * | 2023-05-08 | 2023-10-27 | 青岛科技大学 | 基于跨层设计联合深度q网络的水声通信能量优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114980178B (zh) | 2024-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114980178B (zh) | 一种基于强化学习的分布式pd-noma水声网络通信方法及系统 | |
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
CN110809306B (zh) | 一种基于深度强化学习的终端接入选择方法 | |
CN109753751B (zh) | 一种基于机器学习的mec随机任务迁移方法 | |
WO2021017227A1 (zh) | 无人机轨迹优化方法、装置及存储介质 | |
CN113543176B (zh) | 基于智能反射面辅助的移动边缘计算系统的卸载决策方法 | |
CN111010294A (zh) | 一种基于深度强化学习的电力通信网路由方法 | |
CN111367657B (zh) | 一种基于深度强化学习的计算资源协同合作方法 | |
CN111491358B (zh) | 基于能量采集的自适应调制和功率控制系统与优化方法 | |
Sun et al. | Accelerating convergence of federated learning in MEC with dynamic community | |
CN110856268B (zh) | 一种无线网络动态多信道接入方法 | |
CN112492691B (zh) | 一种深度确定性策略梯度的下行noma功率分配方法 | |
CN114697229A (zh) | 一种分布式路由规划模型的构建方法及应用 | |
CN115099606B (zh) | 一种电网调度模型的训练方法及终端 | |
CN115277689A (zh) | 一种基于分布式联邦学习的云边网络通信优化方法及系统 | |
CN113784410A (zh) | 基于强化学习td3算法的异构无线网络垂直切换方法 | |
CN115314399B (zh) | 一种基于逆强化学习的数据中心流量调度方法 | |
CN115022231B (zh) | 一种基于深度强化学习的最优路径规划的方法和系统 | |
CN116614394A (zh) | 一种基于多目标深度强化学习的服务功能链放置方法 | |
CN114501667A (zh) | 一种考虑业务优先级的多信道接入建模及分布式实现方法 | |
CN114154685A (zh) | 智能电网中电能数据调度方法 | |
Mishra et al. | Raddpg: Resource allocation in cognitive radio with deep reinforcement learning | |
Tan et al. | Toward a task offloading framework based on cyber digital twins in mobile edge computing | |
Zhou et al. | DRL-Based Workload Allocation for Distributed Coded Machine Learning | |
CN116112934A (zh) | 一种基于机器学习的端到端网络切片资源分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |