CN111628855A - 基于深度强化学习的工业5g动态多优先级多接入方法 - Google Patents
基于深度强化学习的工业5g动态多优先级多接入方法 Download PDFInfo
- Publication number
- CN111628855A CN111628855A CN202010385640.4A CN202010385640A CN111628855A CN 111628855 A CN111628855 A CN 111628855A CN 202010385640 A CN202010385640 A CN 202010385640A CN 111628855 A CN111628855 A CN 111628855A
- Authority
- CN
- China
- Prior art keywords
- industrial
- neural network
- terminal
- priority
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W74/00—Wireless channel access, e.g. scheduled or random access
- H04W74/08—Non-scheduled or contention based access, e.g. random access, ALOHA, CSMA [Carrier Sense Multiple Access]
- H04W74/0866—Non-scheduled or contention based access, e.g. random access, ALOHA, CSMA [Carrier Sense Multiple Access] using a dedicated channel for access
- H04W74/0875—Non-scheduled or contention based access, e.g. random access, ALOHA, CSMA [Carrier Sense Multiple Access] using a dedicated channel for access with assigned priorities based access
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L5/00—Arrangements affording multiple use of the transmission path
- H04L5/003—Arrangements for allocating sub-channels of the transmission path
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W74/00—Wireless channel access, e.g. scheduled or random access
- H04W74/002—Transmission of channel access control information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L5/00—Arrangements affording multiple use of the transmission path
- H04L5/003—Arrangements for allocating sub-channels of the transmission path
- H04L5/0037—Inter-user or inter-terminal allocation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及工业5G网络技术,具体地说,是基于深度强化学习的工业5G动态多优先级多接入方法,包括以下步骤:建立工业5G网络模型;建立基于深度强化学习的动态多优先级多信道接入神经网络模型;采集工业5G网络内全部工业5G终端多个时隙的状态、动作、奖励信息作为训练数据;使用采集的数据训练神经网络模型,直至丢包率和端到端时延满足工业通信要求;收集当前时隙工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,进行多优先级信道分配,工业5G终端根据信道分配结果进行多接入。本发明能够高效、实时地对工业5G网络内不同优先级的工业5G终端进行多信道分配,确保大规模并发接入。
Description
技术领域
本发明提供基于深度强化学习的工业5G网络动态多优先级多信道接入方法,针对工业5G网络中大规模分布式工业5G终端并发通信以及高可靠低时延通信(Ultra-Reliableand Low Latency Communication,URLLC)要求,考虑海量工业数据传输对实时性、可靠性要求各异所造成的传统方法建模难和算法状态空间爆炸的问题,特别涉及工业5G终端的丢包率和端到端时延约束,属于工业5G网络技术领域。
背景技术
随着工业4.0的发展,大量的分布式工业5G终端互联互通,产生了海量的具有不同实时性、可靠性传输要求的数据。为实现灵活可定制的智能制造过程,分布式工业5G终端间使用工业无线网络实现数据通信。实时性、可靠性是数据通信最重要的服务质量要求,工业5G网络以其高可靠低时延和大规模机器间通信的性能保证,成为工业无线网络的通信使能技术。
多信道接入允许工业5G终端的大规模并发接入,能够有效地提高频谱利用效率,然而传统的多信道接入算法一般是基于已知的系统模型的,对于大规模机器间通信的工业场景,工业5G终端数量和数据是时变的,难以获得准确的系统模型。数据传输的高可靠低时延是工业通信中最重要的服务质量要求,工业5G终端产生的数据对于传输的实时性、可靠性的要求是时变的,然而传统工业生产过程中终端的优先级一般是恒定的,难以保证海量的时变的数据的实时性、可靠性传输要求。
对于大规模的工业5G终端动态多优先级多信道接入,不仅难以获得准确的系统模型,而且会造成算法的状态空间爆炸。深度强化学习,能够利用深度学习估计系统模型,结合强化学习求解动态多优先级多信道接入,有效地解决了系统模型建模难和状态空间爆炸问题。
发明内容
为实现上述发明目的,本发明的目的在于针对工业5G网络中大规模分布式工业5G终端并发通信以及高可靠低时延通信要求,考虑海量工业数据传输对实时性、可靠性要求各异所造成的传统方法建模难和算法状态空间爆炸的问题,提供基于深度强化学习的工业5G网络动态多优先级多接入方法,实现特定丢包率和端到端时延约束下的工业5G终端的动态多优先级多接入。
对于大规模的工业5G终端动态多优先级多信道接入,不仅难以获得准确的系统模型,而且会造成算法的状态空间爆炸。深度强化学习,能够利用深度学习估计系统模型,结合强化学习求解动态多优先级多信道接入,有效地解决了系统模型建模难和状态空间爆炸问题。
本发明采用如下技术方案:基于深度强化学习的工业5G动态多优先级多接入方法,对于工业5G网络,通过训练神经网络模型实现信道分配,包括以下步骤:
1)建立基于深度强化学习的动态多优先级多信道接入神经网络模型;
2)采集工业5G网络内全部工业5G终端T个时隙的状态、动作、奖励信息作为训练数据,训练神经网络模型;
3)收集当前时隙工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,通过神经网络模型进行多优先级信道分配,工业5G终端根据信道分配结果进行多接入。
所述工业5G网络包括:1台工业5G基站,1台边缘计算服务器,以及N个工业5G终端;
所述边缘计算服务器,与工业5G基站相连,用于训练深度强化学习神经网络模型;
所述工业5G基站,从边缘计算服务器下载训练后的神经网络模型,用于调度工业5G终端的动态多优先级的多信道接入;
所述工业5G终端,与工业5G基站通过工业5G网络连接,用于产生不同传输要求的工业数据。
对于工业5G网络,建立工业5G网络模型,包括:确定工业5G网络覆盖范围及其范围内工业5G终端数量N、工业5G终端优先级数P以及信道数C。
所述建立基于深度强化学习的动态多优先级多信道接入神经网络模型,如下:
构建q-eval深度神经网络和q-next深度神经网络两个结构相同的神经网络模型,神经网络参数params=[xin,xrnn,xfc,xout,w,b],其中,xin表示输入层神经元个数,并等于工业5G终端n(n∈N)的状态向量sn长度,N表示工业5G终端个数,xrnn表示循环神经网络层神经元个数,xfc表示全连接层神经元个数,xout表示输出层神经元个数并等于工业5G终端n的动作向量an长度,w表示权重,b表示偏置;
其中,q-eval深度神经网络用于获得工业5G终端n当前状态向量sn的动作向量an的估值函数Q(sn,an);q-next神经网络模型用于选择工业5G终端n的下一个状态向量s'n的最大动作向量a'n的估值函数
q-next深度神经网络的初始化参数与q-eval深度神经网络的初始化参数相同,q-eval深度神经网络的参数w、b每次迭代训练神经网络模型后进行更新,q-next深度神经网络的参数w、b每迭代训练神经网络模型I次后更新一次。
所述训练数据,包括:
工业5G终端n在时隙t(t∈T)的状态向量sn(t)=[cn(t)、ackn(t),pn(t),cf(t)],其中cn(t)表示工业5G终端n在时隙t开始时选择的信道c(c∈C),ackn(t)表示工业5G终端n在时隙t结束时数据是否发送成功,pn(t)表示工业5G终端n在时隙t的优先级p(p∈P),cf(t)表示时隙t所有信道c的占用率;
工业5G终端n在时隙t的奖励向量rn(t)=[rn(t)],其中rn(t)表示工业5G终端n在时隙t结束时获得的奖励。
所述训练神经网络模型,包括以下步骤:
(1)将工业5G终端n时隙t的状态向量sn(t)=[cn(t),ackn(t),pn(t),cf(t)]输入q-eval深度神经网络;
(3)根据动作向量an(t)获得奖励rn(t)和观测on(t);
(4)根据工业5G终端n时隙t的状态向量sn(t)和动作向量an(t),获得工业5G终端n下一时隙t+1的状态向量s'n(t+1),存储<sn(t),an(t),rn(t),s'n(t+1)>作为经验池经验,每个时隙的<sn(t),an(t),rn(t),s'n(t+1)>作为一个经验;
(6)从经验池中使用经验回放法随机抽取M个经验,计算每个经验的Qtarget和并根据均方误差损失函数和梯度下降更新q-eval深度神经网络参数w、b,其中η表示神经网络学习速率,θ(t)表示时隙t的神经网络超参数;
(7)重复迭代I次q-eval深度神经网络后,复制q-eval深度神经网络参数w、b给q-next深度神经网络;
(8)重复迭代(1)-(7)直至均方误差损失函数收敛,此时得到的q-eval深度神经网络作为训练后的神经网络模型。
得到训练的神经网络模型后,对该神经网络模型进行优化:
收集工业5G网络内全部工业5G终端的历史时隙的状态信息,通过该神经网络模型得到多优先级信道分配结果;当该分配结果的网络性能符合要求时,即丢包率、系统全局丢包率、端对端时延均小于对应的网络性能指标,则该神经网络模型作为最终的训练后的神经网络模型,用于进行最终的多优先级信道分配;
否则,重复步骤1)-2),直到神经网络模型符合要求为止。
所述网络性能指标包括:
丢包率其中表示在时隙t信道c是否被分配给工业5G终端n;与工业5G终端n优先级p相关;表示时隙t开始时工业5G终端n在信道c上准备传输的数据包数量,表示时隙t结束时工业5G终端n在信道c上成功传输的数据包数量;
端到端时延定义为其中定义为工业5G终端n的传播时延,即电磁波从一个工业5G终端发送端到另一个工业5G终端接收端所经历的时延;定义为工业5G终端n的传输时延,即从数据包的第一个比特被发送到最后一个比特被发送所经历的时延;定义为工业5G终端n的排队时延,即数据包到达工业5G终端到离开工业5G终端所经历的时延;dhw定义为硬件时延,即工业5G终端的硬件性能造成的时延。
所述收集当前工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,通过神经网络模型进行多优先级信道分配,包括以下步骤:
根据得到的输出动作向量,工业基站调度工业5G终端接入信道。
基于深度强化学习的工业5G动态多优先级多接入系统,包括:
边缘计算服务器,用于建立基于深度强化学习的动态多优先级多信道接入神经网络模型并训练;
工业5G终端,用于产生不同传输要求的工业数据,收集终端的状态信息、动作信息、奖励信息;
工业5G基站,用于下载训练后的神经网络模型,并将工业5G终端的状态信息作为该神经网络模型输入,通过该神经网络模型进行多优先级信道分配。
本发明具有以下有益效果及优点:
1、本发明针对工业5G的高可靠低时延通信需求,将工业5G终端数据传输要求的实时性、可靠性的时变性映射为工业5G终端的动态优先级,使用基于深度强化学习的动态多优先级多信道接入算法解决了工业5G网络中大量的分布式工业5G终端间通信以及海量的实时性、可靠性要求各异的数据造成的传统方法建模难和算法状态空间爆炸的问题,有效地保证了高实时数据的可靠传输和不同优先级的工业5G终端之间的信道接入分配。
2、本发明具有较强的通用性和实用性,能够自适应地处理工业5G终端、信道变化,能够有效地保证工业5G终端的动态多优先级多接入,实现特定丢包率和端到端时延约束下的稳定传输,提高系统安全性和稳定性。
附图说明
图1是本发明方法流程图;
图2是系统模型图;
图3是深度强化学习架构图。
具体实施方式
下面结合附图对本发明进行详细说明。
本发明涉及工业5G网络技术,包括以下步骤:建立工业5G网络模型,确定工业5G终端数量、优先级以及信道数;建立基于深度强化学习的动态多优先级多信道接入神经网络模型,并初始化模型参数;采集工业5G网络内全部工业5G终端多个时隙的状态、动作、奖励信息作为训练数据;使用采集的数据训练神经网络模型,直至丢包率和端到端时延满足工业通信要求;收集当前时隙工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,进行多优先级信道分配,工业5G终端根据信道分配结果进行多接入。本发明针对工业5G网络中大规模分布式工业5G终端并发通信以及高可靠低时延通信要求,发明了基于深度强化学习的动态多优先级多信道接入算法。该方法充分考虑海量工业数据传输对实时性、可靠性要求各异所造成的传统方法建模难和算法状态空间爆炸的问题,能够高效、实时地对不同优先级的工业5G终端进行多信道分配,确保大规模并发接入。
本发明主要包括以下实现过程,如图1,包括以下步骤:
步骤1:建立工业5G网络模型,确定工业5G终端数量、优先级以及信道数;
步骤2:建立基于深度强化学习的动态多优先级多信道接入神经网络模型,并初始化模型参数;
步骤3:采集工业5G网络内全部工业5G终端T个时隙的状态、动作、奖励信息作为训练数据;
步骤4:使用采集的训练数据训练神经网络模型,直至丢包率和端到端时延满足工业通信要求;
步骤5:收集当前时隙工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,进行多优先级信道分配,工业5G终端根据信道分配结果进行多接入。
该实施例是按照如图1所示的流程实施的,具体步骤如下:
1、建立工业5G网络模型,如图2,确定工业5G终端数量、优先级以及信道数:
(1)工业5G网络包括:1台工业5G基站,1台边缘计算服务器,以及N个工业5G终端;其中,边缘计算服务器与工业5G基站相连,用于训练深度强化学习神经网络模型;工业5G基站从边缘计算服务器下载更新训练的神经网络模型,用于调度动态多用户优先级的多信道接入;工业5G终端,与工业5G基站通过工业5G网络连接,用于产生不同传输要求的工业数据;
(2)确定工业5G网络覆盖范围及其范围内工业5G终端数量N、工业5G终端优先级数P以及信道数C。其中,优先级p与传输数据的实时性、可靠性相关,实时性、可靠性传输要求越高,工业5G终端优先级越高。工业5G网络模型主要包括两类情况:工业设备数量N小于信道数C,工业设备数量N大于等于信道数C。
2、建立基于深度强化学习的动态多优先级多信道接入神经网络模型,并初始化模型参数,如图3,包括以下步骤:
(1)建立基于深度强化学习的动态多优先级多信道接入神经网络模型,包括输入层、循环神经网络(Recurrent Neural Network,RNN)层,全连接层,输出层;
(2)初始化深度神经网络参数params=[xin,xrnn,xfc,xout,w,b],其中,xin表示输入层神经元个数,并等于工业5G终端n(n∈N)的状态向量sn长度,N表示工业5G终端个数,xrnn表示循环神经网络层神经元个数,xfc表示全连接层神经元个数,xout表示输出层神经元个数并等于工业5G终端n的动作向量an长度,w表示权重,b表示偏置;
(3)构建q-eval和q-next两个结构相同的深度神经网络,其中:q-eval深度神经网络用于获得工业5G终端n(n∈N)当前状态向量sn的动作向量an的估值函数Q(sn,an);q-next深度神经网络通过选择工业5G终端n的下一个状态向量s'n的最大动作向量a'n的估值函数利用强化学习更新q-eval深度神经网络参数。其中,α表示学习速率,γ表示折扣比例,rn表示工业5G终端n在当前状态sn执行动作向量an获得的奖励。q-next深度神经网络的初始化参数与q-eval深度神经网络相同,q-eval深度神经网络的参数w、b每次迭代训练神经网络模型后进行更新,q-next深度神经网络的参数w、b每迭代训练神经网络模型I次后更新一次。
3、采集工业5G网络内全部工业5G终端T个时隙的状态、动作、奖励信息作为训练数据包括:
(1)工业5G终端n(n∈N)在时隙t(t∈T)的状态向量sn(t)=[cn(t),ackn(t),pn(t),cf(t)],其中cn(t)表示工业5G终端n在时隙t时选择的信道,大小为C+1的向量Vc,即当工业5G终端n选择信道c时,Vc的第c+1个值为1,其余值为0,当工业5G终端n选择不发送时,Vc的第0个值为1,其余值为0;ackn(t)表示工业5G终端n在时隙t结束数据是否发送成功,如果ackn(t)=0,表示工业5G终端n在时隙t发送数据失败;如果ackn(t)=1,表示工业5G终端n在时隙t发送数据成功;ackn(t)从观测on(t)获取;pn(t)表示工业5G终端n在时隙t的优先级,由工业5G终端n在时隙t要发送的数据的实时性和可靠性要求决定,数据的实时性和可靠性要求越高,pn(t)值越小,优先级越高;cf(t)表示时隙t所有信道c的占用率,大小为C+1的向量Vcf,即每当有一个工业5G终端选择信道c传输时,Vcf的第c+1个值加1,每当有一个工业5G终端选择不发送时,Vcf的第0个值加1,信道c的数值越高,表明选择选择信道c的工业5G终端越多;
(2)工业5G终端n在时隙t的动作向量其中是大小为C+1的向量当工业5G终端n在时隙t被分配信道c(c∈C)传输数据时,的第c+1个的估值函数最大,当工业5G终端n在时隙t被分配不发送数据时,的第0个的估值函数最大;
(3)工业5G终端n在时隙t的奖励向量rn(t)=[rn(t)],其中rn(t)表示工业5G终端n在时隙t结束获得的奖励,奖励值与数据传输是否成功和工业5G终端优先级相关。如果工业5G终端n在时隙t发送数据失败,无论工业5G终端优先级,工业5G终端n获得的奖励为负值;如果工业5G终端n在时隙t发送数据成功,工业5G终端优先级越高,工业5G终端n获得的奖励越高,为正值。
4、使用采集的数据训练神经网络模型,直至丢包率和端到端时延满足工业控制通信要求,其中神经网络训练过程包括以下步骤:
(1)将工业5G终端n时隙t状态向量sn(t)=[cn(t),ackn(t),pn(t),cf(t)]输入q-eval深度神经网络;
(3)根据动作向量an(t)计算获得的奖励rn(t)和观测on(t);
(4)根据工业5G终端n时隙t的状态向量sn(t)和动作向量an(t),获得工业5G终端n下一时隙t+1的状态向量s'n(t+1),存储<sn(t),an(t),rn(t),s'n(t+1)>作为经验池经验;每个时隙的<sn(t),an(t),rn(t),s'n(t+1)>作为一个经验;
(6)从经验池中使用经验回放法随机抽取M个经验,计算每个经验的Qtarget和并根据均方误差损失函数和梯度下降更新q-eval深度神经网络参数w、b,其中η表示神经网络学习速率,θ(t)表示时隙t的神经网络超参数;
(7)重复迭代I次q-eval深度神经网络后,复制q-eval深度神经网络参数w、b给q-next深度神经网络;
(8)重复迭代(1)-(7)直至均方误差损失函数收敛。
5、使用采集的数据训练神经网络模型,直至丢包率和端到端时延满足工业控制通信要求,其中丢包率和端到端时延性能指标包括:
(1)表示在时隙t信道c是否被分配给工业5G终端n,如果表示在时隙t信道c没有被分配给工业5G终端n,如果表示在时隙t信道c被分配给工业5G终端n;高优先级工业5G终端能够有较高概率接入信道传输数据,低优先级工业5G终端有较低概率接入信道传输数据,即工业5G终端n的优先级越高,的概率越高;
(2)假定信道容量充足,能够满足工业5G终端最大数据包的发送需求。当工业5G终端数N小于等于信道数C,所有工业5G终端都能接入信道传输数据,工业5G终端n丢包率当工业5G终端数N大于信道数C,工业5G终端n丢包率工业5G终端n优先级p越高,概率越高。表示时隙t开始时工业5G终端n在信道c上准备传输的数据包数量,表示时隙t结束时工业5G终端n在信道c上成功传输的数据包数量;
(3)假定信道容量充足,能够满足终端最大数据包的发送需求。当工业5G终端数N小于等于信道数C,所有工业5G终端都能接入信道传输数据,系统全局丢包率ρ(t)=0;当工业5G终端数N大于信道数C,系统全局丢包率其中表示全部N个工业5G终端在时隙t成功传输的数据包数量,表示全部N个工业5G终端在时隙t等待传输的数据包数量;
(4)端到端时延定义为其中定义为工业5G终端n的传播时延,即电磁波从发送端到接收端所经历的时延;定义为工业5G终端n的传输时延,即从数据包的第一个比特被发送到最后一个比特被发送所经历的时延;定义为工业5G终端n的排队时延,即数据包到达工业5G终端到离开工业5G终端所经历的时延,工业5G终端n优先级p越高,排队时延越小;dhw定义为硬件时延,即工业5G终端的硬件性能造成的时延。
6、收集当前时隙工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,进行多优先级信道分配;工业5G终端根据信道分配结果进行多接入包括:
(2)根据得到的输出动作向量,工业基站集中调度工业5G终端接入信道。
Claims (10)
1.基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,对于工业5G网络,通过训练神经网络模型实现信道分配,包括以下步骤:
1)建立基于深度强化学习的动态多优先级多信道接入神经网络模型;
2)采集工业5G网络内全部工业5G终端T个时隙的状态、动作、奖励信息作为训练数据,训练神经网络模型;
3)收集当前时隙工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,通过神经网络模型进行多优先级信道分配,工业5G终端根据信道分配结果进行多接入。
2.根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,所述工业5G网络包括:1台工业5G基站,1台边缘计算服务器,以及N个工业5G终端;
所述边缘计算服务器,与工业5G基站相连,用于训练深度强化学习神经网络模型;
所述工业5G基站,从边缘计算服务器下载训练后的神经网络模型,用于调度工业5G终端的动态多优先级的多信道接入;
所述工业5G终端,与工业5G基站通过工业5G网络连接,用于产生不同传输要求的工业数据。
3.根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,对于工业5G网络,建立工业5G网络模型,包括:确定工业5G网络覆盖范围及其范围内工业5G终端数量N、工业5G终端优先级数P以及信道数C。
4.根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,所述建立基于深度强化学习的动态多优先级多信道接入神经网络模型,如下:
构建q-eval深度神经网络和q-next深度神经网络两个结构相同的神经网络模型,神经网络参数params=[xin,xrnn,xfc,xout,w,b],其中,xin表示输入层神经元个数,并等于工业5G终端n(n∈N)的状态向量sn长度,N表示工业5G终端个数,xrnn表示循环神经网络层神经元个数,xfc表示全连接层神经元个数,xout表示输出层神经元个数并等于工业5G终端n的动作向量an长度,w表示权重,b表示偏置;
其中,q-eval深度神经网络用于获得工业5G终端n当前状态向量sn的动作向量an的估值函数Q(sn,an);q-next神经网络模型用于选择工业5G终端n的下一个状态向量s'n的最大动作向量a'n的估值函数
q-next深度神经网络的初始化参数与q-eval深度神经网络的初始化参数相同,q-eval深度神经网络的参数w、b每次迭代训练神经网络模型后进行更新,q-next深度神经网络的参数w、b每迭代训练神经网络模型I次后更新一次。
5.根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,所述训练数据,包括:
工业5G终端n在时隙t(t∈T)的状态向量sn(t)=[cn(t),ackn(t),pn(t),cf(t)],其中cn(t)表示工业5G终端n在时隙t开始时选择的信道c(c∈C),ackn(t)表示工业5G终端n在时隙t结束时数据是否发送成功,pn(t)表示工业5G终端n在时隙t的优先级p(p∈P),cf(t)表示时隙t所有信道c的占用率;
工业5G终端n在时隙t的奖励向量rn(t)=[rn(t)],其中rn(t)表示工业5G终端n在时隙t结束时获得的奖励。
6.根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,所述训练神经网络模型,包括以下步骤:
(1)将工业5G终端n时隙t的状态向量sn(t)=[cn(t),ackn(t),pn(t),cf(t)]输入q-eval深度神经网络;
(3)根据动作向量an(t)获得奖励rn(t)和观测on(t);
(4)根据工业5G终端n时隙t的状态向量sn(t)和动作向量an(t),获得工业5G终端n下一时隙t+1的状态向量s'n(t+1),存储<sn(t),an(t),rn(t),s'n(t+1)>作为经验池经验,每个时隙的<sn(t),an(t),rn(t),s'n(t+1)>作为一个经验;
(6)从经验池中使用经验回放法随机抽取M个经验,计算每个经验的Qtarget和并根据均方误差损失函数和梯度下降更新q-eval深度神经网络参数w、b,其中η表示神经网络学习速率,θ(t)表示时隙t的神经网络超参数;
(7)重复迭代I次q-eval深度神经网络后,复制q-eval深度神经网络参数w、b给q-next深度神经网络;
(8)重复迭代(1)-(7)直至均方误差损失函数收敛,此时得到的q-eval深度神经网络作为训练后的神经网络模型。
7.根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,得到训练的神经网络模型后,对该神经网络模型进行优化:
收集工业5G网络内全部工业5G终端的历史时隙的状态信息,通过该神经网络模型得到多优先级信道分配结果;当该分配结果的网络性能符合要求时,即丢包率、系统全局丢包率、端对端时延均小于对应的网络性能指标,则该神经网络模型作为最终的训练后的神经网络模型,用于进行最终的多优先级信道分配;
否则,重复权利要求1中的步骤1)-2),直到神经网络模型符合要求为止。
8.根据权利要求7所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,所述网络性能指标包括:
丢包率其中表示在时隙t信道c是否被分配给工业5G终端n;与工业5G终端n优先级p相关;表示时隙t开始时工业5G终端n在信道c上准备传输的数据包数量,表示时隙t结束时工业5G终端n在信道c上成功传输的数据包数量;
10.基于深度强化学习的工业5G动态多优先级多接入系统,其特征在于,包括:
边缘计算服务器,用于建立基于深度强化学习的动态多优先级多信道接入神经网络模型并训练;
工业5G终端,用于产生不同传输要求的工业数据,收集终端的状态信息、动作信息、奖励信息;
工业5G基站,用于下载训练后的神经网络模型,并将工业5G终端的状态信息作为该神经网络模型输入,通过该神经网络模型进行多优先级信道分配。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010385640.4A CN111628855B (zh) | 2020-05-09 | 2020-05-09 | 基于深度强化学习的工业5g动态多优先级多接入方法 |
PCT/CN2020/139322 WO2021227508A1 (zh) | 2020-05-09 | 2020-12-25 | 基于深度强化学习的工业5g动态多优先级多接入方法 |
US17/296,509 US20220217792A1 (en) | 2020-05-09 | 2020-12-25 | Industrial 5g dynamic multi-priority multi-access method based on deep reinforcement learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010385640.4A CN111628855B (zh) | 2020-05-09 | 2020-05-09 | 基于深度强化学习的工业5g动态多优先级多接入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111628855A true CN111628855A (zh) | 2020-09-04 |
CN111628855B CN111628855B (zh) | 2021-06-15 |
Family
ID=72272702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010385640.4A Active CN111628855B (zh) | 2020-05-09 | 2020-05-09 | 基于深度强化学习的工业5g动态多优先级多接入方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220217792A1 (zh) |
CN (1) | CN111628855B (zh) |
WO (1) | WO2021227508A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112188503A (zh) * | 2020-09-30 | 2021-01-05 | 南京爱而赢科技有限公司 | 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 |
CN113543156A (zh) * | 2021-06-24 | 2021-10-22 | 中国科学院沈阳自动化研究所 | 基于多智能体深度强化学习的工业无线网络资源分配方法 |
CN113613339A (zh) * | 2021-07-10 | 2021-11-05 | 西北农林科技大学 | 基于深度强化学习的多优先级无线终端的信道接入方法 |
WO2021227508A1 (zh) * | 2020-05-09 | 2021-11-18 | 中国科学院沈阳自动化研究所 | 基于深度强化学习的工业5g动态多优先级多接入方法 |
CN114599117A (zh) * | 2022-03-07 | 2022-06-07 | 中国科学院微小卫星创新研究院 | 低轨卫星网络随机接入中回退资源的动态配置方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200257985A1 (en) * | 2019-02-08 | 2020-08-13 | DeepSig Inc. | Adversarially generated communications |
US20220007382A1 (en) * | 2020-10-07 | 2022-01-06 | Intel Corporation | Model-assisted deep reinforcement learning based scheduling in wireless networks |
CN115315020A (zh) * | 2022-08-08 | 2022-11-08 | 重庆邮电大学 | 基于区分服务的ieee 802.15.4协议的智能csma/ca退避方法 |
CN116233895B (zh) * | 2023-05-04 | 2023-07-18 | 合肥工业大学 | 基于强化学习的5g配网节点通信优化方法、设备及介质 |
CN116341685B (zh) * | 2023-05-31 | 2023-07-21 | 合肥工业大学智能制造技术研究院 | 基于联合注意力的分布式计算卸载模型训练方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014164856A1 (en) * | 2013-03-11 | 2014-10-09 | Entropic Communications, Inc. | Synchronized multi-channel access system |
CN110035478A (zh) * | 2019-04-18 | 2019-07-19 | 北京邮电大学 | 一种高速移动场景下的动态多信道接入方法 |
CN110691422A (zh) * | 2019-10-06 | 2020-01-14 | 湖北工业大学 | 一种基于深度强化学习的多信道智能接入方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020032594A1 (ko) * | 2018-08-07 | 2020-02-13 | 엘지전자 주식회사 | 무선 통신 시스템에서 노드의 동작 방법 및 상기 방법을 이용하는 장치 |
KR102201858B1 (ko) * | 2019-08-26 | 2021-01-12 | 엘지전자 주식회사 | 인공지능 기반 영상 편집 방법 및 지능형 디바이스 |
CN110557769A (zh) * | 2019-09-12 | 2019-12-10 | 南京邮电大学 | 基于深度强化学习的c-ran计算卸载和资源分配方法 |
CN110856268B (zh) * | 2019-10-30 | 2021-09-07 | 西安交通大学 | 一种无线网络动态多信道接入方法 |
CN111628855B (zh) * | 2020-05-09 | 2021-06-15 | 中国科学院沈阳自动化研究所 | 基于深度强化学习的工业5g动态多优先级多接入方法 |
-
2020
- 2020-05-09 CN CN202010385640.4A patent/CN111628855B/zh active Active
- 2020-12-25 US US17/296,509 patent/US20220217792A1/en active Pending
- 2020-12-25 WO PCT/CN2020/139322 patent/WO2021227508A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014164856A1 (en) * | 2013-03-11 | 2014-10-09 | Entropic Communications, Inc. | Synchronized multi-channel access system |
CN110035478A (zh) * | 2019-04-18 | 2019-07-19 | 北京邮电大学 | 一种高速移动场景下的动态多信道接入方法 |
CN110691422A (zh) * | 2019-10-06 | 2020-01-14 | 湖北工业大学 | 一种基于深度强化学习的多信道智能接入方法 |
Non-Patent Citations (1)
Title |
---|
CHEN ZHONG ET AL.: "A Deep Actor-Critic Reinforcement Learning Framework for Dynamic Multichannel Access", 《IEEE TRANSACTIONS ON COGNITIVE COMMUNICATIONS AND NETWORKING》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021227508A1 (zh) * | 2020-05-09 | 2021-11-18 | 中国科学院沈阳自动化研究所 | 基于深度强化学习的工业5g动态多优先级多接入方法 |
CN112188503A (zh) * | 2020-09-30 | 2021-01-05 | 南京爱而赢科技有限公司 | 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 |
CN112188503B (zh) * | 2020-09-30 | 2021-06-22 | 南京爱而赢科技有限公司 | 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 |
CN113543156A (zh) * | 2021-06-24 | 2021-10-22 | 中国科学院沈阳自动化研究所 | 基于多智能体深度强化学习的工业无线网络资源分配方法 |
CN113543156B (zh) * | 2021-06-24 | 2022-05-06 | 中国科学院沈阳自动化研究所 | 基于多智能体深度强化学习的工业无线网络资源分配方法 |
CN113613339A (zh) * | 2021-07-10 | 2021-11-05 | 西北农林科技大学 | 基于深度强化学习的多优先级无线终端的信道接入方法 |
CN113613339B (zh) * | 2021-07-10 | 2023-10-17 | 西北农林科技大学 | 基于深度强化学习的多优先级无线终端的信道接入方法 |
CN114599117A (zh) * | 2022-03-07 | 2022-06-07 | 中国科学院微小卫星创新研究院 | 低轨卫星网络随机接入中回退资源的动态配置方法 |
CN114599117B (zh) * | 2022-03-07 | 2023-01-10 | 中国科学院微小卫星创新研究院 | 低轨卫星网络随机接入中回退资源的动态配置方法 |
Also Published As
Publication number | Publication date |
---|---|
US20220217792A1 (en) | 2022-07-07 |
CN111628855B (zh) | 2021-06-15 |
WO2021227508A1 (zh) | 2021-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111628855B (zh) | 基于深度强化学习的工业5g动态多优先级多接入方法 | |
CN111629380B (zh) | 面向高并发多业务工业5g网络的动态资源分配方法 | |
CN109947545B (zh) | 一种基于用户移动性的任务卸载及迁移的决策方法 | |
CN113222179B (zh) | 一种基于模型稀疏化与权重量化的联邦学习模型压缩方法 | |
CN110167176B (zh) | 一种基于分布式机器学习的无线网络资源分配方法 | |
CN110968426B (zh) | 一种基于在线学习的边云协同k均值聚类的模型优化方法 | |
CN111867139A (zh) | 基于q学习的深度神经网络自适应退避策略实现方法及系统 | |
CN110856268B (zh) | 一种无线网络动态多信道接入方法 | |
CN112788605B (zh) | 基于双延迟深度确定性策略边缘计算资源调度方法和系统 | |
CN112261725B (zh) | 一种基于深度强化学习的数据包传输智能决策方法 | |
CN110300417B (zh) | 无人机通信网络的能量效率优化方法和装置 | |
CN114585006B (zh) | 基于深度学习的边缘计算任务卸载和资源分配方法 | |
CN109548161A (zh) | 一种无线资源调度的方法、装置和终端设备 | |
CN112492691A (zh) | 一种深度确定性策略梯度的下行noma功率分配方法 | |
CN115374853A (zh) | 基于T-Step聚合算法的异步联邦学习方法及系统 | |
CN114885420A (zh) | 一种noma-mec系统中的用户分组和资源分配方法及装置 | |
CN114158105A (zh) | 应用于综合能源系统的无线传感器网络的路由方法及装置 | |
Sharara et al. | A recurrent neural network based approach for coordinating radio and computing resources allocation in cloud-ran | |
CN110505681B (zh) | 基于遗传方法的非正交多址接入场景用户配对方法 | |
CN116939866A (zh) | 一种基于协同计算和资源分配联合优化的无线联邦学习效率提升方法 | |
CN115756873B (zh) | 一种基于联邦强化学习的移动边缘计算卸载方法和平台 | |
CN116484976A (zh) | 一种无线网络中异步联邦学习方法 | |
CN114615705B (zh) | 一种基于5g网络下单用户资源分配策略方法 | |
CN115103372A (zh) | 一种基于深度强化学习的多用户mimo系统用户调度方法 | |
CN115314399A (zh) | 一种基于逆强化学习的数据中心流量调度方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |