CN111628855A - 基于深度强化学习的工业5g动态多优先级多接入方法 - Google Patents

基于深度强化学习的工业5g动态多优先级多接入方法 Download PDF

Info

Publication number
CN111628855A
CN111628855A CN202010385640.4A CN202010385640A CN111628855A CN 111628855 A CN111628855 A CN 111628855A CN 202010385640 A CN202010385640 A CN 202010385640A CN 111628855 A CN111628855 A CN 111628855A
Authority
CN
China
Prior art keywords
industrial
neural network
terminal
priority
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010385640.4A
Other languages
English (en)
Other versions
CN111628855B (zh
Inventor
刘晓宇
许驰
曾鹏
于海斌
金曦
夏长清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Intelligent Robot Innovation Center Co Ltd
Shenyang Intelligent Robot National Research Institute Co ltd
Shenyang Institute of Automation of CAS
Original Assignee
Shenyang Intelligent Robot Innovation Center Co Ltd
Shenyang Intelligent Robot National Research Institute Co ltd
Shenyang Institute of Automation of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Intelligent Robot Innovation Center Co Ltd, Shenyang Intelligent Robot National Research Institute Co ltd, Shenyang Institute of Automation of CAS filed Critical Shenyang Intelligent Robot Innovation Center Co Ltd
Priority to CN202010385640.4A priority Critical patent/CN111628855B/zh
Publication of CN111628855A publication Critical patent/CN111628855A/zh
Priority to PCT/CN2020/139322 priority patent/WO2021227508A1/zh
Priority to US17/296,509 priority patent/US20220217792A1/en
Application granted granted Critical
Publication of CN111628855B publication Critical patent/CN111628855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access, e.g. scheduled or random access
    • H04W74/08Non-scheduled or contention based access, e.g. random access, ALOHA, CSMA [Carrier Sense Multiple Access]
    • H04W74/0866Non-scheduled or contention based access, e.g. random access, ALOHA, CSMA [Carrier Sense Multiple Access] using a dedicated channel for access
    • H04W74/0875Non-scheduled or contention based access, e.g. random access, ALOHA, CSMA [Carrier Sense Multiple Access] using a dedicated channel for access with assigned priorities based access
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/003Arrangements for allocating sub-channels of the transmission path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access, e.g. scheduled or random access
    • H04W74/002Transmission of channel access control information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/003Arrangements for allocating sub-channels of the transmission path
    • H04L5/0037Inter-user or inter-terminal allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及工业5G网络技术,具体地说,是基于深度强化学习的工业5G动态多优先级多接入方法,包括以下步骤:建立工业5G网络模型;建立基于深度强化学习的动态多优先级多信道接入神经网络模型;采集工业5G网络内全部工业5G终端多个时隙的状态、动作、奖励信息作为训练数据;使用采集的数据训练神经网络模型,直至丢包率和端到端时延满足工业通信要求;收集当前时隙工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,进行多优先级信道分配,工业5G终端根据信道分配结果进行多接入。本发明能够高效、实时地对工业5G网络内不同优先级的工业5G终端进行多信道分配,确保大规模并发接入。

Description

基于深度强化学习的工业5G动态多优先级多接入方法
技术领域
本发明提供基于深度强化学习的工业5G网络动态多优先级多信道接入方法,针对工业5G网络中大规模分布式工业5G终端并发通信以及高可靠低时延通信(Ultra-Reliableand Low Latency Communication,URLLC)要求,考虑海量工业数据传输对实时性、可靠性要求各异所造成的传统方法建模难和算法状态空间爆炸的问题,特别涉及工业5G终端的丢包率和端到端时延约束,属于工业5G网络技术领域。
背景技术
随着工业4.0的发展,大量的分布式工业5G终端互联互通,产生了海量的具有不同实时性、可靠性传输要求的数据。为实现灵活可定制的智能制造过程,分布式工业5G终端间使用工业无线网络实现数据通信。实时性、可靠性是数据通信最重要的服务质量要求,工业5G网络以其高可靠低时延和大规模机器间通信的性能保证,成为工业无线网络的通信使能技术。
多信道接入允许工业5G终端的大规模并发接入,能够有效地提高频谱利用效率,然而传统的多信道接入算法一般是基于已知的系统模型的,对于大规模机器间通信的工业场景,工业5G终端数量和数据是时变的,难以获得准确的系统模型。数据传输的高可靠低时延是工业通信中最重要的服务质量要求,工业5G终端产生的数据对于传输的实时性、可靠性的要求是时变的,然而传统工业生产过程中终端的优先级一般是恒定的,难以保证海量的时变的数据的实时性、可靠性传输要求。
对于大规模的工业5G终端动态多优先级多信道接入,不仅难以获得准确的系统模型,而且会造成算法的状态空间爆炸。深度强化学习,能够利用深度学习估计系统模型,结合强化学习求解动态多优先级多信道接入,有效地解决了系统模型建模难和状态空间爆炸问题。
发明内容
为实现上述发明目的,本发明的目的在于针对工业5G网络中大规模分布式工业5G终端并发通信以及高可靠低时延通信要求,考虑海量工业数据传输对实时性、可靠性要求各异所造成的传统方法建模难和算法状态空间爆炸的问题,提供基于深度强化学习的工业5G网络动态多优先级多接入方法,实现特定丢包率和端到端时延约束下的工业5G终端的动态多优先级多接入。
对于大规模的工业5G终端动态多优先级多信道接入,不仅难以获得准确的系统模型,而且会造成算法的状态空间爆炸。深度强化学习,能够利用深度学习估计系统模型,结合强化学习求解动态多优先级多信道接入,有效地解决了系统模型建模难和状态空间爆炸问题。
本发明采用如下技术方案:基于深度强化学习的工业5G动态多优先级多接入方法,对于工业5G网络,通过训练神经网络模型实现信道分配,包括以下步骤:
1)建立基于深度强化学习的动态多优先级多信道接入神经网络模型;
2)采集工业5G网络内全部工业5G终端T个时隙的状态、动作、奖励信息作为训练数据,训练神经网络模型;
3)收集当前时隙工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,通过神经网络模型进行多优先级信道分配,工业5G终端根据信道分配结果进行多接入。
所述工业5G网络包括:1台工业5G基站,1台边缘计算服务器,以及N个工业5G终端;
所述边缘计算服务器,与工业5G基站相连,用于训练深度强化学习神经网络模型;
所述工业5G基站,从边缘计算服务器下载训练后的神经网络模型,用于调度工业5G终端的动态多优先级的多信道接入;
所述工业5G终端,与工业5G基站通过工业5G网络连接,用于产生不同传输要求的工业数据。
对于工业5G网络,建立工业5G网络模型,包括:确定工业5G网络覆盖范围及其范围内工业5G终端数量N、工业5G终端优先级数P以及信道数C。
所述建立基于深度强化学习的动态多优先级多信道接入神经网络模型,如下:
构建q-eval深度神经网络和q-next深度神经网络两个结构相同的神经网络模型,神经网络参数params=[xin,xrnn,xfc,xout,w,b],其中,xin表示输入层神经元个数,并等于工业5G终端n(n∈N)的状态向量sn长度,N表示工业5G终端个数,xrnn表示循环神经网络层神经元个数,xfc表示全连接层神经元个数,xout表示输出层神经元个数并等于工业5G终端n的动作向量an长度,w表示权重,b表示偏置;
其中,q-eval深度神经网络用于获得工业5G终端n当前状态向量sn的动作向量an的估值函数Q(sn,an);q-next神经网络模型用于选择工业5G终端n的下一个状态向量s'n的最大动作向量a'n的估值函数
Figure BDA0002483690990000041
利用强化学习
Figure BDA0002483690990000042
更新q-eval深度神经网络参数w、b;其中,α表示学习速率,γ表示折扣比例,rn表示工业5G终端n在当前状态sn执行动作向量an获得的奖励;
q-next深度神经网络的初始化参数与q-eval深度神经网络的初始化参数相同,q-eval深度神经网络的参数w、b每次迭代训练神经网络模型后进行更新,q-next深度神经网络的参数w、b每迭代训练神经网络模型I次后更新一次。
所述训练数据,包括:
工业5G终端n在时隙t(t∈T)的状态向量sn(t)=[cn(t)、ackn(t),pn(t),cf(t)],其中cn(t)表示工业5G终端n在时隙t开始时选择的信道c(c∈C),ackn(t)表示工业5G终端n在时隙t结束时数据是否发送成功,pn(t)表示工业5G终端n在时隙t的优先级p(p∈P),cf(t)表示时隙t所有信道c的占用率;
工业5G终端n在时隙t的动作向量
Figure BDA0002483690990000043
其中
Figure BDA0002483690990000044
表示工业5G终端n在时隙t被分配的信道c(c∈C);
工业5G终端n在时隙t的奖励向量rn(t)=[rn(t)],其中rn(t)表示工业5G终端n在时隙t结束时获得的奖励。
所述训练神经网络模型,包括以下步骤:
(1)将工业5G终端n时隙t的状态向量sn(t)=[cn(t),ackn(t),pn(t),cf(t)]输入q-eval深度神经网络;
(2)通过q-eval深度神经网络选择动作向量:根据ε-greedy算法选择动作向量,以概率ε随机选择动作向量,即信道,或者以概率1-ε选择获得估值函数最大(即
Figure BDA0002483690990000051
)的动作向量,即信道;
(3)根据动作向量an(t)获得奖励rn(t)和观测on(t);
(4)根据工业5G终端n时隙t的状态向量sn(t)和动作向量an(t),获得工业5G终端n下一时隙t+1的状态向量s'n(t+1),存储<sn(t),an(t),rn(t),s'n(t+1)>作为经验池经验,每个时隙的<sn(t),an(t),rn(t),s'n(t+1)>作为一个经验;
(5)将s'n(t+1)输入q-next深度神经网络获得
Figure BDA0002483690990000052
以及目标估计值
Figure BDA0002483690990000053
(6)从经验池中使用经验回放法随机抽取M个经验,计算每个经验的Qtarget
Figure BDA0002483690990000054
并根据均方误差损失函数
Figure BDA0002483690990000055
和梯度下降
Figure BDA0002483690990000056
更新q-eval深度神经网络参数w、b,其中η表示神经网络学习速率,θ(t)表示时隙t的神经网络超参数;
(7)重复迭代I次q-eval深度神经网络后,复制q-eval深度神经网络参数w、b给q-next深度神经网络;
(8)重复迭代(1)-(7)直至均方误差损失函数收敛,此时得到的q-eval深度神经网络作为训练后的神经网络模型。
得到训练的神经网络模型后,对该神经网络模型进行优化:
收集工业5G网络内全部工业5G终端的历史时隙的状态信息,通过该神经网络模型得到多优先级信道分配结果;当该分配结果的网络性能符合要求时,即丢包率、系统全局丢包率、端对端时延均小于对应的网络性能指标,则该神经网络模型作为最终的训练后的神经网络模型,用于进行最终的多优先级信道分配;
否则,重复步骤1)-2),直到神经网络模型符合要求为止。
所述网络性能指标包括:
丢包率
Figure BDA0002483690990000061
其中
Figure BDA0002483690990000062
表示在时隙t信道c是否被分配给工业5G终端n;
Figure BDA0002483690990000063
与工业5G终端n优先级p相关;
Figure BDA0002483690990000064
表示时隙t开始时工业5G终端n在信道c上准备传输的数据包数量,
Figure BDA0002483690990000065
表示时隙t结束时工业5G终端n在信道c上成功传输的数据包数量;
系统全局丢包率
Figure BDA0002483690990000066
其中
Figure BDA0002483690990000067
表示全部N个工业5G终端在时隙t成功传输的数据包数量,
Figure BDA0002483690990000068
表示全部N个工业5G终端在时隙t等待传输的数据包数量;
端到端时延定义为
Figure BDA0002483690990000069
其中
Figure BDA00024836909900000610
定义为工业5G终端n的传播时延,即电磁波从一个工业5G终端发送端到另一个工业5G终端接收端所经历的时延;
Figure BDA00024836909900000611
定义为工业5G终端n的传输时延,即从数据包的第一个比特被发送到最后一个比特被发送所经历的时延;
Figure BDA00024836909900000612
定义为工业5G终端n的排队时延,即数据包到达工业5G终端到离开工业5G终端所经历的时延;dhw定义为硬件时延,即工业5G终端的硬件性能造成的时延。
所述收集当前工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,通过神经网络模型进行多优先级信道分配,包括以下步骤:
收集当前时隙t工业5G网络内全部N个工业5G终端的状态向量
Figure BDA0002483690990000071
作为训练好的神经网络模型输入,得到输出动作向量
Figure BDA0002483690990000072
根据得到的输出动作向量,工业基站调度工业5G终端接入信道。
基于深度强化学习的工业5G动态多优先级多接入系统,包括:
边缘计算服务器,用于建立基于深度强化学习的动态多优先级多信道接入神经网络模型并训练;
工业5G终端,用于产生不同传输要求的工业数据,收集终端的状态信息、动作信息、奖励信息;
工业5G基站,用于下载训练后的神经网络模型,并将工业5G终端的状态信息作为该神经网络模型输入,通过该神经网络模型进行多优先级信道分配。
本发明具有以下有益效果及优点:
1、本发明针对工业5G的高可靠低时延通信需求,将工业5G终端数据传输要求的实时性、可靠性的时变性映射为工业5G终端的动态优先级,使用基于深度强化学习的动态多优先级多信道接入算法解决了工业5G网络中大量的分布式工业5G终端间通信以及海量的实时性、可靠性要求各异的数据造成的传统方法建模难和算法状态空间爆炸的问题,有效地保证了高实时数据的可靠传输和不同优先级的工业5G终端之间的信道接入分配。
2、本发明具有较强的通用性和实用性,能够自适应地处理工业5G终端、信道变化,能够有效地保证工业5G终端的动态多优先级多接入,实现特定丢包率和端到端时延约束下的稳定传输,提高系统安全性和稳定性。
附图说明
图1是本发明方法流程图;
图2是系统模型图;
图3是深度强化学习架构图。
具体实施方式
下面结合附图对本发明进行详细说明。
本发明涉及工业5G网络技术,包括以下步骤:建立工业5G网络模型,确定工业5G终端数量、优先级以及信道数;建立基于深度强化学习的动态多优先级多信道接入神经网络模型,并初始化模型参数;采集工业5G网络内全部工业5G终端多个时隙的状态、动作、奖励信息作为训练数据;使用采集的数据训练神经网络模型,直至丢包率和端到端时延满足工业通信要求;收集当前时隙工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,进行多优先级信道分配,工业5G终端根据信道分配结果进行多接入。本发明针对工业5G网络中大规模分布式工业5G终端并发通信以及高可靠低时延通信要求,发明了基于深度强化学习的动态多优先级多信道接入算法。该方法充分考虑海量工业数据传输对实时性、可靠性要求各异所造成的传统方法建模难和算法状态空间爆炸的问题,能够高效、实时地对不同优先级的工业5G终端进行多信道分配,确保大规模并发接入。
本发明主要包括以下实现过程,如图1,包括以下步骤:
步骤1:建立工业5G网络模型,确定工业5G终端数量、优先级以及信道数;
步骤2:建立基于深度强化学习的动态多优先级多信道接入神经网络模型,并初始化模型参数;
步骤3:采集工业5G网络内全部工业5G终端T个时隙的状态、动作、奖励信息作为训练数据;
步骤4:使用采集的训练数据训练神经网络模型,直至丢包率和端到端时延满足工业通信要求;
步骤5:收集当前时隙工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,进行多优先级信道分配,工业5G终端根据信道分配结果进行多接入。
该实施例是按照如图1所示的流程实施的,具体步骤如下:
1、建立工业5G网络模型,如图2,确定工业5G终端数量、优先级以及信道数:
(1)工业5G网络包括:1台工业5G基站,1台边缘计算服务器,以及N个工业5G终端;其中,边缘计算服务器与工业5G基站相连,用于训练深度强化学习神经网络模型;工业5G基站从边缘计算服务器下载更新训练的神经网络模型,用于调度动态多用户优先级的多信道接入;工业5G终端,与工业5G基站通过工业5G网络连接,用于产生不同传输要求的工业数据;
(2)确定工业5G网络覆盖范围及其范围内工业5G终端数量N、工业5G终端优先级数P以及信道数C。其中,优先级p与传输数据的实时性、可靠性相关,实时性、可靠性传输要求越高,工业5G终端优先级越高。工业5G网络模型主要包括两类情况:工业设备数量N小于信道数C,工业设备数量N大于等于信道数C。
2、建立基于深度强化学习的动态多优先级多信道接入神经网络模型,并初始化模型参数,如图3,包括以下步骤:
(1)建立基于深度强化学习的动态多优先级多信道接入神经网络模型,包括输入层、循环神经网络(Recurrent Neural Network,RNN)层,全连接层,输出层;
(2)初始化深度神经网络参数params=[xin,xrnn,xfc,xout,w,b],其中,xin表示输入层神经元个数,并等于工业5G终端n(n∈N)的状态向量sn长度,N表示工业5G终端个数,xrnn表示循环神经网络层神经元个数,xfc表示全连接层神经元个数,xout表示输出层神经元个数并等于工业5G终端n的动作向量an长度,w表示权重,b表示偏置;
(3)构建q-eval和q-next两个结构相同的深度神经网络,其中:q-eval深度神经网络用于获得工业5G终端n(n∈N)当前状态向量sn的动作向量an的估值函数Q(sn,an);q-next深度神经网络通过选择工业5G终端n的下一个状态向量s'n的最大动作向量a'n的估值函数
Figure BDA0002483690990000101
利用强化学习
Figure BDA0002483690990000102
更新q-eval深度神经网络参数。其中,α表示学习速率,γ表示折扣比例,rn表示工业5G终端n在当前状态sn执行动作向量an获得的奖励。q-next深度神经网络的初始化参数与q-eval深度神经网络相同,q-eval深度神经网络的参数w、b每次迭代训练神经网络模型后进行更新,q-next深度神经网络的参数w、b每迭代训练神经网络模型I次后更新一次。
3、采集工业5G网络内全部工业5G终端T个时隙的状态、动作、奖励信息作为训练数据包括:
(1)工业5G终端n(n∈N)在时隙t(t∈T)的状态向量sn(t)=[cn(t),ackn(t),pn(t),cf(t)],其中cn(t)表示工业5G终端n在时隙t时选择的信道,大小为C+1的向量Vc,即当工业5G终端n选择信道c时,Vc的第c+1个值为1,其余值为0,当工业5G终端n选择不发送时,Vc的第0个值为1,其余值为0;ackn(t)表示工业5G终端n在时隙t结束数据是否发送成功,如果ackn(t)=0,表示工业5G终端n在时隙t发送数据失败;如果ackn(t)=1,表示工业5G终端n在时隙t发送数据成功;ackn(t)从观测on(t)获取;pn(t)表示工业5G终端n在时隙t的优先级,由工业5G终端n在时隙t要发送的数据的实时性和可靠性要求决定,数据的实时性和可靠性要求越高,pn(t)值越小,优先级越高;cf(t)表示时隙t所有信道c的占用率,大小为C+1的向量Vcf,即每当有一个工业5G终端选择信道c传输时,Vcf的第c+1个值加1,每当有一个工业5G终端选择不发送时,Vcf的第0个值加1,信道c的数值越高,表明选择选择信道c的工业5G终端越多;
(2)工业5G终端n在时隙t的动作向量
Figure BDA0002483690990000111
其中
Figure BDA0002483690990000112
是大小为C+1的向量
Figure BDA0002483690990000113
当工业5G终端n在时隙t被分配信道c(c∈C)传输数据时,
Figure BDA0002483690990000121
的第c+1个的估值函数最大,当工业5G终端n在时隙t被分配不发送数据时,
Figure BDA0002483690990000122
的第0个的估值函数最大;
(3)工业5G终端n在时隙t的奖励向量rn(t)=[rn(t)],其中rn(t)表示工业5G终端n在时隙t结束获得的奖励,奖励值与数据传输是否成功和工业5G终端优先级相关。如果工业5G终端n在时隙t发送数据失败,无论工业5G终端优先级,工业5G终端n获得的奖励为负值;如果工业5G终端n在时隙t发送数据成功,工业5G终端优先级越高,工业5G终端n获得的奖励越高,为正值。
4、使用采集的数据训练神经网络模型,直至丢包率和端到端时延满足工业控制通信要求,其中神经网络训练过程包括以下步骤:
(1)将工业5G终端n时隙t状态向量sn(t)=[cn(t),ackn(t),pn(t),cf(t)]输入q-eval深度神经网络;
(2)根据ε-greedy算法选择动作向量,设定概率ε,以概率ε随机选择动作向量,即信道,或者以概率1-ε选择获得估值函数最大(即
Figure BDA0002483690990000123
的动作向量,即信道;
(3)根据动作向量an(t)计算获得的奖励rn(t)和观测on(t);
(4)根据工业5G终端n时隙t的状态向量sn(t)和动作向量an(t),获得工业5G终端n下一时隙t+1的状态向量s'n(t+1),存储<sn(t),an(t),rn(t),s'n(t+1)>作为经验池经验;每个时隙的<sn(t),an(t),rn(t),s'n(t+1)>作为一个经验;
(5)将s'n(t+1)输入q-next深度神经网络获得
Figure BDA0002483690990000124
以及目标估计值
Figure BDA0002483690990000125
(6)从经验池中使用经验回放法随机抽取M个经验,计算每个经验的Qtarget
Figure BDA0002483690990000131
并根据均方误差损失函数
Figure BDA0002483690990000132
和梯度下降
Figure BDA0002483690990000133
更新q-eval深度神经网络参数w、b,其中η表示神经网络学习速率,θ(t)表示时隙t的神经网络超参数;
(7)重复迭代I次q-eval深度神经网络后,复制q-eval深度神经网络参数w、b给q-next深度神经网络;
(8)重复迭代(1)-(7)直至均方误差损失函数收敛。
5、使用采集的数据训练神经网络模型,直至丢包率和端到端时延满足工业控制通信要求,其中丢包率和端到端时延性能指标包括:
(1)
Figure BDA0002483690990000134
表示在时隙t信道c是否被分配给工业5G终端n,如果
Figure BDA0002483690990000135
表示在时隙t信道c没有被分配给工业5G终端n,如果
Figure BDA0002483690990000136
表示在时隙t信道c被分配给工业5G终端n;高优先级工业5G终端能够有较高概率接入信道传输数据,低优先级工业5G终端有较低概率接入信道传输数据,即工业5G终端n的优先级越高,
Figure BDA0002483690990000137
的概率越高;
(2)假定信道容量充足,能够满足工业5G终端最大数据包的发送需求。当工业5G终端数N小于等于信道数C,所有工业5G终端都能接入信道传输数据,工业5G终端n丢包率
Figure BDA0002483690990000138
当工业5G终端数N大于信道数C,工业5G终端n丢包率
Figure BDA0002483690990000139
工业5G终端n优先级p越高,
Figure BDA00024836909900001310
概率越高。
Figure BDA00024836909900001311
表示时隙t开始时工业5G终端n在信道c上准备传输的数据包数量,
Figure BDA0002483690990000141
表示时隙t结束时工业5G终端n在信道c上成功传输的数据包数量;
(3)假定信道容量充足,能够满足终端最大数据包的发送需求。当工业5G终端数N小于等于信道数C,所有工业5G终端都能接入信道传输数据,系统全局丢包率ρ(t)=0;当工业5G终端数N大于信道数C,系统全局丢包率
Figure BDA0002483690990000142
其中
Figure BDA0002483690990000143
表示全部N个工业5G终端在时隙t成功传输的数据包数量,
Figure BDA0002483690990000144
表示全部N个工业5G终端在时隙t等待传输的数据包数量;
(4)端到端时延定义为
Figure BDA0002483690990000145
其中
Figure BDA0002483690990000146
定义为工业5G终端n的传播时延,即电磁波从发送端到接收端所经历的时延;
Figure BDA0002483690990000147
定义为工业5G终端n的传输时延,即从数据包的第一个比特被发送到最后一个比特被发送所经历的时延;
Figure BDA0002483690990000148
定义为工业5G终端n的排队时延,即数据包到达工业5G终端到离开工业5G终端所经历的时延,工业5G终端n优先级p越高,排队时延越小;dhw定义为硬件时延,即工业5G终端的硬件性能造成的时延。
(5)判断
Figure BDA0002483690990000149
ρ(t)和
Figure BDA00024836909900001410
是否满足具体系统模型下的性能要求,如果满足,模型训练完成,否则,继续训练模型直至满足性能要求。
6、收集当前时隙工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,进行多优先级信道分配;工业5G终端根据信道分配结果进行多接入包括:
(1)收集当前时隙t工业5G网络内全部N个工业5G终端的状态向量
Figure BDA0002483690990000151
作为训练好的神经网络模型输入,得到输出动作向量
Figure BDA0002483690990000152
(2)根据得到的输出动作向量,工业基站集中调度工业5G终端接入信道。

Claims (10)

1.基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,对于工业5G网络,通过训练神经网络模型实现信道分配,包括以下步骤:
1)建立基于深度强化学习的动态多优先级多信道接入神经网络模型;
2)采集工业5G网络内全部工业5G终端T个时隙的状态、动作、奖励信息作为训练数据,训练神经网络模型;
3)收集当前时隙工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,通过神经网络模型进行多优先级信道分配,工业5G终端根据信道分配结果进行多接入。
2.根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,所述工业5G网络包括:1台工业5G基站,1台边缘计算服务器,以及N个工业5G终端;
所述边缘计算服务器,与工业5G基站相连,用于训练深度强化学习神经网络模型;
所述工业5G基站,从边缘计算服务器下载训练后的神经网络模型,用于调度工业5G终端的动态多优先级的多信道接入;
所述工业5G终端,与工业5G基站通过工业5G网络连接,用于产生不同传输要求的工业数据。
3.根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,对于工业5G网络,建立工业5G网络模型,包括:确定工业5G网络覆盖范围及其范围内工业5G终端数量N、工业5G终端优先级数P以及信道数C。
4.根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,所述建立基于深度强化学习的动态多优先级多信道接入神经网络模型,如下:
构建q-eval深度神经网络和q-next深度神经网络两个结构相同的神经网络模型,神经网络参数params=[xin,xrnn,xfc,xout,w,b],其中,xin表示输入层神经元个数,并等于工业5G终端n(n∈N)的状态向量sn长度,N表示工业5G终端个数,xrnn表示循环神经网络层神经元个数,xfc表示全连接层神经元个数,xout表示输出层神经元个数并等于工业5G终端n的动作向量an长度,w表示权重,b表示偏置;
其中,q-eval深度神经网络用于获得工业5G终端n当前状态向量sn的动作向量an的估值函数Q(sn,an);q-next神经网络模型用于选择工业5G终端n的下一个状态向量s'n的最大动作向量a'n的估值函数
Figure FDA0002483690980000021
利用强化学习
Figure FDA0002483690980000022
更新q-eval深度神经网络参数w、b;其中,α表示学习速率,γ表示折扣比例,rn表示工业5G终端n在当前状态sn执行动作向量an获得的奖励;
q-next深度神经网络的初始化参数与q-eval深度神经网络的初始化参数相同,q-eval深度神经网络的参数w、b每次迭代训练神经网络模型后进行更新,q-next深度神经网络的参数w、b每迭代训练神经网络模型I次后更新一次。
5.根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,所述训练数据,包括:
工业5G终端n在时隙t(t∈T)的状态向量sn(t)=[cn(t),ackn(t),pn(t),cf(t)],其中cn(t)表示工业5G终端n在时隙t开始时选择的信道c(c∈C),ackn(t)表示工业5G终端n在时隙t结束时数据是否发送成功,pn(t)表示工业5G终端n在时隙t的优先级p(p∈P),cf(t)表示时隙t所有信道c的占用率;
工业5G终端n在时隙t的动作向量
Figure FDA0002483690980000031
其中
Figure FDA0002483690980000032
表示工业5G终端n在时隙t被分配的信道c(c∈C);
工业5G终端n在时隙t的奖励向量rn(t)=[rn(t)],其中rn(t)表示工业5G终端n在时隙t结束时获得的奖励。
6.根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,所述训练神经网络模型,包括以下步骤:
(1)将工业5G终端n时隙t的状态向量sn(t)=[cn(t),ackn(t),pn(t),cf(t)]输入q-eval深度神经网络;
(2)通过q-eval深度神经网络选择动作向量:根据ε-greedy算法选择动作向量:以概率ε随机选择动作向量,即信道,或者以概率1-ε选择获得估值函数最大即
Figure FDA0002483690980000033
的动作向量,即信道;
(3)根据动作向量an(t)获得奖励rn(t)和观测on(t);
(4)根据工业5G终端n时隙t的状态向量sn(t)和动作向量an(t),获得工业5G终端n下一时隙t+1的状态向量s'n(t+1),存储<sn(t),an(t),rn(t),s'n(t+1)>作为经验池经验,每个时隙的<sn(t),an(t),rn(t),s'n(t+1)>作为一个经验;
(5)将s'n(t+1)输入q-next深度神经网络获得
Figure FDA0002483690980000034
以及目标估计值
Figure FDA0002483690980000035
(6)从经验池中使用经验回放法随机抽取M个经验,计算每个经验的Qtarget
Figure FDA0002483690980000041
并根据均方误差损失函数
Figure FDA0002483690980000042
和梯度下降
Figure FDA0002483690980000043
更新q-eval深度神经网络参数w、b,其中η表示神经网络学习速率,θ(t)表示时隙t的神经网络超参数;
(7)重复迭代I次q-eval深度神经网络后,复制q-eval深度神经网络参数w、b给q-next深度神经网络;
(8)重复迭代(1)-(7)直至均方误差损失函数收敛,此时得到的q-eval深度神经网络作为训练后的神经网络模型。
7.根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,得到训练的神经网络模型后,对该神经网络模型进行优化:
收集工业5G网络内全部工业5G终端的历史时隙的状态信息,通过该神经网络模型得到多优先级信道分配结果;当该分配结果的网络性能符合要求时,即丢包率、系统全局丢包率、端对端时延均小于对应的网络性能指标,则该神经网络模型作为最终的训练后的神经网络模型,用于进行最终的多优先级信道分配;
否则,重复权利要求1中的步骤1)-2),直到神经网络模型符合要求为止。
8.根据权利要求7所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,所述网络性能指标包括:
丢包率
Figure FDA0002483690980000051
其中
Figure FDA0002483690980000052
表示在时隙t信道c是否被分配给工业5G终端n;
Figure FDA0002483690980000053
与工业5G终端n优先级p相关;
Figure FDA0002483690980000054
表示时隙t开始时工业5G终端n在信道c上准备传输的数据包数量,
Figure FDA0002483690980000055
表示时隙t结束时工业5G终端n在信道c上成功传输的数据包数量;
系统全局丢包率
Figure FDA0002483690980000056
其中
Figure FDA0002483690980000057
表示全部N个工业5G终端在时隙t成功传输的数据包数量,
Figure FDA0002483690980000058
表示全部N个工业5G终端在时隙t等待传输的数据包数量;
端到端时延定义为
Figure FDA0002483690980000059
其中
Figure FDA00024836909800000510
定义为工业5G终端n的传播时延,即电磁波从一个工业5G终端发送端到另一个工业5G终端接收端所经历的时延;
Figure FDA00024836909800000511
定义为工业5G终端n的传输时延,即从数据包的第一个比特被发送到最后一个比特被发送所经历的时延;
Figure FDA00024836909800000512
定义为工业5G终端n的排队时延,即数据包到达工业5G终端到离开工业5G终端所经历的时延;dhw定义为硬件时延,即工业5G终端的硬件性能造成的时延。
9.根据权利要求1所述的基于深度强化学习的工业5G动态多优先级多接入方法,其特征在于,所述收集当前工业5G网络内全部工业5G终端的状态信息,作为神经网络模型输入,通过神经网络模型进行多优先级信道分配,包括以下步骤:
收集当前时隙t工业5G网络内全部N个工业5G终端的状态向量
Figure FDA00024836909800000513
作为训练好的神经网络模型输入,得到输出动作向量
Figure FDA0002483690980000061
根据得到的输出动作向量,工业基站调度工业5G终端接入信道。
10.基于深度强化学习的工业5G动态多优先级多接入系统,其特征在于,包括:
边缘计算服务器,用于建立基于深度强化学习的动态多优先级多信道接入神经网络模型并训练;
工业5G终端,用于产生不同传输要求的工业数据,收集终端的状态信息、动作信息、奖励信息;
工业5G基站,用于下载训练后的神经网络模型,并将工业5G终端的状态信息作为该神经网络模型输入,通过该神经网络模型进行多优先级信道分配。
CN202010385640.4A 2020-05-09 2020-05-09 基于深度强化学习的工业5g动态多优先级多接入方法 Active CN111628855B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010385640.4A CN111628855B (zh) 2020-05-09 2020-05-09 基于深度强化学习的工业5g动态多优先级多接入方法
PCT/CN2020/139322 WO2021227508A1 (zh) 2020-05-09 2020-12-25 基于深度强化学习的工业5g动态多优先级多接入方法
US17/296,509 US20220217792A1 (en) 2020-05-09 2020-12-25 Industrial 5g dynamic multi-priority multi-access method based on deep reinforcement learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010385640.4A CN111628855B (zh) 2020-05-09 2020-05-09 基于深度强化学习的工业5g动态多优先级多接入方法

Publications (2)

Publication Number Publication Date
CN111628855A true CN111628855A (zh) 2020-09-04
CN111628855B CN111628855B (zh) 2021-06-15

Family

ID=72272702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010385640.4A Active CN111628855B (zh) 2020-05-09 2020-05-09 基于深度强化学习的工业5g动态多优先级多接入方法

Country Status (3)

Country Link
US (1) US20220217792A1 (zh)
CN (1) CN111628855B (zh)
WO (1) WO2021227508A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112188503A (zh) * 2020-09-30 2021-01-05 南京爱而赢科技有限公司 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法
CN113543156A (zh) * 2021-06-24 2021-10-22 中国科学院沈阳自动化研究所 基于多智能体深度强化学习的工业无线网络资源分配方法
CN113613339A (zh) * 2021-07-10 2021-11-05 西北农林科技大学 基于深度强化学习的多优先级无线终端的信道接入方法
WO2021227508A1 (zh) * 2020-05-09 2021-11-18 中国科学院沈阳自动化研究所 基于深度强化学习的工业5g动态多优先级多接入方法
CN114599117A (zh) * 2022-03-07 2022-06-07 中国科学院微小卫星创新研究院 低轨卫星网络随机接入中回退资源的动态配置方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200257985A1 (en) * 2019-02-08 2020-08-13 DeepSig Inc. Adversarially generated communications
US20220007382A1 (en) * 2020-10-07 2022-01-06 Intel Corporation Model-assisted deep reinforcement learning based scheduling in wireless networks
CN115315020A (zh) * 2022-08-08 2022-11-08 重庆邮电大学 基于区分服务的ieee 802.15.4协议的智能csma/ca退避方法
CN116233895B (zh) * 2023-05-04 2023-07-18 合肥工业大学 基于强化学习的5g配网节点通信优化方法、设备及介质
CN116341685B (zh) * 2023-05-31 2023-07-21 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014164856A1 (en) * 2013-03-11 2014-10-09 Entropic Communications, Inc. Synchronized multi-channel access system
CN110035478A (zh) * 2019-04-18 2019-07-19 北京邮电大学 一种高速移动场景下的动态多信道接入方法
CN110691422A (zh) * 2019-10-06 2020-01-14 湖北工业大学 一种基于深度强化学习的多信道智能接入方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020032594A1 (ko) * 2018-08-07 2020-02-13 엘지전자 주식회사 무선 통신 시스템에서 노드의 동작 방법 및 상기 방법을 이용하는 장치
KR102201858B1 (ko) * 2019-08-26 2021-01-12 엘지전자 주식회사 인공지능 기반 영상 편집 방법 및 지능형 디바이스
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法
CN110856268B (zh) * 2019-10-30 2021-09-07 西安交通大学 一种无线网络动态多信道接入方法
CN111628855B (zh) * 2020-05-09 2021-06-15 中国科学院沈阳自动化研究所 基于深度强化学习的工业5g动态多优先级多接入方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014164856A1 (en) * 2013-03-11 2014-10-09 Entropic Communications, Inc. Synchronized multi-channel access system
CN110035478A (zh) * 2019-04-18 2019-07-19 北京邮电大学 一种高速移动场景下的动态多信道接入方法
CN110691422A (zh) * 2019-10-06 2020-01-14 湖北工业大学 一种基于深度强化学习的多信道智能接入方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHEN ZHONG ET AL.: "A Deep Actor-Critic Reinforcement Learning Framework for Dynamic Multichannel Access", 《IEEE TRANSACTIONS ON COGNITIVE COMMUNICATIONS AND NETWORKING》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021227508A1 (zh) * 2020-05-09 2021-11-18 中国科学院沈阳自动化研究所 基于深度强化学习的工业5g动态多优先级多接入方法
CN112188503A (zh) * 2020-09-30 2021-01-05 南京爱而赢科技有限公司 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法
CN112188503B (zh) * 2020-09-30 2021-06-22 南京爱而赢科技有限公司 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法
CN113543156A (zh) * 2021-06-24 2021-10-22 中国科学院沈阳自动化研究所 基于多智能体深度强化学习的工业无线网络资源分配方法
CN113543156B (zh) * 2021-06-24 2022-05-06 中国科学院沈阳自动化研究所 基于多智能体深度强化学习的工业无线网络资源分配方法
CN113613339A (zh) * 2021-07-10 2021-11-05 西北农林科技大学 基于深度强化学习的多优先级无线终端的信道接入方法
CN113613339B (zh) * 2021-07-10 2023-10-17 西北农林科技大学 基于深度强化学习的多优先级无线终端的信道接入方法
CN114599117A (zh) * 2022-03-07 2022-06-07 中国科学院微小卫星创新研究院 低轨卫星网络随机接入中回退资源的动态配置方法
CN114599117B (zh) * 2022-03-07 2023-01-10 中国科学院微小卫星创新研究院 低轨卫星网络随机接入中回退资源的动态配置方法

Also Published As

Publication number Publication date
US20220217792A1 (en) 2022-07-07
CN111628855B (zh) 2021-06-15
WO2021227508A1 (zh) 2021-11-18

Similar Documents

Publication Publication Date Title
CN111628855B (zh) 基于深度强化学习的工业5g动态多优先级多接入方法
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN113222179B (zh) 一种基于模型稀疏化与权重量化的联邦学习模型压缩方法
CN110167176B (zh) 一种基于分布式机器学习的无线网络资源分配方法
CN110968426B (zh) 一种基于在线学习的边云协同k均值聚类的模型优化方法
CN111867139A (zh) 基于q学习的深度神经网络自适应退避策略实现方法及系统
CN110856268B (zh) 一种无线网络动态多信道接入方法
CN112788605B (zh) 基于双延迟深度确定性策略边缘计算资源调度方法和系统
CN112261725B (zh) 一种基于深度强化学习的数据包传输智能决策方法
CN110300417B (zh) 无人机通信网络的能量效率优化方法和装置
CN114585006B (zh) 基于深度学习的边缘计算任务卸载和资源分配方法
CN109548161A (zh) 一种无线资源调度的方法、装置和终端设备
CN112492691A (zh) 一种深度确定性策略梯度的下行noma功率分配方法
CN115374853A (zh) 基于T-Step聚合算法的异步联邦学习方法及系统
CN114885420A (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
CN114158105A (zh) 应用于综合能源系统的无线传感器网络的路由方法及装置
Sharara et al. A recurrent neural network based approach for coordinating radio and computing resources allocation in cloud-ran
CN110505681B (zh) 基于遗传方法的非正交多址接入场景用户配对方法
CN116939866A (zh) 一种基于协同计算和资源分配联合优化的无线联邦学习效率提升方法
CN115756873B (zh) 一种基于联邦强化学习的移动边缘计算卸载方法和平台
CN116484976A (zh) 一种无线网络中异步联邦学习方法
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法
CN115103372A (zh) 一种基于深度强化学习的多用户mimo系统用户调度方法
CN115314399A (zh) 一种基于逆强化学习的数据中心流量调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant