CN113490184B - 一种面向智慧工厂的随机接入资源优化方法及装置 - Google Patents

一种面向智慧工厂的随机接入资源优化方法及装置 Download PDF

Info

Publication number
CN113490184B
CN113490184B CN202110505072.1A CN202110505072A CN113490184B CN 113490184 B CN113490184 B CN 113490184B CN 202110505072 A CN202110505072 A CN 202110505072A CN 113490184 B CN113490184 B CN 113490184B
Authority
CN
China
Prior art keywords
model
local
access
cloud
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110505072.1A
Other languages
English (en)
Other versions
CN113490184A (zh
Inventor
张海君
姜铭慧
刘向南
隆克平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202110505072.1A priority Critical patent/CN113490184B/zh
Publication of CN113490184A publication Critical patent/CN113490184A/zh
Application granted granted Critical
Publication of CN113490184B publication Critical patent/CN113490184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/70Services for machine-to-machine communication [M2M] or machine type communication [MTC]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0833Random access procedures, e.g. with 4-step access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种面向智慧工厂的随机接入资源优化方法及装置,该方法包括:根据不同业务的时延敏感程度对各业务接入优先级进行划分;在局部端采用强化学习算法来训练本地模型;并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合,建立共享机器学习模型;其中,强化学习目标为:在保证各类业务服务质量需求的前提下,最大化用户成功接入数量;利用优化好的共享机器学习模型实现接入资源分配,以实现在满足各类业务服务质量需求的前提下,最大化系统吞吐量,提升工厂整体生产效率。本发明可在满足工业生产中各类业务时延需求的前提下,优化资源利用率,提高网络性能。

Description

一种面向智慧工厂的随机接入资源优化方法及装置
技术领域
本发明涉及无线通信技术领域,特别涉及一种面向智慧工厂的随机接入资源优化方法及装置。
背景技术
随着工业制造业向着数字化、网络化、智能化快速转型,密集工业设备的大规模接入使得工厂在生产运作过程中出现了严重的网络拥塞问题。
因此,如何通过对接入资源进行合理分配从而最大限度地提高系统吞吐量是目前智慧工厂亟需解决的问题之一。
近年来基于接入类别限制(Access Class Barring,ACB)机制的拥塞控制方案广泛用于无线通信领域,但目前基于ACB机制的拥塞控制方案在面向智慧工厂的M2M通信场景中,对工业互联网中海量接入请求而引起的网络拥塞与过载问题解决效果还不够理想,需要改进。
发明内容
本发明提供了一种面向智慧工厂的随机接入资源优化方法及装置,以解决基于ACB机制的拥塞控制方案在面向智慧工厂的M2M通信场景中,对工业互联网中海量接入请求而引起的网络拥塞与过载问题解决效果不够理想的问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种面向智慧工厂的随机接入资源优化方法,该面向智慧工厂的随机接入资源优化方法包括:
根据工业生产中各业务的时延敏感程度对各业务接入优先级进行划分;
在局部端采用强化学习算法来训练本地模型;并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合,建立共享机器学习模型;其中,所述采用强化学习算法来训练本地模型的目标为:基于对各业务接入优先级的划分结果,在保证各类业务服务质量需求的前提下,最大化用户成功接入数量;
利用优化好的共享机器学习模型实现接入资源分配,以实现在满足各类业务服务质量需求的前提下,最大化系统吞吐量,从而提升工厂整体生产效率。
进一步地,所述对各业务接入优先级进行划分,包括:
按照优先级逐渐下降的方式,对工业生产中的紧急预警/报警业务、设备交互、远程控制业务以及数据采集业务进行接入优先级划分。
进一步地,所述强化学习算法为深度Q网络算法DQN。
进一步地,在局部端采用强化学习算法来训练本地模型;并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合,建立共享机器学习模型,包括:
在系统的基站部署联邦强化学习模型,在云端初始化模型,并广播至所有参与方;在局部端初始化系统的状态空间、动作空间以及深度神经网络参数;
局部端根据当前状态采用ε-贪婪探索策略进行动作选取;以ε的概率随机选择某种行为进行探索学习;以1-ε的概率,从过往经验中选取最大Q值对应的动作作为当前状态的动作;
根据与环境进行交互,获得即时奖励和系统中所处的下一状态,并将其存储到经验池中;
判断存储的经验数量是否达到要求,若达到要求则进行深度强化学习;
进行深度强化学习时,根据贝尔曼方程获得即时奖励,进行学习,在学习的过程中目标是最大化长期奖励函数,目的是保证系统内的多类业务间的随机接入资源分配最优,更新本地模型参数;
当本地模型达到最大迭代次数,使用加密算法将加密后的本地模型及相关损失函数上传至云端;
云端聚合来自各参与方的本地模型并更新全局模型;
若云端全局损失函数已收敛或达到最大的训练迭代次数,则云端给各参与方发送信号,停止本地模型训练,得到训练好的共享机器学习模型;否则,云端将聚合后的模型参数广播至各参与方,并继续在局部端进行本地模型训练。
进一步地,所述状态空间由每个时隙的接入结果组成,所述接入结果包括各个类别用户的成功访问数量、发生冲突数量及产生的时延三个部分;
所述动作空间为各个类别用户的接入限制参数,以使基站随着系统拥塞状态的变化动态学习调整接入限制参数值。
进一步地,局部端进行动作选取需借助构建的深度神经网络;DQN采用两个结构相同、参数不同的神经网络,即主神经网络和目标神经网络,主神经网络周期性地将模型参数复制给目标神经网络,从而缓解模型发散及震荡问题。
进一步地,所述即时奖励的获取,包括:
在满足各类业务平均时延小于最大时延约束的条件下,系统根据环境获得即时奖励,即时奖励的表达式为:
Figure BDA0003058040550000031
其中,L为用户分类数,Sx为该时隙下x类用户在采取动作a=PACB={p1,p2,…,pL}后各类业务成功访问的机器类型通信设备(Machine Type Communication Device,MTCD)数量。
进一步地,所述当本地模型达到最大迭代次数,使用加密算法将加密后的本地模型及相关损失函数上传至云端,包括:
当本地模型达到最大迭代次数,使用同态加密算法将加密后的本地模型及相关损失函数上传至云端。
进一步地,所述云端聚合来自各参与方的本地模型并更新全局模型,包括:
云端通过采用联邦平均算法对各个局部端上传的加密模型参数进行全局模型聚合,并将更新的全局模型广播至各参与方,局部端通过解密获得全局模型参数作为下一轮训练的初始配置,经过多次迭代,最终得到最优模型。
另一方面,本发明还提供了一种面向智慧工厂的随机接入资源优化装置,该面向智慧工厂的随机接入资源优化装置包括:
业务接入优先级划分模块,用于根据工业生产中各业务的时延敏感程度对各业务接入优先级进行划分;
联邦强化学习模块,用于在局部端采用强化学习算法来训练本地模型;并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合,建立共享机器学习模型;其中,所述采用强化学习算法来训练本地模型的目标为:基于所述业务接入优先级划分模块对各业务接入优先级的划分结果,在保证各类业务服务质量需求的前提下,最大化用户成功接入数量;
随机接入资源优化模块,用于利用经过所述联邦强化学习模块训练好的共享机器学习模型进行接入资源分配,以实现在满足各类业务服务质量需求的前提下,最大化系统吞吐量,从而提升工厂整体生产效率。
再一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明以最大化系统吞吐量为目标,基于联邦强化学习提出了一种面向智慧工厂的业务动态优先级的随机接入资源优化方案。根据工业制造过程中不同业务的时延敏感程度划分接入优先级,对传统ACB机制进行改进,并结合联邦学习与深度强化学习对用户接入控制进行优化。在保证基站及工业生产设备数据安全的前提下,实现了接入资源最大化使用,为确保车间生产过程中的数据采集、控制、交互等多种业务的可靠、安全、有效接入提供了有力的技术支撑。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的面向智慧工厂的随机接入资源优化方法流程图;
图2为智慧工厂无线网络场景图;
图3为本发明实施例提供的联邦强化学习架构图;
图4为本发明实施例提供的局部端深度强化学习步骤示意图;
图5为本发明实施例提供的随机接入资源优化方法整体步骤示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
针对智慧工厂的M2M通信场景中,为解决工业互联网中海量接入请求而引起的网络拥塞与过载问题,本实施例提供了一种面向智慧工厂的基于联邦学习、强化学习和动态接入优先级的随机接入资源优化方法。该方法的主要思想是,通过引入基于动态优先级的ACB机制对工业智能制造中的海量设备接入问题进行有效控制,根据时延敏感度对业务划分优先级,并采用退避重传机制,缓解网络拥塞问题。进一步地,结合联邦学习和深度强化学习实现随机接入前导码资源的高效分配。局部端采用深度强化学习来训练智能体,并利用DQN经验回放的方式来存储智能体的环境状态、动作、回报等信息进行无模型训练,以实时调度各类业务的接入限制参数;云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合,建立有效且精确的共享机器学习模型,实现在满足各类业务需求的前提下,最大化系统吞吐量,从而提升工厂整体生产效率。
本实施例的方法通过在ACB方案基础上根据各类业务需求引入动态接入优先权分类机制,并采用联邦强化学习算法对随机接入资源进行分配,从而提高通信系统性能。其中,联邦学习作为一种很有前途的技术,最近引起了业界和学术界的广泛关注。联邦学习能够帮助多个参与方协作构建共享的高性能模型,同时又能保护本地隐私敏感数据免受外部直接访问。在联邦学习框架中,每个移动设备使用自己的数据集在本地训练模型,然后将模型参数加密传输至云端进行全局聚合,云端聚合通常采用联邦平均算法。由于联邦学习不需要直接数据交换或者收集的形式,所以可以在很大限度上保护工厂制造生产过程中的用户隐私和数据完整性。此外,通过联邦学习训练出的模型与各个参与方的本地模型相比具有更优良的性能。
同时,深度强化学习可通过对高维动态数据进行分析并做出决策,面对资源分配的问题,采用深度强化学习对该问题进行建模后可快速得出最优决策,并展现出较高的性能。深度强化学习对于状态空间和动作空间较大的资源分配问题具有良好的性能。因此,将联邦学习与深度强化学习相结合,可在保护基站及用户隐私安全的前提下,有效解决海量设备的过载接入问题。
本实施例方法针对工厂运作过程中数据采集、远程控制、设备交互等多种业务需求对随机接入资源进行优化。首先,根据时延敏感度对各类业务优先级进行划分,支持如设备异常状态预警等紧急业务的优先接入,并采用退避机制缓解因重传而引起的网络拥塞问题。进而通过采用联邦强化学习对基于动态优先级的随机接入资源进行最优分配。本方法的重点是在传统ACB机制的基础上引入业务优先级的概念,并根据工业无线网络的实时拥塞情况,对前导资源进行动态分配,同时采用联邦强化学习设计多类业务随机接入资源分配算法及装置,最大化接入成功概率与无线接入资源利用率,为智慧工厂无线网络的全生命周期管理提供接入资源的最优动态分配,提高无线资源分配的整体经济效益。
基于上述,如图1所示,本实施例的随机接入资源优化方法包括以下步骤:
S1,根据工业生产中各业务的时延敏感程度对各业务接入优先级进行划分;
S2,在局部端采用强化学习算法来训练本地模型;并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合,建立共享机器学习模型;其中,采用强化学习算法来训练本地模型的目标为基于对各业务接入优先级的划分结果,在保证各类业务服务质量需求的前提下,最大化用户成功接入数量;
S3,利用优化好的共享机器学习模型实现接入资源分配,以实现在满足各类业务服务质量需求的前提下最大化系统吞吐量,从而提升工厂整体生产效率。
其中,智慧工厂无线网络场景如图2所示,本实施例根据工业生产中各业务的时延敏感程度对各业务接入优先级进行划分,具体为:将最高优先级分配给紧急预警/报警业务,该类业务具有发生频率较低、延迟约束极低和信道接入成功率较高等要求的特点;其次,将较低的优先级分配给设备交互、远程控制类等具有更为宽松的延迟约束和中等信道接入成功率要求的业务;最后,将数据采集类业务设为最低优先级,该类业务通过实时采集工厂设备状态及环境等数据,周期性地向基站报告数据,具有连接密度大、延迟容忍的特点。
进一步地,本实施例所采用的强化学习算法为深度Q网络算法DQN。
本实施例的联邦强化学习架构如图3所示,共设有三个局部端使用DQN算法进行本地模型训练,云端服务器作为协调方进行初始化模型,并广播至所有参与方;并且进行模型聚合并将更新后的全局模型广播至各参与方;其中,局部端的执行的算法步骤及云端和局部端的整体算法步骤分别如图4和图5所示。
具体地,本实施例的上述S2包括以下流程步骤:
步骤1:初始化用户及神经网络内的各项参数及局部端智能体环境信息;
其中,云端初始化模型参数,并将原始的模型参数广播至所有的参与方。具体地,在步骤1中,初始化的各种参数包括:各类业务的最大传输时延Dreq,网络参数θ和θ′,智能体动作、状态、重放经验池
Figure BDA0003058040550000061
等。在局部端,由基站在每个时隙的接入结果(各类业务成功接入数量、产生的时延、发生冲突数量)组成状态空间,动作空间则为各类业务的接入限制因子。
步骤2:根据基站当前所处状态,采用ε-贪婪探索策略进行动作选取。
其中,步骤2中的动作包括对不同类型用户所采取的接入限制参数。具体地,以ε的概率随机选择动作进行探索学习;以1-ε的概率,从过往经验中选取最大Q值对应的动作作为当前状态的动作。
步骤3:智能体与环境进行交互,获得即时奖励,依据状态转移概率获得系统的下一状态,将其存储到经验池中。在之后学习的过程中,采取小批量样本进行学习,目的是减小数据之间的相关性。
其中,在步骤3中,系统想要获得即时奖励,必须满足当前时隙下各类业务平均时延小于各自的最大允许时延的约束条件,在满足以上约束的条件下,根据环境获得即时奖励(用户成功接入数量),即时奖励的表达式为:
Figure BDA0003058040550000071
其中,L为用户分类数,Sx为该时隙下x类用户在采取动作a=PACB={p1,p2,…,pL}后各类业务成功访问的MTCD数量,x类用户成功访问的设备预期数量为:
Figure BDA0003058040550000072
其中,
Figure BDA0003058040550000073
为在第i个时隙尝试接入的x类设备总数,
Figure BDA0003058040550000074
为第i个时隙对x类设备所采取的接入限制因子,F为用于竞争接入的前导码数量,L为用户分类数量。
步骤4:判断存储的经验数量是否达到要求,若达到则开始深度强化学习。
步骤5:根据贝尔曼方程获得即时奖励,进行学习,采用深度Q网络算法。该算法在深度神经网络结构的建立上,在最后一层神经网络输出各个动作及对应Q值,将神经网络强大的感知能力与强化学习的决策能力相结合,解决传统强化学习状态空间过大或连续的问题。同时深度强化学习算法的表达式为:
Figure BDA0003058040550000075
其中,yj表示目标值即实际值,rj表示执行完动作a后所获得的即时奖励,γ表示折扣因子,φj+1为该神经网络的输入(由动作及观察序列组成),a′表示选取的动作,θ-表示目标神经网络的参数。
深度强化学习目标是使长期奖励函数最大化,即在保证各类业务QoS需求的前提下,最大化用户成功接入数量。
步骤6:当本地模型达到最大迭代次数,使用同态加密算法将加密后的本地模型
Figure BDA0003058040550000081
及相关损失函数
Figure BDA0003058040550000082
上传至云端,其中损失函数
Figure BDA0003058040550000083
的表达式为:
Figure BDA0003058040550000084
步骤7:云端使用联邦平均算法聚合来自各参与方的本地模型:
Figure BDA0003058040550000085
Figure BDA0003058040550000086
其中,t为全局迭代索引值,K为参与方数量,[[·]]为同态加密算法,
Figure BDA0003058040550000087
为第t次迭代下的全局模型参数,
Figure BDA0003058040550000088
为全局损失函数,nk为第k个参与方的参数数量,n为参数总数。
步骤8:云端服务器将聚合后的模型参数
Figure BDA0003058040550000089
广播至各参与方,各参与方使用当前全局模型继续本地模型训练,直至全局损失函数
Figure BDA00030580405500000810
已收敛或达到最大训练迭代次数,表明系统已获得最优资源分配,终止该资源分配的优化过程。
综上,本实施例为了改变目前工业智能制造生产过程中海量设备的接入优化问题,引入动态优先级的ACB机制,提供一种基于联邦强化学习的随机接入资源优化方法。该方法主要是在ACB方案的基础上,针对各类业务的时延敏感情况引入接入优先权动态分类机制,根据工业无线网络实时的拥塞情况,动态地对前导资源进行分配,并使用联邦强化学习进行网络模型训练,从而利用基于动态优先级的ACB机制,并采用结合联邦学习和深度强化学习(Deep Reinforcement Learning,DRL)的方法,解决工业互联网中海量低功耗机器类通信(Machine Type Communication,MTC)设备的高效接入问题。
本实施例的随机接入资源优化方法将智慧工厂M2M通信场景中的无线资源分配转化为具有时延约束的接入优化问题,从工业智能生产过程中数据采集、远程控制、设备交互等不同业务需求出发,根据时延敏感程度对设备的回退时间和可分配资源进行接入控制请求,并在基站采用基于联邦强化学习的负载接入控制算法来解决大量设备接入而导致的网络拥塞问题。
并且,本实施例的联邦强化学习框架设计中,通过借助深度神经网络(DeepNeural Networks,DNN)的参数化功能,在局部端采用深度Q网络(Deep Q-network,DQN)对智能体进行无模型训练,获取相应的动作和策略,以实时调度各类业务的接入限制参数,最大化用户接入吞吐量;在云端采用联邦平均算法聚合各个局部端的本地模型,并将聚合后的模型广播至各个参与方,从而协助多个参与方搭建共享的高性能模型。通过迭代循环将证明基于联邦强化学习的随机接入资源分配优化方法及装置的独特性,最终实现智慧工厂无线通信网络整体接入性能的有效提升。实现了在满足工业生产中各类业务时延需求的前提下优化资源利用率,提高网络性能。
第二实施例
本实施例提供了一种面向智慧工厂的随机接入资源优化装置,该装置包括:
业务接入优先级划分模块,用于根据工业生产中各业务的时延敏感程度对各业务接入优先级进行划分;
联邦强化学习模块,用于在局部端采用强化学习算法来训练本地模型;并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合,建立共享机器学习模型;其中,所述采用强化学习算法来训练本地模型的目标为:基于所述业务接入优先级划分模块对各业务接入优先级的划分结果,在保证各类业务服务质量需求的前提下,最大化用户成功接入数量;
随机接入资源优化模块,用于利用经过所述联邦强化学习模块训练好的共享机器学习模型进行接入资源分配,以实现在满足各类业务服务质量需求的前提下,最大化系统吞吐量,从而提升工厂整体生产效率。
本实施例的面向智慧工厂的随机接入资源优化装置与上述第一实施例的面向智慧工厂的随机接入资源优化方法相对应;其中,本实施例的面向智慧工厂的随机接入资源优化装置中的各功能模块所实现的功能与第一实施例的面向智慧工厂的随机接入资源优化方法中的各流程步骤一一对应;故,在此不再赘述。
第三实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行上述方法。
第四实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述第一实施例的方法。其中,该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (2)

1.一种面向智慧工厂的随机接入资源优化方法,其特征在于,包括:
根据工业生产中各业务的时延敏感程度对各业务接入优先级进行划分;
在局部端采用强化学习算法来训练本地模型;并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合,建立共享机器学习模型;其中,所述采用强化学习算法来训练本地模型的目标为:基于对各业务接入优先级的划分结果,在保证各类业务服务质量需求的前提下,最大化用户成功接入数量;
利用优化好的共享机器学习模型实现接入资源分配,以实现在满足各类业务服务质量需求的前提下,最大化系统吞吐量,从而提升工厂整体生产效率;
所述对各业务接入优先级进行划分,包括:
按照优先级逐渐下降的方式,对工业生产中的紧急预警/报警业务、设备交互、远程控制业务以及数据采集业务进行接入优先级划分;
所述强化学习算法为深度Q网络算法DQN;
在局部端采用强化学习算法来训练本地模型;并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合,建立共享机器学习模型,包括:
在系统的基站部署联邦强化学习模型,在云端初始化模型,并广播至所有参与方;在局部端初始化系统的状态空间、动作空间以及深度神经网络参数;
局部端根据当前状态采用ε-贪婪探索策略进行动作选取;以ε的概率随机选择某种行为进行探索学习;以1-ε的概率,从过往经验中选取最大Q值对应的动作作为当前状态的动作;
根据与环境进行交互,获得即时奖励和系统中所处的下一状态,并将其存储到经验池中;
判断存储的经验数量是否达到要求,若达到要求则进行深度强化学习;
进行深度强化学习时,根据贝尔曼方程获得即时奖励,进行学习,在学习的过程中目标是最大化长期奖励函数,目的是保证系统内的多类业务间的随机接入资源分配最优,更新本地模型参数;
当本地模型达到最大迭代次数,使用加密算法将加密后的本地模型及相关损失函数上传至云端;
云端聚合来自各参与方的本地模型并更新全局模型;
若云端全局损失函数已收敛或达到最大的训练迭代次数,则云端给各参与方发送信号,停止本地模型训练,得到训练好的共享机器学习模型;否则,云端将聚合后的模型参数广播至各参与方,并继续在局部端进行本地模型训练;
所述状态空间由每个时隙的接入结果组成,所述接入结果包括各个类别用户的成功访问数量、发生冲突数量及产生的时延三个部分;
所述动作空间为各个类别用户的接入限制参数,以使基站随着系统拥塞状态的变化动态学习调整接入限制参数值;
局部端进行动作选取需借助构建的深度神经网络;其中,DQN采用两个结构相同、参数不同的神经网络,即主神经网络和目标神经网络,主神经网络周期性地将模型参数复制给目标神经网络,从而缓解模型发散及震荡问题;
所述即时奖励的获取,包括:
在满足各类业务平均时延小于最大时延约束的条件下,系统根据环境获得即时奖励,即时奖励的表达式为:
Figure FDA0004159828190000021
其中,L为用户分类数,Sx为当前时隙下x类用户在采取动作后各类业务成功访问的机器类型通信设备数量;x类用户成功访问的设备预期数量
Figure FDA0004159828190000023
为:
Figure FDA0004159828190000022
其中,
Figure FDA0004159828190000024
为在第i个时隙尝试接入的x类设备总数,
Figure FDA0004159828190000025
为第i个时隙对x类设备所采取的接入限制因子,F为用于竞争接入的前导码数量,L为用户分类数量;
所述当本地模型达到最大迭代次数,使用加密算法将加密后的本地模型及相关损失函数上传至云端,包括:
当本地模型达到最大迭代次数,使用同态加密算法将加密后的本地模型及相关损失函数上传至云端;
所述云端聚合来自各参与方的本地模型并更新全局模型,包括:
云端通过采用联邦平均算法对各个局部端上传的加密模型参数进行全局模型聚合,并将更新的全局模型广播至各参与方,局部端通过解密获得全局模型参数作为下一轮训练的初始配置,经过多次迭代,最终得到最优模型。
2.一种面向智慧工厂的随机接入资源优化装置,其特征在于,包括:
业务接入优先级划分模块,用于根据工业生产中各业务的时延敏感程度对各业务接入优先级进行划分;
联邦强化学习模块,用于在局部端采用强化学习算法来训练本地模型;并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合,建立共享机器学习模型;其中,所述采用强化学习算法来训练本地模型的目标为:基于所述业务接入优先级划分模块对各业务接入优先级的划分结果,在保证各类业务服务质量需求的前提下,最大化用户成功接入数量;
随机接入资源优化模块,用于利用经过所述联邦强化学习模块训练好的共享机器学习模型进行接入资源分配,以实现在满足各类业务服务质量需求的前提下,最大化系统吞吐量,从而提升工厂整体生产效率;
所述对各业务接入优先级进行划分,包括:
按照优先级逐渐下降的方式,对工业生产中的紧急预警/报警业务、设备交互、远程控制业务以及数据采集业务进行接入优先级划分;
所述强化学习算法为深度Q网络算法DQN;
在局部端采用强化学习算法来训练本地模型;并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合,建立共享机器学习模型,包括:
在系统的基站部署联邦强化学习模型,在云端初始化模型,并广播至所有参与方;在局部端初始化系统的状态空间、动作空间以及深度神经网络参数;
局部端根据当前状态采用ε-贪婪探索策略进行动作选取;以ε的概率随机选择某种行为进行探索学习;以1-ε的概率,从过往经验中选取最大Q值对应的动作作为当前状态的动作;
根据与环境进行交互,获得即时奖励和系统中所处的下一状态,并将其存储到经验池中;
判断存储的经验数量是否达到要求,若达到要求则进行深度强化学习;
进行深度强化学习时,根据贝尔曼方程获得即时奖励,进行学习,在学习的过程中目标是最大化长期奖励函数,目的是保证系统内的多类业务间的随机接入资源分配最优,更新本地模型参数;
当本地模型达到最大迭代次数,使用加密算法将加密后的本地模型及相关损失函数上传至云端;
云端聚合来自各参与方的本地模型并更新全局模型;
若云端全局损失函数已收敛或达到最大的训练迭代次数,则云端给各参与方发送信号,停止本地模型训练,得到训练好的共享机器学习模型;否则,云端将聚合后的模型参数广播至各参与方,并继续在局部端进行本地模型训练;
所述状态空间由每个时隙的接入结果组成,所述接入结果包括各个类别用户的成功访问数量、发生冲突数量及产生的时延三个部分;
所述动作空间为各个类别用户的接入限制参数,以使基站随着系统拥塞状态的变化动态学习调整接入限制参数值;
局部端进行动作选取需借助构建的深度神经网络;其中,DQN采用两个结构相同、参数不同的神经网络,即主神经网络和目标神经网络,主神经网络周期性地将模型参数复制给目标神经网络,从而缓解模型发散及震荡问题;
所述即时奖励的获取,包括:
在满足各类业务平均时延小于最大时延约束的条件下,系统根据环境获得即时奖励,即时奖励的表达式为:
Figure FDA0004159828190000041
其中,L为用户分类数,Sx为当前时隙下x类用户在采取动作后各类业务成功访问的机器类型通信设备数量;x类用户成功访问的设备预期数量
Figure FDA0004159828190000042
为:
Figure FDA0004159828190000043
其中,
Figure FDA0004159828190000045
为在第i个时隙尝试接入的x类设备总数,
Figure FDA0004159828190000044
为第i个时隙对x类设备所采取的接入限制因子,F为用于竞争接入的前导码数量,L为用户分类数量;
所述当本地模型达到最大迭代次数,使用加密算法将加密后的本地模型及相关损失函数上传至云端,包括:
当本地模型达到最大迭代次数,使用同态加密算法将加密后的本地模型及相关损失函数上传至云端;
所述云端聚合来自各参与方的本地模型并更新全局模型,包括:
云端通过采用联邦平均算法对各个局部端上传的加密模型参数进行全局模型聚合,并将更新的全局模型广播至各参与方,局部端通过解密获得全局模型参数作为下一轮训练的初始配置,经过多次迭代,最终得到最优模型。
CN202110505072.1A 2021-05-10 2021-05-10 一种面向智慧工厂的随机接入资源优化方法及装置 Active CN113490184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110505072.1A CN113490184B (zh) 2021-05-10 2021-05-10 一种面向智慧工厂的随机接入资源优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110505072.1A CN113490184B (zh) 2021-05-10 2021-05-10 一种面向智慧工厂的随机接入资源优化方法及装置

Publications (2)

Publication Number Publication Date
CN113490184A CN113490184A (zh) 2021-10-08
CN113490184B true CN113490184B (zh) 2023-05-26

Family

ID=77932804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110505072.1A Active CN113490184B (zh) 2021-05-10 2021-05-10 一种面向智慧工厂的随机接入资源优化方法及装置

Country Status (1)

Country Link
CN (1) CN113490184B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114302422B (zh) * 2021-11-29 2024-06-18 北京邮电大学 利用学习模型进行业务处理的方法以及装置
CN114358433A (zh) * 2022-01-10 2022-04-15 北京理工大学 基于纵向联邦学习工业软件对接的生产计划管理优化方法
CN115278908A (zh) * 2022-01-24 2022-11-01 北京科技大学 一种无线资源分配优化方法及装置
CN115315020A (zh) * 2022-08-08 2022-11-08 重庆邮电大学 基于区分服务的ieee 802.15.4协议的智能csma/ca退避方法
CN118102356A (zh) * 2022-11-25 2024-05-28 索尼集团公司 用于无线通信的电子设备和方法、计算机可读存储介质
CN116996895B (zh) * 2023-09-27 2024-01-02 香港中文大学(深圳) 一种基于深度强化学习的全网时延和吞吐率联合优化方法
CN117311295B (zh) * 2023-11-28 2024-01-30 深圳百通玄武技术有限公司 基于无线网络设备的生产质量提升方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111629380A (zh) * 2020-05-09 2020-09-04 中国科学院沈阳自动化研究所 面向高并发多业务工业5g网络的动态资源分配方法
WO2021083276A1 (zh) * 2019-10-29 2021-05-06 深圳前海微众银行股份有限公司 横向联邦和纵向联邦联合方法、装置、设备及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9025455B2 (en) * 2011-04-26 2015-05-05 Industrial Technology Research Institute Prioritized random access method, resource allocation method and collision resolution method
CN108738161A (zh) * 2018-04-28 2018-11-02 南京邮电大学 一种机器类通信中基于不同时延需求设备分组的随机接入方法
US10827358B2 (en) * 2018-06-28 2020-11-03 At&T Intellectual Property I, L.P. Software-defined extended access network for internet-of-things for a 5G or other next generation network
US20210073639A1 (en) * 2018-12-04 2021-03-11 Google Llc Federated Learning with Adaptive Optimization
CN109474980B (zh) * 2018-12-14 2020-04-28 北京科技大学 一种基于深度增强学习的无线网络资源分配方法
CN111683381B (zh) * 2020-04-28 2023-04-07 南京邮电大学 基于深度强化学习的端到端网络切片资源分配方法
CN111798002A (zh) * 2020-05-31 2020-10-20 北京科技大学 一种局部模型占比可控的联邦学习全局模型聚合方法
CN112668128B (zh) * 2020-12-21 2024-05-28 国网辽宁省电力有限公司物资分公司 联邦学习系统中终端设备节点的选择方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021083276A1 (zh) * 2019-10-29 2021-05-06 深圳前海微众银行股份有限公司 横向联邦和纵向联邦联合方法、装置、设备及介质
CN111629380A (zh) * 2020-05-09 2020-09-04 中国科学院沈阳自动化研究所 面向高并发多业务工业5g网络的动态资源分配方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Resource Allocation for Wireless Federated Edge Learning based on Data Importance;Yinghui He;GLOBECOM 2020;全文 *
基于深度强化学习的异构云无线接入网自适应无线资源分配算法;陈前斌;管令进;李子煜;王兆堃;杨恒;唐伦;;电子与信息学报(06);全文 *
改进TCP拥塞控制机制实现网络资源的加权分配;徐昌彪,隆克平,杨士中;通信学报(04);全文 *
考虑业务优先级的多信道CRANET合作动态功率控制;张龙;卓凡;白春红;许海涛;;电信科学(07);全文 *

Also Published As

Publication number Publication date
CN113490184A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN113490184B (zh) 一种面向智慧工厂的随机接入资源优化方法及装置
Zhao et al. A reinforcement learning method for joint mode selection and power adaptation in the V2V communication network in 5G
Sharma et al. Toward massive machine type communications in ultra-dense cellular IoT networks: Current issues and machine learning-assisted solutions
Nishio et al. Client selection for federated learning with heterogeneous resources in mobile edge
Yang et al. Deep-reinforcement-learning-based energy-efficient resource management for social and cognitive Internet of Things
Chen et al. Heterogeneous machine-type communications in cellular networks: Random access optimization by deep reinforcement learning
Liao et al. Licensed and unlicensed spectrum management for cognitive M2M: A context-aware learning approach
Xu et al. Resource allocation algorithm based on hybrid particle swarm optimization for multiuser cognitive OFDM network
CN102404853A (zh) 一种发送pdcch的方法和设备
Pacheco-Paramo et al. Delay-aware dynamic access control for mMTC in wireless networks using deep reinforcement learning
Cui et al. Dynamic multichannel access based on deep reinforcement learning in distributed wireless networks
Hsieh et al. Minimizing radio resource usage for machine-to-machine communications through data-centric clustering
Balcı et al. Massive connectivity with machine learning for the Internet of Things
CN112153744A (zh) 一种icv网络中物理层安全资源分配方法
CN114024639B (zh) 一种无线多跳网络中分布式信道分配方法
Brahmi et al. Chaotic grey wolf optimization‐based resource allocation for vehicle‐to‐everything communications
Sun et al. A resource allocation scheme for edge computing network in smart city based on attention mechanism
Zhou et al. Context-aware learning-based resource allocation for ubiquitous power IoT
Hsieh et al. Not every bit counts: Data-centric resource allocation for correlated data gathering in machine-to-machine wireless networks
Zerguine et al. Intelligent CW Selection Mechanism Based on Q-Learning (MISQ).
CN108650698B (zh) 一种机会网络数据转发方法
CN113316156B (zh) 免授权频段上的一种智能共存方法
Mohamedou et al. Bayesian inference and fuzzy inference for spectrum sensing order in cognitive radio networks
Lei et al. QoS-oriented media access control using reinforcement learning for next-generation WLANs
CN108738048B (zh) 一种基于遗传算法的最大化公平性基站主动存储方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant