CN113490184B

CN113490184B - 一种面向智慧工厂的随机接入资源优化方法及装置

Info

Publication number: CN113490184B
Application number: CN202110505072.1A
Authority: CN
Inventors: 张海君; 姜铭慧; 刘向南; 隆克平
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2023-05-26
Anticipated expiration: 2041-05-10
Also published as: CN113490184A

Abstract

本发明公开了一种面向智慧工厂的随机接入资源优化方法及装置，该方法包括：根据不同业务的时延敏感程度对各业务接入优先级进行划分；在局部端采用强化学习算法来训练本地模型；并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合，建立共享机器学习模型；其中，强化学习目标为：在保证各类业务服务质量需求的前提下，最大化用户成功接入数量；利用优化好的共享机器学习模型实现接入资源分配，以实现在满足各类业务服务质量需求的前提下，最大化系统吞吐量，提升工厂整体生产效率。本发明可在满足工业生产中各类业务时延需求的前提下，优化资源利用率，提高网络性能。

Description

一种面向智慧工厂的随机接入资源优化方法及装置

技术领域

本发明涉及无线通信技术领域，特别涉及一种面向智慧工厂的随机接入资源优化方法及装置。

背景技术

随着工业制造业向着数字化、网络化、智能化快速转型，密集工业设备的大规模接入使得工厂在生产运作过程中出现了严重的网络拥塞问题。

因此，如何通过对接入资源进行合理分配从而最大限度地提高系统吞吐量是目前智慧工厂亟需解决的问题之一。

近年来基于接入类别限制(Access Class Barring，ACB)机制的拥塞控制方案广泛用于无线通信领域，但目前基于ACB机制的拥塞控制方案在面向智慧工厂的M2M通信场景中，对工业互联网中海量接入请求而引起的网络拥塞与过载问题解决效果还不够理想，需要改进。

发明内容

本发明提供了一种面向智慧工厂的随机接入资源优化方法及装置，以解决基于ACB机制的拥塞控制方案在面向智慧工厂的M2M通信场景中，对工业互联网中海量接入请求而引起的网络拥塞与过载问题解决效果不够理想的问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种面向智慧工厂的随机接入资源优化方法，该面向智慧工厂的随机接入资源优化方法包括：

根据工业生产中各业务的时延敏感程度对各业务接入优先级进行划分；

在局部端采用强化学习算法来训练本地模型；并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合，建立共享机器学习模型；其中，所述采用强化学习算法来训练本地模型的目标为：基于对各业务接入优先级的划分结果，在保证各类业务服务质量需求的前提下，最大化用户成功接入数量；

利用优化好的共享机器学习模型实现接入资源分配，以实现在满足各类业务服务质量需求的前提下，最大化系统吞吐量，从而提升工厂整体生产效率。

进一步地，所述对各业务接入优先级进行划分，包括：

按照优先级逐渐下降的方式，对工业生产中的紧急预警/报警业务、设备交互、远程控制业务以及数据采集业务进行接入优先级划分。

进一步地，所述强化学习算法为深度Q网络算法DQN。

进一步地，在局部端采用强化学习算法来训练本地模型；并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合，建立共享机器学习模型，包括：

在系统的基站部署联邦强化学习模型，在云端初始化模型，并广播至所有参与方；在局部端初始化系统的状态空间、动作空间以及深度神经网络参数；

局部端根据当前状态采用ε-贪婪探索策略进行动作选取；以ε的概率随机选择某种行为进行探索学习；以1-ε的概率，从过往经验中选取最大Q值对应的动作作为当前状态的动作；

根据与环境进行交互，获得即时奖励和系统中所处的下一状态，并将其存储到经验池中；

判断存储的经验数量是否达到要求，若达到要求则进行深度强化学习；

进行深度强化学习时，根据贝尔曼方程获得即时奖励，进行学习，在学习的过程中目标是最大化长期奖励函数，目的是保证系统内的多类业务间的随机接入资源分配最优，更新本地模型参数；

当本地模型达到最大迭代次数，使用加密算法将加密后的本地模型及相关损失函数上传至云端；

云端聚合来自各参与方的本地模型并更新全局模型；

若云端全局损失函数已收敛或达到最大的训练迭代次数，则云端给各参与方发送信号，停止本地模型训练，得到训练好的共享机器学习模型；否则，云端将聚合后的模型参数广播至各参与方，并继续在局部端进行本地模型训练。

进一步地，所述状态空间由每个时隙的接入结果组成，所述接入结果包括各个类别用户的成功访问数量、发生冲突数量及产生的时延三个部分；

所述动作空间为各个类别用户的接入限制参数，以使基站随着系统拥塞状态的变化动态学习调整接入限制参数值。

进一步地，局部端进行动作选取需借助构建的深度神经网络；DQN采用两个结构相同、参数不同的神经网络，即主神经网络和目标神经网络，主神经网络周期性地将模型参数复制给目标神经网络，从而缓解模型发散及震荡问题。

进一步地，所述即时奖励的获取，包括：

在满足各类业务平均时延小于最大时延约束的条件下，系统根据环境获得即时奖励，即时奖励的表达式为：

其中，L为用户分类数，S_x为该时隙下x类用户在采取动作a＝P_ACB＝{p₁,p₂,…,p_L}后各类业务成功访问的机器类型通信设备(Machine Type Communication Device，MTCD)数量。

进一步地，所述当本地模型达到最大迭代次数，使用加密算法将加密后的本地模型及相关损失函数上传至云端，包括：

当本地模型达到最大迭代次数，使用同态加密算法将加密后的本地模型及相关损失函数上传至云端。

进一步地，所述云端聚合来自各参与方的本地模型并更新全局模型，包括：

云端通过采用联邦平均算法对各个局部端上传的加密模型参数进行全局模型聚合，并将更新的全局模型广播至各参与方，局部端通过解密获得全局模型参数作为下一轮训练的初始配置，经过多次迭代，最终得到最优模型。

另一方面，本发明还提供了一种面向智慧工厂的随机接入资源优化装置，该面向智慧工厂的随机接入资源优化装置包括：

业务接入优先级划分模块，用于根据工业生产中各业务的时延敏感程度对各业务接入优先级进行划分；

联邦强化学习模块，用于在局部端采用强化学习算法来训练本地模型；并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合，建立共享机器学习模型；其中，所述采用强化学习算法来训练本地模型的目标为：基于所述业务接入优先级划分模块对各业务接入优先级的划分结果，在保证各类业务服务质量需求的前提下，最大化用户成功接入数量；

随机接入资源优化模块，用于利用经过所述联邦强化学习模块训练好的共享机器学习模型进行接入资源分配，以实现在满足各类业务服务质量需求的前提下，最大化系统吞吐量，从而提升工厂整体生产效率。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明以最大化系统吞吐量为目标，基于联邦强化学习提出了一种面向智慧工厂的业务动态优先级的随机接入资源优化方案。根据工业制造过程中不同业务的时延敏感程度划分接入优先级，对传统ACB机制进行改进，并结合联邦学习与深度强化学习对用户接入控制进行优化。在保证基站及工业生产设备数据安全的前提下，实现了接入资源最大化使用，为确保车间生产过程中的数据采集、控制、交互等多种业务的可靠、安全、有效接入提供了有力的技术支撑。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的面向智慧工厂的随机接入资源优化方法流程图；

图2为智慧工厂无线网络场景图；

图3为本发明实施例提供的联邦强化学习架构图；

图4为本发明实施例提供的局部端深度强化学习步骤示意图；

图5为本发明实施例提供的随机接入资源优化方法整体步骤示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

针对智慧工厂的M2M通信场景中，为解决工业互联网中海量接入请求而引起的网络拥塞与过载问题，本实施例提供了一种面向智慧工厂的基于联邦学习、强化学习和动态接入优先级的随机接入资源优化方法。该方法的主要思想是，通过引入基于动态优先级的ACB机制对工业智能制造中的海量设备接入问题进行有效控制，根据时延敏感度对业务划分优先级，并采用退避重传机制，缓解网络拥塞问题。进一步地，结合联邦学习和深度强化学习实现随机接入前导码资源的高效分配。局部端采用深度强化学习来训练智能体，并利用DQN经验回放的方式来存储智能体的环境状态、动作、回报等信息进行无模型训练，以实时调度各类业务的接入限制参数；云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合，建立有效且精确的共享机器学习模型，实现在满足各类业务需求的前提下，最大化系统吞吐量，从而提升工厂整体生产效率。

本实施例的方法通过在ACB方案基础上根据各类业务需求引入动态接入优先权分类机制，并采用联邦强化学习算法对随机接入资源进行分配，从而提高通信系统性能。其中，联邦学习作为一种很有前途的技术，最近引起了业界和学术界的广泛关注。联邦学习能够帮助多个参与方协作构建共享的高性能模型，同时又能保护本地隐私敏感数据免受外部直接访问。在联邦学习框架中，每个移动设备使用自己的数据集在本地训练模型，然后将模型参数加密传输至云端进行全局聚合，云端聚合通常采用联邦平均算法。由于联邦学习不需要直接数据交换或者收集的形式，所以可以在很大限度上保护工厂制造生产过程中的用户隐私和数据完整性。此外，通过联邦学习训练出的模型与各个参与方的本地模型相比具有更优良的性能。

同时，深度强化学习可通过对高维动态数据进行分析并做出决策，面对资源分配的问题，采用深度强化学习对该问题进行建模后可快速得出最优决策，并展现出较高的性能。深度强化学习对于状态空间和动作空间较大的资源分配问题具有良好的性能。因此，将联邦学习与深度强化学习相结合，可在保护基站及用户隐私安全的前提下，有效解决海量设备的过载接入问题。

本实施例方法针对工厂运作过程中数据采集、远程控制、设备交互等多种业务需求对随机接入资源进行优化。首先，根据时延敏感度对各类业务优先级进行划分，支持如设备异常状态预警等紧急业务的优先接入，并采用退避机制缓解因重传而引起的网络拥塞问题。进而通过采用联邦强化学习对基于动态优先级的随机接入资源进行最优分配。本方法的重点是在传统ACB机制的基础上引入业务优先级的概念，并根据工业无线网络的实时拥塞情况，对前导资源进行动态分配，同时采用联邦强化学习设计多类业务随机接入资源分配算法及装置，最大化接入成功概率与无线接入资源利用率，为智慧工厂无线网络的全生命周期管理提供接入资源的最优动态分配，提高无线资源分配的整体经济效益。

基于上述，如图1所示，本实施例的随机接入资源优化方法包括以下步骤：

S1，根据工业生产中各业务的时延敏感程度对各业务接入优先级进行划分；

S2，在局部端采用强化学习算法来训练本地模型；并在云端采用联邦学习算法对各局部端的本地模型参数进行全局模型聚合，建立共享机器学习模型；其中，采用强化学习算法来训练本地模型的目标为基于对各业务接入优先级的划分结果，在保证各类业务服务质量需求的前提下，最大化用户成功接入数量；

S3，利用优化好的共享机器学习模型实现接入资源分配，以实现在满足各类业务服务质量需求的前提下最大化系统吞吐量，从而提升工厂整体生产效率。

其中，智慧工厂无线网络场景如图2所示，本实施例根据工业生产中各业务的时延敏感程度对各业务接入优先级进行划分，具体为：将最高优先级分配给紧急预警/报警业务，该类业务具有发生频率较低、延迟约束极低和信道接入成功率较高等要求的特点；其次，将较低的优先级分配给设备交互、远程控制类等具有更为宽松的延迟约束和中等信道接入成功率要求的业务；最后，将数据采集类业务设为最低优先级，该类业务通过实时采集工厂设备状态及环境等数据，周期性地向基站报告数据，具有连接密度大、延迟容忍的特点。

进一步地，本实施例所采用的强化学习算法为深度Q网络算法DQN。

本实施例的联邦强化学习架构如图3所示，共设有三个局部端使用DQN算法进行本地模型训练，云端服务器作为协调方进行初始化模型，并广播至所有参与方；并且进行模型聚合并将更新后的全局模型广播至各参与方；其中，局部端的执行的算法步骤及云端和局部端的整体算法步骤分别如图4和图5所示。

具体地，本实施例的上述S2包括以下流程步骤：

步骤1：初始化用户及神经网络内的各项参数及局部端智能体环境信息；

其中，云端初始化模型参数，并将原始的模型参数广播至所有的参与方。具体地，在步骤1中，初始化的各种参数包括：各类业务的最大传输时延D_req，网络参数θ和θ′，智能体动作、状态、重放经验池

等。在局部端，由基站在每个时隙的接入结果(各类业务成功接入数量、产生的时延、发生冲突数量)组成状态空间，动作空间则为各类业务的接入限制因子。

步骤2：根据基站当前所处状态，采用ε-贪婪探索策略进行动作选取。

其中，步骤2中的动作包括对不同类型用户所采取的接入限制参数。具体地，以ε的概率随机选择动作进行探索学习；以1-ε的概率，从过往经验中选取最大Q值对应的动作作为当前状态的动作。

步骤3：智能体与环境进行交互，获得即时奖励，依据状态转移概率获得系统的下一状态，将其存储到经验池中。在之后学习的过程中，采取小批量样本进行学习，目的是减小数据之间的相关性。

其中，在步骤3中，系统想要获得即时奖励，必须满足当前时隙下各类业务平均时延小于各自的最大允许时延的约束条件，在满足以上约束的条件下，根据环境获得即时奖励(用户成功接入数量)，即时奖励的表达式为：

其中，L为用户分类数，S_x为该时隙下x类用户在采取动作a＝P_ACB＝{p₁,p₂,…,p_L}后各类业务成功访问的MTCD数量，x类用户成功访问的设备预期数量为：

其中，

为在第i个时隙尝试接入的x类设备总数，

为第i个时隙对x类设备所采取的接入限制因子，F为用于竞争接入的前导码数量，L为用户分类数量。

步骤4：判断存储的经验数量是否达到要求，若达到则开始深度强化学习。

步骤5：根据贝尔曼方程获得即时奖励，进行学习，采用深度Q网络算法。该算法在深度神经网络结构的建立上，在最后一层神经网络输出各个动作及对应Q值，将神经网络强大的感知能力与强化学习的决策能力相结合，解决传统强化学习状态空间过大或连续的问题。同时深度强化学习算法的表达式为：

其中，y_j表示目标值即实际值，r_j表示执行完动作a后所获得的即时奖励，γ表示折扣因子，φ_j+1为该神经网络的输入(由动作及观察序列组成)，a′表示选取的动作，θ^-表示目标神经网络的参数。

深度强化学习目标是使长期奖励函数最大化，即在保证各类业务QoS需求的前提下，最大化用户成功接入数量。

步骤6：当本地模型达到最大迭代次数，使用同态加密算法将加密后的本地模型

及相关损失函数

上传至云端，其中损失函数

的表达式为：

步骤7：云端使用联邦平均算法聚合来自各参与方的本地模型：

其中，t为全局迭代索引值，K为参与方数量，[[·]]为同态加密算法，

为第t次迭代下的全局模型参数，

为全局损失函数，n_k为第k个参与方的参数数量，n为参数总数。

步骤8：云端服务器将聚合后的模型参数

广播至各参与方，各参与方使用当前全局模型继续本地模型训练，直至全局损失函数

已收敛或达到最大训练迭代次数，表明系统已获得最优资源分配，终止该资源分配的优化过程。

综上，本实施例为了改变目前工业智能制造生产过程中海量设备的接入优化问题，引入动态优先级的ACB机制，提供一种基于联邦强化学习的随机接入资源优化方法。该方法主要是在ACB方案的基础上，针对各类业务的时延敏感情况引入接入优先权动态分类机制，根据工业无线网络实时的拥塞情况，动态地对前导资源进行分配，并使用联邦强化学习进行网络模型训练，从而利用基于动态优先级的ACB机制，并采用结合联邦学习和深度强化学习(Deep Reinforcement Learning，DRL)的方法，解决工业互联网中海量低功耗机器类通信(Machine Type Communication，MTC)设备的高效接入问题。

本实施例的随机接入资源优化方法将智慧工厂M2M通信场景中的无线资源分配转化为具有时延约束的接入优化问题，从工业智能生产过程中数据采集、远程控制、设备交互等不同业务需求出发，根据时延敏感程度对设备的回退时间和可分配资源进行接入控制请求，并在基站采用基于联邦强化学习的负载接入控制算法来解决大量设备接入而导致的网络拥塞问题。

并且，本实施例的联邦强化学习框架设计中，通过借助深度神经网络(DeepNeural Networks，DNN)的参数化功能，在局部端采用深度Q网络(Deep Q-network，DQN)对智能体进行无模型训练，获取相应的动作和策略，以实时调度各类业务的接入限制参数，最大化用户接入吞吐量；在云端采用联邦平均算法聚合各个局部端的本地模型，并将聚合后的模型广播至各个参与方，从而协助多个参与方搭建共享的高性能模型。通过迭代循环将证明基于联邦强化学习的随机接入资源分配优化方法及装置的独特性，最终实现智慧工厂无线通信网络整体接入性能的有效提升。实现了在满足工业生产中各类业务时延需求的前提下优化资源利用率，提高网络性能。

第二实施例

本实施例提供了一种面向智慧工厂的随机接入资源优化装置，该装置包括：

本实施例的面向智慧工厂的随机接入资源优化装置与上述第一实施例的面向智慧工厂的随机接入资源优化方法相对应；其中，本实施例的面向智慧工厂的随机接入资源优化装置中的各功能模块所实现的功能与第一实施例的面向智慧工厂的随机接入资源优化方法中的各流程步骤一一对应；故，在此不再赘述。

第三实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第四实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。