CN117193873B

CN117193873B - 一种适用于工业控制系统的计算卸载方法和装置

Info

Publication number: CN117193873B
Application number: CN202311139853.9A
Authority: CN
Inventors: 孙雷; 李莎; 王健全; 朱渊; 张洋; 李卫; 马彰超
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2024-06-25
Anticipated expiration: 2043-09-05
Also published as: CN117193873A

Abstract

本公开提供一种适用于工业控制系统的计算卸载方法，包括下列步骤：从工业控制系统中采集状态向量和固定值，并输入预训练的计算卸载模型，输出卸载比例和本地PLC到gNB的传输功率；基于本地PLC控制任务信息和卸载比例，计算留在本地PLC计算的控制任务量、卸载到边缘PLC计算的控制任务量和本地PLC计算控制任务的计算时间；根据卸载到边缘PLC计算的控制任务量、状态向量和固定值，计算分配给卸载到边缘PLC控制任务的最小计算资源；根据卸载到边缘PLC计算的控制任务量、状态向量和固定值，计算卸载到边缘PLC控制任务的优先级。本公开能够显著提升工业生产系统任务执行效率，又可以延长本地PLC的电池使用寿命，在一定程度上可以缩减工业生产系统的运维成本。

Description

一种适用于工业控制系统的计算卸载方法和装置

技术领域

本公开涉及无线网络通信技术领域，尤其涉及一种适用于工业控制系统的计算卸载方法。

背景技术

计算卸载是一种优化计算资源利用的技术。在计算卸载中，计算任务被划分为多个小任务，并分配到多个加速卡上并行执行，以提高计算效率。同时，由于加速卡具备较强的计算能力，可以减轻后端服务器的计算负担，提高整个系统的吞吐量。计算卸载通常应用于边缘计算中，即移动边缘计算(MEC)框架，将计算任务从移动设备卸载到边缘服务器上进行处理。在MEC框架下，计算卸载可以提高移动设备的计算和存储能力，减少能耗和延迟，提高用户体验。计算卸载可以在边缘服务器上进行，也可以在云端数据中心进行。

工业控制系统在现代工业生产中具有重要的地位和作用。它可以实现对生产过程的自动化和智能化控制，提高生产效率和质量，降低成本和能耗。将计算卸载现有技术应用于工业控制系统存在一系列挑战。

一方面，现有技术是针对于确定性的密集任务进行计算卸载，不考虑实际生产现场的高度随机性和动态性；另一方面，现有技术主要将任务计算完成时延作为优化目标进行计算卸载，并不会明确给定任务完成的截至时延，但是，工业现场的控制任务一般均要求在给定期限内完成控制任务的计算。因此，如何结合实际工业生产场景，对工业控制任务的高度随机性、动态性、时间敏感性和计算密集型进行充分考虑，使工业控制系统在资源受限的约束下，合理分配系统资源并高效完成控制任务计算具有一定的挑战。

发明内容

本公开提供了一种适用于工业控制系统的计算卸载方法。本公开针对工业生产控制场景中任务生产的高度随机性和动态性问题，实现了在任务截至时延和有限资源的约束下，以较低的计算代价成功完成工业控制任务的计算。本公开应用于工业生产控制场景，不仅能用于工业控制边缘PLC和本地PLC的协同计算而且可以以较低的计算代价成功完成工业控制任务的计算，最终达到缩减工业生产系统的运维成本的效果。为解决上述发明目的，本公开提供的技术方案如下：

一方面，提供了一种适用于工业控制系统的计算卸载方法，包括下列步骤：

S1：从工业控制系统中采集状态向量和固定值，所述工业控制系统包括本地PLC、gNB和边缘PLC；所述状态向量包括：本地PLC控制任务信息、本地PLC最大可分配功率、本地PLC可分配计算资源、边缘PLC可分配计算资源、gNB与本地PLC的信道增益；所述固定值包括：gNB为本地PLC分配的系统带宽和本地PLC与gNB之间的距离；所述本地PLC控制任务信息包括本地PLC的每个控制任务、每个控制任务的截至时延和控制任务总量；

S2：将所述状态向量输入预训练的计算卸载模型，输出卸载比例和本地PLC到gNB的传输功率，所述预训练的计算卸载模型基于TD3算法和能耗模型；

S3：基于本地PLC控制任务信息和卸载比例，计算留在本地PLC计算的控制任务量；

S4：基于本地PLC控制任务信息和卸载比例，计算卸载到边缘PLC计算的控制任务量；

S5：根据留在本地PLC计算的控制任务量、状态向量和固定值，计算本地PLC计算控制任务的计算时间；

S6：根据卸载到边缘PLC计算的控制任务量、状态向量和固定值，计算分配给卸载到边缘PLC控制任务的最小计算资源。

S7：根据卸载到边缘PLC计算的控制任务量、状态向量和固定值，计算卸载到边缘PLC控制任务的优先级。

优选地，所述S1的从工业控制系统中采集状态向量和固定值，包括：

所述状态向量的公式如下：

s＝{d,ddl,p_max,h,f_lo,f_e},

其中s是状态向量，d是控制任务量，ddl为控制任务的截至时延，p_max为本地PLC最大可分配功率，h为gNB与本地PLC之间的信道增益，f_lo为本地PLC可分配计算资源，f_e为边缘PLC可分配计算资源。

优选地，所述S3的基于本地PLC控制任务信息和卸载比例，计算留在本地PLC计算的控制任务量，公式如下：

留在本地PLC计算的控制任务量为对于第j个本地PLC在t时隙的控制任务卸载比例为ro_j,t，d_j,t为第j个本地PLC在t时隙的控制任务总量。

优选地，所述S4的基于本地PLC控制任务信息和卸载比例，计算卸载到边缘PLC计算的控制任务量，公式如下：

边缘PLC计算的控制任务量为对于第j个本地PLC在t时隙的控制任务卸载比例为ro_j,t，d_j,t为第j个本地PLC在t时隙的控制任务总量。

优选地，所述S5的根据留在本地PLC计算的控制任务量、状态向量和固定值，计算本地PLC计算控制任务的能源消耗，包括：

计算本地PLC计算控制任务的计算时间的公式如下：

为本地PLC计算控制任务量/>所需的计算时间，c为本地PLC计算1比特数据需要的CPU周期数，f_j,t为第j个本地PLC在t时隙可分配给控制任务的最大计算资源，ddl_j,t为控制任务的截至时延。

优选地，所述S6的根据卸载到边缘PLC计算的控制任务量、状态向量和固定值，计算分配给卸载到边缘PLC控制任务的最小计算资源，公式如下：

为将卸载任务从本地PLC到gNB的传输时间，W为gNB为本地PLC分配的系统带宽，p_j,t为本地PLC到gNB的传输功率，h_j,t为t时隙第j个本地PLC和gNB之间的信道增益，D为本地PLC与gNB之间的距离，β为路径损失系数，σ²为噪声功率，ddl_j,t为控制任务的截至时延,/>在t时隙第j个本地PLC卸载到边缘PLC计算的控制任务量分配的需要的最小计算资源，/>为边缘PLC为在t时隙第j个本地PLC卸载的控制任务量实际分配的计算资源，是边缘PLC为计算卸载任务所花费的最大计算时间，/>是边缘PLC实际计算卸载任务所消耗的时间。

优选地，所述S7的根据卸载到边缘PLC计算的控制任务量、状态向量和固定值，计算卸载到边缘PLC控制任务的优先级，包括：

优先级的公式为：

其中边缘PLC计算的控制任务量为是边缘PLC为计算卸载任务所花费的最大计算时间。

优选地，所述S2的将所述状态向量输入预训练的计算卸载模型，输出卸载比例和本地PLC到gNB的传输功率之前，所述方法还包括：

S00、收集训练数据集；

S01、对待训练的计算卸载模型进行训练，所述待训练的计算卸载模型包括Actor网络，目标Actor网络，两个目标Critic网络，两个Critic网络；

所述S01的对待训练的计算卸载模型进行训练，包括：

S011、从训练数据集中随机抽取一组输入数据，所述一组输入数据包括[s_t,a_t,r_t,s_t+1]，其中s_t为当前环境状态，a_t为当前动作，r_t为奖励值，s_t+1为下一时刻状态；

S012、利用目标Actor网络根据下一时刻状态s_t+1，预测下一时刻的动作为目标Actor网络，/>为目标Actor网络的权重参数，ζ为目标动作噪声，遵循截断正态分布/> 为标准差，ζ噪声取值在[-e，e]区间内；

S013、利用两个目标Critic网络(和/>)对/>进行评分：/>和和/>分别为目标Critic网络的权重参数；

S014、利用两个Critic网络(Q₁和Q₂)对a_t进行评分，分别记为：Q₁(s_t，a_t；ω₁)和Q₂(S_t，a_t；ω₂)，ω₁和ω₂分别为Critic网络的权重参数；

S015、根据贝尔曼公式，基于S013和S014步骤获得的评分计算TD误差，其中γ是折扣因子：

S016、使用梯度下降法更新Critic网络：

其中，ω₁和ω₂为两个Critic网络的权重参数，η为Critic网络的学习率，δ₁和δ₂分别是两个Critic网络的TD误差，和/>分别为两个Critic网络的梯度；

S017、根据Actor网络更新频率fd，每间隔fd轮更新一次Actor网络，使用梯度上升方法更新Actor网络：

其中，θ为Actor网络的权重参数，μ为Actor网络的学习率，为Actor网络的梯度；

S018、重复步骤S011到S017，直到待训练的计算卸载模型直到收敛到奖励最大值，并给出系统最优的决策动作，获得预训练的计算卸载模型

优选地，所述S00的收集训练数据集，包括：

S001、每一个本地PLC在每个时隙依据泊松分布生成1个控制任务，控制任务量为d，并随机生成一个控制任务的截至时延ddl，所述时隙为0.05秒；

S002、同时采集在每个时隙的状态向量，具体的状态向量包括每个本地PLC控制任务信息、每个本地PLC最大可分配功率、每个本地PLC可分配计算资源、边缘PLC可分配计算资源和gNB与本地PLC之间的信道增益；

S003、将S002步骤采集的状态向量转化为状态向量，公式如下：

s＝{d，ddl，p_max，h，f_lo，f_e}，

其中s是状态向量，d是控制任务量，ddl为控制任务的截至时延，p_max为本地PLC最大可分配功率，h为gNB与本地PLC之间的信道增益，f_lo为本地PLC可分配计算资源，f_e为边缘PLC可分配计算资源；

S004、将由步骤S003获得的在t时隙的状态向量输入待训练的计算卸载模型的Actor网络，获得决策向量a_t＝{ro_t，p_t}_N，其中包括卸载比例向量和传输功率分配向量/>是本地PLC集合；

S005、根据决策向量，计算资源分配结果设计奖励函数，如下式：

其中，φ，和ψ为标准化尺度上组合项的系数，/>为本地PLC计算任务/>所消耗的能量，/>为卸载任务/>为传输所消耗的能量，/>为边缘PLC计算卸载任务/>所消耗的能量，则完成计算控制任务d_j，t所消耗能量的计算公式如下式：

其中，κ·(f_j，t)^α+1为本地PLC的CPU单位计算时间能耗，ξ为边缘PLC的CPU单位计算时间能耗，当控制任务d_j，t在给定截至时间内被计算，则获得奖励值r_j，t，否则，r_j，t＝-100，则在t时隙TD3代理获得的总奖励值为：

S006、在执行完步骤S005，环境的状态从s_t转移到下一个状态s_t+1，从而并得到一组训练数据(s_t，a_t，rt，s_t+1)并添加到训练数据集；

S007，重复S001-S006，直到t值到达最大时隙值T，T＝1000。

第二方面，提供了一种适用于工业控制系统的计算卸载装置，包括：

状态采集模块：从工业控制系统中采集状态向量和固定值，所述工业控制系统包括本地PLC、gNB和边缘PLC；所述状态向量包括：本地PLC控制任务信息、本地PLC最大可分配功率、本地PLC可分配计算资源、边缘PLC可分配计算资源、gNB与本地PLC的信道增益；所述固定值包括：gNB为本地PLC分配的系统带宽和本地PLC与gNB之间的距离；所述本地PLC控制任务信息包括本地PLC的每个控制任务、每个控制任务的截至时延和控制任务总量；

卸载决策模块：将所述状态向量输入预训练的计算卸载模型，输出卸载比例和本地PLC到gNB的传输功率，所述预训练的计算卸载模型基于TD3算法和能耗模型；

本地PLC模块：基于本地PLC控制任务信息和卸载比例，计算留在本地PLC计算的控制任务量；

边缘PLC模块：基于本地PLC控制任务信息和卸载比例，计算卸载到边缘PLC计算的控制任务量；

本地PLC计算资源分配模块：根据留在本地PLC计算的控制任务量、状态向量和固定值，计算本地PLC计算控制任务的计算时间；

边缘PLC计算资源分配模块：根据卸载到边缘PLC计算的控制任务量、状态向量和固定值，计算分配给卸载到边缘PLC控制任务的最小计算资源；

优先级模块：根据卸载到边缘PLC计算的控制任务量、状态向量和固定值，计算卸载到边缘PLC控制任务的优先级。

上述技术方案，与现有技术相比至少具有如下有益效果：

上述方案，适用于工业控制系统的计算卸载方法，实现了工业控制任务的云边协同计算，通过将TD3算法联合能耗模型，实现了不断优化工作量卸载比例和传输功率分配，最终在满足任务时延约束下，以较小的计算资源和最低的计算代价，完成工业控制任务的计算。

本公开所提计算卸载方案，即提升了工业生产系统任务执行效率，又可以延长本地PLC的电池使用寿命，在一定程度上可以缩减工业生产系统的运维成本。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一种适用于工业控制系统的计算卸载方法流程图；

图2为本公开收集训练数据集的流程图；

图3为本公开对待训练的计算卸载模型进行训练的流程图；

图4为本公开对待训练的计算卸载模型进行训练的训练过程仿真图；

图5为本公开对计算卸载模型其他方法效果对比图；

图6为本公开一种适用于工业控制系统的计算卸载装置框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

需要说明的是，本公开中使用的“上”、“下”、“左”、“右”“前”“后”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

本公开针对工业生产控制场景，提出了能用于工业控制任务在本地PLC和边缘PLC协同的计算卸载方法。针对工业控制任务随机性强，时效要求高的情况，提出了一种结合TD3和能耗模型的计算卸载方法。

如图1所示，本公开实施例提供了一种适用于工业控制系统的计算卸载方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图1所示的一种适用于工业控制系统的计算卸载方法流程图，该方法的处理流程可以包括如下的步骤：

S6：根据卸载到边缘PLC计算的控制任务量、状态向量和固定值，计算分配给卸载到边缘PLC控制任务的最小计算资源；

需要说明的是，Twin-Delayed Deep Deterministic Policy Gradient(TD3)算法是一种基于确定性策略梯度算法(Deep Deterministic Policy Gradient algorithm，DDPG)的深度强化学习算法，它引入了双Q网络和延迟更新机制。Actor和Critic是TD3算法中的两个神经网络。Actor网络负责输出动作，Critic网络负责输出状态-动作值函数Q(s，a)。在TD3算法中，有两个Critic网络，每个网络的参数独立更新并输出Q值。目标Q值是强化学习算法中的一个重要概念，指代在状态s下采取动作a后，未来能够获得的期望回报。目标Q值的计算使用两个Critic网络的输出的最小值。传统的Q网络容易产生高估值，导致训练不稳定，TD3模型提出了双Q网络来解决这个问题。TD3算法使用两个Q网络来估计动作价值，每个网络的参数独立更新，然后选择两个Q值中较小的一个作为目标Q值。这种方法可以减少目标Q值的方差，提高训练稳定性。

TD3算法和工业控制任务结合的优势在于：(1)TD3算法的噪声鲁棒性特性可以增加探索性，提高模型的鲁棒性，可以应对实际生产现场的高度随机性和动态性的情况，(2)工业现场的控制任务一般均要求在给定期限内完成控制任务的计算，能耗模型可以充分考虑时间限制。将TD3算法和能耗模型结合可以充分考虑工业控制任务的计算卸载需求。

优选的，TD3算法的输入需要是状态向量。所以首先需要将所述部分底层信息组成状态向量，所述状态向量的公式如下：

s＝{d，ddl，p_max，h，f_lo，f_e}，

所述S3的基于本地PLC控制任务信息和卸载比例，计算留在本地PLC计算的控制任务量，公式如下：

留在本地PLC计算的控制任务量为对于第j个本地PLC在t时隙的控制任务卸载比例为ro_j，t，d_j，t为第j个本地PLC在t时隙的控制任务总量。

所述S4的基于本地PLC控制任务信息和卸载比例，计算卸载到边缘PLC计算的控制任务量，公式如下：

边缘PLC计算的控制任务量为对于第j个本地PLC在t时隙的控制任务卸载比例为ro_j，t，d_j，t为第j个本地PLC在t时隙的控制任务总量。

所述S5的根据留在本地PLC计算的控制任务量、状态向量和固定值，计算本地PLC计算控制任务的能源消耗，包括：

计算本地PLC计算控制任务的计算时间的公式如下：

为本地PLC计算控制任务量/>所需的计算时间，c为本地PLC计算1比特数据需要的CPU周期数，f_j，t为第j个本地PLC在t时隙可分配给控制任务的最大计算资源，ddl_j，t为控制任务的截至时延。

所述S6的根据卸载到边缘PLC计算的控制任务量、状态向量和固定值，计算分配给卸载到边缘PLC控制任务的最小计算资源，公式如下：

为将卸载任务从本地PLC到gNB的传输时间，W为gNB为本地PLC分配的系统带宽，p_j，t为本地PLC到gNB的传输功率，h_j，t为t时隙第j个本地PLC和gNB之间的信道增益，D为本地PLC与gNB之间的距离，β为路径损失系数，σ²为噪声功率，ddl_j，t为控制任务的截至时延，/>在t时隙第j个本地PLC卸载到边缘PLC计算的控制任务量分配的需要的最小计算资源，/>为边缘PLC为在t时隙第j个本地PLC卸载的控制任务量实际分配的计算资源，是边缘PLC为计算卸载任务所花费的最大计算时间，/>是边缘PLC实际计算卸载任务所消耗的时间。

所述S7的根据卸载到边缘PLC计算的控制任务量、状态向量和固定值，计算卸载到边缘PLC控制任务的优先级，包括：

优先级的公式为：

需要说明的是，控制任务的资源分配是通过能耗模型实现的。能耗模型和TD3算法联合起来，就可以优化随机工作量卸载比例和传输功率分配，最终在满足任务时延约束下，以较小的计算资源和最低的计算代价，完成工业控制任务的计算。

本公开提出一种适用于工业控制系统的计算卸载方法。在实施这种方法之前还有两个必要步骤，步骤S00：收集训练数据集，步骤S01：对待训练的计算卸载模型进行训练，所述待训练的计算卸载模型包括Actor网络，目标Actor网络，两个目标Critic网络，两个Critic网络。

图2是根据一示例性实施例示出的收集训练数据集的步骤：

s＝{d,ddl,p_max,h,f_lo,f_e},

S006、在执行完步骤S005，环境的状态从s_t转移到下一个状态s_t+1，从而并得到一组训练数据(s_t，a_t，r_t，s_t+1)并添加到训练数据集；

S007，重复S001-S006，直到t值到达最大时隙值T，T＝1000。

需要说明的是，这种数据采集方式是基于模拟的，可以短时间大量的产生训练数据。工业系统是较为封闭系统，利用模拟可以有效的反映应用场景的情况。

图3是根据一示例性实施例示出的对待训练的计算卸载模型进行训练的步骤：

S011、从训练数据集中随机抽取一组输入数据，所述一组输入数据包括[s_t，a_t，r_t，s_t+1]，其中s_t为当前环境状态，a_t为当前动作，r_t为奖励值，s_t+1为下一时刻状态；

S016、使用梯度下降法更新Critic网络：

图4的左图展示了待训练的计算卸载模型在不同Actor网络更新频率下奖励函数值的收敛情况，随着训练批次的增加，奖励函数值基本都收敛到-50左右，相对而言，Actor网络更新频率为4时，TD3算法的收敛曲线较稳定，且奖励值最高。

S018、重复步骤S011到S017，直到待训练的计算卸载模型直到收敛到奖励最大值，并给出系统最优的决策动作，获得预训练的计算卸载模型。

图4的右图展示了TD3算法在不同本地PLC终端数下奖励函数值的收敛情况，在训练批次为1200时，基本所有终端数都可以收敛到一个比较稳定的值。对于前期，奖励值较小，因为存在控制任务分配失败的情况，随着训练次数的增加，Agent超任务分配失败的反方向学习，因此，奖励函数值越来越大，最终达到收敛。

为表明本专利所提计算方案的性能，分别选取了三种传统计算方案：完全本地PLC计算(ALL L-PLC computing)、完全边缘PLC计算(ALL E-PLC computing)、0-1卸载计算(0-1offloading)。和本公开的适用于工业控制系统的计算卸载方法(TD3 StochasticOffloading)进行对比。图5的左图和右图，分别展示了四种不同任务计算方案在平均计算代价和任务执行成功率的对比情况，从图5中可以看出本公开的适用于工业控制系统的计算卸载方法的性能较好。图5的左图，可以看出本公开的适用于工业控制系统的计算卸载方法的计算代价远低于其他两种传统计算卸载方案，图5的右图，可以看出本公开的适用于工业控制系统的计算卸载方法和完全本地计算的计算任务执行成功率基本都可以达到100％，证明了本公开的鲁棒性。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

本公开提供了一种适用于工业控制系统的计算卸载装置，包括：

有以下几点需要说明：

(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)为了清晰起见，在用于描述本公开的实施例的附图中，层或区域的厚度被放大或缩小，即这些附图并非按照实际的比例绘制。可以理解，当诸如层、膜、区域或基板之类的元件被称作位于另一元件“上”或“下”时，该元件可以“直接”位于另一元件“上”或“下”或者可以存在中间元件。

(3)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种适用于工业控制系统的计算卸载方法，其特征在于，包括下列步骤：

2.根据权利要求1所述的适用于工业控制系统的计算卸载方法，其特征在于，所述S1的从工业控制系统中采集状态向量和固定值，包括：

所述状态向量的公式如下：

s＝{d,ddl,p_max,h,f_lo,f_e},

3.根据权利要求1所述的适用于工业控制系统的计算卸载方法，其特征在于，所述S3的基于本地PLC控制任务信息和卸载比例，计算留在本地PLC计算的控制任务量，公式如下：

4.根据权利要求1所述的适用于工业控制系统的计算卸载方法，其特征在于，所述S4的基于本地PLC控制任务信息和卸载比例，计算卸载到边缘PLC计算的控制任务量，公式如下：

5.根据权利要求1所述的适用于工业控制系统的计算卸载方法，其特征在于，所述S5的根据留在本地PLC计算的控制任务量、状态向量和固定值，计算本地PLC计算控制任务的计算时间，包括：

计算本地PLC计算控制任务的计算时间的公式如下：

6.根据权利要求1所述的适用于工业控制系统的计算卸载方法，其特征在于，所述S6的根据卸载到边缘PLC计算的控制任务量、状态向量和固定值，计算分配给卸载到边缘PLC控制任务的最小计算资源，公式如下：

为将卸载任务从本地PLC到gNB的传输时间，W为gNB为本地PLC分配的系统带宽，p_j,t为本地PLC到gNB的传输功率，h_j,t为t时隙第j个本地PLC和gNB之间的信道增益，D为本地PLC与gNB之间的距离，β为路径损失系数，σ²为噪声功率，ddl_j,t为控制任务的截至时延,在t时隙第j个本地PLC卸载到边缘PLC计算的控制任务量分配的需要的最小计算资源,/>为边缘PLC为在t时隙第j个本地PLC卸载的控制任务量实际分配的计算资源，是边缘PLC为计算卸载任务所花费的最大计算时间，/>是边缘PLC实际计算卸载任务所消耗的时间。

7.根据权利要求1所述的适用于工业控制系统的计算卸载方法，其特征在于，所述S7的根据卸载到边缘PLC计算的控制任务量、状态向量和固定值，计算卸载到边缘PLC控制任务的优先级，包括：

优先级的公式为：

8.根据权利要求1所述的适用于工业控制系统的计算卸载方法，其特征在于，所述S2的将所述状态向量输入预训练的计算卸载模型，输出卸载比例和本地PLC到gNB的传输功率之前，所述方法还包括：

S00、收集训练数据集；

所述S01的对待训练的计算卸载模型进行训练，包括：

S012、利用目标Actor网络根据下一时刻状态s_t+1，预测下一时刻的动作为目标Actor网络，/>为目标Actor网络的权重参数，ζ为目标动作噪声，遵循截断正态分布/> 为标准差，ζ噪声取值在[-e,e]区间内；

S014、利用两个Critic网络(Q₁和Q₂)对a_t进行评分，分别记为：Q₁(s_t,a_t；ω₁)和Q₂(s_t,a_t；ω₂)，ω₁和ω₂分别为Critic网络的权重参数；

S016、使用梯度下降法更新Critic网络：

9.根据权利要求8所述的适用于工业控制系统的计算卸载方法，其特征在于，所述S00的收集训练数据集，包括：

002、同时采集在每个时隙的状态向量，具体的状态向量包括每个本地PLC控制任务信息、每个本地PLC最大可分配功率、每个本地PLC可分配计算资源、边缘PLC可分配计算资源和gNB与本地PLC之间的信道增益；

s＝{d,ddl,p_max,h,f_lo,f_e},

S004、将由步骤S003获得的在t时隙的状态向量输入待训练的计算卸载模型的Actor网络，获得决策向量a_t＝{ro_t,p_t}_N，其中包括卸载比例向量和传输功率分配向量/>是本地PLC集合；

其中，φ,和ψ为标准化尺度上组合项的系数，/>为本地PLC计算任务/>所消耗的能量，/>为卸载任务/>为传输所消耗的能量，/>为边缘PLC计算卸载任务/>所消耗的能量，则完成计算控制任务d_j,t所消耗能量的计算公式如下式：

其中，κ·(f_j,t)^α+1为本地PLC的CPU单位计算时间能耗，ξ为边缘PLC的CPU单位计算时间能耗，当控制任务d_j,t在给定截至时间内被计算，则获得奖励值r_j,t，否则，r_j,t＝-100，则在t时隙TD3代理获得的总奖励值为：

S006、在执行完步骤S005，环境的状态从s_t转移到下一个状态s_t+1，从而并得到一组训练数据(s_t,a_t,r_t,s_t+1)并添加到训练数据集；

S007，重复S001-S006，直到t值到达最大时隙值T，T＝1000。

10.一种适用于工业控制系统的计算卸载装置，其特征在于，包括：