CN117541025B

CN117541025B - 一种用于密集输电线路巡检的边缘计算方法

Info

Publication number: CN117541025B
Application number: CN202410017440.1A
Authority: CN
Inventors: 孙雷; 张健; 谈玲
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2024-01-05
Filing date: 2024-01-05
Publication date: 2024-03-19
Anticipated expiration: 2044-01-05
Also published as: CN117541025A

Abstract

本发明公开了一种用于密集输电线路巡检的边缘计算方法，涉及移动边缘计算技术领域，包括构建密集输电线路巡检边缘计算模型，实现越障巡检机器人对输电线路的全覆盖式巡检；构建越障巡检机器人的能耗均衡模型，以实现能耗均衡及总体能耗最小化，达到巡检效益最大化；针对巡检区域搭建数字孪生网络，基于数字孪生网络反馈的信息，采用DR‑MADDPG算法获取越障巡检机器人的卸载决策，并反馈至物理实体网络中对应的越障巡检机器人。本发明方法在密集输电线路全覆盖式巡检中能够有效延长越障巡检机器人的工作周期，显著提升巡检效益。

Description

一种用于密集输电线路巡检的边缘计算方法

技术领域

本发明涉及移动边缘计算技术领域，特别是涉及一种用于密集输电线路巡检的边缘计算方法。

背景技术

随着经济的快速发展，电力供应的规模在不断扩大，输电线路的可靠性与安全性已成为关注的焦点，特别是在热电厂附近区域，输电线路的分布较为密集，传统的人工巡检方式所需的时间和金钱成本都相对较高。再者，在无人机辅助的电网巡检方式中，考虑到无人机的轨迹优化较为复杂且飞行惯性较大，因此无人机只适宜针对单线路、长距离的输电线路实施巡检，不宜用于针对密集输电线路实施全覆盖式巡检。

发明内容

为了解决以上技术问题，本发明提供一种用于密集输电线路巡检的边缘计算方法，包括以下步骤：

S1、根据越障巡检机器人的工作方式以及密集输电线路、杆塔以及微基站的分布情况，构建密集输电线路巡检边缘计算模型；

S2、基于密集输电线路巡检边缘计算模型，构建越障巡检机器人能耗均衡优化问题P1；

S3、采用Lyapunov优化方法解决优化问题P1中的长期能耗成本约束问题，将原始问题P1转化为无长期约束的越障巡检机器人能耗均衡优化问题P2；

S4、针对越障巡检机器人和微基站所构成的物理实体网络，搭建对应的数字孪生网络，数字孪生网络用于拟合各越障巡检机器人的位置信息、运动状态信息以及各微基站的位置信息；

S5、根据数字孪生网络所反馈的信息，基于步骤S1至步骤S3，在数字孪生网络中构建无长期约束的越障巡检机器人能耗均衡优化问题P2；

S6、在数字孪生网络中采用DR-MADDPG算法（Dynamic rewardmulti-agentdeepdeterministic policy gradient，基于动态奖励的多智能体深度确定性策略梯度算法）求解优化问题P2，获得各越障巡检机器人的卸载决策；

S7、将数字孪生网络中的卸载决策反馈至物理实体网络，物理实体网络中各越障巡检机器人在巡检阶段基于卸载决策实施数据任务卸载。

本发明的有益效果是：

本发明中，根据越障巡检机器人的工作方式搭建针对密集输电线路巡检边缘计算模型，基于该边缘计算模型可实现输电线路全覆盖式巡检；为延长各越障巡检机器人的工作周期，本发明以最小化总体能耗及各巡检机器人的能耗均衡为主要目标构造优化问题；为解决优化问题中的长期资源约束问题，本发明构造资源赤字队列，采用Lyapunov优化方法将有限的资源分配到每一个时隙内，以实现队列的长期稳定并对原始优化问题进行转化；为实现巡检产业的数字化，由此引入数字孪生技术；最后，本发明采用DR-MADDPG算法求解上述优化问题，DR-MADDPG算法将单智能体所需选择的策略分担到多智能体之上，缩小了决策空间的维度，加快了本算法的训练速度，且本算法的时间复杂度不高，可助巡检工作进行实时开展。

附图说明

图1为本发明实施例中密集输电线路巡检边缘计算模型图；

图2为本发明的整体流程示意图；

图3为本发明实施例中DR-MADDPG算法的架构示意图；

图4为本发明实施例中DR-MADDPG算法集中学习、分散执行示意图；

图5为本发明实施例中越障巡检机器人所对应的计算等待队列动态演变详情图；

图6为本发明实施例中DR-MADDPG与DDPG在学习率为0.0001时的收敛性能对比图；

图7为本发明实施例中不同算法在不同巡检机器人数量下的巡检能耗对比图；

图8为本发明实施例中不同算法下巡检机器人数量与负载均衡的关系示意图。

实施方式

本实施例提供的一种用于密集输电线路巡检的边缘计算方法，如图1所示，应用包含N个越障巡检机器人以及M个微基站，针对密集输电线路实施巡检，最终实现各越障巡检机器人能耗均衡及总体能耗最小化的目标；实际应用当中，如图2所示，一种用于密集输电线路巡检的边缘计算方法具体执行如下步骤S1至步骤S7。

S1、根据越障巡检机器人的工作方式以及密集输电线路、杆塔以及微基站的分布情况，构建密集输电线路巡检边缘计算模型，具体包括以下分步骤：

S1.1、在密集输电线路区域部署越障巡检机器人和微基站，两杆塔间输电线路上悬挂的越障巡检机器人的数量大于等于1，越障巡检机器人采用集合表示，微基站采用集合/>表示。

S1.2、将整个巡检周期划分为个长度相等且为/>的时隙。

S1.3、在第t个时隙内，越障巡检机器人n以速度v_n(t)沿输电线路移动，且在移动过程中执行数据采集任务，具体数据包括红外云台热像仪所采集的红外图像数据、可见光云台相机所采集的高清图像数据以及激光扫描仪所采集的三维点云数据，红外图像数据、高清图像数据以及三维点云数据分别采用索引1、2、3描述。

S1.4、在第t个时隙内，将越障巡检机器人n采集的第k种类型数据的数据量表述为下式，其中k∈{1,2,3},k∈{1,2,3}分别对应索引1、2、3，

其中，c_k为常数，表示越障巡检机器人针对第k种类型数据的采集系数。

S1.5、由于越障巡检机器人的电池容量有限，因此其具有有限的计算资源、能量资源，无法满足计算任务的处理时延要求，由此引入边缘计算构建密集输电线路巡检的数据任务的通信模型、卸载模型、时延模型以及能耗均衡模型。

通信模型的构建具体为：设置密集输电线路巡检区域内各越障巡检机器人均采用正交信道传输数据，因此各越障巡检机器人之间的通信干扰可被忽略，根据香农公式，在第t个时隙内越障巡检机器人n与越障巡检机器人之间的通信速率表示如下式所示，其中且/>，

其中，B表示通信带宽；表示附加的高斯白噪声；p表示各越障巡检机器人的发射功率；/>表示在第t个时隙内，越障巡检机器人n与越障巡检机器人/>之间的信道功率增益，两者之间的信道功率增益被定义为/>，/>、/>分别对应表示越障巡检机器人n和越障巡检机器人/>在第t个时隙内的位置坐标，/>表示单位距离的路径损耗。

根据香农公式，在第t个时隙内越障巡检机器人n与微基站m之间的通信速率表示为：

其中，h_n,m(t)表示在第t个时隙内，越障巡检机器人n与微基站m之间的信道功率增益。

卸载模型的构建具体为：将表示为越障巡检机器人n选择在第t个时隙内将第k种类型数据任务卸载至微基站执行，将/>表示为越障巡检机器人n选择在第t个时隙内将第k种类型数据任务卸载至越障巡检机器人执行，则表示越障巡检机器人n选择在第t个时隙内将第k种类型数据任务卸载至微基站m执行；/>表示越障巡检机器人n选择在第t个时隙内将第k种类型数据任务卸载至越障巡检机器人/>执行；若，则表示越障巡检机器人n选择在第t个时隙内将第k种类型数据任务卸载至本地执行。

时延模型的构建具体包括以下分步骤：

A1、基于通信模型构建过程中所确定的卸载决策，越障巡检机器人n在第t个时隙内同时进行数据任务的采集与卸载，确保数据任务在第t个时隙内卸载完毕并且在第t+1个时隙初开始执行，由于越障巡检机器人的计算能力有限，数据任务在单个时隙内可能不会被执行完毕，由此引入数据任务计算等待队列（以FIFO方式运行）。

在第t+1时隙起始处，针对越障巡检机器人置入其对应计算等待队列中总的数据任务，记为/>，定义/>为数据任务/>恰好被执行完毕时所在的时隙，具体表述为：

其中，表示向上取整的函数，/>表示数据任务/>从执行到完毕所需的计算时延，/>表示数据任务对应的数据量，/>表示越障巡检机器人的CPU计算频率，/>表示越障巡检机器人处理1bit数据所需的CPU的周期数；当/>时，/>，且。

表示数据任务/>从置入计算等待队列到被处理所需的时隙数；当某个时隙内数据任务被执行完毕，计算等待队列中的下一个数据任务将在下一个时隙初开始执行；/>采用下式进行描述：

其中，的值与t相关，且/>。

A2、第t个时隙内，将越障巡检机器人n选择将数据任务卸载至越障巡检机器人所需传输时延表示为下式，其中/>且/>，

其中，表示在第t时隙内，越障巡检机器人n采集的第k种类型数据的数据量；/>表示越障巡检机器人n是否选择在第t个时隙内将第k种类型数据任务卸载至越障巡检机器人/>执行；/>表示在第t个时隙内越障巡检机器人n与越障巡检机器人/>之间的通信速率。

第t个时隙内，将越障巡检机器人n选择将数据任务卸载至微基站m所需传输时延表示为：

其中，表示越障巡检机器人n是否选择在第t个时隙内将第k种类型数据任务卸载至微基站m执行；/>表示在第t个时隙内越障巡检机器人n与微基站m之间的通信速率。

由步骤A1可知，各越障巡检机器人n选择将数据任务卸载至微基站m或越障巡检机器人的工作必须在当前时隙执行完毕，并且该数据任务将在下一时隙初开始执行，即，/>，其中/>。

第t个时隙内，针对部分越障巡检机器人选择将数据任务卸载至微基站m，将该数据任务被执行完毕所需的计算时延表示为：

其中，表示微基站的CPU计算频率，/>表示微基站处理1bit数据所需的CPU的周期数，由于微基站的计算能力较越障巡检机器人高，我们认定卸载至各微基站的数据任务必须在单一时隙内执行完毕，即/>，其中/>。

能耗均衡模型的构建具体包括以下分步骤：

B1、第t个时隙内，将越障巡检机器人n选择将数据任务卸载至越障巡检机器人所消耗的传输能耗通过下式表示，其中/>且/>，

其中，表示越障巡检机器人的传输能耗系数。

第t个时隙内，将越障巡检机器人n选择将数据任务卸载至微基站m所消耗的传输能耗表示为：

第t个时隙内，针对部分越障巡检机器人选择将数据任务卸载至微基站m，将该数据任务被执行完毕所需的计算能耗表示为：

其中，表示微基站的计算能耗系数；

第t个时隙内，将越障巡检机器人n所消耗的移动能耗表示为：

其中，表示越障巡检机器人的质量。

B2、第t+1个时隙初，针对越障巡检机器人，将置入该越障巡检机器人对应计算等待队列中的数据任务/>被执行完毕所需的计算能耗表示为：

其中，表示越障巡检机器人的计算能耗系数。

在第t个时隙前，即时隙1至t-1时间段内，将越障巡检机器人所消耗的计算能耗表示为：

其中，为常量，表示越障巡检机器人单位时间的计算能耗；t^*表示在第t个时隙前，被置入越障巡检机器人/>对应计算等待队列中的数据任务中最后一个被执行完毕的数据任务所对应的置入时隙，通过下式表示：

若第t个时隙前，越障巡检机器人计算等待队列中没有数据任务被执行完毕，则认为t^*不存在并将其设定为-1。

在第t个时隙前，即时隙1至t-1时间段内，将越障巡检机器人的传输能耗表示为：

在第t个时隙前，即时隙1至t-1时间段内，将越障巡检机器人所移动的能耗表示为：

在第t个时隙前，即时隙1至t-1时间段内，将越障巡检机器人所消耗的总能耗表示为：

其中，表示时隙1至t-1时间段内越障巡检机器人/>所消耗的总能耗。

S2、基于密集输电线路巡检边缘计算模型，构建越障巡检机器人能耗均衡优化问题P1，具体包括以下分步骤：

S2.1、引入Jain公平指数衡量所有越障巡检机器人在第t个时隙初能耗的均衡性，Jain公平指数越大，代表能耗均衡性越高，其被定义为：

其中，，/>。

S2.2、整个巡检周期内，在各微基站提供有限能量资源的条件下，我们尽可能保证各越障巡检机器人能耗均衡及总体能耗最小化，进而构建越障巡检机器人能耗均衡优化问题：

其中，，/>表示表示计算任务卸载决策，如下式所示：

且k={1,2,3}，，/>，/>；若d∈D，则/>，否则。

约束C1表示若越障巡检机器人n选择在第t个时隙内将第k类数据任务卸载至微基站，则越障巡检机器人n只能卸载至一个微基站；

约束C2表示若越障巡检机器人n不选择在第t个时隙内将第k类数据任务卸载至微基站，则其只能选择卸载至其他越障巡检机器人或本地；

约束C3表示若越障巡检机器人n选择在第t个时隙内将第k类数据任务卸载至其他越障巡检机器人，则其最多只能卸载至一个越障巡检机器人；

约束C4和约束C5表示任一时隙内，越障巡检机器人n选择将数据任务卸载至微基站m或越障巡检机器人的工作必须在当前时隙执行完毕；

约束C6表示针对任一时隙，卸载至各微基站的数据任务必须在单一时隙内执行完毕；

约束C7表示各越障巡检机器人在第个时隙之前收集的数据任务被执行完毕的时间点不得超出时隙/>；

约束C8表示在一个周期内各微基站所能提供的能量资源有限，其中E₀表示单位周期内微基站捕获的能量，表示整个周期能量消耗率的上限。

S3、采用Lyapunov优化方法解决优化问题P1中的长期能耗成本约束问题，将原始问题P1转化为无长期约束的越障巡检机器人能耗均衡优化问题P2，步骤S3具体包括以下分步骤：

S3.1、基于一个周期内各微基站所能提供的能量资源有限，针对各微基站构造动态能量赤字队列，将微基站m的能量赤字队列的演变过程表示为：

其中，表示整个周期可获得的能量，一个周期包括/>个时隙，则单时隙可获得的能量为/>；/>表示第t个时隙期间能量的偏差。

S3.2、定义Lyapunov函数描述第t个时隙期间所有能量赤字队列积压的平方和；

其中，；

基于相邻两时隙间Lyapunov函数差的期望，构建Lyapunov漂移为：

。

S3.3、最小化Lyapunov漂移，将各能量赤字队列中的积压降至最小状态，从而确保队列的稳定，采用漂移加罚算法得到Lyapunov漂移加罚函数：

其中，非负权重系数用来衡量漂移与目标函数所占的权重；Lyapunov漂移加罚函数的上界表示为：

其中，，/>。

S3.4、将原始问题P1转化为无长期约束的Lyapunov漂移加罚函数最小化问题P2：

其中，表示微基站m的能量赤字队列的长度；/>表示第t个时隙内，针对部分越障巡检机器人选择将数据任务卸载至微基站m，上述数据任务被执行完毕所需的计算能耗；非负权重系数/>用于衡量漂移与目标函数所占的权重；/>表示时隙1至t-1时间段内越障巡检机器人/>所消耗的总能耗；/>用来衡量所有越障巡检机器人在第t个时隙初能耗的均衡性。

S4、针对越障巡检机器人和微基站所构成的物理实体网络，搭建对应的数字孪生网络，数字孪生网络用于拟合各越障巡检机器人的位置信息、运动状态信息以及各微基站的位置信息；其中，各越障巡检机器人的数字孪生公式表示为：

其中，表示越障巡检机器人n在第t个时隙内的位置坐标；v_n(t)表示越障巡检机器人n在第t个时隙内的移动速度。

各微基站的数字孪生公式表示为：

其中，表示微基站m在第t个时隙内的位置坐标，由于微基站是固定的，所以是个常量。

S5、根据数字孪生网络所反馈的信息，基于步骤S1至步骤S3，在数字孪生网络中构建无长期约束的越障巡检机器人能耗均衡优化问题P2。

S6、在数字孪生网络中采用DR-MADDPG算法求解优化问题P2，获得各越障巡检机器人的卸载决策，基于动态奖励的多智能体深度确定性策略梯度算法（Dynamicrewardmulti-agentdeep deterministic policy gradient，DR-MADDPG）的架构如图3所示，采用DR-MADDPG算法求解优化问题P2的方法具体包括以下分步骤：

S6.1、针对各越障巡检机器人构建深度神经网络，越障巡检机器人对应两组深度神经网络，即/>网络组和/>网络组；/>网络组包含两个参数完全相同的深度神经网络，即/>策略网络和/>目标网络；/>网络组包含两个参数完全相同的深度神经网络，即/>策略网络和/>目标网络。

S6.2、在第t个时隙内，各越障巡检机器人基于当前环境状态x(t)=(o₁(t),o₂(t),...,o_N(t))采取行动决策a(t)=(a₁(t),a₂(t),...,a_N(t))，获得奖励r(t)=(r₁(t),r₂(t),...,r_N(t))并进入下一环境状态x(t+1)=(o₁(t+1),o₂(t+1),...,o_N(t+1))，同时将记录(x(t),a(t),r(t),x(t+1))存放至经验回放池中。

策略网络的输入为越障巡检机器人/>的当前状态/>，输出越障巡检机器人/>的行动/>附加随机噪声/>形成行动决策/>，进而获得奖励并进入下一状态/>。

越障巡检机器人的环境状态/>由数字孪生网络提供，表示为：

越障巡检机器人的行动决策/>表示为/>在第t个时隙内的卸载决策：

越障巡检机器人获取的奖励/>表示为：

其中，、/>、/>为非负正数，/>、/>分别用于衡量数据任务等待时间以及通信速率对奖励回报的影响；/>表示惩罚项，若第t个时隙所采取的行动决策不满足优化问题P2中的约束，则给出对应惩罚数值，可见奖励函数的结构会随时隙动态调整，具有动态奖励Dynamic Rewards（DR）特征。

S6.3、如图4所示，DR-MADDPG算法采用集中学习、分散执行的策略，即在第t个时隙内，当经验回放池中的样本数大于等于S时，从经验回放池/>中随机抽取S个样本，记其中一个样本为/>，进而获取y^j：

其中，是通过将/>输入/>目标网络生成的，/>是通过将/>以及/>输入/>目标网络生成的，/>表示奖励折扣系数。

采用如下损失函数更新策略网络参数：

其中，是通过将x^j以及/>输入/>策略网络生成的。

采用梯度上升方法更新策略网络参数，将策略目标函数最大化：

其中，是通过将/>输入/>策略网络生成的，/>表示关于/>策略网络参数/>的梯度；/>是通过将x^j以及输入至/>策略网络生成的，表示/>关于行动决策/>的梯度。/>

采用下式更新网络参数：

其中，远小于1且大于0 ，在本实施例中设置为0.01。

S6.4、在第t个时隙内，针对各越障巡检机器人重复执行步骤S6.3，提取所有越障巡检机器人获得奖励的均值，记为R(t)。

S6.5、从第1个时隙开始至第个时隙，重复执行步骤S6.2至步骤S6.4，获得整个周期内所有越障巡检机器人获得奖励的均值/>，并记/>，随后初始化时隙1的环境状态x(t)。

S6.6、记步骤S6.2至步骤S6.5为一个Episode，重复执行多个Episode对actor网络组和critic网络组进行训练，直至值收敛。

S6.7、基于步骤S6.6训练完成的策略，在针对密集输电线路实施巡检阶段，采用actor网络组与环境交互，获得各越障巡检机器人在任一时隙内的卸载决策。

越障巡检机器人所对应的计算等待队列动态演变详情如图5所示，假设数据任务 /> 置入越障巡检机器人/>所对应的计算等待队列中，该数据任务可在4个时隙内被执行完毕，即 /> ，因此数据任务 /> 需要等待个时隙；假设数据任务/>可在2个时隙内执行完毕，即/>，考虑到 />所对应的数据量，因此/>，则数据任务/>需要等待个时隙。

数字2标识为在第9个时隙前所有被置入越障巡检机器人对应计算等待队列中的数据任务中最后一个恰好被执行完毕的数据任务所对应的置入时隙，即，/>，则在第9个时隙前，越障巡检机器人/>所消耗的计算能量为。

基于模拟场景，本实施例获得了以下实验数据，如图6所示，展示了应用于密集输电线路巡检的DR-MADDPG算法与DDPG算法的收敛效果，其中N＝10，每一回合包含200次卸载决策探索，纵坐标表示200次探索所获奖励的均值。

从图6中可以看出随着训练的不断深入，两算法获得的奖励皆趋于收敛，但是相对DR-MADDPG算法而言，DDPG算法达到收敛后的稳定性较差，这是因为密集输电线路巡检的场景更符合多智能体场景，其中每一个越障巡检机器人需要同时进行学习，不断更新自己的策略，从而提高系统的稳定性，而DDPG作为单智能体强化学习算法很难在多智能体的问题求解上达到较好的稳定性。

除此之外，DR-MADDPG算法约在Episode=450处收敛，DDPG算法约在Episode=600处收敛，可见DR-MADDPG算法收敛速度相对较快，原因是DR-MADDPG算法中不同智能体之间共享经验池，以此提高算法的采样效率并加快算法收敛的速度。

作为本实施例方法的主要优化目标，越障巡检机器人总能耗在一定程度上反映的是算法在任务卸载方面的性能，合理的卸载方案能够保证较低的能耗，如图7所示为各算法在不同越障巡检机器人数量下的机器人总能耗对比，从图7中可以观察到，总能耗随越障巡检机器人数量的增加而增加，尽管如此，本实施例所提方案DR-MADDPG总是获得最佳性能，并且随着越障巡检机器人数量的增多，DR-MADDPG算法的优势会更加明显，这是由于随着越障巡检机器人数量的增加，密集输电线路巡检场景更加符合多智能体环境特征，DDPG在多智能体场景下很难有较好的性能表现。

相比于Random-O（随机算法），Greedy-O（贪婪算法）随越障巡检机器人数量的递增而效果递减，这是因为在一个巡检周期内，为尽可能地降低自身能耗，所有越障巡检机器人选择将自身任务卸载至微基站进行处理，直至其能量殆尽，而在机器人数量较多的情况下，各微基站的能量会在一个周期内过早殆尽，使得各越障巡检机器人在后续相当长的一段时间内不得不消耗自身或彼此的能量。

负载均衡作为一个关键指标影响整个密集输电线路巡检场景的运行时间，如图8所示，描述了四种方案下越障巡检机器人能耗的均衡度与机器人数量的关系，从图8中可以看出，DR-MADDPG总能展现良好的性能，并且随着越障巡检机器人数量的递增逐渐拉大与DDPG算法的差距，这说明本实施例方案能够有效避免单周期内资源过载的情况出现；相比上述两种强化学习方案，Greedy-O与Random-O算法缺少明确的指导策略使越障巡检机器人趋于能耗均衡，因此在负载均衡这项指标上一直保持较低的水准。

本实施例方法根据越障巡检机器人的工作方式搭建针对密集输电线路巡检边缘计算模型，基于该边缘计算模型可实现输电线路全覆盖式巡检；为延长各越障巡检机器人的工作周期，本发明以最小化总体能耗及各巡检机器人的能耗均衡为主要目标构造优化问题；为解决优化问题中的长期资源约束问题，本发明构造资源赤字队列，采用Lyapunov优化方法将有限的资源分配到每一个时隙内，以实现队列的长期稳定并对原始优化问题进行转化；为实现巡检产业的数字化，由此引入数字孪生技术；最后，本发明采用DR-MADDPG算法求解上述优化问题，DR-MADDPG算法将单智能体所需选择的策略分担到多智能体之上，缩小了决策空间的维度，加快了本算法的训练速度，且本算法的时间复杂度不高，可助巡检工作进行实时开展。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.一种用于密集输电线路巡检的边缘计算方法，其特征在于：包括以下步骤：

S6、在数字孪生网络中采用DR-MADDPG算法求解优化问题P2，获得各越障巡检机器人的卸载决策；

S7、将数字孪生网络中的卸载决策反馈至物理实体网络，物理实体网络中各越障巡检机器人在巡检阶段基于卸载决策实施数据任务卸载；

步骤S3具体包括以下分步骤：

其中，表示一个周期获得的能量，一个周期包括/>个时隙，单时隙被分配的能量为；/>表示第t个时隙期间能量的偏差；

其中，；

基于相邻两时隙间Lyapunov函数差的期望，构建Lyapunov漂移为：

；

S3.3、最小化Lyapunov漂移，将各能量赤字队列中的积压降至最小状态，采用漂移加罚算法得到Lyapunov漂移加罚函数：

其中，，/>；

其中，表示微基站m的能量赤字队列的长度；/>表示第t个时隙内，针对部分越障巡检机器人选择将数据任务卸载至微基站m，上述数据任务被执行完毕所需的计算能耗；非负权重系数/>用于衡量漂移与目标函数所占的权重；/>表示时隙1至t-1时间段内越障巡检机器人/>所消耗的总能耗；/>用来衡量所有越障巡检机器人在第t个时隙初能耗的均衡性；

步骤S6中，采用DR-MADDPG算法求解优化问题P2的方法包括以下步骤：

S6.1、针对各越障巡检机器人构建深度神经网络，越障巡检机器人对应两组深度神经网络，即/>网络组和/>网络组；/>网络组包含两个参数完全相同的深度神经网络，即/>策略网络和/>目标网络；/>网络组包含两个参数完全相同的深度神经网络，即/>策略网络和/>目标网络；

S6.2、在第t个时隙内，各越障巡检机器人基于当前环境状态x(t)=(o₁(t),o₂(t),...,o_N(t))采取行动决策a(t)=(a₁(t),a₂(t),...,a_N(t))，获得奖励r(t)=(r₁(t),r₂(t),...,r_N(t))并进入下一环境状态x(t+1)=(o₁(t+1),o₂(t+1),...,o_N(t+1))，同时将记录(x(t),a(t),r(t),x(t+1))存放至经验回放池中；

策略网络的输入为越障巡检机器人/>的当前状态/>，输出越障巡检机器人/>的行动/>附加随机噪声/>形成行动决策/>，进而获得奖励/>并进入下一状态/>；

S6.3、在第t个时隙内，当经验回放池中的样本数大于等于S时，从经验回放池/>中随机抽取S个样本，记其中一个样本为/>，进而获取y^j：

其中，是通过将/>输入/>目标网络生成的，/>是通过将/>以及/>输入/>目标网络生成的，/>表示奖励折扣系数；

采用如下损失函数更新策略网络参数：

其中，是通过将x^j以及/>输入/>策略网络生成的；

其中，是通过将/>输入/>策略网络生成的，/>表示/>关于/>策略网络参数/>的梯度；/>是通过将x^j以及输入至/>策略网络生成的，表示/>关于行动决策/>的梯度；

采用下式更新网络参数：

其中，设置为0.01；

S6.4、在第t个时隙内，针对各越障巡检机器人重复执行步骤S6.3，提取所有越障巡检机器人获得奖励的均值，记为R(t)；

S6.5、从第1个时隙开始至第个时隙，重复执行步骤S6.2至步骤S6.4，获得整个周期内所有越障巡检机器人获得奖励的均值/>，并记/>，随后初始化时隙1的环境状态x(t)；

S6.6、记步骤S6.2至步骤S6.5为一个Episode，重复执行多个Episode对actor网络组和critic网络组进行训练，直至值收敛；

2.根据权利要求1所述的一种用于密集输电线路巡检的边缘计算方法，其特征在于：所述步骤S1具体包括以下分步骤：

S1.1、在密集输电线路区域部署越障巡检机器人和微基站，两杆塔间输电线路上悬挂的越障巡检机器人的数量大于等于1，越障巡检机器人采用集合表示，微基站采用集合/>表示；

S1.2、将整个巡检周期划分为个长度相等且为/>的时隙；

S1.3、在第t个时隙内，越障巡检机器人n以速度v_n(t)沿输电线路移动，且在移动过程中执行数据采集任务，具体数据包括红外图像数据、高清图像数据以及三维点云数据，红外图像数据、高清图像数据以及三维点云数据分别采用索引1、2、3描述；

其中，c_k为常数，表示越障巡检机器人针对第k种类型数据的采集系数；

S1.5、引入边缘计算构建密集输电线路巡检的数据任务的通信模型、卸载模型、时延模型以及能耗均衡模型。

3.根据权利要求2所述的一种用于密集输电线路巡检的边缘计算方法，其特征在于：所述步骤S1.5中，引入边缘计算构建密集输电线路巡检的数据任务的通信模型、卸载模型、时延模型以及能耗均衡模型；

通信模型的构建具体为：设置密集输电线路巡检区域内各越障巡检机器人均采用正交信道传输数据，根据香农公式，在第t个时隙内越障巡检机器人n与越障巡检机器人之间的通信速率表示如下式所示，其中/>且/>，

其中，B表示通信带宽；表示附加的高斯白噪声；p表示各越障巡检机器人的发射功率；/>表示在第t个时隙内，越障巡检机器人n与越障巡检机器人/>之间的信道功率增益，两者之间的信道功率增益被定义为/>，/>、/>分别对应表示越障巡检机器人n和越障巡检机器人/>在第t个时隙内的位置坐标，/>表示单位距离的路径损耗；

其中，h_n,m(t)表示在第t个时隙内，越障巡检机器人n与微基站m之间的信道功率增益；

卸载模型的构建具体为：将表示为越障巡检机器人n选择在第t个时隙内将第k种类型数据任务卸载至微基站执行，将/>表示为越障巡检机器人n选择在第t个时隙内将第k种类型数据任务卸载至越障巡检机器人执行，则表示越障巡检机器人n选择在第t个时隙内将第k种类型数据任务卸载至微基站m执行；/>表示越障巡检机器人n选择在第t个时隙内将第k种类型数据任务卸载至越障巡检机器人/>执行；若/>，则表示越障巡检机器人n选择在第t个时隙内将第k种类型数据任务卸载至本地执行。

4.根据权利要求3所述的一种用于密集输电线路巡检的边缘计算方法，其特征在于：所述步骤S1.5中，时延模型的构建具体包括以下分步骤：

A1、基于通信模型构建过程中所确定的卸载决策，越障巡检机器人n在第t个时隙内同时进行数据任务的采集与卸载，确保数据任务在第t个时隙内卸载完毕并且在第t+1个时隙初开始执行，并引入数据任务计算等待队列；

其中，表示向上取整的函数，/>表示数据任务/>从执行到完毕所需的计算时延，/>表示数据任务/>对应的数据量，/>表示越障巡检机器人的CPU计算频率，/>表示越障巡检机器人处理1bit数据所需的CPU的周期数；当/>时，/>，且；

其中，的值与t相关，且/>；

其中，表示在第t时隙内，越障巡检机器人n采集的第k种类型数据的数据量；表示越障巡检机器人n是否选择在第t个时隙内将第k种类型数据任务卸载至越障巡检机器人/>执行；/>表示在第t个时隙内越障巡检机器人n与越障巡检机器人之间的通信速率；

其中，表示越障巡检机器人n是否选择在第t个时隙内将第k种类型数据任务卸载至微基站m执行；/>表示在第t个时隙内越障巡检机器人n与微基站m之间的通信速率；

由步骤A1可知，各越障巡检机器人n选择将数据任务卸载至微基站m或越障巡检机器人的工作必须在当前时隙执行完毕，并且该数据任务将在下一时隙初开始执行，即，/>，其中/>；

其中，表示微基站的CPU计算频率，/>表示微基站处理1bit数据所需的CPU的周期数，设定卸载至各微基站的数据任务必须在单一时隙内执行完毕，即/>，其中。

5.根据权利要求2所述的一种用于密集输电线路巡检的边缘计算方法，其特征在于：所述步骤S1.5中，能耗均衡模型的构建具体包括以下分步骤：

其中，表示越障巡检机器人的传输能耗系数；

其中，表示微基站的计算能耗系数；

其中，表示越障巡检机器人的质量；

其中，表示越障巡检机器人的计算能耗系数；

若第t个时隙前，越障巡检机器人计算等待队列中没有数据任务被执行完毕，则认为t^*不存在并将其设定为-1；

6.根据权利要求1所述的一种用于密集输电线路巡检的边缘计算方法，其特征在于：所述步骤S2中，越障巡检机器人能耗均衡优化问题P1的构建包括以下步骤

其中，，/>；

S2.2、构建越障巡检机器人能耗均衡优化问题：

其中，，/>表示计算任务卸载决策，如下式所示：

且k={1,2,3}，，/>，/>；若d∈D，则/>，否则；

7.根据权利要求1所述的一种用于密集输电线路巡检的边缘计算方法，其特征在于：所述步骤S4中，各越障巡检机器人的数字孪生公式表示为：

其中，表示越障巡检机器人n在第t个时隙内的位置坐标；v_n(t)表示越障巡检机器人n在第t个时隙内的移动速度；

各微基站的数字孪生公式表示为：

其中，表示微基站m在第t个时隙内的位置坐标， />为常量。

8.根据权利要求1所述的一种用于密集输电线路巡检的边缘计算方法，其特征在于：所述步骤S6.2中，越障巡检机器人的环境状态/>由数字孪生网络提供，表示为：

越障巡检机器人获取的奖励/>表示为：

其中，、/>、/>为非负正数，/>、/>分别用于衡量数据任务等待时间以及通信速率对奖励回报的影响；/>表示惩罚项，若第t个时隙所采取的行动决策不满足优化问题P2中的约束，则给出对应惩罚数值。