CN112904890A

CN112904890A - 一种电力线路的无人机自动巡检系统及方法

Info

Publication number: CN112904890A
Application number: CN202110055910.XA
Authority: CN
Inventors: 秦源汛; 何红太; 周环; 桂菲菲; 熊鹏
Original assignee: Beijing Guowang Fuda Technology Development Co Ltd
Current assignee: Beijing Guowang Fuda Technology Development Co Ltd
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-06-04
Anticipated expiration: 2041-01-15
Also published as: CN112904890B

Abstract

本发明提出了一种电力线路的无人机自动巡检系统及方法，所述无人机自动巡检系统包括：地面站系统和设置在无人机上的通讯模块、位置和状态感知模块、惯性导航系统、边缘计算模块和控制中心单元；所述通讯模块、所述位置和状态感知模块、所述惯性导航系统和所述边缘计算模块均与所述控制中心单元连接，所述控制中心单元与无人机的执行机构连接；所述地面站系统与所述通讯模块连接。本发明边缘计算模块用于利用训练好的基于深度强化学习的代理模型，根据无人机的当前状态信息及目的状态信息生成飞行指令，控制无人机的飞行，使无人机飞行过程中尽可能的不偏离每个时刻的目的坐标，保证飞行的安全性。

Description

一种电力线路的无人机自动巡检系统及方法

技术领域

本发明涉及无人机控制技术领域，特别是涉及一种电力线路的无人机自动巡检系统及方法。

背景技术

电力线路巡视工作是配电专业日常运维管理的重要工作。在线路运行过程中，如高压电气设备长期存在局部放电，会加速设备老化，最终导致故障发生。目前电力企业对生产运维精益化要求不断提高，新设备、新材料的持续增长以及电网设备整体规模数量的急剧增加，导致现场检修、日常运行维护工作剧增，生产结构性缺员与供电可靠性要求的矛盾日益突出。传统的通过外观检查、手工记录开展电力线路日常巡视检查的工作方式，无法对设备状态机潜伏性故障有效掌握，特别是对输配电设备施行定期检修等方式，针对性不强。

电力线路电磁环境复杂，飞行难度高，同时，电力设备与供电息息相关，任何飞行中发生的意外都可能造成严重的后果，因此，提升巡检效率的同时，也必须提高无人机的飞行能力，以确保巡检的安全。如何在线路电磁环境复杂的情况下保证飞行安全成为一个亟待解决的技术问题。

发明内容

本发明的目的是提供一种电力线路的无人机自动巡检系统及方法，以提高无人机自动巡检过程中的安全性。

为实现上述目的，本发明提供了如下方案：

一种电力线路的无人机自动巡检系统，所述无人机自动巡检系统包括：地面站系统和设置在无人机上的通讯模块、位置和状态感知模块、惯性导航系统、边缘计算模块和控制中心单元；

所述通讯模块、所述位置和状态感知模块、所述惯性导航系统和所述边缘计算模块均与所述控制中心单元连接，所述控制中心单元与无人机的执行机构连接；所述地面站系统与所述通讯模块连接。

所述位置和状态感知模块用于获取无人机的当前位置信息，并将无人机的当前位置信息发送给控制中心单元；所述惯性导航系统用于获取无人机的当前速度信息和当前姿态信息，并将无人机的当前速度信息和当前姿态信息发送给控制中心单元；所述控制中心单元用于将无人机的当前位置信息、当前速度信息和当前姿态信息合并成无人机的当前状态信息，并通过通讯模块将无人机的当前状态信息发送给地面站系统；

所述地面站系统用于根据用户输入指令、无人机的当前状态信息生成下一时刻的目的状态信息，并将所述目的状态信息发送给控制中心单元，控制中心单元将无人机的当前状态信息及目的状态信息发送给所述边缘计算模块；

所述边缘计算模块用于利用训练好的基于深度强化学习的代理模型，根据无人机的当前状态信息及目的状态信息生成飞行指令，并将所述飞行指令发送给所述控制中心单元；

所述控制中心单元用于将所述飞行指令转换成执行机构控制指令，以控制无人机的执行机构。

可选的，所述无人机自动巡检系统还包括历史记录模块；

所述历史记录模块与所述控制中心单元连接，所述控制中心单元用于将无人机的实际状态信息和目的状态信息及实际飞行指令实时的存入所述历史记录模块；

所述控制中心单元还用于从所述历史记录模块中读取历史的无人机的实际状态信息和目的状态信息及实际飞行指令，并发送给边缘计算模块；

所述边缘计算模块还用于根据历史的无人机的实际状态信息和目的状态信息及实际飞行指令训练基于深度强化学习的代理模型的Q函数，获得一次训练后的基于深度强化学习的代理模型。

可选的，所述位置和状态感知模块包括双目深度感知模块、飞行时间相机系统、微型阵列式激光雷达和实时定位与地图构建模块；

所述双目深度感知模块、所述飞行时间相机系统和所述微型阵列式激光雷达分别与所述实时定位与地图构建模块连接，所述实时定位与地图构建模块与所述控制中心单元连接。

一种电力线路的无人机自动巡检方法，所述无人机自动巡检方法包括如下步骤：

采集无人机的当前状态信息；所述当前状态信息包括：当前位置信息、当前速度信息和当前姿态信息；

根据无人机的当前状态信息及用户输入指令，确定下一时刻的无人机的目的状态信息；

利用训练好的基于深度强化学习的代理模型，根据无人机的当前状态信息及目的状态信息生成飞行指令；

将所述飞行指令转换成执行机构控制指令，控制无人机的执行机构，进行电力线路的巡检。

可选的，所述利用训练好的基于深度强化学习的代理模型，根据无人机的当前状态信息及目的状态信息生成飞行指令，之前还包括：

利用历史的无人机的实际状态信息、实际飞行指令以及目的状态信息，对基于深度强化学习的代理模型的Q函数进行训练，获得一次训练好的基于深度强化学习的代理模型；

利用实时的无人机的实际状态信息以及目的状态信息，对一次训练好的基于深度强化学习的代理模型的u函数进行训练，获得训练好的基于深度强化学习的代理模型。

可选的，所述利用历史的无人机的实际状态信息、实际飞行指令以及目的状态信息，对基于深度强化学习的代理模型的Q函数进行训练，获得一次训练好的基于深度强化学习的代理模型，具体包括：

将历史飞行任务的每个历史时刻的实际状态信息和实际飞行指令输入Q函数，获得每个历史时刻的Q函数值；

根据每个历史时刻的Q函数值利用公式y_t＝-r_t+Q(S_t+1,C_t+1|θ^Q)，计算每个历史时刻的实际飞行指令对应的品质评价值；其中，y_t表示t时刻的实际飞行指令对应的品质评价值，r_t表示t时刻的奖罚因子，

其中，X_t＝(x_t,y_t,z_t)表示t时刻的实际位置，T_t＝(x′_t,y′_t,z′_t)表示t-1时刻确定的t时刻的目标位置，γ表示折扣因子，S_t+1表示在t时刻确定的t+1时刻的目标状态信息，C_t+1表示t+1时刻的飞行指令，θ^Q表示Q函数的参数，Q(·)表示Q函数；

每个历史时刻的实际飞行指令对应的品质评价值，利用公式

计算所述飞行任务的损失函数值；其中，S_t表示在t-1时刻确定的t时刻的目标状态信息，C_t表示t时刻的飞行指令，N表示飞行任务的时间序列总数；

根据所述损失函数值，采用反误差梯度反向传播算法更新Q函数中的参数，返回步骤“将历史飞行任务的每个历史时刻的实际状态信息和实际飞行指令输入Q函数，获得每个历史时刻的Q函数值”，直到损失函数值小于损失函数阈值。

可选的，利用实时的无人机的实际状态信息以及目的状态信息，对一次训练好的基于深度强化学习的代理模型的u函数进行训练，获得训练好的基于深度强化学习的代理模型，具体包括：

将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数，获得当前预测时刻的生成飞行指令；

计算当前预测时刻的生成飞行指令对应的品质评价值；

当到达下一个预测时刻时，返回步骤“将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数，获得当前预测时刻的生成飞行指令”，直到完成当前飞行任务；

根据每个预测时刻的生成飞行指令对应的品质评价值，计算当前飞行任务的损失函数值；

根据当前飞行任务的损失函数值，采用反误差梯度反向传播算法更新u函数中的参数；

当执行下一个飞行任务时，返回步骤“将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数，获得当前预测时刻的生成飞行指令”，继续训练，直到u函数输出的飞行指令使无人机在下一预测时刻的实际状态信息与目的状态信息的一致率达到一致率阈值，输出训练好的基于深度强化学习的代理模型。

与现有技术相比，本发明的有益效果是：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种电力线路的无人机自动巡检系统的结构图；

图2为本发明提供的一种电力线路的无人机自动巡检系统的工作原理图；

图3为本发明提供的一种电力线路的无人机自动巡检方法的流程图；

图4为本发明提供的神经网络模型的结构图；

图5为本发明提供的基于深度强化学习的代理模型的基于存储数据的训练阶段的原理图；

图6为本发明提供的基于深度强化学习的代理模型的带自学习功能的模型应用阶段的原理图；

图7为本发明提供的基于深度强化学习的代理模型的纯模型应用的自动巡检阶段的原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供一种电力线路的无人机自动巡检系统，所述无人机自动巡检系统包括：地面站系统和设置在无人机上的通讯模块、位置和状态感知模块、惯性导航系统、边缘计算模块和控制中心单元；所述通讯模块、所述位置和状态感知模块、所述惯性导航系统和所述边缘计算模块均与所述控制中心单元连接，所述控制中心单元与无人机的执行机构连接；所述地面站系统与所述通讯模块连接；所述位置和状态感知模块用于获取无人机的当前位置信息，并将无人机的当前位置信息发送给控制中心单元；所述惯性导航系统用于获取无人机的当前速度信息和当前姿态信息，并将无人机的当前速度信息和当前姿态信息发送给控制中心单元；所述控制中心单元用于将无人机的当前位置信息、当前速度信息和当前姿态信息合并成无人机的当前状态信息，并通过通讯模块将无人机的当前状态信息发送给地面站系统；所述地面站系统用于根据用户输入指令、无人机的当前状态信息生成下一时刻的目的状态信息，并将所述目的状态信息发送给控制中心单元，控制中心单元将无人机的当前状态信息及目的状态信息发送给所述边缘计算模块；所述边缘计算模块用于利用训练好的基于深度强化学习的代理模型，根据无人机的当前状态信息及目的状态信息生成飞行指令，并将所述飞行指令发送给所述控制中心单元；所述控制中心单元用于将所述飞行指令转换成执行机构控制指令，以控制无人机的执行机构。

通讯模块负责与地面站系统通讯，地面站系统负责对接用户界面、自主飞行指令以及安全约束计算后的基本飞行目标。惯性导航系统可以实时高速感知速度和姿态角度信息。控制中心单元具有飞行控制的功能，负责将飞行指令转化为具体的执行指令(比如电机转速信号)交给执行机构。执行机构负责执行飞行控制模块下发的控制指令，比如各个电机的转速以及执行载荷的动作比如拍照和检测。

边缘计算模块带有GPU芯片，深度基于深度强化学习的代理模型在GPU芯片进行。

如图1所示，本发明的无人机自动巡检系统还包括历史记录模块；所述历史记录模块与所述控制中心单元连接，所述控制中心单元用于将无人机的实际状态信息和目的状态信息及实际飞行指令实时的存入所述历史记录模块；所述控制中心单元还用于从所述历史记录模块中读取历史的无人机的实际状态信息和目的状态信息及实际飞行指令，并发送给边缘计算模块；所述边缘计算模块还用于根据历史的无人机的实际状态信息和目的状态信息及实际飞行指令训练基于深度强化学习的代理模型的Q函数，获得一次训练后的基于深度强化学习的代理模型。

所述位置和状态感知模块包括双目深度感知模块、飞行时间相机系统、微型阵列式激光雷达和实时定位与地图构建模块；所述双目深度感知模块、所述飞行时间相机系统和所述微型阵列式激光雷达分别与所述实时定位与地图构建模块连接，所述实时定位与地图构建模块与所述控制中心单元连接。位置和飞行状态感知系统主要作用是输出无人机的实时自身位置信息。

如图1所示，无人机自动巡检由负责用户交互与任务规划的地面站系统，历史记录存储模块，包括基于神经元网络的深度强化学习的代理模型的边缘计算模块，控制中心单元以及巡检无人机本体与任务载荷组成。

无人机自动巡检系统的工作原理如图2所示，图2中，S_t(图2中的S(t))为位置和飞行状态感知系统实时反馈的状态信息，它包括位置坐标信息、速度信息和姿态信息，位置坐标信息主要由双目深度感知模块、飞行时间相机系统、实时定位与地图构建模块、微型阵列式激光雷达系统提供。

其中X表示坐标信息，t为时间序列，X_t为t时刻下的坐标信息：

X_t＝[x_t，y_t，z_t]

S_t＝[X_t，θ_t，v_t]

其中θ_t，v_t分别为无人机的姿态角度以及速度矢量值，由无人机飞行控制系统的传感器(位置和状态感知模块、惯性导航系统)进行采集。

T_t+1为由用户交互与地面站系统规划的下一个点的目的坐标，对应图2中的T(t+1):

T_t+1＝[x′_t+1，y′_t+1，z′_t+1]

S′_t+1＝[T_t+1，θ_t+1，v_t+1]

其中，θ′_t，τ′_t分别为无人机的姿态角度以及速度矢量的估计值，由地面站系统进行提前计算。

强化学习的奖罚因子r_t为偏差的空间距离，X_t,T_t分别是t时刻都实时位置和规划位置，T_t对应图2中的，T(t)。

T_t＝[x′_t，y′_t，z′_t]

强化学习奖罚因子是强化学习的基本概念，通过执行情况的结果，设置奖励因子，并在可以学习的模型(包括一般的机器学习以及深度学习)中进行计算，将结果的差异程度，转化成学习模型中的参数变化方向(梯度)，并乘以一个学习率，就可以更新模型参数。这个过程称为强化学习。

飞行指令C_t为一个三维方向上的变化量，对应图2中的C(t)：

C_t＝[Δx_t，Δy_t，Δz_t]

u_t为本地控制变化量，对应图2中的u(t),主要由负责本地闭环控制的飞行控制与惯性导航系统来通过C_t计算：u_t＝f(C_t)。u_t是更底层的控制参数比如各个电机的瞬间转速指令，一般为无刷电机的PWM控制信号。

如图3所示，本发明还提供一种电力线路的无人机自动巡检方法，所述无人机自动巡检方法包括如下步骤：

步骤301，采集无人机的当前状态信息；所述当前状态信息包括：当前位置信息、当前速度信息和当前姿态信息。

步骤302，根据无人机的当前状态信息及用户输入指令，确定下一时刻的无人机的目的状态信息。

步骤303，利用训练好的基于深度强化学习的代理模型，根据无人机的当前状态信息及目的状态信息生成飞行指令。

步骤304，将所述飞行指令转换成执行机构控制指令，控制无人机的执行机构，进行电力线路的巡检。

本发明的基于深度强化学习的代理模型包括Q函数Q(S，C|θ^Q)和动作策略u函数μ(S|θ^μ)。

动作策略u函数使用神经网络模型实现，使用神经元网络的目的在于增加强化学习代理模型的有效程度；如图4，神经元网络使用一种全连接网络，层数为4，从左到右表示神经元网络的输入到输出。输入为S_t，T_t+1，r_t，输出为C_t。

基于深度强化学习的代理模型训练方法采用深度决定性策略梯度下降算法，过程如下：

第一步，根据强化学习的基本概念--Q学习的基本原理，首先随机初始化Q函数Q(S，C|θ^Q)和动作策略μ(S|θ^μ)，其中，Q以S，C为输入，θ^Q为该Q函数的参数。μ函数以s为输入，θ^μ为μ函数的参数。

第二步，根据获得的S_t，以及发给无人机的指令C_t、规划模块发送的目标S′_t+1,强化学习的奖罚因子r_t，计算：

y_i＝-r_i+γQ(S_i+1，μ(S_i+1|θ^μ)|θ^Q)

其中γ为折扣因子，μ(S_i+1|θ^μ)为执行动作的策略，表示输入S_i+1时根据当前模型参数θ^μ，得出的最优策略动作，y_i为执行当前动作的品质评估。

第三步，计算神经元网络的损失函数：

其中N表示时间序列总和，即前面的t的所有样本。损失函数是深度学习计算网络的末端，也是反误差梯度反向传播算法的始点。本损失函数计算整个动作序列的品质总和。

第四步，计算上述过程各步的微分值Δθ^Q和Δθ^μ，使用梯度下降的方法更新参数θ^Q和θ^μ：

θ^Q′←γθ^Q+(1-γ)θ^Q′

θ^μ←γθ^μ+(l-γ)θ^μ

重复这四个步骤直至满足效果要求(例如，根据用户需要90％准确率或重现率等，这个可以自行决定)。

基于深度强化学习的代理模型的建立包含了三个阶段：基于存储数据的训练阶段、带自学习功能的模型应用阶段和纯模型应用的自动巡检阶段。

基于存储数据的训练阶段：

如图5所示，基于存储数据进行训练的阶段，使用的是存储的历史记录数据进行，从历史数据中读出S、T,C和r(图5中的S(t)、T(t+1)、C(t)和r(t))，执行上述描述的深度强化学习代理的训练过程。

带自学习功能的模型应用阶段：

如图6所示，带自学习功能的模型应用阶段，使用强化学习代理以及原有的机载航迹规划软件进行指导飞行，每次飞行过程后，对S、T,C和r(图6中的S(t)、T(t+1)、C(t)和r(t))，执行上述描述的深度强化学习代理的训练过程。

纯模型应用的自动巡检阶段：

如图7所示，纯模型应用的自动巡检阶段，指训练基本完成，或者在某些不适合进行实时更新参数的情况下进行的飞行，这个过程使用强化学习的代理模型进行飞行，不对深度强化学习代理进行参数的学习更新。这个过程只是执行自主飞行任务。

具体的，本发明步骤303所述利用训练好的基于深度强化学习的代理模型，根据无人机的当前状态信息及目的状态信息生成飞行指令，之前还包括：利用历史的无人机的实际状态信息、实际飞行指令以及目的状态信息，对基于深度强化学习的代理模型的Q函数进行训练，获得一次训练好的基于深度强化学习的代理模型；利用实时的无人机的实际状态信息以及目的状态信息，对一次训练好的基于深度强化学习的代理模型的u函数进行训练，获得训练好的基于深度强化学习的代理模型。

其中，所述利用历史的无人机的实际状态信息、实际飞行指令以及目的状态信息，对基于深度强化学习的代理模型的Q函数进行训练，获得一次训练好的基于深度强化学习的代理模型，具体包括：将历史飞行任务的每个历史时刻的实际状态信息和实际飞行指令输入Q函数，获得每个历史时刻的Q函数值；根据每个历史时刻的Q函数值利用公式y_t＝-r_t+Q(S_t+1,C_t+1|θQ)，计算每个历史时刻的实际飞行指令对应的品质评价值；其中，y_t表示t时刻的实际飞行指令对应的品质评价值，r_t表示t时刻的奖罚因子，

其中，X_t＝(x_t,y_t,z_t)表示t时刻的实际位置，T_t＝(x′_t,y′_t,z′_t)表示t-1时刻确定的t时刻的目标位置，γ表示折扣因子，S_t+1表示在t时刻确定的t+1时刻的目标状态信息，C_t+1表示t+1时刻的飞行指令，θ^Q表示Q函数的参数，Q(·)表示Q函数；每个历史时刻的实际飞行指令对应的品质评价值，利用公式

计算所述飞行任务的损失函数值；其中，S_t表示在t-1时刻确定的t时刻的目标状态信息，C_t表示t时刻的飞行指令，N表示飞行任务的时间序列总数；根据所述损失函数值，采用反误差梯度反向传播算法更新Q函数中的参数，返回步骤“将历史飞行任务的每个历史时刻的实际状态信息和实际飞行指令输入Q函数，获得每个历史时刻的Q函数值”，直到损失函数值小于损失函数阈值。

所述利用实时的无人机的实际状态信息以及目的状态信息，对一次训练好的基于深度强化学习的代理模型的u函数进行训练，获得训练好的基于深度强化学习的代理模型，具体包括：将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数，获得当前预测时刻的生成飞行指令；计算当前预测时刻的生成飞行指令对应的品质评价值；当到达下一个预测时刻时，返回步骤“将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数，获得当前预测时刻的生成飞行指令”，直到完成当前飞行任务；根据每个预测时刻的生成飞行指令对应的品质评价值，计算当前飞行任务的损失函数值；根据当前飞行任务的损失函数值，采用反误差梯度反向传播算法更新u函数中的参数；当执行下一个飞行任务时，返回步骤“将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数，获得当前预测时刻的生成飞行指令”，继续训练，直到u函数输出的飞行指令使无人机在下一预测时刻的实际状态信息与目的状态信息的一致率达到一致率阈值，输出训练好的基于深度强化学习的代理模型。

本发明与申请号为201811564184.9，发明名称为一种基于改进Q学习算法的无人机群路径规划方法的现有专利相比，存在如下区别：

现有专利使用改进的Q学习算法，但是动作策略μ(s|θ^μ)未在计算过程中体现，与本发明的学习算法不同。

现有专利未表明深度学习代理的神经元网络及其结构。

现有专利使用简单的0-1奖励函数，与本发明采用的基于空间误差的欧式距离的形式不同。

现有专利用途在于无人机集群的飞行规划，本发明用于自主飞行无人机的路线优化，尤其是电力线路中的自动巡检无人机系统，自主飞行无人机的飞行路线相对固定，可以积累大量数据用于固定线路和场景的模型训练。

现有专利使用的传感器系统是光流和两个360度激光测距传感器，本发明采用的是双目深度感知模块、飞行时间相机系统、实时定位与地图构建模块、微型阵列式激光雷达。

可见，本发明利用深度强化学习，进行电力无人机自主巡检路线的优化的方法包括：强化学习的输入特征，包括位置、速度和角度等信息，以及奖罚函数的构建；强化学习代理在自动巡检场景下使用三种工作模式来保障训练效果和正常工作的策略；使用了神经元网络构建强化学习代理的方法及其神经元结构；使用强化学习代理模型输出的具体控制信号的策略；支持深度强化学习的自主巡检无人机的总体结构。

与现有技术相比，本发明的有益效果是：

1)高精确度的安全飞行。通过深度强化学习，让带有神经元网络的强化学习代理输出飞行指令，来代替现有的直接路径规划点输出，可以使得飞行轨迹更加精确，针对每一台机器自身所待的各类误差，通过学习的过程进行修正，使得每台设备在没条相对的自动巡检路径上有进一步的适应。

2)针对现场的各种干扰和经常性扰动，有一个自动学习和修正的机制，来确保飞行中的各种情况应对得更好。

本说明书中等效实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，等效实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种电力线路的无人机自动巡检系统，其特征在于，所述无人机自动巡检系统包括：地面站系统、设置在无人机上的通讯模块、位置和状态感知模块、惯性导航系统、边缘计算模块和控制中心单元；

2.根据权利要求1所述的电力线路的无人机自动巡检系统，其特征在于，所述无人机自动巡检系统还包括历史记录模块；

3.根据权利要求1所述的电力线路的无人机自动巡检系统，其特征在于，所述位置和状态感知模块包括双目深度感知模块、飞行时间相机系统、微型阵列式激光雷达和实时定位与地图构建模块；

4.一种电力线路的无人机自动巡检方法，其特征在于，所述无人机自动巡检方法包括如下步骤：

5.根据权利要求4所述的电力线路的无人机自动巡检方法，其特征在于，所述利用训练好的基于深度强化学习的代理模型，根据无人机的当前状态信息及目的状态信息生成飞行指令，之前还包括：

6.根据权利要求5所述的电力线路的无人机自动巡检方法，其特征在于，所述利用历史的无人机的实际状态信息、实际飞行指令以及目的状态信息，对基于深度强化学习的代理模型的Q函数进行训练，获得一次训练好的基于深度强化学习的代理模型，具体包括：

其中，X_t＝(x_t,y_t,z_t)表示t时刻的实际位置，T_t＝(x_t',y_t',z_t')表示t-1时刻确定的t时刻的目标位置，γ表示折扣因子，S_t+1表示在t时刻确定的t+1时刻的目标状态信息，C_t+1表示t+1时刻的飞行指令，θ^Q表示Q函数的参数，Q(·)表示Q函数；

每个历史时刻的实际飞行指令对应的品质评价值，利用公式

计算所述飞行任务的损失函数值L；其中，S_t表示在t-1时刻确定的t时刻的目标状态信息，C_t表示t时刻的飞行指令，N表示飞行任务的时间序列总数；

7.根据权利要求5所述的电力线路的无人机自动巡检方法，其特征在于，所述利用实时的无人机的实际状态信息以及目的状态信息，对一次训练好的基于深度强化学习的代理模型的u函数进行训练，获得训练好的基于深度强化学习的代理模型，具体包括：

计算当前预测时刻的生成飞行指令对应的品质评价值；