CN112904890A - 一种电力线路的无人机自动巡检系统及方法 - Google Patents

一种电力线路的无人机自动巡检系统及方法 Download PDF

Info

Publication number
CN112904890A
CN112904890A CN202110055910.XA CN202110055910A CN112904890A CN 112904890 A CN112904890 A CN 112904890A CN 202110055910 A CN202110055910 A CN 202110055910A CN 112904890 A CN112904890 A CN 112904890A
Authority
CN
China
Prior art keywords
state information
aerial vehicle
unmanned aerial
flight
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110055910.XA
Other languages
English (en)
Other versions
CN112904890B (zh
Inventor
秦源汛
何红太
周环
桂菲菲
熊鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guowang Fuda Technology Development Co Ltd
Original Assignee
Beijing Guowang Fuda Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guowang Fuda Technology Development Co Ltd filed Critical Beijing Guowang Fuda Technology Development Co Ltd
Priority to CN202110055910.XA priority Critical patent/CN112904890B/zh
Publication of CN112904890A publication Critical patent/CN112904890A/zh
Application granted granted Critical
Publication of CN112904890B publication Critical patent/CN112904890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提出了一种电力线路的无人机自动巡检系统及方法,所述无人机自动巡检系统包括:地面站系统和设置在无人机上的通讯模块、位置和状态感知模块、惯性导航系统、边缘计算模块和控制中心单元;所述通讯模块、所述位置和状态感知模块、所述惯性导航系统和所述边缘计算模块均与所述控制中心单元连接,所述控制中心单元与无人机的执行机构连接;所述地面站系统与所述通讯模块连接。本发明边缘计算模块用于利用训练好的基于深度强化学习的代理模型,根据无人机的当前状态信息及目的状态信息生成飞行指令,控制无人机的飞行,使无人机飞行过程中尽可能的不偏离每个时刻的目的坐标,保证飞行的安全性。

Description

一种电力线路的无人机自动巡检系统及方法
技术领域
本发明涉及无人机控制技术领域,特别是涉及一种电力线路的无人机自动巡检系统及方法。
背景技术
电力线路巡视工作是配电专业日常运维管理的重要工作。在线路运行过程中,如高压电气设备长期存在局部放电,会加速设备老化,最终导致故障发生。目前电力企业对生产运维精益化要求不断提高,新设备、新材料的持续增长以及电网设备整体规模数量的急剧增加,导致现场检修、日常运行维护工作剧增,生产结构性缺员与供电可靠性要求的矛盾日益突出。传统的通过外观检查、手工记录开展电力线路日常巡视检查的工作方式,无法对设备状态机潜伏性故障有效掌握,特别是对输配电设备施行定期检修等方式,针对性不强。
电力线路电磁环境复杂,飞行难度高,同时,电力设备与供电息息相关,任何飞行中发生的意外都可能造成严重的后果,因此,提升巡检效率的同时,也必须提高无人机的飞行能力,以确保巡检的安全。如何在线路电磁环境复杂的情况下保证飞行安全成为一个亟待解决的技术问题。
发明内容
本发明的目的是提供一种电力线路的无人机自动巡检系统及方法,以提高无人机自动巡检过程中的安全性。
为实现上述目的,本发明提供了如下方案:
一种电力线路的无人机自动巡检系统,所述无人机自动巡检系统包括:地面站系统和设置在无人机上的通讯模块、位置和状态感知模块、惯性导航系统、边缘计算模块和控制中心单元;
所述通讯模块、所述位置和状态感知模块、所述惯性导航系统和所述边缘计算模块均与所述控制中心单元连接,所述控制中心单元与无人机的执行机构连接;所述地面站系统与所述通讯模块连接。
所述位置和状态感知模块用于获取无人机的当前位置信息,并将无人机的当前位置信息发送给控制中心单元;所述惯性导航系统用于获取无人机的当前速度信息和当前姿态信息,并将无人机的当前速度信息和当前姿态信息发送给控制中心单元;所述控制中心单元用于将无人机的当前位置信息、当前速度信息和当前姿态信息合并成无人机的当前状态信息,并通过通讯模块将无人机的当前状态信息发送给地面站系统;
所述地面站系统用于根据用户输入指令、无人机的当前状态信息生成下一时刻的目的状态信息,并将所述目的状态信息发送给控制中心单元,控制中心单元将无人机的当前状态信息及目的状态信息发送给所述边缘计算模块;
所述边缘计算模块用于利用训练好的基于深度强化学习的代理模型,根据无人机的当前状态信息及目的状态信息生成飞行指令,并将所述飞行指令发送给所述控制中心单元;
所述控制中心单元用于将所述飞行指令转换成执行机构控制指令,以控制无人机的执行机构。
可选的,所述无人机自动巡检系统还包括历史记录模块;
所述历史记录模块与所述控制中心单元连接,所述控制中心单元用于将无人机的实际状态信息和目的状态信息及实际飞行指令实时的存入所述历史记录模块;
所述控制中心单元还用于从所述历史记录模块中读取历史的无人机的实际状态信息和目的状态信息及实际飞行指令,并发送给边缘计算模块;
所述边缘计算模块还用于根据历史的无人机的实际状态信息和目的状态信息及实际飞行指令训练基于深度强化学习的代理模型的Q函数,获得一次训练后的基于深度强化学习的代理模型。
可选的,所述位置和状态感知模块包括双目深度感知模块、飞行时间相机系统、微型阵列式激光雷达和实时定位与地图构建模块;
所述双目深度感知模块、所述飞行时间相机系统和所述微型阵列式激光雷达分别与所述实时定位与地图构建模块连接,所述实时定位与地图构建模块与所述控制中心单元连接。
一种电力线路的无人机自动巡检方法,所述无人机自动巡检方法包括如下步骤:
采集无人机的当前状态信息;所述当前状态信息包括:当前位置信息、当前速度信息和当前姿态信息;
根据无人机的当前状态信息及用户输入指令,确定下一时刻的无人机的目的状态信息;
利用训练好的基于深度强化学习的代理模型,根据无人机的当前状态信息及目的状态信息生成飞行指令;
将所述飞行指令转换成执行机构控制指令,控制无人机的执行机构,进行电力线路的巡检。
可选的,所述利用训练好的基于深度强化学习的代理模型,根据无人机的当前状态信息及目的状态信息生成飞行指令,之前还包括:
利用历史的无人机的实际状态信息、实际飞行指令以及目的状态信息,对基于深度强化学习的代理模型的Q函数进行训练,获得一次训练好的基于深度强化学习的代理模型;
利用实时的无人机的实际状态信息以及目的状态信息,对一次训练好的基于深度强化学习的代理模型的u函数进行训练,获得训练好的基于深度强化学习的代理模型。
可选的,所述利用历史的无人机的实际状态信息、实际飞行指令以及目的状态信息,对基于深度强化学习的代理模型的Q函数进行训练,获得一次训练好的基于深度强化学习的代理模型,具体包括:
将历史飞行任务的每个历史时刻的实际状态信息和实际飞行指令输入Q函数,获得每个历史时刻的Q函数值;
根据每个历史时刻的Q函数值利用公式yt=-rt+Q(St+1,Ct+1Q),计算每个历史时刻的实际飞行指令对应的品质评价值;其中,yt表示t时刻的实际飞行指令对应的品质评价值,rt表示t时刻的奖罚因子,
Figure BDA0002900597020000031
其中,Xt=(xt,yt,zt)表示t时刻的实际位置,Tt=(x′t,y′t,z′t)表示t-1时刻确定的t时刻的目标位置,γ表示折扣因子,St+1表示在t时刻确定的t+1时刻的目标状态信息,Ct+1表示t+1时刻的飞行指令,θQ表示Q函数的参数,Q(·)表示Q函数;
每个历史时刻的实际飞行指令对应的品质评价值,利用公式
Figure BDA0002900597020000041
计算所述飞行任务的损失函数值;其中,St表示在t-1时刻确定的t时刻的目标状态信息,Ct表示t时刻的飞行指令,N表示飞行任务的时间序列总数;
根据所述损失函数值,采用反误差梯度反向传播算法更新Q函数中的参数,返回步骤“将历史飞行任务的每个历史时刻的实际状态信息和实际飞行指令输入Q函数,获得每个历史时刻的Q函数值”,直到损失函数值小于损失函数阈值。
可选的,利用实时的无人机的实际状态信息以及目的状态信息,对一次训练好的基于深度强化学习的代理模型的u函数进行训练,获得训练好的基于深度强化学习的代理模型,具体包括:
将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数,获得当前预测时刻的生成飞行指令;
计算当前预测时刻的生成飞行指令对应的品质评价值;
当到达下一个预测时刻时,返回步骤“将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数,获得当前预测时刻的生成飞行指令”,直到完成当前飞行任务;
根据每个预测时刻的生成飞行指令对应的品质评价值,计算当前飞行任务的损失函数值;
根据当前飞行任务的损失函数值,采用反误差梯度反向传播算法更新u函数中的参数;
当执行下一个飞行任务时,返回步骤“将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数,获得当前预测时刻的生成飞行指令”,继续训练,直到u函数输出的飞行指令使无人机在下一预测时刻的实际状态信息与目的状态信息的一致率达到一致率阈值,输出训练好的基于深度强化学习的代理模型。
与现有技术相比,本发明的有益效果是:
本发明提出了一种电力线路的无人机自动巡检系统及方法,所述无人机自动巡检系统包括:地面站系统和设置在无人机上的通讯模块、位置和状态感知模块、惯性导航系统、边缘计算模块和控制中心单元;所述通讯模块、所述位置和状态感知模块、所述惯性导航系统和所述边缘计算模块均与所述控制中心单元连接,所述控制中心单元与无人机的执行机构连接;所述地面站系统与所述通讯模块连接。本发明边缘计算模块用于利用训练好的基于深度强化学习的代理模型,根据无人机的当前状态信息及目的状态信息生成飞行指令,控制无人机的飞行,使无人机飞行过程中尽可能的不偏离每个时刻的目的坐标,保证飞行的安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种电力线路的无人机自动巡检系统的结构图;
图2为本发明提供的一种电力线路的无人机自动巡检系统的工作原理图;
图3为本发明提供的一种电力线路的无人机自动巡检方法的流程图;
图4为本发明提供的神经网络模型的结构图;
图5为本发明提供的基于深度强化学习的代理模型的基于存储数据的训练阶段的原理图;
图6为本发明提供的基于深度强化学习的代理模型的带自学习功能的模型应用阶段的原理图;
图7为本发明提供的基于深度强化学习的代理模型的纯模型应用的自动巡检阶段的原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种电力线路的无人机自动巡检系统及方法,以提高无人机自动巡检过程中的安全性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种电力线路的无人机自动巡检系统,所述无人机自动巡检系统包括:地面站系统和设置在无人机上的通讯模块、位置和状态感知模块、惯性导航系统、边缘计算模块和控制中心单元;所述通讯模块、所述位置和状态感知模块、所述惯性导航系统和所述边缘计算模块均与所述控制中心单元连接,所述控制中心单元与无人机的执行机构连接;所述地面站系统与所述通讯模块连接;所述位置和状态感知模块用于获取无人机的当前位置信息,并将无人机的当前位置信息发送给控制中心单元;所述惯性导航系统用于获取无人机的当前速度信息和当前姿态信息,并将无人机的当前速度信息和当前姿态信息发送给控制中心单元;所述控制中心单元用于将无人机的当前位置信息、当前速度信息和当前姿态信息合并成无人机的当前状态信息,并通过通讯模块将无人机的当前状态信息发送给地面站系统;所述地面站系统用于根据用户输入指令、无人机的当前状态信息生成下一时刻的目的状态信息,并将所述目的状态信息发送给控制中心单元,控制中心单元将无人机的当前状态信息及目的状态信息发送给所述边缘计算模块;所述边缘计算模块用于利用训练好的基于深度强化学习的代理模型,根据无人机的当前状态信息及目的状态信息生成飞行指令,并将所述飞行指令发送给所述控制中心单元;所述控制中心单元用于将所述飞行指令转换成执行机构控制指令,以控制无人机的执行机构。
通讯模块负责与地面站系统通讯,地面站系统负责对接用户界面、自主飞行指令以及安全约束计算后的基本飞行目标。惯性导航系统可以实时高速感知速度和姿态角度信息。控制中心单元具有飞行控制的功能,负责将飞行指令转化为具体的执行指令(比如电机转速信号)交给执行机构。执行机构负责执行飞行控制模块下发的控制指令,比如各个电机的转速以及执行载荷的动作比如拍照和检测。
边缘计算模块带有GPU芯片,深度基于深度强化学习的代理模型在GPU芯片进行。
如图1所示,本发明的无人机自动巡检系统还包括历史记录模块;所述历史记录模块与所述控制中心单元连接,所述控制中心单元用于将无人机的实际状态信息和目的状态信息及实际飞行指令实时的存入所述历史记录模块;所述控制中心单元还用于从所述历史记录模块中读取历史的无人机的实际状态信息和目的状态信息及实际飞行指令,并发送给边缘计算模块;所述边缘计算模块还用于根据历史的无人机的实际状态信息和目的状态信息及实际飞行指令训练基于深度强化学习的代理模型的Q函数,获得一次训练后的基于深度强化学习的代理模型。
所述位置和状态感知模块包括双目深度感知模块、飞行时间相机系统、微型阵列式激光雷达和实时定位与地图构建模块;所述双目深度感知模块、所述飞行时间相机系统和所述微型阵列式激光雷达分别与所述实时定位与地图构建模块连接,所述实时定位与地图构建模块与所述控制中心单元连接。位置和飞行状态感知系统主要作用是输出无人机的实时自身位置信息。
如图1所示,无人机自动巡检由负责用户交互与任务规划的地面站系统,历史记录存储模块,包括基于神经元网络的深度强化学习的代理模型的边缘计算模块,控制中心单元以及巡检无人机本体与任务载荷组成。
无人机自动巡检系统的工作原理如图2所示,图2中,St(图2中的S(t))为位置和飞行状态感知系统实时反馈的状态信息,它包括位置坐标信息、速度信息和姿态信息,位置坐标信息主要由双目深度感知模块、飞行时间相机系统、实时定位与地图构建模块、微型阵列式激光雷达系统提供。
其中X表示坐标信息,t为时间序列,Xt为t时刻下的坐标信息:
Xt=[xt,yt,zt]
St=[Xt,θt,vt]
其中θt,vt分别为无人机的姿态角度以及速度矢量值,由无人机飞行控制系统的传感器(位置和状态感知模块、惯性导航系统)进行采集。
Tt+1为由用户交互与地面站系统规划的下一个点的目的坐标,对应图2中的T(t+1):
Tt+1=[x′t+1,y′t+1,z′t+1]
S′t+1=[Tt+1,θt+1,vt+1]
其中,θ′t,τ′t分别为无人机的姿态角度以及速度矢量的估计值,由地面站系统进行提前计算。
强化学习的奖罚因子rt为偏差的空间距离,Xt,Tt分别是t时刻都实时位置和规划位置,Tt对应图2中的,T(t)。
Tt=[x′t,y′t,z′t]
Figure BDA0002900597020000081
强化学习奖罚因子是强化学习的基本概念,通过执行情况的结果,设置奖励因子,并在可以学习的模型(包括一般的机器学习以及深度学习)中进行计算,将结果的差异程度,转化成学习模型中的参数变化方向(梯度),并乘以一个学习率,就可以更新模型参数。这个过程称为强化学习。
飞行指令Ct为一个三维方向上的变化量,对应图2中的C(t):
Ct=[Δxt,Δyt,Δzt]
ut为本地控制变化量,对应图2中的u(t),主要由负责本地闭环控制的飞行控制与惯性导航系统来通过Ct计算:ut=f(Ct)。ut是更底层的控制参数比如各个电机的瞬间转速指令,一般为无刷电机的PWM控制信号。
如图3所示,本发明还提供一种电力线路的无人机自动巡检方法,所述无人机自动巡检方法包括如下步骤:
步骤301,采集无人机的当前状态信息;所述当前状态信息包括:当前位置信息、当前速度信息和当前姿态信息。
步骤302,根据无人机的当前状态信息及用户输入指令,确定下一时刻的无人机的目的状态信息。
步骤303,利用训练好的基于深度强化学习的代理模型,根据无人机的当前状态信息及目的状态信息生成飞行指令。
步骤304,将所述飞行指令转换成执行机构控制指令,控制无人机的执行机构,进行电力线路的巡检。
本发明的基于深度强化学习的代理模型包括Q函数Q(S,C|θQ)和动作策略u函数μ(S|θμ)。
动作策略u函数使用神经网络模型实现,使用神经元网络的目的在于增加强化学习代理模型的有效程度;如图4,神经元网络使用一种全连接网络,层数为4,从左到右表示神经元网络的输入到输出。输入为St,Tt+1,rt,输出为Ct
基于深度强化学习的代理模型训练方法采用深度决定性策略梯度下降算法,过程如下:
第一步,根据强化学习的基本概念--Q学习的基本原理,首先随机初始化Q函数Q(S,C|θQ)和动作策略μ(S|θμ),其中,Q以S,C为输入,θQ为该Q函数的参数。μ函数以s为输入,θμ为μ函数的参数。
第二步,根据获得的St,以及发给无人机的指令Ct、规划模块发送的目标S′t+1,强化学习的奖罚因子rt,计算:
yi=-ri+γQ(Si+1,μ(Si+1μ)|θQ)
其中γ为折扣因子,μ(Si+1μ)为执行动作的策略,表示输入Si+1时根据当前模型参数θμ,得出的最优策略动作,yi为执行当前动作的品质评估。
第三步,计算神经元网络的损失函数:
Figure BDA0002900597020000091
其中N表示时间序列总和,即前面的t的所有样本。损失函数是深度学习计算网络的末端,也是反误差梯度反向传播算法的始点。本损失函数计算整个动作序列的品质总和。
第四步,计算上述过程各步的微分值ΔθQ和Δθμ,使用梯度下降的方法更新参数θQ和θμ
θQ′←γθQ+(1-γ)θQ′
θμ←γθμ+(l-γ)θμ
重复这四个步骤直至满足效果要求(例如,根据用户需要90%准确率或重现率等,这个可以自行决定)。
基于深度强化学习的代理模型的建立包含了三个阶段:基于存储数据的训练阶段、带自学习功能的模型应用阶段和纯模型应用的自动巡检阶段。
基于存储数据的训练阶段:
如图5所示,基于存储数据进行训练的阶段,使用的是存储的历史记录数据进行,从历史数据中读出S、T,C和r(图5中的S(t)、T(t+1)、C(t)和r(t)),执行上述描述的深度强化学习代理的训练过程。
带自学习功能的模型应用阶段:
如图6所示,带自学习功能的模型应用阶段,使用强化学习代理以及原有的机载航迹规划软件进行指导飞行,每次飞行过程后,对S、T,C和r(图6中的S(t)、T(t+1)、C(t)和r(t)),执行上述描述的深度强化学习代理的训练过程。
纯模型应用的自动巡检阶段:
如图7所示,纯模型应用的自动巡检阶段,指训练基本完成,或者在某些不适合进行实时更新参数的情况下进行的飞行,这个过程使用强化学习的代理模型进行飞行,不对深度强化学习代理进行参数的学习更新。这个过程只是执行自主飞行任务。
具体的,本发明步骤303所述利用训练好的基于深度强化学习的代理模型,根据无人机的当前状态信息及目的状态信息生成飞行指令,之前还包括:利用历史的无人机的实际状态信息、实际飞行指令以及目的状态信息,对基于深度强化学习的代理模型的Q函数进行训练,获得一次训练好的基于深度强化学习的代理模型;利用实时的无人机的实际状态信息以及目的状态信息,对一次训练好的基于深度强化学习的代理模型的u函数进行训练,获得训练好的基于深度强化学习的代理模型。
其中,所述利用历史的无人机的实际状态信息、实际飞行指令以及目的状态信息,对基于深度强化学习的代理模型的Q函数进行训练,获得一次训练好的基于深度强化学习的代理模型,具体包括:将历史飞行任务的每个历史时刻的实际状态信息和实际飞行指令输入Q函数,获得每个历史时刻的Q函数值;根据每个历史时刻的Q函数值利用公式yt=-rt+Q(St+1,Ct+1|θQ),计算每个历史时刻的实际飞行指令对应的品质评价值;其中,yt表示t时刻的实际飞行指令对应的品质评价值,rt表示t时刻的奖罚因子,
Figure BDA0002900597020000111
其中,Xt=(xt,yt,zt)表示t时刻的实际位置,Tt=(x′t,y′t,z′t)表示t-1时刻确定的t时刻的目标位置,γ表示折扣因子,St+1表示在t时刻确定的t+1时刻的目标状态信息,Ct+1表示t+1时刻的飞行指令,θQ表示Q函数的参数,Q(·)表示Q函数;每个历史时刻的实际飞行指令对应的品质评价值,利用公式
Figure BDA0002900597020000112
计算所述飞行任务的损失函数值;其中,St表示在t-1时刻确定的t时刻的目标状态信息,Ct表示t时刻的飞行指令,N表示飞行任务的时间序列总数;根据所述损失函数值,采用反误差梯度反向传播算法更新Q函数中的参数,返回步骤“将历史飞行任务的每个历史时刻的实际状态信息和实际飞行指令输入Q函数,获得每个历史时刻的Q函数值”,直到损失函数值小于损失函数阈值。
所述利用实时的无人机的实际状态信息以及目的状态信息,对一次训练好的基于深度强化学习的代理模型的u函数进行训练,获得训练好的基于深度强化学习的代理模型,具体包括:将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数,获得当前预测时刻的生成飞行指令;计算当前预测时刻的生成飞行指令对应的品质评价值;当到达下一个预测时刻时,返回步骤“将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数,获得当前预测时刻的生成飞行指令”,直到完成当前飞行任务;根据每个预测时刻的生成飞行指令对应的品质评价值,计算当前飞行任务的损失函数值;根据当前飞行任务的损失函数值,采用反误差梯度反向传播算法更新u函数中的参数;当执行下一个飞行任务时,返回步骤“将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数,获得当前预测时刻的生成飞行指令”,继续训练,直到u函数输出的飞行指令使无人机在下一预测时刻的实际状态信息与目的状态信息的一致率达到一致率阈值,输出训练好的基于深度强化学习的代理模型。
本发明与申请号为201811564184.9,发明名称为一种基于改进Q学习算法的无人机群路径规划方法的现有专利相比,存在如下区别:
现有专利使用改进的Q学习算法,但是动作策略μ(s|θμ)未在计算过程中体现,与本发明的学习算法不同。
现有专利未表明深度学习代理的神经元网络及其结构。
现有专利使用简单的0-1奖励函数,与本发明采用的基于空间误差的欧式距离的形式不同。
现有专利用途在于无人机集群的飞行规划,本发明用于自主飞行无人机的路线优化,尤其是电力线路中的自动巡检无人机系统,自主飞行无人机的飞行路线相对固定,可以积累大量数据用于固定线路和场景的模型训练。
现有专利使用的传感器系统是光流和两个360度激光测距传感器,本发明采用的是双目深度感知模块、飞行时间相机系统、实时定位与地图构建模块、微型阵列式激光雷达。
可见,本发明利用深度强化学习,进行电力无人机自主巡检路线的优化的方法包括:强化学习的输入特征,包括位置、速度和角度等信息,以及奖罚函数的构建;强化学习代理在自动巡检场景下使用三种工作模式来保障训练效果和正常工作的策略;使用了神经元网络构建强化学习代理的方法及其神经元结构;使用强化学习代理模型输出的具体控制信号的策略;支持深度强化学习的自主巡检无人机的总体结构。
与现有技术相比,本发明的有益效果是:
1)高精确度的安全飞行。通过深度强化学习,让带有神经元网络的强化学习代理输出飞行指令,来代替现有的直接路径规划点输出,可以使得飞行轨迹更加精确,针对每一台机器自身所待的各类误差,通过学习的过程进行修正,使得每台设备在没条相对的自动巡检路径上有进一步的适应。
2)针对现场的各种干扰和经常性扰动,有一个自动学习和修正的机制,来确保飞行中的各种情况应对得更好。
本说明书中等效实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,等效实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种电力线路的无人机自动巡检系统,其特征在于,所述无人机自动巡检系统包括:地面站系统、设置在无人机上的通讯模块、位置和状态感知模块、惯性导航系统、边缘计算模块和控制中心单元;
所述通讯模块、所述位置和状态感知模块、所述惯性导航系统和所述边缘计算模块均与所述控制中心单元连接,所述控制中心单元与无人机的执行机构连接;所述地面站系统与所述通讯模块连接。
所述位置和状态感知模块用于获取无人机的当前位置信息,并将无人机的当前位置信息发送给控制中心单元;所述惯性导航系统用于获取无人机的当前速度信息和当前姿态信息,并将无人机的当前速度信息和当前姿态信息发送给控制中心单元;所述控制中心单元用于将无人机的当前位置信息、当前速度信息和当前姿态信息合并成无人机的当前状态信息,并通过通讯模块将无人机的当前状态信息发送给地面站系统;
所述地面站系统用于根据用户输入指令、无人机的当前状态信息生成下一时刻的目的状态信息,并将所述目的状态信息发送给控制中心单元,控制中心单元将无人机的当前状态信息及目的状态信息发送给所述边缘计算模块;
所述边缘计算模块用于利用训练好的基于深度强化学习的代理模型,根据无人机的当前状态信息及目的状态信息生成飞行指令,并将所述飞行指令发送给所述控制中心单元;
所述控制中心单元用于将所述飞行指令转换成执行机构控制指令,以控制无人机的执行机构。
2.根据权利要求1所述的电力线路的无人机自动巡检系统,其特征在于,所述无人机自动巡检系统还包括历史记录模块;
所述历史记录模块与所述控制中心单元连接,所述控制中心单元用于将无人机的实际状态信息和目的状态信息及实际飞行指令实时的存入所述历史记录模块;
所述控制中心单元还用于从所述历史记录模块中读取历史的无人机的实际状态信息和目的状态信息及实际飞行指令,并发送给边缘计算模块;
所述边缘计算模块还用于根据历史的无人机的实际状态信息和目的状态信息及实际飞行指令训练基于深度强化学习的代理模型的Q函数,获得一次训练后的基于深度强化学习的代理模型。
3.根据权利要求1所述的电力线路的无人机自动巡检系统,其特征在于,所述位置和状态感知模块包括双目深度感知模块、飞行时间相机系统、微型阵列式激光雷达和实时定位与地图构建模块;
所述双目深度感知模块、所述飞行时间相机系统和所述微型阵列式激光雷达分别与所述实时定位与地图构建模块连接,所述实时定位与地图构建模块与所述控制中心单元连接。
4.一种电力线路的无人机自动巡检方法,其特征在于,所述无人机自动巡检方法包括如下步骤:
采集无人机的当前状态信息;所述当前状态信息包括:当前位置信息、当前速度信息和当前姿态信息;
根据无人机的当前状态信息及用户输入指令,确定下一时刻的无人机的目的状态信息;
利用训练好的基于深度强化学习的代理模型,根据无人机的当前状态信息及目的状态信息生成飞行指令;
将所述飞行指令转换成执行机构控制指令,控制无人机的执行机构,进行电力线路的巡检。
5.根据权利要求4所述的电力线路的无人机自动巡检方法,其特征在于,所述利用训练好的基于深度强化学习的代理模型,根据无人机的当前状态信息及目的状态信息生成飞行指令,之前还包括:
利用历史的无人机的实际状态信息、实际飞行指令以及目的状态信息,对基于深度强化学习的代理模型的Q函数进行训练,获得一次训练好的基于深度强化学习的代理模型;
利用实时的无人机的实际状态信息以及目的状态信息,对一次训练好的基于深度强化学习的代理模型的u函数进行训练,获得训练好的基于深度强化学习的代理模型。
6.根据权利要求5所述的电力线路的无人机自动巡检方法,其特征在于,所述利用历史的无人机的实际状态信息、实际飞行指令以及目的状态信息,对基于深度强化学习的代理模型的Q函数进行训练,获得一次训练好的基于深度强化学习的代理模型,具体包括:
将历史飞行任务的每个历史时刻的实际状态信息和实际飞行指令输入Q函数,获得每个历史时刻的Q函数值;
根据每个历史时刻的Q函数值利用公式yt=-rt+Q(St+1,Ct+1Q),计算每个历史时刻的实际飞行指令对应的品质评价值;其中,yt表示t时刻的实际飞行指令对应的品质评价值,rt表示t时刻的奖罚因子,
Figure FDA0002900597010000031
其中,Xt=(xt,yt,zt)表示t时刻的实际位置,Tt=(xt',yt',zt')表示t-1时刻确定的t时刻的目标位置,γ表示折扣因子,St+1表示在t时刻确定的t+1时刻的目标状态信息,Ct+1表示t+1时刻的飞行指令,θQ表示Q函数的参数,Q(·)表示Q函数;
每个历史时刻的实际飞行指令对应的品质评价值,利用公式
Figure FDA0002900597010000032
计算所述飞行任务的损失函数值L;其中,St表示在t-1时刻确定的t时刻的目标状态信息,Ct表示t时刻的飞行指令,N表示飞行任务的时间序列总数;
根据所述损失函数值,采用反误差梯度反向传播算法更新Q函数中的参数,返回步骤“将历史飞行任务的每个历史时刻的实际状态信息和实际飞行指令输入Q函数,获得每个历史时刻的Q函数值”,直到损失函数值小于损失函数阈值。
7.根据权利要求5所述的电力线路的无人机自动巡检方法,其特征在于,所述利用实时的无人机的实际状态信息以及目的状态信息,对一次训练好的基于深度强化学习的代理模型的u函数进行训练,获得训练好的基于深度强化学习的代理模型,具体包括:
将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数,获得当前预测时刻的生成飞行指令;
计算当前预测时刻的生成飞行指令对应的品质评价值;
当到达下一个预测时刻时,返回步骤“将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数,获得当前预测时刻的生成飞行指令”,直到完成当前飞行任务;
根据每个预测时刻的生成飞行指令对应的品质评价值,计算当前飞行任务的损失函数值;
根据当前飞行任务的损失函数值,采用反误差梯度反向传播算法更新u函数中的参数;
当执行下一个飞行任务时,返回步骤“将当前飞行任务的当前预测时刻的实际状态信息和目的状态信息输入一次训练好的基于深度强化学习的代理模型的u函数,获得当前预测时刻的生成飞行指令”,继续训练,直到u函数输出的飞行指令使无人机在下一预测时刻的实际状态信息与目的状态信息的一致率达到一致率阈值,输出训练好的基于深度强化学习的代理模型。
CN202110055910.XA 2021-01-15 2021-01-15 一种电力线路的无人机自动巡检系统及方法 Active CN112904890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110055910.XA CN112904890B (zh) 2021-01-15 2021-01-15 一种电力线路的无人机自动巡检系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110055910.XA CN112904890B (zh) 2021-01-15 2021-01-15 一种电力线路的无人机自动巡检系统及方法

Publications (2)

Publication Number Publication Date
CN112904890A true CN112904890A (zh) 2021-06-04
CN112904890B CN112904890B (zh) 2023-06-30

Family

ID=76113475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110055910.XA Active CN112904890B (zh) 2021-01-15 2021-01-15 一种电力线路的无人机自动巡检系统及方法

Country Status (1)

Country Link
CN (1) CN112904890B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113534832A (zh) * 2021-08-03 2021-10-22 国网江苏省电力有限公司泰州供电分公司 一种基于边缘计算的无人机巡检跟踪配网线飞行方法
CN113885574A (zh) * 2021-10-28 2022-01-04 中国人民解放军96901部队24分队 一种多无人飞行器协同编队控制系统
CN114301897A (zh) * 2022-01-05 2022-04-08 杭州电泰实业有限公司 电网站房自动巡检的方法、系统、装置、存储介质
CN116341880A (zh) * 2023-05-26 2023-06-27 成都盛锴科技有限公司 一种基于有限状态机的列检机器人分布式调度方法
CN116755474A (zh) * 2023-08-18 2023-09-15 广州全成多维信息技术有限公司 一种无人机用电力巡线方法及系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107450593A (zh) * 2017-08-30 2017-12-08 清华大学 一种无人机自主导航方法和系统
CN109990790A (zh) * 2019-03-29 2019-07-09 北京邮电大学 一种无人机路径规划方法及装置
CN110262511A (zh) * 2019-07-12 2019-09-20 同济人工智能研究院(苏州)有限公司 基于深度强化学习的双足机器人自适应性行走控制方法
CN110956148A (zh) * 2019-12-05 2020-04-03 上海舵敏智能科技有限公司 无人车的自主避障方法及装置、电子设备、可读存储介质
US20200175364A1 (en) * 2017-05-19 2020-06-04 Deepmind Technologies Limited Training action selection neural networks using a differentiable credit function
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
CN111414252A (zh) * 2020-03-18 2020-07-14 重庆邮电大学 一种基于深度强化学习的任务卸载方法
CA3067575A1 (en) * 2019-01-14 2020-07-14 Harbin Engineering University Self-learning autonomous navigation systems and methods for unmanned underwater vehicle
CN111522355A (zh) * 2020-03-19 2020-08-11 尚特杰电力科技有限公司 一种基于边缘计算的无人机巡检系统及其巡检方法
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN111932813A (zh) * 2020-08-14 2020-11-13 南京邮电大学 一种基于边缘计算的无人机森林火灾侦察系统及工作方法
CN112084030A (zh) * 2020-09-14 2020-12-15 重庆交通大学 基于云边协同的无人驾驶列车控制系统及其控制方法
CN112148025A (zh) * 2020-09-24 2020-12-29 东南大学 一种基于积分补偿强化学习的无人飞行器稳定控制算法
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200175364A1 (en) * 2017-05-19 2020-06-04 Deepmind Technologies Limited Training action selection neural networks using a differentiable credit function
CN107450593A (zh) * 2017-08-30 2017-12-08 清华大学 一种无人机自主导航方法和系统
CA3067575A1 (en) * 2019-01-14 2020-07-14 Harbin Engineering University Self-learning autonomous navigation systems and methods for unmanned underwater vehicle
CN109990790A (zh) * 2019-03-29 2019-07-09 北京邮电大学 一种无人机路径规划方法及装置
CN110262511A (zh) * 2019-07-12 2019-09-20 同济人工智能研究院(苏州)有限公司 基于深度强化学习的双足机器人自适应性行走控制方法
CN110956148A (zh) * 2019-12-05 2020-04-03 上海舵敏智能科技有限公司 无人车的自主避障方法及装置、电子设备、可读存储介质
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
CN111414252A (zh) * 2020-03-18 2020-07-14 重庆邮电大学 一种基于深度强化学习的任务卸载方法
CN111522355A (zh) * 2020-03-19 2020-08-11 尚特杰电力科技有限公司 一种基于边缘计算的无人机巡检系统及其巡检方法
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN111932813A (zh) * 2020-08-14 2020-11-13 南京邮电大学 一种基于边缘计算的无人机森林火灾侦察系统及工作方法
CN112084030A (zh) * 2020-09-14 2020-12-15 重庆交通大学 基于云边协同的无人驾驶列车控制系统及其控制方法
CN112148025A (zh) * 2020-09-24 2020-12-29 东南大学 一种基于积分补偿强化学习的无人飞行器稳定控制算法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
GAOXIANG WU ET AL.: "Energy efficient for UAV-enabled mobile edge computing networks:Intelligent task prediction and offloading", 《COMPUTER COMMUNICATIONS》 *
GAOXIANG WU ET AL.: "Energy efficient for UAV-enabled mobile edge computing networks:Intelligent task prediction and offloading", 《COMPUTER COMMUNICATIONS》, 2 December 2019 (2019-12-02), pages 556 - 562, XP086011218, DOI: 10.1016/j.comcom.2019.11.037 *
任娜 等: "面向无人机电力巡检的语义实体构建及航迹控制方法", 《计算机应用》 *
任娜 等: "面向无人机电力巡检的语义实体构建及航迹控制方法", 《计算机应用》, no. 10, 31 October 2020 (2020-10-31), pages 3095 - 3100 *
刘建伟 等: "基于值函数和策略梯度的深度强化学习综述", 《计算机学报》 *
刘建伟 等: "基于值函数和策略梯度的深度强化学习综述", 《计算机学报》, no. 06, 30 June 2018 (2018-06-30), pages 1406 - 1438 *
高春晓 等: "基于预测区域匹配的无人机航拍图像快速拼接", 《北京理工大学学报》 *
高春晓 等: "基于预测区域匹配的无人机航拍图像快速拼接", 《北京理工大学学报》, 30 November 2014 (2014-11-30), pages 1202 - 1206 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113534832A (zh) * 2021-08-03 2021-10-22 国网江苏省电力有限公司泰州供电分公司 一种基于边缘计算的无人机巡检跟踪配网线飞行方法
CN113534832B (zh) * 2021-08-03 2024-03-15 国网江苏省电力有限公司泰州供电分公司 一种基于边缘计算的无人机巡检跟踪配网线飞行方法
CN113885574A (zh) * 2021-10-28 2022-01-04 中国人民解放军96901部队24分队 一种多无人飞行器协同编队控制系统
CN114301897A (zh) * 2022-01-05 2022-04-08 杭州电泰实业有限公司 电网站房自动巡检的方法、系统、装置、存储介质
CN114301897B (zh) * 2022-01-05 2024-03-15 杭州电泰实业有限公司 电网站房自动巡检的方法、系统、装置、存储介质
CN116341880A (zh) * 2023-05-26 2023-06-27 成都盛锴科技有限公司 一种基于有限状态机的列检机器人分布式调度方法
CN116341880B (zh) * 2023-05-26 2023-08-11 成都盛锴科技有限公司 一种基于有限状态机的列检机器人分布式调度方法
CN116755474A (zh) * 2023-08-18 2023-09-15 广州全成多维信息技术有限公司 一种无人机用电力巡线方法及系统

Also Published As

Publication number Publication date
CN112904890B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN112904890A (zh) 一种电力线路的无人机自动巡检系统及方法
Zhang et al. 2D Lidar‐Based SLAM and Path Planning for Indoor Rescue Using Mobile Robots
JP2021034050A (ja) 強化学習に基づくauv行動計画及び動作制御方法
CN111880573B (zh) 一种基于视觉惯导融合的四旋翼自主导航方法
CN105807789B (zh) 基于t-s模糊观测器补偿的uuv控制方法
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN111930141A (zh) 一种水下机器人三维路径可视化跟踪方法
CN104076688A (zh) 一种自主式水下航行器主从式协同控制方法
CN113900449B (zh) 多无人机轨迹规划方法、装置、无人机及存储介质
CN116242364A (zh) 一种基于深度强化学习的多无人机智能导航方法
Roque et al. Fast model predictive image-based visual servoing for quadrotors
Meng et al. A Fully-Autonomous Framework of Unmanned Surface Vehicles in Maritime Environments Using Gaussian Process Motion Planning
CN115494849A (zh) 一种自动驾驶车辆导航控制方法及系统
CN110723207B (zh) 基于模型重构的智能汽车模型预测转向控制器及其控制方法
Orsag et al. State estimation, robust control and obstacle avoidance for multicopter in cluttered environments: Euroc experience and results
CN116047886B (zh) 一种基于神经网络的管道潜航机器人控制方法及系统
CN113093739B (zh) 一种多无人艇编队避碰的优化控制器及其结构、设计方法
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
CN113778080B (zh) 单轨双轮机器人的控制方法、装置、电子设备及存储介质
Jahoda et al. Autonomous car chasing
CN111752295B (zh) 无人机飞行轨迹规划方法及相关装置
Li et al. Energy-efficient space–air–ground–ocean-integrated network based on intelligent autonomous underwater glider
CN114609925A (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
Cella et al. Fueling Glocal: Optimization-Based Path Planning for Indoor Uavs in AN Autonomous Exploration Framework
Wen et al. USV Trajectory Tracking Control Based on Receding Horizon Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant