CN111716352B

CN111716352B - 一种配电网带电作业机械臂导航避障方法及系统

Info

Publication number: CN111716352B
Application number: CN202010400939.2A
Authority: CN
Inventors: 闫冬; 陈盛; 谈元鹏; 邓春宇; 张玉天; 史梦洁
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2022-04-29
Anticipated expiration: 2040-05-13
Also published as: CN111716352A

Abstract

本发明提出一种配电网带电作业机械臂导航避障方法及系统，该方法获取机械臂在实际作业场景中的状态空间集合s；将所述状态空间集合s输入使用深度强化学习算法训练的策略神经网络模型，获得用于控制机械臂各关节动作的关节转角集合a；若根据所述关节转角集合a中的角度改变量驱动机械臂各关节动作满足所有预设安全条件，则向机械臂发出执行所述关节转角集合a中各关节动作的信号。该方法及系统不仅能够实现带电作业机械臂在安全作业前提下的自主导航避障，还提高了作业精度。

Description

一种配电网带电作业机械臂导航避障方法及系统

技术领域

本发明涉及配电网带电作业技术领域，尤其涉及一种配电网带电作业机械臂导航避障方法及系统。

背景技术

现有技术中10kV配电网带电作业机器人多为主从式人工操作型机器人，作业时需要操作员站立于升起的绝缘斗内，通过操作控制杆来控制机械臂完成作业，其定位方式主要为摄像机观察或操作员目测观察。现有作业方式存在以下问题：机器人本体与高压线本体直接接触操作员近距离作业，需要考虑电气安全问题；主从式的操作方式对控制精度要求高，人工操作需要熟练的技术作为支撑；为保持安全作业距离常选择远距离作业路径，从而降低作业效率；以目测观察和固定摄像机拍摄易造成障碍遮挡视线，无法准确把握距离信息，造成臂体碰线等危险。

现有工业机械臂的自动作业多基于示教法，或根据专家经验设定一系列规定动作，依靠机械控制精度完成重复性作业。该类工业机械臂多用于流水线装配或者几乎不变的作业场景，包括配电房开关配电柜等固定作业流程等，但无法适应复杂多变的配电网10kV线路场景；基于机器视觉的机械臂自动控制可以实现自主导航和目标抓取，通过导入目标三维模型，识别目标姿态并自适应的调整导航路径和抓取姿态。但是摄像头视野中不能存在障碍物，即该方法无法实现自主避障功能。

基于快速搜索随机树法的机械臂路径规划，是现有技术中基于采样的规划方法的一种，具体的是基于三维空间建模，在空间中随机采样目标点，针对各目标点进行碰撞检测，选取不发生碰撞并顺利到达目标位置的各店连接成为规划路径，基于逆运动学解算机械臂各关节动作，实现机械臂的自主导航避障。该方法在用于线路作业环境时有以下问题：搜索树法需要高精度三维建模，而线路分布密集，不易清晰建模，从而造成后续随机探索出现误差造成碰线；线缆几何尺寸相对较小，随机取样步长可能无法感受线缆障碍的存在，导致探索所得规划线路无法满足电气安全距离要求或发生碰线；作业时要求场景相对稳定，对于场景的变化需要重新规划线路，计算量大且易造成无法找到合适线路。

发明内容

为了克服上述现有技术的缺陷，本发明的目的在于提出一种在安全作业前提下能够提高作业精度的配电网带电作业臂导航避障方法及系统。

为了实现本发明的发明目的，本发明采用如下技术方案：

一种配电网带电作业机械臂导航避障方法，其改进之处在于，包括下述步骤：

获取机械臂在实际作业场景中的状态空间集合s；

将所述状态空间集合s代入训练好的策略神经网络模型，获得用于控制机械臂各关节动作的关节转角集合a；

若根据所述关节转角集合a中的角度改变量驱动机械臂各关节动作满足所有预设安全条件，则向机械臂发出执行所述关节转角集合a中各关节动作的信号。

进一步地，所述获得用于控制机械臂各关节动作的关节转角集合a之后，还包括：

若根据所述关节转角集合a中的角度改变量驱动机械臂各关节动作不满足所有预设安全条件，则向机械臂发出终止动作信号并切换至人工作业模式，然后基于本次作业获得的所述状态空间集合s和关节转角集合a重新训练策略神经网络模型。

进一步地，所述将所述状态空间集合s代入训练好的策略神经网络模型，获得用于控制机械臂各关节动作的关节转角集合a，包括：

将所述实际作业场景中的状态空间集合s作为训练好的策略神经网络模型的输入，控制策略神经网络模型执行前向计算后输出新策略分布函数；

对所述新策略分布函数进行随机采样，获得关节转角集合a。

进一步地，所述策略神经网络模型的训练过程，包括：

构建基于深度强化学习的策略神经网络模型；

获取机械臂在模拟作业场景中的状态空间集合s；

根据所述状态空间集合s计算奖惩函数r和关节转角集合a，并依照采样时间顺序将所述状态空间集合s、关节转角集合a和奖惩函数r整理为策略链样本；

基于所述策略链样本，对策略神经网络模型进行训练，得到训练好的策略神经网络模型。

进一步地，所述状态空间集合s包括机械臂在相应作业场景中的目标点向量坐标、障碍物向量坐标、机械臂末端到目标点的向量坐标

机械臂各关节到障碍物的向量坐标最短距离D_MS以及机械臂各关节到达目标点的状态St。

进一步地，根据所述状态空间集合s计算奖惩函数r，包括：

r＝R_Aim+R_Col+R_Pos

式中，R_Aim为机械臂末端到达目标点的奖励值；R_Col为机械臂与障碍物发生碰撞时的惩罚值；R_Pos为机械臂的每一段臂体与各障碍物之间的惩罚值之和；c₁-c₅为奖励函数系数；L为机械臂末端节点到目标点的距离，L_max为机械臂末端节点到目标点的最大距离；d_m，n为机械臂各臂段与障碍物之间的最短距离，r_m，n为作业臂各臂段与障碍物距离小于预设危险阈值时所受到的惩罚值，m、M分别为作业空间中的障碍数和障碍物总数，n、N分别为机械臂的臂段数和臂段总数，r_danger为危险阈值。

进一步地，根据所述状态空间集合s计算关节转角集合a，包括：

将所述实际作业场景中的状态空间集合s输入构建好的策略神经网络模型得到新策略分布函数

对

进行随机采样，得到关节转角集合a。

进一步地，所述预设安全条件包括：

机械臂臂体未触碰障碍物；

机械臂臂体与高压设备的距离大于电气安全作业距离；

机械臂臂体与目标点的距离未超出预设范围。

另一方面，本发明还提出了一种一种配电网带电作业臂导航避障系统，其改进之处在于，包括如下各部分：

采样模块，用于获取机械臂在实际作业场景中的状态空间集合s；

决策模块，用于将所述状态空间集合s代入训练好的策略神经网络模型，获得用于控制机械臂各关节动作的关节转角集合a；

监督模块，用于若根据所述关节转角集合a中的角度改变量驱动机械臂各关节动作满足所有预设安全条件，则向机械臂发出执行所述关节转角集合a中各关节动作的信号。

与最接近的现有技术相比，本发明提供的技术方案具有以下有益效果：

本发明实施例提供一种配电网带电作业机械臂导航避障方法及系统，通过将机械臂在实际作业场景中的状态空间集合s代入训练好的策略神经网络模型，获得用于控制机械臂各关节动作的关节转角集合a；然后当根据所述关节转角集合a中的角度改变量驱动机械臂各关节动作满足所有预设安全条件时，则向机械臂发出执行所述关节转角集合a中各关节动作的信号。该方法及系统不仅能够实现带电作业机械臂在安全作业前提下的自主导航避障，还提高了作业精度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的一种配电网带电作业机械臂导航避障方法的流程示意图；

图2为本发明实施例提供的使用近端策略优化算法训练神经网络模型的流程示意图；

图3为本发明实施例提供的一种配电网带电作业机械臂导航避障系统的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例1

下面分别结合附图，对本发明实施例提供的一种配电网带电作业机械臂导航避障方法及系统分别进行说明。

具体来说，本发明实施例提供的一种配电网带电作业机械臂导航避障方法，如图1所示，包括下述步骤：

S11、获取机械臂在实际作业场景中的状态空间集合s；

S12、将状态空间集合s代入训练好的策略神经网络模型，获得用于控制机械臂各关节动作的关节转角集合a；

S13、若根据关节转角集合a中的角度改变量驱动机械臂各关节动作满足所有预设安全条件，则向机械臂发出执行关节转角集合a中各关节动作的信号。

步骤S11中的状态空间集合s包括机械臂在相应作业场景中的目标点向量坐标、障碍物向量坐标、机械臂末端到目标点的向量坐标、机械臂各关节到障碍物的向量坐标最短距离以及机械臂各关节到达目标点的状态。

步骤S12之后，还可以包括：

S14、若根据关节转角集合a中的角度改变量驱动机械臂各关节动作不满足所有预设安全条件，则向机械臂发出终止动作信号并切换至人工作业模式，然后基于本次作业获得的状态空间集合s和关节转角集合a重新训练策略神经网络模型。

即：在步骤S12之后，可以判断根据关节转角集合a中的角度改变量驱动机械臂各关节动作是否满足预设安全条件，若全部动作均满足预设安全条件，则向机械臂发出根据所述关节转角集合a控制各关节动作的信号；否则向机械臂发出终止动作信号并切换至人工作业模式，然后基于本次作业获得的所述状态空间集合s和关节转角集合a重新训练策略神经网络模型。

步骤S12具体包括如下步骤：

S121、将所述实际作业场景中的状态空间集合s作为训练好的策略神经网络模型的输入，控制策略神经网络模型执行前向计算后输出新策略分布函数；

S122、对所述新策略分布函数进行随机采样，获得关节转角集合a。

步骤S12使用训练好的策略神经网络模型，结合安全规范计算控制策略，以一定的步长t，从实际作业场景中获得状态空间集合s，作为策略神经网络模型的输入进行前向计算，输出新策略分布函数。对所得新策略分布函数进行采样，获得关节转角集合a＝(Δθ₁,Δθ₂,…,Δθ₆)，用于发送至仿真平台进行动作仿真及后续发送至控制器输出力矩控制电动机转角。

步骤S121中，对策略神经网络模型的训练过程，可以包括如下步骤：

S1211、构建基于深度强化学习的策略神经网络模型；

S1212、获取机械臂在模拟作业场景中的状态空间集合s；

S1213、根据所述状态空间集合s计算奖惩函数r和关节转角集合a，并依照采样时间顺序将所述状态空间集合s、关节转角集合a和奖惩函数r整理为策略链样本；

S1214、基于所述策略链样本，对策略神经网络模型进行训练，得到训练好的策略神经网络模型。

步骤S1211中构建的基于深度强化学习的策略神经网络模型包括：新策略网络、旧策略网络和价值网络三部分，如图2所示，三部分网络的参数分别为θ_d,θ′_d和θ_v。三部分网络均为全连接深度神经网络，网络参数θ均包括权重ω和偏差b；

价值网络根据状态空间s估计状态价值函数V，损失函数为采样策略价值和网络计算价值的差平方，形式为：Loss_v＝(R_v-V(s,θ_v))²；

新，旧策略网络根据状态空间s计算新策略分布函数π(a|s,θ_d)和旧策略分布函数

假设策略分布采用正态分布，即网络输出为正态分布均值为μ，方差为σ²。其中只有新策略网络执行网络训练，旧策略网络不执行网络训练。训练的损失函数为近端策略优化目标函数，形式为：

Loss_d＝E{min[ratio·A_t,CLIP(ratio,1+λ,1-λ)·A_t]}

以上步骤中，E为期望运算符；

为新旧策略概率值之比；A_t＝r(t)+γ·V(s_t+1)-V(s_t)表示优势函数；λ为策略分布差异系数，取值为0-1。

步骤S1212中的状态空间集合s包括机械臂在相应作业场景中的目标点向量坐标、障碍物向量坐标、机械臂末端到目标点的向量坐标、机械臂各关节到障碍物的向量坐标最短距离以及机械臂各关节到达目标点的状态。

机械臂在模拟作业场景中的状态主要通过本领域技术人员公知的仿真方法对机械臂在模拟作业场景中的环境、作业情况进行模拟仿真得到的，然后利用本发明实施例的步骤S1212对外部仿真平台生成的状态空间集合s进行采样；其中，模拟作业场景是采用现有仿真方法依照实际作业场景进行建模仿真获得的。

步骤S1213中根据状态空间集合s计算奖惩函数r，具体包括如下步骤：

r＝R_Aim+R_Col+R_Pos

式中，R_Aim为机械臂末端到达目标点的奖励值；R_Col为机械臂与障碍物发生碰撞时的惩罚值；R_Pos为机械臂的每一段臂体与各障碍物之间的惩罚值之和；c₁-c₅为奖励函数系数；L为机械臂末端节点到目标点的距离，L_max为机械臂末端节点到目标点的最大距离；d_m，n为机械臂各臂段与障碍物之间的最短距离，r_m，n为作业臂各臂段与障碍物距离小于预设危险阈值时所受到的惩罚值，m、M分别为作业空间中的障碍数和障碍物总数，n、N分别为机械臂的臂段数和臂段总数，本实施例中取值可以为3，r_danger为危险阈值。

步骤S1213中根据状态空间集合s计算关节转角集合a，具体包括如下步骤：

对

进行随机采样，得到关节转角集合a。

步骤S1213中依照采样时间顺序将状态空间集合s、关节转角集合a和奖惩函数r整理为策略链样本，包括如下步骤：

将采样信息整理为可以用于深度强化学习训练所需要的信息四元组{s(t),a(t),r(t),s(t+1)}，并依照时间顺序整理为策略链样本{s(t),a(t),r(t),s(t+1),…,s(T-1),a(T-1),r(T-1),s(T)}。根据策略链倒序计算各状态的状态值函数

γ为折扣因子。

本实施例中以单个机械臂具有三段臂以及六个自由度关节点为例进行说明，步骤S1212至步骤S1213主要负责从模拟作业场景中完成策略计算，信息更新和记录关键信息等。动作计算分为两种模式，随机采样和策略计算，其中随机采样模式以ε贪婪法执行动作-环境交互，即以ε的概率随机选取动作和1-ε的概略执行当前策略网络所做出的决策，到达终点或者最大时限时结束并记录交互信息，作为应用于神经网络训练的样本；策略计算应用于固定输出，即执行训练完成的策略网络或者末端姿态优化模块的动作决策。信息更新针对执行动作后的环境参量变化，包括臂体坐标信息，目标点信息，障碍坐标信息等。记录关键信息功能辨识到达目标点状态，碰撞检测状态等，是奖励函数的重要评价指标。

定义计算机械臂模型三个关节的空间坐标为(x_n,y_n,z_n),n＝1,2,3，各节点坐标展开形式为(x₁,y₁,z₁),(x₂,y₂,z₂),(x₃,y₃,z₃)，其中(x₃,y₃,z₃)为机械臂末端节点坐标。定义作业目标点为(r,s,t),则机械臂末端到目标点的向量及对应坐标为(R,S,T)＝(r,s,t)-(x₃,y₃,z₃)，机械臂末端到目标点的距离为

为衡量作业空间中各障碍物对机械臂各段臂的影响，需分别计算每个障碍物与三段臂之间的最短距离。假设作业空间中存在M个障碍物，定义各障碍物的几何中心点坐标为(p_m,q_m,o_m),m＝1,2,...,M，则机械臂各节点到各障碍物向量坐标为(P_m,n,Q_m,n,O_m,n)＝(p_m,q_m,o_m)-(x_n,y_n,z_n)m＝1,2,...,M n＝1,2,3。定义各障碍物与各段作业臂的最短距离为d_m,nm＝1,2,...,M n＝1,2,3。以上信息用于状态空间输入和奖励函数及状态价值计算。

状态空间包括目标点向量坐标、末端到目标点的向量坐标、机械臂各节点到各障碍物向量坐标、机械臂各节点到各障碍物向量坐标的最短距离及到达目标点状态，形式为s(t)＝(r,s,t,R,S,T,P_1,1,Q_1,1,O_1,1,…,P_m,n,Q_m,n,O_m,n,d_1,1,…d_m,n,St)m＝1,2,...,M n＝1,2,3，其中St为1时表示臂末端到达目标范围，0则相反；动作空间为a＝(Δθ₁,Δθ₂,…,Δθ₆)，值域为[-π/2,π/2]；经过一个单位时间，环境完成交互后，状态空间变为s(t+1)＝(r′,s′,t′,R′,S′,T′,P′_1,1,Q′_1,1,O′_1,1,…,P′_m,n,Q′_m,n,O′_m,n,d′_1,1,…d′_m,n,St′)m＝1,2,...,Mn＝1,2,3。

本实施例中可以使用近端策略优化算法(PPO算法)对步骤S1211中构建的神经网络模型的结构进行训练，如图2所示，步骤S1214具体包括如下步骤：

A.每一轮训练开始时，将新策略网络参数复制到旧策略网络中，用于计算

在n个环境下进行随机采样，通过执行

和ε贪婪法得到策略链样本{s(t),a(t),r(t),s(t+1),…,s(T)}_n，作为神经网络运算信息。

B.将n个运算信息分为z个Batch，每个Batch中包含nT/z个{s(t),a(t),r(t),s(t+1)}_n四元组，将Batch推送给价值网络和新旧策略网络，进行网络梯度下降计算，得到网络参数更新量Δθ_d和Δθ_v，对网络参数进行更新。

C.网络参数更新后,训练模块返回步骤A用最新网络开始新一轮训练，并循环执行训练步骤。

D.当两个网络的损失函数趋于稳定时，结束训练并获得可以应用于实际控制的策略神经网络

步骤S13和S14中预设的安全条件包括：

机械臂臂体未触碰障碍物；

机械臂臂体与高压设备的距离大于电气安全作业距离；和

机械臂臂体与目标点的距离未超出预设范围。

实施例2

基于同样的发明构思，本发明实施例还提供一种配电网带电作业机械臂导航避障系统，如图3所示，包括：

采集模块21，用于获取机械臂在实际作业场景中的状态空间集合s；

决策模块22，用于将所述状态空间集合s代入训练好的策略神经网络模型，获得用于控制机械臂各关节动作的关节转角集合a；

监督模块23，用于若根据所述关节转角集合a中的角度改变量驱动机械臂各关节动作满足所有预设安全条件，则向机械臂发出执行所述关节转角集合a中各关节动作的信号。

优选地，采集模块21获取的状态空间集合s包括机械臂在实际作业场景中的目标点向量坐标、障碍物向量坐标、机械臂末端到目标点的向量坐标、机械臂各关节到障碍物的向量坐标最短距离以及机械臂各关节到达目标点的状态。

优选地，决策模块22，具体用于：

对所述新策略分布函数进行随机采样，获得关节转角集合a。

具体的，决策模块22使用训练好的策略神经网络模型，结合安全规范计算控制策略，以一定的步长t，从实际作业场景中获得状态空间集合s，作为策略神经网络模型的输入进行前向计算，输出新策略分布函数。对所得新策略分布函数进行采样，获得关节转角集合a＝(Δθ₁,Δθ₂,…,Δθ₆)，用于发送至仿真平台进行动作仿真及后续发送至控制器输出力矩控制电动机转角。

优选地，本实施例的导航避障系统还包括训练模块24，包括：

模型构建单元241，用于构建基于深度强化学习的策略神经网络模型；

采样单元242，用于获取机械臂本体仿真模型在模拟作业场景中的状态空间集合s；计算根据所述状态空间集合s计算奖惩函数r和关节转角集合a，并依照采样时间顺序将所述状态空间集合s、关节转角集合a和奖惩函数r整理为策略链样本；

训练单元243，用于基于所述策略链样本，对策略神经网络模型进行训练，得到训练好的策略神经网络模型。

具体的，模型构建单元241构建的基于深度强化学习的策略神经网络模型包括：新策略网络、旧策略网络和价值网络三部分，三部分网络的参数分别为θ_d,θ′_d和θ_v。三部分网络均为全连接深度神经网络，网络参数θ均包括权重ω和偏差b；

Loss_d＝E{min[ratio·A_t,CLIP(ratio,1+λ,1-λ)·A_t]}

以上步骤中，E为期望运算符；

采样单元242获取的状态空间集合s包括机械臂在模拟作业场景中的目标点向量坐标、障碍物向量坐标、机械臂末端到目标点的向量坐标

采样单元242主要负责从模拟作业场景中完成策略计算，信息更新和记录关键信息等。动作计算分为两种模式，随机采样和策略计算，其中随机采样模式以ε贪婪法执行动作-环境交互，即以ε的概率随机选取动作和1-ε的概略执行当前策略网络所做出的决策，到达终点或者最大时限时结束并记录交互信息，作为应用于神经网络训练的样本；策略计算应用于固定输出，即执行训练完成的策略网络或者末端姿态优化模块的动作决策。信息更新针对执行动作后的环境参量变化，包括臂体坐标信息，目标点信息，障碍坐标信息等。记录关键信息功能辨识到达目标点状态，碰撞检测状态等，是奖励函数的重要评价指标。

为衡量作业空间中各障碍物对机械臂各段臂的影响，需分别计算每个障碍物与三段臂之间的最短距离。假设作业空间中存在M个障碍物，定义各障碍物的几何中心点坐标为(p_m,q_m,o_m),m＝1,2,...,M，则机械臂各节点到各障碍物向量坐标为(P_m,n,Q_m,n,O_m,n)＝(p_m,q_m,o_m)-(x_n,y_n,z_n)m＝1,2,...,M n＝1,2,3。定义各障碍物与各段作业臂的最短距离为d_m,n m＝1,2,...,M n＝1,2,3。以上信息用于状态空间输入和奖励函数及状态价值计算。

状态空间包括目标点向量坐标、末端到目标点的向量坐标、机械臂各节点到各障碍物向量坐标、机械臂各节点到各障碍物向量坐标的最短距离及到达目标点状态，形式为s(t)＝(r,s,t,R,S,T,P_1,1,Q_1,1,O_1,1,…,P_m,n,Q_m,n,O_m,n,d_1,1,…d_m,n,St)m＝1,2,...,M n＝1,2,3，其中St为1时表示臂末端到达目标范围，0则相反；动作空间为a＝(Δθ₁,Δθ₂,…,Δθ₆)，值域为[-π/2,π/2]；经过一个单位时间，环境完成交互后，状态空间变为s(t+1)＝(r′,s′,t′,R′,S′,T′,P′_1，1,Q′_1,1,O′_1,1,…,P′_m,n,Q′_m,n,O′_m,n,d′_1,1,…d′_m,n,St′)m＝1,2,...,Mn＝1,2,3

采样单元242，还用于根据状态空间集合s计算奖惩函数r，如下式：

r＝R_Aim+R_Col+R_Pos

采样单元242，还用于根据状态空间集合s计算关节转角集合a，具体包括：

对

进行随机采样，得到关节转角集合a。

采样单元242，还用于依照采样时间顺序将状态空间集合s、关节转角集合a和奖惩函数r整理为策略链样本，具体包括：

γ为折扣因子。

本实施例中可以使用近端策略优化算法(PPO算法)对步骤S1211中构建的神经网络模型的结构进行训练，训练单元243具体用于：

在n个环境下进行随机采样，通过执行

优选地，监督模块23，还用于：

实际作业需要策略网络输出策略概率分布，进一步采样得到策略动作。若该策略分布各动作均无法满足安全要求，发出终止信号并切断该策略链。当发出终止信号时，切换至人工作业模式。本次作业信息，包括作业环境模型和已完成策略链，会被存入训练模块并标注，用于针对该环境的再训练。

实际作业应用提供的环境建模和策略链数据，包括监督模块23返回的误动作数据，监督模块根据信息标注选择性的回传至训练模块24用于策略网络和价值网络的参数优化。监督模块23作为经验池，将三维建模数据、sars策略链规范化存储并标注作业成功或失败，标注为失败的信息将直接反馈至训练模块，结合对于作业环境的重采样，进行模型参数更新获得针对当前作业环境的特化策略网络；标注为成功的策略信息，会随机的加入经验池中，可以为模型泛化及后续算法改进提供样本支撑。

其中，预设的安全条件包括：

机械臂臂体未触碰障碍物；

机械臂臂体与高压设备的距离大于电气安全作业距离；和

机械臂臂体与目标点的距离未超出预设范围。

本发明实施例1和实施例2中提出的机械臂导航避障方法及系统由现有人工作业转成人工智能化，完成带电作业机械臂在安全作业前提下的自动导航和避障，提高了作业精度，此外，采用本发明的技术方案还具有以下有益效果：

深度强化学习基于深度学习，计算主体为神经网络结构，在实际使用时主要执行网络前向计算，计算效率高；

神经网络的输入依靠三维建模提供中的距离等信息，但对建模精度要求不高，可以免去高精度建模的复杂工作高效执行作业；

深度强化学习的策略梯度方法可以用于解决连续动作决策问题，避免包括空间、动作空间的离散化，从而更能够提高作业精度；

使用基于极端策略优化的深度强化学习方法可以减少强化学习模型训练的波动性，提高训练效率。

实施例3

本发明还提出一种配电网带电作业机械臂控制系统，包括实施例2中的导航避障系统，还包括：

外部机器人仿真平台，用于通过预先构建的模拟作业场景模型和机械臂本体仿真模型对机械臂在实际作业场景中的运动路线和作业情况进行仿真；

主要是将预先构建的模拟作业场景模型和机械臂本体仿真模型导入外部机器人仿真平台中，并模拟作业场景模型和机械臂本体仿真模型实现运动学仿真交互，然后通过本发明实施例2中的采样单元242获取机械臂本体仿真模型在模拟作业场景中的状态空间集合s。

其中，模拟作业场景是对实际作业场景进行仿真得到的，模拟作业场景包括作业线路本体即三相线路，三条直线平行同平面排列，相间距离符合实际作业等比例尺寸；可能存在的障碍包括树枝，其他线路，分别构建抽象化模型，随机地分布于作业本体线路周围，分布范围满足电气安全距离要求。抽象模型用于模型预训练。

其中，实际作业场景是使用三维激光雷达，二位激光雷达，深度相机等设备进行基于点云技术的场景三维建模，建模对象包括作业线路本体及周围环境。作业场景建模可用于预训练模型的迁移学习，修正决策细节，提高模型鲁棒性，也可以直接用于实际作业的运动仿真。

本发明的实施例是将机械臂本体仿真模型和模拟作业场景导入机器人仿真平台，实现碰撞检测。假设作业空间存在M个障碍物，定义各障碍物的几何中心点坐标为(p_m,q_m,o_m),m＝1,2,...,M，则机械臂各节点到各障碍物向量坐标为(P_m,n,Q_m,n,O_m,n)＝(p_m,q_m,o_m)-(x_n,y_n,z_n)m＝1,2,...,M n＝1,2,3。定义各障碍物与各段作业臂的最短距离为d_m,n m＝1,2,...,M n＝1,2,3

机器人仿真平台中导入的机械臂本体仿真模型，主要控制变量为六个自由度关节的角度改变量(Δθ₁,Δθ₂,…,Δθ₆)，以及运算量臂长(l₁,l₂,l₃)。角度为连续变量，值域为[-π/2,π/2]。

本发明实施例3中由于通过外部机器人仿真平台对模拟作业场景以及机械臂在模拟作业场景的作业情况进行仿真，进而带来了如下有益效果：

针对变化的作业环境无需重新计算，可以实时改变行动策略；

配电网线路环境随复杂多变，但存在共通规律，即主要结构为三相高压线，障碍主体为非作业目标的两项和其他并行线路线缆，和少量树枝；可以建立一般性作业环境三维模型用于本发明实施例2中采样单元进行状态采样以及训练模块对神经网络的训练，为典型障碍设置几何体代替，并变化障碍数量和位置，保证网络的泛化性能。

根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器、客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，PC程序和PC程序产品)。这样的实现本发明的程序可以存储在PC可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的PC来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。