CN101954638B

CN101954638B - 高压输电线路除冰机器人自主抓线控制方法

Info

Publication number: CN101954638B
Application number: CN201010511402XA
Authority: CN
Inventors: 王耀南; 魏书宁; 印峰; 张辉; 杨易旻; 谭磊; 曹文明
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2010-10-18
Filing date: 2010-10-18
Publication date: 2012-01-04
Anticipated expiration: 2030-10-18
Also published as: CN101954638A

Abstract

本发明公开了一种高压输电线路除冰机器人自主抓线控制方法，通过设定状态集、动作集、Q表和回报函数，建立增强学习系统。该系统选择一个动作a作用于环境，接受该动作后环境转移到下一个状态s′，同时给出评价信号r，如果r满足一定条件则终止控制，否则增强学习系统将根据评价信号和状态s′通过行为选择策略决定下一个动作a′，更新Q表后进入下一次迭代。该方法能够克服由于机器人的模型误差、机器手臂末端位姿的不确定性和环境的复杂性等带来的影响，可实时在线地调整手臂末端的位姿，实现手臂快速准确地抓线，并且不需要人为远程控制，从而达到自主抓线控制的目的。

Description

高压输电线路除冰机器人自主抓线控制方法

技术领域

本发明属于机器人智能的控制技术领域，涉及一种高压输电线路除冰机器人自主抓线控制方法。

技术背景

输电线大量结冰将大大增加输电线塔承受的张力负荷，严重时会导致杆塔倾斜、倒塌、断线及绝缘子闪络，以及因不均匀覆冰和不同期脱冰所引起的导线舞动等现象，并由此引起线路跳闸、供电中断等事故，给工农业生产和人们生活造成严重影响。

目前技术上较成熟的是大电流热融除冰方法，多年以来在相关地区电网投入于实际应用并获得了很多宝贵经验，但在实际运用中操作复杂，融冰电流大小不易把握，效率与能耗不能兼顾。此外，还有人工除冰方法，能耗低，除冰方法灵活，但效率较低且具有一定的危险性。和上述传统除冰方法相比，采用机器人除冰具有无人员伤亡、无需停电和转移负载、可连续作业等优点。无需除冰作业时，还可作为巡线(即在输电线上巡视检查，掌握和了解输电线路的运行情况)用途，因此利用除冰机器人除冰是目前输电线路除冰技术的发展趋势之

除冰机器人无论是做除冰还是巡线用途，自主跨越输电线上的障碍物(防震锤、绝缘子、悬垂线夹等)是设计中的重要组成部分。除冰机器人一股至少具有两个手臂，通过手臂交替脱线和抓线动作实现机器人的整体越障。目前控制除冰机器人越障的方法主要有以下几种：以知识库的方式将离线规划好的机器人动作序列存储在机器人主控机中，越障时根据传感器的反馈信息，并结合知识库进行越障动作规划。但是由于障碍物类型的多样性和实际位姿的不可预知性，离线规划好准确的越障行为控制策略非常困难；视觉导航方法，即基于单目视觉或双目视觉进行图像重构，提取图像特征进行视觉伺服导航。但是为了将障碍物与背景分开，需要巨大的图像计算量，导致系统实时性较差；采用激光传感器进行机器人导航和抓线精确控制，可实现无接触远距离测量、速度快，但其测量过程受其他杂散光的影响较大。现有方法中，均假设输电线相邻两杆塔之间的水平距离很大，机器人手臂之间的输电线为直线，即与机器人箱体长度方向水平，而实际工程中输电线为悬垂角为5°～25°不等的“悬链线”，这本身就存在一定的误差，加上风力作用、加工误差、机械振动等原因可能导致机器人手臂在越障过程中抓线不成功，而现有方法缺少在线学习及调整的功能。

本专利的研究对象是三关节手臂除冰机器人。除冰机器人携带有摄像机，借助控制器里的图像处理单元，能够完成对监控对象空间位置坐标的标定。在机器人手臂末端搭载除冰装置并安装有接触传感器，传感器给出的开关信号是判断是否抓线成功的依据。针对机器人手臂在越障过程中可能会存在脱线情况，以及考虑到输电线柔性特点和外界不确定性因素的影响，采用传统控制方法难以保证其控制精度，同时由于算法本身过于复杂而无法满足工程应用对实时性的要求。因此如何设计一种简单可靠、实时性好、便于实现的机器人手臂自主抓线控制方法是保证除冰机器人正常工作的关键。

发明内容

本发明的目的在于提供一种基于SARSA算法(算法中每次迭代用到的五元组(s_t，a_t，r_t+1，s_t+1，a_t+1)，因此，该算法命名为SARSA算法)的增强学习系统的除冰机器人抓线控制方(即高压输电线路除冰机器人自主抓线控制方法)，该控制方法能够克服由于机器自身模型误差、机器手臂末端位姿的不确定性和环境复杂性等带来的影响，可实时在线地调整手臂末端的位姿，实现手臂快速准确地抓线，并且不需要人为远程控制，从而达到较高控制精度。

本发明的技术解决方案如下：

一种高压输电线路除冰机器人自主抓线控制方法，包括以下步骤：

通过设定状态集、动作集、Q表和回报函数，建立增强学习系统；该增强学习系统选择一个动作a作用于环境，接受动作a后环境转移到下一个状态s′，同时给出评价信号r，r又称为回报函数值，如果r满足一定条件则终止控制，否则增强学习系统将根据评价信号r和状态s′通过行为选择策略决定下一个动作a′，更新Q表后进入下一次迭代。

该方法能够克服由于机器人的模型误差、机器手臂末端位姿的不确定性和环境的复杂性等带来的影响，可实时在线地调整手臂末端的位姿，实现手臂快速准确地抓线，并且不需要人为远程控制，从而达到自主抓线控制的目的。。

所述的建立增强学习系统的过程为：

步骤1：建立状态集

三手臂除冰机器人在越障时，总是保持一个手臂脱线，称为脱线手臂，另外两个手臂悬挂在线上，悬挂在线上的手臂电机驱动机器人前进，脱线手臂待越过障碍后再抓线；以脱线手臂的基座为坐标系原点建立坐标系，脱线手臂最大活动范围的外边缘为弧线，该弧线与输电线的交点坐标记为(x_r，y_r)，输电线上防震锤外侧的竖直方向的垂线与输电线的交点坐标记为(x_l，y_l)，点(x_r，y_r)和点(x_l，y_l)之间的线段为有效线段，目标点为有效线段中心点，坐标记为(x_f，y_f)，脱线手臂末端位置坐标为(x_t，y_t)；

除冰机器人抓线控制的环境状态以s＝(X，Y)表示，其中X，Y∈{-1，0，1}；则状态集为：S＝{(-1，-1)，(-1，0)，(-1，1)，(0，-1)，(0，0)，(0，1)，(1，-1)，(1，0)，(1，1)}；

步骤2：建立动作集

定义动作a＝<a₁，a₂，a₃>，其中a_i对应除冰机器人抓线手臂的第i个手臂关节的关节转角，其中，i＝1，2，3，三个手臂关节的动作集统一设为A＝{-4，-3，-2，-1，0，1，2，3，4}，即a_i∈A，动作集A中元素的物理意义是：元素的单位为度，正号表示关节朝顺时针方向转动，负号表示关节朝逆时针方向转动；

步骤3：建立Q表

为三关节手臂的每一个关节建立Q_i表即Q表，i＝1，2，3，定义Q＝<Q₁，Q₂，Q₃>，Q_i表是一个9x9维的矩阵，其中记录了在状态s和在状态s下选择动作a_i所预期获得的累积奖赏：i＝1，2，3，其中，E(·)表示数学期望值，γ为折扣因子，γ∈[0，1]；

步骤4：建立回报函数

脱线手臂触碰到输电线，接触传感器给出开关信号认为抓线成功，否则为抓线失败，以蔓叶线近似表示输电线，蔓叶线方程为：y²＝x³/(2c-x)，c为常数；回报函数公式为：

其中dist1＝(x_f-x_t)²+(y_f-y_t)²，dist2＝(x_t-x_l)²+(y_t-y_l)²，dist3＝(x_t-x_r)²+(y_t-y_r)，dist＝dist1+dist2+dist3。

所述的迭代控制过程为：

步骤A：初始化

将Q表初始化为0矩阵，给下列参数赋值：α、γ、ε；α表示学习率，α∈[0，1]，它决定了学习过程中调整策略的程度；ε表示随机动作的选择概率，ε∈[0，1]；由摄像机标定(x_f，y_f)、(x_t，y_t)、(x_l，y_l)、(x_r，y_r)；根据机器手臂最初脱线时手臂末端和目标点的相对距离获得所对应的状态s，初始化动作a＝<0，0，0>，即手臂保持不动；

步骤B：执行动作

执行动作a，控制手臂三个关节转动相应的角度；

步骤C：计算回报值r并判断终止条件

由于每个机器手臂肩部都装有摄像机，通过图像处理技术，识别出机器手臂末端执行动作后的位置坐标(x_t，y_t)，将(x_t，y_t)代入回报函数公式，计算出回报值r；判断回报值r符号，如果为正，表明抓线成功，控制终止，否则执行步骤D；

步骤D：确定下一个状态s′；具体步骤如下：

①求出手臂末端和目标点的相对距离为：D＝[(x_f-x_t)(y_f-y_t)]，并求出其符号函数值x＝sign(D)，sign(·)表示符号函数，功能是提取某个数的符号，取值为1或-1；

0对应的符号函数值为1，在本专利方法中只需提取出手臂末端和目标点的相对距离的符号值，不需要具体的数值，从而大大减少了图像的计算量。

②通过状态集求出状态s′：从状态集S＝{S(X，Y)|(-1，-1)，(-1，0)，(-1，1)，(0，-1)，(0，0)，(0，1)，(1，-1)，(1，0)，(1，1)}中选出一个状态s^*，与符号函数值x的欧氏距离最小，即

步骤E：通过Q表选择对应最大Q值的动作a′

通过查表的方法在关节i的Q_i表中查出s′状态下对应最大Q值的动作，i＝1，2，3即

从而a′＝<a₁′，a₂′，a₃′>；

步骤F：根据ε-greedy策略选择动作

以概率ε在动作集中随机选取动作a^*(a^*∈A)，令a′＝a^*；以概率1-ε保持a′不变；

步骤G：更新；具体步骤如下：

①按照下列Q值的更新公式：Q(s，a)←Q(s，a)+α[r+γQ(s′，a′)-Q(s，a)]，其中Q(s，a)表示对应状态s和动作a的Q值；

②s←s′，a←a′，即将s′赋值给s，将a′赋值给a；

步骤H：转步骤B。

本发明的技术构思为：

以一种具有三个机械手臂的除冰机器人为控制对象，结合三关节手臂运动学理论，以增强学习SARSA算法控制手臂抓线。针对输电线为柔性弧线的特点，设计了相应的回报函数并验证其有效性。具体步骤为：

1、建立增强学习系统。

除冰机器人抓线控制所处环境可描述为一个有限状态的离散马尔科夫过程，本发明基于增强学习SARSA算法控制三关节手臂进行抓线：通过设定状态集、动作集、Q表和回报函数，建立增强学习系统。该增强学习系统选择一个动作a作用于环境，环境接受该动作后转移到下一个状态s′，同时给出评价信号r(即回报函数值)，如果r满足一定条件则终止控制，否则增强学习系统根据评价信号和状态s′通过行为选择策略决定下一个动作a′，更新Q表后进入下一次迭代。基于SARSA算法设计一个增强学习系统时，首先需要建立相应的状态集和动作集，并根据状态集和动作集建立Q值查找表(简称Q表)，同时需要建立正确的回报函数。下面以除冰机器人为控制对象，对本专利提出的增强学习系统的建立步骤做详细的说明。

1.1建立状态集。

所述的除冰机器人为三手臂机器人，分别为手臂一、手臂二和手臂三，如图2所示。其中手臂一和手臂二为可在平面内旋转的三关节手臂，是专利中的研究对象，由于具有相同的结构，在分析中不加区分。手臂三为具有一个伸缩关节的手臂，起到辅助和平衡重心的作用，在专利中不作研究。越障时，三个手臂依次完成脱线→从底部跨越障碍物→抓线的动作。三手臂机器人在越障时，总是一个手臂(手臂一或手臂二)脱线，称为脱线手臂，另外两个手臂悬挂在线上，悬挂在线上的手臂电机驱动机器人巡线前进，脱线手臂待越过障碍后再抓线。由于悬挂在线上的手臂起到了固定箱体的作用，脱线手臂在抓线过程中机器人箱体、脱线手臂的基座、障碍物和输电线之间的位置是相对静止的，因此能够以脱线手臂的基座为坐标系原点建立一个坐标系，如图4所示。该坐标系中，抓线手臂的基座为坐标系原点，两个虚线半圆之间的范围为三关节手臂能够触及的范围，外侧虚线半圆与输电线的交点坐标为(x_r，y_r)。图中障碍物边侧垂直的虚线为不触及障碍物的极限位置(在专利中以防震锤为例)，与输电线的交点坐标为(x_l，y_l)。在抓线控制过程中，定义输电线(x_r，y_r)和(x_l，y_l)之间的线段为有效线段，有效线段中心点(简称目标点)坐标为(x_f，y_f)，机器人手臂末端位置坐标为(x_t，y_t)。

根据上述坐标系中的手臂末端和目标点之间的相对位置，除冰机器人抓线控制的环境状态以s(X，Y)表示，其中X，Y∈{-1，0，1}其物理意义是：X(或Y)＝-1，表示手臂末端的X(或Y)坐标值小于目标点的X(或Y)坐标值；X(或Y)＝0，表示手臂末端的X(或Y)坐标值等于目标点的X(或Y)坐标值；X(或Y)＝1，表示手臂末端的X(或Y)坐标值大于目标点的X(或Y)坐标值。于是状态集可表示为：S＝{(-1，-1)，(-1，0)，(-1，1)，(0，-1)，(0，0)，(0，1)，(1，-1)，(1，0)，(1，1)}，s∈S。例如，(0，0)表示机器手臂末端和目标点坐标位置重合，即机器手臂抓线成功。状态集中的(1，-1)表示机器手臂末端的横坐标大于目标点的横坐标，纵坐标小于有效目标点的纵坐标，也即手臂末端位于目标点的右下方。

1.2建立动作集。

控制机器手臂达到指定目标位置，需要给出每个手臂关节的关节转角。除冰机器人模型中手臂为三关节，定义动作a＝<a₁，a₂，a₃>，其中a_i(i＝1，2，3)对应除冰机器人抓线手臂的第i个手臂关节的关节转角。由于每个关节的活动角度范围相同，则三个手臂关节的动作集可统一设为A＝{-4，-3，-2，-1，0，1，2，3，4}，a_i∈A(i＝1，2，3)。其物理意义是：数值的单位为度，正号表示关节朝顺时针方向转动，负号表示关节朝逆时针方向转动。例如a₁＝-3表示第一个手臂关节朝逆时针方向旋转3度。动作集A的取值范围受限于单位时间手臂关节的转动范围，动作集划分越细控制精度越高，其缺点是会导致控制系统中的Q表更大，占用更多的内存，计算量也更大；动作集的划分过粗，相邻两个动作之间差别太大可能导致控制难以达到预期效果，即有可能手臂末端在目标点周围反复震荡，控制难以收敛。实验证明，动作集合中元素为9个左右比较合适。

1.3建立Q表。

本专利以查找(look-up)表法，也就是利用表格来表示Q函数，表的大小等于SxA的笛卡尔乘积中元素的个数。为三关节手臂的每一个关节建立Q_i(i＝1，2，3)表，定义Q＝<Q₁，Q₂，Q₃>。Q_i表是一个9x9维的矩阵，其中记录了在状态s和在该状态下选择动作a_i所预期获得的累积奖赏：

Q_{i} (s, a) = E {Σ_{k = 0}^{\infty} γ^{k} r_{t + k + 1} | s_{t} = s, a_{t} = a} - - - (1)

其中，E(·)表示数学期望值，γ为折扣因子，γ∈[0，1]。上述公式为Q_i表中元素的定义，在应用中按后面步骤更新，Q_i表可以任意初始化。

1.4建立回报函数。

回报函数的建立并不是唯一的，合理地建立回报函数能够加快收敛速度。在机器手臂的末端(夹持机构)装有接触传感器，当手臂末端触碰到输电线，接触传感器会给出开关信号，夹持器闭合，表示手臂已经成功抓线，这时给出一个正的而且很大的回报，否则给出负的回报。设计回报函数时以接触传感器给出开关信号为抓线成功，否则为抓线失败。具体设计如下：

由于输电线为弧线，在专利中以蔓叶线近似表示，蔓叶线方程为：y²＝x³/(2c-x)，c为常数。回报函数r设计为：

其中dist1＝(x_f-x_t)²+(y_f-y_t)²，dist2＝(x_t-x_l)²+(y_t-y_l)²，dist3＝(x_t-x_r)²+(y_t-y_r)，dist＝dist1+dist2+dist3。表示当机器手臂末端触碰到输电线，说明抓线成功，给一个正的且很大的回报；否则给一个负的回报，并与手臂末端位置到有效线段的两端和中心点的三段距离的平均值成反比。当某个动作能够获得环境较高的回报，那么以后产生这个动作的趋势就会加强，否则产生这个动作的趋势就会减弱。

2、增强学习系统的工作过程

2.0、初始化。

将Q_i(i＝1，2，3)表均初始化为0矩阵，给下列参数赋值：α、γ、ε。α表示学习率，α∈[0，1]，它决定了学习过程中调整策略的程度。γ表示折扣因子，γ∈[0，1]，它决定了期望回报对当前的影响。由摄像机标定(x_f，y_f)、(x_t，y_t)、(x_l，y_l)、(x_r，y_r)。ε表示随机动作的选择概率，ε∈[0，1]，在本发明中使用的是ε-greedy动作选择策略，即以(1-ε)的概率选择对应Q值最大的动作，以ε的概率在动作集中选择随机动作。即随着学习过程的进行，随机选择动作的可能性将更小，而以更大的可能性选择最优的动作。根据机器手臂最初脱线时手臂末端和目标点的相对距离获得所对应的状态s，初始化动作a＝<0，0，0>，即手臂保持不动。

2.1、执行动作。

执行由当前状态s选取的动作a(三个关节转动角度θ₁、θ₂、θ₃)，控制手臂三个关节转动相应的角度；

2.2、计算回报值r。

由于每个机器手臂肩部都装有摄像机，通过图像处理技术，识别出机器手臂末端执行动作后的位置坐标(x_t，y_t)，将(x_t，y_t)代入回报函数公式，计算出回报值r。判断回报值r符号，如果为正，表明抓线成功，控制终止；否则执行步骤2.3；

2.3、确定下一个状态s′。具体步骤如下：

①求出手臂末端和目标点的相对距离为：D＝[(x_f-x_t)(y_f-y_t)]，并求出其符号函数值x＝sign(D)。sign(·)表示符号函数，功能是提取某个数的符号(正或负)，取值为1或-1(0的符号函数值为1)。在本专利方法中只需提取出手臂末端和目标点的相对距离的符号值，不需要具体的数值，大大减少了图像的计算量；

②通过状态集求出状态s′：从状态集S＝{(-1，-1)，(-1，0)，(-1，1)，(0，-1)，(0，0)，(0，1)，(1，-1)，(1，0)，(1，1)}中选出一个状态s^*，与x的欧氏距离最小。即

2.4、通过Q表选择对应最大Q值动作a′。

通过查表的方法在关节i的Q_i(i＝1，2，3)表中查出s′状态下对应最大Q值的动作，即

从而a′＝<a₁′，a₂′，a₃′>。

2.5、根据ε-greedy策略选择动作。

以概率ε在动作集中随机选取动作a^*(a^*∈A)，令a′＝a^*；以概率1-ε保持a′不变。2.6、更新。具体步骤如下：

①按照下列Q值的更新公式：Q(s，a)←Q(s，a)+α[r+γQ(s′，a′)-Q(s，a)]，其中Q(s，a)表示Q_i(s，a_i)(i＝1，2，3)；

②s←s′，a←a′。

2.7、转步骤2.1。

与现有技术相比，本发明的优点在于：

(1)、本发明采用的增强学习控制方法，是一种实时、在线的学习方法，即能从环境状态到动作映射的学习，通过试错的方法寻找最优行为策略，使系统行为从环境中获得累积奖赏值最大。能够解决外界恶劣环境干扰未知和手臂末端姿态的不确定性带来的控制问题，有较强的鲁棒性，不需要人工协助，脱线后自主进行抓线控制，是实现除冰机器人自主越障的一个十分有效的尝试。

(2)、本发明控制机器手臂进行抓线时，以蔓叶线近似逼近输电线，与以往设计中将输电线考虑成直线不同，更贴近实际，可以进一步减小控制误差。

(3)、本发明与目前应用较多的视觉伺服控制相比，不需要庞大的图像计算量，方法简单、便于实现。在该方法中，不需要精确计算输电线和机器手臂末端的精确位置误差，而是提取相对误差，从而大大减少图像的计算量，降低对图形获取设备和分辨率的要求。

(4)、本发明不需要机器人精确的数学模型，设计方法灵活，适用范围广。可以将动作集中的动作序列设计为机器手臂关节的力矩，从而控制各个关节的电机，完成对机器手臂抓线的控制。对于不同数学模型的除冰机器人或是巡线机器人，该方法均适用。

附图说明

图1基于增强学习除冰机器人抓线控制过程示意图；

图2三手臂除冰机器人机械结构图；

图3除冰机器人抓线仿真界面示意图；

图4手臂抓线坐标系示意图；

图5具体仿真实例抓线控制流程图；

图6具体仿真实例训练步数示意图。

标号说明：1-输电线，2-摄像机，3-手臂三，4-控制箱(内含控制系统和电源)，5-关节一，6-关节二，7-关节三，8-手臂一，9-手臂二。

具体实施方式

下面结合附图以具体实施例对本发明的技术方案及工作过程作进一步的说明，但本发明的保护范围不限于此。

以一种具有三个机械手臂的除冰机器人为控制对象，结合三关节手臂运动学理论，以增强学习SARSA算法(算法中每次迭代用到的五元组(s，a，r，s′，a′)，因此该算法命名为SARSA算法)控制手臂抓线。针对输电线为柔性弧线的特点，设计了相应的回报函数并验证其有效性。控制过程如图1，其特征在于步骤为：

1、建立增强学习系统。

1.1建立状态集。

1.2建立动作集。

1.3建立Q表。

Q_{i} (s, a) = E {Σ_{k = 0}^{\infty} γ^{k} r_{t + k + 1} | s_{t} = s, a_{t} = a} - - - (1)

1.4建立回报函数。

2、增强学习系统的工作过程

2.0、初始化。

2.1、执行动作。

2.2、计算回报值r。

2.3、确定下一个状态s′。具体步骤如下：

2.4、通过Q表选择对应最大Q值动作a′。

从而a′＝<a₁′，a₂′，a₃′>。

2.5、根据ε-greedy策略选择动作。

以概率ε在动作集中随机选取动作a^*(a^*∈A)，令a′＝a^*；以概率1-ε保持a′不变。

2.6、更新。具体步骤如下：

②s←s′，a←a′。

2.7、转步骤2.1。

以下用一个具体仿真实例对本发明的操作进行详细说明。本专利的基于增强学习的控制方法应用在除冰机器人三关节手臂抓线控制中，建立实时图形仿真界面如图3所示。输电线的弧度在一定范围内可任意设定。设定仿真学习周期数(maxepisodes)，表示仿真中学习周期的个数。在每个学习周期里，设定最大迭代步数(maxsteps)，表示每个学习周期中最大的训练步数，超过最大训练步数，表明抓线失败，进入下一个学习周期。

仿真实例进行了200个学习周期，即maxepisodes＝200，每个学习周期中，蔓叶线参数c的取值范围从[100，100000]之间随机选取一个值，对应不同的弧线。每个周期训练步数不超过400步(maxsteps＝400)，时间步长为0.1秒，超过400步，则进入下一个训练周期。仿真实例中具体参数设定为：α＝0.3，γ＝0.9，l₁＝0.85m，l₂＝0.85m，l₃＝0.62m，ε＝0.01。ε在每个学习周期中以如下规则衰减：ε＝0.99*ε，即在学习初始选较大值，增加随机探索的机会，然后ε逐渐降低，最终为一个很小的正数，既避免陷入局部最优，又保证算法收敛。

由于仿真中不需要传感器，因此有两处步骤与具体实施方式不同：

(1)步骤1.4中，回报函数r设计为：

其中dist1＝(x_f-x_t)²+(y_f-y_t)²，dist2＝(x_t-x_l)²+(y_t-y_l)²，dist3＝(x_t-x_r)²+(y_t-y_r)，dist＝dist1+dist2+dist3。表示当机器手臂末端的坐标处在输电线有效线段地范围内，说明抓线成功，给一个正的且很大的回报；否则给一个负的回报，并与手臂末端位置到有效线段的两端和中心点的三段距离的平均值成反比。

(2)步骤2.2中，手臂末端位置坐标(x_t，y_t)改由三关节手臂运动学计算而得，具体方法如下：

P1＝pi/2+θ₁*pi/180，P2＝P1+θ₂*pi/180，P3＝P2+θ₃*pi/180，

x₂＝l₁*cos(P1)，y₂＝l₁*sin(P1)，x₃＝x₂+l₂*cos(P2)，y₃＝y₂+l₂*sin(P2)，

x_t＝x₃+l₃*cos(P3)，y_t＝y₃+l₃*sin(P3)。

其中，l₁、l₂、l₃分别表示三个关节的连杆长度，其中pi为圆周率。(X₁，y₁)为坐标系原点也是第一关节的基座坐标，(x₂，y₂)为第一关节末端坐标，(x₃，y₃)为第二关节末端坐标，(x_t，y_t)为机器手臂末端的坐标值，如图4所示。通过运动学变换矩阵求出机器手臂组成各点在坐标平面内变换后的坐标：L1＝T1*Link1，L2＝T2*Link2，L3＝T3*Link3。

T 1 = (\begin{matrix} \cos (P 1) & - \sin (P 1) & 0 & x_{1} \\ \sin (P 1) & \cos (P 1) & 0 & y_{1} \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{matrix})

T 2 = (\begin{matrix} \cos (P 2) & - \sin (P 2) & 0 & x_{2} \\ \sin (P 2) & \cos (P 2) & 0 & y_{2} \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{matrix})

T 3 = (\begin{matrix} \cos (P 3) & - \sin (P 3) & 0 & x_{3} \\ \sin (P 3) & \cos (P 3) & 0 & y_{3} \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{matrix})

Link1、Link2、Link3为三个机器手臂组成各点的坐标矩阵，L1、L2、L3为三个机器手臂组成各点通过运动学变换矩阵变换后的坐标矩阵。

图6给出训练步数示意图，其中横坐标episode表示训练周期，纵坐标steps表示训练周期所对应的迭代步数。其平均迭代步数为22.37步，说明在学习周期的开始阶段，迭代步数较多，随着Q值的不断更新，使Q表得到不断的完善，所需的迭代步数将会大幅减少，表明控制方法有效，即能通过少量的学习周期，机器手臂能够以较少的迭代步数抓线成功。

Claims

1.一种高压输电线路除冰机器人自主抓线控制方法，其特征在于：

通过设定状态集、动作集、Q表和回报函数，建立增强学习系统；该增强学习系统选择一个动作a作用于环境，接受动作a后环境转移到下一个状态s′，同时给出评价信号r，r又称为回报函数值，如果r满足一定条件则终止控制，否则增强学习系统将根据评价信号r和状态s′通过行为选择策略决定下一个动作a′，更新Q表后进入下一次迭代；