CN113065796A

CN113065796A - 基于q-学习算法的空间桁架在轨装配策略

Info

Publication number: CN113065796A
Application number: CN202110436545.7A
Authority: CN
Inventors: 戴野; 相朝芳; 齐云杉; 张启昊; 曲文印
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-07-02

Abstract

本发明公开了基于Q‑学习算法的空间桁架在轨装配策略。该策略将Q‑学习算法与细胞机器人在轨装配策略问题相结合，通过采用完全贪婪策略完成装配过程动作行为选择，然后通过不断训练学习使在轨装配机器人学会如何选择并执行有效行为，再根据执行行为与获得奖励对Q进行更新，最后基于终止条件判定装配过程是否完成，从而验证该装配策略的有效性。本发明经过算法训练阶段与实际装配阶段最终用最少的步数将桁架周期模块结构装配完成，充分证实了这种策略可以更好地完成空间桁架在轨装配任务，同时这种策略对解决同类问题具有较强的通用性。

Description

基于Q-学习算法的空间桁架在轨装配策略

技术领域

本发明涉及人工智能技术领域，具体涉及基于Q-学习算法的空间桁架在轨装配策略。

背景技术

由于太空的特殊环境，会使得在轨装配任务对航天员的安全构成极大威胁，因此机器人在轨装配技术显得尤为重要，在轨装配技术也成为了空间机器人技术的一个重要研究方向。

目前，强化学习中的一个重要里程碑就是Q-学习算法，Q-学习算法是由一种类似于动态规划算法的一种最具有代表性的强化学习方法，Q-学习算法是目前最易理解和广为使用的强化学习方法，该算法在人工智能体及机器学习领域受到了普遍关注。由于Q-学习方法可以从环境中得到反馈从而进行训练学习，能适应动态变化的选择问题，有利于太空等未知环境的探索，是当前在轨装配技术的重要应用。

同时，现有装配策略大多为单一避障或路径选择，其中对无效抓取行为的应对策略较少。因此，如何减少装配过程中的重复繁杂行为，学会避免无效行为，从而用最少的步数完成装配任务是本领域亟需解决的技术问题之一。

发明内容

本发明目的在于克服上述现有技术的不足，提供了基于Q-学习算法的空间桁架在轨装配策略，能使得桁架周期模块结构以最少的步数完成在轨装配，充分证实了这种策略可以有效的应用于空间桁架在轨装配任务。

本发明采取了如下技术方案：基于Q-学习算法的空间桁架在轨装配策略，其特征在于，所述策略具体包括：定义Q-学习算法初始参数以及在轨桁架不同安装位置的装配信息；基于Q-学习算法进行装配策略的训练学习以及在轨装配机器人的动作行为选择；基于评估最终装配目标状态信息判断在轨装配机器人装配任务是否完成。

优选的，所述算法初始参数包括：行为Action、状态State、策略函数a＝π(s)、奖励函数R(s,a)；所述在轨装配机器人的行为对桁架底面、侧面和顶面不同安装位置的装配信息分为三个不同安装状态：肩部夹持固定、肩部杆间移动、腕部抓取装配。

优选的，所述在轨装配机器人的装配策略采用完全贪婪策略，用ε-greedy策略完成动作行为的选择；所述算法进行Q学习时，ε值会随着智能体对环境喜好的变化而改变，所述ε值的函数变化可表达为：ε(k)＝ε×(1-k/m)。

优选的，所述Q-学习算法在更新Q值时以最大Q值作为选择动作的标准，所述更新公式为：Q_i+1(s,a)+α[R+γmax_a'Q_i(s',a')-Q_i(s,a)]。

优选的，所述最终装配目标状态信息包括：在轨装配机器人肩部末端夹持细胞的固定状态按桁杆编号用数字表达；其他球头节点及桁杆结构的装配状态用最后已装配或最先未装配的编号表达，其整体装配状态用0或1表达。

定义所述学习的行为次数为100，即当f＝100时未完成本次装配过程，则结束本轮学习，进入下一轮的学习过程。

定义所述桁架周期模块结构装配过程中的无效行为，具体包括：定义底面结构未安装完成时，在轨装配机器人已经开始执行安装侧面或顶面结构的工作，则该状态被定义为无效行为；定义安装结构被重复安装时，也将被定义为无效行为。

优选的，在所述有效性为下，根据装配过程的顺序设定给定不同的奖励，所述奖励具体包括：桁架周期模块结构只剩一根顶面桁杆结构未装配时，下一行为动作即为对该桁杆结构的装配，此时其奖励为100；在轨装配机器人进行一个有效动作时，给定负奖励3；装配机器人行为次数达到100还未完成桁架装配时，对第100个动作行为所处的状态给定10的负奖励。

此技术方案的有益效果是：强化学习中的Q-学习方法可从环境中得到反馈从而进行训练学习，能适应动态变化的选择问题，有利于太空等未知环境的探索；本发明将Q-学习算法与细胞机器人在轨装配策略问题相结合，通过完全贪婪策略完成装配动作行为选择，通过不断训练学习使在轨机器人完全学会如何选择行为使得完成装配的步数最少。

附图说明

图1为空间桁架在轨装配流程图；

图2为桁架模块某一安装状态示意图；

其中：ABCD面为桁架模块底面；AE边为侧面1号杆；AF边为侧面2号杆；BF边为侧面3号杆；CG边为侧面4号杆；CH边为侧面5号杆；DH边为侧面6号杆；EFGH面为桁架模块顶面。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

参照图1-2所示，本发明公开了基于Q-学习算法的空间桁架在轨装配策略，所述策略包括：

S11：定义Q-学习算法初始参数以及在轨桁架不同安装位置的装配信息：

在本发明具体实施过程中，所述算法初始参数包括：奖励记为R_t；行为记为Action；状态记为State；策略的函数定义为：a＝π(s)，其中：a为输出的行为；s为输入的状态。

在本发明具体实施过程中，所述在轨桁架底面、侧面和顶面不同安装位置的装配信息包括：肩部夹持固定、肩部杆间移动、腕部抓取装配。

具体的，定义在轨装配机器人腕部末端夹持细胞对不同装配件的装配状态，具体可用state表示：

装配底面桁杆结构：A_bottom_STICK_i state；

装配底面球头节点：A_bottom_BALL_j state；

装配侧面桁杆结构：A_SIDE_STICK_k state；

装配顶面球头节点：A_TOP_BALL_l state；

装配顶面桁杆结构：A_TOP_STICK_m state，

其中，x＝1,2,…n；state＝{Y,N}；i＝1,2,…p；j＝1,2,…q；k＝1,2,…r；l＝1,2,…s；m＝1,2,…t,x表示底面固定桁杆的编号,共n个。

进一步地，state表示的装配状态分为已装配和待装配，分别用Y和N表示；

i表示底面桁杆结构的编号，共p根；

j表示底面球头节点的编号，共q个；

k表示侧面桁杆结构的编号，共r根；

l表示顶面球头节点的编号，共s个；

m表示顶面桁杆结构的编号，共t根，

则通过空间在轨装配机器人对桁架周期模块结构进行装配时的状态可表达为：S＝{i state,j state,k state,l state,m state} (1)

具体的，图2所示为桁架模块某一安装状态示意图，图示状态可表示为：S＝{1,4Y,5Y,4N,1N,1N} (2)

即：空间在轨装配机器人的肩部末端夹持细胞抓取在底面1号桁杆结构上，底面4个球头节点、5根桁杆结构已装配完成；侧面1-3号桁杆结构已装配完成，4号桁杆结构未装配；顶面的球头节点及桁杆结构均未装配。

S12：基于Q-学习算法进行装配策略的训练学习以及在轨装配机器人的动作行为选择：

在本发明具体实施过程中，所述在轨装配机器人的装配策略采用完全贪婪策略，用ε-greedy策略完成动作行为的选择。

具体的，ε-greedy策略包括：在轨装配机器人的每个动作行为的选择都与一个确定的参数ε有关，ε一般在0到1之间取值,当在轨装配机器人进行一个动作行为的选择时，会生成一个随机数rand，该随机数的范围也在0到1之间。将rand与ε进行比较，通过大小不同决定在轨装配机器人的装配动作：当rand<ε时，在轨装配机器人将在该环境空间内进行随机的动作行为选择，表示智能体对环境的探索过程；当rand>ε时，在轨装配机器人将选定当前状态下Q值最大的动作行为，表示已进行了学习获得经验。

进一步地，在轨装配机器人会在ε值概率内进行环境探索，1-ε概率内进行动作行为的学习利用。该贪婪策略可表达为：

在本发明具体实施过程中，进行Q学习时，ε值会随着智能体对环境喜好的变化而改变，ε值的函数变化可表达为：ε(k)＝ε×(1-k/m) (4)

式中：k为当前探索的次数；m为设定的探索总次数。

具体的，每经过一次学习后，k值加1；随着学习次数的增加，ε值将不断减小，说明对Q值动作行为的充分学习；当ε值为0时将不再探索，在轨装配机器人将总是根据Q值进行动作行为选择。

在本发明具体实施过程中，定义所述桁架周期模块装配过程中的无效行为具体包括：若底面结构未安装完成时，在轨装配机器人已经开始执行安装侧面或顶面结构的工作，则该状态被定义为无效行为；若对已完成安装结构进行重复安装，也将被定义为无效行为。

具体的，对于无效行为，系统装配状态将保持不变，仅对有效行为作出相应装配动作；

在本发明具体实施过程中，对于选择的有效行为进行执行，并对上述在轨装配机器人对桁架周期模块结构进行装配的行为学习过程设置奖励函数R(s,a)，该函数与行为和状态这两个参数有关。具体包括：根据装配过程的顺序设定，当桁架周期模块结构只剩一根顶面桁杆结构未装配时，下一行为动作即为对该桁杆结构的装配，此时其奖励为100；当在轨装配机器人进行一个有效动作时，给定负奖励3，确保能以最少步数完成装配过程；当机器人行为次数达到100还未完成桁架装配时，对第100个动作行为所处的状态给定10的负奖励。

具体的，执行完所述行为并获得奖励后，进行Q值更新，具体包括：所述Q-学习算法在更新Q值时以最大Q值作为选择动作的标准，所述更新公式为：Q_i+1(s,a)+α[R+γmax_a'Q_i(s',a')-Q_i(s,a)] (5)

S13:基于评估最终装配目标状态信息判断所述在轨装配机器人装配任务是否完成：

在本发明具体实施过程中，定义在某状态表达的集合中，在轨装配机器人肩部末端夹持细胞的固定状态按桁杆编号用数字表达；其他球头节点及桁杆结构的装配状态用最后已装配或最先未装配的编号表达，其整体装配状态用0或1表达：

则初始未装配状态为：S₀＝{x,1N,1N,1N,1N,1N} (6)

则初始状态的数学表达为：S₀＝{x,0,0,0,0,0} (7)

具体的，最终目标状态为在轨装配机器人肩部末端夹持细胞夹持固定在底面基准三角形的任一桁杆上，底面桁杆、底面球头、侧面桁杆、顶面球头、顶面桁杆均完成装配，可表达为：S＝[1 1 1 1 1 1]或S＝[2 1 1 1 1 1]或S＝[3 1 1 1 1 1]；即桁架周期模块结构已由在轨装配机器人完成全部装配，结束本轮学习，开始下一轮的学习。

在本发明具体实施过程中，将所述学习的行为次数设定为100，即当f＝100时未完成本次装配过程，则结束本轮学习，进入下一轮的学习过程。

具体的，其终止条件为：

进一步地，最终通过判定所述策略是否为终止条件判断所述在轨装配机器人装配任务是否完成。

在本发明具体实施过程中，Q-学习的最终结果是使机器人系统减少装配过程中的重复繁杂行为，最终学会避免产生无效行为；避免选择已完成的装配行为；同时避免选择与该装配任务不相关的装配行为，从而用最少的步数将桁架周期模块结构装配完成。

以上所述，仅是本发明较佳实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.基于Q-学习算法的空间桁架在轨装配策略，其特征在于，所述策略具体包括：定义Q-学习算法初始参数以及在轨桁架不同安装位置的装配信息；基于Q-学习算法进行装配策略的训练学习以及在轨装配机器人的动作行为选择；基于评估最终装配目标状态信息判断所述在轨装配机器人装配任务是否完成。

2.根据权利要求1所述的基于Q-学习算法的空间桁架在轨装配策略，其特征在于，定义Q-学习算法初始参数以及在轨桁架不同安装位置的装配信息具体包括：

所述算法初始参数包括：行为Action、状态State、策略函数a＝π(s)、奖励函数R(s,a)；所述在轨装配机器人的行为对在轨桁架底面、侧面和顶面不同安装位置的装配信息分为三个不同安装状态：肩部夹持固定、肩部杆间移动、腕部抓取装配；

所述基于Q-学习算法进行装配策略的训练学习以及在轨装配机器人的动作行为选择具体包括：

所述在轨装配机器人的装配策略采用完全贪婪策略，用ε-greedy策略完成动作行为的选择；所述策略算法进行Q学习时，ε值会随着智能体对环境喜好的变化而改变，所述ε值的函数变化可表达为：ε(k)＝ε×(1-k/m)；

所述Q-学习算法在更新Q值时以最大Q值作为选择动作的标准，所述更新公式为：Q_i+1(s,a)+α[R+γmax_a'Q_i(s',a')-Q_i(s,a)]；

所述基于评估最终装配目标状态信息判断所述在轨装配机器人装配任务是否完成具体包括：

所述在轨装配机器人肩部末端夹持细胞的固定状态按桁杆编号用数字表达；所述其他球头节点及桁杆结构的装配状态用最后已装配或最先未装配的编号表达，其整体装配状态用0或1表达；

3.根据权利要求2所述的基于Q-学习算法的空间桁架在轨装配策略，其特征在于，定义桁架周期模块结构装配过程中的无效行为：

所述底面结构未安装完成时，在轨装配机器人已经开始执行安装侧面或顶面结构的工作，则该状态被定义为无效行为；所述安装结构被重复安装时，也将被定义为无效行为；

在所述有效性为下，根据装配过程的顺序设定给定不同的奖励，所述奖励具体包括：

所述桁架周期模块结构只剩一根顶面桁杆结构未装配时，下一行为动作即为对该桁杆结构的装配，此时其奖励为100；所述在轨装配机器人进行一个有效动作时，给定负奖励3；所述装配机器人行为次数达到100还未完成桁架装配时，对第100个动作行为所处的状态给定10的负奖励。