CN113065796A - 基于q-学习算法的空间桁架在轨装配策略 - Google Patents

基于q-学习算法的空间桁架在轨装配策略 Download PDF

Info

Publication number
CN113065796A
CN113065796A CN202110436545.7A CN202110436545A CN113065796A CN 113065796 A CN113065796 A CN 113065796A CN 202110436545 A CN202110436545 A CN 202110436545A CN 113065796 A CN113065796 A CN 113065796A
Authority
CN
China
Prior art keywords
assembly
truss
strategy
learning
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110436545.7A
Other languages
English (en)
Inventor
戴野
相朝芳
齐云杉
张启昊
曲文印
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202110436545.7A priority Critical patent/CN113065796A/zh
Publication of CN113065796A publication Critical patent/CN113065796A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了基于Q‑学习算法的空间桁架在轨装配策略。该策略将Q‑学习算法与细胞机器人在轨装配策略问题相结合,通过采用完全贪婪策略完成装配过程动作行为选择,然后通过不断训练学习使在轨装配机器人学会如何选择并执行有效行为,再根据执行行为与获得奖励对Q进行更新,最后基于终止条件判定装配过程是否完成,从而验证该装配策略的有效性。本发明经过算法训练阶段与实际装配阶段最终用最少的步数将桁架周期模块结构装配完成,充分证实了这种策略可以更好地完成空间桁架在轨装配任务,同时这种策略对解决同类问题具有较强的通用性。

Description

基于Q-学习算法的空间桁架在轨装配策略
技术领域
本发明涉及人工智能技术领域,具体涉及基于Q-学习算法的空间桁架在轨装配策略。
背景技术
由于太空的特殊环境,会使得在轨装配任务对航天员的安全构成极大威胁,因此机器人在轨装配技术显得尤为重要,在轨装配技术也成为了空间机器人技术的一个重要研究方向。
目前,强化学习中的一个重要里程碑就是Q-学习算法,Q-学习算法是由一种类似于动态规划算法的一种最具有代表性的强化学习方法,Q-学习算法是目前最易理解和广为使用的强化学习方法,该算法在人工智能体及机器学习领域受到了普遍关注。由于Q-学习方法可以从环境中得到反馈从而进行训练学习,能适应动态变化的选择问题,有利于太空等未知环境的探索,是当前在轨装配技术的重要应用。
同时,现有装配策略大多为单一避障或路径选择,其中对无效抓取行为的应对策略较少。因此,如何减少装配过程中的重复繁杂行为,学会避免无效行为,从而用最少的步数完成装配任务是本领域亟需解决的技术问题之一。
发明内容
本发明目的在于克服上述现有技术的不足,提供了基于Q-学习算法的空间桁架在轨装配策略,能使得桁架周期模块结构以最少的步数完成在轨装配,充分证实了这种策略可以有效的应用于空间桁架在轨装配任务。
本发明采取了如下技术方案:基于Q-学习算法的空间桁架在轨装配策略,其特征在于,所述策略具体包括:定义Q-学习算法初始参数以及在轨桁架不同安装位置的装配信息;基于Q-学习算法进行装配策略的训练学习以及在轨装配机器人的动作行为选择;基于评估最终装配目标状态信息判断在轨装配机器人装配任务是否完成。
优选的,所述算法初始参数包括:行为Action、状态State、策略函数a=π(s)、奖励函数R(s,a);所述在轨装配机器人的行为对桁架底面、侧面和顶面不同安装位置的装配信息分为三个不同安装状态:肩部夹持固定、肩部杆间移动、腕部抓取装配。
优选的,所述在轨装配机器人的装配策略采用完全贪婪策略,用ε-greedy策略完成动作行为的选择;所述算法进行Q学习时,ε值会随着智能体对环境喜好的变化而改变,所述ε值的函数变化可表达为:ε(k)=ε×(1-k/m)。
优选的,所述Q-学习算法在更新Q值时以最大Q值作为选择动作的标准,所述更新公式为:Qi+1(s,a)+α[R+γmaxa'Qi(s',a')-Qi(s,a)]。
优选的,所述最终装配目标状态信息包括:在轨装配机器人肩部末端夹持细胞的固定状态按桁杆编号用数字表达;其他球头节点及桁杆结构的装配状态用最后已装配或最先未装配的编号表达,其整体装配状态用0或1表达。
定义所述学习的行为次数为100,即当f=100时未完成本次装配过程,则结束本轮学习,进入下一轮的学习过程。
定义所述桁架周期模块结构装配过程中的无效行为,具体包括:定义底面结构未安装完成时,在轨装配机器人已经开始执行安装侧面或顶面结构的工作,则该状态被定义为无效行为;定义安装结构被重复安装时,也将被定义为无效行为。
优选的,在所述有效性为下,根据装配过程的顺序设定给定不同的奖励,所述奖励具体包括:桁架周期模块结构只剩一根顶面桁杆结构未装配时,下一行为动作即为对该桁杆结构的装配,此时其奖励为100;在轨装配机器人进行一个有效动作时,给定负奖励3;装配机器人行为次数达到100还未完成桁架装配时,对第100个动作行为所处的状态给定10的负奖励。
此技术方案的有益效果是:强化学习中的Q-学习方法可从环境中得到反馈从而进行训练学习,能适应动态变化的选择问题,有利于太空等未知环境的探索;本发明将Q-学习算法与细胞机器人在轨装配策略问题相结合,通过完全贪婪策略完成装配动作行为选择,通过不断训练学习使在轨机器人完全学会如何选择行为使得完成装配的步数最少。
附图说明
图1为空间桁架在轨装配流程图;
图2为桁架模块某一安装状态示意图;
其中:ABCD面为桁架模块底面;AE边为侧面1号杆;AF边为侧面2号杆;BF边为侧面3号杆;CG边为侧面4号杆;CH边为侧面5号杆;DH边为侧面6号杆;EFGH面为桁架模块顶面。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
参照图1-2所示,本发明公开了基于Q-学习算法的空间桁架在轨装配策略,所述策略包括:
S11:定义Q-学习算法初始参数以及在轨桁架不同安装位置的装配信息:
在本发明具体实施过程中,所述算法初始参数包括:奖励记为Rt;行为记为Action;状态记为State;策略的函数定义为:a=π(s),其中:a为输出的行为;s为输入的状态。
在本发明具体实施过程中,所述在轨桁架底面、侧面和顶面不同安装位置的装配信息包括:肩部夹持固定、肩部杆间移动、腕部抓取装配。
具体的,定义在轨装配机器人腕部末端夹持细胞对不同装配件的装配状态,具体可用state表示:
装配底面桁杆结构:A_bottom_STICK_i state;
装配底面球头节点:A_bottom_BALL_j state;
装配侧面桁杆结构:A_SIDE_STICK_k state;
装配顶面球头节点:A_TOP_BALL_l state;
装配顶面桁杆结构:A_TOP_STICK_m state,
其中,x=1,2,…n;state={Y,N};i=1,2,…p;j=1,2,…q;k=1,2,…r;l=1,2,…s;m=1,2,…t,x表示底面固定桁杆的编号,共n个。
进一步地,state表示的装配状态分为已装配和待装配,分别用Y和N表示;
i表示底面桁杆结构的编号,共p根;
j表示底面球头节点的编号,共q个;
k表示侧面桁杆结构的编号,共r根;
l表示顶面球头节点的编号,共s个;
m表示顶面桁杆结构的编号,共t根,
则通过空间在轨装配机器人对桁架周期模块结构进行装配时的状态可表达为:S={i state,j state,k state,l state,m state} (1)
具体的,图2所示为桁架模块某一安装状态示意图,图示状态可表示为:S={1,4Y,5Y,4N,1N,1N} (2)
即:空间在轨装配机器人的肩部末端夹持细胞抓取在底面1号桁杆结构上,底面4个球头节点、5根桁杆结构已装配完成;侧面1-3号桁杆结构已装配完成,4号桁杆结构未装配;顶面的球头节点及桁杆结构均未装配。
S12:基于Q-学习算法进行装配策略的训练学习以及在轨装配机器人的动作行为选择:
在本发明具体实施过程中,所述在轨装配机器人的装配策略采用完全贪婪策略,用ε-greedy策略完成动作行为的选择。
具体的,ε-greedy策略包括:在轨装配机器人的每个动作行为的选择都与一个确定的参数ε有关,ε一般在0到1之间取值,当在轨装配机器人进行一个动作行为的选择时,会生成一个随机数rand,该随机数的范围也在0到1之间。将rand与ε进行比较,通过大小不同决定在轨装配机器人的装配动作:当rand<ε时,在轨装配机器人将在该环境空间内进行随机的动作行为选择,表示智能体对环境的探索过程;当rand>ε时,在轨装配机器人将选定当前状态下Q值最大的动作行为,表示已进行了学习获得经验。
进一步地,在轨装配机器人会在ε值概率内进行环境探索,1-ε概率内进行动作行为的学习利用。该贪婪策略可表达为:
Figure BDA0003033303490000041
在本发明具体实施过程中,进行Q学习时,ε值会随着智能体对环境喜好的变化而改变,ε值的函数变化可表达为:ε(k)=ε×(1-k/m) (4)
式中:k为当前探索的次数;m为设定的探索总次数。
具体的,每经过一次学习后,k值加1;随着学习次数的增加,ε值将不断减小,说明对Q值动作行为的充分学习;当ε值为0时将不再探索,在轨装配机器人将总是根据Q值进行动作行为选择。
在本发明具体实施过程中,定义所述桁架周期模块装配过程中的无效行为具体包括:若底面结构未安装完成时,在轨装配机器人已经开始执行安装侧面或顶面结构的工作,则该状态被定义为无效行为;若对已完成安装结构进行重复安装,也将被定义为无效行为。
具体的,对于无效行为,系统装配状态将保持不变,仅对有效行为作出相应装配动作;
在本发明具体实施过程中,对于选择的有效行为进行执行,并对上述在轨装配机器人对桁架周期模块结构进行装配的行为学习过程设置奖励函数R(s,a),该函数与行为和状态这两个参数有关。具体包括:根据装配过程的顺序设定,当桁架周期模块结构只剩一根顶面桁杆结构未装配时,下一行为动作即为对该桁杆结构的装配,此时其奖励为100;当在轨装配机器人进行一个有效动作时,给定负奖励3,确保能以最少步数完成装配过程;当机器人行为次数达到100还未完成桁架装配时,对第100个动作行为所处的状态给定10的负奖励。
具体的,执行完所述行为并获得奖励后,进行Q值更新,具体包括:所述Q-学习算法在更新Q值时以最大Q值作为选择动作的标准,所述更新公式为:Qi+1(s,a)+α[R+γmaxa'Qi(s',a')-Qi(s,a)] (5)
S13:基于评估最终装配目标状态信息判断所述在轨装配机器人装配任务是否完成:
在本发明具体实施过程中,定义在某状态表达的集合中,在轨装配机器人肩部末端夹持细胞的固定状态按桁杆编号用数字表达;其他球头节点及桁杆结构的装配状态用最后已装配或最先未装配的编号表达,其整体装配状态用0或1表达:
则初始未装配状态为:S0={x,1N,1N,1N,1N,1N} (6)
则初始状态的数学表达为:S0={x,0,0,0,0,0} (7)
具体的,最终目标状态为在轨装配机器人肩部末端夹持细胞夹持固定在底面基准三角形的任一桁杆上,底面桁杆、底面球头、侧面桁杆、顶面球头、顶面桁杆均完成装配,可表达为:S=[1 1 1 1 1 1]或S=[2 1 1 1 1 1]或S=[3 1 1 1 1 1];即桁架周期模块结构已由在轨装配机器人完成全部装配,结束本轮学习,开始下一轮的学习。
在本发明具体实施过程中,将所述学习的行为次数设定为100,即当f=100时未完成本次装配过程,则结束本轮学习,进入下一轮的学习过程。
具体的,其终止条件为:
Figure BDA0003033303490000061
进一步地,最终通过判定所述策略是否为终止条件判断所述在轨装配机器人装配任务是否完成。
在本发明具体实施过程中,Q-学习的最终结果是使机器人系统减少装配过程中的重复繁杂行为,最终学会避免产生无效行为;避免选择已完成的装配行为;同时避免选择与该装配任务不相关的装配行为,从而用最少的步数将桁架周期模块结构装配完成。
以上所述,仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (3)

1.基于Q-学习算法的空间桁架在轨装配策略,其特征在于,所述策略具体包括:定义Q-学习算法初始参数以及在轨桁架不同安装位置的装配信息;基于Q-学习算法进行装配策略的训练学习以及在轨装配机器人的动作行为选择;基于评估最终装配目标状态信息判断所述在轨装配机器人装配任务是否完成。
2.根据权利要求1所述的基于Q-学习算法的空间桁架在轨装配策略,其特征在于,定义Q-学习算法初始参数以及在轨桁架不同安装位置的装配信息具体包括:
所述算法初始参数包括:行为Action、状态State、策略函数a=π(s)、奖励函数R(s,a);所述在轨装配机器人的行为对在轨桁架底面、侧面和顶面不同安装位置的装配信息分为三个不同安装状态:肩部夹持固定、肩部杆间移动、腕部抓取装配;
所述基于Q-学习算法进行装配策略的训练学习以及在轨装配机器人的动作行为选择具体包括:
所述在轨装配机器人的装配策略采用完全贪婪策略,用ε-greedy策略完成动作行为的选择;所述策略算法进行Q学习时,ε值会随着智能体对环境喜好的变化而改变,所述ε值的函数变化可表达为:ε(k)=ε×(1-k/m);
所述Q-学习算法在更新Q值时以最大Q值作为选择动作的标准,所述更新公式为:Qi+1(s,a)+α[R+γmaxa'Qi(s',a')-Qi(s,a)];
所述基于评估最终装配目标状态信息判断所述在轨装配机器人装配任务是否完成具体包括:
所述在轨装配机器人肩部末端夹持细胞的固定状态按桁杆编号用数字表达;所述其他球头节点及桁杆结构的装配状态用最后已装配或最先未装配的编号表达,其整体装配状态用0或1表达;
定义所述学习的行为次数为100,即当f=100时未完成本次装配过程,则结束本轮学习,进入下一轮的学习过程。
3.根据权利要求2所述的基于Q-学习算法的空间桁架在轨装配策略,其特征在于,定义桁架周期模块结构装配过程中的无效行为:
所述底面结构未安装完成时,在轨装配机器人已经开始执行安装侧面或顶面结构的工作,则该状态被定义为无效行为;所述安装结构被重复安装时,也将被定义为无效行为;
在所述有效性为下,根据装配过程的顺序设定给定不同的奖励,所述奖励具体包括:
所述桁架周期模块结构只剩一根顶面桁杆结构未装配时,下一行为动作即为对该桁杆结构的装配,此时其奖励为100;所述在轨装配机器人进行一个有效动作时,给定负奖励3;所述装配机器人行为次数达到100还未完成桁架装配时,对第100个动作行为所处的状态给定10的负奖励。
CN202110436545.7A 2021-04-22 2021-04-22 基于q-学习算法的空间桁架在轨装配策略 Pending CN113065796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110436545.7A CN113065796A (zh) 2021-04-22 2021-04-22 基于q-学习算法的空间桁架在轨装配策略

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110436545.7A CN113065796A (zh) 2021-04-22 2021-04-22 基于q-学习算法的空间桁架在轨装配策略

Publications (1)

Publication Number Publication Date
CN113065796A true CN113065796A (zh) 2021-07-02

Family

ID=76567471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110436545.7A Pending CN113065796A (zh) 2021-04-22 2021-04-22 基于q-学习算法的空间桁架在轨装配策略

Country Status (1)

Country Link
CN (1) CN113065796A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170090428A1 (en) * 2015-09-30 2017-03-30 Fanuc Corporation Machine learning apparatus for optimizing cycle processing time of processing machine, motor control apparatus, processing machine, and machine learning method
US9811074B1 (en) * 2016-06-21 2017-11-07 TruPhysics GmbH Optimization of robot control programs in physics-based simulated environment
US20180180085A1 (en) * 2016-12-26 2018-06-28 Fanuc Corporation Machine learning device for learning assembly operation and component assembly system
CN111942621A (zh) * 2020-07-17 2020-11-17 北京控制工程研究所 一种基于多任务学习的在轨自主加注控制方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170090428A1 (en) * 2015-09-30 2017-03-30 Fanuc Corporation Machine learning apparatus for optimizing cycle processing time of processing machine, motor control apparatus, processing machine, and machine learning method
US9811074B1 (en) * 2016-06-21 2017-11-07 TruPhysics GmbH Optimization of robot control programs in physics-based simulated environment
US20180180085A1 (en) * 2016-12-26 2018-06-28 Fanuc Corporation Machine learning device for learning assembly operation and component assembly system
CN111942621A (zh) * 2020-07-17 2020-11-17 北京控制工程研究所 一种基于多任务学习的在轨自主加注控制方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIGUEL NEVES 等: "A study on a Q-Learning algorithm application to a manufacturing assembly problem", 《JOURNAL OF MANUFACTURING SYSTEMS》, vol. 59, 31 March 2021 (2021-03-31), pages 426 - 440, XP086579552, DOI: 10.1016/j.jmsy.2021.02.014 *
谢旭东: "基于强化学习的空间细胞机器人桁架装配行为决策", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》, no. 02, 15 February 2020 (2020-02-15), pages 35 - 48 *

Similar Documents

Publication Publication Date Title
CN110909859B (zh) 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
CN113093724B (zh) 一种基于改进蚁群算法的agv路径规划方法
Chien et al. Automated planning and scheduling for goal-based autonomous spacecraft
CN109523029A (zh) 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN108594803B (zh) 基于q-学习算法的路径规划方法
Ma et al. Fuzzy approximate learning-based sliding mode control for deploying tethered space robot
CN109605377A (zh) 一种基于强化学习的机器人关节运动控制方法及系统
CN111324358B (zh) 一种用于信息系统自动运维策略的训练方法
Ahrns et al. On-line learning with dynamic cell structures
CN113313265A (zh) 基于带噪声专家示范的强化学习方法
CN110490319B (zh) 一种基于融合神经网络参数的分布式深度强化学习方法
CN113780576A (zh) 基于奖励自适应分配的合作多智能体强化学习方法
CN113065796A (zh) 基于q-学习算法的空间桁架在轨装配策略
CN115629607A (zh) 一种融合历史信息的强化学习路径规划方法
CN113503885A (zh) 一种基于采样优化ddpg算法的机器人路径导航方法及系统
CN113219825A (zh) 一种四足机器人单腿轨迹跟踪控制方法及系统
CN114859725B (zh) 一种非线性系统自适应事件触发控制方法及系统
CN116604532A (zh) 一种上肢康复机器人智能控制方法
CN115327926A (zh) 基于深度强化学习的多智能体动态覆盖控制方法及系统
CN113967909A (zh) 基于方向奖励的机械臂智能控制方法
CN114051256B (zh) 一种择优近端策略优化方法
CN114918651B (zh) 一种任务条件自适应机器人轴孔装配方法及装置
Fu et al. Learn to human-level control in dynamic environment using incremental batch interrupting temporal abstraction
CN117283565B (zh) 一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法
Riedmiller Machine learning for autonomous robots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210702