CN116107204A - 一种基于教与学模态的机器人恒力跟踪方法 - Google Patents
一种基于教与学模态的机器人恒力跟踪方法 Download PDFInfo
- Publication number
- CN116107204A CN116107204A CN202310103955.9A CN202310103955A CN116107204A CN 116107204 A CN116107204 A CN 116107204A CN 202310103955 A CN202310103955 A CN 202310103955A CN 116107204 A CN116107204 A CN 116107204A
- Authority
- CN
- China
- Prior art keywords
- robot
- force
- track
- constant force
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000002787 reinforcement Effects 0.000 claims abstract description 5
- 230000009471 action Effects 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000011217 control strategy Methods 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0205—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
- G05B13/024—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于教与学模态的机器人恒力跟踪方法,涉及机器人控制技术领域。包括以下步骤:通过环境中曲面的型值点拟合机器人的运动轨迹,融合阻抗控制算法实现机器人的位置‑力混合控制;基于位置‑力混合控制遍历环境中的复杂曲面,记录机器人末端的运动轨迹和末端接触力;通过强化学习算法优化机器人末端运动轨迹;基于优化后的轨迹作为机器人运动的轨迹约束,实现机器人的恒力接触作业任务。基于力/位混合控制框架实现位置‑力混合控制的恒力跟踪,遍历未知环境中的复杂曲面后,通过学习算法优化机器人的运动轨迹,降低环境不确定性和拟合轨迹误差导致的恒力跟踪精度差的问题,使之能适用于位置环境的机器人恒力接触作业任务。
Description
技术领域
本发明属于机器人控制技术领域,尤其涉及一种基于教与学模态的机器人恒力跟踪方法。
背景技术
目前提出的恒力跟踪策略在大部分情况下,环境中曲面的刚度和位置是不确定的,容易影响机器人恒力跟踪时的精度,无法满足精度要求较高的恒力跟踪场景,而在精度要求较高的机器人接触作业情景中,需要严格控制机器人末端接触力的波动。
由于未知环境中曲面的位置和刚度都是不确定的,容易影响机器人的恒力跟踪效果。为此需要对传统的基于柔顺控制的恒力跟踪策略进行改进,针对以上问题,现提出一种基于教与学模态的机器人恒力跟踪方法,通过学习的方法修正机器人末端的跟踪轨迹,间接保证恒力跟踪精度和稳定性。
发明内容
本发明的目的是针对现有的问题,提供了一种基于教与学模态的机器人恒力跟踪方法,以解决接触作业时机器人末端接触力的稳定性。
本发明是通过以下技术方案实现的:一种基于教与学模态的机器人恒力跟踪方法,包括以下步骤:
S1、基于速度可控的NURBS轨迹规划算法拟合机器人的运动轨迹,通过位置-力混合控制算法框架融合阻抗控制算法和轨迹规划算法,对机器人末端不同的方向使用不同的控制策略,实现机器人对未知环境复杂曲面的恒力跟踪;
S2、基于位置-力混合控制策略初次恒力遍历未知环境中的复杂曲面,实时记录遍历过程中机器人末端的位置、姿态以及末端接触力信息,将机器人遍历曲面过程中记录的信息作为强化学习算法的输入量;
S3、通过实际接触力和期望接触力的差值Δf来补偿机器人末端的运动轨迹跟踪误差,通过ε-greedy算法选择下一步的行为,并通过回报函数评估采取行为的回报,优化机器人恒力跟踪时的运动轨迹,使得恒力跟踪的误差能够最小。
优选的,所述S1包括以下步骤:
S101、采集环境中复杂曲面的型值点,通过NURBS轨迹规划算法计算过型值点的NURBS轨迹,并利用速度插补算法对拟合轨迹进行速度规划,拟合出速度可控的机器人运动轨迹Xnurbs;
S102、通过选择矩阵确定机器人的柔顺力控制方向,并对机器人的其他方向进行位置控制,使机器人能够对未知环境进行恒力跟踪,基于位置-力混合控制框架的机器人运动轨迹方程为:
Xrobot=H·Xnurbs+(I-H)·Xc
优选的,所述S2包括以下步骤:
S201、机器人基于位置-力混合控制初次遍历未知环境中复杂曲面时,实时记录机器人末端的实际运动轨迹Xm、末端姿态矩阵Rm以及末端接触力Fe;
S202、所述的Q-learning算法为:
newQS,A=(1-α)QS,A+α(RS,A+γ·maxQ′(s′,a′))
其中,newQS,A是基于状态和行动的新的Q值;QS,A是当前的Q值;RS,A是基于状态和行动的奖励;maxQ′(s′,a′)是在给定新的状态和行动下未来最大的奖励;(1-α)QS,A是旧Q值在newQS,A之中所占的比重;(RS,A+γ·maxQ′(s′,a′))为本次行动自身带来的奖励和未来潜在的奖励;
S203、将所记录的机器人的实际运动轨迹和实际末端接触力作为Q-learning算法的输入量,即每个时刻机器人末端的实际接触力与期望接触力之间的差值Δf作为状态量,将柔顺控制得到的位置修正量作为行为量。
优选的,所述S3包括以下步骤:
S301、所述的ε-greedy搜索策略为:
S302、确定行为之后,需要评估所采取行为的回报函数R:
其中,δ1,δ2分别表示力误差和位置误差的权值;fd,pd分别表示期望力和期望位置,f和p表示所获得的实际接触力与机器人的实际位置,通过回报函数评估所采取行为的回报,使得误差能够最小。
本发明的有益效果是:
基于力/位混合控制框架实现位置-力混合控制的恒力跟踪,遍历未知环境中的复杂曲面后,通过学习算法优化机器人的运动轨迹,降低环境不确定性和拟合轨迹误差导致的恒力跟踪精度差的问题,使之能适用于位置环境的机器人恒力接触作业任务。
附图说明
图1为本发明的结构示意图;
图2为本发明的Q-learning进行力控算法流程图;
图3为本发明的基于教与学模态下的机器人末端与环境中复杂曲面的实际接触力与期望接触力示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
请参阅图1-3所示,本发明提供一种技术方案:一种基于教与学模态的机器人恒力跟踪方法,包括以下步骤:
S1、基于速度可控的NURBS轨迹规划算法拟合机器人的运动轨迹,通过位置-力混合控制算法框架融合阻抗控制算法和轨迹规划算法,对机器人末端不同的方向使用不同的控制策略,实现机器人对未知环境复杂曲面的恒力跟踪;
S2、基于位置-力混合控制策略初次恒力遍历未知环境中的复杂曲面,实时记录遍历过程中机器人末端的位置、姿态以及末端接触力信息,将机器人遍历曲面过程中记录的信息作为强化学习算法的输入量;
S3、通过实际接触力和期望接触力的差值Δf来补偿机器人末端的运动轨迹跟踪误差,通过ε-greedy算法选择下一步的行为,并通过回报函数评估采取行为的回报,优化机器人恒力跟踪时的运动轨迹,使得恒力跟踪的误差能够最小。
根据以上所述基于教与学模态的机器人恒力跟踪方法,可以更加准确的确定机器人恒力跟踪的机器人运动轨迹,实现对环境中复杂曲面的恒力跟踪效果。
获取环境中曲面的型值点,一般选取曲面的拐点或曲率变化较大的点,通过NURBS轨迹规划算法计算曲面的表面轮廓,将其作为机器人末端笛卡尔空间的运动约束轨迹,进一步通过T型速度规划算法对拟合的轨迹进行速度规划,确保机器人末端的速度平稳可控。最终确定速度可控的机器人末端拟合轨迹Xnurbs;
机器人末端的Z轴方向通过位置控制的同时,通过末端六维力传感器实时获取机器人与环境的实际接触力fe,设定机器人末端与环境的接触力fd,利用导纳控制策略纠正由于末端接触力的变化产生的轨迹误差Xc,实时纠正机器人末端的轨迹,其中导纳控制方程为:
将拟合的机器人轨迹Xnurbs和基于导纳控制实现恒力跟踪的轨迹纠正量Xc融合,作为机器人实际跟踪曲面时的运动轨迹:
Xrobot=H·Xnurbs+(I-H)·Xc
其中,是选择矩阵,hi∈[0,1],hi=0表示此维度的轨迹由通过力控制,hi=1表示此维度的轨迹通过拟合的轨迹控制,hi∈(0,1)表示在通过轨迹控制的同时也通过力控制,I是单位矩阵,Xrobot是发送给机器人的实际运动轨迹,Xnurbs是通过速度可控的NURBS轨迹规划算法拟合的轨迹,Xc是柔顺控制算法对机器人运动轨迹的修正量。
机器人通过接收的Xrobot轨迹遍历环境中的曲面时,实时同步记录机器人末端的运动轨迹点P以及对应时刻机器人末端与曲面之间的接触力Fe。
Q-learning算法的迭代方程为:
newQS,A=(1-α)QS,A+α(RS,A+γ·maxQ′(s′,a′))
其中,newQS,A是基于状态和行动的新的Q值;QS,A是当前的Q值;RS,A是基于状态和行动的奖励;maxQ′(s′,a′)是在给定新的状态和行动下未来最大的奖励;(1-α)QS,A是旧Q值在newQS,A之中所占的比重;(RS,A+γ·maxQ′(s′,a′))为本次行动自身带来的奖励和未来潜在的奖励;α表示学习率,定义了一个旧的Q值从新的Q值中学习新的Q值占自身的比重,学习率α决定了强化学习收敛到最优值的速度。γ被称为折扣因子,取值范围为0~1,决定时间的远近对回报的影响程度,值为0意味着只考虑短期奖励,值为1意味着更重视长期奖励;
将所记录的机器人末端实际接触力与期望接触力的插值ΔF=Fe-Fd作为Q-learning算法的状态量,将所记录的机器人末端实际轨迹点P作为行为量;
通过ε-greedy搜索策略来平衡探索和利用之间的关系,以ε的概率进行探索,以1-ε的概率进行利用,其探索分布如下所示其方程为:
确定机器人的行为之后,通过回报函数评估所采取的行动的回报:
其中,δ1,δ2分别表示力误差和位置误差的权值,如果力跟踪占主导地位则可以增大δ1;fd,pd分别表示期望力和期望位置,该回报函数R取反是为了最后能选择最大回报的行为,优化机器人恒力跟踪是的运动轨迹,使得恒力跟踪时误差最小;
设定折扣因子γ满足条件以及更新目标的条件,进行Q-leaming学习算法的迭代学习,优化机器人末端恒力跟踪的轨迹,将优化后的轨迹作为机器人恒力跟踪时的运动轨迹Xnew。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下。由语句“包括一个......限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素”。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
1.一种基于教与学模态的机器人恒力跟踪方法,其特征在于,包括以下步骤:
S1、基于速度可控的NURBS轨迹规划算法拟合机器人的运动轨迹,通过位置-力混合控制算法框架融合阻抗控制算法和轨迹规划算法,对机器人末端不同的方向使用不同的控制策略,实现机器人对未知环境复杂曲面的恒力跟踪;
S2、基于位置-力混合控制策略初次恒力遍历未知环境中的复杂曲面,实时记录遍历过程中机器人末端的位置、姿态以及末端接触力信息,将机器人遍历曲面过程中记录的信息作为强化学习算法的输入量;
S3、通过实际接触力和期望接触力的差值Δf来补偿机器人末端的运动轨迹跟踪误差,通过ε-greedy算法选择下一步的行为,并通过回报函数评估采取行为的回报,优化机器人恒力跟踪时的运动轨迹,使得恒力跟踪的误差能够最小。
2.根据权利要求1所述的一种基于教与学模态的机器人恒力跟踪方法,其特征在于,所述S1包括以下步骤:
S101、采集环境中复杂曲面的型值点,通过NURBS轨迹规划算法计算过型值点的NURBS轨迹,并利用速度插补算法对拟合轨迹进行速度规划,拟合出速度可控的机器人运动轨迹Xnurbs;
S102、通过选择矩阵确定机器人的柔顺力控制方向,并对机器人的其他方向进行位置控制,使机器人能够对未知环境进行恒力跟踪,基于位置-力混合控制框架的机器人运动轨迹方程为:
Xrobot=H·Xnurbs+(I-H)·Xc
3.根据权利要求1所述的一种基于教与学模态的机器人恒力跟踪方法,其特征在于,所述S2包括以下步骤:
S201、机器人基于位置-力混合控制初次遍历未知环境中复杂曲面时,实时记录机器人末端的实际运动轨迹Xm、末端姿态矩阵Rm以及末端接触力Fe;
S202、所述的Q-learning算法为:
newQS,A=(1-α)QS,A+α(RS,A+γ·maxQ′(s′,a′))
其中,newQS,A是基于状态和行动的新的Q值;QS,A是当前的Q值;RS,A是基于状态和行动的奖励;maxQ′(s′,a′)是在给定新的状态和行动下未来最大的奖励;(1-α)QS,A是旧Q值在newQS,A之中所占的比重;(RS,A+γ·maxQ′(s′,a′))为本次行动自身带来的奖励和未来潜在的奖励;
S203、将所记录的机器人的实际运动轨迹和实际末端接触力作为Q-learning算法的输入量,即每个时刻机器人末端的实际接触力与期望接触力之间的差值Δf作为状态量,将柔顺控制得到的位置修正量作为行为量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310103955.9A CN116107204A (zh) | 2023-02-13 | 2023-02-13 | 一种基于教与学模态的机器人恒力跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310103955.9A CN116107204A (zh) | 2023-02-13 | 2023-02-13 | 一种基于教与学模态的机器人恒力跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116107204A true CN116107204A (zh) | 2023-05-12 |
Family
ID=86267007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310103955.9A Pending CN116107204A (zh) | 2023-02-13 | 2023-02-13 | 一种基于教与学模态的机器人恒力跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116107204A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117639724A (zh) * | 2023-12-05 | 2024-03-01 | 航天科工通信技术研究院有限责任公司 | 一种基于cmos的微波输入输出匹配驱动电路 |
-
2023
- 2023-02-13 CN CN202310103955.9A patent/CN116107204A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117639724A (zh) * | 2023-12-05 | 2024-03-01 | 航天科工通信技术研究院有限责任公司 | 一种基于cmos的微波输入输出匹配驱动电路 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110320809B (zh) | 一种基于模型预测控制的agv轨迹修正方法 | |
CN111156987B (zh) | 基于残差补偿多速率ckf的惯性/天文组合导航方法 | |
CN111272174B (zh) | 一种组合导航方法和系统 | |
CN116107204A (zh) | 一种基于教与学模态的机器人恒力跟踪方法 | |
CN109605377B (zh) | 一种基于强化学习的机器人关节运动控制方法及系统 | |
CN109579824A (zh) | 一种融入二维码信息的自适应蒙特卡诺定位方法 | |
CN110006423B (zh) | 一种自适应惯导和视觉组合导航方法 | |
CN101088058A (zh) | 伺服机构控制系统的自适应命令滤波 | |
CN109062040B (zh) | 基于系统嵌套优化的预测pid方法 | |
CN112083457B (zh) | 一种神经网络优化的imm卫星定位导航方法 | |
CN112416021B (zh) | 一种基于学习的旋翼无人机路径跟踪预测控制方法 | |
CN115280322A (zh) | 使用学习的隐藏状态规划作用因素控制 | |
CN110802589A (zh) | 一种工业机器人单关节伺服控制的迟滞补偿方法 | |
CN114756021A (zh) | 路径跟踪方法、装置与路径跟踪设备 | |
CN115319759A (zh) | 机械臂末端控制轨迹智能规划算法 | |
CN114527795A (zh) | 一种基于增量在线学习的飞行器智能控制方法 | |
CN110039537B (zh) | 一种基于神经网络的在线自学习多关节运动规划方法 | |
CN113340324B (zh) | 一种基于深度确定性策略梯度的视觉惯性自校准方法 | |
US20210341625A1 (en) | Non-linear satellite state modeling techniques | |
CN117392215A (zh) | 一种基于改进amcl和pl-icp点云匹配的移动机器人位姿校正方法 | |
CN112947523A (zh) | 基于非奇异快速终端滑模控制的角度约束制导方法及系统 | |
CN111679269A (zh) | 一种基于变分的多雷达融合航迹状态估计方法 | |
CN113741183B (zh) | 基于阻尼比模型的工业机器人自适应导纳控制方法 | |
CN114918919B (zh) | 一种机器人运动技能学习方法及系统 | |
CN114200959A (zh) | 一种融合高斯过程的飞行器轨迹控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |