CN115674191B - 一种基于数字孪生的机械臂控制方法及系统 - Google Patents

一种基于数字孪生的机械臂控制方法及系统 Download PDF

Info

Publication number
CN115674191B
CN115674191B CN202211222915.8A CN202211222915A CN115674191B CN 115674191 B CN115674191 B CN 115674191B CN 202211222915 A CN202211222915 A CN 202211222915A CN 115674191 B CN115674191 B CN 115674191B
Authority
CN
China
Prior art keywords
mechanical arm
fuzzy
value
training
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211222915.8A
Other languages
English (en)
Other versions
CN115674191A (zh
Inventor
蒋丽
陈万葛
张开
冯润谦
岑羽昊
邓鉴钰
繆家辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202211222915.8A priority Critical patent/CN115674191B/zh
Publication of CN115674191A publication Critical patent/CN115674191A/zh
Application granted granted Critical
Publication of CN115674191B publication Critical patent/CN115674191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于数字孪生的机械臂抓取控制方法及系统,涉及工业智能制造技术领域,包括:在机械臂运行时,按时间周期性采集状态信息,所述的状态信息经过转换后用于构建机械臂数字孪生体,使用深度强化学习算法对构建的机械臂数字孪生体进行训练;训练过程中,对机械臂的状态信息进行分析,并对状态信息进行存储;训练完成后,得到最优的路径规划,通过最优的路径规划,分析机械臂控制过程可能发生的故障点且对比历史数据结果,得到最优的路径规划数据,将最优的路径规划数据发送给机械臂并控制机械臂的运行;循环以上步骤,直至机械臂准确到达目标点,并完成抓取动作。实现对机械臂工作状态的实时监控,对机械臂的运行路径进行规划。

Description

一种基于数字孪生的机械臂控制方法及系统
技术领域
本发明涉及工业智能制造技术领域,特别涉及一种基于数字孪生的机械臂控制方法及系统。
背景技术
我国我省制造业在信息化水平、自动化程度、质量效能方面依旧矛盾突出,在推进工业自动化、信息化方面的任务紧迫艰巨。
工业自动化流水生产线是制造业自动化的重要组成装备,工业机械臂是其中的重要组成部分。在工业生产中广泛应用机械臂,不仅可以有效地提升制造业的劳动生产率,还能够有效地提升工业产品的加工精度。因此,应用更有效、更精确的控制技术是工业机械臂发展要求。目前,在真实的机械臂控制应用中,市场上主流的机械臂控制方法为人为指令控制,即示教法,即由工程技术人员去规划机械臂的运动方向、作业步骤及力度控制,并细化至各种参数。这种控制技术方法较复杂,耗时长且工作量大,面对非线性结构的复杂环境时,利用人力去求解最优解显然是极具困难的。而当环境发生变化时,又需要重新示教,极大耗费专业人员的精力。
数字孪生是一个结合多个学科、在多个维度进行仿真的过程,在这个仿真过程中充分发挥诸如物理模型、传感器、运行历史等数据的作用。近年来,数字孪生得到越来越广泛的传播。同时,得益于物联网、大数据、云计算、人工智能等新一代信息技术的发展,数字孪生的实施已逐渐成为可能。现阶段,除了航空航天领域,数字孪生还被应用于电力、船舶、城市管理、农业、建筑、制造、石油天然气、健康医疗、环境保护等行业。特别是在智能制造领域,数字孪生被认为是一种实现制造信息世界与物理世界交互融合的有效手段。数字孪生的应用价值在于其能够对控制系统的实时监控和控制,实现预测性维护。
强化学习(Reinforcement Learning,RL),是利用奖励机制来解决智能体与环境交互中实现回报最大化的方法,是机器学习算法的一个分支。深度强化学习(DeepReinforcement Learning,DRL)近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步。DRL在总结多次学习策略的情况下,以不断改进学习算法。近年来,该方向已经取得了一系列瞩目的进展,比如交通信号控制、机器人控制、未知探索、公交车时刻表优化等。故深度强化学习领域具有较大的潜在研究优势。
现有技术公开了一种基于数字孪生的机械臂智能装备控制方法及系统,所述的方法包括:创建孪生空间;采集机械臂各关节运行位姿数据;建立数据库,并绘制路径曲线图;获取机械臂各关节最优运动姿态;将规划路径经孪生空间模拟运行后反馈给物理空间。但不足之处在于没有考虑到传统机械臂控制自适应性差,精准度低,在复杂环境下抓取准确率低的问题。
发明内容
本发明为了解决传统机械臂控制自适应性差,精准度低,在复杂环境下抓取准确率低的问题,提出了一种基于数字孪生的机械臂控制方法及系统,通过模糊PID算法提升自适应性和精确度、通过深度学习方法提高复杂环境下的抓取准确率。
为解决上述技术问题,本发明采用的技术方案是:
一种基于数字孪生的机械臂控制方法,包括:
在机械臂运行时,按时间周期性采集状态信息,所述的状态信息经过转换后用于构建机械臂数字孪生体,使用深度强化学习算法对构建的机械臂数字孪生体进行训练;
训练过程中,对机械臂的状态信息进行分析,并对状态信息进行存储;
训练完成后,得到最优的路径规划,通过最优的路径规划,分析机械臂控制过程可能发生的故障点且对比历史数据结果,得到最优的路径规划数据,将最优的路径规划数据发送给机械臂并控制机械臂的运行;
通过以上步骤,控制机械臂准确到达目标点,并完成抓取动作。
本发明的工作原理如下:
通过数字孪生技术在信息化平台上了解机械臂的运行状态,且机械臂与机械臂数字孪生体能够实现双向映射、数据连接和状态交互,从而加快风险评估的时间,实现实时监控运营和预测性维护;通过模糊PID算法对机械臂的控制进行优化,有效补偿动作误差,达到精确控制的目的;通过深度学习算法对机械臂数字孪生体进行训练,解决了不能连续输出动作的问题,提供了最优的路径规划,优化了机械臂的抓取动作。
优选地,在深度强化学习算法开始训练之前和训练完成之后,都通过模糊 PID控制器对机械臂进行参数优化和误差调整,使用模糊PID算法依次进行模糊化、模糊推理、解模糊处理求得输出值;再将输出值套入模糊PID算法进行调节。
优选地,所述的深度强化学习方法包括DDPG算法,所述的DDPG算法包括Actor网络和Critic网络;
在Actor网络中,DDPG算法在每个决策时隙t触发,根据学习的结果在时隙t、接收到系统状态为St时,输出一个对应动作At,动作At是在接收到系统状态为St下,满足奖赏值最大的动作;
定义映射π:St→At;式中,π称为策略,π(a|s)=P[At=a|St=a],P 为状态转移矩阵对于输出的动作At,Critic网络评估预期的回报,通过不断学习后,输出动作的效果更好或奖赏值更大,定义为映射Q(St,At)→R;
当输出一个对应动作At的同时获得下一个状态St+1和奖励Rt,每个数据都会同时储存在经验池中;在训练期间为达到长期回报的最大化,需要从经验池中选取样本更新Actor网络和Critic网络的参数,;
Actor网络在经验池中数据样本为Ω:
Ω={(St,At)|t∈Γ};
Critic网络需要的样本ΩT包括奖励Rt和下一个状态St+1
ΩT={(St,At,Rt,St+1)|t∈Γ};
式中,Γ表示样本索引;
对于Actor网络,目标是损失最小,定义Actor网络的损失函数为:
L(θu)=EΓ[Atlog u(St)+(1-At)log(1-u(St))]
式中,θu为Actor网络的参数,EΓ表示在Γ的样本中得到矩或称期望,以计算平均交叉熵损失;
对于Critic网络,定义Critic网络的损失函数为:
L(θQ)=EΓ(Rt+γmaxQ(S′t,A′t)-Q(St,At))2
式中,θQ为Critic网络的参数,EΓ表示在Γ的样本中得到矩或称期望,以计算平均交叉熵损失;随着参数θQ的迭代更新,maxQ为Critic网络计算得到的最大Q值,Q为Critic网络计算得到的当前Q值;u(St)表示Actor网络输入St所产生的输出,γ是折扣因子,通过样本学习不断优化这两个函数的参数获得最优的路径规划;
在系统状态St下,输出一个动作At,通过多个动作实现机械臂的目标,并且在此基础上满足实际工作的其他要求,通过定义奖励函数R来实现;机械臂状态包括每个运动关节的状态,以及由此确定的机械臂末端位置(end_x,end_y),动作包括每个部件的动作。
进一步地,所述的奖励函数表示为:R=R1+R2+R3
式中,R1为机械臂的坐标位置,R2为机械臂的动作幅度,R3为机械臂是否发生碰撞函数;
使用负的直线距离作为奖励函数之一,通过机械臂末端位置的坐标,以及目标点的坐标(obj_x,obj_y),计算得到机械臂末端位置与目标点之间的直线距离,以此控制机械臂到达最终目标位置:
R1=-dist
R2=-(Δθ+Δη)
Δθ=Δθ1+Δθ2+Δθ3+…+Δθn
Δη=Δη1+Δη2+Δη3+…+Δηn
Δθn为机械臂第n个旋转部件的旋转角度,Δηn为机械臂第n个伸缩部件移动的长度;
当机械臂与其他物体相撞时,R3=-∞;若没有相撞,则R3=0。
优选地,所述的模糊化的步骤如下:
模糊化处理的两个输入量为偏差e和偏差的变化量ec,设机械臂当前坐标为(x1,y1,z1),(x2,y2,z2),(x3,y3,z3);目标点为(x4,y4,z4),(x5, y5,z5),(x6,y6,z6);Kp、Ki和Kd分别为PID控制器的比例、积分和微分参数;
在坐标系中对目标点和现坐标点的差值进行计算,得到角度差e1、e2、e3;对应角度变化量为ec1、ec2、ec3;定义e和ec的模糊子集均为语言变量{NB, NM,NS,ZO,PS,PM,PB},对应的论域为{-6,-5,-4,-3,-2,-1,0,1,2,3,4,5,6};其中NB为负大,NM为负中、NS为负小、ZO为零、PS为正小、PM为正中、PB为正大;
采用线性方式量化,函数关系为:
式中,f(e)为e的量化函数,将输入的偏差e的具体值通过该函数进行量化,并根据量化结果和确定的模糊化子集得到该输入e对子集的隶属度;
式中,f(ec)是ec的量化函数,将输入的ec的具体值通过该函数进行量化,并根据量化结果和确定的模糊化子集得到该输入ec对子集的隶属度;
所述的偏差e的范围为Vmin-Vmax到Vmax-Vmin,所述的偏差的变化量ec 的范围为偏差e的范围的两倍;Vmax和Vmin定义为偏差e的最大值和最小值。
进一步地,所述的模糊推理的方法如下:
建立比例、积分、微分的模糊规则;
对于比例参数Kp的设计要求:在模糊PID控制器中,比例参数Kp的选取取决于系统的响应速度;调节初期系统响应速度慢,增大Kp的值使系统响应速度加快;调节中期减小Kp的值使系统不超调且具有一定的响应速度;调节后期增大Kp的值来减小静态误差,提高控制精度;
对于积分参数Ki的设计:随调节时间变化而增大,不断增强积分的作用;
对于微分参数Kd的设计:调节初期增强微分的作用,调节中期保证Kd的值取值平稳,调节后期减少微分作用。
进一步地,所述的解模糊处理的方法如下:
采用重心法计算各输出量的量化值,公式如下:
式中,V0为模糊控制器输出量解模糊后的精确值,Fi为模糊量化值,Mi为对应Fi的隶属度值;
对每一个对象进行矩阵操作,公式如下:
式中,K表示Kp、Ki、Kd;Fa和Fb分别表示e1和ec1求得模糊量化值,Fc和Fd分别为e2和ec2求得模糊量化值;[Mec1 Mec2]T是对矩阵[Mec1 Mec2]的转置;
通过此公式不断计算Kp,Ki和Kd值,并将三个参数值套入到模糊PID算法中,实现Kp,Ki和Kd值的自动更新,实现、机械臂的精确控制。
一种基于数字孪生的机械臂控制方法的控制系统,包括:物理层、虚拟层、用于实现物理层与虚拟层之间信息反馈的信息层;
所述的物理层包括工业机械臂实体、目标抓取物、智能感知设备、智能传输设备;
在工业机械臂实体运动过程中,所述的智能感知设备按时间周期性采集机械臂物理实体的状态信息,并通过智能传输设备将状态信息实时通过信息层传输到虚拟层中;
所述的虚拟层按照工业机械臂实体真实的工作环境搭建而成,并构建与工业机械臂实体各特征完全相同的机械臂数字孪生体;在虚拟层中,使用提前设计好的深度强化学习算法对机械臂数字孪生体进行训练,并在训练完成后,将得到的最优的路径规划通过信息层反馈到物理层中的工业机械臂实体。
进一步地,所述的信息层包括数据转换模块、数据分析模块、实时信息数据库、历史信息数据库;
所述的数据转换模块,将智能传输设备传送过来的状态信息数据转换为虚拟层机械臂数字孪生体可识别和可使用的数据;
所述的数据分析模块,实现工业机械臂实体在某个时间段各关节姿状态、故障状态的分析,并将结果记录在实时信息数据库中;
对比历史信息数据库所得的深度强化学习训练结果,选取其中最优训练结果,将其反馈回物理层,并控制机械臂的运行。
更进一步地,在深度强化学习算法开始训练之前和/或训练完成之后,通过利用模糊数学方法,使得PID控制器的比例微分积分参数可调节,实现利用模糊PID控制对DDPG算法输出的动作进行微调。
与现有技术相比,本发明的有益效果是:
1.在整个控制过程中,数字孪生技术能够通过机械臂与机械臂数字孪生体的虚实融合、虚实映射对设备位置分布、类型、运行环境、运行状态进行真实复现,不仅可以看到设备外部的变化,更重要的是可以看到设备内部的每一个零部件的工作状态,对设备运行异常实时告警,辅助管理者直观掌握设备运行状态,及时发现设备安全隐患,持续改进设备的性能,降低控制运行的成本,提高设备运行的安全性、可靠性、稳定性,提升设备运行的健康度,从而提升设备产品在市场上的竞争力。
2.模糊PID控制算法的鲁棒性强,适于解决机械臂控制过程中的非线性、强耦合时变、滞后等问题,也提高了系统的容错能力;同时操作人员易于通过人的自然语言进行人机界面交互,这些模糊条件语句也更容易加到过程的控制环节上。
3.引入DDPG算法,使机械臂在与环境的交互过程中,具有一定的识别、判断、比较、鉴别、记忆和自行调整能力;在连续动作上更有效地学习,且其基于策略迭代的策略梯度方法,可以保证网络参数在探索过程中向着更好的方向优化。
附图说明
图1为所述的一种基于数字孪生的机械臂控制方法的工作流程图。
图2为所述的模拟PID算法的应用流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
在本实施例中,如图1所示,一种基于数字孪生的机械臂控制方法,包括:
在机械臂运行时,按时间周期性采集状态信息,所述的状态信息经过转换后用于构建机械臂数字孪生体,使用深度强化学习算法对构建的机械臂数字孪生体进行训练;
训练过程中,对机械臂的状态信息进行分析,并对状态信息进行存储;
训练完成后,得到最优的路径规划,通过最优的路径规划,分析机械臂控制过程可能发生的故障点且对比历史数据结果,得到最优的路径规划数据,将最优的路径规划数据发送给机械臂并控制机械臂的运行;
通过以上步骤,控制机械臂准确到达目标点,并完成抓取动作。
本发明的工作原理如下:
通过数字孪生技术在信息化平台上了解机械臂的运行状态,且机械臂与机械臂数字孪生体能够实现双向映射、数据连接和状态交互,从而加快风险评估的时间,实现实时监控运营和预测性维护;通过模糊PID算法对机械臂的控制进行优化,有效补偿动作误差,达到精确控制的目的;通过深度学习算法对机械臂数字孪生体进行训练,解决了不能连续输出动作的问题,提供了最优的路径规划,优化了机械臂的抓取动作。
在本实施例中,在深度强化学习算法开始训练之前和训练完成之后,都通过模糊PID控制器对机械臂进行参数优化和误差调整,使用模糊PID算法依次进行模糊化、模糊推理、解模糊处理求得输出值;再将输出值套入模糊PID算法进行调节。
在本实施例中,所述的深度强化学习方法包括DDPG算法,所述的DDPG 算法包括Actor网络和Critic网络;
在Actor网络中,DDPG算法在每个决策时隙t触发,根据学习的结果在时隙t、接收到系统状态为St时,输出一个对应动作At,动作At是在接收到系统状态为St下,满足奖赏值最大的动作;
定义映射π:St→At;式中,π称为策略,π(a|s)=P[At=a|St=a],P 为状态转移矩阵对于输出的动作At,Critic网络评估预期的回报,通过不断学习后,输出动作的效果更好或奖赏值更大,定义为映射Q(St,At)→R;
当输出一个对应动作At的同时获得下一个状态St+1和奖励Rt,每个数据都会同时储存在经验池中;在训练期间为达到长期回报的最大化,需要从经验池中选取样本更新Actor网络和Critic网络的参数,;
Actor网络在经验池中数据样本为Ω:
Ω={(St,At)|t∈Γ};
Critic网络需要的样本ΩT包括奖励Rt和下一个状态St+1
ΩT={(St,At,Rt,St+1)|t∈Γ};
式中,Γ表示样本索引;
对于Actor网络,目标是损失最小,定义Actor网络的损失函数为:
L(θu)=EΓ[Atlog u(St)+(1-At)log(1-u(St))]
式中,θu为Actor网络的参数,EΓ表示在Γ的样本中得到矩或称期望,以计算平均交叉熵损失;
对于Critic网络,定义Critic网络的损失函数为:
L(θQ)=EΓ(Rt+γmaxQ(S′t,A′t)-Q(vt,At))2
式中,θQ为Critic网络的参数,EΓ表示在Γ的样本中得到矩或称期望,以计算平均交叉熵损失;随着参数θQ的迭代更新,maxQ为Critic网络计算得到的最大Q值,Q为Critic网络计算得到的当前Q值;u(St)表示Actor网络输入St所产生的输出,γ是折扣因子,通过样本学习不断优化这两个函数的参数获得最优的路径规划;
在系统状态St下,输出一个动作At,通过多个动作实现机械臂的目标,并且在此基础上满足实际工作的其他要求,通过定义奖励函数R来实现;机械臂状态包括每个运动关节的状态,以及由此确定的机械臂末端位置(end_x,end_y),动作包括每个部件的动作。
更具体的,所述的奖励函数表示为:R=R1+R2+R3
式中,R1为机械臂的坐标位置,R2为机械臂的动作幅度,R3为机械臂是否发生碰撞函数;R1、R2、R3是为了避免算法chuxian稀疏奖励问题而将奖励函数R设定为由三种不同的奖励函数构成;
使用负的直线距离作为奖励函数之一,通过机械臂末端位置的坐标,以及目标点的坐标(obj_x,obj_y),计算得到机械臂末端位置与目标点之间的直线距离,以此机械臂到达最终目标位置:
R1=-dist
R2=-(Δθ+Δη)
Δθ=Δθ1+Δθ2+Δθ3+…+Δθn
Δη=Δη1+Δη2+Δη3+…+Δηn
Δθn为机械臂第n个旋转部件的旋转角度,Δηn为机械臂第n个伸缩部件移动的长度;
当机械臂与其他物体相撞时,R3=-∞;若没有相撞,则R3=0。
实施例2
在本实施例中,如图2所示,所述的模糊化的步骤如下:
模糊化处理的两个输入量为偏差e和偏差的变化量ec,设机械臂当前坐标为(x1,y1,z1),(x2,y2,z2),(x3,y3,z3);目标点为(x4,y4,z4),(x5, y5,z5),(x6,y6,z6);Kp、Ki和Kd分别为PID控制器的比例、积分和微分参数;
在坐标系中对目标点和现坐标点的差值进行计算,得到角度差e1、e2、e3;对应角度变化量为ec1、ec2、ec3;定义e和ec的模糊子集均为语言变量{NB, NM,NS,ZO,PS,PM,PB},对应的论域为{-6,-5,-4,-3,-2,-1,0,1, 2,3,4,5,6};其中NB为负大,NM为负中、NS为负小、ZO为零、PS为正小、PM为正中、PB为正大;
采用线性方式量化,函数关系为:
式中,f(e)为e的量化函数,将输入的偏差e的具体值通过该函数进行量化,并根据量化结果和确定的模糊化子集得到该输入e对子集的隶属度;
式中,f(ec)是ec的量化函数,将输入的ec的具体值通过该函数进行量化,并根据量化结果和确定的模糊化子集得到该输入ec对子集的隶属度;
所述的偏差e的范围为Vmin-Vmax到Vmax-Vmin,所述的偏差的变化量ec 的范围为偏差e的范围的两倍;Vmax和Vmin定义为偏差e的最大值和最小值;当偏差e的绝对值abs(e)>Vmax时,说明误差的绝对值已经很大了,不论误差变化趋势如何,都应该考虑控制器的输入应按最大(或最小)输出,以达到迅速调整误差的效果,使误差绝对值以最大的速度减小。
更具体的,所述的模糊推理的方法如下:
建立比例、积分、微分的模糊规则;
对于比例参数Kp的设计要求:在模糊PID控制器中,比例参数Kp的选取取决于系统的响应速度;调节初期系统响应速度慢,增大Kp的值使系统响应速度加快;调节中期减小Kp的值使系统不超调且具有一定的响应速度;调节后期增大Kp的值来减小静态误差,提高控制精度;
对于积分参数Ki的设计:随调节时间变化而增大,不断增强积分的作用;
对于微分参数Kd的设计:调节初期增强微分的作用,调节中期保证Kd的值取值平稳,调节后期减少微分作用。
所述的解模糊处理的方法如下:
采用重心法计算各输出量的量化值,公式如下:
式中,V0为模糊控制器输出量解模糊后的精确值,Fi为模糊量化值,Mi为对应Fi的隶属度值;
对每一个对象进行矩阵操作,公式如下:
式中,K表示Kp、Ki、Kd其中之一,因为三个参数均通过该公式进行解模糊处理;Fa和Fb分别表示e1和ec1求得模糊量化值,Fc和Fd分别为e2和ec2 求得模糊量化值;[Mec1 Mec2]T是对矩阵[Mec1 Mec2]的转置,此处为解模糊处理,所以结果需要得到一个具体的值;
通过此公式不断计算Kp,Ki和Kd值,并将三个参数值套入到模糊PID算法中,实现Kp,Ki和Kd值的自动更新,实现、机械臂的精确控制。
由于传统的工业机械臂物理实体中存在的稳态误差以及设备的不可控因素,机械臂不能完全精确的实现控制效果,此时可以通过模糊PID控制器进行微调以达到控制目标。本发明针对机械臂控制技术的复杂性、冗余性问题,引入了数字孪生技术和RL算法,并将上述两种技术与机械臂的模糊PID控制技术有机结合起来,可以有效地实现机械臂在工作时的决策自动化,即有效地规划出机械臂的作业路径,与变化的工作环境达到更好的适应效果。这有助于提高制造业装备的自动化程度,减少相应的时间成本,促进制造业劳动生产率的发展。
实施例3
一种基于数字孪生的机械臂控制方法的控制系统,包括:物理层、虚拟层、用于实现物理层与虚拟层之间信息反馈的信息层;
所述的物理层包括工业机械臂实体、目标抓取物、智能感知设备、智能传输设备;
在工业机械臂实体运动过程中,所述的智能感知设备按时间周期性采集机械臂物理实体的状态信息,并通过智能传输设备将状态信息实时通过信息层传输到虚拟层中;
所述的虚拟层按照工业机械臂实体真实的工作环境搭建而成,并构建与工业机械臂实体各特征完全相同的机械臂数字孪生体;在虚拟层中,使用提前设计好的深度强化学习算法对机械臂数字孪生体进行训练,并在训练完成后,将得到的最优的路径规划通过信息层反馈到物理层中的工业机械臂实体。
更具体的,所述的信息层包括数据转换模块、数据分析模块、实时信息数据库、历史信息数据库;
所述的数据转换模块,将智能传输设备传送过来的状态信息数据转换为虚拟层机械臂数字孪生体可识别和可使用的数据;
所述的数据分析模块,实现工业机械臂实体在某个时间段各关节姿状态、故障状态的分析,并将结果记录在实时信息数据库中;
对比历史信息数据库所得的深度强化学习训练结果,选取其中最优训练结果,将其反馈回物理层,并控制机械臂的运行。
更具体的,在深度强化学习算法开始训练之前和/或训练完成之后,通过利用模糊数学方法,使得PID控制器的比例微分积分参数可调节,实现利用模糊 PID控制对DDPG算法输出的动作进行微调。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于数字孪生的机械臂控制方法,其特征在于,包括:
在机械臂运行时,按时间周期性采集状态信息,所述的状态信息经过转换后用于构建机械臂数字孪生体,使用深度强化学习算法对构建的机械臂数字孪生体进行训练;
训练过程中,对机械臂的状态信息进行分析,并对状态信息进行存储;
训练完成后,得到最优的路径规划,通过最优的路径规划,分析机械臂控制过程可能发生的故障点且对比历史数据结果,得到最优的路径规划数据,将最优的路径规划数据发送给机械臂并控制机械臂的运行;
通过以上步骤,控制机械臂准确到达目标点,并完成抓取动作;
在深度强化学习算法开始训练之前和训练完成之后,都通过模糊PID控制器对机械臂进行参数优化和误差调整,使用模糊PID算法依次进行模糊化、模糊推理、解模糊处理求得输出值;再将输出值套入模糊PID算法进行调节;
所述的深度强化学习方法包括DDPG算法,所述的DDPG算法包括Actor网络和Critic网络;
在Actor网络中,DDPG算法在每个决策时隙t触发,根据学习的结果在时隙t、接收到系统状态为St时,输出一个对应动作At,动作At是在接收到系统状态为St下,满足奖赏值最大的动作;
定义映射π:St→At;式中,π称为策略,π(a|s)=P[At=a|St=a],P为状态转移矩阵对于输出的动作At,Critic网络评估预期的回报,通过不断学习后,输出动作的效果更好或奖赏值更大,定义为映射Q(St,At)→R;
当输出一个对应动作At的同时获得下一个状态St+1和奖励Rt,每个数据都会同时储存在经验池中;在训练期间为达到长期回报的最大化,需要从经验池中选取样本更新Actor网络和Critic网络的参数,
Actor网络在经验池中数据样本为Ω:
Ω={(St,At)|t∈Γ};
Critic网络需要的样本ΩT包括奖励Rt和下一个状态St+1
ΩT={(St,At,Rt,St+1)|t∈Γ};
式中,Γ表示样本索引;
对于Actor网络,目标是损失最小,定义Actor网络的损失函数为:
L(θu)=EΓ[Atlogu(St)+(1-At)log(1-u(St))]
式中,θu为Actor网络的参数,EΓ表示在Γ的样本中得到矩或称期望,以计算平均交叉熵损失;
对于Critic网络,定义Critic网络的损失函数为:
L(θQ)=EΓ(Rt+γmaxQ(St′,A′t)-Q(St,At))2
式中,θQ为Critic网络的参数,EΓ表示在Γ的样本中得到矩或称期望,以计算平均交叉熵损失;随着参数θQ的迭代更新,maxQ为Critic网络计算得到的最大Q值,Q为Critic网络计算得到的当前Q值;u(St)表示Actor网络输入St所产生的输出,γ是折扣因子,通过样本学习不断优化这两个函数的参数获得最优的路径规划;
在系统状态St下,输出一个动作At,通过多个动作实现机械臂的目标,并且在此基础上满足实际工作的其他要求,通过定义奖励函数R来实现;机械臂状态包括每个运动关节的状态,以及由此确定的机械臂末端位置(end_x,end_y),动作包括每个部件的动作;
所述的奖励函数表示为:R=R1+R2+R3
式中,R1为机械臂的坐标位置,R2为机械臂的动作幅度,R3为机械臂是否发生碰撞函数;
使用负的直线距离作为奖励函数之一,通过机械臂末端位置的坐标,以及目标点的坐标(obj_x,obj_y),计算得到机械臂末端位置与目标点之间的直线距离,以此机械臂到达最终目标位置:
R1=-dist
R2=-(Δθ+Δη)
Δθ=Δθ1+Δθ2+Δθ3+…+Δθn
Δη=Δη1+Δη2+Δη3+…+Δηn
Δθn为机械臂第n个旋转部件的旋转角度,Δηn为机械臂第n个伸缩部件移动的长度;
当机械臂与其他物体相撞时,R3=-∞;若没有相撞,则R3=0。
2.根据权利要求1中所述的一种基于数字孪生的机械臂控制方法,其特征在于,所述的模糊化的步骤如下:
模糊化处理的两个输入量为偏差e和偏差的变化量ec,设机械臂当前坐标为(x1,y1,z1),(x2,y2,z2),(x3,y3,z3);目标点为(x4,y4,z4),(x5,y5,z5),(x6,y6,z6);Kp、Ki和Kd分别为PID控制器的比例、积分和微分参数;
在坐标系中对目标点和现坐标点的差值进行计算,得到角度差e1、e2、e3;对应角度变化量为ec1、ec2、ec3;定义e和ec的模糊子集均为语言变量{NB,NM,NS,ZO,PS,PM,PB},对应的论域为{-6,-5,-4,-3,-2,-1,0,1,2,3,4,5,6};其中NB为负大,NM为负中、NS为负小、ZO为零、PS为正小、PM为正中、PB为正大;
采用线性方式量化,函数关系为:
式中,f(e)为e的量化函数,将输入的偏差e的具体值通过该函数进行量化,
并根据量化结果和确定的模糊化子集得到该输入e对子集的隶属度;
式中,f(ec)是ec的量化函数,将输入的ec的具体值通过该函数进行量化,并根据量化结果和确定的模糊化子集得到该输入ec对子集的隶属度;
所述的偏差e的范围为Vmin-Vmax到Vmax-Vmin,所述的偏差的变化量ec的范围为偏差e的范围的两倍;Vmax和Vmin定义为偏差e的最大值和最小值。
3.根据权利要求2中所述的一种基于数字孪生的机械臂控制方法,其特征在于,所述的模糊推理的方法如下:
建立比例、积分、微分的模糊规则;
对于比例参数Kp的设计要求:在模糊PID控制器中,比例参数Kp的选取取决于系统的响应速度;调节初期系统响应速度慢,增大Kp的值使系统响应速度加快;调节中期减小Kp的值使系统不超调且具有一定的响应速度;调节后期增大Kp的值来减小静态误差,提高控制精度;
对于积分参数Ki的设计:随调节时间变化而增大,不断增强积分的作用;
对于微分参数Kd的设计:调节初期增强微分的作用,调节中期保证Kd的值取值平稳,调节后期减少微分作用。
4.根据权利要求3中所述的一种基于数字孪生的机械臂控制方法,其特征在于,所述的解模糊处理的方法如下:
采用重心法计算各输出量的量化值,公式如下:
式中,V0为模糊控制器输出量解模糊后的精确值,Fi为模糊量化值,Mi为对应Fi的隶属度值;
对每一个对象进行矩阵操作,公式如下:
式中,K表示Kp、Ki、Kd;Fa和Fb分别表示e1和ec1求得模糊量化值,Fc和Fd分别为e2和ec2求得模糊量化值;[Mec1Mec2]T是对矩阵[Mec1Mec2]的转置;
通过此公式不断计算Kp,Ki和Kd值,并将三个参数值套入到模糊PID算法中,实现Kp,Ki和Kd值的自动更新,实现、机械臂的精确控制。
5.基于权利要求1~4任一项所述的一种基于数字孪生的机械臂控制方法的控制系统,其特征在于,包括:物理层、虚拟层、用于实现物理层与虚拟层之间信息反馈的信息层;
所述的物理层包括工业机械臂实体、目标抓取物、智能感知设备、智能传输设备;
在工业机械臂实体运动过程中,所述的智能感知设备按时间周期性采集机械臂物理实体的状态信息,并通过智能传输设备将状态信息实时通过信息层传输到虚拟层中;
所述的虚拟层按照工业机械臂实体真实的工作环境搭建而成,并构建与工业机械臂实体各特征完全相同的机械臂数字孪生体;在虚拟层中,使用提前设计好的深度强化学习算法对机械臂数字孪生体进行训练,并在训练完成后,将得到的最优的路径规划通过信息层反馈到物理层中的工业机械臂实体。
6.根据权利要求5所述的一种基于数字孪生的机械臂控制方法的控制系统,其特征在于,所述的信息层包括数据转换模块、数据分析模块、实时信息数据库、历史信息数据库;
所述的数据转换模块,将智能传输设备传送过来的状态信息数据转换为虚拟层机械臂数字孪生体可识别和可使用的数据;
所述的数据分析模块,实现工业机械臂实体在某个时间段各关节姿状态、故障状态的分析,并将结果记录在实时信息数据库中;
对比历史信息数据库所得的深度强化学习训练结果,选取其中最优训练结果,将其反馈回物理层,并控制机械臂的运行。
7.根据权利要求5所述的一种基于数字孪生的机械臂控制方法的控制系统,其特征在于,在深度强化学习算法开始训练之前和/或训练完成之后,通过利用模糊数学方法,使得PID控制器的比例微分积分参数可调节,实现利用模糊PID控制对DDPG算法输出的动作进行微调。
CN202211222915.8A 2022-10-08 2022-10-08 一种基于数字孪生的机械臂控制方法及系统 Active CN115674191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211222915.8A CN115674191B (zh) 2022-10-08 2022-10-08 一种基于数字孪生的机械臂控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211222915.8A CN115674191B (zh) 2022-10-08 2022-10-08 一种基于数字孪生的机械臂控制方法及系统

Publications (2)

Publication Number Publication Date
CN115674191A CN115674191A (zh) 2023-02-03
CN115674191B true CN115674191B (zh) 2024-05-10

Family

ID=85063807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211222915.8A Active CN115674191B (zh) 2022-10-08 2022-10-08 一种基于数字孪生的机械臂控制方法及系统

Country Status (1)

Country Link
CN (1) CN115674191B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112338921A (zh) * 2020-11-16 2021-02-09 西华师范大学 一种基于深度强化学习的机械臂智能控制快速训练方法
CN113510704A (zh) * 2021-06-25 2021-10-19 青岛博晟优控智能科技有限公司 一种基于强化学习算法的工业机械臂运动规划方法
CN113524186A (zh) * 2021-07-19 2021-10-22 山东大学 基于演示示例的深度强化学习双臂机器人控制方法及系统
CN115091469A (zh) * 2022-08-05 2022-09-23 广东工业大学 一种基于最大熵框架的深度强化学习机械臂运动规划方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6721785B2 (ja) * 2016-09-15 2020-07-15 グーグル エルエルシー ロボット操作のための深層強化学習
US20220143822A1 (en) * 2020-11-11 2022-05-12 Sony Interactive Entertainment Inc. Method for robotic training based on randomization of surface damping

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112338921A (zh) * 2020-11-16 2021-02-09 西华师范大学 一种基于深度强化学习的机械臂智能控制快速训练方法
CN113510704A (zh) * 2021-06-25 2021-10-19 青岛博晟优控智能科技有限公司 一种基于强化学习算法的工业机械臂运动规划方法
CN113524186A (zh) * 2021-07-19 2021-10-22 山东大学 基于演示示例的深度强化学习双臂机器人控制方法及系统
CN115091469A (zh) * 2022-08-05 2022-09-23 广东工业大学 一种基于最大熵框架的深度强化学习机械臂运动规划方法

Also Published As

Publication number Publication date
CN115674191A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
Zhao et al. General type-2 fuzzy gain scheduling PID controller with application to power-line inspection robots
CN103123460A (zh) 温度控制系统和温度控制方法
CN111428317B (zh) 一种基于5g和循环神经网络的关节摩擦力矩补偿方法
Werbos Reinforcement learning and approximate dynamic programming (RLADP)—Foundations, common misconceptions, and the challenges ahead
CN106877746A (zh) 速度控制方法和速度控制装置
CN112659498B (zh) 一种注塑机深度神经网络实时最优控制方法
Moness et al. Real-time Mamdani-like fuzzy and fusion-based fuzzy controllers for balancing two-wheeled inverted pendulum
Li et al. Reinforcement learning control with adaptive gain for a Saccharomyces cerevisiae fermentation process
CN112388620B (zh) 一种用于气动肌肉驱动系统的轨迹跟踪控制算法
Hu Research on robot fuzzy neural network motion system based on artificial intelligence
CN112462608B (zh) 一种高速列车离散滑模轨迹及速度跟踪控制方法
Feng et al. Adaptive sliding mode controller based on fuzzy rules for a typical excavator electro-hydraulic position control system
CN115674191B (zh) 一种基于数字孪生的机械臂控制方法及系统
Precup et al. A survey on fuzzy control for mechatronics applications
Goggos et al. Qualitative-evolutionary design of greenhouse environment control agents
Ang et al. Improved MCMAC with momentum, neighborhood, and averaged trapezoidal output
CN114384931B (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
Qian et al. Data-driven physical law learning model for chaotic robot dynamics prediction
Srivastava et al. Design and application of a novel higher-order type-n fuzzy-logic-based system for controlling the steering angle of a vehicle: a soft computing approach
Tang et al. Actively learning Gaussian process dynamical systems through global and local explorations
Tsai et al. Adaptive reinforcement learning formation control using ORFBLS for omnidirectional mobile multi-robots
Le Design of intelligent controller using type-2 fuzzy cerebellar model articulation and 3d membership functions
Zhang et al. Control method of shaft and hole mating based on convolution neural network in assembly building prefabricated components
Kaur et al. Learning robotic skills through reinforcement learning
Sezgin et al. Design and Implementation of Adaptive Fuzzy PD Line Following Robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant