CN110501903B - 机器人免逆解控制系统参数的自调节及优化方法 - Google Patents
机器人免逆解控制系统参数的自调节及优化方法 Download PDFInfo
- Publication number
- CN110501903B CN110501903B CN201910864210.8A CN201910864210A CN110501903B CN 110501903 B CN110501903 B CN 110501903B CN 201910864210 A CN201910864210 A CN 201910864210A CN 110501903 B CN110501903 B CN 110501903B
- Authority
- CN
- China
- Prior art keywords
- neural network
- control system
- robot
- parameters
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0205—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
- G05B13/024—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种机器人免逆解控制系统参数的自调节及优化方法,包括以下步骤:1)构建神经网络,将机器人执行运动的误差以及误差的差分函数作为神经网络的输入,利用遗传算法对神经网络进行训练,训练完毕后神经网络输出控制系统参数;2)通过强化学习对控制系统参数进行优化;3)对优化后的控制系统参数进行回归分析并拟合成n阶函数,得到优化后的控制系统。本发明解决了目前机器人免逆解控制系统中参数选择依赖经验、性能不佳等不足,实现对机器人运动时的稳定性、鲁棒性和实时性有较好的提升。
Description
技术领域
本发明涉及一种自调节及优化方法,特别是涉及一种机器人免逆解控制系统参数的自调节及优化方法。
背景技术
机器人免逆解控制系统中传统的PID控制方法受到参数选取繁杂,对经验依赖程度高的的困扰,实际表现性能欠佳,适应性差,机器人在运动时末端抖动明显。由于神经网络具有逼近任意连续有界非线性函数的能力,对于长期困扰控制界的非线性系统和不确定性系统来说,神经网络无疑是一种解决问题的有效途径。通过网络自身的学习,可以找到某一最优控制规律下的控制参数。添加神经网络的控制系统如果采用梯度下降的权值迭代则过程相对缓慢,遗传算法能够对权值阈值按优胜劣汰的原则进行选择,运算量小于梯度下降法,而且得到的新的权值阈值个体优于旧的个体。另外,神经网络输出的个别参数仍有可能存在进一步优化的空间,对于个别参数的优化方法如果采用强化学习的方法则可以达到事半功倍的效果,最终将其拟合成一阶或者高阶函数,取代神经网络的输出,可以实现对机器人运动时的稳定性、鲁棒性和实时性有较好的提升。目前尚没有将神经网络、遗传算法和强化学习方法结合在一起进行机器人免逆解控制系统调节和优化的方法。
发明内容
发明目的:本发明要解决的技术问题是提供一种机器人免逆解控制系统参数的自调节及优化方法,解决了目前机器人免逆解控制系统中参数选择依赖经验、性能不佳等不足,实现对机器人运动时的稳定性、鲁棒性和实时性有较好的提升。
技术方案:本发明所述的机器人免逆解控制系统参数的自调节及优化方法,其特征在于,包括以下步骤:
(1)构建神经网络,将机器人执行运动的误差以及误差的差分函数作为神经网络的输入,利用遗传算法对神经网络进行训练,训练完毕后神经网络输出控制系统参数;
(2)通过强化学习对控制系统参数进行优化;
(3)对优化后的控制系统参数进行回归分析并拟合成n阶函数,得到优化后的控制系统。
进一步的,步骤(1)中的神经网络为BP神经网络,神经网络的每一个输出层节点分别对应一个PID控制参数。
进一步的,利用遗传算法对神经网络进行训练的方法为:
(1)起始时随机产生一组权值阈值个体,每个权值阈值个体为一组包含了神经网络各层权值和阈值的实数串,作为神经网络对应的权值和阈值;
(2)将所述误差作为单个权值阈值个体的适应度值,计算公式如下:
V适=Kx-1,
或者
V适=Ke-x,
其中,V适为适应度值,x为系统误差,K为系数,e为自然底数;
(3)从种群个体中选择适应度好的个体组合成用来繁殖的种群,被选中的概率如下:
P选=V适/N
其中,N是V适可取值的最大值;
(4)对步骤(3)选出来的种群个体两两进行交叉繁殖,两个个体交叉繁殖的公式如下:
akj=akj+P×(alj-akj)
alj=alj+P×(akj-alj)
其中,akj表示个体k的第j位基因,alj表示个体l的第j位基因,P是[0,1]之间的随机数;
(5)随机选择步骤(4)中的个体进行变异操作,公式如下:
akj=e-P×akj;
(6)将产生的新的权值阈值个体更新神经网络的权值阈值;
(7)神经网络输出控制系统参数,将机器人重新执行运动,若重新执行运动的误差未达到设定要求,则返回步骤(2),若重新执行运动的误差达到设定要求,训练结束。
进一步的,所述误差包括了运行的时间误差、运行的能量误差和运行的轨迹误差。
进一步的,步骤(2)具体为:
(1)选择进行优化的机器人关节和参数K,并将差值e和参数K作为强化学习的状态转移变量,差值e为所述关节目标角度和实际角度的差值;
(2)初始化强化学习状态矩阵;
(3)机器人更新参数进行运动;
(4)根据机器人运动的误差进行奖惩并更新状态矩阵中的奖惩值,当未达到设置的训练时间或者训练步数返回步骤(3),当达到设置的训练时间或者训练步数,结束强化学习。
进一步的,步骤(3)中所述的拟合方法为最小二乘法或者机器学习方法。
有益效果:本发明提供的基于神经网络自调节方法能够校正和机器人免逆解控制系统的参数,能够有效改善其在实际运行中的在目标点附近的抖动问题,并加快作业速度。因为免逆解控制系统不用求逆解即可让机器人运动到目标点,能够规避掉逆运动学中的多解、难解和奇异位置的问题,并具有良好的轨迹跟踪表现,再加上优化后的控制系统能让机器人运动更快速,轨迹更平滑,能量消耗更低,可广泛应用于各种自由度的串联式刚体机器人、软体机器人以及刚软体结合类型的机器人。
附图说明
图1是本发明实施方式的流程图;
图2是二自由度平机器人示意图;
图3是神经网络调节参数图;
图4是神经网络输入输出计算图。
具体实施方式
本发明的实施方式通过训练神经网络来调整网络输出的控制系统的参数,并利用遗传算法优化神经网络的权重值和阈值,再针对机器人免逆解控制系统的表现选取个别参数进行优化,优化方法采用强化学习的方式,得出不同状态下的系统个别参数的转移结果,最终利用最小二乘法或机器学习方法将该参数拟合成相关状态量的n阶函数。本实施方式的流程如图1所示,采用的是如图2所示的二自由度平面机器人,图中黑色曲线为平面机器人在免逆解控制系统中电机在传统PID控制方法下运动到目标点走出来的轨迹。免逆解控制方法是根据机器人各个关节根据各关节到末端在关节轴垂直的平面上的投影向量和各关节到目标位置在关节轴垂直的平面的投影向量组成的夹角转动。本实施方式让机器人在运动过程可以自我调节电机PID控制的参数,并对个别参数进行优化,最终让机器人运动到目标点的所需时间更少。方法具体实现如下所示:
(1)构建神经网络,将机器人执行运动的误差以及误差的差分函数作为神经网络的输入,利用遗传算法对神经网络进行训练,训练完毕后神经网络输出控制系统参数;这里的误差指的是机器人执行运动时间、能量或运行轨迹与设定的运动时间、能量或运行轨迹的差值。
(1.1)选择需要通过神经网络调节和输出的机器人控制参数,确定神经网络结构,神网络的每个输出层节点分别对应一个控制参数,选择神经网络的激励函数;
(1.2)起始时随机产生一组权值阈值个体,每个个体即为一组包含了神经网络各层权值和阈值的实数串;个体权值阈值作为神经网络对应的权值和阈值;
(1.3)机器人执行运动,将误差以及误差的差分函数作为神经网络的输入,神经网络根据得到的输入计算出输出的控制系统参数;
(1.4)将控制系统运行的时间、能量或轨迹误差传给遗传算法部分作为适应度值,交给步骤(1.5)的遗传算法产生新的权值阈值个体,如果训练的时间、机器人运动花费的时间、能量或者产生的轨迹误差没有满足要求,比如要求在10分钟内到达目标点,机器人花费时间超过了10分钟,则回到(1.3),如果满足了要求,则结束训练;
(1.5)根据(1.4)步得到的时间、能量或者轨迹误差作为单个权值阈值个体的适应度值,计算公式如下:
V适=Kx-1
或者
V适=Ke-x
x为时间、能量或者轨迹误差,K为系数,e为自然底数,公式亦可以和上面给出的不同,只要满足x越小适应度的值越高即可;
(1.6)从种群个体中选择适应度好的个体组合成用来繁殖的种群,即适应度越高,被选中进行繁殖的概率越大,公式表达如下:
P选=V适/N
其中N是V适可取值的最大值,该公式用来归一化概率的值;
(1.7)对(1.6)选出来的种群中的个体两两进行交叉繁殖,两个个体交叉繁殖的公式如下:
akj=akj+P×(alj-akj)
alj=alj+P×(akj-alj)
akj和alj表示其中的个体,akj表示个体k的第j位基因,alj表示个体l的第j位,P是[0,1]之间的随机数;
(1.8)随机选择(1.7)中的个体进行变异操作,公式如下:
akj=e-P×akj
P是[0,1]之间的随机数;
(1.9)将产生的新的权值阈值个体作为(1.2)步中神经网络新的权值阈值。
神经网络调节PID参数的原理如图3所示,神经网络的结构中在本实施方式中选为BP神经网络结构,神经网络的激励函数选择为:
如图3和图4所示,神经网络的输入为机器人运动过程中采样得到的离散化的角度误差e(k)、一阶差分e(k)-e(k-1)和二阶差分e(k)-2e(k-1)+e(k-2),神经网络的输出为应于两个关节的PID控制的共6个参数,单个结点输出的计算方法如图所示,w为权值,b为阈值,对每层每个结点计算最终输出传给机器人的两个关节,作为下次执行运动的PID参数。
本实施方式中,由于有3个输入,6个输出,设置神经网络的中间层结点数为10,则有3×10+10×6=90个权值,10+6=16个阈值,所以遗传算法中的权值阈值个体编码长度为90+16=106,即106个数字的实数串;随机生成100组权值阈值个体,即100组106个数字的实数串,将每组实数串传递给神经网络,使其更新权值和阈值,机器人执行运动,关节接受神经网络输出的参数作为新的参数,将运动到目标点的平均时间t记录,单位为ms,作为遗传算法的个体适应度的指标。
遗传算法对每个权值阈值个体计算适应度值V适=200/t的,通过计算机程序进行选择,个体被选中的概率为P选=V适,对选择出来的群体通过计算机程序进行如下的交叉操作:
akj=akj+P×(alj-akj)
alj=alj+P×(akj-alj)
其中akj表示个体k的第j位基因,alj表示个体L的第j位,P是[0,1]之间的随机数,例如,一个权值阈值个体A的第3位基因(即第三个数字)为0.7,与它交叉的个体B的第3位基因为0.2,概率P为0.6,则A的第3位基因变成0.7+0.6×(0.2-0.7)=0.4,B的第3位基因变成0.2+0.6×(0.7-0.2)=0.5;通过计算机程序实现将上面新生成的权值阈值个体的部分基因进行变异,P是[0,1]之间的随机数。
akj=e-p×akj
akj是个体k的第j个基因,这样akj即能发生一定程度的变异。
将产生的新的权值阈值个体传递给神经网络作为神经网络新的权值阈值,再从中选出部分群体进行上述的交叉变异操作,按照这种方式,神经网络的权值阈值函数将不断得到优化,机器人运动到目标点的时间将需要更少;
神经网络经过上述的40次更新后,不再用遗传算法对其进行优化,用100个目标点测试机器人的运动情况,发现运动到某些目标点时存在稳态误差,会偏离目标点一小段距离,于是,决定对第二个关节的KI参数进行额外的优化。
(2)通过强化学习对控制系统参数进行优化。
(2.1)用新的一组目标点或者轨迹对步骤(1)得到的神经网络控制系统进行测试,如果系统能稳定运行则可以投入对机器人控制的实际使用;
(2.2)观察测试结果,控制人员可选择机器人的个别关节的单个参数尝试进行接下来的优化操作;
(2.3)强化学习的状态转移变量即为该关节目标角度和实际角度的差值e和上一步选取的参数K,状态转移矩阵形式如下:
(en,kn)表示第n个状态,状态由一对差值和参数组成,其中en是状态n的差值,kn是状态n的参数,其中Q表示奖惩值,初始值均为0,step是参数k变化的步长,更新公式如下:
Q新=Q旧+α(r+γ×Qmax)
其中,r为奖惩项,和如时间、能量和轨迹误差等训练指标相关,ΔQmax是下一个状态最大的奖赏增量:
ΔQmax=max(Qnow-Qnext)
Qnow是当前状态的Q值,Qnext是当前状态可以转换的下一状态的Q值,α和γ是迭代系数,在实际训练时,可以采用多组不同的α和γ值进行训练;
(2.4)机器人从任意的起始角度执行运动,以较大的概率向Q值最高的状态转移,同时也以较小的概率向其他状态转移,通过(2.3)的方法不断更新状态转移矩阵;
本实施方式中,用强化学习的方法优化关节2的KI参数,首先设置状态表示为:
(关节2待转动角度θ,关节2的参数KI)
对于其他状态变量如关节速度,末端点到目标点的距离等等,也可以添加进强化学习的状态设置中,本实施方式的目的在于找出角度θ对应的表现最好的KI,从而将KI表示成θ相关的函数,故而只选择这两种状态变量作为强化学习训练的状态;
设置KI变化的步长为0.001,奖赏由如下方法计算:
Q(θ,KI)=1/Δl+γMax(Q(θ',KI')-Q(θ,KI))
γ为学习因子,Δl为机器人运动完成时末端与目标点的偏离长度,长度越小,奖赏则越高,θ'是变化到的下一个角度,本实施方式中的计算方法既考虑到了当前奖励,也考虑到了预期可以转移到的新的状态的奖励。随机选择2000个目标点,每次随机选择KI,记录机器人第二关节转动的角度和运动完成时末端到目标点的偏离长度,根据记录初始化奖励值,奖励值为1/Δl。
表1强化学习的Q表
(θ,K<sub>I</sub>) | +0.001 | -0.001 |
(30,0.052) | 0.623 | 0.434 |
(30,0.053) | 0.722 | 0.670 |
(30,0.054) | 0.669 | 0.711 |
(30,0.055) | 0.766 | 0.682 |
(40,0.061) | 0.674 | 0.642 |
(40,0.062) | 0.731 | 0.699 |
…… | …… | …… |
如表1所示,用计算机程序按上述迭代公式更新初始化了的Q表,γ选择为0.9,得到如图所示的最终的学习结果,将奖励值最大的(θ,KI)采用最小二乘法将其中的KI拟合成θ的一阶函数,结果如下:
KI=0.04θ+0.1
最终将该函数代替原来神经网络输出的KI,即可在一定程度上减轻机器人运动完成时末端到目标点的偏差。
(3)对优化后的控制系统参数进行回归分析并拟合成n阶函数,得到优化后的控制系统。
(3.1)待步骤(2)强化学习的训练结束后,用最小二乘法或机器学习的回归分析的方法将k拟合成与e相关的n阶函数,函数诸如以下形式:
k=Ke+b
k=Ae2+Be+C
K、b、A、B、C都是方程的系数;
(3.2)将控制系统的该参数k改为和e相关的函数k(e),该参数k不再采用神经网络的输出,如果仍要继续优化可重新回到第一步(1)。
Claims (5)
1.一种机器人免逆解控制系统参数的自调节及优化方法,其特征在于,包括以下步骤:
(1)构建神经网络,将机器人执行运动的误差以及误差的差分函数作为神经网络的输入,利用遗传算法对神经网络进行训练,训练完毕后神经网络输出控制系统参数;所述神经网络的输入为机器人运动过程中采样得到的离散化的角度误差e(k),一阶差分e(k)-e(k-1)和二阶差分e(k)-2e(k-1)+e(k-2);所述利用遗传算法对神经网络进行训练的方法为:
(1.1)起始时随机产生一组权值阈值个体,每个权值阈值个体为一组包含了神经网络各层权值和阈值的实数串,作为神经网络对应的权值和阈值;
(1.2)将所述误差作为单个权值阈值个体的适应度值,计算公式如下:
V适=Kx-1,
或者
V适=Ke-x,
其中,V适为适应度值,x为系统误差,K为系数,e为自然底数;
(1.3)从种群个体中选择适应度好的个体组合成用来繁殖的种群,被选中的概率如下:
P选=V适/N
其中,N是V适可取值的最大值;
(1.4)对步骤(1.3)选出来的种群个体两两进行交叉繁殖,两个个体交叉繁殖的公式如下:
akj=akj+P×(alj-akj)
alj=alj+P×(akj-alj)
其中,akj表示个体k的第j位基因,alj表示个体l的第j位基因,P是[0,1]之间的随机数;
(1.5)随机选择步骤(1.4)中的个体进行变异操作,公式如下:
akj=e-P×akj;
(1.6)将产生的新的权值阈值个体更新神经网络的权值阈值;
(1.7)神经网络输出控制系统参数,将机器人重新执行运动,若重新执行运动的误差未达到设定要求,则返回步骤(1.2),若重新执行运动的误差达到设定要求,训练结束;
(2)通过强化学习对控制系统参数进行优化;
(3)对优化后的控制系统参数进行回归分析并拟合成与e相关的n阶函数,e为机器人关节目标角度和实际角度的差值,得到优化后的控制系统。
2.根据权利要求1所述机器人免逆解控制系统参数的自调节及优化方法,其特征在于:步骤(1)中的神经网络为BP神经网络,神经网络的每一个输出层节点分别对应一个PID控制参数。
3.根据权利要求1所述机器人免逆解控制系统参数的自调节及优化方法,其特征在于,所述误差包括了运行的时间误差、运行的能量误差和运行的轨迹误差。
4.根据权利要求1所述机器人免逆解控制系统参数的自调节及优化方法,其特征在于,步骤(2)具体为:
(1)选择进行优化的机器人关节和参数K,并将差值e和参数K作为强化学习的状态转移变量,差值e为关节目标角度和实际角度的差值;
(2)初始化强化学习状态矩阵;
(3)机器人更新参数进行运动;
(4)根据机器人运动的误差进行奖惩并更新状态矩阵中的奖惩值,当未达到设置的训练时间或者训练步数返回步骤(3),当达到设置的训练时间或者训练步数,结束强化学习。
5.根据权利要求1所述机器人免逆解控制系统参数的自调节及优化方法,其特征在于,步骤(3)中拟合方法为最小二乘法或者机器学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864210.8A CN110501903B (zh) | 2019-09-12 | 2019-09-12 | 机器人免逆解控制系统参数的自调节及优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864210.8A CN110501903B (zh) | 2019-09-12 | 2019-09-12 | 机器人免逆解控制系统参数的自调节及优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110501903A CN110501903A (zh) | 2019-11-26 |
CN110501903B true CN110501903B (zh) | 2022-09-23 |
Family
ID=68591728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910864210.8A Active CN110501903B (zh) | 2019-09-12 | 2019-09-12 | 机器人免逆解控制系统参数的自调节及优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110501903B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111638646B (zh) * | 2020-05-29 | 2024-05-28 | 平安科技(深圳)有限公司 | 四足机器人行走控制器训练方法、装置、终端及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968665A (zh) * | 2012-12-05 | 2013-03-13 | 苏州大学 | 并联机器人的正运动学求解方法 |
CN109656229A (zh) * | 2018-12-10 | 2019-04-19 | 南通大学 | 基于ga-rbf网络的机器人末端性能预测模型的构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107685330B (zh) * | 2017-10-18 | 2018-12-18 | 佛山华数机器人有限公司 | 一种六自由度手腕偏置串联机器人的运动学逆解求解方法 |
-
2019
- 2019-09-12 CN CN201910864210.8A patent/CN110501903B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968665A (zh) * | 2012-12-05 | 2013-03-13 | 苏州大学 | 并联机器人的正运动学求解方法 |
CN109656229A (zh) * | 2018-12-10 | 2019-04-19 | 南通大学 | 基于ga-rbf网络的机器人末端性能预测模型的构建方法 |
Non-Patent Citations (1)
Title |
---|
机器人神经网络逆标定法研究与仿真;王战中等;《制造业自动化》;20150325;第第37卷卷(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110501903A (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113361777B (zh) | 基于vmd分解和ihho优化lstm的径流预测方法及系统 | |
CN110515303B (zh) | 一种基于ddqn的自适应动态路径规划方法 | |
CN103164742B (zh) | 一种基于粒子群优化神经网络的服务器性能预测方法 | |
CN111222677A (zh) | 一种基于长短期记忆时间神经网络的风速预测方法及系统 | |
CN111047085B (zh) | 一种基于元学习的混合动力车辆工况预测方法 | |
CN111158237B (zh) | 基于神经网络的工业炉炉温多步预测控制方法 | |
CN113722980B (zh) | 海洋浪高预测方法、系统、计算机设备、存储介质、终端 | |
CN114839884B (zh) | 一种基于深度强化学习的水下航行器底层控制方法及系统 | |
CN111339675A (zh) | 基于机器学习构建模拟环境的智能营销策略的训练方法 | |
CN113138555A (zh) | 一种基于遗传算法优化的grnn电主轴热误差建模方法 | |
CN114290339B (zh) | 基于强化学习和残差建模的机器人现实迁移方法 | |
CN115689070B (zh) | 基于帝王蝶算法优化bp神经网络模型的能源预测方法 | |
CN110501903B (zh) | 机器人免逆解控制系统参数的自调节及优化方法 | |
CN113313265A (zh) | 基于带噪声专家示范的强化学习方法 | |
Yao et al. | Monte carlo tree search based hybrid optimization of variational quantum circuits | |
CN109344961A (zh) | 一种基于pso的权值直接确定神经网络结构优化方法 | |
CN117012315A (zh) | 一种优化rbf神经网络的混凝土强度预测方法 | |
CN115972211A (zh) | 基于模型不确定性与行为先验的控制策略离线训练方法 | |
CN110851911A (zh) | 终端状态计算模型训练方法、控制序列搜索方法及装置 | |
CN113341696A (zh) | 一种运载火箭姿态控制参数智能整定方法 | |
CN116432539A (zh) | 一种时间一致性协同制导方法、系统、设备及介质 | |
CN114186771B (zh) | 一种混合正则化随机配置网络工业过程运行指标估计方法 | |
CN113032934B (zh) | 基于me-td3算法的风电场动态参数智能校核方法 | |
CN115972197A (zh) | 一种基于关节角轨迹编码的机器人动作演示学习方法 | |
CN115453880A (zh) | 基于对抗神经网络的用于状态预测的生成模型的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |