CN114571470A

CN114571470A - 一种补偿结果优化方法、装置、电子设备和存储介质

Info

Publication number: CN114571470A
Application number: CN202210480509.5A
Authority: CN
Inventors: 张校志; 杨远达; 陈良煜
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-06-03
Anticipated expiration: 2042-05-05
Also published as: CN114571470B

Abstract

本发明涉及机械臂控制领域，具体为一种补偿结果优化方法、装置、电子设备和存储介质。该补偿结果优化方法的步骤包括：获取机械臂的规划运动数据；获取机械臂的实际运动数据；将规划运动数据输入到完成训练的补偿模型中以获取力矩预测改正值；根据规划运动数据、实际运动数据和力矩预测改正值获取改正系数；根据力矩预测改正值和改正系数，计算力矩优化改正值；根据力矩优化改正值控制机械臂运动。本发明能够利用优化模型进一步对优化补偿结果，减少不合理的补偿结果，从而提高机械臂运动时的稳定性。

Description

一种补偿结果优化方法、装置、电子设备和存储介质

技术领域

本发明涉及机械臂控制领域，具体涉及一种补偿结果优化方法、装置、电子设备和存储介质。

背景技术

机械臂在实际运动时，往往受诸多因素影响导致产生摩擦力以使机械臂出现运动误差，例如齿轮磨损导致机械臂的实际转速与规划转速有差异；又例如机械臂的关节处缺少润滑脂导致结构之间的摩擦阻力增加以使机械臂端部到达的实际位置与目标位置有差异。

而现有技术中往往通过在机械臂的控制系统中设置摩擦力补偿模型，通过采集大量数据训练该模型以使在控制机械臂运动时该模型能够考虑摩擦力的影响从而计算出补偿力矩，最终控制系统根据补偿力矩修正机械臂的运动，从而减少机械臂的运动误差。

然而，该摩擦力补偿模型计算所得的补偿力矩在部分时候并不可靠，例如在机械臂运动接近零速度或加速度较大时，该学习模型计算所得的补偿力矩往往超出限制以致机械臂运动出现明显偏差且造成机械臂运动的不平稳，针对该问题单纯通过对摩擦力补偿模型进行迭代训练也无法有效解决。

因此，现有技术有待改进和发展。

发明内容

本发明的目的在于提供一种补偿结果优化方法、装置、电子设备和存储介质，能够有效优化摩擦力补偿模型的输出结果，使得机械臂能够实现更加平稳且精确的运动。

第一方面，本申请提供一种补偿结果优化方法，应用于机械臂的控制系统，以减少所述机械臂的运动误差，所述补偿结果优化方法包括以下步骤：

S1.获取所述机械臂的当前时刻的规划运动数据；所述规划运动数据包括所述机械臂的每个关节的规划速度、每个所述关节的规划角度位置和每个所述关节的规划力矩；

S2.获取所述机械臂的当前时刻的实际运动数据；所述实际运动数据包括所述机械臂的每个所述关节的实测速度、每个所述关节的实测角度位置和每个所述关节的实测温度；

S3.将所述当前时刻的规划运动数据输入到完成训练的补偿模型中以获取当前时刻的力矩预测改正值；

S4.将所述当前时刻的规划运动数据、所述当前时刻的实际运动数据和所述当前时刻的力矩预测改正值输入到完成训练的优化模型中以获取当前时刻的改正系数；

S5.根据所述当前时刻的力矩预测改正值和所述当前时刻的改正系数，计算当前时刻的力矩优化改正值；

S6.根据所述当前时刻的力矩优化改正值控制所述机械臂运动。

将补偿模型输出的力矩预测改正值输入到优化模型中计算得到改正系数，该改正系数能够有效修正力矩预测改正值，在补偿模型计算所得的补偿力矩超出限制时，也能够避免机械臂按该补偿力矩做出不稳定的运动动作。

进一步的，所述优化模型设置有行为空间和策略函数，所述策略函数用于计算所述改正系数；所述行为空间限定了所述改正系数的第一取值范围；

步骤S4中的具体步骤包括：

S41.将所述当前时刻的规划运动数据、所述当前时刻的实际运动数据和所述当前时刻的力矩预测改正值代入到所述策略函数中，以使所述策略函数在所述第一取值范围中选取一个确定的值作为所述当前时刻的改正系数。

通过输入训练数据进行迭代训练，时刻调整策略函数中的参数，直至训练完成得到最优的参数组合，从而获得完成训练的优化模型，其输出结果可靠性也更高。

进一步的，根据以下步骤设置所述行为空间：

S71.获取所述机械臂的历史时刻的规划运动数据；

S72.将所述历史时刻的规划运动数据输入到所述完成训练的补偿模型中以获取各个历史时刻的力矩预测改正值；

S73.以各个历史时刻为目标时刻，分别计算各个目标时刻的力矩预测改正值与目标时刻所需要的力矩实际改正值的比值；

S74.根据各个目标时刻对应的所述比值获得所述第一取值范围。

通过历史数据获取第一取值范围，使得第一取值范围的取值更符合实际，有利于确保所训练出的优化模型能够有效适用。

进一步的，步骤S74中的具体步骤包括：

S741.统计各个目标时刻对应的所述比值以得到第二取值范围；

S742.对所述第二取值范围进行过滤处理以得到第三取值范围；所述过滤处理包括以第一预设占比去除所述第二取值范围的极小值和以第二预设占比去除所述第二取值范围的极大值；

S743. 根据所述第三取值范围获取所述第一取值范围。

通过去除部分极小值和极大值，减少不合理的补偿结果，有利于确保机械臂运动的稳定性。

进一步的，步骤S743中的具体步骤包括：

对所述第三取值范围进行离散化处理以得到所述第一取值范围；所述离散化处理包括从所述第三取值范围中筛选出第一预设数量的具体数值；所述第一取值范围为所述具体数值的集合。

进一步的，所述优化模型根据预设的奖惩规则训练得到，所述预设的奖惩规则具体为：

所述机械臂从起点位置运动至终点位置时为一个回合结束，在单个回合结束时，给予该回合大小为1的累计奖励值；

在每个回合中所述机械臂运动至所述终点位置前，每执行一步动作均给予大小为-0.01的累计惩罚值；

在每个回合中所述机械臂运动至所述终点位置前，以执行的每一步动作作为目标动作，若执行所述目标动作的第二位置误差比执行所述目标动作的第一位置误差更大，则给予大小为-0.04的累计惩罚值；若执行所述目标动作的第二位置误差比执行所述目标动作的第一位置误差更小，则给予大小为0.02的累计奖励值；所述第一位置误差为以所述目标动作对应的力矩预测改正值执行所述目标动作后所述机械臂的实际位置与规划位置之间的距离差值；所述第二位置误差为以所述目标动作对应的力矩优化改正值执行所述目标动作后所述机械臂的实际位置与规划位置之间的距离差值。

进一步的，所述优化模型根据预设的训练结束规则训练得到，所述预设的训练结束规则具体为：在所述优化模型的迭代训练次数超过预设的第一阈值时，或在所述优化模型在单个回合中所述累计奖励值与所述累计惩罚值之和超过预设的第二阈值时，所述优化模型完成训练。

第二方面，本发明还提供了一种补偿结果优化装置，应用于机械臂的控制系统，以减少所述机械臂的运动误差，所述补偿结果优化装置包括：

第一获取模块，用于获取所述机械臂的当前时刻的规划运动数据；所述规划运动数据包括所述机械臂的每个关节的规划速度、每个所述关节的规划角度位置和每个所述关节的规划力矩；

第二获取模块，用于获取所述机械臂的当前时刻的实际运动数据；所述实际运动数据包括所述机械臂的每个所述关节的实测速度、每个所述关节的实测角度位置和每个所述关节的实测温度；

第三获取模块，用于将所述当前时刻的规划运动数据输入到完成训练的补偿模型中以获取当前时刻的力矩预测改正值；

第四获取模块，用于将所述当前时刻的规划运动数据、所述当前时刻的实际运动数据和所述当前时刻的力矩预测改正值输入到完成训练的优化模型中以获取当前时刻的改正系数；

计算模块，用于根据所述当前时刻的力矩预测改正值和所述当前时刻的改正系数，计算当前时刻的力矩优化改正值；

控制模块，用于根据所述当前时刻的力矩优化改正值控制所述机械臂运动。

利用优化模型对补偿模型的补偿结果进一步进行优化，去除不合理的补偿结果，使最终用于控制机械臂的力矩优化改正值可靠性更高，从而确保机械臂执行运动时更稳定。

第三方面，本发明提供了一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述补偿结果优化方法中的步骤。

第四方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述补偿结果优化方法中的步骤。

由上可知，本申请对现有技术中补偿模型的输出结果进行优化修正，当补偿模型计算所得的补偿力矩超出限制时，在改正系数的修正作用下能够有效防止机械臂盲目按照补偿力矩做出不稳定的运动动作，大大提高了机械臂运动的平稳性，同时也提高了整个控制系统的可靠性。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

图1为本申请实施例提供的补偿结果优化方法的一种流程图。

图2为本申请实施例提供的补偿结果优化装置的一种结构示意图。

图3为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在某些实施例中，一种补偿结果优化方法，应用于机械臂的控制系统，以减少机械臂的运动误差，其步骤包括：

S1.获取机械臂的当前时刻的规划运动数据；规划运动数据包括机械臂的每个关节的规划速度、每个关节的规划角度位置和每个关节的规划力矩；

S2.获取机械臂的当前时刻的实际运动数据；实际运动数据包括机械臂的每个关节的实测速度、每个关节的实测角度位置和每个关节的实测温度；

S3.将当前时刻的规划运动数据输入到完成训练的补偿模型中以获取当前时刻的力矩预测改正值；

S4.将当前时刻的规划运动数据、当前时刻的实际运动数据和当前时刻的力矩预测改正值输入到完成训练的优化模型中以获取当前时刻的改正系数；

S5.根据当前时刻的力矩预测改正值和当前时刻的改正系数，计算当前时刻的力矩优化改正值；

S6.根据当前时刻的力矩优化改正值控制机械臂运动。

本实施例中，补偿模型一般有神经网络模型、XGboost等机器学习算法，此为现有技术，在此不再赘述。通过收集大量训练数据对补偿模型进行迭代训练，得到完成训练的补偿模型，经训练后的补偿模型在机械臂运动较平稳且运动路径较简单的时候，能够输出较好的补偿结果（即较准确的力矩预测改正值），然而在部分时候，例如机械臂的加速度的变化较大时（机械臂接收到控制信号并根据控制信号从静止到运动的瞬间，或从运动到停止的瞬间），或机械臂以接近零的速度进行移动时，该补偿模型却容易超出限制输出不合理的补偿结果（不合理的补偿结果体现在机械臂按照该结果运动时，与不进行补偿时的情况一致或甚至造成更大的误差），而因为仅靠补偿模型的迭代训练并不能有效解决该问题从而导致该问题成为补偿模型的一大难点，为此本实施例提出通过对补偿模型的输出结果（即力矩预测改正值）进一步进行优化改正得到力矩优化改正值，该力矩优化改正值能够有效调整不合理的补偿结果，使得机械臂在上述情况下能够实现更加平稳且精准的运动。

在某些实施例中，根据以下公式计算力矩优化改正值：

；

其中，

为力矩优化改正值，

为力矩预测改正值，

为改正系数。

在某些实施例中，优化模型设置有行为空间和策略函数，策略函数用于计算改正系数；行为空间限定了改正系数的第一取值范围；

步骤S4中的具体步骤包括：

S41.将当前时刻的规划运动数据、当前时刻的实际运动数据和当前时刻的力矩预测改正值代入到策略函数中，以使策略函数在第一取值范围中选取一个确定的值作为当前时刻的改正系数。

本实施例中，优化模型经大量训练数据以梯度下降的方式不断进行迭代训练，每次训练则不断对策略函数进行调整直至其策略函数稳定且输出结果达到最优。

在某些实施例中，根据以下步骤设置行为空间：

S71.获取机械臂的历史时刻的规划运动数据（历史时刻指的是机械臂在当前时刻之前以往的时间点，例如前一小时、前一日或以往的某年某月等）；

S72.将历史时刻的规划运动数据输入到完成训练的补偿模型中以获取各个历史时刻的力矩预测改正值；

S74.根据各个目标时刻对应的比值获得第一取值范围。

本实施例中，优化模型的训练过程具体如下：

首先在机械臂上同时部署完成训练的补偿模型和待训练的优化模型，对优化模型中的策略函数的参数进行随机初始化，初始化的优化模型以下称之为第一优化模型。

然后控制机械臂沿指定的运动路径进行多次重复运动，其中机械臂从起点位置移动到终点位置则为完成一次运动（也称之为一个回合）。

在机械臂运动过程中，获取机械臂每个回合对应的每个关节的规划速度、每个关节的规划角度位置和每个关节的规划力矩，上述数据则作为每个回合的训练数据（本实施例中机械臂的历史时刻的规划运动数据）。

将上述机械臂的历史时刻的规划运动数据输入到补偿模型获得对应每个回合的力矩预测改正值。

获取机械臂每个回合对应的每个关节的实测速度、每个关节的实测角度位置和每个关节的实测温度，并结合对应每个回合的力矩预测改正值输入到第一优化模型中进行训练，每一个回合对应的数据均能训练出一个第二优化模型（即根据每一个回合对应的数据均能调整出一组策略函数的参数组合），而每一个回合训练出的第二优化模型则会在第一取值范围中选取一个改正系数。

根据该改正系数计算出对应每一个回合的力矩优化改正值。

最后控制机械臂根据每个回合的力矩优化改正值运动，并根据运动结果记录每个回合的累计奖励值和累计惩罚值（详见后文）。

机械臂重复多次运动后（即执行多个回合后），例如运行了500个回合，对应500个第二优化模型，则从该500个第二优化模型中选取出累计奖励值和累计惩罚值之和最大的第二优化模型，将该第二优化模型替换第一优化模型部署在机械臂上继续进行训练（此替换过程即为迭代训练，替换一次即为完成一次迭代训练），同理，执行多个回合后，选取出累计奖励值和累计惩罚值之和最大的第三优化模型并替换第二优化模型部署在机械臂上继续进行训练，如此循环进行多次迭代训练，直至训练结束，得到完成训练的优化模型。

在某些实施例中，步骤S74中的具体步骤包括：

S741.统计各个目标时刻对应的比值以得到第二取值范围（即统计得到的比值的最小值到最大值之间的范围，该范围包括该最小值和最大值）；

S742.对第二取值范围进行过滤处理以得到第三取值范围；过滤处理包括以第一预设占比去除第二取值范围的极小值和以第二预设占比去除第二取值范围的极大值；

S743.根据第三取值范围获取第一取值范围。

本实施例中，通过过滤处理能够有效去除补偿模型超出限制时输出的不合理的补偿结果，优化保留合理的范围能够大大增加最终优化模型输出的力矩优化改正值的可靠性和合理性，从而确保机械臂根据力矩优化改正值运动时能够更加平稳。

其中，步骤S742包括：

根据比值的大小，对各个目标时刻的比值进行升序排序；

根据排序，去除前N个比值和后M个比值；其中，N=floor（n*a）或者N=ceil（n*a），M=floor（n*b）或者M=ceil（n*b），floor为向下取整函数，ceil为向上取整函数，a为第一预设占比（可根据实际需要设置，例如10%）， b为第二预设占比（可根据实际需要设置，例如10%），n为该比值的总数量；

以去除前N个比值和后M个比值后的比值序列中的第一个比值到最后一个比值之间的范围为第三取值范围（该范围包括该第一个比值和最后一个比值）。

需要说明的是，第三取值范围需根据实际情况确定，例如第三取值范围可以为-0.20~0.16，但不仅限于此，需根据实际情况而定。优化模型在训练过程中输出的改正系数将从该第三范围内选取。

在某些实施例中，步骤S743中的具体步骤包括：

对第三取值范围进行离散化处理以得到第一取值范围；离散化处理包括从第三取值范围中筛选出第一预设数量的具体数值；第一取值范围为具体数值的集合。

本实施例中，为了提高优化模型的算法效率，避免产生过于庞大的运算量，通过对第三取值范围进行离散化处理(例如进行等间隔离散化处理，但不限于此)，从第三取值范围中选取出多个具体数值作为后续优化模型在训练过程中所利用到的改正系数。例如第三取值范围在-0.20~0.16时，经离散化处理后得到的第一取值范围为：

；

其中，

为第一取值范围，但不仅限于此，需根据实际情况而定。

在某些实施例中，优化模型根据预设的奖惩规则训练得到，预设的奖惩规则具体为：

机械臂从起点位置运动至终点位置时为一个回合结束，在单个回合结束时，给予该回合大小为1的累计奖励值；

在每个回合中机械臂运动至终点位置前，每执行一步动作均给予大小为-0.01的累计惩罚值；

在每个回合中机械臂运动至终点位置前，以执行的每一步动作作为目标动作，若执行目标动作的第二位置误差比执行目标动作的第一位置误差更大，则给予大小为-0.04的累计惩罚值；若执行目标动作的第二位置误差比执行目标动作的第一位置误差更小，则给予大小为0.02的累计奖励值；第一位置误差为以目标动作对应的力矩预测改正值执行目标动作后机械臂的实际位置与规划位置之间的距离差值；第二位置误差为以目标动作对应的力矩优化改正值执行目标动作后机械臂的实际位置与规划位置之间的距离差值。

本实施例中，机械臂从起点位置运动到终点位置的过程需要执行多步动作，例如首先控制第一个驱动电机转动再控制机械臂伸缩等，对于机械臂在运动至终点位置前所执行的每一个动作都进行奖惩，在同一个回合中，根据上述条件分别对奖励值和惩罚值进行累计，直至回合结束时再根据该回合累计的奖励值和惩罚值调整策略函数，使优化模型往输出准确且合理的结果的方向进行训练。

需要说明的是，规划位置指的是机械臂执行单步目标动作时预定需要到达的位置，例如目标动作为驱动第一个驱动电机使机械臂旋转60°，机械臂转到60°的位置则为规划位置，而实际上因误差，机械臂只旋转了59°，机械臂转到59°的位置则为实际位置；而终点位置指的是机械臂执行多步动作后最终到达的位置。

在某些实施例中，优化模型根据预设的训练结束规则训练得到，预设的训练结束规则具体为：在优化模型的迭代训练次数超过预设的第一阈值时，或在优化模型在单个回合中累计奖励值与累计惩罚值之和超过预设的第二阈值时，优化模型完成训练。例如第一阈值设置为800，第二阈值设置为5等，但不仅限于此，需根据实际情况而定。

请参照图2，图2是本申请一些实施例中的一种补偿结果优化装置，应用于机械臂的控制系统，以减少机械臂的运动误差，该补偿结果优化装置以计算机程序的形式集成在该补偿结果优化装置的后端控制设备中，该补偿结果优化装置包括：

第一获取模块100，用于获取机械臂的当前时刻的规划运动数据；规划运动数据包括机械臂的每个关节的规划速度、每个关节的规划角度位置和每个关节的规划力矩；

第二获取模块200，用于获取机械臂的当前时刻的实际运动数据；实际运动数据包括机械臂的每个关节的实测速度、每个关节的实测角度位置和每个关节的实测温度；

第三获取模块300，用于将当前时刻的规划运动数据输入到完成训练的补偿模型中以获取当前时刻的力矩预测改正值；

第四获取模块400，用于将当前时刻的规划运动数据、当前时刻的实际运动数据和当前时刻的力矩预测改正值输入到完成训练的优化模型中以获取当前时刻的改正系数；

计算模块500，用于根据当前时刻的力矩预测改正值和当前时刻的改正系数，计算当前时刻的力矩优化改正值；

控制模块600，用于根据当前时刻的力矩优化改正值控制机械臂运动。

在某些实施例中，第四获取模块400中的优化模型设置有行为空间和策略函数，策略函数用于计算改正系数；行为空间限定了改正系数的第一取值范围；第四获取模块400用于在将当前时刻的规划运动数据、当前时刻的实际运动数据和当前时刻的力矩预测改正值输入到完成训练的优化模型中以获取当前时刻的改正系数的时候执行：

在某些实施例中，第四获取模块400中优化模型根据以下步骤设置行为空间：

S71.获取机械臂的历史时刻的规划运动数据；

S74.根据各个目标时刻对应的比值获得第一取值范围。

在某些实施例中，第四获取模块400中优化模型在根据各个目标时刻对应的比值获得第一取值范围的时候执行：

S741.统计各个目标时刻对应的比值以得到第二取值范围；

S743.根据第三取值范围获取第一取值范围。

在某些实施例中，第四获取模块400中优化模型在根据第三取值范围获取第一取值范围的时候执行：

在某些实施例中，第四获取模块400中优化模型根据预设的奖惩规则训练得到，预设的奖惩规则具体为：

在某些实施例中，第四获取模块400中优化模型根据预设的训练结束规则训练得到，预设的训练结束规则具体为：在优化模型的迭代训练次数超过预设的第一阈值时，或在优化模型在单个回合中累计奖励值与累计惩罚值之和超过预设的第二阈值时，优化模型完成训练。

请参照图3，图3为本申请实施例提供的一种电子设备的结构示意图，本申请提供一种电子设备，包括：处理器1301和存储器1302，处理器1301和存储器1302通过通信总线1303和/或其他形式的连接机构（未标出）互连并相互通讯，存储器1302存储有处理器1301可执行的计算机程序，当计算设备运行时，处理器1301执行该计算机程序，以执行上述第一方面的实施例的任一可选的实现方式中的补偿结果优化方法，以实现以下功能：获取机械臂的当前时刻的规划运动数据；规划运动数据包括机械臂的每个关节的规划速度、每个关节的规划角度位置和每个关节的规划力矩；获取机械臂的当前时刻的实际运动数据；实际运动数据包括机械臂的每个关节的实测速度、每个关节的实测角度位置和每个关节的实测温度；将当前时刻的规划运动数据输入到完成训练的补偿模型中以获取当前时刻的力矩预测改正值；将当前时刻的规划运动数据、当前时刻的实际运动数据和当前时刻的力矩预测改正值输入到完成训练的优化模型中以获取当前时刻的改正系数；根据当前时刻的力矩预测改正值和当前时刻的改正系数，计算当前时刻的力矩优化改正值；根据当前时刻的力矩优化改正值控制机械臂运动。

本申请实施例提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时，执行上述第一方面的实施例的任一可选的实现方式中的补偿结果优化方法，以实现以下功能：获取机械臂的当前时刻的规划运动数据；规划运动数据包括机械臂的每个关节的规划速度、每个关节的规划角度位置和每个关节的规划力矩；获取机械臂的当前时刻的实际运动数据；实际运动数据包括机械臂的每个关节的实测速度、每个关节的实测角度位置和每个关节的实测温度；将当前时刻的规划运动数据输入到完成训练的补偿模型中以获取当前时刻的力矩预测改正值；将当前时刻的规划运动数据、当前时刻的实际运动数据和当前时刻的力矩预测改正值输入到完成训练的优化模型中以获取当前时刻的改正系数；根据当前时刻的力矩预测改正值和当前时刻的改正系数，计算当前时刻的力矩优化改正值；根据当前时刻的力矩优化改正值控制机械臂运动。

其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-OnlyMemory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种补偿结果优化方法，应用于机械臂的控制系统，以减少所述机械臂的运动误差，其特征在于，其步骤包括：

2.根据权利要求1所述的补偿结果优化方法，其特征在于，所述优化模型设置有行为空间和策略函数，所述策略函数用于计算所述改正系数；所述行为空间限定了所述改正系数的第一取值范围；

步骤S4中的具体步骤包括：

3.根据权利要求2所述的补偿结果优化方法，其特征在于，根据以下步骤设置所述行为空间：

S71.获取所述机械臂的历史时刻的规划运动数据；

4.根据权利要求3所述的补偿结果优化方法，其特征在于，步骤S74中的具体步骤包括：

S743.根据所述第三取值范围获取所述第一取值范围。

5.根据权利要求4所述的补偿结果优化方法，其特征在于，步骤S743中的具体步骤包括：

6.根据权利要求1所述的补偿结果优化方法，其特征在于，所述优化模型根据预设的奖惩规则训练得到，所述预设的奖惩规则具体为：

7.根据权利要求6所述的补偿结果优化方法，其特征在于，所述优化模型根据预设的训练结束规则训练得到，所述预设的训练结束规则具体为：在所述优化模型的迭代训练次数超过预设的第一阈值时，或在所述优化模型在单个回合中所述累计奖励值与所述累计惩罚值之和超过预设的第二阈值时，所述优化模型完成训练。

8.一种补偿结果优化装置，应用于机械臂的控制系统，以减少所述机械臂的运动误差，其特征在于，所述补偿结果优化装置包括：

9.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-7任一项所述补偿结果优化方法中的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-7任一项所述补偿结果优化方法中的步骤。