CN114117926A

CN114117926A - 一种基于联邦学习的机器人协同控制算法

Info

Publication number: CN114117926A
Application number: CN202111450243.1A
Authority: CN
Inventors: 陈楠; 杨平化; 吕游; 徐俊杰; 吕云峰
Original assignee: Nanjing Fortune Technology Development Co ltd
Current assignee: Nanjing Fortune Technology Development Co ltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-03-01
Anticipated expiration: 2041-12-01
Also published as: CN114117926B

Abstract

本发明公开了一种基于联邦学习的机器人协同控制算法，包括如下步骤：S1、机器人数据的预处理；S2、建立基于图神经网络建立本地模型，将S1得到的预处理之后的数据传输到图卷积层，后经过图池化层处理冗余特征，最后至全连接层输出本地模型；S3、建立基于自适应权重的异步传输联邦学习算法。该种基于联邦学习的机器人协同控制算法，在保护机器人厂家的隐私基础上，能够根据主从式机器人协同控制的主从关系来确定权重，同时可根据一个主从式机器人的联邦学习模型，可以推广到一个主机器人到多个从机器人，并可有效解决了现有技术中不同类型的机器人构成的主从式机器人协同控制模型中，存在的系统不匹配、参数不共享、通信延迟等问题。

Description

一种基于联邦学习的机器人协同控制算法

技术领域

本发明涉及机器人协同控制技术领域，尤其是在数据保护前提下，数据异构或者多机器人协同控制方法，具体为一种基于联邦学习的机器人协同控制算法。

背景技术

随着机器人技术的发展，各类型的机器人被广泛运用于各行各业中，其智能化程度是评估一个国家科技水平的重要因素。如今移动机器人的应用领域与市场规模不断壮大，国家高度重视机器人产业的研究与发展，在面向2035年的机器人产业规划中，把该技术列为工业自动化领域的重要发展方向，这将对我国机器人产业发展形成强大推力。目前主流的自动化生产车间依旧是单机器人进行自动化生产，或者是多台同类型机器人协同运作，这样的生产效率比单机器人生产效率略有提升，但是执行效率比不上异构多台机器人。不同类型多种机器人具备单一类型机器人更好的任务执行能力，不同类型的机器人可以完成更多的自由度和更加复杂的任务。

目前现有的多机器人能够执行比单机器人更多的自由度，具有的更强的负载能力和可执行能力。但是在实际工作过程中，生产所需的多机器人都是不同品牌，对于不同公司的机器人之间的参数不会共享，则异构机器人协同控制就会有偏差。就目前的机器人之间协同工作只是采用简单的定位以及示教来完成，不能够根据任务来动态调整机器人与机器人之间的相对位置。随着互联网技术的发展，各个企业也越来越重视自己的数据安全。因此，2016年联邦学习横空出世，用于在不触及数据的前提下，分析数据。但是，现有的联邦学习算法在机器人数据的保护方面不完备，而这一领域却是十分具有商业价值的。因此将现有的多机器人协同操作存在的不足之处总结如下：

问题1：传统的多机器人协同控制利用的是同品牌同类型机器人控制，在自由度上和任务执行能力上不能够完成一些自动化流水车间的生产，同类型机器人例如搬运机器人在使用过久后，也会出现硬件磨损，引起定位误差，从而影响其运动参数；

问题2：对于不同品牌类型的机器人，或者异构或者多机器人协同控制时，不同机器人厂家的参数不共享，系统不兼容，协同控制是会存有一定的延时，对于自动化流水线的效率有很大的负面影响。不同厂家的机器人参数和结构数据，属于商业的机密，机器人生产厂家对于客户也不提供数据信息，因此机器人参数之间的共享信息需要能在保护各自利益的基础上解决。

对上述两个问题，本发明专利提出了一种基于联邦学习的机器人协同控制算法。

对于问题1，本发明提出采用多种机器人主从式协同控制，多机器人协调运动需要具有协调关系的各主从机器人在运动过程中保持机器人末端位姿之间的相对位姿关系不变。由于从动机器人跟随主动机器人运动，因此从动机器人不需要单独的轨迹示教指令，整个系统的示教和规划可以在主动机器人的基坐标系下完成。在多机器人系统中，任意时刻有且仅有一台机器人作为主动机器人，但可以存在多台从动机器人。

对于问题2，在解决问题1的基础上加入联邦学习，以各个机器人制造商为单位建立本地模型，将本地模型参数上传至服务器端，采用联邦权重聚合算法，根据各个机器人制造商在协同控制时参与的任务量来确定权重。对于时间延迟问题，本专利采用异步传输，在联邦学习聚合分发过程中采取并发式网络进行传输，在一定程度上解决延迟带来的问题。为解决上述两个问题，最终本发明专利提出了一种基于联邦学习的机器人协同控制算法。

发明内容

本发明专利基于联邦学习算法、自适应主动加权和机器人主从式协同控制模型，提出了一种基于联邦学习的机器人协同控制算法，用于解决不同类型的机器人构成的主从式机器人协同控制模型中系统不匹配、参数不共享、通信延迟等问题。本发明提供了如下的技术方案：

本发明一种基于联邦学习的机器人协同控制算法，包括包括如下步骤：

S1、机器人数据的预处理，具体流程如下：

S1-1、建立机器人坐标系，对主从式机器人建立基座坐标系O_B和世界坐标系O_W，并设定多机器人中任意两台机器人的基座坐标系O_B与世界坐标系O_W的相对抓取物体的位姿是固定的，不随着时间变化，根据机器人当前时刻的关节角进行计算主从机器人末端坐标系的相对位姿矩阵

并同步计算t时刻从动机器人R_s在其基座坐标系O_Bs下的目标轨迹矩阵

S1-2、机器人参数处理，获取机器人运动的行为特征的历史行为数据；

S1-3、参数归一化，在收集数据之后，将其分为训练集、测试集和验证集三个部分，并将D₁数据作为训练序列，D₂作为测试序列和D₃作为验证集，对待进行非结构化数据进行最大-最小归一化，公式为

其中x^*为归一化之后的参数，x为待处理参数，x_min为所有参数中的最小值，x_max为所有参数中最大值，将所有参数预处理完成；

S2、建立基于图神经网络建立本地模型，将S1得到的预处理之后的数据传输到图卷积层，后经过图池化层处理冗余特征，最后至全连接层输出本地模型；

S3、建立基于自适应权重的异步传输联邦学习算法，具体流程如下：

S3-1、联邦学习异步传输，对于每个主从式机器人系统客户端采用异步传输更新，在本地训练固定轮次后，将各自神经网络参数发送给参数服务器，并等待最新的神经网络参数，当接受到参数后采用滑动平均的方式聚合成新的权重，定义公式为：

其中W_k+τ为参数服务器在聚合时的保留权重，W_ki为主从式机器人系统客户端工作节点k上传输到服务器的权重，k_i为第k个主从式机器人系统客户端工作节点权重的更新值；

S3-2、自适应随机加权，对于多客户端的聚合问题，采用学习样本上不同类型信息对客户端节点簇结构有差异的K-means型算法，将多客户端两种类型的信息映射到同一维度空间上，再通过对其融合，得到具有统一的簇中心；

S3-3、聚合模型的评价指标，以均方误差损失函数的评价标准，在自适应加权的基础上，将联合训练的模型分发到各个主从式机器人系统参与的客户端，根据偏差来评估联合训练的模型好坏；

S3-4、联邦模型建立完成，上述步骤完成后，达到设定的评价标准，将基于自适应加权的图卷积联邦学习网络的联合训练模型聚合到服务器端聚合，聚合完成后再返回给各个本地客户端。

作为本发明的一种优选技术方案，所述S1-1中

其中

和

分别为主动机器人R_m和从动机器人R_s的正运动学转换矩阵，

为主从机器人基座坐标系的相对位姿矩阵；

其中

为主动机器人R_m在其基座坐标系O_Bm下的目标轨迹矩阵，

为从动机器人R_s在主动机器人R_m末端坐标系O_Em下的目标轨迹矩阵。

作为本发明的一种优选技术方案，所述S1-2中历史行为数据包含以下10个特征，将其映射为向量的形式：X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀}，其中x₁为动力学模型，x₂为运动学模型，x₃为主动机器人R_m特征，x₄为从动机器人R_s特征，x₅为抓取物体目标轨迹矩阵

x₆为抓取物体目标物体初始坐标位置，x₇为抓取物体目标物体的最终坐标位置，x₈为通信时延，x₉为偏差数据，x₁₀为抗干扰能力。

作为本发明的一种优选技术方案，所述S2的具体流程如下：

S2-1、图卷积层，使用如公式

所示的形式，来聚合邻居节点信息，提取高度概括的有效节点特征，其中上标l表示层数，

表示在原始邻接矩阵上增加了单位矩阵，以此来包含自身节点信息，H⁰表示初始的输入数据特征，

即度矩阵，

W^l是可训练的权重参数；

S2-2、图池化层，首先将所有的节点特征通过一个可训练变量p投影成1维数据，从而在根据生成的1维数据来执行TopK池化操作，选择得分最高的节点；

S2-3、全连接层，设置三个全连接层在网络结构的末端，对特征进行扁平化操作，该操作将最终得到的图节点特征保存为一个固定大小的表示形式中；

S2-4、激活函数，在图卷积神经网络结构中，不同的位置输入不同的激活函数，在图卷积层、图池化层和前两层全连接层之间采用Tanh(·)激活函数，定义如公式

所示，在全连接层最后输出的时候采用Sigmoid(·)函数，定义如公式

所示；

S2-5、损失函数，采用的交叉熵损失函数，定义公式为：

其中n_k表示第k个主从式机器人系统客户端拥有的数据量，l_k表示对应的损失函数；

S2-6、网络优化器，采用改进的自适应网络优化器AMSGrad。作为本发明的一种优选技术方案，所述S2-6中梯度更新如公式

所示，其中m为梯度的一阶矩估计即梯度的均值，V为梯度的二阶矩估计即梯度的有偏方差，

为更新之后的梯度的有偏方差，g为梯度，t表示当前学习的迭代次数，

⊙是一种同位元素相乘的乘法，β₁,β₂∈[0,1)是一组超参数，本专利定义β₁＝0.9，β₂＝0.99，由于梯度的矩估计对计算机GPU内存没有额外的要求，不会增加计算机GPU内存的压力，而AMSGrad经过偏置修正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。

作为本发明的一种优选技术方案，所述S3-3中均方误差损失函数用公式表示为：

其中y_i为本地端模型，y′_i为联合泛化训练后的模型。

本发明的有益效果是：

该种基于联邦学习的机器人协同控制算法，在保护机器人厂家的隐私基础上，能够根据主从式机器人协同控制的主从关系来确定权重，同时可根据一个主从式机器人的联邦学习模型，可以推广到一个主机器人到多个从机器人，并可有效解决了现有技术中不同类型的机器人构成的主从式机器人协同控制模型中，存在的系统不匹配、参数不共享、通信延迟等问题。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是联邦学习模型示意图；

图2是联邦学习异步加权的示意图；

图3是基于坐标变换的机器人主从协调目标矩阵计算的示意图；

图4是图卷积神经网络结构示意图；

图5是本发明一种基于联邦学习的机器人协同控制算法的流程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：为使得本发明的目的、技术方案和优点更加清楚，下面结合附图和具体的生产实施案例，对本发明作进一步的详细描述。本发明专利以FANUC的协同控制机器人CRX-10IA和ABB的关节型机器人IRB 1 100为例，具体说明基于联邦学习的机器人协同控制算法。

本发明基于联邦学习算法、自适应主动加权机器人和机器人主从式协同控制模型，提出了一种基于联邦学习的机器人协同控制算法，用于解决不同类型的机器人构成的主从式机器人协同控制模型中系统不匹配、参数不共享、通信延迟等问题。本专利算法模型在保护机器人厂家的隐私基础上，能够根据主从式机器人协同控制的主从关系来确定权重。根据一个主从式机器人的联邦学习模型，可以推广到一个主机器人到多个从机器人。

联邦学习作为一种新型的分布式机器学习，在通过分布式加密训练技术保证客户端安全，提升了企业对当下人工智能技术的信任度。联邦学习模型图如附图1所示。此外联邦学习有个前提：各参与方数据要有一定的相关性，这个相关性包括目标任务、用户ID、特征变量等。根据数据的相关性要求，本发明专利模型的参数也具有一定的相关性，所以能训练出一个泛化性能较好的模型。在联邦学习框架下，参与联合训练的本地客户端，能够很好的保护各个参与方的隐私。现有的联邦学习框架在服务器端用的联邦平均算法(FederatedAveraging，FedAvg)，对于上传到服务器端的参数仅仅做了平均处理，没有考虑到各个模型之间的差异问题。在本发明专利中，具体涉及的是不同类型机器人不同系统通信延迟、运动参数信息，不同机器人直接的运动参数虽不同，但是其含义均一致，对于模型的建立仅需将数据归一化处理进行本地模型建立。根据主从式关系进行联合建模，将联邦平均算法更改为自适应加权平均算法，根据机器人协同控制的身份进行自适应加权，在极大程度上增加了模型的适应程度。为解决协同控制机器人中，系统不匹配和通信延迟问题，采用异步加权来解决通信延迟问题。本专利的算法联邦学习异步加权模型图如附图2所示。

本发明内容具体包括以下三个步骤：

S1：机器人数据预处理

FANUC的协同控制机器人CRX-10IA和ABB的关节型机器人IRB 1 100两类机器人协同控制目标研究中，每个机器人作为一个物理实体作用于自身和环境，并对环境做出反应。此前的研究多认为在多机器人协同控制中，机器人具备在空间中任意移动的能力。但是实际上机器人的运动常常是受限制的，仅使用常规的单积分或双积分动力学对机器人进行建模，与实际机器人的物理模型差距较大，不利于实现实际的工程应用。移动机器人分为：轮式、步行、履带式、室内、室外、医疗、军事移动机器人，本专利按照轮式机器人建立坐标系，以抓取物体为例，继而进行数据预处理。

S1-1机器人坐标系的建立

本专利针对于FANUC的协同控制机器人CRX-10IA和ABB的关节型机器人IRB 1 100主从式机器人(以下简称主从式机器人)建立基座坐标系和世界坐标系，考虑到模型的通透性以及抓取物体为固定位置抓取，设定多机器人中任意两台机器人的基座坐标系O_B与世界坐标系O_W的相对抓取物体的位姿是固定的，不随着时间变化。基于坐标变换的机器人主从协调目标矩阵计算如附图3所示，若R_m为主动机器人，R_s为从动机器人，则主从机器人基座坐标系的相对位姿矩阵

为常量，可通过事先标定程序获得。

和

分别为主动机器人R_m和从动机器人R_s的正运动学转换矩阵，可根据机器人当前时刻的关节角进行计算，由式(1)可以计算当前时刻主从机器人末端坐标系的相对位姿矩阵

机器人主从协同运动轨迹问题，可以描述为在已知

的条件下，在t时刻，主动机器人R_m在其基座坐标系O_Bm下的目标轨迹矩阵为

同时从动机器人R_s在主动机器人R_m末端坐标系O_Em下的目标轨迹矩阵为

根据式(2)同步计算t时刻从动机器人R_s在其基座坐标系O_Bs下的目标轨迹矩阵

S1-2机器人参数处理

机器人的运动根据凯恩方程法建立移动机器人的动力学模型，机器人运动学分为正运动学和逆运动学，运动学是从运动的角度来沟通机器人关节空间与笛卡尔空间，相当于是关节空间与笛卡尔空间之间的桥梁。此内容非本专利核心内容，具体建模方法不详细阐述，本专利将动力学模型结果记为参数x₁。本专利所述的主从式机器人为非完整约束机器人，机器人可以根据基座标系、世界坐标系以及相对位姿来进行运动学建模。机器人的动力学同样分为正向动力学与逆向动力学，动力学是从动力学的角度来沟通机器人驱动力和机器人运动状态之间的关系。从空间分类，机器人动力学分为关节空间动力学与笛卡尔空间动力学。机器人关节空间动力学主要是沟通机器人关节驱动力矩与关节运动状态之间的桥梁，机器人笛卡尔空间动力学主要是沟通机器人笛卡尔空间驱动力/力矩与笛卡尔运动状态之间的桥梁。此内容非本专利核心内容，具体建模方法不详细阐述，本专利将运动学模型结果记为参数x₂。至此多机器人主从式建模运动参数已有。获取机器人运动的行为特征的历史行为数据，所述历史数据包含以下10个特征，将其映射为向量的形式：X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀}其中x₁为动力学模型，x₂为运动学模型，x₃为主动机器人R_m特征，x₄为从动机器人R_s特征，x₅为抓取物体目标轨迹矩阵

x₆为抓取物体目标物体初始坐标位置，x₇为抓取物体目标物体的最终坐标位置，x₈为通信时延，x₉为偏差数据，x₁₀为抗干扰能力。这些数据特征，理论上数据不统一，差值较大，因而这些数据需要进行归一化处理。

S1-3参数归一化

本发明专利收集数据之后，将其训练集、测试集和验证集三个组成部分，以便更好地训练和更准确地评价，将D₁数据作为训练序列，D₂作为测试序列和D₃作为验证集。其中验证集D₃在服务器端，其用来进行验证全局模型的准确率。一般而言，当输入端的数据接近于“0”平均值时，深度学习算法的学习效率最佳。因此在本发明专利中对待进行非结构化数据进行最大-最小归一化。如下公式(3)所示：

其中x^*为归一化之后的参数，x为待处理参数，x_min为所有参数中的最小值，x_max为所有参数中最大值，现在所有参数预处理完成。

S2：基于图神经网络建立本地模型

基于步骤一数据预处理之后，在步骤二中本发明需要对步骤一输入的数据进行特征提取。因为多机器人协同目标追踪控制研究中，多机器人协同控制系统是一个复杂的非线性系统，不可避免的存在不确定的模型参数、未建模的动态及外部扰动。传统的卷积神经网络(Convolution neural networks，CNN)对于欧式空间的数据特征提取有较好的效果，但是对于非欧式空间的数据就效果不佳。本专利算法的数据为非欧式空间数据，因此利用图卷积(Graph Convolutional Network，GCN)进行特征提取，能够替代CNN并能有较好的效果。步骤二基于图神经网络建立本地模型，将步骤一得到的预处理之后的数据传输到图卷积层，后经过图池化层处理冗余特征，最后至全连接层输出本地模型，图卷积神经网路示意图如附图4所示。

S2-1图卷积层

假设本发明专利拥有k个主从式机器人系统客户端，第i个主从式机器人系统参与方各自拥有的本地无向图结构数据为G_k(V,E,A)(i∈K)，其中图的结构G_i中的节点集合为v_i∈V，节点之间的边集合为e_i,j＝(v_i,v_j)∈E，A是图的邻接矩阵，只含0或1的对称矩阵，A定义节点之间的相互连接关系，v_i节点上的特征为x_i∈X。首先定义图卷积层。使用如公式(4)所示的形式，来聚合邻居节点信息，提取高度概括的有效节点特征。

其中上标l表示层数，

即度矩阵，

W^l是可训练的权重参数。

S2-2图池化层

图卷积层之后，提取得到大量的有效特征，但是由于聚合的是相邻节点特征，而相邻节点之间可能存在相似或者重复特征，导致特征信息冗余，为了能够得到高度概括的节点特征数据，因此需要一个类似于普通卷积神经网络中的池化操作，也就是本专利提出的图池化层，图池化层的自适应地选择经过图卷积操作之后的节点特征来形成新的但是更小的图。首先将所有的节点特征通过一个可训练变量p投影成1维数据，从而在根据生成的1维数据来执行TopK池化操作，选择得分最高的节点，如公式(5)所示。

其中||·||₂表示2范数，y_i表示

经过可训练参数p后输出的一维向量，top_n(·)从给定的输入向量中选择得分最高的n个值的索引i_n，⊙表示向量对应位置点乘法(element-wise multiplication)，为

分配相应的tanh(y_i)权值。

S2-3全连接层

在全连接层之前，本专利采取3组的图卷积和图池化操作得到有效且具有较强总结性的特征，但是特征矩阵不便于用于回归任务，所以设置三个全连接层在网络结构的末端。在将提取到的特征输入到全连接层之前，需要对特征做一些处理即跨层融合和维度改变，分别是因为：①由于图池化操作会减少节点的数量，不可避免的会丢失一些有用信息，因此特征的跨层聚合是很有必要的，不仅可以保存不同处理规模(即不同的图卷积层和图池化层)的特征，而且对于节点数较少的图，可以有效地保留图中的信息，否则这些小型输入图的节点可能会被很快被丢弃；②为了将高维特征数据输入到全连接层中，本专利对特征进行扁平化操作，该操作将最终得到的图节点特征保存为一个固定大小(与全连接层的神经元个数一致)的表示形式中。具体如公式(6)所示。

其中∑为求和符号，N^l表示节点的数量，MAX(·)表示最大池化操作，V_fc是最终输入到全连接层中的特征，传统的CNN在将卷积提取得到的特征输入全连接层之前会进行单一的平均池化或者最大池化操作，与传统CNN不同的是，公式(6)中将两种池化结果拼接在一起即||表示拼接操作。首先将每一层图卷积和图池化操作后的得到的节点特征

分别进行平均池化和最大池化处理，然后将两个结果进行拼接，做完这些步骤后再将各层得到的结果累加起来达到跨层融合的效果。

传统的CNN在将卷积提取得到的特征输入全连接层之前会进行单一的平均池化或者最大池化操作，与传统CNN不同的是，公式(6)中将两种池化结果拼接在一起即||表示拼接操作。首先将每一层图卷积和图池化操作后的得到的节点特征

S2-4激活函数

上述S2-1到S2-3中的神经网络，各个层的输入节点和输出之间都是线性运算，但是本发明专利是将图卷积神经网络利用到一个图结构的回归任务中，此回归任务是非线性的。因此在网络结构中，在不同的位置输入不同的激活函数，在图卷积层、图池化层和前两层全连接层之间采用Tanh(·)激活函数，定义如公式(7)所示：

采用Tanh(·)函数的原因是单调连续，输出范围有限，能够优化网络结构，同时其收敛速度比Sigmoid(·)函数要快，Tanh(·)函数的输出是以0为中心。在全连接层最后输出的时候采用Sigmoid(·)函数，定义如公式(8)所示：

Sigmoid(·)函数的输出映射在(0,1)，输出范围有限，一般用于输出层形成。

S2-5损失函数

损失函数是指导、评价模型训练的重要指标，好的损失函数能够精准量化估计值和实际标签之间偏差。假设联邦学习的第k客户端的数据包含了特征x和标签y即D_k(x,y)，其中对标签采用独热编码(One-Hot Representation)只使用一位有效表示。本专利图神经网络模型记为G，将节点特征X输入模型中得到输出G(X)，本专利采用的交叉熵损失函数(Cross Entropy Loss)，定义如公式(9)所示：

其中n_k表示第k个主从式机器人系统客户端拥有的数据量，l_k表示对应的损失函数。交叉熵损失函数能够更好调整权值，不至于当绝对误差(预测值和真实值之间偏差，即y-y′)过大时，模型收敛速度过慢甚至是不收敛，因而本专利选择交叉损失函数。

S2-6网络优化器

在S2-5中定义了损失函数可以不断的在训练过程中评价当前模型的优劣，即损失函数越小，一般而言模型效果越佳，但是如果没有一个工具来寻求模型参数的最优解，损失函数定义的作用便很小，而优化器(Optimizer)就是这样得存在，依据损失函数的值来调整模型参数，以最小化损失函数值。随机梯度下降算法(Stochastic gradient descent，SGD)是目前神经网络或者其他机器学习算法最为常用的优化器。定义如公式(10)所示：

其中θ表示待优化的参数，

表示更新后的θ参数，l_k(·)表示损失函数，

表示梯度符号，η表示学习率，限制网络学习的速度。SGD算法每轮迭代中仅仅计算一小部分样本的梯度，因此每次学习的速度比较快，但是也正因为SGD仅用小样本代表所有样本来更新θ，容易收敛到局部最优。而Adam是能自适应调整学习率来适应各种参数的优化方法，能够有效防止训练参数被困在局部最优点，随着自适应学习速率的方法成为训练神经网络的规范，研究者就发现，在一些情况下Adam自适应学习速率的方法无法收敛到最佳情况，并且弱于SGD，故本发明专利采用改进的自适应网络优化器AMSGrad，其梯度更新如公式(11)所示：

其中m为梯度的一阶矩估计即梯度的均值，V为梯度的二阶矩估计即梯度的有偏方差，

⊙是一种同位元素相乘的乘法。β₁,β₂∈[0,1)是一组超参数，本专利定义β₁＝0.9，β₂＝0.99.由于梯度的矩估计对计算机GPU内存没有额外的要求，不会增加计算机GPU内存的压力，而AMSGrad经过偏置修正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。至此，本地模型建立完成。

S3：基于自适应权重的异步传输联邦学习算法

本发明专利的目的是实现不同类型主从式机器人协同控制在保护各参与方的机器人数据基础上，实现机器人协同控制的通用模型，并将其迁移至同类型的协同机器人控制系统上。本专利在步骤一中将机器人进行主动式和从动式机器人分类，在步骤二中将各个客户端的机器人进行图神经网络进行训练，来解决机器人相关参数的非线性问题，最终基于图神经网络建立本地模型。基于机器人参与方式不同，自适应加权给予各个客户端赋予不同的权重，对于主动式机器人赋予较大的权重，从动式机器人根据任务赋予不同的权重，一般而言所有从动式机器人赋予的权重不超过主动式机器人的权重。对于机器人而言，不同的品牌机器人类型不同，系统也不相同。本实施案例中，采用两种不同品牌的机器人FANUC和ABB机器人，发现其处理速度也不一致，因而需要解决异步传输的问题。若进行同步更新的话，即每一轮参数更新都同步，等到最慢的平台计算完成后，再同步进行参数更新，这种方法效率较低。采用异步通信的方法可以提升联邦学习或分布式机器学习的计算效率。在异步通信中，不同平台的计算速度有所不同，可以结合各个平台的计算结果进行非同步的参数更新。在服务器端聚合各个本地，联合训练，最后实现聚合联邦模型。

S3-1联邦学习异步传输

如附图2所示，假设在联邦学习系统中存在k个主从式机器人系统客户端，一个参数服务器。每个主从式机器人系统参与方都拥有各自的数据。假设联邦学习使用设备训练一个模型

其中

代表整个数据集，每条数据具有d维。在参与的客户端上，本地模型上传的参数为W，由于每个本地模型训练的速度不一致，对于每个主从式机器人系统客户端采用异步传输更新。异步滑动传输聚合的方法为，本地训练固定轮次后，将各自神经网络参数发送给参数服务器，并等待最新的神经网络参数，当接受到参数后采用滑动平均的方式聚合成新的权重。定义如公式(12)所示：

其中W_k+τ为参数服务器在聚合时的保留权重，W_ki为主从式机器人系统客户端工作节点k上传输到服务器的权重，k_i为第k个主从式机器人系统客户端工作节点权重的更新值，主从式机器人系统客户端工作节点使用系数η得到下一轮服务器最新的权重W_k+τ+1，并将其发送给发来权重的客户端工作节点，客户端工作节点将当前街道的参数服务器发来的权重时，将继续训练上述重复过程。

S3-2自适应随机加权

本专利在针对聚合模型时，分为主机器人和从机器人两种，在聚合是我们并不知道谁是主机器人谁是从机器人，因此本发明专利提出了自适应随机加权。对于多客户端的聚合问题，本专利采用学习样本上不同类型信息对客户端节点簇结构有差异的K-means型算法。此算法将多客户端两种类型的信息映射到同一维度空间上，再通过对其融合，得到具有统一的簇中心，其目标函数为公式(13)所示：：

其中|| ||₂为范数符号，A为划分矩阵；

和

分别表示经过Singal相似度变换和余弦度变换的链接向量与属性向量；D表示融合中心。虽然K-means可以对不同样本的两种类型信息进行重要性的差异学习，但是在模型融合过程中，需要将空间进行维度变换，可能导致某些客户端的信息损失，而且同维度变换会增加算法的复杂性，使得对客户端节点簇结构的差异性缺乏灵敏度，因此本发明专利提出自适应随机加权多客户端聚类算法。

如果有K个主从式机器人系统客户端，所有主从式机器人系统客户端的数据用公式(14)表示为：

其中A代表主从式机器人系统客户段，数字代表主从式机器人系统客户端编号，T为转置。有上述目标函数可以求得多客户端的矩阵分解模型，如公式(15)表示为：

大多数多客户端本地算法都可以取得很好的效果，但由于数据具有误差性，普通的加权聚合不能保证低秩的性质，联邦学习不能直接在数据上做矩阵分解。于是引入约束条件A^(w)＝E^(w)W^T，从而使目标函数达到最优状态，用公式(16)可表为：

由上述公式可知，聚合模型对本地模型误差较大的离群点很难做到多客户端数据的有效融合，只能处理误差小的多客户端数据。但现阶段大多数算法都忽略了离群点对数据模型的影响。针对这种情况，假定多客户端数据矩阵A用公式(17)表示为：

其中，e表示数据的稀疏误差矩阵，H表示数据的低秩数据矩阵。将这种模型应用到多客户端数据中，则加权自适应多客户端数据聚类模型用公式(18)表示为:

由于数据中的小误差对多客户端数据结果有影响，因此对数据条件H^(w)＝E^(w)W^T进行优化处理。把Frobenius范数作为条件进行改进，起到对多客户端模型加权的作用。用公式(19)表示为：

其中，γ表示目标函数系数，在平衡多客户端数据的误差上起着关键性作用。除此之外，还需要结合自由度问题。假设存在某个可逆矩阵Q，满足公式(20)条件：

其中，

表示任何最优解，且有无穷个最优解与其对应。为了改善多客户端的聚类效果，需要降低目标函数的自由度，因此，在模型中引入约束条件WW^T＝I，优化后的模型用公式(21)表示为：

S3-3聚合模型的评价指标

在自适应加权的基础上，加入一个评价指标，由于本发明专利是一个回归任务，本专利给以均方误差损失函数(Mean Squared Error，MSE)的评价标准，即在自适应加权的基础上，将联合训练的模型分发到各个参与的主从式机器人系统客户端，根据偏差来评估联合训练的模型好坏。均方误差损失函数用公式(22)表示为：

根据上述的y_i和y′_i定义可知，y_i为本地端模型，y′_i为联合泛化训练后的模型。给定一个标准值，只有在满足标准值之后，本算法的联合训练模型才完成。

S3-4联邦模型建立完成

上述步骤完成后，达到设定的评价标准，将基于自适应加权的图卷积联邦学习网络的联合训练模型聚合到服务器端聚合，聚合完成后再返回给各个本地客户端，操作流程如附图2。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于联邦学习的机器人协同控制算法，其特征在于，包括如下步骤：

S1、机器人数据的预处理，具体流程如下：

2.根据权利要求1所述的一种基于联邦学习的机器人协同控制算法，其特征在于，所述S1-1中

其中

和

分别为主动机器人R_m和从动机器人R_s的正运动学转换矩阵，

为主从机器人基座坐标系的相对位姿矩阵；

其中

为主动机器人R_m在其基座坐标系O_Bm下的目标轨迹矩阵，

3.根据权利要求1所述的一种基于联邦学习的机器人协同控制算法，其特征在于，所述S1-2中历史行为数据包含以下10个特征，将其映射为向量的形式：X＝{x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉,x₁₀}，其中x₁为动力学模型，x₂为运动学模型，x₃为主动机器人R_m特征，x₄为从动机器人R_s特征，x₅为抓取物体目标轨迹矩阵