CN113267993A

CN113267993A - 一种基于协同学习的网络训练方法及装置

Info

Publication number: CN113267993A
Application number: CN202110433003.4A
Authority: CN
Inventors: 施群; 蒋坤
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-08-17

Abstract

本发明提供了一种基于协同学习的网络训练方法及装置，方法包括：a.基于经典控制器，生成至少一个状态参数对应的第一输出参数，并作为第一专家数据；b.建立神经网络模型，并利用所述第一专家数据优化所述神经网络模型中的神经单元，从而使得所述神经网络模型符合第一预期；c.基于目标阶跃响应参数，优化所述至少一个状态参数对应的第二输出参数，并作为第二专家数据；d.利用所述第二专家数据优化所述神经网络模型中的神经单元，从而使得所述神经网络模型符合第二预期；确定对所述神经网络模型的优化是否满足结束条件，响应于未满足所述结束条件，则再次实施步骤c和步骤d。装置包括四个模块以及判断模块。

Description

一种基于协同学习的网络训练方法及装置

技术领域

本发明涉及智能控制领域，具体涉及一种基于协同学习的网络训练方法及装置。

背景技术

近年来，随着人工智能的再次兴起，智能控制在工业领域中有了进一步的发展，人工智能方法对智能控制起到了积极的推进作用。目前智能控制应用较多的有专家系统、模糊逻辑、自适应控制、神经网络和进化算法等理论。

神经网络结构可以是神经网络(Neural Network，简称NN)、卷积神经网络(Convolutional Neural Networks，简称CNN)、循环神经网络(Recurrent NeuralNetwork，简称RNN)、长短期记忆网络(Long Short-Term Memory，简称LSTM)等，但是使用神经网络作为智能控制器的模型仍存在一定的局限性。首先，将神经网络等机器学习技术用于智能控制器的设计具有一定的难度和复杂度，主要存在维数灾、信息误差大和可靠样本少的问题。其次，传统机器学习训练智能控制器的方法一般都是单独使用的，所以不同的使用场景需要选择合适的方法，而且在该方法下训练的智能控制器到达瓶颈后难以突破。

模仿学习是从专家提供的范例中学习，智能体使用专家提供的行为轨迹进行训练，然后当智能体再次遇到已经保存在专家轨迹中的状态时，会模仿专家采取的行为产生相应的动作。它是一种有监督的学习方式。

使用神经网络模型的智能控制器不应该局限于单一的训练模式。需要提供一种更优的训练方法来提高智能体的神经网络性能。

发明内容

现有神经网络模型的智能控制器局限于单一的训练模式。针对现有技术存在的缺陷，本发明的目的是提供一种基于协同学习的网络训练方法及装置。本发明可以在网络模型收敛的情况下提高训练方法的标准，然后再次对已收敛网络进行训练，以获得更优的控制性能。

为达到上述目的，本发明采用如下技术方案：

一种基于协同学习的网络训练方法，包括以下步骤：

a.基于经典控制器，生成至少一个状态参数s_t对应的第一输出参数a_t，并作为第一专家数据；

b.建立神经网络模型，并利用所述第一专家数据优化所述神经网络模型中的神经单元，从而使得所述神经网络模型符合第一预期；

c.基于目标阶跃响应参数，优化所述至少一个状态参数s_t对应的第二输出参数a_t'，并作为第二专家数据；以及

d.利用所述第二专家数据优化所述神经网络模型中的神经单元，从而使得所述神经网络模型符合第二预期；确定对所述神经网络模型的优化是否满足结束条件，响应于未满足所述结束条件，则再次实施步骤c和步骤d。

所述目标阶跃响应参数至少包括累计绝对偏差值ξ。

所述第一预期为：使用所述神经网络模型获得的被控对象的实际阶跃响应曲线与使用所述经典控制器获得的被控对象的实际阶跃响应曲线之间的重合度符合第一阈值。

所述第二预期为：使用所述神经网络模型获得的被控对象的实际阶跃响应曲线与使用所述经典控制器获得的被控对象的实际阶跃响应曲线之间的重合度符合第二阈值。

所述结束条件为：使用所述神经网络模型获得的被控对象的实际阶跃响应曲线的阶跃响应参数r＝{t_r',t_p',t_s',σ',ξ'}满足所述目标阶跃响应参数

所述经典控制器为比例积分控制器或者比例微分控制器。

所述状态参数s_t至少包括：位置参数q_t、速度参数v_t以及位置误差参数

所述神经网络具有至少两层隐藏层，每层隐藏层中具有多个所述神经单元。

所述目标阶跃响应参数还包括：上升时间t_r、峰值时间t_p、调节时间t_s和超调量σ。

本发明还提供了一种基于协同学习的网络训练装置，包括：

第一模块，其被配置为基于经典控制器，生成至少一个状态参数s_t对应的第一输出参数a_t，并作为第一专家数据；

第二模块，其被配置为建立神经网络模型，并利用所述第一专家数据优化所述神经网络模型中的神经单元，从而使得所述神经网络模型符合第一预期；

第三模块，其被配置为基于目标阶跃响应参数，优化所述至少一个状态参数s_t对应的第二输出参数a_t'，并作为第二专家数据；

第四模块，其被配置为利用所述第二专家数据优化所述神经网络模型中的神经单元，从而使得所述神经网络模型符合第二预期；以及

判断模块，其被配置为判断对所述神经网络模型的优化是否满足结束条件。

所述目标阶跃响应参数至少包括累计绝对偏差值ξ。

所述经典控制器为比例积分控制器或者比例微分控制器

本发明与现有技术相比较，具有如下显而易见的优点：

1、本发明采用的协同学习方法不仅能够优化被训练对象的网络模型，而且还能够提升学习目标对象的新标准，进行再次优化被训练对象的网络模型。

2、本发明采用的协同学习框架解决了单一机器学习方法的不足，能够使不同机器学习方法之间的联系更加紧密。

3、本发明采用的协同学习框架具有三个阶段，逻辑关系明确，结构简单，降低了基于神经网络的智能控制器设计的难度和复杂度。

4、本发明采用协同学习框架训练智能控制器网络模型时，收敛快，效率高。

附图说明

图1是本发明公开的智能控制器的示意图；

图2是本发明公开的一种基于协同学习的网络训练方法示意图；

图3是本发明公开的一种基于协同学习的网络训练装置示意图；

图4是本发明公开的一种神经网络结构示意图；

图5是本发明公开的协同学习框架三个阶段的示意图；

图6是本发明公开的基于协同学习的智能控制器与比例-微分控制器的阶跃响应曲线图；

图7是本发明公开的二阶系统的阶跃响应曲线的性能指标定义；

图8是本发明公开的协同学习训练完成后的阶跃响应曲线图；以及

图9是本发明公开的实施例使用的协同学习算法伪代码。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的智能控制器用于对柔性关节的控制，例如机器人手臂等。该智能控制器结构如图1所示，其中NN网络模型是需要被训练的对象。基于协同学习的智能控制器的网络训练方法如图2所示，以下结合图3中的模块示意图和图5的三阶段示意图，对训练方法及装置进行具体说明。

基于协同学习的网络训练方法包括以下步骤：

在步骤201中，第一模块被配置为基于经典控制器，生成至少一个状态参数s_t对应的第一输出参数a_t，并作为第一专家数据，该经典控制器可以例如是比例-微分控制器(简称PD控制器)、比例-积分控制器等。

在一个具体实施例中，使用经典的PD控制器作为初级的学习对象，在状态输入为s_t情况下，获得PD控制器的输出结果为a_t，并获得第一专家数据，即PD控制器的输入-输出数据集{s₁,a₁,s₂,a₂,…}。

在步骤202中，第二模块被配置为建立神经网络模型，并利用所述第一专家数据优化所述神经网络模型中的神经单元，从而使得所述神经网络模型符合第一预期。

在一个具体实施例中，神经网络模型结构如图4所示：输入层为网络的状态输入(s_t，s_t∈S)，定义其大小为3；中间层为两层隐藏层，大小分别为32和64个神经单元，并且每个神经单元使用了整流线性单元(ReLU)激活函数；输出层为网络的动作输出(a_t)，使用了双曲正切(tanh)激活函数，

q_t，v_t和

分别表示t时刻关节的实际位置，速度和位置误差，图4中的In1、In2和In3与q_t，v_t和

一一对应；a_t表示t时刻控制器的输出结果。

在建立神经网络模型之后，第二模块使用模仿学习中的监督学习的方法(反向传播技术)来优化智能控制器的网络参数。当达到收敛条件时，训练结束，此时的智能控制器已经几乎达到了PD控制器的水平。然后将智能控制器用于如图1所示的控制环路中，NN网络模型输出的动作a主要是用于补偿关节的柔性特性，以弥补被控对象的柔性非线性因素。如图6所示，将基于协同学习(Collaborative Learning)的智能控制器(简称COL智能控制器)和PD控制器进行了对比，使用两种不同的控制器得到的被控对象的实际阶跃响应曲线几乎重合，这表明了智能控制器第一阶段已经被训练完成，即NN网络已经成功模仿了PD控制器。

在步骤203中，第三模块被配置为基于目标阶跃响应参数，优化所述至少一个状态参数s_t对应的第二输出参数a_t'，并作为第二专家数据。

协同学习的第二阶段是建立更高级的学习对象的标准。在一个具体实施例中，使用了二阶系统的最佳阶跃响应曲线中的几个重要性能指标作为新的学习标准，分别为上升时间t_r、峰值时间t_p、调节时间t_s和超调量σ，参数的具体定义可见图7所示。此外，本发明还新增了一个指标，累计绝对偏差值ξ，作为学习标准，即期望输入与实际输出结果之间的偏差的绝对值之和。使用上述的5个性能指标值

和阶跃响应曲线

作为新的标准，并生成第二专家数据。

在步骤204中，第四模块被配置为利用所述第二专家数据优化所述神经网络模型中的神经单元，从而使得所述神经网络模型符合第二预期。协同学习的第三阶段使用循环迭代学习的方法来继续训练智能控制器的神经网络模型。

在一个具体实施例中，第四模块基于第二专家数据来优化神经网络的神经单元，并把优化完的网络的输出结果以迭代的方式输入至迭代函数中，重新调整其模仿对象，即第二专家数据。

在一个具体实施例中，迭代函数为

其中参考值

为阶跃响应曲线

中t时刻的值，y_j(t)表示第j次迭代t时刻的实际关节运动位置，a_j(t)表示t时刻智能控制器的输出结果，a_j+1(t)表示迭代优化后的智能控制器输出结果，α∈(0,1)表示迭代学习率。使用该迭代优化的结果a_j+1(k)和神经网络反向传播技术继续优化网络的参数。在时间方向上，每次迭代生成一条运动轨迹序列；在迭代方向上，不断优化策略网络的权重参数。

在步骤205中，判断模块被配置为判断对所述神经网络模型的优化是否满足结束条件。

经过多次迭代学习，当运动轨迹的性能指标集合满足约束条件

或者迭代次数达到设定的最大值时，训练停止，并获得比PD控制器更好的控制策略；否则就继续通过迭代来调整训练标准，从而优化神经网络。图8示出了采用本发明所公开的方法的智能控制器的阶跃响应曲线，该曲线明显优于图6中的曲线。图9为本发明公开的实施例使用的协同学习算法伪代码。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上，对本发明的实施方式进行了说明。但是，本发明不限定于上述实施方式。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于协同学习的网络训练方法，其特征在于，包括以下步骤：

a.基于经典控制器，生成至少一个状态参数对应的第一输出参数，并作为第一专家数据；

c.基于目标阶跃响应参数，优化所述至少一个状态参数对应的第二输出参数，并作为第二专家数据；以及

2.根据权利要求1所述的网络训练方法，其特征在于，所述目标阶跃响应参数至少包括累计绝对偏差值。

3.根据权利要求1所述的网络训练方法，其特征在于，所述第一预期为：使用所述神经网络模型获得的被控对象的实际阶跃响应曲线与使用所述经典控制器获得的被控对象的实际阶跃响应曲线之间的重合度符合第一阈值。

4.根据权利要求1所述的网络训练方法，其特征在于，所述第二预期为：使用所述神经网络模型获得的被控对象的实际阶跃响应曲线与使用所述经典控制器获得的被控对象的实际阶跃响应曲线之间的重合度符合第二阈值。

5.根据权利要求1所述的网络训练方法，其特征在于，所述结束条件为：使用所述神经网络模型获得的被控对象的实际阶跃响应曲线的阶跃响应参数满足所述目标阶跃响应参数。

6.根据权利要求1所述的网络训练方法，其特征在于，所述经典控制器为比例积分控制器或者比例微分控制器。

7.根据权利要求1所述的网络训练方法，其特征在于，所述状态参数至少包括：位置参数、速度参数以及位置误差参数。

8.根据权利要求1所述的网络训练方法，其特征在于，所述神经网络具有至少两层隐藏层，每层隐藏层中具有多个所述神经单元。

9.根据权利要求1所述的网络训练方法，其特征在于，所述目标阶跃响应参数还包括：上升时间、峰值时间、调节时间和超调量。

10.一种基于协同学习的网络训练装置，其特征在于，包括：

第一模块，其被配置为基于经典控制器，生成至少一个状态参数对应的第一输出参数，并作为第一专家数据；

第三模块，其被配置为基于目标阶跃响应参数，优化所述至少一个状态参数对应的第二输出参数，并作为第二专家数据；

11.根据权利要求10所述的网络训练装置，其特征在于，所述目标阶跃响应参数至少包括累计绝对偏差值。

12.根据权利要求10所述的网络训练装置，其特征在于，所述第一预期为：使用所述神经网络模型获得的被控对象的实际阶跃响应曲线与使用所述经典控制器获得的被控对象的实际阶跃响应曲线之间的重合度符合第一阈值。

13.根据权利要求10所述的网络训练装置，其特征在于，所述第二预期为：使用所述神经网络模型获得的被控对象的实际阶跃响应曲线与使用所述经典控制器获得的被控对象的实际阶跃响应曲线之间的重合度符合第二阈值。

14.根据权利要求10所述的网络训练装置，其特征在于，所述结束条件为：使用所述神经网络模型获得的被控对象的实际阶跃响应曲线的阶跃响应参数满足所述目标阶跃响应参数。

15.根据权利要求10所述的网络训练装置，其特征在于，所述经典控制器为比例积分控制器或者比例微分控制器。

16.根据权利要求10所述的网络训练装置，其特征在于，所述状态参数至少包括：位置参数、速度参数以及位置误差参数。

17.根据权利要求10所述的网络训练装置，其特征在于，所述神经网络具有至少两层隐藏层，每层隐藏层中具有多个所述神经单元。

18.根据权利要求10所述的网络训练装置，其特征在于，所述目标阶跃响应参数还包括：上升时间、峰值时间、调节时间和超调量。