CN113267993A - 一种基于协同学习的网络训练方法及装置 - Google Patents

一种基于协同学习的网络训练方法及装置 Download PDF

Info

Publication number
CN113267993A
CN113267993A CN202110433003.4A CN202110433003A CN113267993A CN 113267993 A CN113267993 A CN 113267993A CN 202110433003 A CN202110433003 A CN 202110433003A CN 113267993 A CN113267993 A CN 113267993A
Authority
CN
China
Prior art keywords
neural network
network model
step response
parameter
neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110433003.4A
Other languages
English (en)
Inventor
施群
蒋坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110433003.4A priority Critical patent/CN113267993A/zh
Publication of CN113267993A publication Critical patent/CN113267993A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B11/00Automatic controllers
    • G05B11/01Automatic controllers electric
    • G05B11/36Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential
    • G05B11/42Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential for obtaining a characteristic which is both proportional and time-dependent, e.g. P. I., P. I. D.

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了一种基于协同学习的网络训练方法及装置,方法包括:a.基于经典控制器,生成至少一个状态参数对应的第一输出参数,并作为第一专家数据;b.建立神经网络模型,并利用所述第一专家数据优化所述神经网络模型中的神经单元,从而使得所述神经网络模型符合第一预期;c.基于目标阶跃响应参数,优化所述至少一个状态参数对应的第二输出参数,并作为第二专家数据;d.利用所述第二专家数据优化所述神经网络模型中的神经单元,从而使得所述神经网络模型符合第二预期;确定对所述神经网络模型的优化是否满足结束条件,响应于未满足所述结束条件,则再次实施步骤c和步骤d。装置包括四个模块以及判断模块。

Description

一种基于协同学习的网络训练方法及装置
技术领域
本发明涉及智能控制领域,具体涉及一种基于协同学习的网络训练方法及装置。
背景技术
近年来,随着人工智能的再次兴起,智能控制在工业领域中有了进一步的发展,人工智能方法对智能控制起到了积极的推进作用。目前智能控制应用较多的有专家系统、模糊逻辑、自适应控制、神经网络和进化算法等理论。
神经网络结构可以是神经网络(Neural Network,简称NN)、卷积神经网络(Convolutional Neural Networks,简称CNN)、循环神经网络(Recurrent NeuralNetwork,简称RNN)、长短期记忆网络(Long Short-Term Memory,简称LSTM)等,但是使用神经网络作为智能控制器的模型仍存在一定的局限性。首先,将神经网络等机器学习技术用于智能控制器的设计具有一定的难度和复杂度,主要存在维数灾、信息误差大和可靠样本少的问题。其次,传统机器学习训练智能控制器的方法一般都是单独使用的,所以不同的使用场景需要选择合适的方法,而且在该方法下训练的智能控制器到达瓶颈后难以突破。
模仿学习是从专家提供的范例中学习,智能体使用专家提供的行为轨迹进行训练,然后当智能体再次遇到已经保存在专家轨迹中的状态时,会模仿专家采取的行为产生相应的动作。它是一种有监督的学习方式。
使用神经网络模型的智能控制器不应该局限于单一的训练模式。需要提供一种更优的训练方法来提高智能体的神经网络性能。
发明内容
现有神经网络模型的智能控制器局限于单一的训练模式。针对现有技术存在的缺陷,本发明的目的是提供一种基于协同学习的网络训练方法及装置。本发明可以在网络模型收敛的情况下提高训练方法的标准,然后再次对已收敛网络进行训练,以获得更优的控制性能。
为达到上述目的,本发明采用如下技术方案:
一种基于协同学习的网络训练方法,包括以下步骤:
a.基于经典控制器,生成至少一个状态参数st对应的第一输出参数at,并作为第一专家数据;
b.建立神经网络模型,并利用所述第一专家数据优化所述神经网络模型中的神经单元,从而使得所述神经网络模型符合第一预期;
c.基于目标阶跃响应参数,优化所述至少一个状态参数st对应的第二输出参数at',并作为第二专家数据;以及
d.利用所述第二专家数据优化所述神经网络模型中的神经单元,从而使得所述神经网络模型符合第二预期;确定对所述神经网络模型的优化是否满足结束条件,响应于未满足所述结束条件,则再次实施步骤c和步骤d。
所述目标阶跃响应参数至少包括累计绝对偏差值ξ。
所述第一预期为:使用所述神经网络模型获得的被控对象的实际阶跃响应曲线与使用所述经典控制器获得的被控对象的实际阶跃响应曲线之间的重合度符合第一阈值。
所述第二预期为:使用所述神经网络模型获得的被控对象的实际阶跃响应曲线与使用所述经典控制器获得的被控对象的实际阶跃响应曲线之间的重合度符合第二阈值。
所述结束条件为:使用所述神经网络模型获得的被控对象的实际阶跃响应曲线的阶跃响应参数r={tr',tp',ts',σ',ξ'}满足所述目标阶跃响应参数
Figure BDA0003032100970000021
所述经典控制器为比例积分控制器或者比例微分控制器。
所述状态参数st至少包括:位置参数qt、速度参数vt以及位置误差参数
Figure BDA0003032100970000022
所述神经网络具有至少两层隐藏层,每层隐藏层中具有多个所述神经单元。
所述目标阶跃响应参数还包括:上升时间tr、峰值时间tp、调节时间ts和超调量σ。
本发明还提供了一种基于协同学习的网络训练装置,包括:
第一模块,其被配置为基于经典控制器,生成至少一个状态参数st对应的第一输出参数at,并作为第一专家数据;
第二模块,其被配置为建立神经网络模型,并利用所述第一专家数据优化所述神经网络模型中的神经单元,从而使得所述神经网络模型符合第一预期;
第三模块,其被配置为基于目标阶跃响应参数,优化所述至少一个状态参数st对应的第二输出参数at',并作为第二专家数据;
第四模块,其被配置为利用所述第二专家数据优化所述神经网络模型中的神经单元,从而使得所述神经网络模型符合第二预期;以及
判断模块,其被配置为判断对所述神经网络模型的优化是否满足结束条件。
所述目标阶跃响应参数至少包括累计绝对偏差值ξ。
所述第一预期为:使用所述神经网络模型获得的被控对象的实际阶跃响应曲线与使用所述经典控制器获得的被控对象的实际阶跃响应曲线之间的重合度符合第一阈值。
所述第二预期为:使用所述神经网络模型获得的被控对象的实际阶跃响应曲线与使用所述经典控制器获得的被控对象的实际阶跃响应曲线之间的重合度符合第二阈值。
所述结束条件为:使用所述神经网络模型获得的被控对象的实际阶跃响应曲线的阶跃响应参数r={tr',tp',ts',σ',ξ'}满足所述目标阶跃响应参数
Figure BDA0003032100970000031
所述经典控制器为比例积分控制器或者比例微分控制器
所述状态参数st至少包括:位置参数qt、速度参数vt以及位置误差参数
Figure BDA0003032100970000032
所述神经网络具有至少两层隐藏层,每层隐藏层中具有多个所述神经单元。
所述目标阶跃响应参数还包括:上升时间tr、峰值时间tp、调节时间ts和超调量σ。
本发明与现有技术相比较,具有如下显而易见的优点:
1、本发明采用的协同学习方法不仅能够优化被训练对象的网络模型,而且还能够提升学习目标对象的新标准,进行再次优化被训练对象的网络模型。
2、本发明采用的协同学习框架解决了单一机器学习方法的不足,能够使不同机器学习方法之间的联系更加紧密。
3、本发明采用的协同学习框架具有三个阶段,逻辑关系明确,结构简单,降低了基于神经网络的智能控制器设计的难度和复杂度。
4、本发明采用协同学习框架训练智能控制器网络模型时,收敛快,效率高。
附图说明
图1是本发明公开的智能控制器的示意图;
图2是本发明公开的一种基于协同学习的网络训练方法示意图;
图3是本发明公开的一种基于协同学习的网络训练装置示意图;
图4是本发明公开的一种神经网络结构示意图;
图5是本发明公开的协同学习框架三个阶段的示意图;
图6是本发明公开的基于协同学习的智能控制器与比例-微分控制器的阶跃响应曲线图;
图7是本发明公开的二阶系统的阶跃响应曲线的性能指标定义;
图8是本发明公开的协同学习训练完成后的阶跃响应曲线图;以及
图9是本发明公开的实施例使用的协同学习算法伪代码。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的智能控制器用于对柔性关节的控制,例如机器人手臂等。该智能控制器结构如图1所示,其中NN网络模型是需要被训练的对象。基于协同学习的智能控制器的网络训练方法如图2所示,以下结合图3中的模块示意图和图5的三阶段示意图,对训练方法及装置进行具体说明。
基于协同学习的网络训练方法包括以下步骤:
在步骤201中,第一模块被配置为基于经典控制器,生成至少一个状态参数st对应的第一输出参数at,并作为第一专家数据,该经典控制器可以例如是比例-微分控制器(简称PD控制器)、比例-积分控制器等。
在一个具体实施例中,使用经典的PD控制器作为初级的学习对象,在状态输入为st情况下,获得PD控制器的输出结果为at,并获得第一专家数据,即PD控制器的输入-输出数据集{s1,a1,s2,a2,…}。
在步骤202中,第二模块被配置为建立神经网络模型,并利用所述第一专家数据优化所述神经网络模型中的神经单元,从而使得所述神经网络模型符合第一预期。
在一个具体实施例中,神经网络模型结构如图4所示:输入层为网络的状态输入(st,st∈S),定义其大小为3;中间层为两层隐藏层,大小分别为32和64个神经单元,并且每个神经单元使用了整流线性单元(ReLU)激活函数;输出层为网络的动作输出(at),使用了双曲正切(tanh)激活函数,
Figure BDA0003032100970000041
qt,vt
Figure BDA0003032100970000042
分别表示t时刻关节的实际位置,速度和位置误差,图4中的In1、In2和In3与qt,vt
Figure BDA0003032100970000043
一一对应;at表示t时刻控制器的输出结果。
在建立神经网络模型之后,第二模块使用模仿学习中的监督学习的方法(反向传播技术)来优化智能控制器的网络参数。当达到收敛条件时,训练结束,此时的智能控制器已经几乎达到了PD控制器的水平。然后将智能控制器用于如图1所示的控制环路中,NN网络模型输出的动作a主要是用于补偿关节的柔性特性,以弥补被控对象的柔性非线性因素。如图6所示,将基于协同学习(Collaborative Learning)的智能控制器(简称COL智能控制器)和PD控制器进行了对比,使用两种不同的控制器得到的被控对象的实际阶跃响应曲线几乎重合,这表明了智能控制器第一阶段已经被训练完成,即NN网络已经成功模仿了PD控制器。
在步骤203中,第三模块被配置为基于目标阶跃响应参数,优化所述至少一个状态参数st对应的第二输出参数at',并作为第二专家数据。
协同学习的第二阶段是建立更高级的学习对象的标准。在一个具体实施例中,使用了二阶系统的最佳阶跃响应曲线中的几个重要性能指标作为新的学习标准,分别为上升时间tr、峰值时间tp、调节时间ts和超调量σ,参数的具体定义可见图7所示。此外,本发明还新增了一个指标,累计绝对偏差值ξ,作为学习标准,即期望输入与实际输出结果之间的偏差的绝对值之和。使用上述的5个性能指标值
Figure BDA0003032100970000051
和阶跃响应曲线
Figure BDA0003032100970000052
作为新的标准,并生成第二专家数据。
在步骤204中,第四模块被配置为利用所述第二专家数据优化所述神经网络模型中的神经单元,从而使得所述神经网络模型符合第二预期。协同学习的第三阶段使用循环迭代学习的方法来继续训练智能控制器的神经网络模型。
在一个具体实施例中,第四模块基于第二专家数据来优化神经网络的神经单元,并把优化完的网络的输出结果以迭代的方式输入至迭代函数中,重新调整其模仿对象,即第二专家数据。
在一个具体实施例中,迭代函数为
Figure BDA0003032100970000053
其中参考值
Figure BDA0003032100970000054
为阶跃响应曲线
Figure BDA0003032100970000055
中t时刻的值,yj(t)表示第j次迭代t时刻的实际关节运动位置,aj(t)表示t时刻智能控制器的输出结果,aj+1(t)表示迭代优化后的智能控制器输出结果,α∈(0,1)表示迭代学习率。使用该迭代优化的结果aj+1(k)和神经网络反向传播技术继续优化网络的参数。在时间方向上,每次迭代生成一条运动轨迹序列;在迭代方向上,不断优化策略网络的权重参数。
在步骤205中,判断模块被配置为判断对所述神经网络模型的优化是否满足结束条件。
经过多次迭代学习,当运动轨迹的性能指标集合满足约束条件
Figure BDA0003032100970000056
或者迭代次数达到设定的最大值时,训练停止,并获得比PD控制器更好的控制策略;否则就继续通过迭代来调整训练标准,从而优化神经网络。图8示出了采用本发明所公开的方法的智能控制器的阶跃响应曲线,该曲线明显优于图6中的曲线。图9为本发明公开的实施例使用的协同学习算法伪代码。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上,对本发明的实施方式进行了说明。但是,本发明不限定于上述实施方式。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种基于协同学习的网络训练方法,其特征在于,包括以下步骤:
a.基于经典控制器,生成至少一个状态参数对应的第一输出参数,并作为第一专家数据;
b.建立神经网络模型,并利用所述第一专家数据优化所述神经网络模型中的神经单元,从而使得所述神经网络模型符合第一预期;
c.基于目标阶跃响应参数,优化所述至少一个状态参数对应的第二输出参数,并作为第二专家数据;以及
d.利用所述第二专家数据优化所述神经网络模型中的神经单元,从而使得所述神经网络模型符合第二预期;确定对所述神经网络模型的优化是否满足结束条件,响应于未满足所述结束条件,则再次实施步骤c和步骤d。
2.根据权利要求1所述的网络训练方法,其特征在于,所述目标阶跃响应参数至少包括累计绝对偏差值。
3.根据权利要求1所述的网络训练方法,其特征在于,所述第一预期为:使用所述神经网络模型获得的被控对象的实际阶跃响应曲线与使用所述经典控制器获得的被控对象的实际阶跃响应曲线之间的重合度符合第一阈值。
4.根据权利要求1所述的网络训练方法,其特征在于,所述第二预期为:使用所述神经网络模型获得的被控对象的实际阶跃响应曲线与使用所述经典控制器获得的被控对象的实际阶跃响应曲线之间的重合度符合第二阈值。
5.根据权利要求1所述的网络训练方法,其特征在于,所述结束条件为:使用所述神经网络模型获得的被控对象的实际阶跃响应曲线的阶跃响应参数满足所述目标阶跃响应参数。
6.根据权利要求1所述的网络训练方法,其特征在于,所述经典控制器为比例积分控制器或者比例微分控制器。
7.根据权利要求1所述的网络训练方法,其特征在于,所述状态参数至少包括:位置参数、速度参数以及位置误差参数。
8.根据权利要求1所述的网络训练方法,其特征在于,所述神经网络具有至少两层隐藏层,每层隐藏层中具有多个所述神经单元。
9.根据权利要求1所述的网络训练方法,其特征在于,所述目标阶跃响应参数还包括:上升时间、峰值时间、调节时间和超调量。
10.一种基于协同学习的网络训练装置,其特征在于,包括:
第一模块,其被配置为基于经典控制器,生成至少一个状态参数对应的第一输出参数,并作为第一专家数据;
第二模块,其被配置为建立神经网络模型,并利用所述第一专家数据优化所述神经网络模型中的神经单元,从而使得所述神经网络模型符合第一预期;
第三模块,其被配置为基于目标阶跃响应参数,优化所述至少一个状态参数对应的第二输出参数,并作为第二专家数据;
第四模块,其被配置为利用所述第二专家数据优化所述神经网络模型中的神经单元,从而使得所述神经网络模型符合第二预期;以及
判断模块,其被配置为判断对所述神经网络模型的优化是否满足结束条件。
11.根据权利要求10所述的网络训练装置,其特征在于,所述目标阶跃响应参数至少包括累计绝对偏差值。
12.根据权利要求10所述的网络训练装置,其特征在于,所述第一预期为:使用所述神经网络模型获得的被控对象的实际阶跃响应曲线与使用所述经典控制器获得的被控对象的实际阶跃响应曲线之间的重合度符合第一阈值。
13.根据权利要求10所述的网络训练装置,其特征在于,所述第二预期为:使用所述神经网络模型获得的被控对象的实际阶跃响应曲线与使用所述经典控制器获得的被控对象的实际阶跃响应曲线之间的重合度符合第二阈值。
14.根据权利要求10所述的网络训练装置,其特征在于,所述结束条件为:使用所述神经网络模型获得的被控对象的实际阶跃响应曲线的阶跃响应参数满足所述目标阶跃响应参数。
15.根据权利要求10所述的网络训练装置,其特征在于,所述经典控制器为比例积分控制器或者比例微分控制器。
16.根据权利要求10所述的网络训练装置,其特征在于,所述状态参数至少包括:位置参数、速度参数以及位置误差参数。
17.根据权利要求10所述的网络训练装置,其特征在于,所述神经网络具有至少两层隐藏层,每层隐藏层中具有多个所述神经单元。
18.根据权利要求10所述的网络训练装置,其特征在于,所述目标阶跃响应参数还包括:上升时间、峰值时间、调节时间和超调量。
CN202110433003.4A 2021-04-22 2021-04-22 一种基于协同学习的网络训练方法及装置 Pending CN113267993A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110433003.4A CN113267993A (zh) 2021-04-22 2021-04-22 一种基于协同学习的网络训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110433003.4A CN113267993A (zh) 2021-04-22 2021-04-22 一种基于协同学习的网络训练方法及装置

Publications (1)

Publication Number Publication Date
CN113267993A true CN113267993A (zh) 2021-08-17

Family

ID=77229233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110433003.4A Pending CN113267993A (zh) 2021-04-22 2021-04-22 一种基于协同学习的网络训练方法及装置

Country Status (1)

Country Link
CN (1) CN113267993A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1598719A (zh) * 2004-09-27 2005-03-23 北京交通大学 一种神经网络优化控制器及控制方法
CN106650933A (zh) * 2017-01-12 2017-05-10 西安电子科技大学 基于协同进化和反向传播的深度神经网络优化方法
CN110202768A (zh) * 2019-05-17 2019-09-06 广东工业大学 一种注塑机料筒温度控制方法
CN111783250A (zh) * 2020-07-03 2020-10-16 上海航天控制技术研究所 柔性机器人末端抵达控制方法、电子设备和存储介质
AU2020102885A4 (en) * 2020-10-20 2020-12-17 Xijing University Disease recognition method of winter jujube based on deep convolutional neural network and disease image
CN112542161A (zh) * 2020-12-10 2021-03-23 长春工程学院 一种双层pid优化的bp神经网络语音识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1598719A (zh) * 2004-09-27 2005-03-23 北京交通大学 一种神经网络优化控制器及控制方法
CN106650933A (zh) * 2017-01-12 2017-05-10 西安电子科技大学 基于协同进化和反向传播的深度神经网络优化方法
CN110202768A (zh) * 2019-05-17 2019-09-06 广东工业大学 一种注塑机料筒温度控制方法
CN111783250A (zh) * 2020-07-03 2020-10-16 上海航天控制技术研究所 柔性机器人末端抵达控制方法、电子设备和存储介质
AU2020102885A4 (en) * 2020-10-20 2020-12-17 Xijing University Disease recognition method of winter jujube based on deep convolutional neural network and disease image
CN112542161A (zh) * 2020-12-10 2021-03-23 长春工程学院 一种双层pid优化的bp神经网络语音识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QUN SHI: "Intelligent control of flexible joint based on", 《JOURNAL OF PHYSICS: CONFERENCE SERIES》 *
陈文: "基于多分类器协同学习的卷积神经网络训练算法", 《计算机科学》 *
高峻晓: "轮式机器人模糊神经网络建模与模糊遗传PID转向控制的研究", 《计算机测量与控制》 *

Similar Documents

Publication Publication Date Title
Soriano et al. PD control compensation based on a cascade neural network applied to a robot manipulator
Jin et al. Adaptive fault-tolerant consensus for a class of leader-following systems using neural network learning strategy
Li et al. Genetic algorithm automated approach to the design of sliding mode control systems
Xu et al. Evolutionary extreme learning machine–based on particle swarm optimization
CN108008627B (zh) 一种并行优化的强化学习自适应pid控制方法
US20230266721A1 (en) Method for configuring a control agent for a technical system, and control device
CN113093526B (zh) 一种基于强化学习的无超调pid控制器参数整定方法
CN105469142A (zh) 一种基于样本增量驱动的神经网络增量型前馈算法
CN115431263A (zh) 一种复杂执行器故障下多冗余机械臂系统协同控制方法
Puriel-Gil et al. Reinforcement learning compensation based PD control for inverted pendulum
Rego et al. Learning‐based robust neuro‐control: A method to compute control Lyapunov functions
CN115202357A (zh) 一种基于脉冲神经网络的自主建图方法
JP2009289199A (ja) 制御器、制御方法および制御プログラム
Lee et al. Incremental receptive field weighted actor-critic
Liu et al. Her-pdqn: A reinforcement learning approach for uav navigation with hybrid action spaces and sparse rewards
CN113267993A (zh) 一种基于协同学习的网络训练方法及装置
Kolbusz et al. Error back propagation algorithm with adaptive learning rate
CN115700414A (zh) 一种机器人运动误差补偿方法
CN115618497A (zh) 一种基于深度强化学习的翼型优化设计方法
Amin et al. System identification via artificial neural networks-applications to on-line aircraft parameter estimation
Farid et al. Control and identification of dynamic plants using adaptive neuro-fuzzy type-2 strategy
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
Wei et al. Mobile Robot Obstacle Avoidance System Based on GA-Aided OIF-Elman Network
CN111314231A (zh) 一种基于事件驱动的复杂网络平衡点控制的方法
Ramirez et al. Redundant robot control with learning from expert demonstrations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210817