CN111665861A - 一种轨迹跟踪控制方法、装置、设备和存储介质 - Google Patents

一种轨迹跟踪控制方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN111665861A
CN111665861A CN202010425276.XA CN202010425276A CN111665861A CN 111665861 A CN111665861 A CN 111665861A CN 202010425276 A CN202010425276 A CN 202010425276A CN 111665861 A CN111665861 A CN 111665861A
Authority
CN
China
Prior art keywords
neural network
network model
graph
preset
tracking control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010425276.XA
Other languages
English (en)
Inventor
安冬
穆义卓
位耀光
李道亮
李保科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN202010425276.XA priority Critical patent/CN111665861A/zh
Publication of CN111665861A publication Critical patent/CN111665861A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明实施例提供一种轨迹跟踪控制方法、装置、设备和存储介质。该方法包括:获得被控制对象的当前状态,将所述当前状态由图信息表示;将所述图信息输入至预设的图神经网络模型,结合预设的目标轨迹确定当前的最优控制序列;其中,所述预设的图神经网络模型是基于随机轨迹数据集进行训练后得到,所述随机轨迹数据集包括随机轨迹状态图和输出标签。本发明实施例通过采用图神经网络模型对被控制对象进行轨迹跟踪控制,能够克服水下被控制对象运动模型和运动环境的不确定性,实现了高效、准确的对被控制对象进行轨迹跟踪控制。

Description

一种轨迹跟踪控制方法、装置、设备和存储介质
技术领域
本发明涉及机器运动控制技术领域,尤其涉及一种轨迹跟踪控制方法、装置、设备和存储介质。
背景技术
由于水下环境的复杂性,以及仿生机器鱼欠驱动、强耦合、非线性的特性,使得仿生机器鱼的轨迹跟踪控制研究成为一个十分具有挑战性的研究领域。
水下环境中仿生机器鱼的控制难度远远高于地面上的移动机器人。尽管诸如PID控制等众多传统的控制方法均可以实现仿生机器鱼的控制,但它们往往难以应付动态的策略和复杂的水下环境。
模型预测控制是一种先进的过程控制方法,它的实现依赖于动态的预测模型。在控制时域内,它主要针对当前时刻进行优化,但也考虑未来时刻,求取当前时刻的最优控制解,然后反复优化,从而实现整个时域的优化求解。也就是说,模型预测控制实际上是一种时间相关的,利用系统当前状
态和当前的控制量,来实现对系统未来状态的控制。而系统未来的状态是不定的,因此在控制过程中要不断根据系统状态对未来的控制量做出调整。但是,模型预测控制方法中的动态预测模型采用多层神经网络实现,这种简单的多层神经网络模型对于仿生机器鱼物理模型中关节之间关系的表征能力差,会导致仿生机器鱼轨迹跟踪的结果偏差较大,不能对仿生机器鱼进行准确地轨迹跟踪控制。
现有的轨迹跟踪控制方法都或多或少地存在一些问题,并且现有轨迹跟踪的结果与目标轨迹偏差较大,因此,亟需一种高效、准确的方法来对被能够用图表示的控制对象进行轨迹跟踪控制。
发明内容
本发明实施例的目的是提供一种克服上述问题或者至少部分地解决上述问题的轨迹跟踪控制方法、装置、设备和存储介质。
为了解决上述技术问题,一方面,本发明实施例提供一种轨迹跟踪控制方法,包括:
获得被控制对象的当前状态,将所述当前状态由图信息表示;
将所述图信息输入至预设的图神经网络模型,结合预设的目标轨迹获得当前的最优控制序列;其中,所述预设的图神经网络模型是基于随机轨迹数据集进行训练后得到,所述随机轨迹数据集包括随机轨迹状态图和输出标签。
进一步地,所述获得当前状态,将所述当前状态由图信息表示前,还包括:
构建图神经网络模型;
对所述图神经网络模型进行训练,确定所述预设的图神经网络模型。
进一步地,所述对所述图神经网络模型进行训练,确定所述预设的图神经网络模型,具体包括:
获取在运动环境中的所述随机轨迹数据集;
利用所述随机轨迹数据集对图神经网络模型进行训练,确定所述预设的图神经网络模型。
进一步地,所述构建图神经网络模型前,还包括:
建立所述被控制对象的简化物理模型,所述简化物理模型为多关节的链状物理模型,所述简化物理模型由若干个关节,以及相邻两个关节之间的关节段构成。
进一步地,还包括:
基于所述简化物理模型和运动环境中的随机轨迹状态,获得随机轨迹状态图;其中,所述随机轨迹状态图的顶点表示关节的位置和速度,所述随机轨迹状态图的边特征向量表示关节段对应的关节索引,所述随机轨迹状态图的全局特征向量表示质心的位置和速度;
将所述随机轨迹状态图添加输出标签处理,获得所述随机轨迹数据集。
进一步地,所述将所述图信息输入至预设的图神经网络模型,结合预设的目标轨迹确定当前的最优控制序列,具体包括:
在一个控制周期内,获取所述当前状态对应的所述图信息,并随机生成预设个数的候选动作序列;
将所述图信息、和所述候选动作序列输入至所述图神经网络模型,结合所述预设的目标轨迹获得预测所述候选动作序列的结果;
通过预设的优化目标函数对所述预测所述候选动作序列的结果选择,确定当前的最优控制序列。
进一步地,还包括:
图神经网络模型会在下一个控制周期对所述预测所述候选动作序列的结果进行反馈校正。
另一方面,本发明实施例提供一种轨迹跟踪控制装置,包括:
状态获取模块:用于获得当前状态,将所述当前状态由图信息表示;
控制模块:用于将所述图信息和输入至预设的图神经网络模型,结合预设的目标轨迹获得当前的最优控制序列;其中,所述预设的图神经网络模型是基于随机轨迹数据集和输出标签进行训练后得到。
再一方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述方法的步骤。
又一方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述处理器执行所述计算机程序时,实现上述方法的步骤。
本发明实施例提供的轨迹跟踪控制方法、装置、设备和存储介质,通过采用图神经网络模型对被控制对象进行轨迹跟踪控制,能够克服被控制对象运动模型和运动环境的不确定性,实现了高效、准确的对被控制对象进行轨迹跟踪控制。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的轨迹跟踪控制方法的流程示意图;
图2为本发明实施例提供的仿生机器鱼简化为多关节的链状物理模型结构示意图;
图3为本发明实施例提供的MPC控制器结构示意图;
图4为本发明实施例提供的轨迹跟踪控制装置的流程示意图;
图5为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相较于经典的PID控制,模型预测控制具有优化和预测的能力,也就是说,模型预测控制是一种致力于将更长时间跨度、甚至于无穷时间的最优化控制问题,分解为若干个更短时间跨度,或者有限时间跨度的最优化控制问题,并且在一定程度上仍然追求最优解。
模型预测控制能够通过优化目标函数将仿生机器鱼运动学约束纳入考虑,并能方便处理控制变量和控制增量的约束,同时能够克服仿生机器鱼航行中的速度跳变问题,理论上具有较好的控制效果。
模型预测控制是一种基于模型的闭环优化控制策略,其算法的核心是:可预测未来的动态模型,在线反复优化计算并滚动实施的控制作用和模型误差的反馈校正。
图是一种独特的非欧几里得数据结构,具有强大的表征能力,利用图对仿生机器鱼的简化物理模型进行建模。图神经网络(GNNs)是基于图结构的深度学习方法,它通过图中顶点之间的传递消息来捕捉图的依赖关系。GNNs具有很好的性能和较高的可解释性,是近年来广泛应用的图论分析方法。利用图神经网络模型强大的表征能力,能够优化仿生机器鱼轨迹跟踪的效果。
对于水下复杂场景下的仿生机器鱼来说,所提方法能够高效地利用数据,仅使用少量数据就能学会轨迹跟踪,而且这些数据是仿生机器鱼在其所在环境中随机游动而收集到的。
使用学习到的图神经网络模型和MPC控制器,仿生机器鱼可以沿着由一组稀疏的点定义的轨迹运动。使用这种方法只需训练预测模型一次,通过简单地修改目标函数,就可以在运行时将该模型应用到各种不同的参考轨迹上,而无需再单独针对特定任务进行训练。这种基于图神经网络模型预测控制的仿生机器鱼轨迹跟踪方法能够很好地补偿模型中的误差。系统可以迭代式地重新规划和纠正自己的错误。
本发明实施例提供一种轨迹跟踪控制方法,图1为本发明实施例提供的轨迹跟踪控制方法的流程示意图,如图1所示,该方法包括:
步骤S101、获得被控制对象的当前状态,将所述当前状态由图信息表示;
具体的,根据上述实施例的轨迹跟踪控制方法,在上述步骤S101中,在每个控制周期内,获取被控制对象的当前状态,将控制对象的当前状态用图表示,图是一种独特的非欧几里得数据结构,具有强大的表征能力。
步骤S102、将所述图信息输入至预设的图神经网络模型,结合预设的目标轨迹确定当前的最优控制序列;其中,所述预设的图神经网络模型是基于随机轨迹数据集进行训练后得到,所述随机轨迹数据集包括随机轨迹状态图和输出标签。
具体的,根据上述实施例的轨迹跟踪控制方法,在上述步骤S102中,在一个控制周期内,获取所述当前状态对应的所述图信息,然后随机生成预设个数的候选动作序列来规划未来有限个步骤,将所述图信息和所述候选动作序列输入至所述图神经网络模型,结合目标轨迹针对当前误差重新计算控制量,获得预测所述候选动作序列的结果;
然后通过预设的优化目标函数对所述预测所述候选动作序列的结果选择,选择其中使优化目标函数达到最优的控制序列为当前的最优控制序列,然后再在下一个控制周期使用更新的被控制对象的实际状态信息,对下一周期由预设的图神经网络模型和目标轨迹得到的预测候选动作序列的结果进行反馈校正,通过优化得到一组新的最优控制序列,以防由图神经网络模型和目标轨迹构建的MPC控制器失配或外界干扰导致的控制输出与期望差距过大。
需要说明的是,本发明实施例中对于被控制对象并不作具体限定,被控制对象能够由图信息表示,本发明实施例以仿生机器鱼为例说明。
本发明实施例提供的轨迹跟踪控制方法,通过采用图神经网络模型对被控制对象进行轨迹跟踪控制,能够克服被控制对象运动模型和运动环境的不确定性,实现了高效、准确的对被控制对象进行轨迹跟踪控制。
基于上述任一实施例,进一步地,所述获得当前状态,将所述当前状态由图信息表示前,还包括:
构建图神经网络模型;
对所述图神经网络模型进行训练,确定所述预设的图神经网络模型。
具体的,根据上述实施例的轨迹跟踪控制方法,预测模型是模型预测控制的基础,其主要功能是根据仿生机器鱼的当前的状态和动作,预测得到的下一时刻的状态,采用一个图神经网络(GNN)模型作为预测模型,所构造的图神经网络模型的学习目标是获得每个顶点的图感知的隐藏状态,对于每个顶点,它的隐藏状态包含了来自相邻顶点的信息,并且还构造另外一个输出函数,用于被控制对象控制的预测模型,利用所述随机轨迹数据集和输出标签对图神经网络模型进行训练,确定所述预设的图神经网络模型。
例如:预测模型是模型预测控制的基础,其主要功能是根据仿生机器鱼的当前的状态和动作,预测得到的下一时刻的状态。
本发明的预测模型采用一个图神经网络(GNN)模型。
所构造的GNN的学习目标是获得每个顶点的图感知的隐藏状态hn,对于每个顶点,它的隐藏状态包含了来自相邻顶点的信息。
GNN通过迭代式更新所有顶点的隐藏状态,实现让每个顶点都能感知到图上其他的顶点,在k+1时刻,顶点的隐藏状态按照如下方式更新:
Figure BDA0002498429750000071
其中,f(.)是隐藏状态的状态更新函数(局部转移函数)。f(.)对所有顶点都成立的,是一个全局共享的函数。Enbr[n]是所有与顶点n相邻的边的特征向量,Enbr[n]是顶点n所有相邻顶点的特征向量,
Figure BDA0002498429750000072
是顶点n相邻顶点在k时刻的隐藏状态。
不断地利用当前时刻(k)邻居顶点的隐藏状态作为输入的一部分来生成下一时刻(k+1)目标顶点的隐藏状态,直到k+n时刻每个顶点的隐藏状态变化幅度很小(隐藏状态收敛),整个图的信息流动趋于平稳。也就是使仿生机器鱼的各个关节之间能够分享状态信息。
具体的,所提实施例中图神经网络模型的收敛是通过相邻两个时刻顶点状态p-范数的差值是否小于某个阈值∈来判定的。
此外,还需要构造另外一个函数g(.)(输出函数),用于仿生机器鱼控制的预测模型。
o=g(hn,n,scm,a)
其中,o是GNN模型的输出(也就是仿生机器鱼下一时刻的状态),g(.)是GNN模型的输出函数,hn是顶点的隐藏状态,n是顶点的特征向量,scm是仿生机器鱼质心的位置和速度信息,a是仿生机器鱼的动作。
其中,所提本发明实施例用另一个神经网络来表达g(.)。
本发明实施例提供的轨迹跟踪控制方法,通过采用图神经网络模型对被控制对象进行轨迹跟踪控制,能够克服被控制对象运动模型和运动环境的不确定性,实现了高效、准确的对被控制对象进行轨迹跟踪控制。
基于上述任一实施例,进一步地,所述对所述图神经网络模型进行训练,确定所述预设的图神经网络模型,具体包括:
获取在运动环境中的所述随机轨迹数据集;
利用所述随机轨迹数据集对图神经网络模型进行训练,确定所述预设的图神经网络模型。
具体的,根据上述实施例的轨迹跟踪控制方法,所搭建的图神经网络模型中权重参数需要通过学习得到,获取在运动环境中的所述随机轨迹数据集,将随机轨迹数据集进行,分割为成对的训练数据,将分割后的训练数据添加相应的输出标签,使用分割后带有标签的训练数据来训练图神经网络预测模型,通过最小化预测模型输出和标签的误差训练图神经网络模型,确定所述预设的图神经网络模型。为了使模型能够有效地收敛,对输入数据进行数据归一化,减去数据的平均值,除以数据的标准差。为了提高模型的鲁棒性,在训练数据(输入和输出)中加入零均值高斯噪声,通过最小化预测模型输出和标签的误差训练图神经网络模型,所以本发明实施例中使用随机梯度下降法。
例如:通过仿生机器鱼在运动环境中的随机游动,记录长度为T的轨迹τ=(s0,a1,…,sT-2,aT-2,sT-1),得到随机轨迹数据集,随机轨迹数据集包含当前状态的图信息。使用这个数据集来训练图神经网络预测模型。
这里的状态s包括仿生机器鱼的关节的位置和速度信息n,以及仿生机器鱼质心的位置和速度信息scm(以及其它需要包含进来的可测量)。
将收集到的轨迹{τ}分割为成对的训练数据,输入(st,at)和相应的输出标签st+1
图神经网络模型以仿生机器鱼当前的状态st和动作at为输入,然后输出预测得到的下一时刻的状态
Figure BDA0002498429750000081
通过最小化预测模型输出和标签的误差训练图神经网络模型。
本发明实施例提供的轨迹跟踪控制方法,通过采用训练过的图神经网络模型对被控制对象进行轨迹跟踪控制,能够克服水下仿生机器鱼运动模型和运动环境的不确定性,实现了高效、准确的对被控制对象进行轨迹跟踪控制。
基于上述任一实施例,进一步地,所述构建图神经网络模型前,还包括:
建立所述被控制对象的简化物理模型,所述简化物理模型为多关节的链状物理模型,所述简化物理模型由若干个关节,以及相邻两个关节之间的关节段构成。
具体的,根据上述实施例的轨迹跟踪控制方法,将被控制对象简化为几个部分,灵活且可摆动的部分可看作由铰链结合而成的摆动链,用若干个铰链模仿关节,并且相邻两个关节之间作为关节段,在此基础上,可以进一步简化被控制对象模型,将被控制对象简化为多关节的链状物理模型。
例如:图2为本发明实施例提供的仿生机器鱼简化为多关节的链状物理模型结构示意图,如图2所示,BCF推进模式的研究是目前研究人员实现仿生机器鱼高速游动和高效推进的主要手段。
身体/尾鳍推进(Body and/or Caudal Fin propulsion,BCF)模式是自然界大多数鱼类采用的游动方式,相比中央鳍/对鳍推进(Median and/or Paired Fin propulsion,MPF)模式而言,在游动速度、高速推进效率以及加速性能上具有无可比拟的优势。
身体/尾鳍推进(BCF)模式是鱼类中很常见的游动模式,也是推进效率最高的推进模式。以这种模式游动的鱼类主要靠身体后三分之一韧性尾部的波动力产生推进力,鱼体前三分之二几乎不波动。
鱼类模型简化可分为三部分:头部、躯干和尾部(尾部包括尾柄和尾鳍)。灵活且可摆动的尾部可看作由铰链结合而成的摆动链,用若干个铰链模仿鱼类尾部的关节。
在此基础上,可以进一步简化仿生机器鱼模型,将仿生机器鱼简化为多关节的链状物理模型。
本发明实施例提供的轨迹跟踪控制方法,通过采用图神经网络模型对被控制对象进行轨迹跟踪控制,能够克服被控制对象运动模型和运动环境的不确定性,实现了高效、准确的对被控制对象进行轨迹跟踪控制。
基于上述任一实施例,进一步地,还包括:
基于所述简化物理模型和运动环境中的随机轨迹状态,获得随机轨迹状态图;其中,所述随机轨迹状态图的顶点表示关节的位置和速度,所述随机轨迹状态图的边特征向量表示关节段对应的关节索引,所述随机轨迹状态图的全局特征向量表示质心的位置和速度;
将所述随机轨迹状态图添加输出标签处理,获得所述随机轨迹数据集。
具体的,根据上述实施例的轨迹跟踪控制方法,用图信息表示简化物理模型,优点是能够刻画不同顶点(关节)之间的关系。用图信息的边和顶点表示仿生机器鱼物理模型中的关节段和关节,用图信息的顶点特征向量表示关节的位置和速度;用图信息的边特征向量表示关节段对应的关节索引;用图信息的全局特征向量表示被控制对象质心的位置和速度信息,通过被控制对象在运动环境中的随机运动,记录被控制对象预设长度的随机轨迹状态,用上述的图信息表示简化物理模型方法将随机轨迹状态与被控制对象的简化物理模型转化为随机轨迹状态图,通过对随机轨迹状态图添加输出标签处理获得所述随机轨迹数据集,将随机轨迹数据集进行分割为成对的训练数据,将分割后的训练数据添加相应的输出标签,使用分割后带有标签的训练数据来训练图神经网络预测模型。
例如:用图表示仿生机器鱼物理模型。优点是能够刻画不同顶点(关节)之间的关系。用图的边和顶点表示仿生机器鱼物理模型中的关节段(Body)和关节(Joint)。
用图的顶点特征向量ni表示关节的位置和速度;用图的边特征向量(ei,si,ri)表示关节段对应的关节索引;用图的全局特征向量g表示仿生机器鱼质心的位置和速度信息。
通过仿生机器鱼在运动环境中的随机游动,记录长度为T的轨迹τ=(s0,a1,…,sT-2,aT-2,sT-1),得到随机轨迹数据集,随机轨迹数据集包含当前状态的图信息。使用这个数据集来训练图神经网络预测模型。
本发明实施例提供的轨迹跟踪控制方法,通过采用图神经网络模型对被控制对象进行轨迹跟踪控制,能够克服被控制对象运动模型和运动环境的不确定性,实现了高效、准确的对被控制对象进行轨迹跟踪控制。
基于上述任一实施例,进一步地,所述将所述图信息输入至预设的图神经网络模型,结合预设的目标轨迹确定当前的最优控制序列,具体包括:
在一个控制周期内,获取所述当前状态对应的所述图信息,并随机生成预设个数的候选动作序列;
将所述图信息和所述候选动作序列输入至所述图神经网络模型,结合所述预设的目标轨迹获得预测所述候选动作序列的结果;
通过预设的优化目标函数对所述预测所述候选动作序列的结果选择,确定当前的最优控制序列。
具体的,根据上述实施例的轨迹跟踪控制方法,在一个控制周期内,获取所述当前状态对应的所述图信息和目标轨迹,为了使用训练得到的图神经网络模型完成任务,需要定义一个编码该任务的目标函数,可以构建一个鼓励靠近目标轨迹同时沿轨迹向前运动的目标函数,并随机生成预设个数的候选动作序列来规划未来有限个步骤。将所述图信息和所述候选动作序列输入至所述图神经网络模型,结合所述预设的目标轨迹针对当前误差重新计算控制量,获得预测所述候选动作序列的结果;然后通过预设的优化目标函数对所述预测所述候选动作序列的结果选择,选择其中使优化目标函数达到最优的控制序列为当前的最优控制序列。
预设的优化目标函数
Figure BDA0002498429750000111
公式为:
Figure BDA0002498429750000112
其中,t′=t,…,t+H-1。
在每个控制周期内解决此优化问题,然后仅执行最优控制序列中的第一个控制动作,转换到下一个状态;
滚动优化的目的是为了求最优控制解,是一种在线优化,用于优化短时间内的控制输入,以尽可能减小预测模型输出与参考值的差距,滚动优化可能不会得到全局最优解,但是却能对每一时刻的状态进行最及时的响应,达到局部最优。但优化不是一次离线进行,而是反复在线进行的,这就是滚动优化的含义,也是模型预测控制区别于传统最优控制的根本点,这个重新规划过程使得该方法能稳健地应对这个学习到的动态模型中的不确定性。
例如:在每个控制周期(时间步t),仿生机器鱼的状态是st,通过随机生成K个候选动作序列来规划未来有限的H个步骤。
构建一个鼓励靠近轨迹同时沿轨迹向前运动的目标函数
Figure BDA0002498429750000121
这个过程针对当前误差重新计算控制量,使用学习到的图神经网络模型来预测这些动作序列的结果,然后选择其中使目标函数达到最优的控制序列
Figure BDA0002498429750000122
Figure BDA0002498429750000123
其中,t′=t,…,t+H-1。
在每个时间步t解决此优化问题,然后仅执行该控制序列中的第一个控制动作at,转换到下一个状态st+1
本发明实施例提供的轨迹跟踪控制方法,通过采用图神经网络模型对被控制对象进行轨迹跟踪控制,能够克服被控制对象运动模型和运动环境的不确定性,实现了高效、准确的对被控制对象进行轨迹跟踪控制。
基于上述任一实施例,进一步地,其特征在于,还包括:
图神经网络模型会在下一个控制周期对所述预测所述候选动作序列的结果进行反馈校正。
具体的,根据上述实施例的轨迹跟踪控制方法,然后再在下一个控制周期使用更新的被控制对象的实际状态信息,对下一周期由预设的图神经网络模型和目标轨迹得到的预测候选动作序列的结果进行反馈校正,以防由图神经网络模型和目标轨迹构建的MPC控制器失配或外界干扰导致的控制输出与期望差距过大,通过优化得到一组新的最优控制序列。
例如:然后再在下一个控制周期(时间步t+1)使用更新的仿生机器鱼的实际状态信息,对下一周期由预设的图神经网络模型和目标轨迹得到的预测候选动作序列的结果进行反馈校正,以防由图神经网络模型和目标轨迹构建的MPC控制器失配或外界干扰导致的控制输出与期望差距过大。通过优化得到一组新的最优控制序列。
如此重复这个规划过程,滚动地实现带约束的优化问题,从而实现对仿生机器鱼的轨迹跟踪连续控制。
本发明实施例提供的轨迹跟踪控制方法,通过采用图神经网络模型对被控制对象进行轨迹跟踪控制,能够克服被控制对象运动模型和运动环境的不确定性,实现了高效、准确的对被控制对象进行轨迹跟踪控制。
基于上述任一实施例,进一步地,图3为本发明实施例提供的MPC控制器结构示意图,如图3所示,使用训练得到的图神经网络模型和目标函数,构建MPC控制器,MPC控制器可用于执行执行上述方法实施例中的一种轨迹跟踪控制方法,其实现原理和技术效果类似,此处不再赘述。
本发明实施例提供的轨迹跟踪控制方法,通过采用包含图神经网络模型的MPC控制器对被控制对象进行轨迹跟踪控制,能够克服被控制对象运动模型和运动环境的不确定性,实现了高效、准确的对被控制对象进行轨迹跟踪控制。
进一步地,在上述实施例的基础上,本发明实施例提供了一种轨迹跟踪控制装置,该装置用于执行上述方法实施例中的一种轨迹跟踪控制方法。图4为本发明实施例提供的轨迹跟踪控制装置的流程示意图,如图4所示,该装置包括获取模块401和控制模块402;其中:
获取模块401:用于获得被控制对象的当前状态,将所述当前状态由图信息表示;
具体的,根据上述实施例的轨迹跟踪控制装置,在上述获取模块401中,在每个控制周期内,获取模块401获取被控制对象的当前状态,将控制对象的当前状态用图表示,图是一种独特的非欧几里得数据结构,具有强大的表征能力。
控制模块402:
将所述图信息输入至预设的图神经网络模型,结合预设的目标轨迹确定当前的最优控制序列;其中,所述预设的图神经网络模型是基于随机轨迹数据集进行训练后得到,所述随机轨迹数据集包括随机轨迹状态图和输出标签。
具体的,根据上述实施例的轨迹跟踪控制装置,在上述控制模块402中,在一个控制周期内,获取所述当前状态对应的所述图信息,然后随机生成预设个数的候选动作序列来规划未来有限个步骤,控制模块402将所述图信息和所述候选动作序列输入至所述图神经网络模型,结合目标轨迹针对当前误差重新计算控制量,获得预测所述候选动作序列的结果;
然后通过预设的优化目标函数对所述预测所述候选动作序列的结果选择,选择其中使优化目标函数达到最优的控制序列为当前的最优控制序列,然后再在下一个控制周期使用更新的被控制对象的实际状态信息,控制模块402对下一周期由预设的图神经网络模型和目标轨迹得到的预测候选动作序列的结果进行反馈校正,通过优化得到一组新的最优控制序列,以防由图神经网络模型和目标轨迹构建的MPC控制器失配或外界干扰导致的控制输出与期望差距过大。
本发明实施例提供的轨迹跟踪控制装置,通过采用图神经网络模型对被控制对象进行轨迹跟踪控制,能够克服水下仿生机器鱼运动模型和运动环境的不确定性,实现了高效、准确的对被控制对象进行轨迹跟踪控制。
举个例子如下:
图5为本发明实施例提供的一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行如下方法:用图信息表示被控制对象的当前状态;将所述图信息和目标轨迹输入至预设的图神经网络模型,输出当前的最优控制序列;其中,所述预设的图神经网络模型是基于随机轨迹数据集和输出标签进行训练后得到。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:用图信息表示被控制对象的当前状态;将所述图信息和目标轨迹输入至预设的图神经网络模型,输出当前的最优控制序列;其中,所述预设的图神经网络模型是基于随机轨迹数据集和输出标签进行训练后得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种轨迹跟踪控制方法,其特征在于,包括:
获得被控制对象的当前状态,将所述当前状态由图信息表示;
将所述图信息输入至预设的图神经网络模型,结合预设的目标轨迹确定当前的最优控制序列;其中,所述预设的图神经网络模型是基于随机轨迹数据集进行训练后得到,所述随机轨迹数据集包括随机轨迹状态图和输出标签。
2.根据权利要求1所述的轨迹跟踪控制方法,其特征在于,所述获得当前状态,将所述当前状态由图信息表示前,还包括:
构建图神经网络模型;
对所述图神经网络模型进行训练,确定所述预设的图神经网络模型。
3.根据权利要求2所述的轨迹跟踪控制方法,其特征在于,所述对所述图神经网络模型进行训练,确定所述预设的图神经网络模型,具体包括:
获取在运动环境中的所述随机轨迹数据集;
利用所述随机轨迹数据集对图神经网络模型进行训练,确定所述预设的图神经网络模型。
4.根据权利要求2所述的轨迹跟踪控制方法,其特征在于,所述构建图神经网络模型前,还包括:
建立所述被控制对象的简化物理模型,所述简化物理模型为多关节的链状物理模型,所述简化物理模型由若干个关节,以及相邻两个关节之间的关节段构成。
5.根据权利要求4所述的轨迹跟踪控制方法,其特征在于,还包括:
基于所述简化物理模型和运动环境中的随机轨迹状态,获得随机轨迹状态图;其中,所述随机轨迹状态图的顶点表示关节的位置和速度,所述随机轨迹状态图的边特征向量表示关节段对应的关节索引,所述随机轨迹状态图的全局特征向量表示质心的位置和速度;
将所述随机轨迹状态图添加输出标签处理,获得所述随机轨迹数据集。
6.根据权利要求1所述的轨迹跟踪控制方法,其特征在于,所述将所述图信息输入至预设的图神经网络模型,结合预设的目标轨迹确定当前的最优控制序列,具体包括:
在一个控制周期内,获取所述当前状态对应的所述图信息,并随机生成预设个数的候选动作序列;
将所述图信息和所述候选动作序列输入至所述图神经网络模型,结合所述预设的目标轨迹获得预测所述候选动作序列的结果;
通过预设的优化目标函数对所述预测所述候选动作序列的结果选择,确定当前的最优控制序列。
7.根据权利要求6所述的轨迹跟踪控制方法,其特征在于,还包括:
图神经网络模型会在下一个控制周期对所述预测所述候选动作序列的结果进行反馈校正。
8.一种轨迹跟踪控制装置,其特征在于,包括:
状态获取模块:用于获得被控制对象的当前状态,将所述当前状态由图信息表示;
控制模块:用于将所述图信息和输入至预设的图神经网络模型,结合预设的目标轨迹获得当前的最优控制序列;其中,所述预设的图神经网络模型是基于随机轨迹数据集和输出标签进行训练后得到。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述轨迹跟踪控制方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述轨迹跟踪控制方法的步骤。
CN202010425276.XA 2020-05-19 2020-05-19 一种轨迹跟踪控制方法、装置、设备和存储介质 Pending CN111665861A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010425276.XA CN111665861A (zh) 2020-05-19 2020-05-19 一种轨迹跟踪控制方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010425276.XA CN111665861A (zh) 2020-05-19 2020-05-19 一种轨迹跟踪控制方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN111665861A true CN111665861A (zh) 2020-09-15

Family

ID=72383988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010425276.XA Pending CN111665861A (zh) 2020-05-19 2020-05-19 一种轨迹跟踪控制方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111665861A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113029154A (zh) * 2021-04-01 2021-06-25 北京深睿博联科技有限责任公司 一种盲人导航方法及装置
CN113110045A (zh) * 2021-03-31 2021-07-13 同济大学 一种基于计算图的模型预测控制实时优化并行计算方法
CN113867156A (zh) * 2021-12-02 2021-12-31 湖南工商大学 融合bp-rbf神经网络的机器鱼路径跟踪方法及装置
EP3989021A1 (en) * 2020-10-22 2022-04-27 Siemens Aktiengesellschaft Determining at least one output label for an input unit of a technical system
CN114998744A (zh) * 2022-07-18 2022-09-02 中国农业大学 基于运动与视觉双特征融合的农机轨迹田路分割方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2169422A1 (en) * 2008-09-24 2010-03-31 Whitehead Alenia Sistemi Subacquei S.p.A. System and method for acoustic tracking an underwater vehicle trajectory
CN106773689A (zh) * 2016-12-16 2017-05-31 西北工业大学 基于分层分布式模型预测控制的auv编队协同控制方法
CN108594845A (zh) * 2018-03-23 2018-09-28 哈尔滨工程大学 一种通信限制下基于预测控制的多auv编队方法
CN109343350A (zh) * 2018-11-20 2019-02-15 清华大学 一种基于模型预测控制的水下机器人路径跟踪控制方法
CN109901403A (zh) * 2019-04-08 2019-06-18 哈尔滨工程大学 一种自主水下机器人神经网络s面控制方法
CN109901598A (zh) * 2019-04-08 2019-06-18 哈尔滨工程大学 基于随机模型预测控制技术的自主水下机器人路径跟踪方法
CN109977232A (zh) * 2019-03-06 2019-07-05 中南大学 一种基于力导图的图神经网络可视分析方法
WO2019197613A1 (en) * 2018-04-12 2019-10-17 Deepmind Technologies Limited Graph neural networks representing physical systems
CN110782015A (zh) * 2019-10-25 2020-02-11 腾讯科技(深圳)有限公司 神经网络的网络结构优化器的训练方法、装置及存储介质
CN110929870A (zh) * 2020-02-17 2020-03-27 支付宝(杭州)信息技术有限公司 图神经网络模型训练方法、装置及系统
CN111161315A (zh) * 2019-12-18 2020-05-15 北京大学 一种基于图神经网络的多目标跟踪方法和系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2169422A1 (en) * 2008-09-24 2010-03-31 Whitehead Alenia Sistemi Subacquei S.p.A. System and method for acoustic tracking an underwater vehicle trajectory
CN106773689A (zh) * 2016-12-16 2017-05-31 西北工业大学 基于分层分布式模型预测控制的auv编队协同控制方法
CN108594845A (zh) * 2018-03-23 2018-09-28 哈尔滨工程大学 一种通信限制下基于预测控制的多auv编队方法
WO2019197613A1 (en) * 2018-04-12 2019-10-17 Deepmind Technologies Limited Graph neural networks representing physical systems
CN109343350A (zh) * 2018-11-20 2019-02-15 清华大学 一种基于模型预测控制的水下机器人路径跟踪控制方法
CN109977232A (zh) * 2019-03-06 2019-07-05 中南大学 一种基于力导图的图神经网络可视分析方法
CN109901403A (zh) * 2019-04-08 2019-06-18 哈尔滨工程大学 一种自主水下机器人神经网络s面控制方法
CN109901598A (zh) * 2019-04-08 2019-06-18 哈尔滨工程大学 基于随机模型预测控制技术的自主水下机器人路径跟踪方法
CN110782015A (zh) * 2019-10-25 2020-02-11 腾讯科技(深圳)有限公司 神经网络的网络结构优化器的训练方法、装置及存储介质
CN111161315A (zh) * 2019-12-18 2020-05-15 北京大学 一种基于图神经网络的多目标跟踪方法和系统
CN110929870A (zh) * 2020-02-17 2020-03-27 支付宝(杭州)信息技术有限公司 图神经网络模型训练方法、装置及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张铭钧 等: "基于神经网络的自治水下机器人广义预测控制", 《机器人》 *
王佳: "图神经网络浅析", 《现代计算机》 *
白铂 等: "图神经网络", 《中国科学:数学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3989021A1 (en) * 2020-10-22 2022-04-27 Siemens Aktiengesellschaft Determining at least one output label for an input unit of a technical system
CN113110045A (zh) * 2021-03-31 2021-07-13 同济大学 一种基于计算图的模型预测控制实时优化并行计算方法
CN113029154A (zh) * 2021-04-01 2021-06-25 北京深睿博联科技有限责任公司 一种盲人导航方法及装置
CN113867156A (zh) * 2021-12-02 2021-12-31 湖南工商大学 融合bp-rbf神经网络的机器鱼路径跟踪方法及装置
CN114998744A (zh) * 2022-07-18 2022-09-02 中国农业大学 基于运动与视觉双特征融合的农机轨迹田路分割方法

Similar Documents

Publication Publication Date Title
CN111665861A (zh) 一种轨迹跟踪控制方法、装置、设备和存储介质
Jiang et al. Path planning for intelligent robots based on deep Q-learning with experience replay and heuristic knowledge
CN110083165B (zh) 一种机器人在复杂狭窄环境下路径规划方法
Morales et al. A survey on deep learning and deep reinforcement learning in robotics with a tutorial on deep reinforcement learning
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
Badgwell et al. Reinforcement learning–overview of recent progress and implications for process control
US20220057803A1 (en) Apparatus, method and article to facilitate motion planning in an environment having dynamic objects
Won et al. Aerobatics control of flying creatures via self-regulated learning
Kim et al. From exploration to control: learning object manipulation skills through novelty search and local adaptation
Yang et al. Intelligent path planning of underwater robot based on reinforcement learning
Ota et al. Trajectory optimization for unknown constrained systems using reinforcement learning
Fang et al. Autonomous underwater vehicle formation control and obstacle avoidance using multi-agent generative adversarial imitation learning
CN117590867B (zh) 基于深度强化学习的水下自主航行器接驳控制方法和系统
Hafez et al. Efficient intrinsically motivated robotic grasping with learning-adaptive imagination in latent space
CN117940742A (zh) 路径规划系统、路径规划方法、路线图构建装置、模型生成装置及模型生成方法
Gök Dynamic path planning via Dueling Double Deep Q-Network (D3QN) with prioritized experience replay
Sharma et al. Model based path planning using Q-Learning
CN116307331B (zh) 航空器轨迹的规划方法
Pan et al. Learning navigation policies for mobile robots in deep reinforcement learning with random network distillation
Wang et al. Efficient reinforcement learning for autonomous ship collision avoidance under learning experience reuse
Chaysri et al. Unmanned surface vehicle navigation through generative adversarial imitation learning
Aydogmus et al. Comparative analysis of reinforcement learning algorithms for bipedal robot locomotion
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
Tao et al. A Multiobjective Collaborative Deep Reinforcement Learning Algorithm for Jumping Optimization of Bipedal Robot
Pertsch et al. Keyin: Discovering subgoal structure with keyframe-based video prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200915

RJ01 Rejection of invention patent application after publication