CN113139652A

CN113139652A - 用于自动车辆的神经任务规划器

Info

Publication number: CN113139652A
Application number: CN202011015292.8A
Authority: CN
Inventors: 张良俊; 赵金鑫
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2020-01-17
Filing date: 2020-09-24
Publication date: 2021-07-20
Also published as: US20210223774A1; US11409287B2; EP3852018A1; JP2021113487A; JP7169328B2

Abstract

本文描述了用于自动车辆的基于神经网络的任务规划器(TaskNet)的实施方式。给定高级任务，TaskNet规划器将其分解成子任务序列，每个子任务被进一步分解成具有规范的任务基元。TaskNet包括用于预测覆盖较大地形的全局工作区域序列的第一模型，以及用于为每个操作确定局部操作顺序和规范的第二模型。神经模型可包括用于从基于网格图的环境表示中提取特征的卷积层、以及完全连接层，以将所提取的特征与过去的序列相组合并预测下一子任务或任务基元。使用挖掘轨迹生成器训练TaskNet的实施方式，并使用基于3D物理的地形和挖掘机模拟器评估其性能。试验结果表明，TaskNet可有效地学习常见的任务分解策略，并生成合适的子任务和任务基元序列。

Description

用于自动车辆的神经任务规划器

技术领域

本公开总体上涉及用于自动车辆的任务规划器，尤其是用于自动车辆的基于神经网络的任务规划器。

背景技术

施工车辆(例如，挖掘机)广泛用于采矿、建筑，农业等工业领域，以进行如沟槽挖掘和物料装载等土方作业。开发自动挖掘解决方案已成一种趋势。这种系统可带来的好处包括降低人工成本和提高操作安全性。同时，由于近年来自动驾驶车辆的广泛研究，在感知、定位和导航的算法，以及诸如光探测和测距(LIDAR)和摄像机的硬件传感器方面已经取得了显著的进步，这使得能够更有可能建造完全自动操作的施工车辆。

对于诸如挖掘机的自动车辆的规划与控制系统的构建，一个主要的挑战是为挖掘机产生用于执行的可行和有效的施工任务计划(例如，挖掘)和运动轨迹。这种施工任务计划需要是有效的，具有较少的基本移动，与车辆控制器约束相兼容，并且产生高的执行成功率。通常，用于计算可行的离散决策和连续的无碰撞运动的组合搜索空间是高维的，并且由于高维搜索空间和对任务和运动规划的不同要求，将任务和运动规划器集成是具有挑战性的。

因此，需要用于实施自动车辆的任务规划以提高性能的系统、方法。

发明内容

在第一方面，本公开提供了一种用于训练任务规划网络(TPN)以执行任务的计算机实施的方法，该方法包括：使用包括第一记录的输入输出对序列的子任务训练数据集来训练子任务确定模型(SDM)，其中，每个输入输出对均具有包括环境观察数据的输入和记录的输出，SDM包括第一规划内核、子任务解码器、第一规范解码器和第一终止解码器，其中，SDM的训练包括：至少基于环境观察数据，使用第一规划内核提取特征；至少基于从环境观察数据中提取的特征，使用子任务解码器生成预测子任务；至少基于从环境观察数据中提取的特征，使用第一规范解码器生成与预测子任务相对应的第一预测规范；至少基于从环境观察数据中提取的特征，使用第一终止解码器生成指示任务是否完成的第一预测终止状态；以及基于第一记录的输入输出对序列以及预测子任务、第一预测规范和第一预测终止状态，使用第一损失函数训练SDM；使用包括第二记录的输入输出对序列的基元训练数据集来训练基元确定模型(PDM)，其中，每个输入输出对均具有包括局部环境观察数据的输入和记录的输出，PDM包括第二规划内核、基元解码器、第二规范解码器和第二终止解码器，其中，PDM的训练包括：至少基于局部环境观察数据，使用第二规划内核提取特征；至少基于从局部环境观察数据中提取的特征，使用基元解码器生成预测基元；至少基于从局部环境观察数据中提取的特征，使用第二规范解码器生成与预测基元相对应的第二预测规范；使用第二终止解码器生成指示子任务是否完成的第二预测终止状态；以及基于第二记录的输入输出对序列和预测基元、第二预测规范和第二预测终止状态，使用第二损失函数训练PDM；以及通过将作为TPN的第一阶段的经训练的SDM和作为TPN的第二阶段的经训练的PDM组合来生成经训练的TPN。

在第二方面，本公开提供了一种用于使用任务规划网络(TPN)执行的计算机实施的方法，该方法包括：至少给定任务描述和环境观察数据，使用子任务确定模型(SDM)输出子任务、与子任务相关联的规范以及指示任务是否完成的任务终止状态；在任务终止状态指示任务完成之前，迭代包括以下的步骤：响应于子任务作为运动子任务，调用子任务规划模块以生成到全局帧中的目标点的轨迹，并在到达目标点后返回SDM；响应于子任务作为局部执行子任务，至少基于局部执行子任务和局部环境观察数据，使用基元确定模型(PDM)产生一个或多个任务基元；执行一个或多个任务基元，并更新局部环境观察数据和环境观察数据；在完成局部执行子任务后返回SDM。

在第三方面，本公开提供了一种用于使用任务规划网络(TPN)执行任务规划的计算机实施的方法，该方法包括：

将环境观察数据和任务输入到经训练的TPN中，经训练的TPN包括：子任务确定模型(SDM)，其包括：第一规划内核，在给定任务的情况下，从环境观察数据中提取特征；子任务解码器，联接至第一规划内核，子任务解码器至少基于从环境观察数据中提取的特征来生成子任务；第一规范解码器，联接至第一规划内核，第一规范解码器至少基于从环境观察数据中提取的特征来生成与子任务相对应的规范；以及第一终止解码器，联接至第一规划内核，第一终止解码器至少基于环境观察数据生成指示任务是否完成的任务终止状态；基元确定模型(PDM)，其包括：第二规划内核，响应于从SDM输出的子任务是局部执行子任务，使用至少包括与子任务相关联的局部环境观察数据的输入来提取特征；基元解码器，联接至第二规划内核，基元解码器至少基于从局部环境观察数据中提取的特征来生成一个或多个基元；第二规范解码器，联接至第二规划内核，第二规范解码器至少基于从局部环境观察数据中提取的特征来生成与基元相对应的规范；以及第二终止解码器，联接至第二规划内核，第二终止解码器生成指示子任务是否完成的子任务终止状态；当执行一个或多个基元时，更新局部环境观察数据和环境观察数据；以及当任务终止状态指示任务完成时，由SDM终止任务规划。

附图说明

将参考本发明的实施方式，它们的示例可示于附图中。这些附图旨在是说明性的而非限制性的。虽然本发明大体上在这些实施方式的上下文中描述，但应理解，本发明的范围并不旨在限于这些特定实施方式。附图中的项目未按比例绘制。

图1描述了根据本文件的实施方式的从真实世界中捕获的3D LIDAR点转换的网格高度图的示例。

图2描绘了根据本文件的实施方式的网格图、图块图、单元图和用于处理图块的和之字形顺序的图示。

图3以图形方式描绘了根据本文件的实施方式从任务到图元的序列。

图4描绘了根据本文件的实施方式的执行任务规划的过程。

图5描绘了根据当前公开的实施方式的系统模型结构。

图6描绘了根据本公开的实施方式的局部地形挖掘的示例。

图7A描绘了根据本公开的实施方式的具有跳过行的第一图块图。

图7B描绘了根据本公开的实施方式的具有跳过行的第二图块图。

图7C描绘了根据本公开的实施方式的具有跳过行的第三图块图。

图7D描绘了根据本公开的实施方式的具有跳过行的第四图块图。

图7E描绘了根据本公开的实施方式的具有跳过行的第五图块图。

图7F描绘了根据本公开的实施方式的具有跳过行的第六图块图。

图8A描绘了根据本文件的实施方式的第一随机化图块图。

图8B描绘了根据本文件的实施方式的第二随机化图块图。

图8C描绘了根据本文件的实施方式的第三随机化图块图。

图8D描绘了根据本文件的实施方式的第四随机化图块图。

图8E描绘了根据本文件的实施方式的第五随机化图块图。

图8F描绘了根据本文件的实施方式的第六随机化图块图。

图9图示了根据本文件的实施方式的沟槽挖掘任务的模拟结果。

图10描绘了根据本文件的实施方式在大的工作区域上挖掘多个沟槽的模拟结果。

图11描绘了根据本文件的实施方式的具有用于任务规划实现的各种传感器的平台。

图12描绘了根据本文件的实施方式的计算设备/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于解释目的，阐明具体细节以便提供对本发明的理解。然而，将对本领域的技术人员显而易见的是，可在没有这些细节的情况下实践本发明。此外，本领域的技术人员将认识到，下文描述的本发明的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在有形的计算机可读介质上实施。

附图中示出的组件或模块是本发明实施方式的示例性说明，并且意图避免使本发明不清楚。还应理解，在本论述的全文中，组件可描述为单独的功能单元(可包括子单元)，但是本领域的技术人员将认识到，各种组件或其部分可划分成单独组件，或者可整合在一起(包括整合在单个的系统或组件内)。应注意，本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。

此外，附图内的组件或系统之间的连接并不旨在限于直接连接。相反，在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外，可使用另外或更少的连接。还应注意，术语“联接”、“连接”、或“通信地联接”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。

在本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本发明的至少一个实施方式中，以及可包括在多于一个的实施方式中。另外，在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。

在本说明书的各个地方使用某些术语目的在于说明，并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源；这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。在一个或多个实施方式中，停止条件可包括：(1)已执行设定的迭代次数；(2)已达到处理时间量；(3)收敛(例如，连续迭代的奖励度量之间的差小于第一阈值)；(4)发散(例如，奖励度量的执行恶化)；以及(5)已达到可接受的奖励度量。

术语“包括”、“包括有”、“包含”和“包含有”应理解为开放性的术语，并且其后任何列出内容都是实例，而不旨在限于所列项目。“层”可包括一个或多个操作。词语“最佳的”、“优化”、“最佳化”等是指结果或过程的改进，并且不要求指定的结果或过程已经达到“最佳的”或峰值状态。

本文所使用的任何标题仅是为了组织目的，并且不应被用于限制说明书或权利要求的范围。本专利文献中提到的每个参考文献以其全文通过引用并入本文。

此外，本领域的技术人员应认识到：(1)某些步骤可以可选地执行；(2)步骤可不限于本文中所阐述的特定次序；(3)某些步骤可以以不同次序执行；以及(4)某些步骤可同时地进行。

A.引言

对于诸如挖掘机的自动车辆的规划与控制系统的构建，一个主要的挑战是为挖掘机产生用于执行的可行和有效的施工任务计划(例如，挖掘)和运动轨迹。这种施工任务计划需要是有效的，具有较少的基本移动，与车辆控制器约束相兼容，并且产生高的执行成功率。通常，用于计算可行的离散决策和连续的无碰撞运动的组合搜索空间是高维的，并且由于高维搜索空间和对任务和运动规划的不同要求，将任务和运动规划器集成是具有挑战性的。对于某些施工任务和运动规划而言，一个特定困难是由施工任务的性质引起的。例如，对于挖掘任务，液压驱动的机器臂与作为变形材料的土壤相互作用。液压系统和可变形材料的精确建模必须在高维空间中进行，这给传统的规划问题的制定带来困难或导致大的计算复杂性。另一个困难是由挖掘机的工作环境引起的，挖掘机的工作环境通常是非结构化的场地，并且随着挖掘作业的进行而保持变化。在实践中，经验在用于选择运动序列的顺序的人类挖掘机操作中起重要作用。这种人类行为模式倾向于不经过试验来建模和考虑。

基于学习的任务规划方法已引起越来越多的关注，并在机器人技术领域得到了积极的研究。一些基于模仿学习的方法集中在开发神经网络模型以从人类演示中学习基础序列决策策略。其他人利用基于强化学习的方法来进一步探索解决方案空间，以便获得改进的效率。这些基于学习的方法能够推广到具有变化的环境的多个任务中，以及继承隐藏的人类行为模式。这些属性使得基于学习的方法对于自动挖掘任务规划是可行的和实用的选择。然而，这种应用还没有得到充分的研究，特别是对于复杂的挖掘任务。

在本公开的一个或多个实施方式中，采用基于学习的方法来解决施工任务规划问题。例如，在挖掘任务中，操作序列可被分成移动基座和臂操纵，而臂操纵可进一步分解成选择下一挖掘点和以选定深度挖掘特定位置。利用了挖掘任务的这种分层性质，并且公开了具有多层模型的TaskNet架构的实施方式，以将高级任务转换为子任务，然后转换为任务基元。

本专利公开的贡献包括一种新颖的基于神经网络的任务规划制定，其利用任务表示(例如，挖掘任务)的结构以及各个模型的分层结构。本发明的一个实施方式将观察结果顺序地转换为潜在空间表示，并将详细的规范传达给子级模型。

另外，在模型中利用卷积层来处理任务和观察表示，以及历史数据，历史数据利用历史信息和训练过程的速度。在一个或多个实施方式中，可单独训练单个的模型层以确保鲁棒性能。已经证明，本模型的实施方式可通过观察环境反馈在用于闭环执行的实时系统中实现。此外，本方法的实施方式能够从人类专家数据中学习并继承隐藏的行为模式。

应当理解，尽管本发明的一个或多个实施方式使用挖掘作为示例，但是那些实施方式中的过程和模型结构也可适用于其它建筑、农业或工业应用或车辆，诸如前装载机、反铲等。

B.一些相关工作

1.自动挖掘机的任务规划

给定挖掘任务，自动挖掘机需要规划用于生成挖掘操作序列的总体挖掘策略。现有的任务规划方法主要利用状态间基于规则的转换的有限状态机(FSM)。一些介绍了一种称为批量挖掘参数化脚本的方法，该方法以一系列步骤来描述所需的任务。每个步骤均表示为具有基于事件的转换的FSM的状态。类似地，一些构建了另一个轮式装载机规划系统。用于模拟中的轮式装载机的操作的虚拟操作员模型基于环境条件产生控制输入，其中涉及基于事件的有限状态机。

除了FSM之外，引入基于行为的方法来设计挖掘任务规划器，其中，挖掘任务拆分为不同的阶段和基元，其中，采用基于规则的转换将任务划分为阶段，然后划分为基元。一些提出了一种基于高级规则的挖掘任务规划器，包括工作区域分割、将地形分解为层以及移动基座的调度和规划等。该方法已通过实际世界系统中成功地实现桩基加载任务而得到证实。

2.机器人任务和运动规划

任务和运动规划(TAMP)问题在机器人技术中已经被大量研究。大多数现有方法涉及用于任务分解的不同级别的推理。一类TAMP考虑了任务规划阶段期间的几何约束。一些提出了运动学约束问题来解决几何推理和任务规划，其中，引入了基于优化的方法来实现目标几何状态。TAMP中的另一主题集中于使用任务的符号表示的高级逻辑推理。一些描述了用于规划的符号表示方法，证明了符号能够表示规划代理能够带来的条件和效果。一些还开发了基于采样的TAMP编码方法，使用符号表示对逻辑进行编码。一些制定了基于时间逻辑规范的运动规划问题，其也试图揭示任务序列排序背后的逻辑。

虽然已经取得了进展，但是开发集成TAMP方法的主要挑战仍然在于将离散决策和高维连续运动搜索相结合，同时确保满足所有约束。在自动挖掘机任务环境中，环境是可变形和变化的，这导致了计算可行任务规划的困难。

3.基于学习的神经程序设计

在深度学习中，特别是在神经程序设计中的最新研究成果提出了解决任务规划问题的新视角。这些方法开发神经网络模型以从训练数据中学习基础序列决策策略。介绍了神经程序设计解释器(NPI)在神经程序设计领域的一个突破。NPI是经由模拟学习训练的神经网络模型，用于模拟计算机程序的功能。经学习的模型可递归地触发程序，终止程序或者以递归的方式返回到上层程序。如果将程序作为任务进行比较，则这种分层布局与挖掘任务规划器共享相似性。一些研究继承了NPI的思想，并将其扩展到神经任务程序设计(NTP)，这对于任务规划问题更具特殊性。NTP明确地将任务规范的分解引入到更精细的子任务规范中，并进一步引入到子例程中，这些子例程与任务规划问题中的基元相当。NTP对具有分层结构的顺序任务显示出很强的泛化能力。

挖掘特定的任务规划方法遇到一般化的问题，其中，所设计的规划器难以重新用于不同的场景和任务。相反，基于学习的任务规划方法分别具有对环境条件和任务目标的适应和泛化潜力。本专利公开的一个或多个实施方式旨在弥合挖掘任务规划与基于学习的神经程序设计方法之间的间隙。

C.TaskNet规划器的实施方式

1.问题定义

在一个或多个实施方式中，任务规划的问题被考虑用于自动挖掘机。一些实施方式集中于挖掘任务，例如挖沟、挖掘和材料再定位，其涉及改变地形形状的形状。在一个或多个实施方式中，

是任务描述的集合，以及

表示所有环境观察值的集合。函数

用于证明任务是已完成(g＝1)还是未完成(g＝0)。要设计的任务规划器能够将这种主任务拆分成子任务序列，然后拆分成分别具有规范的任务基元。

用于子任务的集合，以及

表示子任务规范的集合。

用于任务基元的集合，以及

表示任务基元规范的集合。规范字段帮助低级运动规划器和控制器的高成功率执行。此外，利用一些数据驱动的方法来解决这种任务规划问题，以模拟人类的行为。在一个或多个实施方式中，可描述的正式问题语句如下：

问题1：在给定时间t时的环境观察反馈

和任务描述

的情况下，设计可生成子任务序列和规范的任务规划器

[(s₁，a₁)，(s₂，a₂)，(s₃，a₃)，...，(s_m，a_m)]，

其中，

以及

此外，规划器可将这样的序列转换为具有详细规范的任务基元

Φ＝[(p₁，b₁)，(p₂，b₂)，(p₃，b₃)，...，(p_n，b_n)]，

其中，

以及

因此，在执行任务基元之后，g(t_a，o(t))＝1。

2.用于环境和任务表示的网格地图

在一个或多个实施方式中，环境可表示为2D网格图。G(p，q)表示地形的网格图的第p行和第q列中的单元的高度值。图1示出了网格高度图的示例，其从真实世界中捕获的3DLIDAR点转换。与原始3D点、3D网格或其它表示相比，网格地图表示可方便地用作神经模型的卷积层的张量输入。在一个或多个实施方式中，通过使用网格地图表示，环境特征也可被卷积神经层有效地学习。

典型的挖掘任务可改变地形的形状，这可通过为网格图中的每个单元指定目标高度G_target来限定。在一个或多个实施方式中，一般的高级任务可指定为：

其中，∈是挖掘精度公差参数。

通过指定该函数G_target，可限定不同的挖掘任务。例如，具有常数0的G_target可限定用于分级区域的任务，以及具有常数负值的G_target可限定用于挖掘具有目标深度的沟槽的任务。

如图2中所示，给定环境的网格图210，还可限定图块图G_tile220。在图块图中，每个图块均是矩形形状并且可包括多个单元。单元图G_cell230还可进一步限定为整个网格图的切取的子图。如果这个块内的每个单元都已处理，则G_tile(p，q)设置为0；否则G_tile(p，q)为1。给定挖掘任务，挖掘机逐块地处理图块，直到所有图块都已被处理。

3.方法概述

在一个或多个实施方式中，将神经程序设计用于方法实施方式，其中，将一般任务作为输入并且子任务或任务基元被递归地触发。在挖掘任务实施方式中，操作序列可被分成两个类别。一种是将车辆基座移动到一位置，另一种是在基座保持静止的同时进行挖掘。此外，在利用静态基座进行挖掘的同时，挖掘机臂的运动可分解为选择下一挖掘点和以选定深度挖掘特定位置。根据这种观察，限定了子任务和任务基元的分层定义，并在表1中示出。

表1。子任务和基元列表

在一个或多个实施方式中，公开了基于神经网络的任务规划器(或任务规划网络，TPN)，其可包括将任务转换为运动基元的两层模型。第一模型是子任务确定模型(SDM)，其也可被称为图块挖掘模型(TEM)，即Ψ_TEM(·)，在下文描述的一个或多个实施方式中，用于确定一个或多个期望的子任务。第二模型是基元确定模型(PDM)，其也可被称为单元挖掘模型(CEM)，即Ψ_CEM(·)，在下文描述的一个或多个实施方式中，用于至少基于子任务输入来确定一个或多个期望的任务基元。

在一个或多个实施方式中，在给定环境观察反馈o(t)的情况下，TEM模型选择与特定规范

一起触发的子任务

并确定是否终止规划器t_e∈{0，1}。在一个或多个实施方式中，该过程可由(2)描述。

(s(t)，a(t)，t_e)＝Ψ_TEM(t_a，o(t)) (2)

类似地，基于局部环境观察值

子任务s(t)和规范a(t)，CEM生成期望的任务基元

运动规范

以及子任务是否完成，如(3)中所表示的。

在一个或多个实施方式中，PDM模型可以是当由TEM模型确定的子任务是move_to_tile子任务分配时处理路径规划问题的路径规划模块。路径规划模块可限定为：

其中，

是当

时指示子任务完成或当

时指示子任务未完成的指示符。应当注意，为了区分两个模型之间的时间尺度，TEM的索引是t，以及CEM/PATH的索引是i。在一个或多个实施方式中，总体任务规划方法可在方法学1中示出。

方法学1.TaskNet-挖掘机任务规划器

输入：任务描述

和环境观察值

输出：任务基元序列Φ

4.从离散规划到连续运动

在一个或多个实施方式中，所呈现的分层任务规划器分解高级任务并相应地产生具有规范的任务基元序列。例如，如图3中图示，沟槽区域任务可拆分成任务基元序列。在一个或多个实施方式中，对于现有规划算法，所生成的基元序列是自然直接的运动规划问题。这些具有详细规范的任务基元馈送到运动规划器以用于轨迹生成。然后，通过挖掘机控制器执行关节运动或挖掘机基座运动的轨迹。

图4描绘了根据本文件的实施方式的执行任务规划的过程。给定主要任务描述(例如，t_a＝trench_area)和环境观察值o(t)，SDM模型Ψ_TEM(320、322、324或326)首先确定(405)子任务。响应于子任务是move_to_tile，调用(410)子任务规划模块Ψ_PATH(330或332)以生成到全局帧中的目标点或图块的轨迹；在成功到达目标点之后

规划过程返回(415)Ψ_TEM。响应于Ψ_TEM生成局部执行子任务，例如用于触发PDM模型Ψ_CEM(340、342、344或346)的excavate_tile的子任务，用于挖掘运动；Ψ_CEM模型产生(420)各种任务基元以完成子任务，并在完成时输出

(子任务完成信号)；诸如move_base 331、接近341和挖掘343的每个任务基元的执行会影响环境，从而影响或更新观察值o(t)和

Ψ_TEM最终终止(425)整个过程并设置t_e＝1(任务完成信号)，同时监视观察值o(t)。

D.模型实施方案

在一个或多个实施方式中，提出了用于第一模型(例如，图块挖掘模型(TEM))和第二模型(例如，单元挖掘模型(CEM))的设计。两个模型可共享类似的结构，其可包括四个子模型，即规划内核f_core、子任务或基元解码器f_x、规范解码器f_spec和终止解码器f_term。在一个或多个实施方式中，给定一般输入表示u，模型的一般工作流可在等式(5)中描述。

x＝f_core(u)，y₁＝f_x(x)，y₂＝f_spec(x)，y₃＝f_term(x) (5)

其中，y₁∈{s(t)，p(i)}是子任务或基元；y₂∈{a(t)，b(i)}是规范；以及

表示终止指示符。在下面的描述中提供了每个规划模型的细节。

1.图块挖掘模型实施方式

图5描绘了根据当前公开的实施方式的系统模型结构。在一个或多个实施方式中，在图块挖掘计划层级处，在给定图块图作为输入任务的情况下，需要确定全局图块序列以覆盖较大地形。TEM 510可基于最新的图块图和处理的图块的历史来预测挖掘机需要操作的下一个图块。具体而言，TEM 510可采用图块图G_tile(t)511的输入和过去的子任务序列(s(t)，s(t-1)，...，s(t-k))512。因此，TEM的输入可表示为：

u(t)＝(G_tile(t)，(s(t)，s(t-1)，...，s(t-k))) (6)

在一个或多个实施方式中，TEM 510可包括第一规划内核513，该第一规划内核513包括多个卷积层以处理环境表示511(例如，图块图)，从而从环境表示511中提取特征514(例如，潜在空间表示)。提取的特征514传送到TEM中的其它子模型，用于进一步处理。在一个或多个实施方式中，TEM 510还可包括输出子任务move_to_tile或excavate_tile的子任务解码器515、输出子任务的规范的第一规范解码器516、以及输出任务终止状态以指示输入任务是否完成的第一终止解码器517。

响应于TEM输出运动子任务(例如，move_to_tile)，可从四个可能的方向{左、右、下、上}中选择相关联的规范来指示下一个要移动的图块。在给定移动方向的情况下，可计算全局坐标位置以指定挖掘机的基座移动到何处。然后，路径规划模块520使用子任务move_to_tile的信息、相关联的规范和全局坐标来执行挖掘机运动。

在一个或多个实施方式中，TEM可输出子任务excavate_tile。该图块的规范是该图块内单元的网格图。然后CEM 530使用子任务excavate_tile、单元图532的相关规范来执行图块挖掘。在一个或多个实施方式中，CEM 530可包括第二规划内核533，该第二规划内核533包括多个卷积层以处理单元图532，从而提取特征534。在一个或多个实施方式中，历史信息，例如历史接近点也可由第二规划内核533用于特征提取。在一个或多个实施方式中，CEM 530还可包括输出期望基元的基元解码器535、输出基元的规范的第二规范解码器536、以及输出子任务终止状态以指示子任务是否完成的第二终止解码器537。

在一个或多个实施方式中，为了模拟来自训练数据的图块处理顺序，还可使用已处理图块的历史记录512。在一个或多个实施方式中，将图块移动方向的过去序列叠加为具有从图块图中提取的特征的向量。级联向量馈送到多个全连接的连接层，产生适当的子任务。与使用基于LSTM的架构的NPI模型不同，在本发明的一个或多个实施方式中，选择堆叠历史信息作为完全连接层的输入，主要用于有效训练和快速收敛。

2.单元挖掘模型实施方式

在一个或多个实施方式中，单元挖掘模型由具有其规范的图块挖掘子任务触发，如图5中所示。在一个或多个实施方式中，该规范是局部地形高度图，它是整个任务地形高度图的一部分，由图块挖掘模型切取。在给定局部地形图的情况下，单元挖掘模型生成接近和挖掘的任务基元的一个或多个序列。

在一个或多个实施方式中，给定具有其规范的子任务excavation_tile，根据规范a和最后任务基元接近规范b(i-1)，模型的输入由局部地形观察值

其表示为二维单热向量。在一个或多个实施方式中，单元挖掘模型的输入可表示为：

其中，h和w是局部地形观察值的高度和宽度。在(5)之后，内核模型首先采用这种输入u(i)并产生局部规划状态

其次，图元解码器采用局部规划状态产生图元选择p(i)，图元选择p(i)为“接近”末端执行器到某一点，或者“挖掘”当前位置一定深度；规范解码器采用

从而为每个图元产生规范b(i)，即，“接近”图元的local_coordinate或“挖掘”图元的深度。在一个或多个实施方式中，输出可表示为单热向量。终止解码器也采用

来预测子任务是否已完成的

图6示出了具有h＝4和w＝3的局部地形挖掘的示例。在包括3×4＝12的单元620的图块610上实施局部地形挖掘。在其它情况下，图块的高度和宽度可变化。

3.模型训练实施方式

在一个或多个实施方式中，SDM模型(例如，TEM)和PDM模型(例如，CEM)都以类似监督的方式用执行轨迹序列训练。可用子任务训练数据集来训练SDM模型，并且可使用基元训练数据集来训练PDM模型。一般的符号表示可用于模型的输入和输出，以均匀地描述训练过程。在一个或多个实施方式中，所记录的序列是输入输出对

的列表，其中，u、y₁、y₂和y₃分别由(5)、(6)和(7)限定到TEM和CEM模型。

在一个或多个实施方式中，训练目标是使生成正确的执行序列对的概率最大化，即，将最优模型参数θ^*限定为：

在一个或多个实施方式中，损失函数可限定为预测的子任务/基元、规范、终止状态和记录的训练数据中的那些之间的误差的加权和。损失函数可表示如下：

其中，α、β和γ是参数，以及

和

都是交叉熵损失。对于SDM，损失函数可称为第一损失函数，其中，损失项

表示预测的子任务与记录的子任务之间的误差。而对于PDM，损失函数可称为第二损失函数，其中，损失项

表示预测的基元与记录的基元之间的误差。

E.一些试验结果

应注意的是，这些试验和结果以说明的方式提供，并且使用一个或多个的具体实施方式在具体条件下执行；因此，这些试验或其结果不应当用于限制本专利文件的公开的范围。

在一个或多个试验设置中，为了评估所提出的方法的性能，首先训练和测试TEM和CEM模型。进一步实施神经任务规划器TaskNet的实施方式，并将其与基于逆运动学的臂运动规划器集成在一起。对于各种挖掘场景，在基于3D物理的模拟器上进一步测试整个系统。

1.数据采集与模型实施例

在一个或多个实施例中，经由被称为轨迹生成器的定制程序来生成用于TEM和CEM模型的训练数据序列。

图块挖掘模型轨迹生成器包括用于管理图块图的画板和图块挖掘模拟模块。画板可用随机化的行和列来初始化图块图。画板具有应用编程接口(API)：用于将其当前图块指针改变到其相邻图块的“移动图块”，以及用于改变当前图块的挖掘状态(例如，从未处理到处理)的“挖掘图块”。在一个或多个设置中，模拟在真实世界中观察到的那些典型的挖掘顺序。在图2中示出了由挖掘机操作员用于大型工作区域的一种常见的横向顺序是Z字形顺序。训练数据由1000个不同尺寸的图块图组成，在总共71066个样本中，尺寸高达12×12，其中，每个样本均限定为包括当前图块图和下一个子任务的观察反馈o(t)。在一个或多个实施例中，128的批量大小和学习速率1e-4被用于训练。图7A至图7F描绘了根据本公开的实施方式的具有跳过行的图块图。如图7A至图7F所示，TEM可学习模型以跳过那些明确标记为非挖掘状态的行。为了跳过这种行，一个或多个模型实施方式利用卷积层并获知该行中的每个图块均是非挖掘状态。在图7A中，将跳过灰色行710，深灰色720中的图块指示图块图的边界，且仅需要处理浅灰色图块730。图7B至图7F示出了经训练的TEM模型能够跳过行并且只处理需要挖掘的浅灰色行。此外，经学习的TEM模型的实施方式可以以Z字形顺序覆盖图块，如训练数据中所示。

在一个或多个试验设置中，进一步评估TEM泛化能力。生成包括3,000个不同尺寸的图块的数据集，图块最大尺寸为32×32，总共有1,126,900个样本。随机生成每个网格图以包括挖掘和非挖掘图块。在该数据集上训练一个或多个TEM实施方式，并在随机生成的图块图上测试，图块图不存在于训练数据集中。图8A至图8F描绘了根据本文件的实施方式的随机化的图块图。如图8A至图8F所示，经学习的TEM模型的实施方式可跳过非挖掘图块，并以Z字形的顺序覆盖其余图块。在图8A中，随机生成初始30×30的图块图。TEM模型仅需要处理所有深灰色图块810，同时跳过所有灰色图块820。图8B至图8F示出TEM模型能够跳过图块并且仅处理需要挖掘的那些图块。经学习的TEM模型的实施方式可以以Z字形顺序覆盖图块。该模型能够推广到训练数据集中不存在的未见的随机生成的图块图。

单元挖掘模型还可用轨迹生成器以类似的方式训练，以生成合成数据。另一画板用执行API进行初始化：“接近”和“挖掘”。在一个或多个试验设置中，CEM模型的训练数据包括10,000个序列，最大尺寸为6×6。模型的实施方式以1e-3的学习速率和1,000的批量大小来训练。在当前实施例中，生成器程序遵循逻辑以接近最高单元并首先挖掘，在实际中可能不是这样的情况。然而，经训练的模型的实施方式能够遵循数据中的相同逻辑并完成挖掘任务。

2.一些规划器实施例和模拟结果

在一个或多个试验设置中，任务规划器TaskNet的实施方式使用经训练的模型“图块挖掘模型”和“单元挖掘模型”来实现。任务规划器输入高级任务，诸如挖掘具有所需深度的矩形形状。任务规划器对任务进行分解，并生成具有用于运动规划器的规范的运动基元序列。运动规划器模型基于规范计算出可行的臂和基座运动。对于臂运动，使用逆运动学求解器来计算关节构造。任务规划器的实施方式将基元分配给在3D模拟环境中运行的模拟挖掘机。在试验中，使用具有3.5吨的挖掘机的模型。挖掘机模型具有2.00米臂长、1.05m杆长、0.60m铲斗长度和0.35m基座高度。该模拟器能够使用基于粒子的地形模拟方法模拟挖掘机的动力学特性及其与地形的相互作用。

图9和图10突出了在实时3D模拟器上的两个挖掘场景的试验结果。在系统在不同阶段的闭环执行过冲期间，示出了地形图的变化。对于图9中所示的沟槽挖掘场景，TaskNet规划器的实施方式生成了似乎合理的任务规划，该任务规划重复了利用多个挖掘和倾卸操作挖掘图块的步骤，以及将基底向后移动到所需位置的步骤。对于图10中所示的较大地形区域上的多个沟槽挖掘的示例，规划器能够分层地分解高级任务，并利用Z字形覆盖顺序来计算可行的任务规划。总之，如这些试验结果所示，TaskNet规划器的实施方式可从演示数据中学习常见的挖掘任务分解策略，以减少挖掘机基座运动并确保总体挖掘效率。

F.传感器平台实施方式

图11示出了根据本文件的实施方式的具有用于任务规划实现的各种传感器的传感器平台。尽管图11使用例如挖掘机1105，但是在该示例中的实施例和传感器平台可适用于其它构造、农业或工业应用或车辆，例如前装载机、反铲等。

如图11中所示，挖掘机1105包括多个传感器以检测环境和/或挖掘机状态。在一个或多个实施方式中，多个传感器可包括：一个或多个测斜仪1116(例如，Gefran GIB传感器)，用于测量挖掘机臂1110的吊杆、杆和/或铲斗的角度；一个或多个距离传感器1114(例如，Gefran GSF传感器)，用于测量液压缸1112的行进距离，以实现吊杆、杆和/或铲斗的移动；用于液压缸的一个或多个液压压力传感器1118(例如，NAGANO-Keik KM10-1C4传感器)，一个或多个编码器1107(例如，LEINE-LINDE ISA608编码器)，用于测量机舱1108的旋转。在一个或多个实施方式中，每个液压缸均可具有用于液压压力监测的两个液压压力传感器。在一个或多个实施方式中，多个传感器还可包括环境传感器和控制组件1120，其可包括一个或多个视觉传感器1122(例如，一个或多个立体摄像机)、GPS或惯性测量单元(IMU)传感器、或用于计算挖掘机1105的定向和速度的其它UAV传感器。在一个或多个实施方式中，环境传感器和控制组件1120可包括具有存储器的计算机或控制板，存储器存储包括用于任务规划的一个或多个指令序列的非暂时性计算机可读介质。

在一个或多个实施方式中，对于任务实现，在感知阶段1130，接收一个或多个环境状态和一个或多个挖掘机状态。可使用环境传感器和控制组件1120中的多个传感器来获得一个或多个环境状态，并将其存储为图像或点云。可使用并入挖掘机1105中的多个传感器，例如液压缸距离传感器、液压压力传感器来获得一个或多个挖掘机状态。在接收到环境状态和挖掘机状态时，在规划器阶段1140中实施任务规划。在一个或多个实施方式中，任务规划可以是例如规划底盘路径的运动子任务，或例如规划臂轨迹的局部执行子任务。规划的子任务被传递到控制器1150用于实现。在一个或多个实施方式中，控制器可输出命令以根据规划的底盘路径移动挖掘机的底盘，或根据规划的臂轨迹移动臂。

G.一些结论

在本公开中，公开了用于自动车辆(例如，挖掘机)的新型神经挖掘任务规划器-TaskNet的实施方式。所公开的神经任务规划器的实施方式包含两个基于学习的神经网络模型。第一模型是设计用于学习图块级挖掘策略的图块开挖模型(TEM)，以及第二模型是设计用于确定合适的挖掘单元的单元挖掘模型(CEM)。在一个或多个实施方式中，使用轨迹生成器训练神经任务模型，并使用这些训练的模型实现TaskNet规划器。用3D实时基于物理的地形和挖掘机模拟器测试规划器，以用于闭环执行。试验结果表明，TaskNet规划器的实施方式可有效地学习常见的任务分解策略，并为不同的挖掘任务生成似乎合理的任务规划。

本领域的技术人员将认识到，对于共享两个模型的内核的两个神经程序设计模型，可容易地修改或改变这里的实施方式，使得两个模型最终可以是统一的，并且可具有更好的泛化能力和与更多任务、子任务和任务基元合成的能力。本领域的技术人员还应该认识到，这里的实施方式可扩展以收集真实世界的专家操作数据并且在真实的挖掘机平台上进行测试。

H.系统实施方式

在实施方式中，本专利文献的方面可涉及、可包括一个或多个信息处理系统/计算系统或者可在一个或多个信息处理系统/计算系统上实施。计算系统可包括可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如，计算系统可为或可包括个人计算机(例如，膝上型计算机)、平板电脑、平板手机、个人数字助理(PDA)、智能手机、智能手表、智能包装、服务器(例如，刀片式服务器或机架式服务器)、网络存储设备、摄像机或任何其他合适设备，并且可在大小、形状、性能、功能和价格方面改变。计算系统可包括随机存取存储器(RAM)、一个或多个处理资源(例如中央处理单元(CPU)或硬件或软件控制逻辑)、ROM和/或其他类型的存储器。计算系统的另外组件可包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出(I/O)设备(例如键盘、鼠标、触摸屏和/或视频显示器)。计算系统还可包括可操作为在各种硬件组件之间传输通信的一个或多个总线。

图12描绘根据本公开的实施方式的计算设备/信息处理系统(或是计算系统)的简化框图。应理解，计算系统可不同地配置并且包括不同组件，包括如图12中所示的更少或更多的部件，但应理解，针对系统1200所示出的功能可操作为支持计算系统的各种实施方式。

如图12所示，计算系统1200包括一个或多个中央处理单元(CPU)1201，CPU 1201提供计算资源并控制计算机。CPU 1201可实施有微处理器等，并且还可包括一个或多个图形处理单元(GPU)1219和/或用于数学计算的浮点协处理器。系统1200还可包括系统存储器1202，系统存储器1202可呈随机存取存储器(RAM)、只读存储器(ROM)、或两者的形式。

如图12所示，还可提供多个控制器和外围设备。输入控制器1203表示至各种输入设备1204的接口，例如键盘、鼠标、触摸屏和/或触笔。计算系统1200还可包括存储控制器1207，该存储控制器1207用于与一个或多个存储设备1208对接，存储设备中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作系统、实用工具和应用程序的指令的程序，它们可包括实施本发明的各方面的程序的实施方式)。存储设备1208还可用于存储经处理的数据或是将要根据本发明处理的数据。系统1200还可包括显示控制器1209，该显示控制器1209用于为显示设备1211提供接口，显示设备1211可为阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或其他类型的显示器。计算系统1200还可包括用于一个或多个外围设备1206的一个或多个外围控制器或接口1205。外围设备的示例可包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器1214可与一个或多个通信设备1215对接，这使系统1200能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN))中的任一网络，或通过任何合适电磁载波信号(包括红外信号)来连接至远程设备。

在示出的系统中，所有主要系统组件可连接至总线1216，总线1216可表示多于一个的物理总线。然而，各种系统组件可在物理上彼此接近或可不在物理上彼此接近。例如，输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外，实现本发明的各方面的程序可经由网络从远程位置(例如，服务器)访问。此类数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送，机器可读介质包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及硬件设备，该硬件设备专门被配置成存储或存储并执行程序代码，该硬件设备例如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。

本发明的方面可利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意，一个或多个非暂态计算机可读介质应当包括易失性存储器和非易失性存储器。应注意，替代实现方式是可能的，其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“手段”旨在涵盖软件实现方式和硬件实现方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式，应当理解，附图以及随附描述提供本领域的技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理所要求的功能信息。

应当注意，本发明的实施方式还可涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本发明的目的而专门设计和构造的介质和计算机代码，或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，例如，专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。计算机代码的示例包括机器代码(例如，编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本发明的实施方式可整体地或部分地实施为可在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布的计算环境中，程序模块可物理上定位在本地、远程或两者的设定中。

本领域的技术人员将认识到，计算系统或编程语言对本发明的实践来说均不重要。本领域的技术人员将还将认识到，多个上述元件可物理地和/或在功能上划分成子模块或组合在一起。

本领域技术人员将理解，前文的示例和实施方式是示例性的，并且不限制本公开的范围。旨在说明的是，在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本发明的所有、置换、增强、等同、组合或改进包括在本公开的真实精神和范围内。还应注意，任何权利要求书的元素可不同地布置，包括具有多个从属、配置和组合。

Claims

1.一种用于训练任务规划网络以执行任务的计算机实施的方法，所述方法包括：

使用包括第一记录的输入输出对序列的子任务训练数据集来训练子任务确定模型，其中，每个输入输出对均具有包括环境观察数据的输入和记录的输出，所述子任务确定模型包括第一规划内核、子任务解码器、第一规范解码器和第一终止解码器，所述子任务确定模型的训练包括：

至少基于所述环境观察数据，使用所述第一规划内核提取特征；

至少基于从所述环境观察数据中提取的所述特征，使用所述子任务解码器生成预测子任务；

至少基于从所述环境观察数据中提取的所述特征，使用所述第一规范解码器生成与所述预测子任务相对应的第一预测规范；

至少基于从所述环境观察数据中提取的所述特征，使用所述第一终止解码器生成指示所述任务是否完成的第一预测终止状态；以及

基于所述第一记录的输入输出对序列以及所述预测子任务、所述第一预测规范和所述第一预测终止状态，使用第一损失函数训练所述子任务确定模型；

使用包括第二记录的输入输出对序列的基元训练数据集来训练基元确定模型，其中，每个输入输出对均具有包括局部环境观察数据的输入和记录的输出，所述基元确定模型包括第二规划内核、基元解码器、第二规范解码器和第二终止解码器，所述基元确定模型的训练包括：

至少基于所述局部环境观察数据，使用所述第二规划内核提取特征；

至少基于从所述局部环境观察数据中提取的所述特征，使用所述基元解码器生成预测基元；

至少基于从所述局部环境观察数据中提取的所述特征，使用所述第二规范解码器生成与所述预测基元相对应的第二预测规范；

使用所述第二终止解码器生成指示所述子任务是否完成的第二预测终止状态；以及

基于所述第二记录的输入输出对序列和所述预测基元、所述第二预测规范和所述第二预测终止状态，使用第二损失函数训练所述基元确定模型；以及

通过将作为所述任务规划网络的第一阶段的经训练的子任务确定模型和作为所述任务规划网络的第二阶段的经训练的基元确定模型组合来生成经训练的任务规划网络。

2.根据权利要求1所述的计算机实施的方法，其中，所述任务规划网络还包括：

路径确定模块，联接至所述子任务确定模型，响应于从所述子任务确定模型输出的子任务是运动子任务，所述路径确定模块确定用于执行所述运动子任务的轨迹。

3.根据权利要求1所述的计算机实施的方法，其中，从所述环境观察数据提取的所述特征是潜在空间表示。

4.根据权利要求1所述的计算机实施的方法，其中，所述第一规划内核和所述第二规划内核由所述基元确定模型和所述子任务确定模型共享。

5.根据权利要求1所述的计算机实施的方法，其中，第一损失是所述第一记录的输入输出对序列中的所述预测子任务、所述第一预测规范、所述第一预测终止状态与相应的记录的子任务、记录的规范、记录的终止状态之间的误差的加权和。

6.根据权利要求1所述的计算机实施的方法，其中，第二损失是所述第二记录的输入输出对序列中的所述预测基元、所述第二预测规范、所述第二预测终止状态与相应的记录的子任务、记录的规范、记录的终止状态之间的误差的加权和。

7.根据权利要求1所述的计算机实施的方法，其中，所述局部环境观察数据是从所述环境观察数据中切取的。

8.一种用于使用任务规划网络执行的计算机实施的方法，所述方法包括：

至少给定任务描述和环境观察数据，使用子任务确定模型输出子任务、与所述子任务相关联的规范以及指示所述任务是否完成的任务终止状态；

在所述任务终止状态指示任务完成之前，迭代包括以下的步骤：

响应于所述子任务作为运动子任务，

调用子任务规划模块以生成到全局帧中的目标点的轨迹，并在到达所述目标点后返回所述子任务确定模型；

响应于所述子任务作为局部执行子任务，

至少基于所述局部执行子任务和局部环境观察数据，使用基元确定模型产生一个或多个任务基元；

执行所述一个或多个任务基元，并更新所述局部环境观察数据和所述环境观察数据；

在完成所述局部执行子任务后返回所述子任务确定模型。

9.根据权利要求8所述的计算机实施的方法，其中，所述子任务确定模型和所述基元确定模型是预训练的。

10.根据权利要求8所述的计算机实施的方法，其中，所述子任务确定模型包括：

第一规划内核，在给定所述任务的情况下，从所述环境观察数据中提取特征；

子任务解码器，联接至所述第一规划内核，所述子任务解码器至少基于从所述环境观察数据中提取的所述特征来生成所述子任务；

第一规范解码器，联接至所述第一规划内核，所述第一规范解码器至少基于从所述环境观察数据中提取的所述特征来生成与所述子任务相对应的规范；以及

第一终止解码器，联接至所述第一规划内核，所述第一终止解码器生成指示所述任务是否完成的所述任务终止状态。

11.根据权利要求10所述的计算机实施的方法，其中，所述子任务解码器至少基于从所述环境观察数据中提取的所述特征来生成所述子任务还包括：

将过去的运动方向序列叠加为具有从所述环境观察数据中提取的所述特征的向量，以形成级联向量；以及

将所述级联向量馈送到所述子任务解码器中的一个或多个全连接的连接层，以生成所述子任务。

12.根据权利要求10所述的计算机实施的方法，其中，所述基元确定模型包括：

第二规划内核，在给定从所述子任务确定模型输出的所述子任务的情况下，使用至少包括所述局部环境观察数据的输入来提取特征；

基元解码器，联接至所述第二规划内核，所述基元解码器至少基于从所述局部环境观察数据中提取的所述特征来生成所述基元；

第二规范解码器，联接至所述第二规划内核，所述第二规范解码器至少基于从所述局部环境观察数据中提取的所述特征来生成与所述基元相对应的规范；以及

第二终止解码器，联接至所述第二规划内核，所述第二终止解码器生成指示所述子任务是否完成的子任务终止状态。

13.根据权利要求12所述的计算机实施的方法，其中，对所述第二规划内核的输入还包括与最后一个基元相关联的规范。

14.根据权利要求12所述的计算机实施的方法，其中，所述第一规划内核和所述第二规划内核由所述基元确定模型和所述子任务确定模型共享。

15.根据权利要求12所述的计算机实施的方法，其中，所述局部环境观察数据是从所述环境观察数据中切取的。

16.一种用于使用任务规划网络执行任务规划的计算机实施的方法，所述方法包括：

将环境观察数据和任务输入到经训练的任务规划网络中，所述经训练的任务规划网络包括：

子任务确定模型，包括：

子任务解码器，联接至所述第一规划内核，所述子任务解码器至少基于从所述环境观察数据中提取的所述特征来生成子任务；

第一终止解码器，联接至所述第一规划内核，所述第一终止解码器至少基于所述环境观察数据生成指示所述任务是否完成的任务终止状态；

基元确定模型，包括：

第二规划内核，响应于从所述子任务确定模型输出的所述子任务是局部执行子任务，使用至少包括与所述子任务相关联的局部环境观察数据的输入来提取特征；

基元解码器，联接至所述第二规划内核，所述基元解码器至少基于从所述局部环境观察数据中提取的所述特征来生成一个或多个基元；

第二终止解码器，联接至所述第二规划内核，所述第二终止解码器生成指示所述子任务是否完成的子任务终止状态；

当执行所述一个或多个基元时，更新所述局部环境观察数据和所述环境观察数据；以及

当所述任务终止状态指示所述任务完成时，由所述子任务确定模型终止所述任务规划。

17.根据权利要求16所述的计算机实施的方法，其中，对所述第二规划内核的输入还包括与最后一个基元相关联的规范。

18.根据权利要求16所述的计算机实施的方法，其中，所述局部环境观察数据是从所述环境观察数据中切取的。

19.根据权利要求16所述的计算机实施的方法，其中，所述子任务解码器至少基于从所述环境观察数据中提取的所述特征来生成子任务还包括：

20.根据权利要求16所述的计算机实施的方法，其中，所述第一规划内核和所述第二规划内核由所述基元确定模型和所述子任务确定模型共享。