CN117972430A

CN117972430A - 一种变化语言指令下机器人任务学习与评估方法及装置

Info

Publication number: CN117972430A
Application number: CN202410167892.8A
Authority: CN
Inventors: 王涛; 张立家; 罗良
Original assignee: Guangdong Nengge Knowledge Technology Co ltd
Current assignee: Guangdong Nengge Knowledge Technology Co ltd
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-05-03

Abstract

本申请公开了一种变化语言指令下机器人任务学习与评估方法及装置，方法包括：获取机器人的任务数据集；根据任务数据集中的语言指令编辑任务数据集，得到新的任务数据集作为变化语言指令数据集；利用变化语言指令数据集训练机器人的任务规划模型；利用变化语言指令数据集对经过训练后的任务规划模型的输出结果进行评估，得到评估结果。通过构建变化语言指令数据集并据此训练机器人的任务规划模型，提高模型对语言指令变化的适应性，解决序列到序列模型依赖固定模式的问题；通过评估模型在变化语言指令数据集上的性能，强化模型对语言理解的能力，解决Transformer模型对语言依赖不足的问题，可广泛应用于人工智能技术领域。

Description

一种变化语言指令下机器人任务学习与评估方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种变化语言指令下机器人任务学习与评估方法及装置。

背景技术

随着人工智能和计算机视觉技术的发展，互动式视觉环境中的机器人指令理解和执行成为人工智能的重要研究领域。在虚拟三维环境中，使机器人能根据自然语言指令进行导航和操作对象，完成日常生活任务，对机器人的智能化具有重要意义。

目前使用序列到序列模型或Transformer模型在三维虚拟场景中指导机器人完成取放物体等简单任务，但存在以下问题：1)序列到序列模型虽然可以完成一定的机器人任务，但是其生成的动作序列过于死板，无法对失败动作进行修正。这主要是由于序列到序列结构限制了模型修改已生成动作序列的能力，进而导致模型容错能力较弱，一次错误预测可能造成整个任务流程的失败，成功率较低。2)Transformer模型在机器人任务学习中对语言理解的依赖不足，过于依赖视觉输入，当指令发生变化而视觉环境保持不变时，Transformer模型无法适应新指令。

发明内容

本申请实施例的主要目的在于提出一种变化语言指令下机器人任务学习与评估方法及装置，以提高机器人对变化语言指令的适应性能。

为实现上述目的，本申请实施例的一方面提出了一种变化语言指令下机器人任务学习与评估方法，所述方法包括：

获取机器人的任务数据集；

根据所述任务数据集中的语言指令编辑所述任务数据集，得到新的任务数据集作为变化语言指令数据集；

利用所述变化语言指令数据集训练所述机器人的任务规划模型；

利用所述变化语言指令数据集对经过训练后的所述任务规划模型的输出结果进行评估，得到评估结果。

在一些实施例中，所述任务数据集包括多个三维虚拟场景和多组语言指令；其中，每个所述三维虚拟场景对应一组所述语言指令；

所述根据所述任务数据集中的语言指令编辑所述任务数据集，得到新的任务数据集作为变化语言指令数据集，包括：

编辑各个所述三维虚拟场景及对应的所述语言指令，得到所述变化语言指令数据集。

在一些实施例中，所述编辑各个所述三维虚拟场景及对应的所述语言指令，得到所述变化语言指令数据集，包括：

将各个所述三维虚拟场景对应的一组所述语言指中的操作对象类指令删除，对应得到第一语言指令集；

在各个所述第一语言指令集中添加反向导航类指令，得到第二语言指令集；

将各个所述三维虚拟场景中与所述对象操作类指令相关的图像删除，然后再分别重新渲染各个所述三维虚拟场景，得到各个所述三维虚拟场景对应的视觉图像集作为第一视觉图像集；

在各个重新渲染后的所述三维虚拟场景中根据所述反向导航类指令沿对应的反向获取视觉图像集作为第二视觉图像集；

将所述第一语言指令集与所述第一视觉图像集进行配对，将所述第二语言指令集与所述第二视觉图像集进行配对，配对后得到所述变化语言指令数据集。

在一些实施例中，所述利用所述变化语言指令数据集训练所述机器人的任务规划模型，包括：

在所述变化语言指令数据集上利用预设的优化算法训练所述机器人的任务规划模型，以获得最小损失值。

在一些实施例中，所述在所述变化语言指令数据集上利用预设的优化算法训练所述机器人的任务规划模型，以获得最小损失值，包括：

在所述变化语言指令数据集上利用预设的优化算法训练所述机器人的任务规划模型，以获得目标损失函数的最小损失值；

所述目标损失函数为：

其中，L(θ)为所述目标损失函数，a_i为所述任务规划模型的预测动作序列，为标注动作序列，t为动作序列长度。

在一些实施例中，所述利用所述变化语言指令数据集对经过训练后的所述任务规划模型的输出结果进行评估，得到评估结果，包括：

将所述变化语言指令数据集中的各个所述语言指令输入经过训练后的所述任务规划模型，得到预测动作序列；

计算出所述预测动作序列与所述变化语言指令数据集中的标注动作序列的匹配精度；

根据所述匹配精度对经过训练后的所述任务规划模型进行评估，得到所述评估结果。

在一些实施例中，所述匹配精度为所述预测动作序列与对应所述标注动作序列一致的数量在所述变化语言指令数据集中的占比；

所述根据所述匹配精度对经过训练后的所述任务规划模型进行评估，得到所述评估结果，包括：

将所述占比减去所述变化语言指令数据集中的原始占比，得到提升占比作为所述评估结果。

为实现上述目的，本申请实施例的另一方面提出了一种变化语言指令下机器人任务学习与评估装置，所述装置包括：

数据集获取单元，用于获取机器人的任务数据集；

数据集编辑单元，用于根据所述任务数据集中的语言指令编辑所述任务数据集，得到新的任务数据集作为变化语言指令数据集；

模型训练单元，用于利用所述变化语言指令数据集训练所述机器人的任务规划模型；

模型评估单元，用于利用所述变化语言指令数据集对经过训练后的所述任务规划模型的输出结果进行评估，得到评估结果。

为实现上述目的，本申请实施例的另一方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

为实现上述目的，本申请实施例的另一方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本申请实施例至少包括以下有益效果：

本申请获取机器人的任务数据集；根据任务数据集中的语言指令编辑任务数据集，得到新的任务数据集作为变化语言指令数据集；利用变化语言指令数据集训练机器人的任务规划模型；利用变化语言指令数据集对经过训练后的任务规划模型的输出结果进行评估，得到评估结果。本申请通过构建变化语言指令数据集并在变化语言指令数据集上训练机器人的任务规划模型，提高该任务规划模型对语言指令变化的适应性，解决序列到序列模型依赖固定模式的问题；本申请通过评估该任务规划模型在变化语言指令数据集上的性能，强化该任务规划模型对语言理解的能力，解决Transformer模型对语言依赖不足的问题。

附图说明

图1为本申请实施例提供的一种变化语言指令下机器人任务学习与评估方法的流程示意图；

图2为本申请实施例提供的一种变化语言指令下机器人任务学习与评估方法的示例流程图；

图3为本申请实施例提供的一种变化语言指令下机器人任务学习与评估装置的结构示意图；

图4为本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请实施例相一致的所有实施方式，它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。例如，在不脱离本申请实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“若”、“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指多个中的任意一个。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在对本申请实施例进行详细说明之前，首先对本申请实施例中涉及的部分相关技术进行说明，如下：

随着人工智能和计算机视觉技术的发展，互动式视觉环境中的机器人指令理解和执行成为人工智能的重要研究领域。在虚拟三维环境中，使机器人能根据自然语言指令进行导航和操作对象，完成日常生活任务，对机器人的智能化具有重要意义。目前研究主要基于像ALFRED等数据集，使用序列到序列或transformer模型，在三维虚拟场景中指导机器人完成取放物体等简单任务。

相关技术1提出了一种基于序列到序列模型的机器人任务学习方法，该方法使用了编码器-解码器结构。具体来说，编码器用于对语言指令进行编码，得到一个上下文向量。然后，解码器根据该上下文向量生成相应的动作序列。为了获得最终的序列到序列机器人任务规划模型，采用了交叉熵损失函数来训练模型。序列到序列模型虽然可以完成一定的机器人任务，但是其生成的动作序列过于死板，无法对失败动作进行修正。这主要是由于序列到序列结构限制了模型修改已生成动作序列的能力。这导致模型容错能力较弱，一次错误预测可能造成整个任务流程的失败，成功率较低。

相关技术2采用基于Transformer的多模态机器人任务学习，构建了编码器-解码器的Transformer模型，编码器利用多头自注意力机制处理语言、视觉等多模态输入，解码器则基于编码器输出生成动作序列，同时定义训练损失进行模型参数学习，从而得到可融合多模态信息的Transformer机器人任务模型。尽管Transformer模型在机器人任务学习中展现出了强大的多模态理解能力，但其对语言理解的依赖不足，过于依赖视觉输入。当指令发生变化而视觉环境保持不变时，这类模型无法适应。因此，Transformer模型还需提高对语义信息的利用，降低对先验视觉知识的依赖，以适应更多变化的语言指令。

因此，目前机器人的任务规划模型是否真正能够理解语言指令中的含义仍然有待考量。为了使机器人真正理解自然语言，有必要验证机器人的任务规划模型对于不同变化的语言指令的适应能力，并关注机器人能否正确地提取出指令的语义信息。因此，本申请通过构建变化语言指令数据集，并在此基础上训练机器人任务模型，来提高机器人的任务规划模型对语言语义的利用能力，减少对视觉环境先验知识的依赖。

有鉴于此，本申请实施例提供了一种变化语言指令下机器人任务学习与评估方法。该方案获取机器人的任务数据集；根据任务数据集中的语言指令编辑任务数据集，得到新的任务数据集作为变化语言指令数据集；利用变化语言指令数据集训练机器人的任务规划模型；利用变化语言指令数据集对经过训练后的任务规划模型的输出结果进行评估，得到评估结果。本申请通过构建变化语言指令数据集并在变化语言指令数据集上训练机器人的任务规划模型，提高该任务规划模型对语言指令变化的适应性，解决序列到序列模型依赖固定模式的问题；本申请通过评估该任务规划模型在变化语言指令数据集上的性能，强化该任务规划模型对语言理解的能力，解决Transformer模型对语言依赖不足的问题。

本申请实施例提供的一种变化语言指令下机器人任务学习与评估方法，涉及人工智能技术领域。本申请实施例提供的任务学习与评估方法可应用于终端中，也可应用于服务器中，还可以是运行于终端或服务器中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表以及车载终端等，但并不局限于此；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器，服务器还可以是区块链网络中的一个节点服务器；软件可以是实现任务学习与评估方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

参照图1，本申请实施例提供了一种变化语言指令下机器人任务学习与评估方法，该方法可以包括但不限于包括S100至S130，具体如下：

S100：获取机器人的任务数据集。

可选地，本实施例的任务数据集可以采用ALFRED机器人任务数据集，该任务数据集可以包括三维虚拟场景、自然语言指令以及任务规划顺序图等。

获取ALFRED机器人任务数据集，该任务数据集可以包括三维虚拟场景{S₁，S₂，…，S_n}；每个三维虚拟场景对应的一组自然语言指令{L₁，L₂，…，L_n}；每个三维虚拟场景的任务规划顺序图{P₁，P₂，…，P_n}。每个场景S_i包括三维场景环境数据，如房屋空间结构、物体位置、Agent起始位置等。自然语言指令L_i表示高低级导航及对象操作指令，其中高级目标指令表示完成指定对象操作，低级步骤指令则详述导航路径及对象交互。任务规划顺序图P_i表示完成导航及对象操作的顺序标注。

S110：根据所述任务数据集中的语言指令编辑所述任务数据集，得到新的任务数据集作为变化语言指令数据集。

具体地，本实施例可以变更任务数据集中的数据，进而产生新的任务数据集作为变化语言指令数据集。

作为进一步的实施方式，所述任务数据集包括多个三维虚拟场景和多组语言指令；其中，每个所述三维虚拟场景对应一组所述语言指令；进而S110可以包括：

具体地，每个三维虚拟场景对应多个语言指令，改变各个三维虚拟场景的语言指令可产生新的语言指令集，进而得到新的任务数据集作为变化语言指令数据集。

更进一步地，编辑各个所述三维虚拟场景及对应的所述语言指令，得到所述变化语言指令数据集这一步骤，包括：

具体地，本实施例可以基于ALFRED数据构建变化语言指令数据集ALFRED-L，通过删除操作对象指令、添加反向导航指令等方式改变原始语言指令。

加载ALFRED数据集，提取三维虚拟场景{S₁，S₂，…，S_n}、语言指令{L₁，L₂，…，L_n}以及任务规划顺序图{P₁，P₂，…，P_n}。

对每个场景S_i执行以下操作：从语言指令数据L_i中移除对象操作类指令，获得新指令集L′_i。向L′_i添加反向导航类指令，获得新指令集L″_i。

对每个去除对象操作的新指令集L′_i执行以下操作：在对应场景S_i中，移除视觉数据中与被删除对象操作相关的图像。重新渲染场景，获得新视觉数据{I′₁，I′₂，…，I′_n}。

对每个添加反向导航的新指令集L″_i执行以下操作：在场景S_i中，沿反向导航路径获取新视觉数据{I″₁，I″₂，…，I″_n}。将L′_i、L″_i与对应的视觉数据{I^′，I″}配对，构成变化语言指令数据集。

S120：利用所述变化语言指令数据集训练所述机器人的任务规划模型。

作为进一步的实施方式，S120可以包括：

更进一步地，在所述变化语言指令数据集上利用预设的优化算法训练所述机器人的任务规划模型，以获得最小损失值这一步骤，包括：

所述目标损失函数为：

具体地，本实施例可以使用序列到序列模型、Transformer等模型在ALFRED-L数据集(即变化语言指令数据集)上进行训练，获得机器人任务规划模型。

首先初始化序列到序列(Seq2Seq)模型，该模型包含编码器和解码器。其中编码器将语言指令L编码为上下文向量c，解码器则基于c生成预测动作序列a＝(a₁，a₂，…，a_t)。

接着初始化Transformer模型，该模型也包含一个编码器和一个解码器。其中编码器采用多头自注意力机制对语言指令L进行编码，解码器则基于编码器输出生成预测动作序列a。

然后在ALFRED-L数据集上训练模型使用优化算法(Adam)最小化损失L(θ)，获得最终模型参数θ^*。保存训练好的Seq2Seq模型和Transformer模型，进行后续评估。

S130：利用所述变化语言指令数据集对经过训练后的所述任务规划模型的输出结果进行评估，得到评估结果。

作为进一步的实施方式，S130可以包括：

更进一步地，根据所述匹配精度对经过训练后的所述任务规划模型进行评估，得到所述评估结果这一步骤，包括：

具体地，在ALFRED-L变化语言指令数据集上测试任务规划模型的性能，评估任务规划模型对语言语义的理解和利用能力。

在ALFRED-L数据集(即变化语言指令数据集)上加载训练好的Seq2Seq模型和Transformer模型。对每个语言指令样例，输入任务规划模型并生成预测动作序列a。

将预测动作序列a与标注动作序列进行比较，计算精确匹配的精度：

在整个ALFRED-L数据集上统计精确匹配的样本数量，计算平均任务完成精确度：

其中，N为总样本数量。将P与原始ALFRED数据集精确度P₀进行比较，计算提升量：

ΔP＝P-P₀

进而根据该提升量评估任务规划模型的性能。

然后，获得在ALFRED-L上表现更优的任务规划模型：保存评估得到精确匹配率指标P和P0，保存精确匹配率的提升量ΔP，保存在ALFRED-L上增强后的Seq2Seq机器人任务模型，保存在ALFRED-L上增强后的Transformer机器人任务模型。

本实施例具备的有益效果：

通过构建变化语言指令数据集扩大机器人任务学习的语言范围，提高任务规划模型对新语言的适应能力。能够基于变化语言指令的测试，检验和改进不同机器人任务模型对语义的理解能力，获得对语言变化更加稳健的任务规划模型。

本申请实施例还可以通过以下方案实现上述有益效果：

1)在现有数据集上进行数据增强，比如通过修改视觉场景、增删除语言指令来构建更多样化的数据，这可以避免构建全新的ALFRED-L数据集。

2)在不同的模拟环境中收集变化语言指令的数据，进行跨模拟器评估，减少对特定虚拟环境的依赖。

3)保留语言指令不变，通过修改视觉输入的完整性，评估模型对语言理解的依赖程度。

4)在语言指令的关键词特征上进行遮蔽，观察任务规划模型对语义关键信息的敏感度。

5)通过可视化等方式解释任务规划模型内部的语言理解，进行定性分析。

接下来将结合具体的应用例子，对本申请实施例的方案作详细介绍和说明：

参照图2，本实施例提供了一种变化语言指令下机器人任务学习与评估方法的示例流程图。

具体地，本实施例可以包括以下步骤：

步骤1，获取任务数据集：

步骤2，构建变化语言指令数据集：

基于ALFRED数据构建变化语言指令数据集ALFRED-L，通过删除操作对象指令、添加反向导航指令等方式改变原始语言指令。

对每个添加反向导航的新指令集L″_i执行以下操作：在场景S_i中，沿反向导航路径获取新视觉数据{I″₁，I″₂，…，I″_n}。将L′_i、L″_i与对应的视觉数据{I′，I″}配对，构成变化语言指令数据集。

使用序列到序列模型、Transformer等模型在ALFRED-L数据集(即变化语言指令数据集)上进行训练，获得机器人任务规划模型。

目标损失函数为：

其中，L(θ)为目标损失函数，a_i为任务规划模型的预测动作序列，为标注动作序列，t为动作序列长度。

步骤4，评估模型性能：

在ALFRED-L变化语言指令数据集上测试任务规划模型的性能，评估任务规划模型对语言语义的理解和利用能力。

ΔP＝P-P₀

进而根据该提升量评估任务规划模型的性能。

本实施例针对当前机器人任务规划模型对语言理解能力的评估缺陷，提出了一种变化语言指令下机器人任务学习与评估方法。该方法通过在标准数据集上进行语言指令的删除和增加来构建变化语言指令数据集，并基于该数据集重新训练和测试不同类型的机器人任务规划模型，以评估模型对变化语言指令的适应能力，检验其是否真正理解语言指令背后的语义信息，而不仅仅依赖视觉环境提供的相关线索。相比直接在原数据集上进行测试，本实施例通过构建变化语言指令数据集提供了更严格和全面地考察模型语言理解能力的新途径。该方法能够获得对语言变化更加稳健的机器人任务模型，并推动后续研究进一步增强机器人对自然语言的理解利用能力。

参照图3，本申请实施例还提供了一种变化语言指令下机器人任务学习与评估装置，可以实现上述的任务学习与评估方法，该装置包括：

数据集获取单元，用于获取机器人的任务数据集；

可以理解的是，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本申请实施例还提供了一种电子设备，电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述任务学习与评估方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

可以理解的是，上述方法实施例中的内容均适用于本设备实施例中，本设备实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

请参阅图4，图4示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器401，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器402，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器402可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器402中，并由处理器401来调用执行本申请实施例的任务学习与评估方法；

输入/输出接口403，用于实现信息输入及输出；

通信接口404，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线405，在设备的各个组件(例如处理器401、存储器402、输入/输出接口403和通信接口404)之间传输信息；

其中处理器401、存储器402、输入/输出接口403和通信接口404通过总线405实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述任务学习与评估方法。

可以理解的是，上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种变化语言指令下机器人任务学习与评估方法，其特征在于，所述方法包括：

获取机器人的任务数据集；

2.根据权利要求1所述的一种变化语言指令下机器人任务学习与评估方法，其特征在于，所述任务数据集包括多个三维虚拟场景和多组语言指令；其中，每个所述三维虚拟场景对应一组所述语言指令；

3.根据权利要求2所述的一种变化语言指令下机器人任务学习与评估方法，其特征在于，所述编辑各个所述三维虚拟场景及对应的所述语言指令，得到所述变化语言指令数据集，包括：

4.根据权利要求1所述的一种变化语言指令下机器人任务学习与评估方法，其特征在于，所述利用所述变化语言指令数据集训练所述机器人的任务规划模型，包括：

5.根据权利要求4所述的一种变化语言指令下机器人任务学习与评估方法，其特征在于，所述在所述变化语言指令数据集上利用预设的优化算法训练所述机器人的任务规划模型，以获得最小损失值，包括：

所述目标损失函数为：

6.根据权利要求1所述的一种变化语言指令下机器人任务学习与评估方法，其特征在于，所述利用所述变化语言指令数据集对经过训练后的所述任务规划模型的输出结果进行评估，得到评估结果，包括：

7.根据权利要求6所述的一种变化语言指令下机器人任务学习与评估方法，其特征在于，所述匹配精度为所述预测动作序列与对应所述标注动作序列一致的数量在所述变化语言指令数据集中的占比；

8.一种变化语言指令下机器人任务学习与评估装置，其特征在于，所述装置包括：

数据集获取单元，用于获取机器人的任务数据集；

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。