CN117993420A

CN117993420A - 智能体的控制方法、装置和设备

Info

Publication number: CN117993420A
Application number: CN202410141291.XA
Authority: CN
Inventors: 伍堃; 刘宁; 赵震; 车正平; 徐志远; 唐剑
Original assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Current assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Priority date: 2024-01-31
Filing date: 2024-01-31
Publication date: 2024-05-07

Abstract

本申请实施例提供一种智能体的控制方法、装置和电子设备，涉及数据处理技术领域。该方法包括：在控制智能体执行任务时，先获取智能体执行任务过程中的目标环境动作数据；将目标环境动作数据输入至目标时序网络模型中，通过目标时序网络模型提取目标环境动作数据对应的目标环境动作特征；其中，目标时序网络模型是基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到的；基于目标环境动作特征，控制智能体执行任务，这样不仅可以有效地提高非优数据的利用率；而且通过目标时序网络模型提取的目标环境动作特征控制智能体执行任务，可以提高智能体控制的准确度。

Description

智能体的控制方法、装置和设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种智能体的控制方法、装置和设备。

背景技术

在智能体控制场景中，例如智能交通控制、智能制造控制、智能家居控制、智能医疗控制、智慧物流控制、或者智慧零售控制等，通常需要基于智能体执行任务过程中的环境动作特征，控制智能体执行相关的操作任务。

因此，如何准确地提取智能体执行任务过程中的环境动作特征，从而提高智能体控制的准确度，是本领域技术人员需要解决的技术问题。

发明内容

本申请提供一种智能体的控制方法、装置和设备，可以准确地提取智能体执行任务过程中的环境动作特征，从而提高了智能体控制的准确度。

本申请提供一种智能体的控制方法，该方法可以包括：

获取智能体执行任务过程中的目标环境动作数据；

将所述目标环境动作数据输入至目标时序网络模型中，通过所述目标时序网络模型提取所述目标环境动作数据对应的目标环境动作特征；其中，所述目标时序网络模型是基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到的；

基于所述目标环境动作特征，控制所述智能体执行任务。

根据本申请实施例提供的智能体的控制方法，在控制智能体执行任务时，可以先获取智能体执行任务过程中的目标环境动作数据；将目标环境动作数据输入至目标时序网络模型中，通过目标时序网络模型提取目标环境动作数据对应的目标环境动作特征；其中，目标时序网络模型是基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到的；基于目标环境动作特征，控制智能体执行任务，这样在成功执行任务的最优数据的基础上，结合未成功执行任务的非优数据一并训练目标时序网络模型，可以有效地提高了非优数据的利用率；并且，通过目标时序网络模型提取的目标环境动作特征控制智能体执行任务，可以提高智能体控制的准确度。

本申请还提供一种智能体的控制装置。

本申请还提供一种电子设备。

本申请还提供一种非暂态计算机可读存储介质。

根据本申请的一个实施例，所述时序网络模型基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练，包括以下步骤：

基于所述第一环境动作数据集和所述第二环境动作数据集，对初始时序网络模型进行预训练，得到时序网络模型；

基于所述时序网络模型和所述第一环境动作数据集，从所述第二环境动作数据集中确定目标环境动作数据集；所述目标环境动作数据集与所述第一环境动作数据集之间的相似度大于相似度阈值；

基于所述第一环境动作数据集和所述目标环境动作数据集，对所述时序网络模型进行训练，得到目标时序网络模型。

根据本申请的一个实施例，所述基于所述第一环境动作数据集和所述第二环境动作数据集，对初始时序网络模型进行预训练，得到时序网络模型，包括：

从所述第一环境动作数据集中确定多个第一数据片段，并从所述第二环境动作数据集中确定多个第二数据片段；

针对所述多个第一数据片段和所述多个第二数据片段中的各数据片段，执行下述操作：

对所述数据片段中的多个环境动作数据进行掩码，得到掩码结果；

将所述掩码结果输入至所述初始时序网络模型中，得到所述掩码结果对应的环境动作特征；

将所述环境动作特征输入至解码器中，通过所述解码器对所述环境动作特征进行重建，得到多个重建环境动作数据；

基于所述多个环境动作数据、所述多个重建环境动作数据和历史环境动作数据集，对所述初始时序网络模型进行预训练。

根据本申请的一个实施例，所述基于所述多个环境动作数据、所述多个重建环境动作数据和历史环境动作数据集，对所述初始时序网络模型进行预训练，包括：

基于所述多个环境动作数据和所述多个重建环境动作数据，构造第一损失函数；

基于所述多个环境动作数据和所述历史环境动作数据集，构造第二损失函数；

基于所述第一损失函数和所述第二损失函数，对所述初始时序网络模型进行预训练。

根据本申请的一个实施例，所述基于所述多个环境动作数据和所述历史环境动作数据集，构造第二损失函数，包括：

针对各环境动作数据的动作特征，从所述历史环境动作数据集中确定所述动作特征对应的时间点之前的历史环境动作数据；基于所述历史环境动作数据确定预测动作特征；

基于所述各环境动作数据的动作特征和对应的预测动作特征，构造所述第二损失函数。

根据本申请的一个实施例，所述基于所述时序网络模型和所述第一环境动作数据集，从所述第二环境动作数据集中确定目标环境动作数据集，包括：

针对所述多个第一数据片段和所述多个第二数据片段中的各数据片段，从所述数据片段中的多个环境动作数据，确定最后一个环境动作数据；将所述最后一个环境动作数据输入至所述时序网络模型，得到目标环境动作特征；

基于所述各数据片段对应的目标环境动作特征，从所述多个第二数据片段中确定目标数据片段，所述目标环境动作数据集中包括所述目标数据片段。

根据本申请的一个实施例，所述基于所述各数据片段对应的目标环境动作特征，从所述多个第二数据片段中确定目标数据片段，包括：

针对各第二数据片段，确定所述第二数据片段对应的目标环境动作特征，与各第一数据片段对应的目标环境动作特征之间的相似度，并基于与各第一数据片段对应的目标环境动作特征之间的相似度，确定所述第二数据片段对应的目标相似度；

基于所述多个第二数据片段各自对应的目标相似度，从所述多个第二数据片段中确定所述目标数据片段。

本申请提供的智能体的控制装置，包括：

获取单元，用于获取智能体执行任务过程中的目标环境动作数据；

提取单元，用于将所述目标环境动作数据输入至目标时序网络模型中，通过所述目标时序网络模型提取所述目标环境动作数据对应的目标环境动作特征；其中，所述目标时序网络模型是基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到的；

控制单元，用于基于所述目标环境动作特征，控制所述智能体执行任务。

根据本申请实施例提供的智能体的控制装置，在控制智能体执行任务时，可以先获取智能体执行任务过程中的目标环境动作数据；将目标环境动作数据输入至目标时序网络模型中，通过目标时序网络模型提取目标环境动作数据对应的目标环境动作特征；其中，目标时序网络模型是基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到的；基于目标环境动作特征，控制智能体执行任务，这样在成功执行任务的最优数据的基础上，结合未成功执行任务的非优数据一并训练目标时序网络模型，可以有效地提高了非优数据的利用率；并且，通过目标时序网络模型提取的目标环境动作特征控制智能体执行任务，可以提高智能体控制的准确度。

本申请实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：

在控制智能体执行任务时，可以先获取智能体执行任务过程中的目标环境动作数据；将目标环境动作数据输入至目标时序网络模型中，通过目标时序网络模型提取目标环境动作数据对应的目标环境动作特征；其中，目标时序网络模型是基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到的；基于目标环境动作特征，控制智能体执行任务，这样在成功执行任务的最优数据的基础上，结合未成功执行任务的非优数据一并训练目标时序网络模型，可以有效地提高了非优数据的利用率；并且，通过目标时序网络模型提取的目标环境动作特征控制智能体执行任务，可以提高智能体控制的准确度。

进一步地，在本申请实施例中，在对时序网络模型进行训练时，可以基于智能体成功执行任务的第一环境动作数据集和智能体未成功执行任务的第二环境动作数据集，对初始时序网络模型进行预训练，再基于预训练得到的时序网络模型和第一环境动作数据集，从第二环境动作数据集中确定质量较高的非优数据，即目标环境动作数据集；基于第一环境动作数据集和目标环境动作数据集，对时序网络模型进行训练，得到目标时序网络模，这样在最优数据的基础上，结合非优数据一并对时序网络模型进行训练，从而有效地提高了非优数据的利用率。

进一步地，在本申请实施例中，在对初始时序网络模型进行预训练时，可以结合三种自监督训练任务，使得预训练得到的时序网络模型能够更有效的利用非优样本中的环境信息，从而可以更好地提取环境动作特征，为后续的非优数据的筛选，以及后续决策任务的学习提供良好的基础；此外，对初始时序网络模型进行预训练时，在最优数据的基础上，结合非优数据一并对初始时序网络模型进行训练，可以有效地提高非优数据的利用率。

进一步地，在本申请实施例中，结合第一环境动作数据集和第二环境动作数据集对初始时序网络模型进行预训练，使得预训练得到的时序网络模型能够更有效的利用非优样本中的环境信息，从而可以更好地提取环境动作特征，且可以有效地提高非优数据的利用率。此外，还可以结合预训练得到的时序网络模型，从多个非优的第二环境动作数据集中，确定质量较高的目标环境动作数据集，这样后续就可以在最优的第一环境动作数据集的基础上，结合质量较高的非优的目标环境动作数据集，一并对时序网络模型进行训练，从而有效地提高了非优数据的利用率。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种智能体的控制方法的流程示意图；

图2为本申请实施例提供的一种基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到目标时序网络模型的方法流程示意图；

图3为本申请实施例提供的一种基于第一环境动作数据集和第二环境动作数据集，对初始时序网络模型进行预训练的方法流程示意图；

图4为本申请实施例提供的一种预训练架构示意图；

图5为本申请实施例提供的一种基于时序网络模型和第一环境动作数据集，从第二环境动作数据集中确定目标环境动作数据集的方法流程示意图；

图6为本申请实施例提供的一种从第二环境动作数据集中确定目标环境动作数据集的框架示意图；

图7为本申请实施例提供的一种智能体的控制装置的结构示意图；

图8为本申请实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。在本申请的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的技术方案可以应用于智能体控制场景中。例如智能交通控制、智能制造控制、智能家居控制、智能医疗控制、智慧物流控制、或者智慧零售控制等，通常需要基于智能体执行任务过程中的环境动作特征，控制智能体执行相关的操作任务。

其中，智能体可以为与所处环境存在交互的智能设备，例如，智能机械臂、智能机器狗等类似智能机器人，具体可以根据实际控制场景进行设置。

为了可以准确地提取智能体执行任务过程中的环境动作特征，从而提高智能体控制的准确度，本申请实施例提供了一种智能体的控制方法，下面，将通过下述几个具体的实施例对本申请提供的智能体的控制方法进行详细地说明。可以理解的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本申请实施例提供的一种智能体的控制方法的流程示意图，该方法可以由软件和/或硬件装置执行，示例地，请参见图1所示，该智能体的控制方法可以包括：

S101、获取智能体执行任务过程中的目标环境动作数据。

示例地，在本申请实施例中，可以通过布置在任务环境中的传感器，例如温度传感器、湿度传感器、压力传感器等采集执行任务过程中的目标环境动作数据；也可以通过图像采集技术采集智能体执行任务过程中的目标环境动作数据等，具体可以根据实际需要进行设置，在此，本申请实施例不做具体限制。

S102、将目标环境动作数据输入至目标时序网络模型中，通过目标时序网络模型提取目标环境动作数据对应的目标环境动作特征。

其中，目标时序网络模型是基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到的。

可以理解的是，在本申请实施例中，第一环境动作数据集可记为最优数据集，第二环境动作数据集可记为非优数据集。

在本申请实施例中，在训练目标时序网络模型时，是在成功执行任务的最优数据的基础上，结合未成功执行任务的非优数据一并训练目标时序网络模型，这样可以有效地提高了非优数据的利用率；

S103、基于目标环境动作特征，控制智能体执行任务。

可以看出，本申请实施例，在控制智能体执行任务时，可以先获取智能体执行任务过程中的目标环境动作数据；将目标环境动作数据输入至目标时序网络模型中，通过目标时序网络模型提取目标环境动作数据对应的目标环境动作特征；其中，目标时序网络模型是基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到的；基于目标环境动作特征，控制智能体执行任务，这样在成功执行任务的最优数据的基础上，结合未成功执行任务的非优数据一并训练目标时序网络模型，可以有效地提高了非优数据的利用率；并且，通过目标时序网络模型提取的目标环境动作特征控制智能体执行任务，可以提高智能体控制的准确度。

基于上述图1所示的实施例，为了便于理解在本申请实施例中，如何基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到目标时序网络模型，下面，将通过下述图2所示的实施例进行详细描述。

图2为本申请实施例提供的一种基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到目标时序网络模型的方法流程示意图，示例地，可参见图2所示，该方法可以包括：

S201、基于第一环境动作数据集和第二环境动作数据集，对初始时序网络模型进行预训练，得到时序网络模型。

示例地，在本申请实施例中，第一环境动作数据集可用D_e表示，D_e＝{(s,a,s′)}，第二环境动作数据集可用D_i表示，D_i＝{(s,a,s′)}。其中，s表示环境状态，a表示智能体执行的动作，s′表示智能体执行完动作之后的环境状态，第一环境动作数据集和第二环境动作数据集的并集可记为D_u，则D_u＝D_e∪D_i。

可以理解的是，第一环境动作数据集中可以包括多个成功执行任务过程中的轨迹，第二环境动作数据集中可以包括多个未成功执行任务过程中的轨迹。针对每一个轨迹，均包括多个环境动作数据，示例地，在本申请实施例中，环境动作数据可以记为(o,m,a)，其中，o表示智能体观测的输入，例如红绿蓝深度(Red Green Blue Depth，RGBD)图像，点云数据等，m表示智能体自身的状态，例如机械臂自身关节角度和速度，以及任务相关信息，例如目标点位置等，a表示智能体执行的动作，例如机械臂下一步的目标点或者关节角度。

示例地，初始时序网络模型可以为Transformer网络模型，也可以为循环神经网络(Recurrent Neural Network，RNN)模型等，具体可以根据实际需要进行设置。

可以理解的是，在本申请实施例中，基于第一环境动作数据集和第二环境动作数据集，对初始时序网络模型进行预训练，一方面，可以使得预训练得到的时序网络模型能够为每一个时间步的输入提取到更加具有代表性的特征，从而能够更好地为后续决策任务的学习提供更好的环境动作特征；另一方面，在预训练过程中利用上了大量的非优数据，即第二环境动作数据集，与现有技术直接丢弃非优数据相比，可以有效地提高了非优数据的利用率。

此外，为了进一步提高非优数据的利用率，在通过预训练得到具有一定学习能力的时序网络模型后，还可以基于该时序网络模型和第一环境动作数据集，从第二环境动作数据集中确定质量较高的非优数据，这样就可以在最优数据的基础上，结合非优数据一并对时序网络模型进行训练，即执行下述S103和S104，从而有效地提高了非优数据的利用率。

S202、基于时序网络模型和第一环境动作数据集，从第二环境动作数据集中确定目标环境动作数据集；目标环境动作数据集与第一环境动作数据集之间的相似度大于相似度阈值。

其中，相似度阈值的取值可以根据实际需要进行设置，在此，对于相似度阈值的具体取值，本申请实施例不做进一步地限制。

在本申请实施例中，目标环境动作数据集可以理解为从第二环境动作数据集中确定质量较高的非优数据构成的集合。示例地，在本申请实施例中，目标环境动作数据集可记为D_f。

S203、基于第一环境动作数据集和目标环境动作数据集，对时序网络模型进行训练，得到目标时序网络模型。

可以看出，本申请实施例中，在对时序网络模型进行训练时，可以基于智能体成功执行任务的第一环境动作数据集和智能体未成功执行任务的第二环境动作数据集，对初始时序网络模型进行预训练，再基于预训练得到的时序网络模型和第一环境动作数据集，从第二环境动作数据集中确定质量较高的非优数据，即目标环境动作数据集；基于第一环境动作数据集和目标环境动作数据集，对时序网络模型进行训练，得到目标时序网络模，这样在最优数据的基础上，结合非优数据一并对时序网络模型进行训练，从而有效地提高了非优数据的利用率。

基于上述图2所示的实施例，为了便于理解在上述S201中，如何基于第一环境动作数据集和第二环境动作数据集，对初始时序网络模型进行预训练，得到时序网络模型，下面，将通过下述图3所示的实施例进行详细描述。

图3为本申请实施例提供的一种基于第一环境动作数据集和第二环境动作数据集，对初始时序网络模型进行预训练的方法流程示意图，该方法同样可以由软件和/或硬件装置执行，示例地，请参见图3所示，该方法可以包括：

S301、从第一环境动作数据集中确定多个第一数据片段，并从第二环境动作数据集中确定多个第二数据片段。

示例地，在本申请实施例中，从第一环境动作数据集中确定多个第一数据片段，并从第二环境动作数据集中确定多个第二数据片段时，可以基于预设时间步长，第一环境动作数据集中确定多个第一数据片段，并从第二环境动作数据集中确定多个第二数据片段。当然，也可以将第一环境动作数据集和第二环境动作数据集合并，从合并后的数据集中确定多个第一数据片段，并从第二环境动作数据集中确定多个第二数据片段，具体可以根据实际需要进行设置。

其中，预设时间步长可记为l，其具体取值可以根据实际需要进行设置，在此，对于预设时长步长的具体取值，本申请实施例不做进一步地限制。

可以理解的是，在本申请实施例中，多个第一数据片段可以为同一个轨迹中的多个数据片段，也可以为不提供轨迹中的多个数据片段，具体可以根据实际需要进行设置。类似的，多个第二数据片段可以为同一个轨迹中的多个数据片段，也可以为不提供轨迹中的多个数据片段，具体可以根据实际需要进行设置。

其中，各第一数据片段中包括多个环境动作数据，各第二数据片段中也包括多个环境动作数据，针对多个第一数据片段和多个第二数据片段中的各数据片段，执行下述操作S302-S305：

S302、对数据片段中的多个环境动作数据进行掩码，得到掩码结果。

示例地，在本申请实施例中，环境动作数据可以记为(o,m,a)，其中，o表示智能体观测的输入，例如RGBD图像，点云数据等，m表示智能体自身的状态，例如机械臂自身关节角度和速度，以及任务相关信息，例如目标点位置等，a表示智能体执行的动作，例如机械臂下一步的目标点或者关节角度。

以基于预设时间步长l，从第一环境动作数据集和第二环境动作数据集中确定数据片段，即轨迹片段为例，则数据片段包括的l个环境动作数据可记为(o_i,m_i,a_i),…,(o_i+l,m_i+l,a_i+l)，其中，i表示时间步的开始索引。

在对l个环境动作数据进行掩码时，可以基于预设的掩码比例对l个环境动作数据进行掩码，得到掩码结果。例如，当掩码比例为0.5时，表示l个环境动作数据中有一半数据会被掩码，另一半数据不会被掩码。

可以理解的是，在对数据进行掩码时，可以为该数据乘以0，得到0即为该数据的掩码结果；在不对数据进行掩码时，可以为该数据乘以1，得到掩码结果即为该数据本身。

示例地，对数据片段包括的l个环境动作数据(o_i,m_i,a_i),…,(o_i+l,m_i+l,a_i+l)进行掩码后，得到的掩码结果可记为M[(o_i,m_i,a_i),…,(o_i+l,m_i+l,a_i+l)]。

在得到掩码结果后，就可以将掩码结果作为初始时序网络模型的输入，执行下述S303：

S303、将掩码结果输入至初始时序网络模型中，得到掩码结果对应的环境动作特征。

以初始时序网络模型为Transformer网络模型为例，Transformer网络模型可记为T(·)，将掩码结果M[(o_i,m_i,s_i),…,M(o_i+l,m_i+l,a_i+l)]输入至Transformer网络模型T(·)中，示例地，可参见图4所示，图4为本申请实施例提供的一种预训练架构示意图，通过Transformer网络模型T(·)提取掩码结果对应的

在提取出掩码结果对应的环境动作特征后，就可以进一步执行下述S304：

S304、将环境动作特征输入至解码器中，通过解码器对环境动作特征进行重建，得到多个重建环境动作数据。

示例地，在本申请实施例中，考虑到提取出的环境动作特征包括三种模态的特征，因此，可以对应设置三种模态各自对应的解码器，分别为解码器H_o(·)、解码器H_m(·)、和解码器H_a(·)。

以Transformer网络模型T(·)输出的环境动作特征为

解码器H_a(·)中，具体为：将环境动作特征

据，可记为/>

S305、基于多个环境动作数据、多个重建环境动作数据和历史环境动作数据集，对初始时序网络模型进行预训练。

示例地，在本申请实施例中，基于多个环境动作数据、多个重建环境动作数据和历史环境动作数据集，对初始时序网络模型进行预训练时，可以基于多个环境动作数据和多个重建环境动作数据，构造第一损失函数；并基于多个环境动作数据和历史环境动作数据集，构造第二损失函数；再基于第一损失函数和第二损失函数，对初始时序网络模型进行预训练。

示例地，在本申请实施例中，基于多个环境动作数据和多个重建环境动作数据，构造第一损失函数时，可以结合两个任务共同实现，一个任务可记为掩码转移过程预测，一个任务为转移过程重建。其中，掩码转移过程预测任务为：随机对数据片段中的多个环境动作数据进行掩码，并预测被掩码的元素，使得初始时序网络模型可以学习到多种能力，例如正向运动方程，逆向运动方程以及数据生成策略，进一步加强了其提取特征的能力，该掩码转移过程预测任务的目标函数具体可参见下述公式1所示：

其中，L_MTP表示掩码转移过程预测任务对应的损失函数，I(e_t)表示指示函数，当环境动作数据中的元素被掩码时该值为1，否则为0，e_t表示l个环境动作数据(o_i,m_i,a_i),…,(o_i+l,m_i+l,a_i+l)中的第t个环境动作数据(o_t,m_t,a_t)，表示第t个环境动作数据e_t对应的重建环境动作数据，θ表示初始时序网络模型和三个编码器的参数。

转移过程重建任务为：随机对数据片段中的多个环境动作数据进行掩码，并重建未被掩码的数据，使得初始时序网络模型可以学习到压缩环境中的关键信息，以及如何提取更好的特征，该转移过程重建任务的目标函数具体可参见下述公式2所示：

其中，L_TR表示转移过程重建任务对应的损失函数。

结合上述描述，掩码转移过程预测任务对应的目标函数L_MTP和转移过程重建任务对应的目标函数，即为基于多个环境动作数据和多个重建环境动作数据，构造的第一损失函数。

此外，在本申请实施例中，与下游的决策任务学习目标保持一致，还可以结合动作自回归预测任务，预测下一步智能体的控制动作。示例地，在本申请实施例中，基于多个环境动作数据和历史环境动作数据集，构造第二损失函数时，针对各环境动作数据的动作特征，从历史环境动作数据集中确定动作特征对应的时间点之前的历史环境动作数据；基于历史环境动作数据确定预测动作特征；并基于各环境动作数据的动作特征和对应的预测动作特征，构造第二损失函数。

动作自回归预测任务的输入为过去时间步的轨迹部分，即动作特征对应的时间点之前的历史环境动作数据，预测下一步智能体的控制动作，对应的目标函数可参见下述公式3所示：

其中，a_t表示第t个环境动作数据(o_t,m_t,a_t)中的动作特征，his(a_t)表示基于动作特征据a_t对应的时间点之前的历史环境动作数据，确定的预测动作特征。

在分别获取到数据片段对应的第一损失函数和第二损失函数后，就可以结合第一损失函数和第二损失函数，确定该数据片段对应的损失函数，可参见下述公式4所示：

L_pretrain＝L_MTP+L_TR+L_AA 公式4

其中，L_pretrain表示数据片段对应的损失函数。

结合上述描述，可以获取到多个第一数据片段和多个第二数据片段各自对应的函数损失，这样就可以基于多个第一数据片段和多个第二数据片段各自对应的函数损失，对初始时序网络模型进行预训练，得到预训练的时序网络模型。

可以看出，本申请实施例中，在对初始时序网络模型进行预训练时，可以结合三种自监督训练任务，使得预训练得到的时序网络模型能够更有效的利用非优样本中的环境信息，从而可以更好地提取环境动作特征，为后续的非优数据的筛选，以及后续决策任务的学习提供良好的基础；此外，对初始时序网络模型进行预训练时，在最优数据的基础上，结合非优数据一并对初始时序网络模型进行训练，可以有效地提高非优数据的利用率。

基于上述实施例，在基于第一环境动作数据集和第二环境动作数据集，对初始时序网络模型进行预训练，得到时序网络模型后，就可以基于时序网络模型和第一环境动作数据集，从第二环境动作数据集中确定质量较高的非优数据集，即执行上述S202，为了便于理解在上述S202中，如何基于时序网络模型和第一环境动作数据集，从第二环境动作数据集中确定目标环境动作数据集，下面，将通过下述图5所示的实施例进行详细描述。

图5为本申请实施例提供的一种基于时序网络模型和第一环境动作数据集，从第二环境动作数据集中确定目标环境动作数据集的方法流程示意图，该方法同样可以由软件和/或硬件装置执行，示例地，请参见图5所示，该方法可以包括：

S501、针对多个第一数据片段和多个第二数据片段中的各数据片段，从数据片段中的多个环境动作数据，确定最后一个环境动作数据；将最后一个环境动作数据输入至时序网络模型，得到目标环境动作特征。

为了可以从非优数据构成的第二环境动作数据集中，确定质量较高的非优数据，考虑到通常情况下，与最优数据越相似，代表该数据的质量越好，能够为决策任务的学习过程帮助更大，因此，可以考虑基于非优数据与最优数据之间的相似度，从非优数据构成的第二环境动作数据集中确定质量较高的非优数据。

示例地，在本申请实施例中，基于非优数据与最优数据之间的相似度，从非优数据构成的第二环境动作数据集中确定质量较高的非优数据时，示例地，可参见图6所示，图6为本申请实施例提供的一种从第二环境动作数据集中确定目标环境动作数据集的框架示意图，针对多个第一数据片段和多个第二数据片段中的各数据片段，假设数据片段包括的l个环境动作数据(o_i,m_i,a_i),…,(o_i+l,m_i+l,a_i+l)，则最后一个环境动作数据即为(o_i+l,m_i+l,a_i+l)。

由于上述预训练的时序网络模型能够提取更加准确的特征，可以更好地辅助质量较高的非优数据的选择，因此，在本申请实施例中，确定出数据片段中最后一个环境动作数据(o_i+l,m_i+l,a_i+l)后，可以将最后一个环境动作数据(o_i+l,m_i+l,a_i+l)输入至预训练的时序网络模型中，得到对应的目标环境动作特征，可记为并基于提取出的目标环境动作特征，从第二环境动作数据集中，筛选质量较高的非优数据。

可以理解的是，在本申请实施例中，目标环境动作特征可以为最优数据片段，即第一数据片段对应的环境动作特征，也可以为非优数据片段，即第二数据片段对应的环境动作特征。示例地，在本申请实施例中，最优数据片段对应的目标环境动作特征可记为非优数据片段对应的目标环境动作特征可记为具体可以根据实际需要进行设置。

结合S501中的描述，在获取到各数据片段对应的目标环境动作特征后，就可以执行下述S502：

S502、基于各数据片段对应的目标环境动作特征，从多个第二数据片段中确定目标数据片段，目标环境动作数据集中包括目标数据片段。

示例地，在本申请实施例中，基于各数据片段对应的目标环境动作特征，从多个第二数据片段中确定目标数据片段时，针对各第二数据片段，可以先确定该第二数据片段对应的目标环境动作特征，与各第一数据片段对应的目标环境动作特征之间的相似度，并基于与各第一数据片段对应的目标环境动作特征之间的相似度，确定第二数据片段对应的目标相似度，基于多个第二数据片段各自对应的目标相似度，从多个第二数据片段中确定目标数据片段，即D_f。

示例地，在本申请实施例中，确定第二数据片段对应的目标环境动作特征，与第一数据片段对应的目标环境动作特征之间的相似度时，可参见下述公式5所示：

其中，d表示第二数据片段对应的目标环境动作特征，与第一数据片段对应的目标环境动作特征之间的相似度。

结合公式4，可以确定出第二数据片段对应的目标环境动作特征，与各第一数据片段对应的目标环境动作特征之间的相似度，得到第二数据片段对应的多个相似度，示例地，在本申请实施例中，可以将多个相似度中的最大相似度，确定为第二数据片段对应的目标相似度，可参见下述公式6所示：

w＝maxsim(τ^imp,τ^exp) 公式6

其中，w表示第二数据片段对应的目标相似度。

在得到各第二数据片段对应的目标相似度后，可以对各第二数据片段对应的目标相似度进行归一化处理，得到各第二数据片段对应的质量得分，可参见下述公式7所示：

q(τ^imp)＝norm(w(τ^imp)),q(τ^imp)∈[0,1] 公式7

其中，q(τ^imp)表示第二数据片段对应的质量得分。

在分别计算出各第二数据片段对应的质量得分后，考虑到质量得分越高，对应的第二数量片段的质量越优，因此，可以基于各第二数据片段对应的质量得分，将第二数据片段中，质量得分大于预设得分阈值的数据片段确定为质量较高的非优数据，即目标数据片段，从而筛选出质量较高的非优数据，从而为后续的决策任务的学习过程提供依据。其中，预设得分阈值的取值可以根据实际需要进行设置。

可以看出，本申请实施例中，基于时序网络模型和第一环境动作数据集，从第二环境动作数据集中确定质量较高的非优数据集时，针对各数据片段，从数据片段中的多个环境动作数据，确定最后一个环境动作数据；将最后一个环境动作数据输入至时序网络模型，得到目标环境动作特征；再基于各数据片段对应的目标环境动作特征，从多个第二数据片段中确定质量较高的目标数据片段，这样后续就可以在最优数据的基础上，结合非优数据一并对时序网络模型进行训练，从而有效地提高了非优数据的利用率。

结合上述描述，从多个第二数据片段中确定质量较高的目标数据片段后，就可以基于第一环境动作数据集和目标环境动作数据集，对时序网络模型进行训练，得到目标时序网络模型。示例地，在本申请实施例中，基于第一环境动作数据集和目标环境动作数据集，对时序网络模型进行训练，得到目标时序网络模型时，可以基于带权重的行为克隆方法学习智能体策略，对应的目标函数可参见下述公式8所示：

其中，L_full表示第一环境动作数据集和目标环境动作数据集对应的损失函数；a_s表示第一环境动作数据集中，第s个环境动作数据(o_s,m_s,a_s)中的动作特征；his(a_s)表示基于动作特征据a_s对应的时间点之前的历史环境动作数据，确定的预测动作特征；λ表示超参数，用于平衡第一环境动作数据集和第二环境动作数据集对应的损失函数，a_r表示第二环境动作数据集中，第r个环境动作数据(o_r,m_r,a_r)中的动作特征；his(a_r)表示基于动作特征据a_r对应的时间点之前的历史环境动作数据，确定的预测动作特征。

在本申请实施例中，结合第一环境动作数据集和第二环境动作数据集对初始时序网络模型进行预训练，使得预训练得到的时序网络模型能够更有效的利用非优样本中的环境信息，从而可以更好地提取环境动作特征，且可以有效地提高非优数据的利用率。此外，还可以结合预训练得到的时序网络模型，从多个非优的第二环境动作数据集中，确定质量较高的目标环境动作数据集，这样后续就可以在最优的第一环境动作数据集的基础上，结合质量较高的非优的目标环境动作数据集，一并对时序网络模型进行训练，从而有效地提高了非优数据的利用率。

需要说明的是，在本申请实施例中，智能体的输入输出形式均不做限定，例如智能体的输入可以为利用众多传感器进行捕获的数据作为输入：RGB-D相机、激光雷达，智能体自身状态参数等，智能体的输出可以为控制智能体行为的参数和变量。

下面对本申请提供的智能体的控制装置进行描述，下文描述的智能体的控制装置与上文描述的智能体的控制方法可相互对应参照。

图7为本申请实施例提供的一种智能体的控制装置的结构示意图，示例地，请参见图7所示，该智能体的控制装置70可以包括：

获取单元701，用于获取智能体执行任务过程中的目标环境动作数据；

提取单元702，用于将所述目标环境动作数据输入至目标时序网络模型中，通过所述目标时序网络模型提取所述目标环境动作数据对应的目标环境动作特征；其中，所述目标时序网络模型是基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到的；

控制单元703，用于基于所述目标环境动作特征，控制所述智能体执行任务。

示例地，在本申请实施例中，所述时序网络模型基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练，对应的，所述装置还包括：

第一处理单元，用于基于所述第一环境动作数据集和所述第二环境动作数据集，对初始时序网络模型进行预训练，得到时序网络模型；

第二处理单元，用于基于所述时序网络模型和所述第一环境动作数据集，从所述第二环境动作数据集中确定目标环境动作数据集；所述目标环境动作数据集与所述第一环境动作数据集之间的相似度大于相似度阈值；

第三处理单元，用于基于所述第一环境动作数据集和所述目标环境动作数据集，对所述时序网络模型进行训练，得到目标时序网络模型。

示例地，在本申请实施例中，所述第一处理单元，用于基于所述第一环境动作数据集和所述第二环境动作数据集，对初始时序网络模型进行预训练，得到时序网络模型，包括：

示例地，在本申请实施例中，所述第一处理单元，用于基于所述多个环境动作数据、所述多个重建环境动作数据和历史环境动作数据集，对所述初始时序网络模型进行预训练，包括：

示例地，在本申请实施例中，所述第一处理单元，用于基于所述多个环境动作数据和所述历史环境动作数据集，构造第二损失函数，包括：

示例地，在本申请实施例中，所述第一处理单元，用于基于所述时序网络模型和所述第一环境动作数据集，从所述第二环境动作数据集中确定目标环境动作数据集，包括：

示例地，在本申请实施例中，所述第一处理单元，用于基于所述各数据片段对应的目标环境动作特征，从所述多个第二数据片段中确定目标数据片段，包括：

示例地，在本申请实施例中，所述第一处理单元，用于基于与各第一数据片段对应的目标环境动作特征之间的相似度，确定所述第二数据片段对应的目标相似度，包括：

确定与各第一数据片段对应的目标环境动作特征之间的相似度中的最大相似度；

将所述最大相似度，确定为所述第二数据片段对应的所述目标相似度。

本申请实施例提供的智能体的控制装置70，可以执行上述任一实施例中智能体的控制方法的技术方案，其实现原理以及有益效果与智能体的控制方法的实现原理及有益效果类似，可参见智能体的控制方法的实现原理及有益效果，此处不再进行赘述。

图8为本申请实施例提供的一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)880和通信总线840，其中，处理器810，通信接口820，存储器880通过通信总线840完成相互间的通信。处理器810可以调用存储器880中的逻辑指令，以执行智能体的控制方法，该方法包括：获取智能体执行任务过程中的目标环境动作数据；将所述目标环境动作数据输入至目标时序网络模型中，通过所述目标时序网络模型提取所述目标环境动作数据对应的目标环境动作特征；其中，所述目标时序网络模型是基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到的；基于所述目标环境动作特征，控制所述智能体执行任务。

此外，上述的存储器880中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的智能体的控制方法，该方法包括：获取智能体执行任务过程中的目标环境动作数据；将所述目标环境动作数据输入至目标时序网络模型中，通过所述目标时序网络模型提取所述目标环境动作数据对应的目标环境动作特征；其中，所述目标时序网络模型是基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到的；基于所述目标环境动作特征，控制所述智能体执行任务。

又一方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的智能体的控制方法，该方法包括：获取智能体执行任务过程中的目标环境动作数据；将所述目标环境动作数据输入至目标时序网络模型中，通过所述目标时序网络模型提取所述目标环境动作数据对应的目标环境动作特征；其中，所述目标时序网络模型是基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练得到的；基于所述目标环境动作特征，控制所述智能体执行任务。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种智能体的控制方法，其特征在于，包括：

获取智能体执行任务过程中的目标环境动作数据；

基于所述目标环境动作特征，控制所述智能体执行任务。

2.根据权利要求1所述的方法，其特征在于，所述时序网络模型基于智能体成功执行任务的第一环境动作数据集和未成功执行任务的第二环境动作数据集训练，包括以下步骤：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一环境动作数据集和所述第二环境动作数据集，对初始时序网络模型进行预训练，得到时序网络模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述多个环境动作数据、所述多个重建环境动作数据和历史环境动作数据集，对所述初始时序网络模型进行预训练，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述多个环境动作数据和所述历史环境动作数据集，构造第二损失函数，包括：

6.根据权利要求3-5任一项所述的方法，其特征在于，所述基于所述时序网络模型和所述第一环境动作数据集，从所述第二环境动作数据集中确定目标环境动作数据集，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述各数据片段对应的目标环境动作特征，从所述多个第二数据片段中确定目标数据片段，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于与各第一数据片段对应的目标环境动作特征之间的相似度，确定所述第二数据片段对应的目标相似度，包括：

9.一种智能体的控制装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述的智能体的控制方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的智能体的控制方法。

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的智能体的控制方法。