CN117853839A

CN117853839A - 一种模型训练方法及装置

Info

Publication number: CN117853839A
Application number: CN202311665327.6A
Authority: CN
Inventors: 卓凡; 于非; 贺颖
Original assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Shenzhen
Current assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Shenzhen
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-04-09

Abstract

本申请提供了一种模型训练方法及装置。所述方法包括：获取各摄像设备采集的工作场景的第一图像，并提取各第一图像的第一语义信息；根据各第一图像和对应的第一语义信息、摄像设备的位姿信息，构建工作场景模型；从工作场景模型中获取多个指定视角的第二图像和对应的第二语义信息；针对各第二语义信息，确定第二语义信息与目标物体的文本特征之间的相似度，获得第一相似度信息；利用各第二图像、各第二语义信息和各第一相似度信息，训练动作预测模型，直至动作预测模型输出的针对指令的预测动作与专家动作之间的差异值小于预设阈值，获得已训练的动作预测模型。本申请能够提高模型的泛化能力，模型能够应用于不同的任务中。

Description

一种模型训练方法及装置

技术领域

本申请属于智能体技术领域，尤其涉及一种模型训练方法及装置。

背景技术

一般利用深度学习训练模型以控制智能体，以使智能体完成任务。通常需针对任务专门训练模型才可获得较好的任务完成效果。

这一特性导致训练出来的模型泛化性差，无法泛化到其他任务中，使得智能体无法完成多任务。

发明内容

本申请实施例提供了一种模型训练方法、装置及智能体控制方法、装置，电子设备，可读存储介质，计算机程序产品，可以解决涉及智能体的模型泛化性差的问题。

第一方面，本申请实施例提供了一种模型训练方法，包括：

获取各摄像设备采集的工作场景的第一图像，并提取各第一图像的第一语义信息，所述第一图像为在智能体针对指令执行专家动作时采集的图像，所述第一图像包括对应目标物体的成像区域，各摄像设备的安装位置不同，所述指令用于指示所述智能体对所述目标物体进行操作，所述第一语义信息包括所述第一图像中各像素点的语义特征；

根据各所述第一图像和对应的所述第一语义信息、所述摄像设备的位姿信息，构建工作场景模型；

从所述工作场景模型中获取多个指定视角的第二图像和对应的第二语义信息，所述第二语义信息包括所述第二图像中各像素点的语义特征；

针对各第二语义信息，确定所述第二语义信息与所述目标物体的文本特征之间的相似度，获得第一相似度信息，所述第一相似度信息包括所述目标物体的所述文本特征与所述第二图像中各像素点的语义特征之间的相似度；

利用各第二图像、各第二语义信息和各第一相似度信息，训练动作预测模型，直至所述动作预测模型输出的针对所述指令的预测动作与所述专家动作之间的差异值小于预设阈值，获得已训练的动作预测模型。

在一个实施例中，所述根据各所述第一图像和对应的所述第一语义信息、所述摄像设备的位姿信息，构建工作场景模型，包括：

根据各第一图像和对应的所述摄像设备的位姿信息，构建NERF模型；

将各第一语义信息与所述NERF模型融合，获得所述工作场景模型。

在一个实施例中，所述从所述工作场景模型中获取多个指定视角的第二图像和对应的第二语义信息，包括：

对所述工作场景模型中多个区间的点进行渲染，获得多个所述第二图像和对应的所述第二语义信息，所述区间是根据所述指定视角确定的。

在一个实施例中，所述针对各第二语义信息，确定所述第二语义信息与所述目标物体的文本特征之间的相似度，获得第一相似度信息，包括：

针对各第二语义信息，计算所述目标物体的文本特征与所述第二语义信息中各像素点的语义特征之间的余弦相似度，获得所述第一相似度信息。

在一个实施例中，所述指定视角是根据所述智能体的工作空间、所述指令和所述专家动作确定的。

第二方面，本申请实施例提供了一种模型训练装置，包括：

获取模块，用于获取各摄像设备采集的第一图像，并提取各第一图像的第一语义信息，所述第一图像为在智能体针对指令执行专家动作时采集的图像，所述第一图像包括对应目标物体的成像区域，各摄像设备的安装位置不同，所述指令用于指示所述智能体对所述目标物体进行操作，所述第一语义信息包括所述第一图像中各像素点的语义特征；

还用于从任务场景模型中获取多个指定视角的第二图像和对应的第二语义信息，所述第二语义信息包括所述第二图像中各像素点的语义特征；

构建模块，用于根据各所述第一图像和对应的所述第一语义信息、所述摄像设备的位姿信息，构建所述任务场景模型；

确定模块，用于针对各第二语义信息，确定所述第二语义信息与所述目标物体的文本特征之间的相似度，获得第一相似度信息，所述第一相似度信息包括所述目标物体的所述文本特征与所述第二图像中各像素点的语义特征之间的相似度；

训练模块，用于利用各第二图像、各第二语义信息和各第一相似度信息，训练动作预测模型，直至所述动作预测模型输出的针对所述指令的预测动作与所述专家动作之间的差异值小于预设阈值，获得已训练的动作预测模型。第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的方法。

第三方面，本申请实施例提供了一种智能体控制方法，包括：

响应于任务，重复执行下述步骤，直至所述任务结束；

在智能体执行上一时刻的预测动作后，获取各摄像设备采集的当前时刻的任务场景的第三图像，并提取各第三图像的第三语义信息，各摄像设备的安装位置不同，所述第三图像包括对应当前时刻的待操作物体的成像区域，所述第三语义信息包括所述第三图像中各像素点的语义特征；

根据各所述第三图像和对应的所述第三语义信息、所述摄像设备的位姿信息，构建任务场景模型；

从所述任务场景模型中获取多个指定视角的第四图像和对应的第四语义信息，所述第四语义信息包括所述第四图像中各像素点的语义特征；

针对各第四语义信息，确定所述第四语义信息与所述待操作物体的文本特征之间的第二相似度，获得第二相似度信息，所述第二相似度信息包括所述待操作物体的文本特征与所述第四图像中各像素点的语义特征之间的相似度；

将各第四图像、各第四语义信息和各第二相似度信息输入至所述已训练的动作预测模型，获得所述已训练的动作预测模型输出的所述当前时刻的预测动作，以控制所述智能体执行所述当前时刻的预测动作，所述已训练的动作预测模型是通过如上述第一方面中任一项所述的方法训练得到的。

第四方面，本申请实施例提供了一种智能体控制装置，包括：

预测模块，用于响应于任务，重复执行下述步骤，直至所述任务结束；

还用于在智能体执行上一时刻的预测动作后，获取各摄像设备采集的当前时刻的任务场景的第三图像，并提取各第三图像的第三语义信息，各摄像设备的安装位置不同，所述第三图像包括对应当前时刻的待操作物体的成像区域，所述第三语义信息包括所述第三图像中各像素点的语义特征；

还用于根据各所述第三图像和对应的所述第三语义信息、所述摄像设备的位姿信息，构建任务场景模型；

还用于从所述任务场景模型中获取多个指定视角的第四图像和对应的第四语义信息，所述第四语义信息包括所述第四图像中各像素点的语义特征；

还用于针对各第四语义信息，确定所述第四语义信息与所述待操作物体的文本特征之间的第二相似度，获得第二相似度信息，所述第二相似度信息包括所述待操作物体的文本特征与所述第四图像中各像素点的语义特征之间的相似度；

还用于将各第四图像、各第四语义信息和各第二相似度信息输入至所述已训练的动作预测模型，获得所述已训练的动作预测模型输出的所述当前时刻的预测动作，以控制所述智能体执行所述当前时刻的预测动作，所述已训练的动作预测模型是通过如上述第一方面中任一项所述的方法训练得到的。

第五方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面或第二方面中中任一项所述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面或第二方面中任一项所述的方法。

第七方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面或第二方面中任一项所述的方法。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例根据各第一图像和对应的第一语义信息、摄像设备的位姿信息，构建工作场景模型；从工作场景模型中获取多个指定视角的第二图像和对应的第二语义信息，第二语义信息包括第二图像中各像素点的语义特征；针对各第二语义信息，确定第二语义信息与目标物体的文本特征之间的相似度，获得第一相似度信息，第一相似度信息包括目标物体的文本特征与第一图像中各像素点的语义特征之间的相似度；利用各第二图像、各第二语义信息和各第一相似度信息，训练动作预测模型，直至动作预测模型输出的针对指令的预测动作与专家动作之间的差异值小于预设阈值，获得已训练的动作预测模型，能够赋予模型一定的先验信息，模型能够利用这些先验信息更关注目标物体和确定目标物体的位置，即在不同场景中也能准确确定目标物体的位置，进而模型能够应用于不同的任务中，提高模型的泛化能力。同时利用工作场景模型获取指定视角的第二图像和对应的第二语义信息，增强训练数据，提高训练数据的利用率，使得模型更好适应不同场景，提高模型的泛化能力。

可以理解的是，上述第二方面至第七方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的模型训练方法的流程示意图；

图2是本申请一实施例提供的模型训练装置的结构示意图；

图3是本申请一实施例提供的智能体控制方法的流程示意图；

图4是本申请一实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

一般利用深度学习训练模型以实现控制智能体，以使智能体完成任务。为了获得较好的任务完成效果，通常是针对任务专门训练模型。这一特性导致训练出来的模型泛化性差，无法泛化到其他任务中，使得训练得到的模型无法应用于多任务，导致不同任务对应设计和训练模型。这种方式工作量大。另外，现有提高模型泛化性的方式为利用模仿学习训练模型，但该方式需要大量的专家数据进行训练，且有些任务的专家数据存在难采集或无法采集的问题。

基于此，本申请实施例提出了一种模型训练方法、装置，通过图像、语义信息和相似度信息训练模型，以使模型能够在不同场景中准确确定待操作物体的位置和预测动作，提高模型的泛化性。

图1是本申请一实施例提供的模型训练方法的流程示意图。如图1所示，所述模型训练方法，包括：

S11：获取各摄像设备采集的工作场景的第一图像，并提取各第一图像的第一语义信息。

其中，工作场景包括智能体、目标物体。各摄像设备的安装位置不同。第一图像为在智能体针对指令执行专家动作时采集的图像。

其中，指令用于指示智能体对目标物体进行操作。指令为用户输入的指令，指令中包含有目标物体的文本信息。

在应用中，在工作场景中针对指令采集专家数据。专家数据包括在工作场景中根据环境感知下智能体采取的可完成指令的动作。在仿真环境中，专家动作为通过人工编写的脚本实现智能体执行动作获取的。在现实环境中，专家动作为通过人类示教实现智能体执行动作获取的。

通过设置在不同视角的摄像设备拍摄获得第一图像。第一图像包括对应目标物体的成像区域。其中，第一图像可为RGBD图像。通过视觉模型和视觉语言大模型提取第一图像中各像素点的语义特征，进而第一语义信息包括第一图像中各像素点的语义特征。这些像素点的语义特征与目标物体的文本特征是对齐的。

S12：根据各第一图像和对应的第一语义信息、摄像设备的位姿信息，构建工作场景模型。

在一种可能的实现方式中，步骤S12，包括：

S121：根据各第一图像和对应的摄像设备的位姿信息，构建NERF模型。

在应用中，利用NERF(神经辐射场)三维重建技术，根据各第一图像和对应的摄像设备的位姿信息，构建NERF模型。NERF模型涵盖所有拍摄视角的范围。

S122：将各第一语义信息与NERF模型融合，获得工作场景模型。

在应用中，将各第一语义信息与NERF模型融合，获得工作场景模型，工作场景模型可渲染出任意视角的图像和对应的语义特征。

S13：从工作场景模型中获取多个指定视角的第二图像和对应的第二语义信息。

其中，第二语义信息包括第二图像中各像素点的语义特征，第二图像包括对应目标物体的成像区域。

在应用中，步骤S13，包括：

对工作场景模型中多个区间的点进行渲染，获得多个第二图像和对应的第二语义信息，区间是根据指定视角确定的。

其中，指定视角是根据智能体的工作空间、指令和专家动作确定的。智能体的工作空间为智能体完成指令的工作空间，包括智能体、目标物体和周围环境。具体的，根据智能体的工作空间，考虑视角反映智能体所执行的指令和动作，确定代表性的视角，获得指定视角。这些指定视角不局限于摄影设备的拍摄视角。

可以理解的，通过可以生成任意视角的工作场景模型生成具有代表性视角的第二图像，对训练数据进行增强，提高训练数据的利用率。另外，当第二图像的数量多于第一图像的数量，增加训练数据的数量，进一步增强训练数据，提高训练数据的利用率。

在应用中，根据指定视角确定边界，获得对应的区间。利用NERF体渲染公式在工作场景模型中对多个区间的点进行渲染，获得多个第二图像和对应的第二语义信息。其中，NERF体渲染公式：其中，t_n为near边界，t_f为far边界，r(t)＝o+td表示沿着相机射线方向的一个三维点，o表示相机光心，d表示相机射线方向，σ(r(t))表示体渲染密度，用于表示相机光线通过点r(t)的场景密度，c(r(t)，d)表示当前相机光线方向r(t)点的颜色。

S14：针对各第二语义信息，确定第二语义信息与目标物体的文本特征之间的相似度，获得第一相似度信息。

其中，第一相似度信息包括目标物体的文本特征与第一图像中各像素点的语义特征之间的相似度。

在应用中，从指令提取目标物体的文本信息后，通过编码获得目标物体的文本特征。因为各像素点的语义特征已与目标物体的文本特征对齐，可计算二者之间的相似度。获得的第一相似度信息可表示为文本相似度特征场。

在应用中，步骤S14，包括：

针对各第二语义信息，计算目标物体的文本特征与第二语义信息中各像素点的语义特征之间的余弦相似度，获得第一相似度信息。

具体的，因各像素点的语义特征已对齐至文本特征空间中，使得目标物体所在的区域的语义特征与文本特征的的余弦相似度高，而其他区域的余弦相似度低。进而在第一相似度信息中余弦相似度高的区域表示目标物体。这使得余弦相似度高的区域更能被模型关注到，进而模型能够准确获知目标物体所在的位置。

S15：利用各第二图像、各第二语义信息和各第一相似度信息，训练动作预测模型，直至动作预测模型输出的针对指令的预测动作与专家动作之间的差异值小于预设阈值，获得已训练的动作预测模型。

在应用中，通过模仿学习的行为克隆方法最小化预测动作和专家动作，并获得预测动作和专家动作之间的差异值。具体的，函数为argmin||Apre-Agt||²，Apre表示预测动作，Agt表示专家动作，函数通过梯度下降的方式不断迭代优化求解。当函数的差异值小于预设阈值，获得已训练的动作预测模型。

可以理解的，利用工作场景模型获取指定视角的第二图像和对应的第二语义信息，增强训练数据，提高训练数据的利用率，使得使用少量专家数据也能训练好模型，进而模型具有较强泛化能力，甚至具备zero-shot能力(零次学习)。同时解决了现有需要大量专家数据训练模型的问题及专家数据利用效率低的问题。

本实施例根据各第一图像和对应的第一语义信息、摄像设备的位姿信息，构建工作场景模型；从工作场景模型中获取多个指定视角的第二图像和对应的第二语义信息，第二语义信息包括第二图像中各像素点的语义特征；针对各第二语义信息，确定第二语义信息与目标物体的文本特征之间的相似度，获得第一相似度信息，第一相似度信息包括目标物体的文本特征与第一图像中各像素点的语义特征之间的相似度；利用各第二图像、各第二语义信息和各第一相似度信息，训练动作预测模型，直至动作预测模型输出的针对指令的预测动作与专家动作之间的差异值小于预设阈值，获得已训练的动作预测模型，能够赋予模型一定的先验信息，模型能够利用这些先验信息更关注目标物体和确定目标物体的位置，即在不同场景中也能准确确定目标物体的位置，进而模型能够应用于不同的任务中，提高模型的泛化能力。同时利用工作场景模型获取指定视角的第二图像和对应的第二语义信息，增强训练数据，提高训练数据的利用率，使得模型更好适应不同场景，提高模型的泛化能力。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的方法，为了便于说明，仅示出了与本申请实施例相关的部分。

图2是本申请一实施例提供的模型训练装置的结构示意图。如图2所示，所述模型训练装置，包括：

获取模块10，用于获取各摄像设备采集的第一图像，并提取各第一图像的第一语义信息，第一图像为在智能体针对指令执行专家动作时采集的图像，第一图像包括对应目标物体的成像区域，各摄像设备的安装位置不同，指令用于指示智能体对目标物体进行操作，第一语义信息包括第一图像中各像素点的语义特征；

还用于从工作场景模型中获取多个指定视角的第二图像和对应的第二语义信息，第二语义信息包括第二图像中各像素点的语义特征。

构建模块11，用于根据各第一图像和对应的第一语义信息、摄像设备的位姿信息，构建工作场景模型。

确定模块12，用于针对各第二语义信息，确定第二语义信息与目标物体的文本特征之间的相似度，获得第一相似度信息，第一相似度信息包括目标物体的文本特征与第二图像中各像素点的语义特征之间的相似度。

训练模块13，用于利用各第二图像、各第二语义信息和各第一相似度信息，训练动作预测模型，直至动作预测模型输出的针对指令的预测动作与专家动作之间的差异值小于预设阈值，获得已训练的动作预测模型。

在一个实施例中，构建模块，具体用于根据各第一图像和对应的摄像设备的位姿信息，构建NERF模型；将各第一语义信息与NERF模型融合，获得工作场景模型。

在一个实施例中，获取模块，具体用于对工作场景模型中多个区间的点进行渲染，获得多个第二图像和对应的第二语义信息，区间是根据指定视角确定的。

在一个实施例中，确定模块，具体用于针对各第二语义信息，计算目标物体的文本特征与第二语义信息中各像素点的语义特征之间的余弦相似度，获得第一相似度信息。

图3是本申请一实施例提供的智能体控制方法的流程示意图。如图3所示，所述智能体控制方法，包括：

S21：响应于任务，重复执行下述步骤，直至任务结束。

S22：在智能体执行上一时刻的预测动作后，获取各摄像设备采集的任务场景的当前时刻的第三图像，并提取各第三图像的第三语义信息。

其中，各摄像设备的安装位置不同，第三图像包括对应当前时刻的待操作物体的成像区域，第三语义信息包括第三图像中各像素点的语义特征。

在应用中，响应于任务，细分任务。因NERF是静态的，在智能体执行上一时刻的预测动作后，智能体的工作空间的状态会发生变化，且当前时刻的待操作物体也发生变化，与上一时刻的待操作物体不同，需相应改变NERF模型。

在智能体执行上一时刻的预测动作后，通过设置在不同视角的摄像设备对任务场景进行拍摄获得第三图像。

S23：根据各第三图像和对应的第三语义信息、摄像设备的位姿信息，构建任务场景模型。

S24：从任务场景模型中获取多个指定视角的第四图像和对应的第四语义信息。

其中，第四图像包括对应当前时刻的待操作物体的成像区域，第四语义信息包括第四图像中各像素点的语义特征。

S25：针对各第四语义信息，确定第四语义信息与待操作物体的文本特征之间的第二相似度，获得第二相似度信息。

其中，第二相似度信息包括待操作物体的文本特征与第四图像中各像素点的语义特征之间的相似度。

S26：将各第四图像、各第四语义信息和各第二相似度信息输入至已训练的动作预测模型，获得已训练的动作预测模型输出的当前时刻的预测动作，以控制智能体执行当前时刻的预测动作。

其中，已训练的动作预测模型是通过上述实施例所述的模型训练方法训练得到的。

在应用中，控制智能体执行当前时刻的预测动作后，需要进入下一时刻的动作预测时，当前时刻的预测动作相当于上一时刻的预测动作，下一时刻则为当前时刻，重复执行步骤S22-S26，以获得预测动作。

本实施例通过将各第四图像、各第四语义信息和各第二相似度信息输入至已训练的动作预测模型，获得已训练的动作预测模型输出的当前时刻的预测动作，使得模型能够利用第四图像、第四语义信息和第二相似度信息这些先验知识，在不同任务场景中更加关注待操作物体和准确确定待操作物体的位置，进而准确预测动作。

在一个实施例中，所述智能体控制装置，包括：

预测模块，用于响应于任务，重复执行下述步骤，直至所述任务结束。

还用于在智能体执行上一时刻的预测动作后，获取各摄像设备采集的当前时刻的任务场景的第三图像，并提取各第三图像的第三语义信息，各摄像设备的安装位置不同，所述第三图像包括对应当前时刻的待操作物体的成像区域，所述第三语义信息包括所述第三图像中各像素点的语义特征。

还用于根据各所述第三图像和对应的所述第三语义信息、所述摄像设备的位姿信息，构建任务场景模型。

还用于从所述任务场景模型中获取多个指定视角的第四图像和对应的第四语义信息，所述第四语义信息包括所述第四图像中各像素点的语义特征。

还用于针对各第四语义信息，确定所述第四语义信息与所述待操作物体的文本特征之间的第二相似度，获得第二相似度信息，所述第二相似度信息包括所述待操作物体的文本特征与所述第四图像中各像素点的语义特征之间的相似度。

还用于将各第四图像、各第四语义信息和各第二相似度信息输入至所述已训练的动作预测模型，获得所述已训练的动作预测模型输出的所述当前时刻的预测动作，以控制所述智能体执行所述当前时刻的预测动作。

图4为本申请一实施例提供的电子设备的结构示意图。如图4所示，该实施例的电子设备2包括：至少一个处理器20(图4中仅示出一个)、存储器21以及存储在所述存储器21中并可在所述至少一个处理器20上运行的计算机程序22，所述处理器20执行所述计算机程序22时实现上述任意各个方法实施例中的步骤。

所述电子设备2可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该电子设备2可包括，但不仅限于，处理器20、存储器21。本领域技术人员可以理解，图4仅仅是电子设备2的举例，并不构成对电子设备2的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器20可以是中央处理单元(Central Processing Unit，CPU)，该处理器20还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器21在一些实施例中可以是所述电子设备2的内部存储单元，例如电子设备2的硬盘或内存。所述存储器21在另一些实施例中也可以是所述电子设备2的外部存储设备，例如所述电子设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器21还可以既包括所述电子设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体第一过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些情况下，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据各所述第一图像和对应的所述第一语义信息、所述摄像设备的位姿信息，构建工作场景模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述从所述工作场景模型中获取多个指定视角的第二图像和对应的第二语义信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述针对各第二语义信息，确定所述第二语义信息与所述目标物体的文本特征之间的相似度，获得第一相似度信息，包括：

5.根据权利要求1所述的方法，其特征在于：所述指定视角是根据所述智能体的工作空间、所述指令和所述专家动作确定的。

6.一种智能体控制方法，其特征在于，包括：

响应于任务，重复执行下述步骤，直至所述任务结束；

将各第四图像、各第四语义信息和各第二相似度信息输入至所述已训练的动作预测模型，获得所述已训练的动作预测模型输出的所述当前时刻的预测动作，以控制所述智能体执行所述当前时刻的预测动作，所述已训练的动作预测模型是通过权利要求1至5任一项所述的方法训练得到的。

7.一种模型训练装置，其特征在于，包括：

训练模块，用于利用各第二图像、各第二语义信息和各第一相似度信息，训练动作预测模型，直至所述动作预测模型输出的针对所述指令的预测动作与所述专家动作之间的差异值小于预设阈值，获得已训练的动作预测模型。

8.一种智能体控制装置，其特征在于，包括：

还用于将各第四图像、各第四语义信息和各第二相似度信息输入至所述已训练的动作预测模型，获得所述已训练的动作预测模型输出的所述当前时刻的预测动作，以控制所述智能体执行所述当前时刻的预测动作，所述已训练的动作预测模型是通过权利要求1至5任一项所述的方法训练得到的。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项或6所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项或6任一项所述的方法。