CN117876808A

CN117876808A - 一种模型训练方法及装置

Info

Publication number: CN117876808A
Application number: CN202311670456.4A
Authority: CN
Inventors: 卓凡; 于非; 贺颖
Original assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Shenzhen
Current assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Shenzhen
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-04-12

Abstract

本申请提供了一种模型训练方法及装置。所述方法包括：获取工作场景中不同视角的第一图像和第一点云，并提取各第一图像的第一语义信息；根据各第一图像和对应的第一语义信息，确定对应第一点云的第一点云特征信息；确定第一点云特征信息中各点的语义特征与目标物体的文本特征之间的相似度，获得第一相似度信息；利用第一点云、第一点云特征信息和第一相似度信息，训练动作预测模型，直至动作预测模型输出的针对指令的预测动作与专家动作之间的差异值小于预设阈值，获得已训练的动作预测模型。本申请提高模型的泛化能力，模型能够应用于不同的任务中。

Description

一种模型训练方法及装置

技术领域

本申请属于智能体技术领域，尤其涉及一种模型训练方法及装置。

背景技术

一般利用深度学习训练模型以控制智能体，以使智能体完成任务。一般需针对任务专门训练模型才可获得较好的任务完成效果。

这一特性导致训练出来的模型泛化性差，无法泛化到其他任务中，使得智能体无法完成多任务。

发明内容

本申请实施例提供了一种模型训练方法、装置及智能体控制方法、装置，电子设备，可读存储介质，计算机程序产品，可以解决涉及智能体的模型泛化性差的问题。

第一方面，本申请实施例提供了一种模型训练方法，包括：

获取工作场景中不同视角的第一图像和第一点云，并提取各所述第一图像的第一语义信息，所述第一图像为在智能体针对指令执行专家动作时采集的图像，所述第一点云和各第一图像均包括表征目标物体的数据，所述指令用于指示所述智能体对所述目标物体进行操作，所述第一语义信息包括所述第一图像中各像素点的语义特征；

根据各第一图像和对应的所述第一语义信息，确定对应所述第一点云的第一点云特征信息，所述第一点云特征信息包括所述第一点云中各点的语义特征和类别信息；

确定所述第一点云特征信息中各点的所述语义特征与所述目标物体的文本特征之间的相似度，获得第一相似度信息；

利用所述第一点云、所述第一点云特征信息和所述第一相似度信息，训练动作预测模型，直至所述动作预测模型输出的针对所述指令的预测动作与所述专家动作之间的差异值小于预设阈值，获得已训练的动作预测模型。

在一个实施例中，所述根据各所述第一图像和对应的所述第一语义信息，确定对应所述第一点云的第一点云特征信息，包括：

将所述第一点云投影至各第一图像所在的坐标系上，获得多个第一投影图像；

针对每个所述第一投影图像，在同一坐标系下，根据所述第一投影图像的各像素点与所述第一图像的各像素点之间的对应关系，获得所述第一投影图像中各像素点的所述语义特征；

根据各第一投影图像的各像素点的所述语义特征，确定所述第一点云中各点的所述语义特征和所述类别信息，获得所述第一点云特征信息。

在一个实施例中，所述根据各第一投影图像的各像素点的所述语义特征，确定所述第一点云中各点的所述语义特征，包括：

针对所述第一点云的各点，对对应所述点的各第一投影图像的所述像素点的所述语义特征进行加权平均处理，获得所述点的所述语义特征。

在一个实施例中，所述确定所述第一点云特征信息中各点的所述语义特征与所述目标物体的文本特征之间的相似度，获得第一相似度信息，包括：

计算所述第一点云特征信息中各点的所述语义特征与所述目标物体的所述文本特征的余弦相似度，获得所述第一相似度信息。

在一个实施例中，所述第一点云为根据各所述第一图像和对应的设备位姿信息构建的。

第二方面，本申请实施例提供了一种智能体控制装置，包括：

获取模块，用于获取工作场景中不同视角的第一图像和第一点云，并提取各所述第一图像的第一语义信息，所述第一图像为在智能体针对指令执行专家动作时采集的图像，所述第一点云和各第一图像均包括表征目标物体的数据，所述指令用于指示所述智能体对所述目标物体进行操作，所述第一语义信息包括所述第一图像中各像素点的语义特征；

确定模块，用于根据各第一图像和对应的所述第一语义信息，确定对应所述第一点云的第一点云特征信息，所述第一点云特征信息包括所述第一点云中各点的语义特征和类别信息；

还用于确定所述第一点云特征信息中各点的语义特征与所述目标物体的文本特征之间的相似度，获得第一相似度信息；

训练模块，用于利用所述第一点云、所述第一点云特征信息和所述第一相似度信息，训练动作预测模型，直至所述动作预测模型输出的针对所述指令的预测动作与所述专家动作之间的差异值小于预设阈值，获得已训练的动作预测模型。

第三方面，本申请实施例提供了一种智能体控制方法，包括：

响应于任务，将任务场景的当前时刻的第二点云、第二点云特征信息和第二相似度信息输入至已训练的动作预测模型，获得所述已训练的动作预测模型输出的针对所述任务的当前时刻的预测动作，以控制智能体执行所述当前时刻的预测动作，所述已训练的动作预测模型为通过上述第一方面中任一项所述的方法训练获得的，第二点云特征信息包括所述第二点云中各点的语义特征，且是根据所述任务场景中当前时刻不同视角的第二图像、对应的第二语义信息和所述第二点云确定的，所述第二语义信息包括所述第二图像中各像素点的语义特征，所述第二相似度信息是根据所述第二点云特征信息中各点的语义特征与待操作物体的文本特征之间的相似度确定的；

在所述智能体完成所述当前时刻的预测动作后，追踪所述当前时刻的第二点云的关键点，并根据追踪结果更新所述当前时刻的第二点云和第二点云特征信息，获得下一时刻的第三点云和第三点云特征信息；

确定所述第三点云特征信息中各点的所述语义特征与所述待操作物体的文本特征之间的相似度，获得第三相似度信息；

将下一时刻的所述第三点云、所述第三点云特征信息和所述第三相似度信息输入至所述已训练的动作预测模型，获得所述已训练的动作预测模型输出的针对所述任务的下一时刻的预测动作，以控制所述智能体执行所述下一时刻的预测动作，并返回执行步骤：在所述智能体完成所述当前时刻的预测动作后，追踪所述当前时刻的第二点云的关键点，并根据追踪结果更新所述当前时刻的第二点云和第二点云特征信息，获得下一时刻的第三点云和第三点云特征信息，直至所述任务完成。

在一个实施例中，所述追踪所述当前时刻的第二点云的关键点，并根据追踪结果更新所述当前时刻的第二点云和第二点云特征信息，获得下一时刻的第三点云和第三点云特征信息，包括：

利用所述待操作物体的所述关键点，追踪在所述第二点云中的所述关键点，获得所述追踪结果；

根据所述追踪结果，更新所述第二点云，获得第三点云；

根据所述追踪结果，迭代更新所述第二点云特征信息，直至更新后点云特征信息的关键点的语义特征与所述第二点云特征信息的关键点的语义特征之间的差异值小于预设阈值，获得所述第三点云特征信息。

第四方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面或第三方面中任一项所述的方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面或第三方面中任一项所述的方法。

第六方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面或第三方面中任一项所述的方法。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例通过获取工作场景中不同视角的第一图像和第一点云，并提取各第一图像的第一语义信息，第一图像为在智能体针对指令执行专家动作时采集的图像，第一点云和各第一图像均包括表征目标物体的数据，指令用于指示智能体对目标物体进行操作，第一语义信息包括第一图像中各像素点的语义特征；根据各第一图像和对应的第一语义信息，确定对应第一点云的第一点云特征信息，第一点云特征信息包括第一点云中各点的语义特征和类别信息，确定第一点云特征信息中各点的语义特征与目标物体的文本特征之间的相似度，获得第一相似度信息；以获得工作场景的信息，可在训练过程中使模型感知到先验信息。

以及通过利用第一点云、第一点云特征信息和第一相似度信息，训练动作预测模型，直至动作预测模型输出的针对指令的预测动作与专家动作之间的差异值小于预设阈值，获得已训练的动作预测模型，使得模型利用先验信息更加关注目标物体，且基于相似度信息，使得模型更准确确定物体位置，进而准确预测待执行动作，实现智能体准确对任务的物体执行动作，使得模型在不同的任务场景中也能准确确定物体位置及预测动作，具有较强的泛化能力。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的模型训练方法的流程示意图；

图2是本申请一实施例提供的模型训练装置的结构示意图；

图3是本申请一实施例提供的智能体控制方法的流程示意图；

图4是本申请一实施例提供的智能体控制装置的结构示意图；

图5是本申请一实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

一般利用深度学习训练模型以实现控制智能体，以使智能体完成任务。为了获得较好的任务完成效果，通常是针对任务专门训练模型。这一特性导致训练出来的模型泛化性差，无法泛化到其他任务中，使得训练得到的模型无法应用于多任务，导致不同任务对应设计和训练模型。这种方式工作量大。另外，现有提高模型泛化性的方式为利用模仿学习训练模型，但该方式需要大量的专家数据进行训练，且有些任务的专家数据存在难采集或无法采集的问题。

基于此，本申请实施例提出了一种模型训练方法、装置，通过第一点云、第一点云特征信息和第一相似度信息训练模型，以使模型能够在不同场景中准确确定待操作物体的位置和预测动作，提高模型的泛化性。

图1是本申请一实施例提供的模型训练方法的流程示意图。如图1所示，所述方法，包括：

S11：获取工作场景中不同视角的第一图像和第一点云，并提取各第一图像的第一语义信息。

其中，第一图像为在智能体针对指令执行专家动作时采集的图像。第一点云和各第一图像均包括表征目标物体的数据。

在应用中，在工作场景中针对指令采集专家数据。专家数据包括在工作场景中根据环境感知下智能体采取的可完成指令的动作。在仿真环境中，专家动作为通过人工编写的脚本实现智能体执行动作获取的。在现实环境中，专家动作为通过人类示教实现智能体执行动作获取的。

不同视角的第一图像可通过一个摄像设备围绕智能体移动时在不同视角拍摄获得，或通过设置在不同视角的摄像设备拍摄获得。第一图像包括对应目标物体的成像区域。其中，第一图像可为RGBD图像。通过视觉模型和视觉语言大模型提取第一图像中各像素点的语义特征，第一语义信息包括第一图像中各像素点的语义特征。这些像素点的语义特征与目标物体的文本特征是对齐的。

其中，指令用于指示智能体对目标物体进行操作。指令为用户输入的指令，指令中包含有目标物体的文本信息。

在一种可能的实现方式中，第一点云为根据各第一图像和对应的设备位姿信息构建的。具体的，在获取各第一图像时同时获取摄像设备的设备位姿信息。根据各第一图像和对应的设备位姿信息进行三维构建，获得第一点云。

S12：根据各第一图像和对应的第一语义信息，确定对应第一点云的第一点云特征信息。

其中，第一点云特征信息包括第一点云中各点的语义特征和类别信息。具体的，通过F(x)＝(f，p)表示，x为任意3D点的坐标，f为N维的语义特征向量，p为类别信息，即在物体集合中所属的类别，可通过one-hot编码表示。one-hot编码用于将离散的分类标签转换为二进制向量。第一点云特征信息可表示为隐式3D特征信息。

在一种可能的实现方式中，步骤S12，包括：

S21：将第一点云投影至各第一图像所在的坐标系上，获得多个第一投影图像。

在应用中，针对各第一图像，基于摄像设备的内外参数，将第一点云投影至第一图像所在的坐标系上，获得第一投影图像。

S22：针对每个第一投影图像，在同一坐标系下，根据第一投影图像的各像素点与第一图像的各像素点之间的对应关系，获得第一投影图像中各像素点的语义特征。

其中，第一投影图像的各像素点与第一图像的各像素点之间的对应关系为位置对应关系。在应用中，针对每个第一投影图像，基于位置对应关系，第一投影图像中的像素点匹配到对应的第一图像的像素点，进而第一图像的像素点的语义特征为第一投影图像中像素点的语义特征。

S23：根据各第一投影图像的各像素点的语义特征，确定第一点云中各点的语义特征和类别信息，获得第一点云特征信息。

在应用中，步骤S23，包括：

针对第一点云的各点，对对应点的各第一投影图像的像素点的语义特征进行加权平均处理，获得点的语义特征。

S13：确定第一点云特征信息中各点的语义特征与目标物体的文本特征之间的相似度，获得第一相似度信息。

在应用中，从指令提取目标物体的文本信息后，通过编码获得目标物体的文本特征。因为各点的语义特征已与目标物体的文本特征对齐，可计算二者之间的相似度。获得的第一相似度信息可表示为文本相似度特征信息。

在一种可能的实现方式中，步骤S13，包括：

计算第一点云特征信息中各点的语义特征与目标物体的文本特征的余弦相似度，获得第一相似度信息。

具体的，因各点的语义特征已对齐至文本特征空间中，使得目标物体所在的区域的语义特征与文本特征的的余弦相似度高，而其他区域的余弦相似度低。进而在第一相似度信息中余弦相似度高的区域表示目标物体。这使得余弦相似度高的区域更能被模型关注到，进而模型能够准确获知目标物体所在的位置。

S14：利用第一点云、第一点云特征信息和第一相似度信息，训练动作预测模型，直至动作预测模型输出的针对指令的预测动作与专家动作之间的差异值小于预设阈值，获得已训练的动作预测模型。

在应用中，第一点云网格化后，将网格化第一点云、第一点云特征信息和第一相似度信息输入至动作预测模型，模型中的3D特征提取模块对3D信息进行特征提取和特征融合，其中3D信息包括第一点云特征信息、第一相似度信息和第一点云的点云空间结构信息。然后基于处理后的3D特征利用注意力机制学习各体素网格的相互关系，具体的学习token(令牌)之间的相互关系。然后基于相互关系通过MLP模块(Multilayer Perceptron，多层感知机)进行预测，获得预测动作。通过模仿学习的行为克隆方法最小化预测动作和专家动作，并获得预测动作和专家动作之间的差异值。具体的，函数为argmin||Apre-Agt||²，Apre表示预测动作，Agt表示专家动作，函数通过梯度下降的方式不断迭代优化求解。当函数的差异值小于预设阈值，获得已训练的动作预测模型。

示例的，指令为打开抽屉。智能体针对指令执行专家动作对目标物体：抽屉进行操作。在智能体所在的工作场景中，控制相机围绕智能体采集不同视角的RGBD图像，并提取RGBD图像的语义信息。RGBD图像包括对应抽屉的成像区域。根据多个RGBD图像和对应的相机位姿构建第一点云。基于不同视角的RGBD图像和语义信息，确定第一点云特征信息。基于第一点云特征信息和抽屉的文本特征，确定第一相似度信息。利用第一点云、第一点云特征信息和第一相似度信息训练动作预测模型。

可以理解的，模型利用先验信息更加关注目标物体，即使使用少量的训练数据也能训练模型，解决了现有需要大量专家数据训练模型的问题，同时也解决了专家数据利用效率低的问题。

另外，利用第一点云、第一点云特征信息和第一相似度信息训练模型，提高泛化能力时，还使模型具有zero-shot(零次学习)的能力。

本实施例通过获取工作场景中不同视角的第一图像和第一点云，并提取各第一图像的第一语义信息，第一图像为在智能体针对指令执行专家动作时采集的图像，第一点云和各第一图像均包括表征目标物体的数据，指令用于指示智能体对目标物体进行操作，第一语义信息包括第一图像中各像素点的语义特征；根据各第一图像和对应的第一语义信息，确定对应第一点云的第一点云特征信息，第一点云特征信息包括第一点云中各点的语义特征和类别信息，确定第一点云特征信息中各点的语义特征与目标物体的文本特征之间的相似度，获得第一相似度信息；以获得工作场景的信息，可在训练过程中使模型感知到先验信息。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的方法，为了便于说明，仅示出了与本申请实施例相关的部分。

图2是本申请一实施例提供的模型训练装置的结构示意图。如图2所示，所述装置，包括：

获取模块10，用于获取工作场景中不同视角的第一图像和第一点云，并提取各第一图像的第一语义信息，第一图像为在智能体针对指令执行专家动作时采集的图像，第一点云和各第一图像均包括表征目标物体的数据，指令用于指示智能体对目标物体进行操作，第一语义信息包括第一图像中各像素点的语义特征。

确定模块11，用于根据各第一图像和对应的第一语义信息，确定对应第一点云的第一点云特征信息，第一点云特征信息包括第一点云中各点的语义特征和类别信息。

还用于确定第一点云特征信息中各点的语义特征与目标物体的文本特征之间的相似度，获得第一相似度信息。

训练模块12，用于利用第一点云、第一点云特征信息和第一相似度信息，训练动作预测模型，直至动作预测模型输出的针对指令的预测动作与专家动作之间的差异值小于预设阈值，获得已训练的动作预测模型。

在一个实施例中，确定模块，具体用于将第一点云投影至各第一图像所在的坐标系上，获得多个第一投影图像；针对每个第一投影图像，在同一坐标系下，根据第一投影图像的各像素点与第一图像的各像素点之间的对应关系，获得第一投影图像中各像素点的语义特征；根据各第一投影图像的各像素点的语义特征，确定第一点云中各点的语义特征和类别信息，获得第一点云特征信息。

在一个实施例中，确定模块，具体用于计算第一点云特征信息中各点的语义特征与目标物体的文本特征的余弦相似度，获得第一相似度信息。

在一个实施例中，第一点云为根据各第一图像和对应的设备位姿信息构建的。

图3是本申请一实施例提供的智能体控制方法的流程示意图。如图3所示，所述方法，包括：

S31：响应于任务，将任务场景的当前时刻的第二点云、第二点云特征信息和第二相似度信息输入至已训练的动作预测模型，获得已训练的动作预测模型输出的针对任务的当前时刻的预测动作，以控制智能体执行当前时刻的预测动作。

其中，已训练的动作预测模型为通过上述实施例所述的模型训练方法训练获得的，第二点云特征信息包括第二点云中各点的语义特征，且是根据任务场景中当前时刻不同视角的第二图像、对应的第二语义信息和第二点云确定的，第二语义信息包括第二图像中各像素点的语义特征，第二相似度信息是根据第二点云特征信息中各点的语义特征与待操作物体的文本特征之间的相似度确定的。

在一种可能的实现方式中，接收到用户的任务后，响应于任务，在任务场景中围绕智能体获取当前时刻不同视角的第二图像，并提取各第二图像的第二语义信息。根据不同视角的第二图像和对应的第二语义信息确定对应第二点云的第二点云特征信息。计算第二点云特征信息中各点的语义特征与待操作物体的文本特征之间的相似度，获得第二相似度。将任务场景的当前时刻的第二点云、第二点云特征信息和第二相似度信息输入至已训练的动作预测模型，获得当前时刻智能体需执行的预测动作。

S32：在智能体完成当前时刻的预测动作后，追踪当前时刻的第二点云的关键点，并根据追踪结果更新当前时刻的第二点云和第二点云特征信息，获得下一时刻的第三点云和第三点云特征信息。

在应用中，在智能体完成当前时刻的预测动作后，智能体的工作空间的状态发生了变化，需获得变化后的点云和点云特征信息。为了降低重复建立新点云和新点云特征信息的频率，通过关键点追踪算法确定下一时刻的第三点云和第三点云特征信息。同时也保障了第三点云与第三点云特征信息同步变化。

在一种可能的实现方式中，步骤S32，包括：

S41：利用待操作物体的关键点，追踪在第二点云中的关键点，获得追踪结果。

在应用中，预先在待操作物体设置关键点，利用点云追踪算法，追踪在第二点云中的关键点，获得追踪结果。

S42：根据追踪结果，更新第二点云，获得第三点云。

S43：根据追踪结果，迭代更新第二点云特征信息，直至更新后点云特征信息的关键点的语义特征与第二点云特征信息的关键点的语义特征之间的差异值小于预设阈值，获得第三点云特征信息。

在应用中，待操作物体的关键点记为S，第二点云特征信息记为F_f，第二点云特征信息的关键点的语义特征记为F_f(S_t)，更新后点云特征信息的关键点的语义特征记为F_f(S_t+1)。

具体的，函数为min||F_f(S_t+1)-F_f(S_t)||²，基于F_f可微，函数通过梯度下降的方式不断迭代优化求解。当函数的差异值小于预设阈值，获得第三点云特征信息。

S33：确定第三点云特征信息中各点的语义特征与待操作物体的文本特征之间的相似度，获得第三相似度信息。

S34：将下一时刻的第三点云、第三点云特征信息和第三相似度信息输入至已训练的动作预测模型，获得已训练的动作预测模型输出的针对任务的下一时刻的预测动作，以控制智能体执行下一时刻的预测动作，并返回执行步骤：在智能体完成当前时刻的预测动作后，追踪当前时刻的第二点云的关键点，并根据追踪结果更新当前时刻的第二点云和第二点云特征信息，获得下一时刻的第三点云和第三点云特征信息，直至任务完成。

在应用中，在控制智能体执行下一时刻的预测动作后，下一时刻的预测动作相当于当前时刻的预测动作，然后返回执行步骤S32-S34，直至任务完成。

本实施例通过模型利用点云、点云特征信息、相似度信息可在不同任务中更加关注任务下需要操作的物体，且准确确定待操作物体的位置，进而准确预测动作。

图4是本申请一实施例提供的智能体控制装置的结构示意图。如图4所示，所述装置，包括：

预测模块20，用于响应于任务，将任务场景的当前时刻的第二点云、第二点云特征信息和第二相似度信息输入至已训练的动作预测模型，获得已训练的动作预测模型输出的针对任务的当前时刻的预测动作，以控制智能体执行当前时刻的预测动作，已训练的动作预测模型为通过上述实施例所述模型训练方法训练获得的，第二点云特征信息包括第二点云中各点的语义特征，且是根据任务场景中当前时刻不同视角的第二图像、对应的第二语义信息和第二点云确定的，第二语义信息包括第二图像中各像素点的语义特征，第二相似度信息是根据第二点云特征信息中各点的语义特征与待操作物体的文本特征之间的相似度确定的。

还用于将下一时刻的第三点云、第三点云特征信息和第三相似度信息输入至已训练的动作预测模型，获得已训练的动作预测模型输出的针对任务的下一时刻的预测动作，以控制智能体执行下一时刻的预测动作，并返回执行步骤：在智能体完成当前时刻的预测动作后，追踪当前时刻的第二点云的关键点，并根据追踪结果更新当前时刻的第二点云和第二点云特征信息，获得下一时刻的第三点云和第三点云特征信息，直至任务完成。

更新模块21，用于在智能体完成当前时刻的预测动作后，追踪当前时刻的第二点云的关键点，并根据追踪结果更新当前时刻的第二点云和第二点云特征信息，获得下一时刻的第三点云和第三点云特征信息；

相似度计算模块22，用于确定第三点云特征信息中各点的语义特征与待操作物体的文本特征之间的相似度，获得第三相似度信息。

在一个实施例中，更新模块，具体用于利用待操作物体的关键点，追踪在第二点云中的关键点，获得追踪结果；根据追踪结果，更新第二点云，获得第三点云；根据追踪结果，迭代更新第二点云特征信息，直至更新后点云特征信息的关键点的语义特征与第二点云特征信息的关键点的语义特征之间的差异值小于预设阈值，获得第三点云特征信息。

图5为本申请一实施例提供的电子设备的结构示意图。如图5所示，该实施例的电子设备3包括：至少一个处理器30(图5中仅示出一个)、存储器31以及存储在所述存储器31中并可在所述至少一个处理器30上运行的计算机程序32，所述处理器30执行所述计算机程序32时实现上述任意各个方法实施例中的步骤。

所述电子设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该电子设备3可包括，但不仅限于，处理器30、存储器31。本领域技术人员可以理解，图5仅仅是电子设备3的举例，并不构成对电子设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，该处理器30还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器31在一些实施例中可以是所述电子设备3的内部存储单元，例如电子设备3的硬盘或内存。所述存储器31在另一些实施例中也可以是所述电子设备3的外部存储设备，例如所述电子设备3上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器31还可以既包括所述电子设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些情况下，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据各所述第一图像和对应的所述第一语义信息，确定对应所述第一点云的第一点云特征信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据各第一投影图像的各像素点的所述语义特征，确定所述第一点云中各点的所述语义特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述第一点云特征信息中各点的所述语义特征与所述目标物体的文本特征之间的相似度，获得第一相似度信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述第一点云为根据各所述第一图像和对应的设备位姿信息构建的。

6.一种智能体控制方法，其特征在于，包括：

响应于任务，将任务场景的当前时刻的第二点云、第二点云特征信息和第二相似度信息输入至已训练的动作预测模型，获得所述已训练的动作预测模型输出的针对所述任务的当前时刻的预测动作，以控制智能体执行所述当前时刻的预测动作，所述已训练的动作预测模型为通过权利要求1至5任一项所述的方法训练获得的，第二点云特征信息包括所述第二点云中各点的语义特征，且是根据所述任务场景中当前时刻不同视角的第二图像、对应的第二语义信息和所述第二点云确定的，所述第二语义信息包括所述第二图像中各像素点的语义特征，所述第二相似度信息是根据所述第二点云特征信息中各点的语义特征与待操作物体的文本特征之间的相似度确定的；

7.根据权利要求6所述的方法，其特征在于，所述追踪所述当前时刻的第二点云的关键点，并根据追踪结果更新所述当前时刻的第二点云和第二点云特征信息，获得下一时刻的第三点云和第三点云特征信息，包括：

根据所述追踪结果，更新所述第二点云，获得第三点云；

8.一种智能体控制装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5或6至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5或6至7任一项所述的方法。