CN115933387A

CN115933387A - 基于视觉语言预训练模型的机器人操控方法、装置及介质

Info

Publication number: CN115933387A
Application number: CN202211493655.8A
Authority: CN
Inventors: 廖建峰; 宋伟; 朱世强; 孟启炜
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-04-07

Abstract

本发明涉及一种基于视觉语言预训练模型的机器人操控方法、装置及介质，所述方法包括：获取实时的视觉感知信息和自然语言指令，将该视觉感知信息和自然语言指令作为一操控策略深度学习网络模型的输入，获得对应的机器人动作指令；其中，所述操控策略深度学习网络模型的训练过程包括以下步骤：搭建机器人操控的仿真环境，在该仿真环境中生成第一训练数据集，构建包含视觉语言预训练的操控策略深度学习网络模型对操控策略深度学习网络模型进行预训练；采集真实场景数据集并处理，生成第二训练数据集，对经预训练的操控策略深度学习网络模型进行小样本迁移训练，微调模型参数，获得最终的操控策略深度学习网络模型。与现有技术相比，本发明具有可方便实现多任务作业、具有泛化能力等优点。

Description

基于视觉语言预训练模型的机器人操控方法、装置及介质

技术领域

本发明属于智能机器人任务理解及操控作业领域，尤其是涉及一种基于视觉语言预训练模型的机器人操控方法、装置及介质。

背景技术

开放环境中的多任务操控以及在未知场景中进行泛化是服务型机器人研究的一项重要难题。为实现上述目标，目前主要基于机器人学习的方法实现机器人自主操控策略，通过设置回报函数、特定的图像目标、以及机器人空间信息作为任务指令输入。然而，此类方法获取的多任务操控策略的任务指令仍然需要花费人力进行回报函数、目标函数的设计，难以在开放环境下作业。为解决上述难题，智能机器人需具备理解自然自然语言指令的能力，依据任意组合的语言输入以及场景感知，输出机器人具体的运动轨迹。

目前，有不少关于从感知传感器数据直接学习机器人技能的研究。有两种常见的方法：模仿学习和强化学习。模仿学习的研究具有一段较长的历史，早期的模仿学习研究工作主要为行为克隆(BC)，即通过大量的专家数据中学习策略。近年来，从专家数据中学习回报函数、Q函数的模仿学习快速发展。此外，不少专家展开机器人强化学习的研究，基于人为设计的任务回报进行监督学习。此类方法在复杂环境下学习往往要求额外的人为设计策略以及人类引导，以解决强化学习的hard exploration问题。

以上方法通常解决机器人单任务作业的难题，而服务机器人涉及一项关键难题则是多任务学习，即通过从训练任务中学习多任务作业的技能，且能够泛化至新的任务。然而，即使是多任务学习的策略，面对新任务的时候仍然需要学习，策略难以进行泛化。为此，需要研究以自然语言为任务指令的机器人操控策略，以实现多任务作业。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种可方便实现多任务作业、具有泛化能力的基于视觉语言预训练模型的机器人操控方法、装置及介质。

本发明的目的可以通过以下技术方案来实现：

本发明提供一种基于视觉语言预训练模型的机器人操控方法，该方法包括：获取实时的视觉感知信息和自然语言指令，将该视觉感知信息和自然语言指令作为一操控策略深度学习网络模型的输入，获得对应的机器人动作指令；

其中，所述操控策略深度学习网络模型的训练过程包括以下步骤：

搭建机器人操控的仿真环境，在该仿真环境中生成第一训练数据集，构建包含视觉语言预训练的操控策略深度学习网络模型，对操控策略深度学习网络模型进行预训练；

采集真实场景数据集并处理，生成第二训练数据集，对经预训练的操控策略深度学习网络模型进行小样本迁移训练，微调模型参数，获得最终的操控策略深度学习网络模型。

进一步地，所述自然语言指令包括机器人操控动作和对象属性。

进一步地，所述自然语言指令基于任务指令模板生成。

进一步地，所述视觉感知信息包括RGB图像和深度图像。

进一步地，所述机器人动作指令的维度包括机器人自由度和机器人夹爪自由度。

进一步地，对所述真实场景数据集的处理具体为：将真实场景数据集处理成与所述第一训练数据集格式一致的数据集。

进一步地，所述操控策略深度学习网络模型包括图像编码模块和语言编码模块，基于图像编码模块获得视觉感知信息的向量化表征，同时基于语言编码模块获得自然语言指令的向量化表征，将两个向量化表征拼接形成向量特征，基于该向量特征获得机器人动作指令。

进一步地，所述操控策略深度学习网络模型训练时采用的损失函数为均方差函数。

本发明还提供一种基于视觉语言预训练模型的机器人操控装置，包括：

视觉感知信息采集模块，用于获取实时的视觉感知信息；

控制计算机，用于训练并存储操控策略深度学习网络模型，在获得实时的自然语言指令和视觉感知信息时，将视觉感知信息和自然语言指令作为所述操控策略深度学习网络模型的输入，获得对应的机器人动作指令；

其中，所述控制计算机包括：

仿真环境预训练模块，用于搭建机器人操控的仿真环境，在该仿真环境中生成第一训练数据集，对操控策略深度学习网络模型进行预训练；

参数微调模块，用于获取真实场景数据集并处理，生成第二训练数据集，对经预训练的操控策略深度学习网络模型进行小样本迁移训练，微调模型，获得最终的操控策略深度学习网络模型；

人机交互模块，用于获取实时的自然语言指令；

动作指令生成模块，用于根据视觉感知信息、自然语言指令和最终的操控策略深度学习网络模型，生成对应的机器人动作指令。

进一步地，所述自然语言指令基于任务指令模板生成。

进一步地，所述视觉感知信息包括RGB图像和深度图像。

进一步地，所述视觉感知信息采集模块包括经联合标定的手臂相机和外部相机。

进一步地，所述参数微调模块中，对真实场景数据集的处理具体为：将真实场景数据集处理成与所述第一训练数据集格式一致的数据集。

本发明还提供一种基于视觉语言预训练模型的机器人操控装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现如上所述的基于视觉语言预训练模型的机器人操控方法。

本发明还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现如上所述的基于视觉语言预训练模型的机器人操控方法。

与现有技术相比，本发明具有以下有益效果：

1、传统的机器人操控策略均需要非常具体的指令输入，包括目标位置及姿态，然后基于运动规划方法得到机器人运动轨迹，因此难以扩展至全新的任务。本发明方法能够根据自然语言指令输入以及图像输入，生成机器人操控轨迹，可以实现自然语言语句输入下机器人的操控决策，方便实现多任务作业，泛化能力强。

2、本发明建立基于语言视觉预训练模型的机器人操控策略，能够为机器人自主作业提供支撑。

附图说明

图1为本发明方法的流程示意图；

图2为本发明构建的操控策略深度学习网络模型的结构示意图；

图3为本发明机器人操控装置的结构示意图；

图4为本发明控制流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

本发明一实施例提供一种基于视觉语言预训练模型的机器人操控方法，该方法包括：获取实时的视觉感知信息和自然语言指令，将该视觉感知信息和自然语言指令作为一操控策略深度学习网络模型的输入，获得对应的机器人动作指令。该方法能够根据语言指令输入以及图像输入，生成机器人操控轨迹，提供了一种新的机器人实现多任务作业的思路。

图1为本发明一实施例提供的机器人操控方法的整体流程示意图。如图1所示，本发明实施例中的机器人操控方法可包括如下步骤：

步骤S1、设计任务指令模板。

本实施例设计的任务指令模板由自然语言指令构成，包含机器人操控动作、对象属性等信息。

任务指令模板中的语言指令至少包含如下形式：

put{sth}in{sth},将某种物体装入另一种物体；

put{color}blocks in{color}bowl，将某种颜色的物体放入某种颜色的碗中；

pack{sth}in{sth},将物体放到另一个物体中；

open{sth},打开某种物体

close{sth}，关闭某些物体

Insert{sth}into{sth},将某种物体插入某种物体

Put{sth}left of{sth},将某种物体放在某种物体的左边

Put{sth}right of{sth}，将某种物体放置与谋中物体右边

Pull{sth}，把某种物体拉出来

Push{sth}，将某种物体推开

步骤S2、搭建机器人操控的仿真环境。

本实施例中，搭建的仿真环境包括机器人本体、操控对象等。仿真环境搭建主要包含以下内容，利用pybullet导入机器人本体的URDF文件，设置重力加速度、摩擦力系数等参数；设置机器人初始位姿，并初始化机器人姿态；仿真环境下设置相机参数，包含相机的位置、姿态、相机内参；仿真环境下根据步骤S1中的语言指令，从物品库中按照语言模板中{}中的内容选择物体，物体的位姿通过随机函数生成，并将物体的URDF文件导入至仿真环境中；在物品库中引入其他类型物体并导入仿真环境作为干扰项。

步骤S3、根据语言指令以及机器人仿真环境生成机器人的操控数据集，该操控数据集包含RGB-D感知输入、语言指令和机器人控制输出(即机器人动作指令)。

本实施例设计基于感知输入、语言指令并输出机器人动作的控制策略，其中视觉感知输入表示为o_t、语言指令为l_t，控制输出为a_t。其中视觉感知输入o_t，包含RGB图像以及深度图像，两者相互对齐；语言指令为基于任务语言模板填充机器人具体操作对象生成的指令；控制输出a_t主要包含机器人关节空间以及夹爪的空间。上述信息可以构成一个示教数据集轨迹序列ξ_i＝{(o₁,l₁,a₁),(o₁,l₁,a₁),…,(o_T,l_T,a_T)}，T表示动作序列的长度。此外，通过仿真环境不断的迭代，构建一个机器人操控策略的数据集Dξ₁,ξ₂,…,ξ_n},n表示数据集的长度。

步骤S4、设计用于机器人操控的包含视觉语言预训练的操控策略深度学习网络模型。

本实施例中，所设计的操控策略深度学习网络模型包括基于语言视觉预训练模型的多模态表征、机器人操控生成等两部分模型组成。其中，基于语言视觉预训练模型的多模态表征主要包含两个部分，一部分是将感知得到的RGB图像作为输入预训练视觉语言模型的图像表征部分，得到图像的向量化表特，另外将语言指令输入预训练视觉语言模型的语言表征部分，得到语言指令的向量化表征，然后将两种表征向量进行拼接得到全新的向量；机器人操控生成部分将语言视觉预训练模型表征后的向量作为底层操控策略深度学习网络模型的输入，输出维度为机器人自由度+机器人夹爪自由度。该模型设计为多层全连接层，具体结构如图2所示。

步骤S5、以步骤S3获得的操控数据集作为第一训练数据集，对步骤S4构建的操控策略深度学习网络模型进行预训练，获得操控策略参数。所述训练过程包含损失函数设计、参数初始化、优化步长选择、训练步数等。

本实施例中，损失函数采用均方差函数，其表达式为：

其中，N为batch数量，a为控制输出,a_l表示数据集标签

模型参数θ随机初始化。经过一定次数的优化之后，可以得到预训练的模型参数，并在验证集中验证。

步骤S6、在真实场景中初始化机器人。

本实施例采用的机器人多自由度机械臂、视觉传感器、驱动电机、若干编码器、人机交互模块、实时控制器以及桌面环境等，视觉传感器可以置于夹爪附近和/或外部安装。本实施例中，视觉传感器包括手臂相机和外部相机，用于采集视觉感知信息；人机交互模块主要用于语言指令的输入，指令输入参考步骤S1中设计的机器人作业任务语言模板。

在初始化机器人时，手臂相机和外部相机通过棋盘网格法实现两种相机的联合标定，获得相机的内参以及外参；机器人本体初始化主要通过初始化程序将机器人移动到设定的初始位姿。

步骤S7、采集真实感知数据集并处理，生成第二训练数据集，对经步骤S5预训练的操控策略深度学习网络模型进行小样本迁移训练，微调模型参数，获得最终的操控策略深度学习网络模型。

在具体实施方式中，人机交互模块显示当前时刻相机观测到的图像，人为基于任务语言模板在屏幕中点选机器人操控对象，此刻并保存图片以及点选像素坐标。根据以上方法不断更改场景中对象的位置以及物品，建立真实场景数据集。

对真实感知数据集的处理具体为：利用步骤S6中获得的相机内外参，以及仿真环境中图像大小、尺寸等参数，将真实场景获得的数据集进行处理，得到与仿真环境格式一致的数据集。

根据步骤S5所述的训练过程，利用第二训练数据集对对经步骤S5预训练的操控策略深度学习网络模型进行模型参数微调，得到全新的模型参数，形成最终用于实时操控的操控策略深度学习网络模型，并存储。

步骤S8、根据实时获取的视觉感知信息和自然语言指令，采用步骤S7获得的操控策略深度学习网络模型获得机器人动作指令，并驱使机器人执行任务。

本发明另一实施例提供一种实现图1所示方法的基于视觉语言预训练模型的机器人操控装置，如图3所示，包括视觉感知信息采集模块1和控制计算机2，视觉感知信息采集模块1用于获取实时的视觉感知信息，控制计算机2用于训练并存储包含视觉语言预训练的操控策略深度学习网络模型，在获得实时的自然语言指令和视觉感知信息时，将视觉感知信息和自然语言指令作为所述操控策略深度学习网络模型的输入，获得对应的机器人动作指令。

具体地，控制计算机1包括仿真环境预训练模块、参数微调模块、人机交互模块和动作指令生成模块，其中，仿真环境预训练模块用于搭建机器人操控的仿真环境，在该仿真环境中生成第一训练数据集，对操控策略深度学习网络模型进行预训练；参数微调模块用于获取真实场景数据集并处理，生成第二训练数据集，对经预训练的操控策略深度学习网络模型进行小样本迁移训练，微调模型，获得最终的操控策略深度学习网络模型；人机交互模块用于获取实时的自然语言指令；动作指令生成模块用于根据视觉感知信息、自然语言指令和最终的操控策略深度学习网络模型，生成对应的机器人动作指令。在具体实施方式中，人机交互模块为一人机交互界面，方便人为基于任务语言模板在进行机器人操控对象的点选。

在具体实施方式中，视觉感知信息采集模块1可以包括经联合标定的手臂相机11和外部相机12，手臂相机11设在机器人3的夹手附近，如图3所示。

在具体实施方式中，该机器人操控装置还包括控制器4，控制器4连接于控制计算机2和机器人3之间，用于根据机器人动作指令控制机器人动作，驱使机器人执行任务，如图3所示。

上述基于视觉语言预训练模型的机器人操控装置的控制流程如图4所示，通过人机交互界面获得自然语言指令，同时视觉感知信息采集模块进行图像采集，经预处理后生成视觉感知信息，以视觉感知信息和自然语言指令作为操控策略深度学习网络模型的输入，获得对应的机器人动作指令，形成控制输出，由控制器对机器人进行动作控制，完成任务。

本发明还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的一种基于视觉语言预训练模型的机器人操控方法。

本发明还提供了一种对应于图1的基于视觉语言预训练模型的机器人操控装置，在硬件层面，该机器人操控装置包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的方法。当然，除了软件实现方式之外，本发明并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(ProgrammableLogic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware DescriptionLanguage，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced BooleanExpression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java HardwareDescription Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware DescriptionLanguage)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated CircuitHardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于视觉语言预训练模型的机器人操控方法，其特征在于，该方法包括：获取实时的视觉感知信息和自然语言指令，将该视觉感知信息和自然语言指令作为一操控策略深度学习网络模型的输入，获得对应的机器人动作指令；

2.根据权利要求1所述的基于视觉语言预训练模型的机器人操控方法，其特征在于，所述自然语言指令包括机器人操控动作和对象属性。

3.根据权利要求1所述的基于视觉语言预训练模型的机器人操控方法，其特征在于，所述自然语言指令基于任务指令模板生成。

4.根据权利要求1所述的基于视觉语言预训练模型的机器人操控方法，其特征在于，所述视觉感知信息包括RGB图像和深度图像。

5.根据权利要求1所述的基于视觉语言预训练模型的机器人操控方法，其特征在于，所述机器人动作指令的维度包括机器人自由度和机器人夹爪自由度。

6.根据权利要求1所述的基于视觉语言预训练模型的机器人操控方法，其特征在于，对所述真实场景数据集的处理具体为：将真实场景数据集处理成与所述第一训练数据集格式一致的数据集。

7.根据权利要求1所述的基于视觉语言预训练模型的机器人操控方法，其特征在于，所述操控策略深度学习网络模型包括图像编码模块和语言编码模块，基于图像编码模块获得视觉感知信息的向量化表征，同时基于语言编码模块获得自然语言指令的向量化表征，将两个向量化表征拼接形成向量特征，基于该向量特征获得机器人动作指令。

8.根据权利要求1所述的基于视觉语言预训练模型的机器人操控方法，其特征在于，所述操控策略深度学习网络模型训练时采用的损失函数为均方差函数。

9.一种基于视觉语言预训练模型的机器人操控装置，其特征在于，包括：

视觉感知信息采集模块，用于获取实时的视觉感知信息；

控制计算机，用于训练并存储包含视觉语言预训练的操控策略深度学习网络模型，在获得实时的自然语言指令和视觉感知信息时，将视觉感知信息和自然语言指令作为所述操控策略深度学习网络模型的输入，获得对应的机器人动作指令；

其中，所述控制计算机包括：

人机交互模块，用于获取实时的自然语言指令；

10.根据权利要求9所述的基于视觉语言预训练模型的机器人操控装置，其特征在于，所述自然语言指令包括机器人操控动作和对象属性。

11.根据权利要求9所述的基于视觉语言预训练模型的机器人操控装置，其特征在于，所述自然语言指令基于任务指令模板生成。

12.根据权利要求9所述的基于视觉语言预训练模型的机器人操控装置，其特征在于，所述视觉感知信息包括RGB图像和深度图像。

13.根据权利要求9所述的基于视觉语言预训练模型的机器人操控装置，其特征在于，所述视觉感知信息采集模块包括经联合标定的手臂相机和外部相机。

14.根据权利要求9所述的基于视觉语言预训练模型的机器人操控装置，其特征在于，所述机器人动作指令的维度包括机器人自由度和机器人夹爪自由度。

15.根据权利要求9所述的基于视觉语言预训练模型的机器人操控装置，其特征在于，所述参数微调模块中，对真实场景数据集的处理具体为：将真实场景数据集处理成与所述第一训练数据集格式一致的数据集。

16.根据权利要求9所述的基于视觉语言预训练模型的机器人操控装置，其特征在于，所述操控策略深度学习网络模型包括图像编码模块和语言编码模块，基于图像编码模块获得视觉感知信息的向量化表征，同时基于语言编码模块获得自然语言指令的向量化表征，将两个向量化表征拼接形成向量特征，基于该向量特征获得机器人动作指令。

17.根据权利要求9所述的基于视觉语言预训练模型的机器人操控装置，其特征在于，所述操控策略深度学习网络模型训练时采用的损失函数为均方差函数。

18.一种基于视觉语言预训练模型的机器人操控装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8中任一项所述的基于视觉语言预训练模型的机器人操控方法。

19.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-8中任一项所述的基于视觉语言预训练模型的机器人操控方法。