CN116402164A

CN116402164A - 基于预训练语言模型的机器人任务生成方法、装置及介质

Info

Publication number: CN116402164A
Application number: CN202310658638.3A
Authority: CN
Inventors: 宋伟; 廖建峰; 朱世强; 周元海; 穆宗昊; 谢安桓; 顾建军
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-07-07
Anticipated expiration: 2043-06-06
Also published as: CN116402164B

Abstract

本发明涉及一种基于预训练语言模型的机器人任务生成方法、装置及介质，所述方法包括以下步骤：基于预先设计的Prompt模板，添加所述自然语言文本和场景感知描述文本，生成输入数据；基于输入数据采用预训练语言模型获得对应的预测结果列表，抽取推理结果语言描述列表；获取机器人技能列表，将推理结果语言描述列表与机器人技能列表进行对比分析；以机器人技能列表中相似度最大的一个机器人技能作为当前机器人推理决策结果；判断是否推理结束，若是，则以当前未完成的机器人技能作为机器人任务输出，若否，则将当前机器人推理决策结果更新到Prompt模板中。与现有技术相比，本发明具有操作性更强、方便易用等优点。

Description

基于预训练语言模型的机器人任务生成方法、装置及介质

技术领域

本发明属于机器人的自主决策领域，尤其是涉及一种基于预训练语言模型的机器人任务生成方法、装置及介质。

背景技术

智能机器人尤其是面向家居、办公等复杂非结构化场景的机器人，需与环境、与人进行交互并完成任务，是一类以人为本的智能体。除传统的操控动作之外，面向家居场景时还需完成一些诸如拿东西、倒水、清洁等长序列任务，其中倒水的任务包含了移动、拿杯子、倒水、返回等子任务。总之，智能服务机器人的任务决策需理解到人类指令背后的意图，进而基于学习到的大量先验知识推理可行的任务序列，并综合场景信息以及人类意图决策出机器人的任务序列，是服务机器人面向家居场景应用的关键难题。

目前，主要通过任务规划或者强化学习的方法解决相关问题。例如任务与运动规划方法，通过人为设计规则以及PDDL语言进行规划。这一类方法主要关注点仍然是搜索或者规划出机器人最优的任务序列和运动轨迹，要求任务目标需明确以及行为能力已知，缺乏任务之间内在语义知识的推理，无法处理未定义的任务；还有一类方法是分层强化学习，要求大量数据进行训练。

综上，目前方法往往比较适用于一个明确任务的机器人执行序列生成，缺乏需要大量语义知识和世界理解的高层推理的能力，仍无法解决家居场景下的任务决策难题。为此，有必要探索能够更为有效的智能机器人决策算法。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种操作性更强、方便易用的基于预训练语言模型的机器人任务生成方法、装置及介质。

本发明的目的可以通过以下技术方案来实现：

本发明的第一方面提供一种基于预训练语言模型的机器人任务生成方法，包括以下步骤：

1）获取实时的自然语言文本和场景感知描述文本；

2）基于预先设计的Prompt模板，添加所述自然语言文本和场景感知描述文本，生成输入数据；

3）基于所述输入数据采用预训练语言模型获得对应的预测结果列表，并从所述预测结果列表中抽取推理结果语言描述列表；

4）获取机器人技能列表，分别以推理结果语言描述列表和机器人技能列表作为预训练语言模型的输入，对应获得第一embedding列表和第二embedding列表；

5）基于所述第一embedding列表和第二embedding列表的相似性，以机器人技能列表中相似度最大的一个机器人技能作为当前机器人推理决策结果；

6）判断是否推理结束，若是，则以当前未完成的机器人技能作为机器人任务输出，若否，则将当前机器人推理决策结果更新到Prompt模板中，返回步骤2）。

进一步地，从所述预测结果列表中抽取推理结果语言描述列表具体是：抽取预测结果的最后一句作为预训练语言模型的推理结果语言描述。

进一步地，确定所述机器人技能列表中相似度最大的一个机器人技能具体为：

构建所述第一embedding列表和第二embedding列表的相似性矩阵

；

针对所述相似性矩阵，逐行搜索并记录相似度最大的列索引，获取出现次数最多的列索引，以此索引对应的机器人技能作为当前机器人推理决策结果。

进一步地，所述相似性矩阵

中第/>

行第/>

列的元素/>

表示为：

，

其中，

为第一embedding列表的第/>

个元素，/>

、/>

分别为第二embedding列表的第/>

、/>

个元素。

本发明的第二方面提供一种基于预训练语言模型的机器人任务生成装置，包括：

实时信息采集模块，用于获取实时的自然语言文本和场景感知描述文本；

输入数据生成模块，基于预先设计的Prompt模板，添加所述自然语言文本和场景感知描述文本，生成输入数据；

初始推理结果生成模块，基于所述输入数据采用预训练语言模型获得对应的预测结果列表，并从所述预测结果列表中抽取推理结果语言描述列表；

技能参考模块，用于获取机器人技能列表，分别以推理结果语言描述列表和机器人技能列表作为预训练语言模型的输入，对应获得第一embedding列表和第二embedding列表；

当前推理结果生成模块，基于所述第一embedding列表和第二embedding列表的相似性，以机器人技能列表中相似度最大的一个机器人技能作为当前机器人推理决策结果；

判断模块，用于判断是否推理结束，若是，则以当前未完成的机器人技能作为机器人任务输出，若否，则将当前机器人推理决策结果更新到所述输入数据生成模块的Prompt模板中。

构建所述第一embedding列表和第二embedding列表的相似性矩阵

；

进一步地，所述相似性矩阵

中第/>

行第/>

列的元素/>

表示为：

，

其中，

为第一embedding列表的第/>

个元素，/>

、/>

分别为第二embedding列表的第/>

、/>

个元素。

本发明的第三方面提供一种机器人任务生成装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现如上所述的基于预训练语言模型的机器人任务生成方法。

本发明的第四方面提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现如上所述的基于预训练语言模型的机器人任务生成方法。

与现有技术相比，本发明具有以下有益效果：

1、本发明同时考虑了机器人作业的场景和技能的约束，利用预训练语言模型进行知识信息推理及决策，具有操作性更强、方便易用的特点；

2、本发明在任务生成过程中实时更新Prompt模板，进一步提升对场景和技能的适应性，提高机器人任务生成的准确性。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

相比于基于预训练语言模型实现零样本的任务推理及决策方法，CoT（LargeLanguage Models are Zero-Shot Reasoners）方法可以促进预训练语言模型step bystep的推理及决策，使得预训练语言模型生成推理路径，从而将复杂的推理问题分解为多个关键步骤，提高推理成功率。当前，CoT方法的有效性已得到了验证。然而，当前的CoT设计方法主要应用于传统的问答问题，推理结果往往基于预训练语言模型从大量互联网数据中学习而来的知识、具有较大随机性，难以适用于受场景、作业技能约束下的机器人任务推理及决策求解。

本发明基于上述现有技术中存在的技术问题而提出，实现一种针对机器人任务推理及决策的需求，综合考虑场景及技能约束设计Prompt的方案，以更准确地引导机器人任务的生成，且操作性更强，方便易用。

本发明基于上述现有技术中存在的技术问题而提出，实现一种针对机器人任务推理及决策的需求，综合考虑场景及技能约束设计Prompt的方案，以更准确地引导机器人任务的生成，且操作性更强，方便易用。由于预训练语言模型输出结果形式随意，难以直接驱动机器人运动。为解决上述难题，本发明除了将人类的自然语言指令以及场景描述添加至prompt模板外，同时将机器人的作业技能使用自然语言进行符号表达，使得预训练语言模型根据作业技能进行选择，解决预训练语言模型难以直接驱动机器人运动的难题。

本发明采用的Prompt模板举例如下：

指令：“我想游泳。”

场景：桌子上有蛋糕、米饭、可乐、一瓶水和面包。

机器人：

1.指令是想要游泳。

2.蛋糕、米饭、面包都是用来吃的。可乐和用来解渴的水瓶。

3.因此，所有的选择都不符合指令要求。

4.所以，我什么都不应该做。

指令：“我饿了。”

场景：桌子上有蛋糕、米饭、可乐、一瓶水和面包。

机器人：

1.指令是饿了。所以，他想吃点什么。

2.在场景中，蛋糕、米饭、面包可以吃，也可能是你的选择。

3.我们只能给出一个答案。所以我们在蛋糕、米饭和面包中随机选择答案。

4.所以我应该给他一个蛋糕。

指令：“我吃饱了。”

场景：桌子上有蛋糕、米饭、可乐、一瓶水和面包。

机器人：

1.指令是已吃饱。

2.在场景中，蛋糕、米饭、可乐、一瓶水和面包被用来吃或喝。

3.因此，这些选择不符合指令要求。

4.所以我什么都不应该做。

指令：“桌子脏了。你能帮我打扫一下吗？”

场景：桌子上有蛋糕，米饭，可乐，水，碎布，面包。

机器人：

1.桌子很脏，指令是想把它打扫干净。

2.在场景中，有一块抹布可以用来清洁桌子。

3.所以我应该帮他用抹布擦桌子。

实施例1

如图1所示，本实施例提供一种基于预训练语言模型的机器人任务生成方法，包括以下步骤：

S1、获取人类语言指令，将所述人类语言指令转化为自然语言文本。在具体实施方式中，可直接通过音频采集获取人类语言指令。

S2、基于预设的Prompt模板添加所述自然语言文本及获取的实时场景感知，生成输入数据。

S3、基于所述输入数据，使用预训练语言模型得到对应的预测结果，重复该步骤k次，得到预测结果

。

本实施例中，预训练语言模型采用现有公开模型。

S4、从所述预测结果

中抽取推理结果语言描述/>

。

上述步骤S2-S4中，在人为设计的prompt模板基础上，添加人类自然语言及场景的语言描述，得到新的prompt

，如：

指令：“我想喝点什么。”

场景：上面有杯子，方块，碗，水。

机器人：

1.确定指令是想要什么。指令是想要喝点什么。

2.确定可用的内容。有水可用。

3.选择最佳选项。最好的选择是选择“水”。

将新的Prompt

用于请求预训练语言模型LLM，则会输出推理结果 />

，将推理结果的最后一句抽取作为预训练语言模型的推理决策结果/>

。例如获取推理结果如下：

机器人：

l.确定指令想要什么。指令是想喝一些加苏打水的饮料。

2.确定可用的内容。有可乐供应。

3.选择最佳选项。最好的选择是选择可口可乐。

则抽取上述推理结果的最后一句“最好的选择是选择可口可乐”，作为预训练语言模型的推理决策结果。

以所述推理结果语言描述

作为预训练语言模型LLM的输入，得到第一embedding列表 />

。

S5、获取机器人技能列表

，作为预训练语言模型LLM的输入，得到第二embedding列表/>

。

S6、构建所述第一embedding列表和第二embedding列表的相似性矩阵

，该相似性矩阵/>

中第/>

行第/>

列的元素表示基于第一embedding列表和第二embedding列表中元素的两两相似度获得，表示为：

。

构建的相似性矩阵

表示为：

针对所述相似性矩阵，逐行搜索并记录相似度最大的列索引，投票获取出现次数最多的列索引

，以此索引对应的机器人技能/>

则作为当前机器人推理决策结果：

，

其中，step表示当前推理的步数。

S7、判断任务是否生成完成，若是，则执行步骤S8，若否，则将当前机器人推理决策结果

添加到原有的Prompt模板中，返回步骤S2，生成新的输入数据，直到推理次数上限stepmax。

S8、根据视觉感知信息判断当前机器人推理决策结果对应的机器人技能是否已完成，若是，则执行步骤S9，若否，则等待机器人执行。

S9、判断是否结束，若是，则结束，若否，则返回步骤S2。

上述方法可描述为：

初始化：

1.

：Prompt模板

2.S：机器人作业技能语言描述集合

3. LLM 预训练语言模型

4. stepmax：最大规划次数

主程序：

输入：自然语言指令l _i, 场景感知语言描述l _o

输出：机器人作业技能a

step = 0

1. 基于自然语言指令l _i, 场景感知语言描述l _o更新 prompt模板P _t，得到新的prompt

，

2. While step<stepmax do:

3.

>LLM, 得到预测结果/>

，重复该步骤并采样k次，得到/>

，

4.

抽取推理结果的语言描述/>

，

5.

>LLM，获得embedding />

，

6.

输入LLM,得到embedding列表/>

，

7.求解相似性，

，

8.获得相似性矩阵，

，

9. C = []

10for i in range(k):

11.

//

12.C.append(

)

13. 搜索C中出现次数最多的数值，

，

14. 根据

得到作业技能/>

，

15. 获得推理及决策技能，

，

16. If

！= done

Step+=1

更新pompt，

，

Else

Break。

实施例2

本实施例提供一种基于预训练语言模型的机器人任务生成装置，包括实时信息采集模块、实时信息采集模块、初始推理结果生成模块、技能参考模块、当前推理结果生成模块和判断模块，其中，实时信息采集模块用于获取实时的自然语言文本和场景感知描述文本；输入数据生成模块基于预先设计的Prompt模板，添加所述自然语言文本和场景感知描述文本，生成输入数据；初始推理结果生成模块基于所述输入数据采用预训练语言模型获得对应的预测结果列表，并从所述预测结果列表中抽取推理结果语言描述列表；技能参考模块用于获取机器人技能列表，分别以推理结果语言描述列表和机器人技能列表作为预训练语言模型的输入，对应获得第一embedding列表和第二embedding列表；当前推理结果生成模块基于所述第一embedding列表和第二embedding列表的相似性，以机器人技能列表中相似度最大的一个机器人技能作为当前机器人推理决策结果；判断模块用于判断是否推理结束，若是，则以当前未完成的机器人技能作为机器人任务输出，若否，则将当前机器人推理决策结果更新到所述输入数据生成模块的Prompt模板中。

该装置中，确定机器人技能列表中相似度最大的一个机器人技能具体为：

构建所述第一embedding列表和第二embedding列表的相似性矩阵

，相似性矩阵/>

中第/>

行第/>

列的元素/>

表示为：

，

其中，

为第一embedding列表的第/>

个元素，/>

、/>

分别为第二embedding列表的第/>

、/>

个元素；

其余同实施例1。

本发明还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的一种基于预训练语言模型的机器人任务生成方法。

本发明还提供了一种对应于图1的机器人任务生成装置。在硬件层面，该机器人任务生成装置包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的机器人任务生成方法。当然，除了软件实现方式之外，本发明并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（ProgrammableLogic Device, PLD）（例如现场可编程门阵列（Field Programmable Gate Array，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（HardwareDescription Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（AdvancedBoolean Expression Language）、AHDL（Altera Hardware Description Language）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（JavaHardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（Ruby HardwareDescription Language）等，目前最普遍使用的是VHDL（Very-High-Speed IntegratedCircuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。