CN116021527A

CN116021527A - 一种任务驱动的机器人操作技能学习方法、介质及设备

Info

Publication number: CN116021527A
Application number: CN202310302473.6A
Authority: CN
Inventors: 阚震; 王浩; 张昊; 李琳; 宋永端
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-04-28
Anticipated expiration: 2043-03-27
Also published as: CN116021527B

Abstract

本发明涉及机器人自主学习技术领域，公开了一种任务驱动的机器人操作技能学习方法、介质及设备，方法包括以下步骤：采用线性时序逻辑将机器人的操作技能编码为LTL公式，在抽象层面上分解机器人当前训练任务，并通过LTL进展检测机器人训练任务进展；将机器人训练任务进展和机器人状态作为分层学习模块的输入，输出在环境中采用的动作基元以及基元参数，并执行动作，收集机器人状态‑动作轨迹和获取的奖励；对收集的机器人状态‑动作轨迹和获取的奖励进行采样，通过代价函数计算出的代价更新分层学习模块中的策略网络，直至训练完成。本发明通过将形式化方法和参数化动作空间用于扩展标准的强化学习方法，从而克服探索负担和任务约束。

Description

一种任务驱动的机器人操作技能学习方法、介质及设备

技术领域

本发明涉及机器人自主学习技术领域，具体涉及一种任务驱动的机器人操作技能学习方法、介质及设备。

背景技术

机器人自主学习的最终目标之一是使机器人能够通过与环境的不断交互从而像人类一样进化。尽管深度强化学习已经显示出巨大的潜力，但由于探索负担和任务约束，其在学习长步长操纵技能学习方面表现不佳。目前的研究方法主要通过进行有意义的探索来解决这些挑战，即机器人需要在动作和状态空间中探索有效的策略，以实现多样化的复杂技能学习。然而，随机探索的结果很少能接触到物体，更不用说学习复杂操作技能。

为了解决上述问题，最近的研究方法或者通过仔细的工程设计来避免探索问题，或者侧重于利用各种时间抽象框架来降低探索负担，还有一些方法通过将形式化方法纳入强化学习以解决任务约束。然而，虽然这些方法表现出了更好的可扩展性，但它们往往存在数据效率低、奖励函数设计困难、缺乏可解释性和复杂任务约束等问题。

发明内容

为解决上述技术问题，本发明提供一种任务驱动的机器人操作技能学习方法、介质及设备。

为解决上述技术问题，本发明采用如下技术方案：

一种任务驱动的机器人操作技能学习方法，通过形式化方法和参数化动作空间对标准强化学习方法进行扩展，包括以下步骤：

步骤一：采用线性时序逻辑将机器人的操作技能编码为LTL公式，在抽象层面上分解机器人当前训练任务，并通过LTL进展检测机器人当前训练任务进展；读取机器人当前状态；

步骤二：将机器人当前训练任务进展和机器人当前状态作为分层学习模块的输入，输出在环境中采用的动作基元以及对应的基元参数，并按得到的动作基元和基元参数执行动作，收集机器人状态-动作轨迹和获取的奖励；

所述分层学习模块为基于异构参数化动作基元库的分层强化学习框架，具有策略网络，能够根据机器人当前状态和机器人当前训练任务进展，决定在环境中采用的动作基元及对应的基元参数；

步骤三、对收集的机器人状态-动作轨迹和获取的奖励进行采样，通过代价函数计算出的代价更新分层学习模块中的策略网络，直至训练完成。

具体地，步骤一中将机器人的操作技能编码为LTL公式时，LTL公式的语义定义为：

；

其中，表示定义符号，为原子命题，和为由原子命题和操作符组成的子任务公式；、为标准布尔操作符，、为操作符，LTL公式的语义在真值序列上进行解释，表示第i个真值，；在时，真值序列满足记作；

给定操作技能的LTL公式，和真值序列，LTL进展在第i步被定义为：

，如果，其中；

；

其中，表示减去后的剩余部分，表示推进LTL公式所需的命题。

具体地，步骤一中，通过基于Transformer结构的编码器，将LTL公式编码为能够表示机器人当前训练任务进展的任务隐特征。

具体地，通过卷积网络或者全连接网络对机器人的环境观测数据进行预处理，得到所述的机器人当前状态。

具体地，所述基于异构参数化动作基元库的分层强化学习框架的策略网络包括动作策略和参数策略；动作策略为单个网络；参数策略为多个子网络的集合，每个子网络对应一个动作基元；动作策略以当前训练任务进展和机器人当前状态为输入，输出选择的动作基元；将动作策略选择的动作基元、当前训练任务进展以及机器人当前状态作为参数策略的输入，输出选择的动作基元对应的基元参数，并按得到的动作基元和基元参数执行动作。

具体地，机器人执行时收集的奖励取决于机器人当前状态和机器人当前训练任务进展，奖励函数定义为：

；

其中，为环境奖励，为任务奖励，为任务惩罚，为标签函数，为机器人状态。

具体地，步骤三中采用改进的演员-评论家算法来最大化环境奖励和策略熵，具体包括：将演员-评论家算法的评论家的神经网络替换为评论家神经网络、将演员的神经网络替换为动作策略网络和参数策略网络；

表示异构参数化动作基元库的动作元组，为动作基元，基元参数；

分别定义评论家的代价函数、动作策略的代价函数以及参数策略的代价函数：

；

其中，表示奖励函数，为折扣因子，为下一动作基元，为下一动作基元的基元参数，为下一任务公式，为机器人下一状态，为下一动作元组，为目标评论家网络；和分别为决定动作策略最大熵和参数策略最大熵的参数；

根据评论家的代价函数、动作策略的代价函数、参数策略的代价函数，对分层学习模块中的策略网络进行更新，直至训练完成。

又一方面，本发明还公开了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述方法的步骤。

再一方面，本发明还一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述方法的步骤。

与现有技术相比，本发明的有益技术效果是：

本发明将形式化方法和参数化动作空间用于扩展标准的强化学习方法，从而克服探索负担和任务约束。其中，线性时序逻辑的应用能够在抽象层面上分解训练任务，告知机器人其当前的任务进展，并通过奖励函数引导机器人学习；基于异构参数化动作基元库的分层强化学习框架，能够减小探索空间，提高机器人的探索效率。与传统的技能学习方法相比，本发明在学习效率和性能方面都得到了明显增强，并且能够满足任务约束。

附图说明

图1为本发明机器人操作技能学习方法的体系结构示意图；

图2为本发明中Transformer编码器的结构示意图；

图3为本发明中基于异构参数化动作基元库的分层强化学习框架的结构示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

本发明中的任务驱动的机器人操作技能学习方法，其体系结构如图1所示。本发明将形式化方法和参数化动作空间用于对标准的强化学习方法进行扩展，从而克服探索负担和任务约束，实现机器人复杂操作技能的学习。本发明包括任务模块、分层学习模块和环境模块。

任务模块采用线性时序逻辑（Linear temporal logic，LTL）来描述复杂的操作技能，并利用线性逻辑进展（一种保留语义的重写操作）来在抽象层面上分解训练任务，告知机器人当前训练任务进展，并通过奖励函数引导机器人学习。

分层学习模块是一个基于异构参数化动作基元库的分层强化学习框架，它根据对环境的观测和任务模块编码的当前训练任务，决定在环境中采用的动作基元及动作基元对应的基元参数。原则上，分层强化学习框架可以与任何为连续控制而设计的DRL（DeepReinforcement Learning，深度强化学习）算法集成。

环境模块是一个对观测数据进行预处理的环境依赖模型，比如卷积网络或者全连接网络。

本发明的任务驱动的机器人操作技能学习方法，包括以下步骤：

步骤一、将机器人操作技能编码为LTL公式，在抽象层面上分解训练任务，并通过LTL进展检测机器人当前训练任务进展。同时，通过环境模块读取当前机器人当前状态。

步骤二、将机器人当前训练任务进展和机器人当前状态作为分层学习模块的输入，输出在环境中采用的动作基元及其对应的参数，并实例化其执行，同时收集机器人状态-动作轨迹和获取的奖励。

步骤三、对收集的机器人状态-动作轨迹和获取的奖励进行采样，根据代价函数计算当前代价，根据代价更新分层学习模块中的策略网络直至训练完成。

步骤一具体包括：

将复杂操作任务规范编码为可解释的LTL公式。LTL公式的语义定义为：

；

其中，p为原子命题，可以为true或false；和为由原子命题和操作符组成的子任务公式；（否定）、（合取）为标准布尔操作符，（直到）、（下一个）为操作符。LTL公式的语义在有限序列上进行解释，其中，。在时，序列满足记作。

，如果，其中；

；

其中，表示表示推进当前LTL公式所需的命题。

表示任务状态的LTL公式通过基于Transformer结构的编码器编码为任务隐特征，Transformer编码器的结构如图2所示。LTL任务公式首先被编译为单词令牌，其中，表示的第t个操作符或原子命题。然后被编码成词嵌入，表示嵌入全连接层。与位置嵌入相加得到的一维嵌入序列X作为编码器的标准输入，本文中位置嵌入为不同频率的正弦和余弦函数：

；

其中，pos表示位置，i表示维度。

任务模块（TF-LTL）中的每个Transformer块包括一个多头自注意(MSA)，一个全连接前馈(MLP)和一个正则层(LN)。本发明中TF-LTL框架中的基本元素是MSA，它通过考虑整个上下文来对全局信息建模，以获得LTL公式更好的表示。

给定从中得到的一维嵌入序列X，可以通过线性变换得到查询Q、键K和值V：

；

其中，、、为线性投影矩阵。Q和K之间的相似度通过点积计算，得到的注意力为：

；

其中，表示转置，为缩放因子。TF-LTL的全局计算过程可以表示为：

；

其中为位置编码，为多头注意力编码，全连接前馈编码，为Transformer模块的层数；表示TF-LTL输出的任务隐特征，可以根据任务的不同手动设计合适的维度。

环境观测数据通过卷积网络或者全连接网络进行预处理。

步骤二具体包括：

基于异构参数化动作基元库的分层强化学习框架包括高层的动作策略和底层的参数策略，分层强化学习框架的结构如图3所示。其中，动作策略表示为单个网络，参数策略为多个子网络的集合，其中每个子网络对应一个动作基元。动作策略以机器人当前训练任务进展和机器人当前状态为输入，输出选择的动作基元；将该动作基元、机器人当前训练任务进展以及机器人当前状态作为参数策略的输入，输出选择的动作基元对应的基元参数，实例化其执行。原则上，分层强化学习框架可以与任何为连续控制而设计的DRL算法集成，鉴于演员-评论家(Soft Actor-Critic，SAC)算法的优越性能，本发明采用SAC算法。

异构参数化动作基元库中的动作基元可以表示为，其中a是动作基元，x是动作基元a对应的基元参数。这些动作基元是预定义的控制函数应用程序编程接口，由具有不同参数的硬编码闭环控制器实现，可以通过输入参数实例化其执行，并且与底层环境无关。机器人执行时收集的奖励取决于机器人当前状态和机器人当前训练任务进展，奖励函数定义为：

；

其中，为标签函数。

步骤三具体包括：

本发明采用SAC来最大化环境奖励和策略熵。本发明将SAC的标准评论家神经网络和演员神经网络，分别修改为以及分层策略网络、。基于上述变化，本发明分别定义评论家的代价函数、动作策略的代价函数以及参数策略的代价函数为：

；

其中，，和分别决定动作策略和参数策略最大熵的参数。根据上述代价函数，对分层学习模块中的策略网络进行更新，直至训练完成：

；

。

其中为评论家网络参数，为动作策略网络参数，为参数策略网络参数，为更新率，为对的梯度，为对的梯度，为对的梯度。

表1为本发明中任务驱动的机器人操作技能学习方法的伪代码。

表1

又一方面，本发明还公开一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述方法的步骤。

再一方面，本发明还公开一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上方法的步骤。

本申请实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信，

存储器，用于存放计算机程序；

处理器，用于在执行存储器上所存放的程序时，实现上述机器人操作技能学习方法；

上述电子设备提到的通信总线可以是外设部件互连标准(英文：PeripheralComponent Interconnect，简称：PCI)总线或扩展工业标准结构(英文：Extended IndustryStandard Architecture，简称：EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(英文：Random Access Memory，简称：RAM)，也可以包括非易失性存储器(英文：Non-Volatile Memory，简称：NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(英文：CentralProcessingUnit，简称：CPU)、网络处理器(英文：Network Processor，简称：NP)等；还可以是数字信号处理器(英文：Digital Signal Processing，简称：DSP)、专用集成电路(英文：ApplicationSpecific Integrated Circuit，简称：ASIC)、现场可编程门阵列(英文：Field-Programmable Gate Array，简称：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中的机器人操作技能学习方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种任务驱动的机器人操作技能学习方法，通过形式化方法和参数化动作空间对标准强化学习方法进行扩展，包括以下步骤：

2.根据权利要求1所述的任务驱动的机器人操作技能学习方法，其特征在于，步骤一中将机器人的操作技能编码为LTL公式时，LTL公式的语义定义为：

；

，如果，其中；

；

3.根据权利要求1或2所述的任务驱动的机器人操作技能学习方法，其特征在于，步骤一中，通过基于Transformer结构的编码器，将LTL公式编码为能够表示机器人当前训练任务进展的任务隐特征。

4.根据权利要求1或2所述的任务驱动的机器人操作技能学习方法，其特征在于，通过卷积网络或者全连接网络对机器人的环境观测数据进行预处理，得到所述的机器人当前状态。

5.根据权利要求1所述的任务驱动的机器人操作技能学习方法，其特征在于，所述基于异构参数化动作基元库的分层强化学习框架的策略网络包括动作策略和参数策略；动作策略为单个网络；参数策略为多个子网络的集合，每个子网络对应一个动作基元；动作策略以当前训练任务进展和机器人当前状态为输入，输出选择的动作基元；将动作策略选择的动作基元、当前训练任务进展以及机器人当前状态作为参数策略的输入，输出选择的动作基元对应的基元参数，并按得到的动作基元和基元参数执行动作。

6.根据权利要求1或5所述的任务驱动的机器人操作技能学习方法，其特征在于，机器人执行时收集的奖励取决于机器人当前状态和机器人当前训练任务进展，奖励函数定义为：

；

7.根据权利要求6所述的任务驱动的机器人操作技能学习方法，其特征在于，步骤三中采用改进的演员-评论家算法来最大化环境奖励和策略熵，具体包括：将演员-评论家算法的评论家神经网络替换为评论家神经网络、将演员的神经网络替换为动作策略网络和参数策略网络；

；

8.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。