CN115319741B

CN115319741B - 机器人控制模型的训练方法和机器人控制方法

Info

Publication number: CN115319741B
Application number: CN202210940169.XA
Authority: CN
Inventors: 徐志远; 伍堃; 赵一诺; 车正平; 奉飞飞; 唐剑
Original assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Current assignee: Midea Group Co Ltd; Midea Group Shanghai Co Ltd
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2023-10-10
Anticipated expiration: 2042-08-05
Also published as: CN115319741A

Abstract

本申请涉及智能机器人技术领域，提供一种机器人控制模型的训练方法和机器人控制方法，所述机器人控制模型的训练方法，包括：获取机器人在第一时刻的状态数据、在所述第一时刻的动作数据、在第二时刻的状态数据和所述第一时刻的回报值，所述第二时刻为与所述第一时刻相邻且在所述第一时刻之后的采集时刻；获取多个训练样本，任一所述训练样本均包括所述第一时刻的状态数据、所述第一时刻的动作数据、所述第二时刻的状态数据和所述第一时刻的回报值，所述多个训练样本用于构建离线经验池；基于所述离线经验池，训练所述机器人控制模型。本申请的机器人控制模型的训练方法，能够提高训练的准确性以及安全性。

Description

机器人控制模型的训练方法和机器人控制方法

技术领域

本申请涉及智能机器人技术领域，尤其涉及机器人控制模型的训练方法和机器人控制方法。

背景技术

智能机器人应用于人们日常工作生活中，在通过智能机器人执行相应动作时，往往采用离线强化学习来对智能机器人进行训练，然而当前大多数算法使用一种固定的方式显式或隐式地限制学习到的策略和行为策略之间的分布差异，该固定的方法一方面并不足以应对经验池各式各样的情况；另一方面，大多数算法只是限制两个策略之间整体的分布差异，而没有考虑更加细粒度的差异，从而导致训练效果不佳。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请提出一种机器人控制模型的训练方法，以提高训练效果。

本申请还提出一种机器人控制方法。

本申请还提出一种机器人控制模型的训练装置。

本申请还提出一种机器人控制装置。

本申请还提出一种电子设备。

本申请还提出一种非暂态计算机可读存储介质。

本申请还提出一种计算机程序产品。

根据本申请第一方面实施例的机器人控制模型的训练方法，包括：

获取机器人在第一时刻的状态数据、在所述第一时刻的动作数据、在第二时刻的状态数据和所述第一时刻的回报值，所述第二时刻为与所述第一时刻相邻且在所述第一时刻之后的采集时刻；

获取多个训练样本，任一所述训练样本均包括所述第一时刻的状态数据、所述第一时刻的动作数据、所述第二时刻的状态数据和所述第一时刻的回报值，所述多个训练样本用于构建离线经验池；

基于所述离线经验池，训练所述机器人控制模型。

根据本申请实施例的机器人控制模型的训练方法，通过机器人在执行过往任务过程中收集到的离线经验池来训练策略神经网络，可以充分利用硬件以实现并行训练，提升训练效率以及训练效果；训练过程中也无需机器人在现实世界中做出任何动作，从而避免发生危险情况，提高训练过程的安全性和可靠性；除此之外，根据离线经验池中动作对应的回报值训练机器人控制模型，有助于提高训练结果的准确性。

根据本申请的一个实施例，所述机器人控制模型包括第一自适应权重函数、第二自适应权重函数、评论家函数和待更新策略；所述基于所述离线经验池，训练所述机器人控制模型，包括：

基于所述第一时刻的状态数据、所述第一时刻的动作数据、所述第二时刻的状态数据以及所述第一时刻的回报值中的至少一项，优化所述第一自适应权重函数、所述第二自适应权重函数、所述待更新策略和所述评论家函数。

根据本申请的一个实施例，所述基于所述第一时刻的状态数据、所述第一时刻的动作数据、所述第二时刻的状态数据以及所述第一时刻的回报值中的至少一项，优化所述第一自适应权重函数、所述第二自适应权重函数、所述待更新策略和所述评论家函数，包括：

基于所述待更新策略和所述第一时刻的状态数据，获取所述第一自适应权重函数输出的第一自适应权重和所述评论家函数输出的第一估计回报值；

基于所述第一时刻的状态数据和所述第一时刻的动作数据，获取所述第二自适应权重函数输出的第二自适应权重和所述评论家函数输出的第二估计回报值；

基于所述第一时刻的状态数据、所述第一时刻的动作数据、所述第二时刻的状态数据和所述第一时刻的回报值，获取目标评论家函数输出的目标回报值；

基于所述第一自适应权重、所述第一估计回报值、所述第二自适应权重、所述第二估计回报值和所述目标回报值，使用梯度下降算法分别优化所述第一自适应权重函数、所述第二自适应权重函数、所述待更新策略和所述评论家函数。

根据本申请的一个实施例，所述基于所述待更新策略和所述第一时刻的状态数据，获取所述第一自适应权重函数输出的第一自适应权重和所述评论家函数输出的第一估计回报值，包括：

采用所述待更新策略对所述第一时刻的状态数据进行采样，获取所述第一时刻的采样动作；

将所述第一时刻的采样动作输入至所述第一自适应权重函数，获取所述第一自适应权重函数输出的所述第一时刻的状态-动作对的第一自适应权重；

将所述第一时刻的采样动作输入至所述评论家函数，获取所述评论家函数输出的所述第一时刻的状态-动作对的第一估计回报值。

根据本申请的一个实施例，所述基于所述第一时刻的状态数据和所述第一时刻的动作数据，获取所述第二自适应权重函数输出的第二自适应权重和所述评论家函数输出的第二估计回报值，包括：

将所述第一时刻的状态数据和所述第一时刻的动作数据输入至第二自适应权重函数，获取所述第二自适应权重函数输出的所述第一时刻的状态-动作对的第二自适应权重；

将所述第一时刻的状态数据和所述第一时刻的动作数据输入至所述评论家函数，获取所述评论家函数输出的所述第一时刻的状态-动作对的第二估计回报值。

根据本申请的一个实施例，所述基于所述第一自适应权重、所述第一估计回报值、所述第二自适应权重、所述第二估计回报值和所述目标回报值，使用梯度下降算法分别优化所述第一自适应权重函数、所述第二自适应权重函数、所述待更新策略和所述评论家函数，包括：

使用梯度下降算法，基于公式：

分别优化所述第一自适应权重函数、所述第二自适应权重函数、所述待更新策略和所述评论家函数，其中，π为所述待更新策略，d₁(s,a)为所述第一自适应权重函数，d₂(s,a)为所述第二自适应权重函数，Q(s_t,a_t)为所述评论家函数，为所述目标回报值。

根据本申请的一个实施例，在所述基于所述第一时刻的状态数据、所述第一时刻的动作数据、所述第二时刻的状态数据以及所述第一时刻的回报值中的至少一项，优化所述第一自适应权重函数、所述第二自适应权重函数、所述待更新策略和所述评论家函数之前，所述方法包括：

基于目标理论和第一条件，确定所述第一自适应权重函数和所述第二自适应权重函数；

或者，基于自适应权重函数的代价函数，确定所述第一自适应权重函数和所述第二自适应权重函数。

根据本申请第二方面实施例的机器人控制方法，包括：

将获取的机器人的当前状态数据输入至如第一方面所述的机器人控制模型；

获取由所述机器人控制模型输出的所述当前状态数据对应的目标动作数据；

基于所述目标动作数据，确定目标动作执行指令，所述目标动作执行指令用于控制所述机器人执行目标动作。

根据本申请第三方面实施例的机器人控制模型的训练装置，包括：

第一处理模块，用于获取机器人在第一时刻的状态数据、在所述第一时刻的动作数据、在第二时刻的状态数据和所述第一时刻的回报值，所述第二时刻为与所述第一时刻相邻且在所述第一时刻之后的采集时刻；

第二处理模块，用于获取多个训练样本，任一所述训练样本均包括所述第一时刻的状态数据、所述第一时刻的动作数据、所述第二时刻的状态数据和所述第一时刻的回报值，所述多个训练样本用于构建离线经验池；

第三处理模块，用于基于所述离线经验池，训练所述机器人控制模型。

根据本申请实施例的机器人控制模型的训练装置，通过机器人在执行过往任务过程中收集到的离线经验池来训练策略神经网络，可以充分利用硬件以实现并行训练，提升训练效率以及训练效果；训练过程中也无需机器人在现实世界中做出任何动作，从而避免发生危险情况，提高训练过程的安全性和可靠性；除此之外，根据离线经验池中动作对应的回报值训练机器人控制模型，有助于提高训练结果的准确性。

根据本申请第四方面实施例的机器人控制装置，包括：

第四处理模块，用于将获取的机器人的当前状态数据输入至第一方面所述的机器人控制模型；

第五处理模块，用于获取由所述机器人控制模型输出的所述当前状态数据对应的目标动作数据；

第六处理模块，用于基于所述目标动作数据，确定目标动作执行指令，所述目标动作执行指令用于控制所述机器人执行目标动作。

根据本申请第五方面实施例的电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述机器人控制模型的训练方法或机器人控制方法。

根据本申请第六方面实施例的非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述机器人控制模型的训练方法或机器人控制方法。

根据本申请第七方面实施例的计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述机器人控制模型的训练方法或机器人控制方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：

通过机器人在执行过往任务过程中收集到的离线经验池来训练策略神经网络，可以充分利用硬件以实现并行训练，提升训练效率以及训练效果；训练过程中也无需机器人在现实世界中做出任何动作，从而避免发生危险情况，提高训练过程的安全性和可靠性；除此之外，根据离线经验池中动作对应的回报值训练机器人控制模型，有助于提高训练结果的准确性。

进一步的，通过使用具体形式未定义的两个自适应权重函数来控制离线经验池内和分布外的数据的回报值，以训练机器人控制模型，可根据场景的特性进行专门设计，以满足定制化需求，同时赋予了整个框架灵活的扩展空间，具有较高的灵活性、可扩展性和实用性。

更进一步的，根据理论指导设计两种具体的不同的强化学习算法，以能够在细粒度上对回报值函数的学习进行控制和调整，从而减轻高估回报的问题，以达到更好的训练效果，具有较好的灵活性和有效性。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的机器人控制模型的训练方法的流程示意图之一；

图2是本申请实施例提供的机器人控制模型的训练方法的流程示意图之二；

图3是本申请实施例提供的机器人控制模型的训练装置的结构示意图；

图4是本申请实施例提供的机器人控制方法的流程示意图；

图5是本申请实施例提供的机器人控制装置的结构示意图；

图6是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请的实施方式作进一步详细描述。以下实施例用于说明本申请，但不能用来限制本申请的范围。

在本申请实施例的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

下面结合图1-图2描述本申请实施例的机器人控制模型的训练方法。

需要说明的是，该机器人控制模型的训练方法的执行主体可以为机器人，或者为与机器人通信连接的执行装置，或者为与机器人通信连接的服务器，或者为与机器人通信连接的用户的终端，包括但不限于用户的手机、平板电脑、智能电器、智能手表以及PC端等。

如图1所示，该机器人控制模型的训练方法包括：步骤110、步骤120和步骤130。

步骤110、获取机器人在第一时刻的状态数据、在第一时刻的动作数据、在第二时刻的状态数据和第一时刻的回报值；

在该步骤中，机器人包括但不限于智能机器人、通用服务机器人(例如家庭服务机器人)、清洁机器人以及无人机等。

第一时刻的状态数据和第二时刻的状态数据用于表征机器人的历史状态，包括但不限于：机器人每个关节的位移、转动角度、加速度、力矩以及坐标等变量。

状态数据可以通过传感器采集。

其中，第一时刻与第二时刻为相邻的历史采集时刻，且第一时刻在第二时刻之前。

第一时刻的动作数据用于表征机器人在第一时刻的实际动作，包括但不限于：机器人每个关节的位移、力矩以及加速度等变量。

第一时刻的动作数据同样可以由传感器采集。

回报值为通过根据不同任务提前设计好的回报函数计算得到的每一步所能得到的回报，例如当机器人成功完成任务抓起一个杯子，可以得到对应的回报1，当机器人抓取失败时得到回报-1。

机器人控制模型可以为任意的神经网络模型，如策略神经网络等。

下文将以策略神经网络为例，对本申请实施例的训练方法进行说明。

步骤120、获取多个训练样本；

在该步骤中，多个训练样本用于构建离线经验池。

其中，每一个训练样本均包括第一时刻的状态数据、第一时刻的动作数据、第二时刻的状态数据和第一时刻的回报值。

不同的训练样本对应不同的时刻。

例如，在训练过程中，可以在机器人执行任何任务时收集整个过程的数据，包括摄像头拍摄得到的RGBD图像或是点云图像、当前机器人每个关节的位移、转动角度、加速度、力矩以及坐标等变量作为状态数据s，每个状态数据均对应一个时刻t；

机器人执行的动作数据a，包括机器人每个关节的位移、力矩以及加速度等变量，每个动作数据均对应一个时刻t；

由根据不同任务提前设计好的回报函数r(s，a)计算出每一步所能得到的回报r，例如当机器人成功完成任务抓起一个杯子，可以得到对应的回报1，当机器人抓取失败时得到回报-1。

将以上收集的数据打包，可以得到多个训练样本，每个训练样本作为一个样本点，每个样本点包括：当前时刻(即第一时刻)的状态数据s_t，当前时刻的动作数据a_t，下一时刻(即第二时刻)的状态数据s_(t+1)以及当前时刻的回报值r_t，即每个训练样本表现为(s_t，a_t，s_(t+1)，r_t)的四元组形式，并将得到的训练样本添加至离线经验池中。

可以理解的是，机器人执行任何任务的过程可以视为一系列的状态，动作以及回报的变化过程。在收集数据的过程中，指导机器人根据当前状态s做出动作a的实际策略的形式并没有任何限制，即该实际策略可以和算法中待学习的策略不同，例如实际策略可以为另一种人工智能算法训练所得，也可以为由机器人控制论中方法计算所得，甚至可以是从所有动作中随机采样得到，当然也可以使用当前算法中的待学习(上一轮)策略，或是多种方法产生的混合策略。

步骤130、基于离线经验池，训练机器人控制模型。

在该步骤中，离线经验池为基于机器人在过往任务中收集到的数据所构建的。

需要说明的是，在训练过程中，机器人不会在现实中执行动作。

在本申请中，只从机器人在执行过往任务过程中收集到的离线经验池中进行训练，训练过程中不会让机器人在现实世界中做出任何动作，从而可以有效地避免出现危险情况，例如机器人打翻家具，撞伤人等事故，以提高机器人的安全性。

从离线经验池中进行训练，可以充分利用硬件，例如GPU的加速进行多组数据的并行训练，提升训练效率和训练速率。与常规的在线强化学习算法，本申请的训练方法无需不断地在真实世界中做的动作探索环境，从而使得只能利用串联的方式进行学习，具有更高的训练效率且显著降低对真实世界的依赖。

除此之外，在训练过程中，通过根据离线经验池中动作对应的回报值判断哪些动作做的好或者不好，用于强化好的动作，改进不好的动作，有助于提高训练结果的准确性。

根据本申请实施例提供的机器人控制模型的训练方法，通过机器人在执行过往任务过程中收集到的离线经验池来训练策略神经网络，可以充分利用硬件以实现并行训练，提升训练效率以及训练效果；训练过程中也无需机器人在现实世界中做出任何动作，从而避免发生危险情况，提高训练过程的安全性和可靠性；除此之外，根据离线经验池中动作对应的回报值训练机器人控制模型，有助于提高训练结果的准确性。

下面对步骤130的具体实现方式进行说明。

在一些实施例中，机器人控制模型包括第一自适应权重函数、第二自适应权重函数、评论家函数和待更新策略；步骤130可以包括：

基于第一时刻的状态数据、第一时刻的动作数据、第二时刻的状态数据以及第一时刻的回报值中的至少一项，优化第一自适应权重函数、第二自适应权重函数、待更新策略和评论家函数。

在该实施例中，第一自适应权重函数和第二自适应权重函数为基于用户自定义的权重函数。

两个自适应权重函数用于控制离线经验池内和分布外的数据的回报值，该自适应权重函数的具体形式是未定义的，可根据场景的特性进行设计，以满足不同需求，同时赋予整个框架较为灵活的扩展空间。

在实际执行过程中，可以基于有无理论指导，来选择对应的自适应函数的确定过程，具体确定过程将在下文实施例中进行说明，在此暂不作赘述。

第一自适应权重函数、第二自适应权重函数、评论家函数和待更新策略均可以进行学习以及训练。

根据本申请实施例提供的机器人控制模型的训练方法，通过使用具体形式未定义的两个自适应权重函数来控制离线经验池内和分布外的数据的回报值，以训练机器人控制模型，可根据场景的特性进行专门设计，以满足定制化需求，同时赋予了整个框架灵活的扩展空间，具有较高的灵活性、可扩展性和实用性。

如图2所示，在一些实施例中，基于第一时刻的状态数据、第一时刻的动作数据、第二时刻的状态数据以及第一时刻的回报值中的至少一项，优化第一自适应权重函数、第二自适应权重函数、待更新策略和评论家函数，可以包括：

基于待更新策略和第一时刻的状态数据，获取第一自适应权重函数输出的第一自适应权重和评论家函数输出的第一估计回报值；

基于第一时刻的状态数据和第一时刻的动作数据，获取第二自适应权重函数输出的第二自适应权重和评论家函数输出的第二估计回报值；

基于第一时刻的状态数据、第一时刻的动作数据、第二时刻的状态数据和第一时刻的回报值，获取目标评论家函数输出的目标回报值；

基于第一自适应权重、第一估计回报值、第二自适应权重、第二估计回报值和目标回报值，使用梯度下降算法分别优化第一自适应权重函数、第二自适应权重函数、待更新策略和评论家函数。

在该实施例中，对于算法中待更新(学习)策略π，评论家函数Q(s,a)，输入给自适应权重函数d₁(s,a)，d₂(s,a)，具体形式皆为神经网络(也可以为其他形式，例如人为设定的一个函数)。

其中，基于第一时刻的状态数据、第一时刻的动作数据、第二时刻的状态数据和第一时刻的回报值，获取目标评论家函数输出的目标回报值，可以包括：将第一时刻的状态数据、第一时刻的动作数据、第二时刻的状态数据和第一时刻的回报值输入至目标评论家函数，获取目标评论家函数输出的第一时刻的状态-动作对的目标回报值。

具体地，利用行为策略获取固定的离线经验池，使用S1表示。其中每个样本点包括：当前时刻的状态s_t，当前时刻的动作a_t，下一时刻的状态s_(t+1)以及当前时刻的回报值r_t。

将样本中的当前时刻(即第一时刻)的状态数据s_t～S1，当前时刻(即第一时刻)的动作数据a_t～S1，下一时刻(即第二时刻)的状态数据s_t+1～S1，当前时刻(即第一时刻)的回报值r_t～S1，输入至目标评论家函数Q′(s,a)，根据如下所示的贝尔曼方程输出对于当前状态-动作对(s_t,a_t)的目标回报值。

其中，为目标回报值，s_t为当前时刻的状态数据，a_t为当前时刻的动作数据，s_t+1为下一时刻的状态数据，a_t+1为下一时刻的动作数据，Q′(s_t+1,a_t+1)为目标评论家函数，r(s_t,a_t)为回报函数，t为正整数，γ为折扣因子。

机器人使用离线经验池进行训练，具体训练过程如下所述。

继续参考图2，在一些实施例中，基于待更新策略和第一时刻的状态数据，获取第一自适应权重函数输出的第一自适应权重和评论家函数输出的第一估计回报值，可以包括：

采用待更新策略对第一时刻的状态数据进行采样，获取第一时刻采样动作；

将第一时刻的采样动作输入至第一自适应权重函数，获取第一自适应权重函数输出的第一时刻的状态-动作对的第一自适应权重；

将第一时刻的采样动作输入至评论家函数，获取评论家函数输出的第一时刻的状态-动作对的第一估计回报值。

在该实施例中，利用行为策略获取固定的离线经验池，使用S1表示。其中每个样本点包括：当前时刻的状态s_t，当前时刻的动作a_t，下一时刻的状态s_(t+1)以及当前时刻的回报值r_t。

将样本中的当前时刻(即第一时刻)的状态s_t～S1，由当前时刻学习的策略π采样得到的采样动作a_t～π(a|s_t)输入给评论家函数Q(s,a)，输出对于当前状态-动作对的第一估计回报值。

将样本中的当前时刻(即第一时刻)的状态s_t～S1，由当前时刻待学习的策略π采样得到的采样动作a_t～π(a|s_t)输入给第一自适应权重函数d₁(s,a)，计算对应的第一自适应权重。

在一些实施例中，基于第一时刻的状态数据和第一时刻的动作数据，获取第二自适应权重函数输出的第二自适应权重和评论家函数输出的第二估计回报值，包括：

将第一时刻的状态数据和第一时刻的动作数据输入至第二自适应权重函数，获取第二自适应权重函数输出的第一时刻的状态-动作对的第二自适应权重；

将第一时刻的状态数据和第一时刻的动作数据输入至评论家函数，获取评论家函数输出的第一时刻的状态-动作对的第二估计回报值。

将样本中的当前时刻(即第一时刻)的状态s_t～S1，当前时刻(即第一时刻)的动作a_t～S1输入给评论家函数Q(s,a)，输出对于当前状态-动作对的第二估计回报值。

将样本中的当前时刻(即第一时刻)的状态s_t～S1，当前时刻(即第一时刻)的动作a_t～S1输入给第二自适应权重函数d₂(s,a)，计算对应的第二自适应权重。

根据本申请实施例提供的机器人控制模型的训练方法，通过根据离线经验池中动作对应的回报值判断哪些动作做的好或者不好，强化好的动作，改进不好的动作，以此训练机器人控制模型来改进机器人行为模式，有注意提高后续执行任务的成功率。

在一些实施例中，基于第一自适应权重、第一估计回报值、第二自适应权重、第二估计回报值和目标回报值，使用梯度下降算法分别优化第一自适应权重函数、第二自适应权重函数、待更新策略和评论家函数，可以包括：

使用梯度下降算法，基于公式：

分别优化第一自适应权重函数、第二自适应权重函数、待更新策略和评论家函数。

在该实施例中，π为待更新策略，d₁(s,a)为第一自适应权重函数，d₂(s,a)为第二自适应权重函数，Q(s_t,a_t)为评论家函数，为目标回报值，/>为正则项。

具体地，在自适应权重函数d₁(s,a)和d₂(s,a)为可学习函数的情况下，例如用神经网络表示，则可以根据上述公式2，使用梯度下降算法对如自适应权重函数d₁(s,a)和d₂(s,a)进行优化。

根据公式2，使用梯度下降算法对评论家函数Q(s,a)进行优化；

根据公式2，使用梯度下降算法对待学习的策略π(即待更新策略)进行优化。

重复上述训练步骤，直至最大循环次数或智能体收敛，则可以得到训练好的机器人控制模型。

训练过程结束后，算法中的待学习的策略π，评论家函数Q(s,a)，输入给自适应权重函数d₁(s,a)和d₂(s,a)中的参数均会得更新。

根据本申请实施例提供的机器人控制模型的训练方法，通过根据公式2采用梯度下降算法分别优化第一自适应权重函数、第二自适应权重函数、待更新策略和评论家函数，可以提高训练结果的准确性和精确性，从而提高机器人控制模型的精度和准确度，从而在后续机器人执行任务的过程中，提高其执行任务的成功率。

下面对两个自适应权重函数的确定方式进行说明。

在一些实施例中，在基于第一时刻的状态数据、第一时刻的动作数据、第二时刻的状态数据以及第一时刻的回报值中的至少一项，优化第一自适应权重函数、第二自适应权重函数、待更新策略和评论家函数之前，该方法还可以包括：

基于目标理论和第一条件，确定第一自适应权重函数和第二自适应权重函数；

或者，基于自适应权重函数的代价函数，确定第一自适应权重函数和第二自适应权重函数。

在该实施例中，在第一种离线强化学习算法中，根据目标理论的指导定义自适应权重函数如下：

其中，d₁(s,a)为第一自适应权重函数，d₂(s,a)为第二自适应权重函数，α为超参数，用于控制d₁(s,a)和d₂(s,a)的取值范围，T₁为温度系数，用于控制d₁(s,a)的平滑程度，T₂为温度系数，用于控制d₂(s,a)的平滑程度，a为动作数据，s为状态数据，为目标回报值；且d₁(s,a)∈(0,α),d₂(s,a)∈(α,2α)。

对于离线经验池内部的数据，如果该数据能够取得较高的回报，即做出了一个好的动作，则提升其对应的评论家函数值。由贝尔曼方程得到的目标评论家函数值正好可以衡量一个动作的好坏，则可以用于自适应权重函数d₁(s,a)和d₂(s,a)的设计中。

对于分布外的数据，由于不能够和环境进行交互，因此无法判断该动作的好坏，这种情况下则选择该动作与离线经验池内数据的相似度来代替原来的衡量方式，越相似的动作对应的效果越好。

以上两个自适应权重函数可以满足在第一条件成立时，学到的评论家函数Q(s,a)在每个状态-动作对上处处大于CQL评论家函数，从而缓解了CQL算法在某些情况下使得学习得到的评论家函数在分布外的状态-动作对上要远远小于真实的评论家函数的问题。

其中，目标理论和第一条件将在下文中进行说明，在此暂不作赘述。

在另一种实施例中，在第二种离线强化学习算法中，根据目标理论指导设计自适应权重函数，关键在于利用神经网络表示该自适应权重函数，使得其为可学习的。通过修改合页损失函数，应用到该算法中，具体地，训练自适应权重函数的代价函数为：

其中，π为待学习的策略，a为动作数据，s为状态数据，d₁和d₂分别为第一自适应权重函数和第二自适应权重函数，为经验行为策略，α为CQL中使用的超参数，代表CQL中对Q-values的控制程度，是一个常数权重，C₁为超参数，代表学到的评论家函数Q(s,a)在每个状态-动作对上与真实的评论家函数的差值，C₂为超参数，代表学到的评论家函数Q(s,a)在每个状态-动作对上与CQL中评论家函数的差值。

根据本申请实施例提供的机器人控制模型的训练方法，根据理论指导设计两种具体的不同的强化学习算法，以能够在细粒度上对回报值函数的学习进行控制和调整，从而减轻高估回报的问题，以达到更好的训练效果，具有较好的灵活性和有效性。

下面对目标理论以及各条件进行说明。

引理1、对于任何一个策略π使得不考虑经验贝尔曼方程和真实贝尔曼方程之间的采样误差时，在该框架下学到的评论家函数和真实的评论家函数之间的差异可以从三个层次根据不同的条件进行调整。

1)基于关于状态-动作对的Q-values的层次。当以下第一条件成立时，学到的评论家函数Q(s,a)在每个状态-动作对上处处小于真实的评论家函数：

其中，为经验行为策略，π为待学习的策略，a为动作数据，s为状态数据，d₁和d₂分别为第一自适应权重函数和第二自适应权重函数。

2)基于关于状态的V-values的层次。当以下第二条件成立时，学到的评论家函数Q(s,a)在每个状态上处处小于真实的评论家函数：

3)基于整体经验MDP的层次。当以下第三条件成立时，学到的评论家函数Q(s,a)在整个经验MDP上小于真实的评论家函数：

引理2、考虑经验贝尔曼方程与真实贝尔曼方程之间的采样误差时，以一个较高的概率p≥1-δ，学到的评论家函数Q(s,a)与真实的评论家函数之间的差值满足下列不等式：

其中，

其中，I为单位矩阵，γ为折扣因子，P为环境的状态转移模型，C_r,P,δ为关于r,P,δ的常数，R_max为单次回报的上界，π为待学习的策略，a为动作数据，s为状态数据，d₁和d₂分别为第一自适应权重函数和第二自适应权重函数，为经验行为策略。

引理3、对于任何一个策略π使得给定从CQL方法学习到的评论家函数为/>其中，π为待学习的策略，/>为经验行为策略，为真实的评论家函数。

在本申请的框架下学到的评论家函数和CQL评论家函数之间的差异同样可以从如下三个层次根据不同的条件进行调整。

1)基于关于状态-动作对的Q-values的层次。当以下第四条件成立时，学到的评论家函数Q(s,a)在每个状态-动作对上处处大于CQL评论家函数：

2)基于关于状态的V-values的层次。当以下第五条件成立时，学到的评论家函数q(s,a)在每个状态上处处大于CQL评论家函数：

3)基于整体经验MDP的层次。当以下第六条件成立时，学到的评论家函数Q(s,a)在整个经验MDP上大于CQL评论家函数：

根据本申请实施例提供的机器人控制模型的训练方法，通过相应的理论分析，给出了在不同的分布差异情况下，两个自适应权重函数需要满足的不同条件，这些条件可以为使用者在不同场景下应该如何设计自适应权重函数提供理论上的依据和指导。

下面对本申请实施例提供的机器人控制模型的训练装置进行描述，下文描述的机器人控制模型的训练装置与上文描述的机器人控制模型的训练方法可相互对应参照。

如图3所示，该机器人控制模型的训练装置可以包括：第一处理模块310、第二处理模块320和第三处理模块330。

第一处理模块310，用于获取机器人在第一时刻的状态数据、在第一时刻的动作数据、在第二时刻的状态数据和第一时刻的回报值，第二时刻为与第一时刻相邻且在第一时刻之后的采集时刻；

第二处理模块320，用于获取多个训练样本，任一训练样本均包括第一时刻的状态数据、第一时刻的动作数据、第二时刻的状态数据和第一时刻的回报值，多个训练样本用于构建离线经验池；

第三处理模块330，用于基于离线经验池，训练机器人控制模型。

根据本申请实施例提供的机器人控制装置，通过机器人在执行过往任务过程中收集到的离线经验池来训练策略神经网络，可以充分利用硬件以实现并行训练，提升训练效率以及训练效果；训练过程中也无需机器人在现实世界中做出任何动作，从而避免发生危险情况，提高训练过程的安全性和可靠性；除此之外，根据离线经验池中动作对应的回报值训练机器人控制模型，有助于提高训练结果的准确性。

在一些实施例中，机器人控制模型包括第一自适应权重函数、第二自适应权重函数、评论家函数和待更新策略；第三处理模块330，还可以用于：

在一些实施例中，第三处理模块330，还可以用于：

采用待更新策略对第一时刻的状态数据进行采样，获取第一时刻的采样动作；

在一些实施例中，第三处理模块330，还可以用于：

使用梯度下降算法，基于公式：

分别优化第一自适应权重函数、第二自适应权重函数、待更新策略和评论家函数，其中，π为待更新策略，d₁(s,a)为第一自适应权重函数，d₂(s,a)为第二自适应权重函数，Q(s_t,a_t)为评论家函数，为目标回报值。

在一些实施例中，该装置还可以包括第七处理模块，用于：

在基于第一时刻的状态数据、第一时刻的动作数据、第二时刻的状态数据以及第一时刻的回报值中的至少一项，优化第一自适应权重函数、第二自适应权重函数、待更新策略和评论家函数之前，基于目标理论和第一条件，确定第一自适应权重函数和第二自适应权重函数；

本申请实施例还提出一种机器人控制方法。

下文描述的机器人控制方法与上文描述的机器人控制模型的训练方法可相互对应参照。

该机器人控制方法的执行主体可以为机器人，或者与机器人通信连接的服务器、控制装置或用户终端等。

如图4所示，该机器人控制方法包括：步骤410、步骤420和步骤430。

步骤410、将获取的机器人的当前状态数据输入至如上所述的任意实施例的机器人控制模型；

在该步骤中，机器人包括但不限于智能机器人、通用服务机器人、清洁机器人以及无人机等。

当前状态数据为用于表征机器人当前状态的数据，包括但不限于：当前机器人每个关节的位移、转动角度、加速度、力矩以及坐标等变量。

当前状态数据可以通过传感器进行采集，如通过图像传感器采集RGBD图像或点云图像，通过对图像信息进行分析以得到当前状态数据；或者也可以通过加速度或角度传感器进行采集。

机器人控制模型可以为任意神经网络模型，下面以策略神经网络为例进行说明。

在实际执行过程中，策略神经网络可以部署于机器人中，或者也可以部署于与机器人通信连接的服务器以及其他控制装置中。

策略神经网络为预训练的神经网络。

其中，策略神经网络为基于离线经验池训练得到的，离线经验池包括多个训练样本，训练样本包括：机器人在第一时刻的状态数据、机器人在第一时刻的动作数据、机器人在第二时刻的状态数据以及第一时刻的回报值，第二时刻为与第一时刻相邻且在第一时刻之后的历史采集时刻。

其中，离线经验池可以设置于机器人的内部硬件，如设置于硬盘或内存中。

可以理解的是，机器人执行任何任务的过程可以视为一系列的状态，动作，回报的变化过程。在收集数据的过程中，指导机器人根据当前状态s做出动作a的实际策略的形式并没有任何限制，即该实际策略可以和算法中待学习的策略不同，例如实际策略可以为另一种人工智能算法训练所得，也可以为由机器人控制论中方法计算所得，甚至可以是从所有动作中随机采样得到，当然也可以使用当前算法中的待学习(上一轮)策略，或是多种方法产生的混合策略。

策略神经网络的训练过程已在上文进行说明，在此不作赘述。

步骤420、获取由机器人控制模型输出的当前状态数据对应的目标动作数据；

在该步骤中，当前动作数据为用于表征机器人当前需执行的动作的数据，包括但不限于：机器人每个关节的位移、力矩以及加速度等变量。

需要说明的是，在实际应用过程中，当前动作数据为由机器人控制模型输出的数据。

步骤430、基于目标动作数据，确定目标动作执行指令，目标动作执行指令用于控制机器人执行目标动作；

在该步骤中，目标动作执行指令为用于控制机器人执行目标动作的指令。

其中，步骤430还可以包括：将当前动作数据确定为目标动作对应的数据；或者，融合当前动作数据和其他动作数据，生成目标动作数据对应的数据。

例如，在实际执行过程中，在机器人执行任务时，输入当前状态数据s，包括当前摄像头拍摄得到的RGBD图像或是点云图像，当前机器人每个关节的位移、转动角度、加速度、力矩以及坐标等变量。

策略神经网络π将输出对应的当前动作数据a，包括机器人每个关节的位移、力矩以及加速度等变量。

机器人可以直接采用该输出作为要执行的动作，也可以和其他算法的结果混合产生最终的结果，然后执行得到的目标动作。

执行目标动作之后能够得到新的状态数据，重复上述步骤至任务结束。

根据本申请实施例提供的机器人控制方法，通过使用离线经验池训练得到的机器人控制模型来基于状态输出动作，能够在细粒度上对回报值函数的学习进行控制和调整，从而减轻高估回报的问题，以提高输出效果，从而提高应用过程中的控制效果；除此之外，训练过程中也无需机器人在现实世界中做出任何动作，从而避免发生危险情况，提高机器人的安全性和可靠性。

下面对本申请实施例提供的机器人控制装置进行描述，下文描述的机器人控制装置与上文描述的机器人控制方法可相互对应参照。

如图5所示，该机器人控制装置可以包括：第四处理模块510、第五处理模块520和第六处理模块530。

第四处理模块510，用于将获取的机器人的当前状态数据输入如上任意实施例所述的机器人控制模型；

第五处理模块520，用于获取由机器人控制模型输出的当前状态数据对应的目标动作数据；

第六处理模块530，用于基于目标动作数据，确定目标动作执行指令，目标动作执行指令用于控制机器人执行目标动作。

根据本申请实施例提供的机器人控制装置，通过使用离线经验池训练得到的机器人控制模型来基于状态输出动作，能够在细粒度上对回报值函数的学习进行控制和调整，从而减轻高估回报的问题，以提高输出效果，从而提高应用过程中的控制效果；除此之外，训练过程中也无需机器人在现实世界中做出任何动作，从而避免发生危险情况，提高机器人的安全性和可靠性。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行机器人控制模型的训练方法，该方法包括：获取机器人在第一时刻的状态数据、在第一时刻的动作数据、在第二时刻的状态数据和第一时刻的回报值，第二时刻为与第一时刻相邻且在第一时刻之后的采集时刻；获取多个训练样本，任一训练样本均包括第一时刻的状态数据、第一时刻的动作数据、第二时刻的状态数据和第一时刻的回报值，多个训练样本用于构建离线经验池；基于离线经验池，训练机器人控制模型；或者机器人控制方法，该方法包括：将获取的机器人的当前状态数据输入机器人控制模型；获取由机器人控制模型输出的当前状态数据对应的目标动作数据；基于目标动作数据，确定目标动作执行指令，目标动作执行指令用于控制机器人执行目标动作。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法实施例所提供的机器人控制模型的训练方法，该方法包括：获取机器人在第一时刻的状态数据、在第一时刻的动作数据、在第二时刻的状态数据和第一时刻的回报值，第二时刻为与第一时刻相邻且在第一时刻之后的采集时刻；获取多个训练样本，任一训练样本均包括第一时刻的状态数据、第一时刻的动作数据、第二时刻的状态数据和第一时刻的回报值，多个训练样本用于构建离线经验池；基于离线经验池，训练机器人控制模型；或者机器人控制方法，该方法包括：将获取的机器人的当前状态数据输入机器人控制模型；获取由机器人控制模型输出的当前状态数据对应的目标动作数据；基于目标动作数据，确定目标动作执行指令，目标动作执行指令用于控制机器人执行目标动作。

另一方面，本申请实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的机器人控制模型的训练方法，该方法包括：获取机器人在第一时刻的状态数据、在第一时刻的动作数据、在第二时刻的状态数据和第一时刻的回报值，第二时刻为与第一时刻相邻且在第一时刻之后的采集时刻；获取多个训练样本，任一训练样本均包括第一时刻的状态数据、第一时刻的动作数据、第二时刻的状态数据和第一时刻的回报值，多个训练样本用于构建离线经验池；基于离线经验池，训练机器人控制模型；或者机器人控制方法，该方法包括：将获取的机器人的当前状态数据输入机器人控制模型；获取由机器人控制模型输出的当前状态数据对应的目标动作数据；基于目标动作数据，确定目标动作执行指令，目标动作执行指令用于控制机器人执行目标动作。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

以上实施方式仅用于说明本申请，而非对本申请的限制。尽管参照实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，对本申请的技术方案进行各种组合、修改或者等同替换，都不脱离本申请技术方案的精神和范围，均应涵盖在本申请的权利要求范围中。

Claims

1.一种机器人控制模型的训练方法，其特征在于，包括：

基于所述离线经验池，训练机器人控制模型；机器人控制模型包括第一自适应权重函数、第二自适应权重函数、评论家函数和待更新策略；

所述基于所述离线经验池，训练机器人控制模型，包括：

基于所述待更新策略和所述第一时刻的状态数据，获取所述第一自适应权重函数输出的第一自适应权重和所述评论家函数输出的第一估计回报值；基于所述第一时刻的状态数据和所述第一时刻的动作数据，获取所述第二自适应权重函数输出的第二自适应权重和所述评论家函数输出的第二估计回报值；基于所述第一时刻的状态数据、所述第一时刻的动作数据、所述第二时刻的状态数据和所述第一时刻的回报值，获取目标评论家函数输出的目标回报值；基于所述第一自适应权重、所述第一估计回报值、所述第二自适应权重、所述第二估计回报值和所述目标回报值，使用梯度下降算法分别优化所述第一自适应权重函数、所述第二自适应权重函数、所述待更新策略和所述评论家函数；

为所述第一自适应权重函数，/>，为所述第二自适应权重函数，/>；超参数用于控制/>和/>的取值范围，温度系数/>用于控制/>的平滑程度，温度系数/>用于控制/>的平滑程度，a为动作数据，/>为状态数据，/>为目标回报值；且/>。

2.根据权利要求1所述的机器人控制模型的训练方法，其特征在于，所述基于所述待更新策略和所述第一时刻的状态数据，获取所述第一自适应权重函数输出的第一自适应权重和所述评论家函数输出的第一估计回报值，包括：

3.根据权利要求1所述的机器人控制模型的训练方法，其特征在于，所述基于所述第一时刻的状态数据和所述第一时刻的动作数据，获取所述第二自适应权重函数输出的第二自适应权重和所述评论家函数输出的第二估计回报值，包括：

4.根据权利要求1所述的机器人控制模型的训练方法，其特征在于，在所述基于所述第一时刻的状态数据、所述第一时刻的动作数据、所述第二时刻的状态数据以及所述第一时刻的回报值中的至少一项，优化所述第一自适应权重函数、所述第二自适应权重函数、所述待更新策略和所述评论家函数之前，所述方法包括：

5.一种机器人控制方法，其特征在于，包括：

将获取的机器人的当前状态数据输入至如权利要求1-4任一项所述的机器人控制模型；

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述机器人控制模型的训练方法或如权利要求5所述机器人控制方法。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一项所述机器人控制模型的训练方法或如权利要求5所述机器人控制方法。

8.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述机器人控制模型的训练方法或如权利要求5所述机器人控制方法。