CN110147891A

CN110147891A - 应用于强化学习训练过程的方法、装置及电子设备

Info

Publication number: CN110147891A
Application number: CN201910435219.7A
Authority: CN
Inventors: 李江涛
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-08-20
Anticipated expiration: 2039-05-23
Also published as: CN110147891B

Abstract

公开了一种应用于强化学习训练过程的方法，包括：确定强化学习智能体的第一动作数据；对所述第一动作数据进行限制处理，得到第二动作数据；通过所述第二动作数据控制目标设备。本公开技术方案由于对强化学习智能体的第一动作数据进行限制处理，得到第二动作数据，第二动作数据不会产生瞬间的变化，通过第二动作数据控制目标设备，避免机电设备等目标设备常常以功率极限运行，可以延长机电设备等目标设备的寿命。

Description

应用于强化学习训练过程的方法、装置及电子设备

技术领域

本发明涉及机电技术领域，具体涉及一种应用于强化学习训练过程的方法、装置及电子设备。

背景技术

强化学习(RL，Reinforcement Learning)，又称再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。强化学习是智能体(Agent)以“试错”的方式进行学习，通过与外部环境(Environment)进行交互获得的奖赏(Reward)指导行为，目标是使智能体获得最大的奖赏。由于外部环境提供的信息很少，强化学习系统需要较多的随机探索，必须靠自身的经历进行学习。

在强化学习应用于机电设备(如机械臂)等目标设备的训练过程中，需要执行大量的随机动作，会产生瞬间的位置或速度的变化，导致机电设备等目标设备常常以功率极限运行，降低了机电设备等目标设备的寿命。

发明内容

为了解决上述技术问题，本申请实施例提供了一种应用于强化学习训练过程的方法、装置及电子设备。

根据本申请的一个方面，提供了一种应用于强化学习训练过程的方法，包括：确定强化学习智能体的第一动作数据；对所述第一动作数据进行限制处理，得到第二动作数据；通过所述第二动作数据控制目标设备。

根据本申请的另一个方面，提供了一种应用于强化学习训练过程的装置，包括：第一确定模块，用于确定强化学习智能体的第一动作数据；处理模块，用于对所述第一动作数据进行限制处理，得到第二动作数据；控制模块，用于通过所述第二动作数据控制目标设备。

根据本申请的另一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一所述的方法。

根据本申请的另一个方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述任一所述的方法。

本申请实施例提供的应用于强化学习训练过程的方法，由于对强化学习智能体的第一动作数据进行限制处理，得到第二动作数据，第二动作数据不会产生瞬间的变化，通过第二动作数据控制目标设备，避免机电设备等目标设备常常以功率极限运行，可以延长机电设备等目标设备的寿命。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请一示例性实施例提供的应用于强化学习训练过程的场景示意图。

图2是本申请一示例性实施例提供的应用于强化学习训练过程的方法的流程示意图。

图3是本申请一示例性实施例提供的对第一动作数据进行限制处理，得到第二动作数据的流程示意图。

图4是本申请另一示例性实施例提供的应用于强化学习训练过程的方法的流程示意图。

图5是本申请一示例性实施例提供的基于第二动作数据和第一动作数据，确定奖赏误差数据的流程示意图。

图6是本申请一示例性实施例提供的应用于强化学习训练过程的装置的结构示意图。

图7是是本申请一示例性实施例提供的应用于强化学习训练过程的装置中处理模块的结构示意图。

图8是本申请又一示例性实施例提供的应用于强化学习训练过程的装置的结构示意图。

图9是本申请一示例性实施例提供的应用于强化学习训练过程的装置中第三确定模块的结构示意图。

图10是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

目前，在强化学习应用于机电设备(如机械臂)等目标设备的训练过程中，需要执行大量的随机动作，以探索足够的状态空间。在强化学习训练时随机动作执行过程中，每一时间点(Step)都会输出一个新的动作(Action)，会产生瞬间的位置或速度的变化，导致机电设备等目标设备常常以功率极限运行，降低了机电设备等目标设备的寿命。

针对上述技术问题，本申请的基本构思是提出一种应用于强化学习训练过程的方法、装置及电子设备，由于对强化学习智能体的第一动作数据进行限制处理，得到第二动作数据，第二动作数据不会产生瞬间的变化，通过第二动作数据控制目标设备，避免机电设备等目标设备常常以功率极限运行，可以延长机电设备等目标设备的寿命。

下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

图1是本申请一示例性实施例提供的应用于强化学习训练过程的强化学习系统结构示意图，其中，各个变量如下：

State(状态)：State表示当前强化学习智能体(RL agent)的状态，由算法模型通过对物理环境的观测得到，所以又可以被表示为observation(观察)。例如：当前机械臂、执行机构等机电设备的位置、速度、朝向等；末端执行器上压力传感器的压力数值等；需要操作的物体/工件的位置、朝向等。

Action1(第一动作数据)：输出给机械臂、执行机构等机电设备的控制量，如关节旋转角度，关节旋转速度、关节旋转加速度、关节旋转减速度等。

Action2(第二动作数据)：RLAgent输出的Action1在经过平滑滤波和限制条件等限制处理后得到Action2。

Reward(第一奖赏数据)：任务所反馈的reward，任务相关。

Action_penalty(奖赏误差数据)：Action1、Action2二者相减得到误差项，记为Action_penalty。

New Reward(第二奖赏数据)：由于Action一般是多个自由度的，如机械臂的不同关节的控制角度。一般对Action各个维度的差值进行平方加权或者取绝对值加权。由于期望RL(强化学习)模型能直接输出更接近符合限制条件的值，误差项Action_penalty越小越好，因此取负号后，与原来任务所获得的Reward相叠加作为反馈，即实际反馈给算法模型的New Reward为(Reward-Action_penalty)。这样即可引导强化学习模型输出尽可能更平滑的，符合限制条件的Action。

示例性方法

图2是本申请一示例性实施例提供的应用于强化学习训练过程的方法的流程示意图。本申请实施例提供的应用于强化学习训练过程的方法可应用到智能控制机器人及分析预测等领域，亦可应用到汽车的控制分析预测等功能领域。如图2所示，本申请实施例提供的应用于强化学习训练过程的方法包括如下步骤：

步骤101，确定强化学习智能体的第一动作数据。

其中，第一动作数据可以是速度、加速度、减速度等。

在一实施例中，一个有三个自由度(关节1，关节2，关节3)的机械臂，输出控制方式为速度控制，单位为每秒(s)该关节角度旋转的度数(正负代表方向)，对应的强化学习智能体的第一动作数据(Action1)输出序列为(A1，A2，A3)，在训练前期没有形成比较好的策略时，(A1，A2，A3)可能会是跳变比较大的随机数序列：

…

Step K-3：(-30°/s，10°/s，-44°/s，)

Step K-2：(22°/s，-17°/s，-5°/s，)

Step K-1：(-1°/s，31°/s，-6°/s，)

Step K：(-8°/s，-37°/s，12°/s，)

其中，K为自然数，Step K表示第K时间点、Step K-1表示第K-1时间点、Step K-2表示第K-2时间点、Step K-3表示第K-3时间点。

步骤102，对第一动作数据进行限制处理，得到第二动作数据。

在一实施例中，如步骤101，强化学习智能体的第一动作数据(Action1)输出序列(A1，A2，A3)为：

…

Step K-3：(-30°/s，10°/s，-44°/s，)

Step K-2：(22°/s，-17°/s，-5°/s，)

Step K-1：(-1°/s，31°/s，-6°/s，)

Step K：(-8°/s，-37°/s，12°/s，)

假设由于机械极限性能限制或者出于对机械设备的保护目的，对第一动作数据进行限制处理，限制速度最大不允许超过35°/s，得到第二动作数据输出序列(A1’，A2’，A3’)为：

…

Step K-3：(-30°/s，10°/s，-35°/s，)

Step K-2：(22°/s，-17°/s，-5°/s，)

Step K-1：(-1°/s，31°/s，-6°/s，)

Step K：(-8°/s，-35°/s，12°/s，)

步骤103，通过第二动作数据控制目标设备。

需要说明的是，目标设备可以是机械臂等机电设备。

本申请实施例所提及的应用于强化学习训练过程的方法，由于对强化学习智能体的第一动作数据进行限制处理，得到第二动作数据，第二动作数据不会产生瞬间的变化，通过第二动作数据控制目标设备，避免机电设备等目标设备常常以功率极限运行，可以延长机电设备等目标设备的寿命。

图3是本申请一示例性实施例提供的对第一动作数据进行限制处理，得到第二动作数据的流程示意图。在本申请图2所示实施例的基础上延伸出本申请图3所示实施例，下面着重叙述图3所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图3所示，在本申请实施例提供的应用于强化学习训练过程的方法中，对第一动作数据进行限制处理，得到第二动作数据(即步骤102)，包括：

步骤1021，从第一动作数据中每个自由度的动作数据中选择预设个数的动作数据进行平均滤波，得到第一动作数据中每个自由度的滤波动作数据。

在一实施例中，可以按均值进行滤波，以当前时间点为第K时间点为例进行示例性说明，在对Step K进行滤波过程中，Step K的第n个关节的原始运动速度记为An(K)，经过滤波以后的记为Anf(K)。假设滤波方式采用利用前3个时间点的均值滤波。则对第n个关节的动作数据(action)进行以下处理：

Anf(K)＝[An(K)+An(K-1)+An(K-2)]/3

例如，对于步骤101中的(A1，A2，A3)，第K时间点的第二个关节经平滑后就是(-37+31-17)/3°/s。

在另一实施例中，可以按时间的权重进行滤波，以当前时间点为第K时间点为例进行示例性说明，在对Step K进行滤波过程中，选择参与对Step K进行滤波的时间点，根据参与对Step K进行滤波的每一时间点与第K时间点的时间间隔，确定每一时间点对应的预设时间权重，将每一时间点对应的预设时间权重对每一时间点的数据进行加权平均后，得到滤波以后的Step K的数据，其中，每一时间点对应的预设时间权重的取值为：时间上越靠近第K时间点、对应的时间权重取值越大，且参与对Step K进行滤波的所有时间点的预设时间权重的和为1。例如：Step K的第n个关节的原始运动速度记为An(K)，经过滤波以后的记为Anf(K)，假设参与对Step K进行滤波的时间点是Step K、Step K-1，则可以得到：：

Anf(K)＝An(K)*r_k+An(K-1)*r_k-1

其中，r_k是An(K)对应的时间权重(也称为折扣因子、衰减因子)，r_k-1是An(K-1)对应的时间权重。可以根据实际应用状况设置r_k、r_k-1的取值，满足r_k+r_k-1＝1、r_k大于r_k-1，对具体的取值不做具体限定。

步骤1022，根据预设动作位置范围和预设动作速度范围，对第一动作数据中每个自由度的滤波动作数据进行限位和限速，得到第二动作数据中每个相应自由度的动作数据。

其中，预设动作位置范围和预设动作速度范围是根据机械本身能够达到的极限位置和极限速度设置的范围，可以根据实际应用状况设置具体的取值，对此不做具体限定。当第一动作数据中某个自由度的滤波动作数据超出预设动作位置范围或预设动作速度范围时，将某个自由度的滤波动作数据取值为预设动作位置范围或预设动作速度范围中的一个值，实现对动作数据进行限位和限速。例如，当Anf(K)超出预设动作位置范围时，将Anf(K)的位置取值为预设动作位置范围的上限值、下限值或从预设动作位置范围中选定的某值。为了便于区分，限位和限速后的Anf(K)，记为Anf^*(K)。

本申请实施例所提及的应用于强化学习训练过程的方法，通过对第一动作数据进行平均滤波、限位和限速，得到第二动作数据中每个相应自由度的动作数据，第二动作数据中每个相应自由度的动作数据更加平滑，动作数据不会产生瞬间的变化，可以提高机电设备等目标设备的运行平稳性，延长机电设备等目标设备的寿命。

图4是本申请另一示例性实施例提供的应用于强化学习训练过程的方法的流程示意图。在本申请图2所示实施例的基础上延伸出本申请图4所示实施例，下面着重叙述图4所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图4所示，在本申请实施例提供的应用于强化学习训练过程的方法中，还包括：

步骤104，确定强化学习智能体的第一奖赏数据。

其中，第一奖赏数据Reward为强化学习训练过程任务所反馈的奖赏，与任务相关。如任务是一个打保龄球的动作，初始状态机械臂执球，然后采取动作，那么第一奖赏数据可以为最终击倒的球的个数；再如任务是一个投篮动作，机械臂要把一个篮球投入篮筐，那么第一奖赏数据可以为1或0，1：篮球进入了篮筐，0：篮球未能投进篮筐；再如是一个工业流水线的机械臂，任务是依靠摄像头观察，把一个电子元器件放入电路板的指定目标位置上，那么第一奖赏数据可以由最终器件位置与目标点之间的距离来确定，例如，第一奖赏数据可以为最终器件位置与目标点之间的距离的倒数，也可以为最终器件位置与目标点之间的距离的相反数。

步骤105，基于第二动作数据和第一动作数据，确定奖赏误差数据。

具体地，可以基于步骤102得到的第二动作数据和步骤101得到的第一动作数据，确定奖赏误差数据。

步骤106，基于第一奖赏数据和奖赏误差数据，确定第二奖赏数据。

具体地，可以基于步骤104得到的第一奖赏数据和步骤105得到的奖赏误差数据，确定第二奖赏数据。

步骤107，将第二奖赏数据反馈至强化学习智能体。

其中，基于步骤104得到的第一奖赏数据和步骤105得到的奖赏误差数据确定第二奖赏数据，处理前的动作数据和处理后的动作数据的差值被传入第二奖赏数据作为反馈，使得强化学习智能体基于第二奖赏数据进行学习，慢慢调整，控制输出更平滑、符合限制条件的第一动作数据。例如：对于上述步骤104中的工业流水线的机械臂的例子，未引入奖赏误差数据，仅采用第一奖赏数据时，优化目标仅仅是最终器件位置与目标点距离，最优状态是以最高的速度把器件送到目标点以减少距离，理想状态是瞬间启动，到达位置瞬间停止，将对机械装置造成冲击；引入奖赏误差数据，采用第二奖赏数据之后，优化目标还包括了使运动符合滤波之后的特性，即在完成目标的同时，减少速度的突变程度，平滑运动轨迹。

本申请实施例所提及的应用于强化学习训练过程的方法，由于基于第二动作数据和第一动作数据，确定奖赏误差数据，基于第一奖赏数据和奖赏误差数据，确定第二奖赏数据，可以将处理前的动作数据和处理后的动作数据的差值传入第二奖赏数据作为反馈，引导强化学习模型输出尽可能更平滑的、符合限制条件的动作数据，从而减少限制条件之外的无效探索空间，加速强化学习的训练过程。

图5是本申请一示例性实施例提供的基于第二动作数据和第一动作数据，确定奖赏误差数据的流程示意图。在本申请图4所示实施例的基础上延伸出本申请图5所示实施例，下面着重叙述图5所示实施例与图4所示实施例的不同之处，相同之处不再赘述。

如图5所示，本申请实施例提供的基于第二动作数据和第一动作数据，确定奖赏误差数据(即步骤105)，包括：

步骤1051，计算第二动作数据中每个自由度的动作数据与第一动作数据中每个相应自由度的动作数据的差的加权。

因为动作数据是多维度的(比如，在步骤101的一实施例中，有三个关节，动作数据的维度就是3)，可以通过对第二动作数据中每个自由度的动作数据与第一动作数据中每个相应自由度的动作数据的差值进行平方加权或者取绝对值加权，最小化所有维度下第一动作数据和第二动作数据的误差。

步骤1052，计算所有加权之和，得到奖赏误差数据。

需要说明的是，仍然把Step K的第n个关节的原始运动速度记为An(K)，经过滤波以后的记为Anf(K)，限位和限速后的Anf(K)，记为Anf^*(K)。在一实施例中，平方加权后的奖赏误差数据Action_penalty(K)为：

Action_penalty(K)＝(A1f^*(K)–A1(K))²+(A2f^*(K)–A2(K))²+(A3f^*(K)–A3(K))²

本申请实施例所提及的应用于强化学习训练过程的方法，通过对第二动作数据中每个自由度的动作数据与第一动作数据中每个相应自由度的动作数据的差值进行平方加权，可以最小化所有维度下第一动作数据和第二动作数据的误差，引导强化学习模型输出尽可能更平滑的，符合限制条件的动作数据。

本申请一示例性实施例提供了基于第一奖赏数据和奖赏误差数据，确定第二奖赏数据的流程。在本申请图4所示实施例的基础上延伸出本申请所示实施例，下面着重叙述本申请所示实施例与图4所示实施例的不同之处，相同之处不再赘述。

本申请实施例提供的基于第一奖赏数据和奖赏误差数据，确定第二奖赏数据(即步骤106)，包括：

计算第一奖赏数据和奖赏误差数据之和，得到第二奖赏数据。

在一实施例中，第二奖赏数据New Reward为：

New Reward＝Reward–γ*Action_penalty

因为Reward、Action_penalty二者不是同一个量纲，γ表示一个系数，用于对不同的量纲进行数值上的调整。调整原则是γ*Action_penalty数值上与原Reward处于同一个数量级，使得二者都能起到作用；并且γ*Action_penalty应该小于Reward，其含义为在完成原任务的基础上使得动作数据输出更为平滑，而不能为了动作数据更加平滑去放弃原有任务。由于期望能直接输出更接近符合限制条件的值，误差项Action_penalty越小越好，因此取负号后，与原来任务所获得的reward相叠加作为反馈，即实际反馈给算法模型的NewReward为(Reward–γ*Action_penalty)，这样即可引导强化学习模型输出尽可能更平滑的，符合限制条件的动作数据。

本申请实施例所提及的应用于强化学习训练过程的方法，由第一奖赏数据和奖赏误差数据，计算得到第二奖赏数据，即实际反馈给算法模型的第二奖赏数据为第一奖赏数据和奖赏误差数据，这样即可引导强化学习模型输出尽可能更平滑的，符合限制条件的动作数据。

本实施例中的强化学习训练方可以使用目前通用的连续运动控制方面表现较好的强化学习算法框架，如DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度)，PPO(Proximal Policy Optimization，近端策略优化算法)等。

示例性装置

图6是本申请一示例性实施例提供的应用于强化学习训练过程的装置的结构示意图。如图6所示，本申请实施例提供的应用于强化学习训练过程的装置，包括：

第一确定模块201，用于确定强化学习智能体的第一动作数据；

处理模块202，用于对第一动作数据进行限制处理，得到第二动作数据；

控制模块203，用于通过第二动作数据控制目标设备。

图7是本申请一示例性实施例提供的应用于强化学习训练过程的装置中处理模块202的结构示意图。在本申请图6所示实施例的基础上延伸出本申请图7所示实施例，下面着重叙述图7所示实施例与图6所示实施例的不同之处，相同之处不再赘述。

如图7所示，本申请实施例提供的处理模块202包括：

滤波单元2021，用于从第一动作数据中每个自由度的动作数据中选择预设个数的动作数据进行平均滤波，得到第一动作数据中每个自由度的滤波动作数据；

限位限速单元2022，用于根据预设动作位置范围和预设动作速度范围，对第一动作数据中每个自由度的滤波动作数据进行限位和限速，得到第二动作数据中每个相应自由度的动作数据。

图8是本申请又一示例性实施例提供的应用于强化学习训练过程的装置的结构示意图。在本申请图6所示实施例的基础上延伸出本申请图8所示实施例，下面着重叙述图8所示实施例与图6所示实施例的不同之处，相同之处不再赘述。

在本申请实施例提供的应用于强化学习训练过程的装置中，还包括：

第二确定模块204，用于确定强化学习智能体的第一奖赏数据；

第三确定模块205，用于基于第二动作数据和第一动作数据，确定奖赏误差数据；

第四确定模块206，用于基于第一奖赏数据和奖赏误差数据，确定第二奖赏数据；

反馈模块207，用于将第二奖赏数据反馈至强化学习智能体。

图9是本申请一示例性实施例提供的应用于强化学习训练过程的装置中第三确定模块205的结构示意图。在本申请图8所示实施例的基础上延伸出本申请图9所示实施例，下面着重叙述图9所示实施例与图8所示实施例的不同之处，相同之处不再赘述。

如图9所示，在本申请实施例提供的应用于强化学习训练过程的装置中，第三确定模块205包括：

第一计算单元2051，用于计算第二动作数据中每个自由度的动作数据与第一动作数据中每个相应自由度的动作数据的差的加权；

第二计算单元2052，用于计算所有加权之和，得到奖赏误差数据。

本申请一示例性实施例提供了应用于强化学习训练过程的装置中的第四确定模块206。在本申请图8所示实施例的基础上延伸出本实施例，下面着重叙述本实施例与图8所示实施例的不同之处，相同之处不再赘述。

在本申请实施例提供的应用于强化学习训练过程的装置中，第四确定模块206，具体用于计算第一奖赏数据和奖赏误差数据之和，得到第二奖赏数据。

应当理解，图6至图9提供的应用于强化学习训练过程的装置中的第一确定模块201、处理模块202、控制模块203、第二确定模块204、第三确定模块205、第四确定模块206、反馈模块207，以及处理模块202中包括的滤波单元2021，第三确定模块205中包括的第一计算单元2051和第二计算单元2052的操作和功能可以参考上述图2至图5提供的应用于强化学习训练过程的方法，为了避免重复，在此不再赘述。

示例性电子设备

图10图示了根据本申请实施例的电子设备的框图。

如图10所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本申请的各个实施例的应用于强化学习训练过程的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置113可以是摄像头或麦克风、麦克风阵列等，用于捕捉图像或声源的输入信号。在该电子设备是单机设备时，该输入装置113可以是通信网络连接器，用于从网络处理器接收所采集的输入信号。

此外，该输入设备113还可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的输出电压、输出电流信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备11中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的应用于强化学习训练过程的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的应用于强化学习训练过程的方法的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种应用于强化学习训练过程的方法，包括：

确定强化学习智能体的第一动作数据；

对所述第一动作数据进行限制处理，得到第二动作数据；

通过所述第二动作数据控制目标设备。

2.根据权利要求1所述的方法，其中，对所述第一动作数据进行限制处理，得到第二动作数据，包括：

从所述第一动作数据中每个自由度的动作数据中选择预设个数的动作数据进行平均滤波，得到所述第一动作数据中每个自由度的滤波动作数据；

根据预设动作位置范围和预设动作速度范围，对所述第一动作数据中每个自由度的滤波动作数据进行限位和限速，得到所述第二动作数据中每个相应自由度的动作数据。

3.根据权利要求1所述的方法，还包括：

确定强化学习智能体的第一奖赏数据；

基于所述第二动作数据和所述第一动作数据，确定奖赏误差数据；

基于所述第一奖赏数据和所述奖赏误差数据，确定第二奖赏数据；

将所述第二奖赏数据反馈至所述强化学习智能体。

4.根据权利要求3所述的方法，其中，基于所述第二动作数据和所述第一动作数据，确定奖赏误差数据，包括：

计算所述第二动作数据中每个自由度的动作数据与所述第一动作数据中每个相应自由度的动作数据的差的加权；

计算所有所述加权之和，得到所述奖赏误差数据。

5.根据权利要求3所述的方法，其中，基于所述第一奖赏数据和所述奖赏误差数据，确定第二奖赏数据，包括：

计算所述第一奖赏数据和所述奖赏误差数据之和，得到所述第二奖赏数据。

6.一种应用于强化学习训练过程的装置，包括：

第一确定模块，用于确定强化学习智能体的第一动作数据；

处理模块，用于对所述第一动作数据进行限制处理，得到第二动作数据；

控制模块，用于通过所述第二动作数据控制目标设备。

7.根据权利要求6所述的装置，其中，所述处理模块，包括：

滤波单元，用于从所述第一动作数据中每个自由度的动作数据中选择预设个数的动作数据进行平均滤波，得到所述第一动作数据中每个自由度的滤波动作数据；

限位限速单元，用于根据预设动作位置范围和预设动作速度范围，对所述第一动作数据中每个自由度的滤波动作数据进行限位和限速，得到所述第二动作数据中每个相应自由度的动作数据。

8.根据权利要求6所述的装置，还包括：

第二确定模块，用于确定强化学习智能体的第一奖赏数据；

第三确定模块，用于基于所述第二动作数据和所述第一动作数据，确定奖赏误差数据；

第四确定模块，用于基于所述第一奖赏数据和所述奖赏误差数据，确定第二奖赏数据；

第四确定模块，用于将所述第二奖赏数据反馈至所述强化学习智能体。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-5任一所述的应用于强化学习训练过程的方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-5任一所述的应用于强化学习训练过程的方法。