CN114662404B

CN114662404B - 规则数据双驱动的机器人复杂操作过程人机混合决策方法

Info

Publication number: CN114662404B
Application number: CN202210364512.0A
Authority: CN
Inventors: 刘星; 黄攀峰; 刘正雄; 常海涛; 马志强
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2024-04-30
Anticipated expiration: 2042-04-07
Also published as: CN114662404A

Abstract

本发明公开了一种规则数据双驱动的机器人复杂操作过程人机混合决策方法，包括：步骤1)定义机器人操控过程的马尔科夫决策过程；步骤2)设计机器人操控过程的基于规则的参数化策略；步骤3)对规则参数的期望值进行初始化；步骤4)生成机器人操作过程的N个控制策略；步骤5)将操作控制策略逐次发送给机器人，测量所述机器人的实际位置、实际速度、执行时间和接触力数据并计算累加奖励函数；步骤6)估计机器人操作过程值函数；步骤7)调整规则参数；步骤8)如果调整后的规则参数收敛，则使用当前规则参数执行操控任务，否则，则返回步骤3)继续执行。其解决了复杂操作场景下机器人操作技能学习过程操作策略难求解、收敛慢的问题。

Description

规则数据双驱动的机器人复杂操作过程人机混合决策方法

技术领域

本发明属于人-机器人协作操作控制技术领域，具体涉及一种规则数据双驱动的机器人复杂操作过程人机混合决策方法。

背景技术

人机混合智能作为人工智能2.0的重要方向，是一种颠覆性的人工智能技术，它旨在通过人机协作的方式，提高人机协作系统的综合性能，使得人类智能和人工智能的结合成为最高效的解决复杂任务问题的基本方式。当前的人工智能技术在解决以环境高复杂、边界不确定、博弈强对抗、响应强实时和样本稀疏为主要特征的复杂操控问题上还存在较大挑战，人机混合智能概念的出现给解决机器人复杂操作控制问题提供了可行的途径。

发明内容

本发明的目的是提供一种规则数据双驱动的机器人复杂操作过程人机混合决策方法，以解决复杂操作场景下机器人操作技能学习过程操作策略难求解、收敛慢的问题。

本发明采用以下技术方案：规则数据双驱动的机器人复杂操作过程人机混合决策方法，包括以下步骤：

步骤1)定义机器人操控过程的马尔科夫决策过程<S,A,p,R,S0,γ>，设计机器人操作过程的状态空间S、动作空间A以及奖励函数R、状态转移概率为p，奖励函数为R，S0为状态初值，γ为折扣率；

步骤2)设计所述步骤1)中的机器人操控过程的基于规则的参数化策略，并得到规则参数；

步骤3)对步骤2中得到的所述规则参数的期望值进行初始化，并设计所述规则参数的分布为高斯分布，并人为设置参数的探索方向和探索方差；

步骤4)根据步骤3中规则参数的概率分布情况，生成机器人操作过程的N个控制策略；

步骤5)将步骤4生成的N个操作控制策略逐次发送给机器人，所述机器人每次执行操作任务的过程中，测量所述机器人的实际位置、实际速度、执行时间和接触力数据，并计算所述机器人每次执行操作任务过程中的累加奖励函数；

步骤6)利用步骤5)中累加奖励的概率分布估计机器人操作过程值函数；

步骤7)利用步骤6)估计得值函数的策略梯度调整经所述步骤3中初始化的规则参数；

步骤8)如果经步骤7)调整后的规则参数收敛，则使用当前规则参数执行操控任务，否则，则返回步骤3)步继续执行，直至算法收敛。

进一步的，步骤2)具体为：

采用参数化规则，构建人-机器人协作操控系统参数化规则网络；将机器人操作过程中的状态参数s_t作为输入信号输入到规则网络模型中，得到机器人控制输出，如下：

a_t＝π_θ(s_t)，

其中，S_t表示机器人-环境交互系统状态参数，θ表示参数化规则中的规则参数，π表示机器人参数化策略。

进一步的，步骤3)中，初始化的规则参数由人员示教数据提取得到，或由人员根据操作经验指定；算法迭代过程中的规则参数的探索方向和探索方差由人员根据先验经验设定。

进一步的，步骤7)中，利用累加奖励概率分布方法近似目标值函数；对每个参数来说，从高斯随机分布中取得N个参数值，其中，高斯分布的取值方向和方差由人为根据经验确定，以加快策略搜索速度；每个参数值运行M回合，得到M个累加奖励值，利用累加奖励的概率分布对这M个奖励值进行计算得到参数θ_i的期望奖励值，然后再对N个参数的平均奖励值求平均作为参数θ的期望奖励值。

本发明的有益效果是：本发明采用了基于规则数据双驱动的机器人复杂操作过程最优控制方法，可以在保证完成操作任务的情况下，机器人操作过程性能最佳。通过设计基于规则的强化学习方法，能够提高算法对操作人员的透明性。基于规则的强化学习方法，可以有效地缩小强化学习算法的搜索空间，使得迭代过程计算量更小，收敛时间更短，且控制精度更高。该控制方法可实现复杂操作过程中，机器人与被操作物体之间的接触力较小，机器人操作过程时间缩短，同时控制算法具有更快的收敛速度。

附图说明

图1为本发明规则数据双驱动的机器人复杂操作过程人机混合决策方法的流程图；

图2为本发明的融合操控规则与强化学习的机器人操作控制策略生成方法图；

图3-1为本发明实施例中的参数1初始值＝0.06,参数2初始值＝-0.7时规则数据双驱动的强化学习算法累加奖励值的收敛过程图；

图3-2为本发明实施例中的参数1初始值＝0.06,参数2初始值＝-0.7时规则数据双驱动的强化学习算法参数1的收敛过程图；

图3-3为本发明实施例中的参数1初始值＝0.06,参数2初始值＝-0.7时规则数据双驱动的强化学习算法参数2的收敛过程图；

图4-1为本发明实施例中的参数1初始值＝0.05,参数2初始值＝-0.7时规则数据双驱动的强化学习算法累加奖励值的收敛过程图；

图4-2为本发明实施例中的参数1初始值＝0.05,参数2初始值＝-0.7时规则数据双驱动的强化学习算法参数1的收敛过程图；

图4-3为本发明实施例中的参数1初始值＝0.05,参数2初始值＝-0.7时规则数据双驱动的强化学习算法参数2的收敛过程图；

图5-1为本发明实施例中的参数1初始值＝0.04,参数2初始值＝-0.7时规则数据双驱动的强化学习算法累加奖励值的收敛过程图；

图5-2为本发明实施例中的参数1初始值＝0.04,参数2初始值＝-0.7时规则数据双驱动的强化学习算法参数1的收敛过程图；

图5-3为本发明实施例中的参数1初始值＝0.04,参数2初始值＝-0.7时规则数据双驱动的强化学习算法参数2的收敛过程图；

图6-1为本发明实施例中的参数1初始值＝0.03,参数2初始值＝-0.7时规则数据双驱动的强化学习算法累加奖励值的收敛过程图；

图6-2为本发明实施例中的参数1初始值＝0.03,参数2初始值＝-0.7时规则数据双驱动的强化学习算法参数1的收敛过程图；

图6-3为本发明实施例中的参数1初始值＝0.03,参数2初始值＝-0.7时规则数据双驱动的强化学习算法参数2的收敛过程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供了一种规则数据双驱动的机器人复杂操作过程人机混合决策方法，如图1所示，对人机协作操控系统进行建模，研究人机协同操作过程中的规则生成、策略参数化、奖励函数构建、强化学习策略优化等关键技术，设计规则数据双驱动的人机混合智能决策算法框架，本发明的具体实施步骤如下所示：

步骤1)：定义机器人操控过程的马尔科夫决策过程<S,A,p,R,S0,γ>，设计机器人操作过程的状态空间S、动作空间A以及奖励函数R、状态转移概率为p，奖励函数为R，S0为状态初值，γ为折扣率；

步骤2)：在此基础上，采用参数化规则结构，构建人-机器人协作操控系统参数化规则网络。将机器人操作过程中的状态参数s_t作为输入信号输入到规则网络模型中，得到机器人控制输出，如式(1)所示。

a_t＝π_θ(s_t) (1)，

其中，S_t表示机器人-环境交互系统状态参数，θ表示参数化规则中的可调参数。

步骤3)：对步骤2中得到的所述规则参数的期望值进行初始化，并设计所述规则参数的分布为高斯分布，并人为设置参数的探索方向和探索方差；

步骤4)：根据步骤3中规则参数的概率分布情况，生成机器人操作过程的N个控制策略；所述步骤4)中，根据步骤3)人为设置的规则参数探索方向和探索方差，生成机器人操作过程的N个控制策略π_θ(s_t)。

步骤5)：将步骤4生成的N个操作控制策略逐次发送给机器人，所述机器人每次执行操作任务的过程中，测量所述机器人的实际位置、实际速度、执行时间和接触力数据，并计算所述机器人每次执行操作任务过程中的累加奖励函数。

步骤6)：利用步骤5)中累加奖励的概率分布估计机器人操作过程值函数；

步骤7)：用步骤6)估计得值函数的策略梯度调整经所述步骤3中初始化的规则参数；

步骤8)：如果经步骤7)调整后的规则参数收敛，则使用当前规则参数执行操控任务，否则，则返回步骤3)步继续执行，直至算法收敛。利用梯度上升法和动量匹配法调整规则参数。

在一些实施例中，步骤2)具体为：

a_t＝π_θ(s_t)，

在一些实施例中，所述步骤3)中，初始化的规则参数由人员示教数据提取得到，或由人员根据操作经验指定；算法迭代过程中的规则参数的探索方向和探索方差由人员根据先验经验设定。

在一些实施例中，所述步骤7)中，利用累加奖励概率分布方法近似目标值函数；对每个参数来说，从高斯随机分布中取得N个参数值，其中，高斯分布的取值方向和方差由人为根据经验确定，以加快策略搜索速度；每个参数值运行M回合，得到M个累加奖励值，利用累加奖励的概率分布对这M个奖励值进行计算得到参数θ_i的期望奖励值，然后再对N个参数的平均奖励值求平均作为参数θ的期望奖励值。

实施例

以一个典型的机器人移动物体的操作任务为实施例，探究规则数据双驱动强化学习方法的执行效果。

为了探究多参数对规则数据双驱动强化学习收敛过程的影响，同时更加符合实际情况，我们使用包含双参数theta和beta的规则强化学习，直接在原有theta初值上加上对beta的探索。

我们在theta＝0.03,0.04,0.05,0.06,beta＝-0.7开始直接进行双参数探索，其他beta初值的情况由于电脑限制没有进行仿真。

直接进行双参数探索的结果没有超过单参数的最优值，且迭代收敛时间明显增加，但收敛后的波动程度明显下降。这说明二元函数的随机梯度下降法速度下降，这是因为二元函数空间多了两个维度，因此需要更加充足的探索。不同处值的探索图像如下图3-1至图6-3所示。

选取了机器人操作过程中两个规则参数，即参数1和参数2的四组值，分别进行了迭代计算。图3-1、图4-1、图5-1、图6-1分别表示奖励累加值随迭代次数的收敛情况，图3-2、图4-2、图5-2、图6-2分别表示参数1的值随迭代次数的收敛情况，图3-3、图4-3、图5-3、图6-3分别表示参数2的值随迭代次数的收敛情况。

图3-1至图6-3这九幅图说明了在不同的规则参数theta和beta取值的情况下，规则数据双驱动的强化学习方法均取得了非常快的收敛速度，经过10-20次迭代即实现了收敛，而传统强化学习方法通常需要经过数百甚至数千次迭代才能收敛，因此本发明提出算法的收敛速度远远快于传统强化学习算法。

本发明将传统的基于规则的策略与强化学习(RL)相结合，以实现透明性和鲁棒性。一方面，使用手工制作的基于规则的控制器可以提高透明度，也就是说，始终可以确定做出给定决定的原因，但它们难以扩展到复杂的操作场景，其中需要考虑复杂的环境变化。另一方面，黑盒强化学习方法使我们能够处理更复杂的操作场景，但它们通常难以解释。在本发明中，我们通过设计基于参数化规则的控制器，将这两种方法的最佳特性结合起来，其中可解释的规则可以由领域专家提供，其参数可以通过强化学习方法进行优化。

本发明提出一种基于参数化规则与强化学习相结合的机器人复杂操控策略生成方法。如图2所示，首先将策略建模为参数化规则形式，并使用强化学习算法优化其参数。本发明提出的机器人操控策略结合了基于规则的控制器和强化学习两种方法，集成了这两种方法的优点。具体来说，本发明的目标是保持基于规则的控制器的安全性和透明性，同时利用强化学习的泛化能力增强它们。为此，我们设计了一个基于规则的参数化策略，即基于规则的控制器，其中规则是根据一组参数定义的，这些规则库，同时能够根据实际进行自适应扩充和完善；规则参数的初始值是手动设置的，同时规则化控制策略的参数是通过使用强化学习算法与环境交互来学习的。本发明提出的人机混合智能决策框架是通用的，执行过程可以用于各种人机协作任务场景。

Claims

1.规则数据双驱动的机器人复杂操作过程人机混合决策方法，其特征在于，包括以下步骤：

所述步骤2)具体为：

a_t＝πθ(s_t)，

其中，S_t表示机器人-环境交互系统状态参数，θ表示参数化规则中的规则参数，π表示机器人参数化策略；

2.如权利要求1所述的规则数据双驱动的机器人复杂操作过程人机混合决策方法，其特征在于，所述步骤3)中，初始化的规则参数由人员示教数据提取得到，或由人员根据操作经验指定；算法迭代过程中的规则参数的探索方向和探索方差由人员根据先验经验设定。

3.如权利要求1或2所述的规则数据双驱动的机器人复杂操作过程人机混合决策方法，其特征在于，所述步骤7)中，利用累加奖励概率分布方法近似目标值函数；对每个参数来说，从高斯随机分布中取得N个参数值，其中，高斯分布的取值方向和方差由人为根据经验确定，以加快策略搜索速度；每个参数值运行M回合，得到M个累加奖励值，利用累加奖励的概率分布对这M个奖励值进行计算得到参数θ_i的期望奖励值，然后再对N个参数的平均奖励值求平均作为参数θ的期望奖励值。