CN114734443B

CN114734443B - 基于生成对抗模仿学习的人机协作机器人技能识别方法

Info

Publication number: CN114734443B
Application number: CN202210451938.XA
Authority: CN
Inventors: 徐宝国; 汪逸飞; 王欣; 王嘉津; 宋爱国
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2023-08-04
Anticipated expiration: 2042-04-27
Also published as: WO2023206863A1; CN114734443A

Abstract

本发明公开了基于生成对抗模仿学习的人机协作机器人技能识别方法，先明确需要进行的人机协作技能种类；由人类专家分别进行不同技能种类的演示，并采集演示中的图像信息、数据，做好标定；用图像处理的手段识别图像信息，提取能够明确区分不同技能种类的有效特征向量，并将其作为示教数据；利用已经获取的示教数据，通过生成对抗模仿学习的方法，分别对数个鉴别器进行训练，训练完成后，提取使用者的数据，利用该数据分别输入不同的鉴别器中，最后输出的最大值所对应的鉴别器，即为技能识别的输出结果，本发明创新性地将计算机图像识别和模仿学习中著名的生成对抗模仿学习方法相结合，训练时间短，学习效率高。

Description

基于生成对抗模仿学习的人机协作机器人技能识别方法

技术领域

本发明属于人机协作领域，具体涉及基于生成对抗模仿学习的人机协作机器人技能识别方法。

背景技术

协作机器人是未来工业机器人的发展趋势之一，其优势在于：人机工效强，对环境的感知能力强，智能化程度高，因此工作效率高。

而在人机协作的领域中，智能体是否能够判断使用者的意图，并做出相应的回应，是判断人机协作功能有效性的标准之一。而在这之中，智能体判断使用者的意图并做出决策，是非常关键的一步。传统的方法通过计算机图像识别和处理的技术，通过深度神经网络等方法进行训练；存在需求样本多，训练时间长的问题。

发明内容

为解决上述问题，本发明公开了基于生成对抗模仿学习的人机协作机器人技能识别方法，创新性地将计算机图像识别和模仿学习中著名的生成对抗模仿学习方法相结合，训练时间短，学习效率高。

为达到上述目的，本发明的技术方案如下：

基于生成对抗模仿学习的人机协作机器人技能识别方法，包含下列步骤：

(1)明确需要进行的人机协作技能种类；

(2)由人类专家分别进行不同技能种类的演示，并采集演示中的图像信息、数据，做好标定；

(3)用图像处理的手段识别图像信息，提取能够明确区分不同技能种类的有效特征向量，并将其作为示教数据；

(4)利用已经获取的示教数据，通过生成对抗模仿学习的方法，分别对数个鉴别器进行训练，其中鉴别器的个数等于所需要进行判断的技能个数；

(5)训练完成后，提取使用者的数据，利用该数据分别输入不同的鉴别器中，最后输出的最大值所对应的鉴别器，即为技能识别的输出结果。

对于步骤(4)，运用的生成对抗模仿学习的方法，是指

(a)写出作为示教数据的特征向量；

(b)初始化策略参数和鉴别器的参数；

(c)启动循环迭代，分别用梯度下降法和置信区间的梯度下降法更新策略参数和鉴别器的参数；

(d)待测试误差到达指定值时停止训练，即为训练完成；

(e)分别对每一个鉴别器执行上述的训练过程。

对于步骤(4)，在所述的生成对抗模仿学习方法中，包含两个关键部分鉴别器D与策略π生成器G，参数分别为ω和θ，分别由两个独立的BP神经网络构成，这两个关键部分的策略梯度方法如下：

对于鉴别器D(参数为ω)，将其表示为函数D_ω(s，a)，其中(s，a)为函数输入的状态动作对的集合，在一次迭代中，根据所述的梯度下降法更新ω，有如下步骤：

(a)将生成策略带入，判断是否满足误差要求；若是，则结束；若否，则继续；

(b)将专家策略带入，利用分别代入生成策略和专家策略的输出结果，根据公式得出梯度；

(c)根据梯度更新ω；

对于策略π生成器G(参数为θ)，将其表示为函数G_θ(s，a)，其中(s，a)为函数输入的状态动作对的集合，在一次迭代中，根据所述的置信区间的梯度下降法更新θ，有如下步骤：

(a)将上次迭代中的策略代入，根据公式计算梯度；

(b)根据梯度更新θ；

(c)判断是否满足置信区间条件；

(d)若是，则进入下次迭代；否，则降低学习率重新进行(b)操作。

本发明的有益效果为：

本发明所述的基于生成对抗模仿学习的人机协作机器人技能识别方法，结合了模仿学习中生成对抗模仿学习的算法来解决人机交互中机器人对人类使用者的技能识别效率低的问题，其优点在于训练时间短，学习效率高；既解决了行为克隆中的级联误差的问题，也解决了逆强化学习中计算性能需求过大的问题，并且能有一定的泛化性能。

附图说明

图1为机械臂倒水示教画面的示意图；

图2为机械臂物品交递示教画面的示意图；

图3为机械臂物体摆放示教画面的示意图；

图4为HOPE-Net算法提取的画面示意图；

图5为算法部分的流程示意图；

图6为神经网络结构示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明中所述的智能体，指进行机器学习的训练过程并有能力输出决策的非人类学习者；本发明中所述的专家，指在智能体训练阶段进行指导的人类专家；本发明中所述的使用者，指在智能体完成训练后进行使用的人类使用者。

对于基于生成对抗模仿学习的机器人人机协作的技能识别方法，包含下列步骤：

(1)明确需要进行的人机协作技能种类，本实施方法以机械臂倒水、机械臂物品交递、机械臂物体摆放三种类型的任务为例，说明实现步骤。

(2)由专家分别演示三种类型的动作数次，分别对应希望机械臂执行的三种不同的任务：机械臂倒水、物品交递、物体摆放。其中机械臂倒水任务需要由专家手持茶杯保持在画面中央一段时间；物品交递任务需要由专家手掌摊开保持在画面中央一段时间；物体摆放任务需要由专家手持被摆放的物体保持在画面中央一段时间。

(3)运用HOPE-Net算法对提取的画面中专家手部的姿态进行识别，并将处理后的特征表示为向量形式，并由专家分别标定好三种类型之后，作为示教数据保存。

(4)用三组示教数据和生成对抗模仿学习的算法训练智能体，分别独立地对智能体进行训练，分别得到三组参数。

对于步骤(4)，包含下列分步骤：

(4.1)写出第一组专家示教数据的向量，对应动作为机械臂倒水，表示为

x_E＝(x₁，x₂，...，x_n)

其中x_E为专家示教数据，x₁，x₂，...，x_n分别代表了专家手部重要点位的坐标，假设一只手取15个坐标，每0.1秒采集一次，共采集3秒，则x_E中将有450个坐标。

(4.2)初始化策略的参数和鉴别器的参数θ₀和ω₀

(4.3)对i＝0，1，2，...启动循环迭代，其中i为循环次数的计数，每次循环加数值1，其中a，b，c依次为循环体；

(a)利用参数θ_i，生成策略π_i和坐标x_i；

(b)对ω_i到ω_i+1，利用梯度下降法更新ω，其中梯度为

其中为分布的估计期望，下标代表关于某的分布，/>为对ω求梯度，D_ω(s，a)为鉴别器在参数ω下的概率密度，(s，a)为鉴别器概率密度函数的输入，为状态动作对，本例中s为坐标，a表示两个相邻坐标的相对位置变化，可用球坐标系表示。

(c)对θ_i到θ_i+1，利用一种置信区间梯度下降法更新θ，梯度为

并且同时满足如下置信区间

其中的Q函数定义为

其中为两者KL散度的均值，定义为

其中λ为熵正则化的正则化项，H代表熵，Δ为事先给定的常数，/>为在策略/>下的状态访问频率。

(4.4)待测试误差到达指定值时停止训练，结束循环，依次类推，分别对剩余两组数据采用上述算法进行训练，最终对于三种技能，依照在上述算法中分别迭代出的结果，分别得出对应的ω，用ω₁，ω₂，ω₃表示。

(5)训练完成后，即可识别使用者的动作并对采取三种技能中的哪一种做出决策。

对于步骤(5)，分别包含以下分步骤，

(5.1)依照ω₁，ω₂，ω₃，分别写出三个对应的鉴别器函数

(a)机械臂倒水：

(b)机械臂物品交递：

(c)机械臂物体摆放：

(5.2)提取使用者手部的数据，写成向量形式x_user＝(x₁，x₂，...，x_n)

(5.3)将x_user分别带入(5.1)中的损失函数，找出

arg_{i∈{1，2，3}}max C_i(x_user)

最终得出的i∈{1，2，3}即分别对应于智能体做出机械臂倒水、机械臂物品交递、机械臂物体摆放三种决策。

对于步骤(4)，在所述的生成对抗模仿学习方法中，其中包含的两个关键部分鉴别器D(参数为ω)与策略π生成器G(参数为θ)，分别由两个独立的BP神经网络构成，这两个关键部分的策略梯度方法如下：

(a)将(s，a)←π_i，判断网络输出D是否满足结果要求，若是，则结束；若否，则继续

(b)求出梯度中的项；

(c)将(s，a)←π_E，求出梯度中的项；

(d)根据BP算法参数更新的方法，更新参数ω，满足

其中η为学习率，代表梯度；

(a)计算梯度

(b)根据BP算法参数更新的方法，更新参数θ，满足

其中η为学习率，代表梯度；

(c)计算判断是否满足置信区间的条件/>

(d)若满足，则进入下一次迭代，若不满足，则降低η，重新进行操作(b)。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims

1.基于生成对抗模仿学习的人机协作机器人技能识别方法，其特征在于：包含下列步骤：

(1)明确需要进行的人机协作技能种类；

(5)训练完成后，提取使用者的数据，利用该数据分别输入不同的鉴别器中，最后输出的最大值所对应的鉴别器，即为技能识别的输出结果；

所述步骤(4)中的所述的生成对抗模仿学习的方法，具体为：

S1写出作为示教数据的特征向量，x_E＝(x₁，x₂，...，x_n)，其中x_E为专家示教数据，x₁，x₂，...，x_n分别代表了专家手部重要点位的坐标；

S2初始化策略参数和鉴别器的参数；

S3启动循环迭代，分别用梯度下降法和置信区间的梯度下降法更新策略参数和鉴别器的参数；

S4待测试误差到达指定值时停止训练，即为训练完成；

S5分别对每一个鉴别器执行上述的训练过程；

在所述的生成对抗模仿学习方法中，包含两个关键部分，所述两个关键部分分别为鉴别器D与策略π生成器G，鉴别器D的参数为ω，策略π生成器G的参数为θ，鉴别器D与策略π生成器G分别由两个独立的BP神经网络构成，

对于鉴别器D，将其表示为函数D_ω(s，a)，其中(s，a)为函数输入的状态动作对的集合，其中，s为坐标，a表示两个相邻坐标的相对位置变化，初始化的策略参数为θ₀，初始化的鉴别器的参数为ω₀，对i＝0，1，2，...启动循环迭代，其中i为循环次数的计数，每次循环加数值1，利用参数θ_i，生成策略π_i和坐标x_i，在一次迭代中，对于ω_i到ω_i+1，根据所述的梯度下降法更新，具体步骤为：

(a)将(s，a)←π_i，判断神经网络输出是否满足结果要求，若是，则结束；若否，则继续；

(b)求出梯度中的项；其中/>为分布的估计期望，/>为对ω求梯度，D_ω(s，a)为鉴别器在参数ω下的概率密度；

(c)将(s，a)←π_E，求出梯度中的项，x_E为专家示教数据，π_E为专家策略；

(d)根据BP算法参数更新的方法，更新参数ω，满足

其中η为学习率，代表梯度；

对于策略π生成器G，将其表示为函数G_θ(s，a)，其中(s，a)为函数输入的状态动作对的集合，在一次迭代中，对于θ_i到θ_i+1，根据所述的置信区间的梯度下降法更新θ，包括如下步骤：

(a)计算梯度其中λ为熵正则化的正则化项，H代表熵，/>

(b)根据BP算法参数更新的方法，更新参数θ，满足

其中η为学习率，代表梯度；

(c)计算判断是否满足置信区间的条件其中，Δ为事先给定的常数，/>为在策略/>下的状态访问频率；

(d)若满足，则进入下一次迭代，若不满足，则降低η，重新进行操作步骤(b)。