CN114734443B - 基于生成对抗模仿学习的人机协作机器人技能识别方法 - Google Patents

基于生成对抗模仿学习的人机协作机器人技能识别方法 Download PDF

Info

Publication number
CN114734443B
CN114734443B CN202210451938.XA CN202210451938A CN114734443B CN 114734443 B CN114734443 B CN 114734443B CN 202210451938 A CN202210451938 A CN 202210451938A CN 114734443 B CN114734443 B CN 114734443B
Authority
CN
China
Prior art keywords
discriminator
parameter
gradient
strategy
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210451938.XA
Other languages
English (en)
Other versions
CN114734443A (zh
Inventor
徐宝国
汪逸飞
王欣
王嘉津
宋爱国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210451938.XA priority Critical patent/CN114734443B/zh
Publication of CN114734443A publication Critical patent/CN114734443A/zh
Priority to PCT/CN2022/112008 priority patent/WO2023206863A1/zh
Application granted granted Critical
Publication of CN114734443B publication Critical patent/CN114734443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于生成对抗模仿学习的人机协作机器人技能识别方法,先明确需要进行的人机协作技能种类;由人类专家分别进行不同技能种类的演示,并采集演示中的图像信息、数据,做好标定;用图像处理的手段识别图像信息,提取能够明确区分不同技能种类的有效特征向量,并将其作为示教数据;利用已经获取的示教数据,通过生成对抗模仿学习的方法,分别对数个鉴别器进行训练,训练完成后,提取使用者的数据,利用该数据分别输入不同的鉴别器中,最后输出的最大值所对应的鉴别器,即为技能识别的输出结果,本发明创新性地将计算机图像识别和模仿学习中著名的生成对抗模仿学习方法相结合,训练时间短,学习效率高。

Description

基于生成对抗模仿学习的人机协作机器人技能识别方法
技术领域
本发明属于人机协作领域,具体涉及基于生成对抗模仿学习的人机协作机器人技能识别方法。
背景技术
协作机器人是未来工业机器人的发展趋势之一,其优势在于:人机工效强,对环境的感知能力强,智能化程度高,因此工作效率高。
而在人机协作的领域中,智能体是否能够判断使用者的意图,并做出相应的回应,是判断人机协作功能有效性的标准之一。而在这之中,智能体判断使用者的意图并做出决策,是非常关键的一步。传统的方法通过计算机图像识别和处理的技术,通过深度神经网络等方法进行训练;存在需求样本多,训练时间长的问题。
发明内容
为解决上述问题,本发明公开了基于生成对抗模仿学习的人机协作机器人技能识别方法,创新性地将计算机图像识别和模仿学习中著名的生成对抗模仿学习方法相结合,训练时间短,学习效率高。
为达到上述目的,本发明的技术方案如下:
基于生成对抗模仿学习的人机协作机器人技能识别方法,包含下列步骤:
(1)明确需要进行的人机协作技能种类;
(2)由人类专家分别进行不同技能种类的演示,并采集演示中的图像信息、数据,做好标定;
(3)用图像处理的手段识别图像信息,提取能够明确区分不同技能种类的有效特征向量,并将其作为示教数据;
(4)利用已经获取的示教数据,通过生成对抗模仿学习的方法,分别对数个鉴别器进行训练,其中鉴别器的个数等于所需要进行判断的技能个数;
(5)训练完成后,提取使用者的数据,利用该数据分别输入不同的鉴别器中,最后输出的最大值所对应的鉴别器,即为技能识别的输出结果。
对于步骤(4),运用的生成对抗模仿学习的方法,是指
(a)写出作为示教数据的特征向量;
(b)初始化策略参数和鉴别器的参数;
(c)启动循环迭代,分别用梯度下降法和置信区间的梯度下降法更新策略参数和鉴别器的参数;
(d)待测试误差到达指定值时停止训练,即为训练完成;
(e)分别对每一个鉴别器执行上述的训练过程。
对于步骤(4),在所述的生成对抗模仿学习方法中,包含两个关键部分鉴别器D与策略π生成器G,参数分别为ω和θ,分别由两个独立的BP神经网络构成,这两个关键部分的策略梯度方法如下:
对于鉴别器D(参数为ω),将其表示为函数Dω(s,a),其中(s,a)为函数输入的状态动作对的集合,在一次迭代中,根据所述的梯度下降法更新ω,有如下步骤:
(a)将生成策略带入,判断是否满足误差要求;若是,则结束;若否,则继续;
(b)将专家策略带入,利用分别代入生成策略和专家策略的输出结果,根据公式得出梯度;
(c)根据梯度更新ω;
对于策略π生成器G(参数为θ),将其表示为函数Gθ(s,a),其中(s,a)为函数输入的状态动作对的集合,在一次迭代中,根据所述的置信区间的梯度下降法更新θ,有如下步骤:
(a)将上次迭代中的策略代入,根据公式计算梯度;
(b)根据梯度更新θ;
(c)判断是否满足置信区间条件;
(d)若是,则进入下次迭代;否,则降低学习率重新进行(b)操作。
本发明的有益效果为:
本发明所述的基于生成对抗模仿学习的人机协作机器人技能识别方法,结合了模仿学习中生成对抗模仿学习的算法来解决人机交互中机器人对人类使用者的技能识别效率低的问题,其优点在于训练时间短,学习效率高;既解决了行为克隆中的级联误差的问题,也解决了逆强化学习中计算性能需求过大的问题,并且能有一定的泛化性能。
附图说明
图1为机械臂倒水示教画面的示意图;
图2为机械臂物品交递示教画面的示意图;
图3为机械臂物体摆放示教画面的示意图;
图4为HOPE-Net算法提取的画面示意图;
图5为算法部分的流程示意图;
图6为神经网络结构示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明中所述的智能体,指进行机器学习的训练过程并有能力输出决策的非人类学习者;本发明中所述的专家,指在智能体训练阶段进行指导的人类专家;本发明中所述的使用者,指在智能体完成训练后进行使用的人类使用者。
对于基于生成对抗模仿学习的机器人人机协作的技能识别方法,包含下列步骤:
(1)明确需要进行的人机协作技能种类,本实施方法以机械臂倒水、机械臂物品交递、机械臂物体摆放三种类型的任务为例,说明实现步骤。
(2)由专家分别演示三种类型的动作数次,分别对应希望机械臂执行的三种不同的任务:机械臂倒水、物品交递、物体摆放。其中机械臂倒水任务需要由专家手持茶杯保持在画面中央一段时间;物品交递任务需要由专家手掌摊开保持在画面中央一段时间;物体摆放任务需要由专家手持被摆放的物体保持在画面中央一段时间。
(3)运用HOPE-Net算法对提取的画面中专家手部的姿态进行识别,并将处理后的特征表示为向量形式,并由专家分别标定好三种类型之后,作为示教数据保存。
(4)用三组示教数据和生成对抗模仿学习的算法训练智能体,分别独立地对智能体进行训练,分别得到三组参数。
对于步骤(4),包含下列分步骤:
(4.1)写出第一组专家示教数据的向量,对应动作为机械臂倒水,表示为
xE=(x1,x2,...,xn)
其中xE为专家示教数据,x1,x2,...,xn分别代表了专家手部重要点位的坐标,假设一只手取15个坐标,每0.1秒采集一次,共采集3秒,则xE中将有450个坐标。
(4.2)初始化策略的参数和鉴别器的参数θ0和ω0
(4.3)对i=0,1,2,...启动循环迭代,其中i为循环次数的计数,每次循环加数值1,其中a,b,c依次为循环体;
(a)利用参数θi,生成策略πi和坐标xi
(b)对ωi到ωi+1,利用梯度下降法更新ω,其中梯度为
其中为分布的估计期望,下标代表关于某的分布,/>为对ω求梯度,Dω(s,a)为鉴别器在参数ω下的概率密度,(s,a)为鉴别器概率密度函数的输入,为状态动作对,本例中s为坐标,a表示两个相邻坐标的相对位置变化,可用球坐标系表示。
(c)对θi到θi+1,利用一种置信区间梯度下降法更新θ,梯度为
并且同时满足如下置信区间
其中的Q函数定义为
其中为两者KL散度的均值,定义为
其中λ为熵正则化的正则化项,H代表熵,Δ为事先给定的常数,/>为在策略/>下的状态访问频率。
(4.4)待测试误差到达指定值时停止训练,结束循环,依次类推,分别对剩余两组数据采用上述算法进行训练,最终对于三种技能,依照在上述算法中分别迭代出的结果,分别得出对应的ω,用ω1,ω2,ω3表示。
(5)训练完成后,即可识别使用者的动作并对采取三种技能中的哪一种做出决策。
对于步骤(5),分别包含以下分步骤,
(5.1)依照ω1,ω2,ω3,分别写出三个对应的鉴别器函数
(a)机械臂倒水:
(b)机械臂物品交递:
(c)机械臂物体摆放:
(5.2)提取使用者手部的数据,写成向量形式xuser=(x1,x2,...,xn)
(5.3)将xuser分别带入(5.1)中的损失函数,找出
argi∈{1,2,3}max Ci(xuser)
最终得出的i∈{1,2,3}即分别对应于智能体做出机械臂倒水、机械臂物品交递、机械臂物体摆放三种决策。
对于步骤(4),在所述的生成对抗模仿学习方法中,其中包含的两个关键部分鉴别器D(参数为ω)与策略π生成器G(参数为θ),分别由两个独立的BP神经网络构成,这两个关键部分的策略梯度方法如下:
对于鉴别器D(参数为ω),将其表示为函数Dω(s,a),其中(s,a)为函数输入的状态动作对的集合,在一次迭代中,根据所述的梯度下降法更新ω,有如下步骤:
(a)将(s,a)←πi,判断网络输出D是否满足结果要求,若是,则结束;若否,则继续
(b)求出梯度中的项;
(c)将(s,a)←πE,求出梯度中的项;
(d)根据BP算法参数更新的方法,更新参数ω,满足
其中η为学习率,代表梯度;
对于策略π生成器G(参数为θ),将其表示为函数Gθ(s,a),其中(s,a)为函数输入的状态动作对的集合,在一次迭代中,根据所述的置信区间的梯度下降法更新θ,有如下步骤:
(a)计算梯度
(b)根据BP算法参数更新的方法,更新参数θ,满足
其中η为学习率,代表梯度;
(c)计算判断是否满足置信区间的条件/>
(d)若满足,则进入下一次迭代,若不满足,则降低η,重新进行操作(b)。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims (1)

1.基于生成对抗模仿学习的人机协作机器人技能识别方法,其特征在于:包含下列步骤:
(1)明确需要进行的人机协作技能种类;
(2)由人类专家分别进行不同技能种类的演示,并采集演示中的图像信息、数据,做好标定;
(3)用图像处理的手段识别图像信息,提取能够明确区分不同技能种类的有效特征向量,并将其作为示教数据;
(4)利用已经获取的示教数据,通过生成对抗模仿学习的方法,分别对数个鉴别器进行训练,其中鉴别器的个数等于所需要进行判断的技能个数;
(5)训练完成后,提取使用者的数据,利用该数据分别输入不同的鉴别器中,最后输出的最大值所对应的鉴别器,即为技能识别的输出结果;
所述步骤(4)中的所述的生成对抗模仿学习的方法,具体为:
S1写出作为示教数据的特征向量,xE=(x1,x2,...,xn),其中xE为专家示教数据,x1,x2,...,xn分别代表了专家手部重要点位的坐标;
S2初始化策略参数和鉴别器的参数;
S3启动循环迭代,分别用梯度下降法和置信区间的梯度下降法更新策略参数和鉴别器的参数;
S4待测试误差到达指定值时停止训练,即为训练完成;
S5分别对每一个鉴别器执行上述的训练过程;
在所述的生成对抗模仿学习方法中,包含两个关键部分,所述两个关键部分分别为鉴别器D与策略π生成器G,鉴别器D的参数为ω,策略π生成器G的参数为θ,鉴别器D与策略π生成器G分别由两个独立的BP神经网络构成,
对于鉴别器D,将其表示为函数Dω(s,a),其中(s,a)为函数输入的状态动作对的集合,其中,s为坐标,a表示两个相邻坐标的相对位置变化,初始化的策略参数为θ0,初始化的鉴别器的参数为ω0,对i=0,1,2,...启动循环迭代,其中i为循环次数的计数,每次循环加数值1,利用参数θi,生成策略πi和坐标xi,在一次迭代中,对于ωi到ωi+1,根据所述的梯度下降法更新,具体步骤为:
(a)将(s,a)←πi,判断神经网络输出是否满足结果要求,若是,则结束;若否,则继续;
(b)求出梯度中的项;其中/>为分布的估计期望,/>为对ω求梯度,Dω(s,a)为鉴别器在参数ω下的概率密度;
(c)将(s,a)←πE,求出梯度中的项,xE为专家示教数据,πE为专家策略;
(d)根据BP算法参数更新的方法,更新参数ω,满足
其中η为学习率,代表梯度;
对于策略π生成器G,将其表示为函数Gθ(s,a),其中(s,a)为函数输入的状态动作对的集合,在一次迭代中,对于θi到θi+1,根据所述的置信区间的梯度下降法更新θ,包括如下步骤:
(a)计算梯度其中λ为熵正则化的正则化项,H代表熵,/>
(b)根据BP算法参数更新的方法,更新参数θ,满足
其中η为学习率,代表梯度;
(c)计算判断是否满足置信区间的条件其中,Δ为事先给定的常数,/>为在策略/>下的状态访问频率;
(d)若满足,则进入下一次迭代,若不满足,则降低η,重新进行操作步骤(b)。
CN202210451938.XA 2022-04-27 2022-04-27 基于生成对抗模仿学习的人机协作机器人技能识别方法 Active CN114734443B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210451938.XA CN114734443B (zh) 2022-04-27 2022-04-27 基于生成对抗模仿学习的人机协作机器人技能识别方法
PCT/CN2022/112008 WO2023206863A1 (zh) 2022-04-27 2022-08-12 一种基于生成对抗模仿学习的人机协作机器人技能识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210451938.XA CN114734443B (zh) 2022-04-27 2022-04-27 基于生成对抗模仿学习的人机协作机器人技能识别方法

Publications (2)

Publication Number Publication Date
CN114734443A CN114734443A (zh) 2022-07-12
CN114734443B true CN114734443B (zh) 2023-08-04

Family

ID=82284603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210451938.XA Active CN114734443B (zh) 2022-04-27 2022-04-27 基于生成对抗模仿学习的人机协作机器人技能识别方法

Country Status (2)

Country Link
CN (1) CN114734443B (zh)
WO (1) WO2023206863A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114734443B (zh) * 2022-04-27 2023-08-04 东南大学 基于生成对抗模仿学习的人机协作机器人技能识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置
CN111983922A (zh) * 2020-07-13 2020-11-24 广州中国科学院先进技术研究所 一种基于元模仿学习的机器人演示示教方法
CN113379027A (zh) * 2021-02-24 2021-09-10 中国海洋大学 一种生成对抗交互模仿学习方法、系统、存储介质及应用

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6721785B2 (ja) * 2016-09-15 2020-07-15 グーグル エルエルシー ロボット操作のための深層強化学習
US11410030B2 (en) * 2018-09-06 2022-08-09 International Business Machines Corporation Active imitation learning in high dimensional continuous environments
US20220105624A1 (en) * 2019-01-23 2022-04-07 Google Llc Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning
CN111203878B (zh) * 2020-01-14 2021-10-01 北京航空航天大学 一种基于视觉模仿的机器人序列任务学习方法
CN111401527B (zh) * 2020-03-24 2022-05-13 金陵科技学院 基于ga-bp网络的机器人行为校验识别方法
CN114734443B (zh) * 2022-04-27 2023-08-04 东南大学 基于生成对抗模仿学习的人机协作机器人技能识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置
CN111983922A (zh) * 2020-07-13 2020-11-24 广州中国科学院先进技术研究所 一种基于元模仿学习的机器人演示示教方法
CN113379027A (zh) * 2021-02-24 2021-09-10 中国海洋大学 一种生成对抗交互模仿学习方法、系统、存储介质及应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
运动意识任务的模式识别方法研究;徐宝国等;《仪器仪表学报》;第32卷(第1期);第13-18页 *

Also Published As

Publication number Publication date
WO2023206863A1 (zh) 2023-11-02
CN114734443A (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
Tanaka et al. Emd net: An encode–manipulate–decode network for cloth manipulation
CN107392255B (zh) 少数类图片样本的生成方法、装置、计算设备及存储介质
Shi et al. Adaptive image-based visual servoing with temporary loss of the visual signal
Pan et al. Deep reinforcement learning based optimization algorithm for permutation flow-shop scheduling
Song et al. New chaotic PSO-based neural network predictive control for nonlinear process
Billard et al. Discriminative and adaptive imitation in uni-manual and bi-manual tasks
Seo et al. Rewards prediction-based credit assignment for reinforcement learning with sparse binary rewards
CN111652124A (zh) 一种基于图卷积网络的人体行为识别模型的构建方法
Soh et al. Spatio-temporal learning with the online finite and infinite echo-state Gaussian processes
CN107150347A (zh) 基于人机协作的机器人感知与理解方法
Cruz et al. Multi-modal integration of dynamic audiovisual patterns for an interactive reinforcement learning scenario
CN107457780B (zh) 控制机械臂运动的方法及装置、存储介质和终端设备
Wang et al. Distributed stochastic consensus optimization with momentum for nonconvex nonsmooth problems
Lim et al. Prediction of reward functions for deep reinforcement learning via Gaussian process regression
CN111445426B (zh) 一种基于生成对抗网络模型的目标服装图像处理方法
CN114734443B (zh) 基于生成对抗模仿学习的人机协作机器人技能识别方法
Cobo et al. Automatic task decomposition and state abstraction from demonstration
Zhang et al. Learning accurate and stable point-to-point motions: A dynamic system approach
Bai et al. Addressing hindsight bias in multigoal reinforcement learning
Qian et al. Hardness recognition of robotic forearm based on semi-supervised generative adversarial networks
Tanaka et al. Disruption-resistant deformable object manipulation on basis of online shape estimation and prediction-driven trajectory correction
CN112308952B (zh) 模仿给定视频中人物动作的3d角色动作生成系统和方法
Zuo et al. Off-policy adversarial imitation learning for robotic tasks with low-quality demonstrations
Cortes et al. Coordinated deployment of mobile sensing networks with limited-range interactions
de La Bourdonnaye et al. Stage-wise learning of reaching using little prior knowledge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant