CN114734443B - 基于生成对抗模仿学习的人机协作机器人技能识别方法 - Google Patents
基于生成对抗模仿学习的人机协作机器人技能识别方法 Download PDFInfo
- Publication number
- CN114734443B CN114734443B CN202210451938.XA CN202210451938A CN114734443B CN 114734443 B CN114734443 B CN 114734443B CN 202210451938 A CN202210451938 A CN 202210451938A CN 114734443 B CN114734443 B CN 114734443B
- Authority
- CN
- China
- Prior art keywords
- discriminator
- parameter
- gradient
- strategy
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于生成对抗模仿学习的人机协作机器人技能识别方法,先明确需要进行的人机协作技能种类;由人类专家分别进行不同技能种类的演示,并采集演示中的图像信息、数据,做好标定;用图像处理的手段识别图像信息,提取能够明确区分不同技能种类的有效特征向量,并将其作为示教数据;利用已经获取的示教数据,通过生成对抗模仿学习的方法,分别对数个鉴别器进行训练,训练完成后,提取使用者的数据,利用该数据分别输入不同的鉴别器中,最后输出的最大值所对应的鉴别器,即为技能识别的输出结果,本发明创新性地将计算机图像识别和模仿学习中著名的生成对抗模仿学习方法相结合,训练时间短,学习效率高。
Description
技术领域
本发明属于人机协作领域,具体涉及基于生成对抗模仿学习的人机协作机器人技能识别方法。
背景技术
协作机器人是未来工业机器人的发展趋势之一,其优势在于:人机工效强,对环境的感知能力强,智能化程度高,因此工作效率高。
而在人机协作的领域中,智能体是否能够判断使用者的意图,并做出相应的回应,是判断人机协作功能有效性的标准之一。而在这之中,智能体判断使用者的意图并做出决策,是非常关键的一步。传统的方法通过计算机图像识别和处理的技术,通过深度神经网络等方法进行训练;存在需求样本多,训练时间长的问题。
发明内容
为解决上述问题,本发明公开了基于生成对抗模仿学习的人机协作机器人技能识别方法,创新性地将计算机图像识别和模仿学习中著名的生成对抗模仿学习方法相结合,训练时间短,学习效率高。
为达到上述目的,本发明的技术方案如下:
基于生成对抗模仿学习的人机协作机器人技能识别方法,包含下列步骤:
(1)明确需要进行的人机协作技能种类;
(2)由人类专家分别进行不同技能种类的演示,并采集演示中的图像信息、数据,做好标定;
(3)用图像处理的手段识别图像信息,提取能够明确区分不同技能种类的有效特征向量,并将其作为示教数据;
(4)利用已经获取的示教数据,通过生成对抗模仿学习的方法,分别对数个鉴别器进行训练,其中鉴别器的个数等于所需要进行判断的技能个数;
(5)训练完成后,提取使用者的数据,利用该数据分别输入不同的鉴别器中,最后输出的最大值所对应的鉴别器,即为技能识别的输出结果。
对于步骤(4),运用的生成对抗模仿学习的方法,是指
(a)写出作为示教数据的特征向量;
(b)初始化策略参数和鉴别器的参数;
(c)启动循环迭代,分别用梯度下降法和置信区间的梯度下降法更新策略参数和鉴别器的参数;
(d)待测试误差到达指定值时停止训练,即为训练完成;
(e)分别对每一个鉴别器执行上述的训练过程。
对于步骤(4),在所述的生成对抗模仿学习方法中,包含两个关键部分鉴别器D与策略π生成器G,参数分别为ω和θ,分别由两个独立的BP神经网络构成,这两个关键部分的策略梯度方法如下:
对于鉴别器D(参数为ω),将其表示为函数Dω(s,a),其中(s,a)为函数输入的状态动作对的集合,在一次迭代中,根据所述的梯度下降法更新ω,有如下步骤:
(a)将生成策略带入,判断是否满足误差要求;若是,则结束;若否,则继续;
(b)将专家策略带入,利用分别代入生成策略和专家策略的输出结果,根据公式得出梯度;
(c)根据梯度更新ω;
对于策略π生成器G(参数为θ),将其表示为函数Gθ(s,a),其中(s,a)为函数输入的状态动作对的集合,在一次迭代中,根据所述的置信区间的梯度下降法更新θ,有如下步骤:
(a)将上次迭代中的策略代入,根据公式计算梯度;
(b)根据梯度更新θ;
(c)判断是否满足置信区间条件;
(d)若是,则进入下次迭代;否,则降低学习率重新进行(b)操作。
本发明的有益效果为:
本发明所述的基于生成对抗模仿学习的人机协作机器人技能识别方法,结合了模仿学习中生成对抗模仿学习的算法来解决人机交互中机器人对人类使用者的技能识别效率低的问题,其优点在于训练时间短,学习效率高;既解决了行为克隆中的级联误差的问题,也解决了逆强化学习中计算性能需求过大的问题,并且能有一定的泛化性能。
附图说明
图1为机械臂倒水示教画面的示意图;
图2为机械臂物品交递示教画面的示意图;
图3为机械臂物体摆放示教画面的示意图;
图4为HOPE-Net算法提取的画面示意图;
图5为算法部分的流程示意图;
图6为神经网络结构示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明中所述的智能体,指进行机器学习的训练过程并有能力输出决策的非人类学习者;本发明中所述的专家,指在智能体训练阶段进行指导的人类专家;本发明中所述的使用者,指在智能体完成训练后进行使用的人类使用者。
对于基于生成对抗模仿学习的机器人人机协作的技能识别方法,包含下列步骤:
(1)明确需要进行的人机协作技能种类,本实施方法以机械臂倒水、机械臂物品交递、机械臂物体摆放三种类型的任务为例,说明实现步骤。
(2)由专家分别演示三种类型的动作数次,分别对应希望机械臂执行的三种不同的任务:机械臂倒水、物品交递、物体摆放。其中机械臂倒水任务需要由专家手持茶杯保持在画面中央一段时间;物品交递任务需要由专家手掌摊开保持在画面中央一段时间;物体摆放任务需要由专家手持被摆放的物体保持在画面中央一段时间。
(3)运用HOPE-Net算法对提取的画面中专家手部的姿态进行识别,并将处理后的特征表示为向量形式,并由专家分别标定好三种类型之后,作为示教数据保存。
(4)用三组示教数据和生成对抗模仿学习的算法训练智能体,分别独立地对智能体进行训练,分别得到三组参数。
对于步骤(4),包含下列分步骤:
(4.1)写出第一组专家示教数据的向量,对应动作为机械臂倒水,表示为
xE=(x1,x2,...,xn)
其中xE为专家示教数据,x1,x2,...,xn分别代表了专家手部重要点位的坐标,假设一只手取15个坐标,每0.1秒采集一次,共采集3秒,则xE中将有450个坐标。
(4.2)初始化策略的参数和鉴别器的参数θ0和ω0
(4.3)对i=0,1,2,...启动循环迭代,其中i为循环次数的计数,每次循环加数值1,其中a,b,c依次为循环体;
(a)利用参数θi,生成策略πi和坐标xi;
(b)对ωi到ωi+1,利用梯度下降法更新ω,其中梯度为
其中为分布的估计期望,下标代表关于某的分布,/>为对ω求梯度,Dω(s,a)为鉴别器在参数ω下的概率密度,(s,a)为鉴别器概率密度函数的输入,为状态动作对,本例中s为坐标,a表示两个相邻坐标的相对位置变化,可用球坐标系表示。
(c)对θi到θi+1,利用一种置信区间梯度下降法更新θ,梯度为
并且同时满足如下置信区间
其中的Q函数定义为
其中为两者KL散度的均值,定义为
其中λ为熵正则化的正则化项,H代表熵,Δ为事先给定的常数,/>为在策略/>下的状态访问频率。
(4.4)待测试误差到达指定值时停止训练,结束循环,依次类推,分别对剩余两组数据采用上述算法进行训练,最终对于三种技能,依照在上述算法中分别迭代出的结果,分别得出对应的ω,用ω1,ω2,ω3表示。
(5)训练完成后,即可识别使用者的动作并对采取三种技能中的哪一种做出决策。
对于步骤(5),分别包含以下分步骤,
(5.1)依照ω1,ω2,ω3,分别写出三个对应的鉴别器函数
(a)机械臂倒水:
(b)机械臂物品交递:
(c)机械臂物体摆放:
(5.2)提取使用者手部的数据,写成向量形式xuser=(x1,x2,...,xn)
(5.3)将xuser分别带入(5.1)中的损失函数,找出
argi∈{1,2,3}max Ci(xuser)
最终得出的i∈{1,2,3}即分别对应于智能体做出机械臂倒水、机械臂物品交递、机械臂物体摆放三种决策。
对于步骤(4),在所述的生成对抗模仿学习方法中,其中包含的两个关键部分鉴别器D(参数为ω)与策略π生成器G(参数为θ),分别由两个独立的BP神经网络构成,这两个关键部分的策略梯度方法如下:
对于鉴别器D(参数为ω),将其表示为函数Dω(s,a),其中(s,a)为函数输入的状态动作对的集合,在一次迭代中,根据所述的梯度下降法更新ω,有如下步骤:
(a)将(s,a)←πi,判断网络输出D是否满足结果要求,若是,则结束;若否,则继续
(b)求出梯度中的项;
(c)将(s,a)←πE,求出梯度中的项;
(d)根据BP算法参数更新的方法,更新参数ω,满足
其中η为学习率,代表梯度;
对于策略π生成器G(参数为θ),将其表示为函数Gθ(s,a),其中(s,a)为函数输入的状态动作对的集合,在一次迭代中,根据所述的置信区间的梯度下降法更新θ,有如下步骤:
(a)计算梯度
(b)根据BP算法参数更新的方法,更新参数θ,满足
其中η为学习率,代表梯度;
(c)计算判断是否满足置信区间的条件/>
(d)若满足,则进入下一次迭代,若不满足,则降低η,重新进行操作(b)。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。
Claims (1)
1.基于生成对抗模仿学习的人机协作机器人技能识别方法,其特征在于:包含下列步骤:
(1)明确需要进行的人机协作技能种类;
(2)由人类专家分别进行不同技能种类的演示,并采集演示中的图像信息、数据,做好标定;
(3)用图像处理的手段识别图像信息,提取能够明确区分不同技能种类的有效特征向量,并将其作为示教数据;
(4)利用已经获取的示教数据,通过生成对抗模仿学习的方法,分别对数个鉴别器进行训练,其中鉴别器的个数等于所需要进行判断的技能个数;
(5)训练完成后,提取使用者的数据,利用该数据分别输入不同的鉴别器中,最后输出的最大值所对应的鉴别器,即为技能识别的输出结果;
所述步骤(4)中的所述的生成对抗模仿学习的方法,具体为:
S1写出作为示教数据的特征向量,xE=(x1,x2,...,xn),其中xE为专家示教数据,x1,x2,...,xn分别代表了专家手部重要点位的坐标;
S2初始化策略参数和鉴别器的参数;
S3启动循环迭代,分别用梯度下降法和置信区间的梯度下降法更新策略参数和鉴别器的参数;
S4待测试误差到达指定值时停止训练,即为训练完成;
S5分别对每一个鉴别器执行上述的训练过程;
在所述的生成对抗模仿学习方法中,包含两个关键部分,所述两个关键部分分别为鉴别器D与策略π生成器G,鉴别器D的参数为ω,策略π生成器G的参数为θ,鉴别器D与策略π生成器G分别由两个独立的BP神经网络构成,
对于鉴别器D,将其表示为函数Dω(s,a),其中(s,a)为函数输入的状态动作对的集合,其中,s为坐标,a表示两个相邻坐标的相对位置变化,初始化的策略参数为θ0,初始化的鉴别器的参数为ω0,对i=0,1,2,...启动循环迭代,其中i为循环次数的计数,每次循环加数值1,利用参数θi,生成策略πi和坐标xi,在一次迭代中,对于ωi到ωi+1,根据所述的梯度下降法更新,具体步骤为:
(a)将(s,a)←πi,判断神经网络输出是否满足结果要求,若是,则结束;若否,则继续;
(b)求出梯度中的项;其中/>为分布的估计期望,/>为对ω求梯度,Dω(s,a)为鉴别器在参数ω下的概率密度;
(c)将(s,a)←πE,求出梯度中的项,xE为专家示教数据,πE为专家策略;
(d)根据BP算法参数更新的方法,更新参数ω,满足
其中η为学习率,代表梯度;
对于策略π生成器G,将其表示为函数Gθ(s,a),其中(s,a)为函数输入的状态动作对的集合,在一次迭代中,对于θi到θi+1,根据所述的置信区间的梯度下降法更新θ,包括如下步骤:
(a)计算梯度其中λ为熵正则化的正则化项,H代表熵,/>
(b)根据BP算法参数更新的方法,更新参数θ,满足
其中η为学习率,代表梯度;
(c)计算判断是否满足置信区间的条件其中,Δ为事先给定的常数,/>为在策略/>下的状态访问频率;
(d)若满足,则进入下一次迭代,若不满足,则降低η,重新进行操作步骤(b)。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210451938.XA CN114734443B (zh) | 2022-04-27 | 2022-04-27 | 基于生成对抗模仿学习的人机协作机器人技能识别方法 |
PCT/CN2022/112008 WO2023206863A1 (zh) | 2022-04-27 | 2022-08-12 | 一种基于生成对抗模仿学习的人机协作机器人技能识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210451938.XA CN114734443B (zh) | 2022-04-27 | 2022-04-27 | 基于生成对抗模仿学习的人机协作机器人技能识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114734443A CN114734443A (zh) | 2022-07-12 |
CN114734443B true CN114734443B (zh) | 2023-08-04 |
Family
ID=82284603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210451938.XA Active CN114734443B (zh) | 2022-04-27 | 2022-04-27 | 基于生成对抗模仿学习的人机协作机器人技能识别方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114734443B (zh) |
WO (1) | WO2023206863A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114734443B (zh) * | 2022-04-27 | 2023-08-04 | 东南大学 | 基于生成对抗模仿学习的人机协作机器人技能识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488988A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 基于对抗学习的控制策略模仿学习方法及装置 |
CN111983922A (zh) * | 2020-07-13 | 2020-11-24 | 广州中国科学院先进技术研究所 | 一种基于元模仿学习的机器人演示示教方法 |
CN113379027A (zh) * | 2021-02-24 | 2021-09-10 | 中国海洋大学 | 一种生成对抗交互模仿学习方法、系统、存储介质及应用 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6721785B2 (ja) * | 2016-09-15 | 2020-07-15 | グーグル エルエルシー | ロボット操作のための深層強化学習 |
US11410030B2 (en) * | 2018-09-06 | 2022-08-09 | International Business Machines Corporation | Active imitation learning in high dimensional continuous environments |
US20220105624A1 (en) * | 2019-01-23 | 2022-04-07 | Google Llc | Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning |
CN111203878B (zh) * | 2020-01-14 | 2021-10-01 | 北京航空航天大学 | 一种基于视觉模仿的机器人序列任务学习方法 |
CN111401527B (zh) * | 2020-03-24 | 2022-05-13 | 金陵科技学院 | 基于ga-bp网络的机器人行为校验识别方法 |
CN114734443B (zh) * | 2022-04-27 | 2023-08-04 | 东南大学 | 基于生成对抗模仿学习的人机协作机器人技能识别方法 |
-
2022
- 2022-04-27 CN CN202210451938.XA patent/CN114734443B/zh active Active
- 2022-08-12 WO PCT/CN2022/112008 patent/WO2023206863A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488988A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 基于对抗学习的控制策略模仿学习方法及装置 |
CN111983922A (zh) * | 2020-07-13 | 2020-11-24 | 广州中国科学院先进技术研究所 | 一种基于元模仿学习的机器人演示示教方法 |
CN113379027A (zh) * | 2021-02-24 | 2021-09-10 | 中国海洋大学 | 一种生成对抗交互模仿学习方法、系统、存储介质及应用 |
Non-Patent Citations (1)
Title |
---|
运动意识任务的模式识别方法研究;徐宝国等;《仪器仪表学报》;第32卷(第1期);第13-18页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2023206863A1 (zh) | 2023-11-02 |
CN114734443A (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tanaka et al. | Emd net: An encode–manipulate–decode network for cloth manipulation | |
CN107392255B (zh) | 少数类图片样本的生成方法、装置、计算设备及存储介质 | |
Shi et al. | Adaptive image-based visual servoing with temporary loss of the visual signal | |
Pan et al. | Deep reinforcement learning based optimization algorithm for permutation flow-shop scheduling | |
Song et al. | New chaotic PSO-based neural network predictive control for nonlinear process | |
Billard et al. | Discriminative and adaptive imitation in uni-manual and bi-manual tasks | |
Seo et al. | Rewards prediction-based credit assignment for reinforcement learning with sparse binary rewards | |
CN111652124A (zh) | 一种基于图卷积网络的人体行为识别模型的构建方法 | |
Soh et al. | Spatio-temporal learning with the online finite and infinite echo-state Gaussian processes | |
CN107150347A (zh) | 基于人机协作的机器人感知与理解方法 | |
Cruz et al. | Multi-modal integration of dynamic audiovisual patterns for an interactive reinforcement learning scenario | |
CN107457780B (zh) | 控制机械臂运动的方法及装置、存储介质和终端设备 | |
Wang et al. | Distributed stochastic consensus optimization with momentum for nonconvex nonsmooth problems | |
Lim et al. | Prediction of reward functions for deep reinforcement learning via Gaussian process regression | |
CN111445426B (zh) | 一种基于生成对抗网络模型的目标服装图像处理方法 | |
CN114734443B (zh) | 基于生成对抗模仿学习的人机协作机器人技能识别方法 | |
Cobo et al. | Automatic task decomposition and state abstraction from demonstration | |
Zhang et al. | Learning accurate and stable point-to-point motions: A dynamic system approach | |
Bai et al. | Addressing hindsight bias in multigoal reinforcement learning | |
Qian et al. | Hardness recognition of robotic forearm based on semi-supervised generative adversarial networks | |
Tanaka et al. | Disruption-resistant deformable object manipulation on basis of online shape estimation and prediction-driven trajectory correction | |
CN112308952B (zh) | 模仿给定视频中人物动作的3d角色动作生成系统和方法 | |
Zuo et al. | Off-policy adversarial imitation learning for robotic tasks with low-quality demonstrations | |
Cortes et al. | Coordinated deployment of mobile sensing networks with limited-range interactions | |
de La Bourdonnaye et al. | Stage-wise learning of reaching using little prior knowledge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |