CN112966591B

CN112966591B - 面向机械臂抓取任务的知识图谱深度强化学习迁移系统

Info

Publication number: CN112966591B
Application number: CN202110235809.2A
Authority: CN
Inventors: 李跃; 刘少坤; 高金宝; 邵子平
Original assignee: Hebei College of Industry and Technology
Current assignee: Hebei College of Industry and Technology
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2023-01-20
Anticipated expiration: 2041-03-03
Also published as: CN112966591A

Abstract

本发明涉及一种面向机械臂抓取任务的知识图谱深度强化学习迁移系统，包括工作经验模块、知识图谱先验提取模块、先前工作环境模块、先前工作模型模块、知识图谱模块、模型参数转移模块、当前工作环境模块和智能体。工作经验模块通过知识图谱先验提取模块与知识图谱模块通信联通，知识图谱模块和当前工作环境模块共同向智能体提供状态值，当前工作环境模块向智能体输入奖励值。先前工作环境模块通过先前工作模型模块和模型参数转移模块与智能体通信联通，智能体向当前工作环境模块传送动作指令。本发明使用知识图谱作为领域转移的媒介，提升了应用于机械臂抓取任务领域的深度强化学习方法的探索效率，加快了训练速度。

Description

面向机械臂抓取任务的知识图谱深度强化学习迁移系统

技术领域

本发明属于人工智能技术领域，涉及一种面向机械臂抓取任务的知识图谱深度强化学习迁移系统。

背景技术

深度强化学习是人工智能领域的一个新的研究热点，具有广泛的应用前景。它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制。深度强化学习作为一种解决序列决策的学习方法，通过不断优化控制策略，能够建立一个对环境有更高层次理解的自治系统，从而学得最优策略。

在深度强化学习中，训练好的模型仅适用于当前环境，如果环境做出改变，训练好的模型就需要重新训练。迁移学习，做为一种新的学习范式，被提出用于解决这个问题。迁移学习其目的为将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。主要思想为从相关领域中迁移标注数据或者知识结构、完成或改进目标领域或任务的学习效果。

抓取是机器人走进真实世界必不可少的技能，比如在物流行业中对物体进行分拣，在工业生产线上完成零件的装配等。然而，机器人完成抓取任务仍然存在很多不确定性问题需要进一步研究。因此，如何处理不确定性从而提高抓取的成功率是非常值得研究的问题。抓取过程中的不确定性主要包括待抓取物体的形状不确定，待抓取物体的姿态不确定、机械手的接触点不确定以及物体的质量不确定等。目前，应用于机械臂抓取的深度强化学习方法需要大量的探索，需要进行长时间的训练。并且，在抓取过程中，机械臂抓取的物体具有不确定性的特点，而调整已训练好的模型，也存在耗时问题。

发明内容

本发明的目的是提供一种面向机械臂抓取任务的知识图谱深度强化学习迁移系统，使用知识图谱作为领域转移的媒介，以提升应用于机械臂抓取任务领域的深度强化学习方法的探索效率，加快训练速度。

本发明的技术方案是：面向机械臂抓取任务的知识图谱深度强化学习迁移系统，包括工作经验模块、知识图谱先验提取模块、先前工作环境模块、先前工作模型模块、知识图谱模块、模型参数转移模块、当前工作环境模块和智能体。工作经验模块通过知识图谱先验提取模块与知识图谱模块通信联通，知识图谱模块和当前工作环境模块共同向智能体提供状态值，当前工作环境模块向智能体输入奖励值。先前工作环境模块通过先前工作模型模块和模型参数转移模块与智能体通信联通，智能体向当前工作环境模块传送动作指令。

学习迁移系统的工作过程为：

⑴构建知识图谱模块：首先工作经验模块搜集类工作经验，知识图谱先验提取模块对这些人类经验进行知识图谱进行先验提取，汇总机器人抓取任务工作环境中常见的实体及实体之间的对应关系。根据这些常见对象及对应关系构建知识图谱模块，并作为深度强化学习框架中的状态模型；

⑵构建模型参数转移模块：从先前工作环境模块提取先前相关工作环境中的先前工作模型模块，根据先前工作环境和当前工作环境的相关系数决定模型参数转移模块。根据模型参数转移模块将模型中前N层神经网络参数固定，将剩余层的神经网络参数加入强度不同的高斯噪声，层编码越高的网络参数，加入的高斯噪声越强，并将模型参数转移作为面向机器人抓取任务的深度强化学习初始模型；

⑶构建基于深度强化学习的机械臂抓取模型：参照知识图谱模块从当前工作环境模块中提取相关状态值。将当前工作环境模块和知识图谱模块的状态值送入模型参数转移模块后的初始模型中。智能体根据知识图谱模块状值和奖励值计算出最佳的机器人抓取动作指令。

知识图谱模块以基于机器人抓取任务的RDF三元组知识图谱作为深度强化学习的状态S_t，状态S_t是深度强化学习的重要组成部分，表征机器人当前所处的环境，影响着机器人的抓取行为；状态S_t的定义如下：

S_t＝(N_t，N_obstacle，N_target)

式中：S_t表示状态，N_t表示机器人当前的知识图谱嵌入向量，N_obstacle表示障碍物实体知识图谱嵌入向量，N_target表示目标实体知识图谱嵌入向量；

N＝[n×[E₁×R×E₂]]

其中，N为嵌入向量，n为关系实体个数，E₁为相关实体1，R为实体1和实体2的对应关系，E₂为相关实体2。

模型参数转移模块的模型参数转移分为两个部分，一部分为参数锁定部分，另一部分为加入高斯噪声转移部分。根据先前工作环境模块与当前工作环境模块相关系数等级的不同，动态调整参数锁定区域，相关系数等级和锁定区域范围为正相关关系。加入高斯噪声转移部分根据网络层数的深浅动态调整高斯噪声的强弱；先前工作模型的表达式为：

W’_whole＝W’_fixed+W’_gauss＝W_fixed+ψ(W_gauss)

其中：

式中：W_whole为先前工作模型，W_fixed为参数转移中固定的神经网络参数部分，W_gauss为参数转移中加入高斯噪声的神经网络参数部分，ω为原工作环境与当前工作环境的相关系数，ψ为高斯噪声的强弱函数；f(x)是以神经网络层数为参的分段函数，N_whol是神经网络的总层数。

进行模型参数转移时，首先判别先前工作环境模块与当前工作环境模块的相关系数ω，相关系数ω表示为十个等级，等级越高，相关性越强。

本发明面向机械臂抓取任务的知识图谱深度强化学习迁移系统，使用知识图谱作为领域转移的媒介，提升了应用于机械臂抓取任务领域的深度强化学习方法的探索效率，加快了训练速度。与现有技术相比，本发明的有益效果是：①在机械臂抓取环境下人类日常的经验构建较为全面的知识图谱，通过知识图谱可以给与深度强化学习足够的先验知识，从而让神经网络较快的探索出最优策略以加快训练速度。②设置面向机械臂抓取任务的特定参数转移函数来进行深度强化学习神经网络的参数传递。通过特定的参数转移函数可以减少在参数转移过程中的负迁移的影响，以提高迁移效果，提升探索效率。③将上述两者相结合，融合成为面向机械臂抓取任务的知识图谱深度强化学习迁移方法。

附图说明

图1为本发明面向机械臂抓取任务的知识图谱深度强化学习迁移流程示意图；

图2模型参数转移过程示意图；

图3为机械臂抓取任务的总知识图谱模型示意图；

图4为参数转移函数模型；

其中：1—工作经验模块、2—知识图谱先验提取模块、3—先前工作环境模块、4—先前工作模型模块、5—知识图谱模块、6—模型参数转移模块、7—当前工作环境模块、8—智能体、9—参数锁定部分、10—加入高斯噪声转移部分、S—状态值、R—奖励值、a—动作指令。

具体实施方式

下面结合实施例和附图对本发明进行详细说明。本发明保护范围不限于实施例，本领域技术人员在权利要求限定的范围内做出任何改动也属于本发明保护的范围。

本发明面向机械臂抓取任务的知识图谱深度强化学习迁移系统，如图1所示，包括工作经验模块1、知识图谱先验提取模块2、先前工作环境模块3、先前工作模型模块4、知识图谱模块5、模型参数转移模块6、当前工作环境模块7和智能体8。工作经验模块通过知识图谱先验提取模块与知识图谱模块通信联通，知识图谱模块和当前工作环境模块共同向智能体8提供状态值S，当前工作环境模块向智能体输入奖励值R。先前工作环境模块3通过先前工作模型模块4和模型参数转移模块6与智能体通信联通，智能体向当前工作环境模块传送动作指令a。

本发明面向机械臂抓取任务的知识图谱深度强化学习迁移系统的工作过程为：

⑴构建知识图谱图模块：首先工作经验模块1搜集一定数量的人类工作经验，之后知识图谱先验提取模块2对这些人类经验进行知识图谱进行先验提取，汇总机器人抓取任务工作环境中常见的实体及实体之间的对应关系，比如：机器人主体、机器人末端执行装置、机器人连杆、机器人操作目标、操作目标形状、障碍物和障碍物形状。最后，根据这些常见对象及对应关系构建基于机器人抓取任务的RDF三元组知识图谱模块5，并将此作为深度强化学习框架中的状态模型。本发明使用TransE模型，将知识图谱嵌入机器人抓取工作空间状态中，当机器人选择一个抓取动作之后，机器人会经过知识图谱的关系进行移动。

⑵构建模型参数转移模块：从先前工作环境模块3提取先前相关工作环境中的先前工作模型，根据先前工作环境和当前工作环境的相关系数决定模型参数转移模块6。根据模型参数转移模块6将模型中前N层神经网络参数固定，将剩余层的神经网络参数加入强度不同的高斯噪声，层编码越高的网络参数，加入的高斯噪声越强，并将模型参数转移作为面向机器人抓取任务的深度强化学习初始模型。

⑶构建基于深度强化学习的机械臂抓取模型：参照知识图谱模块5从当前工作环境模块7中提取相关状态值S。将当前工作环境模块7和知识图谱模块(5)的状态值S送入模型参数转移模块6后的初始模型中智能体8根据知识图谱模块状态值S和奖励值R计算出最佳的机器人抓取动作，向当前工作环境模块传送动作指令a。

知识图谱模块以于机器人抓取任务的RDF三元组知识图谱作为深度强化学习的状态S_t，状态S_t是深度强化学习的重要组成部分，表征机器人当前所处的环境，影响着机器人的抓取行为，状态S_t的定义如下：

S_t＝(N_t，N_obstacle，N_target)

N＝[n×[E₁×R×E₂]]

其中，N为嵌入向量，n为关系实体个数，E₁为相关实体1，R为实体1和实体2的对应关系，E₂为相关实体2。在深度强化学习模型中，浅层的网络参数表征更加通用，而深层的网络参数表征更加面向具体的任务。

如图2所示，模型参数转移模块6的模型参数转移分为两个部分，一部分为参数锁定部分9，另一部分为加入高斯噪声转移部分10。根据先前工作环境模块3与当前工作环境模块7相关系数等级的不同，动态调整参数锁定区域，相关系数等级和锁定区域范围为正相关关系。加入高斯噪声转移部分根据网络层数的深浅动态调整高斯噪声的强弱。先前工作模型模块的表达式为：

W’_whole＝W’_fixed+W’_gauss＝W_fixed+ψ(W_gauss)

其中：

如图3所示为机械臂抓取任务的总知识图谱模型图，以机械臂、机械臂末端执行装置和任务目标三个实体为中心，绘制出和机械臂抓取任务常见的相关子实体RDF三元组关系。

在机械臂实体中有：<机械臂，连接，连杆1-N>、<机械臂，连接，关节1-N>、<机械臂，连接，机械臂末端执行装置>、<机械臂，拥有，机械臂位姿>和<机械臂，移动，目标>；

在机械臂末端执行装置中有：<机械臂末端执行装置，连接，机械夹1-M>和<机械臂末端执行装置，抓取，目标>；

在目标中有：<目标，拥有，目标装置1-K>。

负迁移一般是指一种学习对另一种学习起干扰或抑制作用。负迁移通常表现为一种学习使另一种学习所需的学习时间或所需的练习次数增加或阻碍另一种学习的顺利进行以及知识的正确掌握。基于机械臂抓取任务的负迁移现象产生的一个主要原因有两点：①抓取物体形状各异，导致负迁移现象；②机械臂结构不一，导致负迁移现象。如果机械性的迁移，由于抓取物体形状的不同或者机械臂结构的不同，就会导致迁移效果变差，导致训练效果不佳。

如图4所示，为参数转移函数模型图，高斯噪声是指它的概率密度函数服从高斯分布的一类噪声，原模型加入高斯噪声后成为新模型，可以降低过于拟合当前工作环境模型的精准度，并且会保留模型的一定原有属性。过于精准的模型不利于模型的迁移。并且，适当加入高斯噪声，能够在降拟合的基础上，保留原始模型一定的抓取记忆，让智能体对于抓取任务保留一定的印象。

当新模型接触全新的机械臂或者抓取目标时，由于接受了包含一定内在联系的知识图谱，并且在模型转移时保留了之前的模型印象，新模型在训练的时候就能很快的适应新的机械臂或者抓取目标，从而能够有效的提升训练效果，减少训练时间。

Claims

1.一种面向机械臂抓取任务的知识图谱深度强化学习迁移系统，其特征是：所述迁移系统包括工作经验模块(1)、知识图谱先验提取模块(2)、先前工作环境模块(3)、先前工作模型模块(4)、知识图谱模块(5)、模型参数转移模块(6)、当前工作环境模块(7)和智能体(8)；所述工作经验模块通过知识图谱先验提取模块与知识图谱模块通信联通，所述知识图谱模块和当前工作环境模块共同向智能体(8)提供状态值(S)，所述当前工作环境模块向智能体输入奖励值(R)；所述先前工作环境模块(3)通过先前工作模型模块(4)和模型参数转移模块(6)与智能体(8)通信联通，所述智能体向当前工作环境模块传送动作指令(a)；所述学习迁移系统的工作过程为：

⑴构建知识图谱模块：工作经验模块(1)搜集人类工作经验，知识图谱先验提取模块(2)针对人类经验进行知识图谱进行先验提取，汇总机器人抓取任务工作环境中常见的实体及实体之间的对应关系；根据常见对象及对应关系构建基于机器人抓取任务的RDF三元组知识图谱模块(5)，并作为深度强化学习框架中的状态模型；

⑵构建模型参数转移模块：从先前工作环境模块(3)提取先前相关工作环境中的先前工作模型模块(4)，根据先前工作环境和当前工作环境的相关系数决定模型参数转移模块(6)；根据模型参数转移模块(6)将模型中前N层神经网络参数固定，将剩余层的神经网络参数加入强度不同的高斯噪声，层编码越高的网络参数，加入的高斯噪声越强，并将模型参数转移作为面向机器人抓取任务的深度强化学习初始模型；

⑶构建基于深度强化学习的机械臂抓取模型：参照知识图谱模块(5)从当前工作环境模块(7)中提取相关状态值(S)；将当前工作环境模块(7)和知识图谱模块(5)的状态送入模型参数转移模块(6)后的初始模型中；智能体(8)根据知识图谱模块状态值(S)和奖励值(R)计算出最佳的机器人抓取动作指令(a)；

所述模型参数转移模块(6)的模型参数转移分为两个部分，一部分为参数锁定部分(9)，另一部分为加入高斯噪声转移部分(10)；根据先前工作环境模块(3)与当前工作环境模块(7)相关系数等级的不同，动态调整参数锁定区域，相关系数等级和锁定区域范围为正相关关系；加入高斯噪声转移部分根据网络层数的深浅动态调整高斯噪声的强弱；所述先前工作模型模块的表达式为：

W’_whole＝W’_fixed+W’_gauss＝W_fixed+ψ(W_gauss)

其中：

其中x∈N_whole

式中：W_whole为先前工作模型，W_fixed为参数转移中固定的神经网络参数部分，W_gauss为参数转移中加入高斯噪声的神经网络参数部分，ω为原工作环境与当前工作环境的相关系数，ψ为高斯噪声的强弱函数；f(x)是以神经网络层数为参的分段函数，N_whole是神经网络的总层数。

2.根据权利要求1所述的面向机械臂抓取任务的知识图谱深度强化学习迁移系统，其特征是：所述知识图谱模块(5)以基于机器人抓取任务的RDF三元组知识图谱作为深度强化学习的状态(S_t)；所述状态(S_t)是深度强化学习的重要组成部分，表征机器人当前所处的环境，影响着机器人的抓取行为；所述状态S_t的定义如下：

S_t＝(N_t，N_obstacle，N_target)

N＝[n×[E₁×R×E₂]]

3.根据权利要求1所述的面向机械臂抓取任务的知识图谱深度强化学习迁移系统，其特征是：进行模型参数转移时，首先判别先前工作环境模块(3)与当前工作环境模块(7)的相关系数ω，所述相关系数ω表示为十个等级，等级越高，相关性越强。