CN112966591B - 面向机械臂抓取任务的知识图谱深度强化学习迁移系统 - Google Patents
面向机械臂抓取任务的知识图谱深度强化学习迁移系统 Download PDFInfo
- Publication number
- CN112966591B CN112966591B CN202110235809.2A CN202110235809A CN112966591B CN 112966591 B CN112966591 B CN 112966591B CN 202110235809 A CN202110235809 A CN 202110235809A CN 112966591 B CN112966591 B CN 112966591B
- Authority
- CN
- China
- Prior art keywords
- module
- working environment
- knowledge graph
- model
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Manipulator (AREA)
Abstract
本发明涉及一种面向机械臂抓取任务的知识图谱深度强化学习迁移系统,包括工作经验模块、知识图谱先验提取模块、先前工作环境模块、先前工作模型模块、知识图谱模块、模型参数转移模块、当前工作环境模块和智能体。工作经验模块通过知识图谱先验提取模块与知识图谱模块通信联通,知识图谱模块和当前工作环境模块共同向智能体提供状态值,当前工作环境模块向智能体输入奖励值。先前工作环境模块通过先前工作模型模块和模型参数转移模块与智能体通信联通,智能体向当前工作环境模块传送动作指令。本发明使用知识图谱作为领域转移的媒介,提升了应用于机械臂抓取任务领域的深度强化学习方法的探索效率,加快了训练速度。
Description
技术领域
本发明属于人工智能技术领域,涉及一种面向机械臂抓取任务的知识图谱深度强化学习迁移系统。
背景技术
深度强化学习是人工智能领域的一个新的研究热点,具有广泛的应用前景。它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制。深度强化学习作为一种解决序列决策的学习方法,通过不断优化控制策略,能够建立一个对环境有更高层次理解的自治系统,从而学得最优策略。
在深度强化学习中,训练好的模型仅适用于当前环境,如果环境做出改变,训练好的模型就需要重新训练。迁移学习,做为一种新的学习范式,被提出用于解决这个问题。迁移学习其目的为将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。主要思想为从相关领域中迁移标注数据或者知识结构、完成或改进目标领域或任务的学习效果。
抓取是机器人走进真实世界必不可少的技能,比如在物流行业中对物体进行分拣,在工业生产线上完成零件的装配等。然而,机器人完成抓取任务仍然存在很多不确定性问题需要进一步研究。因此,如何处理不确定性从而提高抓取的成功率是非常值得研究的问题。抓取过程中的不确定性主要包括待抓取物体的形状不确定,待抓取物体的姿态不确定、机械手的接触点不确定以及物体的质量不确定等。目前,应用于机械臂抓取的深度强化学习方法需要大量的探索,需要进行长时间的训练。并且,在抓取过程中,机械臂抓取的物体具有不确定性的特点,而调整已训练好的模型,也存在耗时问题。
发明内容
本发明的目的是提供一种面向机械臂抓取任务的知识图谱深度强化学习迁移系统,使用知识图谱作为领域转移的媒介,以提升应用于机械臂抓取任务领域的深度强化学习方法的探索效率,加快训练速度。
本发明的技术方案是:面向机械臂抓取任务的知识图谱深度强化学习迁移系统,包括工作经验模块、知识图谱先验提取模块、先前工作环境模块、先前工作模型模块、知识图谱模块、模型参数转移模块、当前工作环境模块和智能体。工作经验模块通过知识图谱先验提取模块与知识图谱模块通信联通,知识图谱模块和当前工作环境模块共同向智能体提供状态值,当前工作环境模块向智能体输入奖励值。先前工作环境模块通过先前工作模型模块和模型参数转移模块与智能体通信联通,智能体向当前工作环境模块传送动作指令。
学习迁移系统的工作过程为:
⑴构建知识图谱模块:首先工作经验模块搜集类工作经验,知识图谱先验提取模块对这些人类经验进行知识图谱进行先验提取,汇总机器人抓取任务工作环境中常见的实体及实体之间的对应关系。根据这些常见对象及对应关系构建知识图谱模块,并作为深度强化学习框架中的状态模型;
⑵构建模型参数转移模块:从先前工作环境模块提取先前相关工作环境中的先前工作模型模块,根据先前工作环境和当前工作环境的相关系数决定模型参数转移模块。根据模型参数转移模块将模型中前N层神经网络参数固定,将剩余层的神经网络参数加入强度不同的高斯噪声,层编码越高的网络参数,加入的高斯噪声越强,并将模型参数转移作为面向机器人抓取任务的深度强化学习初始模型;
⑶构建基于深度强化学习的机械臂抓取模型:参照知识图谱模块从当前工作环境模块中提取相关状态值。将当前工作环境模块和知识图谱模块的状态值送入模型参数转移模块后的初始模型中。智能体根据知识图谱模块状值和奖励值计算出最佳的机器人抓取动作指令。
知识图谱模块以基于机器人抓取任务的RDF三元组知识图谱作为深度强化学习的状态St,状态St是深度强化学习的重要组成部分,表征机器人当前所处的环境,影响着机器人的抓取行为;状态St的定义如下:
St=(Nt,Nobstacle,Ntarget)
式中:St表示状态,Nt表示机器人当前的知识图谱嵌入向量,Nobstacle表示障碍物实体知识图谱嵌入向量,Ntarget表示目标实体知识图谱嵌入向量;
N=[n×[E1×R×E2]]
其中,N为嵌入向量,n为关系实体个数,E1为相关实体1,R为实体1和实体2的对应关系,E2为相关实体2。
模型参数转移模块的模型参数转移分为两个部分,一部分为参数锁定部分,另一部分为加入高斯噪声转移部分。根据先前工作环境模块与当前工作环境模块相关系数等级的不同,动态调整参数锁定区域,相关系数等级和锁定区域范围为正相关关系。加入高斯噪声转移部分根据网络层数的深浅动态调整高斯噪声的强弱;先前工作模型的表达式为:
W’whole=W’fixed+W’gauss=Wfixed+ψ(Wgauss)
其中:
式中:Wwhole为先前工作模型,Wfixed为参数转移中固定的神经网络参数部分,Wgauss为参数转移中加入高斯噪声的神经网络参数部分,ω为原工作环境与当前工作环境的相关系数,ψ为高斯噪声的强弱函数;f(x)是以神经网络层数为参的分段函数,Nwhol是神经网络的总层数。
进行模型参数转移时,首先判别先前工作环境模块与当前工作环境模块的相关系数ω,相关系数ω表示为十个等级,等级越高,相关性越强。
本发明面向机械臂抓取任务的知识图谱深度强化学习迁移系统,使用知识图谱作为领域转移的媒介,提升了应用于机械臂抓取任务领域的深度强化学习方法的探索效率,加快了训练速度。与现有技术相比,本发明的有益效果是:①在机械臂抓取环境下人类日常的经验构建较为全面的知识图谱,通过知识图谱可以给与深度强化学习足够的先验知识,从而让神经网络较快的探索出最优策略以加快训练速度。②设置面向机械臂抓取任务的特定参数转移函数来进行深度强化学习神经网络的参数传递。通过特定的参数转移函数可以减少在参数转移过程中的负迁移的影响,以提高迁移效果,提升探索效率。③将上述两者相结合,融合成为面向机械臂抓取任务的知识图谱深度强化学习迁移方法。
附图说明
图1为本发明面向机械臂抓取任务的知识图谱深度强化学习迁移流程示意图;
图2模型参数转移过程示意图;
图3为机械臂抓取任务的总知识图谱模型示意图;
图4为参数转移函数模型;
其中:1—工作经验模块、2—知识图谱先验提取模块、3—先前工作环境模块、4—先前工作模型模块、5—知识图谱模块、6—模型参数转移模块、7—当前工作环境模块、8—智能体、9—参数锁定部分、10—加入高斯噪声转移部分、S—状态值、R—奖励值、a—动作指令。
具体实施方式
下面结合实施例和附图对本发明进行详细说明。本发明保护范围不限于实施例,本领域技术人员在权利要求限定的范围内做出任何改动也属于本发明保护的范围。
本发明面向机械臂抓取任务的知识图谱深度强化学习迁移系统,如图1所示,包括工作经验模块1、知识图谱先验提取模块2、先前工作环境模块3、先前工作模型模块4、知识图谱模块5、模型参数转移模块6、当前工作环境模块7和智能体8。工作经验模块通过知识图谱先验提取模块与知识图谱模块通信联通,知识图谱模块和当前工作环境模块共同向智能体8提供状态值S,当前工作环境模块向智能体输入奖励值R。先前工作环境模块3通过先前工作模型模块4和模型参数转移模块6与智能体通信联通,智能体向当前工作环境模块传送动作指令a。
本发明面向机械臂抓取任务的知识图谱深度强化学习迁移系统的工作过程为:
⑴构建知识图谱图模块:首先工作经验模块1搜集一定数量的人类工作经验,之后知识图谱先验提取模块2对这些人类经验进行知识图谱进行先验提取,汇总机器人抓取任务工作环境中常见的实体及实体之间的对应关系,比如:机器人主体、机器人末端执行装置、机器人连杆、机器人操作目标、操作目标形状、障碍物和障碍物形状。最后,根据这些常见对象及对应关系构建基于机器人抓取任务的RDF三元组知识图谱模块5,并将此作为深度强化学习框架中的状态模型。本发明使用TransE模型,将知识图谱嵌入机器人抓取工作空间状态中,当机器人选择一个抓取动作之后,机器人会经过知识图谱的关系进行移动。
⑵构建模型参数转移模块:从先前工作环境模块3提取先前相关工作环境中的先前工作模型,根据先前工作环境和当前工作环境的相关系数决定模型参数转移模块6。根据模型参数转移模块6将模型中前N层神经网络参数固定,将剩余层的神经网络参数加入强度不同的高斯噪声,层编码越高的网络参数,加入的高斯噪声越强,并将模型参数转移作为面向机器人抓取任务的深度强化学习初始模型。
⑶构建基于深度强化学习的机械臂抓取模型:参照知识图谱模块5从当前工作环境模块7中提取相关状态值S。将当前工作环境模块7和知识图谱模块(5)的状态值S送入模型参数转移模块6后的初始模型中智能体8根据知识图谱模块状态值S和奖励值R计算出最佳的机器人抓取动作,向当前工作环境模块传送动作指令a。
知识图谱模块以于机器人抓取任务的RDF三元组知识图谱作为深度强化学习的状态St,状态St是深度强化学习的重要组成部分,表征机器人当前所处的环境,影响着机器人的抓取行为,状态St的定义如下:
St=(Nt,Nobstacle,Ntarget)
式中:St表示状态,Nt表示机器人当前的知识图谱嵌入向量,Nobstacle表示障碍物实体知识图谱嵌入向量,Ntarget表示目标实体知识图谱嵌入向量;
N=[n×[E1×R×E2]]
其中,N为嵌入向量,n为关系实体个数,E1为相关实体1,R为实体1和实体2的对应关系,E2为相关实体2。在深度强化学习模型中,浅层的网络参数表征更加通用,而深层的网络参数表征更加面向具体的任务。
如图2所示,模型参数转移模块6的模型参数转移分为两个部分,一部分为参数锁定部分9,另一部分为加入高斯噪声转移部分10。根据先前工作环境模块3与当前工作环境模块7相关系数等级的不同,动态调整参数锁定区域,相关系数等级和锁定区域范围为正相关关系。加入高斯噪声转移部分根据网络层数的深浅动态调整高斯噪声的强弱。先前工作模型模块的表达式为:
W’whole=W’fixed+W’gauss=Wfixed+ψ(Wgauss)
其中:
式中:Wwhole为先前工作模型,Wfixed为参数转移中固定的神经网络参数部分,Wgauss为参数转移中加入高斯噪声的神经网络参数部分,ω为原工作环境与当前工作环境的相关系数,ψ为高斯噪声的强弱函数;f(x)是以神经网络层数为参的分段函数,Nwhol是神经网络的总层数。
如图3所示为机械臂抓取任务的总知识图谱模型图,以机械臂、机械臂末端执行装置和任务目标三个实体为中心,绘制出和机械臂抓取任务常见的相关子实体RDF三元组关系。
在机械臂实体中有:<机械臂,连接,连杆1-N>、<机械臂,连接,关节1-N>、<机械臂,连接,机械臂末端执行装置>、<机械臂,拥有,机械臂位姿>和<机械臂,移动,目标>;
在机械臂末端执行装置中有:<机械臂末端执行装置,连接,机械夹1-M>和<机械臂末端执行装置,抓取,目标>;
在目标中有:<目标,拥有,目标装置1-K>。
负迁移一般是指一种学习对另一种学习起干扰或抑制作用。负迁移通常表现为一种学习使另一种学习所需的学习时间或所需的练习次数增加或阻碍另一种学习的顺利进行以及知识的正确掌握。基于机械臂抓取任务的负迁移现象产生的一个主要原因有两点:①抓取物体形状各异,导致负迁移现象;②机械臂结构不一,导致负迁移现象。如果机械性的迁移,由于抓取物体形状的不同或者机械臂结构的不同,就会导致迁移效果变差,导致训练效果不佳。
如图4所示,为参数转移函数模型图,高斯噪声是指它的概率密度函数服从高斯分布的一类噪声,原模型加入高斯噪声后成为新模型,可以降低过于拟合当前工作环境模型的精准度,并且会保留模型的一定原有属性。过于精准的模型不利于模型的迁移。并且,适当加入高斯噪声,能够在降拟合的基础上,保留原始模型一定的抓取记忆,让智能体对于抓取任务保留一定的印象。
当新模型接触全新的机械臂或者抓取目标时,由于接受了包含一定内在联系的知识图谱,并且在模型转移时保留了之前的模型印象,新模型在训练的时候就能很快的适应新的机械臂或者抓取目标,从而能够有效的提升训练效果,减少训练时间。
Claims (3)
1.一种面向机械臂抓取任务的知识图谱深度强化学习迁移系统,其特征是:所述迁移系统包括工作经验模块(1)、知识图谱先验提取模块(2)、先前工作环境模块(3)、先前工作模型模块(4)、知识图谱模块(5)、模型参数转移模块(6)、当前工作环境模块(7)和智能体(8);所述工作经验模块通过知识图谱先验提取模块与知识图谱模块通信联通,所述知识图谱模块和当前工作环境模块共同向智能体(8)提供状态值(S),所述当前工作环境模块向智能体输入奖励值(R);所述先前工作环境模块(3)通过先前工作模型模块(4)和模型参数转移模块(6)与智能体(8)通信联通,所述智能体向当前工作环境模块传送动作指令(a);所述学习迁移系统的工作过程为:
⑴构建知识图谱模块:工作经验模块(1)搜集人类工作经验,知识图谱先验提取模块(2)针对人类经验进行知识图谱进行先验提取,汇总机器人抓取任务工作环境中常见的实体及实体之间的对应关系;根据常见对象及对应关系构建基于机器人抓取任务的RDF三元组知识图谱模块(5),并作为深度强化学习框架中的状态模型;
⑵构建模型参数转移模块:从先前工作环境模块(3)提取先前相关工作环境中的先前工作模型模块(4),根据先前工作环境和当前工作环境的相关系数决定模型参数转移模块(6);根据模型参数转移模块(6)将模型中前N层神经网络参数固定,将剩余层的神经网络参数加入强度不同的高斯噪声,层编码越高的网络参数,加入的高斯噪声越强,并将模型参数转移作为面向机器人抓取任务的深度强化学习初始模型;
⑶构建基于深度强化学习的机械臂抓取模型:参照知识图谱模块(5)从当前工作环境模块(7)中提取相关状态值(S);将当前工作环境模块(7)和知识图谱模块(5)的状态送入模型参数转移模块(6)后的初始模型中;智能体(8)根据知识图谱模块状态值(S)和奖励值(R)计算出最佳的机器人抓取动作指令(a);
所述模型参数转移模块(6)的模型参数转移分为两个部分,一部分为参数锁定部分(9),另一部分为加入高斯噪声转移部分(10);根据先前工作环境模块(3)与当前工作环境模块(7)相关系数等级的不同,动态调整参数锁定区域,相关系数等级和锁定区域范围为正相关关系;加入高斯噪声转移部分根据网络层数的深浅动态调整高斯噪声的强弱;所述先前工作模型模块的表达式为:
W’whole=W’fixed+W’gauss=Wfixed+ψ(Wgauss)
其中:
式中:Wwhole为先前工作模型,Wfixed为参数转移中固定的神经网络参数部分,Wgauss为参数转移中加入高斯噪声的神经网络参数部分,ω为原工作环境与当前工作环境的相关系数,ψ为高斯噪声的强弱函数;f(x)是以神经网络层数为参的分段函数,Nwhole是神经网络的总层数。
2.根据权利要求1所述的面向机械臂抓取任务的知识图谱深度强化学习迁移系统,其特征是:所述知识图谱模块(5)以基于机器人抓取任务的RDF三元组知识图谱作为深度强化学习的状态(St);所述状态(St)是深度强化学习的重要组成部分,表征机器人当前所处的环境,影响着机器人的抓取行为;所述状态St的定义如下:
St=(Nt,Nobstacle,Ntarget)
式中:St表示状态,Nt表示机器人当前的知识图谱嵌入向量,Nobstacle表示障碍物实体知识图谱嵌入向量,Ntarget表示目标实体知识图谱嵌入向量;
N=[n×[E1×R×E2]]
其中,N为嵌入向量,n为关系实体个数,E1为相关实体1,R为实体1和实体2的对应关系,E2为相关实体2。
3.根据权利要求1所述的面向机械臂抓取任务的知识图谱深度强化学习迁移系统,其特征是:进行模型参数转移时,首先判别先前工作环境模块(3)与当前工作环境模块(7)的相关系数ω,所述相关系数ω表示为十个等级,等级越高,相关性越强。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110235809.2A CN112966591B (zh) | 2021-03-03 | 2021-03-03 | 面向机械臂抓取任务的知识图谱深度强化学习迁移系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110235809.2A CN112966591B (zh) | 2021-03-03 | 2021-03-03 | 面向机械臂抓取任务的知识图谱深度强化学习迁移系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966591A CN112966591A (zh) | 2021-06-15 |
CN112966591B true CN112966591B (zh) | 2023-01-20 |
Family
ID=76276387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110235809.2A Active CN112966591B (zh) | 2021-03-03 | 2021-03-03 | 面向机械臂抓取任务的知识图谱深度强化学习迁移系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966591B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113741528B (zh) * | 2021-09-13 | 2023-05-23 | 中国人民解放军国防科技大学 | 一种面向多无人机碰撞规避的深度强化学习训练加速方法 |
CN114055451B (zh) * | 2021-11-24 | 2023-07-07 | 深圳大学 | 基于知识图谱的机器人操作技能表达方法 |
CN114888801B (zh) * | 2022-05-16 | 2023-10-13 | 南京邮电大学 | 一种基于离线策略强化学习的机械臂控制方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241291A (zh) * | 2018-07-18 | 2019-01-18 | 华南师范大学 | 基于深度强化学习的知识图谱最优路径查询系统及其方法 |
CN111300390A (zh) * | 2020-03-20 | 2020-06-19 | 苏州大学 | 基于蓄水池采样和双经验池的机械臂智能控制系统 |
CN111581343A (zh) * | 2020-04-24 | 2020-08-25 | 北京航空航天大学 | 基于图卷积神经网络的强化学习知识图谱推理方法及装置 |
CN111618862A (zh) * | 2020-06-12 | 2020-09-04 | 山东大学 | 一种先验知识引导下的机器人操作技能学习系统及方法 |
CN111618847A (zh) * | 2020-04-22 | 2020-09-04 | 南通大学 | 基于深度强化学习与动态运动基元的机械臂自主抓取方法 |
CN112102405A (zh) * | 2020-08-26 | 2020-12-18 | 东南大学 | 基于深度强化学习的机器人搅动-抓取组合方法 |
CN112434171A (zh) * | 2020-11-26 | 2021-03-02 | 中山大学 | 一种基于强化学习的知识图谱推理补全方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109303560A (zh) * | 2018-11-01 | 2019-02-05 | 杭州质子科技有限公司 | 一种基于卷积残差网络和迁移学习的短时心电信号房颤识别方法 |
CN111367282B (zh) * | 2020-03-09 | 2022-06-07 | 山东大学 | 一种基于多模感知与强化学习的机器人导航方法及系统 |
-
2021
- 2021-03-03 CN CN202110235809.2A patent/CN112966591B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241291A (zh) * | 2018-07-18 | 2019-01-18 | 华南师范大学 | 基于深度强化学习的知识图谱最优路径查询系统及其方法 |
CN111300390A (zh) * | 2020-03-20 | 2020-06-19 | 苏州大学 | 基于蓄水池采样和双经验池的机械臂智能控制系统 |
CN111618847A (zh) * | 2020-04-22 | 2020-09-04 | 南通大学 | 基于深度强化学习与动态运动基元的机械臂自主抓取方法 |
CN111581343A (zh) * | 2020-04-24 | 2020-08-25 | 北京航空航天大学 | 基于图卷积神经网络的强化学习知识图谱推理方法及装置 |
CN111618862A (zh) * | 2020-06-12 | 2020-09-04 | 山东大学 | 一种先验知识引导下的机器人操作技能学习系统及方法 |
CN112102405A (zh) * | 2020-08-26 | 2020-12-18 | 东南大学 | 基于深度强化学习的机器人搅动-抓取组合方法 |
CN112434171A (zh) * | 2020-11-26 | 2021-03-02 | 中山大学 | 一种基于强化学习的知识图谱推理补全方法及系统 |
Non-Patent Citations (1)
Title |
---|
"【调参08】:如何通过添加高斯噪声降低过拟合风险";datamonday;《https://blog.csdn.net/weixin_39653948/article/details/105961532》;20200512;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112966591A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966591B (zh) | 面向机械臂抓取任务的知识图谱深度强化学习迁移系统 | |
CN108280856B (zh) | 基于混合信息输入网络模型的未知物体抓取位姿估计方法 | |
CN111300390B (zh) | 基于蓄水池采样和双经验池的机械臂智能控制系统 | |
CN112799386A (zh) | 基于人工势场与强化学习的机器人路径规划方法 | |
CN109960880A (zh) | 一种基于机器学习的工业机器人避障路径规划方法 | |
CN111046948A (zh) | 点云仿真和深度学习的工件位姿识别及机器人上料方法 | |
CN111552183B (zh) | 一种基于自适应权重强化学习的六足机器人避障方法 | |
CN110568140B (zh) | 一种基于机器仿生鱼的污染源探查定位方法 | |
CN114283325B (zh) | 一种基于知识蒸馏的水下目标识别方法 | |
CN111152227A (zh) | 一种基于引导式dqn控制的机械臂控制方法 | |
CN111950722A (zh) | 一种基于环境预测模型的强化学习方法 | |
CN116501030A (zh) | 基于改进人工势场法的自动驾驶车辆路径规划方法 | |
CN114131603B (zh) | 基于感知增强和场景迁移的深度强化学习机器人抓取方法 | |
CN114995390A (zh) | 一种基于动态自适应参数调整的蜉蝣算法的移动机器人路径规划方法 | |
CN105046712A (zh) | 基于适应性高斯差分演化的圆检测方法 | |
CN112857379A (zh) | 一种基于改进的Gmapping-SLAM地图更新方法及系统 | |
CN113110492B (zh) | 一种路径规划方法 | |
CN114169607A (zh) | 基于改进人工鱼群算法的无人靶车路径规划方法 | |
CN114155294A (zh) | 一种基于深度学习的工程机械工作装置位姿估计方法 | |
CN113589810A (zh) | 智能体动态自主避障运动方法、装置、服务器及存储介质 | |
Yu et al. | A novel automated guided vehicle (AGV) remote path planning based on RLACA algorithm in 5G environment | |
CN113305848A (zh) | 一种基于YOLO v2网络的实时抓取检测方法 | |
Zeng et al. | Time image sequence self-encoding statistics to improve visual odometer | |
CN118438457B (zh) | 基于脉冲混合强化学习组装任务的单机械臂运动规划方法 | |
CN117055538A (zh) | 基于改进人工势场的多水下机器人协作方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |