CN112008707A - 一种基于部件分解的机器人控制方法及装置 - Google Patents

一种基于部件分解的机器人控制方法及装置 Download PDF

Info

Publication number
CN112008707A
CN112008707A CN202010814709.0A CN202010814709A CN112008707A CN 112008707 A CN112008707 A CN 112008707A CN 202010814709 A CN202010814709 A CN 202010814709A CN 112008707 A CN112008707 A CN 112008707A
Authority
CN
China
Prior art keywords
robot
trained
moment
action
state information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010814709.0A
Other languages
English (en)
Other versions
CN112008707B (zh
Inventor
余超
董银昭
葛宏伟
陈炳才
孙亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010814709.0A priority Critical patent/CN112008707B/zh
Publication of CN112008707A publication Critical patent/CN112008707A/zh
Application granted granted Critical
Publication of CN112008707B publication Critical patent/CN112008707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/08Programme-controlled manipulators characterised by modular constructions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于部件分解的机器人控制方法及装置,该方法首先获取待控制机器人的整体状态信息,并将整体状态信息输入至动作预测模型中,动作预测模型的动作预测网络预测根据整体状态信息,预测待控制机器人的整体动作信息;最后根据整体动作信息控制待控制机器人运动。动作预测模型包括动作预测网络和若干奖励值网络,在训练动作预测模型时,将待训练机器人的整体状态信息进行结构分解,获得待训练机器人各部件的状态信息,将各部件的状态信息输入至对应的奖励值网络中,以使每一奖励值网络输出对应部件的奖励值,根据各部件的奖励值对动作预测网络的网络参数进行调整。通过实施本发明能够降低了机器人学习的复杂度,增强机器人的控制效果。

Description

一种基于部件分解的机器人控制方法及装置
技术领域
本发明涉及智能机器人领域,尤其涉及一种基于部件分解的机器人控制方法及装置。
背景技术
强化学习(Reinforcement Learning,RL)结合深层神经网络培养了一个新的蓬勃发展的研究领域:深度强化学习(Deep Reinforcement Learning,DRL)。大量的DRL技术在近些年被提出来解决机器人运动中的连续控制问题。然而,由于现有的DRL算法直接在整个高维连续状态/动作中搜索,导致学习效率相当低,进而导致控制效果较差。
发明内容
本发明实施例提供一种基于部件分解的机器人控制方法及装置,能够提高机器人的学习效率,增强了控制效果。
本发明一实施例提供一种基于部件分解的机器人控制方法,包括:
获取待控制机器人的整体状态信息;
将所述待控制机器人的整体状态信息输入至已构建好的动作预测模型中,以使所述动作预测模型,根据所述待控制机器人的整体状态信息预测所述待控制机器人的整体动作信息;其中,所述动作预测模型包括主网络,所述主网络包括一动作预测网络和若干奖励值网络;所述动作预测模型通过所述动作预测网络预测所述待控制机器人的整体动作信息,且在训练所述动作预测模型时,将待训练机器人的整体状态信息进行结构分解,获得所述待训练机器人各部件的状态信息,并将所述待训练机器人各部件的状态信息输入至对应的奖励值网络中,以使每一所述奖励值网络输出所述待训练机器人对应部件的奖励值,继而根据所述待训练机器人各部件的奖励值对所述动作预测网络的网络参数进行调整;
根据所述待控制机器人的整体动作信息控制所述待控制机器人运动。
进一步地,所述动作预测模型包括:目标网络其中,目标网络包括一目标动作预测网络和若干目标奖励值网络;待训练机器人的每一部件与一目标奖励值网络相对应。
进一步地,所述动作预测模型的构建方法包括:
从样本数据库中,获取待训练机器人的连续运动信息;所述连续运动信息包括:所述待训练机器人在第一时刻的第一整体动作信息、第一整体状态信息、第一整体奖励值以及在第二时刻的第二整体状态信息;
对所述第一整体动作信息、第一整体状态信息、以及第二整体状态信息进行结构分解,获得待训练机器人的各部件在第一时刻的第一实际动作信息、在第一时刻的第一实际状态信息以及在第二时刻的第二实际状态信息;
构建所述待训练机器人的各所述部件对应的协同图,并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数;
以所述第一整体状态信息为输入,以待训练机器人在第一时刻的整体预测动作信息为输出,根据动作预测网络参数,构建所述动作预测网络;
以各所述第一实际状态信息以及所述待训练机器人的各部件在第一时刻的动作信息为输入,以各部件在第一时刻的奖励值为输出,根据奖励值网络参数,构建所述奖励值网络;其中,所述待训练机器人的各部件在第一时刻的动作信息包括各所述第一实际动作信息或各第一预测动作信息;各所述第一预测动作信息通过对所述待训练机器人在第一时刻的整体预测动作信息进行结构分解后得到;
以所述第一整体状态信息为输入,以待训练机器人在第二时刻的整体预测动作信息为输出,根据目标动作预测网络参数,构建所述目标动作预测网络;
以各所述第二实际状态信息以及所述待训练机器人的各部件在第二时刻的动作信息为输入,以各部件在第二时刻的奖励值为输出,根据目标奖励值网络参数,构建所述目标奖励值网络;其中,所述待训练机器人的各部件在第二时刻的动作信息包括第二预测动作信息;所述第二预测动作信息通过对所述待训练机器人在第二时刻的整体预测动作信息进行结构分解后得到;
根据所述待训练机器人的各部件的权重系数、各部件在第一时刻的奖励值、各部件在第二时刻的奖励值以及所述第一整体奖励值,更新所述动作预测网络参数、所述奖励值网络参数、所述目标动作预测网络参数以及所述目标奖励值网络参数。
进一步地,所述构建所述待训练机器人的各所述部件对应的协同图,并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数,具体包括:
以所述待训练机器人中一部件在第一时刻的状态信息为输入,以所述待训练机器人中其余部件在第二时刻的预测状态信息为输出,构建预测器;
通过所述预测器对所述待训练机器人中各部件在第二时刻的状态信息进行预测,获得各部件在第二时刻的预测状态信息
计算各部件在第二时刻的实际状态信息与各部件在第二时刻的预测状态信息的预测误差,并对预测误差进行归一化处理,生成每一部件的稀疏的协同图;
获取各所述稀疏协同图对应的邻接矩阵,并通过待训练机器人的物理结构所对应的邻接矩阵,对各所述稀疏协同矩阵的邻接矩阵进行校正,将校正后的各邻接矩阵,作为各所述部件的协同矩阵;
根据各所述所述部件的协同矩阵计算各部件的权重系数。
在上述方法项实施例的基础上,对应提供了装置项实施例:
本发明另一实施例提供了一种基于部件分解的机器人控制装置,包括数据获取模块、动作预测模块以及运动控制模块;
所述数据获取模块,用于获取待控制机器人的整体状态信息;
所述动作预测模块,用于将所述待控制机器人的整体状态信息输入至已构建好的动作预测模型中,以使所述动作预测模型,根据所述待控制机器人的整体状态信息预测所述待控制机器人的整体动作信息;其中,所述动作预测模型包括主网络,所述主网络包括一动作预测网络和若干奖励值网络;所述动作预测模型通过所述动作预测网络预测所述待控制机器人的整体动作信息,且在训练所述动作预测模型时,将待训练机器人的整体状态信息进行结构分解,获得所述待训练机器人各部件的状态信息,并将所述待训练机器人各部件的状态信息输入至对应的奖励值网络中,以使每一所述奖励值网络输出所述待训练机器人对应部件的奖励值,继而根据所述待训练机器人各部件的奖励值对所述动作预测网络的网络参数进行调整;
所述运动控制模块,用于根据所述待控制机器人的整体动作信息控制所述待控制机器人运动。
进一步的,所述动作预测模型包括:主网络和目标网络;其中,所述主网络包括一动作预测网络和若干奖励值网络;所述目标网络包括一目标动作预测网络和若干目标奖励值网络;待训练机器人的每一部件与一奖励值网络以及一目标奖励值网络相对应。
进一步地,还包括动作预测模型构建模块;所述动作预测模型构建模块,用于通过以下方法构建所述动作预测模型:
从样本数据库中,获取待训练机器人的连续运动信息;所述连续运动信息包括:所述待训练机器人在第一时刻的第一整体动作信息、第一整体状态信息、第一整体奖励值以及在第二时刻的第二整体状态信息;
对所述第一整体动作信息、第一整体状态信息、以及第二整体状态信息进行结构分解,获得待训练机器人的各部件在第一时刻的第一实际动作信息、在第一时刻的第一实际状态信息以及在第二时刻的第二实际状态信息;
构建所述待训练机器人的各所述部件对应的协同图,并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数;
以所述第一整体状态信息为输入,以待训练机器人在第一时刻的整体预测动作信息为输出,根据动作预测网络参数,构建所述动作预测网络;
以各所述第一实际状态信息以及所述待训练机器人的各部件在第一时刻的动作信息为输入,以各部件在第一时刻的奖励值为输出,根据奖励值网络参数,构建所述奖励值网络;其中,所述待训练机器人的各部件在第一时刻的动作信息包括各所述第一实际动作信息或各第一预测动作信息;各所述第一预测动作信息通过对所述待训练机器人在第一时刻的整体预测动作信息进行结构分解后得到;
以所述第一整体状态信息为输入,以待训练机器人在第二时刻的整体预测动作信息为输出,根据目标动作预测网络参数,构建所述目标动作预测网络;
以各所述第二实际状态信息以及所述待训练机器人的各部件在第二时刻的动作信息为输入,以各部件在第二时刻的奖励值为输出,根据目标奖励值网络参数,构建所述目标奖励值网络;其中,所述待训练机器人的各部件在第二时刻的动作信息包括第二预测动作信息;所述第二预测动作信息通过对所述待训练机器人在第二时刻的整体预测动作信息进行结构分解后得到;
根据所述待训练机器人的各部件的权重系数、各部件在第一时刻的奖励值、各部件在第二时刻的奖励值以及所述第一整体奖励值,更新所述动作预测网络参数、所述奖励值网络参数、所述目标动作预测网络参数以及所述目标奖励值网络参数。
进一步地,构建所述待训练机器人的各所述部件对应的协同图,并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数,具体包括:
以所述待训练机器人中一部件在第一时刻的状态信息为输入,以所述待训练机器人中其余部件在第二时刻的预测状态信息为输出,构建预测器;
通过所述预测器对所述待训练机器人中各部件在第二时刻的状态信息进行预测,获得各部件在第二时刻的预测状态信息
计算各部件在第二时刻的实际状态信息与各部件在第二时刻的预测状态信息的预测误差,并对预测误差进行归一化处理,生成每一部件的稀疏的协同图;
获取各所述稀疏协同图对应的邻接矩阵,并通过待训练机器人的物理结构所对应的邻接矩阵,对各所述稀疏协同矩阵的邻接矩阵进行校正,将校正后的各邻接矩阵,作为各所述部件的协同矩阵;
根据各所述所述部件的协同矩阵计算各部件的权重系数。
通过实施本发明实施例,具有如下有益效果:
本发明实施例提供了一种基于部件分解的机器人控制方法及装置,所述方法首先获取待控制机器人的整体状态信息,然后输入到构建好的动作预测模型中,动作预测模型将会通过内部的动作预测网络输出整体动作信息,最后根据整体动作信息控制待控制机器人的运动,与现有技术相比,本发明在训练动作预测模型时,将待训练机器人的整体状态信息进行结构分解,从而获得各个部件的状态信息,然后将各部件的状态信息输入至对应的奖励值网络,由对应的奖励值网络输出对应部件的建立值,最后根据各部件的奖励值来对动作预测网络的网络参数进行调整。这样在整个训练的过程中,将待训练机器人的整体状态信息,分解为各个部件的状态信息,从而将全局状态分解各个局部状态,使得每个部件在二维状态空间和一维状态空间进行决策,从而实现了高纬空间学习向低维空间学习的转换,大大降低了机器学习的复杂度,提高了学习效率,从而使得使用上述训练方法训练得到的动作预测模型进行机器人控制时,机器人能够更快速的作出反馈,增强了控制效果。
附图说明
图1是本发明一实施例提供的一种基于部件分解的机器人控制方法的流程示意图。
图2是本发明一实施例提供的一种基于部件分解的机器人控制方法中动作预测模型的结构示意图。
图3是本发明一实施例提供的一种基于部件分解的机器人控制方法中协同图模型原理示意图。
图4是本发明一实施例提供的Walker机器人的结构分解示意图。
图5是本发明一实施例提供的超参数控制协同图每个结点边在不同数量下Walker机器人的累积奖励值统计图。
图6是本发明一实施例提供的动作预测模型与现有其他DRL算法所构建的模型在Walker机器人的平均奖励值的比对示意图。
图7是本发明一实施例提供的动作预测模型与现有其他DRL算法所构建的模型在Walker机器人的累积奖励值的比对示意图。
图8是本发明一实施例提供的Walker机器人在开始移动时各部件的权重。
图9是本发明一实施例提供的Walker机器人在奔跑时各部件的权重。
图10是本发明一实施例提供基于部件分解的机器人控制装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一实施例提供了一种基于部件分解的机器人控制方法,包括:
步骤S101:获取待控制机器人的整体状态信息。
步骤S102:将所述待控制机器人的整体状态信息输入至已构建好的动作预测模型中,以使所述动作预测模型,根据所述待控制机器人的整体状态信息预测所述待控制机器人的整体动作信息;其中,所述动作预测模型包括主网络,所述主网络包括一动作预测网络和若干奖励值网络;所述动作预测模型通过所述动作预测网络预测所述待控制机器人的整体动作信息,且在训练所述动作预测模型时,将待训练机器人的整体状态信息进行结构分解,获得所述待训练机器人各部件的状态信息,并将所述待训练机器人各部件的状态信息输入至对应的奖励值网络中,以使每一所述奖励值网络输出所述待训练机器人对应部件的奖励值,继而根据所述待训练机器人各部件的奖励值对所述动作预测网络的网络参数进行调整。
步骤S103:根据所述待控制机器人的整体动作信息控制所述待控制机器人运动。
对于步骤S101、在本发明中待控制机器人可视为由若干个部件组成,每个部件均视为一个智能体,上述待控制机器人的整体状态信息可以理解为马尔可夫决策过程中的状态要素。在本发明中先定义上述机器人的马尔科夫决策过程,该马尔可夫决策过程定义为一个数组:<S,A,P,R>,其中S,A,P和R分别代表机器人状态,动作、转移概率和奖励值的集合。P(s′|s,a)表示机器人从当前状态s采取动作a跳转到下一步状态s′的转移概率。
对于步骤S102、首先对动作预测模型进行说明如图2所示,在一个优选的实施例中,所述动作预测模型还包括:目标网络;其中,目标网络包括一目标动作预测网络和若干目标奖励值网络;待训练机器人的每一部件与一目标奖励值网络相对应。
在一个优先的实施例中,所述动作预测模型的构建方法包括:
从样本数据库中,获取待训练机器人的连续运动信息;所述连续运动信息包括:所述待训练机器人在第一时刻的第一整体动作信息、第一整体状态信息、第一整体奖励值以及在第二时刻的第二整体状态信息;
对所述第一整体动作信息、第一整体状态信息、以及第二整体状态信息进行结构分解,获得待训练机器人的各部件在第一时刻的第一实际动作信息、在第一时刻的第一实际状态信息以及在第二时刻的第二实际状态信息;
构建所述待训练机器人的各所述部件对应的协同图,并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数;
以所述第一整体状态信息为输入,以待训练机器人在第一时刻的整体预测动作信息为输出,根据动作预测网络参数,构建所述动作预测网络;
以各所述第一实际状态信息以及所述待训练机器人的各部件在第一时刻的动作信息为输入,以各部件在第一时刻的奖励值为输出,根据奖励值网络参数,构建所述奖励值网络;其中,所述待训练机器人的各部件在第一时刻的动作信息包括各所述第一实际动作信息或各第一预测动作信息;各所述第一预测动作信息通过对所述待训练机器人在第一时刻的整体预测动作信息进行结构分解后得到;
以所述第一整体状态信息为输入,以待训练机器人在第二时刻的整体预测动作信息为输出,根据目标动作预测网络参数,构建所述目标动作预测网络;
以各所述第二实际状态信息以及所述待训练机器人的各部件在第二时刻的动作信息为输入,以各部件在第二时刻的奖励值为输出,根据目标奖励值网络参数,构建所述目标奖励值网络;其中,所述待训练机器人的各部件在第二时刻的动作信息包括第二预测动作信息;所述第二预测动作信息通过对所述待训练机器人在第二时刻的整体预测动作信息进行结构分解后得到;
根据所述待训练机器人的各部件的权重系数、各部件在第一时刻的奖励值、各部件在第二时刻的奖励值以及所述第一整体奖励值,更新所述动作预测网络参数、所述奖励值网络参数、所述目标动作预测网络参数以及所述目标奖励值网络参数。
需要说明的是,上述待训练机器人可以是待控制机器人,上述第二时刻为第一时刻的下一时刻。
以下对整个动作预测模型进行具体的说明:
首先从样本数据库(即附图2和附图3中所示的记忆库)中随机采样一条固定步长的待训练机器人的连续运动轨迹:<si,ai,ri,si+1>,其中i代表时间步,si,ai和ri分别代表在第i时间步时(上述第一时刻),待训练机器人的状态,动作和奖励值,si+1表示第i+1时间步时(上述第二时刻)待训练机器人的状态。
根据待训练机器人的物理结构,将待训练机器人分解为各个部件,每个部件代表一独立的智能体(在本发明后续的描述中以智能体来表示机器人的部件),通过结构分解器对上述si、ai、si+1进行结构分解:
例如:
Figure BDA0002632256110000101
Figure BDA0002632256110000102
Divide表示结构分解器,
Figure BDA0002632256110000103
Figure BDA0002632256110000104
分别表示第个l智能体在第i步的状态和动作信息,
Figure BDA0002632256110000105
代表被所有智能体共享的状态信息,n是智能体(部件)的数量。
紧接着,通过一个协同图来建模不同智能体之间的依赖关系,并计算每个智能体的权重。协同图可以表示为:
G=(V,W) (2)
其中V={Al|l∈[1,n]}表示一系列智能体的集合,Ak代表第k个智能体,W是中每个边权重的集合,wkj代指第j个智能体对第个k智能体的权的权重。通过各智能体的权重系数来表示依赖关系。
则每个智能体的Al的权重可以计算为:
Figure BDA0002632256110000111
搭建训练网络,首先,搭建一个主网络用于预估机器人的行为和奖励值。主网络包括一个Actor(上述动作预测网络,在附图2中,主网络部分的Actor代表上述动作预测网络,目标网络的Actor表示上述目标动作预测网络)和n个Critic(上述奖励值网络,在附图2中,主网络部分的Critic代表上述奖励值网络,目标网络的Critic表示上述目标奖励值网络)。
动作预测网络的目的是学习一个待训练机器人的行为策略μ(s|θμ)。它以整个待训练机器人的状态s(上述第一整体状态信息)作为输入,输出整个机待训练器人的预估动作(上述待训练机器人在第一时刻的整体预测动作信息),表示为:
aμ=μ(s|θμ)
Figure BDA0002632256110000112
其中θμ代表动作预测网络中的所有网络参数,
Figure BDA0002632256110000113
代表第l个智能体的预估动作。
每个智能体有一个对应的奖励值网络,每个奖励值网络的可以用于预测每个智能体的局部奖励值。它输入智能体的状态sk和动作ak,输出局部奖励值
Figure BDA0002632256110000114
其中
Figure BDA0002632256110000115
代表第l个奖励值网络所有网络参数。在本发明中,奖励值网络可以输入智能体的实际状态信息(上述第一实际状态信息)及实际动作信息(上述第一实际动作信息),从而输出实际的局部奖励值,也可以输入智能体的实际状态信息及预测动作信息(上述第一预测动作信息),从而输出预估的局部奖励值。
同样建立一个与主网络结构完全一致的目标网络,目标网络包括一个目标动作预测网络和n个目标奖励值网络;目标动作预测网络的网络参数为:θμ′
第K个目标奖励值网络的网络参数为
Figure BDA0002632256110000121
上述网络构建完毕之后,通过以下公式计算整个动作预测模型的在时间步i时的全局奖励值Qcur
Figure BDA0002632256110000122
Figure BDA0002632256110000123
分别表示i时刻第l个智能体的权重(由上文所述的通过协同图求得)
Figure BDA0002632256110000124
表示i时刻第l个智能体的局部奖励值(由主网络的奖励值网络输出)。
然后,通过以下公式计算时间步i时的预估全局奖励值Qpre
Figure BDA0002632256110000125
其中,
Figure BDA0002632256110000126
表示i时刻第l个智能体的预估动作(由对主网络中的动作预测网络得到的整体预测动作进行结构分解后得到);
Figure BDA0002632256110000127
表示i时刻第l个智能体的预估局部奖励值(由主网络的奖励值网络输出)。
紧接着,通过以下公式计算时间步i+1时的预估未来全局奖励值Qnex
Figure BDA0002632256110000128
其中,
Figure BDA0002632256110000129
表示i+1时刻第l个智能体的权重,
Figure BDA00026322561100001210
表示i+1时刻第l个智能体的预估动作(由对目标网络的目标预测网络得到的整体预测动作进行结构分解后得到),
Figure BDA00026322561100001211
表示i+1时刻第l个智能体的和预估局部奖励值(由目标网络的目标奖励值网络输出)。
紧接着对上述各个网络的参数进行更新:
首先,更新主网络的参数:
动作预测网络的目的是学习一个机器人的最优行为策略。它可以对参数θμ求导来最大化折扣回报J:
θμJ=θμμ(siμ)aμQpre (8)
奖励值网络的目的是最小化奖励值误差,即每个奖励值网络都通过更新参数
Figure BDA0002632256110000131
来最小化损失L,具体如下:
L=(ri+γQnex-Qcur)2 (9)
其中,ri是当前的奖励值(即上述第一整体奖励值);γ是奖励值衰减。
然后,更新目标网络的参数:
目标网络中每个目标奖励值网络的参数
Figure BDA0002632256110000132
和目标动作预测网络的参数θμ′分别按照以下公式更新:
Figure BDA0002632256110000133
θμ′←τθμ+(1-τ)θμ′ (11)
至此上述动作预测模型构建完成;
对于步骤S103、当待训练机器人与环境进行交互,当前时间步t时,机器人根据主网络得到的最新的行为策略μ(s|θμ)选择动作,按照公式(12)执行动作:
at=μ(stμ)+N (12)
其中,N为一个随机数。
机器人与环境交互并获得t+1步的状态st+1和奖励值rt
以下对各部件对应的协同图,以及各部件的权重系数进行说明:
在一个优选的实施例中,所述构建所述待训练机器人的各所述部件对应的协同图,并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数,具体包括:
以所述待训练机器人中一部件在第一时刻的状态信息为输入,以所述待训练机器人中其余部件在第二时刻的预测状态信息为输出,构建预测器;
通过所述预测器对所述待训练机器人中各部件在第二时刻的状态信息进行预测,获得各部件在第二时刻的预测状态信息
计算各部件在第二时刻的实际状态信息与各部件在第二时刻的预测状态信息的预测误差,并对预测误差进行归一化处理,生成每一部件的稀疏的协同图;
获取各所述稀疏协同图对应的邻接矩阵,并通过待训练机器人的物理结构所对应的邻接矩阵,对各所述稀疏协同矩阵的邻接矩阵进行校正,将校正后的各邻接矩阵,作为各所述部件的协同矩阵;
根据各所述所述部件的协同矩阵计算各部件的权重系数。
在本发明中利用一个可预测的协同图(Prediction coordination graph,PCG)模型获得机器人中不同智能体的协同图。图3展示了PCG模型具体结构及流程。
PCG模型首先将当前智能体Al的第i步的状态
Figure BDA0002632256110000141
输入给一个预测器Pin,输出下一步其他智能体的预测状态。然后,PCG利用每个智能体的预测状态和实际状态来计算预测误差Elj,计算如下:
Figure BDA0002632256110000142
其中
Figure BDA0002632256110000143
Figure BDA0002632256110000144
分别表示智能体Ak在i+1步的真实状态和预测状态。
为了降低协同图的结构复杂性,PCG首先筛选出每个智能体的K个最高的预测误差,未被选择的预测误差化为零,其中K∈[1,n-1]。K表示超参数控制协同图每个结点边的数量。然后,将筛选后的预测误差进行归一化处理,即:
Figure BDA0002632256110000151
归一化处理后,可以构建一个稀疏的协同图GK-PCG,假设WK-PCG为GK-PCG的邻接矩阵。
为了同时考虑机器人的物理结构的信息,PCG利用机器人的物理结构的邻接矩阵WP来矫正WK-PCG,从而获得更加合理的邻接矩阵WPCG,如下:
WPCG=ηWK-PCG+(1-η)*Wp
其中η是一个偏差参数。
获得PCG求得的拓扑图后,根据上述利用公式(3)可以求得每个智能体对应的权重。
为更好的说明上述方案以下以一个Walker机器人为例进行详细的说明:
首先定义Walker机器人的马尔科夫决策过程。Walker是一个具有包括17维状态信息和6维动作信息的平面双足机器人。状态s,动作a和奖励值r分别可以表示为:
Figure BDA0002632256110000152
其中Pm(m∈[0,7])表示机器人的位置、Vn(n∈[8,16]),表示机器人的速度al(l∈[0,5])表示机器人关节(部件)的角度、vx表示机器人的前进的速度。当机器人的高度Zbody<0.8或Zbody>2,或机器人的前倾的角度|θy|>1时,机器人将会停止运动。
从样本数据库中,采集一条连续轨迹:<si,ai,ri,si+1>,其中i∈[1,64]。
将Walker机器人分解为6个不同的智能体,Ak|k∈[1,6]。如图4中的(a)和(b)所示;然后通过结构分解器对整体的状态信息和动作信息进行结构分解,分解结果如表1所示:
智能体 状态 动作
A<sub>1</sub> (P<sub>2</sub>,V<sub>11</sub>) (a<sub>0</sub>)
A<sub>2</sub> (P<sub>3</sub>,V<sub>12</sub>) (a<sub>1</sub>)
A<sub>4</sub> (P<sub>4</sub>,V<sub>13</sub>) (a<sub>2</sub>)
A<sub>4</sub> (P<sub>5</sub>,V<sub>14</sub>) (a<sub>3</sub>)
A<sub>5</sub> (P<sub>6</sub>,V<sub>15</sub>) (a<sub>4</sub>)
A<sub>6</sub> (P<sub>7</sub>,V<sub>16</sub>) (a<sub>5</sub>)
表1 Walker机器人分解后状态和动作信息
经过分解后,每个智能体在二维的状态空间和一维的动作空间中进行决策。这和直接在原始的状态/动作空间中搜索相比,大大降低了复杂度。
紧接着利用一个可预测的协同图模型获得Walker机器人中不同智能体的协同图(具体步骤与上文描述的一致,不再叙述)。
然后利用主网络、目标网络及智能体的权重信息(上文公式(5),(6)和(7)),分别计算Qcur,Qpre和Qnex
主网络和目标网络中Actor和任意一个Critic的结构的示意如表2所示:
神经网络 输入 第一隐藏层 第二隐藏层 输出
Actor 17 400 300 6
Critic 2 64 1
表2主网络和目标网络中Actor和任意一个Critic的结构
计算L和θμJ,分别更新主网络的Actor和Critic。再利用公式(10)和(11)分别更新目标网络的Actor和Critic。在训练过程中,通过不断更新协同图模型中的预测器Pin,以便获得更加精准的智能体权重信息;预测器Pin为一个三层神经网络其中输入层为2个神经元,隐藏层有128个神经元,输出层有6*2个神经元;奖励值衰减γ=0.99;学习率α=0.001。同时Walker机器人通过最小化损失函数Lρ来优化预测器,如下:
Figure BDA0002632256110000171
Walker机器人根据公式(12)执行动作,当它跌倒或者时间步达到300时,一个学习回合结束。
执行一次任务时,重复上述步骤训练Walker机器人。当训练回合为1500时,结束训练。
训练完成后,获取一个Walker机器人的整体状态信息,然后输入至动作预测网络模型中,即可输出Walker机器人的整体动作信息;然后根据整体动作信息控制Walker机器人运动。
图5显示了本申请所公开的动作预测模型(图中的D3PG-PCG)中超参数控制协同图每个结点边在不同数量下的学习性能,当K最大时不能保证最好的学习效率,而K=3时具有最高的累积奖励值。因此,利用较小的K值可以进一步减小算法的计算复杂度。
图6展示出本申请所公开的动作预测模型(图中的D3PG-PCG)与不同DRL算法在Walker机器人中平均奖励值的对比,从图6可看出本申请所公开的动作预测模型可以取得比其他算法更快的收敛速度。
图7展示出本申请所公开的动作预测模型(图中的D3PG-PCG)与不同DRL算法在Walker机器人中累积奖励值的对比,从图中可以看出本申请所公开的动作预测模型具有最高的累积奖励值。
图8显示了Walker机器人中不同智能体在开始移动时的权重;图9显示了Walker机器人中不同智能体保持奔跑时的权重。在开始移动时,两只脚扮演着着最重要和最稳定的角色。然而,其他的智能体的权重不断的变化以维持不同姿势下机器人的平稳行走。当机器人不断奔跑时时,双足仍然是最重要的部分,其次是大腿然后膝盖。综上,当机器人可以平稳的移动时,各智能体的权重趋于稳定。但在开始的移动过程中,需要不断的动态变化每隔智能体的权重来协调不同姿势的机器人。
在上述方法项实施例的基础上,本发明对应提供了装置项实施例;
如图10所示,本发明一实施例提供了一种基于部件分解的机器人控制装置,包括:数据获取模块、动作预测模块以及运动控制模块;
所述数据获取模块,用于获取待控制机器人的整体状态信息;
所述动作预测模块,用于将所述待控制机器人的整体状态信息输入至已构建好的动作预测模型中,以使所述动作预测模型,根据所述待控制机器人的整体状态信息预测所述待控制机器人的整体动作信息;其中,所述动作预测模型包括主网络,所述主网络包括一动作预测网络和若干奖励值网络;所述动作预测模型通过所述动作预测网络预测所述待控制机器人的整体动作信息,且在训练所述动作预测模型时,将待训练机器人的整体状态信息进行结构分解,获得所述待训练机器人各部件的状态信息,并将所述待训练机器人各部件的状态信息输入至对应的奖励值网络中,以使每一所述奖励值网络输出所述待训练机器人对应部件的奖励值,继而根据所述待训练机器人各部件的奖励值对所述动作预测网络的网络参数进行调整;
所述运动控制模块,用于根据所述待控制机器人的整体动作信息控制所述待控制机器人运动。
在一个优选的实施例中,所述动作预测模型还包括:目标网络;其中,目标网络包括一目标动作预测网络和若干目标奖励值网络;待训练机器人的每一部件与一目标奖励值网络相对应。
在一个优选的实施例中,还包括动作预测模型构建模块;所述动作预测模型构建模块,用于通过以下方法构建所述动作预测模型:
从样本数据库中,获取待训练机器人的连续运动信息;所述连续运动信息包括:所述待训练机器人在第一时刻的第一整体动作信息、第一整体状态信息、第一整体奖励值以及在第二时刻的第二整体状态信息;
对所述第一整体动作信息、第一整体状态信息、以及第二整体状态信息进行结构分解,获得待训练机器人的各部件在第一时刻的第一实际动作信息、在第一时刻的第一实际状态信息以及在第二时刻的第二实际状态信息;
构建所述待训练机器人的各所述部件对应的协同图,并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数;
以所述第一整体状态信息为输入,以待训练机器人在第一时刻的整体预测动作信息为输出,根据动作预测网络参数,构建所述动作预测网络;
以各所述第一实际状态信息以及所述待训练机器人的各部件在第一时刻的动作信息为输入,以各部件在第一时刻的奖励值为输出,根据奖励值网络参数,构建所述奖励值网络;其中,所述待训练机器人的各部件在第一时刻的动作信息包括各所述第一实际动作信息或各第一预测动作信息;各所述第一预测动作信息通过对所述待训练机器人在第一时刻的整体预测动作信息进行结构分解后得到;
以所述第一整体状态信息为输入,以待训练机器人在第二时刻的整体预测动作信息为输出,根据目标动作预测网络参数,构建所述目标动作预测网络;
以各所述第二实际状态信息以及所述待训练机器人的各部件在第二时刻的动作信息为输入,以各部件在第二时刻的奖励值为输出,根据目标奖励值网络参数,构建所述目标奖励值网络;其中,所述待训练机器人的各部件在第二时刻的动作信息包括第二预测动作信息;所述第二预测动作信息通过对所述待训练机器人在第二时刻的整体预测动作信息进行结构分解后得到;
根据所述待训练机器人的各部件的权重系数、各部件在第一时刻的奖励值、各部件在第二时刻的奖励值以及所述第一整体奖励值,更新所述动作预测网络参数、所述奖励值网络参数、所述目标动作预测网络参数以及所述目标奖励值网络参数。
在一个优选的实施例中,所述构建所述待训练机器人的各所述部件对应的协同图,并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数,具体包括:
以所述待训练机器人中一部件在第一时刻的状态信息为输入,以所述待训练机器人中其余部件在第二时刻的预测状态信息为输出,构建预测器;
通过所述预测器对所述待训练机器人中各部件在第二时刻的状态信息进行预测,获得各部件在第二时刻的预测状态信息
计算各部件在第二时刻的实际状态信息与各部件在第二时刻的预测状态信息的预测误差,并对预测误差进行归一化处理,生成每一部件的稀疏的协同图;
获取各所述稀疏协同图对应的邻接矩阵,并通过待训练机器人的物理结构所对应的邻接矩阵,对各所述稀疏协同矩阵的邻接矩阵进行校正,将校正后的各邻接矩阵,作为各所述部件的协同矩阵;
根据各所述所述部件的协同矩阵计算各部件的权重系数。
通过实施本发明的实施例,将整个机器人分解为多个学习智能体,使高维空间简化为低维空间,从而降低整体复杂度,从而获得机器人控制中的更高效和可解释的学习。
需说明的是,上述装置项实施例是与本发明方法项实施例对应的,其能实现本发明任意一项方法项所述的基于部件分解的机器人控制方法。且以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (8)

1.一种基于部件分解的机器人控制方法,其特征在于,包括:
获取待控制机器人的整体状态信息;
将所述待控制机器人的整体状态信息输入至已构建好的动作预测模型中,以使所述动作预测模型,根据所述待控制机器人的整体状态信息预测所述待控制机器人的整体动作信息;其中,所述动作预测模型包括主网络,所述主网络包括一动作预测网络和若干奖励值网络;所述动作预测模型通过所述动作预测网络预测所述待控制机器人的整体动作信息,且在训练所述动作预测模型时,将待训练机器人的整体状态信息进行结构分解,获得所述待训练机器人各部件的状态信息,并将所述待训练机器人各部件的状态信息输入至对应的奖励值网络中,以使每一所述奖励值网络输出所述待训练机器人对应部件的奖励值,继而根据所述待训练机器人各部件的奖励值对所述动作预测网络的网络参数进行调整;
根据所述待控制机器人的整体动作信息控制所述待控制机器人运动。
2.如权利要求1所述的基于部件分解的机器人控制方法,其特征在于,所述动作预测模型还包括:目标网络;其中,目标网络包括一目标动作预测网络和若干目标奖励值网络;待训练机器人的每一部件与一目标奖励值网络相对应。
3.如权利要求2所述的基于部件分解的机器人控制方法,其特征在于,所述动作预测模型的构建方法包括:
从样本数据库中,获取待训练机器人的连续运动信息;所述连续运动信息包括:所述待训练机器人在第一时刻的第一整体动作信息、第一整体状态信息、第一整体奖励值以及在第二时刻的第二整体状态信息;其中,所述第二时刻为所述第一时刻的下一时刻;
对所述第一整体动作信息、第一整体状态信息、以及第二整体状态信息进行结构分解,获得待训练机器人的各部件在第一时刻的第一实际动作信息、在第一时刻的第一实际状态信息以及在第二时刻的第二实际状态信息;
构建所述待训练机器人的各所述部件对应的协同图,并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数;
以所述第一整体状态信息为输入,以待训练机器人在第一时刻的整体预测动作信息为输出,根据动作预测网络参数,构建所述动作预测网络;
以各所述第一实际状态信息以及所述待训练机器人的各部件在第一时刻的动作信息为输入,以各部件在第一时刻的奖励值为输出,根据奖励值网络参数,构建所述奖励值网络;其中,所述待训练机器人的各部件在第一时刻的动作信息包括各所述第一实际动作信息或各第一预测动作信息;各所述第一预测动作信息通过对所述待训练机器人在第一时刻的整体预测动作信息进行结构分解后得到;
以所述第一整体状态信息为输入,以待训练机器人在第二时刻的整体预测动作信息为输出,根据目标动作预测网络参数,构建所述目标动作预测网络;
以各所述第二实际状态信息以及所述待训练机器人的各部件在第二时刻的动作信息为输入,以各部件在第二时刻的奖励值为输出,根据目标奖励值网络参数,构建所述目标奖励值网络;其中,所述待训练机器人的各部件在第二时刻的动作信息包括第二预测动作信息;所述第二预测动作信息通过对所述待训练机器人在第二时刻的整体预测动作信息进行结构分解后得到;
根据所述待训练机器人的各部件的权重系数、各部件在第一时刻的奖励值、各部件在第二时刻的奖励值以及所述第一整体奖励值,更新所述动作预测网络参数、所述奖励值网络参数、所述目标动作预测网络参数以及所述目标奖励值网络参数。
4.如权利要求3所述的基于部件分解的机器人控制方法,其特征在于,所述构建所述待训练机器人的各所述部件对应的协同图,并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数,具体包括:
以所述待训练机器人中一部件在第一时刻的状态信息为输入,以所述待训练机器人中其余部件在第二时刻的预测状态信息为输出,构建预测器;
通过所述预测器对所述待训练机器人中各部件在第二时刻的状态信息进行预测,获得各部件在第二时刻的预测状态信息
计算各部件在第二时刻的实际状态信息与各部件在第二时刻的预测状态信息的预测误差,并对预测误差进行归一化处理,生成每一部件的稀疏的协同图;
获取各所述稀疏协同图对应的邻接矩阵,并通过待训练机器人的物理结构所对应的邻接矩阵,对各所述稀疏协同矩阵的邻接矩阵进行校正,将校正后的各邻接矩阵,作为各所述部件的协同矩阵;
根据各所述所述部件的协同矩阵计算各部件的权重系数。
5.一种基于部件分解的机器人控制装置,其特征在于,包括:数据获取模块、动作预测模块以及运动控制模块;
所述数据获取模块,用于获取待控制机器人的整体状态信息;
所述动作预测模块,用于将所述待控制机器人的整体状态信息输入至已构建好的动作预测模型中,以使所述动作预测模型,根据所述待控制机器人的整体状态信息预测所述待控制机器人的整体动作信息;其中,所述动作预测模型包括主网络,所述主网络包括一动作预测网络和若干奖励值网络;所述动作预测模型通过所述动作预测网络预测所述待控制机器人的整体动作信息,且在训练所述动作预测模型时,将待训练机器人的整体状态信息进行结构分解,获得所述待训练机器人各部件的状态信息,并将所述待训练机器人各部件的状态信息输入至对应的奖励值网络中,以使每一所述奖励值网络输出所述待训练机器人对应部件的奖励值,继而根据所述待训练机器人各部件的奖励值对所述动作预测网络的网络参数进行调整;
所述运动控制模块,用于根据所述待控制机器人的整体动作信息控制所述待控制机器人运动。
6.如权利要求5所述的基于部件分解的机器人控制装置,其特征在于,所述动作预测模型包括:目标网络;其中,目标网络包括一目标动作预测网络和若干目标奖励值网络;待训练机器人的每一部件与一目标奖励值网络相对应。
7.如权利要求6所述的基于部件分解的机器人控制装置,其特征在于,还包括动作预测模型构建模块;所述动作预测模型构建模块,用于通过以下方法构建所述动作预测模型:
从样本数据库中,获取待训练机器人的连续运动信息;所述连续运动信息包括:所述待训练机器人在第一时刻的第一整体动作信息、第一整体状态信息、第一整体奖励值以及在第二时刻的第二整体状态信息;
对所述第一整体动作信息、第一整体状态信息、以及第二整体状态信息进行结构分解,获得待训练机器人的各部件在第一时刻的第一实际动作信息、在第一时刻的第一实际状态信息以及在第二时刻的第二实际状态信息;
构建所述待训练机器人的各所述部件对应的协同图,并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数;
以所述第一整体状态信息为输入,以待训练机器人在第一时刻的整体预测动作信息为输出,根据动作预测网络参数,构建所述动作预测网络;
以各所述第一实际状态信息以及所述待训练机器人的各部件在第一时刻的动作信息为输入,以各部件在第一时刻的奖励值为输出,根据奖励值网络参数,构建所述奖励值网络;其中,所述待训练机器人的各部件在第一时刻的动作信息包括各所述第一实际动作信息或各第一预测动作信息;各所述第一预测动作信息通过对所述待训练机器人在第一时刻的整体预测动作信息进行结构分解后得到;
以所述第一整体状态信息为输入,以待训练机器人在第二时刻的整体预测动作信息为输出,根据目标动作预测网络参数,构建所述目标动作预测网络;
以各所述第二实际状态信息以及所述待训练机器人的各部件在第二时刻的动作信息为输入,以各部件在第二时刻的奖励值为输出,根据目标奖励值网络参数,构建所述目标奖励值网络;其中,所述待训练机器人的各部件在第二时刻的动作信息包括第二预测动作信息;所述第二预测动作信息通过对所述待训练机器人在第二时刻的整体预测动作信息进行结构分解后得到;
根据所述待训练机器人的各部件的权重系数、各部件在第一时刻的奖励值、各部件在第二时刻的奖励值以及所述第一整体奖励值,更新所述动作预测网络参数、所述奖励值网络参数、所述目标动作预测网络参数以及所述目标奖励值网络参数。
8.如权利要求7所述的基于部件分解的机器人控制装置,其特征在于,所述构建所述待训练机器人的各所述部件对应的协同图,并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数,具体包括:
以所述待训练机器人中一部件在第一时刻的状态信息为输入,以所述待训练机器人中其余部件在第二时刻的预测状态信息为输出,构建预测器;
通过所述预测器对所述待训练机器人中各部件在第二时刻的状态信息进行预测,获得各部件在第二时刻的预测状态信息
计算各部件在第二时刻的实际状态信息与各部件在第二时刻的预测状态信息的预测误差,并对预测误差进行归一化处理,生成每一部件的稀疏的协同图;
获取各所述稀疏协同图对应的邻接矩阵,并通过待训练机器人的物理结构所对应的邻接矩阵,对各所述稀疏协同矩阵的邻接矩阵进行校正,将校正后的各邻接矩阵,作为各所述部件的协同矩阵;
根据各所述所述部件的协同矩阵计算各部件的权重系数。
CN202010814709.0A 2020-08-13 2020-08-13 一种基于部件分解的机器人控制方法及装置 Active CN112008707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010814709.0A CN112008707B (zh) 2020-08-13 2020-08-13 一种基于部件分解的机器人控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010814709.0A CN112008707B (zh) 2020-08-13 2020-08-13 一种基于部件分解的机器人控制方法及装置

Publications (2)

Publication Number Publication Date
CN112008707A true CN112008707A (zh) 2020-12-01
CN112008707B CN112008707B (zh) 2021-10-26

Family

ID=73504313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010814709.0A Active CN112008707B (zh) 2020-08-13 2020-08-13 一种基于部件分解的机器人控制方法及装置

Country Status (1)

Country Link
CN (1) CN112008707B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650394A (zh) * 2020-12-24 2021-04-13 深圳前海微众银行股份有限公司 智能设备控制方法、设备及可读存储介质
CN114648148A (zh) * 2020-12-18 2022-06-21 广东博智林机器人有限公司 机器人的参数预测方法、装置、存储介质和处理器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130312A1 (en) * 2017-10-27 2019-05-02 Salesforce.Com, Inc. Hierarchical and interpretable skill acquisition in multi-task reinforcement learning
US20200005162A1 (en) * 2018-07-02 2020-01-02 Tata Consultancy Services Limited Method and system for hierarchical decomposition of tasks and action planning in a robotic network
CN111105034A (zh) * 2019-12-24 2020-05-05 中国科学院自动化研究所 基于反事实回报的多智能体深度强化学习方法、系统
CN111258734A (zh) * 2020-01-16 2020-06-09 中国人民解放军国防科技大学 一种基于强化学习的深度学习任务调度方法
CN111432015A (zh) * 2020-03-31 2020-07-17 中国人民解放军国防科技大学 一种面向动态噪声环境的全覆盖任务分配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130312A1 (en) * 2017-10-27 2019-05-02 Salesforce.Com, Inc. Hierarchical and interpretable skill acquisition in multi-task reinforcement learning
US20200005162A1 (en) * 2018-07-02 2020-01-02 Tata Consultancy Services Limited Method and system for hierarchical decomposition of tasks and action planning in a robotic network
CN111105034A (zh) * 2019-12-24 2020-05-05 中国科学院自动化研究所 基于反事实回报的多智能体深度强化学习方法、系统
CN111258734A (zh) * 2020-01-16 2020-06-09 中国人民解放军国防科技大学 一种基于强化学习的深度学习任务调度方法
CN111432015A (zh) * 2020-03-31 2020-07-17 中国人民解放军国防科技大学 一种面向动态噪声环境的全覆盖任务分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHAO YU, DONGXU WANG,JIANKANG REN: "Decentralized Multiagent Reinforcement", 《SPRINGER》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648148A (zh) * 2020-12-18 2022-06-21 广东博智林机器人有限公司 机器人的参数预测方法、装置、存储介质和处理器
CN112650394A (zh) * 2020-12-24 2021-04-13 深圳前海微众银行股份有限公司 智能设备控制方法、设备及可读存储介质
CN112650394B (zh) * 2020-12-24 2023-04-25 深圳前海微众银行股份有限公司 智能设备控制方法、设备及可读存储介质

Also Published As

Publication number Publication date
CN112008707B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
Er et al. Obstacle avoidance of a mobile robot using hybrid learning approach
Heess et al. Learning continuous control policies by stochastic value gradients
CN106529818B (zh) 基于模糊小波神经网络的水质评价预测方法
Bechtle et al. Curious ilqr: Resolving uncertainty in model-based rl
CN111766782B (zh) 基于深度强化学习中Actor-Critic框架的策略选择方法
Tzeng Design of fuzzy wavelet neural networks using the GA approach for function approximation and system identification
CN112008707B (zh) 一种基于部件分解的机器人控制方法及装置
US20130325774A1 (en) Learning stochastic apparatus and methods
JP2007299366A (ja) 学習装置および学習方法、認識装置および認識方法、生成装置および生成方法、認識生成装置および認識生成方法、並びにプログラム
CN112297005B (zh) 一种基于图神经网络强化学习的机器人自主控制方法
Ge et al. Multi-agent transfer reinforcement learning with multi-view encoder for adaptive traffic signal control
Zahra et al. A bio-inspired mechanism for learning robot motion from mirrored human demonstrations
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
Lin et al. Nonlinear system control using self-evolving neural fuzzy inference networks with reinforcement evolutionary learning
Belmonte-Baeza et al. Meta reinforcement learning for optimal design of legged robots
CN112633463A (zh) 用于建模序列数据中长期依赖性的双重递归神经网络架构
CN113687654A (zh) 一种基于进化算法的神经网络训练方法及路径规划方法
Li et al. Sequential sensor fusion-based real-time LSTM gait pattern controller for biped robot
Liang et al. Hierarchical reinforcement learning with opponent modeling for distributed multi-agent cooperation
Espinós Longa et al. Swarm Intelligence in Cooperative Environments: Introducing the N-Step Dynamic Tree Search Algorithm
Chin et al. A neuro-based network for on-line topological map building and dynamic path planning
Ganesh et al. Deep reinforcement learning for simulated autonomous driving
Zhan et al. Dueling network architecture for multi-agent deep deterministic policy gradient
CN114666729A (zh) 一种用于水下集群uuv协同导航定位的水声通信误差补偿方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant