CN112008707A

CN112008707A - 一种基于部件分解的机器人控制方法及装置

Info

Publication number: CN112008707A
Application number: CN202010814709.0A
Authority: CN
Inventors: 余超; 董银昭; 葛宏伟; 陈炳才; 孙亮
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-12-01
Anticipated expiration: 2040-08-13
Also published as: CN112008707B

Abstract

本发明公开了一种基于部件分解的机器人控制方法及装置，该方法首先获取待控制机器人的整体状态信息，并将整体状态信息输入至动作预测模型中，动作预测模型的动作预测网络预测根据整体状态信息，预测待控制机器人的整体动作信息；最后根据整体动作信息控制待控制机器人运动。动作预测模型包括动作预测网络和若干奖励值网络，在训练动作预测模型时，将待训练机器人的整体状态信息进行结构分解，获得待训练机器人各部件的状态信息，将各部件的状态信息输入至对应的奖励值网络中，以使每一奖励值网络输出对应部件的奖励值，根据各部件的奖励值对动作预测网络的网络参数进行调整。通过实施本发明能够降低了机器人学习的复杂度，增强机器人的控制效果。

Description

一种基于部件分解的机器人控制方法及装置

技术领域

本发明涉及智能机器人领域，尤其涉及一种基于部件分解的机器人控制方法及装置。

背景技术

强化学习(Reinforcement Learning,RL)结合深层神经网络培养了一个新的蓬勃发展的研究领域：深度强化学习(Deep Reinforcement Learning，DRL)。大量的DRL技术在近些年被提出来解决机器人运动中的连续控制问题。然而，由于现有的DRL算法直接在整个高维连续状态/动作中搜索，导致学习效率相当低，进而导致控制效果较差。

发明内容

本发明实施例提供一种基于部件分解的机器人控制方法及装置，能够提高机器人的学习效率，增强了控制效果。

本发明一实施例提供一种基于部件分解的机器人控制方法，包括：

获取待控制机器人的整体状态信息；

将所述待控制机器人的整体状态信息输入至已构建好的动作预测模型中，以使所述动作预测模型，根据所述待控制机器人的整体状态信息预测所述待控制机器人的整体动作信息；其中，所述动作预测模型包括主网络，所述主网络包括一动作预测网络和若干奖励值网络；所述动作预测模型通过所述动作预测网络预测所述待控制机器人的整体动作信息，且在训练所述动作预测模型时，将待训练机器人的整体状态信息进行结构分解，获得所述待训练机器人各部件的状态信息，并将所述待训练机器人各部件的状态信息输入至对应的奖励值网络中，以使每一所述奖励值网络输出所述待训练机器人对应部件的奖励值，继而根据所述待训练机器人各部件的奖励值对所述动作预测网络的网络参数进行调整；

根据所述待控制机器人的整体动作信息控制所述待控制机器人运动。

进一步地，所述动作预测模型包括：目标网络其中，目标网络包括一目标动作预测网络和若干目标奖励值网络；待训练机器人的每一部件与一目标奖励值网络相对应。

进一步地，所述动作预测模型的构建方法包括：

从样本数据库中，获取待训练机器人的连续运动信息；所述连续运动信息包括：所述待训练机器人在第一时刻的第一整体动作信息、第一整体状态信息、第一整体奖励值以及在第二时刻的第二整体状态信息；

对所述第一整体动作信息、第一整体状态信息、以及第二整体状态信息进行结构分解，获得待训练机器人的各部件在第一时刻的第一实际动作信息、在第一时刻的第一实际状态信息以及在第二时刻的第二实际状态信息；

构建所述待训练机器人的各所述部件对应的协同图，并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数；

以所述第一整体状态信息为输入，以待训练机器人在第一时刻的整体预测动作信息为输出，根据动作预测网络参数，构建所述动作预测网络；

以各所述第一实际状态信息以及所述待训练机器人的各部件在第一时刻的动作信息为输入，以各部件在第一时刻的奖励值为输出，根据奖励值网络参数，构建所述奖励值网络；其中，所述待训练机器人的各部件在第一时刻的动作信息包括各所述第一实际动作信息或各第一预测动作信息；各所述第一预测动作信息通过对所述待训练机器人在第一时刻的整体预测动作信息进行结构分解后得到；

以所述第一整体状态信息为输入，以待训练机器人在第二时刻的整体预测动作信息为输出，根据目标动作预测网络参数，构建所述目标动作预测网络；

以各所述第二实际状态信息以及所述待训练机器人的各部件在第二时刻的动作信息为输入，以各部件在第二时刻的奖励值为输出，根据目标奖励值网络参数，构建所述目标奖励值网络；其中，所述待训练机器人的各部件在第二时刻的动作信息包括第二预测动作信息；所述第二预测动作信息通过对所述待训练机器人在第二时刻的整体预测动作信息进行结构分解后得到；

根据所述待训练机器人的各部件的权重系数、各部件在第一时刻的奖励值、各部件在第二时刻的奖励值以及所述第一整体奖励值，更新所述动作预测网络参数、所述奖励值网络参数、所述目标动作预测网络参数以及所述目标奖励值网络参数。

进一步地，所述构建所述待训练机器人的各所述部件对应的协同图，并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数，具体包括：

以所述待训练机器人中一部件在第一时刻的状态信息为输入，以所述待训练机器人中其余部件在第二时刻的预测状态信息为输出，构建预测器；

通过所述预测器对所述待训练机器人中各部件在第二时刻的状态信息进行预测，获得各部件在第二时刻的预测状态信息

计算各部件在第二时刻的实际状态信息与各部件在第二时刻的预测状态信息的预测误差，并对预测误差进行归一化处理，生成每一部件的稀疏的协同图；

获取各所述稀疏协同图对应的邻接矩阵，并通过待训练机器人的物理结构所对应的邻接矩阵，对各所述稀疏协同矩阵的邻接矩阵进行校正，将校正后的各邻接矩阵，作为各所述部件的协同矩阵；

根据各所述所述部件的协同矩阵计算各部件的权重系数。

在上述方法项实施例的基础上，对应提供了装置项实施例：

本发明另一实施例提供了一种基于部件分解的机器人控制装置，包括数据获取模块、动作预测模块以及运动控制模块；

所述数据获取模块，用于获取待控制机器人的整体状态信息；

所述动作预测模块，用于将所述待控制机器人的整体状态信息输入至已构建好的动作预测模型中，以使所述动作预测模型，根据所述待控制机器人的整体状态信息预测所述待控制机器人的整体动作信息；其中，所述动作预测模型包括主网络，所述主网络包括一动作预测网络和若干奖励值网络；所述动作预测模型通过所述动作预测网络预测所述待控制机器人的整体动作信息，且在训练所述动作预测模型时，将待训练机器人的整体状态信息进行结构分解，获得所述待训练机器人各部件的状态信息，并将所述待训练机器人各部件的状态信息输入至对应的奖励值网络中，以使每一所述奖励值网络输出所述待训练机器人对应部件的奖励值，继而根据所述待训练机器人各部件的奖励值对所述动作预测网络的网络参数进行调整；

所述运动控制模块，用于根据所述待控制机器人的整体动作信息控制所述待控制机器人运动。

进一步的，所述动作预测模型包括：主网络和目标网络；其中，所述主网络包括一动作预测网络和若干奖励值网络；所述目标网络包括一目标动作预测网络和若干目标奖励值网络；待训练机器人的每一部件与一奖励值网络以及一目标奖励值网络相对应。

进一步地，还包括动作预测模型构建模块；所述动作预测模型构建模块，用于通过以下方法构建所述动作预测模型：

进一步地，构建所述待训练机器人的各所述部件对应的协同图，并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数，具体包括：

根据各所述所述部件的协同矩阵计算各部件的权重系数。

通过实施本发明实施例，具有如下有益效果：

本发明实施例提供了一种基于部件分解的机器人控制方法及装置，所述方法首先获取待控制机器人的整体状态信息，然后输入到构建好的动作预测模型中，动作预测模型将会通过内部的动作预测网络输出整体动作信息，最后根据整体动作信息控制待控制机器人的运动，与现有技术相比，本发明在训练动作预测模型时，将待训练机器人的整体状态信息进行结构分解，从而获得各个部件的状态信息，然后将各部件的状态信息输入至对应的奖励值网络，由对应的奖励值网络输出对应部件的建立值，最后根据各部件的奖励值来对动作预测网络的网络参数进行调整。这样在整个训练的过程中，将待训练机器人的整体状态信息，分解为各个部件的状态信息，从而将全局状态分解各个局部状态，使得每个部件在二维状态空间和一维状态空间进行决策，从而实现了高纬空间学习向低维空间学习的转换，大大降低了机器学习的复杂度，提高了学习效率，从而使得使用上述训练方法训练得到的动作预测模型进行机器人控制时，机器人能够更快速的作出反馈，增强了控制效果。

附图说明

图1是本发明一实施例提供的一种基于部件分解的机器人控制方法的流程示意图。

图2是本发明一实施例提供的一种基于部件分解的机器人控制方法中动作预测模型的结构示意图。

图3是本发明一实施例提供的一种基于部件分解的机器人控制方法中协同图模型原理示意图。

图4是本发明一实施例提供的Walker机器人的结构分解示意图。

图5是本发明一实施例提供的超参数控制协同图每个结点边在不同数量下Walker机器人的累积奖励值统计图。

图6是本发明一实施例提供的动作预测模型与现有其他DRL算法所构建的模型在Walker机器人的平均奖励值的比对示意图。

图7是本发明一实施例提供的动作预测模型与现有其他DRL算法所构建的模型在Walker机器人的累积奖励值的比对示意图。

图8是本发明一实施例提供的Walker机器人在开始移动时各部件的权重。

图9是本发明一实施例提供的Walker机器人在奔跑时各部件的权重。

图10是本发明一实施例提供基于部件分解的机器人控制装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一实施例提供了一种基于部件分解的机器人控制方法，包括：

步骤S101：获取待控制机器人的整体状态信息。

步骤S102：将所述待控制机器人的整体状态信息输入至已构建好的动作预测模型中，以使所述动作预测模型，根据所述待控制机器人的整体状态信息预测所述待控制机器人的整体动作信息；其中，所述动作预测模型包括主网络，所述主网络包括一动作预测网络和若干奖励值网络；所述动作预测模型通过所述动作预测网络预测所述待控制机器人的整体动作信息，且在训练所述动作预测模型时，将待训练机器人的整体状态信息进行结构分解，获得所述待训练机器人各部件的状态信息，并将所述待训练机器人各部件的状态信息输入至对应的奖励值网络中，以使每一所述奖励值网络输出所述待训练机器人对应部件的奖励值，继而根据所述待训练机器人各部件的奖励值对所述动作预测网络的网络参数进行调整。

步骤S103：根据所述待控制机器人的整体动作信息控制所述待控制机器人运动。

对于步骤S101、在本发明中待控制机器人可视为由若干个部件组成，每个部件均视为一个智能体，上述待控制机器人的整体状态信息可以理解为马尔可夫决策过程中的状态要素。在本发明中先定义上述机器人的马尔科夫决策过程，该马尔可夫决策过程定义为一个数组：<S,A,P,R>，其中S,A,P和R分别代表机器人状态，动作、转移概率和奖励值的集合。P(s′|s,a)表示机器人从当前状态s采取动作a跳转到下一步状态s′的转移概率。

对于步骤S102、首先对动作预测模型进行说明如图2所示，在一个优选的实施例中，所述动作预测模型还包括：目标网络；其中，目标网络包括一目标动作预测网络和若干目标奖励值网络；待训练机器人的每一部件与一目标奖励值网络相对应。

在一个优先的实施例中，所述动作预测模型的构建方法包括：

需要说明的是，上述待训练机器人可以是待控制机器人，上述第二时刻为第一时刻的下一时刻。

以下对整个动作预测模型进行具体的说明：

首先从样本数据库(即附图2和附图3中所示的记忆库)中随机采样一条固定步长的待训练机器人的连续运动轨迹：<s_i,a_i,r_i,s_i+1>，其中i代表时间步，s_i，a_i和r_i分别代表在第i时间步时(上述第一时刻)，待训练机器人的状态，动作和奖励值，s_i+1表示第i+1时间步时(上述第二时刻)待训练机器人的状态。

根据待训练机器人的物理结构，将待训练机器人分解为各个部件，每个部件代表一独立的智能体(在本发明后续的描述中以智能体来表示机器人的部件)，通过结构分解器对上述s_i、a_i、s_i+1进行结构分解：

例如：

Divide表示结构分解器，

和

分别表示第个l智能体在第i步的状态和动作信息，

代表被所有智能体共享的状态信息，n是智能体(部件)的数量。

紧接着，通过一个协同图来建模不同智能体之间的依赖关系，并计算每个智能体的权重。协同图可以表示为：

G＝(V，W) (2)

其中V＝{A_l|l∈[1,n]}表示一系列智能体的集合，A_k代表第k个智能体，W是中每个边权重的集合，w_kj代指第j个智能体对第个k智能体的权的权重。通过各智能体的权重系数来表示依赖关系。

则每个智能体的A_l的权重可以计算为：

搭建训练网络，首先，搭建一个主网络用于预估机器人的行为和奖励值。主网络包括一个Actor(上述动作预测网络，在附图2中，主网络部分的Actor代表上述动作预测网络，目标网络的Actor表示上述目标动作预测网络)和n个Critic(上述奖励值网络，在附图2中，主网络部分的Critic代表上述奖励值网络，目标网络的Critic表示上述目标奖励值网络)。

动作预测网络的目的是学习一个待训练机器人的行为策略μ(s|θ^μ)。它以整个待训练机器人的状态s(上述第一整体状态信息)作为输入，输出整个机待训练器人的预估动作(上述待训练机器人在第一时刻的整体预测动作信息)，表示为：

a_μ＝μ(s|θ^μ)

其中θ^μ代表动作预测网络中的所有网络参数，

代表第l个智能体的预估动作。

每个智能体有一个对应的奖励值网络，每个奖励值网络的可以用于预测每个智能体的局部奖励值。它输入智能体的状态s^k和动作a^k，输出局部奖励值

其中

代表第l个奖励值网络所有网络参数。在本发明中，奖励值网络可以输入智能体的实际状态信息(上述第一实际状态信息)及实际动作信息(上述第一实际动作信息)，从而输出实际的局部奖励值，也可以输入智能体的实际状态信息及预测动作信息(上述第一预测动作信息)，从而输出预估的局部奖励值。

同样建立一个与主网络结构完全一致的目标网络，目标网络包括一个目标动作预测网络和n个目标奖励值网络；目标动作预测网络的网络参数为：θ^μ′

第K个目标奖励值网络的网络参数为

上述网络构建完毕之后，通过以下公式计算整个动作预测模型的在时间步i时的全局奖励值Q_cur：

分别表示i时刻第l个智能体的权重(由上文所述的通过协同图求得)

表示i时刻第l个智能体的局部奖励值(由主网络的奖励值网络输出)。

然后，通过以下公式计算时间步i时的预估全局奖励值Q_pre：

其中，

表示i时刻第l个智能体的预估动作(由对主网络中的动作预测网络得到的整体预测动作进行结构分解后得到)；

表示i时刻第l个智能体的预估局部奖励值(由主网络的奖励值网络输出)。

紧接着，通过以下公式计算时间步i+1时的预估未来全局奖励值Q_nex；

其中，

表示i+1时刻第l个智能体的权重，

表示i+1时刻第l个智能体的预估动作(由对目标网络的目标预测网络得到的整体预测动作进行结构分解后得到)，

表示i+1时刻第l个智能体的和预估局部奖励值(由目标网络的目标奖励值网络输出)。

紧接着对上述各个网络的参数进行更新：

首先，更新主网络的参数：

动作预测网络的目的是学习一个机器人的最优行为策略。它可以对参数θ_μ求导来最大化折扣回报J：

θ^μJ＝θ_μμ(s_i|θ^μ)a_μQ_pre (8)

奖励值网络的目的是最小化奖励值误差，即每个奖励值网络都通过更新参数

来最小化损失L，具体如下：

L＝(r_i+γQ_nex-Q_cur)² (9)

其中，r_i是当前的奖励值(即上述第一整体奖励值)；γ是奖励值衰减。

然后，更新目标网络的参数：

目标网络中每个目标奖励值网络的参数

和目标动作预测网络的参数θ^μ′分别按照以下公式更新：

θ^μ′←τθ^μ+(1-τ)θ^μ′ (11)

至此上述动作预测模型构建完成；

对于步骤S103、当待训练机器人与环境进行交互，当前时间步t时，机器人根据主网络得到的最新的行为策略μ(s|θ^μ)选择动作，按照公式(12)执行动作：

a_t＝μ(s_t|θ^μ)+N (12)

其中，N为一个随机数。

机器人与环境交互并获得t+1步的状态s_t+1和奖励值r_t。

以下对各部件对应的协同图，以及各部件的权重系数进行说明：

在一个优选的实施例中，所述构建所述待训练机器人的各所述部件对应的协同图，并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数，具体包括：

根据各所述所述部件的协同矩阵计算各部件的权重系数。

在本发明中利用一个可预测的协同图(Prediction coordination graph,PCG)模型获得机器人中不同智能体的协同图。图3展示了PCG模型具体结构及流程。

PCG模型首先将当前智能体A_l的第i步的状态

输入给一个预测器P_in，输出下一步其他智能体的预测状态。然后，PCG利用每个智能体的预测状态和实际状态来计算预测误差E_lj，计算如下：

其中

和

分别表示智能体A_k在i+1步的真实状态和预测状态。

为了降低协同图的结构复杂性，PCG首先筛选出每个智能体的K个最高的预测误差，未被选择的预测误差化为零，其中K∈[1,n-1]。K表示超参数控制协同图每个结点边的数量。然后，将筛选后的预测误差进行归一化处理，即：

归一化处理后，可以构建一个稀疏的协同图G_K-PCG，假设W_K-PCG为G_K-PCG的邻接矩阵。

为了同时考虑机器人的物理结构的信息，PCG利用机器人的物理结构的邻接矩阵W_P来矫正W_K-PCG，从而获得更加合理的邻接矩阵W_PCG，如下：

W_PCG＝ηW_K-PCG+(1-η)*W_p

其中η是一个偏差参数。

获得PCG求得的拓扑图后，根据上述利用公式(3)可以求得每个智能体对应的权重。

为更好的说明上述方案以下以一个Walker机器人为例进行详细的说明：

首先定义Walker机器人的马尔科夫决策过程。Walker是一个具有包括17维状态信息和6维动作信息的平面双足机器人。状态s，动作a和奖励值r分别可以表示为：

其中P_m(m∈[0,7])表示机器人的位置、V_n(n∈[8,16])，表示机器人的速度a_l(l∈[0,5])表示机器人关节(部件)的角度、v_x表示机器人的前进的速度。当机器人的高度Z_body<0.8或Z_body>2，或机器人的前倾的角度|θ_y|>1时，机器人将会停止运动。

从样本数据库中，采集一条连续轨迹：<s_i,a_i,r_i,s_i+1>，其中i∈[1,64]。

将Walker机器人分解为6个不同的智能体，A_k|k∈[1,6]。如图4中的(a)和(b)所示；然后通过结构分解器对整体的状态信息和动作信息进行结构分解，分解结果如表1所示：

智能体	状态	动作
			A<sub>1</sub>	(P<sub>2</sub>,V<sub>11</sub>)	(a<sub>0</sub>)
A<sub>2</sub>	(P<sub>3</sub>,V<sub>12</sub>)	(a<sub>1</sub>)
			A<sub>4</sub>	(P<sub>4</sub>,V<sub>13</sub>)	(a<sub>2</sub>)
A<sub>4</sub>	(P<sub>5</sub>,V<sub>14</sub>)	(a<sub>3</sub>)
			A<sub>5</sub>	(P<sub>6</sub>,V<sub>15</sub>)	(a<sub>4</sub>)
A<sub>6</sub>	(P<sub>7</sub>,V<sub>16</sub>)	(a<sub>5</sub>)

表1 Walker机器人分解后状态和动作信息

经过分解后，每个智能体在二维的状态空间和一维的动作空间中进行决策。这和直接在原始的状态/动作空间中搜索相比，大大降低了复杂度。

紧接着利用一个可预测的协同图模型获得Walker机器人中不同智能体的协同图(具体步骤与上文描述的一致，不再叙述)。

然后利用主网络、目标网络及智能体的权重信息(上文公式(5)，(6)和(7))，分别计算Q_cur，Q_pre和Q_nex。

主网络和目标网络中Actor和任意一个Critic的结构的示意如表2所示：

神经网络	输入	第一隐藏层	第二隐藏层	输出
					Actor	17	400	300	6
Critic	2	64	无	1

表2主网络和目标网络中Actor和任意一个Critic的结构

计算L和θ^μJ，分别更新主网络的Actor和Critic。再利用公式(10)和(11)分别更新目标网络的Actor和Critic。在训练过程中，通过不断更新协同图模型中的预测器P_in，以便获得更加精准的智能体权重信息；预测器P_in为一个三层神经网络其中输入层为2个神经元，隐藏层有128个神经元，输出层有6*2个神经元；奖励值衰减γ＝0.99；学习率α＝0.001。同时Walker机器人通过最小化损失函数L_ρ来优化预测器，如下：

Walker机器人根据公式(12)执行动作，当它跌倒或者时间步达到300时，一个学习回合结束。

执行一次任务时，重复上述步骤训练Walker机器人。当训练回合为1500时，结束训练。

训练完成后，获取一个Walker机器人的整体状态信息，然后输入至动作预测网络模型中，即可输出Walker机器人的整体动作信息；然后根据整体动作信息控制Walker机器人运动。

图5显示了本申请所公开的动作预测模型(图中的D3PG-PCG)中超参数控制协同图每个结点边在不同数量下的学习性能，当K最大时不能保证最好的学习效率，而K＝3时具有最高的累积奖励值。因此，利用较小的K值可以进一步减小算法的计算复杂度。

图6展示出本申请所公开的动作预测模型(图中的D3PG-PCG)与不同DRL算法在Walker机器人中平均奖励值的对比，从图6可看出本申请所公开的动作预测模型可以取得比其他算法更快的收敛速度。

图7展示出本申请所公开的动作预测模型(图中的D3PG-PCG)与不同DRL算法在Walker机器人中累积奖励值的对比，从图中可以看出本申请所公开的动作预测模型具有最高的累积奖励值。

图8显示了Walker机器人中不同智能体在开始移动时的权重；图9显示了Walker机器人中不同智能体保持奔跑时的权重。在开始移动时，两只脚扮演着着最重要和最稳定的角色。然而，其他的智能体的权重不断的变化以维持不同姿势下机器人的平稳行走。当机器人不断奔跑时时，双足仍然是最重要的部分，其次是大腿然后膝盖。综上，当机器人可以平稳的移动时，各智能体的权重趋于稳定。但在开始的移动过程中，需要不断的动态变化每隔智能体的权重来协调不同姿势的机器人。

在上述方法项实施例的基础上，本发明对应提供了装置项实施例；

如图10所示，本发明一实施例提供了一种基于部件分解的机器人控制装置，包括：数据获取模块、动作预测模块以及运动控制模块；

在一个优选的实施例中，所述动作预测模型还包括：目标网络；其中，目标网络包括一目标动作预测网络和若干目标奖励值网络；待训练机器人的每一部件与一目标奖励值网络相对应。

在一个优选的实施例中，还包括动作预测模型构建模块；所述动作预测模型构建模块，用于通过以下方法构建所述动作预测模型：

根据各所述所述部件的协同矩阵计算各部件的权重系数。

通过实施本发明的实施例，将整个机器人分解为多个学习智能体，使高维空间简化为低维空间，从而降低整体复杂度，从而获得机器人控制中的更高效和可解释的学习。

需说明的是，上述装置项实施例是与本发明方法项实施例对应的，其能实现本发明任意一项方法项所述的基于部件分解的机器人控制方法。且以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于部件分解的机器人控制方法，其特征在于，包括：

获取待控制机器人的整体状态信息；

2.如权利要求1所述的基于部件分解的机器人控制方法，其特征在于，所述动作预测模型还包括：目标网络；其中，目标网络包括一目标动作预测网络和若干目标奖励值网络；待训练机器人的每一部件与一目标奖励值网络相对应。

3.如权利要求2所述的基于部件分解的机器人控制方法，其特征在于，所述动作预测模型的构建方法包括：

从样本数据库中，获取待训练机器人的连续运动信息；所述连续运动信息包括：所述待训练机器人在第一时刻的第一整体动作信息、第一整体状态信息、第一整体奖励值以及在第二时刻的第二整体状态信息；其中，所述第二时刻为所述第一时刻的下一时刻；

4.如权利要求3所述的基于部件分解的机器人控制方法，其特征在于，所述构建所述待训练机器人的各所述部件对应的协同图，并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数，具体包括：

根据各所述所述部件的协同矩阵计算各部件的权重系数。

5.一种基于部件分解的机器人控制装置，其特征在于，包括：数据获取模块、动作预测模块以及运动控制模块；

6.如权利要求5所述的基于部件分解的机器人控制装置，其特征在于，所述动作预测模型包括：目标网络；其中，目标网络包括一目标动作预测网络和若干目标奖励值网络；待训练机器人的每一部件与一目标奖励值网络相对应。

7.如权利要求6所述的基于部件分解的机器人控制装置，其特征在于，还包括动作预测模型构建模块；所述动作预测模型构建模块，用于通过以下方法构建所述动作预测模型：

8.如权利要求7所述的基于部件分解的机器人控制装置，其特征在于，所述构建所述待训练机器人的各所述部件对应的协同图，并根据各所述部件对应的协同图计算待训练机器人的各部件的权重系数，具体包括：

根据各所述所述部件的协同矩阵计算各部件的权重系数。