CN112297005B

CN112297005B - 一种基于图神经网络强化学习的机器人自主控制方法

Info

Publication number: CN112297005B
Application number: CN202011077580.6A
Authority: CN
Inventors: 俞俊; 姚宗贵
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-10-22
Anticipated expiration: 2040-10-10
Also published as: CN112297005A

Abstract

本发明公开了一种基于图神经网络强化学习的机器人自主控制方法。本发明步骤如下:1、根据环境反馈给机器人传感器的信息和机器人的物理结构，组建机器人的特征图。2、将得到的特征图输入到图神经网络，在训练阶段使用机器人感知到的监督信息对图神经网络进行训练。3、使用训练完成的图神经网络对感知状态信息进行处理，得到更新后的机器人状态信息，预测下一时刻机器人的状态信息。4、使用建立起来的环境模型，以及模型预测控制算法，对未来一步机器人动作进行决策。本发明使用基于图网络的强化学习模型，成功地完成了之前强化学习并不能很好完成的动作提升了机器人自主控制的稳定性和可靠性，使得机器人自主控制更加便于实际应用。

Description

一种基于图神经网络强化学习的机器人自主控制方法

技术领域

本发明涉及机器人仿真与智能控制领域，尤其涉及一种基于图神经网络强化学习的机器人自主控制方法。

背景技术

机器人自动控制是指机器人不通过人为干预即可执行前进、转向、避障等动作，从而使机器人在一定程度实现智能自主控制的一种技术。机器人在所处环境中通过自身携带的传感器感知自身状态，通过事先编制的智能化程序，根据当前状态进行自主的动作决策。传统的机器人自主控制一般通过对特定传感器的数值执行预先设定的反馈式操作，对较复杂任务无法达到真正意义上的自主控制。

为了解决复杂任务下机器人的自主控制，研究者们尝试在物理仿真环境下引入机器人的各项任务，通过仿真传感器的数值，控制机器人各个关节做出相应的动作。在仿真环境中的多次重复试错优势，使得机器人能够在多次试验的基础上优化自身控制程序，这催生机器人强化学习技术，即评估多次试验得到的机器人动作，通过深度学习的方法来优化机器人的策略函数。这种方法在一定程度上解决机器人对于复杂任务的适应问题。

尽管机器人在仿真环境下的强化学习技术能够提供较为鲁棒的机器人控制策略，但是现有的机器人强化学习控制过程往往无法很好地实现机器人在复杂情况下对于传感器信息的解析。现有方法将机器人各关节的传感器数据看做相互之间没有关联的特征，代入强化学习的训练过程，不仅不利于决策函数更好地感知自身状态，更不能使策略函数具备理解机器人自身物理结构的能力。

而图神经网络(GraphNeuralNetworks，GNN)具有原生的提取各要素相互关系的能力，这一特性恰好符合机器人各个动作关节之间具备关联关系的特点。将图神经网络应用在机器人强化学习过程中，把机器人各关节的转速，位置，受力信息作为图网络的特征节点，具有自然的特征结构提取优势，有利于机器人通过强化学习过程学习到关于自身物理结构的关键信息，从而利于强化学习算法通过优化过程得到表现更加优异的策略函数。

发明内容

本发明的目的是提供一种基于图神经网络强化学习的机器人自主控制方法。该方法使用强化学习方法，结合图神经网络原生的对要素之间相互关系的特征提取，从而解决机器人自主控制这一问题。其中，图神经网络类比于机器人的自身结构，将各个关节的速度、位置、受力信息作为图神经网络的节点特征，符合机器人自身的力传递途径，即通过关节之间的链接进行力矩的传播。实验证明，加入了图神经网络的强化学习能够更加高效地训练机器人在各项复杂任务中完成动作。

一种基于图网络强化学习的机器人自主控制方法，其步骤如下：

步骤(1)、根据环境反馈给机器人传感器的监督信息和机器人的物理结构，组建机器人的特征图。

步骤(2)、根据步骤(1)得到的特征图，输入到图神经网络；在训练阶段使用机器人感知到的监督信息对图神经网络进行训练。

步骤(3)、使用步骤(2)训练完成的图神经网络，对当前感知状态信息进行处理，得到更新后的机器人状态信息，精确还原机器人各部分互相之间的影响情况，预测下一时刻机器人的感知状态信息。

步骤(4)、使用步骤(1)、(2)、(3)建立起来的基于机器人传感器的图神经网络环境模型，以及模型预测控制(ModelPredictiveControl，MPC)算法，对机器人下一步动作进行决策。

步骤(1)所述的机器人的物理结构，是指在机器人的运动过程中，各部分组件在关节处电机的作用下，进行力传递的物理链接。根据机器人学中的力矩传递理论，机器人每个关节角度变化量可表示为：

其中，ΔΦ为关节角度变化量，ω为角速度，ω₀为初始角度，t为时间，β为角加速度，

为关节转动惯量。

通过公式(1)描述可以得到机器人各个关节的物理结构在运动过程中对力矩传递以及各个关节角度状态的影响。现将所有关节运动作为整体来看，可将物理上有链接的关节作为图神经网络的各个节点，其互相影响作用使用图网络中的节点连接代表，以此构建起图神经网络的整体框架。

步骤(2)所述图神经网络的使用，通过将各个关节当前时刻特征输入图神经网络的节点，而将图神经网络的连接关系根据机器人的物理连接关系进行分配，具体如下：

2-1.图神经网络经过演变与改良，目前使用最多的图神经网络之一就是图卷积网络，它的原理是根据二维图像处理中的卷积操作，逐步演化而来。图卷积神经网络中，单个节点的节点特征更新公式如下：

其中，H表示单个节点更新后的特征表示，

表示单个节点广义邻接矩阵，

表示单个节点的广义度矩阵，X即为单个节点的原始特征表示，W为当前节点针对每个连接关系的权值矩阵。

2-2.构建图卷积神经网络后，由于在实际物理过程中，关节的旋转速度、位置等信息并不是由力矩唯一确定的，而是需要将系统各部分的转动惯量全部纳入考虑，此时各个关节真实的角度变化如公式(1)所示，而在深度神经网络中，通过增加两层全连接的形式去拟合这种转动惯量，原因是待拟合的部分为二阶表达式，即公式(1)；这一动力学关系主要由以下关系决定：

其中，T_con为两个关节之间在空间上的转移矩阵，R_con和t_con分别为两个关节之间的旋转和平移关系矩阵。通过该动力学关系，能够得到不同关节之间的空间位置关系。要得到加速度之间的关系，做一阶导数，得到如下关系：

其中，

表示两个关节之间转移矩阵的雅克比矩阵，g_a、g_b代表三个空间方向的扭力向量；

2-3.加速度使用雅克比矩阵

来表示，g代表三个空间方向的扭力向量，：

而角加速度与扭矩的关系如下：

g＝I_r·β，其中：

其中，g代表三个空间方向的扭力向量，I_r为关节转动惯量。

步骤(3)构建一个拟合环境特性，代替真实环境，在强化学习策略规划阶段进行动作状态拟合的深度神经网络。在强化学习中称之为基于模型的强化学习，即model-based强化学习。这种强化学习的优势和特点是在决策之前，能够在环境模型中进行预演，从而精确还原真实环境中下一步骤将会遇到的情况，然后选择适当的动作作为这一步的决策。具体分为以下步骤：

3-1.对环境建模是指对现在所处环境，如仿真环境的输入输出关系进行拟合。在机器人问题中，输入是指机器人此时此刻的状态，以及当前所做出的动作决策，输出是指机器人在经过图神经网络的推理后，得出机器人在下一时刻将会处在什么样的状态。这个过程拟合的是环境的作用，因而称之为环境建模。需要指定拟合对象所代表的损失函数或者目标函数为：

其中，L_d代表环境模型训练时的损失函数值，s_t代表待当前时刻状态，s_t+1代表下一时刻的待预测状态；f(s_t,a_t)代表模型拟合后预测的下一时刻状态，a_t代表该时刻机器人的动作指令。上述符号中，下标d代表动力学模型(dynamic model)，t代表时刻。

3-2.强化学习部分中的回报函数：

强化学习中，需要人为指定回报函数，也就是reward函数。回报函数的指定，与具体任务内容相关。具体地，将各种复杂路线任务抽象成以小段直线为组成部分的分段任务，因而设计回报函数时仅仅需要考虑在直线行进状态下的机器人奖励策略。从鼓励机器人前进速度，减少机器人偏移程度，减少机器人行进不稳定性出发，设计reward函数如下：

其中，r_mb表示回报函数，σ_f和σ_d、σ_h为各项的因数，调节各项所占比重，p_f表示机器人当前位置，p’_f表示机器人下一时刻实际位置；d_x表示机器人在X轴上偏移预定路线的数量，d_y表示机器人在y轴上偏移预定路线的数量。h_u表示机器人偏离稳定机身高度的数量。上述符号中，下标mb表示model-based方法，f表示执行动作后的最终位置(final)，u表示未依照期望(unexpected)。

3-3.训练目标：

总的训练目标为达成累积回报函数的最大化。强化学习通过上述环境模型，在模拟推演中，不断计算回报函数，不断评估当前动作的价值，优选出最佳动作之后，再实施到实际的环境中。而最终的目的是在整个任务执行的过程中，达到最大的累积回报期望函数：

其中，γ代表折扣因子，它的作用是使得最靠近当前步骤的回报值所起的作用最大。S为机器人当前状态，r为当前状态所得到的回报函数值。最终目标是找到使得累积回报期望函数最大化神经网络参数值，即建模越精确，最后所得到的累积回报函数值越大。

步骤(4)通过模型预测控制(Model Predictive Control，MPC)算法对步骤(3)中的深度网络模型中得到的预测状态进行评估与策略优选，直至选出适当的下一步动作决策，其具体过程如下：

首先，MPC随机生成K个动作策略，实施到上述的环境模型中，得到相应的预测状态。这一步即使用前期组件的图网络环境模型，进行预测推理；

其次，MPC对K个动作策略所得到的预测状态进行评估，即计算其回报函数。通过衡量K个动作策略相应的reward函数值，得到最优的动作决策。

最后，MPC将最优动作实施到实际环境中去，完成实际的任务。以上步骤中，在真实环境中产生的所有数据将被收集起来，用于在下一次训练循环中训练环境模型。

本发明有益效果：

本发明针对前沿的机器人强化学习控制技术，首次使用图网络作为机器人力传递机制的拟合模型，显著提高了机器人在使用model-based强化学习的过程中对环境进行建模的精确度，使得机器人具备更加优异的自主控制机体的智能，提升复杂任务下机器人的机动能力。同时，本发明使用基于图网络的强化学习模型，成功地完成了之前强化学习并不能很好完成的动作提升了机器人自主控制的稳定性和可靠性，使得机器人自主控制更加便于实际应用。

附图说明

图1是本发明方法的单次训练流程示意图。

图2是本发明方法中进行环境建模时的图网络构建过程示意图。

图3是本发明方法中强化学习过程示意图。

图4为本发明方法中训练数据收集过程示意图。

具体实施方式

下面结合附图对本发明做进一步具体说明。

如图1所示，本发明提供一种基于图神经网络的机器人强化学习方法。

步骤(1)所述的根据机器人的物理结构建立力传输线路图，为后续图网络建立步骤的实施建立结构基础，具体如下：

1-1.为了满足实验需求，我们利用OpenAI所提供的Ant机器人，在mujoco仿真环境中进行仿真实验。Mujoco仿真环境是一种对物理世界环境进行参数仿真与模拟，对真实物理世界的重力加速度，碰撞过程中的能量，以及转动过程中的转动惯量进行仿真的仿真软件。Ant机器人是一种四足机器人，具备8个自由度的行动方向，能够完成各种复杂的机器人任务。操纵机器人进行动作实质上是操纵机器人腿部关节的扭矩值。

1-2.首先，我们使Ant机器人在mujoco仿真环境中进行随机行走，达到人为规定的步数，在仿真环境中，机器人每个关节会人为产生一个力矩，这个力矩会直接传递到直接连接的机械臂上，这部分力矩为原始力矩。而机器人是一个整体，各部分直接存在机械连接，连接有刚性连接，也有铰链式连接。不论哪种连接，具有相互连接关系的各个关节之间都会存在力矩的互相影响。在这种影响之下，原始力矩仅仅是实际关节承受力矩的一部分，而真正的力矩值应该是经过动力学计算之后，将其他相连关节所产生的力矩，以特定的权值叠加在原始力矩上，构成实际力矩值。而这个权值的具体值，就与关节之间的连接方式和连接关系有关。表1表示Ant机器人各个关节的连接关系：

表1

1-3.以表1为准，得出机器人的连接关系图，也就得到了力矩的传递路径图。以此图为基础，可以确定后续步骤中图神经网络的连接关系，进而进行图网络的训练和推理。这一步骤非常关键，依据机器人的力矩传播关系去确定图网络的连接关系，从内在原理上揭示了二者的联系。在后续的训练和推理过程中，图神经网络经过推理，单个节点的力矩特征，受到各个相关联节点的影响，通过图神经网络的节点特征更新机制，各个相关联的节点所受力矩以一定的权值叠加在当前节点关节上，最终通过训练，获得与机器人力传递机制一致的力矩传播推理能力。

当前这一步骤不需要机器人执行某项任务，而是与机器人自身物理结构相关。这一步骤根据机器人的不同而不同，是事先人为设计好的，在进行了这一步之后，机器人将具备自我结构的意识能力。

步骤(2)所述的根据机器人在仿真环境下收集到的信息，构建图神经网络并训练，使得机器人具备图神经网络的推理能力，具体如下：

图神经网络存在很多改进和演变版本。目前使用最多的图神经网络即为图卷积网络GCN。在图卷积网络中，实现图推理的原理和二维图像处理中的卷积操作非常近似，具有一个卷积核，可以将其看作图网络中的权值矩阵，使用这个权值矩阵，可以实现一个节点对周围节点的特征聚集作用，对应于机器人单个关节对周围关节力矩的聚集叠加作用。因而图神经网络特征传递和机器人的力传递具有相同的机制。

具体地，将机器人每个关节的扭力信息作为特征，输入至图神经网络的节点，以机器人的物理连接信息为基础，建立节点之间的连接关系，在连接关系上赋予可训练权值，如图2所示。训练时，在仿真环境中收集到的信息，通过数据的预处理环节，将对应关节扭力信息不断输入图网络节点，并不断将机器人下一时刻状态与图神经网络推理结果进行比对以得出梯度。图神经网络与机器人力传递机制对比如表2所示：

表2

目标	特征	传递机制	传递依据	最终结果
					机器人结构	扭力矩	作用力与反作用力	力学关系	运动
图神经网络	特征向量	连接关系赋予权值	图卷积操作	图特征变化

以图神经网络为基础，在实际的模型中还需要加入后续的处理网络，用以处理和拟合其他动力学特性。由于力矩推理之后，每个关节处得到的是复合后的扭力矩，还不可以直接作为机器人下一时刻的状态预测。根据公式1，机器人的动力学的传递过程为二阶表达过程，这一特性在深度学习中通常使用两层全连接网络实现拟合，因而这里也采用两层的多层感知机来实现对动力学推导过程的拟合。

为了证明实际的动力学预测过程与我们设计的方式相拟合，我们采用了各种结构的神经网络组合，用以作为对比试验。实验中采用了之前工作中经常出现的单纯使用多层感知机堆叠的方式，构建环境拟合网络模型；与其对应，对之前工作中出现的CNN和RNN构建环境模型的方式也进行了比对；对于以上几种模型，同样使用了各种模型的组合模型进行了试验。实验证明，在拟合能力上，本专利提出的模型在RMSE损失这一指标下，达到了较为理想的提升水准，在准确率方面，我们达到了一个百分点到两个百分点的提升，加之数据预处理时使用了归一化处理，实际单位下，图网络与两层感知机的组合实现了厘米级别的机器人动力学预测水准。这种预测水准的提升，直接反映在了在后续步骤中，机器人执行规定任务时的高效性与精确性。表3反映了图网络-双层感知机模型与其他模型组合的收敛情况对比：

表3

步骤(3)所述的根据构建好的图网络环境模型，进行未来机器人状态的预测，实现强化学习，具体如下：

首先，机器人在环境中启动，根据当前训练决策模型进行动作，收集到当前机器人状态信息。接下来，机器人将当前机器人状态信息，以及当前决策模型对下一步机器人动作的决策一起输入图网络环境模型，进行图网络的前向推理，预测下一步骤的机器人状态。然后，机器人的将在决策过程中执行多次图网络预测推理，实现机器人对多个决策的备选方案储备。在这个过程中，对于每一个预测状态，都会计算相应的回报函数值，评估当前决策动作对机器人所产生的价值，如图3所示。

步骤(4)所述的通过MPC控制器，实现机器人控制策略的择优，并收集数据，用于下一次迭代中对环境模型的训练，具体如下：

4-1.根据基于模型的强化学习的准则，对环境建模越真实，拟合越准确，则强化学习得到的效果越理想。在本发明中，以图神经网络对机器人的物理特征进行建模，不断地收集数据，以期能够对环境模型进行反复训练。首次训练环境模型，使用的是随机数据，即机器人随机动作产生的数据集。后续随着任务的执行，产生新的机器人行走数据集，实现数据的增强流程，如图4。

4-2.在环境模型和MPC控制器的配合下，当达到3次循环迭代训练之后，机器人智能体获得了自主控制并执行路径跟踪的能力。设计测试任务是由多个简单的转向任务，合成一个复杂的之字形路线跟随任务，并以到达路径点为准判定任务的执行完成。最终在各种模型中，本专利设计模型表现优于各种同等规模的模型，如表4所示：

表4

从表中可以看出，在各个模型中，本专利提出的图网络复合模型，在最终的之字形行走任务中，到达了所有任务规定的路径点，而其他模型均未能最终到达之字形路径的终点，以“x”代表未能到达。同时，在到达相同的路径点的模型对比中，本专利提出的模型能够达到最小的步数与最高的回报函数值，这说明模型的建模精确性，以及算法整体的高效性。

Claims

1.一种基于图神经网络强化学习的机器人自主控制方法，其特征在于包括如下步骤：

步骤(1)、根据环境反馈给机器人传感器的监督信息和机器人的物理结构，组建机器人的特征图；

步骤(2)、根据步骤(1)得到的特征图，输入到图神经网络；在训练阶段使用机器人感知到的监督信息对图神经网络进行训练；

步骤(3)、使用步骤(2)训练完成的图神经网络，对当前感知状态信息进行处理，得到更新后的机器人状态信息，精确还原机器人各部分互相之间的影响情况，预测下一时刻机器人的感知状态信息；

步骤(4)、使用步骤(1)、(2)、(3)建立起来的基于机器人传感器的图神经网络环境模型，以及模型预测控制算法，对机器人下一步动作进行决策；

步骤(1)所述的机器人的物理结构，是指在机器人的运动过程中，各部分组件在关节处电机的作用下，进行力传递的物理链接；根据机器人学中的力矩传递理论，机器人每个关节角度变化量可表示为：

为关节转动惯量；

通过公式(1)描述可以得到机器人各个关节的物理结构在运动过程中对力矩传递以及各个关节角度状态的影响；现将所有关节运动作为整体来看，可将物理上有链接的关节作为图神经网络的各个节点，其互相影响作用使用图网络中的节点连接代表，以此构建起图神经网络的整体框架。

2.根据权利要求1所述的一种基于图神经网络强化学习的机器人自主控制方法，其特征在于步骤(2)所述图神经网络的使用，可以通过将各个关节当前时刻特征输入图神经网络节点，而将图神经网络的连接关系根据机器人的物理连接关系进行分配，具体如下：

2-1.图卷积神经网络中，单个节点的特征更新公式如下：

其中，H表示单个节点更新后的特征表示，

表示单个节点广义邻接矩阵，

表示单个节点的广义度矩阵，X即为单个节点的原始特征表示，W为针对每个连接关系的权值矩阵；

2-2.构建图卷积神经网络后，各个关节真实的角度变化如公式(1)所示，而在深度神经网络中，通过增加两层全连接的形式去拟合这种转动惯量，原因是待拟合的部分为二阶表达式，即公式(1)，这一动力学关系主要由以下关系决定：

其中，T_con为两个关节之间在空间上的转移矩阵，R_con和t_con分别为两个关节之间的旋转和平移关系矩阵；通过这一关系，我们得到不同关节之间的空间位置关系，并做一阶导数得到加速度之间的关系，如下所示：

2-3.加速度可以使用雅克比矩阵来表示，g代表三个空间方向的扭力分量：

其中，

而角加速度与扭矩的关系如下：

g＝I_r·β，其中：

其中，g代表三个空间方向的扭力向量，I_r为关节转动惯量。

3.根据权利要求2所述的一种基于图神经网络强化学习的机器人自主控制方法，其特征在于步骤(3)构建一个拟合环境特性，代替真实环境，在强化学习策略规划阶段进行输入输出的深度神经网络，具体分为以下步骤：

3-1.指定拟合对象所代表的损失函数或者目标函数为：

其中，L_d代表环境模型训练时的损失函数值，s_t代表待当前时刻状态，s_t+1代表下一时刻的待预测状态，f(s_t,a_t)代表模型拟合后预测的下一时刻状态，a_t代表该时刻机器人的动作指令；

3-2.强化学习部分中的回报函数：强化学习中，需要人为指定回报函数，也就是reward函数，设计reward函数如下：

其中，r_mb表示回报函数，σ_f和σ_d、σ_h为各项的因数，调节各项所占比重，p_f表示机器人当前位置，p’_f表示机器人下一时刻实际位置；d_x表示机器人在X轴上偏移预定路线的数量；d_y表示机器人在y轴上偏移预定路线的数量；h_u表示机器人偏离稳定机身高度的数量；

3-3.训练目标：总的训练目标为达成累积回报函数的最大化；强化学习通过上述环境模型，在模拟推演中，不断计算回报函数以评估当前动作的价值，优选出最佳动作之后，再实施到实际的环境中；而最终的目的是在整个任务执行的过程中，达到最大的累积回报期望函数：

其中，γ代表折扣因子，它的作用是使得最靠近当前步骤的回报值所起的作用最大；S为当前状态，r为当前状态所得到的回报函数值；最终目标是找到使得累积回报期望函数最大化神经网络参数值，即建模越精确，最后所得到的累积回报函数值越大。

4.根据权利要求3所述的一种基于图神经网络强化学习的机器人自主控制方法，其特征在于步骤(4)通过模型预测控制算法对步骤(3)中的深度网络模型中得到的预测状态进行评估与策略优选，直至选出适当的下一步动作决策，其具体过程如下：

首先，MPC随机生成K个动作策略，实施到上述的环境模型中，得到相应的预测状态；

其次，MPC对K个动作策略所得到的预测状态进行评估，即计算其回报函数；通过衡量K个动作策略相应的reward函数值，得到最优的动作决策；

最后，MPC将最优动作实施到实际环境中去，完成实际的任务；以上步骤中，在真实环境中产生的所有数据将被收集起来，用于在下一次训练循环中训练环境模型。