CN111360834B

CN111360834B - 一种基于深度强化学习的仿人机器人运动控制方法及系统

Info

Publication number: CN111360834B
Application number: CN202010217670.4A
Authority: CN
Inventors: 任炬; 许人文; 张尧学
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2023-04-07
Anticipated expiration: 2040-03-25
Also published as: CN111360834A

Abstract

本发明公开了一种基于深度强化学习的仿人机器人运动控制方法及系统，方法包括：S1.仿真控制：获取仿人机器人的当前状态，根据所述当前状态以预设的深度强化学习模型计算确定仿人机器人各关节的目标角度；S2.PD控制：通过PD控制器，以所述目标角度作为控制目标，以关节的实际角度和关节力矩为反馈，确定关节的控制力矩，并根据所述控制力矩控制关节动作。本发明具有控制稳定性好、可靠性好等优点。

Description

一种基于深度强化学习的仿人机器人运动控制方法及系统

技术领域

本发明涉及仿人机器人运动控制技术领域，尤其涉及一种基于深度强化学习的仿人机器人运动控制方法及系统。

背景技术

仿人机器人具有巨大的应用潜力，可以部署在轮式机器人使用受限环境中，例如有障碍物地形，狭窄和高起的表面(例如楼梯)。但是，与轮式或履带式机器人相比，仿人机器人本质上是不稳定，而且由于其有限的支撑区域，较高的质心和有限的执行器功能，需要主动控制才能达到平衡。因此，仿人机器人的应用场景范围主要受到仿人机器人保持平衡的限制，以及应对干扰和不确定性的能力的限制。

经典的控制方法提出了各种各样的运动算法，但是这些算法缺乏通用性，而且是基于简化模型进行训练，抗干扰能力差。近年来，强化学习算法应用于仿人机器人运动控制，但仍存在面临调参困难，训练缓慢等问题，难以稳定、可靠地实现仿人机器人的运动控制。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种控制稳定性好、可靠性好的基于深度强化学习的仿人机器人运动控制方法及系统。

为解决上述技术问题，本发明提出的技术方案为：一种基于深度强化学习的仿人机器人运动控制方法，包括：

S1.仿真控制：获取仿人机器人的当前状态，根据所述当前状态以预设的深度强化学习模型计算确定仿人机器人各关节的目标角度；

S2.PD控制：通过PD控制器，以所述目标角度作为控制目标，以关节的实际角度和关节力矩为反馈，确定关节的控制力矩，并根据所述控制力矩控制关节动作。

进一步地，所述深度强化学习模型包括第一经验回放池和第二经验回放池；

所述第一经验回放池用于存储深度强化学习模型新产生的经验；

所述第二经验回放池用于存储深度强化学习模型新产生的经验和从所述第一经验回放池中剔除的旧经验；

所述深度强化学习模型按照预设的第一概率从所述第一经验回放池中抽取经验，以预设的第二概率从所述第二经验回放池中抽取经验，对神经网络进行训练。

进一步地，所述深度强化学习模型的奖励函数为多个奖励子项之和；所述奖励子项包括：调节上体姿态奖励、调节质量中心位置奖励、调节质量中心速度奖励和调节地面接触力奖励。

进一步地，所述奖励子项还包括：地面接触状态奖励和功耗奖励。

进一步地，所述仿真控制的控制频率小于所述PD控制的控制频率。

一种基于深度强化学习的仿人机器人运动控制系统，包括仿真控制模块和PD控制模块；

所述仿真控制模块用于获取仿人机器人的当前状态，根据所述当前状态以预设的深度强化学习模型计算确定仿人机器人各关节的目标角度；

所述PD控制模块用于以所述目标角度作为控制目标，以关节的实际角度和关节力矩为反馈，确定关节的控制力矩，并根据所述控制力矩控制关节动作。

与现有技术相比，本发明的优点在于：

1、本发明通过深度强化学习模型来确定仿人机器人关节的目标角度，再通过PD控制器来具体控制仿人机器人执行关节动作，可以有效提高仿人机器人运动控制中稳定性和可靠性。

2、本发明的深度强化学习模型采用两个经验回放池存储深度强化学习模型的经验，并按照一定比率从两个经验回放池中读取经验来对深度强化学习模型进行训练，可以有效提高深度强化学习模型的学习速度，提高深度强化学习模型的训练效率。

附图说明

图1为本发明的具体实施例的流程示意图。

图2为本发明的具体实施例仿真实验中仿人机器人结构模型示意图。

图3为本发明的具体实施例中深度确定性策略梯度网络的训练过程流程示意图。

图4为本发明的具体实施例中PD控制器控制机器人行走流程示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1所示，本实施例的基于深度强化学习的仿人机器人运动控制方法，包括：S1.仿真控制：获取仿人机器人的当前状态，根据当前状态以预设的深度强化学习模型计算确定仿人机器人各关节的目标角度；S2.PD控制：通过PD控制器，以目标角度作为控制目标，以关节的实际角度和关节力矩为反馈，确定关节的控制力矩，并根据控制力矩控制关节动作。

在本实施例中，以一个具体的仿人机器人模型为例进行说明，如图2所示，并选择行走作为仿人机器人运动方式。设仿人机器人模型是由头部，躯干，两条胳膊，两条腿组成，并基于真实人体测量数据进行构建。该模型包含十二个刚体，包含：头部，躯干和左、右大臂，左、右小臂和左、右大腿，左、右小腿和左、右脚。此外，该模型有以下十个关节：左、右髋关节、左、右膝关节，左、右踝关节，左、右肩关节，左、右肘关节。其中，髋关节和踝关节可以沿x轴(内侧-外侧)和y轴(前后)旋转，肩关节和肘关节可以沿x轴(左右)和z轴(上下)旋转。在模拟环境中添加了两个无摩擦的墙，以约束仿人机器人在矢状面上移动，因此脚踝的x轴旋转提供了大部分移动。脚踝的y轴旋转保持不变，这样当侧倾时，脚可以与地面进行稳固接触。膝关节被约束为仅绕x轴旋转，从而使系统具有总共14个自由度。根据人类的重量和高度，从人体测量表中计算出身体部分的质量和长度比例，同时将身体的形状和转动惯量简化为均匀的胶囊体形状，以加快模拟速度。设仿人机器人模型的高度设定为1.8米，重量为75公斤。模拟惯性测量单元(IMU)传感器连接到躯干中心，以测量其速度和加速度。力传感器建立在左、右脚底，用于检测地面接触力，所有关节角度和关节速度都可以从仿真环境中直接读取。需要说明的是，仿人机器人模型的结构、关节也可以是其它形态，运动类型也可以为其它运动，如手臂运动等。

在本实施例中，深度强化学习模型包括第一经验回放池和第二经验回放池；第一经验回放池用于存储深度强化学习模型新产生的经验；第二经验回放池用于存储深度强化学习模型新产生的经验和从第一经验回放池中剔除的旧经验；深度强化学习模型按照预设的第一概率从第一经验回放池中抽取经验，以预设的第二概率从第二经验回放池中抽取经验，对神经网络进行训练。深度强化学习模型的奖励函数为多个奖励子项之和；奖励子项包括：调节上体姿态奖励、调节质量中心位置奖励、调节质量中心速度奖励和调节地面接触力奖励。奖励子项优选还包括：地面接触状态奖励和功耗奖励。需要说明的是，当仿人机器人的运动形态不同，奖励函数相应变化，增加或删减奖励子项。

在本实施例中，调节上体姿态奖励r_pose如式(1)所示：

ω_torsoPitch为上身躯干俯仰角，

为上身躯干俯仰奖励，ω_pelvisPitch为下身盆骨俯仰角，

为下身盆骨俯仰奖励，ω_torsoRoll为上身躯干倾斜角，

为上身躯干倾斜奖励，ω_PitchRoll为下身盆骨倾斜角，

为下身盆骨倾斜奖励；在本实施例中，上体姿态由躯干和骨盆的俯仰和侧倾角度表示，并以骨盆和躯干的俯仰-侧倾角度的所需方向为0，即上身直立时的方向。

调节质量中心位置奖励r_{CoM_pos}如式(2)所示：

ω_xyCoM为质量中心的水平位置，

为水平位置的奖励，ω_zCoM为质量中心的垂直位置，

为垂直位置的奖励；在本实施例中，质量中心位置的奖励项分解为水平和垂直分量。对于水平质量中心的位置，目标位置是支持多边形的中心，以提供最大的干扰补偿。对于垂直质量中心的位置，机器人应直立并保持一定高度。

调节质量中心速度奖励

如式(3)所示：

式(3)中各参数的定义与上文相同。在本实施例中，质量中心速度类似于质量中心位置，质量中心速度的奖励被分解为两个分量：水平和垂直平面中的速度。质量中心速度在世界坐标系中表示。以最小化垂直运动作为目标，因此所需的垂直质量中心速度为0，而水平质量中心速度的所需速度是从捕获点得出的。并设捕获点仅在机器人与地面接触且没有打滑时才有效。

调节地面接触力奖励r_GRF如式(4)所示：

ω_Fleft为左脚的接触力矩，

为左脚接触力矩奖励，ω_Fright为右脚的接触力矩，

为右脚接触力矩奖励；在本实施例中，接触力必须均匀分布在两个脚之间，以保持稳定的稳健平衡。137kg的总质量每英尺产生671.3N的力。

地面接触状态奖励r_contact如式(5)所示：

k为预设的第一常数，l为预设的第二常数；第一常数和第二常数均为负数，且第一常数大于第二常数。优选k＝-2，l＝-10。在本实施例中，当机器人站立时，只有脚与地面接触，因此当双脚与地面或除脚与地面接触以外的身体部位失去接触时，将受到惩罚。

功耗奖励r_contact如式(6)所示：

ω_power为是预设的权重，j为关节的驱动器编号，J为关节的驱动器总数，τ^j为编号为j的驱动器的关节扭矩，q^j为编号为j的驱动器的关节角速度。

在本实施例中，上身躯干俯仰奖励

下身盆骨俯仰奖励

上身躯干倾斜奖励

下身盆骨倾斜奖励

水平位置的奖励

垂直位置的奖励

左脚接触力矩奖励

右脚接触力矩奖励

的具体计算方法如式(7)所示：

r_i＝exp(-α_i(x_target-x)²) (7)

式(7)中，r_i为计算得到的奖励值，x_target为奖励期望值，α_i为预设的归一化因子，x为奖励参数。

则深度强化学习模型的奖励函数如式(8)所示：

r＝r_pose+r_{CoM_pos}+r_{CoM_vel}+r_GRF+r_contact+r_power (8)

式(8)中各参数的定义与上文相同。

在本实施例中，深度强化学习模型采用深度确定性策略梯度网络，包括动作网络和评价网络，而动作网络和评价网络都具有两个隐藏层。第一层有400个神经元，第二层有300个神经元。动作网络的输出通过ReLU激活函数。深度确定性策略梯度网络在训练过程中，将训练经验存入经验回放池，本实施例中设置有第一经验回放池和第二经验回放池共2个经验回放池，可以存放70,000个经验，当存储20,000个经验时便开始训练。Actor和Critic的学习率分别设置为10^-8和2×10^-8。奖励折扣γ设置为0.99，训练批次为100个样本。深度确定性策略梯度网络根据前一步的速度、躯干俯仰角度、步长和ZMP(零力矩点)位置来决定下一个摆动脚的距离和速度。

在本实施例中，深度确定性策略梯度网络的动作网络输入参数为仿人机器人的当前状态，即各关节的当前角度作为状态特征，输出为各关节的目标角度。深度确定性策略梯度网络的评价网络的输入参数除了状态特征外，还将动作参数作为输入，动作参数的值会跳过第一隐藏层，直接转发到第二隐藏层。深度确定性策略梯度网络的网络输入由连续的状态特征组成，这些状态特征通过截止频率为10Hz的Butterworth滤波器进行滤波，而离散状态特征则保持不变。

在本实施例中，如图3所示，深度确定性策略梯度网络的训练过程为：1、初始化神经网络参数，初始化经验回放池；2、根据当前的状态s_t，深度确定性策略梯度网络计算得到在当前状态下的动作a_t，计算针对该动作a_t的奖励函数r_t，更新网络，在仿人机器人执行完动作a_t后，进入到下一个状态s_t+1，并将状态转换过程[s_t,a_t,r_t,s_t+1]存入第一经验回放池和第二经验回放池。第一经验回放池按照标准FIFO(先入先出)方式存放经验，因此，经验样本在第一经验回放池中的分布将大致对应于当前的策略。第二经验回放池不仅会存储深度确定性策略梯度网络在状态转换过程中产生的新的经验[s_t,a_t,r_t,s_t+1]，同时，当第一经验回放池存满后，第一经验回放池被抛弃的经验也会存入到第二经验回放池中，在第二经验回放池在存满后，按照与新的经验样本距离差大小来覆盖旧经验，其中距离差的计算方式可表示为式(9)所示：

式(9)中，i_overwrite为将被覆盖的旧经验，i为第二经验回放池中旧的经验样本，D为第二经验回放池中的经验样本集合，j为第二经验回放池中新的经验样本，d为状态动作空间的维度，D_N为状态动作空间的总维度，i_d为i样本的第d维度，j_d为j样本的第d维度，C_d为预设的与尺寸相关的缩放常数，优选

C为预设的常数，取决于数据库的大小和分布的属性。

在本实施例中，在通过第一经验回放池和第二经验回放池中存储的经验样本对神经网络进行训练时，在概率β从第一经验回放池中均匀随机抽取经验样本，以概率1-β从第一经验回放池中均匀随机抽取经验样本，对神经网络进行训练。

在本实施例中，具体控制仿人机器人的关节执行下一步动作，即执行目标角度时，采用PD控制：即通过PD控制器，以目标角度作为控制目标，以关节的实际角度和关节力矩为反馈，确定关节的控制力矩，并根据控制力矩控制关节动作。PD控制器用作低电平控制器，PD控制器因为具有弹簧阻尼特性，类似于系统的生物力学，可以很好的控制仿人机器人执行目标角度。PD控制器的输入是深度确定性策略梯度网络所计算得到的目标角度，输出是关节驱动装置的扭矩，并且，PD控制器以关节的实际角度和关节驱动装置的力矩为反馈，并对反馈信号进行滤波，滤波截止频率优选为50Hz，滤波方式优选为Butterworth滤波。

在本实施例中，PD控制器的控制过程如式(10)所示：

u＝K_p(q_target-q_measured)-K_dq'_mearsured (10)

式(10)中，u为PD控制器的输出，即PD控制器控制关节驱动器的动作步长，K_p和K_d分别是预设的PD增益，q_target为关节的目标角度，q_measured为测量得到的关节的当前角度，q'_mearsured为测量得到的关节的当前速度。

如针对仿人机器人在行走过程中，当抬起的脚接触地面时，仿人机器人开始围绕踝关节旋转，此时，髋关节需要根据踝关节移动，以使躯干保持笔直，并提供动力将躯干向前推动。此时，PD控制器的输出是髋关节的目标角速度，目的是保持躯干直立而不会产生过冲，因为过冲会导致躯干来回摆动并危及稳定性。理想情况下，躯干稍微向前倾斜以保持动力和平稳的自然步态。为此，本实施例通过PD控制器的残余误差来使躯干略微偏离Z轴。

在躯干俯仰相对于z轴保持不变的情况下，臀部的水平速度将与躯干中心的水平速度相同，即有v_t＝v_p和

其中v_t和v_p分别是躯干质心和髋关节的线速度，ω是围绕髋关节的大腿的角速度，

是围绕脚踝的角速度，围绕脚踝的角速度可以直接测量，满足下式：

α是腿部与Z轴方向的夹角，L是腿的长度。PD控制器对此进行控制的控制方程式可表示为：

其中，K为控制增益，Φ为躯干俯仰角，如果躯干俯仰角Φ大于目标值Φ₀，即Φ＞Φ₀，则

因此，俯仰角减小，反之亦然。控制增益K为

当选择目标俯仰接近零时，Φ₀＝0.02。

在本实施例中，如图4所示，针对仿人机器人行走运动时脚踝动作的特点，在脚离开地面的阶段，在深度确定性策略梯度网络确定脚踝关节的目标角度后，通过被动控制的方式来对脚踝关节进行控制。通过这种策略，其优点在于：(1)可以使脚与地面的接触更平滑；(2)保持倒立摆的动力特性；(3)当脚与地面接触时，需要最小的力来驱动身体围绕踝部；(4)减少了系统中的总噪声。进一步优选，将脚踝的阻尼系数设置为1，此阻尼量有助于吸收地面接触产生的影响，而不会妨碍挥杆动作。

具体地，在脚离开地面阶段，脚踝上将施加扭矩以推动身体向前移动。扭矩由当前的步行速度决定。目标是将仿人机器人的动量保持在一定范围内。如果给出了所需的步行速度，则有Δv＝v₀-v_desire，其中，Δv为所需速度，v₀为当前速度，v_desire为目标速度。如果躯干俯仰保持恒定，则躯干的角速度为零，ω_torso＝0。臀部的速度Δv_hip等于躯干中心的速度Δv_center，Δv_center＝Δv_hip。如果脚趾离开阶段时间短，则在脚趾抬起期间，在运动过程中位于身体后方的腿的髋关节角度保持大致相同，可以忽略后脚的动量。为了使躯干角速度ω_torso＝0，扭矩hip必须作用在运动过程中位于身体后方的腿的髋关节上：

其中，τ_hip为作用在髋关节上的扭矩，J_torso为躯干的惯性力矩，Δt为单位时间，

为单位时间内围绕脚踝转动的角速度。对于在运动过程中位于身体前方的腿的踝关节，有

τ为作用在踝关节上的扭矩，τ_c为由阻尼器引起的扭矩，τ_hip为作用在髋关节上的扭矩，Δt为单位时间，J_leg为运动过程中位于身体前方的腿围绕前踝关节的转动惯量，

为单位时间围绕脚踝转动的角速度，

l为腿的长度，m_l为腿的质量，β'为两腿之间的夹角，c为踝关节的阻尼系数。

本实施例通过上述的控制策略，可以有效的保证仿人机器人运动控制的稳定性和可靠性。需要说明的是，虽然在本实施例中只以仿人机器人的行走形态为例对运动控制进行说明，但本发明的技术方案并不只限定于对仿人机器人的行走运动控制。

在本实施例中，仿真控制的控制频率小于PD控制的控制频率。针对仿人机器人的行走运动形态，优选仿真控制的频率为小于等于50Hz，进一步优选为小于等于25Hz；PD控制的控制频率大于等于300Hz，进一步优选为大于等于500Hz。也就是说，通过深度确定性策略梯度网络的仿真控制，可以给出较大粒度的关节控制目标，再通过细粒度的PD控制，来具体控制关节实现上述控制目标。

本实施例的基于深度强化学习的仿人机器人运动控制系统，包括仿真控制模块和PD控制模块；仿真控制模块用于获取仿人机器人的当前状态，根据当前状态以预设的深度强化学习模型计算确定仿人机器人各关节的目标角度；PD控制模块用于以目标角度作为控制目标，以关节的实际角度和关节力矩为反馈，确定关节的控制力矩，并根据控制力矩控制关节动作。本实施例的基于深度强化学习的仿人机器人运动控制系统用于实现上述运动控制方法。

在本实施例中，深度强化学习模型包括第一经验回放池和第二经验回放池；第一经验回放池用于存储深度强化学习模型新产生的经验；第二经验回放池用于存储深度强化学习模型新产生的经验和从第一经验回放池中剔除的旧经验；深度强化学习模型按照预设的第一概率从第一经验回放池中抽取经验，以预设的第二概率从第二经验回放池中抽取经验，对神经网络进行训练。

在本实施例中，深度强化学习模型的奖励函数为多个奖励子项之和；奖励子项包括：调节上体姿态奖励、调节质量中心位置奖励、调节质量中心速度奖励和调节地面接触力奖励。奖励子项还包括：地面接触状态奖励和功耗奖励。仿真控制的控制频率小于PD控制的控制频率。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于深度强化学习的仿人机器人运动控制方法，其特征在于：

S2.PD控制：通过PD控制器，以所述目标角度作为控制目标，以关节的实际角度和关节力矩为反馈，确定关节的控制力矩，并根据所述控制力矩控制关节动作；

所述深度强化学习模型包括第一经验回放池和第二经验回放池；

2.根据权利要求1所述的基于深度强化学习的仿人机器人运动控制方法，其特征在于：所述深度强化学习模型的奖励函数为多个奖励子项之和；所述奖励子项包括：调节上体姿态奖励、调节质量中心位置奖励、调节质量中心速度奖励和调节地面接触力奖励。

3.根据权利要求2所述的基于深度强化学习的仿人机器人运动控制方法，其特征在于：所述奖励子项还包括：地面接触状态奖励和功耗奖励。

4.根据权利要求1至3任一项所述的基于深度强化学习的仿人机器人运动控制方法，其特征在于：所述仿真控制的控制频率小于所述PD控制的控制频率。

5.一种基于深度强化学习的仿人机器人运动控制系统，其特征在于：包括仿真控制模块和PD控制模块；

所述PD控制模块用于以所述目标角度作为控制目标，以关节的实际角度和关节力矩为反馈，确定关节的控制力矩，并根据所述控制力矩控制关节动作；

6.根据权利要求5所述的基于深度强化学习的仿人机器人运动控制系统，其特征在于：所述深度强化学习模型的奖励函数为多个奖励子项之和；所述奖励子项包括：调节上体姿态奖励、调节质量中心位置奖励、调节质量中心速度奖励和调节地面接触力奖励。

7.根据权利要求6所述的基于深度强化学习的仿人机器人运动控制系统，其特征在于：所述奖励子项还包括：地面接触状态奖励和功耗奖励。

8.根据权利要求5至7任一项所述的基于深度强化学习的仿人机器人运动控制系统，其特征在于：所述仿真控制的控制频率小于所述PD控制的控制频率。