CN111580385A

CN111580385A - 基于深度强化学习的机器人行走控制方法、系统及介质

Info

Publication number: CN111580385A
Application number: CN202010393932.2A
Authority: CN
Inventors: 杨传宇; 蒲灿
Original assignee: Shenzhen Amigaga Technology Co ltd
Current assignee: Shenzhen Amigaga Technology Co ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-08-25

Abstract

本发明提供的基于深度强化学习的机器人行走控制方法，设置奖励机制；构建多专家神经网络；所述多专家神经网络包括一个顶层网络和至少一个底层网络；利用所述奖励机制和采集的样本数据对顶层网络进行训练；在机器人运行过程中，顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合，并根据融合结果输出控制指令，将所述控制指令发送给机器人，控制机器人中关节的电机。该方法可以在不同的专家网络之间进行连续切换，增加了组合的多样性，改善现有机器人运动步态非对称、非自然的缺陷。该方法将人类动作捕捉获得的行走步态作为训练学习的参考对象，能让多专家神经网络更快地收敛到像人一样自然的周期性对称行走策略。

Description

基于深度强化学习的机器人行走控制方法、系统及介质

技术领域

本发明属于机器人技术领域，具体涉及基于深度强化学习的机器人行走控制方法、系统及介质。

背景技术

常见的机器人运动控制方法大多数都需要花费大量的人力与时间建造精确的模型。随着深度强化学习等其他机器学习算法理论的不断完善，以及电脑运算量的不断增加，机器人运动控制方法中深度强化学习已经成为传统控制算法的替代品。这样深度强化学习算法就能将大量负担转移到了计算机计算中，比起传统控制方法，节省了人力与时间成本，解放了大量劳动力。

但是现有采用深度强化学习的机器人运动控制方法中，强化学习的结果很难把控，可能会学出一些人们意想不到的非理想行为。以双足与四足机器人行走为例，人类与动物的运动步态是周期性并且对称的。但是在缺乏约束的情况下，采用机器学习方法学出来的运动步态往往是非对称并且非自然的。

发明内容

针对现有技术中的缺陷，本发明提供一种基于深度强化学习的机器人行走控制方法、系统及介质，改善现有机器人运动步态非对称、非自然的缺陷。

一种基于深度强化学习的机器人行走控制方法，包括以下步骤：

设置奖励机制；

构建多专家神经网络；所述多专家神经网络包括一个顶层网络和至少一个底层网络；

利用所述奖励机制和采集的样本数据对顶层网络进行训练；

在机器人运行过程中，顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合，并根据融合结果输出控制指令，将所述控制指令发送给机器人中关节的电机。

优选地，所述奖励机制包括模仿奖励和任务奖励；

模仿奖励用于引导机器人学习并模仿人类行走步态；任务奖励用于引导机器人以指定速度朝着指定方向行走。

优选地，所述模仿奖励中的奖励项包括以下一个或多个的组合：

关节角度、关节角速度和足部接触信息；

所述任务奖励中的奖励项包括以下一个或多个的组合：

胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。

优选地，所述底层网络由该底层网络中第一层到第三层神经元的权重和偏置构建；

所述顶层网络由该顶层网络中第一层到第三层神经元的权重和偏置构建。

优选地，采集到的样本数据通过以下方法进行过滤：

当通过样本数据检测到机器人摔倒时，删除该样本数据。

优选地，所述对顶层网络进行训练具体包括：

采用具有actor-critic架构的强化学习算法对所述顶层网络进行训练。

优选地，所述将所述控制指令发送给机器人中关节的电机具体包括：

利用PD控制器将所述控制指令转换为目标力矩；

将所述目标力矩发送给机器人中关节的电机。

第二方面，一种基于深度强化学习的机器人行走控制系统，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行以下方法：

设置奖励机制；

利用所述奖励机制和采集的样本数据对顶层网络进行训练；

优选地，所述处理器被配置用于调用所述程序指令，具体执行以下方法：

利用PD控制器将所述控制指令转换为目标力矩；

将所述目标力矩发送给机器人中关节的电机。

第三方面，一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行以下方法：

设置奖励机制；

利用所述奖励机制和采集的样本数据对顶层网络进行训练；

由上述技术方案可知，本发明提供的基于深度强化学习的机器人行走控制方法、系统及介质，相对于传统多专家神经网络的离散切换方法，可以在不同的专家网络之间进行连续切换，增加了组合的多样性，改善现有机器人运动步态非对称、非自然的缺陷。该方法将人类动作捕捉获得的行走步态作为训练学习的参考对象，能让多专家神经网络更快地收敛到像人一样自然的周期性对称行走策略。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明实施例一提供的机器人行走控制方法的流程图。

图2为本发明实施例一提供的actor-critic强化学习训练方法的架构。

图3为本发明实施例一中时序相位信息的表述方法。

图4为本发明实施例三提供的多专家神经网络的框架图。

图5为本发明实施例三提供的机器人行走控制方法的框架图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

实施例一：

一种基于深度强化学习的机器人行走控制方法，参见图1、2，包括以下步骤：

S1：设置奖励机制；

具体地，奖励在深度强化学习中起到引导机器人学习的作用，因此奖励机制设计的好坏直接决定了最终训练的结果。

S2：构建多专家神经网络；所述多专家神经网络包括一个顶层网络和至少一个底层网络；

具体地，该方法中的多专家神经网络分上下两层。底层网络是专家网络，各自负责不同的任务，具体任务类型由神经网络自动地根据具体环境与任务进行针对性学习，无需人为干预。顶层网络是切换网络，负责根据机器人运行时实时反馈的动作捕捉数据切换或启用相应的底层网络。本申请提供的多专家神经网络能够在不同的专家网络之间进行连续切换。顶层网络可以在训练过程中自行学习底层网络的切换逻辑。底层网络也会在训练过程中与顶层网络同步学习策略。相比与传统离散切换的多专家神经网络结构，该方法在机器人行走控制过程中，连续切换比传统的离散切换具有更大优势。

S3：利用所述奖励机制和采集的样本数据对顶层网络进行训练；

具体地，由于不同机器人的机电设计中包括不同的传感器，因此多专家神经网络的状态输入量可以根据实际应用进行调整。例如状态输入量可设置为关节角度、关节速度、胯部线速度、胯部角速度、重心相对胯部位置、足部末端相对胯部位置、足部接触力等等。除了以上代表机器人身体姿态的状态输入量以外，该方法的状态输入量还可以包括时序相位信息，这样就可以提供时间参考，将机器人姿态与动作捕捉的双足步态在相位上对应起来。参见图3，时序相位信息可以表达为围绕着单位圆边缘逆时针运动的坐标点x＝cos(θ)，y＝sin(θ)。

优选地，本申请可以采用具有actor-critic架构的强化学习算法对所述顶层网络进行训练，例如Soft actor critic(SAC)，Proximal Policy Optimization(PPO)，DeepDeterministic Policy Gradient(DDPG)，Trust Region Policy Optimization(TRPO)，Asynchronous Advantage Actor Critic(A3C)等强化学习算法。

S4：在机器人运行过程中，顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合，并根据融合结果输出控制指令，将所述控制指令发送给机器人中关节的电机。

相对于传统多专家神经网络的离散切换方法，本发明提出的多专家神经网络可以在不同的专家网络之间进行连续切换，增加了组合的多样性，具有更强的自适应性，能适应复杂环境的变化情况。该方法的顶层网络可以根据环境的变化针对性地启用相应的专家网络，人类动作捕捉的行走方式可以作为训练学习的参考对象，能让多专家神经网络更快地收敛到像人一样自然的周期性对称行走策略。顶层网络与底层网络之间的神经连接可求导，梯度可以正常回传。因此，在多专家神经网络的训练过程中，顶层网络与底层网络可以作为一个整体进行训练。

另外，该方法在采集样本数据的过程中，可以对机器人的状态进行随机初始化，增加样本多样性。由于样本数据的好坏会影响到训练的最终效果。对于在执行大多数双足与四足行走等足式行走任务时，由于机器人摔倒在地上的样本数据没有用处，所以该方法在采集样本数据的过程中，可以在机器人摔倒时删除采样数据、终止采样或重置采样过程，防止无用劣质的样本数据进入样本池。该方法可以通过机器人胯部高度或上身与地面接触状态判断机器人是否摔倒。若机器人胯部低于某一高度，或者是机器人上半身接触到了地面时，则认为检测到机器人摔倒。

实施例二：

实施例二在实施例一的基础上，限定了其中一种奖励机制方案。

所述奖励机制为：

r＝Ar_imitatin+Br_task；

其中，r为奖励机制的输出；r_imitatin为模仿奖励，A为模仿奖励的权重，模仿奖励用于引导机器人学习并模仿人类行走步态；r_task为任务奖励，B为模仿奖励的权重；任务奖励用于引导机器人以指定速度朝着指定方向行走。

具体地，该方法中，A和B均可以取值为0.5，这样模仿奖励和任务奖励在多专家神经网络的训练过程中权重相同。本实施例中奖励机制由模仿奖励和任务奖励两部分组成。模仿奖励与任务奖励项由更基础的基本奖励项构成。模仿奖励为双足机器人提供人类行走步态提供参考，为深度强化学习算法提供人类行走步态的先验知识，从而加快了加双足机器人学习行走策略的速度。任务奖励用于指导机器人学习行走速度、行走方向、身体姿态、身体高度等。

优选地，所述模仿奖励中的奖励项包括以下一个或多个的组合：关节角度、关节角速度和足部接触信息；例如设置模仿奖励为：

r_imitatin＝w_{jo int}r_{jo int}+w_{jo in tvel}r_{jo int vel}+w_contactr_contact；

其中，w_{jo int}、w_{jo int vel}、w_contact为预设的权重值，可以根据具体的机器人作出相应的调整；

r_{jo int}为关节角度，

K为径向基函数，q为机器人通过关节内部编码器测量到的关节角度，

为预设的目标关节角度，α_i为预设值，不同奖励项的预设值α_i不一样；

r_{jo int vel}为关节角速度，

为机器人通过关节内部编码器测量到的关节角速度，

为预设的目标关节角速度；

r_contact为机器人通过足部压力传感器检测到的足部接触信息，当检测到单脚触地时，r_contact＝1，否则r_contact＝0。足部接触信息为二进制离散信息，1代表机器人足部与地面有接触，反之为0。

具体地，模拟奖励中的目标关节角度

和目标关节角速度

由人类动作捕捉数据提供。

具体地，奖励机制设计过程中用到的径向基函数如下所示：

该径向基函数将物理量x与其目标值

的差值转换成奖励值。x与

之间的误差越低，奖励值越高。α能够影响到径向基函数K分布的宽度，α越低，径向基函数分布越宽，α越高，径向基函数分布越窄，α由具体场景决定。

优选地，所述任务奖励中的奖励项包括以下一个或多个的组合：胸部俯仰角、胸部滚转角、跨部俯仰角、跨部滚转角、跨部高度、跨部侧向偏移速度、跨部前向速度、跨部垂直速度、跨部偏航角速度、存活离散奖励、关节力矩。

例如设置任务奖励为：

r_task＝w_torsopitchr_torsopitch+w_torsorollr_torsoroll+w_basepitchr_basepitch+w_baserollr_baseroll

+w_baseheightr_baseheight+w_baseyvelr_baseyvel+w_basexvelr_basexvel+w_basezvelr_basezvel

+w_baseyawvelr_baseyawvel+w_aliver_alive+w_torquer_torque

其中，w_{torso pitch}、w_{torso roll}、w_{base pitch}、w_{base roll}、w_{base height}、w_{base yvel}、w_{base x vel}、w_{base z vel}、w_{base yaw vel}、w_alive、w_torque为预设的权重值，可以根据具体的机器人进行相应的调整；

r_{torso pitch}为胸部俯仰角，

θ_{torso pitch}为机器人实时测量到的胸部的俯仰角，

为预设的目标胸部俯仰角；

r_{torso roll}为胸部滚转角，

θ_{torso roll}为机器人实时测量到的胸部的滚转角，

为预设的目标胸部滚转角；

r_{base pitch}为跨部俯仰角，

θ_{base pitch}为机器人实时测量到的跨部的俯仰角，

为预设的目标跨部俯仰角；

r_{base roll}为跨部滚转角，

θ_{base roll}为机器人实时测量到的跨部的滚转角，

为预设的目标跨部滚转角；

r_{base height}为跨部高度，

h为机器人实时测量到的跨部的高度，

为预设的目标跨部高度；

r_{base y vel}为跨部侧向偏移速度，

为机器人实时测量到的跨部的侧向偏移速度，

为预设的目标跨部侧向偏移速度；

r_{base x vel}为跨部前向速度，

为机器人实时测量到的跨部的前向速度，

为预设的目标跨部前向速度；

r_{base z vel}为跨部垂直速度，

为机器人实时测量到的跨部的垂直速度，

为预设的目标跨部垂直速度；

r_{base yaw vel}为跨部偏航角速度，r_{base yaw vel}＝K(ω,0,α11)，ω为机器人实时测量到的跨部的偏航角速度，目标偏航角速度为0；

r_alive为存活离散奖励，当机器人实时测量到中上身部分与地面接触时，r_alive＝1，否则r_alive＝0；

r_torque为关节力矩限制，r_torque＝K(τ,0,α₁₂)，τ为机器人实时测量到的关节的力矩，目标力矩为0。

具体地，任务奖励中的目标物理量可以根据具体的机器人进行设置，用于标识对称、自然的人类行走步态。

本发明实施例所提供的方法，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例三：

实施例三在上述实施例的基础上，限定了其中一种多专家神经网络。

参见图4，所述第n个底层网络为：

aⁿ＝Tanh(Wⁿ ₂ReLU(Wⁿ ₁ReLU(Wⁿ ₀X+Bⁿ0)+Bⁿ1)+Bⁿ2)；

其中，Wⁿ ₀、Wⁿ ₁、Wⁿ ₂分别为第n个底层网络中第一层到第三层神经元的权重；Bⁿ ₀、Bⁿ ₁、Bⁿ ₂分别为第n个底层网络中第一层到第三层神经元的偏置；Re LU和Tanh为激活函数；aⁿ为述第n个底层网络的输出值。

具体地，每个专家网络都设有相应的参数，专家网络的数量可以根据具体的使用场景进行定义。

所述顶层网络为：

其中，W₀ ^g、W₁ ^g、W₂ ^g分别为顶层网络中第一层到第三层的权重；

分别为顶层网络中第一层到第三层的偏置；Soft max为激活函数；g为顶层网络的输出值；g的维度与底层网络数量一致，g负责切换底层网络的输出值aⁿ；

其中，M为底层网络的总数；a为所述控制指令，所述控制指令为目标关节角度；g_n为g中第n个元素的值；控制指令a为所有底层网络的输出值aⁿ的加权和。

具体地，g的维度与专家网络的数量一致。假定专家网络的数量为n，g的维度也为n。该方法中对M个底层网络的输出进行加权平均后进行融合，利用g对底层网络输出的aⁿ进行合成，输出最终的控制指令。

参见图5，所述将所述控制指令发送给机器人中关节的电机具体包括：

利用PD控制器将所述控制指令转换为目标力矩；

将所述目标力矩发送给机器人中关节的电机。

具体地，控制指令转换方法如下：

其中，q_t为目标关节角度，q_m为机器人实时动作捕捉数据中关节角度，

为机器人实时动作捕捉数据中关节速度，τ为转换得到的目标力矩。不同机器人中不同关节所需要的P增益与D增益不一样。

参见图5，该方法可以采用内外双层反馈闭环环节，外层是25Hz神经网络控制闭环，内层是500HzPD力矩控制闭环。外层控制环提供关节目标角度，内层控制环将目标角度转化成电机控制力拒。25Hz的神经网络控制环与500Hz的PD控制环的参数可以根据具体机器人进行调整。

考虑到神经网络需要花费更多时间去计算，外层神经网络闭环频率需要设定得比内层PD控制闭环低。控制频率理论上越高越好，在机器人硬件与软件允许的情况下，可以适当提高内外闭环的控制频率。

实施例四：

一种基于深度强化学习的机器人行走控制系统，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行以下方法：

设置奖励机制；

利用所述奖励机制和采集的样本数据对顶层网络进行训练；

优选地，所述奖励机制包括模仿奖励和任务奖励；

关节角度、关节角速度和足部接触信息；

所述任务奖励中的奖励项包括以下一个或多个的组合：

优选地，采集到的样本数据通过以下方法进行过滤：

当通过样本数据检测到机器人摔倒时，删除该样本数据。

优选地，所述对顶层网络进行训练具体包括：

利用PD控制器将所述控制指令转换为目标力矩；

将所述目标力矩发送给机器人中关节的电机。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

本发明实施例所提供的系统，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例五：

一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行以下方法：

设置奖励机制；

利用所述奖励机制和采集的样本数据对顶层网络进行训练；

优选地，所述奖励机制包括模仿奖励和任务奖励；

关节角度、关节角速度和足部接触信息；

所述任务奖励中的奖励项包括以下一个或多个的组合：

优选地，采集到的样本数据通过以下方法进行过滤：

当通过样本数据检测到机器人摔倒时，删除该样本数据。

优选地，所述对顶层网络进行训练具体包括：

利用PD控制器将所述控制指令转换为目标力矩；

将所述目标力矩发送给机器人中关节的电机。

所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本发明实施例所提供的介质，为简要描述，实施例部分未提及之处，可参考前述方法实施例中相应内容。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于深度强化学习的机器人行走控制方法，其特征在于，包括以下步骤：

设置奖励机制；

利用所述奖励机制和采集的样本数据对顶层网络进行训练；

2.根据权利要求1所述机器人行走控制方法，其特征在于，

所述奖励机制包括模仿奖励和任务奖励；

3.根据权利要求2所述机器人行走控制方法，其特征在于，

所述模仿奖励中的奖励项包括以下一个或多个的组合：

关节角度、关节角速度和足部接触信息；

所述任务奖励中的奖励项包括以下一个或多个的组合：

4.根据权利要求1所述机器人行走控制方法，其特征在于，

所述底层网络由该底层网络中第一层到第三层神经元的权重和偏置构建；

5.根据权利要求1所述机器人行走控制方法，其特征在于，

采集到的样本数据通过以下方法进行过滤：

当通过样本数据检测到机器人摔倒时，删除该样本数据。

6.根据权利要求1所述机器人行走控制方法，其特征在于，所述对顶层网络进行训练具体包括：

7.根据权利要求1所述机器人行走控制方法，其特征在于，所述将所述控制指令发送给机器人中关节的电机具体包括：

利用PD控制器将所述控制指令转换为目标力矩；

将所述目标力矩发送给机器人中关节的电机。

8.一种基于深度强化学习的机器人行走控制系统，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行以下方法：

设置奖励机制；

利用所述奖励机制和采集的样本数据对顶层网络进行训练；

9.根据权利要求8所述机器人行走控制系统，其特征在于，所述处理器被配置用于调用所述程序指令，具体执行以下方法：

利用PD控制器将所述控制指令转换为目标力矩；

将所述目标力矩发送给机器人中关节的电机。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行以下方法：

设置奖励机制；

利用所述奖励机制和采集的样本数据对顶层网络进行训练；