CN112782973A

CN112782973A - 基于双智能体协作博弈的双足机器人行走控制方法和系统

Info

Publication number: CN112782973A
Application number: CN201911082461.7A
Authority: CN
Inventors: 王宇; 郑忠义; 罗志祥; 代杨仲; 杨益见
Original assignee: Sichuan Sunrain Sign & Display System Co ltd
Current assignee: Sichuan Sunrain Sign & Display System Co ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2021-05-11
Anticipated expiration: 2039-11-07
Also published as: CN112782973B

Abstract

本发明公开了一种基于双智能体协作博弈的双足机器人行走控制方法和系统，包括：构建用于提供机器人动作控制策略的第一深度强化学习模块与第二深度强化学习模块；采集第一状态参数，第一深度强化学习模块输出第一最优动作控制策略；采集第二状态参数，第二深度强化学习模块输出第二最优动作控制策略；其中，第一状态参数和第二状态参数分别为机器人左右腿的状态参数；基于第一最优动作控制策略和第二最优动作控制策略完成对于机器人双腿动作的协同控制。本方法通过构建两个深度强化学习模型分别对机器人的两腿的动作控制策略进行分析，通过对机器人两条腿的单独控制，在提高输出动作稳定度的同时，降低控制模型的控制维度、减小模型拟合的难度。

Description

基于双智能体协作博弈的双足机器人行走控制方法和系统

技术领域

本发明涉及机器人自动控制技术领域，特别涉及一种基于双智能体协作博弈的双足机器人行走控制方法和系统。

背景技术

由于机器人各个部件的非线性特性较强，机器人系统的运动自由度需求较高，并且机器人系统结构复杂、具有极高的耦合度。因此针对与机器人各个部件及其系统进行建模控制，是一件非常困难和复杂的事情。目前针对于机器人的控制方法主要包括：基于李雅普洛夫理论的非线性控制方法、基于动态规划和最优控制的控制方法和其他基于状态空间法的控制方法，在机器人控制方面，存在需要建立的模型较大、其稳定性和适用性很难保障的问题。

此外，机器人的腿部起到整个身体的平衡、负重和移动的作用，因此两条腿的自由度加到一起、自由度的维数较高，而现有的控制方法通常采用一个控制模型同时对机器人的两腿进行控制，仅仅采用一个控制模型来控制两条腿的运动其精度不够高，输出的动作稳定度较低。

发明内容

本发明的目的之一至少在于，针对如何克服上述现有技术存在的问题，提供一种基于双智能体协作博弈的双足机器人行走控制方法和系统。

为了实现上述目的，本发明采用的技术方案包括以下各方面。

一种基于双智能体协作博弈的双足机器人行走控制方法，包括：

构建用于提供机器人动作控制策略的第一深度强化学习模块与第二深度强化学习模块；

采集第一状态参数，所述第一深度强化学习模块根据所述第一状态参数和当前环境状态及奖励，通过自我学习更新网络参数，输出第一最优动作控制策略；采集第二状态参数，所述第二深度强化学习模块根据所述第二状态参数和当前环境状态及奖励，通过自我学习更新网络参数，输出第二最优动作控制策略；其中，所述第一状态参数和第二状态参数分别为机器人左腿或右腿的状态参数；

基于所得第一最优动作控制策略和第二最优动作控制策略完成对于机器人双腿动作的协同控制。

优选的，所述第一深度强化学习模块为基于Actor-Critic的深度强化学习网络，包括：第一Actor网络和第一Critic网络；其中，所述第一Critic网络为以动作价值为评估点的Critic网络。

优选的，所述第一深度强化学习模块根据所述第一状态参数和当前环境状态及奖励，通过自我学习更新网络参数，输出第一最优动作控制策略，具体为：所述第一Actor网络根据第一状态参数选择动作，并将其选择的动作输出至所述第一Critic网络；所述第一Critic网络对所述第一Actor网络选择的动作进行模拟评估，输出所选动作的价值，并根据估计的价值和环境反馈的奖励，调节第一Actor网络；所述第一Actor网络根据所述动作价值采用第一策略梯度函数更新其网络参数，从而输出第一最优动作控制策略。

优选的，所述第一策略梯度函数为：

其中，

为策略梯度，s为状态，a为动作，t为迭代次数，α为学习率；θ为第一Actor网络参数，w为所述第一Critic网络参数；Q为状态-动作价值。

优选的，所述第二深度强化学习模块为基于Actor-Critic的深度强化学习网络，包括：第二Actor网络和第二Critic网络；其中，所述第二Critic网络为以状态价值为评估点的Critic网络；

优选的，所述第二深度强化学习模块根据所述第二状态参数和当前环境状态，通过自我学习更新网络参数，输出第二最优动作控制策略，具体为：所述第二Actor网络根据第二状态参数选择动作，将其选择的动作作用于环境，并采集环境状态输出至所述第二Critic网络；所述第二Critic网络对所述采集的环境状态进行直接评估，输出其状态价值；并根据所得状态价值和环境反馈的奖励调节第二Actor网络；所述第二Actor网络根据所述状态价值采用第二策略梯度函数更新其网络参数，从而输出第二最优动作控制策略。

优选的，所述第二策略梯度函数为：

其中，

为策略梯度，s为状态，a为动作，t为迭代次数，α为学习率；θ为第二Actor网络参数，w为所述第二Critic网络参数；V为状态价值。

优选的，所述第一Critic网络和第二Critic网络采用MLP型深度学习网络，所述第一Actor网络和第二Actor网络采用MLP与LSTM的混合型深度学习网络。

优选的，所述第一状态参数和第二状态参数包括：机器人两腿的运动角速度、机器人两腿对地压力、机器人两腿各关节的姿态信息、机器人盆骨的状态信息；所述第一Critic网络、第二Critic网络能够采集机器人的状态图像，实时获取机器人两条腿的状态信息和机器人盆骨的状态信息。

一种基于双智能体协作博弈的双足机器人行走控制系统，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令和采集的状态数据，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法。

综上所述，由于采用了上述技术方案，本发明至少具有以下有益效果：

构建两个模型复杂度较低的深度强化学习模型分别对机器人的两腿的动作控制策略进行分析，通过对机器人两条腿的单独控制，在提高输出动作稳定度的同时，较低降低相应控制模型的维度、减小模型拟合的难度。

采用基于Actor-Critic的深度强化学习网络来构建两个深度强化学习模型，能够提高模型精度、减小模型复杂度。

附图说明

图1是根据本发明示例性实施例的基于双智能体协作博弈的双足机器人行走控制方法流程图。

图2是根据本发明示例性实施例的两足机器人双腿结构示意图。

图3是根据本发明示例性实施例的基于双智能体协作博弈的双足机器人行走控制系统结构示意图。

具体实施方式

下面结合附图及实施例，对本发明进行进一步详细说明，以使本发明的目的、技术方案及优点更加清楚明白。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1示出了根据本发明示例性实施例的基于双智能体协作博弈的双足机器人行走控制方法。该实施例的方法主要包括：

具体的，为了避免采用传统的工程物理力学分析，模型参数简化，大量控制参数经验的调节所造成的系统控制模型精度不高，建模难度大，甚至有些问题无法解决而在建模分析时省略掉等问题，本方法采用深度学习网络对机器人高度非线性的模型进行拟合，并利用两智能体(深度强化学习网络)协同控制的方法对机器人进行控制。为了对机器人的非线性、高耦合的系统进行建模，这里采用全链接的深度神经网络对机器人的两条腿分别进行进行建模；在深度学习模型的构建上，选择基于Actor-Critic的深度强化学习网络来构建两个深度学习模型。一个actor动作神经网络对一条腿进行单独控制。相应的控制原理在于：每条腿的智能体的critic评价网络收集两条腿的状态信息，盆骨的状态信息及整个系统给出的奖励信息。每条腿的智能体只控制每条腿的各个关节，控制效果的综合评价由一个具有上帝视角的critic进行评价和训练修正该条腿策略网络的参数。图2示出了根据本发明示例性实施例的双足行走机器人模型示意图，如图所示，该双足机器人主要包括：脖部的转动方向运动用关节(髋关节，包括胯部的前后方向运动用关节和是胯部的左右方向运动用关节，以及膝部的前后方向运动用关节)，以及脚腕部的前后方向运动用的关节和脚腕部的左右方向运动用关节，以及脚部、基体，以及连结胯部的关节和膝部的关节的大腿连杆，以及连结膝部的关节和脚腕部的关节的小腿连杆。

在实际检测中，两个Critic网络具备上帝视角，能监测机器人两条腿的状态信息和机器人盆骨的状态信息，并同时接收来自环境反馈的奖励信息。系统的奖励信息综合了系统的给定运动速度、盆骨的位置、姿态等信息，每条腿的智能体根据整个系统的状态信息和综合奖励信息更新自身的网络参数。

具体的，以第一深度强化学习模块控制左腿、第二深度强化学习模块控制右腿为例。在实际控制过程中，也可以利用第一深度强化学习模块控制右腿、利用第二深度强化学习模块控制左腿。其中，第一深度强化学习模块，包括：第一Actor网络和第一Critic网络；并且在本实施例中，采用动作价值作为第一Critic网络的评估点。当采集到左腿的状态参数后，第一Actor网络根据左腿的状态参数选择动作，并将其选择的动作作用于左腿，并采集左腿和右腿的状态数据及环境反馈的综合奖励至第一Critic网络。这里的左腿的状态参数包括：机器人左腿的运动速度、机器人左腿对地压力、机器人左腿各关节的姿态信息、各个关节的角速度、机器人盆骨的状态信息。并且第一Critic网络具备上帝视角，能监测机器人两条腿的状态信息和机器人盆骨的状态信息，并同时接收来自环境反馈的奖励信息。接着第一Critic网络对第一Actor网络选择的动作进行模拟评估(即根据环境状态的变化评估该动作的价值)，输出所选动作的价值，并根据所得动作价值和采集的环境状态及奖励，调节第一Actor网络；所述第一Actor网络根据所述动作价值采用第一策略梯度函数更新其网络参数，从而输出第一最优动作控制策略。当采用动作价值作为第一Critic网络的评估点时，相应的第一策略梯度函数为，即第一Actor网络的策略函数网络参数更新算法公式为：

其中，

在第一深度强化学习模块采集机器人左腿状态参数并且输出针对于机器人左腿的最优动作控制策略的同时，第二深度强化学习模块采集机器人右腿状态参数并且输出针对于机器人右腿的最优动作控制策略。

其中，第二深度强化学习模块包括：第二Actor网络和第二Critic网络；在本实施例中，采用状态价值为第二Critic网络的评估点。实际上，在Actor-Critic的深度强化学习网络的构建中，Critic网络可以选择的评估点、评价指标是非常多的。经过试验数据论证，我们发现，对于机器人双足的控制采用状态价值与动作价值相结合的评价方式，能够在简化整体控制模型(包括两个智能体)的同时，保证控制精度，是一种非常理想的选择组合方式。

进一步的，第二Actor网络根据右腿的状态参数选择动作，基于其选择的动作作用于环境，并采集环境状态和环境反馈的奖励输出至第二Critic网络。这里的右腿的状态参数包括：机器人右腿的运动速度、机器人右腿各关节的对地压力、机器人右腿各关节的姿态信息、机器人盆骨状态信息。并且第二Critic网络具备上帝视角，能监测机器人两条腿的状态信息和机器人盆骨的状态信息，并同时接收来自环境反馈的奖励信息。此时，第二Critic网络对采集的环境状态和动作进行直接评估，输出对应的价值；接着第二Actor网络根据第二critic网络反馈的状态价值采用第二策略梯度函数更新其网络参数，从而输出第二最优动作控制策略。当采用状态和动作价值为评估点时，相应的第二策略梯度函数为：

其中，

在网络拓扑结构的设计上，可以采用MLP型深度学习网络来构建第一Critic网络和第二Critic网络，MLP型深度学习网络是一种全链接的深度学习网络。最后，结合第一最优动作控制策略和第二最优动作控制策略完成对于机器人双腿动作的协同控制。而第一Actor网络和第二Actor网络采用MLP与LSTM的混合型深度学习网络。

图3示出了根据本发明示例性实施例的基于双智能体协作博弈的双足机器人行走控制系统，即电子设备310(例如具备程序执行功能的计算机服务器)，其包括至少一个处理器311，电源314，以及与所述至少一个处理器311通信连接的存储器312和输入输出接口313；所述存储器312存储有可被所述至少一个处理器311执行的指令，所述指令被所述至少一个处理器311执行，以使所述至少一个处理器311能够执行前述任一实施例所公开的方法；所述输入输出接口313可以包括显示器、键盘、鼠标、以及USB接口，用于输入输出数据；电源314用于为电子设备310提供电能。

本领域技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明具体实施方式的详细说明，而非对本发明的限制。相关技术领域的技术人员在不脱离本发明的原则和范围的情况下，做出的各种替换、变型以及改进均应包含在本发明的保护范围之内。

Claims

1.一种基于双智能体协作博弈的双足机器人行走控制方法，其特征在于，所述方法包括：

采集第一状态参数，所述第一深度强化学习模块根据所述第一状态参数和当前环境状态，通过自我学习更新网络参数，输出第一最优动作控制策略；采集第二状态参数，所述第二深度强化学习模块根据所述第二状态参数和当前环境状态，通过自我学习更新网络参数，输出第二最优动作控制策略；其中，所述第一状态参数和第二状态参数分别为机器人左腿或右腿的状态参数；

2.根据权利要求1所述的方法，其特征在于，所述第一深度强化学习模块为基于Actor-Critic的深度强化学习网络，包括：第一Actor网络和第一Critic网络；其中，所述第一Critic网络是以动作价值为评估点的Critic网络。

3.根据权利要求2所述的方法，其特征在于，所述第一深度学习模块根据所述第一状态参数和环境反馈的奖励信息，通过自我学习更新网络参数，输出第一最优动作控制策略，具体为：

所述第一Actor网络根据第一状态参数选择动作，并将其选择的动作输出至所述第一Critic网络和第二Critic网络；

所述第一Critic网络对所述第一Actor网络选择的动作进行评估，输出所选动作的价值，并根据环境反馈的奖励信息和估计的价值，调节第一Actor网络；

所述第一Actor网络根据所述动作价值采用第一策略梯度函数更新其网络参数，从而输出第一最优动作控制策略。

4.根据权利要求3所述的方法，其特征在于，所述第一策略梯度函数为：

其中，

5.根据权利要求2所述的方法，其特征在于，所述第二深度强化学习模块为基于Actor-Critic的深度学习网络，包括：第二Actor网络和第二Critic网络；其中，所述第二Critic网络是以状态价值为评估点的Critic网络。

6.根据权利要求5所述的方法，其特征在于，所述第二深度强化学习模块根据所述第二状态参数和环境反馈奖励信息，通过自我学习更新网络参数，输出第二最优动作控制策略，具体为：

所述第二Actor网络根据当前环境状态和第二状态参数选择动作，基于其选择的动作，采集环境状态，并将得到的环境状态输出至所述第二Critic网络；所述第二Critic网络对给定的状态下，计算对应动作的价值；并根据环境反馈的奖励信息和估计的动作价值，调节第二Actor网络；

所述第二Actor网络根据所述状态价值采用第二策略梯度函数更新其网络参数，从而输出第二最优动作控制策略。

7.根据权利要求6所述的方法，其特征在于，所述第二策略梯度函数为：

其中，

8.根据权利要求5所述的方法，其特征在于，所述第一Critic网络和第二Critic网络采用MLP型深度学习网络，所述第一Actor网络和第二Actor网络采用MLP与LSTM的混合型深度学习网络。

9.根据权利要求5所述的方法，其特征在于，所述第一状态参数和第二状态参数包括：机器人两腿的运动角速度、机器人两腿对地压力、机器人两腿各关节的姿态信息、机器人盆骨的状态信息；

所述第一Critic网络、第二Critic网络能够采集机器人的状态参数，实时获取机器人两条腿的状态信息和机器人盆骨的状态信息。

10.一种基于双智能体协作博弈的双足机器人行走控制系统，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，采集的状态数据及奖励信息，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。