CN116627041B

CN116627041B - 一种基于深度学习的四足机器人运动的控制方法

Info

Publication number: CN116627041B
Application number: CN202310885368.XA
Authority: CN
Inventors: 管菊花
Original assignee: JIANGXI VOCATIONAL COLLEGE OF MECHANICAL & ELECTRICAL TECHNOLOGY
Current assignee: JIANGXI VOCATIONAL COLLEGE OF MECHANICAL & ELECTRICAL TECHNOLOGY
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-09-29
Anticipated expiration: 2043-07-19
Also published as: CN116627041A

Abstract

本发明提出一种基于深度学习的四足机器人运动的控制方法包括：S1：将四足机器人第一本身状态信息和第一外部环境信息输入强化学习算法中；S2：所述强化学习算法根据四足机器人运动参考轨迹做出足端轨迹规划，控制电机转动四足机器人运动；S3：得到四足机器人第二本身状态信息和第二外部环境信息输入至强化学习算法中，输出奖励值；S4：重复上述步骤，迭代出更高的累积奖励值，优化四足机器人的运动轨迹；实现四足机器人在路况复杂环境下步态稳定问题和步态规划。运用D‑H矩阵构建仿真模型，结合策略梯度和深度强化学习算法，构建相应的深度强化学习模型，通过不断学习训练以实现四足机器人在复杂路况中稳定运动。

Description

一种基于深度学习的四足机器人运动的控制方法

技术领域

本发明涉及四足机器人控制技术领域，尤其涉及一种基于深度学习的四足机器人运动的控制方法。

背景技术

四足机器人作为仿生机器人一个重要分支，涉及到人工智能、传感信息融合，仿生学、计算机仿真等多种学科知识，因具有较强的地形环境适应能力和运动灵活性，而备受国内外研究者关注，但在复杂路况中运动时，易被各种扰动因素干扰，使其稳定性受到巨大挑战。

深度学习是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法，作为人工智能领域快速发展分支，已被广泛应用于图像分析、语音识别、生物信息学等诸多领域并获得了较好的效果。通过在仿真环境中大量的训练学习，取得最优的控制策略，从而提高机器人环境适应能力。

公开号CN114609918A的中国专利文件就公开了一种四足机器人运动控制方法、系统、存储介质及设备，包括：获取四足机器人在环境中行走时的状态，通过策略网络根据状态选择动作；获取四足机器人在环境中行走时的足端位置，以计算得到参考动作；结合参考动作与策略网络输出的动作，得到四足机器人执行的动作，发出动作指令至四足机器人，实现四足机器人的运动，实现了四足机器人更稳定、鲁棒的运动规划与控制；其通过步态参考框架，步态指导框架根据期望步态输出一个参考动作，参考动作指令与学习到的动作指令结合后传给四足机器人的关节驱动器进行执行，指导四足机器人生成期望的步态运动，但是缺少对奖励值进行参数更新迭代的过程，为此，本发明提出一种基于深度学习的四足机器人运动的控制方法。

发明内容

为了解决上述问题，本发明提出一种基于深度学习的四足机器人运动的控制方法，以更加确切地解决上述所述的问题。

本发明通过以下技术方案实现的：

本发明提出一种基于深度学习的四足机器人运动的控制方法，包括：

构建四足机器人仿真建模：运用D-H矩阵建立四足机器人的腿部关节空坐标系的关系，推导出四足机器人正运动学和逆运动学方程，同时模拟不同杆长、步态参数得到柔性步态，获取各个关节的控制角度；

构建深度强化学习模型：包括感知神经网络和决策神经网络，所述感知神经网络中设有深度学习算法，所述决策神经网络中设有强化学习算法，所述强化学习算法包括状态空间设计、动作空间设计和奖励函数设计，所述感知神经网络获取外部环境信息以及四足机器人本身的状态信息；

根据所述四足机器人仿真模型和所述深度强化学习模型实现对所述四足机器人运动的控制方法包括以下步骤：

S1：将四足机器人第一本身状态信息和第一外部环境信息输入强化学习算法中；

S2：所述强化学习算法根据四足机器人运动参考轨迹做出足端轨迹规划，控制电机转动四足机器人运动；

S3：得到四足机器人第二本身状态信息和第二外部环境信息输入至强化学习算法中，输出奖励值；

S4：重复S1至S3步骤，迭代出更高的累积奖励值，优化四足机器人的运动轨迹。

进一步的，所述的基于深度学习的四足机器人运动的控制方法，所述构建四足机器人仿真建模的步骤中：

运用PyBullet仿真软件构建虚拟四足机器人仿真模型，采用Ｄ-Ｈ法建立正解和逆解运动学方程，分析机器人步态和单腿运动，推导出足端与机身坐标系的关系；

同时对四足机器人四种步态：步行步态、四足跳跃步态、对角小跑步态、双足跳跃步态的运动稳定性进行初步模拟。

进一步的，所述的基于深度学习的四足机器人运动的控制方法，所述构建深度强化学习模型包括：

在深度强化学习模型分别将深度学习算法和强化学习算法以包含两个属性的元组表示，其中深度学习算法，强化学习算法/>，其中S表示外部环境信息，A表示执行的动作集合，P表示状态转移函数，R表示执行该状态转移函数得到的奖励值；

假设t时刻环境状态为，执行a动作后进入下一个状态/>，状态转移函数表示为：

；

是动作a下变化最大的环境状态，/>是在t时刻实现的动作。

进一步的，所述的基于深度学习的四足机器人运动的控制方法，所述奖励值R包括：

表示四足机器人在执行动作a获得的奖励值；

同时，在t时刻下四足机器人在状态选择并执行动作/>后，得到奖励值/>，并以P转移到下一个时刻t+1的状态/>下选择并执行动作/>，并以P转移到下一个时刻t+2的状态/>，此过程一直进行下去，直至到达最终的目标状态/>，其计算奖励值的迭代过程表示为：

；

其中为折扣因子，n表示迭代次数，N是迭代总次数。

进一步的，所述的基于深度学习的四足机器人运动的控制方法，所述奖励值与四足机器人的状态空间相关；

所述状态空间中包括：四足机器人俯仰髋关节、俯仰膝关节、机身的横滚角和俯仰角及其角速度、前向速度；

通过四足机器人的机身的横滚角和俯仰角及其角速度、前向速度完成对其奖励值的计算：

；

是前向速度奖励，/>是前向速度，/>是速度阈值，/>是机身偏航角速度的奖励值，/>是机身沿着左右两侧偏转的角速度，/>是机身的横滚角和俯仰角的奖励值，/>和分别是机身的横滚角和俯仰角；得到：

；

其机身的横滚角和俯仰角以及角速度越小，则奖励值越大。

进一步的，所述的基于深度学习的四足机器人运动的控制方法，采用PPO策略对奖励值进行训练，训练过程如下：

在PPO策略中设有两个目标网络和评估网络，目标网络中的输出值Q代表在环境状态S中实现动作a下的奖励值大小：

；

式中，是采取动作a的奖励值大小，/>是在状态/>中能获取到最大奖励值的动作，/>是实现动作/>获取的奖励值，r是/>下奖励值的大小；

评估网络输出的值H表示动作a带来的动作的价值：

；

在PPO策略过程中，

选取任意时刻t中随机经验元组e，其中，将每一组经验元组形成合集存储至经验池D中，/>；

不断更新经验池中的经验元组，并作为评估网络和目标网络的输入，得到Q和H，将两者的差值作为损失函数，以梯度下降算法更新评估网络的权重参数，并将评估网络的权重参数复制给到目标网络参数；

输出实现动作的奖励值。

进一步的，所述的基于深度学习的四足机器人运动的控制方法，根据所述输出实现动作的奖励值步骤后包括：

规划新的足端轨迹规划：

；

是在策略π下处于环境状态s的概率，/>是在环境状态s中采用动作a的概率，/>是在环境状态s下a动作的奖励值；

对奖励值进行学习训练更新奖励值参数：

；

定义的策略π在每一次迭代过程中环境状态s对应动作a，迭代过程为：

；

式中为在运动n次后的环境状态，/>为在运动n次后的动作，/>为在运动n次后的奖励值，/>是在t时刻迭代n次后的环境状态，/>为在t时刻进行迭代n次后的动作，为在t时刻进行迭代n次后的奖励值，g为策略梯度，/>是学习率；在经过多次迭代后，得出最优动作值函数F。

进一步的，所述的基于深度学习的四足机器人运动的控制方法，所述动作空间设计根据所述状态空间设计和所述奖励函数设计输出控制关节电机转动。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述的基于深度学习的四足机器人运动的控制方法的步骤。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述的基于深度学习的四足机器人运动的控制方法的步骤。

本发明的有益效果：

1、本发明提出的基于深度学习的四足机器人运动的控制方法，实现四足机器人在路况复杂环境下步态稳定问题和步态规划。运用D-H矩阵构建仿真模型，结合策略梯度和深度强化学习算法，构建相应的深度强化学习模型，通过不断学习训练以实现四足机器人在复杂路况中稳定运动。主要表现以下四点：

（1）行走平稳、协调，无明显的上下波动、左右摇晃和前后冲击；

（2）各关节没有较大冲击，特别是摆动相抬腿和落地瞬间实现零冲击抬腿和落地软着陆；

（3）摆动腿跨步迅速，足端轨迹圆滑，关节速度和加速度平滑连续无畸点；

（4）避免足端与地面接触时产生滑动，无摆动腿拖地现象。

2、本发明提出的基于深度学习的四足机器人运动的控制方法，通过PPO策略对奖励值进行训练，不断更新存储训练过程中的成败经验，为在不同环境下奖励值的提出提供了数据基础，同时，根据基于策略梯度的强化学习算法在训练过程中直接学习策略函数，随着策略梯度方向优化策略函数，使得策略函数最大化，最终策略输出最优的奖励值，以实现最优动作的输出。

附图说明

图1为本发明的基于深度学习的四足机器人运动的控制方法的流程示意图；

图2为本发明的基于深度学习的四足机器人运动的控制方法的深度学习和强化学习的示意图；

图3为本发明的基于深度学习的四足机器人运动的控制方法示意图。

图4为本发明的基于深度学习的四足机器人运动的控制方法中一实施例的计算机设备的结构示意图。

图5为本发明的基于深度学习的四足机器人运动的控制方法一实施例的示意图。

具体实施方式

为了更加清楚完整的说明本发明的技术方案，下面结合附图对本发明作进一步说明。

请参考图1-图4，本发明提出一种基于深度学习的四足机器人运动的控制方法；

在本实施方式中一种基于深度学习的四足机器人运动的控制方法，包括：

所述构建四足机器人仿真建模的步骤中：

在本实施例中，想要实现四足机器人的运动控制先实现以下三点：

四足机器人仿真建模及运动学分析：在仿真软件PyBullet中构建四足机器人虚拟仿真模型，运用D-H矩阵建立四足机器人的腿部关节空坐标系的关系，推导出四足机器人正运动学和逆运动学方程，同时模拟不同杆长、步态参数得到柔性步态，获取各个关节的控制角度，为四足机器人步态规划和运动控制奠定基础；

深度强化学习模型构建：深度强化学习模型是将深度学习对状态的感知结果直接作用于强化学习的决策过程中；强化学习算法主要包括状态空间设计、动作空间设计和奖励函数设计，并结合深度学习算法，实现四足机器人运动控制的最优效果，其中状态空间重点研究四足机器人俯仰髋关节、俯仰膝关节、机身的横滚角和俯仰角及其角速度；动作空间重点研究强化学习网络输出，主要控制机器人的关节电机转动；模糊系统重点研究输入（四足机器人的前向速度）和输出（奖励值），以获取奖励值与机器人前向速度的变化关系；

四足机器人运动步态策略优化：步态策略优化重点研究深度强化学习方法自主学习、迭代进化以追求更高的累积奖励，实现四足机器人的环境感知，位姿姿态、运动步态和落脚点的运动规划及运动步态策略优化，并在复杂环境中实时优化步态及落脚点，修正身体位姿。

在一个实施例中，需要实现对四足机器人的最优运动控制在仿真模型中进行深度学习或者让机器人在运动中改变其运行轨迹，以实现在复杂环境中实时优化步态及落脚点，修正身体位姿。

在一个实施例中，构建深度强化学习模型包括：

；

是动作a下变化最大的环境状态，/>是在t时刻实现的动作。

通过感知神经网络获取到四足机器人外部环境状况和自身状态，对下一动作的生成形成参考，在决策神经网络强化学习进行过程中，强化学习动作a对状态转移函数的影响，训练输出正确的动作，强化学习提出对动作的奖励值，根据奖励值的大小判断其是否符合最优动作的生成，在上述深度强化学习模型中，分别实现预先在虚拟空间的仿真训练以及实际运动中的迭代训练，在仿真训练的过程中，不变，找寻最优动作a后的/>，即为正确的动作；在实际运动中的迭代训练中，/>随着上一动作a的变化而变化，需要实时更新/>，并寻找不同/>环境中的最优动作a。

所述奖励值R包括：

表示四足机器人在执行动作a获得的奖励值；

；

其中为折扣因子，n表示迭代次数，N是迭代总次数。

所述奖励值与四足机器人的状态空间相关；

；

是前向速度奖励，/>是前向速度，/>是速度阈值，/>是机身偏航角速度的奖励值，/>是机身沿着左右两侧偏转的角速度，/>是机身的横滚角和俯仰角的奖励值，/>和/>分别是机身的横滚角和俯仰角；得到：

；

其机身的横滚角和俯仰角以及角速度越小，则奖励值越大。

其中状态包括四足机器人的前向速度、机身偏航角速度、横滚角和俯仰角，作为强化学习的输入，为了避免状态空间维数过高带来的运算压力，有一部分采集到的信息没有加入到状态空间中，本发明把这些信息作为奖励函数中的评价依据，从而设计更完善的奖励机制。针对期望实现的运动控制效果，设计了一套具有通用性的四足机器人奖励机制。该奖励机制的主要组成部分包含四足机器人的前向速度、机身偏航角速度、横滚角和俯仰角，该奖励机制鼓励四足机器人训练生成高速稳定的前向运动；奖励函数包括前向速度奖励、机身偏航角速度奖励、横滚角和俯仰角奖励。

在一个实施例中，采用PPO策略对奖励值进行训练，训练过程如下：

；

评估网络输出的值H表示动作a带来的动作的价值：

；

在PPO策略过程中，

输出实现动作的奖励值。

根据所述输出实现动作的奖励值步骤后包括：

规划新的足端轨迹规划：

；

对奖励值进行学习训练更新奖励值参数：

；

在本实施例中，通过PPO策略对奖励值进行训练，不断更新存储训练过程中的成败经验，为在不同环境下奖励值的提出提供了数据基础，如：在沙地环境下其奖励值不同于在泥地环境下的奖励值；同时，根据基于策略梯度的强化学习算法在训练过程中直接学习策略函数，随着策略梯度方向优化策略函数，使得策略函数最大化，最终策略输出最优的奖励值，以实现最优动作的输出。

在一个实施例中，根据图5所示：在平地、台阶、离散台阶、斜坡、丘陵、楼梯六类地形中随机选择地形进行训练，通过感知神经网络获取到四足机器人外部环境状况和自身状态/>，为下一动作/>作为参考，在a进行后，根据输出的奖励值，生成外部环境状况/>和自身状态/>，四足机器人在状态空间、动作空间和奖励空间上的数据差值，得到四足机器人在一次训练后的回报，在训练若干回合后，四足机器人可以分别适应在六种地形中进行行走。

参照图4，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于前向速度、机身偏航角速度、横滚角和俯仰角等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于深度学习的四足机器人运动的控制方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于深度学习的四足机器人运动的控制方法的步骤，具体为：

构建深度强化学习模型：包括感知神经网络和决策神经网络，所述感知神经网络中设有深度学习算法，所述决策神经网络中设有强化学习算法，所述强化学习算法主要包括状态空间设计、动作空间设计和奖励函数设计，所述感知神经网络获取外部环境信息以及四足机器人本身的状态信息；

S4：重复上述步骤，迭代出更高的累积奖励值，优化四足机器人的运动轨迹。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本申请中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

尽管已经示出和描述了本申请的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本申请的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本申请的范围由所附权利要求及其等同物限定。

当然，本发明还可有其它多种实施方式，基于本实施方式，本领域的普通技术人员在没有做出任何创造性劳动的前提下所获得其他实施方式，都属于本发明所保护的范围。

Claims

1.一种基于深度学习的四足机器人运动的控制方法，其特征在于，包括：

S4：重复S1至S3步骤，迭代出更高的累积奖励值，优化四足机器人的运动轨迹；

所述构建深度强化学习模型包括：

；

是动作a下变化最大的环境状态，/>是在t时刻实现的动作；

所述奖励值R包括：

表示四足机器人在执行动作a获得的奖励值；

同时，在t时刻下四足机器人在状态选择并执行动作/>后，得到奖励值/>，并以P转移到下一个时刻t+1的状态/>下选择并执行动作/>，并以P转移到下一个时刻t+2的状态，此过程一直进行下去，直至到达最终的目标状态/>，其计算奖励值的迭代过程表示为：

；

其中为折扣因子，n表示迭代次数，N是迭代总次数；

所述奖励值与四足机器人的状态空间相关；

；

是前向速度奖励，/>是前向速度，/>是速度阈值，/>是机身偏航角速度的奖励值，是机身沿着左右两侧偏转的角速度，/>是机身的横滚角和俯仰角的奖励值，/>和/>分别是机身的横滚角和俯仰角；得到：

；

其机身的横滚角和俯仰角以及角速度越小，则奖励值越大；

采用PPO策略对奖励值进行训练，训练过程如下：

；

评估网络输出的值H表示动作a带来的动作的价值：

；

在PPO策略过程中，

输出实现动作的奖励值；

根据所述输出实现动作的奖励值步骤后包括：

规划新的足端轨迹规划：

；

对奖励值进行学习训练更新奖励值参数：

；

式中为在运动n次后的环境状态，/>为在运动n次后的动作，/>为在运动n次后的奖励值，/>是在t时刻迭代n次后的环境状态，/>为在t时刻进行迭代n次后的动作，/>为在t时刻进行迭代n次后的奖励值，g为策略梯度，/>是学习率；在经过多次迭代后，得出最优动作值函数F。

2.根据权利要求1所述的基于深度学习的四足机器人运动的控制方法，其特征在于，所述构建四足机器人仿真建模的步骤中：

3.根据权利要求1所述的基于深度学习的四足机器人运动的控制方法，其特征在于，所述动作空间设计根据所述状态空间设计和所述奖励函数设计输出控制关节电机转动。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一项所述的基于深度学习的四足机器人运动的控制方法的步骤。

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-3中任一项所述的基于深度学习的四足机器人运动的控制方法的步骤。