CN116594289A

CN116594289A - 机器人姿态预适应控制方法、装置、电子设备及存储介质

Info

Publication number: CN116594289A
Application number: CN202310583724.2A
Authority: CN
Inventors: 唐琪; 李新; 范心明; 李国伟; 王俊波; 张殷; 蒋维; 宋安琪; 董镝; 陈志平
Original assignee: Guangdong Power Grid Co Ltd; Foshan Power Supply Bureau of Guangdong Power Grid Corp
Current assignee: Guangdong Power Grid Co Ltd; Foshan Power Supply Bureau of Guangdong Power Grid Corp
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-08-15

Abstract

本发明公开了一种机器人姿态预适应控制方法、装置、电子设备及存储介质，用于解决现有四足机器人落足动态稳定性差的技术问题。方法包括：控制四足机器人进行落足移动；采集四足机器人的实时姿态信息，并将实时姿态信息与预设工作姿态信息进行比对，获得姿态误差；将姿态误差输入优化概率神经网络中进行加权系数调整，获得调整姿态误差；通过调整姿态误差对PID控制器的控制参数进行优化，并采用优化后的PID控制器对四足机器人进行姿态修正，控制四足机器人的姿态稳定在预设工作姿态，从而通过实时计算姿态误差并进行姿态修正，可以使四足机器人的姿态稳定在预设工作姿态，确保四足机器人落足动态稳定性。

Description

机器人姿态预适应控制方法、装置、电子设备及存储介质

技术领域

本发明涉及机器人姿态控制技术领域，尤其涉及一种机器人姿态预适应控制方法、装置、电子设备及存储介质。

背景技术

随着人工智能的迅速发展，机器人逐渐成为相关领域的研究热点，各大研究机构、企业也已研发制造出形态各异的机器人，以当前较为热门的四足机器人为例，四足机器人是一种仿生机器人，其设计灵感来源于动物的四肢运动，四足机器人的每条机械足都至少配置了一个电机以及传感器，且采用机械足作为运动载体，相对于传统轮式或履带式设计更具有灵活性，从而使得四足机器人可以在各种地形或者环境中移动，如平坦地面、凹凸地形、上行或者下行的楼梯、狭窄空间或者其他比较危险的环境，在实际应用中，还会将四足机器人用于探索未知区域、执行危险任务或者进行救援工作等。

目前相关技术中，当控制四足机器人执行任务时，四足机器人主要依靠各条机械足中的传感器对当前地形或环境进行实时预测，并基于实时预测的反馈信号控制下一步的动作，此时由于信号的反馈误差，四足机器人的姿态调节实际上是相对滞后的，如果在较为平坦的地面上移动，由于滞后所造成的影响较小，能够较好地完成任务，但如果在较为复杂的地形中移动，特别是当遇到较大的障碍物需要进行避障时，在进行落足运动时，四足机器人无法及时做出反应，使得四足机器人的落足动态稳定性差，影响任务执行。

发明内容

本发明提供了一种机器人姿态预适应控制方法、装置、电子设备及存储介质，用于解决或部分解决现有相关技术中四足机器人落足动态稳定性差的技术问题。

本发明提供的一种机器人姿态预适应控制方法，所述方法包括：

控制四足机器人进行落足移动，所述四足机器人中设有PID控制器；

采集所述四足机器人的实时姿态信息，并将所述实时姿态信息与预设工作姿态信息进行比对，获得姿态误差；

将所述姿态误差输入优化概率神经网络中进行加权系数调整，获得调整姿态误差；

通过所述调整姿态误差对所述PID控制器的控制参数进行优化，并采用优化后的PID控制器对所述四足机器人进行姿态修正，控制所述四足机器人的姿态稳定在预设工作姿态。

可选地，所述方法还包括：

在仿真建模环境中搭建与所述四足机器人对应的仿生机器人以及世界坐标系，并将所述世界坐标系的固定坐标设置在所述仿生机器人的主躯干几何中心位置，作为参考坐标系；

获取所述四足机器人的各个机械足参数，结合所述参考坐标系以及所述各个机械足参数，确定所述仿生机器人各个机械足的关节坐标位置信息；

搭建深度强化学习框架，并通过自监督学习对所述深度强化学习框架中用于执行控制的执行器网络进行训练，将训练后的执行器网络嵌入至所述仿真建模环境；

通过训练后的执行器网络对各个所述机械足的各个关节进行控制仿真训练，基于控制仿真训练结果并结合各个所述关节坐标位置信息，生成所述四足机器人各个所述机械足的关节形态数据。

可选地，在所述搭建深度强化学习框架之前，所述方法还包括：

获取所述四足机器人的工况数据文件，对所述工况数据文件进行数据清洗，并将进行数据清洗后的工况数据文件存储为与所述深度强化学习框架格式对应的深度强化数据；

所述搭建深度强化学习框架的步骤，包括：

确定所述四足机器人对应的深度学习体系结构，基于所述深度强化数据对所述深度学习体系结构的配置文件进行参数定义，获得深度强化学习网络结构；

采用求解器对所述深度强化学习网络结构进行模型优化，并确定用于深度强化学习的梯度下降信息；

采用预设二进制卷积模型对进行模型优化后的深度强化学习网络结构进行训练，获得对应的深度强化学习框架。

可选地，所述方法还包括：

获取所述四足机器人各个所述机械足的关节形态数据，并从所述关节形态数据中选取预设数量的数据作为样本数据；

构建概率神经网络，随机从所述样本数据中筛选训练样本数据，将所述训练样本数据输入至所述概率神经网络；

以所述四足机器人的不同步态特征作为期望输出矢量，对所述概率神经网络进行训练，并输出对应的训练期望值，所述步态特征包括行走、缓行、踱步、小跑、慢跑以及奔跑；

随机从所述样本数据中筛选测试样本数据，将所述测试样本数据输入至训练后的概率神经网络进行性能校验，并将各层神经元间的连接权值代回至所述训练后的优化概率神经网络中；

基于所述连接权值对所述测试样本数据进行回归模拟，输出仿真测试值；

当所述训练期望值与所述仿真测试值完全重合时，表示概率神经网络训练完成，获得用于对所述四足机器人进行姿态误差调整的优化概率神经网络。

可选地，在所述控制四足机器人进行落足移动之前，所述方法还包括：

采集探测区域的局部地图信息，所述局部地图信息中包含局部障碍物高程信息以及探测区域坐标原点；

通过所述局部障碍物高程信息进行避障分析，确定落足安全区域，所述落足安全区域对应一高程信息；

根据所述探测区域坐标原点、所述高程信息及预设地图网格尺寸，计算安全落足点信息；

通过所述安全落足点信息计算出所述四足机器人落足后的落足姿态信息，将所述落足姿态信息作为预设工作姿态信息，并将所述落足姿态信息对应的姿态作为预设工作姿态。

可选地，所述四足机器人的实时姿态信息通过电子罗盘、雷达、摄像头以及姿态传感器进行采集，所述电子罗盘内部包括三维磁阻传感器、双轴倾角传感器以及微控制器MCU，其中，所述三维磁阻传感器用于测量地球磁场，所述双轴倾角传感器用于当所述三维磁阻传感器处于非水平状态时进行角度补偿，所述微控制器MCU用于处理所述三维磁阻传感器以及所述双轴倾角传感器的信号、数据输出、软铁补偿以及硬铁补偿。

可选地，所述三维磁阻传感器采用三个互相垂直的第一磁阻传感器、第二磁阻传感器以及第三磁阻传感器组成，其中，所述第一磁阻传感器用于检测向前方向的第一地磁场强度信号，所述第二磁阻传感器用于检测向左方向的第二地磁场强度信号，所述第二磁阻传感器用于检测向下方向的第三地磁场强度信号。

可选地，所述方法还包括：

若所述电子罗盘与地表面平行，则采用向前方向的第一地磁场强度分矢量与向左方向的第二地磁场强度分矢量进行计算，确定所述电子罗盘的方位角值，并将所述方位角值添加至所述四足机器人的实时姿态信息；

若所述电子罗盘发生倾斜，则采用所述双轴倾角传感器测量所述电子罗盘的俯仰角以及侧倾角，所述俯仰角表示所述电子罗盘由前向后方向的角度变化，所述侧倾角表示所述电子罗盘由左至右方向的角度变化；

根据所述俯仰角与所述侧倾角进行转换计算，并基于转换计算结果对所述三维磁阻传感器进行角度补偿，将所述电子罗盘从倾斜状态调整为与地表面平行状态；

转换计算公式如下：

Xr＝Xcosα+Ysinαsinβ-Zcosβsinα

Yr＝Xcosβ+Zsinβ

其中，Xr为由前向后方向角度变化对应的角度补偿值，Yr为由左至右方向角度变化对应的角度补偿值，X为第一地磁场强度分矢量值，Y为第二地磁场强度分矢量值，Z为第三地磁场强度分矢量值，α为俯仰角，β为侧倾角。

可选地，所述采用向前方向的第一地磁场强度分矢量与向左方向的第二地磁场强度分矢量进行计算，确定所述电子罗盘的方位角值，包括：

将所述电子罗盘的磁场测量范围设置为正负2高斯，在所述磁场测量范围内通过所述三维磁阻传感器检测第一地磁场强度信号以及第二地磁场强度信号；

通过所述微控制器MCU将所述第一地磁场强度信号转换为第一地磁场强度分矢量，将所述第二地磁场强度信号转换为第二地磁场强度分矢量；

采用所述第一地磁场强度分矢量与所述第二地磁场强度分矢量进行反正切计算，确定所述电子罗盘的方位角值，计算公式如下：

Azimuth＝arcTan(Y/X)

其中，Azimuth为电子罗盘的方位角值，arcTan(*)为反正切函数。

本发明还提供了一种机器人姿态预适应控制装置，包括：

落足移动控制模块，用于控制四足机器人进行落足移动，所述四足机器人中设有PID控制器；

姿态误差生成模块，用于采集所述四足机器人的实时姿态信息，并将所述实时姿态信息与预设工作姿态信息进行比对，获得姿态误差；

加权系数调整模块，用于将所述姿态误差输入优化概率神经网络中进行加权系数调整，获得调整姿态误差；

姿态修正控制模块，用于通过所述调整姿态误差对所述PID控制器的控制参数进行优化，并采用优化后的PID控制器对所述四足机器人进行姿态修正，控制所述四足机器人的姿态稳定在预设工作姿态。

本发明还提供了一种电子设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如上任一项所述的机器人姿态预适应控制方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行如上任一项所述的机器人姿态预适应控制方法。

从以上技术方案可以看出，本发明具有以下优点：在对四足机器人的移动控制过程中，首先控制四足机器人进行落足移动，接着采集四足机器人的实时姿态信息，并将实时姿态信息与预设工作姿态信息进行比对，获得姿态误差，从而通过实时姿态信息与预设工作姿态信息之间的比对，可以清楚确定四足机器人当前姿态与预设姿态之间的差异，以便后续进行姿态调整；然后将姿态误差输入优化概率神经网络中进行加权系数调整，获得调整姿态误差，从而通过姿态误差的加权系数调整，可以确保调整后的姿态误差准确性更高；通过调整姿态误差对PID控制器的控制参数进行优化，并采用优化后的PID控制器对四足机器人进行姿态修正，控制四足机器人的姿态稳定在预设工作姿态，从而通过调整姿态误差将PID控制器的控制器参数调至最优，并以优化后的PID控制器对四足机器人的各个机械足进行姿态修正，可以使四足机器人的姿态稳定在最佳姿态，确保四足机器人落足动态稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种机器人姿态预适应控制方法的步骤流程图；

图2为本发明实施例提供的一种构建训练优化概率神经网络的步骤流程图；

图3为本发明实施例提供的一种机器人姿态预适应控制装置的结构框图。

具体实施方式

本发明实施例提供了一种机器人姿态预适应控制方法、装置、电子设备及存储介质，用于解决或部分解决现有相关技术中四足机器人落足动态稳定性差的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

作为一种示例，以当前较为热门的四足机器人为例，因四足机器人较之传统轮式或履带式设计更具灵活性，因此通常可以采用四足机器人在各种地形或者环境中移动以执行任务，如用于探索未知区域、执行危险任务或者进行救援工作等，目前相关技术中，当控制四足机器人执行任务时，四足机器人主要依靠各条机械足中的传感器对当前地形或环境进行实时预测，并基于实时预测的反馈信号控制下一步的动作，此时由于信号的反馈误差，四足机器人的姿态调节实际上是相对滞后的，如果在较为平坦的地面上移动，由于滞后所造成的影响较小，能够较好地完成任务，但如果在较为复杂的地形中移动，特别是当遇到较大的障碍物需要进行避障时，在进行落足运动时，四足机器人无法及时作出反应，使得四足机器人的落足动态稳定性差，影响任务执行。

因此，本发明实施例的核心发明点之一在于：针对四足机器人的移动控制过程，首先控制四足机器人进行落足移动，接着采集四足机器人的实时姿态信息，并将实时姿态信息与预设工作姿态信息进行比对，获得姿态误差，从而通过实时姿态信息与预设工作姿态信息之间的比对，可以清楚确定四足机器人当前姿态与预设姿态之间的差异，以便后续进行姿态调整；然后将姿态误差输入优化概率神经网络中进行加权系数调整，获得调整姿态误差，从而通过姿态误差的加权系数调整，可以确保调整后的姿态误差准确性更高；通过调整姿态误差对PID控制器的控制参数进行优化，并采用优化后的PID控制器对四足机器人进行姿态修正，控制四足机器人的姿态稳定在预设工作姿态，从而通过调整姿态误差将PID控制器的控制器参数调至最优，并以优化后的PID控制器对四足机器人的各个机械足进行姿态修正，可以使四足机器人的姿态稳定在最佳姿态，确保四足机器人落足动态稳定性。

参照图1，示出了本发明实施例提供的一种机器人姿态预适应控制方法的步骤流程图，具体可以包括以下步骤：

步骤101，控制四足机器人进行落足移动，所述四足机器人中设有PID控制器；

当需要通过四足机器人在某个探测区域执行任务时，可以控制四足机器人进行落足移动，其中，四足机器人内设有PID(Proportion Integration Differentiation，比例-积分-微分控制器)控制器，在实际控制过程中，可以通过对PID控制器进行优化以得到最优控制下的PID控制器参数，以在后续姿态控制中可以采用优化后的PID控制器对四足机器人进行姿态修正。

作为一种可选实施例，为了更好地完成任务，在实际应用中采用四足机器人执行任务前，还可以先基于四足机器人进行仿真模拟训练，示例性地，可以采用SimMechanics(一种建模仿真环境)进行四足机器人的仿真训练，其中，SimMechanics是当前较为常用的一种建模仿真环境，立足于Simulink(一种可视化仿真工具)之上，是一种可以进行控制器与对象系统跨领域/学科的研究分析环境。SimMechanics提供了大量对应实际系统的元件，如：刚体、铰链、约束、坐标系统、作动器以及传感器等，通过这些模块可以方便地建立复杂机械系统的图示化模型，接着进行机械系统的单独分析或与任何Simulink设计的控制器及其它动态系统相连进行综合仿真。

在具体的实现中，可以在仿真建模环境SimMechanics中搭建与四足机器人对应的仿生机器人以及世界坐标系，并将世界坐标系的固定坐标设置在仿生机器人的主躯干几何中心位置，作为参考坐标系，以便基于参考坐标系确定仿生机器人的四足相对坐标位置。

接着获取四足机器人的各个机械足参数，如机械足的臂长、关节与关节之间的距离、关节角度等一切可以表征机械足形态的参数，然后结合参考坐标系以及各个机械足参数，确定仿生机器人各个机械足的关节坐标位置信息，从而可以通过仿真建模环境SimMechanics搭建四足机器人对应的仿生机器人模型，并通过关节坐标位置信息，并且在进行移动时，可以随着关节坐标位置信息的变化推算出仿生机器人四足关节的具体移动情况，从而方便收集仿生机器人对应的四足机器人的关节形态数据，其中，关节形态数据可以为四足机器人各个机械足的各个关节在不同形态下所对应的数据，如在行走、踱步、小跑等不同形态下各个关节所对应的关节角度、关节角速度、关节角冗余度等等一切可以表征机械足姿态的相关数据。

然后可以搭建深度强化学习框架，并通过自监督学习对深度强化学习框架中用于执行控制的执行器网络进行训练，执行器可以理解为一种转换器，也是一种高级的传感器，能够接收信号并产生对应的物理动作，执行器网络可以理解为是一种分布式传感网络，其末梢是可以感知和检查外部世界的传感器，以分布式执行器组合成网络状的各个执行器节点收集数据并作用于环境，接着可以将训练后的执行器网络嵌入至仿真建模环境，通过训练后的执行器网络对各个机械足的各个关节进行控制仿真训练，基于控制仿真训练结果并结合各个关节坐标位置信息，生成四足机器人各个机械足的关节形态数据，从而通过采用训练后的深度强化学习框架中执行器网络对仿生机器人的四足进行仿真训练，并收集仿真训练对应的关节形态数据，而收集的关节形态数据则可以用于后续优化概率神经网络的训练，从而在使用优化概率神经网络进行姿态修正时更为准确。

作为一种可选实施例，搭建深度强化学习框架之前，可以编写一个用于数据预处理(如数据清洗、数据集成、数据变换、数据归约等处理流程)以及数据存储的Python(一种跨平台的计算机程序设计语言)脚本，具体地，在搭建深度强化学习框架之前，还可以获取四足机器人的工况数据文件，其中，工况是指四足机器人在和其动作有直接关系的条件下的工作状态，在实际应用中，可以采用相应的传感器记录四足机器人随时间推移机器零部件的动态变化数据，动态变化数据所对应的数据类型一般可以分为工作状况、平衡状况以及轨迹规划，工作状况侧重于运动过程中各个与时间有关的运动参数，如正常运行，或减速运行，或加速运行，或其他运行状态下的行进速度、机械足的关节角度、关节角速度等等，平衡状况则侧重于在不同工作状态下的平衡情况，轨迹规划则侧重于实际工况轨迹所对应的线路走向，具体地，四足机器人的工作状况可以通过固定间隔时间序列的节点参数记录而非线性记录，其机器人的平衡状况则通过机器人内部陀螺仪、重力传感器所构成的姿态传感器进行记录，而轨迹规划则可以利用机器人的视觉传感器进行记录，从而可以将各个传感器记录的动态变化数据进行整合汇总，形成四足机器人对应的工况数据文件，或者更进一步地，为了使得工况数据更具参考性，还可以对采集的动态变化数据进行香农采样后，再存储为工况数据文件，可以理解的是，本发明对此不作限制。

通过传感器采集的数据可能存在重复收集、因传感器本身误差造成误收集等情况，因此，需要对工况数据文件进行数据清洗，数据清洗(Data cleaning)指的是对数据进行重新审查以及校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性，接着将进行数据清洗后的工况数据文件存储为与深度强化学习框架格式对应的深度强化数据，以便搭建的深度强化学习框架能够对其进行处理以及训练，示例性地，深度强化学习框架可以为Caffe(Convolutional Architecture for Fast Feature Embedding，快速特征嵌入的卷积结构)，Caffe是一个兼具表达性、速度以及思维模块化的深度学习框架，支持多种类型的深度学习架构，主要面向图像分类以及图像分割，同时还可以支持CNN(Convolutional Neural Networks，卷积神经网络)、RCNN(Region-Convolutional NeuralNetworks，将深度学习应用到目标检测上的一种算法)、LSTM(Long Short-Term Memory，长短时记忆神经网络)和全连接神经网络设计。

当对工况数据文件进行处理获得深度强化数据之后，接着可以选择适用于四足机器人仿真训练的CNN体系结构，并在配置文件中定义其参数，CNN体系结构主要可以包括输入层、卷积层、池化层、全连接层以及输出层，如可以结合深度强化数据，确定除了输入层与输出层之外的卷积层以及池化层对应的层数，每个相应层的尺寸大小，各个卷积层的过滤器大小、步幅、填充参数，各个全连接层的神经元个数等一切与CNN结构相关的设置参数，从而定义深度学习体系的神经网络结构，同时还可以在每个卷积层与池化层之间设置激活函数，以提高数据处理准确性。接着再使用求解器进行模型优化，定义所有进行梯度下降的信息，然后可以通过从终端调用caffe binary(咖啡因，一种二进制的卷积模型)对进行模型优化后的深度强化学习网络结构进行训练，以及基于训练结果对深度强化学习网络结构进行实时微调，获得深度强化学习框架，以便后续使用深度强化学习框架对四足机器人进行仿真训练时，能够使得模拟参数尽可能地与真实模型逼近，获得参数最优解。其中，求解器是一种组件，用于根据预定义算法计算对象的位置以及方向，例如，将对象放置在用户当前注视视线直达的表面上。梯度下降(Gradient Descent)是迭代法的一种，在求解机器学习算法的模型参数，即无约束优化问题时，可以用于求解线性或者非线性的最小二乘问题。

从而进一步地，搭建深度强化学习框架的步骤，可以包括：首先确定四足机器人对应的深度学习体系结构，基于深度强化数据对深度学习体系结构的配置文件进行参数定义，获得深度强化学习网络结构；接着采用求解器对深度强化学习网络结构进行模型优化，并确定用于深度强化学习的梯度下降信息；然后采用预设二进制卷积模型对进行模型优化后的深度强化学习网络结构进行训练，获得对应的深度强化学习框架。

作为一种可选实施例，在控制四足机器人进行落足移动之前，还可以通过机载的雷达、摄像头、传感器采集探测区域的局部地图信息，其中，局部地图信息中包含局部障碍物高程信息以及探测区域坐标原点；接着通过局部障碍物高程信息进行避障分析，如当局部障碍物高程超过某个高度时，确定该点不适合作为四足机器人落足控制的点，当通过避障分析之后确定存在几处适合作为四足机器人落足控制点，则可以经过比对确定最合适的落足控制点，基于预设安全落足范围(如以落足控制点为圆心半径为1米的圆形区域)，确定落足安全区域，其中，落足安全区域对应一高程信息；然后根据探测区域坐标原点、高程信息及预设地图网格尺寸，计算安全落足点信息，如安全落足点对应的坐标、高度信息；最后通过安全落足点信息计算出四足机器人落足后的落足姿态信息，如四足各自对应的落足点位置，各个机械足各个关节所对应的关节角度等，接着将落足姿态信息作为预设工作姿态信息，并将落足姿态信息对应的姿态作为预设工作姿态，从而在控制四足机器人进行落足移动前，可以基于实地环境信息先计算出四足机器人的安全落足工作姿态，在控制落足时可以保证四足机器人的落足控制动态稳定性。

步骤102，采集所述四足机器人的实时姿态信息，并将所述实时姿态信息与预设工作姿态信息进行比对，获得姿态误差；

当控制四足机器人在探测区域进行落足之后，可以通过电子罗盘、雷达、摄像头以及姿态传感器采集四足机器人的实时姿态信息，并获取前述步骤中计算出的预设工作姿态信息，将两者进行比对，获得姿态误差，其中，姿态误差可以表示为实时姿态信息与预设工作姿态信息中存在差别的具体数据类型，以及对应的数值，如前述实施例内容中所说的四足各自对应的落足点位置，各个机械足各个关节所对应的关节角度等。

作为一种可选实施例，用于采集实时姿态信息的电子罗盘内部可以包括三维磁阻传感器、双轴倾角传感器以及微控制器MCU(Micro Controller Unit，微控制单元)，其中，三维磁阻传感器可以用于测量地球磁场，包括地球磁场的强度与方向信号，双轴倾角传感器可以用于当三维磁阻传感器处于非水平状态时进行角度补偿，微控制器MCU则可以用于处理三维磁阻传感器以及双轴倾角传感器的信号、数据输出、软铁补偿以及硬铁补偿。其中，软磁材料(软铁)通常是诸如Fe(铁)、Ni(镍)等材料及其合金，硬磁材料(硬铁)则表示为诸如NdFeB(第三代稀土永磁钕铁硼)、AlNiCo(铝镍钴合金)等材料，相关技术中指出，当磁力计用于设备中时，硬铁扭曲由产生磁场的物体造成，例如扬声器内磁铁，由此导致传感器输出中称为“恒定偏移”的偏差，需要对其进行补偿，软铁扭曲则是由“被动”影响或扭曲其周围磁场但自身不一定产生磁场的物体造成，例如存储卡插槽、电池、无线天线、门窗框架以及各种其他周围环境中的标准对象，这种情况也需要对其进行补偿。

进一步地，三维磁阻传感器采用三个互相垂直的第一磁阻传感器、第二磁阻传感器以及第三磁阻传感器组成，其中，第一磁阻传感器用于检测向前方向(也可以称为X方向)的第一地磁场强度信号，第二磁阻传感器用于检测向左方向(也可以称为Y方向)的第二地磁场强度信号，第二磁阻传感器用于检测向下方向(也可以称为Z方向)的第三地磁场强度信号，其中，每个方向的磁阻传感器的灵敏度都已根据在该方向上地磁场的分矢量调整到最佳点，具有非常低的横轴灵敏度，同时，由各个磁阻传感器产生的模拟输出信号在进行放大后，会被送入至微控制器MCU进行处理。

在实际计算中，当电子罗盘与地表面平行时，仅采用地磁场在向前方向以及向左方向的两个分矢量值便可确定方位角值。

具体地，若电子罗盘与地表面平行，则采用向前方向的第一地磁场强度分矢量与向左方向的第二地磁场强度分矢量进行计算，确定电子罗盘的方位角值，并将方位角值添加至四足机器人的实时姿态信息。

作为一种示例，磁场测量范围为±2高斯(Gauss，磁通量密度单位)，可以采用12位A/D转换器(Analog to Digital converter，模拟数字转换器)作为微控制器MCU中的转换器，电子罗盘或者磁力仪能够分辨出小于1m(毫，量级单位)高斯的磁场变化量，可通过该高分辨力准确测量出200-300m高斯的向前方向与向左方向的地磁场强度信号。

则在具体的实现中，采用向前方向的第一地磁场强度分矢量与向左方向的第二地磁场强度分矢量进行计算，确定电子罗盘的方位角值，可以为：将电子罗盘的磁场测量范围设置为正负2高斯，在磁场测量范围内通过三维磁阻传感器检测第一地磁场强度信号以及第二地磁场强度信号；接着通过微控制器MCU将第一地磁场强度信号转换为第一地磁场强度分矢量，将第二地磁场强度信号转换为第二地磁场强度分矢量；然后采用第一地磁场强度分矢量与第二地磁场强度分矢量进行反正切计算，确定电子罗盘的方位角值，计算公式如下：

Azimuth＝arcTan(Y/X)

其中，Azimuth为电子罗盘的方位角值，arcTan(*)为反正切函数。

在另一种情况中，当电子罗盘发生倾斜时，方位角值的准确性将受到很大的影响，产生较大测量误差，会对实时姿态信息的采集准确性造成影响，其中，测量误差的大小取决于电子罗盘所处的位置以及倾斜角的大小。

为减少测量误差的影响，可以采用双轴倾角传感器测量电子罗盘的俯仰角以及侧倾角，接着将俯仰角与侧倾角的数据经过转换计算，通过角度补偿将电子罗盘或磁力仪在三个轴向上(前述内容中所说的向前方向X，向左方向Y以及向下方向Z)的矢量“拉”回至水平位置。

具体地，若电子罗盘发生倾斜，则采用双轴倾角传感器测量电子罗盘的俯仰角以及侧倾角，其中，俯仰角表示电子罗盘由前向后方向的角度变化，侧倾角表示电子罗盘由左至右方向的角度变化；接着根据俯仰角与侧倾角进行转换计算，并基于转换计算结果对三维磁阻传感器进行角度补偿，将电子罗盘从倾斜状态调整为与地表面平行状态；

具体转换计算公式如下：

Xr＝Xcosα+Ysinαsinβ-Zcosβsinα

Yr＝Xcosβ+Zsinβ

步骤103，将所述姿态误差输入优化概率神经网络中进行加权系数调整，获得调整姿态误差；

接着可以将通过计算得出的姿态误差输入至进行优化训练后的概率神经网络(Probabilistic Neural Networks，PNN)进行加权系数调整，获得调整姿态误差，其中，概率神经网络是一种基于统计原理的常用于模式分类的神经网络，加权系数是为强调某一要素在整个要素体系中的重要程度而赋予该要素某一特征值的过程，一般用数值表示，对于四足机器人控制输出而言，为实现对于四足机器人的协调控制，其对应的控制输出中包含多个参数指标，如各个机械足各个关节的关节角度、落足点位置、移动过程中对应的各种速度相关参数等等，从控制角度出发来看，各个参数指标所对应的加权系数也是存在差异的，并且可以通过对于加权系数的调整实现对于输出控制的调整，进而对四足机器人的姿态进行对应控制。

作为一种可选实施例，当初步搭建好概率神经网络时，可以采用细菌觅食优化算法训练概率神经网络，从而构建概率神经网络模型。

具体地，细菌觅食算法(Bacterial Foraging Algorithm,BFA)，或细菌觅食优化算法(Bacterial Foraging Optimization Algorithm,BFO/BFOA)，是一种通过趋化、复制和驱散三种行为来实现寻优的新型群体智能优化算法(新型仿生类算法)，该算法因具有群体智能算法并行搜索、易跳出局部极小值等优点，成为生物启发式计算研究领域的又一热点。

相关技术中指出，细菌觅食算法是根据细菌菌落生长演化基本规律提出一种新的细菌菌落优化算法，其工作原理为：首先，依据细菌生长繁殖规律，制定符合算法需要的个体进化机制。其次，根据细菌在培养液中的觅食行为，建立算法中个体泳动、翻滚、停留等运动方式。最后，借鉴菌落中细菌信息交互方式，建立个体信息共享机制。此外，该算法还提供了一种新的结束方式，即在没有任何迭代次数或精度条件的前提下，算法会随着菌落的消失而自然结束，并且可以保持一定的精度。

为了更好地进行说明，参照图2，示出了本发明实施例提供的一种构建训练优化概率神经网络的步骤流程图，具体可以包括以下步骤：

步骤S1，获取所述四足机器人各个所述机械足的关节形态数据，并从所述关节形态数据中选取预设数量的数据作为样本数据；

由前述实施例内容可知，可以通过采用训练后的深度强化学习框架中执行器网络对仿生机器人的四足进行仿真训练，并收集仿真训练对应的关节形态数据，而收集的关节形态数据则可以用于后续优化概率神经网络的训练，则在具体的实现中，可以获取四足机器人各个机械足的关节形态数据，并从关节形态数据中选取预设数量的数据作为样本数据，如从关节形态数据中随机选取或者抽样选取40组数据作为用于训练以及测试的样本数据。

步骤S2，构建概率神经网络，随机从所述样本数据中筛选训练样本数据，将所述训练样本数据输入至所述概率神经网络；

接着构建概率神经网络，随机从40组样本数据中选取20组数据作为训练样本数据，并将这20组训练样本数据输入至概率神经网络进行训练。

步骤S3，以所述四足机器人的不同步态特征作为期望输出矢量，对所述概率神经网络进行训练，并输出对应的训练期望值，所述步态特征包括行走、缓行、踱步、小跑、慢跑以及奔跑；

以四足机器人的不同步态特征，如行走、缓行、踱步、小跑、慢跑以及奔跑等步态特征作为期望输出矢量，对概率神经网络进行训练，并输出对应的训练期望值，期望输出矢量可以包括各个步态特征下四足机器人各个机械足的落足位置、各个机械足中各个关节的关节角度、关节角速度、关节角冗余度等各项能够反映四足机器人姿态的预期输出参数矢量，训练期望值是指采用期望输出矢量对概率神经网络进行训练之后所得到的训练结果。从而通过采用不同的四足姿态作为期望输出矢量作为训练输入，经过训练之后可以初步得到用于四足机器人四足识别的概率神经网络。

步骤S4，随机从所述样本数据中筛选测试样本数据，将所述测试样本数据输入至训练后的概率神经网络进行性能校验，并将各层神经元间的连接权值代回至所述训练后的优化概率神经网络中；

接着可以从40组样本数据中随机选取10组数据作为测试样本数据，或者从前述步骤中选完训练样本数据后剩余的20组数据中选取10组作为测试样本数据，接着采用这10组测试样本数据对经步骤S3之后得出的概率神经网络进行性能检验，将各层神经元间的连接权值代回概率神经网络中。

步骤S5，基于所述连接权值对所述测试样本数据进行回归模拟，输出仿真测试值；

基于连接权值对测试样本数据进行回归模拟测试，并输出对应的仿真测试值。

步骤S6，当所述训练期望值与所述仿真测试值完全重合时，表示概率神经网络训练完成，获得用于对所述四足机器人进行姿态误差调整的优化概率神经网络。

当训练样本数据对应的训练期望值输出与步骤S5中仿真测试值输出完全重合时，说明此时概率神经网络已训练成功，可以获得效果更好的优化概率神经网络，优化概率神经网络可以用于预测未知样本数据的类别，如可以采用优化概率神经网络对未知类别的20组样本数据进行分类，从而使得四足机器人可以预测未知姿态，从而降低姿态误差。

步骤104，通过所述调整姿态误差对所述PID控制器的控制参数进行优化，并采用优化后的PID控制器对所述四足机器人进行姿态修正，控制所述四足机器人的姿态稳定在预设工作姿态。

接着可以通过调整姿态误差对PID控制器的控制参数进行优化，并采用优化后的PID控制器对四足机器人进行姿态修正，控制四足机器人的姿态稳定在预设工作姿态。其中，PID控制参数主要可以包括比例系数(P)、积分时间(I)以及微分时间(D)，各个参数的不同取值将对PID控制器中调节器的响应速度、稳态误差、抗干扰性能以及稳定性等方面产生不同的影响，因此通过调整姿态误差对PID控制器参数进行优化，可以实现基于实时姿态误差对四足机器人的各项性能指标进行优化，对四足进行姿态修正，确保移动控制的动态稳定性。

在本发明实施例中，在对四足机器人的移动控制过程中，首先控制四足机器人进行落足移动，接着采集四足机器人的实时姿态信息，并将实时姿态信息与预设工作姿态信息进行比对，获得姿态误差，从而通过实时姿态信息与预设工作姿态信息之间的比对，可以清楚确定四足机器人当前姿态与预设姿态之间的差异，以便后续进行姿态调整；然后将姿态误差输入优化概率神经网络中进行加权系数调整，获得调整姿态误差，从而通过姿态误差的加权系数调整，可以确保调整后的姿态误差准确性更高；通过调整姿态误差对PID控制器的控制参数进行优化，并采用优化后的PID控制器对四足机器人进行姿态修正，控制四足机器人的姿态稳定在预设工作姿态，从而通过调整姿态误差将PID控制器的控制器参数调至最优，并以优化后的PID控制器对四足机器人的各个机械足进行姿态修正，可以使四足机器人的姿态稳定在最佳姿态，确保四足机器人落足动态稳定性。

参照图3，示出了本发明实施例提供的一种机器人姿态预适应控制装置的结构框图，具体可以包括：

落足移动控制模块301，用于控制四足机器人进行落足移动，所述四足机器人中设有PID控制器；

姿态误差生成模块302，用于采集所述四足机器人的实时姿态信息，并将所述实时姿态信息与预设工作姿态信息进行比对，获得姿态误差；

加权系数调整模块303，用于将所述姿态误差输入优化概率神经网络中进行加权系数调整，获得调整姿态误差；

姿态修正控制模块304，用于通过所述调整姿态误差对所述PID控制器的控制参数进行优化，并采用优化后的PID控制器对所述四足机器人进行姿态修正，控制所述四足机器人的姿态稳定在预设工作姿态。

在一种可选实施例中，所述装置还包括：

仿生机器人搭建模块，用于在仿真建模环境中搭建与所述四足机器人对应的仿生机器人以及世界坐标系，并将所述世界坐标系的固定坐标设置在所述仿生机器人的主躯干几何中心位置，作为参考坐标系；

关节坐标位置信息生成模块，用于获取所述四足机器人的各个机械足参数，结合所述参考坐标系以及所述各个机械足参数，确定所述仿生机器人各个机械足的关节坐标位置信息；

深度强化学习框架搭建模块，用于搭建深度强化学习框架，并通过自监督学习对所述深度强化学习框架中用于执行控制的执行器网络进行训练，将训练后的执行器网络嵌入至所述仿真建模环境；

关节形态数据生成模块，用于通过训练后的执行器网络对各个所述机械足的各个关节进行控制仿真训练，基于控制仿真训练结果并结合各个所述关节坐标位置信息，生成所述四足机器人各个所述机械足的关节形态数据。

在一种可选实施例中，所述装置还包括：

深度强化数据存储模块，用于获取所述四足机器人的工况数据文件，对所述工况数据文件进行数据清洗，并将进行数据清洗后的工况数据文件存储为与所述深度强化学习框架格式对应的深度强化数据；

所述深度强化学习框架搭建模块包括：

深度强化学习网络结构确定模块，用于确定所述四足机器人对应的深度学习体系结构，基于所述深度强化数据对所述深度学习体系结构的配置文件进行参数定义，获得深度强化学习网络结构；

模型优化模块，用于采用求解器对所述深度强化学习网络结构进行模型优化，并确定用于深度强化学习的梯度下降信息；

深度强化学习框架确定模块，用于采用预设二进制卷积模型对进行模型优化后的深度强化学习网络结构进行训练，获得对应的深度强化学习框架。

在一种可选实施例中，所述装置还包括：

样本数据选取模块，用于获取所述四足机器人各个所述机械足的关节形态数据，并从所述关节形态数据中选取预设数量的数据作为样本数据；

概率神经网络构建模块，用于构建概率神经网络，随机从所述样本数据中筛选训练样本数据，将所述训练样本数据输入至所述概率神经网络；

训练期望值输出模块，用于以所述四足机器人的不同步态特征作为期望输出矢量，对所述概率神经网络进行训练，并输出对应的训练期望值，所述步态特征包括行走、缓行、踱步、小跑、慢跑以及奔跑；

概率神经网络性能校验模块，用于随机从所述样本数据中筛选测试样本数据，将所述测试样本数据输入至训练后的概率神经网络进行性能校验，并将各层神经元间的连接权值代回至所述训练后的优化概率神经网络中；

仿真测试值输出模块，用于基于所述连接权值对所述测试样本数据进行回归模拟，输出仿真测试值；

优化概率神经网络确定模块，用于当所述训练期望值与所述仿真测试值完全重合时，表示概率神经网络训练完成，获得用于对所述四足机器人进行姿态误差调整的优化概率神经网络。

在一种可选实施例中，所述装置还包括：

局部地图信息采集模块，用于采集探测区域的局部地图信息，所述局部地图信息中包含局部障碍物高程信息以及探测区域坐标原点；

落足安全区域确定模块，用于通过所述局部障碍物高程信息进行避障分析，确定落足安全区域，所述落足安全区域对应一高程信息；

安全落足点信息计算模块，用于根据所述探测区域坐标原点、所述高程信息及预设地图网格尺寸，计算安全落足点信息；

预设工作姿态信息确定模块，用于通过所述安全落足点信息计算出所述四足机器人落足后的落足姿态信息，将所述落足姿态信息作为预设工作姿态信息，并将所述落足姿态信息对应的姿态作为预设工作姿态。

在一种可选实施例中，所述四足机器人的实时姿态信息通过电子罗盘、雷达、摄像头以及姿态传感器进行采集，所述电子罗盘内部包括三维磁阻传感器、双轴倾角传感器以及微控制器MCU，其中，所述三维磁阻传感器用于测量地球磁场，所述双轴倾角传感器用于当所述三维磁阻传感器处于非水平状态时进行角度补偿，所述微控制器MCU用于处理所述三维磁阻传感器以及所述双轴倾角传感器的信号、数据输出、软铁补偿以及硬铁补偿。

在一种可选实施例中，所述三维磁阻传感器采用三个互相垂直的第一磁阻传感器、第二磁阻传感器以及第三磁阻传感器组成，其中，所述第一磁阻传感器用于检测向前方向的第一地磁场强度信号，所述第二磁阻传感器用于检测向左方向的第二地磁场强度信号，所述第二磁阻传感器用于检测向下方向的第三地磁场强度信号。

在一种可选实施例中，所述装置还包括：

方位角值计算模块，用于若所述电子罗盘与地表面平行，则采用向前方向的第一地磁场强度分矢量与向左方向的第二地磁场强度分矢量进行计算，确定所述电子罗盘的方位角值，并将所述方位角值添加至所述四足机器人的实时姿态信息；

俯仰角与侧倾角测量模块，用于若所述电子罗盘发生倾斜，则采用所述双轴倾角传感器测量所述电子罗盘的俯仰角以及侧倾角，所述俯仰角表示所述电子罗盘由前向后方向的角度变化，所述侧倾角表示所述电子罗盘由左至右方向的角度变化；

角度补偿模块，用于根据所述俯仰角与所述侧倾角进行转换计算，并基于转换计算结果对所述三维磁阻传感器进行角度补偿，将所述电子罗盘从倾斜状态调整为与地表面平行状态；

转换计算公式如下：

Xr＝Xcosα+Ysinαsinβ-Zcosβsinα

Yr＝Xcosβ+Zsinβ

在一种可选实施例中，所述方位角值计算模块包括：

地磁场强度信号测量模块，用于将所述电子罗盘的磁场测量范围设置为正负2高斯，在所述磁场测量范围内通过所述三维磁阻传感器检测第一地磁场强度信号以及第二地磁场强度信号；

地磁场强度分矢量转换模块，用于通过所述微控制器MCU将所述第一地磁场强度信号转换为第一地磁场强度分矢量，将所述第二地磁场强度信号转换为第二地磁场强度分矢量；

反正切计算模块，用于采用所述第一地磁场强度分矢量与所述第二地磁场强度分矢量进行反正切计算，确定所述电子罗盘的方位角值，计算公式如下：

Azimuth＝arcTan(Y/X)

其中，Azimuth为电子罗盘的方位角值，arcTan(*)为反正切函数。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见前述方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行本发明任一实施例的机器人姿态预适应控制方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行本发明任一实施例的机器人姿态预适应控制方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种机器人姿态预适应控制方法，其特征在于，包括：

2.根据权利要求1所述的机器人姿态预适应控制方法，其特征在于，还包括：

3.根据权利要求2所述的机器人姿态预适应控制方法，其特征在于，在所述搭建深度强化学习框架之前，所述方法还包括：

所述搭建深度强化学习框架的步骤，包括：

4.根据权利要求2或3所述的机器人姿态预适应控制方法，其特征在于，还包括：

5.根据权利要求1所述的机器人姿态预适应控制方法，其特征在于，在所述控制四足机器人进行落足移动之前，所述方法还包括：

6.根据权利要求1所述的机器人姿态预适应控制方法，其特征在于，所述四足机器人的实时姿态信息通过电子罗盘、雷达、摄像头以及姿态传感器进行采集，所述电子罗盘内部包括三维磁阻传感器、双轴倾角传感器以及微控制器MCU，其中，所述三维磁阻传感器用于测量地球磁场，所述双轴倾角传感器用于当所述三维磁阻传感器处于非水平状态时进行角度补偿，所述微控制器MCU用于处理所述三维磁阻传感器以及所述双轴倾角传感器的信号、数据输出、软铁补偿以及硬铁补偿。

7.根据权利要求6所述的机器人姿态预适应控制方法，其特征在于，所述三维磁阻传感器采用三个互相垂直的第一磁阻传感器、第二磁阻传感器以及第三磁阻传感器组成，其中，所述第一磁阻传感器用于检测向前方向的第一地磁场强度信号，所述第二磁阻传感器用于检测向左方向的第二地磁场强度信号，所述第二磁阻传感器用于检测向下方向的第三地磁场强度信号。

8.根据权利要求7所述的机器人姿态预适应控制方法，其特征在于，还包括：

转换计算公式如下：

Xr＝Xcosα+Ysinαsinβ-Zcosβsinα

Yr＝Xcosβ+Zsinβ

9.根据权利要求8所述的机器人姿态预适应控制方法，其特征在于，所述采用向前方向的第一地磁场强度分矢量与向左方向的第二地磁场强度分矢量进行计算，确定所述电子罗盘的方位角值，包括：

Azimuth＝arcTan(Y/X)

其中，Azimuth为电子罗盘的方位角值，arcTan(*)为反正切函数。

10.一种机器人姿态预适应控制装置，其特征在于，包括：

11.一种电子设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-9任一项所述的机器人姿态预适应控制方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-9任一项所述的机器人姿态预适应控制方法。