CN111638646B

CN111638646B - 四足机器人行走控制器训练方法、装置、终端及存储介质

Info

Publication number: CN111638646B
Application number: CN202010474475.XA
Authority: CN
Inventors: 冯颖龙; 周宸; 周宝; 陈远旭
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2024-05-28
Anticipated expiration: 2040-05-29
Also published as: CN111638646A

Abstract

本发明提出一种四足机器人行走控制器训练方法、装置、终端及存储介质，其中方法包括：在模拟环境中，利用预设的强化学习算法和预设的模拟参数进行训练，得到状态转移矩阵；在真实环境中，采集四足机器人行走时的状态变化参数，并输入至预设的第一奖励函数和强化学习算法中，以对状态转移矩阵进行更新，直至状态转移矩阵收敛；将收敛的状态转移矩阵和强化学习算法作为四足机器人的行走控制器。本发明通过将线上模拟训练和线下实际训练相结合，大大缩短了训练时间，且不需要模型参数建模即可完成四足机器人行走控制器的训练，其可应用于智慧城管/智慧社区/智慧安防/智慧物流等场景中，从而推动智慧城市的建设。

Description

四足机器人行走控制器训练方法、装置、终端及存储介质

技术领域

本发明涉及机器人控制技术领域，尤其涉及一种四足机器人行走控制器训练方法、装置、终端及存储介质。

背景技术

四足机器人是模仿四足动物运动形式的一种机器人。相对于其他运动形式的机器人，足式运动控制是机器人研究领域的一个技术难题，特别是多足协调控制。

目前对机器人足式运动控制的控制技术的常用方法是，对机器人本体及环境进行精确建模，然后通过轨迹优化等方法得到机器人各关节的最佳运动轨迹，在反馈机制的基础上控制机器人的实际运动，使得机器人的运动尽量符合规划轨迹。该控制技术需要繁琐的动力学建模，复杂的运动规划，还需要科研人员通过大量的实验来反复验证，消耗大量的实验时间，若不通过线上建模来对机器人的行走控制进行训练，则需要进行大量的线下训练来实现，受限于机器人的续航能力，其将大大增加机器人行走控制的训练时间，

发明内容

本发明提供一种四足机器人行走控制器训练方法、装置、终端及存储介质，以解决现有四足机器人的行走控制器的训练中建模过程复杂、训练周期长的问题。

为实现上述目的，本发明提供一种四足机器人行走控制器训练方法，包括：在模拟环境中，通过强化学习算法，利用预设的强化学习算法和预设的模拟参数进行训练，得到状态转移矩阵；在真实环境中，采集四足机器人行走时的状态变化参数，并输入至预设的第一奖励函数和强化学习算法中，以对状态转移矩阵进行更新，直至状态转移矩阵收敛；将收敛的状态转移矩阵和强化学习算法作为四足机器人的行走控制器。

作为本发明的进一步改进，利用预设的强化学习算法和预设的模拟参数进行训练之前，还包括：获取预先设定的四足机器人的状态空间和动作空间；状态空间表示四足机器人每条腿的末端所在的空间位置，共包括四个空间位置；动作空间表示四足机器人四条腿的移动状态，共包括三个移动状态，分别为原地不同、向下一个状态空间移动、向上一个状态空间移动。

作为本发明的进一步改进，利采集四足机器人行走时的状态变化参数，并输入至预设的第一奖励函数和强化学习算法中，以对状态转移矩阵进行更新，直至状态转移矩阵收敛，包括：发送动作指令至四足机器人四条腿上的驱动机构以控制四足机器人向目标行走；采集四足机器人行走时的状态变化参数，状态变化参数包括状态空间、动作空间、与目标之间的距离和四足机器人的俯仰角；将距离和俯仰角输入至第一奖励函数，计算得到第一奖励值；将状态空间、动作空间和第一奖励值输入至强化学习算法以更新状态转移矩阵；循环执行上述利用强化学习算法和状态转移矩阵计算动作指令及后续步骤，直至状态转移矩阵收敛。

作为本发明的进一步改进，第一奖励函数为：

其中，Δdistance为四足机器人与目标之间的距离；pitch为四足机器人的俯仰角；k_d、k_p预先设置为预先设置的实验参数；r₁(s,a)为当前状态空间和当前动作空间的第一奖励值，s为当前状态空间，a为当前动作空间。

作为本发明的进一步改进，利用预设的强化学习算法和预设的模拟参数进行训练，得到状态转移矩阵，包括：将模拟参数输入至预设的第二奖励函数，计算得到第二奖励值；将模拟参数和对应的第二奖励值输入至强化学习算法，以进行训练更新，得到状态转移矩阵。

作为本发明的进一步改进，模拟参数包括状态空间和动作空间；第二奖励函数为：

其中，s为状态空间，分别以0，1，2，3代表四个状态空间；a为动作空间，0代表原地不同，1代表向下一个状态空间移动，2代表向上一个状态空间移动，i为四足机器人的四条腿，分别以0，1，2，3表示；r₂(s,a)为当前状态空间和当前动作空间的第二奖励值。

作为本发明的进一步改进，将收敛的状态转移矩阵和强化学习算法作为四足机器人的行走控制器之后，还包括：实时获取四足机器人与目标位置之间的距离和俯仰角；基于距离、俯仰角、强化学习算法和收敛的状态转移矩阵确认四足机器人每一条腿的最优动作策略；基于最优动作策略下发动作指令至四足机器人的四条腿，以控制四足机器人向目标位置移动。

为实现上述目的，本发明还提供了一种四足机器人行走控制器训练装置，包括：第一训练模块，用于在模拟环境中，利用预设的强化学习算法和预设的模拟参数进行训练，得到状态转移矩阵；第二训练模块，用于在真实环境中，采集四足机器人行走时的状态变化参数，并输入至预设的第一奖励函数和强化学习算法中，以对状态转移矩阵进行更新，直至状态转移矩阵收敛；设定模块，用于将收敛的状态转移矩阵和强化学习算法作为四足机器人的行走控制器。

为实现上述目的，本发明还提供了一种终端，终端包括处理器、与处理器耦接的存储器，其中，存储器存储有用于实现上述中任一项的四足机器人行走控制器训练方法的程序指令；处理器用于执行存储器存储的程序指令以训练得到四足机器人行走控制策略。

为实现上述目的，本发明还提供了一种存储介质，存储有能够实现上述中任一项的四足机器人行走控制器训练方法的程序文件。

本发明提出的四足机器人行走控制器训练方法，通过先在模拟环境中，利用强化学习算法和预设的模拟参数进行训练，得到状态转移矩阵，再在真实环境中，控制四足机器人行走，利用行走时产生的状态变化参数和奖励函数对状态转移矩阵进行进一步训练，直至状态转移矩阵收敛，最后将收敛的状态转移矩阵结合强化学习算法作为四足机器人的行走控制器，用于在无外部输入的模型参数进行精确建模的情况下，亦可控制四足机器人前后左右行走，并且，本申请采用线上模拟训练和线下实际训练结合的方式，在线上模拟训练时，能在短时间内完成大量次数的训练，大大缩减了线下实际训练所需消耗的时间，提升了训练效率。此外，本申请的四足机器人行走控制器训练方法还可应用于智慧城管/智慧社区/智慧安防/智慧物流等场景中，从而推动智慧城市的建设。

附图说明

图1为本发明四足机器人行走控制器训练方法第一实施例的流程示意图；

图2为本发明四足机器人的状态空间示意图；

图3为本发明四足机器人的动作空间示意图；

图4为本发明四足机器人行走控制器训练方法第二实施例的流程示意图；

图5为本发明四足机器人行走控制器训练方法第三实施例的流程示意图；

图6为本发明四足机器人行走控制器训练方法第三实施例的流程示意图；

图7为本发明四足机器人行走控制器训练装置实施例的功能模块示意图；。

图8为本发明终端实施例的结构示意图；

图9为本发明存储介质实施例的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明第一实施例的四足机器人行走控制器训练方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括步骤：

步骤S101：在模拟环境中，利用预设的强化学习算法和预设的模拟参数进行训练，得到状态转移矩阵。

在步骤S101中，本实施例中，所述的模拟环境通过计算机终端架构实现，在该模拟环境中，利用强化学习算法和预先设定的模拟参数即可进行初步的训练，得到状态转移矩阵。

其中，强化学习算法是指机器学习中的一类，通过动作与环境进行交互，从而产生新的状态，环境会据此给出一个奖励(不同的动作会带来不同的奖励)，通过不断地循环这个过程，与环境交互产生新的数据。目标是获取尽可能多的奖励，强化学习算法会根据产生的数据不断修改自身的动作策略，最终达到一个最优的动作，积累最多的奖励；目前，常用的强化学习算法主要包括Deep Q Network算法、Q-learning算法、Sarsa算法、PolicyGradients算法、Model Based RL算法五种，本实施例中优选采用Q-learning算法。

预设的模拟参数是用户预先设定的四足机器人的模拟参数，其包括了四足机器人的状态空间和动作空间。

进一步的，针对于四足机器人的四条腿，本申请通过状态空间表示四足机器人每条腿所在的空间位置，通过动作空间表示四足机器人每条腿的动作。请一并参阅图2，本申请中为四足机器人的每条腿定义了四个空间位置，图2中0，1，2，3分别代表四足机器人的一条腿的末端的空间位置，其余三条腿设置方式相同，四足机器人有四条腿，每条对应四个状态，因此，四足机器人具有256个状态空间。请一并参阅图3，本申请中为四足机器人的每条腿定义了三种动作，图3中的0，1，2分别代表四足机器人一条腿的三种动作，0表示原地不动，1表示向下一个状态空间移动，2表示向上一个状态空间移动，每条腿三种动作，四条腿共81个动作。状态转移矩阵由状态空间和动作空间联合得到，则四足机器人的四条腿所组成的状态空间和动作空间共有81*256＝20763种可能的组合。

本实施例中，在步骤S101之前，还包括：获取预先定义的四足机器人的状态空间和动作空间。其中，预设的模拟参数基于四足机器人的状态空间和动作空间设定。

步骤S102：在真实环境中，采集四足机器人行走时的状态变化参数，并输入至预设的第一奖励函数和强化学习算法中，以对状态转移矩阵进行更新，直至状态转移矩阵收敛。

在步骤S102中，在模拟环境中，得到状态转移矩阵之后，再在真实环境中进行训练，通过控制四足机器人行走，在四足机器人行走的同时利用预先设置的传感器采集四足机器人的状态变化参数，在得到状态变化参数后，利用预设的第一奖励函数对四足机器人的动作进行评分，利用评分结果对状态转移矩阵进行更新。通过循环执行上述更新状态转移矩阵过程，直至状态转移矩阵收敛为止。

步骤S103：将收敛的状态转移矩阵和强化学习算法作为四足机器人的行走控制器。

在步骤S103中，在得到收敛的状态转移矩阵后，利用收敛的状态转移矩阵配合强化学习算法构建四足机器人的行走控制器，通过该行走控制器即可控制四足机器人按照用户的需求前后左右行走。

本发明第一实施例的四足机器人行走控制器训练方法通过先在模拟环境中，利用强化学习算法和预设的模拟参数进行训练，得到状态转移矩阵，再在真实环境中，控制四足机器人行走，利用行走时产生的状态变化参数和奖励函数对状态转移矩阵进行进一步训练，直至状态转移矩阵收敛，最后将收敛的状态转移矩阵结合强化学习算法作为四足机器人的行走控制器，用于在无外部输入的模型参数进行精确建模的情况下，亦可控制四足机器人前后左右行走，并且，本申请采用线上模拟训练和线下实际训练结合的方式，在线上模拟训练时，能在短时间内完成大量次数的训练，大大缩减了线下实际训练所需消耗的时间，提升了训练效率。此外，本申请的四足机器人行走控制器训练方法还可应用于智慧城管/智慧社区/智慧安防/智慧物流等场景中，从而推动智慧城市的建设。

图4是本发明第二实施例的四足机器人行走控制器训练方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限。如图4所示，该方法包括步骤：

步骤S201：在模拟环境中，利用预设的强化学习算法和预设的模拟参数进行训练，得到状态转移矩阵。

在本实施例中，图4中的步骤S201和图1中的步骤S101类似，为简约起见，在此不再赘述。

步骤S202：发送动作指令至四足机器人四条腿上的驱动机构以控制四足机器人向目标行走。

在步骤S202中，通过设定一个目标位置，控制四足机器人向该目标行走，具体公国将动作指令下发至四足机器人的四条腿上的电机以驱动四足机器人行走，该目标为预先设定的地点或物体。

步骤S203：采集四足机器人行走时的状态变化参数，状态变化参数包括状态空间、动作空间、与目标之间的距离和四足机器人的俯仰角。

本实施例中，状态变化参数包括状态空间、动作空间、与目标之间的距离和四足机器人的俯仰角，其中，状态空间和动作空间至直接通过四足机器人每条腿的状态和动作获取，与目标之间的距离和俯仰角通过预先搭载在四足机器人上的传感器得到，例如通过红外传感器测得四足机器人与目标物体之间的距离，通过惯性测量单元测得机器人的俯仰角。

步骤S204：将距离、俯仰角输入至第一奖励函数计算，得到第一奖励值。

在步骤S204中，将四足机器人与目标之间的距离、俯仰角作为输入参数输入至第一奖励函数中进行计算，得到第一奖励值。

本实施例中，若四足机器人按照期望到达下一个状态，则奖励值为正值，若四足机器人未按照期望到达下一个状态，则奖励值为负值，本实施例中，结合四足机器人与目标之间的距离、俯仰角设计奖励函数：

其中，Δdistance为四足机器人与目标之间的距离；pitch为四足机器人的俯仰角；k_d、k_p为预先设置的实验参数；r(s,a)为当前状态空间和当前动作空间的奖励值，s为当前状态空间，a为当前动作空间。为了避免机器人发生欺骗行为，例如朝下行走，此时距离在减小，俯仰角也在减小，而奖励值r在增大，因此，为该奖励函数设定约束项以保证训练出合理的状态转移矩阵，最终得到第一奖励函数：

其中，Δdistance为四足机器人与目标之间的距离；pitch为四足机器人的俯仰角；k_d、k_p为预先设置的实验参数；r₁(s,a)为当前状态空间和当前动作空间的第一奖励值，s为当前状态空间，a为当前动作空间。

步骤S205：将状态空间、动作空间和第一奖励值输入至强化学习算法以更新状态转移矩阵。

本实施例中，在真实环境下，强化学习算法优选为Q-learning算法，Q-learning算法的更新公式如下：

Q(s,a)＝Q(s,a)+α[(r+γmaxQ(s′,a′))-Q(s,a)]；

其中，s为当前状态空间向量；s'为历史记录中的状态空间向量；a为当前动作空间向量；a'为历史记录中的动作空间向量；α为学习率；r为第一奖励值；γ为探索因子，预先设定，本实施例中优选为0.85；Q为状态转移矩阵。

在步骤S205中，将状态空间、动作空间和第一奖励值作为输入参数输入至上述公式，从而对状态转移矩阵进行更新。

步骤S206：循环执行上述利用强化学习算法和状态转移矩阵计算动作指令及后续步骤，直至状态转移矩阵收敛。

在步骤S206中，通过循环执行上述步骤S202～步骤S205，循环更新状态转移矩阵，直至状态转移矩阵收敛时为止。

步骤S207：将收敛的状态转移矩阵和强化学习算法作为四足机器人的行走控制器。

在本实施例中，图4中的步骤S207和图1中的步骤S103类似，为简约起见，在此不再赘述。

本发明第二实施例的四足机器人行走控制器训练方法在第一实施例的基础上，通过利用强化学习算法和状态转移矩阵控制四足机器人行走，并以四足机器人行走时的状态变化参数和第一奖励函数对状态转移矩阵进行更新直至收敛，其针对于四足机器人设计的第一奖励函数设计了约束项，以保证能够训练得到合理的状态转移矩阵，使得根据该状态转移矩阵设计的四足机器人能够按照用户的需求行走。

图5是本发明第三实施例的四足机器人行走控制器训练方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图5所示的流程顺序为限。如图5所示，该方法包括步骤：

步骤S301：将模拟参数输入至预设的第二奖励函数，计算得到第二奖励值。

在步骤S301中，在模拟环境下，无法获取四足机器人行走时的状态变化参数，因此，以预设的模拟参数作为第二奖励函数的输入参数，从而计算得到第二奖励值。

本实施例中，第二奖励函数如下：

其中，s为状态空间，四足机器人每条腿的活动空间划分为四个空间，分别以0，1，2，3表示；a为动作空间，0代表原地不同，1代表向下一个状态空间移动，2代表向上一个状态空间移动，i为四足机器人的四条腿，分别以0，1，2，3表示；r₂(s,a)为当前状态空间和当前动作空间的第二奖励值。具体地，当四足机器人四条腿的状态空间和动作空间均为[1 1 11]时，给予最大奖励1，当任意一条腿状态空间或者动作空间的值为2时，给予最大惩罚-1。

步骤S302：将模拟参数和对应的第二奖励值输入至强化学习算法，以进行训练更新，得到状态转移矩阵。

在步骤S302中，将模拟参数和对应的第二奖励值输入至强化学习算法中进行更新训练，从而得到状态转移矩阵。本实施例中，强化学习算法优选为Q-learning算法，Q-learning算法的计算公式请参考第二实施例，此处不再赘述。需要说明的是，本实施例中在使用Q-learning算法进行更新训练时，γ探索因子优选设定为0.5。

进一步的，本实施例中，在模拟环境下，需要对状态转移矩阵进行足够次数的训练，从而减少真实环境下训练的次数，因此，需要预先准备预设数量的模拟参数，利用预设数量的模拟参数循环进行训练，最终得到状态转移矩阵，例如预先准备3000组模拟参数，在模拟环境下进行3000次训练和更新，得到状态转移矩阵。

步骤S303：在真实环境中，采集四足机器人行走时的状态变化参数，并输入至预设的第一奖励函数和强化学习算法中，以对状态转移矩阵进行更新，直至状态转移矩阵收敛。

在本实施例中，图5中的步骤S303和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S304：将收敛的状态转移矩阵和强化学习算法作为四足机器人的行走控制器。

在本实施例中，图5中的步骤S304和图1中的步骤S103类似，为简约起见，在此不再赘述。

本发明第三实施例的四足机器人行走控制器训练方法在第一实施例的基础上，在模拟环境下进行训练时，针对模拟环境下不存在真实的四足机器人的状态变化参数的情况，设计了第二奖励函数，以配合强化学习算法进行训练和更新，保证状态转移矩阵在模拟环境下能取得较好的训练，并且模拟环境下的训练不需要在三维建模软件中精确建模，简化了模拟的过程，提升了训练的效率。

图6是本发明第四实施例的四足机器人行走控制器训练方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图6所示的流程顺序为限。如图6所示，该方法包括步骤：

步骤S401：在模拟环境中，利用预设的强化学习算法和预设的模拟参数进行训练，得到状态转移矩阵。

在本实施例中，图6中的步骤S401和图1中的步骤S101类似，为简约起见，在此不再赘述。

步骤S402：在真实环境中，采集四足机器人行走时的状态变化参数，并输入至预设的第一奖励函数和强化学习算法中，以对状态转移矩阵进行更新，直至状态转移矩阵收敛。

在本实施例中，图6中的步骤S402和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S403：将收敛的状态转移矩阵和强化学习算法作为四足机器人的行走控制器。

在本实施例中，图6中的步骤S403和图1中的步骤S103类似，为简约起见，在此不再赘述。

步骤S404：实时获取四足机器人与目标位置之间的距离和俯仰角。

步骤S405：基于距离、俯仰角、强化学习算法和收敛的状态转移矩阵确认四足机器人每一条腿的最优动作策略。

步骤S406：基于最优动作策略下发动作指令至四足机器人的四条腿，以控制四足机器人向目标位置移动。

在步骤S404～步骤S406中，在控制四足机器人向目标位置移动的过程中，实时获取四足机器人与目标位置之间的距离和俯仰角，再结合强化学习算法和收敛的状态转移矩阵确认四足机器人移动每一步时，每一条腿的最优动作策略，该最优动作策略包括最优的状态空间和动作空间，在根据最优动作策略控制四足机器人的每一条腿进行移动，从而使得四足机器人准确、快速移动至目标位置。

本发明第四实施例的四足机器人行走控制器训练方法在第一实施例的基础上，在得到四足机器人的行走控制器后，当四足机器人向某一目标位置前进时，通过该行走控制器计算四足机器人每一步的最优动作指令，并将最优动作指令下发至四足机器人的四条腿的驱动机构，以控制四足机器人按最优的行走策略向目标位置行走。

图7展示了本发明实施例的四足机器人行走控制器训练装置的功能模块示意图。如图7所示，该四足机器人行走控制器训练装置10包括第一训练模块100、第二训练模块101和设定模块102。

第一训练模块100，用于在模拟环境中，利用预设的强化学习算法和预设的模拟参数进行训练，得到状态转移矩阵。

第二训练模块101，用于在真实环境中，采集四足机器人行走时的状态变化参数，并输入至预设的第一奖励函数和强化学习算法中，以对状态转移矩阵进行更新，直至状态转移矩阵收敛。

设定模块102，用于将收敛的状态转移矩阵和强化学习算法作为四足机器人的行走控制器。

可选地，第一训练模块100利用预设的强化学习算法和预设的模拟参数进行训练的操作之前，还包括：获取预先定义的四足机器人的状态空间和动作空间，状态空间表示四足机器人每条腿所在的空间位置，动作空间表示四足机器人每条腿的动作，预设的模拟参数基于状态空间和动作空间设定。

可选地，第二训练模块101采集四足机器人行走时的状态变化参数，并输入至预设的第一奖励函数和强化学习算法中，以对状态转移矩阵进行更新，直至状态转移矩阵收敛的操作还可以为：发送动作指令至四足机器人四条腿上的驱动机构以控制四足机器人向目标行走；采集四足机器人行走时的状态变化参数，状态变化参数包括状态空间、动作空间、与目标之间的距离和四足机器人的俯仰角；将距离、俯仰角输入至第一奖励函数计算，得到第一奖励值；将状态空间、动作空间和第一奖励值输入至强化学习算法以更新状态转移矩阵；循环执行上述利用强化学习算法和状态转移矩阵计算动作指令及后续步骤，直至状态转移矩阵收敛。

可选地，第一奖励函数为：

可选地，第一训练模块100，在模拟环境中，利用预设的强化学习算法和预设的模拟参数进行训练，得到状态转移矩阵的操作还可以为：将模拟参数输入至预设的第二奖励函数，计算得到第二奖励值；

将模拟参数和对应的第二奖励值输入至强化学习算法，以进行训练更新，得到状态转移矩阵。

可选地，第二奖励函数为：

其中，s为状态空间，四足机器人每条腿的活动空间划分为四个空间，分别以0，1，2，3表示；a为动作空间，0代表原地不同，1代表向下一个状态空间移动，2代表向上一个状态空间移动，i为四足机器人的四条腿，分别以0，1，2，3表示；r₂(s,a)为当前状态空间和当前动作空间的第二奖励值。

可选地，设定模块102将收敛的状态转移矩阵和强化学习算法作为四足机器人的行走控制器的操作之后，还包括：获取四足机器人与目标位置之间的距离；基于距离、强化学习算法和收敛的状态转移矩阵确认四足机器人每一条腿的最优动作策略；基于最优动作策略下发动作指令至四足机器人的四条腿，以控制四足机器人向目标位置移动。

请参阅图8，图8为本发明实施例的终端的结构示意图。如图8所示，该终端20包括处理器200及和处理器200耦接的存储器201。

存储器201存储有用于实现上述任一实施例所述的四足机器人行走控制器训练方法的程序指令。

处理器200用于执行存储器201存储的程序指令以训练得到四足机器人行走控制器。

其中，处理器200还可以称为CPU(Central Processing Unit，中央处理单元)。处理器200可能是一种集成电路芯片，具有信号的处理能力。处理器200还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图9，图9为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件30，其中，该程序文件30可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种四足机器人行走控制器训练方法，其特征在于，包括：

在模拟环境中，利用预设的强化学习算法和预设的模拟参数进行训练，得到状态转移矩阵，所述状态转移矩阵由状态空间和动作空间联合得到；

在真实环境中，采集所述四足机器人行走时的状态变化参数，并输入至预设的第一奖励函数和所述强化学习算法中，以对所述状态转移矩阵进行更新，直至所述状态转移矩阵收敛，所述状态变化参数包括状态空间、动作空间、与目标之间的距离和四足机器人的俯仰角；

所述第一奖励函数为：

其中，Δdistance为所述四足机器人与所述目标之间的距离；pitch为所述四足机器人的俯仰角；k_d、k_p为预先设置的实验参数；r₁(s,a)为当前状态空间和当前动作空间的第一奖励值，s为当前状态空间，a为当前动作空间；

将收敛的状态转移矩阵和所述强化学习算法作为所述四足机器人的行走控制器。

2.根据权利要求1所述的四足机器人行走控制器训练方法，其特征在于，所述利用预设的强化学习算法和预设的模拟参数进行训练之前，还包括：

获取预先定义的四足机器人的状态空间和动作空间，所述状态空间表示所述四足机器人每条腿所在的空间位置，所述动作空间表示所述四足机器人每条腿的动作，所述预设的模拟参数基于所述状态空间和所述动作空间设定。

3.根据权利要求2所述的四足机器人行走控制器训练方法，其特征在于，所述采集所述四足机器人行走时的状态变化参数，并输入至预设的第一奖励函数和所述强化学习算法中，以对所述状态转移矩阵进行更新，直至所述状态转移矩阵收敛，包括：

发送动作指令至所述四足机器人四条腿上的驱动机构以控制所述四足机器人向目标行走；

采集所述四足机器人行走时的状态变化参数，所述状态变化参数包括所述状态空间、所述动作空间、与所述目标之间的距离和所述四足机器人的俯仰角；

将所述距离、所述俯仰角输入至所述第一奖励函数计算，得到第一奖励值；

将所述状态空间、所述动作空间和所述第一奖励值输入至强化学习算法以更新所述状态转移矩阵；

循环执行上述利用所述强化学习算法和所述状态转移矩阵计算动作指令及后续步骤，直至所述状态转移矩阵收敛。

4.根据权利要求2所述的四足机器人行走控制器训练方法，其特征在于，所述利用预设的强化学习算法和预设的模拟参数进行训练，得到状态转移矩阵，包括：

将所述模拟参数输入至预设的第二奖励函数，计算得到第二奖励值；

将所述模拟参数和对应的所述第二奖励值输入至所述强化学习算法，以进行训练更新，得到所述状态转移矩阵。

5.根据权利要求4所述的四足机器人行走控制器训练方法，其特征在于，所述第二奖励函数为：

其中，s为所述状态空间，所述四足机器人每条腿的活动空间划分为四个空间，分别以0，1，2，3表示；a为所述动作空间，0代表原地不同，1代表向下一个状态空间移动，2代表向上一个状态空间移动，i为所述四足机器人的四条腿，分别以0，1，2，3表示；r₂(s,a)为当前状态空间和当前动作空间的第二奖励值。

6.根据权利要求1所述的四足机器人行走控制器训练方法，其特征在于，所述将收敛的状态转移矩阵和所述强化学习算法作为所述四足机器人的行走控制器之后，还包括：

实时获取所述四足机器人与目标位置之间的距离和俯仰角；

基于所述距离、所述俯仰角、所述强化学习算法和收敛的状态转移矩阵确认所述四足机器人每一条腿的最优动作策略；

基于所述最优动作策略下发动作指令至所述四足机器人的四条腿，以控制所述四足机器人向所述目标位置移动。

7.一种四足机器人行走控制器训练装置，其特征在于，包括：

第一训练模块，用于在模拟环境中，利用预设的强化学习算法和预设的模拟参数进行训练，得到状态转移矩阵，所述状态转移矩阵由状态空间和动作空间联合得到；

第二训练模块，用于在真实环境中，采集四足机器人行走时的状态变化参数，并输入至预设的第一奖励函数和强化学习算法中，以对状态转移矩阵进行更新，直至状态转移矩阵收敛，所述状态变化参数包括状态空间、动作空间、与目标之间的距离和四足机器人的俯仰角；

所述第一奖励函数为：

设定模块，用于将收敛的所述状态转移矩阵和所述强化学习算法作为所述四足机器人的行走控制器。

8.一种终端，其特征在于，所述终端包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现如权利要求1-6中任一项所述的四足机器人行走控制器训练方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以训练得到四足机器人行走控制器。

9.一种存储介质，其特征在于，存储有能够实现如权利要求1-6中任一项所述的四足机器人行走控制器训练方法的程序文件。