CN116038716B

CN116038716B - 机器人的控制方法和机器人的控制模型的训练方法

Info

Publication number: CN116038716B
Application number: CN202310240218.3A
Authority: CN
Inventors: 付鑫; 吴太晖; 孟繁悦; 杨晓辉; 王洪磊
Original assignee: General Coal Research Institute Co Ltd
Current assignee: General Coal Research Institute Co Ltd
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-07-18
Anticipated expiration: 2043-03-14
Also published as: CN116038716A

Abstract

本发明公开了一种机器人的控制方法和机器人的控制模型的训练方法，属于机械手、机器人技术领域，包括：获取第一时间点的第一状态信息、第一时间点的目标运动参数、第二时间点的第一状态信息、第二时间点的目标运动参数，第一时间点晚于第二时间点；基于第二时间点的第一状态信息、第二时间点的目标运动参数，对第一时间点的第二状态信息、第一时间点的环境参数进行联合编码，得到第一时间点的特征；基于第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征，确定第一时间点的动作；控制真实机器人执行第一时间点的动作，即可通过联合编码获取真实机器人在第一时间点的特征，以确定第一时间点的动作，机器人控制准确性更高。

Description

机器人的控制方法和机器人的控制模型的训练方法

技术领域

本发明涉及机械手、机器人技术领域，特别涉及一种机器人的控制方法、机器人的控制模型的训练方法。

背景技术

目前，随着人工智能技术的不断发展，机器人具有节省人力和人工成本等优点，在家居清洁、监控、产品加工等领域得到了广泛应用。然而，相关技术中的机器人的控制方法，存在控制准确性较低的问题。

发明内容

本发明旨在至少在一定程度上解决上述技术中的技术问题之一。

为此，本发明的一个目的在于提出一种机器人的控制方法，可综合考虑到第二时间点的第一状态信息、第二时间点的目标运动参数，对真实机器人在第一时间点的第二状态信息、真实机器人所处环境在第一时间点的环境参数进行联合编码，得到真实机器人在第一时间点的特征，即本方案中不需要获取第一时间点的第二状态信息、第一时间点的环境参数的数值，即不需要对第一时间点的第二状态信息、第一时间点的环境参数进行显示估计，仅需获取真实机器人在第一时间点的特征，并综合考虑到第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征，确定真实机器人在第一时间点的动作，提高了机器人控制的准确性。

本发明的第二个目的在于提出一种机器人的控制模型的训练方法。

本发明的第三个目的在于提出一种机器人的控制装置。

本发明的第四个目的在于提出一种机器人的控制模型的训练装置。

本发明的第五个目的在于提出一种电子设备。

本发明的第六个目的在于提出一种计算机可读存储介质。

本发明第一方面实施例提出了一种机器人的控制方法，包括：获取真实机器人在第一时间点的第一状态信息、第一时间点的目标运动参数、第二时间点的第一状态信息、第二时间点的目标运动参数，其中，所述第一时间点晚于所述第二时间点；基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述真实机器人在第一时间点的第二状态信息、所述真实机器人所处环境在第一时间点的环境参数进行联合编码，得到所述真实机器人在第一时间点的特征；基于所述第一时间点的第一状态信息、所述第一时间点的目标运动参数和所述第一时间点的特征，确定所述真实机器人在第一时间点的动作；响应于当前时刻达到所述第一时间点，控制所述真实机器人执行所述第一时间点的动作。

根据本发明实施例的机器人的控制方法，可综合考虑到第二时间点的第一状态信息、第二时间点的目标运动参数，对真实机器人在第一时间点的第二状态信息、真实机器人所处环境在第一时间点的环境参数进行联合编码，得到真实机器人在第一时间点的特征，即本方案中不需要获取第一时间点的第二状态信息、第一时间点的环境参数的数值，即不需要对第一时间点的第二状态信息、第一时间点的环境参数进行显示估计，仅需获取真实机器人在第一时间点的特征，并综合考虑到第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征，确定真实机器人在第一时间点的动作，提高了机器人控制的准确性。

另外，根据本发明上述实施例提出的机器人的控制方法还可以具有如下附加的技术特征：

在本发明的一个实施例中，所述基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述真实机器人在第一时间点的第二状态信息、所述真实机器人所处环境在第一时间点的环境参数进行联合编码，得到所述真实机器人在第一时间点的特征，包括：基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述第一时间点的第二状态信息进行估计，得到估计的第一时间点的第二状态信息；基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述第一时间点的环境参数进行估计，得到估计的第一时间点的环境参数；对所述估计的第一时间点的第二状态信息、所述估计的第一时间点的环境参数进行联合编码，得到所述第一时间点的特征。

在本发明的一个实施例中，所述基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述真实机器人在第一时间点的第二状态信息、所述真实机器人所处环境在第一时间点的环境参数进行联合编码，得到所述真实机器人在第一时间点的特征，包括：获取机器人的控制模型，其中，所述控制模型包括第一编码器；将所述第二时间点的第一状态信息、所述第二时间点的目标运动参数输入所述第一编码器中，由所述第一编码器输出所述第一时间点的特征。

在本发明的一个实施例中，所述控制模型还包括第一控制器；所述基于所述第一时间点的第一状态信息、所述第一时间点的目标运动参数和所述第一时间点的特征，确定所述真实机器人在第一时间点的动作，包括：将所述第一时间点的第一状态信息、所述第一时间点的目标运动参数和所述第一时间点的特征输入所述第一控制器中，由所述第一控制器输出所述第一时间点的动作。

本发明第二方面实施例提出了一种机器人的控制模型的训练方法，包括：获取学生模型和教师模型，其中，所述学生模型包括第二编码器和第二控制器，所述教师模型包括第三编码器和第三控制器，所述教师模型部署在机器人的仿真环境中；从所述仿真环境中获取仿真机器人在第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的第二状态信息、所述仿真环境在第三时间点的环境参数、第四时间点的第一状态信息、第四时间点的目标运动参数，其中，所述第三时间点晚于所述第四时间点；将所述第三时间点的第二状态信息、所述第三时间点的环境参数输入所述第三编码器中，由所述第三编码器输出所述仿真机器人在第三时间点的参考特征；将所述第三时间点的第一状态信息、所述第三时间点的目标运动参数、所述第三时间点的参考特征输入所述第三控制器中，由所述第三控制器输出所述仿真机器人在第三时间点的参考动作；基于所述第三时间点的第一状态信息、所述第三时间点的目标运动参数、所述第三时间点的参考特征、所述第三时间点的参考动作、所述第四时间点的第一状态信息、所述第四时间点的目标运动参数，对所述学生模型进行训练，得到机器人的控制模型。

本发明实施例的机器人的控制模型的训练方法，可利用教师模型的第三编码器，对第三时间点的第二状态信息、第三时间点的环境参数进行处理，得到仿真机器人在第三时间点的参考特征，还可利用教师模型的第三控制器，对第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的参考特征进行处理，得到仿真机器人在第三时间点的参考动作，并综合考虑到第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的参考特征、第三时间点的参考动作、第四时间点的第一状态信息、第四时间点的目标运动参数，对学生模型进行训练，得到机器人的控制模型。

另外，根据本发明上述实施例提出的机器人的控制模型的训练方法还可以具有如下附加的技术特征：

在本发明的一个实施例中，所述控制模型包括第一编码器；所述基于所述第三时间点的第一状态信息、所述第三时间点的目标运动参数、所述第三时间点的参考特征、所述第三时间点的参考动作、所述第四时间点的第一状态信息、所述第四时间点的目标运动参数，对所述学生模型进行训练，得到机器人的控制模型，包括：将所述第四时间点的第一状态信息、所述第四时间点的目标运动参数输入所述第二编码器中，由所述第二编码器输出所述仿真机器人在第三时间点的第一预测特征；基于所述第三时间点的参考特征和所述第三时间点的第一预测特征，对所述第二编码器进行训练，得到所述第一编码器。

在本发明的一个实施例中，所述控制模型还包括第一控制器；所述得到所述第一编码器之后，还包括：将所述第四时间点的第一状态信息、所述第四时间点的目标运动参数输入所述第一编码器中，由所述第一编码器输出所述仿真机器人在第三时间点的第二预测特征；将所述第三时间点的第一状态信息、所述第三时间点的目标运动参数、所述第三时间点的第二预测特征输入所述第二控制器中，由所述第二控制器输出所述仿真机器人在第三时间点的预测动作；基于所述第三时间点的参考动作和所述第三时间点的预测动作，对所述第二控制器进行训练，得到所述第一控制器。

在本发明的一个实施例中，还包括：从所述仿真环境中获取所述仿真机器人在第五时间点的第一状态信息、第五时间点的目标运动参数、第五时间点的第二状态信息、所述仿真环境在第五时间点的环境参数；将所述第五时间点的第一状态信息、所述第五时间点的目标运动参数、所述第五时间点的第二状态信息、所述第五时间点的环境参数输入初始模型中，由所述初始模型输出所述仿真机器人在第五时间点的预测动作；获取所述仿真环境反馈的所述第五时间点的预测动作对应的奖励；基于所述第五时间点的第一状态信息、所述第五时间点的目标运动参数、所述第五时间点的第二状态信息、所述第五时间点的环境参数、所述第五时间点的预测动作、所述第五时间点的预测动作对应的奖励，对所述初始模型进行训练，得到所述教师模型。

在本发明的一个实施例中，所述初始模型包括第四编码器和第四控制器；所述将所述第五时间点的第一状态信息、所述第五时间点的目标运动参数、所述第五时间点的第二状态信息、所述第五时间点的环境参数输入初始模型中，由所述初始模型输出所述仿真机器人在第五时间点的预测动作，包括：将所述第五时间点的第二状态信息、所述第五时间点的环境参数输入所述第四编码器中，由所述第四编码器输出所述仿真机器人在第五时间点的预测特征；将所述第五时间点的第一状态信息、所述第五时间点的目标运动参数、所述第五时间点的预测特征输入所述第四控制器中，由所述第四控制器输出所述第五时间点的预测动作。

本发明第三方面实施例提出了一种机器人的控制装置，包括：获取模块，用于获取真实机器人在第一时间点的第一状态信息、第一时间点的目标运动参数、第二时间点的第一状态信息、第二时间点的目标运动参数，其中，所述第一时间点晚于所述第二时间点；编码模块，用于基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述真实机器人在第一时间点的第二状态信息、所述真实机器人所处环境在第一时间点的环境参数进行联合编码，得到所述真实机器人在第一时间点的特征；确定模块，用于基于所述第一时间点的第一状态信息、所述第一时间点的目标运动参数和所述第一时间点的特征，确定所述真实机器人在第一时间点的动作；控制模块，用于响应于当前时刻达到所述第一时间点，控制所述真实机器人执行所述第一时间点的动作。

本发明实施例的机器人的控制装置，可综合考虑到第二时间点的第一状态信息、第二时间点的目标运动参数，对真实机器人在第一时间点的第二状态信息、真实机器人所处环境在第一时间点的环境参数进行联合编码，得到真实机器人在第一时间点的特征，即本方案中不需要获取第一时间点的第二状态信息、第一时间点的环境参数的数值，即不需要对第一时间点的第二状态信息、第一时间点的环境参数进行显示估计，仅需获取真实机器人在第一时间点的特征，并综合考虑到第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征，确定真实机器人在第一时间点的动作，提高了机器人控制的准确性。

另外，根据本发明上述实施例提出的机器人的控制装置还可以具有如下附加的技术特征：

在本发明的一个实施例中，所述编码模块，还用于：基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述第一时间点的第二状态信息进行估计，得到估计的第一时间点的第二状态信息；基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述第一时间点的环境参数进行估计，得到估计的第一时间点的环境参数；对所述估计的第一时间点的第二状态信息、所述估计的第一时间点的环境参数进行联合编码，得到所述第一时间点的特征。

在本发明的一个实施例中，所述编码模块，还用于：获取机器人的控制模型，其中，所述控制模型包括第一编码器；将所述第二时间点的第一状态信息、所述第二时间点的目标运动参数输入所述第一编码器中，由所述第一编码器输出所述第一时间点的特征。

在本发明的一个实施例中，所述控制模型还包括第一控制器；所述确定模块，还用于：将所述第一时间点的第一状态信息、所述第一时间点的目标运动参数和所述第一时间点的特征输入所述第一控制器中，由所述第一控制器输出所述第一时间点的动作。

本发明第四方面实施例提出了一种机器人的控制模型的训练装置，包括：第一获取模块，用于获取学生模型和教师模型，其中，所述学生模型包括第二编码器和第二控制器，所述教师模型包括第三编码器和第三控制器，所述教师模型部署在机器人的仿真环境中；第二获取模块，用于从所述仿真环境中获取仿真机器人在第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的第二状态信息、所述仿真环境在第三时间点的环境参数、第四时间点的第一状态信息、第四时间点的目标运动参数，其中，所述第三时间点晚于所述第四时间点；第三获取模块，用于将所述第三时间点的第二状态信息、所述第三时间点的环境参数输入所述第三编码器中，由所述第三编码器输出所述仿真机器人在第三时间点的参考特征；第四获取模块，用于将所述第三时间点的第一状态信息、所述第三时间点的目标运动参数、所述第三时间点的参考特征输入所述第三控制器中，由所述第三控制器输出所述仿真机器人在第三时间点的参考动作；训练模块，用于基于所述第三时间点的第一状态信息、所述第三时间点的目标运动参数、所述第三时间点的参考特征、所述第三时间点的参考动作、所述第四时间点的第一状态信息、所述第四时间点的目标运动参数，对所述学生模型进行训练，得到机器人的控制模型。

本发明实施例的机器人的控制模型的训练装置，可利用教师模型的第三编码器，对第三时间点的第二状态信息、第三时间点的环境参数进行处理，得到仿真机器人在第三时间点的参考特征，还可利用教师模型的第三控制器，对第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的参考特征进行处理，得到仿真机器人在第三时间点的参考动作，并综合考虑到第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的参考特征、第三时间点的参考动作、第四时间点的第一状态信息、第四时间点的目标运动参数，对学生模型进行训练，得到机器人的控制模型。

另外，根据本发明上述实施例提出的机器人的控制模型的训练装置还可以具有如下附加的技术特征：

在本发明的一个实施例中，所述控制模型包括第一编码器；所述训练模块，还用于：将所述第四时间点的第一状态信息、所述第四时间点的目标运动参数输入所述第二编码器中，由所述第二编码器输出所述仿真机器人在第三时间点的第一预测特征；基于所述第三时间点的参考特征和所述第三时间点的第一预测特征，对所述第二编码器进行训练，得到所述第一编码器。

在本发明的一个实施例中，所述控制模型还包括第一控制器；所述得到所述第一编码器之后，所述训练模块，还用于：将所述第四时间点的第一状态信息、所述第四时间点的目标运动参数输入所述第一编码器中，由所述第一编码器输出所述仿真机器人在第三时间点的第二预测特征；将所述第三时间点的第一状态信息、所述第三时间点的目标运动参数、所述第三时间点的第二预测特征输入所述第二控制器中，由所述第二控制器输出所述仿真机器人在第三时间点的预测动作；基于所述第三时间点的参考动作和所述第三时间点的预测动作，对所述第二控制器进行训练，得到所述第一控制器。

在本发明的一个实施例中，所述训练模块，还用于：从所述仿真环境中获取所述仿真机器人在第五时间点的第一状态信息、第五时间点的目标运动参数、第五时间点的第二状态信息、所述仿真环境在第五时间点的环境参数；将所述第五时间点的第一状态信息、所述第五时间点的目标运动参数、所述第五时间点的第二状态信息、所述第五时间点的环境参数输入初始模型中，由所述初始模型输出所述仿真机器人在第五时间点的预测动作；获取所述仿真环境反馈的所述第五时间点的预测动作对应的奖励；基于所述第五时间点的第一状态信息、所述第五时间点的目标运动参数、所述第五时间点的第二状态信息、所述第五时间点的环境参数、所述第五时间点的预测动作、所述第五时间点的预测动作对应的奖励，对所述初始模型进行训练，得到所述教师模型。

在本发明的一个实施例中，所述初始模型包括第四编码器和第四控制器；所述训练模块，还用于：将所述第五时间点的第二状态信息、所述第五时间点的环境参数输入所述第四编码器中，由所述第四编码器输出所述仿真机器人在第五时间点的预测特征；将所述第五时间点的第一状态信息、所述第五时间点的目标运动参数、所述第五时间点的预测特征输入所述第四控制器中，由所述第四控制器输出所述第五时间点的预测动作。

本发明第五方面实施例提出了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本发明第一方面实施例所述的机器人的控制方法，或者实现如本发明第二方面实施例所述的机器人的控制模型的训练方法。

本发明实施例的电子设备，通过处理器执行存储在存储器上的计算机程序，可综合考虑到第二时间点的第一状态信息、第二时间点的目标运动参数，对真实机器人在第一时间点的第二状态信息、真实机器人所处环境在第一时间点的环境参数进行联合编码，得到真实机器人在第一时间点的特征，即本方案中不需要获取第一时间点的第二状态信息、第一时间点的环境参数的数值，即不需要对第一时间点的第二状态信息、第一时间点的环境参数进行显示估计，仅需获取真实机器人在第一时间点的特征，并综合考虑到第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征，确定真实机器人在第一时间点的动作，提高了机器人控制的准确性。

本申请第六方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如本发明第一方面实施例所述的机器人的控制方法，或者实现如本发明第二方面实施例所述的机器人的控制模型的训练方法。

本发明实施例的计算机可读存储介质，通过存储计算机程序并被处理器执行，可综合考虑到第二时间点的第一状态信息、第二时间点的目标运动参数，对真实机器人在第一时间点的第二状态信息、真实机器人所处环境在第一时间点的环境参数进行联合编码，得到真实机器人在第一时间点的特征，即本方案中不需要获取第一时间点的第二状态信息、第一时间点的环境参数的数值，即不需要对第一时间点的第二状态信息、第一时间点的环境参数进行显示估计，仅需获取真实机器人在第一时间点的特征，并综合考虑到第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征，确定真实机器人在第一时间点的动作，提高了机器人控制的准确性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的机器人的控制方法的流程示意图；

图2为根据本发明一个实施例的机器人的控制方法的示意图；

图3为根据本发明另一个实施例的机器人的控制方法的流程示意图；

图4为根据本发明一个实施例的机器人的控制模型的训练方法的流程示意图；

图5为根据本发明一个实施例的机器人的控制模型的训练方法的示意图；

图6为根据本发明一个实施例的教师模型的训练方法的流程示意图；

图7为根据本发明一个实施例的机器人的控制装置的结构示意图；

图8为根据本发明一个实施例的机器人的控制模型的训练装置的结构示意图；

图9为根据本发明一个实施例的电子设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面结合附图来描述本发明实施例的机器人的控制方法、机器人的控制模型的训练方法、装置、电子设备和存储介质。

图1为根据本发明一个实施例的机器人的控制方法的流程示意图。

如图1所示，本发明实施例的机器人的控制方法，包括：

S101，获取真实机器人在第一时间点的第一状态信息、第一时间点的目标运动参数、第二时间点的第一状态信息、第二时间点的目标运动参数，其中，第一时间点晚于第二时间点。

需要说明的是，对真实机器人不做过多限定，比如，可包括四足机器人、轮腿式机器人、轮式机器人等。

需要说明的是，对第一状态信息、目标运动参数均不做过多限定。

比如，第一状态信息可包括机器人本体的线加速度、机器人本体的角速度/>、重力方向的单位向量在机器人坐标系下的投影/>、机器人腿部关节处的角速度/>、角加速度等。对上述第一状态信息的维度不做过多限定，比如，/>、/>、/>均为3维向量，/>、/>均为12维向量。

比如，目标运动参数可包括机器人本体的目标速度、目标角速度/>等。对上述目标运动参数的维度不做过多限定，比如，/>为2维向量，/>可基于机器人本体的目标速度的x轴分量、y轴分量得到，/>为1维向量，/>可基于机器人本体的目标角速度的z轴分量得到。

在一种实施方式中，可通过真实机器人上的传感器采集第一状态信息。其中，传感器可包括IMU（Inertial Measurement Unit，惯性测量单元）。

在一种实施方式中，用户可通过遥控器、真实机器人本体上的操控面板、语音等方式向真实机器人下发运动指令，或者真实机器人可自行生成运动指令，可从运动指令中提取出目标运动参数。

需要说明的是，第一时间点晚于第二时间点，第一时间点、第二时间点均为至少一个。对第一时间点、第二时间点均不做过多限定，比如，第一时间点、第二时间点均以天、小时、分钟、秒为时间粒度。

以第一时间点、第二时间点均以秒为时间粒度为例，第一时间点可为1月1日上午10点1分0秒，第二时间点可包括1月1日上午10点0分50秒、1月1日上午10点0分40秒、1月1日上午10点0分30秒、1月1日上午10点0分20秒等。

S102，基于第二时间点的第一状态信息、第二时间点的目标运动参数，对真实机器人在第一时间点的第二状态信息、真实机器人所处环境在第一时间点的环境参数进行联合编码，得到真实机器人在第一时间点的特征。

需要说明的是，对第二状态信息、环境参数均不做过多限定。

比如，第二状态信息可包括机器人四足与地面的接触状态、机器人本体的线速度等。对上述第二状态信息的维度不做过多限定，比如，/>为4维向量，可基于机器人的标识1至4的足部与地面的接触状态得到，若足部与地面未接触，则足部与地面的接触状态可为0，反之，若足部与地面接触，则足部与地面的接触状态可为1，/>为3维向量。

比如，环境参数可包括机器人足部与地面的摩擦系数等。

需要说明的是，对第一时间点的第二状态信息、第一时间点的环境参数进行联合编码，得到的第一时间点的特征的数量为一个。对第一时间点的特征/>的维度不做过多限定，比如，/>可为14维。对编码方式不做过多限定。比如，可采用相关技术中的任一编码方式来实现。

本公开的实施例中，基于第二时间点的第一状态信息、第二时间点的目标运动参数，对真实机器人在第一时间点的第二状态信息、真实机器人所处环境在第一时间点的环境参数进行联合编码，得到真实机器人在第一时间点的特征，可通过如下几种方式来实现：

方式1、基于第二时间点的第一状态信息、第二时间点的目标运动参数，对第一时间点的第二状态信息的第一特征进行估计，得到估计的第一特征，基于第二时间点的第一状态信息、第二时间点的目标运动参数，对第一时间点的环境参数的第二特征进行估计，得到估计的第二特征，对估计的第一特征、估计的第二特征进行拼接，得到第一时间点的特征。

由此，该方法中可基于第二时间点的第一状态信息、第二时间点的目标运动参数，分别对第一时间点的第二状态信息的第一特征、第一时间点的环境参数的第二特征进行估计，并对估计的第一特征和估计的第二特征进行拼接，得到第一时间点的特征。

方式2、基于第二时间点的第一状态信息、第二时间点的目标运动参数，对第一时间点的第二状态信息进行估计，得到估计的第一时间点的第二状态信息，基于第二时间点的第一状态信息、第二时间点的目标运动参数，对第一时间点的环境参数进行估计，得到估计的第一时间点的环境参数，对估计的第一时间点的第二状态信息、估计的第一时间点的环境参数进行联合编码，得到第一时间点的特征。

由此，该方法中可基于第二时间点的第一状态信息、第二时间点的目标运动参数，分别对第一时间点的第二状态信息、第一时间点的环境参数进行估计，并对估计的第一时间点的第二状态信息、估计的第一时间点的环境参数进行联合编码，得到第一时间点的特征。

方式3、获取机器人的控制模型，其中，控制模型包括第一编码器，将第二时间点的第一状态信息、第二时间点的目标运动参数输入第一编码器中，由第一编码器输出第一时间点的特征。

需要说明的是，对控制模型、第一编码器均不做过多限定，比如，控制模型可包括NNs（Neural Networks，神经网络）模型，第一编码器可采用全连接多层感知结构。

由此，该方法中可利用第一编码器对第二时间点的第一状态信息、第二时间点的目标运动参数进行处理，得到第一时间点的特征。

方式4、对第二时间点的第一状态信息、第二时间点的目标运动参数进行拼接，得到第一拼接结果，基于第一拼接结果，对第一时间点的第二状态信息、第一时间点的环境参数进行联合编码，得到第一时间点的特征。

需要说明的是，对拼接方式不做过多限定，比如，可采用相关技术中的任一向量拼接方式来实现。在一些例子中，以第一状态信息包括、/>、/>、/>、/>，目标运动参数包括/>、/>为例，第一拼接结果/>如下：

在一种实施方式中，基于第一拼接结果，对第一时间点的第二状态信息、第一时间点的环境参数进行联合编码，得到第一时间点的特征，包括将第一拼接结果输入第一编码器中，由第一编码器输出第一时间点的特征。

如图2所示，机器人的控制模型包括第一编码器和第一控制器，可对第二时间点的第一状态信息、第二时间点的目标运动参数进行拼接，得到第一拼接结果，将第一拼接结果/>输入第一编码器中，由第一编码器输出第一时间点的特征/>。

由此，该方法中可对第二时间点的第一状态信息、第二时间点的目标运动参数进行拼接，得到第一拼接结果，以得到第一时间点的特征。

S103，基于第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征，确定真实机器人在第一时间点的动作。

需要说明的是，对真实机器人在第一时间点的动作不做过多限定，比如，可包括机器人的目标关节角度等。比如，/>为12维向量，可基于机器人的12个关节的目标关节角度得到，可以理解的是，不同的关节可对应不同的目标关节角度。

本公开的实施例中，基于第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征，确定真实机器人在第一时间点的动作，可通过如下几种方式来实现：

方式1、将第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征输入第一控制器中，由第一控制器输出第一时间点的动作。

本公开的实施例中，控制模型还包括第一控制器。第一控制器为第一编码器的下一网络层。对第一控制器不做过多限定，比如，第一控制器可采用全连接多层感知结构。

由此，该方法中可利用第一控制器对第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征进行处理，得到第一时间点的动作。

方式2、对第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征进行拼接，得到第二拼接结果，基于第二拼接结果，确定第一时间点的动作。

在一种实施方式中，对第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征进行拼接，得到第二拼接结果，包括对第一时间点的第一状态信息、第一时间点的目标运动参数进行拼接，得到第三拼接结果，将第三拼接结果和第一时间点的特征进行拼接，得到第二拼接结果。

在一些例子中，以第一状态信息包括、/>、/>、/>、/>，目标运动参数包括/>、/>，第一时间点的特征为/>为例，第三拼接结果/>、第二拼接结果/>如下：

在一种实施方式中，基于第二拼接结果，确定第一时间点的动作，包括将第二拼接结果输入第一控制器中，由第一控制器输出第一时间点的动作。

继续以图2为例，对第一时间点的第一状态信息、第一时间点的目标运动参数进行拼接，得到第三拼接结果，对第三拼接结果/>和第一时间点的特征/>进行拼接，得到第二拼接结果/>，将第二拼接结果/>输入第一控制器中，由第一控制器输出第一时间点的动作/>。

由此，该方法中可对第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征进行拼接，得到第二拼接结果，以得到第一时间点的动作。

S104，响应于当前时刻达到第一时间点，控制真实机器人执行第一时间点的动作。

在一种实施方式中，控制真实机器人执行第一时间点的动作，包括通过真实机器人上的PD（Proportional differential，比例微分）控制器、PID（Proportion IntegralDifferential，比例积分微分）控制器等，控制真实机器人执行第一时间点的动作。

在一些例子中，以第一时间点的动作为为例，可通过真实机器人上的PD控制器，控制真实机器人的实际关节角度调节至/>。

在一些例子中，可基于第一时间点的动作，得到目标关节力矩，通过真实机器人上的PD控制器，控制真实机器人的实际关节力矩调节至/>，以控制真实机器人执行第一时间点的动作。

比如，以第一时间点的动作为为例，基于第一时间点的动作，得到目标关节力矩，可通过如下公式来实现：

其中，为比例系数，/>为微分系数。

综上，根据本发明实施例的机器人的控制方法，可综合考虑到第二时间点的第一状态信息、第二时间点的目标运动参数，对真实机器人在第一时间点的第二状态信息、真实机器人所处环境在第一时间点的环境参数进行联合编码，得到真实机器人在第一时间点的特征，即本方案中不需要获取第一时间点的第二状态信息、第一时间点的环境参数的数值，即不需要对第一时间点的第二状态信息、第一时间点的环境参数进行显示估计，仅需获取真实机器人在第一时间点的特征，并综合考虑到第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征，确定真实机器人在第一时间点的动作，提高了机器人控制的准确性。

图3为根据本发明另一个实施例的机器人的控制方法的流程示意图。

如图3所示，本发明实施例的机器人的控制方法，包括：

S301，获取真实机器人在第一时间点的第一状态信息、第一时间点的目标运动参数、第二时间点的第一状态信息、第二时间点的目标运动参数，其中，第一时间点晚于第二时间点。

S302，获取机器人的控制模型，其中，控制模型包括第一编码器和第一控制器。

S303，将第二时间点的第一状态信息、第二时间点的目标运动参数输入第一编码器中，由第一编码器输出第一时间点的特征。

S304，将第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征输入第一控制器中，由第一控制器输出第一时间点的动作。

S305，响应于当前时刻达到第一时间点，控制真实机器人执行第一时间点的动作。

步骤S301-S305的相关内容可参见上述实施例，这里不再赘述。

图4为根据本发明一个实施例的机器人的控制模型的训练方法的流程示意图。

如图4所示，本发明实施例的机器人的控制模型的训练方法，包括：

S401，获取学生模型和教师模型，其中，学生模型包括第二编码器和第二控制器，教师模型包括第三编码器和第三控制器，教师模型部署在机器人的仿真环境中。

需要说明的是，学生模型、教师模型的网络架构相同，学生模型、教师模型的模型参数可能相同也可能不同。第二控制器为第二编码器的下一网络层，第三控制器为第三编码器的下一网络层。

需要说明的是，对机器人的仿真环境不做过多限定，比如，可采用相关技术中的任一机器人的仿真环境来实现。

S402，从仿真环境中获取仿真机器人在第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的第二状态信息、仿真环境在第三时间点的环境参数、第四时间点的第一状态信息、第四时间点的目标运动参数，其中，第三时间点晚于第四时间点。

需要说明的是，仿真机器人部署在仿真环境中，第三时间点的相关内容可参照上述实施例中的第一时间点的相关内容，第四时间点的相关内容可参照上述实施例中的第二时间点的相关内容，这里不再赘述。

S403，将第三时间点的第二状态信息、第三时间点的环境参数输入第三编码器中，由第三编码器输出仿真机器人在第三时间点的参考特征。

在一种实施方式中，如图5所示，可对第三时间点的第二状态信息、第三时间点的环境参数进行拼接，得到第四拼接结果，将第四拼接结果/>输入第三编码器中，由第三编码器输出第三时间点的参考特征/>。

S404，将第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的参考特征输入第三控制器中，由第三控制器输出仿真机器人在第三时间点的参考动作。

在一种实施方式中，继续以图5为例，可对第三时间点的第一状态信息、第三时间点的目标运动参数进行拼接，得到第五拼接结果，对第五拼接结果/>和第三时间点的参考特征/>进行拼接，得到第六拼接结果/>，将第六拼接结果/>输入第三控制器中，由第三控制器输出第三时间点的参考动作/>。

S405，基于第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的参考特征、第三时间点的参考动作、第四时间点的第一状态信息、第四时间点的目标运动参数，对学生模型进行训练，得到机器人的控制模型。

在一种实施方式中，控制模型包括第一编码器。继续以图5为例，可对第四时间点的第一状态信息、第四时间点的目标运动参数进行拼接，得到第七拼接结果，将第七拼接结果/>输入第二编码器中，由第二编码器输出仿真机器人在第三时间点的第一预测特征/>，基于第三时间点的参考特征/>和第三时间点的第一预测特征/>，对第二编码器进行训练，得到第一编码器。

需要说明的是，得到第三时间点的第一预测特征的相关内容，可参照上述实施例中得到第一时间点的特征/>的相关内容，这里不再赘述。

在一些例子中，基于第三时间点的参考特征和第三时间点的第一预测特征/>，对第二编码器进行训练，得到第一编码器，包括基于第三时间点的参考特征/>和第三时间点的第一预测特征/>，得到第二编码器的损失函数，基于第二编码器的损失函数，对第二编码器的模型参数进行更新，得到第一编码器。

在一些例子中，控制模型还包括第一控制器。得到第一编码器之后，继续以图5为例，可对第四时间点的第一状态信息、第四时间点的目标运动参数进行拼接，得到第七拼接结果，将第七拼接结果/>输入第一编码器中，由第一编码器输出仿真机器人在第三时间点的第二预测特征/>，对第三时间点的第一状态信息、第三时间点的目标运动参数进行拼接，得到第五拼接结果/>，对第五拼接结果/>和第三时间点的第二预测特征/>进行拼接，得到第八拼接结果/>，将第八拼接结果/>输入第二控制器中，由第二控制器输出仿真机器人在第三时间点的预测动作/>，基于第三时间点的参考动作/>和第三时间点的预测动作/>，对第二控制器进行训练，得到第一控制器。

需要说明的是，得到第三时间点的第二预测特征的相关内容，可参照上述实施例中得到第一时间点的特征/>的相关内容，这里不再赘述。

需要说明的是，得到第三时间点的预测动作的相关内容，可参照上述实施例中得到第一时间点的动作/>的相关内容，这里不再赘述。

在一些例子中，基于第三时间点的参考动作和第三时间点的预测动作/>，对第二控制器进行训练，得到第一控制器，包括基于第三时间点的参考动作/>和第三时间点的预测动作/>，得到第二控制器的损失函数，基于第二控制器的损失函数，对第二控制器的模型参数进行更新，得到第一控制器。

在一种实施方式中，得到机器人的控制模型之后，可将机器人的控制模型部署在真实机器人上。对模型部署方式不做过多限定，比如，可采用ROS（Robot OperatingSystem，机器人操作系统）方式来实现。

综上，根据本发明实施例的机器人的控制模型的训练方法，可利用教师模型的第三编码器，对第三时间点的第二状态信息、第三时间点的环境参数进行处理，得到仿真机器人在第三时间点的参考特征，还可利用教师模型的第三控制器，对第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的参考特征进行处理，得到仿真机器人在第三时间点的参考动作，并综合考虑到第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的参考特征、第三时间点的参考动作、第四时间点的第一状态信息、第四时间点的目标运动参数，对学生模型进行训练，得到机器人的控制模型。

在上述任一实施例的基础上，如图6所示，教师模型的训练方法，包括：

S601，从仿真环境中获取仿真机器人在第五时间点的第一状态信息、第五时间点的目标运动参数、第五时间点的第二状态信息、仿真环境在第五时间点的环境参数。

可以理解的是，教师模型是预先训练好的，第五时间点早于第一至第四时间点。

S602，将第五时间点的第一状态信息、第五时间点的目标运动参数、第五时间点的第二状态信息、第五时间点的环境参数输入初始模型中，由初始模型输出仿真机器人在第五时间点的预测动作。

在一种实施方式中，初始模型包括第四编码器和第四控制器。将第五时间点的第一状态信息、第五时间点的目标运动参数、第五时间点的第二状态信息、第五时间点的环境参数输入初始模型中，由初始模型输出仿真机器人在第五时间点的预测动作，包括将第五时间点的第二状态信息、第五时间点的环境参数输入第四编码器中，由第四编码器输出仿真机器人在第五时间点的预测特征，将第五时间点的第一状态信息、第五时间点的目标运动参数、第五时间点的预测特征/>输入第四控制器中，由第四控制器输出第五时间点的预测动作/>。

需要说明的是，得到第五时间点的预测特征的相关内容，可参照上述实施例中得到第三时间点的参考特征/>的相关内容，这里不再赘述。

需要说明的是，得到第五时间点的预测动作的相关内容，可参照上述实施例中得到第三时间点的参考动作/>的相关内容，这里不再赘述。

S603，获取仿真环境反馈的第五时间点的预测动作对应的奖励。

在一种实施方式中，由初始模型输出仿真机器人在第五时间点的预测动作之后，还包括响应于当前时刻达到第五时间点，通过仿真环境控制仿真机器人执行第五时间点的预测动作，并获取仿真环境反馈的第五时间点的预测动作/>对应的奖励/>。

在一些例子中，奖励可通过下述公式来得到：

若机器人未与地面发生碰撞，则，若机器人与地面发生碰撞，则/>。

其中，为机器人的实际速度，/>为/>的x轴分量、y轴分量，/>为机器人的第i个关节的实际关节力矩，/>为机器人在t时刻的动作，/>为机器人在t-1时刻的动作，t-1时刻、t时刻为相邻的两个时刻，即t-1时刻为t时刻的上一个时刻，/>为向量求模运算符号。/>

其中，为机器人的实际速度与目标速度误差的奖励函数，/>为机器人位姿的奖励函数，/>为机器人的输出力矩的奖励函数，/>为机器人的碰撞奖励函数，/>为机器人的动作平滑损失函数。

S604，基于第五时间点的第一状态信息、第五时间点的目标运动参数、第五时间点的第二状态信息、第五时间点的环境参数、第五时间点的预测动作、第五时间点的预测动作对应的奖励，对初始模型进行训练，得到教师模型。

在一种实施方式中，基于第五时间点的第一状态信息、第五时间点的目标运动参数、第五时间点的第二状态信息、第五时间点的环境参数、第五时间点的预测动作、第五时间点的预测动作对应的奖励，对初始模型进行训练，得到教师模型，包括将第五时间点的第一状态信息、第五时间点的目标运动参数、第五时间点的第二状态信息、第五时间点的环境参数作为状态参数集，基于状态参数集/>、第五时间点的预测动作/>、第五时间点的预测动作/>对应的奖励/>，对初始模型进行训练，得到教师模型。

需要说明的是，基于状态参数集、第五时间点的预测动作/>、第五时间点的预测动作/>对应的奖励/>，对初始模型进行训练，得到教师模型，可采用相关技术中的任一强化学习方法来实现，这里不做过多限定。

由此，该方法中可利用初始模型，对第五时间点的第一状态信息、第五时间点的目标运动参数、第五时间点的第二状态信息、第五时间点的环境参数进行处理，得到仿真机器人在第五时间点的预测动作，获取仿真环境反馈的第五时间点的预测动作对应的奖励，综合考虑到基于第五时间点的第一状态信息、第五时间点的目标运动参数、第五时间点的第二状态信息、第五时间点的环境参数、第五时间点的预测动作、第五时间点的预测动作对应的奖励，对初始模型进行训练，得到教师模型。

为了实现上述实施例，本发明还提出一种机器人的控制装置。

图7为根据本发明一个实施例的机器人的控制装置的结构示意图。

如图7所示，本发明实施例的机器人的控制装置100，包括：获取模块110、编码模块120、确定模块130和控制模块140。

获取模块110用于获取真实机器人在第一时间点的第一状态信息、第一时间点的目标运动参数、第二时间点的第一状态信息、第二时间点的目标运动参数，其中，所述第一时间点晚于所述第二时间点；

编码模块120用于基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述真实机器人在第一时间点的第二状态信息、所述真实机器人所处环境在第一时间点的环境参数进行联合编码，得到所述真实机器人在第一时间点的特征；

确定模块130用于基于所述第一时间点的第一状态信息、所述第一时间点的目标运动参数和所述第一时间点的特征，确定所述真实机器人在第一时间点的动作；

控制模块140用于响应于当前时刻达到所述第一时间点，控制所述真实机器人执行所述第一时间点的动作。

在本发明的一个实施例中，所述编码模块120还用于：基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述第一时间点的第二状态信息进行估计，得到估计的第一时间点的第二状态信息；基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述第一时间点的环境参数进行估计，得到估计的第一时间点的环境参数；对所述估计的第一时间点的第二状态信息、所述估计的第一时间点的环境参数进行联合编码，得到所述第一时间点的特征。

在本发明的一个实施例中，所述编码模块120还用于：获取机器人的控制模型，其中，所述控制模型包括第一编码器；将所述第二时间点的第一状态信息、所述第二时间点的目标运动参数输入所述第一编码器中，由所述第一编码器输出所述第一时间点的特征。

在本发明的一个实施例中，所述控制模型还包括第一控制器；所述确定模块130还用于：将所述第一时间点的第一状态信息、所述第一时间点的目标运动参数和所述第一时间点的特征输入所述第一控制器中，由所述第一控制器输出所述第一时间点的动作。

需要说明的是，本发明实施例的机器人的控制装置中未披露的细节，请参照本发明实施例的机器人的控制方法中所披露的细节，这里不再赘述。

综上，本发明实施例的机器人的控制装置，可综合考虑到第二时间点的第一状态信息、第二时间点的目标运动参数，对真实机器人在第一时间点的第二状态信息、真实机器人所处环境在第一时间点的环境参数进行联合编码，得到真实机器人在第一时间点的特征，即本方案中不需要获取第一时间点的第二状态信息、第一时间点的环境参数的数值，即不需要对第一时间点的第二状态信息、第一时间点的环境参数进行显示估计，仅需获取真实机器人在第一时间点的特征，并综合考虑到第一时间点的第一状态信息、第一时间点的目标运动参数和第一时间点的特征，确定真实机器人在第一时间点的动作，提高了机器人控制的准确性。

为了实现上述实施例，本发明还提出一种机器人的控制模型的训练装置。

图8为根据本发明一个实施例的机器人的控制模型的训练装置的结构示意图。

如图8所示，本发明实施例的机器人的控制模型的训练装置200，包括：第一获取模块210、第二获取模块220、第三获取模块230、第四获取模块240、训练模块250。

第一获取模块210用于获取学生模型和教师模型，其中，所述学生模型包括第二编码器和第二控制器，所述教师模型包括第三编码器和第三控制器，所述教师模型部署在机器人的仿真环境中；

第二获取模块220用于从所述仿真环境中获取仿真机器人在第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的第二状态信息、所述仿真环境在第三时间点的环境参数、第四时间点的第一状态信息、第四时间点的目标运动参数，其中，所述第三时间点晚于所述第四时间点；

第三获取模块230用于将所述第三时间点的第二状态信息、所述第三时间点的环境参数输入所述第三编码器中，由所述第三编码器输出所述仿真机器人在第三时间点的参考特征；

第四获取模块240用于将所述第三时间点的第一状态信息、所述第三时间点的目标运动参数、所述第三时间点的参考特征输入所述第三控制器中，由所述第三控制器输出所述仿真机器人在第三时间点的参考动作；

训练模块250用于基于所述第三时间点的第一状态信息、所述第三时间点的目标运动参数、所述第三时间点的参考特征、所述第三时间点的参考动作、所述第四时间点的第一状态信息、所述第四时间点的目标运动参数，对所述学生模型进行训练，得到机器人的控制模型。

在本发明的一个实施例中，所述控制模型包括第一编码器；所述训练模块250还用于：将所述第四时间点的第一状态信息、所述第四时间点的目标运动参数输入所述第二编码器中，由所述第二编码器输出所述仿真机器人在第三时间点的第一预测特征；基于所述第三时间点的参考特征和所述第三时间点的第一预测特征，对所述第二编码器进行训练，得到所述第一编码器。

在本发明的一个实施例中，所述控制模型还包括第一控制器；所述得到所述第一编码器之后，所述训练模块250还用于：将所述第四时间点的第一状态信息、所述第四时间点的目标运动参数输入所述第一编码器中，由所述第一编码器输出所述仿真机器人在第三时间点的第二预测特征；将所述第三时间点的第一状态信息、所述第三时间点的目标运动参数、所述第三时间点的第二预测特征输入所述第二控制器中，由所述第二控制器输出所述仿真机器人在第三时间点的预测动作；基于所述第三时间点的参考动作和所述第三时间点的预测动作，对所述第二控制器进行训练，得到所述第一控制器。

在本发明的一个实施例中，所述训练模块250还用于：从所述仿真环境中获取所述仿真机器人在第五时间点的第一状态信息、第五时间点的目标运动参数、第五时间点的第二状态信息、所述仿真环境在第五时间点的环境参数；将所述第五时间点的第一状态信息、所述第五时间点的目标运动参数、所述第五时间点的第二状态信息、所述第五时间点的环境参数输入初始模型中，由所述初始模型输出所述仿真机器人在第五时间点的预测动作；获取所述仿真环境反馈的所述第五时间点的预测动作对应的奖励；基于所述第五时间点的第一状态信息、所述第五时间点的目标运动参数、所述第五时间点的第二状态信息、所述第五时间点的环境参数、所述第五时间点的预测动作、所述第五时间点的预测动作对应的奖励，对所述初始模型进行训练，得到所述教师模型。

在本发明的一个实施例中，所述初始模型包括第四编码器和第四控制器；所述训练模块250还用于：将所述第五时间点的第二状态信息、所述第五时间点的环境参数输入所述第四编码器中，由所述第四编码器输出所述仿真机器人在第五时间点的预测特征；将所述第五时间点的第一状态信息、所述第五时间点的目标运动参数、所述第五时间点的预测特征输入所述第四控制器中，由所述第四控制器输出所述第五时间点的预测动作。

需要说明的是，本发明实施例的机器人的控制模型的训练装置中未披露的细节，请参照本发明实施例的机器人的控制模型的训练方法中所披露的细节，这里不再赘述。

综上，本发明实施例的机器人的控制模型的训练装置，可利用教师模型的第三编码器，对第三时间点的第二状态信息、第三时间点的环境参数进行处理，得到仿真机器人在第三时间点的参考特征，还可利用教师模型的第三控制器，对第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的参考特征进行处理，得到仿真机器人在第三时间点的参考动作，并综合考虑到第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的参考特征、第三时间点的参考动作、第四时间点的第一状态信息、第四时间点的目标运动参数，对学生模型进行训练，得到机器人的控制模型。

为了实现上述实施例，如图9所示，本发明实施例提出了一种电子设备300，包括：存储器310、处理器320及存储在存储器310上并可在处理器320上运行的计算机程序，所述处理器320执行所述程序时，实现上述的机器人的控制方法，或者实现上述的机器人的控制模型的训练方法。

为了实现上述实施例，本发明实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现上述的机器人的控制方法，或者实现上述的机器人的控制模型的训练方法。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种机器人的控制模型的训练方法，其特征在于，包括：

获取学生模型和教师模型，其中，所述学生模型包括第二编码器和第二控制器，所述教师模型包括第三编码器和第三控制器，所述教师模型部署在机器人的仿真环境中；

从所述仿真环境中获取仿真机器人在第三时间点的第一状态信息、第三时间点的目标运动参数、第三时间点的第二状态信息、所述仿真环境在第三时间点的环境参数、第四时间点的第一状态信息、第四时间点的目标运动参数，其中，所述第三时间点晚于所述第四时间点；

将所述第三时间点的第二状态信息、所述第三时间点的环境参数输入所述第三编码器中，由所述第三编码器输出所述仿真机器人在第三时间点的参考特征；

将所述第三时间点的第一状态信息、所述第三时间点的目标运动参数、所述第三时间点的参考特征输入所述第三控制器中，由所述第三控制器输出所述仿真机器人在第三时间点的参考动作；

基于所述第三时间点的第一状态信息、所述第三时间点的目标运动参数、所述第三时间点的参考特征、所述第三时间点的参考动作、所述第四时间点的第一状态信息、所述第四时间点的目标运动参数，对所述学生模型进行训练，得到机器人控制模型，所述机器人控制模型包括第一编码器。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第三时间点的第一状态信息、所述第三时间点的目标运动参数、所述第三时间点的参考特征、所述第三时间点的参考动作、所述第四时间点的第一状态信息、所述第四时间点的目标运动参数，对所述学生模型进行训练，得到机器人控制模型，包括：

将所述第四时间点的第一状态信息、所述第四时间点的目标运动参数输入所述第二编码器中，由所述第二编码器输出所述仿真机器人在第三时间点的第一预测特征；

基于所述第三时间点的参考特征和所述第三时间点的第一预测特征，对所述第二编码器进行训练，得到所述第一编码器。

3.根据权利要求2所述的方法，其特征在于，所述机器人控制模型还包括第一控制器；所述得到所述第一编码器之后，还包括：

将所述第四时间点的第一状态信息、所述第四时间点的目标运动参数输入所述第一编码器中，由所述第一编码器输出所述仿真机器人在第三时间点的第二预测特征；

将所述第三时间点的第一状态信息、所述第三时间点的目标运动参数、所述第三时间点的第二预测特征输入所述第二控制器中，由所述第二控制器输出所述仿真机器人在第三时间点的预测动作；

基于所述第三时间点的参考动作和所述第三时间点的预测动作，对所述第二控制器进行训练，得到所述第一控制器。

4.根据权利要求1-3中任一项所述的方法，其特征在于，还包括：

从所述仿真环境中获取所述仿真机器人在第五时间点的第一状态信息、第五时间点的目标运动参数、第五时间点的第二状态信息、所述仿真环境在第五时间点的环境参数；

将所述第五时间点的第一状态信息、所述第五时间点的目标运动参数、所述第五时间点的第二状态信息、所述第五时间点的环境参数输入初始模型中，由所述初始模型输出所述仿真机器人在第五时间点的预测动作；

获取所述仿真环境反馈的所述第五时间点的预测动作对应的奖励；

基于所述第五时间点的第一状态信息、所述第五时间点的目标运动参数、所述第五时间点的第二状态信息、所述第五时间点的环境参数、所述第五时间点的预测动作、所述第五时间点的预测动作对应的奖励，对所述初始模型进行训练，得到所述教师模型。

5.根据权利要求4所述的方法，其特征在于，所述初始模型包括第四编码器和第四控制器；所述将所述第五时间点的第一状态信息、所述第五时间点的目标运动参数、所述第五时间点的第二状态信息、所述第五时间点的环境参数输入初始模型中，由所述初始模型输出所述仿真机器人在第五时间点的预测动作，包括：

将所述第五时间点的第二状态信息、所述第五时间点的环境参数输入所述第四编码器中，由所述第四编码器输出所述仿真机器人在第五时间点的预测特征；

将所述第五时间点的第一状态信息、所述第五时间点的目标运动参数、所述第五时间点的预测特征输入所述第四控制器中，由所述第四控制器输出所述第五时间点的预测动作。

6.一种机器人的控制方法，其特征在于，包括：

获取真实机器人在第一时间点的第一状态信息、第一时间点的目标运动参数、第二时间点的第一状态信息、第二时间点的目标运动参数和机器的控制模型，其中，所述第一时间点晚于所述第二时间点，所述控制模型为如权利要求1-5中任一项所述的机器人控制模型；

基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述真实机器人在第一时间点的第二状态信息、所述真实机器人所处环境在第一时间点的环境参数进行联合编码，得到所述真实机器人在第一时间点的特征；

基于所述第一时间点的第一状态信息、所述第一时间点的目标运动参数和所述第一时间点的特征，确定所述真实机器人在第一时间点的动作；

响应于当前时刻达到所述第一时间点，控制所述真实机器人执行所述第一时间点的动作。

7.根据权利要求6所述的方法，其特征在于，所述基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述真实机器人在第一时间点的第二状态信息、所述真实机器人所处环境在第一时间点的环境参数进行联合编码，得到所述真实机器人在第一时间点的特征，包括：

基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述第一时间点的第二状态信息进行估计，得到估计的第一时间点的第二状态信息；

基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述第一时间点的环境参数进行估计，得到估计的第一时间点的环境参数；

对所述估计的第一时间点的第二状态信息、所述估计的第一时间点的环境参数进行联合编码，得到所述第一时间点的特征。

8.根据权利要求6所述的方法，其特征在于，所述基于所述第二时间点的第一状态信息、所述第二时间点的目标运动参数，对所述真实机器人在第一时间点的第二状态信息、所述真实机器人所处环境在第一时间点的环境参数进行联合编码，得到所述真实机器人在第一时间点的特征，包括：

将所述第二时间点的第一状态信息、所述第二时间点的目标运动参数输入所述第一编码器中，由所述第一编码器输出所述第一时间点的特征。

9.根据权利要求8所述的方法，其特征在于，所述机器人控制模型还包括第一控制器；所述基于所述第一时间点的第一状态信息、所述第一时间点的目标运动参数和所述第一时间点的特征，确定所述真实机器人在第一时间点的动作，包括：

将所述第一时间点的第一状态信息、所述第一时间点的目标运动参数和所述第一时间点的特征输入所述第一控制器中，由所述第一控制器输出所述第一时间点的动作。