CN114310870A

CN114310870A - 智能体的控制方法、装置、电子设备及存储介质

Info

Publication number: CN114310870A
Application number: CN202111329240.2A
Authority: CN
Inventors: 黄晓庆; 马世奎; 彭飞
Original assignee: Cloudminds Beijing Technologies Co Ltd
Current assignee: Cloudminds Beijing Technologies Co Ltd
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-04-12
Also published as: WO2023082949A1

Abstract

本发明实施例涉及智能控制领域，公开了一种智能体的控制方法、装置、电子设备及存储介质。本发明中，获取目标任务；根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成目标任务的控制指令；其中，数字孪生世界通过对物理世界的仿真映射得到，数字孪生体位于数字孪生世界内，智能体位于物理世界，且与数字孪生体相对应；根据完成目标任务的控制指令，控制智能体执行目标任务。能够降低数据处理的复杂程度，从而提高对智能体的控制效率。

Description

智能体的控制方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及智能控制领域，特别涉及智能体的控制方法、装置、电子设备及存储介质。

背景技术

人工智能领域通常以智能设备采集的数据为输入进行学习训练，输出用于控制智能体的动作。例如通过采集RGBD(RGB-Depth Map，RGB色彩模式和深度图)信息作为输入数据。

对于RGBD信息，通常需要摄像头进行图像获取和识别来得到。但摄像头获取的数据不仅包括RGBD信息，还包括多种不必要的参数，例如：光影条件、旁边障碍物体的图像数据等，也就是为了得到目标RGBD信息，在摄像头采集到图像后，还需要对于图像数据进行筛选处理，其中不免会需要大量的数据计算过程，即，在将RGBD信息作为输入数据进行学习训练时，存在数据采集困难的问题，并且对于数据计算设备的对运算能力要求高，由于需要处理的数据量大导致训练收敛慢，在一些执行过程中还会存在虚实数据在计算过程中迁移复杂的问题。由于数据处理过程复杂，该训练学习过程对智能体的控制效率低。

发明内容

本发明实施方式的目的在于提供一种智能体的控制方法、装置、电子设备及存储介质，降低数据处理的复杂程度，从而提高对智能体的控制效率。

为解决上述技术问题，本发明的实施方式提供了一种智能体的控制方法，包括以下步骤：获取目标任务；根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令；其中，所述数字孪生世界通过对物理世界的仿真映射得到，所述数字孪生体位于所述数字孪生世界内，所述智能体位于所述物理世界，且与所述数字孪生体相对应；根据所述完成目标任务的控制指令，控制所述智能体执行所述目标任务。

本发明的实施方式还提供了一种智能体的控制装置，包括：获取模块，用于获取目标任务；生成模块，用于根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令；其中，所述数字孪生世界通过对物理世界的仿真映射得到，所述数字孪生体位于所述数字孪生世界内，所述智能体位于所述物理世界，且与所述数字孪生体相对应；执行模块，用于根据所述完成目标任务的控制指令，控制所述智能体执行所述目标任务。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的智能体的控制方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的智能体的控制方法。

在本申请的实施方式中，通过数字孪生世界对物理世界进行模拟，并在数字孪生世界中存在与物理世界中智能体对应的数字孪生体；在数字孪生世界中通过控制指令操作数字孪生体，能够模拟控制指令操作智能体的结果，通过训练获取合适的控制指令以使得智能体执行目标任务。不需要考虑对RGBD等输入参数进行预处理的过程，也降低对智能体输出的控制指令的数据计算的复杂度，提高对于智能体的控制效率。

另外，所述根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令，包括：将所述智能体的位姿和用于表征所述环境数据的空间语义地图，输入所述强化学习网络，所述强化学习网络输出用于控制所述数字孪生体的动作的控制指令；所述强化学习网络根据所述数字孪生体执行所述控制指令的结果，训练得到完成所述目标任务的控制指令。即，通过环境数据、智能体的位姿和强化学习网络在数字孪生世界中进行模拟训练，根据反馈结果不断调整，直至得到完成所述目标任务的控制指令。

另外，所述强化学习网络输出的初始控制指令根据先验数据生成；其中，所述先验数据根据用户通过交互设备控制所述数字孪生体的动作获取得到。先验数据为能够实现目标任务或者接近实现目标任务的数据，采用先验数据作为初始控制指令，能够减少训练次数，降低数据处理的复杂度。

另外，所述数字孪生世界加载于云端服务器；所述根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令，包括：通过与所述云端服务器的交互，根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令。将数字孪生世界加载于云端，极大程度上降低对于智能体自身的数据计算要求，减少设备设置的复杂度，同时云端服务器的数据处理能力普遍较高，能够进一步提高获取完成所述目标任务的控制指令的效率。

另外，在所述获取目标任务后，所述生成用于控制数字孪生体完成所述目标任务的控制指令之前，还包括：关闭渲染功能；在所述生成用于控制数字孪生体完成所述目标任务的控制指令后，还包括：开启所述渲染功能。渲染功能用于向用户进行展示，且普遍占用计算资源较多；在生成完成所述目标任务的控制指令之前的数据对于用户一般不具有实际作用，所以在该时间段取消渲染功能，将设备的数据处理资源均应用于生成控制指令，能够提高控制指令的生成效率。在得到控制指令后，开启渲染功能，使得数字孪生体执行控制指令的过程对于用户呈可视化，用户可获知控制指令的模拟执行过程。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本申请的一个实施方式所提供的智能体的控制方法的流程图；

图2是根据本申请的一个实施方式所提供的智能体的控制装置的示意图；

图3是根据本申请的一个实施方式所提供的电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本申请实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列部件或单元的系统、产品或设备没有限定于已列出的部件或单元，而是可选地还包括没有列出的部件或单元，或可选地还包括对于这些产品或设备固有的其它部件或单元。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本发明的一个实施方式涉及一种智能体的控制方法。具体流程如图1所示。

步骤101，获取目标任务；

步骤102，根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成目标任务的控制指令；其中，数字孪生世界通过对物理世界的仿真映射得到，数字孪生体位于数字孪生世界内，智能体位于物理世界，且与数字孪生体相对应；

步骤103，根据完成目标任务的控制指令，控制智能体执行目标任务。

本实施例中，在本申请的实施方式中，通过数字孪生世界对物理世界进行模拟，并在数字孪生世界中存在与物理世界中智能体对应的数字孪生体；在数字孪生世界中通过控制指令操作数字孪生体，能够模拟控制指令操作智能体的结果，通过训练获取合适的控制指令以使得智能体执行目标任务。不需要考虑对RGBD等输入参数进行预处理的过程，也降低对智能体输出的控制指令的数据处理的复杂度，提高对于智能体的控制效率。其中，以下“训练”均代表获取完成目标任务的控制指令的过程。

下面对本实施方式的智能体的控制方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

在步骤101中，获取目标任务。具体的，例如从用户、其他交互设备或云端中获得目标任务；其中，目标任务例如对指定物品进行移动，或抓取指定物品等与空间位置相关的任务。另外，目标任务并不限制一定需要三维位置关系，也可以是与三维空间位置无关，例如进行图像(二维)识别、音频处理、图文转化等，只要是机器人能够执行的即可。

在步骤102中，根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令；其中，所述数字孪生世界通过对物理世界的仿真映射得到，所述数字孪生体位于所述数字孪生世界内，所述智能体位于所述物理世界，且与所述数字孪生体相对应。具体的，数字孪生世界是根据现实的物理世界进行映射得到的，将物理世界中的环境转化为数字内容进行展现，能够模拟物理世界中的物体位置关系及相关环境信息等，在本实施方式中并不限制数字孪生世界的获取方式，例如可以通过建模师建模获取，或直接扫描物理世界得到等；物理世界中的智能体可以为机器人，在数字孪生世界中存在与智能体(机器人)相对应的数字孪生体，可以在数字孪生世界中模拟智能体的行为活动，由于数字孪生世界是物理世界的数字化体现，则数字孪生体在数字孪生世界中进行活动时与周围环境产生的交互，能够模拟智能体在物理世界中进行相同活动时会引发的结果。在数字孪生世界中，涉及与物理世界对应的几何结构、空间位置、智能体的物理结构约束、物理特性仿真(如摩擦系数、重力等)。

在一个例子中，所述根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令，例如：将所述智能体的位姿和用于表征所述环境数据的空间语义地图，输入所述强化学习网络，所述强化学习网络输出用于控制所述数字孪生体的动作的控制指令；所述强化学习网络根据所述数字孪生体执行所述控制指令的结果，训练得到完成所述目标任务的控制指令。也就是说，将当前物理世界中智能体的位姿输入强化学习网络，强化学习网络还能够获取表征数字孪生世界的环境数据的空间语义地图；由于在数字孪生世界中数字孪生体与智能体对应，所以强化学习网络所获取的物理世界中智能体的位姿即为数字孪生体的初始动作，强化学习网络输出对于数字孪生体的动作进行改变的控制指令；数字孪生体在数字孪生世界中根据强化学习网络的控制指令改变动作，强化学习网络获取数字孪生体根据本次控制指令进行动作改变后所得到的结果，将其结果与目标任务相比较，并根据比较数据进行适应性调整控制指令，直到数字孪生体根据强化学习网络的某次控制指令在数字孪生世界中模拟完成了目标任务，则该次控制指令为控制智能体执行目标任务的控制指令。

可以理解的是，强化学习网络外获取数字孪生体根据本次控制指令进行动作改变后所得到的结果之外，还能够同时获取数字孪生体根据本次控制指令进行动作改变后空间语义地图的变化，与数字孪生体进行动作改变之后的结果相结合，判断是否执行完成目标任务。

其中，数字孪生体根据控制指令进行动作变化的结果，包括但不限于数字孪生体的底盘及全身肢体位姿、是否发生了碰撞、是否完成目标任务等；控制指令的内容包括但不限于：控制数字孪生体移动、肢体运动等。在一个例子中，强化学习网络存在不同的接口用于获取相关信息，例如状态观测接口，用于采集数字孪生世界的状态，涉及智能体底盘及全身肢体位姿、空间语义地图，例如当目标任务为拿起杯子时，可采集与目标杯子之间的距离等；动作控制接口，用于输出强化学习网络的控制指令，作用到数字孪生世界中，如控制数字孪生体移动、肢体运动等；反馈接口，用于采集数字孪生世界中数字孪生体根据控制指令执行动作时的结果反馈，如是否发生了碰撞，是否完成目标任务等。

具体的，在数字孪生体获取智能体的位姿，并将其作为自己的初始位姿之后，强化学习网络开始基于数字孪生世界，根据目标任务逐步向数字孪生体输出控制指令，使其能够完成目标任务。其中强化学习网络可以将待完成的目标任务分为多个子步骤，每个子步骤对应的控制指令发送给数字孪生体之后都获取数字孪生体执行该控制指令后的反馈，判断是否完成该子步骤的任务，从而逐渐获取能够完成目标任务的一组控制指令。可以理解的是，根据反馈进行调节的过程中，不仅能够对于每个子步骤中的控制指令进行调整，使得数字孪生体能够根据该控制指令完成该子步骤；若对于某一子步骤经过较长的时间周期(可预设)仍无法得到能够实现其的控制指令，则可能是该子步骤的设定不合理，可以调整该子步骤，或者舍弃该子步骤，相应的，还能够继续随即调整前后的步骤等等，本实施方式并不进行限定。另外，在复杂度过高、占用运算空间过大或者出错率超过预设阈值等情况下，均能够考虑对子步骤进行调整，即，在不满足预设条件的情况下均能够考虑调整，并实施方式并不进行具体限定。

对于执行某一子步骤，在一个具体实现中，强化学习网络会根据数字孪生体执行控制指令的反馈进行调整，例如在执行移动指令的过程中，若与环境产生碰撞，则可以选择将数字孪生体恢复到执行该移动指令之前的初始位置，通过减少移动距离或者调整动作角度来更新该移动指令，数字孪生体执行更新后的移动指令，直到数字孪生体完成该子步骤；数字孪生体完成本次移动指令的子步骤，例如达到该移动指令的目的地、或者没有与周围环境产生碰撞的达到该移动指令的目的地等。随后，强化学习网络获取数字孪生体执行该子步骤成功的结果，例如从数字孪生体向强化学习网络反馈得到本子步骤执行成功的结果，或者强化学习网络通过对数字孪生世界的监测发现数字孪生体完成了本子步骤等；在强化学习网络获取数字孪生体执行该子步骤成功的信息后，可以进行对下一个子步骤的控制指令的训练过程，若该子步骤为完成目标任务的最后一个子步骤或者目标任务仅存在这一个步骤，则可以将获取的所有子步骤执行成功的控制指令整合，得到完成本目标任务的控制指令。即，在数字孪生体执行强化学习网络所输出的控制指令中，通过多次试错，以得到能够完成目标任务的一组控制指令。

在一个例子中，所述强化学习网络输出的初始控制指令根据先验数据生成；其中，所述先验数据根据用户通过交互设备控制所述数字孪生体的动作获取得到。即，为了减少强化学习网络的控制指令的调整次数，或为了降低强化学习网络的运算内存占用，根据先验数据生成初始控制指令，所述先验数据根据用户通过交互设备控制所述数字孪生体的动作获取得到，也就是人工控制指令，或者可以是在历史记录中，能够完成目标任务或接近完成目标任务的控制指令。在初始控制指令根据先验数据生成时，由于接近完成目标任务，则需要强化学习网络训练得到完成所述目标任务的控制指令的过程效率较高，减少中间的调试次数，降低数据运算的内存占用。其中，所述交互设备包括鼠标、键盘、体感设备其中之一或其任意组合。

例如，对于数字孪生世界中，可以获取由训练师通过鼠标键盘及体感设备等输入的指令，来控制数字孪生体与数字孪生世界中的环境、物体或其他数据体进行交互，生成高质量的专业的先验数据，以此来提升强化学习网络的学习效率与质量。其中，从训练师处获取的控制指令，相较于强化学习网络自主生成的控制指令，对于目标任务的完成率大大提高。强化学习网络在没有外部控制指令(例如此处的训练师指令)干涉时，可以根据目标任务随机生成控制指令，或者根据部分标签信息生成不同类别的控制指令等，也就是不能够保证最初生成的控制指令与目标任务的相关性。若相关性不高，则会在训练过程中出现大量的需要调整的控制指令，对于数据处理过程中占用的空间要求高，且需要处理的时间长。但若存在从训练师处获取的控制指令，则能够作为先验数据，在与目标任务相关性高的训练师输入的控制指令的基础上进行训练，能够大大减少控制指令的调整需求，降低运算所需的存储空间和时间。例如，对于需要拿起在a1处的水杯的任务，训练师进行了控制指令的输入，数字孪生体得以成功完成；在目标任务为需要拿起在a2处的水杯时，查询到有相似的拿起a1处的水杯的任务存在能够执行的控制指令，在前述的训练师输入的控制指令的基础上进行训练，相较于直接训练完成拿起在a2处的水杯的控制指令，能够显著减少计酸所需的时间，降低运算复杂度，提升用户体验。

在一个例子中，所述空间语义地图包括：所述数字孪生世界中各物体的位姿、3D碰撞盒、物体分类信息以及物体材质信息。具体的，数字孪生世界中各物体的位姿用于模拟物理世界中智能体所处的环境中的周围物体的位置；3D碰撞盒用于规定或限制数字孪生世界中的碰撞关系，使其更接近物理世界的运动情况；物体分类信息例如包括物体的物理结构，物体材质信息用于模拟物理世界中环境对于智能体移动前后的细节物理特征，例如摩擦系数，滑动等。

在一个例子中，强化学习网络包括：深度Q值网络DQN网络模型；DQN网络模型的输入为包括智能体的位姿和空间语义地图的RGBD图像，DQN网络模型的输出为机械臂各关节的动作。以针对机械臂自主抓取杯子的DQN(Deep Q Network，深度Q值)网络模型为例，模型的输入是RGBD图像，输出是机械臂各关节的动作，这里每个关节的动作分别为[逆时针转动1°，保持静止，顺时针转动1°]，在网络中这三个动作用[-1,0,1]来代替。本例中的机械臂共7个关节，因此每一帧，DQN输入一个RGBD图像，输出一个7X3的数组。

在一个例子中，先验数据通过以下方式获取得到：通过交互设备接收用户基于采集得到的RGBD图像输入的用于控制机械臂的操作指令；记录机械臂执行所述操作指令过程中的机械臂各关节的动作；将RGBD图像和所述机械臂各关节的动作作为先验数据进行保存。例如，对于先验数据的获取与使用，在已经建好的数字孪生世界中，训练师通过观察采集得到的RGBD图像，操作键盘、鼠标或体感设备等控制机械臂来完成杯子抓取的任务，在任务的完成过程中，会自动的记录每个关节的转动情况，这些转动情况与RGBD图像联合形成先验数据，作为DQN的初始数据。

另外，本实施方式针对不同的目标任务及强化学习网络，并不仅限于一定获取RGBD图像，或者仅获取RGBD图像信息和智能体位姿等。

在一个例子中，所述数字孪生世界加载于云端服务器；所述根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令，包括：通过与所述云端服务器的交互，根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令。即，数字孪生世界的处理需要复杂度高的设备支持，且占用的计算资源较多；将数字孪生世界加载于云端服务器，能够降低智能体设备的计算能力需求，同时云端服务器的计算能力较强，能够提高完成目标任务的控制指令的生成效率。其中，所述强化学习网络也可以位于所述云端服务器，能够进一步降低所述智能体所需的数据计算资源，提高完成目标任务的控制指令的生成效率。

在步骤103中，根据所述完成目标任务的控制指令，控制所述智能体执行所述目标任务。具体地，在强化学习网络根据模拟训练生成完成目标任务的控制指令之后，智能体接收该控制指令，并执行该控制指令用于完成目标任务。

在一个例子中，在所述获取目标任务后，所述生成用于控制数字孪生体完成所述目标任务的控制指令之前，还包括：关闭渲染功能；在所述生成用于控制数字孪生体完成所述目标任务的控制指令后，还包括：开启所述渲染功能。渲染功能用于向用户进行展示，在获取完成所述目标任务的控制指令之前，关闭渲染功能，不对用户展示训练过程，降低数据运算所需的空间，且训练过程在一些情况下对于用户没有实际意义；在完成所述目标任务的控制指令后，数字孪生体执行控制指令的过程中，开启渲染功能，使得控制指令的执行对于用户可视化，用户能够准确感知到控制指令的执行过程。例如，还可以根据观察到的控制指令的执行情况进行人工干预，提高生成完成所述目标任务的控制指令的效率。具体地，在进行数据训练的过程中可以将训练的过程数据放置在存储空间，保证能够完成存取即可，例如放置在cpu中，并不将过程数据渲染展示，以降低训练复杂度，并且渲染所需要的时间较长，减少渲染也能提高训练效率；在训练完成或几乎完成的时候，将训练的过程数据进行渲染展示，一方面可以使用户能切实感知训练到结果，另一方面可以观察训练得到的控制指令是否符合人的行为习惯，例如，执行拿起杯子指令的时候，一般人的行为习惯是将杯口朝上拿起，本次训练的到的控制指令虽然确实完成了将杯子拿起的目的，但最终拿起的杯子是杯口朝下的，并不符合一般人的行为习惯，训练过程无法准确发现这种控制指令执行后不符合人的行为习惯的结果，然而靠渲染后观测是很容易察觉并进一步优化的。

在一个例子中，在根据所述完成目标任务的控制指令，控制所述智能体执行所述目标任务之后，还包括：在所述智能体执行所述目标任务失败的情况下，接收用户通过交互设备输入的辅助指令，所述辅助指令用于控制所述智能体成功执行所述目标任务；在成功执行所述目标任务后，根据执行所述辅助指令过程中的机械臂各关节的动作，更新所述先验数据在强化学习网络收敛后，在后续的使用过程中，出现了失败案例，可以通过人工介入，针对失败的情况进行人工辅助，再生成一次先验数据，这些先验数据可以更新到DQN网络模型中中去，提升智能体在下次面对这种情况时的鲁棒性。达到在失败中学习的目的。

在一个例子中，所述数字孪生世界根据所述物理世界实时同步更新。具体的，由于数字孪生世界是为了模拟物理世界中的运动过程，实现反馈训练的目的，所以若物理世界产生变化，需要同步变更数字孪生世界的数据信息，以保证数字孪生世界中的模拟结果符合实际的物理世界中的运动状态和结果。

在一个具体实现过程中，本实施方式可以通过三维重建技术对真实的物理世界进行虚拟重建，得到按1：1复原真实世界的数字孪生世界，并在其中加入数字孪生体，数字孪生体与物理世界中的智能体对应。或者采用ElasticFusion技术利用深度相机对环境进行扫描获取数字孪生世界，并通过人工对建立成果进行精修。在数字孪生世界中，训练师可以通过键盘鼠标对数字孪生世界中的数字孪生体进行控制，使其完成目标任务(如抓取杯子、倒饮料、打开柜门等工作)。对于特定的任务生成充分的先验数据，然后基于先验数据开始强化学习网络进行训练。训练过程在数字孪生世界中进行。当训练收敛后，可以利用该强化学习网络控制真实世界的智能体，完成相应的任务。

在本申请的实施方式中，通过数字孪生世界对物理世界进行模拟，并在数字孪生世界中存在与物理世界中智能体对应的数字孪生体；在数字孪生世界中通过控制指令操作数字孪生体，能够模拟控制指令操作智能体的结果，通过训练获取合适的控制指令以使得智能体执行目标任务。不需要考虑对RGBD等输入参数进行预处理的过程，也降低对智能体输出的控制指令的数据计算的复杂度，提高对于智能体的控制效率。其中，智能体可以为机器人，即通过数字孪生世界的模拟，降低机器人的控制的复杂程度，提高机器人的控制效率。

在本申请实施方式中，将智能体控制分成三段：首先运用数字孪生技术实现物理世界与数字孪生世界的1:1仿真映射，实时同步更新虚拟世界；其次在数字孪生世界中基于强化学习网络，采用孪生世界的空间语义地图及智能体位姿为输入进行训练与决策，并控制智能体对应的数字孪生体；最后将数字孪生体的行为同步控制物理世界中的智能体。有效避免了直接基于RGB-D数据进行训练的复杂度问题，算法收敛快，同时算法输出不直接控制物理设备，有效降低了虚实迁移成本。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明的一个实施方式涉及一种智能体的控制装置，如图2所示，包括：

获取模块201，用于获取目标任务；

生成模块202，用于根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令；其中，所述数字孪生世界通过对物理世界的仿真映射得到，所述数字孪生体位于所述数字孪生世界内，所述智能体位于所述物理世界，且与所述数字孪生体相对应；

执行模块203，用于根据所述完成目标任务的控制指令，控制所述智能体执行所述目标任务。

下面对本实施方式的智能体的控制装置的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

对于生成模块202，在一个例子中，所述根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令，包括：将所述智能体的位姿和用于表征所述环境数据的空间语义地图，输入所述强化学习网络，所述强化学习网络输出用于控制所述数字孪生体的动作的控制指令；所述强化学习网络根据所述数字孪生体执行所述控制指令的结果，训练得到完成所述目标任务的控制指令。

在一个例子中，所述强化学习网络输出的初始控制指令根据先验数据生成；其中，所述先验数据根据用户通过交互设备控制所述数字孪生体的动作获取得到。

在一个例子中，所述空间语义地图包括：所述数字孪生世界中各物体的位姿、3D碰撞盒、物体分类信息以及物体材质信息。

在一个例子中，所述数字孪生世界加载于云端服务器；所述根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令，包括：通过与所述云端服务器的交互，根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令。

在一个例子中，在所述获取目标任务后，所述生成用于控制数字孪生体完成所述目标任务的控制指令之前，还包括：关闭渲染功能。

在一个例子中，所述强化学习网络包括：深度Q值网络DQN网络模型；所述DQN网络模型的输入为包括所述智能体的位姿和所述空间语义地图的RGBD图像，所述DQN网络模型的输出为机械臂各关节的动作。

对于执行模块203，在一个例子中，在所述生成用于控制数字孪生体完成所述目标任务的控制指令后，还包括：开启所述渲染功能。

另外，所述数字孪生世界根据所述物理世界实时同步更新。

在物理世界中，所述智能体可以为机器人。

在本申请的实施方式中，通过数字孪生世界对物理世界进行模拟，并在数字孪生世界中存在与物理世界中智能体对应的数字孪生体；在数字孪生世界中通过控制指令操作数字孪生体，能够模拟控制指令操作智能体的结果，从而获取合适的控制指令以使得智能体执行目标任务。不需要考虑对RGBD等输入参数进行预处理的过程，也降低对智能体输出的控制指令的数据处理的复杂度，提高对于智能体的控制效率。

不难发现，本实施方式为与上述实施方式相对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明的一个实施方式涉及一种电子设备，如图3所示，包括至少一个处理器301；以及，与所述至少一个处理器301通信连接的存储器302；其中，所述存储器302存储有可被所述至少一个处理器301执行的指令，所述指令被所述至少一个处理器301执行，以使所述至少一个处理器301能够执行上述的智能体的控制方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明的一个实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种智能体的控制方法，其特征在于，包括：

获取目标任务；

根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令；其中，所述数字孪生世界通过对物理世界的仿真映射得到，所述数字孪生体位于所述数字孪生世界内，所述智能体位于所述物理世界，且与所述数字孪生体相对应；

根据所述完成目标任务的控制指令，控制所述智能体执行所述目标任务。

2.根据权利要求1所述的智能体的控制方法，其特征在于，所述根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令，包括：

将所述智能体的位姿和用于表征所述环境数据的空间语义地图，输入所述强化学习网络，所述强化学习网络输出用于控制所述数字孪生体的动作的控制指令；

所述强化学习网络根据所述数字孪生体执行所述控制指令的结果，训练得到完成所述目标任务的控制指令。

3.根据权利要求2所述的智能体的控制方法，其特征在于，所述强化学习网络包括：深度Q值网络DQN网络模型；

所述DQN网络模型的输入为包括所述智能体的位姿和所述空间语义地图的RGBD图像，所述DQN网络模型的输出为机械臂各关节的动作。

4.根据权利要求2所述的智能体的控制方法，其特征在于，所述强化学习网络输出的初始控制指令根据先验数据生成；

其中，所述先验数据根据用户通过交互设备控制所述数字孪生体的动作获取得到。

5.根据权利要求4所述的智能体的控制方法，其特征在于，所述先验数据通过以下方式获取得到：

通过交互设备接收用户基于采集得到的RGBD图像输入的用于控制机械臂的操作指令；

记录所述机械臂执行所述操作指令过程中的机械臂各关节的动作；

将所述RGBD图像和所述机械臂各关节的动作作为先验数据进行保存。

6.根据权利要求4所述的智能体的控制方法，其特征在于，在所述根据所述完成目标任务的控制指令，控制所述智能体执行所述目标任务之后，还包括：

在所述智能体执行所述目标任务失败的情况下，接收用户通过交互设备输入的辅助指令，所述辅助指令用于控制所述智能体成功执行所述目标任务；

在成功执行所述目标任务后，根据执行所述辅助指令过程中的机械臂各关节的动作，更新所述先验数据。

7.根据权利要求2所述的智能体的控制方法，其特征在于，所述空间语义地图包括：

所述数字孪生世界中各物体的位姿、3D碰撞盒、物体分类信息以及物体材质信息。

8.根据权利要求1至7中任一项所述的智能体的控制方法，其特征在于，所述数字孪生世界加载于云端服务器；

所述根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令，包括：

通过与所述云端服务器的交互，根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令。

9.根据权利要求1至7中任一项所述的智能体的控制方法，其特征在于，在所述获取目标任务后，所述生成用于控制数字孪生体完成所述目标任务的控制指令之前，还包括：

关闭渲染功能；

在所述生成用于控制数字孪生体完成所述目标任务的控制指令后，还包括：

开启所述渲染功能。

10.根据权利要求1至7中任一项所述的智能体的控制方法，其特征在于，所述数字孪生世界根据所述物理世界实时同步更新。

11.一种智能体的控制装置，其特征在于，包括：

获取模块，用于获取目标任务；

生成模块，用于根据数字孪生世界的环境数据、智能体的位姿和强化学习网络，生成用于控制数字孪生体完成所述目标任务的控制指令；其中，所述数字孪生世界通过对物理世界的仿真映射得到，所述数字孪生体位于所述数字孪生世界内，所述智能体位于所述物理世界，且与所述数字孪生体相对应；

执行模块，用于根据所述完成目标任务的控制指令，控制所述智能体执行所述目标任务。

12.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至10中任一项所述的智能体的控制方法。

13.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的智能体的控制方法。