CN110389649B

CN110389649B - 用于环境感知的训练方法和系统

Info

Publication number: CN110389649B
Application number: CN201810345827.4A
Authority: CN
Inventors: 韦于思
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2023-09-26
Anticipated expiration: 2038-04-18
Also published as: CN110389649A

Abstract

本公开提供了一种用于环境感知的训练方法和系统，涉及数据处理领域。该训练方法包括：获取拟真机器人在拟真环境中运行时采集的媒体信息和相应的环境参数信息，其中，拟真机器人在拟真环境中的运行速度高于拟真机器人对应的真实机器人在真实环境中的运行速度；将媒体信息作为环境感知模型训练用的输入参数，将环境参数信息作为环境感知模型训练用的输出参数，对环境感知模型进行训练。本公开提高了机器人环境感知训练效率，从而使得机器人能够高效理解真实世界。

Description

用于环境感知的训练方法和系统

技术领域

本公开涉及数据处理领域，尤其涉及一种用于环境感知的训练方法和系统。

背景技术

在复杂的环境中，机器人可以帮人类处理一些不易完成的工作。但当机器人在复杂环境执行难度较高的作业过程中，如何使机器人通过各类传感器理解人类环境并学习相应的行动规则是非常关键的步骤，但现有环境感知训练效率较低。

发明内容

本公开要解决的一个技术问题是提供一种用于环境感知的训练方法和系统，能够提高环境感知训练效率。

根据本公开一方面，提出一种用于环境感知的训练方法，包括：获取拟真机器人在拟真环境中运行时采集的媒体信息和相应的环境参数信息，其中，拟真机器人在拟真环境中的运行速度高于拟真机器人对应的真实机器人在真实环境中的运行速度；将媒体信息作为环境感知模型训练用的输入参数，将环境参数信息作为环境感知模型训练用的输出参数，对环境感知模型进行训练。

可选地，该方法还包括：循环向拟真环境发送随机指令以使拟真机器人在拟真环境中运行。

可选地，拟真机器人和拟真环境建立在3D引擎中。

可选地，拟真机器人在拟真环境中的运行速度根据3D引擎所在载体的硬件条件进行调整。

可选地，媒体信息包括拟真机器人视角所采集的图像信息；和/或环境感知模型为神经网络模型。

可选地，媒体信息还包括拟真机器人所采集的音频信息和温度信息中的至少一种。

根据本公开的另一方面，还提出一种用于环境感知的训练系统，包括：信息获取单元，用于获取拟真机器人在拟真环境中运行时采集的媒体信息和相应的环境参数信息，其中，拟真机器人在拟真环境中的运行速度高于拟真机器人对应的真实机器人在真实环境中的运行速度；模型训练单元，用于将媒体信息作为环境感知模型训练用的输入参数，将环境参数信息作为环境感知模型训练用的输出参数，对环境感知模型进行训练。

可选地，该训练系统还包括：指令发送单元，用于循环向拟真环境发送随机指令以使拟真机器人在拟真环境中运行。

可选地，拟真机器人和拟真环境建立在3D引擎中。

根据本公开的另一方面，还提出一种用于环境感知的训练系统，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器的指令执行如上述的训练方法。

根据本公开的另一方面，还提出一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述的训练方法的步骤。

本公开的实施例中，由于拟真机器人在拟真环境中的运行速度高于真实机器人在真实环境中的运行速度，从而可以更快的获得媒体信息和相应的环境参数信息，并根据媒体信息和相应的环境参数信息训练环境感知模型，能够在几倍于真实时间的虚拟实验环境下反复迭代，快速学习媒体信息与环境参数的对应关系，提高了环境感知训练效率，从而使得机器人能够高效理解真实世界。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开用于环境感知的训练方法的一个实施例的流程示意图。

图2为本公开用于环境感知的训练方法的另一个实施例的流程示意图。

图3为本公开神经网络模型结构示意图。

图4为本公开用于环境感知的训练系统的一个实施例的结构示意图。

图5为本公开用于环境感知的训练系统的另一个实施例的结构示意图。

图6为本公开用于环境感知的训练系统的再一个实施例的结构示意图。

图7为本公开用于环境感知的训练系统的又一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

在步骤110，获取拟真机器人在拟真环境中运行时采集的媒体信息和相应的环境参数信息。其中，拟真机器人对应于现实环境中的真实机器人。在现实环境中训练真实机器人时，由于真实机器人的性能等原因，其移动速度以及采集信息频率受到限制，而在拟真环境中，将拟真机器人作为训练对象在拟真环境中进行训练，可以设置拟真机器人的运行速度高于真实机器人在真实环境中的运行速度，例如，按照固定时间比例加速拟真机器人的运行。

在一个实施例中，媒体信息可以为图像信息，在实际应用中，机器人还可以获取音频信息或者温度信息等媒体信息，环境参数信息例如为机器人当前所处位置、周边包含的对象、机器人到这些对象的距离以及机器人每次移动的距离等。

在步骤120，将媒体信息作为环境感知模型训练用的输入参数，将环境参数信息作为环境感知模型训练用的输出参数，对环境感知模型进行训练。其中，环境感知模型可以为神经网络模型，例如，训练系统可以将实时采集或有间隔采集的媒体信息以及环境参数信息一起反馈给深度学习系统，将媒体信息作为神经网络模型的输入参数，将环境参数信息作为神经网络模型的输出参数，通过迭代训练神经网络模型。在后续操作中，将训练好的神经网络模型移植到真实环境的机器人操作系统中，就可以通过真实机器人采集的媒体信息确定其所在的环境信息。

迭代训练神经网络模型的过程例如为：将神经网络模型的输出结果与相应采集的环境参数信息进行比较，判断比较结果是否满足构建的环境感知损失函数的要求，反复迭代，优化和调整神经网络模型的参数，使得比较结果最终满足构建的神经网络的环境感知损失函数的要求，保存该神经网络模型。

若将机器人设置在真实环境进行训练，由于用于分析信息的算法系统的效率往往高于真实环境中机器人的移动速度，造成系统需通过相对冗长的时间等待机器人反馈信息。而在该实施例中，由于拟真机器人在拟真环境中的运行速度高于真实机器人在真实环境中的运行速度，从而可以更快的获得媒体信息和相应的环境参数信息，并根据媒体信息和相应的环境参数信息训练环境感知模型，能够在几倍于真实时间的虚拟实验环境下反复迭代，快速学习媒体信息与环境参数的对应关系，提高了环境感知训练效率，从而使得机器人能够高效理解真实世界。

图2为本公开用于环境感知的训练方法的另一个实施例的流程示意图。下面以图像信息作为媒体信息，以拟真机器人与目标对象距离为环境参数信息为例进行说明。

在步骤210，在3D引擎中建立拟真环境和拟真机器人。其中，拟真环境中的所有物体对象与现实环境中的对象等长等宽。

其中，可以根据真实环境在拟真环境中加入除拟真机器人以外的其他物体，若加入其他物体，则需要先通过训练使神经网络模型能够从全部物体中识别拟真机器人，同时避免拟真机器人与其他物体发生碰撞。

在步骤220，根据3D引擎所在载体的硬件条件调整拟真机器人的运行速度。其中，硬件条件例如包括CPU频率、计算能力、内存读写速度、硬盘读写速度或者网络传输速度等。在一个实施例中，可以将拟真机器人的运行速度设置为3D引擎倍速模拟的拟真环境达到速度瓶颈时拟真机器人能够达到的运行速度。

在步骤230，在深度学习系统中设定需要通过拟真环境感知的环境参数。例如，设置拟真机器人与目标感知对象的距离，或者拟真机器人每次移动距离等。由于拟真环境参数与真实环境相同，若设定环境参数中的“距离”项为需要通过拟真环境感知的环境参数，则在拟真环境中获取的拟真机器人与目标感知对象的距离项的具体数值即为真实环境中的距离值。

环境参数可以根据实际需求进行设定，例如，对于训练自动叉车抬起托盘，则将叉车前叉与托盘的角度、距离信息作为环境参数。

在步骤240，循环向拟真环境发送随机指令以使拟真机器人在拟真环境中运行，实时或有间隔的抓取拟真机器人视角所采集的图像信息，并与当前环境信息一起反馈给神经网络模型。其中，拟真机器人可以由拟真摄像头代替，拟真摄像头即代表真实环境中机器人搭载的图像传感器。

在步骤250，将图像信息作为神经网络模型的输入参数，将拟真机器人与目标对象距离为神经网络模型的输出参数，迭代训练神经网络模型。

神经网络模型可以有多种选择，在一个实施例中，可以利用卷积神经网络模型进行迭代训练，例如，如图3所示，模型输入层由四张图片组成，分别对应拟真环境反馈图像的RGB颜色层与A透明层；卷积层包含4个特征图，卷积核大小5x5；池化层包含4个特征图，每个特征图与卷积层每个特征图2x2邻域相连；全连接层包括32个神经元；输出层1个神经元代表距离。

在步骤260，判断神经网络模型的输出结果是否满足感知环境要求，若是在，则执行步骤270，否则，继续执行步骤240。

在步骤270，结束训练。若达到训练目的后，则结束训练，否则，训练系统继续发送指令使拟真机器人在拟真环境中继续运行。

在该实施例中，利用拟真环境图像信息与深度学习算法交互，能够在几倍于真实时间的实验环境下训练机器人，通过快速迭代在短时间完成训练目标，使得机器人在更短的时间内理解真实世界。

图4为本公开用于环境感知的训练系统的一个实施例的结构示意图。该训练系统包括信息获取单元410和模型训练单元420。

信息获取单元410用于获取拟真机器人在拟真环境中运行时采集的媒体信息和相应的环境参数信息。其中，拟真机器人在拟真环境中的运行速度高于拟真机器人对应的真实机器人在真实环境中的运行速度。在现实环境中训练真实机器人时，由于真实机器人的性能等原因，其移动速度以及采集信息频率受到限制，而在拟真环境中，可以设置拟真机器人的运行速度倍速于真实机器人在真实环境中的运行速度。

模型训练单元420用于将媒体信息作为环境感知模型训练用的输入参数，将环境参数信息作为环境感知模型训练用的输出参数，对环境感知模型进行训练。其中，环境感知模型可以为神经网络模型，例如，训练系统可以将实时采集或有间隔采集的媒体信息以及环境参数信息一起反馈给神深度学习系统，将媒体信息作为神经网络模型的输入参数，将环境参数信息作为神经网络模型的输出参数，通过迭代训练神经网络模型。在后续操作中，将训练好的神经网络模型移植到真实环境的机器人操作系统中，就可以通过真实机器人采集的媒体信息确定其所在的环境信息。

在该实施例中，由于拟真机器人在拟真环境中的运行速度高于真实机器人在真实环境中的运行速度，从而可以更快的获得媒体信息和相应的环境参数信息，并根据媒体信息和相应的环境参数信息训练环境感知模型，能够在几倍于真实时间的虚拟实验环境下反复迭代，快速学习媒体信息与环境参数的对应关系，使得机器人高效理解真实世界。

图5为本公开用于环境感知的训练系统的另一个实施例的结构示意图。该训练系统包括指令发送单元510、信息获取单元520和模型训练单元530。其中，可以预先在3D引擎中建立拟真环境和拟真机器人，并根据3D引擎所在载体的硬件条件调整拟真机器人的运行速度，同时在深度学习系统中设定需要通过拟真环境感知的环境参数。例如，设置拟真机器人与目标感知对象的距离，或者拟真机器人每次移动距离等。

指令发送单元510用于循环向拟真环境发送随机指令以使拟真机器人在拟真环境中运行。

信息获取单元520用于实时或有间隔的抓取拟真机器人视角所采集的图像信息，并与当前环境信息一起反馈给深度学习系统。

模型训练单元530用于将图像信息作为神经网络模型的输入参数，将拟真机器人与目标对象距离为神经网络模型的输出参数，迭代训练神经网络模型。例如，将神经网络模型的输出结果与相应采集的环境参数信息进行比较，判断比较结果是否满足构建的环境感知损失函数的要求，反复迭代，优化和调整神经网络模型的参数，使得比较结果最终满足构建的神经网络的环境感知损失函数的要求，保存该神经网络模型。在后续操作中，将训练好的神经网络模型移植到真实环境的机器人操作系统中，就可以通过真实机器人采集的媒体信息确定其所在的环境信息。

图6为本公开用于环境感知的训练系统的再一个实施例的结构示意图。该训练系统包括存储器610和处理器620，其中：

存储器610可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1、2所对应实施例中的指令。处理器620耦接至存储器610，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器620用于执行存储器中存储的指令。

在一个实施例中，还可以如图7所示，该训练系统700包括存储器710和处理器720。处理器720通过BUS总线730耦合至存储器710。该训练系统700还可以通过存储接口740连接至外部存储装置750以便调用外部数据，还可以通过网络接口760连接至网络或者另外一台计算机系统(未标出)，此处不再进行详细介绍。

在该实施例中，通过存储器存储数据指令，再通过处理器处理上述指令，提高了环境感知训练效率，从而使得机器人能够在更短的时间内理解真实世界。

在另一个实施例中，一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现图1、2所对应实施例中的方法的步骤。本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种用于环境感知的训练方法，包括：

获取拟真机器人在拟真环境中运行时采集的媒体信息和相应的环境参数信息，其中，所述拟真机器人在拟真环境中的运行速度高于所述拟真机器人对应的真实机器人在真实环境中的运行速度；

将所述媒体信息作为环境感知模型训练用的输入参数，将环境参数信息作为所述环境感知模型训练用的输出参数，对所述环境感知模型进行训练。

2.根据权利要求1所述的训练方法，还包括：

循环向所述拟真环境发送随机指令以使所述拟真机器人在所述拟真环境中运行。

3.根据权利要求1所述的训练方法，其中，

所述拟真机器人和所述拟真环境建立在3D引擎中。

4.根据权利要求3所述的训练方法，其中，

所述拟真机器人在拟真环境中的运行速度根据所述3D引擎所在载体的硬件条件进行调整。

5.根据权利要求1-4任一所述的训练方法，其中，

所述媒体信息包括所述拟真机器人视角所采集的图像信息；

和/或

所述环境感知模型为神经网络模型。

6.根据权利要求5所述的训练方法，其中，

所述媒体信息还包括所述拟真机器人所采集的音频信息和温度信息中的至少一种。

7.一种用于环境感知的训练系统，包括：

信息获取单元，用于获取拟真机器人在拟真环境中运行时采集的媒体信息和相应的环境参数信息，其中，所述拟真机器人在拟真环境中的运行速度高于所述拟真机器人对应的真实机器人在真实环境中的运行速度；

模型训练单元，用于将所述媒体信息作为环境感知模型训练用的输入参数，将环境参数信息作为所述环境感知模型训练用的输出参数，对所述环境感知模型进行训练。

8.根据权利要求7所述的训练系统，还包括：

指令发送单元，用于循环向所述拟真环境发送随机指令以使所述拟真机器人在所述拟真环境中运行。

9.根据权利要求7所述的训练系统，其中，

所述拟真机器人和所述拟真环境建立在3D引擎中。

10.根据权利要求9所述的训练系统，其中，

11.根据权利要求7-10任一所述的训练系统，其中，

所述媒体信息包括所述拟真机器人视角所采集的图像信息；

和/或

所述环境感知模型为神经网络模型。

12.根据权利要求11所述的训练系统，其中，

13.一种用于环境感知的训练系统，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至6任一项所述的训练方法。

14.一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现权利要求1至6任一项所述的训练方法的步骤。