CN112388627A

CN112388627A - 在动态异构机器人环境内执行任务的方法和系统

Info

Publication number: CN112388627A
Application number: CN202010208315.0A
Authority: CN
Inventors: S·札格纳特; A·拉杰
Original assignee: Wipro Ltd
Current assignee: Wipro Ltd
Priority date: 2019-08-19
Filing date: 2020-03-23
Publication date: 2021-02-23
Also published as: US20210053221A1; EP3783548A1; US11400592B2

Abstract

本发明公开了一种在动态异构机器人环境内执行任务的方法和系统。所述方法包括提取与多个数据类别相关联的数据，并从所提取的数据中获得多个因素。该方法进一步包括通过深度学习网络，确定所述多个因素之间的多个关联关系。该方法还包括根据所述多个关联关系，获得所述多个因素当中一组因素的多个情感参数。该方法可进一步包括使用多个机器人来模拟执行所述至少一个当前任务。该方法可进一步包括通过对所述模拟的结果进行强化学习而对所述多个情感参数中的至少一个情感参数进行迭代式重新调节。该方法可进一步包括使用所述多个机器人来执行所述至少一个当前任务。

Description

在动态异构机器人环境内执行任务的方法和系统

技术领域

本发明总体涉及动态异构机器人环境，尤其涉及一种在动态异构机器人环境内执行任务的方法和系统。

背景技术

随着电子商务以及数字化客户产品处理和交付服务的发展，各行各业、各种工厂及各种仓库处理的货物和物流量日益增多，从而使得难以完全依靠人手完成货物和物流的处理。通过机器人技术实现的自主技术方案能够将各种场所的各种自动化货物和物流处理流畅化。

然而，机器人执行的任务往往高度限制于材料拾放、瓶子加盖等简单的专门任务。根据目标任务，现有的货物和物流处理机器人(即叉车)通过编程而以能够在限定时间内完成任何给定任务的不同专用机器人(例如，叉车可用于拾取房间内所有待储存的纸箱)执行目标任务。也就是说，有些机器人用于按照程序执行特定任务(例如，叉车可仅用于拾取纸箱)。除此之外，仅出于不同机器人的不同独特能力以及任务需求这一考虑，还可设置其他机器人按照程序执行其他特定任务。例如，在叉车拾放纸箱的同时，其他机器人可从纸箱中取出物品。

此外，某些现有的机器人具有更高的任务执行能力，而另有一些机器人可能更擅长于在特定情形中捡取或安全搬运货物。由此可见，现有的用于货物和物流处理的机器人技术方案为受限于机器人专职能力的同构方案。在此类方案下，目标任务的执行无法达到最优化，需要使用大量的资源，而且主要依赖于人力。

在现有的自动化任务执行框架下，采用同构机器人执行任务，因此缺乏根据各种机器人的可编程能力协作完成、共享或委派所设定的任务工作的机制，而且也缺乏优化任务分类和机器人工作分配的机制。此外，虽然将机器人按某种方式进行组合的做法可能能够在限定时间内完成任务，但是却可能无法在动态变化的情形中确保任务的最优执行。因此，现有技术方案无法以同一套机器人组合作为所有任务工作的最优乃至次优方案。

此外，自动化任务执行和货物/物流处理存在若干由与任务执行环境相关的因素决定的缺点。此类因素包括但不限于地点、基础设施类别、气候条件、货物进出顺序、材料特性、储存空间、所部署机器人的在线折扣类型、故障率、季节或时间。另外，机器人行为学习模型未通过引入各种限制和环境制约条件以使得机器人可能通过相互协作而实现最佳的任务执行和资源利用结果。此外，在动态要求的情形中，用于处理此类要求的机器人也需要是动态机器人。因此，诱导机器人获得所需行为这一点至关重要，而且可视为将机器人的各个动作序列、特征或参数同化的一种结果。

另外，某些现有系统涉及通过使机器人与动态变化的环境互动而提高机器人智能，并促进机器人学习新的行为且自主创建行为序列。此类现有系统可采用在功能上类似于短期记忆且存有不同感测信息的自我感知空间。然而，此类现有的系统可能未对货物/物流环境及机器人先前行为加以考虑，因此无法针对当前的新任务进行规划、优化和协作完成。此外，此类现有的系统还可能未对任务分类加以考虑，因此无法改善对资源的利用。

其他现有的系统可能涉及对计算机化设备的自适应控制和训练。此类现有系统的学习控制设备可用于确定用户指示与设备动作之间的关联关系。所述学习设备可接收承载机器人状态和环境(背景)信息的感测输入。在操作过程中，当通过感测输入确定指示之后，所述控制设备可通过使相应指令被执行而触发设备动作。此外，在此类现有系统中，可以利用使设备活动化的方法使得用户能够通过姿势、语音命令、姿势变化和/或其他个性化控制元素操作计算机化的设备。然而，此类现有系统可能未对当前任务的动态变化加以考虑。此外，此类现有系统可能仅限于确定本质上为静态的感测信息。另外，此类系统可能未利用任何行为学习对当前的新任务进行规划、优化和协作完成。此类现有系统还可能未利用深度强化学习发现行为的关联性。

此外，还可能有一些现有的系统公开了用于实现机器人学习和进化的装置和方法。此类系统涉及使一组具有人工神经网络的预编程机器人设备通过进化而改进，从而实现对机器人设备的训练。然而，此类现有系统可能未对当前任务的动态变化加以考虑，而且可能未利用深度强化学习将行为朝当前新任务的方向引导。

发明内容

在一种实施方式中，公开了一种在动态异构机器人环境内执行任务的方法。该方法可包括响应于识别至少一个当前任务，提取与多个数据类别相关联的数据。所述数据从多个数据源中提取，所述多个数据类别当中的每一个类别均与所述多个数据源当中的至少一个数据源相关联。所述方法可进一步包括通过深度学习网络，从所提取的数据中获得多个因素。该方法可进一步包括通过所述深度学习网络，确定所述多个因素之间的多个关联关系。所述多个关联关系包括所述多个因素当中的两个或更多个因素之间的加权关系。所述方法可进一步包括根据所述多个关联关系，获得所述多个因素当中的一组因素的多个情感参数。所述多个情感参数具有层次。所述方法可进一步包括根据施加至所述一组因素中的至少一个关联因素的所述多个情感参数当中的每一个情感参数，使用多个机器人来模拟执行所述至少一个当前任务。该方法可进一步包括通过对所述模拟的结果进行强化学习而对所述多个情感参数中的至少一个情感参数进行迭代式重新调节。该迭代式重新调节进行至所述多个情感参数当中的每一个情感参数均大于预设阈值为止。所述方法可进一步包括响应于所述迭代式重新调节，根据施加至所述一组因素中的至少一个关联因素的所述多个情感参数当中的每一个情感参数，使用所述多个机器人来执行所述至少一个当前任务。

在另一实施方式中，公开了一种动态异构机器人环境内的任务执行装置。该任务执行装置包括处理器，以及以可通信方式与所述处理器连接的存储器，其中，该存储器存有处理器指令，该指令在执行时使得所述处理器响应于识别至少一个当前任务，提取与多个数据类别相关联的数据，其中，所述数据从多个数据源中提取。所述多个数据类别当中的每一个类别均与所述多个数据源当中的至少一个数据源相关联。所述处理器指令还使得所述处理器通过深度学习网络，从所提取的数据中获得多个因素。所述处理器指令还使得所述处理器通过所述深度学习网络确定所述多个因素之间的多个关联关系，其中，所述多个关联关系包括所述多个因素当中的两个或更多个因素之间的加权关系。所述处理器指令还使得所述处理器根据所述多个关联关系获得所述多个因素当中一组因素的多个情感参数，其中，所述多个情感参数具有层次。所述处理器指令还使得所述处理器根据施加至所述一组因素中的至少一个关联因素的所述多个情感参数当中的每一个情感参数，使多个机器人来模拟执行所述至少一个当前任务。所述处理器指令还使得所述处理器通过对所述模拟的结果进行强化学习而对所述多个情感参数中的至少一个情感参数进行迭代式重新调节，其中，该迭代式重新调节进行至所述多个情感参数当中的每一个情感参数均大于预设阈值为止。所述处理器指令还使得所述处理器响应于所述迭代式重新调节，根据施加至所述一组因素中的至少一个关联因素的所述多个情感参数当中的每一个情感参数，使用所述多个机器人来执行所述至少一个当前任务。

在又一实施方式中，公开了一种非暂时性计算机可读存储介质。该非暂时性计算机可读存储介质具有存于其上的一组计算机可执行指令，这些指令使得包括一个或多个处理器的计算机执行操作，这些操作包括响应于识别至少一个当前任务，提取与多个数据类别相关联的数据，其中，所述数据从多个数据源中提取。所述多个数据类别当中的每一个类别均与所述多个数据源当中的至少一个数据源相关联。所述操作还包括通过深度学习网络从所提取的数据中获得多个因素。所述操作还包括：通过所述深度学习网络确定所述多个因素之间的多个关联关系，其中，所述多个关联关系包括所述多个因素当中的两个或更多个因素之间的加权关系；以及根据所述多个关联关系获得所述多个因素当中的一组因素的多个情感参数，其中，所述多个情感参数具有层次。所述操作还包括：根据施加至所述一组因素中的至少一个关联因素的所述多个情感参数当中的每一个情感参数，使用多个机器人模拟执行所述至少一个当前任务；以及通过对所述模拟的结果进行强化学习而对所述多个情感参数中的至少一个情感参数进行迭代式重新调节，其中，该迭代式重新调节进行至所述多个情感参数当中的每一情感参数均大于预设阈值为止。所述操作还包括在所述迭代式重新调节后，根据施加至所述一组因素中的至少一个关联因素的所述多个情感参数当中的每一个情感参数，使用所述多个机器人来执行所述至少一个当前任务。

需要理解的是，以上概略描述与以下详细描述均仅在于例示和说明，而不在于限制所要求保护的发明。

附图说明

所附各图并入本发明之内并构成本发明的一部分，用于对例示实施方式进行描述，并与说明书一道阐明所公开的原理。

图1为一种实施方式中的在动态异构机器人环境内执行任务的系统框图。

图2为一种实施方式中的用于在动态异构机器人环境内执行任务的任务执行装置的内部构造框图。

图3为一种实施方式中的在动态异构机器人环境内执行任务的方法流程图。

图4A和图4B所示为一种实施方式中的深度学习网络以及用于识别多个因素之间的多个关联关系的相应的表格形式的数据。

图5为一种实施方式中的在动态异构机器人环境内执行任务的详细方法流程图。

图6A至图6E所示为一种实施方式中的根据仓库机器人环境中捕获的数据获得的一组情感参数表。

图7所示为一种实施方式中的用于获得所述多个因素中的每一个因素权重值的深度学习网络。

图8为用于实施各实施方式的例示计算机系统的框图。

具体实施方式

以下，参考附图，对例示实施方式进行描述。在任何方便之处，各图中均采用相同的附图标记指代相同或类似部件。虽然本文中描述了所公开原理的实施例和特征，但是在不脱离所公开实施方式的精神和范围的前提下，还可进行修改、调整以及做出其他实施方式。以下具体描述意在仅视作例示，而真正的范围及精神如权利要求书所述。以下所列为其他说明性实施方式。

现在参考图1，该图为根据一种实施方式在动态异构机器人环境内执行任务的系统100的框图。可以理解的是，系统100可在任务执行装置内实施(图1中未示出)。该任务执行装置例如包括但不限于服务器、台式机、膝上型计算机、笔记本电脑、上网本、平板电脑、智能手机、移动电话或任何其他计算装置。

所述任务执行装置可在识别出一个或多个当前任务后，提取与多个数据类别关联的数据，以下将参考图2至图8，对此进行更加详细的描述。所述数据可从多个数据源中提取。此外，所述任务执行装置可通过深度学习网络，从所提取的数据中获得多个因素。该任务执行装置还可通过所述深度学习网络，确定所述多个因素之间的多个关联关系。该多个关联关系包括所述多个因素当中的两个或更多个因素之间的加权关系。此外，所述任务执行装置可根据所述多个关联关系，获得所述多个因素当中的一组因素的多个情感参数。所述多个情感参数可具有层次。

此外，所述任务执行装置可根据施加至所述一组因素中的一个或多个关联因素的所述多个情感参数当中的每一个情感参数，利用多个机器人对所述一个或多个当前任务的执行情况进行模拟。该任务执行装置还可通过对所述模拟结果进行强化学习而对所述多个情感参数当中的一个或多个情感参数进行迭代式重新调节。所述迭代式重新调节可进行至所述多个情感参数当中的每一个情感参数均高于预设阈值。此外，所述任务执行装置响应于所述迭代式重新调节，根据施加至所述一组因素中的一个或多个关联因素的所述多个情感参数当中的每一个情感参数，利用所述多个机器人执行所述一个或多个当前任务。

系统100可包括处理器102，计算机可读存储介质104(如存储器)以及显示器106。计算机可读存储介质104可存储指令，这些指令在由处理器102执行时，可使得处理器102在动态异构机器人环境中执行任务。计算机可读存储介质104还可存储供系统100捕获、处理和/或要求的各种数据(如数据、多个数据类别、多个因素、多个关联关系、多个情感参数、预设阈值、环境因素数据库、历史数据库、数值等)。系统100经用户界面108与用户交互，所述用户界面可通过显示器106访问。系统100还可通过通信网络112与一个或多个外部设备110交互，以发送或接收各种数据。外部设备110可包括但不限于远程服务器、数字设备或其他计算系统。系统100还可用于通过通信网络112与其他部件或服务提供商交换数据，所述通信网络例如为广域网(WAN)或互联网。

现在参考图2，该图为根据一种实施方式的用于在动态异构机器人环境内执行任务的任务执行装置200的内部构造框图。任务执行装置200可包括输入任务处理单元202和任务与协作分析单元204。任务与协作分析单元204可进一步包括行为学习单元206，任务处理单元208以及任务优化单元210。任务执行装置200还可包括动态异构机器人分配单元212，任务执行单元214以及过往任务与协作数据库216。本领域技术人员可理解的是，所有上述单元202～216既可表现为单个单元，也可表现为多个不同单元的组合。此外，本领域技术人员可理解的是，单元202～216中的每一个可部分或全部处于一个装置或相互通信的多个装置中。

输入任务处理单元202可向任务与协作分析单元204提供与任务(需要执行的任务)相关的信息。输入任务处理单元202可包括应用程序编程接口(API)，如仓储空间图形用户界面(GUI)、移动应用程序、数据库连接等。输入任务处理单元202可接收任务，该任务可由仓库生产链、工厂车间、行业等当中的至少一者的多种离散层次结构的不同层次提供。此外，输入任务处理单元202可用于将接收到的信息转换为更为具体的目标。举例而言，对于发动机工厂，总需求的逐渐下降可能导致所有自主功能运行速度的逐渐降低，或可能导致该发动机工厂停止执行若干任务。

此外，当接收到的任务信息为原始格式或未处理格式时，输入任务处理单元202可用于收集或清除该任务的信息。相应地，输入任务处理单元202可从各种来源接收任务信息，并进一步将该任务转换为可使用的格式。举例而言，输入任务处理单元202可根据时间、日期、地点、季节等对仓库订单信息进行分类，并可进一步将其用于不同目的。

任务与协作分析单元204可用于从输入任务处理单元202，环境因素数据库218以及过往任务与协作数据库216当中的每一个接收数据。此外，任务与协作分析单元204可将计算出的协作模式信息传递给动态异构机器人分配单元212，以供执行。对数据的任务及协作分析可由行为学习单元206，任务处理单元208以及任务优化单元210执行。

环境因素数据库218可对有可能影响机器人协作中的变动的一项或多项本地或非本地的环境变化进行处理。所述外部因素可包括但不限于特定地点的当前气候(如某个城市或地区的气候)，在线平台报价，产品的季节性需求，节日促销，消费者情绪，新产品发布等。此外，所述内部因素可包括传送带布局，能够按照室内环境的指令自主移动的自主地面车辆(AGV)的数量，仓库布局，目标执行流程的限制因素，结账区域或与下一阶段的交接区域，仓库设置等。

行为学习单元206可识别机器人的特性及其在仓库、工厂、行业等的动态异构机器人环境内实现任务目标的预设能力。行为学习单元206还可根据系统100的需求以及动态异构机器人分配单元212可能对功能做出的具体决定，识别机器人的特定行为。需要注意的是，行为学习单元206可与最佳状态确定与映射单元220并行操作。

任务处理单元208可用于处理任务执行当中需要密集计算的部分。所述需要密集计算的部分可包括人工神经网络(ANN)的训练和学习。任务处理单元208还可包括来自行为学习单元206的累积信息，并可将该信息传递给任务优化单元210，以供进一步处理。需要注意的是，任务处理单元208可单独具有用于存储各种信息的数据库。

任务优化单元210可用于从任务处理单元208接收任务信息。此外，任务优化单元210可根据所接收的信息确定可由更细分的行动组成的最佳任务状态。在该最优化过程中，任务优化单元210可对已分析任务模式进行最优化，所述模式可以为任务处理单元208的处理结果。此外，任务优化单元210可利用深度学习机制，在回报、数据、行为、特性和/或其他方面有利于实现所述已分析模式。需要注意的是，任务优化单元210可相对于行为学习单元206和任务处理单元208当中的每一个均并行操作。

动态异构机器人分配单元212可用于接收可由任务优化单元210优化的已分析模式和流程。此外，动态异构机器人分配单元212可将任务映射至从任务优化单元210接收的模式和流程。动态异构机器人分配单元212还可识别出需由机器人执行的多项行动。另外，动态异构机器人分配单元212可确定机器人执行所述多项行动时必须获得的特征。需要注意的是，与机器人关联的特征的参数可根据任务的要求进行调节。例如，可以根据要求调节AGV的速度或AGV的货箱的数目。

任务执行单元214可用于合并各项任务的实时执行。任务执行单元214可根据调度机制允许一台或多个机器人执行任务。所述调度机制可通过优先级列表，协作效果，深度学习框架，完成目标时的成本缩减等确定。需要注意的是，任务执行单元214可直接访问可存储与任务关联的信息的过往任务与协作数据库216。

任务执行装置200可在更大的框架下处理高级别的功能和任务执行。此外，任务执行装置200可使用可能已存在的子任务的信息。举例而言，在零售仓库的情形中，只有当存在指导AGV后续在地图中行走时如何定位的基本信息时，AGV才能正常工作。因此，为了确保以最佳方式执行更多的任务，所述基本信息为必要信息。例如，如果接收到15个订单，而且每一订单均待由不同AGV执行时，则可利用包括电池电量、机器人效率、机器人操作区域、机器人已执行过的订单等在内的各种因素，确定AGV的订单分配方式。分配后，AGV便可计算其新路径，并完成订单。所述关键子任务可包括AGV从一个地点移动至另一地点等的信息，或者如何利用钣金切割机沿直线切割金属的信息。在任务订单或目标执行后，可将所述信息送回，以与动态异构机器人分配单元212关联，而该单元可将所述信息以指定格式存储于历史数据库(如过往任务与协作数据库216)中，以供进一步分析。

在最佳状态确定与映射单元220为系统100确定最佳模式后，行动方或工作方便可对其采取行动。最佳状态确定与映射单元220可包括能够通过实时工作而达到动态目标的机器人、工厂机器人、传送带等。最佳状态确定与映射单元220可与所述历史数据库直接链接，以更新已执行任务的效率得分，以供后续使用。

任务执行装置200内的模块可通过无线或有线通信协议连接，此类协议可包括但不限于串行高级技术附接(SATA)、集成驱动电子设备(IDE)、IEEE-1394、通用串行总线(USB)、光纤通道、小型计算机系统接口(SCSI)、易设计(Simple-To-Design，STD)总线、推荐标准(RS)-232、RS-422、RS-485、I2C、串行外设接口(SPI)、Microwire、1-Wire、IEEE 1284、英特尔快速通道互联、InfiniBand或快捷外设互联(PCIe)等。

现在参考图3，该图为根据一种实施方式在动态异构机器人环境内执行任务的方法300的流程图。以上，已结合图1和图2，对图3中的元件进行了说明。

在步骤302中，任务执行装置200响应于识别至少一个当前任务，提取与多个数据类别关联的数据，。任务执行装置200可经应用程序提取用户数据，并将该数据保存于数据库中。任务执行装置200可接收可代表当前任务的实时订单。任务执行装置200还可从供应链接收可手动和/或自动馈入的输入。此外，还可接收其他形式的可导致创建一个或多个任务之物。任务可通过外部系统分配给仓库或工厂(任务执行地)。此类任务可随时间的流逝持续接收。任务执行装置200可形成一种高效的系统，该系统可利用能够执行基本操作的机器人大量快速地以最佳方式完成任务。需要注意的是，所述数据可从多个数据源提取，所述数据源可包括环境因素数据库218和历史数据库(如过往任务与协作数据库216)。所述历史数据库可进一步包括订单信息、工厂功能信息、外部信息、机器人历史信息、任务处理信息或其他信息当中的至少一者。所述多个数据类别当中的每一个类别均与所述多个数据源当中的一个相关联。也就是说，从环境因素数据库218提取的数据可与环境数据类别相关联，而从所述历史数据库提取的数据可与历史数据类别相关联。

举例而言，持续处理订单的仓库系统可在晚上7:45这一时间点接收到特定订单。此外，任务执行装置200可获取当天晚上8:00～晚上9:00这一预测时间段的预测订单类型。因此，可由任务执行装置200在晚上8:00～晚上9:00这一预测时间段获取的所述特定订单可能并非为确切订单，而是对可能相关的订单模式做出的估计。所述订单模式可通过深度学习网络获得，以下将对此进行详细说明。随着任务列表持续缩短，任务执行装置200计算效率得分。当该效率得分降至预设阈值以下时，任务执行装置200可重新校准所述深度学习网络，以令其将当前迭代步骤中获得的错误考虑在内。然而，在对所述深度学习网络进行重新校准的过程中，任务可持续不断地出现。这些任务可在非最佳设置下执行(即未对所述深度学习网络进行重新校准的情况下进行)。

此外，在步骤304中，任务执行装置200可通过所述深度学习网络，从所提取的数据中获得多个因素。所述多个因素可从不同数据库获得，包括但不限于产品订单信息、工厂功能信息、外部信息、机器人历史信息、为了训练和学习目的而实施的统计分析所得任务处理信息等。所述机器人历史信息可进一步包括但不限于与任务执行时间、机器人行走历史、作为任务组成部分的各行动花费的平均时间、平均行走速度、不同类别物品的平均拾取速度(例如，片状物的拾取时间可能长于瓶装物的拾取时间)、机器人行为代码等相关的信息。

在获得所述多个参数后，可通过可包括但不限于回归、归一化、估计值和置信度值、模型准确性等在内的统计方法，对所述多个因素的一个或多个特性进行匹配。所述多个因素可由任务执行装置200更新。所述多个因素可包括日期、星期几、时间、产品显著性、产品特征、产品类别等当中的至少一个，所述多个因素中的每一个因素均可表示所述深度学习网络中的神经元。

通过所述深度学习网络，在步骤306中，任务执行装置200可确定所述多个因素之间的多个关联关系。任务执行装置200可根据匹配模式确定所述多个因素之间的所述多个关联关系。所述多个关联关系可包括所述多个因素中的两个或更多个因素之间的加权关系。当所述模式的匹配度低于预设阈值时，任务执行装置200可重新校准所述多个因素，而且可在该重新校准过程的每一迭代步骤后，更新所述数据库。需要注意的是，所述多个因素的模式匹配可能会影响任务的自动化执行，而且可由所述深度学习网络处理。此外，通过使用深度学习网络，还可对任务、回报及机器人细节之间的联系或模式进行处理，并且这一处理同样可能会影响任务的自动化执行。对于本领域技术人员而言容易理解的是，机器人协作网络的结构以及该机器人协作网络的输入数量或质量可随情况的不同而变，以下将结合图4A和图4B对此进行更加详细的说明。

此外，在步骤308中，任务执行装置200可根据所述多个关联关系，获得所述多个因素当中一组因素的多个情感参数。需要注意的是，所述多个情感参数当中的每一个情感参数可由数值表示，而且所述多个情感参数可具有层次。与所述多个情感参数中的情感参数关联的层次结构对应于角色、所述多个机器人的任务分配、机器人功能及产品类别中的至少一个。以下，将参考图6A至图6E，对如何获得所述多个情感参数进行进一步详细说明。

此外，在步骤310中，任务执行装置200可根据施加至所述一组因素中的至少一个关联因素的所述多个情感参数当中的每一个情感参数，利用多个机器人模拟所述至少一个当前任务的执行情况。任务执行装置200可根据用于执行所述任务的优化协作方式的回报点，确定所述多个机器人的特性。所述最佳协作方式可选自所述强化学习模拟中之前计算出的模拟模式。此外，任务执行装置200可将所述最佳协作方式的特性映射至所述多个机器人的可用组合。

每一个所述任务可包括多项行动。根据行动的复杂性，行动既可视为任务，也可进一步划分为子行动。各种任务可上至仓库的优化，下至具体动作(例如，金属板的切割)的优化。在一种实施方式中，可在当前的一组订单上加注标签(例如，可将晚上9点认定为仓库的高峰时间，并可将这一时间内接收的订单加注为高峰时间订单标签)。在完成机器人行为关联后，可以部署用于执行当前目标、任务或命令的最佳可能组合。其中，可以根据关联关系以及需要由机器人执行的任务，向机器人分配子任务。

举例而言，根据预测分析，可能需要在接下来的90分钟内从衣物区分派120～150件物品。此外，根据模拟结果，回归模型的两个梯度极值可能会下降。其中，第一极大值可对应于4个机器人，而第二极大值可对应于5个机器人。由于衣物处理工作分配的优先级水平为4，因此为了节约资源，在处理相应任务时，任务执行装置200可分配4个机器人，而非5个机器人。因此，与优先级水平为1的物品(如杂货)相比，当优先级水平为4的衣物延迟传递时，任务执行装置200可产生较小程度的负面回报。

此外，在步骤312中，任务执行装置200可通过对所述至少一个当前任务执行情况模拟后获得的结果进行强化学习而对所述多个情感参数中的至少一个进行迭代式重新调节。所述迭代式重新调节可进行至所述多个情感参数当中的每一个情感参数均高于预设阈值为止。此外，在步骤314中，在所述迭代式重新调节后，任务执行装置200可根据施加至所述一组因素中的至少一个关联因素的所述多个情感参数当中的每一个情感参数，利用所述多个机器人执行所述至少一个当前任务。在一种实施方式中，可由行动方执行所述订单或任务，而且根据执行情况生成的相关信息可以合适的结构存储于过往任务与协作情况数据库216中。

现在参考图4A和图4B，该图所示为根据一种例示实施方式的深度学习网络400以及用于识别多个因素之间的多个关联关系的相应表格形式数据。深度学习网络400可包括任务执行装置200在预测下一给定时间段的任务时可能会考虑的多个因素。随后，深度学习网络400可相应地重新校准所述多个因素。举例而言，权重值可处于0和1之间，所述多个因素可以为日期、星期几、时间、显著性、产品特征1、产品特征2、类别1、类别2等。日期-时间关联度为0.2～0.31，星期几-时间关联度为0.56～0.2，日期-显著性关联度为0.21～0.54，类别1-星期几关联度为0.11～0.02等等。

所述多个因素之间的关联情况可保存于如图4B所示的表中。例如，表中的“0.43/0.90”中，“0.43”可表示“显著性”的权重值以及与“星期几”关系的重要性，而“0.90”可表示“星期几”的权重值以及与“显著性”关系的重要性。任务执行装置200可通过对错误进行反向传播而调节所述权重值，直至任务执行装置200提供合适的输出为止。在所述深度学习网络中，所述多个因素中的每一个因素的权重值均可根据所需的输出进行增减。在另一实施方式中，任务执行装置200可识别所述多个因素当中的三个因素之间的关联情况。此外，权重值可根据梯度下降，以具有反向传播功能的深度神经网络(如递归玻尔兹曼(Boltzmann)网络)以迭代方式调节。

现在参考图5，该图为根据一种实施方式在动态异构机器人环境内执行任务的具体方法500的流程图。在步骤502中，任务执行装置200可从任务流水线中，接收至少一个需要执行的当前任务。所述至少一个当前任务可从供执行的任务流水线提取，并可仅含从系统(如货物物流处理与自动化系统)接收的请求列表中的最终任务。所述至少一个当前任务可无需任何的进一步预处理，但该当前任务可能需要分为各种子任务。所述当前任务可例如包括但不限于：从仓库中取出15个产品；组装10辆汽车；提高节日期间仓库中所有订单的吞吐量等。

此外，在步骤504中，任务执行装置200响应于接收所述至少一个当前任务，可确定该任务执行装置200的当前状态。在步骤506中，任务执行装置200可根据任务执行装置200的当前状态以及接收到的所述至少一个当前任务，识别数据。

在步骤508中，任务执行装置200可向所述多个因素中的一组因素之间的关系分配权重值，以生成所述一组因素之间的加权关系。任务执行装置200可利用所述数据和深度学习网络纳入对任务模拟似乎良好的状态。该状态可根据保存于数据库中以往订单历史设置。此外，在人工神经网络中，可将所述一组因素与以往订单历史相比较。当人工神经网络确定匹配度可能高于预设阈值时，即可借用相应的以往订单历史配置。然而，当匹配度低于预设阈值时，则可以以状态类似或相近的一组因素继续前查。此外，所述一组因素的权重值可在随后的模拟学习步骤中得到调节，以生成所需的输出。

在步骤510中，任务执行装置200可通过深度神经网络(如递归玻尔兹曼网络)分析已分配的权重值，并可随后根据分析结果重新调节已分配的权重值。对于本领域技术人员而言容易理解的是，递归玻尔兹曼网络可以为构成深度学习网络核心的手段之一。任务执行装置200可包括自动编码器，该自动编码器可用于降维。此外，任务执行装置200可通过统计方法(如回归分析)进行所述一组因素与以往订单历史的匹配。在该统计方法中，可通过统计误差函数预测所述一组因素的最佳模式。其中，可将多个使用情形的相互依赖关系作为多元回归关系，并可以以内置数学库对其进行求解。

在步骤512中，任务执行装置200可确定用于模拟执行所述至少一个当前任务的多个使用情形。所述多个使用情形中的每一个使用情形均可包括将所述多个情感参数当中的每一个情感参数施加至所述一组因素中的至少一个关联因素。其中，可通过以虚拟方式生成针对任务执行的机器人模拟协作方式以对最佳配置进行检验。在模拟过程中，可通过生成针对已生成回报的协作网络的可行性以决定协作网络的最佳配置。此外，在每一模拟的执行过程中，可以连续不断地改变与所述至少一个任务中的每一个任务关联的一组因素，相应机器人以及外部因素。

此外，在每一次模拟中的模拟测试使用的情形均可不同，而且可具有不同的一组因素。然而，模拟中可根据以往类似的执行情形对模式和最佳设置进行引导，以实现以多种组合方式进行的随机模拟。此外，任务执行装置200可通过多种组合方式和深度强化学习，对一个或多个规则进行学习和更新，以实现对传入任务的优化。所述规则可例如包括可用于对机器人以最短的可能时间通过仓库拐角处的漂移方式进行控制的基本参数或因素。再例如，所述规则可通过将一个以上的因素相结合以使得任务的优化执行中将一天中的时间、折扣、类别以及当前的机器人费用考虑和融合在内。

对于所述多个使用情形中的每一个使用情形，任务执行装置200可在步骤514中，根据所述至少一个当前任务的模拟执行结果，向所述多个机器人中的每一个机器人分配至少一个回报点。其中，回报点可根据可作为强化学习核心的回报函数进行分配。所述回报函数可通过正回报、负回报、指数回报或降级回报等的多种组合方式进行情境匹配。根据情境性使用情形，任务执行装置200可在强化学习中纳入更大的稀疏和连续回报点机制。例如，物品拾取任务可作为半稀疏正回报，而完成物品拾取可作为正回报。再例如，向机器人设置物品拾取目标以及向目标物品的靠近可作为连续正回报。

任务执行装置200也可分配负回报，此类负回报可用于将所要求的机器人行为向当前任务的最优化方向微调。负回报还可具有根据机器人携带能力、机器人速度等预先设定的阈值。举例而言，当机器人比针对之前任务的携带能力超载时，通过设置所述预设阈值，可使得所述机器人得到高度回报。在某些情况下，可向机器人赋予超出前一任务赋予的负回报的更大负回报。这一情形可仅发生于在当前任务可赋予同等数量的正回报的情况下。在该情形中，为了确保任务执行装置200可实现最大程度减小所分配的时间这一目标，可以设置随时间流逝而连续为负的回报。需要注意的是，连续负回报可仅赋予与先前任务的已确定优化模式相关联的任务。

现在参考图6A至图6E，该图所示为在一种例示实施方式中根据在仓库机器人环境中捕获的数据获得的一组情感参数表。该例示实施方式中的仓库为不同储存区域存有不同类物品的单层仓库，面积为25000平方英尺。其中，可设置用于冷藏物品、衣物、杂货等的单独储存区域。该仓库可具有由货架构成的若干过道。每一货架可具有供物品或产品存放的水平货框或垂直货栏。

所述仓库可包括用于执行特定用户定义任务的自动化系统和机器人。所述机器人可分为如下四类：用于搬运物品的快速地面机器人；用于搬运物品的大容量地面机器人；用于搬运物品的超快速飞行无人机；以及用于大规模输送的叉车。每一所述机器人均可具有用于搬运多件物品的货箱。所述机器人还可具有可供中央系统操控的多个参数(如速度、理想搬运重量等)。所述自动化系统可包括智能传送带，该智能传送带用于分拣成组物品，收集物品，并将物品发送给终端配货方。此外，还可设置第二自动化系统，该第二自动化系统可包括滑轨货盒以及将同一订单的物品打包的打包装置。

此外，所述自动化系统可接收数据，如外部环境数据、内部环境数据以及内部类别数据。该自动化系统可从开源应用程序编程接口(API)接收所述外部环境数据。例如，可利用开源天气信息网站(Openweathermap^TM、Apixu^TM等)接收所述外部环境数据。其中，所述外部环境数据可以为：天气—雨季；温度—最低25℃～最高34℃；阴有小雨；天气预报信息—一周有雨；星期几—星期日；日期—2019年8月4日；节假日—非节假日。所述自动化系统可接收的内部环境数据可包括：以.pgm和.yaml格式文件标记的货架和货框结构。其中，可通过同时定位与地图构建(SLAM)技术为地图上标注的AGV、包装柜台、结帐柜台、传送带或机器人充电站提供引导。

所述内部类别数据可包括：特定类别已售产品数与任何类别最大已售产品数的对比；特定时段已售产品数与一定时间最大已售产品数的对比；总在线结账数与任何特定类别最大在线结账数的对比；以及折扣和显著性与最高折扣的对比。所述内部类别数据可从过往任务与协作数据库216中获得。

此外，根据一组因素之间已找出的关联关系，可以推导出模式，而且这些模式可进一步用于导出不同相关类别的多个情感参数。所述多个情感参数可随所述自动化系统的数据流入和流出而持续不断地变化。另外，所述多个基于产品或因素的情感参数可通过将其他情感合并的方式确定。举例而言，与以产品为中心的储存区域相关的多个情感参数可根据样品等式相称性表示。某些样品等式相称性例如如以下式1至式4所示：

情感∝过去一个小时的销量……(1)

情感∝队列中待处理的物品……(2)

情感∝过去一个小时的物品访问次数……(3)

情感∝好的类别……(4)

表602表示与不同产品类别关联的当下情感参数值。所获得的所有情感参数值均处于1～10这一尺度。例如，与电子产品关联的当下情感参数值为5.8，而与衣物关联的当下情感参数值为9.4。此外，表604表示与不同产品类别关联的日情感参数值。例如，与电子产品关联的日情感参数值为8.2，而与衣物关联的日情感参数值为7.5。类似地，表606表示与不同产品类别关联的周情感参数值。例如，与电子产品关联的周情感参数值为6.2，而与衣物关联的周情感参数值为6.4。此外，表608表示与不同产品类别关联的月情感参数值。例如，与电子产品关联的月情感参数值为7，而与衣物关联的月情感参数值为6.2。

根据表602，604，606和608，可以判断出，杂货的销售主要取决于一天中的时间。所述多个情感参数可在根据连续不断的模拟进行强化学习后决定。举例而言，即使在下雨天，雨天衣服的情感参数值也可能并不高。情感参数值可取决于经验数据，此类经验数据可包括非季节性降雨、季末无折扣等因素。

表610表示与每一衣物子类别相关联的当下情感参数值。例如，与雨天衣服关联的当下情感参数值为9.2，与夏季衣服关联的当下情感参数值为7.5。类似地，所述自动化系统可确定每一衣物子类别的时情感参数值、日情感参数值、周情感参数值、月情感参数值。根据表610可以明显看出，夏季衣服正在打折，因此消费者情感参数值为7.5，而且由于外面正在下雨，因此雨具关联的物品的情感参数值为9.2。

所述各种情感参数值可根据表612～622中的数据获得。表612可包括订单和销售信息。表602～610可包括可基于用户观点确定的类似信息。例如，其可以存储与不同产品关联的用户情感。在表612中，所述自动化系统可对仓库的内部功能进行分析。例如，对于识别号为1001的物品，过去10次的平均处理时间为6.24，所有时间的平均处理时间为8.2，该物品的类别为10。虽然不同物品可能会成批大量购买，但表612仍有助于确定各个物品的平均处理时间。

表614可包括仓库内每一订单的具体信息。例如，对于编码为O1的具体订单：订购物品为1001，1019，1025和1010；订单日期为6/08/2019；处理开始时间为晚上8:24；处理结束时间为晚上8:37；该订单使用的机器人为B1；处理的其他订单为O2，O5和O11。

表602～614中的统计数据可用于强化学习，而且权重值可在深度学习和强化学习过程中不断变化。需要注意的是，强化学习还可选择相关数据集进行模拟。例如，在节日期间，传统服饰的销量可能会急剧上升。在该情形中，与每周趋势相比，所述自动化系统可优选对去年的历史数据进行训练。类似地，还可通过调节权重值而获得预测购买率。

类似地，还可按照基于年度时间的分类方式、基于品牌的分类方式、基于实用性的分类方式等制作各表。需要注意的是，当下购买率(7.5/10)可表示仓库的当前时刻购买率。该参数可通过统计方式得出，并可作为整体情感的贡献因素。此外，日购买率(6/10)可表示当日购买率与预测购买率之间的比较。

表616可包括与机器人关联的细节。机器人特性可包括但不限于机器人速度、自由度、机器人类型、电池容量、负载能力、最合适使用目的，任务能力等。每一机器人具有基于其物理能力的待执行的固定任务列表。机器人可根据各自功能和当前要求被分配不同任务。无人机也作为所述自动化系统的一环，而且可根据模拟结果向AGV自动分配任务。不同类别机器人可供不同任务使用的情形和地点的变化实现不同机器人之间实现协作或协同。

表618可包括向仓库内每一个机器人分配的任务细节。例如，将货框从一个地点移动至另一地点的角色R7可分配给编码为B1且类型为BT21的机器人。类似地，将纸箱移入货框的角色R1可分配给编码为B2且类型为BT12的机器人。如此，所述自动化系统可应自身需求将任务R1和R7分别分配给能够物理上完成任务R1和R7的机器人B1和B2。

表620可包括所述自动化系统的更低层面效率的细节。例如，在一个小时这一时间长度上，系统效率可以为8.2，阈值效率可以为7.5，当前系统的预测效率可以为7.9。所述预测效率可以为针对所述自动化系统估测的回报点。此外，所述系统效率可以为所述自动化系统在任务执行后的实际回报点，并可用于后续任务执行的准确性置信度。需要注意的是，当所述系统效率低于7.5时，所述自动化系统可重新校准。所述自动化系统可按任务级别的降序处理任务。如此，级别较高的任务(如完成订单X1)可在级别较低的任务(如在一个地点拾取物品1，2和5，并将其挪至另一地点)之前处理。

根据所述系统效率，所述自动化系统可通过如下步骤重新校准：检查更新后的订单数据库；重新训练模式与趋势系统；对强化学习单元进行重新模拟，并获取尤其关注于更近订单中可导致效率下降的最佳配置；根据进仓时间设置，将新的最佳配置应用至仓库；以及为机器人设置新的参数和配置。

表622可包括子任务的效率。所述自动化系统可处理可能由多个子任务组成的相对更大的任务。相应地，所述自动化系统可能并不深入路径规划的内部，而是将其作为“黑匣子”进行处理。当所述自动化系统的整体效率降至所述阈值以下时，该自动化系统可通过将任务进一步细分而提高效率。此外，为了确定上述最终效率得分，还可生成其他类似的多个参数的表(如机器人完成各项活动所花费的时间、物品处理过程中的安全性等)。

作为简短模拟的一例，优化参数可以为时间和运转能力，从所述深度学习网络中导入的模式或趋势可以为P1…P100。简易模式P1可以为其他参数不变的阴雨天气，该天气可导致雨天衣服获得更大的销量。相应地，其效果可能为：在下雨期间，雨具摆放于包装或结账区域的附近。此外，简易模式P2可表示杂货在晚上11点～晚上6点的时段销量更大。相应地，其效果可能为：在所述时段内，应该在仓库的杂货储存区域设置更多的机器人，而且在该时段内，应该将所述杂货区域的货架预先装满物品。此外，简易模式P3可表示，如果当月第一天为周末，则晚上11点～晚上6点时段的总体销量更大。相应地，其效果可能为：为所有类别配置更多机器人；在所述时段之前，将机器人充至最大容量；在效率逐渐下降的情形中，可配置无人机，以作为一种应对措施。

在小规模模拟中，订单列表可以为O000，O001，…，O099，O100。由于新订单的进入，所述自动化系统无法达到当前最佳状况，只能偏离当前最佳状况。其中，所述仓库自动化系统可对所述100个订单(O000～O100)中的每一个订单进行模拟，而且为了确保能够加速运转和节省时间，可以投入更多机器人。相应地，所述模拟会在上述两个待完成的目标之间进行权衡。例如，所述自动化系统的最终成果可以为，以21分钟和10J(回报点125)的最佳回报完成订单，而之前的最佳回报为32分钟和12J(回报点101)。

现在参考图7，该图所示为在一种实施方式中用于获得所述多个因素中的每一因素的权重值的深度学习网络700。深度学习网络700可接收作为输入的多个参数。所述多个参数可影响预测仓库内产品状态时的决策。例如，如图7所示，深度学习网络700的输出可以为各种产品的关联频度。产品的关联频度可表示与该产品关联的需求或购买情况。在深度学习网络700中，任务执行装置200可以改变所述多个因素的基于权重值的相互连接关系。所述多个因素可包括偏爱、天气、日期、折扣、产品类别等。

还应理解的是，上述技术可采用如下形式：计算机或控制器实现的过程；以及用于实施这些过程的装置。本发明还可以以含有指令的计算机程序代码的形式实施，所述指令包含于软盘、固态驱动器、CD-ROM、硬盘驱动器或其他任何计算机可读存储介质等有形介质中，其中，当所述计算机程序代码载入计算机或控制器内并由该计算机或控制器执行时，该计算机即成为一种用于实施本发明的装置。本发明还可以以计算机程序代码或信号的形式实施，所述计算机程序代码或信号例如存储于存储介质中，或者载入计算机或控制器内并/或由该计算机或控制器执行，或者经电线或电缆、光纤或电磁辐射等传输介质传输，其中，当所述计算机程序代码载入计算机内并由该计算机执行时，该计算机即成为一种用于实施本发明的装置。当在通用微处理器中实施时，所述计算机程序代码的代码段对所述微处理器进行配置，以创建出特定的逻辑电路。

现在参考图8，该图为用于实施各种实施方式的例示计算机系统802的框图。计算机系统802可包括中央处理单元(“CPU”或“处理器”)804。处理器804可包括至少一个用于执行程序组件的数据处理器，所述程序组件用于执行用户或系统生成的请求。用户可包括个人，使用设备(如本发明范围内的设备)的个人，或此类设备本身。处理器804可包括集成系统(总线)控制器、内存管理控制单元、浮点单元、图形处理单元、数字信号处理单元等专用处理单元。处理器804可包括微处理器，例如

速龙

微处理器、毒龙

微处理器或皓龙

微处理器，ARM应用处理器，嵌入式或安全处理器，

Intel

处理器、安腾

处理器、至强

处理器、赛扬

处理器或其他系列处理器等。处理器804可通过主机、分布式处理器、多核、并行、网格或其他架构实现。一些实施方式可使用专用集成电路(ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)等嵌入式技术。

处理器804可设置为通过输入/输出(I/O)接口806与一个或多个I/O设备通信。I/O接口806可采用通信协议/方法，例如但不限于，音频、模拟、数字、单声道、RCA、立体声、IEEE-1394、串行总线、通用串行总线(USB)、红外、PS/2、BNC、同轴、分量、复合、数字视觉接口(DVI)、高清多媒体接口(HDMI)、射频天线、S-Video、VGA、IEEE802.n/b/g/n/x、蓝牙、蜂窝(如码分多址(CDMA)、高速分组接入(HSPA+)、移动通信全球系统(GSM)、长期演进(LTE)、WiMax等)等。

通过使用I/O接口806，计算机系统802可与一个或多个I/O设备通信。举例而言，输入设备808可以为天线、键盘、鼠标、操纵杆、(红外)遥控、摄像头、读卡器、传真机、加密狗、生物计量阅读器、麦克风、触摸屏、触摸板、轨迹球、传感器(如加速度计、光传感器、GPS、陀螺仪、接近传感器等)、触控笔、扫描仪、存储设备、收发器、视频设备/视频源、头戴式显示器等。输出设备810可以为打印机、传真机、视频显示器(如阴极射线管(CRT)显示器、液晶显示器(LCD)、发光二极管(LED)显示器、等离子显示器等)、音频扬声器等。在一些实施方式中，收发器812可与处理器814连接。收发器812可促进各类无线传输或接收。例如，收发器812可包括以可操作方式连接至收发器芯片(如德州仪器(

Instruments)WiLink

收发器、博通

收发器、英飞凌科技(Infineon

)X-Gold

收发器等)的天线，以实现IEEE802.11a/b/g/n通信、蓝牙通信、FM通信、全球定位系统(GPS)通信、2G/3GHSDPA/HSUPA通信等。

在一些实施方式中，处理器804可设置为通过网络接口816与通信网络814通信。网络接口816可与通信网络814通信。网络接口816可采用连接协议，该连接协议包括但不限于直接连接、以太网(如双绞线10/100/1000Base T)、传输控制协议/网际协议(TCP/IP)、令牌环、IEEE802.11a/b/g/n/x等。通信网络814可包括，但不限于，直接互连、局域网(LAN)、广域网(WAN)、无线网络(例如，使用无线应用协议)、因特网等。通过网络接口816和通信网络814，计算机系统802可与设备818，820，822通信。这些设备可包括，但不限于，个人计算机，服务器，传真机，打印机，扫描仪以及各种移动设备，这些移动设备例如为蜂窝电话、智能手机(如苹果

智能手机、黑莓

智能手机、基于安卓

的手机等)，平板电脑，电子书阅读器(亚马逊

电子书阅读器，

平板电脑等)、膝上型计算机、笔记本电脑、游戏机(微软

游戏机、任天堂

游戏机，索尼

游戏机等)等。在一些实施方式中，计算机系统802可本身包含一个或多个上述设备。

在一些实施方式中，处理器804可设置为通过存储接口824与一个或多个存储设备(例如RAM 826、ROM 828等)进行通信。存储接口824可采用串行高级技术附接(SATA)、集成驱动电子设备(IDE)、IEEE-1394、通用串行总线(USB)、光纤通道、小型计算机系统接口(SCSI)等连接协议连接至包括存储驱动器、可移除磁盘驱动器等在内的存储器830。所述存储驱动器还可包括磁鼓、磁盘驱动器、磁光驱动器、光盘驱动器、独立磁盘冗余阵列(RAID)、固态存储设备、固态驱动器等。

存储器830可存储一系列程序或数据库组件，包括但不限于，操作系统832、用户界面应用程序834、网页浏览器836、邮件服务器838、邮件客户端840、用户/应用程序数据842(如本发明中所述的任何数据变量或数据记录)等。操作系统832可促进计算机系统802的资源管理和运行。操作系统832例如包括，但不限于，苹果

OS X平台、Unix平台、Unix类系统套件(如伯克利软件套件(BSD)、FreeBSD、NetBSD、OpenBSD等)、Linux套件(如Red

等)、

OS/2平台、微软

(XP，Vista/7/8等)、苹果

平台、谷歌

安卓平台、黑莓操作系统等。用户界面834可利用文本或图形工具促进程序组件的显示、执行、互动、操控或操作。例如，用户界面可在以可操作方式连接至计算机系统802的显示系统上提供光标、图标、复选框、菜单、滚动条、窗口、窗口部件等计算机交互界面元件。此外，还可采用图形用户界面(GUI)，包括但不限于，苹果

操作系统的

平台、

平台、微软

平台(例如

平台、

平台等)、Unix X-Windows、网页界面库(如

平台、

编程语言、

编程语言、

编程语言、HTML、

平台等)等。

在一些实施方式中，计算机系统802可执行网页浏览器836存储的程序组件。网页浏览器836可以为微软Internet

网页浏览器、谷歌

网页浏览器、谋智

火狐

网页浏览器、苹果

网页浏览器等超文本浏览应用程序。其中，可通过HTTPS(安全超文本传输协议)、安全套接字层(SSL)、安全传输层(TLS)等实现安全网页浏览。网页浏览器可使用AJAX、DHTML、

平台、

编程语言、

编程语言、应用程序编程接口(APi)等工具。在一些实施方式中，计算机系统802可执行邮件服务器838存储的程序组件。邮件服务器838可以为微软

邮件服务器等因特网邮件服务器。邮件服务器838可使用ASP、ActiveX、ANSI C++/C#、微软.

编程语言、CGI脚本、

编程语言、

编程语言、

编程语言、

编程语言、

编程语言、WebObjects等工具。邮件服务器838还可使用因特网信息访问协议(IMAP)，邮件应用程序编程接口(MAPI)，微软Exchange，邮局协议(POP)，简单邮件传输协议(SMTP)等通信协议。在一些实施方式中，计算机系统802可执行邮件客户端840存储的程序组件。邮件客户端840可为苹果

邮件客户端、微软

邮件客户端、微软

邮件客户端、谋智

邮件客户端等邮件查看程序。

在一些实施方式中，计算机系统802可存储用户/应用程序数据842，如本发明中所述数据、变量、记录等。此类数据库可实施为甲骨文

数据库或赛贝斯

数据库等容错、关系、可扩展、安全数据库。或者，上述数据库可通过数组、散列、链表、结构、结构化文本文件(例如XML)、表格等标准化数据结构实现，或者实施为面向对象的数据库(例如通过

对象数据库、

对象数据库、

对象数据库等)。此类数据库可以为合并或分布数据库，有时分布于本发明所讨论的上述各种计算机系统之间。可以理解的是，上述任何计算机或数据库组件的结构及操作可以以任何可行的组合形式进行组合、合并或分布。

本领域技术人员可理解的是，为了清楚起见，上文参考不同功能单元和处理器，对本发明的实施方式进行了描述。然而，可理解的是，在不背离本发明的前提下，可使用不同功能单元、处理器或区域之间的任何功能分布方式。例如，图示或描述为由分离的处理器或控制器执行的功能也可由同一处理器或控制器执行。因此，提及特定功能单元之处应仅视为指用于提供所描述功能的合适手段，而非严格的逻辑或物理结构或组织。

本发明各种实施方式提供一种在动态异构机器人环境内执行任务的方法和系统。具体而言，该方法利用深度学习以及AGV执行任务。此外，只要可变机器人环境中存在特定目标，所述方法可在操作或应用方面不受限制。由于该方法的焦点在于实现自动化仓库、工厂、行业等的物理空间的整体优化，因此其潜在用途可以为多方面用途。

另外，所述方法可用于实现端到端自动化，并解决人机系统常见的不精确问题。此外，该方法能够更好地控制所述物理空间的所有方面，并可改善其低回报区域。该方法可使AGV相互协作，并能够诱发AGV的行为。在所述协作中，AGV整体完成的工作大于其各自完成工作的总和。因此，该方法可降低计算成本，而且系统状态在确立之后可持续至效率降至操作阈值以下为止。另外，该方法有助于减少人工和降低工作量，从而降低储存成本。

本说明书描述了在动态异构机器人环境内执行任务的方法和系统。所述步骤用于说明所示例示实施方式，并且应当预想到的是，随着技术的不断发展，特定功能的执行方式也将发生改变。本文所呈现的上述实施例用于说明而非限制目的。此外，为了描述的方便性，本文各组成功能构件的划界较为随意，只要能够恰当地实现上述各功能及其关系，所述各功能构件可以以其他方式划界。根据本申请内容，对于相关领域技术人员而言，替代方案(包括本申请所述方案的等同方案、扩展方案、变形方案、偏差方案等)是容易理解的。这些替代方案均属于所公开实施方式的范围和精神内。

此外，一种或多种计算机可读存储介质可用于实施本发明的实施方式。计算机可读存储介质是指可对处理器可读取的信息或数据进行存储的任何类型的物理存储器。因此，计算机可读存储介质可对由一个或多个处理器执行的指令进行存储，包括用于使处理器执行根据本申请实施方式的步骤或阶段的指令。“计算机可读介质”一词应理解为包括有形物件且不包括载波及瞬态信号，即为非暂时性介质，例如包括随机存取存储器(RAM)、只读存储器(ROM)、易失性存储器、非易失性存储器、硬盘驱动器、CD-ROM、DVD、闪存驱动器、磁盘以及其他任何已知物理存储介质。

以上公开内容及各实施例旨在仅视为示例性内容及实施例，所公开实施方式的真正范围和精神如权利要求所示。

Claims

1.一种在动态异构机器人环境内执行任务的方法，其特征在于，所述方法包括：

由任务执行装置响应于识别至少一个当前任务，提取与多个数据类别相关联的数据，其中，所述数据从多个数据源中提取，所述多个数据类别当中的每一个类别均与所述多个数据源当中的至少一个数据源相关联；

由所述任务执行装置通过深度学习网络从所提取的数据中获得多个因素；

由所述任务执行装置通过所述深度学习网络确定所述多个因素之间的多个关联关系，其中，所述多个关联关系包括所述多个因素当中的两个或更多个因素之间的加权关系；

由所述任务执行装置根据所述多个关联关系获得所述多个因素当中的一组因素的多个情感参数，其中，所述多个情感参数具有层次；

由所述任务执行装置根据施加至所述一组因素中的至少一个关联因素的所述多个情感参数当中的每一个情感参数，使用多个机器人来模拟执行所述至少一个当前任务；

由所述任务执行装置通过对所述模拟的结果进行强化学习而对所述多个情感参数中的至少一个情感参数进行迭代式重新调节，其中，所述迭代式重新调节进行至所述多个情感参数当中的每一个情感参数均大于预设阈值为止；以及

由所述任务执行装置响应于所述迭代式重新调节，根据施加至所述一组因素中的至少一个关联因素的所述多个情感参数当中的每一个情感参数，使用所述多个机器人来执行所述至少一个当前任务。

2.如权利要求1所述的方法，其特征在于，还包括从任务流水线接收要求执行的所述至少一个当前任务。

3.如权利要求2所述的方法，其特征在于，提取所述数据包括：

响应于接收所述至少一个当前任务，确定所述任务执行装置的当前状态；以及

根据所述任务执行装置的所述当前状态以及所接收的至少一个当前任务，识别所述数据。

4.如权利要求1所述的方法，其特征在于，所述多个数据源包括环境因素数据库和历史数据库，其中，所述历史数据库包括订单信息、工厂功能信息、外部信息、机器人历史信息以及任务处理信息当中的至少一个。

5.如权利要求1所述的方法，其特征在于，所述多个因素包括日期、星期几、时间、产品显著性、产品特征以及产品类别当中的至少一个，其中，所述多个因素中的每一个因素表示所述深度学习网络中的一个神经元。

6.如权利要求1所述的方法，其特征在于，确定所述多个因素之间的所述多个关联关系包括：

通过向所述多个因素当中的一组因素之间的关系分配权重而生成所述一组因素的加权关系；

通过深度神经网络分析所分配的权重值；以及

根据所述分析的结果，重新调节所分配的权重值。

7.如权利要求1所述的方法，其特征在于，与所述多个情感参数中的情感参数相关联的层次结构对应于角色、分配至所述多个机器人的任务、机器人功能以及产品类别当中的至少一个。

8.如权利要求1所述的方法，其特征在于，模拟执行所述至少一个当前任务包括：

确定用于模拟执行所述至少一个当前任务的多个使用情形，其中，所述多个使用情形中的每一个使用情形均包括将所述多个情感参数当中的每一个情感参数施加至所述一组因素中的至少一个关联因素；以及

针对所述多个使用情形中的每一个使用情形，根据所述至少一个当前任务的模拟，向所述多个机器人中的每一机器人分配至少一个回报点。

9.如权利要求8所述的方法，其特征在于，对所述多个情感参数中的至少一个情感参数进行迭代式重新调节包括，针对所述多个使用情形中的每一个使用情形，根据分配至所述多个机器人中的每一个机器人的所述至少一个回报点，实施强化学习。

10.一种用于在动态异构机器人环境内执行任务的任务执行装置，其特征在于，所述任务执行装置包括：

处理器；以及

以可通信方式与所述处理器连接的存储器，其中，所述存储器存有处理器指令，所述指令在执行时使得所述处理器：

响应于识别至少一个当前任务，提取与多个数据类别相关联的数据，其中，所述数据从多个数据源中提取，所述多个数据类别当中的每一个类别均与所述多个数据源当中的至少一个数据源相关联；

通过深度学习网络从所提取的数据中获得多个因素；

通过所述深度学习网络确定所述多个因素之间的多个关联关系，其中，所述多个关联关系包括所述多个因素当中的两个或更多个因素之间的加权关系；

根据所述多个关联关系获得所述多个因素当中的一组因素的多个情感参数，其中，所述多个情感参数具有层次；

根据施加至所述一组因素中的至少一个关联因素的所述多个情感参数当中的每一个情感参数，使用多个机器人来模拟执行所述至少一个当前任务；

通过对所述模拟的结果进行强化学习而对所述多个情感参数中的至少一个情感参数进行迭代式重新调节，其中，所述迭代式重新调节进行至所述多个情感参数当中的每一个情感参数均大于预设阈值为止；以及

响应于所述迭代式重新调节，根据施加至所述一组因素中的至少一个关联因素的所述多个情感参数当中的每一个情感参数，使用所述多个机器人来执行所述至少一个当前任务。

11.如权利要求10所述的任务执行装置，其特征在于，还包括从任务流水线接收要求执行的所述至少一个当前任务。

12.如权利要求11所述的任务执行装置，其特征在于，提取所述数据包括：

13.如权利要求10所述的任务执行装置，其特征在于，所述多个数据源包括环境因素数据库和历史数据库，其中，所述历史数据库包括订单信息、工厂功能信息、外部信息、机器人历史信息以及任务处理信息当中的至少一个。

14.如权利要求10所述的任务执行装置，其特征在于，所述多个因素包括日期、星期几、时间、产品显著性、产品特征以及产品类别当中的至少一个，其中，所述多个因素中的每一个因素表示所述深度学习网络中的一个神经元。

15.如权利要求10所述的任务执行装置，其特征在于，确定所述多个因素之间的所述多个关联关系包括：

通过深度神经网络分析所分配的权重值；以及

根据所述分析的结果，重新调节所分配的权重值。

16.如权利要求10所述的任务执行装置，其特征在于，与所述多个情感参数中的情感参数相关联的层次结构对应于角色、分配至所述多个机器人的任务、机器人功能以及产品类别当中的至少一个。

17.如权利要求10所述的任务执行装置，其特征在于，模拟执行所述至少一个当前任务包括：

针对所述多个使用情形中的每一个使用情形，根据所述至少一个当前任务的模拟，向所述多个机器人中的每一个机器人分配至少一个回报点。

18.如权利要求17所述的任务执行装置，其特征在于，对所述多个情感参数中的至少一个情感参数进行迭代式重新调节包括，针对所述多个使用情形中的每一个使用情形，根据分配至所述多个机器人中的每一个机器人的所述至少一个回报点，实施强化学习。

19.一种用于在动态异构机器人环境内执行任务的非暂时性计算机可读存储介质，所述介质具有存储于其上的一组计算机可执行指令，所述指令使得包括一个或多个处理器的计算机实施步骤，其特征在于，所述步骤包括：

通过深度学习网络从所提取的数据中获得多个因素；