CN106796677A

CN106796677A - 基于视觉提示进行自动化任务

Info

Publication number: CN106796677A
Application number: CN201580034453.9A
Authority: CN
Inventors: P.K.米什拉; J.C.格雷比尔; D.关
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2014-06-26
Filing date: 2015-06-24
Publication date: 2017-05-31
Anticipated expiration: 2035-06-24
Also published as: US9846806B2; JP2017527873A; CN106796677B; US20150379347A1; JP6360203B2; EP3161739A1; WO2015200548A1

Abstract

可提供视觉提示，以便触发与给定任务相关联的一个或多个动作的进行。视觉提示可包括任何相关表面上的一个或多个字符或其他标记，以及在提供所述视觉提示的环境内自然地出现的边缘、外形或轮廓。当一个或多个视觉提示出现在成像装置的视野内并且所述视觉提示就此被辨识时，可识别与所述视觉提示有关的任务，并且可提供用于进行所述任务的指令。所述任务可取决于提供所述视觉提示的情境，使得单个视觉提示可与不同情境中的多个任务相关联，并且所述任务的所述进行可基于成像数据或其他相关信息来确认。

Description

基于视觉提示进行自动化任务

背景

工业或商业机器可能容易被编程来根据一组已定义规则进行一个或多个特定功能。例如，输送机系统可被配置来识别辨识物体在其上的存在，并且开始操作来致使物体以指定的速度在至少一个方向上行进。同样地，商用级烤箱可被编程来在有限的时间段内烹制食物，或直到食物或在烤箱内烹制食物的环境到达预定的温度设定点。因此，人类操作者或计算机可以给工业或商业工具、设备或其他机器提供一组指令，并且所述工业或商业工具、设备或其他机器可以在没有任何人类或自动干预的情况下根据这组指令开始以给定方式操作并且继续以给定方式操作。

虽然工业或商业机器可编程有用于进行一个或多个任务的代码，并且可由人类提供的输入来触发或响应于定时信号或感测信号来触发，但是当今的工业或商业机器或计算机硬件部件或在其上操作的软件模块在接收用于进行多个任务的指令的能力方面或在适应环境变化的能力方面是有限的，这可能影响它们根据这类指令运转的能力。例如，将鸡肉烹制到至少165°F的内部温度以及将海鲜烹制到至少145°F的内部温度是通常推荐的做法。然后，虽然商业烤箱可被编程来在预定温度下或在有限的时间段内烹制食物，但是商业烤箱不能区分鸡肉与海鲜或辨识对每种类型的食物的不同烹制要求。类似地，装有瓷器或水晶的盒子应被小心搬运，而装有棒球的盒子通常不要求任何特别的搬运指令。尽管输送机系统可被配置来将瓷器或水晶的盒子与棒球的盒子一起运送，但是输送机系统不能辨识一个盒子包括易碎物品而另一个盒子包括不易损坏的体育用品，或辨识每个盒子具有与其相关联的不同阈值搬运条件。

实际上，被编程或配置来进行特定任务的工业或商业机器必须通常由人类操作者重新编程或重新配置，以便进行不同的特定任务。工业或商业机器通常可能不容易被编程来基于变化的不同业务需求或功能执行多个任务。

附图简述

图1A和图1B是根据本公开的实施方案的用于基于视觉提示进行自动化任务的系统的部件的视图。

图2A和图2B是根据本公开的实施方案的用于基于视觉提示进行自动化任务的一个系统的部件的框图的视图。

图3是根据本公开的实施方案的用于基于视觉提示进行自动化任务的一个过程的流程图。

图4是根据本公开的实施方案的用于基于视觉提示进行自动化任务的一个系统的部件的视图。

图5是根据本公开的实施方案的用于基于视觉提示进行自动化任务的一个过程的流程图。

图6A和图6B是根据本公开的实施方案的用于基于视觉提示进行自动化任务的系统的部件的视图。

图7是根据本公开的实施方案的用于基于视觉提示进行自动化任务的一个过程的流程图。

图8A和图8B是根据本公开的实施方案的用于基于视觉提示进行自动化任务的一个系统的部件的视图。

详述

如以下更详细地陈述，本公开是针对基于视觉提示进行一个或多个自动化任务，所述视觉提示可包括一个或多个符号、标签或标记，包括但不限于提供在已定义环境内的任何相关表面上的一个或多个字母数字字符(例如，字母或数字)或其组合，以及可能提供在成像装置(例如，数字相机)的视野内可见的一个或多个物体上的形状、徽标或标识。具体地说，本文公开的系统和方法可被配置来在使用数字相机或其他形式的成像装置捕获的图像或一组成像数据内辨识视觉提示或视觉提示的图案。本文公开的系统和方法还可被配置来使视觉提示或图案与特定任务相关联，在感测到视觉提示时自动地识别与任务相关联的一个或多个动作，并且开始使用一个或多个机器进行或执行所述动作中的一个或多个，所述一个或多个机器与捕获图像或成像数据的数字相机或其他成像装置通信，视觉提示或图案是从所述图像或成像数据辨识的。这类任务可能与物体或提供物体的环境有任何关系，并且所述任务可能是针对对所述物体或环境有任何相关或所需的效果。

另外，本公开的系统和方法还可被配置来辨识提供视觉提示或图案的情境，并且基于所辨识情境定制视觉提示或图案与任务的关联或定制与任务相关联的一个或多个动作的识别。最后，本文公开的系统和方法可被配置来基于随后捕获的图像或成像数据确定动作的进行是否按预期完成。

参考图1A和图1B，展示了用于基于视觉提示进行自动化任务的系统100A、100B的部件。如图1A所示，系统100A包括第一输送机131A、服务器132A、第二输送机135A、成像装置140A、转向器146A和手推车150A。物品10A沿着第一输送机131A朝向第二输送机135A行进，所述物品10A包括应用在或贴附在其上的呈符号(也就是圆圈中的字母A)形式的视觉提示12A。成像装置140A被配置来在物品10A沿着第一输送机131A朝向第二输送机135A行进时捕获物品10A的图像。服务器132A与成像装置140A通信并且与转向器146A通信。提供手推车150A来接收使用转向器146A从由第一输送机131A定义的路径转向而来的物品。

根据本公开，可在使用成像装置140A捕获的图像142A中辨识物品10A上的视觉提示12A并且将视觉提示12A提供到服务器132A。一旦辨识了视觉提示12A，服务器132A可识别与视觉提示12A相关联的指令144A(也就是将物品10A转移到手推车150A的指令)，并且将指令144A提供到转向器146A。随后，当物品10A从第一输送机131A到达转向器146A时，转向器146A响应于指令144A将物品10A转移到手推车150A中。

如图1B所示，系统100B包括第一输送机131B、服务器132B、成像装置140B和扬声器146B。在物品10B被放到输送机131B上时，工人150B将呈符号(也就是对应于哑铃的图标)形式的视觉提示12B应用到物品10B上。成像装置140B被配置来在物品10B(其上提供有视觉提示12B)沿着输送机131B行进时捕获物品10B的图像。服务器132B与成像装置140B通信并且与扬声器146B通信。

根据本公开，可在使用成像装置140B捕获的图像142B中辨识物品10B上的视觉提示12B并且将视觉提示12B提供到服务器132B。一旦辨识了视觉提示12B，服务器132B可识别与视觉提示12B相关联的指令144B(也就是请求两个或更多个工人150B接收物品10B的听觉指令)，并且将指令144B提供到扬声器146B。随后，并且响应于144B，两个或更多个工人150B可能可用于搬运物品10B。

因此，通过临时地或永久地提供一个或多个视觉提示，可通过与机器通信的数字相机或其他成像装置向任何类型或形式的工业或商业机器(例如，一个或多个汽车、部件、发动机、电动机、车辆或其他多件装备)呈现指令。成像装置可捕获图像或其他成像数据内的视觉提示，并且可以从图像或成像数据辨识这类提示且使所述提示一般地与一个或多个任务相关联，或特定地与关联于所述任务的一个或多个动作相关联。一旦识别了与视觉提示相关联的任务或动作，可相应地将用于进行所述任务或动作的指令自动地提供到所述机器。相应地，本公开的系统和方法有效地使自动化机器通过一种语言、可能也是以人类容易理解的方式通信，所述语言包括视觉提示或视觉提示的视觉图案。

从很小的年龄开始，人类就学习使用一个或多个书面或口头词语的组合来相互交流。书面词语由一个或多个字母形成，并且可由一个或多个符号(例如，标点符号)和/或数字作为补充。一个或多个词语可被组合成短语或分句，所述短语或分句可被进一步组合成一个或多个句子或段落，并且这类词语或其组合可通常在纸上或以电子格式(诸如短消息服务或多媒体消息服务(或者“SMS”或“MMS”)文字消息或电子邮件(或“E-mail”))从一个人提供到另一个人。口头词语包括音素或语言的声音系统中的最小对比单位，其描述为了产生有含义的声音所需的发音器官操作。语音通常开始于在肺部生成气压，这导致喉部的声襞或声带在生成嗓音时振动。因此，由于声襞的振动、累积压力的释放或空气穿过狭窄通道的快速移动所造成的湍流而生成声音能量。元音声通常以无阻挡的声道和没有湍流为特征，而辅音可由多种声音能量源形成。

因此，通过书面或口头词语，人类几个世纪以来已经能够相互表达一个或多个想法、意见或指令，并且能够响应于这类想法、意见或指令采取各种动作。最近，已经作出努力来使计算机能够辨识由人类生成的一个或多个书面或口头词语，或能够向这些人提供一个或多个书面或口头词语来作为响应。在现代计算机出现后不久，人类已经通过敲击键盘向计算机提供指令，并且几年以来已经配置软件应用程序来进行一个或多个光学字符辨识(或“OCR”)技术以便辨识在图像或计算机文档中表达的印刷词语。更近期，一些软件应用程序现在使用户能够向麦克风或其他音频传感器说话，辨识其语音内的一个或多个词语，并且在用户界面上显示这类词语或响应于这类词语采取一个或多个动作。

然而，当前计算机可通常从人类接收仅单一的指令以用于进行离散的任务，并且用于提供这类指令的装置或过程可能是冗长且麻烦的。例如，向计算机提供基于文字的指令通常需要键盘，而OCR技术和语音辨识技术可能需要专门的附件或外围设备并且消耗大量的处理能力和/或网络连接的带宽。此外，在用于进行多个任务的指令将被提供到计算机的情况下，通常必须反复地提供指令，因为计算机通常未被装备来适应于在进行这类任务时环境或条件的变化，或以任何方式而不是根据指令来发挥作用。

诸如数字相机的许多成像装置通过以下步骤来操作：捕获从物体反射的光，并且随后计算一个或多个数量值或将一个或多个数量值指派给反射光的各方面(例如，像素)，基于这类值生成输出，并且将这类值存储在一个或多个数据存储体中。数字相机可包括具有与其相关联的一个或多个过滤器的一个或多个传感器，并且这类传感器可检测关于反射光的任何数量像素的各方面的信息，所述方面对应于反射光的一个或多个基本色(例如，红色、绿色或蓝色)。这类传感器可生成包括这种信息的数据文件，并且将这类数据文件存储在一个或多个机载的或可访问的数据存储体(例如，数字视频记录器或“DVR”)以及一个或多个可移除的数据存储体(例如，闪存装置)中，或在一个或多个广播或闭路电视网络上或在如互联网的计算机网络之上显示这类数据文件。存储在一个或多个数据存储体中的数据文件可打印到纸上，呈现在一个或多个计算机显示器上，或经受一个或多个分析，诸如以识别所述数据文件中所表达的物品。

如果反射光在装置的视野内，那么反射光可由成像装置捕获或检测到，所述视野是依据装置内的传感器与透镜之间的距离以及装置的位置和装置的透镜的角定向来定义的。相应地，在物体出现在视野深度内或视野内的某个距离内(在这个距离处，清晰度和聚焦足够尖锐)的情况下，成像装置可使用其一个或多个传感器在足够高的分辨率程度上捕获从任何种类的物体反射的光，并且将关于反射光的信息存储在一个或多个数据文件中。

许多成像装置还包括用于修改其相应视野或定向的手动或自动特征。例如，数字相机可被配置在固定的位置，或配置成具有固定的焦距(例如，固定焦距透镜)或角定向。或者，成像装置可包括一个或多个机动化特征，以用于调整成像装置的位置，或用于调整焦距(例如，对成像装置进行变焦)或角定向(例如，滚动角、俯仰角或横摆角)，这种调整是通过造成传感器与透镜之间的距离的变化(例如，光学变焦透镜或数字变焦透镜)或成像装置的位置的变化或定义角定向的角度中的一个或多个的变化。

例如，成像装置可被硬安装到支撑件或支架，所述支撑件或支架维持所述装置相对于一个、两个或三个轴处于固定的配置或角度。然而，或者成像装置可具备一个或多个电动机和/或控制器，以用于手动地或自动地操作所述部件中的一个或多个，或用于重新定向所述装置的轴或方向，即，通过使所述装置摇动或倾斜来重新定向。使成像装置摇动可造成在水平轴内或绕垂直轴的旋转(例如，横摆)，使成像装置倾斜可造成在垂直平面内或绕水平轴的旋转(例如，俯仰)。另外，可使成像装置绕其旋转轴并且在垂直于旋转轴且大致上平行于装置视野的平面内滚动或旋转。

此外，一些现代成像装置可数字地或电子地调整在视野中识别的图像，这受到一个或多个物理约束和操作约束。例如，数字相机可虚拟地伸展或压缩图像的像素以便集中或扩宽数字相机的视野，并且还使图像的一个或多个部分在视野内平移。具有可光学调整的焦距或定向轴的成像装置通常被称为摇动-倾斜-变焦(或“PTZ”)成像装置，而具有可数字或电子调整的变焦或平移特征的成像装置通常被称为电子PTZ(或“ePTZ”)成像装置。

关于在数字图像中表达的特征或物体的信息和/或数据(包括所述特征或物体的颜色、纹理或轮廓)可以任何数量的方式从所述图像提取。例如，可根据一个或多个标准来确定或量化数字图像中的像素的颜色或像素组的颜色，所述标准例如：RGB(“红色-绿色-蓝色”)颜色模型，其中像素中红色、绿色或蓝色的各部分是以三个对应的数字来表达，所述数字的值在0至255的范围内；或十六进制模型，其中像素的颜色是以六个字符的代码来表达，其中所述字符中的每一个的范围可以是十六。此外，可使用一种或多种基于计算机的方法，诸如通过识别在图像的区或扇区内的强度变化，或通过定义对应于特定表面的图像区域，来识别在数字图像中表达的物体的纹理或特征。此外，可使用一个或多个算法或机器学习工具来识别在数字图像中表达的物体或特征的轮廓。一些这类算法或工具可辨识数字图像中的物体或特征的边缘、外形或轮廓，或辨识数字图像中的物体或特征的各部分的边缘、外形或轮廓，并且可使物体或特征的边缘、外形或轮廓与关于已知物体或特征的边缘、外形或轮廓的信息相匹配，所述信息可存储在一个或多个数据存储体中。

本公开的系统和方法是针对：基于由成像装置捕获的图像或成像数据辨识一个或多个视觉提示、使这类提示与一个或多个任务相关联、识别与这类任务相关联的一个或多个动作，以及提供用于进行这类动作的指令。此外，所述系统和方法还可识别与视觉提示或这类视觉提示的图案相关联的情境，以便基于视觉提示或图案识别最适当的任务并且确定与这种任务有关的最适当的动作。可基于以下各项的一个或多个属性来识别情境：视觉提示、与视觉提示相关联的物体，或提供所述物体或所述视觉提示的环境。

此外，可使用成像装置确认任务的进行或与任务有关的一个或多个动作的进行。在这方面，自动化系统或单元可被视觉编程来通过在成像装置的视野内提供一个或多个视觉提示(例如，单独地或相互组合地)来进行任务。视觉提示可因此与成像装置相结合来充当编程界面，以用于向自动化系统或单元提供指令。

根据本公开，视觉提示是至少一个标志或符号，所述标志或符号容易由成像装置观察和解读，并且所述标志或符号在给定情境中传达独特且特别的消息。例如，视觉提示可包括任何类型或形式的一个或多个字母、数字或符号，包括但不限于标牌上的印刷标志、一组这类标志或标牌、电子显示板，或甚至是在给定情境中自然出现的独特可识别的图案。可从一个或多个视觉提示识别视觉图案。

这类提示的视觉图案内的视觉提示中的每一个可具有独立的含义。例如，在履行中心环境中，第一视觉提示(例如，包括温度计的图像的图标，所述温度计在其球上带有结冰水)可指示物体处于冷藏状态，而第二视觉提示(例如，包括破碎的香槟酒杯的图像的图标)可指示物体是易碎的，并且第三视觉提示(例如，包括向上指的箭头的图标)可指示物体必须在特定面垂直向上对准的情况下存储。因此，带有所述视觉提示中的任一个的物体可能要求进行与特定视觉提示一致的任务或动作，例如，带有第一视觉提示的物体必须被冷藏，而带有第二视觉提示的物体必须被轻轻地搬运，并且带有第三视觉提示的物体必须以特定方式运送以使得特定面垂直向上指。然而，在物体带有所述视觉提示中的两个或更多个的情况下，物体可能要求进行与这类视觉提示相关联的任务或动作中的每一个。例如，带有第一视觉提示和第二视觉提示的物体必须被冷藏并且轻轻地搬运，而带有第二视觉提示和第三视觉提示的物体必须被轻轻地搬运并且被运送以使得特定面垂直向上指。

在这方面，视觉提示或视觉提示的视觉图案可有效地充当用于与自动化机器通信的一行或多行代码。任选地取决于提供视觉提示或这类提示的视觉图案的情境，视觉提示或这类提示的视觉图案可具有离散的含义。在这方面，每个视觉图案可具有不同的含义，不仅基于视觉图案内的单个视觉提示而且基于视觉图案内的这类提示的空间布置以及提供这类提示的次序来定义所述含义。例如，当视觉提示是按某个图案提供以使得所述提示彼此紧密靠近时，一组四个不同的视觉提示可具有第一含义，并且当视觉提示是按某个图案提供以使得所述提示散开时，所述一组四个不同的视觉提示可具有第二含义。类似地，当视觉提示是按多边形布置(例如，正方形或其他矩形)提供时，四个不同的视觉提示可具有第三含义，并且当视觉提示是大致上共线地(例如，在一条线上)提供时，所述四个不同的视觉提示可具有第四含义。

此外，视觉图案还可包括按某个次序或顺序出现的任何数量的视觉提示。例如，可基于在第一时间出现的特定视觉提示、然后是在第二时间出现的另一个视觉提示和在第三时间出现的又一个视觉提示来定义视觉图案。因此，基于这类视觉提示出现的时间和视觉提示在视觉上存在的持续时间，可由同一组视觉提示定义多个视觉图案。在这方面，视觉提示或视觉提示的视觉图案可以类似于摩斯码的方式操作，以使得不仅视觉提示本身而且用来提供这类视觉提示的定时、位置和空间布置可构成可根据本文公开的系统和方法中的一个或多个来识别并解释的单独考量因素。

相比用于将自动化机器编程来进行一个或多个任务的现有技术系统，本公开的系统和方法提供了许多优点。例如，许多现有技术系统不能将用户交互并入到编程过程中，并且不能向用户提供关于自动进行所述任务的监督或反馈。此外，这类系统通常基于试探法或预先指定的规则，并且在实现用于自动进行任务的程序时从未努力确定编程器的意图。

因此，可在任何数量的操作应用中利用本公开的系统和方法，在所述应用中需要机器自动进行任务。可在任何类型或形式的表面上提供视觉提示，所述表面可大致上垂直地、水平地或以任何其他角度对准。作为一个实例，在履行中心或类似设施利用机器或自主移动机器人来执行某些过程(例如，将托盘或包裹中的一个或多个物品移动到存储区域或分配站)的情况下，可提供本文公开的系统和方法来使这类机器或机器人能够开始、操纵或终止这类过程。根据本公开，在辨识并识别一个或多个图像或一组或多组成像数据中的视觉提示后，并且在使视觉提示与一个或多个过程相关联之后，可开始过程。然而，在进行所述过程中的一个或多个期间，人可能干预并且在成像装置的视野内呈现视觉提示或视觉图案，所述成像装置可辨识所述视觉提示或视觉图案并且更改或结束所述过程中的一个或多个。

另外，基于对一个或多个视觉提示的辨识，可串行地或并行地连结多个过程的进行。例如，在辨识视觉提示后由自动化机器进行用于实现对环境的变化的第一任务的情况下，所述自动化机器可被配置来基于视觉提示或视觉提示的视觉图案的存在或不存在来确定在完成第一任务后所述环境中的条件。如果在进行第一任务之后所述环境处于预期条件，那么自动化机器可被配置来立即开始进行第二任务。然而，如果在进行第一任务之后所述环境并不处于预期条件，那么自动化机器可被配置来立即开始进行第三任务。

此外，本公开的系统和方法可被配置来利用在天然的或已经存在的配置或状态中提供的视觉提示或视觉图案，并且不需要基于人为地或有意地提供的视觉提示或视觉图案来操作，所述配置或状态涉及工作环境中的物体、人类示意动作和/或标示。例如，履行中心或类似设施内的物体、示意动作或标志的任何指定配置或状态可被识别为并且被用作用于开始进行任务或与所述任务相关联的一个或多个动作的视觉提示或视觉图案。本文公开的系统和方法因此可被配置来辨识被接收、存储或准备好送货的物品以及被人类工人有意地放在成像装置的视野内(这可以导致信号被提供到监督员或其他指定的人员)的物体的状态或条件。

因此，本公开的系统和方法可通过单个视觉部件(例如，成像装置和/或相关联的计算装置)的交互式组成来实现自动化系统或单元的创建和操作，所述视觉部件可在图像或成像数据内识别并辨识一个或多个视觉提示或所述视觉提示的视觉图案，使这类视觉提示或视觉图案与任务相关联，识别进行任务所需要的动作，并且向一个或多个自动化机器提供用于进行所述动作中的一个或多个的指令。还可使用呈视觉提示或这类提示的视觉图案的形式的直观视觉指令来指定、修改或控制这类动作的进行，而不需要手动编程一个或多个自动化控制器。

参考图2A和图2B，展示了用于基于视觉提示进行自动化任务的一个系统200的部件的框图。系统200包括跨网络270(诸如互联网)彼此连接的商城210、供应商220、履行中心230和顾客260。

商城210可以是希望使来自多种来源的物品可供顾客使用联网的计算机基础设施来下载、购买、租用、出租或借用的任何实体或个人，商城210包括用于托管网络站点216的一个或多个物理计算机服务器212和数据存储体(例如，数据库)214。商城210可物理地或虚拟地与一个或多个存储或分配设施(诸如履行中心230)相关联。可使用一个或多个服务器212来实现网络站点216，所述服务器212通过发送并接收数字数据来与一个或多个数据存储体214以及网络270连接或以其他方式通信，如线条218所指示。此外，数据存储体214可包含任何类型的信息，所述信息是关于已经可供通过商城210销售或由顾客从商城210订购的物品。

供应商220可以是希望使一个或多个物品可供顾客(诸如顾客260)通过商城210获得的任何实体或个人。供应商220可使用计算装置(诸如便携式计算机222)和/或软件应用程序(诸如浏览器224)来操作一个或多个订单操作和/或通信系统，所述订单处理和/或通信系统可通过一个或多个计算机器来实现，所述计算机器可连接到网络270，如线条228所指示，以便以数字或模拟数据的形式发射或接收关于将要在商城210处可供获得的一个或多个物品的信息，或用于任何其他目的。

供应商220可例如通过卡车250将一个或多个物品送到由商城210维护的或为了商城210而维护的一个或多个指定的设施，诸如履行中心230。另外，供应商220可从其他供应商、制造商或卖家(未展示)接收一个或多个物品，并且可将这类物品中的一个或多个送到商城210所指定的位置，诸如履行中心230，以便履行并分配到顾客。此外，供应商220可进行多个功能。例如，供应商220也可以是一个或多个其他物品制造商和/或卖家，并且可在除了商城210以外的场地(未展示)提供物品以供顾客购买。另外，在商城210处可供获得的或由顾客从商城210订购的物品可由除了供应商220以外的一个或多个第三方来源制造或从所述第三方来源获得，或者从任何其他来源(未展示)获得。此外，商城210本身可以是供应商、卖家或制造商。

履行中心230可以是适于接收、存储、处理和/或分配物品的任何设施。如图2A和图2B所示，履行中心230包括用于进行与这类物品的接收、存储、处理和分配相关联的各种计算机相关功能的联网的计算机基础设施，所述计算机基础设施包括一个或多个物理计算机服务器232、数据库(或其他数据存储体)234和处理器236。履行中心230还可包括用于接收、存储物品和将物品分配物到顾客或其他目的地的站，诸如一个或多个接收站231、存储区域233和分配站235。履行中心230还包括至少一个成像装置240。

履行中心230还可使用与服务器232、数据库234和/或处理器236中的一个或多个通信的计算机装置或通过一个或多个其他计算装置或机器来操作一个或多个订单处理和/或通信系统，所述其他计算装置或机器可连接到网络270，如线条238所指示，以便以数字或模拟数据的形式发射或接收信息，或用于任何其他目的。这类计算机装置还可操作一个或多个报告系统或提供对所述报告系统的访问以便接收或显示关于工作流程操作的信息或数据，并且可提供一个或多个界面以便响应于这种信息或数据从一个或多个操作者、用户或工人接收交互(例如，文字、数字条目或选择)。这类计算机装置可以是通用装置或机器，或者是以任何形式的输入和/或输出外围设备(诸如扫描器、阅读器、键盘、小键盘、触摸屏或类似装置)为特征的专用装置或机器，并且还可操作一个或多个引擎或提供对所述引擎的访问以便分析关于工作流程操作的信息或数据或者从一个或多个操作者、用户或工人接收的交互。

履行中心230内的联网的基础设施的各种部件可被细分或分割，或者包括一个或多个模块，例如硬件部件或软件应用程序，所述模块的目的是执行或提供本文描述的一个或多个功能或服务，或用来实现一组特定的结果。如图2B所示，服务器232可包括或操作其上的一个或多个模块，所述模块包括但不限于视觉图案辨识模块232A、意图/内容解释模块232B、任务调度/执行模块232C或控制器编程器模块232D。视觉图案辨识模块232A可被配置来基于使用成像装置240所捕获的成像数据实时地或几乎实时地辨识视觉提示或视觉提示的图案。意图/内容解释模块232B可被配置来辨识并解释与视觉提示或视觉提示的图案相关联的意图，或基于以下各项的一个或多个属性来识别视觉提示或视觉提示的图案的情境：视觉提示或视觉提示的图案，或提供视觉提示或视觉提示的图案的环境。任务调度/执行模块232C可被配置来识别与视觉提示或其图案相关联的任务，并且识别或调度用于完成所述任务的一个或多个动作。控制器编程器模块232D可生成用于发射指令并进行任务或执行动作的执行程序。

除了视觉图案辨识模块232A、意图/内容解释模块232B、任务调度/执行模块232C和/或控制器编程器模块232D，服务器232还可包括用于为其任何数量的其他模块，所述其他模块用于为其提供根据本公开的一个或多个功能或服务。

数据存储体234可包括其一个或多个区段或分区，所述区段或分区用于存储关于基于视觉提示进行自动化任务的信息或数据。如图2B还展示，数据存储体234包括视觉图案数据库234A、语义数据库234B和任务数据库234C。视觉图案数据库234A包括可能在系统200的操作期间遇到的视觉提示和/或视觉图案的可能组合的虚拟词汇。例如，视觉图案数据库234A可加载有关于视觉提示或这类提示的组合以及视觉图案的信息。或者，视觉图案数据库234A可利用关于在操作期间观察到的视觉提示或视觉图案的信息或数据来扩充。

语义数据库234B包括关于各种视觉提示或这类提示的视觉图案与提供这类提示或图案的情境之间的相互依赖和关系的信息或数据。例如，语义数据库234B可被训练来根据一种或多种监督式或非监督式学习方法(例如，图案分类法、回归法、聚类分析法)来辨识视觉提示或视觉图案与情境之间的关联，或情境与任务或关联于所述任务的一个或多个动作之间的关联，所述学习方法可考虑视觉提示或环境的任何属性，在所述环境中提供这类视觉提示来作为输入。任务数据库234C包括：关于可能与视觉提示或其视觉图案相关联的任务的信息或数据，以及关于执行这类任务或其组成动作的次序或优先级的信息或数据。例如，任务数据库234C还可加载有关于任务或与这类任务相关联的动作的信息，或利用关于在操作期间观察到的这类任务或动作的另外信息或数据来扩充。

履行中心230还可包括一个或多个接收站231。接收站231可包括从一个或多个来源和/或通过一个或多个通道接收物品的装运并且将这类物品准备好存储或分配到顾客所需要的任何设备。这类设备包括但不限于用于从运输工具获得物品和/或物品的装运的装卸平台、升降机、起重机、千斤顶、皮带或其他输送设备，输送运输工具诸如汽车、卡车、拖车、货车、集装箱船或货运飞机(例如，有人驾驶或无人驾驶的飞机，诸如无人机)。

履行中心230处的存储区域233可包括用于容纳物品和/或这类物品的容器的一个或多个预定义的二维或三维空间，诸如架子、箱子、柜子、小房间或任何其他适当的区域或空间。履行中心230处的分配站235可包括一个或多个区域、空间或站，在所述区域、空间或站处可对已经从指定存储区域取回的物品进行评估、准备和打包以便送到由顾客指定的地址、位置或目的地。

履行中心230还可包括在履行中心230内搬运或运送物品(未展示)的一个或多个工人或职员，例如分拣员或分类员。例如，这类工人可从物品运输工具移除物品，将物品放到接收站231处的起重机、千斤顶、皮带或另一个输送设备上；将物品运送到存储区域233内的架子、箱子、机架、层、杆、挂钩或其他存储装置；从存储区域233内的这种存储装置取回物品；将物品运送到分配站235内的已定义空间；将物品准备好送到一个或多个顾客；并且将物品放到物品运输工具上。根据一个实施方案，工人还可将物品直接从接收站231运送或“交叉转运”到分配站235。

此外，工人还可操作一个或多个计算装置以便登记物品在履行中心内的接收、取回、运送或存储，所述装置诸如：被特定编程用于这类目的或适于这类目的的装置，或诸如个人数字助理、数字媒体播放器、智能手机、平板计算机或便携式计算机的通用装置，并且所述装置可包括任何形式的输入和/或输出外围设备，诸如扫描器、阅读器、键盘、小键盘、触摸屏或指针装置。履行中心230内的工人还可在任何时间登记他们对物品的持有，所述时间包括在从存储区域233内的架子或其他存储装置获得物品之后，将物品放到一个或多个容器中以便运送到分配站235之后，从分配站235处的一个或多个容器取回物品之后，或将物品放到一个或多个物品运输工具上之后。

成像装置240可以是任何形式的光学记录装置，所述光学记录装置可用来拍摄或以其他方式记录履行中心230内的结构、设施或其他元件以及履行中心230内的物品的图像，或用于任何其他目的。这类成像装置240可在履行中心230内的一个或多个指定位置内捕获一个或多个静态图像或移动图像，以及任何相关的音频信号或其他信息，并且可通过内部网络(未展示)连接到服务器232或彼此连接。另外，成像装置240可适于或以其他方式被配置来彼此通信，或与商城210或商城服务器212、供应商220或供应商便携式计算机222或顾客260或顾客智能手机262通信，或通过网络270访问一个或多个其他计算机装置。尽管图2A和图2B的履行中心230包括对应于一个成像装置240的单个方框，但是根据本公开可提供任何数量或类型的成像装置，包括但不限于数字相机或其他光学传感器。

顾客260可以是希望从商城210下载、购买、租用、出租、借用或以其他方式获得物品(例如，任何类型或形式的商品、产品、服务或信息)的任何实体或个人。顾客260可利用诸如智能手机262或任何其他类似机器的一个或多个计算装置，所述计算装置可操作或访问诸如网络浏览器(未展示)或购物应用程序264的一个或多个软件应用程序并且可通过网络270连接到商城210、供应商220或履行中心230或以其他方式通过发射并接收数字数据来与商城210、供应商220或履行中心230通信，如线条268所指示。此外，顾客260还可从由商城210维护的或为了商城210而维护的设施(诸如履行中心230)或从供应商220接收一个或多个物品的送货或装运。

本文描述的计算机、服务器、装置等具有必需的电子设备、软件、存储器、存储体、数据库、固件、逻辑/状态机、微处理器、通信链路、显示器或其他视觉或音频用户界面、打印装置和任何其他输入/输入界面，以提供本文描述的功能或服务中的任一个且/或实现本文描述的结果。此外，相关领域的一般技术人员将认识到，这类计算机、服务器、装置等的用户可操作键盘、小键盘、鼠标、触笔、触摸屏或其他装置(未展示)或方法来与所述计算机、服务器、装置等交互或“选择”物品、链路、节点、集线器或本公开的任何其他方面。

相关领域的一般技术人员将理解，本文中描述为由“商城”、“供应商”、“履行中心”、“成像装置”或“顾客”或类似术语进行的过程步骤可以是由其相应计算机系统进行的或在由一个或多个通用计算机执行的软件模块(或计算机程序)内实现的自动化步骤。此外，本文中描述为由“商城”、“供应商”、“履行中心”、“成像装置”或“顾客”进行的过程步骤通常可由人类操作者进行，但是可能可选地由自动化代理进行。

商城210、供应商220、履行中心230和/或顾客260可使用任何具备网络功能的应用程序或特征或者互联网应用程序或特征、或者包括电子邮件或其他发消息技术的任何其他客户端-服务器应用程序或特征，以连接到网络270或彼此通信，诸如通过SMS或MMS文字消息彼此通信。例如，服务器232可适于经由网络270实时地或几乎实时地、或在一个或多个离线过程中将呈同步或不同步消息的形式的信息或数据从履行中心230发射到便携式计算机222、服务器212、智能手机262或任何其他计算机装置。相关领域的一般技术人员将认识到，商城210、供应商220、履行中心230或顾客260可操作能够在网络之上通信的许多计算装置中的任一个，所述计算装置包括但不限于机顶盒、个人数字助理、数字媒体播放器、联网板、便携式计算机、台式计算机、电子书阅读器等。用于在这类装置之间提供通信的协议和部件是计算机通信领域的技术人员所熟知的并且本文中不需要更详细地加以描述。

本文描述的数据和/或计算机可执行指令、程序、固件、软件等(本文中也称为“计算机可执行”部件)可存储在位于计算机或计算机部件内或可由计算机或计算机部件访问的计算机可读介质上，所述计算机或计算机部件诸如：服务器212、便携式计算机222、服务器232或智能手机262，或由商城210、供应商220、履行中心230或顾客260利用并且具有指令序列的任何其他计算机或控制系统，所述指令序列在由处理器(例如，中央处理单元或“CPU”)执行时指示所述处理器进行本文描述的功能、服务和/或方法的全部或一部分。可使用与计算机可读介质相关联的驱动机构(诸如软盘驱动器、CD-ROM驱动器、DVD-ROM驱动器、网络接口或类似机构)或经由外部连接将这类计算机可执行指令、程序、软件等加载到一个或多个计算机的存储器中。

本公开的系统和方法的一些实施方案还可被提供为包括非暂时性机器可读存储介质的计算机可执行程序产品，所述非暂时性机器可读存储介质上存储有指令(以压缩形式或未压缩形式)，所述指令可用来将计算机(或其他电子装置)编程以进行本文描述的过程或方法。机器可读存储介质可包括但不限于硬盘驱动器、软盘、光盘、CD-ROM、DVD、ROM、RAM、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪存、磁性卡或光学卡、固态存储器装置，或可能适合于存储电子指令的其他类型的介质/机器可读介质。此外，实施方案还可被提供为包括暂时性机器可读信号(以压缩形式或未压缩形式)的计算机可执行程序产品。机器可读信号(无论是否使用载波加以调制)的实例可包括但不限于托管或运行计算机程序的计算机系统或机器可被配置来访问的信号，或包括可通过互联网或其他网络来下载的信号。

尽管本文公开的实施方案中的一些提到了在履行中心环境内提供视觉提示或视觉图案，以及辨识这类视觉提示或视觉图案、识别与这类视觉提示或图案相关联的至少一个任务、或提供用于在履行中心环境内执行与所述至少一个任务有关的动作的指令，但是系统和方法不限于此。相反，可在需要基于通过视觉提示或视觉图案的视觉编程进行系统的自动化操作的任何环境中利用本文公开的系统和方法。

参考图3，展示了表示根据本公开的实施方案的用于基于视觉提示进行自动化任务的过程的一个实施方案的流程图300。在方框310处，成像装置捕获视觉提示的图案的图像。例如，视觉提示可包括以任何颜色或任何尺寸布置在物体、结构或机器的至少一个表面上的一个或多个字母、数字、符号、图标、标识或其他类似的标签或标记，以及在提供成像装置的环境内可能预期会遇到的形状的边缘、外形或轮廓。在方框320处，成像装置将图像发射到一个或多个外部服务器。

在方框330处，外部服务器在视觉图案数据库内辨识在方框310处捕获的图像中所包括的视觉提示的图案。例如，与外部服务器通信的数据库或其他数据存储体(例如，图2B的服务器232和视觉图案数据库234A)可包含用于识别视觉提示或这类提示的图案的信息或数据，所述视觉提示包括但不限于一个或多个字母、数字、符号、图标、标识或其他类似的标签或标记，以及多个形状的边缘、外形或轮廓。在方框340处，外部服务器使所述图案与存储在任务数据库中的关于任务的信息相关联。例如，与外部服务器通信的数据库或其他数据存储体(例如，图2B的服务器232和任务数据库234C)可包含与任务有关的动作、步骤、断定条件或任何相关信息或数据，在方框330处辨识的图案可能与所述任务相关联。

在方框350处，外部服务器识别将要对提供视觉提示或视觉图案的环境采取的动作，并且在方框360处，外部服务器生成用于进行在方框350处识别的动作的指令。例如，所述动作可包括特定的机器或一件装备的操作，所述操作的目的是要求在环境内的变化，例如，使用图1A的转向器146A将物品10A从第一输送机131A转移到手推车150A中。在方框370处，外部服务器将用于对环境进行所述动作的指令发射到至少一个相关部件，并且过程结束。例如，再次参考图1A，服务器132A可将至少一个指令发射到转向器146A，从而致使转向器146A在第一输送机131A上的物品10A到达时将物品10A引导到手推车150A中。

根据本公开可被辨识并与一个或多个任务相关联的视觉提示可采取任何形状或形式，并且可包括任何数量的字母、数字、符号、图标、标识或其他类似的标签或标记，以及多个形状的边缘、外形或轮廓(单独地或相互组合地)。例如，可出于特定目的人为地或有意地定义和/或提供视觉提示，例如物体、结构或机器或结构上的图标的临时或永久标记。一旦本公开的系统和方法在图像或成像数据中辨识了预定义的视觉提示或这类提示的视觉图案，就可使所述视觉提示或视觉图案与给定任务相关联，并且可采取与所述任务相关联的一个或多个动作。或者，本公开的系统和方法可被配置来辨识例如在根据工业或商业过程正常操作期间自然地出现的一个或多个视觉提示，并且相应地采取与相关联的任务有关的一个或多个动作。

参考图4，展示了根据本公开的实施方案的用于基于视觉提示进行自动化任务的一个系统400的部件。除非另外指出，否则图4所示的前面有数字“4”的参考数字所指示的部件或特征类似于具有图2A或图2B所示的前面是数字“2”或者图1A或图1B所示的前面是数字“1”的参考数字的部件或特征。

系统400包括第一输送机431、服务器432和成像装置440。在输送机431上提供其中包括一个或多个物品的盒子40或其他容器。如图4所示，盒子40是打开的，并且轮廓42由打开的盒子40的翻盖形成，所述轮廓42包括四个轴向对准的矩形，这四个轴向对准的矩形彼此共用共同的角点。服务器432与成像装置440通信，所述成像装置440被配置来在这类物体沿着输送机431行进时捕获物体(例如，物体40)的一个或多个图像或一组或多组成像数据。

如图4所示，成像装置440可捕获盒子40和其中物品的图像442，例如低分辨率图像，并且将图像442发射到服务器432以便分析。图像442可包括轮廓42的至少一部分，所示轮廓42由打开的盒子40的翻盖形成。服务器432可处理图像442，辨识其中的轮廓42，并且将轮廓42与可能存储在数据存储体434中的关于一个或多个任务的信息或数据相比较。基于图像442，服务器可使轮廓42与任务44(也就是，当基于所述轮廓将盒子识别为打开的时要求捕获高分辨率图像)相关联，服务器432向成像装置440发射指令以捕获盒子40和其中物品的高分辨率图像。成像装置440随后捕获打开的盒子40的图像444并且将图像444发射到服务器432以便分析。

相应地，辨识可能人为地或有意地出现或根据一个或多个过程或环境自然地出现的视觉提示或视觉提示的图案可能导致根据本公开进行一个或多个任务或与所述任务相关联的动作。

如上文所讨论，一旦已辨识了视觉提示或视觉提示的视觉图案，本公开的系统和方法就可确定已提供或识别所述视觉提示或视觉图案的情境，并且可基于所述情境来识别任务或与所述任务相关联的一个或多个动作。在这方面，机器可被配置来在辨识了可在不同情境中提供的同一视觉提示或视觉图案(例如，字母、数字或符号，或这类字母、数字或符号的组合)时进行一个或多个不同的任务。

参考图5，展示了表示根据本公开的实施方案的用于基于视觉提示进行自动化任务的过程的一个实施方案的流程图500。在方框510处，捕获视觉提示(一个或多个字母、数字、符号、图标、标识或其他类似的标签或标记，以及多个形状的边缘、外形或轮廓)的图像，并且在方框520处，评估所述图像来辨识其中的视觉提示。如上文所讨论，所述视觉提示可单独地提供或与一个或多个其他视觉提示组合地提供，并且可出于触发给定动作或任务的目的人为地或有意地出现，或在给定环境中自然地出现。

在方框530处，识别与视觉提示相关联的情境。可至少部分地基于视觉提示的属性或视觉图案的属性来识别情境，所述视觉提示是所述视觉图案的一部分。另外，可至少部分地基于视觉提示所关联的物体的属性、提供视觉提示和/或物体的环境的属性或这类属性的组合来识别情境。例如，在成像装置或一个或多个类似部件或相关装置被提供在交通路口处的情况下，视觉提示可能与行人或车辆操作者的安全和健康相关联。在成像装置或其他部件被提供在购物中心的情况下，视觉提示可能与商品的购买和销售相关联。相关领域的一般技术人员将认识到，可在需要辨识视觉提示或这类提示的视觉图案的任何情境中提供本文公开的系统和方法，并且所述系统和方法不限于本文描述或建议的特定情境中的任一个。

在方框540处，基于视觉提示和其情境来识别任务。可使任何给定的视觉提示或这类提示的视觉图案与多个任务或关联于所述任务的动作相关联。例如，在交通路口处识别了三角形的情况下，可使所述三角形与“让路”标志相关联，并且可识别与在交通路口处的让路标志或让路责任有关的任务。在酒吧或演艺厅的主顾附近识别了三角形的情况下，可使所述三角形与框住台球的撞球三角形框相关联，并且可识别与开始撞球游戏或台球游戏相关联的任务。

在方框550处，可识别与进行在方框540处所识别的任务相关联的一个或多个动作。例如，在已经在车库中获取的图像中辨识了包括国际准入符号(例如“残疾人”符号)的视觉提示的情况下，并且在停车执法的情境中，可识别确定在带有所述国际准入符号的停车位内停放的汽车是否被授权停放在那里的任务。与这种确定相关联的动作可包括但不限于：捕获停放的汽车的照片、记录停放的汽车上的车牌号或其他识别符、评估车牌号或其他识别符以及其他类似的动作。在相同的国际准入符号被提供在电梯的图像中的情况下，并且在设施维护的情境中，确定是否要求对电梯进行任何维护的任务，并且与这种确定相关联的动作可包括但不限于：访问电梯的操作历史、确定电梯的灯或其他电子部件的传导性和可操作性以及液压机流体的任何液位，以及调度维护操作来解决可被识别的任何缺陷。

在方框560处，可例如向一个或多个计算机装置或与这类计算机装置相关联的机器提供用于执行动作的指令，所述动作是用于进行在方框550处所识别的任务，并且过程结束。

因此，根据本公开，辨识相同的视觉提示或这类提示的视觉图案可能导致自动化进行与不同任务相关联的不同动作。可参考图6A和图6B展示本公开的系统和方法的以下能力的一个实例：辨识相同的视觉提示或其视觉图案的能力，以及使视觉提示或视觉图案与不同任务相关联的能力。参考图6A和图6B，展示了根据本公开的实施方案的用于基于视觉提示进行自动化任务的系统600A、600B的部件的视图。除非另外指出，否则图6A或图6B所示的前面有数字“6”的参考数字所指示的部件或特征类似于具有图4所示的前面是数字“4”、图2A或图2B所示的前面是数字“2”或者图1A或图1B所示的前面是数字“1”的参考数字的部件或特征。

如图6A所示，系统600A包括物体60A(也就是装有鱼的箱子)、具有成像装置640的智能手机652以及手机架633A。物体60A包括呈其中所装的鱼的识别符的形式的视觉提示62A，也就是标记在其上的“BASS”。当智能手机652的用户捕获了包括视觉提示62A的物体60A的图像642A时，本公开的系统和方法可识别提供视觉提示62A的情境(例如，在装有鱼的箱子的表面上)，并且可识别与情境和视觉提示62A两者相关联的任务(例如，用于烹制箱子中所包括的鱼的食谱)。如图6A还展示，在定位在手机架633A上的智能手机652上显示用户界面644A，所述用户界面644A带有用于烹制香煎海鲈鱼的食谱，这是一个与视觉提示62A和提供视觉提示62A的情境有关的食谱。

如图6B所示，系统600B包括物体60B(也就是吉他盒)、智能手机652以及乐谱架633B。物体60B包括呈其中所装的吉他类型的识别符的形式的视觉提示62B，也就是标记在其上的“BASS”。当智能手机652的用户捕获了包括视觉提示62B的物体60B的图像642B时，本公开的系统和方法可识别提供视觉提示62B的情境(例如，与乐器相关联)，并且可识别与情境和视觉提示62B两者相关联的任务(例如，将要使用吉他盒中所包括的乐器演奏的乐谱)。如图6B还展示，在定位在乐谱架633B上的智能手机652上显示用户界面644B，所述用户界面644B带有将要使用贝斯吉他演奏的音乐，所述音乐与视觉提示62B和提供视觉提示62B的情境有关。

因此，根据本公开，并且如6A和图6B所示，相同的视觉提示62A、62B(也就是词语“BASS”)可在不同情境中被提供在不同物体60A、60B上，并且可使用相同的计算机装置(也就是智能手机652)加以辨识。一旦已经在每个这种情境中辨识了视觉提示62A、62B，就可使视觉提示62A、62B与任务相关联，所述任务与视觉提示62A、62B和相应情境两者有关，并且可采取与这类任务有关的动作。尽管6A和图6B展示了在辨识词语后在智能手机652上的用户界面644A、644B上显示所呈现内容，但是相关领域的一般技术人员将认识到，根据本公开在辨识任何类型或形式的视觉提示后可由任何类型的装置采取自动化任务，而不限于联网内容的自动化显示。

如上文所讨论，本公开的系统和方法是针对：从使用诸如数字相机的成像装置捕获的图像或成像数据识别并辨识视觉提示或这类提示的视觉图案，以及基于所述视觉提示来识别一个或多个任务或与这类任务相关联的动作，和相应地导致这类任务的进行或这类动作的执行。另外，本公开的系统和方法还可针对例如使用另外的图像或成像数据来确认任务的进行或一个或多个单个动作的执行，所述另外的图像或成像数据是使用用来识别视觉提示或视觉图案的成像装置或另一个成像装置所捕获的。

参考图7，展示了表示根据本公开的实施方案的用于基于视觉提示进行自动化任务的过程的一个实施方案的流程图700。在方框710处，使用成像装置从环境捕获成像数据。环境可包括但不限于可出于辨识视觉提示或这类提示的视觉图案的目的在其中部署成像装置的任何工业或商业环境。例如，再次参考图1A，成像装置140A可在物品10A沿着第一输送机131A行进时捕获一个或多个图像或关于物品10A的其他数据。在方框720处，基于成像数据在环境内识别视觉提示。视觉提示可出于给定目的人为地或有意地提供，或可自然地出现在环境内。例如，视觉提示可由人类操作者有意地提供，例如，呈现在成像装置的视野内或贴附到物体的表面，或者可被自动地辨识为物体的表面的全部或一部分。另外，视觉提示可在无需人类操作者采取任何蓄意动作的情况下自然地存在于环境内，例如，图4的盒子40的轮廓42。

在方框730处，基于所识别视觉提示来选择将要进行的用于使环境处于所需条件的动作。所选择动作可针对使用一个或多个自动化机器导致环境的任何方面的变化。在方框740处，基于在方框710处捕获的成像数据确定环境的进行前条件。例如，在动作意图将物品存放到预定存储器皿或设施中的情况下，可确定物品的条件(例如物品的位置)或存储器皿或设施的条件(例如所述器皿或设施的容量)。在方框750处，向自动化机器发射用于对环境进行所选择动作的指令，所述自动化机器可以是或可包括任何形式的汽车、部件、发动机、电动机、车辆或类似的机器或一件装备，所述装备连接到联网计算机或具有与其相关联的自动化控制器，所述自动化控制器被配置来接收用于进行一个或多个任务的指令。

在方框760处，使用成像装置捕获与环境有关的成像数据，并且在方框770处，基于成像数据确定环境的进行后条件。例如，在成像装置捕获了用来确定在进行所选择动作之前环境的条件的成像数据的情况下，成像装置可捕获关于在进行所选择动作之后环境的条件的成像数据。

在方框780处，确定环境的进行后条件是否与在进行所选择动作之后环境的所需条件一致。通过将在进行所选择动作之后环境的条件与所需条件相比较，可确定所选择动作在实现预期结果方面的效力。如果环境的进行后条件与所需条件不一致，那么过程返回到方框730，在方框730中基于所识别视觉提示来选择将要进行的用于使环境处于所需条件的动作。然而，如果环境的进行后条件与所需条件一致，那么过程结束。

因此，图像和成像数据不仅可用来基于在图像或成像数据中表达的视觉提示识别将要进行的任务，而且可用来确认所述任务和任何相关联的动作已经成功进行。参考图8A和图8B，展示了根据本公开的实施方案的用于基于视觉提示进行自动化任务的一个系统800A的部件以及由系统800A捕获的图像800B。除非另外指出，否则图8A或图8B所示的前面有数字“8”的参考数字所指示的部件或特征类似于具有图6A或图6B所示的前面是数字“6”、图4所示的前面是数字“4”、图2A或图2B所示的前面是数字“2”或者图1A或图1B所示的前面是数字“1”的参考数字的部件或特征。

如图8A所示，系统800A包括具有存储设施833的履行中心830、桌子或工作表面835，以及上面安装有成像装置840的自主移动机器人850。存储设施833在其中包括多个物品80A、80B、80C。图8A的存储设施833中所示的物品80A、80B、80C中的每一个包括标记在其上的视觉提示82A、82B、82C。另外，桌子835还包括标记在其上的视觉提示82D。自主移动机器人850可包括任何类型或形式的计算机部件或装置(未展示)以用于控制所述自主移动机器人或成像装置840的操作，并且如图8A所示，自主移动机器人850被对准以使成像装置840能够捕获关于存储设施833和其内容物的成像数据。

根据本公开，自动化机器(诸如图8A的自主移动机器人850)可被编程来基于对一个或多个视觉提示的辨识进行动作。例如，如图8A所示，自主移动机器人850可被命令从存储设施833取回带有圆圈内的“X”的物品，并且将带有“X”的物品存放在带有圆圈内的心形的工作台。自主移动机器人850可因此使用成像装置840捕获关于所述自主移动机器人850所在环境(也就是存储设施833的正面)的条件的第一图像或第一组成像数据。基于所述图像或成像数据，自主移动机器人850可识别带有圆圈内的“X”的物品(也就是物品80A)在存储设施833内部的位置，以及带有圆圈内的心形的工作台(也就是桌子835)的位置。随后，自主移动机器人850可从存储设施833取回物品80A。

一旦自主移动机器人850已确定它已经从存储设施833取回物品80A，自主移动机器人850就可在转到桌子835之前捕获关于在进行动作之后环境的条件的第二图像或第二组成像数据。如果第二图像或第二组成像数据指示环境的条件与动作的进行一致，那么自主移动机器人850可基于一个或多个视觉提示的存在或不存在来确认动作已经进行，并且可例如转到将所述物品存放在带有圆圈内的心形的工作台(也就是桌子835)处。

参考图8B，展示了一组800B图像842A、842B、842C、842D。如图8B所示，组800B包括图像842A，图像842A对应于其中已确认动作的进行的环境，也就是其中存储设施833包括物品80B和物品80C但是不包括物品80A的环境，从而指示自主移动机器人对动作的进行已导致取回带有视觉提示80A的物品而没有取回带有视觉提示80B或视觉提示80C的物品中的任一个。

如图8B还展示，组800B包括图像842B、842C、842D，所述图像842B、842C、842D对应于其中可能并未确认动作的进行的环境。图像842B指示存储设施833包括视觉提示82A、82B、82C中的每一个，并且分别指示动作的进行并未导致取回物品80A、80B、80C中的每任一个。图像842C指示存储设施833包括视觉提示82A、82C但是不包括视觉提示82B，从而确认动作的进行已导致取回物品80B，但是并未导致取回物品80A。图像842D指示存储设施833包括视觉提示82A、82B但是不包括视觉提示82C，从而确认动作的进行已导致取回物品80C，但是并未导致取回物品80A。

尽管本文描述的实施方案中的一些描述了用于从履行中心的一个或多个方面内的物体捕获图像或成像数据的特定系统或方法，但是本公开的系统和方法不限于此并且可与用于实现本文公开的结果的任何系统和方法一起使用。另外，根据本公开，可串行地或并行地且彼此独立地或彼此相结合地使用这类系统和方法。

如上文所讨论，可利用本文公开的系统和方法在辨识视觉提示或视觉提示的视觉图案后触发并操纵任务。例如，经授权的工人可在成像装置(例如，在安全设施外部提供的监视相机)的视野内呈现经核准或授权的视觉提示或视觉图案，并且在辨识所述经核准或授权的视觉提示或视觉图案后可打开闸门或门。类似地，在零售环境中请求帮助的顾客可直接举起预定的物体或图案(例如，一件可辨识的衣物)，并且本公开的一些实施方案可被配置来辨识所述物体或图案，识别与所辨识物体或图案相关联的合格的销售人员或代理人，并且转到请求帮助的顾客。

另外，可利用本文公开的系统和方法来重新配置工业自动化系统以用于进行一个或多个不同任务。例如，在汽车的车厢完成之后，可将第一视觉提示或第一视觉图案放到正在组装线上组装的汽车的引擎盖上。成像装置可辨识第一视觉提示或第一视觉图案并且命令自动化机器(例如机器人手臂)开始将挡风玻璃安装到车厢上。在挡风玻璃安装完成后，可将第二视觉提示或第二视觉图案放到汽车的引擎盖上，并且在由成像装置辨识第二视觉提示或第二视觉图案后，可请求对挡风玻璃对准进行人工检查、评估或调整。类似地，请求对履行中心内的存储器皿或设施(例如，分隔间、箱子、手推车、托盘或手提袋)的内容物进行审查的工人可将预定的视觉提示或视觉图案放到存储器皿或设施上，并且存储器皿或设施可被转向到或送到预定的目的地，同事可在所述目的地处进行审查。

此外，还可利用本文公开的系统和方法来控制一个或多个自主移动机器人在履行中心或类似设施内进行的任务。例如，自主移动机器人可被命令取回位于履行中心中的第一位置的物品，或将物品送到履行中心中的第二位置。自主移动机器人可将自己带到第一位置或第二位置，辨识贴到履行中心的一个或多个结构特征或元件(包括履行中心内的一个或多个架子、箱子、机架、层、杆、挂钩或其他存储装置，以及墙壁、天花板或地板)上的一个或多个视觉提示或视觉图案，并且基于对视觉提示或视觉图案的辨识来识别并进行任务。

应理解，除非本文另外明确地或隐含地指出，否则关于本文中特定实施方案所描述的特征、特性、替代案或修改中的任一个也可与本文描述的任何其他实施方案一起应用、使用或合并，并且应理解，本公开的附图和详述意图涵盖对所附权利要求书所定义的各种实施方案的全部修改、等效物和替代案。此外，关于本文描述的本公开的一个或多个方法或过程(包括但不限于图3、图5或图7所示的流程图)，呈现这类方法或过程的次序并不意图被理解为对要求保护的发明的任何限制，并且本文描述的任何数量的方法或过程步骤或方框可按任何次序和/或并行地组合，以实现本文描述的方法或过程。此外，本文的附图并不是按比例绘制，特别是本文公开的网络送货系统的各方面或元件在垂直空间和/或水平空间中相对于彼此的相对位置。

除非另外特别陈述或在所使用情境内另外理解，否则条件性语言(诸如“可以”、“可”、“可能会”或“可能”以及其他条件性语言)通常意图以宽容的方式表达某些实施方案可包括或有可能包括但是并不强制要求或要求某些特征、要素和/或步骤。以类似的方式，诸如“包括”(“include”、“including”和“includes”)的术语通常意图指“包括但不限于”。因此，这种条件性语言通常并不意图暗示特征、要素和/或步骤是一个或多个实施方案以任何方式所要求的，或一个或多个实施方案必定包括用于在有或没有用户输入或提示的情况下决定这些特征、要素和/或步骤被包括在任何特定实施方案中或将要在任何特定实施方案中进行的逻辑。

结合本文公开的实施方案所描述的方法、过程或算法的要素可直接体现在硬件中、软件模块中、或这两者的组合中，所述软件模块存储在一个或多个存储器装置中并且由一个或多个处理器执行。软件模块可驻留在RAM、闪存、ROM、EPROM、EEPROM、寄存器、硬盘、可移除磁盘、CD-ROM、DVD-ROM或本领域已知的任何其他形式的一个或多个非暂时性计算机可读存储介质或物理计算机存储体中。示例性存储介质可联接到处理器，以使得处理器可从存储介质读取信息并且向存储介质写入信息。在替代案中，存储介质可与处理器成一体。存储介质可以是易失性的或非易失性的。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代案中，处理器和存储介质可驻留在用户终端中的离散部件中。

除非另外特别陈述，否则转折性语言(诸如短语“X、Y或Z中的至少一个”或“X、Y和Z中的至少一个”)通常在所使用情境的情况下被另外理解为提出物品、术语等可以是X、Y或Z中的任一个或其任何组合(X、Y和/或Z)。因此，这种转折性语言通常并不意图且不应暗示至少一个X、至少一个Y或至少一个Z均存在。

除非另外明确地陈述，否则诸如“一个”(“a”或“an”)的冠词通常应被解释为包括一个或多个所描述物品。因此，诸如“被配置来......的装置”的短语意图包括一个或多个所列举装置。这类一个或多个所列举装置也可被共同地配置来执行所陈述列举项。例如，“被配置来执行列举项A、B和C的处理器”可包括被配置来执行列举项A的第一处理器，所述第一处理器与被配置来与执行列举项B和C的第二处理器相结合地工作。

本文使用的程度语言(诸如，如本文所使用的术语“约”、“大约”“、”“大体”、“几乎”或“大致”)表示仍然进行所需功能或实现所需结果的接近所陈述值、量或特性的值、量或特性。例如，术语“约”、“大约”“、”“大体”、“几乎”或“大致”可指在所陈述量的小于10％内、小于5％内、小于1％内、小于0.1％内和小于0.01％内的量。

尽管已参考本发明的说明性实施方案来描述并说明本发明，但是在不背离本公开的精神和范围的情况下可在其中且对其进行前述的和各种其他的添加和省略。

条款1.一种进行自动化任务的系统，其包括：

成像装置；

至少一个数据存储体；

自动化机器；以及

计算装置，所述计算装置与所述成像装置和所述自动化机器通信，

其中所述计算装置被配置来实现一个或多个服务，并且

其中所述一个或多个服务被配置来：

使用所述成像装置捕获物体的图像；

辨识在所述图像内表达的视觉提示，其中所述视觉提示与所述物体的至少一部分相关联；

至少部分地基于维持在所述至少一个数据存储体中的关于多个任务的信息来确定所述视觉提示与至少一个任务之间的关联；

识别执行所述至少一个任务所需要的至少一个动作；并且

向所述自动化机器提供用于进行所述至少一个任务的电子指令。

条款2.如条款1所述的进行自动化任务的系统，其中所述一个或多个服务还被配置来：

识别与所述视觉提示相关联的情境，其中所述关联至少部分地基于所述情境来确定。

条款3.如条款1所述的进行自动化任务的系统，其中所述视觉提示包括以下各项中的至少一项：

字母数字字符；

符号；

图标；或

所述物体的至少所述部分的轮廓。

条款4.一种计算机实现的方法，其包括：

识别关于物体的第一组成像数据，其中所述第一组成像数据包括关于与所述物体相关联的至少一个视觉提示的信息；

由至少一个计算机处理器至少部分地基于所述第一组成像数据识别所述至少一个视觉提示；

由所述至少一个计算机处理器至少部分地基于所述至少一个视觉提示识别与所述物体相关联的第一自动化任务；以及

由所述至少一个计算机处理器向第一自动化机器提供用于进行与所述第一自动化任务相关联的至少一个动作的指令。

条款5.如条款4所述的计算机实现的方法，其中识别关于所述物体的所述第一组成像数据包括：

使用至少一个成像装置捕获所述第一组成像数据。

条款6.如条款5所述的计算机实现的方法，其中所述第一自动化机器是所述至少一个成像装置。

条款7.如条款5所述的计算机实现的方法，其中所述第一组成像数据包括所述物体的至少一个图像。

其中所述至少一个视觉提示是在所述物体的所述至少一个图像内表达的。

条款8.如条款7所述的计算机实现的方法，其中所述物体或所述至少一个视觉提示中的至少一个是由至少一个人在所述至少一个图像内呈现的。

条款9.如条款4所述的计算机实现的方法，其中识别所述至少一个视觉提示包括：

至少部分地基于所述成像数据辨识所述物体的边缘、外形或轮廓中的至少一个；以及

至少部分地基于所述边缘、所述外形或所述轮廓识别所述至少一个视觉提示。

条款10.如条款4所述的计算机实现的方法，其中识别与所述物体相关联的所述第一自动化任务包括：

识别存储在至少一个数据存储体中的多个记录，其中所述记录中的每一个包括多个视觉提示中的一个与多个自动化任务中的至少一个之间的关联；

选择所述多个记录中的对应于所述至少一个视觉提示的至少一个；以及

至少部分地基于所述多个记录中的所述所选择的至少一个识别所述第一自动化任务。

条款11.如条款4所述的计算机实现的方法，其中识别与所述物体相关联的所述第一自动化任务包括：

确定与所述至少一个视觉提示、所述物体或提供所述物体的环境中的至少一个相关联的情境，

其中所述第一自动化任务至少部分地基于所述情境来识别。

条款12.如条款4所述的计算机实现的方法，其还包括：

识别提供所述物体的环境的所需条件，其中所述环境的所述所需条件与所述第一自动化任务相关联；

使用至少一个成像装置捕获关于所述物体的第二组成像数据；

至少部分地基于所述第二组成像数据确定提供所述物体的所述环境的条件；

确定所述环境的所述条件是否与所述环境的所述所需条件一致；以及

在确定所述环境的所述条件与所述环境的所述所需条件一致后，

存储已进行所述第一自动化任务的指示。

条款13.如条款12所述的计算机实现的方法，其还包括：

由所述至少一个计算机处理器至少部分地基于所述至少一个视觉提示识别与所述物体相关联的第二自动化任务；以及

由所述至少一个计算机处理器向所述第一自动化机器提供用于进行与所述第二自动化任务相关联的至少一个动作的指令，

其中所述第二自动化任务至少部分地基于已进行所述第一自动化任务的所述指示来识别。

条款14.如条款12所述的计算机实现的方法，其还包括：

由所述至少一个计算机处理器向第二自动化机器提供用于进行与所述第二自动化任务相关联的至少一个动作的指令，

条款15.如条款12所述的计算机实现的方法，其还包括：

在确定所述环境的所述条件与所述环境的所述所需条件一不致后，

存储对未进行所述第一自动化任务的指示；

其中所述第二自动化任务至少部分地基于还未进行所述第一自动化任务的所述指示来识别。

条款16.如条款4所述的计算机实现的方法，其中至少部分地基于所述第一组成像数据识别所述至少一个视觉提示包括：

至少部分地基于所述第一组成像数据识别关于视觉图案的信息，其中所述视觉图案包括与所述物体相关联的所述至少一个视觉提示，

其中与所述物体相关联的所述第一自动化任务至少部分地基于所述视觉图案识别。

条款17.如条款16所述的计算机实现的方法，其中所述视觉图案包括与所述物体相关联的第一视觉提示和与所述物体相关联的第二视觉提示，并且

其中至少部分地基于所述第一组成像数据识别所述视觉图案包括：

在第一时间至少部分地基于所述第一组成像数据识别关于所述第一视觉提示的信息；

在第二时间至少部分地基于所述第一组成像数据识别关于所述第二视觉提示的信息；以及

至少部分地基于所述第一视觉提示、所述第一时间、所述第二视觉提示和所述第二时间来定义所述视觉图案。

条款18.如条款16所述的计算机实现的方法，其中所述视觉图案包括提供在所述物体上的第一视觉提示和提供在所述物体上的第二视觉提示，并且

至少部分地基于所述第一组成像数据识别关于所述第一视觉提示的信息，其中所述信息包括所述物体上的所述第一视觉提示的第一位置；

在第二时间至少部分地基于所述第一组成像数据识别关于所述第二视觉提示的信息，其中所述信息包括所述物体上的所述第二视觉提示的第二位置；以及

至少部分地基于所述第一视觉提示、所述第一位置、所述第二视觉提示和所述第二位置来定义所述视觉图案。

条款19.一种非暂时性计算机可读介质，其上存储有计算机可执行指令，

其中所述指令在被执行时致使具有至少一个计算机处理器和至少一个数据存储体的计算机系统进行方法，所述方法包括：

使用成像装置捕获环境的至少一部分的第一图像；

识别在所述第一图像内表达的视觉提示；

至少部分地基于在所述第一图像内表达的所述视觉提示选择将要对所述环境进行的第一动作；

向自动化机器发射用于进行所述第一动作的至少一部分的指令；

使用所述成像装置捕获所述环境的至少所述部分的第二图像；

至少部分地基于所述第二图像确定所述自动化机器是否进行了所述第一动作；

在确定所述自动化机器进行了所述第一动作后，

至少部分地基于在所述第一图像内表达的所述视觉提示选择将要对所述环境进行的第二动作；以及

向所述自动化机器发射用于进行所述第二动作的至少一部分的指令。

条款20.如条款19所述的非暂时性计算机可读介质，其中所述方法还包括：

至少部分地基于所述第一图像识别所述视觉提示的情境，

其中所述第一动作至少部分地基于所述视觉提示的所述情境来选择。

Claims

1.一种进行自动化任务的系统，其包括：

成像装置；

至少一个数据存储体；

自动化机器；以及

其中所述计算装置被配置来实现一个或多个服务，并且

其中所述一个或多个服务被配置来：

使用所述成像装置捕获物体的图像；

至少部分地基于维持在所述至少一个数据存储体中的关于多个任务的信息来确定所述视觉提示与要对所述物体执行的至少一个任务之间的关联；

识别执行所述至少一个任务所需要的至少一个动作；并且

2.如权利要求1所述的进行自动化任务的系统，其中所述一个或多个服务还被配置来：

3.如权利要求1所述的进行自动化任务的系统，其中所述视觉提示包括以下各项中的至少一项：

字母数字字符；

符号；

图标；或

所述物体的至少所述部分的轮廓。

4.一种计算机实现的方法，其包括：

5.如权利要求4所述的计算机实现的方法，其中识别关于所述物体的所述第一组成像数据包括：

使用至少一个成像装置捕获所述第一组成像数据。

6.如权利要求5所述的计算机实现的方法，其中所述第一自动化机器是所述至少一个成像装置。

7.如权利要求5所述的计算机实现的方法，其中所述第一组成像数据包括所述物体的至少一个图像。

8.如权利要求4所述的计算机实现的方法，其中识别所述至少一个视觉提示包括：

9.如权利要求4所述的计算机实现的方法，其中识别与所述物体相关联的所述第一自动化任务包括：

10.如权利要求4所述的计算机实现的方法，其中识别与所述物体相关联的所述第一自动化任务包括：

其中所述第一自动化任务至少部分地基于所述情境来识别。

11.如权利要求4所述的计算机实现的方法，其还包括：

在确定所述环境的所述条件与所述环境的所述所需条件一致后，存储已进行所述第一自动化任务的指示。

12.如权利要求11所述的计算机实现的方法，其还包括：

由所述至少一个计算机处理器向所述第一自动化机器或第二自动化机器中的至少一个提供用于进行与所述第二自动化任务相关联的至少一个动作的指令，

13.如权利要求4所述的计算机实现的方法，其中至少部分地基于所述第一组成像数据识别所述至少一个视觉提示包括：

至少部分地基于所述第一组成像数据识别关于视觉图案的信息，

其中所述视觉图案包括与所述物体相关联的所述至少一个视觉提示，

其中与所述物体相关联的所述第一自动化任务至少部分地基于所述视觉图案来识别。

14.如权利要求13所述的计算机实现的方法，其中所述视觉图案包括与所述物体相关联的第一视觉提示和与所述物体相关联的第二视觉提示，并且

15.如权利要求13所述的计算机实现的方法，其中所述视觉图案包括提供在所述物体上的第一视觉提示和提供在所述物体上的第二视觉提示，并且