CN114333816A

CN114333816A - 用于改善执行工作流操作的表现的系统、方法和装置

Info

Publication number: CN114333816A
Application number: CN202111097573.7A
Authority: CN
Inventors: R·斯里尼瓦桑; R·迪尼斯; K·哈斯拉; D·H·戈尔德
Original assignee: Vocollect Inc
Current assignee: Vocollect Inc
Priority date: 2020-09-25
Filing date: 2021-09-18
Publication date: 2022-04-12
Also published as: EP3979162A1; US20220101842A1

Abstract

本发明题为用于改善执行工作流操作的表现的系统、方法和装置。本发明描述了一种用于执行工作流操作的语音控制装置。该语音控制装置可包括麦克风、扬声器和处理器。在一些示例中，该语音控制装置可经由该扬声器生成与工作流的任务相关联的语音提示，以及经由该麦克风来识别从工人接收的语音响应。就这一点而言，该语音提示和该语音响应可为语音对话的一部分。此外，在提供该语音提示后的下一个语音提示之前，该语音控制装置的该处理器可识别与该任务的该执行相关联的表现状态。在这方面，可基于使用机器学习模型分析该语音对话来识别该表现状态。此外，该语音控制装置可生成包括改善该任务的该表现状态的建议的消息。

Description

用于改善执行工作流操作的表现的系统、方法和装置

技术领域

本文所述的示例性实施方案整体涉及用于改善执行工作流操作的表现的系统、方法和装置，并且更具体地讲，涉及向工人提供建议以改善工人在执行工作流操作时的表现。

背景技术

在许多环境(例如，但不限于配送中心、仓库、库存、工业站点等)中，某些活动或任务由工人以工作流的形式执行，其中每个任务被分成将要执行以完成任务的步骤的系列或序列。例如，拾取工作流可与用于在材料搬运站点中拾取各种物品的操作相关。在一些示例中，使用语音对话来执行工作流的任务，其中用于执行工作流的每个步骤的指令作为语音提示(如在交互式语音响应IVR系统的情况下)提供给工人，工人可对于该语音提示以语音响应(即，可听响应或口头响应)的形式回应。在一些示例中，工作流执行的表现取决于各种因素，例如但不限于执行任务的质量、用于执行任务的周转时间、语音提示和语音响应的无缝交换等。对工作流执行的表现的实时监测以各种方式进行帮助，例如但不限于针对工作班次有效地计划工作流操作、计划工人的工作计划表、向顾客指派递送期限等。通常，在使用语音对话来执行工作流操作的情况下，实时监测工作流操作的执行的表现具有挑战性并且具有相关联的限制。

发明内容

本文描述的各种示例性实施方案涉及一种语音控制装置。该语音控制装置可包括麦克风、扬声器和处理器。该处理器可通信地耦接到该麦克风和该扬声器中的至少一者。该处理器可被配置为经由该扬声器生成与工作流的任务相关联的语音提示。此外，该处理器可被配置为经由该麦克风来识别响应于该语音提示的来自工人的语音响应。就这一点而言，该语音提示和该语音响应可为语音对话的一部分。此外，该语音控制装置的该处理器可被配置为识别与该任务的执行相关联的表现状态。该处理器可在提供该语音提示后的下一个语音提示之前识别该表现状态。可基于使用机器学习模型分析该语音对话来识别该表现状态。此外，该处理器可被配置为生成包括改善该任务的该表现状态的建议的消息。

根据一些示例性实施方案，该表现状态可指示以下中的至少一者：该工作流的该任务的执行的延迟；对应于该语音提示和由该工人提供的该语音响应的协调间隙；以及该工作流的该任务的不正确执行。

根据一些示例性实施方案，该语音控制装置的该处理器可被配置为访问包括对应于该任务的过去执行的历史语音对话的数据文件。此外，该处理器可被配置为解析该数据文件以从该历史语音对话中的多个历史语音响应中识别上下文关键词语和与该上下文关键词语相关联的上下文参数。在一些示例中，该上下文参数可包括以下中的至少一者：该历史语音对话中的该上下文关键词语的出现频率，以及对应于该上下文关键词语在该历史语音对话中的每次出现的定时信息。此外，该处理器可被配置为提供该上下文关键词语和该上下文参数作为输入特征以训练该机器学习模型。

根据一些示例性实施方案，该处理器可被进一步配置为使用该机器学习模型来识别与该上下文关键词语和该上下文参数相关联的模式。就这一点而言，该机器学习模型可基于根据该工作流的任务的类型定义的预定义规则来识别该模式。此外，该处理器可被配置为通过使用该模式来预测指示与该任务的执行相关联的该表现状态的分类。

根据一些示例性实施方案，改善该表现状态的该建议可指示以下中的至少一者：(a)用于拾取物品的正确位置；(b)用于放置该物品的正确目的地；(c)用于到达以下中的一者的路线：物品拾取位置或物品放置目的地；(d)根据该工作流的对于该语音提示的预期语音响应；(e)根据工作环境中的噪声水平来重新训练话音识别模型；(f)根据扬声器依赖型语音模板来重新训练该话音识别模型；(g)针对该工人为优选的新工作流；以及(h)将该工人的该任务重新分配给另一个工人的选项。

根据一些示例性实施方案，该任务可以是拾取物品。就这一点而言，该处理器可被配置为识别指示以下中的一者的该表现状态：(a)缓慢拾取，在拾取该物品所花费的时间慢于拾取该物品的预期时间的情况下；以及(b)正常拾取，在拾取该物品所花费的该时间与拾取该物品的该预期时间一致的情况下。

本文描述的一些示例性实施方案涉及一种包括处理器的系统。该处理器可被配置为接收与将在语音控制装置上执行的工作流的任务相关联的语音对话。该语音对话可包括第一语音提示和对于该第一语音提示的第一语音响应。此外，该处理器可被配置为基于使用机器学习模型分析该语音对话来识别与该任务的执行相关联的表现状态。就这一点而言，可在提供该第一语音提示后的第二语音提示之前识别该表现状态。此外，该处理器可被配置为生成指示改善该任务的该表现状态的建议的消息。

根据一些示例性实施方案，该处理器可被配置为访问包括对应于该任务的过去执行的历史语音对话的数据文件。此外，该处理器可被配置为解析该数据文件以从该历史语音对话中的多个历史语音响应中识别上下文关键词语和与该上下文关键词语相关联的上下文参数。在一些示例中，该上下文参数可包括以下中的至少一者：该历史语音对话中的该上下文关键词语的出现频率，以及对应于该上下文关键词语在该历史语音对话中的每次出现的定时信息。此外，该处理器可被配置为提供该上下文关键词语和该上下文参数作为输入特征以训练该机器学习模型。

根据一些示例性实施方案，该任务可以是拾取物品。就这一点而言，该系统的该处理器可被配置为识别指示以下中的一者的该表现状态：(a)缓慢拾取，在拾取该物品所花费的时间慢于拾取该物品的预期时间的情况下；以及(b)正常拾取，在拾取该物品所花费的该时间与拾取该物品的该预期时间一致的情况下。

在一些示例性实施方案中，该系统的该处理器可被配置为在电子设备上传输包括该工作流的文件。就这一点而言，可基于该电子设备和该语音控制装置之间的消息的交换来执行该工作流。此外，该处理器可被配置为接收工作流执行数据，该工作流执行数据包括与该工人对该工作流的任务的执行相关联的该语音对话。

本文所述的一些示例性实施方案涉及一种用于改善工作流的任务的表现状态的方法。该方法包括接收与该工作流的该任务相关联的语音对话，该语音对话包括第一语音提示和对于该第一语音提示的第一语音响应。此外，该方法包括基于使用机器学习模型分析该语音对话来识别与该任务的执行相关联的表现状态。就这一点而言，可在提供该第一语音提示后的第二语音提示之前识别该表现状态。此外，该方法包括生成指示改善该任务的该表现状态的建议的消息。

在一些示例性实施方案中，该方法还可包括使用该机器学习模型来识别与该上下文关键词语和该上下文参数相关联的模式。就这一点而言，该机器学习模型可用于基于根据该工作流的任务的类型定义的预定义规则来识别该模式。此外，该方法可包括通过使用该模式来预测指示与该任务的执行相关联的该表现状态的分类。

根据示例性实施方案，该方法可包括在电子设备上传输包括该工作流的文件。就这一点而言，可基于该电子设备和语音控制装置之间的消息的交换来执行该工作流。此外，该方法可包括接收工作流执行数据，该工作流执行数据可包括与该工人对该工作流的任务的执行相关联的该语音对话。

附图说明

附图示出了本发明的实施方案，并且与说明书(包括上面的一般描述和下面的详细描述)一起用于解释本发明的特征。

图1示出了根据示例性实施方案的工作流执行系统的示意图；

图2示出了根据示例性实施方案的工作流执行系统的示意性框图；

图3示出了根据示例性实施方案的工作流数据库的示意性框图；

图4示出了根据示例性实施方案的用于改善工作流执行的工作流系统的示意性框图；

图5示出了根据示例性实施方案的用于执行工作流操作的示例性语音控制装置；

图6示出了根据示例性实施方案的用于执行工作流操作的语音控制装置的框图；

图7示出了根据示例性实施方案的用于执行工作流操作的示例性电子设备的示意图；

图8示出了根据另一个示例性实施方案的用于执行工作流操作的另一个示例性电子设备的示意图；

图9示出了根据示例性实施方案的表示用于改善执行工作流操作的表现的方法的流程图；

图10示出了根据示例性实施方案的表示用于识别与工作流操作的执行相关联的表现状态的方法的流程图；

图11示出了根据示例性实施方案的表示用于提供建议以改善工人在执行工作流操作时的表现的方法的流程图；并且

图12示出了根据示例性实施方案的描绘由操作员执行的工作流操作的示例性场景。

具体实施方式

现在在下文中将参考附图更全面地描述本发明，在附图中示出了本发明的一些但不是全部的实施方案。实际上，这些发明可以许多不同的形式体现，并且不应该被解释为限于本文所阐述的实施方案；相反，提供这些实施方案是为了使本公开满足适用的法律要求。在全篇内容中，类似的标号指代类似的元件。如本文所用，术语诸如“前部”、“后部”、“顶部”、“外部”、“内部”等在下文提供的示例中用于说明性目的，以描述某些设备或设备的部分的相对位置。在本专利中使用的术语并不意味着是限制性的，本文所述的设备或其部分可在其他取向上附接或利用。

术语“包括”意指包括但不限于，并且应以在专利上下文中通常使用的方式加以解释。应当理解，使用广义的术语如“包含”、“包括”和“具有”提供对狭义的术语诸如“由...组成”、“基本上由...组成”和“基本上由...构成”的支持。

短语“在一个实施方案中”、“根据一个实施方案”等一般意指跟在该短语后的特定特征、结构或特性可包括在本发明的至少一个实施方案中，并且可包括在本发明的不止一个实施方案中(重要的是，此类短语不一定是指相同的实施方案)。

本文使用的词语“示例性”是指“用作示例、实例或说明”。本文描述为“示例性”的任何具体实施不一定被理解为比其他具体实施优选或有利。

术语“约”或“大约”等在与数字一起使用时，可意指具体数字，或另选地，如本领域技术人员所理解的接近该具体数字的范围。

如果说明书陈述了部件或特征“可以”、“能够”、“能”、“应当”、“将”、“优选地”、“有可能地”、“通常”、“任选地”、“例如”、“经常”或“可能”(或其它此类词语)被包括或具有特性，则特定部件或特征不是必须被包括或具有该特性。此类部件或特征可任选地包括在一些实施方案中，或可排除在外。

如本文所用，术语“发射器”是指可生成无线电波以用于通信目的的任何部件，而“接收器”用来泛指可接收无线电波并将该信息转换为可用形式的任何部件。“收发器”泛指既可生成无线电波又可接收无线电波的部件并因此在讨论发射器或接收器时会设想到。

术语“处理器”在本文中用于指代可由软件指令(应用程序)配置以执行包括上述各种实施方案的功能的各种功能的任何可编程微处理器、微型计算机、或一个或多个多处理器芯片。在一些设备中，可以提供多个处理器，诸如专用于无线通信功能的一个处理器和专用于运行其他应用程序的一个处理器。软件应用程序在被访问和加载到处理器之前可以存储在内部存储器中。处理器可包括足以存储应用程序软件指令的内部存储器。在许多设备中，内部存储器可以是易失性或非易失性存储器诸如闪存存储器或两者的混合。存储器还可位于另一个计算资源的内部(例如，使计算机可读指令能够通过互联网或另一个有线或无线连接下载)。

出于本说明的目的，对存储器的一般引用是指处理器可访问的存储器，包括插入到设备的内部存储器或可移除存储器和处理器内的存储器本身。例如，存储器可以是其上存储有可由处理器执行的计算机可读指令(例如，计算机程序指令)的任何非暂态计算机可读介质。

下文所用的术语“电子设备”是指手持设备、移动电话、可穿戴设备、个人数据助理(PDA)、平板电脑、智能书、掌上电脑、条码阅读器、扫描仪、标记阅读器、成像器、射频识别(RFID阅读器或询问器)、车载计算机、可穿戴条码扫描仪、可穿戴标记阅读器、销售点(POS)终端、头戴式耳机设备、可编程逻辑控制器(PLC)、可编程自动化控制器(PAC)、工业计算机、膝上型计算机、台式计算机、个人计算机和配备有至少一个被配置为执行本文所述的各种操作的处理器的类似电子设备中的任一者或全部。

为了简洁起见，本文使用可互换使用的术语“计算平台”或“主设备”或“服务器”或“监管员设备”来描述各种实施方案。本文可使用术语“服务器”来指能够充当服务器(诸如主交换服务器、网络服务器、邮件服务器、文档服务器或任何其他类型的服务器)的任何计算设备或计算设备的分布式网络。服务器可以是专用计算设备或包括服务器模块(例如，运行可使计算设备作为服务器操作的应用程序)的计算设备。服务器模块(例如，服务器应用程序)可以是全功能服务器模块或者轻型或辅助服务器模块(例如，轻型或辅助服务器应用程序)，其被构造为在计算设备上的动态数据库中提供同步服务。轻型服务器或辅助服务器可以是服务器型功能的精简版，可在诸如智能电话的计算设备上实现，从而使其只有在提供本文所述功能所需时才能够充当互联网服务器(例如，企业电子邮件服务器)。

在一些示例性实施方案中，服务器可对应于工业计算机、基于云计算的平台、外部计算机、独立计算设备等中的任一者。在一些示例性实施方案中，主设备或计算平台还可指任何电子设备，如本文所述。在一些示例性实施方案中，服务器可包括接入点或网关设备，该接入点或网关设备可以能够与一个或多个电子设备直接通信，并且还可以能够与网络建立服务(例如，互联网服务提供商)通信(直接通信或另选地经由通信网络诸如互联网间接通信)。在一些示例性实施方案中，服务器可在整个物理环境中管理一个或多个电子设备的部署。在一些示例性实施方案中，服务器可以是指包括分布式系统的网络建立服务，其中通过利用在网络和/或基于云的平台或基于云的服务(诸如基于软件的服务(SaaS)、基于基础设施的服务(IaaS)或基于平台的服务(PaaS)等中的任一者)上部署的多个计算资源来执行多个操作。

在一些示例性实施方案中，本文可使用术语“服务器”来指可编程逻辑控制器(PLC)、可编程自动化控制器(PCC)、工业计算机、台式计算机、个人数据助理(PDA)、膝上型计算机、平板电脑、智能本、掌上电脑、个人计算机、智能电话、头戴式耳机、智能手表和配备有至少被配置为执行本文所述的各种操作的处理器的类似电子设备。诸如智能电话、平板电脑、头戴式耳机和智能手表的设备通常统称为移动设备。

附图中示出的部件表示在本文描述的本发明的各种实施方案中可以存在或可以不存在的部件，使得实施方案可以包括比图中所示的部件更少或更多的部件，而不脱离本发明的范围。

本文所述的各种示例性实施方案涉及用于改善工作流操作执行的表现的技术。根据一些示例，工作流操作可基于语音对话来执行，该语音对话可包括操作员与操作员所使用的语音控制装置之间的语音提示和语音响应的交换。示例性工作流操作可以是用于在材料搬运环境(例如，仓库、库存等)中执行各种物品的拾取的操作。根据一些示例性实施方案，可使用机器学习模型来识别与工作流操作的一个或多个步骤的执行相关联的表现状态。表现状态指示与预期表现度量(例如，效率、吞吐量、周转时间等)相比的工作流操作执行的进度和/或表现。例如，在一个示例中，可使用机器学习模型来预测由操作员执行的拾取操作是否为缓慢拾取操作。根据本文所述的各种示例性实施方案，表现状态的预测可在拾取操作步骤的执行的早期阶段执行，即在工作流操作的完成之前。在一些示例中，表现状态的早期识别使得操作员能够“在生成时”(即在完成工作流操作的同时)执行纠正动作。此外，根据一些示例性实施方案，基于所识别的表现状态，可向执行工作流操作的操作员提供上下文建议。上下文建议可指示可被执行以改善工作流操作执行的表现状态的活动。在一些示例中，由各种操作员执行的操作的表现状态可实时显示为仪表板上的预测度量，并且由监管员使用以用于改善工作环境中的操作员的生产率。例如，对于拾取操作，预测度量可包括预测拾取速率、针对每个拾取的缓慢拾取的上下文/原因、每日/每周报告等。根据一些示例，可根据与工作流操作的步骤相关联的工作流状态来提供上下文建议以改善工作流操作的整体执行。根据本文参考图1至图12所述的各种示例性实施方案，描述了与识别表现状态以及改善工作流操作的执行相关的另外细节。

图1示出了包括系统的示例性网络架构的工作流执行系统100，其可包括可被配置为实现本文所讨论的一些实施方案的一个或多个设备和子系统。例如，工作流执行系统100可包括服务器160，该服务器可包括例如图2至图4中公开的电路、服务器或数据库等等(未示出)。服务器160可包括任何合适的网络服务器和/或其他类型的处理设备。在一些实施方案中，服务器160可接收请求并且将关于此类请求的信息或指示传输到操作员设备110A-110N和/或一个或多个监管员设备150。本文提及的操作员设备110A-110N可对应于工作环境中的操作员(例如，工人)在执行各种任务时可使用的电子设备。此外，本文提及的监管员设备150可对应于工作环境中的操作员的监管员所使用的电子设备。在一个示例中，工作环境可对应于仓库或库存并且监管员可以是仓库管理者。

在一些示例性实施方案中，服务器160可经由网络120与一个或多个操作员设备110A-110N和/或一个或多个监管员设备150进行通信。就这一点而言，网络120可包括任何有线或无线通信网络，包括例如有线或无线局域网(LAN)、个人局域网(PAN)、城域网(MAN)、广域网(WAN)等，以及实现其所需的任何硬件、软件和/或固件(诸如网络路由器等)。例如，网络120可包括蜂窝电话、802.11、802.16、802.20和/或WiMax网络。在一些实施方案中，蓝牙可用于在设备之间进行通信。此外，网络120可包括公共网络(诸如互联网)、专用网络(诸如内联网)或它们的组合，并且可利用现在可用的或以后开发的多种联网协议，包括但不限于基于TCP/IP的联网协议。

在一些示例性实施方案中，网络103可包括但不限于无线保真(Wi-Fi)网络、微微网、个人局域网(PAN)、Zigbee和Scatternet。在一些示例中，网络103可对应于短程无线网络，通过该短程无线网络，操作员设备102-10N可使用一个或多个通信协议(诸如但不限于Wi-Fi、蓝牙、蓝牙低功耗(BLE)、Zigbee、基于超声频率的网络和Z-Wave)来彼此通信。在一些示例中，网络103可对应于一种网络，其中该多个电子设备102-10N可使用其他各种有线和无线通信协议(诸如传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)和2G、3G或4G通信协议)来彼此通信。在一些示例中，网络103可对应于任何通信网络，诸如但不限于LORA、蜂窝(NB IoT、LTE-M、泄漏馈线同轴电缆等)。

在一些示例性实施方案中，操作员设备110A-110N、监管员设备150和/或服务器160可各自被实现为计算设备，诸如个人计算机和/或其他联网设备，诸如蜂窝电话、平板计算机、移动设备、销售点终端、库存管理终端等。图1中的对“N”个构件的描述仅是用于示意性说明。此外，虽然在图1中仅示出了一个监管员设备150，但在一些实施方案中，可在系统中连接许多或多个监管员设备150。此外，在工作流执行系统100中可包括任何数量的用户、操作员设备和/或监管员设备。在一个实施方案中，操作员设备110A-110N和/或监管员设备150可被配置为在相应设备的显示器上显示界面，以用于查看、创建、编辑和/或以其他方式与服务器进行交互。根据一些实施方案，服务器160可被配置为在服务器160的显示器上显示界面，以用于查看、创建、编辑和/或以其他方式与服务器160上的信息进行交互。在一些实施方案中，操作员设备110A-110N和/或监管员设备150的界面可不同于服务器160的界面。本系统的各种部件可在操作员设备110A-110N、监管员设备150或服务器160中的一者或多者上执行。工作流执行系统100还可包括附加客户端设备和/或服务器等。

根据一些示例性实施方案，操作员设备110A-110N可包括例如但不限于电子设备102(例如，移动设备、PDA等)和语音控制装置104(例如，头戴式耳机设备、可穿戴头戴式设备等)。就这一点而言，工作环境中的操作员可使用电子设备102和/或语音控制装置104来执行工作环境中的一个或多个操作。例如，在一些示例性实施方案中，操作员设备110A-110N可由操作员使用以执行可包括一个或多个任务的工作流操作。就这一点而言，在一些示例中，工作流操作可包括将由操作员执行的步骤的序列或系列。在一些示例性实施方案中，工作流操作的一个或多个步骤可在操作员设备110A-110A上以语音指示的指令或基于图形用户界面(GUI)的指令的形式提供给操作员。

例如，在工作环境(例如，仓库、工业环境、配送中心等)中，操作员可使用可被预配置有应用程序(例如，移动应用程序)的电子设备102来执行工作流操作。例如，在一些示例中，操作员可使用这些设备(即，操作员设备110A-110N，电子设备)以用于进行信息的自动识别和数据捕获并且改善工作环境中的生产率。在一些示例中，应用程序可用于执行工作流操作的各个步骤。根据一些示例性实施方案，应用程序可安装在电子设备102和语音控制装置104中的至少一者上，并且可用于在工作流操作的每个步骤处为操作员生成指令。这些指令可在电子设备102和/或语音控制装置104上提供。

根据一些示例性实施方案，语音控制装置104可用于向操作员提供以“语音提示”形式的指令，从而在工作环境中执行各种活动。例如，在一个示例中，对于拾取工作流操作，可在语音控制装置104上为操作员提供以语音提示形式的指令，从而用于在库存中拾取各种物品。在这种情况下，语音提示可包括用于操作员的指令，如但不限于“到达库存的位置”、“确认与位置相关联的校验数位”、“从若干物品中识别物品”、“确认与物品相关联的存货单位(SKU)”、“拾取物品”、“移动到下一个位置”等。此外，在一些示例性实施方案中，电子设备102可被配置为以视觉形式向操作员提供指令，即可在电子设备102的GUI上显示的指令。因此，操作员可基于语音提示和/或视觉提示中提供的指令来执行工作流操作的步骤。此外，电子设备102和/或语音控制装置104可被配置为接收操作员对指令的响应。例如，当操作员执行任务时，操作员可分别在语音控制装置104和/或电子设备102上提供“语音响应”和/或基于GUI输入的响应。

示例性地，操作员设备110A-110N通过网络103来通信地耦接。类似地，根据一些示例性实施方案，电子设备102可经由网络103通信地耦接到语音控制装置104。例如，语音控制装置104可通过基于蓝牙通信的网络来通信地耦接到电子设备102。就这一点而言，电子设备102可使用蓝牙网络来与语音控制装置104交换数据和各种命令。

在一些示例中，工作流任务的基于语音的指令和基于视觉的指令可分别在语音控制装置104和电子设备102上同时提供。就这一点而言，电子设备102和/或语音控制装置104上的工作流的执行状态可被同步，使得操作员可响应于针对工作流操作的相同步骤的语音提示和/或视觉指令而提供语音响应和/或基于GUI的输入中的任一者，以致使工作流操作在语音控制装置104和电子设备102两者上移动到下一个状态。

根据一些示例性实施方案，操作员设备110A-110N可接收包括将在操作员设备110A-110N上执行的一个或多个工作流的文件。就这一点而言，根据一些示例性实施方案，可基于设备之间的消息交换在操作员设备110A-110N(例如，电子设备102和/或语音控制装置102)上执行工作流操作。在一些示例性实施方案中，操作员设备110A-110N可从服务器160接收包括一个或多个工作流的文件。

根据一些示例性实施方案，电子设备102、语音控制装置104、操作员设备110A-110N、监管员设备150和/或服务器160可包括一个或多个输入设备，包括但不限于键盘、数字板、鼠标、触敏显示器、导航键、功能键、麦克风、语音识别部件、能够接收来自用户的输入的任何其他机构、或它们的任何组合。此外，操作员设备110A-110N、监管员设备150和/或服务器160可包括一个或多个输出设备，包括但不限于显示器、扬声器、触觉反馈机构、打印机、灯、能够向用户呈现输出的任何其他机构、或它们的任何组合。

操作员设备110A-110N、监管员设备150和/或服务器160可包括用于监测和/或收集关于用户或其中放置有部件的外部环境的信息的部件。例如，操作员设备110A-110N、监管员设备150和/或服务器160可包括传感器、扫描仪、和/或其他监测部件。在一些实施方案中，扫描仪可用于确定某些个体或物品的存在。例如，在一些实施方案中，部件可包括扫描仪，诸如光学扫描仪、RFID扫描仪、和/或被配置为读取与物品物理相关联的人类和/或机器可读标记的其他扫描仪。

图2示出了电路200的示意性框图，该电路的一些或全部可包括在例如电子设备102、语音控制装置104、操作员设备110A-110N、监管员设备150和/或服务器160中。上述系统或设备中的任何一者可包括电路200，并且可被配置为与网络120中的其他设备独立地或联合地执行本文所述的电路200的功能。如图2所示，根据一些示例性实施方案，电路200可包括各种装置，诸如处理器210、存储器220、通信模块240和/或输入/输出模块250。在一些实施方案中，还可包括或可替代地包括工作流数据库300和/或工作流系统400。如本文所提及，“模块”包括被配置为执行一种或多种特定功能的硬件、软件和/或固件。就这一点而言，如本文所述的电路200的装置可体现为例如包括存储在非暂态计算机可读介质(例如，存储器220)上且可由适当配置的处理设备(例如，处理器210)执行的计算机可读程序指令的电路、硬件元件(例如，适当编程的处理器、组合逻辑电路等)、计算机程序产品或它们的某种组合。

处理器210可例如实现为包括具有一个或多个伴随数字信号处理器的一个或多个微处理器、不具有伴随数字信号处理器的一个或多个处理器、一个或多个协处理器、一个或多个多核处理器、一个或多个控制器、处理电路、一个或多个计算机、各种其他处理元件(包括集成电路，诸如例如ASIC(专用集成电路)或FPGA(现场可编程门阵列))、或它们的某种组合的各种装置。因此，尽管在图2中示出为单个处理器，但在一些实施方案中，处理器210包括多个处理器。多个处理器可体现在单个计算设备上，或者可分布在共同配置为用作电路200的多个计算设备上。多个处理器彼此可操作地通信，并且可被共同配置为执行如本文所述的电路200的一个或多个功能。在示例性实施方案中，处理器210被配置为执行存储在存储器220中或可以其他方式供处理器210访问的指令。这些指令在被处理器210执行时可使电路200执行如本文所述的电路200的功能中的一种或多种。

无论处理器210是由硬件方法配置，还是由固件/软件方法来配置，亦或是由它们的组合来配置，该处理器均可以包括能够根据本发明的实施方案执行操作同时进行相应配置的实体。因此，例如，当处理器210体现为ASIC、FPGA等时，处理器210可以包括用于进行本文所述的一个或多个操作的专门配置的硬件。另选地，作为另一个示例，当处理器210体现为(诸如可以存储在存储器220中的)指令的执行器时，指令可以专门配置处理器210以执行本文所述的一个或多个算法和操作，诸如结合图1至图12讨论的那些算法和操作。

存储器220可以包括例如易失性存储器、非易失性存储器或它们的某种组合。尽管在图2中示出为单个存储器，但存储器220可包括多个存储器部件。该多个存储器部件可在单个计算设备上实现，或者分布在多个计算设备上。在各种实施方案中，存储器220可包括例如硬盘、随机存取存储器、高速缓存存储器、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM)、闪存存储器、磁带盒、磁带、磁盘存储装置或其他磁存储设备、光盘只读存储器(CD-ROM)、数字通用光盘只读存储器(DVD-ROM)、光盘、被配置为存储信息的电路、或它们的某种组合。存储器220可被配置为存储信息、数据(包括项目数据和/或简档数据)、应用程序、指令等，以用于使电路200能够根据本发明的示例性实施方案执行各种功能。例如，在至少一些实施方案中，存储器220被配置为缓冲输入数据以供处理器210处理。附加地或另选地，在至少一些实施方案中，存储器220被配置为存储程序指令以供处理器210执行。存储器220可存储静态和/或动态信息形式的信息。可由电路200在执行其功能的过程中存储和/或使用该存储的信息。

通信模块240可体现为任何这样的设备或装置，其体现在包括存储在计算机可读介质(例如，存储器220)上并由处理设备(例如，处理器210)执行的计算机可读程序指令的电路、硬件、计算机程序产品或它们的组合中，并且被配置为从/向另一个设备和/或网络(诸如第二电路200等)接收和/或传输数据。在一些实施方案中，通信模块240(与本文所讨论的其他部件一样)可至少部分地体现为处理器210或以其他方式受该处理器的控制。就这一点而言，通信模块240可诸如经由总线来与处理器210通信。通信模块240可包括例如用于实现与另一个计算设备通信的天线、发射器、接收器、收发器、网络接口卡和/或支持硬件和/或固件/软件。通信模块240可被配置为使用任何可用于计算设备之间的通信的协议来接收和/或传输任何可由存储器220存储的数据。通信模块240可附加地或另选地诸如经由总线来与存储器220、输入/输出模块250和/或电路200的任何其他部件通信。

输入/输出模块250可与处理器210通信以接收用户输入的指示和/或向用户(例如，员工和/或顾客)提供听觉输出、视觉输出、机械输出或其他输出。结合图1至图12讨论了可由电路200提供给用户的一些示例性视觉输出。因此，输入/输出模块250可包括例如对键盘、鼠标、操纵杆、显示器、触摸屏显示器、麦克风、扬声器、RFID读取器、条形码读取器、生物识别扫描仪和/或其他输入/输出机构的支持。与电路200被实现为最终用户机(例如，远程工作者设备和/或员工设备)或其他类型的被设计用于复杂用户交互的设备的实施方案相比，在其中电路200被实现为服务器或数据库的实施方案中，可减小输入/输出模块250的方面。在一些实施方案(与本文所讨论的其他部件一样)中，可甚至从电路200消除输入/输出模块250。另选地，诸如在电路200体现为服务器或数据库的实施方案中，输入/输出模块250的至少一些方面可体现在用户所使用的与电路200通信的装置上。输入/输出模块250可诸如经由总线来与存储器220、通信模块240和/或任何其他部件通信。一个或多于一个输入/输出模块和/或另一个部件可包括在电路200中。

工作流数据库300和工作流系统400还可或可替代地被包括或被配置为执行本文所讨论的与工作流相关的功能和/或识别与工作流的执行相关联的表现状态。在一些实施方案中，生成工作流和/或针对工作流的信息和/或与工作流的执行相关联的表现状态的功能中的一些或全部可由处理器210执行。就这一点而言，可由至少一个处理器210、工作流数据库300和/或工作流系统400执行本文所讨论的示例性过程和算法。例如，非暂态计算机可读介质可被配置为存储包括指令和其他计算机可读程序代码部分的固件、一个或多个应用程序和/或其他软件，可执行这些指令和其他计算机可读程序代码部分以控制电路200的部件的每个处理器(例如，处理器210、工作流数据库和/或工作流系统)，从而实现各种操作，包括上文所示的示例。因此，一系列计算机可读程序代码部分体现在一个或多个计算机程序产品中，并且可与计算设备、服务器和/或其他可编程装置一起用来产生机器实现的过程。

如图3所示，根据一些示例性实施方案，可提供包括工作流执行系统的各种相关信息的工作流数据库300。例如，如图3所示，在该实施方案中，工作流数据库300可包括员工简档数据311、任务数据312、历史语音对话数据313、表现状态数据314和上下文建议数据315。可在工作流数据库300中包括各种其他数据。当执行附加任务时，系统200可接收关于任务和员工的附加信息(例如，表现信息)，这些信息可存储在工作流数据库300中。此外，与各种产品、服务、工作流操作(与工作环境相关)相关的附加信息可存储在工作流数据库300中以供使用。附加地或另选地，工作流数据库300可包括上下文建议数据315，该上下文建议数据提供工作流系统400在分析输入和请求并且生成适当响应时所需的任何附加信息。

例如，工作流系统400可被配置为分析多个数据集(例如，包括员工简档数据、任务数据、历史语音对话数据、表现状态数据、上下文建议数据等的各种组合)，诸如工作流数据库300中的数据。这样，工作流系统400可支持多种算法，包括下文相对于员工简档数据、任务数据、历史语音对话数据、表现状态数据、上下文建议数据等讨论的那些算法，使得可在运行时选择所选择的算法。此外，当前配置可实现配置附加上下文方面的灵活性。

图4示出了根据示例性实施方案的用于改善工作流执行的工作流系统400的示意性框图。在一些实施方案中，参考图4，工作流系统400可包括上下文识别模块420、机器学习引擎430和通信接口440，所有这些部件可与工作流数据库300通信。工作流系统400可接收一个或多个输入或请求(例如，语音命令)并且可生成适当的响应。例如，工作流系统400可生成语音提示，该语音提示包括以语音命令形式的用于执行工作流操作的步骤的指令。工作流系统400可使用本文所公开的算法或过程中的任一者以接收请求/输入并且生成响应。在一些其他实施方案中，诸如当电路200体现在服务器160、监管员设备150和/或操作员设备110A-110N中时，工作流系统400可位于另一个电路200或另一个设备，诸如另一个服务器160、监管员设备150和/或操作员设备110A-110N中。工作流系统400可被配置为访问对应于一个或多个员工、表现状态、一个或多个工作流操作的任务的执行、仓库数据等的数据，并且生成一个或多个响应和/或指示。

参考图4，无论是本地使用还是通过网络使用，工作流系统400均可用于分析工作流执行、基于操作员的语音对话来识别上下文信息、创建与任务和子任务相关联的建议/通知，以及向监管员或管理人员通知与操作员对工作流的执行相关联的相关任务/子任务和表现状态。系统可从电路200接收多个输入410、415并且处理工作流系统400内的输入以产生输出450。根据本文所述的各种示例性实施方案，输出450可指示与工作流任务的执行相关联的表现状态。换句话讲，输出450可指示工作流任务的执行的表现。

如根据各种示例性实施方案所述，可基于操作员和语音控制装置104之间的语音对话(即，基于语音提示和语音响应的交换)来执行每个工作流活动。就这一点而言，根据所述示例性实施方案，工作流的每个步骤可为预定义的。换句话讲，工作流可包括要执行以完成工作流的一组预定义的步骤/任务。如前所述，用于执行这些步骤中的每个步骤的指令可作为语音提示提供。因此，根据工作流的类型(例如，但不限于，顺序拾取工作流、循环计数工作流、库存补充工作流等)可存在固定类型/数量的语音提示，并且针对语音提示中的每一者预期的语音响应也可为预定义的。为此，与工作流相关联的每个语音对话可包括可针对该工作流预定义的一个或多个上下文关键词语(或一组词语、短语等)。此外，在一些示例中，可根据与工作流的该步骤相关联的上下文来定义上下文词语。例如，上下文关键词语的示例可以是“位置”，其可作为语音提示提供给操作员以查找操作员的当前位置。类似地，上下文关键词语的另一个示例可以是“准备就绪”，其可作为语音响应由操作员提供以响应于语音提示而指示肯定。

此外，根据本文所述的各种示例性实施方案，上下文关键词语在语音对话中的位置、上下文关键词语出现的时间戳、上下文关键词语出现的频率可针对工作流进行预定义。例如，作为示例，对于工作流，可知上下文词语“线”通常应在工作流的执行期间的语音对话开始处发生。类似地，作为另一个示例，上下文关键词语“准备就绪”可由操作员在预定义时间戳处提供，或者在特定语音提示后的预定义时间间隔(例如，在10秒内)之后提供。根据另一个示例，上下文关键词语可包括一组词语(例如，三个数字字母)，该组词语在语音响应中以预定义序列一个接一个地提供。在另一个示例中，上下文关键词语还可包括以定义模式出现在语音对话中的一组词语。

根据本文所述的各种示例性实施方案，上下文识别模块420可接收包括一个或多个语音对话的数据文件作为输入(410,415…41n)。上下文识别模块420可解析输入(410,415…41n)以识别一组上下文关键词语和/或与上下文关键词语中的一者或多者相关联的上下文参数(例如，上下文关键词语在语音对话中的位置、上下文关键词语出现的时间戳、上下文关键词语出现的频率等)。就这一点而言，在示例性实施方案中，可在语音对话的日志文件中接收输入(410,415…41n)作为来自工作流数据库300的非结构化数据。在一些示例性实施方案中，上下文识别模块420可通过在解析输入语音对话的同时执行频率分析来识别一组上下文关键词语和/或相关联的上下文参数。此外，上下文关键词语和/或上下文参数(例如，与上下文关键词语、出现频率、重复频率、时间戳和/或上下文关键词语出现的时间段相关联的逻辑状态)可存储在工作流数据库300中以用于训练机器学习模型。

此外，根据一些示例性实施方案，当工作流系统400接收到输入410、415时，上下文识别模块420可确定指示与工作流相关联的上下文的其他附加信息。例如，在一些示例中，上下文识别模块420可确定信息，诸如操作员简档数据(例如，哪个员工与输入410、415相关联)、操作员历史执行数据(例如，员工在过去如何处理与输入410、415相关联的任务)、任务数据(例如，哪个任务与输入410、415相关联)、系统的偏好数据，以及哪个请求或指示作为输入410、415接收等。这些输入可向工作流系统的机器学习引擎430给予上下文以确定指示与工作流操作任务的执行相关联的表现状态的输出。

根据一些示例性实施方案，可以识别上下文关键词语和/或上下文参数中的一个或多个模式以训练机器学习模型。就这一点而言，在一些示例性实施方案中，机器学习引擎430可将数据文件的非结构化数据转换成表示矩阵的结构化数据格式，该矩阵在行中包括来自语音对话的上下文关键词语中的每一者并且在列中包括其相关联的上下文参数。根据本文所述的各种示例性实施方案，机器学习引擎430可接收结构化数据(即，一组上下文关键词语和/或相关联的上下文参数)作为输入特征。机器学习引擎430可生成可使用输入特征来训练的机器学习模型。就这一点而言，使用机器学习模型的机器学习引擎430可输出指示与工作流任务的执行相关联的表现状态的分类。

根据一些示例性实施方案，机器学习引擎430可采用支持向量机(SVM)分类器来确定与输入特征(例如，由上下文识别模块420输出的结构化数据)相关的一个或多个分类、一个或多个相关性、一个或多个表达式、一个或多个推理、一个或多个模式、一个或多个特征和/或其他学习信息。在另一个示例性实施方案中，机器学习引擎430可采用与贝叶斯机器学习网络、二元分类模型、多类分类模型、线性分类器模型、二次分类器模型、神经网络模型、概率分类模型、决策树和/或一个或多个其他分类模型相关联的一个或多个机器学习分类技术。由机器学习引擎430采用的机器学习模型(例如，分类模型、机器学习分类器等)可被明确训练(例如，经由训练数据)和/或隐式训练(例如，经由由机器学习模型接收的外在数据)。例如，由机器学习引擎430采用的机器学习模型(例如，分类模型、机器学习分类器等)可通过训练数据(即，输入特征)来训练，该训练数据包括一组上下文关键词语和/或与上下文关键词语相关联的上下文参数。

根据本文所述的各种示例性实施方案，机器学习引擎402可生成机器学习模型，该机器学习模型可使用以下来执行分析(例如，回归或决策树分析)：(a)输入特征(即，从一个或多个历史语音对话中识别的一组上下文关键词语和/或上下文参数)，以及(b)用于提供输出的执行中的工作流的正在进行任务的当前语音对话的语音提示和语音响应的初始少数实例(为了简洁起见，在本文中称为第一语音提示和第一语音响应)。根据一些示例性实施方案，为了生成输出，机器学习引擎430可识别与以下中的一者或多者相关联的模式：(a)上下文关键词语、(b)与上下文关键词语相关联的上下文参数、(c)工作流的正在进行任务的语音提示的初始实例，以及(d)工作流的正在进行任务的语音响应的初始实例。

例如，与可作为输入(410,415…41n)提供给工作流系统400的工作流任务相关联的历史语音对话可包括多个语音提示，该多个语音提示包括用于到达仓库中的位置并且从该位置拾取物品的指令。例如，在一个示例中，语音提示可以是“一条线，H U颜色是紫色，校验数位中间”，“bravo golf One Six alpha Zero Two”等。此外，语音对话还可包括可由操作员响应于语音提示而提供的语音响应。在一些示例中，语音响应可指示以下中的任一者：指示执行工作流任务的该步骤的确认、数据值等。例如，在一个示例中，由操作员提供的语音响应可包括“位置”、“准备就绪”、“8”、“4”等。根据本文所述的各种示例性实施方案，机器学习引擎430通过分析语音对话可识别与从语音对话识别的上下文关键词语相关联的一个或多个模式。一个或多个模式的识别可基于与工作流的每个步骤相关联的上下文。例如，机器学习引擎430可识别通常在语音提示的开始处存在的词语“一条线”。在另一个示例中，机器学习引擎430可识别通常在操作员接收到先前语音提示的30秒内提供语音响应“准备就绪”。另一个示例性模式可以是词语“Bravo”通常在工作流任务的执行期间出现三次。因此，机器学习引擎430可识别此类模式并且使用与上下文关键词语相关联的这些模式来训练可用于生成输出的机器学习模型。机器学习引擎430的输出可与和工作流的正在进行任务的执行相关联的表现状态相关。就这一点而言，由机器学习引擎430采用的机器学习模型的输出可指示任务执行的进度(例如，正常操作、延迟操作、不正确操作)。在一些示例中，机器学习引擎430的输出可以是指示工作流任务执行的进度的分类。例如，对于物品拾取操作，机器学习引擎430的输出可指示分类，诸如正常拾取、延迟拾取、不正确拾取等。

此外，如前所述，机器学习引擎430可在工作流任务的执行过程期间并且在完成之前识别表现状态。此外，响应于表现状态的识别，机器学习引擎430还可输出建议，该建议可由操作员实现以改善与工作流任务的执行相关联的表现状态。在一些示例中，可取决于操作员在执行工作流时面临向前移动的问题的步骤或任务来将建议提供给操作员。

图5示出了根据一个示例性实施方案的示例性语音控制装置500。在图5所示的实施方案中，语音控制装置500可对应于头戴式耳机，该头戴式耳机可包括利用免提轮廓的无线启用的语音识别设备。

根据一些示例性实施方案，头戴式耳机可基本上类似于2014年12月29日提交的美国临时专利申请号62/097480、2015年1月9日提交的美国临时专利申请号62/101568和美国专利申请号14/918969中公开的头戴式耳机，并且其中的公开内容据此以其整体通过引用并入。

根据示例性实施方案，如图所示，语音控制装置500可包括电子模块502。在该实施方案中，一些元件可合并到电子模块502中而不是头戴式耳机503中以提供与长工作班次一致的长电池寿命。例如，电路200的一个或多个部件可合并在电子模块502和/或头戴式耳机503中。在一些示例性实施方案中，电子模块502可远程耦接到轻质且舒适的头戴式耳机503，该头戴式耳机经由头带504固定到工人头部。在一些示例性实施方案中，头带504可以是被设计成适配在工人的头部上、耳朵中、耳朵上方或以其他方式设计成支撑头戴式耳机的带。头戴式耳机503可包括一个或多个扬声器505并且还可包括一个或多个麦克风。例如，在图5所示的实施方案中，头戴式耳机503包括麦克风506、507。根据一些示例性实施方案，麦克风507可通过连续收听和阻挡环境声音来提供噪声消除以增强语音识别并且任选地提供噪声消除。在一些实施方案(未示出)中，电子模块502可集成到头戴式耳机503中，而不是远程耦接到头戴式耳机503。在不偏离本公开的意图的情况下，可使用语音控制装置500的各种配置。

在一些示例性实施方案中，电子模块502可用于卸载头戴式耳机503的若干部件以减小头戴式耳机503的重量。在一些实施方案中，可再充电电池或长寿命电池、显示器、小键盘、

天线和印刷电路板组件(PCBA)电子器件中的一者或多者可包括在电子模块502中和/或以其他方式合并到语音控制装置500中。

在图5所示的实施方案中，头戴式耳机503可经由通信链路诸如小音频电缆508耦接到电子模块502，但是可替代地经由无线链路与电子模块502通信。在示例性实施方案中，头戴式耳机503可以是小轮廓的。例如，在一些实施方案中，头戴式耳机503在外观上可以是简约的，诸如蓝牙耳机/头载受话器。

根据一些示例性实施方案，电子模块502可被配置为与各种类型的头戴式耳机503一起使用。在一些示例性实施方案中，电子模块502可读取头戴式耳机503的唯一标识符(I.D.)，该唯一标识符可存储在语音控制装置500的电路(例如，电路200)中并且还可用于将扬声器和麦克风电子地耦接到电子模块502。在一个实施方案中，音频电缆508可包括用于信号的多个导体或通信线路，该信号可包括扬声器+、扬声器-、接地数字、麦克风、辅助麦克风和麦克风接地。在一些示例中，电子模块502可利用用户可配置的附接件509(诸如塑料环)来附接到用户。例如，在图5所示的实施方案中，电子模块502可经由翻领夹和/或挂带来安装到工人躯干。在一些实施方案中，头戴式耳机503可包括小轻质电池，诸如当可使用头戴式耳机503和电子模块502之间的无线链路时，诸如蓝牙类型的通信链路。通信链路可提供适合于交换语音通信的无线信号。

在一些实施方案中，用于执行话音识别模型的扬声器依赖型训练的语音模板可本地存储在作为电路200的一部分的电子模块502和/或头戴式耳机503中以识别用户的语音交互，并且可将交互转换成基于文本的数据和命令以用于与在电路200中运行的应用程序进行交互。例如，在一个实施方案中，语音控制装置500可利用语音模板来执行语音识别。根据一些示例性实施方案，可在语音控制装置500中执行语音识别的前几个阶段，其中在服务器160上执行另外的阶段。在另外的实施方案中，原始音频可从语音控制装置500传输到服务器160，在该服务器处可完成语音识别的最终阶段。另选地，在一些示例性实施方案中，语音识别可在语音控制装置500上执行。

图6示出了根据本公开的一些实施方案的电子模块502的示例性框图。图6所示的部件可以是除图2所示的电路200的一个或多个部件之外的部件，其可以是电子模块502的一部分。在一些实施方案中，图6所示的部件中的一者或多者可包括在电子模块502和/或语音控制装置(500,104)、电子设备102、操作员设备110A-110N、监管员设备150和/或服务器160的其他部分中。

在图6所示的实施方案中，电子模块502可包括具有连接器510的壳体(诸如塑料壳体)，该连接器可与音频电缆508上的互补配合连接器(未示出)配合。内部路径511可用于在电子模块502的壳体内的多个部件之间进行通信。在一个实施方案中，输入话音预处理器(ISPP)512可将输入话音转换成经预处理的话音特征数据。在一些示例中，输入话音编码器(ISENC)513可对输入话音进行编码以用于传输到电路200的一个或多个其他部分，从而用于重建和回放和/或记录。此外，原始输入音频样本分组格式化器514可使用用于促进语音终端和头戴式耳机503之间的通信的应用层协议作为传输机制来将原始输入音频传输到电路200的一个或多个其他部分。出于传输机制的目的，格式化器514可被抽象为被称为输入音频样本数据(IASD)的编解码器类型。输出音频解码器(OADEC)515对已编码的输出话音和音频进行解码以用于在头戴式耳机503中回放。根据一些示例性实施方案，原始输出音频样本分组读取器516可进行操作以使用传输机制从电路200的一个或多个其他部分接收原始音频分组。出于传输机制的目的，该格式化器514可被抽象为被称为输出音频样本数据(OASD)的编解码器类型。命令处理器517可在电路200的一个或多个其他部分的控制下调整头戴式耳机硬件(例如，输入硬件增益水平)。此外，在一些示例性实施方案中，查询处理器518可允许电路200的一个或多个其他部分检索关于头戴式耳机操作状态和配置的信息。此外，路径511还可耦接到网络电路519以经由有线或无线协议与电路200的一个或多个其他部分进行通信。在一些示例中，ISPP 512、ISENC 513和原始输入音频格式化器514可为传输机制中使用的通信分组的源；OADEC 515和原始输出音频读取器516可以是分组接收器。命令处理器517和查询处理器518为分组接收器以及源两者(一般来讲，它们生成确认或响应分组)。

图7示出了根据本文描述的示例性实施方案的示例性电子设备(例如，电子设备102、操作员设备110A-110N、监管员设备150等)的示意图700。在一些示例性实施方案中，电子设备102可对应于移动手持装置。图7示出了示例性最终用户设备(诸如可为由操作员用于执行工作流的一个或多个任务的电子设备102的用户装备)的示意性框图。

虽然图7示出了移动手持装置，但应当理解，其他设备可以是图1中所述的任何电子设备，并且该移动手持装置仅被示出为提供本文所述的各种实施方案中的实施方案的上下文。为此，以下讨论旨在提供可在其中实现各种实施方案的合适环境的示例的简要的总体描述。虽然本说明书包括体现在机器可读存储介质上的计算机可执行指令的一般性上下文，但本领域的技术人员将认识到，各种实施方案也可与其他程序模块结合和/或作为硬件和软件的组合来实现。

一般来讲，应用程序(例如，程序模块)可包括根据示例性实施方案的本文所述的可执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构等。此外，本领域的技术人员应当理解，本文所述的方法可用其他系统配置来实践，包括单处理器或多处理器系统、小型计算机、大型计算机以及个人计算机、手持式计算设备、基于微处理器或能够编程的消费电子产品等，它们中的每一者都可操作地耦接到一个或多个相关联的设备。

根据一些示例性实施方案，电子设备102、操作员设备110A-110N和语音控制装置104通常可包括各种机器可读介质。机器可读介质可以是可由计算机访问的任何可用介质，并且包括易失性和非易失性介质、可移动和不可移动介质。以举例而非限制的方式，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质可包括易失性和/或非易失性介质、可移动和/或不可移动介质，以用于存储信息的任何方法或技术实现，诸如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质可包括但不限于RAM、ROM、EEPROM、闪存存储器或其他存储器技术、CD ROM、数字通用光盘(DVD)或其他光盘存储设备、磁带盒、磁带、磁盘存储设备或其他磁存储设备，或可用于存储所需信息并且可被计算机访问的任何其他介质。

根据本文所述的一些示例性实施方案，通信介质通常在调制数据信号(诸如载波或其他传输机制)中体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息递送介质。就这一点而言，术语“调制数据信号”可对应于以将信息编码在信号中的方式设置或改变其特性中的一个或多个特性的信号。作为示例而非限制，通信介质包括有线介质(诸如有线网络或直接有线连接)以及无线介质(诸如声学、RF、红外和其他无线介质)。上述任何的组合也可包括在计算机可读介质的范围内。

根据一些示例性实施方案，移动手持装置可包括用于控制和处理所有板载操作和功能的处理器702。存储器704介接到处理器702，用于存储数据以及一个或多个应用程序706(例如，视频播放器软件、用户反馈部件软件等)。其他应用程序可以包括对预先确定的语音命令的语音识别，该语音命令促进用户反馈信号的发起。应用程序706可存储在存储器704和/或固件708中，并且由处理器702从存储器704或/和固件708中的一者或两者执行。固件708还可以存储用于在将移动手持装置初始化时执行的启动代码。通信部件710介接到处理器702，以促进与外部系统(例如，蜂窝网络、VoIP网络等)的有线/无线通信。此处，通信部件710还可包括用于对应信号通信的合适的蜂窝收发器711(例如，GSM收发器)和/或无许可收发器713(例如，Wi-Fi、WiMAX)。移动手持装置可以是具有移动通信能力的设备(诸如蜂窝电话、PDA)，以及以消息为中心的设备。通信部件710还促进从陆地无线电网络(例如，广播)、数字卫星无线电网络和基于互联网的无线电服务网络的通信接收。

移动手持装置还可包括显示器712(例如，显示屏)，该显示器用于显示文本、图像、视频、电话功能(例如，呼叫者ID功能)、设置功能以及用于用户输入。例如，显示器712也可被称为“屏幕”，该屏幕可适应多媒体内容(例如，音乐元数据、消息、墙纸、图形等)的呈现。显示器712还可显示视频，并且可促进视频报价的生成、编辑和共享。提供了与处理器702连通的串行I/O接口714，以促进通过硬线连接和其他串行输入设备(例如，键盘、小键盘和鼠标)的有线和/或无线串行通信(例如，USB和/或IEEE 1384)。例如，这支持对移动手持装置进行更新和故障诊断。音频功能通过音频I/O部件716提供，该音频I/O部件可包括扬声器，该扬声器用于输出与(例如)指示用户按下正确的按键或按键组合以发起用户反馈信号有关的音频信号。音频I/O部件716还促进通过麦克风输入音频信号，以记录数据和/或电话语音数据，以及用于输入电话对话的语音信号。

移动手持装置还可包括插槽接口718，该插槽接口用于容纳卡订户身份模块(SIM)或通用SIM 720形状因数的SIC(订户身份部件)，以及使SIM卡720与处理器702介接。然而，应当理解，SIM卡720可被制造到移动手持装置中并且可以通过下载数据和软件来更新。

移动手持装置还可通过通信部件710处理IP数据流量，以适应来自IP网络(诸如互联网、公司内部网、家庭网络、个人局域网等)的通过ISP或宽带电缆提供商的IP流量。因此，VoIP流量可被移动手持装置利用，并且基于IP的多媒体内容可以编码格式或解码格式接收。

可提供视频处理部件722(例如，相机)以用于对编码的多媒体内容进行解码。视频处理部件822可有助于促进视频报价的生成、编辑和共享。移动手持装置还包括电池和/或AC电源子系统形式的电源724，电源724可通过电源I/O部件726介接到外部电力系统或充电装备(未示出)。

根据一些示例性实施方案，移动手持装置还可包括视频部件730，该视频部件用于处理接收的视频内容以及用于记录和传输视频内容。例如，视频部件730可促进视频报价的生成、编辑和共享。在一些示例性实施方案中，位置跟踪部件732促进在地理上定位移动手持装置。如上文所述，这可在用户自动地或手动地发起反馈信号时发生。根据一些示例性实施方案，用户输入部件734促进用户发起质量反馈信号。就这一点而言，在一些示例中，用户输入部件734还可促进视频报价的生成、编辑和共享。根据本文所述的各种示例性实施方案，用户输入部件734可包括此类常规输入设备技术，诸如小键盘、键盘、鼠标、触笔和/或触摸屏。

再次参见应用程序706，滞后部件736可促进分析和处理滞后数据，该滞后数据用于确定何时与接入点相关联。可提供软件触发部件838，该软件触发部件促进在Wi-Fi收发器713检测到接入点的信标时触发滞后部件738。SIP客户端740使移动手持装置能够支持SIP协议以及通过SIP注册管理服务器注册订户。在一些示例性实施方案中，应用程序706还可包括客户端742，该客户端提供至少发现、播放和存储多媒体内容(例如，音乐)的能力。

在一些示例性实施方案中，如上所述，与通信部件710相关的移动手持装置包括室内网络无线电收发器713(例如，Wi-Fi收发器)。此功能可支持用于双模式GSM手持装置的室内无线电链路，诸如IEEE 802.11。在一些示例性实施方案中，移动手持装置可通过可将无线语音和数字无线电芯片组组合到单个手持设备中的手持装置来适应至少卫星无线电服务。

图8示出了根据本文所述的另一个示例性实施方案的电子设备801的另一个示例的示意图。根据一些示例性实施方案，图8所示的电子设备801可对应于电子设备102、操作员设备110A-110N、监管员设备150和/或服务器160，如参考图1至图7所述。

现在参见图8，其示出了用于运行在所述示例性实施方案中执行的功能和操作的框图。在一些示例性实施方案中，电子设备801可在有线或无线通信网络与服务器和/或通信设备之间提供联网和通信能力。为了为其各个方面提供附加的上下文，图8和以下讨论旨在提供合适的计算环境的简要的一般性描述，在该计算环境中可实现实施方案的各个方面来促进实体与第三方之间交易的建立。虽然以上描述是在可在一个或多个计算机上运行的计算机可执行指令的一般性上下文中，但本领域的技术人员将认识到，各种实施方案也可与其他程序模块结合和/或作为硬件和软件的组合来实现。

根据所述示例性实施方案，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、部件、数据结构等。此外，本领域的技术人员应当理解，本发明的方法可用其他计算机系统配置来实践，包括单处理器或多处理器计算机系统、小型计算机、大型计算机以及个人计算机、手持式计算设备、基于微处理器或能够编程的消费电子产品等，它们中的每一者都可操作地耦接到一个或多个相关联的设备。

各种实施方案的所示方面也可在分布式计算环境中实践，在分布式计算环境中，某些任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中，程序模块可位于本地存储器存储设备和/或远程存储器存储设备中。

根据一些示例性实施方案，计算设备通常包括各种介质，这些介质可包括计算机可读存储介质或通信介质，这两个术语在本文中彼此不同地使用，如下所述。

根据一些示例性实施方案，计算机可读存储介质可以是可由计算机访问的任何可用存储介质，并且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，可以结合用于存储信息(诸如计算机可读指令、程序模块、结构化数据、或非结构化数据)的任何方法或技术来实现计算机可读存储介质。计算机可读存储介质可包括但不限于RAM、ROM、EEPROM、闪存存储器或其他存储器技术、CD ROM、数字通用光盘(DVD)或其他光盘存储设备、磁带盒、磁带、磁盘存储设备或其他磁存储设备，或可用于存储所需信息的其他有形和/或非暂态介质。计算机可读存储介质可由一个或多个本地或远程计算设备例如经由访问请求、查询或其他数据检索协议来访问，以针对该介质存储的信息进行多种操作。

在一些示例中，通信介质可在数据信号(诸如调制数据信号，例如，载波或其他传输机制)中体现计算机可读指令、数据结构、程序模块、或其他结构或非结构化数据，并且包括任何信息递送或运输介质。术语“调制数据信号”或信号是指以将信息编码在一个或多个信号中的方式设置或改变其特性集中的一个或多个的信号。作为示例而非限制，通信介质包括有线介质(诸如有线网络或直接有线连接)以及无线介质(诸如声学、RF、红外和其他无线介质)。

参考图8，实现本文关于最终用户设备描述的各个方面可包括电子设备801，该电子设备包括处理单元804、系统存储器806和系统总线808。系统总线808可被配置为将包括但不限于系统存储器806的系统部件耦接到处理单元804。在一些示例性实施方案中，处理单元804可为各种可商购获得的处理器中的任何一种。为此，在一些示例中，双微处理器和其他多处理器架构也可用作处理单元804。

根据一些示例性实施方案，系统总线808可为可进一步互连到存储器总线(具有或不具有存储器控制器)、外围总线和本地总线的几种类型的总线结构中的任何一种，这些总线使用各种可商购获得的总线架构中的任何一者。在一些示例中，系统存储器806可包括只读存储器(ROM)827和随机存取存储器(RAM)812。根据一些示例性实施方案，基本输入/输出系统(BIOS)存储在非易失性存储器827(诸如ROM、EPROM、EEPROM)中，该BIOS包含有助于在计算设备801内的元件之间传递信息(诸如在启动过程中)的基本例程。RAM 812还可包括高速RAM，诸如用于高速缓存数据的静态RAM。

根据一些示例性实施方案，计算设备801还可包括内部硬盘驱动器(HDD)814(例如，EIDE、SATA)，该内部硬盘驱动器814也可被配置为在合适的机箱(未示出)、磁软盘驱动器(FDD)816(例如，从可移动磁盘818读取或写入到可移动磁盘)和光盘驱动器820(例如，读取CD-ROM盘，或从其他大容量光介质诸如DVD读取或写入到其他大容量光介质)中供外部使用。在一些示例中，硬盘驱动器814、磁盘驱动器816和光盘驱动器820可分别由硬盘驱动器接口824、磁盘驱动器接口826和光盘驱动器接口828连接到系统总线808。根据一些示例性实施方案，用于外部驱动器具体实施的接口824可包括通用串行总线(USB)和IEEE 1394接口技术中的至少一者或两者。其他外部驱动连接技术也在本主题实施方案的设想内。

根据本文所述的一些示例性实施方案，驱动器及其相关联的计算机可读介质提供数据、数据结构、计算机可执行指令等的非易失性存储。对于电子设备801，驱动器和介质适应存储合适的数字格式的任何数据。尽管上面对计算机可读介质的描述是指HDD、可移动磁盘和可移动光学介质(诸如CD或DVD)，但本领域的技术人员可以理解，可由电子设备801读取的其他类型的介质(诸如zip驱动器、磁带盒、闪存存储器卡、磁带等)也可在示例性操作环境中使用，此外，任何此类介质可包含用于执行本发明所公开的实施方案的方法的计算机可执行指令。

在一些示例性实施方案中，多个程序模块可存储在驱动器和RAM 812中，包括操作系统830、一个或多个应用程序832、其他程序模块834和程序数据836。为此，在一些示例中，操作系统、应用程序、模块和/或数据的全部或部分也可被高速缓存在RAM 812中。应当理解，各种实施方案可用各种可商购获得的操作系统或操作系统的组合来实现。

根据一些示例性实施方案，用户可通过一个或多个有线/无线输入设备(例如，键盘)和指向设备(诸如鼠标840)来将命令和信息输入到计算设备801中。其他输入设备(未示出)可包括麦克风、IR遥控器、操纵杆、游戏手柄、触笔、触摸屏等。在一些示例中，这些和其他输入设备通常通过耦接到系统总线808的输入设备接口842连接到处理单元804，但是可由其他接口连接，诸如并行端口、IEEE 1384串行端口、游戏端口、USB端口、IR接口等。

根据一些示例性实施方案，监视器844或其他类型的显示设备也可通过接口(诸如视频适配器846)连接到系统总线808。除了监视器844之外，计算设备801还可包括其他外围输出设备(未示出)，诸如扬声器、打印机等。

根据一些示例性实施方案，计算设备801可使用通过有线和/或无线通信到一个或多个远程计算机(诸如远程计算机848)的逻辑连接来在联网环境中操作。在一些示例中，远程计算机848可为工作站、服务器计算机、路由器、个人计算机、便携式计算机、基于微处理器的娱乐设备、对等设备或其他公共网络节点，并且通常包括关于计算机所述的元件中的许多或全部，尽管为了简洁起见，仅示出了存储器/存储设备850。根据一些示例性实施方案，所描绘的逻辑连接包括到局域网(LAN)852和/或更大的网络(例如广域网(WAN)854)的有线/无线连接。此类LAN和WAN网络环境常见于办公室和公司中，并且促进了企业范围内的计算机网络，诸如企业内部网，所有这些计算机网络都可连接到全球通信网络，例如互联网。

在一些示例中，当在LAN联网环境中使用时，计算设备801可通过有线和/或无线通信网络接口或适配器856连接到LAN 852。适配器856可促进与LAN 852的有线或无线通信，LAN 852也可包括设置在其上的用于与无线适配器856通信的无线接入点。

在另选的示例中，当在WAN联网环境中使用时，计算设备801可包括调制解调器858，或者可连接到WAN 854上的通信服务器，或者具有用于通过WAN 854建立通信的其他装置，诸如通过互联网。调制解调器858可以是内部或外部的有线或无线设备，该设备通过输入设备接口842连接到系统总线808。在联网环境中，关于计算机或其部分所描绘的程序模块可存储在远程存储器/存储设备850中。应当理解，所示的网络连接是示例性的，并且可使用在计算机之间建立通信链路的其他装置。

根据一些示例性实施方案，计算设备801可操作为与可操作地设置在无线通信中的任何无线设备或实体进行通信，例如打印机、扫描仪、台式计算机和/或便携式计算机、便携式数据助理、通信卫星、与可无线检测的标签信息相关的任何装备或位置(例如，信息亭、售报处、盥洗室)，以及电话。这还可包括至少Wi-Fi和Bluetooth^TM无线技术。因此，该通信可以是与常规网络一样的预定义结构，或者仅仅是至少两个设备之间的自组通信。

根据一些示例性实施方案，Wi-Fi或无线保真(Wireless Fidelity)允许在不用网线的情况下从家中的长沙发、酒店房间的床或工作场所的会议室连接到互联网。为此，本文提及的Wi-Fi是类似于在移动电话中使用的无线技术，其使得此类设备例如计算机可在室内和室外以及基站范围内的任何地方发送和接收数据。Wi-Fi网络使用称为IEEE802.11(a、b、g、n等)的无线电技术来提供安全、可靠、快速的无线连接。此外，根据本文所述的一些示例性实施方案，Wi-Fi网络可用于将计算机或该多个电子设备102-10N彼此连接，连接到互联网以及连接到有线网络(这些有线网络使用IEEE802.3或以太网)。Wi-Fi网络以(例如)11Mbps(802.11b)或54Mbps(802.11a)数据速率在无许可2.4和5GHz无线电频带中操作，或者在包含两个频带(双频带)的产品上运行，因此这类网络可提供与许多办公室中使用的基本“9BaseT”有线以太网相似的真实性能。

图9至图11示出了根据本发明的示例性实施方案的由装置(诸如图1的操作员设备(102,104,110A-110N)和/或图1的服务器160中的任一者)执行的操作的示例性流程图。应当理解，流程图中的每个框、以及流程图中的框的组合可以通过各种装置(诸如硬件、固件、一个或多个处理器、电路、和/或与包括一个或多个计算机程序指令的软件的执行相关联的其他设备)来实现。例如，上述过程中的一者或多者可以通过计算机程序指令来体现。在这方面，体现上述过程的计算机程序指令可以由采用本发明的实施方案的装置的存储器存储并由装置中的处理器执行。可以理解，可以将任何这样的计算机程序指令加载到计算机或其他可编程装置(例如，硬件)上以产生一种机器，使得所得计算机或其他可编程装置提供一个或多个流程图框中指定的功能的实施方式。这些计算机程序指令还可以存储在非暂态计算机可读存储存储器中，非暂态计算机可读存储存储器可以指示计算机或其他可编程装置以特定方式工作，使得存储在计算机可读存储存储器中的指令产生一种制品，其执行可实现一个或多个流程图框中指定的功能。计算机程序指令还可以加载到计算机或其他可编程装置上，以使得在计算机或其他可编程装置上执行一系列操作，从而产生计算机实施方法，使得在计算机或其他可编程装置上执行的指令提供用于实现一个或多个流程图框中指定的功能的操作。因此，图9至图11的操作在被执行时，将计算机或处理电路转换成被配置为执行本发明的示例性实施方案的特定机器。因此，图9至图11的操作定义用于配置计算机或处理器以执行示例性实施方案的算法。在一些情况下，可为通用计算机提供处理器的实例，该实例执行图9至图11的算法以将通用计算机变换为被配置为执行示例性实施方案的特定机器。

因此，流程图中的框支持用于执行指定功能的装置的组合以及用于执行指定功能的操作的组合。还将理解，流程图中的一个或多个框以及流程图中的框的组合可以由执行指定功能的基于硬件的专用计算机系统或者专用硬件和计算机指令的组合来实现。

图9示出了根据示例性实施方案的表示用于改善执行工作流操作的表现的方法900的流程图。

方法900在步骤902处开始。在步骤904处，操作员设备110A-110N和/或服务器160中的任一者可包括诸如通信模块240的装置，以接收与工作流的任务(例如，但不限于，物品拾取工作流、循环计数工作流等)相关联的语音对话。语音对话可包括第一语音提示和第一语音响应。操作员可响应于第一语音提示而提供第一语音响应。如较早所述，语音对话可表示以下的序列：(a)可被生成以向操作员提供指令的语音提示，以及(b)可由操作员对于相应语音提示提供的语音响应。换句话讲，语音提示可包括机器生成的指令(例如，口头指令、语音命令、视觉指令等)，该指令可在操作员设备110A-110N上提供给操作员，相应操作员可使用该指令来执行工作流的一个或多个任务。此外，语音响应可包括由操作员响应于相应语音提示而提供的响应。

在步骤906处，操作员设备110A-110N和/或服务器160中的任一者可包括诸如处理器210的装置，以识别与工作流任务的执行相关联的表现状态。根据示例性实施方案，可在提供第一语音提示后的第二语音提示之前识别表现状态。换句话讲，在提供对于第一语音提示的第一语音响应的某个时间内并且在向操作员提供第二语音提示之前，几乎实时地识别表现状态。处理器可基于使用机器学习模型分析语音对话来识别表现状态，如先前参考图4所述。还参考图10描述了表现状态的识别的更多细节。

根据本文所述的一些示例性实施方案，表现状态可指示与工作流任务的执行相关的进度和/或表现。例如，在一个示例中，表现状态可指示任务和/或工作流可在预期时间内执行还是将在预期时间内被延迟/未完成。另选地和/或附加地，在另一个示例中，表现状态可指示任务和/或工作流是否可以预期质量执行。根据一些示例性实施方案，表现状态可指示以下中的至少一者：(a)工作流任务的执行的预期延迟、(b)工作流任务的不正确执行，和/或(c)对应于第一语音提示和第一语音响应的协调间隙。在一些示例中，对应于第一语音提示和第一语音响应的协调间隙可以是由于操作员所提供的对语音提示的意外响应而引起的。换句话讲，协调间隙可指示其中操作员所提供的语音响应与预期语音响应不一致的情况。

例如，工作流的任务可对应于物品拾取操作，其中操作员必须从工业环境(例如，仓库或库存)内的各种存储位置拾取物品(例如，包装、货物、产品等)。在此类场景中，基于语音对话识别的表现状态可指示缓慢拾取或正常拾取，由操作员执行的拾取任务的执行情况。例如，如果拾取物品所花费的时间慢于拾取物品的预期时间，则表现状态可指示由操作员执行的缓慢拾取。因此，在其中拾取物品所花费的时间按照拾取物品的预期时间的情况下，基于语音对话识别的表现状态可指示拾取任务的正常拾取执行。就这一点而言，在拾取工作流活动的执行过程期间，可几乎实时地识别该场景中的表现状态(即，缓慢拾取和/或正常拾取)，即，基于与拾取工作流活动相关的语音提示和/或语音响应的初始交换并且在完成拾取工作流活动的执行之前。

在步骤908处，操作员设备110A-110N和/或服务器160中的任一者可包括诸如处理器210的装置，以生成指示改善任务的表现状态的建议的消息。根据一些示例性实施方案，可在向操作员提供第二语音提示之前生成消息。根据示例性实施方案，消息可以语音提示本身的形式生成，之后为操作员生成与下一个指令相关联的第二语音提示。在另一个示例性实施方案中，消息可被生成为电子设备(例如，操作员设备102、110A-110N)的显示屏上的视觉指令。在一些示例性实施方案中，指示改善表现状态的建议的消息可在完成工作流任务的执行之后提供(例如，但不限于，由监管员以离线方式向操作员提供)。

根据一些示例性实施方案，在步骤908处提供的建议可对应于可由操作员和/或监管员执行以改善工作流任务的执行的表现状态的活动。例如，建议可指示可由操作员执行以致使有效地或更快地执行工作流任务的活动。例如，在一个示例中，建议可指示将工作流任务从操作员重新分配给另一个操作员(即，可更熟练地执行任务的操作员)的选项。在另一个示例中，在其中任务是用于拾取物品的拾取工作流的情况下，建议可指示用于拾取物品的正确位置。类似地，在另一个示例中，建议可指示用于放置物品的正确目的地。在一些示例性实施方案中，建议还可指示用于到达物品拾取位置或物品放置目的地的路线。

在一些其他示例性实施方案中，建议可指示可被执行以改善针对由相应操作员在操作员所使用的操作员设备(102,104,110A-110N)上提供的语音响应的话音识别的活动。例如，在一个示例中，建议可指示要求重新训练由操作员设备(102,104,110A-110N)使用的话音识别模型以识别由操作员提供的语音响应。应当理解，在一些示例性情况下，由于工作环境中存在背景噪声，由操作员提供的语音响应可能未被操作员设备(102,104,110A-110N)识别，由此影响表现状态(例如，导致任务的延迟执行)。就这一点而言，在一个示例中，建议可指示根据工作环境中的噪声水平重新训练话音识别模型。此外，在另一个示例性实施方案中，建议可指示根据执行工作流任务的操作员的扬声器依赖型语音模板来重新训练话音识别模型。此外，在一些示例性实施方案中，建议可指示针对操作员可为优选的新任务或新工作流(例如，根据操作员的技能水平或能力)。

因此，通过本文所述的各种示例性实施方案的具体实施，操作员设备(102,104,110A-110N)可包括诸如处理器210的装置以：(a)基于对正在进行的语音对话(即，当前语音提示和当前语音响应)的分析来接近实时地(即，在工作流任务的执行期间)识别表现状态，以及(b)提供可改善工作流的表现状态的建议。在这方面，在一些示例中，可以“在生产时”(即在工作流任务的执行期间)提供建议。另选地和/或附加地，在一些示例中，可在操作员已执行工作流的任务之后(例如，由监管员)离线地提供建议。方法900在步骤910处停止。

图10示出了根据示例性实施方案的表示用于识别与工作流操作的执行相关联的表现状态的方法1000的流程图。在一些示例性实施方案中，方法1000可由如先前参考图1所述的设备(102,104,110A-110N,150,160)中的任一者执行。根据一些示例性实施方案，方法1000可由工作流系统400执行，如参考图4所述。方法1000在步骤1002处开始。

根据一些示例性实施方案，方法1000可响应于发起工作流任务的执行而开始。例如，如标记为“A”的连接器所示，在一些示例性实施方案中，方法1000可响应于接收到至少包括与工作流任务相关联的第一语音提示和第一语音响应的语音对话而开始。换句话讲，在发起工作流任务的执行时，方法1000可在初始少数语音提示和语音响应的交换之后开始。另选地和/或附加地，在一些示例性实施方案中，方法1000可在执行工作流的任务预定义步骤时开始。例如，在示例性实施方案中，方法1000可响应于识别出可发起方法1000的“触发词语”而开始。触发词语可基于与工作流任务相关联的上下文来定义。例如，触发词语可以是可由操作员作为语音响应提供的“准备就绪”。在另一个示例中，触发词语将是可作为语音提示提供给操作员的“位置”。因此，各种触发词语可用于发起用于识别与工作流的执行相关的表现状态的方法1000。

在步骤1002处，工作流系统400可包括诸如通信接口440的装置，以访问(例如，经由工作流数据库300)包括对应于工作流任务的过去执行的历史语音对话的数据文件。换句话讲，为了执行与工作流的正在进行任务相关联的表现状态的识别，工作流系统400可访问与工作流的任务(例如，相同类型的任务)的历史执行或先前执行相关联的语音对话。稍后参考图12示出和描述了包括历史语音对话或先前语音对话的数据文件的示例。

在步骤1004处，工作流系统400可包括诸如上下文识别模块420的装置，以解析包括历史语音对话的数据文件来识别上下文关键词语。此外，在一些示例性实施方案中，上下文识别模块420还可基于数据文件的解析来识别与上下文关键词语相关联的上下文参数。根据一些示例性实施方案，可通过解析历史语音对话来基于预定义规则来识别上下文关键词语。在一些示例中，历史语音对话的解析还可包括对历史语音对话执行词形归并和字符串处理，并且从历史语音对话中提取特征集。特征集可包括上下文关键词语可存在于的位置的实例。先前参考图4描述了上下文关键词语和/或与上下文关键词语相关联的上下文参数的识别的细节。

在步骤1006处，可提供上下文关键词语和与上下文关键词语相关联的上下文参数作为输入特征以训练机器学习模型。机器学习模型可用于识别与工作流任务的执行相关联的表现状态。移动到步骤1008，工作流系统400可包括诸如机器学习引擎430的装置，该机器学习引擎可使用机器学习模型来识别与上下文关键词语和/或上下文参数相关联的模式。可以与先前参考图4所述的方式类似的方式执行与上下文关键词语和/或上下文参数相关联的模式的识别。

在一些示例中，机器学习引擎430可基于预定义规则来识别与上下文关键词语和上下文参数相关联的模式。在一些示例中，可根据工作流任务的类型来定义预定义规则。换句话讲，可存在用于根据不同类型的任务和/或工作流操作来识别模式的不同规则。为此，应当理解，可存在针对不同类型的工作流执行的各种任务。例如，在材料搬运环境中，针对工作流可存在不同类型，如但不限于可由各种操作员执行的物品拾取工作流、物品放置工作流、货架补充工作流、循环计数工作流等。因此，用于识别模式的预定义规则可取决于工作流的类型而变化。

在步骤1010处，工作流系统400可包括诸如机器学习引擎430的装置，以预测指示与工作流任务的执行相关联的表现状态的分类。如前所述，表现状态可指示工作流任务的执行的进度。例如，表现状态可指示工作流任务的正常执行。在另一个示例中，表现状态可指示工作流任务的延迟执行。在另一个示例中，表现状态可指示工作流任务的快速执行。在另一个示例中，表现状态可指示工作流任务的不正确执行。方法1000在步骤1012处停止。

图11示出了根据示例性实施方案的表示用于提供建议以改善工人在执行工作流操作时的表现的方法1100的流程图。在一些示例性实施方案中，方法1000可由如先前参考图1所述的设备(102,104,110A-110N,150,160)中的任一者执行。方法1100在步骤1102处开始。

在步骤1104处，工作流执行系统100可包括诸如语音控制装置(例如，语音控制装置104)的装置，以提供与工作流任务相关联的第一语音提示。就这一点而言，如先前所述，本文提及的语音提示可表示基于音频/语音的指令，该指令可被提供给操作员以执行与工作流任务相关联的步骤。

例如，工作流操作可与仓库中的各种物品的拾取相关。在这个方面，工作流的任务可以是从仓库中的存储位置拾取物品。因此，在此类示例中，语音控制装置104可提供第一语音提示，该第一语音提示指示仓库中的操作员要从其拾取物品的位置。在这个方面，当到达该位置时，操作员可提供指示操作员已经到达该位置的语音响应。此外，由语音控制装置104提供与拾取其他物品相关的后续语音提示。

在步骤1106处，语音控制装置104可接收响应于第一语音提示的第一语音响应。如前所述，本文所提及的语音响应可表示由操作员响应于语音提示中提供的指令而回复的口头输入。例如，对于拾取操作，第一语音响应可指示操作员在到达该位置时提供的确认。在一个示例中，第一语音响应可指示可用于唯一地识别存储位置的校验数位的数字和/或字母。因此，根据本文所述的各种示例性实施方案，语音控制装置104可响应于提供给操作员的每个语音提示而分别接收语音响应。

移动到步骤1108，语音控制装置104可包括诸如处理器210的装置，该处理器可利用机器学习引擎430来预测与工作流任务的执行相关联的表现状态。如先前参考图4所述，机器学习引擎430可基于分析第一语音提示和第一语音响应来预测表现状态。在该方面，可通过使用与历史语音对话相关联的模式来分析第一语音提示和第一语音响应，如先前参考图1至图10所述。

在步骤1110处，处理器210可确定在步骤1108处预测的表现状态是否指示正常操作。就这一点而言，正常操作可指示操作员依据与工作流的类型相关联的预期时间或质量度量执行工作流任务。根据一些示例性实施方案，表现状态可基于在步骤1108处预测的表现状态与预定义阈值的比较来指示正常操作。例如，在拾取工作流操作的示例中，如果拾取操作是延迟拾取(即，操作员在执行拾取操作的任务时花费的时间超过预期时间)，则表现状态可被确定为不指示正常操作。类似地，对于拾取工作流操作，如果操作员执行拾取操作的步骤所花费的时间小于或等于用于执行该步骤的预期时间，则表现状态可被确定为正常操作。

响应于在步骤1110处确定表现状态指示正常操作，方法移动到步骤1116。另选地，如果表现状态不指示正常操作，则方法移动到步骤1112。

在步骤1112处，处理器210可识别与工作流任务的执行相关的问题。在示例性实施方案中，处理器可如先前所述的那样利用工作流系统400来解析对应于历史数据的数据文件，即语音提示和语音响应的先前交换(例如，与工作流的相同类型的任务相关联)，并且使用第一语音提示、第一语音响应和历史数据来进一步识别模式以识别与工作流任务的执行相关联的问题。

在一个示例中，问题可指示语音对话中的协调间隙，即操作员和语音控制装置104之间的基于语音的消息的交换。例如，协调间隙可指示由语音控制装置104预期的语音响应与由操作员响应于语音提示而提供的实际语音响应之间的不匹配。换句话讲，在一个示例中，问题可指示操作员向语音控制装置104提供的意外或不正确的语音响应。在另一个示例中，问题可与由语音控制装置104执行的话音识别中的故障或错误相关。这可在其中使用扬声器依赖型模板来训练语音控制装置104所使用的话音识别模型的实例中发生，该扬声器依赖型模板不包括执行工作流任务的执行的当前操作员的语音模板。其他类型的问题(例如，电池中断、设备故障、操作员所使用的不正确路线等)可以是可能的，这些问题可致使任务执行的表现状态偏离正常操作。

在步骤1114处，处理器210可生成消息，该消息指示改善任务的表现状态的建议。如先前参考图1至图10所述，根据一些示例，建议对应于可由操作员和/或监管员执行以改善工作流任务的执行的表现状态的活动。换句话讲，在一些示例中，建议可指示可由操作员执行以致使有效地或更快地执行工作流任务的活动。根据本文所述的示例性实施方案，建议可作为可由语音控制装置104的扬声器输出的语音提示和/或可显示在电子设备102的显示屏上的视觉指令来生成。如图1至图10的描述所述，可存在不同类型的建议(例如，将工作流重新分配给另一个工人、重新训练话音识别模型、提供预期语音响应等)，这些建议可被生成并提供给操作员以用于改善表现状态。

因此，通过本文所述的示例性实施方案的具体实施，在一些情况下，在步骤1110处确定表现状态指示不依据正常操作的工作流任务的执行，可向操作员提供建议。另选地，在指示正常操作的表现状态的情况下，方法1100可移动到步骤1116，在该步骤处，可由语音控制装置104将工作流任务中的第一语音提示后的第二语音提示提供给操作员。第二语音提示可包括针对在完成第一提示中提供的指令之后将由操作员执行的下一个步骤的指令。因此，如步骤1118处所示，语音控制装置104可接收响应于第二语音提示的第二语音响应。

这样，在指示正常操作的表现状态的情况下，语音对话(即，由语音控制装置104提供以语音提示形式的指令以及接收对语音提示的语音响应)可继续，直到工作流操作的任务或活动完成。此外，在操作员完成任务的所需步骤时，在步骤1120处，语音控制装置104可提供语音提示(例如，第三语音提示)，该语音提示可指示工作流任务的完成。方法在步骤1122处停止。

图12示出了根据示例性实施方案的描绘可由操作员执行的工作流操作的示例性场景。如图所示，工作环境1200可包括服务器160(例如，仓库管理系统WMS)、语音控制装置104和电子设备102。服务器160、语音控制装置104和电子设备104可通过网络103彼此通信地耦接。如先前参考图1所述，电子设备102和语音控制装置104可对应于可由操作员使用以执行工作流操作的设备(例如，操作员设备110A-110N)。

根据示例性实施方案，操作员可使用语音控制装置104和电子设备102来执行工作流操作的一个或多个任务。在一个示例中，工作流操作可以是用于例如从仓库中的存储位置拾取一个或多个物品的物品拾取操作。就这一点而言，在示例性实施方案中，操作员可穿戴语音控制装置104(例如，头戴式耳机设备)并且从电子设备102接收以语音提示形式的指令以便执行与工作流操作相关联的各种步骤。例如，操作员可在语音控制装置104上接收一个或多个语音提示，该一个或多个语音提示可包括与物品的拾取相关的指令(诸如用于到达存储位置、识别要拾取的物品、确认物品以进行拾取等的指令)。换句话讲，可基于操作员和操作员设备之间的语音对话(即，语音提示和语音响应的交换)来执行工作流操作的各个步骤。

例如，如图12所示，语音对话1202可包括可由语音控制装置104(在本文中称为Talkman)提供给操作员以用于执行工作流操作的步骤的多个语音提示。示例性地，语音提示是“一条线，H U颜色是紫色，校验数位中间”，“bravo golf One Six alpha Zero Two”等。响应于每个语音提示，操作员可执行相应步骤处所需的任务并且提供对语音提示的语音响应。例如，如语音对话1202中所示，由操作员提供的语音响应包括“位置”、“准备就绪”、“8”、“4”等。根据一些示例，语音响应可指示语音提示中指导的任务的执行或不执行。在一些示例中，语音响应可指示以下中的任一者：指示执行工作流任务的该步骤的确认、数据值等。

此外，语音对话可存储在一个或多个数据文件中。如图所示，服务器160可接收对应于语音控制装置104与操作员之间的语音提示和语音响应的交换的数据文件1206。为此，服务器160可将数据文件1206存储在数据库(例如，工作流数据库300，如图3所述)中。此外，根据所述示例性实施方案，工作流系统400可使用数据文件1206来识别与工作流任务的执行相关联的表现状态。

另外，如图所示，电子设备102可向服务器160提供数据消息并且从服务器160接收一个或多个主机响应。在一些示例中，数据消息可包括例如但不限于与针对使用电子设备102来执行的工作流的各种任务的语音对话(即，语音提示和语音响应的交换)有关的信息、针对从服务器160下载包括工作流和与工作流相关联的指令的文件的请求、用于根据操作员执行电子设备104的访问控制或基于角色的配置的配置文件等。

根据示例性实施方案，在发起工作流操作的执行时，电子设备102和语音控制装置104可保持工作流状态1203和操作员状态1204，如图12所示。工作流状态1203和操作员状态1204可表示当前可能正在执行的工作流步骤的应用程序状态。根据示例性实施方案，为了有效地执行工作流的每个步骤，工作流状态和操作员状态可彼此同步。换句话讲，在工作流的有效执行期间，由语音控制装置104提供的语音提示与由操作员提供的语音响应之间的协调将使得从工作流状态和操作员状态中的每一者的当前状态到下一状态的状态改变应同时发生。就这一点而言，工作流状态和操作员状态的状态可在执行工作流的每个步骤时改变。下面段落描述了在执行工作流操作的每个步骤时的工作流状态和操作员状态的状态改变的示例。

在一个示例中，对于物品拾取操作工作流，如图所示，工作流状态1203和操作员状态1204可为“订单信息”、“位置信息+类型”、“位置验证”、“材料信息”等。就这一点而言，在发起物品拾取操作工作流的执行时，与订单信息相关联的第一语音提示可从语音控制装置104提供给操作员。因此，在这种情况下，工作流状态的状态可为“订单信息”。此外，响应于第一语音提示，操作员可提供指示操作员确认订单信息的第一语音响应。在这种情况下，操作员状态的状态也可以是“订单信息”。此外，可以向操作员提供与用于拾取物品的位置和物品类型信息相关联的第二语音提示。这可将工作流状态的状态移动到“位置信息+类型”。此外，当操作员到达用于拾取物品的位置时，操作员可以提供第二语音响应，该第二语音响应可指示校验数位或操作员处于期望位置的确认。在这个阶段，操作员状态可以是“位置信息+类型”。因此，以类似方式，可在工作流的每个步骤被执行时改变工作流状态和操作员状态的状态。

根据本文所述的各种示例性实施方案，在一些情况下，在执行工作流的任务期间，在工作流状态和操作员状态之间可存在协调间隙。例如，参考语音对话1202，可观察到类似的语音提示(例如，“一条线，H U颜色是紫色，校验数位中间”，“bravo golf One Six alphaZero Two”)由语音控制装置104(例如，Talkman)重复地提供给操作员。在一些示例中，这可能发生，因为操作员可能未向语音控制装置104提供预期语音响应。在一些示例中，操作员可提供期望的语音响应，然而，语音控制装置104的话音识别引擎可能未识别由操作员提供的语音响应。就这一点而言，如先前参考图1至图11所述，可几乎实时地识别与工作流任务的执行相关的表现状态以用于识别此类问题(例如，工作流状态1203与操作员状态1204之间的协调间隙)。换句话讲，可识别表现状态以指示工作流任务的执行是否正常进行。此外，如先前参考图1至图11所述，可提供建议以改善任务的表现状态。

如图所示，对于物品拾取工作流操作，在示例性实施方案中，服务器160可包括诸如处理单元的装置，以分析语音对话1202并且确定(1208)拾取操作是作为正常拾取还是缓慢拾取来执行。在这方面，在拾取操作作为正常拾取执行的情况下，服务器160可指示电子设备104和语音控制装置104继续执行工作流任务并且移动到下一个步骤。另选地，如前所述，可向操作员提供上下文建议。可在语音控制装置104和/或电子设备102处接收上下文建议。因此，通过本文所述的各种示例性实施方案的具体实施，可识别指示工作流操作任务的执行的进度和/或表现的表现状态。此外，基于表现状态，可提供用于改善表现状态的上下文建议。这将导致改善的工作流操作的执行，由此增加操作员的生产率和工作环境的总吞吐量。

在一些示例实施方案中，可如下所述修改或进一步放大本文中的操作中的一些。此外，在一些实施方案中，还可包括附加任选的操作。应当理解，本文描述的修改、任选的添加或扩增中的每一个可单独地或与本文描述的特征中的任何其他特征组合地包括在本文的操作中。

提供前述方法描述和过程流程图仅作为说明性示例，并且不旨在要求或暗示必须以所呈现的顺序执行各种实施方案的步骤。如本领域技术人员将理解的，上述实施方案中的步骤顺序可以以任何顺序执行。词语诸如“之后”、“然后”、“下一个”等并不旨在限制步骤的顺序；这些词只是用来引导读者了解方法的描述。此外，例如，使用冠词“一个”、“一种”或“该”对单数形式的权利要求元素的任何引用都不应被解释为将元素限制为单数。

结合本文中所公开的实施方案描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件或两者的组合。为了清楚地示出硬件和软件的这种可互换性，上文已经大体上根据其功能描述了各种说明性部件、块、模块、电路和步骤。将此类功能实施为硬件还是软件取决于特定应用和施加在整个系统的设计约束。技术人员可以针对每个特定应用以不同的方式实现所描述的功能，但是此类具体实施决策不应被解释为导致偏离本发明的范围。

用于实施结合本文公开的方面描述的各种说明性逻辑、逻辑块、模块和电路的硬件可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散栅极或晶体管逻辑、离散硬件部件或设计用于执行本文描述的功能的任何组合来实施或执行。通用处理器可以是微处理器，然而或者，处理器可以是任何传统的处理器、控制器、微控制器或状态机。处理器可还被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、结合DSP核心的一个或多个微处理器或者任何其他此类构型。另选地，一些步骤或方法可以通过特定于给定功能的电路来执行。

在一个或多个示例性方面，所描述的功能可以以硬件、软件、固件或它们的任何组合来实现。如果以软件实现，则这些功能可作为一个或多个指令或代码存储在非暂态计算机可读介质或非暂态处理器可读介质上。本文公开的方法或算法的步骤可体现在处理器可执行软件模块(或处理器可执行软件指令)中，该处理器可执行软件模块可驻留在非暂态计算机可读或处理器可读存储介质上。非暂态计算机可读或处理器可读存储介质可以是可由计算机或处理器访问的任何存储介质。作为示例而非限制，此类非暂态计算机可读或处理器可读介质可包括RAM、ROM、EEPROM、闪存存储器、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁存储设备，或者可用于以指令或数据结构的形式存储所需程序代码并且可以由计算机访问的任何其他介质。如本文所用，磁盘和光盘包括压缩光盘(CD)、激光盘、光盘、数字通用光盘(DVD)、软磁盘及Blu-ray光盘，其中磁盘通常以磁性方式复制数据，而光盘则利用激光以光学方式复制数据。上述的组合也包括在非暂态计算机可读和处理器可读介质的范围内。另外，方法或算法的操作可作为代码和/或指令的一个或任意组合或集合驻留在非暂态处理器可读介质和/或计算机可读介质上，其可以并入计算机程序产品中。

尽管上文已经示出和描述了根据本文所公开的原理的各种实施方案，但在不脱离本公开的实质和教导的情况下，本领域的技术人员可以对其做出修改。本文所述的实施方案仅是代表性的而并非意在进行限制。许多变化、组合和修改都是可能的，且在本公开的范围内。由于合并、整合和/或省略一个或多个实施方案的特征而得到的替代实施方案也在本公开的范围内。因此，保护范围不受上面给出的描述的限制，而是由以下的权利要求书限定，该范围包括权利要求书的主题的所有等价物。每一项权利要求作为进一步的公开内容并入说明书中，并且权利要求书为一个或多个本发明的一个或多个实施方案。此外，任何上述优点和特征可涉及特定实施方案，但不应将此类公布的权利要求的应用限制为实现任何或所有以上优点或具有任何或所有以上特征的方法和结构。

此外，本文所使用的章节标题是为了与37C.F.R.1.77的建议一致或者提供组织线索。这些标题不应限制或表征可以从本公开公布的任何权利要求书中所阐述的一个或多个发明。例如，“背景技术”中的技术的描述不应被解读为承认某项技术是本公开中的任何发明的现有技术。“发明内容”也不应被认为是在公布的权利要求书中所阐述的一个或多个发明的限制性表征。此外，本公开中对单数形式的“发明”的任何提及不应被用于证明在本公开中仅有一个新颖点。根据从本公开公布的多个权利要求的限制，可以阐述多个发明，并且此类权利要求相应地限定了由其保护的一个或多个发明以及其等同形式。在所有情况下，这些权利要求的范围应根据本公开按照权利要求自身的优点来考虑，而不应受到本文所陈述的标题的限制。

此外，在不脱离本公开的范围的情况下，可以将在各个实施方案中被描述和示出为分立或独立的技术、系统、子系统和方法与其它系统、模块、技术或方法结合或集成。被示出或讨论为彼此直接耦接或通信的其它项可以通过一些接口、装置或中间部件间接耦接或通信，而不论是通过电的方式、机械的方式还是其它方式进行这种耦接或通信。本领域技术人员可确定并且在不脱离本文所公开的实质和范围的情况下可以做出变化、替换和变更的其它示例。

本发明所属领域的技术人员将想到本文所阐述的本发明的许多修改和其他实施方案，其具有前述描述和相关附图中呈现的教导的益处。尽管附图仅示出了本文描述的装置和系统的某些部件，但应当理解，各种其他部件可与供应管理系统结合使用。因此，应当理解，本发明不限于所公开的特定实施方案，并且修改和其他实施方案旨在被包括在所附权利要求的范围内。例如，可以将各种元件或部件结合或集成到另一个系统中，或者可以省略或不实现某些特征。此外，上述方法中的步骤可能不一定以附图中所描绘的顺序发生，并且在一些情况下，所描绘的步骤中的一个或多个可基本上同时发生，或者可涉及附加步骤。尽管本文采用了特定术语，但它们仅以一般性和描述性意义使用，而不是出于限制的目的。

应当理解，可将任何此类计算机程序指令和/或其他类型的代码加载到计算机、处理器或其他可编程装置的电路上以产生机器，使得在该机器上执行代码的计算机、处理器、其他可编程电路形成用于实现各种功能(包括本文所述的那些功能)的装置。

还应注意，本文所讨论的示例性显示器所呈现所有或一些信息可基于由本地或联网系统和/或电路200的一个或多个部件接收、生成和/或维护的数据。在一些实施方案中，还可利用一个或多个外部系统(诸如远程云计算和/或数据存储系统)来提供本文所讨论的至少一些功能。

如上所述且基于本公开应当理解，本发明的实施方案可被配置为方法、个人计算机、服务器、移动设备、后端网络设备等。因此，实施方案可包括各种装置，这些装置包括完全硬件或者软件和硬件的任何组合。此外，实施方案可采取至少一个非暂态计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品具有体现在存储介质中的计算机可读程序指令(例如，计算机软件)。可利用任何合适的计算机可读存储介质，包括非暂态硬盘、CD-ROM、闪存存储器、光存储设备或磁存储设备。

已在上文参考方法、装置、系统和计算机程序产品的框图和流程图图示描述了本发明的实施方案。应当理解，电路图和过程流程图的每个方框以及电路图和过程流程图中的方框组合可分别由包括计算机程序指令的各种装置实现。可将这些计算机程序指令加载到通用计算机、专用计算机或其他可编程数据处理装置，诸如上文参考图2所讨论的处理器210、工作流数据库300和/或工作流系统400上，以产生机器，使得计算机程序产品包括在计算机或其他可编程数据处理装置上执行的指令，该计算机或其他可编程数据处理装置形成用于实现一个或多个流程图方框中指定的功能的装置。

还可将这些计算机程序指令存储在计算机可读存储设备(例如，存储器220)中，该计算机可读存储设备可以指示计算机或其他可编程数据处理装置以特定方式工作，使得存储在计算机可读存储设备中的指令产生一种物品，该物品包括用于实现本文所讨论的功能的计算机可读指令。还可将计算机程序指令加载到计算机或其他可编程数据处理装置上，以使得在计算机或其他可编程装置上执行一系列操作步骤，从而产生计算机实现的过程，使得在计算机或其他可编程装置上执行的指令提供用于实现本文所讨论的功能的步骤。

因此，框图和流程图图示的方框支持用于执行指定功能的装置的组合、用于执行指定功能的步骤的组合以及用于执行指定功能的程序指令装置。还应当理解，电路图和过程流程图的每个方框以及电路图和过程流程图中的方框组合可由执行指定功能或步骤的基于专用硬件的计算机系统或者专用硬件和计算机指令的组合来实现。

Claims

1.一种语音控制装置，所述语音控制装置包括：

麦克风；

扬声器；

处理器，所述处理器通信地耦接到所述麦克风和所述扬声器中的至少一者，其中所述处理器被配置为：

经由所述扬声器生成与工作流的任务相关联的语音提示；

响应于所述语音提示，经由所述麦克风来识别来自工人的语音响应，其中所述语音提示和所述语音响应构成语音对话；

在提供所述语音提示后的下一个语音提示之前，基于使用机器学习模型分析所述语音对话来识别与所述任务的执行相关联的表现状态；以及

生成包括改善所述任务的所述表现状态的建议的消息。

2.根据权利要求1所述的语音控制装置，其中所述表现状态指示以下中的至少一者：

所述工作流的所述任务的执行的延迟；

对应于所述语音提示和由所述工人提供的所述语音响应的协调间隙；以及

所述工作流的所述任务的不正确执行。

3.根据权利要求1所述的语音控制装置，其中所述处理器被配置为：

访问包括对应于所述任务的过去执行的历史语音对话的数据文件；

解析所述数据文件以从所述历史语音对话中的多个历史语音响应中识别上下文关键词语和与所述上下文关键词语相关联的上下文参数，其中所述上下文参数包括以下中的至少一者：所述历史语音对话中的所述上下文关键词语的出现频率，以及对应于所述上下文关键词语在所述历史语音对话中的每次出现的定时信息；以及

提供所述上下文关键词语和所述上下文参数作为输入特征以训练所述机器学习模型。

4.根据权利要求3所述的语音控制装置，其中所述处理器被进一步配置为：

使用所述机器学习模型来识别与所述上下文关键词语和所述上下文参数相关联的模式，其中所述机器学习模型基于根据所述工作流的任务的类型定义的预定义规则来识别所述模式；以及

通过使用所述模式来预测指示与所述任务的执行相关联的所述表现状态的分类。

5.根据权利要求1所述的语音控制装置，其中所述建议指示以下中的至少一者：

用于拾取物品的正确位置；

用于放置所述物品的正确目的地；

用于到达以下中的一者的路线：物品拾取位置或物品放置目的地；

根据所述工作流的对于所述语音提示的预期语音响应；

根据工作环境中的噪声水平来重新训练话音识别模型；

根据扬声器依赖型语音模板来重新训练所述话音识别模型；

针对所述工人为优选的新工作流；以及

将所述工人的所述任务重新分配给另一个工人的选项。

6.根据权利要求1所述的语音控制装置，其中所述任务是拾取物品，并且其中处理器被配置为识别指示以下中的一者的所述表现状态：

缓慢拾取，在拾取所述物品所花费的时间慢于拾取所述物品的预期时间的情况下；以及

正常拾取，在拾取所述物品所花费的所述时间与拾取所述物品的所述预期时间一致的情况下。