CN114556377A

CN114556377A - 机器人过程自动化中的强化学习

Info

Publication number: CN114556377A
Application number: CN202080072480.6A
Authority: CN
Inventors: P·辛格; M·A·伊达尔戈
Original assignee: Yupas Co
Current assignee: Yupas Co
Priority date: 2019-10-15
Filing date: 2020-08-18
Publication date: 2022-05-27
Also published as: US11775860B2; EP4046085A4; JP2022552130A; US20210110300A1; EP4046085A1; WO2021076222A1; KR20220079838A

Abstract

强化学习可以被使用以训练由机器人实现的针对机器人过程自动化(RPA)的机器学习(ML)模型。策略网络可以被采用，其通过提供特定的输入来学习实现确定的输出。换句话说，策略网络告知系统它是否越来越接近获胜状态。策略网络可以由机器人自动地或者在人类的定期协助下被改进，以便达到获胜状态，或者达到更优的获胜状态。机器人也可以创造其他的利用强化学习的机器人。

Description

机器人过程自动化中的强化学习

相关申请的交叉引用

本申请要求2019年12月9日提交的申请号为16/707,858的美国非临时专利申请和2019年10月15日提交的申请号为62/915,358的美国临时专利申请的权益。这些较早提交的申请的主题通过引用其整体而并入本文。

技术领域

本发明总体上涉及机器人过程自动化(RPA)，更具体地涉及RPA中的强化学习。

背景技术

大多数目前的机器学习算法利用历史数据作为学习的基础。然而，在强化学习中，既要利用现有知识，又要探索未知事物，两者的使用之间要达到平衡。在探索中，由当前知识引导的随机动作被采用以试图接近目标函数(即，“获胜”状态)。换句话说，当未达到获胜状态时，这种算法实现探索功能。这种技术已经被用来教计算机玩“突围”和“围棋”游戏。

强化学习不在RPA的环境中被使用。此外，传统的强化学习技术需要大量的计算能力和大量的时间，这使得它们不适用于许多应用。因此，改进的强化学习解决方案可能是有益的。

发明内容

本发明的某些实施例可以针对当前RPA技术尚未被完全标识、理解或者解决的本领域中的问题和需求提供解决方案。例如，本发明的一些实施例涉及RPA中的强化学习。

在一个实施例中，一种使用强化学习来训练针对RPA的ML模型的计算机实现的方法包括：通过使用ML模型对训练数据运行模拟来训练ML模型。ML模型具有奖励函数。当ML模型没有实现由奖励函数基于一个或多个标准定义的收敛时，计算机实现的方法包括：请求人类协助，监测由人类在计算系统上采取的动作，以及基于由人类采取的动作，修改ML模型的策略网络、奖励函数或两者。

在另一实施例中，一种使用强化学习来训练针对RPA的ML模型的计算机实现的方法包括：使用ML模型对训练数据运行模拟。ML模型具有奖励函数。当ML模型没有实现由奖励函数基于一个或多个标准定义的收敛时，计算机实现的方法包括：监测由人类在计算系统上采取的动作，以及基于由人类采取的动作，修改ML模型的策略网络、奖励函数或两者。计算机实现的方法包括重复以下步骤直到收敛被实现：使用ML模型对训练数据运行模拟，监测由人类在计算系统上采取的动作，以及修改策略网络、奖励函数或两者。

在另一实施例中，一种使用强化学习来训练针对RPA的ML模型的计算机实现的方法包括：使用策略网络训练ML模型。ML模型具有奖励函数。计算机实现的方法还包括：部署经训练的ML模型。经训练的ML模型的部署包括：修改由RPA机器人实现的RPA工作流中的一个或多个活动，以调用经训练的ML模型。计算机实现的方法还包括由RPA机器人在运行时调用经训练的ML模型。

附图说明

为了便于理解本发明某些实施例的优点，将参考附图中所示的具体实施例，对上文简要描述的本发明进行更详细的描述。虽然应当理解，这些附图仅描绘了本发明的典型实施例，因此不被认为是对其范围的限制，但是将通过使用附图以附加的特征和细节来描述和解释本发明，在附图中：

图1是图示根据本发明实施例的RPA系统的架构图。

图2是图示根据本发明实施例的已部署的RPA系统的架构图。

图3是图示根据本发明实施例的设计方、活动和驱动器之间关系的架构图。

图4是图示根据本发明实施例的RPA系统的架构图。

图5是图示根据本发明实施例的被配置为在RPA中实现强化学习的计算系统的架构图。

图6是图示根据本发明实施例的在RPA中实现强化学习的过程的流程图。

具体实施方式

一些实施例涉及RPA中的强化学习。在强化学习中，存在探索阶段。过程挖掘可以提供系统的各种状态(例如，通过在计算系统上部署监听器并且收集与用户、机器人或两者在那些计算系统上采取的动作有关的信息，诸如点击按钮、打开/关闭应用程序、输入文本等)。通过指定开始状态(例如，电子邮件地址集合)和结束状态(例如，在

中被正确输入的结束了的所有电子邮件地址)，系统可以尝试使用奖励函数从开始状态到结束状态随机地找到解决方案，奖励函数探索中间转变和具有短期奖励和长期奖励的步骤，以指导状态空间的搜索。例如，对于交易，可以要求系统保持随机交易，直到赚钱。

然而，系统需要一些指导来实现该目标。如果在某些标准(例如，一定次数的尝试、预定的时间量等)上没有达成解决方案，系统可以请求人工指导。这个过程可以被重复，直到找到解决方案。

一些实施例采用调整(tweak)和定义奖励函数的策略网络。在一些实施例中，这可以通过系统观察人类采取的动作来实现。如果人类通过在计算系统上采取动作来更正操作，无论是否知道他或她正在与机器人交互，策略网络都可以从该动作中学习并且将其并入奖励函数中。这有助于机器人更接近奖励功能目标。换句话说，策略网络告知机器人它是否越来越接近获胜状态。如本文中所使用的，获胜状态可能与游戏无关。相反，任何合适的期望结果，包括但不限于正确识别图像中的面部或者人类情感、处理文档、以期望的方式控制车辆，或者任何其他合适的期望结果，而不脱离本发明的范围。

为了更接近获胜状态，机器人可以分析基本(underlying)分布。如果结果落在相同的范围内(例如，在半个标准偏差内、一个标准偏差内等)，这提供了关于机器人性能的信息。分析可以是查找函数、统计分布等。例如，如果机器人无法登录

机器人可以观察人类登录。换句话说，机器人可以监测由人类做出的应用编程接口(API)调用(例如，人类点击用户名字段、输入用户名、点击密码字段、输入密码、并且点击提交按钮)。

一些实施例不执行完全随机的探索，而是通过策略网络来确定策略应该是什么。这可以极大地减少实现获胜状态所需的模拟数量，这使得经由强化学习被训练的机器学习(ML)模型能够被更快地开发和部署，使用更少的计算硬件资源被训练，或者两者兼有。实际上，在一些实施例中，强化学习可以在用户自己的计算系统上执行，诸如台式计算机、膝上型计算机、智能电话等，这在传统上通常是不可能的。

例如，在与用户界面交互的上下文中，机器人可以在屏幕上随机点击，以确定可点击的内容。强化学习则可以被使用以推进期望的自动化。例如，如果给定电子邮件地址的电子表格和期望的电子邮件文本，强化学习可以被使用以发现哪个可点击的按钮打开电子邮件应用，发现应该在电子邮件中的哪里输入不同的文本，以及发现点击哪个按钮来发送电子邮件。在本示例中，策略网络可以被使用以首先确定发送电子邮件是否可能或者需要。一旦做出该确定，策略网络则可以确定来自电子表格的电子邮件地址和电子邮件正文是否可以在发送之前被复制到电子邮件中。

对于复杂的用例，最初确定奖励函数应当是困难的或者不可能的。例如，考虑这样一种情况，试图使用来自摄像机的视频供应(feed)来推断人类正在做什么。例如，如果奖励函数没有足够快地收敛或者根本没有收敛，人类可以参与进一步细化奖励函数。可以在设计时提供受控环境，用于测试和训练ML模型，并且用于改进奖励函数。在运行时，新的或者改进的ML模型可以被部署，并且由机器人实现的工作流可以被修改，以通过修改工作流中的相应活动来调用新的或者改进的ML模型。

作为非限制性示例，考虑希望训练RPA机器人学习如何使用强化学习在

(其中有数百万个链接)上找到最低单位价格。虽然机器人可以能够在模拟环境中随机探索链接并且四处点击，但对于机器人来说，有太多的选项要合理地跟随并且实现收敛到获胜状态。人类可以首先审查机器人的动作并且提供一些指导(例如，通过手动操作向机器人显示如何输入关键字以及点击哪里)。机器人观察这些动作，然后学会不盲目点击。一旦给定了这个输入，机器人就可以进一步训练和探索。然后，机器人修改它的策略网络，更接近期望的结果。人类可以继续周期性地提供一些引导，或者继续在某些条件下提供引导，直到机器人具有足够的引导来实现收敛。

因此，人类可以在训练中的任何期望的层、个性化等方面协助机器人，以使ML模型更有效。何时以及是否涉及人类可能取决于具体的应用和行为。例如，如果ML模型的性能下降超过某个阈值，则可以触发系统向人类询问接下来的步骤和/或示例。在

的示例中，如果机器人执行了10,000次点击而没有获得答案，则人工审查和指导可以被启动。

在一些实施例中，机器人可以利用强化学习自行自动构建策略网络。这些策略网络可以基于对给定场景中人类与计算系统的交互的观察(例如，哪些API被调用)来构建。在某些实施例中，RPA机器人本身可以构建实现强化学习的其他机器人。

图1是图示根据本发明实施例的RPA系统100的架构图。RPA系统100包括允许开发方设计和实现工作流的设计方110。设计方110可以提供用于应用集成以及自动化第三方应用、管理信息技术(IT)任务和商业IT过程的解决方案。设计方110可以促进自动化项目的开发，该自动化项目是业务过程的图形表示。简而言之，设计方110促进工作流和机器人的开发和部署。

自动化项目通过给予开发方对执行顺序和在工作流中开发的自定义步骤集之间的关系的控制，来启用基于规则的过程的自动化，在本文中工作流被限定为“活动”。设计方110的实施例的一个商业示例是UiPath Studio^TM。每个活动可以包括动作，诸如点击按钮、读取文件、写入记录面板等。在一些实施例中，工作流可以是嵌套的或者嵌入的。

工作流的一些类型可以包括但不限于序列、流程图、有限状态机(FSM)和/或全局异常处理程序。序列可以特别适合线性过程，使能够从一个活动流向另一活动，而不会使工作流变得混乱。流程图可以特别适合更复杂的业务逻辑，通过多个分支逻辑操作符以更多样化的方式启用决策的集成和活动的连接。FSM可以特别适合大型工作流。FSM可以在它们的执行中使用有限数目的状态，这些状态由条件(即，转换)或者活动触发。全局异常处理程序可以特别适合用于在遇到执行错误时确定工作流行为以及用于调试过程。

一旦在设计方110中开发出工作流之后，指挥方120协调业务过程的执行，指挥方120协调一个或多个机器人130执行设计方110中已开发的工作流。指挥方120的实施例的一个商业示例是UiPath Orchestrator^TM。指挥方120促进管理环境中资源的创建、监控和部署。指挥方120可以充当与第三方解决方案和应用的集成点或者聚合点中的一个。

指挥方120可以管理机器人130的编队、从集中点连接和执行机器人130。可以被管理的机器人130的类型包括但不限于：有人参与机器人132、无人参与机器人134、开发机器人(类似于无人参与机器人134，但用于开发和测试目的)和非生产机器人(类似于有人参与机器人132，但用于开发和测试目的)。有人参与机器人132由用户事件触发，并且在同一计算系统上与人类一起工作。有人参与机器人132可以与指挥方120一起用于集中式过程部署和记录介质。有人参与机器人132可以帮助人类用户完成各种任务，并且可以由用户事件触发。在一些实施例中，过程不能从这种类型的机器人上的指挥方120启动，和/或它们不能在锁定的屏幕下运行。在某些实施例中，有人参与机器人132只能从机器人托盘或者从命令提示符来启动。在一些实施例中，有人参与机器人132应当在人类的监督下运行。

无人参与机器人134在虚拟环境中无人参与地运行并且可以自动化数个过程。无人参与机器人134可以负责远程执行、监控、调度和针对工作队列提供支持。在一些实施例中，针对所有机器人类型的调试可以在设计方110中运行。有人参与机器人和无人参与机器人两者可以自动化各种系统和应用，包括但不限于大型机、web应用、VM、企业应用(例如，由

等生产的应用)、以及计算系统应用(例如，桌面和膝上型应用、移动设备应用、可穿戴计算机应用等)。

指挥方120可以具有各种功能，包括但不限于供应、部署、版本控制(versioning)、配置、排队、监控、记录和/或提供互连性。供应可以包括：创建和维护机器人130与指挥方120之间的连接(例如，web应用)。部署可以包括：确保将数据包版本正确地递送给指定的机器人130用于执行。版本控制可以包括一些实施例中的一些过程或配置的专有实例的管理。配置可以包括机器人环境和过程配置的维护和递送。排队可以包括：提供队列和队列项的管理。监控可以包括：跟踪机器人标识数据和维护用户许可。记录可以包括：将记录存储到和索引到数据库(例如，SQL数据库)和/或另一存储机制(例如，提供存储和快速查询大型数据集的能力的

)。指挥方120可以通过充当针对第三方解决方案和/或应用的集中通信点来提供互连性。

机器人130是运行设计方110内置工作流的执行代理。(多个)机器人130的一些实施例的一个商业示例是UiPath Robots^TM。在一些实施例中，机器人130默认安装微软

服务控制管理器(SCM)管理的服务。因此，此类机器人130可以在本地系统账户下打开交互式

会话，并且具有

服务的权限。

在一些实施例中，机器人130可以以用户模式安装。针对这种机器人130，这意味着它们具有与已经安装的给定机器人130的用户相同的权利。此功能也可以用于高密度(HD)机器人，确保机器中的每个机器的最大潜能得到充分利用。在一些实施例中，可以在HD环境中配置任何类型的机器人130。

某些实施例中的机器人130分为多个组件，每个组件专用于特定的自动化任务。一些实施例中的机器人组件包括但不限于SCM管理的机器人服务、用户模式机器人服务、执行方、代理和命令行。SCM管理的机器人服务对

会话进行管理和监控，并且充当指挥方120与执行主机(即，机器人130在其上被执行的计算系统)之间的代理。这些服务可以被委托并且管理针对机器人130的凭证。本地系统下的SCM启动控制台应用。

在一些实施例中，用户模式机器人服务管理和监控

会话，并且充当指挥方120与执行主机之间的代理。用户模式机器人服务可以被委托并且管理针对机器人130的凭证。如果没有安装SCM管理的机器人服务，则

应用可以自动启动。

执行方可以在

会话下运行给定作业(即，它们可以执行工作流)。执行方可以知道每个监控器的每英寸点数(DPI)设置。代理可以是在系统托盘窗口中显示可用作业的

呈现基础(WPF)应用。代理可以是服务的客户端。代理可以请求启动或者停止作业以及更改设置。命令行是服务的客户端。命令行是控制台应用，其可以请求启动作业并且等待其输出。

如上所述地将机器人130的组件分开有助于开发方、支持用户和计算系统更轻松地运行、标识和跟踪每个组件正在执行什么。可以以这种方式为每个组件配置特殊行为，诸如针对执行方和服务设置不同的防火墙规则。在一些实施例中，执行方可以总是知道每个监控器的DPI设置。因此，工作流可以在任何DPI处执行，而无论创建工作流的计算系统的配置如何。在一些实施例中，来自设计方110的项目也可以独立于浏览器缩放级别。对于不知道DPI或者故意地标记为不知道的应用，在一些实施例中可以禁用DPI。

图2是图示根据本发明实施例的已部署RPA系统200的架构图。在一些实施例中，RPA系统200可以是图1的RPA系统100，或者可以是其部分。应当注意，客户端侧、服务器侧或两者可以包括任何期望数目的计算系统，而不脱离本发明的范围。在客户端侧，机器人应用210包括执行方212、代理214和设计方216。然而，在一些实施例中，设计方216可以不在计算系统210上运行。执行方212正在运行过程。多个业务项目可以同时运行，如图2所示。在本实施例中，代理214(例如，

服务)是针对所有执行方212的单联系点。本实施例中的所有消息都被记录到指挥方230中，指挥方230经由数据库服务器240、索引器服务器250或两者进一步处理它们。如上关于图1所述，执行方212可以是机器人组件。

在一些实施例中，机器人代表机器名称与用户名之间的关联。机器人可以同时管理多个执行方。在支持同时运行的多个交互式会话的计算系统(例如，

服务器2012)上，多个机器人可以同时运行，每个机器人使用唯一的用户名在单独的

会话中运行。这就是上面提到的HD机器人。

代理214还负责发送机器人的状态(例如，定期地发送指示机器人仍在运行的“心跳”消息)和下载要执行的数据包的所需版本。在一些实施例中，代理214与指挥方230之间的通信总是由代理214发起。在通知场景中，代理214可以打开随后由指挥方230用来向机器人发送命令(例如，开始、停止等)的WebSocket通道。

在服务器侧，包括了表示层(web应用232、开放数据协议(OData)代表状态传输(REST)应用编程接口(API)端点234以及通知和监控236)、服务层(API实现/业务逻辑238)和持久层(数据库服务器240和索引器服务器250)。指挥方230包括web应用232、OData RESTAPI端点234、通知和监控236以及API实现/业务逻辑238。在一些实施例中，用户在指挥方220的界面中执行的大多数动作(例如，经由浏览器220)是通过调用各种API来执行的。这种动作可以包括但不限于在机器人上启动作业、在队列中添加/移除数据、调度作业以进行无人参与运行等，而不脱离本发明的范围。Web应用232是服务器平台的可视层。在本实施例中，web应用232使用超文本标记语言(HTML)和JavaScript(JS)。然而，在不脱离本发明的范围的情况下，可以使用任何期望的标记语言、脚本语言或者任何其他格式。在本实施例中，用户经由浏览器220与来自web应用232的网页交互，以便执行各种动作来控制指挥方230。例如，用户可以创建机器人组、向机器人分配数据包、分析每个机器人的和/或每个过程的记录、启动和停止机器人等。

除了web应用232，指挥方230还包括公开OData REST API端点234的服务层。然而，可以包括其他端点，而不脱离本发明的范围。REST API由web应用232和代理214两者消费。在本实施例中，代理214是客户端计算机上的一个或多个机器人的监管方。

本实施例中的REST API涵盖配置、记录、监控和排队功能。在一些实施例中，配置端点可以用于限定和配置应用用户、许可、机器人、资产、发布和环境。记录REST端点可以用于记录不同的信息，诸如错误、由机器人发送的明确消息以及其他特定于环境的信息。如果在指挥方230中使用启动作业命令，则机器人可以使用部署REST端点来查询应该被执行的数据包版本。排队REST端点可以负责队列和队列项管理，诸如向队列添加数据、从队列获取事务(transaction)、设置事务的状态等。

监控REST端点可以监控web应用232和代理214。通知和监控API 236可以是REST端点，其用于注册代理214、向代理214递送配置设置、以及用于从服务器和代理214发送/接收通知。在一些实施例中，通知和监控API 236也可以使用WebSocket通信。

在本实施例中，持久层包括服务器对——数据库服务器240(例如，SQL服务器)和索引器服务器250。本实施例中的数据库服务器240存储机器人、机器人组、相关过程、用户、角色、调度等的配置。在一些实施例中，该信息通过web应用232而被管理。数据库服务器240可以管理队列和队列项。在一些实施例中，数据库服务器240可以存储由机器人记录的消息(附加于索引器服务器250或者代替索引器服务器250)。

索引器服务器250(其在一些实施例中为可选的)存储并且索引由机器人记录的信息。在某些实施例中，可以通过配置设置来禁用索引器服务器250。在一些实施例中，索引器服务器250使用

(其是开源项目全文搜索引擎)。由机器人记录的消息(例如，使用记录消息或者写入行等的活动)可以通过(多个)记录REST端点而被发送到索引器服务器250，在索引器服务器250处它们被索引用于将来使用。

图3是图示根据本发明实施例的设计方310、活动320、330和驱动器340之间的关系300的架构图。如上所述，开发方使用设计方310来开发由机器人执行的工作流。工作流可以包括用户限定的活动320和UI自动化活动330。一些实施例能够标识图像中的非文本视觉成分，这在本文中被称为计算机视觉(CV)。与这些组件相关的一些CV活动可以包括但不限于点击、键入、获取文本、悬停、元素存在、刷新范围、突出显示等。在一些实施例中，点击使用例如CV、光学字符标识(OCR)、模糊文本匹配和多锚点来标识元素，并且点击元素。键入可以使用上述和元素中的类型来标识元素。获取文本可以标识特定文本的位置并且使用OCR对其扫描。悬停可以标识元素并且悬停在其上。元素存在可以使用上述技术来检查元素是否存在于屏幕上。在一些实施例中，可能有数百甚至数千个活动可以在设计方310中实现。然而，任何数目和/或类型的活动都是可用的，而不脱离本发明的范围。

UI自动化活动330是以较低等级代码编写的特殊较低等级活动的子集(例如，CV活动)并且有益于与屏幕的互动。UI自动化活动330经由驱动器340来促进这些交互，该驱动器340允许机器人与期望的软件交互。例如，驱动器340可以包括OS驱动器342、浏览器驱动器344、VM驱动器346、企业应用驱动器348等。

驱动器340可以在较低等级处与OS互动，寻找挂钩，监控密钥等。它们可以促进与

等的集成。例如，“点击”活动经由驱动器340在这些不同的应用中执行相同的角色。

图4是图示根据本发明实施例的RPA系统400的架构图。在一些实施例中，RPA系统400可以是或者可以包括图1和/或图2的RPA系统100和/或200。RPA系统400包括运行机器人的多个客户端计算系统410。计算系统410能够经由运行在其上的web应用来与指挥方计算系统420通信。指挥方计算系统420转而又能够与数据库服务器430和可选的索引器服务器440通信。

关于图1和图3，应注意的是，虽然在这些实施例中使用了web应用，可以使用任何合适的客户/服务器软件，而不脱离本发明范围。例如，指挥方可以运行与客户端计算系统上的非基于网络的客户软件应用通信的服务器侧应用。

图5是图示根据本发明实施例的被配置为实现RPA中强化学习的计算系统500的架构图。在一些实施例中，计算系统500可以是本文描绘和/或描述的计算系统中的一个或多个计算系统。计算系统500包括总线505或者用于传递信息的其他通信机制，以及耦合到总线505用于处理信息的(多个)处理器510。(多个)处理器510可以是任何类型的通用处理器或者专用处理器，包括中央处理单元(CPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、其多个实例和/或其任何组合。(多个)处理器510还可以具有多个处理核，并且这些核中的至少一些核可以被配置为执行特定功能。在一些实施例中可以使用多并行处理。在某些实施例中，(多个)处理器510中的至少一个处理器可以是包括模拟生物神经元的处理元件的神经形态电路。在一些实施例中，神经形态电路可以不需要冯诺依曼计算架构的典型组件。

计算系统500还包括存储器515，用于存储信息和要由(多个)处理器510执行的指令。存储器515可以由随机存取存储器(RAM)、只读存储器(ROM)、闪存、高速缓存、诸如磁盘或者光盘静态存储器或者任何其他类型的非暂态计算机可读介质或者其组合的任意组合组成。非暂态计算机可读介质可以是能够由(多个)处理器510访问的任何可用介质，并且可以包括易失性介质、非易失性介质或两者。介质也可以是可移动的、不可移动的或两者。

附加地，计算系统500包括通信设备520，诸如收发器，以经由无线和/或有线连接提供对通信网络的访问。在一些实施例中，通信设备520可以被配置为使用频分多址(FDMA)、单载波FDMA(SC-FDMA)、时分多址(TDMA)、码分多址(CDMA)、正交频分复用(OFDM)、正交频分多址(OFDMA)、全局移动通信系统(GSM)、通用分组无线业务(GPRS)、通用移动电信系统(UMTS)、cdma2000、宽带CDMA(W-CDMA)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、高速分组接入(HSPA)高级LTE(LTE-A)、802.11x、Wi-Fi、Zigbee、超宽带(UWB)、802.16x、802.15、家庭节点B(HnB)、蓝牙、射频标识(RFID)、红外数据协会(IrDA)、近场通信(NFC)、第五代(5G)、新无线电(NR)、它们的任何组合、和/或任何其他当前存在的或者未来实现的通信标准和/或协议，而不脱离本发明的范围。在一些实施例中，通信设备520可以包括一个或多个天线，这些天线是单一的、阵列的、相控的、切换的、波束成形的、波束控制的、它们的组合，和/或任何其他天线配置，而不脱离本发明的范围。

(多个)处理器510还经由总线505耦合至显示器525，诸如等离子显示器、液晶显示器(LCD)、发光二极管(LED)显示器、场发射显示器(FED)、有机发光二极管(OLED)显示器、柔性OLED显示器、柔性基板显示器、投影显示器、4K显示器、高清显示器、

显示器、面内切换(IPS)显示器或者任何其他适用于向用户显示信息的显示器。显示器525可以被配置为触摸(触觉)显示器、三维(3D)触摸显示器、多输入触摸显示器、多点触摸显示器等。使用电阻、电容、表面声波(SAW)电容、红外、光学成像、色散信号技术、声脉冲标识、受抑全内反射等。可以使用任何合适的显示设备和触觉I/O，而不脱离本发明的范围。

键盘530和光标控制设备535(诸如，计算机鼠标、触摸板等)还耦合至总线505，以使用户能够与计算系统500交互。然而，在某些实施例中，可以不存在物理键盘和鼠标，并且用户可以仅通过显示器525和/或触摸板(未示出)来与设备交互。根据设计选择，可以使用任何类型和组合的输入设备。在某些实施例中，不存在物理输入设备和/或显示器。例如，用户可以经由与计算系统500通信的另一计算系统远程地与计算系统500交互，或者计算系统500可以自主地操作。

存储器515存储由(多个)处理器510执行时提供功能的软件模块。这些模块包括针对计算系统500的操作系统540。这些模块还包括强化学习模块545，其被配置为执行本文描述的全部或部分过程或者其导出。计算系统500可以包括一个或多个包括附加功能的附加功能模块550。

本领域技术人员将理解，“系统”可以被具化为服务器、嵌入式计算系统、个人计算机、控制台、个人数字助理(PDA)、蜂窝电话、平板计算设备、量子计算系统或者任何其他合适的计算设备或者设备组合，而不脱离本发明范围。将上述功能表示为由“系统”执行并且不旨在以任何方式限制本发明的范围，而是旨在提供本发明的多个实施例中的一个示例。实际上，本文公开的方法、系统和设备可以以与计算技术(包括云计算系统)一致的局部化和分布式形式来实现。

应注意的是，本说明书中描述的一些系统特征已作为模块而被表示，以便更具体地强调其实现独立性。例如，模块可以被实现为硬件电路，包括定制的超大规模集成(VLSI)电路或门阵列、诸如逻辑芯片、晶体管或者其他分立元件的现成半导体。模块也可以在可编程硬件设备中实现，例如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备、图形处理单元等。

模块也可以至少部分地在软件中实现，用于由各种类型的处理器执行。可执行代码的标识的单元可以例如包括计算机指令的一个或多个物理块或逻辑块，其可以例如被组织为对象、程序或者功能。然而，标识的模块的可执行文件不需要在物理上位于一起，而是可以包括存储在不同位置的不同指令，当这些指令在逻辑上结合在一起时，构成该模块并且实现针对该模块的所描述目的。此外，模块可以存储在计算机可读介质上，计算机可读介质可以是例如硬盘驱动、闪存设备、RAM、磁带和/或用于存储数据的任何其他这种非暂态计算机可读介质，而不脱离本发明的范围。

实际上，可执行代码模块可以为单个指令或者多个指令，甚至可以在多个不同代码段上、不同程序中以及跨多个存储设备中分布。类似地，操作数据在本文可以在模块内被标识和示出，并且可以以任何合适的形式被具化并且被组织在任何合适类型的数据结构内。操作数据可以作为单个数据集来收集，或者可以分布在不同的位置，包括在不同的存储设备上，并且可以至少部分地仅作为系统或者网络上的电子信号而存在。

图6是图示根据本发明实施例的在RPA中实现强化学习的过程600的流程图。在一些实施例中，训练可以由服务器、用户计算系统、RPA机器人、或者其任何组合来执行。过程开始于在610处，通过使用ML模型对训练数据运行模拟来训练具有初始奖励函数的ML模型。当在620处ML模型没有实现由奖励函数基于一个或多个标准(例如，在预定数量的模拟后，在预定量的时间后，其组合(例如，在预定量的时间后，除非在此期间发生预定数量的尝试)等)定义的收敛(即，ML模型没有达到获胜状态)时，在630处人类协助被请求，并且在640处机器人观察人类采取的动作，并且修改用于ML模型、奖励函数或两者的策略网络。例如，机器人可以监测人类与他或她的计算系统交互期间进行的API调用，并且学习模拟它们。过程然后返回到步骤610处，使用修改的策略网络、修改的奖励函数或两者，对训练数据执行进一步的模拟。

请求人类协助、修改策略网络和执行进一步模拟的过程被重复，直到在620处实现收敛。然后，在650处经训练的ML模型被部署，并且在660处由RPA机器人在运行时调用被部署的ML模型。在一些实施例中，经训练的ML模型的部署包括修改由RPA机器人实现的RPA工作流中的一个或多个活动，以调用经训练的ML模型。如果检测到ML模型的性能下降超过预定的性能阈值(例如，检测精度下降到预定的阈值以下，在没有人类动作的情况下奖励函数的目标实现的频率降低等)，在670处过程返回到步骤610处以执行ML模型的再训练。

根据本发明的实施例，图6中执行的过程步骤可以由计算机程序执行，针对(多个)处理器的指令进行编码，以执行图6中描述的至少部分过程。计算机程序可以被具化在非暂态计算机可读介质上。计算机可读介质可以是但不限于硬盘驱动器、闪存设备、RAM、磁带和/或用于存储数据的任何其他这样的介质或者介质的组合。计算机程序可以包括用于控制计算系统的(多个)处理器(例如，图5的计算系统500的(多个)处理器510)以实现图6中描述的全部或者部分过程步骤的编码指令，该编码指令也可以存储在计算机可读介质上。

计算机程序可以在硬件、软件或者混合实施方式中实现。计算机程序可以由彼此可操作通信的模块组成，并且被设计为传递信息或者指令以显示。计算机程序可以被配置为在通用计算机、ASIC或者任何其他合适的设备上运行。

容易理解的是，本发明各种实施例的组件，如本文附图中一般描述和说明的，可以按各种不同配置进行排列和设计。因此，如附图中所示，本发明的实施例的详细描述不旨在限制所要求保护的本发明的范围，而仅是本发明的所选择的实施例的代表。

本说明书中描述的本发明的特征、结构或者特性可以在一个或多个实施例中以任何合适的方式进行组合。例如，在整个说明书中，对“某些实施例”、“一些实施例”或者类似语言的引用意味着结合本实施例所描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。因此，在整个说明书中出现的短语“在某些实施例中”、“在一些实施例中”、“在其他实施例中”或者类似语言不必然都指同一组实施例，并且所描述的特征、结构或者特性可以以任何合适的方式组合在一个或多个实施例中。

应注意，贯穿本说明书中提及的特征、优点或者类似语言并且不意味着本发明可以实现的所有特征和优点应当位于本发明的任何单个实施例中。相反，关于特征和优点的语言被理解为意味着结合实施例描述的特定特征、优点或者特性被包括在本发明的至少一个实施例中。因此，贯穿本说明书的特征和优点的讨论以及类似的语言可以但不必然指同一实施例。

此外，本发明的所述特征、优点和特性可以在一个或多个实施例中以任何合适的方式进行组合。相关领域的技术人员将认识到，本发明可以在没有特定实施例的一个或多个具体特征或者优点的情况下实践。在其他实例中，可以在某些实施例中认识到附加的特征和优点，这些特征和优点可能不存在于本发明的所有实施例中。

本领域普通技术人员将容易理解，上述本发明可以利用不同顺序的步骤和/或利用不同于所公开配置的硬件元件而被实践。因此，尽管已经基于这些优选实施例描述了本发明，但是对于本领域的技术人员，在保持在本发明的精神和范围内的同时，某些修改、变型和备选结构将是明显的。因此，为了确定本发明的界限和边界，应当参考所附权利要求。

Claims

1.一种使用强化学习来训练针对机器人过程自动化(RPA)的机器学习(ML)模型的计算机实现的方法，包括：

通过使用所述ML模型对训练数据运行模拟来训练所述ML模型，所述ML模型具有奖励函数；以及

当所述ML模型没有实现由所述奖励函数基于一个或多个标准定义的收敛时：

请求人类协助，

监测由人类在计算系统上采取的动作，以及

基于由所述人类采取的所述动作，修改所述ML模型的策略网络、所述奖励函数或两者。

2.根据权利要求1所述的计算机实现的方法，其中由RPA机器人执行：所述ML模型的所述训练、请求人类协助、监测由所述人类在所述计算系统上采取的所述动作，以及修改所述策略网络、所述奖励函数或两者。

3.根据权利要求1所述的计算机实现的方法，还包括：

重复以下步骤直到收敛被实现：使用所述ML模型对所述训练数据运行模拟，请求人类协助，监测由所述人类在所述计算系统上采取的所述动作，以及修改所述策略网络、所述奖励函数或两者。

4.根据权利要求3所述的计算机实现的方法，其中在收敛被实现后，所述方法还包括：

部署所述ML模型；以及

由RPA机器人在运行时调用所述ML模型。

5.根据权利要求4所述的计算机实现的方法，其中所述ML模型的部署包括修改由所述RPA机器人实现的RPA工作流中的一个或多个活动，以调用经训练的所述ML模型。

6.根据权利要求4所述的计算机实现的方法，还包括：

由所述RPA机器人检测所述ML模型的性能下降超过预定的性能阈值；以及

重新训练所述ML模型直到收敛被实现。

7.根据权利要求6所述的计算机实现的方法，其中所述预定性能阈值包括检测精度或者无需用户动作收敛即可被实现的频率。

8.根据权利要求1所述的计算机实现的方法，其中所述一个或多个标准包括预定数量的尝试、预定时间量、或者其组合。

9.根据权利要求1所述的计算机实现的方法，其中监测由所述人类采取的所述动作包括监测基于由所述人类采取的所述动作所引起的应用编程接口(API)调用。

10.一种使用强化学习来训练针对机器人过程自动化(RPA)的机器学习(ML)模型的计算机实现的方法，包括：

使用所述ML模型对训练数据运行模拟，所述ML模型具有奖励函数；以及

监测由人类在计算系统上采取的动作，以及

基于由所述人类采取的所述动作，修改所述ML模型的策略网络、所述奖励函数或两者；以及

重复以下步骤直到收敛被实现：使用所述ML模型对所述训练数据运行模拟，监测由所述人类在所述计算系统上采取的所述动作，以及修改所述策略网络、所述奖励函数或两者。

11.根据权利要求10所述的计算机实现的方法，其中所述方法步骤由RPA机器人执行。

12.根据权利要求10所述的计算机实现的方法，其中在收敛被实现后，所述方法还包括：

部署所述ML模型；以及

由RPA机器人在运行时调用所述ML模型。

13.根据权利要求12所述的计算机实现的方法，其中所述ML模型的部署包括：修改由所述RPA机器人实现的RPA工作流中的一个或多个活动，以调用经训练的所述ML模型。

14.根据权利要求12所述的计算机实现的方法，还包括：

重新训练所述ML模型直到收敛被实现。

15.根据权利要求14所述的计算机实现的方法，其中所述预定性能阈值包括检测精度或者无需用户动作收敛被实现的频率。

16.根据权利要求10所述的计算机实现的方法，其中所述一个或多个标准包括预定数量的尝试、预定时间量、或者其组合。

17.根据权利要求10所述的计算机实现的方法，其中监测由所述人类采取的所述动作包括监测基于由所述人类采取的所述动作所引起的应用编程接口(API)调用。

18.一种使用强化学习来训练针对机器人过程自动化(RPA)的机器学习(ML)模型的计算机实现的方法，包括：

使用策略网络训练所述ML模型，所述ML模型具有奖励函数；

部署经训练的所述ML模型，经训练的所述ML模型的部署包括：修改由RPA机器人实现的RPA工作流中的一个或多个活动，以调用经训练的所述ML模型；以及

由所述RPA机器人在运行时调用经训练的所述ML模型。

19.根据权利要求18所述的计算机实现的方法，还包括：

使用强化学习重新训练所述ML模型。

20.根据权利要求18所述的计算机实现的方法，其中所述ML模型的所述训练包括：

使用所述ML模型对训练数据运行模拟；以及

请求人类协助，

监测由人类在计算系统上采取的动作，以及