CN112668988A

CN112668988A - 使用人工智能（ai）的媒体到工作流生成

Info

Publication number: CN112668988A
Application number: CN202011100015.7A
Authority: CN
Inventors: K·耶尔; R·耶尔; N·M·库马尔
Original assignee: Yupas Co
Current assignee: Yupas Co
Priority date: 2019-10-15
Filing date: 2020-10-14
Publication date: 2021-04-16
Also published as: KR102453990B1; US11372380B2; KR20210044688A; JP2021064360A; US20210109487A1

Abstract

一种计算机实现的方法。机器人过程自动化(RPA)工作流可以从文本、图像和/或媒体文件被自动创建。可以使用光学字符识别(OCR)将工作流序列转换为数字格式，并且，然后可以利用人工智能(AI)模型对该信息进行分析，并且将该信息转换为预测的RPA工作流。预测的RPA工作流可以呈现给开发人员以供批准、拒绝或修改。然后，与开发人员的选择有关的信息可以用于AI模型的后续再训练以提高预测准确性。

Description

使用人工智能(AI)的媒体到工作流生成

相关申请的交叉引用

本申请要求于2019年10月15日提交的印度专利申请号201911041765的优先权。这些在先提交的申请的主题全部内容通过引入并入于此。

技术领域

本发明一般地涉及机器人过程自动化(RPA)，更特别地涉及使用深度学习(DL)或AI以从文本、图像、音频或其任何组合自动创建工作流。

背景技术

可以在适当的环境或应用(例如，UiPath Studio^TM)中开发RPA工作流。然而，当开发人员未使用工作室应用来开发RPA工作流时(例如，当开发人员正在通勤或执行其他任务时)，工作流没有首先在工作室应用中被捕获。在那些实例中，开发人员可以在作为文本或文档编辑器(例如，Notepad^TM或Microsoft Word^TM)中的文本的纸上或经由任何其他适当的捕获机构写出逻辑步骤的序列，然后稍后在RPA工作流开发应用中手动创建工作流。在这些情况下，用以生成工作流的努力是重复的。

现有解决方案提供了拖拽和放下功能用于构建RPA工作流，而无需开发人员写入代码。比如，UiPath Studio^TM提供了这种功能。然而，这仍然需要开发人员手动再产生他或她在RPA工作流开发应用外部创建的工作流。例如，假设用户有个关于应当如何设计和定义他或她的工作流的构思，则用户必须转到工作室应用并且依次手动拖拽和放下活动，包括背景序列、Excel活动、记录消息等在内。除此之外，他或她还必须标识数据类型并且定义要使用的变量。这会导致投入大量时间和精力，这些是可以被最小化的。

因此，一种改进方法可能是有益的。

发明内容

本发明的某些实施例可以提供对于本领域中尚未由RPA技术完全标识、领会或解决的问题和需求的解决方案。例如，本发明的一些实施例关于使用AI从外部的源向RPA工作流开发应用自动创建RPA工作流。

在一个实施例中，一种用于创建RPA工作流的计算机实现的方法，包括：通过计算系统上的工作流开发应用接收媒体文件，该媒体文件包括提议工作流，以及将提议工作流的接收的媒体文件转发到工作流生成模块以供处理。该方法还可以包括：由工作流生成模块访问模型数据库，以拉取一个或多个工作流模型。该方法还可以包括：由工作流生成模块加载一个或多个工作流模型，并且预测一个或多个工作流以供计算系统的用户选择。该方法还包括：从工作流生成模块向工作流开发应用传输包括一个或多个工作流的可能XAML文件的列表以供用户选择。

在另一实施例中，一种在非暂态计算机可读介质上被实施的计算机程序被配置为使得至少一个处理器通过计算系统上的工作流开发应用来接收媒体文件，该媒体文件包括提议工作流。计算机程序还被配置为使得至少一个处理器将提议工作流的接收的媒体文件转发到工作流生成模块以供处理，并且由工作流生成模块访问模型数据库，以拉取一个或多个工作流模型。该计算机程序还被配置为使得至少一个处理器由工作流生成模块加载一个或多个工作流模型，并且预测一个或多个工作流以供计算系统的用户选择。计算机程序还被配置为使得至少一个处理器从工作流生成模块向工作流开发应用传输包括一个或多个工作流的可能XAML文件的列表以供用户选择。

在又一实施例中，一种计算机系统包括：存储器，其存储机器可读计算机程序指令；以及至少一个处理器，其被配置为执行计算机程序指令。指令被配置为使得至少一个处理器通过计算系统上的工作流开发应用接收媒体文件，该媒体文件包括提议工作流，并且将提议工作流的接收的媒体文件转发到工作流生成模块以供处理。指令还被配置为使得至少一个处理器由工作流生成模块访问模型数据库以拉取一个或多个工作流模型。指令还被配置为使得至少一个处理器由工作流生成模块加载一个或多个工作流模型，并且预测一个或多个工作流以供计算系统的用户选择。指令还被配置为使得至少一个处理器从工作流生成模块向工作流开发应用传输包括一个或多个工作流的可能XAML文件的列表以供用户选择。

附图说明

为了容易理解本发明的某些实施例的优点，通过参考在附图中图示的特定实施例来对上文所简要描述的本发明进行更具体的描述。虽然应当理解，这些附图仅描绘了本发明的典型实施例，因此不应视为是对本发明的范围的限制，但是使用附图通过附加特征和细节来对本发明进行描述和说明。其中

图1是图示了根据本发明的实施例的RPA系统的架构图。

图2是图示了根据本发明的实施例的部署的RPA系统的架构图。

图3是图示了根据本发明的实施例的设计器、活动和驱动之间的关系的架构图。

图4是图示了根据本发明的实施例的RPA系统的架构图。

图5是图示了根据本发明的实施例的被配置为自动生成RPA工作流的计算系统的架构图。

图6是图示了根据本发明的实施例的用于自动生成RPA工作流的系统的流程图。

图7是图示了根据本发明的实施例的RPA工作流生成过程的流程图。

图8是图示了根据本发明实施例的用户的工作流文本的图形用户界面(GUI)。

图9是图示了根据本发明的实施例的用户所创建的RPA工作流的图像。

图10是图示了根据本发明的实施例的从图8的用户文本创建的RPA工作流的图像。

图11是图示了根据本发明的实施例的在用户修改工作流之前从媒体文件创建的工作流的图像。

图12是图示了根据本发明的实施例的在工作流的用户修改期间从媒体文件创建的工作流的图像。

图13是图示了根据本发明的实施例的在完成工作流的用户修改之后从媒体文件创建的工作流的图像。

具体实施方式

一些实施例关于从文本、图像、音频或其任何组合自动创建机器人过程自动化(RPA)工作流。在一些实施例中，使用经训练的AI模型，从被写入在文本文件中的逻辑步骤的序列、包含逻辑步骤的序列的图像、包含逻辑步骤的序列的音频文件、用于传达逻辑步骤的任何其他适当的机构、或其任何组合创建PRA工作流。在一些实施例中，经训练的AI模型可以理解逻辑步骤的序列，并且以可扩展应用标记语言(XAML)文件格式自动创建RPA工作流。在一些实施例中，经训练的AI模型可以利用多个RPA工作流向开发人员提供建议，该开发人员可能已经起草了逻辑步骤的序列，该多个RPA工作流可以由开发人员通过选择建议的RPA工作流中的一个建议的RPA工作流而在RPA工作流开发应用中使用。一些实施例允许开发人员利用智能生成的RPA工作流，减少开发时间以及工作流开发生命周期中的努力。

图1是图示了根据本发明的实施例的RPA系统100的架构图。RPA系统100包括设计器110，设计器110允许开发人员设计并且实施工作流。设计器110可以提供用于应用集成以及使第三方应用、管理信息技术(IT)任务、和业务IT过程自动化的解决方案。设计器110可以促进自动化工程的开发，该自动化工程是业务过程的图形化表示。简而言之，设计器110促进工作流和机器人的开发和部署。

自动化工程通过授予开发人员对执行次序和在工作流中所开发的步骤的定制集合之间的关系的控制权，来实现基于规则的过程的自动化，在本文中被定义为“活动”。设计器110的实施例的一个商业示例是UiPath Studio^TM。每个活动可以包括诸如点击按钮、读取文件、写入日志面板等动作。在一些实施例中，可以嵌套或嵌入工作流。

一些类型的工作流可以包括但不限于序列、流程图、有限状态机(FSM)、和/或全局异常处理器。序列可以特别地适于线性过程，使得能够从一个活动流向另一活动而不会使工作流混乱。流程图可以特别地适于较复杂的业务逻辑，使得通过多个分支逻辑运算符能够以更多样化的方式集成决策并且连接活动。FSM可以特别地适于大型工作流。FSM可以在其执行时使用有限数目的状态，这些状态由条件(即，过渡)或活动触发。全局异常处理器可以特别地适于当遇到执行错误时确定工作流行为以及适于调试过程。

一旦在设计器110中开发了工作流，指挥器120就会编排业务过程的执行，指挥器120编排执行设计器110中所开发的工作流的一个或多个机器人130。指挥器120的实施例的一个商业示例是UiPath Orchestrator^TM。指挥器120促进管理在环境中的资源的创建、监测和部署。指挥器120可以充当与第三方解决方案和应用的集成点。

指挥器120可以管理机器人130的机群，从集中点连接并且执行机器人130。可以被管理的机器人130的类型包括但不限于有人值守的机器人132、无人值守的机器人134、开发机器人(与无人值守的机器人134类似，但用于开发和测试目的)、以及非生产机器人(与有人值守的机器人类似，但用于开发和测试目的)132。有人值守的机器人132由用户事件触发，并且与人类一起在同一计算系统上操作。有人值守的机器人132可以与指挥器120一起使用，用于进行集中过程部署和日志记录介质。有人值守的机器人132可以帮助人类用户完成各种任务，并且可以由用户事件触发。在一些实施例中，过程不能从这种类型的机器人上的指挥器120开始和/或不能在锁定屏幕下运行。在某些实施例中，有人值守的机器人132只能够从机器人托盘或命令提示符开始。在一些实施例中，有人值守的机器人132应当在人类的监督下运行。

无人值守的机器人134在虚拟环境中以无人值守方式运行并且可以使许多过程自动化。无人值守的机器人134可以负责远程执行工作队列、监测工作队列、调度工作队列、以及为工作队列提供支持。在一些实施例中，可以在设计器110中运行针对所有机器人类型的调试。有人值守的机器人和无人值守的机器人两者都可以使各种系统和应用自动化，包括但不限于大型机、Web应用、VM、企业应用(例如，由

等生产的)、以及计算系统应用(例如，桌上型和膝上型应用、移动设备应用、可穿戴式计算机应用等)。

指挥器120可以具有各种能力，包括但不限于供应、部署、配置、排队、监测、日志记录和/或提供互连性。供应可以包括在机器人130与指挥器120(例如，网络应用)之间创建和维护连接。部署可以包括：确保将包版本正确递送到被指定的机器人130以供执行。配置可以包括：维护并且递送机器人环境以及过程配置。排队可以包括：提供队列和队列项的管理。监测可以包括：跟踪机器人标识数据并且维护用户权限。日志记录可以包括：将日志存储和索引到数据库(例如，SQL数据库)和/或另一存储机构(例如，提供存储并且快速查询大型数据集的能力的

)。指挥器120可以通过充当用于第三方解决方案和/或应用的通信的集中点来提供互连性。

机器人130是运行设计器110中内置的工作流的执行代理。(一个或多个)机器人130的一些实施例的一个商业示例是UiPath Robots^TM。在一些实施例中，机器人130默认安装Microsoft

服务控制管理器(SCM)管理的服务。结果，这样的机器人130可以在本地系统帐户下打开交互式

会话，并且具有

服务的权利。

在一些实施例中，机器人130可以在用户模式下安装。对于这样的机器人130，这意味着它们具有与已经安装有给定机器人130的用户相同的权限。高密度(HD)机器人也可以使用该特征，其确保每台机器在其最大潜力处得到充分利用。在一些实施例中，可以在HD环境中配置任何类型的机器人130。

在一些实施例中，机器人130被分成若干部件，每个部件专用于特别的自动化任务。在一些实施例中，机器人部件包括但不限于SCM管理的机器人服务、用户模式机器人服务、执行器、代理、以及命令行。SCM管理的机器人服务管理并且监测

会话，并且充当指挥器120与执行主机(即，在其上执行机器人130的计算系统)之间的代理。这些服务是可信任的并且为机器人130管理凭据。控制台应用由本地系统下的SCM启动。

在一些实施例中，用户模式机器人服务管理并且监测

会话，并且充当指挥器120与执行主机之间的代理。用户模式机器人服务可信任的并且为机器人130管理凭据。如果未安装SCM管理的机器人服务，则可以自动启动

应用。

执行器可以在

会话下运行给定工作(即，他们可以执行工作流)。执行器可以知道每监测器每英寸点数(DPI)设置。代理可以是显示系统托盘窗口中的可用作业的

呈现基础(

Presentation Foundation)(WPF)应用。代理可以是服务的客户端。代理可以请求开始或停止作业并且改变设置。命令行是服务的客户端。命令行是可以请求开始作业并且等待它们的输出的控制台应用。

如上文所解释的，使机器人130的部件分开帮助开发人员、支持用户以及计算系统更容易运行、标识并且跟踪每个部件正在执行什么。这样，就可以根据每个部件配置特殊行为，诸如针对执行器和服务设置不同的防火墙规则。在一些实施例中，执行器可以始终知道每个监测器的DPI设置。结果，工作流可以在任何DPI处被执行，而不管在其上创建这些工作流的计算系统的配置。在一些实施例中，来自设计器110的工程也可以独立于浏览器缩放级别。针对不知道DPI或有意标记为不知道的应用，在一些实施例中，可以禁用DPI。

图2是图示了根据本发明的实施例的部署的RPA系统200的架构图。在一些实施例中，RPA系统200可以是图1的RPA系统100，或可以是图1的RPA系统100的一部分。应当指出，在不背离本发明的范围的情况下，客户端侧、服务器侧、或两者可以包括任何期望数目的计算系统。在客户端侧上，机器人应用210包括执行器212、代理214、以及设计器216。然而，在一些实施例中，设计器216可以不在计算系统210上运行。执行器212正在运行过程。如图2所示，若干业务工程可以同时运行。在该实施例中，代理214(例如，

服务)是针对所有执行器212的单个接触点。该实施例中的所有消息都被记录到指挥器230中，指挥器230经由数据库服务器240、索引器服务器250、或两者对这些消息进一步处理。如上文关于图1所讨论的，执行器212可以是机器人部件。

在一些实施例中，机器人表示机器名称与用户名之间的关联。机器人可以同时管理多个执行器。在支持同时运行的多个交互式会话的计算系统上(例如，

Server 2012)，多个机器人可能正在同时运行，每个在单独

会话中使用唯一用户名。这在上文被称为HD机器人。

代理214还负责发送机器人的状态(例如，周期性地发送指示机器人仍在运转的“心跳”消息)并且下载要执行的包的所需版本。在一些实施例中，总是由代理214发起代理214与指挥器230之间的通信。在通知场景中，代理214可以打开WebSocket通道，该WebSocket通道稍后被指挥器230用来向机器人发送命令(例如，开始、停止等)。

在服务器侧上，包括呈现层(Web应用232、开放数据协议(OData)代表性状态传送(REST)应用编程接口(API)端点234、通知和监测236)、服务层(API实现/业务逻辑238)、以及持久层(数据库服务器240和索引器服务器250)。指挥器230包括Web应用232、OData RESTAPI端点234、通知和监测236、以及API实现/业务逻辑238。在一些实施例中，用户在指挥器230的界面中(例如，经由浏览器220)执行的大多数动作通过调用各种API而被执行。在不背离本发明的范围的情况下，这样的动作可以包括但不限于在机器人上开始作业、在队列中添加/移除数据、安排作业以无人值守的方式运行等。Web应用232是服务器平台的可视层。在该实施例中，Web应用232使用超文本标记语言(HTML)和JavaScript(JS)。然而，在不背离本发明的范围的情况下，可以使用任何期望的标记语言、脚本语言或任何其他格式。在该实施例中，用户经由浏览器220与来自Web应用232的Web页面交互，用于执行各种动作以控制指挥器230。比如，用户可以创建机器人组、向机器人指派包、分析每个机器人和/或每个过程的日志、开始和停止机器人等。

除了Web应用232之外，指挥器230还包括服务层，该服务层暴露OData REST API端点234。然而，在不背离本发明的范围的情况下，可以包括其他端点。REST API被Web应用232和代理214两者消耗。在该实施例中，代理214是客户端计算机上的一个或多个机器人的监督者。

该实施例中的REST API涵盖配置、日志记录、监测和排队功能。在一些实施例中，配置端点可以用于定义和配置应用用户、权限、机器人、资产、发行、以及环境。日志记录REST端点可以用于记录不同的信息，比如，诸如错误、机器人所发送的显式消息、以及其他特定环境信息。如果在指挥器230中使用了开始作业命令，则部署REST端点可以被机器人使用，以查询应当被执行的包版本。排队REST端点可以负责队列和队列项管理，诸如向队列添加数据、从队列中获取事务、设置事务的状态等。

监测REST端点监测Web应用232和代理214。通知和监测API 236可以是REST端点，其用于注册代理214，向代理214递送配置设置，以及从服务器和代理214发送/接收通知。在一些实施例中，通知和监测API 236还可以使用WebSocket通信。

在本实施例中，持久层包括一对服务器，即，数据库服务器240(例如，SQL服务器)和索引器服务器250。在本实施例中，数据库服务器240存储机器人、机器人组、相关联的过程、用户、角色、时间表等的配置。在一些实施例中，该信息通过Web应用232而被管理。数据库服务器240可以管理队列和队列项。在一些实施例中，数据库服务器240可以存储机器人所记录的消息(除了索引器服务器250之外或取代索引器服务器250)。

在一些实施例中是可选的索引器服务器250存储和索引机器人所记录的信息。在某些实施例中，索引器服务器250可以通过配置设置而被禁用。在一些实施例中，索引器服务器250使用

该

是开源工程全文本搜索引擎。机器人所记录的消息(例如，使用如记录消息或写入行之类的活动)可以通过(一个或多个)日志记录REST端点被发送到索引器服务器250，在该索引器服务器250中，这些消息被索引以供将来利用。

图3是图示了根据本发明的实施例的设计器310、活动320、330和驱动340之间的关系300的架构图。根据上述内容，开发人员使用设计器310来开发机器人所执行的工作流。工作流可以包括用户定义的活动320和UI自动化活动330。一些计算机视觉(CV)活动可以包括但不限于点击、键入、获取文本、悬停、元素存在、刷新范围、突出显示等。在一些实施例中，点击例如使用CV、光学字符识别(OCR)、模糊文本匹配和多锚来标识元素，并且点击元素。键入可以使用上述来标识元素，并且在元素中键入。获取文本可以标识特定文本的位置，并且使用OCR对它进行扫描。悬停可以标识元素，并且将该元素悬停在其上。元素存在可以使用上述的技术检查元素是否存在于屏幕上。在一些实施例中，可以在设计器310中实施数百甚至数千个活动。然而，在不背离本发明的范围的情况下，可以使用任何数目和/或类型的活动。

UI自动化活动330是特殊的、较低级别的活动的子集，其以较低级别代码(例如，CV活动)被写入并且促进与屏幕的交互。UI自动化活动330经由允许机器人与期望的软件交互的驱动340来促进这些交互。比如，驱动340可以包括OS驱动342、浏览器驱动344、VM驱动346、企业应用驱动348等。

驱动340可以与OS进行低级别交互，寻找钩子、针对键进行监测等。它们可以促进与

等的集成。比如，“点击”活动经由驱动340在这些不同的应用中扮演相同的角色。

图4是图示了根据本发明的实施例的RPA系统400的架构图。在一些实施例中，RPA系统400可以是或包括图1和/或图2的RPA系统100和/或200。RPA系统400包括运行机器人的多个客户端计算系统410。计算系统410能够经由在其上运行的Web应用与指挥器计算系统420通信。指挥器计算系统420又能够与数据库服务器430和可选的索引器服务器440通信。

关于图1和图3，应当指出，尽管在这些实施例中使用了Web应用，但是在不背离本发明范围的情况下，可以使用任何适当的客户端/服务器软件。比如，指挥器可以运行服务器侧应用，该服务器侧应用与客户端计算系统上的非基于Web的客户端软件应用通信。

图5是图示了根据本发明的实施例的被配置为自动生成RPA工作流的计算系统500的架构图。在一些实施例中，计算系统500可以是本文中所描绘和/或描述的计算系统中的一个或多个计算系统。计算系统500包括总线505或用于通信信息的其他通信机构、以及被耦合到总线505以对信息进行处理的(一个或多个)处理器510。(一个或多个)处理器510可以是任何类型的通用处理器或专用处理器，包括中央处理单元(CPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、其多个实例、和/或其任何组合。(一个或多个)处理器510也可以具有多个处理核，并且这些核中的至少一些核可以被配置为执行特定功能。在一些实施例中，可以使用多并行处理。在某些实施例中，(一个或多个)处理器510中的至少一个处理器可以是神经形态电路，该神经形态电路包括模仿生物神经元的处理元件。在一些实施例中，神经形态电路可能无需冯-诺依曼(Von Neumann)计算架构的典型部件。

计算系统500还包括存储器515，用于存储要由(一个或多个)处理器510执行的信息和指令。存储器515可以包括以下各项的任何组合：随机存取存储器(RAM)、只读存储器(ROM)、闪存、高速缓存、静态存储装置(诸如磁盘或光盘)或任何其他类型的非暂态计算机可读介质、或其组合。非暂态计算机可读介质可以是能够被(一个或多个)处理器510访问的任何可用介质，并且可以包括易失性介质、非易失性介质、或两者。介质也可以是可移除介质、不可移除介质、或两者。

附加地，计算系统500包括通信设备520，诸如收发器，以经由无线连接和/或有线连接提供对通信网络的访问权。在一些实施例中，在不背离本发明范围的前提下，通信设备520可以被配置为：使用频分多址(FDMA)、单载波FDMA(SC-FDMA)、时分多址(TDMA)、码分多址(CDMA)、正交频分复用(OFDM)、正交频分多址(OFDMA)、全球移动系统(GSM)通信、通用分组无线业务(GPRS)、通用移动电信系统(UMTS)、cdma2000、宽带CDMA(W-CDMA)、高速下行分组接入(HSDPA)、高速上行分组接入(HSUPA)、高速分组接入(HSPA)、长期演进(LTE)、LTE高级(LTE-A)、802.11x、Wi-Fi、Zigbee、超宽带(UWB)、802.16x、802.15、家庭节点B(HnB)、蓝牙、射频标识(RFID)、红外数据协会(IrDA)、近场通信(NFC)、第五代(5G)、新无线电(NR)、其任何组合、和/或任何其他现有或将来实现的通信标准和/或协议。在一些实施例中，在不背离本发明的范围的情况下，通信设备520可以包括一个或多个天线，该一个或多个天线是奇异式、阵列式、相控式、切换式、波束成形式、波束转向式、其组合，和或任何其他天线配置。

(一个或多个)处理器510还经由总线505被耦合到显示器525，诸如等离子体显示器、液晶显示器(LCD)、发光二极管(LED)显示器、场发射显示器(FED)、有机发光二极管(OLED)显示器、柔性OLED显示器、柔性基板显示器、投影显示器、4K显示器、高清显示器、

显示器、平面内开关(IPS)显示器、或用于向用户显示信息的任何其他适当的显示器。显示器525可以被配置为使用电阻性、电容性、表面声波(SAW)电容性、红外、光学成像、色散信号技术、声脉冲识别、受抑全内反射等的触摸(触觉)显示器、三维(3D)触摸显示器、多输入触摸显示器、多触摸显示器等。在不背离本发明的范围的情况下，可以使用任何适当的显示器设备和触觉I/O。

键盘530和光标控制设备535(诸如计算机鼠标、触摸板等)还被耦合到总线505，以使得用户能够与计算系统接口。然而，在某些实施例中，可能不存在物理键盘和鼠标，并且用户可以独自通过显示器525和/或触摸板(未示出)与设备交互。输入设备的任何类型和组合都可以用作设计选择。在某些实施例中，不存在物理输入设备和/或显示器。例如，用户可以经由与之通信的另一计算系统与计算系统500远程交互，或计算系统500可以自主操作。

存储器515存储当由(一个或多个)处理器510执行时提供功能性的软件模块。模块包括用于计算系统500的操作系统540。模块还包括工作流生成模块545，工作流生成模块545被配置为执行本文中所描述的过程中的全部过程或部分过程或其衍生物。计算系统500可以包括一个或多个附加功能性模块550，该一个或多个附加功能性模块550包括附加功能性。

本领域技术人员应当领会到，在不背离本发明的范围的情况下，“系统”可以被实施为服务器、嵌入式计算系统、个人计算机、控制台、个人数字助理(PDA)、手机、平板电脑计算设备、量子计算系统或任何其他适当的计算设备、或设备的组合。将上文所描述的功能呈现为由“系统”执行不旨在以任何方式限制本发明的范围，而是旨在提供本发明的许多实施例的一个示例。实际上，本文中所公开的方法、系统和装置可以以与包括云计算系统在内的计算技术一致的本地化形式和分布式形式来实现。

应当指出，本说明书中描述的系统特征中的一些系统特征已经作为模块呈现，以便更特别地强调其实现独立性。例如，模块可以被实施为硬件电路，硬件电路包括定制超大规模集成电路(VLSI)或门阵列、诸如逻辑芯片的现成半导体、晶体管、或其他分立部件。模块也可以在可编程硬件设备(诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备、图形处理单元等)中被实施。

模块还可以至少部分地被实施在软件中，以供各种类型的处理器执行。可执行代码的经标识的单元可以比如包括计算机指令的一个或多个物理块或逻辑块，其可以比如被组织为对象、规程(procedure)或功能。不过，经标识的模块的可执行表不需要在物理上位于一起，而是可以包括不同位置中存储的不同指令，这些指令当以逻辑方式结合在一起时，包括该模块并且实现该模块的所述目的。进一步地，模块可以存储在计算机可读介质上，在不背离本发明的范围的情况下，该计算机可读介质可以比如是硬盘驱动器、闪存设备、RAM、磁带、和/或用于存储数据的任何其他此类非暂态计算机可读介质。

确实，可执行代码的模块可以是单个指令，或许多指令，甚至可以分布在若干不同的代码分段上、在不同的程序之间以及跨若干存储器设备。同样，本文中，操作数据可以在模块内被标识和说明，并且可以以任何适当的形式来被实施并且可以在任何适当的类型的数据结构内进行组织。操作数据可以作为单个数据集进行收集，或可以分布在包括不同存储设备的不同位置上，并且可以至少部分地仅作为系统或网络上的电子信号存在。

RPA工作流生成

RPA工作流可以基于逻辑步骤的序列来被创建。在一些实施例中，该序列可以被写入并被存储在文本文件中，然而，在不背离本发明的范围的情况下，可以使用用于捕获步骤的任何其他适当的机构。例如，当在一张纸上写入逻辑步骤的序列时，该序列可以在图像中被捕获。在另一示例中，可以在音频文件中说出和记录/捕获该序列。在这些示例中，(一个或多个)序列可以包括流程图、框图或两者。

在一些实施例中，对创建自动化过程感兴趣的开发人员或任何其他个人把序列写入RPA工作流开发应用的文本设计器模块中。然而，在不背离本发明的范围的情况下，可以使用任何期望的文本编辑器或文档编辑器(诸如MS

)。当使用第三方文本编辑器或文档编辑器时，文本的副本可以被粘贴到RPA工作流开发应用的文本设计器模块中，以创建RPA工作流。

在某些实施例中，开发人员把序列、流程图和/或框图写在一张纸上。然后，在不背离本发明的范围的情况下，通过照片应用、与RPA工作流开发应用相关联的图像捕获模块或经由任何其他适当的机构来捕获序列、流程图和/或框图的图像。在一些实施例中，图像捕获模块可以包括上传被捕获的图像的选项。在某些实施例中，除图像之外或代替图像，应用可以捕获音频。

在上传被捕获的图像和/或上传音频文件后，RPA工作流开发应用的RPA工作流生成模块可以对被捕获的图像执行OCR和/或对被捕获的音频文件执行语音到文本识别，以将该信息转换为数字格式。然后，RPA工作流生成模块可以基于经训练的AI模型来创建RPA工作流。经训练的AI模型可以向RPA开发人员提供一个或多个工作流，并且可以允许开发人员选择这些工作流中的一个或多个工作流。

在一些实施例中，在XAML文件数据集上对AI模型进行训练。XAML文件本质上包含工作流。输入数据以通用格式(在预处理章节中进行说明)被传递给AI模型。AI模型可以消耗该输入，然后预测相应活动。该预测输出的格式是XAML文件。

在一些实施例中，如果RPA工作流开发应用所生成的工作流不适合开发人员，则他或她可以拒绝该工作流。在某些实施例中，开发人员可以通过选择另一工作流来拒绝该工作流。RPA开发人员的(一个或多个)选择可以用作工作流生成模块的反馈，以对其自身进行再训练并且在将来推荐更好的工作流。在一些实施例中，可以在一个时间段内收集一批选择信息，然后该信息可以用于再训练。

因此，工作流生成模块可以随着时间的流逝而得以进一步改进，并且可以随着其被再训练而生成更准确和功能强大的工作流。在某些实施例中，开发人员可以使用这种方法来构建完全成熟的工作流或构建活动的简单序列。

图6是图示了根据本发明的实施例的用于自动生成RPA工作流的系统600的流程图。在一些实施例中，RPA开发人员或工作流创建器将包含逻辑步骤的序列的(一个或多个)文本文件、(一个或多个)图像文件、(一个或多个)音频文件、或其任何组合(统称为“文件”)上传到RPA工作流开发应用602。然后，RPA工作流开发应用602将包含序列的文件转换为数字格式，或通过第三方OCR应用将文件转换为数字格式，并且将该数字格式发送到模型服务器604以供预处理。

基于以下媒体类型来执行预处理：

·图像：使用OCR引擎来提取文本。

·语音：使用语音到文本引擎将音频转换为文本文件。

·文本：与上述输出和文本输入一起将被进一步预处理，如移除停用词、标点符号等。

模型服务器604可以使用模型数据库610中存储的(一个或多个)AI模型来预测工作流。从上述预处理步骤，文本被馈送到AI模型中，该AI模型已经利用经注释的流程数据集(XAML格式)以有监督方式被训练。针对相应文本输入，AI模型提取特征并且利用某些概率得分预测工作流。基于这些概率得分，生成工作流并且将其呈现给用户。

在预测了(一个或多个)工作流(例如，在一些实施例中，利用至少一个最小置信度阈值标识看起来是候选者的一个或多个工作流)之后，模型服务器604将(一个或多个)预测的RPA工作流返回给RPA工作流开发应用602。在一些实施例中，提供(一个或多个)预测的RPA工作流作为XAML文件的集合。基于预测概率得分，生成一个或多个工作流。在一个实施例中，用户可以设置概率得分阈值，并且如果不止一个工作流与阈值匹配，则单独工作流被呈现给用户。即使在输入模糊的情况下，基于先前的学习，AI模型也可以产生多个工作流并且将这些工作流呈现给用户。

RPA工作流开发应用602可以使得开发人员能够使用(一个或多个)预测的工作流。附加地或备选地，在一些实施例中，开发人员可以经由RPA工作流开发应用602来修改(一个或多个)预测的工作流或拒绝(一个或多个)预测的工作流。如果开发人员批准或修改了(一个或多个)预测的工作流，则RPA工作流开发应用602可以将经批准或经修改的工作流发送到训练数据库606以供存储。训练数据库606可以将存储的经批准或经修改的RPA工作流转发到训练模块608，从而该工作流可以在将来用于再训练AI模型。

如果预测的工作流不符合用户的使用情况，则他或她可以根据其需求更正工作流，然后使用设计器标签(tab)中的上传按钮将经更正的工作流作为输入训练数据馈送到AI模型用于再训练目的。在再训练模型之前，对作为反馈的一部分被上传的工作流进行进一步注释。一旦模式被再训练，针对验证数据集将对模型进行评估，并且如果度量优于先前的模型，则经更新的模型将被拉取到模型数据库中。

在发生再训练之后，经批准或经修改的工作流的经再训练的模型然后被存储在模型数据库610中，以供后续使用。

在某些实施例中，模型数据库610存储AI模型和相关联的信息。在一些实施例中，AI模型和相关联的信息可以被定义为包含训练过程之后获得的经学习的特征的文件。

度量模块612可以包含用于AI域的标准度量，如精度、召回和f1得分等。给予这些度量关于AI模型的性能和效率的见解。

图7是图示了根据本发明的实施例的RPA工作流生成过程700的流程图。在一些实施例中，在702处，开发人员经由RPA工作流开发应用上传包含逻辑步骤的序列的(一个或多个)文本文件、(一个或多个)图像文件、(一个或多个)音频文件或其任何组合(统称为“文件”)。在一些实施例中，可以在RPA工作流开发应用内并入指定的文本编辑工具、成像工具和/或音频工具，以促进文件的上传。

在704处，一旦输入文件被上传，该文件就被发送到工作流生成模块(或“模型”)。工作流生成模块负责对文件进行预处理、加载AI模型、以及进行预测。在一些实施例中，如果序列在图像文件中被捕获，则工作流生成模块执行OCR，或使得OCR被执行，以捕获文本。在某些实施例中，如果序列在音频文件中被捕获，则工作流生成模块执行语音到文本识别，或使得语音到文本识别被执行，以捕获语音文本。一旦捕获了文本，就可以对文本进行处理以预测工作流。

在706处，工作流生成模块访问模型数据库以拉取(一个或多个)最新工作流模型。这将是用于预测的、迄今为止得分最高的AI模型。本文中的比较是将先前经训练的模型的得分与当前模型的得分进行比较。可以从工作流模型库存中拉取(一个或多个)工作流模型，该工作流模型库存存储了先前被存储的工作流模型。

在708处，工作流生成模块加载(一个或多个)工作流模型，并且使用来自步骤704的经预处理的文本来预测工作流。在710处，工作流生成模块基于(一个或多个)预测来将可能XAML文件的列表传输到RPA工作流开发应用。在712处，RPA工作流开发应用显示可能XAML文件的列表，以供开发人员进行选择。工作量被生成并且被下载到工程范围内的单独文件夹中，其例如可以在UiPath Studio Project^TM视图中被查看。点击文件在UiPath StudioProject^TM中打开文件。可能XAML文件的列表与开发人员可选择的不同工作流有关。在714处，RPA工作流开发应用从开发人员接收选择，产生所选择的工作流。

文本到工作流生成

在文本到工作流生成中，在一些实施例中，开发人员打开RPA工作流开发应用并且选择其文本编辑器。在一些实施例中，在文本编辑器内，开发人员可以写入逻辑步骤的序列。例如，参见图8，其是根据本发明的实施例的图形用户界面(GUI)800，其图示了要被转换为RPA工作流的文本的形式的逻辑步骤的序列。应当领会，在一些实施例中，开发人员可以在文本或文档编辑器中写入逻辑步骤的序列。在这样的实施例中，开发人员可以复制粘贴这些步骤到RPA工作流开发应用的文本编辑器中。

在文本编辑器中录入文本后，例如，开发人员可以点击“生成”按钮。这触发AI模型以使用文本构建工作流并且以XAML格式返回生成的工作流。参见例如图10，其是图示了根据本发明的实施例的从图8的文本创建的RPA工作流的图像900。然后，可以在RPA工作流开发应用中向开发人员示出生成的RPA工作流。在一些实施例中，在生成RPA工作流之后，开发人员可以使用工作流、拒绝工作流或修改工作流。参见例如图11-13，它们是图像1100、1200和1300，其图示了在修改之前、当用户正在从工作流中删除项时的修改期间以及在用户完成对工作流的修改之后接收的工作流。可以捕获并存储该反馈，用于AI模型的后续再训练，以生成更有效和个性化的工作流。

图像到工作流的生成

在图像到工作流生成中，在一些实施例中，RPA开发人员打开RPA工作流开发应用并且选择图像设计器模块。可以经由图像设计器模块上传具有文本序列、流程图、框图等的工作流的图像。参见例如图9，其是图示了根据本发明的实施例的写在纸上的示例工作流的图像1000。在该实施例中，图像1000被馈送到AI模型中，该AI模型使用OCR处理图像或使得OCR被执行。AI模型可以理解需求和逻辑，并且将图像所示的部件映射到RPA活动中以生成RPA工作流。在一些实施例中，在RPA工作流被构建之后，RPA开发人员可以选择以使用工作流、拒绝工作流或修改工作流。该反馈可以被捕获并被存储，用于AI模型的后续再训练，以学习开发人员的风格以及开发人员如何创建工作流。

在一些实施例中，AI模型可以处理人工绘制的图像或机器绘制的图像以生成RPA工作流。这允许开发人员在通勤或以其他方式无法访问具有用于生成RPA工作流的RPA工作流开发应用的计算系统时，可以在一张纸上绘制图像或在另一软件应用中创建图像。然而，应当指出，在一些实施例中，RPA工作流开发应用可以位于移动设备上，因此用户可以无论其身在何处都可以具有对该应用的访问权。如上文所提及的，在一些实施例中，当用于创建工作流的按钮被选择时，工作流被创建。

音频到文本生成

一些实施例的RPA工作流开发应用可以包括语音到文本模块或具有对语音到文本模块的访问权。在这样的实施例中，开发人员使用记录设备(例如，具有麦克风的移动电话或膝上型计算机)记录与RPA工作流有关的音频记录。一旦开发人员具有对RPA工作流开发应用的访问权，则开发人员例如可以将音频文件上传到音频到工作流模块中，并且选择“创建工作流”按钮。在内部，可以使用语音到文本模块处理音频文件。该模块可以将语音转换为文本，然后以与上文在其他实施例中所提及的方式相同的方式来消耗文本。

一个或多个实施例减少了RPA开发人员再产生在RPA工作流开发应用外部生成的RPA工作流所需的时间。开发人员可以在文本或文档编辑器应用中以文本格式写入工作流，在纸上写流程图等。在这种实施例中，不会对关于如何写逻辑步骤的序列的语法进行预先定义。进一步地，一些实施例不需要开发人员关于RPA工作流开发应用中的模块的知识，因为他或她可以以文本格式产生工作流构思。在一些实施例中，可以定制模型以适合开发人员的偏好和需求。

在图6和图7中执行的过程步骤可以根据本发明的实施例由计算机程序被执行，该计算机程序对指令进行编码以供(一个或多个)处理器执行图6和图7所描述的(一个或多个)过程的至少一部分。可以在非暂态计算机可读介质上实施计算机程序。计算机可读介质可以是但不限于硬盘驱动器、闪存设备、RAM、磁带、和/或任何其他这样的介质或用于存储数据的介质的组合。该计算机程序可以包括经编码的指令，用于控制计算系统的(一个或多个)处理器(例如，图5的计算系统500的(一个或多个)处理器510)，以实现图6和图7中所描述的全部或部分过程步骤，这些过程步骤还可以存储在计算机可读介质上。

计算机程序可以以硬件、软件或混合实施方式来实施。该计算机程序可以由模块组成，这些模块彼此可操作地通信并且被设计为传递信息或指令以供显示。计算机程序可以被配置为在通用计算机、ASIC或任何其他适当的设备上操作。

应当容易理解，如本文中的附图中所一般描述和说明的，本发明的各个实施例的部件可以以各种不同的配置来布置和设计。因此，如附图所示，对本发明的实施例的详细描述并非旨在限制所要求保护的本发明的范围，而仅代表本发明的所选择的实施例。

在整个说明书中描述的本发明的特征、结构或特点可以在一个或多个实施例中以任何适当的方式组合。例如，在整个说明书中对“某些实施例”、“一些实施例”或类似语言的引用意味着结合该实施例所描述的特定特征、结构或特点包括在本发明的至少一个实施例中。因此，贯穿本说明书的短语“在某些实施例中”、“在某些实施例中”、“在其他实施例中”或类似语言的出现不一定全都是指同一实施例组，并且所描述的特征、结构或特点可以在一个或多个实施例中以任何适当的方式组合。

应当指出，在整个说明书中对特征、优点或类似语言的引用并不暗示可以使用本发明实现的所有特征和优点应当是本发明的任何单个实施例或在本发明的任何单个实施例中。相反，提及特征和优点的语言应当理解为意指结合实施例所描述的特定特征、优点或特点包括在本发明的至少一个实施例中。因此，在整个说明书中对特征和优点的讨论以及类似语言可以但不一定是指相同实施例。

更进一步地，在一个或多个实施例中，可以以任何适当的方式组合所描述的本发明的特征、优点和特点。相关领域的技术人员应当认识到，在没有特定实施例的特定特征或优点中的一个或多个特定特征或优点的情况下，可以实践本发明。在其他实例中，在某些实施例中可以认识到可能并非都存在于本发明的所有实施例的附加特征和优点。

本领域普通技术人员应当容易理解，可以采用不同次序的步骤和/或与所公开的配置不同的配置的硬件元件来实践如上文所讨论的本发明。因此，尽管已经基于这些优选实施例对本发明进行了描述，但是对于本领域技术人员而言，显而易见的是，在不背离本发明的精神和范围的情况下，某些修改、变型和备选构造将是显而易见的。因此，为了确定本发明的界限，应当参考所附的权利要求。

Claims

1.一种计算机实现的方法，用于创建机器人过程自动化(RPA)工作流，所述计算机实现的方法包括：

通过计算系统上的工作流开发应用接收媒体文件，所述媒体文件包括提议工作流；

将所述提议工作流的接收的所述媒体文件转发到工作流生成模块以供处理；

由所述工作流生成模块访问模型数据库，以拉取一个或多个工作流模型；

由所述工作流生成模块加载所述一个或多个工作流模型，并且预测一个或多个工作流以供所述计算系统的用户选择；以及

从所述工作流生成模块，向所述工作流开发应用传输包括所述一个或多个工作流的可能XAML文件的列表，以供所述用户选择。

2.根据权利要求1所述的计算机实现的方法，其中所述媒体文件是所述提议工作流的文本文件、所述提议工作流的图像文件、和/或所述提议工作流的音频文件，所述工作流包含逻辑步骤的序列。

3.根据权利要求1所述的计算机实现的方法，其中所述媒体文件经由所述工作流开发应用被上传。

4.根据权利要求1所述的计算机实现的方法，还包括：

当所述媒体文件包括所述提议工作流的图像文件时，由所述工作流生成模块对所述媒体文件执行光学字符识别(OCR)。

5.根据权利要求1所述的计算机实现的方法，还包括：

当所述媒体文件包括所述提议工作流的音频文件时，由所述工作流生成模块对所述媒体文件执行语音到文本识别。

6.根据权利要求1所述的计算机实现的方法，其中所述一个或多个工作流模型是模型库存中存储的多个先前经训练的人工智能(AI)模型中具有最高得分的AI模型。

7.根据权利要求1所述的计算机实现的方法，还包括：

由所述工作流开发应用显示所述一个或多个工作流以供所述用户选择；以及

在所述工作流开发应用处，接收针对所述一个或多个工作流的用户选择。

8.根据权利要求7所述的计算机实现的方法，其中所述用户选择包括所选择的工作流、经修改的工作流、或被否定的工作流。

9.根据权利要求8所述的计算机实现的方法，还包括：

在训练数据库处存储所述所选择的工作流、所述经修改的工作流、或所述被否定的工作流；以及

利用所述所选择的工作流、所述经修改的工作流或所述被否定的工作流，再训练所述AI模型。

10.根据权利要求9所述的计算机实现的方法，还包括：

当所述AI模型的度量大于先前AI模型的度量时，将经再训练的所述AI模型推送到所述模型数据库中。

11.一种在非暂态计算机可读介质上被实施的计算机程序，所述计算机程序被配置为使至少一个处理器：

12.根据权利要求11所述的计算机程序，其中所述媒体文件是所述提议工作流的文本文件、所述提议工作流的图像文件、和/或所述提议工作流的音频文件，所述工作流包含逻辑步骤的序列。

13.根据权利要求11所述的计算机程序，其中所述媒体文件经由所述工作流开发应用被上传。

14.根据权利要求11所述的计算机程序，其中所述计算机程序还被配置为使所述至少一个处理器：

15.根据权利要求11所述的计算机程序，其中所述计算机程序还被配置为使所述至少一个处理器：

16.根据权利要求11所述的计算机程序，其中所述一个或多个工作流模型是模型库存中存储的多个先前经训练的人工智能(AI)模型中具有最高得分的AI模型。

17.根据权利要求11所述的计算机程序，其中所述计算机程序还被配置为使所述至少一个处理器：

18.根据权利要求17所述的计算机程序，其中所述用户选择包括所选择的工作流、经修改的工作流、或被否定的工作流。

19.根据权利要求18所述的计算机程序，其中所述计算机程序还被配置为使所述至少一个处理器：

20.根据权利要求19所述的计算机程序，其中所述计算机程序还被配置为使所述至少一个处理器：