CN113741883B

CN113741883B - 一种rpa轻量级数据中台系统

Info

Publication number: CN113741883B
Application number: CN202111310096.8A
Authority: CN
Inventors: 魏鑫
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-04-15
Anticipated expiration: 2041-11-08
Also published as: CN113741883A

Abstract

本发明公开了一种RPA轻量级数据中台系统，主要包括RPA数据抓取模块、数据采集模块、轻量级数据仓库模块、数据展示模块，采用RPA页面数据批量提取技术解决现实场景中，多系统数据采集时面临的接口开发困难、数据获取权限申请困难问题；采用了基于数据仓库理念，使用轻量级的非关系型数据库打造的一个轻量级数据仓库，解决了传统数据仓库建设周期长、成本高的问题以及RPA采集后数据多源异构的问题；采用交互式数据动态可视化技术，融合了传统数据可视化技术的优点，并通过图表模板技术实现数据报表的动态配置，真正意义上实现数据结果所见即所得的效果；解决了现实场景中数据可视化开发周期长，面对需求变更响应速度慢的问题。

Description

一种RPA轻量级数据中台系统

技术领域

本发明涉及人工智能技术领域，特别涉及一种RPA轻量级数据中台系统。

背景技术

RPA（Robotic Process Automation，机器人流程自动化）技术是一种流程自动化技术，通过RPA软件提供的流程编辑器，可以设计和配置出能够自动执行的业务操作流程，并封装成“软件机器人”或“虚拟机器人”的形态，部署到生产环境和业务系统上执行，模拟人在计算机上的一系列操作，例如鼠标移动、鼠标点击、键盘输入、打开网页、获取页面信息、创建文件、输入文件内容、保存文件、删除文件等等，基于上述原子化的操作，实现跨系统的数据集成、汇总和分析，从而替代企业中普遍存在的大量简单、繁琐、重复的工作，并且能够在不进行大规模系统改造的情况下，解决不同部门、不同系统间的数据隔离和业务隔离现象，进一步提高流程处理效率、提高业务操作准确性、降低流程处理成本，最终满足企业的降本增效和业务转型的诉求。

现有的传统RPA技术实现和业务系统的交互是通过对界面布局和代码的解析来实现的，例如通过一些桌面应用自动化工具或业务应用系统提供的API（应用程序接口）接口实现页面数据的抓取并根据新的业务规则进行聚合处理。这种技术对操作对象数据的的可见性和开放性有较高的要求，需要能通过接口或源码获取操作对象数据信息，从而执行相应操作。

但在一些应用场景下会存在问题，例如需要同时分析多个业务应用系统里的数据，并进行汇总分析。RPA机器人通过API接口或者页面元素拾取到的数据都是比较单一且片面，一旦将多个业务系统的数据处理做在一个RPA流程里，会导致RPA流程过于繁重复杂不易于维护，相对于简单的业务流程处理，复杂RPA流程的运行性能效率会极大降低。并且伴随着业务系统的增多，业务量的增长，业务数据的数据量会呈现指数级的增长，普通的RPA客户端无法承载如此量级的数据处理，需要服务器级别的硬件环境作为支撑，并且需要不断的扩展服务器磁盘、CPU（中央处理器）、内存等核心配置。领域内的通用方法是将数据处理从RPA流程中剥离出来，并将数据处理放到轻量级数据仓库中，并分为几个阶段：ODS（数据运营）、DWD（数据明细）、DWM（数据中间层）、DWS（数据服务）、APP（数据应用）。

基于上述现有技术存在的问题，本申请方案所要解决的技术问题具体包括：

1、跨多系统的数据采集中源数据难以有效聚合；

2、基于Hadoop生态的数据仓库需要依赖大量服务和硬件资源；

3、传统的数据可视化技术开发周期长且不灵活。

基于上述问题，本发明提出了一种RPA轻量级数据中台系统，综合应用RPA技术、OLAP大数据处理技术，以提供更高效、更轻量的数据处理功能。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种RPA轻量级数据中台系统，采用RPA、非关系型列式数据库和交互式数据动态可视化相结合的技术，轻量、高效、快捷地同时采集多个业务应用系统数据，进而实现便捷的数据分析和辅助决策。

首先，采用RPA页面数据批量提取技术解决现实场景中，多系统数据采集时面临的接口开发困难、数据获取权限申请困难问题，提出的新方案能够更加及时、稳定、高效的在多业务系统中完成数据采集的问题。

其次，采用了基于数据仓库理念，使用轻量级的非关系型数据库打造的一个轻量级数据仓库，解决了传统数据仓库建设周期长、成本高的问题，以及RPA采集后数据多源异构的问题，相比于传统的Hadoop生态技术构建的数据仓库，本发明中的轻量级数据仓库具有开发周期短、中间件服务依赖少、硬件成本低的特点。

最后，采用交互式数据动态可视化技术，融合了传统数据可视化技术的优点，并通过图表模板技术实现数据报表的动态配置，真正意义上实现数据结果所见即所得的效果，解决了现实场景中数据可视化开发周期长，面对需求变更响应速度慢的问题。

具体地，对现有的RPA数据平台和相关技术缺点进行具体描述：

1、跨多系统的数据采集中源数据难以有效聚合

传统RPA数据采集技术采集业务应用系统业务数据主要包含以下三类：系统表单页面数据、系统接口数据、客户端交互数据。RPA客户端采集到数据通常会以本地文件的形式存在客户端本地或者通过事先定义好数据表结构，将数据存入到远程数据库。在一个RPA流程中，通常会同时存在多种来源的数据采集需求，并且不同来源的数据具有数据格式不统一、数据源分散、数据量大、数据关联关系复杂、脏数据不易处理的特点。单纯的将数据存入本地数据文件或者关系型数据库中，后续进行数据分析时需要重新将数据进行汇总，并进行无效数据过滤后加工成分析所需多维度结果表，这个过程耗时长、工作量大，难度高，需要非常专业的数据专业人员进行长时间的处理。这显然不符合现代企业数字化转型降本增效的要求。因此需要借助数据仓库技术，在数据采集阶段就将数据有效的过滤和聚合起来，达到多源异构的效果。

2、基于Hadoop生态的数据仓库需要依赖大量服务和硬件资源

传统的数据仓库通常用于海量数据的处理场景，数据量通常在GB、TB级别甚至是PB级别，并且对数据处理的时效性要求也比较高。现有技术基本是基于Hadoop生态的技术来构建数据仓库，通过分布式文件行式数据库Hive来存储海量数据，同时提供数据查询、加工的操作，同时还需要配合实时计算框架，如Spark、Flink、Storm等来实现快速的数据加工运算，最后将计算好的结果数据做成结果集存入结果数据库，比如Hive、Druid等，在数据应用时也需要借助一些数据查询框架来达到多维度数据快速查询的效果，比如Kylin等，全流程连接起来还需要借助一些中间件，比如zookeeper、Hbase等。全部利用到的技术框架不下于6种，每个框架都需要单独部署服务集群来支撑大规模的数据量级。这就会造成数据仓库搭建复杂、服务间调用复杂、服务维护复杂的一系列问题。服务部署时需要大量的服务器资源，少则几十台，多则成百上千台服务器，随之而来的就是建设成本很高，建设周期也会很长。

3、传统的数据可视化技术开发周期长且不灵活

数据可视化是一种更加直观、高效的数据分析展示方案。传统的数据可视化技术是通过后端服务提供的数据接口查询相应图形所需的数据，并且然后由前端开发工程师根据UI原型进行图案的绘制，并且将后端服务返回的数据嵌入到相应图形所需的模板中，最终在页面上展示。在实际项目中数据展示需求发生变更的情况比较常见，比如数据字段维度增加或变更，数据展示样式需要调整等情况，一旦发生数据需求变更就需要系统开发人员按照需求进行调整，导致需求响应周期长，而且上线后也有可能因为效果不理想而进行再次的调整。

由此，基于目前存在的不足，本发明内容提供一种RPA轻量级数据中台系统，系统的整体框架示意图参照图1所示，从图中可以看到，RPA采集到的不同业务应用系统（业务应用系统A、业务应用系统B、业务应用系统C）的数据后，通过https（HyperText TransferProtocol Secure）协议将数据传输到系统的数据采集层；

在数据采集层，首先系统会进行数据归并聚合，按照不同的业务要求将离散的、不规则的数据进行归并到一个内存级别的数据通道中，然后根据业务自定义的过滤规则对源数据进行初步的筛选过滤，并最终将整理后的数据透传到系统的数据仓库层；

在数据仓库层，会根据业务具体情况选择将数据存入到一个大宽表或者多个宽表中，列式数据库上每一列的数据都是具有相同特性，因此可以通过快速压缩算法对每一列数据进行压缩，至少以十倍的压缩率，查询的时候通过向量查询算法并结合服务器的多核并行处理技术可以实现列级别的大量数据秒级查询，并且硬件资源的要求比传统数据仓库低了至少10倍。在数据仓库层还提供数据加工模块，可以快速的从宽表中查询出所需的业务数据并进行数据切片、聚合、下钻等操作，生成的结果集再存入到新的结果集表中；

最后在系统的数据展示层通过https协议从数据仓库中读取结果集通过交互式数据可视化技术，将结果集数据与系统提供的图表模板相结合，即可迅速得到业务上所需的可视化报表，同时支持数据维度、指标、样式、加载时间等多重条件的自定义操作，从而实现灵活、快速的制作可视化报表，最大化的发挥数据的价值，辅助业务人员进行业务分析和决策。

综上，针对存在的三点缺点，本发明内容具体通过以下方案进行对应解决：

1、针对多个业务应用系统RPA机器人采集数据后聚合、预处理难的问题

采用https通信协议、内存级数据通道和数据过滤规则引擎相结合的计算机技术加以解决。https通信协议用于数据加密传输，确保传输过程中数据不被篡改，内存级数据通道技术用于不规则数据的归并聚合，数据过滤规则引擎用于执行业务自定义的过滤规则，达到数据预清洗的效果。其中由于不同业务应用系统的数据具有字段维度多样化，数据结构多样性的特点，适用于简单业务的数据收集和清洗技术在此并不适用。为此本发明采用内存数据通道技术，将不同来源的数据构建成一个内存级的字典，并且将大数据切分成小数据块，采用分而治之的方式与过滤规则引擎进行结合，最终将过滤后的结果进行聚合，从而解决数据量大、数据来源多、数据结构不规则的问题。

2、针对基于Hadoop生态技术构建数据仓库周期长工作量大成本高的问题

本发明采用非关系型列式数据库技术构建轻量级数据仓库方案，以更便捷和更低成本地进行数据仓库的搭建。每类业务只需要一次性的设计好源数据存储的宽表即可，而不需要根据每个数据源的每类数据分别设计数据表；同时还可以提供类SQL（StructuredQuery Language）的数据加工，不在需要额外的依赖Hive、Hbase之类的数据库以及HDFS文件存储服务，从而解决数据仓库服务依赖多、服务维护复杂、搭建周期长的问题。

3、针对传统数据可视化技术开发周期长且不灵活的问题

采用交互式数据动态可视化征的方案，使得数据结果集以数据模板的方式与报表图形结合，更方便快捷的生成数据分析所需的各种数据报表。具体来说，由于可视化数据报表布局复杂，数据展示维度时有变化，只依赖传统的数据报表开发技术效果很难尽如人意；因此，本发明提出了在数据可视化中融合动态报表模板的方案，用户通过在页面上拖拉拽的方式即可迅速实现可视化数据报表，从而解决开发周期长且无法灵活应对数据展示需求变更的问题。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种RPA轻量级数据中台系统，包括：

RPA数据抓取模块，接口不同业务应用系统抓取数据页面，应用页面元素拾取技术将页面表单转换成表单数据以获得页面业务数据，将页面业务数据加密成数据包，再通过https协议将数据包封装在请求体中并传输给数据采集模块；

数据采集模块，按照https协议解开数据包，按照不同的业务要求将离散的、不规则的数据归并到一个内存级别的内存数据通道中，然后根据业务自定义的过滤规则对源数据进行初步的筛选过滤，并最终将过滤后的数据在内存数据通道中进行聚合，整理后的数据透传给数据仓库层；

数据仓库模块，采用非关系型列式数据库技术构建轻量级数据仓库，非关系型列式数据库包含源数据存储、数据加工和数据查询功能，源数据存储功能通过将数据采集模块整理后的数据根据业务具体情况选择将数据存入到一个大宽表或者多个宽表中；数据查询功能通过向量引擎并结合服务器的多核并行处理技术实现列级别的大量数据秒级查询；数据加工功能通过从宽表中查询出所需的业务数据并进行数据处理，生成的结果集再存入到新的结果集数据表中；

数据展示模块，通过非关系型列式数据库提供的API接口实现对源数据宽表与源数据的管理和查询，同时利用多种数据图表模板配合模板化的结果集数据实现数据图表的数据动态填充和更新，即可迅速得到所需的可视化报表。

进一步优选为，所述RPA数据抓取模块包括：

数据抓取组件子模块，首先应用模拟登录访问到对应的数据页面，通过页面定位技术识别到数据表单所在的页面坐标，再通过页面元素拾取将表单数据拾取出来，输出行结构的页面业务数据；

数据传输组件子模块，用于接收和传输页面业务数据，将抓取转换得到的页面业务数据加密成数据包，再通过https协议将数据包封装在请求体中，然后向数据采集模块发起POST同步请求，等待接收到成功的响应后，再自动点击下一页按钮，然后重复上述过程，直到采集完所有页面业务数据。

进一步优选为，所述数据采集模块包括：

数据接收子模块，应用https协议和数据内存分块技术批量接收页面业务数据，具体按照https协议解开数据包，然后根据业务key分别在内存中开辟不同大小的内存数据块，构建成一个数据通道，并将页面业务数据按照key-value的字典结构，在内存数据通道中进行聚合；

过滤规则引擎子模块，内置过滤规则加载器和过滤规则执行器，过滤规则加载器自动加载用户已经定义好的过滤规则，过滤规则执行器中有一个执行调度器，负责根据目前数据通道中的数据以及已装载的过滤规则，自动判断需要将哪些数据放到哪种过滤规则中执行。

进一步优选为，每个过滤规则执行器对应一个过滤规则和N组页面业务数据，具体执行哪组页面业务数据，在过滤规则中进行动态配置，每个过滤执行器都是通过执行调度器来进行有序的调度执行。

进一步优选为，所述数据仓库模块包括：

非关系型列式数据库，包含数据存储、数据压缩、数据加工和数据查询功能，基于非关系型列式数据库上每一列的数据都是具有相同特性，因此通过快速压缩算法对每一列数据进行压缩；

数据加工模块，应用非关系型列式数据库提供的数据表和数据的增删改查功能来实现。

进一步优选为，所述数据展示模块包括：

源数据管理子模块，通过非关系型列式数据库提供的API接口实现非关系型列式数据库的数据表结构查询以及表数据查询功能，提供一个表结构、表数据的可视化管理功能；

数据加工子模块，通过非关系型列式数据库提供的API接口实现对源数据宽表数据的加工处理，计算后的结果集数据存储在数据仓库模块，并提供结果集查询API接口；

交互式可视化子模块，利用多种的数据图表模板，配合模板化的数据结果集数据，从而实现数据图表的数据动态填充和更新。

进一步优选为，所述交互式可视化子模块结合页面组件拖拽技术，允许用户在系统页面可拖拽不同的图表模板，自定义图表样式来实现一个在线图表画布的效果。

综上所述，本发明对比于现有技术的有益效果为：

本发明独创性地将RPA数据拾取、轻量级数据仓库技术与交互式数据可视化技术进行结合。首先对于多个独立系统之间数据难以打通聚合的场景，采用RPA数据拾取方案进行系统业务数据自动采集汇总，配合轻量级数据仓库用于清洗、存储、加工得到企业实际经营场景中所需的数据分析结果，辅助交互式数据可视化技术进行分析结果的展示，最终解决中小企业日常经营中面临的跨系统数据分析难的问题。通过本发明技术方案，可以实现RPA在全场景下的高效、轻量、低成本的多源数据分析场景。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为发明内容中系统的整体框架示意图；

图2为实施例的系统功能架构图；

图3为实施例中业务应用系统页面的示意图；

图4为实施例中数据接收子模块的具体执行流程图；

图5为实施例中过滤规则引擎子模块的具体执行流程图；

图6为实施例中展示页面的示意图；

图7为实施例具体的实施流程图上半部分；

图8为实施例具体的实施流程图下半部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。说明书中的“实施例”或“实施方式”既可表示一个实施例或一种实施方式，也可表示一些实施例或一些实施方式的情况。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件（包括固件、驻留软件、微代码等），或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种RPA轻量级数据中台系统。

需要说明的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面对本发明中所涉及的技术术语或技术进行简单描述，以便相关人员更好的理解本方案。

1、RPA数据拾取技术

给定一个或多个待采集的应用系统页面，RPA自动化程序通过模拟真实人的登录操作，进入到业务系统页面中，通过页面元素的识别与定位，找到所需采集的业务数据，然后拾取元素填充的数据值，从而将页面转换成数据。采集到的数据通过制定好的规则将数据格式化成约定的格式，然后采用HTTPS数据传输协议传送到下一个环节。

2、数据仓库技术

数据仓库主要目标是完成数据的全生命周期管理，其中主要包括数据清洗、数据存储、数据加工、数据查询几个阶段。

数据清洗：主要目标是将源头数据清洗成合格合规的正式数据，以便下一个阶段的数据使用。本发明的数据清洗采用基于流式规则过滤的数据处理技术，动态加载过滤规则，并将数据流式的传入到过滤规则执行器中，实时的完成数据清洗过滤，并支持动态的插拔过滤规则，根据业务实际情况来调整过滤规则的数量以及过滤规则的逻辑。本发明采用自研规则引擎，减少了传统数据清洗的中间件依赖，降低系统依赖复杂度和硬件资源消耗。

数据存储：数据存储是指向数据存入到数据存储介质中，比如文件、数据库等，通过提供数据交互API接口来读取数据。传统的数据存储是基于分布式文件存储系统HDFS来实现，本发明采用的是具有OLAP特点的分布式列式数据库来实现。传统的大数据存储技术将数据切分成多个block存储在不同的文件中，本发明采用一个列式大宽表，每个列数据都会根据数据类型进行压缩，保障大量数据实时存储的同时还能有较好的节约磁盘资源，查询时通过向量计算的技术可以在列数据中快速查找到所需的数据，并减少了数据索引的存储和查询耗时。

数据加工：数据加工是指根据业务需求对源数据进行聚合、统计等计算后取得所需的业务结果数据集。传统的大数据加工是基于MapReduce技术，将一个大型的数据计算任务拆解成多个子任务，然后在聚合子任务计算出来的结果。本发明的数据加工基于合并树表引擎技术，并结合基于SQL的声明式数据查询，从而实现基于一个列式大宽表快速的加工出结果集子表。降低了数据加工任务的实现难度以及任务运行的耗时。

数据查询：数据查询是指根据业务条件来在大量数据中筛选所需的业务数据结果集。传统的大数据查询也是基于MapReduce技术将一个查询任务分解成多个子任务，分散到不同的服务器中运行，最后将数据结果汇总返回。本发明的数据查询基于列式数据库的近似计算的各类聚合函数，基于数据的部分样本进行近似查询以及在不适用全部的聚合条件，通过随机选择有限个数据聚合条件进行聚合，实现在允许牺牲数据精度的情况下对数据进行快速的查询。降低了计算资源的消耗以及查询任务运行的耗时。

3、数据可视化技术

数据可视化主要借助图形化手段，清晰有效的传达与沟通信息，传统的数据可视化技术主要是是采用前后端开发的模式，根据业务需求设计数据展示的形式，比如采用二维的折线图来表现趋势，柱图来变现统计情况与排序情况。本发明采用交互式的数据可视化技术，通过在系统中预置图形模板，比如预置折线图、饼图、柱图，折线柱图等，在可视化设计画布中，从模板组件中选择所需的模板，拖到画布中，通过自定义布局以及UI样式调整，最后填充指定格式的数据即可立马得到数据可视化的效果。整个过程是一个所见即所得的数据呈现过程，基本不需要前后端技术开发，大大缩短数据可视化大屏或报表的开发周期，并提高图表调整的灵活度。

一种RPA轻量级数据中台系统，包括：

本发明所提出的系统功能架构图如图2所示，主要包括：RPA数据抓取模块、数据采集模块、数据仓库模块、数据展示模块，上述4个模块具体内容如下所述：

RPA数据抓取模块：包括数据抓取组件和数据传输组件两个子模块。

数据抓取组件子模块中应用页面元素拾取实现页面表单到表单数据的转换，常规的系统页面可示意性见图3，具体流程为：

首先应用模拟登录访问到对应的数据页面，通过页面定位技术识别到数据表单所在的页面坐标，然后通过页面元素拾取，将表单数据拾取出来，输出行结构的页面业务数据，字段间按照约定好的分割符进行分割，比如用逗号、分号等，只要能区分出不同字段即可。

数据传输子模块，用于接收和传输页面业务数据，数据抓取组件子模块抓取转换得到的页面业务数据进入向量数据传输组件，将数据进行加密后，通过https协议，将数据包封装在请求体中，然后向数据采集模块发起POST同步请求，等待接收到服务端成功的响应后，再自动点击下一页按钮，然后重复上述过程，直到采集完所有页面业务数据。

数据采集模块：包括数据接收、过滤规则引擎两个个主要子模块。

数据接收子模块应用https通信协议和数据内存分块技术批量接收业务数据；如图2所示，RPA数据抓取模块使用https协议，将数据封装在POST请求的请求体中传输给数据采集模块；参照图4所示，数据接收子模块收到请求后，按照https协议解开数据包（即解包过程），然后根据业务key分别在内存中开辟不同大小的内存数据块，构建成一个数据通道，并将页面业务数据按照key-value的字典结构，在内存数据通道中进行聚合。将结构不统一的数据整合后得到一个结构统一的字典数据块。

过滤规则引擎子模块，内置过滤规则加载器、过滤规则执行器。

过滤规则加载器在系统启动的时候会自动加载用户已经定义好的过滤规则，当有发生新增过滤规则、修改过滤规则的时候，过滤规则加载器会自动装载新的规则，并且移除旧的过滤规则，达到动态实时更新的目的。当有过滤规则被删除的时候，系统会检查当前是否有执行器正在执行改规则，若有则当前时间不允许删除，若无则将过滤规则从加载器中移除。

参照图5的具体执行流程图，规则加载器加载多个过滤规则，如图中的过滤规则A、过滤规则B、过滤规则C，规则加载器对加载的过滤规则进行装载形成规则链，过滤规则执行器中有一个执行调度器，负责根据目前数据通道中的数据以及已装载的过滤规则（即规则链），自动判断需要将哪些数据放到哪种过滤规则中执行，每个过滤规则执行器对应一个过滤规则和N组业务数据，具体执行哪组数据，在过滤规则中可以进行动态配置，每个过滤执行器都是通过执行调度器来进行有序的调度执行。

轻量级数据仓库模块：该模块主要包括非关系型列式数据库和数据加工模块。

非关系型列式数据库相对于关系型数据库，非关系型数据具有表结构格式要求低，可以适配的数据场景更宽广，海量数据的维护和处理会很轻松，同时具有扩展性强，并发支持度和数据库稳定性都更加稳定，并且成本也更加低廉。

本发明中采用的是非关系型列式数据库，同一列的数据具有相同的特性，采用数据压缩技术可以获得更好的压缩比率。同时向量引擎方案以达到更加高效的使用CPU，数据不仅仅按列存储，同时还按向量（列的一部分）进行处理，这样可以更加高效地使用CPU。

本发明中采用的列式数据库本身具备源数据存储、数据加工以及结果数据查询等功能，天然具备数据仓库的特点，相对于Hadoop生态技术搭建的数据仓库，具有服务依赖少、开发维护效率高、部署实施成本低的特点。

数据加工子模块，应用非关系型列式数据提供的数据表和数据的增删改查功能来实现，本发明中使用的列式数据库支持一种基于SQL的声明式查询语言，它在许多情况下与ANSI SQL标准相同。支持查询GROUP BY,ORDER BY,FROM,JOIN,IN以及非相关子查询，通过INSERT、UPDATE、CREATE、DELETE等来实现数据表的新增、修改、删除同时还支持数据权限的控制，精确到字段级别的数据权限控制。

GROUP BY语句用于结合聚合函数，根据一个或多个列对结果集进行分组；ORDERBY 语句用于对结果集进行排序。

数据展示模块：数据展示模块主要包括源数据管理、数据加工、交互式可视化三个子模块。

源数据管理子模块通过列式数据的数据表结构查询以及表数据查询功能，在系统层面提供一个表结构、表数据的可视化管理功能。通过数据仓库层提供的API接口来实现，输入参数为查询SQL、数据修改SQL。

数据加工子模块也是利用相同的原理，通过轻量级数据仓库层提供的数据加工API接口来实现对源数据表数据的加工处理，比如聚合计算、分组计算、统计计算等，然后将计算后的结果数据集存储在轻量级数据仓库层，并提供结果集查询API接口，便于后续的数据应用。

交互式可视化子模块实现了数据分析所见即所得的效果，利用多种的数据图表模板，比如饼图、柱图、折线图等图表模板组件，配合模板化的数据结果集，从而实现图表的数据动态填充和更新，最终的展示页面可参照图6。再结合页面组件拖拽技术，允许用户在系统页面可以拖拽不同的图表模板，自定义图表的背景、字体等样式来实现一个在线图表画布的效果。用户在数据图表画布上，通过拖拉拽的方式完成数据大屏或数据报表页面的布局后，再从数据仓库中的数据结果集中选择相应的数据进行图表填充，从而快速实现数据可视化的开发。

以电商为代表的中小企业，由于前期企业为了提升日常工作效率，采购或自建了一些面向垂直业务的应用系统，比如财务系统、ERP管理系统、人力资源，这些应用系统之间基本没有联动，当有需要联动各个系统的数据进行企业经营情况分析时，采用人工收集数据再进行统计耗时高且效率低，在各个系统间做系统打通又面临需要和系统开发厂商采购定制化开发，且不沟通系统的厂商之间的衔接面临巨大挑战。如何高效、轻便、低成本的方式来解决多系统数据整合与分析是RPA应用到这些场景亟需解决的问题，也是影响RPA技术广泛应用的关键瓶颈。

现以如下RPA机器人采集企业ERP系统和财务系统的数据，结合ERP进销存数据和企业财务数据进行企业经营情况分析流程为例。

参照图7和图8所示，为具体的实施流程图，具体实施流程如下：

在系统的准备阶段需要构建场景对应的业务数据，业务数据可分散在多个系统里，也可集中在一个业务系统；每个业务系统的数据都存在各自的数据库，数据库之间彼此隔离，如图7中构建场景对应的A业务数据和构建场景对应的B业务数据，分别对应A业务系统数据和B业务系统数据；

在RPA的数据拾取阶段，首先需要进行数据表单的定位，以图7所示，则是定位ERP进销存数据表单所在的页面位置和财务数据表单所在的页面位置（A业务数据表单页面和B业务数据表单页面），如果定位不到或者定位失败，则直接结束流程，并记录异常日志，发送异常告警；

在数据采集阶段，首先输入需要RPA拾取到的业务数据包，如图7所示，RPA的数据拾取阶段构建出来json格式数据，通过https协议发到数据采集层，按照约定的规则进行数据包的解析，接着根据业务key数据开辟内存空间，构建内存级的数据通道，调用动态规则过滤实现实时数据预清洗；

参照图8所示，通过数据数据采集阶段留存下来的数据，由轻量级数据仓库进行接收，首先存入事先建好的业务宽表中，为了避免大量小数据表连表导致性能差的情况，通常尽可能把把表建的宽一些，列维度字段通常可以达到几百个；数据仓库底层是由列式数据库实现，天然支持SQL操作，通过SQL控制台，编辑好数据加工的SQL，执行后便可得到所需的业务结果集，最后再存入到结果集数据表中，供数据可视化分析使用；

根据上一步获取的结果集数据表，根据实际业务分析需要，从可视化模板库中找到对应的图表模板，并连接上结果数据表，选择维度字段和指标字段，即可得到具有真实数据的数据图表。还可在页面上改变图表的颜色、字体、边框等样式来实现自定义图表的功能。

本发明的技术关键点：

本发明独创性的采用一种RPA数据采集+轻量级数仓+交互式数据可视化的三级架构，结合RPA数据拾取技术、轻量级数据库仓库技术和交互式数据可视化技术来解决中小企业无法跨系统数据汇总分析的问题。

本发明的技术关键点和保护点如下:

1、创新性的结合RPA数据拾取+轻量级数据仓库+交互式数据可视化技术解决传统中小企业无法跨系统做数据汇总分析的问题，本发明的整体技术架构为独创；

2、RPA数据采集过程中采用页面元素拾取技术，并在数据预处理过程中独创性的融合流式规则引擎，以提高数据预处理的灵活性和便捷性；

3、采用轻量级列式数据库来代替传统数据仓库，在数据仓库技术中针对性的进行了数据存储和数据查询的效率优化，提升了非结构化数据的存储和查询速度，该项技术在本领域据笔者所知为首次应用；

4、针对数据可视化开发量大，业务应变不灵活的问题，创新性地引入了交互式数据可视化技术，通过该技术，可以快速的构建出数据分析报表和可视化大屏，减少业务响应时间，提高开发效率。

以上所述仅是本发明的示范性实施方式，而非用于限制本发明的保护范围，本发明的保护范围由所附的权利要求确定。

Claims

1.一种RPA轻量级数据中台系统，其特征在于，包括：

数据采集模块，按照https协议解开数据包，按照不同的业务要求将离散的、不规则的数据归并到一个内存级别的内存数据通道中，然后根据业务自定义的过滤规则对源数据进行初步的筛选过滤，并最终将过滤后的数据在内存数据通道中进行聚合，整理后的数据透传给数据仓库层；所述数据采集模块包括：

过滤规则引擎子模块，内置过滤规则加载器和过滤规则执行器，过滤规则加载器自动加载用户已经定义好的过滤规则，过滤规则执行器中有一个执行调度器，负责根据目前数据通道中的数据以及已装载的过滤规则，自动判断需要将哪些数据放到哪种过滤规则中执行；

数据展示模块，通过非关系型列式数据库提供的API接口实现对源数据宽表与源数据的管理和查询，同时利用多种数据图表模板配合模板化的结果集数据实现数据图表的数据动态填充和更新，即可迅速得到所需的可视化报表；所述数据展示模块包括：

交互式可视化子模块，利用多种的数据图表模板，配合模板化的数据结果集数据，从而实现数据图表的数据动态填充和更新；所述交互式可视化子模块结合页面组件拖拽技术，允许用户在系统页面可拖拽不同的图表模板，自定义图表样式来实现一个在线图表画布的效果。

2.根据权利要求1所述的一种RPA轻量级数据中台系统，其特征在于，所述RPA数据抓取模块包括：

3.根据权利要求1所述的一种RPA轻量级数据中台系统，其特征在于，每个过滤规则执行器对应一个过滤规则和N组页面业务数据，具体执行哪组页面业务数据，在过滤规则中进行动态配置，每个过滤执行器都是通过执行调度器来进行有序的调度执行。

4.根据权利要求1所述的一种RPA轻量级数据中台系统，其特征在于，所述数据仓库模块包括：