CN113553425A - 基于rpa和ai的数据汇聚方法、装置、设备及存储介质 - Google Patents

基于rpa和ai的数据汇聚方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113553425A
CN113553425A CN202110721011.9A CN202110721011A CN113553425A CN 113553425 A CN113553425 A CN 113553425A CN 202110721011 A CN202110721011 A CN 202110721011A CN 113553425 A CN113553425 A CN 113553425A
Authority
CN
China
Prior art keywords
data
attribute
library
service
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110721011.9A
Other languages
English (en)
Inventor
荣文杰
汪冠春
胡一川
褚瑞
李玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Laiye Network Technology Co Ltd
Laiye Technology Beijing Co Ltd
Original Assignee
Beijing Laiye Network Technology Co Ltd
Laiye Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Laiye Network Technology Co Ltd, Laiye Technology Beijing Co Ltd filed Critical Beijing Laiye Network Technology Co Ltd
Priority to CN202110721011.9A priority Critical patent/CN113553425A/zh
Publication of CN113553425A publication Critical patent/CN113553425A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Stored Programmes (AREA)

Abstract

本申请提出一种基于RPA和AI的数据汇聚方法、装置、设备及存储介质,其中,该方法包括:获取大数据平台中各主题库分别对应的数据资源目录;基于机器人流程自动化RPA,根据每个主题库对应的数据资源目录,从各业务系统中获取每个主题库对应的第一业务数据;对每个主题库对应的第一业务数据进行数据治理,以获取每个主题库对应的第二业务数据;将每个主题库对应的第二业务数据推送给大数据平台。该方法通过RPA可以从各业务系统中获取构建主题库所需的数据,实现了全量数据采集,而且实现了全流程的自动化。

Description

基于RPA和AI的数据汇聚方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于RPA和AI的数据汇聚方法、装置、设备及存储介质。
背景技术
机器人流程自动化(Robotic Process Automation,简称:RPA)是一种新型的人工智能的虚拟流程自动化机器人,用于模拟人在计算机上的操作,按规则自动执行流程任务,RPA可以广泛应用于各个需要流程自动化的领域,例如大数据平台数据汇聚。
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
在大数据平台数据汇聚,通常采用库表对接、接口等方式进行数据汇聚。但是,由于各单位业务系统主要为国垂、省垂系统,通常本地没有数据库,导致大多数业务系统数据无法采集。
发明内容
本申请提供一种基于RPA和AI的数据汇聚方法、装置、设备及存储介质。具体技术方案如下:
本申请一方面实施例,提供一种基于RPA和AI的数据汇聚方法,包括:
获取大数据平台中各主题库分别对应的数据资源目录;
基于机器人流程自动化RPA,根据每个所述主题库对应的数据资源目录,从各业务系统中获取每个主题库对应的第一业务数据;
对每个所述主题库对应的第一业务数据进行数据治理,以获取每个所述主题库对应的第二业务数据;
将每个所述主题库对应的第二业务数据推送给所述大数据平台。
在本申请一方面实施例一种可能的实现方式中,每个所述主题库对应的数据资源目录包括目标业务系统及每个所述主题库包含的各属性项,所述根据每个所述主题库对应的数据资源目录,从各业务系统中获取每个主题库对应的第一业务数据,包括:
根据每个所述主题库包含的各属性项,从所述目标业务系统中获取所述第一业务数据,其中,所述第一业务数据包括所述各属性项对应的属性值。
在本申请一方面实施例一种可能的实现方式中,所述目标业务系统为多个,所述根据每个所述主题库包含的各属性项,从所述目标业务系统中获取所述第一业务数据,包括:
根据每个所述主题库包含的各属性项,从每个目标业务系统中获取至少一个属性项对应的属性值。
在本申请一方面实施例一种可能的实现方式中,其中,每个所述主题库对应的数据资源目录还包括每个属性项对应的数据格式,所述对每个所述主题库对应的第一业务数据进行数据治理,以获取每个所述主题库对应的第二业务数据,包括:
基于自然语言处理NLP,将每个属性项对应的属性值的数据格式与所述目标数据格式进行匹配;
在任一属性值的数据格式与所述目标数据格式不匹配的情况下,对所述任一属性值进行处理,以使所述任一属性值的数据格式为所述目标数据格式。
在本申请一方面实施例一种可能的实现方式中,所述数据资源目录中包括各属性项的顺序,所述将每个所述主题库对应第二业务数据推送给所述大数据平台,包括:
根据每个主题库对应的各属性项的顺序,将各属性项对应的属性值进行整合;
将整合后的所述第二业务数据推送给大数据平台。
在本申请一方面实施例一种可能的实现方式中,所述将每个所述主题库对应的第二数据推送给所述大数据平台,包括:
通过所述大数据平台的接口,将每个所述主题库对应的第二业务数据推送给所述大数据平台;或者,
将每个所述主题库对应的第二业务数据写入所述大数据平台的数据库。
本申请另一方面实施例,提供一种基于RPA和AI的数据汇聚装置,包括:
第一获取模块,用于获取大数据平台中各主题库分别对应的数据资源目录;
第二获取模块,用于基于机器人流程自动化RPA,根据每个所述主题库对应的数据资源目录,从各业务系统中获取每个主题库对应的第一业务数据;
第三获取模块,用于对每个所述主题库对应的第一业务数据进行数据治理,以获取每个所述主题库对应的第二业务数据;
推送模块,用于将每个所述主题库对应的第二业务数据推送给所述大数据平台。
在本申请另一方面实施例一种可能的实现方式中,每个所述主题库对应的数据资源目录包括目标业务系统及每个所述主题库包含的各属性项,所述第二获取模块,用于:
根据每个所述主题库包含的各属性项,从所述目标业务系统中获取所述第一业务数据,其中,所述第一业务数据包括所述各属性项对应的属性值。
在本申请另一方面实施例一种可能的实现方式中,所述目标业务系统为多个,所述第二获取模块,用于:
根据每个所述主题库包含的各属性项,从每个目标业务系统中获取至少一个属性项对应的属性值。
在本申请另一方面实施例一种可能的实现方式中,每个所述主题库对应的数据资源目录还包括每个属性项对应的数据格式,所述第二获取模块,用于:
基于自然语言处理NLP,将每个属性项对应的属性值的数据格式与所述目标数据格式进行匹配;
在任一属性值的数据格式与所述目标数据格式不匹配的情况下,对所述任一属性值进行处理,以使所述任一属性值的数据格式为所述目标数据格式。
在本申请另一方面实施例一种可能的实现方式中,所述数据资源目录中包括各属性项的顺序,所述推送模块,用于:
根据每个主题库对应的各属性项的顺序,将各属性项对应的属性值进行整合;
将整合后的所述第二业务数据推送给大数据平台。
在本申请另一方面实施例一种可能的实现方式中,所述推送模块,用于:
通过所述大数据平台的接口,将每个所述主题库对应的第二业务数据推送给所述大数据平台;或者,
将每个所述主题库对应的第二业务数据写入所述大数据平台的数据库。本申请另一方面实施例,提供一种计算设备,所述计算设备包括:
存储有可执行程序代码的存储器;
与存储器耦合的处理器;
其中,处理器调用存储器中存储的可执行程序代码,执行如上述一方面实施例所述的基于RPA和AI的数据汇聚方法。
本申请另一方面实施例,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述一方面实施例所述的基于RPA和AI的数据汇聚方法。
本申请另一方面实施例,提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述一方面实施例所述的基于RPA和AI的数据汇聚方法。
本申请实施例的基于RPA和AI的数据汇聚方法、装置、设备及存储介质,通过获取大数据平台中各主题库分别对应的数据资源目录;基于机器人流程自动化RPA,根据每个主题库对应的数据资源目录,从各业务系统中获取每个主题库对应的第一业务数据;对每个主题库对应的第一业务数据进行数据治理,以获取每个主题库对应的第二业务数据;将每个主题库对应的第二业务数据推送给大数据平台。由此,通过RPA可以从各业务系统中获取构建主题库所需的数据,实现了全量数据采集,而且实现了全流程的自动化。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,并不构成对本申请的不当限定。
图1为本申请实施例提供的一种基于RPA和AI的数据汇聚方法的流程示意图;
图2为本申请实施例提供的另一种基于RPA和AI的数据汇聚方法的流程示意图;
图3为本申请实施例提供的一种基于RPA和AI的数据汇聚的过程示意图;
图4为本申请实施例提供的一种基于RPA和AI的数据汇聚装置的结构示意图;
图5为本申请实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例及附图中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面参考附图描述本申请实施例的基于RPA和AI的数据汇聚方法、装置、电子设备和存储介质。
在大数据平台数据汇聚,通常采用库表对接、接口等方式进行数据汇聚。但是,由于各单位业务系统主要为国垂、省垂系统,通常本地没有数据库,导致大多数业务系统数据无法采集。
本申请实施例提供的基于RPA和AI的数据汇聚方法,通过基于RPA将各业务系统数据自动汇集到大数据平台,实现大数据平台数据汇聚的自动化。
RPA是以软件机器人及人工智能(AI)为基础的业务过程自动化科技。通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
图1为本申请实施例提供的一种基于RPA和AI的数据汇聚方法的流程示意图。
如图1所示,该基于RPA和AI的数据汇聚方法包括:
步骤101,获取大数据平台中各主题库分别对应的数据资源目录。
本申请中,大数据平台会构建多个主题库,比如,某地的大数据平台包括人口库、信用库、法人库等,其中,人口库可存储该地居民的个人信息、信用库可存储该地居民的公共信用、法人库可存储该地法人单位的信息。
由于不同的主题库中存储的信息可能不同,为了构建各主题库,本申请中,可以获取大数据平台中每个主题库对应的数据资源目录,其中,每个主题库对应的数据资源目录可用于指示主题库中包含哪些数据、这些数据的存储格式等。
在获取每个主题库对应的数据资源目录时,可以是从大数据平台获取的,也可以是预先设置的,本申请对此不作限定。
步骤102,基于机器人流程自动化RPA,根据每个主题库对应的数据资源目录,从各业务系统中获取每个主题库对应的第一业务数据。
RPA可以通过用户使用界面,智能理解已有应用,将基于规则的常规操作自动化,如自动重复读取邮件、读取Office组件、操作数据库及网页和客户端软件等,采集数据,进行繁琐的计算,大批量生成文件和报告,完成枯燥的文件检查等工作。
基于此,本申请中,可基于RPA登陆每个业务系统,然后进行查询,并抓取查询结果。比如,基于RPA登陆某业务系统查询本地的单位法人信息,然后抓取查询结果。本申请中,基于RPA可以从多种数据载体中抓取数据,对于每种数据载体可以采用相应的方式抓取数据,如下表1所示:
表1
Figure BDA0003136857610000061
在实现时,可以根据每个主题库对应的数据资源目录指示的主题库中包含哪些数据,确定查询条件,在基于RPA登陆各业务系统后,基于查询条件进行查询,并抓取查询结果。由于查询结果中可能包含构建主题库不需要的数据,即存在多余的数据,那么在获取查询结果后,可以根据每个主题库对应的数据资源目录,对查询结果进行筛选,以获取构建主题库需要的数据,即第一业务数据。
比如,根据人口库对应的数据资源目录,从各业务系统抓取的数据中包含毕业院校、专业等,而这些信息是构建人口库不需要的,通过数据资源目录可以将这些数据筛除,从而获取构建人口库所需要的数据。
为了提高数据汇聚的及时性,本申请中,可以每隔预设时长比如12个小时,或者每隔24个小时等,从各业务系统采集数据。
步骤103,对每个主题库对应的第一业务数据进行数据治理,以获取每个主题库对应的第二业务数据。
在获取每个主题库对应的第一业务数据后,为了保证从业务系统获取的数据能够满足大数据平台的存储要求,可以对每个主题库对应的第一业务数据进行数据治理,以获取每个主题库对应的第二业务数据。其中,第二业务数据满足大数据平台的存储要求。
本申请中,对第一业务数据进行数据治理可以是判断第一业务数据是否完整、第一业务数据的数据格式是否满足要求等。
步骤104,将每个主题库对应的第二业务数据推送给大数据平台。
在获取每个主题库对应的第二业务数据后,可将各主题库分别对应的第二业务数据推送给大数据平台,以使大数据平台根据获取的第二业务数据构建各主题库。
本申请中,可以通过大数据平台的标准接口,将每个主题库对应的第二业务数据推送给大数据平台。或者,也可以将每个主题库对应的第二业务数据直接写入大数据平台的数据库,比如大数据平台具有录入界面,可以通过界面录入第二业务数据。
本申请实施例中的基于RPA和AI的数据汇聚方法,通过获取大数据平台中各主题库分别对应的数据资源目录;基于机器人流程自动化RPA,根据每个主题库对应的数据资源目录,从各业务系统中获取每个主题库对应的第一业务数据;对每个主题库对应的第一业务数据进行数据治理,以获取每个主题库对应的第二业务数据;将每个主题库对应的第二业务数据推送给大数据平台。由此,通过RPA可以从各业务系统中获取构建主题库所需的数据,实现了全量数据采集,而且实现了全流程的自动化。
图2为本申请实施例提供的另一种基于RPA和AI的数据汇聚方法的流程示意图。
如图2所示,该基于RPA和AI的数据汇聚方法包括:
步骤201,获取大数据平台中各主题库分别对应的数据资源目录。
本申请中,步骤201与上述步骤101类似,故在此不再赘述。
步骤202,根据每个主题库包含的各属性项,从目标业务系统中获取第一业务数据,其中,第一业务数据包括各属性项对应的属性值。
为了提高数据汇聚效率,本申请中,每个主题库对应的数据资源目录中可包括目标业务系统及每个主题库包含的各属性项。其中,属性项也可称为数据项,目标业务系统是构建主题库需要查询的业务系统,每个主题库包含的属性项是指构建每个主题库需要获取的数据信息。其中,目标业务系统可以是一个,也可以是多个。
也就是说,每个主题库对应的数据资源目标规定要从哪些业务系统中获取哪些数据。比如,构建法人库,需要从能够查询法人单位信息的业务系统获取,法人库对应的属性项包括法人代表、单位名称、成立日期、注册资金等。
本申请中,可以根据每个主题库包含的属性项,确定查询目标业务系统时的查询条件,根据查询条件,获取并抓取查询结果,并从查询结果中筛选出构建每个主题库所需的第一业务数据。其中,第一业务数据可以包括各属性项对应的属性值。比如,构建某主题库需要属性项“姓名”等,那么查询到的某个人的名字是属性项“姓名”对应的属性值。
若目标业务系统为多个,可以根据每个主题库包含的各属性项,从每个目标业务系统中获取至少一个属性项对应的属性值。其中,从每个目标业务系统获取的数据对应的属性项及属性项的数量可能不同。
比如,某主题库对应的属性项包括m1、m2、m3、m4,从业务系统A获取属性项m1、m2、m3对应的属性值,从业务系统B中,获取属性项m2、m3、m4对应的属性值属性项。
属性项步骤203,对每个主题库对应的第一业务数据进行数据治理,以获取每个主题库对应的第二业务数据。
在实际应用中,从不同业务系统获取数据所属的属性项可能相同,本申请中,可以将从各目标业务系统中获取的至少一个属性项对应的属性值进行去重整合,得到第二业务数据,其中,第二业务数据包括主题数据库包括每个属性项对应的属性值。
比如,某主题库对应的属性项包括m1、m2、m3、m4,从业务系统A获取属性项m1、m2、m3对应的属性值,从业务系统B中,获取属性项m2、m3、m4对应的属性值,可以将才从两个业务系统A和B获取的各属性项对应的属性值进行去重整合,得到主题库对应的第一业务数据,其中,第一业务数据包括m1、m2、m3、m4分别对应的属性值。
在实际应用中,从业务系统A中获取的m2对应的属性值,可能与从业务系统B中获取的m2对应的属性值相同,可以将属性值进行去重,比如,从多个业务系统中获取了某人的毕业院校和专业信息,那么可以将这些信息进行去重。
在实际应用中,可能从业务系统采集的某数据的格式与大数据平台规定的格式。基于此,本申请中,每个主题库对应的数据资源目录中还可包括每个属性项对应的数据格式,可以基于自然语言处理(Natural Language Processing,简称NLP),将每个属性项对应的属性值的数据格式与目标数据格式进行匹配,在任一属性值的数据格式与目标数据格式不匹配的情况下,对任一属性值进行处理,以使任一属性值的数据格式为目标数据格式。从而,使得每个属性项对应的属性值满足大数据平台的存储要求。
在实际应用中,可能还会存在从不同业务系统中获取的同一人或单位等的同一属性项对应的属性值不同,本申请中还可对同一属性项的数据进行交叉核验,以提高数据质量。比如,基于NLP将从业务系统A获取的某人的居住地址,与从业务系统中B获取的该人的居住地址进行匹配,若两者不匹配,那么可以根据两个业务系统的权重,确定该人的居住地址,或者将生成的时间最晚的居住地址作为该人的居住地址汇入大数据平台。其中,业务系统对应的权重可以是根据预先规定,也可以是根据业务系统的类型确定的。
步骤204,将每个主题库对应的第二业务数据推送给大数据平台。
本申请中,可以通过大数据平台的标准接口,将每个主题库对应的第二业务数据推送给大数据平台。或者,也可以将每个主题库对应的第二业务数据直接写入大数据平台的数据库,比如大数据平台具有录入界面,可以通过界面录入第二业务数据。
在实际应用中,大数据平台可能对各属性项的顺序有要求,比如,数据表中年龄必须在联系方式之前。因此,本申请中,还可以按照每个主题库对应的各属性项的顺序,将各属性项对应的属性值进行整合,将整合后的第二数据推送给大数据平台。由此,可以满足大数据平台对数据的要求。
图3为本申请实施例提供的一种基于RPA和AI的数据汇聚的过程示意图。
如图3所示,基于RPA可以从县级业务系统、市级业务系统、省级业务系统、部委业务系统等进行数据采集,这些业务系统可能存在多种数据载体比如网页、客户端软件、邮箱、数据库、Excel表格、Http等。在采集数据时,可以从这些数据载体中进行采集,每种数据载体采用的方式可见上述表1。
由于要构建不同的主题库,可以先根据每个主题库对应的数据资源目录,将采集的数据进行归集即进行分类,之后利用基于每个主题库对应的数据资源目录构建的模型,对每个主题库对应的采集到的数据进行筛选过滤,以获取每个主题库包含的各属性项对应的属性值。
之后,对每个主题库包含的各属性项对应的属性值进行数据清洗、元数据管理等,具体地,可以根据各数据资源目录对数据的格式要求,RPA可以自动校验数据格式是否满足要求,并自动校正格式不满足要求的数据。另外,RPA可以对从不同业务系统获取的同一属性项进行交叉核验,提升数据质量。
RPA可以将每个主题库对应的业务数据推送给数据平台,以使数据平台构建多种主题库。另外,数据平台中还包括资源目录,根据该资源目录可以获取各主题库对应的数据资源目录。由此,RPA可以完成各单位业务系统数据自动汇集到大数据平台,实现全流程的自动化。
为了实现上述实施例,本申请实施例还提出一种基于RPA和AI的数据汇聚装置。图4为本申请实施例提供的一种基于RPA和AI的数据汇聚装置的结构示意图。
如图4所示,该基于RPA和AI的数据汇聚装置400包括:
第一获取模块410,用于获取大数据平台中各主题库分别对应的数据资源目录;
第二获取模块420,用于基于机器人流程自动化RPA,根据每个所述主题库对应的数据资源目录,从各业务系统中获取每个主题库对应的第一业务数据;
第三获取模块430,用于对每个所述主题库对应的第一业务数据进行数据治理,以获取每个所述主题库对应的第二业务数据;
推送模块440,用于将每个所述主题库对应的第二业务数据推送给所述大数据平台。
在本申请实施例一种可能的实现方式中,每个所述主题库对应的数据资源目录包括目标业务系统及每个所述主题库包含的各属性项,所述第二获取模块420,用于:
根据每个所述主题库包含的各属性项,从所述目标业务系统中获取所述第一业务数据,其中,所述第一业务数据包括所述各属性项对应的属性值。
在本申请实施例一种可能的实现方式中,所述目标业务系统为多个,所述第二获取模块420,用于:
根据每个所述主题库包含的各属性项,从每个目标业务系统中获取至少一个属性项对应的属性值。
在本申请实施例一种可能的实现方式中,每个所述主题库对应的数据资源目录还包括每个属性项对应的数据格式,所述第二获取模块420,用于:
基于自然语言处理NLP,将每个属性项对应的属性值的数据格式与所述目标数据格式进行匹配;
在任一属性值的数据格式与所述目标数据格式不匹配的情况下,对所述任一属性值进行处理,以使所述任一属性值的数据格式为所述目标数据格式。
在本申请实施例一种可能的实现方式中,所述数据资源目录中包括各属性项的顺序,所述推送模块440,用于:
根据每个主题库对应的各属性项的顺序,将各属性项对应的属性值进行整合;
将整合后的所述第二业务数据推送给大数据平台。
在本申请实施例一种可能的实现方式中,所述推送模块440,用于:
通过所述大数据平台的接口,将每个所述主题库对应的第二业务数据推送给所述大数据平台;或者,
将每个所述主题库对应的第二业务数据写入所述大数据平台的数据库。
上述装置实施例与方法实施例相对应,与该方法实施例具有同样的技术效果,具体说明参见方法实施例。装置实施例是基于方法实施例得到的,具体的说明可以参见方法实施例部分,此处不再赘述。
本申请实施例的基于RPA和AI的数据汇聚装置,通过获取大数据平台中各主题库分别对应的数据资源目录;基于机器人流程自动化RPA,根据每个主题库对应的数据资源目录,从各业务系统中获取每个主题库对应的第一业务数据;对每个主题库对应的第一业务数据进行数据治理,以获取每个主题库对应的第二业务数据;将每个主题库对应的第二业务数据推送给大数据平台。由此,通过RPA可以从各业务系统中获取构建主题库所需的数据,实现了全量数据采集,而且实现了全流程的自动化。
图5是本申请实施例提供的一种计算设备的结构示意图。如图5所示,该计算设备可以包括:
存储有可执行程序代码的存储器501;
与存储器501耦合的处理器502;
其中,处理器502调用存储器501中存储的可执行程序代码,执行本申请任意实施例所提供的基于RPA和AI的数据汇聚方法。
该计算设备实施例与上述方法实施例是基于同一发明构思得到的实施例,相关之处可以相互参照。上述计算设备实施例与方法实施例相对应,与该方法实施例具有同样的技术效果,具体说明参见方法实施例。
本申请实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行本申请任意实施例所提供的基于RPA和AI的数据汇聚方法。
在本申请的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
另外,在本申请各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的部分或全部步骤。
该存储介质实施例与上述方法实施例是基于同一发明构思得到的实施例,相关之处可以相互参照。上述存储介质实施例与方法实施例相对应,与该方法实施例具有同样的技术效果,具体说明参见方法实施例。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。

Claims (14)

1.一种基于RPA和AI的数据汇聚方法,其特征在于,包括:
获取大数据平台中各主题库分别对应的数据资源目录;
基于机器人流程自动化RPA,根据每个所述主题库对应的数据资源目录,从各业务系统中获取每个主题库对应的第一业务数据;
对每个所述主题库对应的第一业务数据进行数据治理,以获取每个所述主题库对应的第二业务数据;
将每个所述主题库对应的第二业务数据推送给所述大数据平台。
2.如权利要求1所述的方法,其特征在于,每个所述主题库对应的数据资源目录包括目标业务系统及每个所述主题库包含的各属性项,所述根据每个所述主题库对应的数据资源目录,从各业务系统中获取每个主题库对应的第一业务数据,包括:
根据每个所述主题库包含的各属性项,从所述目标业务系统中获取所述第一业务数据,其中,所述第一业务数据包括所述各属性项对应的属性值。
3.如权利要求2所述的方法,其特征在于,所述目标业务系统为多个,所述根据每个所述主题库包含的各属性项,从所述目标业务系统中获取所述第一业务数据,包括:
根据每个所述主题库包含的各属性项,从每个目标业务系统中获取至少一个属性项对应的属性值。
4.如权利要求2所述的方法,其特征在于,其中,每个所述主题库对应的数据资源目录还包括每个属性项对应的数据格式,所述对每个所述主题库对应的第一业务数据进行数据治理,以获取每个所述主题库对应的第二业务数据,包括:
基于自然语言处理NLP,将每个属性项对应的属性值的数据格式与所述目标数据格式进行匹配;
在任一属性值的数据格式与所述目标数据格式不匹配的情况下,对所述任一属性值进行处理,以使所述任一属性值的数据格式为所述目标数据格式。
5.如权利要求2所述的方法,其特征在于,所述数据资源目录中包括各属性项的顺序,所述将每个所述主题库对应第二业务数据推送给所述大数据平台,包括:
根据每个主题库对应的各属性项的顺序,将各属性项对应的属性值进行整合;
将整合后的所述第二业务数据推送给大数据平台。
6.如权利要求1-5任一所述的方法,其特征在于,所述将每个所述主题库对应的第二数据推送给所述大数据平台,包括:
通过所述大数据平台的接口,将每个所述主题库对应的第二业务数据推送给所述大数据平台;或者,
将每个所述主题库对应的第二业务数据写入所述大数据平台的数据库。
7.一种基于RPA和AI的数据汇聚装置,其特征在于,包括:
第一获取模块,用于获取大数据平台中各主题库分别对应的数据资源目录;
第二获取模块,用于基于机器人流程自动化RPA,根据每个所述主题库对应的数据资源目录,从各业务系统中获取每个主题库对应的第一业务数据;
第三获取模块,用于对每个所述主题库对应的第一业务数据进行数据治理,以获取每个所述主题库对应的第二业务数据;
推送模块,用于将每个所述主题库对应的第二业务数据推送给所述大数据平台。
8.如权利要求7所述的装置,其特征在于,每个所述主题库对应的数据资源目录包括目标业务系统及每个所述主题库包含的各属性项,所述第二获取模块,用于:
根据每个所述主题库包含的各属性项,从所述目标业务系统中获取所述第一业务数据,其中,所述第一业务数据包括所述各属性项对应的属性值。
9.如权利要求8所述的装置,其特征在于,所述目标业务系统为多个,所述第二获取模块,用于:
根据每个所述主题库包含的各属性项,从每个目标业务系统中获取至少一个属性项对应的属性值。
10.如权利要求8所述的装置,其特征在于,每个所述主题库对应的数据资源目录还包括每个属性项对应的数据格式,所述第二获取模块,用于:
基于自然语言处理NLP,将每个属性项对应的属性值的数据格式与所述目标数据格式进行匹配;
在任一属性值的数据格式与所述目标数据格式不匹配的情况下,对所述任一属性值进行处理,以使所述任一属性值的数据格式为所述目标数据格式。
11.如权利要求8所述的装置,其特征在于,所述数据资源目录中包括各属性项的顺序,所述推送模块,用于:
根据每个主题库对应的各属性项的顺序,将各属性项对应的属性值进行整合;
将整合后的所述第二业务数据推送给大数据平台。
12.如权利要求7-11任一所述的装置,其特征在于,所述推送模块,用于:
通过所述大数据平台的接口,将每个所述主题库对应的第二业务数据推送给所述大数据平台;或者,
将每个所述主题库对应的第二业务数据写入所述大数据平台的数据库。
13.一种计算设备,其特征在于,所述计算设备包括:
存储有可执行程序代码的存储器;
与存储器耦合的处理器;
其中,处理器调用存储器中存储的可执行程序代码,执行如权利要求1-6任一所述的基于RPA和AI的数据汇聚方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一所述的基于RPA和AI的数据汇聚方法。
CN202110721011.9A 2021-06-28 2021-06-28 基于rpa和ai的数据汇聚方法、装置、设备及存储介质 Pending CN113553425A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110721011.9A CN113553425A (zh) 2021-06-28 2021-06-28 基于rpa和ai的数据汇聚方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110721011.9A CN113553425A (zh) 2021-06-28 2021-06-28 基于rpa和ai的数据汇聚方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113553425A true CN113553425A (zh) 2021-10-26

Family

ID=78102478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110721011.9A Pending CN113553425A (zh) 2021-06-28 2021-06-28 基于rpa和ai的数据汇聚方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113553425A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168832A (zh) * 2021-11-17 2022-03-11 中国人民解放军国防科技大学 一种面向推荐平台的rpa数据采集方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740339A (zh) * 2016-01-25 2016-07-06 河北中科恒运软件科技股份有限公司 民政大数据融合管理系统
US20180239825A1 (en) * 2017-02-23 2018-08-23 Innoplexus Ag Method and system for performing topic-based aggregation of web content
EP3598355A1 (en) * 2018-07-17 2020-01-22 Accenture Global Solutions Limited Smart resource manager in unified automation platforms for robotic process automation
CN112699175A (zh) * 2021-01-15 2021-04-23 广州汇智通信技术有限公司 一种数据治理系统及其方法
CN112860412A (zh) * 2021-03-12 2021-05-28 网易(杭州)网络有限公司 业务数据处理方法、装置、电子设备及存储介质
CN113034095A (zh) * 2021-01-29 2021-06-25 北京来也网络科技有限公司 结合rpa和ai的人机互动方法、装置、存储介质及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740339A (zh) * 2016-01-25 2016-07-06 河北中科恒运软件科技股份有限公司 民政大数据融合管理系统
US20180239825A1 (en) * 2017-02-23 2018-08-23 Innoplexus Ag Method and system for performing topic-based aggregation of web content
EP3598355A1 (en) * 2018-07-17 2020-01-22 Accenture Global Solutions Limited Smart resource manager in unified automation platforms for robotic process automation
CN112699175A (zh) * 2021-01-15 2021-04-23 广州汇智通信技术有限公司 一种数据治理系统及其方法
CN113034095A (zh) * 2021-01-29 2021-06-25 北京来也网络科技有限公司 结合rpa和ai的人机互动方法、装置、存储介质及电子设备
CN112860412A (zh) * 2021-03-12 2021-05-28 网易(杭州)网络有限公司 业务数据处理方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168832A (zh) * 2021-11-17 2022-03-11 中国人民解放军国防科技大学 一种面向推荐平台的rpa数据采集方法
CN114168832B (zh) * 2021-11-17 2022-05-27 中国人民解放军国防科技大学 一种面向推荐平台的rpa数据采集方法

Similar Documents

Publication Publication Date Title
RU2343537C2 (ru) Компьютерный поиск с помощью ассоциативных связей
CN109997126A (zh) 事件驱动提取、变换、加载(etl)处理
CN104361018A (zh) 电子档案信息整编方法及装置
CN105138312A (zh) 一种表格生成方法及装置
CN111652468A (zh) 业务流程的生成方法、装置、存储介质及计算机设备
JP2016018286A (ja) 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム
CN108287889B (zh) 一种基于弹性表模型的多源异构数据存储方法和系统
CN111858730A (zh) 一种图数据库的数据导入导出装置、方法、设备及介质
CN112162960A (zh) 一种卫生健康政务信息共享方法、装置及系统
CN111639077B (zh) 数据治理方法、装置、电子设备、存储介质
CN115237857A (zh) 日志处理方法、装置、计算机设备及存储介质
CN107704620A (zh) 一种档案管理的方法、装置、设备和存储介质
CN113553425A (zh) 基于rpa和ai的数据汇聚方法、装置、设备及存储介质
WO2016206395A1 (zh) 周报信息处理方法及装置
CN114637866B (zh) 数字化新媒体的信息管理方法及装置
CN102117324B (zh) 应用模糊矩阵的文件管理方法及管理系统
CN115237783A (zh) 一种测试数据生成方法及装置
Eren et al. A K-means algorithm application on big data
CN113722296A (zh) 一种农业信息处理方法、装置、电子设备及存储介质
CN107180017A (zh) 一种样本序列化方法和装置
CN111143156A (zh) 大数据平台垃圾任务采集系统、方法及计算机系统
CN112131215A (zh) 自底向上的数据库信息获取方法及装置
CN110457323A (zh) 数据表的处理方法及装置
CN113515494B (zh) 基于分布式文件系统的数据库处理方法和电子设备
RU106407U1 (ru) Генератор динамических веб-страниц на основе атрибутов и данных, хранимых в базе данных проекта

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination