CN109271431A - 数据抽取方法、装置、计算机设备及存储介质 - Google Patents
数据抽取方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109271431A CN109271431A CN201810921054.XA CN201810921054A CN109271431A CN 109271431 A CN109271431 A CN 109271431A CN 201810921054 A CN201810921054 A CN 201810921054A CN 109271431 A CN109271431 A CN 109271431A
- Authority
- CN
- China
- Prior art keywords
- type
- data
- database
- extracted
- mapping relations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 238000013507 mapping Methods 0.000 claims abstract description 85
- 238000000605 extraction Methods 0.000 claims description 54
- 238000004590 computer program Methods 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000012544 monitoring process Methods 0.000 claims description 13
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 abstract description 4
- 230000004048 modification Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 10
- 238000004140 cleaning Methods 0.000 description 7
- 235000013399 edible fruits Nutrition 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 102100039375 Ankyrin repeat domain-containing protein 2 Human genes 0.000 description 5
- 101000961307 Homo sapiens Ankyrin repeat domain-containing protein 2 Proteins 0.000 description 5
- 238000013075 data extraction Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000919 ceramic Substances 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000005086 pumping Methods 0.000 description 2
- 208000002460 Enteropathy-Associated T-Cell Lymphoma Diseases 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了数据抽取方法、装置、计算机设备及存储介质,通过获取待执行的任务,根据所述映射关系将第一数据库中属于所述种类的数据抽取到第二数据库。通过按照获取到的执行的任务中的种类将待抽取的数据从一个数据库中抽取到另一个数据库中,由于待抽取的数据与种类映射关系是预先配置好的,当监听到种类发生改变时,即当监听到已有种类发生改变或新增种类时,可以将该种类更新为改变后的种类,从而可以不需要暂停数据抽取的操作,和不需要等待开发人员花费时间修改种类,同时也不需要人工重新启动数据抽取的功能后便能进行数据抽取,进而提高了数据抽取的效率。
Description
技术领域
本发明涉及金融保险领域,尤其涉及数据抽取方法、装置、计算机设备及存储介质。
背景技术
在当今信息时代下,很多金融保险公司越来越重视数据信息的存储。
当金融保险公司对数据进行存储时,需要根据数据的种类将数据从一个业务系统的数据库中获取到,然后将所述数据抽取到另外一个存储系统的数据库,但是,当遇到种类变更时,导致无法抽取到数据,此时,需要先暂停数据抽取的操作,然后待管理员花费时间修改种类完成后,人工重新启动数据抽取的功能,再进行数据抽取。由于这个过程需要暂停数据抽取的操作,从而降低了数据抽取的效率。
发明内容
基于此,有必要针对上述技术问题,提供可以提高数据抽取的效率方法、装置、计算机设备及存储介质。
数据抽取方法,包括:
获取待执行的任务,其中,所述待执行的任务包括第一数据库中待抽取的数据对应的种类,所述第一数据库中待抽取的数据与所述种类之间存在预先配置的映射关系;
监听所述映射关系中的种类,且当监听到所述映射关系中的种类发生改变时,更新发生改变的种类,其中,更新发生改变的种类后所述第一数据库中待抽取数据得到变更;
根据所述映射关系将第一数据库中属于所述种类的待抽取数据抽取到第二数据库,其中,所述种类包括所述映射关系中不发生改变的种类和更新后的发生改变的种类。
数据抽取装置,包括:
获取模块,用于获取待执行的任务,其中,所述待执行的任务包括第一数据库中待抽取的数据对应的种类,所述第一数据库中待抽取的数据与所述种类之间存在预先配置的映射关系;
监听模块,用于监听所述映射关系中的种类,且当监听到所述映射关系中的种类发生改变时,更新发生改变的种类,其中,更新发生改变的种类后所述第一数据库中待抽取数据得到变更;
第一抽取模块,用于根据所述映射关系将第一数据库中属于所述种类的待抽取数据抽取到第二数据库,其中,所述种类包括所述映射关系中不发生改变的种类和更新后的发生改变的种类。
计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据抽取方法的步骤。
计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据抽取方法的步骤。
上述数据抽取方法、装置、计算机设备及存储介质,首先,通过获取待执行的任务,其中,所述待执行的任务包括第一数据库中待抽取的数据对应的种类,所述待抽取的数据与所述种类存在预先配置的映射关系,然后,监听映射关系中的种类,并且当监听到所述映射关系中的种类发生改变时,发生改变的种类得到更新,根据所述映射关系将第一数据库中属于所述种类的待抽取数据抽取到第二数据库。通过按照获取到的执行的任务中的种类将待抽取的数据从一个数据库中抽取到另一个数据库中,由于待抽取的数据与种类映射关系是预先配置完成的,当监听到种类发生改变时,即当监听到已有种类发生改变或新增种类时,可以将该种类更新为改变后的种类,同时,在更新完成改变的种类后第一数据库中待抽取数据也随着发生变更,从而可以不需要暂停数据抽取的操作,和不需要等待开发人员花费时间修改种类,同时也不需要人工重新启动数据抽取的功能后便能进行数据抽取,进而提高了数据抽取的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中数据抽取方法的一应用环境示意图;
图2是本发明一实施例中数据抽取方法的一流程图;
图3是本发明一实施例中数据抽取方法中监听及更新种类的一流程图;
图4是本发明一实施例中数据抽取方法中判断种类的一流程图;
图5是本发明一实施例中数据抽取方法中待抽取的数据预处理的一流程图;
图6是本发明一实施例中数据抽取装置的一示意图;
图7是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的数据抽取方法,可应用在如图1的应用环境中,其中,计算机设备通过网络与服务端进行通信。服务端获取客户端的待执行的任务,其中,待执行的任务包括待抽取的数据对应的种类,待抽取的数据与种类存在映射关系,映射关系预先配置好,当监听到映射关系中的种类发生改变时,发生改变的种类得到更新,服务端根据映射关系将第一数据库中属于种类的数据抽取到第二数据库。其中,计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供数据抽取方法,该数据抽取方法应用在金融行业中,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10:获取待执行的任务。
具体地,通过预设的获取方式获取待执行的任务。
需要说明的是,预设的获取方式可以为人工收集或复制,预设的获取方式的具体内容,可以根据实际应用进行设定,此处不做限制。
待执行的任务包括待抽取的数据对应的种类,通过获取待执行的任务便可以获取到抽取的数据对应的种类。待抽取的数据存储在第一数据库中,第一数据库可以为mysql数据库或Oracle数据库,第一数据库的具体内容,可以根据实际应用进行设定,此处不做限制。
第一数据库中的待抽取的数据与该抽取的数据对应的种类存在着映射关系,该映射关系预先已经配置好,该映射关系可以为一对一或一对多。
为了更好的说明映射关系,以下通过一个例子进行详细说明,具体表述如下:
例如,假设保险种类为CTIL,待抽取的数据为CWPA of A co、fruit OTAR of B和ARPP of C natural person,其中,CTIL英文全称为Cargo transportation liabilityinsurance,中文名称为货物运输责任保险,CWPA of A co英文全称为ceramics withparticular average of A company,中文名称为A公司陶瓷水渍险,fruit OTAR of B英文全称为co overland transportation all risks,中文名称为B公司水果陆运一切险,ARPPof C natural person英文全称为all risks parcel post of C natural person中文名称为C自然人邮包一切险,CTIL存放在表A中,CWPA of A co、fruit OTAR of B和ARPP of Cnatural person存放在表B中,则使用use A,use B,exec sp_grantdbaccess CTIL A,CWPAof A co fruit OTAR of B ARPP of C natural person B,自动将A表中的CTIL和B表中的CWPA of A co fruit OTAR of B ARPP of C natural person建立映射关系,其中,use是指新建表格,exec sp_grantdbaccess是指授权连接两个数据。
S20:监听映射关系中的种类,且当监听到映射关系中的种类发生改变时,更新发生改变的种类。
具体地,通过监听器实时监听映射关系中的种类,并且当监听器监听到映射关系中的种类发生改变时,便将发生改变的种类更新为改变后的种类,同时,在更新发生改变的种类之后第一数据库中待抽取数据也会跟随发生变更。可以理解地,监听器可以为通过预置编程语言对监听算法进行转换得到,监听算法可以为触发器监听法,预置编程语言可以为C++开发编程语言或JAVA开发编程语言,监听算法和预置编程语言的具体内容,可以根据实际应用进行设定,此处不做限制。
S30:根据映射关系将第一数据库中属于种类的数据抽取到第二数据库。
具体地,根据待抽取的数据与该抽取的数据对应的种类预先已经配置好的映射关系将第一数据库中属于该种类的数据抽取到第二数据库中。
在图2对应的实施例中,首先,通过获取待执行的任务,其中,待执行的任务包括第一数据库中待抽取的数据对应的种类,待抽取的数据与种类存在预先配置的映射关系,然后,监听映射关系中的种类,并且当监听到映射关系中的种类发生改变时,发生改变的种类得到更新,根据映射关系将第一数据库中属于种类的待抽取数据抽取到第二数据库。通过按照获取到的执行的任务中的种类将待抽取的数据从一个数据库中抽取到另一个数据库中,由于待抽取的数据与种类映射关系是预先配置完成的,当监听到种类发生改变时,即当监听到已有种类发生改变或新增种类时,可以将该种类更新为改变后的种类,同时,在更新完成改变的种类后第一数据库中待抽取数据也随着发生变更,从而可以不需要暂停数据抽取的操作,和不需要等待开发人员花费时间修改种类,同时也不需要人工重新启动数据抽取的功能后便能进行数据抽取,进而提高了数据抽取的效率。
在一实施例中,该数据抽取方法应用在金融行业中,如图3所示,步骤S10中,即监听映射关系中的种类,且当监听到映射关系中的种类发生改变时,更新发生改变的种类具体包括如下步骤:
S101:开启待抽取的数据对应的种类的监听器。
具体地,打开及启动待抽取的数据对应的种类的监听器。
需要说明的是,监听器可以有一个或多个,不同的种类对应的监听器可以不同。
S102:通过监听器实时监听种类。
具体地,通过监听器实时地监听待抽取的数据对应的种类。
进一步地,判断监听表中的待抽取的数据对应的原始种类与监听到的待抽取的数据对应的种类是否一致,若一致,则确定种类不发生改变;若不一致,则确定种类发生改变。
需要说明的是,监听器可以为与抽取操作动作相应的产生操作日志信息的代码片段,当数据库中存在任一个操作动作时,通过该代码片段都会记录和监听到该操作动作所产生的操作日志信息。
S103:若种类发生改变,则获取监听器生成的种类改变标识信息。
具体地,在监听过程中,当监听器监听到待抽取的数据对应的种类发生改变时,监听器会生成的种类改变标识信息,然后获取该种类改变标识信息。当监听器监听到待抽取的数据对应的种类不发生改变时,则执行步骤S20。
S104:根据种类改变标识信息在所述映射关系中更新被标识的种类。
在本实施例中,发生改变的种类与种类改变标识信息存在一一对应关系。
具体地,根据获取到的种类改变标识信息和该对应关系,在所述映射关系中更新被标识的种类,得到改变后的种类。
在图3对应的实施例中,首先,开启待抽取的数据对应的种类的监听器,然后,通过监听器实时监听种类,若种类发生改变,则获取监听器生成的种类改变标识信息,最后,根据种类改变标识信息在所述映射关系中更新被标识的种类。由于通过监听器实时监听数据库中的每一个操作动作,从而当待抽取的数据对应的种类发生改变时,可以第一时间抓取到种类发生改变的动作,同时获取到发生改变的种类对应的种类改变标识信息,并根据该种类改变标识信息在所述映射关系中更新被标识的种类,进而提高了种类更新的实效性。
在一实施例中,该数据抽取方法应用在金融行业中,在将第一数据库中属于所述种类的数据抽取到第二数据库时采用增量抽取方式,增量抽取方式中的抽取类型包括数据增加类型、数据删除类型和数据更新类型,步骤S20具体为根据映射关系将第一数据库中属于种类的待抽取数据抽取到第二数据库具体包括如下步骤:
S201:若增量抽取方式中的抽取类型为数据增加类型,则根据映射关系将第一数据库中的待抽取的数据与第二数据库中的目标数据相比的增量信息拼接到目标数据,得到拼接后的目标数据并保存到第二数据库中。
在本实施例中,增量抽取方式是指抽取自上次抽取以来数据库中要抽取的表中新增、修改、删除的数据的方式。
具体地,若增量抽取方式中的抽取类型为数据增加类型,则首先,根据第一数据库中的待抽取的数据与该抽取的数据对应的种类的映射关系将该待抽取的数据抽取出来,然后,根据目标数据在第二数据库的存储路径将该目标数据提取出来,接下来,将该待抽取的数据与该目标数据进行比对,得到比对后的该待抽取的数据比该目标数据多的增量信息,再接下来,将该增量信息与目标数据进行拼接,得到拼接后的目标数据,最后,并该拼接后的目标数据保存到第二数据库中。
S202:若增量抽取方式中的抽取类型为数据删除类型,则根据映射关系将第二数据库中的目标数据与第一数据库中的待抽取的数据相比的增量信息删除,得到删除后的目标数据并保存到第二数据库中。
具体地,若增量抽取方式中的抽取类型为数据删除类型,则首先,根据第一数据库中的待抽取的数据与该抽取的数据对应的种类的映射关系将该待抽取的数据抽取出来,然后,根据目标数据在第二数据库的存储路径将该目标数据提取出来,接下来,将该待抽取的数据与该目标数据进行比对,得到比对后的该目标数据比该待抽取的数据多的增量信息,再接下来,从该目标数据中将该增量信息删除,得到删除后的目标数据,最后,将该删除后的目标数据保存到第二数据库中。
S203:若增量抽取方式中的抽取类型为数据更新类型,则根据映射关系将第一数据库中的待抽取的数据替换第二数据库中的目标数据,得到替换后的目标数据并保存到第二数据库中。
具体地,若增量抽取方式中的抽取类型为数据更新类型,则首先,根据第一数据库中的待抽取的数据与该抽取的数据对应的种类的映射关系将该待抽取的数据抽取出来,然后,根据目标数据在第二数据库的存储路径将该目标数据提取出来,接下来,将该待抽取的数据替代该目标数据,得到替代后的目标数据,最后,将该替代后的目标数据保存到第二数据库中。
在本实施例中,若增量抽取方式中的抽取类型为数据增加类型,则根据映射关系将第一数据库中的待抽取的数据与第二数据库中的目标数据相比的增量信息拼接到目标数据,得到拼接后的目标数据并保存到第二数据库中,若增量抽取方式中的抽取类型为数据删除类型,则根据映射关系将第二数据库中的目标数据与第一数据库中的待抽取的数据相比的增量信息删除,得到删除后的目标数据并保存到第二数据库中,若增量抽取方式中的抽取类型为数据更新类型,则根据映射关系将第一数据库中的待抽取的数据替换第二数据库中的目标数据,得到替换后的目标数据并保存到第二数据库中。通过采用全面地增量抽取方式,根据不同的抽取类型对不同的待抽取的数据进行抽取,从而提高了数据抽取的全面性。
在一实施例中,该数据抽取方法应用在金融行业中,如图4所示,映射关系中的种类为进行笛卡尔乘积后的种类,在步骤S10之后,该数据抽取方法还包括如下步骤:
S30:判断待执行的任务中的种类是否为进行笛卡尔乘积后的种类。
在本实施例中,笛卡尔乘积是指在数学中,两个集合X和Y的笛卡尓积,表示为X*Y,第一个对象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员。如,假设A,B为集合,用A中元素为第一元素,B中元素为第二元素构成有序对,所有这样的有序对组成的集合叫做A与B的笛卡尔乘积。
具体地,判断待执行的任务中的种类是否与进行笛卡尔乘积后的种类一致。
S40:若待执行的任务中的种类是进行笛卡尔乘积后的种类,则执行步骤S20。
具体地,若待执行的任务中的种类是与进行笛卡尔乘积后的种类一致,则执行步骤S20。
S50:若待执行的任务中的种类不是进行笛卡尔乘积后的种类,则将待执行的任务中的种类进行转换,得到符合笛卡尔乘积规格的种类。
S60:将符合笛卡尔乘积规格的种类进行笛卡尔乘积,得到乘积后的种类,然后执行步骤S20。
在本实施例中,符合笛卡尔乘积规格的种类是指两个进行笛卡尔的种类必须是构成有序对,即两个种类必须为行形式。SQL,全称为Structured Query Language,存取数据以及查询、更新和管理关系数据库系统机构化语言。
具体地,若待执行的任务中的种类不是进行笛卡尔乘积后的种类,则首先,采用SQL脚本将待执行的任务中的种类进行转换,得到符合笛卡尔乘积规格的种类,然后,将符合笛卡尔乘积规格的不同的两两种类进行笛卡尔乘积,得到乘积后的种类,最后,执行步骤S20。
为了更好地理解步骤S50,下面通过一个例子进行说明,具体表述如下:
例如,假设待执行的任务中的第一险种为:
显然第一险种不是进行笛卡尔乘积后的种类,则,首先,采用SQL代码语句select险种名,max(case地区when'广东'then保费else0end)广东,max(case地区when'广西'then保费else0end)广西,max(case地区when'福建'then保费else0end)福建fromtb,groupby险种名,得到符合笛卡尔乘积规格的第一种类,具体代码语句如下:
select险种名,max(case地区when'广东'then保费else0end)广东,max(case地区when'广西'then保费else0end)广西,max(case地区when'福建'then保费else0end)福建,from tb,groupby险种名,其中,代码语句的具体含义是指提取tb表内容,并按照险种名、广东、广西和福建进行分组。
得到的符合笛卡尔乘积规格的第一种类具体为:
即第一种类为{财产损失险责任保险信用保证保险}。待执行的任务中的第二险种为{企业财产保险家庭财产保险货物运输保险建筑工程保险},然后,将{财产损失险责任保险信用保证保险}和{企业财产保险家庭财产保险货物运输保险建筑工程保险}进行笛卡尔乘积关联,得到企业财产损失险={财产损失险企业财产保险},家庭财产损失保险={财产损失险家庭财产保险},货物运输损失保险={财产损失险货物运输保险},建筑工程损失保险={财产损失险建筑工程保险},企业财产责任险={责任保险企业财产保险},家庭财产责任保险={责任保险家庭财产保险},货物运输责任保险={责任保险货物运输保险},建筑工程责任保险={责任保险建筑工程保险};企业财产信用保证险={信用保证保险企业财产保险},家庭财产信用保证保险={信用保证保险家庭财产保险},货物运输信用保证保险={信用保证保险货物运输保险},建筑工程信用保证保险={信用保证保险建筑工程保险},最后,执行步骤S20。
在图4对应的实施例中,通过判断待执行的任务中的种类是否为进行笛卡尔乘积后的种类,若待执行的任务中的种类是进行笛卡尔乘积后的种类,则执行步骤S20,若待执行的任务中的种类不是进行笛卡尔乘积后的种类,则将待执行的任务中的种类进行转换,得到符合笛卡尔乘积规格的种类,并将符合笛卡尔乘积规格的种类进行笛卡尔乘积,得到乘积后的种类,然后执行步骤S20。由于先判断种类是否为进行笛卡尔乘积后的种类,当种类不是进行笛卡尔乘积后的种类时,先将种类转换为符合笛卡尔乘积规格的种类,然后再将该种类进行不残缺的笛卡尔乘积,得到不遗漏的乘积后的种类,从而提高了获取种类的全面性。
在一实施例中,该数据抽取方法应用在金融行业中,如图5所示,在步骤S20之后,该数据抽取方法还包括如下步骤:
S70:对第一数据库中的待抽取数据进行清洗,得到离散型的数据。
在本实施例中,清洗包括清洗噪声和去除重复元组。拉格朗日插值法是一种多项式插值方法,当对实践中的某个物理量进行观测,在若干个不同的地方得到相应的观测值,采用拉格朗日插值法可以找到一个多项式,其恰好在各个观测的点取到观测到的值。
具体地,采用数据抽取工具中的组件对第一数据库中的待抽取数据进行清洗噪声的具体为:
利用拉格朗日插值法将待抽取的数据中的缺失异常值转换为空值,然后在待抽取的数据中插入正确的值,得到离散型的数据。
需要说明的是,数据抽取工具可以为Kettle,Kettle的全称为Kettle ETTLEnvirnonment,是一款开源的ETL工具,该工具主要思想是把各种数据放到一个壶里,然后以一种指定的格式流出,ELT的全称为Extract-Transform-Load,是指按照统一的规则将数据从数据源向目标数据仓库转化的技术,其中,Extract,中文名称为抽取,是指将数据从各种原始的业务系统中读取出来,Transform,中文名称为转换,是指按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来,Load,中文名称为装载,是指将转换完的数据按计划增量或全部导入到数据仓库中。数据抽取工具中的组件可以为SPOON,SPOON是Kettle中的一个具有图形化界面的数据转换的组件,能够通过图形界面来设计ETL转换过程,可以新建job等。其中,job,中文名称为作业,是完成整个数据同步、转换工作流的控制器,一个job项代表ETL控制流中的一项逻辑任务,job项将会顺序执行,每个job项会产生一个结果,能作为别的分支上job项的条件。数据抽取工具和数据抽取工具中的组件的具体内容,可以根据实际应用进行设定,此处不做限制。
为了更好地理解清洗噪声的过程,下面通过一个例子进行说明,具体表述如下:
例如,假设销量表中大于4000且小于5000的数据缺失,则利用拉格朗日插值法将销量表中大于4000且小于5000的缺失数据转换为空值,row_indexs=(data[u'销量']<4000)|(data[u'销量']>5000),data.loc[row_indexs,u'销量']=None,然后将2015-02-21 00:00:00 4275.225和2015-02-14 00:00:00 4156.86插入到销量表中,得到离散型的销量表,该销量表具体如下:
其中,row_indexs是指返回表格中行的位置,data.loc是指选中data表中的行数据。
对第一数据库中的待抽取数据进行去除重复元组的具体为:
采用SQL脚本对第一数据库中的待抽取数据进行去除重复元组,得到离散型的数据。
为了更好地理解去除重复元组的过程,下面通过一个例子进行说明,具体表述如下:
例如,假设待抽取数据表具体如下:
TABLE{name ip time
A 192.168.1.2 2010.10.5
A 192.168.1.2 2010.10.7
A 192.168.1.2 2010.10.9
B 192.168.1.1 2010.10.11
B 192.168.1.1 2010.10.12}
则,采用SQL脚本对该待抽取数据表进行去重,得到离散型的待抽取的据表。
SQL脚本具体如下:
SELECT NAME,IP,MIN(TIME)FROM TABLE GROUP BY NAME,IP
其中,SELECT NAME,IP,MIN(TIME)FROM TABLEGROUP BY NAME,IP是指从TABLE表中取出最小时间值及最小时间值对应的姓名和IP。
得到的离散型的待抽取数据表具体如下:
TABLE{name ip time
A 192.168.1.2 2010.10.5
B 192.168.1.1 2010.10.11}
S80:将离散型的数据进行集成,得到集成后的数据。
具体地,将单位不统一的离散型数据集成为统一个单位,得到集成后的待抽取的数据。如,第一数据的单位为1000厘米和第二数据的单位为20米,将1000厘米和20米集成为同一个单位米,也即,第一数据的单位为10米和第二数据的单位为20米。
S90:按照预设的转换方式将集成后的数据进行转换,得到转换后的待抽取数据。
在本实施例中,预设的转换方式可以为平方、开方、取对数或差分运算,预设的转换方式的具体内容,可以根据实际应用进行设定,此处不做限制。
具体地,按照预设的转换方式将集成后的数据进行转换,得到转换后的待抽取数据。如,将不具有正态分布的数据进行取对数运算,得到具有正态性的数据。
在图5对应的实施例中,通过对第一数据库中的待抽取数据进行清洗,得到离散型的数据,将离散型的数据进行集成,得到集成后的数据,按照预设的转换方式将集成后的数据进行转换,得到转换后的待抽取数据。由于通过对存在噪声和重复元组的待抽取的数据进行消噪和去重,得到离散型的数据,然后,将不统一规格的数据进行集成为一个规格的数据,最后,经过转换,得到所需要的数据,从而有效规范化的对数据进行预处理加工得到规范化的方便抽取的数据,正因为数据规范化了方便抽取了,进而提高了数据抽取的效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供数据抽取装置,该数据抽取装置与上述实施例中数据抽取方法一一对应。如图6所示,该数据抽取装置包括获取模块71、监听模块72和第一抽取模块73。各功能模块详细说明如下:
获取模块71,用于获取待执行的任务,其中,待执行的任务包括待抽取的数据对应的种类,待抽取的数据与所述种类存在映射关系,映射关系预先配置好,当监听到映射关系中的种类发生改变时,发生改变的种类得到更新;
监听模块72,用于监听所述映射关系中的种类,且当监听到所述映射关系中的种类发生改变时,更新发生改变的种类;
第一抽取模块73,用于根据映射关系将第一数据库中属于种类的数据抽取到第二数据库。
进一步地,监听模块72包括:
开启子模块721,用于开启待抽取的数据对应的种类的监听器;
监听子模块722,用于通过监听器实时监听所述种类;
获得子模块723,用于若种类发生改变,则获取监听器生成的种类改变标识信息;
更新子模块724,用于根据种类改变标识信息更新被标识的种类。
进一步地,第一抽取模块73包括:
拼接子模块731,用于若抽取类型为数据增加,则根据映射关系将第一数据库中的待抽取的数据与第二数据库中的目标数据相比的增量信息拼接到目标数据,得到拼接后的目标数据并保存到第二数据库中;
删除子模块732,用于若抽取类型为数据删除,则根据映射关系将第二数据库中的目标数据与第一数据库中的待抽取的数据相比的增量信息删除,得到删除后的目标数据并保存到第二数据库中;
替换子模块733,用于若抽取类型为数据更新,则根据映射关系将第一数据库中的待抽取的数据替换第二数据库中的目标数据,得到替换后的目标数据并保存到第二数据库中。
进一步地,该数据抽取装置还包括:
判断模块74,用于判断待执行的任务中的种类是否为进行笛卡尔乘积后的种类;
第二抽取模块75,用于若待执行的任务中的种类是进行笛卡尔乘积后的种类,则触发第一抽取模块72;
第一转换模块76,用于若待执行的任务中的种类不是进行笛卡尔乘积后的种类,则将待执行的任务中的种类进行转换,得到符合笛卡尔乘积规格的种类;
笛卡尔乘积模块77,用于将符合笛卡尔乘积规格的种类进行笛卡尔乘积,得到乘积后的种类,然后触发第一抽取模块72。
进一步地,该数据抽取装置还包括:
清洗模块78,用于对第一数据库中的待抽取数据进行清洗,得到离散型的数据;
集成模块79,用于将离散型的数据进行集成,得到集成后的数据;
第二转换模块710,用于按照预设的转换方式将集成后的数据进行转换,得到转换后的待抽取数据。
关于数据抽取装置的具体限定可以参见上文中对于数据抽取方法的限定,在此不再赘述。上述数据抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据抽取方法涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现数据抽取方法。
在一个实施例中,提供了计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例数据抽取方法的步骤,例如图2所示的步骤S10至步骤S30。或者,处理器执行计算机程序时实现上述实施例中数据抽取装置的各模块/单元的功能,例如图6所示获取模块71至第一抽取模块73的功能。为避免重复,这里不再赘述。
在一个实施例中,提供了计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中数据抽取方法,或者,该计算机程序被处理器执行时实现上述装置实施例中数据抽取装置中各模块/单元的功能。为避免重复,这里不再赘述。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据抽取方法,其特征在于,所述数据抽取方法包括:
获取待执行的任务,其中,所述待执行的任务包括第一数据库中待抽取的数据对应的种类,所述第一数据库中待抽取的数据与所述种类之间存在预先配置的映射关系;
监听所述映射关系中的种类,且当监听到所述映射关系中的种类发生改变时,更新发生改变的种类,其中,更新发生改变的种类后所述第一数据库中待抽取数据得到变更;
根据所述映射关系将第一数据库中属于所述种类的待抽取数据抽取到第二数据库,其中,所述种类包括所述映射关系中不发生改变的种类和更新后的发生改变的种类。
2.如权利要求1所述的数据抽取方法,其特征在于,所述监听所述映射关系中的种类,且当监听到所述映射关系中的种类发生改变时,更新发生改变的种类,包括:
开启所述待抽取的数据对应的种类的监听器;
通过所述监听器实时监听所述种类;
若所述种类发生改变,则获取所述监听器生成的种类改变标识信息;
根据所述种类改变标识信息在所述映射关系中更新被标识的种类。
3.如权利要求1所述的数据抽取方法,其特征在于,在将第一数据库中属于所述种类的数据抽取到第二数据库时采用增量抽取方式,所述增量抽取方式中的抽取类型包括数据增加类型、数据删除类型和数据更新类型,所述根据所述映射关系将第一数据库中属于所述种类的待抽取数据抽取到第二数据库包括:
若所述增量抽取方式中的抽取类型为所述数据增加类型,则根据所述映射关系将所述第一数据库中的待抽取的数据与所述第二数据库中的目标数据相比的增量信息拼接到所述目标数据,得到拼接后的目标数据并保存到所述第二数据库中;
若所述增量抽取方式中的抽取类型为所述数据删除类型,则根据所述映射关系将所述第二数据库中的目标数据与所述第一数据库中的待抽取的数据相比的增量信息删除,得到删除后的目标数据并保存到所述第二数据库中;
若所述增量抽取方式中的抽取类型为所述数据更新类型,则根据所述映射关系将所述第一数据库中的待抽取的数据替换所述第二数据库中的目标数据,得到替换后的目标数据并保存到所述第二数据库中。
4.如权利要求1所述的数据抽取方法,其特征在于,所述映射关系中的种类为进行笛卡尔乘积后的种类,在所述获取待执行的任务之后,所述数据抽取方法还包括:
判断所述待执行的任务中的种类是否为所述进行笛卡尔乘积后的种类;
若所述待执行的任务中的种类是所述进行笛卡尔乘积后的种类,则执行所述根据所述映射关系将第一数据库中属于所述种类的数据抽取到第二数据库的步骤;
若所述待执行的任务中的种类不是所述进行笛卡尔乘积后的种类,则将所述待执行的任务中的种类进行转换,得到符合笛卡尔乘积规格的种类,并将所述符合笛卡尔乘积规格的种类进行笛卡尔乘积,得到乘积后的种类,然后执行所述根据所述映射关系将第一数据库中属于所述种类的数据抽取到第二数据库的步骤。
5.如权利要求1至4中任一项所述的数据抽取方法,其特征在于,在所述根据所述映射关系将第一数据库中属于所述种类的待抽取数据抽取到第二数据库之前,所述数据抽取方法还包括:
对所述第一数据库中的待抽取数据进行清洗,得到离散型的数据;
将所述离散型的数据进行集成,得到集成后的数据;
按照预设的转换方式将所述集成后的数据进行转换,得到转换后的待抽取数据。
6.一种数据抽取装置,其特征在于,所述数据抽取装置包括:
获取模块,用于获取待执行的任务,其中,所述待执行的任务包括第一数据库中待抽取的数据对应的种类,所述第一数据库中待抽取的数据与所述种类之间存在预先配置的映射关系;
监听模块,用于监听所述映射关系中的种类,且当监听到所述映射关系中的种类发生改变时,更新发生改变的种类,其中,更新发生改变的种类后所述第一数据库中待抽取数据得到变更;
第一抽取模块,用于根据所述映射关系将第一数据库中属于所述种类的待抽取数据抽取到第二数据库,其中,所述种类包括所述映射关系中不发生改变的种类和更新后的发生改变的种类。
7.如权利要求6所述的数据抽取装置,其特征在于,所述监听模块包括:
开启子模块,用于开启所述待抽取的数据对应的种类的监听器;
监听子模块,用于通过所述监听器实时监听所述种类;
获得子模块,用于若所述种类发生改变,则获取所述监听器生成的种类改变标识信息;
更新子模块,用于根据所述种类改变标识信息在所述映射关系中更新被标识的种类。
8.如权利要求6至7中任一项所述的数据抽取装置,其特征在于,在将第一数据库中属于所述种类的数据抽取到第二数据库时采用增量抽取方式,所述增量抽取方式中的抽取类型包括数据增加类型、数据删除类型和数据更新类型,所述第一抽取模块包括:
拼接子模块,用于若增量抽取方式中的抽取类型为数据增加类型,则根据映射关系将第一数据库中的待抽取的数据与第二数据库中的目标数据相比的增量信息拼接到目标数据,得到拼接后的目标数据并保存到第二数据库中;
删除子模块,用于若增量抽取方式中的抽取类型为数据删除类型,则根据映射关系将第二数据库中的目标数据与第一数据库中的待抽取的数据相比的增量信息删除,得到删除后的目标数据并保存到第二数据库中;
替换子模块,用于若增量抽取方式中的抽取类型为数据更新类型,则根据映射关系将第一数据库中的待抽取的数据替换第二数据库中的目标数据,得到替换后的目标数据并保存到第二数据库中。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述数据抽取方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述数据抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810921054.XA CN109271431B (zh) | 2018-08-14 | 2018-08-14 | 数据抽取方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810921054.XA CN109271431B (zh) | 2018-08-14 | 2018-08-14 | 数据抽取方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109271431A true CN109271431A (zh) | 2019-01-25 |
CN109271431B CN109271431B (zh) | 2023-11-24 |
Family
ID=65153551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810921054.XA Active CN109271431B (zh) | 2018-08-14 | 2018-08-14 | 数据抽取方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271431B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992621A (zh) * | 2019-04-11 | 2019-07-09 | 郭承湘 | 食品监管信息资源增量etl系统及方法 |
CN112307108A (zh) * | 2020-11-25 | 2021-02-02 | 科大国创云网科技有限公司 | 一种基于简单配置方式的数据抽取方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101702161A (zh) * | 2009-11-05 | 2010-05-05 | 金蝶软件(中国)有限公司 | 一种数据抽取方法、装置及数据管理系统 |
US20150127599A1 (en) * | 2013-11-07 | 2015-05-07 | Dirk Schiebeler | Stateless database cache |
CN107798069A (zh) * | 2017-09-26 | 2018-03-13 | 恒生电子股份有限公司 | 用于数据加载的方法、装置及计算机可读介质 |
CN108062329A (zh) * | 2016-11-08 | 2018-05-22 | 北京国双科技有限公司 | 一种数据导入方法及装置 |
-
2018
- 2018-08-14 CN CN201810921054.XA patent/CN109271431B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101702161A (zh) * | 2009-11-05 | 2010-05-05 | 金蝶软件(中国)有限公司 | 一种数据抽取方法、装置及数据管理系统 |
US20150127599A1 (en) * | 2013-11-07 | 2015-05-07 | Dirk Schiebeler | Stateless database cache |
CN108062329A (zh) * | 2016-11-08 | 2018-05-22 | 北京国双科技有限公司 | 一种数据导入方法及装置 |
CN107798069A (zh) * | 2017-09-26 | 2018-03-13 | 恒生电子股份有限公司 | 用于数据加载的方法、装置及计算机可读介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992621A (zh) * | 2019-04-11 | 2019-07-09 | 郭承湘 | 食品监管信息资源增量etl系统及方法 |
CN112307108A (zh) * | 2020-11-25 | 2021-02-02 | 科大国创云网科技有限公司 | 一种基于简单配置方式的数据抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109271431B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536761B (zh) | 报表数据查询方法及服务器 | |
US10919148B2 (en) | Event processing using robotic entities | |
CA2978488C (en) | Systems and methods for managing data | |
CN107908672B (zh) | 基于Hadoop平台的应用报表实现方法、设备及存储介质 | |
US10503496B2 (en) | Smart tool for enterprise-wide version control of codes during software integration and deployment | |
CN102236672B (zh) | 一种数据导入方法及装置 | |
CN104298496B (zh) | 数据分析型软件开发框架系统 | |
CN109508355A (zh) | 一种数据抽取方法、系统及终端设备 | |
CN107643956B (zh) | 定位异常数据的异常起源的方法和装置 | |
CN103559118A (zh) | 一种基于aop与注解信息系统的安全审计方法 | |
CN110019116B (zh) | 数据追溯方法、装置、数据处理设备及计算机存储介质 | |
US9213700B2 (en) | Data archiving and de-archiving in a business environment | |
CN108345658A (zh) | 算法计算轨迹的分解处理方法、服务器及存储介质 | |
CN114298804A (zh) | 一种智能对账方法、系统及计算机可读存储介质 | |
CN109271431A (zh) | 数据抽取方法、装置、计算机设备及存储介质 | |
CN109670048A (zh) | 基于风控管理的图谱构建方法、装置和计算机设备 | |
CN105279138A (zh) | 一种资讯研究报告自动生成系统 | |
CN110442647A (zh) | 数据一致性同步方法、装置及计算机可读存储介质 | |
CN116662126A (zh) | 基于rpa的系统异常提示方法、装置、设备及介质 | |
CN114462859A (zh) | 工作流处理方法、装置、计算机设备和存储介质 | |
WO2019062087A1 (zh) | 考勤数据测试方法、终端、设备以及计算机可读存储介质 | |
CN104216986A (zh) | 以数据更新周期进行预操作提高数据查询效率的装置及方法 | |
CN114358903A (zh) | 基于rpa的多系统账务核对方法、装置和计算机设备 | |
CN110532533B (zh) | 表格精度配置化方法、装置、计算机设备以及存储介质 | |
CN108763586B (zh) | 一种基于sap字段搜索帮助的通用数据字典接口装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |