CN109634948A - 一种数据稽核方法及任务调度器 - Google Patents

一种数据稽核方法及任务调度器 Download PDF

Info

Publication number
CN109634948A
CN109634948A CN201811564611.3A CN201811564611A CN109634948A CN 109634948 A CN109634948 A CN 109634948A CN 201811564611 A CN201811564611 A CN 201811564611A CN 109634948 A CN109634948 A CN 109634948A
Authority
CN
China
Prior art keywords
data
business
rule
source
invalid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811564611.3A
Other languages
English (en)
Inventor
陶文亮
娄必伟
王力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University of Engineering Science
Original Assignee
Guizhou University of Engineering Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University of Engineering Science filed Critical Guizhou University of Engineering Science
Priority to CN201811564611.3A priority Critical patent/CN109634948A/zh
Publication of CN109634948A publication Critical patent/CN109634948A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种数据稽核方法及任务调度器,该方法包括:根据预建立的数据采集规则采集数据;按照预建立的数据稽核规则对数据进行稽核处理,获取有效数据,确定无效数据的源头反馈至客户端;按照预建立的业务稽核规则以及有效数据对应的数值,对有效数据对应的业务进行稽核,获取有效业务,确定无效业务的源头反馈至客户端。通过上述处理,可以大大减少,甚至避免最终获取的数据中的“脏数据”,而且还可以将产生“脏数据”的源头反馈至客户端,便于客户及时处理。在数据转换之前,就已经筛选掉“脏数据”,而且对产生“脏数据”的源头也进行了有效处理。

Description

一种数据稽核方法及任务调度器
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据稽核方法及任务调度器。
背景技术
对于数据分析系统而言,通常是采集多个业务系统的数据进行分析处理。而不同业务系统的数据之间可能存在一些问题,例如不同系统中相同的数据表述不一致,同一系统内部的业务发生冲突等等。因此,在进行数据转换时往往需要对大量的数据进行清洗集成处理。而这个过程实际上是在数据仓库中完成的,后续从各个业务系统抽取数据时依然存在上述问题。也就是“治标不治本”,并没有从根本上解决上述问题。而不断的重复在数据转换时对大量的数据进行清洗费时费力,严重影响工作效率。
那么,如何才能保证数据分析系统在数据转换时尽量少的清洗数据,甚至规避掉这个过程,从而提升工作效率成为亟待解决的技术问题。
发明内容
本发明实施例的目的在于提供一种数据稽核方法及任务调度器,用以解决现有数据分析系统不能保证数据转换时尽量少的清洗数据,甚至规避掉这个过程,从而导致工作效率大大降低的问题。
为实现上述目的,本发明实施例提供一种数据稽核方法,该方法包括:
根据预建立的数据采集规则采集数据;
按照预建立的数据稽核规则对数据进行稽核处理,获取有效数据,并确定无效数据的源头反馈至客户端;
按照预建立的业务稽核规则以及有效数据对应的数值,对有效数据对应的业务进行稽核,获取有效业务,并确定无效业务的源头反馈至客户端。
本发明实施例具有如下优点:按照预设采集规则采集数据,首先清洗数据中的一部分“脏数据”。即,按照预设数据稽核规则对数据进行稽核处理,获取有效数据,删除无效数据。不过,删除之前还需要确定无效数据的源头,反馈至客户端。便于用户在得知产生“脏数据”的源头后,及时进行有效处理,避免后续仍然有“脏数据”的产生。然后,再按照业务稽核规则,根据有效数据对应的数值,对有效数据对应的业务进行稽核,获取有效业务,并确定无效业务的源头反馈至客户端。类似的,不仅仅确定业务中的无效业务,确定无效业务的源头,还需要删除无效业务,以及与无效业务对应的数值。该过程,实际也是对“脏数据”进行删除的一个过程。通过上述处理,可以大大减少,甚至避免最终获取的数据中的“脏数据”,而且还可以将产生“脏数据”的源头反馈至客户端,便于客户及时处理。在数据转换之前,就已经筛选掉“脏数据”,而且对产生“脏数据”的源头也进行了有效处理。因此,在数据转换时可以尽量减少的清洗数据,甚至规避这个过程,从而大大提升了工作效率。
为实现上述目的,本发明实施例提供一种任务调度器,该任务调度器包括:
采集单元,用于根据预建立的数据采集规则采集数据;
处理单元,用于按照预建立的数据稽核规则对数据进行稽核处理,获取有效数据,并确定无效数据的源头;
发送单元,用于将无效数据的源头反馈至客户端;
处理单元还用于,按照预建立的业务稽核规则以及有效数据对应的数值,对有效数据对应的业务进行稽核,获取有效业务,并确定无效业务的源头;
发送单元还用于,将无效业务的源头反馈至客户端。
本发明实施例具有如下优点:按照预设采集规则采集数据,首先清洗数据中的一部分“脏数据”。即,按照预设数据稽核规则对数据进行稽核处理,获取有效数据,删除无效数据。不过,删除之前还需要确定无效数据的源头,反馈至客户端。便于用户在得知产生“脏数据”的源头后,及时进行有效处理,避免后续仍然有“脏数据”的产生。然后,再按照业务稽核规则,根据有效数据对应的数值,对有效数据对应的业务进行稽核,获取有效业务,并确定无效业务的源头反馈至客户端。类似的,不仅仅确定业务中的无效业务,确定无效业务的源头,还需要删除无效业务,以及与无效业务对应的数值。该过程,实际也是对“脏数据”进行删除的一个过程。通过上述处理,可以大大减少,甚至避免最终获取的数据中的“脏数据”,而且还可以将产生“脏数据”的源头反馈至客户端,便于客户及时处理。在数据转换之前,就已经筛选掉“脏数据”,而且对产生“脏数据”的源头也进行了有效处理。因此,在数据转换时可以尽量减少的清洗数据,甚至规避这个过程,从而大大提升了工作效率。
为实现上述目的,本发明实施例提供一种计算机存储介质,其特征在于,计算机存储介质中包含一个或多个程序指令,一个或多个程序指令用于被一种任务调度器执行如上所介绍的一种数据稽核方法。
附图说明
图1为本发明实施例1提供的一种数据稽核方法流程示意图。
图2为本发明实施例2提供的一种任务调度器结构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、右”、“中间”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
实施例1
本发明实施例1提供了一种数据稽核方法,具体如图1所示,该方法主要应用于一种任务调度器。任务调度器执行以下方法之前,还需要通过数据转换引擎执行如下准备工作:根据预建立的数据采集规则,建立数据采集任务;根据预建立的数据稽核规则建立数据稽核任务;以及,根据预建立的业务稽核规则,建立业务稽核任务;根据预建立的数据转换规则建立数据转换任务等。然后建立四者之间的执行顺序,以及相互之间的依赖关系。最终,任务调度器则会按照四者之间的互相依赖关系、执行顺序等执行如下的方法。该方法包括:
步骤110,根据预建立的数据采集规则采集数据。
具体的,根据用户需求,可以实现建立数据采集规则。例如,设置数据采集条件、数据采集周期或者数据采集优先级。其中,数据采集条件中可以包含数据过滤条件,具体的过滤条件可以根据用户实际需要设定。采集的数据可以包括同构数据源中的数据表、异构数据源中的数据表以及规范分隔的文本文件等。比如采集条件中设置了采集同构数据源中的某些数据表,但是这些数据表中并非所有数据都被需要,那么则可以设定过滤条件,过滤掉数据表中的某些数据。
步骤120,按照预建立的数据稽核规则对数据进行稽核处理,获取有效数据,并确定无效数据的源头反馈至客户端。
具体的,数据稽核可以通过以下几个方面来设定,可以包括:配置数据表之间的关联关系、数据值之间的函数关系以及数据表达式之间的各种运算等。根据数据表之间的关联关系,例如确定数据表1和数据表2之间存在关联关系,那么这两个数据表中的数据之间也必然存在一定的联系。比如,两个数据表中的数据是同一个数据,但是表述完全不一致。那么,就将这两个数据表中表述不一致的数据作为“脏数据”,反馈给客户端“脏数据”产生的位置,包括数据表名称、存储位置、数据在数据表中的位置等等相关信息,便于用户可以识别产生“脏数据”的源头,并及时进行相应的处理。此外,还需要将“脏数据”进行删除处理。
又例如,通过数据值之间的函数关系,和/或数据之间的运算关系对数据进行稽核处理。
一个数据表或者多个数据表中存储的数据值之间可能存在一定的逻辑关系。而这个逻辑关系可以是函数关系或者是数据之间的运算关系。通过这些关系,可以从逻辑上判定数据是否是错误的数据。而这错误的数据就是本申请所说的“脏数据”的一种。
通过上述方式,可以删除一部分“脏数据”,获取有效数据。而有效数据中,可能存在数据之间的冲突,需要通过如下方式去除。
步骤130,按照预建立的业务稽核规则以及有效数据对应的数值,对有效数据对应的业务进行稽核,获取有效业务,并确定无效业务的源头反馈至客户端。
业务稽核规则主要包括:数据表中的值和业务之间所建立的对应关系。业务和业务之间主要包括:包含规则、并行规则、依赖规则以及冲突规则。例如业务A和业务B之间存在包含规则。业务B是业务A下属的一个子业务。那么,业务A对应的数据表中的值和业务B对应的数据表中的值也应该存在这样一个包含的关系。通过业务之间的关系,以及数据表中的值和业务之间的建立的对应关系,则可以确定两个业务或者多个业务之间是否存在冲突。如果不存在冲突,则认定为有效业务,否则认为是无效业务。如果是无效任务,则需要确定无效业务的源头,然后反馈至客户端,同时还需要确定无效业务的原因,如果无效业务属于业务和业务之间的数据表述不一致,那么则统一数据表述。如果属于其他类型的无效数据,例如是错误数据,则直接删除。
可选的,在确定有效业务后,该方法还可以包括将所有有效业务对应的数据按照预设定的格式进行转换。将最终获取的有效数据转换到一些数据表上,并且按照同一个格式存储,便于用户后续的数据仓库使用。
其转换的内容可以包括:配置字段名称转换、字段属性转换以及数值转换等。在转换之前可以灵活的配置转换规则,包括转换表达式及转换条件,生成数据转换引擎。任务调度器可以按照事先配置好的转换规则(也即是预设定的格式)将有效业务对应的数据转换为同一格式,便于用户后续的数据仓库使用。
本发明实施例提供的一种数据稽核方法,按照预设采集规则采集数据,首先清洗数据中的一部分“脏数据”。即,按照预设数据稽核规则对数据进行稽核处理,获取有效数据,删除无效数据。不过,删除之前还需要确定无效数据的源头,反馈至客户端。便于用户在得知产生“脏数据”的源头后,及时进行有效处理,避免后续仍然有“脏数据”的产生。然后,再按照业务稽核规则,根据有效数据对应的数值,对有效数据对应的业务进行稽核,获取有效业务,并确定无效业务的源头反馈至客户端。类似的,不仅仅确定业务中的无效业务,确定无效业务的源头,还需要删除无效业务,以及与无效业务对应的数值。该过程,实际也是对“脏数据”进行删除的一个过程。通过上述处理,可以大大减少,甚至避免最终获取的数据中的“脏数据”,而且还可以将产生“脏数据”的源头反馈至客户端,便于客户及时处理。在数据转换之前,就已经筛选掉“脏数据”,而且对产生“脏数据”的源头也进行了有效处理。因此,在数据转换时可以尽量减少的清洗数据,甚至规避这个过程,从而大大提升了工作效率。
实施例2
与上述实施例1对应的,本发明实施例2还提供了一种任务调度器,具体如图2所示,该任务调度器包括:采集单元201、处理单元202和发送单元203。
采集单元201,用于根据预建立的数据采集规则采集数据;
处理单元202,用于按照预建立的数据稽核规则对数据进行稽核处理,获取有效数据,并确定无效数据的源头;
发送单元203,用于将无效数据的源头反馈至客户端;
处理单元202还用于,按照预建立的业务稽核规则以及有效数据对应的数值,对有效数据对应的业务进行稽核,获取有效业务,并确定无效业务的源头;
发送单元203还用于,将无效业务的源头反馈至客户端。
可选的,数据采集规则包括如下中的一种或多种:数据采集条件、采集周期或者优先级。
可选的,当数据采集规则包括数据采集条件时,数据采集条件中包含数据过滤规则。
可选的,数据存放于数据表中,处理单元202具体用于:
根据数据表之间的关联关系,和/或,数据值之间的函数关系,和/或数据之间的运算关系,对数据进行稽核处理;获取有效数据,并确定无效数据的源头。
可选的,预建立的业务稽核规则指数据值与业务之间建立的对应关系;有效业务之间遵循:包含规则、并行规则或者依赖规则;无效业务之间遵循冲突规则。
可选的,任务调度器还包括:转换单元204,用于将有效业务对应的数据按照预设定的格式进行转换。
本发明实施例提供的一种任务调度器中各部件所执行的功能均已在上述实施例1中做了详细介绍,因此这里不做过多赘述。
本发明实施例提供的一种任务调度器,按照预设采集规则采集数据,首先清洗数据中的一部分“脏数据”。即,按照预设数据稽核规则对数据进行稽核处理,获取有效数据,删除无效数据。不过,删除之前还需要确定无效数据的源头,反馈至客户端。便于用户在得知产生“脏数据”的源头后,及时进行有效处理,避免后续仍然有“脏数据”的产生。然后,再按照业务稽核规则,根据有效数据对应的数值,对有效数据对应的业务进行稽核,获取有效业务,并确定无效业务的源头反馈至客户端。类似的,不仅仅确定业务中的无效业务,确定无效业务的源头,还需要删除无效业务,以及与无效业务对应的数值。该过程,实际也是对“脏数据”进行删除的一个过程。通过上述处理,可以大大减少,甚至避免最终获取的数据中的“脏数据”,而且还可以将产生“脏数据”的源头反馈至客户端,便于客户及时处理。在数据转换之前,就已经筛选掉“脏数据”,而且对产生“脏数据”的源头也进行了有效处理。因此,在数据转换时可以尽量减少的清洗数据,甚至规避这个过程,从而大大提升了工作效率。
实施例3
与上述两个实施例相对应的,本发明实施例还提供了一种计算机存储介质,该计算机存储介质中包含一个或多个程序指令。其中,一个或多个程序指令用于被一种任务调度器执行如上所介绍的一种数据稽核方法。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种数据稽核方法,其特征在于,所述方法包括:
根据预建立的数据采集规则采集数据;
按照预建立的数据稽核规则对所述数据进行稽核处理,获取有效数据,并确定无效数据的源头反馈至客户端;
按照预建立的业务稽核规则以及所述有效数据对应的数值,对所述有效数据对应的业务进行稽核,获取有效业务,并确定无效业务的源头反馈至所述客户端。
2.根据权利要求1所述的方法,其特征在于,所述数据采集规则包括如下中的一种或多种:
数据采集条件、采集周期或者优先级。
3.根据权利要求2所述的方法,其特征在于,当所述数据采集规则包括数据采集条件时,所述数据采集条件中包含数据过滤规则。
4.根据权利要求1所述的方法,其特征在于,所述数据存放于数据表中,所述按照预建立的数据稽核规则对所述数据进行稽核处理,获取有效数据,并确定无效数据的源头反馈至客户端,包括:
根据数据表之间的关联关系,和/或,数据值之间的函数关系,和/或数据之间的运算关系,对所述数据进行稽核处理;
获取有效数据,并确定无效数据的源头反馈至所述客户端。
5.根据权利要求1所述的方法,其特征在于,所述预建立的业务稽核规则指数据值与业务之间建立的对应关系;
所述有效业务之间遵循:包含规则、并行规则或者依赖规则;所述无效业务之间遵循冲突规则。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述按照预建立的业务稽核规则以及所述有效数据对应的数值,对所述有效数据对应的业务进行稽核,获取有效业务,并确定无效数据的源头反馈至所述客户端之后,所述方法还包括:
将所述有效业务对应的数据按照预设定的格式进行转换。
7.一种任务调度器,其特征在于,所述任务调度器包括:
采集单元,用于根据预建立的数据采集规则采集数据;
处理单元,用于按照预建立的数据稽核规则对所述数据进行稽核处理,获取有效数据,并确定无效数据的源头;
发送单元,用于将所述无效数据的源头反馈至客户端;
所述处理单元还用于,按照预建立的业务稽核规则以及所述有效数据对应的数值,对所述有效数据对应的业务进行稽核,获取有效业务,并确定无效业务的源头;
所述发送单元还用于,将所述无效业务的源头反馈至所述客户端。
8.根据权利要求7所述的任务调度器,其特征在于,所述数据存放于数据表中,所述处理单元具体用于:
根据数据表之间的关联关系,和/或,数据值之间的函数关系,和/或数据之间的运算关系,对所述数据进行稽核处理;
获取有效数据,并确定无效数据的源头。
9.根据权利要求7所述的任务调度器,其特征在于,所述任务调度器还包括:
转换单元,用于将所述有效业务对应的数据按照预设定的格式进行转换。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被一种任务调度器执行如权利要求1-6任一项所述的方法。
CN201811564611.3A 2018-12-20 2018-12-20 一种数据稽核方法及任务调度器 Pending CN109634948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811564611.3A CN109634948A (zh) 2018-12-20 2018-12-20 一种数据稽核方法及任务调度器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811564611.3A CN109634948A (zh) 2018-12-20 2018-12-20 一种数据稽核方法及任务调度器

Publications (1)

Publication Number Publication Date
CN109634948A true CN109634948A (zh) 2019-04-16

Family

ID=66075980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811564611.3A Pending CN109634948A (zh) 2018-12-20 2018-12-20 一种数据稽核方法及任务调度器

Country Status (1)

Country Link
CN (1) CN109634948A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111580859A (zh) * 2020-05-12 2020-08-25 北京思特奇信息技术股份有限公司 一种灰度割接方法、系统及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130291127A1 (en) * 2012-04-26 2013-10-31 International Business Machines Corporation Enterprise-level data protection with variable data granularity and data disclosure control with hierarchical summarization, topical structuring, and traversal audit
CN103606038A (zh) * 2013-11-06 2014-02-26 远光软件股份有限公司 基于企业整体业务流程体系的在线稽核方法及系统
CN109039710A (zh) * 2018-07-10 2018-12-18 中国联合网络通信集团有限公司 路由数据稽核方法、装置、服务器及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130291127A1 (en) * 2012-04-26 2013-10-31 International Business Machines Corporation Enterprise-level data protection with variable data granularity and data disclosure control with hierarchical summarization, topical structuring, and traversal audit
CN103606038A (zh) * 2013-11-06 2014-02-26 远光软件股份有限公司 基于企业整体业务流程体系的在线稽核方法及系统
CN109039710A (zh) * 2018-07-10 2018-12-18 中国联合网络通信集团有限公司 路由数据稽核方法、装置、服务器及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111580859A (zh) * 2020-05-12 2020-08-25 北京思特奇信息技术股份有限公司 一种灰度割接方法、系统及电子设备

Similar Documents

Publication Publication Date Title
CN103390066B (zh) 一种数据库全局性自动化优化预警装置及其处理方法
CN101021874B (zh) 一种对查询sql请求进行优化的方法及装置
CN103984726B (zh) 一种数据库执行计划的局部修正方法
CN111966868B (zh) 基于标识解析的数据治理方法及相关设备
DE202020005722U1 (de) Platzierung von adaptiven Aggregationsoperatoren und- Eigenschaften in einem Abfrageplan
CN104714984A (zh) 一种数据库优化的方法和装置
CN103942210A (zh) 海量日志信息的处理方法、装置与系统
DE112012003961T5 (de) Gleichzeitige Verarbeitung von eingereihten Nachrichten
DE112011101759B4 (de) Sampling von Leerlauftransitionen
CN109634948A (zh) 一种数据稽核方法及任务调度器
CN103902592A (zh) 基于MapReduce实现分析函数的方法及系统
CN110908796A (zh) 一种Gaia系统中的多作业合并与优化系统及方法
CN102622367B (zh) 流程数据的过滤和压缩方法
CN112631754A (zh) 数据处理方法、装置、存储介质及电子装置
CN108763281A (zh) 一种基于etl的业务智能分析平台及系统
Berti Filtering and sampling object-centric event logs
CN109508244B (zh) 数据处理方法及计算机可读介质
CN107273469A (zh) 一种清理过期文件的方法
DE102012210482A1 (de) Verfahren und System zum Migrieren von Geschäftsprozessinstanzen
CN110706003A (zh) 一种客户反馈工单生成的方法、装置、设备以及存储介质
CN105187490A (zh) 一种物联网数据的中转处理方法
CN115809265A (zh) 一种基于机器人流程自动化的风险客户筛查方法及装置
CN111652765A (zh) 一种法律案件全流程处理系统及方法
CN109241388A (zh) 一种应用程序接口行为分析方法和系统
CN101378336B (zh) 一种业务管理系统中批量文件的处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190416

RJ01 Rejection of invention patent application after publication