CN112162980A - 数据质量管控方法及系统、存储介质、电子设备 - Google Patents
数据质量管控方法及系统、存储介质、电子设备 Download PDFInfo
- Publication number
- CN112162980A CN112162980A CN202011354518.7A CN202011354518A CN112162980A CN 112162980 A CN112162980 A CN 112162980A CN 202011354518 A CN202011354518 A CN 202011354518A CN 112162980 A CN112162980 A CN 112162980A
- Authority
- CN
- China
- Prior art keywords
- data
- quality
- standard
- original
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Abstract
本发明公开了一种数据质量管控方法及系统、存储介质、电子设备,其中,该数据质量管控方法包括:数据接入步骤:将数据源的数据接入原始数据,并将原始数据接入标准数据,以及将标准数据接入数据库;质量管控步骤:基于预先制定的质量规则和任务配置,对接入数据库的标准数据进行质量监控,以及对于异常数据生成异常报告。还包括异常数据统计步骤:定期统计质量异常次数、异常原因类型、异常数据量中的任一项或多项。本发明方法或系统,不仅对接入数据库的标准数据进行预处理,而且还对标准数据进行常态化的质量监管,完成了异构多源数据从接入到管理的闭环,减少了工作的重复性,稳定维护了数据质量。
Description
技术领域
本发明涉及大数据处理技术领域,具体为一种数据质量管控方法及系统、存储介质、电子设备。
背景技术
大数据是大势所趋,能高效准确的获取数据,并保证数据规模和质量,是企业在大数据应用方面的核心竞争力之一。企业的数据来自内部和外部,尤其是外部数据,面临着异构多源、质量不等、经常变化的问题。目前的处理手段多是在标准化数据字段后,挨个接入数据源并转换,将原始数据转换为目标数据(即标准数据),此种方式至少存在以下缺陷:1)没有对接入数据进行常态化的质量监控,数据一旦出现质量问题时,往往滞后严重,都是问题爆发后才人工介入排查,时效性差;2)通常是先制定标准化规则,然后基于该规则对每接入的数据源都要进行清洗转换,即使数据源本身质量好也要清洗,耗费资源,尤其是在数据量大的情况,资源浪费严重,继而影响数据处理效率。
发明内容
本发明的第一目的是改善由于缺乏常态化的数据质量监控,导致数据问题反映时效性差的技术问题;本发明的第二目的是改善目前的数据处理手段存在的资源浪费严重导致数量效率低的技术问题。本发明的第三目的是改善数据重复编码导致数据处理效率低的技术问题。
为了实现第一和第二发明目的,本发明提供了如下技术方案:
一种数据质量管控方法,包括:
数据接入步骤:将数据源的数据接入原始数据,并将原始数据接入标准数据,以及将标准数据接入数据库;
质量管控步骤:基于预先制定的质量规则和任务配置,对接入数据库的标准数据进行质量监控,以及对于异常数据生成异常报告。
上述方案中,标准数据接入数据库后,会基于预先制定的质量规则和任务配置,进行质量监控,使得数据库中的标准数据质量得以保障,当数据异常时可以及时反映及定位,时效性强。另外,数据接入步骤中,在将标准数据接入数据库之前,先将数据源的数据接入原始数据,再将原始数据接入标准数据,而不是直接将数据源的数据接入标准数据,因此无需针对每一个数据源制定清洗规则,简化了数据处理的复杂度。
所述的质量规则包括限定指定字段的空值率、限定指定字段的内容结构、限定新数据入库时间中的任一项或多项。
所述限定指定字段的内容结构包括:限定指定字段的内容类型、内容范围、内容长度中的任一项或多项。
所述异常报告中包括异常的标准数据、异常的原始数据、异常的数据源、异常现象和发生时间。异常报告中包括这些信息,既方便于异常情况的及时发现,又便于异常情况的准确定位,提高数据质量监管效果。
所述异常报告通过邮件或机器人消息的形式发送到指定的移动终端。通过邮件或机器人消息的方式发送异常报告,实现信息无线传输,指定监管人员可以及时获知异常情况,时效性更强。
所述的任务配置包括任务执行时间和任务执行对象。
在所述质量管控步骤之后,还包括异常数据统计步骤:定期统计质量异常次数、异常原因类型、异常数据量中的任一项或多项。
本方案中,通过对异常数据进行统计,可以便于后续针对异常数据进行分析,便于了解数据总体情况,和复盘优化数据处理细节,为数据监管效果的进一步提升提供依据。
为了进一步更好地实现第二发明目的,本发明提供了如下技术方案:
将多个数据源接入同一个原始数据。
本方案中,当多个数据源,尤其是多个相似的数据源接入同一个原始数据时,可以实现一次性将多个数据源数据转换为标准数据,避免了一个一个单独处理,极大地提高了数据处理效率,降低了资源占用,而且也无需针对每一个数据源制定清洗规则,简化了数据处理的复杂度。另外,数据源接入原始数据后再清洗,数据清洗具有针对性,避免对本身质量好的数据进行清洗,继而造成资源浪费。
将原始数据接入标准数据的过程,包括:基于预先制定的清洗转换规则及标准数据的结构,对原始数据进行数据清洗,并将清洗后的原始数据中的指定字段内容写入标准数据。
所述将清洗后的原始数据中的指定字段内容写入标准数据的过程中,若指定字段的字段名存在于标准数据中,则原始数据中该指定字段的内容自动写入标准数据中,若指定字段的字段名不存在于标准数据中,则将原始数据中该指定字段的内容手动写入标准数据中。
为了实现第三发明目的,本发明提供了如下技术方案:
一种数据质量管控系统,包括:
数据接入模块,用于将数据源的数据接入原始数据,并将原始数据接入标准数据,以及将标准数据接入数据库;
质量管控模块,用于基于预先制定的质量规则和任务配置,对接入数据库的标准数据进行质量监控,以及对于异常数据生成异常报告。
本方案中,通过将数据处理的执行过程编译为模块工具,在需要时调用该模块工具即可,可以实现重复利用,避免重复编码,继而可以改善因每次重复编码而导致的效率低下的问题。
所述异常报告中包括异常的标准数据、异常的原始数据、异常的数据源、异常现象和发生时间。
还包括异常数据统计模块,用于定期统计质量异常次数、异常原因类型、异常数据量中的任一项或多项。
数据接入模块第一预处理模块,用于在原始数据下创建多个数据源,并基于预先制定的原始数据的结构,指定数据源的字段。
数据接入模块第二预处理模块,用于基于预先制定的清洗转换规则及标准数据的结构,对原始数据进行数据清洗,并将清洗后的原始数据中的指定字段内容写入标准数据。
再一方面,本发明实施例同时提供了一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令在被执行时使处理器执行本发明实施例中所述方法中的操作。
再一方面,本发明实施例同时提供了一种电子设备,包括:存储器,存储程序指令;处理器,与所述存储器相连接,执行存储器中的程序指令,实现本发明实施例中所述方法中的步骤。
与现有技术相比,本发明方法及系统具有以下技术优势:
(1)通过细致到字段内容级的质量规则的制定,能够及时发现数据问题,相关维护人员可快速定位到发生异常的数据来源并处理。
(2)实现了数据处理、质量监管的闭环管理,提高数据质量。
(3)通过先接入了数据源到原始数据,然后根据数据源里的数据情况,针对性的进行清洗,当数据有问题才会清洗,避免对质量好的数据也进行清洗所导致的资源浪费,且数据源的数据如果有新的异常也能及时制定新的清洗规则,灵活性强。
(4)可以自由配置标准数据的字段、原始数据的字段、数据源所有的字段,原始数据字段和标准数据字段的映射关系(支持一对一和多对一),分组批量处理数据源的清洗更,具灵活性,能适应更复杂的异构多源情况。
本发明技术的其他优势请见实施例部分的相应描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种数据质量管控方法的流程图;
图2为数据接入步骤的流程图;
图3为质量管控步骤的流程图;
图4为本发明实施例公开的一种数据质量管控系统的模块框图。
图5为发明实施例公开的一种电子设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例公开了一种数据质量管控方法,包括以下步骤:
S10,数据接入步骤:将数据源数据处理后接入数据库,例如,将数据源的数据接入原始数据,并将原始数据接入标准数据,以及将标准数据接入数据库。因此,数据接入步骤也可以理解为数据预处理步骤。
S20,质量管控步骤:基于预先制定的质量规则和任务配置,对接入数据库的标准数据进行质量监控,以及对于异常数据生成异常报告。
S30,异常数据统计步骤:定期统计数据异常情况,例如质量异常次数、异常原因类型、异常数据量中的任一项或多项,以便于进行异常数据分析,优化质量规则,提升数据质量。数据统计时,也可以对数据整体情况进行统计,例如统计一定时间段的数据总量、任务执行情况等。
上述方法中,不仅将数据源的数据处理后接入数据库,而且还对数据库中的数据质量进行持续管控,实现数据的闭环管理,且可以提升数据质量,也可以改善问题数据的发现滞后性,为后续数据应用及分析提供有力支持,加快后续数据应用的处理效率。通过对异常数据进行统计,有利于完善质量规则,进一步提升数据质量。
请参阅图2,本实施例中,数据接入步骤的具体处理流程如下:
S101,在原始数据中接入数据源。也就是在原始数据下创建数据源,并指定该数据源的字段。
在接入数据源的数据之前,需要先定义原始数据的结构。
数据源的数据是指企业从系统内部或外部采集的多样化的数据,经ETL(Extract-Transform-Load,描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程)流程处理后,可以成为标准数据被业务使用。对于唯一的标准数据,可能存在成百上千个数据源,这些数据源有很大的相似性和细微的不同,为提高效率,定义的原始数据可兼容多个数据源,以非结构化的方式存储。以表结构的数据为例,定义原始数据时需指定表名、字段结构和映射的标准数据。
例如,来自数据源某宝的订单数据,其字段如下表1所示。
表1
来自数据源某鱼的订单数据,其字段如下表2所示。
表2
这两个数据源为相似数据源,相似数据源是指具有至少一个相同字段的数据源,例如pay_time、order_status等。在将多个数据源接入同一个原始数据时,优选将多个相似数据源接入同一个原始数据。在定义原始数据的结构时,为了实现一个原始数据接入多个数据源,原始数据的字段可以包括多个相似数据源的字段。例如,为了将来自某鱼和某宝的订单接入同一个原始数据,为此定义原始数据pre_order(pre_order为表名,由用户设置),其字段如下表3所示。
表3
该原始数据的字段兼容了数据源某宝和某鱼。
在实际应用中,例如,对于标准数据行政许可qual_permission(qual_permission为表名),其数据来源一,是全国各级的信用中国网站,比如信用中国(西安)、信用中国(成都)等。这些数据源有上百个,彼此间有细微差别,但依然可以用一个原始数据permission_xyzg(permission_xyzg为表名)兼容;其数据来源二,是各级行政机关发放的行政许可数据,其采集机制和信用中国的数据有所不同,因此可以另建一个原始数据permission_xzjg(permission_xzjg为表名)接入。最后可以将permission_xyzg和permisssion_zxjg都映射到标准数据qual_permission。
例如,前面已经定义好了原始数据pre_order,现将数据源某宝的数据接入。其过程是,先在原始数据pre_order下创建数据源order_tb(order_tb为表名),然后从原始数据的所有字段中,选中该数据源订单数据具有的字段,即creat_time、pay_time 、order_status、puduct_name、puduct_num、order_amount、user_name、shop_name、receive_address(仅以上述举例为例)。用同样的操作可以创建数据源order_xy(order_xy为表名),接入数据源某鱼的数据。如此,后续这两个数据源的数据会以非结构化的方式存储进同一个原始数据pre_order。也就是说,后续某宝的新增订单只要是在order_tb里,都会自动接入原始数据pre_order,而不会每个订单创建一个数据源,简化数据处理流程。
在实际应用中,例如对于行政许可,可以在原始数据permission_xyzg下建立数十个数据源,接入各信用中国网站的行政许可数据,为每个数据源选择其拥有的字段。
S102,基于预先制定的原始数据转换为标准数据的清洗转换规则,将原始数据进行清洗处理。
标准数据是指企业业务应用所需的规范化的数据,可以根据业务应用定义其结构。例如,针对于表结构的标准数据,定义标准数据时需指定表名、字段结构(字段类型、长度等)、存储类型、主键、空值约束、应用方式等。
例如,某一标准订单表orders(表名),其字段如下表4所示。
表4
为更好地阐述原理,此订单表只列出了部分重要字段,缺失的字段不影响阅读和理解此方法,后续示例亦如是。实际应用还可以定义字段的类型、长度、存储位置、主键、索引等。
在将原始数据清转换为标准数据时,需要做一定的清洗解析工作。根据原始数据的数据内容和质量,以及标准数据的数据规范,制定清洗转换规则。清洗转换规则包括通用简单型和复杂定制型,在前端只需明确规则的类型、内容、适用范围等即可,后端具体执行方式由开发者定制。
例如,对于原始数据pre_order,在接入标准数据时,制定清洗规则1:对order_status订单状态字段,若内容是‘已取消’,则将整条数据清洗掉,即不接入标准数据;清洗规则2:对于receive_address收货地址字段,清洗掉乱码和起始末尾位置的空格,也就是将乱码和空格删掉。
S103,将原始数据接入标准数据。
数据源已接入指定的原始数据,本步骤是为原始数据指定字段映射关系并执行,执行完毕后,原始数据将以规整的形式进入标准数据。视数据源的数量和复杂度,步骤S102和S103的执行粒度可从原始数据细化到数据源。例如,可以选择pre_order下的所有数据源,设置规则“将receive_address清洗掉首尾的空格”,这是粒度大;也可以选择pre_order下的数据源order_xy设置规则“将seller_name别名shop_name的值添加后缀某鱼”,这是粒度小。这样灵活性的设置拥有统一的执行逻辑,可应对复杂的数据情况,从而减少人力参与。
例如,对于原始数据pre_order,由于其数据源少,且数据质量高,因此可以用一套规则处理所有订单数据。先在执行任务中确定要将原始数据pre_order的哪些字段(原始数据和标准数据都有的同类字段)接入标准数据orders,即creat_time,puduct_name,order_amount,user_name,shop_name,buyer_name,seller_name;然后选择要执行的数据源,即order_xy和order_tb(仅针对于上述举例);然后配置字段映射关系,由于creat_time,puduct_name,order_amount,buyer_name,seller_name字段名称在标准数据中相同,因此数据会自动进入标准数据。而user_name和shop_name在标准数据中不存在,则需要手动配置映射关系,即将user_name映射(就是将原始数据中某字段的值填写到标准数据中对应字段处)到buyer_name,将shop_name映射到seller_name。order_num和order_source是标准数据的自建字段,无需映射。这样该原始数据下的所有数据源便可一个任务一次全部接入标准数据,极大地提高了数据处理效率。
如果数据差异大(例如order_tb的订单都是些衣服实物的订单,而order_xy的订单都是些电影票线上充值的订单),或因为时间关系,则可分别设置执行任务,任务中只选择对应数据源即可。例如,假设3月份数据源order_tb上线,将其接入了,后来6月份数据源order_xy才上线,则可新增一个执行任务,只选择数据源order_xy即可。这样执行粒度就细化到了数据源,具有灵活性。
需要理解的是,对于数据质量的高低判断标准可以由用户定义,例如空值率低,内容规范,没有错误码,内容正确,更新及时等,满足其中的一项或多项都可以定义为质量高,反之则质量低,即数据差异大。
现有技术在处理异构多源的数据时,通常会直接在数据源和标准数据间执行接入,在定义了标准数据和多个数据源后,直接制定每个数据源的清洗规则、映射接入规则。这样存在的问题就是,当数据源过多时,相同的工作就会重复成百上千次,不仅耗用巨大的人力资源,且当数据源有任何改动时,都需要随之更改后续的清洗接入步骤。本方法中,通过原始数据规避了数据源和标准数据的直连关系,数据源只需要在S101中接入原始数据,后续即可批量的将数据源一次接入标准数据,极大地减少了工作量,并且如果数据源有任何改动时,只需要在S103中进行相应更改即可,灵活性强。
请参阅图3,本实施例中,质量管控步骤的具体处理流程如下:
S201,制定质量规则。质量规则是指针对接入数据库的标准数据,定期检测数据内容是否异常的校验标准,也就是不符合质量规则的数据即为异常数据。质量规则由用户定义,可以有不同的实施方式。作为举例,此处定义的质量规则包括完整性、规范性、及时性等。
完整性可以包括对字段内容不能为空的限制,以及对重点字段空值率设置警戒线等。也就是限定指定字段的空值率,对于内容不能为空的字段,空值率为零,对于内容允许为空的字段,空值率为一定数值,但是如果空值率超过警戒线就被视为异常。
规范性对字段的内容结构进行限制,可以包括内容类型的限制(比如年龄必须是数字),内容范围的限制(比如性别必须是男女),内容长度的限制,内容形式限制(比如手机号正则校验)。
及时性是对数据更新时效进行限制,可以包括新数据入库时间的限制,例如入库时间间隔警戒(比如一周没有更新的数据为异常),数据有效时间警戒(比如新入库的订单产生时间不能全是很久前的)。
此外,还可以有精确性对数值内容的精度做限制(比如身高单位cm,项目金额单位万元等),重复性对重复次数过多的异常数据警戒等。
除以上自定义质量规则外,还可以设置一些默认规则,比如根据数据正常的更新频率,监测发现某一阶段数据停滞或大量涌入。
S202,进行任务配置。
质量规则定义要检测什么内容,但是这些质量规则是不是要启用,多久执行一次,就需要进行任务配置执行。因此需要将制定好的质量规则配置给标准数据,设置检测执行方式,即配置任务执行时间和任务执行对象,后续系统便将按照任务配置定时检测数据质量。此处任务执行对象即是指所要执行的质量规则。前述制定的质量规则可以有多条,不一定每条质量规则都适合采用相同的检测方式,即检测时间或检测频率,此处针对不同的质量规则进行不同的任务配置,灵活性强,可以提高数据检测的有效性及可靠性。
例如,对于标准数据orders,配置每日凌晨0点进行数据检测,即order_source的值为’order_tb’或’order_xy’,那么每日的0点就会按照对应的质量规则对orders表的新增数据进行检测。容易理解的,因为每天都会进行数据检测,因此,为了降低处理量,避免重复检测,每天只是对当日新增数据进行检测,无需对已有数据进行重复检测。
配置的每条执行任务也可以理解为一条检测规则。例如,配置检测规则1:order_num不可为空,每日0点检测新增数据;规则2:order_amount必须是大于等于0的数值,每日0点检测新增数据;规则3:order_source的值必须是的’order_tb’或’order_xy’,每日0点检测新增数据。规则启用执行后,每日的0点这3条规则就会执行,对orders表的新增数据进行检测。
S203,执行数据检测任务,进行数据检测,并对于异常数据生成异常报告。
在系统检测到数据异常后,可以通过邮件或群内机器人消息的形式,通知对应人的移动终端。消息内容可以包括异常的标准数据、原始数据、数据源,异常现象,发生时间等。对应人可为固定的人或为独立配置。
例如,检测到有新订单的order_amount是负数,因此为异常。整个检测任务执行完成后,就发送邮件通知相关人。邮件类似是“【检测异常时间】2020-09-11 ,【异常表】orders,【原始数据】pre_order,【数据源】order_xy,【检测规则】GZ4353order_amount必须是大于等于0的数值”。
请参阅图4,本实施例中同时提供了一种数据质量管控系统,也就是将上述方法中的各个步骤编译固化为模块工具,需要执行相应操作时直接调用对应的模块工具,而无需再次进行软件编码。
具体地,数据质量管控系统包括数据接入模块41、质量管控模块42和异常数据统计模块43。
其中,数据接入模块41主要用于将数据源的数据接入原始数据,并将原始数据接入标准数据,以及将标准数据接入数据库。一种具体实施方式下,数据接入模块包括第一预处理模块和第二预处理模块,第一预处理模块主要用于在原始数据下创建多个相似的数据源,并基于预先制定的原始数据的结构,指定数据源的字段;第二预处理模块主要用于基于预先制定的清洗转换规则及标准数据的结构,对原始数据进行数据清洗,并将清洗后的原始数据中的指定字段内容写入标准数据。
其中,质量管控模块42主要用于基于预先制定的质量规则和任务配置,对接入数据库的标准数据进行质量监控,以及对于异常数据生成异常报告。异常报告中优选包括异常的标准数据、原始数据、数据源、异常现象和发生时间,以便于对于异常数据进行准确定位。
其中,异常数据统计模块43主要用于对异常数据进行统计,例如定期统计质量异常次数、异常原因类型、异常数据量中的任一项或多项,以便于对异常数据进行分析,继而提升管控策略。
如图5所示,本实施例同时提供了一种电子设备,该电子设备可以包括处理器51和存储器52,其中存储器52耦合至处理器51。值得注意的是,该图是示例性的,还可以使用其他类型的结构来补充或替代该结构,实现数据加载、图谱显示、通信或其他功能。
如图5所示,该电子设备还可以包括:输入单元53、显示单元54和电源55。值得注意的是,该电子设备也并不是必须要包括图5中显示的所有部件。此外,电子设备还可以包括图5中没有示出的部件,可以参考现有技术。
处理器51有时也称控制器或操作控件,可以包括微处理器或其他处理器装置或逻辑装置,该处理器51接收输入并控制电子设备的各个部件的操作。
其中,存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种,可存储上述处理器51的配置信息、处理器51执行的指令、配置数据等信息。处理器51可以执行存储器52存储的程序,以实现信息存储或处理等。在一个实施例中,存储器52中还包括缓冲存储器,即缓冲器,以存储中间信息。
本发明实施例还提供一种计算机可读指令,其中当在电子设备中执行所述指令时,所述程序使得电子设备执行本发明方法所包含的操作步骤。
本发明实施例还提供一种存储有计算机可读指令的存储介质,其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的层,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成层及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述层的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个层或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (18)
1.一种数据质量管控方法,其特征在于,包括:
数据接入步骤:将数据源的数据接入原始数据,并将原始数据接入标准数据,以及将标准数据接入数据库;
质量管控步骤:基于预先制定的质量规则和任务配置,对接入数据库的标准数据进行质量监控,以及对于异常数据生成异常报告。
2.根据权利要求1所述的数据质量管控方法,其特征在于,所述的质量规则包括限定指定字段的空值率、限定指定字段的内容结构、限定新数据入库时间中的任一项或多项。
3.根据权利要求2所述的数据质量管控方法,其特征在于,所述限定指定字段的内容结构包括:限定指定字段的内容类型、内容范围、内容长度中的任一项或多项。
4.根据权利要求1所述的数据质量管控方法,其特征在于,所述异常报告中包括异常的标准数据、异常的原始数据、异常的数据源、异常现象和发生时间。
5.根据权利要求1所述的数据质量管控方法,其特征在于,所述异常报告通过邮件或机器人消息的形式发送到指定的移动终端。
6.根据权利要求1所述的数据质量管控方法,其特征在于,所述的任务配置包括任务执行时间和任务执行对象。
7.根据权利要求1所述的数据质量管控方法,其特征在于,在所述质量管控步骤之后,还包括异常数据统计步骤:定期统计质量异常次数、异常原因类型、异常数据量中的任一项或多项。
8.根据权利要求1所述的数据质量管控方法,其特征在于,所述将数据源的数据接入原始数据的过程,包括:在原始数据下创建数据源,并基于预先制定的原始数据的结构,指定该数据源的字段。
9.根据权利要求8所述的数据质量管控方法,其特征在于,将多个数据源接入同一个原始数据。
10.根据权利要求1所述的数据质量管控方法,其特征在于,将原始数据接入标准数据的过程,包括:基于预先制定的清洗转换规则及标准数据的结构,对原始数据进行数据清洗,并将清洗后的原始数据中的指定字段内容写入标准数据。
11.根据权利要求10所述的数据质量管控方法,其特征在于,所述将清洗后的原始数据中的指定字段内容写入标准数据的过程中,若指定字段的字段名存在于标准数据中,则原始数据中该指定字段的内容自动写入标准数据中,若指定字段的字段名不存在于标准数据中,则将原始数据中该指定字段的内容手动写入标准数据中。
12.一种数据质量管控系统,其特征在于,包括:
数据接入模块,用于将数据源的数据接入原始数据,并将原始数据接入标准数据,以及将标准数据接入数据库;
质量管控模块,用于基于预先制定的质量规则和任务配置,对接入数据库的标准数据进行质量监控,以及对于异常数据生成异常报告。
13.根据权利要求12所述的数据质量管控系统,其特征在于,所述异常报告中包括异常的标准数据、异常的原始数据、异常的数据源、异常现象和发生时间。
14.根据权利要求12所述的数据质量管控系统,其特征在于,还包括异常数据统计模块,用于定期统计质量异常次数、异常原因类型、异常数据量中的任一项或多项。
15.根据权利要求12所述的数据质量管控系统,其特征在于,数据接入模块包括第一预处理模块,用于在原始数据下创建多个数据源,并基于预先制定的原始数据的结构,指定数据源的字段。
16.根据权利要求15所述的数据质量管控系统,其特征在于,数据接入模块包括第二预处理模块,用于基于预先制定的清洗转换规则及标准数据的结构,对原始数据进行数据清洗,并将清洗后的原始数据中的指定字段内容写入标准数据。
17.一种包括计算机可读指令的计算机可读存储介质,其特征在于,所述计算机可读指令在被执行时使处理器执行权利要求1-11任一所述方法中的操作。
18.一种电子设备,其特征在于,包括:
存储器,存储程序指令;
处理器,与所述存储器相连接,执行存储器中的程序指令,实现权利要求1-11任一所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011354518.7A CN112162980A (zh) | 2020-11-26 | 2020-11-26 | 数据质量管控方法及系统、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011354518.7A CN112162980A (zh) | 2020-11-26 | 2020-11-26 | 数据质量管控方法及系统、存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112162980A true CN112162980A (zh) | 2021-01-01 |
Family
ID=73865892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011354518.7A Pending CN112162980A (zh) | 2020-11-26 | 2020-11-26 | 数据质量管控方法及系统、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112162980A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650747A (zh) * | 2021-01-20 | 2021-04-13 | 天元大数据信用管理有限公司 | 一种金融风控业务场景下的大数据治理方法 |
CN112800044A (zh) * | 2021-02-04 | 2021-05-14 | 深圳市网联安瑞网络科技有限公司 | 数据质量判定及监测方法、管理系统、存储介质、终端 |
CN112947263A (zh) * | 2021-04-20 | 2021-06-11 | 南京云玑信息科技有限公司 | 一种基于数据采集与编码管理控制系统 |
CN113190608A (zh) * | 2021-05-28 | 2021-07-30 | 北京红山信息科技研究院有限公司 | 数据标准化采集方法、装置、设备及存储介质 |
CN113242157A (zh) * | 2021-05-08 | 2021-08-10 | 国家计算机网络与信息安全管理中心 | 一种分布式处理环境下的集中式数据质量监测方法 |
CN116485427A (zh) * | 2022-10-14 | 2023-07-25 | 南京贝特威信息技术有限公司 | 一种面向全球民航客票燃油附加费实时计算的预处理方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855170A (zh) * | 2011-07-01 | 2013-01-02 | 国际商业机器公司 | 用于数据质量监控的系统和方法 |
US20160070725A1 (en) * | 2014-09-08 | 2016-03-10 | International Business Machines Corporation | Data quality analysis and cleansing of source data with respect to a target system |
CN106156315A (zh) * | 2016-07-01 | 2016-11-23 | 中国人民解放军装备学院 | 一种基于分类模型判断的数据质量监控方法 |
US20170308557A1 (en) * | 2016-04-21 | 2017-10-26 | LeanTaas | Method and system for cleansing and de-duplicating data |
CN109977162A (zh) * | 2019-04-10 | 2019-07-05 | 广东省城乡规划设计研究院 | 一种城乡规划数据转换方法、系统和计算机可读存储介质 |
CN111143335A (zh) * | 2019-11-13 | 2020-05-12 | 深圳市华傲数据技术有限公司 | 一种数据质量问题发现方法 |
CN111190881A (zh) * | 2019-11-13 | 2020-05-22 | 深圳市华傲数据技术有限公司 | 一种数据治理方法和系统 |
CN111291990A (zh) * | 2020-02-04 | 2020-06-16 | 浙江大华技术股份有限公司 | 一种质量监控处理方法及装置 |
CN111400288A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 数据质量检查方法及系统 |
-
2020
- 2020-11-26 CN CN202011354518.7A patent/CN112162980A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855170A (zh) * | 2011-07-01 | 2013-01-02 | 国际商业机器公司 | 用于数据质量监控的系统和方法 |
US20160070725A1 (en) * | 2014-09-08 | 2016-03-10 | International Business Machines Corporation | Data quality analysis and cleansing of source data with respect to a target system |
US20170308557A1 (en) * | 2016-04-21 | 2017-10-26 | LeanTaas | Method and system for cleansing and de-duplicating data |
CN106156315A (zh) * | 2016-07-01 | 2016-11-23 | 中国人民解放军装备学院 | 一种基于分类模型判断的数据质量监控方法 |
CN111400288A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 数据质量检查方法及系统 |
CN109977162A (zh) * | 2019-04-10 | 2019-07-05 | 广东省城乡规划设计研究院 | 一种城乡规划数据转换方法、系统和计算机可读存储介质 |
CN111143335A (zh) * | 2019-11-13 | 2020-05-12 | 深圳市华傲数据技术有限公司 | 一种数据质量问题发现方法 |
CN111190881A (zh) * | 2019-11-13 | 2020-05-22 | 深圳市华傲数据技术有限公司 | 一种数据治理方法和系统 |
CN111291990A (zh) * | 2020-02-04 | 2020-06-16 | 浙江大华技术股份有限公司 | 一种质量监控处理方法及装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650747A (zh) * | 2021-01-20 | 2021-04-13 | 天元大数据信用管理有限公司 | 一种金融风控业务场景下的大数据治理方法 |
CN112800044A (zh) * | 2021-02-04 | 2021-05-14 | 深圳市网联安瑞网络科技有限公司 | 数据质量判定及监测方法、管理系统、存储介质、终端 |
CN112800044B (zh) * | 2021-02-04 | 2024-01-19 | 深圳市网联安瑞网络科技有限公司 | 数据质量判定及监测方法、管理系统、存储介质、终端 |
CN112947263A (zh) * | 2021-04-20 | 2021-06-11 | 南京云玑信息科技有限公司 | 一种基于数据采集与编码管理控制系统 |
CN113242157A (zh) * | 2021-05-08 | 2021-08-10 | 国家计算机网络与信息安全管理中心 | 一种分布式处理环境下的集中式数据质量监测方法 |
CN113242157B (zh) * | 2021-05-08 | 2022-12-09 | 国家计算机网络与信息安全管理中心 | 一种分布式处理环境下的集中式数据质量监测方法 |
CN113190608A (zh) * | 2021-05-28 | 2021-07-30 | 北京红山信息科技研究院有限公司 | 数据标准化采集方法、装置、设备及存储介质 |
CN116485427A (zh) * | 2022-10-14 | 2023-07-25 | 南京贝特威信息技术有限公司 | 一种面向全球民航客票燃油附加费实时计算的预处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112162980A (zh) | 数据质量管控方法及系统、存储介质、电子设备 | |
CN112650762B (zh) | 数据质量监控的方法、装置、电子设备以及存储介质 | |
US10116534B2 (en) | Systems and methods for WebSphere MQ performance metrics analysis | |
CN111339073A (zh) | 实时数据处理方法、装置、电子设备及可读存储介质 | |
CN110852559A (zh) | 资源的分配方法和装置、存储介质、电子装置 | |
CN112148779A (zh) | 确定业务指标的方法、装置及存储介质 | |
CN112559525B (zh) | 数据检查系统、方法、装置和服务器 | |
CN113761856A (zh) | 一种数据处理方法和装置 | |
CN112163948A (zh) | 一种分润计算方法、系统、设备及存储介质 | |
CN110781235A (zh) | 基于大数据的采购数据处理方法、装置、终端及存储介质 | |
CN112583610A (zh) | 系统状态的预测方法、装置、服务器及存储介质 | |
CN115438056A (zh) | 一种数据获取方法、装置、设备以及存储介质 | |
CN114925050A (zh) | 基于知识库的数据核查方法、装置、电子设备及存储介质 | |
CN113722141A (zh) | 数据任务的延迟原因确定方法、装置、电子设备及介质 | |
CN112905635A (zh) | 一种业务的处理方法、装置、设备及存储介质 | |
CN113377604A (zh) | 一种数据处理方法、装置、设备和存储介质 | |
CN112685456A (zh) | 一种用户访问数据的处理方法、装置及计算机系统 | |
CN116805233B (zh) | 资产库存控制方法、装置、设备及存储介质 | |
CN117009327B (zh) | 一种数据处理方法、装置及计算机设备、介质 | |
CN114462373B (zh) | 审计规则确定方法、装置、电子设备及存储介质 | |
CN116433197B (zh) | 一种信息上报方法、装置、上报端及存储介质 | |
CN112347095B (zh) | 数据表的处理方法、装置和服务器 | |
CN117493098A (zh) | 一种资源使用成本确定方法、系统、电子设备及存储介质 | |
CN112000366A (zh) | 基于代码生成器的系统参数配置方法及装置 | |
CN117093609A (zh) | 查询语句处理方法、装置、设备、介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210101 |