CN110851464B - 数据质量治理方法及系统 - Google Patents
数据质量治理方法及系统 Download PDFInfo
- Publication number
- CN110851464B CN110851464B CN201911096726.9A CN201911096726A CN110851464B CN 110851464 B CN110851464 B CN 110851464B CN 201911096726 A CN201911096726 A CN 201911096726A CN 110851464 B CN110851464 B CN 110851464B
- Authority
- CN
- China
- Prior art keywords
- data quality
- data
- quality
- task
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Stored Programmes (AREA)
- General Factory Administration (AREA)
Abstract
本发明公开了一种数据质量治理方法及系统,包括如下步骤:在大数据开发平台对计算任务逻辑进行开发,使用计算机语言表示任务逻辑;在数据质量中心配置对应计算任务的数据质量,选择计算任务并编写数据质量表达式,将数据质量配置完毕;将计算任务提交至分布式计算运行引擎,在运行逻辑前进行数据质量检查治理;分布式计算任务在运行时实时感知数据质量情况并做出相应操作,只要数据质量不符合配置要求就将数据的具体情况存储到指定的存储介质中;通过数据质量中心收集数据具体情况,并由数据质量中心输出统一的数据质量报告。所述方法补充了数据质量治理场景,保证了分布式计算在运行时的数据质量。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据质量治理方法及系统。
背景技术
前分布式计算组件与分布式存储组件都是分开的,在进行数据质量的评测时,基本上是直接对分布式存储组件进行数据质量评测,也就是在数据收集阶段,收集前或收集后进行数据质量评测,但这种评测方法并不能满足大数据分布式计算数据质量的所有场景,数据收集后是需要进行数据计算的,数据计算或应用对数据质量也有要求,而这又全然不同于数据收集阶段的质量要求。
数据收集阶段的数据质量并不能满足数据计算应用阶段的所有数据质量要求:例如同是用户点击事件这个数据中,A计算场景是不要求有用户地理位置的,B计算场景是需要用户的地理位置的,同一份数据在不同的计算使用场景中是不一样的数据评测标准的,那其实最终数据质量报告也将面向不同的数据场景进行输出,所以我们说数据质量是基于使用场景来说的,没有使用场景就没有质量的评测标准。用户点击事件数据收集阶段是不能认为没有地理位置是有问题的数据的,只有在特定数据计算应用场景才会认为是有问题的,所以我们认为数据收集阶段的数据质量体系是没办法完全解决数据质量需求场景的。
数据计算应用阶段的数据质量要求计算任务实时做出实时的响应与处理:上述的描述例子中同一份数据不同应用场景有不同的质量要求,那么直接面向分布式存储组件进行评测一般是离线的,不及时的评测,例如T+1输出T日的数据质量报告,但在实时计算场景中某些数据质量问题将导致严重的计算错误,需要实时感知并且实时做出相应的操作,这个就要求分布式的计算组件在计算时要能够感知数据质量是否触发了报警阈值。大部分需要实时感知数据质量并做出相应操作的都属于实时计算场景,数据质量一般由数据质量中心定义,相应的操作一般有跳过数据,停止计算任务这2种,具体行为可以由数据质量中心定义。
现有的非嵌入式的实时计算场景数据质量治理有以下几个缺点:
1)本质上是无法与实时计算组件的数据消费同步,例如实时计算场景A(计算存款总额),实时计算组件消费到了第1000条数据,数据治理组件可能消费到了第999条也可能消费到了第1001条,无法达到真正的数据质量治理与数据计算同步。
2)由于无法达到数据质量治理与数据计算同步,数据治理是没办法对实时计算任务进行相应的操作的,如跳过错误数据,停止任务,这都是没法实现的。
3)其实它的成本也略高,因为需要另外的组件进行实时数据质量治理。
4)数据收集阶段的数据质量处理没办法解决数据应用的多场景要求。
发明内容
本发明所要解决的技术问题是如何提供一种可以保证分布式计算在运行时的数据质量并补充数据质量治理场景的数据质量治理方法。
为解决上述技术问题,本发明所采取的技术方案是:一种数据质量治理方法,其特征在于包括如下步骤:
在大数据开发平台对计算任务逻辑进行开发,使用计算机语言表示任务逻辑;
在数据质量中心配置对应计算任务的数据质量,选择计算任务并编写数据质量表达式,将数据质量配置完毕;
将计算任务提交至分布式计算运行引擎,在运行逻辑前进行数据质量检查治理;
分布式计算任务在运行时实时感知数据质量情况并做出相应操作,只要数据质量不符合配置要求就将数据的具体情况存储到指定的存储介质中;
通过数据质量中心收集数据具体情况,并由数据质量中心输出统一的数据质量报告。
优选的:使用SQL语言表示任务逻辑。
进一步的技术方案在于:离线计算或实时计算任务逻辑开发将计算任务用有向无环图DAG来表示其逻辑。
进一步的技术方案在于:数据质量中心定义数据质量,数据质量标准复合ISO-8000标准,核心的数据质量定义结构为{[计算场景Id],[质量表达式],[触发行为],[是否启用]},同一个计算场景可以有多条质量定义,支持用户对计算应用场景进行配置。
进一步的技术方案在于:所述质量定义结构中:质量表达式字段需要支持复杂条件表达式,里面的字段来自于计算场景中元数据的定义;触发行为字段可以定义为跳过数据或停止任务;是否启用字段用于控制这个质量定义是否使用。
进一步的技术方案在于:计算场景的运行逻辑,即结合的运行逻辑请求至实时计算或离线计算的运行引擎,将任务启动起来,此时任务中已经内嵌了数据质量逻辑,计算任务将有能力对数据质量问题进行实时行为的响应,用于根据配置的质量进行跳过数据与停止任务的操作,如果发现任意一条数据流入计算任务是触发数据质量配置条件,都将发送一条数据质量情况到统一的存储介质中。
进一步的技术方案在于:数据质量中心可以统一处理所有数据计算场景发送出来的数据质量情况,并统计成数据质量报告,数据质量报告的结构为{[计算场景Id],[总数据条数],[数据质量Id],[数据质量表达式],[违反条数]}。
本发明还公开了一种数据质量治理系统,其特征在于包括:
数据质量中心模块:用于配置对应计算任务的数据质量,选择计算任务并编写数据质量表达式,将数据质量配置完毕;
计算任务逻辑模块:用于对计算任务逻辑进行开发,使用计算机语言表示任务逻辑;
质量监控组件模块:进行数据质量检查治理,实时收集数据质量情况并协助输出聚合的数据质量报告;
分布式计算运行引擎模块:在运行时实时感知数据质量情况并做出相应操作,只要数据质量不符合配置要求就将数据的具体情况存储到指定的存储介质中;
存储模块:用于存储数据质量不符合配置要求的信息。
采用上述技术方案所产生的有益效果在于:所述方法可以实现分布式计算对于运行时的数据质量治理,保证了分布式计算在运行时的数据质量,补充了数据质量治理场景;实现了计算任务对于数据质量的自动控制,数据计算时数据质量不符将作出有效处理与反馈;实时的数据质量可以将计算任务的运行质量进行量化,面向数据场景输出数据质量报告。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例所述方法的主流程图;
图2是本发明实施例所述方法的流程图;
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
如图1-图2所示,本发明实施例公开了一种数据质量治理方法,包括如下步骤:
在大数据开发平台对计算任务逻辑进行开发,使用常规的SQL进行表示任务逻辑;
在数据质量中心配置对应计算任务的数据质量,可视化配置,选择计算任务并编写数据质量表达式,将数据质量配置完毕。
将计算任务提交至分布式计算运行引擎,最终提交的计算任务是具备了[dataquality check]步骤能力的,它将在核心运行逻辑前进行数据质量检查治理
分布式计算任务在运行时可以实时感知数据质量情况并做出相应操作,只要数据质量不符合配置要求将可以数据具体情况到指定的存储介质中(图中是异步队列)
数据具体情况就可以让数据质量中心进行收集,并由数据质量中心输出统一的数据质量报告。
大数据开发平台,可支持编写分布式计算组件Flink的执行逻辑,用SQL表示任务逻辑。并且这个平台可以编排任务逻辑,支持将数据质量逻辑进行整合成新逻辑,需要平台实现Flink官方可编排逻辑的组件;元数据管理平台,用于整体管理计算任务中的数据结构;数据质量中心,负责配置数据计算应用场景的数据质量与数据质量情况收集。核心结构与发明说明一致;分布式计算运行引擎组件,实施方式中采用了Flink,它负责接收开发平台提交的计算任务并运行任务。
离线计算或实时计算任务逻辑开发(例如:存款数据计算应用场景-【存款总额】统计),统一将计算任务用有向无环图(DAG)来表示其逻辑,【存款总额】统计逻辑为{[datainput]->[sum amount]->[sum output]},具体的实现与分布式计算组件有关,都可以使用统一的DAG表示。
数据质量中心定义了数据质量(例如,绑定【存款总额】计算场景中amount字段<0将进行跳过数据操作),数据质量标准请参考ISO-8000标准,核心的数据质量定义结构为{[计算场景Id],[质量表达式],[触发行为],[是否启用]},例如{【存款总额】任务Id,amount<0,skip,true},这个结构算作一条质量定义,同一个计算场景可以有多条质量定义,即【存款总额】任务可以有多个数据质量定义,这个结构将支持用户对计算应用场景进行配置。
上述质量定义结构中,[质量表达式]需要支持复杂条件表达式,里面的字段(如amount)来自于计算场景中元数据的定义,[触发行为]可以定义为跳过数据或停止任务,[是否启用]将控制这个质量定义是否使用。
【存款总额】计算场景的运行逻辑(开发逻辑与质量逻辑结合),即结合的运行逻辑请求至实时计算或离线计算的运行引擎,将任务启动起来,此时任务中已经内嵌了数据质量逻辑,计算任务将有能力对数据质量问题进行实时行为的响应,它的DAG逻辑为{[datainput]->[data quality check]->[sum amount]->[sum output]},[data qualitycheck]这个步骤将有能力根据配置的质量进行跳过数据与停止任务的操作,如果发现任意一条数据流入计算任务是触发数据质量配置条件,都将发送一条数据质量情况到统一的存储介质中。
数据质量中心可以统一消费所有数据计算场景发送出来的数据质量情况,并统计成数据质量报告,数据质量报告的结构为{[计算场景Id],[总数据条数],[数据质量Id],[数据质量表达式],[违反条数]},这样可以统一输出数据计算场景的数据质量报告。
与所述方法相对应的,本发明还公开了一种数据质量治理系统,如图2所示包括:
数据质量中心模块:用于配置对应计算任务的数据质量,选择计算任务并编写数据质量表达式,将数据质量配置完毕;
计算任务逻辑模块:用于对计算任务逻辑进行开发,使用计算机语言表示任务逻辑;
质量监控组件模块:进行数据质量检查治理,实时收集数据质量情况并协助输出聚合的数据质量报告;
分布式计算运行引擎模块:在运行时实时感知数据质量情况并做出相应操作,只要数据质量不符合配置要求就将数据的具体情况存储到指定的存储介质中;
存储模块:用于存储数据质量不符合配置要求的信息。
所述方法可以实现分布式计算对于运行时的数据质量治理,保证了分布式计算在运行时的数据质量,补充了数据质量治理场景;实现了计算任务对于数据质量的自动控制,数据计算时数据质量不符将作出有效处理与反馈;实时的数据质量可以将计算任务的运行质量进行量化,面向数据场景输出数据质量报告。
Claims (3)
1.一种数据质量治理方法,其特征在于包括如下步骤:
在大数据开发平台对计算任务逻辑进行开发,使用计算机语言表示任务逻辑;
在数据质量中心配置对应计算任务的数据质量,选择计算任务并编写数据质量表达式,将数据质量配置完毕;
将计算任务提交至分布式计算运行引擎,在运行逻辑前进行数据质量检查治理;
分布式计算任务在运行时实时感知数据质量情况并做出相应操作,只要数据质量不符合配置要求就将数据的具体情况存储到指定的存储介质中;
通过数据质量中心收集数据具体情况,并由数据质量中心输出统一的数据质量报告;
数据质量中心定义数据质量,数据质量标准复合ISO-8000标准,核心的数据质量定义结构为{[计算场景Id],[质量表达式],[触发行为],[是否启用]},同一个计算场景有多条质量定义,支持用户对计算应用场景进行配置;
所述质量定义结构中:质量表达式字段需要支持复杂条件表达式,里面的字段来自于计算场景中元数据的定义;触发行为字段定义为跳过数据或停止任务;是否启用字段用于控制这个质量定义是否使用;
计算场景的运行逻辑,即结合的运行逻辑请求至实时计算或离线计算的运行引擎,将任务启动起来,此时任务中已经内嵌了数据质量逻辑,计算任务将有能力对数据质量问题进行实时行为的响应,用于根据配置的质量进行跳过数据与停止任务的操作,如果发现任意一条数据流入计算任务是触发数据质量配置条件,都将发送一条数据质量情况到统一的存储介质中;
数据质量中心统一处理所有数据计算场景发送出来的数据质量情况,并统计成数据质量报告,数据质量报告的结构为{[计算场景Id],[总数据条数],[数据质量Id],[数据质量表达式],[违反条数]}。
2.如权利要求1所述的数据质量治理方法,其特征在于:
使用SQL语言表示任务逻辑。
3.如权利要求1所述的数据质量治理方法,其特征在于:
离线计算或实时计算任务逻辑开发将计算任务用有向无环图DAG来表示其逻辑。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911096726.9A CN110851464B (zh) | 2019-11-11 | 2019-11-11 | 数据质量治理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911096726.9A CN110851464B (zh) | 2019-11-11 | 2019-11-11 | 数据质量治理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851464A CN110851464A (zh) | 2020-02-28 |
CN110851464B true CN110851464B (zh) | 2023-10-27 |
Family
ID=69601223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911096726.9A Active CN110851464B (zh) | 2019-11-11 | 2019-11-11 | 数据质量治理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851464B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108519914A (zh) * | 2018-04-09 | 2018-09-11 | 腾讯科技(深圳)有限公司 | 大数据计算方法、系统和计算机设备 |
CN108829534A (zh) * | 2018-05-31 | 2018-11-16 | 康键信息技术(深圳)有限公司 | 数据问题修复方法、装置、计算机设备和存储介质 |
CN109508177A (zh) * | 2018-08-21 | 2019-03-22 | 深圳乐信软件技术有限公司 | 一种实时计算方法、装置、服务器及存储介质 |
CN109684309A (zh) * | 2018-08-03 | 2019-04-26 | 全球能源互联网研究院有限公司 | 一种数据质量评测方法及装置、计算机设备和存储介质 |
-
2019
- 2019-11-11 CN CN201911096726.9A patent/CN110851464B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108519914A (zh) * | 2018-04-09 | 2018-09-11 | 腾讯科技(深圳)有限公司 | 大数据计算方法、系统和计算机设备 |
CN108829534A (zh) * | 2018-05-31 | 2018-11-16 | 康键信息技术(深圳)有限公司 | 数据问题修复方法、装置、计算机设备和存储介质 |
CN109684309A (zh) * | 2018-08-03 | 2019-04-26 | 全球能源互联网研究院有限公司 | 一种数据质量评测方法及装置、计算机设备和存储介质 |
CN109508177A (zh) * | 2018-08-21 | 2019-03-22 | 深圳乐信软件技术有限公司 | 一种实时计算方法、装置、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110851464A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536761B (zh) | 报表数据查询方法及服务器 | |
Priami | Stochastic π-calculus | |
Goodhope et al. | Building LinkedIn's Real-time Activity Data Pipeline. | |
US8832649B2 (en) | Systems and methods for augmenting the functionality of a monitoring node without recompiling | |
CN100481021C (zh) | 用于标识计算机程序的未响应部分的方法、系统和装置 | |
CN101876938B (zh) | 一种基于消息队列的应用软件响应时间测量方法及系统 | |
CN109471845A (zh) | 日志管理方法、服务器及计算机可读存储介质 | |
US8832716B2 (en) | Systems and methods for limiting user customization of task workflow in a condition based health maintenance system | |
EP3281125A1 (en) | Event processing system paging | |
CN110569090A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
US20170064021A1 (en) | Methods and apparatus to monitor usage of virtual computing environments | |
CN110413432A (zh) | 一种信息处理方法、电子设备及存储介质 | |
CN108628890A (zh) | 一种数据导出方法及系统 | |
CN108304267A (zh) | 高可靠低资源开销的多源数据引接方法 | |
CN108268351A (zh) | 一种进程运行状态精确监控方法及系统 | |
CN110851464B (zh) | 数据质量治理方法及系统 | |
US10691653B1 (en) | Intelligent data backfill and migration operations utilizing event processing architecture | |
CN100382043C (zh) | 一种内存监控的装置及方法 | |
CN101425034A (zh) | 日志记录方法及日志系统 | |
CN116467204A (zh) | 一种低代码应用运行稳定性优化方法 | |
US10496467B1 (en) | Monitoring software computations of arbitrary length and duration | |
CN104778087B (zh) | 一种信息处理方法以及信息处理装置 | |
CN110222315A (zh) | 一种数据统计方法、系统及电子设备和存储介质 | |
CN113672660A (zh) | 一种数据查询方法、装置及设备 | |
CN114153427A (zh) | 持续集成流水线的优化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |