CN112540975A - 一种基于petri网的多源异构数据质量检测方法 - Google Patents
一种基于petri网的多源异构数据质量检测方法 Download PDFInfo
- Publication number
- CN112540975A CN112540975A CN202011592682.1A CN202011592682A CN112540975A CN 112540975 A CN112540975 A CN 112540975A CN 202011592682 A CN202011592682 A CN 202011592682A CN 112540975 A CN112540975 A CN 112540975A
- Authority
- CN
- China
- Prior art keywords
- quality
- data
- source
- detection
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 100
- 238000004458 analytical method Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 16
- 230000007704 transition Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 19
- 238000007689 inspection Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000007726 management method Methods 0.000 abstract description 21
- 238000011161 development Methods 0.000 abstract description 4
- 230000008713 feedback mechanism Effects 0.000 abstract description 3
- 238000010276 construction Methods 0.000 description 6
- 238000013523 data management Methods 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000005012 migration Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于petri网的多源异构数据质量检测方法,可以使用调度计划模块,配置数据质量作业,再利用petri网的消息反馈机制,针对每次质量作业,形成表格、图表形式的质量分析报告,最后,积累数据质量检测的问题,形成数据质量问题知识库,为后续的数据质量检测提供可持续发展的意见和建议,保证了各数据源相互独立,统一了SQL形式,解决了多源异构数据针对不同数据源需要特定查询方法的难题,为使用者提供一种图形化、可拖拽的质量任务、作业管理方法,可配置质量检测调度计划,生成数据质量分析结果供使用者查看,并建立数据质量知识库提升解决质量问题的能力。为系统数据质量提升提供有效支撑,从而提升数据价值。
Description
技术领域
本发明属于大数据、数据治理、数据分析技术领域,具体涉及一种基于petri网的多源异构数据质量检测方法。
背景技术
信息时代在当今已经过渡到了大数据、人工智能与物联网的时代,在大数据分析、数仓构建、机器学习、神经网络、物联网数据传输领域,数据是这一切的基石。数据质量在数据的使用过程中至关重要,只有有质量保障的数据,算法才能得到更接近正确的答案。
在大数据的背景下,数据治理存在数据量庞大、数据来源多种、数据表述方式多样的问题。随着数据湖(Data Lake)概念的提出,大数据治理无需事先对数据进行结构化的处理,数据以关系型数据库、NoSQL数据库、非结构化数据和二进制数据进行存储。不同存储方式内容格式相互独立,无法有效的整合利用。
元数据(Metadata)是描述数据的数据,是对数据及信息资源的描述性信息。传统的关系型数据库(Oracle、MySQL、PostgreSQL、SQLServer等)会将元数据存在数据库自带的系统表当中,非关系型数据库(ElasticSearch、MongoDB等)也会在特定位置存放元数据信息。这使得通过制定元数据标准、共享元数据将复杂的、变化的分布式环境数据治理成为可能。
petri网自20世纪60年代被提出,通过严格的数据表述,直观的图形表达,在描述多模块、多任务的系统时有很大的优势。在云应用平台(Saas)中,数据质量检测往往也是包含多数据库,多检测任务的并发过程,在大数据、数据湖的环境下,不仅对质量检测的正确性有要求,对质量检测的效能有要求,对数据质量检测及时的信息反馈也有要求。多源异构数据质量检测可以通过petri网可视化配置的方式形成行之有效的工作流。
当前数据质量检测是数据分析的必要条件,是保证数据应用的基础。现有数据质量检测一般通过完整性、一致性、准确性、及时性四个方面判别数据是否达到预期的质量要求。往往只针对单一数据源,单一数据格式的质量检测,得到的结果也只是是否达到要求,缺乏全系统考量、结果可解释,显然在大数据的环境下无法胜任。本发明提供一种全局的、可配置的、可调度的、可分析的、包含知识库的数据质量检测方法解决上述难题。
发明内容
针对现有设备存在的缺陷和问题,本发明提供一种基于petri网的多源异构数据质量检测方法,有效的解决了现有数据质量检测往往只针对单一数据源,单一数据格式的质量检测,缺乏全系统考量、结果可解释,无法胜任现在的大数据的环境。
本发明解决其技术问题所采用的方案是:一种基于petri网的多源异构数据质量检测方法,包括如下步骤
步骤1、配置数据源
对系统所管理的数据湖中连接的异构数据源进行配置,使多个异构数据源与数据湖连接,将所有的异构数据源连接本地的多源异构数据处理服务器;
步骤2、元数据标准的制定
多源异构数据处理服务器的数据库采用自主扩展的PostgreSQL数据库,数据格式采用向大转型的原则,通过对多源异构数据库实行元数据采集任务得到元数据,元数据包括元数据表信息、字段信息、索引信息和约束信息;将采集来的元数据转为PostgreSQL的数据格式入库,从而使多源异构数据具有统一的数据标准;
步骤3,建立外部表连接
根据步骤1的数据源信息与步骤2的元数据信息,通过自主扩展的PostgreSQL数据库,建立外部表连接;通过配置外部表服务,建立查询用户,创建外部表到外部数据映射的方式实现多源异构数据的查询;
步骤4,制定数据质量规则
根据质量规则或者质量任务构建加入信息反馈的petri网模型,利用外部表查询获得检测数据源,petri网模型中一次质量任务中,起始为质量任务的检测数据源,以质量规则作为变迁,规则变迁之间为消息库所,产出规则检测结果,多个质量规则与消息库所组成一个质量任务,实现了单一数据源的质量任务检测;再以质量任务作为变迁,任务变迁之间为消息库所,产出任务检测结果,多个质量任务与消息库所组成一个质量作业,通过质量作业、质量任务、质量规则的三层结构,实现多源异构数据质量的检测;
步骤5,形成数据质量分析报告
根据步骤4消息库所的实时反馈,实现了实时监测数据质量检测过程,将每一次的数据质量作业形成数据质量分析报告,以表格和图表的形式帮助使用者分析管理的数据源中数据的完整性、一致性、准确性、及时性与有效性。
一种基于petri网的多源异构数据检测方法,包括数据质量规则库模块、数据质量任务管理模块、数据质量作业模块、调度计划管理模块、数据质量分析模块与数据质量知识库模块;所述数据质量规则库模块作为数据质量规则的集合,为质量检测提供质量规则;数据质量任务管理模块作为数据质量检测的执行单元,在执行时首先选择稽查对象,稽查对象为多源异构处理服务器管理的数据源,通过元数据选到外部数据源的数据表;然后,将想要检测的质量规则通过拖动、连线的方式进行串并联的图形化编排;数据质量作业管理模块以petri网模型为基础,在数据质量作业中配置质量任务,每一个质量任务对应一种多源异构数据源,利用petri网的可达图生成Oozie工作流串并联调度执行质量任务,从而通过质量作业、质量任务、质量规则的三层结构稽查多源异构数据源;调度计划管理模块通过选择调度作业、调度方式,执行计划来构建调度计划;数据质量分析模块用于接收并记录质量任务消息库所输出的质量规则检测信息和质量作业消息库所输出的质量任务检测信息,并对质量规则检测信息和质量任务检测信息进行统计和评分;数据质量知识库模块根据数据质量分析模块记录的质量规则检测信息和质量任务检测信息,通过前端接口的方式为使用者提供标记。
进一步的,步骤1中,异构数据源包括关系型数据库、NoSQL数据库和结构化数据文件。
进一步的,步骤4中,数据质量作业为自动执行,实现了针对被管理数据源的自动化数据质量检测。
进一步的,根据步骤5中的实时反馈内容,已存在的质量问题的产生原因、解决方案等进行记录,逐渐积累形成数据质量知识库。
进一步的,所述数据质量规则管理模块中数据质量判别规则包括完整性、一致性、准确性、及时性和有效性。
本发明的有益效果:
数据质量是数据分析、数据挖掘与数据应用的前提,针对当前单一的数据质量检测,本发明提供一种基于petri网的多源异构数据质量检测方法,利用数据湖形式的大数据治理思想,采用以多源异构数据处理服务器为中心,连接多端多边数据源的方式,充分结合了元数据标准构建,配置多源异构数据源外部表查询服务,通过中心服务器统一SQL下发至多源异构数据源进行质量规则的查询,以数据质量规则为变迁,通过petri网使用拖拽的方式形成可视化、可配置的数据质量任务工作流模型,再以数据质量任务为变迁,形成数据质量作业的工作流模型,实现多源异构数据的质量检测。
同时可以使用调度计划模块,配置数据质量作业,再利用petri网的消息反馈机制,针对每次质量作业,形成表格、图表形式的质量分析报告,最后,积累数据质量检测的问题,形成数据质量问题知识库,为后续的数据质量检测提供可持续发展的意见和建议,保证了各数据源相互独立,统一了SQL形式,解决了多源异构数据针对不同数据源需要特定查询方法的难题,为使用者提供一种图形化、可拖拽的质量任务、作业管理方法,可配置质量检测调度计划,生成数据质量分析结果供使用者查看,并建立数据质量知识库提升解决质量问题的能力。为系统数据质量提升提供有效支撑,从而提升数据价值。
附图说明
图1为本发明多源异构数据处理服务器架构图。
图2为本发明基于petri网的数据质量任务工作流。
图3为本发明基于petri网的数据质量作业工作流。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
实施例1:本实施例旨在提供一种基于petri网的多源异构数据检测方法,针对现有数据质量检测往往只针对单一数据源,单一数据格式的质量检测,缺乏全系统考量、结果可解释,无法胜任现在的大数据的环境,本实施例一种以petri网模型为基础,适用于多源异构数据检测的系统。
本实施例中一种基于petri网的多源异构数据检测系统包括数据质量规则库模块、数据质量任务管理模块、数据质量作业模块、调度计划管理模块、数据质量分析模块与数据质量知识库模块;所述数据质量规则库模块作为数据质量规则的集合,为质量检测提供质量规则;数据质量任务管理模块作为数据质量检测的执行单元,在执行时首先选择稽查对象,稽查对象为多源异构处理服务器管理的数据源,通过元数据选到(前端选择)外部数据源的数据表;然后,将想要检测的质量规则通过拖动、连线的方式进行串并联的图形化编排;数据质量作业管理模块以petri网模型为基础,在数据质量作业中配置质量任务,每一个质量任务对应一种多源异构数据源,利用petri网的可达图生成Oozie工作流串并联调度执行质量任务,从而通过质量作业、质量任务、质量规则的三层结构稽查多源异构数据源;调度计划管理模块通过选择调度作业、调度方式,执行计划来构建调度计划;数据质量分析模块用于接收并记录质量任务消息库所输出的质量规则检测信息和质量作业消息库所输出的质量任务检测信息,并对质量规则检测信息和质量任务检测信息进行统计和评分;数据质量知识库模块根据数据质量分析模块记录的质量规则检测信息和质量任务检测信息,通过前端接口的方式为使用者提供标记。
其中数据质量规则管理模块的具体实施方式为:数据质量判别规则为完整性、一致性、准确性、及时性,在此基础上加入有效性,可以实现数据极值、特殊数据格式、数据枚举等数据质量的检测;在规则属性上,集成了现有通用数据质量规则检测方法,并允许使用者自定义质量规则,允许可配置的质量规则输出。采用统一SQL的形式进行查询,统一SQL依靠自主扩展的PostgreSQL数据库外部表服务(fdw)实现,多源异构处理服务器架构如图1所示,实现方式通过配置外部表服务-创建多源异构处理服务器的外部查询用户-创建外部表数据映射,在建立连接后,使用者可以直接在多源异构处理服务器上使用PostgreSQL这一传统关系型数据库实现对多源异构数据库的质量规则查询,值得一提的是,本发明实现了对MySQL、Oracle、PostgreSQL、MongoDB、ElasticSearch、数据文件等的聚合函数下推,将查询SQL传递到外部数据源执行,充分利用了各种不同数据库的优秀性能,在大数据的场景下,仅将查询结果返回,不仅大大减少了数据的传输,还显著提升了查询性能。自定义规则仅需要写关系型数据库的SQL语句就可以检测系统提供的所有类型的数据库与结构化数据文件的数据质量,降低了用户的使用难度。
数据质量任务管理模块的具体实施方式为:首先多源异构处理服务器对数据的管理采用元数据管理方式,指定统一的元数据标准,对多源异构的数据进行描述。元数据为数据质量任务的图形化编排数据质量规则奠定了基础。应用petri网构建数据质量任务工作流如图2所示。先选择稽查对象,稽查对象为多源异构处理服务器管理的数据源,通过元数据选到外部数据源的数据表。然后,将想要检测的质量规则通过拖动、连线的方式进行串并联的图形化编排。针对每一个质量规则,可以配置规则的元数据字段、参数配置,可多选质量检测的告警条件。为了给使用者更直观的图形显示,后台自动补充消息库所并在图形上隐藏了消息库所,这样,使用者只用关心质量任务所编排的质量规则。
petri网是由一个四元组(P,T,f,m0)组成,分别代表了库所、变迁、流关系和初始标记。其中f:(P×T)∪(T×P)→N0是流关系m0:P→N0是初始标记。petri网的引发规则:当m(p)≥f(p,t),∀p∈lt时,迁移t在标记m下被激活,记作m[t>,否则迁移不被激活,一个激活的迁移可以被引发,当t在m下被引发后,一个新的标记m’到达,记作m[t>m’,且有m’(p)=m(p)-f(p,t)+f(t,p),其中∀p∈P,petri网的引发过程,不消耗时间。
质量规则在变迁过程中发现问题,之后在消息库所对质量规则问题进行记录,实时反映数据质量规则检测的状态,每一个数据质量规则的执行通过Oozie进行调度,Oozie作为一个工作流调度框架,必须是一个有向无环图,将petri网的库所改为消息库所适应系统需求,实现了检测信息的实时发出与接收,这里再将petri网针对Oozie进行改造以适应本系统。用petri网的可达图(Reachability Graph)来表示有向无环图的工作流,则G=(V,E,R),其中V是节点的集合,v∈V表示一类可达的标识;E是有向弧的集合,e∈E标识从一类可达标识到另一类可达标识的有向弧;R是一个转换关系,R:E→V×V。Oozie调度系统的两大核心分别为依赖和触发,前端在通过拖拽构建图2、图3petri网工作流模型时,明确记录图关系的依赖和触发条件。触发即petri网变迁可达,依赖详细的记录了当前变迁可达所需依赖链。采用快慢指针法,若快指针走向末尾(next指向NULL)没追上慢指针,则说明依赖链无环,Oozie可调度经改造的petri网模型。这样就实现了Oozie调度执行数据质量规则的串并联工作流。
数据质量作业管理模块的具体实施方式为:根据数据质量任务管理模块已配置的数据质量任务,可以看出,一个质量任务对应一个稽查数据源,为解决多源异构数据源的质量检测,类似于数据质量任务配置质量规则,在数据质量作业中配置质量任务,每一个质量任务对应一种多源异构数据源,利用petri网的可达图生成Oozie工作流串并联调度执行质量任务,这样就可以稽查多源异构数据源。应用petri网构建数据质量作业工作流如图3所示。质量任务在变迁过程中发现问题,之后在消息库所对质量任务问题进行记录,实时反映数据质量任务检测的状态。完成数据质量作业的图形化构建,实际上形成了质量作业-质量任务-质量规则三层包含关系,以此完成多源异构数据质量的检测。
调度计划管理模块的具体实施方式为:在生产环境中,例如:有针对数据分析的一次性数据检测,也有针对数据开发的数据定期维护,还有数据挖掘得到流式或批量数据的及时验证。因此对数据质量作业提出了更具体的自动化要求,在本发明中,使用者可以自行配置调度计划。通过选择调度作业,调度方式(单次或周期),执行计划(立即执行或定时执行)来构建一个调度计划。还引入了订阅配置的模块,可以将数据质量检测的结果在消息系统显示,并发送至创建质量作业者的邮箱。
数据质量分析模块的具体实施方式为:数据质量分析接收并记录质量任务消息库所输出的质量规则检测信息与质量作业消息库所输出的质量任务检测信息。数据质量分析模块以列表的形式进行质量任务统计;以饼状图的形式展现问题数和问题数据量的质量问题分布;以折线图的形式展现问题数和问题数据量的质量问题趋势;最后,以有效性、准确性、完整性、唯一性、一致性与及时性作为维度,对各个维度进行计分,对数据质量检测存在的问题,以百分制的形式加权扣除,使用六芒星图展示数据质量评分模块。
数据质量知识库模块的具体实施方式为:根据数据质量分析模块记录的质量规则检测信息和质量任务检测信息,通过前端接口的方式,为使用者提供标记。自动提供问题来源规则、任务,允许使用者对记录的质量问题产生原因、解决方案进行记录,配置问题字典目录管理质量问题知识库。这为后续质量问题检测提供了参考,有效提升了使用者处理数据质量问题的能力。
本实施例具体实施时,包括如下步骤
步骤1、配置数据源
对系统所管理的数据湖中连接的异构数据源进行配置,使多个异构数据源与数据湖连接,将所有的异构数据源连接本地的多源异构数据处理服务器;异构数据源包括关系型数据库、NoSQL数据库和结构化数据文件。
步骤2、元数据标准的制定
多源异构数据处理服务器的数据库采用自主扩展的PostgreSQL数据库,数据格式采用向大转型的原则,通过对多源异构数据库实行元数据采集任务得到元数据,元数据包括元数据表信息、字段信息、索引信息和约束信息;将采集来的元数据转为PostgreSQL的数据格式入库,从而使多源异构数据具有统一的数据标准。
步骤3,建立外部表连接
根据步骤1的数据源信息与步骤2的元数据信息,通过自主扩展的PostgreSQL数据库,建立外部表连接;通过配置外部表服务,建立查询用户,创建外部表到外部数据映射的方式实现多源异构数据的查询。
步骤4,制定数据质量规则
根据质量规则或者质量任务构建加入信息反馈的petri网模型,利用外部表查询获得检测数据源,petri网模型中一次质量任务中,起始为质量任务的检测数据源,以质量规则作为变迁,规则变迁之间为消息库所,产出规则检测结果,多个质量规则与消息库所组成一个质量任务,实现了单一数据源的质量任务检测;再以质量任务作为变迁,任务变迁之间为消息库所,产出任务检测结果,多个质量任务与消息库所组成一个质量作业,通过质量作业、质量任务、质量规则的三层结构,实现多源异构数据质量的检测;本实施例中数据质量作业为自动执行,实现了针对被管理数据源的自动化数据质量检测。
步骤5,形成数据质量分析报告
根据步骤4消息库所的实时反馈,实现了实时监测数据质量检测过程,将每一次的数据质量作业形成数据质量分析报告,以表格和图表的形式帮助使用者分析管理的数据源中数据的完整性、一致性、准确性、及时性与有效性;同时根据实时反馈内容,已存在的质量问题的产生原因、解决方案等进行记录,逐渐积累形成数据质量知识库。
下面结合具体实例进行说明如图2所示,图2首先配置了稽查对象PostgreSQL数据源,并加入了字段最大值、字段最小值、字段平均值、字段汇总值与字段空值校验五个质量规则,构成了一个质量任务。
图3首先配置开始事件,并加入了自媒体库数据范围、舆情库名称空值、科技情报数据格式与分析库数据格式四个质量任务,最后加入结束事件,构成了一个质量作业。
由此,本发明提供了一种基于petri网的多源异构数据质量检测方法,利用数据湖形式的大数据治理思想,采用以多源异构数据处理服务器为中心,连接多端多边数据源的方式,充分结合了元数据标准构建,配置多源异构数据源外部表查询服务,通过中心服务器统一SQL下发至多源异构数据源进行质量规则的查询,以数据质量规则为变迁,通过petri网使用拖拽的方式形成可视化、可配置的数据质量任务工作流模型,再以数据质量任务为变迁,形成数据质量作业的工作流模型,实现多源异构数据的质量检测。可以使用调度计划模块,配置数据质量作业。再利用petri网的消息反馈机制,针对每次质量作业,形成表格、图表形式的质量分析报告。最后,积累数据质量检测的问题,形成数据质量问题知识库,为后续的数据质量检测提供可持续发展的意见和建议。
Claims (6)
1.一种基于petri网的多源异构数据质量检测方法,其特征在于:包括如下步骤
步骤1、配置数据源
对系统所管理的数据湖中连接的异构数据源进行配置,使多个异构数据源与数据湖连接,将所有的异构数据源连接本地的多源异构数据处理服务器;
步骤2、元数据标准的制定
多源异构数据处理服务器的数据库采用自主扩展的PostgreSQL数据库,数据格式采用向大转型的原则,通过对多源异构数据库实行元数据采集任务得到元数据,元数据包括元数据表信息、字段信息、索引信息和约束信息;将采集来的元数据转为PostgreSQL的数据格式入库,从而使多源异构数据具有统一的数据标准;
步骤3,建立外部表连接
根据步骤1的数据源信息与步骤2的元数据信息,通过自主扩展的PostgreSQL数据库,建立外部表连接;通过配置外部表服务,建立查询用户,创建外部表到外部数据映射的方式实现多源异构数据的查询;
步骤4,制定数据质量规则
根据质量规则或者质量任务构建加入信息反馈的petri网模型,利用外部表查询获得检测数据源,petri网模型中一次质量任务中,起始为质量任务的检测数据源,以质量规则作为变迁,规则变迁之间为消息库所,产出规则检测结果,多个质量规则与消息库所组成一个质量任务,实现了单一数据源的质量任务检测;再以质量任务作为变迁,任务变迁之间为消息库所,产出任务检测结果,多个质量任务与消息库所组成一个质量作业,通过质量作业、质量任务、质量规则的三层结构,实现多源异构数据质量的检测;
步骤5,形成数据质量分析报告
根据步骤4消息库所的实时反馈,实现了实时监测数据质量检测过程,将每一次的数据质量作业形成数据质量分析报告,以表格和图表的形式帮助使用者分析管理的数据源中数据的完整性、一致性、准确性、及时性与有效性。
2.一种基于petri网的多源异构数据检测方法,其特征在于:包括数据质量规则库模块、数据质量任务管理模块、数据质量作业模块、调度计划管理模块、数据质量分析模块与数据质量知识库模块;所述数据质量规则库模块作为数据质量规则的集合,为质量检测提供质量规则;数据质量任务管理模块作为数据质量检测的执行单元,在执行时首先选择稽查对象,稽查对象为多源异构处理服务器管理的数据源,通过元数据选到外部数据源的数据表;然后,将想要检测的质量规则通过拖动、连线的方式进行串并联的图形化编排;数据质量作业管理模块以petri网模型为基础,在数据质量作业中配置质量任务,每一个质量任务对应一种多源异构数据源,利用petri网的可达图生成Oozie工作流串并联调度执行质量任务,从而通过质量作业、质量任务、质量规则的三层结构稽查多源异构数据源;调度计划管理模块通过选择调度作业、调度方式,执行计划来构建调度计划;数据质量分析模块用于接收并记录质量任务消息库所输出的质量规则检测信息和质量作业消息库所输出的质量任务检测信息,并对质量规则检测信息和质量任务检测信息进行统计和评分;数据质量知识库模块根据数据质量分析模块记录的质量规则检测信息和质量任务检测信息,通过前端接口的方式为使用者提供标记。
3.根据权利要求1所述的基于petri网的多源异构数据质量检测方法,其特征在于:步骤1中,异构数据源包括关系型数据库、NoSQL数据库和结构化数据文件。
4.根据权利要求1所述的基于petri网的多源异构数据质量检测方法,其特征在于:步骤4中,数据质量作业为自动执行,实现了针对被管理数据源的自动化数据质量检测。
5.根据权利要求1所述的基于petri网的多源异构数据质量检测方法,其特征在于:根据步骤5中的实时反馈内容,已存在的质量问题的产生原因、解决方案等进行记录,逐渐积累形成数据质量知识库。
6.根据权利要求2所述的基于petri网的多源异构数据质量检测方法,其特征在于:所述数据质量规则管理模块中数据质量判别规则包括完整性、一致性、准确性、及时性和有效性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011592682.1A CN112540975B (zh) | 2020-12-29 | 2020-12-29 | 一种基于petri网的多源异构数据质量检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011592682.1A CN112540975B (zh) | 2020-12-29 | 2020-12-29 | 一种基于petri网的多源异构数据质量检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112540975A true CN112540975A (zh) | 2021-03-23 |
CN112540975B CN112540975B (zh) | 2021-08-31 |
Family
ID=75017826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011592682.1A Active CN112540975B (zh) | 2020-12-29 | 2020-12-29 | 一种基于petri网的多源异构数据质量检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112540975B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641628A (zh) * | 2021-08-13 | 2021-11-12 | 中国联合网络通信集团有限公司 | 数据质量检测方法、装置、设备及存储介质 |
CN115718745A (zh) * | 2023-01-09 | 2023-02-28 | 中科金瑞(北京)大数据科技有限公司 | 基于dag图任务调度的数据质量检测方法和装置 |
CN117171238A (zh) * | 2023-11-02 | 2023-12-05 | 菲特(天津)检测技术有限公司 | 一种大数据算法平台和数据挖掘方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120023062A1 (en) * | 2010-01-15 | 2012-01-26 | Telcordia Technologies, Inc. | Robust information fusion methods for decision making for multisource data |
CN102915482A (zh) * | 2012-09-25 | 2013-02-06 | 浙江图讯科技有限公司 | 一种用于面向工矿企业云服务平台安全生产过程控制与管理方法 |
CN102930372A (zh) * | 2012-09-25 | 2013-02-13 | 浙江图讯科技有限公司 | 一种用于面向工矿企业安全生产云服务平台系统的关联规则的数据分析方法 |
US20150254330A1 (en) * | 2013-04-11 | 2015-09-10 | Oracle International Corporation | Knowledge-intensive data processing system |
CN107302583A (zh) * | 2017-07-10 | 2017-10-27 | 湖南智慧畅行交通科技有限公司 | 一种基于Kylo实现数据集成的自动化运营管理方法 |
US20180329964A1 (en) * | 2017-05-09 | 2018-11-15 | Jpmorgan Chase Bank, N.A. | Generic entry and exit network interface system and method |
CN110188102A (zh) * | 2019-05-24 | 2019-08-30 | 重庆邮电大学 | 一种工厂多源能耗数据并行处理系统及方法 |
CN110941612A (zh) * | 2019-11-19 | 2020-03-31 | 上海交通大学 | 基于关联数据的自治数据湖构建系统及方法 |
CN111177244A (zh) * | 2019-12-24 | 2020-05-19 | 四川文轩教育科技有限公司 | 面向多个异构数据库的数据关联分析方法 |
CN111460236A (zh) * | 2020-04-26 | 2020-07-28 | 天津七一二通信广播股份有限公司 | 基于数据湖的大数据采集治理快速检索系统 |
CN111768870A (zh) * | 2020-09-03 | 2020-10-13 | 国网浙江省电力有限公司营销服务中心 | 一种端到端数据可视化分析方法、装置和可读储存介质 |
CN111897875A (zh) * | 2020-07-31 | 2020-11-06 | 平安科技(深圳)有限公司 | 城市多源异构数据的融合处理方法、装置和计算机设备 |
CN111984709A (zh) * | 2019-05-23 | 2020-11-24 | 云南青年学园科技有限公司 | 可视化大数据中台-资源调用和算法 |
CN112000656A (zh) * | 2020-09-01 | 2020-11-27 | 北京天源迪科信息技术有限公司 | 基于元数据的智能化数据清洗方法及装置 |
-
2020
- 2020-12-29 CN CN202011592682.1A patent/CN112540975B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120023062A1 (en) * | 2010-01-15 | 2012-01-26 | Telcordia Technologies, Inc. | Robust information fusion methods for decision making for multisource data |
CN102915482A (zh) * | 2012-09-25 | 2013-02-06 | 浙江图讯科技有限公司 | 一种用于面向工矿企业云服务平台安全生产过程控制与管理方法 |
CN102930372A (zh) * | 2012-09-25 | 2013-02-13 | 浙江图讯科技有限公司 | 一种用于面向工矿企业安全生产云服务平台系统的关联规则的数据分析方法 |
US20150254330A1 (en) * | 2013-04-11 | 2015-09-10 | Oracle International Corporation | Knowledge-intensive data processing system |
US20180329964A1 (en) * | 2017-05-09 | 2018-11-15 | Jpmorgan Chase Bank, N.A. | Generic entry and exit network interface system and method |
CN107302583A (zh) * | 2017-07-10 | 2017-10-27 | 湖南智慧畅行交通科技有限公司 | 一种基于Kylo实现数据集成的自动化运营管理方法 |
CN111984709A (zh) * | 2019-05-23 | 2020-11-24 | 云南青年学园科技有限公司 | 可视化大数据中台-资源调用和算法 |
CN110188102A (zh) * | 2019-05-24 | 2019-08-30 | 重庆邮电大学 | 一种工厂多源能耗数据并行处理系统及方法 |
CN110941612A (zh) * | 2019-11-19 | 2020-03-31 | 上海交通大学 | 基于关联数据的自治数据湖构建系统及方法 |
CN111177244A (zh) * | 2019-12-24 | 2020-05-19 | 四川文轩教育科技有限公司 | 面向多个异构数据库的数据关联分析方法 |
CN111460236A (zh) * | 2020-04-26 | 2020-07-28 | 天津七一二通信广播股份有限公司 | 基于数据湖的大数据采集治理快速检索系统 |
CN111897875A (zh) * | 2020-07-31 | 2020-11-06 | 平安科技(深圳)有限公司 | 城市多源异构数据的融合处理方法、装置和计算机设备 |
CN112000656A (zh) * | 2020-09-01 | 2020-11-27 | 北京天源迪科信息技术有限公司 | 基于元数据的智能化数据清洗方法及装置 |
CN111768870A (zh) * | 2020-09-03 | 2020-10-13 | 国网浙江省电力有限公司营销服务中心 | 一种端到端数据可视化分析方法、装置和可读储存介质 |
Non-Patent Citations (5)
Title |
---|
MIYI CHUNG ET AL.: "Querying Multiple Data Sources via an Object-Oriented Spatial Query Interface and Framework", 《JOURNAL OF VISUAL LANGUAGES AND COMPUTING》 * |
ZHIJIE GUAN ET AL.: "Grid-Flow: a Grid-enabled scientific workflow system with a Petri-net-based interface", 《CONCURRENDY AND COMPUTATION: PRACTICE AND EXPERIENCE》 * |
张明华 等: "多源异构海量海洋数据综合管理平台构建研究", 《海洋科学》 * |
曾宇涛 等: "基于多维信息融合的知识库问答实体链接", 《模式识别与人工智能》 * |
滕东兴 等: "一种面向关系型数据的可视质量分析方法", 《软件学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641628A (zh) * | 2021-08-13 | 2021-11-12 | 中国联合网络通信集团有限公司 | 数据质量检测方法、装置、设备及存储介质 |
CN113641628B (zh) * | 2021-08-13 | 2023-06-16 | 中国联合网络通信集团有限公司 | 数据质量检测方法、装置、设备及存储介质 |
CN115718745A (zh) * | 2023-01-09 | 2023-02-28 | 中科金瑞(北京)大数据科技有限公司 | 基于dag图任务调度的数据质量检测方法和装置 |
CN117171238A (zh) * | 2023-11-02 | 2023-12-05 | 菲特(天津)检测技术有限公司 | 一种大数据算法平台和数据挖掘方法 |
CN117171238B (zh) * | 2023-11-02 | 2024-02-23 | 菲特(天津)检测技术有限公司 | 一种大数据算法平台和数据挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112540975B (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112540975B (zh) | 一种基于petri网的多源异构数据质量检测方法及系统 | |
CN108038222B (zh) | 用于信息系统建模和数据访问的实体-属性框架的系统 | |
US20190121807A1 (en) | Computerized tools to develop and manage data-driven projects collaboratively via a networked computing platform and collaborative datasets | |
CN111159157B (zh) | 一种企业报表数据的指标化处理方法及装置 | |
CN111984709A (zh) | 可视化大数据中台-资源调用和算法 | |
CN112364046A (zh) | 一种基于知识图谱的异构环境下主数据管理方法 | |
CN114218218A (zh) | 基于数据仓库的数据处理方法、装置、设备及存储介质 | |
CN113886606B (zh) | 一种基于知识图谱的数据标注方法、装置、介质及设备 | |
EP4191484A1 (en) | Automatic machine learning data modelling in a low-latency data access and analysis system | |
CN115934856A (zh) | 一种构造综合能源数据资产的方法和系统 | |
CN113204329A (zh) | 统一数据模型驱动业务应用的控制方法及其应用系统 | |
CN115080765A (zh) | 一种航天质量知识图谱构建方法、系统、介质和设备 | |
CN115718472A (zh) | 水电机组故障扫描诊断方法 | |
CN115564071A (zh) | 一种电力物联网设备数据标签生成方法及系统 | |
CN111861825A (zh) | 一种轨道交通行业职业培训体系模型构建方法及系统 | |
CN114661832A (zh) | 一种基于数据质量的多模态异构数据存储方法及系统 | |
CN113742325A (zh) | 数据仓库建设方法、装置、系统、电子设备及存储介质 | |
CN111784192A (zh) | 一种基于动态演化的工业园区应急预案可执行化系统 | |
CN115827885A (zh) | 一种运维知识图谱的构建方法、装置及电子设备 | |
CN112486998B (zh) | 一种基于bpmn的微服务工作流程导入方法 | |
CN104346393A (zh) | 原子级数据元素模型的建模方法 | |
CN113342807A (zh) | 一种基于混合数据库的知识图谱及其构建方法 | |
CN113434658A (zh) | 火电机组运行问答生成方法、系统、设备及可读存储介质 | |
CN110262973B (zh) | 数据养成维护方法、装置、设备及计算机存储介质 | |
CN112699117A (zh) | 基于物联网的数据传输系统、数据传输方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 450000 8 / F, creative island building, no.6, Zhongdao East Road, Zhengdong New District, Zhengzhou City, Henan Province Applicant after: China Science and technology big data Research Institute Address before: 450000 8 / F, creative island building, no.6, Zhongdao East Road, Zhengdong New District, Zhengzhou City, Henan Province Applicant before: Big data Research Institute Institute of computing technology Chinese Academy of Sciences |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |