CN112395325A - 一种数据治理方法、系统、终端设备及存储介质 - Google Patents
一种数据治理方法、系统、终端设备及存储介质 Download PDFInfo
- Publication number
- CN112395325A CN112395325A CN202011368848.1A CN202011368848A CN112395325A CN 112395325 A CN112395325 A CN 112395325A CN 202011368848 A CN202011368848 A CN 202011368848A CN 112395325 A CN112395325 A CN 112395325A
- Authority
- CN
- China
- Prior art keywords
- data
- metadata
- rule
- standard
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000013523 data management Methods 0.000 title abstract description 34
- 238000013499 data model Methods 0.000 claims abstract description 67
- 238000013441 quality evaluation Methods 0.000 claims abstract description 27
- 230000006978 adaptation Effects 0.000 claims abstract description 12
- 238000012795 verification Methods 0.000 claims abstract description 11
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000013515 script Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 6
- 230000010076 replication Effects 0.000 claims description 3
- 238000001303 quality assessment method Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 abstract description 12
- 239000002699 waste material Substances 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 16
- 230000000007 visual effect Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000007726 management method Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2291—User-Defined Types; Storage management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据治理方法、系统、终端设备及存储介质,所述方法包括通过数据中台的数据适配接口连通若干个异构数据源,采集待处理的业务数据;根据待处理的业务数据构建生成为对应的数据模型;在数据中台通过用户预设的数据标准定义基础信息后,根据业务条件建立对应的数据元以及数据元标准规则;将数据模型中的所有字段级别的元数据与数据标准元规则进行一一绑定;将数据模型中的所有元数据根据所绑定的数据元标准规则进行匹配校验,得到对应的质量评估结果。本发明能够通过定义质量规则和映射质量规则,自动地批量完成数据治理,提高数据治理的效率和可靠性,减少开发人员的工作量和人工成本,避免造成时间和资源的浪费。
Description
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种数据治理方法、系统、终端设备及存储介质。
背景技术
随着大数据技术的快速发展,越来越多的企业开始关注自身的数据问题,开始在企业数据管理和数据规划中使用一定手段进行数据管控,实现大数据的治理,得到治理结果,相关用户可以根据治理结果进行相关的数据优化调整操作。
现有基于结构化数据的数据治理方法的步骤主要包括输入原始数据、对原始数据进行治理、治理后的数据融合和输出结果数据。通过相关数据治理开发人员按照治理规则手工开发数据治理脚本,然后通过该治理脚本对数据进行治理。
但是,在对现有技术的研究与实践的过程中,本发明的发明人发现,现有技术由于需要相关开发人员通过人工方式开发相应的数据治理脚本,不仅增加了开发人员的工作量和人工成本,数据治理效率低下,而且容易产生报错的问题;在数据治理过程中,现有的数据治理方式在原始数据和目标数据一般为单映射(1对1映射),但在面对多对多映射时,需要进行映射和规则转换的工作量就会根据原始表数据表的数量而大幅增加,从而造成巨大的时间和资源浪费;同时,现有技术在根据数据治理结果对数据进行校验或调整时,质量规则众多且标准不一,不利于数据的统一校验,且效率较低。因此,亟需能够克服至少上述一种缺陷的数据治理方法。
发明内容
本发明实施例所要解决的技术问题在于,提供一种数据治理方法,能够自动进行批量数据治理。
为解决上述问题,本发明的一个实施例提供了一种数据治理方法,至少包括如下步骤:
通过数据中台的数据适配接口连通若干个异构数据源,并采集待处理的业务数据;
根据所述待处理的业务数据构建生成为对应的数据模型;
在数据中台通过用户预设的数据标准定义基础信息后,根据业务条件建立对应的数据元以及数据元标准规则;
将所述数据模型中的所有字段级别的元数据与所述数据标准元规则进行一一对应绑定;
将所述数据模型中的每一行每一列的元数据根据所绑定的数据元标准规则进行匹配校验,得到对应的质量评估结果。
进一步地,所述数据治理方法,还包括:
在采集待处理的业务数据之后,对所述待处理的业务数据进行数据转换、数据清洗和数据融合。
进一步地,所述数据元标准规则,包括基础规则、数据格式规则、数据范围规则和表达式规则。
进一步地,所述构建生成为对应的数据模型,具体包括:
通过库表复制的方式选择源库中的表模型,以1:1比例同步至新的数据模型;
通过数据中台的SQL脚本的执行结果生成数据模型的结构;
通过文件数据集的方式成数据模型的结构;
根据数据中台预先设计的业务流程的最终输出为数据模型的结构。
进一步地,所述质量评估结果,包括:数据表模型的基本概况信息、正异常数据占比、异常数据排行、元数据字段质量信息以及环比统计信息。
进一步地,所述数据治理方法,还包括:
根据所述质量评估结果对所述待处理的业务数据进行数据修正。
进一步地,所述数据治理方法,还包括:
在完成所述匹配校验后,根据所述质量评估结果进行数据分析,并生成对应的报表。
本发明的一个实施例提供了一种数据治理系统,包括:
数据采集模块,用于通过数据中台的数据适配接口连通若干个异构数据源,并采集待处理的业务数据;
数据模型构建模块,用于根据所述待处理的业务数据构建生成为对应的数据模型;
标准规则建立模块,用于在数据中台通过用户预设的数据标准定义基础信息后,根据业务条件建立对应的数据元以及数据元标准规则;
标准规则绑定模块,用于绑定将所述数据模型中的所有字段级别的元数据与所述数据标准元规则进行一一对应绑定;
匹配校验模块,用于将所述数据模型中的每一行每一列的元数据根据所绑定的数据元标准规则进行匹配校验,得到对应的质量评估结果。
本发明的一个实施例提供了一种数据治理的终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的数据治理方法。
本发明的一个实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的数据治理方法。
实施本发明实施例,具有如下有益效果:
本发明实施例提供的一种数据治理方法、系统、终端设备及存储介质,所述方法至少包括如下步骤:通过数据中台的数据适配接口连通若干个异构数据源,并采集待处理的业务数据;根据所述待处理的业务数据构建生成为对应的数据模型;在数据中台通过用户预设的数据标准定义基础信息后,根据业务条件建立对应的数据元以及数据元标准规则;将所述数据模型中的所有字段级别的元数据与所述数据标准元规则进行一一对应绑定;将所述数据模型中的每一行每一列的元数据根据所绑定的数据元标准规则进行匹配校验,得到对应的质量评估结果。
与现有技术相比,本发明实施例能够通过定义质量规则和映射质量规则,自动地批量完成数据治理,提高数据治理的效率和可靠性,减少开发人员的工作量和人工成本,避免造成时间和资源的浪费;在面对数据量级较大的数据时,通过对数据分批量进行治理,提高治理效率的同时减缓服务器的运行压力;同时,根据质量评估结果对数据进行分析和修正,并生成可视化的报表,以使用户快速有效查看相关数据统计信息,及时修正相关错误数据,进一步提高数据治理效率。
附图说明
图1为本发明第一实施例提供的一种数据治理方法的流程示意图;
图2为本发明第一实施例提供的一种数据治理方法的第一种实施方式的流程示意图;
图3为本发明第一实施例提供的一种数据治理方法的第二种实施方式的流程示意图;
图4为本发明第一实施例提供的一种数据治理方法的第三种实施方式的流程示意图;
图5为本发明第二实施例提供的一种数据治理系统的结构示意图;
图6为本发明第二实施例提供的另一种数据治理系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
首先介绍本发明可以提供的应用场景,如通过数据平台进行数据治理。
本发明第一实施例:
请参阅图1-4。
如图1所示,本实施例提供了一种数据治理方法,至少包括如下步骤:
S1、通过数据中台的数据适配接口连通若干个异构数据源,并采集待处理的业务数据。
具体的,对于步骤S1,首先通过数据中台的数据适配接口连同多种异构数据源,从而根据业务场景采集对应的待处理的业务数据。异构数据源包括关系数据库、大数据平台、MPP数据库、文件数据库、NO SQL数据库、多维数据库和服务数据库等等。
在具体的实施例中,所述步骤S1提供了数据连接功能,系统支持在浏览器中可视化配置数据连接,支持主流关系数据库和大数据平台;支持一键将数据连接设置为大数据库,同时实现对大数据库原有数据资产的自动识别及归入数据文件夹中进行可视化管理。
S2、根据所述待处理的业务数据构建生成为对应的数据模型。
具体的,对于步骤S2,在数据平台采集对应的待处理的业务数据后,根据业务场景进行流程组合,并通过可视化方式建立库表数据集、文件数据集、自助数据集和SQL数据集,从而构建满足业务需求对应的数据模型。
其中,在构建数据模型后,数据平台还通过数据比对和日志监控等方式进行数据的同步及更新,支持实时、延时和周期运行任务,从而为用户提供以低成本全面建立基础数据层的功能。
在具体的实施例中,所述步骤S2提供的数据建模功能,支持在浏览器中以可视化方式一次复制多个数据源的多张数据表结构和数据到大数据库;支持断点续传;可以在浏览器中使用图形化流程设计器建立自助数据集,支持使用鼠标拖拽设计完整的数据加工流程,能将多个数据源与大数据库中的数据聚合为一个模型;系统提供字段选择、数据过滤、剪切字符串、行列互转、去除重复记录、值映射、计算器、字符串替换、合并记录等转换功能;支持在流程界面上预览各个处理环节输出的数据结果。
S3、在数据中台通过用户预设的数据标准定义基础信息后,根据业务条件建立对应的数据元以及数据元标准规则。
具体的,对于步骤S3,在构建数据模型后,通过数据中台新增用户预设的数据标准定义基础信息后,根据实际的业务条件建立数据元及其数据元标准规则。
S4、将所述数据模型中的所有字段级别的元数据与所述数据标准元规则进行一一对应绑定。
具体的,对于步骤S4,构建的数据模型落地后,包含有字段级别的元数据,将所有的字段级别的元数据与上一步骤中的数据元标准规则一一绑定。
S5、将所述数据模型中的每一行每一列的元数据根据所绑定的数据元标准规则进行匹配校验,得到对应的质量评估结果。
具体的,对于步骤S5,在数据模型的每个字段级别的元数据与数据元标准规则一一对应绑定后,即可进行质量校验。数据模型中的每一行每一列数据都会根据所绑定的标准规则进行匹配校验,汇总每个元数据的校验结果,生成总的质量评估结果。
在一种优选的实施例中,所述质量评估结果,包括:数据表模型的基本概况信息、正异常数据占比、异常数据排行、元数据字段质量信息以及环比统计信息。
在一种优选的实施例中,如图2所示,所述数据治理方法,还包括:
在采集待处理的业务数据之后,对所述待处理的业务数据进行数据转换、数据清洗和数据融合。
具体的,在数据平台采集所需的待处理的业务数据之后,还需要对业务数据进行二次处理,包括数据转换、数据清洗和数据融合。其中,数据转换和数据清洗主要以流程可视化的设计呈现,每个功能组件处理好数据后,将数据通过内存队列传递到下一步骤中处理。数据融合则是通过各种数据处理的功能组件,通过流程组合使用,最终集成得到用户业务需要对应的集成数据。
在一种优选的实施例中,所述数据元标准规则,包括基础规则、数据格式规则、数据范围规则和表达式规则。
具体的,数据平台将数据治理的规则划分为基础规则、数据范围规则、表达式规则和数据格式规则,并包含在数据标准中,为数据质量校验提供技术逻辑。
在一种优选的实施例中,所述构建生成为对应的数据模型,具体包括:
通过库表复制的方式选择源库中的表模型,以1:1比例同步至新的数据模型;
通过数据中台的SQL脚本的执行结果生成数据模型的结构;
通过文件数据集的方式成数据模型的结构;
根据数据中台预先设计的业务流程的最终输出为数据模型的结构。
具体的,数据平台提供库表复制、SQL数据集、文件数据集以及自助流程设计四种方式生成数据模型;库表复制:选择源库中的表模型,1:1同步新的数据模型;SQL数据集:通过SQL脚本的执行结果生成模型结构;文件数据集:以Excel为例,以列头作为模型结构生成;自助流程:根据流程设计的最终输出为数据模型结构。数据模型结构没有限定,通常指数据采集中所对应的表结构。
在一种优选的实施例中,如图3所示,所述数据治理方法,还包括:
根据所述质量评估结果对所述待处理的业务数据进行数据修正。
具体的,在完成质量评估后,根据质量评估结果中需要分发给各业务部门进行人工核对的数据,通过以导出excel或生成数据库表的形式输出问题数据及其具体问题,并接收加载处理结果,以使对业务数据进行数据修正。
在一种优选的实施例中,如图4所示,所述数据治理方法,还包括:
在完成所述匹配校验后,根据所述质量评估结果进行数据分析,并生成对应的报表。
具体的,本实施例提供的数据治理方法,还用于根据所述质量评估结果进行数据分析,包括数据质量分析和数据血缘分析。
其中,质量监控分析通过对质量规则校验的结果进行监控和分析,校验结果能够准确定位到数据项。可对表和字段进行问题统计分析,可灵活查看某类问题下有哪些数据,以及某一数据项存在哪些问题。并能够对质量问题进行及时报警,避免数据污染的发生,造成成本或业务损失。定期生成可视化的数据质量分析报告,在此基础上,能够根据报告结果,形成对问题数据的质量提高建议。
数据血缘分析包括血统分析、影响性分析和全链分析,其中,血统分析能够以图形化方式描述数据起源以及到当前位置完整路径描述,帮助用户分析信息的使过程并且追溯在每一个节点上的特定用途。支持从字段、表两个层面分析数据血统。影响性分析能够以图形化方式描述引用待分析对象的所有资源,帮助用户在某些数据发生变化或者需要修改时评估其影响范围。支持从字段、表两个层面分析数据影响性。全链分析能够以图形化方式对分析对象的来源和去向进行全路径展现分析,帮助用户追溯数据来源,评估变化影响范围。支持从字段、表两个层面进行全链分析。通过数据血缘分析帮助用户高效定位缺陷数据来源、清理无用数据、评估数据变化影响范围和数据价值。
在具体的实施例中,所述数据治理方法,还提供了数据质量管理功能,系统支持在数据标准中设置质量规则,包括基础规则、数据格式、数据范围、表达式;支持标准关联映射元数据,设置质量校验任务;支持对质量规则校验的结果进行监控和分析,包括查看任意问题数据项所违反的规则,查看任意规则校验出的问题数据;可以通过可视化方式直接操作修改、删除、导出发现的问题数据。
在经过质量校验后,系统将数据刷入大数据检索引擎,根据关联的元数据规则校验数据,并打上标识索引。系统优化数据表格的分页机制,整合原数据、校验索引以及异常信息的数据结构,使海量数据以通用表格的可视化形式秒级展示。数据表格根据异常索引,以特殊样式展示数据的异常状态并提示异常信息,异常数据可在单元格直接修改再反馈到目标数据库。
本实施例提供的一种数据治理方法,至少包括如下步骤:通过数据中台的数据适配接口连通若干个异构数据源,并采集待处理的业务数据;根据所述待处理的业务数据构建生成为对应的数据模型;在数据中台通过用户预设的数据标准定义基础信息后,根据业务条件建立对应的数据元以及数据元标准规则;将所述数据模型中的所有字段级别的元数据与所述数据标准元规则进行一一对应绑定;将所述数据模型中的每一行每一列的元数据根据所绑定的数据元标准规则进行匹配校验,得到对应的质量评估结果。
本实施例能够通过定义质量规则和映射质量规则,自动地批量完成数据治理,提高数据治理的效率和可靠性,减少开发人员的工作量和人工成本,避免造成时间和资源的浪费;在面对数据量级较大的数据时,通过对数据分批量进行治理,提高治理效率的同时减缓服务器的运行压力;同时,根据质量评估结果对数据进行分析和修正,并生成可视化的报表,以使用户快速有效查看相关数据统计信息,及时修正相关错误数据,进一步提高数据治理效率。
本发明第二实施例:
请参阅图5-6。
如图5所示,本实施例提供了一种数据治理系统,包括:
数据采集模块100,用于通过数据中台的数据适配接口连通若干个异构数据源,并采集待处理的业务数据。
具体的,对于数据采集模块100,首先通过数据中台的数据适配接口连同多种异构数据源,从而根据业务场景采集对应的待处理的业务数据。异构数据源包括关系数据库、大数据平台、MPP数据库、文件数据库、NO SQL数据库、多维数据库和服务数据库等等。
在具体的实施例中,所述数据采集模块100还提供了数据连接功能,系统支持在浏览器中可视化配置数据连接,支持主流关系数据库和大数据平台;支持一键将数据连接设置为大数据库,同时实现对大数据库原有数据资产的自动识别及归入数据文件夹中进行可视化管理。
数据模型构建模块200,用于根据所述待处理的业务数据构建生成为对应的数据模型。
具体的,对于数据模型构建模块200,在数据平台采集对应的待处理的业务数据后,根据业务场景进行流程组合,并通过可视化方式建立库表数据集、文件数据集、自助数据集和SQL数据集,从而构建满足业务需求对应的数据模型。
在具体的实施例中,所述数据模型构建模块200提供的数据建模功能,支持在浏览器中以可视化方式一次复制多个数据源的多张数据表结构和数据到大数据库;支持断点续传;可以在浏览器中使用图形化流程设计器建立自助数据集,支持使用鼠标拖拽设计完整的数据加工流程,能将多个数据源与大数据库中的数据聚合为一个模型;系统提供字段选择、数据过滤、剪切字符串、行列互转、去除重复记录、值映射、计算器、字符串替换、合并记录等转换功能;支持在流程界面上预览各个处理环节输出的数据结果。
标准规则建立模块300,用于在数据中台通过用户预设的数据标准定义基础信息后,根据业务条件建立对应的数据元以及数据元标准规则。
具体的,对于标准规则建立模块300,在构建数据模型后,通过数据中台新增用户预设的数据标准定义基础信息后,根据实际的业务条件建立数据元及其数据元标准规则。
标准规则绑定模块400,用于绑定将所述数据模型中的所有字段级别的元数据与所述数据标准元规则进行一一对应绑定。
具体的,对于标准规则绑定模块400,构建的数据模型落地后,包含有字段级别的元数据,将所有的字段级别的元数据与数据元标准规则一一绑定。
匹配校验模块500,用于将所述数据模型中的每一行每一列的元数据根据所绑定的数据元标准规则进行匹配校验,得到对应的质量评估结果。
具体的,对于匹配校验模块500,在数据模型的每个字段级别的元数据与数据元标准规则一一对应绑定后,即可进行质量校验。数据模型中的每一行每一列数据都会根据所绑定的标准规则进行匹配校验,汇总每个元数据的校验结果,生成总的质量评估结果。
在优选的实施例中,如图6所示,所述数据治理系统,还包括:
数据二次处理模块,用于在采集待处理的业务数据之后,对所述待处理的业务数据进行数据转换、数据清洗和数据融合。
数据修正模块,用于根据所述质量评估结果对所述待处理的业务数据进行数据修正。
数据分析模块,用于在完成所述匹配校验后,根据所述质量评估结果进行数据分析,并生成对应的报表。
在具体的实施例中,所述数据治理系统,还提供了数据质量管理模块,用于支持系统在数据标准中设置质量规则,包括基础规则、数据格式、数据范围、表达式;支持标准关联映射元数据,设置质量校验任务;支持对质量规则校验的结果进行监控和分析,包括查看任意问题数据项所违反的规则,查看任意规则校验出的问题数据;可以通过可视化方式直接操作修改、删除、导出发现的问题数据。
在经过质量校验后,系统将数据刷入大数据检索引擎,根据关联的元数据规则校验数据,并打上标识索引。系统优化数据表格的分页机制,整合原数据、校验索引以及异常信息的数据结构,使海量数据以通用表格的可视化形式秒级展示。数据表格根据异常索引,以特殊样式展示数据的异常状态并提示异常信息,异常数据可在单元格直接修改再反馈到目标数据库。
本实施例提供的一种数据治理系统,至少包括:数据采集模块,用于通过数据中台的数据适配接口连通若干个异构数据源,并采集待处理的业务数据;数据模型构建模块,用于根据所述待处理的业务数据构建生成为对应的数据模型;标准规则建立模块,用于在数据中台通过用户预设的数据标准定义基础信息后,根据业务条件建立对应的数据元以及数据元标准规则;标准规则绑定模块,用于绑定将所述数据模型中的所有字段级别的元数据与所述数据标准元规则进行一一对应绑定;匹配校验模块,用于将所述数据模型中的每一行每一列的元数据根据所绑定的数据元标准规则进行匹配校验,得到对应的质量评估结果。
本实施例能够通过定义质量规则和映射质量规则,自动地批量完成数据治理,提高数据治理的效率和可靠性,减少开发人员的工作量和人工成本,避免造成时间和资源的浪费;在面对数据量级较大的数据时,通过对数据分批量进行治理,提高治理效率的同时减缓服务器的运行压力;同时,根据质量评估结果对数据进行分析和修正,并生成可视化的报表,以使用户快速有效查看相关数据统计信息,及时修正相关错误数据,进一步提高数据治理效率。
本发明实施例还提供了一种数据治理的终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的数据治理方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的数据治理方法。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的系统实施例仅仅是示意性的,例如所述模块的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变形,这些改进和变形也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
Claims (10)
1.一种数据治理方法,其特征在于,至少包括如下步骤:
通过数据中台的数据适配接口连通若干个异构数据源,并采集待处理的业务数据;
根据所述待处理的业务数据构建生成为对应的数据模型;
在数据中台通过用户预设的数据标准定义基础信息后,根据业务条件建立对应的数据元以及数据元标准规则;
将所述数据模型中的所有字段级别的元数据与所述数据标准元规则进行一一对应绑定;
将所述数据模型中的每一行每一列的元数据根据所绑定的数据元标准规则进行匹配校验,得到对应的质量评估结果。
2.根据权利要求1所述的数据治理方法,其特征在于,还包括:
在采集待处理的业务数据之后,对所述待处理的业务数据进行数据转换、数据清洗和数据融合。
3.根据权利要求1所述的数据治理方法,其特征在于,所述数据元标准规则,包括基础规则、数据格式规则、数据范围规则和表达式规则。
4.根据权利要求1所述的数据治理方法,其特征在于,所述构建生成为对应的数据模型,具体包括:
通过库表复制的方式选择源库中的表模型,以1:1比例同步至新的数据模型;
通过数据中台的SQL脚本的执行结果生成数据模型的结构;
通过文件数据集的方式成数据模型的结构;
根据数据中台预先设计的业务流程的最终输出为数据模型的结构。
5.根据权利要求1所述的数据治理方法,其特征在于,所述质量评估结果,包括:数据表模型的基本概况信息、正异常数据占比、异常数据排行、元数据字段质量信息以及环比统计信息。
6.根据权利要求1所述的数据治理方法,其特征在于,还包括:
根据所述质量评估结果对所述待处理的业务数据进行数据修正。
7.根据权利要求1所述的数据治理方法,其特征在于,还包括:
在完成所述匹配校验后,根据所述质量评估结果进行数据分析,并生成对应的报表。
8.一种数据治理系统,其特征在于,包括:
数据采集模块,用于通过数据中台的数据适配接口连通若干个异构数据源,并采集待处理的业务数据;
数据模型构建模块,用于根据所述待处理的业务数据构建生成为对应的数据模型;
标准规则建立模块,用于在数据中台通过用户预设的数据标准定义基础信息后,根据业务条件建立对应的数据元以及数据元标准规则;
标准规则绑定模块,用于绑定将所述数据模型中的所有字段级别的元数据与所述数据标准元规则进行一一对应绑定;
匹配校验模块,用于将所述数据模型中的每一行每一列的元数据根据所绑定的数据元标准规则进行匹配校验,得到对应的质量评估结果。
9.一种数据治理的终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的数据治理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的数据治理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011368848.1A CN112395325A (zh) | 2020-11-27 | 2020-11-27 | 一种数据治理方法、系统、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011368848.1A CN112395325A (zh) | 2020-11-27 | 2020-11-27 | 一种数据治理方法、系统、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112395325A true CN112395325A (zh) | 2021-02-23 |
Family
ID=74604765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011368848.1A Pending CN112395325A (zh) | 2020-11-27 | 2020-11-27 | 一种数据治理方法、系统、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395325A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800046A (zh) * | 2021-02-26 | 2021-05-14 | 上海帕科信息科技有限公司 | 一种应用于领域数据治理的人工智能平台 |
CN112905625A (zh) * | 2021-03-09 | 2021-06-04 | 山东兆物网络技术股份有限公司 | 基于推荐机制的数据处理规则的快速配置方法 |
CN113259154A (zh) * | 2021-04-20 | 2021-08-13 | 广州骏伯网络科技有限公司 | 中台数据校验通知方法、装置、计算机设备和存储介质 |
CN113268894A (zh) * | 2021-07-20 | 2021-08-17 | 国能信控互联技术有限公司 | 一种基于数据中台的火电生产数据治理方法和系统 |
CN113468037A (zh) * | 2021-07-26 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种数据质量评估方法、装置、介质和电子设备 |
CN113535701A (zh) * | 2021-07-20 | 2021-10-22 | 北京达佳互联信息技术有限公司 | 数仓质量稽查方法、装置、介质及产品 |
CN113535707A (zh) * | 2021-08-05 | 2021-10-22 | 南京华飞数据技术有限公司 | 一种基于大数据进行人员信息数据治理的方法 |
CN113537943A (zh) * | 2021-07-30 | 2021-10-22 | 苏州工业园区测绘地理信息有限公司 | 一种通用工作流引擎及其构建方法 |
CN113722302A (zh) * | 2021-07-28 | 2021-11-30 | 浙江大华技术股份有限公司 | 一种数据治理方法与装置 |
CN113836126A (zh) * | 2021-09-22 | 2021-12-24 | 上海妙一生物科技有限公司 | 一种数据清洗方法、装置、设备及存储介质 |
CN113871018A (zh) * | 2021-10-21 | 2021-12-31 | 卫宁健康科技集团股份有限公司 | 基于元数据模型的医疗数据治理方法、系统、计算机设备 |
CN114417448A (zh) * | 2022-04-01 | 2022-04-29 | 创业慧康科技股份有限公司 | 一种基于物联网的数据标准模型设计系统及方法 |
CN114490602A (zh) * | 2022-01-10 | 2022-05-13 | 杭州数查科技有限公司 | 一种基于数据分析的多维数据管理方法和数据库系统 |
CN114546998A (zh) * | 2022-01-13 | 2022-05-27 | 北京元年科技股份有限公司 | 数据中台的数据处理方法、装置、设备及可读存储介质 |
CN114780531A (zh) * | 2022-05-07 | 2022-07-22 | 广州光点信息科技股份有限公司 | 一种多功能大数据智能分析服务系统及方法 |
CN115328948A (zh) * | 2022-02-22 | 2022-11-11 | 杭州美创科技有限公司 | 主数据质量管理方法、装置、计算机设备及存储介质 |
CN116226894A (zh) * | 2023-05-10 | 2023-06-06 | 杭州比智科技有限公司 | 一种基于元仓的数据安全治理系统及方法 |
CN116362443A (zh) * | 2023-03-30 | 2023-06-30 | 中国水利水电第三工程局有限公司 | 一种企业信息平台的数据治理方法和装置 |
CN116668325A (zh) * | 2023-05-30 | 2023-08-29 | 广州银汉科技有限公司 | 一种基于一站式服务的游戏数据中台应用系统 |
CN116775241A (zh) * | 2023-05-24 | 2023-09-19 | 北京海致科技集团有限公司 | 满负荷场景下基于图数据血缘的融合调度方法、装置 |
CN116932515A (zh) * | 2023-08-01 | 2023-10-24 | 北京健康在线技术开发有限公司 | 实现生产系统数据解耦的数据治理方法、装置、设备及介质 |
CN117370325A (zh) * | 2023-10-19 | 2024-01-09 | 杭州数亮科技股份有限公司 | 一种基于大数据采集分析的数据中台系统 |
CN117591530A (zh) * | 2024-01-17 | 2024-02-23 | 杭银消费金融股份有限公司 | 一种数据截面处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092694A (zh) * | 2017-04-25 | 2017-08-25 | 杭州数梦工场科技有限公司 | 数据质量的稽查任务生成方法以及装置 |
US20180113898A1 (en) * | 2016-10-25 | 2018-04-26 | Mastercard International Incorporated | Systems and methods for assessing data quality |
CN111159191A (zh) * | 2019-12-30 | 2020-05-15 | 深圳博沃智慧科技有限公司 | 一种数据处理方法、装置和界面 |
CN111400382A (zh) * | 2020-03-03 | 2020-07-10 | 湖南长信畅中科技股份有限公司 | 一种模型驱动的数据集成中间件及实现方法 |
-
2020
- 2020-11-27 CN CN202011368848.1A patent/CN112395325A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180113898A1 (en) * | 2016-10-25 | 2018-04-26 | Mastercard International Incorporated | Systems and methods for assessing data quality |
CN107092694A (zh) * | 2017-04-25 | 2017-08-25 | 杭州数梦工场科技有限公司 | 数据质量的稽查任务生成方法以及装置 |
CN111159191A (zh) * | 2019-12-30 | 2020-05-15 | 深圳博沃智慧科技有限公司 | 一种数据处理方法、装置和界面 |
CN111400382A (zh) * | 2020-03-03 | 2020-07-10 | 湖南长信畅中科技股份有限公司 | 一种模型驱动的数据集成中间件及实现方法 |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800046A (zh) * | 2021-02-26 | 2021-05-14 | 上海帕科信息科技有限公司 | 一种应用于领域数据治理的人工智能平台 |
CN112905625A (zh) * | 2021-03-09 | 2021-06-04 | 山东兆物网络技术股份有限公司 | 基于推荐机制的数据处理规则的快速配置方法 |
CN113259154A (zh) * | 2021-04-20 | 2021-08-13 | 广州骏伯网络科技有限公司 | 中台数据校验通知方法、装置、计算机设备和存储介质 |
CN113268894B (zh) * | 2021-07-20 | 2022-07-05 | 国能信控互联技术有限公司 | 一种基于数据中台的火电生产数据治理方法和系统 |
CN113268894A (zh) * | 2021-07-20 | 2021-08-17 | 国能信控互联技术有限公司 | 一种基于数据中台的火电生产数据治理方法和系统 |
CN113535701A (zh) * | 2021-07-20 | 2021-10-22 | 北京达佳互联信息技术有限公司 | 数仓质量稽查方法、装置、介质及产品 |
CN113535701B (zh) * | 2021-07-20 | 2022-11-04 | 北京达佳互联信息技术有限公司 | 数仓质量稽查方法、装置、介质及产品 |
CN113468037A (zh) * | 2021-07-26 | 2021-10-01 | 浙江大华技术股份有限公司 | 一种数据质量评估方法、装置、介质和电子设备 |
CN113722302B (zh) * | 2021-07-28 | 2024-09-10 | 浙江大华技术股份有限公司 | 一种数据治理方法与装置 |
CN113722302A (zh) * | 2021-07-28 | 2021-11-30 | 浙江大华技术股份有限公司 | 一种数据治理方法与装置 |
CN113537943A (zh) * | 2021-07-30 | 2021-10-22 | 苏州工业园区测绘地理信息有限公司 | 一种通用工作流引擎及其构建方法 |
CN113535707A (zh) * | 2021-08-05 | 2021-10-22 | 南京华飞数据技术有限公司 | 一种基于大数据进行人员信息数据治理的方法 |
CN113836126B (zh) * | 2021-09-22 | 2024-01-30 | 上海妙一生物科技有限公司 | 一种数据清洗方法、装置、设备及存储介质 |
CN113836126A (zh) * | 2021-09-22 | 2021-12-24 | 上海妙一生物科技有限公司 | 一种数据清洗方法、装置、设备及存储介质 |
CN113871018A (zh) * | 2021-10-21 | 2021-12-31 | 卫宁健康科技集团股份有限公司 | 基于元数据模型的医疗数据治理方法、系统、计算机设备 |
CN114490602A (zh) * | 2022-01-10 | 2022-05-13 | 杭州数查科技有限公司 | 一种基于数据分析的多维数据管理方法和数据库系统 |
CN114546998A (zh) * | 2022-01-13 | 2022-05-27 | 北京元年科技股份有限公司 | 数据中台的数据处理方法、装置、设备及可读存储介质 |
CN115328948A (zh) * | 2022-02-22 | 2022-11-11 | 杭州美创科技有限公司 | 主数据质量管理方法、装置、计算机设备及存储介质 |
CN115328948B (zh) * | 2022-02-22 | 2024-06-14 | 杭州美创科技股份有限公司 | 主数据质量管理方法、装置、计算机设备及存储介质 |
CN114417448A (zh) * | 2022-04-01 | 2022-04-29 | 创业慧康科技股份有限公司 | 一种基于物联网的数据标准模型设计系统及方法 |
CN114780531A (zh) * | 2022-05-07 | 2022-07-22 | 广州光点信息科技股份有限公司 | 一种多功能大数据智能分析服务系统及方法 |
CN116362443A (zh) * | 2023-03-30 | 2023-06-30 | 中国水利水电第三工程局有限公司 | 一种企业信息平台的数据治理方法和装置 |
CN116226894A (zh) * | 2023-05-10 | 2023-06-06 | 杭州比智科技有限公司 | 一种基于元仓的数据安全治理系统及方法 |
CN116775241A (zh) * | 2023-05-24 | 2023-09-19 | 北京海致科技集团有限公司 | 满负荷场景下基于图数据血缘的融合调度方法、装置 |
CN116668325A (zh) * | 2023-05-30 | 2023-08-29 | 广州银汉科技有限公司 | 一种基于一站式服务的游戏数据中台应用系统 |
CN116932515A (zh) * | 2023-08-01 | 2023-10-24 | 北京健康在线技术开发有限公司 | 实现生产系统数据解耦的数据治理方法、装置、设备及介质 |
CN117370325A (zh) * | 2023-10-19 | 2024-01-09 | 杭州数亮科技股份有限公司 | 一种基于大数据采集分析的数据中台系统 |
CN117370325B (zh) * | 2023-10-19 | 2024-05-28 | 杭州数亮科技股份有限公司 | 一种基于大数据采集分析的数据中台系统 |
CN117591530A (zh) * | 2024-01-17 | 2024-02-23 | 杭银消费金融股份有限公司 | 一种数据截面处理方法及系统 |
CN117591530B (zh) * | 2024-01-17 | 2024-04-19 | 杭银消费金融股份有限公司 | 一种数据截面处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112395325A (zh) | 一种数据治理方法、系统、终端设备及存储介质 | |
CN112396404A (zh) | 一种数据中台系统 | |
US8671084B2 (en) | Updating a data warehouse schema based on changes in an observation model | |
CN114925045B (zh) | 大数据集成和管理的PaaS平台 | |
CN103390066A (zh) | 一种数据库全局性自动化优化预警装置及其处理方法 | |
CN111651431A (zh) | 一种面向数据库服务的管理流程标准化方法 | |
CN111897866B (zh) | 一种遥感监测图斑对接系统及其使用方法 | |
CN115374102A (zh) | 数据处理方法及系统 | |
CN110942155A (zh) | 一种机器学习引擎的研究方法 | |
CN117033460B (zh) | 一种基于总线矩阵的数据模型自动构建系统及方法 | |
CN107844320A (zh) | 国网软件版本信息管理系统及实现方法 | |
CN114880405A (zh) | 一种基于数据湖的数据处理方法及系统 | |
CN115391082A (zh) | 一种异常数据诊断方法、系统及存储介质 | |
CN115169011A (zh) | 一种飞机装配大纲的编辑系统及应用系统 | |
CN111984826B (zh) | 基于xml的数据自动入库方法、系统、装置和存储介质 | |
WO2024002327A1 (zh) | 一种云监控和分析方法、系统 | |
CN110019118A (zh) | 基于DevOps提升数据库运维效率的系统及其方法 | |
CN117112656A (zh) | 一种科技志愿服务管理的一体化信息智能管理系统及方法 | |
CN112395343B (zh) | 一种基于dsg的字段变更数据采集抽取方法 | |
CN114911773A (zh) | 一种通用元模型设计方法 | |
CN118410106B (zh) | 一种基于时间线映射的跨数据源实时同步方法 | |
CN117472641B (zh) | 数据质量的检测方法、装置、电子设备及存储介质 | |
CN117745239B (zh) | 基于流程引擎的自助式模板定制的在线填报系统及方法 | |
CN117993870B (zh) | 一种基于cad的在线审批流程信息交互方法 | |
CN118796903A (zh) | 一种面向异构数据源的元数据管理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |