CN112416918A - 数据治理系统及其工作方法 - Google Patents
数据治理系统及其工作方法 Download PDFInfo
- Publication number
- CN112416918A CN112416918A CN202011310007.5A CN202011310007A CN112416918A CN 112416918 A CN112416918 A CN 112416918A CN 202011310007 A CN202011310007 A CN 202011310007A CN 112416918 A CN112416918 A CN 112416918A
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- cleaning
- module
- warehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000013523 data management Methods 0.000 title abstract description 14
- 238000004140 cleaning Methods 0.000 claims abstract description 44
- 230000002776 aggregation Effects 0.000 claims abstract description 16
- 238000004220 aggregation Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000007726 management method Methods 0.000 claims abstract description 10
- 238000013499 data model Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 13
- 210000001503 joint Anatomy 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 abstract description 6
- 239000002244 precipitate Substances 0.000 abstract description 4
- 238000013500 data storage Methods 0.000 abstract description 3
- 230000010354 integration Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 239000000047 product Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 241000289581 Macropus sp. Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/244—Grouping and aggregation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明涉及一种数据治理系统及其工作方法,系统包括由下至上依次连接的数据采集层和数据仓库;数据采集层包括:业务数据模块,用于存储本地数据;接口管理模块,用于通过接口连接数据仓库;数据填报模块,用于将数据进行上报;数据爬虫模块,用于对公开数据采集上传至数据仓库;数据仓库包括:由下至上依次连接的业务同步层、细节数据层、数据基础层、数据服务层、应用数据层;本发明提供了从数据采集,清洗,整合,计算和应用的全流程解决方案,并完全符合政务数字化领域现状,数据多方式聚合采集,无论是手工填报,数据接口,离线表格等等均可快速采集入库,形成数据沉淀,能够自动化处理,直接形成高质量数据存储。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种数据治理系统及其工作方法。
背景技术
数据治理,从严格的定义来讲是对组织的大数据管理并利用其进行评估、指导和监督的体系框架。企业通过制定战略方针、建立组织架构、明确职责分工等,实现数据的风险可控、安全合规、绩效提升和价值创造,并提供创新的大数据服务。从个人实践的层面来讲,数据治理是对存量数据治理和增量数据管控的一个过程,对存量数据实现由乱到治、建章立制,对增量数据实现严格把控、行不逾矩的约束。
相关技术中,行业内数据治理产品较多,但是主要是以阿里巴巴,袋鼠云等公司为代表的数据治理平台产品,这类产品主要是提供私有化部署,面向开发人员进行编程处理,有如下一些弊端:
1),很多政府部门自己没有数据库系统,数据都分布各个业务系统、离线的表格文件中,甚至没有相关数据沉淀需要人工录入,这样私有化部署直接对现有数据库的方式就无法进行;
2),虽然有比较全面的数据治理的功能,但是这些功能基本上都是依赖于程序员去根据实际数据的情况将数据进行同步,清洗,转换,整合。平台只是提供了相应的功能套件的集合,可以在一个平台上,完成上述内容,无法做到自动化智能化,而且不同部门或者不同地区相似的流程需要重新开发,边际成本太高
3),无法支持多样的数据采集方式,包括在线的填报,更新,手动的导入等此类数据的流入无法兼容。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种数据治理系统及其工作方法,以解决现有技术中数据治理系统存在多处弊端的问题。
为实现以上目的,本发明采用如下技术方案:一种数据治理系统,包括:由下至上依次连接的数据采集层和数据仓库;所述数据采集层用于对接多种数据源;所述数据仓库用于对数据源的数据进行处理并存储;
所述数据采集层包括:业务数据模块、接口管理模块、数据填报模块以及数据爬虫模块;
所述业务数据模块用于存储本地数据;
所述接口管理模块用于通过接口连接数据仓库;
所述数据填报模块用于将数据进行上报;
所述数据爬虫模块用于对公开数据采集上传至数据仓库;
所述数据仓库包括:由下至上依次连接的业务同步层、细节数据层、数据基础层、数据服务层、应用数据层;
所述业务同步层用于采集多种来源的数据;
所述细节数据层用于通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗;
所述数据基础层用于将清洗后的数据存储至相应的数据表中;
所述数据服务层用于通过预设的通用模板对所述数据表中的数据进行计算并生成指标表;
所述应用数据层用于根据项目、场景的需要对所述指标表中的指标进行粒度聚合,生成项目数据集。
进一步的,所述通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗,包括:
获取业务同步层的数据;
根据预设的数据模型判断数据的类型;
根据数据的类型确定清洗规则;
根据所述清洗规则对数据进行清洗并对清洗后的数据进行数据校验;
将校验合格的数据输入到数据基础层。
进一步的,所述根据数据的类型确定清洗规则,包括:
如果数据达到要求,则将数据直接输入到数据基础层;
否则,根据预设的清洗规则库调用并配置数据清洗规则。
进一步的,所述将清洗后的数据存储至相应的数据表中,包括:
构建主题数据表结构形成主题库数据表字典;
获取细节数据层的数据;
根据所述主题库数据表字典判断数据字段是否含有对应的主题字段;
如果含有,则判断数据字段对应的数据在所述主题数据表中是否存在;
如果存在,则根据预设的数据质量对比模型对数据进行数据质量对比,并根据对比结果保留数据输入至数据服务层,否则直接将数据输入至数据服务层。
进一步的,所述通过预设的通用模板对所述数据表中的数据进行计算并生成指标表,包括:
建立指标计算逻辑映射,生成指标库;
获取数据基础层的数据;
利用所述指标库对所述数据进行指标计算并统一粒度;
将计算后得到的指标以指标表的格式进行存储。
进一步的,所述根据项目、场景的需要对所述指标表中的指标进行粒度聚合,生成项目数据集,包括:
根据项目、场景的需要在所述指标表中抽取数据;
对所述抽取数据进行粒度聚合,生成项目数据集。
进一步的,所述多种来源的数据包括:
采集到的数据、接口流入的数据、爬虫采集的数据。
进一步的,所述清洗方式包括:
空值填充、异常值删除、字段标准化、数值归一化、日期标准化以及电话号码标准化。
进一步的,所述数据表包括:
业务数据表、采集数据表、填报数据表以及爬虫数据表。
本申请实施例提供一种基于上述任一实施例提供的数据治理系统的工作方法,包括:
数据采集层对接多种数据源,采集多种来源的数据;
数据仓库接收多种来源的数据;
通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗;
将清洗后的数据存储至相应的数据表中;
通过预设的通用模板对所述数据表中的数据进行计算并生成指标表;
根据项目、场景的需要对所述指标表中的指标进行粒度聚合,生成项目数据集。
本发明采用以上技术方案,能够达到的有益效果包括:从数据采集,清洗,整合,计算和应用的全流程解决方案,并完全符合政务数字化领域现状,做到如下几点:
数据多方式聚合采集,无论是手工填报,数据接口,离线表格等等均可快速采集入库,形成数据沉淀;
数据处理根据政务项目历史累计经验,智能化判断,自动化处理,直接形成高质量数据存储,无需依照数据情况,一份份数据重新重新编码处理
数据指标和明细自动根据需要聚合计算,并能即时生成事实表提供前端应用或者用户使用,支持多种调用方式或导出。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种数据治理系统的结构示意图;
图2为本发明细节数据层的工作流程示意图;
图3为本发明数据基础层的工作流程示意图;
图4为本发明数据服务层的工作流程示意图;
图5为本发明一种数据治理系统的工作方法的步骤示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
下面结合附图介绍本申请实施例中提供的一个具体的数据治理系统及其工作方法。
如图1所示,本申请实施例中提供的数据治理系统,包括,由下至上依次连接的数据采集层和数据仓库;所述数据采集层用于对接多种数据源;所述数据仓库用于对数据源的数据进行处理并存储;
所述数据采集层包括:业务数据模块、接口管理模块、数据填报模块以及数据爬虫模块;
所述业务数据模块用于存储本地数据;
所述接口管理模块用于通过接口连接数据仓库;
所述数据填报模块用于将数据进行上报;
所述数据爬虫模块用于对公开数据采集上传至数据仓库;
所述数据仓库包括:由下至上依次连接的业务同步层、细节数据层、数据基础层、数据服务层、应用数据层;
所述业务同步层用于采集多种来源的数据;
所述细节数据层用于通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗;
所述数据基础层用于将清洗后的数据存储至相应的数据表中;
所述数据服务层用于通过预设的通用模板对所述数据表中的数据进行计算并生成指标表;
所述应用数据层用于根据项目、场景的需要对所述指标表中的指标进行粒度聚合,生成项目数据集。
优选的,所述多种来源的数据包括:
采集到的数据、接口流入的数据、爬虫采集的数据。
所述清洗方式包括:
空值填充、异常值删除、字段标准化、数值归一化、日期标准化以及电话号码标准化。
所述数据表包括:
业务数据表、采集数据表、填报数据表以及爬虫数据表。
数据治理系统的工作原理为:底层为数据采集层,目的是通过多种的系统能够快速对接各种类型数据源,其中接口管理模块可以将已有接口快速接入数据仓库中,适配多种数据库;数据填报模块是是基于页面端的填报平台,无论是存量数据还是增量数据均可通过此模块上报,直接存入相关数据表中;数据爬虫模块是针对公开数据,快速采集入库使用的模块。
上层为大数据仓库,总共有五层,每一层都负责不一样的流程,只有数据达到相应标准才能进入下一层,直到处理完成,具体如下:
业务同步层(ods层):负责将采集层原有数据,采集到的数据,接口流入的数据,爬虫采集的数据原封不动的进行存储。
细节数据层(dwd层):通过数据模型判断不同来源的数据的情况以及需要的清洗方式并进行清洗,常用的清洗方式如空值填充,异常值删除,字段标准化,数值归一化,日期标准化,电话号码标准化等;
数据基础层(dwb层):根据dwd层清洗好的数据结果,模型自动判断字段是属于什么主题领域的信息,并根据意见好的主题表结构,自动将字段值存储相对应的表中;如果有多个数据表存在相同字段,会使用数据算法取得最靠谱的数据进行填充;
数据服务层(dws层):根据清洗,合并好的各个主题数据库,将一些常用的指标根据常用维度进行计算,指标逻辑可以根据已经沉淀好的通用模板直接调用并自动生成指标表,也可以根据实际需求直接添加;
应用数据层(ads层):根据具体项目,具体场景的需要,将已经计算好的指标根据粒度聚合,结合明细数据直接形成项目数据集,向项目针对性提供。
一些实施例中,如图2所示,所述通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗,包括:
获取业务同步层的数据;
根据预设的数据模型判断数据的类型;
根据数据的类型确定清洗规则;
根据所述清洗规则对数据进行清洗并对清洗后的数据进行数据校验;
将校验合格的数据输入到数据基础层。
优选的,所述根据数据的类型确定清洗规则,包括:
如果数据达到要求,则将数据直接输入到数据基础层;
否则,根据预设的清洗规则库调用并配置数据清洗规则。
具体的,细节数据层的工作流程为:抽取ods层的数据频次根据对应数据源数据更新情况可以自由配置;通过对数据快照的模型分析,快速确定数据类型,以及数据存在的问题;根据当前数据情况,从已有规则库中调用相应规则,并组合形成一个处理任务流;根据任务执行情况,重新校验数据是否达到要求,达到要求后存储至本层相应数据表。
一些实施例中,如图3所示,所述将清洗后的数据存储至相应的数据表中,包括:
构建主题数据表结构形成主题库数据表字典;
获取细节数据层的数据;
根据所述主题库数据表字典判断数据字段是否含有对应的主题字段;
如果含有,则判断数据字段对应的数据在所述主题数据表中是否存在;
如果存在,则根据预设的数据质量对比模型对数据进行数据质量对比,并根据对比结果保留数据输入至数据服务层,否则直接将数据输入至数据服务层。
具体的,数据基础层的工作流程为:根据数据情况,构建好各个数据主题域,以及每个主题域下的数据表结构;从上一层抽取数据之后,判断这部分数据是否在主题库中需要,过滤不需要的数据;需要的数据根据主键判断主题库中是否已经有了这个字段值,比如,根据社会信用代码判断当前的公司法人姓名字段在主题库中是否已存在,若不存在则直接写入;若已经存在一个一样的公司,且法人已经有数据了,就要判断这两个值哪个可信度更高,保留更高的;若一样则无需操作;数据质量对比模型根据历史数据机器学习不断优化,质量特征点包含数据来源权重,文本语义分析,规则校验等等。
一些实施例中,如图4所示,所述通过预设的通用模板对所述数据表中的数据进行计算并生成指标表,包括:
建立指标计算逻辑映射,生成指标库;
获取数据基础层的数据;
利用所述指标库对所述数据进行指标计算并统一粒度;
将计算后得到的指标以指标表的格式进行存储。
具体的,数据服务层的工作流程为:通过预先建立政务常用的指标计算逻辑,计算sql形成通用指标库,提取数据后,直接根据指标库中的计算逻辑进行计算,有什么样的数据就对应算什么指标,并统一粒度,将计算好的指标,按照指标表格式,对号入座,进行存储。
一些实施例中,所述根据项目、场景的需要对所述指标表中的指标进行粒度聚合,生成项目数据集,包括:
根据项目、场景的需要在所述指标表中抽取数据;
对所述抽取数据进行粒度聚合,生成项目数据集。
具体的,应用数据层的工作流程为:在各种政务数字化项目实施过程中,需要展示,使用数据时,可以直接根据dwb,和dws层存储好的数据指标和明细,快速勾选,直接形成可以针对项目或场景应用的项目数据集,通过接口的方式进行调用,需要数据进行离线使用或操作时可以直接进行导出或者在线查看。
如图5所示,本申请实施例提供一个基于上述任一实施例提供的数据治理系统的工作方法,包括:
S501,数据采集层对接多种数据源,采集多种来源的数据;
S502,数据仓库接收多种来源的数据;
S503,通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗;
S504,将清洗后的数据存储至相应的数据表中;
S505,通过预设的通用模板对所述数据表中的数据进行计算并生成指标表;
S506,根据项目、场景的需要对所述指标表中的指标进行粒度聚合,生成项目数据集。
本申请提供的数据治理系统的工作方法的工作原理为,数据采集层对接多种数据源,采集多种来源的数据;数据仓库接收多种来源的数据;通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗;将清洗后的数据存储至相应的数据表中;通过预设的通用模板对所述数据表中的数据进行计算并生成指标表;根据项目、场景的需要对所述指标表中的指标进行粒度聚合,生成项目数据集。
综上所述,本发明提供一种数据治理系统及其工作方法,系统包括由下至上依次连接的数据采集层和数据仓库;数据采集层包括:业务数据模块,用于存储本地数据;接口管理模块,用于通过接口连接数据仓库;数据填报模块,用于将数据进行上报;数据爬虫模块,用于对公开数据采集上传至数据仓库;数据仓库包括:由下至上依次连接的业务同步层、细节数据层、数据基础层、数据服务层、应用数据层;本申请从数据采集,清洗,整合,计算和应用的全流程解决方案,并完全符合政务数字化领域现状,做到如下几点:
数据多方式聚合采集,无论是手工填报,数据接口,离线表格等等均可快速采集入库,形成数据沉淀;
数据处理根据政务项目历史累计经验,智能化判断,自动化处理,直接形成高质量数据存储,无需依照数据情况,一份份数据重新重新编码处理
数据指标和明细自动根据需要聚合计算,并能即时生成事实表提供前端应用或者用户使用,支持多种调用方式或导出。
可以理解的是,上述提供的系统实施例与上述的方法实施例对应,相应的具体内容可以相互参考,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种数据治理系统,其特征在于,包括:由下至上依次连接的数据采集层和数据仓库;所述数据采集层用于对接多种数据源;所述数据仓库用于对数据源的数据进行处理并存储;
所述数据采集层包括:业务数据模块、接口管理模块、数据填报模块以及数据爬虫模块;
所述业务数据模块用于存储本地数据;
所述接口管理模块用于通过接口连接数据仓库;
所述数据填报模块用于将数据进行上报;
所述数据爬虫模块用于对公开数据采集上传至数据仓库;
所述数据仓库包括:由下至上依次连接的业务同步层、细节数据层、数据基础层、数据服务层、应用数据层;
所述业务同步层用于采集多种来源的数据;
所述细节数据层用于通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗;
所述数据基础层用于将清洗后的数据存储至相应的数据表中;
所述数据服务层用于通过预设的通用模板对所述数据表中的数据进行计算并生成指标表;
所述应用数据层用于根据项目、场景的需要对所述指标表中的指标进行粒度聚合,生成项目数据集。
2.根据权利要求1所述的数据治理系统,其特征在于,所述通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗,包括:
获取业务同步层的数据;
根据预设的数据模型判断数据的类型;
根据数据的类型确定清洗规则;
根据所述清洗规则对数据进行清洗并对清洗后的数据进行数据校验;
将校验合格的数据输入到数据基础层。
3.根据权利要求2所述的数据治理系统,其特征在于,所述根据数据的类型确定清洗规则,包括:
如果数据达到要求,则将数据直接输入到数据基础层;
否则,根据预设的清洗规则库调用并配置数据清洗规则。
4.根据权利要求1所述的数据治理系统,其特征在于,所述将清洗后的数据存储至相应的数据表中,包括:
构建主题数据表结构形成主题库数据表字典;
获取细节数据层的数据;
根据所述主题库数据表字典判断数据字段是否含有对应的主题字段;
如果含有,则判断数据字段对应的数据在所述主题数据表中是否存在;
如果存在,则根据预设的数据质量对比模型对数据进行数据质量对比,并根据对比结果保留数据输入至数据服务层,否则直接将数据输入至数据服务层。
5.根据权利要求1所述的数据治理系统,其特征在于,所述通过预设的通用模板对所述数据表中的数据进行计算并生成指标表,包括:
建立指标计算逻辑映射,生成指标库;
获取数据基础层的数据;
利用所述指标库对所述数据进行指标计算并统一粒度;
将计算后得到的指标以指标表的格式进行存储。
6.根据权利要求1所述的数据治理系统,其特征在于,所述根据项目、场景的需要对所述指标表中的指标进行粒度聚合,生成项目数据集,包括:
根据项目、场景的需要在所述指标表中抽取数据;
对所述抽取数据进行粒度聚合,生成项目数据集。
7.根据权利要求1所述的数据治理系统,其特征在于,所述多种来源的数据包括:
采集到的数据、接口流入的数据、爬虫采集的数据。
8.根据权利要求2所述的数据治理系统,其特征在于,所述清洗方式包括:
空值填充、异常值删除、字段标准化、数值归一化、日期标准化以及电话号码标准化。
9.根据权利要求2所述的数据治理系统,其特征在于,所述数据表包括:
业务数据表、采集数据表、填报数据表以及爬虫数据表。
10.一种基于权利要求1至9任一项所述的数据治理系统的工作方法,其特征在于,包括:
数据采集层对接多种数据源,采集多种来源的数据;
数据仓库接收多种来源的数据;
通过预设的数据模型确定多种来源的数据所需的清洗方式并进行清洗;
将清洗后的数据存储至相应的数据表中;
通过预设的通用模板对所述数据表中的数据进行计算并生成指标表;
根据项目、场景的需要对所述指标表中的指标进行粒度聚合,生成项目数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011310007.5A CN112416918B (zh) | 2020-11-20 | 数据治理系统及其工作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011310007.5A CN112416918B (zh) | 2020-11-20 | 数据治理系统及其工作方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112416918A true CN112416918A (zh) | 2021-02-26 |
CN112416918B CN112416918B (zh) | 2024-04-26 |
Family
ID=
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329156A (zh) * | 2022-10-14 | 2022-11-11 | 北京云成金融信息服务有限公司 | 基于历史数据的数据治理方法及系统 |
CN117390054A (zh) * | 2023-12-08 | 2024-01-12 | 先进操作系统创新中心(天津)有限公司 | 一种国产化生态适配数据的数据治理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663557A (zh) * | 2012-04-17 | 2012-09-12 | 苏州工业园区凌志软件有限公司 | Mot管理系统及其实现方法 |
CN110134674A (zh) * | 2019-05-22 | 2019-08-16 | 中国人民银行成都分行 | 一种货币信贷大数据监测分析系统 |
CN111104394A (zh) * | 2019-12-31 | 2020-05-05 | 新奥数能科技有限公司 | 一种能源数据仓库系统构建方法及装置 |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663557A (zh) * | 2012-04-17 | 2012-09-12 | 苏州工业园区凌志软件有限公司 | Mot管理系统及其实现方法 |
CN110134674A (zh) * | 2019-05-22 | 2019-08-16 | 中国人民银行成都分行 | 一种货币信贷大数据监测分析系统 |
CN111104394A (zh) * | 2019-12-31 | 2020-05-05 | 新奥数能科技有限公司 | 一种能源数据仓库系统构建方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329156A (zh) * | 2022-10-14 | 2022-11-11 | 北京云成金融信息服务有限公司 | 基于历史数据的数据治理方法及系统 |
CN117390054A (zh) * | 2023-12-08 | 2024-01-12 | 先进操作系统创新中心(天津)有限公司 | 一种国产化生态适配数据的数据治理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10853387B2 (en) | Data retrieval apparatus, program and recording medium | |
US10558629B2 (en) | Intelligent data quality | |
CN108132957B (zh) | 一种数据库处理方法及装置 | |
CN112199433A (zh) | 一种用于城市级数据中台的数据治理系统 | |
CN110851667A (zh) | 一种多源头大量数据的整合分析方法及工具 | |
CN112527774A (zh) | 数据中台搭建方法、系统及存储介质 | |
US11379466B2 (en) | Data accuracy using natural language processing | |
CN112860769B (zh) | 一种能源规划数据管理系统 | |
CN105556517A (zh) | 智能搜索精细化 | |
CN112000656A (zh) | 基于元数据的智能化数据清洗方法及装置 | |
CN114880405A (zh) | 一种基于数据湖的数据处理方法及系统 | |
CN107590254A (zh) | 具有合并处理方法的大数据支撑平台 | |
CN112506892A (zh) | 一种基于元数据技术的指标溯源管理系统 | |
EP3979091A1 (en) | Metadata automated system | |
CN116244367A (zh) | 一种基于多模型的自定义算法的可视化大数据分析平台 | |
CN112817958A (zh) | 电力规划数据采集方法、装置及智能终端 | |
CN113742315A (zh) | 一种制造大数据处理平台及方法 | |
CN109886434B (zh) | 一种智能钻井平台维护保养系统及方法 | |
CN112416918B (zh) | 数据治理系统及其工作方法 | |
CN112416918A (zh) | 数据治理系统及其工作方法 | |
US10614091B1 (en) | Warehouse based reporting and operational reporting integration | |
CN114862233A (zh) | 智能决策方法和智能决策系统 | |
JP2017010376A (ja) | マートレス検証支援システムおよびマートレス検証支援方法 | |
CN115328442B (zh) | 基于低代码平台构建的危化品企业安全风险管控平台 | |
US11216486B2 (en) | Data retrieval apparatus, program and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |