CN107748775A - 一种基于数据质量的数据治理系统 - Google Patents

一种基于数据质量的数据治理系统 Download PDF

Info

Publication number
CN107748775A
CN107748775A CN201710962459.3A CN201710962459A CN107748775A CN 107748775 A CN107748775 A CN 107748775A CN 201710962459 A CN201710962459 A CN 201710962459A CN 107748775 A CN107748775 A CN 107748775A
Authority
CN
China
Prior art keywords
data
index
metadatabase
metadata
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710962459.3A
Other languages
English (en)
Inventor
杨琳
张绍华
刘丰源
高洪美
戴炳荣
陆雯珺
王凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Development Center of Computer Software Technology
Shanghai Industrial Institute for Research and Technology
Original Assignee
SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY filed Critical SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Priority to CN201710962459.3A priority Critical patent/CN107748775A/zh
Publication of CN107748775A publication Critical patent/CN107748775A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于数据质量的数据治理系统,该数据治理系统进行元数据的采集,通过配置底层数据源和悬挂点,形成指定系统的元数据库;对元数据库中的数据进行信息孤岛的筛查,即通过将元数据库采集到的主外键关联关系进行提取,将没有通过主外键关联形成数据流连通的信息孤岛数据在列表中展示,提示用户进行修改和完善,同时根据问题数据数量比例进行打分;对元数据中字段名、字段类型、字段长度进行和数据标准词典的比对,将任意一项不符的元数据提取出来在前端UI界面展现,实现数据标准化情况评估,同时根据问题数据比例进行打分。

Description

一种基于数据质量的数据治理系统
技术领域
本发明属于数据治理技术领域,特别涉及一种基于数据质量的数据治理系统。
背景技术
公开号为CN102012935A的专利文件,公开了“一种通过Excel对系统之间数据治理的方法,……通过Excel对系统之间数据治理的方法,以Excel插件的方式提供一个自动化的转换过程,来解决用户在系统之间数据的转换异常困难的问题,具体方法涉及访问Excel表、源系统以及其中待治理的源数据、目标系统以及符合其要求的目标数据。它包括五个流程:导出数据、载入模板、数据转换、数据校验、格式化”。
然而在数据治理领域,对于如何评价数据治理的质量,如何通过评价数据质量来提升数据治理的质量一直没有一个完整的方案。
发明内容
本发明提供一种基于数据质量的数据治理系统,以提高数据治理的质量效率。
一种基于数据质量的数据治理系统,该数据治理系统的数据治理执行以下步骤:
A1,进行元数据的采集,通过配置底层数据源和悬挂点,形成指定系统的元数据库;
A2,对元数据库中的数据进行信息孤岛的筛查,即通过将元数据库采集到的主外键关联关系进行提取,将没有通过主外键关联形成数据流连通的信息孤岛数据在列表中展示,提示用户进行修改和完善,同时根据问题数据数量比例进行打分;
A3,对元数据中字段名、字段类型、字段长度进行和数据标准词典的比对,将任意一项不符的元数据提取出来在前端UI界面展现,实现数据标准化情况评估,同时根据问题数据比例进行打分;
A4,对数据内容进行评估:
首先,对评估指标进行定制,包括完整性、一致性、精确性、唯一性、有效性、及时性和安全性指标;
系统提供检核指标制定模板,选择对应的检核目标,配置相应的检核指标,同时配置相应的指标权重,形成检核模板之中完整的一条检核指标,多个检核指标组合成一套检核模板,应用于专属的一个待检核系统中;
最后,校验元数据中字段对应的数值,形成评估结果报表,报表包括评估单项指标打分结果与其权重乘积求和的分数、情况说明,具体失分项以及各单个指标评估结果,
最终构建数据质量问题知识库,进行历史记录管理,方便后期查阅。
本发明在数据治理过程中对数据质量进行评估和管理的系统,该系统包括:UI前端界面,中端程序和后台数据库。通过对数据结构评估和数据内容评估,在结构评估中进行信息孤岛和数据标准化评估,根据问题数据比例进行打分,在数据内容评估中配置检测目标、检核指标和指标权重,实现对数据各项指标的评估打分。最后生成数据质量问题知识库。
本发明提出了利用主外键关联排除信息孤岛的方法,和利用数据标准化评估更加合理的评价数据质量,以及通过数据质量性质评估,提高数据的一致性和规范性,提高数据共享可用性和操作效率,进一步帮助企业提升数据治理能力。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1是本发明实施例中的数据治理系统流程示意图。
具体实施方式
如图1所示,系统进行元数据的采集,通过配置底层数据源和悬挂点,形成指定系统的元数据库。其次对元数据库中的数据进行信息孤岛的筛查,即通过将元数据库采集到的主外键关联关系进行提取,在前端页面将没有通过主外键关联形成数据流连通的信息孤岛数据在列表中展示,提示用户进行修改和完善,同时根据问题数据数量比例进行打分。
接下来对元数据中字段名、字段类型、字段长度等进行和数据标准词典的比对,将任意一项不符的元数据提取出来再前端UI界面展现,实现数据标准化情况评估,同时根据问题数据比例进行打分。
接着是对数据内容进行评估,首先要对评估指标进行定制,包括完整性、一致性、精确性、唯一性、有效性、及时性和安全性等几大指标,本系统提供检核指标制定模板,选择对应的检核目标,配置相应的检核指标,同时配置相应的指标权重,形成检核模板之中完整的一条检核指标,多个检核指标组合成一套检核模板,应用于专属的一个待检核系统中。最后应用该检核系统检核元数据,形成一个评估结果简要报表,包括评估单项指标打分结果与其权重乘积求和的分数,总体情况说明,可以展开详情页,查看具体失分项以及各单个指标评估结果。
最终基于上述三个步骤结果构建数据质量问题知识库,进行历史记录管理,方便后期查阅。
值得说明的是,虽然前述内容已经参考若干具体实施方式描述了本发明创造的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (1)

1.一种基于数据质量的数据治理系统,其特征在于,该数据治理系统的数据治理执行以下步骤:
A1,进行元数据的采集,通过配置底层数据源和悬挂点,形成指定系统的元数据库;
A2,对元数据库中的数据进行信息孤岛的筛查,即通过将元数据库采集到的主外键关联关系进行提取,将没有通过主外键关联形成数据流连通的信息孤岛数据在列表中展示,提示用户进行修改和完善,同时根据问题数据数量比例进行打分;
A3,对元数据中字段名、字段类型、字段长度进行和数据标准词典的比对,将任意一项不符的元数据提取出来在前端UI界面展现,实现数据标准化情况评估,同时根据问题数据比例进行打分;
A4,对数据内容进行评估:
首先,对评估指标进行定制,包括完整性、一致性、精确性、唯一性、有效性、及时性和安全性指标;
系统提供检核指标制定模板,选择对应的检核目标,配置相应的检核指标,同时配置相应的指标权重,形成检核模板之中完整的一条检核指标,多个检核指标组合成一套检核模板,应用于专属的一个待检核系统中;
最后,校验元数据中字段对应的数值,形成评估结果报表,报表包括评估单项指标打分结果与其权重乘积求和的分数、情况说明,具体失分项以及各单个指标评估结果,
最终构建数据质量问题知识库,进行历史记录管理,方便后期查阅。
CN201710962459.3A 2017-10-17 2017-10-17 一种基于数据质量的数据治理系统 Pending CN107748775A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710962459.3A CN107748775A (zh) 2017-10-17 2017-10-17 一种基于数据质量的数据治理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710962459.3A CN107748775A (zh) 2017-10-17 2017-10-17 一种基于数据质量的数据治理系统

Publications (1)

Publication Number Publication Date
CN107748775A true CN107748775A (zh) 2018-03-02

Family

ID=61253908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710962459.3A Pending CN107748775A (zh) 2017-10-17 2017-10-17 一种基于数据质量的数据治理系统

Country Status (1)

Country Link
CN (1) CN107748775A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299062A (zh) * 2018-07-02 2019-02-01 北京市天元网络技术股份有限公司 一种面向文献类数字资源元数据的质量评价方法及系统
CN109344133A (zh) * 2018-08-27 2019-02-15 成都四方伟业软件股份有限公司 一种数据治理驱动数据共享交换系统及其工作方法
CN109408502A (zh) * 2018-11-14 2019-03-01 成都四方伟业软件股份有限公司 一种数据标准处理方法、装置及其存储介质
CN110008208A (zh) * 2019-04-04 2019-07-12 北京易华录信息技术股份有限公司 一种数据治理方法及系统
CN110119395A (zh) * 2019-05-27 2019-08-13 普元信息技术股份有限公司 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法
CN114691784A (zh) * 2022-06-01 2022-07-01 杭州量之智能科技有限公司 数据治理的共享平台、共享方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477548A (zh) * 2009-01-20 2009-07-08 中国测绘科学研究院 一种基于规则的通用空间数据质量检查的技术方法
CN101576893A (zh) * 2008-05-09 2009-11-11 北京世纪拓远软件科技发展有限公司 数据质量分析方法及系统
CN102571403A (zh) * 2010-12-31 2012-07-11 北京亿阳信通软件研究院有限公司 通用数据质量管控适配器的实现方法和装置
CN105976120A (zh) * 2016-05-17 2016-09-28 全球能源互联网研究院 一种电力运营监控数据质量评估系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576893A (zh) * 2008-05-09 2009-11-11 北京世纪拓远软件科技发展有限公司 数据质量分析方法及系统
CN101477548A (zh) * 2009-01-20 2009-07-08 中国测绘科学研究院 一种基于规则的通用空间数据质量检查的技术方法
CN102571403A (zh) * 2010-12-31 2012-07-11 北京亿阳信通软件研究院有限公司 通用数据质量管控适配器的实现方法和装置
CN105976120A (zh) * 2016-05-17 2016-09-28 全球能源互联网研究院 一种电力运营监控数据质量评估系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐洁磐等: "计算机系统导论", 《计算机系统导论 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299062A (zh) * 2018-07-02 2019-02-01 北京市天元网络技术股份有限公司 一种面向文献类数字资源元数据的质量评价方法及系统
CN109344133A (zh) * 2018-08-27 2019-02-15 成都四方伟业软件股份有限公司 一种数据治理驱动数据共享交换系统及其工作方法
CN109344133B (zh) * 2018-08-27 2020-07-07 成都四方伟业软件股份有限公司 一种数据治理驱动数据共享交换系统及其工作方法
CN109408502A (zh) * 2018-11-14 2019-03-01 成都四方伟业软件股份有限公司 一种数据标准处理方法、装置及其存储介质
CN110008208A (zh) * 2019-04-04 2019-07-12 北京易华录信息技术股份有限公司 一种数据治理方法及系统
CN110119395A (zh) * 2019-05-27 2019-08-13 普元信息技术股份有限公司 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法
CN110119395B (zh) * 2019-05-27 2023-09-15 普元信息技术股份有限公司 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法
CN114691784A (zh) * 2022-06-01 2022-07-01 杭州量之智能科技有限公司 数据治理的共享平台、共享方法、设备及存储介质
CN114691784B (zh) * 2022-06-01 2022-08-23 杭州量之智能科技有限公司 数据治理的共享平台、共享方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107748775A (zh) 一种基于数据质量的数据治理系统
Streatfield et al. Cause-specific mortality in Africa and Asia: evidence from INDEPTH health and demographic surveillance system sites
Liu et al. Author name disambiguation for p ub m ed
Field et al. IAC standardized reporting of breast fine-needle aspiration biopsy cytology
CN109542965A (zh) 一种数据处理方法、电子设备及存储介质
CN105118003A (zh) 一种大病医保智能化审核系统及审核算法
CN106776515A (zh) 数据处理的方法及装置
CN106980637A (zh) Sql审核方法和装置
Wan et al. Improving government services with social media feedback
CN107533554A (zh) 文档验证系统
Ritzwoller et al. Validation of electronic data on chemotherapy and hormone therapy use in HMOs
Kwan et al. Validation of AJCC TNM staging for breast tumors diagnosed before 2004 in cancer registries
Jonnagaddala et al. Integration and analysis of heterogeneous colorectal cancer data for translational research
CN115547466A (zh) 基于大数据的医疗机构登记评审系统及其方法
CN105426379A (zh) 基于词语位置的关键字权值计算方法
Terranova et al. Assessing similarity among individual tumor size lesion dynamics: the CICIL methodology
CN105139141A (zh) 一种自动审核企业名称的方法和系统
CN103257961B (zh) 书目消重的方法、装置及系统
Mutemaringa et al. Record linkage for routinely collected health data in an African health information exchange
Kock-Schoppenhauer et al. One Step Away from Technology but One Step Towards Domain Experts—MDRBridge: A Template-Based ISO 11179-Compliant Metadata Processing Pipeline
Stell et al. The ENSAT registry: a digital repository supporting adrenal cancer research
Rebholz-Schuhmann et al. Multilingual Semantic Resources and Parallel Corpora in the Biomedical Domain: the CLEF-ER Challenge.
Donada et al. A system for supporting development and update of the International Classification of Health Interventions (ICHI)
Dong et al. Confidence interval estimation of the difference between two sensitivities to the early disease stage
CN108197133A (zh) 一种基于数据标准的数据治理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180320

Address after: 201112 technical center building, No. 1588, Minhang District joint route, Shanghai

Applicant after: Shanghai Development Center of Computer Software Technology

Applicant after: Shanghai Industrial Institute for Research and Technology

Address before: 201112 technical center building, No. 1588, Minhang District joint route, Shanghai

Applicant before: Shanghai Development Center of Computer Software Technology

TA01 Transfer of patent application right